免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      2022年3月,DeepMind 一篇論文《Training Compute-Optimal Large Language Models》通過構(gòu)建的 Chinchilla 模型得出了一個結(jié)論:大模型存在訓(xùn)練不足的缺陷,模型大小和訓(xùn)練 token 的數(shù)量應(yīng)該以相等的比例擴(kuò)展。也就是說模型越大,所使用的訓(xùn)練 token 也應(yīng)該越多。

      但事實(shí)可能并非如此,近日,博主 Thaddée Yann TYL 寫了一篇題為《Chinchilla 之死》的文章,其中分析解讀了 OpenAI 與 DeepMind 幾篇論文中的細(xì)節(jié),得到了一個出人意料的結(jié)論:如果有充足的計算資源和數(shù)據(jù),訓(xùn)練足夠長時間,小模型的表現(xiàn)也可以超越大模型。

      多算勝,少算不勝?!秾O子兵法》

      為了避免將算力浪費(fèi)于緩慢的收斂過程中,進(jìn)行外推是非常重要的。畢竟,如果你不得不步行去珠穆朗瑪峰,你不會只靠眼睛辨別方向,而是會使用 GPS。

      但有時候,你又不得不把視線從 GPS 上移開,看看道路。有些東西是無法通過簡單的公式推斷出來的。對十九世紀(jì)的物理學(xué)家來說,紫外災(zāi)變( Ultraviolet catastrophe)便是如此;而現(xiàn)在,LLM 亦是如此。我們估計在中心位置附近有效的東西可能在遠(yuǎn)處會出現(xiàn)巨大的偏差……

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      Chinchilla 到底是什么?

      更小的模型執(zhí)行的乘法更少,因而訓(xùn)練得也更快。但是,按照理論,更小的模型最終會觸及自身知識容量的極限,并且學(xué)習(xí)速度會變慢;而有更大知識容量的大型模型在經(jīng)過給定的訓(xùn)練時間后會超過小模型,取得更好的性能表現(xiàn)。

      在評估如何在訓(xùn)練期間獲得最佳性價比時,OpenAI 和 DeepMind 都會試圖繪制帕累托邊界(Pareto frontier)。雖然他們沒有明確說明他們使用了該理論來繪制,但 OpenAI 曾說過的一句話暗示存在這個隱藏假設(shè):

      這一假設(shè)是他們計算帕累托邊界的基石。在 Chinchilla 研究中,圖2展示了不同大小的模型經(jīng)過大量訓(xùn)練時的訓(xùn)練損失變化情況。初看之下,這些曲線與理論相符:更小的模型一開始的損失更低(表現(xiàn)更好),但損失降低的速度最終變慢并被更大模型的曲線超越。

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      比較許多不同模型大小的損失曲線的 Chinchilla 圖。

      在這幅圖中,每當(dāng)更小的模型輸給一個更大的模型時,他們就會標(biāo)記一個灰點(diǎn)。這些點(diǎn)連成的灰線便是帕累托邊界,這是他們計算縮放定律(scaling laws)的方式。

      這一假設(shè)有個問題:我們不知道如果讓更小的模型訓(xùn)練更長時間會發(fā)生什么,因?yàn)樗麄冊谛∧P捅怀綍r就不再繼續(xù)訓(xùn)練它們了。

      接下來在看看 Llama 論文。

      Chinchilla 會有 Llama 的視野嗎?

      今年初,meta 訓(xùn)練了四個不同大小的模型。不同于其它研究,其中每個模型都被訓(xùn)練了非常長時間,較小的模型也一樣。

      他們公布了所得到的訓(xùn)練曲線:

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      四個不同大小的 Llama 模型的訓(xùn)練損失曲線

      1. 每條曲線首先按照冪律大幅下降。

      2. 然后損失開始近乎線性地下降(對應(yīng)于一個相當(dāng)恒定的知識獲取率)。

      3. 在這條曲線的最右端,直線趨勢被稍微打破,因?yàn)樗鼈兩晕⒆兏骄徚艘恍?/p>

      首先,對于曲線末端的變平情況,這里解釋一下人們可能有的一個微妙的誤解。這些模型都是通過梯度下降訓(xùn)練的并且使用了可變的學(xué)習(xí)率(大致來說,這個超參數(shù)定義了每次朝梯度方向前進(jìn)的程度)。為了獲得優(yōu)良的訓(xùn)練效果,學(xué)習(xí)率必須不斷降低,這樣模型才能檢測到源材料中更細(xì)微的模式。他們用于降低學(xué)習(xí)率的公式是最常用的余弦調(diào)度(cosine schedule)。

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      在余弦調(diào)度下,學(xué)習(xí)率與訓(xùn)練步數(shù)的函數(shù)關(guān)系:學(xué)習(xí)率首先線性增長,然后下降且下降速度變快,之后到達(dá)中途一個轉(zhuǎn)折點(diǎn),下降速度再減慢。

      從這張圖中可以看到,在訓(xùn)練結(jié)束時,余弦調(diào)度會停止降低學(xué)習(xí)率,此時已經(jīng)得到一個很好的近乎線性的訓(xùn)練損失曲線。學(xué)習(xí)速度減慢就是這種做法造成的。模型并不一定不再具有以同樣近乎線性的速率學(xué)習(xí)的能力!事實(shí)上,如果我們能為其提供更多文本,我們就能延長其余弦調(diào)度,這樣其學(xué)習(xí)率就會繼續(xù)以同樣速率下降。

      模型的適應(yīng)度圖景并不取決于我們供給它訓(xùn)練的數(shù)據(jù)量;所以學(xué)習(xí)率下降趨勢的改變是沒有道理的。

      不過這并非本文的重點(diǎn)。

      訓(xùn)練損失曲線可能在另一方向上也存在誤導(dǎo)性。當(dāng)然,它們訓(xùn)練使用的數(shù)據(jù)是一樣的,但它們處理這些數(shù)據(jù)的速度不同。我們想知道的并不是模型的樣本效率如何(在這方面,更大的模型顯然可以從其所見數(shù)據(jù)中學(xué)到更多)。讓我們想象一場比賽:所有這些模型同時開始起步,我們想知道哪個模型首先沖過終點(diǎn)線。換句話說,當(dāng)在訓(xùn)練時間投入固定量的算力時,哪個模型能在那段時間內(nèi)學(xué)到更多?

      幸好我們可以把這些損失曲線與 meta 提供的另一些數(shù)據(jù)組合起來看:每個模型訓(xùn)練所用的時間。

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      先來談?wù)勆厦嫖覀兛催^的那張 Chinchilla 圖,其僅占這張圖左側(cè)的一小部分。在這一小部分,可以看到 Chinchilla 記錄的相同行為。以7B 版本為例:其損失的下降速度一開始比更大的模型快得多,然后減慢;之后13B 版本模型超過了它,率先到達(dá)1.9。

      然后,抵達(dá)邊境之地,意外的轉(zhuǎn)折出現(xiàn)了:7B 版本進(jìn)入了近乎線性的疆域,損失穩(wěn)步下降,看起來似乎走上了反超13B 版本之路?如果能訓(xùn)練7B 版本更長時間,說不好會發(fā)生什么。

      但是,13B 和33B 版本之間似乎也有類似的現(xiàn)象,其中13B 版本起初的 Chinchilla 減慢也使其呈現(xiàn)出近乎線性的趨勢,這時候13B 版本的損失下降速度似乎很快!33B 其實(shí)勝之不武,因?yàn)樗?3B 版本時已經(jīng)用去了超過兩倍的計算時間。

      33B 和65B 版本之間也有同樣的先減速再加速的現(xiàn)象,以至于33B 實(shí)際上從未被65B 超越。這幅圖的內(nèi)容擊破了 OpenAI 和 Chinchilla 的假設(shè):更大的模型并未取得勝利(至少說還沒有)。他們檢測到的這種減速實(shí)際上并不是由于達(dá)到了某個能力極限!

      盡管如此,7B 模型的線還是有點(diǎn)不盡如人意。如果 meta 能訓(xùn)練更長時間就好了……

      不賣關(guān)子了:他們訓(xùn)練了!他們發(fā)布了 Llama2!

      是時候證實(shí)我們的懷疑了

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      四個不同大小的 Llama2模型的訓(xùn)練損失曲線

      同樣,可以得到訓(xùn)練時間:

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      Llama2訓(xùn)練損失與所耗費(fèi)的 GPU 時間

      一眼便能看出,這里的訓(xùn)練損失曲線與 Llama1的不一樣,即便這些基礎(chǔ)模型是一樣的。事實(shí)證明, Llama2的訓(xùn)練使用了雙倍上下文大小和更長的余弦調(diào)度 —— 不幸的是,這會對所有模型大小產(chǎn)生負(fù)面影響。但是,更小的模型受到的影響比更大的模型更嚴(yán)重。由此造成的結(jié)果是:在 Llama1的訓(xùn)練時間,33B 模型總是優(yōu)于65B 模型;而在 Llama2的訓(xùn)練時間,34B 模型則在重新超過70B 模型之前要略遜一籌。

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      更重要的是,對訓(xùn)練速度的比較強(qiáng)烈地佐證了之前對 Llama1的猜想:

      1. 一開始時,更小的模型快于更大的模型。

      2. 然后,更小的模型速度變慢,并被更大的模型超越(按照 Chinchilla)。

      3. 但再然后,模型進(jìn)入近乎線性的區(qū)域,這時候更小的模型能更快地下降,獲取更優(yōu)的知識,它們再次超越更大的模型。

      這就帶來了一個有關(guān)訓(xùn)練方法的結(jié)論:與普遍的看法相反,更大的模型會產(chǎn)生更差的結(jié)果。如果你必須選擇一個參數(shù)大小和數(shù)據(jù)集,你可能最好選擇7B 模型,然后在數(shù)萬億 token 上訓(xùn)練7epoch。

      請看看7B 模型近乎線性的區(qū)域,然后將其模式外推給70B 模型,看看70B 模型訓(xùn)練停止時的情況:如果將70B 模型的訓(xùn)練資源花在7B 模型上,可能會達(dá)到更低的困惑度!

      從 Llama2的曲線還能看到另一點(diǎn):Llama1曲線末端的學(xué)習(xí)減速實(shí)際上是余弦調(diào)度造成的。在 Llama2的訓(xùn)練中,在對應(yīng)于1萬億 token 讀取數(shù)的位置,就完全沒有這種減速。

      事實(shí)上,原因可能是這樣的:在同一位置, Llama27B 模型的質(zhì)量低于 Llama17B 模型,可能是因?yàn)槠溆嘞艺{(diào)度被拉長了!

      現(xiàn)在我們回到那篇 Chinchilla 論文來論證這一點(diǎn)。在該論文的附錄 A 的圖 A1中,他們給出了一個不同余弦調(diào)度參數(shù)的消融實(shí)驗(yàn),換句話說就是對學(xué)習(xí)率曲線使用不同的延展方式。

      Chinchilla之死:只要訓(xùn)練足夠長時間,小模型也能超過大模型

      Chinchilla 余弦調(diào)度消融研究

      他們指出,當(dāng)學(xué)習(xí)率曲線沒有延展時,能實(shí)現(xiàn)最低的損失。這得到了圖表的支持,但其中也有不對勁的地方。在讀取了600萬 token 后,上圖模型的訓(xùn)練損失低于2.8;與此同時,在相同的位置,下圖模型的訓(xùn)練損失還更好。然而這兩個模型的差異僅僅是余弦調(diào)度!由于下圖模型注定會處理更多訓(xùn)練數(shù)據(jù),所以就計算了「未拉伸的」余弦調(diào)度更多步驟,這實(shí)際上產(chǎn)生了拉伸效果。如果學(xué)習(xí)率遵循分配給更少訓(xùn)練步驟的余弦調(diào)度,其在同等訓(xùn)練時間下的損失會更低。

      更廣泛地說,這會引出一個有待解答的問題:如果余弦調(diào)度不是最優(yōu)的,那么曲線的尾部形狀應(yīng)該是什么樣子?

      原文鏈接:

      https://espadrine.github.io/blog/posts/chinchilla-s-death.html

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年10月3日 12:15
      下一篇 2023年10月3日 12:15

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時候總會去看,好像如果這個夏天沒有看這個電視劇,夏天好像就沒有到來??梢娺@部電視劇對于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時至23日7時,湘中、湘南出現(xiàn)大到暴雪,長沙(瀏陽)、株洲(醴陵、茶陵)等13個縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢問能不能少交點(diǎn)

        “就像割我身上的肉一般,會讓我痛不欲生?!?24日,中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財…

        2024年1月24日
      • 中國gdp排行榜城市(中國gdp排行榜)

        中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

        財聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機(jī)場 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報局長被判刑,被舉報人卻提級退休把人看懵了

        文|龍之朱 又見錯抓錯判上了熱搜。 據(jù)媒體報道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報局長王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡筆畫(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時間:周一至周五,10:30-18:30,節(jié)假日休息