免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

擊敗Llama 2，抗衡GPT-3.5，Stability AI新模型登頂開源大模型排行榜

用戶投稿 ? 2023年7月23日 12:19 ? 熱點

一眨眼，開源大模型又進(jìn)步了。谷歌、OpenAI真的沒有護(hù)城河?

「我就午休了30分，我們的領(lǐng)域又變了?」在看到最新的開源大模型排行榜后，一位 AI 領(lǐng)域的創(chuàng)業(yè)者發(fā)出了靈魂追問。

排行榜鏈接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上圖紅框中的「新秀」是來自 Stability AI 和 CarperAI lab 的兩個大模型:FreeWilly1和 FreeWilly2。剛剛，它們超越了 meta 三天前發(fā)布的 Llama-2-70b-hf，成功登頂 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是，F(xiàn)reeWilly2在很多基準(zhǔn)上還擊敗了 ChatGPT（GPT-3.5），成為首個真正可以和 GPT-3.5相抗衡的開源大模型，這是 Llama2都沒有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基礎(chǔ)模型構(gòu)建，并且在標(biāo)準(zhǔn) Alpaca 格式下，使用新的合成數(shù)據(jù)集進(jìn)行了仔細(xì)的有監(jiān)督微調(diào)（SFT）。FreeWilly2則基于最新的 LLaMA270B 基礎(chǔ)模型構(gòu)建。

從 Stability AI 發(fā)布的博客中，我們可以看到這兩個新模型的一些細(xì)節(jié):

數(shù)據(jù)來源

FreeWilly 模型的訓(xùn)練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創(chuàng)的方法的啟發(fā)。雖然 FreeWilly 的數(shù)據(jù)生成過程與之相似，但二者在數(shù)據(jù)來源方面存在差異。

FreeWilly 的數(shù)據(jù)集包含了60萬個數(shù)據(jù)點（大約是原始 Orca 論文使用的數(shù)據(jù)集大小的10%），它是通過以下由 Enrico Shippole 創(chuàng)建的高質(zhì)量指令數(shù)據(jù)集來啟發(fā)語言模型生成的:

COT Submix Original

NIV2Submix Original

FLAN2021Submix Original

T0Submix Original

采用這種方法，研究者使用了一個較簡單的 LLM 模型生成了50萬個示例，并使用一個更復(fù)雜的 LLM 模型生成了額外的10萬個示例。為了確保公平比較，他們仔細(xì)篩選了這些數(shù)據(jù)集，并刪除了來源于評估基準(zhǔn)測試的示例。盡管訓(xùn)練樣本數(shù)量僅為原始 Orca 論文的1/10（相比原始論文大大降低了訓(xùn)練模型的成本和碳排放），但由此產(chǎn)生的 FreeWilly 模型在各種基準(zhǔn)測試中表現(xiàn)出色，驗證了他們采用合成數(shù)據(jù)集的方法的有效性。

性能數(shù)據(jù)

為了對這些模型進(jìn)行內(nèi)部評估，研究者使用了 EleutherAI 的 lm-eval-harness 基準(zhǔn)，并加入了 AGIeval。

其中，lm-eval-harness 基準(zhǔn)由 EleutherAI 非盈利人工智能研究實驗室創(chuàng)建，前面提到的 HuggingFace Open LLM 排行榜背后運(yùn)行的就是該基準(zhǔn)，它會在 Hugging Face 計算集群的空閑周期中運(yùn)行評估，并將結(jié)果存儲在數(shù)據(jù)集中，然后在在線排行榜空間上顯示。

AGIeval 則由微軟創(chuàng)建，專門用于評估基礎(chǔ)模型在「以人為本」（human-centric）的標(biāo)準(zhǔn)化考試中的表現(xiàn)，比如數(shù)學(xué)競賽、律師資格考試。

在許多方面，兩個 FreeWilly 模型表現(xiàn)都非常出色，包括復(fù)雜的推理、理解語言的微妙之處，以及回答涉及專業(yè)領(lǐng)域（如法律和數(shù)學(xué)問題）的復(fù)雜問題。

兩個模型在 lm-eval-harness 基準(zhǔn)上的評估結(jié)果如下（這些 FreeWilly 測試結(jié)果是由 Stability AI 研究人員來評估的）:

二者在 AGIeval 基準(zhǔn)上的表現(xiàn)如下（全部是0-shot）:

此外，他們還在 GPT4ALL 基準(zhǔn)上對兩個模型進(jìn)行了測試（全部是0-shot）:

總體來看，這兩個模型的性能表現(xiàn)都非常優(yōu)秀，進(jìn)一步縮小了與 ChatGPT 等頂級 AI 大模型的差距。想要獲取模型的同學(xué)可以點擊以下鏈接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

從各方反應(yīng)來看，F(xiàn)reeWilly 模型的出現(xiàn)給大家?guī)砹艘稽c小小的震撼，因為它們來得實在是太快了，畢竟 Llama2才剛剛推出3天，排行榜位置都沒坐熱。有位研究者表示，他最近剛做了眼科手術(shù)，一個星期沒看新聞，但感覺自己已經(jīng)昏迷了一年。所以，這是一段「不能眨眼」的時期。

不過，需要注意的是，雖然兩個模型都是開放獲取的，但和 Llama2不同，它們是以非商業(yè)許可的形式發(fā)布的，僅可用于研究目的。

然而，這樣的做法引起了網(wǎng)友質(zhì)疑。

對此，Stability AI的研究者回復(fù)說，這種情況（僅用于研究目的）只是暫時的，未來，F(xiàn)reeWilly 有望像 Llama2一樣允許商用。

此外，也有人對測試采用的基準(zhǔn)產(chǎn)生了質(zhì)疑:

這也是當(dāng)前一個比較棘手的問題。此前，F(xiàn)alcon 模型在 HuggingFace 排行榜上碾壓 Llama 的事件備受爭議，后來，該事件徹底反轉(zhuǎn)，事實證明 Llama 并未被 Falcon 碾壓，HuggingFace 也為此重寫了排行榜代碼。在大模型層出不窮的今天，如何有效地評估這些模型依然是一個值得討論的問題。因此，對于這些登頂排行榜的模型，我們有必要保持更加謹(jǐn)慎的態(tài)度，等待更多的評測結(jié)果出爐。

參考鏈接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

特斯拉美國庫存車降價：稅額補(bǔ)貼后比國產(chǎn)版還便宜 21.9萬元

上一篇 2023年7月23日 12:18

西安品牌衣服在哪里批發(fā)(西安品牌衣服在哪里批發(fā))

下一篇 2023年7月23日 12:23

日本電視劇收視率歷史排名(電視劇收視率歷史排名)
收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時候總會去看，好像如果這個夏天沒有看這個電視劇，夏天好像就沒有到來?？梢娺@部電視劇對于…
2024年1月24日
0
液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦？
液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備，其核心功能是傳遞能量，實現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用，液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…
2024年1月24日
0
湖南暴雪已致1萬多人受災(zāi)
據(jù)@湖南氣象，22日7時至23日7時，湘中、湘南出現(xiàn)大到暴雪，長沙（瀏陽）、株洲（醴陵、茶陵）等13個縣市區(qū)出現(xiàn)大暴雪，郴州（北湖區(qū)）、株洲（荷塘區(qū)）出現(xiàn)特大暴雪；全省23個縣市…
2024年1月24日
0
落馬貪官退贓像“割肉”，詢問能不能少交點
“就像割我身上的肉一般，會讓我痛不欲生?！?24日，中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財…
2024年1月24日
0
中國gdp排行榜城市(中國gdp排行榜)
中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計局官網(wǎng)信息顯示，2023年各省排名，廣東：GDP為1243667億。江蘇：GDP為116362億。山東：GDP為83099億。浙江：GDP為…
2024年1月24日
0
SK-II大中華區(qū)季度銷售額暴跌34%，寶潔：日本核污水排海是主因
財聯(lián)社1月24日訊（編輯卞純）全球日用消費(fèi)品巨頭寶潔公司（ProcterGamble）周二表示，在截至12月底的第二財季，其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%，…
2024年1月24日
0
呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”：涉事人已被辭退
呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”：涉事人已被辭退原標(biāo)題：呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”：涉事人已被辭退央視網(wǎng)消息：據(jù)@呼和浩特白塔國際機(jī)場消息，呼和浩…
2024年1月24日
0
退休職工舉報局長被判刑，被舉報人卻提級退休把人看懵了
文|龍之朱又見錯抓錯判上了熱搜。據(jù)媒體報道，從2016年3月起，安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實名向紀(jì)檢部門舉報局長王超經(jīng)濟(jì)問題，均石沉大海。 2017年7月，李平夫婦及親…
2024年1月24日
0
6寸蛋糕用5斤車?yán)遄拥昙业狼?
【#6寸蛋糕用5斤車?yán)遄拥昙业狼?：客服能力不足，多報了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日，有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日，涉事店家就“6寸…
2024年1月24日
0
格蘭芬多院徽簡筆畫(格蘭芬多院徽)
哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院，一共分為四個學(xué)院，分別是：格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…
2024年1月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息