免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      一眨眼,開源大模型又進(jìn)步了。谷歌、OpenAI真的沒有護(hù)城河?

      「我就午休了30分,我們的領(lǐng)域又變了?」在看到最新的開源大模型排行榜后,一位 AI 領(lǐng)域的創(chuàng)業(yè)者發(fā)出了靈魂追問。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      排行榜鏈接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

      上圖紅框中的「新秀」是來自 Stability AI 和 CarperAI lab 的兩個大模型:FreeWilly1和 FreeWilly2。剛剛,它們超越了 meta 三天前發(fā)布的 Llama-2-70b-hf,成功登頂 HuggingFace 的 Open LLM 排行榜榜首。

      更引人注目的是,F(xiàn)reeWilly2在很多基準(zhǔn)上還擊敗了 ChatGPT(GPT-3.5),成為首個真正可以和 GPT-3.5相抗衡的開源大模型,這是 Llama2都沒有做到的事情。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      FreeWilly1基于原始的 LLaMA65B 基礎(chǔ)模型構(gòu)建,并且在標(biāo)準(zhǔn) Alpaca 格式下,使用新的合成數(shù)據(jù)集進(jìn)行了仔細(xì)的有監(jiān)督微調(diào)(SFT)。FreeWilly2則基于最新的 LLaMA270B 基礎(chǔ)模型構(gòu)建。

      從 Stability AI 發(fā)布的博客中,我們可以看到這兩個新模型的一些細(xì)節(jié):

      數(shù)據(jù)來源

      FreeWilly 模型的訓(xùn)練方法直接受到了微軟在其論文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首創(chuàng)的方法的啟發(fā)。雖然 FreeWilly 的數(shù)據(jù)生成過程與之相似,但二者在數(shù)據(jù)來源方面存在差異。

      FreeWilly 的數(shù)據(jù)集包含了60萬個數(shù)據(jù)點(大約是原始 Orca 論文使用的數(shù)據(jù)集大小的10%),它是通過以下由 Enrico Shippole 創(chuàng)建的高質(zhì)量指令數(shù)據(jù)集來啟發(fā)語言模型生成的:

      COT Submix Original

      NIV2Submix Original

      FLAN2021Submix Original

      T0Submix Original

      采用這種方法,研究者使用了一個較簡單的 LLM 模型生成了50萬個示例,并使用一個更復(fù)雜的 LLM 模型生成了額外的10萬個示例。為了確保公平比較,他們仔細(xì)篩選了這些數(shù)據(jù)集,并刪除了來源于評估基準(zhǔn)測試的示例。盡管訓(xùn)練樣本數(shù)量僅為原始 Orca 論文的1/10(相比原始論文大大降低了訓(xùn)練模型的成本和碳排放),但由此產(chǎn)生的 FreeWilly 模型在各種基準(zhǔn)測試中表現(xiàn)出色,驗證了他們采用合成數(shù)據(jù)集的方法的有效性。

      性能數(shù)據(jù)

      為了對這些模型進(jìn)行內(nèi)部評估,研究者使用了 EleutherAI 的 lm-eval-harness 基準(zhǔn),并加入了 AGIeval。

      其中,lm-eval-harness 基準(zhǔn)由 EleutherAI 非盈利人工智能研究實驗室創(chuàng)建,前面提到的 HuggingFace Open LLM 排行榜背后運(yùn)行的就是該基準(zhǔn),它會在 Hugging Face 計算集群的空閑周期中運(yùn)行評估,并將結(jié)果存儲在數(shù)據(jù)集中,然后在在線排行榜空間上顯示。

      AGIeval 則由微軟創(chuàng)建,專門用于評估基礎(chǔ)模型在「以人為本」(human-centric)的標(biāo)準(zhǔn)化考試中的表現(xiàn),比如數(shù)學(xué)競賽、律師資格考試。

      在許多方面,兩個 FreeWilly 模型表現(xiàn)都非常出色,包括復(fù)雜的推理、理解語言的微妙之處,以及回答涉及專業(yè)領(lǐng)域(如法律和數(shù)學(xué)問題)的復(fù)雜問題。

      兩個模型在 lm-eval-harness 基準(zhǔn)上的評估結(jié)果如下(這些 FreeWilly 測試結(jié)果是由 Stability AI 研究人員來評估的):

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      二者在 AGIeval 基準(zhǔn)上的表現(xiàn)如下(全部是0-shot):

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      此外,他們還在 GPT4ALL 基準(zhǔn)上對兩個模型進(jìn)行了測試(全部是0-shot):

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      總體來看,這兩個模型的性能表現(xiàn)都非常優(yōu)秀,進(jìn)一步縮小了與 ChatGPT 等頂級 AI 大模型的差距。想要獲取模型的同學(xué)可以點擊以下鏈接。

      FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

      FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

      從各方反應(yīng)來看,F(xiàn)reeWilly 模型的出現(xiàn)給大家?guī)砹艘稽c小小的震撼,因為它們來得實在是太快了,畢竟 Llama2才剛剛推出3天,排行榜位置都沒坐熱。有位研究者表示,他最近剛做了眼科手術(shù),一個星期沒看新聞,但感覺自己已經(jīng)昏迷了一年。所以,這是一段「不能眨眼」的時期。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      不過,需要注意的是,雖然兩個模型都是開放獲取的,但和 Llama2不同,它們是以非商業(yè)許可的形式發(fā)布的,僅可用于研究目的。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      然而,這樣的做法引起了網(wǎng)友質(zhì)疑。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      對此,Stability AI的研究者回復(fù)說,這種情況(僅用于研究目的)只是暫時的,未來,F(xiàn)reeWilly 有望像 Llama2一樣允許商用。

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      此外,也有人對測試采用的基準(zhǔn)產(chǎn)生了質(zhì)疑:

      擊敗Llama 2,抗衡GPT-3.5,Stability AI新模型登頂開源大模型排行榜

      這也是當(dāng)前一個比較棘手的問題。此前,F(xiàn)alcon 模型在 HuggingFace 排行榜上碾壓 Llama 的事件備受爭議,后來,該事件徹底反轉(zhuǎn),事實證明 Llama 并未被 Falcon 碾壓,HuggingFace 也為此重寫了排行榜代碼。在大模型層出不窮的今天,如何有效地評估這些模型依然是一個值得討論的問題。因此,對于這些登頂排行榜的模型,我們有必要保持更加謹(jǐn)慎的態(tài)度,等待更多的評測結(jié)果出爐。

      參考鏈接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年7月23日 12:18
      下一篇 2023年7月23日 12:23

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時候總會去看,好像如果這個夏天沒有看這個電視劇,夏天好像就沒有到來??梢娺@部電視劇對于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時至23日7時,湘中、湘南出現(xiàn)大到暴雪,長沙(瀏陽)、株洲(醴陵、茶陵)等13個縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢問能不能少交點

        “就像割我身上的肉一般,會讓我痛不欲生?!?24日,中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財…

        2024年1月24日
      • 中國gdp排行榜城市(中國gdp排行榜)

        中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

        財聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場通報“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機(jī)場 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報局長被判刑,被舉報人卻提級退休把人看懵了

        文|龍之朱 又見錯抓錯判上了熱搜。 據(jù)媒體報道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實名向紀(jì)檢部門舉報局長王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報了2斤車?yán)遄印?遇到商家虛假宣傳你會怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡筆畫(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時間:周一至周五,10:30-18:30,節(jié)假日休息