免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      全面超越LLaMA2,月下載量超三百萬,國產(chǎn)開源大模型如何成為新晉頂流?

      全面超越LLaMA2,月下載量超三百萬,國產(chǎn)開源大模型如何成為新晉頂流?

      圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

      回想兩個(gè)月前,LLaMA2的開源,曾以一己之力改變了大模型領(lǐng)域的競(jìng)爭(zhēng)格局。

      相比于今年2月推出的第一代 LLaMA,LLaMA2在推理、編碼、精通性和知識(shí)測(cè)試等任務(wù)中都實(shí)現(xiàn)了性能的大幅提升,甚至可以在某些數(shù)據(jù)集上接近 GPT-3.5。由于其強(qiáng)大的性能和開源的特質(zhì),LLaMA2在發(fā)布后的一周內(nèi)就接收到了超過15萬次的下載請(qǐng)求,并吸引了大量開發(fā)者進(jìn)行「二創(chuàng)」。

      但大模型技術(shù)的進(jìn)化速度經(jīng)常超乎預(yù)期。一覺醒來,發(fā)現(xiàn)大模型的性能上限被再次刷新,這在最近是經(jīng)常發(fā)生的事情。

      近期就有一位「選手」,在開源大模型社區(qū)的關(guān)注度不斷攀升,逐漸超越 LLaMA2成為了新晉頂流。

      在 Huggingface 社區(qū),「Baichuan」系列是過去一個(gè)月下載量全球最高的開源大模型,它來自一家成立僅五個(gè)月的中國公司 —— 百川智能。

      在 ChatGPT 爆火之初,王小川即宣布入局大模型,并迅速組建起大模型技術(shù)團(tuán)隊(duì)。自成立以來,這家公司保持了平均每月更新一款大模型的驚人節(jié)奏:6月15日,發(fā)布 Baichuan-7B;7月11日,發(fā)布 Baichuan-13B;這兩款免費(fèi)可商用的中文開源大模型之后,8月8日,搜索增強(qiáng)大模型 Baichuan-53B 面世。

      9月6日,百川智能又一次宣布了重量級(jí)更新:Baichuan2-7B、Baichuan2-13B 的 base 和 Chat 版本同時(shí)開源,并提供了 Chat 版本的4bits 量化,且均為免費(fèi)可商用。

      平均28天發(fā)布一款大模型,這是國產(chǎn)開源大模型的迭代速度,也代表了中國開源力量迎頭趕上的決心。

      迄今,Baichuan-7B 和 Baichuan-13B 這兩款開源大模型目前的下載量已經(jīng)突破500萬,其中近一個(gè)月的下載量就有300多萬。除開發(fā)者之外,也有200多家企業(yè)申請(qǐng)部署開源大模型。

      未來的大模型競(jìng)爭(zhēng)格局中,誰能占據(jù)核心地位仍是未知。但不難想象的是,既已實(shí)現(xiàn)對(duì) LLaMA2的超越,再加上驚人的迭代速度,國產(chǎn)開源大模型的黃金時(shí)代應(yīng)該不遠(yuǎn)了。

      Baichuan2下載地址:https://github.com/baichuan-inc/Baichuan2

      國產(chǎn)開源大模型,全面趕超 LLaMA2

      讓整個(gè)領(lǐng)域感到驚訝的不只是「Baichuan」系列的更新速度,還有其迭代后的模型能力。

      曾曝光 GPT-4技術(shù)細(xì)節(jié)的軟件開發(fā)者、Kaggle大神、 Deep trading 創(chuàng)始人 Yam Peleg 通讀了 Baichuan2的技術(shù)報(bào)告,直言這是一次相當(dāng)重大的改進(jìn)。

      他特別提到一點(diǎn):「就像 GPT-4的報(bào)告一樣,團(tuán)隊(duì)在訓(xùn)練開始前就預(yù)測(cè)了最終損失。為此,他們訓(xùn)練了從1千萬到3億的小模型,并根據(jù)這些模型的損失預(yù)測(cè)了大模型的最終損失。據(jù)我所知,這是首個(gè)能夠復(fù)制這一程序的開源模型?!?/p>

      基于上一代 Baichuan 大模型,Baichuan2保留了良好的生成與創(chuàng)作能力、流暢的多輪對(duì)話能力以及部署門檻較低等眾多特性,同時(shí)實(shí)現(xiàn)了數(shù)學(xué)、代碼、安全、邏輯推理、語義理解等能力的大幅提升。

      根據(jù)公開的 Baichuan2技術(shù)報(bào)告,Baichuan2-7B-base 和 Baichuan2-13B-base 均基于2.6萬億高質(zhì)量多語言數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)來源十分廣泛:

      同時(shí),Baichuan2建立了一個(gè)可在數(shù)小時(shí)內(nèi)對(duì)萬億規(guī)模的數(shù)據(jù)進(jìn)行聚類和重復(fù)數(shù)據(jù)刪除的系統(tǒng),提升了預(yù)訓(xùn)練中數(shù)據(jù)采樣的質(zhì)量。

      此外,Tokenizer 需要平衡提高推理效率的高壓縮率以及適當(dāng)大小的詞匯量,以確保每個(gè)詞嵌入的充分訓(xùn)練。在 Baichuan2的訓(xùn)練中,詞匯量從 Baichuan1的64,000個(gè)擴(kuò)大到了125,696個(gè)。

      這些方法,最終使得 Baichuan2在計(jì)算效率和模型性能之間取得了更好的平衡。

      在 MMLU、CMMLU、GSM8K 等多項(xiàng)權(quán)威基準(zhǔn)上,Baichuan2均以絕對(duì)優(yōu)勢(shì)領(lǐng)先 LLaMA2。

      如表5所示,在法律領(lǐng)域,Baichuan2-7B-base 超越了 GPT-3.5Turbo、ChatGLM2-6B 和 LLaMA2-7B 等模型,僅次于 GPT-4,與 Baichuan1-7B 相比提高了近30%;在醫(yī)療領(lǐng)域,Baichuan2-7B-base 的表現(xiàn)明顯優(yōu)于 ChatGLM2-6B 和 LLaMA2-7B,與 Baichuan1-7B 相比也有顯著提高。同樣,在這兩個(gè)領(lǐng)域,Baichuan2-13B-base 則超越了同尺寸所有模型。

      如表6所示,在數(shù)學(xué)領(lǐng)域,Baichuan2-7B base 超越了 LLaMA2-7B 等模型,Baichuan2-13B-base 超越了所有相同規(guī)模的模型,接近 GPT-3.5Turbo 的水平;在代碼領(lǐng)域,Baichuan2-7B base 超越了同等規(guī)模的 ChatGLM2-6B 等模型,Baichuan2-13B-base 優(yōu)于 LLaMA2-13B 和 XVERSE-13B 等模型。

      盡管 GPT-4在多語言領(lǐng)域仍占主導(dǎo)地位,但開源模型正緊追不舍。如表7所示,在多語言場(chǎng)景的任務(wù)評(píng)估中,Baichuan2-7B-base 在所有七項(xiàng)任務(wù)中都超過了所有同等規(guī)模的模型;Baichuan2-13B 在四項(xiàng)任務(wù)中的表現(xiàn)優(yōu)于相同規(guī)模的模型,其中在 zh-en 和 zh-ja 任務(wù)上超過了 GPT3.5Turbo,達(dá)到了 GPT-4的水平。

      更適合中國開發(fā)者的國產(chǎn)開源大模型

      對(duì)于中國的眾多開發(fā)者來說,Baichuan2的開源是一個(gè)令人振奮的好消息。

      這就要提到 LLaMA2的「開源爭(zhēng)議」。meta 官宣的第二天,便有開發(fā)者拋出質(zhì)疑:LLaMA2不屬于真正的「開源」,所謂的「可商用協(xié)議」本質(zhì)上附加了許多限制。首先,Llama2的語料庫以英文(89.7%)為主,中文僅占據(jù)其中0.13%,因此在中文場(chǎng)景任務(wù)中并不占優(yōu)勢(shì)。其次,Llama2在協(xié)議中明確禁止非英文場(chǎng)景的商用。

      Baichuan2的能力完全可以與 LLaMA2相媲美,甚至超越。而且在「免費(fèi)商用」這件事上,Baichuan2實(shí)踐得更加徹底,彌補(bǔ)了中國開源生態(tài)的短板,讓中國開發(fā)者用上了對(duì)中文場(chǎng)景更友好的開源大模型。Baichuan2-7B 和 Baichuan2-13B 不僅對(duì)學(xué)術(shù)研究完全開放,企業(yè)也僅需郵件申請(qǐng)獲得官方商用許可后,即可免費(fèi)商用。

      更具備長(zhǎng)期價(jià)值的一點(diǎn)是,這次徹底的、完全的開源,能夠幫助大模型學(xué)術(shù)機(jī)構(gòu)、開發(fā)者和企業(yè)用戶更深入的了解 Baichuan2的訓(xùn)練過程,推動(dòng)社區(qū)對(duì)大模型學(xué)術(shù)層面的深入研究。

      從理論研究的角度,大模型訓(xùn)練包含海量高質(zhì)量數(shù)據(jù)獲取、大規(guī)模訓(xùn)練集群穩(wěn)定訓(xùn)練、模型算法調(diào)優(yōu)等多個(gè)環(huán)節(jié)。每個(gè)環(huán)節(jié)都需要大量人才、算力等資源的投入。由于大部分開源模型只能做到對(duì)外公開自身模型權(quán)重,卻很少提及訓(xùn)練細(xì)節(jié),所以企業(yè)、研究機(jī)構(gòu)、開發(fā)者們只能自己摸索著訓(xùn)練模型,或是在開源模型的基礎(chǔ)上做有限的微調(diào),很難深入。LLaMA2也是一樣,最受關(guān)注的「數(shù)據(jù)處理」層面恰恰沒有開源,因此參考意義有限。

      但在總共28頁的 Baichuan2技術(shù)報(bào)告中,團(tuán)隊(duì)詳細(xì)介紹了 Baichuan2訓(xùn)練的全過程,包括數(shù)據(jù)處理、模型結(jié)構(gòu)優(yōu)化、Scaling law、過程指標(biāo)等關(guān)鍵細(xì)節(jié)。

      本著協(xié)作和持續(xù)改進(jìn)的精神,百川智能還公布了3000億到2.6萬億 Token 模型訓(xùn)練的 checkponits,供社區(qū)研究使用:

      就當(dāng)前的開源生態(tài)來說,這種公布訓(xùn)練模型過程的方式稱得上「首次」。

      這些技術(shù)細(xì)節(jié)的開放,對(duì)于科研機(jī)構(gòu)研究大模型訓(xùn)練過程、模型繼續(xù)訓(xùn)練和模型的價(jià)值觀對(duì)齊等極具價(jià)值,將極大推動(dòng)國內(nèi)大模型的科研進(jìn)展。

      「開源」與「閉源」:相互競(jìng)爭(zhēng),相互促進(jìn)

      在這場(chǎng)由 ChatGPT 打響的大模型競(jìng)賽中,「開源」與「閉源」之爭(zhēng)已經(jīng)上演。正如今年5月的一篇「谷歌內(nèi)部文章」所說,「谷歌、OpenAI 沒有護(hù)城河」,由一兩家科技公司構(gòu)建和維護(hù)的技術(shù)高墻總會(huì)被打破,開源的力量將使得大模型技術(shù)真正易用和可用。

      而且這種競(jìng)爭(zhēng)態(tài)勢(shì)將長(zhǎng)期存在:今后的大模型格局中,「開源」與「閉源」最終會(huì)并駕齊驅(qū),如同手機(jī)操作系統(tǒng)領(lǐng)域的 iOS 和 Android。不斷刷新的模型性能、率先實(shí)現(xiàn)「免費(fèi)商用」、更加全面的社區(qū)生態(tài),都是開源大模型能獲得更多開發(fā)者支持的優(yōu)勢(shì)所在。

      縱觀當(dāng)前的開源大模型,達(dá)到 GPT3.5的水平已經(jīng)不再是難題,大家正在探索的重點(diǎn)已經(jīng)變?yōu)槿绾螌?shí)現(xiàn) GPT-4的水準(zhǔn)。比如,前段時(shí)間1800億參數(shù)的阿聯(lián)酋大模型 Falcon 發(fā)布,迅速在 Hugging Face 開源大模型榜單上以68.74分超過 LLaMA2位列第一;傳聞中,meta 也在加快開發(fā)新的大語言模型,各項(xiàng)能力對(duì)標(biāo) GPT-4,預(yù)計(jì)明年就會(huì)推出。

      開源大模型的不斷進(jìn)步、相互促進(jìn),對(duì)整個(gè)行業(yè)的影響是積極的。未來,開發(fā)者和中小企業(yè)可以以低成本調(diào)用先進(jìn)的大模型,而不必被高昂的研發(fā)、采購成本拒之門外。

      百川智能自成立之初,就將通過開源方式助力中國大模型生態(tài)繁榮作為公司的重要發(fā)展方向,并在激烈的競(jìng)爭(zhēng)態(tài)勢(shì)中確立了自己的目標(biāo):2023年內(nèi)還將發(fā)布千億參數(shù)大模型,并在明年一季度推出 「超級(jí)應(yīng)用」。

      基于行業(yè)領(lǐng)先的基礎(chǔ)大模型研發(fā)和創(chuàng)新能力,百川智能收獲了行業(yè)的高度認(rèn)可:最新開源的兩款 Baichuan2大模型已經(jīng)得到了上下游企業(yè)的積極響應(yīng),騰訊云、阿里云、火山方舟、華為、聯(lián)發(fā)科等眾多知名企業(yè)均與百川智能達(dá)成了合作。

      前段時(shí)間,首批大模型公眾服務(wù)牌照正式落地。在今年創(chuàng)立的大模型公司中,百川智能也是唯一一家通過《生成式人工智能服務(wù)管理暫行辦法》備案,可以正式面向公眾提供服務(wù)的企業(yè)。

      而 Baichuan 系列大模型的開源,將匯聚社區(qū)中更多的創(chuàng)新力量,加速技術(shù)的迭代與應(yīng)用的拓展。

      技術(shù)的進(jìn)步只是第一階段,未來,大模型還需要走到產(chǎn)業(yè)中去,與各行各業(yè)的業(yè)務(wù)實(shí)踐相結(jié)合。如何讓大模型的能力與業(yè)務(wù)場(chǎng)景更好結(jié)合,同樣是當(dāng)下每一家大模型提供商的重點(diǎn)課題,也需要科技公司、學(xué)術(shù)機(jī)構(gòu)和開發(fā)者共同創(chuàng)造。

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年9月17日 12:15
      下一篇 2023年9月17日 12:15

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會(huì)去看,好像如果這個(gè)夏天沒有看這個(gè)電視劇,夏天好像就沒有到來??梢娺@部電視劇對(duì)于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長(zhǎng)沙(瀏陽)、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢問能不能少交點(diǎn)

        “就像割我身上的肉一般,會(huì)讓我痛不欲生?!?24日,中央紀(jì)委國家監(jiān)委網(wǎng)站發(fā)布了針對(duì)云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長(zhǎng)李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…

        2024年1月24日
      • 中國gdp排行榜城市(中國gdp排行榜)

        中國各省gdp排名 1、根據(jù)查詢國家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

        財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國際機(jī)場(chǎng) 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報(bào)局長(zhǎng)被判刑,被舉報(bào)人卻提級(jí)退休把人看懵了

        文|龍之朱 又見錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長(zhǎng)王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會(huì)怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡(jiǎn)筆畫(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息