極客號(hào)(Daydx.com)9月7日 消息:近日,阿布扎比的全球領(lǐng)先技術(shù)研究中心 TII 發(fā)布了一款世界頂級(jí)開(kāi)源大模型 ——Falcon180B。這款模型在3.5萬(wàn)億 token 的訓(xùn)練下,擁有1800億參數(shù),性能超過(guò)了之前的開(kāi)源模型 Llama2,甚至接近了谷歌的 GPT-4。Falcon180B 在各項(xiàng)任務(wù)中表現(xiàn)出色,被認(rèn)為是目前最好的開(kāi)源大模型之一。
Falcon180B 的訓(xùn)練過(guò)程使用了亞馬遜云機(jī)器學(xué)習(xí)平臺(tái),并在多達(dá)4096個(gè) GPU 上完成了訓(xùn)練,總共進(jìn)行了大約7,000,000個(gè) GPU 計(jì)算時(shí)。訓(xùn)練數(shù)據(jù)主要來(lái)自于 RefinedWe 數(shù)據(jù)集,其中包括對(duì)話、技術(shù)論文和一小部分代碼等多種數(shù)據(jù)。
項(xiàng)目地址:https://huggingface.co/tiiuae/falcon-180B-chat
Falcon180B 在多個(gè)基準(zhǔn)測(cè)試中都表現(xiàn)出色,超過(guò)了 Llama2和 GPT-3.5。在 Hugging Face 開(kāi)源大模型榜單上,F(xiàn)alcon180B 的評(píng)分也超過(guò)了 Llama2,成為當(dāng)前評(píng)分最高的開(kāi)放式大模型。
除了基礎(chǔ)模型,研究人員還發(fā)布了聊天對(duì)話模型 Falcon-180B-Chat,該模型在對(duì)話和指令數(shù)據(jù)集上進(jìn)行了微調(diào),可以進(jìn)行實(shí)時(shí)對(duì)話的演示。
雖然 Falcon180B 的性能引起了廣泛關(guān)注,但也有一些人對(duì)其質(zhì)疑。英偉達(dá)高級(jí)科學(xué)家 Jim Fan 指出,F(xiàn)alcon-180B 的訓(xùn)練數(shù)據(jù)中代碼只占了5%,而代碼是提高模型推理能力的重要數(shù)據(jù),因此對(duì)于沒(méi)有代碼能力的模型,無(wú)法聲稱(chēng)優(yōu)于 GPT-3.5或接近 GPT-4。
總的來(lái)說(shuō),F(xiàn)alcon180B 作為世界頂級(jí)開(kāi)源大模型,擁有強(qiáng)大的性能和參數(shù)規(guī)模,在各項(xiàng)任務(wù)中表現(xiàn)出色。然而,對(duì)于其在代碼方面的不足,還需要進(jìn)一步的探討和研究。