極客號(Daydx.com)7月11日 消息:今天,SemiAnalysis 發(fā)布了一篇付費(fèi)訂閱的內(nèi)容,「揭秘」了有關(guān) GPT-4的信息,包括模型架構(gòu)、訓(xùn)練成本、數(shù)據(jù)集等。
據(jù)稱,GPT-4是由8個(gè)混合專家模型組成的集成系統(tǒng),每個(gè)模型有2200億個(gè)參數(shù)。推理過程中采用了混合專家模型,路由方式相對簡單。訓(xùn)練數(shù)據(jù)集包含約13萬億個(gè) token,訓(xùn)練時(shí)間為90到100天,成本達(dá)到6300萬美元。推理成本為每1000個(gè) token 約為0.0049美分。
文章還提到了 GPT-4的視覺多模態(tài)、推測式解碼等特點(diǎn)。這些揭秘的數(shù)據(jù)對理解 OpenAI 的架構(gòu)決策非常有意義。
此外,文章還介紹了 A100上 GPT-4的訓(xùn)練和推理成本,以及如何拓展到下一代模型架構(gòu) H100。