快科技7月16日消息,近日,meta宣布,將開發(fā)一款名為CM3Leon的AI模型,該模型能夠根據(jù)文本內(nèi)容生成圖片,也可以為圖片生成文本描述。
meta方面表示,CM3Leon在文生圖方面的表現(xiàn),達到了業(yè)界最高水平。
這意味著,該模型的表現(xiàn)將超越谷歌、微軟等廠商的一眾產(chǎn)品。
目前,meta已經(jīng)演示了CM3Leon的表現(xiàn),展現(xiàn)了該模型在包括復(fù)雜的文本提示生成圖片、根據(jù)文本指令編輯圖像等方面的表現(xiàn)。
據(jù)悉,為了訓(xùn)練該模型,meta使用了數(shù)百萬張來自Shutterstock的授權(quán)圖片,有著高達70億個參數(shù),這是OpenAI的EALL-E2模型的兩倍以上。
不過,meta也承認,現(xiàn)階段的CM3Leon模型可能存在數(shù)據(jù)偏見的問題,仍然需要行業(yè)監(jiān)管。
CM3Leon是一款基于Transformer神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模型,該神經(jīng)網(wǎng)絡(luò)的特性是利用注意力機制來處理輸入數(shù)據(jù)。
這一特點使得相較基于Transformer神經(jīng)網(wǎng)絡(luò)的模型,相較基于diffusion的模型具有更高的訓(xùn)練效率,且計算成本更低。