【新智元導(dǎo)讀】北大校友共同一作,meta發(fā)布史上首個(gè)單一多模態(tài)模型!7B模型擊敗Diffusion,完美畫手難題完美解決。
meta又來炸場(chǎng)了!
就在剛剛,meta推出了一個(gè)基于Transformer的多模態(tài)模型——CM3leon,在文生圖和圖像理解領(lǐng)域都取得了絕對(duì)的突破,堪稱同類最佳。
而且,這種將多模態(tài)組合成單一模型,在此前公開的AI系統(tǒng)中是前所未有的。
顯然,meta的這項(xiàng)研究,為多模態(tài)AI定義了一個(gè)全新的標(biāo)準(zhǔn),預(yù)示著AI系統(tǒng)完全可以在理解、編輯、生成圖像、視頻、文本這些任務(wù)上自由切換。
同時(shí),CM3leon的推出,正式標(biāo)志著自回歸模型首次在關(guān)鍵基準(zhǔn)上,與領(lǐng)先的生成擴(kuò)散模型的性能相媲美。
論文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/
此前,文生圖領(lǐng)域最受矚目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生圖技術(shù)基本上都是依賴于擴(kuò)散模型。
但CM3leon的革命性意義在于:它使用的是完全不同的技術(shù)——基于tokenizer的自回歸模型。
結(jié)果表面,基于tokenizer的自回歸模型不僅比基于擴(kuò)散模型的方法更有效,在文生圖領(lǐng)域?qū)崿F(xiàn)了SOTA,而且訓(xùn)練的計(jì)算量還比此前基于Transformer的方法少了五倍!
01
準(zhǔn)備好,一大波酷炫效果來襲
光看原始性能指標(biāo),還說明不了什么。
CM3leon真正驚艷的地方,在于處理更復(fù)雜的提示和圖像編輯任務(wù)。
準(zhǔn)確渲染圖像,效果驚人
比如,它可以從提示中準(zhǔn)確渲染圖像,例如「撒哈拉沙漠中戴著草帽和霓虹燈太陽鏡的小仙人掌」。
任意prompt,隨心所欲編輯圖像
CM3leon還有一個(gè)獨(dú)特的功能——根據(jù)任意格式的文本指令對(duì)現(xiàn)有圖像進(jìn)行編輯,比如更改天空顏色,或者在特定位置添加對(duì)象。
上面這些功能,遠(yuǎn)遠(yuǎn)超越了DALL-E2等模型所能達(dá)到的效果。
前所未有的多模態(tài)單一模型
CM3leon的多功能架構(gòu),讓它能夠在文本、圖像和構(gòu)圖任務(wù)之間流暢地自由轉(zhuǎn)換。
除了文生圖的功能,CM3leon還可以為圖像生成標(biāo)注、回答有關(guān)圖像內(nèi)容的問題,甚至可以根據(jù)邊界框和分割圖的文本描述創(chuàng)建圖像。
這種將模態(tài)組合成單一模型的情況,在此前在公開披露的AI系統(tǒng)中是前所未有的。
prompt:狗叼著什么?模型回答:棍子。
prompt:詳細(xì)描述給定圖像。模型回答:這張圖像中,一只狗嘴里叼著一根棍子。地面上有草。圖像的背景中有樹。
給定圖像邊界框分割的文本描述,說明在圖像的哪個(gè)地方需要一個(gè)水池、需要一個(gè)鏡子,CM3leon就可以完全按prompt生成對(duì)應(yīng)圖像。
超高分辨率
一個(gè)單獨(dú)的超分辨率平臺(tái)可以與CM3leon輸出集成,從而顯著提高分辨率和細(xì)節(jié)。
輸入prompt「湖中央的圓形小島,湖周圍有森林,高對(duì)比度」——
解決AI畫手難題
連AI不會(huì)畫手的老大難問題,都被CM3leon輕松解決了。
02
自回歸模型首次擊敗Diffusion?
在近年來大熱的文生圖領(lǐng)域,Midjourney,DALL-E2和Stable Diffusion使用的都是擴(kuò)散技術(shù)。
雖然Diffusion技術(shù)產(chǎn)生的結(jié)果很驚艷,但由于它是計(jì)算密集型的,這使得它的計(jì)算強(qiáng)度很大,運(yùn)行成本很高,而且往往缺乏實(shí)時(shí)應(yīng)用所需的速度。
有趣的是,OpenAI幾年前曾想通過名為Image GPT的模型,來探索了Transformer作為圖像生成的可能性。但它最終放棄了這個(gè)想法,轉(zhuǎn)而支持Diffusion。
而CM3leon采用的是完全不同的方法。作為基于Transformer的模型,它利用注意力機(jī)制來權(quán)衡輸入數(shù)據(jù)(無論是文本還是圖像)的相關(guān)性。
這種架構(gòu)的差異,使得CM3leon能夠?qū)崿F(xiàn)更快的訓(xùn)練速度和更好的并行化,因而比傳統(tǒng)的基于擴(kuò)散的方法更有效。
僅用單個(gè)TPU,CM3leon就在圖像數(shù)據(jù)集上進(jìn)行了有效的訓(xùn)練,并在MS-COCO數(shù)據(jù)集上達(dá)到了4.88的FID分?jǐn)?shù),超過了Google的文本到圖像模型Parti。
與此同時(shí),CM3leon的效率更是同類Transformer架構(gòu)的5倍以上。
CM3leon之所以如此成功,可以歸功于它獨(dú)特的架構(gòu)和訓(xùn)練方法。
它強(qiáng)大性能的一個(gè)關(guān)鍵,就是監(jiān)督微調(diào)的技術(shù)(SFT)。
此前,SFT已被用于訓(xùn)練像ChatGPT這樣的文本生成模型,效果很好,但meta認(rèn)為,應(yīng)用于圖像領(lǐng)域時(shí),它也很有用。
事實(shí)上,指令微調(diào)不僅提高了CM3Leon在圖像生成方面的性能,而且提高了圖像標(biāo)注編寫的性能,使其能夠回答有關(guān)圖像的問題并通過遵循文本指令(例如「將天空的顏色更改為亮藍(lán)色」)來編輯圖像。
CM3leon僅采用解碼器轉(zhuǎn)換器體系結(jié)構(gòu),類似于已建立的基于文本的模型,但增加了處理文本和圖像的功能。
訓(xùn)練過程涉及檢索增強(qiáng),以及跨越各種圖像和文本生成任務(wù)的指令微調(diào)。
通過應(yīng)用跨模態(tài)的監(jiān)督微調(diào)技術(shù),meta顯著提高了CM3leon在圖像標(biāo)注、視覺QA和文本編輯方面的性能。
盡管CM3leon只在30億個(gè)文本token上進(jìn)行了訓(xùn)練,但它與在多達(dá)1000億個(gè)token上訓(xùn)練的其他模型的結(jié)果相當(dāng),甚至實(shí)現(xiàn)了超越。
作為第一個(gè)采用與文本語言模型相似的方法進(jìn)行調(diào)整的多模態(tài)模型,meta在CM3leon中加入了一個(gè)大規(guī)模的檢索增強(qiáng)預(yù)訓(xùn)練階段和一個(gè)第二個(gè)多任務(wù)的監(jiān)督微調(diào)(SFT)階段。
03
CM3leon表現(xiàn)如何
憑借CM3leon的能力,圖像生成工具可以產(chǎn)生更一致的圖像,更好地遵循輸入提示。
以下是CM3leon在各種任務(wù)中的能力展示,所有任務(wù)均由單個(gè)模型完成:
文本到圖像生成
基于文本的圖像編輯(例如,「將天空的顏色改為明亮藍(lán)色」)很具挑戰(zhàn)性,因?yàn)樗竽P湍軌蛲瑫r(shí)理解文本指令和視覺內(nèi)容。
尤其是,當(dāng)涉及復(fù)雜對(duì)象或提示包含多個(gè)必須在輸出中出現(xiàn)的約束條件時(shí)。
根據(jù)具有高度組合結(jié)構(gòu)的提示文本,CM3leon可以生成一個(gè)指令跟隨的圖像。
基于文本的圖像編輯
給定一張圖像和一個(gè)文本提示,CM3leon可以根據(jù)文本中的指令對(duì)圖像進(jìn)行編輯。
由于CM3leon模型的通用性,與其他的任務(wù)一樣,這是通過同一個(gè)模型實(shí)現(xiàn)的,而不像以前的模型(如InstructPix2Pix)只針對(duì)基于文本的圖像編輯進(jìn)行微調(diào)。
同時(shí),CM3leon模型還可以根據(jù)一系列不同的提示來生成簡(jiǎn)短或長(zhǎng)篇描述,并回答關(guān)于圖像的問題。
舉個(gè)栗子。
– 提示:
問題:這兩個(gè)物體有什么共同點(diǎn)?
上下文:選擇最佳答案。
選項(xiàng):(A)閃的(B)咸的
回答:讓我們逐步思考:
– CM3Leon輸出:
思考每個(gè)物體。薯片有咸味。椒鹽脆餅是咸的。所以答案是(B)。
– 提示:
詳細(xì)描述給定圖像中的所有物體。
– CM3Leon輸出:
一個(gè)街道標(biāo)志位于金屬桿上。標(biāo)志是藍(lán)色的,上面有白色的文字。桿上有一個(gè)紅燈。天空是明亮的藍(lán)色。街道上停著車。街道兩側(cè)有樹木。街道兩側(cè)有建筑物。
同樣,對(duì)于下面這些「看圖問答」,CM3leon都能輕松拿捏。
為了進(jìn)一步了解CM3leon,meta在圖像描述生成和視覺問答任務(wù)中,對(duì)指令微調(diào)模型進(jìn)行了實(shí)證評(píng)估,并將它們與先前的SOTA基準(zhǔn)進(jìn)行了比較。
相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本數(shù)據(jù)明顯較少(約3B個(gè)token)。
但在MS-COCO圖片描述和VQA2問答方面,CM3leon卻實(shí)現(xiàn)了與零樣本OpenFlamingo相同的性能,甚至在VizWiz任務(wù)上擊敗了Flamingo近10個(gè)百分點(diǎn)。
結(jié)構(gòu)引導(dǎo)的圖像編輯
結(jié)構(gòu)引導(dǎo)的圖像編輯旨在理解和解釋提供的文本指令以及結(jié)構(gòu)或布局信息。
從而讓CM3leon模型能夠在遵循給定的結(jié)構(gòu)或布局指令的同時(shí),創(chuàng)建視覺上一致和語境恰當(dāng)?shù)膱D像編輯。
在只包含分割的圖像(沒有文本類別)中,生成一張圖像。這里的輸入表示從中提取分割的圖像。
超分辨率
除此之外,圖像生成領(lǐng)域還有一個(gè)常見的技巧——利用經(jīng)過單獨(dú)訓(xùn)練的超分辨率階段,從原始模型輸出生成更高分辨率的圖像。
對(duì)于這類文本到圖像生成任務(wù),CM3leon表現(xiàn)得也非常好。
以及一些「奇幻」風(fēng)格的生成。
04
如何構(gòu)建CM3Leon
架構(gòu)
在架構(gòu)方面,CM3Leon采用了一個(gè)和成熟的文本模型相似的僅解碼器Transformer。
但不同的是,CM3Leon能夠輸入和生成文本和圖像。
訓(xùn)練
通過采用論文「Retrieval-Augmented Multimodal Language Modeling」中提出的訓(xùn)練檢索增強(qiáng)技術(shù),meta大大提高了CM3Leon模型的效率和可控性。
同時(shí),meta還在各種不同的圖像和文本生成任務(wù)上,對(duì)CM3Leon模型進(jìn)行了指令微調(diào)。
隨著人工智能行業(yè)的不斷發(fā)展,像CM3Leon這樣的生成模型變得越來越復(fù)雜。
這些模型通過對(duì)數(shù)百萬個(gè)示例圖像進(jìn)行訓(xùn)練來學(xué)習(xí)視覺和文本之間的關(guān)系,但它們也可能反映出訓(xùn)練數(shù)據(jù)中存在的偏見。
因此,meta采用了有許可的數(shù)據(jù)集對(duì)CM3Leon進(jìn)行訓(xùn)練。
而結(jié)果也證明,雖然數(shù)據(jù)的分布與先前的模型截然不同,但CM3Leon仍然實(shí)現(xiàn)了強(qiáng)大的性能。
對(duì)此,meta希望,通過大家的共同努力,可以創(chuàng)建更準(zhǔn)確、更公正、更公平的模型。
05
為多模態(tài)語言模型鋪平道路
總的來說,meta認(rèn)為,CM3Leon在各種任務(wù)上的出色性能,是朝著更真實(shí)的圖像生成和理解邁出的重要一步。
而這樣的模型,最終可以幫助提升創(chuàng)造力并在元宇宙中實(shí)現(xiàn)更好的應(yīng)用。
06
作者介紹
Lili Yu、Bowen Shi和Ramakanth Pasunuru為論文共同一作。
其中,作Lili Yu取得了北大物理系的學(xué)士學(xué)位,以及MIT電子工程和計(jì)算機(jī)科學(xué)的博士學(xué)位。
參考資料:
https://ai.meta.com/blog/generative-ai-text-images-cm3leon/
https://www.maginative.com/article/meta-unveils-cm3leon-a-breakthrough-ai-model-for-advanced-text-to-image-generation-and-image-understanding/
https://techcrunch.com/2023/07/14/meta-generative-transformer-art-model/