免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      【新智元導(dǎo)讀】北大校友共同一作,meta發(fā)布史上首個(gè)單一多模態(tài)模型!7B模型擊敗Diffusion,完美畫手難題完美解決。

      meta又來炸場(chǎng)了!

      就在剛剛,meta推出了一個(gè)基于Transformer的多模態(tài)模型——CM3leon,在文生圖和圖像理解領(lǐng)域都取得了絕對(duì)的突破,堪稱同類最佳。

      而且,這種將多模態(tài)組合成單一模型,在此前公開的AI系統(tǒng)中是前所未有的。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      顯然,meta的這項(xiàng)研究,為多模態(tài)AI定義了一個(gè)全新的標(biāo)準(zhǔn),預(yù)示著AI系統(tǒng)完全可以在理解、編輯、生成圖像、視頻、文本這些任務(wù)上自由切換。

      同時(shí),CM3leon的推出,正式標(biāo)志著自回歸模型首次在關(guān)鍵基準(zhǔn)上,與領(lǐng)先的生成擴(kuò)散模型的性能相媲美。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      論文地址:https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

      此前,文生圖領(lǐng)域最受矚目的三大明星模型,是Stable Diffusion,DALL-E和Midjourney。而文生圖技術(shù)基本上都是依賴于擴(kuò)散模型。

      但CM3leon的革命性意義在于:它使用的是完全不同的技術(shù)——基于tokenizer的自回歸模型。

      結(jié)果表面,基于tokenizer的自回歸模型不僅比基于擴(kuò)散模型的方法更有效,在文生圖領(lǐng)域?qū)崿F(xiàn)了SOTA,而且訓(xùn)練的計(jì)算量還比此前基于Transformer的方法少了五倍!

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      01

      準(zhǔn)備好,一大波酷炫效果來襲

      光看原始性能指標(biāo),還說明不了什么。

      CM3leon真正驚艷的地方,在于處理更復(fù)雜的提示和圖像編輯任務(wù)。

      準(zhǔn)確渲染圖像,效果驚人

      比如,它可以從提示中準(zhǔn)確渲染圖像,例如「撒哈拉沙漠中戴著草帽和霓虹燈太陽鏡的小仙人掌」。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      任意prompt,隨心所欲編輯圖像

      CM3leon還有一個(gè)獨(dú)特的功能——根據(jù)任意格式的文本指令對(duì)現(xiàn)有圖像進(jìn)行編輯,比如更改天空顏色,或者在特定位置添加對(duì)象。

      上面這些功能,遠(yuǎn)遠(yuǎn)超越了DALL-E2等模型所能達(dá)到的效果。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      前所未有的多模態(tài)單一模型

      CM3leon的多功能架構(gòu),讓它能夠在文本、圖像和構(gòu)圖任務(wù)之間流暢地自由轉(zhuǎn)換。

      除了文生圖的功能,CM3leon還可以為圖像生成標(biāo)注、回答有關(guān)圖像內(nèi)容的問題,甚至可以根據(jù)邊界框和分割圖的文本描述創(chuàng)建圖像。

      這種將模態(tài)組合成單一模型的情況,在此前在公開披露的AI系統(tǒng)中是前所未有的。

      prompt:狗叼著什么?模型回答:棍子。

      prompt:詳細(xì)描述給定圖像。模型回答:這張圖像中,一只狗嘴里叼著一根棍子。地面上有草。圖像的背景中有樹。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      給定圖像邊界框分割的文本描述,說明在圖像的哪個(gè)地方需要一個(gè)水池、需要一個(gè)鏡子,CM3leon就可以完全按prompt生成對(duì)應(yīng)圖像。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      超高分辨率

      一個(gè)單獨(dú)的超分辨率平臺(tái)可以與CM3leon輸出集成,從而顯著提高分辨率和細(xì)節(jié)。

      輸入prompt「湖中央的圓形小島,湖周圍有森林,高對(duì)比度」——

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      解決AI畫手難題

      連AI不會(huì)畫手的老大難問題,都被CM3leon輕松解決了。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      02

      自回歸模型首次擊敗Diffusion?

      在近年來大熱的文生圖領(lǐng)域,Midjourney,DALL-E2和Stable Diffusion使用的都是擴(kuò)散技術(shù)。

      雖然Diffusion技術(shù)產(chǎn)生的結(jié)果很驚艷,但由于它是計(jì)算密集型的,這使得它的計(jì)算強(qiáng)度很大,運(yùn)行成本很高,而且往往缺乏實(shí)時(shí)應(yīng)用所需的速度。

      有趣的是,OpenAI幾年前曾想通過名為Image GPT的模型,來探索了Transformer作為圖像生成的可能性。但它最終放棄了這個(gè)想法,轉(zhuǎn)而支持Diffusion。

      而CM3leon采用的是完全不同的方法。作為基于Transformer的模型,它利用注意力機(jī)制來權(quán)衡輸入數(shù)據(jù)(無論是文本還是圖像)的相關(guān)性。

      這種架構(gòu)的差異,使得CM3leon能夠?qū)崿F(xiàn)更快的訓(xùn)練速度和更好的并行化,因而比傳統(tǒng)的基于擴(kuò)散的方法更有效。

      僅用單個(gè)TPU,CM3leon就在圖像數(shù)據(jù)集上進(jìn)行了有效的訓(xùn)練,并在MS-COCO數(shù)據(jù)集上達(dá)到了4.88的FID分?jǐn)?shù),超過了Google的文本到圖像模型Parti。

      與此同時(shí),CM3leon的效率更是同類Transformer架構(gòu)的5倍以上。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      CM3leon之所以如此成功,可以歸功于它獨(dú)特的架構(gòu)和訓(xùn)練方法。

      它強(qiáng)大性能的一個(gè)關(guān)鍵,就是監(jiān)督微調(diào)的技術(shù)(SFT)。

      此前,SFT已被用于訓(xùn)練像ChatGPT這樣的文本生成模型,效果很好,但meta認(rèn)為,應(yīng)用于圖像領(lǐng)域時(shí),它也很有用。

      事實(shí)上,指令微調(diào)不僅提高了CM3Leon在圖像生成方面的性能,而且提高了圖像標(biāo)注編寫的性能,使其能夠回答有關(guān)圖像的問題并通過遵循文本指令(例如「將天空的顏色更改為亮藍(lán)色」)來編輯圖像。

      CM3leon僅采用解碼器轉(zhuǎn)換器體系結(jié)構(gòu),類似于已建立的基于文本的模型,但增加了處理文本和圖像的功能。

      訓(xùn)練過程涉及檢索增強(qiáng),以及跨越各種圖像和文本生成任務(wù)的指令微調(diào)。

      通過應(yīng)用跨模態(tài)的監(jiān)督微調(diào)技術(shù),meta顯著提高了CM3leon在圖像標(biāo)注、視覺QA和文本編輯方面的性能。

      盡管CM3leon只在30億個(gè)文本token上進(jìn)行了訓(xùn)練,但它與在多達(dá)1000億個(gè)token上訓(xùn)練的其他模型的結(jié)果相當(dāng),甚至實(shí)現(xiàn)了超越。

      作為第一個(gè)采用與文本語言模型相似的方法進(jìn)行調(diào)整的多模態(tài)模型,meta在CM3leon中加入了一個(gè)大規(guī)模的檢索增強(qiáng)預(yù)訓(xùn)練階段和一個(gè)第二個(gè)多任務(wù)的監(jiān)督微調(diào)(SFT)階段。

      03

      CM3leon表現(xiàn)如何

      憑借CM3leon的能力,圖像生成工具可以產(chǎn)生更一致的圖像,更好地遵循輸入提示。

      以下是CM3leon在各種任務(wù)中的能力展示,所有任務(wù)均由單個(gè)模型完成:

      文本到圖像生成

      基于文本的圖像編輯(例如,「將天空的顏色改為明亮藍(lán)色」)很具挑戰(zhàn)性,因?yàn)樗竽P湍軌蛲瑫r(shí)理解文本指令和視覺內(nèi)容。

      尤其是,當(dāng)涉及復(fù)雜對(duì)象或提示包含多個(gè)必須在輸出中出現(xiàn)的約束條件時(shí)。

      根據(jù)具有高度組合結(jié)構(gòu)的提示文本,CM3leon可以生成一個(gè)指令跟隨的圖像。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      基于文本的圖像編輯

      給定一張圖像和一個(gè)文本提示,CM3leon可以根據(jù)文本中的指令對(duì)圖像進(jìn)行編輯。

      由于CM3leon模型的通用性,與其他的任務(wù)一樣,這是通過同一個(gè)模型實(shí)現(xiàn)的,而不像以前的模型(如InstructPix2Pix)只針對(duì)基于文本的圖像編輯進(jìn)行微調(diào)。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      同時(shí),CM3leon模型還可以根據(jù)一系列不同的提示來生成簡(jiǎn)短或長(zhǎng)篇描述,并回答關(guān)于圖像的問題。

      舉個(gè)栗子。

      – 提示:

      問題:這兩個(gè)物體有什么共同點(diǎn)?

      上下文:選擇最佳答案。

      選項(xiàng):(A)閃的(B)咸的

      回答:讓我們逐步思考:

      – CM3Leon輸出:

      思考每個(gè)物體。薯片有咸味。椒鹽脆餅是咸的。所以答案是(B)。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      – 提示:

      詳細(xì)描述給定圖像中的所有物體。

      – CM3Leon輸出:

      一個(gè)街道標(biāo)志位于金屬桿上。標(biāo)志是藍(lán)色的,上面有白色的文字。桿上有一個(gè)紅燈。天空是明亮的藍(lán)色。街道上停著車。街道兩側(cè)有樹木。街道兩側(cè)有建筑物。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      同樣,對(duì)于下面這些「看圖問答」,CM3leon都能輕松拿捏。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      為了進(jìn)一步了解CM3leon,meta在圖像描述生成和視覺問答任務(wù)中,對(duì)指令微調(diào)模型進(jìn)行了實(shí)證評(píng)估,并將它們與先前的SOTA基準(zhǔn)進(jìn)行了比較。

      相比于Flamingo(100B)和OpenFlamingo(40B),CM3leon模型的文本數(shù)據(jù)明顯較少(約3B個(gè)token)。

      但在MS-COCO圖片描述和VQA2問答方面,CM3leon卻實(shí)現(xiàn)了與零樣本OpenFlamingo相同的性能,甚至在VizWiz任務(wù)上擊敗了Flamingo近10個(gè)百分點(diǎn)。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      結(jié)構(gòu)引導(dǎo)的圖像編輯

      結(jié)構(gòu)引導(dǎo)的圖像編輯旨在理解和解釋提供的文本指令以及結(jié)構(gòu)或布局信息。

      從而讓CM3leon模型能夠在遵循給定的結(jié)構(gòu)或布局指令的同時(shí),創(chuàng)建視覺上一致和語境恰當(dāng)?shù)膱D像編輯。

      在只包含分割的圖像(沒有文本類別)中,生成一張圖像。這里的輸入表示從中提取分割的圖像。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      超分辨率

      除此之外,圖像生成領(lǐng)域還有一個(gè)常見的技巧——利用經(jīng)過單獨(dú)訓(xùn)練的超分辨率階段,從原始模型輸出生成更高分辨率的圖像。

      對(duì)于這類文本到圖像生成任務(wù),CM3leon表現(xiàn)得也非常好。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      以及一些「奇幻」風(fēng)格的生成。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      04

      如何構(gòu)建CM3Leon

      架構(gòu)

      在架構(gòu)方面,CM3Leon采用了一個(gè)和成熟的文本模型相似的僅解碼器Transformer。

      但不同的是,CM3Leon能夠輸入和生成文本和圖像。

      訓(xùn)練

      通過采用論文「Retrieval-Augmented Multimodal Language Modeling」中提出的訓(xùn)練檢索增強(qiáng)技術(shù),meta大大提高了CM3Leon模型的效率和可控性。

      同時(shí),meta還在各種不同的圖像和文本生成任務(wù)上,對(duì)CM3Leon模型進(jìn)行了指令微調(diào)。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      隨著人工智能行業(yè)的不斷發(fā)展,像CM3Leon這樣的生成模型變得越來越復(fù)雜。

      這些模型通過對(duì)數(shù)百萬個(gè)示例圖像進(jìn)行訓(xùn)練來學(xué)習(xí)視覺和文本之間的關(guān)系,但它們也可能反映出訓(xùn)練數(shù)據(jù)中存在的偏見。

      因此,meta采用了有許可的數(shù)據(jù)集對(duì)CM3Leon進(jìn)行訓(xùn)練。

      而結(jié)果也證明,雖然數(shù)據(jù)的分布與先前的模型截然不同,但CM3Leon仍然實(shí)現(xiàn)了強(qiáng)大的性能。

      對(duì)此,meta希望,通過大家的共同努力,可以創(chuàng)建更準(zhǔn)確、更公正、更公平的模型。

      05

      為多模態(tài)語言模型鋪平道路

      總的來說,meta認(rèn)為,CM3Leon在各種任務(wù)上的出色性能,是朝著更真實(shí)的圖像生成和理解邁出的重要一步。

      而這樣的模型,最終可以幫助提升創(chuàng)造力并在元宇宙中實(shí)現(xiàn)更好的應(yīng)用。

      06

      作者介紹

      Lili Yu、Bowen Shi和Ramakanth Pasunuru為論文共同一作。

      其中,作Lili Yu取得了北大物理系的學(xué)士學(xué)位,以及MIT電子工程和計(jì)算機(jī)科學(xué)的博士學(xué)位。

      Meta重新定義多模態(tài)!北大校友共同一作,70億參數(shù)文生圖模型擊敗Diffusion

      參考資料:

      https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

      https://www.maginative.com/article/meta-unveils-cm3leon-a-breakthrough-ai-model-for-advanced-text-to-image-generation-and-image-understanding/

      https://techcrunch.com/2023/07/14/meta-generative-transformer-art-model/

      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場(chǎng),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2023年7月16日 15:13
      下一篇 2023年7月16日 15:14

      相關(guān)推薦

      • 日本電視劇收視率歷史排名(電視劇收視率歷史排名)

        收視率最高的電視劇排行榜前十名 1、但是《還珠格格》卻是我童年中我最喜歡看的電視劇。每到夏天的時(shí)候總會(huì)去看,好像如果這個(gè)夏天沒有看這個(gè)電視劇,夏天好像就沒有到來??梢娺@部電視劇對(duì)于…

        2024年1月24日
      • 液壓機(jī)械缸鍛造廠家品質(zhì)好的有哪些值得推薦?

        液壓機(jī)是一種以液體為工作介質(zhì)的重要機(jī)械設(shè)備,其核心功能是傳遞能量,實(shí)現(xiàn)各種工藝流程。除了在鍛壓成形方面的應(yīng)用,液壓機(jī)還廣泛應(yīng)用于矯正、壓裝、打包、壓塊和壓板等領(lǐng)域。根據(jù)工作介質(zhì)的不…

        2024年1月24日
      • 湖南暴雪已致1萬多人受災(zāi)

        據(jù)@湖南氣象 ,22日7時(shí)至23日7時(shí),湘中、湘南出現(xiàn)大到暴雪,長(zhǎng)沙(瀏陽)、株洲(醴陵、茶陵)等13個(gè)縣市區(qū)出現(xiàn)大暴雪,郴州(北湖區(qū))、株洲(荷塘區(qū))出現(xiàn)特大暴雪;全省23個(gè)縣市…

        2024年1月24日
      • 落馬貪官退贓像“割肉”,詢問能不能少交點(diǎn)

        “就像割我身上的肉一般,會(huì)讓我痛不欲生?!?24日,中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站發(fā)布了針對(duì)云南省文山州住房和城鄉(xiāng)建設(shè)局原黨組成員、副局長(zhǎng)李慶明嚴(yán)重違紀(jì)違法案的剖析。信奉金錢至上的李慶明惜財(cái)…

        2024年1月24日
      • 中國(guó)gdp排行榜城市(中國(guó)gdp排行榜)

        中國(guó)各省gdp排名 1、根據(jù)查詢國(guó)家統(tǒng)計(jì)局官網(wǎng)信息顯示,2023年各省排名,廣東:GDP為1243667億。江蘇:GDP為116362億。山東:GDP為83099億。浙江:GDP為…

        2024年1月24日
      • SK-II大中華區(qū)季度銷售額暴跌34%,寶潔:日本核污水排海是主因

        財(cái)聯(lián)社1月24日訊(編輯 卞純)全球日用消費(fèi)品巨頭寶潔公司(ProcterGamble)周二表示,在截至12月底的第二財(cái)季,其高端護(hù)膚品牌SK-II在大中華區(qū)的銷售額下降了34%,…

        2024年1月24日
      • 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退

        呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 原標(biāo)題: 呼和浩特白塔機(jī)場(chǎng)通報(bào)“保潔員占母嬰室吃飯”:涉事人已被辭退 央視網(wǎng)消息:據(jù)@呼和浩特白塔國(guó)際機(jī)場(chǎng) 消息,呼和浩…

        2024年1月24日
      • 退休職工舉報(bào)局長(zhǎng)被判刑,被舉報(bào)人卻提級(jí)退休把人看懵了

        文|龍之朱 又見錯(cuò)抓錯(cuò)判上了熱搜。 據(jù)媒體報(bào)道,從2016年3月起,安徽宿州市碭山縣農(nóng)機(jī)局退休職工李平實(shí)名向紀(jì)檢部門舉報(bào)局長(zhǎng)王超經(jīng)濟(jì)問題,均石沉大海。 2017年7月,李平夫婦及親…

        2024年1月24日
      • 6寸蛋糕用5斤車?yán)遄拥昙业狼?

        【#6寸蛋糕用5斤車?yán)遄拥昙业狼?:客服能力不足,多報(bào)了2斤車?yán)遄印?遇到商家虛假宣傳你會(huì)怎么辦# 近日,有網(wǎng)友發(fā)帖稱做六寸蛋糕需要5斤車?yán)遄右裏嶙h。 1月22日,涉事店家就“6寸…

        2024年1月24日
      • 格蘭芬多院徽簡(jiǎn)筆畫(格蘭芬多院徽)

        哈利波特的霍格沃茨學(xué)校分別是哪些學(xué)院? 1、《哈利波特》電影中的霍格沃茨學(xué)院,一共分為四個(gè)學(xué)院,分別是:格蘭芬多、赫奇帕奇、拉文克勞與斯萊特林。 2、霍格沃茨魔法學(xué)院共有格蘭芬多、…

        2024年1月24日

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時(shí)間:周一至周五,10:30-18:30,節(jié)假日休息