極客號(hào)(Daydx.com)9月18日 消息:DiffAE是一款強(qiáng)大的人工智能模型,可以改變?nèi)藗兊男詣e、年齡、表情、配飾或頭發(fā),無(wú)需專(zhuān)業(yè)技能。過(guò)去,要實(shí)現(xiàn)這樣的圖像編輯,需要具備高超的照片編輯技巧,但現(xiàn)在借助擴(kuò)散自動(dòng)編碼器(DiffAE)等AI模型,任何人都可以通過(guò)幾行代碼輕松地進(jìn)行肖像編輯。
無(wú)論是攝影師想要修復(fù)照片,還是時(shí)裝設(shè)計(jì)師想要制作創(chuàng)意原型,DiffAE都可以滿(mǎn)足各種的需求。
關(guān)于 DiffAE 模型
DiffAE 是由cjwbw實(shí)現(xiàn)和維護(hù)并托管在 Replicate 上的圖像到圖像模型。它利用一種稱(chēng)為擴(kuò)散模型的技術(shù)來(lái)操縱圖像。它托管在 Replicate 上,平均運(yùn)行時(shí)間為43秒,每次運(yùn)行成本為0.02365美元。使用的硬件是 Nvidia T4GPU。更多技術(shù)細(xì)節(jié)和 API 規(guī)范可在其詳細(xì)信息頁(yè)面上找到。
該模型接收輸入照片和可選參數(shù),例如“添加劉?!被颉岸d頭”。它輸出原始圖像的修改版本以及所請(qǐng)求的更改。擴(kuò)散過(guò)程使其能夠產(chǎn)生真實(shí)、高質(zhì)量的結(jié)果。
在底層,DiffAE 使用自動(dòng)編碼器架構(gòu)。編碼器部分學(xué)習(xí)表示圖像的關(guān)鍵特征,例如頭發(fā)和面部形狀。然后,解碼器在保留整體真實(shí)性的同時(shí)轉(zhuǎn)換這些特征。這允許無(wú)縫修改。
DiffAE的工作原理非常復(fù)雜,簡(jiǎn)單的說(shuō)它包括兩個(gè)主要部分:語(yǔ)義編碼器和條件去噪擴(kuò)散隱式模型(DDIM)。語(yǔ)義編碼器負(fù)責(zé)捕捉圖像的高級(jí)抽象特征,而DDIM則負(fù)責(zé)捕捉圖像的微小細(xì)節(jié)。通過(guò)結(jié)合這兩部分的信息,DiffAE可以幾乎精確地重建原始圖像或相似變體。
DiffAE的應(yīng)用非常廣泛,攝影師可以輕松去除照片上的瑕疵,或讓拍攝對(duì)象看起來(lái)更年輕或更年長(zhǎng)。時(shí)裝設(shè)計(jì)師可以根據(jù)模特照片制作服裝和配飾的創(chuàng)意原型,而化妝師則可以為客戶(hù)展示新發(fā)型等可能性。
以下只是該模型可以對(duì)真人的真實(shí)圖像執(zhí)行哪些操作的幾個(gè)示例!其中一些變化 – 將老人變成年輕人,讓悲傷的人微笑,或者添加或刪除眼鏡:
自媒體創(chuàng)作者可以利用DiffAE快速生成自拍照的變體,為創(chuàng)作者和藝術(shù)家提供了新的創(chuàng)作機(jī)會(huì)。
雖然 DiffAE 用途廣泛且有效,但它也有其局限性:
僅限于肖像:該模型專(zhuān)門(mén)用于肖像圖像,在其他類(lèi)型上可能表現(xiàn)不佳。
計(jì)算成本:該模型平均需要43秒才能運(yùn)行,這對(duì)于實(shí)時(shí)應(yīng)用程序來(lái)說(shuō)可能并不理想。
高振幅偽影:當(dāng)操縱振幅設(shè)置得太高時(shí),可能會(huì)導(dǎo)致偽影。
每次運(yùn)行成本:每次運(yùn)行0.02365美元,對(duì)于批量操作來(lái)說(shuō)可能會(huì)很昂貴。
整體來(lái)看,DiffAE是一款強(qiáng)大的AI模型,可以為各種創(chuàng)意項(xiàng)目提供支持,從照片修復(fù)到創(chuàng)意設(shè)計(jì)。隨著不斷的優(yōu)化和整合,它將成為各種應(yīng)用程序和工具的重要組成部分,為用戶(hù)提供無(wú)限的創(chuàng)作機(jī)會(huì)。