極客號(Xqh8.com) 12月18日 消息:近日,瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)與蘋果聯(lián)手推出了一項名為”Massively Multimodal Masked Modeling”(4M)的人工智能框架,旨在解決訓(xùn)練跨多模態(tài)視覺基礎(chǔ)模型的挑戰(zhàn)。盡管在自然語言處理領(lǐng)域,訓(xùn)練大型語言模型(LLMs)已經(jīng)取得了顯著成功,但在視覺領(lǐng)域,仍需要構(gòu)建能夠靈活處理多種輸入模態(tài)和輸出任務(wù)的模型。
4M框架采用了一種獨特的策略,通過訓(xùn)練單一的Transformer編碼器-解碼器,具備多模態(tài)的掩碼建模目標。”Massively Multimodal Masked Modeling”強調(diào)了該方法在擴展到多種各異模態(tài)方面的能力。這一方法融合了掩碼建模和多模態(tài)學(xué)習(xí)的最佳特性,包括強大的跨模態(tài)預(yù)測編碼能力、共享場景表示以及通過迭代抽樣實現(xiàn)生成任務(wù)的能力。
不僅如此,4M在保持高效性的同時,通過模態(tài)特定的標記器將各種格式的輸入模態(tài)轉(zhuǎn)換為離散標記的集合或序列,使得單一的Transformer可以同時處理文本、邊界框、圖片或神經(jīng)網(wǎng)絡(luò)特征等多種輸入模態(tài),實現(xiàn)它們的統(tǒng)一表示領(lǐng)域。
此外,4M采用了輸入和目標掩碼的方式,即從所有模態(tài)隨機選擇一小部分標記作為模型輸入,另一小部分作為目標。通過將輸入和目標標記的數(shù)量與模態(tài)數(shù)量解耦,防止了隨著模態(tài)數(shù)量增加而導(dǎo)致的計算成本快速上升。通過利用CC12M和其他可用的單模態(tài)或文本-圖片對數(shù)據(jù)集,使用強大的偽標簽網(wǎng)絡(luò)創(chuàng)建模態(tài)對齊的綁定數(shù)據(jù),4M在不需要多模態(tài)/多任務(wù)注釋的情況下,可以在不同且大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練。
研究人員發(fā)現(xiàn),4M模型不僅在多個重要的視覺任務(wù)上表現(xiàn)出色,而且可以進行精細調(diào)整以在未來的任務(wù)和輸入模態(tài)上取得顯著成果。為了訓(xùn)練可導(dǎo)向的生成模型,可以根據(jù)任何模態(tài)進行條件化,必須使用多模態(tài)的掩碼建模目標。通過對4M性能影響的深入消融分析,結(jié)合該方法的簡便性和通用性,研究人員認為4M在許多視覺任務(wù)和未來發(fā)展中具有巨大的潛力。
項目體驗網(wǎng)址:https://4m.epfl.ch/
論文網(wǎng)址:https://arxiv.org/abs/2312.06647