像[/S2/]穩(wěn)定擴(kuò)散這樣的生成式AI模型在文本到圖像的合成中越來越受歡迎。CLIP或BLIP等文本圖像評分方法可以評估模型生成的圖像是否與文本提示匹配,但并不總是符合人類的偏好和感知。
清華大學(xué)和北京郵電大學(xué)團(tuán)隊(duì)開發(fā)了首個(gè)通用的文本到圖像人類偏好獎(jiǎng)勵(lì)模型——ImageReward,主要解決了改進(jìn)生成模型中的各種常見問題(如穩(wěn)定差),接受人類反饋的訓(xùn)練,使之與人類的價(jià)值觀和偏好相一致。
ImageReward使用強(qiáng)化學(xué)習(xí)和人類反饋進(jìn)行訓(xùn)練,這是一種受OpenAI的CLIP啟發(fā)的方法。ImageReward已經(jīng)由137,000張人工評分的AI圖像進(jìn)行了訓(xùn)練,有望提供更好的圖像合成。在各種基準(zhǔn)測試中,ImageReward比CLIP、審美或BLIP等其他評分方法高出30%至近40%。
ImageReward從根據(jù)各種標(biāo)準(zhǔn)對AI圖像進(jìn)行排名的人類分?jǐn)?shù)中學(xué)習(xí)。
在實(shí)踐中,ImageReward實(shí)現(xiàn)了文本和圖像之間更好的對齊,減少了身體的扭曲渲染,更好地匹配了人類的審美偏好,減少了毒性和偏見。在幾個(gè)例子中,該團(tuán)隊(duì)展示了ImageReward如何影響圖像質(zhì)量。他們要求不同的文本圖像評分者從第64代圖像中選擇最佳圖像。
與CLIP等其他文本圖像評分方法相比,ImageReward在大多數(shù)情況下都能產(chǎn)生更好的結(jié)果。
該團(tuán)隊(duì)希望在未來與研究社區(qū)合作,找到一種方法,將ImageReward作為RLHF中文本到圖像模型的真正獎(jiǎng)勵(lì)模型。ImageReward可從GitHub獲得,并提供了如何將其集成到穩(wěn)定擴(kuò)散WebUI中的說明。
ImageReward項(xiàng)目網(wǎng)站:
https://github.com/THUDM/ImageReward