極客號(Daydx.com)9月18日 消息:谷歌團隊最新提出「生成圖像動力學」,這項研究提出了一種基于圖像空間的場景動力學先驗模型。該模型可以將單張靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,或者用于與圖片中的對象進行交互。
項目地址:https://generative-dynamics.github.io/#demo
研究人員首先從包含自然振蕩運動的真實視頻中,如樹葉搖曳、花朵飄動、蠟燭跳動和衣物飄揚等,提取運動軌跡。然后利用這些軌跡數(shù)據(jù)訓練模型學習圖像動力學的先驗知識。對于任意輸入圖片,模型可以預測每個像素的長期運動表示,作者稱之為神經(jīng)隨機運動紋理。這些表示隨后轉(zhuǎn)換為密集的運動軌跡,可生成整段視頻。配合圖像渲染模塊,這些軌跡可以用于各種下游應用,如將靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,或者讓用戶可以與圖片中的對象進行交互。
利用神經(jīng)隨機運動紋理,研究人員可以模擬對象對用戶交互的響應。用戶可以在圖片中拖動一個點,然后釋放手指,場景會根據(jù)點的位置和方向產(chǎn)生相應運動。用戶還可以點擊選擇不同的圖片進行交互。
通過調(diào)整運動紋理的振幅,研究人員可以放大或縮小物體的運動效果。他們還可以通過插值預測的運動紋理來生成慢動作視頻。
該方法自動將單張靜態(tài)圖片轉(zhuǎn)換成無縫循環(huán)視頻,具有廣闊的應用前景。它為創(chuàng)作更加逼真的數(shù)字內(nèi)容提供了可能,如將電影片段的單幀轉(zhuǎn)換為可交互的動態(tài)場景。該研究為基于單張圖片合成視頻開辟了新的思路。
特點:
(1)從視頻中提取自然運動軌跡,訓練獲得圖像動力學先驗模型
(2)對靜態(tài)圖片預測像素級長期運動表示,即神經(jīng)隨機運動紋理
(3)將運動紋理轉(zhuǎn)換為密集運動軌跡,合成動態(tài)視頻
(4)支持用戶與圖片中的對象交互
(5)調(diào)整運動紋理振幅來控制運動效果
(6)通過插值產(chǎn)生慢動作視頻