極客號(hào)(Daydx.com)12月15日 消息:在最新的研究中,卡內(nèi)基梅隆大學(xué)(CMU)和馬克斯·普朗克智能系統(tǒng)研究所的研究人員共同發(fā)布了一項(xiàng)名為WHAM(World-grounded Humans with Accurate Motion)的創(chuàng)新性AI方法。這一方法在精準(zhǔn)性和效率方面實(shí)現(xiàn)了從視頻中準(zhǔn)確估計(jì)3D人體運(yùn)動(dòng)的突破。
3D人體運(yùn)動(dòng)重建是一個(gè)復(fù)雜的過程,涉及準(zhǔn)確捕捉和建模人體在三維空間中的運(yùn)動(dòng)。當(dāng)處理由移動(dòng)攝像機(jī)在現(xiàn)實(shí)世界環(huán)境中拍攝的視頻時(shí),這一任務(wù)變得更加具有挑戰(zhàn)性,因?yàn)檫@些視頻通常包含腳滑等問題。然而,CMU和馬克斯·普朗克智能系統(tǒng)研究所的研究人員通過WHAM方法成功解決了這些挑戰(zhàn),實(shí)現(xiàn)了精準(zhǔn)的3D人體運(yùn)動(dòng)重建。
從圖像中恢復(fù)3D人體姿勢(shì)和形狀的兩種方法:無模型和基于模型。它強(qiáng)調(diào)了在基于模型的方法中使用深度學(xué)習(xí)技術(shù)來估計(jì)統(tǒng)計(jì)身體模型的參數(shù)。現(xiàn)有的基于視頻的3D人體姿勢(shì)估計(jì)方法通過各種神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)引入時(shí)間信息。一些方法使用額外的傳感器,如慣性傳感器,但它們可能會(huì)產(chǎn)生侵?jǐn)_。WHAM通過有效地結(jié)合3D人體運(yùn)動(dòng)和視頻上下文,利用先驗(yàn)知識(shí),并在全球坐標(biāo)系中準(zhǔn)確重建3D人體活動(dòng)而脫穎而出。
該研究解決了從單眼視頻中準(zhǔn)確估計(jì)3D人體姿勢(shì)和形狀的挑戰(zhàn),強(qiáng)調(diào)了全球坐標(biāo)一致性、計(jì)算效率和真實(shí)足地接觸。利用AMASS運(yùn)動(dòng)捕捉和視頻數(shù)據(jù)集,WHAM結(jié)合了運(yùn)動(dòng)編碼器-解碼器網(wǎng)絡(luò),用于將2D關(guān)鍵點(diǎn)轉(zhuǎn)換為3D姿勢(shì),具有用于時(shí)間線索的特征整合器,以及用于全局運(yùn)動(dòng)估計(jì)考慮足地接觸的軌跡細(xì)化網(wǎng)絡(luò),提高了在非平面表面上的準(zhǔn)確性。
WHAM采用單向RNN進(jìn)行在線推斷和精確的3D運(yùn)動(dòng)重建,具有用于上下文提取的運(yùn)動(dòng)編碼器和用于SMPL參數(shù)、相機(jī)平移和足地接觸概率的運(yùn)動(dòng)解碼器。利用邊界框歸一化技術(shù)有助于運(yùn)動(dòng)上下文的提取。在人體網(wǎng)格恢復(fù)的預(yù)訓(xùn)練圖像編碼器通過特征整合器網(wǎng)絡(luò)捕捉和整合圖像特征與運(yùn)動(dòng)特征。軌跡解碼器預(yù)測(cè)全局方向,而細(xì)化過程最小化足滑動(dòng)。在合成AMASS數(shù)據(jù)上進(jìn)行訓(xùn)練,WHAM在評(píng)估中優(yōu)于現(xiàn)有方法。
WHAM超越了當(dāng)前的最先進(jìn)方法,在逐幀和基于視頻的3D人體姿勢(shì)和形狀估計(jì)中表現(xiàn)出卓越的準(zhǔn)確性。通過利用運(yùn)動(dòng)上下文和足地接觸信息實(shí)現(xiàn)了精確的全球軌跡估計(jì),最小化了足滑動(dòng),并提高了國(guó)際協(xié)調(diào)性。該方法整合了2D關(guān)鍵點(diǎn)和像素的特征,提高了3D人體運(yùn)動(dòng)重建的準(zhǔn)確性。在野外基準(zhǔn)測(cè)試中,WHAM在MPJPE、PA-MPJPE和PVE等指標(biāo)上展現(xiàn)出卓越的性能。軌跡細(xì)化技術(shù)進(jìn)一步提升了全局軌跡估計(jì),并通過改善的誤差指標(biāo)證明了減少足滑動(dòng)的效果。
總的來說,這項(xiàng)研究的主要觀點(diǎn)可以總結(jié)為以下幾點(diǎn):
1. WHAM引入了一種結(jié)合3D人體運(yùn)動(dòng)和視頻背景的開創(chuàng)性方法。
2. 該技術(shù)增強(qiáng)了3D人體姿勢(shì)和形狀的回歸。
3. 該方法使用了一個(gè)全球軌跡估計(jì)框架,包括運(yùn)動(dòng)上下文和足地接觸。
4. 該方法解決了足滑動(dòng)的問題,并確保在非平面表面上準(zhǔn)確跟蹤3D運(yùn)動(dòng)。
5. WHAM的方法在包括3DPW、RICH和EMDB在內(nèi)的多樣化基準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色。
6. 該方法在全球坐標(biāo)系中實(shí)現(xiàn)了高效的人體姿勢(shì)和形狀估計(jì)。
7. 該方法的特征整合和軌跡細(xì)化顯著提高了運(yùn)動(dòng)和全局軌跡的準(zhǔn)確性。
8. 通過深入的剖析研究,驗(yàn)證了該方法的準(zhǔn)確性。
論文網(wǎng)址:https://arxiv.org/abs/2312.07531
項(xiàng)目網(wǎng)址:https://wham.is.tue.mpg.de/