論文標(biāo)題:
PoseFace: Pose-Invariant Features and Pose-Adaptive Lossfor Face Recognition
論文地址:
2107.11721 (arxiv.org)
這是一篇arxiv的文章,思路挺有意思,記錄一下
摘要
深度學(xué)習(xí)在人臉識別方法中取得了嚴重,然而不受約束的環(huán)境中有較大的姿勢變化時性能下降,為了解決這個問題,當(dāng)前的方法使用特定姿勢的附加模塊對人臉進行建模或矯正。忽略了特征信息應(yīng)該在不同姿勢之間保持一致的事實,并且沒有意識到在訓(xùn)練期間的正面和側(cè)面圖像之間數(shù)據(jù)不平衡。作者提出了一個高效的 PoseFace 框架,利用面部標(biāo)志來解開姿勢不變特征,并利用姿態(tài)自適應(yīng)損失來自適應(yīng)地處理不平衡問題。在 Multi-PIE、CFP、CPLFW 和IJB 證明方法優(yōu)于最先進的技術(shù)。
1、簡介
近年來卷積人臉識別技術(shù)取得了突破,然而在較大的姿態(tài)變化時人臉識別仍然是巨大的挑戰(zhàn),主要是由于:(a) 正臉和側(cè)臉在數(shù)據(jù)集中有嚴重的不平衡,這對以數(shù)據(jù)驅(qū)動的深度模型來說,無法魯棒的捕捉人臉的特征信息,(b) 輪廓面本質(zhì)上對人臉識別來說很難, 人臉圖像主要由特征信息和姿勢信息。如何有效地解開它們?nèi)匀皇且粋€懸而未決的問題。
大姿態(tài)角的人臉識別,當(dāng)前方法大致可以分為兩類,一種是將輪廓臉矯正為正臉,另一種是學(xué)習(xí)大姿態(tài)的人臉特征。
為了解決上述問題,作者提出了新穎而有效的框架PoseFace解決大姿態(tài)人臉識別。
為了解決人臉姿態(tài)和人臉特征的解耦,(a)強制人臉特征和姿態(tài)映射到兩個線性正交空間(b)保證了姿態(tài)特征的純凈,避免特征信息和姿態(tài)信息的交叉
網(wǎng)絡(luò)第一部分設(shè)計了一個預(yù)訓(xùn)練的自動編碼器用于人臉關(guān)鍵點和特征向量的建模,特征向量只和關(guān)鍵點有關(guān),被當(dāng)做姿態(tài)特征的偽標(biāo)簽。該方法簡單明了,能夠有效地提取姿態(tài)信息,避免特征信息的丟失。
網(wǎng)絡(luò)第二部分提出了姿態(tài)的自適應(yīng)損失,用于處理正臉和不同姿態(tài)之間的數(shù)據(jù)不平衡問題,我們將重點放在訓(xùn)練困難樣本上(即,大的姿勢面)防止大量的正臉簡單樣本主導(dǎo)訓(xùn)練。
這篇論文的主要貢獻如下:
1、提出了一個自分離的方法能夠?qū)⒆藨B(tài)和人臉特征分離到兩個正交的空間,以此獲得大姿態(tài)的人臉特征。
2、設(shè)計了一個姿態(tài)自適應(yīng)損失用于數(shù)據(jù)的不平衡問題
3、在人臉識別benchmark上達到了新的水平
2 相關(guān)工作
2.1姿態(tài)不變特征表示
姿態(tài)不變特征表示方法是對姿勢變化具有魯棒性的撲通特征??赡艿慕鉀Q方案是分而治之,即使用多姿態(tài)特定模型,以處理不同的姿態(tài)面。c-CNN引入了動態(tài)激活kernel為不同的輸入形成各種網(wǎng)絡(luò)結(jié)構(gòu)。每一層中的kernel都被稀疏激活征表示。PAMs融合了從多個姿勢特定模型得到的分數(shù)。p-CNN提出了一種多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),身份識別和姿勢是主要任務(wù),光照和表情估計是次要任務(wù)。這種多模型框架的效率問題限制了它們在許多實際應(yīng)用中的使用。
2.2 人臉正面化
人臉正面化方法將人臉規(guī)格化為標(biāo)準化校準正面視圖,然后使用合成人臉進行識別。最近,生成對抗網(wǎng)絡(luò)(GAN)得到了廣泛的應(yīng)用顯示了其在合成人臉方面的巨大潛力. TP-GAN和PIM通過同時感知全局結(jié)構(gòu)和局部信息實現(xiàn)歸一化。FNM是一種無監(jiān)督的人臉歸一化方法,該方法包括人臉專家網(wǎng)絡(luò)和人臉注意力識別器。在CAPG-GAN中信息不僅在過程中指導(dǎo)生成器,而且在推斷期間用作可控條件。盡管GAN取得了一些改進,但它仍存在一些問題,合成的人臉中存在虛幻紋理并且出現(xiàn)身份信息丟失,還有高計算成本。
與之前的工作相比,我們的PoseFace是一個簡潔明了的框架。通過正交約束將人臉特征和姿態(tài)特征分離。整個過程不需要配對輸入或額外標(biāo)簽,因此可以在公共數(shù)據(jù)集進行訓(xùn)練。此外,訓(xùn)練速度和GPU內(nèi)存消耗都接近ArcFace。在推斷過程中PoseFace與ArcFace沒有區(qū)別,因為多余的模塊只在身份識別中使用(圖2)。
3 本文方法
我們的方法基于以下兩個觀察:
觀察1:人臉包含特征識別信息和大量其他信息(光照,姿態(tài)、表情等),特征信息和其他信息應(yīng)該是不相關(guān)的
觀察2:姿態(tài)信息可以通過關(guān)鍵點進行編碼,并且其他光照紋理等信息對于姿態(tài)估計不是必須的
我們提出的方案主要包括:一個關(guān)鍵點模塊、一個身份識別模塊和一個姿態(tài)模塊。關(guān)鍵點模塊經(jīng)過預(yù)訓(xùn)練并用作姿態(tài)特征提取。在訓(xùn)練中引入了正交約束和位姿損失。自適應(yīng)識別損失在ArcFace中增加姿態(tài)臉的權(quán)重。在測試期間,僅使用識別模塊,與ArcFace相同。
3.1 網(wǎng)絡(luò)細節(jié)
如圖2所示,人臉通過骨骼網(wǎng)絡(luò),然后是身份/姿勢模塊將主干特征轉(zhuǎn)換為身份/關(guān)鍵點子空間。這個轉(zhuǎn)換通過正交約束實現(xiàn)。將關(guān)鍵點作為輸入并生成偽標(biāo)簽對姿勢特征進行分類,以監(jiān)督姿勢模塊的學(xué)習(xí)。
姿態(tài)模塊:通過一個線性層wp將骨干網(wǎng)絡(luò)的特征fb投影到姿態(tài)特征fp
識別模塊:將骨干網(wǎng)絡(luò)特征投影到識別特征空間
關(guān)鍵點模塊:為了找到姿勢特征之間的一對一映射,實現(xiàn)了一個自動編碼器網(wǎng)絡(luò),如圖3所示。
預(yù)訓(xùn)練編碼器在landmark模塊中提取特征。根據(jù)觀察2,我們將提取的特征視為姿態(tài)并將其用作偽標(biāo)簽來訓(xùn)練姿勢模塊,考慮到熱圖的稀疏性,訓(xùn)練自動編碼器采用加權(quán)L2損失,如公式(1)所示。
網(wǎng)絡(luò)輸入 許多關(guān)于姿態(tài)不變特征的工作是從同一張臉上取一對正面和大姿態(tài)人臉作為輸入。正面和姿態(tài)臉之間的差異特征作為懲罰以去除姿勢信息。作者的方法采用一個對齊的人臉圖像,即對應(yīng)的關(guān)聯(lián)點和角度作為一個輸入單元。角度根據(jù)面部關(guān)鍵點估算??梢酝ㄟ^設(shè)計的網(wǎng)絡(luò)端到端的學(xué)習(xí)姿態(tài)不變特征。
3.2 姿態(tài)自適應(yīng)ArcFace(PAA)損失
許多現(xiàn)有模型在識別大姿態(tài)人臉都會遇到大的性能下降問題。除了固有的難以識別之外,另一個原因是正面和姿態(tài)樣本的數(shù)量在許多訓(xùn)練數(shù)據(jù)集中是高度不平衡的。
受權(quán)重自適應(yīng)方法的啟發(fā),如focal loss[18]、Adacos[51]和Adaptiveface[20],我們基于面部角度修改了arcface的margin,如圖4所示
對于樣本i的margin,定義為mi=mb+ri·δm。這里是mb是基礎(chǔ)margin,Δm是附加margin。由比率r i控制[0, 1],其根據(jù)俯仰/偏航/側(cè)傾角度計算。大姿態(tài)將分配較大的比例。身份特征的分類損失公式為姿態(tài)自適應(yīng)ArcFace(PAA)損失:
3.3 姿態(tài)不變特征
在我們的實現(xiàn)中,身份特征Fi和姿態(tài)Fp被強制分布在兩個正交子空間。通過解開它們,確保生成身份特征必須是姿態(tài)不變的。
姿態(tài)特征約束 將訓(xùn)練好的關(guān)鍵點姿態(tài)模塊作為人臉姿態(tài)的偽標(biāo)簽,圖二中poseloss
正交約束 同過正交約束將基礎(chǔ)網(wǎng)絡(luò)特征分解到人臉特征和人臉姿態(tài)兩個正交空間上
PoseFace Loss 我們的問題可以通過如下等式描述
完整的 PoseFace loss 如下
4 實驗
本節(jié)評估PoseFace方法在具有大姿態(tài)變化的各種人臉識別基準上的效果。,在中4.1節(jié)描述了實施細節(jié),4.2節(jié)中的消融研究,4.3節(jié)中的基準詳細結(jié)果,作為補充,本文對超參數(shù)λ1、λ2進行了敏感性分析。
4.1 實施細節(jié)
我們使用人臉對齊網(wǎng)絡(luò)(FAN)生成68個關(guān)鍵點,并通過關(guān)鍵點估計俯仰/偏航/側(cè)傾角度。實現(xiàn)中使用一個簡單的函數(shù)|偏航|/90以估計自適應(yīng)比ri。不考慮側(cè)傾和俯仰角。
4.2 消融實驗
PAA和正交的作用 和基礎(chǔ)網(wǎng)絡(luò)arcface的對比結(jié)果如下表1
關(guān)鍵點模塊的作用
可視化
可以看到圖六中加入正交損失后,兩個特征的點積變小
4.3 benchmark 結(jié)果
5 結(jié)論
在本文中,我們提出了一個新的PoseFace框架以處理較大的姿勢變化。具體而言,我們利用來自身份特征的姿勢信息人臉標(biāo)志的正交約束計算姿態(tài)不變特征。我們進一步提出一個針對困難樣本和稀有樣本的自適應(yīng)損失解決數(shù)據(jù)不平衡問題。在基準上進行的大量實驗令人信服,結(jié)果表明,該方法具有優(yōu)越性。作為一個通用框架,PoseFace可以通過arcface或者其他損失實現(xiàn)。此外,還提出了將自動編碼器與正交編碼相結(jié)合的思想分離出正交空間,也可以應(yīng)用于其他領(lǐng)域建模無關(guān)的特征。
個人總結(jié)
1、比較有效的輔助訓(xùn)練方式,可以提高性能,而不影響推理性能
2、正交性損失有點意思,可以強制不相關(guān)特征分離進行建模。