機器之心專欄
作者:螞蟻集團-大安全-數(shù)字身份及安全生態(tài)、浙江大學(xué)
來自浙江大學(xué)和螞蟻集團 – 大安全 – 數(shù)字身份及安全生態(tài)的研究者提出了一種基于標(biāo)簽關(guān)系樹的層級殘差多粒度分類網(wǎng)絡(luò) HRN。
基于有監(jiān)督式深度學(xué)習(xí)的圖像識別任務(wù)中一個方面要求是構(gòu)建整理大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù),這就對圖像質(zhì)量和標(biāo)注人員的背景知識有比較高的要求。例如,在細(xì)粒度分類任務(wù)中,標(biāo)注人員需要依賴大量的領(lǐng)域知識去區(qū)分各種種類的鳥以及不同型號的艦船,如圖 1 所示。
圖 1: 不同種類的信天翁以及不同型號的航母
在圖 1 中,標(biāo)注人員需要借助鳥類專家的知識才能辨認(rèn)黑腳信天翁與黑背信天翁,擁有一般鳥類知識的人員或許會將這兩種鳥類歸類為信天翁,而缺乏鳥類知識的人員可能只會將這兩種鳥類歸類為鳥。類似地,標(biāo)注人員需要借助軍事艦船專家的知識才能有效區(qū)分尼米茲級航母與企業(yè)級航母,而缺乏相關(guān)背景知識的人員可能會將這兩類艦船歸類為航母。也就是說,同一張圖片會被擁有不同背景知識的標(biāo)注人員標(biāo)注到不同層級粒度的類別上。
除了背景知識對標(biāo)注產(chǎn)生的影響,諸如鳥類辨別中的關(guān)鍵區(qū)域被遮擋、圖像分辨率較低、或者圖像比較模糊等圖像質(zhì)量因素也會干擾標(biāo)注人員對于圖像目標(biāo)屬于層級多粒度標(biāo)簽中的哪一類的判斷,如圖 2 所示。
圖 2: 由于遮擋、分辨率等圖像質(zhì)量的變化與專家背景知識的差異,導(dǎo)致目標(biāo)可能被標(biāo)注到不同層級上
但是,傳統(tǒng)的圖像識別數(shù)據(jù)集類別設(shè)定中,針對某個特定任務(wù)例如通用圖像分類任務(wù)或者細(xì)粒度分類任務(wù),類別標(biāo)簽往往只位于同一層級中,無法魯棒地利用標(biāo)注到不同層級上的圖片,對標(biāo)注的要求較高。為了降低圖像質(zhì)量以及背景知識等帶來的對標(biāo)注數(shù)據(jù)的高要求、充分利用具有不同層級粒度標(biāo)簽的樣本,設(shè)計建模目標(biāo)層級語義結(jié)構(gòu)的層級多粒度識別算法對于提升深度神經(jīng)網(wǎng)絡(luò)的魯棒性具有十分重要的作用。為此,浙江大學(xué)聯(lián)合螞蟻集團提出了一種基于標(biāo)簽關(guān)系樹的層級殘差多粒度分類網(wǎng)絡(luò),收錄到 CVPR2022 中。
- 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Label_Relation_Graphs_Enhanced_Hierarchical_Residual_Network_for_Hierarchical_Multi-Granularity_CVPR_2022_paper.pdf
- 代碼地址:https://github.com/MonsterZhZh/HRN
算法介紹
我們從三點觀察出發(fā)構(gòu)建我們的層級多粒度分類算法:(1)由于細(xì)粒度類別可以根據(jù)不同層次的抽象向上不停迭代歸類形成樹形類別結(jié)構(gòu),我們構(gòu)建對應(yīng)的標(biāo)簽關(guān)系樹建模層級類別間的語義關(guān)系;(2) 基于標(biāo)簽關(guān)系樹設(shè)計復(fù)合損失函數(shù),使得具有不同層級粒度標(biāo)注的樣本在學(xué)習(xí)時可以傳遞層級間的知識;(3)現(xiàn)實世界中位于低層級的子類除了擁有自己的獨特屬性還會進一步繼承來自父類的屬性,我們首先為每個層級設(shè)置專有的特征提取層,根據(jù)主干網(wǎng) 絡(luò)輸出的特征提取各個層級相關(guān)的特征。然后我們參考深度殘差網(wǎng)絡(luò)中經(jīng)典的殘差連接 設(shè)計,實現(xiàn)為所有父類層級的特征以殘差連接的方式融合到子類層級專有的特征中,進而用于當(dāng)前層級類別分類的層級殘差網(wǎng)絡(luò)(HRN)。
標(biāo)簽關(guān)系樹
標(biāo)簽關(guān)系樹
由節(jié)點集合
、有向邊集合
、以及無向邊集合
組成。每個節(jié)點
對應(yīng)到層級中的一個類別標(biāo)簽,圖中的節(jié)點個數(shù) n 等于層級中所有標(biāo)簽的個數(shù)。一條有向邊
代表節(jié)點
間具有父子關(guān)系,及類別 i 是類別 j 的父類。一條無向邊
代表節(jié)點
與
為互斥關(guān)系。層級中每個類別標(biāo)簽取值為二元值,即
,代表目標(biāo)是否具有這個類別標(biāo)簽。圖中每條邊限制了相連節(jié)點的取值:對于具有父子關(guān)系邊相連的兩個節(jié)點
的賦值是違法的(是拉布拉多卻不是狗);對于具有互斥關(guān)系邊相連的兩個節(jié)點
的賦值是違法的(既是柯基又是拉布拉多)。圖中所有邊約束了層級多標(biāo)簽中相鄰類別節(jié)點的合法取值,對于層級中所有標(biāo)簽的一個全局合法賦值為一個二元標(biāo)簽向量
。所有全局合法賦值向量的集合構(gòu)成標(biāo)簽關(guān)系樹 G 擁有的合法賦值空間
。
層級殘差網(wǎng)絡(luò)
圖 3: 層級殘差網(wǎng)絡(luò)結(jié)構(gòu)圖
基于殘差跨層級連接的層級殘差網(wǎng)絡(luò) (HRN) 由一個主干特征提取網(wǎng)絡(luò)、層級特征 交互模塊、以及兩個并行的輸出通道構(gòu)成,如圖 3 所示。任何常用的網(wǎng)絡(luò)都可以作為主干網(wǎng)絡(luò)用來提取輸入圖像的特征,我們選用廣泛使用的深度殘差網(wǎng)絡(luò) ResNet-50 作為 HRN 網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。層級特征交互模塊包括每個層級專有的特征提取層與殘差連接部分。層級專有特征提取層網(wǎng)絡(luò)結(jié)構(gòu)一致,都包含兩層卷積層后接兩層全連接層 (FC)。層級專有特征提取層根據(jù)主干網(wǎng)絡(luò)產(chǎn)生的共享輸入特征提取每個層級專有的特征。殘差連接部分首先線性組合來自粗粒度父類層級的特征與細(xì)粒度子類層級的特征,反映子類不僅具有屬于自己的獨特屬性還繼承了來自父類的屬性。父類層級專有特征提取層可以視為殘差連接將屬于自己層級的特征逐層向下結(jié)合到子類層級的特征中。
然后,我們對組合后的特征應(yīng)用非線形變換(ReLU) 后送入后續(xù)網(wǎng)絡(luò)層。網(wǎng)絡(luò)最后依然設(shè)置兩路并行的輸出通道。第一路輸出通道用來基于標(biāo)簽關(guān)系樹計算概率分類損失函數(shù),通道中的 sigmoid 節(jié)點一一對應(yīng)層級中的每個類別標(biāo)簽,所有 sigmoid 節(jié)點按照標(biāo)簽關(guān)系樹進行組織。第二路輸出通道中的 softmax 節(jié)點對應(yīng)最后一層級中彼此互斥的細(xì)粒度類別,形成多類交叉熵?fù)p失函數(shù)讓網(wǎng)絡(luò)在優(yōu)化時關(guān)注細(xì)粒度分類的誤差。
復(fù)合損失函數(shù)
給定一幅輸入圖像
通道中對應(yīng)賦值向量的所有 sigmoid 節(jié)點的聯(lián)合輸出概率可以計算為:
- ,代表層級中第 i 個節(jié)點的 sigmoid 輸出
- ,代表由標(biāo)簽關(guān)系樹定義的層級約束
- 用作概率歸一化,求和標(biāo)簽關(guān)系樹上所有的合法賦值
如果輸入圖像 x 被標(biāo)注到樹中的第 i 個標(biāo)簽上,即
,我們可以計算標(biāo)簽 i 的邊緣概率:
分析邊緣概率的計算公式,我們可以發(fā)現(xiàn):(1)圖中某個標(biāo)簽 的邊緣概率依賴于該標(biāo)簽所有的父類節(jié)點分?jǐn)?shù)值之和,因為該標(biāo)簽賦值為 1 則其所有的 父節(jié)點都應(yīng)該賦值 1 才能滿足層級約束關(guān)系。因此,邊緣概率的計算可以使得父節(jié)點的 分?jǐn)?shù)值影響子節(jié)點的預(yù)測值。(2)計算層級中間標(biāo)簽的邊緣概率時需要包含其所有子類標(biāo)簽對應(yīng)的聯(lián)合概率,即可以聚集來自子類的知識。最后,給定 m 個訓(xùn)練樣本
,我們最大似然邊緣概率得到概率分類損失函數(shù):
- 代表賦值的標(biāo)簽向量,為標(biāo)注到標(biāo)簽關(guān)系樹中的標(biāo)簽下標(biāo)。
為了進一步加強網(wǎng)絡(luò)對于細(xì)粒度葉子節(jié)點的區(qū)分能力,我們進一步結(jié)合多類交叉熵?fù)p失函數(shù),形成最后的復(fù)合損失函數(shù)優(yōu)化整個網(wǎng)絡(luò):
即根據(jù)樣本是否被標(biāo)注葉子節(jié)點,選擇性地結(jié)合交叉熵?fù)p失函數(shù)與概率分類損失函數(shù)。
實驗
數(shù)據(jù)集
我們在常用的三套細(xì)粒度分類數(shù)據(jù)集:CUB-200-2011、FGVC-Aircraft、Stanford Cars。依據(jù)維基百科為每個數(shù)據(jù)集設(shè)定層級標(biāo)簽關(guān)系樹,其中 CUB-200-2011 包含 38 orders, 38 families, 200 species 三個層級;FGVC-Aircraft 具有 30 makers, 70 families, 100 models 三個層級;以及 Stanford Cars 具有 9 car types, 196 car makers 兩個層級。
實驗指標(biāo)
我們采用兩套實驗指標(biāo)進行評價:衡量每個層級的準(zhǔn)確率(OA)以及層級分類中的常用指標(biāo)
,即首先計算各個類別上平均的 precision-recall (PRC)曲線,通過某個閾值,獲得平均 PRC 曲線中的一點
:
通過設(shè)定不同的閾值得到平均 PRC 曲線,
為平均 PRC 曲線下的面積。
實驗設(shè)計
我們模擬現(xiàn)實世界中存在的兩點限制:(1)模擬主觀專家知識的差異:將位于細(xì)粒度葉子類別中的樣本,選取其中 0%,30%,50%,,70% 以及 90% 的樣本,重新標(biāo)記到其對應(yīng)的父類標(biāo)簽;(2)模擬圖像質(zhì)量的影響:將選取的重標(biāo)記樣本進一步降低其圖像的分辨率。
消融實驗
在表 1 中我們驗證了層級殘差網(wǎng)絡(luò)中包含的層級專有特征提取層(GSB)、層級特征線性組合(LC)、以及針對組合后的層級特征的非線性變換(ReLU)各部分的作用:
表 1:通過逐步添加 HRN 網(wǎng)絡(luò)中的關(guān)鍵部分: 層級專有特征提取層 (granularity-specific block, GSB)、層級間特征的線性組合(linear combination, LC)、以及最后對于組合特征的非線形變換 (ReLU) 獲得 CUB-200-2011 數(shù)據(jù)集中最后一層級上對應(yīng)重標(biāo)記比例為 0% 的 OA(%) 實驗結(jié)果。
在表 2 中我們驗證了復(fù)合損失函數(shù)中多類交叉熵?fù)p失函數(shù)的作用:
表 2: 不同重標(biāo)記比例下驗證概率分類損失函數(shù)
與多類交叉熵?fù)p失函數(shù)
的結(jié)合效果,匯報 CUB-200-2011 數(shù)據(jù)集中最后一層級上的 OA(%) 實驗結(jié)果
在表 3 中我們對比了復(fù)合損失函數(shù)與傳統(tǒng)的層級分類損失函數(shù)對比的結(jié)果:
表 3:CUB-200-2011 數(shù)據(jù)集中最后一層級上重標(biāo)記比例為 0% 對比復(fù)合損失函數(shù)與傳統(tǒng)層級分類損失函數(shù)的 OA(%) 實驗結(jié)果
在圖 4 中我們利用 Grad-Cam 可視化算法展示各個層級響應(yīng)的二維激活熱力圖:
圖 4: 鳥類數(shù)據(jù)集上來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種 種類 (species: House Wren 與 Marsh Wren) 的鳥類圖片上,我們方法產(chǎn)生的二維激活熱力圖
對比實驗
我們對比了 4 種公認(rèn)的層級多粒度分類方法:HMC-LMLP[1] 、HMCN[2]、Chang et al.[3]、C-HMCNN[4]。我們匯總平均在各個數(shù)據(jù)集、不同重標(biāo)記比例下各個對比方法的 OA / 結(jié)果在表 4 中:
表 4: 在各個數(shù)據(jù)集、不同重標(biāo)記比例下對比方法的平均 OA / 結(jié)果
類似地,我們利用 Grad-Cam 算法展示各個對比方法在不同層級上的二維激活熱力圖,結(jié)果見圖 5:
圖 5: CUB-200-2011 數(shù)據(jù)集中來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種種類(左邊: House Wren,右邊: Marsh Wren) 的鳥類圖片上,不同對比方法在三層層級 上各自的感興趣響應(yīng)區(qū)域示例
參考文獻
[1]Ricardo Cerri, et al. Reduction strategies for hierarchical multi-label classification in protein function prediction. BMC Bioinformat., 17(1):373, 2016.
[2]Jonatas Wehrmann, Ricardo Cerri, and Rodrigo Barros. Hierarchical multi-label classification networks. ICML, 2018.
[3]Dongliang Chang, et al. Your” flamingo” is my” bird”: Fine-grained, or not. CVPR, 2021.
Eleonora Giunchiglia and Thomas Lukasiewicz. Coherent hierarchical multi-label classification networks. NeurIPS, 2020.