免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

      語義分割新范式!StructToken:對per-pixel 分類范式的重新思考

      語義分割新范式!StructToken:對per-pixel 分類范式的重新思考

      作者丨Lart

      編輯丨極市平臺

      論文鏈接:https://arxiv.org/abs/2203.12612

      本文是對語義分割傳統(tǒng)編解碼逐像素分類范式的一種思考和改進。

      之前語義分割的工作將其視作一種逐像素分類任務(wù),主流范式是編解碼結(jié)構(gòu),通過編碼器和解碼器學(xué)習逐像素表征后,通過對每個像素單獨分類到不同的類別中從而獲得預(yù)測的語義掩碼結(jié)果。這篇文章選擇了另一種策略,即將結(jié)構(gòu)信息作為先驗直接構(gòu)造語義掩碼然后逐步細化,而不再是按照逐像素分類的范式。

      具體來看,對于給定的輸入圖像,模型中可學(xué)習的結(jié)構(gòu)token會和圖像表征進行交互,從而推理出最終的語義掩碼。這一思路和最初的ViT結(jié)構(gòu)中的cls token的行為頗為類似。考慮到這份工作的實現(xiàn)是基于ViT-L,所以可以很直觀的推想出,StructToken的思路很是將Transformer原本的形式向語義分割這樣的密集預(yù)測任務(wù)的一種“直接”遷移,這其中并沒有像其他工作那樣,過多受到目標任務(wù)中原始的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計范式的影響。

      所以值得思考的幾點可以由此提出:

      • 本文定義的結(jié)構(gòu)信息是什么?
      • 提出的設(shè)計是怎樣表達出這些結(jié)構(gòu)信息的?
      • 如何驗證這些設(shè)計帶來的提升與所謂的結(jié)構(gòu)信息有關(guān)?

      相關(guān)工作

      現(xiàn)有的語義分割領(lǐng)域已經(jīng)出現(xiàn)了大量的工作,但是目前出現(xiàn)的工作中基本上都可以被歸類為逐像素分類范式,差別主要在于分類參數(shù)是否是動態(tài)的:

      • 靜態(tài)逐像素分類:延續(xù)著以分割領(lǐng)域早期基于卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典工作的范式,例如FCN。他們主要利用上下文語義信息的增強和多尺度特征的融合,從而獲得更有效的圖像特征表示。并利用獨立的靜態(tài)分類器(典型如1×1卷積)實現(xiàn)逐像素的語義類別預(yù)測。然而這類工作專注于提升逐像素特征的表達能力,卻并未在模型設(shè)計中考慮圖像中的結(jié)構(gòu)信息。
      • 動態(tài)逐像素分類:最近的工作中開始引入動態(tài)結(jié)構(gòu)的思想。除了模型本身特征處理結(jié)構(gòu)之外,分類器也開始轉(zhuǎn)變?yōu)閯討B(tài)形式。論文列出的典型的工作有Segmenter[Segmenter: Transformer for semantic segmentation]、MaskFormer[Per-pixel classification is not all you need for semantic segmentation]、Mask2Former[Masked-attention mask transformer for universal image segmentation]和K-Net[K-Net: Towards unified image segmentation]。他們主要是使用了一系列與語義類別相關(guān)的可學(xué)習的token,與圖像自身的特征進行交互,從而實現(xiàn)最終mask的預(yù)測。這從形式上來看,可以認為是一種動態(tài)分類的過程。這些方法同時由沒有完全拋棄上面提到的經(jīng)典范式,整體上獲得了更好的表現(xiàn)。但是從本文的角度來看,這類方法仍然沒有拋開逐像素分類的范式:)。

      這些工作從整體上來看, 都是在學(xué)習針對每一類的線性判別函數(shù),要么是靜態(tài)的卷積,要么動態(tài)的矩陣乘法運算。這會作用在逐像素的特征表示上,從而來為其賦予一個最相關(guān)的語義類別。

      作者們認為,按照人識別物體的過程,先是捕獲語義類別的結(jié)構(gòu)信息(形狀等),然后關(guān)注于內(nèi)部細節(jié)。想要分割圖像中不同語義類別的區(qū)域,通常先根據(jù)結(jié)構(gòu)生成一個粗略的mask,之后在調(diào)整mask的細節(jié)。現(xiàn)有的兩種逐像素分類范式并沒有充分的體現(xiàn)這一過程,而更多的是,直接在模型倒數(shù)第二層的特征圖上分類像素從而獲得得分圖。這一特性鼓勵網(wǎng)絡(luò)優(yōu)化單一像素的表征,而忽略甚至破壞了最重要的結(jié)構(gòu)特征。

      本文中作者們提出了一種結(jié)構(gòu)先驗范式來解決這一問題,直接從結(jié)構(gòu)token中構(gòu)造得分圖來分割圖像,然后逐漸細化。

      主要內(nèi)容

      文中主要研究了如何從特征圖中根據(jù)結(jié)構(gòu)token提取有用的信息。提出的結(jié)構(gòu)整體遵循這樣的過程:

    1. 提取特征:使用Transformer骨干網(wǎng)絡(luò),例如ViT,提取特征圖F,大小為[C,H/16,W/16]。
    2. 構(gòu)造結(jié)構(gòu)token:隨機初始化可學(xué)習的結(jié)構(gòu)token S,大小為[K,N],K為數(shù)據(jù)集類別數(shù)量,N為patch數(shù)量,即[H/16,W/16]。
    3. 信息交互:使用交互結(jié)構(gòu)來處理S。捕獲特征圖中的結(jié)構(gòu)信息,并根據(jù)學(xué)習到的先驗為每一類構(gòu)建粗略的mask。
    4. 特征細化:獨立的FFN用于結(jié)構(gòu)token的細化,并處理特征圖。
    5. 級聯(lián)處理:堆疊多個基礎(chǔ)單元(包括交互和細化)來重復(fù)處理特征。
    6. 預(yù)測結(jié)果:尾部使用兩個卷積層和跳過鏈接構(gòu)成的卷積塊來細化最終構(gòu)建的分割mask并得到最終的結(jié)果。
    7. 這些步驟中,交互式結(jié)構(gòu)的設(shè)計是本文的核心。文中主要探索了三種交互式結(jié)構(gòu)。其中包含兩種動態(tài)結(jié)構(gòu)和一種靜態(tài)結(jié)構(gòu)。

      • 動態(tài)結(jié)構(gòu):基于Attention的思路,但是計算相關(guān)的token并非是空間patch,而是基于通道,即S中的類別token和F中的特征通道之間的交互。
        • 第一種CSE基于Cross-Attention范式,經(jīng)過線性變換,S生成Query,F(xiàn)生成Key和Value,送入Cross-Attention。這里得到的結(jié)果與S形狀一致。按照圖示,這里也有個拆分操作,但是論文并未明說具體如何實現(xiàn)。
        • 第二種SSE基于Self-Attention范式,S和F沿通道拼接后經(jīng)過線性變換得到Query、Key和Value,并送入Self-Attention。結(jié)果會被按照通道的原始比例進行拆分。
      • 靜態(tài)結(jié)構(gòu):直接使用1×1卷積處理SSE模塊中的相似性注意力的計算。卷積結(jié)果即為最終對應(yīng)于拆分之前的結(jié)果。這一過程使用1×1卷積直接混合不同的輸入通道的信息,實現(xiàn)了類似于SSE的過程。

      上面結(jié)構(gòu)中在執(zhí)行Attention操作之前,S和F會被送入投影層處理,雖然是針對通道的Attention處理,但是這里的投影層使用的是1×1卷積+3×3深度卷積+1×1卷積的形式,仍然是空間維度共享的操作。

      這些模塊的兩個輸出都會各自接一個FFN。這里的FFN使用的是FC+3×3分組卷積+FC的結(jié)構(gòu)。即可以細化局部特征,也可以看作是一種隱式位置編碼。

      實驗結(jié)果

      對比實驗

      文中在三個主要的語義分割數(shù)據(jù)集上進行了驗證。本文的方法是構(gòu)建在ViT的不同變體之上的,也因此沒有使用那些金字塔架構(gòu)形式的多尺度特征。

      從這里的實驗中可以發(fā)現(xiàn)一個趨勢,語義分割方法使用的backbone越來越大,從早期的的Res101,到現(xiàn)在的ViT-L、MiT-B5、Swin-L。預(yù)訓(xùn)練權(quán)重甚至都開始使用ImageNet21K上的了。不知道這樣的潮流是否真的有意義。

      消融實驗

      對提出的結(jié)構(gòu)中的不同組件進行了消融實驗。這里的baseline模型基于ViT,僅隔著一個CSE模塊和FFN模塊。這里的FFN沒有使用分組卷積,另外這里不對Query、Key和Value的投影層進行消融實驗,因為作者們覺得如果替換成常規(guī)的全連接成,會導(dǎo)致無法支持多尺度推理。因為為了保持attention操作本身的原始性,僅對輸入轉(zhuǎn)置來實現(xiàn)通道attention而非手動修改投影層的情況下,此時的投影層就成了空間上的全連接了。

      這里還對提出的解碼塊堆疊數(shù)量進行了實驗,最終作者們考慮性能與計算復(fù)雜度的平衡,就選擇了4。實際上實驗中反映出來,更多的塊會帶來更好的性能表現(xiàn)。

      但是作者們并沒有討論這些伴隨而來的計算量和參數(shù)量對于性能的影響。

      為了驗證提出的結(jié)構(gòu)token保留結(jié)構(gòu)信息的能力,作者們構(gòu)建了一個逐像素分類范式的對等參考,backbone提取的特征會先將通道數(shù)量調(diào)整到類別數(shù)(類似于本文提出的結(jié)構(gòu)token那樣),每個通道認為對應(yīng)一個類別。之后通過四個殘差塊來進行處理,最終使用1×1卷積生成最終的得分圖。來自每個殘差塊的輸出會被用來與本文模型中每個交互塊的結(jié)構(gòu)token輸出進行可視化對比。下圖中,不同的行組對應(yīng)著不同的類別。可以看到,盡管輸出的得分圖很類似,但是結(jié)構(gòu)token在中間的輸出卻展現(xiàn)出了更清晰的目標形狀、輪廓等結(jié)構(gòu)信息。而且隨著多個塊的處理,這些目標信息更加清晰(典型如第9行)。

      總結(jié)與思考

      回答開頭的問題:

      • 本文定義的結(jié)構(gòu)信息是什么?文章反復(fù)在強調(diào)的結(jié)構(gòu)其實直觀上可以理解為反映目標信息的形狀和外觀。本文提出的結(jié)構(gòu)Token在多次堆疊的處理單元的輸出中都明顯的凸顯出了特定類別的目標,確實實現(xiàn)了“粗略預(yù)測”的效果。
      • 提出的設(shè)計是怎樣表達出這些結(jié)構(gòu)信息的?基于通道的交互方式,使得結(jié)構(gòu)token可以對圖像特征不同的通道進行自適應(yīng)的組合與強化。雙流中各自的FFN實現(xiàn)了獨立的空間變換和通道整合,這保證了各自學(xué)習過程的差異性和多樣性。這種交互方式保留了圖像空間結(jié)構(gòu)信息的獨立性和完整性。同時由于真值的監(jiān)督,目標類別對應(yīng)的結(jié)構(gòu)token經(jīng)過優(yōu)化,會愈發(fā)具有與真值接近的空間上的外觀,也即論文中圖3中所展示的那樣。
        • 這是為什么呢?我覺得這是因為通道注意力的使用的結(jié)果。基于通道之間的相似性計算的attention運算中,會為圖像特征中對應(yīng)空間位置激活更加明顯(即與結(jié)構(gòu)token對應(yīng)類別通道更加相似)的通道賦予更大的比重,這樣才會讓損失越來越小。
      • 如何驗證這些設(shè)計帶來的提升與所謂的結(jié)構(gòu)信息有關(guān)?作者對此并未進行探討,或許可以構(gòu)造這樣一個實驗:在目前這種在最后單一監(jiān)督的形式中,后續(xù)處理單元中結(jié)構(gòu)token各個類別通道的可視化結(jié)果非常趨于真值了。那若是使用深監(jiān)督策略,直接對論文中提供的逐像素分類范式的卷積模型,對這些位置的特征進行額外監(jiān)督,進一步強化這些特征對于這些目標區(qū)域的分割效果。如果性能進一步提升,則說明這樣的結(jié)構(gòu)信息的強化是有必要的。
      鄭重聲明:本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng),不代表本站立場,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。
      用戶投稿
      上一篇 2022年6月24日 12:44
      下一篇 2022年6月24日 12:44

      相關(guān)推薦

      聯(lián)系我們

      聯(lián)系郵箱:admin#wlmqw.com
      工作時間:周一至周五,10:30-18:30,節(jié)假日休息