免费爱碰视频在线观看,九九精品国产屋,欧美亚洲尤物久久精品,1024在线观看视频亚洲

語義分割新范式！StructToken：對per-pixel 分類范式的重新思考

用戶投稿 ? 2022年6月24日 12:44 ? 社會

作者丨Lart

編輯丨極市平臺

論文鏈接：https://arxiv.org/abs/2203.12612

本文是對語義分割傳統(tǒng)編解碼逐像素分類范式的一種思考和改進。

之前語義分割的工作將其視作一種逐像素分類任務(wù)，主流范式是編解碼結(jié)構(gòu)，通過編碼器和解碼器學(xué)習逐像素表征后，通過對每個像素單獨分類到不同的類別中從而獲得預(yù)測的語義掩碼結(jié)果。這篇文章選擇了另一種策略，即將結(jié)構(gòu)信息作為先驗直接構(gòu)造語義掩碼然后逐步細化，而不再是按照逐像素分類的范式。

具體來看，對于給定的輸入圖像，模型中可學(xué)習的結(jié)構(gòu)token會和圖像表征進行交互，從而推理出最終的語義掩碼。這一思路和最初的ViT結(jié)構(gòu)中的cls token的行為頗為類似。考慮到這份工作的實現(xiàn)是基于ViT-L，所以可以很直觀的推想出，StructToken的思路很是將Transformer原本的形式向語義分割這樣的密集預(yù)測任務(wù)的一種“直接”遷移，這其中并沒有像其他工作那樣，過多受到目標任務(wù)中原始的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計范式的影響。

所以值得思考的幾點可以由此提出：

本文定義的結(jié)構(gòu)信息是什么？
提出的設(shè)計是怎樣表達出這些結(jié)構(gòu)信息的？
如何驗證這些設(shè)計帶來的提升與所謂的結(jié)構(gòu)信息有關(guān)？

相關(guān)工作

現(xiàn)有的語義分割領(lǐng)域已經(jīng)出現(xiàn)了大量的工作，但是目前出現(xiàn)的工作中基本上都可以被歸類為逐像素分類范式，差別主要在于分類參數(shù)是否是動態(tài)的：

靜態(tài)逐像素分類：延續(xù)著以分割領(lǐng)域早期基于卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典工作的范式，例如FCN。他們主要利用上下文語義信息的增強和多尺度特征的融合，從而獲得更有效的圖像特征表示。并利用獨立的靜態(tài)分類器（典型如1×1卷積）實現(xiàn)逐像素的語義類別預(yù)測。然而這類工作專注于提升逐像素特征的表達能力，卻并未在模型設(shè)計中考慮圖像中的結(jié)構(gòu)信息。
動態(tài)逐像素分類：最近的工作中開始引入動態(tài)結(jié)構(gòu)的思想。除了模型本身特征處理結(jié)構(gòu)之外，分類器也開始轉(zhuǎn)變?yōu)閯討B(tài)形式。論文列出的典型的工作有Segmenter[Segmenter: Transformer for semantic segmentation]、MaskFormer[Per-pixel classification is not all you need for semantic segmentation]、Mask2Former[Masked-attention mask transformer for universal image segmentation]和K-Net[K-Net: Towards unified image segmentation]。他們主要是使用了一系列與語義類別相關(guān)的可學(xué)習的token，與圖像自身的特征進行交互，從而實現(xiàn)最終mask的預(yù)測。這從形式上來看，可以認為是一種動態(tài)分類的過程。這些方法同時由沒有完全拋棄上面提到的經(jīng)典范式，整體上獲得了更好的表現(xiàn)。但是從本文的角度來看，這類方法仍然沒有拋開逐像素分類的范式:)。

這些工作從整體上來看，都是在學(xué)習針對每一類的線性判別函數(shù)，要么是靜態(tài)的卷積，要么動態(tài)的矩陣乘法運算。這會作用在逐像素的特征表示上，從而來為其賦予一個最相關(guān)的語義類別。

作者們認為，按照人識別物體的過程，先是捕獲語義類別的結(jié)構(gòu)信息（形狀等），然后關(guān)注于內(nèi)部細節(jié)。想要分割圖像中不同語義類別的區(qū)域，通常先根據(jù)結(jié)構(gòu)生成一個粗略的mask，之后在調(diào)整mask的細節(jié)。現(xiàn)有的兩種逐像素分類范式并沒有充分的體現(xiàn)這一過程，而更多的是，直接在模型倒數(shù)第二層的特征圖上分類像素從而獲得得分圖。這一特性鼓勵網(wǎng)絡(luò)優(yōu)化單一像素的表征，而忽略甚至破壞了最重要的結(jié)構(gòu)特征。

本文中作者們提出了一種結(jié)構(gòu)先驗范式來解決這一問題，直接從結(jié)構(gòu)token中構(gòu)造得分圖來分割圖像，然后逐漸細化。

主要內(nèi)容

文中主要研究了如何從特征圖中根據(jù)結(jié)構(gòu)token提取有用的信息。提出的結(jié)構(gòu)整體遵循這樣的過程：

提取特征：使用Transformer骨干網(wǎng)絡(luò)，例如ViT，提取特征圖F，大小為[C,H/16,W/16]。

構(gòu)造結(jié)構(gòu)token：隨機初始化可學(xué)習的結(jié)構(gòu)token S，大小為[K,N]，K為數(shù)據(jù)集類別數(shù)量，N為patch數(shù)量，即[H/16,W/16]。

信息交互：使用交互結(jié)構(gòu)來處理S。捕獲特征圖中的結(jié)構(gòu)信息，并根據(jù)學(xué)習到的先驗為每一類構(gòu)建粗略的mask。

特征細化：獨立的FFN用于結(jié)構(gòu)token的細化，并處理特征圖。

級聯(lián)處理：堆疊多個基礎(chǔ)單元（包括交互和細化）來重復(fù)處理特征。

預(yù)測結(jié)果：尾部使用兩個卷積層和跳過鏈接構(gòu)成的卷積塊來細化最終構(gòu)建的分割mask并得到最終的結(jié)果。

這些步驟中，交互式結(jié)構(gòu)的設(shè)計是本文的核心。文中主要探索了三種交互式結(jié)構(gòu)。其中包含兩種動態(tài)結(jié)構(gòu)和一種靜態(tài)結(jié)構(gòu)。

動態(tài)結(jié)構(gòu)：基于Attention的思路，但是計算相關(guān)的token并非是空間patch，而是基于通道，即S中的類別token和F中的特征通道之間的交互。

第一種CSE基于Cross-Attention范式，經(jīng)過線性變換，S生成Query，F(xiàn)生成Key和Value，送入Cross-Attention。這里得到的結(jié)果與S形狀一致。按照圖示，這里也有個拆分操作，但是論文并未明說具體如何實現(xiàn)。
第二種SSE基于Self-Attention范式，S和F沿通道拼接后經(jīng)過線性變換得到Query、Key和Value，并送入Self-Attention。結(jié)果會被按照通道的原始比例進行拆分。

靜態(tài)結(jié)構(gòu)：直接使用1×1卷積處理SSE模塊中的相似性注意力的計算。卷積結(jié)果即為最終對應(yīng)于拆分之前的結(jié)果。這一過程使用1×1卷積直接混合不同的輸入通道的信息，實現(xiàn)了類似于SSE的過程。

上面結(jié)構(gòu)中在執(zhí)行Attention操作之前，S和F會被送入投影層處理，雖然是針對通道的Attention處理，但是這里的投影層使用的是1×1卷積+3×3深度卷積+1×1卷積的形式，仍然是空間維度共享的操作。

這些模塊的兩個輸出都會各自接一個FFN。這里的FFN使用的是FC+3×3分組卷積+FC的結(jié)構(gòu)。即可以細化局部特征，也可以看作是一種隱式位置編碼。

實驗結(jié)果

對比實驗

文中在三個主要的語義分割數(shù)據(jù)集上進行了驗證。本文的方法是構(gòu)建在ViT的不同變體之上的，也因此沒有使用那些金字塔架構(gòu)形式的多尺度特征。

從這里的實驗中可以發(fā)現(xiàn)一個趨勢，語義分割方法使用的backbone越來越大，從早期的的Res101，到現(xiàn)在的ViT-L、MiT-B5、Swin-L。預(yù)訓(xùn)練權(quán)重甚至都開始使用ImageNet21K上的了。不知道這樣的潮流是否真的有意義。

消融實驗

對提出的結(jié)構(gòu)中的不同組件進行了消融實驗。這里的baseline模型基于ViT，僅隔著一個CSE模塊和FFN模塊。這里的FFN沒有使用分組卷積，另外這里不對Query、Key和Value的投影層進行消融實驗，因為作者們覺得如果替換成常規(guī)的全連接成，會導(dǎo)致無法支持多尺度推理。因為為了保持attention操作本身的原始性，僅對輸入轉(zhuǎn)置來實現(xiàn)通道attention而非手動修改投影層的情況下，此時的投影層就成了空間上的全連接了。

這里還對提出的解碼塊堆疊數(shù)量進行了實驗，最終作者們考慮性能與計算復(fù)雜度的平衡，就選擇了4。實際上實驗中反映出來，更多的塊會帶來更好的性能表現(xiàn)。

但是作者們并沒有討論這些伴隨而來的計算量和參數(shù)量對于性能的影響。

為了驗證提出的結(jié)構(gòu)token保留結(jié)構(gòu)信息的能力，作者們構(gòu)建了一個逐像素分類范式的對等參考，backbone提取的特征會先將通道數(shù)量調(diào)整到類別數(shù)（類似于本文提出的結(jié)構(gòu)token那樣），每個通道認為對應(yīng)一個類別。之后通過四個殘差塊來進行處理，最終使用1×1卷積生成最終的得分圖。來自每個殘差塊的輸出會被用來與本文模型中每個交互塊的結(jié)構(gòu)token輸出進行可視化對比。下圖中，不同的行組對應(yīng)著不同的類別。可以看到，盡管輸出的得分圖很類似，但是結(jié)構(gòu)token在中間的輸出卻展現(xiàn)出了更清晰的目標形狀、輪廓等結(jié)構(gòu)信息。而且隨著多個塊的處理，這些目標信息更加清晰（典型如第9行）。

總結(jié)與思考

回答開頭的問題：

本文定義的結(jié)構(gòu)信息是什么？文章反復(fù)在強調(diào)的結(jié)構(gòu)其實直觀上可以理解為反映目標信息的形狀和外觀。本文提出的結(jié)構(gòu)Token在多次堆疊的處理單元的輸出中都明顯的凸顯出了特定類別的目標，確實實現(xiàn)了“粗略預(yù)測”的效果。
提出的設(shè)計是怎樣表達出這些結(jié)構(gòu)信息的？基于通道的交互方式，使得結(jié)構(gòu)token可以對圖像特征不同的通道進行自適應(yīng)的組合與強化。雙流中各自的FFN實現(xiàn)了獨立的空間變換和通道整合，這保證了各自學(xué)習過程的差異性和多樣性。這種交互方式保留了圖像空間結(jié)構(gòu)信息的獨立性和完整性。同時由于真值的監(jiān)督，目標類別對應(yīng)的結(jié)構(gòu)token經(jīng)過優(yōu)化，會愈發(fā)具有與真值接近的空間上的外觀，也即論文中圖3中所展示的那樣。

這是為什么呢？我覺得這是因為通道注意力的使用的結(jié)果。基于通道之間的相似性計算的attention運算中，會為圖像特征中對應(yīng)空間位置激活更加明顯（即與結(jié)構(gòu)token對應(yīng)類別通道更加相似）的通道賦予更大的比重，這樣才會讓損失越來越小。

如何驗證這些設(shè)計帶來的提升與所謂的結(jié)構(gòu)信息有關(guān)？作者對此并未進行探討，或許可以構(gòu)造這樣一個實驗：在目前這種在最后單一監(jiān)督的形式中，后續(xù)處理單元中結(jié)構(gòu)token各個類別通道的可視化結(jié)果非常趨于真值了。那若是使用深監(jiān)督策略，直接對論文中提供的逐像素分類范式的卷積模型，對這些位置的特征進行額外監(jiān)督，進一步強化這些特征對于這些目標區(qū)域的分割效果。如果性能進一步提升，則說明這樣的結(jié)構(gòu)信息的強化是有必要的。

鄭重聲明：本文內(nèi)容及圖片均整理自互聯(lián)網(wǎng)，不代表本站立場，版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系管理員(admin#wlmqw.com)刪除。

信息像素卷積圖像特征類別結(jié)構(gòu)范式語義通道

你尊重快遞員或是外賣騎手嗎？

上一篇 2022年6月24日 12:44

愛立信中國區(qū)總裁方迎：已與中國相關(guān)部門開展了6G前期合作

下一篇 2022年6月24日 12:44

計算機網(wǎng)絡(luò)技術(shù)論文(計算機網(wǎng)絡(luò)技術(shù)論文七千字)
今天小編給各位分享計算機網(wǎng)絡(luò)技術(shù)論文的知識，其中也會對計算機網(wǎng)絡(luò)技術(shù)論文七千字進行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！計算機網(wǎng)絡(luò)方面的論文3000字…
2022年11月26日
0
拍照比較好的手機(不打游戲拍照比較好的手機)
本文主要講的是拍照比較好的手機，以及和不打游戲拍照比較好的手機相關(guān)的知識，如果覺得本文對您有所幫助，不要忘了將本文分享給朋友。拍照效果最好的手機排行拍照效果最好的手機排行： 1…
2022年11月25日
0
OPPO Reno9 Pro+硬件規(guī)格強搭載驍龍8+旗艦處理器
OPPO Reno9系列正式發(fā)布，Reno9 Pro+作為三款新機中定位最高的超大杯機型，整體配置較上一代有著大幅度的升級，如果單看硬件配置的話，Reno9 Pro+甚至是目前OP…
2022年11月24日
0
中興Axon40 Ultra航天版將于11月29日正式發(fā)布
據(jù)中興手機官微爆料，中興Axon40 Ultra航天版將于11月29日正式發(fā)布，新機不僅會采用驍龍?zhí)幚砥?，還將為大家?guī)硪幻丢毩踩酒?，獲得國密認證，擁有安全專利布局，不僅可以大…
2022年11月24日
0
三星tabs8+配置參數(shù) 三星tabs8+屏幕尺寸處理器介紹
三星Galaxy Tab S8+是2022年3月份上市的一款平板，有很多用戶想了解一下這款平板的配置參數(shù)，下面我就給大家提供一下這款平板的參數(shù)配置。三星Galaxy Tab S8…
2022年11月24日
0
兩寸照片大小(兩寸照片大小怎么改到20kb)
今天小編給各位分享兩寸照片大小的知識，其中也會對兩寸照片大小怎么改到20kb進行解釋，如果能碰巧解決你現(xiàn)在面臨的問題，別忘了關(guān)注本站，現(xiàn)在開始吧！兩寸照片是多大 2寸照片尺寸大小…
2022年11月24日
0
vivox90和x90pro/x90pro+區(qū)別差距多大參數(shù)配置對比評測
vivox90系列的賣點有很多，它是首款搭載天璣9200處理器的手機，擁有蔡司一英寸T主攝和自研的V2芯片。那么vivox90、vivox90pro和vivox90pro+有什么區(qū)…
2022年11月24日
0
前三季度，市場規(guī)模超過五萬億元信息消費展現(xiàn)蓬勃生機
家居企業(yè)個性化全屋定制系統(tǒng)，備受消費者青睞；主打?qū)I(yè)電競的新款高性能便攜式計算機，銷量表現(xiàn)創(chuàng)新高；物流企業(yè)推出數(shù)智化供應(yīng)鏈興農(nóng)服務(wù)項目，助力優(yōu)質(zhì)農(nóng)產(chǎn)品出深山…… 不久前，工信部發(fā)布…
2022年11月24日
0
真我10pro邊框比蘋果14 Pro窄一半價格1599元起
上周，realme召開新品發(fā)布會，推出了真我10系列機型，真我10 Pro、真我10 Pro+都采用了全新封裝工藝，達到業(yè)內(nèi)頂級窄邊框。根據(jù)官方消息，真我10 Pro/Pro+機…
2022年11月24日
0
園屬于什么結(jié)構(gòu)(園的結(jié)構(gòu)和部首)
園 yuán：全包圍結(jié)構(gòu)，平穩(wěn)端正中稍帶左收右展。外部“口” 體態(tài)端莊，稍抗肩，稍帶左輕右重。左豎起筆稍抖，豎身勿重，稍左斜，垂露收筆；第二筆橫折壓著左豎起筆，橫畫稍抗肩，不要重…
2022年11月24日
0

聯(lián)系我們

聯(lián)系郵箱：admin#wlmqw.com
工作時間：周一至周五，10:30-18:30，節(jié)假日休息

<fieldset id="1x1qv"><li id="1x1qv"></li></fieldset>