BiSeNet已被證明在實時分割two-stream網絡中是有效的。但是,其添加額外path以對空間信息進行編碼的原理很耗時,并且由于缺少任務專用設計,因此從預訓練任務(例如圖像分類)中借用的主干可能無法有效地進行圖像分割。
為了解決這些問題,作者提出了一種新穎且有效的結構,即通過消除結構冗余來緩解以上的耗時問題(Short-Term Dense Concatenate network)。具體來說,本文將特征圖的維數逐漸降低,并將特征圖聚合起來進行圖像表征,形成了STDC網絡的基本模塊。在decoder中,提出了一個Detail Aggregation module將空間信息的學習以single-stream方式集成到low-level layers中。最后,將low-level features和deep features融合以預測最終的分割結果。
Mobile Network設計的最新研究成果表明,通道注意力(例如,SE注意力)對于提升模型性能具有顯著效果,但它們通常會忽略位置信息,而位置信息對于生成空間選擇性attention maps是非常重要。
因此在本文中,作者通過將位置信息嵌入到通道注意力中提出了一種新穎的移動網絡注意力機制,將其稱為“Coordinate Attention”。
與通過2維全局池化將特征張量轉換為單個特征向量的通道注意力不同,coordinate注意力將通道注意力分解為兩個1維特征編碼過程,分別沿2個空間方向聚合特征。這樣,可以沿一個空間方向捕獲遠程依賴關系,同時可以沿另一空間方向保留精確的位置信息。然后將生成的特征圖分別編碼為一對方向感知和位置敏感的attention map,可以將其互補地應用于輸入特征圖,以增強關注對象的表示。
本文所提的Coordinate注意力很簡單,可以靈活地插入到經典的移動網絡中,例如MobileNetV2,MobileNeXt和EfficientNet,而且幾乎沒有計算開銷。大量實驗表明,Coordinate注意力不僅有益于ImageNet分類,而且更有趣的是,它在下游任務(如目標檢測和語義分割)中表現也很好。
基于Transformers 從序列到序列的角度重新思考語義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語義分割方法提供另一種思路,將語義分割轉變為序列到序列的預測任務。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進行了全局的上下文建模,結合常規的Decoder模塊,我們得到了一個強大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達到SOTA,并在Cityscapes上取得了較好結果。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。