由于物體的真實輪廓和遮擋邊界之間通常沒有區別,對高度重疊的對象進行分割是非常具有挑戰性的。與之前的自頂向下的實例分割方法不同,本文提出遮擋感知下的雙圖層實例分割網絡BCNet,將圖像中的感興趣區域(Region of Interest,RoI)建模為兩個重疊圖層,其中頂部圖層檢測遮擋對象,而底圖層推理被部分遮擋的目標物體。雙圖層結構的顯式建模自然地將遮擋和被遮擋物體的邊界解耦,并在Mask預測的同時考慮遮擋關系的相互影響。作者在具有不同主干和網絡層選擇的One-stage和Two-stage目標檢測器上驗證了雙層解耦的效果,顯著改善了現有圖像實例分割模型在處理復雜遮擋物體的表現,并在COCO和KINS數據集上均取得總體性能的大幅提升。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
視頻行為理解中的一個核心難點是「場景偏差」問題。比如,一段在籃球場跳舞的視頻,會被識別為打籃球,而非跳舞。我們提出一種自監督視頻表征學習方案,通過直接在代理任務中顯式解耦場景與運動信息,處理「場景偏差」難題。值得注意的是,本方案中,解耦的場景與運動信息均從「視頻壓縮編碼」中提取得到。其中場景由關鍵幀 (keyframes) 表示,運動由運動向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于該解耦方案預訓練的視頻網絡模型,遷移至行為理解和視頻檢索兩項下游任務,性能均顯著超過SOTA。
//www.zhuanzhi.ai/paper/cb3378314b648e21f7e04d86c3bc5727
GID提出了一種基于檢測任務的新型蒸餾方法。通過從teacher和studnet中分別提取general instance (GI),并提出GISM模塊自適應選擇差異大的instance進行feature-based、relation-based以及response-based蒸餾。本方法首次將關系型知識蒸餾應用于檢測框架,且將蒸餾目標從獨立考慮的正負樣本蒸餾統一為更本質GI蒸餾,過程中不依賴于GT,且達到SOTA。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
本文是收錄于CVPR2020的目標檢測的新工作,從關鍵點檢測的角度出發進行創新,提出了向心偏移和十字星可形變卷積等創新點,在COCO數據集上以48.0%的AP勝過所有現有的Anchor-free檢測器,值得學習。
論文地址://arxiv.org/pdf/2003.09119.pdf
代碼地址:
基于關鍵點的檢測器已經取得了不錯的性能。但是,錯誤的關鍵點匹配仍然廣泛存在,并且極大地影響了檢測器的性能。在本文中,提出了CentripetalNet,它使用向心偏移(centripetal shift)來配對來自同一實例的角corner關鍵點。
具體來說,CentripetalNet預測角點的位置和向心偏移,并匹配與其偏移結果對齊的角。因為聯合了位置信息,本文的方法比傳統的嵌入方法更準確地匹配角點。Corner pooling 將邊界框內的信息提取到邊界上。為了使這些信息在角落更清晰,本文設計了一個十字星形(cross-star)可變形卷積網絡來進行特征自適應。此外,通過在CentripetalNet上引入一個mask預測模塊,可以在在Anchor-free目標檢測器上實現實例分割任務。
在MS-COCO test-dev數據集上,CentripetalNet不僅以48.0%的AP勝過所有現有的Anchor-free檢測器,而且以40.2%的Mask AP達到了與最新實例分割方法相當的性能。
CornerNet的主要結構主要由以下3部分組成:
沙漏結構Hourglass:特征提取的Backbone,能夠為后續的網絡預測提供很好的角點特征圖。
角點池化Corner Pooling:作為一個特征的池化方式,角點池化可以將物體的信息整合到左上角點或者右下角點。
預測輸出:傳統的物體檢測會預測邊框的類別與位置偏移,而CornerNet則與之完全不同,其預測了角點出現的位置Heatmaps、角點的配對Embeddings及角點位置的偏移Offsets。