基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
目前代碼已開源:
//github.com/Panxjia/SPA_CVPR2021
弱監督目標檢測近年來逐漸受到國內外研究機構以及工業界關注。基于全監督的目標檢測方法需要耗費大量的人力、物力獲取大量準確的標注信息,對于任務更新以及遷移極其不友好。近年來,全世界范圍內的研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架
弱監督定位研究如何僅利用圖像的類別標簽對圖像中目標進行定位。
2014年MIT提出的類別響應圖CAM,得到目標的響應掩模,之后通過最小包圍框得到目標的定位結果。CAM得到的類別響應掩模只能覆蓋目標最具判別性的局部區域,如圖1第二行所示。后續的研究工作多通過空間正則技術,如通過擦除、多分支補充等方法試圖擴大類別響應區域。雖然在響應區域上有一定的改善,但是現有的工作均忽略了保持目標結構特性的重要性,無法刻畫目標的邊緣、形狀等特性。另外,現有方法的分類網絡均采用Global Average Pooling(GAP)結構對特征進行聚合,這在一定程度上損失了目標的結構信息。
本文提出了一種兩階段的弱監督目標定位方法(SPA),從模型結構與類別響應圖兩個方面優化定位結果,提高響應掩模的準確度。整體方法框架如圖2所示。
具體地,從模型結構方面,我們提出了受限激活模塊。
現有方法中往往采用Global Average Pooling (GAP)+Softmax的分類結構,這種結構導致模型丟失目標結構信息,主要原因包括:
一,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力;
二,無限制的類別響應特征圖往往出現局部極高響應誤導模型分類的現象,不利于模型準確定位到目標的位置。
因此,我們設計了一個簡單有效的受限激活模塊,主要包括兩個部分:
一,我們首先通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽mask, 用以區分前背景;
二,我們利用Sigmoid操作對類別響應特征圖進行歸一化,之后利用提出的受限激活損失函數引導模型關注目標前景區域。
基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
由于物體的真實輪廓和遮擋邊界之間通常沒有區別,對高度重疊的對象進行分割是非常具有挑戰性的。與之前的自頂向下的實例分割方法不同,本文提出遮擋感知下的雙圖層實例分割網絡BCNet,將圖像中的感興趣區域(Region of Interest,RoI)建模為兩個重疊圖層,其中頂部圖層檢測遮擋對象,而底圖層推理被部分遮擋的目標物體。雙圖層結構的顯式建模自然地將遮擋和被遮擋物體的邊界解耦,并在Mask預測的同時考慮遮擋關系的相互影響。作者在具有不同主干和網絡層選擇的One-stage和Two-stage目標檢測器上驗證了雙層解耦的效果,顯著改善了現有圖像實例分割模型在處理復雜遮擋物體的表現,并在COCO和KINS數據集上均取得總體性能的大幅提升。
在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。
論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077
代碼鏈接:
當前基于CNN的圖像超分對所有位置同等對待,即每個位置都需要經過網絡進行處理。實際上,低分辨率圖像的細節缺失主要位于邊緣、紋理區域,而平坦區域則較少缺失,故而賦予更少的計算量處理亦可。這就意味著現有基于CNN的圖像超分方法在平坦區域存在計算量冗余問題,限制了對應方法在移動端的應用。
為解決上述問題,我們對圖像超分中的稀疏性問題進行了探索,并用于改善超分網絡的推理高效性。具體來說,我們設計了一種Sparse Mask SR(SMSR)學習稀疏掩碼以剪枝冗余計算量。結合所提SMSR,空域掩碼學習判別“重要性”區域而通道掩碼學習冗余通道(即不重要區域)。因此,冗余計算空域被精確的定位并跳過,同時保持同等性能。
最后,我們通過實驗證實:SMSR取得了SOTA性能,同時x2/3/4被超分的計算量降低41%、33%以及27%。
本文的主要貢獻包含以下幾點:
我們提出了一種SMSR動態跳過冗余計算以達成高效圖像超分; 我們提出通過學習空域與通道掩碼定位冗余計算,兩者協同達成細粒度的冗余計算定位; 所提方法取得了SOTA性能,同時具有更好的推理效率。
paper://arxiv.org/abs/2006.09603
Code:
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
該工作針對基于半監督的醫學圖像算法,提出了一種利用雙任務一致性約束的新方法,將同一個分割問題表示成兩個不同的任務,并鼓勵兩個任務在預定義的表示空間內保持一致,進而充分利用未標注的數據提升深度神經網絡的性能,同時大大降低訓練網絡模型所需要的標注成本。圖片
基于深度學習的方法因為在圖像處理上優越表現而受到廣泛的關注,近年來在圖像識別、人工智能領域不斷取得了性能突破。但是由于深度神經網絡需要依賴大量良好標注的數據,在小數據上很難達到比較好的效果。在醫學圖像領域,數據標注通常需要大量的時間,也需要醫學領域的專業知識,但醫生通常很忙,沒有充足的時間來標注大量的數據,因此從少量標注數據和大量未標注數據來學習以獲得高性能模型變得尤為重要。
基于這樣的問題,本文提出了一種基于雙任務一致性的半監督學習算法,在現有全監督醫學圖像分割算法基礎上,該算法可以充分利用沒有標注的數據進行進一步學習,進而大大提高未標注數據的利用率和促進網絡分割性能。實驗表明,通過引入雙任務一致性,網絡能更穩定的從少量標注數據和大量未標注數據中學習,并顯著提高分割結果。同時與最新的半監督分割算法相比,此方法需要的訓練成本更低,所取得的效果也更好,從而降低了深度神經網絡對標注數據的依賴。
文本匹配是一項研究兩段文本之間的相關關系的任務,在如搜索引擎、文檔挖掘、智能對話等場景有著廣泛應用和重要意義。
在文本匹配任務中,目標文本和候選文本之間的聯系以及文本內部的上下文關聯都是實現準確匹配的關鍵。然而,大多數已有的深度神經網絡模型只關注了前者,忽略了每個文本內部的上下文語義信息,從而面臨著長文本、復雜文本難匹配等問題。
解決方案 為了解決上述問題,中科院自動化所智能感知與計算研究中心團隊提出一種基于文本圖神經網絡架構的匹配方法,用圖(graph)結構表示文本,能夠同時建模兩個文本之間的交互以及每個文本內部的上下文關聯,可以有效緩解現有方法中長文本難匹配的問題,如圖1所示。
對于構建的文本圖,該方法采用“聚合(aggregation)”、“更新(update)”以及“讀出(readout)”三個步驟進行建模學習,如圖2所示。其中,“聚合”步驟將上下文信息進行匯總,“更新”步驟將匯總的信息進行篩選和合并,最后“讀出”步驟將整圖信息輸出為相似度得分。
基于圖神經網絡的文本匹配框架示例
該方法在常見的文本匹配數據集上進行了實驗,取得了與當前主流預訓練模型(BERT)相當的結果,并且在長文本數據集上對基線的提升更顯著,驗證了模型的有效性。