題目: Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
摘要: 圖像級弱監督語義分割是近年來深入研究的一個具有挑戰性的問題。大多數高級解決方案都利用類激活映射(CAM)。然而,由于監督的充分性和弱監督的差距,CAMs很難作為目標掩模。在這篇論文中,我們提出了一個自我監督的等變注意機制(SEAM)來發現額外的監督并縮小差距。我們的方法是基于等方差是完全監督語義分割的一個隱含約束,其像素級標簽在數據擴充過程中與輸入圖像進行相同的空間變換。然而,這種約束在圖像級監控訓練的凸輪上丟失了。因此,我們提出了對不同變換圖像的預測凸輪進行一致性正則化,為網絡學習提供自監督。此外,我們提出了一個像素相關模塊(PCM),它利用上下文外觀信息,并改進當前像素的預測由其相似的鄰居,從而進一步提高CAMs的一致性。在PASCAL VOC 2012數據集上進行的大量實驗表明,我們的方法在同等監督水平下表現優于最先進的方法。
自監督式VO方法在視頻中聯合估計攝像機姿態和深度方面取得了很大的成功。然而,與大多數數據驅動的方法一樣,現有的VO網絡在面對與訓練數據不同的場景時,性能顯著下降,不適合實際應用。在本文中,我們提出了一種在線元學習算法,使VO網絡能夠以一種自監督的方式不斷適應新的環境。該方法利用卷積長短時記憶(convLSTM)來聚合過去的豐富時空信息。網絡能夠記憶和學習過去的經驗,以便更好地估計和快速適應當前幀。在開放環境中運行VO時,為了應對環境的變化,我們提出了一種在線的特征對齊方法,即在不同的時刻對特征分布進行對齊。我們的VO網絡能夠無縫地適應不同的環境。在看不見的戶外場景、虛擬到真實世界和戶外到室內環境的大量實驗表明,我們的方法始終比最先進的自監督的VO基線性能更好。
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
題目: Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection
摘要:
弱監督學習通過減少訓練過程中對強監督的需求,已經成為一種引人注目的對象檢測工具。然而,主要的挑戰仍然存在:(1)對象實例的區分可能是模糊的;(2)探測器往往聚焦于有區別的部分,而不是整個物體;(3)如果準確性不高,對象建議對于高回憶來說是冗余的,這會導致大量的內存消耗。解決這些挑戰是困難的,因為它經常需要消除不確定性和瑣碎的解決方案。為了解決這些問題,我們開發了一個實例感知和上下文相關的統一框架。它采用了一個實例感知的自訓練算法和一個可學習的具體DropBlock,同時設計了一個內存有效的順序批處理反向傳播。我們提出的方法在COCO(12.1%的AP, 24.8%的AP50)、VOC 2007(54.9%的AP)和VOC 2012(52.1%的AP)上取得了最先進的結果,極大地改善了基線。此外,該方法是第一個對基于ResNet的模型和弱監督視頻對象檢測進行基準測試的方法。
大多數的對象識別方法主要側重于學習有判別性的視覺模式,而忽略了整體的物體結構。盡管很重要,但結構建模通常需要大量的手工注釋,因此是勞動密集型的。在這篇論文中,我們提出通過將自我監督納入傳統的框架中來“觀察對象”(明確而內在地對對象結構建模)。我們證明了在不增加額外注釋和推理速度的情況下,識別主干可以被顯著增強,從而實現更健壯的表示學習。具體來說,我們首先提出了一個對象范圍學習模塊,用于根據同一類別中實例間共享的視覺模式對對象進行本地化。然后,我們設計了一個空間上下文學習模塊,通過預測范圍內的相對位置,對對象的內部結構進行建模。這兩個模塊可以很容易地插入到任何骨干網絡訓練和分離的推理時間。大量的實驗表明,我們的內視對象方法(LIO)在許多基準上獲得了巨大的性能提升,包括通用對象識別(ImageNet)和細粒度對象識別任務(CUB、Cars、Aircraft)。我們還表明,這種學習范式可以高度泛化到其他任務,如對象檢測和分割(MS COCO)。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。
弱監督語義分割是一項具有挑戰性的任務,因為沒有提供像素級的標簽信息供訓練使用。最近的方法利用分類網絡,通過選擇具有強響應的區域來定位目標。然而,雖然這種響應映射提供了稀疏信息,但在自然圖像中像素之間存在很強的兩兩關系,可以利用這種兩兩關系將稀疏映射傳播到更密集的區域。本文提出了一種迭代算法來學習這種兩兩關系,它由兩個分支組成,一個是學習每個像素的標簽概率的一元分割網絡,另一個是學習親和矩陣并細化由一元網絡生成的概率圖的兩兩親和網絡。將兩兩網絡的細化結果作為監督,對一元網絡進行訓練,通過迭代的方法逐步獲得較好的分割效果。為了在不需要精確標注的情況下獲得可靠的像素親和力,我們還提出了可信區域的挖掘方法。我們證明了迭代訓練這個框架等價于優化一個收斂到局部最小值的能量函數。在PASCAL VOC 2012和COCO數據集上的實驗結果表明,所提出的算法在性能上優于目前最先進的方法。
論文題目
不同圖像域弱監督語義分割的綜合分析,A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains
論文摘要
最近提出的弱監督語義分割方法,雖然只訓練了缺乏位置信息的圖像標簽,但在預測像素類方面取得了顯著的效果。由于image注釋的生成成本低、速度快,weaksupervision更適合于訓練特定數據集中的分割算法。這些方法在自然場景圖像上的應用還很不成熟,是否可以簡單地移植到組織病理學、衛星圖像等具有不同特征的領域,仍然有很好的應用前景。在將弱監督方法應用于這些其他圖像域方面的研究文獻很少;如何確定某些方法是否更適合于強制確定數據集,以及如何確定用于新數據集的最佳方法是未知的。本文評估了在自然場景、組織病理學和衛星圖像數據集上的弱監督語義分割方法的現狀。我們還分析了各種方法對每個數據集的兼容性,并提出了在不可見的圖像數據集上應用弱監督語義分割的一些原則。
論文作者
Lyndon Chan ,Mahdi S. Hosseini,Konstantinos N. Plataniotis