部分監督實例分割是一種通過學習有限的可見類別并使用帶注釋的遮罩將對象從新的不可見類別中分割出來的任務,從而消除了繁重的注釋負擔。解決這一問題的關鍵是建立一個有效的類不可知掩碼分割模型。與以往只在可見類別上學習此類模型的方法不同,在本文中,我們提出了一種新的方法,名為ContrastMask,它在統一的像素級對比學習框架下,對可見和不可見類別學習掩碼分割模型。這個框架,帶注釋的可見類別的遮罩和不可見類別的偽遮罩作為對比學習的前提,來自掩膜區域(前景)的特征被拉到一起,并與來自背景的特征進行對比,反之亦然。通過該框架,大大提高了前景和背景的特征識別能力,便于學習與類別無關的遮罩分割模型。在COCO數據集上的詳盡實驗證明了我們的方法的優越性,它優于以前的技術水平。
//www.zhuanzhi.ai/paper/53d464cd084b1713b9d2377fb1ea5703
半監督對象檢測(Semi-supervised object detection, SSOD)的目的是在大量未標記數據的幫助下,方便對象檢測器的訓練和部署。雖然已經提出了各種基于自訓練和一致性正則化的SSOD方法,但大多數都是基于錨的檢測器,忽略了在許多實際應用中對無錨檢測器的要求更高的事實。在本文中,我們打算彌補這一差距,并提出了一種基于密集學習(DSL)的無錨SSOD算法。具體來說,我們通過引入一些新技術來實現這一目標,包括用于分配多層次和精確的密集像素級偽標簽的自適應過濾策略,用于生成穩定和精確的偽標簽的聚合教師,并在尺度和洗牌塊之間引入不確定性-一致性-正則化項,以提高檢測器的泛化能力。在MS-COCO和PASCAL-VOC上進行了大量實驗,結果表明,我們提出的DSL方法記錄了最先進的SSOD性能,大大超過了現有方法。
//www.zhuanzhi.ai/paper/1af41e315bfa76b66bf7b771a9c069ed
對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
本文研究的是物體檢測的域自適應(Domain Adaptive)問題,其主要挑戰來自源域和目標域之間的巨大差異。先前工作主要是明確對齊了圖像層面和實例層面的遷移,以最終最小化域差異,但是依然忽略了跨域匹配關鍵的圖像區域和重要的實例,以至于嚴重影響了域遷移的緩解。本文提出一個簡單且有效的類正則化框架以緩解這一問題,它可以作為一個即插即用的組件應用于一系列域自適應Faster R-CNN方法上,這些方法對處理域自適應檢測非常重要。
具體而言,通過整合檢測backbone上的一個圖像層面的多標簽分類器,本文可以通過分類方式的弱定位能力,獲得對應于類信息的稀疏且關鍵的圖像區域。同時,在實例層面,本文把圖像預測和實例預測之間的類一致性作為一個正則化因子,以自動搜索目標域的硬對齊實例。大量不同域遷移方案的實驗表明,相較原始的域自適應Faster R-CNN檢測器,本文方法取得顯著的性能提升。此外,定性的可視化和分析表明,本文方法可應用于針對域適應的關鍵區域/實例。