深度學習在大規模均衡數據集的視覺識別方面取得了顯著進展,但在現實世界的長尾數據上仍然表現不佳。以往的方法多采用類別再平衡訓練策略,有效緩解類別不平衡問題,但可能存在類別尾部過擬合的風險。目前的解耦方法利用多階段訓練方案克服了過擬合問題,但仍無法在特征學習階段捕獲尾類信息。在本文中,我們證明軟標簽可以作為一個強大的解決方案,將標簽相關性納入多階段訓練方案的長尾識別。軟標簽所體現的類之間的內在聯系有助于長尾識別,將知識從頭類傳遞到尾類。
具體地說,我們提出了一個概念簡單但特別有效的多階段訓練方案,稱為自監督蒸餾(SSD)。本方案由兩部分組成。首先,我們引入了一個自蒸餾的長尾識別框架,該框架可以自動挖掘標簽關系。其次,提出了一種新的基于自監督引導的蒸餾標簽生成模塊。提取的標簽集成了來自標簽和數據域的信息,可以有效地建模長尾分布。我們進行了廣泛的實驗,我們的方法在三個長尾識別基準上取得了最先進的結果:ImageNet-LT, CIFAR100-LT和iNaturalist 2018。在不同的數據集上,我們的SSD比強大的LWS基線性能高出2.7%到4.5%。
受BERT的成功啟發,人們提出了幾種聯合表示圖像和文本的多模態表示學習方法。這些方法通過從大規模的多模態預訓練中獲取高級語義信息來獲得更好的性能。其中LXMERT和UNITER采用視覺區域特征回歸和標簽分類作為前置任務。然而,在語義標注有限且不一致的眾包數據集上預先訓練的視覺特征往往存在標簽噪聲過大和語義標注稀疏的問題。為了克服這些問題,我們提出了無偏密集對比視覺語言預訓練(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注釋的跨通道區域對比學習代替區域回歸和分類。為了提高對比學習中負樣本的質量,我們提出了兩種數據增強策略(掩模擾動和對抗內/對抗間擾動)。總之,DCVLP允許在獨立于任何對象注釋的自監督設置中跨模態密集區域對比學習。我們將該方法與以往的視覺-語言前訓練框架進行了比較,驗證了密集對比學習在多模態表征學習中的優越性。
02 Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation(域分離的全時段自監督單目深度估計)
近年來,基于 DCNN 的自監督深度估計方法取得了顯著的成果。然而,這些方法中的大多數只能處理單一的白天或夜間的圖像。由于晝夜圖像之間的光照變化和較大的域差異,大多數方法對全時段圖像的單目深度估計性能會下降。為了緩解這些限制,我們提出了一個域分離框架,用于全時段圖像的自監督深度估計。我們的關鍵思想是將全時段信息分成兩個互補的子空間來減輕深度估計中干擾項的影響:私有域和不變域;此外正交性和相似性損失用于分離有效和互補的特征。同時,利用重構損失來細化獲得的補充信息(私有和不變信息)。
多標簽圖像識別是一項具有挑戰性的實用計算機視覺任務。然而,該領域的進展往往具有方法復雜、計算量大、缺乏直觀解釋的特點。為了有效地捕捉來自不同類別的對象所占據的不同空間區域,我們提出了一個非常簡單的模塊,稱為類特定的殘差注意力(CSRA)。CSRA 通過提出一個簡單的空間注意力分數為每個類別生成特定于類的特征,然后將其與與類別無關的平均池化特征相結合。CSRA 在多標簽識別上取得了 state-of-the-art 的結果,同時比它們簡單得多。此外,僅用 4 行代碼,CSRA 還可以在許多不同的預訓練模型和數據集上實現一致的改進,而無需任何額外的訓練。CSRA 既易于實現又易于計算,還具有直觀的解釋和可視化。
本文將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割,并引入Transformer,性能優于CFBI、LWL等網絡,代碼即將開源!
半監督視頻目標分割是在第一幀中僅給定mask注釋的視頻序列中分割目標對象的任務。有限的可用信息使其成為一項極具挑戰性的任務。大多數以前表現最好的方法都采用基于匹配的轉導推理或在線歸納學習。然而,它們要么對類似實例的區分度較低,要么在時空信息的利用上不足。在這項工作中,我們提出將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割。所提出的方法由兩個功能分支組成。transduction 分支采用輕量級的 Transformer 架構來聚合豐富的時空線索,而 Induction 分支執行在線歸納學習以獲得有判別力的目標信息。為了橋接這兩個不同的分支,引入了一個雙頭標簽編碼器來為每個分支學習合適的目標先驗。生成的mask編碼被進一步強制解開以更好地保持它們的互補性。對幾個流行基準的大量實驗表明,在不需要合成訓練數據的情況下,所提出的方法創造了一系列新的最先進記錄。
在本文中,我們提出參數對比學習(PaCo)來處理長尾識別。通過理論分析,我們發現監督對比損失在高頻類別上有偏置的傾向,從而增加了不平衡學習的難度。我們引入一組參數類學習中心,從優化的角度進行再平衡。進一步,我們分析了平衡設置下的PaCo損失。我們的分析表明,當更多的樣本被拉到相應的中心時,PaCo可以自適應地增強同類樣本的推近強度,并有利于較難的示例學習。長尾CIFAR、ImageNet、Places和iNaturalist 2018上的實驗顯示了長尾識別的新技術。在全ImageNet上,使用PaCo損失訓練的模型在各種ResNet骨干上超過了有監督的對比學習。我們的代碼可在//github.com/jiequancui/ Parametric-Contrastive-Learning.
當測試數據和訓練數據的分布相似時,基于深度神經網絡的方法已經取得了驚人的性能,但如果沒有相似的分布,則性能可能表現很差。因此,消除訓練和測試數據之間分布變化的影響對于構建具有良好性能的深度模型至關重要。傳統的方法要么假設訓練數據已知的異質性(例如域標簽),要么假設不同域的容量近似相等。在本文中,我們考慮一個更具有挑戰性的情況,即上述兩種假設都不成立。為了解決這一問題,我們提出通過學習訓練樣本的權重來消除特征之間的依賴關系,這有助于深度模型擺脫虛假的相關性,從而更加關注區分性特征和標簽之間的真實聯系。大量的實驗清楚地證明了我們的方法在多個分布泛化基準上的有效性,與最先進的同行相比。通過大量的分布泛化基準實驗,包括PACS、VLCS、mist - m和NICO,我們證明了該方法的有效性,并與最新的同類方法進行了比較。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
論文:Adaptive Consistency Regularization for Semi-Supervised Transfer Learning 鏈接: //www.zhuanzhi.ai/paper/43d085f2c66d68b77584edcb0ee36ba0 代碼:
盡管最近半監督學習的研究在利用標記和未標記數據方面有顯著進步,但大多數假設模型的基本設置是隨機初始化的。
因此本文將半監督學習和遷移學習相結合提出了一種半監督的轉移學習框架,該方法不僅能利用目標域(目標任務數據集)中的標記/未標記數據,還能利用源域(具有不同語義的通用數據集,如:ImageNet)中的預訓練模型。為了更好地利用預訓練權重和未標記目標數據,我們引入了自適應一致性正則化,它由兩個互補組件組成:源模型和目標模型之間的示例上的自適應知識一致性(AKC),以及自適應表示一致性(ARC) ),在目標模型上標記和未標記的示例之間,根據它們對目標任務的潛在貢獻,自適應地選擇一致性正則化中涉及的示例。
通過微調ImageNet預訓練的ResNet-50模型,我們在幾個流行的基準上進行了廣泛的實驗,包括CUB-200-2011,MIT Indoor-67,MURA。結果表明,我們提出的自適應一致性正則化性能優于最新的半監督學習技術,例如Pseudo Label,Mean Teacher和MixMatch。此外,我們的算法能與現有方法共同使用,因此能夠在MixMatch和FixMatch之上獲得其他改進。
本文的主要貢獻包含以下三點:
1、第一個提出用于深度神經網絡的半監督轉移學習框架 2、利用半監督學習和轉移學習的特性引入自適應一致性正則化來改善半監督轉移學習 3、實驗結果表明所提出的自適應一致性正則化性能優于最新的半監督學習技術
Adaptive Consistency Regularization for Semi-Supervised Transfer Learning Abulikemu Abuduweili1,2*, Xingjian Li1,3? , Humphrey Shi2? , Cheng-Zhong Xu3 , Dejing Dou1?
雖然最近關于半監督學習的研究在利用標記和未標記數據方面取得了顯著進展,但大多數研究都假定模型的基本設置是隨機初始化的。在這項工作中,我們將半監督學習和遷移學習結合起來,從而形成一個更實用和更具競爭力的范式,該范式可以利用來自源領域的強大的預訓練模型以及目標領域的標記/未標記數據。更好地利用pre-trained權重和標記的價值目標的例子,我們引入自適應一致性互補正規化,由兩部分組成:自適應知識一致性(AKC)在源和目標之間的示例模型和自適應表示一致性(AKC)標記和未標記示例之間的目標模型。一致性正則化所涉及的實例是根據它們對目標任務的潛在貢獻自適應選擇的。通過微調ImageNet預先訓練的ResNet-50模型,我們對流行基準進行了廣泛的實驗,包括CIFAR-10、CUB-200、Indoor67和MURA。結果表明,我們提出的自適應一致性正則化優于最先進的半監督學習技術,如偽標簽、Mean Teacher和MixMatch。此外,我們的算法與現有的方法是正交的,因此能夠在MixMatch和FixMatch之上獲得額外的改進。我們的代碼可以在//github.com/SHI-Labs/SemiSupervised-Transfer-Learning上找到。
零樣本學習(Zero-shot Learning, ZSL)是一種針對從未出現在訓練數據中的類別進行預測的學習方法,目前已成為研究熱點。實現ZSL的關鍵是利用類的先驗知識,構建類之間的語義關系,并使學習到的模型(例如,特性)能夠從訓練類(例如,可見類)轉移到不可見類。然而,現有方法所采用的先驗相對有限,語義不完全。本文通過基于本體的知識表示和語義嵌入,探索更豐富和更具競爭性的先驗知識,為ZSL的類間關系建模。同時,為了解決可見類和不可見類之間的數據不平衡問題,我們提出了帶有生成式對抗網絡(GANs)的生成式ZSL框架。我們的主要發現包括: (i)一個本體增強的ZSL框架,可以應用于不同的領域,如圖像分類(IMGC)和知識圖譜補全(KGC); (ii)利用來自不同領域的多個零樣本數據集進行綜合評估,我們的方法往往比最先進的模型獲得更好的性能。特別是,在IMGC的四個代表性的ZSL基線上,基于本體的類語義優于之前的預測,例如,在兩個示例數據集上,類的詞嵌入在標準ZSL中的平均精度為12.4點(見圖4)。
//www.zhuanzhi.ai/paper/455f8ab60b8550b4318debc0acebe2d3