在小樣本無監督域適應(FS-UDA)中,大多數現有方法遵循小樣本學習(FSL)方法來利用低級局部特征(從傳統卷積模型(如ResNet)中學習)進行分類。然而,FS-UDA和FSL的目標是相關但不同的,因為FS-UDA旨在對目標域的樣本進行分類,而不是源域的樣本。局部特征對FS-UDA來說是不夠的,可能會引入對分類的噪聲或偏差,不能用來有效地對齊域。**為了解決上述問題,本文旨在改進局部特征,使其更具判別力并與分類相關。本文為FS-UDA提出一種新的特定于任務的語義特征學習方法(TSECS)。**TSECS學習高層次語義特征,用于圖像到類的相似性度量。在此基礎上,設計了一種跨域自訓練策略,利用源域少量標記樣本構建目標域分類器。此外,通過最小化源域和目標域高層特征分布的KL散度來縮短兩域樣本之間的距離。在DomainNet上的廣泛實驗表明,所提出的方法明顯優于FS-UDA中的SOTA方法(即~ 10%)。
//www.zhuanzhi.ai/paper/2bfd4a8bb479a4dca8cca6b711c91af5
度量和緩解合成(源)數據與真實場景(目標)數據之間的差異是領域自適應語義分割的核心問題。近年來,已有工作通過在源域引入深度信息來增強幾何和語義知識遷移,但僅基于二維估計深度無法提取物體的位置和形狀等內在三維信息。本文提出一種新的幾何感知域適應網絡(GANDA),利用更緊湊的3D幾何點云表示來縮小域差距。首先,利用源域的輔助深度監督獲取目標域的深度預測,實現結構-紋理解纏;除了深度估計,顯式利用RGB-D圖像生成的點云上的3D拓撲結構,以進一步在目標域中進行坐標顏色解纏和偽標簽細化。此外,為了改進目標域上的二維分類器,我們進行了源域到目標域的域不變幾何自適應,統一了兩個域上的二維語義和三維幾何分割結果。請注意,我們的GANDA在任何現有UDA框架中都是即插即用的。定性和定量的實驗結果表明,該模型在GTA5→Cityscapes和SYNTHIA→Cityscapes數據集上的性能均優于目前的先進水平。
//www.zhuanzhi.ai/paper/e213cce10ef9b5c4515fa8924aa8fd44
最近,人們開始研究web監督學習(WSL)如何利用來自互聯網的大量可訪問數據。現有的大多數方法都專注于從網絡圖像中學習噪聲魯棒模型,而忽略了由于網絡域與現實域的差異而導致的性能下降。然而,只有解決了上述性能差距,我們才能充分利用web數據集的實用價值。為此,提出一種少樣本引導的原型表示學習方法(FoPro),只需要來自現實的少量標記樣本,可以顯著提高現實世界領域的性能。具體地說,我們用少量的真實世界數據作為“現實”原型初始化每個類中心。然后,通過對比學習,縮小了網絡實例與“現實”原型之間的類內距離。最后,我們用一個可學習的度量來測量圖像-原型距離。原型由相鄰的高質量網絡圖像進行拋光,并涉及到去除遙遠的分布不均的樣本。在實驗中,FoPro在web數據集上進行訓練,并在真實世界的數據集上進行指導和評估。我們的方法在三個細粒度數據集和兩個大規模數據集上實現了最先進的性能。與現有的WSL方法相比,在相同的少樣本設置下,FoPro仍然在現實世界的泛化能力方面表現出色。代碼可從//github.com/yuleiqin/fopro獲得。
在預訓練和微調范式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由于具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多只考慮下游任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調范式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一于對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在只保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。
首篇跨域少樣本圖分類
我們通過引入三個新的跨域基準來研究具有非等效特征空間的跨域少樣本圖分類問題。我們還提出了一種基于注意力的圖編碼器,該編碼器使用三個一致的圖形視圖、一個上下文視圖和兩個拓撲視圖,學習任務特定信息的表示,以便快速適應,以及任務無關信息的表示,以便進行知識遷移。我們進行了詳盡的實驗來評估對比學習策略和元學習策略的表現。我們發現,當與基于度量的元學習框架相結合時,所提出的編碼器在所有基準測試中都獲得了最佳的元測試平均分類精度。源代碼和數據將在這里發布://github.com/kavehhassani/metagrl
在“少樣本學習”中,一個模型從幾個被標記的樣本中學習適應新的類別。常見的做法,如使用增強、正則化和預訓練可能有助于緩解數據匱乏,但不能解決這個問題。受人類學習(Lake, Salakhutdinov, and Tenenbaum 2015)的啟發,元學習(Hospedales, et al. 2020)利用類似任務的分布(Satorras, and Estrach 2018)來積累可遷移的經驗知識,這些經驗可以作為快速適應下游任務的強烈歸納偏差(Sung, et al. 2018)。在元學習中,快速學習發生在任務內,而關于任務結構變化的知識是在任務間逐步學習的(Huang and Zitnik 2020)。這種學習知識的例子是嵌入函數(Vinyals et al. 2016; Snell, Swersky, and Zemel 2017; Satorras and Estrach 2018; Sung et al. 2018),初始參數(Finn, Abbeel, and Levine 2017; Raghu et al. 2020)、優化策略(Li et al. 2017),或可以直接將訓練樣本映射到網絡權重的模型(Garnelo et al. 2018; Mishra et al. 2018)。
元學習的一個基本假設是,元訓練和元測試階段的任務是從相同的分布中采樣的,即任務是iid。然而,在許多現實世界的應用程序中,從相同的分布中收集任務是不可行的。相反,有來自相同模態但不同領域的數據集。在遷移學習中,源域和目標域之間的特征/標簽空間是不等效的,通常是不重疊的,這被稱為異構遷移學習(Day和Khoshgoftaar 2017)。據觀察,當源域和目標域之間有很大的轉移時,元學習算法被預訓練/微調方法所超越(Chen et al. 2019b)。
計算機視覺方面的一些工作通過歸一化層的元學習統計來解決跨領域的少樣本學習(Tseng et al. 2020; Du et al. 2021)。這些方法局限于仍然包含高度視覺相似性的自然圖像(Guo et al. 2020)。跨域學習對于尺寸變化順序不變的圖結構數據更為重要。與其他常見模態相比,圖形標注更具挑戰性,因為它們通常表示特定領域的概念,如生物學,在這些領域中,通過wet-lab實驗進行標注是資源密集型(Hu et al. 2020b),而使用領域知識進行程序性標注的成本較高(Sun et al. 2020)。此外,除了在邊際/條件概率分布上的偏移外,非等價和非重疊特征空間在圖數據集上是常見的。例如,可以訪問小分子數據集,其中每個數據集使用不同的特征集來表示分子(Day和Khoshgoftaar 2017)。
據我們所知,這是關于圖的跨域少樣本學習的第一項工作。為了解決這個問題,我們設計了一個以任務為條件的編碼器,它可以學習處理任務的不同表示。我們的貢獻如下:
我們引入了跨域少樣本圖分類的三個基準,并進行了詳盡的實驗來評估監督、對比和元學習策略的性能。
我們提出了一種圖編碼器,可以學習圖的三個一致視圖、一個上下文視圖和兩個拓撲視圖,學習任務特定信息的表示,以便快速適應,以及任務無關信息,以便進行知識遷移。
我們表明,當與基于指標的元測試框架相結合時,所提出的編碼器在所有三個基準上都實現了最佳的平均元測試分類準確度。
方法
圖結構數據可以從兩個一致的視圖進行分析: 上下文視圖和拓撲視圖。上下文視圖基于初始節點或邊緣特征(為了簡單和不失一般性,我們只考慮節點特征),并攜帶特定于任務的信息。另一方面,拓撲視圖表示圖的拓撲屬性,這些拓撲屬性是任務無關的,因此可以作為錨點來對齊來自特征空間中不同領域的圖。我們利用這種對偶表示,并通過為每個視圖設計專用編碼器來明確地解開它們,這些視圖反過來施加了所需的歸納偏見,以學習特定于任務的域不變特征。在異構的少樣本環境中,拓撲特征有助于跨任務的知識遷移,而上下文特征有助于快速適應。我們還使用了一種注意力機制,該機制隱含地限制了任務,并學習從兩種視圖中聚合學習到的特征。我們采用元學習策略,通過共同學習編碼器參數和注意機制來模擬泛化過程。如圖1所示,我們的方法由以下組件組成:
增強機制,將一個采樣圖轉換為一個上下文視圖和兩個拓撲視圖。對初始節點特征和圖結構進行增強處理。
編碼器包括兩個專用的GNN,即圖形編碼器,和一個MLP,分別用于上下文和拓撲視圖,以及一個注意力機制來聚合學習的特征。
元學習機制,基于查詢集的錯誤信號,聯合學習專用編碼器和注意力模型的參數。
實驗結果
我們詳盡地進行了實證評估,以回答以下問題:(1)基準的元測試集分類精度的實證上限是多少?(2)跨元域是否存在知識遷移?如果沒有,是否會發生負遷移?(3)基于對比的預訓練效果如何?(4)基于度量的元學習方法與基于優化的元學習方法相比表現如何?(5)使用提出的編碼器有什么效果?
結果表明: (1)在這三個基準上,都存在可遷移的潛在知識。實驗結果證實通過觀察元學習和對比方法都優于單純分類器。(2) 對比方法與元學習方法相比具有更強的性能。例如,在20-shot生物信息學基準測試中,MVGRL的絕對準確度比最佳的元學習方法高出1.57%。(3) 將基于度量的元學習方法與我們提出的編碼器相結合,顯著提高了性能。例如,在單次測試的情況下,最佳元學習方法結合我們的編碼器,在分子、生物信息學和社交網絡基準上的絕對精度分別比常規元學習方法的最佳結果高出3.28%、4.29%和5.17%。(4)與我們的編碼器相結合,僅用20個例子訓練的RelationNet模型,與全監督模型在所有可用的分子數據、生物信息學和社會網絡基準上訓練的模型相比,準確率分別只有4.46%、6.96%和2.68%。注意,其中一些數據集有成千上萬個訓練樣本。(5) 當我們將知識從分子元訓練遷移到社會網絡元測試時,我們得到了最大的改進。這是因為社會網絡任務不包含任何初始節點特征,因此對它們進行分類完全依賴于任務不可知的幾何特征。這表明我們的編碼器能夠在一個領域學習表達幾何表示并泛化到另一個領域。
本文研究了弱監督域自適應(WSDA)問題,在該問題中,我們只能訪問帶噪聲標簽的源域,從源域中我們需要將有用的信息傳遞到無標簽的目標域。雖然對這個問題的研究不多,但大多數研究都只是利用源域到目標域的單向關系。在這篇論文中,我們提出了一個通用的范例叫做GearNet來開發兩個領域之間的雙邊關系。具體而言,我們將兩個域作為不同的輸入,交替訓練兩個模型,并使用非對稱Kullback-Leibler損耗在同一域選擇性地匹配兩個模型的預測。這種交互式學習模式能夠隱式地消除標簽噪聲,并利用源域和目標域之間的相關性。因此,我們的GearNet具有極大的潛力來提高各種現有WSDL方法的性能。綜合實驗結果表明,該系統能夠顯著提高現有算法的性能。
雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。
//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303
在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。
然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。
域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。
現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。
本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。
在半監督領域自適應問題的目標域數據中對每個類別賦予少量有標簽樣本可引導其余的無標簽目標域樣本的特征聚集在它們周圍。但是,如此經過訓練后的模型無法為目標域生成具有高度區分性的特征表示,因為訓練過程主要由來自源域的有標簽樣本主導。這就可能導致有標簽和無標簽的目標域樣本之間的特征缺乏連結以及目標域和源域樣本之間的特征進行錯位對齊。在本文中,作者們提出了一種新的被稱為跨域自適應聚類的算法來解決這個問題。為了同時實現不同領域間和同一領域內的自適應,我們首先引入了一個對抗性自適應聚類損失函數來對無標簽目標域樣本的特征進行分組聚類,并在源域和目標域之間以聚類簇的形式進行跨域特征對齊。另外,我們進一步將“Pseudo labeling”技術應用于目標域中無標簽樣本,并對具有較高的置信度的樣本賦予“偽標簽”。該技術擴充了目標域中每個類別的“有標簽樣本”的數量使得每個類別可以產生了更加魯棒、強大的聚類簇中心,從而促進對抗學習過程。我們在包括DomainNet、Office-Home和Office在內的基準數據集上進行的大量實驗,結果表明我們所提出的方法能夠在半監督域自適應中實現最優性能。
論文鏈接://www.zhuanzhi.ai/paper/bca546caa350082ff63382cc18636077
代碼鏈接:
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
在本文中,我們提出了一種用于語義分割的無監督域自適應算法,該算法的目標是利用有標記的合成數據來分割無標記的真實數據。UDA語義分割的主要問題在于縮小真實圖像與合成圖像之間的域差距。為了解決這個問題,我們將重點放在將圖像中的信息分離為內容和樣式。在這里,只有內容具有進行語義分割的線索,而風格造成了領域差距。因此,即使在使用合成數據進行學習時,也可以將圖像中的內容和風格進行精確的分離,起到監督真實數據的作用。為了充分利用這種效果,我們提出采用零損失模式。盡管我們在實域上很好地提取了用于語義分割的內容,但在語義分類器中仍然存在類別不平衡的問題。我們通過將尾部類的內容從合成域轉移到實域來解決這個問題。實驗結果表明,該方法在兩種主要的神經網絡環境下都取得了最先進的語義分割性能。