雖然在許多領域生成并提供了大量未標記數據,但對自動理解可視化數據的需求比以往任何時候都要高。大多數現有的機器學習模型通常依賴于大量帶標簽的訓練數據來實現高性能。不幸的是,這樣的需求在真實的應用中無法滿足。標簽的數量是有限的,手動注釋數據是昂貴和耗時的。通常需要將知識從現有的標記領域遷移到新的領域。然而,模型性能會因為域之間的差異而降低(域移位或數據集偏差)。為了克服標注的負擔,領域適應(Domain Adaptation, DA)旨在緩解知識從一個領域轉移到另一個相似但不同的領域時的領域轉移問題。無監督DA (UDA)處理有標記的源域和無標記的目標域。UDA的主要目標是減少帶標簽源數據和未帶標簽目標數據之間的域差異,并在訓練過程中學習跨兩個域的域不變表示。本文首先定義了UDA問題。其次,我們從傳統方法和基于深度學習的方法兩方面概述了用于不同類別UDA的最新方法。最后,我們收集了常用的基準數據集,并報告了UDA在視覺識別問題上的最新方法的結果。
//www.zhuanzhi.ai/paper/a3132aabda946e6540ff6c1a9b745303
在這個大數據時代,產生了大量的文本、圖像、聲音和其他類型的數據。工業和研究團體對多媒體數據的自動分類、分割和回歸有很大的需求[1;2) 1。監督學習是機器學習中最普遍的一種,在不同的應用領域都取得了很大的成功。近年來,我們已經見證了深度神經網絡在一些標準基準如ImageNet[4]和CIFAR-10[5]上取得的巨大成功。然而,在現實世界中,我們經常遇到一個嚴重的問題,即缺乏用于訓練的標記數據。眾所周知,機器學習模型的訓練和更新依賴于數據注釋。此外,機器學習模型的高性能依賴于大量帶標簽的訓練數據的存在。不幸的是,在許多實際場景中,這樣的要求無法滿足,因為收集的數據有限制或沒有標簽。此外,一個主要的假設是訓練和測試數據具有相同的分布。如果背景、質量或形狀變形在不同的域之間是不同的,那么這樣的假設很容易被扭曲。此外,手動注釋數據通常非常耗時且昂貴。這給正確訓練和更新機器學習模型帶來了挑戰。因此,一些應用領域由于沒有足夠的標注數據進行訓練而沒有得到很好的發展。因此,常常需要將知識從一個已有的標簽領域轉移到一個相似但不同的、有限或沒有標簽的領域。
然而,由于數據偏置或區域移位的現象6,機器學習模型并不能很好地從一個現有的域推廣到一個新的無標記域。對于傳統的機器學習方法,我們通常假設訓練數據(源域)和測試數據(目標域)來自相同的分布,并從訓練數據中優化模型,直接應用到測試數據中進行預測。忽略訓練數據和測試數據之間的差異。然而,源域和目標域之間常常存在差異,如果存在域遷移問題,傳統方法的性能較低。因此,減輕領域遷移問題對提高模型跨不同領域的性能非常重要。
域適應(DA)是遷移學習(TL)的一種特殊設置,其目的是利用豐富的帶標簽源域的知識,為標簽有限或無標簽的目標域學習有效的預測器,同時緩解域遷移問題。近年來,DA在計算機視覺領域受到越來越多的關注,如圖1所示。每年與DA相關的論文越來越多,說明了DA應用的重要性。有三種類型的DA(有監督的、半監督的和無監督的DA),它們取決于目標域中的標簽數量。對于監督DA,所有的目標數據標簽都是可用的。對于半監督DA,部分目標數據標簽是可用的。對于無監督域適配(UDA),目標域沒有標簽。為了克服標注不足所帶來的限制,技術將有標記的源域和來自目標域的未標記樣本結合起來。此外,UDA中源域和目標域的類別數量相同,也稱為閉集域適應。
現有的域自適應方法假設源域和目標域的數據分布不同,但共享相同的標簽空間。傳統的DA方法高度依賴于從原始圖像中提取特征。隨著深度神經網絡的發展,研究人員正在利用更高性能的深度特征(如AlexNet [7], ResNet50 [8], Xception [9], InceptionResNetv2[10])來代替較低級別的SURF特征。然而,傳統方法的預測精度受到深度神經網絡[11]特征提取質量的影響。近年來,深度神經網絡方法在領域適應問題上取得了巨大的成功。特別是,對抗學習在嵌入深度神經網絡學習特征表示以最小化源域和目標域之間的差異方面表現出強大的能力[12;13)。但是,它只局限于將現有的解決方案從源域改進到目標域,而目標樣本的結構信息很難保存。此外,很難移除目標域中有噪聲的預測標簽。
本文主要研究了圖像識別中的域自適應問題。本次綜述的貢獻如下。(i)我們提出了一種基于傳統和深度學習的DA分類方法。(ii) 我們是第一個在特征選擇、分布適應和子空間學習三種不同背景下研究傳統技術的人。(iii)我們還討論了基于深度學習的方法,包括基于差異的方法、基于對抗的方法、基于偽標簽的方法、基于重構的方法、基于表征的方法和基于注意力的方法。(4)我們收集了幾個基準數據集,這些數據集在UDA中得到了廣泛的應用,并報告了最新方法的結果。本文的其余部分組織如下:在第2、3節中,我們介紹了DA問題的符號和泛化界。在第四部分,我們回顧了傳統的UDA方法。在第5節中,我們描述了用于圖像識別的深度DA方法。在第6節中,我們列出了DA的基準數據集,并報告了最新方法的準確性。
摘要:
為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。
//ieeexplore.ieee.org/document/9086055
引言
由于深度神經網絡具有學習不同層次一般視覺特征的強大能力,它已被作為基本結構應用于許多計算機視覺應用,如目標檢測[1]、[2]、[3]、語義分割[4]、[5]、[6]、圖像描述[7]等。從像ImageNet這樣的大規模圖像數據集訓練出來的模型被廣泛地用作預訓練模型和用于其他任務的微調模型,主要有兩個原因:(2)在大規模數據集上訓練的網絡已經學習了層次特征,有助于減少在訓練其他任務時的過擬合問題;特別是當其他任務的數據集很小或者訓練標簽很少的時候。
深度卷積神經網絡(ConvNets)的性能在很大程度上取決于其能力和訓練數據量。為了增加網絡模型的容量,人們開發了不同類型的網絡架構,收集的數據集也越來越大。各種網絡,包括AlexNet [9], VGG [10], GoogLeNet [11], ResNet [12], DenseNet[13]和大規模數據集,如ImageNet [14], OpenImage[15]已經被提出訓練非常深的ConvNets。通過復雜的架構和大規模的數據集,ConvNets的性能在許多計算機視覺任務[1],[4],[7],[16],[17],[18]方面不斷突破先進水平。
然而,大規模數據集的收集和標注是費時和昂貴的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中應用最廣泛的數據集之一,包含約130萬張已標記的圖像,覆蓋1000個類,而每一幅圖像由人工使用一個類標簽進行標記。與圖像數據集相比,視頻數據集由于時間維度的原因,其采集和標注成本較高。Kinetics數據集[19]主要用于訓練ConvNets進行視頻人體動作識別,該數據集由50萬個視頻組成,共600個類別,每個視頻時長約10秒。許多Amazon Turk工作人員花了大量時間來收集和注釋如此大規模的數據集。
為了避免費時和昂貴的數據標注,提出了許多自監督方法來學習大規模無標記圖像或視頻的視覺特征,而不需要任何人工標注。一種流行的解決方案是提出各種各樣的前置任務讓網絡來解決,通過學習前置任務的目標函數來訓練網絡,通過這個過程來學習特征。人們提出了各種各樣的自監督學習任務,包括灰度圖像著色[20]、圖像填充[21]、玩圖像拼圖[22]等。藉口任務有兩個共同的特性:(1)圖像或視頻的視覺特征需要被ConvNets捕捉來解決前置任務;(2)監控信號是利用數據本身的結構(自我監控)產生的。
自監督學習的一般流程如圖1所示。在自監督訓練階段,為ConvNets設計預定義的前置任務,并根據數據的某些屬性自動生成前置任務的偽標簽。然后訓練卷積神經網絡學習任務的目標函數。當使用前置任務進行訓練時,ConvNet的較淺的塊集中于低級的一般特征,如角、邊和紋理,而較深的塊集中于高級任務特定的特征,如對象、場景和對象部分[23]。因此,通過藉由任務訓練的ConvNets可以學習內核來捕獲低級特征和高級特征,這對其他下游任務是有幫助的。在自監督訓練結束后,學習到的視覺特征可以作為預訓練的模型進一步轉移到下游任務中(特別是在數據相對較少的情況下),以提高性能和克服過擬合。通常,在有監督的下游任務訓練階段,僅從前幾層傳遞視覺特征。
摘要
分布外泛化(OOD)對人類來說是一種很自然的能力,但對機器來說是一個挑戰。這是因為大多數學習算法強烈地依賴于源/目標數據的i.i.d.假設,而在實踐中,由于域轉移,這經常違背IID。領域泛化(DG)的目標是僅使用源數據進行模型學習,實現OOD泛化。自2011年首次引入DG以來,DG研究取得了很大進展。特別是,對這一主題的深入研究已經導致了廣泛的方法論,例如,那些基于領域對齊、元學習、數據增強或集成學習的方法,這只是舉幾個例子;并涵蓋了各種視覺應用,如物體識別、分割、動作識別和人的再識別。本文首次對近十年來計算機視覺DG的研究進展進行了綜述。具體來說,我們首先通過正式定義DG,并將其與領域適應和遷移學習等其他研究領域聯系起來,來覆蓋背景。其次,我們對現有的方法進行了全面的回顧,并根據它們的方法和動機進行了分類。最后,我們總結了本次綜述,并對未來的研究方向進行了展望和討論。
//www.zhuanzhi.ai/paper/c8472ef62b32f2b955bd2b239009bfc1
引言
如果一個圖像分類器在照片圖像上訓練,它會在草圖圖像上工作嗎?如果用城市圖像訓練的汽車檢測器在農村環境中測試會怎樣?是否有可能部署在雨天或雪天條件下使用晴天圖像訓練的語義分割模型?使用一名患者的心電圖數據訓練的健康狀態分類器能否用于診斷另一名患者的健康狀態?所有這些問題的答案取決于機器學習模型如何處理一個常見問題,即域轉移問題。該問題是指一組訓練(源)數據與一組測試(目標)數據[1],[2],[3],[4]之間的分布偏移。
大多數統計學習算法強烈依賴于過于簡化的假設,即源數據和目標數據是獨立的、同分布的(i.i.d),而忽略了實踐中常見的分布外(OOD)場景。這意味著它們在設計時并沒有考慮到域遷移問題。因此,只使用源數據訓練的學習代理在OOD目標域中通常會遭受顯著的性能下降。領域轉移問題嚴重阻礙了機器學習模型的大規模部署。人們可能會好奇,最近在深度神經網絡[5],[6],即所謂的深度學習[7]方面的進展是否能夠緩解這個問題。[2]和[8]的研究表明,即使在數據生成過程中只有很小的變化,深度學習模型在OOD數據集上的性能也會顯著下降。這突出表明,到目前為止,深度學習取得的成功很大程度上是由監督學習驅動的,這些監督學習使用的是像ImageNet[9]這樣的大規模注釋數據集,同樣也依賴于i.i.d.假設。
關于如何處理域轉移的問題在文獻中已經進行了廣泛的研究。繞過OOD數據問題的一個簡單解決方案是從目標領域收集一些數據,以適應源領域訓練的模型。事實上,這一域適應(DA)問題最近受到了廣泛關注,包括[10]、[11]、[12]、[13]、[14]、[15]、[16]。然而,DA依賴于一個強大的假設,即目標數據可以用于模型調整,但在實踐中并不總是成立。在許多應用中,很難獲得目標數據,甚至在部署模型之前無法知道目標數據。例如,在生物醫學應用中,不同患者的數據之間發生域轉移,提前收集每個新患者的數據是不切實際的;在交通場景語義分割中,采集所有不同場景和所有可能天氣條件下的數據是不可行的。
為了克服域漂移問題以及目標數據缺乏的問題,引入了域泛化問題[19]。具體來說,DG的目標是使用來自單個或多個相關但不同的源域的數據來學習模型,以使模型能夠很好地泛化到任何OOD目標域。近年來,DG因其在實際應用中的重要性而日益受到學術界的重視。
自2011年Blanchard等人[19]首次引入以來,已經開發了許多方法來解決OOD泛化問題。這包括基于對源域分布的方法,用于域不變表示學習[27],[28],在訓練期間通過元學習[29],[30],或使用圖像合成[31],[32]來增強數據,僅舉幾個例子。從應用的角度來看,現有的DG方法已經應用于手寫體數字識別[31]、[32]、物體識別[33]、[34]、語義分割[18]、[35]、人再識別[20]、[31]、人臉識別[36]、動作識別[27]、[37]等等。盡管作出了這些努力,但普遍承認DG仍然是一個公開的挑戰。事實上,在無法訪問目標領域數據的情況下,訓練一個可以在任何不可見的目標領域有效工作的一般化模型,可以說是機器學習中最困難的問題之一。
在這篇綜述論文中,我們旨在提供一個及時和全面的文獻綜述。綜述了近十年來所介紹的主要方法和應用,重點介紹了計算機視覺領域。并對未來的發展方向進行了討論。本文的其余部分組織如下。在§2中,我們介紹了背景知識,給出了問題的定義,并將DG與領域適應和遷移學習等幾個相關研究領域進行了比較。討論了對DG算法進行基準測試的常用數據集。在§3中,我們回顧了過去十年提出的現有DG方法,并提出了一個分類。在§4中,我們總結了這篇論文,并對未來工作的潛在研究方向進行了見解和討論。作為這一主題的第一份綜述論文,我們希望這一及時的綜述能夠為研究界提供清晰的思路和進一步發展的動力。
經典機器學習算法假設訓練數據和測試數據具有相同的輸入特征空間和相同的數據分布。在諸多現實問題中,這一假設往往不能滿足,導致經典機器學習算法失效。領域自適應是一種新的學習范式,其關鍵技術在于通過學習新的特征表達來對齊源域和目標域的數據分布,使得在有標簽源域訓練的模型可以直接遷移到沒有標簽的目標域上,同時不會引起性能的明顯損失。本文介紹領域自適應的定義,分類和代表性算法,重點討論基于度量學習的領域自適應算法和基于對抗學習的領域自適應算法。最后,分析領域自適應的典型應用和存在挑戰,明確領域自適應的發展趨勢,并提出未來可能的研究方向。
該工作針對基于半監督的醫學圖像算法,提出了一種利用雙任務一致性約束的新方法,將同一個分割問題表示成兩個不同的任務,并鼓勵兩個任務在預定義的表示空間內保持一致,進而充分利用未標注的數據提升深度神經網絡的性能,同時大大降低訓練網絡模型所需要的標注成本。圖片
基于深度學習的方法因為在圖像處理上優越表現而受到廣泛的關注,近年來在圖像識別、人工智能領域不斷取得了性能突破。但是由于深度神經網絡需要依賴大量良好標注的數據,在小數據上很難達到比較好的效果。在醫學圖像領域,數據標注通常需要大量的時間,也需要醫學領域的專業知識,但醫生通常很忙,沒有充足的時間來標注大量的數據,因此從少量標注數據和大量未標注數據來學習以獲得高性能模型變得尤為重要。
基于這樣的問題,本文提出了一種基于雙任務一致性的半監督學習算法,在現有全監督醫學圖像分割算法基礎上,該算法可以充分利用沒有標注的數據進行進一步學習,進而大大提高未標注數據的利用率和促進網絡分割性能。實驗表明,通過引入雙任務一致性,網絡能更穩定的從少量標注數據和大量未標注數據中學習,并顯著提高分割結果。同時與最新的半監督分割算法相比,此方法需要的訓練成本更低,所取得的效果也更好,從而降低了深度神經網絡對標注數據的依賴。
雖然在許多領域產生并提供了大量的未標記數據,但獲取數據標簽的成本仍然很高。另一方面,用深度神經網絡解決問題已經變得非常流行,但目前的方法通常依賴大量的標記訓練數據來實現高性能。為了克服注釋的負擔,文獻中提出了利用來自同一領域的可用未標記數據的解決方案,稱為半監督學習;利用相似但又不同領域的已有標記的數據或訓練過的模型,稱為領域自適應。本教程的重點將是后者。領域自適應在社會上也越來越重要,因為視覺系統部署在任務關鍵應用中,其預測具有現實影響,但現實世界的測試數據統計可以顯著不同于實驗室收集的訓練數據。我們的目標是概述視覺領域適應方法,這一領域在計算機視覺領域的受歡迎程度在過去幾年中顯著增加,這可以從過去幾年在頂級計算機視覺和機器學習會議上發表的大量的相關論文中得到證明。
//europe.naverlabs.com/eccv-2020-domain-adaptation-tutorial/
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。
?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!
地址:
//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132
摘要
雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。
1. 概述
深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。
圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。
深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。
對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。
由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。
大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。
2. 圖像分類技術
在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。
2.1 分類方法
監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。
圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。
監督學習 Supervised Learning
監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。
遷移學習
監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。
遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。
半監督學習
半監督學習是無監督學習和監督學習的混合.
Self-supervised 自監督學習
自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。
2.2 分類技術集合
在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。
一致性正則化 Consistency regularization
一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。
虛擬對抗性訓練(VAT)
VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。
互信息(MI)
MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。
熵最小化(EntMin)
Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。
Overclustering
過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。
Pseudo-Labels
一種估計未知數據標簽的簡單方法是偽標簽
3. 圖像分類模型
3.1 半監督學習
四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。
3.2 自監督學習
四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗
3.3 21種圖像分類方法比較
21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。
4. 實驗比較結果
報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。
5 結論
在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。
我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。
ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。
監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。
我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。
參考文獻:
[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.
[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.
[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.
[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.
[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.