深度學習已經成為自然語言處理領域的主流技術。然而,這些技術需要許多標記數據,而且跨領域的通用性較差。元學習是機器學習中的一個新興領域,研究如何學習出更好的學習算法。方法旨在提高算法的各個方面,包括數據效率和通用性。方法的有效性已經在許多自然語言處理任務中得到了證明,但目前對這些方法在自然語言處理中的應用還沒有系統的綜述,這阻礙了更多的研究者進入該領域。本文的目的是為研究人員提供相關的NLP元學習工作的指針,并吸引更多的關注,以推動未來的創新。本文首先介紹了元學習的一般概念和常用方法。在此基礎上,總結了任務構建設置和元學習在各種自然語言處理問題中的應用,并回顧了元學習在自然語言處理社區中的發展。
引言
近年來,基于深度學習(DL)的自然語言處理(NLP)已成為研究的主流之一,在許多自然語言處理問題上取得了顯著的性能改善。然而,DL模型需要大量數據。缺點限制了這些模型在不同領域、語言、國家或風格中的應用,因為為模型訓練收集不同類型的數據是昂貴的。為了應對這些挑戰,元學習技術正受到關注。元學習,或學會學習,旨在學習更好的學習算法,包括更好的參數初始化(Finn et al., 2017),優化策略(Andrychowicz et al., 2016; Ravi and Larochelle, 2017),網絡架構(Zoph and Le, 2017; Zoph et al., 2018; Pham et al., 2018a),距離度量(Vinyals et al., 2016; Gao et al., 2019a; Sung et al., 2018),以及其他(Mishra et al,2018年)。元學習允許更快的微調,收斂到更好的性能,產生更通用的模型,它在少樣本圖像分類方面取得了出色的結果(Triantafillou et al,2020)。這些優點減輕了學習算法對標簽的依賴,并使模型開發更具可擴展性。
圖像處理是具有豐富應用的機器學習領域之一,并且在之前關于元學習的綜述論文中建立了大多數例子(Hospedales et al., 2021; Huisman et al., 2021)。另一方面,通過將元學習應用于自然語言處理問題,已有研究顯示了元學習技術在性能和數據效率方面的優勢。請參閱附錄中的表3和表4,了解通過元學習改進的自然語言處理應用。ACL2021年會組織教程(Lee et al., 2021b)和研討會(Lee et al., 2021a),以鼓勵對這些技術感興趣的NLP研究人員之間的交流和合作。在NLP中有一篇關于元學習的綜述論文(Yin, 2020)。雖然Yin(2020)對元學習方法進行了概述,但本文側重于將元學習成功應用于自然語言處理,并對有關自然語言處理元學習的論文進行了更廣泛的綜述。由于篇幅的限制,在這篇調查論文中,我們將不會對一般的元學習技術進行過多的詳細描述。關于元學習的一般概念,我們鼓勵讀者閱讀之前的綜述論文(Yin, 2020; Hospedales et al., 2021; Huisman et al., 2021)。
為了讓更多的NLP研究者和實踐者受益于元學習的發展并參與到這一領域,本文對元學習在NLP問題中的應用進行了系統的綜述。綜述論文的組織方式如下。
元學習知識
自然語言處理(NLP)在神經模型的基礎上,在過去的十年中取得了很大的進展,經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言,因為通常需要時間、金錢和專業知識來標記大量文本數據。因此,在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來,人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求,如數據增強和半監督學習。
本教程旨在提供這些方法的系統和最新的概述,以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰,這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測),并將突出當前的挑戰和未來的方向。
//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial
數據增強是一種常用的技術,用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合,數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索,包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性,但文本數據的增強方法卻非常廣泛。
NLP中具有代表性的數據增強方法包括: token增強,如隨機刪除或屏蔽令牌(Bowman et al., 2015),用同義詞或相關詞替換單詞(Zhang et al., 2015;Kobayashi, 2018),以及用隨機token插入或替換不重要的token (Xie et al.,2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上,先將句子翻譯成某些中間語言,然后再將它們翻譯回來,生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯,可以引入一定的方差,即雙向翻譯(Xie et al., 2019; Coulombe, 2018),或根據給定的標簽生成句子;對抗性數據增強,使用受擾動的數據顯著影響模型的預測和信心,而不影響人類判斷(Morris et al., 2020),例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強,通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人,2020a)。
我們將向觀眾介紹最近廣泛使用的數據增強方法,并以NLP應用實例(如無監督翻譯的反向翻譯)為例,演示如何在實踐中利用這些代表性的數據增強技術。
當只有一個小的標簽訓練數據集可用時,數據增強可以應用在監督設置中產生更好的結果,數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法,當只有有限的標記數據可用時,這種方法可以顯著改進模型。這在普通設置中特別有用,因為與有標記的數據相比,未標記的數據更便宜、更容易獲得。在本教程中,我們將使用示例應用程序或任務,簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據,將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.,2006);多任務訓練利用帶有標簽的額外輔助任務,進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型,當輸入通過數據增強受到干擾時,輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。
解決數據有限的學習問題還有其他相關方向,如其他半監督學習方法,如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法,更具體地說,我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能,包括跨語言遷移學習,它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019),很少/零樣本學習(Pham et al., 2019; Abad et al., 2020),只使用了來自低資源領域的幾個例子,以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功,但為了更好地學習,仍有一些挑戰需要解決。為此,我們將通過強調一些挑戰來結束我們的教程,包括但不限于數據分布的轉移,量化增強的多樣性和效率,處理域外未標記的數據,學習特定于文本的數據增強策略,并討論未來可能有助于推進該領域的方向。
摘要
作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等復雜任務分布中,其泛化能力尚未得到深入研究。近年來,基于多模態的元學習出現了一些研究。本綜述從方法論和應用方面提供了基于多模態的元學習景觀的全面概述。我們首先對元學習和多模態的定義進行了形式化的界定,并提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然后我們提出了一個新的分類系統,系統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,并對其進行了分類總結。最后,提出了該領域的研究方向。
//www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5
引言
深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴于大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方面,人類學習過程中使用的“學會學習”機制[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算范式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,并快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。
由于元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更復雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用于復雜任務的分配上[11,12],但僅限于單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。
首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基于元的算法被廣泛引入來捕獲配對模態之間的屬性關系。然而,訓練過程大多將一個模態視為主要模態,并通過添加另一個模態來利用額外的信息。它不涉及在真實的復雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用于由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方面,元學習本身的訓練框架有助于提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。
最后,我們希望在本次綜述中對基于多模態的元學習算法進行系統而全面的研究。我們旨在為不同的方法提供直觀的解釋,并有助于:
識別將元學習算法應用于多模態任務的挑戰; 提出一個新的分類,并為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。
本綜述的其余部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然后給出了基于多模態的元學習挑戰的總體范式。然后我們在第3節提出了一個基于元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最后,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。
受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。
//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03
Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。
在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。
視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。
本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果
聯邦學習旨在在不犧牲本地數據隱私的情況下,從多個分散的邊緣設備(例如移動設備)或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而,大型深度神經模型和語言模型都是用大量數據訓練的,這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶,在這項工作中,我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰,包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后,我們強調了當前的研究差距和未來的方向。
第21屆國際語音通訊會議(Interspeech 2020)在繼2000年在北京成功舉辦后第二次回歸中國。本次大會是由中國科學院自動化所、香港中文大學、清華大學和上海交通大學共同主辦,大會主席由香港中文大學的蒙美玲教授,中國科學院自動化研究所徐波研究員和清華大學的鄭方教授聯合擔任。受疫情影響,原計劃將于10月25日~10月29日在上海召開的Interspeech 2020大會,將轉為全線上會議。屆時語音相關領域海內外知名專家學者將共聚一堂,交流相關研究領域的最新成果和發展趨勢。
Meta Learning and Its Applications to Human Language Processing
基于深度學習的人類語言技術(HLT),如自動語音識別、意圖和槽位識別或對話管理,已成為近年來的研究主流,并顯著優于傳統方法。然而,深度學習模型因對數據和計算的渴求而臭名昭著。這些缺點限制了此類模型在部署到不同語言、領域或風格時的應用,因為從頭收集標注數據和訓練模型的成本很高,而且人類語言的長尾特性使挑戰變得更大。
一個典型的機器學習算法,如深度學習,可以被認為是一個復雜的函數。該函數以訓練數據為輸入,以訓練模型為輸出。今天的學習算法大多是人為設計的。這些算法通常是針對某一特定任務而設計的,需要大量帶標記的訓練數據進行學習。一種可能克服這些挑戰的方法是元學習,也被稱為“學習的學習”,旨在學習學習算法,包括更好的參數初始化、優化策略、網絡架構、距離度量等。最近,在幾個HLT領域,元學習已經顯示出高潛力,允許更快的微調,收斂到更好的性能,并實現較少樣本學習。本教程的目的是介紹元學習方法,并回顧將此技術應用于HLT的工作。
小樣本自然語言處理(NLP)是指NLP任務只具有少量標注的樣例。這是人工智能系統必須學會處理的現實挑戰。通常我們依賴于收集更多的輔助信息或開發一個更有效的學習算法。然而,在高容量模型中,一般基于梯度的優化,如果從頭開始訓練,需要對大量帶標記的樣例進行很多參數更新步驟,才能表現良好(Snell et al., 2017)。
如果目標任務本身不能提供更多的信息,如何收集更多帶有豐富標注的任務來幫助模型學習?元學習的目標是訓練一個模型在各種任務上使用豐富的標注,這樣它就可以用少量標記的樣本解決一個新的任務。關鍵思想是訓練模型的初始參數,這樣當參數通過零階或幾個梯度步驟更新后,模型在新任務上有最大的性能。
已經有一些關于元學習的綜述,例如(Vilalta和Drissi, 2002;Vanschoren, 2018;Hospedales等,2020)。然而,本文的研究主要集中在NLP領域,尤其是小樣本的應用。本文試圖對元學習應用于較少次數的神經語言處理提供更清晰的定義、進展總結和一些常用的數據集。
【導讀】元學習旨在學會學習,是當下研究熱點之一。最近來自愛丁堡大學的學者發布了關于元學習最新綜述論文《Meta-Learning in Neural Networks: A Survey》,值得關注,詳述了元學習體系,包括定義、方法、應用、挑戰,成為不可缺少的文獻。
近年來,元學習領域,或者說“學會學習的學習”,引起了人們極大的興趣。與傳統的人工智能方法(使用固定的學習算法從頭開始解決給定的任務)不同,元學習的目的是改進學習算法本身,考慮到多次學習的經驗。這個范例提供了一個機會來解決深度學習的許多傳統挑戰,包括數據和計算瓶頸,以及泛化的基本問題。在這項綜述中,我們描述了當代元學習的景觀。我們首先討論元學習的定義,并將其定位于相關領域,如遷移學習、多任務學習和超參數優化。然后,我們提出了一個新的分類法,對元學習方法的空間進行了更全面的細分。我們綜述了元學習的一些有前途的應用和成功案例,包括小樣本學習、強化學習和體系架構搜索。最后,我們討論了突出的挑戰和未來研究的有希望的領域。
概述
現代機器學習模型通常是使用手工設計的固定學習算法,針對特定任務從零開始進行訓練。基于深度學習的方法在許多領域都取得了巨大的成功[1,2,3]。但是有明顯的局限性[4]。例如,成功主要是在可以收集或模擬大量數據的領域,以及在可以使用大量計算資源的領域。這排除了許多數據本質上是稀有或昂貴的[5],或者計算資源不可用的應用程序[6,7]。
元學習提供了另一種范式,機器學習模型可以在多個學習階段獲得經驗——通常覆蓋相關任務的分布——并使用這些經驗來改進未來的學習性能。這種“學會學習”[8]可以帶來各種好處,如數據和計算效率,它更適合人類和動物的學習[9],其中學習策略在一生和進化時間尺度上都得到改善[10,9,11]。機器學習在歷史上是建立在手工設計的特征上的模型,而特征的選擇往往是最終模型性能的決定因素[12,13,14]。深度學習實現了聯合特征和模型學習的承諾[15,16],為許多任務提供了巨大的性能改進[1,3]。神經網絡中的元學習可以看作是集成聯合特征、模型和算法學習的下一步。神經網絡元學習有著悠久的歷史[17,18,8]。然而,它作為推動當代深度學習行業前沿的潛力,導致了最近研究的爆炸性增長。特別是,元學習有可能緩解當代深度學習[4]的許多主要批評,例如,通過提供更好的數據效率,利用先驗知識轉移,以及支持無監督和自主學習。成功的應用領域包括:小樣本圖像識別[19,20]、無監督學習[21]、數據高效[22,23]、自導向[24]強化學習(RL)、超參數優化[25]和神經結構搜索(NAS)[26, 27, 28]。
在文獻中可以找到許多關于元學習的不同觀點。特別是由于不同的社區對這個術語的使用略有不同,所以很難定義它。與我們[29]相關的觀點認為,元學習是管理“沒有免費午餐”定理[30]的工具,并通過搜索最適合給定問題或問題族的算法(歸納偏差)來改進泛化。然而,從廣義上來說,這個定義可以包括遷移、多任務、特征選擇和模型集成學習,這些在今天通常不被認為是元學習。另一個關于元學習[31]的觀點廣泛地涵蓋了基于數據集特性的算法選擇和配置技術,并且很難與自動機器學習(AutoML)[32]區分開來。在這篇論文中,我們關注當代的神經網絡元學習。我們將其理解為算法或歸納偏差搜索,但重點是通過端到端學習明確定義的目標函數(如交叉熵損失、準確性或速度)來實現的。
因此,本文提供了一個獨特的,及時的,最新的調查神經網絡元學習領域的快速增長。相比之下,在這個快速發展的領域,以往的研究已經相當過時,或者關注于數據挖掘[29、33、34、35、36、37、31]、自動[32]的算法選擇,或者元學習的特定應用,如小樣本學習[38]或神經架構搜索[39]。
我們討論元學習方法和應用。特別是,我們首先提供了一個高層次的問題形式化,它可以用來理解和定位最近的工作。然后,我們在元表示、元目標和元優化器方面提供了一種新的方法分類。我們調查了幾個流行和新興的應用領域,包括少鏡頭、強化學習和架構搜索;并對相關的話題如遷移學習、多任務學習和自動學習進行元學習定位。最后,我們討論了尚未解決的挑戰和未來研究的領域。
未來挑戰:
-元泛化 元學習在不同任務之間面臨著泛化的挑戰,這與傳統機器學習中在不同實例之間進行泛化的挑戰類似。
總結
元學習領域最近出現了快速增長的興趣。這帶來了一定程度的混亂,比如它如何與鄰近的字段相關聯,它可以應用到什么地方,以及如何對它進行基準測試。在這次綜述中,我們試圖通過從方法學的角度對這一領域進行徹底的調查來澄清這些問題——我們將其分為元表示、元優化器和元目標的分類;從應用的角度來看。我們希望這項調查將有助于新人和實踐者在這個不斷增長的領域中定位自己,并強調未來研究的機會。
?【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少標簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!
地址:
//www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132
摘要
雖然深度學習策略在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的策略嚴重依賴于大量的標記數據。在許多實際問題中,創建這么多標記的訓練數據是不可行的。因此,研究人員試圖將未標記的數據納入到培訓過程中,以獲得與較少標記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項調查中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的標簽。我們比較了21種方法。在我們的分析中,我們確定了三個主要趨勢。1. 基于它們的準確性,現有技術的方法可擴展到實際應用中。2. 為了達到與所有標簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,只有少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。
1. 概述
深度學習策略在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目標檢測或語義分割等各種任務中表現最佳。
圖1: 這張圖說明并簡化了在深度學習訓練中使用未標記數據的好處。紅色和深藍色的圓圈表示不同類的標記數據點。淺灰色的圓圈表示未標記的數據點。如果我們只有少量的標記數據可用,我們只能對潛在的真實分布(黑線)做出假設(虛線)。只有同時考慮未標記的數據點并明確決策邊界,才能確定這種真實分布。
深度神經網絡的質量受到標記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的標記數據集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的數據集也可以改善這些結果。但是,在許多實際的應用程序中,不可能創建包含數百萬張圖像的標記數據集。處理這個問題的一個常見策略是遷移學習。這種策略甚至可以在小型和專門的數據集(如醫學成像[40])上改進結果。雖然這對于某些應用程序來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的標記數據。
對于給定的問題,我們通常可以訪問大量未標記的數據集。Xie等人是最早研究無監督深度學習策略來利用這些數據[45]的人之一。從那時起,未標記數據的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未標記的數據是有益的(參見圖1中的說明)。它要么使很少有標簽的訓練更加健壯,要么在某些不常見的情況下甚至超過了監督情況下的性能[21]。
由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目標是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實現這一目標的轉折點。因此,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。
大多數綜述的研究主題在目標、應用上下文和實現細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還將研究不同技術的組合。
2. 圖像分類技術
在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴展這一總結。重點在于區分可能的學習策略和最常見的實現策略的方法。在整個綜述中,我們使用術語學習策略,技術和方法在一個特定的意義。學習策略是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習策略和技術。技術是組成方法/算法的部分或思想。
2.1 分類方法
監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明確的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精確的定義來區分它們。我們將總結關于學習策略的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的標記數據的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督策略、自我學習策略和無監督學習策略稱為reduced減約監督學習策略。圖2展示了四種深度學習策略。
圖2: 插圖的四個深學習策略——紅色和深藍色的圓圈表示標記數據點不同的類。淺灰色的圓圈表示未標記的數據點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用標簽信息的數據點。
監督學習 Supervised Learning
監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的標簽或類z。設C為類別數,f(X)為X∈X的某個神經網絡的輸出,目標是使輸出與標簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。
遷移學習
監督學習的一個限制因素是標簽的可用性。創建這些標簽可能很昂貴,因此限制了它們的數量。克服這一局限的一個方法是使用遷移學習。
遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用數據集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目標數據集進行微調。大量的文獻表明,即使在小的領域特定數據集[40]上,遷移學習也能改善和穩定訓練。
半監督學習
半監督學習是無監督學習和監督學習的混合.
Self-supervised 自監督學習
自監督使用一個借托pretext任務來學習未標記數據的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。因此,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種策略。我們將自我監督學習視為一種特殊的學習策略。在下面,我們將解釋我們是如何得出這個結論的。如果在微調期間需要使用任何標簽,則不能將該策略稱為無監督的。這與半監督方法也有明顯的區別。標簽不能與未標記的數據同時使用,因為借托pretext任務是無監督的,只有微調才使用標簽。對我們來說,將標記數據的使用分離成兩個不同的子任務本身就是一種策略的特征。
2.2 分類技術集合
在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們將介紹一些在文獻中多種方法中使用的技術。
一致性正則化 Consistency regularization
一個主要的研究方向是一致性正則化。在半監督學習過程中,這些正則化被用作數據非監督部分的監督損失的附加損失。這種約束導致了改進的結果,因為在定義決策邊界時可以考慮未標記的數據[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中只使用這種一致性正則化[21,2]。
虛擬對抗性訓練(VAT)
VAT[34]試圖通過最小化圖像與轉換后的圖像之間的距離,使預測不受小轉換的影響。
互信息(MI)
MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。
熵最小化(EntMin)
Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。
Overclustering
過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割數據。這種分離在有噪聲的數據中或在中間類被隨機分為相鄰類的情況下是有用的。
Pseudo-Labels
一種估計未知數據標簽的簡單方法是偽標簽
3. 圖像分類模型
3.1 半監督學習
四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的隨機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了標記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一致性正則化。
3.2 自監督學習
四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在內。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次隨機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的內部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗
3.3 21種圖像分類方法比較
21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習策略排序。第一行列出了在2.2小節中討論過的可能的技術。根據是否可以使用帶標簽的數據,將這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)將CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練后(例如在一個借口任務中)對新標簽的使用。(X)指該技術不是直接使用,而是間接使用。個別的解釋由所指示的數字給出。1 - MixMatch通過銳化預測[3],隱式地實現了熵最小化。2 - UDA預測用于過濾無監督數據的偽標簽。3 -盡量減少相互信息的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -信息的丟失使相互信息間接[43]最大化。5 - Deep Cluster使用K-Means計算偽標簽,以優化分配為借口任務。6 - DAC使用元素之間的余弦距離來估計相似和不相似的項。可以說DAC為相似性問題創建了偽標簽。
4. 實驗比較結果
報告準確度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準確度后的括號內。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最后四列報告了各自數據集的最高準確度分數%。
5 結論
在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同和組合。這項分析確定了幾個趨勢和可能的研究領域。
我們分析了不同學習策略(半監督學習策略、自監督學習策略和無監督學習策略)的定義,以及這些學習策略中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種策略。盡管由于不同的體系結構和實現而難以比較這些方法的性能,但我們確定了三個主要趨勢。
ILSVRC-2012的前5名正確率超過90%,只有10%的標簽表明半監督方法適用于現實問題。然而,像類別不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。
監督和半監督或自監督方法之間的性能差距正在縮小。有一個數據集甚至超過了30%。獲得可與全監督學習相比的結果的標簽數量正在減少。未來的研究可以進一步減少所需標簽的數量。我們注意到,隨著時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類將失去意義。
我們的結論是,半監督和自監督學習策略主要使用一套不同的技術。通常,這兩種策略都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們確定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們確定了未來可能的研究機會。
參考文獻:
[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.
[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.
[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.
[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.
[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.