少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。
地址:
//www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1
概述:
人類智能的一個令人印象深刻的特點是能夠從一個或幾個例子中迅速建立對新概念的認知。許多認知和心理學證據[184,224,371]表明,人類可以通過很少的圖像[23]識別視覺物體,甚至兒童也可以通過一次偶見就記住一個新單詞[35,51]。雖然從很少的樣本中支持人類學習和歸納能力的確切原因仍是一個深刻的謎,但一些神經生物學研究[285,29,157]認為,人類顯著的學習能力得益于人腦中的前額葉皮層(PFC)和工作記憶,特別是PFC特有的神經生物學機制與大腦中存儲的以往經驗之間的相互作用。相比之下,最先進的機器學習算法都需要大量數據,尤其是最廣為人知的深度學習[186],它將人工智能推向了一個新的高潮。深度學習作為機器學習發展的重要里程碑,在視覺[172,319,120]、語言[231,318]、語言[127]、游戲[308]、人口學[97]、醫學[74]、植物病理學[100]、動物學[252]等廣泛的研究領域都取得了顯著的成就。一般來說,深度學習的成功可以歸結為三個關鍵因素:強大的計算資源(如GPU)、復雜的神經網絡(如CNN[172]、LSTM[129])和大規模數據集(如ImageNet[287]、Pascal-VOC[75])。然而,在現實的應用場景中,比如在醫學、軍事、金融等領域,由于隱私、安全、數據標注成本高等因素,我們無法獲得足夠的標簽訓練樣本。因此,使學習系統能夠有效地從很少的樣本中進行學習和歸納,成為幾乎所有機器學習研究人員所期待的藍圖。
從高層次上看,研究少樣本學習的理論和現實意義主要來自三個方面。首先,FSL方法不依賴于大規模的訓練樣本,從而避免了在某些特定應用中數據準備的高昂成本。第二,FSL可以縮小人類智能和人工智能之間的差距,是發展通用人工智能的必要之旅[191]。第三,FSL可以實現一個新興任務的低成本和快速的模型部署,而這個任務只有幾個暫時可用的樣本,這有利于闡明任務早期的潛在規律。
少數樣本學習(FSL),又稱小樣本學習、少樣本學習或一次性學習,可以追溯到21世紀初。盡管該研究已有近20年的歷史,在理論和應用層面上都具有重要意義,但到目前為止,相關的調查和綜述還很少。在本文中,我們廣泛調查了從21世紀頭十年到2019年幾乎所有與FSL相關的科學論文,以詳細闡述一個系統的FSL調研。我們必須強調,這里討論的FSL與zero-shot learning (ZSL)正交[346],這是機器學習的另一個熱門話題。ZSL的設置需要與概念相關的側面信息來支持跨概念的知識遷移,這與FSL有很大的不同。據我們所知,到目前為止,只有兩份與fsl相關的預先打印的綜述倫恩[305,349]。與他們相比,本次綜述的新穎之處和貢獻主要來自五個方面:
(1) 我們對2000年至2019年的200多篇與FSL相關的論文進行了更全面、更及時的綜述,涵蓋了從最早的凝固模型[233]到最新的元學習方法的所有FSL方法。詳盡的闡述有助于把握FSL的整個發展過程,構建完整的FSL知識體系。
(2) 根據FSL問題的建模原則,我們提供了一種可理解的層次分類法,將現有的FSL方法分為基于生成模型的方法和基于判別模型的方法。在每個類中,我們根據可一般化的屬性進一步進行更詳細的分類。
(3) 我們強調當前主流目前的方法,例如,基于目前的元學習方法,和分類成五大類,他們希望通過元學習策略學習學習,包括Learn-to-Measure Learn-to-Finetune, Learn-to-Parameterize,學會調整和Learn-to-Remember。此外,本調查還揭示了各種基于元學習的FSL方法之間潛在的發展關系。
(4) 總結了最近在普通FSL之外出現的幾個外延研究課題,并回顧了這些課題的最新進展。這些主題包括半監督FSL、無監督FSL、跨域FSL、廣義FSL和多模態FSL,它們具有挑戰性,同時也為許多現實機器學習問題的解決賦予了突出的現實意義。這些擴展主題在以前的綜述中很少涉及。
(5) 我們廣泛總結了現有FSL在計算機視覺、自然語言處理、音頻和語音、增強學習和機器人、數據分析等各個領域的應用,以及目前FSL在基準測試中的表現,旨在為后續研究提供一本手冊,這是之前綜述中沒有涉及到的。
本文的其余部分組織如下。在第2節中,我們給出了一個概述,包括FSL的發展歷史、我們稍后將使用的符號和定義,以及現有FSL方法的分類建議。第3節和第4節分別詳細討論了基于生成模型的方法和基于判別模型的方法。然后,第5節總結了FSL中出現的幾個擴展主題。在第6節中,我們廣泛地研究了FSL在各個領域的應用以及FSL的基準性能。在第8節中,我們以對未來方向的討論來結束這次綜述。
深度神經網絡在擁有大量數據集和足夠的計算資源的情況下能夠取得巨大的成功。然而,他們快速學習新概念的能力相當有限。元學習是解決這一問題的一種方法,通過使網絡學會如何學習。令人興奮的深度元學習領域正在高速發展,但缺乏對當前技術的統一、深刻的概述。這項工作就是這樣。在為讀者提供理論基礎之后,我們研究和總結了主要的方法,這些方法被分為i)度量;ii)模型;和iii)基于優化的技術。此外,我們確定了主要的開放挑戰,如在異構基準上的性能評估,以及元學習計算成本的降低。
摘要:
近年來,深度學習技術在各種任務上取得了顯著的成功,包括游戲(Mnih et al., 2013; Silver et al., 2016),圖像識別(Krizhevsky et al., 2012; He et al., 2015)和機器翻譯(Wu et al., 2016)。盡管取得了這些進展,但仍有大量的挑戰有待解決,例如實現良好性能所需的大量數據和訓練。這些要求嚴重限制了深度神經網絡快速學習新概念的能力,這是人類智能的定義方面之一(Jankowski等人,2011;(Lake等,2017)。
元學習被認為是克服這一挑戰的一種策略(Naik and Mammone, 1992; Schmidhuber, 1987; Thrun, 1998)。其關鍵思想是元學習主體隨著時間的推移提高自己的學習能力,或者等價地說,學會學習。學習過程主要與任務(一組觀察)有關,并且發生在兩個不同的層次上:內部和外部。在內部層,一個新的任務被提出,代理試圖快速地從訓練觀察中學習相關的概念。這種快速的適應是通過在外部層次的早期任務中積累的知識來促進的。因此,內部層關注的是單個任務,而外部層關注的是多個任務。
從歷史上看,元學習這個術語的使用范圍很廣。從最廣泛的意義上說,它概括了所有利用之前的學習經驗以更快地學習新任務的系統(Vanschoren, 2018)。這個廣泛的概念包括更傳統的機器學習算法選擇和hyperparameter優化技術(Brazdil et al ., 2008)。然而,在這項工作中,我們專注于元學習領域的一個子集,該領域開發元學習程序來學習(深度)神經網絡的良好誘導偏差。1從今以后,我們使用術語深元學習指元學習的領域。
深度元學習領域正在快速發展,但它缺乏一個連貫、統一的概述,無法提供對關鍵技術的詳細洞察。Vanschoren(2018)對元學習技術進行了調查,其中元學習被廣泛使用,限制了對深度元學習技術的描述。此外,在調查發表后,深度元學習領域也出現了許多令人興奮的發展。Hospedales等人(2020)最近的一項調查采用了與我們相同的深度元學習概念,但目標是一個廣泛的概述,而忽略了各種技術的技術細節。
我們試圖通過提供當代深度元學習技術的詳細解釋來填補這一空白,使用統一的符號。此外,我們確定了當前的挑戰和未來工作的方向。更具體地說,我們覆蓋了監督和強化學習領域的現代技術,已經實現了最先進的性能,在該領域獲得了普及,并提出了新的想法。由于MAML (Finn et al., 2017)和相關技術對該領域的影響,我們給予了格外的關注。本研究可作為深度元學習領域的系統性介紹,并可作為該領域資深研究人員的參考資料。在整個過程中,我們將采用Vinyals(2017)所使用的分類法,該分類法確定了三種深度元學習方法:i)度量、ii)模型和iii)基于優化的元學習技術。
【導讀】作為計算機視覺領域三大會議之一,European Conference on Computer Vision(歐洲計算機視覺大會,ECCV)備受全球領域眾多專業人士關注。幾天前,ECCV 2020官方發布接收論文,本次大會共有5025篇投稿,1361篇被接收,接受率27%。ECCV 2020 已經于8月23日-28日Online方式進行。論文列表已經放出,小編發現少樣本學習方向火熱,錄用了好多篇相關paper,為此專知小編整理了七篇 ECCV 2020 少樣本學習(Few-Shot Learning,FSL) 相關論文供大家參考——跨域少樣本學習、膠囊注意力原型網絡、負間隔損失、任務自適應特征學習、自監督
ECCV 2020 接受論文列表和下載地址: //eccv2020.eu/accepted-papers/
ECCV2020ReID、ECCV2020OD、ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、
1、A Broader Study of Cross-Domain Few-Shot Learning
作者:Yunhui Guo, Noel C. Codella, Leonid Karlinsky, James V. Codella, John R. Smith, Kate Saenko, Tajana Rosing, Rogerio Feris
摘要:最近在少樣本學習方面的進展很大程度上依賴于元學習的標注數據:與新類別相同的域中采樣其基類。然而,在許多應用中,為元學習收集數據是不可行或不可能的。這導致了跨域的少樣本學習問題,其中在基域和新類別域之間存在很大的Gap。雖然對跨域少樣本場景的研究已經存在,但這些工作僅限于視覺相似度很高的自然圖像。目前還沒有在真實世界場景中看到的不同成像方法(如航空成像和醫學成像)之間進行少樣本學習的研究。在本文中,我們提出了更廣泛的跨域少樣本學習(BSCD-FSL)基準研究,該基準由來自各種圖像獲取方法的圖像數據組成。這些圖像數據包括自然圖像,如作物病害圖像,還有那些與自然圖像有很大不同的圖像,如衛星圖像、皮膚病圖像和放射學圖像。我們在所提出的基準上進行了大量的實驗,以評估最新的元學習方法、遷移學習方法和較新的跨域少樣本學習方法。結果表明,最新的元學習方法的表現優于早期的元學習方法,并且所有的元學習方法的表現都比簡單的精調在平均準確率上要差12.8%。在某些情況下,元學習甚至不如具有隨機權重的網絡。在這個更具挑戰性的基準測試中,以前使用專門用于跨域、少樣本學習的方法的性能提升消失得無影無蹤。最后,所有方法的準確性往往與數據集與自然圖像的相似性相關,我們驗證了基準的價值,從而能夠更好地代表真實場景數據的多樣性,并指導未來的研究。
代碼:
網址:
2、Attentive Prototype Few-shot Learning with Capsule Network-based Embedding
作者:Fangyu Wu, Jeremy S.Smith, Wenjin Lu, Chaoyi Pang, Bailing Zhang
摘要:用很少的訓練樣本識別新的類別的少樣本學習,是機器學習研究中一個極具挑戰性的領域。傳統的深度學習方法需要大量的訓練數據來調整數量龐大的參數,這往往是不切實際的,而且容易過擬合。在這項工作中,我們進一步研究了被稱為原型網絡的少樣本學習方法,以獲得更好的性能。我們的貢獻包括:(1)一種新的嵌入結構,通過應用膠囊網絡(capsule network)來編碼特征之間的相對空間關系;(2)設計了一種新的三元組損失來增強語義特征的嵌入性,即相似樣本之間距離較近,而不同樣本之間的距離較遠;以及(3)一種有效的非參數分類器,稱為注意力原型,取代了目前少樣本學習中的簡單原型。我們提出的注意力原型聚合了支持類中的所有實例,這些實例根據它們的重要性(由給定查詢的重構誤差定義)進行加權。重構誤差允許估計對應于分類置信度分數的分類后驗概率。在三個基準數據集上的大量實驗表明,該方法對于少樣本分類任務是有效的。
網址:
3、Negative Margin Matters: Understanding Margin in Few-shot Classification
作者:Bin Liu1, Yue Cao, Yutong Lin, Qi Li, Zheng Zhang, Mingsheng Long, Han Hu
摘要:本文介紹了一種基于度量學習的負邊距損失(negative margin loss)的少樣本學習方法。負邊距損失的表現明顯優于常規的Softmax損失,并且在三個標準的少樣本分類基準上實現了最先進的精確度。這些結果與度量學習領域的通常做法(差值為零或正)相反。為了理解為什么負邊距損失在少樣本分類中表現良好,我們從經驗和理論上分析了訓練類和新類中不同邊緣的學習特征的可區分性。我們發現,雖然負邊距降低了訓練類的特征可區分性,但也可以避免將同一新類的樣本錯誤映射到多個峰或簇,從而有利于對新類的區分。
代碼:
網址:
4、Prototype Rectification for Few-Shot Learning
作者:Jinlu Liu, Liang Song, Yongqiang Qin
摘要:少樣本學習要求識別具有稀缺標簽數據的新類。原型網絡(prototypical network)在現有的研究中是有用的,然而,對稀缺數據進行窄尺寸分布(narrow-size distribution)的訓練往往會得到有偏差的原型。在本文中,我們找出了這一過程的兩個關鍵影響因素:類內偏差和跨類偏差。然后,我們提出了一種簡單而有效的方法,用于轉導設置(transductive setting)下的原型校正。該方法利用標簽傳播(label propagation)來減小類內偏差,利用特征遷移來減小跨類偏差。我們還進行了理論分析,推導出其合理性以及性能的下界。在三個少樣本基準上的有效性顯示,我們的方法在miniImageNet(1-shot 70.31%, 5-shot 81.89%)和tieredImageNet(1-shot 78.74%,5-shot 86.92%)上都獲得了最先進的性能。
網址:
5、SEN: A Novel Feature Normalization Dissimilarity Measure for Prototypical Few-Shot Learning Networks
作者:Van Nhan Nguyen, Sigurd L?kse, Kristoffer Wickstr?m, Michael Kampffmeyer, Davide Roverso, Robert Jenssen
摘要:在這篇文章中,我們給原型網絡(PNS)配備了一種新的相異度度量,以實現少樣本學習的區分特征歸一化。嵌入到超球面上不需要直接歸一化,易于優化。我們理論分析表明,所提出的歐幾里德距離平方根和范數距離(SEN)的相異度測度迫使嵌入點被吸引到其正確的原型上,而排斥所有其他原型,保持所有點的范數相同。所得到的SEN PN在沒有附加參數的情況下以相當大的幅度優于常規PN,并且計算開銷可以忽略不計。
網址:
6、TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot classification
作者:Moshe Lichtenstein, Prasanna Sattigeri, Rogerio Feris, Raja Giryes, Leonid Karlinsky
摘要:近來,少樣本學習(FSL),即從非常少的(通常是1到5個)的例子中學習一個新的類別(在訓練時候不存在),得到了很多關注和顯著的性能進步。雖然已經為FSL提出了許多技術,但有幾個因素已經成為影響FSL性能的最重要因素,即使是最簡單的技術也可以授予SOTA。它們是:骨干架構(越大越好),預訓練類型(元訓練與多類別),基類的數量和多樣性(越多越好),以及使用輔助自監督任務(增加多樣性的代理)。在本文中,我們提出了TAFSSL,這是一種簡單的技術,可以在伴隨著一些額外的未標記數據的少樣本任務中提高少樣本性能。TAFSSL的直覺是基于減少預訓練期間未見過的由新類別組成的少樣本任務所固有的特征和采樣噪聲。具體地說,在具有挑戰性的miniImageNet和tieredImageNet基準測試中,TAFSSL可以將當前最先進的轉導和半監督FSL設置提高5%以上,同時將在FSL中使用未標記數據的性能提高到10%以上。
網址:
7、When Does Self-supervision Improve Few-shot Learning?
作者:Jong-Chyi Su, Subhransu Maji, Bharath Hariharan
摘要:我們研究了自監督學習(SSL)在少樣本學習環境中的作用。雖然最近的研究已經顯示了SSL在大型未標記數據集上的好處,但它在小型數據集上的實用性相對來說還沒有被探索過。我們發現,SSL將少樣本元學習的相對錯誤率降低了4%-27%,即使當數據集很小并且只使用數據集中的圖像時也是如此。當訓練集越小或任務越具挑戰性時,改進效果越大。雖然SSL的好處可能會隨著訓練集的增加而增加,但我們觀察到,當用于元學習的圖像的分布與SSL不同時,SSL會損害性能。我們通過改變域轉移的程度和分析幾個元學習在多個領域上的表現來進行系統的研究。基于這一分析,我們提出了一種技術,該技術可以從給定數據集的大型通用未標記圖像池中自動選擇用于SSL的圖像,從而提供進一步的改進。
網址:
小樣本學習是當前研究關注的熱點。這篇論文總結了2016年到2020年的小樣本元學習文章,劃分為四類:基于數據增強; 基于度量學習,基于元優化; 和基于語義的。值得查看!
摘要:
在圖像識別和圖像分類等方面,深度神經網絡的表現已經超過了人類。然而,隨著各種新類別的出現,如何從有限的樣本中不斷擴大此類網絡的學習能力,仍然是一個挑戰。像元學習和/或小樣本學習這樣的技術表現出了良好的效果,他們可以根據先驗知識學習或歸納到一個新的類別/任務。在本文中,我們研究了計算機視覺領域中現有的小樣本元學習技術的方法和評價指標。我們為這些技術提供了一個分類法,并將它們分類為數據增強、嵌入、優化和基于語義的學習,用于小樣本、單樣本和零樣本設置。然后我們描述在每個類別中所做的重要工作,并討論他們解決從少數樣本中學習的困境的方法。最后,我們在常用的基準測試數據集Omniglot和MiniImagenet上比較了這些技術,并討論了提高這些技術性能的未來方向,從而達到超越人類的最終目標。
地址: //www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328
概述:
基于人工智能(AI)的系統正在成為人類生活的重要組成部分,無論是個人生活還是專業生活。我們周圍都是基于人工智能的機器和應用程序,它們將使我們的生活變得更容易。例如,自動郵件過濾(垃圾郵件檢測),購物網站推薦,智能手機中的社交網絡等[1,2,3,4]。這一令人印象深刻的進展之所以成為可能,是因為機器或深度學習模型[5]取得了突破性的成功。機器或深度學習占據了AI領域的很大一部分。深度學習模型是建立在多層感知器與應用基于梯度的優化技術的能力。深度學習模型最常見的兩個應用是:計算機視覺(CV),其目標是教會機器如何像人類一樣看和感知事物;自然語言處理(NLP)和自然語言理解(NLU),它們的目標是分析和理解大量的自然語言數據。這些深度學習模型在圖像識別[6,7,8]、語音識別[9,10,11,12,13]、自然語言處理與理解[14,15,16,17,18]、視頻分析[19,20,21,22,23]、網絡安全[24,25,26,27,28,29,30]等領域都取得了巨大的成功。機器和/或深度學習最常見的方法是監督學習,其中針對特定應用程序的大量數據樣本與它們各自的標簽一起被收集并形成一個數據集。該數據集分為三個部分: 訓練、驗證和測試。在訓練階段,將訓練集和驗證集的數據及其各自的標簽輸入模型,通過反向傳播和優化,將模型歸納為一個假設。在測試階段,將測試數據輸入模型,根據導出的假設,模型預測測試數據樣本的輸出類別。
由于計算機和現代系統的強大能力[31,32],處理大量數據的能力已經非常出色。隨著各種算法和模型的進步,深度學習已經能夠趕上人類,在某些情況下甚至超過人類。AlphaGo[33]是一個基于人工智能的agent,在沒有任何人類指導的情況下訓練,能夠擊敗世界圍棋冠軍。圍棋是一種古老的棋盤游戲,被認為比國際象棋[34]復雜10倍;在另一個復雜的多人戰略游戲《DOTA》中,AI-agent打敗了《DOTA[35]》的人類玩家;對于圖像識別和分類的任務,ResNet[6]和Inception[36,37,38]等模型能夠在流行的ImageNet數據集上取得比人類更好的性能。ImageNet數據集包括超過1400萬張圖像,超過1000個類別[39]。
人工智能的最終目標之一是在任何給定的任務中趕上或超過人類。為了實現這一目標,必須盡量減少對大型平衡標記數據集的依賴。當前的模型在處理帶有大量標記數據的任務時取得了成功的結果,但是對于其他帶有標記數據很少的任務(只有少數樣本),各自模型的性能顯著下降。對于任何特定任務,期望大型平衡數據集是不現實的,因為由于各種類別的性質,幾乎不可能跟上產生的標簽數據。此外,生成標記數據集需要時間、人力等資源,而且在經濟上可能非常昂貴。另一方面,人類可以快速地學習新的類或類,比如給一張奇怪動物的照片,它可以很容易地從一張由各種動物組成的照片中識別出動物。人類相對于機器的另一個優勢是能夠動態地學習新的概念或類,而機器必須經過昂貴的離線培訓和再培訓整個模型來學習新類,前提是要有標簽數據可用性。研究人員和開發人員的動機是彌合人類和機器之間的鴻溝。作為這個問題的一個潛在解決方案,我們已經看到元學習[40,41,42,43,44,45,46,47,48,49,50]、小樣本學習[51,52,53,54]、低資源學習[55,56,57,58]、零樣本學習[59,60,61,62,63,63,64,64,65]等領域的工作在不斷增加,這些領域的目標是使模型更好地推廣到包含少量標記樣本的新任務。
什么是小樣本元學習?
在few-shot, low-shot, n-shot learning (n一般在1 - 5之間)中,其基本思想是用大量的數據樣本對模型進行多類的訓練,在測試過程中,模型會給定一個新的類別(也稱為新集合),每個類別都有多個數據樣本,一般類別數限制為5個。在元學習中,目標是泛化或學習學習過程,其中模型針對特定任務進行訓練,不同分類器的函數用于新任務集。目標是找到最佳的超參數和模型權值,使模型能夠輕松適應新任務而不過度擬合新任務。在元學習中,有兩類優化同時運行: 一類是學習新的任務; 另一個是訓練學習器。近年來,小樣本學習和元學習技術引起了人們極大的興趣。
元學習領域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量學習是使用的較老的技術之一,其目標是從嵌入空間中學習。將圖像轉換為嵌入向量,特定類別的圖像聚在一起,而不同類別的圖像聚在一起比較遠。另一種流行的方法是數據增強,從而在有限的可用樣本中產生更多的樣本。目前,基于語義的方法被廣泛地研究,分類僅僅基于類別的名稱及其屬性。這種基于語義的方法是為了解決零樣本學習應用的啟發。
遷移學習與自監督學習
遷移學習的總體目標是從一組任務中學習知識或經驗,并將其遷移到類似領域的任務中去[95]。用于訓練模型獲取知識的任務有大量的標記樣本,而遷移任務的標記數據相對較少(也稱為微調),這不足以使模型訓練和收斂到特定的任務。遷移學習技術的表現依賴于兩項任務之間的相關性。在執行遷移學習時,分類層被訓練用于新的任務,而模型中先前層的權值保持不變[96]。對于每一個新的任務,在我們進行遷移學習的地方,學習速率的選擇和要凍結的層數都必須手工決定。與此相反,元學習技術可以相當迅速地自動適應新的任務。
自監督學習的研究近年來得到了廣泛的關注[97,98,99]。自監督學習(SSL)技術的訓練基于兩個步驟:一是在一個預定義代理任務上進行訓練,在大量的未標記數據樣本上進行訓練;第二,學習到的模型參數用于訓練或微調主要下游任務的模型。元學習或小樣本學習技術背后的理念與自監督學習非常相似,自監督學習是利用先前的知識,識別或微調一個新的任務。研究表明,自監督學習可以與小樣本學習一起使用,以提高模型對新類別的表現[100,101]。
方法體系組織:
元學習、小樣本學習、低資源學習、單樣本學習、零樣本學習等技術的主要目標是通過基于先驗知識或經驗的迭代訓練,使深度學習模型從少量樣本中學習能泛化到新類別。先驗知識是在包含大量樣本的帶標簽數據集上訓練樣本,然后利用這些知識在有限樣本下識別新的任務而獲得的知識。因此,在本文中,我們將所有這些技術結合在了小樣本體系下。由于這些技術沒有預定義的分類,我們將這些方法分為四大類: 基于數據增強; 基于度量學習,基于元優化; 和基于語義的(如圖1所示)。基于數據增強的技術非常流行,其思想是通過擴充最小可用樣本和生成更多樣化的樣本來訓練模型來擴展先驗知識。在基于嵌入的技術中,數據樣本被轉換為另一個低級維,然后根據這些嵌入之間的距離進行分類。在基于優化的技術中,元優化器用于在初始訓練期間更好地泛化模型,從而可以更好地預測新任務。基于語義的技術是將數據的語義與模型的先驗知識一起用于學習或優化新的類別。
摘要
一個綜合的人工智能系統不僅需要用不同的感官(如視覺和聽覺)感知環境,還需要推斷世界的條件(甚至因果)關系和相應的不確定性。在過去的十年里,我們看到了許多感知任務的重大進展,比如視覺對象識別和使用深度學習模型的語音識別。然而,對于更高層次的推理,具有貝葉斯特性的概率圖模型仍然更加強大和靈活。近年來,貝葉斯深度學習作為一種將深度學習與貝葉斯模型緊密結合的統一的概率框架出現了。在這個總體框架中,利用深度學習對文本或圖像的感知可以提高更高層次推理的性能,推理過程的反饋也可以增強文本或圖像的感知。本文對貝葉斯深度學習進行了全面的介紹,并對其在推薦系統、主題模型、控制等方面的最新應用進行了綜述。此外,我們還討論了貝葉斯深度學習與其他相關課題如神經網絡的貝葉斯處理之間的關系和區別。
介紹
在過去的十年中,深度學習在許多流行的感知任務中取得了顯著的成功,包括視覺對象識別、文本理解和語音識別。這些任務對應于人工智能(AI)系統的看、讀、聽能力,它們無疑是人工智能有效感知環境所必不可少的。然而,要建立一個實用的、全面的人工智能系統,僅僅有感知能力是遠遠不夠的。首先,它應該具備思維能力。
一個典型的例子是醫學診斷,它遠遠超出了簡單的感知:除了看到可見的癥狀(或CT上的醫學圖像)和聽到患者的描述,醫生還必須尋找所有癥狀之間的關系,最好推斷出它們的病因。只有在那之后,醫生才能給病人提供醫療建議。在這個例子中,雖然視覺和聽覺的能力讓醫生能夠從病人那里獲得信息,但醫生的思維能力才是關鍵。具體來說,這里的思維能力包括識別條件依賴、因果推理、邏輯演繹、處理不確定性等,顯然超出了傳統深度學習方法的能力。幸運的是,另一種機器學習范式,概率圖形模型(PGM),在概率或因果推理和處理不確定性方面表現出色。問題在于,PGM在感知任務上不如深度學習模型好,而感知任務通常涉及大規模和高維信號(如圖像和視頻)。為了解決這個問題,將深度學習和PGM統一到一個有原則的概率框架中是一個自然的選擇,在本文中我們稱之為貝葉斯深度學習(BDL)。 在上面的例子中,感知任務包括感知病人的癥狀(例如,通過看到醫學圖像),而推理任務包括處理條件依賴性、因果推理、邏輯推理和不確定性。通過貝葉斯深度學習中有原則的整合,將感知任務和推理任務視為一個整體,可以相互借鑒。具體來說,能夠看到醫學圖像有助于醫生的診斷和推斷。另一方面,診斷和推斷反過來有助于理解醫學圖像。假設醫生可能不確定醫學圖像中的黑點是什么,但如果她能夠推斷出癥狀和疾病的病因,就可以幫助她更好地判斷黑點是不是腫瘤。 再以推薦系統為例。一個高精度的推薦系統需要(1)深入了解條目內容(如文檔和電影中的內容),(2)仔細分析用戶檔案/偏好,(3)正確評價用戶之間的相似度。深度學習的能力有效地處理密集的高維數據,如電影內容擅長第一子任務,而PGM專攻建模條件用戶之間的依賴關系,項目和評分(參見圖7為例,u, v,和R是用戶潛在的向量,項目潛在的向量,和評級,分別)擅長其他兩個。因此,將兩者統一在一個統一的概率原則框架中,可以使我們在兩個世界中都得到最好的結果。這種集成還帶來了額外的好處,可以優雅地處理推薦過程中的不確定性。更重要的是,我們還可以推導出具體模型的貝葉斯處理方法,從而得到更具有魯棒性的預測。
作為第三個例子,考慮根據從攝像機接收到的實時視頻流來控制一個復雜的動態系統。該問題可以轉化為迭代執行兩項任務:對原始圖像的感知和基于動態模型的控制。處理原始圖像的感知任務可以通過深度學習來處理,而控制任務通常需要更復雜的模型,如隱馬爾科夫模型和卡爾曼濾波器。由控制模型選擇的動作可以依次影響接收的視頻流,從而完成反饋回路。為了在感知任務和控制任務之間實現有效的迭代過程,我們需要信息在它們之間來回流動。感知組件將是控制組件估計其狀態的基礎,而帶有動態模型的控制組件將能夠預測未來的軌跡(圖像)。因此,貝葉斯深度學習是解決這一問題的合適選擇。值得注意的是,與推薦系統的例子類似,來自原始圖像的噪聲和控制過程中的不確定性都可以在這樣的概率框架下自然地處理。 以上例子說明了BDL作為一種統一深度學習和PGM的原則方式的主要優勢:感知任務與推理任務之間的信息交換、對高維數據的條件依賴以及對不確定性的有效建模。關于不確定性,值得注意的是,當BDL應用于復雜任務時,需要考慮三種參數不確定性:
通過使用分布代替點估計來表示未知參數,BDL提供了一個很有前途的框架,以統一的方式處理這三種不確定性。值得注意的是,第三種不確定性只能在BDL這樣的統一框架下處理;分別訓練感知部分和任務特定部分相當于假設它們之間交換信息時沒有不確定性。注意,神經網絡通常是過參數化的,因此在有效處理如此大的參數空間中的不確定性時提出了額外的挑戰。另一方面,圖形模型往往更簡潔,參數空間更小,提供了更好的可解釋性。
除了上述優點之外,BDL內建的隱式正則化還帶來了另一個好處。通過在隱藏單元、定義神經網絡的參數或指定條件依賴性的模型參數上施加先驗,BDL可以在一定程度上避免過擬合,尤其是在數據不足的情況下。通常,BDL模型由兩個組件組成,一個是感知組件,它是某種類型神經網絡的貝葉斯公式,另一個是任務特定組件,使用PGM描述不同隱藏或觀察變量之間的關系。正則化對它們都很重要。神經網絡通常過度參數化,因此需要適當地正則化。正則化技術如權值衰減和丟失被證明是有效地改善神經網絡的性能,他們都有貝葉斯解釋。在任務特定組件方面,專家知識或先驗信息作為一種正規化,可以在數據缺乏時通過施加先驗來指導模型。 在將BDL應用于實際任務時,也存在一些挑戰。(1)首先,設計一個具有合理時間復雜度的高效的神經網絡貝葉斯公式并非易事。這一行是由[42,72,80]開創的,但是由于缺乏可伸縮性,它沒有被廣泛采用。幸運的是,這個方向的一些最新進展似乎為貝葉斯神經網絡的實際應用提供了一些啟示。(2)第二個挑戰是如何確保感知組件和任務特定組件之間有效的信息交換。理想情況下,一階和二階信息(例如,平均值和方差)應該能夠在兩個組件之間來回流動。一種自然的方法是將感知組件表示為PGM,并將其與特定任務的PGM無縫連接,如[24,118,121]中所做的那樣。 本綜述提供了對BDL的全面概述,以及各種應用程序的具體模型。綜述的其余部分組織如下:在第2節中,我們將回顧一些基本的深度學習模型。第3節介紹PGM的主要概念和技術。這兩部分作為BDL的基礎,下一節第4節將演示統一BDL框架的基本原理,并詳細說明實現其感知組件和特定于任務的組件的各種選擇。第5節回顧了應用于不同領域的BDL模型,如推薦系統、主題模型和控制,分別展示了BDL在監督學習、非監督學習和一般表示學習中的工作方式。第6部分討論了未來的研究問題,并對全文進行了總結。
結論和未來工作
BDL致力于將PGM和NN的優點有機地整合在一個原則概率框架中。在這項綜述中,我們確定了這種趨勢,并回顧了最近的工作。BDL模型由感知組件和任務特定組件組成;因此,我們分別描述了過去幾年開發的兩個組件的不同實例,并詳細討論了不同的變體。為了學習BDL中的參數,人們提出了從塊坐標下降、貝葉斯條件密度濾波、隨機梯度恒溫器到隨機梯度變分貝葉斯等多種類型的算法。 BDL從PGM的成功和最近在深度學習方面有前景的進展中獲得了靈感和人氣。由于許多現實世界的任務既涉及高維信號(如圖像和視頻)的有效感知,又涉及隨機變量的概率推理,因此BDL成為利用神經網絡的感知能力和PGM的(條件和因果)推理能力的自然選擇。在過去的幾年中,BDL在推薦系統、主題模型、隨機最優控制、計算機視覺、自然語言處理、醫療保健等各個領域都有成功的應用。在未來,我們不僅可以對現有的應用進行更深入的研究,還可以對更復雜的任務進行探索。此外,最近在高效BNN (BDL的感知組件)方面的進展也為進一步提高BDL的可擴展性奠定了基礎。
生成式深度學習算法已經發展到很難區分什么是真實的,什么是虛假的。在2018年,人們發現利用這項技術進行不道德和惡意的應用是多么容易,例如傳播錯誤信息、冒充政治領導人以及誹謗無辜的個人。從那以后,這些“deepfakes”有了顯著的進步。
在本文中,我們將探討deepfakes的創建和檢測,并對這些架構的工作方式提供深入的了解。本次綜述的目的是讓讀者更深入地了解 (1)deepfakes是如何產生和檢測的,(2) 該領域的當前趨勢和進展,(3) 當前防御解決方案的缺點,(4) 需要進一步研究和關注的領域。
最近深度神經網絡已經在監督識別任務上取得了令人振奮的突破,但是深度神經網絡要求每個類都有足夠 多的且完全標注的訓練數據。如何從少數訓練樣本中學習并識別新的類別,對于深度神經網絡來說是一個具有挑戰性的問題。針對如何解決少樣本學習的問題,全面總結了現有的基于深度神經網絡的少樣本學習方法,涵蓋了方法 所用模型、數據集及評估結果等各個方面。具體地,針對基于深度神經網絡的少樣本學習方法,提出將其分為四種 類別,即數據增強方法、遷移學習方法、度量學習方法和元學習的方法;對于每個類別,進一步將其分為幾個子類 別,并且在每個類別與方法之間進行一系列比較,以顯示各種方法的優劣和各自的特點。最后,強調了現有方法的局限性,并指出了少樣本學習研究領域的未來研究方向。
【導讀】現有的機器學習方法在很多場景下需要依賴大量的訓練樣本。但機器學習方法是否可以模仿人類,基于先驗知識等,只基于少量的樣本就可以進行學習。本文介紹34頁小樣本學習綜述《Generalizing from a Few Examples: A Survey on Few-Shot Learning》,包含166篇參考文獻,來自第四范式和香港科技大學習的研究學者。
小樣本學習綜述 Few-shot Learning: A Survey
【摘要】機器學習在數據密集型應用中非常成功,但當數據集很小時,它常常受到阻礙。為了解決這一問題,近年來提出了小樣本學習(FSL)。利用先驗知識,FSL可以快速地泛化到只包含少量有監督信息的樣本的新任務中。在這篇論文中,我們進行了一個徹底的調研,以充分了解FSL。從FSL的正式定義出發,我們將FSL與幾個相關的機器學習問題區分開來。然后指出了FSL的核心問題是經驗風險最小化是不可靠的。基于先驗知識如何處理這一核心問題,我們從三個角度對FSL方法進行了分類: (i) 數據,它使用先驗知識來增加監督經驗;(二) 利用先驗知識縮小假設空間大小的模型;(iii)算法,利用先驗知識在給定的假設空間中改變對最佳假設的搜索。有了這種分類法,我們就可以回顧和討論每個類別的優缺點。在FSL問題的設置、技術、應用和理論方面也提出了有前景的方向,為未來的研究提供了見解。
我們給出了FSL的形式化定義。它可以自然地鏈接到以往文獻中提出的經典機器學習定義。這個定義不僅足夠概括,包括所有現有的FSL -shot Learning: A Survey problems,而且足夠具體,明確了什么是FSL的目標,以及我們如何解決它。這一定義有助于確定未來FSL領域的研究目標。
指出了基于誤差分解的FSL在機器學習中的核心問題。我們發現,正是不可靠的經驗風險最小化使得FSL難以學習。這可以通過滿足或降低學習的樣本復雜度來緩解。理解核心問題有助于根據解決核心問題的方式將不同的工作分類為數據、模型和算法。更重要的是,這為更有組織和系統地改進FSL方法提供了見解。
我們對從FSL誕生到最近發表的文獻進行了廣泛的回顧,并將它們進行了統一的分類。對不同類別的優缺點進行了深入的討論。我們還對每個類別下的見解進行了總結。這對于初學者和有經驗的研究人員都是一個很好的指導方針。
我們在問題設置、技術、應用和理論方面展望了FSL未來的四個發展方向。這些見解都是基于當前FSL發展的不足之處,并有可能在未來進行探索。我們希望這部分能夠提供一些見解,為解決FSL問題做出貢獻,為真正的AI而努力。
與已有的關于小樣本概念學習和經驗學習的FSL相關調相比,我們給出了什么是FSL,為什么FSL很難,以及FSL如何將小樣本監督信息與先驗知識結合起來使學習成為可能的正式定義。我們進行了廣泛的文獻審查的基礎上提出的分類法與詳細討論的利弊,總結和見解。我們還討論了FSL與半監督學習、不平衡學習、遷移學習和元學習等相關話題之間的聯系和區別
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。