摘要
人在環路是通過整合人類的知識和經驗,以最小的代價訓練出準確的預測模型。借助基于機器的方法,人類可以為機器學習應用提供訓練數據,直接完成一些流水線中計算機難以完成的任務。在本文中,我們從數據的角度對現有的關于人在環路的研究進行了綜述,并將其分為三大類: (1) 通過數據處理提高模型性能的工作,(2) 通過干預模型訓練提高模型性能的工作,(3) 系統獨立的人在環路的設計。通過以上分類,我們總結了該領域的主要方法,以及它們的技術優勢/弱點,并在自然語言處理、計算機視覺等方面進行了簡單的分類和討論。此外,我們提供了一些開放的挑戰和機會。本綜述旨在為人在環路提供一個高層次的總結,并激發感興趣的讀者考慮設計有效的人在環路解決方案的方法。
引言
深度學習是人工智能的前沿,旨在更接近其主要目標——人工智能。深度學習已經在廣泛的應用中取得了巨大的成功,如自然語言處理、語音識別、醫療應用、計算機視覺和智能交通系統[1,2,3,4]。深度學習的巨大成功歸功于更大的模型[5]。這些模型的規模包含了數億個參數。這些數以億計的參數允許模型有更多的自由度,足以令人驚嘆的描述能力。
但是,大量的參數需要大量的標簽[6]的訓練數據。通過數據標注提高模型性能有兩個關鍵的挑戰。一方面,數據增長速度遠遠落后于模型參數的增長速度,數據增長主要阻礙了模型的進一步發展。另一方面,新任務的出現遠遠超過了數據更新的速度,對所有樣本進行注釋非常費力。為了應對這一挑戰,許多研究人員通過生成樣本來構建新的數據集,從而加快了模型迭代,降低了數據標注的成本[7,8,9,10,11]。此外,許多研究人員使用預訓練方法和遷移學習來解決這一挑戰[12,13,14,15,16],如transformer[17,18]、BERT[19]和GPT[20]。這些工作取得了令人難以置信的成果。
然而,生成的數據僅用作初始化模型的基礎數據。為了獲得高精度的可用模型,往往需要對具體數據進行標注和更新。因此,一些基于弱監督的工作被提出[21,22,23,24]。一些研究人員提出使用少樣本來促使模型從更少的樣本中學習[25,26,27]。在學習框架中集成先驗知識是處理稀疏數據的有效手段,因為學習者不需要從數據本身[28]中歸納知識。越來越多的研究人員開始嘗試將訓練前的知識納入他們的學習框架[29,30,31,32]。作為代理,人類有著豐富的先驗知識。如果機器可以學習人類的智慧和知識,它將有助于處理稀疏數據。特別是在臨床診斷和訓練數據缺乏等醫學領域[33,34,35,36]。
一些研究人員提出了一種名為“人在環路”(human-in- loop, HITL)的方法來解決這一挑戰,該方法主要通過將人類知識納入建模過程[37]來解決這些問題。如圖1所示,human-in-the-loop(即“human-in-the-loop”和“machine learning”)是機器學習領域一個活躍的研究課題,近十年來發表了大量的論文。
如圖2所示,傳統的機器學習算法一般由[38]三部分組成。第一個是數據預處理,第二個是數據建模,最后一個是開發人員修改現有流程以提高性能。我們都知道,機器學習模型的性能和結果是不可預測的,這就導致了很大程度的不確定性,在人機交互的哪個部分能帶來最好的學習效果。不同的研究者關注的是人工干預的不同部分。本文根據機器學習的處理方法對這些方法進行分類,分為數據預處理階段和模型修改和訓練階段。此外,更多的研究集中在獨立系統的設計上,以幫助完成模型的改進。因此,在本文中,我們首先從數據處理的角度討論了提高模型性能的工作。接下來,我們討論了通過干預模式訓練提高模型性能的工作。最后,討論了獨立于系統的“人在環路”的設計。
摘要
與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。
//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a
引言
人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。
由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。
近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。
本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。
摘要
近年來,深度神經模型在幾乎每個領域都取得了成功,甚至解決了最復雜的問題。然而,這些模型的尺寸非常大,有數百萬(甚至數十億)個參數,需要強大的計算能力,以至于無法部署在邊緣設備上。此外,性能提升高度依賴于大量的標記數據。為了實現更快的速度和處理由于缺乏標記數據而引起的問題,知識蒸餾(KD)被提出,知識蒸餾是將從一個模型學到的信息遷移到另一個模型。KD通常以所謂的“學生-教師”(S-T)學習框架為特征,被廣泛應用于模型壓縮和知識轉移。本文是關于KD和S-T學習的研究,這兩種學習方法是近年來研究比較活躍的。首先,我們旨在解釋KD是什么以及它如何/為什么起作用。然后,我們對KD方法和S-T框架在視覺任務中的最新進展進行了全面的調研。總的來說,我們調研了推動這一研究領域的一些基本問題,并全面概括了研究進展和技術細節。系統分析了KD在視覺應用中的研究現狀。最后,我們討論了現有方法的潛力和開放挑戰,并展望了KD和S-T學習的未來方向。
引言
深度神經網絡(DNNs)的成功與否,通常取決于DNN體系結構的精心設計。在大規模機器學習中,特別是在圖像和語音識別等任務中,大多數基于DNN的模型都被過度參數化,以提取最顯著的特征,確保泛化。這種笨重的模型通常深度和寬度都很大,訓練時需要相當多的計算量,很難實時操作。因此,為了獲得更快的速度,許多研究人員一直試圖利用訓練過的笨重模型來獲得輕量級的DNN模型,這些模型可以部署在邊緣設備上。也就是說,當這個笨重的模型經過訓練后,可以使用它學習一個更適合實時應用或部署[1]的小模型,如圖1(a)所示。
另一方面,DNNs的性能也嚴重依賴于非常大且高質量的標簽來訓練數據集。由于這個原因,許多人都在努力減少標記訓練數據的數量,同時又不太影響DNNs的性能。處理這樣缺乏數據的情況的一種流行方法是從一個源任務轉移知識,以促進對目標任務的學習。一個典型的例子是半監督學習,在這種學習中,一個模型只用一小組有標記的數據和一大組沒有標記的數據來訓練。由于未標記的樣本的監督代價未定義,應用一致性代價或正則化方法來匹配標記和未標記數據的預測是至關重要的。在這種情況下,知識在假定教師和學生[2]雙重角色的模型內轉移。對于未標記的數據,學生照常學習;然而,教師產生目標,然后學生使用這些目標進行學習。如圖1(b)所示,這種學習度量的共同目標是在沒有額外訓練的情況下,從學生身上形成一個更好的教師模型。另一個典型的例子是自監督學習(self-supervised learning),該模型是用輸入轉換(例如,旋轉、翻轉、顏色變化、裁剪)構建的人工標簽來訓練的。在這種情況下,來自輸入轉換的知識被轉移到監督模型本身,以提高其性能,如圖1?所示。
本論文是關于知識蒸餾(KD)和師生學習(S-T)的研究,這是近年來研究的熱點。一般來說,KD被廣泛認為是一種主要的機制,當只給予具有相同或不同類別[3]的小訓練集時,KD可以使人類快速學習新的復雜概念。在深度學習中,KD是一種有效的技術,被廣泛用于在進行建設性訓練的同時將信息從一個網絡轉移到另一個網絡。KD最初由[4]定義,由Hinton等人[1]推廣。KD被廣泛應用于兩個不同的領域:模型壓縮(見圖1(a))和知識轉移(見圖1(b)和?)。對于模型壓縮,一個較小的學生模型被訓練來模擬一個預先訓練過的更大的模型或模型集合。雖然基于目的定義了各種形式的知識,但KD的一個共同特征是通過它的S-T框架來表征的,其中提供知識的模型稱為教師,學習知識的模型稱為學生。
在本研究中,我們重點分析和分類現有的KD方法,并結合不同類型的S-T結構,用于模型壓縮和知識遷移。我們回顧和調研這一迅速發展的領域,并特別強調最近的進展。KD方法在視覺智能、語音識別、自然語言處理(natural language processing, NLP)等各個領域都有應用,但本文主要關注的是視覺領域的KD方法,因為大部分的演示都是在計算機視覺任務上進行的。利用視覺中的KD原型可以方便地解釋用于自然語言處理和語音識別的KD方法。由于目前研究最多的KD方法是用于模型壓縮,我們系統地討論了其技術細節、挑戰和潛力。同時,我們也關注了半監督學習、自我監督學習等知識轉移的KD方法,重點關注了以S-T學習作為學習度量方式的技術。
我們將探索推動這一研究領域發展的一些基本問題。具體來說,KD和S-T學習的理論原理是什么?是什么讓一種蒸餾方法比其他方法更好?使用多個老師比使用一個老師好嗎?更大的模型總是能造就更好的老師和更魯棒的學生嗎?只有在教師模型存在的情況下,學生才能學習知識嗎?學生能自學嗎?離線KD總是比在線學習好嗎?
在討論這些問題的同時,我們結合現有KD方法的潛力,并結合S-T框架展望KD方法的未來發展方向。我們特別強調最近開發的技術的重要性,如神經結構搜索(NAS),圖神經網絡(GNNs),和增強KD的門控機制。此外,我們也強調KD方法的潛力,以解決在特定的領域的挑戰性的問題,如軌道變化是在12個360°的視覺和基于事件的視覺。
本文的主要貢獻有三個方面:
(1)對KD和S-T學習方法進行了全面的概述,包括問題定義、理論分析、一系列具有深度學習的KD方法以及視覺應用。
(2) 對KD方法和S-T框架的最新進展進行了分層、結構化的系統綜述和分析,并對每個類別的潛力和挑戰提出了見解和總結。
(3) 討論問題和開放問題,確定新的趨勢和未來的方向,為該研究領域提供深刻的指導。
本文的組織結構如下。首先,在第二章我們解釋了為什么我們需要關注KD和S-T學習。
請解釋為什么我們需要在第二節中關注KD和S-T學習。第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從**基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD第三章對KD進行了理論分析。從第4節到第8節,我們對一些現有的方法進行了分類,從基于教師數量的KD、基于數據格式的KD、在線/離線KD、基于標簽的KD,到具有新穎學習指標的KD。在討論這些KD方法的技術細節的基礎上,我們也分析了它們的挑戰和潛力。在第9節中,根據分類法,我們將討論第1節中提出的問題的答案。第10節介紹了KD和S-T學習的未來潛力,并在第11節給出了結論。由于篇幅有限,關于KD方法相關的新學習指標和KD應用方法的詳細介紹在suppll材料的第8和9節中給出。這份手稿還包括分類法/比較表和一些插圖的數字,這是不包括在這里由于缺乏空間。
圖2展示了KD和S-T學習的分類圖。
摘要
Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關于這些Transformer器變種的系統和全面的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全面的Transformer綜述。我們首先簡單介紹了普通的Transformer,然后提出了一個x-former的新分類。接下來,我們將從三個方面介紹不同的x -former架構修改,預訓練和應用。最后,展望了未來的研究方向。
//www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0
引言
Transformer[136]是一種出色的深度學習模型,被廣泛應用于自然語言處理(NLP)、計算機視覺(CV)和語音處理等各個領域。Transformer最初是作為一種用于機器翻譯的序列到序列模型提出的[129]。后來的工作表明,基于Transformer的預訓練模型(PTMs)[100]可以在各種任務上實現最先進的性能。因此,Transformer已經成為NLP的首選架構,特別是對于PTMs。除了語言相關的應用,Transformer也被應用于CV[13, 33, 94],音頻處理[15,31,41],甚至其他學科,如化學[113]和生命科學[109]。
由于成功,各種各樣的Transformer 變種(即x -former)在過去幾年里被提出。這些X-formers從不同的角度改進了vanilla Transformer。
(1) 模型的效率。應用Transformer的一個關鍵挑戰是它在處理長序列時效率低下,這主要是由于自注意力模塊的計算和存儲復雜性。改進方法包括輕量級注意力(例如稀疏注意變體)和分治法(例如循環和分層機制)。
(2) 模型泛化。由于Transformer是一種靈活的體系結構,并且很少對輸入數據的結構偏差進行假設,因此很難對小規模數據進行訓練。改進方法包括引入結構偏差或正則化、對大規模無標記數據進行預處理等。
(3) 模型的適應。該工作旨在使Transformer適應特定的下游任務和應用程序。
在這個綜述中,我們的目的是提供一個Transformer及其變體的全面綜述。雖然我們可以根據上面提到的觀點來組織x-former,但許多現有的x前輩可能會解決一個或幾個問題。例如,稀疏注意變量不僅降低了計算復雜度,而且在輸入數據上引入了結構先驗,緩解了小數據集上的過擬合問題。因此,將現有的各種X-formers進行分類,并根據它們改進Transformer的方式提出新的分類方法會更有條理: 架構修改、預訓練和應用。考慮到本次綜述的受眾可能來自不同的領域,我們主要關注于一般的架構變體,而只是簡單地討論了預訓練和應用的具體變體。
到目前為止,基于普通Transformer的各種模型已經從三個角度被提出:架構修改的類型、預訓練的方法和應用。圖2給出了Transformer變種的分類說明。
盡管“x-formers”已經證明了他們在各種任務上的能力,但挑戰仍然存在。除了目前關注的問題(如效率和泛化),Transformer的進一步改進可能在以下幾個方向:
(1) 理論分析。Transformer的體系結構已被證明能夠支持具有足夠參數的大規模訓練數據集。許多工作表明,Transformer比CNN和RNN有更大的容量,因此有能力處理大量的訓練數據。當Transformer在足夠的數據上進行訓練時,它通常比CNN或RNN有更好的性能。一個直觀的解釋是,Transformer對數據結構沒有什么預先假設,因此比CNN和RNN更靈活。然而,理論原因尚不明確,我們需要對Transformer能力進行一些理論分析。
(2) 注意力機制之外的全局交互機制更加完善。Transformer的一個主要優點是使用注意力機制來建模輸入數據中節點之間的全局依賴關系。然而,許多研究表明,對大多數節點來說,完全注意力是不必要的。在某種程度上,不可區分地計算所有節點的注意力是低效的。因此,在有效地建模全局交互方面仍有很大的改進空間。一方面,自注意力模塊可以看作是一個具有動態連接權的全連接神經網絡,通過動態路由聚合非局部信息; 因此,其他動態路由機制是值得探索的替代方法。另一方面,全局交互也可以通過其他類型的神經網絡來建模,比如記憶增強模型。
(3) 多模態數據統一框架。在許多應用場景中,集成多模態數據對于提高任務性能是非常有用和必要的。此外,一般的人工智能還需要能夠捕獲跨不同模式的語義關系。由于Transformer在文本、圖像、視頻和音頻方面取得了巨大的成功,我們有機會建立一個統一的框架,更好地捕捉多模態數據之間的內在聯系。但是,在設計中對模式內和模式間的注意還有待改進。
摘要
深度半監督學習是一個快速發展的領域,具有一系列的實際應用。
本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。
我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。
在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。
//arxiv.org/pdf/2103.00550.pdf
引言
深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。
SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:
半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。
半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。
半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。
為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。
SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。
在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:
我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。
我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。
我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。
深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.
引言
隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。
實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。
元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。
在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。
Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。
元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。
自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。
概述:
隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。
傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。
監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。
生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。
主動學習試圖在具有盡可能少標注樣本的同時最大化模型的性能增益。深度學習(Deep learning, DL)需要大量標注數據,如果模型要學習如何提取高質量的特征,就需要大量的數據供應來優化大量的參數。近年來,由于互聯網技術的飛速發展,我們進入了一個以海量可用數據為特征的信息豐富性時代。因此,DL得到了研究者的極大關注,并得到了迅速的發展。但與DL相比,研究者對AL的興趣相對較低,這主要是因為在DL興起之前,傳統機器學習需要的標記樣本相對較少,這意味著早期的AL很少被賦予應有的價值。雖然DL在各個領域都取得了突破,但大部分的成功都要歸功于大量公開的帶標注的數據集。然而,獲取大量高質量的帶注釋數據集需要耗費大量人力,在需要較高專業知識水平的領域(如語音識別、信息提取、醫學圖像等)是不可行的,因此AL逐漸得到了它應該得到的重視。
因此,研究是否可以使用AL來降低數據標注的成本,同時保留DL強大的學習能力是很自然的。由于這些調研的結果,深度主動學習(DAL)出現了。雖然對這一課題的研究相當豐富,但至今還沒有對相關著作進行全面的調研; 因此,本文旨在填補這一空白。我們為現有的工作提供了一個正式的分類方法,以及一個全面和系統的概述。此外,我們還從應用的角度對DAL的發展進行了分析和總結。最后,我們討論了與DAL相關的問題,并提出了一些可能的發展方向。
概述:
深度學習(DL)和主動學習(AL)在機器學習領域都有重要的應用。由于其優良的特性,近年來引起了廣泛的研究興趣。更具體地說,DL在各種具有挑戰性的任務上取得了前所未有的突破;然而,這很大程度上是由于大量標簽數據集的發表[16,87]。因此,在一些需要豐富知識的專業領域,樣品標注成本高限制了DL的發展。相比之下,一種有效的AL算法在理論上可以實現標注效率的指數加速。這將極大地節省數據標注成本。然而,經典的AL算法也難以處理高維數據[160]。因此,DL和AL的結合被稱為DAL,有望取得更好的效果。DAL被廣泛應用于多個領域,包括圖像識別[35,47,53,68],文本分類[145,180,185],視覺答題[98],目標檢測[3,39,121]等。雖然已經發表了豐富的相關工作,DAL仍然缺乏一個統一的分類框架。為了填補這一空白,在本文中,我們將全面概述現有的DAL相關工作,以及一種正式的分類方法。下面我們將簡要回顧DL和AL在各自領域的發展現狀。隨后,在第二節中,進一步闡述了DL與AL結合的必要性和挑戰。
圖1所示。DL、AL和DAL的典型體系結構比較。(a)一種常見的DL模型:卷積神經網絡。(b) 基于池化的AL框架: 使用查詢策略查詢未標記的樣本池U和將其交給oracle進行標注,然后將查詢樣本添加到標記的訓練數據集L,然后使用新學到的知識查詢的下一輪。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。(c) DAL的一個典型例子:在標簽訓練集L0上初始化或預訓練DL模型的參數的常變量,利用未標記池U的樣本通過DL模型提取特征。然后根據相應的查詢策略選擇樣本,在查詢時對標簽進行查詢,形成新的標簽訓練集L,然后在L上訓練DL模型,同時更新U。重復此過程,直到標簽預算耗盡或達到預定義的終止條件。
DAL結合了DL和AL的共同優勢:它不僅繼承了DL處理高維圖像數據和自動提取特征的能力,也繼承了AL有效降低標注成本的潛力。因此,DAL具有令人著迷的潛力,特別是在標簽需要高水平的專業知識和難以獲得的領域。
當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。