亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度生成建模是一類訓練深度神經網絡對訓練樣本分布進行建模的技術。

研究已經分成了各種相互關聯的方法,每一種方法都進行了權衡,包括運行時、多樣性和體系結構限制。

特別是,本綜述涵蓋了基于能量的模型、變分自編碼器、生成對抗網絡、自回歸模型、規格化流,以及許多混合方法。這些技術是在一個單一的內聚框架下繪制的,比較和對比來解釋每種技術背后的前提,同時回顧當前最先進的進展和實現。

引言

使用神經網絡的生成式建模起源于上世紀80年代,目的是在沒有監督的情況下學習數據,可能為標準分類任務提供好處。這是因為收集無監督學習的訓練數據自然要比收集標記數據花費更少的精力和成本,但仍然有大量可用的信息表明生成模型對于各種各樣的應用是至關重要的。

除此之外,生成模型有很多直接的應用;最近的一些工作包括圖像生成:超分辨率,文本到圖像和圖像到圖像轉換,修復,屬性操作,姿態估計; 視頻:合成與重定向;音頻:語音和音頻合成;文本:生成、翻譯;強化學習;計算機圖形學:快速渲染、紋理生成、人物運動、液體模擬;醫學:藥物合成、方式轉換;密度估計;數據增加;特征生成。

生成模型的核心思想是訓練一個生成模型,其樣本x ~ pθ(x )來自與訓練數據分布相同的分布,x ~ pd(x)。第一個神經生成模型,即基于能量的模型,通過在與似然成比例的數據點上定義能量函數來實現這一點,然而,這些模型難以縮放到復雜的高維數據,如自然圖像,并且在訓練和推理過程中都需要蒙特卡羅馬爾可夫鏈(MCMC)采樣,這是一個緩慢的迭代過程。近年來,人們對生成模型重新產生了興趣,總的來說,這是由于大型免費數據集的出現,以及通用深度學習架構和生成模型的進步,在視覺保真度和采樣速度方面開辟了新領域。在許多情況下,這是通過使用潛在變量z來實現的,這很容易從樣本和/或計算密度,而不是學習p(x, z);這就需要對未觀察到的潛在變量進行邊緣化,然而,一般來說,這很難做到。因此,生成模型通常會在執行時間、架構或優化代理功能方面進行權衡。選擇優化的對象對樣本質量有重要影響,直接優化可能性往往導致樣本質量顯著低于替代函數。

有許多綜述論文關注于特定的生成模型,如歸一化流[108],[157],生成對抗網絡[60],[219]和基于能量的模型[180],然而,這些自然地深入到各自方法的復雜性,而不是與其他方法進行比較;此外,有些人關注的是應用而不是理論。雖然最近有一個關于生成模型作為一個整體的綜述[155],但它深入研究了一些特定的實現,而不是檢查整個領域。

本綜述提供了生成建模趨勢的全面概述,引入新的讀者到該領域,通過在單一統計框架下的方法,比較和對比,以便解釋建模決策背后的每個各自的技術。從理論上講,為了讓讀者了解最新的研究成果,本文對新舊文獻進行了討論。特別地,本調查涵蓋了基于能量的模型(第2節)、典型的單一非歸一化密度模型、變分自編碼器(第3節)、基于潛在模型的后驗的變分近似、生成對抗網絡(第4節)、在最小-最大博弈中設置的兩個模型、自回歸模型(第5節)、將模型數據分解為條件概率的產品,以及歸一化流(第6節)、使用可逆轉換的精確似然模型。這種細分被定義為與研究中的典型劃分緊密匹配,然而,存在著許多模糊這些界限的混合方法,這些將在最相關的章節中討論,或者在合適的情況下兩者都討論。

為了簡單地了解不同架構之間的差異,我們提供了表1,通過容易比較的星級評級對比了各種不同的技術。具體來說,訓練速度是根據報告的總訓練時間來評估的,因此要考慮多種因素,包括架構、每一步的函數評估數量、優化的便捷性和所涉及的隨機性;樣本速度是基于網絡速度和所需評估的數量;參數效率是由訓練數據集所需的參數總數決定的,而功能更強大的模型通常會有更多的參數,在模型類型之間與質量的相關性不強;一星-一些結構/紋理被捕捉,二星-一個場景可識別但缺少全局結構/細節,三星-重要結構被捕捉但場景看起來“怪異”,四星-與真實圖像的差別是可識別的,五星-差別是完全不可察覺的

付費5元查看完整內容

相關內容

【導讀】本文檔包含加州大學伯克利分校機器學習Jonathan Shewchuk入門課程的課堂講稿。它涵蓋了許多分類和回歸的方法,以及聚類和降維的方法。簡潔明了,是非常合適的機器學習入門學習材料。

內容目錄包括: 介紹 線性分類器和感知器 感知器學習;最大邊緣分類器 軟邊緣支持向量機;特性 機器學習抽象和數值優化 決策理論;生成和判別模型 高斯判別分析,包括QDA和LDA 特征向量與各向異性多元正態分布 各向異性高斯,最大似然估計,QDA和LDA 回歸,包括最小二乘線性回歸和邏輯回歸 更多的回歸;牛頓法;ROC曲線 統計的理由;偏見方差分解 收縮:脊線回歸,子集選擇,套索 內核的訣竅 決策樹 更多的決策樹、集成學習和隨機森林 神經網絡 神經元;神經網絡的變化 更好的神經網絡訓練;卷積神經網絡 無監督學習與主成分分析 奇異值分解;聚類 光譜圖聚類 學習理論 多個特征向量;潛在的因素分析;最近的鄰居 更快的最近鄰居:Voronoi圖和k-d樹

付費5元查看完整內容

摘要

多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。

本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。

為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。

許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。

引言

人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。

在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。

MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。

在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。

付費5元查看完整內容

深度學習在實踐中的顯著成功,從理論的角度揭示了一些重大的驚喜。特別是,簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案,盡管在沒有任何明確的努力控制模型復雜性的情況下,這些方法提供了近乎完美的訓練數據,這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解,這些方法隱含地施加正則化,過度參數化導致良性過擬合,也就是說,盡管過擬合訓練數據,但仍能準確預測。在這篇文章中,我們調查了統計學習理論的最新進展,它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子,在這些例子中,梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法,關注二次損失的回歸問題。對于這些方法,我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件,但在良好的設置下,不會損害預測精度。我們特別關注神經網絡的線性區域,其中網絡可以用一個線性模型來近似。在這種情況下,我們證明了梯度流的成功,并考慮了雙層網絡的良性過擬合,給出了精確的漸近分析,精確地證明了過參數化的影響。最后,我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。

//www.zhuanzhi.ai/paper/324cdbb68665c1675a05bc147210d8c8

付費5元查看完整內容

經典的機器學習隱含地假設訓練數據的標簽是從一個干凈的分布中采樣的,這對于真實的場景來說限制太大了。然而,基于統計學習的方法可能不能很好地訓練深度學習模型。因此,迫切需要設計標簽噪聲表示學習(LNRL)方法對帶噪聲標簽的深度模型進行魯棒訓練。為了充分了解LNRL,我們進行了綜述。我們首先從機器學習的角度闡明LNRL的形式化定義。然后,通過學習理論和實證研究的視角,找出了噪聲標簽影響深度模型性能的原因。在此基礎上,我們將不同的LNRL方法分為三個方向。在這個統一的分類法下,我們將全面討論不同類別的優缺點。更重要的是,我們總結了魯棒的LNRL的基本組件,它們可以激勵新的方向。最后,我們提出了LNRL可能的研究方向,如新數據集、實例依賴的LNRL和對抗性LNRL。最后,我們展望了LNRL之外的潛在方向,比如使用特征噪聲、偏好噪聲、領域噪聲、相似性噪聲、圖形噪聲和演示噪聲進行學習。

//arxiv.org/abs/2011.04406

標簽噪聲表示學習在學術界和工業界都非常重要。背后有兩個原因。首先,從學習范式的本質來看,深度監督學習需要大量的有良好標簽的數據,這可能需要太多的成本,尤其是對于許多初創企業來說。然而,深度無監督學習(甚至是自我監督學習)還不夠成熟,無法在復雜的現實場景中很好地發揮作用。因此,作為深度弱監督學習,標簽噪聲表示學習自然受到了廣泛的關注并成為研究的熱點。其次,從數據方面來看,許多真實的場景缺乏純粹干凈的注釋,比如金融數據、web數據和生物醫學數據。這直接激發了研究人員探索標簽噪聲表示學習。

據我們所知,確實有三篇關于標簽噪聲的綜述的工作。Frenay和Verleysen[8]專注于討論標簽噪聲統計學習,而不是標簽噪聲表示學習。盡管Algan等人[9]和Karimi等人[10]。它們都專注于帶噪聲標簽的深度學習,都只考慮圖像(或醫學圖像)的分類任務。此外,他們的調查是從應用的角度寫的,而不是討論方法。為了彌補這些缺陷,我們希望對標簽噪聲表示學習領域做出如下貢獻。

  • 從機器學習的角度,我們給出了標簽噪聲表示學習(LNRL)的正式定義。這個定義不僅足夠通用,可以包含所有現有的LNRL,而且也足夠具體,可以闡明LNRL的目標是什么以及我們如何解決它。

  • 與[9]、[10]相比,通過學習理論的視角,我們更深入地理解了為什么噪聲標簽會影響深度模型的性能。同時,我們報告了在噪聲標簽下的深度模型的泛化,這與我們的理論發現是一致的。

  • 我們進行了大量的文獻綜述,從表示學習開始,并在一個統一的分類,在數據,目標和優化。分析了不同類別的利弊。我們還對每個類別的見解進行了總結。

  • 基于上述觀察,我們總結和討論了魯棒標簽噪聲表示學習的基本組成部分。這些可以幫助啟發標簽噪聲表示學習的新方向。

  • 除了標簽噪聲表示學習,我們提出了幾個有前途的未來方向,如學習噪聲特征、偏好、領域、相似性、圖和演示。我們希望他們能提供一些見解。

付費5元查看完整內容

自監督學習由于能夠避免標注大規模數據集的成本而受到歡迎。它能夠采用自定義的偽標簽作為監督,并將學習到的表示用于幾個下游任務。具體來說,對比學習最近已成為計算機視覺、自然語言處理(NLP)等領域的自主監督學習方法的主要組成部分。它的目的是將同一個樣本的增廣版本嵌入到一起,同時試圖將不同樣本中的嵌入推開。這篇論文提供了一個廣泛的自我監督的方法綜述,遵循對比的方法。本研究解釋了在對比學習設置中常用的借口任務,以及到目前為止提出的不同架構。接下來,我們將對圖像分類、目標檢測和動作識別等多個下游任務的不同方法進行性能比較。最后,我們總結了目前方法的局限性和需要進一步的技術和未來方向取得實質性進展。

//arxiv.org/abs/2011.00362

概述:

隨著深度學習技術的發展,它已成為目前大多數智能系統的核心組件之一。深度神經網絡(DNNs)能夠從現有的大量數據中學習豐富的模式,這使得它在大多數計算機視覺(CV)任務(如圖像分類、目標檢測、圖像分割、動作識別)以及自然語言處理(NLP)任務(如句子分類、語言模型、機器翻譯等)中成為一種引人注目的方法。然而,由于手工標注數百萬個數據樣本的工作量很大,從標記數據中學習特征的監督方法已經幾乎達到了飽和。這是因為大多數現代計算機視覺系統(受監督的)都試圖通過查找大型數據集中數據點及其各自注釋之間的模式來學習某種形式的圖像表示。像GRAD-CAM[1]這樣的工作提出了一種技術,可以為模型所做的決策提供可視化的解釋,從而使決策更加透明和可解釋。

傳統的監督學習方法很大程度上依賴于可用的帶注釋的訓練數據的數量。盡管有大量的可用數據,但缺乏注解促使研究人員尋找替代方法來利用它們。這就是自監督方法在推動深度學習的進程中發揮重要作用的地方,它不需要昂貴的標注,也不需要學習數據本身提供監督的特征表示。

監督學習不僅依賴昂貴的注釋,而且還會遇到泛化錯誤、虛假的相關性和對抗攻擊[2]等問題。最近,自監督學習方法集成了生成和對比方法,這些方法能夠利用未標記的數據來學習潛在的表示。一種流行的方法是提出各種各樣的代理任務,利用偽標簽來幫助學習特征。諸如圖像inpainting、灰度圖像著色、拼圖游戲、超分辨率、視頻幀預測、視聽對應等任務已被證明是學習良好表示的有效方法。

生成式模型在2014年引入生成對抗網絡(GANs)[3]后得到普及。這項工作后來成為許多成功架構的基礎,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。這些方法激發了更多的研究人員轉向使用無標簽數據在自監督的設置下訓練深度學習模型。盡管取得了成功,研究人員開始意識到基于GAN的方法的一些并發癥。它們很難訓練,主要有兩個原因: (a)不收斂——模型參數發散很多,很少收斂; (b)鑒別器太過成功,導致生成網絡無法產生類似真實的假信號,導致學習無法繼續。此外,生成器和判別器之間需要適當的同步,以防止判別器收斂和生成器發散。

付費5元查看完整內容

文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。雖然最常見的文本排序是搜索,但是在許多自然語言處理應用程序中也可以找到該任務的實例。本書提供了一個關于文本排序與被稱為transformer的神經網絡結構的概述,其中BERT是最著名的例子。毫不夸張地說,transformer和自我監督預訓練的結合已經徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排序的上下文中,這些模型跨許多領域、任務和設置產生高質量的結果。

在這本書中,我們為希望更好地理解如何將transformer應用到文本排序問題的從業者和希望從事這一領域工作的研究人員提供了現有工作的綜合。我們涵蓋了廣泛的現代技術,分為兩個高級類別:transformer模型,在多階段排序架構中執行重新排序,以及學習了試圖直接執行排序的密集表示。有許多屬于第一類的例子,包括基于相關性分類、從文本的多個部分收集證據、語料庫分析和序列到序列模型的方法。雖然第二類方法還沒有得到很好的研究,但使用transformer的表示學習是一個新興的、令人興奮的方向,必將吸引更多的關注。在我們的書中有兩個主題:處理長文檔的技術(超出了NLP中使用的典型逐句處理方法)和處理效率(結果質量)和效率(查詢延遲)之間權衡的技術。

盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經得到了相對較好的理解,并代表了成熟的技術。然而,還有許多有待解決的研究問題,因此,除了為預先訓練的transformer文本排序奠定基礎外,本書還試圖預測該領域的發展方向。

引言

文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。最常見的文本排序是搜索,搜索引擎(也稱為檢索系統)根據用戶查詢的估計相關性生成一個文本排序列表(網頁、科學論文、新聞文章、tweet等)。在這種情況下,相關文本是那些“關于”用戶請求的主題并滿足用戶信息需求的文本。信息檢索(IR)的研究人員稱之為臨時檢索問題。

使用關鍵字搜索,也稱為關鍵字查詢(例如,在web上),用戶通常在搜索框(例如,在瀏覽器中)中鍵入一些查詢詞,然后返回包含排序文本表示的結果。這些結果被稱為排名列表,點擊列表,點擊量,排序文本的表示通常包括標題、相關元數據、文本本身的摘要(例如,突出顯示用戶查詢詞的keyword -context摘要),以及到原始數據源的鏈接。雖然有很多關于文本排序問題的例子(參見1.1節),但是這種特殊的場景是普遍存在的,而且無疑是所有讀者都熟悉的。

該綜述提供了一種稱為Transformer的神經網絡結構的文本排序的概述,其中最著名的例子是谷歌的發明,即BERT(來自Transformers的雙向編碼器表示)[Devlin et al., 2019]。毫無夸張地說,BERT已經徹底改變了自然語言處理(NLP)和信息檢索(IR)以及更廣泛的人類語言技術(HLT)等領域,這是一個包羅萬象的術語,包括處理、分析和使用(人類)語言數據的技術。在文本排序方面,BERT提供的結果在質量上無疑比之前的結果更好。

付費5元查看完整內容

近年來,深度學習徹底改變了機器學習和計算機視覺。許多經典的計算機視覺任務(例如目標檢測和語義分割),傳統上非常具有挑戰性,現在可以使用監督深度學習技術來解決。雖然監督學習是一個強大的工具,當標簽數據是可用的,并考慮的任務有明確的輸出,這些條件并不總是滿足。在這種情況下,生成建模給出了一個很有前途的方法。與純粹的判別型模型相比,生成型模型可以處理不確定性,甚至在沒有標簽訓練數據的情況下也可以學習強大的模型。然而, 雖然目前的方法生成建模取得可喜的成果, 他們遭受兩個方面,限制他們的表現力: (i) 為圖像數據建模的一些最成功的方法不再使用優化算法來訓練,而是使用其動力學尚未被很好理解的算法,(ii) 生成模型往往受到輸出表示的內存需求的限制。我們在本文中解決了這兩個問題:在第一部分中,我們介紹了一個理論,它使我們能夠更好地理解生成式對抗網絡(GANs)的訓練動力學,這是生成式建模最有前途的方法之一。我們通過引入可解析理解的GAN訓練的最小示例問題來解決這個問題。隨后,我們逐漸增加了這些示例的復雜性。通過這樣做,我們對GANs的訓練動力學有了新的認識,并推出了新的正則化器,也適用于一般的GANs。新的正則化器使我們能夠——第一次——以百萬像素的分辨率訓練GAN,而不必逐漸增加訓練分布的分辨率。在本論文的第二部分,我們考慮生成模型的三維輸出表示和三維重建技術。通過將隱式表示法引入深度學習,我們能夠在不犧牲表現力的情況下將許多2D領域的技術擴展到3D領域。

//publikationen.uni-tuebingen.de/xmlui/handle/10900/106074

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容
北京阿比特科技有限公司