亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。

本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。

為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。

許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。

引言

人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。

在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。

MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。

在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。

付費5元查看完整內容

相關內容

多任務學習(MTL)是機器學習的一個子領域,可以同時解決多個學習任務,同時利用各個任務之間的共性和差異。與單獨訓練模型相比,這可以提高特定任務模型的學習效率和預測準確性。多任務學習是歸納傳遞的一種方法,它通過將相關任務的訓練信號中包含的域信息用作歸納偏差來提高泛化能力。通過使用共享表示形式并行學習任務來實現,每個任務所學的知識可以幫助更好地學習其它任務。

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

摘要

深度半監督學習是一個快速發展的領域,具有一系列的實際應用。

本文從模型設計和無監督損失函數的角度對深度半監督學習方法的基本原理和最新進展進行了全面的綜述。

我們首先提出了一種深度半監督學習分類法,該分類法對現有方法進行分類,包括深度生成方法、一致性正則化方法、基于圖的方法、偽標記方法和混合方法。然后,我們根據損失類型、貢獻和架構差異對這些方法進行了詳細的比較。

在總結近年來研究進展的基礎上,進一步探討了現有方法的不足之處,并提出了一些探索性的解決方案。

//arxiv.org/pdf/2103.00550.pdf

引言

深度學習一直是一個活躍的研究領域,在模式識別[1]、[2]、數據挖掘[3]、統計學習[4]、計算機視覺[5]、[6]、自然語言處理[7]、[8]等領域有著豐富的應用。它利用了大量高質量的標記數據,在[9]、[10]的理論和實踐中都取得了巨大的成功,特別是在監督學習場景中。然而,標簽樣品通常是困難的,昂貴的,或耗時獲得。標記過程通常需要專家的努力,這是訓練一個優秀的全監督深度神經網絡的主要限制之一。例如,在醫療任務中,測量是用昂貴的機器進行的,標簽是由多個人類專家耗時分析得出的。如果只有少數標記的樣本可用,建立一個成功的學習系統是具有挑戰性的。相比之下,未標記的數據通常是豐富的,可以很容易地或廉價地獲得。因此,它是可取的利用大量的未標記的數據,以改善學習性能給定的少量標記樣本。因此,半監督學習(semi-supervised learning, SSL)一直是近十年來機器學習領域的研究熱點。

SSL是一種學習范式,它與構建使用標記數據和未標記數據的模型有關。與只使用標記數據的監督學習算法相比,SSL方法可以通過使用額外的未標記實例來提高學習性能。通過對監督學習算法和非監督學習算法的擴展,可以很容易地獲得SSL算法。SSL算法提供了一種從未標記的示例中探索潛在模式的方法,減輕了對大量標記[13]的需求。根據系統的關鍵目標函數,可以有半監督分類、半監督聚類或半監督回歸。我們提供的定義如下:

  • 半監督分類。給定一個包含有標記的實例和無標記的實例的訓練數據集,半監督分類的目標是同時從有標記的和無標記的數據訓練分類器,這樣它比只在有標記的數據上訓練的有監督分類器更好。

  • 半監督聚類。假設訓練數據集由未標記的實例和一些關于聚類的監督信息組成,半監督聚類的目標是獲得比單獨從無標記數據聚類更好的聚類。半監督聚類也稱為約束聚類。

  • 半監督回歸。給定一個包含有標記的實例和沒有標記的實例的訓練數據集,半監督回歸的目標是從一個單獨帶有標記數據的回歸算法改進回歸算法的性能,該回歸算法預測一個實值輸出,而不是一個類標簽。

為了更清楚、更具體地解釋SSL,我們重點研究了圖像分類問題。本調查中描述的思想可以毫無困難地適應其他情況,如對象檢測,語義分割,聚類,或回歸。因此,在本研究中,我們主要回顧了利用未標記數據進行圖像分類的方法。

SSL方法有很多種,包括生成模型[14],[15],半監督支持向量機[16],[17],基于圖的方法[18],[19],[20],[21]和聯合訓練[22]。我們向感興趣的讀者推薦[12]、[23],它們提供了傳統SSL方法的全面概述。目前,深度神經網絡已經在許多研究領域占據主導地位。重要的是要采用經典的SSL框架,并為深度學習設置開發新的SSL方法,這將導致深度半監督學習(DSSL)。DSSL研究了如何通過深度神經網絡有效地利用標記數據和未標記數據。已經提出了相當多的DSSL方法。根據半監督損失函數和模型設計最顯著的特征,我們將DSSL分為五類,即生成法、一致性正則化法、基于圖的方法、偽標記方法和混合方法。本文獻使用的總體分類法如圖1所示。

在[12],[23]中有很多具有代表性的作品,但是一些新興的技術并沒有被納入其中,尤其是在深度學習取得巨大成功之后。例如,深度半監督方法提出了新的技術,如使用對抗訓練生成新的訓練數據。另外,[13]側重于統一SSL的評價指標,[24]只回顧了SSL的一部分,沒有對SSL進行全面的概述。最近,Ouali等人的綜述[25]給出了與我們類似的DSSL概念。然而,它不能與現有的方法相比,基于它們的分類,并提供了未來的趨勢和存在的問題的觀點。在前人研究的基礎上,結合最新的研究,我們將對基礎理論進行綜述,并對深度半監督方法進行比較。總結一下,我們的貢獻如下:

我們對DSSL方法進行了詳細的回顧,并介紹了主要DSSL方法的分類、背景知識和變體模型。人們可以很快地掌握DSSL的前沿思想。

我們將DSSL方法分為生成方法、一致性正則化方法、基于圖形的方法、偽標記方法和混合方法,每一種方法都有特定的類型。我們回顧了每一類的變體,并給出了標準化的描述和統一的示意圖。

我們確定了該領域的幾個開放問題,并討論了DSSL的未來方向。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容

隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容

當對大量的標記數據集合(如ImageNet)進行訓練時,深度神經網絡展示了它們在特殊監督學習任務(如圖像分類)上的卓越表現。然而,創建這樣的大型數據集需要大量的資源、時間和精力。這些資源在很多實際案例中可能無法獲得,限制了許多深度學習方法的采用和應用。為了尋找數據效率更高的深度學習方法,以克服對大型標注數據集的需求,近年來,我們對半監督學習應用于深度神經網絡的研究興趣日益濃厚,通過開發新的方法和采用現有的半監督學習框架進行深度學習設置。在本文中,我們從介紹半監督學習開始,對深度半監督學習進行了全面的概述。然后總結了在深度學習中占主導地位的半監督方法。

付費5元查看完整內容
北京阿比特科技有限公司