又黄又爽又色的视频免费,丰满人妻被公侵犯高清版,无码精品日韩一区二区三区,少妇毛片久久久久久久

持續學習變得越來越重要，因為它使NLP模型能夠隨著時間的推移不斷地學習和獲取知識。以往的持續學習方法主要是為了保存之前任務的知識，并沒有很好地將模型推廣到新的任務中。在這項工作中，我們提出了一種基于信息分解的正則化方法用于文本分類的持續學習。我們提出的方法首先將文本隱藏空間分解為對所有任務都適用的表示形式和對每個單獨任務都適用的表示形式，并進一步對這些表示形式進行不同的規格化，以更好地約束一般化所需的知識。我們還介紹了兩個簡單的輔助任務:下一個句子預測和任務id預測，以學習更好的通用和特定表示空間。在大規模基準上進行的實驗證明了我們的方法在不同序列和長度的連續文本分類任務中的有效性。

付費5元查看完整內容

相關內容

文本分類

關注 0

文本分類（Text Classification）任務是根據給定文檔的內容或主題，自動分配預先定義的類別標簽。

持續學習 ·

2021 年 4 月 22 日

[付費5元查看完整內容]持續學習最新綜述論文，29頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工神經網絡在解決特定剛性任務的分類問題時，通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體，努力擴展這種知識而不針對最初的任務，從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡，而不需要從頭開始再訓練。我們關注任務增量分類，即任務按順序到達，并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集，我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響，以及任務呈現的順序，并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來，據報道，機器學習模型在個人任務上表現出甚至超過人類水平的表現，如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻，但它們是在靜態模型無法適應其行為的情況下獲得的。因此，這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中，這種做法對于數據流來說很快就變得難以處理，或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證，它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生，但對保存這些知識來說并不是必要的，而且盡管人類可能會逐漸忘記舊的信息，但完全丟失以前的知識很少被證明是[3]。相比之下，人工神經網絡則不能以這種方式學習:在學習新概念時，它們會遭遇對舊概念的災難性遺忘。為了規避這一問題，人工神經網絡的研究主要集中在靜態任務上，通常通過重組數據來確保i.i.d.條件，并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題，其目標是逐步擴展已獲得的知識，并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如，不同的成像條件)，也可以與不同的任務相關聯(例如，細粒度的分類問題)。持續學習也被稱為終身學習[18]0，[18]1，[18]2，[18]3，[18]5，[18]4，順序學習[10]，[11]，[12]或增量學習[13]，[14]，[15]，[16]，[17]，[18]，[19]。主要的標準是學習過程的順序性質，只有一小部分輸入數據來自一個或幾個任務，一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時，之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果，即穩定性-可塑性困境，可塑性指的是整合新知識的能力，以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題，不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力，我們用兩種方式限制了我們的研究范圍。首先，我們只考慮任務增量設置，其中數據按順序分批到達，一個批對應一個任務，例如要學習的一組新類別。換句話說，我們假設對于一個給定的任務，所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能，反復洗刷以確保i.i.d.的條件。重要的是，無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘，舊任務的性能將顯著下降，除非采取特殊措施。這些措施在不同情況下的有效性，正是本文所要探討的。此外，任務增量學習將范圍限制為一個多頭配置，每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾，增加了可供選擇的輸出節點的數量。相反，我們假設已知一個給定的樣本屬于哪個任務。

其次，我們只關注分類問題，因為分類可以說是人工神經網絡最既定的任務之一，使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述，第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

多語言機器翻譯 · 持續學習 ·

2021 年 3 月 14 日

[付費5元查看完整內容]【NAACL2021-Google】通過詞匯替換實現對多語言機器翻譯的持續學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們提出了一個簡單的詞匯適應方案來擴展多語言機器翻譯模型的語言能力，為多語言機器翻譯的高效持續學習鋪平了道路。該方法適用于大規模的數據集，適用于具有不可見腳本的遠程語言，僅對原語言對的翻譯性能有較小的降低，即使在僅對新語言擁有單語數據的情況下，也能提供具有很好的性能。

//www.zhuanzhi.ai/paper/e0b15338f98c37775bd0113ceaa1d9dd

付費5元查看完整內容

預訓練模型 · 弱監督學習 · 微調 ·

2020 年 12 月 26 日

[付費5元查看完整內容]最新《弱監督預訓練語言模型微調》報告，52頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

遷移學習從根本上改變了自然語言處理(NLP)的處理范式。許多最先進的模型首先在大型文本語料庫上進行預先訓練，然后在下游任務上進行微調。然而，當我們對下游任務的監督有限且薄弱時，由于預訓練模型的復雜度極高，過度微調往往會導致微調后的模型對下游任務的訓練數據進行過擬合，而不能泛化到看不到的數據。

為了解決這一問題，我們提出了一種新的方法來微調預先訓練的模型，以獲得更好的泛化性能。我們提出的方法采用了三個重要成分: (1)平滑誘導正則化，有效地管理了大量模型的復雜性; (2) Bregman近端點優化，它是信任域方法的一個實例，可以防止惡意更新;(3)自訓練，可以逐步改進模型擬合，有效抑制誤差傳播。我們的實驗表明，在有限或弱監督的情況下，該方法明顯優于現有的NLP任務。

付費5元查看完整內容

終身學習 · 災難遺忘 ·

2020 年 12 月 16 日

[付費5元查看完整內容]【AAAI2021】多領域多任務預演的終身學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

通過在終身學習中存儲舊知識來尋求提醒模型，是緩解災難性遺忘最有效的方法之一，即在轉向新任務時對先前知識的偏差遺忘。然而，在訓練新任務時，以往大多數基于預演的舊任務存在不可預測的域偏移問題。這是因為這些方法總是忽略兩個重要的因素。首先，新任務和舊任務之間的數據不平衡，使得舊任務的域容易移位。其次，所有任務之間的任務隔離會使領域向不可預測的方向移動;針對不可預測的領域遷移問題，本文提出多領域多任務排練，對新老任務進行并行、平等的訓練，打破任務之間的隔離狀態。具體地說，提出了一個兩級的角裕度損失模型，以促進類內/任務的緊湊性和類間/任務的差異，使模型避免領域混亂。此外，為了進一步解決舊任務的領域轉移問題，我們在記憶上提出了一個可選的情景蒸餾損失來錨定每個舊任務的知識。在基準數據集上的實驗驗證了該方法能夠有效地抑制不可預測的領域漂移。

//www.zhuanzhi.ai/paper/14cea5f6a54c9dafce7141871467aa0d

付費5元查看完整內容

持續學習 ·

2020 年 11 月 7 日

[付費5元查看完整內容]【Cell 2020】神經網絡中的持續學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代機器學習擅長于從固定的數據集和固定的環境中訓練出強大的模型，常常超過人類的能力。然而，這些模型未能模擬人類的學習過程，而人類的學習過程是有效的、穩健的，并且能夠從非平穩世界的連續經驗中逐步學習。對于這一局限性的見解可以從神經網絡優化的本質中獲得，這意味著持續學習技術可以從根本上提高深度學習，并打開了新的應用領域的大門。持續學習的有前途的方法可以在最細粒度的層次上找到，使用基于梯度的方法，也可以在體系結構層次上找到，使用模塊化和基于內存的方法。我們也認為元學習是一個潛在的重要方向。

人工智能研究在過去的幾個月中取得了巨大的進步，但它主要依賴于固定的數據集和固定的環境。持續學習是一個日益相關的研究領域，它表明人工系統可能像生物系統一樣，從連續不斷的相關數據流中有序地學習。在目前的回顧中，我們將持續學習與神經網絡的學習動力學聯系起來，強調它在穩步提高數據效率方面的潛力。我們進一步考慮了近年來出現的許多受生物學啟發的新方法，重點關注那些利用正規化、模塊化、記憶和元學習的方法，并強調了一些最有前途和最有影響的方向。

世界不是靜止不動的

人工智能成功的一個常見基準是模仿人類學習的能力。我們測量人類識別圖像、玩游戲和駕駛汽車的能力，舉幾個例子，然后開發機器學習模型，如果有足夠的訓練數據，它可以匹配或超過這些能力。這種范式把重點放在最終結果上，而不是學習過程上，并且忽略了人類學習的一個關鍵特征:它對不斷變化的任務和連續的經驗是魯棒的。人類以這種方式學習也許并不奇怪，畢竟，時間是不可逆的，世界是不穩定的(見詞匯表)，所以人類的學習已經進化到在動態學習環境中茁壯成長。然而，這種魯棒性與最強大的現代機器學習方法形成了鮮明的對比，后者只有在數據經過仔細的洗牌、平衡和均質后才能表現良好。這些模型不僅表現不佳，而且在某些情況下，它們會完全失敗，或者在早期學習的任務上遭遇快速的性能下降，即所謂的災難性遺忘。

基于生物系統持續學習基礎

對自然世界及其智能物種的研究經常與人工智能研究交叉，包括與持續學習有關的方面[1]。生物學為在復雜環境中成功地持續學習提供了存在證據，也暗示了成功方法的設計原則和權衡。有多種機制使生物系統能夠適應不斷變化的環境，而不固執或遺忘。因此，在本節中，我們將通過類比來介紹四種持續學習模式，并將每種方法的詳細討論留到后面的章節中。此外，可以通過描述它們的規范模型來簡要地描述這些方法，如圖1(關鍵圖)所示。

持續學習的定義

持續學習的問題通常是由順序訓練協議和解決方案所期望的特性來定義的。與靜態數據集或環境的普通機器學習設置相反，持續學習設置明確地關注非平穩或變化的環境，通常被劃分為需要按順序完成的一組任務。這種設置可能在任務轉換(平滑或離散)、任務長度和重復、任務類型(如無監督、監督或強化學習)方面有所不同，或者甚至可能沒有定義明確的任務[9-11]。與課程學習相比[12,13]，學習者不能控制任務的順序。

支持現代機器學習的獨立同分布假設

神經網絡大量利用現代技術來并行計算，同時考慮大量數據;事實上，這種易于伸縮的特性使得它們在過去的十年中成為了語音、視覺和語言應用程序的主流方法。在典型的學習設置中，目標是通過設置網絡的參數來最小化一些損失函數，例如真輸出和預測輸出之間的誤差。基于梯度的學習,最有效的和廣泛使用的范式,是一種迭代算法,在每一次迭代,使一個小變化的參數,以減少損失(更詳細的解釋,見盒2)。這條規則的機制在拔河的動態結果,其中每個數據樣本正試圖拉動每個參數更大或更小。通過平均梯度，我們因此創建了一個拔河游戲，其中應用于每個參數的更新(因為它是正的或負的)揭示了哪個數據樣本贏了或輸了。在許多優化步驟上組合許多拔河式更新，可以進行學習(圖3)。

基于梯度的解決方案

由前面描述的拔河式學習動態驅動，一種有前途的方法是直接調節不同任務的梯度。這不僅是優化問題的核心，而且是由生物大腦[3]中突觸鞏固的研究激發的。一種方法是迫使梯度與之前學習任務的梯度保持一致[19,20]，消除潛在干擾。這些方法在其他環境中也有好處，例如，在多任務學習中，它們有可能在目標沖突的情況下提高學習效率[21-23]。

模塊化架構

模塊化的神經網絡結構是一種自然有效的解決持續學習中的干擾和災難性遺忘問題的方法。模塊化提供了一個折衷方案，即使用一個容易遺忘的單一單片網絡，以及為每個任務使用獨立的網絡，這既可以防止災難性遺忘，也可以防止任務之間的轉移(參見圖1C的模塊化架構說明)。模塊化在生物系統中也很明顯，它支持大腦區域的功能專門化。

人工學習系統的記憶

基于梯度和模塊化的方法可能更適合短期的持續學習，而不是長期的記憶。基于梯度的方法不能防止任意長任務序列的遺忘，而模塊化方法可以在長時間尺度上保存知識，它們可能在神經網絡能力方面達到實際的極限。考慮一下這樣一個具有挑戰性的場景:在幾個月的時間里，把食物藏在1000個不同的地方，然后在更多的食物消失后，正確地找到每一個食物。這個特征是每個冬天都會出現的，比如夜鶯、松鴉和鴉類[57]。通過調整一個簡單的神經網絡的參數來保存存儲食物的順序經驗既具有挑戰性又效率低下。一個更可伸縮的策略是使用專用的讀寫內存對空間位置進行編碼。

元學習:發現持續學習的歸納偏差

到目前為止所討論的所有解決方案都規定了用于持續學習的手工設計的機制或架構，歸納偏差。每種歸納偏差都在需求(如良好的知識保留與基于記憶的方法中的正向遷移)之間達成了不同的權衡。值得考慮的是，從數據中學習解決方案，而不是依靠人類的獨創性來設計它，是否能夠實現更好的權衡。歷史上，許多元學習或學習-學習方法已經證明，解決方案可以通過自動學習歸納偏差(如架構、數據和學習參數)來改進，否則需要手工設計(圖1E) 。

結論和未來方向

機器學習研究人員經常指出，人類具有快速學習和概括(例如，從幾個例子中推斷出一個模式)的非凡能力。然而，我們并不經常重新評價人類在一生的教育和經歷中不斷學習的能力，盡管正是這種能力使人類在科學、藝術和工業上取得成就。這篇文章不僅試圖強調持續學習的重要性，而且還暴露了現代神經網絡在這方面的局限性，特別是導致效率低下、基于梯度的拔河的信用分配問題。

通過對這一空間的調查，我們發現了一種學習模式，如果擴展到更有雄心的領域，它就有可能發揮真正的影響力。毫不奇怪，這些范式都有很強的平行神經科學和生物系統。基于梯度的方法直接修改了神經網絡的操作時間，并被證明可以減少災難性遺忘。

模塊化架構為干擾和災難性遺忘提供了實用的解決方案，同時通過技能和知識的層次重組實現面向遷移。端到端記憶模型可以成為長時間學習的可擴展解決方案，元學習方法可以超越手工設計的算法和架構。有了這些潛在的積極影響，也必須認識到部署不斷變化的機器學習模型所涉及的風險，因為任何安全和預期行為的初始評估都不能輕易地永久保證。然而，通過提高學習算法的長期可靠性，以及通過開發確保某些規則或邊界不被違反的架構，持續學習解決方案可以降低這些風險。

付費5元查看完整內容

機器閱讀理解 · 域適應 · 持續學習 ·

2020 年 8 月 26 日

[付費5元查看完整內容]【CIKM2020】持續域自適應的機器閱讀理解，Continual Domain Adaptation

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器閱讀理解(MRC)已經成為各種自然語言處理(NLP)應用(如問題回答和對話系統)的核心組件。在非平穩環境下，底層數據分布會隨時間變化，MRC模型需要在這種環境下學習，這就成為了一個實際的挑戰。一個典型的場景是域漂移，即不同的數據域一個接一個的出現，MRC模型需要在保持原有學習能力的同時適應新的域。為了應對這一挑戰，在本研究中，我們引入了MRC的持續域適應(CDA)任務。據我們所知，這是第一個關于MRC持續學習視角的研究。我們為CDA任務建立了兩個基準數據集，分別根據上下文類型和問題類型將現有的MRC集合重新組織到不同的域中。然后我們分析和觀察了CDA設置下MRC的災難性遺忘現象。為了解決CDA任務，我們提出了幾個基于BERT的持續學習MRC模型，這些模型使用基于規則的方法論或動態架構范式。我們分析了不同的連續學習MRC模型在CDA任務下的性能，表明所提出的基于動態架構的模型取得了最好的性能。

//arxiv.org/abs/2008.10874

付費5元查看完整內容

ICML2020 · 拉普拉斯 · 小樣本學習 ·

2020 年 6 月 28 日

[付費5元查看完整內容]【ICML2020】拉普拉斯正則化小樣本學習，Laplacian Regularized Few-Shot Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Laplacian Regularized Few-Shot Learning

簡介：

我們為小樣本學習提出了一個拉普拉斯正則化推斷。給定從基類中學習到的任何特征嵌入，我們將包含兩個項的二次二進制賦值函數最小化：（1）將查詢樣本分配給最近的類原型的一元項，以及（2）鼓勵附近查詢樣本成對使用的成對拉普拉斯項具有一致的標簽。我們的推論不會重新訓練基本模型，并且可以將其視為查詢集的圖形聚類，但要受到支持集的監督約束。我們導出了函數松弛的計算有效邊界優化器，該函數在保證收斂的同時為每個查詢樣本計算獨立（并行）更新。在基礎類上進行簡單的交叉熵訓練，并且沒有復雜的元學習策略后，我們對五個基準進行了全面的實驗。我們的LaplacianShot在不同模型，設置和數據集上具有顯著優勢，始終優于最新方法。此外，我們的歸納推理非常快，其計算時間接近于歸納推理，可用于大規模的一次性任務。

付費5元查看完整內容