亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是,基于提示的學習是基于直接對文本概率建模的語言模型,監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務,使用模板將原始輸入x修改為文本字符串提示符x ',其中有一些未填充的槽,然后使用語言模型按概率填充未填充的信息,得到最終字符串x?,從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練,通過定義一個新的提示函數,模型能夠執行少量甚至零次學習,在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容,描述了一套統一的數學符號,可以涵蓋各種各樣的現有工作,并從幾個維度組織現有的工作,例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域,我們不僅對現有的工作進行了系統的回顧,并對基于提示的概念進行了高度結構化的類型化,而且還發布了其他資源。

地址: //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習,即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型,長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al., 2007),自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的,早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011)),其中,NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征,并提供具有適當歸納偏差的模型,以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現,顯著特征的學習與模型本身的訓練結合在一起(Collobert et al., 2011;Bengio et al., 2013),因此重點轉向了架構工程,其中的歸納偏差更傾向于通過設計一個合適的網絡架構,有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而,從2017-2019年開始,NLP模型的學習發生了翻天覆地的變化,這種完全監督的范式現在正在發揮越來越小的作用。具體來說,標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中,一個具有固定架構的模型被預先訓練為語言模型(LM),預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富,這些LMs可以在大型數據集中進行訓練,在此過程中學習它所建模的語言的魯棒通用特性。然后,通過引入額外的參數,并使用特定任務的目標函數對它們進行微調,將上述預先訓練的LM適應于不同的下游任務。在這個范例中,重點主要轉向了目標工程,設計在訓練前和微調階段使用的訓練目標。例如,Zhang等人(2020a)表明,引入一個預測文檔中顯著句子的損失函數,將導致更好的文本摘要預訓練模型。值得注意的是,預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調,使其更適合解決下游任務。

現在,在2021年寫這篇文章的時候,我們正處于第二次巨變之中,“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式,不是通過目標工程將預先訓練好的LMs應用到下游任務,而是將下游任務重新制定,使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如,當識別社交媒體帖子的情緒時,“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”,然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”),LM可以用法語翻譯來填空。這樣,通過選擇適當的提示,我們可以操縱模型行為,使預先訓練的LM本身可以用來預測期望的輸出,有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是,給定一套適當的提示,在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣,這里有一個陷阱——這種方法引入了快速工程的必要性,找到最合適的提示,讓LM能夠解決手頭的任務。

付費5元查看完整內容

相關內容

在搭建網絡模型時,需要隨機初始化參數,然后開始訓練網絡,不斷調整直到網絡的損失越來越小。在訓練的過程中,一開始初始化的參數會不斷變化。當參數訓練到比較好的時候就可以將訓練模型的參數保存下來,以便訓練好的模型可以在下次執行類似任務時獲得較好的結果。

在深度學習時代,大多數NLP任務的建模已經趨同于幾種主流范式。例如,我們通常采用序列標注范式來解決POS-tagging、NER、Chunking等大量任務,而采用分類范式來解決情感分析等任務。隨著預訓練語言模型的快速發展,近年來出現了范式轉移的趨勢,即通過將一個自然語言處理任務轉換為另一個自然語言處理任務。范式遷移已經在許多任務中取得了巨大的成功,成為一種很有前景的改進模型性能的方法。此外,其中一些范例顯示出了統一大量NLP任務的巨大潛力,使構建一個單一模型來處理不同的任務成為可能。在本文中,我們回顧了近年來的范式轉移現象,重點介紹了幾種有潛力解決不同NLP任務的范式。

//www.zhuanzhi.ai/paper/40d5d6afe38831202ecb0ad7f0d8cf42

引言

范式是為一類任務建模的一般框架。例如,序列標記是命名實體識別的主流范式。不同的范式通常需要不同的輸入和輸出,因此高度依賴于任務的注釋。在過去的幾年里,大多數NLP任務的建模已經趨同于幾個主流范式,如本文所總結的,Class, Matching, SeqLab, MRC, Seq2Seq, Seq2ASeq和(M)LM。

盡管許多任務的范式在很長一段時間內已經趨同并占主導地位,但最近的研究表明,某些范式下的模型也能很好地概括其他范式下的任務。例如,MRC范式和Seq2Seq范式也可以在NER任務上實現最先進的性能(Li et al., 2020;Yan et al., 2021b),它們之前在序列標記(SeqLab)范式中被形式化。這類方法通常首先將數據集的形式轉換為新范式所需的形式,然后使用新范式下的模型來解決任務。近年來,將一個自然語言處理任務轉換為另一個自然語言處理任務的類似方法取得了巨大的成功,并日益受到社會的關注。在預訓練語言模型(PTMs)出現之后(Devlin et al., 2019; Raffel et al., 2020; Brown et al., 2020; Qiu et al., 2020),范式轉移已經在越來越多的任務中被觀察到。結合這些PTMs的力量,一些范例顯示出了統一不同NLP任務的巨大潛力。這些潛在的統一范式之一,(M)LM(也稱為基于提示的調優),最近取得了快速的進展,使用單個PTM作為各種理解和生成任務的通用求解器成為可能(Schick and Schutze ¨ , 2021a,b; Gao et al., 2021; Shin et al., 2020; Li and Liang, 2021; Liu et al., 2021b; Lester et al., 2021)。

盡管它們取得了成功,但這些分散在各種NLP任務中的范式轉移尚未得到系統的回顧和分析。本文綜述了范式轉移研究的最新進展和發展趨勢。本文組織如下。在第2節中,我們給出了這7個范式的形式化定義,并介紹了它們的代表性任務和實例模型。在第3節中,我們展示了最近發生在不同NLP任務中的范式轉變。在第4節中,我們討論了幾個突出的范式的設計和挑戰,這些范式具有統一大多數現有NLP任務的巨大潛力。在第5節中,我們簡要討論了最近的趨勢和未來的方向。

付費5元查看完整內容

受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。

//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03

Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。

在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。

視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。

本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

深度學習技術的發展使得神經機器翻譯(NMT)模型在充分的訓練數據和訓練時間下變得極為強大。

然而,系統在翻譯具有獨特風格或詞匯的新領域的文本時會遇到困難。對具有代表性的訓練語料庫進行調優可以實現良好的域內翻譯,但這種以數據為中心的方法可能會導致對新數據的過度擬合和對之前學習過的行為的“災難性遺忘”。

我們將重點放在更為魯棒的領域適應方法上,特別是在一個系統可能需要翻譯多個領域的句子的情況下。我們將技術分為數據選擇技術、模型結構技術、參數自適應技術和推理技術。

最后,我們強調了領域適應和多領域適應技術對其他學科的研究的好處。

//www.zhuanzhi.ai/paper/ded38c3d1df3a669bbf8d9c9bad96a5c

付費5元查看完整內容

文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。

本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。

在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。

盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。

//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e

付費5元查看完整內容

當前自然語言處理的發展為低資源語言和領域提供了挑戰和機遇。眾所周知,深度神經網絡需要大量的訓練數據,而這些數據在資源貧乏的情況下可能無法得到。然而,也有越來越多的工作來提高低資源環境下的性能。基于對神經模型的基本改變和目前流行的預訓練和微調范式,我們概述了低資源自然語言處理的有前途的方法。在討論了低資源場景的定義和數據可用性的不同維度之后,我們接著研究了在訓練數據稀少時支持學習的方法。這包括創建附加標簽數據的機制,如數據增強和遠程監督,以及轉移學習設置,以減少對目標監督的需要。調查結束時,簡要地看了一下在非NLP機器學習社區中建議的方法,這些方法在資源少的情況下可能對NLP有益。

//arxiv.org/abs/2010.12309

付費5元查看完整內容

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述:

隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。

在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。

付費5元查看完整內容

小樣本自然語言處理(NLP)是指NLP任務只具有少量標注的樣例。這是人工智能系統必須學會處理的現實挑戰。通常我們依賴于收集更多的輔助信息或開發一個更有效的學習算法。然而,在高容量模型中,一般基于梯度的優化,如果從頭開始訓練,需要對大量帶標記的樣例進行很多參數更新步驟,才能表現良好(Snell et al., 2017)。

如果目標任務本身不能提供更多的信息,如何收集更多帶有豐富標注的任務來幫助模型學習?元學習的目標是訓練一個模型在各種任務上使用豐富的標注,這樣它就可以用少量標記的樣本解決一個新的任務。關鍵思想是訓練模型的初始參數,這樣當參數通過零階或幾個梯度步驟更新后,模型在新任務上有最大的性能。

已經有一些關于元學習的綜述,例如(Vilalta和Drissi, 2002;Vanschoren, 2018;Hospedales等,2020)。然而,本文的研究主要集中在NLP領域,尤其是小樣本的應用。本文試圖對元學習應用于較少次數的神經語言處理提供更清晰的定義、進展總結和一些常用的數據集。

//arxiv.org/abs/2007.09604

付費5元查看完整內容
北京阿比特科技有限公司