久久香蕉国产线看观看亚洲卡,99视频在线播放喷射,国产欧美日韩精品A在线播放,亚洲AV无码AV在线播放野外,久久精品一区二区三区不卡

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中，我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述，并對其應用前景進行了總結。此外，我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

預訓練語言模型 · 知識增強預訓練模型 ·

2021 年 10 月 19 日

[付費5元查看完整內容]知識增強預訓練語言模型:全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示，建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域，并為各種NLP任務設置了新的最先進的性能。然而，盡管PLM可以從訓練語料庫中存儲一定的知識/事實，但它們的知識意識還遠遠不能令人滿意。為了解決這個問題，將知識集成到PLM中已經成為一個非常活躍的研究領域，并且已經開發了各種各樣的方法。在本文中，我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外，我們還調研了各種NLU和NLG應用，在這些應用上，KE-PLM表現出了優于普通PLM的性能。最后，討論了KE-PLMs面臨的挑戰和未來的研究方向。

引言

近年來，大規模預訓練語言模型(大規模預訓練語言模型，簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16]， RoBERTa [50]， GPT2/3[68][7]和T5[69]獲得了巨大的成功，極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用，如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明，這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而，進一步的研究發現，PLM在知識意識方面也存在以下局限性:

對于NLU來說，最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58]，并且很容易被否定的信息(例如，“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外，已有研究發現，PLM在推理任務中往往會失敗[84]。

對于NLG，盡管PLM能夠生成語法正確的句子，但生成的文本可能不符合邏輯或不合理。例如，在[46]中提到，給定一組概念{dog, frisbee, catch, throw}， GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”，這兩者都不符合人類的常識。

這些觀察結果促使人們設計更有知識意識的預訓練模型。最近，越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源，采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識，提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。

本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術，用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究，我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中，已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用)，以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中，我們認識到一個知識源可以被不同程度地利用，并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后，我們介紹了第三種分類法，它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了，我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。

付費5元查看完整內容

預訓練語言模型 · 文本生成 ·

2021 年 10 月 15 日

[付費5元查看完整內容]基于預訓練語言模型的文本生成研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

導讀：本文將參考上述綜述論文，從預訓練語言模型應用于文本生成任務的三個挑戰出發：

如何對輸入數據進行編碼并保持語義，使其與預訓練語言模型進行融合；如何設計通用且合適的預訓練語言模型架構，使其作為生成函數；如何優化生成函數，并保證生成文本滿足特殊屬性。并詳細列舉目前每個挑戰下的研究進展。

文本生成是目前自然語言處理領域一項非常重要但具有挑戰性的任務，它的目的是希望生成可讀的自然語言文本，比較有代表性的應用，例如對話系統、文本摘要和機器翻譯等。

目前，深度神經模型在文本生成研究中已取得重大進展，其優勢在于深度神經網絡可以端到端地學習輸入數據到輸出文本的語義映射，而不需要人工參與進行特征工程。但是，深度神經模型往往具有大量的參數，而大部分文本生成任務數據集都非常小，因此深度神經網絡非常容易在這些數據集上過擬合，導致其無法在實際應用中進行泛化。

隨著預訓練語言模型（Pretrained Language Models, PLMs）范式的蓬勃發展，越來越多的研究將其運用到各種自然語言處理任務中以取得SOTA效果，例如BERT解決語言理解和GPT解決語言生成。通過在大規模語料集上進行預訓練，預訓練語言模型可以準確地理解自然語言并以自然語言的形式流暢表達，這兩項都是完成文本生成任務的重要能力。

付費5元查看完整內容

自然語言處理 · 遷移學習 ·

2021 年 9 月 29 日

[付費5元查看完整內容]復旦大學邱錫鵬等《自然語言處理范式遷移綜述》論文，詳述7大NLP范式：分類、匹配、SeqLab, MRC, Seq2Seq等

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在深度學習時代，大多數NLP任務的建模已經趨同于幾種主流范式。例如，我們通常采用序列標注范式來解決POS-tagging、NER、Chunking等大量任務，而采用分類范式來解決情感分析等任務。隨著預訓練語言模型的快速發展，近年來出現了范式轉移的趨勢，即通過將一個自然語言處理任務轉換為另一個自然語言處理任務。范式遷移已經在許多任務中取得了巨大的成功，成為一種很有前景的改進模型性能的方法。此外，其中一些范例顯示出了統一大量NLP任務的巨大潛力，使構建一個單一模型來處理不同的任務成為可能。在本文中，我們回顧了近年來的范式轉移現象，重點介紹了幾種有潛力解決不同NLP任務的范式。

//www.zhuanzhi.ai/paper/40d5d6afe38831202ecb0ad7f0d8cf42

引言

范式是為一類任務建模的一般框架。例如，序列標記是命名實體識別的主流范式。不同的范式通常需要不同的輸入和輸出，因此高度依賴于任務的注釋。在過去的幾年里，大多數NLP任務的建模已經趨同于幾個主流范式，如本文所總結的，Class, Matching, SeqLab, MRC, Seq2Seq, Seq2ASeq和(M)LM。

盡管許多任務的范式在很長一段時間內已經趨同并占主導地位，但最近的研究表明，某些范式下的模型也能很好地概括其他范式下的任務。例如，MRC范式和Seq2Seq范式也可以在NER任務上實現最先進的性能(Li et al.， 2020;Yan et al.， 2021b)，它們之前在序列標記(SeqLab)范式中被形式化。這類方法通常首先將數據集的形式轉換為新范式所需的形式，然后使用新范式下的模型來解決任務。近年來，將一個自然語言處理任務轉換為另一個自然語言處理任務的類似方法取得了巨大的成功，并日益受到社會的關注。在預訓練語言模型(PTMs)出現之后(Devlin et al., 2019; Raffel et al., 2020; Brown et al., 2020; Qiu et al., 2020），范式轉移已經在越來越多的任務中被觀察到。結合這些PTMs的力量，一些范例顯示出了統一不同NLP任務的巨大潛力。這些潛在的統一范式之一，(M)LM(也稱為基于提示的調優)，最近取得了快速的進展，使用單個PTM作為各種理解和生成任務的通用求解器成為可能(Schick and Schutze ¨ , 2021a,b; Gao et al., 2021; Shin et al., 2020; Li and Liang, 2021; Liu et al., 2021b; Lester et al., 2021)。

盡管它們取得了成功，但這些分散在各種NLP任務中的范式轉移尚未得到系統的回顧和分析。本文綜述了范式轉移研究的最新進展和發展趨勢。本文組織如下。在第2節中，我們給出了這7個范式的形式化定義，并介紹了它們的代表性任務和實例模型。在第3節中，我們展示了最近發生在不同NLP任務中的范式轉變。在第4節中，我們討論了幾個突出的范式的設計和挑戰，這些范式具有統一大多數現有NLP任務的巨大潛力。在第5節中，我們簡要討論了最近的趨勢和未來的方向。

付費5元查看完整內容

Transformer · 預訓練模型 · 自然語言處理 ·

2021 年 8 月 13 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作，涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示，并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識，避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中，我們首先對自監督學習做一個簡要的概述。接下來，我們解釋了各種核心概念，如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來，我們介紹了 T-PTLMs的一個新分類，然后簡要概述了各種基準測試，包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后，提出了進一步完善這些模型的研究方向。我們堅信，這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1]， BERT [2]， XLNet [3]， RoBERTa [4]， ELECTRA [5]， T5 [6]， ALBERT [7]，BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功，因為它們能夠從大量未標記的文本數據中學習通用語言表征，然后將這些知識轉移到下游任務中。在早期，NLP系統大多是基于規則的，后來被機器學習模型所取代。機器學習模型需要特征工程，這需要領域專業知識，也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展，增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型，除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例，生成這些實例的代價是昂貴的。然而，我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用，從而在目標任務中很好地執行。在這里，目標任務應該與源任務類似。基于遷移學習的思想，計算機視覺研究人員使用ImageNet[20]，[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務，然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識，他們在許多CV任務[18]，[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外，由于RNN按順序處理輸入，即逐字處理，并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷，Vaswani等人[25]提出了一種完全基于自注意的深度學習模型，稱為Transformer。與RNN相比，自注意允許更多的并行化，并且可以很容易地建模長期上下文，因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下，Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是，很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻，已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上，提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進，而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明，T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展，如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后，T-PTLMs也被開發用于其他領域，如金融[31]，法律[32]，[33]，新聞[34]，編程[35]-[39]，對話[40]，網絡[41]，學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習，因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

我們將簡要介紹SSL，它是開發T-PTLMs的支柱(第2節)。
我們解釋了與T-PTLMs相關的各種核心概念，如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。
我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角，即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。
我們提出了一種新的分類法來對各種下游適應方法進行分類，并對每一種方法進行詳細解釋(第5節)。
我們簡要概述了評估T-PTLMs進展的各種基準，包括內在的和外在的(第6節)。
我們簡要概述了各種庫，從Huggingface transformer到Transformer-interpret，這些庫對tptlm的工作很有用(第7節)。
我們簡要討論了一些未來的研究方向，這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

預訓練 · 提示學習 (Prompt-based Learning) · 語言模型 ·

2021 年 7 月 31 日

[付費5元查看完整內容]NLP新范式-預訓練，提示(Prompt)，預測！CMU劉鵬飛等論文綜述預訓練語言模型提示學習進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是，基于提示的學習是基于直接對文本概率建模的語言模型，監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務，使用模板將原始輸入x修改為文本字符串提示符x '，其中有一些未填充的槽，然后使用語言模型按概率填充未填充的信息，得到最終字符串x?，從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練，通過定義一個新的提示函數，模型能夠執行少量甚至零次學習，在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容，描述了一套統一的數學符號，可以涵蓋各種各樣的現有工作，并從幾個維度組織現有的工作，例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域，我們不僅對現有的工作進行了系統的回顧，并對基于提示的概念進行了高度結構化的類型化，而且還發布了其他資源。

地址： //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習，即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型，長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al.， 2007)，自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的，早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011))，其中，NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征，并提供具有適當歸納偏差的模型，以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現，顯著特征的學習與模型本身的訓練結合在一起(Collobert et al.， 2011;Bengio et al.， 2013)，因此重點轉向了架構工程，其中的歸納偏差更傾向于通過設計一個合適的網絡架構，有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而，從2017-2019年開始，NLP模型的學習發生了翻天覆地的變化，這種完全監督的范式現在正在發揮越來越小的作用。具體來說，標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中，一個具有固定架構的模型被預先訓練為語言模型(LM)，預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富，這些LMs可以在大型數據集中進行訓練，在此過程中學習它所建模的語言的魯棒通用特性。然后，通過引入額外的參數，并使用特定任務的目標函數對它們進行微調，將上述預先訓練的LM適應于不同的下游任務。在這個范例中，重點主要轉向了目標工程，設計在訓練前和微調階段使用的訓練目標。例如，Zhang等人(2020a)表明，引入一個預測文檔中顯著句子的損失函數，將導致更好的文本摘要預訓練模型。值得注意的是，預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調，使其更適合解決下游任務。

現在，在2021年寫這篇文章的時候，我們正處于第二次巨變之中，“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式，不是通過目標工程將預先訓練好的LMs應用到下游任務，而是將下游任務重新制定，使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如，當識別社交媒體帖子的情緒時，“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”，然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”)，LM可以用法語翻譯來填空。這樣，通過選擇適當的提示，我們可以操縱模型行為，使預先訓練的LM本身可以用來預測期望的輸出，有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是，給定一套適當的提示，在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣，這里有一個陷阱——這種方法引入了快速工程的必要性，找到最合適的提示，讓LM能夠解決手頭的任務。

付費5元查看完整內容

自然語言處理 · 預訓練模型 ·

2020 年 12 月 9 日

[付費5元查看完整內容]自然語言處理預訓練模型的研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來，深度學習技術被廣泛應用于各個領域，基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態，在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹，并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述；簡要分析傳統預訓練模型的特點及局限性，重點介紹基于深度學習的預訓練模型，并針對它們在下游任務的表現進行對比評估；梳理出具有啟發意義的新式預訓練模型，簡述這些模型的改進機制以及在下游任務中取得的性能提升；總結目前預訓練的模型所面臨的問題，并對后續發展趨勢進行展望。

付費5元查看完整內容

word2vec · BERT · 上下文嵌入 · 綜述論文 · 文獻綜述 ·

2020 年 3 月 18 日

[付費5元查看完整內容]【牛津DeepMind】從Word2Vec到BERT:上下文嵌入(Contextual Embeddings)綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

上下文嵌入，如ELMo和BERT，超越了像Word2Vec這樣的全局單詞表示，在廣泛的自然語言處理任務中取得了突破性的性能。上下文嵌入根據上下文為每個單詞分配一個表示，從而捕獲不同上下文中單詞的用法，并對跨語言傳輸的知識進行編碼。在這項綜述中，我們回顧了現有的上下文嵌入模型、跨語言的多語言預訓練、上下文嵌入在下游任務中的應用、模型壓縮和模型分析。

在大型語料庫無監督訓練的分布式詞表示(Turian et al., 2010; Mikolov et al., 2013; Pennington et al., 2014）在現代自然語言處理系統中得到了廣泛的應用。但是，這些方法只獲得每個單詞的一個全局表示，而忽略了它們的上下文。與傳統的單詞表示不同，上下文嵌入超越了單詞級語義，因為每個標記都與作為整個輸入序列的函數的表示相關聯。這些與上下文相關的表示可以在不同的上下文中捕捉到詞匯的許多句法和語義特征。(Peters et al., 2018; Devlin et al., 2018; Yang et al., 2019; Raffel et al., 2019)的研究表明，在大規模未標記的語料庫上預訓練的上下文嵌入，在文本分類、問題回答和文本摘要等一系列自然語言處理任務上取得了最先進的表現。進一步的分析(Liu et al., 2019a; Hewitt and Liang, 2019; Hewitt and Manning, 2019; Tenney et al., 2019a)證明了上下文嵌入能夠學習跨語言的有用且可遷移的表示。

綜述論文的其余部分組織如下。在第2節中，我們定義了上下文嵌入的概念。在第3節中，我們將介紹獲取上下文嵌入的現有方法。第四部分介紹了多語言語料庫中下文嵌入的預處理方法。在第5節中，我們描述了在下游任務中應用預訓練的上下文嵌入的方法。在第6節中，我們詳細介紹了模型壓縮方法。在第7節中，我們調查了旨在識別通過語境嵌入學到的語言知識的分析。在第8節中，我們通過強調未來研究的一些挑戰來結束綜述。

付費5元查看完整內容

深度學習 · 自然語言處理 ·

2020 年 3 月 6 日

[付費5元查看完整內容]深度學習自然語言處理進展綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言處理(NLP)幫助智能機器更好地理解人類語言，實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現，增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別，特別是NLP等領域的應用取得了顯著的進步，數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用，并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容