久草精品视频在线观看-久久午夜夜伦鲁鲁无码免费

自然語言處理(NLP)在神經模型的基礎上，在過去的十年中取得了很大的進展，經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于低資源設置和語言，因為通常需要時間、金錢和專業知識來標記大量文本數據。因此，在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來，人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求，如數據增強和半監督學習。

本教程旨在提供這些方法的系統和最新的概述，以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰，這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測)，并將突出當前的挑戰和未來的方向。

//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

目錄內容：

數據增強

數據增強是一種常用的技術，用于人為地增加給定訓練數據集的大小(即數據點的數量)和多樣性(即偏離真實數據分布)。小標記訓練數據集往往會導致過擬合，數據增強可以通過自動或手動創建增強數據來幫助緩解這個問題。這些技術在計算機視覺(CV)領域中得到了廣泛的探索，包括幾何/顏色空間轉換、混合和隨機擦除等方法。雖然文本數據由于其復雜的句法和語義結構而具有一定的挑戰性，但文本數據的增強方法卻非常廣泛。

NLP中具有代表性的數據增強方法包括: token增強，如隨機刪除或屏蔽令牌(Bowman et al.， 2015)，用同義詞或相關詞替換單詞(Zhang et al.， 2015;Kobayashi, 2018)，以及用隨機token插入或替換不重要的token (Xie et al.，2017,2019); 通過釋義提高句子水平(Roy and Grangier, 2019; Edunov et al., 2018)的基礎上，先將句子翻譯成某些中間語言，然后再將它們翻譯回來，生成具有不同詞匯和語言結構(如詞性、句法等)的中間語言的意譯，可以引入一定的方差，即雙向翻譯(Xie et al., 2019; Coulombe, 2018)，或根據給定的標簽生成句子;對抗性數據增強，使用受擾動的數據顯著影響模型的預測和信心，而不影響人類判斷(Morris et al., 2020)，例如使用梯度在模型的隱藏表示中尋找鄰居(Cheng et al., 2019)或連接分散但無意義的句子作為段落的結尾(Jia和Liang, 2017);隱藏空間增強，通過添加噪聲或對其他數據點進行插值等擾動來操縱隱藏表示(Chen等人，2020a)。

我們將向觀眾介紹最近廣泛使用的數據增強方法，并以NLP應用實例(如無監督翻譯的反向翻譯)為例，演示如何在實踐中利用這些代表性的數據增強技術。

半監督學習

當只有一個小的標簽訓練數據集可用時，數據增強可以應用在監督設置中產生更好的結果，數據增強也常用在半監督學習中。半監督學習在訓練模型時提供了一種利用未標記數據的方法，當只有有限的標記數據可用時，這種方法可以顯著改進模型。這在普通設置中特別有用，因為與有標記的數據相比，未標記的數據更便宜、更容易獲得。在本教程中，我們將使用示例應用程序或任務，簡要討論最近在NLP研究中探索的各種半監督技術。我們根據現有的半監督學習方法如何利用未標記的數據，將它們分成不同的類別:自訓練利用了固有存在或可以從數據集自動生成的監督(McClosky et al.，2006);多任務訓練利用帶有標簽的額外輔助任務，進一步利用與感興趣任務相關的未標記數據;一致性正則化訓練模型，當輸入通過數據增強受到干擾時，輸出相同的預測(Sachan et al., 2019; Xie et al., 2019; Chen et al., 2020a,b)。

低資源語言的有限數據學習與未來工作

解決數據有限的學習問題還有其他相關方向，如其他半監督學習方法，如自訓練(He et al., 2020)、生成模型(Cheng et al., 2016)和協同訓練(Clark et al., 2018)。我們將簡要討論這些方法，更具體地說，我們將通過案例研究向觀眾介紹如何利用上述技術提高低資源語言的性能，包括跨語言遷移學習，它將模型從資源豐富的語言轉移到資源貧乏的語言(Schuster et al., 2019)，很少/零樣本學習(Pham et al., 2019; Abad et al., 2020)，只使用了來自低資源領域的幾個例子，以適應在另一個領域訓練的模型。盡管近年來在數據有限的情況下取得了成功，但為了更好地學習，仍有一些挑戰需要解決。為此，我們將通過強調一些挑戰來結束我們的教程，包括但不限于數據分布的轉移，量化增強的多樣性和效率，處理域外未標記的數據，學習特定于文本的數據增強策略，并討論未來可能有助于推進該領域的方向。

付費5元查看完整內容

相關內容

[付費5元查看完整內容]少樣本NLP？ Allen等ACL2022《少樣本自然語言處理》教程，闡述最新前沿技術，附328頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近，對未標記數據進行預訓練的進展，帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里，人們進行了大量的研究，利用大規模語言模型更好地從有限的數據中學習。在本教程中，我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外，我們的目標是向觀眾揭示新的研究機會，這將有望使我們更接近解決該領域現有的挑戰。

//github.com/allenai/acl2022-zerofewshot-tutorial

付費5元查看完整內容

ACL 2022 · 知識增強自然語言處理 ·

2022 年 5 月 24 日

[付費5元查看完整內容]微軟等ACL2022《知識增強自然語言處理》教程，闡述最新前沿技術，附Slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大規模預訓練模型的出現，自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識，使預測結果更具可解釋性。在本教程中，我們將介紹將知識集成到自然語言處理中的關鍵步驟，包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用，融合知識到語言理解，語言生成和常識推理。

//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/

付費5元查看完整內容

ACL 2022 · 小數據學習 ·

2022 年 5 月 22 日

[付費5元查看完整內容]【ACL2022教程】有限文本數據學習，Learning with Limited Text Data

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言處理(NLP)在神經模型的基礎上，在過去的十年中取得了很大的進展，經常利用大量的標記數據來實現最先進的性能。對標記數據的依賴使NLP模型無法應用于資源不足的設置和語言，因為標記大量文本數據通常需要時間、金錢和專業知識。因此，在有限的標記數據下學習的能力對于將神經系統部署到真實的NLP應用是至關重要的。近年來，人們已經探索了許多方法來緩解自然語言處理中對標記數據的需求，如數據增強和半監督學習。本教程旨在提供這些方法的系統和最新的概述，以幫助研究人員和從業人員理解從有限的標記數據中學習的方法和挑戰，這是計算語言學社區的一個新興話題。我們將考慮應用于各種各樣的NLP任務(包括文本分類、生成和結構化預測)，并將突出當前的挑戰和未來的方向。

付費5元查看完整內容

ACL 2022 · DeepMind · 視覺語言預訓練 · 教程 ·

2022 年 5 月 22 日

[付費5元查看完整內容]ACL2022開會了！DeepMind學者等《視覺語言預訓練:當前趨勢與未來》教程，闡述最新前沿技術，附Slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ACL 是計算語言學和自然語言處理領域的頂級國際會議，由國際計算語言學協會組織，每年舉辦一次。一直以來，ACL 在 NLP 領域的學術影響力都位列第一，它也是 CCF-A 類推薦會議。今年的 ACL 大會已是第 60 屆，將于 5 月 22-5 月 27 在愛爾蘭都柏林舉辦。

ACL 2022論文獎項公布，伯克利摘得最佳論文，陳丹琦、楊笛一等華人團隊獲杰出論文

來自DeepMind等學者Aishwarya Agrawal, Damien Teney, Aida Nematzadeh做了關于《視覺語言預訓練:當前趨勢與未來》教程，值得關注！

本教程的目標是概述多模態預訓練問題的處理所需的要素，特別是視覺和語言。我們還將討論這一領域的一些開放性問題和有希望的未來方向。

在過去的幾年里，人們對建立多模態(視覺語言)模型越來越感興趣，這些模型是在較大但噪聲較大的數據集上進行預訓練的，其中兩種模態(如圖像和文本)松散地相互對應(如ViLBERT和CLIP)。給定一個任務(比如可視的問題回答)，這些模型通常會針對特定于任務的監督數據集進行微調。除了更大的預訓練數據集，Transformer體系結構，特別是應用于兩種模態的自注意力，最近的預訓練模型在下游任務上的令人印象深刻的性能。

這種方法之所以有吸引力，有幾個原因: 首先，預訓練數據集通常是自動從Web上整理出來的，以微不足道的收集成本提供了巨大的數據集。第二，我們可以訓練大型模型一次，并在各種任務中重用它們。最后，這些預訓練方法的表現更好或與以前的特定任務模型持平。一個有趣的問題是，除了良好的任務表現，這些預訓練的模型是否學習了更好地捕捉兩種模態之間的一致性的表征。在本教程中，我們關注最近的視覺語言預訓練范例。我們的目標是首先提供圖像-語言數據集、基準和建模創新。接下來，我們討論用于視覺語言預訓練的不同模型家族，強調它們的優點和缺點。最后，我們討論了通過統計學習進行視覺語言預訓練的局限性，以及因果建模等替代方法的必要性。

目錄內容：

**1. 引言 Introduction: the goal of the tutorial (5 minutes) **

2. 視覺語言概覽 Vision-language landscape before the pretraining era (55 minutes)

**Motivation for vision-language research from both application and research point of views. **

**Popular vision-language tasks, datasets and benchmarks (e.g., image-retrieval, referring expressions, image captioning, visual question answering). **

Task specific modelling approaches and fundamental innovations before the pretraining era (e.g., CNN + LSTM based approaches, language guided image attention, multimodal pooling, compositional networks).

**3. 視覺語言預訓練 Vision-language pretraining (VLP) (60 minutes) **

**– Inspiration from pretraining successes in NLP (transformers, BERT, GPT). **

**– Different families of VLP models (all are transformer based models): * Models using task-specific heads for each downstream task (e.g., ViLBERT, LXMERT, UNITER, OSCAR, VinVL). **

*** Models treating all downstream tasks as language generation tasks, i.e. no task-specific head (e.g., VL-T5, VLBART, SimVLM). **

*** Models using VLP data for improving performance on vision tasks (e.g., CLIP, ALIGN). **

*** Models using VLP data for improving performance on language tasks, including multilingual data (e.g., Vokenization, M3P, VL-T5, SimVLM). **

– Different VLP datasets and how they affect the downstream task performance w.r.t their size, degree of noise, and similarity with downstream datasets.

4. Beyond statistical learning in vision-language

講者：

Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind)

付費5元查看完整內容

元學習 · 自然語言處理 · NAACL · 李宏毅 ·

2022 年 5 月 4 日

[付費5元查看完整內容]NLP如何用元學習？李宏毅老師NAACL2022最新《元學習自然語言處理》綜述論文闡述最新研究進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習已經成為自然語言處理領域的主流技術。然而，這些技術需要許多標記數據，而且跨領域的通用性較差。元學習是機器學習中的一個新興領域，研究如何學習出更好的學習算法。方法旨在提高算法的各個方面，包括數據效率和通用性。方法的有效性已經在許多自然語言處理任務中得到了證明，但目前對這些方法在自然語言處理中的應用還沒有系統的綜述，這阻礙了更多的研究者進入該領域。本文的目的是為研究人員提供相關的NLP元學習工作的指針，并吸引更多的關注，以推動未來的創新。本文首先介紹了元學習的一般概念和常用方法。在此基礎上，總結了任務構建設置和元學習在各種自然語言處理問題中的應用，并回顧了元學習在自然語言處理社區中的發展。

引言

近年來，基于深度學習(DL)的自然語言處理(NLP)已成為研究的主流之一，在許多自然語言處理問題上取得了顯著的性能改善。然而，DL模型需要大量數據。缺點限制了這些模型在不同領域、語言、國家或風格中的應用，因為為模型訓練收集不同類型的數據是昂貴的。為了應對這些挑戰，元學習技術正受到關注。元學習，或學會學習，旨在學習更好的學習算法，包括更好的參數初始化(Finn et al.， 2017)，優化策略(Andrychowicz et al., 2016; Ravi and Larochelle, 2017)，網絡架構(Zoph and Le, 2017; Zoph et al., 2018; Pham et al., 2018a)，距離度量(Vinyals et al., 2016; Gao et al., 2019a; Sung et al., 2018)，以及其他(Mishra et al，2018年)。元學習允許更快的微調，收斂到更好的性能，產生更通用的模型，它在少樣本圖像分類方面取得了出色的結果(Triantafillou et al，2020)。這些優點減輕了學習算法對標簽的依賴，并使模型開發更具可擴展性。

圖像處理是具有豐富應用的機器學習領域之一，并且在之前關于元學習的綜述論文中建立了大多數例子(Hospedales et al., 2021; Huisman et al., 2021)。另一方面，通過將元學習應用于自然語言處理問題，已有研究顯示了元學習技術在性能和數據效率方面的優勢。請參閱附錄中的表3和表4，了解通過元學習改進的自然語言處理應用。ACL2021年會組織教程(Lee et al.， 2021b)和研討會(Lee et al.， 2021a)，以鼓勵對這些技術感興趣的NLP研究人員之間的交流和合作。在NLP中有一篇關于元學習的綜述論文(Yin, 2020)。雖然Yin(2020)對元學習方法進行了概述，但本文側重于將元學習成功應用于自然語言處理，并對有關自然語言處理元學習的論文進行了更廣泛的綜述。由于篇幅的限制，在這篇調查論文中，我們將不會對一般的元學習技術進行過多的詳細描述。關于元學習的一般概念，我們鼓勵讀者閱讀之前的綜述論文(Yin, 2020; Hospedales et al., 2021; Huisman et al., 2021)。

為了讓更多的NLP研究者和實踐者受益于元學習的發展并參與到這一領域，本文對元學習在NLP問題中的應用進行了系統的綜述。綜述論文的組織方式如下。

第2節簡要介紹元學習背景、一般概念和算法。
第3節中構建元學習任務的常見設置。
第4節中一般元學習方法對NLP問題的適應性。
特殊主題的元學習方法，包括第五節NLP應用的知識提煉和終身學習。
本綜述報告旨在為研究人員提供參考，幫助他們理解在自然語言處理領域的元學習技術，并激發更多的創新

元學習知識

付費5元查看完整內容

預訓練語言模型 · 自然語言處理 · 綜述論文 ·

2021 年 11 月 4 日

[付費5元查看完整內容]基于大型預訓練語言模型的自然語言處理研究進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型的、預訓練的基于Transformer的語言模型，如BERT，已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研，這些研究使用了大型語言模型來解決NLP任務，通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法，用于訓練增強或其他目的。最后，我們討論了局限性，并提出了未來研究的方向。

引言

近年來，大型預訓練的基于Transformer的語言模型(PLMs)，如BERT (Devlin et al.， 2019)和GPT (Radford et al.， 2018)系列模型席卷了自然語言處理(NLP)，在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x，然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al.， 2015)。注意，每個新的NLP任務都需要重新學習潛在特征表示，而且在許多情況下，訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的，我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示，然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞，這是一項具有大量自然出現的文本的通用任務，可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上，最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務，研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調，提示PLMs執行期望的任務，或者將任務重新構造為文本生成問題，并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

先進行預訓練，然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練，然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM，這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞)，或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識，從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成，以充分利用生成語言模型(如GPT-2 (Radford et al.， 2019)和T5 (Raffel et al.， 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研，如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明，本文主要關注非生成性任務(如分類、序列標注和結構預測)，這些任務仍然涵蓋廣泛的NLP任務，包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外，還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據，通常生成的PLM是針對任務進行微調的，或者是一些輔助數據，如反例、澄清、上下文或其他。在第一種情況下，銀色標記數據可以添加到現有的標記數據中。在第二種情況下，輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景，并描述了第一種范式，即預訓練然后微調。第三節討論第二種范式，即基于提示的學習。第4節總結了第三種范式，即作為文本生成的NLP。在第5節中，我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向，并在第7節進行總結。

范式1: 先訓練，然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型，而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型，然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務，它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中，我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識，然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法，以鼓勵預訓練的模型執行特定任務(Yuan et al.， 2021)。使用提示符有幾個優點。提示，特別是上下文學習(例如Brown et al.， 2020)，可能不需要更新PLM的參數，與微調方法相比，或在2.4.4中描述的基礎上，減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合，從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al.， 2021b)，特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后，提示允許以一種不受監督的方式探索PLM，以評估PLM對特定任務所獲得的知識(如Petroni et al.， 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功，最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務，如分類和結構預測。例如，圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同，這些任務被重新表述為文本生成問題，從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息，從而能夠準確地重構預期的類標簽(即避免映射中的歧義)，并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中，我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述，并對其應用前景進行了總結。此外，我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

預訓練 · 提示學習 (Prompt-based Learning) · 語言模型 ·

2021 年 7 月 31 日

[付費5元查看完整內容]NLP新范式-預訓練，提示(Prompt)，預測！CMU劉鵬飛等論文綜述預訓練語言模型提示學習進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文綜述并組織了自然語言處理新范式——“基于提示的學習”的研究工作。與傳統的監督學習不同的是，基于提示的學習是基于直接對文本概率建模的語言模型，監督學習訓練模型接收輸入x并預測輸出y為P(y|x)。為了使用這些模型執行預測任務，使用模板將原始輸入x修改為文本字符串提示符x '，其中有一些未填充的槽，然后使用語言模型按概率填充未填充的信息，得到最終字符串x?，從中可以導出最終輸出y。這個框架的強大和吸引人的原因有很多: 它允許語言模型在大量的原始文本上進行預先訓練，通過定義一個新的提示函數，模型能夠執行少量甚至零次學習，在很少或沒有標記數據的情況下適應新的場景。本文介紹了這一有希望的范例的基本內容，描述了一套統一的數學符號，可以涵蓋各種各樣的現有工作，并從幾個維度組織現有的工作，例如預先訓練的模型、提示和調優策略的選擇。為了讓有興趣的初學者更容易理解這個領域，我們不僅對現有的工作進行了系統的回顧，并對基于提示的概念進行了高度結構化的類型化，而且還發布了其他資源。

地址： //www.zhuanzhi.ai/paper/51f9620d879bb5b2dde5437372c97f5b

完全監督學習，即僅在目標任務的輸入輸出示例數據集上訓練特定任務模型，長期以來在許多機器學習任務中發揮著核心作用(Kotsiantis et al.， 2007)，自然語言處理(NLP)也不例外。由于這種完全監督的數據集對于學習高質量的模型一直是不夠的，早期的NLP模型嚴重依賴特征工程(Tab. 1 a.; e.g. Lafferty et al. (2001); Guyon et al. (2002); Och et al. (2004); Zhang and Nivre (2011))，其中，NLP研究人員或工程師利用他們的領域知識從原始數據中定義和提取顯著特征，并提供具有適當歸納偏差的模型，以從這些有限的數據中學習。隨著用于NLP的神經網絡模型的出現，顯著特征的學習與模型本身的訓練結合在一起(Collobert et al.， 2011;Bengio et al.， 2013)，因此重點轉向了架構工程，其中的歸納偏差更傾向于通過設計一個合適的網絡架構，有利于學習這些特征(Tab. 1 b.; e.g. Hochreiter and Schmidhuber (1997); Kalchbrenner et al. (2014); Chung et al. (2014); Kim (2014); Bahdanau et al. (2014); Vaswani et al. (2017))。

然而，從2017-2019年開始，NLP模型的學習發生了翻天覆地的變化，這種完全監督的范式現在正在發揮越來越小的作用。具體來說，標準轉移到訓練前和微調范式(Tab. 1 c.; e.g. Radford and Narasimhan (2018); Peters et al. (2018); Dong et al. (2019); Yang et al. (2019); Lewis et al. (2020a))。在這種范式中，一個具有固定架構的模型被預先訓練為語言模型(LM)，預測觀察到的文本數據的概率。由于訓練LMs所需的原始文本數據非常豐富，這些LMs可以在大型數據集中進行訓練，在此過程中學習它所建模的語言的魯棒通用特性。然后，通過引入額外的參數，并使用特定任務的目標函數對它們進行微調，將上述預先訓練的LM適應于不同的下游任務。在這個范例中，重點主要轉向了目標工程，設計在訓練前和微調階段使用的訓練目標。例如，Zhang等人(2020a)表明，引入一個預測文檔中顯著句子的損失函數，將導致更好的文本摘要預訓練模型。值得注意的是，預先訓練的LM的主體通常是(但不總是;Peters (2019)也進行了微調，使其更適合解決下游任務。

現在，在2021年寫這篇文章的時候，我們正處于第二次巨變之中，“預訓練、微調”程序被我們稱之為“預訓練、提示和預測”的程序所取代。這個范式，不是通過目標工程將預先訓練好的LMs應用到下游任務，而是將下游任務重新制定，使其看起來更像在原始LM訓練中通過文本提示解決的任務。例如，當識別社交媒體帖子的情緒時，“我今天錯過了公交車。我們可以繼續提示“我感覺是這樣的”，然后讓LM用一個充滿感情的詞來填補這個空白。或者如果我們選擇提示語“English: I missed the bus today.”法語:”)，LM可以用法語翻譯來填空。這樣，通過選擇適當的提示，我們可以操縱模型行為，使預先訓練的LM本身可以用來預測期望的輸出，有時甚至不需要任何額外的任務特定訓練(Tab. 1 d.; e.g. Radford et al. (2019); Petroni et al. (2019); Brown et al. (2020); Raffel et al. (2020); Schick and Schutze ¨ (2021b); Gao et al. (2021)。這種方法的優點是，給定一套適當的提示，在完全無監督的方式下訓練的單一LM可以用來解決大量任務(Brown et al., 2020; Sun et al., 2021)。與大多數概念上誘人的前景一樣，這里有一個陷阱——這種方法引入了快速工程的必要性，找到最合適的提示，讓LM能夠解決手頭的任務。