露脸视频一区二区三区在线播放-亚洲国产日韩欧精品一区二区三区

最近OpenAI推出的ChatGPT持續成為熱點，背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型（也稱預訓練模型、基礎模型等）通常是在大規模無標注數據上進行訓練，學習出一種特征和規則，核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類，36頁pdf詳述大模型分類圖。

在過去的幾年里，我們已經看到了幾十種Transformer家族的模型的迅速出現，它們的名字都很有趣，但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型，由一些架構特征定義。2017年，谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而，在那之前，注意力只是這些模型使用的機制之一，這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣，transformer論文的關鍵見解是，注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此，我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此，我們將簡要描述最重要的方面，因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始，并描述一些組件。

從人類反饋(或偏好)中進行強化學習，即RLHF(或RLHP)，最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近，它已被應用于ChatGPT和類似的對話代理，如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練，我們就可以對對話產生不同的響應，并讓人類對結果進行排名。在強化學習的背景下，我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止，您已經理解了什么是Transformer模型，以及為什么它們如此流行和有影響力。在本節中，我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成，對于最初的Transformer也是如此。然而，從那時起，已經取得了不同的進展，揭示了在某些情況下，只使用編碼器，只使用解碼器，或兩者都是有益的。編碼器預訓練這些模型也被稱為雙向編碼或自編碼，在預訓練過程中只使用編碼器，通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段，注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用，如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型，在預訓練過程中只使用解碼器，而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型，也稱為序列到序列，使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞，而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成，但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務，如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時，我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務，例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類，所有這些任務都可以被認為是自監督的:

語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
掩碼語言建模(MLM):從輸入句子中屏蔽一些標記，然后訓練模型，用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同，但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標，并訓練模型來預測這些目標。
降噪自編碼器(DAE):采用部分損壞的輸入(例如，從輸入中隨機采樣token，并將其替換為“[MASK]”元素。從輸入中隨機刪除標記，或按隨機順序打亂句子)，并旨在恢復原始未失真的輸入。
對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似，來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP，但使用兩個連續的片段作為正例，并使用相同的片段，但其順序交換為負例在這里，我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如，問答、情感分析或實體識別)。然而，如前所述，一些Transformer模型也在NLP之外找到了應用，也包括在目錄中。

付費5元查看完整內容

相關內容

ChatGPT

關注 257

ChatGPT（全名：Chat Generative Pre-trained Transformer），美國OpenAI 研發的聊天機器人程序 [1] ，于2022年11月30日發布。ChatGPT是人工智能技術驅動的自然語言處理工具，它能夠通過學習和理解人類的語言來進行對話，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文任務。 [1] //openai.com/blog/chatgpt/

ChatGPT · GPT-4 · 自然語言推理 · 大模型 ·

2023 年 3 月 29 日

[付費5元查看完整內容]ChatGPT背后的大模型如何做推理？港中文等最新《自然語言推理》綜述詳述預訓練語言模型推理方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講，本文為NLP中的自然語言推理提供了一個明確的定義，基于哲學和NLP場景，討論了哪些類型的任務需要推理，并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式，并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本，不包括神經符號技術和數學推理。

1. 引言

近年來，自然語言處理(NLP)取得了重大進展，特別是transformer和預訓練語言模型(PLM)的引入。然而，它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程，是人類智能的一個基本方面，對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標，也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比，使用自然語言表達進行推理提供了更加自然的人機交互界面，并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練，PLM能夠進行自然語言理解。最近的進展表明，PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說，PLM可以對自然語言語句[24]進行軟演繹推理，利用其參數中記憶的隱性知識進行推理[141]，并在模型規模足夠大時通過思維鏈提示[76,154]，僅使用少量演示或指令就可以逐步執行多步推理。最近，ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而，盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154]，但仍然缺乏對推理的明確定義，并且“推理”一詞有時會被錯誤使用，這可能會影響NLP社區對推理的交流和發展。**例如，雖然它屬于“常識推理”，但很少有人會認為講述一個共同的生活經歷[9]，例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是，有時“自然語言推理”被引入為自然語言理解的任務[11]，但其他時候的推理為[24]。到目前為止，沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理)，也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性，我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義，但該定義并不能很好地捕捉NLP中的推理。例如，雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57]，但它未能明確隱含常識是否可以作為證據以及推理的結論類型，如命名實體消歧。

為了促進自然語言處理中推理的研究，本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講，本文從哲學和NLP場景出發，提出了NLP推理的定義，討論了哪些類型的任務需要推理，并介紹了推理的分類。在實踐中，基于明確的定義，對自然語言處理中的自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文，我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后，討論了推理的局限性和未來的發展方向。除了推理的定義之外，該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理，這是除正向推理外的另一種強大的多步推理范式。雖然正向推理，如思維鏈提示，最近在LLM中很流行，但反向推理值得進行更多的探索。由于搜索空間更小[71]，向后推理在概念和經驗上都比前向推理更有效，因此有可能推廣到步驟更長的復雜推理。其次，介紹了可廢止推理(即非演繹推理)，認為這是最重要的未來方向之一。哲學認為，人類日常生活中的推理大多是非演繹的。然而，這在NLP研究中仍然存在很大的差距，而ChatGPT[4]也更具挑戰性。更重要的是，當演繹推理可以用符號推理機(如Prolog編程)精確求解時，可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧，故意排除了神經符號技術。對收集到的論文進行了整理，對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年，我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字，包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之，本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義，并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述，涵蓋了不同的NLR基準，并提供了一個全面的方法分類。我們還介紹了向后推理，它被忽略了，但有潛力。 (3)介紹了可廢止推理，比較了演繹推理和可廢止推理的差異，討論了它們對NLP解決方案的影響，并回顧了現有的方法。

2. 什么是自然語言推理

目前，自然語言推理在自然語言處理領域仍缺乏明確的定義，影響了自然語言處理領域的發展和交流。為促進理解、分析和交流，本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標，我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究，并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義，以滿足NLP社區的關注(第2.1節)。然后，提供了NLR的類別，并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后，介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注，而哲學從幾千年前就開始研究推理，邏輯被視為正確推理的藝術，它研究推理的概念，使其類別系統化，并發展良好推理的原則，包括形式邏輯和非形式邏輯[8,45,62]。在本節中，我們首先包括來自哲學和邏輯學的推理理論，并將其導出為NLP推理。然后，回顧了自然語言處理中的一些自然語言推理問題;最后，本文提出了一種NLP中推理的定義，該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源，也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件，或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149]，該架構由許多注意力模塊構建，并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來，預訓練-再微調成為一種常見的范式，它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務，并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14]，上下文學習已經成為一種新的流行范式，它可以在只有少量演示的情況下預測新樣本，而無需微調參數。最近，零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中，我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節)，正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說，“端到端推理”只預測最終答案，沒有任何中間文本，而后兩種方法可以產生推理路徑，包含一個或多個帶有中間結論的步驟，展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地，嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外，生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程，它從已有的知識出發，反復推理以獲得新的知識，直到問題被解決。反向推理是一種自上而下的過程，它從問題出發，不斷地分解為子問題，直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題，而正向推理可以自由地發現由現有知識所蘊含的新知識，而不需要預先指定問題。因此，在求解特定問題時，前向推理的搜索空間要比后向推理的搜索空間大得多，隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題，其推理路徑稱為“證明”，正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法，并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中，我們提出了一些開放問題，介紹了一些局限性，并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前，只需要產生推理路徑，甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時，LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159]，但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力，那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者，構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

ChatGPT · 指令學習 · 人工智能 ·

2023 年 3 月 27 日

[付費5元查看完整內容]ChatGPT背后的指令學習是什么？PSU最新首篇《指令學習》技術全面綜述，詳述指令學習關鍵問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

任務語義可以用一組輸入到輸出的例子或一條文本指令來表示。傳統的自然語言處理(NLP)機器學習方法主要依賴于大規模特定任務樣本集的可用性。出現了兩個問題: **首先，收集特定于任務的標記示例，不適用于任務可能太復雜或太昂貴而無法注釋，或系統需要立即處理新任務的場景;其次，這對用戶來說并不友好，因為最終用戶可能更愿意在使用系統之前提供任務描述，而不是一組示例。**因此，社區對NLP的一種新的監督尋求范式付出了越來越大的興趣: 從任務指令中學習。盡管取得了令人印象深刻的進展，但社區仍面臨一些共同的問題。本文試圖從以下幾個方面對當前的指令學習研究進行總結:(1)什么是任務指令，存在哪些指令類型?(ii)如何為指令建模?(iii)哪些因素影響和解釋指令的執行?(四)指令中還存在哪些挑戰?據我們所知，這是第一次對文本指令的全面調查。

1. 引言

人工智能的一個目標是建立一個可以普遍理解和解決新任務的系統。標記示例作為主流任務表示，不太可能大量可用，甚至不存在。那么，是否有其他任務表示可以有助于任務理解?任務指令為表達任務語義提供了另一個監督維度，指令往往包含比單個標記示例更抽象和全面的目標任務知識。如圖1所示，通過任務指令的可用性，可以快速構建系統來處理新任務，特別是在特定于任務的注釋稀缺的情況下。**指令學習是受典型的人類對新任務的學習啟發，**例如，小孩可以通過從指令和幾個例子中學習來很好地解決一個新的數學任務(Fennema et al.， 1996;)。這種新的學習范式最近引起了機器學習和NLP社區的主要關注(Radford等人，2019;Efrat和Levy, 2020;Brown等人，2020年)。

當談到任務指令時，我們大多數人首先會將這個概念與提示聯系起來——使用一個簡短的模板將新的輸入重新格式化為語言建模問題，以便為啟動PLM回復響應 (Liu et al.， 2023)。盡管提示在文本分類、機器翻譯等中普遍存在，但提示只是指令的一種特殊情況。本文對指令驅動的NLP研究進行了全面和更廣泛的看法。具體來說，我們試圖回答以下問題:

什么是任務指令，存在哪些指令類型?
給定任務指令，如何對其進行編碼以幫助完成目標任務?
哪些因素(如模型大小、任務數量)影響指令驅動系統的性能，以及如何設計更好的指令?
指令學習能帶來什么應用?
指令學習中存在哪些挑戰，未來的方向是什么?

**據我們所知，這是第一篇調研文本指令學習的論文。**與一些現有的側重于特定上下文指令的調研相比，例如提示(Liu等人，2023)、按輸出輸入的演示(Dong等人，2023)或推理(Huang和Chang, 2022;Qiao et al.， 2022)，我們提供了一個更廣泛的視角，以有組織的方式連接該領域的不同研究。希望本文能呈現一個更好的指令學習故事，吸引更多同行來研究這個具有挑戰性的人工智能問題。我們還發布了本次調研的相應閱讀清單。

2. 基礎知識

對于任務式學習，目標是通過遵循指令來驅動系統達到給定輸入的輸出。因此，一個數據集由三個元素組成: Input (X): 實例的輸入;它可以是一段文本(如情感分類)或一組文本(如文本蘊涵、問題回答等)。 Output (Y): 實例的輸出;在分類問題中，它可以是一個或多個預定義標簽;在文本生成任務中，它可以是任何開放形式的文本。

模板(T): 一種文本模板，試圖單獨表達任務的含義，或者充當X和y之間的橋梁。T可能還不是一種組件結構。

3. 什么是任務指令？

在之前的零樣本和少樣本NLP任務中已經使用了各種類型的文本指令，例如提示(Hendrycks等人，2021;Srivastava等人，2022;Bach等人，2022，除其他外)，Amazon Mechanical Turk 指令(Mishra等人，2022b;王等，2022c;Yin等人，2022年)，輔以演示的指令 (Khashabi等人，2020年;Ye等人，2021;Min等人，2022b，特別是)和思維鏈解釋(Wei等人，2022b;Lampinen等人，2022;Li et al.， 2022c，等。不同的指令最初是為不同的目標設計的(例如，Mturk指令最初是為人類標注者理解而創建的，提示是為了控制PLM)。在本節中，如圖2所示，我們首先將這些指令總結為三個類別，它們執行T、X和?Y的不同組合(面向蘊含、面向PLM和面向人)，然后比較它們并提供指令的正式定義。

3.1 I=T^+Y:Entailment主導的指令

處理分類任務的一個傳統方案是將目標標簽轉換為索引，并讓模型決定輸入屬于哪個索引。這種范式側重于對輸入語義進行編碼，同時丟失標簽語義。為了讓系統識別新標簽而不依賴于大量標記的示例，Yin等人(2019)提出為每個標簽建立一個假設——然后，推導標簽的真值被轉換為確定假設的真值。如表1所示，這種方法內置在指令(I)中，將模板(T)與標簽Y相結合，以解釋每個目標標簽(Y)。由于這種范式自然地滿足文本蘊含的格式(TE，其中任務輸入和指令可以分別被視為前提和假設)，這些類型的指令被稱為"面向蘊含(Entailment)的指令"。面向蘊含（entailment)的指令學習方法具有以下4個方面的優勢:(i)保持了標簽語義，使得輸入編碼和輸出編碼在建模輸入輸出關系時得到同等的重視;(ii)形成了一個統一的推理過程——文本蘊含——來處理各種NLP問題;(iii)它創造了利用現有TE數據集的間接監督的機會，以便預訓練TE模型有望在不進行特定任務微調的情況下在這些目標任務上工作;(iv)將原始的閉集標簽分類問題擴展為具有少量甚至零類屬類樣本的開放域開放形式標簽識別問題。因此，它被廣泛應用于各種少樣本/零樣本分類任務中，如分類主題(Yin等人，2019)、情感(Zhong等人，2021)、姿態(Xu等人，2022b)、實體類型(Li等人，2022a)和實體關系(Murty等人，2020;Xia等，2021;Sainz等人，2021,2022)。

3.2 I=T^+X:面向PLM的指令(如?提示)

提示是面向PLM的指令的代表，它通常是一個簡短的語句，前面加上任務輸入(前綴提示)，或者一個完形填空問題模板(完形填空提示)。它主要用于從預訓練的語言模型(PLM)中查詢中間響應(可以進一步轉換為最終答案)。由于提示輸入符合PLM的預訓練目標(例如，完形風格的輸入滿足掩碼語言建模目標(Kenton和Toutanova, 2019))，它有助于擺脫對傳統監督微調的依賴，并大大減輕人工標注的成本。因此，快速學習在大量之前的少量/零樣本NLP任務上取得了令人印象深刻的結果，例如問答(Radford等人，2019;Lin等人，2021)、機器翻譯(Li等人，2022d)、情感分析(Wu和Shi, 2022)、文本蘊含(Schick和Schütze, 2021a,b)和命名實體識別(Cui等人，2021;王等，2022a)。

3.3 以人為本指示

以人為本的指令基本上是指在人類注釋平臺上用于眾包的指令(例如Amazon MTurk指令)。與面向人的指令不同，面向人的指令通常是一些人可讀的、描述性的、段落式的任務特定文本信息，由任務標題、類別、定義、要避免的事項等組成。因此，以人為本的指令更加友好，可以理想地應用于幾乎任何復雜的NLP任務。

4 如何為指令建模?在本節中，我們總結了幾種最流行的指令學習建模策略。總體而言，本文介紹了四種不同的建模方案:對于早期的基于機器學習的系統，(i)基于語義解析器的策略是編碼指令的常用方法;隨著神經網絡和預訓練語言模型的出現，(ii)基于提示模板和(iii)基于前綴指令的指令學習模式成為兩種備受青睞的范式;最近，(iv).基于超網絡的方法也引起了更大的興趣。

5 應用

5.1人機交互

文本指令可以自然地視為一種人機交互方式。之前的許多工作使用自然語言指令來"指導"計算機執行各種現實世界的任務。

對于非NLP(多模態)任務，大多數專注于基于環境的語言學習，即驅動智能體將自然語言指令與環境相關聯，并做出相應的反應，例如從圖像/視頻中選擇提到的對象(Matuszek等人，2012;Krishnamurthy和Kollar, 2013;Puig等人，2018)，按照導航指示移動智能體(Tellex等人，2011;Kim和Mooney, 2012;陳,2012;Artzi和Zettlemoyer, 2013;Bisk et al.， 2016)，在地圖上繪制相應的痕跡(Vogel和Jurafsky, 2010;Chen和Mooney, 2011)，基于給定規則玩足球/紙牌游戲(Kuhlmann等人，2004;愛森斯坦等人，2009;Branavan等人，2011;Babe s-Vroman等人，2012;Goldwasser和Roth, 2014)，生成實時體育廣播(Chen和Mooney, 2008;Liang et al.， 2009)、控制軟件(Branavan et al.， 2010)和查詢外部數據庫(Clarke et al.， 2010)等。與此同時，指令也被廣泛適用于幫助與系統溝通，以解決NLP任務，例如，遵循操作字符串的指令(Gaddy和Klein, 2019)，根據給定的解釋對電子郵件進行分類(Srivastava等人，2017,2018)，以及文本到代碼生成(Acquaviva等人，2021)。近年來，越來越多的研究傾向于以迭代和模塊化的方式設計人機通信過程。例如，Li et al.(2020)構建了一個系統來幫助用戶處理日常任務(例如，點咖啡或請求Uber)。得益于用戶友好的圖界面，系統可以迭代地詢問有關任務的問題，用戶可以不斷改進他們的指令，以避免不明確的描述或模糊的概念。類似地，Dwivedi-Yu等人(2022)提出了一個基準來迭代地指導PLM改進文本，其中每次迭代只使用具有精確目的的一小段指令(例如，“簡化文本”或“使文本中性”)。此外，Chakrabarty等人(2022)構建了一個協作寫詩系統，用戶可以最初提供一個模棱兩可的指令(例如，“寫一首關于蛋糕的詩”)，然后通過觀察模型的中間輸出，用更多的細節逐步完善指令(例如，“包含單詞-‘巧克力’”)。同時，Mishra和Nouri(2022)提出了一個傳記生成系統，該系統逐步從用戶那里收集必要的個人信息(通過在對話場景中提出問題來引導用戶)，并最終生成一個段落式的傳記。針對非專家用戶難以一次性編寫完整的指令的問題，在基于指令的人工智能系統設計中采用迭代式、模塊化的設計范式，可以引導用戶逐步豐富任務指令，從而有效地緩解用戶的思維需求，使系統更加面向用戶。鑒于其實用價值，本文強調了這一分支工作的重要性。

5.2 數據和特征增強

任務指令被認為是一種間接的監督資源，其中有時包含一些膚淺且武斷的規則。這些規則也被稱為標記函數，可以直接應用于注釋(例如，句子“a very fair price”是情感積極的，因為“單詞‘price’之前直接有‘fair’”)。因此，現有的一些工作還將指令作為遠程監督來執行數據或特征增強(Srivastava等人，2018;Hancock等人，2018;Ye等人，2020)。例如，Srivastava等人(2017)使用語義解析器將自然語言解釋轉換為邏輯形式，并將它們應用于數據集中的所有實例以生成額外的二進制特征。而Wang et al.(2020)利用標簽解釋自動標注原始語料庫，并在產生的噪聲數據上訓練分類器。除了直接的擴充外，Su等人(2022)進一步使用任務指令來豐富模型表示，并實現了較強的跨任務泛化。具體來說，他們在具有對比學習的不同指令數據集上訓練了一個嵌入模型(單個編碼器)，然后使用該模型為下游未見過的任務生成基于指令的特定任務表示。

5.3 通用語言模型

根據通用人工智能(Artificial General Intelligence, AGI)的定義，“通用模型”通常是一個能夠勝任不同任務并在多變環境中可擴展的系統，這將遠遠超出其創造者最初的預期(Wang and Goertzel, 2007;Goertzel寫到,2014)。雖然特定于NLP領域，但通用語言模型應該是一個優秀的多任務助手，能夠以完全零樣本/少樣本的方式熟練處理各種現實世界的NLP任務和不同的語言(Arivazhagan等人，2019;Pratap等人，2020;Wei等，2022a)。由于許多現有工作證明了在跨任務泛化中使用指令的驚人能力(Wei等人，2022a;Sanh等人，2022;Mishra等人，2022b;王等，2022c;Chung等人，2022，除其他外)，該指令很可能成為實現這一最終目標的突破。

值得注意的是，最近指令的兩個顯著應用，即InstructGPT (Ouyang et al.， 2022)和ChatGPT，也表明在構建通用語言模型方面邁出了一大步。然而，與其他主要采用指令學習的工作不同，ChatGPT還采用了一些其他組件，如人工反饋的強化學習(RLHF) 14。雖然“哪個組件對ChatGPT的出色結果貢獻更大”的答案仍然是模糊的，需要進一步調研，但我們介紹了一些最近的工作，以強調指令學習的關鍵作用。例如，Chung等人(2022)進行了廣泛的實驗來評估人類對PaLM的偏好對齊(Chowdhery等人，2022)。他們發現，即使沒有任何人類反饋，指令微調也顯著降低了PaLM開放式世代的毒性，比如性別和職業偏見。此外，其他一些工作也單獨采用創造性指導而不是人工反饋，并取得了顯著的跨任務結果(Bai等人，2022;Honovich等人，2022a;王志強等，2022b)。盡管ChatGPT仍然存在許多不令人滿意的方面，距離通用語言模型還很遠(Qin等人，2023;郭等，2023;Koco 'n等人，2023;Wang et al.， 2023)，我們希望AGI的目標可以通過采用和發展更強大的技術來繼續推動，包括指令學習。

付費5元查看完整內容

ChatGPT · 大型語言模型 · 人類反饋強化學習 (RLHF) ·

2023 年 2 月 21 日

[付費5元查看完整內容]ChatGPT 背后的“功臣”——RLHF 技術詳解

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮，它面對多種多樣的問題對答如流，似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model，LLM) 生成領域的新訓練范式：RLHF (Reinforcement Learning from Human Feedback) ，即以強化學習方式依據人類反饋優化語言模型。

過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而，對生成結果的評估是主觀和依賴上下文的，例如，我們希望模型生成一個有創意的故事、一段真實的信息性文本，或者是可執行的代碼片段，這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標，現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模，沒有顯式地引入人的偏好和主觀意見。如果我們 用生成文本的人工反饋作為性能衡量標準，或者更進一步用該反饋作為損失來優化模型，那不是更好嗎？這就是 RLHF 的思想：使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。看看 ChatGPT 是如何解釋 RLHF 的：

ChatGPT 解釋的很好，但還沒有完全講透；讓我們更具體一點吧！

RLHF 技術分解

RLHF 是一項涉及多個模型和不同訓練階段的復雜概念，這里我們按三個步驟分解：

預訓練一個語言模型 (LM) ；
聚合問答數據并訓練一個獎勵模型 (Reward Model，RM) ；
用強化學習 (RL) 方式微調 LM。

Step 1. 預訓練語言模型

首先，我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型，OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬～ 520 億參數的 Transformer 模型進行訓練；DeepMind 使用了自家的 2800 億參數模型 Gopher。這里可以用額外的文本或者條件對這個 LM 進行微調，例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調，而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據，但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域，對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。

接下來，我們會基于 LM 來生成訓練獎勵模型 (RM，也叫偏好模型) 的數據，并在這一步引入人類的偏好信息。

Step 2. 訓練獎勵模型

RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵，數值上對應人的偏好。我們可以用端到端的方式用 LM 建模，或者用模塊化的系統建模 (比如對輸出進行排名，再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。關于模型選擇方面，RM 可以是另一個經過微調的 LM，也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式，即用偏好模型預訓練 (Preference Model Pretraining，PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。關于訓練文本方面，RM 的提示 - 生成對文本是從預定義數據集中采樣生成的，并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的，并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf)，而 OpenAI 使用了用戶提交給 GPT API 的 prompt。關于訓練獎勵數值方面，這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM，但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。對具體的排名方式，一種成功的方式是對不同 LM 在相同提示下的輸出進行比較，然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有不同大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM，Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等，DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是，偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。

接下來是最后一步：利用 RM 輸出的獎勵，用強化學習方式微調優化 LM。

Step 3. 用強化學習微調

長期以來出于工程和算法原因，人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization，PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B～100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間，有大量關于其原理的指南，因而成為 RLHF 中的有利選擇。事實證明，RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。讓我們首先將微調任務表述為 RL 問題。首先，該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ，觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下：將提示輸入初始 LM 和當前微調的 LM，分別得到了輸出文本，將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵。將兩個模型的生成文本進行比較計算差異的懲罰項，在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放，即。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型，以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外，OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度，可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。最后根據 PPO 算法，我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization，TRO) 算法，它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置，但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。

作為一個可選項，RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新，用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF，其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態，代表了一個復雜和開放的研究問題。

RLHF 的未來

盡管 RLHF 取得了一定的成果和關注，但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據：人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面，訓練 RM 需要的獎勵標簽規模大概是 50k 左右，所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見，導致了訓練數據存在一些潛在差異。除開數據方面的限制，一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面，PPO 是一種較舊的算法，但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外，微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估，通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近，出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning，ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡，例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解，更進一步提升系統的表現。

參考資料

首先介紹一些相關的開源工作：關于 RLHF 的第一個項目，來自 OpenAI: PyTorch 的 repo： *

此外，Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作：

TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)
Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)
Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018)
Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019)
Learning to summarize with human feedback (Stiennon et al., 2020)
Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021)
WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021)
InstructGPT: Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022)
GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022)
Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022)
ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)
Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)
Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022)

本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋，浙江大學計算機科學碩士，主要研究 NLP 領域。我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容，如果你感興趣，歡迎通過文章下方的留言功能介紹自己，并留下聯系方式。謝謝！

付費5元查看完整內容

語言模型 · 大模型 · 陳丹琦 · BERT ·

2022 年 10 月 19 日

[付費5元查看完整內容]不可錯過！普林斯頓陳丹琦最新《大語言模型理解》2022課程！全面講述BERT、GPT、T5等大模型，附Slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在過去3-4年中，大型語言模型(LLMs)徹底改變了自然語言處理(NLP)領域。它們構成了最先進的系統的基礎，在解決廣泛的自然語言理解和生成任務時無處不在。隨著前所未有的潛力和能力，這些模型也帶來了新的道德和可擴展性挑戰。本課程旨在涵蓋圍繞預訓練語言模型的前沿研究課題。我們將討論它們的技術基礎(BERT、GPT、T5模型、專家混合模型、基于檢索的模型)、新出現的功能(知識、推理、少樣本學習、上下文學習)、微調和適應、系統設計以及安全和倫理。我們將涵蓋每個主題，并深入討論重要論文。學生將被期望定期閱讀和提交研究論文，并在結束時完成一個研究項目。這是一門高級研究生課程，所有學生都應該上過機器學習和NLP課程，并熟悉諸如transformer等深度學習模型。

//www.cs.princeton.edu/courses/archive/fall22/cos597G/

學習目標

本課程旨在幫助您在自然語言處理方面進行前沿研究，特別是與預訓練語言模型相關的主題。我們將討論最先進的技術，它們的能力和局限性。
練習你的研究技能，包括閱讀研究論文，進行文獻調查，口頭報告，以及提供建設性的反饋。
通過期末項目獲得實踐經驗，從頭腦風暴到實施和實證評估，再到撰寫期末論文。

課程內容：

引言 BERT T5 (encoder-decoder models) GPT-3 (decoder-only models) Prompting for few-shot learning Prompting as parameter-efficient fine-tuning In-context learning Calibration of prompting LLMs Reasoning Knowledge Data

參考論文：On the Opportunities and Risks of Foundation Models

作者：Percy Liang、李飛飛等 * 論文鏈接：

**摘要：**最近，斯坦福大學的 Percy Liang、Rishi Bommasani（Percy Liang 的學生）、李飛飛等 100 多位研究者聯名發布了一篇論文。在論文中，他們給大模型取了一個名字——「基礎模型（foundation model）」，并系統探討了基礎模型的機遇與風險。「基礎」代表至關重要，但并不完備。論文正文分為四個部分，分別闡述了基礎模型的能力、應用、相關技術和社會影響，其具體內容如下：

能力：語言、視覺、機器人學、推理、交互、理解等； * 應用：醫療、法律、教育等； * 技術：建模、訓練、適應、評估、系統、數據、安全與隱私、穩健性、理論、可解釋性等； * 社會影響：不平等、濫用、環境、法規、經濟、倫理等。

這篇論文的問世將為負責任地發展、部署基礎模型提供一些借鑒。

付費5元查看完整內容

預訓練模型 · 斯坦福大學 (Stanford University) · 基礎模型 ·

2021 年 8 月 19 日

[付費5元查看完整內容]BERT、GPT-3等預訓練模型大一統？斯坦福Percy Liang、李飛飛等114位作者發布212頁綜述，闡述大模型機遇與風險

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著 BERT、DALL-E、GPT-3 等大規模預訓練模型的出現，AI 社區正在經歷一場范式轉變。從計算機視覺到自然語言處理，從機器人學到推理、搜索，這些大模型已經無處不在，而且還在繼續「野蠻生長」。

這種野蠻生長是大模型的有效性帶來的必然結果。在 BERT 出現（2018 年）之前，語言模型的自監督學習本質上只是 NLP 的一個子領域，與其他 NLP 子領域并行發展。但在 BERT 橫掃 11 項 NLP 任務之后，這種格局被打破了。2019 年之后，使用自監督學習構造語言模型儼然已經成為一種基礎操作，因為使用 BERT 已經成為一種慣例。這標志著大模型時代的開始。

這一時代的重要標志是「同質化」。如今，NLP 領域幾乎所有的 SOTA 模型都是少數幾個基于 Transformer 的大模型進化而來。而且，這種趨勢正在向圖像、語音、蛋白質序列預測、強化學習等多個領域蔓延。整個 AI 社區似乎出現了一種大一統的趨勢。

毋庸置疑，這種同質化是有好處的，大模型的任何一點改進就可以迅速覆蓋整個社區。但同時，它也帶來了一些隱患，因為大模型的缺陷也會被所有下游模型所繼承。

大模型的強大能力來自巨大的參數空間的結合，這也導致它們的可解釋性非常差，其能力和缺陷都存在不確定性。在這種情況下，盲目將整個研究范式向大模型轉變真的可取嗎？

最近，斯坦福大學的 Percy Liang、Rishi Bommasani（Percy Liang 的學生）、李飛飛等 100 多位研究者聯名發布了一篇系統探討此問題的論文。在論文中，他們給這種大模型取了一個名字——「基礎模型（foundation model）」，并系統探討了基礎模型的機遇與風險。「基礎」代表至關重要，但并不完備。

論文鏈接：//www.zhuanzhi.ai/paper/517a2584ebd7b4fb30e94d5d96a15e5e

論文正文分為四個部分，分別闡述了基礎模型的能力、應用、相關技術和社會影響，其具體內容如下：

能力：語言、視覺、機器人學、推理、交互、理解等；
應用：醫療、法律、教育等；
技術：建模、訓練、適應、評估、系統、數據、安全與隱私、穩健性、理論、可解釋性等；
社會影響：不平等、濫用、環境、法規、經濟、倫理等。

這篇論文的問世將為負責任地發展、部署基礎模型提供一些借鑒。

此外，斯坦福大學的師生、研究人員還成立了一個「基礎模型研究中心（CRFM）」，這是斯坦福 HAI 的一個新的跨學科項目。8 月 23 日到 24 日，這兩個組織將發起一場關于基礎模型的 workshop，討論基礎模型的機遇、挑戰、限制和社會影響。

workshop 鏈接：

以下是論文各個章節的介紹。

第二章基礎模型的能力

基礎模型擁有的能力有時是在學習過程中出現的，這些能力往往能為下游應用提供動力。關于基礎模型能力的推理影響了具有基本能力 AI 系統的創建。該論文的第二章就主要探討了基礎模型的能力及影響，具體包括以下幾部分內容：

2.1 語言

該論文首先以自然語言的屬性展開，并分析了 NLP 領域基礎模型的影響。然后又進一步探討了語言變體和多語種的問題，最后論文這部分闡述了 NLP 基礎模型從人類語言中獲得的靈感。

人類和基礎模型的語言獲取。

2.2 視覺

視覺是生物體理解其生存環境的主要模式之一。視覺能夠為智能體帶來穩定廣泛的密集信號收集能力。論文的 2.2 部分首先概述了計算機視覺領域的關鍵能力和方法，其中闡明了計算機視覺領域的幾大關鍵任務，包括：

語義理解任務；

含有幾何、運動等元素的三維任務；

多模態集成任務，例如視覺問答等。

然后 2.2 部分還探討了當下計算機視覺領域面臨的研究挑戰，主要面向幾個重點應用領域：

面向醫療保健和家庭環境的外圍（ ambient ）智能領域；
移動和消費領域；
具體化的、可互動的智能體中領域。

通過大規模利用自監督，視覺基礎模型具備一種潛力，即提取原始多模態感知信息并轉化為視覺知識，可有效支持傳統感知任務，并能夠在具有挑戰性的高階技能方面取得新進展。

視覺的基礎模型目前處于早期階段，但已在傳統計算機視覺任務取得了一些改進（特別是在泛化方面），并預計近期的進展將延續這一趨勢。然而，從長遠來看，基礎模型在減少對顯式注釋的依賴方面的潛力可能會帶來智能體基本認知能力（例如，常識推理）的進步。同樣該論文也探討了用于下游應用的基礎模型的潛在影響，以及推動領域發展必須面臨的核心挑戰。

2.3 機器人

機器人研究領域的一個長期挑戰是讓機器人具備處理無數現實難題的能力。該論文的 2.3 部分討論了基礎模型如何助力產生「通用型」機器人，并從機遇和挑戰風險多個方面展開。

從機遇的角度講，機器人技術的基礎模型應該采用多種形式，因為機器人技術中的問題往往并不符合「一刀切」的模式，不同的問題有不同的輸入輸出特征。

從挑戰與風險上看，一方面，機器人研究必須收集足夠大小和多樣性的數據集；另一方面，機器人領域需要合理機制來確保能夠在現實世界中安全地部署學習行為。

機器人基礎模型需要跨多種環境和行為的海量數據集。

2.4 推理和搜索

推理和搜索一直是人工智能領域的中心主題，許多推理問題構成了無限的搜索空間。近來一些應用和研究表明：人們對應用基于學習的方法來解決推理問題的興趣激增。論文的這部分從當前面臨的任務、基礎模型扮演的角色、AI 推理領域未來面臨的挑戰幾部分展開。

一個幾何證明的搜索樹例子。

2.5 交互

隨著基礎模型開發的成熟，模型的容量將不斷擴大，它們的多功能性最終可能導致我們與 AI 交互的方式發生根本性變化。論文的這部分從兩個重要利益相關者的角度討論這些變化帶來的機會，這兩個利益相關者是指

將與基礎模型交互以設計用戶體驗的應用程序開發人員；
使用由基礎模型提供支持的人工智能應用程序或受其影響的終端用戶。

2.6 關于理解的原理

基礎模型可以了解訓練數據的哪些方面？答案對于基礎模型的整體能力非常有用，將為智能系統做出重要貢獻。該論文主要關注自然語言領域，因為語言的使用是人類智慧的標志，也是人類體驗的核心。

第三章基礎模型的應用

基礎模型的能力表明了它們具備改變各行各業的潛力，論文的第三章重點從三個學科領域闡述了人工智能的應用，包括醫療保健、法律和教育，這些都是人類社會的基礎。這一章節每一部分都探討了基礎模型為該領域帶來的挑戰和機會。

3.1 醫療保健和生物醫學

醫療保健和生物醫學是社會中一個巨大的應用領域。

在醫療保健領域，基礎模型能夠為患者改善醫療服務，提高照顧患者的效率和準確性。同時，基礎模型能夠減輕醫護服務的負擔，例如幫助查找相關案例。此外，手術機器人也是未來基礎模型的一個研究方向。

在生物醫學領域，科研發現需要大量的人力資源、實驗時間和財務費用。基礎模型可以促進生物醫學研究，例如藥物的發現和疾病的理解，最終轉化為改進的醫療保健解決方案。使用現有數據和公開研究促進和加速生物醫學發展是一個緊迫的問題。

醫療保健和生物醫學的基礎模型。

此外，未來醫療保健和生物醫學領域還面臨一些挑戰，包括多模態處理、可解釋性、法律和道德規范。

3.2 法律

在美國，尋求律師的法律援助可能是非常昂貴的，同時律師也是一個高壓職業。

基礎模型未來在法律領域的應用可能包括：利用機器學習輔助基于文本的法律任務。值得注意的是，法律的嚴謹性對 AI 模型提出了必然的高要求，包括數據標注成本非常高，通常只有律師具備創建高質量標簽的專業知識，并且各個案件的細微差別也是非常重要，不容忽視的。

3.3 教育

基礎模型已經開始用于提升一些教育領域特定任務的性能，論文的 3.3 部分從兩個具體任務展開了討論：（1）理解學生對概念的誤解；（2）提高學生對教學指導的理解能力。

教育領域的基礎模型應該在多個數據源上進行訓練以學得教育所必需的能力。

了解了各種主題和不同的教學技術的基礎模型可以以通用方式應用于一系列任務和目標，例如了解學生、協助教師、生成教育內容等。

此外，該論文對教育研究中基礎模型涉及的倫理問題進行了闡述。盡管人工智能助力教育的未來令人興奮，但在 AI 落地教育領域時必須要考慮隱私與安全、所需教師人數減少的影響、學生使用基礎模型工具的效率等重要問題，論文中也針對這幾個方面展開了討論。

第四章基礎模型相關技術

本章主要從技術的角度進行分析。基礎模型的技術基礎產生了決定其潛力的能力，如第二章介紹的。為了了解在開發中使用的技術，我們需要考慮數據、模型架構、系統、模型訓練以及模型的適應性這一系列因素，在研究中需要將模型和理論相結合。為了更好地理解模型，本章還討論了如何評估和解釋模型，以及模型的魯棒性、安全性和隱私性的重要性，此外，該研究還討論了 AI 安全領域，以確保這些模型在社會上進行部署時具有可靠性。

建模

本小節研究者討論和確認了基礎模型必不可少的 5 個屬性：可跨越的表現力（spanning expressivity）、可擴展性、多模態、內存容量以及可組合性。有了這些屬性，就可以有效地提取周圍的大量信息，從而成功地解決下游任務。例如表現力可以靈活地捕獲和吸收真實世界的信息；可擴展性可以熟練地處理大量的高維數據；多模態可以處理來自不同源和領域的內容；內存容量可以有效地存儲和檢索已獲得的知識；可組合性可以促進對新任務、設置和環境泛化。

基礎模型的五個關鍵屬性。

訓練

訓練目標是描述如何將模型體系架構和大量廣泛數據轉換為基礎模型的數學函數。該研究首先列舉了訓練方法需要實現的一些目標，可以考慮以下因素：利用廣泛的數據、域的完整性、可擴展性和計算效率。此外還描述了當前方法中重要的設計權衡，當前模型所探索的三個重要的設計選擇，最后概述了基礎模型訓練在未來道路上需要前進的目標。

適應性

雖然基礎模型提供了一個強大的通用引擎來處理多模態信息，但在某些應用之前，適應性是一個基礎模型必要的。本小節描述了適應性的現有方法，以及決定特定適應性程序是否適合特定環境的幾個因素。此外，該研究還描述了基礎模型適應性的多種示例，最后，該研究提出了一個長遠的目標，即未來研究的基礎模型適應性。

評估

對于基礎模型來說，模型評估是至關重要的。本小節首先介紹了幾種評估：內在評估，包括從廣泛的外在評估中引入內在評估、對內在性質進行直接評估；外在評估與適應性，包括對特定任務而調整基礎模型所花費的資源進行核算。此外本小節還介紹了評估設計等內容。

系統

計算機系統是開發基礎模型的最大瓶頸之一，它們通常需要大量計算資源來訓練，此外，這些模型可能會隨著時間的推移而變得更大，訓練難度將會升級。在本節中，研究者討論了在開發和生產大規模基礎模型時，計算機系統面臨的挑戰。主要從以下幾個方面進行介紹：通過協同設計提高性能、自動優化、基礎模型的產品化等。

除了上述介紹的內容之外，在第四章中還介紹了：數據方面，討論了基礎模型數據生命周期的管理，并概述了關于數據的四個需求，包括大規模數據管理、支持異構數據源、數據治理和數據質量監控；安全和隱私方面，討論了單點故障、安全瓶頸等內容。

第五章基礎模型的社會影響

本章主要介紹了基礎模型的社會影響，包括模型本身的構建和它們在開發應用程序中的作用，需要研究者仔細檢查。具體而言，該研究認為基礎模型具有廣泛的社會影響，但同時也非常難以理解：基礎模型不是直接部署的中間資源，而是作為一個基礎，來進一步的進行適應性。因此，用傳統方法對技術的社會影響進行推理可能很復雜：對于具有明確目的的系統來說，社會影響相對來說更容易（但仍然很難）理解。本章中，該研究討論并開始理解基礎模型社會影響的復雜性。本章討論了不公平帶來的危害和濫用的危害；基礎模型對經濟和環境的影響；基礎模型在法律和道德方面影響。

不平等與平等：本小節主要描述了內在偏差，即間接但普遍地影響了下游基礎模型的屬性，此外還包括外部損害，即在特定下游應用環境中產生的損害等內容。

濫用：考慮基礎模型的濫用——人們按照預期使用基礎模型的情況（例如，生成語言），但是這種功能被有意地利用來對人群或個人造成傷害。本小節概述了基礎模型如何使新的濫用形式成為可能，并介紹了支持濫用檢測和緩解的新工具。

圖中顯示了基礎模型對操控性和有害內容生成的影響，以及對檢測的影響。

環境：本小節主要介紹了碳影響應該得到緩解、在使用基礎模型之前應該評估成本和收益、應系統地報告基礎模型對碳以及能源影響等內容。

用于部署基礎模型的成本效益分析的可視化。

合法性：本小節描述了美國法律如何影響、約束或促進基礎模型的創建和使用。我們注意到，圍繞算法工具的法律前景仍然具有不確定性。本文強調與（1）模型訓練、（2）模型預測的可靠性（3）模型輸出保護相關的問題。

此外，本章還介紹了經濟，基礎模型有潛力通過提高生產力和創新來大幅提高整體生活水平，這些模型可以用來替代人類勞動，增強人類能力，或者幫助研究者發現新的任務和機會。本節最后還介紹了道德規范相關內容。

付費5元查看完整內容

Transformer · 預訓練模型 · 自然語言處理 ·

2021 年 8 月 13 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作，涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示，并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識，避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中，我們首先對自監督學習做一個簡要的概述。接下來，我們解釋了各種核心概念，如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來，我們介紹了 T-PTLMs的一個新分類，然后簡要概述了各種基準測試，包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后，提出了進一步完善這些模型的研究方向。我們堅信，這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1]， BERT [2]， XLNet [3]， RoBERTa [4]， ELECTRA [5]， T5 [6]， ALBERT [7]，BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功，因為它們能夠從大量未標記的文本數據中學習通用語言表征，然后將這些知識轉移到下游任務中。在早期，NLP系統大多是基于規則的，后來被機器學習模型所取代。機器學習模型需要特征工程，這需要領域專業知識，也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展，增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型，除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例，生成這些實例的代價是昂貴的。然而，我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用，從而在目標任務中很好地執行。在這里，目標任務應該與源任務類似。基于遷移學習的思想，計算機視覺研究人員使用ImageNet[20]，[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務，然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識，他們在許多CV任務[18]，[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外，由于RNN按順序處理輸入，即逐字處理，并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷，Vaswani等人[25]提出了一種完全基于自注意的深度學習模型，稱為Transformer。與RNN相比，自注意允許更多的并行化，并且可以很容易地建模長期上下文，因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下，Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是，很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻，已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上，提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進，而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明，T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展，如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后，T-PTLMs也被開發用于其他領域，如金融[31]，法律[32]，[33]，新聞[34]，編程[35]-[39]，對話[40]，網絡[41]，學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習，因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為