任務語義可以用一組輸入到輸出的例子或一條文本指令來表示。傳統的自然語言處理(NLP)機器學習方法主要依賴于大規模特定任務樣本集的可用性。出現了兩個問題: **首先,收集特定于任務的標記示例,不適用于任務可能太復雜或太昂貴而無法注釋,或系統需要立即處理新任務的場景;其次,這對用戶來說并不友好,因為最終用戶可能更愿意在使用系統之前提供任務描述,而不是一組示例。**因此,社區對NLP的一種新的監督尋求范式付出了越來越大的興趣: 從任務指令中學習。盡管取得了令人印象深刻的進展,但社區仍面臨一些共同的問題。本文試圖從以下幾個方面對當前的指令學習研究進行總結:(1)什么是任務指令,存在哪些指令類型?(ii)如何為指令建模?(iii)哪些因素影響和解釋指令的執行?(四)指令中還存在哪些挑戰?據我們所知,這是第一次對文本指令的全面調查。
1. 引言
人工智能的一個目標是建立一個可以普遍理解和解決新任務的系統。標記示例作為主流任務表示,不太可能大量可用,甚至不存在。那么,是否有其他任務表示可以有助于任務理解?任務指令為表達任務語義提供了另一個監督維度,指令往往包含比單個標記示例更抽象和全面的目標任務知識。如圖1所示,通過任務指令的可用性,可以快速構建系統來處理新任務,特別是在特定于任務的注釋稀缺的情況下。**指令學習是受典型的人類對新任務的學習啟發,**例如,小孩可以通過從指令和幾個例子中學習來很好地解決一個新的數學任務(Fennema et al., 1996;)。這種新的學習范式最近引起了機器學習和NLP社區的主要關注(Radford等人,2019;Efrat和Levy, 2020;Brown等人,2020年)。
當談到任務指令時,我們大多數人首先會將這個概念與提示聯系起來——使用一個簡短的模板將新的輸入重新格式化為語言建模問題,以便為啟動PLM回復響應 (Liu et al., 2023)。盡管提示在文本分類、機器翻譯等中普遍存在,但提示只是指令的一種特殊情況。本文對指令驅動的NLP研究進行了全面和更廣泛的看法。具體來說,我們試圖回答以下問題:
什么是任務指令,存在哪些指令類型?
給定任務指令,如何對其進行編碼以幫助完成目標任務?
哪些因素(如模型大小、任務數量)影響指令驅動系統的性能,以及如何設計更好的指令?
指令學習能帶來什么應用?
指令學習中存在哪些挑戰,未來的方向是什么?
**據我們所知,這是第一篇調研文本指令學習的論文。**與一些現有的側重于特定上下文指令的調研相比,例如提示(Liu等人,2023)、按輸出輸入的演示(Dong等人,2023)或推理(Huang和Chang, 2022;Qiao et al., 2022),我們提供了一個更廣泛的視角,以有組織的方式連接該領域的不同研究。希望本文能呈現一個更好的指令學習故事,吸引更多同行來研究這個具有挑戰性的人工智能問題。我們還發布了本次調研的相應閱讀清單。
2. 基礎知識
對于任務式學習,目標是通過遵循指令來驅動系統達到給定輸入的輸出。因此,一個數據集由三個元素組成: Input (X): 實例的輸入;它可以是一段文本(如情感分類)或一組文本(如文本蘊涵、問題回答等)。 Output (Y): 實例的輸出;在分類問題中,它可以是一個或多個預定義標簽;在文本生成任務中,它可以是任何開放形式的文本。
模板(T): 一種文本模板,試圖單獨表達任務的含義,或者充當X和y之間的橋梁。T可能還不是一種組件結構。
3. 什么是任務指令?
在之前的零樣本和少樣本NLP任務中已經使用了各種類型的文本指令,例如提示(Hendrycks等人,2021;Srivastava等人,2022;Bach等人,2022,除其他外),Amazon Mechanical Turk 指令(Mishra等人,2022b;王等,2022c;Yin等人,2022年),輔以演示的指令 (Khashabi等人,2020年;Ye等人,2021;Min等人,2022b,特別是)和思維鏈解釋(Wei等人,2022b;Lampinen等人,2022;Li et al., 2022c,等。不同的指令最初是為不同的目標設計的(例如,Mturk指令最初是為人類標注者理解而創建的,提示是為了控制PLM)。在本節中,如圖2所示,我們首先將這些指令總結為三個類別,它們執行T、X和?Y的不同組合(面向蘊含、面向PLM和面向人),然后比較它們并提供指令的正式定義。
3.1 I=T^+Y:Entailment主導的指令
處理分類任務的一個傳統方案是將目標標簽轉換為索引,并讓模型決定輸入屬于哪個索引。這種范式側重于對輸入語義進行編碼,同時丟失標簽語義。為了讓系統識別新標簽而不依賴于大量標記的示例,Yin等人(2019)提出為每個標簽建立一個假設——然后,推導標簽的真值被轉換為確定假設的真值。如表1所示,這種方法內置在指令(I)中,將模板(T)與標簽Y相結合,以解釋每個目標標簽(Y)。由于這種范式自然地滿足文本蘊含的格式(TE,其中任務輸入和指令可以分別被視為前提和假設),這些類型的指令被稱為"面向蘊含(Entailment)的指令"。面向蘊含(entailment)的指令學習方法具有以下4個方面的優勢:(i)保持了標簽語義,使得輸入編碼和輸出編碼在建模輸入輸出關系時得到同等的重視;(ii)形成了一個統一的推理過程——文本蘊含——來處理各種NLP問題;(iii)它創造了利用現有TE數據集的間接監督的機會,以便預訓練TE模型有望在不進行特定任務微調的情況下在這些目標任務上工作;(iv)將原始的閉集標簽分類問題擴展為具有少量甚至零類屬類樣本的開放域開放形式標簽識別問題。因此,它被廣泛應用于各種少樣本/零樣本分類任務中,如分類主題(Yin等人,2019)、情感(Zhong等人,2021)、姿態(Xu等人,2022b)、實體類型(Li等人,2022a)和實體關系(Murty等人,2020;Xia等,2021;Sainz等人,2021,2022)。
3.2 I=T^+X:面向PLM的指令(如?提示)
提示是面向PLM的指令的代表,它通常是一個簡短的語句,前面加上任務輸入(前綴提示),或者一個完形填空問題模板(完形填空提示)。它主要用于從預訓練的語言模型(PLM)中查詢中間響應(可以進一步轉換為最終答案)。由于提示輸入符合PLM的預訓練目標(例如,完形風格的輸入滿足掩碼語言建模目標(Kenton和Toutanova, 2019)),它有助于擺脫對傳統監督微調的依賴,并大大減輕人工標注的成本。因此,快速學習在大量之前的少量/零樣本NLP任務上取得了令人印象深刻的結果,例如問答(Radford等人,2019;Lin等人,2021)、機器翻譯(Li等人,2022d)、情感分析(Wu和Shi, 2022)、文本蘊含(Schick和Schütze, 2021a,b)和命名實體識別(Cui等人,2021;王等,2022a)。
3.3 以人為本指示
以人為本的指令基本上是指在人類注釋平臺上用于眾包的指令(例如Amazon MTurk指令)。與面向人的指令不同,面向人的指令通常是一些人可讀的、描述性的、段落式的任務特定文本信息,由任務標題、類別、定義、要避免的事項等組成。因此,以人為本的指令更加友好,可以理想地應用于幾乎任何復雜的NLP任務。
4 如何為指令建模?在本節中,我們總結了幾種最流行的指令學習建模策略。總體而言,本文介紹了四種不同的建模方案:對于早期的基于機器學習的系統,(i)基于語義解析器的策略是編碼指令的常用方法;隨著神經網絡和預訓練語言模型的出現,(ii)基于提示模板和(iii)基于前綴指令的指令學習模式成為兩種備受青睞的范式;最近,(iv).基于超網絡的方法也引起了更大的興趣。
5 應用
5.1人機交互
文本指令可以自然地視為一種人機交互方式。之前的許多工作使用自然語言指令來"指導"計算機執行各種現實世界的任務。
對于非NLP(多模態)任務,大多數專注于基于環境的語言學習,即驅動智能體將自然語言指令與環境相關聯,并做出相應的反應,例如從圖像/視頻中選擇提到的對象(Matuszek等人,2012;Krishnamurthy和Kollar, 2013;Puig等人,2018),按照導航指示移動智能體(Tellex等人,2011;Kim和Mooney, 2012;陳,2012;Artzi和Zettlemoyer, 2013;Bisk et al., 2016),在地圖上繪制相應的痕跡(Vogel和Jurafsky, 2010;Chen和Mooney, 2011),基于給定規則玩足球/紙牌游戲(Kuhlmann等人,2004;愛森斯坦等人,2009;Branavan等人,2011;Babe s-Vroman等人,2012;Goldwasser和Roth, 2014),生成實時體育廣播(Chen和Mooney, 2008;Liang et al., 2009)、控制軟件(Branavan et al., 2010)和查詢外部數據庫(Clarke et al., 2010)等。與此同時,指令也被廣泛適用于幫助與系統溝通,以解決NLP任務,例如,遵循操作字符串的指令(Gaddy和Klein, 2019),根據給定的解釋對電子郵件進行分類(Srivastava等人,2017,2018),以及文本到代碼生成(Acquaviva等人,2021)。近年來,越來越多的研究傾向于以迭代和模塊化的方式設計人機通信過程。例如,Li et al.(2020)構建了一個系統來幫助用戶處理日常任務(例如,點咖啡或請求Uber)。得益于用戶友好的圖界面,系統可以迭代地詢問有關任務的問題,用戶可以不斷改進他們的指令,以避免不明確的描述或模糊的概念。類似地,Dwivedi-Yu等人(2022)提出了一個基準來迭代地指導PLM改進文本,其中每次迭代只使用具有精確目的的一小段指令(例如,“簡化文本”或“使文本中性”)。此外,Chakrabarty等人(2022)構建了一個協作寫詩系統,用戶可以最初提供一個模棱兩可的指令(例如,“寫一首關于蛋糕的詩”),然后通過觀察模型的中間輸出,用更多的細節逐步完善指令(例如,“包含單詞-‘巧克力’”)。同時,Mishra和Nouri(2022)提出了一個傳記生成系統,該系統逐步從用戶那里收集必要的個人信息(通過在對話場景中提出問題來引導用戶),并最終生成一個段落式的傳記。針對非專家用戶難以一次性編寫完整的指令的問題,在基于指令的人工智能系統設計中采用迭代式、模塊化的設計范式,可以引導用戶逐步豐富任務指令,從而有效地緩解用戶的思維需求,使系統更加面向用戶。鑒于其實用價值,本文強調了這一分支工作的重要性。
5.2 數據和特征增強
任務指令被認為是一種間接的監督資源,其中有時包含一些膚淺且武斷的規則。這些規則也被稱為標記函數,可以直接應用于注釋(例如,句子“a very fair price”是情感積極的,因為“單詞‘price’之前直接有‘fair’”)。因此,現有的一些工作還將指令作為遠程監督來執行數據或特征增強(Srivastava等人,2018;Hancock等人,2018;Ye等人,2020)。例如,Srivastava等人(2017)使用語義解析器將自然語言解釋轉換為邏輯形式,并將它們應用于數據集中的所有實例以生成額外的二進制特征。而Wang et al.(2020)利用標簽解釋自動標注原始語料庫,并在產生的噪聲數據上訓練分類器。除了直接的擴充外,Su等人(2022)進一步使用任務指令來豐富模型表示,并實現了較強的跨任務泛化。具體來說,他們在具有對比學習的不同指令數據集上訓練了一個嵌入模型(單個編碼器),然后使用該模型為下游未見過的任務生成基于指令的特定任務表示。
5.3 通用語言模型
根據通用人工智能(Artificial General Intelligence, AGI)的定義,“通用模型”通常是一個能夠勝任不同任務并在多變環境中可擴展的系統,這將遠遠超出其創造者最初的預期(Wang and Goertzel, 2007;Goertzel寫到,2014)。雖然特定于NLP領域,但通用語言模型應該是一個優秀的多任務助手,能夠以完全零樣本/少樣本的方式熟練處理各種現實世界的NLP任務和不同的語言(Arivazhagan等人,2019;Pratap等人,2020;Wei等,2022a)。由于許多現有工作證明了在跨任務泛化中使用指令的驚人能力(Wei等人,2022a;Sanh等人,2022;Mishra等人,2022b;王等,2022c;Chung等人,2022,除其他外),該指令很可能成為實現這一最終目標的突破。
值得注意的是,最近指令的兩個顯著應用,即InstructGPT (Ouyang et al., 2022)和ChatGPT,也表明在構建通用語言模型方面邁出了一大步。然而,與其他主要采用指令學習的工作不同,ChatGPT還采用了一些其他組件,如人工反饋的強化學習(RLHF) 14。雖然“哪個組件對ChatGPT的出色結果貢獻更大”的答案仍然是模糊的,需要進一步調研,但我們介紹了一些最近的工作,以強調指令學習的關鍵作用。例如,Chung等人(2022)進行了廣泛的實驗來評估人類對PaLM的偏好對齊(Chowdhery等人,2022)。他們發現,即使沒有任何人類反饋,指令微調也顯著降低了PaLM開放式世代的毒性,比如性別和職業偏見。此外,其他一些工作也單獨采用創造性指導而不是人工反饋,并取得了顯著的跨任務結果(Bai等人,2022;Honovich等人,2022a;王志強等,2022b)。盡管ChatGPT仍然存在許多不令人滿意的方面,距離通用語言模型還很遠(Qin等人,2023;郭等,2023;Koco 'n等人,2023;Wang et al., 2023),我們希望AGI的目標可以通過采用和發展更強大的技術來繼續推動,包括指令學習。
轉載機器之心報道
機器之心編輯部
為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。
從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。
論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb
在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。
LLMs 概覽
**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。
LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。
關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。
下表 2 列出了常用的數據源。
**預訓練 **
預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。
收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。
架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。
由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。
LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:
對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。
使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**
作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務
圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。
高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。
總結與未來方向
在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。
1. 引言
近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。
諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。
**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。
為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。
本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。
**總而言之,本綜述的主要貢獻是: **
(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。
2. 什么是自然語言推理
目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。
NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。
3. 為什么要用PLMs進行自然語言推理
預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。
4. 自然語言推理方法
在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。
給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。
5. 結論
在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。
為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?
最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。
**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。
//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9
1. 引言
預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。
**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。
**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。
有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:
本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。
我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。
通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。
最近OpenAI推出的ChatGPT持續成為熱點,背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型(也稱預訓練模型、基礎模型等)通常是在大規模無標注數據上進行訓練,學習出一種特征和規則,核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類,36頁pdf詳述大模型分類圖。
在過去的幾年里,我們已經看到了幾十種Transformer家族的模型的迅速出現,它們的名字都很有趣,但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。
1. 引言
Transformer是一類深度學習模型,由一些架構特征定義。2017年,谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而,在那之前,注意力只是這些模型使用的機制之一,這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣,transformer論文的關鍵見解是,注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此,我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此,我們將簡要描述最重要的方面,因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始,并描述一些組件。
從人類反饋(或偏好)中進行強化學習,即RLHF(或RLHP),最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近,它已被應用于ChatGPT和類似的對話代理,如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練,我們就可以對對話產生不同的響應,并讓人類對結果進行排名。在強化學習的背景下,我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。
2. Transformers分類
希望到目前為止,您已經理解了什么是Transformer模型,以及為什么它們如此流行和有影響力。在本節中,我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成,對于最初的Transformer也是如此。然而,從那時起,已經取得了不同的進展,揭示了在某些情況下,只使用編碼器,只使用解碼器,或兩者都是有益的。 編碼器預訓練這些模型也被稱為雙向編碼或自編碼,在預訓練過程中只使用編碼器,通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段,注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用,如句子分類或抽取式問答。 解碼器預訓練
解碼器模型通常被稱為自回歸模型,在預訓練過程中只使用解碼器,而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型,也稱為序列到序列,使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞,而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成,但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務,如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時,我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務,例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類,所有這些任務都可以被認為是自監督的:
推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。
本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。
//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5
1. 引言
推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。
**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。
然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。
本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。
2. 什么是推理?
推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:
演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。
歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。
溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏
3. 大語言模型中的推理
推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。
3.1 全監督微調
在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。
3.2 提示與上下文學習
大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。
3.3 混合法
雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。
4 度量大型語言模型的推理能力
文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。
4.1 下游任務性能
衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。
**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。
**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。
**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。
4.2 推理的形式化分析
盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。
大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。
引言
近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。
這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。
本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:
先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。
論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。
范式1: 先訓練,然后微調
傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。
范式2: 基于提示的學習
我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。
下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。
范式3 NLP即文本生成
基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。
總結
在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。
由于信息和錯誤信息在現代媒體生態系統中的傳播速度,事實核查變得越來越重要。因此,研究人員一直在探索如何實現事實核查的自動化,使用基于自然語言處理、機器學習、知識表示和數據庫的技術來自動預測聲明的準確性。在本文中,我們對自然語言處理產生的自動事實檢查進行了綜述,并討論了它與相關任務和學科的聯系。在這個過程中,我們概述了現有的數據集和模型,旨在統一各種定義,并確定共同的概念。最后,我們強調了未來研究的挑戰。
//www.zhuanzhi.ai/paper/c9ad2ec91cd86cc9c8598a6917ecd942
事實核查是評估書面或口頭聲明是否屬實的任務。這是新聞業的一項基本任務,通常由PolitiFact等專門組織手工完成。報紙、雜志、書籍的出版商在出版前,除了進行外部事實核查外,還進行內部事實核查,以促進報道的真實性。圖1顯示了來自PolitiFact的一個示例,以及證據(總結)和結論。
事實核查是一項耗時的任務。為了評估圖1中的說法,記者需要搜索潛在的許多來源,以找到在特朗普和奧巴馬執政期間的就業增長情況,評估每個來源的可靠性,并進行比較。這個過程可能需要專業的事實核查員幾個小時或幾天(Hassan et al., 2015;Adair等人,2017)。更糟糕的是,事實核查員經常在嚴格和緊迫的期限下工作,特別是在內部流程的情況下(Borel, 2016;戈德勒和賴克,2017),一些研究表明,在所有發表的文章中,只有不到一半的文章經過了驗證(Lewis et al., 2008)。考慮到出現的新信息的數量和傳播速度,手工驗證是不夠的。
自動化事實核查過程已經在計算新聞的背景下進行了討論(Flew et al., 2010; Cohen et al., 2011; Graves, 2018),并在人工智能領域得到了極大的關注。Vlachos和Riedel(2014)提出將其構建為一個組件序列——識別需要檢查的聲明,找到合適的證據,得出結論——可以建模為自然語言處理(NLP)任務。這推動了自動化管道的開發,這些自動化管道由子任務組成,可以映射到NLP社區中充分探索的任務。數據集的發展使進展成為可能,這些數據集包括從事實核查網站收集的聲明,如Liar(王,2017),或專門為研究而設計的聲明,如FEVER(Thorne et al., 2018a)。
越來越多的研究機構正在探索事實核查自動化所必需的各種任務和子任務,并滿足應對新出現挑戰的新方法的需要。早期的發展在Thorne和Vlachos(2018)進行了調研,這仍然是最接近該主題的詳盡概述。然而,他們提出的框架不包括確定哪些聲明要求需要驗證的工作(即聲明檢測)的幾篇論文調研了這項任務的各個組成部分。ZZubiaga et al. (2018) 和 Islam et al. (2020)關注識別謠言在社交媒體上,Kucuk(2020)和Hardalov et al。(2021)檢測的立場對聲明證據,Kotonya和托尼(2020)為factchecks生產解釋和理由。雖然這些調研對了解事實核查技術的各個方面非常有用,但它們是碎片化的,并集中于具體的子任務和組件;我們的目標是提供一個全面和詳盡的主題作為一個整體。
一些論文對相關課題進行了調查。Lazer et al. (2018) 和 Zhou 和 Zafarani (2020) 調研了假新聞方面的工作,包括對這個問題的描述性工作,以及試圖通過計算手段打擊假新聞的工作。Oshikawa等人(2020)也對用于假新聞檢測的NLP方法進行了全面綜述。然而,假新聞檢測與事實核查的范圍不同,前者側重于評估新聞文章,包括基于與真實性無關的方面的標簽項目,如諷刺檢測(Oshikawa et al., 2020; Zhou 和 Zafarani, 2020)。此外,還經常考慮其他因素,如索賠要求所觸及的受眾,以及索賠要求的意圖和形式。Da San Martino等人(2020b)最近進行的一項調研顯示,這些因素在宣傳檢測中也很重要。與這些努力不同,本綜述中討論的工作集中于評估一般領域聲明的準確性。最后,Shu et al.(2017)和da Silva et al.(2019)以社交媒體數據為重點,對假新聞檢測和事實核查的研究進行了調研,而這項調研涵蓋了跨領域和來源的事實核查,包括新聞通訊社、科學等。
在這個綜述中,我們提出了一個全面和最新的調研自動化事實核查,統一了各種組成部分和定義,在以前的研究發展成一個共同的框架。首先,我們定義了事實核查框架的三個階段——聲明檢測、證據檢索和聲明驗證,后者包括判決預測和理由生成。然后,我們給出現有數據集和建模策略的概述,根據我們的框架對它們進行分類和上下文化。最后,我們討論了已經解決的關鍵研究挑戰,并給出了我們認為未來研究應該解決的挑戰的方向。我們伴隨調研而來的是一個資料庫,它提供資源和研究進展的及時更新。
文本生成的目標是讓機器用人類語言表達。它是自然語言處理(NLP)中最重要也是最具挑戰性的任務之一。自2014年以來,各種由Seq2Seq首創的神經編解碼器模型被提出,通過學習將輸入文本映射到輸出文本來實現這一目標。然而,僅憑輸入文本往往無法提供有限的知識來生成所需的輸出,因此在許多真實場景中,文本生成的性能仍然遠遠不能令人滿意。為了解決這個問題,研究人員考慮將輸入文本之外的各種形式的知識納入生成模型中。這一研究方向被稱為知識增強文本生成。在這項綜述中,我們提出了一個全面的綜述,在過去的五年里,知識增強文本生成的研究。主要內容包括兩部分:(一)將知識集成到文本生成中的一般方法和體系結構;(二)根據不同形式的知識數據的具體技術和應用。這項綜述在學術界和工業可以有廣泛的受眾,研究人員和實踐者。