原創作者:崔涵,宋巖奇 轉載須標注出處:哈工大SCIR
一個一直以來的共識是,模型的規模越大,模型在下游任務上的能力越多、越強。隨著最近的新的模型的提出,大規模的語言模型出現了很多超乎研究者意料的能力。我們針對這些在小模型上沒有出現,但是在大模型上出現的不可預測的能力——“涌現能力”做了一些歸納和總結,分別簡要介紹了涌現能力的定義、常見的激發手段和具體的分類和任務。
Kaplan J等人[1]在 2020 年提出縮放法則,給出的結論之一是:模型的性能強烈依賴于模型的規模,具體包括:參數數量、數據集大小和計算量,最后的模型的效果(圖中表現為loss值降低)會隨著三者的指數增加而線性提高(對于單個變量的研究基于另外兩個變量不存在瓶頸)。這意味著模型的能力是可以根據這三個變量估計的,提高模型參數量,擴大數據集規模都可以使得模型的性能可預測地提高。Cobbe等人[2]的工作提出縮放定律同樣適用于微調過程。
圖1:Loss值隨計算資源、數據規模大小和參數量的指數提升呈線性下降
縮放定律的一個重要作用就是預測模型的性能,但是隨著規模的擴大,模型的能力在不同的任務上并不總表現出相似的規律。在很多知識密集型任務上,隨著模型規模的不斷增長,模型在下游任務上的效果也不斷增加;但是在其他的復雜任務上(例如邏輯推理、數學推理或其他需要多步驟的復雜任務),當模型小于某一個規模時,模型的性能接近隨機;當規模超過某個臨界的閾值時,性能會顯著提高到高于隨機(如下圖所示)。這種無法通過小規模模型的實驗結果觀察到的相變,我們稱之為“涌現能力”。
在其他的學科中已經有很多與“涌現能力”相關的研究了,不同學科解釋的方式和角度也不盡相同。物理學中對“涌現能力”的定義[3]是:
當系統的量變導致行為的質變的現象(Emergence is when quantitative changes in a system result in qualitative changes in behavior)。 對于大規模語言模型的涌現能力,在 Jason Wei 等人的工作中[4]的工作中,給出的定義: 在小模型中沒有表現出來,但是在大模型中變現出來的能力"(An ability is emergent if it is not present in smaller models but is present in larger models.)。 涌現能力大概可以分為兩種:通過提示就可以激發的涌現能力和使用經過特殊設計的prompt激發出的新的能力。
通過 prompt 激發大模型能力的方法最早在GPT3[5]的論文中提出提示范式的部分加以介紹:給定一個提示(例如一段自然語言指令),模型能夠在不更新參數的情況下給出回復。在此基礎上,Brown等在同一篇工作中提出了Few-shot prompt,在提示里加入輸入輸出實例,然后讓模型完成推理過程。這一流程與下游任務規定的輸入輸出完全相同,完成任務的過程中不存在其他的中間過程。 下圖展示了來自不同的工作的對于大模型的在few-shot下測試結果。其中,橫坐標為模型訓練的預訓練規模(FLOPs:floating point operations,浮點運算數。一個模型的訓練規模不僅和參數有關,也和數據多少、訓練輪數有關,因此用FLOPs綜合地表示一個模型的規模);縱軸為下游任務的表現。可以發現,當模型規模在一定范圍內時(大多FLOPs在10^22以內),模型的能力并沒有隨著模型規模的提升而提高;當模型超過一個臨界值時,效果會馬上提升,而且這種提升和模型的結構并沒有明顯的關系。 圖2:在普通prompt方式下,不同任務上的效果隨模型訓練的計算量的提升的變化
隨著對大規模語言模型的研究越來越深入,為大模型添加prompt的方式也越來越多,主要表現出的一個趨勢是,相比于普通的 few-shot 模式(只有輸入輸出)的 prompt 方式,新的方法會讓模型在完成任務的過程中擁有更多的中間過程,例如一些典型的方法:思維鏈(Chain of Thought)[6]、寄存器(Scratchpad)[7]等等,通過細化模型的推理過程,提高模型的下游任務的效果。 下圖展示了各種增強提示的方法對于模型的作用效果,具體的任務類型包括數學問題、指令恢復、數值運算和模型校準,橫軸為訓練規模,縱軸為下游任務的評價方式。與上圖類似,在一定的規模以上,模型的能力才隨著模型的規模突然提高;在這個閾值以下的現象則不太明顯。當然,在這一部分,不同的任務采用的激發方式不同,模型表現出的能力也不盡相同,我們會在下文分類介紹。
圖3:在增強的prompt方式下,一些復雜任務的效果隨模型訓練的計算量提升而提升
在這一部分,我們并沒有沿用Jason Wei 等人[4]的工作中以使用方法分類的脈絡,因為同一種方式激發出的能力可能能應用于多個任務,多種激發方式也可能只是不同程度地提升同種能力;我們采用Yao等人[8]的方式,從能力出發,對不同的方法激發出的能力和激發效果進行總結。
大規模的語言模型展現出了優秀的上下文學習能力(In-context learning)。這種能力并非大模型專屬,但是大模型的足夠強大的上下文學習能力是之后各種涌現能力激發的基礎。類似于無監督的預測,在上下文學習過程中,不需要對模型進行參數調整,只需要在輸入測試樣例之前輸入少量帶有標注的數據,模型就可以預測出測試樣例的答案。 有關上下文學習的能力來源仍然有很多討論。在 Min等人[9]的實驗中,分析了上下文學習能力的作用原理。實驗表明,上下文學習的過程中,prompt中的ground truth信息并不重要,重要的是prompt中實例的形式,以及輸入空間與標簽空間是否與測試數據一致。Xie 等人的工作[10]將上下文學習的過程理解為一個貝葉斯推理的過程,在in-context learning的過程中,模型先基于prompt推測concept,然后基于concept和prompt生成output。在對多個樣例進行觀測的過程中,prompt中的數據會給concept提供“信號”(與預訓練過程中的相似之處)和“噪聲”(與預訓練過程分布差別較大之處),當信號大于噪聲時,模型就可以推理成功。
在問答和常識推理任務上需要模型具有較好的知識推理能力,在這種情況下,對大型模型進行提示不一定優于精調小型模型。但是大模型擁有更高的標注效率,因為:
在許多數據集中,為了獲得所需的背景/常識知識,小模型需要一個外部語料庫/知識圖譜來檢索,或者需要通過多任務學習在增強的數據上進行訓練
對于大型語言模型,可以直接去掉檢索器,僅依賴模型的內部知識,且無需精調
圖4:之前的需要外部檢索的SOTA和GPT-3的性能對比
上表來自于 Yu等人[11]的工作。如表中所示,雖然在常識/開放域問答任務上GPT-3 并沒有明顯優于之前的精調模型,但它不需要從外部文檔中檢索,因為其本身就包含了知識。
為了理解這些結果的重要性,我們可以回顧一下NLP的發展歷史:NLP 社區從一開始就面對著如何有效編碼知識的挑戰。研究者們一直在不斷探索如何把知識保存在模型外部或者內部的方法。上世紀九十年代以來,研究者們一直試圖將語言和世界的規則記錄到一個巨大的圖書館中,將知識存儲在模型之外。但這是十分困難的,畢竟我們無法窮舉所有規則。因此,研究人員開始構建特定領域的知識庫,來存儲非結構化文本、半結構化(如維基百科)或完全結構化(如知識圖譜)等形式的知識。通常,結構化知識很難構建,但易于推理,非結構化知識易于構建,但很難用于推理。然而,語言模型提供了一種新的方法,可以輕松地從非結構化文本中提取知識,并在不需要預定義模式的情況下有效地根據知識進行推理。下表為優缺點對比:
構建推理結構化知識難構建需要設計體系結構并解析容易推理有用的結構已經定義好了非結構化知識容易構建只存儲文本即可難推理需要抽取有用的結構語言模型容易構建在非結構化文本上訓練容易推理使用提示詞即可
在 2018 年至 2022 年期間,NLP、CV 和通用機器學習領域有大量關于分布偏移/對抗魯棒性/組合生成的研究,人們發現當測試集分布與訓練分布不同時,模型的行為性能可能會顯著下降。然而,在大型語言模型的上下文學習中似乎并非如此。
圖5: GPT-3的同分布和不同分布之間的對比,以及和RoBERTa的對比 上圖來自Si等人[12]在2022年的研究,在此實驗中,同分布情況下基于prompt的 GPT-3 的效果并沒有精調后的 RoBERTa要好。但它在三個其他分布(領域切換、噪聲和對抗性擾動)中優于 RoBERTa,這意味著 GPT3 更加魯棒。
圖6:不同復雜程度的提示在不同分布中對模型效果的影響 此外,即使存在分布偏移,好的提示詞所帶來的泛化性能依舊會繼續保持。比如Fu 等人[13]2022年的研究(上圖所示),輸入提示越復雜,模型的性能就越好。這種趨勢在分布轉移的情況下也會繼續保持:無論測試分布與原分布不同、來自于噪聲分布,或者是從另一個分布轉移而來的,復雜提示始終優于簡單提示。
復雜推理能力包含若干方面,如數學推理能力、代碼生成、腳本生成等等,以下的介紹我們以數學推理能力為例。數學推理的一個典型的數據集是GSM8K,其由8.5K個人工標注的高質量的小學數學問題組成。數據集的標注內容不僅包含最終結果,還包含得到結果的2~8個推理步驟。
在最開始的GPT3的論文中,對于這個任務的學習方式仍然是微調的方式,得到的結果基本符合縮放定律。作者在論文里得出一個結論:
175B的模型仍然需要兩個額外數量級的訓練數據才能達到80%的準確率。 但是在之后的工作中,通過其他的方式大大提高了該任務上的結果。Wei等人[6]通過思維鏈的方式,將540B的PaLM模型上的準確率提高到56.6%,這一過程并沒有微調,而是將8個提示示例作為prompt,通過few-shot的方式激發模型的推理能力。在此基礎上,Wang等人[14]通過多數投票的方式,將這一準確率提高到74.4%。Yao等人[15]提出Complexity-based Prompting,通過使用更復雜、推理步驟更多的樣例作為prompt,進一步提高模型的效果。在此之外,數據集的難度也越來越高:Chung等人[16]將測試范圍擴展到高中的各個學科;Minerva[17]的工作將測試范圍擴展到大學的各個學科;Jiang等人[18]進一步將測試范圍擴展到國際數學奧林匹克問題上。
我們看到,從涌現能力的角度講,模型在在達到一定規模后,用恰當的方式激發出的性能確實遠遠超過縮放法則所預測的效果;與此同時,各種方法都是few-shot或zero-shot的方式,需要的數據也更少。現在并沒有太多工作能夠直接對比在同樣的足夠大的模型上,微調和prompting的方式的性能差距;但是在下游任務數據集的規模往往遠小于模型充足訓練所需要的數據規模的情境下,利用prompting激發模型本來的能力確實能夠顯著提高效果,這也是目前大多數任務面臨的情況。
在斯坦福大學最新的工作[19]中指出,大模型的涌現能力來自于其不連續的評價指標,這種不連續的評價指標導致了模型性能在到達一定程度后出現“大幅提升”。如果換成更為平滑的指標,我們會發現相對較小的模型的效果也并非停滯不前,規模在閾值以下的模型,隨著規模的提高,生成的內容也在逐漸靠近正確答案。 為了驗證這一觀點,斯坦福的研究人員做了兩組實驗,第一組是將NLP中不連續的非線性評價指標轉為連續的線性評價指標,結果如下圖所示,模型的涌現能力消失了(從圖2到下圖)。 圖7:不同類型指標下,不同規模的模型的性能對比。當換為更加平滑的指標后,小模型的性能也隨著規模擴大而逐步提高 第二組實驗是將CV任務中的連續指標轉換為了類似NLP中的不連續指標,結果如下圖所示,CV任務中也出現了涌現能力:
圖8:更換指標之后,cv任務中的模型規模與模型效果之間的關系。當換為不平滑指標后,cv任務中的模型也出現類似的“涌現能力”
因此LLM中的涌現能力到底是什么,又是如何出現的,依然值得研究者們研究。
本文簡要介紹了涌現能力,具體包括涌現能力之前的縮放法則,涌現能力的定義,涌現能力的分類,還簡要介紹了不同涌現能力的典型激發方法。當然,歸根結底,“涌現能力”只是對一種現象的描述,而并非模型的某種真正的性質,關于其出現原因的研究也越來越多。現有的一些工作認為,模型的涌現能力的出現是和任務的評價目標的平滑程度相關的。在之后的工作中,更好的評級方式,更高的數據質量,更出乎人意料的prompt方式,都可能會更進一步提高模型的效果,并讓觀測到的效果得到更客觀的評價。
[1] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020. [2] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems. [3] Philip W. Anderson. More is different: Broken symmetry and the nature of the hierarchical structure of science. Science, 177(4047):393–396, 1972. [4] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022. [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. [6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022. [7] Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, et al. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021. [8] Fu, Yao; Peng, Hao and Khot, Tushar. (Dec 2022). How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources. Yao Fu’s Notion [9] Min S, Lyu X, Holtzman A, et al. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?[J]. arXiv preprint arXiv:2202.12837, 2022. [10] Xie S M, Raghunathan A, Liang P, et al. An explanation of in-context learning as implicit bayesian inference[J]. arXiv preprint arXiv:2111.02080, 2021. [11] Yu W, Iter D, Wang S, et al. Generate rather than retrieve: Large language models are strong context generators[J]. arXiv preprint arXiv:2209.10063, 2022. [12] Si C, Gan Z, Yang Z, et al. Prompting gpt-3 to be reliable[J]. arXiv preprint arXiv:2210.09150, 2022. [13] Fu Y, Peng H, Sabharwal A, et al. Complexity-based prompting for multi-step reasoning[J]. arXiv preprint arXiv:2210.00720, 2022. [14] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models. [15] Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning. [16] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models. [17] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models. [18] Jiang et. Al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs. [19] Schaeffer R, Miranda B, Koyejo S. Are Emergent Abilities of Large Language Models a Mirage?[J]. arXiv preprint arXiv:2304.15004, 2023. 本期責任編輯:張 宇本期編輯:李寶航
作為解決復雜問題的基本能力,推理可以為各種實際應用提供后端支持,如醫學診斷、談判等。本文對語言模型提示推理的前沿研究進行了全面概述。我們介紹了研究成果的對比和總結,并為初學者提供了系統性的資源。我們還討論了這種推理能力出現的潛在原因,并強調了未來研究的方向。
1. 引言
推理能力是人類智能的核心,然而在自然語言處理(NLP)領域,現代神經網絡很難從所告知或已知的信息中進行推理(Duan 等,2020;Wang 等,2021;Bhargava 和 Ng,2022)。幸運的是,zhe(Brown 等,2020;Chen 等,2021;Chowdhery 等,2022),擴大語言模型(LMs)的規模已經被證明可以賦予一系列推理能力,如算術推理(Wang 等,2022e;Lewkowycz 等,2022)、常識推理(Jung 等,2022;Liu 等,2022b)和符號推理(Zhou 等,2023;Khot 等,2023)。如圖 1 所示,這種能力可以通過提示策略(Liu 等,2022d)(如思維鏈提示(CoT)(Wei 等,2022b),生成知識提示(Liu 等,2022c))來解鎖,從而大大縮小人類與機器智能之間的差距。同樣,NLP領域有大量的工作被提出;然而,這些方法分散在各種任務中,并未得到系統的回顧和分析。
本綜述組織:在本文中,我們進行了第一次關于語言模型提示推理的最近進展調查。我們首先介紹這個方向的一些初步內容(§2),然后建議按照分類法組織相關工作(§3)。我們進一步提供深入的比較和討論以獲得洞察力(§4)。為了方便對這個領域感興趣的初學者,我們強調了一些開放資源(§5)以及潛在的未來發展方向(§6)。
為了提高語言模型提示的推理能力,研究主要有兩個分支。第一個分支專注于優化提示推理策略,如圖 2 所示,包括提示工程(§3.1.1)、過程優化(§3.1.2)和外部引擎(§3.1.3)。
在提示工程(§3.1.1)中,許多方法試圖提高提示 T 的質量,我們稱這些工作為單階段方法;而其他方法在每個推理階段將 ci 添加到(T ,Q)的上下文中,或為每個 ci 設計特定的 Tci ,我們將這些方法視為多階段方法。需要注意的是,這里的一個階段是指一個輸入輸出過程。對于過程優化(§3.1.2),最簡單的方法是引入帶有參數θ的優化器,用于在生成A時校準C,我們稱這些工作為自優化方法。另一些方法嘗試獲得多個過程來得到最終的答案組合,我們將這些工作視為集成優化方法。此外,整個優化過程可以通過對生成的三元組(Q,C,A)進行微調 pLM 迭代地集成,這被視為迭代優化方法。此外,一些工作利用外部推理引擎(§3.1.3)生成 T ,直接執行 C 或通過在 C 中植入工具 API 調用進行推理。研究的第二個分支重點關注提示的知識增強。需要注意的是,LM 中豐富的隱式“模型知識”(Han等人,2021)可以生成知識或基于知識的提示 T(§3.2.1)。同時,外部資源中的顯式知識也可以被利用并檢索為知識性提示,以增強推理 (§3.2.2)。
3. 方法體系
在本文中,我們調研了現有的基于語言模型提示的推理方法,并將它們歸類為策略增強推理(§3.1)和知識增強推理(§3.2)。如圖2所示,我們根據不同方法的獨特特征進一步細化它們。
3.1 策略增強推理
這方面工作的主要目的是設計更好的推理策略,具體體現在提示工程(§3.1.1)、流程優化(§3.1.2)和外部引擎(§3.1.3)中。
3.1.1提示工程
一種改進提示推理的直觀方法是提示工程。如圖3所示,我們根據提示階段的數量將這種方法分為單階段提示和多階段提示。
3.1.2 流程優化
自然語言理據(Ling et al., 2017a),也稱為CoT中的推理過程,在CoT提示中起著至關重要的作用(Ye and Durrett, 2022;Lampinen等人,2022;Min et al., 2022)。推理過程的一致性(Wang et al., 2022e)和推理步驟之間的連續性(Li et al., 2022d)都會影響最終答案的準確性。直觀地,如圖4所示,我們將這一行方法分為三種類型,即自優化、集成優化和迭代優化。
3.1.3 外部引擎
在LM提示下進行推理時,模型應具有語義理解(如問題)和復雜推理(如通過生成推理過程)的能力;然而,我們不能同時擁有魚和熊掌(Hendrycks等人,2021;Nogueira等人,2021;Lewkowycz等人,2022)。為了打破這個障礙,外部推理引擎可以幫助語言模型(見圖5)。
3.2 知識增強推理
正如Manning(2022)所指出的,知識在AI推理系統中起著至關重要的作用。知識增強方法旨在用隱式(§3.2.1)或顯式(§3.2.2)知識提示語言模型,以協助推理(見圖6)。
**3.2.1 隱式知識 **
研究人員已經證明,語言模型中包含大量的隱式知識(Davison等人,2019;Petroni等人,2019;Jiang等人,2020)。以下工作試圖將這種“模型知識”引入作為知識提示進行推理。劉等人(2022c)使用少量提示的 GPT-3(Brown 等人,2020)生成知識并提示下游 LM。劉等人(2022b)借助強化學習(Schulman等人,2017)進一步校準知識。與在知識生成階段使用少量提示的方法不同,孫等人(2022)提出了一種兩階段生成提示,其中還包括答案生成提示。其他工作(李等人,2022b;王等人,2023;Shridhar等人,2022;Magister等人,2022;何等人,2022)遵循知識蒸餾,通過提示更大的 LM 生成推理樣本并教授較小的 LM。
3.2.2顯性知識
盡管大型語言模型已顯示出強大的生成能力(Wiegreffe等人,2022;Li等人,2022b;Wang et al., 2023),他們仍然有幻覺事實的傾向(Rohrbach等人,2018)和產生不一致的知識(Liu et al., 2022b)。最近的工作表明,在上下文學習中檢索提示是取得良好性能的一種很好的方法(Liu等人,2022a;Rubin等人,2022)。由于常用檢索方法在度量結構化信息相似性方面的不穩定性,Lu等人(2023b)提出了一種基于策略梯度策略的動態提示檢索方法,無需暴力搜索。SU等人(2023)制定了一個選擇性的標注框架,以避免對大型標注檢索語料庫的需求。He et al.(2023)根據CoT的推理步驟檢索相關知識,以提供更可靠的解釋。Trivedi等人(2022)通過持久檢索wiki文檔來增強CoT提示,用于需要復雜的多步驟推理的開放域知識密集型任務。
4 比較與討論
表1顯示了不同方法的四種比較范圍。圖7進一步說明了不同規模的語言模型在算術推理的GSM8K (Cobbe等人,2021)上的性能比較。常識推理基準的類似結果見附錄A.3。模型規模較大的語言模型包含更多用于推理的隱性知識(Liang等人,2022b)。對代碼分支進行預訓練,不僅可以增強代碼生成/理解能力,還可以激發CoT的推理能力。.輸入上下文中包含的高質量推理依據是LM提示推理的關鍵。 基于語言模型提示的推理分類。
5. 未來的發展方向
我們列出了一些潛在的方向如下:
推理的理論原理。 高效的推理。 魯棒的、可靠的和可解釋的推理 多模態(交互式)推理。 可泛化(真)推理。
6. 結論
本文對語言模型提示推理進行了綜述,包括全面的比較,以及幾個研究方向。展望未來,來自NLP和其他領域的方法之間將有更有效的協同作用,并希望復雜和高效的LM提示模型將越來越多地為提高推理性能做出貢獻。
本次演講將涵蓋大型語言模型中的三個概念——縮放、涌現和推理。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。大型語言模型中的突現能力是在小型模型中不存在,但在大型模型中存在的能力。涌現能力的存在意味著進一步的擴展可能會導致語言模型具有更多的新能力。推理是機器學習長期以來面臨的挑戰的關鍵,例如從少數示例或抽象指令中學習。大型語言模型僅通過思維鏈提示就顯示出了令人印象深刻的推理能力,這鼓勵模型在給出最終答案之前生成中間推理步驟。
縮放是一個簡單的想法,具有挑戰性,但可以預見地使模型更好。(“縮放法”)
由于規模的擴大,大型語言模型獲得了小型模型中不存在的新能力。(“涌現能力”)
巧妙的提示引出了語言模型中的多步驟推理,解鎖了更多的新任務。(“提示工程”)
Jason Wei是谷歌Brain的高級研究科學家。他的工作圍繞大型語言模型的三個方面:指令微調、思維鏈提示和突發能力。他之前在谷歌的AI實習項目中工作,在此之前他畢業于達特茅斯學院。//www.jasonwei.net/
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
魯棒性是指系統在一定(結構、大小)參數攝動下,維持某些性能的特性。
對于機器學習問題而言,對抗樣本是一種很好的體現和驗證模型魯棒性的方式,模型魯棒性的問題遠遠不止對抗樣本一個方面,但是對抗樣本是模型魯棒性非常好的議題和出發點,代表了其中一種具體問題。因此,本文主要從對抗樣本角度出發簡述模型魯棒性相關內容。首先給出對抗樣本的實際案例,分析給出對抗樣本出現的原因,引出研究動機和意義。然后,介紹提升模型魯棒性的主要思路,包括信息瓶頸和互信息約束構建顯示正則的方法。最后給出總結和思考。