轉載機器之心報道
機器之心編輯部
為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。
從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。
論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb
在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。
LLMs 概覽
**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。
LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。
關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。
下表 2 列出了常用的數據源。
**預訓練 **
預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。
收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。
架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。
由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。
LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:
對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。
使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**
作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務
圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。
高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。
總結與未來方向
在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。
本文為從事大型語言模型(LLMs)的實踐者和終端用戶提供了一份全面且實用的指南,以應用于下游自然語言處理(NLP)任務。我們從模型、數據和下游任務的角度對LLMs的使用進行了討論和分析。首先,我們對當前基于GPT和BERT風格的LLMs進行了介紹和簡要總結。接著,我們討論了預訓練數據、訓練數據和測試數據的影響。最重要的是,我們詳細討論了在各種自然語言處理任務中使用和不使用大型語言模型的情況,如知識密集型任務、傳統自然語言理解任務、自然語言生成任務、新興能力和針對特定任務的考慮因素。我們通過各種使用和不使用的案例來說明LLMs在現實場景中的實際應用和局限性。同時,我們試圖了解數據的重要性及與每個NLP任務相關的特定挑戰。此外,我們還探討了偶然偏差對LLMs的影響,并深入研究了其他關鍵考慮因素,如效率、成本和延遲,以確保全面了解在實踐中部署LLMs。本全面指南旨在為研究人員和實踐者提供有價值的見解和最佳實踐,以便成功地將這些模型應用于廣泛的NLP任務。關于LLMs實用指南資源的策劃清單,定期更新,可以在
//github.com/Mooler0410/LLMsPracticalGuide 找到
1. 引言
近年來,大型語言模型的快速發展正在徹底改變自然語言處理領域[12, 128, 131]。這些強大的模型在處理各種NLP任務方面表現出巨大潛力,從自然語言理解(NLU)到生成任務,甚至為人工通用智能(AGI)鋪平了道路。然而,有效且高效地利用這些模型需要對它們的能力和局限性以及NLP涉及的數據和任務有實際的了解。 為了為從業者和終端用戶提供指導,本研究關注于在下游自然語言處理任務中與大型語言模型(LLMs)合作的實際方面。本指南旨在提供實用建議,說明為何在給定任務中選擇或不選擇LLMs,以及如何選擇最合適的LLM,考慮到諸如模型大小、計算需求以及領域特定預訓練模型的可用性等因素。從實際角度深入了解LLMs,因此,為從業者和終端用戶提供了成功利用LLMs處理自己的NLP任務所需的實用知識。
我們的工作結構如下。首先,我們通過討論最重要的模型,如 GPT 風格和 BERT 風格架構,簡要介紹了 LLM(大型語言模型)。接著,我們從數據的角度深入研究影響模型性能的關鍵因素,包括預訓練數據、訓練/調優數據和測試數據。最后且最重要的是,我們深入研究各種具體的 NLP 任務,為 LLM 在知識密集型任務、傳統 NLU 任務和生成任務的適用性提供見解,以及這些模型所具有的新興能力和面臨的現實挑戰。我們提供詳細的示例,突顯 LLM 在實踐中的成功案例和局限性。為了分析大型語言模型的能力,我們將它們與微調模型進行比較。目前,還沒有一個普遍認可的關于 LLM 和微調模型的定義。考慮到實用性,在我們的文章中,對它們的定義如下:LLM 是在大量數據集上進行預訓練,而不針對特定任務調優的龐大的語言模型;微調模型通常是較小的語言模型,它們也經過預訓練,然后在更小的特定任務數據集上進一步調優,以優化其在該任務上的性能。本文總結了使用 LLM 的以下主要實用指南:
自然語言理解。在面對分布之外的數據或非常少的訓練數據時,利用 LLM 的卓越泛化能力。 自然語言生成。利用 LLM 的能力為各種應用創建連貫、與上下文相關且高質量的文本。 知識密集型任務。利用 LLM 存儲的廣泛知識來處理需要特定領域專業知識或普遍世界知識的任務。 推理能力。理解并利用 LLM 的推理能力,以提高在各種情境下的決策和問題解決能力。
2 .模型實用指南
本節簡要介紹了最先進的大型語言模型(LLMs)。這些模型在訓練策略、模型架構和應用場景上有所不同。為了更清晰地了解LLM領域,我們將其分為兩類:編碼器-解碼器或僅編碼器的語言模型和僅解碼器的語言模型。在圖1中,我們展示了語言模型的詳細演變過程。從演化樹中,我們得出以下有趣的觀察:
a) 僅解碼器模型已逐漸主導了大型語言模型(LLMs)的發展。在LLMs發展的早期階段,僅解碼器模型并不像僅編碼器和編碼器-解碼器模型那樣受歡迎。然而,在2021年之后,隨著具有改變游戲規則的大型語言模型(如GPT-3)的引入,僅解碼器模型經歷了顯著的繁榮。同時,在BERT帶來的初步爆炸性增長之后,僅編碼器模型逐漸開始淡出人們的視線。
b) OpenAI始終保持著在LLM領域的領導地位,無論是現在還是可能的未來。其他公司和機構在開發與GPT-3和當前的GPT-4相媲美的模型方面,都在努力迎頭趕上OpenAI。這個領導地位可以歸因于OpenAI對其技術路徑的堅定承諾,即使最初并未得到廣泛認可。c) Meta在開源LLM方面做出了巨大貢獻,并推動了LLM的研究。在考慮到對開源社區的貢獻時,尤其是與LLM相關的貢獻,Meta是最慷慨的商業公司之一,因為Meta開發的所有LLM都是開源的。d) LLM呈現出封閉來源的趨勢。在LLM發展的早期階段(2020年之前),大多數模型都是開源的。然而,隨著GPT-3的推出,越來越多的公司選擇封閉源代碼模型,如PaLM、LaMDA和GPT-4。因此,學術研究人員在LLM訓練方面的實驗變得更加困難。因此,基于API的研究可能成為學術界的主導方法。e) 編碼器-解碼器模型仍具有潛力,因為這種類型的架構仍在積極探索中,而且大多數都是開源的。谷歌為開源編碼器-解碼器架構做出了實質性貢獻。然而,僅解碼器模型的靈活性和通用性似乎使得谷歌對這個方向的堅持變得前景不太明朗。
我們還簡要總結了表1中每種類型的特征和代表性LLM。
2.1 BERT風格語言模型: 編碼器-解碼器或僅編碼器由于自然語言數據很容易獲得,并且已提出了無監督訓練范式,以更好地利用超大型數據集,這激發了自然語言的無監督學習。一種常見的方法是在考慮上下文的同時預測句子中的掩碼詞。這種訓練范式被稱為掩碼語言模型。這種類型的訓練允許模型對單詞和它們所使用的上下文之間的關系有更深的理解。這些模型使用Transformer架構等技術在大量文本語料庫上進行訓練,并在許多NLP任務中取得了最先進的結果,如情感分析和命名實體識別。掩碼語言模型的著名例子包括BERT [28], RoBERTa[65]和T5[84]。由于在廣泛的任務中取得了成功,MLMs已經成為自然語言處理領域的重要工具。
2.2 GPT風格的語言模型:僅解碼器雖然語言模型在架構中通常與任務無關,但這些方法需要對特定下游任務的數據集進行微調。研究人員發現,擴大語言模型的規模可以顯著提高少樣本甚至零樣本的性能[16]。獲得更好的少樣本和零顯示性能的最成功的模型是自回歸語言模型,它是通過給定前面的單詞在序列中生成下一個單詞來訓練的。這些模型已被廣泛用于文本生成和問答等下游任務。自回歸語言模型的例子包括GPT-3 [16], OPT [126], PaLM[22]和BLOOM[92]。改變游戲規則的GPT-3首次通過提示和上下文學習展示了合理的少樣本/零樣本性能,從而顯示了自回歸語言模型的優越性。還有一些模型,如CodeX[2],針對特定任務(如代碼生成)進行了優化,用于金融領域的BloombergGPT[117]。最近的突破是ChatGPT,它專門針對對話任務改進了GPT-3,為各種現實世界的應用提供了更具交互性、連貫性和上下文感知的對話。
3 數據實用指南
在本節中,我們將討論數據在為下游任務選擇適當模型方面發揮的關鍵作用。數據對模型有效性的影響從預訓練階段開始,一直持續到訓練和推理階段。 (1)在面臨分布外數據的下游任務中,LLM的泛化能力比微調模型更好,如對抗性樣本和域偏移。(2)在處理有限的標注數據時,LLM比微調模型更可取,并且在有大量標注數據時,兩者都可以是合理的選擇,具體取決于特定的任務需求。(3)建議選擇在與下游任務類似的數據字段上預訓練的模型。
4 NLP任務實用指南
在本節中,我們詳細討論LLM在各種下游NLP任務中的用例和非用例以及相應的模型能力。在圖2中,我們將所有討論總結為一個決策流。它可以是面對任務時快速決定的指南。
5 其他注意事項
盡管LLM適用于各種下游任務,但還有一些其他因素需要考慮,如效率和可信性。對效率的討論包括LLM的訓練成本、推理延遲和參數有效的調優策略。對可信性的考察包括魯棒性和校準、公平性和偏差、潛在的虛假相關性以及LLM中的安全挑戰。
6 結論和未來的挑戰
大型語言模型的最新進展正在徹底改變自然語言處理領域。有效地使用LLM需要了解它們的能力和各種NLP任務的限制。本文為在下游NLP任務中使用LLM提供了實用指南。首先討論了一些突出的模型,如GPT風格和BERT風格的架構以及影響它們性能的因素。探討了將LLM用于下游任務,包括知識密集型任務、NLU和NLG任務,并提供了成功和局限性的具體例子。本實用指南提供了對LLM的見解和跨NLP任務利用LLM的最佳實踐。我們希望它能使研究人員和從業人員發揮他們的潛力,推動語言技術的創新。接下來,我們分析了LLM未來面臨的挑戰:
在真實世界的“數據集”上評估所提出的模型。現有的深度學習模型主要在標準的學術數據集上進行評估,如ImageNet,這些數據集是深度學習發展的里程碑。然而,標準學術數據集的局限性并不能準確反映現實世界的性能。隨著模型的發展,至關重要的是要在反映現實世界需求的更多樣化、復雜和現實的數據上評估它們。評估真實世界“數據集”上的模型,除了學術上的,將提供更嚴格的測試它們的能力,以及更好地理解它們在真實世界應用中的有效性。這確保了模型能夠應對現實世界的挑戰并提供實際的解決方案。
模型對齊。確保日益強大和自主的模型與人類的價值觀和優先事項相一致至關重要。必須開發方法來保證這些模型的行為符合預期,并且不會針對不期望的結果進行優化。從模型開發過程的一開始就集成對齊技術至關重要。模型透明度和可解釋性也是評估和確保對齊的重要因素。此外,當我們展望未來時,一個更艱巨的挑戰正在逼近:調整超人系統。雖然這項任務目前超出了我們的需求,但重要的是要考慮和準備調整這些先進系統的潛在影響,因為它們可能提出獨特的復雜性和倫理問題[8,15]。
安全對齊。雖然人工智能存在風險的討論很重要,但需要具體的研究來保證先進人工智能的安全發展。這包括可解釋性、可擴展的監督和管理,以及模型屬性的形式化驗證技術。安全性不僅應該被視為一個附加組件,而且應該被視為模型構建過程中不可分割的一部分。
基于縮放的性能預測。隨著模型大小和復雜性的急劇增加,很難預測模型性能將如何變化。開發方法在擴展后或在開發新架構時更好地預測模型性能,將允許更有效地使用資源和加速進展。一些可能性包括:訓練一個較小的“種子”模型并推斷其增長,模擬規模增加或模型調整的影響,以及在不同規模上對模型迭代進行基準測試以構建縮放規律。這些可以在模型建立之前就了解模型的性能。
自20世紀50年代圖靈測試被提出以來,人類一直在探索機器對語言智能的掌握。語言本質上是一個受語法規則支配的復雜的人類表達系統。這對開發有能力的人工智能(AI)算法來理解和掌握語言提出了重大挑戰。作為一種主要的語言建模方法,在過去的二十年中,語言建模在語言理解和生成方面得到了廣泛的研究,從統計語言模型發展到神經語言模型。最近,通過在大規模語料庫上預訓練Transformer模型,人們提出了預訓練語言模型(PLM),在解決各種自然語言處理(NLP)任務方面顯示出強大的能力。由于研究人員發現模型縮放可以導致性能提高,他們通過將模型大小增加到更大的尺寸來進一步研究縮放效應。有趣的是,當參數規模超過一定水平時,這些放大的語言模型不僅實現了顯著的性能提升,而且顯示出一些在小規模語言模型(如BERT)中不存在的特殊能力(如上下文學習)。為了區別參數規模的差異,研究界創造了大型語言模型(LLM)這個術語,用于表示規模巨大的PLM(例如,包含數百億或千億參數)。近年來,學術界和工業界對LLMs的研究取得了很大進展,其中最顯著的進展是基于LLMs開發的ChatGPT(一個功能強大的人工智能聊天機器人)的推出,引起了社會的廣泛關注。LLM的技術發展對整個AI社區產生了重要影響,這將徹底改變我們開發和使用AI算法的方式。鑒于這種快速的技術進步,本綜述通過介紹背景、關鍵發現和主流技術,回顧了LLM的最新進展。重點關注LLM的四個主要方面,即預訓練、自適應調優、利用率和能力評估。此外,還總結了開發LLM的可用資源,并討論了剩余問題,以供未來發展方向。本綜述提供了關于LLM的文獻的最新綜述,對于研究人員和工程師來說,這可以是一個有用的資源。
本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。
1. 引言
近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。
諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。
**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。
為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。
本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。
**總而言之,本綜述的主要貢獻是: **
(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。
2. 什么是自然語言推理
目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。
NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。
3. 為什么要用PLMs進行自然語言推理
預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。
4. 自然語言推理方法
在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。
給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。
5. 結論
在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。
為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?
**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。
**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。
本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。
最近,ChatGPT與DALL-E-2[1]和Codex[2]一起受到了社會的廣泛關注。因此,許多人對相關資源感興趣,并試圖揭開其令人印象深刻的性能背后的背景和秘密。**事實上,ChatGPT和其他生成式AI (GAI)技術屬于人工智能生成內容(AIGC)的范疇,它涉及通過AI模型創建數字內容,如圖像、音樂和自然語言。AIGC的目標是使內容創建過程更加高效和可訪問,允許以更快的速度生產高質量的內容。**AIGC是通過從人類提供的指令中提取和理解意圖信息,并根據其知識和意圖信息生成內容來實現的。近年來,大規模模型在AIGC中變得越來越重要,因為它們提供了更好的意圖提取,從而改善了生成結果。隨著數據和模型規模的增長,模型可以學習的分布變得更加全面和接近現實,從而產生更加真實和高質量的內容。**本文全面回顧了生成模型的歷史,基本組件,以及AIGC的最新進展,從單模態交互和多模態交互。**從單模態的角度,介紹了文本和圖像的生成任務和相關模型。從多模態的角度出發,介紹上述模態之間的交叉應用。最后討論了AIGC存在的開放問題和未來的挑戰。
1. 引言
近年來,人工智能生成內容(Artificial Intelligence Generated Content, AIGC)受到了計算機科學界以外的廣泛關注,全社會開始關注大型科技公司[3]構建的各種內容生成產品,如ChatGPT[4]和DALL-E2[5]。AIGC指的是使用高級生成AI (GAI)技術生成的內容,而不是由人類作者創建的內容,AIGC可以在短時間內自動創建大量內容。例如,ChatGPT是OpenAI開發的用于構建對話式人工智能系統的語言模型,可以有效地理解并以有意義的方式響應人類的語言輸入。此外,DALL-E-2是另一個最先進的GAI模型,也是由OpenAI開發的,它能夠在幾分鐘內從文本描述中創建獨特的高質量圖像,如圖1所示的“一個宇航員以逼真的風格騎馬”。隨著AIGC的卓越成就,許多人認為這將是人工智能的新時代,并將對整個世界產生重大影響。
**從技術上講,AIGC是指給定人工指令,可以幫助教學和指導模型完成任務,利用GAI算法生成滿足指令的內容。**該生成過程通常包括兩個步驟:從人工指令中提取意圖信息和根據提取的意圖生成內容。然而,如之前的研究[6,7]所示,包含上述兩個步驟的GAI模型的范式并不完全新穎。與之前的工作相比,最近的AIGC的核心進展是在更大的數據集上訓練更復雜的生成模型,使用更大的基礎模型架構,并能夠訪問廣泛的計算資源。例如,GPT-3的主框架保持與GPT-2相同,但預訓練數據大小從WebText 8增長到CommonCrawl9,基礎模型大小從1.5B增長到175B。因此,在人類意圖提取等任務上,GPT-3比GPT-2具有更好的泛化能力。
除了數據量和計算能力增加帶來的好處,研究人員還在探索將新技術與GAI算法集成的方法。例如,ChatGPT利用來自人類反饋的強化學習(RLHF)[10-12]來確定給定指令的最適當響應,從而隨著時間的推移提高模型的可靠性和準確性。這種方法使ChatGPT能夠更好地理解人類在長對話中的偏好。同時,在計算機視覺領域,由Stability提出了穩定擴散[13]。AI在2022年也在圖像生成方面取得了巨大成功。與之前的方法不同,生成擴散模型可以通過控制探索和利用之間的權衡來幫助生成高分辨率圖像,從而將生成圖像的多樣性和與訓練數據的相似性和諧地結合起來。
結合這些進展,模型在AIGC任務上取得了顯著進展,并被應用于各個行業,包括藝術[14]、廣告[15]、教育[16]等。在不久的將來,AIGC將繼續成為機器學習的一個重要研究領域。因此,對過去的研究進行廣泛的調研并確定該領域的開放問題至關重要。對AIGC領域的核心技術和應用進行了綜述。 **這是對AIGC的首次全面綜述,從技術和應用兩個方面對GAI進行了總結。之前的研究從不同的角度關注GAI,包括自然語言生成[17],圖像生成[18],多模態機器學習中的生成[7,19]。**然而,之前的工作只關注AIGC的特定部分。本文首先回顧了AIGC中常用的基礎技術。進一步對先進的GAI算法進行了全面的總結,包括單峰生成和多峰生成,如圖2所示。此外,還討論了AIGC的應用和潛在挑戰。最后指出了該領域存在的問題和未來的研究方向。
綜上所述,本文的主要貢獻如下:
據我們所知,我們是第一個為AIGC和AI增強生成過程提供正式定義和徹底調研的人。
回顧了AIGC的歷史和基礎技術,并從單模態生成和多模態生成的角度對GAI任務和模型的最新進展進行了全面分析。
討論了AIGC面臨的主要挑戰以及AIGC未來的研究趨勢。
調研的其余部分組織如下。第二節主要從視覺模態和語言模態兩個方面回顧了AIGC的歷史。第3節介紹了目前在GAI模型訓練中廣泛使用的基本組件。第4節總結了GAI模型的最新進展,其中第4.1節從單模態角度回顧了進展,第4.2節從多模態生成的角度回顧了進展。在多模態生成中,介紹了視覺語言模型、文本音頻模型、文本圖模型和文本代碼模型。第5節和第6節介紹了GAI模型在AIGC中的應用以及與該領域相關的一些重要研究。第7、8節揭示了AIGC技術存在的風險、存在的問題和未來的發展方向。最后,我們在9中總結了我們的研究。2. 生成式人工智能的歷史生成模型在人工智能領域有著悠久的歷史,可以追溯到20世紀50年代,隱馬爾可夫模型(HMM)[20]和高斯混合模型(GMMs)[21]的發展。這些模型生成了語音和時間序列等順序數據。然而,直到深度學習的出現,生成模型才在性能上看到了顯著的改進。
在早期的深度生成模型中,不同的領域通常沒有太多的重疊。在自然語言處理(NLP)中,傳統的生成句子的方法是使用N-gram語言建模[22]學習單詞分布,然后搜索最佳序列。然而,該方法不能有效地適應長句子。為了解決這個問題,循環神經網絡(RNN)[23]后來被引入到語言建模任務中,允許對相對較長的依賴關系進行建模。隨后,長短期記憶(LSTM)[24]和門控循環單元(GRU)[25]的發育,它們利用門控機制在訓練過程中控制記憶。這些方法能夠處理樣本[26]中的約200個標記,與N-gram語言模型相比,這是一個顯著的改進。 同時,在計算機視覺(CV)領域,在基于深度學習的方法出現之前,傳統的圖像生成算法使用紋理合成[27]和紋理映射[28]等技術。這些算法基于手工設計的特征,在生成復雜多樣的圖像方面能力有限。2014年,生成對抗網絡(Generative Adversarial Networks, GANs)[29]被首次提出,在各種應用中取得了令人印象深刻的結果,是該領域的一個重要里程碑。變分自動編碼器(vae)[30]和其他方法,如擴散生成模型[31],也已開發用于對圖像生成過程進行更細粒度的控制和生成高質量圖像的能力
生成模型在不同領域的發展遵循不同的路徑,但最終出現了交叉的問題:transformer架構[32]。Vaswani等人在2017年引入了NLP任務,Transformer后來被應用于CV中,然后成為不同領域許多生成模型的主要骨干[9,33,34]。在NLP領域,許多著名的大型語言模型,如BERT和GPT,采用transformer架構作為其主要的構建塊,比之前的構建塊(如LSTM和GRU)具有優勢。在CV中,Vision Transformer (ViT)[35]和Swin Transformer[36]后來通過將Transformer架構與視覺組件相結合,進一步發展了這一概念,使其可以應用于基于圖像的下游。除了transformer給單個模態帶來的改進之外,這種交叉還使來自不同領域的模型能夠融合在一起,以完成多模態任務。多模態模型的一個例子是CLIP[37]。CLIP是一種視覺-語言聯合模型,將transformer架構與視覺組件相結合,允許它在大量文本和圖像數據上進行訓練。由于它在預訓練時結合了視覺和語言知識,因此也可以作為多模態提示生成中的圖像編碼器。總而言之,基于transformer的模型的出現徹底改變了人工智能的產生,并導致了大規模訓練的可能性。
近年來,研究人員也開始引入基于這些模型的新技術。例如,在NLP中,人們有時喜歡少樣本提示[38],而不是微調,這是指在提示中包括從數據集中選擇的一些示例,以幫助模型更好地理解任務需求。在視覺語言中,研究人員經常將特定模態模型與自監督對比學習目標相結合,以提供更魯棒的表示。在未來,隨著AIGC越來越重要,會有越來越多的技術被引入,讓這個領域充滿活力。
3. 生成式人工智能
我們將介紹最先進的單模態生成模型。這些模型被設計為接受特定的原始數據模態作為輸入,例如文本或圖像,然后以與輸入相同的模態生成預測。我們將討論這些模型中使用的一些最有前途的方法和技術,包括生成語言模型,如GPT3[9]、BART[34]、T5[56]和生成視覺模型,如GAN[29]、VAE[30]和歸一化流[57]。
多模態模型
多模態生成是當今AIGC的重要組成部分。多模態生成的目標是通過學習數據[7]的多模態連接和交互來學習生成原始模態的模型。模態之間的這種連接和相互作用有時是非常復雜的,這使得多模態表示空間與單模態表示空間相比很難學習。然而,隨著前面提到的強大的特定于模式的基礎架構的出現,越來越多的方法被提出來應對這一挑戰。在本節中,我們將介紹視覺語言生成、文本音頻生成、文本圖形生成和文本代碼生成中的最先進的多模態模型。由于大多數多模態生成模型總是與實際應用高度相關,本節主要從下游任務的角度進行介紹。
4. 應用
5. 效率
在過去的十年中,具有神經網絡的深度生成式人工智能模型一直主導著機器學習領域,其崛起歸功于2012年的ImageNet競賽[210],這導致了一場創建更深入和更復雜模型的競賽。這種趨勢也出現在自然語言理解領域,像BERT和GPT-3這樣的模型已經開發出了大量參數。然而,不斷增加的模型占用空間和復雜性,以及訓練和部署所需的成本和資源,給現實世界中的實際部署帶來了挑戰。核心挑戰是效率,可以分解如下:
推理效率: 這與部署用于推理的模型的實際考慮有關,即為給定的輸入計算模型的輸出。推理效率主要與推理期間模型的大小、速度和資源消耗(例如,磁盤和RAM使用)有關。 * 訓練效率: 這涵蓋了影響訓練模型的速度和資源需求的因素,如訓練時間、內存占用和跨多個設備的可伸縮性。它還可能包括考慮在給定任務上實現最佳性能所需的數據量。
預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。
**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。
//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9
1. 引言
預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。
**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。
**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。
有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:
本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。
我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。
通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。
通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。
//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b
1. 引言
預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。
盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。
構建 KEPLMS
隱性知識整合
以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。
一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。
顯性知識整合
PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新
參考文獻
[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.
預訓練模型主要從海量未標注、無結構化的數據中學習,但缺少外部知識指導,存在模型學習效率不高、模型效果不佳和知識推理能力 受限等不足。如何在預訓練模型中引入語言知識、世界知識等外部知識,提升模型效果以及知識記憶和推理能力是一個難題。本文對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述。
預訓練語言模型通過自監督學習方法在大型文本語料庫上進行訓練,在自然語言處理(NLP)的各種任務中取得了良好的性能。然而,盡管具有大參數的PLM可以有效地擁有從大量訓練文本中獲得的豐富知識,并在調優階段對下游任務有利,但由于缺乏外部知識,它們仍然存在推理能力差等局限性。研究人員致力于將知識整合到PLM中,以解決這些問題。在這篇論文中,我們對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述,以提供對這一蓬勃發展的領域的清晰洞察。我們分別介紹了自然語言理解(NLU)和自然語言生成(NLG)的適當分類法,以突出自然語言處理的這兩個主要任務。對于NLU,我們將知識類型分為四類:語言知識、文本知識、知識圖譜(KG)和規則知識。用于NLG的KE-PLMs分為基于KG的方法和基于檢索的方法。最后,我們指出了KE-PLMs未來的發展方向。
//www.zhuanzhi.ai/paper/d29c4e105f7150131e1347d799681e73
1.概述
近年來,隨著深度學習技術的不斷發展,在海量文本語料庫上以無監督目標訓練的預訓練語言模型(Pre-trained Language Model, PLM)被廣泛應用于自然語言處理(Natural Language Processing, NLP)領域,并在各種下游任務上取得了最先進的性能。與傳統的監督學習不同的是,基于自監督學習的plm通常先對通用的大規模無標記數據進行預訓練,然后針對特定任務對小規模標記數據進行微調。BERT[1]、GPT[2]、T5[3]等代表工作在眾多自然語言理解(NLU)和自然語言生成(NLG)任務中不斷刷新基準記錄,成功推動了自然語言處理(NLP)的發展。
隨著PLMs的規模越來越大,擁有數億個參數的PLMs已被廣泛認為能夠在某些探測中捕獲豐富的語言[4]、[5]、[6]和事實知識[7]、[8]。然而,由于缺乏原始數據中知識的顯式表示,PLM在下游任務上的性能受到限制。特別是,先前的研究發現,傳統的預訓練目標往往具有較弱的符號推理能力[9],因為PLM傾向于集中于詞共現信息。將知識整合到plm中可以增強他們的記憶力和推理能力。例如,在“the monument to the people 's Heroes莊嚴地坐在[MASK] square”的語言理解問題中,傳統PLM預測蒙面位置的輸出為“the”,而知識增強PLM預測的輸出為“天安門”,準確率更高。
對于語言生成,雖然現有PLMs能夠從文本語料庫中獲取豐富的語言信息并生成正確的句子,但由于忽略了外部世界知識[11],幾乎所有PLMs都無法生成面向捕捉人類常識的輸出。換句話說,PLMs生成的句子往往符合語法規范,但不符合邏輯。例如,給定一個概念集{hand, sink, wash, soap}來生成一個句子,傳統的PLM可能會生成“hands washing soap on the sink”,而具有額外知識的PLM生成“man is wash his hands with soap in a sink”,這更自然、更符合邏輯。
為了解決上述問題,將知識明確地融入PLMs已經成為最近NLP研究的一個新興趨勢。Wei等人[12]從三個方面回顧了知識增強的PLM:知識來源類型、知識粒度和應用。Yin等人總結了基于預訓練語言模型的知識增強模型(PLMKEs)的最新進展,根據PLMKEs的三個關鍵元素: 知識來源、知識密集型NLP任務和知識融合方法。在本研究中,考慮到在語言模型中注入知識可以促進NLU和NLG任務的完成,而這兩個領域的重點不同,我們旨在對這兩個領域的知識增強預訓練語言模型(知識增強預訓練語言模型,KEPLMs)進行綜合綜述,以提供知識增強預訓練語言模型在NLU和NLG中的各自見解。
本綜述的主要貢獻可歸納如下: (1) 在本次綜述中,我們將KE-PLMs 按照下游任務分為兩大類:NLU和NLG。本文分別提出了適當的分類法,以突出說明自然語言處理中這兩種不同任務的重點。
(2) 對于NLU,根據知識類型將KE-PLMs進一步劃分為語言知識、文本知識、知識圖(KG)和規則知識四個子類別。對于NLG,基于知識來源,將KE-PLMs 進一步分為基于檢索的方法和基于KG的方法。圖1顯示了我們為NLU和NLG提出的分類法。
(3) 討論了未來可能解決KE-PLMs存在的問題和挑戰的一些可能的方向。
本文的其余部分安排如下。在第二節中,我們介紹了自然語言處理中訓練范式發展下PLM的背景。在第三節中,我們介紹了NLU領域中KE-PLM的分類。在第4節中,我們介紹了在NLG領域的KE-PLM的分類。對于NLU和NLG領域,我們討論了分類法中每個葉類的代表性工作。在第五部分中,基于現有的局限性和挑戰,我們提出了未來KE-PLM可能的研究方向。最后,我們在第6節中進行總結。
2. 知識增強預訓練語言模型自然語言理解
NLU是NLP的一個組成部分,涉及使機器能夠理解和解釋文本數據內容的所有方法。它從非結構化文本中提取核心語義信息,并將這些信息應用于下游任務,因此在文本分類、關系提取、命名實體識別(NER)和對話系統等應用程序中發揮著重要作用。根據圖1所示的分類法,我們將為NLU任務設計的KE-PLM所包含的知識按照不同的類型分為以下四類: 語言知識、文本知識、知識圖譜和規則知識。對于每一類,我們討論了其代表性的方法。
語言知識
知識圖譜:
3. 知識增強預訓練語言模型自然語言生成****NLG的目標是使機器能夠生成人類能理解的語言文本,并遵循人類表達自己的方式。
在生成模型中加入各種形式的知識,而不是輸入序列,有助于提高文本生成任務的性能。參考知識增強文本生成[32]的綜述,我們進一步將NLG領域的KE-PLM根據其不同的知識來源分為兩類:一類是基于檢索的方法,另一類是基于kg的方法。
4. 未來發展方向
在本節中,我們提出了未來KE-PLMs可能的研究方向,以應對目前存在的問題和挑戰。 * 整合同質源和異構源的知識 * 探索多模態知識 * 提供可解釋性證據 * 持續學習知識 * 優化知識整合到大模型中的效率 * 增加生成結果的多樣性
隨著 BERT、DALL-E、GPT-3 等大規模預訓練模型的出現,AI 社區正在經歷一場范式轉變。從計算機視覺到自然語言處理,從機器人學到推理、搜索,這些大模型已經無處不在,而且還在繼續「野蠻生長」。
這種野蠻生長是大模型的有效性帶來的必然結果。在 BERT 出現(2018 年)之前,語言模型的自監督學習本質上只是 NLP 的一個子領域,與其他 NLP 子領域并行發展。但在 BERT 橫掃 11 項 NLP 任務之后,這種格局被打破了。2019 年之后,使用自監督學習構造語言模型儼然已經成為一種基礎操作,因為使用 BERT 已經成為一種慣例。這標志著大模型時代的開始。
這一時代的重要標志是「同質化」。如今,NLP 領域幾乎所有的 SOTA 模型都是少數幾個基于 Transformer 的大模型進化而來。而且,這種趨勢正在向圖像、語音、蛋白質序列預測、強化學習等多個領域蔓延。整個 AI 社區似乎出現了一種大一統的趨勢。
毋庸置疑,這種同質化是有好處的,大模型的任何一點改進就可以迅速覆蓋整個社區。但同時,它也帶來了一些隱患,因為大模型的缺陷也會被所有下游模型所繼承。
大模型的強大能力來自巨大的參數空間的結合,這也導致它們的可解釋性非常差,其能力和缺陷都存在不確定性。在這種情況下,盲目將整個研究范式向大模型轉變真的可取嗎?
最近,斯坦福大學的 Percy Liang、Rishi Bommasani(Percy Liang 的學生) 、李飛飛等 100 多位研究者聯名發布了一篇系統探討此問題的論文。在論文中,他們給這種大模型取了一個名字——「基礎模型(foundation model)」,并系統探討了基礎模型的機遇與風險。「基礎」代表至關重要,但并不完備。
論文鏈接://www.zhuanzhi.ai/paper/517a2584ebd7b4fb30e94d5d96a15e5e
論文正文分為四個部分,分別闡述了基礎模型的能力、應用、相關技術和社會影響,其具體內容如下:
這篇論文的問世將為負責任地發展、部署基礎模型提供一些借鑒。
此外,斯坦福大學的師生、研究人員還成立了一個「基礎模型研究中心(CRFM)」,這是斯坦福 HAI 的一個新的跨學科項目。8 月 23 日到 24 日,這兩個組織將發起一場關于基礎模型的 workshop,討論基礎模型的機遇、挑戰、限制和社會影響。
workshop 鏈接:
以下是論文各個章節的介紹。
第二章 基礎模型的能力
基礎模型擁有的能力有時是在學習過程中出現的,這些能力往往能為下游應用提供動力。關于基礎模型能力的推理影響了具有基本能力 AI 系統的創建。該論文的第二章就主要探討了基礎模型的能力及影響,具體包括以下幾部分內容:
2.1 語言
該論文首先以自然語言的屬性展開,并分析了 NLP 領域基礎模型的影響。然后又進一步探討了語言變體和多語種的問題,最后論文這部分闡述了 NLP 基礎模型從人類語言中獲得的靈感。
人類和基礎模型的語言獲取。
2.2 視覺
視覺是生物體理解其生存環境的主要模式之一。視覺能夠為智能體帶來穩定廣泛的密集信號收集能力。論文的 2.2 部分首先概述了計算機視覺領域的關鍵能力和方法,其中闡明了計算機視覺領域的幾大關鍵任務,包括:
語義理解任務;
含有幾何、運動等元素的三維任務;
多模態集成任務,例如視覺問答等。
然后 2.2 部分還探討了當下計算機視覺領域面臨的研究挑戰,主要面向幾個重點應用領域:
通過大規模利用自監督,視覺基礎模型具備一種潛力,即提取原始多模態感知信息并轉化為視覺知識,可有效支持傳統感知任務,并能夠在具有挑戰性的高階技能方面取得新進展。
視覺的基礎模型目前處于早期階段,但已在傳統計算機視覺任務取得了一些改進(特別是在泛化方面),并預計近期的進展將延續這一趨勢。然而,從長遠來看,基礎模型在減少對顯式注釋的依賴方面的潛力可能會帶來智能體基本認知能力(例如,常識推理)的進步。同樣該論文也探討了用于下游應用的基礎模型的潛在影響,以及推動領域發展必須面臨的核心挑戰。
2.3 機器人
機器人研究領域的一個長期挑戰是讓機器人具備處理無數現實難題的能力。該論文的 2.3 部分討論了基礎模型如何助力產生「通用型」機器人,并從機遇和挑戰風險多個方面展開。
從機遇的角度講,機器人技術的基礎模型應該采用多種形式,因為機器人技術中的問題往往并不符合「一刀切」的模式,不同的問題有不同的輸入輸出特征。
從挑戰與風險上看,一方面,機器人研究必須收集足夠大小和多樣性的數據集;另一方面,機器人領域需要合理機制來確保能夠在現實世界中安全地部署學習行為。
機器人基礎模型需要跨多種環境和行為的海量數據集。
2.4 推理和搜索
推理和搜索一直是人工智能領域的中心主題,許多推理問題構成了無限的搜索空間。近來一些應用和研究表明:人們對應用基于學習的方法來解決推理問題的興趣激增。論文的這部分從當前面臨的任務、基礎模型扮演的角色、AI 推理領域未來面臨的挑戰幾部分展開。
一個幾何證明的搜索樹例子。
2.5 交互
隨著基礎模型開發的成熟,模型的容量將不斷擴大,它們的多功能性最終可能導致我們與 AI 交互的方式發生根本性變化。論文的這部分從兩個重要利益相關者的角度討論這些變化帶來的機會,這兩個利益相關者是指
2.6 關于理解的原理
基礎模型可以了解訓練數據的哪些方面?答案對于基礎模型的整體能力非常有用,將為智能系統做出重要貢獻。該論文主要關注自然語言領域,因為語言的使用是人類智慧的標志,也是人類體驗的核心。
第三章 基礎模型的應用
基礎模型的能力表明了它們具備改變各行各業的潛力,論文的第三章重點從三個學科領域闡述了人工智能的應用,包括醫療保健、法律和教育,這些都是人類社會的基礎。這一章節每一部分都探討了基礎模型為該領域帶來的挑戰和機會。
3.1 醫療保健和生物醫學
醫療保健和生物醫學是社會中一個巨大的應用領域。
在醫療保健領域,基礎模型能夠為患者改善醫療服務,提高照顧患者的效率和準確性。同時,基礎模型能夠減輕醫護服務的負擔,例如幫助查找相關案例。此外,手術機器人也是未來基礎模型的一個研究方向。
在生物醫學領域,科研發現需要大量的人力資源、實驗時間和財務費用。基礎模型可以促進生物醫學研究,例如藥物的發現和疾病的理解,最終轉化為改進的醫療保健解決方案。使用現有數據和公開研究促進和加速生物醫學發展是一個緊迫的問題。
醫療保健和生物醫學的基礎模型。
此外,未來醫療保健和生物醫學領域還面臨一些挑戰,包括多模態處理、可解釋性、法律和道德規范。
3.2 法律
在美國,尋求律師的法律援助可能是非常昂貴的,同時律師也是一個高壓職業。
基礎模型未來在法律領域的應用可能包括:利用機器學習輔助基于文本的法律任務。值得注意的是,法律的嚴謹性對 AI 模型提出了必然的高要求,包括數據標注成本非常高,通常只有律師具備創建高質量標簽的專業知識,并且各個案件的細微差別也是非常重要,不容忽視的。
3.3 教育
基礎模型已經開始用于提升一些教育領域特定任務的性能,論文的 3.3 部分從兩個具體任務展開了討論:(1)理解學生對概念的誤解;(2)提高學生對教學指導的理解能力。
教育領域的基礎模型應該在多個數據源上進行訓練以學得教育所必需的能力。
了解了各種主題和不同的教學技術的基礎模型可以以通用方式應用于一系列任務和目標,例如了解學生、協助教師、生成教育內容等。
此外,該論文對教育研究中基礎模型涉及的倫理問題進行了闡述。盡管人工智能助力教育的未來令人興奮,但在 AI 落地教育領域時必須要考慮隱私與安全、所需教師人數減少的影響、學生使用基礎模型工具的效率等重要問題,論文中也針對這幾個方面展開了討論。
第四章 基礎模型相關技術
本章主要從技術的角度進行分析。基礎模型的技術基礎產生了決定其潛力的能力,如第二章介紹的。為了了解在開發中使用的技術,我們需要考慮數據、模型架構、系統、模型訓練以及模型的適應性這一系列因素,在研究中需要將模型和理論相結合。為了更好地理解模型,本章還討論了如何評估和解釋模型,以及模型的魯棒性、安全性和隱私性的重要性,此外,該研究還討論了 AI 安全領域,以確保這些模型在社會上進行部署時具有可靠性。
建模
本小節研究者討論和確認了基礎模型必不可少的 5 個屬性:可跨越的表現力(spanning expressivity)、可擴展性、多模態、內存容量以及可組合性。有了這些屬性,就可以有效地提取周圍的大量信息,從而成功地解決下游任務。例如表現力可以靈活地捕獲和吸收真實世界的信息;可擴展性可以熟練地處理大量的高維數據;多模態可以處理來自不同源和領域的內容;內存容量可以有效地存儲和檢索已獲得的知識;可組合性可以促進對新任務、設置和環境泛化。
基礎模型的五個關鍵屬性。
訓練
訓練目標是描述如何將模型體系架構和大量廣泛數據轉換為基礎模型的數學函數。該研究首先列舉了訓練方法需要實現的一些目標,可以考慮以下因素:利用廣泛的數據、域的完整性、可擴展性和計算效率。此外還描述了當前方法中重要的設計權衡,當前模型所探索的三個重要的設計選擇,最后概述了基礎模型訓練在未來道路上需要前進的目標。
適應性
雖然基礎模型提供了一個強大的通用引擎來處理多模態信息,但在某些應用之前,適應性是一個基礎模型必要的。本小節描述了適應性的現有方法,以及決定特定適應性程序是否適合特定環境的幾個因素。此外,該研究還描述了基礎模型適應性的多種示例,最后,該研究提出了一個長遠的目標,即未來研究的基礎模型適應性。
評估
對于基礎模型來說,模型評估是至關重要的。本小節首先介紹了幾種評估:內在評估,包括從廣泛的外在評估中引入內在評估、對內在性質進行直接評估;外在評估與適應性,包括對特定任務而調整基礎模型所花費的資源進行核算。此外本小節還介紹了評估設計等內容。
系統
計算機系統是開發基礎模型的最大瓶頸之一,它們通常需要大量計算資源來訓練,此外,這些模型可能會隨著時間的推移而變得更大,訓練難度將會升級。在本節中,研究者討論了在開發和生產大規模基礎模型時,計算機系統面臨的挑戰。主要從以下幾個方面進行介紹:通過協同設計提高性能、自動優化、基礎模型的產品化等。
除了上述介紹的內容之外,在第四章中還介紹了:數據方面,討論了基礎模型數據生命周期的管理,并概述了關于數據的四個需求,包括大規模數據管理、支持異構數據源、數據治理和數據質量監控;安全和隱私方面,討論了單點故障、安全瓶頸等內容。
第五章 基礎模型的社會影響
本章主要介紹了基礎模型的社會影響,包括模型本身的構建和它們在開發應用程序中的作用,需要研究者仔細檢查。具體而言,該研究認為基礎模型具有廣泛的社會影響,但同時也非常難以理解:基礎模型不是直接部署的中間資源,而是作為一個基礎,來進一步的進行適應性。因此,用傳統方法對技術的社會影響進行推理可能很復雜:對于具有明確目的的系統來說,社會影響相對來說更容易(但仍然很難)理解。本章中,該研究討論并開始理解基礎模型社會影響的復雜性。本章討論了不公平帶來的危害和濫用的危害;基礎模型對經濟和環境的影響;基礎模型在法律和道德方面影響。
不平等與平等:本小節主要描述了內在偏差,即間接但普遍地影響了下游基礎模型的屬性,此外還包括外部損害,即在特定下游應用環境中產生的損害等內容。
濫用:考慮基礎模型的濫用——人們按照預期使用基礎模型的情況(例如,生成語言),但是這種功能被有意地利用來對人群或個人造成傷害。本小節概述了基礎模型如何使新的濫用形式成為可能,并介紹了支持濫用檢測和緩解的新工具。
圖中顯示了基礎模型對操控性和有害內容生成的影響,以及對檢測的影響。
環境:本小節主要介紹了碳影響應該得到緩解、在使用基礎模型之前應該評估成本和收益、應系統地報告基礎模型對碳以及能源影響等內容。
用于部署基礎模型的成本效益分析的可視化。
合法性:本小節描述了美國法律如何影響、約束或促進基礎模型的創建和使用。我們注意到,圍繞算法工具的法律前景仍然具有不確定性。本文強調與(1)模型訓練、(2)模型預測的可靠性(3)模型輸出保護相關的問題。
此外,本章還介紹了經濟,基礎模型有潛力通過提高生產力和創新來大幅提高整體生活水平,這些模型可以用來替代人類勞動,增強人類能力,或者幫助研究者發現新的任務和機會。本節最后還介紹了道德規范相關內容。