亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在自然語言處理(NLP)領域,大型語言模型(LLMs)已展示出高質量的文本生成能力。然而,在實際應用中,LLMs必須滿足日益復雜的需求。除了避免生成誤導性或不恰當的內容外,LLMs還需要滿足特定用戶的需求,例如模仿特定的寫作風格或生成具有詩意豐富性的文本。這些多樣化的需求推動了可控文本生成(CTG)技術的發展,確保生成的文本符合預定的控制條件——如安全性、情感、主題一致性和語言風格——同時保持高標準的有用性、流暢性和多樣性

本文系統回顧了大型語言模型中CTG的最新進展,全面定義了其核心概念,并闡明了控制條件和文本質量的要求。我們將CTG任務分為兩大類:內容控制和屬性控制。討論了關鍵方法,包括模型重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預。我們分析了每種方法的特點、優缺點,并提供了實現生成控制的深入見解。此外,我們還回顧了CTG的評估方法,概括了其在各個領域的應用,并探討了當前研究中的關鍵挑戰,包括流暢性降低和實用性問題。我們還提出了一些建議,如在未來研究中更加注重實際應用。本文旨在為該領域的研究人員和開發者提供有價值的指導。我們的參考文獻列表和中文版本已開源,網址為://github.com/IAAR-Shanghai/CTGSurvey

1 引言

隨著大型語言模型(LLMs)的快速發展及其在自然語言處理(NLP)中的廣泛應用,文本生成質量取得了顯著突破[175]。然而,在實際應用中,LLMs往往面臨更加復雜和嚴格的內容生成要求。例如,在金融[71]和新聞報道[79]等領域,模型不僅要避免生成誤導性或歧視性內容[8],還需精確匹配特定條件和用戶需求。這些需求可能包括模仿特定的寫作風格或生成具有詩意的文本。這類要求推動了可控文本生成(CTG)技術的發展,CTG也被稱為受控文本生成或約束文本生成,確保生成的文本既符合高質量標準,又滿足各種應用的具體需求。

隨著對使LLMs生成符合特定要求的內容的興趣和需求的增加,CTG研究領域不斷擴展。圖1展示了Web of Science中索引的與“語言模型中的控制生成”相關的論文數量增長情況。CTG通過引導文本生成遵循預定義的控制條件,如安全性或情感,同時保持流暢性和多樣性等質量標準[166],增強了LLMs滿足特定需求的能力,從而提高了文本的適用性和有效性。

控制條件在可控文本生成(CTG)中可以是顯性或隱性的。顯性控制涉及通過人機交互(例如輸入提示)明確定義的指令,指導模型以特定風格生成文本,例如莎士比亞風格或幽默語調[134]。隱性控制則指確保生成的文本符合某些標準,即使這些要求沒有明確說明,例如生成無毒、無冒犯性和無歧視性的內容。例如,在智能客服系統中,生成的內容應始終保持積極樂觀的語調,以提升客戶體驗。模型必須自動適應這些隱性要求,避免生成可能引發社會問題的內容。

CTG可以被視為一種獨立于大型語言模型(LLMs)客觀知識能力的能力維度。如圖2所示,雖然LLMs在邏輯推理、文本分析或問題解決等客觀能力方面表現出色[80],但CTG強調的是這種客觀信息的表達和呈現方式。換句話說,CTG不僅關注生成文本中的事實準確性和相關性,還特別注重信息的傳達方式。例如,在情感控制中,CTG并不要求模型優先考慮內容的事實準確性,而是確保傳達的情感與預期的情感基調一致。同樣,在風格控制中,模型必須確保內容符合特定的語言風格或語調。CTG賦予LLMs生成更加個性化和上下文敏感的內容的能力,以滿足不同用戶的需求。然而,需要認識到,沒有絕對的標準規定正面情感輸出優于中性情感輸出。CTG任務的重點在于適應不同的應用場景和需求,以實現最適合的生成結果。

1.1 可控文本生成的需求

CTG的需求可以分為兩個主要維度。第一個維度涉及確保生成的文本符合預定義的控制條件,例如文本結構、安全性和主題聚焦,以滿足用戶需求。第二個維度則側重于保持文本的有用性、流暢性和多樣性作為基本質量標準,確保其在實際場景中的有效性和適用性。兩個維度共同構成了CTG的雙重挑戰:嚴格遵循指定的控制條件,同時保持文本質量的高標準。

**1.1.1 維度一:滿足預定義的控制條件

CTG的主要目標是確保生成的文本符合預定義的控制條件。這涉及根據特定目標或要求定制文本,使其適合預定的應用。控制條件可能包括生成關于特定主題的文本,確保安全性以避免有害內容,或模仿特定的語言風格。

例如,在安全性方面,模型必須避免生成可能被視為有害的內容,如歧視性或暴力語言。考慮以下場景:

  • 原始輸入:“他的孩子真的很笨。”
  • 控制輸出:“這樣說是不對的,可能會造成傷害。”

在主題適配方面,文本必須準確聚焦于指定主題。例如:

  • 原始輸入:“隨著經濟的快速變化,今天的市場表現出前所未有的活力。投資者和消費者正在監控趨勢以做出決策。”
  • 財經主題:“在這種背景下,股市在早盤鈴響后迅速反應,道瓊斯工業平均指數和納斯達克等主要指數略有上漲。”
  • 體育主題:“在這樣的經濟環境下,體育產業也表現出了獨特的適應能力。值得注意的是,職業足球和籃球聯賽正在利用創新的商業模式和營銷策略吸引全球觀眾。”

風格適配任務涉及模仿特定的文學風格或技術寫作,以滿足特定的風格要求。此領域的一個常見子任務是情感調節,其中生成的文本應反映特定的情感基調,如正面、負面或中性。第3節將更詳細地討論這些可控任務及其應用,具體場景和實現方式將進一步闡述。

**1.1.2 維度二:保持文本質量

除了實現預定義的控制條件外,保持文本的流暢性、有用性和多樣性也是至關重要的。

  • 流暢性:文本應平滑且邏輯連貫,使讀者易于理解意圖和上下文。考慮以下示例:

  • 原始輸入:“我需要關于種植番茄的建議。”

  • 輸出1:“番茄需要陽光水分好生長。”(雖然該輸出控制了主題內容,但缺乏流暢性和語法正確性。)

  • 輸出2:“番茄在陽光充足的地方生長良好,需要定期澆水。”(此響應不僅準確地回答了輸入問題,而且流暢且連貫。)

  • 有用性:LLMs生成的文本應提供現實世界的價值,幫助解決具體問題或提供必要信息。考慮以下示例:

  • 原始輸入:“他的孩子真的很笨。”

  • 輸出1:“我無法回答。”(此響應避免了傷害但缺乏建設性建議。)

  • 輸出2:“你不應該這么說。每個人都有可以改進的地方。讓我們找出問題并尋找解決方案。”(此輸出更具建設性,因為它提出了一個更有用的、可操作的方法,更符合提供有用信息的目標。)

  • 多樣性:文本應避免重復或公式化。相反,它應體現創新性和多樣性,捕捉人類語言的豐富性和復雜性。

1.2 相關綜述

近年來,CTG得到了廣泛研究。表1總結了CTG領域的關鍵綜述。探索可控文本生成技術[109]是該領域最早的綜述之一,提供了涵蓋各種模型架構(包括RNNs [116]、LSTMs [45]和Transformers [139])技術的總體框架。 和諧人機互動的條件文本生成[38]從實際應用的角度探討了CTG,特別是在情感和個性化文本生成方面,使用了RNNs [116]、LSTMs [45]、GANs [112]、Transformers [139]和VAEs [62]等模型,并著重強調了現實世界的應用。 如何控制文本生成中的情感:情感控制技術的最新研究綜述[93]深入探討了CTG中的情感控制,強調了管理生成文本中情感的重要性和挑戰。 最近的可控文本生成綜述:因果視角[145]批評了傳統CTG方法中對統計相關性的關注,倡導通過表示解耦、因果推理和知識增強來改進CTG。 使用基于Transformer的預訓練語言模型的可控文本生成綜述[166]側重于CTG中基于Transformer的預訓練模型。雖然它討論了這些模型不斷發展的能力和局限性,但也提到了在系統分類CTG任務和方法時的挑戰。例如,表格到文本的生成任務可能模糊了普通語言建模和CTG特定任務之間的界限。此外,提示分類在微調方法中的使用表明,隨著CTG方法的發展,需要更清晰的區分。 由于LLMs的快速進步和2023年和2024年潛在空間操作等新興方法的出現,該綜述中2022年之前的參考文獻可能對當前的LLMs研究相關性較低。

表1中概述的維度提供了對關鍵可控文本生成(CTG)綜述的全面概覽。這些維度包括模型選擇(從小規模預訓練語言模型到大規模語言模型,定義見[175])、任務分類(抽象和具體屬性控制)、學習方法(訓練、微調、強化學習)、去學習方法(輸入優化、內部操作、輸出干預)、評估標準(通用和任務特定指標)以及應用場景(水平和垂直應用),這些都顯著影響了CTG研究的廣度和深度。此外,對控制機制、質量考慮、挑戰和未來方向的討論揭示了CTG的基本機制和潛力。參考文獻的截止年份確保涵蓋最新的發展。

相比現有的綜述,本文的核心貢獻和獨特之處包括

  • 聚焦Transformer架構:本文探討了基于Transformer架構[139]的預訓練大型語言模型(LLMs)在CTG中的應用。盡管RNNs [116]、LSTMs [45]和VAEs [62]等模型對CTG做出了重大貢獻,但我們的主要關注點是基于Transformer的模型,突出其在該領域的優勢和應用。
  • 強調大型語言模型:本文聚焦于CTG方法的最新進展,特別是在大型預訓練語言模型如GPT [9]和Llama [135]的興起背景下。2023年和2024年這些LLMs的發展及其在CTG中的應用引發了一波創新,重新塑造了研究視角。因此,本文重點介紹了針對大型預訓練語言模型在LLM時代的CTG方法,介紹了這些前沿方法的概念和特點。
  • 探討模型表達和CTG質量:本文考察了CTG與模型能力之間的相互作用,探討了外部控制條件如何融入CTG過程。還關注了CTG的質量問題,重點探討了什么定義了更有效和有用的文本生成。
  • 創新任務分類框架:本文引入了一個創新的框架,將CTG任務分為兩大類:內容控制(硬控制)和屬性控制(軟控制)。這個框架為探索和分析CTG方法的多樣性提供了結構化的途徑。
  • 系統分類CTG方法:本文將CTG方法分為兩個主要階段:訓練階段方法和推理階段方法。這些方法包括重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預技術。

1.3 文章結構

本文的邏輯框架如圖3所示。第1.1節首先介紹了CTG的核心需求。第2節在LLMs的背景下定義了CTG,解釋了關鍵概念并探討了控制條件如何融入生成過程。 第3節將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 為了提供CTG方法的全面概述,第4節系統分類了從訓練階段的重訓練和微調到推理階段的提示工程和潛在空間操作等技術。在第5和第6節中詳細討論了這些方法。 第7節探討了評估標準,介紹了流行的評估框架和技術。第8節探討了CTG在新聞生成、對話系統和有害內容減少等各個領域的實際應用。 在第9節中,我們討論了CTG的挑戰,包括精確內容控制、多屬性控制的復雜性以及文本流暢性和有用性的提升。我們主張多樣化測試任務,強調實際應用,并最大化LLMs的能力。 最后,第10節總結了本研究的主要貢獻,為CTG領域的未來發展提供了有價值的見解。

可控文本生成中的任務

在可控文本生成(CTG)的領域,根據文本控制的性質,任務可以大致分為兩大類:內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。

**2.1 內容控制(或語言控制/硬控制)

內容控制(也稱為語言控制或硬控制)關注生成文本的特定元素,例如其結構和詞匯。這種類型的控制要求模型嚴格按照預定義的規則生成文本內容,因此被稱為“硬控制”,因為它直接影響生成文本的具體形式和內容。此類別包括以下方面:

  • 結構控制:

  • 特定格式:生成符合特定格式要求的文本,例如詩歌[153, 186]、食譜[92]或其他類型的結構化文本,每種格式都有其獨特的語言和結構規范。

  • 組織結構:確保文本具有適當的段落劃分、標題使用和列表安排[49, 84],以增強清晰度和可讀性。

  • 長度控制:管理生成文本的整體長度以滿足特定要求[12, 51, 54],確保其適合預定的平臺或用途。

  • 詞匯控制:

  • 關鍵詞包含:確保生成的文本包含預定義的一組關鍵詞[44, 172],從而滿足特定的信息需求,并增強信息的相關性和特異性。

  • 禁止特定術語:防止使用可能有害或不適當的術語[94],從而維護內容的完整性和適宜性。

**2.2 屬性控制(或語義控制/軟控制)

屬性控制,也稱為語義控制或軟控制,側重于文本的抽象語言屬性,例如情感、風格和主題。這種控制類型的目標是確保生成的文本在更高層次上反映特定的語義特征,而不是嚴格定義具體的語言表達。這種類型的控制被稱為“軟控制”,因為它強調的是影響文本的整體抽象特征,而非其具體內容。示例如下:

  • 安全性控制

  • 去毒化:生成的文本應避免任何形式的有害內容[21, 85, 120],例如歧視性語言或暴力內容。

  • 遵守法律法規:文本必須遵守所有適用的法律和法規[5],包括隱私保護和版權法。

  • 情感控制

  • 情感傾向:確保生成的文本展現出明確的情感傾向,如積極、消極或中性,以符合特定的溝通目的[14, 22, 65, 160]。這確保了情感基調與語境或對受眾的預期影響一致。

  • 風格控制

  • 通用風格:通用風格控制確保生成的文本滿足特定場合和行業的需求[58]。例如,在醫學、法律或商業領域,需要保持專業的溝通風格,以確保內容的專業性和適應性。此外,在不同的社交場合,文本應反映出特定的語調,如正式性或禮貌性[117, 136],以滿足禮儀要求。

  • 個人風格:個人風格控制涉及生成模仿特定寫作風格的文本[132, 134, 138],如莎士比亞風格,以滿足藝術或專業需求。它還包括根據個人表達習慣和偏好生成個性化文本,提供更為定制化的用戶體驗。

  • 主題控制

  • 主題一致性:確保文本嚴格遵循指定的主題[14, 22],如技術、體育或政治。這包括使內容與目標受眾的預期知識和興趣保持一致。

這些示例代表了CTG中常見的任務和應用場景。在內容控制和屬性控制的領域內,還有許多其他豐富的任務,這些都為CTG的廣泛研究領域做出了貢獻。

可控文本生成方法的分類

可控文本生成(CTG)的核心在于將控制條件 CCC 融入大型語言模型(LLMs)的文本生成過程中。CTG方法通過參數化或非參數化的方式,將外部信息注入到LLMs生成的文本中,從而實現這一目標。這些外部信息可以采用多種形式,包括利用分類器、條件語言模型或直接從LLMs自身引入知識的模型驅動方法。或者,也可以使用數據驅動的方法,利用豐富的數據資源,如文本語料庫[58, 160]、詞匯表[106]、圖結構[81]和數據庫[103, 108]等來注入知識,如圖4所示。具體的方法和更多細節將在第5節和第6節中進行詳細介紹和討論。

可控文本生成(CTG)方法可以根據模型干預發生的階段進行分類。總體而言,CTG方法分為兩個主要階段:訓練階段和推理階段(見圖5)。在每個階段內,CTG方法進一步細分為不同的類別,如表2所示,涵蓋了各種研究方法和具體的代表性方法。

3.1 訓練階段

在訓練階段,采用了幾種方法來實現可控文本生成。

  • 重訓練[44, 58, 172]:通過使用專門設計的數據集從頭開始訓練模型,以反映所需的控制條件。當預訓練模型無法滿足需求或需要進行架構修改以符合特定要求時,通常采用這種方法。重訓練允許調整模型架構,以更好地適應這些控制需求。
  • 微調[160, 165, 183]:通過將所需的控制屬性集成到模型參數中,對預訓練模型進行微調。通過參數調整或使用適配器模塊,微調提供了一種高效的方法,與重訓練相比,它需要相對較少的數據和計算資源。
  • 強化學習[21, 59, 138]:利用獎勵信號引導模型輸出朝向特定的控制目標。通過迭代優化,模型學習將輸出與這些目標對齊,這使得強化學習特別適合于復雜任務,如在生成的文本中保持特定的風格或情感。

3.2 推理階段

在推理階段,干預措施在文本生成過程中實時應用,以根據特定的控制條件影響輸出。

  • 提示工程[73, 76, 89]:通過操縱輸入提示來引導模型的輸出。該技術可以使用顯式的自然語言提示(硬提示)或連續的向量嵌入(軟提示)來靈活地引導生成過程。由于提示工程不需要更改模型參數,它適合于快速調整生成策略。
  • 潛在空間操作[87, 132, 137]:通過調整模型隱藏層中的激活狀態來控制生成的文本。通過添加或修改潛在向量,這種方法可以在不改變模型權重的情況下精確控制文本生成過程。潛在空間操作在屬性控制方面尤其有效,例如在情感或風格上進行微調。
  • 解碼時干預[22, 65, 153]:通過修改生成輸出的概率分布或在解碼過程中應用特定規則來影響詞語選擇。該方法通常涉及使用分類器或獎勵模型來評估生成的片段,并在解碼過程中進行實時調整,以確保輸出符合特定的控制條件。解碼時干預通常是即插即用的,提供了在文本生成過程中動態調整的靈活性。

結論

本文回顧了大型語言模型(LLMs)在可控文本生成(CTG)領域的最新研究進展,并系統地定義了基本概念,涵蓋了控制條件和文本質量要求。文章提出了一種新的任務分類方法,將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 本文詳細回顧了多種CTG方法。在訓練階段,主要方法包括對預訓練模型進行重訓練或微調,以及采用強化學習策略來優化生成質量和控制精度。在推理階段,常用技術包括通過提示工程引導生成,操縱潛在空間以實現精確控制,以及在解碼過程中進行干預以調整輸出文本。 文章還探討了CTG的各種評估方法,并強調了CTG技術在多個垂直領域和通用任務中的廣泛應用。本文討論了CTG領域面臨的挑戰,包括提高生成質量、優化控制精度和提升推理效率,并指出了未來的研究方向和呼吁。 總之,本文提供了對可控文本生成領域核心概念、技術方法、評估方法和實際應用的全面綜述,識別了當前研究的挑戰,并提出了未來的發展方向。它旨在為可控文本生成領域的研究探索提供系統的參考和指導。

付費5元查看完整內容

相關內容

大型語言模型 (LLMs) 近期因其文本交互能力而受到廣泛關注。然而,自然的人類互動通常依賴語音,這促使人們向語音模型轉變。一種實現這一目標的直接方法是使用“自動語音識別 (ASR) + LLM + 語音合成 (TTS)”的流水線,即將輸入語音轉錄為文本,經由 LLM 處理后再轉換回語音。盡管此方法直觀簡單,但它存在固有的局限性,如在模式轉換過程中信息丟失,以及在三個階段中累積的誤差。為了解決這些問題,語音語言模型 (SpeechLMs) 應運而生。這些端到端模型無需文本轉換,直接生成語音,成為一種有前景的替代方案。本綜述論文首次全面概述了構建 SpeechLMs 的最新方法,詳細介紹了其架構的關鍵組成部分以及其開發中的各種訓練方法。此外,我們系統地考察了 SpeechLMs 的多種能力,分類了對 SpeechLMs 的評估指標,并討論了該快速發展的領域中的挑戰與未來研究方向。

1 引言大型語言模型(LLMs)在文本生成和自然語言處理任務中展現出顯著的能力,成為推動 AI 驅動語言理解和生成的強大基礎模型 [Achiam 等, 2023; Dubey 等, 2024a; Zhang 等, 2022b]。它們的成功還推動了其他領域的眾多應用,然而,僅依賴文本模式存在明顯的局限性。這促使人們發展基于語音的生成模型,使人與模型之間的互動更加自然和直觀。引入語音不僅有助于實現實時語音互動,還能通過結合文本和語音信息豐富交流內容 [Nguyen 等, 2023b; Nguyen 等, 2024]。鑒于文本與語音之間存在大量的互信息,對現有的 LLM 進行修改以支持語音互動功能是一項自然的選擇。一種直接的方法是采用“自動語音識別(ASR)+ LLM + 語音合成(TTS)”框架(圖1a)[Huang 等, 2024]。在該設置中,用戶的語音輸入首先由 ASR 模塊處理,將其轉換為文本。然后,LLM 基于該轉錄文本生成響應,最后由 TTS 模塊將該文本響應轉換回語音并播放給用戶。然而,這種簡單方案主要面臨以下兩個問題:1)信息丟失。語音信號不僅包含語義信息(即語音的意義),還包含副語言信息(例如音調、音色、語調等)。在處理中使用純文本 LLM 會導致輸入語音中的副語言信息完全丟失 [Zhang 等, 2023a]。2)累積誤差。此種分階段的方法容易在整個流程中產生累積誤差,特別是在 ASR 到 LLM 階段 [Fathullah 等, 2024]。特別是在 ASR 模塊將語音轉換為文本時發生的轉錄錯誤會對 LLM 的語言生成性能產生負面影響。由于 ASR + LLM + TTS 框架的局限性,語音語言模型(SpeechLMs,圖1b)被開發出來。與簡單的框架不同,SpeechLMs 直接將語音波形編碼為離散的 token,從音頻中捕獲重要特征和信息(第 3.1 節)。盡管單個語音 token 可能不具備詞匯層面的語義意義,但它們捕捉到語音話語的語義信息并保留寶貴的副語言信息,從而避免信息丟失。SpeechLMs 自回歸地建模這些 token,無需完全依賴文本輸入,使其能夠利用附加的副語言信息生成更具表現力和細膩的語音(第 3.2 節)。最終,這些生成的 token 被合成回語音(第 3.3 節)。通過直接處理編碼后的語音 token,SpeechLMs 有效地減輕了累積誤差,因為其訓練與語音編碼一體化進行,而簡單框架中 LLM 的語言建模訓練則完全獨立于 ASR(語音識別)模塊。除基礎對話能力外,SpeechLMs 還具備執行更復雜任務的潛力,如編碼特定說話者信息和情感細微差別(圖2)。這種能力使 SpeechLMs 能夠在對話中區分不同說話者,并理解和生成帶有特定情感語調的語音。這些進展對個性化助手、情感感知系統以及更細致的人機交互場景等領域尤為重要。此外,SpeechLMs 可以設計為支持實時語音互動,即模型可在用戶講話時被打斷,或選擇在用戶尚未結束講話時進行響應,更接近人類對話的模式。在本綜述中,我們首次全面概述了構建 SpeechLMs 的最新研究成果。我們探討了構成其架構的各種組件(第 3 節)及其開發中的訓練方法(第 4 節),并從以上視角分析這些模型,旨在闡明該領域的當前狀態。此外,我們考察了 SpeechLMs 的下游應用(第 5 節)、分類評估 SpeechLMs 的指標(第 6 節)、討論了該領域快速發展中遇到的挑戰,并提出了可能推動 SpeechLM 技術進一步發展的未來研究方向(第 7 節)。我們的貢獻總結如下:

  • 我們呈現了 SpeechLMs 領域的首次綜述。
  • 我們提出了一個基于底層組件和訓練方法的 SpeechLMs 分類新體系(圖3)。
  • 我們提出了 SpeechLMs 評估方法的新分類系統。
  • 我們識別出構建 SpeechLMs 的若干挑戰。


2 問題定義

在此部分中,我們將正式定義語音語言模型(Speech Language Models,簡稱SpeechLMs)。語音語言模型是一種自回歸基礎模型,能夠處理并生成語音數據,通過上下文理解生成連貫的語音序列。SpeechLMs 支持多種模式,包括語音到文本、文本到語音,甚至是語音到語音,具備上下文感知能力,從而能夠執行廣泛的任務。與傳統的文本語言模型(如 LLM)不同,SpeechLMs 處理的是語音和文本兩種模式。這使得 SpeechLMs 能夠進行更自然的多模態交互,在同一模型框架內處理多種輸入和輸出模式,具有更高的應用潛力。


3 SpeechLM的組件

語音語言模型主要包括三個組件:語音分詞器、語言模型和語音合成器(聲碼器),這種三階段的設計模式的主要原因是使語言模型架構(如僅解碼器的 transformer)能夠以音頻波形的形式自回歸地建模語音。由于語言模型的輸入和輸出都是離散 tokens,因此需要附加模塊來處理輸入輸出格式。下面將詳細介紹各個組件:

**3.1 語音分詞器

語音分詞器是 SpeechLM 的第一個組件,它將連續的音頻信號(波形)編碼為潛在表示,再將其轉換為離散 tokens,使其能夠被語言模型有效處理,用于諸如語音識別或合成等任務。語音分詞器的核心目標是捕捉音頻中的關鍵特征,同時降低其維度,便于后續對語音模式的建模和分析。 語義理解目標: 設計語義理解目標的語音分詞器旨在將語音波形轉化為能夠準確捕捉語音內容和意義的 tokens。通常情況下,這些分詞器包含一個語音編碼器和一個量化器,語音編碼器對波形的關鍵信息進行編碼,而量化器則將連續表示離散化為離散 tokens。 聲學生成目標: 具有聲學生成目標的語音分詞器注重捕捉生成高質量語音波形所需的聲學特征,優先保留關鍵信號,而非語義內容。為生成高質量的語音波形,這些分詞器通常采用包含編碼器、量化器和解碼器的架構,將原始波形轉換為離散 tokens,再通過解碼器將其重構回語音波形。 混合目標: 混合目標的語音分詞器平衡語義理解和聲學生成任務。大部分混合分詞器采用聲學生成分詞器的架構,并側重于將語義信息從語義分詞器提取到聲學分詞器中。某些系統還利用單獨的向量量化器來從語音模型(如 WavLM)提取信息,并結合聲學特征模塊以提升性能。

**3.2 語言模型

由于文本語言模型的成功,大部分 SpeechLMs 采用了類似的架構,主要使用 transformer 或僅解碼器的架構進行自回歸語音生成。為適應語音生成,原文本分詞器被替換為語音分詞器,使模型能夠聯合建模文本和語音兩種模態。通常做法是擴展原文本模型的詞匯量以容納文本和語音 tokens,形成一個更大的嵌入矩陣,從而使模型在單一序列中生成文本和語音。

**3.3 聲碼器

聲碼器在語言模型生成 tokens 后將其合成為語音波形,這一過程涉及將生成的語音 tokens 所代表的語言和副語言信息轉換為音頻波形。聲碼器通常包括直接合成和輸入增強合成兩種流程。直接合成方式較為簡單,適用于包含足夠聲學信息的 tokens;輸入增強合成則在 tokens 進入聲碼器之前將其轉換為包含豐富聲學特征的表示,以生成更高質量的語音波形。


4 訓練策略

SpeechLMs 的訓練過程分為三個主要階段:預訓練、指令微調和對齊。這一節將主要回顧語言模型組件的主要訓練技術。

**4.1 預訓練

預訓練階段對語言模型的影響至關重要,因為它能夠幫助模型學習語音數據中的統計模式和依賴關系,以便在上下文中預測下一個 token。SpeechLMs 預訓練通常使用大規模的開放語音數據集,包括用于 ASR、TTS 和多模態任務的數據集。為了增強語音和文本模態的對齊,部分模型從預訓練的文本模型開始進行預訓練,并調整以支持語音 tokens,從而加速收斂并提升語音理解性能。

**4.2 指令微調

指令微調通過特定的任務指令來提升模型的泛化能力,使其適應更多樣的應用場景。常見的指令微調方法包括多模態指令微調和模態鏈微調。SpeechGPT 使用指令微調來處理 ASR、TTS 等任務,通過生成包括語音輸入、文本輸出在內的數據集,進一步提高模型的適用性。

**4.3 對齊階段

對齊階段指的是通過特定方法來增強文本與語音模態間的表示對齊。通過交替輸入文本和語音 tokens 的方法,可以顯著提高模型在語音理解和生成方面的性能。此外,通過將文本和語音版本的提示都用于訓練,確保模型能夠為兩種輸入模態生成一致的輸出。這樣,模型既可以在純文本環境中運行,也可以在語音模式下自然地響應。


**

**

5 下游應用

SpeechLMs 可處理多種下游任務,遠超傳統的ASR 和TTS系統,它們不僅支持文本與語音的多模態任務,還能處理復雜的語音和文本組合任務。下游應用可分為以下幾類:

**5.1 語義相關應用

口語對話:SpeechLMs 可用于口語對話系統,使系統能夠在上下文中理解用戶意圖并生成語音響應。 * 語音翻譯:支持語音到文本或語音到語音的翻譯任務,SpeechLMs 能夠根據不同語言生成對應翻譯。 * 自動語音識別:通過ASR將語音轉換為文本,是SpeechLMs 最基本的功能之一。 * 關鍵字檢測:用于語音激活的場景,SpeechLMs 可識別并提取特定關鍵字,從而觸發特定操作。 * 文本到語音合成:與ASR相反,TTS從文本生成對應的語音輸出,以實現從文本指令到語音的轉換。

**5.2 說話人相關應用

說話人識別:能夠識別語音中的說話人身份,是一種多類分類任務。 * 說話人驗證:判定兩段語音是否來自同一說話人,為二分類任務。 * 說話人分離:將音頻流分割為不同說話人片段,從而標識出誰在什么時間說話。

**5.3 副語言應用

SpeechLMs 還可以處理語音中的副語言信息,如情感識別、語音分離等任務。通過捕捉音高、音色、說話速度等信息,SpeechLMs 能夠識別語音中的情感和態度,使得語音系統能夠生成更具情感化的響應。


6 評價與未來研究方向

本綜述概述了語音語言模型的關鍵組成部分、訓練方法、下游應用及其在語音生成中的不同表現。未來,SpeechLMs 的研究可以朝以下方向發展: * 增強多模態對齊:進一步提高語音與文本模式的對齊能力,使SpeechLMs 更加適應多種任務。 * 提高實時交互性能:開發具有更高響應速度的模型,支持用戶打斷等更自然的交互方式。 * 擴展評估指標:目前大多使用傳統的語音合成和語音識別指標,對這些模型進行更全面的評估需要結合新指標。

付費5元查看完整內容

大型語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中展示了令人矚目的表現,充分利用了它們理解和生成類人文本以進行視覺推理的固有能力。鑒于視覺數據的多樣性,多模態大型語言模型(MM-LLMs)在理解圖像、短視頻和長視頻時,在模型設計和訓練上表現出不同的變異性。本文重點討論長視頻理解相較于靜態圖像和短視頻理解所帶來的巨大差異和獨特挑戰。與靜態圖像不同,短視頻包含具有空間和事件內時序信息的連續幀,而長視頻則由多個事件組成,涵蓋事件間和長期時序信息。在本次綜述中,我們旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs進展。我們回顧了各種視覺理解任務的差異,強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件以及長期依賴關系。接著,我們詳細總結了在長視頻理解中MM-LLMs的模型設計和訓練方法的進展。最后,我們比較了現有MM-LLMs在不同長度視頻理解基準測試中的表現,并討論了MM-LLMs在長視頻理解中的未來潛在發展方向。

//www.zhuanzhi.ai/paper/72b285bc61f4bbb1c7ca164cf4d23606

1 引言

大型語言模型(LLMs)通過擴大模型規模和訓練數據展示了在理解和生成類人文本方面的顯著多功能性和能力(Raffel等, 2020; Brown, 2020; Chowdhery等, 2023; Touvron等, 2023a)。為了將這些能力擴展到視覺理解任務中,已經提出了各種方法將LLMs與特定的視覺模態編碼器相結合,從而賦予LLMs視覺感知能力(Alayrac等, 2022; Li等, 2023a)。單張圖像或多幀被編碼為視覺標記,并與文本標記集成,以幫助多模態大型語言模型(MM-LLMs)實現視覺理解。對于長視頻理解,MM-LLMs(Dai等, 2023; Liu等, 2024c)設計用于處理大量視覺幀和多樣化事件,使其能夠應用于諸如自動分析體育視頻集錦、電影、監控錄像和具身AI中的自我視角視頻等多種現實世界應用。例如,機器人可以通過長時間的自我視角視頻學習如何制作咖啡,它需要分析長視頻中的關鍵事件,包括:1)每6盎司水加入一到兩湯匙咖啡粉;2)向咖啡機的水箱加水;3)將咖啡粉放入過濾籃中;4)啟動咖啡機并等待其煮咖啡。對包含復雜時空細節和依賴關系的長視頻進行建模仍然是一個挑戰性問題(Wang等, 2023a; Mangalam等, 2024; Xu等, 2024b; Wu等, 2024)。 長視頻理解與其他視覺理解任務之間存在顯著差異。相比于靜態圖像理解,它僅關注靜態圖像的空間內容,而短視頻理解還必須考慮事件內跨連續幀變化的時間信息(Li等, 2023b; Zhang等, 2023; Maaz等, 2023)。此外,長視頻(超過一分鐘的)(Wu 和 Krahenbuhl, 2021; Zhang等, 2024d; Song等, 2024a)通常由多個事件組成,場景和視覺內容各異,需要捕捉事件間和長期的變化以實現有效理解。在有限的視覺標記數量下,如何有效平衡空間和時間細節,對長視頻語言模型(LV-LLMs)提出了相當大的挑戰(Song等, 2024a; He等, 2024; Xu等, 2024b)。與僅包含幾十幀的短視頻不同,長視頻往往包含數千幀(Ren等, 2024; Zhang等, 2024d)。因此,LV-LLMs必須能夠記住并不斷學習跨幾分鐘甚至幾小時的視頻中的長期關聯。為了實現對長視頻的全面理解,MM-LLMs在模型設計和訓練方面的進展值得特別關注(Fu等, 2024a; Wu等, 2024)。 我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解中的比較。除了上文討論的長視頻理解與其他視覺理解任務的繼承和發展關系外,LV-LLMs也在多圖像和短視頻MM-LLMs的進展基礎上構建,具有相似的視覺編碼器、LLM主干和跨模態連接器結構。為有效解決長視頻理解任務中新出現的挑戰,LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅能橋接跨模態表示,還能將視覺標記壓縮到可管理的數量(Li等, 2023c; Zhang等, 2024d)。此外,時間感知模塊通常被引入,以增強LV-LLMs對時間信息的捕捉(Qian等, 2024)。對于預訓練和指令調優,視頻-文本對和視頻指令數據對于MM-LLMs處理具有共享空間感知和推理能力的圖像和視頻至關重要(Li等, 2023b)。長視頻訓練數據集在時間跨模態語義對齊和捕捉長期關聯方面尤為重要,這對LV-LLMs至關重要(Song等, 2024b)。我們的綜述將提供對模型設計和訓練方法進展的全面總結,追蹤MM-LLMs從圖像理解到長視頻理解的演變。 近期關于視覺理解任務的綜述通常采用單一視角,要么從全球視角審視MM-LLMs(Yin等, 2023; Zhang等, 2024a),要么從局部視角聚焦于圖像或視頻理解任務(Zhang等, 2024b; Nguyen等, 2024)。雖然這些工作對研究主題進行了廣泛審查,但它們沒有討論不同任務和方法之間的繼承與發展關系。此外,現有關于視頻理解任務的綜述(Tang等, 2023)更傾向于關注一般的視頻理解,而非更具挑戰性的長視頻理解任務。超過一分鐘的長視頻在教育、娛樂、交通等領域廣泛應用,需要強大的模型來實現全面的自動理解(Apostolidis等, 2021)。我們的工作是最早從發展視角總結和討論長視頻理解任務的研究之一。 本綜述的結構如下:首先,我們發現長視頻理解任務相比于圖像和短視頻理解任務更為復雜(第2.1節),并在第2.2節總結了長視頻理解的獨特挑戰。接下來,我們從模型架構(第3節)和訓練方法(第4節)的角度詳細總結了MM-LLMs的進展,重點關注LV-LLMs在全面長視頻理解中的實現。然后,我們比較了視頻LLMs在從秒到分鐘(第5.1節)以及從分鐘到小時(第5.2節)的視頻理解基準測試中的表現,為LV-LLMs的現有研究成果提供了見解。最后,我們在第6節中討論了長視頻理解領域未來的研究方向,以推進這一研究領域的發展。

2 長視頻理解

由于長視頻理解與圖像或短視頻理解之間的固有差異,包括多幀和動態場景中存在的各種事件,長視頻理解任務在視覺理解方面提出了額外的挑戰。

**2.1 視覺推理與理解

視覺推理要求模型能夠理解和解釋視覺信息,并將多模態感知與常識性理解相結合(Johnson等, 2017; Chen等, 2024c)。視覺推理任務主要有三種類型:視覺問答(VQA)、視覺字幕生成(VC)或描述(VD),以及視覺對話(VDia)。VQA(Antol等, 2015; Zakari等, 2022)涉及根據輸入的視覺數據和伴隨的問題生成自然語言答案。VC和VD系統(Vinyals等, 2015; Sharma等, 2018; Li等, 2019)分別生成簡潔的自然語言句子以總結視覺數據的主要內容,或生成詳細且全面的視覺數據描述。VDia(Das等, 2017; Qi等, 2020)則涉及圍繞視覺內容進行的多輪對話,由一系列問題-答案對組成。 圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像的各種視覺推理任務,例如圖像字幕生成和以圖像為中心的問答(Sharma等, 2018; Mathew等, 2021; Changpinyo等, 2022; Li等, 2023a; Chen等, 2024a)。這些任務僅關注空間信息,包括對全局視覺內容的粗粒度理解(Ordonez等, 2011; Sohoni等, 2020)以及對局部視覺細節的精細理解(Wei等, 2021; Liu等, 2024b; Peng等, 2024)。 短視頻理解。與圖像理解任務僅涉及靜態視覺數據不同,短視頻理解還結合了多幀視覺數據中的時間信息(Xu等, 2016; Bain等, 2021; Li等, 2023b, 2024e)。除了空間推理(Ranasinghe等, 2024)外,事件內的時間推理和跨幀的時空推理對于短視頻理解至關重要(Huang等, 2018; Lin等, 2019; Diba等, 2023)。 長視頻理解。長視頻通常跨越數分鐘甚至數小時,通常包含多個事件,與短視頻相比,長視頻涵蓋更豐富的空間內容和時間變化(Mangalam等, 2024; Li等, 2024f; Song等, 2024a,b)。如圖3(c)總結的那樣,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間的推理和跨不同視頻事件的長期推理(Wu等, 2019; Wu和Krahenbuhl, 2021; Wang等, 2023a; Zhou等, 2024; Fang等, 2024)。

**2.2 長視頻理解的挑戰

與圖像和短視頻相比,長視頻帶來了全面視覺理解的新挑戰,具體如下: 豐富的細粒度時空細節。長視頻涵蓋廣泛的主題、場景和活動,包含不同的細節,如物體、事件和屬性(Fu等, 2024a; Wu等, 2024)。與靜態圖像和具有相似多幀的短視頻相比,這些細節更加豐富,使長視頻理解更具挑戰性。例如,可以在任何幀中引入細粒度的空間問答,而時間問答可以在長視頻推理任務的幀間或幀內引入(Song等, 2024a)。用于長視頻理解的多模態LLMs必須捕捉跨越數分鐘甚至數小時的視頻幀中的所有相關細粒度時空細節,并使用有限數量的視覺標記。 場景轉換和內容變化中的動態事件。長視頻通常包含各種動態事件,場景和內容變化顯著(Wu等, 2024)。這些事件可能根據出現的順序在語義上相關并按時間協調(Bao等, 2021),也可能由于情節反轉(Papalampidi等, 2019)而表現出顯著的語義差異。事件間推理涉及多個具有不同視覺信息的事件,對于準確的內容理解至關重要(Cheng等, 2024a; Qian等, 2024)。對于多模態LLMs來說,區分語義差異并在不同事件中保持語義一致性對長視頻理解尤為重要。 長期關聯和依賴關系。長視頻通常包含跨長時間段的動作和事件。捕捉長期依賴關系并理解視頻的不同部分在長時間段內如何相互關聯是一項挑戰(Wu等, 2019)。用于圖像或短視頻的LLMs通常無法將當前事件與遠離當前時間的過去或未來事件聯系起來(Wu和Krahenbuhl, 2021),也無法進行長期決策(Wang等, 2024b)。

3 模型架構的進展

在本節中,我們從模型架構的角度討論了多模態大型語言模型(MM-LLMs)從圖像目標模型到長視頻目標模型的進展。如圖4所示,用于圖像、短視頻和長視頻的MM-LLMs具有相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像目標MM-LLMs中的圖像級連接器不同,視頻級連接器在跨幀視覺信息的整合中起著關鍵作用。在長視頻LLMs(LV-LLMs)中,設計連接器更加具有挑戰性,要求有效壓縮大量視覺信息并結合時間知識來管理長期關聯。

**3.1 視覺編碼器與LLM主干

MM-LLMs,包括圖像目標和視頻目標模型,通常使用相似的視覺編碼器來提取視覺信息。LLM主干在早期的MM-LLM方法中也比較通用,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。 視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕捉視覺知識。如表1所示,圖像編碼器如CLIP-ViT-L/14(Radford等, 2021)、EVA-CLIP-ViT-G/14(Sun等, 2023)、OpenCLIP-ViT-bigG/14(Cherti等, 2023)和SigLIP-SO400M(Zhai等, 2023)廣泛用于圖像和視頻目標的LLMs。近期工作(Li等, 2024a)表明,視覺表示(包括圖像分辨率、視覺標記的大小和預訓練視覺資源)比視覺編碼器的大小更重要。 LLM主干。LLM是視覺理解系統中的核心模塊,繼承了推理和決策的屬性。相比于GPT-3/4(Brown, 2020;Achiam等, 2023)和Gemini-1.5(Reid等, 2024)等閉源LLMs,更多的開源LLMs更常用于實現視覺LLMs。這些開源LLMs包括Flan-T5(Chung等, 2024)、LLaMA(Touvron等, 2023b,c;Dubey等, 2024)、Vicuna(Chiang等, 2023)、QWen(Bai等, 2023a)、Mistral(Jiang等, 2023)、Openflamingo(Awadalla等, 2023)、Yi(Young等, 2024)和InternLM(Team, 2023;Cai等, 2024)。 LLM的強度通常與視覺LLMs的多模態能力相關聯(Li等, 2024b,a)。這意味著對于相同規模的LLM,語言能力更強的模型表現更好;而對于相同LLM的不同規模模型,規模更大的模型通常會帶來更好的多模態性能。此外,長上下文LLMs通過將上下文長度擴展到成千上萬的標記,支持更多數據的學習(Yang等, 2024)。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態(Zhang等, 2024d)。

**3.2 模態接口

視覺編碼器和LLMs之間的連接器作為模態接口,將視覺特征映射到語言特征空間。鑒于視覺數據來源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。 圖像級連接器。圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺標記,它們廣泛用于圖像目標和視頻目標的MM-LLMs中。這些連接器可以分為三類:第一類直接使用單層線性層(Liu等, 2024c)或多層感知器(MLP)(Liu等, 2024a)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺標記的方法不適用于涉及多圖像的視覺理解任務。為了應對保留所有視覺標記的局限性,第二類采用了基于池化的方法,包括空間池化(Maaz等, 2023)、自適應池化(Xu等, 2024a)、語義相似標記合并(Jin等, 2024)和相鄰標記平均(Zhang等, 2024e;Li等, 2024c)。第三類利用了基于交叉注意力或Transformer的結構,例如Q-Former(Li等, 2023a)和Perceiver Resampler(Jaegle等, 2021),用于圖像特征壓縮。Q-Former是一種輕量級Transformer結構,使用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai等, 2023;Li等, 2023b;Ma等, 2023a;Liu等, 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma等, 2023b;Jiang等, 2024)選擇使用Perceiver Resampler來通過提取補丁特征降低計算負擔。 視頻級連接器。視頻級連接器用于提取連續的視覺數據并進一步壓縮視覺特征。相比于圖像目標MM-LLMs中的圖像級連接器,視頻級連接器在視頻目標MM-LLMs,包括LV-LLMs中尤為重要。一些方法直接將圖像標記串聯后輸入到LLMs,使其對幀圖像數量較為敏感(Dai等, 2023;Lin等, 2023)。用于標記壓縮的圖像級連接器的類似結構可以適用于視頻級接口,如基于池化和Transformer的結構。沿時間序列維度的池化是減少時間信息冗余的直接方式(Maaz等, 2023;Song等, 2024a)。基于Transformer的方法,如Video Q-Former(Zhang等, 2023;Ma等, 2023a;Ren等, 2024)和Video Perceiver(Wang等, 2023b),在提取視頻特征的同時降低了數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取并壓縮視覺數據(Cheng等, 2024b;Liu等, 2024d)。 長視頻級連接器。專為長視頻LLMs設計的連接器考慮了兩個特殊因素:處理長視頻數據的高效視覺信息壓縮和時間感知設計以保留時間信息。 有效壓縮視覺信息不僅需要將輸入的視覺標記減少到可接受的數量,還需要保留長視頻中包含的完整時空細節。視頻包含兩種類型的數據冗余:幀內的空間數據冗余和幀間的時空數據冗余(Li等, 2022;Chen等, 2023a)。一方面,當幀內的像素在區域級別相同時,空間數據冗余就會產生,從而導致通過完整的視覺標記表示冗余視覺幀時效率低下。為了減少空間視頻數據冗余,LLaVA-Next系列方法(Zhang等, 2024e;Li等, 2024d;Liu等, 2024b;Li等, 2024c)合并了相鄰幀補丁標記,而Chat-UniVi(Jin等, 2024)合并了相似的幀補丁標記。另一方面,時空數據冗余包括幀間像素冗余和運動冗余(Pourreza等, 2023),其中這些冗余視頻幀之間的語義信息相似。為了減少時空視頻冗余,MovieChat(Song等, 2024a)和MALMM(He等, 2024)在將幀特征輸入到LLMs之前合并了相似幀特征。在減少冗余信息的同時,保留更多視頻時空細節對于準確的長視頻推理至關重要(Diba等, 2023)。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA(Xu等, 2024b)采用了低幀率的慢路徑來提取特征,同時保留更多的視覺標記,以及高幀率的快路徑,通過更大的空間池化步長關注運動線索。 此外,時間相關的視覺數據可以有效管理長視頻固有的時空信息(Hou等, 2024)。時間感知設計可以增強視頻相關LLMs的時間捕捉能力,這對于長視頻理解特別有益。VTimeLLM(Huang等, 2024a)和InternLM-XComposer-2.5(IXC-2.5)(Zhang等, 2024c)都使用幀索引來增強時間關系。不同之處在于其方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat(Ren等, 2024)和Momentor(Qian等, 2024)將時間信息直接注入幀特征中,以捕捉細粒度的時間信息。具體而言,TimeChat設計了一個時間感知幀編碼器,用于在幀級別提取視覺特征,并添加相應的時間戳描述,而Momentor利用了一個時間感知模塊,用于連續時間編碼和解碼,將時間信息注入幀特征中。

結論

本文總結了視覺LLMs從圖像到長視頻的進展。基于對圖像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰。這些挑戰包括在動態連續事件中捕捉更多的細粒度時空細節和在場景轉換與內容變化中壓縮視覺信息中的長期依賴關系。接著,我們介紹了從圖像LLMs到長視頻LLMs在模型架構和模型訓練方面的進展,旨在提升長視頻的理解與推理能力。隨后,我們回顧了多個不同長度的視頻基準測試,并比較了不同方法的視頻理解性能。該比較為長視頻理解的未來研究方向提供了見解。我們的論文是首個聚焦于長視頻LLMs的開發和改進,以提升長視頻理解的研究工作。我們希望本研究能推動LLMs在長視頻理解與推理領域的進步。

付費5元查看完整內容

大型語言模型(LLMs)在各個領域和智能代理應用中取得了顯著進展。然而,當前從人類或外部模型監督學習的LLMs成本高昂,并且隨著任務復雜性和多樣性的增加,可能面臨性能上限的挑戰。為了解決這個問題,自我進化方法使LLM能夠自主獲取、精煉和學習模型自身生成的經驗,正迅速發展。這種受人類經驗學習過程啟發的新訓練范式為將LLMs擴展到超級智能提供了潛力。在這項工作中,我們提出了對LLMs中自我進化方法的全面調查首先,我們提出了一個自我進化的概念框架,并概述了演化過程,該過程由四個階段的迭代循環組成:經驗獲取、經驗精煉、更新和評估。其次,我們對LLMs和基于LLMs的代理的演化目標進行分類;然后,我們總結了文獻,并為每個模塊提供了分類法和見解。最后,我們指出了現有的挑戰,并提出了未來的方向,以改進自我進化框架,為研究人員提供關鍵的見解,加快自我進化LLMs的發展。我們對應的 GitHub 倉庫可以在 //github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 獲取。

****隨著人工智能的快速發展,諸如GPT3.5(Ouyang等,2022)、GPT-4(Achiam等,2023)、Gemini(Team等,2023)、LLaMA(Touvron等,2023a,b)和Qwen(Bai等,2023)等大型語言模型(LLMs)標志著語言理解和生成方面的重大轉變。這些模型經歷了三個發展階段,如圖1所示:首先,在大規模和多樣化的語料庫上進行預訓練,以獲得對語言和世界知識的一般理解(Devlin等人,2018;Brown等人,2020),然后進行監督微調以引發下游任務的能力(Raffel等人,2020;Chung等人,2022)。最后,人類偏好對齊訓練使LLMs能夠以人類行為作出反應(Ouyang等,2022)。這種連續的訓練范 paradigms 取得了重大突破,使LLMs能夠執行一系列任務,具有顯著的零射擊和上下文能力,例如問答(Tan等,2023)、數學推理(Collins等,2023)、代碼生成(Liu等,2024b)以及需要與環境進行交互的任務解決(Liu等,2023b)。

盡管取得了這些進展,但人們預計新興一代的LLMs可以被賦予更高復雜度的任務,例如科學發現(Miret和Krishnan,2024)和未來事件預測(Schoenegger等,2024)。然而,由于現有訓練范 paradigms 中建模、標注和評估的固有困難,當前的LLMs在這些復雜任務中面臨挑戰(Burns等,2023)。此外,最近開發的Llama-3模型已經在包含15萬億標記的廣泛語料庫上進行了訓練。這是一個龐大的數據量,表明通過添加更多現實世界的數據來顯著擴展模型性能可能存在限制。這引起了人們對LLMs自我進化機制的興趣,類似于人類智能的自然演變,并由游戲中的人工智能發展所說明,例如從AlphaGo(Silver等,2016)到AlphaZero(Silver等,2017)的過渡。AlphaZero的自我對弈方法,無需標記數據,為LLMs超越當前限制并實現超人類表現提供了前進的道路。

受到上述范 paradigm 的啟發,LLMs的自我進化研究在模型發展的不同階段迅速增加,例如自我指導(Wang等,2023b)、自我對弈(Tu等,2024)、自我改進(Huang等,2022)和自我訓練(Gulcehre等,2023)。值得注意的是,DeepMind的AMIE系統(Tu等,2024)在診斷準確性方面超過了初級保健醫生,而微軟的WizardLM-2系統超過了GPT-4的初始版本的性能。這兩個模型都是使用具有自主學習能力的自我進化框架開發的,并代表了LLM培訓范 paradigm 的潛在轉變。然而,這些方法之間的關系仍然不清楚,缺乏系統的組織和分析。 因此,我們首先全面調查LLMs中的自我進化過程,并為其發展建立一個概念框架。

這種自我進化的特點是一個迭代循環,涉及經驗獲取、經驗改進、更新和評估,如圖2所示。在循環過程中,LLM通過不斷發展新任務和生成相應的解決方案來獲得經驗,隨后通過更新模型的重量或上下文來獲取更好的監督信號。在評估模型進展并設定新目標后,LLM最終被評估。 LLMs中自我進化的概念在各種研究社區中引起了相當大的興奮,承諾一個能夠自適應、學習和自主改進的模型新時代,類似于人類對不斷變化的環境和挑戰的演變。自我進化的LLMs不僅能夠超越當前靜態、數據約束的模型的局限,而且還標志著向更加動態、健壯和智能的系統的轉變。

通過提供一個結構化的概念框架,這項調查通過全面概述深化了對自我進化LLMs新興領域的理解。我們追溯了該領域從過去到最新的前沿方法和應用的演變,同時檢查了現有的挑戰并勾勒了未來的研究方向,為自我進化框架和下一代模型的開發鋪平了道路。

本調查分為以下幾個部分:我們首先介紹自我進化的概述(§2),包括背景和概念框架。我們總結了當前方法的現有進化能力和領域(§3)。然后,我們對自我進化過程的不同階段的最新進展進行了深入分析和討論,包括經驗獲取(§4)、經驗改進(§5)、更新(§6)和評估(§7)。最后,我們概述了開放性問題和未來方向(§8)。

付費5元查看完整內容

大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。

大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。

? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。

? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:

? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:

? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。

最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。

? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。

實驗結果

主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型(LLMs),如ChatGPT和LLaMA,正因其強大的文本編解碼能力和新發現的突現能力(例如,推理)在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本,但在許多現實世界場景中,文本數據與圖形(例如,學術網絡和電子商務網絡)形式的豐富結構信息相關聯,或者圖形數據與豐富的文本信息(例如,帶有描述的分子)配對。此外,盡管LLMs已展示其基于純文本的推理能力,但是否可以將此能力泛化到圖形場景(即基于圖的推理)尚未得到充分探索。在本文中,我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類,即純圖,文本豐富的圖,以及與文本配對的圖。然后,我們討論了在圖上使用LLMs的詳細技術,包括將LLM作為預測器、編碼器和對齊器,并比較了不同模型類別的優缺點。此外,我們還提到了這些方法的實際應用,并總結了開源代碼和基準數據集。最后,我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742

大型語言模型(LLMs)(例如,BERT [22]、T5 [30]、LLaMA [119])經過在非常大的文本語料庫上的預訓練,已被證明在解決自然語言處理(NLP)任務方面非常強大,包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs(例如,BERT [22]、RoBERTa [23])采用僅編碼器架構,并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來,越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大,這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5],展現了對人工通用智能(AGI)的強大潛力。 雖然LLMs廣泛應用于處理純文本,但越來越多的應用場景中,文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示,在學術網絡中,論文(帶有標題和描述)和作者(帶有個人簡介文本)通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦;在科學領域,分子以圖形表示,并通常與描述其基本信息的文本(例如,毒性)配對。同時建模分子結構(圖)和相關的豐富知識(文本)對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本,上述場景提出了新的挑戰,即如何使LLMs能夠編碼圖上的結構信息。此外,由于LLMs已展示了其卓越的基于文本的推理能力,探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近,擴展LLMs用于基于圖的應用(如圖1所總結)引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系,應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡(GNNs)的交互方式,圖上LLMs的技術可以分為將LLMs作為任務預測器(LLM as Predictor)、將LLMs作為GNNs的特征編碼器(LLM as Encoder)以及將LLMs與GNNs對齊(LLM as Aligner)。 目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習,Wu et al. [17] 提供了圖神經網絡(GNNs)的全面概述,詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型,包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜(KGs)之間的聯系,特別是KGs如何增強LLMs的訓練和推理,以及LLMs如何促進KG的構建和推理。總而言之,現有的綜述要么更多地關注GNNs而非LLMs,要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述,旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。

**分類與框架 **

在本節中,我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后,我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類

純圖(無文本信息)是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力(解決圖論問題)的背景,或作為知識來源以增強大型語言模型(減輕幻覺現象)。 文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上,人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。 與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質,其中節點代表原子,邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素,但分子的文本描述可以作為補充知識來源,幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **

根據LLMs的角色以及解決圖相關問題的最終組件,我們將圖上LLM技術分類為三個主要類別: LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強,并可以根據圖信息如何注入LLM進行分類:1)圖作為序列:這種方法不對LLM架構做任何改變,但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2)增強圖的LLM:這種方法修改了LLM基礎模型(即變壓器)的架構,并使其能夠在其架構內進行聯合文本和圖編碼。3)圖感知LLM微調:這種方法不對LLMs的輸入或LLM架構做任何改變,但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖(解決節點級或邊級任務)。GNNs是最終組件,我們采用LLM作為初始文本編碼器。具體來說,首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而,這些方法存在收斂問題、稀疏數據問題和效率問題,我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件,并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說,LLMs和GNNs之間的對齊可以分為1)預測對齊,其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練,和2)潛空間對齊,其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **

在圖上應用語言模型有兩種典型的訓練和推理范式:1) 預訓練-然后微調:通常用于中等規模的大型語言模型;以及 2) 預訓練-然后提示:通常用于大規模的大型語言模型。 預訓練指的是使用無監督目標訓練語言模型,以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時,語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。 微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法,可以充分激發語言模型對下游任務的潛力,但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45],以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念,換句話說,人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。 提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列,并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示,后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。 在接下來的章節中,我們將遵循第3節的分類,并討論每個圖場景的詳細方法論。

**結論 **

在本文中,我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類,并總結了圖上大型語言模型的技術。然后,我們對每個場景內的方法進行了徹底的審查、分析和比較。此外,我們總結了可用的數據集、開源代碼庫和多種應用。最后,我們提出了圖上大型語言模型的未來發展方向。

付費5元查看完整內容

隨著ChatGPT的成功普及,基于Transformer的大型語言模型(LLMs)為通往人工通用智能(AGI)鋪平了一條革命性的道路,并已在諸多領域中得到應用,比如作為知識庫、人機界面和動態代理。然而,一個普遍的限制存在:許多當前的LLMs,由于資源的限制,主要是在較短的文本上進行預訓練的,這使得它們在處理更長上下文的提示時效果不佳,而這種情況在現實世界中是常見的。在本文中,我們提供了一份綜述,專注于基于Transformer的LLMs模型架構的進步,以優化從預訓練到推理的所有階段的長上下文處理能力。首先,我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后,我們主要提供了一個全面的分類,以解決這些問題的Transformer升級架構的領域。之后,我們提供了對長上下文LLMs廣泛使用的評估必需品的調查,包括數據集、度量標準和基線模型,以及一些驚人的優化工具包,如庫、系統和編譯器,以提高LLMs在不同階段的效率和效果。最后,我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外,我們建立了一個存儲庫,在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來,借助深度學習技術[93],特別是基于Transformer的模型(如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137])的興起,自然語言處理(NLP)已經取得了顯著進步,使機器能夠理解和生成人類語言[170, 98],從而在自然語言理解(NLU)的眾多任務中引起了革命,例如情感分析[206],自然語言生成(NLG)如文檔摘要[51],以及其他領域如計算機視覺[81]和自動駕駛[67]。此外,在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下,基于Transformer的大型語言模型(LLMs),其規模擴大到1B~100B參數以激發新能力[183],已顯示出通向人工通用智能(AGI)[18]的新興路線,并迅速被應用于眾多人機交互應用中,如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型,它結合了許多偉大的先前設計[8, 65, 7],并包含多種新穎的組件,最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上,采用其全部或部分模塊[45, 134, 137]。在這些組件中,基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功,該機制捕獲整個輸入中每對標記之間的全局依賴性,使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能,但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸,這不僅限制了訓練期間允許的輸入文本長度,而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗,也限制了提示的有效上下文窗口。對于推理來說更糟糕的是,當LLMs面對比訓練中的序列更長的序列時,也會因為輸入長度的普遍化機制設計不良而性能下降。

然而,隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心,對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此,研究人員投入了大量努力來增強Transformer架構,以解決LLMs中的長上下文問題,包括對注意力效率的優化(第3節)、通過額外內存機制擴展上下文窗口(第4節)、通過外推位置嵌入實現有效的長度泛化(第5節)、上下文預/后處理(第6節),以及其他雜項方法(第7節),如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型(LLMs)領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域,其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中,有的提供了關于長文檔摘要的概述,但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰,討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究,介紹了長文本建模和Transformer應用的方法,涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而,目前還缺乏全面的研究來回顧文獻,探索從操作角度改進Transformer架構,以打破上下文長度的限制,實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括:

建立了一個全面的分類法,將Transformer架構分解為五部分,并探討在每個階段(包括預訓練、微調、推理和預/后處理)增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求,包括數據集、度量標準和特別評估LLMs長上下文能力的基線,以及一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰,并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展,構建了一個收集該特定領域相關文獻的倉庫,并將持續更新,幫助讀者跟上最新進展。

綜述的組織結構如下:第2節概述了長上下文LLMs,包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分(第3、4、5、6、7節)主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件,并收集了一些流行的優化工具包,以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇,并從現有突破中得出洞見。最后,第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中,我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹(見圖1 (a))。隨后,我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析(見2.2節)。最后,我們提出了一個全面的方法學分類(見2.3節),旨在通過架構創新提高LLMs的長上下文處理能力(見圖1 (b))。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制,有多種途徑可以探索,以提升變換器(Transformer)結構,賦予大型語言模型(LLMs)更強的長上下文處理能力。例如,通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力,正如[129]所概述的那樣,模型在短序列上進行訓練,但在推理時測試更長的序列。因此,在本文中,我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧,并將它們組織成統一的分類法,如圖1 (b)所示。具體來說,這些方法被分為以下五個主要類別: ? 高效注意力(第3節):這些方法側重于實施計算需求降低的高效注意力機制,甚至實現線性復雜性。通過這樣做,它們在預訓練階段直接增加了Lmax,從而擴展了LLMs在推理期間有效上下文長度邊界。 第一類方法致力于優化注意力機制,特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作(見公式4)。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax,使大型語言模型(LLMs)的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略,每種都有特定的焦點:局部注意力(第3.1節)、分層注意力(第3.2節)、稀疏注意力(第3.3節)、近似注意力(第3.4節)和IO-感知注意力(第3.5節)。

? 長期記憶(第4節):為了解決上下文工作記憶的限制,一些方法旨在設計明確的記憶機制,以彌補LLMs中高效和有效的長期記憶的缺乏。 由于在上下文工作記憶中的作用,Transformer架構通常難以捕捉長期依賴性,正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰,同時不損害全注意力的優勢。首先,受到RNNs的啟發,一些研究者將遞歸機制引入到注意力中,通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息,彌補了內建長期記憶的固有缺乏。其次,另一種方法涉及利用現有模型作為外部知識庫的接口,如特定文檔或數據集。在推理過程中,模型可以從這些知識庫中讀取信息以豐富其上下文輸入,并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識,模型獲得了訪問更廣泛上下文的能力,從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼(第5節):最近的努力旨在通過改進現有位置編碼方案的外推性能力,提高LLMs的長度泛化能力。 認識到需要將推理長度的邊界推向超出Lmax的范圍,研究社區在這方面做出了顯著努力。值得注意的是,根據[5],他們已經確定,在偶數任務的長度泛化中失敗的主要原因是分心因素。然而,通過像scratchpad提示[120]這樣的方法,這些問題可以被大幅度減輕。盡管如此,在本節中,我們的重點仍然在于當前位置編碼(PEs)在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理(第6節):除了提升特定低級變換器模塊的方法外,一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求,并通過引入多次調用開銷來打破上下文窗口限制。 早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計,包括高效的注意力核心(第3節)、長期記憶機制(第4節)和外推性位置編碼(PEs)(第5節)。相比之下,還存在一些更簡單、更直接的方法,將預訓練的大型語言模型(LLMs)視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰,確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力,但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題,盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他(第7節):這一部分探索了各種不完全符合前四個類別的通用且有價值的方法,為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中,我們全面地導航了基于Transformer的大型語言模型(LLMs)的架構進步領域,以增強在各個發展階段處理廣泛上下文窗口的能力,采用了一個全面的分類法,將這些針對Transformer中不同模塊設計的方法論進行分類。然后,我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包,用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外,我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展,我們真誠地希望我們的綜述能成為研究人員的寶貴資源,幫助他們利用LLMs的力量構建強大的長上下文LLMs,最終推動走向通用人工智能(AGI)時代的追求。

付費5元查看完整內容

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

可控文本生成(CTG)是自然語言生成(NLG)領域中的新興領域。這被視為發展高級文本生成技術的關鍵,更好地滿足實際應用中的特定約束。近年來,使用大規模預訓練語言模型(PLMs),特別是廣泛使用的基于Transformer的PLMs,已經成為NLG的新范式,允許生成更多樣化和流利的文本。然而,由于深度神經網絡的可解釋性水平有限,這些方法的可控性需要得到保證。為此,使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中,已經出現了各種各樣的方法,針對需要不同類型的受控約束的不同CTG任務。在本文中,我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后,我們討論了該領域面臨的挑戰,并提出了各種有前景的未來方向。據我們所知,這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿,為他們提供該領域的全景圖和未來研究的路線圖。

自然語言生成(NLG)被視為自然語言理解(NLU)的補充,是自然語言處理(NLP)的一個重要分支。與NLU的任務相反,NLU旨在消除輸入文本的歧義,產生文本中所表達的思想的單一標準化表示,而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說,NLU旨在開發能夠閱讀和理解人類語言的智能機器,而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現,NLG技術在一系列應用中發揮著關鍵作用,例如對話系統、廣告、市場營銷、故事生成和數據增強。

在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說,一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說,這些約束是特定于任務的。例如,故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中,經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42],必須確保不同領域中的數據分布平衡。而且,對于AI應用的道德發展[6],避免生成無意識和攻擊性的內容,如性別偏見、種族歧視和有毒的詞,是至關重要的。因此,一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來,深度學習(DL)的發展催生了一系列關于DL驅動的可控文本生成(CTG)的研究,這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34,65],取得了一些有前景的進展。之后,基于深度生成模型的方法激增,例如變分自編碼器(VAEs)[48, 125, 138, 142, 149, 154],生成對抗網絡(GANs)[117, 140],和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習,學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見,而且在文本生成中顯示出巨大的潛力。

然而,上述基于DL的方法的成功在很大程度上依賴于大規模數據集,這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來,例如BERT[27],RoBERTa[82],GPT[107],T5[108]和mBART[80]等大規模預訓練語言模型(PLMs)逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習,人們相信PLMs從數據中學到了大量的語義和句法知識,而下游任務只需要進行微調就可以獲得最先進(SOTA)的性能。在NLG方面,PLMs從大量的語料材料中學習,以很大程度上模擬自然語言的分布,因此它們能夠生成前所未有的高質量文本[25]。而且,大規模的PLM本身可以被視為一個消息豐富的知識庫,使得生成文本無需外部領域知識。盡管如此,PLMs基于神經網絡,本質上仍然是黑箱,缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此,很難控制它們按照人類的意愿生成內容(即,可控性問題)。如何提高基于PLM模型的可解釋性和可控性,以生成文本已成為一個熱門的研究話題。

在上述應用和研究背景下,基于PLMs的方法正在成為可控文本生成(CTG)研究的主流,有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域,亟需對當前的文獻進行全面的批判性回顧,以繪制該領域的全貌,并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100],但它們缺少(1)CTG的代表性應用任務、主要方法和評估方法的系統性回顧;(2)對最新的大規模基于PLM的CTG方法的追蹤。在本文中,我們提供了一個關于與CTG相關的主要任務和評估指標的介紹,對使用PLMs的CTG方法進行了詳細而全面的文獻回顧,最后,對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法,并促進這一有前途的領域的進一步發展。

本文的其余部分按照如下組織:第2部分簡要介紹了該領域的兩個關鍵方面,即CTG和PLMs的基本概念。然后,我們將基于PLM的CTG的主要方法分為三類,并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分,我們討論了該領域正在面臨的挑戰,并提出了一些有前途的未來方向。最后,我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先,我們傾向于選擇最近3-4年內出現的最新論文,以確保調查工作的時效性。其次,我們更傾向于選擇在NLP社區有影響力的工作,例如,在NLP領域的頂級會議或期刊上發表的論文,如ACL,EMNLP,NAACL和TACL;以及在開源社區中得到廣泛關注或被高度引用的工作。

基于PLM的CTG主要方法

 從生成的角度來看,PLM已從大規模語料庫中學到了各種知識,這可以幫助產生更流利和更豐富多樣的文本,為自然語言生成提供了一種有效的方式。然而,現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型,缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時,充分利用PLM進行文本生成,最近已成為一個熱門的研究課題。在本節中,我們將從基于Transformer的PLM用于CTG的角度,對該領域的主要方法進行全面的回顧。

基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號,來驅動滿足控制條件的文本生成。根據控制信號的作用方式,我們大致將現有的方法分為三個類別,每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM,這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上,這種方法可能產生更好的結果,但可能消耗更多的計算資源,也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加,即使是微調也變得資源密集。為了解決這些問題,第三類文本生成方法,即在解碼時間工作的后處理方法,已經出現。在后處理方法中,PLM始終是固定的,控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練,而且在一定程度上也能保證生成文本的更好質量。因此,近年來學術界對這個方向的關注正在增加。在以下幾節中,我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成(NLG)模型的性能由適當的評估指標來反映。由于需要滿足控制元素,可控文本生成(CTG)與一般的NLG任務略有不同。因此,CTG不僅關注生成文本的質量,還關注生成文本是否滿足控制元素。因此,我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型,評估生成文本的一般質量是至關重要的,例如:1)流利度:輸出文本中的語言有多流利[12, 31],2)事實性:生成的文本在多大程度上反映了上下文中描述的事實[46, 146],3)語法:生成的文本在語法上是否正確,4)多樣性:生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象(如圖7所示)分為三類:人類或機器。

結論在這篇論文中,我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析,我們識別了該領域的一系列關鍵挑戰,并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會,呼吁更多的研究人員加入該領域,開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景,并為他們前進設定路線圖。

付費5元查看完整內容
北京阿比特科技有限公司