精品亚洲中文一区二区三区,日本一卡2卡3卡4卡乱码免费网站

大型語言模型（LLMs），如ChatGPT和LLaMA，正因其強大的文本編解碼能力和新發現的突現能力（例如，推理）在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本，但在許多現實世界場景中，文本數據與圖形（例如，學術網絡和電子商務網絡）形式的豐富結構信息相關聯，或者圖形數據與豐富的文本信息（例如，帶有描述的分子）配對。此外，盡管LLMs已展示其基于純文本的推理能力，但是否可以將此能力泛化到圖形場景（即基于圖的推理）尚未得到充分探索。在本文中，我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類，即純圖，文本豐富的圖，以及與文本配對的圖。然后，我們討論了在圖上使用LLMs的詳細技術，包括將LLM作為預測器、編碼器和對齊器，并比較了不同模型類別的優缺點。此外，我們還提到了這些方法的實際應用，并總結了開源代碼和基準數據集。最后，我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到：//github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742

大型語言模型（LLMs）（例如，BERT [22]、T5 [30]、LLaMA [119]）經過在非常大的文本語料庫上的預訓練，已被證明在解決自然語言處理（NLP）任務方面非常強大，包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs（例如，BERT [22]、RoBERTa [23]）采用僅編碼器架構，并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來，越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大，這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5]，展現了對人工通用智能（AGI）的強大潛力。 雖然LLMs廣泛應用于處理純文本，但越來越多的應用場景中，文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示，在學術網絡中，論文（帶有標題和描述）和作者（帶有個人簡介文本）通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦；在科學領域，分子以圖形表示，并通常與描述其基本信息的文本（例如，毒性）配對。同時建模分子結構（圖）和相關的豐富知識（文本）對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本，上述場景提出了新的挑戰，即如何使LLMs能夠編碼圖上的結構信息。此外，由于LLMs已展示了其卓越的基于文本的推理能力，探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近，擴展LLMs用于基于圖的應用（如圖1所總結）引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系，應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡（GNNs）的交互方式，圖上LLMs的技術可以分為將LLMs作為任務預測器（LLM as Predictor）、將LLMs作為GNNs的特征編碼器（LLM as Encoder）以及將LLMs與GNNs對齊（LLM as Aligner）。目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習，Wu et al. [17] 提供了圖神經網絡（GNNs）的全面概述，詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型，包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜（KGs）之間的聯系，特別是KGs如何增強LLMs的訓練和推理，以及LLMs如何促進KG的構建和推理。總而言之，現有的綜述要么更多地關注GNNs而非LLMs，要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述，旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。

**分類與框架 **

在本節中，我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后，我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類

純圖（無文本信息）是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力（解決圖論問題）的背景，或作為知識來源以增強大型語言模型（減輕幻覺現象）。文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上，人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質，其中節點代表原子，邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素，但分子的文本描述可以作為補充知識來源，幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **

根據LLMs的角色以及解決圖相關問題的最終組件，我們將圖上LLM技術分類為三個主要類別： LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強，并可以根據圖信息如何注入LLM進行分類：1）圖作為序列：這種方法不對LLM架構做任何改變，但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2）增強圖的LLM：這種方法修改了LLM基礎模型（即變壓器）的架構，并使其能夠在其架構內進行聯合文本和圖編碼。3）圖感知LLM微調：這種方法不對LLMs的輸入或LLM架構做任何改變，但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖（解決節點級或邊級任務）。GNNs是最終組件，我們采用LLM作為初始文本編碼器。具體來說，首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而，這些方法存在收斂問題、稀疏數據問題和效率問題，我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件，并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說，LLMs和GNNs之間的對齊可以分為1）預測對齊，其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練，和2）潛空間對齊，其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **

在圖上應用語言模型有兩種典型的訓練和推理范式：1) 預訓練-然后微調：通常用于中等規模的大型語言模型；以及 2) 預訓練-然后提示：通常用于大規模的大型語言模型。預訓練指的是使用無監督目標訓練語言模型，以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時，語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法，可以充分激發語言模型對下游任務的潛力，但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45]，以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念，換句話說，人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列，并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示，后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。在接下來的章節中，我們將遵循第3節的分類，并討論每個圖場景的詳細方法論。

**結論 **

在本文中，我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類，并總結了圖上大型語言模型的技術。然后，我們對每個場景內的方法進行了徹底的審查、分析和比較。此外，我們總結了可用的數據集、開源代碼庫和多種應用。最后，我們提出了圖上大型語言模型的未來發展方向。

付費5元查看完整內容

相關內容

大型語言模型

關注 94

大型語言模型 · 機器人 · GPT-4V ·

2024 年 1 月 10 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）經歷了顯著的擴展，并越來越多地被整合到各個領域中。特別是在機器人任務規劃領域，LLMs 利用其先進的推理和語言理解能力，根據自然語言指令制定精確高效的行動計劃。然而，對于具身任務，即機器人與復雜環境互動的任務，僅基于文本的 LLMs 通常面臨挑戰，因為它們與機器人的視覺感知缺乏兼容性。本研究提供了一個關于 LLMs 和多模態 LLMs 融入各種機器人任務的全面概述。此外，我們提出了一個利用多模態 GPT-4V 的框架，通過結合自然語言指令和機器人視覺感知來增強具身任務規劃。我們的結果，基于多樣化的數據集，表明 GPT-4V 在具身任務中有效地提升了機器人的性能。這項關于 LLMs 和多模態 LLMs 在各種機器人任務中的廣泛綜述和評估，豐富了對以 LLM 為中心的具身智能的理解，并提供了向前看的洞見，以幫助彌合人-機器人-環境互動的差距。

由于預訓練模型在模型大小和數據量方面的擴展，一些大型預訓練模型在一系列復雜任務中展示了卓越的能力 [1]，[2]。大型語言模型（LLMs）因其卓越的上下文生成能力，在各個領域受到了廣泛關注 [2]–[10]。這種突現能力以前所未有的方式賦能了人工智能算法，改變了人們使用人工智能算法的方式，并促使對人工通用智能（AGI）的可能性進行重新評估。

隨著LLMs的快速發展，指令調優和對齊調優已成為將其適應特定目標的主要方法。在自然語言處理（NLP）領域，LLMs在某種程度上可以作為解決語言相關任務的多功能解決方案 [3]，[5]，[11]–[13]。這些基于變換器（Transformer）的大型模型在多個領域取得了非凡的成就 [14]–[17]，深刻地改變了人工智能的最新水平 [3]，[12]，[18]–[26]。研究范式也轉向了利用LLMs來解決子領域特定問題。在計算機視覺（CV）領域，研究人員也在開發類似于GPT-4和Gemini [27]，[28]的大型模型，這些模型結合了視覺和語言信息，從而支持多模態輸入 [29]。這種增強LLMs的策略不僅提升了它們在下游任務中的性能，而且為確保與人類價值觀和偏好的一致性，對機器人技術的發展提供了重要指導。這種方法已在眾多領域廣泛采用 [7]，[29]–[32]，甚至在卷積神經網絡（CNNs）一直是主要技術的領域也是如此 [33]–[40]。

LLMs處理和內化大量文本數據的能力為提升機器的理解能力和自然語言分析能力提供了前所未有的潛力 [41]，[42]。這包括理解手冊和技術指南等文件，并將這些知識應用于進行連貫、準確、符合人類對話的對話 [43]–[45]。通過對話，自然語言指令從文本提示翻譯成機器可理解的代碼，觸發相應的動作，從而使機器人在適應廣泛的用戶命令方面更加靈活和適應性強 [46]–[48]。將現實世界的傳感器模態整合到語言模型中，有助于建立單詞和感知之間的聯系，使其能夠應用于各種特定任務。然而，僅基于文本的LLMs缺乏對物理世界的經驗性接觸和觀察的實證結果，這使得在特定環境中使用它們進行決策變得具有挑戰性。因此，將多模態性納入LLMs對于有效執行機器人任務至關重要。此外，機器人技術領域呈現出更微妙的任務變化。與NLP和CV不同，這些領域可以利用來自互聯網的大量數據集，而獲取用于機器人交互的大型和多樣化數據集卻具有挑戰性 [49]。這些數據集通常要么專注于單一環境和對象，要么強調特定任務領域，導致它們之間存在顯著差異 [50]。這種復雜性在將LLMs與機器人技術整合時帶來了更大的挑戰。

如何克服機器人技術所面臨的挑戰，并利用LLMs在其他領域的成就為機器人領域帶來好處，是本綜述解決的核心問題。在這篇文章中，工作的貢獻可以概括為四個主要點。

我們對現有的用于機器人學的大型語言模型（LLM）進行了細致的調研和綜合，探索了在三個不同的任務類別中的最新進展：規劃、操作、推理。

我們總結了LLMs為機器人領域提供的主要技術方法，考察了訓練通用機器人策略的潛力，并為該領域的研究人員提供了基礎性綜述。

我們評估了多模態GPT-4V在不同環境和情景下進行機器人任務規劃的有效性。

我們總結了我們調查的主要發現，思考未來努力中需要解決的突出挑戰，并提出了一個前瞻性的視角。

大型語言模型機器人

基于大型語言模型（LLMs）的機器人研究領域已取得顯著進步。這些模型展示出卓越的自然語言理解和常識推理能力，顯著增強了機器人理解環境和執行命令的能力。當前研究聚焦于利用LLMs解析復雜的環境和指令，包括解決歧義、消除模糊性，并理解隱含信息。在這個領域的一個關鍵進展包括視覺-語言模型的開發，[51]–[53]這顯著提高了如視覺問題回答[54]–[56]和圖像描述[57]、[58]等任務的性能。這些進步極大地增強了機器人在物理世界中的推理能力，特別是在復雜命令導航等領域。[59]、[60]通過視覺語言處理系統，機器人能夠理解圖像內容并將其與相關的語言信息結合起來，例如圖像描述和命令執行。這種多模態信息處理同樣適用于音頻-視覺集成。LLMs的另一個主要進展是在人機交互方面，通過交互式學習過程更好地適應人類的需求和偏好。例如，通過將強化學習與人類反饋結合，機器人可以持續改進任務執行，解決大型模型應用中遇到的語義歧義，通過結合人類指導和大型語言模型，機器人可以更精確地細化指令，從而更好地實現自主學習和環境適應，以實現更準確和針對性的控制。機器人還可以通過交互學習和適應用戶的行為、偏好和需求，提供更個性化和定制化的交互體驗。這些進步不僅增強了機器人技術的實用性，也為未來人機互動開辟了新的可能性。

大型語言模型的多模態任務規劃

在大型語言模型（LLMs）領域內的多模態任務規劃構成了人工智能學科的一個復雜交匯點，涉及到不同數據模態（如文本、視覺和聽覺輸入）的融合，以促進更全面和細致的AI驅動分析 [61]–[65]。這種跨學科的方法超越了LLMs的傳統界限，后者主要關注文本理解和生成，引領這些模型在解釋、關聯和與多種數據流同時互動方面變得更為熟練。在這種背景下，LLMs的角色從單純的語言處理演變為更加綜合的功能，綜合和響應復雜數據的相互作用。在大型語言模型的多模態任務規劃領域，最近的進展，如Inner Monologue和SayCan項目所示，展示了該領域不斷增長的復雜性和成熟度。Inner Monologue [65]的方法論代表了這一領域的重大飛躍，它整合了來自環境的多模態反饋源。這種整合使得能夠生成更可靠和更具上下文意識的任務規劃，協調不同的感官輸入，以創造對AI周圍環境更為連貫的理解。同樣地，SayCan的框架 [61] 為LLMs的應用引入了一個新的維度。該系統將LLMs作為模型的“手和眼睛”，生成最佳的長期指令，并有效地評估當前場景下指令的可行性概率。這種方法不僅增強了AI理解和與其直接環境互動的能力，而且利用LLMs的細膩理解來規劃和執行復雜的動作序列，持續較長時間。在多模態任務規劃領域內將Inner Monologue和SayCan中的這些先進技術與LLMs的整合代表了向創建不僅更能認識到多種數據流、也能將這些數據流綜合為可行智能的AI系統方面的重大進步。這一進展指向了一個未來，即AI能夠以一種更加動態、具有上下文意識和自主的方式在現實世界中導航和互動 [61]、[65]–[67]，推動了AI驅動創新和跨學科綜合所能達到的界限。

結論

在本文中，我們概述了大型語言模型（LLMs）與各種機器人系統和任務的集成情況。我們的分析顯示，LLMs展現出令人印象深刻的推理、語言理解和多模態處理能力，這些能力可以顯著提高機器人對指令、環境和所需行動的理解。我們在9個數據集的30多個案例上評估了最近發布的GPT-4V模型，用于實體任務規劃。結果表明，GPT-4V能夠有效地利用自然語言指令和視覺感知來生成詳細的行動計劃以完成操控任務。這表明使用多模態LLMs作為實體智能的機器人大腦是可行的。

然而，在我們朝著更實用和能力更強的基于LLM的AI系統發展的過程中，仍需解決一些挑戰，包括模型的透明度、魯棒性、安全性和現實世界的適用性。具體來說，大型神經模型的黑盒性質使得難以完全理解其內部推理過程和失敗模式。此外，彌合模擬與現實世界之間的差距仍然是一個挑戰，難以在不降低性能的情況下轉移政策。通過標準化測試、對抗性訓練、政策適應方法和更安全的模型架構等技術，仍需大量研究來解決這些問題。對依賴LLMs的自主智能系統進行問責和監督的協議也值得深思熟慮。在我們在這個領域取得進步的過程中，以一種謹慎、道德和社會負責的方式克服這些多方面的挑戰是至關重要的。

隨著語言模型繼續從多模態數據中積累廣泛的實地知識，我們預期將迅速創新地將它們與機器人和基于模擬的學習整合。這可能使得在仿真中直觀地開發和驗證智能機器人成為可能，然后再使用實景模擬技術進行部署。這樣的發展可能深刻地增強和改變我們構建、測試和部署智能機器人系統的方式。

總的來說，自然語言處理和機器人技術的協同整合是一個充滿機遇和挑戰的前沿領域，值得未來進行廣泛的跨學科研究。

付費5元查看完整內容

大型語言模型 · 長上下文 · Transformer ·

2023 年 11 月 22 日

[付費5元查看完整內容]大模型長上下文核心技術是什么？南大等《長上下文大型語言模型中的Transformer架構》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著ChatGPT的成功普及，基于Transformer的大型語言模型（LLMs）為通往人工通用智能（AGI）鋪平了一條革命性的道路，并已在諸多領域中得到應用，比如作為知識庫、人機界面和動態代理。然而，一個普遍的限制存在：許多當前的LLMs，由于資源的限制，主要是在較短的文本上進行預訓練的，這使得它們在處理更長上下文的提示時效果不佳，而這種情況在現實世界中是常見的。在本文中，我們提供了一份綜述，專注于基于Transformer的LLMs模型架構的進步，以優化從預訓練到推理的所有階段的長上下文處理能力。首先，我們描述并分析了當前基于Transformer模型處理長上下文輸入和輸出的問題。然后，我們主要提供了一個全面的分類，以解決這些問題的Transformer升級架構的領域。之后，我們提供了對長上下文LLMs廣泛使用的評估必需品的調查，包括數據集、度量標準和基線模型，以及一些驚人的優化工具包，如庫、系統和編譯器，以提高LLMs在不同階段的效率和效果。最后，我們進一步討論了這一領域的主要挑戰和未來研究的潛在途徑。此外，我們建立了一個存儲庫，在 //github.com/Strivin0311/long-llms-learning 處實時更新相關文獻。

近年來，借助深度學習技術[93]，特別是基于Transformer的模型（如BERT [45]、GPT [134, 135, 17]及其變體[97, 105, 137]）的興起，自然語言處理（NLP）已經取得了顯著進步，使機器能夠理解和生成人類語言[170, 98]，從而在自然語言理解（NLU）的眾多任務中引起了革命，例如情感分析[206]，自然語言生成（NLG）如文檔摘要[51]，以及其他領域如計算機視覺[81]和自動駕駛[67]。此外，在ChatGPT [121]、PaLM [36]、GPT4 [123, 122]等的推動下，基于Transformer的大型語言模型（LLMs），其規模擴大到1B～100B參數以激發新能力[183]，已顯示出通向人工通用智能（AGI）[18]的新興路線，并迅速被應用于眾多人機交互應用中，如聊天機器人[146, 95]、編程助手[184, 196]和教育導師[1, 117]。 Transformer是一個精密的深度神經網絡模型，它結合了許多偉大的先前設計[8, 65, 7]，并包含多種新穎的組件，最初是為了解決機器翻譯中的序列到序列語言建模問題[175]。當代的LLMs大多基于Transformer架構的基礎上，采用其全部或部分模塊[45, 134, 137]。在這些組件中，基于Transformer的LLMs主要因其核心設計良好的注意力機制而成功，該機制捕獲整個輸入中每對標記之間的全局依賴性，使模型能夠處理具有復雜關系的序列。雖然注意力機制提供了顯著的性能，但其與輸入序列長度成二次方的時間和空間復雜度導致了顯著的計算資源瓶頸，這不僅限制了訓練期間允許的輸入文本長度，而且由于生成標記增加時的效率不足和昂貴的緩存內存消耗，也限制了提示的有效上下文窗口。對于推理來說更糟糕的是，當LLMs面對比訓練中的序列更長的序列時，也會因為輸入長度的普遍化機制設計不良而性能下降。

然而，隨著LLMs在需要長上下文理解[193, 87]和生成[106, 68]的各種應用中深入人心，對能夠有效和高效地理解和生成極長序列的長上下文LLMs的需求變得越來越必不可少和迫切。因此，研究人員投入了大量努力來增強Transformer架構，以解決LLMs中的長上下文問題，包括對注意力效率的優化（第3節）、通過額外內存機制擴展上下文窗口（第4節）、通過外推位置嵌入實現有效的長度泛化（第5節）、上下文預/后處理（第6節），以及其他雜項方法（第7節），如特定的預訓練目標、專家混合、量化、并行等。

這段文字是關于長上下文語言模型（LLMs）領域的一篇綜述。它提到了長上下文LLMs是一個非常熱門且發展迅速的研究領域，其中一些現有的綜述文獻匯總了相關文獻工作。這些綜述中，有的提供了關于長文檔摘要的概述，但沒有深入探討長文本建模的內在技術。其他綜述主要集中在提高長文本場景下Transformer的計算效率上。還有的綜述強調LLMs在處理長序列時面臨的挑戰，討論的方法主要與高效的Transformer相關。最近的一項工作更接近于這篇綜述的研究，介紹了長文本建模和Transformer應用的方法，涵蓋了預處理技術、部分高效的Transformer和長文檔的特殊特性。然而，目前還缺乏全面的研究來回顧文獻，探索從操作角度改進Transformer架構，以打破上下文長度的限制，實現更復雜、可擴展的基于Transformer的LLMs。

這篇綜述的目標是全面回顧文獻中關于擴大現有基于Transformer的LLMs有效上下文窗口長度的架構演變。主要貢獻包括：

建立了一個全面的分類法，將Transformer架構分解為五部分，并探討在每個階段（包括預訓練、微調、推理和預/后處理）增強長上下文LLMs的現有方法。

探索廣泛使用的評估需求，包括數據集、度量標準和特別評估LLMs長上下文能力的基線，以及一些流行的優化工具包，以提高LLMs在訓練和推理過程中的效率和效果。

確定改造Transformer結構以處理廣泛上下文的關鍵挑戰，并提出相應的未來方向以推動前沿。

考慮到這個領域的極速發展，構建了一個收集該特定領域相關文獻的倉庫，并將持續更新，幫助讀者跟上最新進展。

綜述的組織結構如下：第2節概述了長上下文LLMs，包括語言建模的目標和階段、基于Transformer的LLMs的關鍵組成部分、LLMs處理長上下文的結構限制分析以及現有努力提升Transformer架構的分類。接下來的五個部分（第3、4、5、6、7節）主要深入討論分類中的每一部分方法。第8節總結了長上下文能力評估的必要條件，并收集了一些流行的優化工具包，以提高LLMs在訓練和推理過程中的效果和效率。第9節探討了關鍵挑戰及其帶來的潛在機遇，并從現有突破中得出洞見。最后，第10節以對這個領域全景的總體結論以及這項研究的動機結束了這篇綜述。

總述

在本節中，我們首先從基礎語言模型目標、典型模型階段到變換器(Transformer)基礎的僅解碼器大型語言模型(LLMs)中關鍵的架構模塊進行初步介紹（見圖1 (a)）。隨后，我們對于當LLMs遇到廣泛上下文窗口時的架構限制進行了簡要分析（見2.2節）。最后，我們提出了一個全面的方法學分類（見2.3節），旨在通過架構創新提高LLMs的長上下文處理能力（見圖1 (b)）。此分類將作為接下來的五個部分——第3、4、5、6、7節的指導方針。

基于2.1節所提出的基礎見解和2.2節討論的限制，有多種途徑可以探索，以提升變換器(Transformer)結構，賦予大型語言模型(LLMs)更強的長上下文處理能力。例如，通過減少訓練期間的注意力復雜性、設計高效的記憶機制、增強長度外推能力，正如[129]所概述的那樣，模型在短序列上進行訓練，但在推理時測試更長的序列。因此，在本文中，我們提供了對最近旨在改善LLMs長上下文能力的方法學進展的全面回顧，并將它們組織成統一的分類法，如圖1 (b)所示。具體來說，這些方法被分為以下五個主要類別： ? 高效注意力（第3節）：這些方法側重于實施計算需求降低的高效注意力機制，甚至實現線性復雜性。通過這樣做，它們在預訓練階段直接增加了Lmax，從而擴展了LLMs在推理期間有效上下文長度邊界。第一類方法致力于優化注意力機制，特別是關注那些使變換器(Transformer)模塊成為計算瓶頸的核心操作（見公式4）。這種方法在推理過程中通過直接增加預訓練階段的超參數Lmax，使大型語言模型（LLMs）的有效上下文長度邊界得以擴展。我們進一步將這些方法分為五種不同的策略，每種都有特定的焦點：局部注意力（第3.1節）、分層注意力（第3.2節）、稀疏注意力（第3.3節）、近似注意力（第3.4節）和IO-感知注意力（第3.5節）。

? 長期記憶（第4節）：為了解決上下文工作記憶的限制，一些方法旨在設計明確的記憶機制，以彌補LLMs中高效和有效的長期記憶的缺乏。由于在上下文工作記憶中的作用，Transformer架構通常難以捕捉長期依賴性，正如第2.2節所強調的。研究人員探索了兩個主要途徑來應對這一挑戰，同時不損害全注意力的優勢。首先，受到RNNs的啟發，一些研究者將遞歸機制引入到注意力中，通過將內部記憶緩存整合進注意力層。這種方法使模型能夠在更長的序列上維護和檢索信息，彌補了內建長期記憶的固有缺乏。其次，另一種方法涉及利用現有模型作為外部知識庫的接口，如特定文檔或數據集。在推理過程中，模型可以從這些知識庫中讀取信息以豐富其上下文輸入，并且可以根據用戶的響應向它們寫入信息以刷新其長期記憶。通過以這種方式整合外部知識，模型獲得了訪問更廣泛上下文的能力，從而有效提升其處理長期依賴性的能力。

? 外推性位置編碼（第5節）：最近的努力旨在通過改進現有位置編碼方案的外推性能力，提高LLMs的長度泛化能力。認識到需要將推理長度的邊界推向超出Lmax的范圍，研究社區在這方面做出了顯著努力。值得注意的是，根據[5]，他們已經確定，在偶數任務的長度泛化中失敗的主要原因是分心因素。然而，通過像scratchpad提示[120]這樣的方法，這些問題可以被大幅度減輕。盡管如此，在本節中，我們的重點仍然在于當前位置編碼（PEs）在更普遍場景中長度泛化中不可否認的作用。

? 上下文處理（第6節）：除了提升特定低級變換器模塊的方法外，一些方法涉及將現成的LLMs與額外的上下文預/后處理相結合。這些方法確保每次調用時提供給LLMs的輸入始終滿足最大長度要求，并通過引入多次調用開銷來打破上下文窗口限制。早前討論的許多方法論提出了圍繞Transformer架構中的注意力模塊的復雜設計，包括高效的注意力核心（第3節）、長期記憶機制（第4節）和外推性位置編碼（PEs）（第5節）。相比之下，還存在一些更簡單、更直接的方法，將預訓練的大型語言模型（LLMs）視為黑盒或灰盒模型。這些方法通過多次調用模型來解決處理超出模型長度限制的長上下文輸入的挑戰，確保每次調用時提供給LLM的實際輸入不超過Lmax。盡管這些方法沒有顯式地增強LLMs處理長上下文的固有能力，但它們利用LLMs顯著的在上下文中的學習能力來解決這個問題，盡管代價是增加了計算量和可能減少了答案的準確性。 ? 其他（第7節）：這一部分探索了各種不完全符合前四個類別的通用且有價值的方法，為在LLMs中提高長上下文能力提供了更廣泛的視角。

結論

在這篇綜述中，我們全面地導航了基于Transformer的大型語言模型（LLMs）的架構進步領域，以增強在各個發展階段處理廣泛上下文窗口的能力，采用了一個全面的分類法，將這些針對Transformer中不同模塊設計的方法論進行分類。然后，我們探討了長文本任務特有的評估必要性以及一些集成了多種工具的優化工具包，用以增強LLMs的效率和有效性。我們進一步確定了關鍵挑戰及其對應的未來方向。此外，我們的存儲庫確保讀者能夠及時了解這一動態領域的最新研究。隨著LLMs的快速發展，我們真誠地希望我們的綜述能成為研究人員的寶貴資源，幫助他們利用LLMs的力量構建強大的長上下文LLMs，最終推動走向通用人工智能（AGI）時代的追求。

付費5元查看完整內容

多模態對齊 · 多模態大型模型 · 大型語言模型 ·

2023 年 11 月 18 日

[付費5元查看完整內容]多模態對齊如何做？國防科大等最新《如何彌合模態間的差距：多模態大型語言模型》綜述四大類型多模態對齊方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述論文探討了多模態大型語言模型（MLLMs），它們集成了像GPT-4這樣的大型語言模型（LLMs），以處理多模態數據，如文本和視覺。MLLMs展示了如生成圖像敘事和回答基于圖像的問題等能力，為實現現實世界中的人機交互架起了橋梁，并暗示了通往人工通用智能的潛在路徑。然而，MLLMs在處理多模態的語義差距時仍面臨挑戰，這可能導致錯誤的生成，對社會構成潛在風險。選擇合適的模態對齊方法至關重要，因為不當的方法可能需要更多的參數，而性能提升有限。本文旨在探索LLMs的模態對齊方法及其現有能力。實施模態對齊使LLMs能夠解決環境問題并增強可訪問性。本研究將MLLMs中現有的模態對齊方法分為四組：（1）多模態轉換器，將數據轉換成LLMs能理解的形式；（2）多模態感知器，提高LLMs感知不同類型數據的能力；（3）工具輔助，將數據轉換成一種通用格式，通常是文本；以及（4）數據驅動方法，教授LLMs理解數據集中特定類型的數據。這一領域仍處于探索和實驗階段，我們將組織并更新多模態信息對齊的各種現有研究方法。

//www.zhuanzhi.ai/paper/aca24bad3f6b66886c4586eb24df3602

大型語言模型（LLM）通常在大量數據上進行預訓練，并包含大量參數。這些模型不僅在各種任務上表現出顯著提升的性能，還展示了較小模型所缺乏的新興能力。LLMs[1]由于其理解、推理及生成人類語言的卓越能力，在人工智能領域內獲得了極大關注。為了提升LLM回應的豐富性和說服力，最近的研究[2, 3, 4]探討了將LLM轉化為遵循指令的模型。例如，斯坦福Alpaca[2]通過利用OpenAI的InstructGPT模型[6]生成的指令示例，對Llama[5]進行微調，使其成為一個遵循指令的模型。與Alpaca和Vicuna[2]采用的完全微調方法不同，Llama-Adapter[7]在凍結的Llama中引入了零初始化注意力的輕量級適配器，實現了參數高效的微調并注入了多模態知識。盡管取得了重大進步，但上述方法在處理更高級的多模態信息時仍面臨挑戰，例如GPT-4[8]中所涉及的視覺理解任務。實際上，我們對世界的感知是通過視覺、聲音、觸覺和味覺等多樣化感官豐富的。這些感官經常相互作用，視覺使用文本，文本使用視覺來增強理解。隨著社交媒體的發展，人們表達觀點的方式經常涉及多種模態。這就要求LLMs能夠理解多模態數據，這就是所謂的多模態大型語言模型（MLLM）。它們利用大型語言模型（LLM）的強大能力作為核心組件，來處理多種多模態任務。MLLM的顯著新興能力，如從圖像生成敘事和無需OCR進行數學推理，是傳統方法中罕見的。這表明了實現人工通用智能的潛在路徑。隨著多模態模型的迅速發展，它們更適合具有多模態信息交互的真實世界場景，擴大了大型多模態模型的應用前景，并產生了更迫切的研究需求。

然而，當MLLM在處理多模態間的語義差距時表現不佳，可能會導致錯誤的生成，包括錯覺，對社會構成潛在風險甚至可能造成傷害。不當的模態對齊方法可能需要更多參數，但性能提升有限，導致高昂的計算和使用成本。因此，選擇合適的模態對齊方法很重要。本綜述旨在探索為LLM設計的模態對齊方法及其在該領域內的現有能力。實施模態對齊使LLM能夠解決環境問題，提高可訪問性，并在部署中促進包容性。然而，將大型模型的能力轉移到多模態場景的方法尚不明確。盡管Yin等人[10]專注于將多模態信息融入到LLM的微調技術中，如指令學習或思維鏈，但在調查數據中不同模態間的差異方面缺乏關注。另一方面，已有許多努力將LLM與人類行為和價值觀進行對齊。然而，“與什么對齊”的根本問題仍然沒有得到充分解決。因此，[11]和Shen等人[12]提出了一項關于LLM對齊目標的綜述。不過，這些努力更傾向于對齊技術，確保這些模型展示與人類價值觀一致的行為。由于LLM和MLLM都處于發展的初期階段，現有的多模態對齊方法呈現出廣泛的差異，研究方向目前處于探索和實驗階段。因此，需要組織關于多模態信息對齊的各種現有研究方法。在MLLM時代仍處于萌芽階段，我們旨在不斷更新本綜述，以激發更多研究興趣。

從互補性角度來看，單模態LLM和視覺模型同時相互邁進，最終催生了MLLM這一新領域。本質上，MLLM指的是具備接收和推理多模態信息能力的基于LLM的模型。總之，探索單模態LLM如何適應多模態數據，以及如何有效地將視覺模型與單模態LLM集成，具有重要價值。具體來說，我們將MLLM分為四種結構類型，每種類型從不同角度解決模態間的差異。(1)多模態轉換器。轉換器促進將多模態信息轉化為LLM能理解或學習的對象，利用LLM的能力學習這些轉換后的對象。(2)多模態感知器。這些方法專注于設計與LLM接口的多模態感知器，主要是為了增強對多模態信息的感知能力。(3)工具輔助。鼓勵使用工具將不同模態轉換為統一的模態，主要是文本，最終完成多模態任務。(4)數據驅動。數據驅動方法旨在通過讓LLM在特定數據集上學習，賦予它與特定數據集相關的能力。例如，在點云數據集上學習使模型能夠理解點云。

我們的主要貢獻如下。

? 我們強調了在多模態大型語言模型中彌合模態差距的方法的重要性，并提供了第一個關于多模態信息對齊的綜合性綜述。 ? 我們涵蓋了彌合模態差距的四種方法：多模態轉換器、多模態感知器、工具輔助和數據驅動方法，并為每種方法提供定義，并追蹤它們的發展路徑。 ? 通過闡明MLLM中多模態信息對齊的不同方法，我們討論了主要挑戰和可能的未來研究方向。

概述****我們根據處理多模態特征的方法將這些方法分為四組。因此，本文將最近的代表性MLLM分為四類： (1)將LLM作為多模態特征的直接處理器； (2)利用多模態感知器的MLLM來處理多模態特征； (3)將LLM作為處理多模態特征的工具； (4)在特定格式的數據上學習，賦予LLM適應額外模態的能力。請注意，這四種技術相對獨立，可以組合使用。因此，我們對一個概念的闡述也可能涉及其他概念。

我們根據這四個主要類別組織了綜述，并依次介紹它們。我們首先詳細介紹將LLM作為多模態特征的直接處理器的MLLM，以揭示當LLM作為直接處理器時如何適應多模態性。接著，我們介紹利用多模態感知器處理多模態特征的MLLM，主要關注如何創新多模態感知機制，使LLM能夠理解多模態信息。另一項重要技術是輔助LLM，這通常涉及四種輔助技術。最后，我們以總結和潛在的研究方向結束我們的綜述。

多模態轉換器

鑒于語言模型（LLM）的顯著能力，處理多模態任務最直接的方法是將多模態特征直接輸入到LLM中，讓它學習和理解這些多模態特征。然而，由于LLM主要在通用文本上進行訓練和學習，因此在處理多模態特征時存在不可避免的語義差距。直接注入這些特征可能導致嚴重的幻覺和偏離事實的答案生成。因此，當代研究人員通常努力將多模態特征，如圖像特征，映射到與語言相一致的特征空間中，旨在提高多模態語言模型（MLLM）的性能。多模態感知器 類似于完全依賴純文本LLM進行語言理解，利用多模態感知器的LLM旨在通過引入特殊的多模態感知模塊來最小化圖像和文本之間的語義差距。感知模型是一個多模態感知器，它通過將多模態特征轉換為與LLM的嵌入表示空間一致的多模態標記，從而彌合文本模態與其他模態之間的差距。這一過程在圖3中進行了抽象表示。也可以考慮更復雜（但成本更高）的方案來連接圖像和語言表示，例如Flamingo[41]中的門控交叉注意力和BLIP-2[34]中的Q-former，或者其他提供對象級特征的視覺編碼器，如SAM[68]。[13]**工具輔助 **基于人類善于使用工具解決各種問題的深厚能力，許多當代研究努力旨在賦予LLM使用各種工具的能力[49, 50, 52, 54, 55, 61, 80]，例如基礎模型和API。在MLLM領域中，鼓勵LLM利用工具將不同模態轉換為統一的模態，主要是文本，以最終完成多模態任務。原生LLM本質上只裝備了處理文本輸入的能力。因此，研究人員尋求通過構建文本格式（包括自然語言、代碼和結構化文本）來指導LLM獲得使用工具的技能。這一系列努力可以分為三個主要方法：1) 自然語言輔助；2) 代碼輔助；和3) 代碼與自然語言同時輔助。這些研究工作通過工具整合擴展了LLM的功能能力，為人工通用智能（AGI）和人工智能代理的未來發展鋪平了道路。盡管如此，這些舉措取決于LLM的情境學習（ICL）能力，這意味著LLM需要達到一定的模型參數閾值才能有效地獲得使用工具的熟練度。

**數據驅動的MLLM **大規模模型的快速發展在很大程度上依賴于使用廣泛的數據集進行訓練。包括多模態模型在內的傳統大型模型主要建立在通用數據集之上，這些數據集通常來源于互聯網上的未標注文本[82]。雖然這些數據集涵蓋了廣泛的領域，但這些模型更傾向于通用能力。然而，當面對更復雜的多模態信息時，如醫學圖像[64]或生物分子的結構[83]，與這些模態相關的數據較少。因此，模型缺乏對這些特定領域的訓練和認知，導致性能不佳，甚至無法理解這些模態。結論研究[84]表明，隨著訓練參數和數據量的增加，模型表現出可預測的性能改進、更高的樣本利用率，甚至不可預測的能力。這些不可預測的能力在較小的模型中不常見，但在LLM中已經出現。因此，越來越多的研究人員正在采用數據驅動策略，收集或構建特定領域的數據，并將其作為訓練和微調模型的基礎，以賦予它們對多模態信息的額外理解能力。實驗表明，不改變模型結構，改變訓練數據的重點可以賦予大型模型不同的能力[65, 66, 85, 86, 87, 88]。

付費5元查看完整內容

大型語言模型 · 幻覺 · 基礎模型 · 大模型幻覺 ·

2023 年 11 月 12 日

[付費5元查看完整內容]大模型幻覺如何克服？哈工大等最新《大型語言模型中的幻覺現象》綜述，詳述原理、分類、挑戰與未解之謎

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）的出現標志著自然語言處理（NLP）領域的一次重大突破，帶來了在文本理解和生成方面的顯著進步。然而，與這些進步同時，LLMs表現出一種關鍵的傾向：產生幻覺，導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰，并引發了對LLMs在現實世界場景中可靠性的關注，這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中，我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類，然后深入探討導致幻覺的因素。隨后，我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外，相應地介紹了旨在減輕幻覺的代表性方法。最后，我們分析了凸顯當前限制的挑戰，并提出了開放性問題，旨在勾勒出LLMs中幻覺未來研究的路徑。

最近，大型語言模型（LLMs）（OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b）的出現引領了自然語言處理（NLP）領域的范式轉變，實現了在語言理解（Hendrycks et al., 2021; Huang et al., 2023c）、生成（Zhang et al., 2023f; Zhu et al., 2023b）和推理（Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023）方面前所未有的進步。然而，隨著LLMs的快速發展，出現了一個令人關注的趨勢，即它們傾向于產生幻覺（Bang et al., 2023; Guerreiro et al., 2023b），導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究（Ji et al., 2023a）一致，將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺，取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成（NLG）任務中是共享的，但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能（Bubeck et al., 2023; Bang et al., 2023），尤其是在開放域應用中，它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中，幻覺的范圍包括了更廣泛和更全面的概念，主要集中在事實錯誤上。鑒于LLM時代的演進，有必要調整現有的幻覺分類，增強其適用性和適應性。

在這篇綜述中，我們重新定義了幻覺的分類，為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類：事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異，通常表現為事實上的不一致或捏造。例如，如圖1(a)所示，當詢問第一個登月的人時，模型可能斷言是查爾斯·林德伯格在1951年。而事實上，第一個登月的人是尼爾·阿姆斯特朗，在1969年的阿波羅11號任務中。另一方面，忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離，以及生成內容內的自我一致性。如圖1(b)所示，當要求總結一篇新聞文章時，模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性，我們進一步根據可驗證來源的存在將其劃分為兩個子類別：事實不一致和事實捏造。對于忠實性，我們強調從用戶的角度解決不一致性，將其分類為指令不一致、上下文不一致和邏輯不一致，從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因，雖然在NLG任務的背景下進行了研究，但在尖端LLMs中呈現出獨特的挑戰，值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源，涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內，我們指出了潛在的數據相關原因，如有缺陷的來源和次優的利用，低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺，以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外，我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法，以及與LLM幻覺相關的詳盡基準概覽，作為適當的測試平臺，以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外，我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述，我們旨在為LLMs領域的發展做出貢獻，并提供有價值的見解，加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解，還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長，LLM幻覺作為一個主要挑戰脫穎而出，導致了許多關于其最新進展的綜述（Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c）。雖然這些作品從不同角度探討了LLM幻覺，并提供了有價值的見解，但區分我們當前綜述的獨特方面和全面性是至關重要的。（Ji et al., 2023a）主要闡明了預訓練語言模型在NLG任務領域中的幻覺，將LLMs排除在他們的討論范圍之外。（Liu et al., 2023h）從更廣闊的視角討論了LLMs的可信度，而（Wang et al., 2023c）深入探討了LLM事實性。相比之下，我們的綜述聚焦于LLM可信度中的一系列挑戰，涵蓋事實性方面，并進一步擴展了話語范圍，包括與忠實性相關的幻覺。據我們所知，與我們的綜述最為一致的是（Zhang et al., 2023g），它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此，我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上，我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是，我們的減輕策略與潛在原因密切相關，確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中，我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架（§2）。隨后，我們深入分析了導致LLMs中幻覺的因素（§3），接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查（§4）。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法（§5）。最后，我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題，提供見解并勾勒出未來研究的潛在路徑（§6）。

幻覺的原因

幻覺有多方面的起源，涵蓋了大型語言模型（LLMs）能力獲取過程的整個光譜。在這一部分，我們將深入探討LLMs中幻覺的根本原因，主要分為三個關鍵方面：數據（§3.1）、訓練（§3.2）和推理（§3.3）。

數據引起的幻覺

預訓練數據是LLMs的基石，使它們獲得一般能力和事實知識（周等，2023a）。然而，它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面：源自有缺陷數據源的潛在風險（§3.1.1），以及對數據中捕獲的事實知識的劣質利用（§3.1.2）。

訓練引起的幻覺

大型語言模型（LLMs）的訓練過程主要包括兩個主要階段：1）預訓練階段，LLMs在此階段學習通用表示并捕獲世界知識；2）對齊階段，LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力，但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而，解碼策略中的某些不足可能導致LLM幻覺。在本節中，我們將深入探討根源于解碼過程的潛在原因，強調兩個關鍵因素：解碼策略的固有隨機性（§3.3.1）和不完美的解碼表示（§3.3.2）。

幻覺緩解

在本節中，我們提供了針對緩解大型語言模型（LLMs）中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”（§3）中討論的見解，我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說，我們關注解決與數據相關的幻覺（§5.1）、與訓練相關的幻覺（§5.2）和與推理相關的幻覺（§5.3）的方法，每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現，這些都根本上植根于訓練數據中。在這個背景下，我們探索了緩解此類幻覺的各種策略，旨在盡量減少錯誤信息和偏見的發生，同時也提供知識增強和提高大型語言模型（LLMs）有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型（LLMs）所采用的架構和訓練策略的內在局限性。在這一背景下，我們討論了從訓練階段（§5.2.1）到對齊階段（§5.2.2）的各種優化方法，旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型（LLMs）中，解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而，如第§3.3節分析所述，不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中，我們探索兩種先進策略，旨在改進解碼策略，以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中，我們對大型語言模型中的幻覺進行了深入的研究，探討了它們背后的復雜原因、開創性的檢測方法以及相關基準，以及有效的緩解策略。盡管已經取得了重大進步，但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題，需要持續的研究。此外，我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀，我們希望能賦予這些專業人士寶貴的洞見，推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

知識編輯 · 大型語言模型 · 知識更新 ·

2023 年 10 月 26 日

[付費5元查看完整內容]大模型如何做知識編輯？弗吉尼亞大學最新《大型語言模型的知識編輯》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（LLMs）因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力，已經重塑了學術和工業領域。盡管如此，LLMs的一個主要缺點是由于其前所未有的參數量，其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時，這一缺點會被放大。因此，開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而，重新訓練LLMs可能在計算上很密集，并且面臨退化與模型更新無關的寶貴預訓練知識。最近，基于知識的模型編輯（KME）受到了越來越多的關注，其目的是精確修改LLMs以納入特定的知識，而不負面影響其他無關的知識。在這次綜述中，我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式，以涵蓋不同的KME策略。之后，我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類，并研究現有的KME策略，同時分析每個類別的方法的關鍵見解、優點和局限性。此外，相應地介紹了KME的代表性指標、數據集和應用。最后，我們對KME的實用性和剩余挑戰進行了深入的分析，并建議在這一領域進一步發展的有前景的研究方向。

近期，大型語言模型（LLMs）已成為一個熱門話題，徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練，獲得了大量的事實知識和推理能力，LLMs展示了對文本信息的前所未有的理解，能夠像人類專家一樣分析和生成文本。然而，LLMs的一個主要缺點是由于參數數量龐大，訓練過程的計算開銷極高。隨著世界的不斷進化，經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求，這使得該問題進一步加劇[124]。例如，在圖1中，一個過時的LLM無法準確描述Lionel Messi的最新成就，這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型（LLMs）的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116]，在此，預訓練LLMs的參數直接被優化，以從新數據中編碼新知識[5, 72, 80, 122]。例如，提出了各種基于指令調整的方法，以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用，并且能夠將新知識注入到LLMs中，但它們因以下缺點而聞名：(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120]，微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據，尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是，微調LLMs會不受約束地改變預訓練的權重，這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點，更多的注意力已被賦予基于知識的模型編輯(KME)，也被稱為知識編輯。一般來說，KME旨在精確修改預訓練LLMs的行為，以更新特定的知識，而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中，LLMs中特定知識的更新通常被制定為一個編輯，例如將“誰是美國總統？”的答案從“特朗普”更正為“拜登”。關于特定的編輯，KME策略通常通過引入輔助網絡（或一組參數）到預訓練模型[41, 63, 124]，或更新（部分）參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略，KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新，從而精確地將知識注入模型。此外，某些方法還引入明確的損失以包含更新過程，從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢，KME技術可以提供一種高效且有效的方法，不斷地用新知識更新LLMs，而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處，但它在更新LLMs方面具有獨特的優勢，值得深入研究。特別是，KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而，除了這一共同目標外，KME更加關注兩個關鍵屬性，這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如，當有關美國總統的編輯得到更新時，編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力，這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說，它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如，當模型關于總統的部分被編輯時，對總統配偶的查詢的答案也應相應地改變。在實踐中，確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之，由于這兩個獨特的目標，KME仍然是一個具有挑戰性的任務，需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別：已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此，仍然缺乏徹底的綜述，可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如，最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而，KME的獨特性，即局部性和普遍性，并沒有得到充分的討論，這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是，他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能，而沒有解決基于特定知識的編輯任務。據我們所知，與我們的綜述最相關的論文是[119]，它提供了KME的簡要概述，并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此，這項綜述缺乏對KME的更多細節，例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現，而對不同策略的技術細節的重視較少。最近，一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性，而它相對較短，缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展，我們認為有必要回顧所有代表性KME方法的細節，總結共同點，同時討論每種方法的獨特性，并討論KME領域的開放挑戰和前瞻性方向，這將促進該領域的進一步發展。

本次綜述的貢獻：本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述，以及一個創新的公式化。特別是，我們將一般的KME任務公式化為一個受限制的優化問題，同時結合了準確性、局部性和普遍性的目標。然后，我們將現有的KME策略分類為三個主要類別，即外部記憶、全局優化和局部修改。重要的是，我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題，其中的特性基于一般的公式化理論總結。此外，我們提供了關于每個類別中方法的有效性和可行性的有價值的見解，這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之，我們的主要貢獻可以總結為以下三個方面：

?** 新的分類法**：我們引入了一個全面和結構化的分類框架，系統地總結了LLM編輯的現有工作。具體來說，基于如何將新知識引入預訓練的LLMs，我們的分類包括三個不同的類別：外部記憶、全局優化和局部修改，其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析：我們將LLM編輯任務公式化為一個受約束的優化問題，其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外，我們強調了每個類別的主要見解、優點和局限性。在這個背景下，我們深入研究了每個類別的代表性方法，并系統地分析了它們之間的聯系。 ? 未來方向：我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰，并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式，可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結，這對于公正地比較各種方法至關重要。在深入探討具體方法之前，我們在第5.1節為現有方法提供了一個全面的分類，其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法，其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后，我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現，各種KME方法已經被提議來更新預先訓練的LLMs，以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs，而不會負面影響與編輯無關的預訓練知識。在這份調查中，我們將現有的KME方法分為以下三個主要類別：

? 基于外部記憶的方法利用外部存儲器來存儲新的知識，以進行編輯，而不修改預訓練的權重，其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識，基于記憶的策略能夠準確地表示新知識，并具有良好的可伸縮性，因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**，其中引入了定制策略來限制其他預訓練知識的影響，與簡單的微調區分開來。然而，由于需要優化的參數數量眾多，這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數，并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分，從而與基于記憶的方法相比提供了相當的內存效率，并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置（例如，外部參數或內部權重）和方式（例如，通過優化或直接合并）進行的。具體而言，每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如，當計算資源有限而需要大量編輯時，外部記憶在場景中占優勢，因為記憶的大小可以控制以適應不同的要求。另一方面，當實踐者更關注編輯知識的普遍性時，全局優化是有利的，因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明，并在表2中總結了所有方法的具體特點。

在這次綜述中，我們對知識為基礎的模型編輯（KME）技術進行了全面而深入的調研，以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標，該目標同時確保編輯的準確性和保留，這適用于包括不同KME策略。接著，我們提供了KME的評估指標概述，這有助于了解編輯模型的理想屬性。隨后，我們提出了一個結構化的分類框架，以系統地分類現有的KME技術。在每個類別中，我們概述了核心挑戰，詳細說明了代表性方法，并討論了它們的優勢和劣勢。此外，我們總結了廣泛用于評估KME技術的數據集，強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現，我們還強調了KME技術的實際應用。最后，我們確定了未來研究的幾個潛在挑戰，并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

可控文本生成 · 預訓練語言模型 · Transformer · 自然語言處理 ·

2023 年 9 月 24 日

[付費5元查看完整內容]可控文本生成怎么做？北理工等最新《基于Transformer的預訓練語言模型可控文本生成》研究綜述，37頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

可控文本生成（CTG）是自然語言生成（NLG）領域中的新興領域。這被視為發展高級文本生成技術的關鍵，更好地滿足實際應用中的特定約束。近年來，使用大規模預訓練語言模型（PLMs），特別是廣泛使用的基于Transformer的PLMs，已經成為NLG的新范式，允許生成更多樣化和流利的文本。然而，由于深度神經網絡的可解釋性水平有限，這些方法的可控性需要得到保證。為此，使用基于Transformer的PLMs進行可控文本生成已成為一個快速發展但具有挑戰性的新研究熱點。在過去的3-4年中，已經出現了各種各樣的方法，針對需要不同類型的受控約束的不同CTG任務。在本文中，我們對這一領域的常見任務、主要方法和評估方法進行了系統的批判性綜述。最后，我們討論了該領域面臨的挑戰，并提出了各種有前景的未來方向。據我們所知，這是第一篇從基于Transformer的PLMs的角度總結最先進的CTG技術的綜述論文。我們希望它能幫助相關領域的研究人員和從業人員快速追蹤學術和技術前沿，為他們提供該領域的全景圖和未來研究的路線圖。

自然語言生成（NLG）被視為自然語言理解（NLU）的補充，是自然語言處理（NLP）的一個重要分支。與NLU的任務相反，NLU旨在消除輸入文本的歧義，產生文本中所表達的思想的單一標準化表示，而NLG主要關注將潛在表示轉換為特定的、自洽的自然語言文本[47]。換句話說，NLU旨在開發能夠閱讀和理解人類語言的智能機器，而NLG使計算機能夠像人類一樣寫作。作為先進人工智能的一種體現，NLG技術在一系列應用中發揮著關鍵作用，例如對話系統、廣告、市場營銷、故事生成和數據增強。

在NLG中實現文本生成的可控制性是一個重要且基本的問題。圖1中展示了一些具體的例子。一般來說，一個NLG系統應該能夠可靠地生成滿足目標應用和用戶施加的某些可控制約束的文本。一般來說，這些約束是特定于任務的。例如，故事生成的任務總是需要控制故事情節和結局。在對話響應生成的任務中，經常需要控制情緒[67]、人格[160]和禮貌等。對于基于生成的數據增強[42]，必須確保不同領域中的數據分布平衡。而且，對于AI應用的道德發展[6]，避免生成無意識和攻擊性的內容，如性別偏見、種族歧視和有毒的詞，是至關重要的。因此，一個NLG系統的可控制性對于它在實際應用中生成顯著實際價值是至關重要的。近年來，深度學習（DL）的發展催生了一系列關于DL驅動的可控文本生成（CTG）的研究，這為這一領域帶來了真正的突破。早期的方法基于順序模型和風格嵌入[34，65]，取得了一些有前景的進展。之后，基于深度生成模型的方法激增，例如變分自編碼器（VAEs）[48, 125, 138, 142, 149, 154]，生成對抗網絡（GANs）[117, 140]，和能量基礎模型[8, 25, 135, 166]。基于深度學習的方法能夠以數據驅動的方式進行端到端學習，學習能夠隱式表示文本語言特征的低維度稠密向量。這種表示也有助于避免手工特征的偏見，而且在文本生成中顯示出巨大的潛力。

然而，上述基于DL的方法的成功在很大程度上依賴于大規模數據集，這對于監督和跨領域文本生成任務提出了挑戰。自2018年以來，例如BERT[27]，RoBERTa[82]，GPT[107]，T5[108]和mBART[80]等大規模預訓練語言模型（PLMs）逐漸成為NLP的新范式。由于使用了大量語料庫和基于Transformer結構的無監督學習，人們相信PLMs從數據中學到了大量的語義和句法知識，而下游任務只需要進行微調就可以獲得最先進（SOTA）的性能。在NLG方面，PLMs從大量的語料材料中學習，以很大程度上模擬自然語言的分布，因此它們能夠生成前所未有的高質量文本[25]。而且，大規模的PLM本身可以被視為一個消息豐富的知識庫，使得生成文本無需外部領域知識。盡管如此，PLMs基于神經網絡，本質上仍然是黑箱，缺乏良好的可解釋性。這些模型總是根據上下文的潛在表示生成文本。因此，很難控制它們按照人類的意愿生成內容（即，可控性問題）。如何提高基于PLM模型的可解釋性和可控性，以生成文本已成為一個熱門的研究話題。

在上述應用和研究背景下，基于PLMs的方法正在成為可控文本生成（CTG）研究的主流，有望帶來里程碑式的進展。作為一個迅速增長但充滿挑戰的研究領域，亟需對當前的文獻進行全面的批判性回顧，以繪制該領域的全貌，并為有前途的未來方向提出一條路線圖。已經有一些關于CTG的調查[100]，但它們缺少（1）CTG的代表性應用任務、主要方法和評估方法的系統性回顧；（2）對最新的大規模基于PLM的CTG方法的追蹤。在本文中，我們提供了一個關于與CTG相關的主要任務和評估指標的介紹，對使用PLMs的CTG方法進行了詳細而全面的文獻回顧，最后，對可能的未來研究方向提出了展望。我們希望這篇調查論文將幫助研究人員和從業人員快速捕捉到基于PLM的CTG的整體畫面以及詳細的前沿方法，并促進這一有前途的領域的進一步發展。

本文的其余部分按照如下組織：第2部分簡要介紹了該領域的兩個關鍵方面，即CTG和PLMs的基本概念。然后，我們將基于PLM的CTG的主要方法分為三類，并在第3部分更詳細地討論它們。第4部分總結了CTG的相關評估方法和指標。在第5部分，我們討論了該領域正在面臨的挑戰，并提出了一些有前途的未來方向。最后，我們在第6部分結束本文。本文中出現的所有文獻都遵循兩個規則。首先，我們傾向于選擇最近3-4年內出現的最新論文，以確保調查工作的時效性。其次，我們更傾向于選擇在NLP社區有影響力的工作，例如，在NLP領域的頂級會議或期刊上發表的論文，如ACL，EMNLP，NAACL和TACL；以及在開源社區中得到廣泛關注或被高度引用的工作。

基于PLM的CTG主要方法

從生成的角度來看，PLM已從大規模語料庫中學到了各種知識，這可以幫助產生更流利和更豐富多樣的文本，為自然語言生成提供了一種有效的方式。然而，現有的PLM本質上還是像其他深度神經網絡一樣的黑箱模型，缺乏文本生成過程的可解釋性和可控制性。如何在實現生成模型的可控性的同時，充分利用PLM進行文本生成，最近已成為一個熱門的研究課題。在本節中，我們將從基于Transformer的PLM用于CTG的角度，對該領域的主要方法進行全面的回顧。

基于PLM的CTG的核心思想是以顯式或隱式的方式給模型一個控制信號，來驅動滿足控制條件的文本生成。根據控制信號的作用方式，我們大致將現有的方法分為三個類別，每個類別進一步分為幾個子類。在圖4中給出了一個概述。最直接的方法是微調PLM，這可以以較低的成本執行CTG任務。第二種方法是為CTG重新訓練或重構PLM。原則上，這種方法可能產生更好的結果，但可能消耗更多的計算資源，也面臨著缺乏標記數據的問題。隨著PLM的參數大小迅速增加，即使是微調也變得資源密集。為了解決這些問題，第三類文本生成方法，即在解碼時間工作的后處理方法，已經出現。在后處理方法中，PLM始終是固定的，控制信號在解碼階段工作。這樣的方法不僅需要較少的計算資源進行訓練，而且在一定程度上也能保證生成文本的更好質量。因此，近年來學術界對這個方向的關注正在增加。在以下幾節中，我們將更詳細地回顧與這三種類型的方法相關的最近文獻。評價方法自然語言生成（NLG）模型的性能由適當的評估指標來反映。由于需要滿足控制元素，可控文本生成（CTG）與一般的NLG任務略有不同。因此，CTG不僅關注生成文本的質量，還關注生成文本是否滿足控制元素。因此，我們通常使用一般和CTG特定的指標來評估CTG模型。對于任何CTG模型，評估生成文本的一般質量是至關重要的，例如：1）流利度：輸出文本中的語言有多流利[12, 31]，2）事實性：生成的文本在多大程度上反映了上下文中描述的事實[46, 146]，3）語法：生成的文本在語法上是否正確，4）多樣性：生成的文本是否具有多種類型或風格的范圍。這些一般評價方面的測量方法可以基于執行評估的對象（如圖7所示）分為三類：人類或機器。

結論在這篇論文中，我們全面總結了基于大型預訓練語言模型的可控文本生成的典型應用、主要方法和評估方法。通過對現有方法的關鍵分析，我們識別了該領域的一系列關鍵挑戰，并突出了幾個有前途的未來方向。大型預訓練語言模型為可控文本生成技術的發展帶來了前所未有的機會，呼吁更多的研究人員加入該領域，開創新時代。我們希望這篇文獻綜述能夠為研究人員和從業人員提供該領域的清晰圖景，并為他們前進設定路線圖。

付費5元查看完整內容

大模型 · SelfCheckGPT · 大型語言模型 · 知識幻覺 ·

2023 年 8 月 22 日

[付費5元查看完整內容]如何檢測大模型“幻覺”？劍橋提出SelfCheckGPT: 針對生成型大型語言模型的零資源黑盒子幻覺檢測

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成型大型語言模型（LLMs）如 GPT-3 能夠為各種用戶提示生成流暢的響應。但是，LLMs 有時會產生錯誤的事實，這可能會損害人們對它們輸出的信任。現有的事實檢查方法要么需要訪問輸出概率分布（這對于如 ChatGPT 這樣的系統可能不可用），要么需要通過復雜的模塊接口外部數據庫。在這項工作中，我們提出了 "SelfCheckGPT"，一個簡單的基于抽樣的方法，可用于在不需要外部數據庫的情況下對黑盒模型進行事實檢查。SelfCheckGPT 的核心思想是，如果LLM知道某個概念，抽樣的響應很可能會類似并包含一致的事實。但對于錯誤的事實，隨機抽樣的響應可能會有所不同并互相矛盾。我們使用 GPT-3 生成 WikiBio 數據集中的個人文章，并手動注釋生成的文章的事實性。我們證明 SelfCheckGPT 可以：i) 檢測非事實性和事實性的句子；以及 ii) 根據事實性對文章進行排名。我們將我們的方法與幾種基線方法進行比較，結果顯示在句子錯誤檢測中，我們的方法的 AUC-PR 分數與灰盒方法相當或更好，而 SelfCheckGPT 在文章事實性評估方面表現最佳。

付費5元查看完整內容

大模型 · 參數知識引導 · 大型語言模型 ·

2023 年 5 月 10 日

[付費5元查看完整內容]大模型如何適用長尾或特定領域？微軟等提出《參數知識引導的增強大型語言模型》，擴展LLM的垂直化長尾適配能力

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理（NLP）領域憑借其出色的語言理解和生成能力取得了顯著進步。然而，由于受限于領域特定知識和詞匯的接觸，它們在長尾或領域特定任務的表現可能不盡如人意。此外，大多數最先進的（SOTA）LLMs缺乏透明度，只能通過API訪問，這阻礙了使用自定義數據進一步微調。而且，數據隱私是一個重要問題。為了應對這些挑戰，我們提出了一種創新的參數知識引導（PKG）框架，該框架為LLMs配備了一個知識引導模塊，以在運行時訪問相關知識，而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型，允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現，這些任務需要事實、表格、醫學和多模態知識。

//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e

1. 引言

諸如GPT3 [Brown et al., 2020]的大型語言模型（LLMs）在各種自然語言處理（NLP）任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練，從而使它們能夠將大量的隱式世界知識融入到其參數中。因此，LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如，它們可用于機器翻譯 [Jiao et al., 2023]，段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力，LLMs為各種工業應用提供了新的機會，如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理（NLP）任務上表現出色，但在長尾或領域特定任務上，LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識，但這種知識可能對某些任務來說是有損失或不足的，導致準確度降低和效果不佳。此外，許多最先進（SOTA）的LLMs被認為是“黑箱”模型，只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外，能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據，將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。

最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識，以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果，但它還存在一些局限性。首先，它嚴重依賴外部知識來源，這些來源可能并不總是容易獲得或可用。此外，這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。

為了克服這些局限性，我們提出了一種名為參數知識引導（PKG）的新框架，它將檢索替換為生成，如圖1所示。PKG模塊是一個額外的背景知識生成模塊，使LLMs能夠在運行時訪問相關信息，而無需更新它們的參數。通過提供必要的知識，增強型LLMs可以在長尾或領域特定任務上取得更好的性能。

我們的PKG框架基于開源且免費使用的“白盒”小型語言模型，使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致，我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識，并且可以在離線情況下高效地進行更新。

我們的實驗表明，所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能，包括事實知識（FM2 [Eisenschlos et al., 2021], +7.9%）、表格知識（NQ-Table [Herzig et al., 2021], +11.9%）、醫學知識（MedMC-QA [Pal et al., 2022], +3.0%）和多模態知識（ScienceQA [Lu et al., 2022], +8.1%）。我們將我們的貢獻總結如下：

我們提出了一種創新的參數知識引導（PKG）框架，通過集成一個額外的背景知識生成模塊來增強語言模型（LMs）的能力。

我們引入了一種兩步知識對齊方法，將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調，并使參數模塊能夠進行高效的離線更新。

我們對各種下游任務進行了廣泛的實驗，以評估我們提出的PKG框架的有效性。這些實驗的結果表明，我們的PKG框架可以提高LLMs在這些任務上的能力。

2 參數化知識引導

在本節中，我們介紹了一種名為參數知識引導（PKG）的創新框架，旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊，該模塊與LLM集成，以在運行時提供相關知識，指導其推理。為實現這一目標，我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊，這些知識通常是長尾的或不存在于LLM的訓練數據中。然后，給定一個輸入問題或句子，PKG提供相應的背景文檔，擴展LLMs的輸入上下文，使它們能夠處理更廣泛的任務。

**2.1 導引器的知識對齊 **

針對特定任務或領域，我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示，我們將此過程分為兩個步驟。首先，我們收集有關目標任務/領域的原始數據，作為我們的知識來源。然后，我們將數據轉換為一組（指令，輸入，輸出）三元組。指令作為輸入的提示，并指導模塊與預期輸出對齊。接下來，采用這組三元組來調整我們的基本PKG模塊，優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識，并在運行時提供給LLMs。指令提示的示例是：

指令作為提示，指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示，提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出，我們以自回歸方式訓練基本的導引器模塊，其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成，基本模型就會演變成參數化知識導引器，可以根據相應的指令生成特定領域/任務的背景知識。

2.2 用PKG增強LLMs

在許多情況下，使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示，并請求LLMs使用API返回響應/答案。然而，這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制，一種常見的方法是為LLMs提供額外的上下文，使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下，我們增強輸入與領域特定的背景知識，擴展輸入上下文。這個補充信息作為LLMs的指南，使它們能夠訪問更豐富的任務上下文，從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是：

3 實驗

在本節中，評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較，表1和表2所示的結果表明，PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。

付費5元查看完整內容

CVPR 2023 · I2MVFormer · 大型語言模型 · 零樣本圖像分類 ·

2023 年 3 月 1 日

[付費5元查看完整內容]【CVPR2023】I2MVFormer:大語言模型生成的多視圖文檔監督零樣本圖像分類

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近的工作表明，來自在線來源的非結構化文本(文檔)可以作為零樣本圖像分類的有用輔助信息。然而，這些方法需要訪問像維基百科這樣的高質量來源，并且僅限于單一來源的信息。在網絡規模的文本上訓練的大型語言模型(LLM)顯示出令人印象深刻的能力，可以將其所學的知識用于多種任務。本文提供了一種使用LLM為零樣本圖像分類模型提供文本監督的新視角。LLM提供了來自不同注釋器的一些文本描述作為示例。LLM以這些示例為條件，為每個類生成多個文本描述(稱為視圖)。所提出的模型I2MVFormer用這些類視圖學習多視圖語義嵌入，用于零樣本圖像分類。類的每個文本視圖都提供了補充信息，允許模型學習高度區分性的類嵌入。與基線模型相比，I2MVFormer更擅長使用LLM的多視圖文本監督。I2MVFormer在三個公共基準數據集上建立了一種新的無監督語義嵌入的零樣本圖像分類技術。

//www.zhuanzhi.ai/paper/bd64e48df69d1d0d94391b703ac2d14c

付費5元查看完整內容

信息檢索 · 預訓練語言模型 ·

2020 年 11 月 29 日

[付費5元查看完整內容]【WSDM 2021】面向信息檢索的預訓練語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大規模無標簽文本上預訓練語言模型，然后在下游任務微調的學習模式已經在自然語言處理（NLP）領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展，然而，研究人員發現當預訓練任務的目標更接近于下游任務的目標時，模型在下游任務上能取得更大幅度的性能提升，例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3]，都取得了相較于原始預訓練語言模型更好的性能。近年來，在信息檢索（IR）中，預訓練語言模型在文檔排序任務上取得了一定的效果，然而，如何設計更符合信息檢索需求的預訓練目標，是一個值得探索的新領域。

在這項工作中，我們提出了一個新穎的針對信息檢索的預訓練任務，叫做“代表詞預測”任務（Representative Words Prediction）。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發，在查詢似然模型的基本假設中，查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本，因此通過貝葉斯定理推導，查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此，我們就構建了這樣一個新的代表詞預測任務（簡稱為ROP任務），具體來說，對于一個給定的文檔，我們根據文檔語言模型（狄利克雷平滑的多項式語言模型）采樣出該文檔的代表性詞集，然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測，我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練，我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容