一级a视频免费一区二区,亚州AV无码专区在线电影,欧美日本国产一区,日本一区二区三区免费电影观看,欧美精品网站

思維鏈（CoT）已經成為一種廣泛采用的提示方法，激發了大型語言模型（LLMs）的印象深刻的推理能力。受CoT的連續思維結構的啟發，已經開發了許多針對CoX（X鏈）的方法，以應對涉及LLMs的不同領域和任務中的各種挑戰。在本文中，我們提供了一個全面的關于LLMs在不同情境下的CoX方法的綜述。具體來說，我們根據節點的分類，即CoX中的X，以及應用任務對它們進行分類。我們還討論了現有CoX方法的發現和含義，以及潛在的未來方向。我們的綜述旨在為尋求將CoT理念應用于更廣泛場景的研究人員提供一個詳細且最新的資源。

大型語言模型（LLMs）在使用思維鏈（CoT）方法提示時表現出強大的推理能力（Wei et al., 2022; Yao et al., 2024; Besta et al., 2024a）。CoT的本質是將復雜問題分解為一系列中間子任務（Chu et al., 2023; Zhou et al., 2023）。通過逐步處理這些子任務，LLMs能夠關注重要的細節和假設，這大大提高了它們在廣泛推理任務中的表現（Huang and Chang, 2023; Chu et al., 2023）。此外，CoT的中間步驟提供了一個更透明的推理過程，便于對LLMs的解釋和評估（Yu et al., 2023b）。隨著CoT的成功，開發了許多X鏈（CoX）方法（Yu et al., 2023a）。這些方法不僅限于推理思維，最近的CoX方法還構建了包含各種組件的鏈，如反饋鏈（Lei et al., 2023; Dhuliawala et al., 2023）、指令鏈（Zhang et al., 2023d; Hayati et al., 2024）、歷史鏈（Luo et al., 2024; Xia et al., 2024d）等。這些方法已被應用于解決涉及LLMs的多樣化任務中的挑戰，包括多模態交互（Xi et al., 2023a; Zhang et al., 2024a）、幻覺減少（Lei et al., 2023; Dhuliawala et al., 2023）、基于LLM的代理規劃（Zhan and Zhang, 2023; Zhang et al., 2024c）等。

盡管這些CoX方法的普及度不斷提高，但它們尚未被集體審查或分類，我們對它們的潛力和細微差別的理解還存在差距。為此，本綜述旨在提供一個結構化概覽，捕捉CoX方法的本質和多樣性，以便進一步探索和創新。雖然幾項綜述已經探討了CoT（Chu et al., 2023; Yu et al., 2023b; Besta et al., 2024b），它們主要關注不同結構的推理思維，例如圖1(a)所示的思維鏈。與此相反，本文關注的是如圖1所示，超越推理思維的多面向組件設計的X鏈，提供CoT概念在更廣泛領域的見解。我們通過CoX中的X的分類和應用這些方法的任務來呈現一個全面的綜述。綜述概覽首先提供思維鏈的背景信息并定義X鏈為其概括（§2）。接下來，我們根據用于構建鏈的組件類型對CoX方法進行分類（§3）。此外，根據這些CoX方法的應用領域，我們按任務對它們進行分類（§4）。然后，我們討論現有CoX方法的見解并探索潛在的未來方向（§5）。綜述的詳細結構在圖2中呈現。

什么是X鏈？

在本節中，我們首先介紹一些關于思維鏈（Chain-of-Thought，CoT）提示的背景信息，然后定義一個廣義的X鏈（Chain-of-X，CoX）概念。

思維鏈（CoT）提示是一種方法論，能顯著增強大型語言模型（LLMs）的推理能力。CoT由Wei等人（2022）引入，涉及以結構化的格式<input, thoughts, output>提示LLMs，其中“thoughts”包括通向最終答案的連貫的中間自然語言推理步驟。CoT在需要復雜推理的任務中效果最為顯著。傳統的少樣本學習方法在這類場景中經常會失敗，因為它們傾向于直接提供答案而不包括必要的中間步驟。Rae等人（2021）強調了這一局限性，指出這些方法隨著模型大小的增加而顯得不足。相比之下，CoT提示通過融入中間推理步驟而表現出色。這些步驟通過邏輯推進引導模型，增強其解決算術、常識和符號推理等復雜問題的能力（Wang等人，2023d；Lyu等人，2023）。CoT的本質在于通過將復雜問題分解為可管理的中間步驟來解決問題（Zhou等人，2023）。Kojima等人（2022）也展示了通過提示“讓我們一步一步思考。”的零樣本CoT的強大性能。明確的推理步驟還為模型的思考過程提供了一個透明的路徑，允許進一步的評估和糾正（Yu等人，2023b）。受CoT的順序分解特性啟發，最近開發了大量的X鏈（CoX）方法（Yu等人，2023a）。在這里，我們將CoX定義為CoT方法的一種廣義形式，用于超越LLM推理的多樣化任務。我們將CoX中的X稱為鏈結構的“節點”。除了CoT提示中的思考外，CoX中的X可以采取針對特定任務定制的各種形式，包括中間件（§3.1）、增強（§3.2）、反饋（§3.3）甚至模型（§3.4），如圖1所示。我們在圖2中總結了現有CoX方法中的節點類型。CoX的想法是構建一個與問題相關的組件序列，這些組件要么組合貢獻解決方案，要么迭代精煉復雜任務的輸出。同樣，我們為CoX定義了一個結構化格式<input, X1, ..., Xn, output>，其中n是鏈的長度。請注意，這種格式超越了像CoT這樣的提示策略，可以適應多種算法框架或結構，用于涉及LLMs的多樣化任務。例如，驗證鏈（Chain-of-Verification，Dhuliawala等人，2023）是一個幻覺減少框架，使用LLM生成初始響應，構建一系列驗證問題，并根據這些問題修訂其先前的響應。除了減少幻覺外，CoX方法還被應用于多種任務，如圖2所示，包括多模態互動（§4.1）、事實性與安全（§4.2）、多步驟推理（§4.3）、指令跟隨（§4.4）、LLMs作為代理（§4.5）和評估工具（§4.6）。

結論

本綜述探討了基于思維鏈概念構建的X鏈方法。通過根據節點和任務對它們進行分類，我們提供了一個全面的概覽，突出了CoX在增強大型語言模型（LLMs）能力方面的潛力，并為未來研究開辟了新的途徑。通過這項綜述，我們旨在激發對LLMs的X鏈范式進行更深入理解和更有創造性使用的進一步探索。

付費5元查看完整內容

相關內容

思維鏈

關注 7

多模態大型語言模型 · 以數據為中心的人工智能 ·

2024 年 5 月 28 日

[付費5元查看完整內容]從數據中心視角看多模態大型語言模型的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類通過多種感官，如視覺、嗅覺、聽覺和觸覺來感知世界。同樣，多模態大型語言模型（MLLMs）通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據，增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中，我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言，我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外，我們還分析了數據集的評估方法，并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解，促進該領域的進一步探索和創新。

近年來，我們見證了大型語言模型（LLMs）和多模態大型語言模型（MLLMs）的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息，展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現，如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外，它們卓越的語言理解能力使其在文本豐富的任務中表現出色，如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要，數據也顯著影響了MLLMs的成功。例如，Hoffmann等人[99]展示了為了擴展模型，有必要增加訓練數據的規模。除了數據數量外，數據質量同樣重要。先前的研究[251]表明，精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而，關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此，本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比，數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內，我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題：

Q1：如何收集、選擇和管理MLLMs的數據？大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。
Q2：數據如何影響MLLMs的性能？理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。
Q3：如何評估MLLMs的數據？有必要開發全面的評估基準，以評估MLLMs在各種任務中的性能和魯棒性。本綜述與現有綜述的區別。在模型中心視角下，已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318]，但缺乏對數據中心方面的深入分析。最近，一些綜述開始關注LLMs的數據準備，如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而，這些綜述主要集中于僅文本LLMs的數據管理和選擇方法，沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集，但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能（DCAI）[109, 111, 220, 279, 316]，它也關注AI研究的數據中心視角，但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色，我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻，并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中，我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下：

新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述，考慮了文本、圖像、視頻和音頻等模態。
數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題，并提出了若干未來研究方向。

本文的其余部分安排如下：第2節介紹LLMs和MLLMs的預備知識，并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后，我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

大語言模型 · 自然語言處理 · 綜述 ·

2024 年 5 月 23 日

[付費5元查看完整內容]大型語言模型遇上自然語言處理：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

雖然像ChatGPT這樣的大型語言模型（LLMs）在自然語言處理（NLP）任務中表現出令人印象深刻的能力，但對其在這一領域潛力的系統性研究仍然較少。本研究旨在填補這一空白，探索以下問題：（1）LLMs目前在文獻中如何應用于NLP任務？（2）傳統的NLP任務是否已經被LLMs解決？（3）LLMs在NLP中的未來是什么？為了解答這些問題，我們首先提供了一個關于LLMs在NLP中全面概述的第一步。具體來說，我們首先介紹了一個統一的分類，包括（1）參數凍結應用和（2）參數微調應用，以提供一個統一的視角來理解LLMs在NLP中的當前進展。此外，我們總結了新的前沿領域及相關挑戰，旨在激發進一步的突破性進展。我們希望這項工作能為LLMs在NLP中的潛力和局限性提供寶貴的見解，同時也作為構建有效的LLMs在NLP中的實用指南。

近年來，大型語言模型（LLMs）通過擴大語言模型的規模，代表了人工智能領域的重大突破（Zhao et al., 2023a; Kaddour et al., 2023; Yang et al.; Hadi et al., 2023; Zhuang et al., 2023）。目前關于LLMs的研究，如GPT系列（Brown et al., 2020; Ouyang et al., 2022）、PaLM系列（Chowdhery et al., 2022）、OPT（Zhang et al., 2022a）和LLaMA（Touvron et al., 2023），顯示了令人印象深刻的零樣本性能。此外，LLMs還帶來了一些新興能力，包括指令遵循（Wei et al., 2022a）、鏈式思維推理（Wei et al., 2022c）和上下文學習（Min et al., 2022），這些能力引起了越來越多的關注（Wei et al., 2022b）。

為了回答上述問題，我們首次嘗試對LLMs在NLP中的應用進行全面而詳細的分析。本工作的總體目標是探索LLMs在NLP中的當前發展。為此，在本文中，我們首先介紹相關背景和預備知識。此外，我們引入了LLMs在NLP中的統一范式：（1）參數凍結應用，包括（i）零樣本學習和（ii）小樣本學習；（2）參數微調應用，包括（i）全參數微調和（ii）參數高效微調，旨在提供一個統一的視角來理解LLMs在NLP中的當前進展：

參數凍結應用直接在NLP任務中使用提示方法，不需要參數微調。這一類別包括零樣本和小樣本學習，具體取決于是否需要小樣本示例。
參數微調應用指需要對LLMs的參數進行微調以適應NLP任務。這一類別包括全參數微調和參數高效微調，具體取決于是否需要對所有模型參數進行微調。最后，我們通過確定未來研究的潛在前沿領域及相關挑戰來刺激進一步的探索。總結來說，這項工作提供了以下貢獻：

首個綜述：我們首次對大型語言模型（LLMs）在自然語言處理（NLP）任務中的應用進行了全面綜述。
新分類法：我們引入了一個新的分類法，包括（1）參數凍結應用和（2）參數微調應用，這提供了一個理解LLMs在NLP任務中應用的統一視角。
新前沿：我們討論了LLMs在NLP中的新興研究領域，并強調了相關挑戰，旨在激發未來的突破。
豐富資源：我們創建了第一個LLMs在NLP中的資源集合，包括開源實現、相關語料庫和研究論文列表。這些資源可在//github.com/LightChen233/Awesome-LLM-for-NLP獲取。我們希望這項工作能成為研究人員的寶貴資源，并推動基于LLMs的NLP領域的進一步進展。

我們首先描述了一些典型的自然語言處理理解任務，包括語義分析（§3.1）、信息抽取（§3.2）、對話理解（§3.3）和表格理解（§3.4）。

付費5元查看完整內容

自然語言處理 · 檢索增強大型語言模型 · 大模型 ·

2024 年 5 月 3 日

[付費5元查看完整內容]RAG與RAU：自然語言處理中的檢索增強語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）已在自然語言處理（NLP）領域催生了重大進展，然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題，最近的方法學已將從外部資源檢索到的信息與LLMs整合，顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型（RALMs）、包括檢索增強生成（RAG）和檢索增強理解（RAU）的全面概述，提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件，包括檢索器、語言模型和增強組件，以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法，強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制，特別是在檢索質量和計算效率方面，提供了未來研究的方向。總之，這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫：//github.com/2471023025/RALM_Survey。

自然語言處理（NLP）是計算機科學和人工智能領域內的一個重要研究方向，致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域，NLP整合了語言學、計算機科學和數學，旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力，從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上，如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等，這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法（Hogenboom et al., 2010）（Serra et al., 2013）（Aussenac-Gilles and S?rgel, 2005）和深度學習算法，如卷積神經網絡（CNN）（Yin et al., 2017）、遞歸神經網絡（RNN）（Banerjee et al., 2019）、長短時記憶網絡（LSTM）（Yao and Guan, 2018）等。最近，隨著變壓器架構（Vaswani et al., 2017）作為自然語言處理的代表性技術的出現，其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型（Lewis et al., 2019）（Raffel et al., 2020）在自然語言處理領域已經持續展示出優越的性能，吸引了越來越多研究者的關注，他們致力于研究其能力。

當前最流行的語言模型是GPT系列（Radford et al., 2019）（Brown et al., 2020）（Achiam et al., 2023）和Bert系列（Liu et al., 2019）（Devlin et al., 2018）（Sanh et al., 2019），這些模型已經在多種自然語言處理任務中表現出色。其中，自編碼語言模型特別擅長于自然語言理解任務，而自回歸語言模型更適合于自然語言生成任務。雖然增加參數（Touvron et al., 2023b）和模型調優（Han et al., 2023）可以提升LLMs的性能，但“幻覺”現象（Ji et al., 2023）仍然存在。此外，語言模型在有效處理知識密集型工作（Feng et al., 2023）和更新其知識的能力不足（Mousavi et al., 2024）方面的限制也一直很明顯。因此，許多研究者（Lewis et al., 2020）（Izacard and Grave, 2020b）（Khandelwal et al., 2019）采用了檢索技術來獲取外部知識，這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.（2023）提供了關于多模態RAG的全面概述。Zhao et al.（2024a）專注于人工智能生成內容（AIGC）領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述，但它沒有覆蓋所有相關領域。此外，文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.（2023）研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作，但它獨立地介紹了檢索器和生成器，這不利于后續工作的組件升級和互動。Li et al.（2022b）專注于文本生成。文章中的圖表較少，內容更抽象，不利于讀者的理解。

關于NLP中的檢索增強方法，僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成（NLG）相關的任務需要檢索增強技術，自然語言理解（NLU）任務也需要外部信息。迄今為止，全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況，本文提出以下貢獻： (1) 本文不僅關注與RAG相關的工作，還重點強調了RALM，并與NLP的概念保持一致。與生成相關的工作與NLG對齊，而其余的工作與NLU對齊。 (2) RALM的兩個組成部分，檢索器和語言模型，都進行了詳細描述，這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述，總結了當前RALM的常見和新穎應用，并分析了相關限制。提出了這些限制的潛在解決方案，并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要：第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后，第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧，突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識，RALMs增強了語言模型，從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功，RALMs仍面臨幾個限制。值得注意的是，它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題，研究社區提出了幾種策略，例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來，RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合，這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs，從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進，它們有望賦予AI系統更深入的理解力和更接近人類的語言能力，從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

大語言模型 · 模型壓縮 · 高效推理 · 量化 · 剪枝 ·

2024 年 2 月 17 日

[付費5元查看完整內容]大型語言模型的模型壓縮與高效推理：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產生的顯著內存和計算成本，使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中，我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調整的算法。（2）大型模型強調的是通用性和泛化能力，而不是在單一任務上的性能。因此，許多算法，如知識蒸餾，關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。

大型語言模型（LLMs）已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比，LLMs（例如ChatGPT、LLaMA、Claude）對未見數據顯示出了更強的泛化能力。此外，它們甚至展現出了較小模型所不具備的能力（即，突現能力），如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而，在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如，一個帶有float32權重的10B模型消耗37GB內存，更不用說隨著序列長度增加，推理內存成本會以平方速度進一步增加。為了在資源受限的設備上，甚至是移動設備上部署模型，許多LLMs采用模型壓縮方法，如量化，以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的（甚至是預訓練的）模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本，以便模型可以在各種資源受限的設備上運行。從算法上講，常見的模型壓縮方法包括：

量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外，較少的位可能表示更高的并行性和更快的推理速度。
剪枝致力于移除預設計模型中不重要的組件（例如，神經元，層等），從而減少推理成本中的內存和計算成本。
知識蒸餾引入一個預訓練的大模型作為教師，并將其知識轉移到一個新的較小的模型上，后者稱為學生模型。然后，較小的模型將幾乎擁有與教師相同的能力，并享受較少的內存和計算成本。
緊湊架構設計設計新的運算符，以較低的成本替換（通常是近似）原始模型中的笨重運算符。對于Transformer模型，自注意力是主要目標，通常被其他運算符替換。
動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網，每個樣本只選擇超網的一個子結構進行推理。專家混合（MoE）是一種動態推理。此外，上述方法也可以組合使用，以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而，LLMs也為模型壓縮帶來了許多新的挑戰：

許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而，由于微調LLMs的巨大預算，研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務（如神經機器翻譯）不同，大型語言模型強調跨各種任務和未見數據的通用性和泛化能力，甚至是突現能力。因此，壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。面對這些挑戰，提出了許多專門針對LLMs的壓縮方法。在本文中，我們將對這些方法進行全面綜述。為了更好地展示這些方法，我們進一步將參數約為十億或更少的語言模型，如BERT、GPT2，稱為中等模型，盡管它們通常被視為大型語言模型。參數超過十億的模型，如LLaMA、Claude、ChatGPT等，保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小，即中等模型相對容易進行微調，展示較少的突現能力。結果，許多針對中等模型的壓縮方法仍與較小模型的方法相似。以下各節的組織如下：第2節將介紹一些初步知識。然后，我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值（在一個大的（通常是連續的）集合中）映射到輸出值（在一個小的（通常是有限的）集合中）的過程（例如，見圖2）。量化是減少內存成本和提高LLMs推理速度的最直接方法，特別是在支持低位數據類型（如INT4）快速操作的硬件上。值得注意的是，量化在神經網絡訓練和推理中都取得了令人印象深刻的成功，而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法（如剪枝和蒸餾）有幾個優勢。1）高壓縮比：將LLMs中的權重從32位浮點數量化為4位整數，可以將模型大小大幅壓縮至大約1/8，這對于內存受限的過程（如LLMs推理）至關重要。2）低成本：許多量化方法不需要重新訓練整個LLMs，使其對于計算資源有限的研究人員更加可行。3）高靈活性：量化與大多數其他壓縮方法兼容，為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法，我們首先在3.1小節介紹標準量化方法和一些基本概念。然后，在3.2節，我們將簡要總結LLMs出現之前一些針對中等大小語言模型（如BERT，GPT2等）的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難，我們根據技術是否需要重新訓練，將LLMs量化方法分為兩部分。不需要重新訓練的方法（即，訓練后量化，PTQ）在3.3節討論，而需要重新訓練的方法（即，量化感知訓練，QAT）在3.4節討論。最后，在3.5節，我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術，用于壓縮和加速神經網絡，剪枝通過消除模型中非必需的權重或結構，同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡（CNNs）中顯示出顯著結果，但與量化和蒸餾等其他壓縮技術相比，其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大，微調的高成本使得實現剪枝的全部效果變得更加困難。然而，剪枝是壓縮模型的關鍵技術，需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分，我們將在4.1節提供剪枝方法和基本概念的概覽。隨后，在4.2節，我們將詳細闡述為中等大小語言模型（即，參數達到數十億的模型）量身定制的剪枝技術，鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后，在4.4節，我們將介紹一些輔助技術，這些技術雖然不是剪枝方法，但與剪枝相關，用于改進LLMs的剪枝結果，并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾（KD）是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中，從而實現教師模型知識的更簡潔高效的表示。在5.1節中，我們將介紹知識蒸餾的一些基本概念，并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型（具有大約10億參數的語言模型）的各種知識蒸餾方法，并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后，我們將在5.3節提供大型語言模型（具有超過10億參數的語言模型）知識蒸餾的詳細概述，將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學，其目標是通過優化網絡結構和算法，在減少計算資源和內存使用的同時，實現模型效率的顯著提升。具體而言，它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分，并且對于大型和中等大小模型來說沒有區別，因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理（NLP）任務上性能的有效方法。然而，擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題，同時仍然利用規模增加的好處，動態神經網絡（DyNNs）只針對每個輸入處理網絡的一個子集，使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域，當前對DyNNs的研究主要包括以下三種方法：提前退出、級聯推理和專家混合（MoE）。提前退出旨在動態地在深度神經網絡（DNNs）的早期層次終止推理過程，從而減少計算成本并提高響應時間。直覺是，對于不太復雜的詞匯，往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器，這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型，如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統，以確定輸入查詢的處理策略，并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢，并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度，并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標，以決定是否利用更強大的LLMs。一般來說，這一系列工作最近才出現，并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比，MoE的研究有著橫跨多個機器學習領域（包括NLP）的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡（FFN），其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中，以提供高效而強大的服務。因此，在本節的剩余部分，我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念，接著是對將MoE整合到LLMs中的當代研究的廣泛綜述，包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧，這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起，突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展，出現了各種模型。由于不同的應用場景，它們在延遲、吞吐量、內存等方面有著額外的需求，這使得我們難以部署模型。在本節中，我們介紹了一些最近開發的針對LLM的推理加速框架，這些框架有效地提高了不同場景下模型的效率，如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357]，由于本文關注于推理，我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理，可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中，我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查，包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外，我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而，正如我們在引言中提到的，與較小模型相比，大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰，但許多算法仍然依賴于為壓縮小型模型而設計的框架，壓縮大型模型的挑戰依然存在。未來，需要進一步探索，以開發更高效、更有效的壓縮算法，同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

大型語言模型 ·

2024 年 2 月 8 日

[付費5元查看完整內容]更快更輕量的大型語言模型：當前挑戰及未來發展路徑綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管大型語言模型（LLMs）的表現令人印象深刻，但由于在推理過程中需要大量的計算和內存資源，它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽，強調了近期的發展。通過對LLaMA(/2)-7B的實驗，我們評估了各種壓縮技術，為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察，我們識別了當前的局限性，并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫，以復現本文中呈現的結果。

大型語言模型（LLMs）的出現，特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志，為與語言相關的任務開啟了新的革命，這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型，在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此，它們已成為各種應用中不可或缺的工具，推動了人工智能、信息檢索和人機交互等多個領域的發展。盡管LLMs的性能無與倫比，但它們廣泛應用受到了巨大的計算和內存需求的阻礙，這在資源受限的環境中部署它們時構成了挑戰。例如，加載一個LLaMa-70B模型需要140GB的VRAM，這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而，當前的改進往往伴隨著模型性能的顯著下降，需要確定新的研究方向來找到解決這一問題的理想解決方案。最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽，以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而，為了進一步推動研究前沿，朝著LLMs的實際推理改進方向努力，還缺少一項全面的研究。在本綜述論文中，我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法，我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法，包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解，以呈現高效LLMs的有用和實際理解。此外，我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難，并討論了克服這些問題的潛在研究方向。總的來說，本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述，強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充，系統級修改在加速LLM推理中發揮了重要作用，我們也討論了這些方法。

為了提供一個實踐視角，我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解，我們系統地指出了現有的局限性，并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

大型語言模型 · 可解釋性 ·

2024 年 1 月 24 日

[付費5元查看完整內容]大模型如何可解釋？帝國理工最新《大型語言模型的解釋性》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述論文深入探討了大型語言模型（LLM）的可解釋性領域，這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色，它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性，旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM，例如LLaMA（Touvron et al., 2023），它們由于規模和復雜性，呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法，并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法，強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁，為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域，大型語言模型（LLM）已成為一個基石，展現出在各種任務中的卓越能力。盡管它們效果顯著，LLM通常被視為“黑盒”系統，這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果，例如生成有害或誤導性內容（Gehman et al., 2020），以及模型幻覺的出現（Weidinger et al., 2021）。這些問題凸顯了增強解釋性的緊迫性，不僅是為了理解，更是為了負責任和倫理的應用。在LLM中，解釋性具有兩個關鍵功能。對于終端用戶，它通過以非技術方式闡明模型的推理過程，增強了對其能力和潛在缺陷的理解，從而培養信任（Zhao et al., 2023）。對于開發者和研究人員，它提供了對意外偏見和改進領域的洞察，作為提升模型在下游任務上性能的工具（Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b）。然而，LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法，如SHAP值（Lundberg and Lee, 2017），對于這些大規模模型變得不太實用（Zhao et al., 2023）。此外，全面理解LLM特有現象，包括在上下文中的學習（Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023），以及解決模型幻覺（Ji et al., 2023; Chuang et al., 2023）和固有偏見（dev, 2023; An and Rudinger, 2023; Schick et al., 2021）等問題，對于模型設計的持續改進至關重要。在這篇文獻綜述中，我們關注預訓練的基于Transformer的LLM的解釋性方法，這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展，并擁有數十億個參數，例如GPT-2（Radford et al., 2019）、GPT-J（Chen et al., 2021）、GPT-3（Brown et al., 2020）、OPT（Yordanov et al., 2022）和LLaMA系列（Touvron et al., 2023）。在第2節中，我們根據文獻綜述對研究問題進行分類。基于這種分類，在第3節中，我們回顧了解釋性方法，隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究，旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型（LLM）領域正在迅速發展，使得解釋性不僅成為理解這些復雜系統的工具，而且對它們的改進至關重要。本節對當前的解釋性方法進行分類，強調在倫理和可控生成方面的挑戰，并提出未來探索的研究問題。方法分類我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型（LM）解釋性方法的結構化分類。我們將這些方法分為兩大領域：局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析，深入探討模型的詳細操作。另一方面，全局分析包括基于探針的方法和機制性解釋性，提供對模型行為和能力的全面理解。除了理解之外，我們還探索這些洞察在增強LLM能力方面的應用，重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測，例如情感分類或令牌預測。本節將局部解釋方法分為兩類：特征歸因分析和對單個Transformer（Vaswani et al., 2017）組件的分析。

3.2 全局分析與側重于闡明單個模型預測的局部分析不同，全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法：審視模型表示的探針方法和機制性解釋性（Transformer Circuits, 2022），這是一種新興的觀點，旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中，我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力，但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型（LLM），但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來，編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下，高效地修改LLM在特定領域內的知識或行為（Yao et al., 2023）。

4.2 增強模型能力

雖然大型語言模型（LLM）在各種自然語言處理任務中表現出多樣性，但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務：改進長文本的利用（Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022）和增強上下文中學習（In-Context Learning, ICL）的性能（Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023）。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現，但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會，這些技術旨在提高生成模型的事實性、校準性和可控性，使其更符合人類偏好。

5 評估

近期，像GPT-4（OpenAI, 2023）這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而，這些解釋是否真正幫助人類理解模型的推理過程，目前尚不明確（Zhao et al., 2023）。為了更好地評估解釋性方法（如歸因）的性能，需要專門設計的評估方法。此外，還需要校準的數據集和指標來評估解釋性在下游任務中的應用，例如真實性評估。 5.1 評估解釋的合理性評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌，以觀察其對模型輸出的影響（Chen et al., 2020; Modarressi et al., 2023）。另一種評估解釋合理性的方法涉及間接方法，例如衡量模型編輯的性能，尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究（Yao et al., 2023; Zhao et al., 2023）表明，擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE（Levy et al., 2017），一個通過反向翻譯生成問題改寫的問答（QA）數據集，以及CounterFact（Meng et al., 2023a），一個更具挑戰性的數據集，包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下，人類評注員會根據標準答案標記模型答案為真或假，但這通常成本較高。（Lin et al., 2022）提出使用兩個微調過的GPT-3-13B模型（GPT-judge）對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法，這是一個廣泛使用的數據集，對抗性構建以衡量語言模型在生成答案時的真實性（Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023）。TruthfulQA的主要指標是真實*信息量，真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答，還通過評估每個答案的信息量，防止模型無差別地回復“我無可奉告”。

6 結論

在本文中，我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外，我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法，以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步，可解釋性將變得極其重要，以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述，并突出了未來研究的開放問題和方向。

付費5元查看完整內容

大型語言模型 · 自然語言生成 · 大模型 · 綜述 ·

2024 年 1 月 20 日

[付費5元查看完整內容]《大型語言模型自然語言生成評估》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在快速發展的自然語言生成（NLG）評估領域中，引入大型語言模型（LLMs）為評估生成內容質量開辟了新途徑，例如，連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽，這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標，提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論，以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰，包括偏見、穩健性、領域特定性和統一評估，本綜述旨在為研究人員提供洞見，并倡導更公平、更先進的NLG評估技術。

自然語言生成（NLG）處于現代AI驅動通信的前沿，近期在大型語言模型（LLMs）方面的進展徹底改變了NLG系統的能力（Ouyang et al., 2022; OpenAI, 2023）。這些模型，依靠深度學習技術和大量的訓練數據，展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展，建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標，如BLEU（Papineni et al., 2002）、ROUGE（Lin, 2004）和TER（Snover et al., 2006），主要關注表面層面的文本差異，通常在評估語義方面存在不足（Freitag et al., 2020）。這一局限性已被指出阻礙了研究進展，并可能導致誤導性的研究結論。此外，其他使用神經嵌入來計算分數的方法（Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020），盡管在評估諸如語義等價性和流暢性方面有所考慮，但它們的靈活性有限，適用范圍受限（Freitag et al., 2021a）。此外，這些傳統方法與人類判斷的一致性較低（Liu et al., 2023c），且對分數的解釋性不足（Xu et al., 2023）。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型（LLMs）涌現的能力為基于LLM的NLG評估提供了有前景的途徑，例如Chain-of-Thought（CoT）（Wei et al., 2022b）、零次學習指令跟隨（Wei et al., 2022a）、更好地與人類偏好相一致（Ouyang et al., 2022）等。這些特性使LLMs成為評估NLG輸出的有力工具，與傳統方法相比提供了更為復雜和更好地與人類一致的評估（Liu et al., 2023c；Kocmi and Federmann, 2023；Fu et al., 2023）。例如，LLMs可以生成合理的解釋來支持最終評分（Xu et al., 2023），而利用人類反饋的強化學習（RLHF）可以使LLMs的偏好更好地與人類一致（Ouyang et al., 2022；Zheng et al., 2023）。如圖1所示，這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本，無論是否有參考資料和來源。然而，眾多基于LLM的NLG評估方法，針對不同的任務和目標，缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加，迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述，呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論，并深入分析了這些方法的各種優點、局限性和獨特屬性。此外，我們探索了該領域內尚未解決的挑戰和開放性問題，從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織：我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先，我們建立了NLG評估的正式框架，并提出了一個分類體系來分類相關工作（第2節）。隨后，我們深入并詳細闡述這些工作（第3節）。此外，我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧（第4節）。鑒于這一領域的快速發展，我們確定并討論了一些可能指導未來研究的潛在開放問題（第5節）。在結束這一系統綜述時，我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外，我們強調整合其他評估方法，如人類判斷，以實現更全面和多面的評估框架。

在大型語言模型（LLMs）迅速發展的背景下，越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力，導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估，其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面，基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議，用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數，代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本（可選）的生成文本的生成概率作為評估指標，稱為? 基于概率的評估。在多樣化的領域中，某些工作將NLG評估轉化為分類任務，使用類似李克特量表的多級別對文本質量進行分類。在這種情況下，LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時，? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外，? 組合評估方法利用多個不同LLMs或提示的LLM評估者，協調評估者之間的溝通以產生最終評估結果。最后，一些最新的研究探索了? 高級評估方法（考慮細粒度標準或結合連續思考或上下文學習的能力），旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法，每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面，以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時，眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋，以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務，這些基準可以被分類為單一場景示例，如機器翻譯和摘要，以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中，我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類：評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法，審視它們的優勢并比較它們的差異。此外，我們總結了NLG評估的普遍元評估基準。

在我們的研究中，我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力，但仍有一些未解決的問題需要關注，包括偏見、穩健性、混合評估方法的整合，以及LLM評估者內部對特定領域和統一評估的需求。我們預計，解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

Text2SQL · 大型語言模型 · 自然語言接口 · 結構化查詢 ·

2023 年 10 月 30 日

[付費5元查看完整內容]Text2SQL 針對表格數據的自然語言接口查詢與可視化：一項綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Text to SQL( 以下簡稱Text2SQL)，是將自然語言文本（Text）轉換成結構化查詢語言SQL的過程，屬于自然語言處理-語義分析（Semantic Parsing）領域中的子任務。在大模型時代怎么做？這篇綜述調研了最新進展。

自然語言處理的出現徹底改變了用戶與表格數據的交互方式，實現了從傳統查詢語言和手動繪圖到更直觀的基于語言的接口的轉變。大型語言模型（LLMs），如ChatGPT及其后繼者的崛起，進一步推進了這一領域，為自然語言處理技術開辟了新的途徑。這份綜述為我們提供了關于表格數據的自然語言接口查詢與可視化的全面概覽，它允許用戶使用自然語言查詢與數據進行交互。我們介紹了這些接口背后的基本概念和技術，特別強調了語義解析，這是從自然語言到SQL查詢或數據可視化命令的關鍵技術。接下來，我們深入探討了從數據集、方法、指標和系統設計的角度看Text-to-SQL和Text-to-Vis問題的最新進展。這包括對LLMs的影響的深入分析，強調它們的優勢、局限性和未來改進的潛力。通過這份綜述，我們希望為那些對在大型語言模型時代的數據交互感興趣的研究者和從業者提供一個發展與應用自然語言接口的路線圖。

表格數據或結構化數據在今天的數字時代構成了許多領域的基石，包括商業、醫療健康和科學研究[57]，[81]。然而，有效且高效地與大量的結構化數據互動以提取有價值的見解仍然是一個關鍵挑戰。傳統的交互方法，如使用結構化查詢語言進行查詢或手動繪制可視化，通常需要相當高的技術專長，從而限制了它們對更廣泛用戶群的可訪問性[2]。

隨著自然語言處理技術的出現，我們與結構化數據的交互方式開始發生變化。這些技術促進了自然語言接口的開發，使表格數據查詢和可視化變得更加直觀和易于訪問。通過這些接口，用戶可以使用自然語言查詢和命令從數據庫中提取信息或生成數據的視覺表示[47]，[93]。這種轉向基于語言的接口的變化標志著簡化數據交互的重大進步，使其更加用戶友好，對非技術用戶更加可訪問。

支撐這些基于語言的接口的基礎技術根植于語義解析任務，它將自然語言查詢轉化為為在結構化數據庫上執行而定制的正式表示形式[50]。盡管為此目的已經引入了各種正式語言和功能表示，例如Prolog、Datalog和FunQL，但在表格數據交互中，有兩種尤為主導：用于數據查詢的SQL和用于數據可視化的可視化規范。SQL已經成為查詢關系數據庫的事實標準，提供了全面的操作來檢索和操作數據。可視化規范提供了一種結構化的方式來表示復雜的可視化，使其成為數據可視化過程的一個組成部分。考慮到它們的重要性和廣泛的使用，這次綜述將主要關注這兩種表示，深入探討將自然語言轉化為SQL和可視化規范的任務的挑戰和進展。在這種情境下，Text-to-SQL任務[133]充當將用戶查詢轉化為SQL指令的橋梁，而Text-to-Vis任務[71]則促進了從用戶可視化請求到可視化規范的轉化。

這兩個語義解析任務的發展多年來已經發生了顯著的演變，受到機器學習和自然語言處理技術的推動。早期的方法通常依賴于基于規則或基于模板[1]，[50]的系統和淺層解析技術。然而，這些方法在處理復雜的查詢和可視化方面都存在困難，并對用戶輸入的特定措辭敏感。引入神經網絡和深度學習方法帶來了性能的重大飛躍。這些方法，通常基于序列到序列的模型[53]，能夠捕獲數據中更復雜的模式，并對輸入的變化更加穩健。然而，它們仍然需要大量的訓練數據，并且在處理領域外的查詢時會遇到困難。像BERT[16]、T5[85]、GPT[79]這樣的預訓練語言模型(PLMs)的崛起標志著該領域的一個轉折點。憑借其在大量文本數據上進行預訓練的能力，PLMs在包括Text-to-SQL和Text-to-Vis在內的一系列自然語言處理任務中都取得了顯著的成功。最近，像ChatGPT這樣的大型語言模型(LLMs)的出現以及提示工程技術的探索為開發更有效且用戶友好的自然語言數據交互接口打開了新的途徑。

對于表格數據查詢和可視化的自然語言界面的跨學科研究融合了多個研究方面，如自然語言處理和數據挖掘，進展經常沿著多樣且不同的軌跡進行。盡管其重要性逐漸增加，但尚未有單一的研究全面回顧了查詢和可視化任務的語義解析問題的系統和統一方式。隨著這個領域的不斷發展和增長，有越來越大的需求來組織研究景觀，分類當前的工作，并識別知識空白。雖然之前已經有一些努力總結了這個領域的進展，但它們主要關注了查詢和可視化的早期方法以及后續的深度學習發展[1]、[14]、[47]、[53]、[93]，但并沒有提供這些相互關聯領域的綜合視圖。此外，據我們所知，沒有現有的調查涵蓋了大型語言模型（LLMs）在這些領域的最近進展。像ChatGPT及其后續版本等LLMs的深遠影響在數據查詢和可視化的自然語言界面上是一個迅速增長的領域，需要更多的關注和探索。本次調查旨在通過提供表格數據查詢和可視化的自然語言界面的詳細概述來填補這些空白。我們從過去二十年的關鍵期刊和會議中收集參考文獻，涵蓋了自然語言處理、人機交互、數據挖掘和可視化。我們的搜索受到諸如“自然語言界面”、“可視化”和“文本到SQL”等術語的指引，我們還探討了被引用的出版物以捕獲基礎性的貢獻。我們旨在解決一系列關鍵的研究問題，可以指導我們對表格數據和可視化的自然語言界面的理解：

**? 自然語言界面隨著時間的推移是如何發展的？ **

**? 最近的進展，特別是LLMs，是如何影響這個領域的？ **

**? 現有方法的固有優點和缺點是什么？ **

通過這次綜素，我們希望通過廣泛的文獻綜述和分析為這些問題提供有見地的答案。我們將深入研究功能表示、數據集、評估指標和系統架構，特別強調LLMs的影響。我們的目標是呈現一個關于現有技術狀態的清晰簡潔的概述，強調現有方法的優點和局限性，同時探索未來增強的可能途徑。

表格數據查詢和可視化的自然語言界面包括多種組件，每個組件在技術框架中都起到關鍵作用，如圖3所示。

? 數據集。數據集在訓練和評估這些界面的性能中起到至關重要的作用。數據集可以是單輪的，即提出一個沒有任何先前上下文的查詢，或者是多輪的，其中一系列查詢以會話方式提出。還有各種類型的數據集旨在評估系統的不同方面，如處理復雜查詢、領域外查詢的能力等。 ? 方法。構建自然語言界面的方法隨著時間的推移而演變。早期的方法是基于規則的，使用預定義的規則將自然語言查詢轉化為功能表示。隨著神經網絡的出現，序列到序列模型變得受歡迎，提供了更多的靈活性來處理各種查詢。像BERT[16]和GPT[79]這樣的預訓練語言模型的崛起標志著這個領域的重大進展。最近，像ChatGPT這樣的大型語言模型的出現，以及對提示工程技術的探索，為開發更有效的數據交互自然語言界面打開了新的途徑。 ?** 評估指標**。評估指標用于衡量這些界面的性能。這些可以是基于字符串的，將生成的功能表示與基準真相進行比較，或基于執行的，將在數據庫上執行生成的表示的結果與預期結果進行比較。有時也使用手動評估來評估像系統的可用性這樣的方面。 ? 系統設計。系統架構是自然語言界面的關鍵組成部分，涉及將用戶查詢轉化為可操作輸出的基礎機制。從基于規則到端到端的設計范式提供了各種解決方案和權衡，就靈活性、可解釋性和準確性而言。這些組件中的每一個都為表格數據查詢和可視化的自然語言界面的有效性和可用性作出貢獻。

本綜述的后續部分將更詳細地深入這些組件，討論它們的角色，使用的各種方法和技術以及每個領域的最新進展。

**結論 **

在這次綜述中，我們深入探討了表格數據查詢和可視化的自然語言界面，深入了解這一領域的復雜性、其演變和它所解決的挑戰。我們從基礎問題定義追蹤到最新的方法。我們強調了推動這些界面的多樣數據集的重要性，并討論了衡量其效果的指標。通過探索系統架構，我們檢查了不同系統設計的差異。最后，我們的目光轉向未來，指向大型語言模型時代的有前途的研究方向。隨著這個動態領域的演變，我們的探索為其當前的狀態、挑戰和潛力提供了一個簡潔的快照。

付費5元查看完整內容

大型語言模型 · 軟件過程 ·

2023 年 10 月 6 日

[付費5元查看完整內容]大型語言模型在軟件工程：調查與待解決的問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提供了一個關于大型語言模型（LLMs）在軟件工程（SE）中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力，其應用覆蓋了軟件工程活動的全譜，包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而，這些同樣的新興屬性也帶來了重大的技術挑戰；我們需要能夠可靠地剔除錯誤的解決方案，如幻覺。我們的調查揭示了混合技術（傳統的SE與LLMs相結合）在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果；即大型語言模型（LLMs）在軟件工程（SE）應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會，我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的，但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中，但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是，我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接（和共鳴）。盡管總的來說，我們找到了很多樂觀的理由，但仍然存在重要的技術挑戰，這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出，LLMs普遍存在幻覺問題[1]，而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣，幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下，這意味著創造的工程制品可能是錯誤的，但看起來是合理的；LLMs可能引入錯誤。然而，與LLMs的許多其他應用不同，軟件工程師通常有可自動化的真實依據（軟件執行），大部分軟件工程制品都可以基于此進行評估。此外，軟件工程研究社區已經花了很多時間開發自動化和半自動化技術，以檢查人類可能產生的錯誤結果。這意味著，對于這個學科和研究社區，當面對像幻覺這樣的問題所帶來的挑戰時，有大量的經驗和專業知識可以借鑒。

顯然，自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用，就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時，由于缺乏可自動化的oracle [6]（一種自動技術，用于確定給定輸入刺激的輸出行為是否正確），自動測試數據生成受到限制。考慮到LLMs的幻覺傾向，Oracle問題仍然非常相關，對它的解決方案將變得更加有影響力。但是，一些SE應用關心現有軟件系統的適應、改進和開發，對于這些應用，有一個現成的可自動化的oracle：原始系統的功能行為。在本文中，我們稱其為“自動回歸Oracle”，這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考，以對任何后續的適應和更改的輸出進行基準測試。當然，有“烘焙”功能錯誤的風險，因為自動回歸Oracle無法檢測系統應該做什么，只能捕捉它當前做什么。因此，自動回歸Oracle只能測試功能退化，所以它最適合于需要保持現有功能的用例。例如，對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點，我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中，我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼，還可以包括其他軟件工程制品，如需求、測試用例、設計圖和文檔。總的來說，LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出，但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求，不僅要優化prompt工程（專注于LLM的輸入），還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的：相同的prompt在不同的推斷執行中產生不同的答案（除非溫度設為零，這在多次執行中經常被發現是次優的）[9]。此外，無論溫度設置如何，prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理，這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰：如果每次我們運行整個工程過程時結果都會變化，我們如何確定所提議的技術是否超越了現有的技術？這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是，SBSE與基于LLM的軟件工程有很多相似之處，在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此，已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如，參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文，我們過濾了出版物，將其細分為以下子類別：人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選（我們手動排除了重載縮寫，例如將GPT誤認為是通用規劃工具），結果是L列。最后，我們使用相同的查詢來識別基于LLM的軟件工程論文，這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的，因此我們只局限于基于總體趨勢得出的結論，而這些總體趨勢有強有力的證據支持，而不是觀察到的數字的具體細節。盡管如此，我們報告了觀察到的原始數字，以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量（|A|，以藍色表示）和LLM相關論文的數量（|L|，以橙色表示）的增長。特別是與軟件工程和LLM相關的論文以綠色表示（|L ∩ S|）。考慮到總體發表量的快速增長，我們為縱軸使用了對數刻度。不出所料，我們看到了計算機科學出版物數量的整體增長。同時，鑒于LLM最近受到的關注增多，LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納，如圖中的綠色所示。為了更詳細地檢查這一趨勢，我們在圖3中畫出了LLM出版物（L）與所有計算機科學出版物（A）的比例（以藍色表示），以及基于LLM的軟件工程出版物（L ∩ S）與所有LLM出版物的比例（以橙色表示）。如圖所示，自2019年以來，基于LLM的軟件工程論文的比例已經急劇上升。目前，所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長，我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制，但我們可以預期會有許多關于感興趣的子領域的全面調查，以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧（SLRs）。例如，Hou等人[14]提供了一個出色的最新SLR，涵蓋了2017年至2023年的229篇研究論文，報告了所處理的軟件工程任務、數據收集和預處理技術，以及優化LLM性能的策略（例如提示工程）。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大模型 · 可解釋性 · 大型語言模型 ·

2023 年 9 月 11 日

[付費5元查看完整內容]大模型如何可解釋？新澤西理工學院等最新《大型語言模型可解釋性》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理方面展示了令人印象深刻的能力。然而，它們的內部機制仍然不清楚，這種不透明性對下游應用帶來了不希望的風險。因此，理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中，我們引入了可解釋性技術的分類體系，并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類：傳統的微調范式和基于提示的范式。對于每個范式，我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準，并討論了如何利用解釋來調試模型和提高性能。最后，我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型（LLMs），如BERT（Devlin等，2019a）、GPT-3（Brown等，2020）、GPT-4（Bubeck等，2023）、LLaMA-2（Touvron等，2023b）和Claude（AnthropicAI，2023），在各種自然語言處理（NLP）任務中展示出了令人印象深刻的性能。主要科技公司，如微軟、谷歌和百度，已在其商業產品和服務中部署了LLMs以增強功能。例如，微軟利用GPT-3.5來改善新Bing的搜索相關性排名（Mehdi，2023）。由于LLMs通常是復雜的“黑盒子”系統，其內部工作機制是不透明的，高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生（Weidinger等，2021）。因此，開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力（Doshi-Velez和Kim，2017；Du等，2019a）。提高LLMs的可解釋性至關重要，有兩個關鍵原因。首先，對于一般終端用戶，可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任，無需技術專業知識。通過這種方式，終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次，對于研究人員和開發人員，解釋模型行為提供了洞察力，以識別意外偏見、風險和性能改進的領域。換句話說，可解釋性充當了一個調試輔助工具，可以快速提高下游任務上的模型性能（Strobelt等，2018；Bastings等，2022；Yuksekgonul等，2023）。它有助于追蹤模型能力隨時間的變化，進行不同模型之間的比較，并開發可靠、道德和安全的模型，以供實際部署使用。 由于LLMs的獨特屬性，其可解釋性技術與傳統機器學習（ML）模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看，ML模型以監督方式依賴人工構建的特征，而LLMs旨在自動從原始輸入數據中學習特征（Chai和Li，2019）。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看，傳統ML模型通常是針對具體任務設計的，具有不同的模型架構（Liu和Sun，2023）。相比之下，經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務（Yang等，2023）。此外，LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性（Hu，2020）。由于注意力權重中編碼的知識和模式可能提示了模型的理解，注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外，由于LLMs的性能更好，還應進一步研究transformer的組件，包括神經元、層和模塊，學到了什么以及它們是否有不同的功能。從應用的角度來看，傳統ML模型專注于低級模式識別任務，如解析和形態分析，而LLMs可以處理高級推理任務，如回答問題和常識推理（Lauriola等，2022）。特別是，理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs，有必要回顧和總結專為LLMs定制的解釋技術。 在本文中，我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中，我們介紹了應用LLMs的兩個主要范式：1）傳統的下游微調范式和2）提示范式。基于這一分類，我們在第3節中回顧了適用于微調LLMs的解釋方法，并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中，我們討論了解釋方法的評估。最后，在第6節中，我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰，并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式，傳統微調和提示，根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別，因此分別提出了各種類型的解釋（如圖1所示）。 傳統微調范式

在這個范式中，首先對語言模型進行了大規模無標簽文本數據的預訓練，然后在特定下游領域的一組標記數據上進行微調，例如GLUE基準測試中的SST-2、MNLI和QQP（Wang等人，2019）。在微調過程中，很容易在語言模型的最終編碼器層上方添加完全連接的層，使其適應各種下游任務（Rogers等人，2021）。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如，包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。對于這個范式的解釋重點在于兩個關鍵領域：1）理解自監督預訓練如何使模型獲得語言的基礎理解（例如句法、語義和上下文關系）；以及2）分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示，例如自然語言句子中的空白，以便模型填充，實現零樣本學習或少樣本學習，而無需額外的訓練數據。根據其開發階段，這個范式下的模型可以分為兩種類型：基礎模型：隨著LLMs的規模和訓練數據的增加，它們展示了令人印象深刻的新能力，無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型（擁有數十億參數）（例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023））。這些模型被稱為基礎模型或基礎模型，它們可以與用戶進行對話，無需進一步與人類喜好對齊。大規模模型通常適用于這種范式，規模超過10億。例如，LLaMA-2（Touvron等人，2023b）擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型：基礎模型存在兩個主要限制：1）它們不能按照用戶的指令進行操作，因為預訓練數據包含少量指令-響應示例，2）它們傾向于生成有偏見和有毒的內容（Carlini等人，2023）。為了解決這些限制，基礎模型通過監督微調進一步進行微調（見圖2），以實現人類級別的能力，例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過（提示，響應）演示對和來自人類反饋的強化學習（RLHF）進行指導調整。模型通過自然語言反饋進行訓練，以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023）以及一些開源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中，我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先，我們介紹了提供局部解釋（第3.1節）和全局解釋（第3.2節）的方法。在這里，局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解，而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來，我們討論了如何利用解釋來調試和改進模型（第3.3節）。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景，我們有一個語言模型，并將特定文本輸入模型。模型隨后產生分類輸出，例如情感分類或下一個標記的預測。在這種情景下，解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測，我們將其稱為局部解釋。這個類別包括四個主要方法流，包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋，全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件（神經元、隱藏層和較大模塊）編碼了什么，以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法：探測方法，用于分析模型表示和參數；神經元激活分析，用于確定模型對輸入的響應性；以及基于概念的方法。

**提示范式的解釋 **

在本節中，我們介紹了解釋屬于提示范式的模型的技術，包括1）解釋基礎模型，如LLaMA-2（第4.1節），2）解釋助手模型，如LLaMA-2-Chat（第4.2節），以及3）如何利用LLMs的推理和解釋能力生成用戶友好的解釋（第4.3節）。

基礎模型解釋

隨著語言模型的規模增大，它們展示出了新的能力，如少樣本學習，即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈（CoT）提示能力。鑒于這些新興屬性，解釋性研究有三個主要目標：1）研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務，2）理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務，從而幫助終端用戶解釋模型的推理，以及3）解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調，屬于這一范式的LLMs具有強大的推理能力。然而，它們的巨大規模也使它們容易生成問題輸出，如幻覺。解釋性研究旨在：1）闡明對齊微調的作用，2）分析幻覺產生的原因。

結論

在本文中，我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性，以及提高人類可解釋性。隨著LLMs的不斷進步，可解釋性將變得極其重要，以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織，同時突顯了未來工作的開放性問題。

付費5元查看完整內容