99欧美日韩精品一区二区红桃,欧美成人性色XXⅩXXA片在线

大規模語言模型（LLM）的個性化近年來變得越來越重要，擁有廣泛的應用前景。盡管這一領域重要且取得了進展，大多數現有的個性化 LLM 研究主要集中于 (a) 個性化文本生成，或 (b) 利用 LLM 用于與個性化相關的下游應用（如推薦系統）。在本研究中，我們首次彌合了這兩大研究方向之間的差距，通過引入個性化 LLM 使用的分類體系，概述了關鍵差異與挑戰。我們正式化了個性化 LLM 的基礎，整合并拓展了 LLM 個性化的概念，定義并討論了個性化、使用方法和個性化 LLM 的理想特性等新穎方面。接著，我們通過提出系統的分類方法，將這些多樣化的研究領域和使用場景統一起來，包括個性化的粒度、個性化技術、數據集、評估方法和個性化 LLM 的應用。最后，我們指出了尚需解決的挑戰和重要的開放性問題。通過使用所提出的分類體系統一并綜述近期研究，我們旨在為現有文獻和 LLM 個性化的不同方面提供清晰的指導，助力研究人員和實踐者。

1 引言

大規模語言模型（LLM）已成為能夠執行廣泛自然語言處理（NLP）任務的強大工具，并展現了出色的能力（例如，Radford 等，2018；Devlin 等，2019；Lewis 等，2019；Radford 等，2019；Brown 等，2020；Raffel 等，2020；Achiam 等，2023；Touvron 等，2023；Groeneveld 等，2024）。實證上，這些模型已展示出作為通用模型的能力，使其能夠準確地完成諸如文本生成、翻譯、摘要和問答等多種任務。值得注意的是，LLM 在零樣本或少樣本環境中也能有效工作，即使沒有任務特定的訓練數據，它們也能夠理解并執行復雜的指令（Bommasani 等，2021；Liu 等，2023c）。這一能力消除了對模型參數進行廣泛微調的需求，使人與機器的交互通過簡單的輸入提示大大簡化。例如，用戶可以以對話形式與 LLM 互動，使交互更加直觀易用。LLM 的這種強大且多才多藝的能力已催生了諸多應用，包括通用人工智能助手（AutoGPT，2024）、協同工具（微軟，2024）以及基于個人的 LLM 代理（Li 等，2024f）。這些應用可以幫助用戶執行寫郵件、生成代碼、撰寫報告等各種任務。

最近，人們越來越關注將 LLM 適應用戶特定的上下文，以超越其作為 NLP 任務解決方案或通用聊天機器人的自然用途（Tseng 等，2024）。LLM 個性化正是為此而生，通過適應模型生成符合每位用戶或用戶群獨特需求和偏好的響應。這種個性化對于人機交互和用戶導向的應用至關重要。通過提供更相關和有意義的互動內容，個性化預計能提升用戶滿意度，確保用戶收到更符合其需求和期望的響應。這樣一來，LLM 可以在客戶支持（亞馬遜，2024）、教育（Wang 等，2022；2024b）和醫療（Tang 等，2023；Yuan 等，2023）等廣泛應用中提供更有效的支持，其中個性化響應可以顯著改善用戶體驗；在教育領域，定制內容可以更好地滿足個體學習需求；在醫療領域，個性化建議可以提高患者護理質量。

LLM 的個性化近來獲得了大量關注（Salemi 等，2023；Tseng 等，2024）。然而，現有的個性化 LLM 研究通常分為兩個類別：(a) 個性化文本生成，主要關注在個性化上下文中生成單輪或多輪文本，以及 (b) 在下游個性化任務（如推薦系統）中應用 LLM。這兩個領域的大量研究往往獨立發展，缺乏一個統一的視角。此外，現有綜述（Chen，2023；Chen 等，2024b；2024c）通常僅聚焦于其中一個方面，缺乏系統定義關鍵組成部分并整合兩個個性化 LLM 維度洞見的綜合視角。盡管這兩個領域在特征和目標上有所不同，但統一的視角對于彌合這些研究社區之間的差距至關重要，以促進協作和知識共享，從而開發出更具通用性和多功能性的系統。例如，用戶特定文本生成的進展可以通過對話互動為推薦系統提供更個性化和可解釋的建議。通過整合這兩個領域的洞見，研究人員可以開發不僅能夠生成符合個體偏好的文本，還能在各種應用中提升用戶滿意度的 LLM。此跨學科方法可促進更全面的解決方案，以互補方式兼顧個性化和性能。在本研究中，我們通過為個性化 LLM 的個性化粒度、技術、評估、數據集和使用場景提出直觀的分類體系，統一了來自不同領域的文獻。本文的關鍵貢獻如下：

個性化 LLM 使用的統一視角與分類體系（第二節）。我們基于生成文本是直接用于評估還是間接用于其他下游應用，提供了個性化 LLM 使用的統一視角與分類體系。這為理解和統一專注于 LLM 個性化的兩個獨立領域奠定了基礎。我們進一步分析了每種方法的局限性，包括特征、評估和數據集等因素。
個性化 LLM 的形式化（第三節）。我們通過確立基礎概念，對個性化 LLM 進行了形式化，整合了現有的個性化概念，定義并討論了個性化的新方面，并概述了它們在各種使用場景中的理想特性。
LLM 個性化粒度的分析和分類體系（第四節）。我們提出了 LLM 個性化的三個不同粒度層次，包括 (i) 用戶級個性化，(ii) 角色級個性化，以及 (iii) 全局偏好個性化。我們形式化了這些層次，并討論了各粒度之間的權衡。值得注意的是，用戶級個性化是最細的粒度，但需要足夠的用戶級數據。相比之下，角色級個性化將用戶分組為角色，并根據角色分配來定制體驗；雖然不及用戶級個性化細致，但對于數據有限的用戶來說是一種有效的個性化方式。最后，全局偏好個性化針對大眾的整體偏好，不提供用戶特定的個性化。
LLM 個性化技術的調查與分類體系（第五節）。我們根據用戶信息的使用方式，對現有個性化 LLM 技術進行了分類并提供了全面的概述。分類涵蓋了各種方法，如檢索增強生成（RAG）、提示工程、監督微調、嵌入學習和基于人類反饋的強化學習（RLHF）。對于每種方法，我們討論了其特點、應用以及相關權衡。詳細分析有助于理解不同個性化技術的優缺點及其在不同任務中的適用性。
個性化 LLM 評估指標的調查與分類體系（第六節）。我們對個性化 LLM 評估中使用的現有指標進行了分類和分析，提出了一種新的分類體系，以區分直接和間接的評估方法。我們強調了定性和定量指標的重要性，涵蓋用戶滿意度、生成文本的相關性和連貫性等方面。此外，我們討論了個性化 LLM 評估中的挑戰，并提出了改善評估過程穩健性和可靠性的潛在解決方案。
個性化 LLM 數據集的調查與分類體系（第七節）。我們對用于訓練和評估個性化 LLM 的數據集進行了全面分類，基于其在直接或間接個性化文本生成評估中的用途。綜述涵蓋了廣泛的數據集，包括專門設計用于短文本和長文本生成、推薦系統、分類任務和對話生成的數據集。我們討論了每個數據集的優缺點、與不同個性化技術的相關性，以及為了推進該領域而需要更具多樣性和代表性的數據集。
個性化 LLM 的應用調查（第八節）。我們調查了個性化 LLM 應用的關鍵領域，包括教育和醫療、金融、法律、編程環境中的人工智能助手。我們還探索了其在推薦系統和搜索引擎中的應用，突顯個性化 LLM 提供定制用戶體驗、增強參與度并改善特定任務效果的能力。
未來工作的重要開放性問題和挑戰概述（第九節）。我們列出了個性化 LLM 中需要解決的關鍵挑戰和開放性研究問題，以推動該領域的發展。核心問題包括需要改進基準和指標以有效評估個性化，解決在用戶數據稀少時適應模型的冷啟動問題，以及解決可能在個性化輸出中出現的刻板印象和偏見問題。還探討了用戶數據隱私保護與個性化之間的平衡。此外，我們討論了將個性化擴展到多模態系統的獨特復雜性，其中跨越多種輸入類型整合用戶偏好仍是一個未解決的挑戰。

在本文的剩余部分，我們首先提出個性化 LLM 使用的統一視角和分類體系（第二節），然后深入探討個性化 LLM 的理論基礎（第三節）。接著，探討 LLM 個性化的粒度（第四節），并對個性化 LLM 技術進行全面的綜述與分類（第五節）。然后，我們對個性化 LLM 的評估指標和方法進行分類（第六節），并對個性化 LLM 的數據集進行詳細的分類（第七節）

個性化 LLM 的基礎

盡管先前的研究（Yang & Flek，2021；Chen 等，2024c；b）探討了個性化 LLM 的定義并分析了其各個方面，但仍缺乏一個全面的理論框架來理解和形式化這些模型中的個性化。在本節中，我們旨在填補這一空白，通過建立基礎原則、定義和形式結構來形式化 LLM 中的個性化問題。我們系統地發展必要的符號和概念框架，以形式化該問題和評估，為深入理解個性化如何在 LLM 中有效實施和分析奠定基礎。以下小節結構如下： §LLM 的一般原則：我們首先概述構成 LLM 基礎的核心原則。這為理解這些模型的功能及其能力驅動的基本機制提供了重要背景。 §LLM 中個性化的定義：我們在 LLM 的特定上下文中定義“個性化”這一術語，為后續討論奠定明確的理解基礎。 §個性化數據概述：我們提供當前用于個性化的數據概述，強調數據源的不同格式。 §個性化生成的形式化：我們形式化個性化生成的概念空間，為理解如何實現個性化提供結構化框架。 §個性化標準的分類體系：我們引入一個全面的個性化標準分類體系，分類影響個性化輸出的各種因素。

付費5元查看完整內容

VLN任務定義

一個典型的視覺與語言導航（VLN）代理在指定位置接收來自人類指令者的（一系列）語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令，代理的任務是在一系列離散視圖或較低級別的動作和控制（例如，前進0.25米）上生成軌跡，以到達目的地。如果代理到達距離目的地指定距離（例如3米）以內的位置，則任務被認為成功。此外，代理可以在導航過程中與指令者交換信息，可以請求幫助或進行自由形式的語言交流。此外，人們對VLN代理集成額外任務（如操作任務（Shridhar et al., 2020）和物體檢測（Qi et al., 2020b））的期望也在不斷增加。

基準測試

如表1所示，現有的VLN基準測試可以根據幾個關鍵方面進行分類：（1）導航發生的世界，包括領域（室內或室外）和環境的具體情況。（2）涉及的人機交互類型，包括交互回合（單次或多次）、通信格式（自由對話、限制對話或多重指令）和語言粒度（動作導向或目標導向）。（3）VLN代理，包括其類型（如家庭機器人、自動駕駛車輛或自主飛行器）、動作空間（基于圖形、離散或連續）和額外任務（操作和物體檢測）。（4）數據集的收集，包括文本收集方法（人類生成或模板化）和路徑演示（人類執行或規劃生成）。有代表性的是，Anderson等人（2018）基于Matterport3D模擬器（Chang et al., 2017）創建了Room-to-Room（R2R）數據集，代理需要遵循精細的導航指令到達目標。Room-across-Room（RxR）（Ku et al., 2020）是一個多語言版本，包括英語、印地語和泰盧固語指令。它提供了更大的樣本量，并為虛擬姿態提供了時間對齊的指令，豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作，并依賴預定義的連接圖進行導航，代理通過在相鄰節點之間的傳送在圖上移動，被稱為VLN-DE。為了使簡化的設置更現實，Krantz等人（2020）、Li等人（2022c）、Irshad等人（2021）通過將離散的R2R路徑轉移到連續空間（Savva等人，2019）提出了連續環境中的VLN（VLN-CE）。Robo-VLN（Irshad等人，2021）通過引入在機器人環境中更現實的連續動作空間的VLN，進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望，我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能（Anderson等人，2018）：（1）導航誤差（NE），代理最終位置與目標位置之間最短路徑距離的平均值；（2）成功率（SR），最終位置足夠接近目標位置的百分比；（3）成功率加權路徑長度（SPL），通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性，例如：（4）按長度加權的覆蓋得分（CLS）（Jain等人，2019）；（5）歸一化動態時間規整（nDTW）（Ilharco等人，2019），對偏離真實軌跡的情況進行懲罰；以及（6）按成功率加權的歸一化動態時間規整（sDTW）（Ilharco等人，2019），對偏離真實軌跡的情況進行懲罰，并考慮成功率。

付費5元查看完整內容

大型語言模型 · 合成數據 · 綜述 ·

2024 年 7 月 5 日

[付費5元查看完整內容]基于大語言模型（LLM）的合成數據生成、策展和評估的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在不斷發展的深度學習領域，數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型（LLMs）的出現為合成數據生成提供了一種以數據為中心的解決方案，緩解了現實世界數據的限制。然而，目前對這一領域的研究缺乏統一的框架，大多停留在表面。因此，本文基于合成數據生成的一般工作流程，整理了相關研究。通過這樣做，我們突出了現有研究中的空白，并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下，數據數量和質量的問題一直是一個長期存在的困境。大語言模型（LLMs）的革命性出現引發了深度學習領域的顯著范式轉變（Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023）。盡管有這些進展，大量高質量數據仍然是構建穩健自然語言處理（NLP）模型的基礎（Gandhi et al., 2024）。具體來說，這里的高質量數據通常指的是包含豐富監督信號（通常以標簽形式）并與人類意圖緊密對齊的多樣化數據。然而，由于高成本、數據稀缺、隱私問題等原因，依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的（Kurakin et al., 2023）。此外，多項研究（Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023）表明，人類生成的數據由于其固有的偏見和錯誤，可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題：是否有其他更有效和可擴展的數據收集方法可以克服當前的限制？

鑒于LLMs的最新進展，它們展示了生成與人類輸出相當的流暢文本的能力（Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a），由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說，合成數據旨在模仿真實世界數據的特征和模式（Liu et al., 2024）。一方面，LLMs通過廣泛的預訓練，積累了豐富的知識庫，并展現出卓越的語言理解能力（Kim et al., 2022; Ding et al., 2023a），這為生成真實的數據奠定了基礎。另一方面，LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性，從而能夠為特定應用創建定制的數據集，并設計更靈活的流程（Eldan and Li, 2023）。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用，合成數據生成對于深度學習的發展具有重要意義。如圖1所示，LLMs驅動的合成數據生成（Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023）使整個模型訓練和評估過程實現自動化，最小化了人類參與的需求（Huang et al., 2023），從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外，LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories（Eldan and Li, 2023）和Phi系列（Gunasekar et al., 2023; Li et al., 2023b）的見解強調了數據質量對于有效模型學習的重要性，而LLMs賦予我們主動“設計”模型學習內容的能力，通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月，Hugging Face上已有超過300個被標記為“合成”的數據集，許多主流LLMs利用高質量的合成數據進行訓練，包括Alpaca（Taori et al., 2023）、Vicuna（Zheng et al., 2023）、OpenHermes 2.5和Openchat 3.5（Wang et al., 2023a）。

盡管看似簡單，但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程，并涉及許多技巧（Gandhi et al., 2024），使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務（如預訓練（Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023）、微調（Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a）、評估（Feng et al., 2023; Wei et al., 2024））和不同領域（如數學（Yu et al., 2023a; Luo et al., 2023a）、代碼（Luo et al., 2023b; Wei et al., 2023b）、指令（Honovich et al., 2023a; Wang et al., 2023d））進行數據生成，但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題，并開發通用工作流程，本綜述調查了最近的研究，并根據生成、策展和評估三個密切相關的主題進行組織，如圖2所示。我們的主要目的是提供該領域的全面概述，確定關鍵關注領域，并突出需要解決的空白。我們希望為學術界和工業界帶來見解，并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

多模態大型語言模型 · 以數據為中心的人工智能 ·

2024 年 5 月 28 日

[付費5元查看完整內容]從數據中心視角看多模態大型語言模型的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人類通過多種感官，如視覺、嗅覺、聽覺和觸覺來感知世界。同樣，多模態大型語言模型（MLLMs）通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據，增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中，我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言，我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外，我們還分析了數據集的評估方法，并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解，促進該領域的進一步探索和創新。

近年來，我們見證了大型語言模型（LLMs）和多模態大型語言模型（MLLMs）的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息，展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現，如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外，它們卓越的語言理解能力使其在文本豐富的任務中表現出色，如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要，數據也顯著影響了MLLMs的成功。例如，Hoffmann等人[99]展示了為了擴展模型，有必要增加訓練數據的規模。除了數據數量外，數據質量同樣重要。先前的研究[251]表明，精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而，關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此，本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比，數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內，我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題：

Q1：如何收集、選擇和管理MLLMs的數據？大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。
Q2：數據如何影響MLLMs的性能？理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。
Q3：如何評估MLLMs的數據？有必要開發全面的評估基準，以評估MLLMs在各種任務中的性能和魯棒性。本綜述與現有綜述的區別。在模型中心視角下，已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318]，但缺乏對數據中心方面的深入分析。最近，一些綜述開始關注LLMs的數據準備，如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而，這些綜述主要集中于僅文本LLMs的數據管理和選擇方法，沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集，但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能（DCAI）[109, 111, 220, 279, 316]，它也關注AI研究的數據中心視角，但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色，我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻，并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中，我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下：

新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述，考慮了文本、圖像、視頻和音頻等模態。
數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題，并提出了若干未來研究方向。

本文的其余部分安排如下：第2節介紹LLMs和MLLMs的預備知識，并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后，我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

大語言模型 · 多語言大型語言模型 ·

2024 年 4 月 9 日

[付費5元查看完整內容]多語言大型語言模型：資源、分類和前沿綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢，這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破，但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此，在本文中，我們提出了一個徹底的審查，并提供了一個統一的視角來總結多語言大型語言模型（MLLMs）文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下：（1）第一份綜述：據我們所知，我們采取了第一步，在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查；（2）新分類法：我們提出了一個新的統一視角來總結MLLMs的當前進展；（3）新前沿：我們突出了幾個新興的前沿并討論了相應的挑戰；（4）豐富資源：我們收集了大量的開源資源，包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來，大型語言模型（LLMs）在各種自然語言處理任務上取得了優異的表現（Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023），并展示出了令人驚訝的突發能力，包括上下文學習（Min et al., 2022; Dong et al., 2022）、思維鏈推理（Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a）以及規劃（Driess et al., 2023; Hu et al., 2023b）。然而，大多數LLMs主要關注英語任務（Held et al., 2023; Zhang et al., 2023i），使其在多語言環境，尤其是低資源環境下表現不足。

實際上，全球有超過7000種語言。隨著全球化的加速，大型語言模型的成功應考慮服務于不同國家和語言。為此，多語言大型語言模型（MLLMs）具有全面處理多種語言的優勢，越來越受到關注。具體來說，現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作（Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022）利用多語言數據調整參數以提升整體多語言性能。第二系列工作（Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a）還采用先進的提示策略，在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功，但仍缺乏對最近努力的全面回顧和分析，這阻礙了MLLMs的發展。為了彌補這一差距，我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說，我們首先介紹廣泛使用的數據資源（§3）。此外，由于跨語言對齊的關鍵挑戰，我們根據對齊策略引入了新的分類法（§4），旨在提供文獻中的統一視角，包括參數調整對齊和參數凍結對齊（如圖1所示）。具體來說，參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊，無需調整參數。最后，我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰，希望激發后續研究（§5）。

本工作的貢獻可以總結如下：（1）首次綜述：據我們所知，我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的；（2）新分類法：我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法，為理解MLLMs文獻提供了統一視角；（3）新前沿：我們討論了一些新興的前沿，并突出了它們的挑戰和機遇，希望為未來研究的發展鋪路；（4）詳盡資源：我們首次嘗試組織MLLMs資源，包括開源軟件、多樣的語料庫和相關出版物的精選列表，可在//multilingual-llm.net訪問。我們希望這項工作能成為研究者的寶貴資源，并激發未來研究的更多突破。

如圖4所示，我們引入了一種新的分類法，包括參數調整對齊（§4.1）和參數凍結對齊（§4.2），旨在為研究人員提供一個統一的視角，以理解MLLMs文獻。具體來說，參數調整對齊（PTA）包括一系列逐步進階的訓練和對齊策略，包括預訓練對齊、監督微調（SFT）對齊、人類反饋學習（RLHF）對齊，以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數，以對齊多語言性能。相反，參數凍結對齊（PFA）側重于基于PTA的四種提示策略：直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數，以實現預期結果。

付費5元查看完整內容

大語言模型 · 模型壓縮 · 高效推理 · 量化 · 剪枝 ·

2024 年 2 月 17 日

[付費5元查看完整內容]大型語言模型的模型壓縮與高效推理：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于Transformer的大型語言模型取得了巨大成功。然而，在推理過程中產生的顯著內存和計算成本，使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中，我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言，類似于較小的模型，大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而，與較小模型相比，大型語言模型有兩個突出的特點：（1）大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此，許多針對大型模型的算法，如量化和剪枝，開始探索無需調整的算法。（2）大型模型強調的是通用性和泛化能力，而不是在單一任務上的性能。因此，許多算法，如知識蒸餾，關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯，我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外，我們還提供了一些成熟框架的介紹，這些框架可以支持大型模型的高效推理，支持基本的壓縮或加速算法，極大地便利了用戶的模型部署。

大型語言模型（LLMs）已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比，LLMs（例如ChatGPT、LLaMA、Claude）對未見數據顯示出了更強的泛化能力。此外，它們甚至展現出了較小模型所不具備的能力（即，突現能力），如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而，在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如，一個帶有float32權重的10B模型消耗37GB內存，更不用說隨著序列長度增加，推理內存成本會以平方速度進一步增加。為了在資源受限的設備上，甚至是移動設備上部署模型，許多LLMs采用模型壓縮方法，如量化，以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的（甚至是預訓練的）模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本，以便模型可以在各種資源受限的設備上運行。從算法上講，常見的模型壓縮方法包括：

量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外，較少的位可能表示更高的并行性和更快的推理速度。
剪枝致力于移除預設計模型中不重要的組件（例如，神經元，層等），從而減少推理成本中的內存和計算成本。
知識蒸餾引入一個預訓練的大模型作為教師，并將其知識轉移到一個新的較小的模型上，后者稱為學生模型。然后，較小的模型將幾乎擁有與教師相同的能力，并享受較少的內存和計算成本。
緊湊架構設計設計新的運算符，以較低的成本替換（通常是近似）原始模型中的笨重運算符。對于Transformer模型，自注意力是主要目標，通常被其他運算符替換。
動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網，每個樣本只選擇超網的一個子結構進行推理。專家混合（MoE）是一種動態推理。此外，上述方法也可以組合使用，以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而，LLMs也為模型壓縮帶來了許多新的挑戰：

許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而，由于微調LLMs的巨大預算，研究人員不得不探索免微調或至少更高效的微調方法。
與處理單一任務（如神經機器翻譯）不同，大型語言模型強調跨各種任務和未見數據的通用性和泛化能力，甚至是突現能力。因此，壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。面對這些挑戰，提出了許多專門針對LLMs的壓縮方法。在本文中，我們將對這些方法進行全面綜述。為了更好地展示這些方法，我們進一步將參數約為十億或更少的語言模型，如BERT、GPT2，稱為中等模型，盡管它們通常被視為大型語言模型。參數超過十億的模型，如LLaMA、Claude、ChatGPT等，保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小，即中等模型相對容易進行微調，展示較少的突現能力。結果，許多針對中等模型的壓縮方法仍與較小模型的方法相似。以下各節的組織如下：第2節將介紹一些初步知識。然后，我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值（在一個大的（通常是連續的）集合中）映射到輸出值（在一個小的（通常是有限的）集合中）的過程（例如，見圖2）。量化是減少內存成本和提高LLMs推理速度的最直接方法，特別是在支持低位數據類型（如INT4）快速操作的硬件上。值得注意的是，量化在神經網絡訓練和推理中都取得了令人印象深刻的成功，而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法（如剪枝和蒸餾）有幾個優勢。1）高壓縮比：將LLMs中的權重從32位浮點數量化為4位整數，可以將模型大小大幅壓縮至大約1/8，這對于內存受限的過程（如LLMs推理）至關重要。2）低成本：許多量化方法不需要重新訓練整個LLMs，使其對于計算資源有限的研究人員更加可行。3）高靈活性：量化與大多數其他壓縮方法兼容，為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法，我們首先在3.1小節介紹標準量化方法和一些基本概念。然后，在3.2節，我們將簡要總結LLMs出現之前一些針對中等大小語言模型（如BERT，GPT2等）的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難，我們根據技術是否需要重新訓練，將LLMs量化方法分為兩部分。不需要重新訓練的方法（即，訓練后量化，PTQ）在3.3節討論，而需要重新訓練的方法（即，量化感知訓練，QAT）在3.4節討論。最后，在3.5節，我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術，用于壓縮和加速神經網絡，剪枝通過消除模型中非必需的權重或結構，同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡（CNNs）中顯示出顯著結果，但與量化和蒸餾等其他壓縮技術相比，其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大，微調的高成本使得實現剪枝的全部效果變得更加困難。然而，剪枝是壓縮模型的關鍵技術，需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分，我們將在4.1節提供剪枝方法和基本概念的概覽。隨后，在4.2節，我們將詳細闡述為中等大小語言模型（即，參數達到數十億的模型）量身定制的剪枝技術，鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后，在4.4節，我們將介紹一些輔助技術，這些技術雖然不是剪枝方法，但與剪枝相關，用于改進LLMs的剪枝結果，并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾（KD）是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中，從而實現教師模型知識的更簡潔高效的表示。在5.1節中，我們將介紹知識蒸餾的一些基本概念，并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型（具有大約10億參數的語言模型）的各種知識蒸餾方法，并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后，我們將在5.3節提供大型語言模型（具有超過10億參數的語言模型）知識蒸餾的詳細概述，將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學，其目標是通過優化網絡結構和算法，在減少計算資源和內存使用的同時，實現模型效率的顯著提升。具體而言，它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分，并且對于大型和中等大小模型來說沒有區別，因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理（NLP）任務上性能的有效方法。然而，擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題，同時仍然利用規模增加的好處，動態神經網絡（DyNNs）只針對每個輸入處理網絡的一個子集，使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域，當前對DyNNs的研究主要包括以下三種方法：提前退出、級聯推理和專家混合（MoE）。提前退出旨在動態地在深度神經網絡（DNNs）的早期層次終止推理過程，從而減少計算成本并提高響應時間。直覺是，對于不太復雜的詞匯，往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器，這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型，如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統，以確定輸入查詢的處理策略，并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢，并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度，并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標，以決定是否利用更強大的LLMs。一般來說，這一系列工作最近才出現，并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比，MoE的研究有著橫跨多個機器學習領域（包括NLP）的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡（FFN），其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中，以提供高效而強大的服務。因此，在本節的剩余部分，我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念，接著是對將MoE整合到LLMs中的當代研究的廣泛綜述，包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧，這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起，突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展，出現了各種模型。由于不同的應用場景，它們在延遲、吞吐量、內存等方面有著額外的需求，這使得我們難以部署模型。在本節中，我們介紹了一些最近開發的針對LLM的推理加速框架，這些框架有效地提高了不同場景下模型的效率，如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357]，由于本文關注于推理，我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理，可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中，我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查，包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外，我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而，正如我們在引言中提到的，與較小模型相比，大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰，但許多算法仍然依賴于為壓縮小型模型而設計的框架，壓縮大型模型的挑戰依然存在。未來，需要進一步探索，以開發更高效、更有效的壓縮算法，同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

大型語言模型 · 自然語言生成 · 大模型 · 綜述 ·

2024 年 1 月 20 日

[付費5元查看完整內容]《大型語言模型自然語言生成評估》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在快速發展的自然語言生成（NLG）評估領域中，引入大型語言模型（LLMs）為評估生成內容質量開辟了新途徑，例如，連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽，這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標，提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論，以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰，包括偏見、穩健性、領域特定性和統一評估，本綜述旨在為研究人員提供洞見，并倡導更公平、更先進的NLG評估技術。

自然語言生成（NLG）處于現代AI驅動通信的前沿，近期在大型語言模型（LLMs）方面的進展徹底改變了NLG系統的能力（Ouyang et al., 2022; OpenAI, 2023）。這些模型，依靠深度學習技術和大量的訓練數據，展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展，建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標，如BLEU（Papineni et al., 2002）、ROUGE（Lin, 2004）和TER（Snover et al., 2006），主要關注表面層面的文本差異，通常在評估語義方面存在不足（Freitag et al., 2020）。這一局限性已被指出阻礙了研究進展，并可能導致誤導性的研究結論。此外，其他使用神經嵌入來計算分數的方法（Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020），盡管在評估諸如語義等價性和流暢性方面有所考慮，但它們的靈活性有限，適用范圍受限（Freitag et al., 2021a）。此外，這些傳統方法與人類判斷的一致性較低（Liu et al., 2023c），且對分數的解釋性不足（Xu et al., 2023）。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型（LLMs）涌現的能力為基于LLM的NLG評估提供了有前景的途徑，例如Chain-of-Thought（CoT）（Wei et al., 2022b）、零次學習指令跟隨（Wei et al., 2022a）、更好地與人類偏好相一致（Ouyang et al., 2022）等。這些特性使LLMs成為評估NLG輸出的有力工具，與傳統方法相比提供了更為復雜和更好地與人類一致的評估（Liu et al., 2023c；Kocmi and Federmann, 2023；Fu et al., 2023）。例如，LLMs可以生成合理的解釋來支持最終評分（Xu et al., 2023），而利用人類反饋的強化學習（RLHF）可以使LLMs的偏好更好地與人類一致（Ouyang et al., 2022；Zheng et al., 2023）。如圖1所示，這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本，無論是否有參考資料和來源。然而，眾多基于LLM的NLG評估方法，針對不同的任務和目標，缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加，迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述，呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論，并深入分析了這些方法的各種優點、局限性和獨特屬性。此外，我們探索了該領域內尚未解決的挑戰和開放性問題，從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織：我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先，我們建立了NLG評估的正式框架，并提出了一個分類體系來分類相關工作（第2節）。隨后，我們深入并詳細闡述這些工作（第3節）。此外，我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧（第4節）。鑒于這一領域的快速發展，我們確定并討論了一些可能指導未來研究的潛在開放問題（第5節）。在結束這一系統綜述時，我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外，我們強調整合其他評估方法，如人類判斷，以實現更全面和多面的評估框架。

在大型語言模型（LLMs）迅速發展的背景下，越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力，導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估，其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面，基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議，用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數，代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本（可選）的生成文本的生成概率作為評估指標，稱為? 基于概率的評估。在多樣化的領域中，某些工作將NLG評估轉化為分類任務，使用類似李克特量表的多級別對文本質量進行分類。在這種情況下，LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時，? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外，? 組合評估方法利用多個不同LLMs或提示的LLM評估者，協調評估者之間的溝通以產生最終評估結果。最后，一些最新的研究探索了? 高級評估方法（考慮細粒度標準或結合連續思考或上下文學習的能力），旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法，每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面，以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時，眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋，以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務，這些基準可以被分類為單一場景示例，如機器翻譯和摘要，以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中，我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類：評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法，審視它們的優勢并比較它們的差異。此外，我們總結了NLG評估的普遍元評估基準。

在我們的研究中，我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力，但仍有一些未解決的問題需要關注，包括偏見、穩健性、混合評估方法的整合，以及LLM評估者內部對特定領域和統一評估的需求。我們預計，解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容

大型語言模型 · 軟件過程 ·

2023 年 10 月 6 日

[付費5元查看完整內容]大型語言模型在軟件工程：調查與待解決的問題

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文提供了一個關于大型語言模型（LLMs）在軟件工程（SE）中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力，其應用覆蓋了軟件工程活動的全譜，包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而，這些同樣的新興屬性也帶來了重大的技術挑戰；我們需要能夠可靠地剔除錯誤的解決方案，如幻覺。我們的調查揭示了混合技術（傳統的SE與LLMs相結合）在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果；即大型語言模型（LLMs）在軟件工程（SE）應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會，我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的，但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中，但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是，我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接（和共鳴）。盡管總的來說，我們找到了很多樂觀的理由，但仍然存在重要的技術挑戰，這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出，LLMs普遍存在幻覺問題[1]，而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣，幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下，這意味著創造的工程制品可能是錯誤的，但看起來是合理的；LLMs可能引入錯誤。然而，與LLMs的許多其他應用不同，軟件工程師通常有可自動化的真實依據（軟件執行），大部分軟件工程制品都可以基于此進行評估。此外，軟件工程研究社區已經花了很多時間開發自動化和半自動化技術，以檢查人類可能產生的錯誤結果。這意味著，對于這個學科和研究社區，當面對像幻覺這樣的問題所帶來的挑戰時，有大量的經驗和專業知識可以借鑒。

顯然，自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用，就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時，由于缺乏可自動化的oracle [6]（一種自動技術，用于確定給定輸入刺激的輸出行為是否正確），自動測試數據生成受到限制。考慮到LLMs的幻覺傾向，Oracle問題仍然非常相關，對它的解決方案將變得更加有影響力。但是，一些SE應用關心現有軟件系統的適應、改進和開發，對于這些應用，有一個現成的可自動化的oracle：原始系統的功能行為。在本文中，我們稱其為“自動回歸Oracle”，這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考，以對任何后續的適應和更改的輸出進行基準測試。當然，有“烘焙”功能錯誤的風險，因為自動回歸Oracle無法檢測系統應該做什么，只能捕捉它當前做什么。因此，自動回歸Oracle只能測試功能退化，所以它最適合于需要保持現有功能的用例。例如，對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點，我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中，我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼，還可以包括其他軟件工程制品，如需求、測試用例、設計圖和文檔。總的來說，LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出，但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求，不僅要優化prompt工程（專注于LLM的輸入），還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的：相同的prompt在不同的推斷執行中產生不同的答案（除非溫度設為零，這在多次執行中經常被發現是次優的）[9]。此外，無論溫度設置如何，prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理，這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰：如果每次我們運行整個工程過程時結果都會變化，我們如何確定所提議的技術是否超越了現有的技術？這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是，SBSE與基于LLM的軟件工程有很多相似之處，在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此，已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如，參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文，我們過濾了出版物，將其細分為以下子類別：人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選（我們手動排除了重載縮寫，例如將GPT誤認為是通用規劃工具），結果是L列。最后，我們使用相同的查詢來識別基于LLM的軟件工程論文，這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的，因此我們只局限于基于總體趨勢得出的結論，而這些總體趨勢有強有力的證據支持，而不是觀察到的數字的具體細節。盡管如此，我們報告了觀察到的原始數字，以支持其他人的復制。

圖2展示了arXiv上發布的計算機科學論文數量（|A|，以藍色表示）和LLM相關論文的數量（|L|，以橙色表示）的增長。特別是與軟件工程和LLM相關的論文以綠色表示（|L ∩ S|）。考慮到總體發表量的快速增長，我們為縱軸使用了對數刻度。不出所料，我們看到了計算機科學出版物數量的整體增長。同時，鑒于LLM最近受到的關注增多，LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納，如圖中的綠色所示。為了更詳細地檢查這一趨勢，我們在圖3中畫出了LLM出版物（L）與所有計算機科學出版物（A）的比例（以藍色表示），以及基于LLM的軟件工程出版物（L ∩ S）與所有LLM出版物的比例（以橙色表示）。如圖所示，自2019年以來，基于LLM的軟件工程論文的比例已經急劇上升。目前，所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長，我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制，但我們可以預期會有許多關于感興趣的子領域的全面調查，以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧（SLRs）。例如，Hou等人[14]提供了一個出色的最新SLR，涵蓋了2017年至2023年的229篇研究論文，報告了所處理的軟件工程任務、數據收集和預處理技術，以及優化LLM性能的策略（例如提示工程）。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。

付費5元查看完整內容

大模型 · 可解釋性 · 大型語言模型 ·

2023 年 9 月 11 日

[付費5元查看完整內容]大模型如何可解釋？新澤西理工學院等最新《大型語言模型可解釋性》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理方面展示了令人印象深刻的能力。然而，它們的內部機制仍然不清楚，這種不透明性對下游應用帶來了不希望的風險。因此，理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中，我們引入了可解釋性技術的分類體系，并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類：傳統的微調范式和基于提示的范式。對于每個范式，我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準，并討論了如何利用解釋來調試模型和提高性能。最后，我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型（LLMs），如BERT（Devlin等，2019a）、GPT-3（Brown等，2020）、GPT-4（Bubeck等，2023）、LLaMA-2（Touvron等，2023b）和Claude（AnthropicAI，2023），在各種自然語言處理（NLP）任務中展示出了令人印象深刻的性能。主要科技公司，如微軟、谷歌和百度，已在其商業產品和服務中部署了LLMs以增強功能。例如，微軟利用GPT-3.5來改善新Bing的搜索相關性排名（Mehdi，2023）。由于LLMs通常是復雜的“黑盒子”系統，其內部工作機制是不透明的，高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生（Weidinger等，2021）。因此，開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力（Doshi-Velez和Kim，2017；Du等，2019a）。提高LLMs的可解釋性至關重要，有兩個關鍵原因。首先，對于一般終端用戶，可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任，無需技術專業知識。通過這種方式，終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次，對于研究人員和開發人員，解釋模型行為提供了洞察力，以識別意外偏見、風險和性能改進的領域。換句話說，可解釋性充當了一個調試輔助工具，可以快速提高下游任務上的模型性能（Strobelt等，2018；Bastings等，2022；Yuksekgonul等，2023）。它有助于追蹤模型能力隨時間的變化，進行不同模型之間的比較，并開發可靠、道德和安全的模型，以供實際部署使用。 由于LLMs的獨特屬性，其可解釋性技術與傳統機器學習（ML）模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看，ML模型以監督方式依賴人工構建的特征，而LLMs旨在自動從原始輸入數據中學習特征（Chai和Li，2019）。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看，傳統ML模型通常是針對具體任務設計的，具有不同的模型架構（Liu和Sun，2023）。相比之下，經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務（Yang等，2023）。此外，LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性（Hu，2020）。由于注意力權重中編碼的知識和模式可能提示了模型的理解，注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外，由于LLMs的性能更好，還應進一步研究transformer的組件，包括神經元、層和模塊，學到了什么以及它們是否有不同的功能。從應用的角度來看，傳統ML模型專注于低級模式識別任務，如解析和形態分析，而LLMs可以處理高級推理任務，如回答問題和常識推理（Lauriola等，2022）。特別是，理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs，有必要回顧和總結專為LLMs定制的解釋技術。 在本文中，我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中，我們介紹了應用LLMs的兩個主要范式：1）傳統的下游微調范式和2）提示范式。基于這一分類，我們在第3節中回顧了適用于微調LLMs的解釋方法，并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中，我們討論了解釋方法的評估。最后，在第6節中，我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰，并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式，傳統微調和提示，根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別，因此分別提出了各種類型的解釋（如圖1所示）。 傳統微調范式

在這個范式中，首先對語言模型進行了大規模無標簽文本數據的預訓練，然后在特定下游領域的一組標記數據上進行微調，例如GLUE基準測試中的SST-2、MNLI和QQP（Wang等人，2019）。在微調過程中，很容易在語言模型的最終編碼器層上方添加完全連接的層，使其適應各種下游任務（Rogers等人，2021）。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如，包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。對于這個范式的解釋重點在于兩個關鍵領域：1）理解自監督預訓練如何使模型獲得語言的基礎理解（例如句法、語義和上下文關系）；以及2）分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示，例如自然語言句子中的空白，以便模型填充，實現零樣本學習或少樣本學習，而無需額外的訓練數據。根據其開發階段，這個范式下的模型可以分為兩種類型：基礎模型：隨著LLMs的規模和訓練數據的增加，它們展示了令人印象深刻的新能力，無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型（擁有數十億參數）（例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023））。這些模型被稱為基礎模型或基礎模型，它們可以與用戶進行對話，無需進一步與人類喜好對齊。大規模模型通常適用于這種范式，規模超過10億。例如，LLaMA-2（Touvron等人，2023b）擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型：基礎模型存在兩個主要限制：1）它們不能按照用戶的指令進行操作，因為預訓練數據包含少量指令-響應示例，2）它們傾向于生成有偏見和有毒的內容（Carlini等人，2023）。為了解決這些限制，基礎模型通過監督微調進一步進行微調（見圖2），以實現人類級別的能力，例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過（提示，響應）演示對和來自人類反饋的強化學習（RLHF）進行指導調整。模型通過自然語言反饋進行訓練，以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023）以及一些開源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中，我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先，我們介紹了提供局部解釋（第3.1節）和全局解釋（第3.2節）的方法。在這里，局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解，而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來，我們討論了如何利用解釋來調試和改進模型（第3.3節）。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景，我們有一個語言模型，并將特定文本輸入模型。模型隨后產生分類輸出，例如情感分類或下一個標記的預測。在這種情景下，解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測，我們將其稱為局部解釋。這個類別包括四個主要方法流，包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋，全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件（神經元、隱藏層和較大模塊）編碼了什么，以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法：探測方法，用于分析模型表示和參數；神經元激活分析，用于確定模型對輸入的響應性；以及基于概念的方法。

**提示范式的解釋 **

在本節中，我們介紹了解釋屬于提示范式的模型的技術，包括1）解釋基礎模型，如LLaMA-2（第4.1節），2）解釋助手模型，如LLaMA-2-Chat（第4.2節），以及3）如何利用LLMs的推理和解釋能力生成用戶友好的解釋（第4.3節）。

基礎模型解釋

隨著語言模型的規模增大，它們展示出了新的能力，如少樣本學習，即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈（CoT）提示能力。鑒于這些新興屬性，解釋性研究有三個主要目標：1）研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務，2）理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務，從而幫助終端用戶解釋模型的推理，以及3）解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調，屬于這一范式的LLMs具有強大的推理能力。然而，它們的巨大規模也使它們容易生成問題輸出，如幻覺。解釋性研究旨在：1）闡明對齊微調的作用，2）分析幻覺產生的原因。

結論

在本文中，我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性，以及提高人類可解釋性。隨著LLMs的不斷進步，可解釋性將變得極其重要，以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織，同時突顯了未來工作的開放性問題。

付費5元查看完整內容