大型語言模型(LLMs)已成為自然語言處理(NLP)領域的基石,它們在理解和生成類人文本方面提供了變革性的能力。然而,隨著它們日益突出的地位,這些模型的安全性和脆弱性問題也引起了重大關注。本文提供了一項關于針對LLMs的各種形式攻擊的綜合綜述,討論了這些攻擊的性質和機制、潛在影響以及當前的防御策略。我們深入探討了旨在操縱模型輸出的對抗性攻擊、影響模型訓練的數據污染,以及與訓練數據開發相關的隱私問題。文章還探討了不同攻擊方法的有效性、LLMs對這些攻擊的抵御能力,以及這對模型完整性和用戶信任的含義。 通過審查最新研究,我們提供了關于LLM脆弱性和防御機制當前景觀的見解。我們的目標是提供對LLM攻擊的細致理解,增進AI社區內的意識,并激發出為減輕這些風險而在未來發展中采用的強大解決方案。
人工智能的出現****在自然語言處理領域引發了一場顯著的變革,通過引入大型語言模型(LLMs),實現了在語言理解、生成和翻譯方面前所未有的進步(趙等,2023c;納維德等,2023;阿恰姆等,2023)。盡管它們帶來了變革性的影響,LLMs已變得容易受到各種復雜攻擊的攻擊,這對它們的完整性和可靠性構成了重大挑戰(姚等,2023;劉等,2023d)。這篇綜述論文全面檢查了針對LLMs的攻擊,闡明了它們的機制、后果和迅速發展的威脅環境。 研究LLMs上的攻擊之重要性在于它們在各個領域的廣泛整合及其隨之而來的社會影響(埃隆杜等,2023)。LLMs在從自動化客戶支持到復雜內容創建的應用中發揮著重要作用。因此,理解它們的脆弱性對于確保AI驅動系統的安全性和可信度至關重要(阿莫迪等,2016;亨德里克斯等,2023)。本文基于模型權重的訪問權限和攻擊向量,對攻擊的范圍進行了分類,每種都提出了不同的挑戰,需要特定的關注。 此外,本文還剖析了執行這些攻擊的方法論,提供了利用對抗性技術來利用LLM脆弱性的見解。在承認當前防御機制的限制的同時,本文還提出了增強LLM安全性的未來研究可能途徑。 我們總結了我們工作的主要貢獻如下:
**我們的貢獻 **
? 我們提出了一種新的LLMs攻擊分類法,這可以幫助研究人員更好地理解研究環境并找到他們的興趣領域。 ? 我們詳細介紹了現有的攻擊和緩解方法,討論了關鍵的實施細節。 ? 我們討論了重要挑戰,突出了未來研究的有希望方向。 探索LLM安全性:白盒和黑盒攻擊 本節從白盒和黑盒的角度深入探討了大型語言模型(LLMs)的安全挑戰。它強調了理解和保護LLMs免受復雜安全威脅的重要性。 白盒這些攻擊利用對LLM的架構、訓練數據和算法的完全訪問權限,使攻擊者能夠提取敏感信息、操縱輸出或插入惡意代碼。Shayegani等人(2023)討論了白盒攻擊,強調這種訪問權限允許制造對抗性輸入以改變輸出或損害性能。該研究涵蓋了各種攻擊策略,如上下文污染和提示注入,旨在操縱LLMs以獲得特定輸出或降低其質量。 另外,李等人(2023a)檢查了LLMs中的隱私問題,強調了在不斷發展的AI技術面前保護個人信息的重要性。他們討論了與訓練和推理數據相關的隱私風險,強調了分析白盒攻擊以有效緩解威脅的關鍵需求。 黑盒這些攻擊利用LLM的脆弱性,對模型內部的了解有限,專注于通過輸入輸出界面操縱或降低性能。這種在實際場景中現實的方法帶來了如敏感數據提取、偏見輸出和對AI信任的減少等風險。Chao等人(2023)展示了黑盒方法“破解”諸如GPT-3.5和GPT-4之類的LLMs,而Qi等人(2023a);Yong等人(2023)探索了針對各種表面的基于API的模型如GPT-4的攻擊。
LLM攻擊分類法
破解
本節深入探討了針對LLMs的破解攻擊,詳細介紹了利用模型脆弱性進行未授權行為的策略,強調了強大防御機制的關鍵需求。 精細化基于查詢的破解:Chao等人(2023)代表了一種策略性的破解方法,利用最少數量的查詢。這種方法不僅利用了簡單的模型脆弱性,而且涉及到對模型響應機制的微妙理解,迭代地精細化查詢以探測并最終繞過模型的防御。這種方法的成功強調了LLMs的一個關鍵脆弱性:通過迭代、智能查詢的可預測性和可操縱性。這項工作引入了Prompt Automatic Iterative Refinement (PAIR),一種旨在自動化生成LLMs語義破解的算法。PAIR通過使用一個攻擊者LLM迭代地查詢目標LLM,精細化候選破解。這種方法比以前的方法更高效,需要的查詢次數更少,通常在二十次查詢內就可以產生一個破解。PAIR在破解包括GPT-3.5/4和Vicuna在內的各種LLMs中展示了成功,其效率和可解釋性顯著,使得破解可轉移到其他LLMs。 復雜的提示工程技術:Perez和Ribeiro(2022)深入探討了LLMs的提示處理能力的復雜性。他們展示了在提示中嵌入某些觸發詞或短語可以有效劫持模型的決策過程,導致編程的倫理約束被覆蓋。(丁等,2023)專注于使用嵌套提示的微妙、難以檢測的破解方法。這些發現揭示了LLMs內容評估算法的一個關鍵缺陷,表明需要更復雜、上下文感知的自然語言處理能力,以識別和中和操縱性提示結構。 跨模態和語言攻擊表面:Qi等人(2023a)揭示了LLMs對結合文本和視覺線索的多模態輸入的易感性。這種方法利用了模型對非文本信息處理不夠強大的優勢。同樣,Yong等人(2023)揭露了LLMs在處理低資源語言時的高度脆弱性。這表明了模型語言覆蓋和理解的顯著差距,特別是對于在訓練數據中代表性有限的語言。這項工作展示了通過將不安全的英語輸入翻譯成低資源語言,可以規避GPT-4的安全保護措施。 通用和自動化攻擊策略:如(Mehrotra等,2023)討論的通用和自動化攻擊框架的發展,標志著破解技術的一個關鍵進步。這些攻擊涉及將特別選擇的字符序列附加到用戶的查詢上,這可能導致系統提供未過濾的、潛在有害的響應。Shah等人(2023b)檢查了利用LLMs的人格或風格模仿能力的攻擊,為攻擊策略引入了新的維度。
提示注入
本節概述了攻擊者使用精心設計的惡意提示來操縱LLM行為的策略,并將研究組織成七個關鍵領域。 目標操縱:Abdelnabi等人(2023)展示了一種能夠完全破壞LLMs的提示注入攻擊,其實際可行性在如Bing Chat和Github Copilot的應用上得到展示。Perez和Ribeiro(2022)引入了PromptInject框架,用于目標劫持攻擊,揭示了對提示錯位的脆弱性,并提供了如停止序列和后處理模型結果等抑制措施的見解。 提示泄露:劉等人(2023b)討論了像GPT-4這樣的大型語言模型的安全漏洞,關注于提示注入攻擊。它引入了HOUYI方法論,一種設計用于多種LLM集成服務/應用的通用和適應性強的黑盒提示注入攻擊方法。HOUYI包括三個階段:上下文推斷(與目標應用交互以掌握其固有的上下文和輸入輸出關系)、有效負載生成(根據獲得的應用上下文和提示注入指南制定提示生成計劃),以及反饋(通過審查LLM對注入提示的響應來評估攻擊的有效性,隨后進行迭代精細化以獲得最佳結果),旨在誘導LLM將惡意有效負載解釋為問題而非數據負載。在使用HOUYI對36個真實世界LLM集成服務進行的實驗中,攻擊成功率達到86.1%,揭示了諸如未授權模仿服務和利用計算能力等嚴重后果。 惡意內容生成:劉等人(2023a)針對惡意提示生成的可擴展性挑戰,提出了AutoDAN,旨在保持提示的意義性和流暢性。他們強調,發現提示注入攻擊與惡意問題相結合,可以導致LLMs繞過安全特性,生成有害或令人反感的內容。使用為結構化離散數據集量身定制的層次遺傳算法將AutoDAN與現有方法區分開來。種群的初始化至關重要,論文采用了LLM用戶識別的手工破解提示作為原型,以減少搜索空間。引入了對句子和詞的不同交叉策略,以避免陷入局部最優并持續搜索全局最優解。實現細節包括基于輪盤選擇策略的多點交叉策略和一個動量詞評分方案,以增強在細粒度空間的搜索能力。該方法實現了較低的句子困惑度,表明攻擊在語義上更有意義且更隱蔽。 操縱訓練數據:趙等人(2023b)介紹了ProAttack,它在規避防御方面擁有近乎完美的成功率,強調了隨著LLMs應用的增長,更好地處理提示注入攻擊的緊迫性。 LLM集成應用中的提示注入攻擊與防御:如(劉等,2023e)等綜合研究強調了理解和緩解提示注入攻擊所帶來風險的重要性。這些工作突出了像‘HouYi’(劉等,2023e)這樣的復雜方法論,并強調了更強大安全措施的迫切需求。 提示操縱框架:最近的文獻探討了操縱LLM行為的各種方法,如(Melamed等,2023;江等,2023)所詳細描述的。Propane(Melamed等,2023)介紹了一個自動提示優化框架,而Prompt Packer(江等,2023)介紹了組合指令攻擊,揭示了LLMs對多方面攻擊的脆弱性。 基準測試和分析LLM提示注入攻擊:Toyer等人(2023)提出了一個包含提示注入攻擊和防御的數據集,提供了關于LLM脆弱性的見解,并為更強大的系統鋪平了道路。這種基準測試和分析對于理解提示注入攻擊的復雜性和開發有效的對策至關重要。
數據污染
當代NLP系統遵循兩階段流程:預訓練和微調。預訓練涉及從大型語料庫學習以理解一般語言結構,而微調則使用較小的數據集為特定任務定制模型。最近,像OpenAI這樣的提供商已經允許最終用戶微調模型,增強了適應性。本節探討了關于數據污染技術及其在訓練期間對安全性影響的研究,包括隱私風險和對抗性攻擊的敏感性。 個人可識別信息(PII)提取:陳等人(2023)研究了在包含個人可識別信息(PII)的小數據集上微調大型語言模型(LLMs)是否會導致模型泄露其原始訓練數據中嵌入的更多PII。作者展示了一種稻草人方法,其中一個LLM在轉換為文本的小型PII數據集上進行微調,這使得模型在被提示時能夠泄露更多PII。為了改進這一點,他們提出了Janus方法,該方法定義了一個PII恢復任務并使用少量示例微調。實驗表明,僅在10個PII實例上微調GPT-3.5就使其能夠準確泄露1000個目標PII中的650個,而不微調則為0。Janus方法進一步改善了這種泄露,泄露了699個目標PII。分析顯示更大的模型和真實訓練數據具有更強的記憶和PII恢復能力,且微調對PII泄露比單獨的提示工程更有效。這表明LLMs可以通過最小的微調從不泄露轉變為泄露大量PII。 繞過安全對齊:齊等人(2023b)研究了在微調對齊的LLMs中的安全風險,發現即使是良性數據集也可能危及安全。背景攻擊被證明可以有效繞過安全措施,強調了改進訓練后保護的需求。 Bianchi等人(2023)分析了指令調優的安全風險,顯示過度指令調優的模型仍然可以產生有害內容。他們提出了一個安全調優數據集來減輕這些風險,平衡安全性和模型性能。 趙等人(2023a)研究了LLMs在微調過程中如何學習和遺忘不安全的示例,提出了一種稱為ForgetFilter的技術,用于過濾微調數據并在不犧牲性能的情況下提高安全性。 后門攻擊:沙等人(2023a)引入了Local Fine Tuning(LoFT)來發現對抗性提示,展示了對LLMs的成功攻擊。舒等人(2023)提出了Autopoison,一種自動化數據污染管道,展示了其在不降低語義質量的情況下改變模型行為的有效性。 結論
本文提供了針對大型語言模型(LLMs)攻擊的全面概述。我們首先將LLM攻擊文獻分類為一個新的分類法,以提供更好的結構并為未來的研究提供幫助。通過審查這些攻擊向量,顯而易見的是,LLMs容易受到多種威脅的攻擊,這對它們在現實世界應用中的安全性和可靠性構成了重大挑戰。此外,本文強調了實施有效的緩解策略來防御LLM攻擊的重要性。這些策略包括多種方法,包括數據過濾、防護措施、強健的訓練技術、對抗性訓練和安全上下文蒸餾。 總結來說,盡管LLMs為提高自然語言處理能力提供了重大機遇,但它們對敵手利用的脆弱性凸顯了解決安全問題的緊迫需求。通過持續探索和進步,在檢測攻擊、實施緩解措施和提高模型韌性方面,我們可以旨在充分利用LLM技術的優勢,同時加強防御以抵御潛在風險。
游戲智能體的發展在推進向人工通用智能(AGI)的道路上扮演著至關重要的角色。大型語言模型(LLMs)及其多模態對應物(MLLMs)的進展為在復雜的電腦游戲環境中賦予游戲智能體類似人類的決策能力提供了前所未有的機會。本文從一個全面的視角對基于LLM的游戲智能體進行了綜述。首先,我們介紹了基于LLM游戲智能體的概念架構,圍繞六個基本功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們調研了文獻中記錄的現有代表性的基于LLM游戲智能體,這些智能體在方法論和跨六大游戲類型的適應性靈活性方面進行了探討,包括冒險、溝通、競爭、合作、模擬以及制作與探索游戲。最后,我們展望了這一新興領域未來研究和發展的方向。維護并可訪問的相關論文精選列表位于://github.com/git-disl/awesome-LLM-game-agent-papers。
智能在代理與環境的互動中以及作為感覺運動活動的結果而出現。 ——體現認知假說 [1] 大型語言模型(LLMs),如ChatGPT [2]所示,代表了自然語言理解(NLU)和生成性人工智能(Gen-AI)中的一個重要里程碑。通過在包含數百億參數的大量多樣化網絡來源上進行生成性訓練,LLMs展示了從龐大文本語料庫中概括知識的驚人能力,并以接近人類水平的NLU表現展示對話智能。多模態LLMs(MLLMs),如GPT-4V [3]和Gemini [4]的出現,標志著另一個里程碑,使LLMs能夠感知和理解視覺輸入。我們推測,LLM技術的成功為追求類人人工通用智能(AGI)提供了前所未有的機會:以前認為僅限于人類的認知能力,如推理、規劃和反思,以及自我控制、自我理解和自我改進的程度,現在通過適當提示集成了內置認知智能的LLMs來實現。
我們將基于LLM的智能體(LLMA)定義為一個智能實體,它使用LLMs1作為執行類人決策過程的核心組件 [5]。盡管LLMAs能夠進行類似人類的認知處理,但現有LLMAs與類人AGI之間的區別是顯而易見的:當前的LLMAs依賴于解碼和概括來自預訓練數據的預先存在的知識 [6],而AGI能夠通過在現實世界中的實驗和經驗發現和學習新知識 [7; 8]。受到人類嬰兒智力發展過程的啟發,體現認知假說 [1] 假設智能體的智能源于觀察和與其環境的互動,即,將智能體植入一個集成了物理、社會和語言經驗的世界對于促進有利于發展類人智能的條件至關重要。
數字游戲被認為是培養AI智能體的理想環境,因為它們具有復雜性、多樣性、可控性、安全性和可復制性。從經典的國際象棋和撲克游戲 [9; 10; 11] 到現代視頻游戲如Atari游戲 [12]、星際爭霸II [13]、Minecraft [14] 和DOTA II [15],長期以來一直是推進AI研究的工具。與基于傳統強化學習(RL)的智能體 [10; 16; 17; 18] 不同,這些智能體通過行為級策略學習做出決策,目標是最大化預期獎勵,構建能夠運用認知能力獲得游戲玩法基本洞察力的基于LLM的游戲智能體(LLMGAs)可能更貼近AGI的追求。 先前關于LLMs [19; 20; 21] 或LLMAs [22; 23; 24] 的綜述論文主要關注審查行業和學術研究團隊開發的現有LLMs,以及LLMAs的一般應用,較少關注游戲代理領域。同時期的綜述論文 [25; 26] 顯著強調了游戲開發,并涵蓋了有限數量的LLMGAs出版物。為了彌補這一差距,本文試圖對LLMGAs的最新發展進行全面和系統的綜述。具體而言,本綜述分為三個相輔相成的部分:首先,我們提供了一個統一的參考框架,在其中我們描述了構建LLMGAs所需的基本模塊,涵蓋六個核心功能組件:感知、記憶、思考、角色扮演、行動和學習。其次,我們介紹了一個將現有文獻分類為六個游戲類別的分類法,包括冒險、競爭、合作、模擬和制作與探索。對于每個類別,我們描述了技術挑戰、支持的游戲環境,以及常用的優化策略。在第三部分和最后一部分,我們設想LLMGAs未來進步的不同方向。
總之,這篇綜述論文作為對LLMGAs文獻的全面回顧,提供了六個游戲類別的分類,以增強理解并促進各種LLMGAs的開發和評估。它旨在促進這一新興研究領域的進步,并激發LLMGAs的研究和開發中的進一步創新。鑒于這是一個新興且蓬勃發展的研究領域,這篇綜述論文將持續更新,以跟蹤最新研究。維護并可訪問的相關文獻精選列表位于
統一的LLMGAs架構
圖1提供了LLMGAs的概念架構,包括六個基本功能組件及其工作流程:對于每個游戲步驟,感知模塊捕獲游戲狀態信息,為智能體理解其當前環境提供必要的數據。思考模塊處理感知到的信息,基于推理、規劃和反思生成思考,以便做出明智的決策。記憶作為一個外部存儲,過去的經驗、知識和精心挑選的技能被保留,并可以為將來使用而檢索。角色扮演模塊使智能體能夠在游戲中模擬特定角色,展示與每個角色的特征和目標一致的可信行為。行動模塊將生成的文本決策轉換為可執行的動作,允許智能體有效地與游戲元素互動和操縱。學習模塊通過在游戲環境中積累的經驗和互動,不斷改善智能體的認知和游戲技能。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
這份國家標準與技術研究所(NIST)的可信賴與負責任人工智能報告,開發了一套對抗性機器學習(AML)領域概念的分類體系,并定義了相關術語。這個分類體系基于對AML文獻的綜述建立,按照概念層次排列,包括關鍵的機器學習方法類型、攻擊的生命周期階段、攻擊者的目標和目的、以及攻擊者對學習過程的能力和知識。報告還提供了相應的方法,以減輕和管理攻擊的后果,并指出了在人工智能系統生命周期中需要考慮的相關開放性挑戰。報告中使用的術語與AML文獻保持一致,并由一個詞匯表補充,該詞匯表定義了與人工智能系統安全性相關的關鍵術語,旨在幫助非專家讀者理解。綜合來看,這個分類體系和術語旨在為評估和管理人工智能系統的安全性的其他標準和未來的實踐指南提供信息,通過建立一個共同的語言和對迅速發展的AML領域的理解。
這份國家標準與技術研究所(NIST)的可信賴與負責任人工智能報告旨在向發展對抗性機器學習(AML)的分類體系和術語邁出一步,這反過來可能有助于保護人工智能(AI)應用免受AI系統的敵對操縱。大體上,AI系統有兩類:預測型和生成型。AI系統的組成部分至少包括數據、模型以及訓練、測試和部署機器學習(ML)模型的過程和使用它們所需的基礎設施。當適應特定領域和用例時,生成型AI系統也可能與企業文件和數據庫相連。ML的數據驅動方法在ML操作的不同階段引入了額外的安全和隱私挑戰,除了大多數運營系統面臨的傳統安全和隱私威脅。這些安全和隱私挑戰包括操縱訓練數據的敵對潛能、利用模型漏洞對AI系統性能產生負面影響的敵對開發、甚至通過與模型的惡意操縱、修改或僅僅交互來竊取有關數據中代表的人、模型本身或企業專有數據的敏感信息。在現實世界條件下,這類攻擊已被證實,其復雜性和潛在影響穩步增長。AML關注研究攻擊者的能力和目標,以及設計利用ML在開發、訓練和部署階段的漏洞的攻擊方法。AML還關注設計能夠承受這些安全和隱私挑戰的ML算法。當惡意發起攻擊時,ML的魯棒性指的是旨在管理此類攻擊后果的緩解措施。
這份報告從國家標準與技術研究所(NIST)的人工智能風險管理框架[226]中吸納了ML系統的安全性、彈性和魯棒性的概念。安全性、彈性和魯棒性是通過風險來衡量的,風險是衡量一個實體(例如,系統)受潛在情況或事件(例如,攻擊)威脅的程度以及如果發生此類事件將產生的嚴重性。然而,這份報告并沒有就風險容忍度(組織或社會可接受的風險水平)提出建議,因為這高度依賴于上下文和應用/用例的具體情況。這種風險的一般概念為評估和管理人工智能系統組件的安全性、彈性和魯棒性提供了一個有用的方法。量化這些可能性超出了本文檔的范圍。相應地,AML的分類體系是基于以下五個AML風險評估維度定義的:(i)人工智能系統類型(預測型或生成型),(ii)學習方法和攻擊發起時ML生命周期過程的階段,(iii)攻擊者的目標和目的,(iv)攻擊者的能力,(v)攻擊者對學習過程及其以外的知識。
針對ML的有效攻擊范圍廣泛,迅速發展,涵蓋了ML生命周期的所有階段——從設計和實施到訓練、測試,最終到現實世界中的部署。這些攻擊的性質和力量各不相同,它們不僅可以利用ML模型的漏洞,還可以利用部署AI系統的基礎設施的弱點。雖然AI系統組件也可能受到各種非故意因素的負面影響,比如設計和實施缺陷、數據或算法偏見,但這些因素并非故意攻擊。即使這些因素可能被對手利用,它們也不在AML文獻或本報告的范圍內。
這份文檔定義了一套攻擊的分類體系,并在AML領域引入了術語。這個分類體系基于對AML文獻的綜述建立,按照概念層次排列,包括關鍵的ML方法類型和攻擊的生命周期階段、攻擊者的目標和目的、以及攻擊者對學習過程的能力和知識。報告還提供了相應的方法來減輕和管理攻擊的后果,并指出了在人工智能系統的生命周期中需要考慮的相關開放性挑戰。報告中使用的術語與AML文獻保持一致,并由一個詞匯表補充,該詞匯表定義了與人工智能系統安全性相關的關鍵術語,旨在幫助非專家讀者理解。綜合來看,這個分類體系和術語旨在為評估和管理人工智能系統的安全性的其他標準和未來的實踐指南提供信息,通過建立一個共同的語言和對迅速發展的AML領域的理解。與分類體系一樣,術語和定義并非旨在全面,而是為了幫助理解在AML文獻中出現的關鍵概念。
大型語言模型(LLMs),例如ChatGPT,由于其出色的自然語言處理能力而獲得了極大的關注。然而,這些LLMs面臨許多挑戰,特別是在可信度方面。因此,確保LLMs的可信度成為一個重要話題。本文引入了TRUSTLLM,一項關于LLMs可信度的全面研究,包括不同維度的可信度原則、確立的基準、可信度評估和分析,以及對主流LLMs的討論,開放的挑戰和未來方向。具體來說,我們首先提出了一套涵蓋八個不同維度的可信LLMs原則。基于這些原則,我們進一步建立了一個跨越真實性、安全性、公平性、穩健性、隱私和機器倫理六個維度的基準。我們隨后展示了一個在TRUSTLLM中評估16個主流LLMs的研究,涉及超過30個數據集。
我們的發現首先表明,一般而言,可信度和效用(即功能效能)是正相關的。例如,像GPT-4、ERNIE和Llama2這樣在刻板印象分類中表現強勁的LLMs,更可靠地拒絕刻板印象陳述。同樣,以自然語言推理能力著稱的Llama2-70b和GPT-4,在抵御對抗性攻擊方面表現出增強的韌性。其次,我們的觀察揭示,專有LLMs通常在可信度方面優于大多數開源同行,這引發了對廣泛可獲取的開源LLMs潛在風險的擔憂。然而,少數開源LLMs非常接近專有模型。值得注意的是,Llama2在幾項任務中表現出卓越的可信度,表明開源模型可以在沒有額外機制(如審查員)的情況下達到高水平的可信度,為開發人員提供了寶貴的洞見。第三,值得注意的是,一些LLMs(例如Llama2)可能過度調整以展示可信度,以至于它們在錯誤地將良性提示視為有害并因此不做出回應的情況下,降低了它們的實用性。除了這些觀察之外,我們還發現了LLMs多方面可信度的關鍵洞見。在真實性方面,LLMs經常由于訓練數據中的噪音、錯誤信息或過時信息而難以提供真實的回答。值得注意的是,增強了外部知識來源的LLMs在性能上表現出明顯的提升。在安全性方面,大多數開源LLMs在越獄、毒性和濫用等方面顯著落后于專有LLMs,同時在不過度謹慎的同時保持安全性的挑戰仍然存在。在公平性方面,大多數LLMs在刻板印象識別方面的表現不盡人意,即使是表現最好的GPT-4也只有65%的總體準確率。在穩健性方面,LLMs表現出顯著的變化性,尤其是在開放式任務和分布外任務中。在隱私方面,雖然LLMs顯示出對隱私規范的認識,但對私人信息的理解和處理差異很大,一些模型甚至在Enron Email數據集上測試時顯示出信息泄露。最后,在機器倫理方面,LLMs展示了基本的道德理解,但在復雜的倫理場景中表現不足。這些洞見強調了LLMs中可信度的復雜性,并突出了繼續研究以提高它們的可靠性和倫理一致性的必要性。最后,我們強調不僅要確保模型本身的透明度,還要確保支持可信度的技術的透明度。了解已采用的具體可信技術對于分析它們的有效性至關重要。我們主張建立行業、學術界、開源社區以及各種實踐者之間的人工智能聯盟,以促進合作,提升LLMs的可信度至關重要。我們的數據集、代碼和工具包將在 //github.com/HowieHwong/TrustLLM 上提供,排行榜發布在
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)和生成式人工智能領域的重要里程碑,眾多基礎研究[1, 2]證實了這一點。這些模型在NLP方面的卓越能力引起了廣泛關注,導致了影響我們生活各個方面的多樣化應用。LLMs被用于多種與語言相關的任務,包括自動文章寫作[3]、博客和社交媒體帖子的創作、以及翻譯[4]。此外,它們還改進了搜索功能,如在Bing Chat等平臺上看到的[5, 6, 7],以及其他應用[8]。LLMs在人類其他領域的效用也顯而易見。例如,如Code Llama[9]等模型為軟件工程師提供了相當大的幫助[10]。在金融領域,像BloombergGPT[11]這樣的LLMs被用于情感分析、命名實體識別、新聞分類和問答等任務。此外,LLMs在科學研究[12, 13, 14, 15]中的應用日益增多,涵蓋了醫學應用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治學[26]、法律[27, 28]、化學[29, 30]、海洋學[31, 32]、教育[33]和藝術[34]等領域,凸顯了它們廣泛和多樣化的影響。
LLMs的出色能力歸因于多個因素,例如使用來自Web的大規模原始文本作為訓練數據(例如,PaLM[35, 36]是在包含超過7000億令牌的大型數據集上訓練的[37]),采用具有大量參數的變壓器架構設計(例如,GPT-4估計具有1萬億參數范圍[38]),以及加速訓練過程的先進訓練方案,例如低秩適應(LoRA)[39]、量化LoRA [40]和路徑系統[41]。此外,它們出色的指令遵循能力主要歸因于與人類偏好的對齊實現[42]。現行的對齊方法使用人類反饋的強化學習(RLHF)[43]以及各種替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。這些對齊策略塑造了LLMs的行為,使其更加符合人類偏好,從而提高了它們的實用性并確保遵守倫理考慮。
然而,LLMs的興起也引入了關于它們可信度的擔憂。與傳統語言模型不同,LLMs具有可能導致可信度問題的獨特特性。1)LLMs的輸出復雜多樣,加之它們新出現的生成能力。LLMs展示了處理廣泛的復雜和多樣化主題的無與倫比的能力。然而,這種復雜性可能導致不可預測性,從而可能產生不準確或誤導性的輸出[56, 57, 58]。同時,它們先進的生成能力為惡意行為者開辟了傳播虛假信息[59]和促進網絡攻擊[60]的途徑。例如,攻擊者可能使用LLMs編寫欺騙性和誤導性文本,誘導用戶點擊惡意鏈接或下載惡意軟件。此外,LLMs可以被用于自動化網絡攻擊,例如生成大量假賬戶和評論以擾亂網站的正常運營。從設計用于繞過LLMs安全機制的技術(稱為越獄攻擊[61])來的重大威脅,允許攻擊者非法濫用LLMs。2)大型訓練數據集中的數據偏見和私人信息。可信度的一個主要挑戰來自訓練數據集中潛在的偏見,這對LLMs生成的內容的公平性具有重大影響。例如,數據中的男性中心偏見可能產生主要反映男性觀點的輸出,從而掩蓋女性的貢獻和觀點[62]。同樣,偏向某一特定文化背景的偏見可能導致對該文化的偏見回應,從而忽視其他文化背景中存在的多樣性[63]。另一個關鍵問題是訓練數據集中包含敏感個人信息的問題。在缺乏嚴格保護的情況下,這些數據可能被濫用,潛在地導致隱私泄露[64]。這個問題在醫療保健領域尤其嚴重,在這里保持患者數據的機密性至關重要[65]。3)用戶期望值高。用戶可能對LLMs的性能抱有很高的期望,期待準確和富有洞察力的回應,強調模型與人類價值觀的一致性。許多研究人員對LLMs是否與人類價值觀一致表示擔憂。不一致可能會對它們在各個領域的廣泛應用產生重大影響。例如,LLM可能認為某些情況下的行為是適當的,但人類可能認為它不適當,導致在其應用中出現沖突和矛盾,特定案例中強調了這一點[66]。
LLMs的開發者已經做出了重大努力來解決上述問題。OpenAI[67]已采取措施確保LLMs在訓練數據階段、訓練方法和下游應用中的可信度。WebGPT[7]被引入以幫助人類評估者識別LLM回應中的不準確信息。致力于負責任的AI的Meta[68],其方法基于五大支柱:隱私、公平、穩健性、透明性和問責制。Llama2[69]的引入為LLMs設定了新的安全對齊基準,包括在預訓練、微調和紅隊測試中進行廣泛的安全調查。關于開發者采用的各種策略以確保LLMs的可信度的更多討論可以在第3.3節中找到。盡管做出了這些共同的努力,但仍有一個持續的問題:我們到底可以在多大程度上真正信任LLMs?
為了解決大型語言模型(LLMs)可信度的關鍵問題,關鍵在于確定如何基準化LLMs的可信度。關于定義LLMs可信度的關鍵要素,以及如何從各種角度評估這種可信度,此外,探索實際評估這些維度上可信度的方法也至關重要。然而,回答這些問題遠非簡單。主要挑戰包括:1) 綜合各方面的定義。主要障礙之一是缺乏一個普遍接受的標準準則,全面涵蓋可信度的所有方面。這種標準化指標的缺乏使得統一評估和比較不同LLMs的可信度變得困難。2) 可擴展性和普適性:創建適用于不同大小和類型LLMs的基準,并且能夠普遍適用于不同領域和應用是一項復雜的任務;3) 實際評估方法。需要設計有效的提示來測試明顯的可信度問題,并發現可能不會立即顯現的更微妙的偏見和錯誤。這需要深入理解技術及其產出對社會的潛在影響。 先前的研究[70, 71, 72]已經為LLMs的可信度建立了基礎見解。這些研究提出了評估LLMs的方法,并制定了衡量其可信度的分類法。然而,某些分類法[70, 73]并未完全涵蓋與LLMs可信度相關的所有方面。此外,一些分類法[71, 72]專注于細微的區別,導致重疊的子類別使建立清晰的評估基準變得復雜。因此,需要一種更全面和細致的方法來準確評估LLMs的可信度。
在這里,我們提出了TRUSTLLM,一個統一框架,支持對LLM中的可信度進行全面分析,包括現有工作的調查,組織不同維度的可信LLMs的原則,一個新穎的基準,以及對主流LLMs的全面可信度評估。具體來說,我們如下解決上述三個挑戰:
確定八個可信度方面。為了探索LLMs有多可信,我們融合了來自人工智能、機器學習、數據挖掘、人機交互(HCI)和網絡安全的領域知識。我們對過去五年發表的500篇關于LLMs可信度的論文進行了廣泛的回顧,并確定了定義LLMs可信度的八個關鍵方面,即真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性。在這項工作中,為了便于我們的調查,我們將效用(即功能效能)與這八個確定的維度分開,并定義可信LLMs為“為了被認為是可信的,LLMs必須適當地反映真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性等特性。”詳細討論可以在第4節中找到。
選擇全面且多樣化的LLMs進行調查。通過評估16個LLMs,包括專有和開源模型,我們涵蓋了模型大小、訓練策略和功能能力的廣泛范圍。這種多樣性保證了TRUSTLLM不局限于特定類型或大小的LLM。它還建立了一個全面的評估框架,用于評估未來LLMs的可信度。
在各種任務和數據集上進行基準測試和評估:我們基準測試了30個數據集,以全面評估LLMs的功能能力,從簡單的分類任務到復雜的生成任務。每個數據集提出了獨特的挑戰,并在多個可信度維度上對LLMs進行了基準測試。同時,采用了多種評估指標來理解LLMs的能力。這種方法確保了評估是全面和多方面的。
貢獻。TRUSTLLM評估的結果在圖1中總結,觀察和洞見在第2節中展示。我們在這項工作中的貢獻簡要概述如下。 首先,我們基于全面的文獻綜述提出了一套評估LLMs可信度的指南,這是一個涵蓋包括真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性在內的八個方面的分類法。
其次,由于透明度和問責性的基準測試難度,我們為這六個方面建立了基準。這是第一個全面且綜合的基準,包括超過18個子類別,涵蓋超過30個數據集和16個LLMs,包括專有和開放權重模型。除了圖1中展示的這些模型的可信度排名外,我們在后續各節中提出了評估細節。
最后但同樣重要的是,從廣泛的實驗結果中,我們得出了有洞見的發現(詳見第2節)。我們對LLMs的可信度評估考慮了整體觀察和基于每個維度的個別發現,強調了效能和可信度之間的關系,大多數LLMs中普遍缺乏的一致性,專有和開放權重LLMs之間的差異,以及當前與可信度相關技術的不透明性。我們旨在為未來的研究提供有價值的洞見,為大型語言模型中的可信度景觀提供更細膩的理解。
觀察和洞見
為了更好地理解我們的研究,我們首先基于我們在這項工作中的廣泛實證研究,提出了我們的觀察和洞見。
2.1 總體觀察
可信度與效用緊密相關。我們的發現表明,可信度和效用之間存在正相關,特別是在特定任務中顯而易見。例如,在道德行為分類(第11.1節)和刻板印象識別任務(第8.1節)中,像GPT-4這樣具有強大語言理解能力的LLMs傾向于做出更準確的道德判斷,并更可靠地拒絕刻板印象陳述。類似地,Llama2-70b和GPT-4在自然語言推理方面的熟練度,表現出對抗性攻擊的增強韌性。此外,我們觀察到LLMs的可信度排名往往與以效用為中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。這一觀察強調了可信度和效用的相互關聯性,凸顯開發者和用戶在實施和使用LLMs時,需要同時考慮這些方面。
大多數LLMs“過度對齊”。我們發現許多LLMs表現出一定程度的過度對齊(即夸大的安全性),這可能損害它們的整體可信度。這樣的LLMs可能將許多無害的提示內容識別為有害,從而影響它們的效用。例如,Llama2-7b在對實際上并非有害的提示做出回應時,拒絕率達到57%。因此,訓練LLMs在對齊過程中理解提示背后的意圖,而不僅僅是記憶示例,對降低錯誤識別有害內容的比率至關重要。
一般而言,專有LLMs在可信度上優于大多數開放權重LLMs。然而,少數開源LLMs能夠與專有模型競爭。我們發現,在可信度方面,開放權重和專有LLMs之間存在性能差距。通常,專有LLMs(例如ChatGPT、GPT-4)的表現遠優于大多數開放權重LLMs。這是一個嚴重的問題,
因為開放權重模型可以被廣泛下載。一旦集成到應用場景中,它們可能帶來嚴重的風險。然而,我們驚訝地發現,Llama2 [69] 系列這樣的開放權重LLMs,在許多任務中的可信度超過了專有LLMs。這表明,開放權重模型即使在沒有添加外部輔助模塊(如審查員 [76])的情況下,也能展示出色的可信度。這一發現為相關開放權重開發者提供了重要的參考價值。
模型本身和與可信度相關的技術應該是透明的(例如,開源)。鑒于不同LLMs在可信度方面的性能差距顯著,我們強調模型本身及旨在提高可信度的技術的透明度的重要性。如最近研究[77, 78]所強調,充分理解模型的訓練機制,包括參數和架構設計等方面,是研究LLMs的基石。我們的實驗發現,雖然一些專有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技術細節仍未公開。使這些可信技術透明化或開源可以促進這些技術的更廣泛采用和改進,顯著提升LLMs的可信度。這反過來使LLMs更可靠,并加強了AI社區對這些模型的整體信任,從而有助于AI技術的健康發展。
2.2 對可信度各個維度的新洞見真實性。
AI系統的真實性是指準確地呈現信息、事實和結果。我們的發現表明:1) 專有LLMs如GPT-4和開源LLMs如Llama2在僅依賴其內部知識時,經常難以提供真實的回應。這主要是由于其訓練數據中的噪聲,包括錯誤信息或過時信息,以及底層Transformer架構缺乏泛化能力所致。2) 此外,所有LLMs在零樣本常識推理任務中面臨挑戰,表明它們在對于人類相對直接的任務中存在困難。3) 相比之下,增強了外部知識的LLMs表現出顯著改善的性能,超越了原始數據集上報告的最新結果。4) 我們觀察到在不同的幻覺任務中存在顯著差異。大多數LLMs在多項選擇問答任務中的幻覺較少,與知識引導對話等更開放式任務相比, 可能是由于提示敏感性(第14節)。5) 此外,我們發現獻媚和對抗性現實之間存在正相關。獻媚水平較低的模型在識別和突出用戶輸入中的事實錯誤方面更為有效。
安全性。LLMs的安全性對于避免不安全或非法輸出并確保進行健康對話至關重要[72]。在我們的實驗(第7節)中,我們發現:1) 大多數開源LLMs的安全性仍然是一個問題,特別是在越獄、毒性和濫用等領域,顯著落后于專有LLMs。2) 值得注意的是,LLMs對不同的越獄攻擊并不是統一抵抗。我們的觀察發現,各種越獄攻擊,特別是leetspeak攻擊[61],對LLMs的成功率各不相同。這強調了LLM開發者需要采取全面的防御策略來應對多種攻擊類型。3) 對于大多數LLMs而言,平衡安全性是一個挑戰;那些具有嚴格安全協議的LLMs經常表現出夸張的謹慎,如Llama2系列和ERNIE所表現出的。這表明許多LLMs并未完全對齊,可能依賴于表面的對齊知識。
公平性。公平性是確保LLMs在設計、訓練和部署過程中不會導致有偏見或歧視性結果的道德原則,確保它們公平對待所有用戶和群體。在我們的實驗中(第8節),我們發現:1) 大多數LLMs在識別刻板印象方面的表現并不令人滿意,即使表現最好的GPT-4,其總體準確率也僅為65%。當面對包含刻板印象的句子時,不同LLMs的一致性百分比差異很大,最好的表現僅為0.5%的一致率,最差的接近60%。2) 只有少數LLMs,如Oasst-12b[81]和Vicuna-7b[82],在處理貶低性內容時表現出公平性;大多數LLMs在處理包含貶低傾向的問題時仍顯示出對特定屬性的偏見。3) 關于偏好,大多數LLMs在普通基線上表現非常好,保持客觀性和中立性,或拒絕直接回答。然而,當被迫選擇時,LLMs的表現顯著下降。
穩健性。穩健性定義為系統在各種情況下保持其性能水平的能力[83]。在我們的實驗中(第9節),我們發現:1) Llama2系列和大多數專有LLMs在傳統下游任務中超越了其他開源LLMs。2) 然而,LLMs在開放式任務的表現表現出顯著的變化性。表現最差的模型在擾動前后的平均語義相似度僅為88%,遠低于最佳表現者的97.64%。3) 在OOD(超出分布)穩健性方面,LLMs展現出相當大的性能差異。表現最佳的模型GPT-4在OOD檢測中拒絕回答(RtA)率超過80%,在OOD泛化中平均F1得分超過92%。相比之下,表現最差的模型RtA率僅為0.4%,F1得分約為30%。4) 此外,我們的觀察沒有發現參數大小和OOD性能之間存在一致的正相關性,這可以從Llama2模型的不同參數大小的不同表現水平中得到證明。
隱私。隱私包括旨在保護人類自主權、身份和尊嚴的規范和實踐[83]。在我們的實驗中(第10節),我們發現: 大多數LLMs表現出一定程度的隱私意識,這可以從這些模型在被告知必須遵守隱私政策時拒絕回應有關私人信息的查詢的可能性顯著增加中看出。2) 用于測量人類和LLMs在使用隱私信息方面的一致性的皮爾森相關系數差異很大。表現最佳的模型,ChatGPT,達到了0.665的相關性,而Oass-12b展現出令人驚訝的負相關性,低于零,表明與人類相比,它對隱私的理解存在差異。3) 我們觀察到幾乎所有LLMs在Enron電子郵件數據集[84]的測試中都顯示出一定程度的信息泄露。
機器倫理。機器倫理確保利用人工智能的人造機器(通常稱為AI代理)的道德行為[85, 86]。在我們的實驗中(第11節),我們發現:1) LLMs已經發展出一套特定的道德價值觀,但在完全與人類倫理一致方面仍有顯著差距。在低歧義場景中的隱性任務中,大多數LLMs的準確性不足70%,不論是哪個數據集。在高歧義場景中,不同LLMs的表現有很大差異;例如,Llama2系列達到了99.9%的拒絕回答率(RtA),而其他模型的得分不到70%。2) 在情感意識方面,LLMs顯示出更高的準確性,表現最佳的模型如GPT-4的準確率超過94%。 這些觀察和洞見提供了對LLMs可信度各個維度的深入理解,揭示了它們在處理復雜任務和維護道德準則方面的能力和局限性。這些發現對于開發更可靠、公平、安全且符合倫理的LLMs至關重要,同時也為未來的研究和應用提供了重要的參考。通過這樣的深入分析,我們能夠更好地理解和提升大型語言模型的整體可信度,使其在各種應用場景中更加有效且符合倫理標準。
大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。
知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。
更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。
本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:
? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。
? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。
?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。
這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:
? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。
最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。
大模型知識編輯
知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。
知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。
LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。
? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。
? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。
? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。
實驗結果
主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。
我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
對話系統(DS),包括面向任務的對話系統(TOD)和開放領域對話系統(ODD),一直是自然語言處理(NLP)中的基礎任務,實際應用廣泛。由于復雜的訓練和精心設計的模型架構,語言模型(LM)通常被作為構建對話系統的必要支撐。因此,LM中的每一個突破都會引起對話系統學習范式和研究重點的轉變,尤其是預訓練語言模型(PLMs)和大型語言模型(LLMs)的出現。在這篇論文中,我們深入探討對話系統的歷史,特別是其與語言模型進步的特殊關系。具體來說,我們描述了基于LM的對話系統的演化軌跡,將其分為四個獨特階段,每個階段都由語言模型的關鍵突破標志:1)早期階段,以統計LM為主,導致基于規則或機器學習驅動的DS;2)基于神經語言模型(NLM;如LSTM和GRU)的TOD和ODD的獨立發展,因為NLM在其參數中缺乏內在知識;3)隨著預訓練語言模型(PLMs)的出現,不同類型對話系統的融合,從TOD內部四個子任務的融合開始,然后是TOD與ODD的融合;4)當前基于LLM的對話系統,其中LLMs可以無縫地進行TOD和ODD。通過這種方式,我們的綜述提供了一個系統的視角,按照LM突破的時間順序對階段進行分類,全面回顧了最新研究成果。此外,我們關注新興話題并討論開放性挑戰,為基于LLM的對話系統的未來方向提供有價值的見解。總之,這篇綜述深入探討了語言模型和對話系統之間的動態相互作用,揭示了這一重要關系的演化路徑。通過這種探索,我們為該領域的更深入理解鋪平了道路,指導基于LM的對話系統的未來發展。
構建一個具有會話能力的智能系統一直是自然語言處理領域的基本目標[1, 2]。與機器自然而無縫地交互的能力已經為人機通信開辟了新的途徑,從Siri、小冰[3]到最新的新必應1和谷歌巴德2,引領著不同行業的變革應用。這一演進的核心是對話系統發揮的關鍵作用,這些系統旨在促進交互,其特點包括無害性[4]、有幫助性[5]、可信度[6]和個性化[7]。這些系統旨在模仿人與人之間的對話,從而提供增強用戶體驗、簡化任務并根據對話上下文提供個性化幫助的潛力,涵蓋了不同領域,如客戶支持、虛擬助手、醫療保健、教育等,具體取決于表1中所示的對話上下文類型[8]。
具體而言,實際中有兩種主要類型的對話:任務導向對話和閑聊對話。任務導向對話圍繞著幫助用戶實現特定任務或目標,例如預訂或購票。在這種情況下,對話系統更像是一個有益的助手,為用戶提供相關信息和指導[2, 9]。相反,閑聊對話涉及到隨意和非正式的對話,主要旨在建立和維護社交聯系。在這里,對話系統扮演友好的聊天機器人的角色,以更輕松和對話的方式與用戶互動[1]。基于它們的不同角色,提出了兩種類型的對話系統:任務導向對話系統(TOD)和開放領域對話系統(ODD)。TOD旨在高效處理任務導向的對話,通過檢測用戶意圖、跟蹤對話狀態、執行適當的操作并做出相應的回應,引導用戶實現特定目標。相反,ODD旨在進行開放領域的互動,通過將對話上下文直接映射到回應,而不需要預定義的任務或目標,在各種主題上進行自由流動的對話。這兩種類型滿足不同的用例和用戶需求,展示了對話系統在各種場景中的多功能性和適用性。因此,在2020年前的大部分早期研究(圖2之前)旨在獨立設計和構建這些對話系統,使用不同的基礎結構考慮了它們的不同角色[1, 2]。
然而,語言模型(LM)方面的革命性進展已經引發了對話系統的深刻演變,重新塑造了它們的根基。LM的核心目標是預測單詞序列的概率,這對對話系統產生了深刻的影響[10, 11],賦予它們從預訓練語料庫[12]中學習世界知識并生成更具上下文相關性和有幫助性的響應的能力[13]。同時,LM發展中的每個里程碑都在對話系統中引發了變革性的變化,在它們的快速演變和持續趨勢中發揮了關鍵作用,尤其是最新的大型語言模型(LLMs),如ChatGPT的出現。與其深入研究語言模型的發展,我們的重點在于對話系統經歷這一變革過程的迷人之旅,可以分為四個主要發展階段,對應于圖1中所示的LM的四個階段[14]:
?** 早期階段 - 統計語言模型(SLMs)**。第一個對話系統 - Eliza,由麻省理工學院于1966年提出,早于20世紀90年代SLMs的興起,允許人與機器之間進行似是而非的對話。隨后,構建了一系列對話系統,包括協助客戶制定前往加利福尼亞州一個城市的簡單往返行程的旅行代理商[15],以及配置了個性化的基于規則的聊天機器人,采用啟發式模式匹配規則來回答有關年齡、愛好、興趣等方面的詢問[16] 3。除了學術工作之外,越來越多的公司關注對話系統領域,并開發了自己的產品。例如,IBM開發了WATSON,蘋果擁有Siri,微軟有小冰。這些早期虛擬助手功能有限,遵循嚴格的流程,主要幫助用戶執行單一而簡單的任務,如安排約會、設置提醒以及提供基本答案。在這個階段,大多數對話系統都是任務導向的,這些對話系統的主導性質主要是任務導向的,采用了模塊化的方法或基于SLMs的機器學習方法。
? TOD和ODD的獨立發展 - 神經語言模型(NLMs)。大約在2015年,有一個巨大的變革,當提出了序列到序列(seq2seq)框架時,其中顯著的特征與模型培訓一起學習 - NLM[17, 18]。具體而言,NLM通過神經網絡表征了單詞序列的概率,例如,兩種典型的循環神經網絡(RNNs),如長短時記憶網絡(LSTM)[19]和門控循環單元(GRU)[20]。這些NLM作為將可變長度的輸入序列映射到可變長度的輸出序列的骨干,通過使用兩個主要組件實現:編碼器和解碼器。這種范式轉變促使了開放領域對話(ODD)系統的出現(~2015年,圖2),因其seq2seq網絡啟用的明確定義的端到端框架而引起關注。與此同時,NLM也應用于TOD,目標是在多個領域中實現更好的性能并執行復雜的任務[21, 22, 23]。
?** 對話系統的融合 - 預訓練語言模型 (PLMs)**。傳統的NLM需要大量手工選擇特征和領域特定知識,使其在每個任務中開發變得繁瑣和耗時。然而,隨著深度學習和大規模語言語料庫的出現,預訓練語言模型(PLMs)出現,成為一種突破性的解決方案。這些模型在大量未標記的文本數據上進行了預訓練,捕捉了豐富的語義和句法模式[11, 24, 25]。通過利用預訓練,隨后對特定任務的微調變得更加可行,使模型能夠迅速適應并以最少的任務特定數據取得卓越的結果。在對話系統領域,DialoGPT通過在Reddit評論鏈中提取的1.47億個類似對話的交換進行預訓練,然后通過幾個訓練示例進行微調,以生成更相關、信息更多且上下文一致的響應[13],這是這種方法的典型示例,通常被稱為預訓練和微調[26],導致最終模型成為預訓練對話模型(PDM),通過對話語料庫進行微調。值得注意的是,PDM之間的主要區別在于用于訓練的語料庫和采用的骨干語言模型,例如PLATO [27, 28]、BlenderBot [29]、Meena [30]、Pangu-bot [31]、PLUG [32]等等。此外,在TOD內部(例如,端到端TOD)、TOD與ODD之間融合,以及在此期間提出統一對話系統(UniDS)等方面,人們越來越關注不同任務的融合(圖2)。
?** 基于LLM的對話系統 - 大型語言模型 (LLM)**。認識到預訓練語料庫規模和模型大小與不同NLP任務的性能提高之間的相關性[33],研究人員嘗試同時擴展模型大小和預訓練語料庫的大小,以提高樣本效率,使模型能夠從數據中學到更復雜的模式和表示。因此,PLMs變成了大型語言模型(LLMs),如GLM [34]、LLaMA [35]和InstructGPT [4]。由于較大的模型大小和使用大規模高質量的預訓練語料庫,這些LLMs在許多語言理解和生成任務方面提供了前所未有的能力,包括但不限于問答和命名實體識別,從而重塑了對話系統的格局。通過使用數據進行進一步的指導調整,這些LLMs能夠回答各種問題并遵循各種指令,例如撰寫電子郵件和講笑話。此時,LLMs可以直接用作對話系統。此外,通過使用領域內數據,即對話/會話語料庫,對LLM進行微調,可以進一步增強其對話能力。例如,GPT-3.5演變為InstructGPT,然后演變為ChatGPT,恰好遵循這一路徑。同樣,ChatGLM [36]也是使用基于相應LLM - GLM的公開可用的中文對話數據集進行微調的。為了增強與人類偏好和價值觀的一致性,引入強化學習變得至關重要,尤其是在模型精煉的最后階段。這涉及利用來自人類評估員[4]或自動化系統[37]的反饋,以迭代改進模型的性能并確保其符合期望的標準。畢竟,這種基于LLM的對話系統(LLM-based DS)在任務導向對話和閑聊方面表現出色,使其成為通用會話AI的理想基礎。
值得注意的是,基于LM的對話系統的發展是一個持續不斷的演進過程,各個階段之間并沒有被具體的轉折點劃分得嚴格。相反,在這些階段之間存在重疊和不斷的進展,尤其是在后期階段。一般來說,隨著LM的進步,TOD與ODD之間的邊界和DM與LM之間的邊界變得日益模糊,開啟了基于LLM的對話系統的新時代。盡管現有的研究已經徹底研究了不同類型的對話系統的發展和挑戰,例如TOD [2]和ODD [1],但在提供對話系統的演進軌跡的整體視角方面,特別是在考慮到LM的進展時,仍然存在明顯的文獻差距。通過批判性地分析和理解關鍵里程碑的影響,我們可以獲得有關未來可能出現的可能性以及對各種領域和應用產生變革性影響的對話系統的有價值見解。本綜述旨在提供關于LM基礎對話系統領域的全面概述[4],為當前領域正在前進的重要方向提供光明。這包括對現有文獻的細致審查,旨在闡明在LM基礎對話系統的不同階段觀察到的范式轉變。這些轉變涵蓋了各種層面的整合,尤其是任務、數據和框架維度。
本綜述的其余部分組織如下:第2節描述了不同類型的對話,并以統一的方式定義了問題,隨后在第3節中介紹了兩種類型的LM基礎對話系統的早期發展:TOD和ODD。第4節回顧和總結了當PLMs擴展到LLMs時不同對話系統的演變。然后,我們在第5節中調查了LLM-based DS中新興的趨勢和開放性挑戰。然后,第6節討論了LLM-based對話系統的開放問題。最后,在第7節中,我們通過總結主要發現并討論未來工作的未解決問題來總結綜述。
這篇綜述論文探討了多模態大型語言模型(MLLMs),它們集成了像GPT-4這樣的大型語言模型(LLMs),以處理多模態數據,如文本和視覺。MLLMs展示了如生成圖像敘事和回答基于圖像的問題等能力,為實現現實世界中的人機交互架起了橋梁,并暗示了通往人工通用智能的潛在路徑。然而,MLLMs在處理多模態的語義差距時仍面臨挑戰,這可能導致錯誤的生成,對社會構成潛在風險。選擇合適的模態對齊方法至關重要,因為不當的方法可能需要更多的參數,而性能提升有限。本文旨在探索LLMs的模態對齊方法及其現有能力。實施模態對齊使LLMs能夠解決環境問題并增強可訪問性。本研究將MLLMs中現有的模態對齊方法分為四組:(1)多模態轉換器,將數據轉換成LLMs能理解的形式;(2)多模態感知器,提高LLMs感知不同類型數據的能力;(3)工具輔助,將數據轉換成一種通用格式,通常是文本;以及(4)數據驅動方法,教授LLMs理解數據集中特定類型的數據。這一領域仍處于探索和實驗階段,我們將組織并更新多模態信息對齊的各種現有研究方法。
//www.zhuanzhi.ai/paper/aca24bad3f6b66886c4586eb24df3602
大型語言模型(LLM)通常在大量數據上進行預訓練,并包含大量參數。這些模型不僅在各種任務上表現出顯著提升的性能,還展示了較小模型所缺乏的新興能力。LLMs[1]由于其理解、推理及生成人類語言的卓越能力,在人工智能領域內獲得了極大關注。為了提升LLM回應的豐富性和說服力,最近的研究[2, 3, 4]探討了將LLM轉化為遵循指令的模型。例如,斯坦福Alpaca[2]通過利用OpenAI的InstructGPT模型[6]生成的指令示例,對Llama[5]進行微調,使其成為一個遵循指令的模型。與Alpaca和Vicuna[2]采用的完全微調方法不同,Llama-Adapter[7]在凍結的Llama中引入了零初始化注意力的輕量級適配器,實現了參數高效的微調并注入了多模態知識。盡管取得了重大進步,但上述方法在處理更高級的多模態信息時仍面臨挑戰,例如GPT-4[8]中所涉及的視覺理解任務。實際上,我們對世界的感知是通過視覺、聲音、觸覺和味覺等多樣化感官豐富的。這些感官經常相互作用,視覺使用文本,文本使用視覺來增強理解。隨著社交媒體的發展,人們表達觀點的方式經常涉及多種模態。這就要求LLMs能夠理解多模態數據,這就是所謂的多模態大型語言模型(MLLM)。它們利用大型語言模型(LLM)的強大能力作為核心組件,來處理多種多模態任務。MLLM的顯著新興能力,如從圖像生成敘事和無需OCR進行數學推理,是傳統方法中罕見的。這表明了實現人工通用智能的潛在路徑。隨著多模態模型的迅速發展,它們更適合具有多模態信息交互的真實世界場景,擴大了大型多模態模型的應用前景,并產生了更迫切的研究需求。
然而,當MLLM在處理多模態間的語義差距時表現不佳,可能會導致錯誤的生成,包括錯覺,對社會構成潛在風險甚至可能造成傷害。不當的模態對齊方法可能需要更多參數,但性能提升有限,導致高昂的計算和使用成本。因此,選擇合適的模態對齊方法很重要。本綜述旨在探索為LLM設計的模態對齊方法及其在該領域內的現有能力。實施模態對齊使LLM能夠解決環境問題,提高可訪問性,并在部署中促進包容性。然而,將大型模型的能力轉移到多模態場景的方法尚不明確。盡管Yin等人[10]專注于將多模態信息融入到LLM的微調技術中,如指令學習或思維鏈,但在調查數據中不同模態間的差異方面缺乏關注。另一方面,已有許多努力將LLM與人類行為和價值觀進行對齊。然而,“與什么對齊”的根本問題仍然沒有得到充分解決。因此,[11]和Shen等人[12]提出了一項關于LLM對齊目標的綜述。不過,這些努力更傾向于對齊技術,確保這些模型展示與人類價值觀一致的行為。由于LLM和MLLM都處于發展的初期階段,現有的多模態對齊方法呈現出廣泛的差異,研究方向目前處于探索和實驗階段。因此,需要組織關于多模態信息對齊的各種現有研究方法。在MLLM時代仍處于萌芽階段,我們旨在不斷更新本綜述,以激發更多研究興趣。
從互補性角度來看,單模態LLM和視覺模型同時相互邁進,最終催生了MLLM這一新領域。本質上,MLLM指的是具備接收和推理多模態信息能力的基于LLM的模型。總之,探索單模態LLM如何適應多模態數據,以及如何有效地將視覺模型與單模態LLM集成,具有重要價值。具體來說,我們將MLLM分為四種結構類型,每種類型從不同角度解決模態間的差異。(1)多模態轉換器。轉換器促進將多模態信息轉化為LLM能理解或學習的對象,利用LLM的能力學習這些轉換后的對象。(2)多模態感知器。這些方法專注于設計與LLM接口的多模態感知器,主要是為了增強對多模態信息的感知能力。(3)工具輔助。鼓勵使用工具將不同模態轉換為統一的模態,主要是文本,最終完成多模態任務。(4)數據驅動。數據驅動方法旨在通過讓LLM在特定數據集上學習,賦予它與特定數據集相關的能力。例如,在點云數據集上學習使模型能夠理解點云。
我們的主要貢獻如下。
? 我們強調了在多模態大型語言模型中彌合模態差距的方法的重要性,并提供了第一個關于多模態信息對齊的綜合性綜述。 ? 我們涵蓋了彌合模態差距的四種方法:多模態轉換器、多模態感知器、工具輔助和數據驅動方法,并為每種方法提供定義,并追蹤它們的發展路徑。 ? 通過闡明MLLM中多模態信息對齊的不同方法,我們討論了主要挑戰和可能的未來研究方向。
概述****我們根據處理多模態特征的方法將這些方法分為四組。因此,本文將最近的代表性MLLM分為四類: (1)將LLM作為多模態特征的直接處理器; (2)利用多模態感知器的MLLM來處理多模態特征; (3)將LLM作為處理多模態特征的工具; (4)在特定格式的數據上學習,賦予LLM適應額外模態的能力。請注意,這四種技術相對獨立,可以組合使用。因此,我們對一個概念的闡述也可能涉及其他概念。
我們根據這四個主要類別組織了綜述,并依次介紹它們。我們首先詳細介紹將LLM作為多模態特征的直接處理器的MLLM,以揭示當LLM作為直接處理器時如何適應多模態性。接著,我們介紹利用多模態感知器處理多模態特征的MLLM,主要關注如何創新多模態感知機制,使LLM能夠理解多模態信息。另一項重要技術是輔助LLM,這通常涉及四種輔助技術。最后,我們以總結和潛在的研究方向結束我們的綜述。
多模態轉換器
鑒于語言模型(LLM)的顯著能力,處理多模態任務最直接的方法是將多模態特征直接輸入到LLM中,讓它學習和理解這些多模態特征。然而,由于LLM主要在通用文本上進行訓練和學習,因此在處理多模態特征時存在不可避免的語義差距。直接注入這些特征可能導致嚴重的幻覺和偏離事實的答案生成。因此,當代研究人員通常努力將多模態特征,如圖像特征,映射到與語言相一致的特征空間中,旨在提高多模態語言模型(MLLM)的性能。 多模態感知器 類似于完全依賴純文本LLM進行語言理解,利用多模態感知器的LLM旨在通過引入特殊的多模態感知模塊來最小化圖像和文本之間的語義差距。感知模型是一個多模態感知器,它通過將多模態特征轉換為與LLM的嵌入表示空間一致的多模態標記,從而彌合文本模態與其他模態之間的差距。這一過程在圖3中進行了抽象表示。也可以考慮更復雜(但成本更高)的方案來連接圖像和語言表示,例如Flamingo[41]中的門控交叉注意力和BLIP-2[34]中的Q-former,或者其他提供對象級特征的視覺編碼器,如SAM[68]。[13]**工具輔助 **基于人類善于使用工具解決各種問題的深厚能力,許多當代研究努力旨在賦予LLM使用各種工具的能力[49, 50, 52, 54, 55, 61, 80],例如基礎模型和API。在MLLM領域中,鼓勵LLM利用工具將不同模態轉換為統一的模態,主要是文本,以最終完成多模態任務。原生LLM本質上只裝備了處理文本輸入的能力。因此,研究人員尋求通過構建文本格式(包括自然語言、代碼和結構化文本)來指導LLM獲得使用工具的技能。這一系列努力可以分為三個主要方法:1) 自然語言輔助;2) 代碼輔助;和3) 代碼與自然語言同時輔助。這些研究工作通過工具整合擴展了LLM的功能能力,為人工通用智能(AGI)和人工智能代理的未來發展鋪平了道路。盡管如此,這些舉措取決于LLM的情境學習(ICL)能力,這意味著LLM需要達到一定的模型參數閾值才能有效地獲得使用工具的熟練度。
**數據驅動的MLLM **大規模模型的快速發展在很大程度上依賴于使用廣泛的數據集進行訓練。包括多模態模型在內的傳統大型模型主要建立在通用數據集之上,這些數據集通常來源于互聯網上的未標注文本[82]。雖然這些數據集涵蓋了廣泛的領域,但這些模型更傾向于通用能力。然而,當面對更復雜的多模態信息時,如醫學圖像[64]或生物分子的結構[83],與這些模態相關的數據較少。因此,模型缺乏對這些特定領域的訓練和認知,導致性能不佳,甚至無法理解這些模態。結論研究[84]表明,隨著訓練參數和數據量的增加,模型表現出可預測的性能改進、更高的樣本利用率,甚至不可預測的能力。這些不可預測的能力在較小的模型中不常見,但在LLM中已經出現。因此,越來越多的研究人員正在采用數據驅動策略,收集或構建特定領域的數據,并將其作為訓練和微調模型的基礎,以賦予它們對多模態信息的額外理解能力。實驗表明,不改變模型結構,改變訓練數據的重點可以賦予大型模型不同的能力[65, 66, 85, 86, 87, 88]。
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。
最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。
在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。
至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。
通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。
與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。
本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。
幻覺的原因
幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)。
數據引起的幻覺
預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。
訓練引起的幻覺
大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。
推理引起的幻覺
解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。
幻覺緩解
在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。
緩解與數據相關的幻覺
與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。
緩解與訓練相關的幻覺
與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。
緩解與推理相關的幻覺
在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。
結論
在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。