這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
本綜述深入探討了大型語言模型(LLMs)領域內的知識蒸餾(KD)技術,突出了KD在將GPT-4等專有巨頭的復雜能力轉移至LLaMA和Mistral等可訪問的開源模型中的關鍵作用。在不斷演變的人工智能領域,這項工作闡明了專有和開源LLMs之間的關鍵差異,展示了KD如何作為一種重要的渠道,將前者的高級功能和細膩理解注入后者。我們的綜述圍繞三個基礎支柱:算法、技能和垂直化——提供了對KD機制、特定認知能力的增強以及它們在不同領域的實際應用的全面考察。關鍵地,綜述導航了數據增強(DA)與KD之間復雜的相互作用,闡述了DA如何在KD框架內作為一個強大的范式出現,以提升LLMs的性能。通過利用DA生成豐富上下文、特定技能的訓練數據,KD超越了傳統界限,使開源模型能夠逼近其專有對應物的上下文熟練度、倫理一致性和深層語義洞察力。這項工作旨在為研究人員和實踐者提供一個富有洞察力的指南,提供知識蒸餾當前方法論的詳細概述,并提出未來研究方向。通過彌合專有和開源LLMs之間的差距,本綜述強調了更可訪問、高效和可持續人工智能解決方案的潛力,促進了人工智能進步中更加包容和公平的景觀。相關的Github倉庫可在//github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs處獲得。
在人工智能(AI)不斷演變的景觀中,如GPT3.5(Ouyang et al., 2022)、GPT-4(OpenAI et al., 2023)、Gemini(Team et al., 2023)和Claude2等專有的大型語言模型(LLMs)已經作為開創性技術出現,重塑了我們對自然語言處理(NLP)的理解。這些模型以其龐大的規模和復雜性為特征,開啟了新的可能性領域,從生成類人文本到提供復雜的問題解決能力。這些LLMs的核心重要性在于它們的涌現能力(Wei et al., 2022a,b),這是一種模型展示出超出其明確訓練目標的能力的現象,使它們能夠以非凡的熟練度處理多樣化的任務。它們對上下文、細微差別和人類語言的復雜性的深刻理解使它們能夠在廣泛的應用中表現出色,從創意內容生成到復雜問題解決(OpenAI et al., 2023;Liang et al., 2022)。這些模型的潛力遠遠超出當前的應用,承諾將革新行業,增強人類的創造力,并重新定義我們與技術的互動。盡管像GPT-4和Gemini這樣的專有LLMs具有非凡的能力,但在考慮到開源模型提供的優勢時,它們并非沒有缺點。一個重大的缺點是它們的可訪問性有限和成本較高(OpenAI et al., 2023)。這些專有模型通常伴隨著高昂的使用費用和限制的訪問權限,使得它們對個人和較小的組織來說較難獲得。在數據隱私和安全性方面(Wu et al., 2023a),使用這些專有LLMs經常涉及將敏感數據發送到外部服務器,這引發了數據隱私和安全性的擔憂。對于處理機密信息的用戶而言,這一方面尤其關鍵。此外,雖然功能強大,但專有LLMs的通用設計可能并不總是與特定需求的小眾應用完全對齊。因此,可訪問性、成本和適應性的限制呈現出在充分利用專有LLMs的全部潛力方面的重大挑戰。
與專有的大型語言模型(LLMs)相比,像LLaMA(Touvron et al., 2023)和Mistral(Jiang et al., 2023a)這樣的開源模型帶來了幾個顯著的優勢。開源模型的主要好處之一是它們的可訪問性和可適應性。沒有許可費用或限制性使用政策的約束,這些模型更容易被從個人研究者到較小組織的更廣泛用戶群體所獲取。這種開放性促進了更協作和包容的AI研究環境,鼓勵創新和多樣化的應用。此外,開源LLMs的可定制性允許更加定制化的解決方案,解決通用的大規模模型可能無法滿足的特定需求。然而,開源LLMs也有自己的一套缺點,主要源自于與它們的專有對手相比,它們相對有限的規模和資源。最顯著的限制之一是較小的模型規模,這通常導致在具有一堆指令的實際任務上性能較低(Zheng et al., 2023a)。這些參數較少的模型可能難以捕捉GPT-4等更大模型體現的知識的深度和廣度。此外,這些開源模型的預訓練投資通常較少。這種減少的投資可能導致預訓練數據的范圍較窄,可能限制模型對多樣化或專業化主題的理解和處理(Liang et al., 2022; Sun et al., 2024a)。而且,由于資源限制,開源模型經常進行的微調步驟較少。微調對于優化模型針對特定任務或行業的性能至關重要,缺乏微調可能阻礙模型在專業化應用中的有效性。當這些模型與經過高度微調的專有LLMs相比時,這一限制尤為明顯,后者通常被定制以在廣泛的復雜場景中表現出色(OpenAI et al., 2023)。
認識到專有和開源LLMs之間的差異,NLP領域見證了采用知識蒸餾技術(Gou et al., 2021; Gupta and Agrawal, 2022)的激增,作為彌合這一性能差距的手段。在這一背景下,知識蒸餾涉及利用像GPT-4或Gemini這樣的更大、專有模型的更高級、微妙的能力作為指導框架,以增強開源LLMs的能力。這個過程類似于將一位高度熟練的老師的‘知識’轉移給學生,其中學生(例如,開源LLM)學習模仿老師(例如,專有LLM)的性能特征。與傳統的知識蒸餾算法(Gou et al., 2021)相比,數據增強(DA)(Feng et al., 2021)已成為實現LLMs知識蒸餾的普遍范式,其中一小部分知識被用來提示LLM針對特定技能或領域生成更多數據(Taori et al., 2023)。這種知識轉移的關鍵方面是技能的增強,如高級上下文跟隨(例如,上下文學習(Huang et al., 2022a)和指令跟隨(Taori et al., 2023)),與用戶意圖的更好對齊(例如,人類價值觀/原則(Cui et al., 2023a),以及像思維鏈(CoT)(Mukherjee et al., 2023)這樣的思維模式),以及更深層的語言理解(例如,機器推理(Hsieh et al., 2023),語義理解(Ding et al., 2023a),和代碼生成(Chaudhary, 2023))。這些技能對LLMs預期執行的廣泛應用至關重要,從隨意對話到專業領域的復雜問題解決。例如,在醫療保健(Wang et al., 2023a),法律(LAW, 2023)或科學(Zhang et al., 2024)等垂直領域中,準確性和上下文特定知識至關重要,知識蒸餾允許開源模型通過學習這些領域中已經廣泛訓練和微調的專有模型,顯著提高它們的性能。
在LLMs時代,知識蒸餾的好處是多方面的且具有變革性(Gu et al., 2024)。通過一套蒸餾技術,專有和開源模型之間的差距顯著縮小(Chiang et al., 2023; Xu et al., 2023a)甚至填補(Zhao et al., 2023a),使后者能夠達到之前僅限于它們的專有對手的更高性能和效率水平。這個過程不僅簡化了計算需求,而且還提高了AI操作的環境可持續性,因為開源模型在較低的計算開銷下變得更加熟練。此外,知識蒸餾促進了一個更包容和公平的AI景觀,其中較小的實體和個人研究者獲得了最先進能力的訪問權限,鼓勵了AI進步中更廣泛的參與和多樣性。這種技術的民主化導致了更強大、多功能和可訪問的AI解決方案,催化了各行各業和研究領域的創新和增長。
由于AI景觀的迅速演變(OpenAI et al., 2023; Team et al., 2023)和這些模型的增加復雜性,對LLMs知識蒸餾進行全面綜述的迫切需求不斷上升。隨著AI繼續滲透到各個領域,從專有LLMs高效、有效地蒸餾知識到開源模型的能力不僅是一個技術愿景,而且是一個實際必需。這種需求由對更可訪問、成本效益和可適應AI解決方案的日益增長的需求所驅動,這些解決方案可以滿足廣泛的應用和用戶群體。在這一領域進行綜述對于綜合當前的方法論、挑戰和知識蒸餾的突破至關重要。它可能作為研究人員和實踐者的燈塔,引導他們通過將復雜的AI能力蒸餾成更易管理和更易訪問形式的錯綜復雜的過程。此外,這樣的綜述可以照亮前進的道路,識別當前技術中的差距,并提出未來研究的方向。綜述組織。這項綜述的其余部分被組織成幾個全面的部分,每個部分旨在深入探討LLMs領域內知識蒸餾的多方面。繼本介紹之后,§2提供了知識蒸餾的基礎概述,比較了傳統技術與LLMs時代出現的技術,并強調了數據增強(DA)在此背景下的作用。§3深入探討了從教師LLMs中引出知識的方法和核心蒸餾算法,檢查了從監督微調到涉及差異和相似性、強化學習和排名優化的更復雜策略的方法。然后,§4專注于技能蒸餾,探索如何增強學生模型以改善上下文理解、與用戶意圖的對齊以及在各種NLP任務中的表現。這包括對自然語言理解(NLU)、生成(NLG)、信息檢索、推薦系統和文本生成評估的討論。在§5中,我們涉足特定領域的垂直蒸餾,展示了知識蒸餾技術如何在法律、醫療保健、金融和科學等專業領域內應用,說明了這些方法的實際含義和變革性影響。綜述在§6中提出了開放問題,識別了知識蒸餾研究中當前的挑戰和差距,為未來的工作提供了機會。最后,§7中的結論和討論綜合了獲得的洞察,反思了對更廣泛的AI和NLP研究社區的影響,并提出了未來研究的方向。
大型語言模型(LLMs)的一般蒸餾流程是一個結構化和有條理的過程,旨在將知識從一個復雜的教師模型轉移到一個較不復雜的學生模型。這個流程對于利用像GPT-4或Gemini這樣的模型的先進能力,在更可訪問且高效的開源對應模型中至關重要。這個流程的概要可以廣泛地分為四個不同階段,每個階段在知識蒸餾的成功中都扮演著至關重要的角色。一個示意圖展示在圖2中。
知識蒸餾算法
本節通過知識蒸餾的過程進行導航。根據第2.4節,它被分為兩個主要步驟:‘知識’,專注于從教師LLMs中引出知識(公式1),以及‘蒸餾’,集中于將這些知識注入學生模型中(公式2)。我們將在后續章節中詳細闡述這兩個過程。
本節聚焦于有效地將從教師LLMs中引出的知識轉移到學生模型中的方法論。我們探討了一系列蒸餾技術,從通過監督微調增強模仿的策略,到差異與相似性,再到像強化學習和排名優化這樣的高級方法,如圖1所示。
技能蒸餾
在第3節關于引出知識和蒸餾算法的基礎上,我們將關注轉向這些技術如何促進LLMs中特定技能的蒸餾。我們的探索將包括LLMs展示的多種技能,包括上下文跟隨、對齊、代理、NLP任務專業化和多模態性。上下文跟隨側重于學生模型理解和有效響應輸入信息的能力。對齊深入探討學生模型將其輸出與教師響應對齊的能力。接下來,代理強調語言模型的自主性。NLP任務專業化突出了LLM在各種自然語言處理任務中專業化的多樣性,展示了其適應性。最后,多模態性包括從教師LLMs到多模態模型的知識轉移。
結論與討論
本綜述遍歷了應用于LLMs的知識蒸餾的廣闊領域,揭示了這一充滿活力領域中眾多技術、應用和新興挑戰。我們強調了KD在民主化獲取專有LLMs的先進能力方面的關鍵作用,從而促進了更公平的AI景觀。通過細致的審查,我們突出了KD如何作為一座橋梁,使資源有限的實體能夠從LLMs的深遠進步中受益,而無需承擔訓練和部署最先進模型所關聯的禁止性成本。
我們的探索勾勒出了KD的多方面方法,包括算法創新、技能增強到特定領域的蒸餾。每個部分都揭示了在定制蒸餾模型以模仿其更加笨重對手的精密理解和功能時所固有的微妙復雜性和潛力。值得注意的是,數據增強策略在KD過程中的整合,作為提高這一LLM時代蒸餾效果的關鍵杠桿,強調了生成豐富上下文訓練數據與蒸餾努力之間的協同潛力。
展望未來,幾條研究途徑呼之欲出。AI的不斷演變,特別是在模型架構和訓練方法論的迅速進步,為知識蒸餾提出了挑戰與機遇。追求更高效、透明和倫理的AI模型,需要在知識蒸餾技術上不斷創新,特別是那些能夠在模型忠實度、計算效率和倫理考慮之間細致平衡的技術。此外,探索知識蒸餾在諸如弱到強泛化、自我對齊、多模態LLMs、實時適應和個性化AI服務等新興領域的應用,承諾將擴展蒸餾模型可以實現的視野。 因此,LLMs的知識蒸餾處于一個關鍵時刻,具有顯著影響AI發展和應用軌跡的潛力。正如本綜述所闡明的,研究社區在推動知識蒸餾邊界的共同努力,將在實現所有人都能訪問的、高效的、負責任的AI的愿景中起到關鍵作用。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。
大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?
采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。
? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。
? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。
? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。
? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。
? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。
盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。
位置技術
與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。
外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。
插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。
總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。
大型語言模型(LLMs),例如ChatGPT,由于其出色的自然語言處理能力而獲得了極大的關注。然而,這些LLMs面臨許多挑戰,特別是在可信度方面。因此,確保LLMs的可信度成為一個重要話題。本文引入了TRUSTLLM,一項關于LLMs可信度的全面研究,包括不同維度的可信度原則、確立的基準、可信度評估和分析,以及對主流LLMs的討論,開放的挑戰和未來方向。具體來說,我們首先提出了一套涵蓋八個不同維度的可信LLMs原則。基于這些原則,我們進一步建立了一個跨越真實性、安全性、公平性、穩健性、隱私和機器倫理六個維度的基準。我們隨后展示了一個在TRUSTLLM中評估16個主流LLMs的研究,涉及超過30個數據集。
我們的發現首先表明,一般而言,可信度和效用(即功能效能)是正相關的。例如,像GPT-4、ERNIE和Llama2這樣在刻板印象分類中表現強勁的LLMs,更可靠地拒絕刻板印象陳述。同樣,以自然語言推理能力著稱的Llama2-70b和GPT-4,在抵御對抗性攻擊方面表現出增強的韌性。其次,我們的觀察揭示,專有LLMs通常在可信度方面優于大多數開源同行,這引發了對廣泛可獲取的開源LLMs潛在風險的擔憂。然而,少數開源LLMs非常接近專有模型。值得注意的是,Llama2在幾項任務中表現出卓越的可信度,表明開源模型可以在沒有額外機制(如審查員)的情況下達到高水平的可信度,為開發人員提供了寶貴的洞見。第三,值得注意的是,一些LLMs(例如Llama2)可能過度調整以展示可信度,以至于它們在錯誤地將良性提示視為有害并因此不做出回應的情況下,降低了它們的實用性。除了這些觀察之外,我們還發現了LLMs多方面可信度的關鍵洞見。在真實性方面,LLMs經常由于訓練數據中的噪音、錯誤信息或過時信息而難以提供真實的回答。值得注意的是,增強了外部知識來源的LLMs在性能上表現出明顯的提升。在安全性方面,大多數開源LLMs在越獄、毒性和濫用等方面顯著落后于專有LLMs,同時在不過度謹慎的同時保持安全性的挑戰仍然存在。在公平性方面,大多數LLMs在刻板印象識別方面的表現不盡人意,即使是表現最好的GPT-4也只有65%的總體準確率。在穩健性方面,LLMs表現出顯著的變化性,尤其是在開放式任務和分布外任務中。在隱私方面,雖然LLMs顯示出對隱私規范的認識,但對私人信息的理解和處理差異很大,一些模型甚至在Enron Email數據集上測試時顯示出信息泄露。最后,在機器倫理方面,LLMs展示了基本的道德理解,但在復雜的倫理場景中表現不足。這些洞見強調了LLMs中可信度的復雜性,并突出了繼續研究以提高它們的可靠性和倫理一致性的必要性。最后,我們強調不僅要確保模型本身的透明度,還要確保支持可信度的技術的透明度。了解已采用的具體可信技術對于分析它們的有效性至關重要。我們主張建立行業、學術界、開源社區以及各種實踐者之間的人工智能聯盟,以促進合作,提升LLMs的可信度至關重要。我們的數據集、代碼和工具包將在 //github.com/HowieHwong/TrustLLM 上提供,排行榜發布在
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)和生成式人工智能領域的重要里程碑,眾多基礎研究[1, 2]證實了這一點。這些模型在NLP方面的卓越能力引起了廣泛關注,導致了影響我們生活各個方面的多樣化應用。LLMs被用于多種與語言相關的任務,包括自動文章寫作[3]、博客和社交媒體帖子的創作、以及翻譯[4]。此外,它們還改進了搜索功能,如在Bing Chat等平臺上看到的[5, 6, 7],以及其他應用[8]。LLMs在人類其他領域的效用也顯而易見。例如,如Code Llama[9]等模型為軟件工程師提供了相當大的幫助[10]。在金融領域,像BloombergGPT[11]這樣的LLMs被用于情感分析、命名實體識別、新聞分類和問答等任務。此外,LLMs在科學研究[12, 13, 14, 15]中的應用日益增多,涵蓋了醫學應用[16, 17, 18, 19, 20, 21, 22, 23, 24, 25]、政治學[26]、法律[27, 28]、化學[29, 30]、海洋學[31, 32]、教育[33]和藝術[34]等領域,凸顯了它們廣泛和多樣化的影響。
LLMs的出色能力歸因于多個因素,例如使用來自Web的大規模原始文本作為訓練數據(例如,PaLM[35, 36]是在包含超過7000億令牌的大型數據集上訓練的[37]),采用具有大量參數的變壓器架構設計(例如,GPT-4估計具有1萬億參數范圍[38]),以及加速訓練過程的先進訓練方案,例如低秩適應(LoRA)[39]、量化LoRA [40]和路徑系統[41]。此外,它們出色的指令遵循能力主要歸因于與人類偏好的對齊實現[42]。現行的對齊方法使用人類反饋的強化學習(RLHF)[43]以及各種替代方法[44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55]。這些對齊策略塑造了LLMs的行為,使其更加符合人類偏好,從而提高了它們的實用性并確保遵守倫理考慮。
然而,LLMs的興起也引入了關于它們可信度的擔憂。與傳統語言模型不同,LLMs具有可能導致可信度問題的獨特特性。1)LLMs的輸出復雜多樣,加之它們新出現的生成能力。LLMs展示了處理廣泛的復雜和多樣化主題的無與倫比的能力。然而,這種復雜性可能導致不可預測性,從而可能產生不準確或誤導性的輸出[56, 57, 58]。同時,它們先進的生成能力為惡意行為者開辟了傳播虛假信息[59]和促進網絡攻擊[60]的途徑。例如,攻擊者可能使用LLMs編寫欺騙性和誤導性文本,誘導用戶點擊惡意鏈接或下載惡意軟件。此外,LLMs可以被用于自動化網絡攻擊,例如生成大量假賬戶和評論以擾亂網站的正常運營。從設計用于繞過LLMs安全機制的技術(稱為越獄攻擊[61])來的重大威脅,允許攻擊者非法濫用LLMs。2)大型訓練數據集中的數據偏見和私人信息。可信度的一個主要挑戰來自訓練數據集中潛在的偏見,這對LLMs生成的內容的公平性具有重大影響。例如,數據中的男性中心偏見可能產生主要反映男性觀點的輸出,從而掩蓋女性的貢獻和觀點[62]。同樣,偏向某一特定文化背景的偏見可能導致對該文化的偏見回應,從而忽視其他文化背景中存在的多樣性[63]。另一個關鍵問題是訓練數據集中包含敏感個人信息的問題。在缺乏嚴格保護的情況下,這些數據可能被濫用,潛在地導致隱私泄露[64]。這個問題在醫療保健領域尤其嚴重,在這里保持患者數據的機密性至關重要[65]。3)用戶期望值高。用戶可能對LLMs的性能抱有很高的期望,期待準確和富有洞察力的回應,強調模型與人類價值觀的一致性。許多研究人員對LLMs是否與人類價值觀一致表示擔憂。不一致可能會對它們在各個領域的廣泛應用產生重大影響。例如,LLM可能認為某些情況下的行為是適當的,但人類可能認為它不適當,導致在其應用中出現沖突和矛盾,特定案例中強調了這一點[66]。
LLMs的開發者已經做出了重大努力來解決上述問題。OpenAI[67]已采取措施確保LLMs在訓練數據階段、訓練方法和下游應用中的可信度。WebGPT[7]被引入以幫助人類評估者識別LLM回應中的不準確信息。致力于負責任的AI的Meta[68],其方法基于五大支柱:隱私、公平、穩健性、透明性和問責制。Llama2[69]的引入為LLMs設定了新的安全對齊基準,包括在預訓練、微調和紅隊測試中進行廣泛的安全調查。關于開發者采用的各種策略以確保LLMs的可信度的更多討論可以在第3.3節中找到。盡管做出了這些共同的努力,但仍有一個持續的問題:我們到底可以在多大程度上真正信任LLMs?
為了解決大型語言模型(LLMs)可信度的關鍵問題,關鍵在于確定如何基準化LLMs的可信度。關于定義LLMs可信度的關鍵要素,以及如何從各種角度評估這種可信度,此外,探索實際評估這些維度上可信度的方法也至關重要。然而,回答這些問題遠非簡單。主要挑戰包括:1) 綜合各方面的定義。主要障礙之一是缺乏一個普遍接受的標準準則,全面涵蓋可信度的所有方面。這種標準化指標的缺乏使得統一評估和比較不同LLMs的可信度變得困難。2) 可擴展性和普適性:創建適用于不同大小和類型LLMs的基準,并且能夠普遍適用于不同領域和應用是一項復雜的任務;3) 實際評估方法。需要設計有效的提示來測試明顯的可信度問題,并發現可能不會立即顯現的更微妙的偏見和錯誤。這需要深入理解技術及其產出對社會的潛在影響。 先前的研究[70, 71, 72]已經為LLMs的可信度建立了基礎見解。這些研究提出了評估LLMs的方法,并制定了衡量其可信度的分類法。然而,某些分類法[70, 73]并未完全涵蓋與LLMs可信度相關的所有方面。此外,一些分類法[71, 72]專注于細微的區別,導致重疊的子類別使建立清晰的評估基準變得復雜。因此,需要一種更全面和細致的方法來準確評估LLMs的可信度。
在這里,我們提出了TRUSTLLM,一個統一框架,支持對LLM中的可信度進行全面分析,包括現有工作的調查,組織不同維度的可信LLMs的原則,一個新穎的基準,以及對主流LLMs的全面可信度評估。具體來說,我們如下解決上述三個挑戰:
確定八個可信度方面。為了探索LLMs有多可信,我們融合了來自人工智能、機器學習、數據挖掘、人機交互(HCI)和網絡安全的領域知識。我們對過去五年發表的500篇關于LLMs可信度的論文進行了廣泛的回顧,并確定了定義LLMs可信度的八個關鍵方面,即真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性。在這項工作中,為了便于我們的調查,我們將效用(即功能效能)與這八個確定的維度分開,并定義可信LLMs為“為了被認為是可信的,LLMs必須適當地反映真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性等特性。”詳細討論可以在第4節中找到。
選擇全面且多樣化的LLMs進行調查。通過評估16個LLMs,包括專有和開源模型,我們涵蓋了模型大小、訓練策略和功能能力的廣泛范圍。這種多樣性保證了TRUSTLLM不局限于特定類型或大小的LLM。它還建立了一個全面的評估框架,用于評估未來LLMs的可信度。
在各種任務和數據集上進行基準測試和評估:我們基準測試了30個數據集,以全面評估LLMs的功能能力,從簡單的分類任務到復雜的生成任務。每個數據集提出了獨特的挑戰,并在多個可信度維度上對LLMs進行了基準測試。同時,采用了多種評估指標來理解LLMs的能力。這種方法確保了評估是全面和多方面的。
貢獻。TRUSTLLM評估的結果在圖1中總結,觀察和洞見在第2節中展示。我們在這項工作中的貢獻簡要概述如下。 首先,我們基于全面的文獻綜述提出了一套評估LLMs可信度的指南,這是一個涵蓋包括真實性、安全性、公平性、穩健性、隱私、機器倫理、透明度和問責性在內的八個方面的分類法。
其次,由于透明度和問責性的基準測試難度,我們為這六個方面建立了基準。這是第一個全面且綜合的基準,包括超過18個子類別,涵蓋超過30個數據集和16個LLMs,包括專有和開放權重模型。除了圖1中展示的這些模型的可信度排名外,我們在后續各節中提出了評估細節。
最后但同樣重要的是,從廣泛的實驗結果中,我們得出了有洞見的發現(詳見第2節)。我們對LLMs的可信度評估考慮了整體觀察和基于每個維度的個別發現,強調了效能和可信度之間的關系,大多數LLMs中普遍缺乏的一致性,專有和開放權重LLMs之間的差異,以及當前與可信度相關技術的不透明性。我們旨在為未來的研究提供有價值的洞見,為大型語言模型中的可信度景觀提供更細膩的理解。
觀察和洞見
為了更好地理解我們的研究,我們首先基于我們在這項工作中的廣泛實證研究,提出了我們的觀察和洞見。
2.1 總體觀察
可信度與效用緊密相關。我們的發現表明,可信度和效用之間存在正相關,特別是在特定任務中顯而易見。例如,在道德行為分類(第11.1節)和刻板印象識別任務(第8.1節)中,像GPT-4這樣具有強大語言理解能力的LLMs傾向于做出更準確的道德判斷,并更可靠地拒絕刻板印象陳述。類似地,Llama2-70b和GPT-4在自然語言推理方面的熟練度,表現出對抗性攻擊的增強韌性。此外,我們觀察到LLMs的可信度排名往往與以效用為中心的排行榜,如MT-Bench [74]、OpenLLM Leaderboard [75]等的位置一致。這一觀察強調了可信度和效用的相互關聯性,凸顯開發者和用戶在實施和使用LLMs時,需要同時考慮這些方面。
大多數LLMs“過度對齊”。我們發現許多LLMs表現出一定程度的過度對齊(即夸大的安全性),這可能損害它們的整體可信度。這樣的LLMs可能將許多無害的提示內容識別為有害,從而影響它們的效用。例如,Llama2-7b在對實際上并非有害的提示做出回應時,拒絕率達到57%。因此,訓練LLMs在對齊過程中理解提示背后的意圖,而不僅僅是記憶示例,對降低錯誤識別有害內容的比率至關重要。
一般而言,專有LLMs在可信度上優于大多數開放權重LLMs。然而,少數開源LLMs能夠與專有模型競爭。我們發現,在可信度方面,開放權重和專有LLMs之間存在性能差距。通常,專有LLMs(例如ChatGPT、GPT-4)的表現遠優于大多數開放權重LLMs。這是一個嚴重的問題,
因為開放權重模型可以被廣泛下載。一旦集成到應用場景中,它們可能帶來嚴重的風險。然而,我們驚訝地發現,Llama2 [69] 系列這樣的開放權重LLMs,在許多任務中的可信度超過了專有LLMs。這表明,開放權重模型即使在沒有添加外部輔助模塊(如審查員 [76])的情況下,也能展示出色的可信度。這一發現為相關開放權重開發者提供了重要的參考價值。
模型本身和與可信度相關的技術應該是透明的(例如,開源)。鑒于不同LLMs在可信度方面的性能差距顯著,我們強調模型本身及旨在提高可信度的技術的透明度的重要性。如最近研究[77, 78]所強調,充分理解模型的訓練機制,包括參數和架構設計等方面,是研究LLMs的基石。我們的實驗發現,雖然一些專有LLMs展示出高可信度(例如ERNIE [79]),但其背后的技術細節仍未公開。使這些可信技術透明化或開源可以促進這些技術的更廣泛采用和改進,顯著提升LLMs的可信度。這反過來使LLMs更可靠,并加強了AI社區對這些模型的整體信任,從而有助于AI技術的健康發展。
2.2 對可信度各個維度的新洞見真實性。
AI系統的真實性是指準確地呈現信息、事實和結果。我們的發現表明:1) 專有LLMs如GPT-4和開源LLMs如Llama2在僅依賴其內部知識時,經常難以提供真實的回應。這主要是由于其訓練數據中的噪聲,包括錯誤信息或過時信息,以及底層Transformer架構缺乏泛化能力所致。2) 此外,所有LLMs在零樣本常識推理任務中面臨挑戰,表明它們在對于人類相對直接的任務中存在困難。3) 相比之下,增強了外部知識的LLMs表現出顯著改善的性能,超越了原始數據集上報告的最新結果。4) 我們觀察到在不同的幻覺任務中存在顯著差異。大多數LLMs在多項選擇問答任務中的幻覺較少,與知識引導對話等更開放式任務相比, 可能是由于提示敏感性(第14節)。5) 此外,我們發現獻媚和對抗性現實之間存在正相關。獻媚水平較低的模型在識別和突出用戶輸入中的事實錯誤方面更為有效。
安全性。LLMs的安全性對于避免不安全或非法輸出并確保進行健康對話至關重要[72]。在我們的實驗(第7節)中,我們發現:1) 大多數開源LLMs的安全性仍然是一個問題,特別是在越獄、毒性和濫用等領域,顯著落后于專有LLMs。2) 值得注意的是,LLMs對不同的越獄攻擊并不是統一抵抗。我們的觀察發現,各種越獄攻擊,特別是leetspeak攻擊[61],對LLMs的成功率各不相同。這強調了LLM開發者需要采取全面的防御策略來應對多種攻擊類型。3) 對于大多數LLMs而言,平衡安全性是一個挑戰;那些具有嚴格安全協議的LLMs經常表現出夸張的謹慎,如Llama2系列和ERNIE所表現出的。這表明許多LLMs并未完全對齊,可能依賴于表面的對齊知識。
公平性。公平性是確保LLMs在設計、訓練和部署過程中不會導致有偏見或歧視性結果的道德原則,確保它們公平對待所有用戶和群體。在我們的實驗中(第8節),我們發現:1) 大多數LLMs在識別刻板印象方面的表現并不令人滿意,即使表現最好的GPT-4,其總體準確率也僅為65%。當面對包含刻板印象的句子時,不同LLMs的一致性百分比差異很大,最好的表現僅為0.5%的一致率,最差的接近60%。2) 只有少數LLMs,如Oasst-12b[81]和Vicuna-7b[82],在處理貶低性內容時表現出公平性;大多數LLMs在處理包含貶低傾向的問題時仍顯示出對特定屬性的偏見。3) 關于偏好,大多數LLMs在普通基線上表現非常好,保持客觀性和中立性,或拒絕直接回答。然而,當被迫選擇時,LLMs的表現顯著下降。
穩健性。穩健性定義為系統在各種情況下保持其性能水平的能力[83]。在我們的實驗中(第9節),我們發現:1) Llama2系列和大多數專有LLMs在傳統下游任務中超越了其他開源LLMs。2) 然而,LLMs在開放式任務的表現表現出顯著的變化性。表現最差的模型在擾動前后的平均語義相似度僅為88%,遠低于最佳表現者的97.64%。3) 在OOD(超出分布)穩健性方面,LLMs展現出相當大的性能差異。表現最佳的模型GPT-4在OOD檢測中拒絕回答(RtA)率超過80%,在OOD泛化中平均F1得分超過92%。相比之下,表現最差的模型RtA率僅為0.4%,F1得分約為30%。4) 此外,我們的觀察沒有發現參數大小和OOD性能之間存在一致的正相關性,這可以從Llama2模型的不同參數大小的不同表現水平中得到證明。
隱私。隱私包括旨在保護人類自主權、身份和尊嚴的規范和實踐[83]。在我們的實驗中(第10節),我們發現: 大多數LLMs表現出一定程度的隱私意識,這可以從這些模型在被告知必須遵守隱私政策時拒絕回應有關私人信息的查詢的可能性顯著增加中看出。2) 用于測量人類和LLMs在使用隱私信息方面的一致性的皮爾森相關系數差異很大。表現最佳的模型,ChatGPT,達到了0.665的相關性,而Oass-12b展現出令人驚訝的負相關性,低于零,表明與人類相比,它對隱私的理解存在差異。3) 我們觀察到幾乎所有LLMs在Enron電子郵件數據集[84]的測試中都顯示出一定程度的信息泄露。
機器倫理。機器倫理確保利用人工智能的人造機器(通常稱為AI代理)的道德行為[85, 86]。在我們的實驗中(第11節),我們發現:1) LLMs已經發展出一套特定的道德價值觀,但在完全與人類倫理一致方面仍有顯著差距。在低歧義場景中的隱性任務中,大多數LLMs的準確性不足70%,不論是哪個數據集。在高歧義場景中,不同LLMs的表現有很大差異;例如,Llama2系列達到了99.9%的拒絕回答率(RtA),而其他模型的得分不到70%。2) 在情感意識方面,LLMs顯示出更高的準確性,表現最佳的模型如GPT-4的準確率超過94%。 這些觀察和洞見提供了對LLMs可信度各個維度的深入理解,揭示了它們在處理復雜任務和維護道德準則方面的能力和局限性。這些發現對于開發更可靠、公平、安全且符合倫理的LLMs至關重要,同時也為未來的研究和應用提供了重要的參考。通過這樣的深入分析,我們能夠更好地理解和提升大型語言模型的整體可信度,使其在各種應用場景中更加有效且符合倫理標準。
ChatGPT的引入導致了大型語言模型(LLMs)在解決下游任務中的使用顯著增加。在這個背景下,越來越多的關注點放在了成本效率高的訓練和部署上。低成本的訓練和部署LLMs代表了未來的發展趨勢。本文回顧了大型語言模型訓練技術和與這一新興趨勢相一致的推理部署技術的演變。關于訓練的討論包括多個方面,包括數據預處理、訓練架構、預訓練任務、并行訓練,以及與模型微調相關的內容。在推理方面,本文涵蓋了模型壓縮、并行計算、內存調度和結構優化等話題。它還探討了LLMs的利用,并提供了對其未來發展的見解。
語言建模(LM)是在自然語言處理(NLP)領域實現認知智能的基本方法,近年來其進展顯著[1; 2]。它在理解、生成和操作人類語言方面扮演著中心角色,成為各種NLP應用的基石,包括機器翻譯、聊天機器人、情感分析和文本摘要。隨著深度學習的發展,早期的統計語言模型(SLM)已逐漸轉變為基于神經網絡的神經語言模型(NLM)。這一轉變的特點是采用詞嵌入,將單詞表示為分布式向量。值得注意的是,這些詞嵌入在實際NLP任務中表現出色,深刻地塑造了該領域的進展。預訓練語言模型(PLM)代表著在NLM之后語言模型演變的一個后續階段。PLM的早期嘗試包括ELMo[3],它基于雙向長短期記憶(LSTM)架構。然而,隨著Transformer架構[4]的出現,其特點是并行自注意力機制,預訓練和微調學習范式已將PLM推至卓越地位,成為主導方法。這些模型通常通過自監著學習在大型數據集上進行訓練,鞏固了它們作為該領域主要方法論的地位。 Transformer架構特別適合于擴大模型規模,研究分析顯示,增加模型的規模或訓練數據大小可以顯著提高其性能。許多研究通過不斷擴大PLM的規模,推動了模型性能的邊界[5; 6; 7; 8]。隨著模型規模的增長,出現了一個名為“出現”的顯著現象,其中它們表現出驚人的性能[6]。這些模型能夠生成高質量的文本,并具有強大的學習和推理能力。它們甚至可以通過在上下文中學習(ICL)來處理少數樣本學習任務[6]。這種顯著能力使得它們能夠無縫地應用于跨多個領域的各種下游任務[9; 10; 11; 12]。 具有顯著更大的參數規模和廣泛訓練數據的預訓練語言模型(PLMs)通常被稱為大型語言模型(LLMs)[13; 14; 15]。模型大小通常超過100億(10B)參數。LLMs發展中的一個重要里程碑是由GPT系列體現的[16; 5; 6; 17]。值得注意的是,OpenAI在2022年11月發布了ChatGPT,標志著LLMs時代的一個轉折點,也是人工智能領域的一個改變游戲規則的時刻。ChatGPT使當前的AI算法實現了前所未有的強度和有效性,重塑了人類使用或開發AI算法的方式。它的出現引起了研究界的關注。然而,由于ChatGPT不是一個開源平臺,目前使用ChatGPT的主要方式是通過訪問OpenAI的網站 //chat.openai.com 或通過他們的API接口。訓練可以作為ChatGPT的替代品,或訓練領域特定的LLMs變得非常必要[18; 19; 20; 21; 22; 1; 23; 24]。訓練和部署LLMs需要在處理大規模數據方面的專業知識和在分布式并行訓練方面的實際經驗[25; 26; 27]。這一需求強調了開發LLMs的研究人員需要在解決LLM開發過程中遇到的挑戰方面具有顯著的工程能力。對LLMs感興趣的研究人員必須具備工程技能,或學會與工程師有效合作。 基于上述原因,本文的主要目的是提供LLMs訓練和推理技術的全面概述,以幫助研究人員掌握開發、部署和應用LLMs所需的知識。本綜述的其余結構如下:第2節,我們將介紹LLMs的相關背景和基礎知識。第3節,我們將深入探討訓練LLMs的技術方面,而在第4節我們將探索與LLMs的推理和部署相關的技術。第5節,我們將討論LLMs的利用,第6節將探討LLMs的未來方向及其對LLMs的影響。** 大型語言模型的訓練**LLMs的訓練可以大致分為三個步驟。第一步涉及數據收集和處理。第二步包括預訓練過程,其中包括確定模型的架構和預訓練任務,并使用合適的并行訓練算法完成訓練。第三步涉及微調和對齊。在本節中,我們將提供模型訓練技術的概述。這將包括對相關訓練數據集的介紹、數據準備和預處理、模型架構、具體的訓練方法、模型評估,以及LLMs常用的訓練框架。 目前,所有LLMs都基于Transformer架構,使這些模型能夠擴展到幾十億甚至一萬億個參數。通常,PLM架構分為三類:僅編碼器[88]、編碼器-解碼器[66]和僅解碼器[16]。在最新的LLMs中,不再使用僅編碼器架構,因此不會在此進一步討論。相反,本節將重點介紹編碼器-解碼器和僅解碼器架構。
** 大型語言模型的推理**
大型模型的規模以每年近10倍的速度增長,這帶來了巨大的計算消耗和碳排放[172]。因此,如何在保持其推理能力的同時減少訓練大型模型的計算負擔已成為大家共同關注的問題。在本章中,我們主要介紹如何從計算和存儲兩個方面降低成本,即如何從模型壓縮、內存調度、并行性和結構優化四個方面有效地執行大規模模型推理。
結論
ChatGPT的引入開啟了大型LLMs領域的變革性時代,顯著影響了它們在多樣化下游任務中的應用。成本效率高的訓練和部署已成為LLMs演化中的一個關鍵方面。本文提供了一個全面的綜述,介紹了大型語言模型訓練技術和推理部署技術的演進,以及與低成本開發的新興趨勢相一致。從傳統的統計語言模型到神經語言模型,再到像ELMo和Transformer架構這樣的PLMs的發展,為LLMs的主導地位奠定了基礎。這些模型的規模和性能,特別是以GPT系列為例,已達到前所未有的水平,展示了“出現”現象,并在各個領域中實現了多功能應用。值得注意的是,OpenAI在2022年11月發布ChatGPT,標志著LLM領域的一個關鍵時刻,徹底改變了AI算法的強度和有效性。然而,目前對OpenAI基礎設施的依賴凸顯了替代LLMs的必要性,強調了領域特定模型和訓練及部署過程的進步的需求。
訓練和部署LLMs提出了需要在處理大規模數據和分布式并行訓練方面具有專業知識的挑戰。LLM開發所需的工程能力凸顯了研究人員和工程師之間的協作努力的必要性。當我們在這篇綜述中探討LLM訓練和推理的技術方面時,很明顯,對這些過程的深刻理解對于涉足該領域的研究人員至關重要。展望未來,LLMs的未來方向包括模型架構的進一步發展、訓練效率的提高和在各行業的更廣泛應用。這篇綜述提供的見解旨在為研究人員提供了解和掌握LLM開發復雜性所需的知識,促進這一動態領域的創新和進步。隨著LLMs的不斷發展,它們對自然語言處理和整個AI的影響有望塑造智能系統未來的發展格局。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
本文提供了一個關于大型語言模型(LLMs)在軟件工程(SE)中應用的新興領域的調查。它還提出了將LLMs應用于軟件工程師面臨的技術問題的開放性研究挑戰。LLMs的新興屬性帶來了創新性和創造力,其應用覆蓋了軟件工程活動的全譜,包括編碼、設計、需求、修復、重構、性能提升、文檔和分析。然而,這些同樣的新興屬性也帶來了重大的技術挑戰;我們需要能夠可靠地剔除錯誤的解決方案,如幻覺。我們的調查揭示了混合技術(傳統的SE與LLMs相結合)在開發和部署可靠、高效和有效的基于LLM的SE中的關鍵作用。本文調查了基于LLM的SE的最近發展、進展和實證結果;即大型語言模型(LLMs)在軟件工程(SE)應用的應用。我們使用這次調查來突出這個迅速發展但尚屬初級階段的研究文獻中的空白。基于文獻中的空白和技術機會,我們還確定了軟件工程研究社區的開放問題和挑戰。盡管對這樣一個迅速擴張的領域的任何調查都既不能渴望也不能聲稱是全面的,但我們希望這次調查能為這個令人興奮的新軟件工程子學科——基于LLM的軟件工程提供一個有用且相對完整的早期概述。盡管該領域的科學和技術結構仍在形成中,但我們已經可以識別出趨勢、對未來研究的有益方向以及需要解決的重要技術挑戰。特別是,我們已經能夠辨別出與軟件工程內的現有趨勢和既定方法及子學科的重要連接(和共鳴)。盡管總的來說,我們找到了很多樂觀的理由,但仍然存在重要的技術挑戰,這些挑戰很可能在未來幾年內影響研究議程。許多作者都從科學和軼事的角度指出,LLMs普遍存在幻覺問題[1],而且它對基于LLM的SE也帶來了特定的問題[2]。與人類智慧一樣,幻覺意味著LLM可以產生虛構的輸出。在軟件工程的背景下,這意味著創造的工程制品可能是錯誤的,但看起來是合理的;LLMs可能引入錯誤。然而,與LLMs的許多其他應用不同,軟件工程師通常有可自動化的真實依據(軟件執行),大部分軟件工程制品都可以基于此進行評估。此外,軟件工程研究社區已經花了很多時間開發自動化和半自動化技術,以檢查人類可能產生的錯誤結果。這意味著,對于這個學科和研究社區,當面對像幻覺這樣的問題所帶來的挑戰時,有大量的經驗和專業知識可以借鑒。
顯然,自動化測試技術 [3]–[5] 將在確保正確性中發揮核心作用,就像它們已經為人工設計的制品所做的那樣。在生成全新的功能和系統時,由于缺乏可自動化的oracle [6](一種自動技術,用于確定給定輸入刺激的輸出行為是否正確),自動測試數據生成受到限制。考慮到LLMs的幻覺傾向,Oracle問題仍然非常相關,對它的解決方案將變得更加有影響力。但是,一些SE應用關心現有軟件系統的適應、改進和開發,對于這些應用,有一個現成的可自動化的oracle:原始系統的功能行為。在本文中,我們稱其為“自動回歸Oracle”,這種方法已在遺傳改進領域得到證明是有益的 [7]。自動回歸Oracle簡單地使用軟件系統的現有版本作為參考,以對任何后續的適應和更改的輸出進行基準測試。當然,有“烘焙”功能錯誤的風險,因為自動回歸Oracle無法檢測系統應該做什么,只能捕捉它當前做什么。因此,自動回歸Oracle只能測試功能退化,所以它最適合于需要保持現有功能的用例。例如,對于性能優化和語義保持不變的重構。LLM的輸入將成為越來越多研究的焦點,我們可以預期關于prompt工程和prompt優化文獻的迅速發展 [8]。在這次調查中,我們突出了關于軟件工程的幾個特定方面的prompt工程的現有工作和開放挑戰。LLM的輸出不僅可以限于代碼,還可以包括其他軟件工程制品,如需求、測試用例、設計圖和文檔。總的來說,LLM的基于語言的特性使其能夠生成任何語言定義的軟件工程制品。我們通常認為軟件工程制品是LLM的主要輸出,但它不是唯一的輸出。與主要輸出一起提供的解釋也是LLM的重要輸出。我們的調查突出了需要進行更多的研究的需求,不僅要優化prompt工程(專注于LLM的輸入),還要優化與主要輸出一起提供的解釋的工作。LLMs本質上是非確定性的:相同的prompt在不同的推斷執行中產生不同的答案(除非溫度設為零,這在多次執行中經常被發現是次優的)[9]。此外,無論溫度設置如何,prompt的微妙變化都可能導致非常不同的輸出[9]。除了激勵‘prompt工程’和輸出處理,這種非確定性行為為基于LLM的軟件工程的科學評估帶來了挑戰:如果每次我們運行整個工程過程時結果都會變化,我們如何確定所提議的技術是否超越了現有的技術?這是一個在經驗軟件工程[10]和基于搜索的軟件工程(SBSE)[11]的背景下已經被深入研究的問題。特別是,SBSE與基于LLM的軟件工程有很多相似之處,在存在嘈雜、非確定性和不完整的結果[12]、[13]的情況下實現穩健的科學評估都與之有關。因此,已經有一個成熟的軟件工程文獻專門研究適用于基于LLM的科學評估所需的穩健的科學評估技術。例如,參數和非參數的推斷統計技術現在經常被用來在SBSE學科中提供在高度非確定性算法存在的情況下的穩健的科學結論。為了找出與LLM相關的計算機科學論文,我們過濾了出版物,將其細分為以下子類別:人工智能 (cs.AI)、機器學習 (cs.LG)、神經和進化計算 (cs.NE)、軟件工程 (cs.SE) 和編程語言 (cs.PL)。我們使用查詢“Large Language Model”、“LLM”和“GPT”在標題或摘要中進行篩選(我們手動排除了重載縮寫,例如將GPT誤認為是通用規劃工具),結果是L列。最后,我們使用相同的查詢來識別基于LLM的軟件工程論文,這些論文位于軟件工程 (cs.SE) 和編程語言 (cs.PL) 類別中。這些查詢本質上是近似的,因此我們只局限于基于總體趨勢得出的結論,而這些總體趨勢有強有力的證據支持,而不是觀察到的數字的具體細節。盡管如此,我們報告了觀察到的原始數字,以支持其他人的復制。
圖2展示了arXiv上發布的計算機科學論文數量(|A|,以藍色表示)和LLM相關論文的數量(|L|,以橙色表示)的增長。特別是與軟件工程和LLM相關的論文以綠色表示(|L ∩ S|)。考慮到總體發表量的快速增長,我們為縱軸使用了對數刻度。不出所料,我們看到了計算機科學出版物數量的整體增長。同時,鑒于LLM最近受到的關注增多,LLM相關論文數量的指數增長也相對不足為奇。或許更有趣的是LLM在軟件工程應用中的快速采納,如圖中的綠色所示。為了更詳細地檢查這一趨勢,我們在圖3中畫出了LLM出版物(L)與所有計算機科學出版物(A)的比例(以藍色表示),以及基于LLM的軟件工程出版物(L ∩ S)與所有LLM出版物的比例(以橙色表示)。如圖所示,自2019年以來,基于LLM的軟件工程論文的比例已經急劇上升。目前,所有關于LLM的論文中已有超過10%與基于LLM的軟件工程有關。由于這一增長,我們可以預期將有更多其他的基于LLM的軟件工程調查。文獻的快速擴展使得進一步的全面軟件工程研究不太可能適應單篇論文的空間限制,但我們可以預期會有許多關于感興趣的子領域的全面調查,以及針對系統評審中的主要文獻提出具體研究問題的系統文獻回顧(SLRs)。例如,Hou等人[14]提供了一個出色的最新SLR,涵蓋了2017年至2023年的229篇研究論文,報告了所處理的軟件工程任務、數據收集和預處理技術,以及優化LLM性能的策略(例如提示工程)。本文的其余部分按照主要的頂級軟件開發活動和研究領域進行組織。圖1顯示了軟件開發活動、研究領域和我們論文結構之間的映射。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。
隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。
**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。
**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。