因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出潛力,它通過捕捉變量間的因果關系來實現這一點。生成式大型語言模型(LLMs)的出現顯著影響了各種NLP領域,特別是通過它們先進的推理能力。本綜述集中于從因果視角評估和改進LLMs,在以下幾個方面:理解和提升LLMs的推理能力,解決LLMs中的公平性和安全性問題,為LLMs提供解釋,以及處理多模態問題。同時,LLMs的強大推理能力反過來也可以通過幫助發現因果關系和估計因果效應來促進因果推斷領域的發展。本文探討了因果推斷框架與LLMs之間的相互作用,從兩個角度強調它們共同的潛力,以進一步發展更高級和更公平的人工智能系統。 //www.zhuanzhi.ai/paper/a6cd1586ee23edc1bc238d9cfa310439
近年來,大型語言模型(LLMs)在一系列關鍵任務中展現出了非凡的多功能性。LLM擅長的任務包括文案創作、用其獨特的風格和聲音增強原始句子、響應知識庫查詢、生成代碼、解決數學問題以及根據用戶需求執行分類或生成任務。此外,最近還擴展到了多模態變體,如大型視覺語言模型(LVLMs)或大型多模態語言模型,這些變體擴大了它們的輸入/輸出能力,以涵蓋各種模態。這種演變顯著提高了這些模型的潛力和應用范圍。 在本綜述中,我們主要關注基于變換器(Transformers)的大型語言模型(LLMs)。LLMs的能力根本上源于它們的推理能力,這決定了它們在理解、處理和提供各種查詢的解決方案方面的熟練程度,以及它們適應對社會有影響的領域的能力。因此,大量研究工作致力于測量和增強這些能力,范圍從評估LLMs的推理能力到審查它們的決策過程,并解決概念在不同模態間對齊以及減少幻覺等挑戰。此外,由于LLMs在數十億參數的基礎上訓練了大量人類知識,它們有時面臨在不同場景下適當優先級或淡化所學的挑戰。這可能導致領域偏移,即模型在與訓練集不同的數據上的性能下降,以及長尾偏差,即不常見的示例處理不夠有效。 在許多情況下,語言任務不僅需要基于數據中的模式預測或生成文本,還需要理解驅動這些模式的潛在因果機制。因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出了巨大的潛力。隨著生成式LLMs的出現,各個NLP領域發生了重大變革,吸引了越來越多的研究興趣,應用因果推斷來解決與LLM相關的挑戰并增強其功能。這種轉變也激勵了本綜述概述因果方法及其在LLMs中的實施,強調它們在豐富我們對語言模型的理解和應用中的作用。 同時,本綜述還旨在探索LLMs如何幫助因果推斷框架。因果推斷正式定義為一個智力學科,它考慮了允許研究者基于數據得出因果結論的假設、研究設計和估計策略。因果推斷有三個主要來源:潛在結果、圖表和結構方程,每個來源都有獨特的用途。潛在結果框架側重于通過統計推斷和治療比較來估計因果效應。圖形模型則擅長繪制因果路徑和可視化關系,節點代表變量,邊表示方向性影響。在本綜述中,我們主要討論Pearl對因果圖的公式化,它用有向無環圖(DAGs)形式化了表示隨機變量間條件獨立關系的因果圖形模型。 我們總結了LLMs如何在其兩個重要組成部分中幫助因果推斷,即因果關系發現和治療效果估計。確定變量間的因果關系是因果推斷框架的一個基本步驟,因為估計變量A對變量B的因果效應需要對與A和B相關的其他變量的因果關系進行因果假設。傳統上,研究人員依靠具有主題知識的專家為這些因果關系奠定基礎。因果發現方法為從觀察數據中發現因果圖提供了一種替代方法。LLMs已經展示了根據預訓練知識或給定文本確定這種因果關系的能力。它們也可以與因果發現方法結合,進一步提高結果的可靠性。估計治療效果是因果推斷的核心,但在許多情況下由于缺乏反事實數據而受阻。利用LLMs強大的反事實推理能力,研究人員開發了各種方法來生成高質量的反事實,以實現治療效果估計。 本綜述的結構如圖1所示。我們從第2節開始介紹大型語言模型的最新進展。然后我們在第3節提供了用于改進LLMs的因果推斷方法概述。在論文的前半部分,我們討論了這些方法在LLM社區的各種問題中的應用:第4.1節概述了因果方法用于衡量和改進LLM的推理能力,第4.2節和第4.3節關注公平性和安全性問題,而第4.4節介紹了因果推斷方法如何處理LLM的可解釋性。我們還在第4.5節討論了構建和開發多模態大型模型的擴展。最后,我們在第4.6節列出了從因果視角對LLMs進行評估和基準測試的現有工作。在綜述的后半部分,我們轉向LLMs如何擴展因果推斷的邊界。第5.1節解釋了因果推斷的當前假設、限制和瓶頸。第5.3節和第5.2節陳述了改進治療效果估計和因果發現的當前工作。我們在第6節突出了幾個未來方向。 LLMs可以顯著受益于因果推斷,因為它增強了它們理解和推理數據內因果關系的能力。在本節中,我們回顧LLMs如何從以下幾個角度受益于因果視角,包括理解和提升LLMs的推理能力(第4.1節)、解決LLMs中的公平性問題(第4.2節)和安全性問題(第4.3節)、用解釋補充LLMs(第4.4節)以及處理多模態問題(第4.5節)。然后我們在第4.6節中從這些角度組織基準數據集。 大型語言模型用于因果推斷
因果推斷作為解決LLMs挑戰的有力工具,重度依賴于世界知識。如前所述,因果推斷有三個主要來源:潛在結果框架、基于圖的因果方法和結構方程社區。潛在結果框架在很大程度上依賴于幾個假設,以促進對群體/個體之間治療效果的比較。應用潛在結果框架的最具挑戰性的方面之一在于確保這些假設在現實中成立。在本節中,我們首先審查這些假設,隨后說明現有文獻是如何放寬這些假設的。基于圖的因果方法和結構方程模型也需要對潛在的因果圖有一定水平的理解。例如,有向無環圖(DAGs)作為一個基本假設,許多結構方程模型假設一定程度的線性或者輸入分布遵循特定的概率分布。在我們的回顧中,我們還探索了現有方法如何驗證輸入數據中的分布,并在LLMs的幫助下擴展當前方法以容納更復雜的分布。 結論 在其核心,一個大型語言模型(LLM)就像一個龐大的知識庫。一個持續的挑戰是如何有效地提取和使用這些知識。改進LLM的關鍵在于增強它們理解因果關系的能力——本質上,理解事物之間是如何連接的。因果推理對于讓LLM更智能至關重要。從因果推斷的角度來看,我們發現了一個寶貴的框架,有助于提高LLM的效果。同時,作為人類知識的保管者,LLM甚至可以通過提供超越現有限制的廣泛專業知識,幫助克服因果推斷中的局限性,重新塑造我們在這一重要領域的理解,并為該領域帶來新的活力。 在這篇綜述中,我們提供了一個徹底的考察,探索了大型語言模型(LLM)與因果推斷交匯處的當前景觀。我們深入探討了因果推斷如何對LLM做出貢獻,增強了推理、公平性、安全性以及LLM的可解釋性等方面。此外,我們探索了LLM反過來如何拓寬因果推斷的視野。跨越這些類別,我們的綜述提供了深入的討論、比較和對審視方法的簡潔總結,提供了一個全面的研究現狀概覽。可用的基準數據集和這些方法的開源代碼也被列出。 對因果推斷和大型語言模型當前進展的考察服務于雙重目的。首先,它增強了我們對這兩個領域如何相互受益的理解。其次,它催生了新的問題,推動我們更接近于實現人工通用智能。此外,這一探索有潛力擴展到多個領域,并在現實世界場景中找到應用,展示了因果推斷與LLM之間協同作用的深遠影響。
這篇綜述深入分析了大型語言模型(LLMs)中的知識沖突問題,突出了它們在融合上下文和參數知識時遇到的復雜挑戰。我們關注三類知識沖突:上下文記憶沖突、跨上下文沖突和內部記憶沖突。這些沖突可能顯著影響LLMs的可信度和性能,特別是在噪聲和誤信息普遍存在的現實世界應用中。通過對這些沖突的分類、探索原因、檢查LLMs在此類沖突下的行為,并回顧可用的解決方案,此綜述旨在闡明提高LLMs魯棒性的策略,因而為這一不斷發展領域的研究進步提供了寶貴的資源。
大型語言模型(LLMs)(Brown et al., 2020;Touvron et al., 2023;Achiam et al., 2024)因包含廣泛的世界知識庫(被稱為參數知識)而聞名(Petroni et al., 2019;Roberts et al., 2020)。這些模型在包括問答(QA)(Petroni et al., 2019)、事實核查(Gao et al., 2023a)、知識生成(Chen et al., 2023c)等知識密集型任務中表現出色。與此同時,LLMs在部署后繼續與外部上下文知識交互,包括用戶提示(Liu et al., 2023a)、交互式對話(Zhang et al., 2020)或從Web檢索的文檔(Lewis et al., 2020;Shi et al., 2023c)以及工具(Schick et al., 2023;Zhuang et al., 2023)。將上下文知識整合到LLMs中,使它們能夠跟上當前事件(Kasai et al., 2022)并生成更準確的回應(Shuster et al., 2021),但由于知識來源豐富,這也存在沖突的風險。上下文與模型的參數知識之間的差異被稱為知識沖突(Chen et al., 2022;Xie et al., 2023)。在本文中,我們分類三種不同類型的知識沖突,如圖1所示。如圖1中的例子所示,當使用LLM回答用戶問題時,用戶可能會提供補充提示,而LLM也利用搜索引擎從Web收集相關文檔以增強其知識(Lewis et al., 2020)。用戶提示、對話歷史和檢索的文檔的組合構成上下文知識(上下文)。上下文知識可能與LLM參數內封裝的參數知識(記憶)發生沖突,我們將這種現象稱為上下文-記憶沖突(CM,§ 2)。在現實世界場景中,外部文檔可能充滿噪聲(Zhang and Choi, 2021)甚至是故意制造的錯誤信息(Du et al., 2022b;Pan et al., 2023a),這使得它們的處理和準確響應能力復雜化(Chen et al., 2022)。我們將不同上下文知識之間的沖突稱為跨上下文沖突(IC,§ 3)。為了減少回應中的不確定性,用戶可能以不同形式提出問題。因此,LLM的參數知識可能對這些不同措辭的問題產生不同的回應。這種變化可以歸因于LLM參數中嵌入的沖突知識,這源于復雜和多樣化的預訓練數據集中存在的不一致性(Huang et al., 2023)。這就引發了我們所稱的內存沖突(IM,§ 4)。
知識沖突最初源于開放領域問答(QA)研究。這一概念在 Longpre et al. (2021) 的研究中獲得關注,該研究聚焦于參數知識與外部文段之間基于實體的沖突。同時,也細致審視了多個文段之間的差異(Chen et al., 2022)。隨著大型語言模型(LLMs)的最近出現,知識沖突引起了顯著注意。例如,近期研究發現LLMs既遵循參數知識又易受上下文影響(Xie et al., 2023),當這些外部知識在事實上不正確時可能會出現問題(Pan et al., 2023b)。考慮到對LLMs的可信度(Du et al., 2022b)、實時準確性(Kasai et al., 2022)和魯棒性(Ying et al., 2023)的影響,深入理解和解決知識沖突變得至關重要(Xie et al., 2023; Wang et al., 2023g)。
截至撰寫本文時,據我們所知,還沒有專門用于調查知識沖突的系統性綜述。現有的綜述(Zhang et al., 2023d; Wang et al., 2023a; Feng et al., 2023)將知識沖突作為其更廣泛內容中的一個子話題觸及。雖然Feng et al. (2023) 對知識沖突進行了更系統的考察,將它們分類為外部和內部沖突。然而,他們的綜述只是簡要概述了相關工作,并主要關注特定場景。為了填補這一空白,我們旨在提供一個全面的綜述,包括對各種知識沖突的分類、原因與行為分析,以及解決方案。
我們綜述的方法論如圖2所示,我們將知識沖突的生命周期概念化為既是導致模型出現各種行為的原因,也是從知識的復雜性質中產生的效果。知識沖突是原因與模型行為之間的關鍵中介。例如,它們顯著地貢獻于模型生成事實上不正確的信息,即幻覺(Ji et al., 2023; Zhang et al., 2023d)。我們的研究,類似于弗洛伊德式的精神分析,強調了理解這些沖突起源的重要性。盡管現有分析(Chen et al., 2022; Xie et al., 2023; Wang et al., 2023g)傾向于人為構造這些沖突,我們認為這些分析沒有充分解決問題的相互連通性。
我們不僅回顧和分析原因和行為,而且深入提供解決方案的系統綜述,這些解決方案用于最小化知識沖突的不希望出現的后果,即鼓勵模型展現出符合特定目標的期望行為(請注意,這些目標可能基于特定場景而有所不同)。根據與潛在沖突相關的時機,策略分為預事前和事后兩大類。它們之間的主要區別在于是在潛在沖突出現前還是后進行調整。知識沖突的分類在圖3中概述。我們依次討論三種知識沖突,詳細說明每種沖突的原因、模型行為的分析,以及根據各自目標組織的可用解決方案。相關數據集可在表1中找到。
上下文-記憶沖突是三種類型沖突中研究最為廣泛的。LLMs由固定的參數知識特征化,這是大量相關處理過程的結果(Sharir et al., 2020; Hoffmann et al., 2022; Smith, 2023)。這種靜態的參數知識與外部信息的動態本質形成鮮明對比,后者以迅速的速度發展變化(De Cao et al., 2021; Kasai et al., 2022)。
上下文-記憶沖突的核心在于LLMs的參數知識與接收到的、更新的外部信息之間存在不一致。LLMs在被訓練的時候,固化了大量的信息和知識,但這些信息隨著時間的推移可能會過時或與新的外部信息產生沖突。這種固化的參數知識與不斷更新的外部環境之間的差異,導致了上下文-記憶沖突的出現。 處理這種沖突的關鍵在于如何有效地整合這兩種類型的知識,確保LLMs在提供響應時既能反映其深厚的內在知識庫,又能適應外部環境的變化。研究者們正在探索各種方法,以減少這種沖突對LLMs性能的影響,從而提高它們的實時準確性、可信度和魯棒性。
跨上下文沖突在LLMs中體現在整合外部信息源時,這一挑戰通過引入RAG(檢索增強生成)技術而變得更加顯著。RAG通過將檢索到的文檔內容整合到上下文中,豐富了LLM的響應。然而,這種整合可能導致提供的上下文內部出現不一致性,因為外部文檔可能包含相互沖突的信息(Zhang and Choi, 2021; Kasai et al., 2022; Li et al., 2023a)。
在使用RAG技術時,LLMs需要從多個檢索到的文檔中提取信息,以生成回應。這些文檔來自于互聯網或其他數據庫,每個文檔都可能基于不同的視角、來源或時效性提供信息。當這些文檔之間的信息存在矛盾時,就會出現跨上下文沖突。例如,兩個不同的文檔可能對同一事件提供截然不同的解釋或數據。LLMs在嘗試整合這些信息以形成一致的回應時,可能會因為這些沖突而難以做出決定。
解決跨上下文沖突的策略包括改進LLMs的信息評估和整合能力,例如通過增強模型的理解和判斷力來識別和調和這些沖突。此外,可以通過優化檢索算法來提高文檔選擇的準確性和相關性,減少引入沖突信息的可能性。研究者們正致力于開發這些策略,以提高LLMs處理跨上下文沖突的能力,確保它們在面對復雜多變的外部信息時仍能生成準確、一致的回應.
隨著大型語言模型(LLMs)的發展,LLMs在知識密集型問答系統中得到了廣泛應用(Gao et al., 2023b; Yu et al., 2022; Petroni et al., 2019; Chen et al., 2023c)。有效部署LLMs的一個關鍵方面是確保它們對具有相似含義或意圖的各種表達生成一致的輸出。盡管這一點至關重要,但內存沖突—一種LLMs對語義上等價但句法上不同的輸入展現出不可預測行為并生成不同響應的情況—卻是一個顯著的挑戰(Chang and Bergen, 2023; Chen et al., 2023a; Raj et al., 2023; Rabinovich et al., 2023; Raj et al., 2022; Bartsch et al., 2023)。內存沖突實質上通過在它們的輸出中引入一定程度的不確定性,削弱了LLMs的可靠性和實用性。
內存沖突揭示了LLMs在處理語言的深層次一致性方面的局限性。雖然這些模型在大規模的數據訓練中學習了廣泛的語言模式和知識,但它們仍然難以在語義上等價的表達之間做出一致的推斷。這種沖突不僅影響了模型在問答系統、文本摘要、語言翻譯等任務中的表現,也對開發更高效、更準確的LLMs提出了挑戰。 為解決內存沖突問題,研究人員正在探索不同的方法,包括改進模型的訓練過程以提高其對語義等價性的理解,開發新的模型架構以更好地處理句法多樣性,以及采用后處理技術來糾正模型輸出中的不一致性。通過這些努力,我們可以期待在未來LLMs將在保持輸出一致性方面取得顯著進步,從而增強其在各種應用場景中的可靠性和實用性。
通過這項綜述,我們廣泛調查了知識沖突,闡明了它們的分類、原因、LLMs對這些沖突的響應以及可能的解決方案。我們的發現揭示了知識沖突是一個多方面的問題,模型的行為與特定類型的沖突知識密切相關。此外,三種類型的沖突之間似乎存在更復雜的相互作用。進一步來說,我們觀察到現有解決方案主要針對人為構建的場景,忽略了依靠假設的先驗知識所帶來的沖突細微之處,因此犧牲了細致度和廣度。 考慮到檢索增強型語言模型(RALMs)的使用日益增長,我們預計LLMs面臨的知識沖突只會變得更加復雜,這強調了在這一領域進行更全面研究的必要性。隨著技術的不斷進步和復雜性的增加,尋找解決這些挑戰的方法將變得尤為重要,以確保LLMs在各種應用中的可靠性和有效性。這要求研究者們不僅要深入探索知識沖突的本質,還要開發新的方法來應對這些沖突,從而推動LLMs技術的進一步發展。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。
大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?
采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。
? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。
? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。
? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。
? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。
? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。
盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。
位置技術
與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。
外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。
插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。
總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
大型語言模型(LLMs)在自然語言理解、語言生成和復雜推理等重要任務中展示了顯著能力,并有潛力對我們的社會產生重大影響。然而,這些能力伴隨著它們所需的大量資源,突顯了開發有效技術以應對其效率挑戰的強烈需求。在本綜述中,我們提供了對高效LLMs研究的系統性和全面的回顧。我們組織了文獻,形成了一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了不同但相互關聯的高效LLMs主題。我們還創建了一個GitHub倉庫,在 //github.com/AIoTMLSys-Lab/Efficient-LLMs-Survey 收錄了本綜述中的論文,并將積極維護這個倉庫,將新的研究成果納入其中。我們希望我們的綜述能成為幫助研究人員和實踐者系統理解高效LLMs研究發展的寶貴資源,并激勵他們為這個重要且令人興奮的領域做出貢獻。
大型語言模型(LLMs)是一種先進的人工智能模型,旨在理解和生成人類語言。最近,我們見證了GPT系列(GPT-3 [21] 和 GPT-4 [197])、谷歌系列(Gemini [266]、GLaM [71]、PaLM [50]、PaLM-2 [8])、Meta系列(LLaMA 1&2 [272, 273])、BLOOM [233]、盤古之心 [227] 和 GLM [339]等LLMs的興起,以及它們在自然語言理解(NLU)、語言生成、復雜推理[320]和與生物醫學[278, 280]、法律[72]及代碼生成[34, 300]等領域相關的任務中取得的顯著表現。這些性能突破歸功于它們的巨大規模,因為它們包含數十億甚至數萬億個參數,同時又在大量數據上進行訓練,這些數據來自多樣化的來源。 盡管LLMs引領著人工智能的下一波革命,但LLMs的顯著能力卻以其巨大的資源需求為代價[50, 71, 197, 227]。圖1展示了LLaMA系列模型性能與訓練過程中碳排放之間的關系。如圖所示,隨著模型參數數量的增加,碳排放量呈指數級增長。除了訓練之外,推理(inference)也對LLMs的運營成本有著相當大的貢獻。如圖2所示,更先進的LLMs在推理過程中表現出更高的內存使用和能源消耗,這對于以經濟有效的方式將這些模型擴展到更廣泛的客戶群和多樣化的應用中提出了挑戰。隨著LLMs應用和客戶群的快速擴張,推理過程中的運營成本(包括能源消耗和內存使用)將增加,超過訓練成本,成為整體環境影響的主導因素。 LLMs的高資源消耗推動了開發技術以提高LLMs效率的需求。本綜述的總體目標是提供一個全面的視角,概述高效LLMs的技術進展,并總結現有的研究方向。如圖3所示,我們將文獻組織成一個由三個主要類別構成的分類法,分別從模型中心、數據中心和框架中心的視角,涵蓋了高效LLMs的主題。這三個類別涵蓋了不同但相互關聯的研究主題,共同提供了對高效LLMs研究的系統性和全面的回顧。具體來說,
?** 模型中心方法**:模型中心方法側重于以模型本身為焦點的算法層面和系統層面的高效技術。由于LLMs擁有數十億甚至數萬億個參數,它們表現出與小規模模型不同的特征[299],這促使了新技術的發展。在第2部分,我們調查了涵蓋模型壓縮、高效預訓練、高效微調、高效推理和高效架構設計相關的研究方向的高效技術。
? 數據中心方法:在LLMs領域,數據的重要性與模型本身一樣關鍵。數據中心方法側重于數據質量和結構在提高LLMs效率方面的作用。在第3部分,我們調查了涵蓋數據選擇和提示工程相關研究方向的高效技術。
? LLM框架:LLMs的出現促使開發專門的框架,以高效地處理它們的訓練、推理和服務。雖然主流的人工智能框架(如TensorFlow、PyTorch和JAX)提供了基礎,但它們缺乏對LLMs至關重要的特定優化和特性的內置支持。在第4部分,我們調查了專門為高效LLMs設計的現有框架,介紹了它們的獨特特性、底層庫和專門化。
最后,我們建立了一個GitHub倉庫,在 上匯編了本綜述中的論文,并將它們按照相同的分類法組織起來。我們將積極維護它并納入新的研究成果。我們希望這個綜述以及GitHub倉庫能幫助研究人員和從業者瀏覽文獻,并作為激發對高效LLMs進一步研究的催化劑。
以模型為中心
正如圖4所總結的,大型語言模型(LLMs)的模型壓縮技術可以分為四類:量化、參數剪枝、低秩近似和知識蒸餾。
如表1所示,預訓練大型語言模型(LLMs)的成本極其昂貴。高效的預訓練旨在提高預訓練過程的效率并降低成本。正如圖7所總結的,高效預訓練技術可以分為四類:混合精度加速、模型縮放、初始化技術和優化策略。
高效微調旨在提高大型語言模型(LLMs)微調過程的效率。正如圖8所示,高效微調方法可以分為參數高效微調(PEFT)和內存高效微調(MEFT)。
高效推理旨在提高大型語言模型(LLMs)推理過程的效率。正如圖10所總結的,高效推理技術可以分為算法層面和系統層面的加速技術。
針對大型語言模型(LLMs)的高效架構設計是指對模型結構和計算過程進行戰略性優化,以提升性能和可擴展性,同時最小化資源消耗。圖12總結了大型語言模型的高效架構設計。
以數據為中心
大型語言模型(LLMs)的數據選擇涉及對數據源、質量和預處理的仔細考慮。確保高質量數據是開發高效可靠的LLMs的基礎,因為它影響著它們的學習、泛化和在各種任務上準確執行的能力。[84, 232, 311, 325]。這個過程對于避免在模型中傳播偏見和不準確性至關重要,使得LLMs訓練能夠收斂。研究人員正在開發優化數據選擇、數據壓縮和提示微調等策略,以提高性能同時使用較少的資源。圖15總結了高效預訓練和微調的最新數據選擇技術。
提示工程[167]涉及設計有效的輸入(提示),以引導大型語言模型(LLMs)生成期望的輸出。這對于LLMs至關重要,因為提示工程使得LLMs能夠針對特定任務進行定制,而無需大量標記數據。高效技術使得這些模型能夠在較少的計算開銷下準確處理信息和響應。基于提示的語言模型所涉及的計算成本一直是持續研究的主題,特別是在特定任務應用的背景下。正如圖17所總結的,提示工程技術可以分為少量樣本提示、提示壓縮和提示生成。
LLM框架
結論
在這篇綜述中,我們提供了對高效大型語言模型(LLMs)的系統性回顧,這是一個旨在實現LLMs民主化的重要研究領域。我們從闡述高效LLMs的必要性開始。通過一個分類體系,我們分別從以模型為中心和以數據為中心的角度,回顧了LLMs的算法層面和系統層面的高效技術。此外,我們還回顧了具有特定優化和特性的LLMs框架,這些對高效LLMs至關重要。我們認為,效率將在LLMs及以LLMs為導向的系統中發揮越來越重要的作用。我們希望這篇綜述能夠使研究人員和實踐者快速進入這一領域,并作為激發高效LLMs新研究的催化劑。
數據在大型語言模型(LLM)訓練中扮演了基礎性的角色。有效的數據管理,尤其是在構建適合的訓練數據集方面,對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻,目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論,以及持續改進策略方面存在不足。因此,數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽,涵蓋了數據管理策略設計的各個值得注意的方面:數據量、數據質量、領域/任務組成等。展望未來,我們推斷現有挑戰,并勾勒出這一領域發展的有希望的方向。因此,本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。
大型語言模型(LLM)以其強大的性能和新興能力震驚了自然語言處理(NLP)社區(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。根據之前的研究(Kaplan et al., 2020; Hoffmann et al., 2022),LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究(Zhou et al., 2023a; Ouyang et al., 2022)進一步通過對精心策劃的指令數據集進行監督式微調,增強了LLM的指令遵循能力和下游任務的性能。
我們定義的數據管理——構建適合的訓練數據集,在LLM的預訓練和監督式微調(SFT)階段都至關重要且充滿挑戰。在預訓練階段,構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的(Jain et al., 2020; Gupta et al., 2021)。為了賦予LLM一般性能力,也需要具有多種領域混合的異質數據集組成(Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023)。然而,許多著名的LLM并沒有透露(Anil et al., 2023; OpenAI, 2023)或僅記錄了預訓練數據構建中選擇的過程(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a),使其背后的理由缺失。在SFT階段,LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起(Sanh et al., 2022; Ouyang et al., 2022)。盡管已有一些帶有人類注釋的指令數據集/基準被提出(Wang et al., 2022; K?pf et al., 2023),自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的收集(Si et al., 2023; Anand et al., 2023),從業者仍對指令數據集對微調LLM的性能的影響感到困惑,導致在LLM微調實踐中選擇合適的數據管理策略困難重重。
為了應對這些挑戰,需要對數據管理進行系統性分析,包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估,以及改進策略的追求。因此,本綜述旨在提供當前數據管理研究的全面概覽,如圖1所示。在第2部分,我們關注預訓練數據管理,包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分,我們討論LLM監督式微調(SFT)階段的數據量、數據質量、任務組成和數據高效學習。在第4部分,展望未來,我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述,我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。
大模型預訓練
數據管理在許多著名大型語言模型(LLM)的預訓練中被發現非常重要(OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022)。雖然大多數LLM沒有報告它們的數據管理程序,或者只報告了它們采用的策略,但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分,我們首先回顧研究訓練數據集規模定律的研究,包括有/無數據重復的情況。然后,探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后,討論領域組成和領域重新加權方法。最后,介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。
2.1 數據量
LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加,文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律 在LLM普及之前,研究者就已經關注訓練數據集大小與具有變壓器架構(Vaswani et al., 2017)的語言模型性能之間的關系。Kaplan et al.(2020)研究了變壓器語言模型在交叉熵損失上的經驗性規模定律,發現模型性能與訓練數據集大小之間存在冪律關系,當不受模型大小和訓練計算預算的限制時。他們還得出結論,只要模型大小和訓練數據集大小同時擴展,模型性能就會可預測地提高,但如果其中一個固定而另一個增加,則會遇到過擬合。他們提出的性能懲罰預測比例顯示,模型大小應該比訓練數據集大小增長得更快。 繼Kaplan et al.(2020)提出的冪律關系后,Hoffmann et al.(2022)對更大的語言模型進行了實驗,得出不同的結論,即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。
2.1.2 數據重復
盡管Kaplan et al.(2020)和Hoffmann et al.(2022)關注的是唯一數據訓練一個時期的規模定律,Hernandez et al.(2022)解決了訓練數據集中文本重疊的問題,并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象(Nakkiran et al., 2021),其中重復數據導致訓練過程中途測試損失增加,并發現可預測的重復頻率范圍會導致嚴重的性能下降。 隨著模型大小的增長,根據規模定律,需要更多的訓練數據,引起了關于耗盡高質量訓練數據的擔憂(Villalobos et al., 2022; Hoffmann et al., 2022)。克服這一問題的一種直接方法是對數據進行重復訓練。然而,如上所述,數據重復眾所周知會導致性能下降。受到這一矛盾的啟發,幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.(2023)發現,在受限的數據和固定的計算預算下,對相同的數據重復訓練多達4個時期與訓練唯一數據相比,對損失的變化微不足道。他們還提出了一個規模定律,考慮到了重復和過多參數的回報遞減。Xue et al.(2023)也觀察到模型性能的多時期退化,并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現,常用的正則化技術在緩解多時期退化方面沒有幫助,除了dropout。質疑以前的發現,Tirumala et al.(2023)展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練,而對隨機選擇的重復數據進行訓練則不行,這表明了重復使用智能選擇數據的可行方法。
2.2 數據質量
根據以往研究(Jain et al., 2020; Gupta et al., 2021),高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中,也采用了質量保證技術,通常形成數據管理流程(Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023),包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。
2.2.1 去重
去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用(Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020)。Lee et al.(2021)使用N-gram相似性與MinHash(Broder, 1997)來檢測訓練數據集中的重復,并發現去重有助于減輕記憶效應、避免訓練-測試重疊,并保持模型困惑度的同時提高訓練效率。Kandpal et al.(2022)還表明,去重可以顯著降低針對模型記憶的隱私攻擊的成功率。 在去重實踐中,N-gram-and-hashing是最常用的技術(Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021)。Silcock et al.(2022)將其與神經方法進行比較,即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法,得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.(2023)提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復,并應用聚類來減少搜索計算。同樣,Kaddour(2023)通過過濾掉低質量嵌入集群,構建了Pile(Gao et al., 2020)的子集MiniPile。
2.2.2 質量過濾
質量過濾是構建適合預訓練數據集的另一個關鍵步驟,因為像Common Crawl 1和多語言數據集(Kreutzer et al., 2022)這樣的公共數據集通常包含低質量數據,這會妨礙LLM的訓練。現有工作通常使用分類器(Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a)、手工制定的啟發式規則(Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022)或使用困惑度等標準進行閾值過濾(Wenzek et al., 2020; Muennighoff et al., 2023)來進行質量過濾。 質量過濾通常被證明有利于提升模型性能(Longpre et al., 2023b),盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5,擁有13億參數,分別在精心選取的高質量數據和合成數據上訓練,展現了在編碼任務和常識推理上的出色表現。Penedo等人(2023年)構建了RefinedWeb數據集,包括適當過濾和去重的高質量網絡數據,其性能超過了在Pile(Gao et al., 2020)上訓練的模型。與常見結論相反,Gao(2021年)發現,由于過濾目標不夠穩健,對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題,Marion等人(2023年)研究了三種數據質量估計器:困惑度、錯誤L2范數(EL2N)和記憶因子,并通過數據修剪進行測試。令人驚訝的是,他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術,如記憶。
2.2.3 有害內容過濾
有害內容指的是粗魯、不尊重或不合理的語言,可能會導致某人離開討論(Gehman et al., 2020; Welbl et al., 2021)。由于原始文本語料庫通常包含有害文本(Luccioni和Viviano,2021;Longpre et al., 2023b),有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本,進一步防止LLM生成有害話語。與質量過濾類似,啟發式和基于規則的過濾(Lees et al., 2022; Gargee et al., 2022; Friedl, 2023)和N-gram分類器(Raffel et al., 2020)被用作有害內容過濾器。盡管有效地進行模型解毒,Longpre等人(2023b)發現,有害內容過濾減少了生成有害內容的風險,但同時降低了模型的泛化和識別有害內容的能力。此外,Xu等人(2021年)和Welbl等人(2021年)均發現,訓練數據集的解毒處理會導致邊緣化少數群體,如方言和少數族裔身份提及。
2.2.4 社會偏見
除了數據解毒導致的少數群體邊緣化之外,一些工作(Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023)發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人(2021年)評估了C4(Raffel et al., 2020)數據集,建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害,以及被排除的聲音和身份。Gururangan等人(2022年)使用美國高中報紙文章的新數據集,也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙,從而導致一種語言意識形態。Feng等人(2023年)進行了一項全面的案例研究,重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響,以及它如何傳播到語言模型,甚至進一步影響到下游任務。
2.2.5 多樣性和時效性
在LLM預訓練階段的數據管理中,也有研究關注數據的其他方面,例如多樣性和時效性。 例如,Lee等人(2023a)展示了,當用最近提出的Task2Vec多樣性系數(Miranda et al., 2022)來衡量時,公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的,并建議在構建更多樣的數據集時使用它。Maharana等人(2023年)提出了一種新的修剪方法D2修剪,通過將數據集表示為一個帶有難度分數的無向圖,并采用正向和反向信息傳遞策略,來選擇一個包含數據集空間中多樣化和困難區域的核心子集,以平衡數據多樣性和難度選擇。
Longpre等人(2023b)探討了評估數據集的時效性,并得出結論,評估數據與預訓練數據之間的時間偏移會導致性能估計不準確,而且時間不一致無法通過微調來克服,尤其是對于更大的模型。
2.3 領域組成
公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體,例如Pile(Gao et al., 2020)包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的,例如LaMDA(Thoppilan et al., 2022)是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。
研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人(2023b)將Pile(Gao et al., 2020)數據分為九個領域,并進行了逐個刪減實驗,展示了不同領域的影響。他們得出結論,高質量(如書籍)和高多樣性(如網頁)的領域普遍有幫助,即使它們與下游任務相關性較低,包含盡可能多的數據源也是有益的。SlimPajama-DC(Shen et al., 2023)也得出相同的結論,即合并所有領域通常比有意選擇的組合效果更好,前提是進行了全局去重,以消除不同領域數據集之間的重疊。Longpre等人(2023b)和Shen等人(2023)都認為,特定的混合體可能在針對特定任務的評估基準上表現出色,但與包含多樣化的網絡領域相比,優先級并不總是存在。CodeGen2(Nijkamp et al., 2023)研究了編程語言和自然語言混合體對模型性能的影響,并發現,在相同的計算預算下,使用混合體訓練的模型的性能并不比與領域匹配的模型好,但接近。
還有幾種方法被提出來找到適當的領域組成權重。DSIR(Xie et al., 2023b)將問題形式化為在給定一些未標記目標樣本的情況下,選擇原始未標記數據集的子集以匹配目標分布。具體來說,它利用經典的重要性重采樣方法(Rubin, 1988)并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識,DoReMi(Xie et al., 2023a)使用小型代理模型通過Group Domain Robust Optimization(Group DRO)(Oren et al., 2019; Sagawa* et al., 2020)生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重,提高了所有領域的模型性能。在DoReMi(Xie et al., 2023a)的基礎上改進,Fan等人(2023)提出了DoGE,它對訓練領域進行加權,以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問,該函數測量每個領域對其他領域的貢獻。然后,對其他領域的學習貢獻更大的領域將獲得更大的權重。
2.4 數據管理系統
針對預訓練數據管理的困難,集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人(2023a)提供了一個數據處理系統Data-Juicer,它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能,針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人(2023c)還提出了一個預訓練數據策劃和評估系統Oasis,其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。
監督式微調大型語言模型
基于在預訓練階段學到的通用知識和能力,提出了監督式微調(SFT)來進一步提高LLM的指令遵循能力和與人類期望的一致性(Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022)。許多工作已經投入到使用人類注釋(Wang et al., 2022; K?pf et al., 2023)、自我指令(Wang et al., 2023c; Taori et al., 2023)或現有數據集的集合(Si et al., 2023; Anand et al., 2023)來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能,但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致,在本節中,我們總結了LLM SFT的研究探索,涵蓋了數據量、數據質量(包括指令質量)、多樣性、復雜性和提示設計,以及任務組成。此外,還包括了數據高效SFT,討論了從數據角度出發的高效SFT的當前努力。
3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如,LIMA(Zhou et al., 2023a)精心策劃了1,000個高質量樣本,并通過實驗驗證了他們的假設,即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人(2023b)觀察到,對于單一任務特定的LLM微調,可能只需要一條指令,而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理(NLI)任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要(Wei et al., 2021; Sanh et al., 2022)。
為了解決這一沖突,幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人(2023)對12個主要的現實世界在線用戶案例進行了實證研究,并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進,而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人(2023)的觀點不同,Dong等人(2023)發現一般能力可以通過大約1,000個樣本得到增強,并在此后緩慢提升,而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地,Yuan等人(2023)觀察到指令數據量與模型數學推理性能之間存在對數線性關系,但預訓練更強的模型對于更大的微調數據集改進較少。Song等人(2023)進行了涵蓋十種不同能力的實驗,并展示了大多數能力與數據擴展一致。然而,每種能力在指令調整期間的發展速度不同,一些能力甚至顯示出完全不同的模式。
3.2 數據質量
在LLM的監督式微調中,數據質量始終是一個焦點,包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析,而不是在之前的綜述中已經討論過的指令生成方法(Zhang et al., 2023b; Wang et al., 2023e)。
3.3 任務組成
由于LLM在處理各種NLP任務方面表現出驚人的新興能力,多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明,這些模型的參數范圍從3B(Wang et al., 2022),11B(Sanh et al., 2022),137B(Wei et al., 2021)到540B(Chung et al., 2022)。
除了任務數量的擴展外,不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要(Iyer et al., 2022; Longpre et al., 2023a)。Dong等人(2023)專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合,并發現在低資源混合數據下模型能力有所提升,但在高資源混合數據下相比于單一來源數據有所下降,即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突,他們改變了一般和專業數據的比例,并得出結論,當SFT任務之間在任務格式和數據分布上存在顯著差異時,數據比例的影響可以忽略,相反,當存在一定程度的相似性時,數據比例會導致性能的明顯變化。
與將多個任務合并在一起不同,一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM(Jang et al., 2023; Chen et al., 2023b)。Jang等人(2023)指出,訓練專家LLM的優先事項可能在于避免負面任務轉移,通過持續學習新任務而不重新訓練來防止災難性遺忘,以及在將各個專家合并在一起時出現的組合能力。Wang等人(2023b)對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析,并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下,沒有單一的數據集組合可以在所有評估中提供最佳性能。
3.4 數據高效學習
基于對數據量、數據質量和任務組成對模型性能影響的探索,許多工作提出了通過子集選擇或學習策略來更高效地微調LLM,這些策略針對指令數據的不同方面。
結論
本文首次嘗試概述大型語言模型(LLM)訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段,并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后,我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導,并激發在有效和高效數據管理方面的進一步研究,以促進LLM的發展。
圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。
圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。
近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。
貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。
**LLM作為增強器 **
圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。
LLM作為預測器
這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。
GNN-LLM 對齊
對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。
結論
近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。