一区二区三区四区五区无码,国产免费一区二区三区在线能观看,国产高潮白浆调教福利在线视频,中文字幕精品亚洲无线码,91夜夜夜精品一区二区搬运

大型語言模型（LLMs）的快速發展已成為轉型各個領域、重塑人工通用智能領域風貌的驅動力。然而，這些模型不斷增長的計算和存儲需求提出了重大挑戰，阻礙了學術研究和實際應用的進展。為了解決這些問題，已經開發了包括算法和硬件解決方案在內的多種方法，以提高LLMs的效率。本綜述提供了一份全面回顧，專注于旨在提升LLM效率的算法進步。與通常僅關注特定領域，如訓練或模型壓縮的其他綜述不同，本文審視了對LLMs端到端算法發展至關重要的多方面效率維度。具體而言，它涵蓋了與效率相關的各種主題，包括規模定律、數據利用、架構創新、訓練和微調策略，以及推理技術。本文旨在為研究人員和實踐者提供一個寶貴的資源，為這一關鍵研究領域的未來創新奠定基礎。

//github.com/tding1/Efficient-LLM-Survey

大型語言模型（LLMs）[28, 111, 236, 302, 329]，以其數十甚至數百億參數的龐大規模[13, 24, 54]為特征，在人工智能領域已成為一個核心焦點。這些模型，如ChatGPT [1]和Claude [2]的應用所示，已在各種通用任務中展現出令人印象深刻的能力，例如文本摘要[303]、翻譯[100]、問答[219]，甚至基礎編程[34]，這在很大程度上歸功于它們在自然語言理解方面的專長。雖然驅動它們卓越性能的確切機制仍是一個謎[341]，但普遍認為它們的大規模賦予了它們新出現的能力[280]，這在小型模型中未被觀察到，并被視為實現人工通用智能（AGI）[5, 25]的關鍵步驟。盡管LLMs的大規模對于它們的能力至關重要（見圖1），但它們也存在顯著的缺點：由于高計算成本和內存要求[267, 295, 339, 342]，它們的部署受到嚴重限制。訓練這些模型所需的資源是巨大的，這在資源分配和模型設計方面造成了挑戰。例如，探索不同架構或策略的成本變得過高[329]。此外，它們的大規模使它們不適合資源受限的環境，如邊緣設備，從而縮小了應用范圍[7]。這種計算負擔也將LLMs的發展限制在資源豐富的大公司[24, 196, 210]。許多關鍵細節，如數據收集管道和訓練方法，仍然是專有的，這阻礙了學術研究并為小公司帶來挑戰。此外，訓練這些模型的環境影響不容忽視，引發了關于碳排放和倫理考慮的擔憂[268, 270, 285]。因此，提高LLMs的效率正受到越來越多的重視。出于對更高效LLMs的迫切需求，本綜述旨在提供對該主題的全面和最新理解。

在本文中，“效率”定義為在不影響模型性能的情況下優化計算和內存資源。采用整體方法，我們探索了對LLMs端到端發展至關重要的多個效率維度。這些維度涵蓋了數據利用、架構設計、訓練和微調策略以及推理技術，基本上涵蓋了從算法和軟件角度的模型開發整個流程。盡管已有一些綜述專注于LLMs效率的特定方面，如數據[316]、訓練[241, 333, 342]、微調[323]或推理[295, 339]，但它們通常無法提供全面視圖。其他作品，如[267]，已為自然語言處理（NLP）的各種效率方面提供了寶貴的見解，但LLM領域的快速發展要求進行更新和全面的回顧。與此相反，我們的論文旨在提供關鍵方法論和技術的更全面和當前的概述，這些方法論和技術有助于高效LLMs的發展。為了提供對LLM效率多方面的全面理解，本綜述的其余部分從算法角度組織如下：

? 第2節背景介紹了LLMs的核心概念，并概述了評估其效率相關的評價指標。 ? 第3節預算效率考察了像規模定律這樣的預測方法在優化給定資源約束下LLMs性能的作用。 ? 第4節數據效率關注于優化數據利用的技術，從而在不影響性能的情況下減少資源消耗。 ? 第5節架構效率回顧了創新的架構設計，提供了對架構如何影響效率的詳細考察。 ? 第6節訓練和微調效率討論了從頭開始高效訓練LLMs和針對特定下游任務微調預訓練模型的策略。 ? 第7節推理效率探索了旨在加速推理速度和減少內存占用的模型壓縮技術領域。 ? 第8節結論總結了本綜述的主要發現，并討論了它們對高效LLM發展的更廣泛影響。LLM效率的這些不同維度的概念性概述在圖2中呈現。

預算效率:縮放定律

大型語言模型(LLM)的性能受到各種因素的顯著影響，包括訓練數據、模型大小、體系結構、計算資源和訓練方法本身。訓練LLM需要大量的資源，使得用于優化這些因素的傳統試錯方法既不切實際又耗費資源。因此，在訓練之前預測LLM的表現不僅是有益的，而且通常是必要的。這種預測方法可以更有效地規劃和分配資源。例如，考慮一個計算資源有限的場景:我們如何最優地平衡模型大小和訓練數據，以實現最小的目標函數值? 事先回答這些問題可以顯著提高LLM訓練過程的效率和效果。最近對大型語言模型(LLM)性能預測的研究主要集中在理解尺度規律。這條規律描述了LLM性能如何受到模型架構、神經模型大小、訓練計算能力和可用數據等因素的影響。標度律的概念根植于預測模型泛化的統計力學方法中，有著悠久的歷史，可以追溯到20世紀90年代初[11,18,95,235]。最近，在現代深度學習模型的背景下，其相關性被重新激發[10,26,101 - 103,106,124,188,221,248,260,262]。本節將深入研究應用于LLM的縮放律的最新進展和見解，強調這些模型在不同條件下的演變和表現。

數據效率

大規模模型對數據無止境的需求極大地推動了數據收集和準備行業的發展。然而，這種對大量數據集的依賴，往往是多年積累的，為模型訓練帶來了巨大的挑戰。這不僅包括訓練時間延長，而且由于大量耗電和需要更大的數據存儲容量而導致成本上升。因此，找到在訓練和驗證階段更有效地使用數據的方法是至關重要的。在本節中，我們將深入探討提高數據效率的策略和考慮因素，解決如何最大限度地利用數據，同時降低相關成本和資源需求。 架構效率

最近，Transformer家族[269]已經成為語言建模的主要架構，因為它比RNN等遞歸方法具有很強的并行性[185]。然而，其巨大的計算成本使得整體架構在處理和處理長輸入時效率低下。特別是，Transformer架構中的一個關鍵操作是注意力機制。它通常需要關于序列長度的二次復雜度來進行計算，因此在處理長文本輸入時非常慢[99]。減少注意力操作所需的計算[261]成為提高架構效率的直接解決方案，對訓練和推理階段都有好處。為此，研究人員正在探索更有效的注意力[51,59,61]以及不同類型的位置編碼[48,49,127,159,201,207,224,250]的解決方案，或利用模型內固有的稀疏性來避免在稀疏建模的前向計算期間激活所有參數[72,243]。此外，最近的一些工作直接用替代架構取代了注意力機制，將無注意力方法[62,199,205,254]引入到fold中。在本節中，我們將介紹這四個主要方向及其最新進展。 訓練微調效率

LLM訓練和調優技術的發展必須解決數據和模型規模不斷增加所帶來的挑戰。本節深入探討了對LLM的可擴展訓練和調優都至關重要的效率方面，強調了重點關注的關鍵領域。記憶效率。大型transformer模型的參數數量快速增長，每兩年增加約410倍，對內存提出了重大挑戰。這種增長超過了GPU內存的擴展，在同一時期內，GPU內存僅增長了5倍(從16GB到80GB)。訓練過程中的實際內存消耗遠遠超過原始參數數量，包括模型狀態(參數、梯度、優化器狀態)以及剩余狀態(中間激活、臨時緩沖區、內存碎片)。考慮到這些約束，單個GPU設置不足以處理整個模型，需要分布式訓練方法，如張量并行(TP)和流水線并行(PP)，以有效地進行內存管理。計算效率。雖然分布式訓練提供了加快大型模型訓練的潛在好處，但它也引入了影響可擴展性的復雜性。一個值得注意的觀察是，在多GPU訓練中，每個GPU的FLOPs數量減少，與單GPU設置相比。這種減少源于在有效利用日益增多的計算資源方面所面臨的挑戰。因此，在訓練過程中，可擴展性成為提高計算效率的關鍵元素，尤其是在多GPU環境中。通信效率。這方面涉及到在訓練過程中不同設備或層之間的參數和梯度交換。技術如全規約（all-reduce）被用于在數據并行訓練的反向傳播結束時跨所有設備同步梯度。目標是在如廣播、規約、全規約和全集合等集體操作期間盡量減少通信數據的體積。簡而言之，訓練和調優LLM是一個復雜的挑戰，需要全面的方法。考慮所有這些效率方面的綜合策略對于有效和可擴展的LLM訓練和調優至關重要。后續部分將提供這些方面的詳細探討。 推斷效率

大型語言模型(LLM)中龐大的參數數量為在云服務和資源有限的設備上部署帶來了重大挑戰，導致推理支持的維護成本很高。因此，加速推理已成為工業界和學術界共同關注的迫切問題。一種常見的方法是構建緊湊的模型，使整個模型達到具有競爭力的性能，這些方法大致可以分為四類:剪枝、知識蒸餾、量化和低秩分解。剪枝技術專注于識別和消除深度神經網絡(DNN)操作符中的冗余，從而創建更精簡的版本。知識蒸餾涉及將見解從更大、更復雜的"教師"模型轉移到更小、更有效的"學生"模型，幫助在簡化模型中保持高性能。量化通過使用更少的比特在llm中表示浮點數來減少計算負荷和存儲需求。低秩分解通過低秩矩陣逼近LLMs中的權重矩陣，進一步節約計算資源。值得注意的是，其中一些方法需要專門的計算庫和硬件來實現實際的資源節省和加速。結論

總而言之，大型語言模型(LLM)的發展標志著人工通用智能領域的一個重要里程碑，在各個領域帶來了變革性的變化。然而，這些模型的快速擴展在計算需求和內存需求方面帶來了重大挑戰，為學術研究和實際部署創造了障礙。本綜述對旨在提高llm效率的算法創新進行了全面的概述，捕捉了主要截至2023年9月的研究進展。現有的綜述往往側重于孤立的方面，如訓練或模型壓縮，本文超越了這些調查的范圍，深入研究了效率的多個維度，這些對LLM的整體算法開發至關重要。它已經跨越了一系列與效率相關的主題，包括縮放規律、數據利用、架構設計，以及訓練、調優和推理策略。這里提出的見解和分析旨在為該領域的研究人員和從業人員提供有價值的總結。通過奠定現有知識和方法的堅實基礎，為LLM效率這一關鍵研究領域未來的突破和持續創新奠定了基礎。

付費5元查看完整內容

相關內容

大型語言模型

關注 94

大型語言模型 · 多模態基礎模型 · 資源高效大型語言模型 ·

2024 年 1 月 17 日

[付費5元查看完整內容]大模型如何高效利用資源？北郵等最新《資源高效大型語言模型和多模態基礎模型》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型基礎模型，包括大型語言模型（LLMs）、視覺轉換器（ViTs）、擴散以及基于LLM的多模態模型，正在徹底改變整個機器學習生命周期，從訓練到部署。然而，這些模型在多功能性和性能上的顯著進步，卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展，開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性，考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解，涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解，并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能（AI）這一快速發展的領域中，一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作，與開放詞匯和圖像像素進行交互，應對未見的AI任務，即零樣本能力。這些模型的例子包括：（1）大型語言模型（LLMs），如GPTs [39]，能夠以提示的形式處理幾乎所有NLP任務；（2）視覺變換器模型（ViTs），如掩蔽自編碼器 [133]，能夠處理各種下游視覺任務；（3）潛在擴散模型（LDMs），如穩定擴散 [310]，能夠用任意基于文本的提示生成高質量圖像；（4）多模態模型，如CLIP [296]和ImageBind [116]，將不同模態數據映射到同一潛在空間，并廣泛用作跨模態任務（如圖像檢索/搜索和視覺問題回答）的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變，為AI與世界交互設定了新的標準。這些基礎模型的成功深深植根于它們的可擴展性：與前代模型不同，這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展，而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]：它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善；直到今天，這一定律依然成立。這種可擴展性不僅是模型大小的問題；它還擴展到它們處理日益復雜任務的能力，使它們成為走向人工通用智能（AGI）之路的基石。

然而，可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器，如GPU和TPU，還包括內存、能源和網絡帶寬。例如，LLaMa-2-70B的預訓練需要1.7×百萬GPU小時，并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段，數據處理、實驗和推理階段的電力消耗相當甚至更多，據Meta AI [388]稱。最近的一項分析 [77]揭示，為了滿足當前AI能力和采用的持續趨勢，英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家，如新西蘭和奧地利，一整年的用電量，如圖1所示。隨著基礎模型在規模和復雜性上的持續增長，它們的資源需求通常呈指數級增長，這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底，只有少數主要參與者有能力訓練和部署最先進的基礎模型，從而對公眾擁有強大的控制權，有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同，這些模型是在云端而非設備上提供服務的 [403, 440]；這使得數據隱私保護幾乎不可能。盡管最近，智能手機廠商一直在吹噓在本地運行大型基礎模型，一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10]，但展示的模型限于相對較小的規模（例如<10B），且尚未在現實世界中部署。因此，大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法，專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作，探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步，以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍，大型基礎模型在這些領域也獲得了巨大關注。通過這一探索，我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新；我們排除了大量在硬件設計方面的工作，這同樣重要，但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源，包括計算、內存、存儲、帶寬等；我們排除了可以被視為資源的訓練數據（標簽）和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文，即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文，因為AI的創新正在快速進行，舊知識和方法經常被推翻。盡管如此，我們計劃將來擴展本綜述的范圍；我們也將積極維護和更新它。組織。圖2展示了本綜述的組織結構。全開源。本綜述的所有材料都可在以下網址免費獲取： https：github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型（FMs）的核心，包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類，考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器（ViT）的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型（FMs）技術。與傳統的深度神經網絡（DNNs）相比，大型基礎模型表現出新的特征，如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現，這些算法根據基礎模型的生命周期進行分類：預訓練、微調、服務算法以及模型壓縮，如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析，包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計，以實現更高效的大型基礎模型生命周期。未來，這一領域的研究將繼續（甚至更加）重要，因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科，涉及多個計算機科學社區，如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大，尤其值得關注的是：（1）云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能，許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力，將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來，基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。（2）利用模型稀疏性。隨著模型變大，對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現，即使是密集訓練的非MoE模型也表現出運行時激活稀疏性，可以利用這一點來減少推理時間和內存占用。我們認為，利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。（3）大型基礎模型作為一種服務。在云端和設備上，大型基礎模型正在統一DNN生態系統 [427]。最終，它將成為像今天的Web和數據庫一樣的通用服務。一方面，它為高度硬件-算法協同設計和優化提供了機會；同時，它也在系統和基礎設施設計方面提出了新的挑戰，如調度、負載均衡和安全性&隔離。（4）作為整體系統優化的代理。未來，尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務；相反，算法和系統設計需要適應特定的代理工作流。例如，一個代理系統可能需要多個基礎模型協同工作，在這個過程中存在內在的邏輯依賴性。在這個過程中，選擇適合每個任務的適當基礎模型，并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。（5）實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加，隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的，但這些方法仍然面臨顯著的性能挑戰，阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發，或現有方法的改進，以有效地平衡隱私與性能。（6）理解擴展定律。擴展定律推動了大型FMs的成功，同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋（并希望打破）這一限制。同時，設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

知識編輯 · 大型語言模型 ·

2024 年 1 月 3 日

[付費5元查看完整內容]如何編輯大模型中的知識？浙大等最新《大型語言模型知識編輯》全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而，它們的一個主要局限性在于訓練過程中顯著的計算需求，這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇，需要頻繁更新LLMs以糾正過時的信息或整合新知識，從而確保它們的持續相關性。值得注意的是，許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法，人們越來越感興趣。為此，近年來知識編輯技術在LLMs領域蓬勃發展，旨在有效地修改LLMs在特定領域內的行為，同時保持對各種輸入的整體性能。在本文中，我們首先定義了知識編輯問題，然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感，我們提出了一個統一的分類標準，將知識編輯方法分為三組：依賴外部知識、將知識融入模型和編輯內在知識。此外，我們引入了一個新的基準測試，KnowEdit，用于對代表性知識編輯方法進行全面的實證評估。另外，我們提供了對知識位置的深入分析，這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想，我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究，我們發布了一個開源框架，EasyEdit1，將使從業者能夠高效靈活地實施LLMs的知識編輯。最后，我們討論了知識編輯的幾個潛在應用，并概述了其廣泛而深遠的影響。

知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則，從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中，我們人類不斷積累了豐富的知識財富，并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索，一直吸引著科學家們，這不僅是一項技術追求，還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來，大型語言模型（LLM）如GPT-4[13]在自然語言處理（NLP）方面展現出了卓越的能力，可以保留大量知識，可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34]，潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型，實質上創建了一種“世界模型”[35-37]。例如，戴等人[38]提出了知識神經元（KN）論，提出語言模型的功能類似于鍵值記憶。在這里，核心區域的多層感知器（MLP）權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用，暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。

更深入的洞察來自LLMs理解和操作復雜戰略環境的能力，李等人[42]已經證明，針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態，并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58]，不僅存儲大量信息，還以可能反映人類認知過程的方式進行結構化。然而，LLMs存在一些限制，如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題，近年來見證了為LLMs專門定制的知識編輯技術的發展潮，這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整，而不會影響整體性能，并有助于了解LLMs如何表示和處理信息，這對于確保人工智能（AI）應用的公平性和安全性至關重要[70-74]。

本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制（§2.1）以及相關技術，包括參數有效微調、知識增強、繼續學習和機器遺忘（§2.2）。然后，我們介紹了初步內容（§3.1），正式描述了知識編輯問題（§3.2），并提出了一個新的分類法（§3.3），以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言，我們將LLMs的知識編輯分類為：使用外部知識（§3.3.1）、將知識融入模型（§3.3.2）和編輯內在知識（§3.3.3）的方法。我們的分類標準總結如下：

? 使用外部知識。這種方法類似于人類認知過程中的識別階段，需要在相關上下文中暴露給新知識，就像人們首次接觸新信息一樣。例如，提供說明模型的事實更新的句子，以進行知識的初始識別。

? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段，在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。

?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中，通過修改LLMs的權重并可靠地利用它們。

這篇論文隨后進行了廣泛而全面的實驗，涉及了12個自然語言處理（NLP）數據集。這些數據集經過精心設計，用于評估性能（§4）、可用性和底層機制，同時進行了深入的分析（§5），等等其他方面。我們研究的關鍵見解總結如下：

? 性能。我們構建了一個名為KnowEdit的新基準，并報告了針對LLMs的最新知識編輯方法的實證結果，提供了公平比較，展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響，這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中，存在一個或多個列的明顯關注點在值層中。此外，我們發現知識定位過程（例如，因果分析）傾向于僅針對與所討論實體相關的區域，而不是整個事實背景，這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外，我們深入探討了知識編輯對LLMs可能導致意外后果的可能性，這是一個需要仔細考慮的方面。

最后，我們深入探討了知識編輯的多方面應用，從各種角度（§6）考察其潛力，包括高效的機器學習、人工智能生成內容（AIGC）、可信人工智能和人機交互（個性化代理）。此外，我們的討論還涵蓋了知識編輯技術的更廣泛影響，特別關注能源消耗和可解釋性等方面（§7）。這篇論文旨在成為LLMs領域進一步研究的催化劑，強調效率和創新。為了支持和鼓勵未來的研究，我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。

大模型知識編輯

知識編輯對LLMs的初步內容通過對各種數據集的大量訓練，LLMs積累了豐富的事實和常識信息，使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用，如許多研究所證明的那樣[142]。此外，王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力，無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力，但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息，還應允許進行高效和有針對性的更新，以糾正這些錯誤并提高其準確性。認識到這一差距，我們的論文引入了知識編輯的概念，旨在實現對LLMs的快速和精確修改，使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯，我們旨在提高LLMs的效用，使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷，并釋放它們作為動態和準確知識庫的全部潛力，以供應用使用。

知識編輯的最初目標是修改LLM中的特定知識k，以提高LLM的一致性和性能，而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型，例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性，因為LLMs中的知識具有分布和糾纏的特性。

LLMs的發展已經達到了一個階段，其能力與人類的認知過程非常相似，特別是在學習和獲取知識方面。從人類學習過程中汲取靈感，我們可以類比地將這些概念應用到LLMs的編輯過程中，正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段：識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架，我們在表2中列出了它們。

? 識別階段：在識別階段，模型需要在相關背景下接觸新知識，就像人們首次遇到新信息一樣(§3.3.1)。例如，提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。

? 關聯階段：在關聯階段，新知識與模型中現有知識之間建立聯系(§3.3.2)，類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。

? 掌握階段：掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3)，類似于人類的深層掌握。這種方法直接改變了模型的權重?W，模型可以處理問題，無需任何外部幫助或合并。

實驗結果

主要來說，SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法，且可移植性相對較好，因為新的反事實模型可以有效地學習編輯后的知識。與此同時，在不改變原始模型參數的情況下，SERAC除了ZsRE之外，在局部性能方面表現良好。然而，由于反事實模型通常比原始模型小，其生成能力不是很強，在WikiDatacounterfact、ZsRE和Convsent等任務中，我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時，在ICE任務中，我們可以發現編輯成功率并不太好，這可能歸因于知識沖突問題。同時，IKE提出將演示文稿連接在一起作為提示，但它們需要較長的輸入長度，并限制了模型進行下游任務。對于修改模型參數的方法，我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好，表現出良好的局部性和流暢性。然而，對于ROME和MEMIT，盡管編輯成功率更好，但它們的局部性不如MEND和其他類型的編輯方法。同時，它的可移植性令人不滿。對于局部微調方法FT-L，其編輯成功率不如ROME或MEMIT，但局部性和可移植性更好。此外，似乎FT-L在處理插入任務時更好，因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務，當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務，我們可以發現當前方法不能很好地改變模型的情感，因為編輯成功率低于65%。SERAC，它可以完美地處理小型LMs [145]，在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現，MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation，旨在從LLMs中刪除知識，我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識，因為它的準確率達到了90%。但是，它會破壞模型對無關知識的性能，因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。

我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果，如我們在圖3中的先前評估部分中討論的那樣。在這里，我們可以發現MEND在推理集下表現更好，而AdaLoRA表現出良好的邏輯概括性能。

付費5元查看完整內容

大型語言模型 · 生成式AI · 計算資源 · 機器學習系統 ·

2023 年 12 月 27 日

[付費5元查看完整內容]大模型如何部署服務？ CMU最新《高效生成式大型語言模型服務：從算法到系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大模型如何落地？

在快速發展的人工智能（AI）領域中，生成型大型語言模型（LLMs）站在前沿，徹底改變了我們與數據的互動方式。然而，部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰，特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統（MLSys）研究的角度出發，應對高效LLM服務方法論的緊迫需求，站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析，涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解，為研究人員和實踐者提供寶貴的見解，幫助他們克服有效LLM部署的障礙，從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117

生成型大型語言模型（LLMs）已成為推動人工智能（AI）重大進展的驅動力，并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成，這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構，如GPT系列（Generative Pre-trained Transformer）[195]、LLaMA系列[247]以及其他最新的公開LLMs（例如，OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290]）在這種范式轉變中發揮了關鍵作用，徹底改變了自然語言處理（NLP）任務的處理方式。除了NLP，這些模型還在更廣泛的應用領域中實現了轉型，包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197]，展現了它們的多功能性和在各個行業的深遠影響。

然而，LLMs的空前成功也帶來了幾個挑戰，最值得注意的是，在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性，加上對廣泛計算資源的需求，已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂，阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。

這篇綜述旨在解決高效LLM服務的關鍵需求，并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍，所有這些都旨在優化大型語言模型的推理過程。

目標這項綜述的主要目標是提供一個全面的概述，關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術，基于它們的底層方法，突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論，包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。

** 結構本文的結構如下**：第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類，從兩個方面重新審視這些相關工作：算法創新（§ 3.1）和系統優化（§ 3.2）。之后，我們在第4節列出了一些代表性的LLM服務框架，并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后，在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向，以激發未來的研究。

分類法

目前提高LLM服務效率的努力大致可分為兩類，包括算法創新和系統優化，這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析，這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。

** 解碼算法**。在這一部分中，我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度，并提高語言模型推理在生成任務中的總體效率。

非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制，它逐個順序生成輸出標記。為解決這一問題，一種代表性的工作方向是放棄自回歸生成范式，并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出，通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低，一些后續研究如半自回歸解碼[98]，通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152]，進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層，以并行預測多個未來位置，然后退回到基模型驗證的最長前綴。然而，這些方法需要昂貴地重建一個新的LLM以及新的依賴，或調整原始LLM的部分層，這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記，無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統，利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出，以總結這一方向的最新進展。到目前為止，由于不了解輸出標記之間的條件依賴性，盡管解碼速度有所提高，但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。

投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性，解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行，例如決定接下來生成哪個標記。已提出投機解碼[51, 155]，首先以高效的方式（例如，使用較小的草稿模型，模型參數較少）進行多步解碼預測，并與LLM同時驗證這些預測。然而，將投機解碼應用于LLMs時仍然存在一些實際挑戰，例如，如何使解碼預測足夠輕量且準確，以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制（被[48, 118, 168, 185, 229, 236, 274, 310]直接采用），提出了一個低延遲LLM服務系統實現（§ 4）。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證，并且當預測出錯時，回退機制[145]生效。

提前退出。其他一些研究試圖利用現有LLMs的深層多層架構，并利用提前退出機制[243]加速解碼過程。直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量以攤銷總推理成本，即對更容易的推理請求采取較少的計算。廣泛來說，這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。由于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型（即非生成型LLMs）進行了優化，但采取了類似的方法，結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說，級聯推理是提高推理效率的有希望的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。

配置縮小：為了減少LLM推理的計算成本，一種直接的方法是縮小模型配置，例如使用淺層編碼器[101, 183]或解碼器[137]，權重共享和詞匯表縮減[225]。然而，減少模型參數的數量也會影響下游任務的性能。

注意力簡化：與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2)，它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案，用于非常長的序列任務，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。

提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構，并利用提前退出[243]機制來加速解碼過程。其直覺是，早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測，而不是運行整個LLM，并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219]，因為它們調整每個請求的計算量，以攤銷總推理成本，即對更容易的推理請求采取較少的計算。然而，由于這些方法大多受限于內部表示攜帶的信息不足，可能無法忠實地進行準確預測。

級聯推理。鑒于推理請求的復雜性不同，級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢，CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器，以級聯方式組織它們，并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型（即非生成型LLMs）進行了優化，但采用了類似的方法，將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API，優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存，并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務，以節省成本，它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言，級聯推理是提高推理效率的一個有前景的方向，但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115]，超越了原始的Transformer，實現了模型規模、性能和效率之間的平衡，為更快和資源高效的推理開辟了新途徑。 * 注意力簡化：自注意力計算的一個突出挑戰是計算復雜度O(??^2)，隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案，例如稀疏化[289]、核化[139]和分解[254]。最近，有一種趨勢從之前的注意力簡化方法中借鑒思想，將它們概括和結合起來，以縮短上下文，減少KV緩存的大小，以及注意力復雜度，同時略微降低解碼質量（例如，滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74]）。這些方法中的一個類別是通過壓縮上下文到更少的軟標記（例如，替換為摘要標記[58]或地標標記[184]，利用額外的自編碼器方案[95, 169]）或直接根據不同的重要性指導[85, 130, 159, 186]（或稱為語義壓縮）刪除或改寫不重要的上下文標記來進行上下文壓縮。例如，自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。

模型壓縮。在這里，我們深入探討了模型壓縮技術，旨在通過創建更高效、更緊湊的模型，減少LLMs的內存占用和計算需求，同時不會對性能造成顯著損失。

知識蒸餾：一種方法是知識蒸餾，它訓練一個小型的學生模型，以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255]，需要訪問整個教師模型的參數。由于基于API的LLM服務（例如，ChatGPT）的出現，一些黑盒蒸餾模型吸引了很多關注，例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數，但與原始LLMs（例如，GPT-4[195]）相比，在各種下游任務上表現出了有前景的性能。

網絡剪枝：過去幾年中，網絡剪枝方法[180, 215, 215]已被廣泛研究，但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面，這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs，刪除整個結構化LLM組件，促進GPU加速。例如，Deja Vu[172]在不修改預訓練模型的情況下，根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276]，通常實現LLM壓縮的50-60%稀疏性。值得注意的是，它們可以進一步概括為半結構化N:M稀疏性（即2:4和4:8）[182]，通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問，并提出了一個GPU-CPU混合推理引擎，讓GPU和CPU處理不同的神經元。

系統優化本節研究LLM推理系統優化技術，以加速LLM推理，而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架，提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術，這些技術能夠高效地表示模型權重和激活。通過使用更少的比特（即少于32比特）來表示數值，這些方法顯著減少了內存消耗，并加速了硬件平臺上的推理。一種方法是量化LLM，這些量化方法大致可以分為兩個方向：量化感知訓練（QAT）和訓練后量化（PTQ）[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4，通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率，例如W8A16（即INT8僅權重量化和FP16或BF16激活），GPTQ中的W4A16[88]，SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是，NVIDIA的最新架構，如Turing和Ampere已經包含了INT8和INT4張量核心，最新的Hopper架構雖然取消了INT4支持，但引入了FP8張量核心以獲得更好的數值精度（例如，H100 GPU的FP8與FP32相比可達60倍TFLOPS）。現有方法通常采用各種量化函數，包括均勻方法（即最近舍入）和非均勻方法[143]。為了緩解低精度帶來的性能損失，QAT在模型訓練期間集成了量化[70, 171]。值得注意的是，由于底層系統實現的挑戰，低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求，但也有研究表明，量化方法由于存在比例定律，可能對模型的推理性能產生顯著影響[72]。此外，量化還被應用于上下文壓縮（例如，CacheGen[169]）和內存高效微調（例如，QLoRA[70]，PEQA[142]），結果導致LLM推理的內存消耗降低。

并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力，這些方法將計算分布在多個核心或設備上，從而在推理期間顯著加速。

內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一，特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長，與模型權重和其他激活所需工作空間相比，KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小，簡單的方法（例如，FasterTransformer）是預先分配一塊連續的內存，假設最大序列長度。這對于1）請求長度不同的輸入批次和2）并行生成多個輸出序列的復雜解碼場景（例如，波束搜索、并行解碼）來說，嚴重浪費了內存。vLLM[150]提出了分頁注意力，將KV緩存劃分為非連續的內存塊，顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷，以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制，進一步減少了內存使用。然而，這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下，這些細粒度內存管理方法可能只提供邊際吞吐量收益，同時大幅增加了推理延遲。顯然，LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好，但它們可能相互抵消，導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。

請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標（SLO）內的響應時間，并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處，因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而，由于其獨特的特性，如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理，LLM服務也帶來了獨特的挑戰。

早期的LLM服務系統（例如，NVIDIA Triton上的FasterTransformer）僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度，它在迭代粒度上調度引擎執行，并以先來先服務（FCFS）的順序，使得選定的操作集批處理，以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略，例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外，SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證，擴展到了投機解碼。FastServe[261]關注作業完成時間（JCT），涉及迭代級搶占，以優先處理輸入長度較短的請求，而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算，它將輸入提示劃分為均勻塊，并在可能的情況下，將塊插槽與其他請求的解碼迭代結合起來，這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器，并幫助在GPU內存限制內安排更多并發請求，以實現更大的批量大小和更高的推理吞吐量。

內核優化。在本小節中，我們深入探討了針對特定操作的內核級優化，這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。

軟件框架

生成型LLM服務需要一系列優化，許多最新工作已經開始開發軟件框架，以提供高效的LLM推理部署服務。下面，我們將重新審視這些系統，并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析，如表2所示。這些分析不包括一些流行的相關項目，包括1) 專門針對其他硬件的解決方案（例如，PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14]）和2) 構建在其他系統之上的部署解決方案，如OpenLLM[26]（vLLM）、xinference[30]（ggml + vLLM + xFormers）、LMDeploy[20]（FasterTransformer）、gpt-fast[15]（PyTorch）、DeepSpeed-MII和DeepSpeed-FastGen[11]（DeepSpeed-Inference）以及RayLLM和RayServe[27]（vLLM）。

我們比較了這些最先進的LLM服務系統，并在幾個方面總結了它們的差異。首先，大多數系統支持張量并行性，以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載，以分別支持多節點或資源受限環境下的推理。其次，部分系統從Orca學習，并實現了迭代級調度。第三，我們調查了這些系統的注意力內核，并分別介紹了它們在初始和增量階段的實現。對于初始階段，它們通常采用批量通用矩陣乘法（GEMM）方法（例如，cuBLAS、torch、Relay），有些利用在線softmax技巧減少HBM訪問（例如，Flash-attention、xFormers）。增量階段更具挑戰性，因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率，FasterTransformer手動融合了注意力計算（例如，線性投影、位置偏差、點積、softmax等）到一個高性能的內核模板中，并涉及多種內核優化技術，例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加（HMMA）以及多精度支持。FlexFlow-Serve啟用了投機解碼，并提供了一個基于樹的并行解碼內核，以零內存冗余和最大線程并行性驗證來自多個序列（即來自多個小型模型或不同波束或并行采樣）的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力（MHA）內核，通過將KV緩存分割成頁面來消除冗余內存使用，特別適用于并行采樣場景。LightLLM采用后續方法，將KV緩存劃分為更細粒度的標記級片段。

值得注意的是，上述討論并未涵蓋其他一些值得注意的方面。例如，即使對于最受歡迎的Flash和Paged注意力內核，它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫，LightLLM采用了OpenAI Triton實現的內核，MLC-LLM通過TVM生成內核，TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段，TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外，對于線性投影運算符，最近有一種趨勢是用通用矩陣-向量乘積（GEMV）替換GEMM，以更有效地處理小批量大小（即1）的情況。這些系統還具有許多其他不同的特性，如編程語言（即C++、Python）、低精度支持（即FP16、INT8）、支持的硬件和模型。總之，這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如，vLLM提出分頁注意力以提高批量大小，從而實現更高的吞吐量（??????），而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲（??????）。基本上，低延遲和高吞吐量是LLM服務系統的雙重優化目標，代表了互補但往往相互沖突的目標，需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度，其中TTFT代表首個標記的時間，TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動，而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益，導致不同的系統設計選擇和用戶體驗（例如，更快的應用響應性[169]，更長的提示[9]）。此外，降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案，但我們相信未來的LLM服務系統將繼續整合這些不同的特性，從而不斷提高系統效率和硬件利用率。

結論

高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解，使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果，本文希望加速進步，并在追求高效LLM服務解決方案的過程中促進創新。

付費5元查看完整內容

大模型 · 大型語言模型 · 數據管理 ·

2023 年 12 月 6 日

[付費5元查看完整內容]大模型如何利用數據？北大華為等最新《大型語言模型的數據管理》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據在大型語言模型（LLM）訓練中扮演了基礎性的角色。有效的數據管理，尤其是在構建適合的訓練數據集方面，對于提升模型性能和提高預訓練及監督式微調階段的訓練效率至關重要。盡管數據管理的重要性不言而喻，目前的研究界仍在提供系統性分析管理策略選擇背后的理由、其后果效應、評估策劃數據集的方法論，以及持續改進策略方面存在不足。因此，數據管理的探索在研究界越來越受到關注。本綜述提供了一個關于LLM預訓練和監督式微調階段內數據管理的全面概覽，涵蓋了數據管理策略設計的各個值得注意的方面：數據量、數據質量、領域/任務組成等。展望未來，我們推斷現有挑戰，并勾勒出這一領域發展的有希望的方向。因此，本綜述可作為希望通過有效數據管理實踐構建強大LLM的從業者的指導資源。最新論文的集合可在 //github.com/ZigeW/data_management_LLM 獲取。

大型語言模型（LLM）以其強大的性能和新興能力震驚了自然語言處理（NLP）社區（OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022）。根據之前的研究（Kaplan et al., 2020; Hoffmann et al., 2022），LLM的成就在很大程度上依賴于對大量文本數據進行自監督式預訓練。近期的研究（Zhou et al., 2023a; Ouyang et al., 2022）進一步通過對精心策劃的指令數據集進行監督式微調，增強了LLM的指令遵循能力和下游任務的性能。

我們定義的數據管理——構建適合的訓練數據集，在LLM的預訓練和監督式微調（SFT）階段都至關重要且充滿挑戰。在預訓練階段，構建包含高質量和最有用數據的數據集對于高效訓練是必不可少的（Jain et al., 2020; Gupta et al., 2021）。為了賦予LLM一般性能力，也需要具有多種領域混合的異質數據集組成（Gao et al., 2020; Longpre et al., 2023b; Shen et al., 2023）。然而，許多著名的LLM并沒有透露（Anil et al., 2023; OpenAI, 2023）或僅記錄了預訓練數據構建中選擇的過程（Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a），使其背后的理由缺失。在SFT階段，LLM的性能和指令遵循能力在很大程度上由精心設計的指令數據集所喚起（Sanh et al., 2022; Ouyang et al., 2022）。盡管已有一些帶有人類注釋的指令數據集/基準被提出（Wang et al., 2022; K?pf et al., 2023），自我指令（Wang et al., 2023c; Taori et al., 2023）或現有數據集的收集（Si et al., 2023; Anand et al., 2023），從業者仍對指令數據集對微調LLM的性能的影響感到困惑，導致在LLM微調實踐中選擇合適的數據管理策略困難重重。

為了應對這些挑戰，需要對數據管理進行系統性分析，包括管理策略選擇背后的理由及其后果效應、策劃訓練數據集的評估，以及改進策略的追求。因此，本綜述旨在提供當前數據管理研究的全面概覽，如圖1所示。在第2部分，我們關注預訓練數據管理，包括數據量、數據質量、領域組成和數據管理系統的研究。在第3部分，我們討論LLM監督式微調（SFT）階段的數據量、數據質量、任務組成和數據高效學習。在第4部分，展望未來，我們提出了LLM訓練數據管理中現存的挑戰和有希望的未來發展方向。通過本綜述，我們致力于為試圖通過有效和高效的數據管理實踐構建強大LLM的從業者提供指導資源。

大模型預訓練

數據管理在許多著名大型語言模型（LLM）的預訓練中被發現非常重要（OpenAI, 2023; Touvron et al., 2023a; Wei et al., 2022）。雖然大多數LLM沒有報告它們的數據管理程序，或者只報告了它們采用的策略，但選擇特定策略的原因和數據管理策略的效果對于構建更強大的LLM至關重要。在這一部分，我們首先回顧研究訓練數據集規模定律的研究，包括有/無數據重復的情況。然后，探討與去重、質量過濾、有害內容過濾、社會偏見以及數據多樣性和時效性相關的數據質量問題。之后，討論領域組成和領域重新加權方法。最后，介紹了兩個最近提出的實施預訓練數據管理流程的數據管理系統。

2.1 數據量

LLM高效預訓練所需的數據量是NLP社區持續研究的話題。提出了規模定律來描述模型大小和訓練數據集大小之間的關系。隨著模型大小的不斷增加，文本數據的耗盡引起了研究人員對LLM預訓練中數據重復的關注。 2.1.1 規模定律在LLM普及之前，研究者就已經關注訓練數據集大小與具有變壓器架構（Vaswani et al., 2017）的語言模型性能之間的關系。Kaplan et al.（2020）研究了變壓器語言模型在交叉熵損失上的經驗性規模定律，發現模型性能與訓練數據集大小之間存在冪律關系，當不受模型大小和訓練計算預算的限制時。他們還得出結論，只要模型大小和訓練數據集大小同時擴展，模型性能就會可預測地提高，但如果其中一個固定而另一個增加，則會遇到過擬合。他們提出的性能懲罰預測比例顯示，模型大小應該比訓練數據集大小增長得更快。繼Kaplan et al.（2020）提出的冪律關系后，Hoffmann et al.（2022）對更大的語言模型進行了實驗，得出不同的結論，即模型大小和數據集大小應該以大致相同的速率隨著更多的計算預算而擴展。

2.1.2 數據重復

盡管Kaplan et al.（2020）和Hoffmann et al.（2022）關注的是唯一數據訓練一個時期的規模定律，Hernandez et al.（2022）解決了訓練數據集中文本重疊的問題，并研究了包含少量重復數據的規模定律。他們觀察到強烈的雙下降現象（Nakkiran et al., 2021），其中重復數據導致訓練過程中途測試損失增加，并發現可預測的重復頻率范圍會導致嚴重的性能下降。隨著模型大小的增長，根據規模定律，需要更多的訓練數據，引起了關于耗盡高質量訓練數據的擔憂（Villalobos et al., 2022; Hoffmann et al., 2022）。克服這一問題的一種直接方法是對數據進行重復訓練。然而，如上所述，數據重復眾所周知會導致性能下降。受到這一矛盾的啟發，幾項工作研究了對數據集進行多個時期的重復預訓練的后果。Muennighoff et al.（2023）發現，在受限的數據和固定的計算預算下，對相同的數據重復訓練多達4個時期與訓練唯一數據相比，對損失的變化微不足道。他們還提出了一個規模定律，考慮到了重復和過多參數的回報遞減。Xue et al.（2023）也觀察到模型性能的多時期退化，并發現數據集大小、模型參數和訓練目標是這一現象的關鍵因素。他們進一步發現，常用的正則化技術在緩解多時期退化方面沒有幫助，除了dropout。質疑以前的發現，Tirumala et al.（2023）展示了對精心選擇的重復數據進行訓練可以勝過對隨機選擇的新數據進行訓練，而對隨機選擇的重復數據進行訓練則不行，這表明了重復使用智能選擇數據的可行方法。

2.2 數據質量

根據以往研究（Jain et al., 2020; Gupta et al., 2021），高質量數據在機器學習任務訓練中至關重要。在LLM的預訓練中，也采用了質量保證技術，通常形成數據管理流程（Rae et al., 2021; Nguyen et al., 2023; Tirumala et al., 2023），包括去重、質量過濾和有毒內容過濾。社會偏見、數據多樣性和數據時效性等方面也是研究社區感興趣的話題。

2.2.1 去重

去重在許多著名LLM的數據管理程序和公開可用數據集的預處理中被廣泛使用（Brown et al., 2020; Workshop et al., 2022; Touvron et al., 2023a; Raffel et al., 2020）。Lee et al.（2021）使用N-gram相似性與MinHash（Broder, 1997）來檢測訓練數據集中的重復，并發現去重有助于減輕記憶效應、避免訓練-測試重疊，并保持模型困惑度的同時提高訓練效率。Kandpal et al.（2022）還表明，去重可以顯著降低針對模型記憶的隱私攻擊的成功率。在去重實踐中，N-gram-and-hashing是最常用的技術（Lee et al., 2021; Borgeaud et al., 2022; Rae et al., 2021）。Silcock et al.（2022）將其與神經方法進行比較，即對比訓練的雙編碼器和結合雙編碼器和交叉編碼器的“重排”風格方法，得出結論神經方法可以顯著優于傳統的N-gram-and-hashing方法。Abbas et al.（2023）提出SemDeDup來移除位于預訓練模型嵌入空間中靠近的語義重復，并應用聚類來減少搜索計算。同樣，Kaddour（2023）通過過濾掉低質量嵌入集群，構建了Pile（Gao et al., 2020）的子集MiniPile。

2.2.2 質量過濾

質量過濾是構建適合預訓練數據集的另一個關鍵步驟，因為像Common Crawl 1和多語言數據集（Kreutzer et al., 2022）這樣的公共數據集通常包含低質量數據，這會妨礙LLM的訓練。現有工作通常使用分類器（Brown et al., 2020; Gao et al., 2020; Du et al., 2022; Touvron et al., 2023a）、手工制定的啟發式規則（Yang et al., 2019; Raffel et al., 2020; Nijkamp et al., 2022）或使用困惑度等標準進行閾值過濾（Wenzek et al., 2020; Muennighoff et al., 2023）來進行質量過濾。質量過濾通常被證明有利于提升模型性能（Longpre et al., 2023b），盡管這會減少訓練數據的數量和多樣性。輕量級語言模型phi-1和phi-1.5，擁有13億參數，分別在精心選取的高質量數據和合成數據上訓練，展現了在編碼任務和常識推理上的出色表現。Penedo等人（2023年）構建了RefinedWeb數據集，包括適當過濾和去重的高質量網絡數據，其性能超過了在Pile（Gao et al., 2020）上訓練的模型。與常見結論相反，Gao（2021年）發現，由于過濾目標不夠穩健，對GPT類LLM的大范圍任務進行激進過濾可能導致性能下降。為了解決這個問題，Marion等人（2023年）研究了三種數據質量估計器：困惑度、錯誤L2范數（EL2N）和記憶因子，并通過數據修剪進行測試。令人驚訝的是，他們發現基于困惑度修剪數據集的表現遠遠優于更復雜的技術，如記憶。

2.2.3 有害內容過濾

有害內容指的是粗魯、不尊重或不合理的語言，可能會導致某人離開討論（Gehman et al., 2020; Welbl et al., 2021）。由于原始文本語料庫通常包含有害文本（Luccioni和Viviano，2021；Longpre et al., 2023b），有害內容過濾旨在從預訓練數據集中移除不希望出現的有害文本，進一步防止LLM生成有害話語。與質量過濾類似，啟發式和基于規則的過濾（Lees et al., 2022; Gargee et al., 2022; Friedl, 2023）和N-gram分類器（Raffel et al., 2020）被用作有害內容過濾器。盡管有效地進行模型解毒，Longpre等人（2023b）發現，有害內容過濾減少了生成有害內容的風險，但同時降低了模型的泛化和識別有害內容的能力。此外，Xu等人（2021年）和Welbl等人（2021年）均發現，訓練數據集的解毒處理會導致邊緣化少數群體，如方言和少數族裔身份提及。

2.2.4 社會偏見

除了數據解毒導致的少數群體邊緣化之外，一些工作（Kurita et al., 2019; Nangia et al., 2020; Meade et al., 2022; Feng et al., 2023）發現預訓練的LLM可以捕捉到大量訓練文本中包含的社會偏見。Dodge等人（2021年）評估了C4（Raffel et al., 2020）數據集，建議記錄大型網絡文本語料庫中的社會偏見和代表性傷害，以及被排除的聲音和身份。Gururangan等人（2022年）使用美國高中報紙文章的新數據集，也指出GPT-3使用的質量過濾器傾向于選擇更大學校在更富裕、受過教育和城市郵政編碼地區發布的報紙，從而導致一種語言意識形態。Feng等人（2023年）進行了一項全面的案例研究，重點關注預訓練語料庫中媒體政治偏見對仇恨言論檢測和錯誤信息檢測公平性的影響，以及它如何傳播到語言模型，甚至進一步影響到下游任務。

2.2.5 多樣性和時效性

在LLM預訓練階段的數據管理中，也有研究關注數據的其他方面，例如多樣性和時效性。例如，Lee等人（2023a）展示了，當用最近提出的Task2Vec多樣性系數（Miranda et al., 2022）來衡量時，公開可用的預訓練數據集在形式上的多樣性很高。他們還證明了該系數與多樣性的直觀特性是一致的，并建議在構建更多樣的數據集時使用它。Maharana等人（2023年）提出了一種新的修剪方法D2修剪，通過將數據集表示為一個帶有難度分數的無向圖，并采用正向和反向信息傳遞策略，來選擇一個包含數據集空間中多樣化和困難區域的核心子集，以平衡數據多樣性和難度選擇。

Longpre等人（2023b）探討了評估數據集的時效性，并得出結論，評估數據與預訓練數據之間的時間偏移會導致性能估計不準確，而且時間不一致無法通過微調來克服，尤其是對于更大的模型。

2.3 領域組成

公開可用的預訓練數據集通常包含從多個來源和領域收集的數據混合體，例如Pile（Gao et al., 2020）包含了來自Common Crawl、維基百科、書籍以及醫學、學術、編程和數學、法律和社會資源的網頁文檔。許多著名模型也是在不同領域的數據混合體上進行訓練的，例如LaMDA（Thoppilan et al., 2022）是在來自公共論壇的對話數據、C4數據、編程相關問答網站和教程的代碼文檔、英文維基百科、英語網頁文檔和非英語網頁文檔上進行訓練的。

研究人員努力探索領域混合對預訓練模型性能的影響。Longpre等人（2023b）將Pile（Gao et al., 2020）數據分為九個領域，并進行了逐個刪減實驗，展示了不同領域的影響。他們得出結論，高質量（如書籍）和高多樣性（如網頁）的領域普遍有幫助，即使它們與下游任務相關性較低，包含盡可能多的數據源也是有益的。SlimPajama-DC（Shen et al., 2023）也得出相同的結論，即合并所有領域通常比有意選擇的組合效果更好，前提是進行了全局去重，以消除不同領域數據集之間的重疊。Longpre等人（2023b）和Shen等人（2023）都認為，特定的混合體可能在針對特定任務的評估基準上表現出色，但與包含多樣化的網絡領域相比，優先級并不總是存在。CodeGen2（Nijkamp et al., 2023）研究了編程語言和自然語言混合體對模型性能的影響，并發現，在相同的計算預算下，使用混合體訓練的模型的性能并不比與領域匹配的模型好，但接近。

還有幾種方法被提出來找到適當的領域組成權重。DSIR（Xie et al., 2023b）將問題形式化為在給定一些未標記目標樣本的情況下，選擇原始未標記數據集的子集以匹配目標分布。具體來說，它利用經典的重要性重采樣方法（Rubin, 1988）并使用n-gram特征和KL降低來估計重要性權重。沒有下游任務的知識，DoReMi（Xie et al., 2023a）使用小型代理模型通過Group Domain Robust Optimization（Group DRO）（Oren et al., 2019; Sagawa* et al., 2020）生成領域權重。它通過增加在評估模型與預訓練參考模型之間具有最大損失差距的領域的權重，提高了所有領域的模型性能。在DoReMi（Xie et al., 2023a）的基礎上改進，Fan等人（2023）提出了DoGE，它對訓練領域進行加權，以最小化所有訓練領域或特定未見領域的平均驗證損失。最終的泛化目標通過基于梯度的泛化估計函數來訪問，該函數測量每個領域對其他領域的貢獻。然后，對其他領域的學習貢獻更大的領域將獲得更大的權重。

2.4 數據管理系統

針對預訓練數據管理的困難，集成數據管理系統對于有不同需求的LLM從業者來說是必要的。Chen等人（2023a）提供了一個數據處理系統Data-Juicer，它具有生成超過50種多功能數據管理操作符和專用工具的多樣化數據配方功能，針對零代碼數據處理、低代碼定制和現成數據處理組件。它還支持在數據配方和LLM的多個開發階段提供及時的反饋循環。Zhou等人（2023c）還提出了一個預訓練數據策劃和評估系統Oasis，其中包含一個交互式模塊化規則過濾模塊、一個去偏神經質量過濾模塊、一個自適應文檔去重模塊和一個全面的數據評估模塊。

監督式微調大型語言模型

基于在預訓練階段學到的通用知識和能力，提出了監督式微調（SFT）來進一步提高LLM的指令遵循能力和與人類期望的一致性（Wei et al., 2021; Sanh et al., 2022; Ouyang et al., 2022）。許多工作已經投入到使用人類注釋（Wang et al., 2022; K?pf et al., 2023）、自我指令（Wang et al., 2023c; Taori et al., 2023）或現有數據集的集合（Si et al., 2023; Anand et al., 2023）來構建指令數據。盡管使用現有指令數據集微調的LLM在各種NLP任務中取得了顯著的性能，但指令數據管理對微調模型性能的影響仍然存在爭議。與之前有關LLM預訓練的討論一致，在本節中，我們總結了LLM SFT的研究探索，涵蓋了數據量、數據質量（包括指令質量）、多樣性、復雜性和提示設計，以及任務組成。此外，還包括了數據高效SFT，討論了從數據角度出發的高效SFT的當前努力。

3.1 數據量 關于指令數據量的增加與微調模型性能之間關系的探索分為兩個方向。一方面的研究專注于縮減指令數據量以提高訓練效率。例如，LIMA（Zhou et al., 2023a）精心策劃了1,000個高質量樣本，并通過實驗驗證了他們的假設，即只需要有限的指令調整數據就足以展示LLM在預訓練期間已經獲得的知識和能力。Chen等人（2023b）觀察到，對于單一任務特定的LLM微調，可能只需要一條指令，而1.9M標記的16K樣本可能就足以訓練專門從事自然語言推理（NLI）任務的模型。另一方面的研究則認為增加指令數據量對于成功至關重要（Wei et al., 2021; Sanh et al., 2022）。

為了解決這一沖突，幾項工作試圖分析不同任務或模型能力的擴展模式。Ji等人（2023）對12個主要的現實世界在線用戶案例進行了實證研究，并展示了增加指令數據量會在提取、分類、封閉式問答和總結等任務中帶來持續改進，而在數學、編碼和思維鏈等任務中幾乎沒有改進。與Ji等人（2023）的觀點不同，Dong等人（2023）發現一般能力可以通過大約1,000個樣本得到增強，并在此后緩慢提升，而數學推理和代碼生成則隨著數據量的增加而持續提升。類似地，Yuan等人（2023）觀察到指令數據量與模型數學推理性能之間存在對數線性關系，但預訓練更強的模型對于更大的微調數據集改進較少。Song等人（2023）進行了涵蓋十種不同能力的實驗，并展示了大多數能力與數據擴展一致。然而，每種能力在指令調整期間的發展速度不同，一些能力甚至顯示出完全不同的模式。

3.2 數據質量

在LLM的監督式微調中，數據質量始終是一個焦點，包括指令質量、多樣性、復雜性和提示設計。這里我們更關注現有指令數據的管理和分析，而不是在之前的綜述中已經討論過的指令生成方法（Zhang et al., 2023b; Wang et al., 2023e）。

3.3 任務組成

由于LLM在處理各種NLP任務方面表現出驚人的新興能力，多任務微調被視為進一步提高LLM在未見任務上泛化性能的有前景的方法。增加SFT中任務數量的好處已經在不同大小的模型上得到了實驗證明，這些模型的參數范圍從3B（Wang et al., 2022），11B（Sanh et al., 2022），137B（Wei et al., 2021）到540B（Chung et al., 2022）。

除了任務數量的擴展外，不同指令基準的混合比例和任務平衡也被發現對于有效的指令微調至關重要（Iyer et al., 2022; Longpre et al., 2023a）。Dong等人（2023）專注于數學推理、代碼生成和一般人類對齊能力之間的任務組合，并發現在低資源混合數據下模型能力有所提升，但在高資源混合數據下相比于單一來源數據有所下降，即在高資源設置下觀察到能力之間的沖突。為了進一步解釋這些沖突，他們改變了一般和專業數據的比例，并得出結論，當SFT任務之間在任務格式和數據分布上存在顯著差異時，數據比例的影響可以忽略，相反，當存在一定程度的相似性時，數據比例會導致性能的明顯變化。

與將多個任務合并在一起不同，一些工作聲稱在單一任務數據上調整的LLM可以勝過在多個任務上調整的LLM（Jang et al., 2023; Chen et al., 2023b）。Jang等人（2023）指出，訓練專家LLM的優先事項可能在于避免負面任務轉移，通過持續學習新任務而不重新訓練來防止災難性遺忘，以及在將各個專家合并在一起時出現的組合能力。Wang等人（2023b）對使用12個指令數據集訓練的模型進行了事實知識、推理、多語言性、編碼和開放式指令遵循能力的分析，并展示了不同的指令數據集可以解鎖或提升特定能力。相比之下，沒有單一的數據集組合可以在所有評估中提供最佳性能。

3.4 數據高效學習

基于對數據量、數據質量和任務組成對模型性能影響的探索，許多工作提出了通過子集選擇或學習策略來更高效地微調LLM，這些策略針對指令數據的不同方面。

結論

本文首次嘗試概述大型語言模型（LLM）訓練中的數據管理。我們分別討論了LLM的預訓練和監督式微調階段，并總結了至今為止在每個階段中關于數據量、數據質量和領域/任務組成的研究努力。同時也討論了預訓練階段的數據管理系統和監督式微調階段的數據高效學習。最后，我們強調了LLM訓練數據管理的幾個挑戰和有希望的未來發展方向。我們希望這篇綜述能為從業者提供有洞察力的指導，并激發在有效和高效數據管理方面的進一步研究，以促進LLM的發展。

付費5元查看完整內容

3D場景理解 · 多模態學習 · 視覺語言學習 · 深度學習 ·

2023 年 10 月 28 日

[付費5元查看完整內容]《多模態3D場景理解》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比，引入額外的模態不僅提高了場景解釋的豐富性和精確性，而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中，這尤為重要，因為僅依賴3D數據可能是不夠的。盡管在過去三年中，多模態3D方法的發展呈現上升趨勢，尤其是那些整合多攝像頭圖像（3D+2D）和文本描述（3D+語言）的方法，但值得注意的是，缺乏一個全面且深入的綜述。在這篇文章中，我們提供了最近進展的系統性調研，以填補這一空白。我們首先簡要介紹一個背景，正式定義各種3D多模態任務并總結其固有的挑戰。之后，我們提出了一個新穎的分類法，根據模態和任務對現有方法進行了全面分類，探索了它們各自的優勢和局限性。此外，我們還提供了最近方法在幾個基準數據集上的比較結果，以及深入的分析。最后，我們討論了尚未解決的問題，并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息，如2D圖像和自然語言，多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置，并創建場景的新品牌內容和風格。與僅使用3D點云相比，2D圖像的加入提供了額外的顏色和紋理信息，而自然語言的引入則實現了人機交互。因此，多模態3D場景理解已成為計算機視覺中的一個重要研究領域，應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為：(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息，這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節，對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反，2D相機圖像通常包含豐富的顏色、紋理和背景，但缺乏幾何信息，且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地，利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異，因為LiDAR傳感器通過360度旋轉捕獲點云，而相機從透視視圖捕獲圖像，沒有深度感[16]。為了解決這個問題，提出了一些3D+2D場景理解方法，通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征，這些方法可以進一步執行3D物體檢測和分割[19], [20], [21]，這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識，這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機，實現信息交換并獲得個性化的結果。為了實現便捷的人機交互，研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30]，因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互，經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術，3D+語言場景理解方法不僅可以定位用戶提到的實體（例如，視覺定位和開放詞匯識別），還可以生成用戶所需的內容（例如，密集字幕，視覺問題回答，場景生成）。

盡管近年來出現了眾多方法，但多模態3D場景理解的很大一部分仍然分散在不同的任務中，并且沒有此類系統的調查存在。因此，有必要系統地總結近期的研究，全面評估不同方法的性能，并有前瞻性地指出未來的研究方向。這激發了本次調查，將填補這一空白。本文的主要貢獻可以總結為：

? 關于多模態3D場景理解的系統性調查。據我們所知，這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解，我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類，如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線，同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較，討論了一些有前途的未來研究方向，包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后，第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外，我們提供了對幾個基準數據集的最新進展的比較結果，并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中，仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制，主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外，高效的遷移學習方法，包括像提示調整[177]和LORA[178]這樣的技術，通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本，當前的許多研究都局限于小規模數據集。因此，強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要，從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果，通過無監督和弱監督學習方法。此外，使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究，這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積，計算需求可能會顯著增加。因此，計算效率高的3D模型變得至關重要。為了應對這一挑戰，采用模型壓縮技術，如量化[179]、修剪[180]和高效結構[181]，對于減少計算復雜性至關重要。此外，利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署，為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展，但主要的重點仍然是圖像和語言。我們設想將更多的模式，如音頻，納入一個綜合模型來適應它們的聯合分布，這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺，提高現有的多模態3D模型的效果可能更為有效，通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

知識編輯 · 大型語言模型 · 知識更新 ·

2023 年 10 月 26 日

[付費5元查看完整內容]大模型如何做知識編輯？弗吉尼亞大學最新《大型語言模型的知識編輯》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（LLMs）因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力，已經重塑了學術和工業領域。盡管如此，LLMs的一個主要缺點是由于其前所未有的參數量，其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時，這一缺點會被放大。因此，開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而，重新訓練LLMs可能在計算上很密集，并且面臨退化與模型更新無關的寶貴預訓練知識。最近，基于知識的模型編輯（KME）受到了越來越多的關注，其目的是精確修改LLMs以納入特定的知識，而不負面影響其他無關的知識。在這次綜述中，我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式，以涵蓋不同的KME策略。之后，我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類，并研究現有的KME策略，同時分析每個類別的方法的關鍵見解、優點和局限性。此外，相應地介紹了KME的代表性指標、數據集和應用。最后，我們對KME的實用性和剩余挑戰進行了深入的分析，并建議在這一領域進一步發展的有前景的研究方向。

近期，大型語言模型（LLMs）已成為一個熱門話題，徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練，獲得了大量的事實知識和推理能力，LLMs展示了對文本信息的前所未有的理解，能夠像人類專家一樣分析和生成文本。然而，LLMs的一個主要缺點是由于參數數量龐大，訓練過程的計算開銷極高。隨著世界的不斷進化，經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求，這使得該問題進一步加劇[124]。例如，在圖1中，一個過時的LLM無法準確描述Lionel Messi的最新成就，這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型（LLMs）的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116]，在此，預訓練LLMs的參數直接被優化，以從新數據中編碼新知識[5, 72, 80, 122]。例如，提出了各種基于指令調整的方法，以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用，并且能夠將新知識注入到LLMs中，但它們因以下缺點而聞名：(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120]，微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據，尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是，微調LLMs會不受約束地改變預訓練的權重，這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點，更多的注意力已被賦予基于知識的模型編輯(KME)，也被稱為知識編輯。一般來說，KME旨在精確修改預訓練LLMs的行為，以更新特定的知識，而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中，LLMs中特定知識的更新通常被制定為一個編輯，例如將“誰是美國總統？”的答案從“特朗普”更正為“拜登”。關于特定的編輯，KME策略通常通過引入輔助網絡（或一組參數）到預訓練模型[41, 63, 124]，或更新（部分）參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略，KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新，從而精確地將知識注入模型。此外，某些方法還引入明確的損失以包含更新過程，從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢，KME技術可以提供一種高效且有效的方法，不斷地用新知識更新LLMs，而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處，但它在更新LLMs方面具有獨特的優勢，值得深入研究。特別是，KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而，除了這一共同目標外，KME更加關注兩個關鍵屬性，這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如，當有關美國總統的編輯得到更新時，編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力，這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說，它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如，當模型關于總統的部分被編輯時，對總統配偶的查詢的答案也應相應地改變。在實踐中，確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之，由于這兩個獨特的目標，KME仍然是一個具有挑戰性的任務，需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別：已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此，仍然缺乏徹底的綜述，可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如，最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而，KME的獨特性，即局部性和普遍性，并沒有得到充分的討論，這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是，他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能，而沒有解決基于特定知識的編輯任務。據我們所知，與我們的綜述最相關的論文是[119]，它提供了KME的簡要概述，并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此，這項綜述缺乏對KME的更多細節，例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現，而對不同策略的技術細節的重視較少。最近，一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性，而它相對較短，缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展，我們認為有必要回顧所有代表性KME方法的細節，總結共同點，同時討論每種方法的獨特性，并討論KME領域的開放挑戰和前瞻性方向，這將促進該領域的進一步發展。

本次綜述的貢獻：本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述，以及一個創新的公式化。特別是，我們將一般的KME任務公式化為一個受限制的優化問題，同時結合了準確性、局部性和普遍性的目標。然后，我們將現有的KME策略分類為三個主要類別，即外部記憶、全局優化和局部修改。重要的是，我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題，其中的特性基于一般的公式化理論總結。此外，我們提供了關于每個類別中方法的有效性和可行性的有價值的見解，這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之，我們的主要貢獻可以總結為以下三個方面：

?** 新的分類法**：我們引入了一個全面和結構化的分類框架，系統地總結了LLM編輯的現有工作。具體來說，基于如何將新知識引入預訓練的LLMs，我們的分類包括三個不同的類別：外部記憶、全局優化和局部修改，其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析：我們將LLM編輯任務公式化為一個受約束的優化問題，其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外，我們強調了每個類別的主要見解、優點和局限性。在這個背景下，我們深入研究了每個類別的代表性方法，并系統地分析了它們之間的聯系。 ? 未來方向：我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰，并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式，可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結，這對于公正地比較各種方法至關重要。在深入探討具體方法之前，我們在第5.1節為現有方法提供了一個全面的分類，其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法，其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后，我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現，各種KME方法已經被提議來更新預先訓練的LLMs，以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs，而不會負面影響與編輯無關的預訓練知識。在這份調查中，我們將現有的KME方法分為以下三個主要類別：

? 基于外部記憶的方法利用外部存儲器來存儲新的知識，以進行編輯，而不修改預訓練的權重，其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識，基于記憶的策略能夠準確地表示新知識，并具有良好的可伸縮性，因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**，其中引入了定制策略來限制其他預訓練知識的影響，與簡單的微調區分開來。然而，由于需要優化的參數數量眾多，這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數，并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分，從而與基于記憶的方法相比提供了相當的內存效率，并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置（例如，外部參數或內部權重）和方式（例如，通過優化或直接合并）進行的。具體而言，每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如，當計算資源有限而需要大量編輯時，外部記憶在場景中占優勢，因為記憶的大小可以控制以適應不同的要求。另一方面，當實踐者更關注編輯知識的普遍性時，全局優化是有利的，因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明，并在表2中總結了所有方法的具體特點。

在這次綜述中，我們對知識為基礎的模型編輯（KME）技術進行了全面而深入的調研，以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標，該目標同時確保編輯的準確性和保留，這適用于包括不同KME策略。接著，我們提供了KME的評估指標概述，這有助于了解編輯模型的理想屬性。隨后，我們提出了一個結構化的分類框架，以系統地分類現有的KME技術。在每個類別中，我們概述了核心挑戰，詳細說明了代表性方法，并討論了它們的優勢和劣勢。此外，我們總結了廣泛用于評估KME技術的數據集，強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現，我們還強調了KME技術的實際應用。最后，我們確定了未來研究的幾個潛在挑戰，并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

向量數據庫 · 大型語言模型 ·

2023 年 10 月 24 日

[付費5元查看完整內容]大模型如何用向量數據庫？清華等最新《向量數據庫管理系統》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現如今，已有超過20種商業向量數據庫管理系統（VDBMSs），它們都是在過去五年內推出的。但基于嵌入的檢索（EBR）已經被研究了超過十年，而相似性搜索更是達到了驚人的半個世紀甚至更久。從算法轉向系統的這一變革是由新的數據密集型應用驅動的，尤其是大型語言模型（LLMs），它們需要大量的非結構化數據，以及可靠、安全、快速且可擴展的查詢處理能力。現有各種新的數據管理技術來滿足這些需求，但尚無全面的調查來徹底審查這些技術和系統。

//www.zhuanzhi.ai/paper/e86f04dba5c47ab29a19fe1db3890804

我們首先識別向量數據管理的五個主要障礙，即語義相似性的模糊性、向量的大尺寸、相似性比較的高成本、缺乏可用于索引的自然劃分，以及有效應答要求屬性和向量的“混合”查詢的困難。克服這些障礙已經導致了新的查詢處理、存儲和索引以及查詢優化和執行的方法。對于查詢處理，各種相似性分數和查詢類型現已被充分理解；對于存儲和索引，技術包括向量壓縮，即量化，以及基于隨機化、學習劃分和“可導航”的劃分技術；對于查詢優化和執行，我們描述了混合查詢的新運算符，以及計劃枚舉、計劃選擇和硬件加速查詢執行的技術。這些技術導致了各種VDBMSs在設計和運行時特性的光譜上，包括專門為向量設計的“原生”系統和將向量功能整合到現有系統中的“擴展”系統。然后，我們討論基準測試，并最后概述了幾個研究挑戰，并指出未來工作的方向。

隨著用于信息檢索 [36] 的大型語言模型（LLMs）[71] 的崛起，以及電子商務和推薦平臺 [133,125,63] 等經濟驅動因素背后的非結構化數據的增長，有需要新的向量數據庫管理系統 (VDBMSs) 來提供傳統的功能，如查詢優化、事務處理、可擴展性、容錯能力，以及隱私和安全性，但這是針對非結構化數據的。由于這些數據并不是由固定模式中的屬性表示的，因此它們不是通過結構化查詢而是通過相似性搜索來檢索的，在這種搜索中，與查詢具有相似語義意義的數據被檢索 [95]。為了支持這種類型的搜索，實體如圖片和文檔首先通過嵌入模型編碼為D維特征向量，然后存儲在VDBMS中。雙編碼器模型 [42] 描述了這個過程，也稱為密集檢索 [73]。

因此，VDBMS中的模塊分為查詢處理器和存儲管理器。查詢處理器包括查詢規范、邏輯運算符、它們的物理實現以及查詢優化器；而存儲管理器則維護搜索索引并管理向量的物理存儲。這在圖1中有所示。這些模塊的設計影響了VDBMS的運行時特性。許多應用，如LLMs，都是讀取密集型的，需要高查詢吞吐量和低延遲。其他應用，如電子商務，也是寫入密集型的，需要高寫入吞吐量。此外，一些應用需要高查詢準確性，這意味著檢索到的實體與查詢在語義上真正匹配，而其他應用可能對錯誤更為寬容。因此，開發合適的VDBMS需要了解技術的整體情況以及它們如何影響系統的特性。

雖然對于處理傳統的結構化數據有成熟的理解，但對于向量數據并非如此。我們提出了五個關鍵障礙。(1) 模糊的搜索條件。結構化查詢使用精確的布爾謂詞，但向量查詢依賴于一個難以準確捕捉的模糊語義相似性概念。(2) 昂貴的比較。屬性謂詞（例如 <, >, = 和 ∈）大多可以在O(1)時間內評估，但相似性比較通常需要O(D)時間，其中D是向量的維度。(3) 大尺寸。結構化查詢通常只訪問少量屬性，從而可以設計如列存儲這樣的高效讀取存儲結構。但向量搜索需要完整的特征向量。向量有時甚至跨越多個數據頁面，使磁盤檢索更加昂貴，同時也增加了內存的壓力。(4) 缺乏結構。結構化屬性主要是可排序或序數的，導致通過數字范圍或類別的劃分來設計搜索索引。但向量沒有明顯的排序順序，也不是序數，這使得難以設計既準確又高效的索引。(5) 與屬性的不兼容。在多個屬性索引上的結構化查詢可以使用簡單的集合操作，如并集或交集，將中間結果收集到最終結果集中。但向量索引通常在找到k個最相似的向量后停止，與屬性索引掃描的結果結合起來可能會導致預期結果減少。另一方面，修改索引掃描運算符以考慮屬性謂詞可能會降低索引性能。如何在既高效又準確的方式下支持既有屬性又有向量的“混合”查詢仍然不清楚。

現在已經有各種技術圍繞這些問題開發，旨在在支持大量向量的同時實現低查詢延遲、高結果質量和高吞吐量。其中一些是關于相似性搜索幾十年研究的結果。其他技術，包括混合查詢處理、基于向量壓縮的索引、基于硬件加速的技術以及分布式架構，都是較近期的發明。

在本文中，我們首先從通用VDBMS的角度對這些技術進行調研，將它們分為適用于查詢處理和適用于存儲和索引的技術。查詢優化和執行與核心查詢處理器分開處理。在這些討論之后，我們將這些技術的理解應用于描述現有的VDBMS。

查詢處理。查詢處理器主要處理如何首先指定搜索條件以及如何執行搜索查詢。對于前者，有各種相似性分數、查詢類型和查詢接口可供選擇。對于后者，基本運算符是相似性投影，但由于它可能效率不高，因此已經開發了各種基于索引的運算符。我們在第2節中討論查詢處理器。

存儲和索引。存儲管理器主要處理如何組織和存儲向量集合以支持高效準確的搜索。對于大多數系統，這是通過向量搜索索引實現的。我們將索引分類為基于表的索引，如E2LSH [49]、SPANN [44] 和IVFADC [69]，這些索引通常容易更新；基于樹的索引，如FLANN [96]、RPTree [47,48] 和ANNOY [1]，旨在提供對數搜索；以及基于圖的索引，如KGraph [52]、FANNG [66] 和HNSW [90]，已經被證明在經驗上表現良好，但理論理解較少。為了解決劃分向量集合的難題，技術包括隨機化[67,49,31,96,48,52,123,115]、學習劃分[127,69,91,96,112]以及我們稱之為“可導航”的劃分[51,89,90]。為了處理大存儲大小，已經為壓縮向量上的索引開發了幾種技術，包括量化[62,69,91,113,129,133]，以及基于磁盤的索引[61,44]。我們在第3節中討論索引。

優化和執行。查詢優化器和執行器主要處理計劃枚舉、計劃選擇和物理執行。為了支持混合查詢，已經開發了幾種混合運算符，基于我們所說的“塊優先”掃描[133,125,61] 和“訪問優先”掃描[136]。還有幾種枚舉和選擇的技術，包括基于規則和基于成本的選擇[133,125]。對于查詢執行，有幾種技術旨在利用大向量的存儲局部性設計硬件加速運算符，利用處理器緩存[125]、SIMD [125,34,35] 和GPUs [70]等功能。還有分布式搜索技術和支持高吞吐量更新的技術，即基于異地更新。我們在第4節中討論優化和執行。 當前系統。我們將現有的VDBMSs分類為原生系統，這些系統專門圍繞向量管理設計，包括Vearch [81]、Milvus [125] 和Manu [63]；擴展系統在現有的數據管理系統之上增加向量功能，包括AnalyticDB-V [133] 和PASE [139]；以及搜索引擎和庫，旨在僅提供搜索功能，如Apache Lucene [2]、Elasticsearch [3] 和Meta Faiss [4]。原生系統往往更傾向于針對特定功能的高性能技術，而擴展系統往往更傾向于適應不同工作負載但不一定是最快的技術。我們在第5節中調查當前的系統。

相關綜述。有一個高級調查可用，主要關注VDBMS的基本概念和用例。同樣，有一些教程專門針對相似性搜索[106,107]。我們通過關注與整體向量數據管理相關的具體問題和技術來補充這些內容。還有一些調查涵蓋了與向量相關的數據類型，如時間序列和字符串，但VDBMS不支持。與這些其他數據類型的系統不同，VDBMS不能對特征向量維度做出任何假設2。我們建議讀者參考[54,53]。對于剩下的部分，我們在第6節簡要討論基準測試，然后在第7節總結研究挑戰和尚未解決的問題。我們在第8節結束這篇調查。

付費5元查看完整內容

圖基礎模型 (GFMs) · 大型語言模型 ·

2023 年 10 月 19 日

[付費5元查看完整內容]大模型在圖上怎么做？北郵等最新《圖基礎模型》綜述，詳述GFMs關鍵技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動，這也吸引著圖學習領域研究者們的關注。另一方面，圖機器學習經歷了從淺層方法到深度學習方法的范式轉變，而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題，使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢？

近日，北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章，探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。

標題：Towards Graph Foundation Models: A Survey and Beyond 作者：Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接：//arxiv.org/pdf/2310.11829.pdf

作為多種人工智能應用的基本構建塊，基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時，圖機器學習也經歷了一個變革性的轉變，淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣，激發了關于開發下一代圖學習范式的討論，該范式預先在廣泛的圖數據上進行訓練，并可以適應各種下游圖任務。然而，目前還沒有對這類工作的明確定義和系統分析。在本文中，我們提出了圖基礎模型（GFMs）的概念，并首次對其關鍵特征和技術進行了全面闡述。在此之后，我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外，本文還討論了這一不斷發展的領域的潛在研究方向。

簡介：隨著計算能力的迅猛增長和深度學習技術的突破，尤其是Transformer架構的出現，人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型，可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性，如涌現（Emergence）和同質化（Homogenization），使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明，隨著基礎模型的擴大，它可能會自發地展現新穎的能力。同時，同質化暗示了模型的多功能性，使其能夠在各種應用中部署。由于大型語言模型（LLMs）的發展，基礎模型的概念首先在自然語言處理（NLP）中成為現實。從那時起，基礎模型展示了驚人的多功能性，不僅可以處理文本，還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色，包括計算機視覺、音頻信號處理和推薦系統等。

就像我們在自然語言處理領域所見證的演進一樣，圖機器學習正在經歷一種范式轉變。在早期階段，圖任務主要采用淺層方法，如隨機游走和矩陣分解。然而，這些方法在容量上存在一定的限制，主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡（GNNs）的出現。GNNs通過引入消息傳遞機制，使節點能夠迭代地從鄰居那里匯總信息，從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs，研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而，GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題，尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。

基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題：圖基礎模型是否可以代表圖機器學習的下一個前沿？如果實現了這些模型，它們將具有更強的表達能力、可遷移性，并適用于更復雜的圖數據和任務。如圖1所示，圖基礎模型（GFM）被構想為一個在廣泛的圖數據上預訓練的模型，用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似，我們期待GFM具備兩個主要特征：涌現和同質化。具體而言，涌現指的是僅在大規模圖模型中顯現的新能力，而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性，因為它們固有的架構和學習范式專注于特定任務，這限制了對廣泛的未標記數據的利用，從而限制了它們的表達和泛化能力。

圖1：深度圖學習和圖基礎模型的對比

受到大型語言模型（LLMs）在NLP中作為基礎模型的成功啟發，研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式，因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先，基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中，而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計，以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息，另一種替代方法是將LLMs用作圖基礎模型。然而，尚不確定LLMs是否能有效處理圖數據和相關任務，因此重要的是確定如何在LLMs中建模圖結構。此外，基礎模型的同質化要求以一種統一的方式處理各種任務。因此，在圖數據中，由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性，設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此，有必要設計新穎的預訓練代理任務和適配方式。

表1：語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案，但本文調查了一些相關研究，并將它們基于對圖神經網絡（GNNs）和大型語言模型（LLMs）的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型：它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型：它們探索將圖轉化為文本或標記的方式，以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型：它們結合了GNNs和LLMs，并尋求探索GNNs和LLMs之間各種協同作用的方式，以賦予它們增強的能力。

圖3：基于GNN的模型示意圖

圖5：基于LLM的模型示意圖

圖7：基于GNN+LLM的模型示意圖

據我們所知，這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態，而不是圖。此外，還有兩篇專門針對知識圖譜和大型語言模型的綜述，但由于知識圖譜在構建和應用上的獨特性，它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念，但它強調了意見陳述并缺乏系統的分類。因此，本文的貢獻可以總結如下： ? 本文首次定義了圖基礎模型的概念，探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法，并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。本文的后續部分組織如下。在第2節中，我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型，并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節，我們總結了本文的要點。 **圖基礎模型 **在本節中，我們首先將正式定義圖基礎模型的概念。然后，我們將討論圖數據和圖任務對圖基礎模型的影響。最后，我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。

在本節中，我們定義了圖基礎模型的概念及相關技術，并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分，我們將介紹三類實現圖基礎模型的方法，以及每種方法的代表性作品，如圖2所示。基于GNN的模型使用GNN作為主干架構，而基于LLM的模型將圖轉化為LLM的輸入格式，并使用LLM作為主干架構。另一方面，基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此，在接下來的部分，我們將分別介紹每種方法的主干架構、預訓練和適應策略。

**基于GNN的模型 **

得益于高效的模型架構和訓練范式，語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中，我們將深入探討基于GNN的模型，這些模型從NLP中使用的模型架構或訓練范式中汲取靈感，并將其應用于與圖相關的任務。重要的是，與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同，基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。

基于LLM的模型

研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法，以下的優點不容忽視。首先，基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外，采用類似LLM的主干賦予模型統一多種圖學習任務的能力，因為這些任務可以用自然語言進行描述。此外，最近的進展，如NLGraph [66]、GPT4Graph [109]，展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力，這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110]，我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏處理文本的能力，因此不能直接基于文本數據進行預測。此外，它們也不能根據用戶提供的自然語言指令進行預測。因此，探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面，用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力，以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點，整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。

**結論 **

基礎模型和圖機器學習的發展催生了一個新的研究方向，目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中，我們首次提出了圖基礎模型(GFMs)的概念，并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴，將現有的GFMs相關工作分為三個主要類別：基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法，我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后，本文還指出了這個不斷發展領域的未來方向。

付費5元查看完整內容

大模型 · 可解釋性 · 大型語言模型 ·

2023 年 9 月 11 日

[付費5元查看完整內容]大模型如何可解釋？新澤西理工學院等最新《大型語言模型可解釋性》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在自然語言處理方面展示了令人印象深刻的能力。然而，它們的內部機制仍然不清楚，這種不透明性對下游應用帶來了不希望的風險。因此，理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中，我們引入了可解釋性技術的分類體系，并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類：傳統的微調范式和基于提示的范式。對于每個范式，我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準，并討論了如何利用解釋來調試模型和提高性能。最后，我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型（LLMs），如BERT（Devlin等，2019a）、GPT-3（Brown等，2020）、GPT-4（Bubeck等，2023）、LLaMA-2（Touvron等，2023b）和Claude（AnthropicAI，2023），在各種自然語言處理（NLP）任務中展示出了令人印象深刻的性能。主要科技公司，如微軟、谷歌和百度，已在其商業產品和服務中部署了LLMs以增強功能。例如，微軟利用GPT-3.5來改善新Bing的搜索相關性排名（Mehdi，2023）。由于LLMs通常是復雜的“黑盒子”系統，其內部工作機制是不透明的，高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生（Weidinger等，2021）。因此，開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力（Doshi-Velez和Kim，2017；Du等，2019a）。提高LLMs的可解釋性至關重要，有兩個關鍵原因。首先，對于一般終端用戶，可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任，無需技術專業知識。通過這種方式，終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次，對于研究人員和開發人員，解釋模型行為提供了洞察力，以識別意外偏見、風險和性能改進的領域。換句話說，可解釋性充當了一個調試輔助工具，可以快速提高下游任務上的模型性能（Strobelt等，2018；Bastings等，2022；Yuksekgonul等，2023）。它有助于追蹤模型能力隨時間的變化，進行不同模型之間的比較，并開發可靠、道德和安全的模型，以供實際部署使用。 由于LLMs的獨特屬性，其可解釋性技術與傳統機器學習（ML）模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看，ML模型以監督方式依賴人工構建的特征，而LLMs旨在自動從原始輸入數據中學習特征（Chai和Li，2019）。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看，傳統ML模型通常是針對具體任務設計的，具有不同的模型架構（Liu和Sun，2023）。相比之下，經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務（Yang等，2023）。此外，LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性（Hu，2020）。由于注意力權重中編碼的知識和模式可能提示了模型的理解，注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外，由于LLMs的性能更好，還應進一步研究transformer的組件，包括神經元、層和模塊，學到了什么以及它們是否有不同的功能。從應用的角度來看，傳統ML模型專注于低級模式識別任務，如解析和形態分析，而LLMs可以處理高級推理任務，如回答問題和常識推理（Lauriola等，2022）。特別是，理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs，有必要回顧和總結專為LLMs定制的解釋技術。 在本文中，我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中，我們介紹了應用LLMs的兩個主要范式：1）傳統的下游微調范式和2）提示范式。基于這一分類，我們在第3節中回顧了適用于微調LLMs的解釋方法，并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中，我們討論了解釋方法的評估。最后，在第6節中，我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰，并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式，傳統微調和提示，根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別，因此分別提出了各種類型的解釋（如圖1所示）。 傳統微調范式

在這個范式中，首先對語言模型進行了大規模無標簽文本數據的預訓練，然后在特定下游領域的一組標記數據上進行微調，例如GLUE基準測試中的SST-2、MNLI和QQP（Wang等人，2019）。在微調過程中，很容易在語言模型的最終編碼器層上方添加完全連接的層，使其適應各種下游任務（Rogers等人，2021）。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如，包括BERT（Devlin等人，2019a）、RoBERTa（Liu等人，2019）、ELECTRA（Clark等人，2020）、DeBERTa（He等人，2021）等。對于這個范式的解釋重點在于兩個關鍵領域：1）理解自監督預訓練如何使模型獲得語言的基礎理解（例如句法、語義和上下文關系）；以及2）分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示，例如自然語言句子中的空白，以便模型填充，實現零樣本學習或少樣本學習，而無需額外的訓練數據。根據其開發階段，這個范式下的模型可以分為兩種類型：基礎模型：隨著LLMs的規模和訓練數據的增加，它們展示了令人印象深刻的新能力，無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型（擁有數十億參數）（例如GPT-3（Brown等人，2020）、OPT（Zhang等人，2022b）、LLaMA-1（Touvron等人，2023a）、LLaMA-2（Touvron等人，2023b）、Falcon（Almazrouei等人，2023））。這些模型被稱為基礎模型或基礎模型，它們可以與用戶進行對話，無需進一步與人類喜好對齊。大規模模型通常適用于這種范式，規模超過10億。例如，LLaMA-2（Touvron等人，2023b）擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型：基礎模型存在兩個主要限制：1）它們不能按照用戶的指令進行操作，因為預訓練數據包含少量指令-響應示例，2）它們傾向于生成有偏見和有毒的內容（Carlini等人，2023）。為了解決這些限制，基礎模型通過監督微調進一步進行微調（見圖2），以實現人類級別的能力，例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過（提示，響應）演示對和來自人類反饋的強化學習（RLHF）進行指導調整。模型通過自然語言反饋進行訓練，以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4（Bubeck等人，2023）、Anthropic的Claude（AnthropicAI，2023）以及一些開源模型，如Meta的LLaMA-2-Chat（Touvron等人，2023b）、Alpaca（Taori等人，2023）和Vicuna（Chiang等人，2023）。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中，我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先，我們介紹了提供局部解釋（第3.1節）和全局解釋（第3.2節）的方法。在這里，局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解，而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來，我們討論了如何利用解釋來調試和改進模型（第3.3節）。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景，我們有一個語言模型，并將特定文本輸入模型。模型隨后產生分類輸出，例如情感分類或下一個標記的預測。在這種情景下，解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測，我們將其稱為局部解釋。這個類別包括四個主要方法流，包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋，全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件（神經元、隱藏層和較大模塊）編碼了什么，以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法：探測方法，用于分析模型表示和參數；神經元激活分析，用于確定模型對輸入的響應性；以及基于概念的方法。

**提示范式的解釋 **

在本節中，我們介紹了解釋屬于提示范式的模型的技術，包括1）解釋基礎模型，如LLaMA-2（第4.1節），2）解釋助手模型，如LLaMA-2-Chat（第4.2節），以及3）如何利用LLMs的推理和解釋能力生成用戶友好的解釋（第4.3節）。

基礎模型解釋

隨著語言模型的規模增大，它們展示出了新的能力，如少樣本學習，即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈（CoT）提示能力。鑒于這些新興屬性，解釋性研究有三個主要目標：1）研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務，2）理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務，從而幫助終端用戶解釋模型的推理，以及3）解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調，屬于這一范式的LLMs具有強大的推理能力。然而，它們的巨大規模也使它們容易生成問題輸出，如幻覺。解釋性研究旨在：1）闡明對齊微調的作用，2）分析幻覺產生的原因。

結論

在本文中，我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性，以及提高人類可解釋性。隨著LLMs的不斷進步，可解釋性將變得極其重要，以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織，同時突顯了未來工作的開放性問題。

付費5元查看完整內容

大模型 · ChatGPT · 知識圖譜 ·

2023 年 5 月 9 日

[付費5元查看完整內容]大模型ChatGPT如何用于知識圖譜構建？《利用大型語言模型增強知識圖譜構建》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大型語言模型（LLM）發展的日益普及，吸引了大量關注，各種應用領域的模型不斷涌現。然而，將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展，如ChatGPT，如何與專用預訓練模型，如REBEL，進行比較，以實現實體和關系的聯合提取。為了評估這種方法，我們使用與可持續性相關的文本作為案例，進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程，并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外，我們還探討了使用基礎LLM模型進行自動本體創建的潛力，從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法，包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較，我們從網絡上收集了有關可持續性主題的新聞數據。為此，我們使用了News API [21]系統。News API是一個HTTP REST API，用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能：關鍵詞或短語、發布日期、來源域名和語言。通過使用News API，我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數，從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制，因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理（NLP）中的一項基本任務，旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性，因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中，我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL：我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本，需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌，這意味著在將較長的收集到的文章發送到模型進行三元組提取之前，需要對其進行預處理。為了解決這個限制，我們將原始文本進行分詞，并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理，然后合并結果以提取較長文本的關系。還向提取的關系添加元數據，引用生成關系的令牌批次。采用這種方法，由于令牌批次可能在句子的中間開始或結束，某些關系可能無法準確提取。然而，這種情況發生的次數微乎其微。因此，我們將其處理留給未來的工作。實體-關系提取過程完成后，提取的信息存儲在三元組結構中。為了進一步規范提取的實體，我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分，它是用于優化提取關系的額外后處理步驟。在本研究中，我們使用DBpedia作為知識庫，并認為如果兩個實體具有相同的DBpedia URL，則它們是相同的。這方法不適用于DBpedia上不存在的實體。

ChatGPT：本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后，我們遵循與REBEL模型相同的步驟，以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗，我們將參數“溫度”的值設為0，以獲得更具確定性的輸出，因為OpenAI模型本質上是非確定性的。