大型語言模型(LLMs)在規劃生成方面展現出巨大潛力,能夠將初始世界狀態轉化為目標狀態。大量研究已探索了 LLM 在各類規劃任務中的應用,如網頁導航、旅行規劃以及數據庫查詢等。然而,這些系統多數為特定任務量身定制,導致難以進行統一比較,也難以評估在新任務中采用何種方法最為合適。此外,目前在評估標準方面尚缺乏明確且一致的規范。
本綜述旨在對現有的 LLM 規劃器進行系統性梳理與分析,以填補上述空白。我們在 Kartam 和 Wilkins(1990)奠定的基礎工作上,圍繞六個關鍵性能指標展開研究:完備性(completeness)、可執行性(executability)、最優性(optimality)、表示能力(representation)、**泛化能力(generalization)**與 效率(efficiency)。針對每一項指標,我們深入分析了具有代表性的研究工作,評估其優劣與適用場景。
此外,本文還明確指出了未來研究的關鍵方向,因此不僅為希望利用 LLM 規劃技術支持**智能體工作流(agentic workflows)**的從業者提供了實用參考,也為領域新入者提供了系統性的入門指南。
大型語言模型(LLMs)在語言理解、生成、推理等方面展現了令人矚目的成果,并不斷推動多模態模型的能力邊界。作為現代 LLM 的基礎,Transformer 模型提供了具有優良擴展性的強大基線。然而,傳統 Transformer 架構需要大量計算,這對大規模訓練和實際部署構成了顯著障礙。在本綜述中,我們系統性地考察了旨在突破 Transformer 內在局限、提升效率的創新 LLM 架構。從語言建模出發,本綜述涵蓋了線性與稀疏序列建模方法、高效的全注意力變體、稀疏專家混合(MoE)、結合上述技術的混合模型架構,以及新興的擴散式 LLM。此外,我們還討論了這些技術在其他模態中的應用,并探討了它們在開發可擴展、資源感知的基礎模型中的廣泛影響。通過將近期研究歸納到上述類別,本綜述勾勒出現代高效 LLM 架構的藍圖,并期望能為未來邁向更高效、更通用的 AI 系統研究提供啟發。 GitHub: //github.com/weigao266/Awesome-Efficient-Arch
近年來,大型語言模型(Large Language Models, LLMs)在自然語言理解與生成方面展現出非凡的能力,推動了文本生成 [1, 2, 3]、代碼生成 [4, 5, 6]、問答 [7, 8]、機器翻譯 [3, 9] 等廣泛任務的顯著進展。諸如 ChatGPT [2, 10, 11, 12, 13, 14, 15, 16, 17]、Claude [18, 19, 20, 21, 22]、Gemini [23, 24, 25]、DeepSeek [26, 27, 28, 29]、Qwen [30, 31, 32, 33]、LLaMA [34, 35, 36, 37]、GLM [38]、Minimax-Text [39]、InternLM [40, 41]、混元(Hunyuan) [42, 43] 等一系列代表性 LLM 家族,不斷突破性能邊界,同時也重塑了人機交互的方式。 超越其在語言任務中的初始角色,LLMs 正越來越多地應用于兩個高要求領域:多模態與復雜推理。在多模態應用中,LLMs 已成為整合并生成跨模態信息的核心。近期的視覺-語言模型(Vision-Language Models, VLMs)進展,如 Qwen-VL [44, 45, 46]、InternVL [47, 48, 49, 50]、Seed-VL [51]、Kimi-VL [52]、Minimax-VL [39],充分體現了這一轉變,展示了通過將語言能力與視覺處理結合,顯著提升跨模態理解與生成的能力。與此同時,一條快速發展的研究路徑聚焦于增強 LLMs 的推理能力,通常稱為大型推理模型(Large Reasoning Models, LRMs)。典型系統包括 OpenAI o1/o3 [14, 15]、DeepSeek-R1 [29]、Seed1.5-Thinking [53]、Minimax-M1 [54]、Kimi k1.5/K2 [55, 56] 等,它們引入了長鏈式思維鏈(Chain-of-Thought, CoT)提示 [57] 和強化學習(Reinforcement Learning, RL)[58] 等策略,以支持多步推理和更具深思熟慮的認知行為。 盡管 LLMs、VLMs 和 LRMs 在語言理解、多模態處理和復雜推理方面取得了重大突破,但它們也帶來了巨大的計算需求 [59, 60, 61]。這種需求顯著提高了開發和部署成本,從而對廣泛應用構成了實際障礙。該問題在 LLMs、VLMs 和 LRMs 中普遍存在,凸顯了模型能力與效率之間的權衡。雖然這些模型為通用智能的發展提供了有前景的路徑,但其高昂的資源消耗也引發了一個重要問題:在追求更強大的系統時,我們是否真正考慮過這種“智能”背后的巨大隱性成本?這種“智能”的真實代價又是什么? 許多最新突破背后的核心架構是 Transformer [62],其于 2017 年提出。Transformer 的自注意力機制比傳統的循環神經網絡(RNNs)[63] 更有效地捕捉長程依賴,從而支持 LLMs 擴展至千億甚至萬億級參數 [2]。然而,Transformer 的一個主要局限在于其自注意力機制的二次復雜度:計算開銷隨輸入序列長度 N 呈 O(N2) 增長 [64]。這種低效導致訓練與推理成本極其高昂,尤其在涉及長上下文輸入的任務中 [65]。隨著人工智能(AI)的持續發展,長序列場景正變得日益普遍。 如圖 2 所示,任務如檢索增強生成(Retrieval-Augmented Generation, RAG) [7] 通常要求 LLMs 處理整篇文檔。在新興的 AI 智能體(AI agents) 時代 [66],長序列經常由反復生成與多次工具調用產生。當模型具備更強推理能力(形成 LRMs)時,它們必須處理長鏈思維鏈,這同樣導致長序列問題。類似地,在多模態應用中 [67],高分辨率圖像、視頻和音頻也引入了額外的長序列挑戰。Transformer 架構的另一個關鍵組件——前饋網絡(Feed-Forward Network, FFN)[68],在模型規模擴展時同樣面臨挑戰。當參數數量超過某個規模時,FFN 層的訓練成本和推理效率將愈發難以控制。在這種情況下,新的問題出現了:我們如何突破 Transformer 的效率天花板?高昂的“智能”是否是唯一的前進道路?
為應對這些迫切挑戰并釋放 LLMs 的全部潛力,研究界正在積極探索一系列創新的架構設計與優化策略。本綜述深入探討了這些創新方法,并將其系統歸類,以提供全面的概覽。各類別下的具體方法如圖 3 所示,概括如下:
線性序列建模:通過重構注意力機制,將自注意力的二次復雜度降至線性復雜度 O(N),常借鑒傳統注意力、RNN 或狀態空間模型(State-Space Models, SSMs)的思想。這類方法還能消除推理階段存儲鍵-值(KV)緩存的需求,從而降低部署成本。
稀疏序列建模:不再計算所有 token 對之間的注意力,而是僅選擇性地關注一部分交互(即注意力圖),以降低計算和內存需求,同時盡力保持性能。
高效全注意力:在保持二次復雜度不變的前提下,提高標準 softmax 注意力的效率。例如,通過 IO 感知的注意力機制提升內存訪問效率,或通過分組查詢機制減小 KV 緩存大小。
稀疏專家混合(Sparse MoE):引入條件計算方法,每個輸入 token 僅激活部分參數(稱為專家),從而在不成比例增加計算開銷的情況下大幅提升模型容量。
混合架構:將線性序列建模與傳統全注意力層有機結合,可在同一層內實現內層混合,或在不同層之間采用跨層混合,從而平衡效率與模型容量。
擴散式 LLMs:一種新興方向,探索基于非自回歸擴散模型的語言生成,潛在地為高效且高質量的文本生成提供新途徑。
跨模態應用:重要的是,這些驅動效率的架構原則并不限于語言領域;它們在視覺、音頻與多模態等其他領域也展現出適應性,本綜述也將對此加以探討。
大型語言模型(LLMs)與視覺語言模型(VLMs)等大模型正在重塑人工智能的發展格局,推動了自然語言處理、計算機視覺以及多模態學習等領域的應用。然而,全面微調這類模型的成本仍然高昂,通常需要大量的計算資源、內存以及任務特定的數據。參數高效微調(PEFT)作為一種新興的解決方案,通過僅更新模型的一小部分參數,使得大模型能夠高效地適應下游任務。 本綜述全面梳理了PEFT技術的發展脈絡,重點探討其動機、設計原則與實際效果。我們首先分析了傳統微調所面臨的資源與可及性挑戰,指出過擬合、災難性遺忘和參數低效等關鍵問題。接著,我們引入了一套結構化的PEFT方法分類體系,將現有技術劃分為加性(additive)、選擇性(selective)、重參數化(reparameterized)、混合式(hybrid)與統一式(unified)等五大框架,并系統性地比較了它們的機制與權衡。 除了分類,我們還深入探討了PEFT技術在語言、視覺以及生成建模等不同領域中的應用表現,展示了其在降低資源消耗的同時依然保持優異性能的潛力。我們進一步討論了PEFT在可擴展性、可解釋性與魯棒性方面仍面臨的重要挑戰,并提出未來的研究方向,包括聯邦學習、領域自適應以及理論基礎構建。 我們的目標是為讀者提供對PEFT技術的統一理解,揭示其在推動大模型高效、實用與可持續發展中的關鍵作用。
大型語言模型(LLMs)[601, 280] 與預訓練語言模型(PLMs)[432, 436, 577, 719] 正在徹底改變人工智能的發展方向 [648, 122],推動自然語言處理(NLP)[96, 478]、計算機視覺(CV)[30, 707] 和多模態學習 [56, 187, 508] 等領域實現突破性進展。這些模型通常擁有數十億參數,訓練數據規模龐大,在文本生成 [455, 129]、語言翻譯 [267, 10]、對話系統 [355, 555]、聊天機器人 [326, 571] 和內容摘要 [3, 55] 等應用中展現出前所未有的能力。它們重新定義了人工智能的邊界 [497],并在學術界、工業界及實際應用中產生了深遠影響 [205, 569]。 盡管具備巨大潛力,現代LLMs和PLMs的體量與復雜性仍對研究和產業界構成嚴峻挑戰 [539, 802]。以LLama-3為例 [424, 333],這是當前最先進、計算要求最高的LLM之一 [152, 766]。其架構包含約3000億個參數,采用復雜的多頭注意力機制 [256, 170, 27, 514, 810],在多項任務上達到了SOTA水平 [507, 486]。然而,如此強大的模型,其微調過程極其復雜 [12, 127],需要動用龐大的計算基礎設施,例如PB級存儲系統、超高帶寬內存接口,以及大量高性能GPU陣列 [380, 655]。有效地微調LLama-3 [152, 445],往往需配置數百乃至數千顆數據中心級GPU,常見如NVIDIA A100或H100 [242, 806]。盡管這些GPU配備數十GB的高帶寬內存(HBM),仍不足以單獨容納LLama-3的全部參數、中間激活值和優化器狀態。因此,必須通過多個GPU協同部署模型及其訓練流程。為了確保訓練效率,必須精心編排分布式訓練范式 [454],包括張量并行 [665, 336, 656]、流水線并行 [260, 629, 481, 760] 和模型分片 [353, 374] 等策略,以保持吞吐率并實現負載均衡。這種基礎設施的復雜性及其運維成本,極大限制了此類模型的微調可及性和可部署性 [151]。 傳統微調方式 [368, 614] 需針對每個新任務更新模型的所有參數,在模型規模不斷擴大的背景下,這種做法日益難以為繼。解決這一問題對于發揮LLMs和PLMs的最大潛能至關重要 [613]。若能優化其部署與微調過程 [616, 534],不僅可降低計算開銷,還能提升模型在多種任務中的適應性,確保其在不同場景中持續發揮作用 [582, 709]。縮小這一差距對于實現技術民主化具有重要意義,有助于資源有限的組織也能充分利用如LLama-3 [547, 382] 這類強大模型,并應用于新興領域 [488, 232]。 本研究的核心問題是:LLMs 和 PLMs 的資源需求及微調挑戰有哪些?又該如何應對以優化其部署與適配?這一問題旨在揭示現有方法的關鍵瓶頸,并探索提升效率與可用性的策略。 本研究的目標是系統分析LLMs、VLMs 與 LMMs [435, 538, 575] 所面臨的計算與微調挑戰,并識別優化其部署與微調的可行策略 [6, 99]。通過系統性的分析,本文旨在為研究人員與工程實踐者提供可操作的指導,幫助他們突破現有模型的使用限制。 我們假設:要實現LLMs的最佳性能,需投入大量的計算資源與調優專業知識。然而,參數高效微調(PEFT)[520, 634, 311]等策略——只更新模型中一小部分參數——能夠在大幅減少計算資源需求的同時,維持甚至提升模型性能 [734]。通過探索和驗證這些方法,本研究希望推動對LLMs與PLMs更深入的理解與普及,為其在AI研究與應用中的高效使用奠定基礎 [570, 207]。 PEFT方法 [384] 作為一種替代方案,通過顯著減少可訓練參數 [69, 628, 291],提升了微調過程的可訪問性、可擴展性與可持續性。例如,adapter模塊、prefix-tuning [444, 517, 76, 427]、LoRA(低秩適配)[17, 130, 335]、BitFit 以及 prompt tuning 等方法,在多項基準測試中展現出與完整微調相當甚至更優的性能,而資源消耗僅為其一小部分。PEFT尤其適用于實際應用中需處理多個任務、資源受限或需部署于邊緣設備的場景。 盡管PEFT的應用愈發廣泛,但當前仍缺乏系統性的理解框架,涉及其設計空間、方法權衡及跨模態適用性等方面。為填補這一空白,本綜述系統回顧了語言與視覺模型中的PEFT方法 [735]。我們首先分析標準微調在計算與內存層面上的限制,并討論其固有弊端。接著提出一套統一的分類體系,將PEFT方法劃分為五大類:加性、選擇性、重參數化、混合式與統一式方法,提供一個結構化視角用于理解與比較各類策略。 此外,我們評估了PEFT在NLP [286, 148]、計算機視覺、多模態任務與生成建模等多個領域中的應用,展示其在提升效率、促進泛化與實現更負責任AI方面的潛力。最后,本文還識別了該領域面臨的關鍵挑戰與開放問題,包括可解釋性、理論基礎構建與特定領域的適配 [68, 701],并提出未來可能的研究方向。 通過本綜述,我們希望為研究者與從業者提供一份清晰、全面的PEFT方法指南,幫助他們構建更高效、可適應的AI系統。
本綜述的主要貢獻總結如下: * 全面的資源分析:深入探討對大規模預訓練模型(PLMs與LLMs)進行完整微調時的計算、內存與存儲需求,重點分析研究者在基礎設施受限條件下的實際挑戰。 * 微調局限性的批判性分析:討論傳統微調策略在低資源任務中過擬合、持續學習中的災難性遺忘、參數更新冗余及可擴展性瓶頸等問題。 * 統一的PEFT方法分類體系:提出一套將PEFT方法分為五大類(加性、選擇性、重參數化、混合式、統一式)的結構化分類體系,用以明確比較不同設計策略及發現共性。 * 代表性方法的對比分析:對LoRA、adapter、BitFit、prompt tuning 和 prefix-tuning 等主流方法進行橫向評估,分析其參數效率、性能權衡與實現復雜度。 * 跨領域應用調研:梳理PEFT在NLP、計算機視覺、多模態學習、語音和生成建模等領域的應用,突出其在魯棒性、可遷移性和實際可用性方面的優勢。 * 專用場景下的適配研究:探索PEFT在持續學習、聯邦學習、隱私保護微調、領域適應與低資源語言支持等新興領域的應用前景。 * 實證研究與趨勢總結:總結近期實證研究與性能基準,揭示PEFT研究中的趨勢與各方法適用條件。 * 開放問題與未來方向:指出當前PEFT方法面臨的難點,如可擴展性、可解釋性欠缺、理論支持不足與標準化缺失,并呼吁構建具語義感知與架構敏感性的設計。 * 可操作性總結與實用指南:為實踐者提供實用指南,幫助他們依據資源預算、任務類型與模型結構,選擇合適的PEFT方法。
本文結構安排如下: 第1節闡述研究背景與動機,聚焦大規模基礎模型(如大語言模型LLM、視覺大模型VLM、多模態大模型LMM)的崛起趨勢,以及參數高效微調(PEFT)方法在降低全參數微調高昂計算與資源成本方面的必要性。 第2節概述本綜述的核心貢獻,包括:建立PEFT方法系統分類體系、評估其效能折衷關系、深入探討跨領域應用場景與局限性。 第3節闡釋PEFT理論基礎,涵蓋注意力機制、自注意力、多頭配置、Transformer架構等核心概念,結合復雜度與擴展性分析揭示全參數微調的低效本質。 第4節詳述PEFT策略設計的關鍵架構與實踐考量,包括設計目標、量化決策空間、任務自適應路由機制,以及面向多模態場景的內存-時間-能效優化策略。 第5節闡述核心PEFT方法體系,包含串/并行適配器的增量微調、面向任務特化的混合適配器、軟提示調優,以及LoRA等重參數化方法,并探討擴展規律、選擇性微調和基于MoE的混合框架等前沿方向。 第6節通過GLUE等基準數據集實證評估PEFT方法,在NLP任務和大模型推理場景中揭示參數量與性能的權衡規律。 第7節探索PEFT技術在自然語言處理、計算機視覺、多模態學習及機器人等領域的應用實踐,突出其跨域適應性與領域特異性優勢。 第8節量化分析不同PEFT策略的計算、內存與擴展復雜度,從理論與實踐雙維度對比其效率特征。 第9節系統總結PEFT方法的優勢與局限,重點討論參數效率、適應能力、泛化性能及實際部署中的約束條件。 第10節指出現有PEFT方法的四大核心缺陷:啟發式依賴、理論欠缺、可解釋性不足與標準化缺失,強調發展語義感知與架構敏感的創新型設計之迫切性。 第11節展望六大前沿研究方向:參數影響力理論建模、分層調優策略、持續學習融合、可解釋性框架、基準測試體系及隱私保護型PEFT。 第12節總結PEFT技術在推動大模型高效擴展應用中的關鍵作用,及其對構建資源友好型人工智能生態的戰略意義。
大規模語言模型的規劃能力
近年來,大規模語言模型(LLMs)的規劃能力受到了越來越多的關注,原因在于它們在多步驟推理方面的顯著能力,以及在多個領域中廣泛的泛化能力。盡管一些研究人員強調LLMs在執行復雜規劃任務方面的潛力,另一些人則指出它們在處理長時間跨度推理的復雜性時存在顯著的局限性。本調查深入研究了現有的LLMs在自動規劃中的應用,詳細分析了它們的成功和不足之處。我們展示了,盡管LLMs因其局限性不適合單獨作為規劃器,但當與其他方法結合時,它們仍然為增強規劃應用提供了巨大的機會。因此,我們提倡一種平衡的方法,結合LLMs固有的靈活性和廣泛知識,以及傳統規劃方法的嚴謹性和成本效益。 規劃是指制定一系列行動以實現特定目標的過程,是智能行為的基石。這一認知能力使得無論是人類還是人工智能體,都能夠在復雜的環境中導航,適應變化的情境,并預測未來事件。意識到這一技能對智能行為的重要性,自動化規劃自人工智能領域誕生以來便成為一項基礎任務,發揮著重要作用,幫助系統推理可能的行動路徑、優化決策過程,并在廣泛的應用場景中高效地實現期望的結果。 在這一背景下,大規模語言模型(LLMs)在規劃中的作用近年來受到了越來越多的關注,盡管它們的局限性仍然是一個重要的討論話題。[Wei et al., 2022a] 提出的“涌現”能力最初激發了人們對LLMs作為獨立規劃器潛力的熱情,一些方法展現出了令人印象深刻的規劃能力[Yao et al., 2023a; Hao et al., 2023]。然而,隨后的研究對這些聲明進行了審視,揭示了其中的主要不足之處[Stechly et al., 2024a; Verma et al., 2024]。特別地,盡管LLM代理在短時間跨度的高層次規劃中顯示出一定的前景,但在長時間跨度的場景中,它們往往無法產生正確的規劃,其性能可能顯著下降[Chen et al., 2024a; Aghzal et al., 2024b],使得它們在實際應用中變得不切實際和不可靠。此外,即便在成功的情況下,它們生成的規劃成本也可能非常糟糕,而這一局限性往往被忽視,尤其是在文獻中提出LLMs用于規劃相關任務時。 盡管存在這些局限性,LLMs通過大規模預訓練所蘊含的一般領域知識為增強傳統規劃系統的靈活性提供了寶貴的機會。例如,它們從自然語言中提取和解釋相關上下文信息的能力,使得這些模型能夠作為接口,將文本轉化為結構化的形式化表示,進而與符號規劃器無縫集成[Chen et al., 2024b; Zhang et al., 2024]。此外,LLMs還有潛力為規劃系統提供常識推理,彌合傳統規劃器在某些領域知識上的空白,而不需要大量的手動工程工作[Zhang et al., 2023]。進一步地,作為基于大量人類生成數據訓練的模型,LLMs能夠隱式編碼人類的風格化和定性偏好。因此,LLMs也能作為評估器,基于定性和風格化標準評估規劃,這些標準通常難以明確表達[Guan et al., 2024]。 在本研究中,我們對LLMs在自動規劃中的整合進行文獻綜述,重點討論長時間跨度的高層次規劃應用。雖然我們的工作主要集中在LLMs上,但我們調查的研究及其論點也適用于增強了視覺編碼器的LLMs,即視覺語言模型(VLMs)。我們比較了使用LLMs作為規劃器和將LLMs整合到傳統規劃框架中的研究現狀,并認為后者提供了更為靈活和有前景的解決方案。盡管以往的綜述已探討了這一主題,但它們要么關注的是更廣泛的LLM自動化代理[Huang et al., 2024b; Wang et al., 2024a],要么缺乏對LLMs在規劃中多種應用及其局限性的系統性和深入討論[Li et al., 2024b]。通過將討論范圍聚焦于長時間跨度規劃,本綜述提供了對LLMs在規劃中的應用、未來研究潛力以及可能的陷阱的更深入探討。
檢索增強生成(RAG)是一種先進的技術,旨在解決人工智能生成內容(AIGC)面臨的挑戰。通過將上下文檢索與內容生成相結合,RAG提供了可靠且最新的外部知識,減少了幻覺現象,并確保在廣泛任務中的相關上下文。然而,盡管RAG取得了成功并展現出潛力,最近的研究表明,RAG范式也帶來了新的風險,包括魯棒性問題、隱私問題、對抗性攻擊以及問責問題。解決這些風險對RAG系統的未來應用至關重要,因為它們直接影響到系統的可信度。盡管已經開發了多種方法來提高RAG方法的可信度,但目前缺乏一個統一的研究視角和框架。因此,本文旨在填補這一空白,通過提供一條全面的路線圖來發展可信賴的RAG系統。我們將討論集中在五個關鍵視角上:可靠性、隱私、安全性、公平性、可解釋性和問責制。對于每個視角,我們提出了一個通用框架和分類法,提供了一種結構化的方法來理解當前的挑戰、評估現有的解決方案,并識別有前景的未來研究方向。為了鼓勵更廣泛的采用和創新,我們還強調了可信賴的RAG系統在下游應用中的重要影響。如需更多關于本次調查的信息,請訪問我們的GitHub倉庫*。
1 引言
檢索增強生成(RAG)已成為解決大型語言模型(LLM)面臨的挑戰的有前途的技術,例如幻覺現象、依賴過時的知識和缺乏可解釋性[55, 223]。通過將外部信息融入生成上下文中,RAG提高了生成內容的準確性和可靠性。信息的時效性還使得模型能夠通過最小化訓練成本,減少對整個系統的廣泛再訓練需求,從而保持與時俱進。這些優勢對現實世界的應用具有深遠的意義。例如,RAG已在醫療問答[195, 216, 162]、法律文書起草[190, 132]、教育聊天機器人[172]和財務報告摘要[208]等領域中得到有效應用,因其在各個領域的適應性。可信度的定義通常取決于討論的上下文[102, 191, 95, 58, 36, 107, 219, 105]。在機器學習和人工智能的背景下,可信的AI系統必須具備使其值得信賴的特征。2022年,美國國家標準與技術研究院(NIST)發布了可信AI的指南,從多個角度定義了可信度[169]:可靠性、隱私性、可解釋性、公平性、問責制和安全性。可靠性確保系統在各種條件下始終如一地表現并產生準確的結果。它包括解決諸如不確定性量化和魯棒性泛化等挑戰,這對于提高系統的可靠性至關重要。例如,在法律案例分析系統中,可靠性涉及平衡不確定性量化(例如,檢索到的法律引用的置信度和檢索到的法律引用數量)和魯棒性泛化(例如,應用先例到新案件)以確保律師在案件準備過程中不會受到誤導。隱私性側重于保護用戶數據,確保對個人信息的控制。由于RAG已應用于醫療等敏感領域,因此保護患者信息至關重要。例如,當醫療助手檢索醫療記錄或生成治療建議時,系統必須防止數據泄露,確保嵌入語言模型中的敏感患者信息保持安全。可解釋性強調需要透明的決策過程,使用戶能夠理解輸出是如何生成的。例如,基于RAG的大學招生助手應提供清晰的解釋,說明學生檔案如何與課程要求匹配,提供用戶可以輕松理解和驗證的見解。公平性側重于最小化檢索和生成階段引入的偏見,因為這些偏見可能在高風險領域中顯著影響結果。近期的進展包括使用重新排序方法來減輕檢索中的社會偏見,以及微調技術來平衡人口公平性與系統性能。例如,招生助手必須確保公平對待所有申請者,解決潛在的性別、種族或社會經濟地位等偏見問題。問責制涉及AI治理,包括政策制定和法律實施,但也涉及諸如追蹤AI生成內容的來源和過程等技術方面。例如,確保新聞生成系統能夠追蹤其檢索的來源,以提高內容的問責制并減少錯誤信息,是至關重要的。像內容水印這樣的技術有助于識別檢索信息的來源及生成過程,為未來的驗證提供清晰的審計軌跡。安全性涉及系統防止和減輕傷害的能力,特別關注防御對抗性攻擊并減少惡意行為者帶來的風險。當前的聊天機器人系統通常與高風險用戶互動,例如青少年,這些用戶可能不知情地暴露于有害或不當的內容中。對抗性攻擊和越獄嘗試可能會改變聊天機器人的行為,導致錯誤信息、不當響應,甚至危險建議。因此,構建強大的保障措施,如對抗性訓練和倫理防護措施,對于確保安全并防止傷害至關重要。盡管RAG系統近期取得了成功,但關于其可信度的擔憂逐漸成為一個日益辯論的話題。首先,RAG系統容易受到可靠性問題的影響,因為開發者必須確保輸出準確地依賴于檢索到的內容[98, 55]。其次,依賴外部數據庫帶來了新的攻擊面,使系統暴露于一系列對抗性威脅中[198, 45, 194, 214, 215, 227]。因此,需要進行魯棒性改進以保障系統安全。第三,RAG系統在數據隱私方面帶來了新的挑戰[158]。外部數據庫的集成引入了額外的泄露渠道,必須確保RAG系統在生成過程中不會泄露外部數據庫和底層大型語言模型訓練數據中的私人信息。此外,RAG系統也可能面臨公平性問題[159],無論是在檢索過程還是生成過程中。檢索數據的選擇和使用方式可能顯著影響生成內容的公平性。生成過程中隱性偏見可能也會受到檢索內容的影響,尤其是當信心提高時[73]。最后,隨著大型語言模型(LLM)的崛起和潛在應用,問責制成為政策制定者關注的重點,特別是在使用RAG系統時。盡管已有進展,但這些挑戰顯著限制了RAG系統在現實場景中的廣泛應用,尤其是在高風險領域,如醫療、法律咨詢和教育等[195, 216, 190, 172]。因此,在推動RAG系統發展的同時,融入可信度視角至關重要。由于可信AI的重要性,已有大量研究推動了RAG在大型語言模型中的應用,涵蓋了異質的定義、巨大的實施差異和不一致的評估指標。然而,目前尚缺乏對這一領域現有進展和挑戰的系統性回顧。為組織各個視角,本文對大型語言模型中可信RAG的現狀進行了系統討論。相關論文清單可在我們的GitHub倉庫中查閱?。
大語言模型(LLMs)展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著,但該領域的研究涉及多個領域,所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少,這限制了偏好對齊的進一步發展。有鑒于此,我們將現有的流行對齊策略分解為不同的組成部分,并提供了一個統一的框架來研究當前的對齊策略,從而建立它們之間的聯系。在本綜述中,我們將偏好學習中的所有策略分解為四個組成部分:模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法,還為不同策略的優勢協同提供了可能性。此外,我們還提供了詳細的現有算法工作示例,以幫助讀者全面理解。最后,基于我們的統一視角,我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。
以ChatGPT為代表的大語言模型(LLMs)的崛起展示了令人印象深刻的語言能力和專業素養,能夠提供正確、禮貌且知識淵博的回答,這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程,這是LLM在公開部署前必須經歷的一個必要步驟,旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型(LLMs)在各個領域展現了卓越的能力 [19, 93, 115, 139],但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題,出現了許多與對齊相關的舉措 [28, 88, 94, 98],這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念,但偏好學習的各種算法之間的關系仍然支離破碎,缺乏統一的框架來將它們結合起來。為了彌補這一差距,我們旨在提供一個系統的偏好對齊框架,如圖1所示。通過將相關工作整合到這一框架中,我們希望為研究人員提供全面的理解,并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習(RL)的方法,如RLHF [94],它需要獎勵模型用于在線RL;以及基于監督微調(SFT)的方法,如直接偏好優化(DPO)[98],它在離線環境中直接進行偏好優化。然而,這種分類無意中在兩類工作之間形成了一道障礙,不利于研究人員對偏好對齊核心內容的進一步理解。因此,我們致力于為這兩類方法建立統一的視角,并引入創新的分類框架。
這個新框架基于兩個關鍵見解:首先,在線策略(on-policy)與離線策略(off-policy)設置之間的區別,實質上取決于不同的數據來源,這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據,具體來說,被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源,只要這些數據是提前收集的,而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此,我們不使用在線或離線作為算法分類的標準。其次,受現有工作 [105] 的啟發,強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于,基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵,而監督微調算法可以直接通過各種形式的偏好進行優化,如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角,我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具,例如獎勵模型、人類標注者、更強大的模型(如GPT-4)以及各種規則。基于這些考慮,我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之,我們的論文調查并整理了與LLM偏好學習相關的現有工作,提供了一個統一且新穎的視角。此外,基于這篇綜述的內容,我們總結了該領域的幾個未來研究方向,旨在為進一步的研究提供見解。
在本節中,我們首先為LLM的偏好學習提供定義:給定一般人類偏好分布P(??, ??),其中??是一個提示,??是LLM的相應輸出,LLM的偏好學習????是一種生成新的LLM ????′的范式,使其對齊于P(??, ??),即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好,這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本,以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵,可能表現為正面標簽、在偏好排序中的較高位置,或較高的獎勵分數。在獲得數據后,策略模型????′通過特定算法進行優化。此外,根據這一定義,有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊:根據Kenton等人的研究 [58],對齊是指關注解決所謂的行為對齊問題的研究:我們如何創建一個能夠按照人類意愿行事的代理?基于這一定義,我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊,不涉及其他廣為人知的對齊話題,如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習(RLHF):與RLHF不同,本論文的范圍不僅包括基于強化學習的方法,還涵蓋了傳統的基于監督微調(SFT)的方法。此外,我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。
在本綜述中,我們將偏好學習的策略分解為幾個模塊:模型、數據、反饋和算法。通過根據它們的變體區分不同的策略,我們構建了一個統一的偏好學習策略視角,并在它們之間建立了聯系。我們認為,盡管這些對齊算法的核心目標本質上是相似的,但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后,我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解,并激發該領域的更多研究。
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
在過去的一年中,多模態大型語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中表現出色。然而,龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此,研究高效且輕量級的MLLMs具有巨大的潛力,特別是在邊緣計算場景中。在這篇綜述中,我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說,我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后,我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。
大規模預訓練作為人工智能(AI)領域的一種領先方法,使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型(LLM)的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此,多模態大型語言模型(MLLMs)應運而生,包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識,繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力,展示了許多顯著特性,如強大的語言生成和遷移學習能力。此外,通過與其他基于模態的模型建立強大的表示連接和對齊,MLLMs能夠處理來自多種模態的輸入,顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律:隨著數據、計算能力或模型規模等資源的增加,AI模型的性能會提高。然而,可擴展性伴隨著高資源需求,這阻礙了大型模型的發展和部署。例如,MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外,推理也是MLLMs資源消耗的主要部分。考慮一個典型場景,模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示,使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂,因為當前主流的MLLMs,如GPT-4V和Gemini,由少數幾家主導企業控制,并在云端運行。如上述實驗所示,即使是開源的MLLMs,對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。
鑒于這些挑戰,高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗,擴大其適用性,同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型,并進行典型的視覺指令微調。隨后,研究進一步通過以下方式增強了能力并擴展了用例:(1)引入更輕量的架構,注重效率,旨在減少參數數量或計算復雜度[25, 13, 18];(2)開發了更專業的組件,聚焦于高級架構的效率優化或賦予特定屬性,如局部性[19, 17, 12];(3)支持資源敏感任務,一些工作采用視覺token壓縮來提高效率,使MLLM的能力能夠轉移到資源密集型任務中,如高分辨率圖像和視頻理解[35, 39, 14, 40]。
在本綜述中,我們旨在呈現快速發展的高效MLLMs領域的最新進展,如圖2所示。我們將文獻組織成六個主要類別,涵蓋高效MLLMs的各個方面,包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架,以降低計算成本。該架構由多個基于模態的基礎模型組成,具有不同于單模態模型的特征,從而促進了新技術的發展。
Efficient Vision 探討優化高效視覺特征提取策略,強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。
Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡,并提出了平衡這些競爭因素的有前景途徑。
Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰,以實現最先進的結果。
Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡,同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。
Application 研究高效MLLMs在各個領域的實際影響,強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務,本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。
總之,這篇綜述深入探討了這些研究工作,探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史,提供了高效MLLMs策略的分類法,并全面比較了現有高效MLLMs的性能。通過這一探索,我們希望提供對當前最先進技術的全面理解,從而揭示這一新興領域的復雜細微之處。此外,這篇綜述還充當了路線圖,突出了未來研究的潛在途徑,促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述,我們還建立了一個GitHub倉庫,收錄了綜述中提到的論文,并按照相同的分類法進行整理,地址為:
按照標準的MLLM框架,高效MLLMs可以分為三個主要模塊:視覺編碼器g,負責接收和處理視覺輸入;預訓練語言模型,管理接收到的多模態信號并進行推理;視覺-語言投影器P,作為連接兩種模態的橋梁。為了提高通用MLLMs的效率,主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結,包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括:MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中,我們將按順序全面概述這三個模塊以及其他高效組件。
Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而,隨著ViT模型規模的增長,可訓練參數和操作數量也隨之增加,影響了它們的部署和性能。此外,自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95],本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。