大型語言模型(LLMs)與視覺語言模型(VLMs)等大模型正在重塑人工智能的發展格局,推動了自然語言處理、計算機視覺以及多模態學習等領域的應用。然而,全面微調這類模型的成本仍然高昂,通常需要大量的計算資源、內存以及任務特定的數據。參數高效微調(PEFT)作為一種新興的解決方案,通過僅更新模型的一小部分參數,使得大模型能夠高效地適應下游任務。 本綜述全面梳理了PEFT技術的發展脈絡,重點探討其動機、設計原則與實際效果。我們首先分析了傳統微調所面臨的資源與可及性挑戰,指出過擬合、災難性遺忘和參數低效等關鍵問題。接著,我們引入了一套結構化的PEFT方法分類體系,將現有技術劃分為加性(additive)、選擇性(selective)、重參數化(reparameterized)、混合式(hybrid)與統一式(unified)等五大框架,并系統性地比較了它們的機制與權衡。 除了分類,我們還深入探討了PEFT技術在語言、視覺以及生成建模等不同領域中的應用表現,展示了其在降低資源消耗的同時依然保持優異性能的潛力。我們進一步討論了PEFT在可擴展性、可解釋性與魯棒性方面仍面臨的重要挑戰,并提出未來的研究方向,包括聯邦學習、領域自適應以及理論基礎構建。 我們的目標是為讀者提供對PEFT技術的統一理解,揭示其在推動大模型高效、實用與可持續發展中的關鍵作用。
大型語言模型(LLMs)[601, 280] 與預訓練語言模型(PLMs)[432, 436, 577, 719] 正在徹底改變人工智能的發展方向 [648, 122],推動自然語言處理(NLP)[96, 478]、計算機視覺(CV)[30, 707] 和多模態學習 [56, 187, 508] 等領域實現突破性進展。這些模型通常擁有數十億參數,訓練數據規模龐大,在文本生成 [455, 129]、語言翻譯 [267, 10]、對話系統 [355, 555]、聊天機器人 [326, 571] 和內容摘要 [3, 55] 等應用中展現出前所未有的能力。它們重新定義了人工智能的邊界 [497],并在學術界、工業界及實際應用中產生了深遠影響 [205, 569]。 盡管具備巨大潛力,現代LLMs和PLMs的體量與復雜性仍對研究和產業界構成嚴峻挑戰 [539, 802]。以LLama-3為例 [424, 333],這是當前最先進、計算要求最高的LLM之一 [152, 766]。其架構包含約3000億個參數,采用復雜的多頭注意力機制 [256, 170, 27, 514, 810],在多項任務上達到了SOTA水平 [507, 486]。然而,如此強大的模型,其微調過程極其復雜 [12, 127],需要動用龐大的計算基礎設施,例如PB級存儲系統、超高帶寬內存接口,以及大量高性能GPU陣列 [380, 655]。有效地微調LLama-3 [152, 445],往往需配置數百乃至數千顆數據中心級GPU,常見如NVIDIA A100或H100 [242, 806]。盡管這些GPU配備數十GB的高帶寬內存(HBM),仍不足以單獨容納LLama-3的全部參數、中間激活值和優化器狀態。因此,必須通過多個GPU協同部署模型及其訓練流程。為了確保訓練效率,必須精心編排分布式訓練范式 [454],包括張量并行 [665, 336, 656]、流水線并行 [260, 629, 481, 760] 和模型分片 [353, 374] 等策略,以保持吞吐率并實現負載均衡。這種基礎設施的復雜性及其運維成本,極大限制了此類模型的微調可及性和可部署性 [151]。 傳統微調方式 [368, 614] 需針對每個新任務更新模型的所有參數,在模型規模不斷擴大的背景下,這種做法日益難以為繼。解決這一問題對于發揮LLMs和PLMs的最大潛能至關重要 [613]。若能優化其部署與微調過程 [616, 534],不僅可降低計算開銷,還能提升模型在多種任務中的適應性,確保其在不同場景中持續發揮作用 [582, 709]。縮小這一差距對于實現技術民主化具有重要意義,有助于資源有限的組織也能充分利用如LLama-3 [547, 382] 這類強大模型,并應用于新興領域 [488, 232]。 本研究的核心問題是:LLMs 和 PLMs 的資源需求及微調挑戰有哪些?又該如何應對以優化其部署與適配?這一問題旨在揭示現有方法的關鍵瓶頸,并探索提升效率與可用性的策略。 本研究的目標是系統分析LLMs、VLMs 與 LMMs [435, 538, 575] 所面臨的計算與微調挑戰,并識別優化其部署與微調的可行策略 [6, 99]。通過系統性的分析,本文旨在為研究人員與工程實踐者提供可操作的指導,幫助他們突破現有模型的使用限制。 我們假設:要實現LLMs的最佳性能,需投入大量的計算資源與調優專業知識。然而,參數高效微調(PEFT)[520, 634, 311]等策略——只更新模型中一小部分參數——能夠在大幅減少計算資源需求的同時,維持甚至提升模型性能 [734]。通過探索和驗證這些方法,本研究希望推動對LLMs與PLMs更深入的理解與普及,為其在AI研究與應用中的高效使用奠定基礎 [570, 207]。 PEFT方法 [384] 作為一種替代方案,通過顯著減少可訓練參數 [69, 628, 291],提升了微調過程的可訪問性、可擴展性與可持續性。例如,adapter模塊、prefix-tuning [444, 517, 76, 427]、LoRA(低秩適配)[17, 130, 335]、BitFit 以及 prompt tuning 等方法,在多項基準測試中展現出與完整微調相當甚至更優的性能,而資源消耗僅為其一小部分。PEFT尤其適用于實際應用中需處理多個任務、資源受限或需部署于邊緣設備的場景。 盡管PEFT的應用愈發廣泛,但當前仍缺乏系統性的理解框架,涉及其設計空間、方法權衡及跨模態適用性等方面。為填補這一空白,本綜述系統回顧了語言與視覺模型中的PEFT方法 [735]。我們首先分析標準微調在計算與內存層面上的限制,并討論其固有弊端。接著提出一套統一的分類體系,將PEFT方法劃分為五大類:加性、選擇性、重參數化、混合式與統一式方法,提供一個結構化視角用于理解與比較各類策略。 此外,我們評估了PEFT在NLP [286, 148]、計算機視覺、多模態任務與生成建模等多個領域中的應用,展示其在提升效率、促進泛化與實現更負責任AI方面的潛力。最后,本文還識別了該領域面臨的關鍵挑戰與開放問題,包括可解釋性、理論基礎構建與特定領域的適配 [68, 701],并提出未來可能的研究方向。 通過本綜述,我們希望為研究者與從業者提供一份清晰、全面的PEFT方法指南,幫助他們構建更高效、可適應的AI系統。
本綜述的主要貢獻總結如下: * 全面的資源分析:深入探討對大規模預訓練模型(PLMs與LLMs)進行完整微調時的計算、內存與存儲需求,重點分析研究者在基礎設施受限條件下的實際挑戰。 * 微調局限性的批判性分析:討論傳統微調策略在低資源任務中過擬合、持續學習中的災難性遺忘、參數更新冗余及可擴展性瓶頸等問題。 * 統一的PEFT方法分類體系:提出一套將PEFT方法分為五大類(加性、選擇性、重參數化、混合式、統一式)的結構化分類體系,用以明確比較不同設計策略及發現共性。 * 代表性方法的對比分析:對LoRA、adapter、BitFit、prompt tuning 和 prefix-tuning 等主流方法進行橫向評估,分析其參數效率、性能權衡與實現復雜度。 * 跨領域應用調研:梳理PEFT在NLP、計算機視覺、多模態學習、語音和生成建模等領域的應用,突出其在魯棒性、可遷移性和實際可用性方面的優勢。 * 專用場景下的適配研究:探索PEFT在持續學習、聯邦學習、隱私保護微調、領域適應與低資源語言支持等新興領域的應用前景。 * 實證研究與趨勢總結:總結近期實證研究與性能基準,揭示PEFT研究中的趨勢與各方法適用條件。 * 開放問題與未來方向:指出當前PEFT方法面臨的難點,如可擴展性、可解釋性欠缺、理論支持不足與標準化缺失,并呼吁構建具語義感知與架構敏感性的設計。 * 可操作性總結與實用指南:為實踐者提供實用指南,幫助他們依據資源預算、任務類型與模型結構,選擇合適的PEFT方法。
本文結構安排如下: 第1節闡述研究背景與動機,聚焦大規模基礎模型(如大語言模型LLM、視覺大模型VLM、多模態大模型LMM)的崛起趨勢,以及參數高效微調(PEFT)方法在降低全參數微調高昂計算與資源成本方面的必要性。 第2節概述本綜述的核心貢獻,包括:建立PEFT方法系統分類體系、評估其效能折衷關系、深入探討跨領域應用場景與局限性。 第3節闡釋PEFT理論基礎,涵蓋注意力機制、自注意力、多頭配置、Transformer架構等核心概念,結合復雜度與擴展性分析揭示全參數微調的低效本質。 第4節詳述PEFT策略設計的關鍵架構與實踐考量,包括設計目標、量化決策空間、任務自適應路由機制,以及面向多模態場景的內存-時間-能效優化策略。 第5節闡述核心PEFT方法體系,包含串/并行適配器的增量微調、面向任務特化的混合適配器、軟提示調優,以及LoRA等重參數化方法,并探討擴展規律、選擇性微調和基于MoE的混合框架等前沿方向。 第6節通過GLUE等基準數據集實證評估PEFT方法,在NLP任務和大模型推理場景中揭示參數量與性能的權衡規律。 第7節探索PEFT技術在自然語言處理、計算機視覺、多模態學習及機器人等領域的應用實踐,突出其跨域適應性與領域特異性優勢。 第8節量化分析不同PEFT策略的計算、內存與擴展復雜度,從理論與實踐雙維度對比其效率特征。 第9節系統總結PEFT方法的優勢與局限,重點討論參數效率、適應能力、泛化性能及實際部署中的約束條件。 第10節指出現有PEFT方法的四大核心缺陷:啟發式依賴、理論欠缺、可解釋性不足與標準化缺失,強調發展語義感知與架構敏感的創新型設計之迫切性。 第11節展望六大前沿研究方向:參數影響力理論建模、分層調優策略、持續學習融合、可解釋性框架、基準測試體系及隱私保護型PEFT。 第12節總結PEFT技術在推動大模型高效擴展應用中的關鍵作用,及其對構建資源友好型人工智能生態的戰略意義。
大型語言模型(LLMs)在規劃生成方面展現出巨大潛力,能夠將初始世界狀態轉化為目標狀態。大量研究已探索了 LLM 在各類規劃任務中的應用,如網頁導航、旅行規劃以及數據庫查詢等。然而,這些系統多數為特定任務量身定制,導致難以進行統一比較,也難以評估在新任務中采用何種方法最為合適。此外,目前在評估標準方面尚缺乏明確且一致的規范。
本綜述旨在對現有的 LLM 規劃器進行系統性梳理與分析,以填補上述空白。我們在 Kartam 和 Wilkins(1990)奠定的基礎工作上,圍繞六個關鍵性能指標展開研究:完備性(completeness)、可執行性(executability)、最優性(optimality)、表示能力(representation)、**泛化能力(generalization)**與 效率(efficiency)。針對每一項指標,我們深入分析了具有代表性的研究工作,評估其優劣與適用場景。
此外,本文還明確指出了未來研究的關鍵方向,因此不僅為希望利用 LLM 規劃技術支持**智能體工作流(agentic workflows)**的從業者提供了實用參考,也為領域新入者提供了系統性的入門指南。
大型語言模型(LLMs)已廣泛應用于聊天機器人、代碼生成器和搜索引擎等領域。鏈式思維(chain-of-thought)、復雜推理、智能體服務(agent services)等工作負載往往需要多次調用模型,從而顯著增加了推理成本。為降低成本,業界采用了并行化、模型壓縮和緩存等優化方法,但由于服務需求多樣,難以統一選用最合適的優化策略。近年來,專門面向LLM的推理引擎逐漸成為集成這些優化方法并支撐面向服務架構的關鍵組件。然而,目前仍缺乏對推理引擎的系統性研究。 本文對25個開源及商用推理引擎進行了全面評估。我們從易用性、部署便利性、通用性支持、可擴展性,以及面向吞吐量與延遲感知計算的適用性等多個維度對各推理引擎進行了深入分析。此外,我們通過調查各引擎所采用的優化技術,探討其設計目標。對于開源引擎,我們評估了其生態系統的成熟度;對于商用方案,則分析了其性能表現及成本策略。 本文還指出了未來的研究方向,包括對復雜LLM服務的支持、對多樣化硬件的兼容性,以及增強的安全性等,以期為研究人員和開發者在選擇與設計優化的LLM推理引擎時提供實用指導。我們還提供了一個公共代碼庫,以持續追蹤該快速演進領域的最新進展://github.com/sihyeong/Awesome-LLM-Inference-Engine。
大型語言模型(LLMs)正被廣泛應用于聊天機器人、代碼生成和搜索引擎等多種服務場景中,典型代表包括 OpenAI 的 ChatGPT [5]、GitHub Copilot [84] 和 Google Gemini [86]。隨著這些成功案例的推動,眾多新模型與服務迅速涌現;然而,這種擴張也帶來了在大規模部署與服務 LLM 時的諸多挑戰。 近年來,基于推理的測試時擴展(reasoning-centric test-time scaling)[124, 226] 與基于 LLM 的 AI 智能體 [92, 134] 成為趨勢,顯著提高了 LLM 應用的計算需求與推理調用次數。推理擴展方法通過多步推理或迭代式自我驗證,替代一次性生成答案的方式,以提升輸出質量。這類方法也被稱為鏈式思維(Chain-of-Thought, CoT)[259]、自洽性(self-consistency)[45] 和測試時推理(test-time reasoning)[98],通過對單個查詢多次調用模型以提升準確性,同時也帶來了延遲與計算成本的增加。 與此同時,像 AutoGPT [26] 和 LangChain [126] 這樣的基于 LLM 的 AI 智能體可自主規劃一系列任務以滿足單一用戶請求,在單個會話中頻繁調用模型。這些趨勢使得推理效率成為部署以推理為導向的 LLM 和 AI 智能體服務的關鍵因素。
為控制 LLM 推理成本,研究者提出了諸多優化技術,如量化(quantization)[61]、輕量化模型架構 [268]、知識蒸餾(knowledge distillation, KD)[271] 等。但在大規模服務中,由于提示長度、查詢類型及輸出格式的多樣性,單一優化策略往往難以覆蓋所有場景。因此,LLM 推理引擎作為集成多種優化策略并負責推理流程的基礎設施組件,成為影響服務質量與成本的核心要素。
盡管像 PyTorch [201] 和 TensorFlow [1] 等通用深度學習框架在 LLM 推理中被廣泛使用,這些框架最初是為支持卷積神經網絡(CNN)、循環神經網絡(RNN)等多種模型設計的,強調的是對不同硬件和架構的廣泛兼容性。因此,它們往往缺乏針對 LLM 或序列解碼的專用優化。在這些框架上運行大規模模型可能導致性能下降與資源消耗增加,進一步凸顯了專用推理方案的必要性。
為了應對這一需求,越來越多的專用 LLM 推理引擎應運而生。這些引擎支持批處理(batching)、流式傳輸(streaming)和注意力機制優化(attention optimization)等功能,通常不在通用框架中提供。然而,不同引擎的目標硬件(如 GPU 或 LLM 專用加速器)、優化范圍(從模型壓縮到內存卸載)、目標場景(從實時對話系統到大規模文本生成)各不相同,導致整個生態系統快速演化但高度碎片化。因而難以明確每個引擎所支持的優化技術及其在不同應用條件下的性能表現。這一現狀促使人們迫切需要對現有 LLM 推理引擎及其優化能力進行系統性綜述與對比分析。
目前已有的一些關于 LLM 優化的綜述(見表 1)多聚焦于具體技術,如模型壓縮或硬件加速,因此未能全面探討各個推理引擎所支持的優化方法。此外,這些研究也往往未涵蓋近期發布的商用推理引擎。例如,Chitty-Venkata 等人 [48] 與 Yuan 等人 [281] 主要關注基于 Transformer 的模型壓縮;而 Park 等人 [200] 和 Zhu 等人 [301] 則對壓縮方法進行了深入研究。類似地,Xu 等人 [268, 267] 以及 Wang 等人 [254] 探討了 LLM 推理與服務的優化策略。
現有的一些研究盡管探討了云端或邊緣環境中的推理系統,但普遍缺乏對各類引擎在設計與實現層面的深入分析。因此,當前文獻中仍存在空白,尚無一篇綜述能夠系統性地呈現 LLM 推理引擎的整體發展現狀,并將其特有功能與所實現的優化技術有效對應起來。
為填補這一空白,本文從“以框架為中心”(framework-centric)的視角出發,對多個 LLM 推理引擎進行深入剖析,并對其實現的優化技術進行分類整理。特別地,本文系統梳理了各引擎在處理量化(quantization)、知識蒸餾(KD)、緩存(caching)與并行化(parallelization)等方法方面的實現方式,從而幫助讀者快速識別與其特定需求相匹配的引擎。
此外,本文還納入了許多近期發布的商用推理引擎,這些內容在以往的綜述中尚未被覆蓋。我們比較了這些引擎的架構設計目標、支持的硬件平臺以及關鍵特性,旨在為構建或部署高性能、低成本的 LLM 服務的研究人員與工程師提供切實可行的參考依據。
視覺-語言模型(Vision-Language Models, VLMs)融合了視覺與文本信息,使圖像描述(Image Captioning)和視覺問答(Visual Question Answering)等廣泛應用成為可能,因此在現代人工智能系統中具有重要意義。然而,這類模型對計算資源的高度依賴,為實時應用帶來了巨大挑戰。因此,近年來對于高效視覺-語言模型的研究逐漸成為熱點。 在本綜述中,我們回顧了用于在邊緣設備和資源受限環境中優化VLMs的關鍵技術,并探討了緊湊型VLM架構與相關框架。同時,我們還深入分析了高效VLM在性能與內存之間的權衡問題。 此外,我們在 GitHub 上建立了一個開源倉庫(//github.com/MPSC-UMBC/Efficient-Vision-Lang),收錄所有被調研的論文,并將持續更新。我們的目標是推動該領域的深入研究。 關鍵詞:高效視覺-語言模型,多模態模型,邊緣設備
視覺-語言模型(Vision-Language Models,VLMs)的出現回應了當前對能夠有效處理和整合視覺與文本數據系統的迫切需求。如今,醫療(如醫學圖像與診斷報告)、自動駕駛系統(如傳感器數據與導航指令),以及社交媒體(如配有文字說明的圖片)等領域日益豐富的多模態數據凸顯出單模態模型的局限性——它們難以將視覺內容與語言語境有機關聯。VLMs 通過在統一的表示空間中對齊圖像與文本信息,有效應對了這一挑戰,從而實現了圖像描述、跨模態檢索、視覺問答(VQA)、視覺常識推理(VCR)等高級任務。 深度學習架構的持續進步以及大規模多模態數據集的可獲取性,進一步推動了 VLMs 的發展。為了更高效地對齊并融合多模態數據,VLMs 利用了多種訓練目標,其中對比學習、掩碼建模和生成建模起到了關鍵作用。 在基于對比學習的VLM中,模型目標是對匹配的數據對賦予較低的能量值(energy),而對不匹配的數據對施加較高能量懲罰。所學習的能量函數 E?(x)E_\phi(x)E?(x) 通過玻爾茲曼公式將數據樣本映射為概率分布:
這一公式確保了能量值越低的樣本,其對應的概率越高。優化目標是使模型分布 P?(x)P_\phi(x)P?(x) 盡可能接近目標分布 PT(x)P_T(x)PT(x)。這種優化常使用最大似然估計,通過正負樣本計算梯度,其中負樣本通常通過馬爾可夫鏈蒙特卡洛(MCMC)等方法生成。CLIP(Radford 等, 2021)與 SigLIP(Zhai 等, 2023)等模型展示了對比學習在將視覺與文本嵌入對齊方面的有效性,使模型在多模態任務中表現穩健。 掩碼建模則采用另一種思路:通過對輸入進行部分遮蔽并訓練模型預測被遮蔽的部分。例如,掩碼語言建模(MLM)依托 Transformer 架構,隨機丟棄輸入 token 并進行預測;而掩碼圖像建模(MIM)在視覺數據中應用相同原理。FLAVA(Singh 等, 2022)與 BEiT(Bao 等, 2021)等框架成功利用掩碼建模策略,在大規模多模態數據集上進行預訓練。 相比之下,生成式模型通過同時學習對比損失與生成損失,進一步擴展了 VLMs 的能力。這類模型廣泛用于圖像描述任務。例如,CM3Leon(Yu 等, 2023b)采用獨立的圖像與文本 tokenizer,將不同模態的輸入轉換為 token 序列,隨后由 Transformer 解碼器處理。而 Chameleon(Team, 2024)則進一步統一設計,采用相同的 Transformer 模型處理圖像與文本 token,以提高效率與一致性。除了圖像描述,生成式模型還可應用于多種下游任務,例如利用貝葉斯公式進行圖像分類:
為節省計算資源并降低訓練成本,VLMs 通常集成預訓練的模型骨干(backbone),例如 Frozen(Tsimpoukelli 等, 2021)、MiniGPT(Zhu 等, 2023)或 Qwen 系列(Qwen 等, 2024)。這些預訓練組件可加快收斂速度并具備較好的任務泛化能力。VLM 的預訓練架構也存在差異,從圖像與文本分別編碼的雙塔模型(Two-Tower)到使用統一網絡生成聯合嵌入的一體化模型(One-Tower),都在提升效率的同時增強了對邊緣設備的適配性。 將 VLMs 部署于資源受限設備(如邊緣計算終端)可有效滿足實時處理與隱私保護的需求,使推理過程可在本地完成。同時,邊緣部署也可在網絡連接有限或不穩定的環境中實現穩定性能,使 VLMs 在自動導航與智能物聯網系統中表現出高度適應性(見圖1)。 然而,隨著最先進 VLMs 為追求更高性能而不斷擴展,其模型體積與推理延遲顯著上升。例如,CLIP-B/16(Liu, 2024)模型的圖像編碼器參數量達 8620 萬,文本編碼器達 6340 萬,使其難以部署于 Jetson Nano(4 GB RAM,無獨立 GPU)或 Jetson Xavier(8 GB RAM,1 個 GPU)等邊緣設備。在 Jetson Nano 上,有限的內存會導致頻繁的內存交換,嚴重影響延遲與吞吐量;而即使是 Jetson Xavier,其 GPU 也可能無法實時滿足模型的計算需求。這些限制凸顯了開發內存占用低、延遲低且性能競爭力強的高效 VLMs 的迫切性。 本綜述的主要貢獻如下: 1. 系統總結了在資源受限設備上提升 VLM 效率的多種技術,包括部署前優化、精調策略與運行時優化方法; 1. 匯總了當前最具代表性的輕量化 VLM 模型及其配套框架; 1. 基于上述技術,深入分析了 VLM 性能與內存占用之間的權衡關系。
本綜述按照圖2中的分類體系展開。與現有綜述(如 Ghosh 等, 2024)主要聚焦 VLM 架構,Du 等 (2022) 針對視覺語言預訓練模型(VL-PTMs),以及 Zhang 等 (2024a) 探討知識蒸餾與遷移學習等技術不同,我們則聚焦于面向邊緣與資源受限設備的高效 VLMs 設計,并提供深入分析。表1對比了本綜述與其他綜述的差異。 為了保證綜述的全面性,我們從 Google Scholar、DBLP 與 ResearchGate 等平臺廣泛檢索頂級會議與研討會論文,檢索關鍵詞包括 “VLM quantization”、“VLM pruning”、“VLM finetuning techniques”、“VLM knowledge distillation”、“VLM runtime optimizations”,以確保對該快速發展的研究領域進行有針對性的深入探討。 本文接下來的結構如下:第2節介紹部署前優化技術;第3與第4節分別探討精調策略與運行時優化方法;第5節涉及分布式 VLMs;第6節總結當前高效 VLM 模型及其配套框架與庫;第7節分析準確率與效率的權衡問題;第8節探討典型應用場景;第9節討論當前挑戰與未來研究方向;最后在第10節進行總結。 我們還創建了一個 GitHub 倉庫,收錄本綜述中提及的所有論文,并將持續維護更新以涵蓋新興研究:
大型語言模型(LLMs)在復雜任務中展現了卓越的能力。近年來,大型推理模型(LRMs)的進展,例如OpenAI的o1和DeepSeek的R1,通過利用監督微調(SFT)和強化學習(RL)技術來增強鏈式思維(CoT)推理,進一步提升了在數學和編程等系統-2推理領域的性能。然而,盡管更長的CoT推理序列能夠提高性能,但它們也因冗長和冗余的輸出而引入了顯著的計算開銷,這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度,同時保留推理能力,從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大,高效推理仍處于研究的早期階段。在本文中,我們首次提供了結構化綜述,系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言,基于LLMs的內在機制,我們將現有研究分為幾個關鍵方向:(1)基于模型的高效推理,即考慮將完整推理模型優化為更簡潔的推理模型,或直接訓練高效推理模型;(2)基于推理輸出的高效推理,旨在推理過程中動態減少推理步驟和長度;(3)基于輸入提示的高效推理,通過輸入提示的屬性(如難度或長度控制)來提高推理效率。此外,我們還介紹了使用高效數據訓練推理模型的方法,探索了小型語言模型的推理能力,并討論了評估方法和基準測試。我們維護了一個公共資源庫,以持續跟蹤和更新這一前景廣闊領域的最新研究進展。
1 引言
大型語言模型(LLMs)已成為異常強大的人工智能工具,在自然語言理解和復雜推理任務中展現了卓越的能力。近年來,專注于推理的大型語言模型(也稱為大型推理模型,LRMs)[91]的出現,例如OpenAI的o1 [61]和DeepSeek的R1 [31],顯著提升了其在系統-2推理領域(如數學[16, 35]和編程[7, 17])的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型(如LLaMA [30, 80]、Qwen [95])演化而來,通過鏈式思維(CoT)提示[86]生成顯式的、逐步的推理序列,從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調(SFT)和強化學習(RL)來開發,這些方法促進了迭代和系統化的問題解決能力。具體而言,OpenAI的o1 [61]訓練流程可能結合了SFT和RL,并采用了蒙特卡洛樹搜索(MCTS)[71]和經過處理的獎勵模型(PRM)[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調,這些數據由經過RL訓練的DeepSeek-R1-Zero生成,隨后通過基于規則的獎勵函數進一步優化。然而,盡管長鏈式思維推理顯著增強了推理能力和準確性,但類似CoT機制(如自洽性[84]、思維樹[96]、激勵性RL[31])的引入也導致了冗長的輸出響應,從而帶來了巨大的計算開銷和思考時間。例如,當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少?”[10]時,這些模型的推理序列有時可能長達數千個詞元,其中許多是冗余的,并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲,限制了推理模型在計算敏感的實際應用中的使用,包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理,尤其是減少推理長度,具有顯著的優勢,例如降低成本并增強實際部署中的推理能力。近年來,許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑,使高效推理成為一個備受關注且快速發展的研究領域。在本文中,我們首次提供了結構化綜述,系統性地探索了LLMs高效推理的當前進展。如圖2所示,我們將現有研究分為以下關鍵方向:(1)基于模型的高效推理,即將完整推理模型優化為更簡潔的推理模型,或直接通過微調實現高效推理;(2)基于推理輸出的高效推理,即在推理過程中動態減少推理步驟和輸出長度;(3)基于輸入提示的高效推理,通過利用提示屬性(如提示引導的長度或提示難度)提高推理效率。與LLMs中的模型壓縮技術(如量化[27, 48]或kv緩存壓縮[52,103])不同,這些技術側重于壓縮模型規模并實現輕量級推理,而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言,我們將高效推理方法總結為以下幾類:基于長度獎勵設計的強化學習(第3.1節);基于可變長度CoT數據的監督微調(第3.2節);將推理步驟壓縮為更少的潛在表示(第4.1節);推理過程中的動態推理范式(第4.2節);基于提示引導的高效推理(第5.1節);通過路由提示優化推理效率(第5.2節);此外,本文還探討了其他有趣的主題,包括:使用高效數據訓練推理模型(第6.1節);小型語言模型的推理能力與模型壓縮(第6.2節);高效推理模型的評估與基準測試(第7節);我們將持續更新公共資源庫,以跟蹤高效推理領域的最新研究進展。
基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。
1. 引言
多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:
2. 分類法
在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節
在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。
4 多模態模型的LLM可解釋性方法
我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測
探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens
Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤
與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解
在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。
5. 專門針對多模態模型的可解釋性方法
許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。
6. 基于機制見解的多模態模型應用
在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準
在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。
8. 主要開放挑戰
盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。
9. 結論
我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。
視覺-語言模態的集成一直是多模態學習的一個重要研究方向,傳統上依賴于視覺-語言預訓練模型。然而,隨著大語言模型(LLMs)的出現,越來越多的研究開始關注將LLMs與視覺模態相結合。隨之而來的是將視覺模態融入LLMs的訓練范式的演變。最初,集成模態的方法是通過預訓練模態集成器來實現,稱為單階段微調(Single-stage Tuning)。此后,這一方法逐漸分化為兩種主要的研究方向:一是專注于性能提升的二階段微調(Two-stage Tuning),二是優先考慮參數效率的直接適應(Direct Adaptation)。然而,現有的綜述主要集中在最新的視覺大語言模型(VLLMs)與二階段微調方法上,缺乏對訓練范式演變及其獨特的參數效率考慮的深入理解。 本文對34篇來自頂級會議、期刊和高引用的Arxiv論文中的VLLM進行了分類和綜述,重點從訓練范式角度討論在適應過程中的參數效率。我們首先介紹LLMs的架構和參數效率學習方法,接著討論視覺編碼器和模態集成器的全面分類。然后,我們回顧了三種訓練范式及其效率考量,并總結了VLLM領域的基準測試。為了更深入了解它們在參數效率上的效果,我們比較并討論了具有代表性的模型的實驗結果,其中包括復制直接適應范式的實驗。通過提供對近期發展的見解以及實際應用的參考,本綜述為研究人員和從業人員在高效集成視覺模態到LLMs中的探索提供了重要指導。 關鍵詞: 多模態 · 大語言模型 · 視覺-語言模型 · 參數效率學習 · 指令微調 · 強化學習
大語言模型(LLMs)展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著,但該領域的研究涉及多個領域,所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少,這限制了偏好對齊的進一步發展。有鑒于此,我們將現有的流行對齊策略分解為不同的組成部分,并提供了一個統一的框架來研究當前的對齊策略,從而建立它們之間的聯系。在本綜述中,我們將偏好學習中的所有策略分解為四個組成部分:模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法,還為不同策略的優勢協同提供了可能性。此外,我們還提供了詳細的現有算法工作示例,以幫助讀者全面理解。最后,基于我們的統一視角,我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。
以ChatGPT為代表的大語言模型(LLMs)的崛起展示了令人印象深刻的語言能力和專業素養,能夠提供正確、禮貌且知識淵博的回答,這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程,這是LLM在公開部署前必須經歷的一個必要步驟,旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型(LLMs)在各個領域展現了卓越的能力 [19, 93, 115, 139],但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題,出現了許多與對齊相關的舉措 [28, 88, 94, 98],這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念,但偏好學習的各種算法之間的關系仍然支離破碎,缺乏統一的框架來將它們結合起來。為了彌補這一差距,我們旨在提供一個系統的偏好對齊框架,如圖1所示。通過將相關工作整合到這一框架中,我們希望為研究人員提供全面的理解,并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習(RL)的方法,如RLHF [94],它需要獎勵模型用于在線RL;以及基于監督微調(SFT)的方法,如直接偏好優化(DPO)[98],它在離線環境中直接進行偏好優化。然而,這種分類無意中在兩類工作之間形成了一道障礙,不利于研究人員對偏好對齊核心內容的進一步理解。因此,我們致力于為這兩類方法建立統一的視角,并引入創新的分類框架。
這個新框架基于兩個關鍵見解:首先,在線策略(on-policy)與離線策略(off-policy)設置之間的區別,實質上取決于不同的數據來源,這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據,具體來說,被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源,只要這些數據是提前收集的,而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此,我們不使用在線或離線作為算法分類的標準。其次,受現有工作 [105] 的啟發,強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于,基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵,而監督微調算法可以直接通過各種形式的偏好進行優化,如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角,我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具,例如獎勵模型、人類標注者、更強大的模型(如GPT-4)以及各種規則。基于這些考慮,我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之,我們的論文調查并整理了與LLM偏好學習相關的現有工作,提供了一個統一且新穎的視角。此外,基于這篇綜述的內容,我們總結了該領域的幾個未來研究方向,旨在為進一步的研究提供見解。
在本節中,我們首先為LLM的偏好學習提供定義:給定一般人類偏好分布P(??, ??),其中??是一個提示,??是LLM的相應輸出,LLM的偏好學習????是一種生成新的LLM ????′的范式,使其對齊于P(??, ??),即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好,這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本,以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵,可能表現為正面標簽、在偏好排序中的較高位置,或較高的獎勵分數。在獲得數據后,策略模型????′通過特定算法進行優化。此外,根據這一定義,有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊:根據Kenton等人的研究 [58],對齊是指關注解決所謂的行為對齊問題的研究:我們如何創建一個能夠按照人類意愿行事的代理?基于這一定義,我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊,不涉及其他廣為人知的對齊話題,如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習(RLHF):與RLHF不同,本論文的范圍不僅包括基于強化學習的方法,還涵蓋了傳統的基于監督微調(SFT)的方法。此外,我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。
在本綜述中,我們將偏好學習的策略分解為幾個模塊:模型、數據、反饋和算法。通過根據它們的變體區分不同的策略,我們構建了一個統一的偏好學習策略視角,并在它們之間建立了聯系。我們認為,盡管這些對齊算法的核心目標本質上是相似的,但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后,我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解,并激發該領域的更多研究。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。
大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。
然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。
考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。
在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。
總述
**提示范式 **
提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。
提示類型
本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。
挑戰
鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。
使用高效計算的提示
隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。
使用高效設計的提示
“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。
結論
在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。