亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)已廣泛應用于聊天機器人、代碼生成器和搜索引擎等領域。鏈式思維(chain-of-thought)、復雜推理、智能體服務(agent services)等工作負載往往需要多次調用模型,從而顯著增加了推理成本。為降低成本,業界采用了并行化、模型壓縮和緩存等優化方法,但由于服務需求多樣,難以統一選用最合適的優化策略。近年來,專門面向LLM的推理引擎逐漸成為集成這些優化方法并支撐面向服務架構的關鍵組件。然而,目前仍缺乏對推理引擎的系統性研究。 本文對25個開源及商用推理引擎進行了全面評估。我們從易用性、部署便利性、通用性支持、可擴展性,以及面向吞吐量與延遲感知計算的適用性等多個維度對各推理引擎進行了深入分析。此外,我們通過調查各引擎所采用的優化技術,探討其設計目標。對于開源引擎,我們評估了其生態系統的成熟度;對于商用方案,則分析了其性能表現及成本策略。 本文還指出了未來的研究方向,包括對復雜LLM服務的支持、對多樣化硬件的兼容性,以及增強的安全性等,以期為研究人員和開發者在選擇與設計優化的LLM推理引擎時提供實用指導。我們還提供了一個公共代碼庫,以持續追蹤該快速演進領域的最新進展://github.com/sihyeong/Awesome-LLM-Inference-Engine。

1 引言

大型語言模型(LLMs)正被廣泛應用于聊天機器人、代碼生成和搜索引擎等多種服務場景中,典型代表包括 OpenAI 的 ChatGPT [5]、GitHub Copilot [84] 和 Google Gemini [86]。隨著這些成功案例的推動,眾多新模型與服務迅速涌現;然而,這種擴張也帶來了在大規模部署與服務 LLM 時的諸多挑戰。 近年來,基于推理的測試時擴展(reasoning-centric test-time scaling)[124, 226] 與基于 LLM 的 AI 智能體 [92, 134] 成為趨勢,顯著提高了 LLM 應用的計算需求與推理調用次數。推理擴展方法通過多步推理或迭代式自我驗證,替代一次性生成答案的方式,以提升輸出質量。這類方法也被稱為鏈式思維(Chain-of-Thought, CoT)[259]、自洽性(self-consistency)[45] 和測試時推理(test-time reasoning)[98],通過對單個查詢多次調用模型以提升準確性,同時也帶來了延遲與計算成本的增加。 與此同時,像 AutoGPT [26] 和 LangChain [126] 這樣的基于 LLM 的 AI 智能體可自主規劃一系列任務以滿足單一用戶請求,在單個會話中頻繁調用模型。這些趨勢使得推理效率成為部署以推理為導向的 LLM 和 AI 智能體服務的關鍵因素。

為控制 LLM 推理成本,研究者提出了諸多優化技術,如量化(quantization)[61]、輕量化模型架構 [268]、知識蒸餾(knowledge distillation, KD)[271] 等。但在大規模服務中,由于提示長度、查詢類型及輸出格式的多樣性,單一優化策略往往難以覆蓋所有場景。因此,LLM 推理引擎作為集成多種優化策略并負責推理流程的基礎設施組件,成為影響服務質量與成本的核心要素。

盡管像 PyTorch [201] 和 TensorFlow [1] 等通用深度學習框架在 LLM 推理中被廣泛使用,這些框架最初是為支持卷積神經網絡(CNN)、循環神經網絡(RNN)等多種模型設計的,強調的是對不同硬件和架構的廣泛兼容性。因此,它們往往缺乏針對 LLM 或序列解碼的專用優化。在這些框架上運行大規模模型可能導致性能下降與資源消耗增加,進一步凸顯了專用推理方案的必要性。

為了應對這一需求,越來越多的專用 LLM 推理引擎應運而生。這些引擎支持批處理(batching)、流式傳輸(streaming)和注意力機制優化(attention optimization)等功能,通常不在通用框架中提供。然而,不同引擎的目標硬件(如 GPU 或 LLM 專用加速器)、優化范圍(從模型壓縮到內存卸載)、目標場景(從實時對話系統到大規模文本生成)各不相同,導致整個生態系統快速演化但高度碎片化。因而難以明確每個引擎所支持的優化技術及其在不同應用條件下的性能表現。這一現狀促使人們迫切需要對現有 LLM 推理引擎及其優化能力進行系統性綜述與對比分析。

目前已有的一些關于 LLM 優化的綜述(見表 1)多聚焦于具體技術,如模型壓縮或硬件加速,因此未能全面探討各個推理引擎所支持的優化方法。此外,這些研究也往往未涵蓋近期發布的商用推理引擎。例如,Chitty-Venkata 等人 [48] 與 Yuan 等人 [281] 主要關注基于 Transformer 的模型壓縮;而 Park 等人 [200] 和 Zhu 等人 [301] 則對壓縮方法進行了深入研究。類似地,Xu 等人 [268, 267] 以及 Wang 等人 [254] 探討了 LLM 推理與服務的優化策略。

現有的一些研究盡管探討了云端或邊緣環境中的推理系統,但普遍缺乏對各類引擎在設計與實現層面的深入分析。因此,當前文獻中仍存在空白,尚無一篇綜述能夠系統性地呈現 LLM 推理引擎的整體發展現狀,并將其特有功能與所實現的優化技術有效對應起來。

為填補這一空白,本文從“以框架為中心”(framework-centric)的視角出發,對多個 LLM 推理引擎進行深入剖析,并對其實現的優化技術進行分類整理。特別地,本文系統梳理了各引擎在處理量化(quantization)、知識蒸餾(KD)、緩存(caching)與并行化(parallelization)等方法方面的實現方式,從而幫助讀者快速識別與其特定需求相匹配的引擎。

此外,本文還納入了許多近期發布的商用推理引擎,這些內容在以往的綜述中尚未被覆蓋。我們比較了這些引擎的架構設計目標、支持的硬件平臺以及關鍵特性,旨在為構建或部署高性能、低成本的 LLM 服務的研究人員與工程師提供切實可行的參考依據。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

圖片

大型語言模型(LLMs)在語言理解、生成、推理等方面展現了令人矚目的成果,并不斷推動多模態模型的能力邊界。作為現代 LLM 的基礎,Transformer 模型提供了具有優良擴展性的強大基線。然而,傳統 Transformer 架構需要大量計算,這對大規模訓練和實際部署構成了顯著障礙。在本綜述中,我們系統性地考察了旨在突破 Transformer 內在局限、提升效率的創新 LLM 架構。從語言建模出發,本綜述涵蓋了線性與稀疏序列建模方法、高效的全注意力變體、稀疏專家混合(MoE)、結合上述技術的混合模型架構,以及新興的擴散式 LLM。此外,我們還討論了這些技術在其他模態中的應用,并探討了它們在開發可擴展、資源感知的基礎模型中的廣泛影響。通過將近期研究歸納到上述類別,本綜述勾勒出現代高效 LLM 架構的藍圖,并期望能為未來邁向更高效、更通用的 AI 系統研究提供啟發。 GitHub: //github.com/weigao266/Awesome-Efficient-Arch

圖片

1 引言

1.1 背景

近年來,大型語言模型(Large Language Models, LLMs)在自然語言理解與生成方面展現出非凡的能力,推動了文本生成 [1, 2, 3]、代碼生成 [4, 5, 6]、問答 [7, 8]、機器翻譯 [3, 9] 等廣泛任務的顯著進展。諸如 ChatGPT [2, 10, 11, 12, 13, 14, 15, 16, 17]、Claude [18, 19, 20, 21, 22]、Gemini [23, 24, 25]、DeepSeek [26, 27, 28, 29]、Qwen [30, 31, 32, 33]、LLaMA [34, 35, 36, 37]、GLM [38]、Minimax-Text [39]、InternLM [40, 41]、混元(Hunyuan) [42, 43] 等一系列代表性 LLM 家族,不斷突破性能邊界,同時也重塑了人機交互的方式。 超越其在語言任務中的初始角色,LLMs 正越來越多地應用于兩個高要求領域:多模態復雜推理。在多模態應用中,LLMs 已成為整合并生成跨模態信息的核心。近期的視覺-語言模型(Vision-Language Models, VLMs)進展,如 Qwen-VL [44, 45, 46]、InternVL [47, 48, 49, 50]、Seed-VL [51]、Kimi-VL [52]、Minimax-VL [39],充分體現了這一轉變,展示了通過將語言能力與視覺處理結合,顯著提升跨模態理解與生成的能力。與此同時,一條快速發展的研究路徑聚焦于增強 LLMs 的推理能力,通常稱為大型推理模型(Large Reasoning Models, LRMs)。典型系統包括 OpenAI o1/o3 [14, 15]、DeepSeek-R1 [29]、Seed1.5-Thinking [53]、Minimax-M1 [54]、Kimi k1.5/K2 [55, 56] 等,它們引入了長鏈式思維鏈(Chain-of-Thought, CoT)提示 [57] 和強化學習(Reinforcement Learning, RL)[58] 等策略,以支持多步推理和更具深思熟慮的認知行為。 盡管 LLMs、VLMs 和 LRMs 在語言理解、多模態處理和復雜推理方面取得了重大突破,但它們也帶來了巨大的計算需求 [59, 60, 61]。這種需求顯著提高了開發和部署成本,從而對廣泛應用構成了實際障礙。該問題在 LLMs、VLMs 和 LRMs 中普遍存在,凸顯了模型能力與效率之間的權衡。雖然這些模型為通用智能的發展提供了有前景的路徑,但其高昂的資源消耗也引發了一個重要問題:在追求更強大的系統時,我們是否真正考慮過這種“智能”背后的巨大隱性成本?這種“智能”的真實代價又是什么? 許多最新突破背后的核心架構是 Transformer [62],其于 2017 年提出。Transformer 的自注意力機制比傳統的循環神經網絡(RNNs)[63] 更有效地捕捉長程依賴,從而支持 LLMs 擴展至千億甚至萬億級參數 [2]。然而,Transformer 的一個主要局限在于其自注意力機制的二次復雜度:計算開銷隨輸入序列長度 N 呈 O(N2) 增長 [64]。這種低效導致訓練與推理成本極其高昂,尤其在涉及長上下文輸入的任務中 [65]。隨著人工智能(AI)的持續發展,長序列場景正變得日益普遍。 如圖 2 所示,任務如檢索增強生成(Retrieval-Augmented Generation, RAG) [7] 通常要求 LLMs 處理整篇文檔。在新興的 AI 智能體(AI agents) 時代 [66],長序列經常由反復生成與多次工具調用產生。當模型具備更強推理能力(形成 LRMs)時,它們必須處理長鏈思維鏈,這同樣導致長序列問題。類似地,在多模態應用中 [67],高分辨率圖像、視頻和音頻也引入了額外的長序列挑戰。Transformer 架構的另一個關鍵組件——前饋網絡(Feed-Forward Network, FFN)[68],在模型規模擴展時同樣面臨挑戰。當參數數量超過某個規模時,FFN 層的訓練成本和推理效率將愈發難以控制。在這種情況下,新的問題出現了:我們如何突破 Transformer 的效率天花板?高昂的“智能”是否是唯一的前進道路?

為應對這些迫切挑戰并釋放 LLMs 的全部潛力,研究界正在積極探索一系列創新的架構設計與優化策略。本綜述深入探討了這些創新方法,并將其系統歸類,以提供全面的概覽。各類別下的具體方法如圖 3 所示,概括如下:

線性序列建模:通過重構注意力機制,將自注意力的二次復雜度降至線性復雜度 O(N),常借鑒傳統注意力、RNN 或狀態空間模型(State-Space Models, SSMs)的思想。這類方法還能消除推理階段存儲鍵-值(KV)緩存的需求,從而降低部署成本。

稀疏序列建模:不再計算所有 token 對之間的注意力,而是僅選擇性地關注一部分交互(即注意力圖),以降低計算和內存需求,同時盡力保持性能。

高效全注意力:在保持二次復雜度不變的前提下,提高標準 softmax 注意力的效率。例如,通過 IO 感知的注意力機制提升內存訪問效率,或通過分組查詢機制減小 KV 緩存大小。

稀疏專家混合(Sparse MoE):引入條件計算方法,每個輸入 token 僅激活部分參數(稱為專家),從而在不成比例增加計算開銷的情況下大幅提升模型容量。

混合架構:將線性序列建模與傳統全注意力層有機結合,可在同一層內實現內層混合,或在不同層之間采用跨層混合,從而平衡效率與模型容量。

擴散式 LLMs:一種新興方向,探索基于非自回歸擴散模型的語言生成,潛在地為高效且高質量的文本生成提供新途徑。

跨模態應用:重要的是,這些驅動效率的架構原則并不限于語言領域;它們在視覺、音頻與多模態等其他領域也展現出適應性,本綜述也將對此加以探討。

圖片

圖片

圖片

付費5元查看完整內容

大型語言模型(LLMs)與視覺語言模型(VLMs)等大模型正在重塑人工智能的發展格局,推動了自然語言處理、計算機視覺以及多模態學習等領域的應用。然而,全面微調這類模型的成本仍然高昂,通常需要大量的計算資源、內存以及任務特定的數據。參數高效微調(PEFT)作為一種新興的解決方案,通過僅更新模型的一小部分參數,使得大模型能夠高效地適應下游任務。 本綜述全面梳理了PEFT技術的發展脈絡,重點探討其動機、設計原則與實際效果。我們首先分析了傳統微調所面臨的資源與可及性挑戰,指出過擬合、災難性遺忘和參數低效等關鍵問題。接著,我們引入了一套結構化的PEFT方法分類體系,將現有技術劃分為加性(additive)、選擇性(selective)、重參數化(reparameterized)、混合式(hybrid)與統一式(unified)等五大框架,并系統性地比較了它們的機制與權衡。 除了分類,我們還深入探討了PEFT技術在語言、視覺以及生成建模等不同領域中的應用表現,展示了其在降低資源消耗的同時依然保持優異性能的潛力。我們進一步討論了PEFT在可擴展性、可解釋性與魯棒性方面仍面臨的重要挑戰,并提出未來的研究方向,包括聯邦學習、領域自適應以及理論基礎構建。 我們的目標是為讀者提供對PEFT技術的統一理解,揭示其在推動大模型高效、實用與可持續發展中的關鍵作用。

1 引言

大型語言模型(LLMs)[601, 280] 與預訓練語言模型(PLMs)[432, 436, 577, 719] 正在徹底改變人工智能的發展方向 [648, 122],推動自然語言處理(NLP)[96, 478]、計算機視覺(CV)[30, 707] 和多模態學習 [56, 187, 508] 等領域實現突破性進展。這些模型通常擁有數十億參數,訓練數據規模龐大,在文本生成 [455, 129]、語言翻譯 [267, 10]、對話系統 [355, 555]、聊天機器人 [326, 571] 和內容摘要 [3, 55] 等應用中展現出前所未有的能力。它們重新定義了人工智能的邊界 [497],并在學術界、工業界及實際應用中產生了深遠影響 [205, 569]。 盡管具備巨大潛力,現代LLMs和PLMs的體量與復雜性仍對研究和產業界構成嚴峻挑戰 [539, 802]。以LLama-3為例 [424, 333],這是當前最先進、計算要求最高的LLM之一 [152, 766]。其架構包含約3000億個參數,采用復雜的多頭注意力機制 [256, 170, 27, 514, 810],在多項任務上達到了SOTA水平 [507, 486]。然而,如此強大的模型,其微調過程極其復雜 [12, 127],需要動用龐大的計算基礎設施,例如PB級存儲系統、超高帶寬內存接口,以及大量高性能GPU陣列 [380, 655]。有效地微調LLama-3 [152, 445],往往需配置數百乃至數千顆數據中心級GPU,常見如NVIDIA A100或H100 [242, 806]。盡管這些GPU配備數十GB的高帶寬內存(HBM),仍不足以單獨容納LLama-3的全部參數、中間激活值和優化器狀態。因此,必須通過多個GPU協同部署模型及其訓練流程。為了確保訓練效率,必須精心編排分布式訓練范式 [454],包括張量并行 [665, 336, 656]、流水線并行 [260, 629, 481, 760] 和模型分片 [353, 374] 等策略,以保持吞吐率并實現負載均衡。這種基礎設施的復雜性及其運維成本,極大限制了此類模型的微調可及性和可部署性 [151]。 傳統微調方式 [368, 614] 需針對每個新任務更新模型的所有參數,在模型規模不斷擴大的背景下,這種做法日益難以為繼。解決這一問題對于發揮LLMs和PLMs的最大潛能至關重要 [613]。若能優化其部署與微調過程 [616, 534],不僅可降低計算開銷,還能提升模型在多種任務中的適應性,確保其在不同場景中持續發揮作用 [582, 709]。縮小這一差距對于實現技術民主化具有重要意義,有助于資源有限的組織也能充分利用如LLama-3 [547, 382] 這類強大模型,并應用于新興領域 [488, 232]。 本研究的核心問題是:LLMs 和 PLMs 的資源需求及微調挑戰有哪些?又該如何應對以優化其部署與適配?這一問題旨在揭示現有方法的關鍵瓶頸,并探索提升效率與可用性的策略。 本研究的目標是系統分析LLMs、VLMs 與 LMMs [435, 538, 575] 所面臨的計算與微調挑戰,并識別優化其部署與微調的可行策略 [6, 99]。通過系統性的分析,本文旨在為研究人員與工程實踐者提供可操作的指導,幫助他們突破現有模型的使用限制。 我們假設:要實現LLMs的最佳性能,需投入大量的計算資源與調優專業知識。然而,參數高效微調(PEFT)[520, 634, 311]等策略——只更新模型中一小部分參數——能夠在大幅減少計算資源需求的同時,維持甚至提升模型性能 [734]。通過探索和驗證這些方法,本研究希望推動對LLMs與PLMs更深入的理解與普及,為其在AI研究與應用中的高效使用奠定基礎 [570, 207]。 PEFT方法 [384] 作為一種替代方案,通過顯著減少可訓練參數 [69, 628, 291],提升了微調過程的可訪問性、可擴展性與可持續性。例如,adapter模塊、prefix-tuning [444, 517, 76, 427]、LoRA(低秩適配)[17, 130, 335]、BitFit 以及 prompt tuning 等方法,在多項基準測試中展現出與完整微調相當甚至更優的性能,而資源消耗僅為其一小部分。PEFT尤其適用于實際應用中需處理多個任務、資源受限或需部署于邊緣設備的場景。 盡管PEFT的應用愈發廣泛,但當前仍缺乏系統性的理解框架,涉及其設計空間、方法權衡及跨模態適用性等方面。為填補這一空白,本綜述系統回顧了語言與視覺模型中的PEFT方法 [735]。我們首先分析標準微調在計算與內存層面上的限制,并討論其固有弊端。接著提出一套統一的分類體系,將PEFT方法劃分為五大類:加性、選擇性、重參數化、混合式與統一式方法,提供一個結構化視角用于理解與比較各類策略。 此外,我們評估了PEFT在NLP [286, 148]、計算機視覺、多模態任務與生成建模等多個領域中的應用,展示其在提升效率、促進泛化與實現更負責任AI方面的潛力。最后,本文還識別了該領域面臨的關鍵挑戰與開放問題,包括可解釋性、理論基礎構建與特定領域的適配 [68, 701],并提出未來可能的研究方向。 通過本綜述,我們希望為研究者與從業者提供一份清晰、全面的PEFT方法指南,幫助他們構建更高效、可適應的AI系統。


2 主要貢獻

本綜述的主要貢獻總結如下: * 全面的資源分析:深入探討對大規模預訓練模型(PLMs與LLMs)進行完整微調時的計算、內存與存儲需求,重點分析研究者在基礎設施受限條件下的實際挑戰。 * 微調局限性的批判性分析:討論傳統微調策略在低資源任務中過擬合、持續學習中的災難性遺忘、參數更新冗余及可擴展性瓶頸等問題。 * 統一的PEFT方法分類體系:提出一套將PEFT方法分為五大類(加性、選擇性、重參數化、混合式、統一式)的結構化分類體系,用以明確比較不同設計策略及發現共性。 * 代表性方法的對比分析:對LoRA、adapter、BitFit、prompt tuning 和 prefix-tuning 等主流方法進行橫向評估,分析其參數效率、性能權衡與實現復雜度。 * 跨領域應用調研:梳理PEFT在NLP、計算機視覺、多模態學習、語音和生成建模等領域的應用,突出其在魯棒性、可遷移性和實際可用性方面的優勢。 * 專用場景下的適配研究:探索PEFT在持續學習、聯邦學習、隱私保護微調、領域適應與低資源語言支持等新興領域的應用前景。 * 實證研究與趨勢總結:總結近期實證研究與性能基準,揭示PEFT研究中的趨勢與各方法適用條件。 * 開放問題與未來方向:指出當前PEFT方法面臨的難點,如可擴展性、可解釋性欠缺、理論支持不足與標準化缺失,并呼吁構建具語義感知與架構敏感性的設計。 * 可操作性總結與實用指南:為實踐者提供實用指南,幫助他們依據資源預算、任務類型與模型結構,選擇合適的PEFT方法。

本文結構安排如下: 第1節闡述研究背景與動機,聚焦大規模基礎模型(如大語言模型LLM、視覺大模型VLM、多模態大模型LMM)的崛起趨勢,以及參數高效微調(PEFT)方法在降低全參數微調高昂計算與資源成本方面的必要性。 第2節概述本綜述的核心貢獻,包括:建立PEFT方法系統分類體系、評估其效能折衷關系、深入探討跨領域應用場景與局限性。 第3節闡釋PEFT理論基礎,涵蓋注意力機制、自注意力、多頭配置、Transformer架構等核心概念,結合復雜度與擴展性分析揭示全參數微調的低效本質。 第4節詳述PEFT策略設計的關鍵架構與實踐考量,包括設計目標、量化決策空間、任務自適應路由機制,以及面向多模態場景的內存-時間-能效優化策略。 第5節闡述核心PEFT方法體系,包含串/并行適配器的增量微調、面向任務特化的混合適配器、軟提示調優,以及LoRA等重參數化方法,并探討擴展規律、選擇性微調和基于MoE的混合框架等前沿方向。 第6節通過GLUE等基準數據集實證評估PEFT方法,在NLP任務和大模型推理場景中揭示參數量與性能的權衡規律。 第7節探索PEFT技術在自然語言處理、計算機視覺、多模態學習及機器人等領域的應用實踐,突出其跨域適應性與領域特異性優勢。 第8節量化分析不同PEFT策略的計算、內存與擴展復雜度,從理論與實踐雙維度對比其效率特征。 第9節系統總結PEFT方法的優勢與局限,重點討論參數效率、適應能力、泛化性能及實際部署中的約束條件。 第10節指出現有PEFT方法的四大核心缺陷:啟發式依賴、理論欠缺、可解釋性不足與標準化缺失,強調發展語義感知與架構敏感的創新型設計之迫切性。 第11節展望六大前沿研究方向:參數影響力理論建模、分層調優策略、持續學習融合、可解釋性框架、基準測試體系及隱私保護型PEFT。 第12節總結PEFT技術在推動大模型高效擴展應用中的關鍵作用,及其對構建資源友好型人工智能生態的戰略意義。

付費5元查看完整內容

大語言模型(LLMs)的最新進展顯著提升了其執行復雜推理任務的能力,實現了從快速直覺思維(系統1)到緩慢深度推理(系統2)的跨越。 盡管系統2推理能提高任務準確性,但其“慢思考”特性以及低效或不必要的推理行為往往導致巨大的計算成本。相比之下,系統1推理計算效率更高,但性能表現欠佳。因此,如何在性能(收益)與計算成本(預算)之間取得平衡至關重要,這也催生了“推理經濟性”的概念。 本綜述對LLMs訓練后階段和測試時推理階段的推理經濟性進行了全面分析,涵蓋: 1. 推理低效的成因; 1. 不同推理模式的行為分析; 1. 實現推理經濟性的潛在解決方案

通過提供可落地的見解并指出開放挑戰,我們旨在為優化LLMs推理經濟性的策略提供啟示,從而推動這一新興領域的深入研究。此外,我們開放了一個公共資源庫,持續追蹤這一快速發展領域的最新進展。

**1 引言

大語言模型(LLMs)在各類語言理解與生成任務中展現出卓越性能,尤其是伴隨思維鏈(Chain-of-Thought, CoT)提示(Wei et al., 2022)技術的出現,該技術要求模型通過顯式的分步推理生成最終答案。盡管LLMs在多數場景中表現優異,但其依賴快速直覺思維的機制在面對復雜推理挑戰(如高階數學(AIME, 2025; Zhong et al., 2023)與編程任務)時往往力有不逮。為此,近期研究試圖通過慢速深度思考(Wang et al., 2025a)進一步提升LLMs的推理能力,例如OpenAI的o1(OpenAI, 2024)、DeepSeek的R1(DeepSeek-AI et al., 2025)與QwQ(QwQ, 2025)等模型,從而催生了大推理模型(Large Reasoning Models, LRMs)的興起與推理階段的新擴展定律(Snell et al., 2024)。 然而,這一進步代價高昂。此類LRMs需耗費顯著更長的思考時間以生成冗長的CoT推理鏈,導致巨大的推理開銷。但并非所有任務均需如此深度的思考——任務復雜度各異,若對所有問題采用“一刀切”策略,將造成計算與時間資源的浪費。更甚者,長推理鏈中的大量標記(tokens)往往對最終答案無實質貢獻。研究發現,LRMs常將過量資源(Wu et al., 2025; Cuadron et al., 2025)浪費于無效思考(如“過度思考”),卻未為真正困難的問題分配足夠算力(如“思考不足”)(Snell et al., 2024; Wang et al., 2025e)。 能力與效率的失衡引出了一個核心挑戰——實現推理經濟性(Reasoning Economy),即通過優化標記使用(預算)、減少冗余步驟、動態調整算力分配,達成全局最優解。這不僅可提升LRMs的效率,還能像人類一樣“智能”地停止或深入思考(Aggarwal et al., 2023; Kimi Team et al., 2025),充分釋放模型潛力。隨著推理經濟性日益重要,亟需系統性地理解LRMs的推理行為、揭示高效化面臨的挑戰,并明確解決方案。 本綜述首次對LRMs的推理經濟性進行全面系統的梳理。具體而言,我們首先建立LRMs的理論基礎(§2),解析訓練后方法(§2.1)(如監督微調與強化學習)如何塑造推理行為,以及測試時策略(§2.2)(如并行與序列化推理)如何影響模型表現。基于此,我們深入分析推理經濟性的挑戰(§3),將其歸類為模型自身的低效行為(§3.1)或測試時的低效使用(§3.2)。最后,我們從兩方面探討優化推理經濟性的解決方案: 1. 訓練后行為調控(§4):從數據、算法乃至模型架構源頭修正不良推理模式; 1. 測試時動態計算適配(§5)。 此外,我們討論了開放挑戰并展望未來研究方向(§6)。通過提供清晰的結構化路線圖,本研究旨在為推動更可持續的LRMs發展提供可落地的指導。

付費5元查看完整內容

近年來,大型語言模型(RLLMs)在推理領域取得了顯著進展,例如OpenAI-O1和DeepSeek-R1,它們在數學和編程等復雜領域中展現了令人印象深刻的能力。其成功的一個核心因素在于長鏈推理(Long CoT)特性的應用,這種特性增強了模型的推理能力,使其能夠解決復雜問題。然而,盡管取得了這些進展,目前仍缺乏對長鏈推理的全面綜述,這限制了我們對其與傳統短鏈推理(Short CoT)區別的理解,也使關于“過度思考”和“測試時間擴展”等問題的討論更加復雜。本綜述旨在填補這一空白,為長鏈推理提供一個統一的視角。 1. 區分長鏈推理與短鏈推理:我們首先明確長鏈推理與短鏈推理的區別,并引入一種新的分類法來對當前的推理范式進行分類。 1. 長鏈推理的核心特性:我們探討長鏈推理的三大關鍵特性——深度推理、廣泛探索和可行反思。這些特性使模型能夠處理更復雜的任務,并生成比淺層短鏈推理更高效、更連貫的結果。 1. 關鍵現象研究:我們研究了長鏈推理中的關鍵現象,例如伴隨這些特性出現的“過度思考”和“測試時間擴展”,并深入分析這些現象在實際中的表現。 1. 未來研究方向:最后,我們指出了當前研究中的重要空白,并強調了未來的潛在方向,包括多模態推理的整合、效率提升以及知識框架的優化。通過提供結構化的綜述,本文旨在啟發未來的研究,并推動人工智能邏輯推理的進一步發展。

1 引言近年來,隨著推理型大型語言模型(RLLMs)的出現,例如OpenAI O1 [208] 和DeepSeek R1 [155],針對長鏈推理(Long Chain-of-Thought, Long CoT)的研究逐漸增多,這些研究極大地提升了模型在數學推理、編程任務以及多學科知識推理方面的能力 [488, 686, 508, 50, 58, 673, 133, 776],如圖1所示。這一轉變標志著與傳統大型語言模型(LLMs)任務處理方式的顯著不同 [798, 437, 439, 421]。與傳統LLMs中使用的短鏈推理(Short CoT)不同,長鏈推理通過在測試時間擴展(test-time scaling)[299, 520, 364] 的支持下,在問題空間內進行更詳細、迭代的探索和反思。這一過程在數學和邏輯推理方面取得了顯著進展,同時也探索了監督微調(SFT)和強化學習(RL)技術如何增強對擴展推理鏈的學習和探索 [440, 385]。然而,目前尚無系統的綜述來全面理解長鏈推理的主要因素及其在RLLMs中的最新進展,這阻礙了RLLMs的進一步發展。因此,關于“測試時間擴展”對長鏈推理的有效性 [610, 343] 與“過度思考”可能對LLMs造成損害并引入不必要復雜性 [73, 96, 251] 的爭論仍在持續。此外,一些研究者認為,在解決特定問題時,推理鏈的長度與準確性之間并無明確關聯 [622]。為了填補這一空白,本文對長鏈推理進行了廣泛而全面的綜述。具體而言,如圖2所示,我們首先定義并分析了長鏈推理與傳統短鏈推理的區別,重點關注以下關鍵方面:(1)深度推理,即需要足夠的邏輯處理深度來管理大量的推理節點;(2)廣泛探索,即生成并行的不確定節點,并從已知邏輯過渡到未知邏輯;(3)可行反思,即對邏輯連接進行反饋和優化。這些特性使長鏈推理范式能夠整合更復雜的推理過程,并適應更廣泛的邏輯結構,最終生成更高效、更連貫的結果。隨后,我們系統地探討了與長鏈推理相關的關鍵現象,例如其涌現性、過度思考現象、測試時的推理時間擴展以及“頓悟時刻”(Aha Moment)等。據我們所知,這是首次針對這些具體主題進行的全面綜述。最后,基于大量文獻,我們指出了未來研究的前沿方向,并建議了一些有價值的開源框架和數據集,為未來的研究提供基礎。本文的主要貢獻如下:系統性區分:本文首次提出了長鏈推理的概念,并將其與傳統短鏈推理區分開來,從而為理解這兩種范式及其特性提供了清晰的框架。熱點現象解釋:我們系統地研究了與長鏈推理相關的顯著現象,例如過度思考、測試時推理時間擴展以及“頓悟時刻”,為復雜推理中的認知過程提供了有價值的見解。新興挑戰與前沿:我們探討了長鏈推理領域的新興挑戰,并指出了關鍵的研究前沿。基于大量文獻,我們強調了進一步研究可能顯著推動長鏈推理方法發展的領域。 長鏈推理與短鏈推理的討論本節形式化地闡述了長鏈推理(Long CoT)與短鏈推理(Short CoT)之間的關鍵區別,重點在于推理深度、連接的重訪以及邏輯節點的探索 [607]。這些區別與系統1(System 1)和系統2(System 2)思維模式明顯不同。長鏈推理與短鏈推理的比較是在系統2的框架內進行的,其中長鏈推理涉及更徹底的推理、反思和探索,而短鏈推理通常優先考慮淺層且高效的邏輯,而非窮盡式的推理。

付費5元查看完整內容

大型語言模型(LLMs)在處理通用知識任務方面表現出色,但在用戶個性化需求方面存在挑戰,如理解個人情感、寫作風格和偏好。個性化大型語言模型(PLLMs)通過利用個體用戶數據,例如用戶資料、歷史對話、內容和互動,解決了這些問題,以提供在上下文上相關且量身定制的回答,滿足每個用戶的特定需求。這是一個極具價值的研究課題,因為PLLMs可以顯著提升用戶滿意度,并在對話代理、推薦系統、情感識別、醫療助手等領域具有廣泛的應用。 本綜述從三個技術角度回顧了個性化大型語言模型(PLLMs)的最新進展:針對個性化上下文的提示設計(輸入層)、個性化適配器的微調(模型層)以及個性化偏好的對齊(目標層)。為了提供更深入的洞察,我們還討論了當前的局限性,并概述了未來研究的幾個有前景的方向。有關本綜述的最新信息,請訪問Github倉庫。

1 引言

近年來,像GPT、PaLM、LLaMA、DeepSeek及其變種等大型語言模型(LLMs)取得了顯著進展。這些模型展現了卓越的多功能性,在各種自然語言處理任務中取得了最先進的表現,包括問答、推理和機器翻譯 [Zhao et al., 2023],且幾乎不需要針對特定任務的適應。

個性化LLMs(PLLMs)的必要性

雖然LLMs在通用知識和多領域推理方面表現出色,但它們缺乏個性化,導致在用戶特定理解至關重要的場景中遇到挑戰。例如,對話代理需要適應用戶的偏好語氣,并結合過去的互動,提供相關的個性化回應。隨著LLMs的發展,集成個性化能力已成為推動人機交互在多個領域發展的一個有前景的方向。 技術挑戰

盡管個性化LLMs具有巨大潛力,但個性化過程中仍面臨若干挑戰。這些挑戰包括如何高效地表示和整合多樣化的用戶數據、解決隱私問題、管理長期用戶記憶、適應用戶的多樣化需求以及應對用戶行為的變化 [Salemi et al., 2023]。此外,實現個性化通常需要在準確性和效率之間找到平衡,同時解決偏見問題并保持生成結果的公平性。 貢獻

盡管個性化LLMs日益受到關注,但該領域缺乏一篇系統性的綜述文章來整合最新的研究進展。本文旨在填補這一空白,通過系統地組織現有的PLLMs研究,并提供對其方法論和未來方向的深入見解。本文的貢獻可以總結如下:(1)結構化分類法:我們提出了一種全面的分類法,從技術角度對現有的PLLMs構建方法進行分析。(2)全面綜述:我們系統地回顧了PLLMs的最先進方法,分析了各個方法的特點和優缺點。

2 預備知識

大語言模型 大語言模型(LLMs)通常指利用Transformer架構并配備數十億參數的模型,這些模型在數萬億文本標記上進行訓練。這些模型在自然語言理解和生成任務中表現出顯著改進,越來越多地證明其在輔助人類活動中的益處。在本報告中,我們主要關注自回歸LLMs,它們基于兩種主要架構:僅解碼器模型和編碼器-解碼器模型。編碼器-解碼器模型如Flan-T5和ChatGLM通過編碼器分析輸入以獲取語義表示,使其在語言理解和生成方面表現出色。僅解碼器LLMs專注于從左到右的生成,通過預測序列中的下一個標記,許多實例在此范式下實現了指令跟隨和推理等高級能力的突破。 然而,這些模型通常在通用數據上進行預訓練,缺乏對特定用戶信息的理解。因此,它們無法生成適應用戶獨特品味、偏好和期望的響應,限制了其在需要用戶特定適配的個性化應用中的有效性。 問題陳述 個性化大語言模型(PLLMs)生成與用戶風格和期望一致的響應,為不同用戶提供多樣化的答案。PLLMs定義為不僅基于輸入查詢qq,還基于用戶uu的個性化數據CuCu生成響應的LLMs。其目標是預測給定查詢qq和個性化上下文CuCu的最可能響應序列yy,即:y=argmaxyP(y∣q,Cu)y=argmaxyP(y∣q,Cu)。個性化數據CuCu可能包含用戶偏好、歷史、上下文和其他用戶特定屬性的信息。這些信息可以包括(圖1): 檔案/關系:用戶檔案,包括屬性(如姓名、性別、職業)和關系(如朋友、家人),例如Cu={A,18,學生,朋友{B,C,D}… }Cu={A,18,學生,朋友{B,C,D}…}。 歷史對話:歷史對話,如用戶uu與LLM互動的問答對(例如Cu={(q0,a0),(q1,a1),…,(qi,ai)}Cu={(q0,a0),(q1,a1),…,(qi,ai)}),其中每個qiqi是查詢,aiai是相應的答案。 歷史內容:包括用戶uu的文檔、先前評論、評論或反饋。例如,Cu={1喜歡Avtar因為…,… }Cu={1喜歡Avtar因為…,…}。 歷史互動:包括用戶uu的歷史互動、偏好、評分。例如,Cu={指環王:5,星際穿越:3… }Cu={指環王:5,星際穿越:3…}。 通過整合個性化數據,PLLMs增強了傳統LLMs,改進了響應生成、推薦和分類任務。 注意,我們的報告與角色扮演相關的LLM個性化有顯著不同。雖然角色扮演側重于在對話中模仿角色,但本報告中的PLLMs側重于理解用戶的上下文和偏好,以滿足其特定需求。與強調廣泛類別的[29]相比,我們的工作提供了增強PLLM效率和性能技術的系統性分析,并提供了更詳細的技術分類。 提出的分類法 我們提出了一個從技術角度出發的分類法(如圖1和圖2所示),將個性化大語言模型(PLLMs)的方法分為三個主要層面:(1)輸入層面:個性化提示側重于處理用戶特定數據并將其注入模型。(2)模型層面:個性化適配強調設計框架以高效微調或適配模型參數以實現個性化。(3)目標層面:個性化對齊旨在優化模型行為以有效對齊用戶偏好。由于篇幅限制,分析論文、數據集和基準測試總結在Github Repo中。 3 個性化提示

提示工程作為用戶與LLMs之間的交互橋梁。在本報告中,提示涉及使用各種技術引導LLM生成期望的輸出,從傳統文本提示到軟嵌入等高級方法。軟嵌入不僅可以通過輸入擴展,還可以通過交叉注意力或調整輸出logits實現,從而實現更靈活和上下文敏感的響應。 該框架可以表示為,對于每個用戶uu:

其中,fLLMfLLM是生成響應的LLM模型;??是從用戶個人上下文CuCu中提取相關上下文的函數;⊕⊕表示將查詢qq和相關個性化上下文?(Cu)?(Cu)結合的組合運算符,為LLM生成豐富的信息。 檔案增強提示 檔案增強提示方法明確利用總結的用戶偏好和檔案的自然語言來增強LLMs的輸入(??是總結器模型)。圖3(a)展示了該方法的示意圖。 非調優總結器:凍結的LLM可以直接用作總結器,以總結用戶檔案,因其具有強大的語言理解能力,即?(Cu)=fLLM(Cu)?(Cu)=fLLM(Cu)。例如,_Cue-CoT_使用思維鏈提示進行個性化檔案增強,利用LLMs從歷史對話中提取和總結用戶狀態(如情感、個性和心理)。_PAG_利用指令調優的LLMs基于歷史內容預總結用戶檔案。這些總結離線存儲,從而在滿足運行時約束的同時實現高效的個性化響應生成。_ONCE_提示閉源LLMs從用戶的瀏覽歷史中總結主題和興趣區域,增強個性化推薦。 調優總結器:黑箱LLMs對輸入噪聲(如離題總結)敏感,難以提取相關信息。因此,訓練總結器以適應用戶偏好和風格至關重要。_Matryoshka_使用白箱LLM總結用戶歷史,類似于PAG,但微調總結器而不是生成器LLM。_RewriterSIRI_重寫查詢qq而不是連接總結,通過監督學習和強化學習進行優化。 _CoS_是一個特殊情況,假設一個簡短的用戶檔案?(Cu)?(Cu),并通過比較有和沒有檔案的輸出概率來放大其在LLM響應生成中的影響,從而在不微調的情況下調整個性化。 檢索增強提示 檢索增強提示[8, 10, 11]擅長從用戶數據中提取最相關的記錄以增強PLLMs(見圖3(b))。由于用戶數據的復雜性和體量,許多方法使用額外的記憶來實現更有效的檢索。常見的檢索器包括稀疏檢索器(如BM25 [21])和密集檢索器(如Faiss [23], Contriever [24])。這些方法有效地管理了LLM上下文限制內不斷增長的用戶數據量,通過整合用戶個性化數據中的關鍵證據來提高相關性和個性化。 3.2.1 個性化記憶構建 這部分設計了保留和更新記憶的機制,以實現高效檢索相關信息。 非參數記憶:此類記憶維護一個基于標記的數據庫,以原始標記形式存儲和檢索信息,而不使用參數化向量表示。例如,_MemPrompt_和_TeachMe_維護基于字典的反饋記憶(錯誤和用戶反饋的鍵值對)。MemPrompt側重于基于提示的改進,而TeachMe強調通過動態記憶進行持續學習,隨時間適應。_Mal.P_進一步整合了多種記憶類型,利用工作記憶進行即時處理,短期記憶(STM)進行快速訪問,長期記憶(LTM)存儲關鍵知識。 參數記憶:最近的研究將個性化用戶數據參數化并投影到可學習空間中,參數記憶過濾冗余上下文以減少噪聲。例如,_LD-Agent_維護具有獨立短期和長期庫的記憶,將長期事件編碼為通過可調模塊精煉的參數向量表示,并通過基于嵌入的機制進行檢索。_MemoRAG_采用不同的方法,利用輕量級LLM作為記憶來學習用戶個性化數據。它不維護用于檢索的向量數據庫,而是生成一系列標記作為草案以進一步指導檢索器,提供更動態和靈活的檢索增強方法。 3.2.2 個性化記憶檢索 個性化檢索器設計的關鍵挑戰在于選擇不僅相關而且具有代表性的個性化數據用于下游任務。_LaMP_研究通過兩種機制(提示內增強(IPA)和解碼器內融合(FiD))檢索的個性化信息如何影響大語言模型(LLMs)的響應。_PEARL_和_ROPG_同樣旨在通過個性化生成校準指標增強檢索器,提高檢索文檔的個性化和文本質量。同時,_HYDRA_訓練一個重排序器,從頂部檢索的歷史記錄中優先選擇最相關的信息以增強個性化。 軟融合提示 軟提示與檔案增強提示不同,它將個性化數據壓縮為軟嵌入,而不是將其總結為離散標記。這些嵌入由用戶特征編碼器??生成。 在本報告中,我們概括了軟提示的概念,表明軟嵌入不僅可以通過輸入集成,還可以通過交叉注意力或調整輸出logits集成,從而實現更靈活和上下文敏感的響應(見圖3(c))。 輸入前綴:軟提示作為輸入前綴,專注于嵌入級別,通過將查詢嵌入與軟嵌入連接,通常應用于推薦任務。_UEM_是一個用戶嵌入模塊(變換器網絡),生成基于用戶個性化數據的軟提示。_PERSONA_通過采用重采樣增強UEM,根據相關性和重要性選擇用戶互動的子集。_REGEN_通過協作過濾和項目描述結合用戶-項目互動的項目嵌入,使用軟提示適配器生成上下文個性化的響應。_PcaPOD_通過將用戶偏好提煉為有限的一組可學習的動態加權提示來個性化軟提示。與之前提到的方法不同,這些方法側重于直接嵌入用戶互動或重采樣相關數據,PcaPOD通過加權共享提示集來適應用戶興趣。 交叉注意力:交叉注意力使模型能夠通過允許其關注個性化數據和查詢來處理和整合多個輸入源。_User-LLM_使用自回歸用戶編碼器通過自監督學習將歷史互動轉換為嵌入,然后通過交叉注意力集成。該系統采用聯合訓練來優化檢索器和生成器以獲得更好的性能。_RECAP_利用為對話域設計的層次變換器檢索器獲取個性化信息。該信息通過上下文感知前綴編碼器集成到響應生成中,提高了模型生成個性化、上下文相關響應的能力。 輸出Logits:_GSMN_從個性化數據中檢索相關信息,將其編碼為軟嵌入,并與查詢向量在注意力中使用。之后,生成的嵌入與LLM生成的嵌入連接,修改最終logits以生成更個性化和上下文相關的響應。 討論 三種提示方法各有優缺點:1)檔案增強提示通過壓縮歷史數據提高效率,但存在信息丟失和個性化降低的風險。2)檢索增強提示提供豐富的上下文感知輸入,適用于長期記憶,但可能受計算限制和無關數據檢索的影響。3)軟提示高效嵌入用戶特定信息,捕捉語義細微差別而不冗余,但僅限于黑箱模型,缺乏明確的用戶偏好分析。總體而言,基于提示的方法高效且適應性強,能夠以最小的計算開銷實現動態個性化。然而,它們缺乏更深入的個性化分析,因為它們依賴于預定義的提示結構來注入用戶特定信息,并且由于提示范圍狹窄,訪問全局知識的能力有限。 4 個性化適配

PLLMs需要在微調的深度適應性和提示的效率之間取得平衡。因此,需要專門為PLLMs設計的方法,利用參數高效微調方法(PEFT),如LoRA [Hu et al., 2021, Yang et al., 2024], IA3 [Liu et al., 2022]等(見圖4)。 一個PEFT適用于所有用戶 該方法使用共享的PEFT模塊對所有用戶的數據進行訓練,消除了每個用戶單獨模塊的需求。共享模塊的架構可以進一步分類。 單一PEFT:_PLoRA_和_LMP_利用LoRA進行LLM的PEFT,分別通過用戶嵌入和用戶ID注入個性化信息。PLoRA進一步擴展并支持冷啟動場景的在線訓練和預測。_UserIdentifier_使用靜態、不可訓練的用戶標識符來調節模型對用戶特定信息的條件,避免了可訓練用戶特定參數的需求,降低了訓練成本。_Review-LLM_將用戶的歷史行為和評分聚合到提示中以引導情感,并利用LoRA進行高效微調。然而,這些方法依賴于具有固定配置的單一架構(如隱藏大小、插入層),使其無法存儲和激活多樣化的個性化信息[Zhou et al., 2024]。為了解決這個問題,_MiLP_利用貝葉斯優化策略自動識別應用多個LoRA模塊的最佳配置,從而實現高效和靈活的個性化。 專家混合(MoE):幾種方法使用LoRA模塊,但所有用戶使用靜態配置。這種缺乏參數個性化限制了適應用戶動態和偏好變化的能力,可能導致次優性能[Cai et al., 2024]。_RecLoRA_通過維護一組并行、獨立的LoRA權重并采用軟路由方法聚合元LoRA權重來解決這一限制,從而實現更個性化和自適應的結果。類似地,_iLoRA_創建了一組多樣化的專家(LoRA)以捕捉用戶偏好的特定方面,并生成動態專家參與權重以適應用戶特定行為。 共享PEFT方法依賴于集中式方法,其中用戶特定數據被編碼到集中式LLMs的共享適配器中。這限制了模型提供深度個性化體驗的能力。此外,使用集中式模型通常要求用戶與服務提供商共享個人數據,引發了對這些數據的存儲、使用和保護的擔憂。

每個用戶一個PEFT

為每個用戶配備用戶特定的PEFT模塊使LLM部署更加個性化,同時保護數據隱私。然而,挑戰在于確保在資源有限的環境中高效運行,因為用戶可能缺乏足夠的本地資源來執行微調。 無協作:此類別中適配器之間或學習過程中沒有協作或協調。_UserAdapter_通過前綴調優個性化模型,為每個用戶微調唯一的前綴向量,同時保持底層變換器模型共享和凍結。_PocketLLM_利用基于MeZo [Malladi et al., 2023]的無導數優化方法,在內存受限的移動設備上微調LLMs。_OPPU_為每個用戶配備一個LoRA模塊。 協作努力:沒有協作的“每個用戶一個PEFT”范式在計算和存儲方面非常密集,特別是對于大型用戶群。此外,個人擁有的PEFTs阻礙了社區價值,因為個人模型無法輕松共享知識或從協作改進中受益。_PER-PCS_通過跨用戶共享一小部分PEFT參數實現高效和協作的PLLMs。它首先將PEFT參數劃分為可重用的部分,并存儲在共享池中。對于每個目標用戶,從其他用戶自回歸選擇部分,確保可擴展性、效率和個性化適配,而無需額外訓練。 另一種高效的協作策略基于聯邦學習(FL)框架。例如,Wagner et al.[2024]引入了用于設備上LLM微調的FL框架,使用策略聚合LoRA模型參數并高效處理數據異質性,優于純本地微調。FDLoRA_引入了一個個性化的FL框架,使用雙LoRA模塊捕捉個性化和全局知識。它僅與中央服務器共享全局LoRA參數,并通過自適應融合結合它們,在最小化通信和計算成本的同時提高性能。 還有其他框架可以探索,例如_HYDRA,它也采用基礎模型來學習共享知識。然而,與聯邦學習相比,它為每個個體用戶分配不同的頭以提取個性化信息。 討論 微調方法通過修改大量模型參數實現深度個性化,而參數高效微調方法(如前綴向量或適配器)在保持高個性化水平的同時降低了計算成本和內存需求。這些方法通過針對特定用戶需求定制模型來提高任務適應性,增強情感分析和推薦等任務的性能。它們還提供了靈活性,允許用戶特定調整,同時利用預訓練知識。然而,它們仍然面臨過擬合的風險,特別是在有限或嘈雜的用戶數據情況下,這可能影響對新用戶或多樣化用戶的泛化和性能。 5. 個性化對齊

個性化對齊技術 [Bai et al., 2022; Rafailov et al., 2024] 通常旨在優化大型語言模型(LLMs),使其符合人類的通用偏好。然而,現實中,個體在語言風格、知識深度、價值觀等方面對LLM回答的偏好可能存在顯著差異。個性化對齊則力圖進一步滿足個體用戶的獨特偏好,超越通用的偏好。個性化對齊面臨的一大挑戰是構建高質量的用戶特定偏好數據集,這比通用對齊數據集更為復雜,原因在于數據的稀缺性。第二個挑戰來自于需要改進傳統的基于強化學習的人類反饋(RLHF)框架 [Ouyang et al., 2022],以處理用戶偏好的多樣化問題,這對于整合個性化偏好而不妥協效率和性能至關重要。

5.1 個性化對齊數據構建

高質量的數據構建對于學習個性化大型語言模型(PLLMs)至關重要,主要涉及通過與LLM的交互生成自我生成的數據。Wu 等 [2024c] 構建了一個數據集,用于將LLM與個體偏好對齊,該數據集通過初步創建一個包含3,310個用戶角色池,并通過迭代自我生成和過濾進行擴展。這種方法與PLUM [Magister et al., 2024] 相似,后者通過多輪對話樹模擬動態交互,使得LLM能夠推斷并適應用戶的偏好。為了讓LLM能夠在不重新訓練的情況下適應個體用戶的偏好,Lee 等 [2024] 使用了多樣化的系統消息作為元指令來指導模型的行為。為此,創建了MULTIFACETED COLLECTION數據集,其中包含197,000條系統消息,代表了廣泛的用戶價值觀。為了支持邊緣設備上的實時隱私保護個性化,并解決數據隱私、存儲有限和最小化用戶干擾的問題,Qin 等 [2024] 提出了一個自監督方法,該方法能夠高效地選擇并綜合重要的用戶數據,從而在最小化用戶交互的情況下改善模型適應性。 研究工作也越來越集中于開發能夠評估模型理解個性化偏好的數據集。Kirk 等 [2024] 引入了PRISM Alignment Dataset,該數據集將來自75個國家的1,500名參與者的社會人口統計信息和偏好映射到他們與21個LLM的實時交互反饋中,重點關注關于有爭議話題的主觀和多文化視角。PersonalLLM [Zollo 等,2024] 提出了一個新型的個性化測試數據庫,它策劃了開放式提示和多個高質量的回應,以模擬用戶之間的多樣化潛在偏好。該方法通過從預訓練的獎勵模型生成模擬用戶群體,解決了個性化中的數據稀缺問題。

5.2 個性化對齊優化

個性化偏好對齊通常被建模為一個多目標強化學習(MORL)問題,其中個性化偏好是由多個偏好維度的用戶特定組合來決定的。基于此,典型的對齊范式包括使用從多個獎勵模型派生的個性化獎勵來指導LLM策略的訓練階段,以實現個性化目標。MORLHF [Wu 等,2023] 為每個偏好維度分別訓練獎勵模型,并使用鄰近策略優化(PPO)重新訓練策略語言模型,指導模型通過多個獎勵模型的線性組合。這種方法允許重用標準的RLHF管道。 MODPO [Zhou 等,2023] 引入了一種新穎的無強化學習(RL-free)算法,擴展了直接偏好優化(DPO),以管理多個對齊目標。它將線性標量化直接集成到獎勵建模過程中,使得通過簡單的基于邊際的交叉熵損失來訓練語言模型,作為隱式的集體獎勵函數。 另一種MORL策略是在解碼階段考慮多個訓練好的策略LLM的即席組合,以實現個性化。Personalized Soups [Jang 等,2023] 和Reward Soups [Rame 等,2024] 通過首先獨立訓練多個具有不同偏好的策略模型,然后在推理階段合并它們的參數來解決個性化人類反饋中的RL挑戰。兩種方法都允許根據用戶偏好動態加權網絡,增強模型對齊并減少獎勵的誤差。此外,策略LLM的個性化融合不僅可以通過參數合并來實現,也可以通過模型集成來實現。MOD [Shi 等,2024] 從所有基礎模型的線性組合中輸出下一個令牌,允許通過組合它們的預測來精確控制不同目標,而無需重新訓練。與參數合并基準相比,該方法顯示出了顯著的效果。PAD [Chen 等,2024b] 利用個性化獎勵建模策略生成令牌級別的個性化獎勵,并用這些獎勵來指導解碼過程,從而動態地調整基礎模型的預測,以適應個體偏好。圖5可視化了上述典型的MORL方法,用于個性化對齊。 還有一些新興的個性化對齊研究,超越了“多目標”范式。PPT [Lau 等,2024] 通過生成每個用戶提示的兩個潛在回答,要求用戶對其進行排名,并將該反饋融入到模型的上下文中,以動態適應用戶的個性化偏好,從而解鎖了上下文學習在可擴展性和高效性上的潛力。VPL [Poddar 等,2024] 利用變分推斷框架,通過用戶特定的潛在變量來捕捉多樣化的人類偏好。從少量偏好注釋推斷用戶特定的潛在分布,能夠以更高的數據效率實現更準確的個性化獎勵建模。

5.3 討論

當前主流的個性化對齊技術主要將個性化建模為多目標強化學習問題,其中通過經典的RLHF框架在策略LLM的訓練階段或通過參數合并或模型集成在解碼階段考慮個性化用戶偏好。通常,這些方法限于少數(例如三個)預定義的偏好維度,并通過文本用戶偏好提示來表示。然而,在現實場景中,可能存在大量個性化用戶,并且他們的偏好向量可能并不完全已知,僅能訪問到他們的交互歷史。因此,開發更現實的對齊基準,以有效評估這些技術,是未來研究的一個關鍵方向。6. 未來方向盡管個性化大型語言模型(PLLMs)近年來取得了顯著進展,但仍然面臨許多挑戰和機遇。本節將討論一些關鍵的局限性和未來研究的有前景的方向。復雜的用戶數據盡管當前的方法有效處理了基本的用戶偏好,處理復雜的、多源的用戶數據仍然是一個顯著的挑戰。例如,使用圖結構表示用戶關系的方法仍然局限于檢索增強 [Du et al., 2024]。如何有效利用這些復雜的用戶信息來微調LLM參數仍然是一個巨大的挑戰。大多數方法主要關注文本數據,而針對多模態數據(如圖像、視頻、音頻)的個性化基礎模型仍然沒有得到充分探索,盡管這些數據對現實世界的部署和應用至關重要 [Wu et al., 2024b; Pi et al., 2024]。邊緣計算邊緣計算中的一個關鍵挑戰是如何在資源有限的設備(如手機)上高效地更新模型,這些設備的存儲和計算資源有限。例如,微調可以提供更深層次的個性化,但它需要大量資源,并且難以擴展,尤其是在實時應用中。平衡資源和個性化需求是非常重要的。一種潛在的解決方案是為邊緣設備構建個性化的小型模型 [Lu et al., 2024],利用量化和蒸餾等技術。邊緣-云協作在現實世界場景中部署PLLMs會遇到邊緣-云計算環境中的重大挑戰。當前利用協作努力的方法通常缺乏云和邊緣設備之間的高效同步機制。這突顯了探索本地計算與云端處理之間平衡的必要性,尤其是在個性化模型(PLLMs)的部署中 [Tian et al., 2024]。高效適應模型更新當基礎LLM參數更新(例如推出新版本時),如何高效地調整每個用戶的微調PEFT參數成為一個挑戰。考慮到用戶數據的龐大量和資源的有限性,重新訓練的成本可能非常高昂。未來的研究應該聚焦于高效的策略來更新用戶特定的參數,而無需完全重新訓練,例如利用增量學習、遷移學習或更具資源效率的微調技術。終身更新鑒于用戶行為的多樣性,一個關鍵的挑戰是如何防止災難性遺忘,同時確保長期和短期記憶的高效更新。未來的研究可以探索持續學習 [Wu et al., 2024d] 和知識編輯 [Wang et al., 2024b],以促進用戶特定信息的動態更新。信任問題確保用戶隱私至關重要,尤其是在使用總結或檢索的數據生成個性化響應時。由于資源限制,LLMs無法本地部署,這可能導致隱私泄露的風險。未來的研究可以集中于隱私保護方法,例如聯邦學習、安全計算和差分隱私,以保護用戶數據 [Yao et al., 2024; Liu et al., 2024a]。7. 結論本文綜述了個性化大型語言模型(PLLMs),重點強調了根據個體用戶數據量身定制的個性化響應。我們提出了一個結構化的分類法,將現有的方法分為三個關鍵技術視角:個性化提示(輸入層)、個性化適配(模型層)和個性化對齊(目標層),并在每個層次內進一步細分。我們還討論了當前的局限性,并提出了幾個有前景的未來研究方向。我們的工作為推動PLLMs的發展提供了寶貴的見解和框架。

付費5元查看完整內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

大型語言模型(LLMs)在各個領域展示了卓越的能力,吸引了學術界和工業界的廣泛關注。盡管它們表現出色,但LLMs的巨大規模和計算需求對實際部署帶來了相當大的挑戰,特別是在資源有限的環境中。壓縮語言模型同時保持其精度的努力已成為研究的重點。在各種方法中,知識蒸餾已成為一種有效的技術,可以在不大幅降低性能的情況下提高推理速度。本文從方法、評估和應用三個方面進行了詳細的調查,探討了專門為LLMs量身定制的知識蒸餾技術。具體來說,我們將方法分為白盒KD和黑盒KD,以更好地說明它們的差異。此外,我們還探討了不同蒸餾方法之間的評估任務和蒸餾效果,并提出了未來研究的方向。通過深入理解最新進展和實際應用,這項調查為研究人員提供了寶貴的資源,為該領域的持續進步鋪平了道路。

** 簡介**

大型語言模型(LLMs)[2, 17, 130, 146, 166] 的出現顯著提高了各種生成任務中的文本生成質量,成為人工智能領域一個關鍵且廣受討論的話題。與之前的模型相比,這些模型對未見數據的泛化能力更強。此外,它們還展示了小型模型所不具備的能力,如多步推理[47, 69, 83] 和指令執行[103, 144, 154]。LLMs的成功通常歸因于訓練數據的增加和模型參數數量的增加(例如,具有1750億參數的GPT-3[12])。然而,參數規模的擴展帶來了顯著的缺點,尤其是在高推理成本和大量內存需求方面,使得實際部署變得具有挑戰性。例如,GPT-3需要大約350GB的模型存儲(float16),并且推理至少需要5個每個80GB內存的A100 GPU,這對碳排放的影響顯著。為了解決這些挑戰,模型壓縮[30, 40] 已成為一種可行的解決方案。模型壓縮旨在將大型、資源密集型模型轉化為適合在受限移動設備上存儲的更緊湊版本。這一過程可能涉及優化以減少延遲以實現更快的執行,或在最小延遲和模型性能之間取得平衡。因此,在現實場景中應用這些高容量模型的一個關鍵目標是壓縮它們,減少參數數量,同時保持最大性能。

隨著減少計算資源需求的必要性日益重要,知識蒸餾(Knowledge Distillation, KD)[43] 作為一種有前景的技術出現。KD是一種機器學習方法,專注于通過從大型復雜模型向更小、更高效的模型傳遞知識來壓縮和加速模型。這種技術經常被用來將存儲在大型深度神經網絡模型中的知識濃縮到更小的模型中,從而減少計算資源需求并提高推理速度而不會大幅犧牲性能。從根本上講,知識蒸餾利用大型模型在大量數據集上獲得的廣泛知識來指導較小模型的訓練。這些知識通常包括輸出概率分布、中間層表示和大型模型的損失函數。在訓練過程中,較小的模型不僅要匹配原始數據標簽,還要模仿較大模型的行為。對于像GPT-4[2]這樣只能通過API訪問的高級模型,生成的指令和解釋可以幫助訓練學生模型[54]。隨著知識蒸餾的最新進展,許多研究綜合了各種蒸餾技術的最新進展。具體來說,Gou等[37] 對知識蒸餾進行了廣泛的綜述,涉及六個關鍵方面:知識類別、訓練方案、師生架構、蒸餾算法、性能比較和應用。同樣,Wang等[141] 詳細總結了與視覺任務相關的知識蒸餾技術的研究進展和技術細節。Alkhulaifi等[4] 介紹了一種創新的度量標準,稱為蒸餾度量標準,他們用它來評估不同的知識壓縮方法。此外,Hu等[48] 探討了跨多個蒸餾目標的各種師生架構,提出了不同的知識表示及其相應的優化目標,并系統地概述了師生架構,結合了代表性的學習算法和有效的蒸餾方案。

現有關于知識蒸餾的綜述為模型壓縮奠定了重要基礎并提供了寶貴的見解[13, 51, 64]。然而,LLMs的出現給KD帶來了若干新挑戰:1)大型語言模型設計并非僅用于單一任務如文本生成,而是廣泛應用于各種任務和未見數據,包括新興能力。因此,評估壓縮LLMs的泛化能力需要仔細和全面的評估。2)現有綜述僅是對現有工作的總結,未提供將KD技術應用于壓縮和部署LLMs的具體示例。這種案例研究可以幫助讀者為不同規模的LLMs選擇最佳的KD方案。

為應對這些挑戰,已經開發出各種專為LLMs設計的知識蒸餾算法。本文旨在提供這些方法的全面而有見地的指南。我們的調查的總體分類框架如圖1所示,從方法、評估和應用三個方面審視LLMs的蒸餾算法。為了清楚解釋這些方法,我們將其分為白盒KD和黑盒KD。白盒KD包括兩種不同類型:基于Logits的方法[43],在Logits層面傳遞知識,以及基于Hint的方法[109],通過中間特征傳遞知識。黑盒KD涉及一種基于API的方法,其中僅能訪問教師模型的輸出。此類別通常包括三種方法:上下文學習[52]、鏈式思維[69] 和指令執行[144]。此外,我們同時評估了上述兩種蒸餾算法在魯棒性基準上的有效性[94, 128, 138]。最后,我們討論了不同蒸餾方法之間的關系和應用場景,并提出了未來研究方向。

本文其余部分安排如下:第2節簡要回顧了知識蒸餾方法的定義。接下來,第3節深入探討了LLMs領域的蒸餾和評估方法。第4節展示了應用場景,第5節總結了知識蒸餾的挑戰并探討了未來研究方向。最后,第6節對本文進行了總結。

付費5元查看完整內容

提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。

大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。

然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。

考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。

在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。

總述

**提示范式 **

提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。

提示類型

本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。

挑戰

鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。

使用高效計算的提示

隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。

使用高效設計的提示

“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。

結論

在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。

付費5元查看完整內容

基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。

大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:

  • 量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外,較少的位可能表示更高的并行性和更快的推理速度。
  • 剪枝致力于移除預設計模型中不重要的組件(例如,神經元,層等),從而減少推理成本中的內存和計算成本。
  • 知識蒸餾引入一個預訓練的大模型作為教師,并將其知識轉移到一個新的較小的模型上,后者稱為學生模型。然后,較小的模型將幾乎擁有與教師相同的能力,并享受較少的內存和計算成本。
  • 緊湊架構設計設計新的運算符,以較低的成本替換(通常是近似)原始模型中的笨重運算符。對于Transformer模型,自注意力是主要目標,通常被其他運算符替換。
  • 動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網,每個樣本只選擇超網的一個子結構進行推理。專家混合(MoE)是一種動態推理。 此外,上述方法也可以組合使用,以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而,LLMs也為模型壓縮帶來了許多新的挑戰:
  1. 許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。

  2. 與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容
北京阿比特科技有限公司