久草精品视频在线观看,伊人亚洲综合青草青草久热,国产一国产一级毛片视频在线

大型語言模型（LLMs）在復雜任務中展現了卓越的能力。近年來，大型推理模型（LRMs）的進展，例如OpenAI的o1和DeepSeek的R1，通過利用監督微調（SFT）和強化學習（RL）技術來增強鏈式思維（CoT）推理，進一步提升了在數學和編程等系統-2推理領域的性能。然而，盡管更長的CoT推理序列能夠提高性能，但它們也因冗長和冗余的輸出而引入了顯著的計算開銷，這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度，同時保留推理能力，從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大，高效推理仍處于研究的早期階段。在本文中，我們首次提供了結構化綜述，系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言，基于LLMs的內在機制，我們將現有研究分為幾個關鍵方向：（1）基于模型的高效推理，即考慮將完整推理模型優化為更簡潔的推理模型，或直接訓練高效推理模型；（2）基于推理輸出的高效推理，旨在推理過程中動態減少推理步驟和長度；（3）基于輸入提示的高效推理，通過輸入提示的屬性（如難度或長度控制）來提高推理效率。此外，我們還介紹了使用高效數據訓練推理模型的方法，探索了小型語言模型的推理能力，并討論了評估方法和基準測試。我們維護了一個公共資源庫，以持續跟蹤和更新這一前景廣闊領域的最新研究進展。

1 引言

大型語言模型（LLMs）已成為異常強大的人工智能工具，在自然語言理解和復雜推理任務中展現了卓越的能力。近年來，專注于推理的大型語言模型（也稱為大型推理模型，LRMs）[91]的出現，例如OpenAI的o1 [61]和DeepSeek的R1 [31]，顯著提升了其在系統-2推理領域（如數學[16, 35]和編程[7, 17]）的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型（如LLaMA [30, 80]、Qwen [95]）演化而來，通過鏈式思維（CoT）提示[86]生成顯式的、逐步的推理序列，從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調（SFT）和強化學習（RL）來開發，這些方法促進了迭代和系統化的問題解決能力。具體而言，OpenAI的o1 [61]訓練流程可能結合了SFT和RL，并采用了蒙特卡洛樹搜索（MCTS）[71]和經過處理的獎勵模型（PRM）[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調，這些數據由經過RL訓練的DeepSeek-R1-Zero生成，隨后通過基于規則的獎勵函數進一步優化。然而，盡管長鏈式思維推理顯著增強了推理能力和準確性，但類似CoT機制（如自洽性[84]、思維樹[96]、激勵性RL[31]）的引入也導致了冗長的輸出響應，從而帶來了巨大的計算開銷和思考時間。例如，當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少？”[10]時，這些模型的推理序列有時可能長達數千個詞元，其中許多是冗余的，并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲，限制了推理模型在計算敏感的實際應用中的使用，包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理，尤其是減少推理長度，具有顯著的優勢，例如降低成本并增強實際部署中的推理能力。近年來，許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑，使高效推理成為一個備受關注且快速發展的研究領域。在本文中，我們首次提供了結構化綜述，系統性地探索了LLMs高效推理的當前進展。如圖2所示，我們將現有研究分為以下關鍵方向：（1）基于模型的高效推理，即將完整推理模型優化為更簡潔的推理模型，或直接通過微調實現高效推理；（2）基于推理輸出的高效推理，即在推理過程中動態減少推理步驟和輸出長度；（3）基于輸入提示的高效推理，通過利用提示屬性（如提示引導的長度或提示難度）提高推理效率。與LLMs中的模型壓縮技術（如量化[27, 48]或kv緩存壓縮[52,103]）不同，這些技術側重于壓縮模型規模并實現輕量級推理，而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言，我們將高效推理方法總結為以下幾類：基于長度獎勵設計的強化學習（第3.1節）；基于可變長度CoT數據的監督微調（第3.2節）；將推理步驟壓縮為更少的潛在表示（第4.1節）；推理過程中的動態推理范式（第4.2節）；基于提示引導的高效推理（第5.1節）；通過路由提示優化推理效率（第5.2節）；此外，本文還探討了其他有趣的主題，包括：使用高效數據訓練推理模型（第6.1節）；小型語言模型的推理能力與模型壓縮（第6.2節）；高效推理模型的評估與基準測試（第7節）；我們將持續更新公共資源庫，以跟蹤高效推理領域的最新研究進展。

付費5元查看完整內容

1 引言

“凡不能言說之事，當保持沉默。”——路德維希·維特根斯坦大型語言模型（Large Language Models，LLMs）借助思維鏈（Chain-of-Thought，CoT）推理，在復雜推理任務中展現了卓越能力（Guo 等，2025；OpenAI，2025；Qwen，2025；Wei 等，2022；Chen 等，2025b）。CoT 通過引導模型以自然語言逐步推理，不僅提升了可解釋性，還常常帶來更優的任務表現（Kojima 等，2022；Chu 等，2024）。然而，顯式 CoT 推理受限于必須用自然語言記錄每一步推理，導致兩大問題： 1. 計算效率低下——并非所有生成的 token 都攜帶有用信息（Lin 等，2025b；Feng 等，2025；Qu 等，2025；Sui 等，2025；Wang 等，2025a；Liu 等，2025）； 1. 思維表達受限——人類認知常常超越語言，可包含抽象洞見、直覺躍遷或高度組合式思考，這些內容難以完全或準確地口頭化（Wittgenstein，1922；Pinker，1994）。正如 Hao 等（2024）指出，強行將每一步都顯式化不僅困難，還對推理本身造成不自然的束縛。

上述局限促使研究者轉向潛在思維鏈推理（Latent Chain-of-Thought，latent CoT）。如圖 1 所示，模型不再依賴語言 token，而是在潛在空間中進行推理，為類思維過程提供了更抽象、更高效的媒介。這種“去語言化”推理可帶來更豐富的思維表征、通過壓縮計算實現更快的推理速度，并對非語言認知模式具備更大靈活性（Lindsey 等，2025）。然而，潛在 CoT 也引發關鍵挑戰： * 不可監督性：內部推理發生在難以直接解釋的潛在空間內（Lindsey 等，2025）； * 評估缺口：缺乏衡量深層潛在推理與輸入-輸出捷徑的明確指標（Ameisen 等，2025）； * 對齊風險：無法檢查或約束潛在軌跡，使倫理控制更加復雜（Xu 等，2025b；Ruan 等，2025）。

盡管存在未解難題，潛在推理研究發展迅速且碎片化，亟需研究社區對其進行清晰、系統的梳理。為此，我們提出首個潛在思維鏈推理的全面綜述，貢獻如下： 1. 系統化分類：提出潛在 CoT 研究的結構化分類框架，將現有工作劃分為四大方向，并在各方向內部對代表性研究進行系統梳理，闡明其方法假設與創新（見圖 2）。 1. 深入分析：基于該分類，對各類別代表性工作進行綜合分析，比較其訓練策略、設計范式、監督信號與效率權衡。 1. 挑戰識別與前沿展望：總結潛在 CoT 領域的關鍵開放問題，并展望未來值得關注的研究方向。

我們期望整合潛在推理碎片化的研究現狀，為該新興方向的進一步發展奠定結構化的理論與實踐基礎。

本文對大型語言模型中的潛在思維鏈推理（latent CoT）進行了全面綜述。首先，我們梳理方法層面的最新進展，主要分為兩大類：逐 token 策略（§3），涵蓋離散 token（§3.1）與連續 token（§3.2）；以及內部機制（§4），進一步細分為結構機制與表征機制。除設計機制外，我們還回顧了關于潛在推理分析與可解釋性的持續研究進展（§5）。最后，本文討論潛在 CoT 在實際場景中的應用（§6），并總結其所面臨的挑戰與未來研究方向（§7）。

付費5元查看完整內容

大語言模型 · 多模態推薦系統 ·

5 月 17 日

[付費5元查看完整內容]大語言模型在多模態推薦系統中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態推薦系統（Multimodal Recommender Systems，MRS）融合了來自用戶和物品的異構數據，如文本、圖像和結構化信息，以提升推薦性能。大語言模型（Large Language Models，LLMs）的興起為MRS帶來了新的機遇，使其具備語義推理、上下文學習（in-context learning）以及動態輸入處理的能力。與早期的預訓練語言模型（Pre-trained Language Models，PLMs）相比，LLMs 在靈活性與泛化能力方面具有顯著優勢，但同時也帶來了可擴展性和模型可訪問性等方面的挑戰。

本綜述全面回顧了LLMs與MRS交叉領域的最新研究進展，重點探討了提示策略、微調方法以及數據適配技術。我們提出了一種新的分類體系，用以刻畫融合模式，并識別可從相關推薦領域遷移的通用技術。此外，綜述還涵蓋了評估指標與數據集的概況，并指出了未來的研究方向。我們的目標是闡明LLMs在多模態推薦中的新興作用，助力該快速發展領域的后續研究。

1 引言

多模態推薦系統（Multimodal Recommender Systems，MRS）旨在整合用戶和物品的多樣化信息，包括文本、圖像、結構化數據和用戶行為等，以構建連貫的推薦流程。傳統方法，如協同過濾和神經編碼器，常面臨數據稀疏、冷啟動問題以及模態不對齊等挑戰。大語言模型（Large Language Models，LLMs）通過其預訓練知識、語義靈活性和推理階段的適應能力，為解決上述問題提供了新范式。與早期的預訓練語言模型（Pre-trained Language Models，PLMs），如BERT或RoBERTa相比，LLMs（例如GPT-3、PaLM、LLAMA）不僅具備更豐富的世界知識，還支持高級推理能力與基于提示（prompt-based）的控制機制。這使得LLMs能在無需重新訓練的前提下處理多樣化且不斷變化的推薦輸入，尤其適用于冷啟動與跨領域場景。

本綜述旨在探討LLMs如何重塑多模態推薦系統的設計。我們聚焦于通過提示、訓練與數據適配等方式的融合（詳見第2節），這些技術也與跨模態學習中的關鍵組件相互作用，如解耦（disentanglement）、對齊（alignment）與融合（fusion）（第3節）。此外，我們還綜合近期研究進展，并指出未來的研究方向（第4節）。為進一步支持后續工作，我們附錄中提供了多模態數據集列表（附錄A.1）、評估指標結構化分類（附錄A.2）以及縮略語對照表（附錄A.3）。

**1.1 研究策略

本綜述聚焦于LLMs特有能力——推理、提示和模態適配——如何重新定義MRS的設計（第1.3節）。為保持這一焦點，我們有意弱化對傳統架構組件（如模態特定編碼器）的討論，這些已在先前綜述中被廣泛覆蓋 [69, 151]。同樣，我們也不涉及推薦系統架構的分類（如圖神經網絡、Transformers等），相關內容已在 [2, 24, 30, 54] 等文獻中詳盡討論。相反，我們強調了以往研究中較少探討的模態，如表格數據和數值數據，并分析它們如何被集成進LLMs。此外，我們還引入了推薦系統其他分支中的方法（如序列推薦、知識感知推薦），當其LLM方法具有遷移潛力時，也被納入本綜述，以拓展MRS的設計空間并更全面地刻畫LLM與MRS的交互方式。

**1.2 與其他MRS綜述的區別

盡管已有大量關于MRS的綜述，但大多采用基于編碼器的分類方法，聚焦于模態特定編碼器、融合機制或損失函數等架構組件 [69, 151]。相比之下，我們強調LLMs帶來的范式變革，其影響超越了傳統編碼器管線。 **LLMs 超越編碼器范式。**傳統綜述往往將編碼器視為模態表示的核心機制，而LLM驅動的模型改變了這一范式。LLMs支持通過提示工程靈活處理輸入，可直接作用于多模態摘要或結構化格式（如JSON、表格文本）。這種能力將模型從靜態的編碼-解碼結構轉變為具備上下文推理、意圖理解與外部工具交互能力的動態代理。 **基于LLM功能的分類體系。**我們的分類方法不再沿用標準的架構劃分，而是基于LLM驅動的融合策略展開，包括提示策略（第2.1節）、訓練方法（第2.2節）以及數據類型適配（第2.3節），并結合其在MRS任務中的角色，如解耦與對齊（第3.1與3.2節）。這些維度能更準確地捕捉LLMs如何實現推理與跨模態對齊的新形式。 **納入可遷移的相關技術。**考慮到LLMs在MRS中的應用尚屬新興，我們拓寬視角，引入了來自鄰近推薦領域（如文本、行為推薦）中基于LLM的策略，這些策略雖未直接應用于MRS，但具有高度遷移性，從而拓展了設計空間并揭示可通用的創新模式。

**1.3 分類體系（Taxonomy）

本綜述提出了一種面向LLM與MRS融合的新型分類體系，突破了以往基于編碼器或損失函數的分類方式 [68, 69, 151]。LLMs的引入帶來了以推理能力、提示控制與推理時動態適應為核心的全新設計空間。該分類體系將相關研究歸納為三個主要類別： 1. LLM方法（第2.1–2.3節）：以LLM特有技術為特征，細分為：

提示技術（第2.1節）：包括硬提示（如ID標識符）、軟提示、混合模板及推理提示； * 訓練策略（第2.2節）：涵蓋微調（fine-tuning）、參數高效方法（如LoRA、QLoRA）及代理結構； * 數據類型適配（第2.3節）：包括將圖像、表格、行為數據等非文本模態適配為適用于LLM輸入的結構化格式（如摘要或結構化提示）； 1. MRS特定技術（第3.1–3.3節）：從LLM視角重新審視MRS中的長期挑戰：

解耦（第3.1節）：通過潛變量建模、對比學習或變分推斷實現模態特征的分離； * 對齊（第3.2節）：同步不同模態輸入，或將外部知識嵌入與LLM表示對齊； * 融合（第3.3節）：多模態信息在早期、中間或后期階段的融合策略； 1. 主要趨勢與未來方向（第4節）：總結該領域的研究趨勢，探討LLMs在推薦流程中作為“推理代理”的演進角色。

此外，在附錄A.2中，我們還提供了標準與新興評估指標的結構化概覽，包括BLEURT等NLP指標以及基于LLM的評估方法；在附錄A.1中，補充了覆蓋更廣領域與模態的多模態推薦數據集。

**1.4 本綜述的貢獻

現有MRS綜述往往忽視LLMs帶來的特定挑戰與機遇。例如，Liu等人 [69] 僅在未來展望中簡要提及多模態LLMs；而聚焦PLMs的推薦綜述則多集中于BERT類架構，缺乏對LLMs上下文推理與工具增強能力的系統分析。本綜述填補了這一空白，系統梳理了LLMs在多模態推薦中的研究進展與前沿趨勢，并引入鄰近推薦子領域中具遷移性的策略。我們的主要貢獻包括： 1. 面向LLMs在MRS中的新分類框架：提出一種全新分類法，將LLM在MRS中的融合方式劃分為提示策略、參數高效微調方法、模態適配技術與對齊策略等獨立設計軸，便于更細致地理解其機制； 1. 跨領域整合與邊界拓展：涵蓋來自文本、行為等推薦分支的相關方法，如摘要、上下文學習或推理提示，并探討其在MRS中的遷移潛力； 1. 當前趨勢梳理與研究空白識別：對當前研究熱點與未充分探索方向進行整合（第4節），明確研究收斂點與亟待突破的環節； 1. 擴展的評估指標與數據資源：提供覆蓋MRS特定目標（如多樣性、新穎性、多目標權衡）與LLM相關實踐的評估指標綜述（附錄A.2），并匯總了更全面的公開數據集資源（附錄A.1）。

付費5元查看完整內容

多模態大語言模型 · 強化學習 · 大型語言模型 · 大模型推理 ·

5 月 3 日

[付費5元查看完整內容]強化多模態大語言模型：基于強化學習的推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將強化學習（Reinforcement Learning，RL）融入多模態大語言模型（Multimodal Large Language Models，MLLMs）推理能力的研究方向正迅速發展，成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型（LLMs）的基礎上顯著擴展，能夠處理圖像、音頻和視頻等多種模態，但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展，涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法（value-free）和基于價值函數方法（value-based），并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外，本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性，并提出了未來可能的研究方向，以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。

1 引言

大型語言模型（Large Language Models，LLMs）的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元，展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而，實現類人智能不僅需要超越基礎感知能力，更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發，情境學習（In-context Learning，ICL）技術 [112, 113, 121] 賦予了LLMs逐步推理的能力，這種機制通常被稱為“思維鏈條”（Chain-of-Thought，CoT）推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色，引發了各領域對推理能力推理時間擴展（test-time scaling）研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49]，該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下，多模態大語言模型（Multimodal Large Language Models，MLLMs）中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索（Monte Carlo Tree Search）[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據，并通過監督微調使模型學習自主推理能力。

隨著強化學習（Reinforcement Learning，RL）理論和技術的進步，DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法（如GRPO [85]）自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”（Aha Moment），表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs，并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能，在域內測試中可媲美監督微調（SFT）方法，在分布外（OOD）評估中更是超越了SFT模型。

然而，正如圖1所示，這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效，但大多數仍延續文本思維范式，忽視了在多模態場景中其他模態所扮演的關鍵角色。此外，當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案，未能覆蓋更廣泛的泛化場景問題，如無明確答案的問題。盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110]，但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白，本文系統綜述了基于RL的MLLMs推理方法，全面梳理技術發展、方法體系、實際應用與未來方向，旨在為快速演進的MLLM推理研究提供系統化的參考與指導，從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略；第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估；最后，第7節探討當前限制與未來研究方向。本文從以下四個關鍵視角出發，系統分析MLLMs中基于強化學習的推理方法： * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略：重點分析無價值函數方法（value-free）與基于價值函數方法（value-based）的核心理念與改進方向，探討其在提升訓練效率、穩定性與推理性能方面的創新方案，比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略：從所使用的強化學習算法、獎勵機制（以準確性或結構為導向）及多模態輸入整合（包括視覺、音頻與時序信息）等維度，對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議：分析數據集的構建流程，包括數據來源、模型輸出收集及偏好標注方法，涵蓋數學、科學、空間、交互等多種類型的推理任務，并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向：討論當前面臨的挑戰，如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題，探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

參數高效微調 · 視覺語言模型 · 大型語言模型 ·

4 月 22 日

[付費5元查看完整內容]PEFT A2Z：大型語言與視覺模型的參數高效微調綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）與視覺語言模型（VLMs）等大模型正在重塑人工智能的發展格局，推動了自然語言處理、計算機視覺以及多模態學習等領域的應用。然而，全面微調這類模型的成本仍然高昂，通常需要大量的計算資源、內存以及任務特定的數據。參數高效微調（PEFT）作為一種新興的解決方案，通過僅更新模型的一小部分參數，使得大模型能夠高效地適應下游任務。本綜述全面梳理了PEFT技術的發展脈絡，重點探討其動機、設計原則與實際效果。我們首先分析了傳統微調所面臨的資源與可及性挑戰，指出過擬合、災難性遺忘和參數低效等關鍵問題。接著，我們引入了一套結構化的PEFT方法分類體系，將現有技術劃分為加性（additive）、選擇性（selective）、重參數化（reparameterized）、混合式（hybrid）與統一式（unified）等五大框架，并系統性地比較了它們的機制與權衡。除了分類，我們還深入探討了PEFT技術在語言、視覺以及生成建模等不同領域中的應用表現，展示了其在降低資源消耗的同時依然保持優異性能的潛力。我們進一步討論了PEFT在可擴展性、可解釋性與魯棒性方面仍面臨的重要挑戰，并提出未來的研究方向，包括聯邦學習、領域自適應以及理論基礎構建。我們的目標是為讀者提供對PEFT技術的統一理解，揭示其在推動大模型高效、實用與可持續發展中的關鍵作用。

1 引言

大型語言模型（LLMs）[601, 280] 與預訓練語言模型（PLMs）[432, 436, 577, 719] 正在徹底改變人工智能的發展方向 [648, 122]，推動自然語言處理（NLP）[96, 478]、計算機視覺（CV）[30, 707] 和多模態學習 [56, 187, 508] 等領域實現突破性進展。這些模型通常擁有數十億參數，訓練數據規模龐大，在文本生成 [455, 129]、語言翻譯 [267, 10]、對話系統 [355, 555]、聊天機器人 [326, 571] 和內容摘要 [3, 55] 等應用中展現出前所未有的能力。它們重新定義了人工智能的邊界 [497]，并在學術界、工業界及實際應用中產生了深遠影響 [205, 569]。盡管具備巨大潛力，現代LLMs和PLMs的體量與復雜性仍對研究和產業界構成嚴峻挑戰 [539, 802]。以LLama-3為例 [424, 333]，這是當前最先進、計算要求最高的LLM之一 [152, 766]。其架構包含約3000億個參數，采用復雜的多頭注意力機制 [256, 170, 27, 514, 810]，在多項任務上達到了SOTA水平 [507, 486]。然而，如此強大的模型，其微調過程極其復雜 [12, 127]，需要動用龐大的計算基礎設施，例如PB級存儲系統、超高帶寬內存接口，以及大量高性能GPU陣列 [380, 655]。有效地微調LLama-3 [152, 445]，往往需配置數百乃至數千顆數據中心級GPU，常見如NVIDIA A100或H100 [242, 806]。盡管這些GPU配備數十GB的高帶寬內存（HBM），仍不足以單獨容納LLama-3的全部參數、中間激活值和優化器狀態。因此，必須通過多個GPU協同部署模型及其訓練流程。為了確保訓練效率，必須精心編排分布式訓練范式 [454]，包括張量并行 [665, 336, 656]、流水線并行 [260, 629, 481, 760] 和模型分片 [353, 374] 等策略，以保持吞吐率并實現負載均衡。這種基礎設施的復雜性及其運維成本，極大限制了此類模型的微調可及性和可部署性 [151]。傳統微調方式 [368, 614] 需針對每個新任務更新模型的所有參數，在模型規模不斷擴大的背景下，這種做法日益難以為繼。解決這一問題對于發揮LLMs和PLMs的最大潛能至關重要 [613]。若能優化其部署與微調過程 [616, 534]，不僅可降低計算開銷，還能提升模型在多種任務中的適應性，確保其在不同場景中持續發揮作用 [582, 709]。縮小這一差距對于實現技術民主化具有重要意義，有助于資源有限的組織也能充分利用如LLama-3 [547, 382] 這類強大模型，并應用于新興領域 [488, 232]。本研究的核心問題是：LLMs 和 PLMs 的資源需求及微調挑戰有哪些？又該如何應對以優化其部署與適配？這一問題旨在揭示現有方法的關鍵瓶頸，并探索提升效率與可用性的策略。本研究的目標是系統分析LLMs、VLMs 與 LMMs [435, 538, 575] 所面臨的計算與微調挑戰，并識別優化其部署與微調的可行策略 [6, 99]。通過系統性的分析，本文旨在為研究人員與工程實踐者提供可操作的指導，幫助他們突破現有模型的使用限制。我們假設：要實現LLMs的最佳性能，需投入大量的計算資源與調優專業知識。然而，參數高效微調（PEFT）[520, 634, 311]等策略——只更新模型中一小部分參數——能夠在大幅減少計算資源需求的同時，維持甚至提升模型性能 [734]。通過探索和驗證這些方法，本研究希望推動對LLMs與PLMs更深入的理解與普及，為其在AI研究與應用中的高效使用奠定基礎 [570, 207]。 PEFT方法 [384] 作為一種替代方案，通過顯著減少可訓練參數 [69, 628, 291]，提升了微調過程的可訪問性、可擴展性與可持續性。例如，adapter模塊、prefix-tuning [444, 517, 76, 427]、LoRA（低秩適配）[17, 130, 335]、BitFit 以及 prompt tuning 等方法，在多項基準測試中展現出與完整微調相當甚至更優的性能，而資源消耗僅為其一小部分。PEFT尤其適用于實際應用中需處理多個任務、資源受限或需部署于邊緣設備的場景。盡管PEFT的應用愈發廣泛，但當前仍缺乏系統性的理解框架，涉及其設計空間、方法權衡及跨模態適用性等方面。為填補這一空白，本綜述系統回顧了語言與視覺模型中的PEFT方法 [735]。我們首先分析標準微調在計算與內存層面上的限制，并討論其固有弊端。接著提出一套統一的分類體系，將PEFT方法劃分為五大類：加性、選擇性、重參數化、混合式與統一式方法，提供一個結構化視角用于理解與比較各類策略。此外，我們評估了PEFT在NLP [286, 148]、計算機視覺、多模態任務與生成建模等多個領域中的應用，展示其在提升效率、促進泛化與實現更負責任AI方面的潛力。最后，本文還識別了該領域面臨的關鍵挑戰與開放問題，包括可解釋性、理論基礎構建與特定領域的適配 [68, 701]，并提出未來可能的研究方向。通過本綜述，我們希望為研究者與從業者提供一份清晰、全面的PEFT方法指南，幫助他們構建更高效、可適應的AI系統。

2 主要貢獻

本綜述的主要貢獻總結如下： * 全面的資源分析：深入探討對大規模預訓練模型（PLMs與LLMs）進行完整微調時的計算、內存與存儲需求，重點分析研究者在基礎設施受限條件下的實際挑戰。 * 微調局限性的批判性分析：討論傳統微調策略在低資源任務中過擬合、持續學習中的災難性遺忘、參數更新冗余及可擴展性瓶頸等問題。 * 統一的PEFT方法分類體系：提出一套將PEFT方法分為五大類（加性、選擇性、重參數化、混合式、統一式）的結構化分類體系，用以明確比較不同設計策略及發現共性。 * 代表性方法的對比分析：對LoRA、adapter、BitFit、prompt tuning 和 prefix-tuning 等主流方法進行橫向評估，分析其參數效率、性能權衡與實現復雜度。 * 跨領域應用調研：梳理PEFT在NLP、計算機視覺、多模態學習、語音和生成建模等領域的應用，突出其在魯棒性、可遷移性和實際可用性方面的優勢。 * 專用場景下的適配研究：探索PEFT在持續學習、聯邦學習、隱私保護微調、領域適應與低資源語言支持等新興領域的應用前景。 * 實證研究與趨勢總結：總結近期實證研究與性能基準，揭示PEFT研究中的趨勢與各方法適用條件。 * 開放問題與未來方向：指出當前PEFT方法面臨的難點，如可擴展性、可解釋性欠缺、理論支持不足與標準化缺失，并呼吁構建具語義感知與架構敏感性的設計。 * 可操作性總結與實用指南：為實踐者提供實用指南，幫助他們依據資源預算、任務類型與模型結構，選擇合適的PEFT方法。

本文結構安排如下：第1節闡述研究背景與動機，聚焦大規模基礎模型（如大語言模型LLM、視覺大模型VLM、多模態大模型LMM）的崛起趨勢，以及參數高效微調（PEFT）方法在降低全參數微調高昂計算與資源成本方面的必要性。第2節概述本綜述的核心貢獻，包括：建立PEFT方法系統分類體系、評估其效能折衷關系、深入探討跨領域應用場景與局限性。第3節闡釋PEFT理論基礎，涵蓋注意力機制、自注意力、多頭配置、Transformer架構等核心概念，結合復雜度與擴展性分析揭示全參數微調的低效本質。第4節詳述PEFT策略設計的關鍵架構與實踐考量，包括設計目標、量化決策空間、任務自適應路由機制，以及面向多模態場景的內存-時間-能效優化策略。第5節闡述核心PEFT方法體系，包含串/并行適配器的增量微調、面向任務特化的混合適配器、軟提示調優，以及LoRA等重參數化方法，并探討擴展規律、選擇性微調和基于MoE的混合框架等前沿方向。第6節通過GLUE等基準數據集實證評估PEFT方法，在NLP任務和大模型推理場景中揭示參數量與性能的權衡規律。第7節探索PEFT技術在自然語言處理、計算機視覺、多模態學習及機器人等領域的應用實踐，突出其跨域適應性與領域特異性優勢。第8節量化分析不同PEFT策略的計算、內存與擴展復雜度，從理論與實踐雙維度對比其效率特征。第9節系統總結PEFT方法的優勢與局限，重點討論參數效率、適應能力、泛化性能及實際部署中的約束條件。第10節指出現有PEFT方法的四大核心缺陷：啟發式依賴、理論欠缺、可解釋性不足與標準化缺失，強調發展語義感知與架構敏感的創新型設計之迫切性。第11節展望六大前沿研究方向：參數影響力理論建模、分層調優策略、持續學習融合、可解釋性框架、基準測試體系及隱私保護型PEFT。第12節總結PEFT技術在推動大模型高效擴展應用中的關鍵作用，及其對構建資源友好型人工智能生態的戰略意義。

付費5元查看完整內容

大語言模型 · 復雜推理 · DeepSeek-R1 ·

4 月 17 日

[付費5元查看完整內容]大語言模型復雜推理的自我進化機制：研究綜述與前沿展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

OpenAI的O1及其后續競爭者（如DeepSeek R1）的發布顯著推動了大語言模型（Large Language Models，LLMs）在復雜推理方面的研究，引發學術界與工業界的雙重關注。此項進展激發了相關技術成果的復現和在此基礎上的創新。為系統構建該領域的研究框架，本文從自我進化（self-evolution）的角度系統地分類了現有技術。我們的調查發現分為三個相互關聯的部分：數據進化（data evolution）、模型進化（model evolution）和自我進化（self-evolution）。

數據進化部分改進推理訓練數據，這包括任務進化和增強思維鏈（Chain-of-Thought，CoT）推理的推理時間計算。

模型進化部分通過在訓練過程中優化模型模塊，以增強復雜推理能力。

自我進化部分則探討其進化策略和模式。包括自我進化的規模法則（scaling law）與對 O1 類研究工作的分析。

通過系統梳理相關研究，我們總結了前沿方法，并提供了對未來研究方向的前瞻性展望。本文旨在激勵LLM復雜推理社區進一步研究，并促進對LLM推理能力提升的深入探索。

關鍵詞：大語言模型、復雜推理、自我進化、數據進化、模型進化、專家迭代、推理計算、強化學習

Tao He, Hao Li, Jingchang Chen等丨作者

Azure丨譯者

論文題目：A Survey on Complex Reasoning of Large Language Models through the Lens of Self-Evolution

論文地址：//www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution

作者 | Tao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu, Bing Qin

引言
預備知識
數據演化
模型演化
自我進化
在自我進化框架內重新解讀代表性O1類研究
未來挑戰和方向
結論

摘要

數據進化部分改進推理訓練數據，這包括任務進化和增強思維鏈（Chain-of-Thought，CoT）推理的推理時間計算。

模型進化部分通過在訓練過程中優化模型模塊，以增強復雜推理能力。

自我進化部分則探討其進化策略和模式。包括自我進化的規模法則（scaling law）與對 O1 類研究工作的分析。

引言

近年來，大語言模型（LLMs）的發展令人矚目。它們不僅在閱讀理解、故事生成和對話能力等領域超出了預期，還在需要復雜邏輯推理的任務中表現出色，包括代碼生成和數學問題解決。2024年下半年，LLM研究迎來了一個關鍵時刻，OpenAI發布了O1 [OpenAI, 2024a]，這標志著復雜推理研究的一個重要里程碑。O1系列模型能夠生成衍生的推理過程，靈活地分解問題，并在面臨挑戰時自主澄清、反思和糾正潛在錯誤，以及探索替代解決方案——模擬了人類思維特有的細致、反思性推理過程 [OpenAI, 2024b]。

工業界和學術界都致力于復現O1，掀起了一股技術報告的熱潮。

在工業界，一系列類似的產品涌現，例如DeepSeek R1 [DeepSeek-AI et al.,2025]（簡稱R1）、Kimi k1.5 [Team et al., 2025]和QwQ [Team, 2024b]，它們都發布了自己的模型或技術報告。這些產品不僅達到甚至超越了O1，而且其開源貢獻也值得稱贊。此外，這些技術報告中強調的擴展強化學習（Scaling Reinforcement Learning）等技術，進一步拓展了研究類O1工作的方向。

在學術界，研究者從不同角度進行了多項復現研究。例如，O1 Journey [Qin等，2024; Huang等，2024] 廣泛討論了思維鏈格式化和蒸餾，但對持續優化方法的見解有限。與此同時，OpenR [Wang等，2024e]、O1-Coder [Zhang等，2024j]等工作主要通過強化學習的視角研究O1，但忽略了對反思和糾正推理操作的討論。另一方面，Slow Thinking系列工作[Jiang等，2024a; Min等，2024]專注于推理時計算，嘗試通過樹搜索技術提升推理性能。此外，rStar-Math [Guan等，2025] 通過使用自我進化框架聯合訓練推理器和過程獎勵模型（Process Reward Model, PRM），實現了接近O1的性能，突顯了迭代優化在提升推理能力方面的潛力。

盡管這些技術報告提供了寶貴的見解，但它們往往僅聚焦于特定技術領域，缺乏整體性的技術架構和統一的分類標準。因此，我們需要對這些方法進行系統性的高層次綜述。O1博客 [OpenAI, 2024a] 和系統卡片 [OpenAI, 2024b] 提示O1采用了強化學習（RL）和推理時計算。這使我們聯想到另一個杰出的人工智能——AlphaGo Zero [Silver等，2017]。AlphaGo Zero通過自我對弈、蒙特卡洛樹搜索（MCTS）和策略模型的迭代學習實現了自我進化 [Silver et al., 2017] 。這一過程在無人干預的情況下提升了其性能，啟發我們采用類似技術或許能將復雜推理能力提升至超越人類的水平。在這個類比中，訓練策略模型對應于推理優化，而MCTS搜索則對應于推理時計算。自我進化通過循環這兩個階段，實現推理能力的自主提升。此外，高質量數據的匱乏凸顯了自動化數據合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f]，由于推理任務對邏輯嚴謹性要求更高，這一挑戰尤為突出。因為推理任務對邏輯嚴謹性有更高要求。在無人干預的情況下，自我進化不僅能利用合成數據來增強系統能力，還可以利用改進的系統合成更高質量的數據，創造一個良性循環推進過程。

鑒于這些考慮，本文希望從自我進化的視角對大語言模型的復雜推理提供全面綜述。大語言模型復雜推理的自我進化，亦稱自我改進（self-improvement），其需要在閉環推理系統中自主合成訓練數據并持續提升推理能力 [Tao等，2024; Hu等，2024]。專家迭代（Expert iteration）[Polu等，2022; Zhao等，2024b] 被視為典型的自我進化范式。其核心思想是：模型首先生成推理軌跡，再基于標準答案篩選出正確解決方案，最后利用這些解決方案對模型進行微調，以提升其推理能力。這一過程進行迭代，直至模型收斂。此外，在線強化學習框架同樣體現了自我進化的理念。智能體首先進行探索并生成軌跡，然后利用這些軌跡進行自我優化，從而在后續的學習周期中發現更高質量的軌跡。

圖1：大語言模型中自我進化復雜推理能力的概念框架。我們在完整的自我進化框架中識別出三個組成部分：數據進化、模型進化以及進化策略和模式。

如圖 1 所示，本綜述的結構由三個部分組成：數據進化、模型進化和自我進化。數據進化探索合成高質量數據，包含兩個階段：（1）任務進化生成推理系統尚未能有效處理的任務，（2）思維鏈（CoT）進化通過擴展推理時計算 [Snell等，2024] 擴展大語言模型的性能邊界，并通過思維鏈（Chain-of-Thought, CoT）[Wei等，2022] 推理生成更好的解決方案。然而，性能的提升可能源于啟發式搜索算法而非模型的固有能力，這從模型無法持續生成高質量思維鏈的證據可見一斑。模型進化通過提升系統模塊來解決這些問題。一方面，模型專門針對它們曾經困難的任務進行訓練；另一方面，它們從收集的數據中有選擇地學習，以真正擴展其能力邊界。前兩種進化代表了探索性和發散性努力，旨在研究實現數據和模型進化的有前景技術和挑戰。這為自我進化奠定了數據合成策略和優化方法的技術基礎。在第三部分，我們專注于推理系統的自我進化框架。通過迭代進行數據進化和模型進化，推理系統實現自我進化：數據進化基于當前模型生成更有針對性、更高質量的數據，而模型進化則利用收集的數據進一步強化模型，為下一輪數據進化提供更堅實的基礎。

我們的貢獻可總結如下：（1）全面綜述：這是首個聚焦于推理自我進化的大語言模型綜述；（2）分類體系：我們在圖2中構建了一個詳細的分類體系；（3）理論基礎：我們整理了相關的基礎理論，并探討了自我進化的規模法則；（4）前沿與未來：我們分析了自我進化框架內的最新開源研究，并為未來研究指明方向。

圖2：先進方法的分類，包括數據進化、模型進化和自我進化。

付費5元查看完整內容

大語言模型 · 推理經濟性 ·

4 月 1 日

[付費5元查看完整內容]高效推理的集約化探索：大語言模型推理優化綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型（LLMs）的最新進展顯著提升了其執行復雜推理任務的能力，實現了從快速直覺思維（系統1）到緩慢深度推理（系統2）的跨越。 盡管系統2推理能提高任務準確性，但其“慢思考”特性以及低效或不必要的推理行為往往導致巨大的計算成本。相比之下，系統1推理計算效率更高，但性能表現欠佳。因此，如何在性能（收益）與計算成本（預算）之間取得平衡至關重要，這也催生了“推理經濟性”的概念。本綜述對LLMs訓練后階段和測試時推理階段的推理經濟性進行了全面分析，涵蓋： 1. 推理低效的成因； 1. 不同推理模式的行為分析； 1. 實現推理經濟性的潛在解決方案。

通過提供可落地的見解并指出開放挑戰，我們旨在為優化LLMs推理經濟性的策略提供啟示，從而推動這一新興領域的深入研究。此外，我們開放了一個公共資源庫，持續追蹤這一快速發展領域的最新進展。

**1 引言

大語言模型（LLMs）在各類語言理解與生成任務中展現出卓越性能，尤其是伴隨思維鏈（Chain-of-Thought, CoT）提示（Wei et al., 2022）技術的出現，該技術要求模型通過顯式的分步推理生成最終答案。盡管LLMs在多數場景中表現優異，但其依賴快速直覺思維的機制在面對復雜推理挑戰（如高階數學（AIME, 2025; Zhong et al., 2023）與編程任務）時往往力有不逮。為此，近期研究試圖通過慢速深度思考（Wang et al., 2025a）進一步提升LLMs的推理能力，例如OpenAI的o1（OpenAI, 2024）、DeepSeek的R1（DeepSeek-AI et al., 2025）與QwQ（QwQ, 2025）等模型，從而催生了大推理模型（Large Reasoning Models, LRMs）的興起與推理階段的新擴展定律（Snell et al., 2024）。然而，這一進步代價高昂。此類LRMs需耗費顯著更長的思考時間以生成冗長的CoT推理鏈，導致巨大的推理開銷。但并非所有任務均需如此深度的思考——任務復雜度各異，若對所有問題采用“一刀切”策略，將造成計算與時間資源的浪費。更甚者，長推理鏈中的大量標記（tokens）往往對最終答案無實質貢獻。研究發現，LRMs常將過量資源（Wu et al., 2025; Cuadron et al., 2025）浪費于無效思考（如“過度思考”），卻未為真正困難的問題分配足夠算力（如“思考不足”）（Snell et al., 2024; Wang et al., 2025e）。 能力與效率的失衡引出了一個核心挑戰——實現推理經濟性（Reasoning Economy），即通過優化標記使用（預算）、減少冗余步驟、動態調整算力分配，達成全局最優解。這不僅可提升LRMs的效率，還能像人類一樣“智能”地停止或深入思考（Aggarwal et al., 2023; Kimi Team et al., 2025），充分釋放模型潛力。隨著推理經濟性日益重要，亟需系統性地理解LRMs的推理行為、揭示高效化面臨的挑戰，并明確解決方案。本綜述首次對LRMs的推理經濟性進行全面系統的梳理。具體而言，我們首先建立LRMs的理論基礎（§2），解析訓練后方法（§2.1）（如監督微調與強化學習）如何塑造推理行為，以及測試時策略（§2.2）（如并行與序列化推理）如何影響模型表現。基于此，我們深入分析推理經濟性的挑戰（§3），將其歸類為模型自身的低效行為（§3.1）或測試時的低效使用（§3.2）。最后，我們從兩方面探討優化推理經濟性的解決方案： 1. 訓練后行為調控（§4）：從數據、算法乃至模型架構源頭修正不良推理模式； 1. 測試時動態計算適配（§5）。此外，我們討論了開放挑戰并展望未來研究方向（§6）。通過提供清晰的結構化路線圖，本研究旨在為推動更可持續的LRMs發展提供可落地的指導。

付費5元查看完整內容

推理大模型 · 大型語言模型 · 推理大語言模型 · 思維鏈 ·

3 月 13 日

[付費5元查看完整內容]邁向推理時代：大型語言模型的長鏈推理研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（RLLMs）在推理領域取得了顯著進展，例如OpenAI-O1和DeepSeek-R1，它們在數學和編程等復雜領域中展現了令人印象深刻的能力。其成功的一個核心因素在于長鏈推理（Long CoT）特性的應用，這種特性增強了模型的推理能力，使其能夠解決復雜問題。然而，盡管取得了這些進展，目前仍缺乏對長鏈推理的全面綜述，這限制了我們對其與傳統短鏈推理（Short CoT）區別的理解，也使關于“過度思考”和“測試時間擴展”等問題的討論更加復雜。本綜述旨在填補這一空白，為長鏈推理提供一個統一的視角。 1. 區分長鏈推理與短鏈推理：我們首先明確長鏈推理與短鏈推理的區別，并引入一種新的分類法來對當前的推理范式進行分類。 1. 長鏈推理的核心特性：我們探討長鏈推理的三大關鍵特性——深度推理、廣泛探索和可行反思。這些特性使模型能夠處理更復雜的任務，并生成比淺層短鏈推理更高效、更連貫的結果。 1. 關鍵現象研究：我們研究了長鏈推理中的關鍵現象，例如伴隨這些特性出現的“過度思考”和“測試時間擴展”，并深入分析這些現象在實際中的表現。 1. 未來研究方向：最后，我們指出了當前研究中的重要空白，并強調了未來的潛在方向，包括多模態推理的整合、效率提升以及知識框架的優化。通過提供結構化的綜述，本文旨在啟發未來的研究，并推動人工智能邏輯推理的進一步發展。

1 引言近年來，隨著推理型大型語言模型（RLLMs）的出現，例如OpenAI O1 [208] 和DeepSeek R1 [155]，針對長鏈推理（Long Chain-of-Thought, Long CoT）的研究逐漸增多，這些研究極大地提升了模型在數學推理、編程任務以及多學科知識推理方面的能力 [488, 686, 508, 50, 58, 673, 133, 776]，如圖1所示。這一轉變標志著與傳統大型語言模型（LLMs）任務處理方式的顯著不同 [798, 437, 439, 421]。與傳統LLMs中使用的短鏈推理（Short CoT）不同，長鏈推理通過在測試時間擴展（test-time scaling）[299, 520, 364] 的支持下，在問題空間內進行更詳細、迭代的探索和反思。這一過程在數學和邏輯推理方面取得了顯著進展，同時也探索了監督微調（SFT）和強化學習（RL）技術如何增強對擴展推理鏈的學習和探索 [440, 385]。然而，目前尚無系統的綜述來全面理解長鏈推理的主要因素及其在RLLMs中的最新進展，這阻礙了RLLMs的進一步發展。因此，關于“測試時間擴展”對長鏈推理的有效性 [610, 343] 與“過度思考”可能對LLMs造成損害并引入不必要復雜性 [73, 96, 251] 的爭論仍在持續。此外，一些研究者認為，在解決特定問題時，推理鏈的長度與準確性之間并無明確關聯 [622]。為了填補這一空白，本文對長鏈推理進行了廣泛而全面的綜述。具體而言，如圖2所示，我們首先定義并分析了長鏈推理與傳統短鏈推理的區別，重點關注以下關鍵方面：（1）深度推理，即需要足夠的邏輯處理深度來管理大量的推理節點；（2）廣泛探索，即生成并行的不確定節點，并從已知邏輯過渡到未知邏輯；（3）可行反思，即對邏輯連接進行反饋和優化。這些特性使長鏈推理范式能夠整合更復雜的推理過程，并適應更廣泛的邏輯結構，最終生成更高效、更連貫的結果。隨后，我們系統地探討了與長鏈推理相關的關鍵現象，例如其涌現性、過度思考現象、測試時的推理時間擴展以及“頓悟時刻”（Aha Moment）等。據我們所知，這是首次針對這些具體主題進行的全面綜述。最后，基于大量文獻，我們指出了未來研究的前沿方向，并建議了一些有價值的開源框架和數據集，為未來的研究提供基礎。本文的主要貢獻如下：系統性區分：本文首次提出了長鏈推理的概念，并將其與傳統短鏈推理區分開來，從而為理解這兩種范式及其特性提供了清晰的框架。熱點現象解釋：我們系統地研究了與長鏈推理相關的顯著現象，例如過度思考、測試時推理時間擴展以及“頓悟時刻”，為復雜推理中的認知過程提供了有價值的見解。新興挑戰與前沿：我們探討了長鏈推理領域的新興挑戰，并指出了關鍵的研究前沿。基于大量文獻，我們強調了進一步研究可能顯著推動長鏈推理方法發展的領域。長鏈推理與短鏈推理的討論本節形式化地闡述了長鏈推理（Long CoT）與短鏈推理（Short CoT）之間的關鍵區別，重點在于推理深度、連接的重訪以及邏輯節點的探索 [607]。這些區別與系統1（System 1）和系統2（System 2）思維模式明顯不同。長鏈推理與短鏈推理的比較是在系統2的框架內進行的，其中長鏈推理涉及更徹底的推理、反思和探索，而短鏈推理通常優先考慮淺層且高效的邏輯，而非窮盡式的推理。

付費5元查看完整內容

大模型推理 · 強化推理 · 大型語言模型 ·

1 月 17 日

[付費5元查看完整內容]邁向大型推理模型：基于大型語言模型的強化推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言長期以來被認為是人類推理的基本工具。大型語言模型（LLM）的突破激發了大量研究興趣，推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程，如樹搜索和反思性思維。近年來，學習推理的趨勢逐漸興起，強化學習（RL）被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡，大大擴展了LLMs的推理能力，通過提供大量的訓練數據。此外，近期研究表明，鼓勵LLMs在推理過程中使用更多標記（即“思考”）進行測試時推理，能夠顯著提升推理準確性。因此，訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中，我們對LLM推理的最新進展進行了全面回顧。首先，我們介紹LLM的基礎背景，然后探討推動大型推理模型發展的關鍵技術組成部分，重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目，致力于構建大型推理模型，并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失，思維也將會嚴重缺失。” — 諾姆·喬姆斯基得益于深度學習的進展和大規模數據集的可用性，大型語言模型（LLMs）已成為邁向人工通用智能（AGI）的轉型性范式。這些龐大的AI模型通常采用Transformer架構，并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明，隨著模型規模和訓練數據的增加，它們的性能顯著提升 [59]。更重要的是，LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159]，例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題，能夠處理更廣泛的任務，如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中，人類般的推理能力受到了學術界和工業界的廣泛關注，因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160]，該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理，而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性，并推動了“樹狀思維” [172] 等更高級提示技術的發展。這些方法引入了“思維”這一概念，將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟，LLMs的推理超越了簡單的自回歸標記生成，能夠實現更復雜的認知架構，如樹搜索 [172] 和反思性推理 [180]。

近年來，學習推理成為一個重要的研究趨勢 [103]，其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂，特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題，近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題，借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是，研究人員提出了在這些推理軌跡上訓練過程獎勵模型（PRMs） [183]。PRMs可以提供密集的逐步獎勵，促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴，并創造了一個“強化循環”，有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展，正如理查德·薩頓所預測的那樣 [139]。因此，這一新興范式通過增加訓練時的計算資源，實現了LLM推理能力的擴展，為更高級的推理模型鋪平了道路。

此外，近期的研究表明，增加測試時計算資源也可以提高LLM的推理準確性。具體而言，PRMs可以引導LLMs評估并搜索中間“思維”過程 [134]，鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟，從而提升推理準確性。這一方法促成了測試時擴展法則，該法則預測，在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此，基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合，展示了一個有前景的研究方向，旨在充分釋放LLMs的推理能力，即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑，展示了該方法的有效性，并呼應了OpenAI在邁向AGI的五步路線圖中，從對話AI（一級）到更強大推理AI（二級）的過渡愿景 [36]。一些開源項目，如OpenR [145]、LLaMABerry [185] 和Journey Learning [110]，致力于復現OpenAI的o1強大推理能力，為大型推理模型的開發提供了寶貴的見解。

在本綜述中，我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言，第三節聚焦于訓練數據構建，強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法，重點討論訓練時計算資源的增加；第五節則討論了測試時擴展，特別是基于PRM引導的搜索。在第六節中，我們分析了OpenAI的o1系列及其他開源項目，探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術，第八節回顧了推理基準測試。最后，我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段，有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前，我們首先概述一般LLM預訓練的基本過程。通過預訓練，LLMs不僅獲得了核心的語言知識，還掌握了多樣化的世界知識，為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常，LLM預訓練依賴于高質量的文本語料庫，包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫，LLMs基于Transformer架構，通過下一個詞預測任務進行訓練。預訓練后，LLMs通常表現出卓越的上下文學習能力，能夠生成連貫的文本，并利用其龐大的知識庫回答各種問題。值得注意的是，預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如，研究表明，富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察，新開發的LLMs開始引入精心設計的合成數據，以增強LLMs的推理能力。在預訓練過程中，一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例，以保持強大的語言能力，同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力，但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里，我們首先概述基本的微調過程，然后探討其在增強推理能力方面的潛力。如文獻[104]所述，預訓練階段結束后，LLMs進入監督微調階段（SFT），也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格，確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的，這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現，新的方法涌現出來，用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術，以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集，微調過程繼續使用下一個詞預測目標，類似于預訓練。然而，與預訓練不同的是，微調特別計算答案的損失，而通常忽略問題的損失。此外，結合包含思維鏈（CoT）推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力，這使其成為一個活躍的研究領域。遵循一般實踐，大多數當前方法利用從高級大型推理模型中提取的數據進行微調，以增強LLMs的推理能力，從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練，這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中，對齊階段通常涉及使用人類反饋的強化學習（RLHF）等方法，以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比，這一階段通常包含大量精心策劃的人工標注的排名數據，以準確反映人類偏好。這些數據不僅包括正確的示范，還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型，這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本，提出了直接偏好優化（DPO）等方法，以減少對顯式獎勵模型的依賴。在DPO中，偏好損失被定義為策略的函數，以直接指導模型優化。鑒于推理問題的多步驟性和復雜性，基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型，基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠，但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法：逐步推理、多路徑探索和基于分解的方法。逐步推理方法以思維鏈提示為例，展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示，如“讓我們一步一步地思考”，也能有效地引導推理過程。這種方法通過自我一致性（Self-Consistency）進一步改進，生成多個推理路徑以得出更可靠的結論，以及自動生成有效推理鏈的Auto-CoT。多路徑探索方法超越了線性推理，同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構，從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構，允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起，豐富了這一范式，從而能夠更動態地與外部環境互動。對于復雜問題，基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件，而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。這些廣泛的推理能力通過結構化提示策略得到增強，在處理需要仔細分析和系統思考的任務時特別有效，使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明，盡管LLMs具備固有的推理能力，但通過提示過程中的仔細引導和結構，可以充分釋放其潛力。 2.5 代理工作流在LLMs的指令遵循和上下文學習能力之上，研究人員開始設計代理工作流，以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力，但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力，使LLMs能夠高效地推廣到未見問題，而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題，但最近的研究表明，上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景，例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明，有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建：從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而，由于成本高昂，這一任務面臨重大挑戰。如圖1所示，人工標注被廣泛認為是高質量的，但其成本高昂且難以擴展。相反，使用LLMs自動化標注過程提供了一種更具成本效益的替代方案，但面臨驗證有限的挑戰，特別是對于逐步推理過程。在本節中，我們回顧了該領域的最新研究進展（總結在表1中），強調了從人工標注到LLM自動化的轉變。 3.1 人工標注人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征，同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明，即使使用最少的人工標注數據，模型也能實現強大的性能，突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習（RLHF）的背景下，來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎，Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性，顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰（如復雜推理任務）之間的差距。增強LLMs的推理能力需要過程監督，即人工標注者指導推理過程的每一步[75]。然而，這種監督需要大量的人工標注數據，使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據，其數量對模型性能至關重要，完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注，利用LLMs加速標注過程，同時保持人工生成標注的高質量。具體來說，標注過程可以分為兩個階段：預標注階段和精煉階段。在預標注階段，LLMs可以用于執行初始標注，利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段，人工標注者可以評估LLM生成標注的質量，并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程，最近的工作越來越關注如何在確保數據質量的同時最大化自動化，從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務，特別是在需要復雜操作（如過濾、識別、組織和重構文本數據）的場景中。這些任務通常繁瑣、耗時，并且需要大量的人力，使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰，利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記，LLMs可以輕松處理長文本和大規模結構化數據[2]，以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景，同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務，LLMs顯著減少了對人力的依賴，簡化了標注過程，并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務，從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下，LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如，Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置，LLM能夠理解周圍上下文中的邏輯關系，生成相關問題，并確定適當的工具API來解決問題。當有人工示范時，LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務，人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明，即使是零樣本LLMs，在基于人工示范的任務無關提示下，也能有效地執行標注任務[65]。此外，對于涉及高度復雜和細微軌跡的任務，LLMs可以結合專門的代理，如計劃代理、工具代理和反思代理，以解決標注過程的不同方面，從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務，LLMs不僅推斷潛在邏輯結構，還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果，還捕捉導致這些結果的完整推理過程的標注數據集，為下游應用提供更豐富的見解。除了基于人工示范的標注外，LLMs可以通過帶有反饋的搜索獨立增強其標注能力，這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式，作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據，LLMs參與了一個自我改進的循環，增強了其理解和推理能力[70]。此外，LLMs可以系統地分析其錯誤的原因，提取關鍵見解并將其編碼為自學習知識，以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對，從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制，LLMs不僅解決了錯誤，還開發了更強大的推理能力，使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注在復雜的推理任務中，模型輸出的每一步都可能顯著影響最終結果，因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵，即過程標注。然而，手動標注這些步驟既昂貴又耗時。例如，Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集，即PRM800K，該數據集滿足了訓練有效過程獎勵模型（PRM）的要求，并大大增強了LLMs的推理能力。因此，自動化方法越來越需要高效的過程標注，以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外，基于蒙特卡羅的方法減少了對外部更強LLMs的依賴，可以使用較弱的LLMs完成數據標注，從而通過自我強化的方式訓練更強的LLMs。使用更強的LLM進行標注：作為一種直接的自動化標注方法，Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注，而是使用預訓練的高性能模型（如GPT系列）來評估每個生成的步驟。通過利用更強外部模型的能力，這種方法提高了標注過程的準確性和可擴展性，使其更適合大規模任務。然而，這種方法的主要限制在于其對高度能力的外部模型的依賴，這意味著標注過程的性能最終受限于所使用的外部模型的能力。通過蒙特卡羅模擬進行標注：為了減少對強大外部模型的依賴，Wang等人[148]和Wang等人[156]提出了一種改進方法，避免直接評分中間步驟。相反，他們的方法使用外部模型從給定的中間輸出繼續推理幾步，并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。通過樹搜索模擬進行標注：使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率，Luo等人[85]提出了一種改進方法，用蒙特卡羅樹搜索（MCTS）策略取代重復的蒙特卡羅模擬。在這種改進方法中，使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比，MCTS利用樹搜索提高推理質量，同時允許葉節點共享高質量的父節點，減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能，超越了人工標注。在基于MCTS的模擬基礎上更進一步，Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數（PRM），進而提高大型語言模型（LLM）的性能。精煉后的LLM隨后用于重復基于MCTS的模擬，生成更高質量的標注。這種涉及改進循環的迭代過程，通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色，包括數學問題解決、問答和多領域知識推理，展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理：從監督到強化微調

雖然預訓練模型在各種任務中表現出色，但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要，可以優化模型在特定任務上的表現并增強其推理能力。最初，使用監督微調（SFT），模型從標注數據集中學習任務特定的模式。然而，隨著推理挑戰的增加，強化學習（RL）和直接偏好優化（DPO）等方法提供了更有效的方法，使用獎勵模型更高效地將模型的輸出與類人推理對齊，促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM：監督微調監督微調（SFT）是一種學習技術，它使用標注數據優化預訓練模型在特定任務或領域的能力，同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征，但微調通過將模型暴露于較小的、任務特定的數據集（具有清晰的輸入-輸出映射）來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟，通過將其從通用系統適應為領域特定工具，使其能夠應用于下游任務。例如，像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練，賦予它們廣泛的語言理解和生成能力。然而，它們的輸出并不總是與任務特定要求對齊。如果沒有微調，LLMs在某些推理任務上往往表現不佳，例如對象計數、衛星理解和工程問題回答。通過SFT，我們可以基于標注的任務特定數據集優化模型的輸出，從而部分解決這些挑戰。然而，直接應用SFT可能無法充分探索模型在所需領域中的推理能力，特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程，通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT，LLMs被鼓勵顯式生成中間推理步驟，從而增強其推理能力，以應對需要更結構化和有組織思維的任務。例如，ReasonBert[29]表明，使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現，通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性，并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調，模型不僅提高了最終答案的準確性，還增強了其“思考”問題的能力，提供了對模型推理過程的更清晰見解。盡管SFT方法多樣且表現優異，但它也存在一些局限性。首先，SFT嚴重依賴高質量的標注數據集，這些數據集的策劃成本高昂且耗時，特別是對于需要專家標注的利基領域或任務。其次，SFT可能導致災難性遺忘，即模型在微調過程中失去一些預訓練的通用知識，降低了其在微調領域之外的推理任務的實用性。最后，即使采用參數高效的方法，大規模模型的微調計算成本仍然很高，對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法，如提示調優或多任務微調，以平衡任務專業化和泛化。

4.2 優化預訓練LLM：強化學習由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本，強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同，RL使模型能夠通過試錯獎勵信號學習，發現實現特定目標的最佳策略。如圖2（a）所示，模型根據其當前狀態采取行動，并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數，優化累積獎勵。經典強化學習：RL已成為LLMs發展的關鍵步驟。在RL框架中，LLMs的參數根據其行動的獎勵進行更新。具體來說，價值函數或Q函數根據獎勵模型的反饋進行更新，將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架，使其在概念上更直接，同時增強了模型有效響應的能力。目前，兩種關鍵方法主導了LLMs的RL訓練：人類反饋強化學習（RLHF）和AI反饋強化學習（RLAIF）。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外，通過在人類標注的示范和排名比較上微調GPT-3，他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊，盡管規模較小，但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架，他們對基礎模型進行微調，使用拒絕采樣訓練偏好模型，并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。為了減少對大規模人類標注數據集的依賴，Bai等人[9]提出了Constitutional AI，這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段：監督學習和RLAIF。在監督階段，模型基于憲法原則批評和精煉其輸出，創建微調數據集。在RLAIF階段，模型生成自我評估以指導訓練，繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs，一個用于基于RL的微調的庫，以及GRUE基準，該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰，他們提出了自然語言策略優化算法，通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。直接偏好優化：經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程，無需顯式獎勵模型。DPO不是優化復雜的獎勵函數，而是使用成對偏好比較，即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程，同時保留了基于RL方法對齊的好處，通常更簡單且更有效。Rafailov等人[112]引入了DPO，這是一個用于對齊語言模型的新框架，它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略，DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明，DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法（如PPO），同時更穩定、計算效率更高，并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化（ODPO），這是DPO的擴展，用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移，與質量差異成比例。這種方法不僅改進了對齊，還增強了模型的推理能力，特別是在情感控制、毒性減少和摘要等任務中。實驗表明，ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。總之，RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵，這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程，避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務，最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理對于復雜的推理任務，如數學問題解決，LLMs需要執行多步推理（如思維鏈）以最終得出準確的解決方案。在這些任務中，獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2（b）所示，這被稱為結果獎勵模型（ORM）。在這種情況下，提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。經典強化學習：ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型，PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比，ReFT能夠學習更多樣化的推理路徑，在推理任務中表現出更強的泛化能力。然而，VinePPO[60]發現，使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差，這是RL中一個眾所周知的挑戰，稱為信用分配問題。為了解決這個問題，VinePPO放棄了PPO中的價值網絡，轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明，VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習（CPL）是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索（MCTS）探索多步推理任務中的不同計劃步驟，并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑，從而提高在各種任務中的泛化能力。隨后，模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中，策略模型生成計劃步驟和最終解決方案，而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。直接偏好優化：在數學推理任務中，直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO，它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。總之，基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索，在估計這些中間步驟的重要性方面具有優勢，盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上，這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務，包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型，并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數，可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型（PRM）基于強化學習代表了LLM推理的重大進步，強調評估中間步驟而不是僅僅關注最終結果。如圖2（c）所示，PRM的獎勵分布在每個推理步驟中，而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋，PRM使模型能夠優化行為，使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要，其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變，并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。經典強化學習：一系列近期工作將PRMs應用于數學或邏輯推理，因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”（即問題解決中的初始錯誤步驟）來增強數學推理。通過獎勵糾正這些錯誤的步驟，PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋，在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架，用于數學推理任務中的逐步驗證和強化。通過自動化過程監督（使用MCTS啟發的方法），MATH-SHEPHERD消除了對人工標注的需求，同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性，從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化（GRPO）[128]集成了PRMs，這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟，DeepSeekMath在多個基準上實現了最先進的性能，展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器（PAVs），一種PRM變體，用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟，PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。交互式過程獎勵模型：PRMs還應用于交互任務，如對話和多輪問答。ArCHer采用分層RL方法，使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統：高層價值函數評估話語級獎勵，而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配，并允許對語言模型進行細致訓練，以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展，在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中，以優化長期目標與人類反饋。多輪偏好優化（MTPO）算法比較整個多輪交互以生成偏好信號，其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊，提高動態、多輪任務（如對話和戰略決策）的整體性能。直接偏好優化：一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如，SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度，它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外，SVPO將顯式價值模型與DPO集成，其中價值模型不僅幫助策略模型導航更高效的推理路徑，還指導偏好學習。然而，這些工作主要集中在首先收集偏好數據或訓練獎勵模型，然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中，推進了這些方法。這種方法可以被視為直接偏好優化的在線版本，其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心，提供了細致的步驟級獎勵，推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調強化微調（RFT）[101]是OpenAI最近提出的一種技術，用于定制針對特定垂直領域的專家LLMs。目前，RFT仍處于研究計劃中，技術細節尚未完全公開。現有信息表明，RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此，RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。評分模型：RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋，評分模型可能類似于獎勵模型，將文本輸入（如問題和答案）轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型，可能作為結果獎勵模型或過程獎勵模型運行[76]。數據效率：在OpenAI的現場會議中，提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率，同時減輕了過擬合的風險[56]。訓練穩定性：強化學習訓練的穩定性是一個眾所周知的難題，對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中，OpenAI宣布計劃通過API向公眾提供該技術，使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性，能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展：從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考除了通過強化學習等技術進行訓練時優化外，研究人員發現，測試時提示技術（如思維鏈和思維樹）可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果，但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法（如ReAct和Least-to-Most Prompting）的出現表明，LLMs可以從明確的思維過程組織中受益，從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷，但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向，而無需依賴模型架構或訓練修改[172, 11]。這表明，通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改，可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索如前所述，PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是，PRM還可以在測試時階段使用，從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明，通過增加測試時計算資源，可以有效地增強推理能力，為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法，如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑，綠色空心圓表示在探索過程中采用的推理路徑，綠色實心圓表示一旦找到正確答案，推理路徑的終點。多數投票：多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中，每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測，選擇出現次數最多的類別（“多數投票”）作為最終輸出：f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f，其中II是指示函數，yy是每個評估軌跡。樹搜索[15]：樹搜索是一種經典算法，通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題，如棋盤游戲和規劃任務。蒙特卡羅樹搜索（MCTS）是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成：選擇、擴展、模擬和回傳。通過逐步擴展搜索空間，MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用，取得了顯著成功。例如，思維樹框架[172]使LLMs能夠考慮多個推理路徑，這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策，確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。束搜索[133]：束搜索是貪婪搜索的改進版本，通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑（稱為束）以進行進一步擴展。與貪婪搜索不同，束搜索維護多個候選路徑，從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如，BART[71]使用束搜索作為其主要推理策略，展示了其在文本生成任務中的卓越效果。前瞻搜索[134]：前瞻搜索是另一種有前景的方法，具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選，而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點，則提前停止。在前瞻搜索過程中，使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分，決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比，前瞻搜索增加了探索空間的深度，允許基于更遠的模擬決策結果判斷當前決策。然而，它也增加了對計算資源的需求，在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月，OpenAI發布了o1，這是一個突破性的語言模型，代表了AI推理能力的重大進步，特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日，OpenAI開放了o3的測試申請，o3是o1的升級版本[102]，被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果，包括在國際數學奧林匹克競賽中獲得金牌水平[73]，并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下：有效的知識整合：初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力，通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率，模型展示了清晰的能力，利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明，其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式，顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出，例如將物理原理應用于生物系統或將統計方法與領域特定約束結合，表明其在知識綜合和應用方面的基本能力。系統問題分解：o1在不同復雜程度的任務中保持了一致的表現，展示了在處理難度增加時的系統問題分解能力。在數學推理中，詳細研究[27]展示了其系統問題分解方法，通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證，如對105個科學和數學問題的研究[26]，隨著問題復雜性的增加，模型在概念深度和計算需求方面保持了高準確性。在編程任務中，這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明，o1通過結構化三步方法（錯誤識別、根本原因分析和針對性修正）在不同復雜程度的錯誤中保持了一致表現。復雜任務中的可靠和連貫推理：模型的推理在不同問題類型中有效適應，始終展示出各種任務中推理鏈的一致性。在規劃任務中，PlanBench評估[144]展示了其系統處理確定性和概率場景的能力，在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢，在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力，有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明，其中中間目標必須正確排序，依賴關系必須仔細管理，展示了其在時間推理和因果理解方面的高級能力。大型推理模型的新擴展定律：實證研究表明，o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間，模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明，通過優化的測試時計算策略，模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示，o1的推理能力可以通過推理階段的高級計算分配有效增強，特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同，隨著思考時間的增加，性能持續提升[103]。這在編程任務中得到證明，允許每個問題提交10,000次使模型能夠顯著提高結果，即使沒有測試時選擇策略，得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步，展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考，旨在復制或近似專有模型（如OpenAI的o1）的推理優勢。在本節中，我們介紹了四個重要的開源項目，每個項目采用不同的策略來增強LLM推理（總結在表2中）。通過探索它們的獨特實現，我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]：該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架，采用強化學習技術。OpenR復制的核心是構建逐步推理數據，其中獲得更精確和細粒度的反饋，而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡，采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據，進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中，與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**：與分別訓練PRM和微調策略模型不同，他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法，預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案，而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]：該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力，而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖，結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成，設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法，o1復制之旅將模型暴露于不同的邏輯序列和修正中，鼓勵在訓練階段進行探索和適應性。然而，o1復制之旅在推理階段較為簡單，缺乏高級的訓練后技術，這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比，這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]：該項目專注于優化推理階段的能力，利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法，將蒙特卡羅樹搜索與自我精煉（SR-MCTS）相結合，使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性，使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型（PPRM），它成對評估解決方案路徑，確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數（EBC）然后整合這些偏好排名以指導模型的決策，進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例，與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略，還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍，推動了開發復雜、透明和適應性強的推理模型的集體目標，使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外，還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示，諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM，但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索（VRS）利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同，VRS純粹通過測試時推理操作，使用迭代反饋循環來精煉解決方案，而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力，VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用，支持廣泛的任務，包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS，深入探討每個類別中呈現的方法論和獨特見解。在個體代理設置中，VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務，其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如，對組合問題（包括帽集和在線裝箱）的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣，符號回歸研究將方程視為動態構造，迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航，在效率和準確性上超越傳統優化技術。在科學發現中，VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如，在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中，VRS用于通過模擬反饋精煉假設，推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用，支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如，研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式，通過反饋循環不斷精煉解決方案，從而在不同領域中有效泛化。總體而言，VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來，以精確和適應性解決數學、科學和優化中的挑戰。在多代理系統中，VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間，允許代理交換見解并實現共同目標。異構信息網絡（HINs）中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構，增強了其可解釋性和預測準確性[20]。同樣，在社會經濟預測中，多代理系統整合知識圖譜和元路徑推理，為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作，并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如，使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互，這些框架生成準確的因果圖，同時解決因果關系中的歧義[69]。在金融決策中，VRS增強了層次協作。FINCON框架采用經理-分析師系統，通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉，FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理，VRS支持多代理系統應對復雜任務，如元結構精煉、社會經濟預測和金融決策。在具身代理設置中，VRS用于通過整合推理與物理交互來解決現實世界任務，支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境，結合語義推理與實際實驗。例如，自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具，如機器人液體處理器、光譜設備和基于網絡的研究模塊，以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應，其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤（如錯誤的模塊調用）時，系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋，具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預，同時加速了科學發現，使其成為現實世界實驗和創新的寶貴工具。總的來說，先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力，VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索，再到現實世界應用中的動態實驗，VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架，能夠在計算和物理領域中應對復雜挑戰，同時推動多樣化領域的進步。 7.2 基于記憶的強化當應用于開放式任務（如創意寫作、復雜邏輯推理和開放世界游戲）時，解決方案空間往往會急劇擴展，通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息，使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰，一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎，迭代探索其環境。通過這一過程，它們總結經驗，提取解決方案空間的可解釋高級見解，并在后續試驗中精煉其行動，從而提高推理性能。這些研究不僅關注探索外部解決方案空間，還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶，其能力逐步增強并泛化到未見任務。具體來說，我們將該領域的研究分為以下三類。經驗學習：此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗，同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理，該代理記錄過去的觀察-行動對，并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值（預期未來獎勵）。當面臨新任務時，代理從記憶中檢索具有最高和最低Q值的相關行動，將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務，并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地，經驗共同學習[108]采用多代理框架，其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時，這些代理交替檢索相關記憶以改進上下文學習。反思學習：雖然使用記憶作為少樣本示例簡單有效，但這種方法并未充分利用LLMs的語義理解能力。一些研究認為，LLM代理應直接反思存儲在記憶中的成功和失敗，明確總結潛在原因，并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力，基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中，以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思，從記憶中檢索最相關的成功經驗，總結成功軌跡的模式，并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發，將記憶組織為目標模塊和子任務模塊，實現不同層次的反思和經驗總結。對于新任務，它檢索相關經驗以分別制定高級目標和低級子任務。概念學習：明確反思顯著增強了LLMs的推理能力。在此基礎上，一些研究旨在使LLM代理發展超越特定任務的廣義“概念”，促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力，并隨著記憶的增長不斷進化。例如，Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動，而是評估這些信念的合理性和一致性，迭代精煉策略。類似地，Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈，它自主收集經驗，扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發，為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索，并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外，它生成未見任務進行練習，基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次：提示層次、模塊層次和代理層次。請注意，這種方法并不旨在直接搜索解決方案空間，而是利用經驗數據優化代理系統本身，類似于元學習問題。我們總結了該領域的相關工作如下。提示層次：“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面，提示本身也值得搜索和優化。自動化提示工程，如進化提示優化[38]和元提示迭代[169]，可以實現比手動提示更好的結果，但也引入了更多的標記消耗。模塊層次：Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計，其中模塊本質上是具有特定功能的提示塊，如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口，使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計，如CoT和ToT。此外，Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外，評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動，以提高搜索效率，同時緊密匹配其實際性能。代理層次：ADAS提出利用LLMs搜索整個代理系統，這些系統在Python代碼空間中定義[53]。此外，多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中，關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務（如長故事創作）中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。代理系統搜索為代理提供了自我改進的能力，使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率，降低搜索成本，并在確保搜索合理性的同時實現自動化。 7.4 總結本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而，它們具有巨大潛力，通過更全面的測試時“思考”進一步提升LLMs的推理能力，促進LLMs在解決方案空間中戰略性地推理，利用過去經驗并動態優化代理工作流。因此，訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向，有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中，我們系統地回顧了LLM推理的流行基準，這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學，提供了系統評估數學理解和問題解決能力的不同方面的方法。在數學應用題（MWP）領域，基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面，MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力，而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算（如加法或減法）的能力。在小學和高中層面，綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰，GSM8K提供了8.5K個小學問題，MATH提供了12.5K個跨多個數學領域的問題，難度逐漸增加。高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題，需要復雜的問題解決策略，而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別，FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題，測試自動化數學推理的極限。幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題，而UniGEO[18]提供了一個統一的幾何推理任務框架，專注于計算和證明。這些基準特別有價值，用于評估模型連接視覺和數學推理的能力。定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明，而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域，如三角學和形式證明系統。最后，跨模態數學推理已成為一個關鍵領域，反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理，而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距，測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題建立在數學推理能力之上，系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明，但邏輯推理涵蓋了更廣泛的推理能力，包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類，邏輯推理可以分為三種主要類型：演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程，對于全面邏輯分析至關重要，同時在認知評估中保持相互聯系。演繹推理，也稱為基于前提的推理，涉及從一般原則中得出特定結論，具有絕對確定性。例如，給定一組關于實體之間關系的規則，模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表，要求模型從給定前提構建明確的邏輯推導。其他基準，如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理，WaNLI[77]引入了日益復雜的評估標準，包含107,885個示例。歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況，處理概率而非確定性。BigBench[136]包含眾多專門組件，用于檢查高級模式推理能力。此外，CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。溯因推理，也稱為解釋性推理，指的是為一系列觀察或事實形成最可能解釋的過程，盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景，通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點，模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架，具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題常識推理仍然是NLP中的一個重要挑戰，旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如，CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理，圍繞社交場景中的因果推理展開。相比之下，SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務，模型必須基于上下文線索預測事件的最可能延續，從而增加任務復雜性。對于物理常識推理，PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務，而PHYRE強調交互物理模擬。類似地，WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務，以測試語義理解和共指解析能力。其他工作，如OBQA[95]和CConS[63]，探索了模型在反常識上下文中的表現，突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近，綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度，涵蓋各種領域。例如，ODEX[155]引入了一個執行驅動的評估框架，用于開放域代碼生成，強調運行生成代碼以驗證其正確性和功能的重要性。在現實世界場景中，SWE-bench[58]專注于真實的GitHub問題，挑戰模型解決實際軟件工程問題。在數據科學領域，DS-1000[67]提供了一個基準，包含真實且可靠的數據科學代碼生成任務，使評估模型處理復雜數據操作和分析的能力成為可能。此外，APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力，反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題，評估模型根據給定規范生成正確和高效代碼的能力，從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs，每個問題都提供了函數定義和附帶文檔，要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力，包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境，用于構建和測試自主代理，使評估LLMs的網絡導航和交互技能成為可能。類似地，Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理，強調在動態在線環境中的適應性。在電子商務設置中，WebShop[171]引入了一個平臺，用于可擴展的現實世界網絡交互，專注于能夠執行在線購物等任務的接地語言代理，從而測試模型的實際應用能力。為了橋接文本和具身環境，ALF-World[131]將基于文本的輸入與交互學習場景對齊，促進了評估模型在不同模態之間轉移知識的能力。綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能，而AgentGym專注于在多樣化設置中進化LLM代理，強調適應性和學習效率。此外，AgentBoard[87]提供了一個分析平臺，用于評估多輪LLM代理，提供了對其在擴展交互中的表現的見解，并突出了持續推理任務中的改進領域。

討論 9.1 近期進展的啟示后訓練階段的擴展定律：OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是，它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步，它擴展到后訓練階段的擴展定律，這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知，預訓練和訓練階段的擴展定律導致了流行LLMs的成功，伴隨著訓練數據和計算資源的巨大投資。然而，它現在達到了瓶頸，因此，后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外，LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力，即使推理能力尚未得到強化。因此，關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題，這可能是進一步增強LLM在現實世界應用中的潛力。通過搜索生成高質量數據：OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據（包括CoT數據）的生成視為關鍵點，盡管采用了不同的方法，如蒙特卡羅樹搜索、LLM生成等。也就是說，大型推理模型的發展達到了一個階段，高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣，如上所述，這可能啟發我們在LLM代理中參考這些相關方法，首先進行高質量數據生成，然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理即使OpenAI o1系列在工程層面的突破仍然未知，從理論上和技術上看，其突破目前似乎主要在于慢思考數據的后訓練學習。此外，人類認知科學中的“系統1 + 系統2”已被反復提及，但基于大型模型實現它的想法不斷更新，主要仍停留在借鑒慢思考概念的階段。也就是說，人類大腦的“系統1 + 系統2”機制指導了LLMs的設計，但這種指導仍然非常有限。換句話說，對人類大腦的模仿僅停留在系統級設計，而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點，慢思考的領域知識應被用于相關的設計中，如推理數據生成、獎勵函數、學習過程等。到目前為止，關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘，以至于理解LLMs也需要一些技巧或特殊技術，例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力，我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例，它們的主要區別在于CoT推理階段的思考成本和深度，然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說，將推理機制與不同任務中的表現聯系起來，可能會支持更多有趣的見解。 9.3 下游應用與開放問題正如本文所指出，推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現，還體現在更廣泛的下游應用中。例如，FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務，例如城市規劃、物流調度等。一個有趣的問題是，當前研究中是否存在許多互補的問題，這些問題難以驗證，但推理過程較為簡單。通過結合LLMs和外部評估器，可能進一步驗證某些答案的質量，或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念，利用強化學習技術進行訓練時擴展，以及使用搜索算法進行測試時擴展，為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務，OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解，并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

大型語言模型 ·

2024 年 2 月 8 日

[付費5元查看完整內容]更快更輕量的大型語言模型：當前挑戰及未來發展路徑綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管大型語言模型（LLMs）的表現令人印象深刻，但由于在推理過程中需要大量的計算和內存資源，它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽，強調了近期的發展。通過對LLaMA(/2)-7B的實驗，我們評估了各種壓縮技術，為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察，我們識別了當前的局限性，并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫，以復現本文中呈現的結果。

大型語言模型（LLMs）的出現，特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志，為與語言相關的任務開啟了新的革命，這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型，在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此，它們已成為各種應用中不可或缺的工具，推動了人工智能、信息檢索和人機交互等多個領域的發展。盡管LLMs的性能無與倫比，但它們廣泛應用受到了巨大的計算和內存需求的阻礙，這在資源受限的環境中部署它們時構成了挑戰。例如，加載一個LLaMa-70B模型需要140GB的VRAM，這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而，當前的改進往往伴隨著模型性能的顯著下降，需要確定新的研究方向來找到解決這一問題的理想解決方案。最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽，以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而，為了進一步推動研究前沿，朝著LLMs的實際推理改進方向努力，還缺少一項全面的研究。在本綜述論文中，我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法，我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法，包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解，以呈現高效LLMs的有用和實際理解。此外，我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難，并討論了克服這些問題的潛在研究方向。總的來說，本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述，強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充，系統級修改在加速LLM推理中發揮了重要作用，我們也討論了這些方法。

為了提供一個實踐視角，我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解，我們系統地指出了現有的局限性，并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

大型語言模型 · 多智能體 ·

2024 年 2 月 6 日

[付費5元查看完整內容]基于大型語言模型的多智能體：進展與挑戰綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力，它們被用作自動執行許多任務的自主智能體。最近，基于將一個LLM作為單一規劃或決策智能體的發展，基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽，我們呈現這篇綜述，以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解：基于LLM的多智能體模擬哪些領域和環境？這些智能體如何被描述，它們如何通信？什么機制有助于智能體能力的增長？對于那些有興趣深入研究這一領域的人，我們還總結了常用的數據集或基準，以便他們方便地訪問。為了讓研究人員了解最新的研究，我們維護一個開源的GitHub倉庫，致力于概述基于LLM的多智能體系統的研究。

1 引言

最近，大型語言模型（LLMs）展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等，2023；Wooldridge和Jennings，1995；Russell和Norvig，2009；Guo等，2023；Liang等，2023]。因此，基于LLM的智能體已被研究和快速發展，以理解和生成類似人類的指令，促進在廣泛的上下文中進行復雜的互動和決策[Yao等，2023；Shinn等，2023；Li等，2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展，如在文獻[Xi等，2023；Wang等，2023b]中所見。

基于單個LLM智能體的啟發性能力，已提出基于LLM的多智能體，以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比，多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體，以及2) 使這些多樣化的智能體之間進行互動，有效地模擬復雜的現實世界環境，提供了先進的能力。在這一背景下，多個自主智能體協作參與規劃、討論和決策，反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力，借助它們生成文本進行交流和對文本輸入的響應能力。此外，它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果，如軟件開發[Hong等，2023; Qian等，2023]、多機器人系統[Mandi等，2023; Zhang等，2023c]、社會模擬[Park等，2023; Park等，2022]、政策模擬[Xiao等，2023; Hua等，2023]以及游戲模擬[Xu等，2023c; Wang等，2023c]。由于這個領域的跨學科研究性質，它吸引了來自社會科學、心理學和政策研究等不同背景的研究者，研究論文的數量正在迅速增加，如圖1所示（受[Gao等，2023b]設計的啟發），從而擴大了基于LLM的多智能體研究的影響。盡管如此，早期的工作是獨立進行的，導致缺乏系統回顧以總結它們，建立這個領域的全面藍圖，并檢查未來的研究挑戰。這強調了我們工作的重要性，并作為呈現這篇綜述論文的動機，致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體（LLM-MA）系統的全面概覽，把握基于LLMs建立多智能體系統所涉及的基本概念，并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段，并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文，我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新，以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術，并補充現有的綜述通過解決未解決的問題，我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后，我們提出了一個關鍵問題：LLM-MA系統如何與協作任務解決環境對齊？為了回答這個問題，我們在第3節提出了一個全面的框架，用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論： 1）智能體-環境界面，詳細說明智能體如何與任務環境互動； 2）智能體輪廓，解釋一個智能體如何被LLM描述以以特定方式行為； 3）智能體通信，考察智能體如何交換信息和協作；以及 4）智能體能力獲取，探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節，我們將當前應用分為兩個主要流：用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源，我們在第5節提出了用于研究LLM-MA的開源實現框架，以及可用的數據集和基準。基于前面的總結，我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統：界面、輪廓、通信和能力

在本節中，我們深入探討LLM-MA系統的復雜性，其中多個自主智能體參與類似于人類群體動力學的協作活動，應對問題解決場景。我們要解決的一個關鍵問題是，這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點，我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架，重點關注四個關鍵方面：智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用：問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意，這是一個快速發展的研究領域，幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體，每個都作為個體行動，協作以有效地解決復雜問題，例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長，涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力，這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景，智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同，世界模擬系統涉及多種智能體管理和通信方法，反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能，并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中，我們首先系統回顧了LLM-MA系統的發展，通過從不同方面定位、區分和連接它們，涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準，并討論挑戰和未來機會，我們希望這篇綜述能成為各個研究領域的研究者們的有用資源，激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容