国产乱人弄视频免费观看-日韩一区二区视频

大語言模型（LLMs）的最新進展顯著提升了其執行復雜推理任務的能力，實現了從快速直覺思維（系統1）到緩慢深度推理（系統2）的跨越。 盡管系統2推理能提高任務準確性，但其“慢思考”特性以及低效或不必要的推理行為往往導致巨大的計算成本。相比之下，系統1推理計算效率更高，但性能表現欠佳。因此，如何在性能（收益）與計算成本（預算）之間取得平衡至關重要，這也催生了“推理經濟性”的概念。本綜述對LLMs訓練后階段和測試時推理階段的推理經濟性進行了全面分析，涵蓋： 1. 推理低效的成因； 1. 不同推理模式的行為分析； 1. 實現推理經濟性的潛在解決方案。

通過提供可落地的見解并指出開放挑戰，我們旨在為優化LLMs推理經濟性的策略提供啟示，從而推動這一新興領域的深入研究。此外，我們開放了一個公共資源庫，持續追蹤這一快速發展領域的最新進展。

**1 引言

大語言模型（LLMs）在各類語言理解與生成任務中展現出卓越性能，尤其是伴隨思維鏈（Chain-of-Thought, CoT）提示（Wei et al., 2022）技術的出現，該技術要求模型通過顯式的分步推理生成最終答案。盡管LLMs在多數場景中表現優異，但其依賴快速直覺思維的機制在面對復雜推理挑戰（如高階數學（AIME, 2025; Zhong et al., 2023）與編程任務）時往往力有不逮。為此，近期研究試圖通過慢速深度思考（Wang et al., 2025a）進一步提升LLMs的推理能力，例如OpenAI的o1（OpenAI, 2024）、DeepSeek的R1（DeepSeek-AI et al., 2025）與QwQ（QwQ, 2025）等模型，從而催生了大推理模型（Large Reasoning Models, LRMs）的興起與推理階段的新擴展定律（Snell et al., 2024）。然而，這一進步代價高昂。此類LRMs需耗費顯著更長的思考時間以生成冗長的CoT推理鏈，導致巨大的推理開銷。但并非所有任務均需如此深度的思考——任務復雜度各異，若對所有問題采用“一刀切”策略，將造成計算與時間資源的浪費。更甚者，長推理鏈中的大量標記（tokens）往往對最終答案無實質貢獻。研究發現，LRMs常將過量資源（Wu et al., 2025; Cuadron et al., 2025）浪費于無效思考（如“過度思考”），卻未為真正困難的問題分配足夠算力（如“思考不足”）（Snell et al., 2024; Wang et al., 2025e）。 能力與效率的失衡引出了一個核心挑戰——實現推理經濟性（Reasoning Economy），即通過優化標記使用（預算）、減少冗余步驟、動態調整算力分配，達成全局最優解。這不僅可提升LRMs的效率，還能像人類一樣“智能”地停止或深入思考（Aggarwal et al., 2023; Kimi Team et al., 2025），充分釋放模型潛力。隨著推理經濟性日益重要，亟需系統性地理解LRMs的推理行為、揭示高效化面臨的挑戰，并明確解決方案。本綜述首次對LRMs的推理經濟性進行全面系統的梳理。具體而言，我們首先建立LRMs的理論基礎（§2），解析訓練后方法（§2.1）（如監督微調與強化學習）如何塑造推理行為，以及測試時策略（§2.2）（如并行與序列化推理）如何影響模型表現。基于此，我們深入分析推理經濟性的挑戰（§3），將其歸類為模型自身的低效行為（§3.1）或測試時的低效使用（§3.2）。最后，我們從兩方面探討優化推理經濟性的解決方案： 1. 訓練后行為調控（§4）：從數據、算法乃至模型架構源頭修正不良推理模式； 1. 測試時動態計算適配（§5）。此外，我們討論了開放挑戰并展望未來研究方向（§6）。通過提供清晰的結構化路線圖，本研究旨在為推動更可持續的LRMs發展提供可落地的指導。

付費5元查看完整內容

1 引言

“凡不能言說之事，當保持沉默。”——路德維希·維特根斯坦大型語言模型（Large Language Models，LLMs）借助思維鏈（Chain-of-Thought，CoT）推理，在復雜推理任務中展現了卓越能力（Guo 等，2025；OpenAI，2025；Qwen，2025；Wei 等，2022；Chen 等，2025b）。CoT 通過引導模型以自然語言逐步推理，不僅提升了可解釋性，還常常帶來更優的任務表現（Kojima 等，2022；Chu 等，2024）。然而，顯式 CoT 推理受限于必須用自然語言記錄每一步推理，導致兩大問題： 1. 計算效率低下——并非所有生成的 token 都攜帶有用信息（Lin 等，2025b；Feng 等，2025；Qu 等，2025；Sui 等，2025；Wang 等，2025a；Liu 等，2025）； 1. 思維表達受限——人類認知常常超越語言，可包含抽象洞見、直覺躍遷或高度組合式思考，這些內容難以完全或準確地口頭化（Wittgenstein，1922；Pinker，1994）。正如 Hao 等（2024）指出，強行將每一步都顯式化不僅困難，還對推理本身造成不自然的束縛。

上述局限促使研究者轉向潛在思維鏈推理（Latent Chain-of-Thought，latent CoT）。如圖 1 所示，模型不再依賴語言 token，而是在潛在空間中進行推理，為類思維過程提供了更抽象、更高效的媒介。這種“去語言化”推理可帶來更豐富的思維表征、通過壓縮計算實現更快的推理速度，并對非語言認知模式具備更大靈活性（Lindsey 等，2025）。然而，潛在 CoT 也引發關鍵挑戰： * 不可監督性：內部推理發生在難以直接解釋的潛在空間內（Lindsey 等，2025）； * 評估缺口：缺乏衡量深層潛在推理與輸入-輸出捷徑的明確指標（Ameisen 等，2025）； * 對齊風險：無法檢查或約束潛在軌跡，使倫理控制更加復雜（Xu 等，2025b；Ruan 等，2025）。

盡管存在未解難題，潛在推理研究發展迅速且碎片化，亟需研究社區對其進行清晰、系統的梳理。為此，我們提出首個潛在思維鏈推理的全面綜述，貢獻如下： 1. 系統化分類：提出潛在 CoT 研究的結構化分類框架，將現有工作劃分為四大方向，并在各方向內部對代表性研究進行系統梳理，闡明其方法假設與創新（見圖 2）。 1. 深入分析：基于該分類，對各類別代表性工作進行綜合分析，比較其訓練策略、設計范式、監督信號與效率權衡。 1. 挑戰識別與前沿展望：總結潛在 CoT 領域的關鍵開放問題，并展望未來值得關注的研究方向。

我們期望整合潛在推理碎片化的研究現狀，為該新興方向的進一步發展奠定結構化的理論與實踐基礎。

本文對大型語言模型中的潛在思維鏈推理（latent CoT）進行了全面綜述。首先，我們梳理方法層面的最新進展，主要分為兩大類：逐 token 策略（§3），涵蓋離散 token（§3.1）與連續 token（§3.2）；以及內部機制（§4），進一步細分為結構機制與表征機制。除設計機制外，我們還回顧了關于潛在推理分析與可解釋性的持續研究進展（§5）。最后，本文討論潛在 CoT 在實際場景中的應用（§6），并總結其所面臨的挑戰與未來研究方向（§7）。

付費5元查看完整內容

大語言模型 · 聊天機器人 · 智能體 · 鏈式思維 ·

5 月 13 日

[付費5元查看完整內容]大型語言模型推理引擎的綜述：優化與效率的視角

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）已廣泛應用于聊天機器人、代碼生成器和搜索引擎等領域。鏈式思維（chain-of-thought）、復雜推理、智能體服務（agent services）等工作負載往往需要多次調用模型，從而顯著增加了推理成本。為降低成本，業界采用了并行化、模型壓縮和緩存等優化方法，但由于服務需求多樣，難以統一選用最合適的優化策略。近年來，專門面向LLM的推理引擎逐漸成為集成這些優化方法并支撐面向服務架構的關鍵組件。然而，目前仍缺乏對推理引擎的系統性研究。本文對25個開源及商用推理引擎進行了全面評估。我們從易用性、部署便利性、通用性支持、可擴展性，以及面向吞吐量與延遲感知計算的適用性等多個維度對各推理引擎進行了深入分析。此外，我們通過調查各引擎所采用的優化技術，探討其設計目標。對于開源引擎，我們評估了其生態系統的成熟度；對于商用方案，則分析了其性能表現及成本策略。本文還指出了未來的研究方向，包括對復雜LLM服務的支持、對多樣化硬件的兼容性，以及增強的安全性等，以期為研究人員和開發者在選擇與設計優化的LLM推理引擎時提供實用指導。我們還提供了一個公共代碼庫，以持續追蹤該快速演進領域的最新進展：//github.com/sihyeong/Awesome-LLM-Inference-Engine。

1 引言

大型語言模型（LLMs）正被廣泛應用于聊天機器人、代碼生成和搜索引擎等多種服務場景中，典型代表包括 OpenAI 的 ChatGPT [5]、GitHub Copilot [84] 和 Google Gemini [86]。隨著這些成功案例的推動，眾多新模型與服務迅速涌現；然而，這種擴張也帶來了在大規模部署與服務 LLM 時的諸多挑戰。近年來，基于推理的測試時擴展（reasoning-centric test-time scaling）[124, 226] 與基于 LLM 的 AI 智能體 [92, 134] 成為趨勢，顯著提高了 LLM 應用的計算需求與推理調用次數。推理擴展方法通過多步推理或迭代式自我驗證，替代一次性生成答案的方式，以提升輸出質量。這類方法也被稱為鏈式思維（Chain-of-Thought, CoT）[259]、自洽性（self-consistency）[45] 和測試時推理（test-time reasoning）[98]，通過對單個查詢多次調用模型以提升準確性，同時也帶來了延遲與計算成本的增加。與此同時，像 AutoGPT [26] 和 LangChain [126] 這樣的基于 LLM 的 AI 智能體可自主規劃一系列任務以滿足單一用戶請求，在單個會話中頻繁調用模型。這些趨勢使得推理效率成為部署以推理為導向的 LLM 和 AI 智能體服務的關鍵因素。

為控制 LLM 推理成本，研究者提出了諸多優化技術，如量化（quantization）[61]、輕量化模型架構 [268]、知識蒸餾（knowledge distillation, KD）[271] 等。但在大規模服務中，由于提示長度、查詢類型及輸出格式的多樣性，單一優化策略往往難以覆蓋所有場景。因此，LLM 推理引擎作為集成多種優化策略并負責推理流程的基礎設施組件，成為影響服務質量與成本的核心要素。

盡管像 PyTorch [201] 和 TensorFlow [1] 等通用深度學習框架在 LLM 推理中被廣泛使用，這些框架最初是為支持卷積神經網絡（CNN）、循環神經網絡（RNN）等多種模型設計的，強調的是對不同硬件和架構的廣泛兼容性。因此，它們往往缺乏針對 LLM 或序列解碼的專用優化。在這些框架上運行大規模模型可能導致性能下降與資源消耗增加，進一步凸顯了專用推理方案的必要性。

為了應對這一需求，越來越多的專用 LLM 推理引擎應運而生。這些引擎支持批處理（batching）、流式傳輸（streaming）和注意力機制優化（attention optimization）等功能，通常不在通用框架中提供。然而，不同引擎的目標硬件（如 GPU 或 LLM 專用加速器）、優化范圍（從模型壓縮到內存卸載）、目標場景（從實時對話系統到大規模文本生成）各不相同，導致整個生態系統快速演化但高度碎片化。因而難以明確每個引擎所支持的優化技術及其在不同應用條件下的性能表現。這一現狀促使人們迫切需要對現有 LLM 推理引擎及其優化能力進行系統性綜述與對比分析。

目前已有的一些關于 LLM 優化的綜述（見表 1）多聚焦于具體技術，如模型壓縮或硬件加速，因此未能全面探討各個推理引擎所支持的優化方法。此外，這些研究也往往未涵蓋近期發布的商用推理引擎。例如，Chitty-Venkata 等人 [48] 與 Yuan 等人 [281] 主要關注基于 Transformer 的模型壓縮；而 Park 等人 [200] 和 Zhu 等人 [301] 則對壓縮方法進行了深入研究。類似地，Xu 等人 [268, 267] 以及 Wang 等人 [254] 探討了 LLM 推理與服務的優化策略。

現有的一些研究盡管探討了云端或邊緣環境中的推理系統，但普遍缺乏對各類引擎在設計與實現層面的深入分析。因此，當前文獻中仍存在空白，尚無一篇綜述能夠系統性地呈現 LLM 推理引擎的整體發展現狀，并將其特有功能與所實現的優化技術有效對應起來。

為填補這一空白，本文從“以框架為中心”（framework-centric）的視角出發，對多個 LLM 推理引擎進行深入剖析，并對其實現的優化技術進行分類整理。特別地，本文系統梳理了各引擎在處理量化（quantization）、知識蒸餾（KD）、緩存（caching）與并行化（parallelization）等方法方面的實現方式，從而幫助讀者快速識別與其特定需求相匹配的引擎。

此外，本文還納入了許多近期發布的商用推理引擎，這些內容在以往的綜述中尚未被覆蓋。我們比較了這些引擎的架構設計目標、支持的硬件平臺以及關鍵特性，旨在為構建或部署高性能、低成本的 LLM 服務的研究人員與工程師提供切實可行的參考依據。

付費5元查看完整內容

多模態大語言模型 · 強化學習 · 大型語言模型 · 大模型推理 ·

5 月 3 日

[付費5元查看完整內容]強化多模態大語言模型：基于強化學習的推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

將強化學習（Reinforcement Learning，RL）融入多模態大語言模型（Multimodal Large Language Models，MLLMs）推理能力的研究方向正迅速發展，成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型（LLMs）的基礎上顯著擴展，能夠處理圖像、音頻和視頻等多種模態，但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展，涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法（value-free）和基于價值函數方法（value-based），并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外，本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性，并提出了未來可能的研究方向，以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。

1 引言

大型語言模型（Large Language Models，LLMs）的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元，展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而，實現類人智能不僅需要超越基礎感知能力，更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發，情境學習（In-context Learning，ICL）技術 [112, 113, 121] 賦予了LLMs逐步推理的能力，這種機制通常被稱為“思維鏈條”（Chain-of-Thought，CoT）推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色，引發了各領域對推理能力推理時間擴展（test-time scaling）研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49]，該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下，多模態大語言模型（Multimodal Large Language Models，MLLMs）中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索（Monte Carlo Tree Search）[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據，并通過監督微調使模型學習自主推理能力。

隨著強化學習（Reinforcement Learning，RL）理論和技術的進步，DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法（如GRPO [85]）自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”（Aha Moment），表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs，并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能，在域內測試中可媲美監督微調（SFT）方法，在分布外（OOD）評估中更是超越了SFT模型。

然而，正如圖1所示，這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效，但大多數仍延續文本思維范式，忽視了在多模態場景中其他模態所扮演的關鍵角色。此外，當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案，未能覆蓋更廣泛的泛化場景問題，如無明確答案的問題。盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110]，但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白，本文系統綜述了基于RL的MLLMs推理方法，全面梳理技術發展、方法體系、實際應用與未來方向，旨在為快速演進的MLLM推理研究提供系統化的參考與指導，從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略；第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估；最后，第7節探討當前限制與未來研究方向。本文從以下四個關鍵視角出發，系統分析MLLMs中基于強化學習的推理方法： * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略：重點分析無價值函數方法（value-free）與基于價值函數方法（value-based）的核心理念與改進方向，探討其在提升訓練效率、穩定性與推理性能方面的創新方案，比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略：從所使用的強化學習算法、獎勵機制（以準確性或結構為導向）及多模態輸入整合（包括視覺、音頻與時序信息）等維度，對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議：分析數據集的構建流程，包括數據來源、模型輸出收集及偏好標注方法，涵蓋數學、科學、空間、交互等多種類型的推理任務，并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向：討論當前面臨的挑戰，如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題，探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

小型推理模型 · 大型推理模型 · 模型壓縮 ·

4 月 16 日

[付費5元查看完整內容]小型推理模型簡要綜述：訓練、推理、應用與研究方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型推理模型（Large Reasoning Models，LRMs）在諸如 DeepSeek-R1 等代表性模型的“慢思維”推理過程中取得了顯著進展。盡管這些模型在推理能力上表現出色，但其巨大的計算開銷也帶來了諸多挑戰。相比之下，小型推理模型（Small Reasoning Models，SRMs）通常由大型模型蒸餾而來，在效率方面具有明顯優勢，并可能呈現出不同于 LRM 的能力表現和認知路徑。

本研究對約 170 篇近期發表的關于 SRMs 的論文進行了綜述，涵蓋了其在處理各類復雜推理任務中的應用。我們系統回顧了當前 SRMs 的研究現狀，深入分析了其訓練與推理方面的多種技術方法。同時，我們還對 SRMs 在特定領域中的應用進行了全面梳理，并探討了未來可能的研究方向。本綜述為研究人員提供了一個重要的參考框架，助力其高效地利用或構建 SRMs，實現先進的推理功能。

1 引言

“要在小事上忠實，因為你的力量正是在其中顯現。” ——特蕾莎修女近年來，自然語言處理（NLP）領域因大型語言模型（Large Language Models，LLMs）的廣泛應用而發生了深刻變革（Zhao 等，2023）。這些模型在多種下游任務中展現出卓越的能力。其中，專注于推理任務的大型推理模型（Large Reasoning Models，LRMs）（Xu 等，2025），如 DeepSeek-R1（DeepSeek-AI，2025）與 QwQ-32B1，尤為引人注目。這些模型通過模擬“慢思維”（slow thinking）過程，擅長解決諸如數學問題、代碼生成、邏輯推理等復雜任務。然而，這些模型卓越性能的背后是巨大的計算開銷，無論是在訓練還是推理階段。例如，DeepSeek-R1 擁有 6710 億參數，其在線部署至少需要配備八塊 A100（80GB）GPU 的服務器或更高規格的硬件配置。因此，研究社區日益關注更小規模模型的潛力（Fu 等，2023b；Magister 等，2023；Shridhar 等，2023；Zhang 等，2025a），期望在不顯著犧牲性能的前提下，尋求更高效的替代方案。自 DeepSeek-R1 發布以來，開源社區涌現出大量成果，顯示出具備“慢思維”能力的小型推理模型（Small Reasoning Models，SRMs）（即采用長鏈式思維過程（chain-of-thought，Wei 等，2022））在部分推理任務中甚至能超越規模更大的 LLM，如圖 1 所示。此外，SRMs 相較于 LRMs 通常表現出不同的能力特征與認知軌跡（Yan 等，2023；Zhang 等，2024a；Hu 等，2024b），因此其訓練與推理方法在本質上也有所區別。當前已有大量研究致力于構建性能強勁的 SRMs，力圖使其在效果上接近甚至超越 LRM。盡管已有一些綜述聚焦于 LLM 在推理任務中的應用（Plaat 等，2024；Xu 等，2025；Huang 和 Chang，2023；Giadikiaroglou 等，2024；Ahn 等，2024），但專門圍繞 SRMs 的綜述和系統性研究仍顯不足。為此，本文將對 SRMs 進行簡明而全面的綜述。我們系統梳理了近三年內公開或發表的約 170 篇相關研究論文，旨在整合關于 SRMs 的技術方法、應用實踐與未來研究方向等方面的知識。圖 2 展示了本綜述的整體結構。

**本綜述涵蓋內容：

對當前開源社區中主流的 SRMs 進行簡要回顧； * 探討多種旨在增強預訓練模型推理能力的訓練與推理方法； * 梳理 SRMs 在特定領域的應用實踐； * 分析未來研究的可能方向，并提出相應建議。

**不涵蓋內容：

本綜述不涉及整個 LLM 架構的設計或通用算法，也不討論與復雜推理無關的任務；此外，諸如模型壓縮（如剪枝、量化）或大規模預訓練等通用小模型構建技術也不在本綜述范圍內。我們的關注點集中于 SRMs 在推理任務中的特定技術與應用。總之，SRMs 的研究為 NLP 社區帶來了一個重要且契合當下趨勢的方向。通過進一步挖掘其高效與強大推理能力，研究人員有望推動更加高性能、可持續的真實世界智能系統的構建與落地。

付費5元查看完整內容

思維鏈 · 多模態思維鏈 · 多模態推理 · 大語言模型 ·

3 月 23 日

[付費5元查看完整內容]多模態思維鏈推理：全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

通過將思維鏈（CoT）推理在類人逐步推理過程中的優勢擴展到多模態場景，多模態思維鏈（MCoT）推理近年來引起了廣泛的研究關注，尤其是在與多模態大語言模型（MLLMs）的結合方面。現有的MCoT研究設計了多種方法論和創新推理范式，以應對圖像、視頻、語音、音頻、3D和結構化數據等不同模態的獨特挑戰，并在機器人、醫療、自動駕駛和多模態生成等應用中取得了廣泛成功。然而，MCoT仍然面臨獨特的挑戰和機遇，需要進一步關注以確保該領域的持續繁榮。遺憾的是，目前缺乏對這一領域的最新綜述。為了填補這一空白，我們首次對MCoT推理進行了系統性綜述，闡明了相關的基礎概念和定義。我們從不同應用場景的多個角度提供了全面的分類和深入的方法論分析。此外，我們還對現有挑戰和未來研究方向提出了見解，旨在推動多模態通用人工智能（AGI）的創新。

關鍵詞：多模態推理，思維鏈，多模態大語言模型

1 引言

大型語言模型（LLMs）[1–7]的出現為人工智能（AI）領域開啟了一個前所未有的時代。長期以來，人們認識到與真實世界環境的多模態本質對齊的必要性，相應地，AI領域從LLMs發展到多模態大語言模型（MLLMs）[8–18]，將多種模態整合到語言智能中。實現人類水平的智能需要超越基本的感知能力，達到復雜的認知推理能力——這是人類認知的標志，能夠通過上下文理解和自我修正進行迭代推理。受此啟發，上下文學習（ICL）技術使LLMs能夠展示逐步推理——通常稱為思維鏈（CoT）推理機制[19–24]。該技術使模型能夠將問題分解為一系列中間步驟，從而增強決策的透明性以及在復雜推理任務中的表現。CoT推理在廣泛的下游復雜任務中的顯著成功推動了其在學術界和工業界的廣泛應用。特別是最近的技術進步將這一能力隱式地集成到尖端系統中，如OpenAI的o1/o3 [25]和DeepSeek R1 [26]，引起了廣泛關注。將CoT推理整合到多模態場景中，進一步催化了AI的變革性進展，催生了多模態思維鏈（MCoT）推理[27, 28]。由于CoT屬性和跨模態數據交互的異質性，MCoT主題產生了一系列創新成果。一方面，原始的CoT框架已演變為包含分層思維結構的高級推理架構，從線性序列[19]到基于圖的表示[23]。另一方面，與單模態文本設置不同，視覺、聽覺和時空數據等多樣化模態需要專門的處理策略——視覺推理需要對靜態場景和對象關系進行精確感知和分析，而視頻理解則需要強大的時間動態建模能力。這些需求推動了多種復雜MCoT方法的發展，這些方法使推理過程適應特定模態的特征，例如Multimodal-CoT [29]、MVoT [30]、Video-of-Thought [31]、Audio-CoT [32]、Cot3DRef [33]和PARM++ [34]。MCoT的顯著效果也使其在自動駕駛[35–38]、具身AI [39–41]、機器人[42–45]和醫療[46–50]等關鍵領域成功應用，使其成為實現多模態通用人工智能（AGI）的基礎技術。近年來，MCoT的研究吸引了越來越多的關注。圖1展示了這一新興領域的關鍵里程碑時間線。盡管MCoT在增強多模態推理方面具有巨大潛力，但它也提出了重大挑戰，并留下了幾個關鍵問題未解——例如，如何確定利用多樣化多模態上下文的最有效策略，設計真正增強MLLMs推理能力的CoT過程，以及在這些模型中實現隱式推理。值得注意的是，缺乏全面的綜述阻礙了這一新興領域的知識整合。為了填補這一關鍵空白，本文首次對MCoT推理進行了系統性綜述，提供了對技術發展、方法論、實際應用和未來方向的結構化分析。我們希望本綜述能夠成為權威參考，推動這一快速演進領域的進一步創新和進展。1.1 貢獻首次綜述：本文是首次專門對MCoT推理進行全面綜述的論文。全面分類：我們提出了一個細致的分類法（見圖2），對MCoT研究中的多樣化方法進行了分類。前沿與未來方向：我們討論了新興挑戰，并概述了未來研究的有前景的方向。資源共享：我們整理并公開了所有相關資源，以支持和加速研究社區的進展。1.2 綜述結構本綜述的其余部分組織如下。我們首先介紹與MCoT相關的基本概念和背景知識（§2）。然后，我們回顧了不同模態下MCoT的最新研究（§3）。接下來，我們提供了一個分類法，并從多個角度整合了MCoT的主流方法（§4）。隨后，我們總結了MCoT的廣泛下游應用（§5）。接著，我們從多個角度概述了數據集和基準測試（§6）。最后，我們討論了該領域的挑戰和未來方向（§7）。

付費5元查看完整內容

推理大語言模型 · 大語言模型 · 自然語言處理 · DeepSeek ·

3 月 21 日

[付費5元查看完整內容]停止過度思考：大型語言模型高效推理研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在復雜任務中展現了卓越的能力。近年來，大型推理模型（LRMs）的進展，例如OpenAI的o1和DeepSeek的R1，通過利用監督微調（SFT）和強化學習（RL）技術來增強鏈式思維（CoT）推理，進一步提升了在數學和編程等系統-2推理領域的性能。然而，盡管更長的CoT推理序列能夠提高性能，但它們也因冗長和冗余的輸出而引入了顯著的計算開銷，這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度，同時保留推理能力，從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大，高效推理仍處于研究的早期階段。在本文中，我們首次提供了結構化綜述，系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言，基于LLMs的內在機制，我們將現有研究分為幾個關鍵方向：（1）基于模型的高效推理，即考慮將完整推理模型優化為更簡潔的推理模型，或直接訓練高效推理模型；（2）基于推理輸出的高效推理，旨在推理過程中動態減少推理步驟和長度；（3）基于輸入提示的高效推理，通過輸入提示的屬性（如難度或長度控制）來提高推理效率。此外，我們還介紹了使用高效數據訓練推理模型的方法，探索了小型語言模型的推理能力，并討論了評估方法和基準測試。我們維護了一個公共資源庫，以持續跟蹤和更新這一前景廣闊領域的最新研究進展。

1 引言

大型語言模型（LLMs）已成為異常強大的人工智能工具，在自然語言理解和復雜推理任務中展現了卓越的能力。近年來，專注于推理的大型語言模型（也稱為大型推理模型，LRMs）[91]的出現，例如OpenAI的o1 [61]和DeepSeek的R1 [31]，顯著提升了其在系統-2推理領域（如數學[16, 35]和編程[7, 17]）的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型（如LLaMA [30, 80]、Qwen [95]）演化而來，通過鏈式思維（CoT）提示[86]生成顯式的、逐步的推理序列，從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調（SFT）和強化學習（RL）來開發，這些方法促進了迭代和系統化的問題解決能力。具體而言，OpenAI的o1 [61]訓練流程可能結合了SFT和RL，并采用了蒙特卡洛樹搜索（MCTS）[71]和經過處理的獎勵模型（PRM）[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調，這些數據由經過RL訓練的DeepSeek-R1-Zero生成，隨后通過基于規則的獎勵函數進一步優化。然而，盡管長鏈式思維推理顯著增強了推理能力和準確性，但類似CoT機制（如自洽性[84]、思維樹[96]、激勵性RL[31]）的引入也導致了冗長的輸出響應，從而帶來了巨大的計算開銷和思考時間。例如，當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少？”[10]時，這些模型的推理序列有時可能長達數千個詞元，其中許多是冗余的，并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲，限制了推理模型在計算敏感的實際應用中的使用，包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理，尤其是減少推理長度，具有顯著的優勢，例如降低成本并增強實際部署中的推理能力。近年來，許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑，使高效推理成為一個備受關注且快速發展的研究領域。在本文中，我們首次提供了結構化綜述，系統性地探索了LLMs高效推理的當前進展。如圖2所示，我們將現有研究分為以下關鍵方向：（1）基于模型的高效推理，即將完整推理模型優化為更簡潔的推理模型，或直接通過微調實現高效推理；（2）基于推理輸出的高效推理，即在推理過程中動態減少推理步驟和輸出長度；（3）基于輸入提示的高效推理，通過利用提示屬性（如提示引導的長度或提示難度）提高推理效率。與LLMs中的模型壓縮技術（如量化[27, 48]或kv緩存壓縮[52,103]）不同，這些技術側重于壓縮模型規模并實現輕量級推理，而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言，我們將高效推理方法總結為以下幾類：基于長度獎勵設計的強化學習（第3.1節）；基于可變長度CoT數據的監督微調（第3.2節）；將推理步驟壓縮為更少的潛在表示（第4.1節）；推理過程中的動態推理范式（第4.2節）；基于提示引導的高效推理（第5.1節）；通過路由提示優化推理效率（第5.2節）；此外，本文還探討了其他有趣的主題，包括：使用高效數據訓練推理模型（第6.1節）；小型語言模型的推理能力與模型壓縮（第6.2節）；高效推理模型的評估與基準測試（第7節）；我們將持續更新公共資源庫，以跟蹤高效推理領域的最新研究進展。

付費5元查看完整內容

推理大模型 · 大型語言模型 · 推理大語言模型 · 思維鏈 ·

3 月 13 日

[付費5元查看完整內容]邁向推理時代：大型語言模型的長鏈推理研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大型語言模型（RLLMs）在推理領域取得了顯著進展，例如OpenAI-O1和DeepSeek-R1，它們在數學和編程等復雜領域中展現了令人印象深刻的能力。其成功的一個核心因素在于長鏈推理（Long CoT）特性的應用，這種特性增強了模型的推理能力，使其能夠解決復雜問題。然而，盡管取得了這些進展，目前仍缺乏對長鏈推理的全面綜述，這限制了我們對其與傳統短鏈推理（Short CoT）區別的理解，也使關于“過度思考”和“測試時間擴展”等問題的討論更加復雜。本綜述旨在填補這一空白，為長鏈推理提供一個統一的視角。 1. 區分長鏈推理與短鏈推理：我們首先明確長鏈推理與短鏈推理的區別，并引入一種新的分類法來對當前的推理范式進行分類。 1. 長鏈推理的核心特性：我們探討長鏈推理的三大關鍵特性——深度推理、廣泛探索和可行反思。這些特性使模型能夠處理更復雜的任務，并生成比淺層短鏈推理更高效、更連貫的結果。 1. 關鍵現象研究：我們研究了長鏈推理中的關鍵現象，例如伴隨這些特性出現的“過度思考”和“測試時間擴展”，并深入分析這些現象在實際中的表現。 1. 未來研究方向：最后，我們指出了當前研究中的重要空白，并強調了未來的潛在方向，包括多模態推理的整合、效率提升以及知識框架的優化。通過提供結構化的綜述，本文旨在啟發未來的研究，并推動人工智能邏輯推理的進一步發展。

1 引言近年來，隨著推理型大型語言模型（RLLMs）的出現，例如OpenAI O1 [208] 和DeepSeek R1 [155]，針對長鏈推理（Long Chain-of-Thought, Long CoT）的研究逐漸增多，這些研究極大地提升了模型在數學推理、編程任務以及多學科知識推理方面的能力 [488, 686, 508, 50, 58, 673, 133, 776]，如圖1所示。這一轉變標志著與傳統大型語言模型（LLMs）任務處理方式的顯著不同 [798, 437, 439, 421]。與傳統LLMs中使用的短鏈推理（Short CoT）不同，長鏈推理通過在測試時間擴展（test-time scaling）[299, 520, 364] 的支持下，在問題空間內進行更詳細、迭代的探索和反思。這一過程在數學和邏輯推理方面取得了顯著進展，同時也探索了監督微調（SFT）和強化學習（RL）技術如何增強對擴展推理鏈的學習和探索 [440, 385]。然而，目前尚無系統的綜述來全面理解長鏈推理的主要因素及其在RLLMs中的最新進展，這阻礙了RLLMs的進一步發展。因此，關于“測試時間擴展”對長鏈推理的有效性 [610, 343] 與“過度思考”可能對LLMs造成損害并引入不必要復雜性 [73, 96, 251] 的爭論仍在持續。此外，一些研究者認為，在解決特定問題時，推理鏈的長度與準確性之間并無明確關聯 [622]。為了填補這一空白，本文對長鏈推理進行了廣泛而全面的綜述。具體而言，如圖2所示，我們首先定義并分析了長鏈推理與傳統短鏈推理的區別，重點關注以下關鍵方面：（1）深度推理，即需要足夠的邏輯處理深度來管理大量的推理節點；（2）廣泛探索，即生成并行的不確定節點，并從已知邏輯過渡到未知邏輯；（3）可行反思，即對邏輯連接進行反饋和優化。這些特性使長鏈推理范式能夠整合更復雜的推理過程，并適應更廣泛的邏輯結構，最終生成更高效、更連貫的結果。隨后，我們系統地探討了與長鏈推理相關的關鍵現象，例如其涌現性、過度思考現象、測試時的推理時間擴展以及“頓悟時刻”（Aha Moment）等。據我們所知，這是首次針對這些具體主題進行的全面綜述。最后，基于大量文獻，我們指出了未來研究的前沿方向，并建議了一些有價值的開源框架和數據集，為未來的研究提供基礎。本文的主要貢獻如下：系統性區分：本文首次提出了長鏈推理的概念，并將其與傳統短鏈推理區分開來，從而為理解這兩種范式及其特性提供了清晰的框架。熱點現象解釋：我們系統地研究了與長鏈推理相關的顯著現象，例如過度思考、測試時推理時間擴展以及“頓悟時刻”，為復雜推理中的認知過程提供了有價值的見解。新興挑戰與前沿：我們探討了長鏈推理領域的新興挑戰，并指出了關鍵的研究前沿。基于大量文獻，我們強調了進一步研究可能顯著推動長鏈推理方法發展的領域。長鏈推理與短鏈推理的討論本節形式化地闡述了長鏈推理（Long CoT）與短鏈推理（Short CoT）之間的關鍵區別，重點在于推理深度、連接的重訪以及邏輯節點的探索 [607]。這些區別與系統1（System 1）和系統2（System 2）思維模式明顯不同。長鏈推理與短鏈推理的比較是在系統2的框架內進行的，其中長鏈推理涉及更徹底的推理、反思和探索，而短鏈推理通常優先考慮淺層且高效的邏輯，而非窮盡式的推理。

付費5元查看完整內容

大型語言模型 · 大模型推理 ·

2 月 8 日

[付費5元查看完整內容]大規模語言模型推理的進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—大規模語言模型（LLMs）在各種自然語言處理（NLP）任務中取得了顯著成功，但它們的推理能力仍然是一個根本性挑戰。盡管LLMs在流暢性和事實回憶方面表現出色，但在進行復雜推理時——涵蓋邏輯推理、數學問題求解、常識推理以及多步驟推理——它們的表現常常未能達到人類的預期。本文綜述了增強LLMs推理能力的新興技術，并將現有方法歸類為幾種關鍵途徑，包括提示策略（如鏈式思維推理、自一致性推理和樹狀思維推理）、架構創新（如檢索增強模型、模塊化推理網絡和神經符號集成）以及學習范式（如使用推理專用數據集的微調、強化學習和自監督推理目標）。此外，本文還探討了用于評估LLMs推理能力的評估框架，并強調了如幻覺、魯棒性和推理在不同任務中的泛化等挑戰。通過綜合近期的進展，本文旨在為推理增強型LLMs的未來研究方向和實際應用提供見解。關鍵詞—大規模語言模型（LLMs）、推理、邏輯推理、數學問題求解、常識推理、多步驟推理、提示策略、鏈式思維推理、自一致性推理、樹狀思維推理、檢索增強模型、模塊化推理網絡、神經符號集成、強化學習、自監督學習、幻覺、人工智能推理。最近發布的LLM DeepSeek-R1 [1] 在數學和編程等復雜任務中表現突出，展示了先進的推理能力。它能夠有效模擬類似人類的分析思維，提升數學、邏輯和編程等領域中的多步驟推理能力。

I. 引言

大規模語言模型（LLMs）在自然語言處理（NLP）領域引發了革命性的變化，實現了機器翻譯、文本生成、問答系統等復雜語言任務的突破。盡管這些模型在流暢性和知識保持方面表現出色，但它們在系統性推理方面常常遇到挑戰——這一能力對于需要邏輯推理、問題解決和決策的任務至關重要[2]。雖然LLMs能夠生成似是而非的回答，但它們經常出現推理錯誤、不一致性和幻覺，限制了它們在科學發現、法律和醫學等關鍵領域的可靠性[3][4]。人工智能中的推理廣泛涵蓋了多個認知過程，包括演繹推理、歸納推理、溯因推理和常識推理[5]–[9]。與基于檢索的知識綜合不同，推理要求進行多步驟的邏輯轉換、上下文推廣和結構化問題求解。傳統的人工智能方法通過基于規則的符號系統處理推理問題[10][11]，然而將這種結構化推理與基于數據驅動的LLMs范式相結合，仍然是一個持續的挑戰。近期的研究探索了多種方法來增強LLMs的推理能力。這些方法可以分為三個領域：（1）提示策略，如鏈式思維（CoT）推理[12]、自一致性推理[13]和樹狀思維推理[14]方法，這些方法利用結構化提示來引導逐步推理；（2）架構創新，包括檢索增強模型[15]、神經符號混合框架[16]以及整合結構化知識和邏輯的模塊化推理架構[17]；（3）學習范式，涉及使用專用數據集的微調[18]、強化學習以保持推理一致性[1]和鼓勵邏輯泛化的自監督目標[19]。在近期的進展中，剛發布的LLM DeepSeek-R1 [1]在推理性能上表現出色，特別是在數學和編程等復雜領域。DeepSeek-R1通過有效模擬類人分析思維，增強了數學問題求解、邏輯推理和編程任務中的多步驟推理，展示了微調架構和新型訓練范式在提升LLMs結構化推理方面的潛力。本綜述系統地回顧了LLM推理的這些進展，評估了它們的有效性、局限性和應用，涵蓋了評估基準、對抗性魯棒性、跨領域泛化和推理偏見等關鍵挑戰。通過綜合近期的進展，本文提供了對有前景的技術和未來研究方向的全面概述。本文的結構如下：第二節介紹推理的基礎，第三節探討基于提示的推理增強，第四節討論架構創新，第五節考察基于學習的方法，第六節重點討論評估和基準測試，第七節強調挑戰和開放研究方向，第八節總結全文。

2. AI和LLMs中的推理基礎

2.1 定義和推理類型推理是從前提或證據中得出結論的認知過程。它可以分為以下幾種類型：演繹推理：從一般前提中得出具體結論。如果前提為真，結論必須為真。這種方法在形式邏輯和自動定理證明中是基礎。歸納推理：從具體例子或觀察中得出一般原則。這種方法在機器學習的模式識別和預測中很常見。溯因推理：推斷給定觀察的最可能解釋，常用于診斷和假設形成。常識推理：應用一般世界知識來推斷合理結論，這對于理解人類交流中的隱含意義至關重要。概率推理：使用概率論處理邏輯推理中的不確定性，通常在貝葉斯網絡和馬爾可夫模型中實現。2.2 經典AI推理方法傳統的AI研究長期以來一直專注于結合結構化知識表示的形式推理技術。一些關鍵的經典方法包括：符號邏輯：使用一階邏輯（FOL）和命題邏輯推導結論的形式規則系統。基于規則的系統：應用預定義規則推斷邏輯結論的AI模型，用于專家系統和決策樹。知識圖譜：實體及其關系的結構化表示，支持通過圖遍歷和推理機制進行推理。自動定理證明（ATP）：使用邏輯演繹證明數學定理的算法，如命題邏輯中的歸結原理。貝葉斯網絡：通過表示變量之間的依賴關系，在不確定性下進行推理的概率圖模型。盡管這些經典方法提供了強大的邏輯基礎，但它們在應用于開放式、非結構化問題（如自然語言理解）時，面臨著可擴展性和適應性的挑戰。2.3 大語言模型中的推理大語言模型（LLMs）如GPT-4、PaLM和LLaMA利用深度學習架構（主要是Transformer）來處理和生成類人文本。然而，它們的推理能力與傳統AI方法有顯著不同：統計學習與符號邏輯：與遵循顯式邏輯規則的符號AI不同，LLMs學習語言數據中的概率模式，使其推理隱含且非確定性。涌現的推理能力：研究表明，擴展LLMs可以提高其執行多步推理任務的能力，盡管缺乏顯式邏輯約束。上下文和提示驅動的推理：LLMs嚴重依賴上下文窗口和外部提示工程技術（如鏈式思維提示）來生成推理響應。邏輯推理的局限性：雖然LLMs在識別語言模式方面表現出色，但它們在形式邏輯、數學證明和系統驗證結論方面表現不佳。2.4 LLMs推理的挑戰盡管取得了進展，LLMs在實現穩健和可靠的推理方面仍面臨幾個挑戰：幻覺：LLMs有時會生成看似合理但錯誤的信息，導致不可靠的推理。缺乏顯式記憶：與知識圖譜或基于規則的系統不同，LLMs缺乏結構化的長期記憶，使得推理一致性難以維持。多步推理的困難：盡管鏈式思維提示等技術有所幫助，但LLMs經常無法正確遵循多步邏輯結構。偏見和可解釋性問題：由于LLMs在大量文本語料庫上訓練，它們會繼承數據中的偏見，這可能會以不可預測的方式影響推理輸出。跨領域泛化的局限性：在多樣化數據集上訓練的LLMs仍然難以在不同領域之間轉移推理技能（如法律推理與科學推理）。2.5 彌合AI推理與LLMs之間的差距為了增強LLMs的推理能力，最近的研究探索了將傳統推理技術與深度學習相結合的混合模型。關鍵方向包括：使用結構化推理數據進行微調：在專門關注邏輯推理和數學問題解決的數據集上訓練LLMs。檢索增強推理：通過知識檢索機制增強LLMs，使其能夠基于外部事實生成響應。神經符號AI：將神經網絡與符號推理框架相結合，以利用兩者的優勢。自監督和強化學習技術：鼓勵模型通過迭代自訓練和獎勵機制來優化其推理。

3. 基于提示的推理增強

大語言模型（LLMs）通過結構化提示展示了涌現的推理能力，繞過了微調的需要。本節探討了關鍵的提示技術，如圖1所示，并在表I中進行了總結。3.1 鏈式思維（CoT）推理鏈式思維（CoT）推理是一種提示技術，用于提高大語言模型（LLMs）解決復雜推理問題的能力。它涉及將問題分解為一系列中間步驟，使模型能夠更有效地推理并得出準確的結論。該技術在復雜的數學問題解決、邏輯推理和常識推理中特別有效。逐步推理：模型生成一系列邏輯步驟來解決問題，而不是立即回答，從而提高多步問題解決的準確性。中間推理：該方法通過考慮子問題來模仿人類的問題解決過程，然后再得出最終答案。性能提升：研究表明，與標準提示相比，CoT提示在算術和邏輯任務中的表現有所提高。局限性：雖然CoT增強了可解釋性，但其有效性取決于提示設計和模型大小。在某些情況下，模型可能仍會生成錯誤的中間步驟。3.2 自一致性提示自一致性提示是一種先進的提示技術，通過生成多個不同的推理路徑并選擇最一致的答案來提高推理準確性。該方法在復雜推理任務中非常有用，因為單一的鏈式思維（CoT）可能容易出錯。該技術通過聚合輸出來減少響應的變異性并提高準確性。多個推理路徑：模型生成多個不同的推理鏈，而不是單一的逐步解決方案。多樣化的思維過程：每個推理鏈可能遵循不同的邏輯方法，減少了單一軌跡中的偏見。最終答案的多數投票：最終響應基于生成的樣本中最頻繁出現的正確答案。3.3 樹狀思維（ToT）推理樹狀思維（ToT）推理是一種高級問題解決框架，通過探索樹狀結構中的多個可能推理路徑來擴展CoT推理。與遵循單一線性推理路徑不同，ToT允許在每個步驟中進行分支和評估，從而產生更穩健和最優的解決方案。結構化探索：模型在樹狀結構中探索不同的路徑，選擇最優的推理路線。決策評估與剪枝：ToT推理在組合和規劃任務中特別有效。最終答案選擇：基于評分或多數選擇過程選擇最佳推理路徑。3.4 程序輔助語言模型（PAL）程序輔助語言模型（PAL）是一種通過允許模型調用外部計算工具（如Python或符號求解器）來執行計算、執行基于邏輯的步驟或驗證解決方案的技術。與純粹依賴內部基于標記的推理不同，PAL利用外部代碼執行來提高準確性和可靠性。基于執行的驗證：模型生成代碼格式的推理步驟，執行代碼以驗證正確性。數學推理中的更高準確性：PAL在需要精確計算的任務中表現出色。依賴外部工具：該方法需要與外部計算環境集成，限制了其可擴展性。實證研究表明，CoT和自一致性提示顯著提高了推理性能，特別是在數學和邏輯等結構化領域。

4. 增強推理的架構創新雖然基于提示的技術提高了大語言模型（LLMs）的推理能力，但架構創新在增強其執行結構化和復雜推理的能力方面起著至關重要的作用。本節探討了各種模型架構和修改，以提高邏輯推理、多步推理和知識集成。

4.1 檢索增強生成（RAG）檢索增強生成（RAG）是一種結合信息檢索與文本生成的AI框架。它通過結合外部知識源來增強LLM推理。與僅依賴參數記憶相比，該方法提高了響應的準確性、相關性和事實基礎。查詢處理：輸入查詢被處理并嵌入到向量空間中。模型使用檢索系統（如密集段落檢索、BM25）搜索相關文檔。檢索到的文檔被附加到輸入中。知識增強推理：基于查詢和檢索到的信息，RAG模型補充其推理過程。減少幻覺：通過將響應基于外部數據，RAG有助于減少純生成模型中常見的幻覺。4.2 神經符號混合模型神經符號混合模型結合了神經網絡（擅長模式識別和從數據中學習）與符號AI（支持推理、邏輯和顯式知識表示）。這種融合旨在創建更可解釋、可泛化和穩健的AI系統。邏輯與學習的集成：這些模型使用神經網絡處理非結構化文本，同時使用符號邏輯進行基于規則的推理。神經網絡提取特征，而符號系統提供邏輯推理。增強的可解釋性：符號組件提高了透明度，使推理步驟更易解釋。基于規則的系統、知識圖譜和形式邏輯支持結構化推理。4.3 記憶增強神經網絡記憶增強神經網絡（MANNs）是將外部記憶與神經網絡集成的AI模型，使其能夠動態存儲、檢索和操作信息。MANNs可以從外部記憶模塊中讀取和寫入數據，使其在長序列推理一致性、終身學習和少樣本學習任務中更具適應性。控制器（神經網絡核心）：處理輸入并管理與內存交互的神經網絡（通常是RNN或Transformer），決定何時以及如何讀取/寫入數據。外部記憶存儲：一種結構化記憶組件（如可微分記憶矩陣或鍵值存儲），用于隨時間保存信息。與僅依賴隱藏狀態的標準RNN不同，MANNs顯式檢索和更新記憶。記憶訪問機制：記憶增強神經網絡中的讀/寫操作通常是可微分的，支持基于梯度的學習。尋址機制包括基于內容的尋址（通過評估與存儲數據的相似性來檢索記憶）和基于位置的尋址（基于位置或順序訪問記憶）。

4.4 圖神經網絡（GNNs）和知識圖譜圖神經網絡（GNNs）通過顯式表示實體及其關系，提供了結構化推理框架，支持邏輯推理和多跳問答。結構化表示：圖神經網絡是設計用于處理圖結構數據的神經模型。與傳統的深度學習模型（處理圖像等網格或文本等序列）不同，GNNs可以建模相互連接實體之間的復雜關系。知識圖譜上的推理：知識圖譜將事實表示為實體和關系的結構化格式，通常為三元組（主語、謂語、賓語）。當GNNs應用于知識圖譜時，它們支持推理、推斷和發現隱藏關系。提高可解釋性：基于知識圖譜的推理通過使推理路徑顯式化來增強透明度。

4.5 工具使用和API增強LLMs可以通過外部工具和API增強推理能力，利用語言建模之外的專業計算資源。程序化推理：模型調用外部計算器、定理求解器或搜索引擎來驗證推理步驟。動態數據集成：如表II所示，API支持實時訪問更新知識，提高推理的事實準確性。局限性：依賴外部服務會引入延遲，并需要訪問控制機制。實證結果表明，檢索增強和神經符號模型在結構化推理任務中優于標準Transformer架構。

5. 基于學習的推理方法除了提示和架構創新外，基于學習的方法在提高大語言模型（LLMs）的推理能力方面至關重要。這些方法涉及訓練范式，如使用推理特定數據集進行微調、強化學習以提高一致性，以及自監督學習以支持邏輯推理。本節探討了各種基于學習的方法，以增強LLMs的推理能力。

5.1 使用推理特定數據集進行監督微調在高質量推理數據集上微調LLMs可以提高模型的邏輯、數學和常識推理能力。數學和邏輯推理：在MATH和GSM8K等數據集上微調，增強了數學問題解決和邏輯推理能力。常識和因果推理：在SWAG和Abductive NLI（aNLI）等數據集上微調，幫助模型學習常識推理和溯因推理。科學和多跳推理：在ARC和HotpotQA等數據集上微調，提高了多步推理和問答能力。盡管微調可以顯著提高模型性能，但需要仔細的數據集策劃，以防止過擬合并確保泛化能力。

5.2 基于人類反饋的強化學習基于人類反饋的強化學習（RLHF）等方法訓練模型，使其推理與人類偏好保持一致。邏輯一致性的獎勵模型：RLHF根據人類評估者的反饋優化模型輸出，減少邏輯推理中的錯誤。獎勵模型（RM）訓練：人類評估者根據偏好評估多個模型輸出。一個專門的神經網絡（稱為獎勵模型）在這些排名上進行訓練，以捕捉人類偏好。模型生成并評估其推理步驟，通過迭代學習優化正確解決方案。通過近端策略優化（PPO）進行強化學習：PPO是一種強化學習算法，用于優化模型，同時防止其基礎性能的劇烈偏離。

5.3 自監督和對比學習用于推理自監督學習（SSL）和對比學習（CL）已成為訓練大規模語言模型進行推理任務的有效方法。與依賴人工標注數據的監督學習不同，SSL和CL利用數據中的固有結構來創建有用的表示并提高推理能力。用于邏輯推理的對比學習：通過訓練模型區分有效和無效的推理鏈，對比學習提高了邏輯一致性。對比學習優化對比損失（如InfoNCE或Triplet Loss），鼓勵正確的推理對具有更高的相似性分數。使用合成數據進行自訓練：模型生成合成推理路徑并驗證其正確性，迭代優化其推理能力。零樣本和少樣本推理改進：自監督學習通過使模型能夠直接從原始數據中提取抽象推理模式，增強了模型在新推理任務中的泛化能力。

5.4 自動驗證器和批評模型為了進一步提高推理準確性，LLMs可以與自動驗證器配對，后者對模型的輸出進行批判性評估。二次驗證模型：一個單獨的模型評估LLM的推理輸出，過濾掉錯誤的推理。形式證明檢查：與定理證明器集成，允許模型嚴格驗證邏輯推理。局限性：由于難以形式化自然語言推理，自動驗證仍然具有挑戰性。

6. LLMs推理的評估和基準測試

評估大語言模型（LLMs）的推理能力需要使用標準化的基準和性能指標進行系統評估。本節探討了各種評估方法，包括推理基準、關鍵性能指標、與人類推理的比較分析以及當前評估策略的局限性。

6.1 流行的推理基準

已經開發了多個基準來評估LLMs在不同推理方面的能力，從數學問題解決到邏輯推理和常識推理。

ARC（A12推理挑戰）：通過要求跨不同知識領域的多步推理來衡量常識和邏輯推理能力。
LogiQA：評估邏輯推理能力的數據集，特別是在演繹和溯因推理場景中。
GSMBK：專注于小學數學推理問題的數據集，評估多步算術推理能力。
MATH：測試模型在高中和競賽級別數學上的基準，評估形式數學推理。
BIG-Bench：涵蓋各種推理任務的廣泛數據集，包括邏輯推理、抽象和多跳推理。
ProofWriter：評估模型執行自動定理證明和邏輯推理的能力。
HotpotQA：專注于多跳問答的數據集，要求模型結合來自多個來源的信息進行推理。
HumanEval：評估LLMs生成代碼的能力。它評估模型理解編程相關任務并根據提供的規范生成語法正確且功能準確的代碼的能力。
ANLI（對抗性NLI）：通過對抗性生成的推理任務測試模型在自然語言推理中的表現。
HellaSwag：測試常識自然語言推理的基準。它要求模型預測句子最可能的結尾。
測量大規模多任務語言理解（MMLU）：評估57個學科中的一般知識和問題解決能力，包括初等數學、美國歷史、計算機科學和法律。

VII. 挑戰與開放研究方向

盡管在增強大規模語言模型（LLMs）推理能力方面取得了顯著進展，仍然存在若干挑戰。這些局限性妨礙了它們在高風險領域的可靠性、魯棒性和適用性。本節討論了關鍵挑戰，并提出了解決這些問題的開放研究方向。A. 幻覺與虛假信息LLMs推理中的一個關鍵挑戰是生成幻覺或事實錯誤的信息[20]。未驗證的推理步驟：LLMs有時會生成看似合理但實際上不正確的推理鏈，導致邏輯不一致[48]。事實檢查機制：現有的事實檢查技術未能有效過濾多步驟推理任務中的虛假信息[30]。開放研究方向：開發自動化驗證工具，并將LLMs與結構化數據庫集成，以提高事實準確性。B. 跨領域泛化LLMs往往難以將推理能力泛化到不同領域，限制了它們在新場景中的適應性[49]。領域特定過擬合：在特定推理數據集上進行微調可能會提升目標任務的性能，但卻妨礙了模型在未見領域中的適應性[32]。跨領域遷移學習：當前的遷移學習方法在保持推理一致性方面存在局限性，尤其在不同語境下[19]。開放研究方向：研究元學習和持續學習策略以促進跨領域泛化。C. 對抗性攻擊的魯棒性LLMs容易受到對抗性擾動的影響，這些擾動利用推理中的弱點，導致錯誤或誤導性的輸出[44]。對輸入變化的敏感性：在提示詞中做出微小修改可能會導致推理輸出發生顯著變化，影響模型的可靠性。對抗性魯棒性測試：現有的基準測試并未充分評估LLMs在對抗性推理挑戰中的表現[27]。開放研究方向：開發穩健的對抗性訓練技術，提高模型對輸入操控的抗性。D. 結合符號推理與神經推理LLMs依賴于統計模式識別，而非形式化的邏輯推理，這導致它們在復雜推理任務中出現錯誤[16]。純神經網絡方法的局限性：LLMs在結構化邏輯、形式證明和抽象符號推理方面表現較差[40]。神經符號人工智能：將神經網絡與符號推理框架結合，可以增強邏輯一致性和可解釋性[16]。開放研究方向：推進混合神經符號架構，以增強推理的人工智能模型。

VIII. 結論推動大規模語言模型（LLMs）中的推理能力發展是人工智能發展的一個關鍵里程碑。盡管在提示技術、架構創新和基于學習的方法上有所進步，但在邏輯一致性、泛化能力、魯棒性和可解釋性等方面仍然存在挑戰。本文綜述了增強LLM推理能力的關鍵方法，將其分類為提示技術、架構創新和基于學習的策略。

付費5元查看完整內容

大模型推理 · 強化推理 · 大型語言模型 ·

1 月 17 日

[付費5元查看完整內容]邁向大型推理模型：基于大型語言模型的強化推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言長期以來被認為是人類推理的基本工具。大型語言模型（LLM）的突破激發了大量研究興趣，推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程，如樹搜索和反思性思維。近年來，學習推理的趨勢逐漸興起，強化學習（RL）被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡，大大擴展了LLMs的推理能力，通過提供大量的訓練數據。此外，近期研究表明，鼓勵LLMs在推理過程中使用更多標記（即“思考”）進行測試時推理，能夠顯著提升推理準確性。因此，訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中，我們對LLM推理的最新進展進行了全面回顧。首先，我們介紹LLM的基礎背景，然后探討推動大型推理模型發展的關鍵技術組成部分，重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目，致力于構建大型推理模型，并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失，思維也將會嚴重缺失。” — 諾姆·喬姆斯基得益于深度學習的進展和大規模數據集的可用性，大型語言模型（LLMs）已成為邁向人工通用智能（AGI）的轉型性范式。這些龐大的AI模型通常采用Transformer架構，并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明，隨著模型規模和訓練數據的增加，它們的性能顯著提升 [59]。更重要的是，LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159]，例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題，能夠處理更廣泛的任務，如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中，人類般的推理能力受到了學術界和工業界的廣泛關注，因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160]，該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理，而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性，并推動了“樹狀思維” [172] 等更高級提示技術的發展。這些方法引入了“思維”這一概念，將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟，LLMs的推理超越了簡單的自回歸標記生成，能夠實現更復雜的認知架構，如樹搜索 [172] 和反思性推理 [180]。

近年來，學習推理成為一個重要的研究趨勢 [103]，其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂，特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題，近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題，借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是，研究人員提出了在這些推理軌跡上訓練過程獎勵模型（PRMs） [183]。PRMs可以提供密集的逐步獎勵，促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴，并創造了一個“強化循環”，有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展，正如理查德·薩頓所預測的那樣 [139]。因此，這一新興范式通過增加訓練時的計算資源，實現了LLM推理能力的擴展，為更高級的推理模型鋪平了道路。

此外，近期的研究表明，增加測試時計算資源也可以提高LLM的推理準確性。具體而言，PRMs可以引導LLMs評估并搜索中間“思維”過程 [134]，鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟，從而提升推理準確性。這一方法促成了測試時擴展法則，該法則預測，在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此，基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合，展示了一個有前景的研究方向，旨在充分釋放LLMs的推理能力，即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑，展示了該方法的有效性，并呼應了OpenAI在邁向AGI的五步路線圖中，從對話AI（一級）到更強大推理AI（二級）的過渡愿景 [36]。一些開源項目，如OpenR [145]、LLaMABerry [185] 和Journey Learning [110]，致力于復現OpenAI的o1強大推理能力，為大型推理模型的開發提供了寶貴的見解。

在本綜述中，我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言，第三節聚焦于訓練數據構建，強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法，重點討論訓練時計算資源的增加；第五節則討論了測試時擴展，特別是基于PRM引導的搜索。在第六節中，我們分析了OpenAI的o1系列及其他開源項目，探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術，第八節回顧了推理基準測試。最后，我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段，有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前，我們首先概述一般LLM預訓練的基本過程。通過預訓練，LLMs不僅獲得了核心的語言知識，還掌握了多樣化的世界知識，為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常，LLM預訓練依賴于高質量的文本語料庫，包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫，LLMs基于Transformer架構，通過下一個詞預測任務進行訓練。預訓練后，LLMs通常表現出卓越的上下文學習能力，能夠生成連貫的文本，并利用其龐大的知識庫回答各種問題。值得注意的是，預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如，研究表明，富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察，新開發的LLMs開始引入精心設計的合成數據，以增強LLMs的推理能力。在預訓練過程中，一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例，以保持強大的語言能力，同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力，但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里，我們首先概述基本的微調過程，然后探討其在增強推理能力方面的潛力。如文獻[104]所述，預訓練階段結束后，LLMs進入監督微調階段（SFT），也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格，確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的，這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現，新的方法涌現出來，用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術，以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集，微調過程繼續使用下一個詞預測目標，類似于預訓練。然而，與預訓練不同的是，微調特別計算答案的損失，而通常忽略問題的損失。此外，結合包含思維鏈（CoT）推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力，這使其成為一個活躍的研究領域。遵循一般實踐，大多數當前方法利用從高級大型推理模型中提取的數據進行微調，以增強LLMs的推理能力，從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練，這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中，對齊階段通常涉及使用人類反饋的強化學習（RLHF）等方法，以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比，這一階段通常包含大量精心策劃的人工標注的排名數據，以準確反映人類偏好。這些數據不僅包括正確的示范，還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型，這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本，提出了直接偏好優化（DPO）等方法，以減少對顯式獎勵模型的依賴。在DPO中，偏好損失被定義為策略的函數，以直接指導模型優化。鑒于推理問題的多步驟性和復雜性，基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型，基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠，但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法：逐步推理、多路徑探索和基于分解的方法。逐步推理方法以思維鏈提示為例，展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示，如“讓我們一步一步地思考”，也能有效地引導推理過程。這種方法通過自我一致性（Self-Consistency）進一步改進，生成多個推理路徑以得出更可靠的結論，以及自動生成有效推理鏈的Auto-CoT。多路徑探索方法超越了線性推理，同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構，從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構，允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起，豐富了這一范式，從而能夠更動態地與外部環境互動。對于復雜問題，基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件，而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。這些廣泛的推理能力通過結構化提示策略得到增強，在處理需要仔細分析和系統思考的任務時特別有效，使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明，盡管LLMs具備固有的推理能力，但通過提示過程中的仔細引導和結構，可以充分釋放其潛力。 2.5 代理工作流在LLMs的指令遵循和上下文學習能力之上，研究人員開始設計代理工作流，以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力，但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力，使LLMs能夠高效地推廣到未見問題，而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題，但最近的研究表明，上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景，例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明，有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建：從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而，由于成本高昂，這一任務面臨重大挑戰。如圖1所示，人工標注被廣泛認為是高質量的，但其成本高昂且難以擴展。相反，使用LLMs自動化標注過程提供了一種更具成本效益的替代方案，但面臨驗證有限的挑戰，特別是對于逐步推理過程。在本節中，我們回顧了該領域的最新研究進展（總結在表1中），強調了從人工標注到LLM自動化的轉變。 3.1 人工標注人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征，同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明，即使使用最少的人工標注數據，模型也能實現強大的性能，突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習（RLHF）的背景下，來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎，Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性，顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰（如復雜推理任務）之間的差距。增強LLMs的推理能力需要過程監督，即人工標注者指導推理過程的每一步[75]。然而，這種監督需要大量的人工標注數據，使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據，其數量對模型性能至關重要，完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注，利用LLMs加速標注過程，同時保持人工生成標注的高質量。具體來說，標注過程可以分為兩個階段：預標注階段和精煉階段。在預標注階段，LLMs可以用于執行初始標注，利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段，人工標注者可以評估LLM生成標注的質量，并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程，最近的工作越來越關注如何在確保數據質量的同時最大化自動化，從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務，特別是在需要復雜操作（如過濾、識別、組織和重構文本數據）的場景中。這些任務通常繁瑣、耗時，并且需要大量的人力，使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰，利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記，LLMs可以輕松處理長文本和大規模結構化數據[2]，以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景，同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務，LLMs顯著減少了對人力的依賴，簡化了標注過程，并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務，從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下，LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如，Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置，LLM能夠理解周圍上下文中的邏輯關系，生成相關問題，并確定適當的工具API來解決問題。當有人工示范時，LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務，人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明，即使是零樣本LLMs，在基于人工示范的任務無關提示下，也能有效地執行標注任務[65]。此外，對于涉及高度復雜和細微軌跡的任務，LLMs可以結合專門的代理，如計劃代理、工具代理和反思代理，以解決標注過程的不同方面，從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務，LLMs不僅推斷潛在邏輯結構，還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果，還捕捉導致這些結果的完整推理過程的標注數據集，為下游應用提供更豐富的見解。除了基于人工示范的標注外，LLMs可以通過帶有反饋的搜索獨立增強其標注能力，這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式，作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據，LLMs參與了一個自我改進的循環，增強了其理解和推理能力[70]。此外，LLMs可以系統地分析其錯誤的原因，提取關鍵見解并將其編碼為自學習知識，以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對，從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制，LLMs不僅解決了錯誤，還開發了更強大的推理能力，使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注在復雜的推理任務中，模型輸出的每一步都可能顯著影響最終結果，因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵，即過程標注。然而，手動標注這些步驟既昂貴又耗時。例如，Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集，即PRM800K，該數據集滿足了訓練有效過程獎勵模型（PRM）的要求，并大大增強了LLMs的推理能力。因此，自動化方法越來越需要高效的過程標注，以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外，基于蒙特卡羅的方法減少了對外部更強LLMs的依賴，可以使用較弱的LLMs完成數據標注，從而通過自我強化的方式訓練更強的LLMs。使用更強的LLM進行標注：作為一種直接的自動化標注方法，Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注，而是使用預訓練的高性能模型（如GPT系列）來評估每個生成的步驟。通過利用更強外部模型的能力，這種方法提高了標注過程的準確性和可擴展性，使其更適合大規模任務。然而，這種方法的主要限制在于其對高度能力的外部模型的依賴，這意味著標注過程的性能最終受限于所使用的外部模型的能力。通過蒙特卡羅模擬進行標注：為了減少對強大外部模型的依賴，Wang等人[148]和Wang等人[156]提出了一種改進方法，避免直接評分中間步驟。相反，他們的方法使用外部模型從給定的中間輸出繼續推理幾步，并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。通過樹搜索模擬進行標注：使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率，Luo等人[85]提出了一種改進方法，用蒙特卡羅樹搜索（MCTS）策略取代重復的蒙特卡羅模擬。在這種改進方法中，使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比，MCTS利用樹搜索提高推理質量，同時允許葉節點共享高質量的父節點，減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能，超越了人工標注。在基于MCTS的模擬基礎上更進一步，Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數（PRM），進而提高大型語言模型（LLM）的性能。精煉后的LLM隨后用于重復基于MCTS的模擬，生成更高質量的標注。這種涉及改進循環的迭代過程，通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色，包括數學問題解決、問答和多領域知識推理，展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理：從監督到強化微調

雖然預訓練模型在各種任務中表現出色，但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要，可以優化模型在特定任務上的表現并增強其推理能力。最初，使用監督微調（SFT），模型從標注數據集中學習任務特定的模式。然而，隨著推理挑戰的增加，強化學習（RL）和直接偏好優化（DPO）等方法提供了更有效的方法，使用獎勵模型更高效地將模型的輸出與類人推理對齊，促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM：監督微調監督微調（SFT）是一種學習技術，它使用標注數據優化預訓練模型在特定任務或領域的能力，同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征，但微調通過將模型暴露于較小的、任務特定的數據集（具有清晰的輸入-輸出映射）來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟，通過將其從通用系統適應為領域特定工具，使其能夠應用于下游任務。例如，像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練，賦予它們廣泛的語言理解和生成能力。然而，它們的輸出并不總是與任務特定要求對齊。如果沒有微調，LLMs在某些推理任務上往往表現不佳，例如對象計數、衛星理解和工程問題回答。通過SFT，我們可以基于標注的任務特定數據集優化模型的輸出，從而部分解決這些挑戰。然而，直接應用SFT可能無法充分探索模型在所需領域中的推理能力，特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程，通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT，LLMs被鼓勵顯式生成中間推理步驟，從而增強其推理能力，以應對需要更結構化和有組織思維的任務。例如，ReasonBert[29]表明，使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現，通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性，并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調，模型不僅提高了最終答案的準確性，還增強了其“思考”問題的能力，提供了對模型推理過程的更清晰見解。盡管SFT方法多樣且表現優異，但它也存在一些局限性。首先，SFT嚴重依賴高質量的標注數據集，這些數據集的策劃成本高昂且耗時，特別是對于需要專家標注的利基領域或任務。其次，SFT可能導致災難性遺忘，即模型在微調過程中失去一些預訓練的通用知識，降低了其在微調領域之外的推理任務的實用性。最后，即使采用參數高效的方法，大規模模型的微調計算成本仍然很高，對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法，如提示調優或多任務微調，以平衡任務專業化和泛化。

4.2 優化預訓練LLM：強化學習由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本，強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同，RL使模型能夠通過試錯獎勵信號學習，發現實現特定目標的最佳策略。如圖2（a）所示，模型根據其當前狀態采取行動，并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數，優化累積獎勵。經典強化學習：RL已成為LLMs發展的關鍵步驟。在RL框架中，LLMs的參數根據其行動的獎勵進行更新。具體來說，價值函數或Q函數根據獎勵模型的反饋進行更新，將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架，使其在概念上更直接，同時增強了模型有效響應的能力。目前，兩種關鍵方法主導了LLMs的RL訓練：人類反饋強化學習（RLHF）和AI反饋強化學習（RLAIF）。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外，通過在人類標注的示范和排名比較上微調GPT-3，他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊，盡管規模較小，但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架，他們對基礎模型進行微調，使用拒絕采樣訓練偏好模型，并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。為了減少對大規模人類標注數據集的依賴，Bai等人[9]提出了Constitutional AI，這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段：監督學習和RLAIF。在監督階段，模型基于憲法原則批評和精煉其輸出，創建微調數據集。在RLAIF階段，模型生成自我評估以指導訓練，繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs，一個用于基于RL的微調的庫，以及GRUE基準，該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰，他們提出了自然語言策略優化算法，通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。直接偏好優化：經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程，無需顯式獎勵模型。DPO不是優化復雜的獎勵函數，而是使用成對偏好比較，即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程，同時保留了基于RL方法對齊的好處，通常更簡單且更有效。Rafailov等人[112]引入了DPO，這是一個用于對齊語言模型的新框架，它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略，DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明，DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法（如PPO），同時更穩定、計算效率更高，并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化（ODPO），這是DPO的擴展，用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移，與質量差異成比例。這種方法不僅改進了對齊，還增強了模型的推理能力，特別是在情感控制、毒性減少和摘要等任務中。實驗表明，ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。總之，RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵，這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程，避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務，最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理對于復雜的推理任務，如數學問題解決，LLMs需要執行多步推理（如思維鏈）以最終得出準確的解決方案。在這些任務中，獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2（b）所示，這被稱為結果獎勵模型（ORM）。在這種情況下，提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。經典強化學習：ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型，PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比，ReFT能夠學習更多樣化的推理路徑，在推理任務中表現出更強的泛化能力。然而，VinePPO[60]發現，使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差，這是RL中一個眾所周知的挑戰，稱為信用分配問題。為了解決這個問題，VinePPO放棄了PPO中的價值網絡，轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明，VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習（CPL）是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索（MCTS）探索多步推理任務中的不同計劃步驟，并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑，從而提高在各種任務中的泛化能力。隨后，模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中，策略模型生成計劃步驟和最終解決方案，而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。直接偏好優化：在數學推理任務中，直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO，它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。總之，基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索，在估計這些中間步驟的重要性方面具有優勢，盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上，這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務，包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型，并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數，可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型（PRM）基于強化學習代表了LLM推理的重大進步，強調評估中間步驟而不是僅僅關注最終結果。如圖2（c）所示，PRM的獎勵分布在每個推理步驟中，而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋，PRM使模型能夠優化行為，使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要，其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變，并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。經典強化學習：一系列近期工作將PRMs應用于數學或邏輯推理，因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”（即問題解決中的初始錯誤步驟）來增強數學推理。通過獎勵糾正這些錯誤的步驟，PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋，在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架，用于數學推理任務中的逐步驗證和強化。通過自動化過程監督（使用MCTS啟發的方法），MATH-SHEPHERD消除了對人工標注的需求，同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性，從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化（GRPO）[128]集成了PRMs，這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟，DeepSeekMath在多個基準上實現了最先進的性能，展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器（PAVs），一種PRM變體，用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟，PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。交互式過程獎勵模型：PRMs還應用于交互任務，如對話和多輪問答。ArCHer采用分層RL方法，使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統：高層價值函數評估話語級獎勵，而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配，并允許對語言模型進行細致訓練，以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展，在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中，以優化長期目標與人類反饋。多輪偏好優化（MTPO）算法比較整個多輪交互以生成偏好信號，其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊，提高動態、多輪任務（如對話和戰略決策）的整體性能。直接偏好優化：一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如，SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度，它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外，SVPO將顯式價值模型與DPO集成，其中價值模型不僅幫助策略模型導航更高效的推理路徑，還指導偏好學習。然而，這些工作主要集中在首先收集偏好數據或訓練獎勵模型，然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中，推進了這些方法。這種方法可以被視為直接偏好優化的在線版本，其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心，提供了細致的步驟級獎勵，推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調強化微調（RFT）[101]是OpenAI最近提出的一種技術，用于定制針對特定垂直領域的專家LLMs。目前，RFT仍處于研究計劃中，技術細節尚未完全公開。現有信息表明，RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此，RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。評分模型：RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋，評分模型可能類似于獎勵模型，將文本輸入（如問題和答案）轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型，可能作為結果獎勵模型或過程獎勵模型運行[76]。數據效率：在OpenAI的現場會議中，提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率，同時減輕了過擬合的風險[56]。訓練穩定性：強化學習訓練的穩定性是一個眾所周知的難題，對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中，OpenAI宣布計劃通過API向公眾提供該技術，使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性，能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展：從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考除了通過強化學習等技術進行訓練時優化外，研究人員發現，測試時提示技術（如思維鏈和思維樹）可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果，但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法（如ReAct和Least-to-Most Prompting）的出現表明，LLMs可以從明確的思維過程組織中受益，從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷，但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向，而無需依賴模型架構或訓練修改[172, 11]。這表明，通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改，可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索如前所述，PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是，PRM還可以在測試時階段使用，從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明，通過增加測試時計算資源，可以有效地增強推理能力，為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法，如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑，綠色空心圓表示在探索過程中采用的推理路徑，綠色實心圓表示一旦找到正確答案，推理路徑的終點。多數投票：多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中，每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測，選擇出現次數最多的類別（“多數投票”）作為最終輸出：f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f，其中II是指示函數，yy是每個評估軌跡。樹搜索[15]：樹搜索是一種經典算法，通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題，如棋盤游戲和規劃任務。蒙特卡羅樹搜索（MCTS）是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成：選擇、擴展、模擬和回傳。通過逐步擴展搜索空間，MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用，取得了顯著成功。例如，思維樹框架[172]使LLMs能夠考慮多個推理路徑，這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策，確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。束搜索[133]：束搜索是貪婪搜索的改進版本，通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑（稱為束）以進行進一步擴展。與貪婪搜索不同，束搜索維護多個候選路徑，從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如，BART[71]使用束搜索作為其主要推理策略，展示了其在文本生成任務中的卓越效果。前瞻搜索[134]：前瞻搜索是另一種有前景的方法，具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選，而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點，則提前停止。在前瞻搜索過程中，使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分，決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比，前瞻搜索增加了探索空間的深度，允許基于更遠的模擬決策結果判斷當前決策。然而，它也增加了對計算資源的需求，在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月，OpenAI發布了o1，這是一個突破性的語言模型，代表了AI推理能力的重大進步，特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日，OpenAI開放了o3的測試申請，o3是o1的升級版本[102]，被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果，包括在國際數學奧林匹克競賽中獲得金牌水平[73]，并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下：有效的知識整合：初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力，通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率，模型展示了清晰的能力，利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明，其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式，顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出，例如將物理原理應用于生物系統或將統計方法與領域特定約束結合，表明其在知識綜合和應用方面的基本能力。系統問題分解：o1在不同復雜程度的任務中保持了一致的表現，展示了在處理難度增加時的系統問題分解能力。在數學推理中，詳細研究[27]展示了其系統問題分解方法，通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證，如對105個科學和數學問題的研究[26]，隨著問題復雜性的增加，模型在概念深度和計算需求方面保持了高準確性。在編程任務中，這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明，o1通過結構化三步方法（錯誤識別、根本原因分析和針對性修正）在不同復雜程度的錯誤中保持了一致表現。復雜任務中的可靠和連貫推理：模型的推理在不同問題類型中有效適應，始終展示出各種任務中推理鏈的一致性。在規劃任務中，PlanBench評估[144]展示了其系統處理確定性和概率場景的能力，在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢，在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力，有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明，其中中間目標必須正確排序，依賴關系必須仔細管理，展示了其在時間推理和因果理解方面的高級能力。大型推理模型的新擴展定律：實證研究表明，o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間，模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明，通過優化的測試時計算策略，模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示，o1的推理能力可以通過推理階段的高級計算分配有效增強，特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同，隨著思考時間的增加，性能持續提升[103]。這在編程任務中得到證明，允許每個問題提交10,000次使模型能夠顯著提高結果，即使沒有測試時選擇策略，得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步，展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考，旨在復制或近似專有模型（如OpenAI的o1）的推理優勢。在本節中，我們介紹了四個重要的開源項目，每個項目采用不同的策略來增強LLM推理（總結在表2中）。通過探索它們的獨特實現，我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]：該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架，采用強化學習技術。OpenR復制的核心是構建逐步推理數據，其中獲得更精確和細粒度的反饋，而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡，采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據，進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中，與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**：與分別訓練PRM和微調策略模型不同，他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法，預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案，而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]：該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力，而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖，結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成，設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法，o1復制之旅將模型暴露于不同的邏輯序列和修正中，鼓勵在訓練階段進行探索和適應性。然而，o1復制之旅在推理階段較為簡單，缺乏高級的訓練后技術，這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比，這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]：該項目專注于優化推理階段的能力，利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法，將蒙特卡羅樹搜索與自我精煉（SR-MCTS）相結合，使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性，使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型（PPRM），它成對評估解決方案路徑，確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數（EBC）然后整合這些偏好排名以指導模型的決策，進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例，與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略，還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍，推動了開發復雜、透明和適應性強的推理模型的集體目標，使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外，還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示，諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM，但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索（VRS）利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同，VRS純粹通過測試時推理操作，使用迭代反饋循環來精煉解決方案，而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力，VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用，支持廣泛的任務，包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS，深入探討每個類別中呈現的方法論和獨特見解。在個體代理設置中，VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務，其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如，對組合問題（包括帽集和在線裝箱）的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣，符號回歸研究將方程視為動態構造，迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航，在效率和準確性上超越傳統優化技術。在科學發現中，VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如，在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中，VRS用于通過模擬反饋精煉假設，推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用，支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如，研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式，通過反饋循環不斷精煉解決方案，從而在不同領域中有效泛化。總體而言，VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來，以精確和適應性解決數學、科學和優化中的挑戰。在多代理系統中，VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間，允許代理交換見解并實現共同目標。異構信息網絡（HINs）中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構，增強了其可解釋性和預測準確性[20]。同樣，在社會經濟預測中，多代理系統整合知識圖譜和元路徑推理，為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作，并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如，使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互，這些框架生成準確的因果圖，同時解決因果關系中的歧義[69]。在金融決策中，VRS增強了層次協作。FINCON框架采用經理-分析師系統，通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉，FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理，VRS支持多代理系統應對復雜任務，如元結構精煉、社會經濟預測和金融決策。在具身代理設置中，VRS用于通過整合推理與物理交互來解決現實世界任務，支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境，結合語義推理與實際實驗。例如，自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具，如機器人液體處理器、光譜設備和基于網絡的研究模塊，以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應，其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤（如錯誤的模塊調用）時，系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋，具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預，同時加速了科學發現，使其成為現實世界實驗和創新的寶貴工具。總的來說，先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力，VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索，再到現實世界應用中的動態實驗，VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架，能夠在計算和物理領域中應對復雜挑戰，同時推動多樣化領域的進步。 7.2 基于記憶的強化當應用于開放式任務（如創意寫作、復雜邏輯推理和開放世界游戲）時，解決方案空間往往會急劇擴展，通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息，使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰，一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎，迭代探索其環境。通過這一過程，它們總結經驗，提取解決方案空間的可解釋高級見解，并在后續試驗中精煉其行動，從而提高推理性能。這些研究不僅關注探索外部解決方案空間，還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶，其能力逐步增強并泛化到未見任務。具體來說，我們將該領域的研究分為以下三類。經驗學習：此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗，同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理，該代理記錄過去的觀察-行動對，并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值（預期未來獎勵）。當面臨新任務時，代理從記憶中檢索具有最高和最低Q值的相關行動，將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務，并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地，經驗共同學習[108]采用多代理框架，其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時，這些代理交替檢索相關記憶以改進上下文學習。反思學習：雖然使用記憶作為少樣本示例簡單有效，但這種方法并未充分利用LLMs的語義理解能力。一些研究認為，LLM代理應直接反思存儲在記憶中的成功和失敗，明確總結潛在原因，并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力，基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中，以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思，從記憶中檢索最相關的成功經驗，總結成功軌跡的模式，并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發，將記憶組織為目標模塊和子任務模塊，實現不同層次的反思和經驗總結。對于新任務，它檢索相關經驗以分別制定高級目標和低級子任務。概念學習：明確反思顯著增強了LLMs的推理能力。在此基礎上，一些研究旨在使LLM代理發展超越特定任務的廣義“概念”，促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力，并隨著記憶的增長不斷進化。例如，Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動，而是評估這些信念的合理性和一致性，迭代精煉策略。類似地，Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈，它自主收集經驗，扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發，為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索，并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外，它生成未見任務進行練習，基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次：提示層次、模塊層次和代理層次。請注意，這種方法并不旨在直接搜索解決方案空間，而是利用經驗數據優化代理系統本身，類似于元學習問題。我們總結了該領域的相關工作如下。提示層次：“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面，提示本身也值得搜索和優化。自動化提示工程，如進化提示優化[38]和元提示迭代[169]，可以實現比手動提示更好的結果，但也引入了更多的標記消耗。模塊層次：Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計，其中模塊本質上是具有特定功能的提示塊，如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口，使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計，如CoT和ToT。此外，Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外，評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動，以提高搜索效率，同時緊密匹配其實際性能。代理層次：ADAS提出利用LLMs搜索整個代理系統，這些系統在Python代碼空間中定義[53]。此外，多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中，關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務（如長故事創作）中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。代理系統搜索為代理提供了自我改進的能力，使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率，降低搜索成本，并在確保搜索合理性的同時實現自動化。 7.4 總結本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而，它們具有巨大潛力，通過更全面的測試時“思考”進一步提升LLMs的推理能力，促進LLMs在解決方案空間中戰略性地推理，利用過去經驗并動態優化代理工作流。因此，訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向，有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中，我們系統地回顧了LLM推理的流行基準，這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學，提供了系統評估數學理解和問題解決能力的不同方面的方法。在數學應用題（MWP）領域，基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面，MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力，而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算（如加法或減法）的能力。在小學和高中層面，綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰，GSM8K提供了8.5K個小學問題，MATH提供了12.5K個跨多個數學領域的問題，難度逐漸增加。高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題，需要復雜的問題解決策略，而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別，FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題，測試自動化數學推理的極限。幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題，而UniGEO[18]提供了一個統一的幾何推理任務框架，專注于計算和證明。這些基準特別有價值，用于評估模型連接視覺和數學推理的能力。定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明，而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域，如三角學和形式證明系統。最后，跨模態數學推理已成為一個關鍵領域，反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理，而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距，測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題建立在數學推理能力之上，系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明，但邏輯推理涵蓋了更廣泛的推理能力，包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類，邏輯推理可以分為三種主要類型：演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程，對于全面邏輯分析至關重要，同時在認知評估中保持相互聯系。演繹推理，也稱為基于前提的推理，涉及從一般原則中得出特定結論，具有絕對確定性。例如，給定一組關于實體之間關系的規則，模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表，要求模型從給定前提構建明確的邏輯推導。其他基準，如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理，WaNLI[77]引入了日益復雜的評估標準，包含107,885個示例。歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況，處理概率而非確定性。BigBench[136]包含眾多專門組件，用于檢查高級模式推理能力。此外，CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。溯因推理，也稱為解釋性推理，指的是為一系列觀察或事實形成最可能解釋的過程，盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景，通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點，模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架，具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題常識推理仍然是NLP中的一個重要挑戰，旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如，CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理，圍繞社交場景中的因果推理展開。相比之下，SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務，模型必須基于上下文線索預測事件的最可能延續，從而增加任務復雜性。對于物理常識推理，PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務，而PHYRE強調交互物理模擬。類似地，WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務，以測試語義理解和共指解析能力。其他工作，如OBQA[95]和CConS[63]，探索了模型在反常識上下文中的表現，突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近，綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度，涵蓋各種領域。例如，ODEX[155]引入了一個執行驅動的評估框架，用于開放域代碼生成，強調運行生成代碼以驗證其正確性和功能的重要性。在現實世界場景中，SWE-bench[58]專注于真實的GitHub問題，挑戰模型解決實際軟件工程問題。在數據科學領域，DS-1000[67]提供了一個基準，包含真實且可靠的數據科學代碼生成任務，使評估模型處理復雜數據操作和分析的能力成為可能。此外，APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力，反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題，評估模型根據給定規范生成正確和高效代碼的能力，從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs，每個問題都提供了函數定義和附帶文檔，要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力，包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境，用于構建和測試自主代理，使評估LLMs的網絡導航和交互技能成為可能。類似地，Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理，強調在動態在線環境中的適應性。在電子商務設置中，WebShop[171]引入了一個平臺，用于可擴展的現實世界網絡交互，專注于能夠執行在線購物等任務的接地語言代理，從而測試模型的實際應用能力。為了橋接文本和具身環境，ALF-World[131]將基于文本的輸入與交互學習場景對齊，促進了評估模型在不同模態之間轉移知識的能力。綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能，而AgentGym專注于在多樣化設置中進化LLM代理，強調適應性和學習效率。此外，AgentBoard[87]提供了一個分析平臺，用于評估多輪LLM代理，提供了對其在擴展交互中的表現的見解，并突出了持續推理任務中的改進領域。

討論 9.1 近期進展的啟示后訓練階段的擴展定律：OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是，它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步，它擴展到后訓練階段的擴展定律，這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知，預訓練和訓練階段的擴展定律導致了流行LLMs的成功，伴隨著訓練數據和計算資源的巨大投資。然而，它現在達到了瓶頸，因此，后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外，LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力，即使推理能力尚未得到強化。因此，關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題，這可能是進一步增強LLM在現實世界應用中的潛力。通過搜索生成高質量數據：OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據（包括CoT數據）的生成視為關鍵點，盡管采用了不同的方法，如蒙特卡羅樹搜索、LLM生成等。也就是說，大型推理模型的發展達到了一個階段，高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣，如上所述，這可能啟發我們在LLM代理中參考這些相關方法，首先進行高質量數據生成，然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理即使OpenAI o1系列在工程層面的突破仍然未知，從理論上和技術上看，其突破目前似乎主要在于慢思考數據的后訓練學習。此外，人類認知科學中的“系統1 + 系統2”已被反復提及，但基于大型模型實現它的想法不斷更新，主要仍停留在借鑒慢思考概念的階段。也就是說，人類大腦的“系統1 + 系統2”機制指導了LLMs的設計，但這種指導仍然非常有限。換句話說，對人類大腦的模仿僅停留在系統級設計，而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點，慢思考的領域知識應被用于相關的設計中，如推理數據生成、獎勵函數、學習過程等。到目前為止，關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘，以至于理解LLMs也需要一些技巧或特殊技術，例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力，我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例，它們的主要區別在于CoT推理階段的思考成本和深度，然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說，將推理機制與不同任務中的表現聯系起來，可能會支持更多有趣的見解。 9.3 下游應用與開放問題正如本文所指出，推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現，還體現在更廣泛的下游應用中。例如，FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務，例如城市規劃、物流調度等。一個有趣的問題是，當前研究中是否存在許多互補的問題，這些問題難以驗證，但推理過程較為簡單。通過結合LLMs和外部評估器，可能進一步驗證某些答案的質量，或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念，利用強化學習技術進行訓練時擴展，以及使用搜索算法進行測試時擴展，為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務，OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解，并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

大型語言模型 · 表格推理 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型在表格推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格推理旨在根據提供的表格以及可選的表格文本描述，按照用戶需求生成相應的問題答案，有效提高獲取信息的效率。近來，使用大型語言模型（LLMs）已成為表格推理的主流方法，因為它不僅顯著降低了注釋成本，還超過了以往方法的性能。然而，現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏，哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題，仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究，我們呈現了這篇綜述，以分析現有研究，激發未來的工作。在這篇論文中，我們分析了在LLM時代用于提高表格推理性能的主流技術，以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導，以激發未來的研究。