国产欧美日韩综合在线-成人三级视频在线看网站

摘要

OpenAI的O1及其后續競爭者（如DeepSeek R1）的發布顯著推動了大語言模型（Large Language Models，LLMs）在復雜推理方面的研究，引發學術界與工業界的雙重關注。此項進展激發了相關技術成果的復現和在此基礎上的創新。為系統構建該領域的研究框架，本文從自我進化（self-evolution）的角度系統地分類了現有技術。我們的調查發現分為三個相互關聯的部分：數據進化（data evolution）、模型進化（model evolution）和自我進化（self-evolution）。

數據進化部分改進推理訓練數據，這包括任務進化和增強思維鏈（Chain-of-Thought，CoT）推理的推理時間計算。

模型進化部分通過在訓練過程中優化模型模塊，以增強復雜推理能力。

自我進化部分則探討其進化策略和模式。包括自我進化的規模法則（scaling law）與對 O1 類研究工作的分析。

通過系統梳理相關研究，我們總結了前沿方法，并提供了對未來研究方向的前瞻性展望。本文旨在激勵LLM復雜推理社區進一步研究，并促進對LLM推理能力提升的深入探索。

關鍵詞：大語言模型、復雜推理、自我進化、數據進化、模型進化、專家迭代、推理計算、強化學習

Tao He, Hao Li, Jingchang Chen等丨作者

Azure丨譯者

論文題目：A Survey on Complex Reasoning of Large Language Models through the Lens of Self-Evolution

論文地址：//www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution

作者 | Tao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu, Bing Qin

引言
預備知識
數據演化
模型演化
自我進化
在自我進化框架內重新解讀代表性O1類研究
未來挑戰和方向
結論

摘要

數據進化部分改進推理訓練數據，這包括任務進化和增強思維鏈（Chain-of-Thought，CoT）推理的推理時間計算。

模型進化部分通過在訓練過程中優化模型模塊，以增強復雜推理能力。

自我進化部分則探討其進化策略和模式。包括自我進化的規模法則（scaling law）與對 O1 類研究工作的分析。

引言

近年來，大語言模型（LLMs）的發展令人矚目。它們不僅在閱讀理解、故事生成和對話能力等領域超出了預期，還在需要復雜邏輯推理的任務中表現出色，包括代碼生成和數學問題解決。2024年下半年，LLM研究迎來了一個關鍵時刻，OpenAI發布了O1 [OpenAI, 2024a]，這標志著復雜推理研究的一個重要里程碑。O1系列模型能夠生成衍生的推理過程，靈活地分解問題，并在面臨挑戰時自主澄清、反思和糾正潛在錯誤，以及探索替代解決方案——模擬了人類思維特有的細致、反思性推理過程 [OpenAI, 2024b]。

工業界和學術界都致力于復現O1，掀起了一股技術報告的熱潮。

在工業界，一系列類似的產品涌現，例如DeepSeek R1 [DeepSeek-AI et al.,2025]（簡稱R1）、Kimi k1.5 [Team et al., 2025]和QwQ [Team, 2024b]，它們都發布了自己的模型或技術報告。這些產品不僅達到甚至超越了O1，而且其開源貢獻也值得稱贊。此外，這些技術報告中強調的擴展強化學習（Scaling Reinforcement Learning）等技術，進一步拓展了研究類O1工作的方向。

在學術界，研究者從不同角度進行了多項復現研究。例如，O1 Journey [Qin等，2024; Huang等，2024] 廣泛討論了思維鏈格式化和蒸餾，但對持續優化方法的見解有限。與此同時，OpenR [Wang等，2024e]、O1-Coder [Zhang等，2024j]等工作主要通過強化學習的視角研究O1，但忽略了對反思和糾正推理操作的討論。另一方面，Slow Thinking系列工作[Jiang等，2024a; Min等，2024]專注于推理時計算，嘗試通過樹搜索技術提升推理性能。此外，rStar-Math [Guan等，2025] 通過使用自我進化框架聯合訓練推理器和過程獎勵模型（Process Reward Model, PRM），實現了接近O1的性能，突顯了迭代優化在提升推理能力方面的潛力。

盡管這些技術報告提供了寶貴的見解，但它們往往僅聚焦于特定技術領域，缺乏整體性的技術架構和統一的分類標準。因此，我們需要對這些方法進行系統性的高層次綜述。O1博客 [OpenAI, 2024a] 和系統卡片 [OpenAI, 2024b] 提示O1采用了強化學習（RL）和推理時計算。這使我們聯想到另一個杰出的人工智能——AlphaGo Zero [Silver等，2017]。AlphaGo Zero通過自我對弈、蒙特卡洛樹搜索（MCTS）和策略模型的迭代學習實現了自我進化 [Silver et al., 2017] 。這一過程在無人干預的情況下提升了其性能，啟發我們采用類似技術或許能將復雜推理能力提升至超越人類的水平。在這個類比中，訓練策略模型對應于推理優化，而MCTS搜索則對應于推理時計算。自我進化通過循環這兩個階段，實現推理能力的自主提升。此外，高質量數據的匱乏凸顯了自動化數據合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f]，由于推理任務對邏輯嚴謹性要求更高，這一挑戰尤為突出。因為推理任務對邏輯嚴謹性有更高要求。在無人干預的情況下，自我進化不僅能利用合成數據來增強系統能力，還可以利用改進的系統合成更高質量的數據，創造一個良性循環推進過程。

鑒于這些考慮，本文希望從自我進化的視角對大語言模型的復雜推理提供全面綜述。大語言模型復雜推理的自我進化，亦稱自我改進（self-improvement），其需要在閉環推理系統中自主合成訓練數據并持續提升推理能力 [Tao等，2024; Hu等，2024]。專家迭代（Expert iteration）[Polu等，2022; Zhao等，2024b] 被視為典型的自我進化范式。其核心思想是：模型首先生成推理軌跡，再基于標準答案篩選出正確解決方案，最后利用這些解決方案對模型進行微調，以提升其推理能力。這一過程進行迭代，直至模型收斂。此外，在線強化學習框架同樣體現了自我進化的理念。智能體首先進行探索并生成軌跡，然后利用這些軌跡進行自我優化，從而在后續的學習周期中發現更高質量的軌跡。

圖1：大語言模型中自我進化復雜推理能力的概念框架。我們在完整的自我進化框架中識別出三個組成部分：數據進化、模型進化以及進化策略和模式。

如圖 1 所示，本綜述的結構由三個部分組成：數據進化、模型進化和自我進化。數據進化探索合成高質量數據，包含兩個階段：（1）任務進化生成推理系統尚未能有效處理的任務，（2）思維鏈（CoT）進化通過擴展推理時計算 [Snell等，2024] 擴展大語言模型的性能邊界，并通過思維鏈（Chain-of-Thought, CoT）[Wei等，2022] 推理生成更好的解決方案。然而，性能的提升可能源于啟發式搜索算法而非模型的固有能力，這從模型無法持續生成高質量思維鏈的證據可見一斑。模型進化通過提升系統模塊來解決這些問題。一方面，模型專門針對它們曾經困難的任務進行訓練；另一方面，它們從收集的數據中有選擇地學習，以真正擴展其能力邊界。前兩種進化代表了探索性和發散性努力，旨在研究實現數據和模型進化的有前景技術和挑戰。這為自我進化奠定了數據合成策略和優化方法的技術基礎。在第三部分，我們專注于推理系統的自我進化框架。通過迭代進行數據進化和模型進化，推理系統實現自我進化：數據進化基于當前模型生成更有針對性、更高質量的數據，而模型進化則利用收集的數據進一步強化模型，為下一輪數據進化提供更堅實的基礎。

我們的貢獻可總結如下：（1）全面綜述：這是首個聚焦于推理自我進化的大語言模型綜述；（2）分類體系：我們在圖2中構建了一個詳細的分類體系；（3）理論基礎：我們整理了相關的基礎理論，并探討了自我進化的規模法則；（4）前沿與未來：我們分析了自我進化框架內的最新開源研究，并為未來研究指明方向。

圖2：先進方法的分類，包括數據進化、模型進化和自我進化。

付費5元查看完整內容

1 引言

“如果語言存在嚴重缺失，思維也將會嚴重缺失。” — 諾姆·喬姆斯基得益于深度學習的進展和大規模數據集的可用性，大型語言模型（LLMs）已成為邁向人工通用智能（AGI）的轉型性范式。這些龐大的AI模型通常采用Transformer架構，并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明，隨著模型規模和訓練數據的增加，它們的性能顯著提升 [59]。更重要的是，LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159]，例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題，能夠處理更廣泛的任務，如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中，人類般的推理能力受到了學術界和工業界的廣泛關注，因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160]，該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理，而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性，并推動了“樹狀思維” [172] 等更高級提示技術的發展。這些方法引入了“思維”這一概念，將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟，LLMs的推理超越了簡單的自回歸標記生成，能夠實現更復雜的認知架構，如樹搜索 [172] 和反思性推理 [180]。

近年來，學習推理成為一個重要的研究趨勢 [103]，其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂，特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題，近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題，借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是，研究人員提出了在這些推理軌跡上訓練過程獎勵模型（PRMs） [183]。PRMs可以提供密集的逐步獎勵，促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴，并創造了一個“強化循環”，有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展，正如理查德·薩頓所預測的那樣 [139]。因此，這一新興范式通過增加訓練時的計算資源，實現了LLM推理能力的擴展，為更高級的推理模型鋪平了道路。

此外，近期的研究表明，增加測試時計算資源也可以提高LLM的推理準確性。具體而言，PRMs可以引導LLMs評估并搜索中間“思維”過程 [134]，鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟，從而提升推理準確性。這一方法促成了測試時擴展法則，該法則預測，在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此，基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合，展示了一個有前景的研究方向，旨在充分釋放LLMs的推理能力，即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑，展示了該方法的有效性，并呼應了OpenAI在邁向AGI的五步路線圖中，從對話AI（一級）到更強大推理AI（二級）的過渡愿景 [36]。一些開源項目，如OpenR [145]、LLaMABerry [185] 和Journey Learning [110]，致力于復現OpenAI的o1強大推理能力，為大型推理模型的開發提供了寶貴的見解。

在本綜述中，我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言，第三節聚焦于訓練數據構建，強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法，重點討論訓練時計算資源的增加；第五節則討論了測試時擴展，特別是基于PRM引導的搜索。在第六節中，我們分析了OpenAI的o1系列及其他開源項目，探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術，第八節回顧了推理基準測試。最后，我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段，有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前，我們首先概述一般LLM預訓練的基本過程。通過預訓練，LLMs不僅獲得了核心的語言知識，還掌握了多樣化的世界知識，為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常，LLM預訓練依賴于高質量的文本語料庫，包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫，LLMs基于Transformer架構，通過下一個詞預測任務進行訓練。預訓練后，LLMs通常表現出卓越的上下文學習能力，能夠生成連貫的文本，并利用其龐大的知識庫回答各種問題。值得注意的是，預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如，研究表明，富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察，新開發的LLMs開始引入精心設計的合成數據，以增強LLMs的推理能力。在預訓練過程中，一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例，以保持強大的語言能力，同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力，但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里，我們首先概述基本的微調過程，然后探討其在增強推理能力方面的潛力。如文獻[104]所述，預訓練階段結束后，LLMs進入監督微調階段（SFT），也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格，確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的，這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現，新的方法涌現出來，用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術，以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集，微調過程繼續使用下一個詞預測目標，類似于預訓練。然而，與預訓練不同的是，微調特別計算答案的損失，而通常忽略問題的損失。此外，結合包含思維鏈（CoT）推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力，這使其成為一個活躍的研究領域。遵循一般實踐，大多數當前方法利用從高級大型推理模型中提取的數據進行微調，以增強LLMs的推理能力，從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練，這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中，對齊階段通常涉及使用人類反饋的強化學習（RLHF）等方法，以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比，這一階段通常包含大量精心策劃的人工標注的排名數據，以準確反映人類偏好。這些數據不僅包括正確的示范，還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型，這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本，提出了直接偏好優化（DPO）等方法，以減少對顯式獎勵模型的依賴。在DPO中，偏好損失被定義為策略的函數，以直接指導模型優化。鑒于推理問題的多步驟性和復雜性，基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型，基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠，但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法：逐步推理、多路徑探索和基于分解的方法。逐步推理方法以思維鏈提示為例，展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示，如“讓我們一步一步地思考”，也能有效地引導推理過程。這種方法通過自我一致性（Self-Consistency）進一步改進，生成多個推理路徑以得出更可靠的結論，以及自動生成有效推理鏈的Auto-CoT。多路徑探索方法超越了線性推理，同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構，從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構，允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起，豐富了這一范式，從而能夠更動態地與外部環境互動。對于復雜問題，基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件，而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。這些廣泛的推理能力通過結構化提示策略得到增強，在處理需要仔細分析和系統思考的任務時特別有效，使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明，盡管LLMs具備固有的推理能力，但通過提示過程中的仔細引導和結構，可以充分釋放其潛力。 2.5 代理工作流在LLMs的指令遵循和上下文學習能力之上，研究人員開始設計代理工作流，以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力，但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力，使LLMs能夠高效地推廣到未見問題，而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題，但最近的研究表明，上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景，例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明，有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建：從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而，由于成本高昂，這一任務面臨重大挑戰。如圖1所示，人工標注被廣泛認為是高質量的，但其成本高昂且難以擴展。相反，使用LLMs自動化標注過程提供了一種更具成本效益的替代方案，但面臨驗證有限的挑戰，特別是對于逐步推理過程。在本節中，我們回顧了該領域的最新研究進展（總結在表1中），強調了從人工標注到LLM自動化的轉變。 3.1 人工標注人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征，同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明，即使使用最少的人工標注數據，模型也能實現強大的性能，突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習（RLHF）的背景下，來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎，Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性，顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰（如復雜推理任務）之間的差距。增強LLMs的推理能力需要過程監督，即人工標注者指導推理過程的每一步[75]。然而，這種監督需要大量的人工標注數據，使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據，其數量對模型性能至關重要，完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注，利用LLMs加速標注過程，同時保持人工生成標注的高質量。具體來說，標注過程可以分為兩個階段：預標注階段和精煉階段。在預標注階段，LLMs可以用于執行初始標注，利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段，人工標注者可以評估LLM生成標注的質量，并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程，最近的工作越來越關注如何在確保數據質量的同時最大化自動化，從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務，特別是在需要復雜操作（如過濾、識別、組織和重構文本數據）的場景中。這些任務通常繁瑣、耗時，并且需要大量的人力，使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰，利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記，LLMs可以輕松處理長文本和大規模結構化數據[2]，以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景，同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務，LLMs顯著減少了對人力的依賴，簡化了標注過程，并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務，從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下，LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如，Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置，LLM能夠理解周圍上下文中的邏輯關系，生成相關問題，并確定適當的工具API來解決問題。當有人工示范時，LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務，人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明，即使是零樣本LLMs，在基于人工示范的任務無關提示下，也能有效地執行標注任務[65]。此外，對于涉及高度復雜和細微軌跡的任務，LLMs可以結合專門的代理，如計劃代理、工具代理和反思代理，以解決標注過程的不同方面，從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務，LLMs不僅推斷潛在邏輯結構，還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果，還捕捉導致這些結果的完整推理過程的標注數據集，為下游應用提供更豐富的見解。除了基于人工示范的標注外，LLMs可以通過帶有反饋的搜索獨立增強其標注能力，這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式，作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據，LLMs參與了一個自我改進的循環，增強了其理解和推理能力[70]。此外，LLMs可以系統地分析其錯誤的原因，提取關鍵見解并將其編碼為自學習知識，以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對，從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制，LLMs不僅解決了錯誤，還開發了更強大的推理能力，使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注在復雜的推理任務中，模型輸出的每一步都可能顯著影響最終結果，因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵，即過程標注。然而，手動標注這些步驟既昂貴又耗時。例如，Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集，即PRM800K，該數據集滿足了訓練有效過程獎勵模型（PRM）的要求，并大大增強了LLMs的推理能力。因此，自動化方法越來越需要高效的過程標注，以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外，基于蒙特卡羅的方法減少了對外部更強LLMs的依賴，可以使用較弱的LLMs完成數據標注，從而通過自我強化的方式訓練更強的LLMs。使用更強的LLM進行標注：作為一種直接的自動化標注方法，Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注，而是使用預訓練的高性能模型（如GPT系列）來評估每個生成的步驟。通過利用更強外部模型的能力，這種方法提高了標注過程的準確性和可擴展性，使其更適合大規模任務。然而，這種方法的主要限制在于其對高度能力的外部模型的依賴，這意味著標注過程的性能最終受限于所使用的外部模型的能力。通過蒙特卡羅模擬進行標注：為了減少對強大外部模型的依賴，Wang等人[148]和Wang等人[156]提出了一種改進方法，避免直接評分中間步驟。相反，他們的方法使用外部模型從給定的中間輸出繼續推理幾步，并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。通過樹搜索模擬進行標注：使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率，Luo等人[85]提出了一種改進方法，用蒙特卡羅樹搜索（MCTS）策略取代重復的蒙特卡羅模擬。在這種改進方法中，使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比，MCTS利用樹搜索提高推理質量，同時允許葉節點共享高質量的父節點，減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能，超越了人工標注。在基于MCTS的模擬基礎上更進一步，Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數（PRM），進而提高大型語言模型（LLM）的性能。精煉后的LLM隨后用于重復基于MCTS的模擬，生成更高質量的標注。這種涉及改進循環的迭代過程，通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色，包括數學問題解決、問答和多領域知識推理，展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理：從監督到強化微調

雖然預訓練模型在各種任務中表現出色，但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要，可以優化模型在特定任務上的表現并增強其推理能力。最初，使用監督微調（SFT），模型從標注數據集中學習任務特定的模式。然而，隨著推理挑戰的增加，強化學習（RL）和直接偏好優化（DPO）等方法提供了更有效的方法，使用獎勵模型更高效地將模型的輸出與類人推理對齊，促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM：監督微調監督微調（SFT）是一種學習技術，它使用標注數據優化預訓練模型在特定任務或領域的能力，同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征，但微調通過將模型暴露于較小的、任務特定的數據集（具有清晰的輸入-輸出映射）來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟，通過將其從通用系統適應為領域特定工具，使其能夠應用于下游任務。例如，像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練，賦予它們廣泛的語言理解和生成能力。然而，它們的輸出并不總是與任務特定要求對齊。如果沒有微調，LLMs在某些推理任務上往往表現不佳，例如對象計數、衛星理解和工程問題回答。通過SFT，我們可以基于標注的任務特定數據集優化模型的輸出，從而部分解決這些挑戰。然而，直接應用SFT可能無法充分探索模型在所需領域中的推理能力，特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程，通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT，LLMs被鼓勵顯式生成中間推理步驟，從而增強其推理能力，以應對需要更結構化和有組織思維的任務。例如，ReasonBert[29]表明，使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現，通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性，并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調，模型不僅提高了最終答案的準確性，還增強了其“思考”問題的能力，提供了對模型推理過程的更清晰見解。盡管SFT方法多樣且表現優異，但它也存在一些局限性。首先，SFT嚴重依賴高質量的標注數據集，這些數據集的策劃成本高昂且耗時，特別是對于需要專家標注的利基領域或任務。其次，SFT可能導致災難性遺忘，即模型在微調過程中失去一些預訓練的通用知識，降低了其在微調領域之外的推理任務的實用性。最后，即使采用參數高效的方法，大規模模型的微調計算成本仍然很高，對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法，如提示調優或多任務微調，以平衡任務專業化和泛化。

4.2 優化預訓練LLM：強化學習由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本，強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同，RL使模型能夠通過試錯獎勵信號學習，發現實現特定目標的最佳策略。如圖2（a）所示，模型根據其當前狀態采取行動，并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數，優化累積獎勵。經典強化學習：RL已成為LLMs發展的關鍵步驟。在RL框架中，LLMs的參數根據其行動的獎勵進行更新。具體來說，價值函數或Q函數根據獎勵模型的反饋進行更新，將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架，使其在概念上更直接，同時增強了模型有效響應的能力。目前，兩種關鍵方法主導了LLMs的RL訓練：人類反饋強化學習（RLHF）和AI反饋強化學習（RLAIF）。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外，通過在人類標注的示范和排名比較上微調GPT-3，他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊，盡管規模較小，但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架，他們對基礎模型進行微調，使用拒絕采樣訓練偏好模型，并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。為了減少對大規模人類標注數據集的依賴，Bai等人[9]提出了Constitutional AI，這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段：監督學習和RLAIF。在監督階段，模型基于憲法原則批評和精煉其輸出，創建微調數據集。在RLAIF階段，模型生成自我評估以指導訓練，繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs，一個用于基于RL的微調的庫，以及GRUE基準，該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰，他們提出了自然語言策略優化算法，通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。直接偏好優化：經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程，無需顯式獎勵模型。DPO不是優化復雜的獎勵函數，而是使用成對偏好比較，即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程，同時保留了基于RL方法對齊的好處，通常更簡單且更有效。Rafailov等人[112]引入了DPO，這是一個用于對齊語言模型的新框架，它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略，DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明，DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法（如PPO），同時更穩定、計算效率更高，并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化（ODPO），這是DPO的擴展，用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移，與質量差異成比例。這種方法不僅改進了對齊，還增強了模型的推理能力，特別是在情感控制、毒性減少和摘要等任務中。實驗表明，ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。總之，RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵，這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程，避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務，最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理對于復雜的推理任務，如數學問題解決，LLMs需要執行多步推理（如思維鏈）以最終得出準確的解決方案。在這些任務中，獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2（b）所示，這被稱為結果獎勵模型（ORM）。在這種情況下，提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。經典強化學習：ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型，PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比，ReFT能夠學習更多樣化的推理路徑，在推理任務中表現出更強的泛化能力。然而，VinePPO[60]發現，使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差，這是RL中一個眾所周知的挑戰，稱為信用分配問題。為了解決這個問題，VinePPO放棄了PPO中的價值網絡，轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明，VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習（CPL）是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索（MCTS）探索多步推理任務中的不同計劃步驟，并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑，從而提高在各種任務中的泛化能力。隨后，模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中，策略模型生成計劃步驟和最終解決方案，而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。直接偏好優化：在數學推理任務中，直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO，它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。總之，基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索，在估計這些中間步驟的重要性方面具有優勢，盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上，這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務，包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型，并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數，可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型（PRM）基于強化學習代表了LLM推理的重大進步，強調評估中間步驟而不是僅僅關注最終結果。如圖2（c）所示，PRM的獎勵分布在每個推理步驟中，而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋，PRM使模型能夠優化行為，使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要，其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變，并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。經典強化學習：一系列近期工作將PRMs應用于數學或邏輯推理，因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”（即問題解決中的初始錯誤步驟）來增強數學推理。通過獎勵糾正這些錯誤的步驟，PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋，在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架，用于數學推理任務中的逐步驗證和強化。通過自動化過程監督（使用MCTS啟發的方法），MATH-SHEPHERD消除了對人工標注的需求，同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性，從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化（GRPO）[128]集成了PRMs，這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟，DeepSeekMath在多個基準上實現了最先進的性能，展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器（PAVs），一種PRM變體，用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟，PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。交互式過程獎勵模型：PRMs還應用于交互任務，如對話和多輪問答。ArCHer采用分層RL方法，使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統：高層價值函數評估話語級獎勵，而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配，并允許對語言模型進行細致訓練，以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展，在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中，以優化長期目標與人類反饋。多輪偏好優化（MTPO）算法比較整個多輪交互以生成偏好信號，其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊，提高動態、多輪任務（如對話和戰略決策）的整體性能。直接偏好優化：一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如，SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度，它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外，SVPO將顯式價值模型與DPO集成，其中價值模型不僅幫助策略模型導航更高效的推理路徑，還指導偏好學習。然而，這些工作主要集中在首先收集偏好數據或訓練獎勵模型，然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中，推進了這些方法。這種方法可以被視為直接偏好優化的在線版本，其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心，提供了細致的步驟級獎勵，推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調強化微調（RFT）[101]是OpenAI最近提出的一種技術，用于定制針對特定垂直領域的專家LLMs。目前，RFT仍處于研究計劃中，技術細節尚未完全公開。現有信息表明，RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此，RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。評分模型：RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋，評分模型可能類似于獎勵模型，將文本輸入（如問題和答案）轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型，可能作為結果獎勵模型或過程獎勵模型運行[76]。數據效率：在OpenAI的現場會議中，提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率，同時減輕了過擬合的風險[56]。訓練穩定性：強化學習訓練的穩定性是一個眾所周知的難題，對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中，OpenAI宣布計劃通過API向公眾提供該技術，使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性，能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展：從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考除了通過強化學習等技術進行訓練時優化外，研究人員發現，測試時提示技術（如思維鏈和思維樹）可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果，但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法（如ReAct和Least-to-Most Prompting）的出現表明，LLMs可以從明確的思維過程組織中受益，從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷，但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向，而無需依賴模型架構或訓練修改[172, 11]。這表明，通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改，可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索如前所述，PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是，PRM還可以在測試時階段使用，從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明，通過增加測試時計算資源，可以有效地增強推理能力，為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法，如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑，綠色空心圓表示在探索過程中采用的推理路徑，綠色實心圓表示一旦找到正確答案，推理路徑的終點。多數投票：多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中，每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測，選擇出現次數最多的類別（“多數投票”）作為最終輸出：f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f，其中II是指示函數，yy是每個評估軌跡。樹搜索[15]：樹搜索是一種經典算法，通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題，如棋盤游戲和規劃任務。蒙特卡羅樹搜索（MCTS）是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成：選擇、擴展、模擬和回傳。通過逐步擴展搜索空間，MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用，取得了顯著成功。例如，思維樹框架[172]使LLMs能夠考慮多個推理路徑，這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策，確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。束搜索[133]：束搜索是貪婪搜索的改進版本，通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑（稱為束）以進行進一步擴展。與貪婪搜索不同，束搜索維護多個候選路徑，從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如，BART[71]使用束搜索作為其主要推理策略，展示了其在文本生成任務中的卓越效果。前瞻搜索[134]：前瞻搜索是另一種有前景的方法，具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選，而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點，則提前停止。在前瞻搜索過程中，使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分，決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比，前瞻搜索增加了探索空間的深度，允許基于更遠的模擬決策結果判斷當前決策。然而，它也增加了對計算資源的需求，在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月，OpenAI發布了o1，這是一個突破性的語言模型，代表了AI推理能力的重大進步，特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日，OpenAI開放了o3的測試申請，o3是o1的升級版本[102]，被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果，包括在國際數學奧林匹克競賽中獲得金牌水平[73]，并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下：有效的知識整合：初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力，通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率，模型展示了清晰的能力，利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明，其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式，顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出，例如將物理原理應用于生物系統或將統計方法與領域特定約束結合，表明其在知識綜合和應用方面的基本能力。系統問題分解：o1在不同復雜程度的任務中保持了一致的表現，展示了在處理難度增加時的系統問題分解能力。在數學推理中，詳細研究[27]展示了其系統問題分解方法，通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證，如對105個科學和數學問題的研究[26]，隨著問題復雜性的增加，模型在概念深度和計算需求方面保持了高準確性。在編程任務中，這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明，o1通過結構化三步方法（錯誤識別、根本原因分析和針對性修正）在不同復雜程度的錯誤中保持了一致表現。復雜任務中的可靠和連貫推理：模型的推理在不同問題類型中有效適應，始終展示出各種任務中推理鏈的一致性。在規劃任務中，PlanBench評估[144]展示了其系統處理確定性和概率場景的能力，在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢，在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力，有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明，其中中間目標必須正確排序，依賴關系必須仔細管理，展示了其在時間推理和因果理解方面的高級能力。大型推理模型的新擴展定律：實證研究表明，o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間，模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明，通過優化的測試時計算策略，模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示，o1的推理能力可以通過推理階段的高級計算分配有效增強，特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同，隨著思考時間的增加，性能持續提升[103]。這在編程任務中得到證明，允許每個問題提交10,000次使模型能夠顯著提高結果，即使沒有測試時選擇策略，得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步，展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考，旨在復制或近似專有模型（如OpenAI的o1）的推理優勢。在本節中，我們介紹了四個重要的開源項目，每個項目采用不同的策略來增強LLM推理（總結在表2中）。通過探索它們的獨特實現，我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]：該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架，采用強化學習技術。OpenR復制的核心是構建逐步推理數據，其中獲得更精確和細粒度的反饋，而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡，采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據，進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中，與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**：與分別訓練PRM和微調策略模型不同，他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法，預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案，而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]：該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力，而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖，結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成，設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法，o1復制之旅將模型暴露于不同的邏輯序列和修正中，鼓勵在訓練階段進行探索和適應性。然而，o1復制之旅在推理階段較為簡單，缺乏高級的訓練后技術，這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比，這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]：該項目專注于優化推理階段的能力，利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法，將蒙特卡羅樹搜索與自我精煉（SR-MCTS）相結合，使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性，使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型（PPRM），它成對評估解決方案路徑，確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數（EBC）然后整合這些偏好排名以指導模型的決策，進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例，與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略，還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍，推動了開發復雜、透明和適應性強的推理模型的集體目標，使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外，還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示，諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM，但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索（VRS）利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同，VRS純粹通過測試時推理操作，使用迭代反饋循環來精煉解決方案，而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力，VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用，支持廣泛的任務，包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS，深入探討每個類別中呈現的方法論和獨特見解。在個體代理設置中，VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務，其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如，對組合問題（包括帽集和在線裝箱）的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣，符號回歸研究將方程視為動態構造，迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航，在效率和準確性上超越傳統優化技術。在科學發現中，VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如，在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中，VRS用于通過模擬反饋精煉假設，推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用，支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如，研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式，通過反饋循環不斷精煉解決方案，從而在不同領域中有效泛化。總體而言，VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來，以精確和適應性解決數學、科學和優化中的挑戰。在多代理系統中，VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間，允許代理交換見解并實現共同目標。異構信息網絡（HINs）中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構，增強了其可解釋性和預測準確性[20]。同樣，在社會經濟預測中，多代理系統整合知識圖譜和元路徑推理，為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作，并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如，使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互，這些框架生成準確的因果圖，同時解決因果關系中的歧義[69]。在金融決策中，VRS增強了層次協作。FINCON框架采用經理-分析師系統，通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉，FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理，VRS支持多代理系統應對復雜任務，如元結構精煉、社會經濟預測和金融決策。在具身代理設置中，VRS用于通過整合推理與物理交互來解決現實世界任務，支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境，結合語義推理與實際實驗。例如，自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具，如機器人液體處理器、光譜設備和基于網絡的研究模塊，以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應，其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤（如錯誤的模塊調用）時，系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋，具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預，同時加速了科學發現，使其成為現實世界實驗和創新的寶貴工具。總的來說，先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力，VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索，再到現實世界應用中的動態實驗，VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架，能夠在計算和物理領域中應對復雜挑戰，同時推動多樣化領域的進步。 7.2 基于記憶的強化當應用于開放式任務（如創意寫作、復雜邏輯推理和開放世界游戲）時，解決方案空間往往會急劇擴展，通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息，使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰，一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎，迭代探索其環境。通過這一過程，它們總結經驗，提取解決方案空間的可解釋高級見解，并在后續試驗中精煉其行動，從而提高推理性能。這些研究不僅關注探索外部解決方案空間，還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶，其能力逐步增強并泛化到未見任務。具體來說，我們將該領域的研究分為以下三類。經驗學習：此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗，同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理，該代理記錄過去的觀察-行動對，并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值（預期未來獎勵）。當面臨新任務時，代理從記憶中檢索具有最高和最低Q值的相關行動，將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務，并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地，經驗共同學習[108]采用多代理框架，其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時，這些代理交替檢索相關記憶以改進上下文學習。反思學習：雖然使用記憶作為少樣本示例簡單有效，但這種方法并未充分利用LLMs的語義理解能力。一些研究認為，LLM代理應直接反思存儲在記憶中的成功和失敗，明確總結潛在原因，并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力，基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中，以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思，從記憶中檢索最相關的成功經驗，總結成功軌跡的模式，并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發，將記憶組織為目標模塊和子任務模塊，實現不同層次的反思和經驗總結。對于新任務，它檢索相關經驗以分別制定高級目標和低級子任務。概念學習：明確反思顯著增強了LLMs的推理能力。在此基礎上，一些研究旨在使LLM代理發展超越特定任務的廣義“概念”，促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力，并隨著記憶的增長不斷進化。例如，Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動，而是評估這些信念的合理性和一致性，迭代精煉策略。類似地，Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈，它自主收集經驗，扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發，為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索，并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外，它生成未見任務進行練習，基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次：提示層次、模塊層次和代理層次。請注意，這種方法并不旨在直接搜索解決方案空間，而是利用經驗數據優化代理系統本身，類似于元學習問題。我們總結了該領域的相關工作如下。提示層次：“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面，提示本身也值得搜索和優化。自動化提示工程，如進化提示優化[38]和元提示迭代[169]，可以實現比手動提示更好的結果，但也引入了更多的標記消耗。模塊層次：Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計，其中模塊本質上是具有特定功能的提示塊，如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口，使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計，如CoT和ToT。此外，Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外，評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動，以提高搜索效率，同時緊密匹配其實際性能。代理層次：ADAS提出利用LLMs搜索整個代理系統，這些系統在Python代碼空間中定義[53]。此外，多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中，關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務（如長故事創作）中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。代理系統搜索為代理提供了自我改進的能力，使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率，降低搜索成本，并在確保搜索合理性的同時實現自動化。 7.4 總結本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而，它們具有巨大潛力，通過更全面的測試時“思考”進一步提升LLMs的推理能力，促進LLMs在解決方案空間中戰略性地推理，利用過去經驗并動態優化代理工作流。因此，訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向，有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中，我們系統地回顧了LLM推理的流行基準，這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學，提供了系統評估數學理解和問題解決能力的不同方面的方法。在數學應用題（MWP）領域，基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面，MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力，而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算（如加法或減法）的能力。在小學和高中層面，綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰，GSM8K提供了8.5K個小學問題，MATH提供了12.5K個跨多個數學領域的問題，難度逐漸增加。高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題，需要復雜的問題解決策略，而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別，FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題，測試自動化數學推理的極限。幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題，而UniGEO[18]提供了一個統一的幾何推理任務框架，專注于計算和證明。這些基準特別有價值，用于評估模型連接視覺和數學推理的能力。定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明，而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域，如三角學和形式證明系統。最后，跨模態數學推理已成為一個關鍵領域，反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理，而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距，測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題建立在數學推理能力之上，系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明，但邏輯推理涵蓋了更廣泛的推理能力，包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類，邏輯推理可以分為三種主要類型：演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程，對于全面邏輯分析至關重要，同時在認知評估中保持相互聯系。演繹推理，也稱為基于前提的推理，涉及從一般原則中得出特定結論，具有絕對確定性。例如，給定一組關于實體之間關系的規則，模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表，要求模型從給定前提構建明確的邏輯推導。其他基準，如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理，WaNLI[77]引入了日益復雜的評估標準，包含107,885個示例。歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況，處理概率而非確定性。BigBench[136]包含眾多專門組件，用于檢查高級模式推理能力。此外，CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。溯因推理，也稱為解釋性推理，指的是為一系列觀察或事實形成最可能解釋的過程，盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景，通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點，模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架，具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題常識推理仍然是NLP中的一個重要挑戰，旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如，CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理，圍繞社交場景中的因果推理展開。相比之下，SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務，模型必須基于上下文線索預測事件的最可能延續，從而增加任務復雜性。對于物理常識推理，PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務，而PHYRE強調交互物理模擬。類似地，WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務，以測試語義理解和共指解析能力。其他工作，如OBQA[95]和CConS[63]，探索了模型在反常識上下文中的表現，突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近，綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度，涵蓋各種領域。例如，ODEX[155]引入了一個執行驅動的評估框架，用于開放域代碼生成，強調運行生成代碼以驗證其正確性和功能的重要性。在現實世界場景中，SWE-bench[58]專注于真實的GitHub問題，挑戰模型解決實際軟件工程問題。在數據科學領域，DS-1000[67]提供了一個基準，包含真實且可靠的數據科學代碼生成任務，使評估模型處理復雜數據操作和分析的能力成為可能。此外，APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力，反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題，評估模型根據給定規范生成正確和高效代碼的能力，從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs，每個問題都提供了函數定義和附帶文檔，要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力，包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境，用于構建和測試自主代理，使評估LLMs的網絡導航和交互技能成為可能。類似地，Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理，強調在動態在線環境中的適應性。在電子商務設置中，WebShop[171]引入了一個平臺，用于可擴展的現實世界網絡交互，專注于能夠執行在線購物等任務的接地語言代理，從而測試模型的實際應用能力。為了橋接文本和具身環境，ALF-World[131]將基于文本的輸入與交互學習場景對齊，促進了評估模型在不同模態之間轉移知識的能力。綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能，而AgentGym專注于在多樣化設置中進化LLM代理，強調適應性和學習效率。此外，AgentBoard[87]提供了一個分析平臺，用于評估多輪LLM代理，提供了對其在擴展交互中的表現的見解，并突出了持續推理任務中的改進領域。

討論 9.1 近期進展的啟示后訓練階段的擴展定律：OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是，它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步，它擴展到后訓練階段的擴展定律，這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知，預訓練和訓練階段的擴展定律導致了流行LLMs的成功，伴隨著訓練數據和計算資源的巨大投資。然而，它現在達到了瓶頸，因此，后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外，LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力，即使推理能力尚未得到強化。因此，關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題，這可能是進一步增強LLM在現實世界應用中的潛力。通過搜索生成高質量數據：OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據（包括CoT數據）的生成視為關鍵點，盡管采用了不同的方法，如蒙特卡羅樹搜索、LLM生成等。也就是說，大型推理模型的發展達到了一個階段，高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣，如上所述，這可能啟發我們在LLM代理中參考這些相關方法，首先進行高質量數據生成，然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理即使OpenAI o1系列在工程層面的突破仍然未知，從理論上和技術上看，其突破目前似乎主要在于慢思考數據的后訓練學習。此外，人類認知科學中的“系統1 + 系統2”已被反復提及，但基于大型模型實現它的想法不斷更新，主要仍停留在借鑒慢思考概念的階段。也就是說，人類大腦的“系統1 + 系統2”機制指導了LLMs的設計，但這種指導仍然非常有限。換句話說，對人類大腦的模仿僅停留在系統級設計，而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點，慢思考的領域知識應被用于相關的設計中，如推理數據生成、獎勵函數、學習過程等。到目前為止，關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘，以至于理解LLMs也需要一些技巧或特殊技術，例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力，我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例，它們的主要區別在于CoT推理階段的思考成本和深度，然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說，將推理機制與不同任務中的表現聯系起來，可能會支持更多有趣的見解。 9.3 下游應用與開放問題正如本文所指出，推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現，還體現在更廣泛的下游應用中。例如，FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務，例如城市規劃、物流調度等。一個有趣的問題是，當前研究中是否存在許多互補的問題，這些問題難以驗證，但推理過程較為簡單。通過結合LLMs和外部評估器，可能進一步驗證某些答案的質量，或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念，利用強化學習技術進行訓練時擴展，以及使用搜索算法進行測試時擴展，為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務，OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解，并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

大語言模型 · 冷啟動推薦 ·

1 月 6 日

[付費5元查看完整內容]面向大語言模型（LLMs）時代的冷啟動推薦：一項全面的綜述與路線圖

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

冷啟動問題是推薦系統中一個長期存在的挑戰，主要集中在準確建模新用戶或互動有限的用戶，或新物品，以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長，冷啟動推薦（CSR）的重要性日益顯現。與此同時，大語言模型（LLMs）已取得了巨大的成功，并具備強大的用戶和物品信息建模能力，為冷啟動推薦提供了新的潛力。然而，冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此，本文基于大語言模型時代的背景，提供了一項關于冷啟動推薦的全面綜述，討論了其路線圖、相關文獻及未來方向。具體而言，我們探討了現有的冷啟動推薦如何利用信息發展路徑，包括從內容特征、圖譜關系和領域信息，到大語言模型所擁有的世界知識，旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新，供社區參考，

鏈接：//github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下，推薦系統（RecSys）已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署，但仍面臨持續的挑戰，特別是在“冷啟動”場景中，即新用戶或物品沒有歷史交互數據可用的情況下。具體來說，在現實場景中，冷啟動問題可能表現為新物品的引入、新用戶的加入，或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要，而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先，解決這個問題確保新用戶和物品得到公平的推薦，減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性，通過防止新物品被忽視，促進了多樣化內容的曝光【114, 288】。此外，解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中，為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶，避免了由于推薦內容不相關或缺失而導致的用戶流失，從而留下了強烈的初始印象，培養了忠誠度。對于平臺而言，這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后，能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加，能夠有效整合這些新實體的持續涌入，使推薦引擎保持動態和相關性，這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機，冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據，如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】，這些方法豐富了冷啟動實體的表示和建模，使推薦系統在數據稀疏的情況下依然能夠有效運作。因此，解決冷啟動問題不僅僅是一個技術挑戰，更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】，重點關注分類文本特征，如物品類別、物品標題和用戶資料，這些對冷啟動實體的表示起著至關重要的作用。隨后，隨著圖挖掘技術的進步【101, 225, 231】，從圖結構中派生出的高階關系，如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時，有研究者開始轉向不同領域之間的關系，而非挖掘圖中節點之間的關系【92, 249】。特別是，目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別，提升冷啟動推薦的表現。近年來，大語言模型（LLMs）的興起，如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理，展示了在理解和生成類人文本方面的卓越能力，這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變，借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識，研究人員開始探索為冷啟動用戶和物品建模和表示的新策略，以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢，突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略，并逐步擴展知識范圍（如圖1所示）。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述，特別關注大語言模型時代下知識范圍擴展的方向，如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作，如圖2b所示。基于這些工作，我們將現有研究按照外部知識源的規模分為四個知識范圍：內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法，本文綜述旨在呈現對冷啟動推薦領域的全面理解，并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力，并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍，但沒有明確界定具體的冷啟動問題。隨后，IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息，并首次明確界定了系統冷啟動和用戶冷啟動問題，涵蓋了2021年前相關文獻。更近的綜述，如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量，特別是【246】重點關注用戶冷啟動問題。總體來說，現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面（特征、圖譜、領域和LLMs），并同時處理多個冷啟動問題。在本文中，我們旨在填補這一空白，提供一篇全面且系統的綜述，涵蓋220篇文獻，明確界定9個不同的冷啟動問題，并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻，我們采用了半系統化的綜述方法來識別相關論文。首先，我們通過預定義的搜索關鍵詞，如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”，查詢了主要學術數據庫，如Google Scholar和Web of Science。此外，我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果，以評估其相關性。然后，對相關文獻進行了進一步的詳細審閱，并使用引用鏈方法（snowballing）找出了更多相關論文。最終，我們根據貢獻將收集到的文獻分為四個核心領域，分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識，如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架，少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

開創性的全面綜述：我們提出了首個關于冷啟動推薦方法的全面綜述，系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻，考察了它們的動機、數據需求和技術方法，并提供了領先會議（如SIGIR、CIKM、KDD）和期刊（如TKDE、TOIS）中的研究出版物的時間線和統計概述，如圖2所示。
創新的分類法引入：我們提出了一種新的分類法，提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來，超越傳統方法，向更廣泛的冷啟動問題解決方案擴展。
冷啟動問題的明確定義：根據我們的知識，本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文，包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
前瞻性的研究路線圖：基于我們的全面綜述和創新的分類法，我們提出了一個前瞻性的研究路線圖，連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導，提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下，我們可以發現，當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而，隨著互聯網的快速發展，推薦系統面臨的一個重大挑戰是冷啟動推薦（CSR），即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于，新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下，系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此，冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法，從第2.2節對不同冷啟動問題的詳細定義開始，到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論，涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息，用以表征其屬性，如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄，內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式，我們將方法分為兩類：數據不完整學習（第3.1節），它解決了沒有歷史交互的嚴格冷啟動場景；以及數據高效學習（第3.2節），它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息，而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而，該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息，因為缺乏歷史交互數據。首先，這里簡要介紹一下圖神經網絡（GNNs），它們在本節被廣泛用于圖關系推理：近年來，圖神經網絡（Graph Neural Networks, GNNs）受到了極大的關注，并在許多圖挖掘任務中展示了最前沿的性能，如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞（message-passing）范式，通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分，推薦系統近年來涌現出大量基于GNN的推薦模型，并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制，在圖結構中建模用戶-物品交互，從而更好地理解用戶偏好和物品相關性，并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中，只有少數平臺能夠實現顯著的用戶參與，而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此，跨域遷移學習【213, 290】提供了一個有前景的解決方案，通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同，跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識，而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶，并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法，我們將現有的研究工作分為三類：域知識遷移（第5.1節）、域分布對齊（第5.2節）和域不變表示學習（第5.3節），如圖6所示。

6 來自大語言模型的世界知識

大語言模型（LLMs）是通過深度學習技術訓練的生成型人工智能系統，旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯，甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功，越來越多的領域開始利用大語言模型的能力來完成各種任務，如多模態學習【217】、圖學習【159】和推薦系統【219】，并取得了顯著成果。由于大語言模型強大的文本特征處理能力，冷啟動，尤其是零樣本和少樣本場景，已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色，我們將現有的研究工作分為兩個主要方面：大語言模型作為推薦系統（第6.1節）和大語言模型作為知識增強器（第6.2節）。

結論

在本文中，我們對冷啟動推薦進行了全面的綜述，并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言，我們首先正式定義了冷啟動推薦領域的不同研究問題，然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中，我們不僅總結了相關研究背后的核心洞見，還列舉了一些代表性工作，以幫助讀者更好地理解。此外，我們重新審視了冷啟動推薦的一些關鍵挑戰，并總結了一些有意義的未來研究方向。相關資源已整理至Github：

付費5元查看完整內容

大語言模型 · 偏好學習 · 綜述論文 ·

2024 年 9 月 7 日

[付費5元查看完整內容]邁向大語言模型偏好學習的統一視角綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大語言模型（LLMs）展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著，但該領域的研究涉及多個領域，所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少，這限制了偏好對齊的進一步發展。有鑒于此，我們將現有的流行對齊策略分解為不同的組成部分，并提供了一個統一的框架來研究當前的對齊策略，從而建立它們之間的聯系。在本綜述中，我們將偏好學習中的所有策略分解為四個組成部分：模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法，還為不同策略的優勢協同提供了可能性。此外，我們還提供了詳細的現有算法工作示例，以幫助讀者全面理解。最后，基于我們的統一視角，我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。

以ChatGPT為代表的大語言模型（LLMs）的崛起展示了令人印象深刻的語言能力和專業素養，能夠提供正確、禮貌且知識淵博的回答，這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程，這是LLM在公開部署前必須經歷的一個必要步驟，旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型（LLMs）在各個領域展現了卓越的能力 [19, 93, 115, 139]，但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題，出現了許多與對齊相關的舉措 [28, 88, 94, 98]，這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念，但偏好學習的各種算法之間的關系仍然支離破碎，缺乏統一的框架來將它們結合起來。為了彌補這一差距，我們旨在提供一個系統的偏好對齊框架，如圖1所示。通過將相關工作整合到這一框架中，我們希望為研究人員提供全面的理解，并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習（RL）的方法，如RLHF [94]，它需要獎勵模型用于在線RL；以及基于監督微調（SFT）的方法，如直接偏好優化（DPO）[98]，它在離線環境中直接進行偏好優化。然而，這種分類無意中在兩類工作之間形成了一道障礙，不利于研究人員對偏好對齊核心內容的進一步理解。因此，我們致力于為這兩類方法建立統一的視角，并引入創新的分類框架。

這個新框架基于兩個關鍵見解：首先，在線策略（on-policy）與離線策略（off-policy）設置之間的區別，實質上取決于不同的數據來源，這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據，具體來說，被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源，只要這些數據是提前收集的，而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此，我們不使用在線或離線作為算法分類的標準。其次，受現有工作 [105] 的啟發，強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于，基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵，而監督微調算法可以直接通過各種形式的偏好進行優化，如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角，我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具，例如獎勵模型、人類標注者、更強大的模型（如GPT-4）以及各種規則。基于這些考慮，我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之，我們的論文調查并整理了與LLM偏好學習相關的現有工作，提供了一個統一且新穎的視角。此外，基于這篇綜述的內容，我們總結了該領域的幾個未來研究方向，旨在為進一步的研究提供見解。

在本節中，我們首先為LLM的偏好學習提供定義：給定一般人類偏好分布P(??, ??)，其中??是一個提示，??是LLM的相應輸出，LLM的偏好學習????是一種生成新的LLM ????′的范式，使其對齊于P(??, ??)，即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好，這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本，以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵，可能表現為正面標簽、在偏好排序中的較高位置，或較高的獎勵分數。在獲得數據后，策略模型????′通過特定算法進行優化。此外，根據這一定義，有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊：根據Kenton等人的研究 [58]，對齊是指關注解決所謂的行為對齊問題的研究：我們如何創建一個能夠按照人類意愿行事的代理？基于這一定義，我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊，不涉及其他廣為人知的對齊話題，如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習（RLHF）：與RLHF不同，本論文的范圍不僅包括基于強化學習的方法，還涵蓋了傳統的基于監督微調（SFT）的方法。此外，我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。

結論

在本綜述中，我們將偏好學習的策略分解為幾個模塊：模型、數據、反饋和算法。通過根據它們的變體區分不同的策略，我們構建了一個統一的偏好學習策略視角，并在它們之間建立了聯系。我們認為，盡管這些對齊算法的核心目標本質上是相似的，但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后，我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解，并激發該領域的更多研究。

付費5元查看完整內容

大型語言模型 · 知識機制 ·

2024 年 7 月 26 日

[付費5元查看完整內容]大規模語言模型中的知識機制：綜述與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

理解大規模語言模型（LLMs）中的知識機制對于邁向可信的通用人工智能（AGI）至關重要。本文從一個新的分類法角度回顧了知識機制的分析，包括知識利用和進化。知識利用探討了記憶、理解與應用及創造的機制。知識進化則關注個體和群體LLMs中知識的動態發展。此外，我們討論了LLMs所學到的知識、參數化知識脆弱的原因以及潛在的黑暗知識（假設）所帶來的挑戰。我們希望這項工作能幫助理解LLMs中的知識，并為未來的研究提供見解。

知識是智慧的基石和文明延續的基礎，為我們提供了導航復雜問題和應對新興挑戰的基本原則和指導（Davis et al., 1993; Choi, 2022）。在漫長的進化歷史中，我們致力于利用已獲得的知識和探索未知知識的前沿，以培養更高級的智慧（McGraw and Harbison-Briggs, 1990; Han et al., 2021）。眾所周知，大規模語言模型（LLMs）也因其涵蓋了廣泛的參數化知識而聞名（Roberts et al., 2020; Sung et al., 2021; Cao et al., 2021; Zhong et al., 2021; Kandpal et al., 2023; Heinzerling and Inui, 2020; Petroni et al., 2019; Qiao et al., 2023; Kritharoula et al., 2023; He et al., 2024a），在應用上取得了前所未有的進展。然而，LLMs在學習、存儲、利用和進化方面的知識機制仍然是一個謎（Gould et al., 2023a）。大量研究試圖通過知識神經元（Dai et al., 2022; Chen et al., 2024a）和電路（Elhage et al., 2021; Yao et al., 2024; Zou et al., 2024）來揭示LLMs中各種類型的知識，但這些努力分散在各個任務中，尚待全面的回顧和分析。如圖1所示，本文開創性地回顧了整個知識生命周期中的機制。我們還提出了一種新的LLMs知識機制分類法，如圖2所示，涵蓋了特定時間的知識利用和整個LLMs期間的知識進化。具體來說，我們首先介紹了該領域的基本知識（§2）并從新的角度回顧了知識利用機制（§3）。然后，我們深入探討了知識進化的基本原則（§4），討論了知識利用的挑戰，并提出了一些有前景的假設來探索開發強大且可信模型的潛在途徑（§5）。最后，我們還提供了一些未來方向（§6）和知識機制分析工具（§C）。我們的貢獻如下： * 據我們所知，我們是首個回顧LLMs中知識機制并提供整個生命周期內的新分類法的。 * 我們提出了一種新的視角，從記憶、理解與應用及創造三個層次分析知識利用機制。 * 我們討論了個體和群體LLMs中的知識進化，并分析了這一過程中固有的沖突和整合。 * 我們懷疑普遍的Transformer架構可能阻礙創造力，數據分布和數量可能導致參數化知識的脆弱性，引發幻覺和知識沖突。此外，黑暗知識將長期存在。

與現有綜述的比較以往的可解釋性綜述通常旨在從全局和局部分類法角度研究解釋LLMs中不同組件作用的各種方法（Ferrando et al., 2024; Zhao et al., 2024a; Luo and Specia, 2024; Murdoch et al., 2019; Bereska and Gavves, 2024; Vilas et al., 2024; Singh et al., 2024）。相比之下，本文側重于LLMs中的知識。因此，我們的分類法以LLMs中的目標知識為導向，回顧了知識的獲取、存儲、利用及后續進化。此外，以前的分類法大多探討推理階段（一個特定時期）的可解釋性，而忽略了預訓練階段的知識獲取和后訓練階段的進化（R?uker et al., 2023; Luo et al., 2024b; Apidianaki, 2023; Jiao et al., 2023; R?uker et al., 2023; Rai et al., 2024）。我們的分類法旨在探索從幼稚到成熟的各個階段的動態進化，無論是個體還是群體LLMs。與最相似的綜述（Cao et al., 2024a）引入的知識生命周期相比，我們的工作重點是每個階段的底層機制。總體而言，本文可能有助于我們探索和操作LLMs中的高級知識，通過知識進化的歷史檢查當前的局限性，并為未來模型的更高效和可信的架構和學習策略提供靈感。請注意，本文中的大多數假設源自基于Transformer的LLMs。我們還驗證了這些假設在其他架構模型中的普適性，然后在§B中提出普遍智能。

付費5元查看完整內容

自然語言處理 · 檢索增強大型語言模型 · 大模型 ·

2024 年 5 月 3 日

[付費5元查看完整內容]RAG與RAU：自然語言處理中的檢索增強語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）已在自然語言處理（NLP）領域催生了重大進展，然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題，最近的方法學已將從外部資源檢索到的信息與LLMs整合，顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型（RALMs）、包括檢索增強生成（RAG）和檢索增強理解（RAU）的全面概述，提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件，包括檢索器、語言模型和增強組件，以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法，強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制，特別是在檢索質量和計算效率方面，提供了未來研究的方向。總之，這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫：//github.com/2471023025/RALM_Survey。

自然語言處理（NLP）是計算機科學和人工智能領域內的一個重要研究方向，致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域，NLP整合了語言學、計算機科學和數學，旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力，從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上，如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等，這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法（Hogenboom et al., 2010）（Serra et al., 2013）（Aussenac-Gilles and S?rgel, 2005）和深度學習算法，如卷積神經網絡（CNN）（Yin et al., 2017）、遞歸神經網絡（RNN）（Banerjee et al., 2019）、長短時記憶網絡（LSTM）（Yao and Guan, 2018）等。最近，隨著變壓器架構（Vaswani et al., 2017）作為自然語言處理的代表性技術的出現，其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型（Lewis et al., 2019）（Raffel et al., 2020）在自然語言處理領域已經持續展示出優越的性能，吸引了越來越多研究者的關注，他們致力于研究其能力。

當前最流行的語言模型是GPT系列（Radford et al., 2019）（Brown et al., 2020）（Achiam et al., 2023）和Bert系列（Liu et al., 2019）（Devlin et al., 2018）（Sanh et al., 2019），這些模型已經在多種自然語言處理任務中表現出色。其中，自編碼語言模型特別擅長于自然語言理解任務，而自回歸語言模型更適合于自然語言生成任務。雖然增加參數（Touvron et al., 2023b）和模型調優（Han et al., 2023）可以提升LLMs的性能，但“幻覺”現象（Ji et al., 2023）仍然存在。此外，語言模型在有效處理知識密集型工作（Feng et al., 2023）和更新其知識的能力不足（Mousavi et al., 2024）方面的限制也一直很明顯。因此，許多研究者（Lewis et al., 2020）（Izacard and Grave, 2020b）（Khandelwal et al., 2019）采用了檢索技術來獲取外部知識，這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.（2023）提供了關于多模態RAG的全面概述。Zhao et al.（2024a）專注于人工智能生成內容（AIGC）領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述，但它沒有覆蓋所有相關領域。此外，文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.（2023）研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作，但它獨立地介紹了檢索器和生成器，這不利于后續工作的組件升級和互動。Li et al.（2022b）專注于文本生成。文章中的圖表較少，內容更抽象，不利于讀者的理解。

關于NLP中的檢索增強方法，僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成（NLG）相關的任務需要檢索增強技術，自然語言理解（NLU）任務也需要外部信息。迄今為止，全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況，本文提出以下貢獻： (1) 本文不僅關注與RAG相關的工作，還重點強調了RALM，并與NLP的概念保持一致。與生成相關的工作與NLG對齊，而其余的工作與NLU對齊。 (2) RALM的兩個組成部分，檢索器和語言模型，都進行了詳細描述，這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述，總結了當前RALM的常見和新穎應用，并分析了相關限制。提出了這些限制的潛在解決方案，并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要：第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后，第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧，突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識，RALMs增強了語言模型，從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功，RALMs仍面臨幾個限制。值得注意的是，它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題，研究社區提出了幾種策略，例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來，RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合，這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs，從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進，它們有望賦予AI系統更深入的理解力和更接近人類的語言能力，從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

大型語言模型 ·

2024 年 2 月 8 日

[付費5元查看完整內容]更快更輕量的大型語言模型：當前挑戰及未來發展路徑綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管大型語言模型（LLMs）的表現令人印象深刻，但由于在推理過程中需要大量的計算和內存資源，它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽，強調了近期的發展。通過對LLaMA(/2)-7B的實驗，我們評估了各種壓縮技術，為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察，我們識別了當前的局限性，并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫，以復現本文中呈現的結果。

大型語言模型（LLMs）的出現，特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志，為與語言相關的任務開啟了新的革命，這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型，在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此，它們已成為各種應用中不可或缺的工具，推動了人工智能、信息檢索和人機交互等多個領域的發展。盡管LLMs的性能無與倫比，但它們廣泛應用受到了巨大的計算和內存需求的阻礙，這在資源受限的環境中部署它們時構成了挑戰。例如，加載一個LLaMa-70B模型需要140GB的VRAM，這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而，當前的改進往往伴隨著模型性能的顯著下降，需要確定新的研究方向來找到解決這一問題的理想解決方案。最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽，以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而，為了進一步推動研究前沿，朝著LLMs的實際推理改進方向努力，還缺少一項全面的研究。在本綜述論文中，我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法，我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法，包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解，以呈現高效LLMs的有用和實際理解。此外，我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難，并討論了克服這些問題的潛在研究方向。總的來說，本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述，強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充，系統級修改在加速LLM推理中發揮了重要作用，我們也討論了這些方法。

為了提供一個實踐視角，我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解，我們系統地指出了現有的局限性，并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

大型語言模型 · 可解釋性 ·

2024 年 1 月 24 日

[付費5元查看完整內容]大模型如何可解釋？帝國理工最新《大型語言模型的解釋性》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述論文深入探討了大型語言模型（LLM）的可解釋性領域，這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色，它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性，旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM，例如LLaMA（Touvron et al., 2023），它們由于規模和復雜性，呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法，并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法，強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁，為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域，大型語言模型（LLM）已成為一個基石，展現出在各種任務中的卓越能力。盡管它們效果顯著，LLM通常被視為“黑盒”系統，這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果，例如生成有害或誤導性內容（Gehman et al., 2020），以及模型幻覺的出現（Weidinger et al., 2021）。這些問題凸顯了增強解釋性的緊迫性，不僅是為了理解，更是為了負責任和倫理的應用。在LLM中，解釋性具有兩個關鍵功能。對于終端用戶，它通過以非技術方式闡明模型的推理過程，增強了對其能力和潛在缺陷的理解，從而培養信任（Zhao et al., 2023）。對于開發者和研究人員，它提供了對意外偏見和改進領域的洞察，作為提升模型在下游任務上性能的工具（Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b）。然而，LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法，如SHAP值（Lundberg and Lee, 2017），對于這些大規模模型變得不太實用（Zhao et al., 2023）。此外，全面理解LLM特有現象，包括在上下文中的學習（Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023），以及解決模型幻覺（Ji et al., 2023; Chuang et al., 2023）和固有偏見（dev, 2023; An and Rudinger, 2023; Schick et al., 2021）等問題，對于模型設計的持續改進至關重要。在這篇文獻綜述中，我們關注預訓練的基于Transformer的LLM的解釋性方法，這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展，并擁有數十億個參數，例如GPT-2（Radford et al., 2019）、GPT-J（Chen et al., 2021）、GPT-3（Brown et al., 2020）、OPT（Yordanov et al., 2022）和LLaMA系列（Touvron et al., 2023）。在第2節中，我們根據文獻綜述對研究問題進行分類。基于這種分類，在第3節中，我們回顧了解釋性方法，隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究，旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型（LLM）領域正在迅速發展，使得解釋性不僅成為理解這些復雜系統的工具，而且對它們的改進至關重要。本節對當前的解釋性方法進行分類，強調在倫理和可控生成方面的挑戰，并提出未來探索的研究問題。方法分類我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型（LM）解釋性方法的結構化分類。我們將這些方法分為兩大領域：局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析，深入探討模型的詳細操作。另一方面，全局分析包括基于探針的方法和機制性解釋性，提供對模型行為和能力的全面理解。除了理解之外，我們還探索這些洞察在增強LLM能力方面的應用，重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測，例如情感分類或令牌預測。本節將局部解釋方法分為兩類：特征歸因分析和對單個Transformer（Vaswani et al., 2017）組件的分析。

3.2 全局分析與側重于闡明單個模型預測的局部分析不同，全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法：審視模型表示的探針方法和機制性解釋性（Transformer Circuits, 2022），這是一種新興的觀點，旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中，我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力，但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型（LLM），但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來，編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下，高效地修改LLM在特定領域內的知識或行為（Yao et al., 2023）。

4.2 增強模型能力

雖然大型語言模型（LLM）在各種自然語言處理任務中表現出多樣性，但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務：改進長文本的利用（Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022）和增強上下文中學習（In-Context Learning, ICL）的性能（Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023）。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現，但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會，這些技術旨在提高生成模型的事實性、校準性和可控性，使其更符合人類偏好。

5 評估

近期，像GPT-4（OpenAI, 2023）這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而，這些解釋是否真正幫助人類理解模型的推理過程，目前尚不明確（Zhao et al., 2023）。為了更好地評估解釋性方法（如歸因）的性能，需要專門設計的評估方法。此外，還需要校準的數據集和指標來評估解釋性在下游任務中的應用，例如真實性評估。 5.1 評估解釋的合理性評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌，以觀察其對模型輸出的影響（Chen et al., 2020; Modarressi et al., 2023）。另一種評估解釋合理性的方法涉及間接方法，例如衡量模型編輯的性能，尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究（Yao et al., 2023; Zhao et al., 2023）表明，擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE（Levy et al., 2017），一個通過反向翻譯生成問題改寫的問答（QA）數據集，以及CounterFact（Meng et al., 2023a），一個更具挑戰性的數據集，包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下，人類評注員會根據標準答案標記模型答案為真或假，但這通常成本較高。（Lin et al., 2022）提出使用兩個微調過的GPT-3-13B模型（GPT-judge）對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法，這是一個廣泛使用的數據集，對抗性構建以衡量語言模型在生成答案時的真實性（Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023）。TruthfulQA的主要指標是真實*信息量，真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答，還通過評估每個答案的信息量，防止模型無差別地回復“我無可奉告”。

6 結論

在本文中，我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外，我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法，以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步，可解釋性將變得極其重要，以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述，并突出了未來研究的開放問題和方向。

付費5元查看完整內容