我的美女教师在线观看免费,亚洲国产日韩欧美在线视频,美女被男人桶的很爽的视频

語言長期以來被認為是人類推理的基本工具。大型語言模型（LLM）的突破激發了大量研究興趣，推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程，如樹搜索和反思性思維。近年來，學習推理的趨勢逐漸興起，強化學習（RL）被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡，大大擴展了LLMs的推理能力，通過提供大量的訓練數據。此外，近期研究表明，鼓勵LLMs在推理過程中使用更多標記（即“思考”）進行測試時推理，能夠顯著提升推理準確性。因此，訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中，我們對LLM推理的最新進展進行了全面回顧。首先，我們介紹LLM的基礎背景，然后探討推動大型推理模型發展的關鍵技術組成部分，重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目，致力于構建大型推理模型，并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失，思維也將會嚴重缺失。” — 諾姆·喬姆斯基得益于深度學習的進展和大規模數據集的可用性，大型語言模型（LLMs）已成為邁向人工通用智能（AGI）的轉型性范式。這些龐大的AI模型通常采用Transformer架構，并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明，隨著模型規模和訓練數據的增加，它們的性能顯著提升 [59]。更重要的是，LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159]，例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題，能夠處理更廣泛的任務，如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中，人類般的推理能力受到了學術界和工業界的廣泛關注，因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160]，該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理，而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性，并推動了“樹狀思維” [172] 等更高級提示技術的發展。這些方法引入了“思維”這一概念，將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟，LLMs的推理超越了簡單的自回歸標記生成，能夠實現更復雜的認知架構，如樹搜索 [172] 和反思性推理 [180]。

近年來，學習推理成為一個重要的研究趨勢 [103]，其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂，特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題，近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題，借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是，研究人員提出了在這些推理軌跡上訓練過程獎勵模型（PRMs） [183]。PRMs可以提供密集的逐步獎勵，促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴，并創造了一個“強化循環”，有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展，正如理查德·薩頓所預測的那樣 [139]。因此，這一新興范式通過增加訓練時的計算資源，實現了LLM推理能力的擴展，為更高級的推理模型鋪平了道路。

此外，近期的研究表明，增加測試時計算資源也可以提高LLM的推理準確性。具體而言，PRMs可以引導LLMs評估并搜索中間“思維”過程 [134]，鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟，從而提升推理準確性。這一方法促成了測試時擴展法則，該法則預測，在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此，基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合，展示了一個有前景的研究方向，旨在充分釋放LLMs的推理能力，即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑，展示了該方法的有效性，并呼應了OpenAI在邁向AGI的五步路線圖中，從對話AI（一級）到更強大推理AI（二級）的過渡愿景 [36]。一些開源項目，如OpenR [145]、LLaMABerry [185] 和Journey Learning [110]，致力于復現OpenAI的o1強大推理能力，為大型推理模型的開發提供了寶貴的見解。

在本綜述中，我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言，第三節聚焦于訓練數據構建，強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法，重點討論訓練時計算資源的增加；第五節則討論了測試時擴展，特別是基于PRM引導的搜索。在第六節中，我們分析了OpenAI的o1系列及其他開源項目，探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術，第八節回顧了推理基準測試。最后，我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段，有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前，我們首先概述一般LLM預訓練的基本過程。通過預訓練，LLMs不僅獲得了核心的語言知識，還掌握了多樣化的世界知識，為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常，LLM預訓練依賴于高質量的文本語料庫，包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫，LLMs基于Transformer架構，通過下一個詞預測任務進行訓練。預訓練后，LLMs通常表現出卓越的上下文學習能力，能夠生成連貫的文本，并利用其龐大的知識庫回答各種問題。值得注意的是，預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如，研究表明，富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察，新開發的LLMs開始引入精心設計的合成數據，以增強LLMs的推理能力。在預訓練過程中，一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例，以保持強大的語言能力，同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力，但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里，我們首先概述基本的微調過程，然后探討其在增強推理能力方面的潛力。如文獻[104]所述，預訓練階段結束后，LLMs進入監督微調階段（SFT），也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格，確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的，這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現，新的方法涌現出來，用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術，以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集，微調過程繼續使用下一個詞預測目標，類似于預訓練。然而，與預訓練不同的是，微調特別計算答案的損失，而通常忽略問題的損失。此外，結合包含思維鏈（CoT）推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力，這使其成為一個活躍的研究領域。遵循一般實踐，大多數當前方法利用從高級大型推理模型中提取的數據進行微調，以增強LLMs的推理能力，從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練，這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中，對齊階段通常涉及使用人類反饋的強化學習（RLHF）等方法，以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比，這一階段通常包含大量精心策劃的人工標注的排名數據，以準確反映人類偏好。這些數據不僅包括正確的示范，還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型，這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本，提出了直接偏好優化（DPO）等方法，以減少對顯式獎勵模型的依賴。在DPO中，偏好損失被定義為策略的函數，以直接指導模型優化。鑒于推理問題的多步驟性和復雜性，基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型，基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠，但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法：逐步推理、多路徑探索和基于分解的方法。逐步推理方法以思維鏈提示為例，展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示，如“讓我們一步一步地思考”，也能有效地引導推理過程。這種方法通過自我一致性（Self-Consistency）進一步改進，生成多個推理路徑以得出更可靠的結論，以及自動生成有效推理鏈的Auto-CoT。多路徑探索方法超越了線性推理，同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構，從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構，允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起，豐富了這一范式，從而能夠更動態地與外部環境互動。對于復雜問題，基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件，而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。這些廣泛的推理能力通過結構化提示策略得到增強，在處理需要仔細分析和系統思考的任務時特別有效，使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明，盡管LLMs具備固有的推理能力，但通過提示過程中的仔細引導和結構，可以充分釋放其潛力。 2.5 代理工作流在LLMs的指令遵循和上下文學習能力之上，研究人員開始設計代理工作流，以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力，但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力，使LLMs能夠高效地推廣到未見問題，而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題，但最近的研究表明，上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景，例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明，有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建：從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而，由于成本高昂，這一任務面臨重大挑戰。如圖1所示，人工標注被廣泛認為是高質量的，但其成本高昂且難以擴展。相反，使用LLMs自動化標注過程提供了一種更具成本效益的替代方案，但面臨驗證有限的挑戰，特別是對于逐步推理過程。在本節中，我們回顧了該領域的最新研究進展（總結在表1中），強調了從人工標注到LLM自動化的轉變。 3.1 人工標注人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征，同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明，即使使用最少的人工標注數據，模型也能實現強大的性能，突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習（RLHF）的背景下，來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎，Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性，顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰（如復雜推理任務）之間的差距。增強LLMs的推理能力需要過程監督，即人工標注者指導推理過程的每一步[75]。然而，這種監督需要大量的人工標注數據，使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據，其數量對模型性能至關重要，完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注，利用LLMs加速標注過程，同時保持人工生成標注的高質量。具體來說，標注過程可以分為兩個階段：預標注階段和精煉階段。在預標注階段，LLMs可以用于執行初始標注，利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段，人工標注者可以評估LLM生成標注的質量，并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程，最近的工作越來越關注如何在確保數據質量的同時最大化自動化，從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務，特別是在需要復雜操作（如過濾、識別、組織和重構文本數據）的場景中。這些任務通常繁瑣、耗時，并且需要大量的人力，使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰，利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記，LLMs可以輕松處理長文本和大規模結構化數據[2]，以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景，同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務，LLMs顯著減少了對人力的依賴，簡化了標注過程，并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務，從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下，LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如，Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置，LLM能夠理解周圍上下文中的邏輯關系，生成相關問題，并確定適當的工具API來解決問題。當有人工示范時，LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務，人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明，即使是零樣本LLMs，在基于人工示范的任務無關提示下，也能有效地執行標注任務[65]。此外，對于涉及高度復雜和細微軌跡的任務，LLMs可以結合專門的代理，如計劃代理、工具代理和反思代理，以解決標注過程的不同方面，從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務，LLMs不僅推斷潛在邏輯結構，還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果，還捕捉導致這些結果的完整推理過程的標注數據集，為下游應用提供更豐富的見解。除了基于人工示范的標注外，LLMs可以通過帶有反饋的搜索獨立增強其標注能力，這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式，作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據，LLMs參與了一個自我改進的循環，增強了其理解和推理能力[70]。此外，LLMs可以系統地分析其錯誤的原因，提取關鍵見解并將其編碼為自學習知識，以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對，從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制，LLMs不僅解決了錯誤，還開發了更強大的推理能力，使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注在復雜的推理任務中，模型輸出的每一步都可能顯著影響最終結果，因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵，即過程標注。然而，手動標注這些步驟既昂貴又耗時。例如，Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集，即PRM800K，該數據集滿足了訓練有效過程獎勵模型（PRM）的要求，并大大增強了LLMs的推理能力。因此，自動化方法越來越需要高效的過程標注，以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外，基于蒙特卡羅的方法減少了對外部更強LLMs的依賴，可以使用較弱的LLMs完成數據標注，從而通過自我強化的方式訓練更強的LLMs。使用更強的LLM進行標注：作為一種直接的自動化標注方法，Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注，而是使用預訓練的高性能模型（如GPT系列）來評估每個生成的步驟。通過利用更強外部模型的能力，這種方法提高了標注過程的準確性和可擴展性，使其更適合大規模任務。然而，這種方法的主要限制在于其對高度能力的外部模型的依賴，這意味著標注過程的性能最終受限于所使用的外部模型的能力。通過蒙特卡羅模擬進行標注：為了減少對強大外部模型的依賴，Wang等人[148]和Wang等人[156]提出了一種改進方法，避免直接評分中間步驟。相反，他們的方法使用外部模型從給定的中間輸出繼續推理幾步，并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。通過樹搜索模擬進行標注：使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率，Luo等人[85]提出了一種改進方法，用蒙特卡羅樹搜索（MCTS）策略取代重復的蒙特卡羅模擬。在這種改進方法中，使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比，MCTS利用樹搜索提高推理質量，同時允許葉節點共享高質量的父節點，減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能，超越了人工標注。在基于MCTS的模擬基礎上更進一步，Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數（PRM），進而提高大型語言模型（LLM）的性能。精煉后的LLM隨后用于重復基于MCTS的模擬，生成更高質量的標注。這種涉及改進循環的迭代過程，通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色，包括數學問題解決、問答和多領域知識推理，展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理：從監督到強化微調

雖然預訓練模型在各種任務中表現出色，但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要，可以優化模型在特定任務上的表現并增強其推理能力。最初，使用監督微調（SFT），模型從標注數據集中學習任務特定的模式。然而，隨著推理挑戰的增加，強化學習（RL）和直接偏好優化（DPO）等方法提供了更有效的方法，使用獎勵模型更高效地將模型的輸出與類人推理對齊，促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM：監督微調監督微調（SFT）是一種學習技術，它使用標注數據優化預訓練模型在特定任務或領域的能力，同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征，但微調通過將模型暴露于較小的、任務特定的數據集（具有清晰的輸入-輸出映射）來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟，通過將其從通用系統適應為領域特定工具，使其能夠應用于下游任務。例如，像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練，賦予它們廣泛的語言理解和生成能力。然而，它們的輸出并不總是與任務特定要求對齊。如果沒有微調，LLMs在某些推理任務上往往表現不佳，例如對象計數、衛星理解和工程問題回答。通過SFT，我們可以基于標注的任務特定數據集優化模型的輸出，從而部分解決這些挑戰。然而，直接應用SFT可能無法充分探索模型在所需領域中的推理能力，特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程，通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT，LLMs被鼓勵顯式生成中間推理步驟，從而增強其推理能力，以應對需要更結構化和有組織思維的任務。例如，ReasonBert[29]表明，使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現，通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性，并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調，模型不僅提高了最終答案的準確性，還增強了其“思考”問題的能力，提供了對模型推理過程的更清晰見解。盡管SFT方法多樣且表現優異，但它也存在一些局限性。首先，SFT嚴重依賴高質量的標注數據集，這些數據集的策劃成本高昂且耗時，特別是對于需要專家標注的利基領域或任務。其次，SFT可能導致災難性遺忘，即模型在微調過程中失去一些預訓練的通用知識，降低了其在微調領域之外的推理任務的實用性。最后，即使采用參數高效的方法，大規模模型的微調計算成本仍然很高，對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法，如提示調優或多任務微調，以平衡任務專業化和泛化。

4.2 優化預訓練LLM：強化學習由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本，強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同，RL使模型能夠通過試錯獎勵信號學習，發現實現特定目標的最佳策略。如圖2（a）所示，模型根據其當前狀態采取行動，并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數，優化累積獎勵。經典強化學習：RL已成為LLMs發展的關鍵步驟。在RL框架中，LLMs的參數根據其行動的獎勵進行更新。具體來說，價值函數或Q函數根據獎勵模型的反饋進行更新，將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架，使其在概念上更直接，同時增強了模型有效響應的能力。目前，兩種關鍵方法主導了LLMs的RL訓練：人類反饋強化學習（RLHF）和AI反饋強化學習（RLAIF）。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外，通過在人類標注的示范和排名比較上微調GPT-3，他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊，盡管規模較小，但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架，他們對基礎模型進行微調，使用拒絕采樣訓練偏好模型，并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。為了減少對大規模人類標注數據集的依賴，Bai等人[9]提出了Constitutional AI，這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段：監督學習和RLAIF。在監督階段，模型基于憲法原則批評和精煉其輸出，創建微調數據集。在RLAIF階段，模型生成自我評估以指導訓練，繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs，一個用于基于RL的微調的庫，以及GRUE基準，該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰，他們提出了自然語言策略優化算法，通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。直接偏好優化：經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程，無需顯式獎勵模型。DPO不是優化復雜的獎勵函數，而是使用成對偏好比較，即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程，同時保留了基于RL方法對齊的好處，通常更簡單且更有效。Rafailov等人[112]引入了DPO，這是一個用于對齊語言模型的新框架，它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略，DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明，DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法（如PPO），同時更穩定、計算效率更高，并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化（ODPO），這是DPO的擴展，用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移，與質量差異成比例。這種方法不僅改進了對齊，還增強了模型的推理能力，特別是在情感控制、毒性減少和摘要等任務中。實驗表明，ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。總之，RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵，這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程，避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務，最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理對于復雜的推理任務，如數學問題解決，LLMs需要執行多步推理（如思維鏈）以最終得出準確的解決方案。在這些任務中，獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2（b）所示，這被稱為結果獎勵模型（ORM）。在這種情況下，提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。經典強化學習：ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型，PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比，ReFT能夠學習更多樣化的推理路徑，在推理任務中表現出更強的泛化能力。然而，VinePPO[60]發現，使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差，這是RL中一個眾所周知的挑戰，稱為信用分配問題。為了解決這個問題，VinePPO放棄了PPO中的價值網絡，轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明，VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習（CPL）是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索（MCTS）探索多步推理任務中的不同計劃步驟，并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑，從而提高在各種任務中的泛化能力。隨后，模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中，策略模型生成計劃步驟和最終解決方案，而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。直接偏好優化：在數學推理任務中，直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO，它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。總之，基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索，在估計這些中間步驟的重要性方面具有優勢，盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上，這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務，包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型，并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數，可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型（PRM）基于強化學習代表了LLM推理的重大進步，強調評估中間步驟而不是僅僅關注最終結果。如圖2（c）所示，PRM的獎勵分布在每個推理步驟中，而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋，PRM使模型能夠優化行為，使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要，其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變，并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。經典強化學習：一系列近期工作將PRMs應用于數學或邏輯推理，因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”（即問題解決中的初始錯誤步驟）來增強數學推理。通過獎勵糾正這些錯誤的步驟，PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋，在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架，用于數學推理任務中的逐步驗證和強化。通過自動化過程監督（使用MCTS啟發的方法），MATH-SHEPHERD消除了對人工標注的需求，同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性，從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化（GRPO）[128]集成了PRMs，這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟，DeepSeekMath在多個基準上實現了最先進的性能，展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器（PAVs），一種PRM變體，用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟，PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。交互式過程獎勵模型：PRMs還應用于交互任務，如對話和多輪問答。ArCHer采用分層RL方法，使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統：高層價值函數評估話語級獎勵，而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配，并允許對語言模型進行細致訓練，以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展，在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中，以優化長期目標與人類反饋。多輪偏好優化（MTPO）算法比較整個多輪交互以生成偏好信號，其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊，提高動態、多輪任務（如對話和戰略決策）的整體性能。直接偏好優化：一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如，SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度，它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外，SVPO將顯式價值模型與DPO集成，其中價值模型不僅幫助策略模型導航更高效的推理路徑，還指導偏好學習。然而，這些工作主要集中在首先收集偏好數據或訓練獎勵模型，然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中，推進了這些方法。這種方法可以被視為直接偏好優化的在線版本，其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心，提供了細致的步驟級獎勵，推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調強化微調（RFT）[101]是OpenAI最近提出的一種技術，用于定制針對特定垂直領域的專家LLMs。目前，RFT仍處于研究計劃中，技術細節尚未完全公開。現有信息表明，RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此，RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。評分模型：RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋，評分模型可能類似于獎勵模型，將文本輸入（如問題和答案）轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型，可能作為結果獎勵模型或過程獎勵模型運行[76]。數據效率：在OpenAI的現場會議中，提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率，同時減輕了過擬合的風險[56]。訓練穩定性：強化學習訓練的穩定性是一個眾所周知的難題，對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中，OpenAI宣布計劃通過API向公眾提供該技術，使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性，能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展：從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考除了通過強化學習等技術進行訓練時優化外，研究人員發現，測試時提示技術（如思維鏈和思維樹）可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果，但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法（如ReAct和Least-to-Most Prompting）的出現表明，LLMs可以從明確的思維過程組織中受益，從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷，但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向，而無需依賴模型架構或訓練修改[172, 11]。這表明，通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改，可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索如前所述，PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是，PRM還可以在測試時階段使用，從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明，通過增加測試時計算資源，可以有效地增強推理能力，為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法，如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑，綠色空心圓表示在探索過程中采用的推理路徑，綠色實心圓表示一旦找到正確答案，推理路徑的終點。多數投票：多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中，每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測，選擇出現次數最多的類別（“多數投票”）作為最終輸出：f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f，其中II是指示函數，yy是每個評估軌跡。樹搜索[15]：樹搜索是一種經典算法，通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題，如棋盤游戲和規劃任務。蒙特卡羅樹搜索（MCTS）是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成：選擇、擴展、模擬和回傳。通過逐步擴展搜索空間，MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用，取得了顯著成功。例如，思維樹框架[172]使LLMs能夠考慮多個推理路徑，這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策，確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。束搜索[133]：束搜索是貪婪搜索的改進版本，通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑（稱為束）以進行進一步擴展。與貪婪搜索不同，束搜索維護多個候選路徑，從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如，BART[71]使用束搜索作為其主要推理策略，展示了其在文本生成任務中的卓越效果。前瞻搜索[134]：前瞻搜索是另一種有前景的方法，具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選，而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點，則提前停止。在前瞻搜索過程中，使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分，決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比，前瞻搜索增加了探索空間的深度，允許基于更遠的模擬決策結果判斷當前決策。然而，它也增加了對計算資源的需求，在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月，OpenAI發布了o1，這是一個突破性的語言模型，代表了AI推理能力的重大進步，特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日，OpenAI開放了o3的測試申請，o3是o1的升級版本[102]，被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果，包括在國際數學奧林匹克競賽中獲得金牌水平[73]，并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下：有效的知識整合：初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力，通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率，模型展示了清晰的能力，利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明，其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式，顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出，例如將物理原理應用于生物系統或將統計方法與領域特定約束結合，表明其在知識綜合和應用方面的基本能力。系統問題分解：o1在不同復雜程度的任務中保持了一致的表現，展示了在處理難度增加時的系統問題分解能力。在數學推理中，詳細研究[27]展示了其系統問題分解方法，通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證，如對105個科學和數學問題的研究[26]，隨著問題復雜性的增加，模型在概念深度和計算需求方面保持了高準確性。在編程任務中，這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明，o1通過結構化三步方法（錯誤識別、根本原因分析和針對性修正）在不同復雜程度的錯誤中保持了一致表現。復雜任務中的可靠和連貫推理：模型的推理在不同問題類型中有效適應，始終展示出各種任務中推理鏈的一致性。在規劃任務中，PlanBench評估[144]展示了其系統處理確定性和概率場景的能力，在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢，在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力，有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明，其中中間目標必須正確排序，依賴關系必須仔細管理，展示了其在時間推理和因果理解方面的高級能力。大型推理模型的新擴展定律：實證研究表明，o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間，模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明，通過優化的測試時計算策略，模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示，o1的推理能力可以通過推理階段的高級計算分配有效增強，特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同，隨著思考時間的增加，性能持續提升[103]。這在編程任務中得到證明，允許每個問題提交10,000次使模型能夠顯著提高結果，即使沒有測試時選擇策略，得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步，展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考，旨在復制或近似專有模型（如OpenAI的o1）的推理優勢。在本節中，我們介紹了四個重要的開源項目，每個項目采用不同的策略來增強LLM推理（總結在表2中）。通過探索它們的獨特實現，我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]：該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架，采用強化學習技術。OpenR復制的核心是構建逐步推理數據，其中獲得更精確和細粒度的反饋，而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡，采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據，進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中，與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**：與分別訓練PRM和微調策略模型不同，他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法，預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案，而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]：該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力，而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖，結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成，設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法，o1復制之旅將模型暴露于不同的邏輯序列和修正中，鼓勵在訓練階段進行探索和適應性。然而，o1復制之旅在推理階段較為簡單，缺乏高級的訓練后技術，這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比，這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]：該項目專注于優化推理階段的能力，利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法，將蒙特卡羅樹搜索與自我精煉（SR-MCTS）相結合，使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性，使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型（PPRM），它成對評估解決方案路徑，確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數（EBC）然后整合這些偏好排名以指導模型的決策，進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例，與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略，還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍，推動了開發復雜、透明和適應性強的推理模型的集體目標，使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外，還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示，諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM，但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索（VRS）利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同，VRS純粹通過測試時推理操作，使用迭代反饋循環來精煉解決方案，而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力，VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用，支持廣泛的任務，包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS，深入探討每個類別中呈現的方法論和獨特見解。在個體代理設置中，VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務，其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如，對組合問題（包括帽集和在線裝箱）的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣，符號回歸研究將方程視為動態構造，迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航，在效率和準確性上超越傳統優化技術。在科學發現中，VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如，在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中，VRS用于通過模擬反饋精煉假設，推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用，支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如，研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式，通過反饋循環不斷精煉解決方案，從而在不同領域中有效泛化。總體而言，VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來，以精確和適應性解決數學、科學和優化中的挑戰。在多代理系統中，VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間，允許代理交換見解并實現共同目標。異構信息網絡（HINs）中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構，增強了其可解釋性和預測準確性[20]。同樣，在社會經濟預測中，多代理系統整合知識圖譜和元路徑推理，為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作，并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如，使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互，這些框架生成準確的因果圖，同時解決因果關系中的歧義[69]。在金融決策中，VRS增強了層次協作。FINCON框架采用經理-分析師系統，通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉，FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理，VRS支持多代理系統應對復雜任務，如元結構精煉、社會經濟預測和金融決策。在具身代理設置中，VRS用于通過整合推理與物理交互來解決現實世界任務，支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境，結合語義推理與實際實驗。例如，自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具，如機器人液體處理器、光譜設備和基于網絡的研究模塊，以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應，其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤（如錯誤的模塊調用）時，系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋，具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預，同時加速了科學發現，使其成為現實世界實驗和創新的寶貴工具。總的來說，先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力，VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索，再到現實世界應用中的動態實驗，VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架，能夠在計算和物理領域中應對復雜挑戰，同時推動多樣化領域的進步。 7.2 基于記憶的強化當應用于開放式任務（如創意寫作、復雜邏輯推理和開放世界游戲）時，解決方案空間往往會急劇擴展，通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息，使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰，一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎，迭代探索其環境。通過這一過程，它們總結經驗，提取解決方案空間的可解釋高級見解，并在后續試驗中精煉其行動，從而提高推理性能。這些研究不僅關注探索外部解決方案空間，還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶，其能力逐步增強并泛化到未見任務。具體來說，我們將該領域的研究分為以下三類。經驗學習：此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗，同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理，該代理記錄過去的觀察-行動對，并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值（預期未來獎勵）。當面臨新任務時，代理從記憶中檢索具有最高和最低Q值的相關行動，將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務，并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地，經驗共同學習[108]采用多代理框架，其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時，這些代理交替檢索相關記憶以改進上下文學習。反思學習：雖然使用記憶作為少樣本示例簡單有效，但這種方法并未充分利用LLMs的語義理解能力。一些研究認為，LLM代理應直接反思存儲在記憶中的成功和失敗，明確總結潛在原因，并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力，基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中，以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思，從記憶中檢索最相關的成功經驗，總結成功軌跡的模式，并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發，將記憶組織為目標模塊和子任務模塊，實現不同層次的反思和經驗總結。對于新任務，它檢索相關經驗以分別制定高級目標和低級子任務。概念學習：明確反思顯著增強了LLMs的推理能力。在此基礎上，一些研究旨在使LLM代理發展超越特定任務的廣義“概念”，促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力，并隨著記憶的增長不斷進化。例如，Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動，而是評估這些信念的合理性和一致性，迭代精煉策略。類似地，Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈，它自主收集經驗，扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發，為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索，并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外，它生成未見任務進行練習，基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次：提示層次、模塊層次和代理層次。請注意，這種方法并不旨在直接搜索解決方案空間，而是利用經驗數據優化代理系統本身，類似于元學習問題。我們總結了該領域的相關工作如下。提示層次：“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面，提示本身也值得搜索和優化。自動化提示工程，如進化提示優化[38]和元提示迭代[169]，可以實現比手動提示更好的結果，但也引入了更多的標記消耗。模塊層次：Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計，其中模塊本質上是具有特定功能的提示塊，如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口，使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計，如CoT和ToT。此外，Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外，評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動，以提高搜索效率，同時緊密匹配其實際性能。代理層次：ADAS提出利用LLMs搜索整個代理系統，這些系統在Python代碼空間中定義[53]。此外，多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中，關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務（如長故事創作）中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。代理系統搜索為代理提供了自我改進的能力，使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率，降低搜索成本，并在確保搜索合理性的同時實現自動化。 7.4 總結本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而，它們具有巨大潛力，通過更全面的測試時“思考”進一步提升LLMs的推理能力，促進LLMs在解決方案空間中戰略性地推理，利用過去經驗并動態優化代理工作流。因此，訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向，有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中，我們系統地回顧了LLM推理的流行基準，這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學，提供了系統評估數學理解和問題解決能力的不同方面的方法。在數學應用題（MWP）領域，基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面，MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力，而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算（如加法或減法）的能力。在小學和高中層面，綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰，GSM8K提供了8.5K個小學問題，MATH提供了12.5K個跨多個數學領域的問題，難度逐漸增加。高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題，需要復雜的問題解決策略，而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別，FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題，測試自動化數學推理的極限。幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題，而UniGEO[18]提供了一個統一的幾何推理任務框架，專注于計算和證明。這些基準特別有價值，用于評估模型連接視覺和數學推理的能力。定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明，而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域，如三角學和形式證明系統。最后，跨模態數學推理已成為一個關鍵領域，反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理，而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距，測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題建立在數學推理能力之上，系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明，但邏輯推理涵蓋了更廣泛的推理能力，包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類，邏輯推理可以分為三種主要類型：演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程，對于全面邏輯分析至關重要，同時在認知評估中保持相互聯系。演繹推理，也稱為基于前提的推理，涉及從一般原則中得出特定結論，具有絕對確定性。例如，給定一組關于實體之間關系的規則，模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表，要求模型從給定前提構建明確的邏輯推導。其他基準，如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理，WaNLI[77]引入了日益復雜的評估標準，包含107,885個示例。歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況，處理概率而非確定性。BigBench[136]包含眾多專門組件，用于檢查高級模式推理能力。此外，CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。溯因推理，也稱為解釋性推理，指的是為一系列觀察或事實形成最可能解釋的過程，盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景，通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點，模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架，具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題常識推理仍然是NLP中的一個重要挑戰，旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如，CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理，圍繞社交場景中的因果推理展開。相比之下，SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務，模型必須基于上下文線索預測事件的最可能延續，從而增加任務復雜性。對于物理常識推理，PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務，而PHYRE強調交互物理模擬。類似地，WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務，以測試語義理解和共指解析能力。其他工作，如OBQA[95]和CConS[63]，探索了模型在反常識上下文中的表現，突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近，綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度，涵蓋各種領域。例如，ODEX[155]引入了一個執行驅動的評估框架，用于開放域代碼生成，強調運行生成代碼以驗證其正確性和功能的重要性。在現實世界場景中，SWE-bench[58]專注于真實的GitHub問題，挑戰模型解決實際軟件工程問題。在數據科學領域，DS-1000[67]提供了一個基準，包含真實且可靠的數據科學代碼生成任務，使評估模型處理復雜數據操作和分析的能力成為可能。此外，APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力，反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題，評估模型根據給定規范生成正確和高效代碼的能力，從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs，每個問題都提供了函數定義和附帶文檔，要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力，包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境，用于構建和測試自主代理，使評估LLMs的網絡導航和交互技能成為可能。類似地，Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理，強調在動態在線環境中的適應性。在電子商務設置中，WebShop[171]引入了一個平臺，用于可擴展的現實世界網絡交互，專注于能夠執行在線購物等任務的接地語言代理，從而測試模型的實際應用能力。為了橋接文本和具身環境，ALF-World[131]將基于文本的輸入與交互學習場景對齊，促進了評估模型在不同模態之間轉移知識的能力。綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能，而AgentGym專注于在多樣化設置中進化LLM代理，強調適應性和學習效率。此外，AgentBoard[87]提供了一個分析平臺，用于評估多輪LLM代理，提供了對其在擴展交互中的表現的見解，并突出了持續推理任務中的改進領域。

討論 9.1 近期進展的啟示后訓練階段的擴展定律：OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是，它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步，它擴展到后訓練階段的擴展定律，這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知，預訓練和訓練階段的擴展定律導致了流行LLMs的成功，伴隨著訓練數據和計算資源的巨大投資。然而，它現在達到了瓶頸，因此，后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外，LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力，即使推理能力尚未得到強化。因此，關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題，這可能是進一步增強LLM在現實世界應用中的潛力。通過搜索生成高質量數據：OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據（包括CoT數據）的生成視為關鍵點，盡管采用了不同的方法，如蒙特卡羅樹搜索、LLM生成等。也就是說，大型推理模型的發展達到了一個階段，高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣，如上所述，這可能啟發我們在LLM代理中參考這些相關方法，首先進行高質量數據生成，然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理即使OpenAI o1系列在工程層面的突破仍然未知，從理論上和技術上看，其突破目前似乎主要在于慢思考數據的后訓練學習。此外，人類認知科學中的“系統1 + 系統2”已被反復提及，但基于大型模型實現它的想法不斷更新，主要仍停留在借鑒慢思考概念的階段。也就是說，人類大腦的“系統1 + 系統2”機制指導了LLMs的設計，但這種指導仍然非常有限。換句話說，對人類大腦的模仿僅停留在系統級設計，而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點，慢思考的領域知識應被用于相關的設計中，如推理數據生成、獎勵函數、學習過程等。到目前為止，關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘，以至于理解LLMs也需要一些技巧或特殊技術，例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力，我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例，它們的主要區別在于CoT推理階段的思考成本和深度，然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說，將推理機制與不同任務中的表現聯系起來，可能會支持更多有趣的見解。 9.3 下游應用與開放問題正如本文所指出，推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現，還體現在更廣泛的下游應用中。例如，FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務，例如城市規劃、物流調度等。一個有趣的問題是，當前研究中是否存在許多互補的問題，這些問題難以驗證，但推理過程較為簡單。通過結合LLMs和外部評估器，可能進一步驗證某些答案的質量，或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念，利用強化學習技術進行訓練時擴展，以及使用搜索算法進行測試時擴展，為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務，OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解，并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

6. LLMs推理的評估和基準測試

評估大語言模型（LLMs）的推理能力需要使用標準化的基準和性能指標進行系統評估。本節探討了各種評估方法，包括推理基準、關鍵性能指標、與人類推理的比較分析以及當前評估策略的局限性。

6.1 流行的推理基準

已經開發了多個基準來評估LLMs在不同推理方面的能力，從數學問題解決到邏輯推理和常識推理。

ARC（A12推理挑戰）：通過要求跨不同知識領域的多步推理來衡量常識和邏輯推理能力。
LogiQA：評估邏輯推理能力的數據集，特別是在演繹和溯因推理場景中。
GSMBK：專注于小學數學推理問題的數據集，評估多步算術推理能力。
MATH：測試模型在高中和競賽級別數學上的基準，評估形式數學推理。
BIG-Bench：涵蓋各種推理任務的廣泛數據集，包括邏輯推理、抽象和多跳推理。
ProofWriter：評估模型執行自動定理證明和邏輯推理的能力。
HotpotQA：專注于多跳問答的數據集，要求模型結合來自多個來源的信息進行推理。
HumanEval：評估LLMs生成代碼的能力。它評估模型理解編程相關任務并根據提供的規范生成語法正確且功能準確的代碼的能力。
ANLI（對抗性NLI）：通過對抗性生成的推理任務測試模型在自然語言推理中的表現。
HellaSwag：測試常識自然語言推理的基準。它要求模型預測句子最可能的結尾。
測量大規模多任務語言理解（MMLU）：評估57個學科中的一般知識和問題解決能力，包括初等數學、美國歷史、計算機科學和法律。

VII. 挑戰與開放研究方向

盡管在增強大規模語言模型（LLMs）推理能力方面取得了顯著進展，仍然存在若干挑戰。這些局限性妨礙了它們在高風險領域的可靠性、魯棒性和適用性。本節討論了關鍵挑戰，并提出了解決這些問題的開放研究方向。A. 幻覺與虛假信息LLMs推理中的一個關鍵挑戰是生成幻覺或事實錯誤的信息[20]。未驗證的推理步驟：LLMs有時會生成看似合理但實際上不正確的推理鏈，導致邏輯不一致[48]。事實檢查機制：現有的事實檢查技術未能有效過濾多步驟推理任務中的虛假信息[30]。開放研究方向：開發自動化驗證工具，并將LLMs與結構化數據庫集成，以提高事實準確性。B. 跨領域泛化LLMs往往難以將推理能力泛化到不同領域，限制了它們在新場景中的適應性[49]。領域特定過擬合：在特定推理數據集上進行微調可能會提升目標任務的性能，但卻妨礙了模型在未見領域中的適應性[32]。跨領域遷移學習：當前的遷移學習方法在保持推理一致性方面存在局限性，尤其在不同語境下[19]。開放研究方向：研究元學習和持續學習策略以促進跨領域泛化。C. 對抗性攻擊的魯棒性LLMs容易受到對抗性擾動的影響，這些擾動利用推理中的弱點，導致錯誤或誤導性的輸出[44]。對輸入變化的敏感性：在提示詞中做出微小修改可能會導致推理輸出發生顯著變化，影響模型的可靠性。對抗性魯棒性測試：現有的基準測試并未充分評估LLMs在對抗性推理挑戰中的表現[27]。開放研究方向：開發穩健的對抗性訓練技術，提高模型對輸入操控的抗性。D. 結合符號推理與神經推理LLMs依賴于統計模式識別，而非形式化的邏輯推理，這導致它們在復雜推理任務中出現錯誤[16]。純神經網絡方法的局限性：LLMs在結構化邏輯、形式證明和抽象符號推理方面表現較差[40]。神經符號人工智能：將神經網絡與符號推理框架結合，可以增強邏輯一致性和可解釋性[16]。開放研究方向：推進混合神經符號架構，以增強推理的人工智能模型。

VIII. 結論推動大規模語言模型（LLMs）中的推理能力發展是人工智能發展的一個關鍵里程碑。盡管在提示技術、架構創新和基于學習的方法上有所進步，但在邏輯一致性、泛化能力、魯棒性和可解釋性等方面仍然存在挑戰。本文綜述了增強LLM推理能力的關鍵方法，將其分類為提示技術、架構創新和基于學習的策略。

付費5元查看完整內容

人工智能 · 通用人工智能 · 大型語言模型 · 具身智能 · 因果推理 ·

1 月 7 日

[付費5元查看完整內容]用于人工通用智能（AGI）的大型語言模型：基礎原則和方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—基于大規模預訓練基礎模型（PFMs）的生成性人工智能（AI）系統，如視覺-語言模型、大型語言模型（LLMs）、擴散模型和視覺-語言-行動（VLA）模型，已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是，多模態大型語言模型（MLLMs）通過從大量且多樣的數據源中學習，能夠提供豐富且細致的世界表示，從而具備廣泛的能力，包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題，并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就，但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此，通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能，需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知，并為LLMs提供了固有的人類認知特性，從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中，我們討論了上述基礎性問題，并綜述了實現這些概念的最先進方法。具體而言，我們討論了如何利用具身性、符號基礎、因果性和記憶的原則，以有機的方式促進人工通用智能（AGI）的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統（無論是生物系統還是其他類型的系統）在特定環境（或多個環境）中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態，并能夠將這些推斷轉化為適當的響應，從而實現預期目標。智能是高級生物體的獨特特征，在開發其人工對應物——人工智能的過程中，研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性，即它能夠處理廣泛不同的問題，適應多種環境。尤其是人類的智能，其復雜性、豐富性和多樣性令人驚嘆，能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性，主要源于人類通過社會和文化構建（如藝術、規范、儀式、信仰體系和習俗）來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。盡管創造這種類型的通用智能的想法具有吸引力，但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近，取得顯著成果的AI技術往往集中于特定領域或受限領域，解決單一問題（如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等）。近來，基于變分自編碼器（VAE） [2] 和生成對抗網絡（GAN） [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻，使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是，大規模預訓練基礎模型的出現，如大型語言模型（LLMs） [5]、擴散模型（DMs） [6]、視覺-語言模型（VLMs） [7] 和視覺-語言-行動（VLA）模型 [8]，為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9]，[10]，[11]，[12]，尤其是多模態大型語言模型，大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理，并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介研究表明，使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13]，雖然人類的感官和運動能力通常不優于其他高級動物（包括靈長類動物）（見 [14]，[15]，[16]，[17]，[18]，[19]，[20]），但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員，尤其是與人類最親近的靈長類動物，這主要歸因于人類使用語言的能力 [21]，[22]，[23]。語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中，語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習，不僅通過觀察或與世界的互動，還能獲取其他人積累的知識。此外，語言為表示和內化知識提供了概念框架 [22]。研究表明，一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上，語言差異（例如詞匯差異）已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25]，[26]，[27]，[28]。在這方面，語言可以塑造或重塑認知 [29]，從而影響主體如何理解和與世界互動 [30]，[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外，語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為，基本語言元素（如詞語）為其他認知成分提供了構建意義的線索。因此，語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合，它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明，語言不僅有助于晶化智能（即與表示相關的認知機制），如經驗/刺激的分類 [26] 和記憶 [25]，[28]，還促進流動智能（即分析性問題解決技能），如感知 [32]，[33]，[34] 和推理 [24]，[31]。此外，接觸多種語言框架已被證明能夠拓寬個體的視野，并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位，語言被多次描述為“認知接口” [21]、“智能放大器” [35]，并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能（AGI）有不同的解釋 [9]，[36]，[37]，[38]，[39]，[40]，但這一概念通常理解為具有廣泛智力能力的AI系統，能夠執行高級認知任務，如感知——包括情境理解和一定程度的自我意識 [41]，[42]，推理、規劃，以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型，無需額外訓練。術語“人類水平的智能” [37]，[43]，[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45]，[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統，能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解，實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難，也反映了這種方法的性能限制。此外，將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展，與生物智能在高級生物體（如人類）中的性質和特性是一致的。盡管文獻中有各種定義，但幾乎對AGI的一些定義特征達成了一致。具體而言，典型AGI系統的最重要特征是（參見例如 [9]，[36]，[43]，[47]，[48]）：它能夠學習并靈活應用有限且不確定的知識，解決不同情境下的廣泛問題；它的學習和行動是自主且目標驅動的；它能在記憶中保留并積累相關信息，并在未來任務中重新使用這些知識；它能夠理解情境并執行高級認知任務，如抽象和常識推理。需要強調的是，AGI本質上與強AI（參見 [49]，[50]，[51]）不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統，而強AI旨在創造極其強大的智能，不僅在功能層面模仿人類的認知能力，還具有如內在心理狀態和主觀經驗（包括意圖性、道德、情感和自我意識等） [52]，[53]，在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54]，[55]，[56]，[57]，[58]，以獲得關于強AI概念的更詳細討論，包括意識 [54]，[56]，[57]，意識 [55]，[57]，[59] 和AI系統的道德問題 [60]，[61]。

**1.4 工作的范圍和大綱

在這項工作中，我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案，而是生物智能的一般原理和特性，這些原理和特性必須嵌入到基于大型語言模型的AI系統中事實上，這些核心概念本質上是與算法無關的，即它們的實現并不局限于任何特定的技術或一組方法。然而，需要注意的是，特定的認知功能（如感知、推理、規劃、行動等）可以通過這些通用概念和原理得到增強。本文的其余部分安排如下：在第2節，我們概述了大型語言模型（LLM）的關鍵要素，這些要素使其具有強大的能力，并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則，包括具身性（第3節）、符號基礎（第4節）、因果性（第5節）和記憶機制（第6節）。在第7節，我們探討了這些認知原則之間的相互關系和交互作用，并基于這些相互作用合成了一個整體的認知模型。最后，在第8節中，我們對所討論的概念進行了總結，并在第9節給出了結論。

付費5元查看完整內容

大語言模型 · 推薦系統 ·

2024 年 12 月 22 日

[付費5元查看完整內容]大規模語言模型增強推薦系統：分類、趨勢、應用與未來

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

大規模語言模型（LLM）在多個領域具有變革性的潛力，包括推薦系統（RS）。已有一些研究專注于通過LLM賦能推薦系統。然而，之前的工作主要集中于將LLM作為推薦系統，這可能面臨LLM推理成本過高的問題。最近，LLM與推薦系統的結合——即LLM增強推薦系統（LLMERS）——因其在實際應用中解決延遲和內存限制的潛力，受到了廣泛關注。本文對最新的研究工作進行了全面的綜述，旨在利用LLM提升推薦系統的能力。我們發現，隨著LLM被引入在線系統，特別是通過避免在推理階段使用LLM，領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型：知識增強、交互增強和模型增強。我們深入分析了每個類別，討論了相關方法、挑戰以及近期研究的貢獻。此外，我們還指出了幾個有前景的研究方向，這些方向可能進一步推動LLMERS領域的發展。

1 引言

大規模語言模型（LLM）在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統（RS）僅利用協同信號 [2, 65, 66]，通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此，許多研究提出了彌合自然語言與推薦之間差距的方法，從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功，但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應，而LLM（例如LLaMA-7B）在響應時間上通常需要幾秒鐘。然而，許多早期的研究主要集中在直接使用LLM進行推薦 [13]，這使得它們難以滿足實際應用的需求。最近，越來越多的研究者開始關注這一問題，并深入探索LLM增強推薦系統的實踐應用。因此，本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍，我們首先給出LLMERS的定義：傳統推薦系統通過LLM的輔助來增強訓練或補充數據，但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述，但存在三點關鍵差異： i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統，包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下，我們的綜述專門探討LLM增強推薦系統（LLMERS）。 ii) LLM在推薦系統中的應用是一個前沿方向，發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下，本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33]，但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS，包括特征和模型兩個方面。

1.1 初步介紹

由于LLM增強推薦系統是基于傳統推薦系統的，因此有必要先介紹其組件和面臨的挑戰，以便理解為什么以及在何處需要使用LLM。如圖1所示，傳統推薦系統通常由交互數據和推薦模型組成。

交互數據

傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練，因此數據中的交互信息對訓練是必不可少的。此外，許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此，特征和交互數據是數據中的兩個必要組成部分。然而，數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展：

挑戰1：對于特征，它們通常會被轉換為數值或類別值進行使用，但缺乏來自知識層面的推理和理解。
挑戰2：對于交互數據，數據稀疏性導致推薦系統模型的訓練不足。

推薦模型

隨著深度學習技術的廣泛應用，推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88]，而深度網絡則捕捉用戶的興趣 [84]。然而，它們也面臨一個獨特的挑戰：

挑戰3：推薦模型只能捕捉協同信號，但無法利用語義信息。

1.2 分類法

LLMERS通過增強傳統推薦系統的基本組件，即交互數據和推薦模型，從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用，我們將LLM增強推薦系統分為三大類，如圖1所示：

知識增強

這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征，補充推理和理解的知識，從而解決挑戰1。(第二部分)

交互增強

為了解決數據稀疏性問題（即挑戰2），一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)

模型增強

LLM能夠從語義角度分析交互數據，因此一些研究嘗試利用LLM來輔助傳統的推薦模型，從而解決挑戰3。(第四部分) 為清晰起見，我們在圖2中根據分類法展示了所有相關的LLMERS論文。

付費5元查看完整內容

自然語言處理 · 檢索增強大型語言模型 · 大模型 ·

2024 年 5 月 3 日

[付費5元查看完整內容]RAG與RAU：自然語言處理中的檢索增強語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）已在自然語言處理（NLP）領域催生了重大進展，然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題，最近的方法學已將從外部資源檢索到的信息與LLMs整合，顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型（RALMs）、包括檢索增強生成（RAG）和檢索增強理解（RAU）的全面概述，提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件，包括檢索器、語言模型和增強組件，以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法，強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制，特別是在檢索質量和計算效率方面，提供了未來研究的方向。總之，這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫：//github.com/2471023025/RALM_Survey。

自然語言處理（NLP）是計算機科學和人工智能領域內的一個重要研究方向，致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域，NLP整合了語言學、計算機科學和數學，旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力，從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上，如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等，這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法（Hogenboom et al., 2010）（Serra et al., 2013）（Aussenac-Gilles and S?rgel, 2005）和深度學習算法，如卷積神經網絡（CNN）（Yin et al., 2017）、遞歸神經網絡（RNN）（Banerjee et al., 2019）、長短時記憶網絡（LSTM）（Yao and Guan, 2018）等。最近，隨著變壓器架構（Vaswani et al., 2017）作為自然語言處理的代表性技術的出現，其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型（Lewis et al., 2019）（Raffel et al., 2020）在自然語言處理領域已經持續展示出優越的性能，吸引了越來越多研究者的關注，他們致力于研究其能力。

當前最流行的語言模型是GPT系列（Radford et al., 2019）（Brown et al., 2020）（Achiam et al., 2023）和Bert系列（Liu et al., 2019）（Devlin et al., 2018）（Sanh et al., 2019），這些模型已經在多種自然語言處理任務中表現出色。其中，自編碼語言模型特別擅長于自然語言理解任務，而自回歸語言模型更適合于自然語言生成任務。雖然增加參數（Touvron et al., 2023b）和模型調優（Han et al., 2023）可以提升LLMs的性能，但“幻覺”現象（Ji et al., 2023）仍然存在。此外，語言模型在有效處理知識密集型工作（Feng et al., 2023）和更新其知識的能力不足（Mousavi et al., 2024）方面的限制也一直很明顯。因此，許多研究者（Lewis et al., 2020）（Izacard and Grave, 2020b）（Khandelwal et al., 2019）采用了檢索技術來獲取外部知識，這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.（2023）提供了關于多模態RAG的全面概述。Zhao et al.（2024a）專注于人工智能生成內容（AIGC）領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述，但它沒有覆蓋所有相關領域。此外，文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.（2023）研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作，但它獨立地介紹了檢索器和生成器，這不利于后續工作的組件升級和互動。Li et al.（2022b）專注于文本生成。文章中的圖表較少，內容更抽象，不利于讀者的理解。

關于NLP中的檢索增強方法，僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成（NLG）相關的任務需要檢索增強技術，自然語言理解（NLU）任務也需要外部信息。迄今為止，全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況，本文提出以下貢獻： (1) 本文不僅關注與RAG相關的工作，還重點強調了RALM，并與NLP的概念保持一致。與生成相關的工作與NLG對齊，而其余的工作與NLU對齊。 (2) RALM的兩個組成部分，檢索器和語言模型，都進行了詳細描述，這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述，總結了當前RALM的常見和新穎應用，并分析了相關限制。提出了這些限制的潛在解決方案，并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要：第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后，第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧，突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識，RALMs增強了語言模型，從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功，RALMs仍面臨幾個限制。值得注意的是，它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題，研究社區提出了幾種策略，例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來，RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合，這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs，從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進，它們有望賦予AI系統更深入的理解力和更接近人類的語言能力，從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

思維鏈 · 大型語言模型 ·

2024 年 4 月 28 日

[付費5元查看完整內容]超越思維鏈：大型語言模型的X鏈范式綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

思維鏈（CoT）已經成為一種廣泛采用的提示方法，激發了大型語言模型（LLMs）的印象深刻的推理能力。受CoT的連續思維結構的啟發，已經開發了許多針對CoX（X鏈）的方法，以應對涉及LLMs的不同領域和任務中的各種挑戰。在本文中，我們提供了一個全面的關于LLMs在不同情境下的CoX方法的綜述。具體來說，我們根據節點的分類，即CoX中的X，以及應用任務對它們進行分類。我們還討論了現有CoX方法的發現和含義，以及潛在的未來方向。我們的綜述旨在為尋求將CoT理念應用于更廣泛場景的研究人員提供一個詳細且最新的資源。

大型語言模型（LLMs）在使用思維鏈（CoT）方法提示時表現出強大的推理能力（Wei et al., 2022; Yao et al., 2024; Besta et al., 2024a）。CoT的本質是將復雜問題分解為一系列中間子任務（Chu et al., 2023; Zhou et al., 2023）。通過逐步處理這些子任務，LLMs能夠關注重要的細節和假設，這大大提高了它們在廣泛推理任務中的表現（Huang and Chang, 2023; Chu et al., 2023）。此外，CoT的中間步驟提供了一個更透明的推理過程，便于對LLMs的解釋和評估（Yu et al., 2023b）。隨著CoT的成功，開發了許多X鏈（CoX）方法（Yu et al., 2023a）。這些方法不僅限于推理思維，最近的CoX方法還構建了包含各種組件的鏈，如反饋鏈（Lei et al., 2023; Dhuliawala et al., 2023）、指令鏈（Zhang et al., 2023d; Hayati et al., 2024）、歷史鏈（Luo et al., 2024; Xia et al., 2024d）等。這些方法已被應用于解決涉及LLMs的多樣化任務中的挑戰，包括多模態交互（Xi et al., 2023a; Zhang et al., 2024a）、幻覺減少（Lei et al., 2023; Dhuliawala et al., 2023）、基于LLM的代理規劃（Zhan and Zhang, 2023; Zhang et al., 2024c）等。

盡管這些CoX方法的普及度不斷提高，但它們尚未被集體審查或分類，我們對它們的潛力和細微差別的理解還存在差距。為此，本綜述旨在提供一個結構化概覽，捕捉CoX方法的本質和多樣性，以便進一步探索和創新。雖然幾項綜述已經探討了CoT（Chu et al., 2023; Yu et al., 2023b; Besta et al., 2024b），它們主要關注不同結構的推理思維，例如圖1(a)所示的思維鏈。與此相反，本文關注的是如圖1所示，超越推理思維的多面向組件設計的X鏈，提供CoT概念在更廣泛領域的見解。我們通過CoX中的X的分類和應用這些方法的任務來呈現一個全面的綜述。綜述概覽首先提供思維鏈的背景信息并定義X鏈為其概括（§2）。接下來，我們根據用于構建鏈的組件類型對CoX方法進行分類（§3）。此外，根據這些CoX方法的應用領域，我們按任務對它們進行分類（§4）。然后，我們討論現有CoX方法的見解并探索潛在的未來方向（§5）。綜述的詳細結構在圖2中呈現。

什么是X鏈？

在本節中，我們首先介紹一些關于思維鏈（Chain-of-Thought，CoT）提示的背景信息，然后定義一個廣義的X鏈（Chain-of-X，CoX）概念。

思維鏈（CoT）提示是一種方法論，能顯著增強大型語言模型（LLMs）的推理能力。CoT由Wei等人（2022）引入，涉及以結構化的格式<input, thoughts, output>提示LLMs，其中“thoughts”包括通向最終答案的連貫的中間自然語言推理步驟。CoT在需要復雜推理的任務中效果最為顯著。傳統的少樣本學習方法在這類場景中經常會失敗，因為它們傾向于直接提供答案而不包括必要的中間步驟。Rae等人（2021）強調了這一局限性，指出這些方法隨著模型大小的增加而顯得不足。相比之下，CoT提示通過融入中間推理步驟而表現出色。這些步驟通過邏輯推進引導模型，增強其解決算術、常識和符號推理等復雜問題的能力（Wang等人，2023d；Lyu等人，2023）。CoT的本質在于通過將復雜問題分解為可管理的中間步驟來解決問題（Zhou等人，2023）。Kojima等人（2022）也展示了通過提示“讓我們一步一步思考。”的零樣本CoT的強大性能。明確的推理步驟還為模型的思考過程提供了一個透明的路徑，允許進一步的評估和糾正（Yu等人，2023b）。受CoT的順序分解特性啟發，最近開發了大量的X鏈（CoX）方法（Yu等人，2023a）。在這里，我們將CoX定義為CoT方法的一種廣義形式，用于超越LLM推理的多樣化任務。我們將CoX中的X稱為鏈結構的“節點”。除了CoT提示中的思考外，CoX中的X可以采取針對特定任務定制的各種形式，包括中間件（§3.1）、增強（§3.2）、反饋（§3.3）甚至模型（§3.4），如圖1所示。我們在圖2中總結了現有CoX方法中的節點類型。CoX的想法是構建一個與問題相關的組件序列，這些組件要么組合貢獻解決方案，要么迭代精煉復雜任務的輸出。同樣，我們為CoX定義了一個結構化格式<input, X1, ..., Xn, output>，其中n是鏈的長度。請注意，這種格式超越了像CoT這樣的提示策略，可以適應多種算法框架或結構，用于涉及LLMs的多樣化任務。例如，驗證鏈（Chain-of-Verification，Dhuliawala等人，2023）是一個幻覺減少框架，使用LLM生成初始響應，構建一系列驗證問題，并根據這些問題修訂其先前的響應。除了減少幻覺外，CoX方法還被應用于多種任務，如圖2所示，包括多模態互動（§4.1）、事實性與安全（§4.2）、多步驟推理（§4.3）、指令跟隨（§4.4）、LLMs作為代理（§4.5）和評估工具（§4.6）。

結論

本綜述探討了基于思維鏈概念構建的X鏈方法。通過根據節點和任務對它們進行分類，我們提供了一個全面的概覽，突出了CoX在增強大型語言模型（LLMs）能力方面的潛力，并為未來研究開辟了新的途徑。通過這項綜述，我們旨在激發對LLMs的X鏈范式進行更深入理解和更有創造性使用的進一步探索。

付費5元查看完整內容

大型語言模型 · 表格推理 ·

2024 年 2 月 14 日

[付費5元查看完整內容]大型語言模型在表格推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

表格推理旨在根據提供的表格以及可選的表格文本描述，按照用戶需求生成相應的問題答案，有效提高獲取信息的效率。近來，使用大型語言模型（LLMs）已成為表格推理的主流方法，因為它不僅顯著降低了注釋成本，還超過了以往方法的性能。然而，現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏，哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題，仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究，我們呈現了這篇綜述，以分析現有研究，激發未來的工作。在這篇論文中，我們分析了在LLM時代用于提高表格推理性能的主流技術，以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導，以激發未來的研究。

付費5元查看完整內容

大型語言模型 ·

2024 年 2 月 8 日

[付費5元查看完整內容]更快更輕量的大型語言模型：當前挑戰及未來發展路徑綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管大型語言模型（LLMs）的表現令人印象深刻，但由于在推理過程中需要大量的計算和內存資源，它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽，強調了近期的發展。通過對LLaMA(/2)-7B的實驗，我們評估了各種壓縮技術，為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察，我們識別了當前的局限性，并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫，以復現本文中呈現的結果。

大型語言模型（LLMs）的出現，特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志，為與語言相關的任務開啟了新的革命，這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型，在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此，它們已成為各種應用中不可或缺的工具，推動了人工智能、信息檢索和人機交互等多個領域的發展。盡管LLMs的性能無與倫比，但它們廣泛應用受到了巨大的計算和內存需求的阻礙，這在資源受限的環境中部署它們時構成了挑戰。例如，加載一個LLaMa-70B模型需要140GB的VRAM，這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而，當前的改進往往伴隨著模型性能的顯著下降，需要確定新的研究方向來找到解決這一問題的理想解決方案。最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽，以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而，為了進一步推動研究前沿，朝著LLMs的實際推理改進方向努力，還缺少一項全面的研究。在本綜述論文中，我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法，我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法，包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解，以呈現高效LLMs的有用和實際理解。此外，我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難，并討論了克服這些問題的潛在研究方向。總的來說，本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述，強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充，系統級修改在加速LLM推理中發揮了重要作用，我們也討論了這些方法。

為了提供一個實踐視角，我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解，我們系統地指出了現有的局限性，并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

科學大模型 · 大型語言模型 · AI與化工 ·

2024 年 2 月 8 日

[付費5元查看完整內容]科學語言建模：大型語言模型在分子科學中的量化綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

高效的分子建模和設計對于新分子的發現和探索至關重要，深度學習方法的引入已經徹底改革了這一領域。特別是，大型語言模型（LLMs）提供了一種全新的方法來從自然語言處理（NLP）的角度解決科學問題，引入了一種稱為科學語言建模（SLM）的研究范式。然而，仍有兩個關鍵問題：如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰，我們提出了一個多模態基準，命名為ChEBI-20-MM，并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣，我們提供了關于任務最適合的模態的見解。此外，我們引入了一種統計上可解釋的方法，通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索，并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調，使它們在分子建模和設計中更加多才多藝和高效。此外，自從ChatGPT[9]和GPT-4[10]的出現以來，大型語言模型（LLMs）已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力，提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察，克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性，以改善結果，被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而，對這一能力的當前綜述和基準評估并不全面。分子科學中現有的綜述，如分子生成綜述[11]，通常缺乏全面的模型比較，并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類，但缺少詳細的方法比較和數據集討論。而最近的基準測試，如測試ChatGPT的[13]，涵蓋了八個化學任務，每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集，包含各種分子和蛋白質指令，增強了LLMs中的生物分子理解。然而，這些綜述和基準測試缺乏多模態內容，也沒有充分探索模型的化學知識。總結來說，本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標：描述、嵌入和生成，如圖1所生動描繪。此外，我們建立了一個統一的多模態基準ChEBI-20-MM，并進行實驗評估數據模態、模型架構和不同任務類型的兼容性，考察它們對任務性能的影響。此外，我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說，我們的主要貢獻包括： ? 本工作分析了LLMs在分子建模中的應用，分類現有模型，并提出了一個多模態基準（ChEBI-20-MM）進行性能評估，支持1263次實驗。 ? 我們分析了模態轉換概率矩陣，并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法，通過局部特征過濾展示了知識獲取。本文的其余部分如下組織。第2節介紹相關定義和背景。然后，我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制，第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

大型語言模型 · 多智能體 ·

2024 年 2 月 6 日

[付費5元查看完整內容]基于大型語言模型的多智能體：進展與挑戰綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型（LLMs）在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力，它們被用作自動執行許多任務的自主智能體。最近，基于將一個LLM作為單一規劃或決策智能體的發展，基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽，我們呈現這篇綜述，以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解：基于LLM的多智能體模擬哪些領域和環境？這些智能體如何被描述，它們如何通信？什么機制有助于智能體能力的增長？對于那些有興趣深入研究這一領域的人，我們還總結了常用的數據集或基準，以便他們方便地訪問。為了讓研究人員了解最新的研究，我們維護一個開源的GitHub倉庫，致力于概述基于LLM的多智能體系統的研究。

1 引言

最近，大型語言模型（LLMs）展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等，2023；Wooldridge和Jennings，1995；Russell和Norvig，2009；Guo等，2023；Liang等，2023]。因此，基于LLM的智能體已被研究和快速發展，以理解和生成類似人類的指令，促進在廣泛的上下文中進行復雜的互動和決策[Yao等，2023；Shinn等，2023；Li等，2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展，如在文獻[Xi等，2023；Wang等，2023b]中所見。

基于單個LLM智能體的啟發性能力，已提出基于LLM的多智能體，以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比，多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體，以及2) 使這些多樣化的智能體之間進行互動，有效地模擬復雜的現實世界環境，提供了先進的能力。在這一背景下，多個自主智能體協作參與規劃、討論和決策，反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力，借助它們生成文本進行交流和對文本輸入的響應能力。此外，它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果，如軟件開發[Hong等，2023; Qian等，2023]、多機器人系統[Mandi等，2023; Zhang等，2023c]、社會模擬[Park等，2023; Park等，2022]、政策模擬[Xiao等，2023; Hua等，2023]以及游戲模擬[Xu等，2023c; Wang等，2023c]。由于這個領域的跨學科研究性質，它吸引了來自社會科學、心理學和政策研究等不同背景的研究者，研究論文的數量正在迅速增加，如圖1所示（受[Gao等，2023b]設計的啟發），從而擴大了基于LLM的多智能體研究的影響。盡管如此，早期的工作是獨立進行的，導致缺乏系統回顧以總結它們，建立這個領域的全面藍圖，并檢查未來的研究挑戰。這強調了我們工作的重要性，并作為呈現這篇綜述論文的動機，致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體（LLM-MA）系統的全面概覽，把握基于LLMs建立多智能體系統所涉及的基本概念，并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段，并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文，我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新，以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術，并補充現有的綜述通過解決未解決的問題，我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后，我們提出了一個關鍵問題：LLM-MA系統如何與協作任務解決環境對齊？為了回答這個問題，我們在第3節提出了一個全面的框架，用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論： 1）智能體-環境界面，詳細說明智能體如何與任務環境互動； 2）智能體輪廓，解釋一個智能體如何被LLM描述以以特定方式行為； 3）智能體通信，考察智能體如何交換信息和協作；以及 4）智能體能力獲取，探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節，我們將當前應用分為兩個主要流：用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源，我們在第5節提出了用于研究LLM-MA的開源實現框架，以及可用的數據集和基準。基于前面的總結，我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統：界面、輪廓、通信和能力

在本節中，我們深入探討LLM-MA系統的復雜性，其中多個自主智能體參與類似于人類群體動力學的協作活動，應對問題解決場景。我們要解決的一個關鍵問題是，這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點，我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架，重點關注四個關鍵方面：智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用：問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意，這是一個快速發展的研究領域，幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體，每個都作為個體行動，協作以有效地解決復雜問題，例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長，涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力，這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景，智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同，世界模擬系統涉及多種智能體管理和通信方法，反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能，并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中，我們首先系統回顧了LLM-MA系統的發展，通過從不同方面定位、區分和連接它們，涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準，并討論挑戰和未來機會，我們希望這篇綜述能成為各個研究領域的研究者們的有用資源，激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容