亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—大規模語言模型(LLMs)在各種自然語言處理(NLP)任務中取得了顯著成功,但它們的推理能力仍然是一個根本性挑戰。盡管LLMs在流暢性和事實回憶方面表現出色,但在進行復雜推理時——涵蓋邏輯推理、數學問題求解、常識推理以及多步驟推理——它們的表現常常未能達到人類的預期。本文綜述了增強LLMs推理能力的新興技術,并將現有方法歸類為幾種關鍵途徑,包括提示策略(如鏈式思維推理、自一致性推理和樹狀思維推理)、架構創新(如檢索增強模型、模塊化推理網絡和神經符號集成)以及學習范式(如使用推理專用數據集的微調、強化學習和自監督推理目標)。此外,本文還探討了用于評估LLMs推理能力的評估框架,并強調了如幻覺、魯棒性和推理在不同任務中的泛化等挑戰。通過綜合近期的進展,本文旨在為推理增強型LLMs的未來研究方向和實際應用提供見解。關鍵詞—大規模語言模型(LLMs)、推理、邏輯推理、數學問題求解、常識推理、多步驟推理、提示策略、鏈式思維推理、自一致性推理、樹狀思維推理、檢索增強模型、模塊化推理網絡、神經符號集成、強化學習、自監督學習、幻覺、人工智能推理。最近發布的LLM DeepSeek-R1 [1] 在數學和編程等復雜任務中表現突出,展示了先進的推理能力。它能夠有效模擬類似人類的分析思維,提升數學、邏輯和編程等領域中的多步驟推理能力。

I. 引言

大規模語言模型(LLMs)在自然語言處理(NLP)領域引發了革命性的變化,實現了機器翻譯、文本生成、問答系統等復雜語言任務的突破。盡管這些模型在流暢性和知識保持方面表現出色,但它們在系統性推理方面常常遇到挑戰——這一能力對于需要邏輯推理、問題解決和決策的任務至關重要[2]。雖然LLMs能夠生成似是而非的回答,但它們經常出現推理錯誤、不一致性和幻覺,限制了它們在科學發現、法律和醫學等關鍵領域的可靠性[3][4]。人工智能中的推理廣泛涵蓋了多個認知過程,包括演繹推理、歸納推理、溯因推理和常識推理[5]–[9]。與基于檢索的知識綜合不同,推理要求進行多步驟的邏輯轉換、上下文推廣和結構化問題求解。傳統的人工智能方法通過基于規則的符號系統處理推理問題[10][11],然而將這種結構化推理與基于數據驅動的LLMs范式相結合,仍然是一個持續的挑戰。近期的研究探索了多種方法來增強LLMs的推理能力。這些方法可以分為三個領域:(1)提示策略,如鏈式思維(CoT)推理[12]、自一致性推理[13]和樹狀思維推理[14]方法,這些方法利用結構化提示來引導逐步推理;(2)架構創新,包括檢索增強模型[15]、神經符號混合框架[16]以及整合結構化知識和邏輯的模塊化推理架構[17];(3)學習范式,涉及使用專用數據集的微調[18]、強化學習以保持推理一致性[1]和鼓勵邏輯泛化的自監督目標[19]。在近期的進展中,剛發布的LLM DeepSeek-R1 [1]在推理性能上表現出色,特別是在數學和編程等復雜領域。DeepSeek-R1通過有效模擬類人分析思維,增強了數學問題求解、邏輯推理和編程任務中的多步驟推理,展示了微調架構和新型訓練范式在提升LLMs結構化推理方面的潛力。本綜述系統地回顧了LLM推理的這些進展,評估了它們的有效性、局限性和應用,涵蓋了評估基準、對抗性魯棒性、跨領域泛化和推理偏見等關鍵挑戰。通過綜合近期的進展,本文提供了對有前景的技術和未來研究方向的全面概述。本文的結構如下:第二節介紹推理的基礎,第三節探討基于提示的推理增強,第四節討論架構創新,第五節考察基于學習的方法,第六節重點討論評估和基準測試,第七節強調挑戰和開放研究方向,第八節總結全文。

2. AI和LLMs中的推理基礎

2.1 定義和推理類型推理是從前提或證據中得出結論的認知過程。它可以分為以下幾種類型:演繹推理:從一般前提中得出具體結論。如果前提為真,結論必須為真。這種方法在形式邏輯和自動定理證明中是基礎。歸納推理:從具體例子或觀察中得出一般原則。這種方法在機器學習的模式識別和預測中很常見。溯因推理:推斷給定觀察的最可能解釋,常用于診斷和假設形成。常識推理:應用一般世界知識來推斷合理結論,這對于理解人類交流中的隱含意義至關重要。概率推理:使用概率論處理邏輯推理中的不確定性,通常在貝葉斯網絡和馬爾可夫模型中實現。2.2 經典AI推理方法傳統的AI研究長期以來一直專注于結合結構化知識表示的形式推理技術。一些關鍵的經典方法包括:符號邏輯:使用一階邏輯(FOL)和命題邏輯推導結論的形式規則系統。基于規則的系統:應用預定義規則推斷邏輯結論的AI模型,用于專家系統和決策樹。知識圖譜:實體及其關系的結構化表示,支持通過圖遍歷和推理機制進行推理。自動定理證明(ATP):使用邏輯演繹證明數學定理的算法,如命題邏輯中的歸結原理。貝葉斯網絡:通過表示變量之間的依賴關系,在不確定性下進行推理的概率圖模型。盡管這些經典方法提供了強大的邏輯基礎,但它們在應用于開放式、非結構化問題(如自然語言理解)時,面臨著可擴展性和適應性的挑戰。2.3 大語言模型中的推理大語言模型(LLMs)如GPT-4、PaLM和LLaMA利用深度學習架構(主要是Transformer)來處理和生成類人文本。然而,它們的推理能力與傳統AI方法有顯著不同:統計學習與符號邏輯:與遵循顯式邏輯規則的符號AI不同,LLMs學習語言數據中的概率模式,使其推理隱含且非確定性。涌現的推理能力:研究表明,擴展LLMs可以提高其執行多步推理任務的能力,盡管缺乏顯式邏輯約束。上下文和提示驅動的推理:LLMs嚴重依賴上下文窗口和外部提示工程技術(如鏈式思維提示)來生成推理響應。邏輯推理的局限性:雖然LLMs在識別語言模式方面表現出色,但它們在形式邏輯、數學證明和系統驗證結論方面表現不佳。2.4 LLMs推理的挑戰盡管取得了進展,LLMs在實現穩健和可靠的推理方面仍面臨幾個挑戰:幻覺:LLMs有時會生成看似合理但錯誤的信息,導致不可靠的推理。缺乏顯式記憶:與知識圖譜或基于規則的系統不同,LLMs缺乏結構化的長期記憶,使得推理一致性難以維持。多步推理的困難:盡管鏈式思維提示等技術有所幫助,但LLMs經常無法正確遵循多步邏輯結構。偏見和可解釋性問題:由于LLMs在大量文本語料庫上訓練,它們會繼承數據中的偏見,這可能會以不可預測的方式影響推理輸出。跨領域泛化的局限性:在多樣化數據集上訓練的LLMs仍然難以在不同領域之間轉移推理技能(如法律推理與科學推理)。2.5 彌合AI推理與LLMs之間的差距為了增強LLMs的推理能力,最近的研究探索了將傳統推理技術與深度學習相結合的混合模型。關鍵方向包括:使用結構化推理數據進行微調:在專門關注邏輯推理和數學問題解決的數據集上訓練LLMs。檢索增強推理:通過知識檢索機制增強LLMs,使其能夠基于外部事實生成響應。神經符號AI:將神經網絡與符號推理框架相結合,以利用兩者的優勢。自監督和強化學習技術:鼓勵模型通過迭代自訓練和獎勵機制來優化其推理。

3. 基于提示的推理增強

大語言模型(LLMs)通過結構化提示展示了涌現的推理能力,繞過了微調的需要。本節探討了關鍵的提示技術,如圖1所示,并在表I中進行了總結。3.1 鏈式思維(CoT)推理鏈式思維(CoT)推理是一種提示技術,用于提高大語言模型(LLMs)解決復雜推理問題的能力。它涉及將問題分解為一系列中間步驟,使模型能夠更有效地推理并得出準確的結論。該技術在復雜的數學問題解決、邏輯推理和常識推理中特別有效。逐步推理:模型生成一系列邏輯步驟來解決問題,而不是立即回答,從而提高多步問題解決的準確性。中間推理:該方法通過考慮子問題來模仿人類的問題解決過程,然后再得出最終答案。性能提升:研究表明,與標準提示相比,CoT提示在算術和邏輯任務中的表現有所提高。局限性:雖然CoT增強了可解釋性,但其有效性取決于提示設計和模型大小。在某些情況下,模型可能仍會生成錯誤的中間步驟。3.2 自一致性提示自一致性提示是一種先進的提示技術,通過生成多個不同的推理路徑并選擇最一致的答案來提高推理準確性。該方法在復雜推理任務中非常有用,因為單一的鏈式思維(CoT)可能容易出錯。該技術通過聚合輸出來減少響應的變異性并提高準確性。多個推理路徑:模型生成多個不同的推理鏈,而不是單一的逐步解決方案。多樣化的思維過程:每個推理鏈可能遵循不同的邏輯方法,減少了單一軌跡中的偏見。最終答案的多數投票:最終響應基于生成的樣本中最頻繁出現的正確答案。3.3 樹狀思維(ToT)推理樹狀思維(ToT)推理是一種高級問題解決框架,通過探索樹狀結構中的多個可能推理路徑來擴展CoT推理。與遵循單一線性推理路徑不同,ToT允許在每個步驟中進行分支和評估,從而產生更穩健和最優的解決方案。結構化探索:模型在樹狀結構中探索不同的路徑,選擇最優的推理路線。決策評估與剪枝:ToT推理在組合和規劃任務中特別有效。最終答案選擇:基于評分或多數選擇過程選擇最佳推理路徑。3.4 程序輔助語言模型(PAL)程序輔助語言模型(PAL)是一種通過允許模型調用外部計算工具(如Python或符號求解器)來執行計算、執行基于邏輯的步驟或驗證解決方案的技術。與純粹依賴內部基于標記的推理不同,PAL利用外部代碼執行來提高準確性和可靠性。基于執行的驗證:模型生成代碼格式的推理步驟,執行代碼以驗證正確性。數學推理中的更高準確性:PAL在需要精確計算的任務中表現出色。依賴外部工具:該方法需要與外部計算環境集成,限制了其可擴展性。實證研究表明,CoT和自一致性提示顯著提高了推理性能,特別是在數學和邏輯等結構化領域。

4. 增強推理的架構創新雖然基于提示的技術提高了大語言模型(LLMs)的推理能力,但架構創新在增強其執行結構化和復雜推理的能力方面起著至關重要的作用。本節探討了各種模型架構和修改,以提高邏輯推理、多步推理和知識集成。

4.1 檢索增強生成(RAG)檢索增強生成(RAG)是一種結合信息檢索與文本生成的AI框架。它通過結合外部知識源來增強LLM推理。與僅依賴參數記憶相比,該方法提高了響應的準確性、相關性和事實基礎。查詢處理:輸入查詢被處理并嵌入到向量空間中。模型使用檢索系統(如密集段落檢索、BM25)搜索相關文檔。檢索到的文檔被附加到輸入中。知識增強推理:基于查詢和檢索到的信息,RAG模型補充其推理過程。減少幻覺:通過將響應基于外部數據,RAG有助于減少純生成模型中常見的幻覺。4.2 神經符號混合模型神經符號混合模型結合了神經網絡(擅長模式識別和從數據中學習)與符號AI(支持推理、邏輯和顯式知識表示)。這種融合旨在創建更可解釋、可泛化和穩健的AI系統。邏輯與學習的集成:這些模型使用神經網絡處理非結構化文本,同時使用符號邏輯進行基于規則的推理。神經網絡提取特征,而符號系統提供邏輯推理。增強的可解釋性:符號組件提高了透明度,使推理步驟更易解釋。基于規則的系統、知識圖譜和形式邏輯支持結構化推理。4.3 記憶增強神經網絡記憶增強神經網絡(MANNs)是將外部記憶與神經網絡集成的AI模型,使其能夠動態存儲、檢索和操作信息。MANNs可以從外部記憶模塊中讀取和寫入數據,使其在長序列推理一致性、終身學習和少樣本學習任務中更具適應性。控制器(神經網絡核心):處理輸入并管理與內存交互的神經網絡(通常是RNN或Transformer),決定何時以及如何讀取/寫入數據。外部記憶存儲:一種結構化記憶組件(如可微分記憶矩陣或鍵值存儲),用于隨時間保存信息。與僅依賴隱藏狀態的標準RNN不同,MANNs顯式檢索和更新記憶。記憶訪問機制:記憶增強神經網絡中的讀/寫操作通常是可微分的,支持基于梯度的學習。尋址機制包括基于內容的尋址(通過評估與存儲數據的相似性來檢索記憶)和基于位置的尋址(基于位置或順序訪問記憶)。

4.4 圖神經網絡(GNNs)和知識圖譜圖神經網絡(GNNs)通過顯式表示實體及其關系,提供了結構化推理框架,支持邏輯推理和多跳問答。結構化表示:圖神經網絡是設計用于處理圖結構數據的神經模型。與傳統的深度學習模型(處理圖像等網格或文本等序列)不同,GNNs可以建模相互連接實體之間的復雜關系。知識圖譜上的推理:知識圖譜將事實表示為實體和關系的結構化格式,通常為三元組(主語、謂語、賓語)。當GNNs應用于知識圖譜時,它們支持推理、推斷和發現隱藏關系。提高可解釋性:基于知識圖譜的推理通過使推理路徑顯式化來增強透明度。

4.5 工具使用和API增強LLMs可以通過外部工具和API增強推理能力,利用語言建模之外的專業計算資源。程序化推理:模型調用外部計算器、定理求解器或搜索引擎來驗證推理步驟。動態數據集成:如表II所示,API支持實時訪問更新知識,提高推理的事實準確性。局限性:依賴外部服務會引入延遲,并需要訪問控制機制。實證結果表明,檢索增強和神經符號模型在結構化推理任務中優于標準Transformer架構。

5. 基于學習的推理方法除了提示和架構創新外,基于學習的方法在提高大語言模型(LLMs)的推理能力方面至關重要。這些方法涉及訓練范式,如使用推理特定數據集進行微調、強化學習以提高一致性,以及自監督學習以支持邏輯推理。本節探討了各種基于學習的方法,以增強LLMs的推理能力。

5.1 使用推理特定數據集進行監督微調在高質量推理數據集上微調LLMs可以提高模型的邏輯、數學和常識推理能力。數學和邏輯推理:在MATH和GSM8K等數據集上微調,增強了數學問題解決和邏輯推理能力。常識和因果推理:在SWAG和Abductive NLI(aNLI)等數據集上微調,幫助模型學習常識推理和溯因推理。科學和多跳推理:在ARC和HotpotQA等數據集上微調,提高了多步推理和問答能力。盡管微調可以顯著提高模型性能,但需要仔細的數據集策劃,以防止過擬合并確保泛化能力。

5.2 基于人類反饋的強化學習基于人類反饋的強化學習(RLHF)等方法訓練模型,使其推理與人類偏好保持一致。邏輯一致性的獎勵模型:RLHF根據人類評估者的反饋優化模型輸出,減少邏輯推理中的錯誤。獎勵模型(RM)訓練:人類評估者根據偏好評估多個模型輸出。一個專門的神經網絡(稱為獎勵模型)在這些排名上進行訓練,以捕捉人類偏好。模型生成并評估其推理步驟,通過迭代學習優化正確解決方案。通過近端策略優化(PPO)進行強化學習:PPO是一種強化學習算法,用于優化模型,同時防止其基礎性能的劇烈偏離。

5.3 自監督和對比學習用于推理自監督學習(SSL)和對比學習(CL)已成為訓練大規模語言模型進行推理任務的有效方法。與依賴人工標注數據的監督學習不同,SSL和CL利用數據中的固有結構來創建有用的表示并提高推理能力。用于邏輯推理的對比學習:通過訓練模型區分有效和無效的推理鏈,對比學習提高了邏輯一致性。對比學習優化對比損失(如InfoNCE或Triplet Loss),鼓勵正確的推理對具有更高的相似性分數。使用合成數據進行自訓練:模型生成合成推理路徑并驗證其正確性,迭代優化其推理能力。零樣本和少樣本推理改進:自監督學習通過使模型能夠直接從原始數據中提取抽象推理模式,增強了模型在新推理任務中的泛化能力。

5.4 自動驗證器和批評模型為了進一步提高推理準確性,LLMs可以與自動驗證器配對,后者對模型的輸出進行批判性評估。二次驗證模型:一個單獨的模型評估LLM的推理輸出,過濾掉錯誤的推理。形式證明檢查:與定理證明器集成,允許模型嚴格驗證邏輯推理。局限性:由于難以形式化自然語言推理,自動驗證仍然具有挑戰性。

6. LLMs推理的評估和基準測試

評估大語言模型(LLMs)的推理能力需要使用標準化的基準和性能指標進行系統評估。本節探討了各種評估方法,包括推理基準、關鍵性能指標、與人類推理的比較分析以及當前評估策略的局限性。

6.1 流行的推理基準

已經開發了多個基準來評估LLMs在不同推理方面的能力,從數學問題解決到邏輯推理和常識推理。

  • ARC(A12推理挑戰):通過要求跨不同知識領域的多步推理來衡量常識和邏輯推理能力。
  • LogiQA:評估邏輯推理能力的數據集,特別是在演繹和溯因推理場景中。
  • GSMBK:專注于小學數學推理問題的數據集,評估多步算術推理能力。
  • MATH:測試模型在高中和競賽級別數學上的基準,評估形式數學推理。
  • BIG-Bench:涵蓋各種推理任務的廣泛數據集,包括邏輯推理、抽象和多跳推理。
  • ProofWriter:評估模型執行自動定理證明和邏輯推理的能力。
  • HotpotQA:專注于多跳問答的數據集,要求模型結合來自多個來源的信息進行推理。
  • HumanEval:評估LLMs生成代碼的能力。它評估模型理解編程相關任務并根據提供的規范生成語法正確且功能準確的代碼的能力。
  • ANLI(對抗性NLI):通過對抗性生成的推理任務測試模型在自然語言推理中的表現。
  • HellaSwag:測試常識自然語言推理的基準。它要求模型預測句子最可能的結尾。
  • 測量大規模多任務語言理解(MMLU):評估57個學科中的一般知識和問題解決能力,包括初等數學、美國歷史、計算機科學和法律。

VII. 挑戰與開放研究方向

盡管在增強大規模語言模型(LLMs)推理能力方面取得了顯著進展,仍然存在若干挑戰。這些局限性妨礙了它們在高風險領域的可靠性、魯棒性和適用性。本節討論了關鍵挑戰,并提出了解決這些問題的開放研究方向。A. 幻覺與虛假信息LLMs推理中的一個關鍵挑戰是生成幻覺或事實錯誤的信息[20]。未驗證的推理步驟:LLMs有時會生成看似合理但實際上不正確的推理鏈,導致邏輯不一致[48]。事實檢查機制:現有的事實檢查技術未能有效過濾多步驟推理任務中的虛假信息[30]。開放研究方向:開發自動化驗證工具,并將LLMs與結構化數據庫集成,以提高事實準確性。B. 跨領域泛化LLMs往往難以將推理能力泛化到不同領域,限制了它們在新場景中的適應性[49]。領域特定過擬合:在特定推理數據集上進行微調可能會提升目標任務的性能,但卻妨礙了模型在未見領域中的適應性[32]。跨領域遷移學習:當前的遷移學習方法在保持推理一致性方面存在局限性,尤其在不同語境下[19]。開放研究方向:研究元學習和持續學習策略以促進跨領域泛化。C. 對抗性攻擊的魯棒性LLMs容易受到對抗性擾動的影響,這些擾動利用推理中的弱點,導致錯誤或誤導性的輸出[44]。對輸入變化的敏感性:在提示詞中做出微小修改可能會導致推理輸出發生顯著變化,影響模型的可靠性。對抗性魯棒性測試:現有的基準測試并未充分評估LLMs在對抗性推理挑戰中的表現[27]。開放研究方向:開發穩健的對抗性訓練技術,提高模型對輸入操控的抗性。D. 結合符號推理與神經推理LLMs依賴于統計模式識別,而非形式化的邏輯推理,這導致它們在復雜推理任務中出現錯誤[16]。純神經網絡方法的局限性:LLMs在結構化邏輯、形式證明和抽象符號推理方面表現較差[40]。神經符號人工智能:將神經網絡與符號推理框架結合,可以增強邏輯一致性和可解釋性[16]。開放研究方向:推進混合神經符號架構,以增強推理的人工智能模型。

VIII. 結論推動大規模語言模型(LLMs)中的推理能力發展是人工智能發展的一個關鍵里程碑。盡管在提示技術、架構創新和基于學習的方法上有所進步,但在邏輯一致性、泛化能力、魯棒性和可解釋性等方面仍然存在挑戰。本文綜述了增強LLM推理能力的關鍵方法,將其分類為提示技術、架構創新和基于學習的策略。

付費5元查看完整內容

相關內容

摘要實現人類水平智能需要優化從快速、直覺的系統1到更慢速、更審慎的系統2推理的過渡。系統1擅長快速、啟發式決策,而系統2則依賴邏輯推理以實現更準確的判斷并減少偏見。基礎大語言模型(LLMs)在快速決策方面表現出色,但由于尚未完全具備真正的系統2思維所特有的逐步分析能力,其在復雜推理方面仍顯不足。最近,諸如OpenAI的o1/o3和DeepSeek的R1等推理大語言模型在數學和編程等領域展現了專家級的表現,高度模擬了系統2的審慎推理,并展示了類人的認知能力。本文首先簡要回顧了基礎大語言模型的進展以及系統2技術的早期發展,探討了它們的結合如何為推理大語言模型鋪平道路。接著,我們討論了如何構建推理大語言模型,分析了其特點、實現高級推理的核心方法以及各類推理大語言模型的演變。此外,我們還概述了推理基準測試,并對代表性推理大語言模型的性能進行了深入比較。最后,我們探討了推動推理大語言模型發展的潛在方向,并維護了一個實時GitHub倉庫以跟蹤最新進展。我們希望本文能為這一快速發展的領域提供有價值的參考,激發創新并推動進步。

//arxiv.org/abs/2502.17419 關鍵詞:慢思考、大語言模型、類人推理、人工智能決策、通用人工智能 1 引言

“不要教授,激勵。” —Hyung Won Chung, OpenAI 實現人類級別的智能需要精煉從系統1到系統2推理的過渡[1]–[5]。雙系統理論表明,人類認知通過兩種模式運作:系統1,它快速、自動、直覺,能夠以最小的努力做出快速決策;系統2,它較慢、更具分析性和深思熟慮[6],[7]。盡管系統1在處理常規任務時效率較高,但它容易受到認知偏差的影響,特別是在復雜或不確定的情境中,導致判斷錯誤。相比之下,系統2依賴于邏輯推理和系統化思維,能夠做出更加準確和理性的決策[8]–[11]。通過減輕系統1的偏差,系統2提供了一種更為精細的問題解決方法[12]–[15]。 基礎大語言模型(LLMs)的發展標志著人工智能(AI)領域的一個重大里程碑。像GPT-4o[16]和DeepSeekv3[17]等模型,在文本生成、語言翻譯和各種感知任務方面展示了令人印象深刻的能力[18]–[28]。這些模型經過廣泛數據集的訓練,并利用先進的算法,能夠理解并生成類人回應。然而,盡管這些基礎LLM取得了令人矚目的成就,它們的運作方式類似于系統1推理,依賴于快速、啟發式的決策過程。雖然它們在提供快速回應時表現出色,但在需要深度邏輯分析和復雜推理任務中的精準度時往往表現不佳。這個局限性在涉及復雜問題解決、邏輯分析或微妙理解的情境中尤為明顯,因為這些模型尚未達到人類的認知能力。 相比之下,推理型LLM代表了語言模型演變的重要進展。像OpenAI的o1/o3[29],[30]和DeepSeek的R1[31]等模型,旨在模擬與系統2思維相關的較慢、更深思熟慮的推理過程。與基礎LLM不同,推理型LLM配備了逐步處理信息的機制,使其能夠做出更為準確和理性的決策。這種從快速直覺型處理到更有條理的推理驅動型模型的轉變,使推理型LLM能夠處理復雜任務,如高級數學[32]–[37]、邏輯推理[38]–[44]和多模態推理[45]–[47],并表現出類人級的認知能力。因此,推理型LLM被越來越多地認為能夠實現深度邏輯思維,處理那些曾被認為超出AI能力范圍的任務。推理型LLM的最新發展時間線如圖1所示。

1.1 綜述結構

本綜述提供了關于推理型LLM發展中的關鍵概念、方法和挑戰的全面概述。如圖2所示,本綜述結構如下:

  1. 第2節簡要回顧了基礎LLM的進展(第2.1節),以及系統2關鍵技術的早期發展,包括符號邏輯系統(第2.2節)、蒙特卡洛樹搜索(MCTS)(第2.3節)和強化學習(RL)(第2.4節),重點介紹了它們的結合如何為推理型LLM鋪平道路。
  2. 第3節介紹了推理型LLM,并概述了其構建過程。具體而言,第3.1節從輸出行為(第3.1.1節)和訓練動態(第3.1.2節)兩個角度呈現推理型LLM的特點,強調它們與基礎LLM的區別。第3.2節識別了實現高級推理能力所需的核心方法,重點介紹五個方面:結構搜索(第3.2.1節)、獎勵建模(第3.2.2節)、自我改進(第3.2.3節)、宏觀動作(第3.2.4節)和強化微調(第3.2.5節)。每個部分深入探討了這些方法的具體特點,并介紹了代表性推理型LLM。第3.3節追溯了推理型LLM的發展階段。
  3. 第4節評估了代表性的推理型LLM。具體而言,第4.1節回顧了當前主流推理基準,涵蓋了文本和多模態基準,涉及各種任務類型。第4.2節概述了當前的評估指標,第4.3節基于這些基準分析并比較了主流推理型LLM與基礎LLM的性能。
  4. 第5節強調了現有推理型LLM的局限性,并概述了這些模型的若干有前景的未來發展方向。
  5. 最后,在第6節中總結了本文,并提供了一個實時跟蹤GitHub倉庫,供用戶關注該領域的最新進展。我們希望本綜述能夠作為一個寶貴的資源,促進這一快速發展的領域的創新和進步。

1.2 綜述的貢獻

近年來,已經進行了一些特定技術方法的分析和復制[48]–[55],然而,缺乏系統的分析和組織。研究[56]僅專注于測試過程中慢思維的方法。與此同時,研究[57]–[59]主要集中在訓練或實現推理型LLM,通常從強化學習的角度進行探討。 我們的綜述與現有文獻的不同之處及貢獻在于:

  1. 我們沒有專注于單一技術方法,而是提供了推理型LLM的關鍵概念、方法和挑戰的全面概述。
  2. 我們總結了早期系統2的關鍵進展,并闡述了它們如何與基礎LLM結合,為推理型LLM鋪路——這是之前文獻中常被忽視的關鍵方面。
  3. 我們提供了更為徹底和全面的核心方法總結,這些方法對于構建推理型LLM至關重要,包括但不限于強化學習(RL)。

2. 推理大語言模型的基礎在本節中,我們簡要回顧了基礎大語言模型的進展和關鍵系統2技術的早期發展,強調了這些技術與基礎大語言模型的結合如何為推理大語言模型鋪平了道路。這些技術包括符號邏輯系統、蒙特卡洛樹搜索(MCTS)和強化學習(RL)。2.1 基礎大語言模型基礎大語言模型的發展在2018-2019年取得了顯著進展,特別是BERT和GPT的引入。這些模型利用大規模文本語料庫進行無監督預訓練,然后針對特定任務進行微調。這種方法使它們能夠在專門化任務(如情感分析、實體識別和問答)之前發展出廣泛的語言理解能力。BERT的雙向上下文處理改進了單詞理解,而GPT的單向設計在文本生成方面表現出色。2019年發布的GPT-2擁有15億參數,標志著生成性能的重大飛躍,盡管它也引發了倫理問題。GPT-3擁有1750億參數,進一步展示了無監督預訓練的強大能力,在少樣本學習中表現出色,并在廣泛的自然語言處理任務中表現良好。隨后幾年,多模態模型如CLIP和DALL-E出現,集成了文本和視覺輸入。這些模型實現了從文本生成圖像等新任務,并增強了人機交互。到2023-2024年,諸如GPT-4、LLaMA和LLaVA等模型展示了在推理、上下文理解和多模態推理方面的先進能力,能夠處理文本和圖像。基礎大語言模型的演變徹底改變了人工智能,使語言理解、問題解決和人機協作的應用更加復雜。2.2 符號邏輯系統符號邏輯系統標志著人工智能的最早階段,利用規則和邏輯原則來表示知識和得出結論。它們在結構化領域中特別有效,其中形式邏輯確保了精確性。Prolog是一種基于一階邏輯的邏輯編程語言,允許用戶定義事實、規則并通過查詢進行推理。它在符號推理系統中發揮了關鍵作用,特別是在自然語言處理和專家系統中。基于邏輯的系統如Prolog使用命題和謂詞邏輯進行形式推理。從20世紀60年代到80年代初,這種方法主導了人工智能,如IBM的LISP用于符號計算和Resolution Theorem Provers用于自動推理。20世紀70年代,Marvin Minsky引入了Frames,將知識組織成結構化框架,影響了專家系統和認知科學。2.3 蒙特卡洛樹搜索蒙特卡洛樹搜索(MCTS)是一種基于模擬的搜索算法,用于決策和規劃。它通過四個步驟構建搜索樹:選擇、擴展、模擬和回傳。MCTS在圍棋等棋盤游戲的策略優化和機器人路徑規劃中得到了廣泛應用。2.4 強化學習強化學習(RL)是一種機器學習類型,其中代理通過與環境交互并接收反饋來學習決策,旨在最大化累積獎勵。早期的RL突破,如Q學習和DQN,通過使用深度神經網絡處理復雜狀態空間,徹底改變了這一領域。這些方法為RL擴展到現實世界任務鋪平了道路,其中傳統的表格方法無法勝任。深度RL的出現標志著重要的一步,結合了深度學習和RL的強大能力,處理高維輸入,如圖像和非結構化數據。

3. 推理大語言模型的構建

在本節中,我們首先從輸出行為和訓練動態兩個角度分析了推理大語言模型的特征。然后,我們詳細介紹了實現其高級推理能力的核心方法。最后,我們總結了推理大語言模型的演變。3.1 推理大語言模型的特征分析3.1.1 輸出行為視角探索與規劃結構:最近的實證研究表明,推理大語言模型在其輸出結構中表現出強烈的探索行為,特別是在與WizardMath和DeepSeekMath等主要依賴傳統鏈式思維(CoT)推理方法的模型相比時。這種探索行為體現在新假設的制定和替代解決路徑的追求上。驗證與檢查結構:對OpenAI的o1和o3模型的分析表明,它們的推理框架結合了長期戰略規劃的宏觀行動和包括“等待”、“暫停”、“替代”和“讓我們暫停”等微觀行動。這些微觀行動促進了細致的驗證和迭代檢查過程,確保任務執行的精確性。更長的推理長度與時間:最近的研究表明,推理大語言模型通常生成超過2000個標記的輸出以解決復雜的編程和數學問題。然而,這種延長的輸出長度有時會導致過度思考,模型在問題上花費過多時間而不一定能改進解決方案。3.1.2 訓練動態視角驚人的數據效率:與專注于擴展指令集的傳統方法不同,研究表明,構建專注于困難樣本的慢思維鏈式思維(Slow-thinking CoT)數據集在醫學和數學等領域具有更好的泛化能力。稀疏訓練方法:與傳統觀點相反,開發有效的推理大語言模型并不需要大量的數據集或密集的獎勵信號。例如,STILL2僅使用5000個蒸餾樣本就展示了令人印象深刻的性能,而Sky-T1僅使用17000個長鏈式思維樣本就實現了與QwQ相當的性能。參數特征:通過長鏈式思維方法訓練的大語言模型在不同層中表現出相對均勻的梯度范數。相比之下,快速思維(如簡化的鏈式思維方法)在早期層中產生較大的梯度幅度,并且在不同層中的梯度范數存在顯著差異。  3.2 核心方法在本節中,我們概述了推動推理大語言模型高級推理能力的核心方法,包括結構搜索、獎勵建模、自我改進、宏觀行動和強化微調。我們還為每種方法介紹了代表性的推理大語言模型。3.2.1 結構搜索推理大語言模型旨在通過模仿人類推理的深思熟慮和系統性來實現高精度和深度。然而,盡管最近取得了進展,當前的基礎大語言模型在解決復雜推理任務時仍面臨固有的局限性。這些局限性源于它們缺乏模擬環境狀態的內部世界模型,無法預測推理路徑的長期結果,以及無法根據未來狀態或獎勵迭代改進推理步驟。蒙特卡洛樹搜索(MCTS)通過提供一個結構化框架來系統地探索和評估推理路徑,有效地解決了這些挑戰。它通過構建一個推理樹來操作,其中每個節點代表一個推理狀態,行動通過考慮潛在的下一步來擴展樹。通過模擬未來狀態和迭代回傳估計的獎勵,MCTS使基礎大語言模型能夠高效地識別高獎勵的推理路徑,模仿人類的規劃過程。3.2.2 獎勵建模兩種主要的訓練范式用于解決多步推理任務:結果監督和過程監督。結果監督強調最終答案的正確性,生成的模型稱為結果獎勵模型(ORM)。相比之下,過程監督為解決方案軌跡提供逐步標簽,評估每個推理步驟的質量。生成的模型稱為過程獎勵模型(PRM)。PRM在復雜推理任務中具有顯著優勢。首先,它提供了細粒度的逐步監督,允許識別解決方案路徑中的特定錯誤。其次,PRM密切模仿人類推理行為,依賴于準確的中間步驟來得出正確結論。與ORM不同,PRM避免了錯誤推理仍能導致正確最終答案的情況,從而確保更穩健和可解釋的推理。3.2.3 自我改進推理大語言模型展示了從弱監督到強監督的進步,而傳統的鏈式思維微調在擴展方面面臨挑戰。自我改進利用模型的探索能力進行自我監督,逐步提高大語言模型在翻譯、數學推理和多模態感知等任務中的性能。3.2.4 宏觀行動最近在大語言模型中的進展推動了通過復雜思維架構模仿人類系統2認知過程的進步,通常稱為宏觀行動框架。這些結構化推理系統超越了傳統的標記級自回歸生成,引入了分層的認知階段,如戰略規劃、內省驗證和迭代改進。3.2.5 強化微調強化微調(RFT)是OpenAI最近引入的一項創新技術,旨在使開發人員和工程師能夠針對特定領域或復雜任務微調現有模型。與一般的監督微調(SFT)不同,RFT專注于通過使用獎勵機制來優化模型的推理過程,從而提高其推理能力和準確性。3.3 推理大語言模型的演變推理大語言模型的演變經歷了幾個不同的階段,各種策略被開發出來以克服直接自回歸推理的局限性,并構建更先進的慢思維推理架構。在早期階段,推理大語言模型主要專注于通過外部推理算法增強預訓練的大語言模型,而不改變底層模型參數。諸如Tree of Thoughts和Reasoning via Planning等方法利用大語言模型驅動的廣度優先搜索、深度優先搜索和蒙特卡洛樹搜索(MCTS)來模擬人類推理過程。然而,這些外部化的慢推理方法引入了幾個挑戰:有限的探索空間:基于搜索的方法需要對搜索空間的廣度、深度和粒度進行預定義約束,這通常限制了大語言模型的探索范圍。有限的經驗共享:不同路徑的探索經驗和推理信息只能基于獎勵模型或結果之間的一致性進行評估。為了克服這些限制,隨后的模型如rStar、LLaMAV-ol、HiICL-MCTS、Mulberry、g1和Thinking-Claude引入了更豐富的行動空間。這些增強的行動空間提供了高級規劃線索,擴大了模型的探索范圍,并實現了更全面的結構化搜索過程。

4. 推理大語言模型的基準測試

開發一個強大的基準對于記錄推理大語言模型能力的進展并確定未來進展的有前景的研究方向至關重要。在這里,我們從類別、評估指標和性能比較三個方面回顧了基準,同時提供了我們的反思和見解。4.1 基準類別我們按任務類型對推理基準進行分類,可以大致分為數學、代碼、科學、代理、醫學和多模態推理。這些基準的詳細統計數據如表VI所示。4.1.1 基準介紹數學問題:我們記錄了當前流行的競賽級數學基準,以展示推理大語言模型的能力,包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench。代碼問題:代碼問題需要扎實的基礎和高邏輯思維來評估推理大語言模型的推理能力,如Codeforces、SWEbench和LiveCodeBench。科學問題:科學基準,如GPQA Diamond和MMLU-Pro,涉及化學、生物學和物理學的多領域推理,需要廣泛的知識積累和綜合推理。代理推理:現實任務通常涉及復雜的規劃和工具使用,導致了代理推理基準的創建,如WebShop和WebArena。醫學推理:醫學本質上涉及復雜的推理,涵蓋從診斷決策到治療計劃的任務。JAMA Clinical Challenge、Medbullets和MedQA等基準提供了模仿醫生疾病診斷的模型測量。多模態推理:多模態推理,如MMMU和MathVista基準,需要結合文本和圖像的跨模態思維。4.1.2 總結大語言模型領域近年來發展迅速,基準性能不斷提高。簡單的推理基準,如GSM8K、MATH-500和ScienceQA,已經接近性能飽和。最近對推理大語言模型的研究表明,為長推理鏈設計的模型在這些基準上并不顯著優于為短鏈設計的模型。這突顯了建立新基準的迫切需要,以更有效地評估推理大語言模型的推理能力。此外,當前的基準主要集中在硬推理任務上。軟推理基準缺乏明確定義的正確答案,提供了更細致的評估,更好地捕捉了類人推理的復雜性和微妙性。4.2 評估指標根據任務類型、技術方案和推理范式,引入了各種評估指標來衡量推理大語言模型在處理復雜推理任務中的表現,確保生成解決方案的質量和連貫性得到有效衡量。

4.2.1

任務類型在基準類別方面,數學推理通常使用兩個主要指標:Pass@k和Cons@k。Pass@k指標評估模型在k次嘗試內生成正確解決方案的能力,衡量在有限嘗試次數內成功的可能性。另一方面,Cons@k評估模型是否一致地生成正確或邏輯連貫的解決方案,突出其推理能力的穩定性和可靠性。對于代碼任務,關鍵指標是Elo和Percentile,兩者都衡量生成正確代碼的相對技能。在科學任務中,評估通常使用Exact Match(EM)和Accuracy來評估填空題和選擇題。

4.2.2 技術方案基于技術路線,使用ORM或PRM的方案通常利用RM@k和Best-of-N兩個評估指標。RM@k衡量獎勵模型是否能夠根據獎勵分數在k個候選答案中將好的答案排名更高,Best-of-N從N個生成的推理軌跡中選擇得分最高的解決方案。自我一致性方法使用Greedy Decoding、Beam Search和Major@k進行評估。4.2.3 推理范式對于推理大語言模型中的多輪解決方案生成,最近提出了Outcome Efficiency和Process Efficiency來評估長思維的具體效率。Outcome Efficiency指標經驗性地評估后續解決方案對準確性改進的貢獻,Process Efficiency指標經驗性地評估后續解決方案對解決方案多樣性的貢獻。4.2.4 總結大多數現有的評估指標都是根據最終答案來判斷的。鑒于大推理計算消耗,開發一個綜合考慮推理過程各個方面的全面評估框架勢在必行。當前流行的評估框架,如LMMs-Eval、OpenCompass和PRMBench,缺乏效率,其指標未能充分考慮到推理過程的計算和時間效率。為了解決這些不足,我們強烈建議探索更高效的代理任務作為潛在解決方案。4.3 性能比較在本節中,我們比較了不同推理大語言模型及其對應基礎大語言模型在純文本基準(如數學和代碼問題)以及多模態基準上的性能。4.3.1 純文本基準上的性能如表VII所示,推理大語言模型如DeepSeek-R1和OpenAI的o1/o3在廣泛的數學、編碼和其他一般任務中表現出色。這些模型在AIME 2024、MATH-500和LiveCodeBench等多個純文本基準上取得了高分,展示了其強大的文本推理能力。相比之下,基礎大語言模型如GPT-4o、Claude-3.5-Sonnet和DeepSeek-V3在數學和編碼任務(如AIME 2024和Codeforces)中表現較差。4.3.2 多模態基準上的性能如表VIII所示,推理大語言模型在多模態任務中繼續表現出色。OpenAI的o1在視覺任務中表現強勁,在MMMU上取得了77.3%的最高分,并在MathVista上比其對應的基礎大語言模型GPT-4o高出7.2%。然而,與純文本任務相比,多模態任務的性能提升不那么顯著。4.3.3 總結總的來說,推理大語言模型在純文本和多模態基準上都表現出色,特別是在數學和編碼任務中,它們大幅超越了基礎大語言模型。盡管多模態任務的改進不如純文本任務顯著,但推理大語言模型仍然超越了其對應模型,突顯了其在處理圖像和文本數據方面的潛力。這些結果強調了推理大語言模型在廣泛推理任務中的多功能性和有效性,具有在多模態推理技術方面進一步發展的潛力。5. 挑戰與未來方向盡管推理大語言模型取得了快速進展,但仍存在一些挑戰,限制了它們的通用性和實際應用。本節概述了這些挑戰,并強調了解決這些挑戰的潛在研究方向。5.1 高效的推理大語言模型雖然推理大語言模型通過擴展推理在解決復雜問題方面表現出色,但它們在大規模架構中依賴長自回歸推理帶來了顯著的效率挑戰。例如,Codeforces等平臺上的許多問題需要超過10000個標記的推理,導致高延遲。正如[102]所指出的,即使推理大語言模型早期識別出正確的解決方案,它通常也會花費大量時間驗證其推理。未來的研究應集中在兩個關鍵領域:(1)整合外部推理工具以實現早期停止和驗證機制,從而提高長推理鏈的效率;(2)探索在不犧牲性能的情況下在小型大語言模型(SLMs)中實現慢思維推理能力的策略。5.2 協同慢思維與快思維系統推理型LLM面臨的一大挑戰是失去快速思維能力,這導致在簡單任務中需要不必要的深度推理,造成效率低下。與人類能夠流暢地在快思維(系統1)和慢思維(系統2)之間切換不同,當前的推理型LLM在保持這種平衡方面存在困難。雖然推理型LLM確保了深思熟慮和全面的推理,但快思維系統依賴于先前的知識以提供快速回應。盡管有如系統1-2切換器[95]、推測解碼[258]–[260]和互動持續學習[261]等努力,整合兩種思維模式仍然是一個挑戰。這通常導致在領域特定任務中的低效以及在更復雜情境下未能充分利用系統的優勢。未來的研究應聚焦于開發自適應切換機制、聯合訓練框架和共進化策略,以調和快思維系統的效率與推理型LLM的精確度。實現這種平衡對于推動這一領域的發展并創建更加多功能的AI系統至關重要。5.3 推理型LLM在科學中的應用推理型LLM在科學研究中扮演著至關重要的角色[262],它們能夠進行深度、結構化的分析,超越了基于啟發式的快思維模型。它們的價值在需要復雜推理的領域,尤其是在醫學和數學領域中尤為明顯。在醫學中,特別是在鑒別診斷和治療規劃方面,推理型LLM(例如推理時間縮放)增強了AI的逐步推理能力,提高了診斷準確性,而傳統的縮放方法往往力不從心[52]。在數學中,像FunSearch[263]這樣的方式結合了慢思維原則,推動了超越以往發現的進展,展示了AI與人類協作的潛力。在這些領域之外,推理型LLM還能夠通過改進模型構建和假設檢驗,推動物理學、工程學和計算生物學的進步。投資推理型LLM的研究不僅架起了AI的計算能力與類人分析深度之間的橋梁,還為更可靠、可解釋且突破性的科學發現鋪平了道路。5.4 神經與符號系統的深度融合盡管推理型LLM取得了顯著進展,但它們的透明度和可解釋性的限制仍然制約了它們在更復雜現實世界推理任務中的表現。對大規模數據模式的依賴和缺乏清晰的推理路徑,使得處理復雜或模糊問題變得具有挑戰性。早期的符號邏輯系統,盡管適應性較差,但提供了更好的可解釋性和更清晰的推理步驟,在這類問題中表現得更可靠。未來一個有前景的方向是神經與符號系統的深度融合。谷歌的AlphaGeometry[264]和AlphaGeometry2[265]將推理型LLM與符號引擎相結合,在國際數學奧林匹克(IMO)中取得了突破性進展。特別是,AlphaGeometry2利用基于Gemini的模型[249],[266],[267]和更高效的符號引擎,通過減少規則集并改進關鍵概念處理,提升了性能。該系統現在覆蓋了更廣泛的幾何概念,包括軌跡定理和線性方程。新的搜索算法和知識共享機制加速了這一過程。該系統解決了84%的IMO幾何問題(2000-2024),超過了金牌得主的平均成績。相比之下,像OpenAI-o1[29]這樣的推理型LLM未能解決任何問題。神經與符號系統的融合提供了一種平衡的方法,提高了適應性和可解釋性,對于超越數學幾何問題的復雜現實世界推理任務具有巨大潛力。5.5 多語言推理型LLM當前的推理型LLM在英語和中文等高資源語言中表現良好,展示了在翻譯和各種推理任務中的強大能力[93],[101]。這些模型在大規模數據和多樣語言資源可用的環境中表現突出。然而,它們在低資源語言中的表現仍然有限[268],面臨數據稀缺、穩定性、安全性和整體性能等挑戰。這些問題阻礙了推理型LLM在缺乏大量語言數據集和資源的語言中的有效性。未來的研究應優先解決低資源語言中數據稀缺和文化偏見帶來的挑戰。創新方法如跨推理型LLM的參數共享和領域特定知識的增量注入,可能有助于緩解這些挑戰,從而加速慢思維能力在更廣泛語言中的適應。這不僅能夠提升推理型LLM在這些語言中的效果,還能夠確保更公平地訪問先進的AI技術。5.6 多模態推理型LLM將慢思維推理能力從基于文本的領域擴展到多模態上下文仍然是一個重大挑戰,特別是在需要精細感知的任務中[96]。雖然像Virgo[269]這樣的方式已經嘗試將基于文本的慢思維推理轉化為多模態LLM,但它們在需要詳細視覺理解的任務,如MathVision[241]中的表現提升有限。關鍵的研究方向包括開發層次化推理型LLM,以實現精細的跨模態理解和生成,針對音頻、視頻和3D數據等模態的獨特特性進行定制。5.7 安全推理型LLM推理型LLM如OpenAI-o1[29]和DeepSeek-R1[31]的快速發展導致了超智能模型的崛起,這些模型能夠進行持續的自我進化。然而,這一進展也帶來了安全性和控制方面的挑戰。強化學習(RL)作為一種關鍵訓練方法,引入了如獎勵黑客、泛化失敗和語言混合等風險,這可能導致有害的結果。確保這些系統(如DeepSeek-R1)的安全性變得迫在眉睫。雖然強化學習增強了推理能力,但其不可控的性質引發了如何安全引導這些模型的擔憂。SFT在一定程度上解決了一些問題,但并不是完整的解決方案。需要結合RL和SFT的混合方法,以減少有害輸出,同時保持模型的有效性[270]。隨著這些模型超越人類認知能力,確保它們的安全、負責任和透明使用變得至關重要。這需要持續的研究,開發控制和引導它們行為的方法,從而在AI能力與倫理決策之間找到平衡。6 結論本文提供了推理型LLM研究的全面綜述。我們首先回顧了基礎LLM的進展以及系統2關鍵技術的早期發展,包括符號邏輯、蒙特卡洛樹搜索(MCTS)和強化學習(RL),探討了這些技術如何與基礎LLM結合,為推理型LLM鋪平道路。然后,我們詳細分析了最新推理型LLM的特征,考察了使其具備高級推理能力的核心方法,并突出介紹了代表性模型。通過對主流推理基準和性能比較的回顧,我們為該領域的現狀提供了有價值的見解。展望未來,我們識別了有前景的研究方向,并通過我們的實時GitHub倉庫持續跟蹤最新進展。本綜述旨在激發創新,并推動推理型LLM這一快速發展的領域的進步。

付費5元查看完整內容

大規模語言模型的規劃能力

近年來,大規模語言模型(LLMs)的規劃能力受到了越來越多的關注,原因在于它們在多步驟推理方面的顯著能力,以及在多個領域中廣泛的泛化能力。盡管一些研究人員強調LLMs在執行復雜規劃任務方面的潛力,另一些人則指出它們在處理長時間跨度推理的復雜性時存在顯著的局限性。本調查深入研究了現有的LLMs在自動規劃中的應用,詳細分析了它們的成功和不足之處。我們展示了,盡管LLMs因其局限性不適合單獨作為規劃器,但當與其他方法結合時,它們仍然為增強規劃應用提供了巨大的機會。因此,我們提倡一種平衡的方法,結合LLMs固有的靈活性和廣泛知識,以及傳統規劃方法的嚴謹性和成本效益。 規劃是指制定一系列行動以實現特定目標的過程,是智能行為的基石。這一認知能力使得無論是人類還是人工智能體,都能夠在復雜的環境中導航,適應變化的情境,并預測未來事件。意識到這一技能對智能行為的重要性,自動化規劃自人工智能領域誕生以來便成為一項基礎任務,發揮著重要作用,幫助系統推理可能的行動路徑、優化決策過程,并在廣泛的應用場景中高效地實現期望的結果。 在這一背景下,大規模語言模型(LLMs)在規劃中的作用近年來受到了越來越多的關注,盡管它們的局限性仍然是一個重要的討論話題。[Wei et al., 2022a] 提出的“涌現”能力最初激發了人們對LLMs作為獨立規劃器潛力的熱情,一些方法展現出了令人印象深刻的規劃能力[Yao et al., 2023a; Hao et al., 2023]。然而,隨后的研究對這些聲明進行了審視,揭示了其中的主要不足之處[Stechly et al., 2024a; Verma et al., 2024]。特別地,盡管LLM代理在短時間跨度的高層次規劃中顯示出一定的前景,但在長時間跨度的場景中,它們往往無法產生正確的規劃,其性能可能顯著下降[Chen et al., 2024a; Aghzal et al., 2024b],使得它們在實際應用中變得不切實際和不可靠。此外,即便在成功的情況下,它們生成的規劃成本也可能非常糟糕,而這一局限性往往被忽視,尤其是在文獻中提出LLMs用于規劃相關任務時。 盡管存在這些局限性,LLMs通過大規模預訓練所蘊含的一般領域知識為增強傳統規劃系統的靈活性提供了寶貴的機會。例如,它們從自然語言中提取和解釋相關上下文信息的能力,使得這些模型能夠作為接口,將文本轉化為結構化的形式化表示,進而與符號規劃器無縫集成[Chen et al., 2024b; Zhang et al., 2024]。此外,LLMs還有潛力為規劃系統提供常識推理,彌合傳統規劃器在某些領域知識上的空白,而不需要大量的手動工程工作[Zhang et al., 2023]。進一步地,作為基于大量人類生成數據訓練的模型,LLMs能夠隱式編碼人類的風格化和定性偏好。因此,LLMs也能作為評估器,基于定性和風格化標準評估規劃,這些標準通常難以明確表達[Guan et al., 2024]。 在本研究中,我們對LLMs在自動規劃中的整合進行文獻綜述,重點討論長時間跨度的高層次規劃應用。雖然我們的工作主要集中在LLMs上,但我們調查的研究及其論點也適用于增強了視覺編碼器的LLMs,即視覺語言模型(VLMs)。我們比較了使用LLMs作為規劃器和將LLMs整合到傳統規劃框架中的研究現狀,并認為后者提供了更為靈活和有前景的解決方案。盡管以往的綜述已探討了這一主題,但它們要么關注的是更廣泛的LLM自動化代理[Huang et al., 2024b; Wang et al., 2024a],要么缺乏對LLMs在規劃中多種應用及其局限性的系統性和深入討論[Li et al., 2024b]。通過將討論范圍聚焦于長時間跨度規劃,本綜述提供了對LLMs在規劃中的應用、未來研究潛力以及可能的陷阱的更深入探討。

付費5元查看完整內容

隨著像 OpenAI O3 和 DeepSeek-R1 等先進推理模型的出現,大語言模型(LLMs)展現出了卓越的推理能力。然而,它們在執行嚴格邏輯推理方面的能力仍然是一個懸而未決的問題。本文綜述了大語言模型中邏輯推理的最新進展,這是人工智能研究中的一個關鍵領域。文章概述了大語言模型中邏輯推理的范圍、理論基礎以及用于評估推理能力的基準測試。我們分析了不同推理范式下現有的能力——演繹推理、歸納推理、溯因推理和類比推理——并評估了提升推理性能的策略,包括以數據為中心的調優、強化學習、解碼策略和神經符號方法。最后,本文展望了未來的研究方向,強調了進一步探索以增強人工智能系統邏輯推理能力的必要性。

付費5元查看完整內容

語言長期以來被認為是人類推理的基本工具。大型語言模型(LLM)的突破激發了大量研究興趣,推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程,如樹搜索和反思性思維。近年來,學習推理的趨勢逐漸興起,強化學習(RL)被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡,大大擴展了LLMs的推理能力,通過提供大量的訓練數據。此外,近期研究表明,鼓勵LLMs在推理過程中使用更多標記(即“思考”)進行測試時推理,能夠顯著提升推理準確性。因此,訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中,我們對LLM推理的最新進展進行了全面回顧。首先,我們介紹LLM的基礎背景,然后探討推動大型推理模型發展的關鍵技術組成部分,重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目,致力于構建大型推理模型,并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失,思維也將會嚴重缺失。” — 諾姆·喬姆斯基 得益于深度學習的進展和大規模數據集的可用性,大型語言模型(LLMs)已成為邁向人工通用智能(AGI)的轉型性范式。這些龐大的AI模型通常采用Transformer架構,并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明,隨著模型規模和訓練數據的增加,它們的性能顯著提升 [59]。更重要的是,LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159],例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題,能夠處理更廣泛的任務,如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中,人類般的推理能力受到了學術界和工業界的廣泛關注,因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160],該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理,而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性,并推動了“樹狀思維” [172] 等更高級提示技術的發展。 這些方法引入了“思維”這一概念,將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟,LLMs的推理超越了簡單的自回歸標記生成,能夠實現更復雜的認知架構,如樹搜索 [172] 和反思性推理 [180]。

近年來,學習推理成為一個重要的研究趨勢 [103],其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂,特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題,近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題,借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是,研究人員提出了在這些推理軌跡上訓練過程獎勵模型(PRMs) [183]。PRMs可以提供密集的逐步獎勵,促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴,并創造了一個“強化循環”,有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展,正如理查德·薩頓所預測的那樣 [139]。因此,這一新興范式通過增加訓練時的計算資源,實現了LLM推理能力的擴展,為更高級的推理模型鋪平了道路。

此外,近期的研究表明,增加測試時計算資源也可以提高LLM的推理準確性。具體而言,PRMs可以引導LLMs評估并搜索中間“思維”過程 [134],鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟,從而提升推理準確性。這一方法促成了測試時擴展法則,該法則預測,在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此,基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合,展示了一個有前景的研究方向,旨在充分釋放LLMs的推理能力,即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑,展示了該方法的有效性,并呼應了OpenAI在邁向AGI的五步路線圖中,從對話AI(一級)到更強大推理AI(二級)的過渡愿景 [36]。一些開源項目,如OpenR [145]、LLaMABerry [185] 和Journey Learning [110],致力于復現OpenAI的o1強大推理能力,為大型推理模型的開發提供了寶貴的見解。

在本綜述中,我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言,第三節聚焦于訓練數據構建,強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法,重點討論訓練時計算資源的增加;第五節則討論了測試時擴展,特別是基于PRM引導的搜索。在第六節中,我們分析了OpenAI的o1系列及其他開源項目,探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術,第八節回顧了推理基準測試。最后,我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段,有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前,我們首先概述一般LLM預訓練的基本過程。通過預訓練,LLMs不僅獲得了核心的語言知識,還掌握了多樣化的世界知識,為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常,LLM預訓練依賴于高質量的文本語料庫,包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫,LLMs基于Transformer架構,通過下一個詞預測任務進行訓練。預訓練后,LLMs通常表現出卓越的上下文學習能力,能夠生成連貫的文本,并利用其龐大的知識庫回答各種問題。值得注意的是,預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如,研究表明,富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察,新開發的LLMs開始引入精心設計的合成數據,以增強LLMs的推理能力。在預訓練過程中,一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例,以保持強大的語言能力,同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力,但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里,我們首先概述基本的微調過程,然后探討其在增強推理能力方面的潛力。如文獻[104]所述,預訓練階段結束后,LLMs進入監督微調階段(SFT),也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格,確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的,這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現,新的方法涌現出來,用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術,以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集,微調過程繼續使用下一個詞預測目標,類似于預訓練。然而,與預訓練不同的是,微調特別計算答案的損失,而通常忽略問題的損失。此外,結合包含思維鏈(CoT)推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力,這使其成為一個活躍的研究領域。遵循一般實踐,大多數當前方法利用從高級大型推理模型中提取的數據進行微調,以增強LLMs的推理能力,從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練,這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中,對齊階段通常涉及使用人類反饋的強化學習(RLHF)等方法,以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比,這一階段通常包含大量精心策劃的人工標注的排名數據,以準確反映人類偏好。這些數據不僅包括正確的示范,還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型,這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本,提出了直接偏好優化(DPO)等方法,以減少對顯式獎勵模型的依賴。在DPO中,偏好損失被定義為策略的函數,以直接指導模型優化。鑒于推理問題的多步驟性和復雜性,基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型,基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠,但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法:逐步推理、多路徑探索和基于分解的方法。 逐步推理方法以思維鏈提示為例,展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示,如“讓我們一步一步地思考”,也能有效地引導推理過程。這種方法通過自我一致性(Self-Consistency)進一步改進,生成多個推理路徑以得出更可靠的結論,以及自動生成有效推理鏈的Auto-CoT。 多路徑探索方法超越了線性推理,同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構,從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構,允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起,豐富了這一范式,從而能夠更動態地與外部環境互動。 對于復雜問題,基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件,而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。 這些廣泛的推理能力通過結構化提示策略得到增強,在處理需要仔細分析和系統思考的任務時特別有效,使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明,盡管LLMs具備固有的推理能力,但通過提示過程中的仔細引導和結構,可以充分釋放其潛力。 2.5 代理工作流 在LLMs的指令遵循和上下文學習能力之上,研究人員開始設計代理工作流,以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力,但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力,使LLMs能夠高效地推廣到未見問題,而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題,但最近的研究表明,上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景,例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明,有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建:從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而,由于成本高昂,這一任務面臨重大挑戰。如圖1所示,人工標注被廣泛認為是高質量的,但其成本高昂且難以擴展。相反,使用LLMs自動化標注過程提供了一種更具成本效益的替代方案,但面臨驗證有限的挑戰,特別是對于逐步推理過程。在本節中,我們回顧了該領域的最新研究進展(總結在表1中),強調了從人工標注到LLM自動化的轉變。 3.1 人工標注 人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征,同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明,即使使用最少的人工標注數據,模型也能實現強大的性能,突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習(RLHF)的背景下,來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎,Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性,顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰(如復雜推理任務)之間的差距。 增強LLMs的推理能力需要過程監督,即人工標注者指導推理過程的每一步[75]。然而,這種監督需要大量的人工標注數據,使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據,其數量對模型性能至關重要,完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注,利用LLMs加速標注過程,同時保持人工生成標注的高質量。具體來說,標注過程可以分為兩個階段:預標注階段和精煉階段。在預標注階段,LLMs可以用于執行初始標注,利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段,人工標注者可以評估LLM生成標注的質量,并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程,最近的工作越來越關注如何在確保數據質量的同時最大化自動化,從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務,特別是在需要復雜操作(如過濾、識別、組織和重構文本數據)的場景中。這些任務通常繁瑣、耗時,并且需要大量的人力,使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰,利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記,LLMs可以輕松處理長文本和大規模結構化數據[2],以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景,同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務,LLMs顯著減少了對人力的依賴,簡化了標注過程,并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務,從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下,LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如,Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置,LLM能夠理解周圍上下文中的邏輯關系,生成相關問題,并確定適當的工具API來解決問題。當有人工示范時,LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務,人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明,即使是零樣本LLMs,在基于人工示范的任務無關提示下,也能有效地執行標注任務[65]。此外,對于涉及高度復雜和細微軌跡的任務,LLMs可以結合專門的代理,如計劃代理、工具代理和反思代理,以解決標注過程的不同方面,從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務,LLMs不僅推斷潛在邏輯結構,還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果,還捕捉導致這些結果的完整推理過程的標注數據集,為下游應用提供更豐富的見解。 除了基于人工示范的標注外,LLMs可以通過帶有反饋的搜索獨立增強其標注能力,這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式,作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據,LLMs參與了一個自我改進的循環,增強了其理解和推理能力[70]。此外,LLMs可以系統地分析其錯誤的原因,提取關鍵見解并將其編碼為自學習知識,以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對,從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制,LLMs不僅解決了錯誤,還開發了更強大的推理能力,使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注 在復雜的推理任務中,模型輸出的每一步都可能顯著影響最終結果,因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵,即過程標注。然而,手動標注這些步驟既昂貴又耗時。例如,Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集,即PRM800K,該數據集滿足了訓練有效過程獎勵模型(PRM)的要求,并大大增強了LLMs的推理能力。因此,自動化方法越來越需要高效的過程標注,以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外,基于蒙特卡羅的方法減少了對外部更強LLMs的依賴,可以使用較弱的LLMs完成數據標注,從而通過自我強化的方式訓練更強的LLMs。 使用更強的LLM進行標注:作為一種直接的自動化標注方法,Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注,而是使用預訓練的高性能模型(如GPT系列)來評估每個生成的步驟。通過利用更強外部模型的能力,這種方法提高了標注過程的準確性和可擴展性,使其更適合大規模任務。然而,這種方法的主要限制在于其對高度能力的外部模型的依賴,這意味著標注過程的性能最終受限于所使用的外部模型的能力。 通過蒙特卡羅模擬進行標注:為了減少對強大外部模型的依賴,Wang等人[148]和Wang等人[156]提出了一種改進方法,避免直接評分中間步驟。相反,他們的方法使用外部模型從給定的中間輸出繼續推理幾步,并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。 通過樹搜索模擬進行標注:使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率,Luo等人[85]提出了一種改進方法,用蒙特卡羅樹搜索(MCTS)策略取代重復的蒙特卡羅模擬。在這種改進方法中,使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比,MCTS利用樹搜索提高推理質量,同時允許葉節點共享高質量的父節點,減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能,超越了人工標注。 在基于MCTS的模擬基礎上更進一步,Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數(PRM),進而提高大型語言模型(LLM)的性能。精煉后的LLM隨后用于重復基于MCTS的模擬,生成更高質量的標注。這種涉及改進循環的迭代過程,通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色,包括數學問題解決、問答和多領域知識推理,展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理:從監督到強化微調

雖然預訓練模型在各種任務中表現出色,但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要,可以優化模型在特定任務上的表現并增強其推理能力。最初,使用監督微調(SFT),模型從標注數據集中學習任務特定的模式。然而,隨著推理挑戰的增加,強化學習(RL)和直接偏好優化(DPO)等方法提供了更有效的方法,使用獎勵模型更高效地將模型的輸出與類人推理對齊,促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM:監督微調 監督微調(SFT)是一種學習技術,它使用標注數據優化預訓練模型在特定任務或領域的能力,同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征,但微調通過將模型暴露于較小的、任務特定的數據集(具有清晰的輸入-輸出映射)來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟,通過將其從通用系統適應為領域特定工具,使其能夠應用于下游任務。例如,像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練,賦予它們廣泛的語言理解和生成能力。然而,它們的輸出并不總是與任務特定要求對齊。如果沒有微調,LLMs在某些推理任務上往往表現不佳,例如對象計數、衛星理解和工程問題回答。通過SFT,我們可以基于標注的任務特定數據集優化模型的輸出,從而部分解決這些挑戰。 然而,直接應用SFT可能無法充分探索模型在所需領域中的推理能力,特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程,通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT,LLMs被鼓勵顯式生成中間推理步驟,從而增強其推理能力,以應對需要更結構化和有組織思維的任務。例如,ReasonBert[29]表明,使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現,通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性,并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調,模型不僅提高了最終答案的準確性,還增強了其“思考”問題的能力,提供了對模型推理過程的更清晰見解。 盡管SFT方法多樣且表現優異,但它也存在一些局限性。首先,SFT嚴重依賴高質量的標注數據集,這些數據集的策劃成本高昂且耗時,特別是對于需要專家標注的利基領域或任務。其次,SFT可能導致災難性遺忘,即模型在微調過程中失去一些預訓練的通用知識,降低了其在微調領域之外的推理任務的實用性。最后,即使采用參數高效的方法,大規模模型的微調計算成本仍然很高,對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法,如提示調優或多任務微調,以平衡任務專業化和泛化。

4.2 優化預訓練LLM:強化學習 由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本,強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同,RL使模型能夠通過試錯獎勵信號學習,發現實現特定目標的最佳策略。如圖2(a)所示,模型根據其當前狀態采取行動,并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數,優化累積獎勵。 經典強化學習:RL已成為LLMs發展的關鍵步驟。在RL框架中,LLMs的參數根據其行動的獎勵進行更新。具體來說,價值函數或Q函數根據獎勵模型的反饋進行更新,將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架,使其在概念上更直接,同時增強了模型有效響應的能力。目前,兩種關鍵方法主導了LLMs的RL訓練:人類反饋強化學習(RLHF)和AI反饋強化學習(RLAIF)。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外,通過在人類標注的示范和排名比較上微調GPT-3,他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊,盡管規模較小,但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架,他們對基礎模型進行微調,使用拒絕采樣訓練偏好模型,并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。 為了減少對大規模人類標注數據集的依賴,Bai等人[9]提出了Constitutional AI,這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段:監督學習和RLAIF。在監督階段,模型基于憲法原則批評和精煉其輸出,創建微調數據集。在RLAIF階段,模型生成自我評估以指導訓練,繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs,一個用于基于RL的微調的庫,以及GRUE基準,該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰,他們提出了自然語言策略優化算法,通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。 直接偏好優化:經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程,無需顯式獎勵模型。DPO不是優化復雜的獎勵函數,而是使用成對偏好比較,即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程,同時保留了基于RL方法對齊的好處,通常更簡單且更有效。Rafailov等人[112]引入了DPO,這是一個用于對齊語言模型的新框架,它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略,DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明,DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法(如PPO),同時更穩定、計算效率更高,并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化(ODPO),這是DPO的擴展,用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移,與質量差異成比例。這種方法不僅改進了對齊,還增強了模型的推理能力,特別是在情感控制、毒性減少和摘要等任務中。實驗表明,ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。 總之,RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵,這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程,避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務,最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理 對于復雜的推理任務,如數學問題解決,LLMs需要執行多步推理(如思維鏈)以最終得出準確的解決方案。在這些任務中,獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2(b)所示,這被稱為結果獎勵模型(ORM)。在這種情況下,提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。 經典強化學習:ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型,PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比,ReFT能夠學習更多樣化的推理路徑,在推理任務中表現出更強的泛化能力。然而,VinePPO[60]發現,使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差,這是RL中一個眾所周知的挑戰,稱為信用分配問題。為了解決這個問題,VinePPO放棄了PPO中的價值網絡,轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明,VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習(CPL)是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索(MCTS)探索多步推理任務中的不同計劃步驟,并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑,從而提高在各種任務中的泛化能力。隨后,模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中,策略模型生成計劃步驟和最終解決方案,而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。 直接偏好優化:在數學推理任務中,直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO,它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。 總之,基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索,在估計這些中間步驟的重要性方面具有優勢,盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上,這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務,包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型,并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數,可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型(PRM)基于強化學習代表了LLM推理的重大進步,強調評估中間步驟而不是僅僅關注最終結果。如圖2(c)所示,PRM的獎勵分布在每個推理步驟中,而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋,PRM使模型能夠優化行為,使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要,其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變,并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。 經典強化學習:一系列近期工作將PRMs應用于數學或邏輯推理,因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”(即問題解決中的初始錯誤步驟)來增強數學推理。通過獎勵糾正這些錯誤的步驟,PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋,在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架,用于數學推理任務中的逐步驗證和強化。通過自動化過程監督(使用MCTS啟發的方法),MATH-SHEPHERD消除了對人工標注的需求,同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性,從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化(GRPO)[128]集成了PRMs,這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟,DeepSeekMath在多個基準上實現了最先進的性能,展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器(PAVs),一種PRM變體,用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟,PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。 交互式過程獎勵模型:PRMs還應用于交互任務,如對話和多輪問答。ArCHer采用分層RL方法,使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統:高層價值函數評估話語級獎勵,而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配,并允許對語言模型進行細致訓練,以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展,在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中,以優化長期目標與人類反饋。多輪偏好優化(MTPO)算法比較整個多輪交互以生成偏好信號,其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊,提高動態、多輪任務(如對話和戰略決策)的整體性能。 直接偏好優化:一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如,SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度,它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外,SVPO將顯式價值模型與DPO集成,其中價值模型不僅幫助策略模型導航更高效的推理路徑,還指導偏好學習。然而,這些工作主要集中在首先收集偏好數據或訓練獎勵模型,然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中,推進了這些方法。這種方法可以被視為直接偏好優化的在線版本,其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心,提供了細致的步驟級獎勵,推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調 強化微調(RFT)[101]是OpenAI最近提出的一種技術,用于定制針對特定垂直領域的專家LLMs。目前,RFT仍處于研究計劃中,技術細節尚未完全公開。現有信息表明,RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此,RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。 評分模型:RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋,評分模型可能類似于獎勵模型,將文本輸入(如問題和答案)轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型,可能作為結果獎勵模型或過程獎勵模型運行[76]。 數據效率:在OpenAI的現場會議中,提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率,同時減輕了過擬合的風險[56]。 訓練穩定性:強化學習訓練的穩定性是一個眾所周知的難題,對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中,OpenAI宣布計劃通過API向公眾提供該技術,使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性,能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展:從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考 除了通過強化學習等技術進行訓練時優化外,研究人員發現,測試時提示技術(如思維鏈和思維樹)可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果,但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法(如ReAct和Least-to-Most Prompting)的出現表明,LLMs可以從明確的思維過程組織中受益,從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷,但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向,而無需依賴模型架構或訓練修改[172, 11]。這表明,通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改,可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索 如前所述,PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是,PRM還可以在測試時階段使用,從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明,通過增加測試時計算資源,可以有效地增強推理能力,為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法,如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑,綠色空心圓表示在探索過程中采用的推理路徑,綠色實心圓表示一旦找到正確答案,推理路徑的終點。 多數投票:多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中,每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測,選擇出現次數最多的類別(“多數投票”)作為最終輸出:f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f,其中II是指示函數,yy是每個評估軌跡。 樹搜索[15]:樹搜索是一種經典算法,通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題,如棋盤游戲和規劃任務。蒙特卡羅樹搜索(MCTS)是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成:選擇、擴展、模擬和回傳。通過逐步擴展搜索空間,MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用,取得了顯著成功。例如,思維樹框架[172]使LLMs能夠考慮多個推理路徑,這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策,確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。 束搜索[133]:束搜索是貪婪搜索的改進版本,通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑(稱為束)以進行進一步擴展。與貪婪搜索不同,束搜索維護多個候選路徑,從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如,BART[71]使用束搜索作為其主要推理策略,展示了其在文本生成任務中的卓越效果。 前瞻搜索[134]:前瞻搜索是另一種有前景的方法,具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選,而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點,則提前停止。在前瞻搜索過程中,使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分,決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比,前瞻搜索增加了探索空間的深度,允許基于更遠的模擬決策結果判斷當前決策。然而,它也增加了對計算資源的需求,在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月,OpenAI發布了o1,這是一個突破性的語言模型,代表了AI推理能力的重大進步,特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日,OpenAI開放了o3的測試申請,o3是o1的升級版本[102],被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果,包括在國際數學奧林匹克競賽中獲得金牌水平[73],并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下: 有效的知識整合:初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力,通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率,模型展示了清晰的能力,利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明,其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式,顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出,例如將物理原理應用于生物系統或將統計方法與領域特定約束結合,表明其在知識綜合和應用方面的基本能力。 系統問題分解:o1在不同復雜程度的任務中保持了一致的表現,展示了在處理難度增加時的系統問題分解能力。在數學推理中,詳細研究[27]展示了其系統問題分解方法,通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證,如對105個科學和數學問題的研究[26],隨著問題復雜性的增加,模型在概念深度和計算需求方面保持了高準確性。在編程任務中,這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明,o1通過結構化三步方法(錯誤識別、根本原因分析和針對性修正)在不同復雜程度的錯誤中保持了一致表現。 復雜任務中的可靠和連貫推理:模型的推理在不同問題類型中有效適應,始終展示出各種任務中推理鏈的一致性。在規劃任務中,PlanBench評估[144]展示了其系統處理確定性和概率場景的能力,在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢,在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力,有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明,其中中間目標必須正確排序,依賴關系必須仔細管理,展示了其在時間推理和因果理解方面的高級能力。 大型推理模型的新擴展定律:實證研究表明,o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間,模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明,通過優化的測試時計算策略,模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示,o1的推理能力可以通過推理階段的高級計算分配有效增強,特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同,隨著思考時間的增加,性能持續提升[103]。這在編程任務中得到證明,允許每個問題提交10,000次使模型能夠顯著提高結果,即使沒有測試時選擇策略,得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步,展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試 開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考,旨在復制或近似專有模型(如OpenAI的o1)的推理優勢。在本節中,我們介紹了四個重要的開源項目,每個項目采用不同的策略來增強LLM推理(總結在表2中)。通過探索它們的獨特實現,我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]:該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架,采用強化學習技術。OpenR復制的核心是構建逐步推理數據,其中獲得更精確和細粒度的反饋,而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡,采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據,進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中,與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**:與分別訓練PRM和微調策略模型不同,他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法,預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案,而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]:該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力,而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖,結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成,設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法,o1復制之旅將模型暴露于不同的邏輯序列和修正中,鼓勵在訓練階段進行探索和適應性。然而,o1復制之旅在推理階段較為簡單,缺乏高級的訓練后技術,這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比,這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]:該項目專注于優化推理階段的能力,利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法,將蒙特卡羅樹搜索與自我精煉(SR-MCTS)相結合,使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性,使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型(PPRM),它成對評估解決方案路徑,確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數(EBC)然后整合這些偏好排名以指導模型的決策,進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例,與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略,還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍,推動了開發復雜、透明和適應性強的推理模型的集體目標,使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外,還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示,諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM,但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索(VRS)利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同,VRS純粹通過測試時推理操作,使用迭代反饋循環來精煉解決方案,而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力,VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用,支持廣泛的任務,包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS,深入探討每個類別中呈現的方法論和獨特見解。 在個體代理設置中,VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務,其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如,對組合問題(包括帽集和在線裝箱)的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣,符號回歸研究將方程視為動態構造,迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航,在效率和準確性上超越傳統優化技術。在科學發現中,VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如,在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中,VRS用于通過模擬反饋精煉假設,推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用,支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如,研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式,通過反饋循環不斷精煉解決方案,從而在不同領域中有效泛化。總體而言,VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來,以精確和適應性解決數學、科學和優化中的挑戰。 在多代理系統中,VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間,允許代理交換見解并實現共同目標。異構信息網絡(HINs)中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構,增強了其可解釋性和預測準確性[20]。同樣,在社會經濟預測中,多代理系統整合知識圖譜和元路徑推理,為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作,并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如,使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互,這些框架生成準確的因果圖,同時解決因果關系中的歧義[69]。在金融決策中,VRS增強了層次協作。FINCON框架采用經理-分析師系統,通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉,FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理,VRS支持多代理系統應對復雜任務,如元結構精煉、社會經濟預測和金融決策。 在具身代理設置中,VRS用于通過整合推理與物理交互來解決現實世界任務,支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境,結合語義推理與實際實驗。例如,自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具,如機器人液體處理器、光譜設備和基于網絡的研究模塊,以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應,其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤(如錯誤的模塊調用)時,系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋,具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預,同時加速了科學發現,使其成為現實世界實驗和創新的寶貴工具。 總的來說,先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力,VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索,再到現實世界應用中的動態實驗,VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架,能夠在計算和物理領域中應對復雜挑戰,同時推動多樣化領域的進步。 7.2 基于記憶的強化 當應用于開放式任務(如創意寫作、復雜邏輯推理和開放世界游戲)時,解決方案空間往往會急劇擴展,通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息,使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰,一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎,迭代探索其環境。通過這一過程,它們總結經驗,提取解決方案空間的可解釋高級見解,并在后續試驗中精煉其行動,從而提高推理性能。這些研究不僅關注探索外部解決方案空間,還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶,其能力逐步增強并泛化到未見任務。具體來說,我們將該領域的研究分為以下三類。 經驗學習:此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗,同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理,該代理記錄過去的觀察-行動對,并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值(預期未來獎勵)。當面臨新任務時,代理從記憶中檢索具有最高和最低Q值的相關行動,將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務,并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地,經驗共同學習[108]采用多代理框架,其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時,這些代理交替檢索相關記憶以改進上下文學習。 反思學習:雖然使用記憶作為少樣本示例簡單有效,但這種方法并未充分利用LLMs的語義理解能力。一些研究認為,LLM代理應直接反思存儲在記憶中的成功和失敗,明確總結潛在原因,并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力,基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中,以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思,從記憶中檢索最相關的成功經驗,總結成功軌跡的模式,并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發,將記憶組織為目標模塊和子任務模塊,實現不同層次的反思和經驗總結。對于新任務,它檢索相關經驗以分別制定高級目標和低級子任務。 概念學習:明確反思顯著增強了LLMs的推理能力。在此基礎上,一些研究旨在使LLM代理發展超越特定任務的廣義“概念”,促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力,并隨著記憶的增長不斷進化。例如,Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動,而是評估這些信念的合理性和一致性,迭代精煉策略。類似地,Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈,它自主收集經驗,扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發,為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索,并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外,它生成未見任務進行練習,基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索 代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次:提示層次、模塊層次和代理層次。請注意,這種方法并不旨在直接搜索解決方案空間,而是利用經驗數據優化代理系統本身,類似于元學習問題。我們總結了該領域的相關工作如下。 提示層次:“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面,提示本身也值得搜索和優化。自動化提示工程,如進化提示優化[38]和元提示迭代[169],可以實現比手動提示更好的結果,但也引入了更多的標記消耗。 模塊層次:Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計,其中模塊本質上是具有特定功能的提示塊,如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口,使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計,如CoT和ToT。此外,Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外,評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動,以提高搜索效率,同時緊密匹配其實際性能。 代理層次:ADAS提出利用LLMs搜索整個代理系統,這些系統在Python代碼空間中定義[53]。此外,多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中,關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務(如長故事創作)中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。 代理系統搜索為代理提供了自我改進的能力,使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率,降低搜索成本,并在確保搜索合理性的同時實現自動化。 7.4 總結 本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而,它們具有巨大潛力,通過更全面的測試時“思考”進一步提升LLMs的推理能力,促進LLMs在解決方案空間中戰略性地推理,利用過去經驗并動態優化代理工作流。因此,訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向,有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中,我們系統地回顧了LLM推理的流行基準,這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題 數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學,提供了系統評估數學理解和問題解決能力的不同方面的方法。 在數學應用題(MWP)領域,基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面,MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力,而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算(如加法或減法)的能力。在小學和高中層面,綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰,GSM8K提供了8.5K個小學問題,MATH提供了12.5K個跨多個數學領域的問題,難度逐漸增加。 高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題,需要復雜的問題解決策略,而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別,FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題,測試自動化數學推理的極限。 幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題,而UniGEO[18]提供了一個統一的幾何推理任務框架,專注于計算和證明。這些基準特別有價值,用于評估模型連接視覺和數學推理的能力。 定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明,而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域,如三角學和形式證明系統。 最后,跨模態數學推理已成為一個關鍵領域,反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理,而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距,測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題 建立在數學推理能力之上,系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明,但邏輯推理涵蓋了更廣泛的推理能力,包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類,邏輯推理可以分為三種主要類型:演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程,對于全面邏輯分析至關重要,同時在認知評估中保持相互聯系。 演繹推理,也稱為基于前提的推理,涉及從一般原則中得出特定結論,具有絕對確定性。例如,給定一組關于實體之間關系的規則,模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表,要求模型從給定前提構建明確的邏輯推導。其他基準,如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理,WaNLI[77]引入了日益復雜的評估標準,包含107,885個示例。 歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況,處理概率而非確定性。BigBench[136]包含眾多專門組件,用于檢查高級模式推理能力。此外,CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。 溯因推理,也稱為解釋性推理,指的是為一系列觀察或事實形成最可能解釋的過程,盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景,通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點,模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架,具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題 常識推理仍然是NLP中的一個重要挑戰,旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如,CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理,圍繞社交場景中的因果推理展開。相比之下,SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務,模型必須基于上下文線索預測事件的最可能延續,從而增加任務復雜性。對于物理常識推理,PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務,而PHYRE強調交互物理模擬。類似地,WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務,以測試語義理解和共指解析能力。 其他工作,如OBQA[95]和CConS[63],探索了模型在反常識上下文中的表現,突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近,綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題 代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度,涵蓋各種領域。例如,ODEX[155]引入了一個執行驅動的評估框架,用于開放域代碼生成,強調運行生成代碼以驗證其正確性和功能的重要性。 在現實世界場景中,SWE-bench[58]專注于真實的GitHub問題,挑戰模型解決實際軟件工程問題。在數據科學領域,DS-1000[67]提供了一個基準,包含真實且可靠的數據科學代碼生成任務,使評估模型處理復雜數據操作和分析的能力成為可能。此外,APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力,反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題,評估模型根據給定規范生成正確和高效代碼的能力,從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs,每個問題都提供了函數定義和附帶文檔,要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題 基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力,包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境,用于構建和測試自主代理,使評估LLMs的網絡導航和交互技能成為可能。類似地,Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理,強調在動態在線環境中的適應性。 在電子商務設置中,WebShop[171]引入了一個平臺,用于可擴展的現實世界網絡交互,專注于能夠執行在線購物等任務的接地語言代理,從而測試模型的實際應用能力。為了橋接文本和具身環境,ALF-World[131]將基于文本的輸入與交互學習場景對齊,促進了評估模型在不同模態之間轉移知識的能力。 綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能,而AgentGym專注于在多樣化設置中進化LLM代理,強調適應性和學習效率。此外,AgentBoard[87]提供了一個分析平臺,用于評估多輪LLM代理,提供了對其在擴展交互中的表現的見解,并突出了持續推理任務中的改進領域。

  1. 討論 9.1 近期進展的啟示 后訓練階段的擴展定律:OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是,它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步,它擴展到后訓練階段的擴展定律,這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知,預訓練和訓練階段的擴展定律導致了流行LLMs的成功,伴隨著訓練數據和計算資源的巨大投資。然而,它現在達到了瓶頸,因此,后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外,LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力,即使推理能力尚未得到強化。因此,關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題,這可能是進一步增強LLM在現實世界應用中的潛力。 通過搜索生成高質量數據:OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據(包括CoT數據)的生成視為關鍵點,盡管采用了不同的方法,如蒙特卡羅樹搜索、LLM生成等。也就是說,大型推理模型的發展達到了一個階段,高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣,如上所述,這可能啟發我們在LLM代理中參考這些相關方法,首先進行高質量數據生成,然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理 即使OpenAI o1系列在工程層面的突破仍然未知,從理論上和技術上看,其突破目前似乎主要在于慢思考數據的后訓練學習。此外,人類認知科學中的“系統1 + 系統2”已被反復提及,但基于大型模型實現它的想法不斷更新,主要仍停留在借鑒慢思考概念的階段。也就是說,人類大腦的“系統1 + 系統2”機制指導了LLMs的設計,但這種指導仍然非常有限。換句話說,對人類大腦的模仿僅停留在系統級設計,而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點,慢思考的領域知識應被用于相關的設計中,如推理數據生成、獎勵函數、學習過程等。 到目前為止,關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘,以至于理解LLMs也需要一些技巧或特殊技術,例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力,我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例,它們的主要區別在于CoT推理階段的思考成本和深度,然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說,將推理機制與不同任務中的表現聯系起來,可能會支持更多有趣的見解。 9.3 下游應用與開放問題 正如本文所指出,推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現,還體現在更廣泛的下游應用中。例如,FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務,例如城市規劃、物流調度等。一個有趣的問題是,當前研究中是否存在許多互補的問題,這些問題難以驗證,但推理過程較為簡單。通過結合LLMs和外部評估器,可能進一步驗證某些答案的質量,或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念,利用強化學習技術進行訓練時擴展,以及使用搜索算法進行測試時擴展,為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務,OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解,并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.

** 引言**

近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。

幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。

在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。

由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。

通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。

與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。

本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。

數據

數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。

噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。

缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。

詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。

1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。

2 模型

目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。

弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。

語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。

弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。

3 訓練

MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。

4 推理

就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。

結論

基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。

付費5元查看完整內容

提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。

大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。

然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。

考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。

在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。

總述

**提示范式 **

提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。

提示類型

本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。

挑戰

鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。

使用高效計算的提示

隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。

使用高效設計的提示

“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。

結論

在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容

隨著大型語言模型(LLMs)在編寫類似人類的文本方面不斷進步,它們傾向于“幻覺”——生成看似事實卻無根據的內容的傾向仍然是一個關鍵挑戰。幻覺問題可以說是將這些強大的LLMs安全部署到影響人們生活的實際生產系統中的最大障礙。向LLMs在實際設置中廣泛采用的旅程嚴重依賴于解決和緩解幻覺。與專注于有限任務的傳統AI系統不同,LLMs在訓練期間已經接觸了大量的在線文本數據。雖然這使它們能夠展現出令人印象深刻的語言流利度,但這也意味著它們能夠從訓練數據中的偏見中推斷出信息,誤解模糊的提示,或修改信息以表面上與輸入對齊。當我們依賴語言生成能力進行敏感應用時,這變得極其令人擔憂,例如總結醫療記錄、客戶支持對話、財務分析報告和提供錯誤的法律建議。小錯誤可能導致傷害,揭示了LLMs盡管在自我學習方面取得了進步,但實際上缺乏真正的理解。本文提出了一項對超過三十二種旨在緩解LLMs中幻覺的技術的全面綜述。其中值得注意的是檢索增強生成(RAG)(Lewis et al., 2021)、知識檢索(Varshney et al., 2023)、CoNLI(Lei et al., 2023)和CoVe(Dhuliawala et al., 2023)。此外,我們引入了一種詳細的分類法,根據各種參數對這些方法進行分類,如數據集利用、常見任務、反饋機制和檢索器類型。這種分類有助于區分專門設計用于解決LLMs中幻覺問題的多種方法。此外,我們分析了這些技術固有的挑戰和限制,為未來在LLMs領域解決幻覺和相關現象的研究提供了堅實的基礎。

1 引言 大型語言模型(LLMs)中的幻覺涉及到在多個主題上創造事實上錯誤的信息。鑒于LLMs的廣泛領域覆蓋,它們的應用橫跨眾多學術和專業領域。這些包括但不限于學術研究、編程、創意寫作、技術咨詢以及技能獲取的促進。因此,LLMs已成為我們日常生活中不可或缺的組成部分,在提供準確可靠信息方面扮演著關鍵角色。然而,LLMs的一個根本問題是它們傾向于產生關于現實世界主題的錯誤或捏造細節。這種提供錯誤數據的傾向,通常被稱為幻覺,為該領域的研究人員提出了重大挑戰。這導致了像GPT-4等先進模型可能生成不準確或完全沒有根據的引用(Rawte et al., 2023)的情況。這一問題是由于訓練階段的模式生成技術和缺乏實時互聯網更新,從而導致信息輸出中的差異(Ray,2023)。 在當代計算語言學中,緩解幻覺是一個關鍵焦點。研究人員提出了各種策略,包括反饋機制、外部信息檢索和語言模型生成早期細化,來應對這一挑戰。本文通過整合和組織這些不同技術為一個全面的分類法而具有重要意義。本文對于LLMs幻覺領域的貢獻有三方面:

引入了一個系統的分類法,旨在對LLMs的幻覺緩解技術進行分類,包括視覺語言模型(VLMs)。

綜合了這些緩解技術的基本特征,從而指導該領域未來更有結構性的研究努力。

對這些技術固有的局限性和挑戰進行了討論,并提出了潛在的解決方案和未來研究的方向建議。

付費5元查看完整內容
北京阿比特科技有限公司