亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要實現人類水平智能需要優化從快速、直覺的系統1到更慢速、更審慎的系統2推理的過渡。系統1擅長快速、啟發式決策,而系統2則依賴邏輯推理以實現更準確的判斷并減少偏見。基礎大語言模型(LLMs)在快速決策方面表現出色,但由于尚未完全具備真正的系統2思維所特有的逐步分析能力,其在復雜推理方面仍顯不足。最近,諸如OpenAI的o1/o3和DeepSeek的R1等推理大語言模型在數學和編程等領域展現了專家級的表現,高度模擬了系統2的審慎推理,并展示了類人的認知能力。本文首先簡要回顧了基礎大語言模型的進展以及系統2技術的早期發展,探討了它們的結合如何為推理大語言模型鋪平道路。接著,我們討論了如何構建推理大語言模型,分析了其特點、實現高級推理的核心方法以及各類推理大語言模型的演變。此外,我們還概述了推理基準測試,并對代表性推理大語言模型的性能進行了深入比較。最后,我們探討了推動推理大語言模型發展的潛在方向,并維護了一個實時GitHub倉庫以跟蹤最新進展。我們希望本文能為這一快速發展的領域提供有價值的參考,激發創新并推動進步。

//arxiv.org/abs/2502.17419 關鍵詞:慢思考、大語言模型、類人推理、人工智能決策、通用人工智能 1 引言

“不要教授,激勵。” —Hyung Won Chung, OpenAI 實現人類級別的智能需要精煉從系統1到系統2推理的過渡[1]–[5]。雙系統理論表明,人類認知通過兩種模式運作:系統1,它快速、自動、直覺,能夠以最小的努力做出快速決策;系統2,它較慢、更具分析性和深思熟慮[6],[7]。盡管系統1在處理常規任務時效率較高,但它容易受到認知偏差的影響,特別是在復雜或不確定的情境中,導致判斷錯誤。相比之下,系統2依賴于邏輯推理和系統化思維,能夠做出更加準確和理性的決策[8]–[11]。通過減輕系統1的偏差,系統2提供了一種更為精細的問題解決方法[12]–[15]。 基礎大語言模型(LLMs)的發展標志著人工智能(AI)領域的一個重大里程碑。像GPT-4o[16]和DeepSeekv3[17]等模型,在文本生成、語言翻譯和各種感知任務方面展示了令人印象深刻的能力[18]–[28]。這些模型經過廣泛數據集的訓練,并利用先進的算法,能夠理解并生成類人回應。然而,盡管這些基礎LLM取得了令人矚目的成就,它們的運作方式類似于系統1推理,依賴于快速、啟發式的決策過程。雖然它們在提供快速回應時表現出色,但在需要深度邏輯分析和復雜推理任務中的精準度時往往表現不佳。這個局限性在涉及復雜問題解決、邏輯分析或微妙理解的情境中尤為明顯,因為這些模型尚未達到人類的認知能力。 相比之下,推理型LLM代表了語言模型演變的重要進展。像OpenAI的o1/o3[29],[30]和DeepSeek的R1[31]等模型,旨在模擬與系統2思維相關的較慢、更深思熟慮的推理過程。與基礎LLM不同,推理型LLM配備了逐步處理信息的機制,使其能夠做出更為準確和理性的決策。這種從快速直覺型處理到更有條理的推理驅動型模型的轉變,使推理型LLM能夠處理復雜任務,如高級數學[32]–[37]、邏輯推理[38]–[44]和多模態推理[45]–[47],并表現出類人級的認知能力。因此,推理型LLM被越來越多地認為能夠實現深度邏輯思維,處理那些曾被認為超出AI能力范圍的任務。推理型LLM的最新發展時間線如圖1所示。

1.1 綜述結構

本綜述提供了關于推理型LLM發展中的關鍵概念、方法和挑戰的全面概述。如圖2所示,本綜述結構如下:

  1. 第2節簡要回顧了基礎LLM的進展(第2.1節),以及系統2關鍵技術的早期發展,包括符號邏輯系統(第2.2節)、蒙特卡洛樹搜索(MCTS)(第2.3節)和強化學習(RL)(第2.4節),重點介紹了它們的結合如何為推理型LLM鋪平道路。
  2. 第3節介紹了推理型LLM,并概述了其構建過程。具體而言,第3.1節從輸出行為(第3.1.1節)和訓練動態(第3.1.2節)兩個角度呈現推理型LLM的特點,強調它們與基礎LLM的區別。第3.2節識別了實現高級推理能力所需的核心方法,重點介紹五個方面:結構搜索(第3.2.1節)、獎勵建模(第3.2.2節)、自我改進(第3.2.3節)、宏觀動作(第3.2.4節)和強化微調(第3.2.5節)。每個部分深入探討了這些方法的具體特點,并介紹了代表性推理型LLM。第3.3節追溯了推理型LLM的發展階段。
  3. 第4節評估了代表性的推理型LLM。具體而言,第4.1節回顧了當前主流推理基準,涵蓋了文本和多模態基準,涉及各種任務類型。第4.2節概述了當前的評估指標,第4.3節基于這些基準分析并比較了主流推理型LLM與基礎LLM的性能。
  4. 第5節強調了現有推理型LLM的局限性,并概述了這些模型的若干有前景的未來發展方向。
  5. 最后,在第6節中總結了本文,并提供了一個實時跟蹤GitHub倉庫,供用戶關注該領域的最新進展。我們希望本綜述能夠作為一個寶貴的資源,促進這一快速發展的領域的創新和進步。

1.2 綜述的貢獻

近年來,已經進行了一些特定技術方法的分析和復制[48]–[55],然而,缺乏系統的分析和組織。研究[56]僅專注于測試過程中慢思維的方法。與此同時,研究[57]–[59]主要集中在訓練或實現推理型LLM,通常從強化學習的角度進行探討。 我們的綜述與現有文獻的不同之處及貢獻在于:

  1. 我們沒有專注于單一技術方法,而是提供了推理型LLM的關鍵概念、方法和挑戰的全面概述。
  2. 我們總結了早期系統2的關鍵進展,并闡述了它們如何與基礎LLM結合,為推理型LLM鋪路——這是之前文獻中常被忽視的關鍵方面。
  3. 我們提供了更為徹底和全面的核心方法總結,這些方法對于構建推理型LLM至關重要,包括但不限于強化學習(RL)。

2. 推理大語言模型的基礎在本節中,我們簡要回顧了基礎大語言模型的進展和關鍵系統2技術的早期發展,強調了這些技術與基礎大語言模型的結合如何為推理大語言模型鋪平了道路。這些技術包括符號邏輯系統、蒙特卡洛樹搜索(MCTS)和強化學習(RL)。2.1 基礎大語言模型基礎大語言模型的發展在2018-2019年取得了顯著進展,特別是BERT和GPT的引入。這些模型利用大規模文本語料庫進行無監督預訓練,然后針對特定任務進行微調。這種方法使它們能夠在專門化任務(如情感分析、實體識別和問答)之前發展出廣泛的語言理解能力。BERT的雙向上下文處理改進了單詞理解,而GPT的單向設計在文本生成方面表現出色。2019年發布的GPT-2擁有15億參數,標志著生成性能的重大飛躍,盡管它也引發了倫理問題。GPT-3擁有1750億參數,進一步展示了無監督預訓練的強大能力,在少樣本學習中表現出色,并在廣泛的自然語言處理任務中表現良好。隨后幾年,多模態模型如CLIP和DALL-E出現,集成了文本和視覺輸入。這些模型實現了從文本生成圖像等新任務,并增強了人機交互。到2023-2024年,諸如GPT-4、LLaMA和LLaVA等模型展示了在推理、上下文理解和多模態推理方面的先進能力,能夠處理文本和圖像。基礎大語言模型的演變徹底改變了人工智能,使語言理解、問題解決和人機協作的應用更加復雜。2.2 符號邏輯系統符號邏輯系統標志著人工智能的最早階段,利用規則和邏輯原則來表示知識和得出結論。它們在結構化領域中特別有效,其中形式邏輯確保了精確性。Prolog是一種基于一階邏輯的邏輯編程語言,允許用戶定義事實、規則并通過查詢進行推理。它在符號推理系統中發揮了關鍵作用,特別是在自然語言處理和專家系統中。基于邏輯的系統如Prolog使用命題和謂詞邏輯進行形式推理。從20世紀60年代到80年代初,這種方法主導了人工智能,如IBM的LISP用于符號計算和Resolution Theorem Provers用于自動推理。20世紀70年代,Marvin Minsky引入了Frames,將知識組織成結構化框架,影響了專家系統和認知科學。2.3 蒙特卡洛樹搜索蒙特卡洛樹搜索(MCTS)是一種基于模擬的搜索算法,用于決策和規劃。它通過四個步驟構建搜索樹:選擇、擴展、模擬和回傳。MCTS在圍棋等棋盤游戲的策略優化和機器人路徑規劃中得到了廣泛應用。2.4 強化學習強化學習(RL)是一種機器學習類型,其中代理通過與環境交互并接收反饋來學習決策,旨在最大化累積獎勵。早期的RL突破,如Q學習和DQN,通過使用深度神經網絡處理復雜狀態空間,徹底改變了這一領域。這些方法為RL擴展到現實世界任務鋪平了道路,其中傳統的表格方法無法勝任。深度RL的出現標志著重要的一步,結合了深度學習和RL的強大能力,處理高維輸入,如圖像和非結構化數據。

3. 推理大語言模型的構建

在本節中,我們首先從輸出行為和訓練動態兩個角度分析了推理大語言模型的特征。然后,我們詳細介紹了實現其高級推理能力的核心方法。最后,我們總結了推理大語言模型的演變。3.1 推理大語言模型的特征分析3.1.1 輸出行為視角探索與規劃結構:最近的實證研究表明,推理大語言模型在其輸出結構中表現出強烈的探索行為,特別是在與WizardMath和DeepSeekMath等主要依賴傳統鏈式思維(CoT)推理方法的模型相比時。這種探索行為體現在新假設的制定和替代解決路徑的追求上。驗證與檢查結構:對OpenAI的o1和o3模型的分析表明,它們的推理框架結合了長期戰略規劃的宏觀行動和包括“等待”、“暫停”、“替代”和“讓我們暫停”等微觀行動。這些微觀行動促進了細致的驗證和迭代檢查過程,確保任務執行的精確性。更長的推理長度與時間:最近的研究表明,推理大語言模型通常生成超過2000個標記的輸出以解決復雜的編程和數學問題。然而,這種延長的輸出長度有時會導致過度思考,模型在問題上花費過多時間而不一定能改進解決方案。3.1.2 訓練動態視角驚人的數據效率:與專注于擴展指令集的傳統方法不同,研究表明,構建專注于困難樣本的慢思維鏈式思維(Slow-thinking CoT)數據集在醫學和數學等領域具有更好的泛化能力。稀疏訓練方法:與傳統觀點相反,開發有效的推理大語言模型并不需要大量的數據集或密集的獎勵信號。例如,STILL2僅使用5000個蒸餾樣本就展示了令人印象深刻的性能,而Sky-T1僅使用17000個長鏈式思維樣本就實現了與QwQ相當的性能。參數特征:通過長鏈式思維方法訓練的大語言模型在不同層中表現出相對均勻的梯度范數。相比之下,快速思維(如簡化的鏈式思維方法)在早期層中產生較大的梯度幅度,并且在不同層中的梯度范數存在顯著差異。  3.2 核心方法在本節中,我們概述了推動推理大語言模型高級推理能力的核心方法,包括結構搜索、獎勵建模、自我改進、宏觀行動和強化微調。我們還為每種方法介紹了代表性的推理大語言模型。3.2.1 結構搜索推理大語言模型旨在通過模仿人類推理的深思熟慮和系統性來實現高精度和深度。然而,盡管最近取得了進展,當前的基礎大語言模型在解決復雜推理任務時仍面臨固有的局限性。這些局限性源于它們缺乏模擬環境狀態的內部世界模型,無法預測推理路徑的長期結果,以及無法根據未來狀態或獎勵迭代改進推理步驟。蒙特卡洛樹搜索(MCTS)通過提供一個結構化框架來系統地探索和評估推理路徑,有效地解決了這些挑戰。它通過構建一個推理樹來操作,其中每個節點代表一個推理狀態,行動通過考慮潛在的下一步來擴展樹。通過模擬未來狀態和迭代回傳估計的獎勵,MCTS使基礎大語言模型能夠高效地識別高獎勵的推理路徑,模仿人類的規劃過程。3.2.2 獎勵建模兩種主要的訓練范式用于解決多步推理任務:結果監督和過程監督。結果監督強調最終答案的正確性,生成的模型稱為結果獎勵模型(ORM)。相比之下,過程監督為解決方案軌跡提供逐步標簽,評估每個推理步驟的質量。生成的模型稱為過程獎勵模型(PRM)。PRM在復雜推理任務中具有顯著優勢。首先,它提供了細粒度的逐步監督,允許識別解決方案路徑中的特定錯誤。其次,PRM密切模仿人類推理行為,依賴于準確的中間步驟來得出正確結論。與ORM不同,PRM避免了錯誤推理仍能導致正確最終答案的情況,從而確保更穩健和可解釋的推理。3.2.3 自我改進推理大語言模型展示了從弱監督到強監督的進步,而傳統的鏈式思維微調在擴展方面面臨挑戰。自我改進利用模型的探索能力進行自我監督,逐步提高大語言模型在翻譯、數學推理和多模態感知等任務中的性能。3.2.4 宏觀行動最近在大語言模型中的進展推動了通過復雜思維架構模仿人類系統2認知過程的進步,通常稱為宏觀行動框架。這些結構化推理系統超越了傳統的標記級自回歸生成,引入了分層的認知階段,如戰略規劃、內省驗證和迭代改進。3.2.5 強化微調強化微調(RFT)是OpenAI最近引入的一項創新技術,旨在使開發人員和工程師能夠針對特定領域或復雜任務微調現有模型。與一般的監督微調(SFT)不同,RFT專注于通過使用獎勵機制來優化模型的推理過程,從而提高其推理能力和準確性。3.3 推理大語言模型的演變推理大語言模型的演變經歷了幾個不同的階段,各種策略被開發出來以克服直接自回歸推理的局限性,并構建更先進的慢思維推理架構。在早期階段,推理大語言模型主要專注于通過外部推理算法增強預訓練的大語言模型,而不改變底層模型參數。諸如Tree of Thoughts和Reasoning via Planning等方法利用大語言模型驅動的廣度優先搜索、深度優先搜索和蒙特卡洛樹搜索(MCTS)來模擬人類推理過程。然而,這些外部化的慢推理方法引入了幾個挑戰:有限的探索空間:基于搜索的方法需要對搜索空間的廣度、深度和粒度進行預定義約束,這通常限制了大語言模型的探索范圍。有限的經驗共享:不同路徑的探索經驗和推理信息只能基于獎勵模型或結果之間的一致性進行評估。為了克服這些限制,隨后的模型如rStar、LLaMAV-ol、HiICL-MCTS、Mulberry、g1和Thinking-Claude引入了更豐富的行動空間。這些增強的行動空間提供了高級規劃線索,擴大了模型的探索范圍,并實現了更全面的結構化搜索過程。

4. 推理大語言模型的基準測試

開發一個強大的基準對于記錄推理大語言模型能力的進展并確定未來進展的有前景的研究方向至關重要。在這里,我們從類別、評估指標和性能比較三個方面回顧了基準,同時提供了我們的反思和見解。4.1 基準類別我們按任務類型對推理基準進行分類,可以大致分為數學、代碼、科學、代理、醫學和多模態推理。這些基準的詳細統計數據如表VI所示。4.1.1 基準介紹數學問題:我們記錄了當前流行的競賽級數學基準,以展示推理大語言模型的能力,包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench。代碼問題:代碼問題需要扎實的基礎和高邏輯思維來評估推理大語言模型的推理能力,如Codeforces、SWEbench和LiveCodeBench。科學問題:科學基準,如GPQA Diamond和MMLU-Pro,涉及化學、生物學和物理學的多領域推理,需要廣泛的知識積累和綜合推理。代理推理:現實任務通常涉及復雜的規劃和工具使用,導致了代理推理基準的創建,如WebShop和WebArena。醫學推理:醫學本質上涉及復雜的推理,涵蓋從診斷決策到治療計劃的任務。JAMA Clinical Challenge、Medbullets和MedQA等基準提供了模仿醫生疾病診斷的模型測量。多模態推理:多模態推理,如MMMU和MathVista基準,需要結合文本和圖像的跨模態思維。4.1.2 總結大語言模型領域近年來發展迅速,基準性能不斷提高。簡單的推理基準,如GSM8K、MATH-500和ScienceQA,已經接近性能飽和。最近對推理大語言模型的研究表明,為長推理鏈設計的模型在這些基準上并不顯著優于為短鏈設計的模型。這突顯了建立新基準的迫切需要,以更有效地評估推理大語言模型的推理能力。此外,當前的基準主要集中在硬推理任務上。軟推理基準缺乏明確定義的正確答案,提供了更細致的評估,更好地捕捉了類人推理的復雜性和微妙性。4.2 評估指標根據任務類型、技術方案和推理范式,引入了各種評估指標來衡量推理大語言模型在處理復雜推理任務中的表現,確保生成解決方案的質量和連貫性得到有效衡量。

4.2.1

任務類型在基準類別方面,數學推理通常使用兩個主要指標:Pass@k和Cons@k。Pass@k指標評估模型在k次嘗試內生成正確解決方案的能力,衡量在有限嘗試次數內成功的可能性。另一方面,Cons@k評估模型是否一致地生成正確或邏輯連貫的解決方案,突出其推理能力的穩定性和可靠性。對于代碼任務,關鍵指標是Elo和Percentile,兩者都衡量生成正確代碼的相對技能。在科學任務中,評估通常使用Exact Match(EM)和Accuracy來評估填空題和選擇題。

4.2.2 技術方案基于技術路線,使用ORM或PRM的方案通常利用RM@k和Best-of-N兩個評估指標。RM@k衡量獎勵模型是否能夠根據獎勵分數在k個候選答案中將好的答案排名更高,Best-of-N從N個生成的推理軌跡中選擇得分最高的解決方案。自我一致性方法使用Greedy Decoding、Beam Search和Major@k進行評估。4.2.3 推理范式對于推理大語言模型中的多輪解決方案生成,最近提出了Outcome Efficiency和Process Efficiency來評估長思維的具體效率。Outcome Efficiency指標經驗性地評估后續解決方案對準確性改進的貢獻,Process Efficiency指標經驗性地評估后續解決方案對解決方案多樣性的貢獻。4.2.4 總結大多數現有的評估指標都是根據最終答案來判斷的。鑒于大推理計算消耗,開發一個綜合考慮推理過程各個方面的全面評估框架勢在必行。當前流行的評估框架,如LMMs-Eval、OpenCompass和PRMBench,缺乏效率,其指標未能充分考慮到推理過程的計算和時間效率。為了解決這些不足,我們強烈建議探索更高效的代理任務作為潛在解決方案。4.3 性能比較在本節中,我們比較了不同推理大語言模型及其對應基礎大語言模型在純文本基準(如數學和代碼問題)以及多模態基準上的性能。4.3.1 純文本基準上的性能如表VII所示,推理大語言模型如DeepSeek-R1和OpenAI的o1/o3在廣泛的數學、編碼和其他一般任務中表現出色。這些模型在AIME 2024、MATH-500和LiveCodeBench等多個純文本基準上取得了高分,展示了其強大的文本推理能力。相比之下,基礎大語言模型如GPT-4o、Claude-3.5-Sonnet和DeepSeek-V3在數學和編碼任務(如AIME 2024和Codeforces)中表現較差。4.3.2 多模態基準上的性能如表VIII所示,推理大語言模型在多模態任務中繼續表現出色。OpenAI的o1在視覺任務中表現強勁,在MMMU上取得了77.3%的最高分,并在MathVista上比其對應的基礎大語言模型GPT-4o高出7.2%。然而,與純文本任務相比,多模態任務的性能提升不那么顯著。4.3.3 總結總的來說,推理大語言模型在純文本和多模態基準上都表現出色,特別是在數學和編碼任務中,它們大幅超越了基礎大語言模型。盡管多模態任務的改進不如純文本任務顯著,但推理大語言模型仍然超越了其對應模型,突顯了其在處理圖像和文本數據方面的潛力。這些結果強調了推理大語言模型在廣泛推理任務中的多功能性和有效性,具有在多模態推理技術方面進一步發展的潛力。5. 挑戰與未來方向盡管推理大語言模型取得了快速進展,但仍存在一些挑戰,限制了它們的通用性和實際應用。本節概述了這些挑戰,并強調了解決這些挑戰的潛在研究方向。5.1 高效的推理大語言模型雖然推理大語言模型通過擴展推理在解決復雜問題方面表現出色,但它們在大規模架構中依賴長自回歸推理帶來了顯著的效率挑戰。例如,Codeforces等平臺上的許多問題需要超過10000個標記的推理,導致高延遲。正如[102]所指出的,即使推理大語言模型早期識別出正確的解決方案,它通常也會花費大量時間驗證其推理。未來的研究應集中在兩個關鍵領域:(1)整合外部推理工具以實現早期停止和驗證機制,從而提高長推理鏈的效率;(2)探索在不犧牲性能的情況下在小型大語言模型(SLMs)中實現慢思維推理能力的策略。5.2 協同慢思維與快思維系統推理型LLM面臨的一大挑戰是失去快速思維能力,這導致在簡單任務中需要不必要的深度推理,造成效率低下。與人類能夠流暢地在快思維(系統1)和慢思維(系統2)之間切換不同,當前的推理型LLM在保持這種平衡方面存在困難。雖然推理型LLM確保了深思熟慮和全面的推理,但快思維系統依賴于先前的知識以提供快速回應。盡管有如系統1-2切換器[95]、推測解碼[258]–[260]和互動持續學習[261]等努力,整合兩種思維模式仍然是一個挑戰。這通常導致在領域特定任務中的低效以及在更復雜情境下未能充分利用系統的優勢。未來的研究應聚焦于開發自適應切換機制、聯合訓練框架和共進化策略,以調和快思維系統的效率與推理型LLM的精確度。實現這種平衡對于推動這一領域的發展并創建更加多功能的AI系統至關重要。5.3 推理型LLM在科學中的應用推理型LLM在科學研究中扮演著至關重要的角色[262],它們能夠進行深度、結構化的分析,超越了基于啟發式的快思維模型。它們的價值在需要復雜推理的領域,尤其是在醫學和數學領域中尤為明顯。在醫學中,特別是在鑒別診斷和治療規劃方面,推理型LLM(例如推理時間縮放)增強了AI的逐步推理能力,提高了診斷準確性,而傳統的縮放方法往往力不從心[52]。在數學中,像FunSearch[263]這樣的方式結合了慢思維原則,推動了超越以往發現的進展,展示了AI與人類協作的潛力。在這些領域之外,推理型LLM還能夠通過改進模型構建和假設檢驗,推動物理學、工程學和計算生物學的進步。投資推理型LLM的研究不僅架起了AI的計算能力與類人分析深度之間的橋梁,還為更可靠、可解釋且突破性的科學發現鋪平了道路。5.4 神經與符號系統的深度融合盡管推理型LLM取得了顯著進展,但它們的透明度和可解釋性的限制仍然制約了它們在更復雜現實世界推理任務中的表現。對大規模數據模式的依賴和缺乏清晰的推理路徑,使得處理復雜或模糊問題變得具有挑戰性。早期的符號邏輯系統,盡管適應性較差,但提供了更好的可解釋性和更清晰的推理步驟,在這類問題中表現得更可靠。未來一個有前景的方向是神經與符號系統的深度融合。谷歌的AlphaGeometry[264]和AlphaGeometry2[265]將推理型LLM與符號引擎相結合,在國際數學奧林匹克(IMO)中取得了突破性進展。特別是,AlphaGeometry2利用基于Gemini的模型[249],[266],[267]和更高效的符號引擎,通過減少規則集并改進關鍵概念處理,提升了性能。該系統現在覆蓋了更廣泛的幾何概念,包括軌跡定理和線性方程。新的搜索算法和知識共享機制加速了這一過程。該系統解決了84%的IMO幾何問題(2000-2024),超過了金牌得主的平均成績。相比之下,像OpenAI-o1[29]這樣的推理型LLM未能解決任何問題。神經與符號系統的融合提供了一種平衡的方法,提高了適應性和可解釋性,對于超越數學幾何問題的復雜現實世界推理任務具有巨大潛力。5.5 多語言推理型LLM當前的推理型LLM在英語和中文等高資源語言中表現良好,展示了在翻譯和各種推理任務中的強大能力[93],[101]。這些模型在大規模數據和多樣語言資源可用的環境中表現突出。然而,它們在低資源語言中的表現仍然有限[268],面臨數據稀缺、穩定性、安全性和整體性能等挑戰。這些問題阻礙了推理型LLM在缺乏大量語言數據集和資源的語言中的有效性。未來的研究應優先解決低資源語言中數據稀缺和文化偏見帶來的挑戰。創新方法如跨推理型LLM的參數共享和領域特定知識的增量注入,可能有助于緩解這些挑戰,從而加速慢思維能力在更廣泛語言中的適應。這不僅能夠提升推理型LLM在這些語言中的效果,還能夠確保更公平地訪問先進的AI技術。5.6 多模態推理型LLM將慢思維推理能力從基于文本的領域擴展到多模態上下文仍然是一個重大挑戰,特別是在需要精細感知的任務中[96]。雖然像Virgo[269]這樣的方式已經嘗試將基于文本的慢思維推理轉化為多模態LLM,但它們在需要詳細視覺理解的任務,如MathVision[241]中的表現提升有限。關鍵的研究方向包括開發層次化推理型LLM,以實現精細的跨模態理解和生成,針對音頻、視頻和3D數據等模態的獨特特性進行定制。5.7 安全推理型LLM推理型LLM如OpenAI-o1[29]和DeepSeek-R1[31]的快速發展導致了超智能模型的崛起,這些模型能夠進行持續的自我進化。然而,這一進展也帶來了安全性和控制方面的挑戰。強化學習(RL)作為一種關鍵訓練方法,引入了如獎勵黑客、泛化失敗和語言混合等風險,這可能導致有害的結果。確保這些系統(如DeepSeek-R1)的安全性變得迫在眉睫。雖然強化學習增強了推理能力,但其不可控的性質引發了如何安全引導這些模型的擔憂。SFT在一定程度上解決了一些問題,但并不是完整的解決方案。需要結合RL和SFT的混合方法,以減少有害輸出,同時保持模型的有效性[270]。隨著這些模型超越人類認知能力,確保它們的安全、負責任和透明使用變得至關重要。這需要持續的研究,開發控制和引導它們行為的方法,從而在AI能力與倫理決策之間找到平衡。6 結論本文提供了推理型LLM研究的全面綜述。我們首先回顧了基礎LLM的進展以及系統2關鍵技術的早期發展,包括符號邏輯、蒙特卡洛樹搜索(MCTS)和強化學習(RL),探討了這些技術如何與基礎LLM結合,為推理型LLM鋪平道路。然后,我們詳細分析了最新推理型LLM的特征,考察了使其具備高級推理能力的核心方法,并突出介紹了代表性模型。通過對主流推理基準和性能比較的回顧,我們為該領域的現狀提供了有價值的見解。展望未來,我們識別了有前景的研究方向,并通過我們的實時GitHub倉庫持續跟蹤最新進展。本綜述旨在激發創新,并推動推理型LLM這一快速發展的領域的進步。

付費5元查看完整內容

相關內容

隨著像 OpenAI O3 和 DeepSeek-R1 等先進推理模型的出現,大語言模型(LLMs)展現出了卓越的推理能力。然而,它們在執行嚴格邏輯推理方面的能力仍然是一個懸而未決的問題。本文綜述了大語言模型中邏輯推理的最新進展,這是人工智能研究中的一個關鍵領域。文章概述了大語言模型中邏輯推理的范圍、理論基礎以及用于評估推理能力的基準測試。我們分析了不同推理范式下現有的能力——演繹推理、歸納推理、溯因推理和類比推理——并評估了提升推理性能的策略,包括以數據為中心的調優、強化學習、解碼策略和神經符號方法。最后,本文展望了未來的研究方向,強調了進一步探索以增強人工智能系統邏輯推理能力的必要性。

付費5元查看完整內容

博弈論為分析理性決策者之間的戰略互動建立了一個基本框架。大語言模型(LLMs)的快速發展激發了大量研究,探索這兩個領域的交集。具體來說,博弈論方法正被應用于評估和增強大語言模型的能力,同時大語言模型本身也在重塑經典的博弈模型。本文提供了這兩個領域交集的全面綜述,從三個方面探討了其雙向關系:(1) 建立基于博弈的標準化基準來評估大語言模型的行為;(2) 利用博弈論方法通過算法創新提升大語言模型的性能;(3) 通過博弈建模刻畫大語言模型對社會的影響。在這三個方面中,我們還重點強調了大語言模型的先進語言理解如何影響傳統博弈模型的均衡分析,進而擴展了博弈論的研究。最后,本文識別了當前領域中的主要挑戰和未來的研究方向,并根據現有研究的狀態評估其可行性。通過將理論嚴謹性與新興的人工智能能力結合,本文旨在促進跨學科的合作,并推動這一不斷發展的研究領域的進展。

1 引言

博弈論為分析理性主體之間的戰略互動提供了一個數學框架,自從其奠基性著作[Von Neumann and Morgenstern, 2007]以來,博弈論經歷了顯著的發展。幾十年來,它已經建立了強大的方法論基礎,包括均衡分析[Nash Jr, 1950]和機制設計[Vickrey, 1961],這些方法已成為經濟學和計算機科學等學科中不可或缺的分析工具。 隨著大語言模型(LLMs)的快速發展,研究人員越來越多地探索博弈論與大語言模型之間的交集。越來越多的研究調查了博弈論原理如何用于評估和提升大語言模型的能力,以及大語言模型如何對博弈論做出貢獻。具體來說,現有的研究應用博弈論來開發理論框架,以評估大語言模型的戰略推理能力,優化其訓練方法并分析其社會影響。關鍵的研究方向包括:

  • 標準化基于博弈的評估:研究人員正在構建基準環境,如矩陣博弈[Akata et al., 2023]和拍賣[Chen et al., 2023],以系統地評估大語言模型的戰略推理能力。
  • 博弈論算法創新:來自合作博弈和非合作博弈論的概念,如Shapley值[Enouen et al., 2024]和最大-最小均衡[Munos et al., 2024],啟發了新的模型可解釋性和訓練優化方法。
  • 社會影響建模:隨著大語言模型改變信息生態系統,新的理論框架正在涌現,以預測人類與AI互動的社會后果[Yao et al., 2024],特別是在廣告市場[Duetting et al., 2024]和內容創作[Fish et al., 2024a]等領域。

除了這些應用,最新的研究還表明,大語言模型也可以通過促進復雜文本場景中的均衡分析,以及將經典博弈模型擴展到更現實的設置,貢獻于博弈論。 現有的綜述[Zhang et al., 2024b; Feng et al., 2024; Hu et al., 2024]主要探討博弈論如何用于構建評估環境以及評估大語言模型的戰略表現。例如,[Zhang et al., 2024b]根據用于測試大語言模型能力的博弈場景將研究進行了分類,并討論了改進推理能力的方法。與此同時,[Feng et al., 2024]和[Hu et al., 2024]將大語言模型在博弈中所需的核心能力(如感知、記憶、角色扮演和推理)進行了分類。盡管這些綜述提供了有價值的見解,但它們主要聚焦于博弈論在標準化評估框架中的作用,忽略了它在推動大語言模型發展的更廣泛潛力。此外,它們采用了單向視角,將博弈論視為評估大語言模型的工具,而沒有探討這兩個領域之間的相互影響。 本文旨在彌補這一空白,探討博弈論與大語言模型之間的雙向關系。我們將博弈論與大語言模型交集的研究劃分為三個關鍵視角,如圖1所示。根據我們所知,這是首次對這兩個領域之間的雙向關系進行全面分析。 在第2節中,我們回顧了應用博弈模型評估大語言模型決策能力的研究。通過在經典矩陣博弈和復雜戰略場景中進行的實驗,揭示了大語言模型作為博弈者的優勢和局限性。除了行為評估外,我們還確定了提升大語言模型戰略決策的關鍵策略,如遞歸推理框架和將大語言模型與輔助模塊結合的方式。此外,大語言模型展示了將現實世界場景形式化為結構化博弈模型的能力,進而將博弈論分析擴展到更廣泛和復雜的背景中。 第3節探討了博弈論原理如何應對大語言模型開發中的關鍵挑戰。我們將現有的研究分為兩個主要領域:(1) 使用博弈論理解大語言模型的文本生成和訓練動態;(2) 利用博弈論機制提升大語言模型訓練算法。第一個領域探討了Shapley值如何提高模型的可解釋性,以及社會選擇理論如何促進人類與AI互動中的偏好對齊。第二個領域介紹了將博弈論目標納入研究,以解決人類偏好的異質性和復雜性等挑戰。目標包括在多智能體互動中最小化遺憾以及評價指標,如納什均衡收斂性。 第4節討論了博弈論如何用于預測和刻畫大語言模型的社會影響。人類-人工智能互動博弈模型預測了人類與AI之間競爭的影響。新興的博弈模型突出了大語言模型作為產品或平臺的商業和經濟影響。同時,經典的博弈論模型也在大語言模型獨特能力的背景下進行了推廣,例如自然語言處理。 最后,我們識別了跨這些維度的主要研究挑戰和未來方向。通過系統地分析博弈論與大語言模型的交集,我們突出了它們之間的相互影響,以及它們如何推動兩個領域的進展,為這一跨學科領域的發展做出貢獻。

2 博弈論在大語言模型評估中的應用

在本節中,我們探討大語言模型(LLMs)在博弈論框架下的應用,重點評估它們作為博弈參與者的表現。行為評估表明,大語言模型在經典矩陣博弈中面臨著識別最優行動的挑戰,但在更復雜的博弈場景中,它們能展示出類人策略。多個研究已探討了提升大語言模型作為博弈玩家表現的方法,其中兩個關鍵點是遞歸思維和輔助模塊。最后,我們還討論了大語言模型在博弈中的角色,超越其作為玩家的功能。

**2.1 大語言模型行為表現的評估

大語言模型在矩陣博弈中的困難。矩陣博弈是博弈論中的一個基礎概念。在矩陣博弈中,兩名玩家同時做出決策,結果可以通過一個有限的收益矩陣表示。最近的研究探討了大語言模型如何通過將這些博弈轉化為自然語言提示來應對這些博弈。盡管取得了顯著進展,研究結果顯示,大語言模型(如GPT-4)在2 × 2矩陣博弈中難以始終如一地選擇最優策略[Akata et al., 2023; Herr et al., 2024; Loré and Heydari, 2024; Wang et al., 2024]。 例如,[Akata et al., 2023]指出,大語言模型在協調博弈中,如性別之戰,經常未能選擇最優行動。類似地,[Loré and Heydari, 2024]研究了語境框架和效用矩陣如何影響大語言模型的決策,揭示了顯著的偏差。此外,[Herr et al., 2024]探討了游戲描述、玩家定位和收益對大語言模型表現的影響,突出了持續的行為偏差。在更動態的環境中,[Fan et al., 2024]觀察到,大語言模型在環形網絡博弈中難以預測最優策略。此外,用于評估大語言模型在144種不同2 × 2矩陣博弈中的表現的TMGBench基準進一步確認了這些局限性[Wang et al., 2024]。 矩陣博弈是博弈論的基石,也是更復雜戰略問題的基礎。研究大語言模型在這些博弈中的行為為我們提供了對它們在復雜推理任務中的局限性的寶貴洞見。 大語言模型在現實博弈場景中的類人策略。除了經典的矩陣博弈,許多研究分析了大語言模型在更現實的博弈環境中的表現。盡管這些博弈具有更大的語境復雜性,但對大語言模型來說,它們不一定更具挑戰性。這是因為基于文本內容的戰略推理有時可以替代顯式的計算。 研究表明,大語言模型能夠在基于交流的博弈中表現出戰略行為。在欺騙與談判博弈中,包括狼人殺[ Xu et al., 2023; Du and Zhang, 2024]和阿瓦隆[ Wang et al., 2023; Lan et al., 2024],大語言模型表現出欺騙、建立信任和領導力等行為——這些特質通常與人類的戰略思維相關。這些發現表明,大語言模型能夠在博弈中充當復雜的交流代理。 大語言模型在經濟學重要的博弈場景中也展示了戰略推理,如討價還價和定價博弈。例如,[Deng et al., 2024]發現大語言模型具有先進的談判技巧,[Fish et al., 2024b]表明基于大語言模型的定價代理可以自主進行價格串通,設置高于競爭水平的價格。在拍賣環境中,[Guo et al., 2024]發現大語言模型能夠根據歷史數據制定理性競標策略,通常趨向于納什均衡。類似地,[Chen et al., 2023]介紹了AucArena平臺,展示了大語言模型如何有效管理預算并優化拍賣策略。 游戲表現的綜合基準。這些發現表明,遞歸推理可以顯著提升大語言模型的戰略能力。

**2.2 提升大語言模型的博弈表現

在評估大語言模型在各種博弈中的表現的基礎上,許多研究探討了提升它們戰略推理和決策能力的方法。這些研究解決了大語言模型在博弈過程中面臨的關鍵挑戰,并提出了改善其能力的通用框架。以下,我們概述了兩種重要的方法。 遞歸思維。在需要長期或多層次推理的博弈中,大語言模型常常難以保留和利用之前的信息,導致次優決策。為了緩解這一問題,研究人員開發了鼓勵大語言模型進行遞歸思維的技術,使它們在制定戰略時能更好地利用過去的信息。 例如,[Wang et al., 2023]提出了遞歸思考(ReCon)框架,該框架在阿瓦隆游戲中鼓勵大語言模型進行一階和二階視角推理。這有助于它們避免常見的陷阱,如欺騙。類似地,[Duan et al., 2024a]提出了一種方法,讓大語言模型預測多回合博弈中的未來行動,從而提高它們預測對手策略的能力。此外,[Zhang et al., 2024a]通過k級理性推動大語言模型的推理,這增強了其多層次思維,并顯著提高了其在競爭環境中的勝率。 輔助模塊。作為語言模型,大語言模型通常在需要復雜數學計算或歷史數據檢索的博弈中表現不佳。一些研究提出了集成輔助模塊,幫助大語言模型在博弈過程中克服這些局限。 例如,[Gandhi et al., 2023]提出了一個“提示編譯器”,該編譯器系統性地指導大語言模型評估行動并形成信念,使它們能夠通過最小的上下文學習在新場景中進行推廣。在狼人殺游戲中,[Xu et al., 2023]將額外的BERT模型集成進來,用于編碼歷史和當前的游戲狀態,幫助大語言模型做出更有信息支持的決策。在討價還價博弈中,OG-Narrator框架[Xia et al., 2024]生成外部報價,允許大語言模型專注于談判語言。最近,[Hua et al., 2024]開發了一種結構化工作流程,幫助大語言模型解決博弈論問題,包括計算納什均衡和在復雜談判任務中優化策略。 這些輔助模塊顯著提升了大語言模型在各種博弈環境中的表現,證明了集成額外計算工具能夠增強它們的戰略決策能力。

**2.3 超越博弈參與者的角色

盡管大部分討論集中在利用基于博弈的場景評估大語言模型,但研究也表明,大語言模型在博弈中的能力反過來可以貢獻于博弈論。本節探討了大語言模型在博弈論框架中的替代角色,擴展了它們的應用。 在2.1節中,我們提到大語言模型在經典矩陣博弈中常常難以計算最優策略。然而,一些研究采取了替代方法,利用大語言模型的自然語言理解能力,而不是直接計算均衡。例如,[Mensfelt et al., 2024]利用大語言模型將博弈描述形式化為博弈描述語言(GDL),使外部求解器能夠處理這些描述。類似地,[Deng et al., 2025]提出了一個兩階段框架,用于翻譯廣義形式的博弈:首先,大語言模型識別信息集,然后它通過上下文學習構建完整的博弈樹。這些研究表明,大語言模型可以充當自然語言到正式博弈結構的轉換中介,提供了超越傳統模型的能力。 此外,[Horton, 2023]探討了將大語言模型用作行為經濟學實驗中的人類參與者替代品。研究結果表明,大語言模型能夠復制經典的行為經濟學結果,為社會科學研究提供了一種可擴展、成本效益高的替代方案。這突顯了大語言模型在實驗經濟學和社會科學研究中的潛力,能夠促進大規模模擬并深入洞察人類決策過程。

3. 博弈論在算法創新中的應用

本節探討博弈論原理如何通過指導算法創新來推動大語言模型(LLMs)的發展。博弈論在增強我們對LLMs的理解方面發揮了重要作用,主要通過使用Shapley值社會選擇模型等工具。這些方法為模型的可解釋性提供了寶貴的見解,使我們能夠更深入地理解LLMs如何處理和響應輸入。除了可解釋性,博弈論還為開發訓練目標和評估指標提供了框架,以應對LLM開發中的關鍵挑戰,例如模型異構性和與人類偏好的一致性。

**3.1 博弈論用于LLMs的現象學理解

這一研究方向將經典博弈論概念應用于解釋LLMs中的可觀察現象,包括文本生成模式和特定框架下訓練的固有局限性。鑒于LLMs通常因其專有性質和大規模復雜性而被視為“黑箱”,此類研究尤為重要。一種方法將合作博弈論與LLMs聯系起來,因為這些模型對輸入標記執行并行計算,并圍繞Transformer層構建。Shapley值(Shapley, 1953)是一種用于評估合作博弈中個體玩家貢獻的方法,已被用于評估特定標記和層對LLM生成輸出的影響。多項研究利用Shapley值評估提示中標記的重要性(Goldshmidt和Horovicz, 2024;Mohammadi, 2024)。例如,Mohammadi(2024)證明,LLMs通常為信息量較少的輸入組件分配過高的權重,這種行為與錯誤響應密切相關。TokenSHAP(Goldshmidt和Horovicz, 2024)通過蒙特卡洛采樣提高了Shapley值計算的效率,而TextGenSHAP(Enouen等, 2024)將該方法擴展到更長的結構化輸入-輸出場景。Liu等(2023)將Shapley值應用于多提示學習,識別出對集成生成最具影響力的提示。Zhang等(2024c)分析了LLM層的貢獻,發現早期層對輸出生成的影響更為顯著。另一個研究方向使用社會選擇理論來建模LLMs與多樣化人類偏好的一致性。該框架有助于解決LLMs與人類價值觀和決策過程對齊的挑戰(Mishra, 2023)。例如,Conitzer等(2024)分析了基于人類反饋的強化學習(RLHF)在表達人類偏好中的作用,識別出由偏好沖突引起的基本問題,并倡導在社會選擇原則下進行LLM對齊。Ge等(2024)將RLHF獎勵建模視為社會選擇過程,證明基于Bradley-Terry的方法存在違反關鍵公理的內在局限性。Qiu(2024)提出了一個代表性社會選擇框架,通過提取一小部分代表性意見來有效管理大規模偏好聚合。此外,一些研究應用博弈論來建模對齊和解碼策略。Zhang等(2024e)研究了現實世界LLM應用的社會技術影響,倡導通過激勵兼容性確保AI系統與社會目標一致并保持技術穩健性。Chen等(2025)將LLM解碼過程建模為Stackelberg博弈,其中解碼器先行動,對抗實體隨后行動。通過分析雙方的最優策略,他們的研究為啟發式采樣策略在實踐中表現良好提供了理論依據。

**3.2 博弈論用于激發LLM算法

除了增強對LLMs的理解,博弈論在設計提升其能力的算法中也發揮了關鍵作用。本節重點介紹了LLM訓練中的幾個關鍵挑戰,并說明博弈論如何應用于解決這些問題。通用人類偏好:標準的基于獎勵的RLHF僅限于捕捉傳遞性偏好(Munos等, 2024)。然而,偏好模型可以通過比較兩種策略來表達更一般的偏好,而不是為每個響應分配獎勵。這為基于偏好模型優化LLM引入了新的挑戰。基于人類反饋的納什學習(NLHF)旨在優化由偏好模型定義的博弈的馮·諾依曼贏家,為策略優化提供了一個可行且穩健的方向。基于NLHF,SPO(Swamy等, 2024)引入了表達更復雜偏好的方法,例如非傳遞性、隨機性和非馬爾可夫偏好。SPPO(Wu等, 2025)設計了一種算法,能夠在大規模語言模型中高效實現類似SPO的算法。DNO(Rosset等, 2024)通過基于回歸的目標改進了LLM優化,實現了更高效和直接的訓練。INPO(Zhang等, 2024d)引入了一種可以直接在偏好數據集上最小化的損失函數,進一步減少了NLHF中計算勝率的時間開銷。然而,Zhi-Xuan等(2024)的最新研究指出,基于偏好的方法過于簡化了人類價值觀,忽略了其復雜性、不可公度性和動態性。因此,設計更穩健的方法來對齊人類偏好仍然是一個持續的科學挑戰。人類偏好的異質性:捕捉人類注釋數據集中的異質性仍然是LLM對齊中的一個重大挑戰。忽略這種異質性通常會導致模型僅反映多數人的偏好(Fleisig等, 2023)。多項研究使用社會選擇理論開發了更具包容性的訓練和對齊算法(Chakraborty等, 2024b;Park等, 2024;Alamdari等, 2024;Chen等, 2024a)。Chakraborty等(2024b)證明了使用單一獎勵模型的不切實際性,并提出了平等主義原則來學習偏好分布。Park等(2024)建議對偏好進行聚類,并提出了一種可擴展的、激勵兼容的偏好對齊框架。Alamdari等(2024)使用Borda計數分位數公平性進行偏好聚合,確保公平性和計算可行性。Chen等(2024a)引入了一種混合建模框架來聚合異質偏好。此外,Klingefjord等(2024)從宏觀角度審視了人類偏好與訓練目標之間的差距,從哲學角度提供了解決方案。數據成本效率:博弈論還被應用于提高LLM訓練的成本效率。收集具有保證質量和覆蓋范圍的數據集通常具有挑戰性,因此一些研究使用自我博弈框架來提高數據利用率,減少所需數據量同時保持性能。Chen等(2024b)解決了僅用少量黃金標準數據微調模型的問題。借鑒生成對抗網絡(GANs)(Goodfellow等, 2020),它允許LLM在區分其響應與黃金標準答案的同時提高答案質量,最終收斂到黃金標準數據的分布。Cheng等(2024a;Zheng等, 2024)將攻擊者和防御者之間的博弈建模為兩個LLM之間的博弈。Zheng等(2024)使用攻擊者提出防御者不擅長的提示,而防御者不斷改進。Cheng等(2024a)考慮了一種經典游戲——對抗禁忌,以在不引入新數據的情況下增強模型知識獲取,從而在實驗中表現更好。此外,Zhang和Duan(2024)通過將拍賣模型納入LLM微調過程,提高了偏好數據收集的效率,證明了這種方法可以在保持強性能的同時提高微調效率。其他雙人博弈模型:除了上述文獻,一些研究在LLM的特定階段制定了其他雙人博弈模型,以增強特定能力。Chakraborty等(2024a;Makar-Limanov等, 2024;Cheng等, 2024b)將獎勵模型與LLM之間的交互建模為雙人博弈。他們的目標是解決靜態獎勵模型無法處理LLM策略分布變化的問題。他們的博弈論建模捕捉了獎勵模型和LLM的共同演化,并使用均衡求解算法提供了理論上有保證的LLM訓練方法。Jacob等(2023)觀察到,同一LLM對問題的生成性和判別性答案通常不一致。他們建模了共識博弈,其中這兩種類型的答案作為尋求共識答案的玩家。通過使用均衡求解算法,這種方法顯著提高了LLM在各種數據集上的準確性。此外,Gemp等(2024)將LLM生成長文本對話的過程建模為順序博弈,使用博弈論工具增強模型理解對話并生成適當響應的能力。

4 博弈論在LLM相關建模中的應用

本節概述了涉及大語言模型(LLMs)的博弈論模型研究。這些模型的理論分析為LLMs對人類社會的影 響提供了證據。我們將文獻分為三個主要領域。第一個領域探討了同時包含LLMs和人類的博弈論模型,旨在解釋或預測LLMs發展帶來的現象。第二個領域研究了LLMs作為產品或平臺的場景,這創造了具有博弈論動態的競爭環境,例如廣告拍賣。第三個領域擴展了經典博弈論模型,探討了LLMs的獨特能力如何推廣和完善這些模型,以應對更復雜和現實的場景。

**4.1 LLM與人類之間的競爭

這一系列研究引入了多種競爭模型,將LLMs視為博弈中的玩家(Yao等, 2024;Esmaeili等, 2024;Taitler和Ben-Porat, 2024)。這些模型通常源于一個認識:現代LLMs具有強大的內容生成能力,與人類創作者相比,其成本更低且進化速度更快。Yao等(2024)通過提出基于Tullock競賽的競爭模型,研究了LLMs對人類創作者的影響。該模型探討了人類生成內容與LLM生成內容之間的動態關系,將LLMs建模為成本為零的玩家,其輸出質量隨著人類內容質量的提高而提升。通過均衡分析,研究得出結論:LLMs并不會從根本上與人類創作者沖突或取代他們,而是會減少人類生成內容的數量,最終淘汰效率較低的創作者。Esmaeili等(2024)將該模型擴展到重復博弈環境中,重點關注人類如何在動態競爭中優化其效用。研究強調了確定最優策略的計算復雜性,并提出了提供接近最優解的實用算法。Taitler和Ben-Porat(2024)研究了基于LLM的生成式AI與人類運營平臺(如Stack Overflow)之間的競爭動態及其對社會福利的影響。該模型研究了LLMs的收入最大化問題,并揭示了類似于Braess悖論的現象:隨著人類用戶越來越依賴LLMs,原始平臺因缺乏質量提升數據而受損。此外,生成式AI模型很少進行旨在提高質量的訓練,因為成本節約的激勵措施占主導地位。研究還提出了解決這些問題的理論監管框架。LLMs的發展帶來了多樣化的社會效應,博弈論為研究這些效應提供了強大的理論框架。通過采用描述最優行為和均衡策略的適當模型,我們可以推導出具有理論保證的性質。

**4.2 伴隨LLMs出現的博弈場景

本節探討了由LLMs作為產品或平臺引發的博弈論場景。在這些場景中,LLMs并不參與博弈,而是圍繞它們展開。隨著LLMs獲得全球關注,與LLMs相關的行業正在創造巨大的商業價值。Laufer等(2024)探討了將通用模型微調作為市場服務的可行性。該研究建模了通用模型開發者與領域專家之間的談判過程。通過分析子博弈完美均衡,論文證明了利潤共享結果是可能的,并提供了確定帕累托最優均衡的方法。Sun等(2024a)研究了通過拍賣式過程為多個具有不同偏好的群體提供LLM微調服務的潛在經濟場景。研究提出了一種激勵兼容的支付方案,確保社會福利最大化。Mahmood(2024)分析了LLM部署的競爭動態,強調了市場信息的價值,并證明當任務足夠相似時,先發制人策略可能對所有任務都不具成本效益。Saig等(2024)提出了一種按偏好支付的合同設計模型,以解決當前按標記定價方案中潛在的道德風險。除了作為商品,LLMs還通過廣告收入提供潛在的商業價值,類似于搜索引擎。LLMs的出現使傳統的固定廣告位過時,促使多項研究探討將LLMs整合到廣告拍賣中(Feizi等, 2023)。Duetting等(2024)建模了一種場景,其中每個廣告商擁有一個代理LLM,并通過競價影響下一個生成標記的概率分布。研究通過修改第二價格拍賣機制,確保激勵兼容性。Dubey等(2024)假設每個廣告商提供固定的廣告副本,通過競價影響LLM生成的摘要。他們的拍賣機制確定了每個廣告商在摘要中的突出程度及其支付價格,確保激勵兼容性。Hajiaghayi等(2024)也假設每個廣告商擁有代表其內容的文檔,但在**檢索增強生成(RAG)**框架中建模廣告插入過程。該機制在LLM生成內容的每個話語段中概率性地檢索和分配廣告,基于競價和相關性優化對數社會福利。Soumalias等(2024)研究了一種場景,其中每個廣告商通過獎勵函數對LLM生成內容進行競價。他們的機制激勵廣告商真實報告獎勵函數,并在無需調優的環境中展示了操作可行性。

**4.3 LLM擴展經典博弈模型

除了上述兩個領域,本節還探討了利用LLMs增強傳統博弈論模型的研究,將其擴展到更現實的場景。LLMs的文本理解和生成能力使其成為聚合和激發意見的寶貴工具。Lu等(2024)探討了使用LLMs輔助同行評審,指出傳統的同行預測機制僅限于簡單的報告,例如多項選擇或標量數字。研究提出了利用LLMs強大文本處理能力的同行預測機制,以激勵高質量、真實的反饋。這些機制在實驗中能夠區分人類撰寫和LLM生成的評論。Fish等(2024a)使用LLMs解決傳統社會選擇理論的局限性,該理論僅限于在少數預定義替代方案中進行選擇。研究利用LLMs生成文本并推斷偏好,為設計具有嚴格代表性保證的AI增強民主進程提供了方法。Sun等(2024b)研究了LLMs如何在傳統拍賣中提供更豐富的信息。研究引入了語義增強的個性化估值拍賣框架,利用LLMs將競標者的偏好和語義項目信息整合到估值過程中。該框架將微調的LLMs與Vickrey拍賣機制相結合,以提高估值準確性和競標策略。

5 結論與未來方向

本綜述全面概述了LLMs與博弈論交叉領域的研究進展。我們從三個關鍵角度總結了博弈論在LLMs發展中的作用:提供基于博弈的標準化評估、推動博弈論算法創新以及建模LLMs的社會影響。此外,我們強調了LLMs與博弈論之間的雙向關系,探討了LLMs如何影響傳統博弈模型。基于對現有文獻的回顧,我們確定了博弈論與LLMs交叉領域的幾個有前景的未來方向。在以下部分中,我們概述了其中一些機遇和挑戰,以期推動這一多學科領域的發展。具有全面博弈能力的LLM代理:現有研究探索了在各種博弈場景中評估LLM代理,并開發了增強其推理能力的方法。然而,盡管其中一些方法展示了通用性,但其驗證仍然高度依賴于具體場景。一個關鍵的未來方向是開發精通博弈論推理的LLM代理,能夠在無需顯式定制的情況下將其知識應用于多樣化的博弈場景。實現這一目標需要在規則理解、外部環境建模和多代理推理方面取得進展。關鍵技術方面包括構建博弈論語料庫、優化微調策略以及整合工具學習技術。超越以人類為中心的評估框架:博弈論為理性和策略推理提供了完善的評估標準,例如K級理性,這些標準已被廣泛用于評估LLM智能。然而,這些評估方法最初是為人類認知設計的,可能無法完全捕捉基于下一個標記預測模型的推理過程。為了從博弈論角度全面評估LLMs,必須超越現有的以人類為中心的指標,開發專門針對基于神經網絡的模型的評估框架。這仍然是一個未充分探索的領域,具有顯著提升我們對LLMs決策理解潛力。LLMs策略行為的理論理解:將博弈論概念(如Shapley值)應用于理解LLMs的文本生成行為仍處于早期階段。大多數關于LLMs在現實場景中策略行為的研究依賴于實證觀察,而非系統的理論解釋。例如,Park等(2025)引入了假設模型來解釋為什么LLMs在重復博弈中難以達到無遺憾學習者的表現水平。將此類理論研究擴展到更復雜的場景(如狼人殺、阿瓦隆或討價還價博弈)至關重要。對LLM策略行為的更深入理論理解將有助于定義其能力邊界,并為進一步提高其推理能力提供見解。捕捉LLM優化中的合作博弈:許多利用博弈論優化LLM訓練的研究(如第3.2節所述)主要關注非合作博弈場景。盡管非合作方法是一個自然的選擇,但合作博弈論方法為LLM優化提供了額外的見解。例如,在專家混合模型中,不同的專家網絡可以被視為合作博弈的參與者。采用合適的收益分配機制(如Shapley值或核心概念)可以優化專家選擇和任務分配,減少冗余并提高計算效率。類似地,在集成學習和知識蒸餾中,不同的子模型可以被視為協作代理,共同優化決策邊界或轉移知識。有效的獎勵分配和權重調整策略可以增強子模型之間的協作,減少冗余計算并提高泛化能力。將合作博弈論方法整合到LLM訓練和優化中,可能提供新的理論見解和實際解決方案。多LLM與人類合作的建模:如第4.1節所述,先前的研究主要集中在建模LLMs與人類之間的競爭互動,揭示了其社會影響。然而,除了競爭,理解多個LLMs與人類之間的合作動態仍然是一個重要的研究方向。一個關鍵挑戰是設計激勵機制,激勵LLMs在完成人類分配任務時進行協作,同時考慮其目標。對LLM代理目標和行為的理論描述對于彌合博弈論機制設計與實際部署之間的差距至關重要。推進這一研究方向可能有助于開發更有效地與人類目標一致并對社會產生積極影響的LLMs。利用LLMs作為預言機擴展理論博弈模型:如第4.3節所述,多項研究探討了如何利用LLMs擴展經典博弈論模型。這些研究的關鍵見解是,LLMs憑借其強大的語言理解和生成能力,可以作為博弈論框架中具有特定功能的預言機。這一視角為放寬理想化假設或使用LLMs替代各種博弈模型中的理論預言機提供了新的機會。通過這種方式,以前僅停留在理論層面的模型現在可以實際實施,同時保留近似的理論性質。系統探索LLMs如何在不同理論模型中作為適應性預言機,可以彌合抽象博弈論概念與實際應用之間的差距。

付費5元查看完整內容

摘要—大規模語言模型(LLMs)在各種自然語言處理(NLP)任務中取得了顯著成功,但它們的推理能力仍然是一個根本性挑戰。盡管LLMs在流暢性和事實回憶方面表現出色,但在進行復雜推理時——涵蓋邏輯推理、數學問題求解、常識推理以及多步驟推理——它們的表現常常未能達到人類的預期。本文綜述了增強LLMs推理能力的新興技術,并將現有方法歸類為幾種關鍵途徑,包括提示策略(如鏈式思維推理、自一致性推理和樹狀思維推理)、架構創新(如檢索增強模型、模塊化推理網絡和神經符號集成)以及學習范式(如使用推理專用數據集的微調、強化學習和自監督推理目標)。此外,本文還探討了用于評估LLMs推理能力的評估框架,并強調了如幻覺、魯棒性和推理在不同任務中的泛化等挑戰。通過綜合近期的進展,本文旨在為推理增強型LLMs的未來研究方向和實際應用提供見解。關鍵詞—大規模語言模型(LLMs)、推理、邏輯推理、數學問題求解、常識推理、多步驟推理、提示策略、鏈式思維推理、自一致性推理、樹狀思維推理、檢索增強模型、模塊化推理網絡、神經符號集成、強化學習、自監督學習、幻覺、人工智能推理。最近發布的LLM DeepSeek-R1 [1] 在數學和編程等復雜任務中表現突出,展示了先進的推理能力。它能夠有效模擬類似人類的分析思維,提升數學、邏輯和編程等領域中的多步驟推理能力。

I. 引言

大規模語言模型(LLMs)在自然語言處理(NLP)領域引發了革命性的變化,實現了機器翻譯、文本生成、問答系統等復雜語言任務的突破。盡管這些模型在流暢性和知識保持方面表現出色,但它們在系統性推理方面常常遇到挑戰——這一能力對于需要邏輯推理、問題解決和決策的任務至關重要[2]。雖然LLMs能夠生成似是而非的回答,但它們經常出現推理錯誤、不一致性和幻覺,限制了它們在科學發現、法律和醫學等關鍵領域的可靠性[3][4]。人工智能中的推理廣泛涵蓋了多個認知過程,包括演繹推理、歸納推理、溯因推理和常識推理[5]–[9]。與基于檢索的知識綜合不同,推理要求進行多步驟的邏輯轉換、上下文推廣和結構化問題求解。傳統的人工智能方法通過基于規則的符號系統處理推理問題[10][11],然而將這種結構化推理與基于數據驅動的LLMs范式相結合,仍然是一個持續的挑戰。近期的研究探索了多種方法來增強LLMs的推理能力。這些方法可以分為三個領域:(1)提示策略,如鏈式思維(CoT)推理[12]、自一致性推理[13]和樹狀思維推理[14]方法,這些方法利用結構化提示來引導逐步推理;(2)架構創新,包括檢索增強模型[15]、神經符號混合框架[16]以及整合結構化知識和邏輯的模塊化推理架構[17];(3)學習范式,涉及使用專用數據集的微調[18]、強化學習以保持推理一致性[1]和鼓勵邏輯泛化的自監督目標[19]。在近期的進展中,剛發布的LLM DeepSeek-R1 [1]在推理性能上表現出色,特別是在數學和編程等復雜領域。DeepSeek-R1通過有效模擬類人分析思維,增強了數學問題求解、邏輯推理和編程任務中的多步驟推理,展示了微調架構和新型訓練范式在提升LLMs結構化推理方面的潛力。本綜述系統地回顧了LLM推理的這些進展,評估了它們的有效性、局限性和應用,涵蓋了評估基準、對抗性魯棒性、跨領域泛化和推理偏見等關鍵挑戰。通過綜合近期的進展,本文提供了對有前景的技術和未來研究方向的全面概述。本文的結構如下:第二節介紹推理的基礎,第三節探討基于提示的推理增強,第四節討論架構創新,第五節考察基于學習的方法,第六節重點討論評估和基準測試,第七節強調挑戰和開放研究方向,第八節總結全文。

2. AI和LLMs中的推理基礎

2.1 定義和推理類型推理是從前提或證據中得出結論的認知過程。它可以分為以下幾種類型:演繹推理:從一般前提中得出具體結論。如果前提為真,結論必須為真。這種方法在形式邏輯和自動定理證明中是基礎。歸納推理:從具體例子或觀察中得出一般原則。這種方法在機器學習的模式識別和預測中很常見。溯因推理:推斷給定觀察的最可能解釋,常用于診斷和假設形成。常識推理:應用一般世界知識來推斷合理結論,這對于理解人類交流中的隱含意義至關重要。概率推理:使用概率論處理邏輯推理中的不確定性,通常在貝葉斯網絡和馬爾可夫模型中實現。2.2 經典AI推理方法傳統的AI研究長期以來一直專注于結合結構化知識表示的形式推理技術。一些關鍵的經典方法包括:符號邏輯:使用一階邏輯(FOL)和命題邏輯推導結論的形式規則系統。基于規則的系統:應用預定義規則推斷邏輯結論的AI模型,用于專家系統和決策樹。知識圖譜:實體及其關系的結構化表示,支持通過圖遍歷和推理機制進行推理。自動定理證明(ATP):使用邏輯演繹證明數學定理的算法,如命題邏輯中的歸結原理。貝葉斯網絡:通過表示變量之間的依賴關系,在不確定性下進行推理的概率圖模型。盡管這些經典方法提供了強大的邏輯基礎,但它們在應用于開放式、非結構化問題(如自然語言理解)時,面臨著可擴展性和適應性的挑戰。2.3 大語言模型中的推理大語言模型(LLMs)如GPT-4、PaLM和LLaMA利用深度學習架構(主要是Transformer)來處理和生成類人文本。然而,它們的推理能力與傳統AI方法有顯著不同:統計學習與符號邏輯:與遵循顯式邏輯規則的符號AI不同,LLMs學習語言數據中的概率模式,使其推理隱含且非確定性。涌現的推理能力:研究表明,擴展LLMs可以提高其執行多步推理任務的能力,盡管缺乏顯式邏輯約束。上下文和提示驅動的推理:LLMs嚴重依賴上下文窗口和外部提示工程技術(如鏈式思維提示)來生成推理響應。邏輯推理的局限性:雖然LLMs在識別語言模式方面表現出色,但它們在形式邏輯、數學證明和系統驗證結論方面表現不佳。2.4 LLMs推理的挑戰盡管取得了進展,LLMs在實現穩健和可靠的推理方面仍面臨幾個挑戰:幻覺:LLMs有時會生成看似合理但錯誤的信息,導致不可靠的推理。缺乏顯式記憶:與知識圖譜或基于規則的系統不同,LLMs缺乏結構化的長期記憶,使得推理一致性難以維持。多步推理的困難:盡管鏈式思維提示等技術有所幫助,但LLMs經常無法正確遵循多步邏輯結構。偏見和可解釋性問題:由于LLMs在大量文本語料庫上訓練,它們會繼承數據中的偏見,這可能會以不可預測的方式影響推理輸出。跨領域泛化的局限性:在多樣化數據集上訓練的LLMs仍然難以在不同領域之間轉移推理技能(如法律推理與科學推理)。2.5 彌合AI推理與LLMs之間的差距為了增強LLMs的推理能力,最近的研究探索了將傳統推理技術與深度學習相結合的混合模型。關鍵方向包括:使用結構化推理數據進行微調:在專門關注邏輯推理和數學問題解決的數據集上訓練LLMs。檢索增強推理:通過知識檢索機制增強LLMs,使其能夠基于外部事實生成響應。神經符號AI:將神經網絡與符號推理框架相結合,以利用兩者的優勢。自監督和強化學習技術:鼓勵模型通過迭代自訓練和獎勵機制來優化其推理。

3. 基于提示的推理增強

大語言模型(LLMs)通過結構化提示展示了涌現的推理能力,繞過了微調的需要。本節探討了關鍵的提示技術,如圖1所示,并在表I中進行了總結。3.1 鏈式思維(CoT)推理鏈式思維(CoT)推理是一種提示技術,用于提高大語言模型(LLMs)解決復雜推理問題的能力。它涉及將問題分解為一系列中間步驟,使模型能夠更有效地推理并得出準確的結論。該技術在復雜的數學問題解決、邏輯推理和常識推理中特別有效。逐步推理:模型生成一系列邏輯步驟來解決問題,而不是立即回答,從而提高多步問題解決的準確性。中間推理:該方法通過考慮子問題來模仿人類的問題解決過程,然后再得出最終答案。性能提升:研究表明,與標準提示相比,CoT提示在算術和邏輯任務中的表現有所提高。局限性:雖然CoT增強了可解釋性,但其有效性取決于提示設計和模型大小。在某些情況下,模型可能仍會生成錯誤的中間步驟。3.2 自一致性提示自一致性提示是一種先進的提示技術,通過生成多個不同的推理路徑并選擇最一致的答案來提高推理準確性。該方法在復雜推理任務中非常有用,因為單一的鏈式思維(CoT)可能容易出錯。該技術通過聚合輸出來減少響應的變異性并提高準確性。多個推理路徑:模型生成多個不同的推理鏈,而不是單一的逐步解決方案。多樣化的思維過程:每個推理鏈可能遵循不同的邏輯方法,減少了單一軌跡中的偏見。最終答案的多數投票:最終響應基于生成的樣本中最頻繁出現的正確答案。3.3 樹狀思維(ToT)推理樹狀思維(ToT)推理是一種高級問題解決框架,通過探索樹狀結構中的多個可能推理路徑來擴展CoT推理。與遵循單一線性推理路徑不同,ToT允許在每個步驟中進行分支和評估,從而產生更穩健和最優的解決方案。結構化探索:模型在樹狀結構中探索不同的路徑,選擇最優的推理路線。決策評估與剪枝:ToT推理在組合和規劃任務中特別有效。最終答案選擇:基于評分或多數選擇過程選擇最佳推理路徑。3.4 程序輔助語言模型(PAL)程序輔助語言模型(PAL)是一種通過允許模型調用外部計算工具(如Python或符號求解器)來執行計算、執行基于邏輯的步驟或驗證解決方案的技術。與純粹依賴內部基于標記的推理不同,PAL利用外部代碼執行來提高準確性和可靠性。基于執行的驗證:模型生成代碼格式的推理步驟,執行代碼以驗證正確性。數學推理中的更高準確性:PAL在需要精確計算的任務中表現出色。依賴外部工具:該方法需要與外部計算環境集成,限制了其可擴展性。實證研究表明,CoT和自一致性提示顯著提高了推理性能,特別是在數學和邏輯等結構化領域。

4. 增強推理的架構創新雖然基于提示的技術提高了大語言模型(LLMs)的推理能力,但架構創新在增強其執行結構化和復雜推理的能力方面起著至關重要的作用。本節探討了各種模型架構和修改,以提高邏輯推理、多步推理和知識集成。

4.1 檢索增強生成(RAG)檢索增強生成(RAG)是一種結合信息檢索與文本生成的AI框架。它通過結合外部知識源來增強LLM推理。與僅依賴參數記憶相比,該方法提高了響應的準確性、相關性和事實基礎。查詢處理:輸入查詢被處理并嵌入到向量空間中。模型使用檢索系統(如密集段落檢索、BM25)搜索相關文檔。檢索到的文檔被附加到輸入中。知識增強推理:基于查詢和檢索到的信息,RAG模型補充其推理過程。減少幻覺:通過將響應基于外部數據,RAG有助于減少純生成模型中常見的幻覺。4.2 神經符號混合模型神經符號混合模型結合了神經網絡(擅長模式識別和從數據中學習)與符號AI(支持推理、邏輯和顯式知識表示)。這種融合旨在創建更可解釋、可泛化和穩健的AI系統。邏輯與學習的集成:這些模型使用神經網絡處理非結構化文本,同時使用符號邏輯進行基于規則的推理。神經網絡提取特征,而符號系統提供邏輯推理。增強的可解釋性:符號組件提高了透明度,使推理步驟更易解釋。基于規則的系統、知識圖譜和形式邏輯支持結構化推理。4.3 記憶增強神經網絡記憶增強神經網絡(MANNs)是將外部記憶與神經網絡集成的AI模型,使其能夠動態存儲、檢索和操作信息。MANNs可以從外部記憶模塊中讀取和寫入數據,使其在長序列推理一致性、終身學習和少樣本學習任務中更具適應性。控制器(神經網絡核心):處理輸入并管理與內存交互的神經網絡(通常是RNN或Transformer),決定何時以及如何讀取/寫入數據。外部記憶存儲:一種結構化記憶組件(如可微分記憶矩陣或鍵值存儲),用于隨時間保存信息。與僅依賴隱藏狀態的標準RNN不同,MANNs顯式檢索和更新記憶。記憶訪問機制:記憶增強神經網絡中的讀/寫操作通常是可微分的,支持基于梯度的學習。尋址機制包括基于內容的尋址(通過評估與存儲數據的相似性來檢索記憶)和基于位置的尋址(基于位置或順序訪問記憶)。

4.4 圖神經網絡(GNNs)和知識圖譜圖神經網絡(GNNs)通過顯式表示實體及其關系,提供了結構化推理框架,支持邏輯推理和多跳問答。結構化表示:圖神經網絡是設計用于處理圖結構數據的神經模型。與傳統的深度學習模型(處理圖像等網格或文本等序列)不同,GNNs可以建模相互連接實體之間的復雜關系。知識圖譜上的推理:知識圖譜將事實表示為實體和關系的結構化格式,通常為三元組(主語、謂語、賓語)。當GNNs應用于知識圖譜時,它們支持推理、推斷和發現隱藏關系。提高可解釋性:基于知識圖譜的推理通過使推理路徑顯式化來增強透明度。

4.5 工具使用和API增強LLMs可以通過外部工具和API增強推理能力,利用語言建模之外的專業計算資源。程序化推理:模型調用外部計算器、定理求解器或搜索引擎來驗證推理步驟。動態數據集成:如表II所示,API支持實時訪問更新知識,提高推理的事實準確性。局限性:依賴外部服務會引入延遲,并需要訪問控制機制。實證結果表明,檢索增強和神經符號模型在結構化推理任務中優于標準Transformer架構。

5. 基于學習的推理方法除了提示和架構創新外,基于學習的方法在提高大語言模型(LLMs)的推理能力方面至關重要。這些方法涉及訓練范式,如使用推理特定數據集進行微調、強化學習以提高一致性,以及自監督學習以支持邏輯推理。本節探討了各種基于學習的方法,以增強LLMs的推理能力。

5.1 使用推理特定數據集進行監督微調在高質量推理數據集上微調LLMs可以提高模型的邏輯、數學和常識推理能力。數學和邏輯推理:在MATH和GSM8K等數據集上微調,增強了數學問題解決和邏輯推理能力。常識和因果推理:在SWAG和Abductive NLI(aNLI)等數據集上微調,幫助模型學習常識推理和溯因推理。科學和多跳推理:在ARC和HotpotQA等數據集上微調,提高了多步推理和問答能力。盡管微調可以顯著提高模型性能,但需要仔細的數據集策劃,以防止過擬合并確保泛化能力。

5.2 基于人類反饋的強化學習基于人類反饋的強化學習(RLHF)等方法訓練模型,使其推理與人類偏好保持一致。邏輯一致性的獎勵模型:RLHF根據人類評估者的反饋優化模型輸出,減少邏輯推理中的錯誤。獎勵模型(RM)訓練:人類評估者根據偏好評估多個模型輸出。一個專門的神經網絡(稱為獎勵模型)在這些排名上進行訓練,以捕捉人類偏好。模型生成并評估其推理步驟,通過迭代學習優化正確解決方案。通過近端策略優化(PPO)進行強化學習:PPO是一種強化學習算法,用于優化模型,同時防止其基礎性能的劇烈偏離。

5.3 自監督和對比學習用于推理自監督學習(SSL)和對比學習(CL)已成為訓練大規模語言模型進行推理任務的有效方法。與依賴人工標注數據的監督學習不同,SSL和CL利用數據中的固有結構來創建有用的表示并提高推理能力。用于邏輯推理的對比學習:通過訓練模型區分有效和無效的推理鏈,對比學習提高了邏輯一致性。對比學習優化對比損失(如InfoNCE或Triplet Loss),鼓勵正確的推理對具有更高的相似性分數。使用合成數據進行自訓練:模型生成合成推理路徑并驗證其正確性,迭代優化其推理能力。零樣本和少樣本推理改進:自監督學習通過使模型能夠直接從原始數據中提取抽象推理模式,增強了模型在新推理任務中的泛化能力。

5.4 自動驗證器和批評模型為了進一步提高推理準確性,LLMs可以與自動驗證器配對,后者對模型的輸出進行批判性評估。二次驗證模型:一個單獨的模型評估LLM的推理輸出,過濾掉錯誤的推理。形式證明檢查:與定理證明器集成,允許模型嚴格驗證邏輯推理。局限性:由于難以形式化自然語言推理,自動驗證仍然具有挑戰性。

6. LLMs推理的評估和基準測試

評估大語言模型(LLMs)的推理能力需要使用標準化的基準和性能指標進行系統評估。本節探討了各種評估方法,包括推理基準、關鍵性能指標、與人類推理的比較分析以及當前評估策略的局限性。

6.1 流行的推理基準

已經開發了多個基準來評估LLMs在不同推理方面的能力,從數學問題解決到邏輯推理和常識推理。

  • ARC(A12推理挑戰):通過要求跨不同知識領域的多步推理來衡量常識和邏輯推理能力。
  • LogiQA:評估邏輯推理能力的數據集,特別是在演繹和溯因推理場景中。
  • GSMBK:專注于小學數學推理問題的數據集,評估多步算術推理能力。
  • MATH:測試模型在高中和競賽級別數學上的基準,評估形式數學推理。
  • BIG-Bench:涵蓋各種推理任務的廣泛數據集,包括邏輯推理、抽象和多跳推理。
  • ProofWriter:評估模型執行自動定理證明和邏輯推理的能力。
  • HotpotQA:專注于多跳問答的數據集,要求模型結合來自多個來源的信息進行推理。
  • HumanEval:評估LLMs生成代碼的能力。它評估模型理解編程相關任務并根據提供的規范生成語法正確且功能準確的代碼的能力。
  • ANLI(對抗性NLI):通過對抗性生成的推理任務測試模型在自然語言推理中的表現。
  • HellaSwag:測試常識自然語言推理的基準。它要求模型預測句子最可能的結尾。
  • 測量大規模多任務語言理解(MMLU):評估57個學科中的一般知識和問題解決能力,包括初等數學、美國歷史、計算機科學和法律。

VII. 挑戰與開放研究方向

盡管在增強大規模語言模型(LLMs)推理能力方面取得了顯著進展,仍然存在若干挑戰。這些局限性妨礙了它們在高風險領域的可靠性、魯棒性和適用性。本節討論了關鍵挑戰,并提出了解決這些問題的開放研究方向。A. 幻覺與虛假信息LLMs推理中的一個關鍵挑戰是生成幻覺或事實錯誤的信息[20]。未驗證的推理步驟:LLMs有時會生成看似合理但實際上不正確的推理鏈,導致邏輯不一致[48]。事實檢查機制:現有的事實檢查技術未能有效過濾多步驟推理任務中的虛假信息[30]。開放研究方向:開發自動化驗證工具,并將LLMs與結構化數據庫集成,以提高事實準確性。B. 跨領域泛化LLMs往往難以將推理能力泛化到不同領域,限制了它們在新場景中的適應性[49]。領域特定過擬合:在特定推理數據集上進行微調可能會提升目標任務的性能,但卻妨礙了模型在未見領域中的適應性[32]。跨領域遷移學習:當前的遷移學習方法在保持推理一致性方面存在局限性,尤其在不同語境下[19]。開放研究方向:研究元學習和持續學習策略以促進跨領域泛化。C. 對抗性攻擊的魯棒性LLMs容易受到對抗性擾動的影響,這些擾動利用推理中的弱點,導致錯誤或誤導性的輸出[44]。對輸入變化的敏感性:在提示詞中做出微小修改可能會導致推理輸出發生顯著變化,影響模型的可靠性。對抗性魯棒性測試:現有的基準測試并未充分評估LLMs在對抗性推理挑戰中的表現[27]。開放研究方向:開發穩健的對抗性訓練技術,提高模型對輸入操控的抗性。D. 結合符號推理與神經推理LLMs依賴于統計模式識別,而非形式化的邏輯推理,這導致它們在復雜推理任務中出現錯誤[16]。純神經網絡方法的局限性:LLMs在結構化邏輯、形式證明和抽象符號推理方面表現較差[40]。神經符號人工智能:將神經網絡與符號推理框架結合,可以增強邏輯一致性和可解釋性[16]。開放研究方向:推進混合神經符號架構,以增強推理的人工智能模型。

VIII. 結論推動大規模語言模型(LLMs)中的推理能力發展是人工智能發展的一個關鍵里程碑。盡管在提示技術、架構創新和基于學習的方法上有所進步,但在邏輯一致性、泛化能力、魯棒性和可解釋性等方面仍然存在挑戰。本文綜述了增強LLM推理能力的關鍵方法,將其分類為提示技術、架構創新和基于學習的策略。

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

 冷啟動問題是推薦系統中一個長期存在的挑戰,主要集中在準確建模新用戶或互動有限的用戶,或新物品,以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長,冷啟動推薦(CSR)的重要性日益顯現。與此同時,大語言模型(LLMs)已取得了巨大的成功,并具備強大的用戶和物品信息建模能力,為冷啟動推薦提供了新的潛力。然而,冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此,本文基于大語言模型時代的背景,提供了一項關于冷啟動推薦的全面綜述,討論了其路線圖、相關文獻及未來方向。具體而言,我們探討了現有的冷啟動推薦如何利用信息發展路徑,包括從內容特征、圖譜關系和領域信息,到大語言模型所擁有的世界知識,旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新,供社區參考,

鏈接://github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下,推薦系統(RecSys)已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署,但仍面臨持續的挑戰,特別是在“冷啟動”場景中,即新用戶或物品沒有歷史交互數據可用的情況下。具體來說,在現實場景中,冷啟動問題可能表現為新物品的引入、新用戶的加入,或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要,而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先,解決這個問題確保新用戶和物品得到公平的推薦,減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性,通過防止新物品被忽視,促進了多樣化內容的曝光【114, 288】。此外,解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中,為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶,避免了由于推薦內容不相關或缺失而導致的用戶流失,從而留下了強烈的初始印象,培養了忠誠度。對于平臺而言,這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后,能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加,能夠有效整合這些新實體的持續涌入,使推薦引擎保持動態和相關性,這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機,冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據,如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】,這些方法豐富了冷啟動實體的表示和建模,使推薦系統在數據稀疏的情況下依然能夠有效運作。因此,解決冷啟動問題不僅僅是一個技術挑戰,更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】,重點關注分類文本特征,如物品類別、物品標題和用戶資料,這些對冷啟動實體的表示起著至關重要的作用。隨后,隨著圖挖掘技術的進步【101, 225, 231】,從圖結構中派生出的高階關系,如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時,有研究者開始轉向不同領域之間的關系,而非挖掘圖中節點之間的關系【92, 249】。特別是,目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別,提升冷啟動推薦的表現。近年來,大語言模型(LLMs)的興起,如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理,展示了在理解和生成類人文本方面的卓越能力,這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變,借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識,研究人員開始探索為冷啟動用戶和物品建模和表示的新策略,以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢,突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略,并逐步擴展知識范圍(如圖1所示)。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述,特別關注大語言模型時代下知識范圍擴展的方向,如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作,如圖2b所示。基于這些工作,我們將現有研究按照外部知識源的規模分為四個知識范圍:內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法,本文綜述旨在呈現對冷啟動推薦領域的全面理解,并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力,并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍,但沒有明確界定具體的冷啟動問題。隨后,IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息,并首次明確界定了系統冷啟動和用戶冷啟動問題,涵蓋了2021年前相關文獻。更近的綜述,如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量,特別是【246】重點關注用戶冷啟動問題。總體來說,現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面(特征、圖譜、領域和LLMs),并同時處理多個冷啟動問題。在本文中,我們旨在填補這一空白,提供一篇全面且系統的綜述,涵蓋220篇文獻,明確界定9個不同的冷啟動問題,并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻,我們采用了半系統化的綜述方法來識別相關論文。首先,我們通過預定義的搜索關鍵詞,如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”,查詢了主要學術數據庫,如Google Scholar和Web of Science。此外,我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果,以評估其相關性。然后,對相關文獻進行了進一步的詳細審閱,并使用引用鏈方法(snowballing)找出了更多相關論文。最終,我們根據貢獻將收集到的文獻分為四個核心領域,分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識,如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架,少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

  • 開創性的全面綜述:我們提出了首個關于冷啟動推薦方法的全面綜述,系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻,考察了它們的動機、數據需求和技術方法,并提供了領先會議(如SIGIR、CIKM、KDD)和期刊(如TKDE、TOIS)中的研究出版物的時間線和統計概述,如圖2所示。
  • 創新的分類法引入:我們提出了一種新的分類法,提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來,超越傳統方法,向更廣泛的冷啟動問題解決方案擴展。
  • 冷啟動問題的明確定義:根據我們的知識,本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文,包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
  • 前瞻性的研究路線圖:基于我們的全面綜述和創新的分類法,我們提出了一個前瞻性的研究路線圖,連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導,提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下,我們可以發現,當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而,隨著互聯網的快速發展,推薦系統面臨的一個重大挑戰是冷啟動推薦(CSR),即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于,新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下,系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此,冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法,從第2.2節對不同冷啟動問題的詳細定義開始,到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論,涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息,用以表征其屬性,如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄,內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式,我們將方法分為兩類:數據不完整學習(第3.1節),它解決了沒有歷史交互的嚴格冷啟動場景;以及數據高效學習(第3.2節),它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息,而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而,該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息,因為缺乏歷史交互數據。首先,這里簡要介紹一下圖神經網絡(GNNs),它們在本節被廣泛用于圖關系推理: 近年來,圖神經網絡(Graph Neural Networks, GNNs)受到了極大的關注,并在許多圖挖掘任務中展示了最前沿的性能,如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞(message-passing)范式,通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分,推薦系統近年來涌現出大量基于GNN的推薦模型,并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制,在圖結構中建模用戶-物品交互,從而更好地理解用戶偏好和物品相關性,并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中,只有少數平臺能夠實現顯著的用戶參與,而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此,跨域遷移學習【213, 290】提供了一個有前景的解決方案,通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同,跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識,而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶,并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法,我們將現有的研究工作分為三類:域知識遷移(第5.1節)、域分布對齊(第5.2節)和域不變表示學習(第5.3節),如圖6所示。

6 來自大語言模型的世界知識

大語言模型(LLMs)是通過深度學習技術訓練的生成型人工智能系統,旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯,甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功,越來越多的領域開始利用大語言模型的能力來完成各種任務,如多模態學習【217】、圖學習【159】和推薦系統【219】,并取得了顯著成果。由于大語言模型強大的文本特征處理能力,冷啟動,尤其是零樣本和少樣本場景,已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色,我們將現有的研究工作分為兩個主要方面:大語言模型作為推薦系統(第6.1節)和大語言模型作為知識增強器(第6.2節)。

結論

在本文中,我們對冷啟動推薦進行了全面的綜述,并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言,我們首先正式定義了冷啟動推薦領域的不同研究問題,然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中,我們不僅總結了相關研究背后的核心洞見,還列舉了一些代表性工作,以幫助讀者更好地理解。此外,我們重新審視了冷啟動推薦的一些關鍵挑戰,并總結了一些有意義的未來研究方向。相關資源已整理至Github:

付費5元查看完整內容

基于Transformer架構的大語言模型展現出強大的能力,是人類邁向通用人工智能(AGI)的一個重大進步。大語言模型架構和算法的演 進分為提高推理效率、提高模型能力兩條技術路線。介紹了兩條技術路線主流的技術方案和思路。提高推理效率的方法有分布式推理、計算優 化、訪存優化、量化等;提高模型能力主要是引入新的架構,如混合專家(MoE)模型、狀態空間模型(SSM)等。 OpenAI 于 2022 年、2023 年 分 別 發 布 ChatGPT[1] 和 GPT4[2] ,其強大的會話能力、多模態能力震驚業界,是人 類邁向通用人工智能 (AGI) 的一個重大進步。ChatGPT和 GPT-4能力強大的原因有兩個:一是Transformer[3] 架構的自 注意力機制,可獲取任意距離間單詞的相關信息;二是大 模型、大數據、大算力,規模超過了一定閾值,則會產生 涌現能力[4] 。 目前各大公司都發布了自己的大語言模型 (LLM)。本 文中,我們主要介紹大語言模型在兩條技術路線上的架構和 算法的演進。 1.1 語言模型的發展歷程 語言模型的發展經歷了統計語言模型、神經語言模型、 預訓練語言模型和大語言模型4個階段[5] 。其結構從基于統 計概率發展到基于神經網絡,模型復雜度不斷增加,能力也 出現了質的提升。 1) 統計語言模型 最初的語言模型是基于統計概率的,即根據語料統計出 在某個上下文出現某個詞的概率,根據概率選擇最合適的詞。 2) 神經語言模型 文獻[6]首次將神經網絡引入語言模型。常見的模型結 構有循環神經網絡 (RNN)[7] 、長短期記憶網絡 (LSTM)[8] 等。RNN用隱藏層保存逐個輸入的詞的信息,但由于梯度 消失和梯度爆炸,只能保留短期信息。LSTM使用門控機制, 可以選擇性地保留長期信息。 3) 預訓練語言模型 ELMo[9] 用預訓練的雙向LSTM網絡根據上下文動態生成 詞向量,解決了一詞多義問題。雙向LSTM網絡可以在下游 任務上微調,得到更好的效果。基于Transformer的雙向編碼 器表征法 (BERT)[10] 也采用了預訓練+下游任務微調的 范式。 4) 大語言模型 預訓練語言模型的性能隨著規模的增大而提高,成冪律 關系[11-12] 。OpenAI設計了大型語言模型GPT-3[13] 。該模型表 現出強大的能力,性能和規模超越了冪律關系,出現了涌現1.2 大語言模型算法演進路線 大語言模型的發展主要有兩條技術路線:一是提高推理 效率,降低推理成本;二是提高模型能力,邁向AGI。 大語言模型能力強大,有廣闊的應用前景,各廠商都在 積極部署,提供服務。但是,由于模型規模巨大,算法對硬 件不夠友好,需要消耗大量的算力、存儲、能源。因此,如 何降低推理成本、推理延時,是一個亟待解決的問題。大語 言模型主要的技術路線有分布式推理、減小模型計算量、減 小模型訪存量、提升硬件親和性等。 大語言模型是邁向AGI的重大進步,而Transformer是其 中的核心架構,發揮了重大作用。但Transformer也有一定的 不足,如計算量大,通過提升規模來提升性能更加困難;上 下文窗口長度有限,難以支持超長序列。研究人員通過引入 新的結構,解決這些問題,取得了較好的效果。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。

大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:

  • 量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外,較少的位可能表示更高的并行性和更快的推理速度。
  • 剪枝致力于移除預設計模型中不重要的組件(例如,神經元,層等),從而減少推理成本中的內存和計算成本。
  • 知識蒸餾引入一個預訓練的大模型作為教師,并將其知識轉移到一個新的較小的模型上,后者稱為學生模型。然后,較小的模型將幾乎擁有與教師相同的能力,并享受較少的內存和計算成本。
  • 緊湊架構設計設計新的運算符,以較低的成本替換(通常是近似)原始模型中的笨重運算符。對于Transformer模型,自注意力是主要目標,通常被其他運算符替換。
  • 動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網,每個樣本只選擇超網的一個子結構進行推理。專家混合(MoE)是一種動態推理。 此外,上述方法也可以組合使用,以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而,LLMs也為模型壓縮帶來了許多新的挑戰:
  1. 許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。

  2. 與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容
北京阿比特科技有限公司