亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

將強化學習(Reinforcement Learning,RL)融入多模態大語言模型(Multimodal Large Language Models,MLLMs)推理能力的研究方向正迅速發展,成為一項具有變革性的前沿課題。盡管多模態大語言模型在傳統大語言模型(LLMs)的基礎上顯著擴展,能夠處理圖像、音頻和視頻等多種模態,但在多模態輸入下實現穩健推理仍面臨重大挑戰。本文系統回顧了基于強化學習的多模態推理研究進展,涵蓋核心算法設計、獎勵機制創新以及實際應用案例。我們重點分析了兩大類強化學習范式——無價值函數方法(value-free)和基于價值函數方法(value-based),并探討了RL如何通過優化推理軌跡與對齊多模態信息來增強推理能力。此外,本文還全面梳理了主流基準數據集、評估方法以及當前研究的局限性,并提出了未來可能的研究方向,以應對稀疏獎勵、低效的跨模態推理以及真實場景部署等關鍵瓶頸。我們的目標是為有志于推進多模態時代RL推理研究的學者提供一個系統而全面的參考指南。

1 引言

大型語言模型(Large Language Models,LLMs)的興起 [2, 35, 36, 94, 130] 為人工智能領域帶來了前所未有的新紀元,展現出卓越的指令遵循能力和少樣本學習能力 [10]。然而,實現類人智能不僅需要超越基礎感知能力,更需要發展出能夠通過上下文理解和自我糾錯進行迭代推理的復雜認知能力。受此啟發,情境學習(In-context Learning,ICL)技術 [112, 113, 121] 賦予了LLMs逐步推理的能力,這種機制通常被稱為“思維鏈條”(Chain-of-Thought,CoT)推理機制 [9, 109, 114, 146]。OpenAI 的 o1 模型 [45] 在解決推理任務方面表現出色,引發了各領域對推理能力推理時間擴展(test-time scaling)研究的廣泛關注。通過在推理過程中引入額外計算以實現“慢思考” [49],該模型進一步提高了對復雜問題的回答準確性。

在LLMs中廣泛開展的CoT研究啟發下,多模態大語言模型(Multimodal Large Language Models,MLLMs)中的推理任務 [6, 69, 96, 105, 119] 也迅速取得進展。典型的方法包括 Best-of-N、Beam Search 以及蒙特卡洛樹搜索(Monte Carlo Tree Search)[13, 99, 108, 125, 132]。這些方法依賴復雜的搜索機制生成大量推理數據,并通過監督微調使模型學習自主推理能力。

隨著強化學習(Reinforcement Learning,RL)理論和技術的進步,DeepSeek R1 [37] 展示了大語言模型如何通過基于規則的簡單激勵機制和輕量級強化學習算法(如GRPO [85])自主學習復雜推理能力。這種方法使LLMs在無明確監督的情況下自然產生“靈光一現”(Aha Moment),表現為訓練過程中模型自我反思并自主延長回答長度。近期研究 [43, 63, 76, 150] 將該方法擴展至MLLMs,并應用于目標識別 [63]、語義分割 [60] 和視頻分析 [91] 等領域。這些方法在訓練數據有限的情況下顯著提升了MLLMs的性能,在域內測試中可媲美監督微調(SFT)方法,在分布外(OOD)評估中更是超越了SFT模型。

然而,正如圖1所示,這一迅速發展的趨勢也為研究人員帶來了諸多挑戰。盡管基于RL的方法有效,但大多數仍延續文本思維范式,忽視了在多模態場景中其他模態所扮演的關鍵角色。此外,當前的RL推理方法主要依賴基于規則的獎勵函數與可驗證答案,未能覆蓋更廣泛的泛化場景問題,如無明確答案的問題。 盡管已有多項綜述聚焦于MLLMs的推理能力 [54, 110],但尚無文獻專門針對MLLMs中基于RL的推理方法進行系統探討。為填補這一空白,本文系統綜述了基于RL的MLLMs推理方法,全面梳理技術發展、方法體系、實際應用與未來方向,旨在為快速演進的MLLM推理研究提供系統化的參考與指導,從而推動該領域的持續創新。

我們首先在第2節介紹MLLMs、思維鏈條推理機制和強化學習的相關背景。接著在第3節回顧LLMs和MLLMs中RL算法設計及其優化策略;第4至第6節詳述RL在MLLMs中推理方法的算法設計、獎勵機制與基準評估;最后,第7節探討當前限制與未來研究方向。 本文從以下四個關鍵視角出發,系統分析MLLMs中基于強化學習的推理方法: * 探索RL在LLMs與MLLMs中的關鍵設計與優化策略:重點分析無價值函數方法(value-free)與基于價值函數方法(value-based)的核心理念與改進方向,探討其在提升訓練效率、穩定性與推理性能方面的創新方案,比較各方法優劣與未來優化潛力。 * 分析現有基于RL的推理方法的算法框架、獎勵函數設計及模態融合策略:從所使用的強化學習算法、獎勵機制(以準確性或結構為導向)及多模態輸入整合(包括視覺、音頻與時序信息)等維度,對代表性方法進行系統分類。 * 調研評估MLLM推理能力的基準數據集與評估協議:分析數據集的構建流程,包括數據來源、模型輸出收集及偏好標注方法,涵蓋數學、科學、空間、交互等多種類型的推理任務,并按領域特異性與泛化能力進行組織。 * 識別當前局限并提出未來研究方向:討論當前面臨的挑戰,如稀疏與靜態的獎勵反饋、低效的推理路徑與薄弱的跨模態協同等問題,探討包括層級化獎勵建模、視覺引導的CoT生成以及適用于真實多模態智能體的輕量級RL框架等前景方向。

付費5元查看完整內容

相關內容

多模態大型語言模型(Multimodal Large Language Models,MLLMs)已迅速發展,超越了文本生成的范疇,如今能夠覆蓋圖像、音樂、視頻、人類動作以及三維物體等多種輸出模態。它們通過在統一架構下將語言與其他感知模態整合,實現了跨模態的生成能力。本文綜述將六大主要生成模態進行分類,并探討了若干核心技術——包括自監督學習(Self-Supervised Learning, SSL)、專家混合機制(Mixture of Experts, MoE)、基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)以及思維鏈提示(Chain-of-Thought, CoT)——如何賦能跨模態能力。我們分析了關鍵模型、架構趨勢及其涌現的跨模態協同效應,并重點指出了可遷移的技術路徑與尚未解決的挑戰。諸如 Transformer 和擴散模型等架構創新為這種融合奠定了基礎,使得跨模態遷移與模塊化專精成為可能。本文還總結了跨模態協同的最新發展趨勢,并指出了評估方式、模塊化設計及結構化推理等方面的開放性難題。該綜述旨在提供一個關于 MLLM 發展的統一視角,并指明實現更通用、可適應、可解釋的多模態系統的關鍵路徑。

1 引言

自 2022 年底首次亮相以來,基于文本的大型語言模型(Large Language Models,LLMs)已成為人工智能領域的基礎支柱。這些模型不僅重塑了人工智能的格局,也深刻融入了我們的日常生活。它們的演進推動了自然語言處理、人機交互以及多模態應用等方面的創新,為各個領域的無縫集成鋪平了道路。隨著發展,LLMs 已從最初的簡單文本生成模型,演進為支持上下文學習(in-context learning)【16, 109, 149, 51】、指令跟隨(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的復雜系統,正在重塑我們與計算機交互、完成任務和創造數字內容的方式。

然而,智能并不局限于語言本身。人類通過豐富的模態——文本、視覺、音頻、動作等——來感知和理解世界。硬件的進步使得機器具備了處理、解釋和生成這些多樣化數據流的能力。這一技術趨勢正推動研究社區邁向更加整體化的多模態方法,促使人工智能與人類復雜的感知方式更緊密對齊。因此,先進模型不僅擅長理解和生成文本,還能將文本與視覺結合【123】,或與音頻整合【40】。這種演進也體現在輸出形式上,它們正日益呈現出多模態和通用化的特征,突破了傳統單一模態的響應模式。如今的模型常常以混合類型的數據作為輸入【109, 147】,這一多模態集成正在推動人工智能系統逐步理解現實世界的復雜性【1】,不斷逼近人類通用理解的能力。

雖然文本依然是這些模型處理的核心要素,但其生成能力已擴展至多個輸出模態。為更好地理解這種多樣性,本文提出了一個全新的分類方式,將多模態大型語言模型(Multimodal Large Language Models,MLLMs)的主要生成輸出劃分為六大關鍵類別:

文本生成文本(Text-to-Text, T2T):為所有語言類任務及自然語言處理的基礎,支撐著信息檢索、摘要生成、翻譯與對話系統。

文本生成圖像(Text-to-Image, T2I):用于視覺內容的生成與分析,是各類視覺生成任務的核心。 * 文本生成音樂(Text-to-Music, T2M):音樂是一種復雜的聽覺媒介,包含多種樂器與情感表達,其建模難度高于一般音頻。 * 文本生成視頻(Text-to-Video, T2V):結合時間與視覺信息以生成動態場景,涉及現實物理規律,類似一個世界模型。 * 文本生成人類動作(Text-to-Human-Motion, T2HM):廣泛應用于動畫、機器人與虛擬人等場景,是實現直觀人機交互的重要方式。 * 文本生成三維物體(Text-to-3D-Objects, T2-3D):對虛擬現實、游戲與設計等應用至關重要,有助于在沉浸式環境中實現想象與交互。

這六大類別代表了當前生成模型所涉及的主要模態,每種模態對應一種獨特的數據輸出形式與應用場景。本文將音樂單獨歸為 Text-to-Music(T2M),而非更廣義的 Text-to-Audio,這是因為語音與文本關系密切,本質上是一種可直接相互轉換的形式;而音樂則擁有與語言截然不同的結構、節奏、和聲與創作元素,建模復雜性更高,因此值得單獨對待。通過明確劃分這些能力,我們希望強調生成模型所能覆蓋的廣泛輸出范式,每種模式既有獨特的應用場景,也伴隨著專屬的技術挑戰。

支撐這些多模態生成能力的,是一系列基礎性的架構創新,主要包括 Transformer【152】及其核心的注意力機制【5】,以及在眾多視覺生成任務中表現突出的擴散模型(diffusion models)【106】。隨著模態復雜度的不斷提升,人工智能系統所需應對的問題日益復雜,模型結構與訓練方法也在不斷演進。這種演進往往是解鎖模型涌現能力的關鍵【165】。其中有四項技術在提升模型推理能力方面起到了決定性作用:三項主要用于訓練階段,分別是自監督學習(Self-Supervised Learning,SSL)【121】、專家混合機制(Mixture of Experts,MoE)【62】以及基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)【26】;第四項是用于推理階段的思維鏈提示(Chain-of-Thought,CoT)【164】。

自監督學習(SSL):在訓練階段使模型從海量未標注數據中學習,通過預測輸入中被遮蔽的信息,建立起對語言、模式與世界知識的基礎理解,為復雜推理提供必需支持。 * 專家混合機制(MoE):通過選擇性激活不同“專家”子網絡,以較低的計算開銷顯著提升模型容量,能更高效地學習多樣知識與復雜模式,是增強高級推理能力的關鍵手段。 * 基于人類反饋的強化學習(RLHF):一種訓練階段的微調方法,使模型更符合人類偏好與行為預期。通過人類排名數據訓練,RLHF 能提升模型輸出的一致性、可靠性與指令理解能力。 * 思維鏈提示(CoT):在推理階段引導模型生成一系列中間步驟,以增強多步推理能力。這種顯式的思維過程有助于更準確且透明地處理復雜問題。

已有的綜述文獻也為理解 MLLMs 的發展提供了重要參考。[8] 提出了多模態學習的核心框架,并總結了代表性挑戰,包括表示學習、模態翻譯、模態對齊、模態融合與協同學習,奠定了 MLLM 研究的基礎。[17] 評述了以視覺為中心的 MLLMs,涵蓋其架構、模態對齊策略以及視覺定位、圖像生成等應用。[183] 關注多模態模型中的人類偏好對齊機制,[30] 則深入探討了模型的可解釋性與可理解性,是可信 AI 的關鍵因素。[182] 詳盡梳理了 MLLMs 在粒度、多模態與多語言覆蓋及應用場景上的演進,并進一步推進了如多模態上下文學習、思維鏈推理、LLM 輔助視覺理解等新方法。[95] 系統地回顧了 MLLMs 在多種模態下的應用與安全性問題,[158] 則深入探討了多模態思維鏈推理(Multimodal Chain-of-Thought, MCoT)在不同任務中的潛力。

為全面理解這一不斷演化的研究圖景,本文結構如下:第 2 節介紹背景知識與基本概念,并定義本文的綜述范圍與方法論;第 3 節對前述六大生成模態(T2T, T2I, T2M, T2V, T2HM, T2-3D)的歷史發展進行梳理;第 4 節討論四項核心技術(SSL, MoE, RLHF, CoT)的發展過程與關鍵作用;第 5 節綜合分析跨模態的趨勢、面臨的挑戰以及架構層面的共性,探索模態與技術之間的協同效應;第 6 節展望未來研究方向,如擴展 SSL 至新模態、模塊化專家機制、以及非文本模態的思維鏈推理等;第 7 節總結全文核心觀點,并探討通向統一多模態系統的發展路徑。

付費5元查看完整內容

大語言模型(LLMs)的最新進展顯著提升了其執行復雜推理任務的能力,實現了從快速直覺思維(系統1)到緩慢深度推理(系統2)的跨越。 盡管系統2推理能提高任務準確性,但其“慢思考”特性以及低效或不必要的推理行為往往導致巨大的計算成本。相比之下,系統1推理計算效率更高,但性能表現欠佳。因此,如何在性能(收益)與計算成本(預算)之間取得平衡至關重要,這也催生了“推理經濟性”的概念。 本綜述對LLMs訓練后階段和測試時推理階段的推理經濟性進行了全面分析,涵蓋: 1. 推理低效的成因; 1. 不同推理模式的行為分析; 1. 實現推理經濟性的潛在解決方案

通過提供可落地的見解并指出開放挑戰,我們旨在為優化LLMs推理經濟性的策略提供啟示,從而推動這一新興領域的深入研究。此外,我們開放了一個公共資源庫,持續追蹤這一快速發展領域的最新進展。

**1 引言

大語言模型(LLMs)在各類語言理解與生成任務中展現出卓越性能,尤其是伴隨思維鏈(Chain-of-Thought, CoT)提示(Wei et al., 2022)技術的出現,該技術要求模型通過顯式的分步推理生成最終答案。盡管LLMs在多數場景中表現優異,但其依賴快速直覺思維的機制在面對復雜推理挑戰(如高階數學(AIME, 2025; Zhong et al., 2023)與編程任務)時往往力有不逮。為此,近期研究試圖通過慢速深度思考(Wang et al., 2025a)進一步提升LLMs的推理能力,例如OpenAI的o1(OpenAI, 2024)、DeepSeek的R1(DeepSeek-AI et al., 2025)與QwQ(QwQ, 2025)等模型,從而催生了大推理模型(Large Reasoning Models, LRMs)的興起與推理階段的新擴展定律(Snell et al., 2024)。 然而,這一進步代價高昂。此類LRMs需耗費顯著更長的思考時間以生成冗長的CoT推理鏈,導致巨大的推理開銷。但并非所有任務均需如此深度的思考——任務復雜度各異,若對所有問題采用“一刀切”策略,將造成計算與時間資源的浪費。更甚者,長推理鏈中的大量標記(tokens)往往對最終答案無實質貢獻。研究發現,LRMs常將過量資源(Wu et al., 2025; Cuadron et al., 2025)浪費于無效思考(如“過度思考”),卻未為真正困難的問題分配足夠算力(如“思考不足”)(Snell et al., 2024; Wang et al., 2025e)。 能力與效率的失衡引出了一個核心挑戰——實現推理經濟性(Reasoning Economy),即通過優化標記使用(預算)、減少冗余步驟、動態調整算力分配,達成全局最優解。這不僅可提升LRMs的效率,還能像人類一樣“智能”地停止或深入思考(Aggarwal et al., 2023; Kimi Team et al., 2025),充分釋放模型潛力。隨著推理經濟性日益重要,亟需系統性地理解LRMs的推理行為、揭示高效化面臨的挑戰,并明確解決方案。 本綜述首次對LRMs的推理經濟性進行全面系統的梳理。具體而言,我們首先建立LRMs的理論基礎(§2),解析訓練后方法(§2.1)(如監督微調與強化學習)如何塑造推理行為,以及測試時策略(§2.2)(如并行與序列化推理)如何影響模型表現。基于此,我們深入分析推理經濟性的挑戰(§3),將其歸類為模型自身的低效行為(§3.1)或測試時的低效使用(§3.2)。最后,我們從兩方面探討優化推理經濟性的解決方案: 1. 訓練后行為調控(§4):從數據、算法乃至模型架構源頭修正不良推理模式; 1. 測試時動態計算適配(§5)。 此外,我們討論了開放挑戰并展望未來研究方向(§6)。通過提供清晰的結構化路線圖,本研究旨在為推動更可持續的LRMs發展提供可落地的指導。

付費5元查看完整內容

通過將思維鏈(CoT)推理在類人逐步推理過程中的優勢擴展到多模態場景,多模態思維鏈(MCoT)推理近年來引起了廣泛的研究關注,尤其是在與多模態大語言模型(MLLMs)的結合方面。現有的MCoT研究設計了多種方法論和創新推理范式,以應對圖像、視頻、語音、音頻、3D和結構化數據等不同模態的獨特挑戰,并在機器人、醫療、自動駕駛和多模態生成等應用中取得了廣泛成功。然而,MCoT仍然面臨獨特的挑戰和機遇,需要進一步關注以確保該領域的持續繁榮。遺憾的是,目前缺乏對這一領域的最新綜述。為了填補這一空白,我們首次對MCoT推理進行了系統性綜述,闡明了相關的基礎概念和定義。我們從不同應用場景的多個角度提供了全面的分類和深入的方法論分析。此外,我們還對現有挑戰和未來研究方向提出了見解,旨在推動多模態通用人工智能(AGI)的創新。

關鍵詞:多模態推理,思維鏈,多模態大語言模型

1 引言

大型語言模型(LLMs)[1–7]的出現為人工智能(AI)領域開啟了一個前所未有的時代。長期以來,人們認識到與真實世界環境的多模態本質對齊的必要性,相應地,AI領域從LLMs發展到多模態大語言模型(MLLMs)[8–18],將多種模態整合到語言智能中。實現人類水平的智能需要超越基本的感知能力,達到復雜的認知推理能力——這是人類認知的標志,能夠通過上下文理解和自我修正進行迭代推理。受此啟發,上下文學習(ICL)技術使LLMs能夠展示逐步推理——通常稱為思維鏈(CoT)推理機制[19–24]。該技術使模型能夠將問題分解為一系列中間步驟,從而增強決策的透明性以及在復雜推理任務中的表現。CoT推理在廣泛的下游復雜任務中的顯著成功推動了其在學術界和工業界的廣泛應用。特別是最近的技術進步將這一能力隱式地集成到尖端系統中,如OpenAI的o1/o3 [25]和DeepSeek R1 [26],引起了廣泛關注。將CoT推理整合到多模態場景中,進一步催化了AI的變革性進展,催生了多模態思維鏈(MCoT)推理[27, 28]。由于CoT屬性和跨模態數據交互的異質性,MCoT主題產生了一系列創新成果。一方面,原始的CoT框架已演變為包含分層思維結構的高級推理架構,從線性序列[19]到基于圖的表示[23]。另一方面,與單模態文本設置不同,視覺、聽覺和時空數據等多樣化模態需要專門的處理策略——視覺推理需要對靜態場景和對象關系進行精確感知和分析,而視頻理解則需要強大的時間動態建模能力。這些需求推動了多種復雜MCoT方法的發展,這些方法使推理過程適應特定模態的特征,例如Multimodal-CoT [29]、MVoT [30]、Video-of-Thought [31]、Audio-CoT [32]、Cot3DRef [33]和PARM++ [34]。MCoT的顯著效果也使其在自動駕駛[35–38]、具身AI [39–41]、機器人[42–45]和醫療[46–50]等關鍵領域成功應用,使其成為實現多模態通用人工智能(AGI)的基礎技術。近年來,MCoT的研究吸引了越來越多的關注。圖1展示了這一新興領域的關鍵里程碑時間線。盡管MCoT在增強多模態推理方面具有巨大潛力,但它也提出了重大挑戰,并留下了幾個關鍵問題未解——例如,如何確定利用多樣化多模態上下文的最有效策略,設計真正增強MLLMs推理能力的CoT過程,以及在這些模型中實現隱式推理。值得注意的是,缺乏全面的綜述阻礙了這一新興領域的知識整合。為了填補這一關鍵空白,本文首次對MCoT推理進行了系統性綜述,提供了對技術發展、方法論、實際應用和未來方向的結構化分析。我們希望本綜述能夠成為權威參考,推動這一快速演進領域的進一步創新和進展。1.1 貢獻首次綜述:本文是首次專門對MCoT推理進行全面綜述的論文。全面分類:我們提出了一個細致的分類法(見圖2),對MCoT研究中的多樣化方法進行了分類。前沿與未來方向:我們討論了新興挑戰,并概述了未來研究的有前景的方向。資源共享:我們整理并公開了所有相關資源,以支持和加速研究社區的進展。1.2 綜述結構本綜述的其余部分組織如下。我們首先介紹與MCoT相關的基本概念和背景知識(§2)。然后,我們回顧了不同模態下MCoT的最新研究(§3)。接下來,我們提供了一個分類法,并從多個角度整合了MCoT的主流方法(§4)。隨后,我們總結了MCoT的廣泛下游應用(§5)。接著,我們從多個角度概述了數據集和基準測試(§6)。最后,我們討論了該領域的挑戰和未來方向(§7)。

付費5元查看完整內容

基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。

1. 引言

多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:

  • 我們提供了一份關于多模態基礎模型的機制可解釋性的全面綜述,涵蓋了生成式VLMs、對比VLMs和文本到圖像擴散模型。
  • 我們引入了一個簡單直觀的分類法,有助于區分單模態和多模態基礎模型中的機制方法、發現和應用,突出了關鍵的研究空白。
  • 基于LLMs和多模態基礎模型之間的機制差異,我們識別了多模態可解釋性中的基本開放挑戰和局限性,并為未來的研究提供了方向。

2. 分類法

在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節

在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。

4 多模態模型的LLM可解釋性方法

我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測

探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens

Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤

與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解

在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。

5. 專門針對多模態模型的可解釋性方法

許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。

6. 基于機制見解的多模態模型應用

在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準

在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。


8. 主要開放挑戰

盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。


9. 結論

我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。

付費5元查看完整內容

語言長期以來被認為是人類推理的基本工具。大型語言模型(LLM)的突破激發了大量研究興趣,推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程,如樹搜索和反思性思維。近年來,學習推理的趨勢逐漸興起,強化學習(RL)被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡,大大擴展了LLMs的推理能力,通過提供大量的訓練數據。此外,近期研究表明,鼓勵LLMs在推理過程中使用更多標記(即“思考”)進行測試時推理,能夠顯著提升推理準確性。因此,訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中,我們對LLM推理的最新進展進行了全面回顧。首先,我們介紹LLM的基礎背景,然后探討推動大型推理模型發展的關鍵技術組成部分,重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目,致力于構建大型推理模型,并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失,思維也將會嚴重缺失。” — 諾姆·喬姆斯基 得益于深度學習的進展和大規模數據集的可用性,大型語言模型(LLMs)已成為邁向人工通用智能(AGI)的轉型性范式。這些龐大的AI模型通常采用Transformer架構,并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明,隨著模型規模和訓練數據的增加,它們的性能顯著提升 [59]。更重要的是,LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159],例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題,能夠處理更廣泛的任務,如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中,人類般的推理能力受到了學術界和工業界的廣泛關注,因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160],該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理,而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性,并推動了“樹狀思維” [172] 等更高級提示技術的發展。 這些方法引入了“思維”這一概念,將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟,LLMs的推理超越了簡單的自回歸標記生成,能夠實現更復雜的認知架構,如樹搜索 [172] 和反思性推理 [180]。

近年來,學習推理成為一個重要的研究趨勢 [103],其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂,特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題,近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題,借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是,研究人員提出了在這些推理軌跡上訓練過程獎勵模型(PRMs) [183]。PRMs可以提供密集的逐步獎勵,促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴,并創造了一個“強化循環”,有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展,正如理查德·薩頓所預測的那樣 [139]。因此,這一新興范式通過增加訓練時的計算資源,實現了LLM推理能力的擴展,為更高級的推理模型鋪平了道路。

此外,近期的研究表明,增加測試時計算資源也可以提高LLM的推理準確性。具體而言,PRMs可以引導LLMs評估并搜索中間“思維”過程 [134],鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟,從而提升推理準確性。這一方法促成了測試時擴展法則,該法則預測,在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此,基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合,展示了一個有前景的研究方向,旨在充分釋放LLMs的推理能力,即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑,展示了該方法的有效性,并呼應了OpenAI在邁向AGI的五步路線圖中,從對話AI(一級)到更強大推理AI(二級)的過渡愿景 [36]。一些開源項目,如OpenR [145]、LLaMABerry [185] 和Journey Learning [110],致力于復現OpenAI的o1強大推理能力,為大型推理模型的開發提供了寶貴的見解。

在本綜述中,我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言,第三節聚焦于訓練數據構建,強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法,重點討論訓練時計算資源的增加;第五節則討論了測試時擴展,特別是基于PRM引導的搜索。在第六節中,我們分析了OpenAI的o1系列及其他開源項目,探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術,第八節回顧了推理基準測試。最后,我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段,有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前,我們首先概述一般LLM預訓練的基本過程。通過預訓練,LLMs不僅獲得了核心的語言知識,還掌握了多樣化的世界知識,為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常,LLM預訓練依賴于高質量的文本語料庫,包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫,LLMs基于Transformer架構,通過下一個詞預測任務進行訓練。預訓練后,LLMs通常表現出卓越的上下文學習能力,能夠生成連貫的文本,并利用其龐大的知識庫回答各種問題。值得注意的是,預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如,研究表明,富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察,新開發的LLMs開始引入精心設計的合成數據,以增強LLMs的推理能力。在預訓練過程中,一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例,以保持強大的語言能力,同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力,但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里,我們首先概述基本的微調過程,然后探討其在增強推理能力方面的潛力。如文獻[104]所述,預訓練階段結束后,LLMs進入監督微調階段(SFT),也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格,確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的,這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現,新的方法涌現出來,用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術,以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集,微調過程繼續使用下一個詞預測目標,類似于預訓練。然而,與預訓練不同的是,微調特別計算答案的損失,而通常忽略問題的損失。此外,結合包含思維鏈(CoT)推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力,這使其成為一個活躍的研究領域。遵循一般實踐,大多數當前方法利用從高級大型推理模型中提取的數據進行微調,以增強LLMs的推理能力,從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練,這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中,對齊階段通常涉及使用人類反饋的強化學習(RLHF)等方法,以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比,這一階段通常包含大量精心策劃的人工標注的排名數據,以準確反映人類偏好。這些數據不僅包括正確的示范,還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型,這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本,提出了直接偏好優化(DPO)等方法,以減少對顯式獎勵模型的依賴。在DPO中,偏好損失被定義為策略的函數,以直接指導模型優化。鑒于推理問題的多步驟性和復雜性,基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型,基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠,但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法:逐步推理、多路徑探索和基于分解的方法。 逐步推理方法以思維鏈提示為例,展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示,如“讓我們一步一步地思考”,也能有效地引導推理過程。這種方法通過自我一致性(Self-Consistency)進一步改進,生成多個推理路徑以得出更可靠的結論,以及自動生成有效推理鏈的Auto-CoT。 多路徑探索方法超越了線性推理,同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構,從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構,允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起,豐富了這一范式,從而能夠更動態地與外部環境互動。 對于復雜問題,基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件,而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。 這些廣泛的推理能力通過結構化提示策略得到增強,在處理需要仔細分析和系統思考的任務時特別有效,使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明,盡管LLMs具備固有的推理能力,但通過提示過程中的仔細引導和結構,可以充分釋放其潛力。 2.5 代理工作流 在LLMs的指令遵循和上下文學習能力之上,研究人員開始設計代理工作流,以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力,但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力,使LLMs能夠高效地推廣到未見問題,而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題,但最近的研究表明,上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景,例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明,有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建:從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而,由于成本高昂,這一任務面臨重大挑戰。如圖1所示,人工標注被廣泛認為是高質量的,但其成本高昂且難以擴展。相反,使用LLMs自動化標注過程提供了一種更具成本效益的替代方案,但面臨驗證有限的挑戰,特別是對于逐步推理過程。在本節中,我們回顧了該領域的最新研究進展(總結在表1中),強調了從人工標注到LLM自動化的轉變。 3.1 人工標注 人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征,同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明,即使使用最少的人工標注數據,模型也能實現強大的性能,突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習(RLHF)的背景下,來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎,Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性,顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰(如復雜推理任務)之間的差距。 增強LLMs的推理能力需要過程監督,即人工標注者指導推理過程的每一步[75]。然而,這種監督需要大量的人工標注數據,使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據,其數量對模型性能至關重要,完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注,利用LLMs加速標注過程,同時保持人工生成標注的高質量。具體來說,標注過程可以分為兩個階段:預標注階段和精煉階段。在預標注階段,LLMs可以用于執行初始標注,利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段,人工標注者可以評估LLM生成標注的質量,并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程,最近的工作越來越關注如何在確保數據質量的同時最大化自動化,從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務,特別是在需要復雜操作(如過濾、識別、組織和重構文本數據)的場景中。這些任務通常繁瑣、耗時,并且需要大量的人力,使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰,利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記,LLMs可以輕松處理長文本和大規模結構化數據[2],以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景,同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務,LLMs顯著減少了對人力的依賴,簡化了標注過程,并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務,從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下,LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如,Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置,LLM能夠理解周圍上下文中的邏輯關系,生成相關問題,并確定適當的工具API來解決問題。當有人工示范時,LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務,人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明,即使是零樣本LLMs,在基于人工示范的任務無關提示下,也能有效地執行標注任務[65]。此外,對于涉及高度復雜和細微軌跡的任務,LLMs可以結合專門的代理,如計劃代理、工具代理和反思代理,以解決標注過程的不同方面,從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務,LLMs不僅推斷潛在邏輯結構,還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果,還捕捉導致這些結果的完整推理過程的標注數據集,為下游應用提供更豐富的見解。 除了基于人工示范的標注外,LLMs可以通過帶有反饋的搜索獨立增強其標注能力,這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式,作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據,LLMs參與了一個自我改進的循環,增強了其理解和推理能力[70]。此外,LLMs可以系統地分析其錯誤的原因,提取關鍵見解并將其編碼為自學習知識,以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對,從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制,LLMs不僅解決了錯誤,還開發了更強大的推理能力,使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注 在復雜的推理任務中,模型輸出的每一步都可能顯著影響最終結果,因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵,即過程標注。然而,手動標注這些步驟既昂貴又耗時。例如,Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集,即PRM800K,該數據集滿足了訓練有效過程獎勵模型(PRM)的要求,并大大增強了LLMs的推理能力。因此,自動化方法越來越需要高效的過程標注,以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外,基于蒙特卡羅的方法減少了對外部更強LLMs的依賴,可以使用較弱的LLMs完成數據標注,從而通過自我強化的方式訓練更強的LLMs。 使用更強的LLM進行標注:作為一種直接的自動化標注方法,Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注,而是使用預訓練的高性能模型(如GPT系列)來評估每個生成的步驟。通過利用更強外部模型的能力,這種方法提高了標注過程的準確性和可擴展性,使其更適合大規模任務。然而,這種方法的主要限制在于其對高度能力的外部模型的依賴,這意味著標注過程的性能最終受限于所使用的外部模型的能力。 通過蒙特卡羅模擬進行標注:為了減少對強大外部模型的依賴,Wang等人[148]和Wang等人[156]提出了一種改進方法,避免直接評分中間步驟。相反,他們的方法使用外部模型從給定的中間輸出繼續推理幾步,并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。 通過樹搜索模擬進行標注:使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率,Luo等人[85]提出了一種改進方法,用蒙特卡羅樹搜索(MCTS)策略取代重復的蒙特卡羅模擬。在這種改進方法中,使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比,MCTS利用樹搜索提高推理質量,同時允許葉節點共享高質量的父節點,減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能,超越了人工標注。 在基于MCTS的模擬基礎上更進一步,Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數(PRM),進而提高大型語言模型(LLM)的性能。精煉后的LLM隨后用于重復基于MCTS的模擬,生成更高質量的標注。這種涉及改進循環的迭代過程,通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色,包括數學問題解決、問答和多領域知識推理,展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理:從監督到強化微調

雖然預訓練模型在各種任務中表現出色,但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要,可以優化模型在特定任務上的表現并增強其推理能力。最初,使用監督微調(SFT),模型從標注數據集中學習任務特定的模式。然而,隨著推理挑戰的增加,強化學習(RL)和直接偏好優化(DPO)等方法提供了更有效的方法,使用獎勵模型更高效地將模型的輸出與類人推理對齊,促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM:監督微調 監督微調(SFT)是一種學習技術,它使用標注數據優化預訓練模型在特定任務或領域的能力,同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征,但微調通過將模型暴露于較小的、任務特定的數據集(具有清晰的輸入-輸出映射)來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟,通過將其從通用系統適應為領域特定工具,使其能夠應用于下游任務。例如,像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練,賦予它們廣泛的語言理解和生成能力。然而,它們的輸出并不總是與任務特定要求對齊。如果沒有微調,LLMs在某些推理任務上往往表現不佳,例如對象計數、衛星理解和工程問題回答。通過SFT,我們可以基于標注的任務特定數據集優化模型的輸出,從而部分解決這些挑戰。 然而,直接應用SFT可能無法充分探索模型在所需領域中的推理能力,特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程,通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT,LLMs被鼓勵顯式生成中間推理步驟,從而增強其推理能力,以應對需要更結構化和有組織思維的任務。例如,ReasonBert[29]表明,使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現,通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性,并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調,模型不僅提高了最終答案的準確性,還增強了其“思考”問題的能力,提供了對模型推理過程的更清晰見解。 盡管SFT方法多樣且表現優異,但它也存在一些局限性。首先,SFT嚴重依賴高質量的標注數據集,這些數據集的策劃成本高昂且耗時,特別是對于需要專家標注的利基領域或任務。其次,SFT可能導致災難性遺忘,即模型在微調過程中失去一些預訓練的通用知識,降低了其在微調領域之外的推理任務的實用性。最后,即使采用參數高效的方法,大規模模型的微調計算成本仍然很高,對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法,如提示調優或多任務微調,以平衡任務專業化和泛化。

4.2 優化預訓練LLM:強化學習 由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本,強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同,RL使模型能夠通過試錯獎勵信號學習,發現實現特定目標的最佳策略。如圖2(a)所示,模型根據其當前狀態采取行動,并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數,優化累積獎勵。 經典強化學習:RL已成為LLMs發展的關鍵步驟。在RL框架中,LLMs的參數根據其行動的獎勵進行更新。具體來說,價值函數或Q函數根據獎勵模型的反饋進行更新,將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架,使其在概念上更直接,同時增強了模型有效響應的能力。目前,兩種關鍵方法主導了LLMs的RL訓練:人類反饋強化學習(RLHF)和AI反饋強化學習(RLAIF)。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外,通過在人類標注的示范和排名比較上微調GPT-3,他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊,盡管規模較小,但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架,他們對基礎模型進行微調,使用拒絕采樣訓練偏好模型,并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。 為了減少對大規模人類標注數據集的依賴,Bai等人[9]提出了Constitutional AI,這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段:監督學習和RLAIF。在監督階段,模型基于憲法原則批評和精煉其輸出,創建微調數據集。在RLAIF階段,模型生成自我評估以指導訓練,繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs,一個用于基于RL的微調的庫,以及GRUE基準,該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰,他們提出了自然語言策略優化算法,通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。 直接偏好優化:經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程,無需顯式獎勵模型。DPO不是優化復雜的獎勵函數,而是使用成對偏好比較,即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程,同時保留了基于RL方法對齊的好處,通常更簡單且更有效。Rafailov等人[112]引入了DPO,這是一個用于對齊語言模型的新框架,它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略,DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明,DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法(如PPO),同時更穩定、計算效率更高,并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化(ODPO),這是DPO的擴展,用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移,與質量差異成比例。這種方法不僅改進了對齊,還增強了模型的推理能力,特別是在情感控制、毒性減少和摘要等任務中。實驗表明,ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。 總之,RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵,這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程,避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務,最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理 對于復雜的推理任務,如數學問題解決,LLMs需要執行多步推理(如思維鏈)以最終得出準確的解決方案。在這些任務中,獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2(b)所示,這被稱為結果獎勵模型(ORM)。在這種情況下,提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。 經典強化學習:ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型,PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比,ReFT能夠學習更多樣化的推理路徑,在推理任務中表現出更強的泛化能力。然而,VinePPO[60]發現,使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差,這是RL中一個眾所周知的挑戰,稱為信用分配問題。為了解決這個問題,VinePPO放棄了PPO中的價值網絡,轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明,VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習(CPL)是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索(MCTS)探索多步推理任務中的不同計劃步驟,并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑,從而提高在各種任務中的泛化能力。隨后,模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中,策略模型生成計劃步驟和最終解決方案,而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。 直接偏好優化:在數學推理任務中,直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO,它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。 總之,基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索,在估計這些中間步驟的重要性方面具有優勢,盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上,這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務,包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型,并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數,可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型(PRM)基于強化學習代表了LLM推理的重大進步,強調評估中間步驟而不是僅僅關注最終結果。如圖2(c)所示,PRM的獎勵分布在每個推理步驟中,而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋,PRM使模型能夠優化行為,使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要,其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變,并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。 經典強化學習:一系列近期工作將PRMs應用于數學或邏輯推理,因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”(即問題解決中的初始錯誤步驟)來增強數學推理。通過獎勵糾正這些錯誤的步驟,PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋,在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架,用于數學推理任務中的逐步驗證和強化。通過自動化過程監督(使用MCTS啟發的方法),MATH-SHEPHERD消除了對人工標注的需求,同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性,從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化(GRPO)[128]集成了PRMs,這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟,DeepSeekMath在多個基準上實現了最先進的性能,展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器(PAVs),一種PRM變體,用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟,PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。 交互式過程獎勵模型:PRMs還應用于交互任務,如對話和多輪問答。ArCHer采用分層RL方法,使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統:高層價值函數評估話語級獎勵,而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配,并允許對語言模型進行細致訓練,以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展,在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中,以優化長期目標與人類反饋。多輪偏好優化(MTPO)算法比較整個多輪交互以生成偏好信號,其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊,提高動態、多輪任務(如對話和戰略決策)的整體性能。 直接偏好優化:一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如,SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度,它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外,SVPO將顯式價值模型與DPO集成,其中價值模型不僅幫助策略模型導航更高效的推理路徑,還指導偏好學習。然而,這些工作主要集中在首先收集偏好數據或訓練獎勵模型,然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中,推進了這些方法。這種方法可以被視為直接偏好優化的在線版本,其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心,提供了細致的步驟級獎勵,推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調 強化微調(RFT)[101]是OpenAI最近提出的一種技術,用于定制針對特定垂直領域的專家LLMs。目前,RFT仍處于研究計劃中,技術細節尚未完全公開。現有信息表明,RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此,RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。 評分模型:RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋,評分模型可能類似于獎勵模型,將文本輸入(如問題和答案)轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型,可能作為結果獎勵模型或過程獎勵模型運行[76]。 數據效率:在OpenAI的現場會議中,提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率,同時減輕了過擬合的風險[56]。 訓練穩定性:強化學習訓練的穩定性是一個眾所周知的難題,對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中,OpenAI宣布計劃通過API向公眾提供該技術,使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性,能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展:從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考 除了通過強化學習等技術進行訓練時優化外,研究人員發現,測試時提示技術(如思維鏈和思維樹)可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果,但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法(如ReAct和Least-to-Most Prompting)的出現表明,LLMs可以從明確的思維過程組織中受益,從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷,但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向,而無需依賴模型架構或訓練修改[172, 11]。這表明,通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改,可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索 如前所述,PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是,PRM還可以在測試時階段使用,從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明,通過增加測試時計算資源,可以有效地增強推理能力,為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法,如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑,綠色空心圓表示在探索過程中采用的推理路徑,綠色實心圓表示一旦找到正確答案,推理路徑的終點。 多數投票:多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中,每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測,選擇出現次數最多的類別(“多數投票”)作為最終輸出:f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f,其中II是指示函數,yy是每個評估軌跡。 樹搜索[15]:樹搜索是一種經典算法,通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題,如棋盤游戲和規劃任務。蒙特卡羅樹搜索(MCTS)是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成:選擇、擴展、模擬和回傳。通過逐步擴展搜索空間,MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用,取得了顯著成功。例如,思維樹框架[172]使LLMs能夠考慮多個推理路徑,這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策,確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。 束搜索[133]:束搜索是貪婪搜索的改進版本,通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑(稱為束)以進行進一步擴展。與貪婪搜索不同,束搜索維護多個候選路徑,從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如,BART[71]使用束搜索作為其主要推理策略,展示了其在文本生成任務中的卓越效果。 前瞻搜索[134]:前瞻搜索是另一種有前景的方法,具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選,而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點,則提前停止。在前瞻搜索過程中,使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分,決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比,前瞻搜索增加了探索空間的深度,允許基于更遠的模擬決策結果判斷當前決策。然而,它也增加了對計算資源的需求,在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月,OpenAI發布了o1,這是一個突破性的語言模型,代表了AI推理能力的重大進步,特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日,OpenAI開放了o3的測試申請,o3是o1的升級版本[102],被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果,包括在國際數學奧林匹克競賽中獲得金牌水平[73],并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下: 有效的知識整合:初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力,通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率,模型展示了清晰的能力,利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明,其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式,顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出,例如將物理原理應用于生物系統或將統計方法與領域特定約束結合,表明其在知識綜合和應用方面的基本能力。 系統問題分解:o1在不同復雜程度的任務中保持了一致的表現,展示了在處理難度增加時的系統問題分解能力。在數學推理中,詳細研究[27]展示了其系統問題分解方法,通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證,如對105個科學和數學問題的研究[26],隨著問題復雜性的增加,模型在概念深度和計算需求方面保持了高準確性。在編程任務中,這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明,o1通過結構化三步方法(錯誤識別、根本原因分析和針對性修正)在不同復雜程度的錯誤中保持了一致表現。 復雜任務中的可靠和連貫推理:模型的推理在不同問題類型中有效適應,始終展示出各種任務中推理鏈的一致性。在規劃任務中,PlanBench評估[144]展示了其系統處理確定性和概率場景的能力,在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢,在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力,有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明,其中中間目標必須正確排序,依賴關系必須仔細管理,展示了其在時間推理和因果理解方面的高級能力。 大型推理模型的新擴展定律:實證研究表明,o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間,模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明,通過優化的測試時計算策略,模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示,o1的推理能力可以通過推理階段的高級計算分配有效增強,特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同,隨著思考時間的增加,性能持續提升[103]。這在編程任務中得到證明,允許每個問題提交10,000次使模型能夠顯著提高結果,即使沒有測試時選擇策略,得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步,展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試 開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考,旨在復制或近似專有模型(如OpenAI的o1)的推理優勢。在本節中,我們介紹了四個重要的開源項目,每個項目采用不同的策略來增強LLM推理(總結在表2中)。通過探索它們的獨特實現,我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]:該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架,采用強化學習技術。OpenR復制的核心是構建逐步推理數據,其中獲得更精確和細粒度的反饋,而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡,采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據,進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中,與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**:與分別訓練PRM和微調策略模型不同,他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法,預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案,而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]:該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力,而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖,結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成,設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法,o1復制之旅將模型暴露于不同的邏輯序列和修正中,鼓勵在訓練階段進行探索和適應性。然而,o1復制之旅在推理階段較為簡單,缺乏高級的訓練后技術,這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比,這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]:該項目專注于優化推理階段的能力,利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法,將蒙特卡羅樹搜索與自我精煉(SR-MCTS)相結合,使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性,使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型(PPRM),它成對評估解決方案路徑,確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數(EBC)然后整合這些偏好排名以指導模型的決策,進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例,與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略,還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍,推動了開發復雜、透明和適應性強的推理模型的集體目標,使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外,還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示,諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM,但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索(VRS)利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同,VRS純粹通過測試時推理操作,使用迭代反饋循環來精煉解決方案,而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力,VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用,支持廣泛的任務,包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS,深入探討每個類別中呈現的方法論和獨特見解。 在個體代理設置中,VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務,其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如,對組合問題(包括帽集和在線裝箱)的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣,符號回歸研究將方程視為動態構造,迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航,在效率和準確性上超越傳統優化技術。在科學發現中,VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如,在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中,VRS用于通過模擬反饋精煉假設,推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用,支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如,研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式,通過反饋循環不斷精煉解決方案,從而在不同領域中有效泛化。總體而言,VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來,以精確和適應性解決數學、科學和優化中的挑戰。 在多代理系統中,VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間,允許代理交換見解并實現共同目標。異構信息網絡(HINs)中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構,增強了其可解釋性和預測準確性[20]。同樣,在社會經濟預測中,多代理系統整合知識圖譜和元路徑推理,為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作,并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如,使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互,這些框架生成準確的因果圖,同時解決因果關系中的歧義[69]。在金融決策中,VRS增強了層次協作。FINCON框架采用經理-分析師系統,通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉,FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理,VRS支持多代理系統應對復雜任務,如元結構精煉、社會經濟預測和金融決策。 在具身代理設置中,VRS用于通過整合推理與物理交互來解決現實世界任務,支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境,結合語義推理與實際實驗。例如,自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具,如機器人液體處理器、光譜設備和基于網絡的研究模塊,以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應,其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤(如錯誤的模塊調用)時,系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋,具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預,同時加速了科學發現,使其成為現實世界實驗和創新的寶貴工具。 總的來說,先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力,VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索,再到現實世界應用中的動態實驗,VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架,能夠在計算和物理領域中應對復雜挑戰,同時推動多樣化領域的進步。 7.2 基于記憶的強化 當應用于開放式任務(如創意寫作、復雜邏輯推理和開放世界游戲)時,解決方案空間往往會急劇擴展,通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息,使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰,一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎,迭代探索其環境。通過這一過程,它們總結經驗,提取解決方案空間的可解釋高級見解,并在后續試驗中精煉其行動,從而提高推理性能。這些研究不僅關注探索外部解決方案空間,還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶,其能力逐步增強并泛化到未見任務。具體來說,我們將該領域的研究分為以下三類。 經驗學習:此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗,同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理,該代理記錄過去的觀察-行動對,并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值(預期未來獎勵)。當面臨新任務時,代理從記憶中檢索具有最高和最低Q值的相關行動,將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務,并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地,經驗共同學習[108]采用多代理框架,其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時,這些代理交替檢索相關記憶以改進上下文學習。 反思學習:雖然使用記憶作為少樣本示例簡單有效,但這種方法并未充分利用LLMs的語義理解能力。一些研究認為,LLM代理應直接反思存儲在記憶中的成功和失敗,明確總結潛在原因,并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力,基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中,以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思,從記憶中檢索最相關的成功經驗,總結成功軌跡的模式,并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發,將記憶組織為目標模塊和子任務模塊,實現不同層次的反思和經驗總結。對于新任務,它檢索相關經驗以分別制定高級目標和低級子任務。 概念學習:明確反思顯著增強了LLMs的推理能力。在此基礎上,一些研究旨在使LLM代理發展超越特定任務的廣義“概念”,促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力,并隨著記憶的增長不斷進化。例如,Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動,而是評估這些信念的合理性和一致性,迭代精煉策略。類似地,Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈,它自主收集經驗,扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發,為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索,并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外,它生成未見任務進行練習,基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索 代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次:提示層次、模塊層次和代理層次。請注意,這種方法并不旨在直接搜索解決方案空間,而是利用經驗數據優化代理系統本身,類似于元學習問題。我們總結了該領域的相關工作如下。 提示層次:“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面,提示本身也值得搜索和優化。自動化提示工程,如進化提示優化[38]和元提示迭代[169],可以實現比手動提示更好的結果,但也引入了更多的標記消耗。 模塊層次:Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計,其中模塊本質上是具有特定功能的提示塊,如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口,使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計,如CoT和ToT。此外,Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外,評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動,以提高搜索效率,同時緊密匹配其實際性能。 代理層次:ADAS提出利用LLMs搜索整個代理系統,這些系統在Python代碼空間中定義[53]。此外,多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中,關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務(如長故事創作)中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。 代理系統搜索為代理提供了自我改進的能力,使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率,降低搜索成本,并在確保搜索合理性的同時實現自動化。 7.4 總結 本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而,它們具有巨大潛力,通過更全面的測試時“思考”進一步提升LLMs的推理能力,促進LLMs在解決方案空間中戰略性地推理,利用過去經驗并動態優化代理工作流。因此,訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向,有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中,我們系統地回顧了LLM推理的流行基準,這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題 數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學,提供了系統評估數學理解和問題解決能力的不同方面的方法。 在數學應用題(MWP)領域,基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面,MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力,而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算(如加法或減法)的能力。在小學和高中層面,綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰,GSM8K提供了8.5K個小學問題,MATH提供了12.5K個跨多個數學領域的問題,難度逐漸增加。 高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題,需要復雜的問題解決策略,而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別,FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題,測試自動化數學推理的極限。 幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題,而UniGEO[18]提供了一個統一的幾何推理任務框架,專注于計算和證明。這些基準特別有價值,用于評估模型連接視覺和數學推理的能力。 定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明,而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域,如三角學和形式證明系統。 最后,跨模態數學推理已成為一個關鍵領域,反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理,而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距,測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題 建立在數學推理能力之上,系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明,但邏輯推理涵蓋了更廣泛的推理能力,包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類,邏輯推理可以分為三種主要類型:演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程,對于全面邏輯分析至關重要,同時在認知評估中保持相互聯系。 演繹推理,也稱為基于前提的推理,涉及從一般原則中得出特定結論,具有絕對確定性。例如,給定一組關于實體之間關系的規則,模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表,要求模型從給定前提構建明確的邏輯推導。其他基準,如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理,WaNLI[77]引入了日益復雜的評估標準,包含107,885個示例。 歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況,處理概率而非確定性。BigBench[136]包含眾多專門組件,用于檢查高級模式推理能力。此外,CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。 溯因推理,也稱為解釋性推理,指的是為一系列觀察或事實形成最可能解釋的過程,盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景,通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點,模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架,具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題 常識推理仍然是NLP中的一個重要挑戰,旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如,CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理,圍繞社交場景中的因果推理展開。相比之下,SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務,模型必須基于上下文線索預測事件的最可能延續,從而增加任務復雜性。對于物理常識推理,PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務,而PHYRE強調交互物理模擬。類似地,WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務,以測試語義理解和共指解析能力。 其他工作,如OBQA[95]和CConS[63],探索了模型在反常識上下文中的表現,突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近,綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題 代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度,涵蓋各種領域。例如,ODEX[155]引入了一個執行驅動的評估框架,用于開放域代碼生成,強調運行生成代碼以驗證其正確性和功能的重要性。 在現實世界場景中,SWE-bench[58]專注于真實的GitHub問題,挑戰模型解決實際軟件工程問題。在數據科學領域,DS-1000[67]提供了一個基準,包含真實且可靠的數據科學代碼生成任務,使評估模型處理復雜數據操作和分析的能力成為可能。此外,APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力,反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題,評估模型根據給定規范生成正確和高效代碼的能力,從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs,每個問題都提供了函數定義和附帶文檔,要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題 基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力,包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境,用于構建和測試自主代理,使評估LLMs的網絡導航和交互技能成為可能。類似地,Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理,強調在動態在線環境中的適應性。 在電子商務設置中,WebShop[171]引入了一個平臺,用于可擴展的現實世界網絡交互,專注于能夠執行在線購物等任務的接地語言代理,從而測試模型的實際應用能力。為了橋接文本和具身環境,ALF-World[131]將基于文本的輸入與交互學習場景對齊,促進了評估模型在不同模態之間轉移知識的能力。 綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能,而AgentGym專注于在多樣化設置中進化LLM代理,強調適應性和學習效率。此外,AgentBoard[87]提供了一個分析平臺,用于評估多輪LLM代理,提供了對其在擴展交互中的表現的見解,并突出了持續推理任務中的改進領域。

  1. 討論 9.1 近期進展的啟示 后訓練階段的擴展定律:OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是,它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步,它擴展到后訓練階段的擴展定律,這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知,預訓練和訓練階段的擴展定律導致了流行LLMs的成功,伴隨著訓練數據和計算資源的巨大投資。然而,它現在達到了瓶頸,因此,后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外,LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力,即使推理能力尚未得到強化。因此,關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題,這可能是進一步增強LLM在現實世界應用中的潛力。 通過搜索生成高質量數據:OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據(包括CoT數據)的生成視為關鍵點,盡管采用了不同的方法,如蒙特卡羅樹搜索、LLM生成等。也就是說,大型推理模型的發展達到了一個階段,高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣,如上所述,這可能啟發我們在LLM代理中參考這些相關方法,首先進行高質量數據生成,然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理 即使OpenAI o1系列在工程層面的突破仍然未知,從理論上和技術上看,其突破目前似乎主要在于慢思考數據的后訓練學習。此外,人類認知科學中的“系統1 + 系統2”已被反復提及,但基于大型模型實現它的想法不斷更新,主要仍停留在借鑒慢思考概念的階段。也就是說,人類大腦的“系統1 + 系統2”機制指導了LLMs的設計,但這種指導仍然非常有限。換句話說,對人類大腦的模仿僅停留在系統級設計,而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點,慢思考的領域知識應被用于相關的設計中,如推理數據生成、獎勵函數、學習過程等。 到目前為止,關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘,以至于理解LLMs也需要一些技巧或特殊技術,例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力,我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例,它們的主要區別在于CoT推理階段的思考成本和深度,然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說,將推理機制與不同任務中的表現聯系起來,可能會支持更多有趣的見解。 9.3 下游應用與開放問題 正如本文所指出,推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現,還體現在更廣泛的下游應用中。例如,FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務,例如城市規劃、物流調度等。一個有趣的問題是,當前研究中是否存在許多互補的問題,這些問題難以驗證,但推理過程較為簡單。通過結合LLMs和外部評估器,可能進一步驗證某些答案的質量,或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念,利用強化學習技術進行訓練時擴展,以及使用搜索算法進行測試時擴展,為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務,OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解,并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。

** 1 引言**

近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。

因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。

持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。

在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。

本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。

本綜述論文的主要貢獻如下

  • 我們全面回顧了現有的基于基礎語言模型的持續學習方法文獻,這些方法將基礎語言模型與CL整合起來,在不重新訓練模型的情況下學習新知識。這與傳統CL大不相同,因為基礎語言模型具有強大的遷移學習、零樣本和指令跟隨能力,并且參數龐大。
  • 我們定義了不同的設置,并將這些研究分類為各種類型,以便更好地理解該領域的發展。除了傳統方法如重放、正則化和參數隔離算法外,我們還總結了持續預訓練方法、參數高效調優方法和基于指令調優的方法。
  • 我們提供了現有持續學習數據集的特征,并展示了評估防止遺忘和知識轉移性能的主要指標
  • 我們討論了基于基礎語言模型的持續學習面臨的最具挑戰性的問題,并指出了該領域未來有前景的研究方向本文結構如下:在第2節中,我們回顧了與持續學習相關的主要綜述。然后,在第3節中,我們介紹了持續學習的基本設置和學習模式,包括CL的定義和場景。此外,我們在第4節中展示了與離線持續學習相關的研究,這些研究可以分為領域增量學習、任務增量學習和類別增量學習。在第5節中,我們重點介紹了在線持續學習,包括硬任務邊界和模糊任務邊界設置。第6和第7節提供了典型數據集和指標。最后,我們在第8節分析了挑戰和進一步的工作,并在第9節給出結論。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司