大語言模型(LLMs)為可解釋人工智能(XAI)提供了一種前景廣闊的研究路徑——通過將復雜的機器學習輸出轉化為易于理解的敘述,使模型預測更貼近用戶認知,從而彌合先進模型行為與人類可解釋性之間的鴻溝。 當前,最先進的神經網絡與深度學習模型等AI系統常因缺乏透明度被視為“黑箱”。由于用戶無法充分理解模型的決策邏輯,其對AI結論的信任度往往不足,進而導致決策效率降低、責任歸屬模糊以及潛在偏見難以察覺。因此,如何構建可解釋AI(XAI)模型以贏取用戶信任并揭示模型的內在機制,已成為關鍵研究挑戰。隨著大語言模型的發展,我們得以探索基于人類語言的LLMs在模型可解釋性領域的應用潛力。
本綜述系統性回顧了LLMs賦能XAI的現有方法體系與解釋生成評估技術,剖析了相關挑戰與局限,并考察了實際應用案例。 最后,我們展望未來研究方向,強調需通過LLMs發展更具可解釋性、自動化、以用戶為中心且融合多學科智慧的XAI新范式。
1 引言 近年來,人工智能(AI)技術的飛速進步推動了深度學習等復雜模型的快速發展。AI模型已在醫療、金融等諸多領域展現出卓越能力[72][30]。然而,隨著模型復雜度的提升,其決策過程因缺乏透明度而難以追溯[12]——這種被稱為"黑箱"的問題嚴重制約了用戶信任,尤其在醫療和金融等關鍵領域的應用推廣[15]。盡管學界持續致力于提升AI模型的可解釋性[59],但缺乏機器學習背景的專家仍難以理解系統決策邏輯。
透明度的缺失將直接導致三重困境:
在醫療場景中,醫生可能無法理解模型推薦特定治療方案的原因,導致難以采信其建議;
在金融領域,分析師若無法解讀AI市場預測的依據,則可能對模型輸出猶豫不決;
更廣泛而言,這會降低決策效率、模糊責任歸屬,并掩蓋潛在偏見。
可解釋人工智能(XAI)正通過創新方法提升神經網絡等前沿模型(如圖像識別中的卷積神經網絡CNN、序列數據處理中的循環神經網絡RNN、圖像生成中的對抗生成網絡GAN)的可解釋性,力求在保持準確率等性能指標的同時增強透明度[12]。XAI的核心在于平衡模型效能與可理解性,這一挑戰貫穿所有應用場景[119][144][27]。有效的解釋機制能建立用戶信任、確保責任追溯,并促進AI倫理應用。
大語言模型(LLMs)的革新價值: 作為連接復雜AI系統與XAI的橋梁,LLMs憑借其自然語言處理能力[90]正在多個領域發揮關鍵作用:
醫療:輔助診斷與個性化診療[130],例如在醫學影像分析中,LLMs可解釋模型為何將肺部掃描標記為異常,并指出特定疾病關聯特征;
金融:支持風險評估與市場預測[143];
自然語言處理(NLP):賦能文本分類、摘要生成與情感分析等任務。
LLMs通過以下方式推動XAI發展:
動態解釋生成:理解用戶問題后生成情境化解釋[109][123][125];
架構可視化:直接解析復雜機器學習模型的結構與輸出邏輯[77];
反事實推演:通過簡單提示即可識別預測關鍵特征并生成對比解釋(如研究[16][97]所示)。
這些實踐印證了LLMs在提升AI決策透明度和可信度方面的巨大潛力,為構建跨領域可解釋AI系統開辟了新路徑。
如圖2與表1所示,本研究系統探討了基于大語言模型(LLMs)的可解釋性實現路徑,重點論述以下三類方法:
事后解釋法(Post-hoc Explanations) 對應因果可解釋性,通過分析特定輸入如何導致特定輸出,為機器學習(ML)模型的預測結果提供歸因解釋。例如:當圖像分類模型將某病理切片判定為惡性腫瘤時,該方法可定位影響決策的關鍵圖像區域。
內在可解釋設計(Intrinsic Explainability) 面向工程師的可解釋性需求,通過LLMs參與機器學習模型架構設計,使模型自身具備解釋能力。典型實踐包括:利用注意力機制可視化神經網絡決策路徑,或構建模塊化推理鏈條。
人本敘事生成(Human-Centered Narratives) 旨在建立信任導向的可解釋性,借助自然語言將模型輸出轉化為符合用戶認知的敘事。以醫療場景為例:當AI預測患者未來五年高血壓風險較高時(基于高膽固醇史、家族病史、年齡體重等因素),即使當前血壓正常,系統可生成如下解釋:
"盡管患者目前血壓值在正常范圍內,但結合其高膽固醇病史(+37%風險權重)、一級親屬高血壓家族史(+28%風險權重)及BMI指數(+15%風險權重),模型預測五年內患病概率達68%。建議加強生活方式干預與定期監測。" 此類敘事幫助醫生理解預測依據,從而建立決策信任。
本綜述還將探討解釋效果的評估技術及其在實際場景中的應用范式。
圖片 挑戰與局限分析 如圖3所示,我們圍繞三個維度討論LLMs實現AI可解釋性的瓶頸:
隱私與社會規范沖突:醫療數據脫敏需求與解釋詳盡性之間的平衡;
系統復雜性管理:多模態模型(如結合CT影像與電子病歷的診斷系統)的跨模態解釋生成;
領域適配難題:金融領域術語(如"量化寬松")與法律文書語義的精準轉換。
通過圖4的顯著圖(Saliency Maps)對比,我們進一步分析不同LLM架構(如Transformer、MoE)在可解釋性側重上的差異。最后提出未來研究方向:通過模型架構創新與敘事策略的協同優化,構建兼具性能與透明度的新一代可解釋AI系統。
圖結構數據廣泛存在于社交網絡、生物系統、知識圖譜和推薦系統等領域。盡管基礎模型已通過大規模預訓練和強泛化能力在自然語言處理、計算機視覺和多模態學習中取得了革命性進展,但將這些能力擴展到圖數據上——該數據具有非歐幾里得結構和復雜的關系語義——仍面臨獨特挑戰,同時也帶來了新的機遇。為此,圖基礎模型(Graph Foundation Models, GFMs)旨在為結構化數據賦予可擴展的通用智能,從而支持跨圖任務和跨領域的廣泛遷移。 本綜述系統地回顧了GFMs的發展現狀,并提出一個統一的模塊化框架,將現有多種研究工作歸納為三個核心組成部分:主干架構、預訓練策略和適配機制。我們依據GFMs的泛化范圍將其分類為通用型、任務特定型和領域特定型三大類,并在每一類別下回顧具有代表性的方法、關鍵創新與理論洞察。 除了方法論,我們還探討了GFMs的理論基礎,包括可遷移性和涌現能力,并指出當前面臨的核心挑戰,如結構對齊、異質性處理、可擴展性和評估機制。GFMs位于圖學習與通用人工智能的交匯點,有望成為在結構化數據上進行開放式推理的基礎性基礎設施。 本綜述匯總了當前的研究進展,并展望了未來的發展方向,旨在為該快速演進的研究領域提供有價值的參考與指導。相關資源可訪問://github.com/Zehong-Wang/Awesome-Foundation-Models-on-Graphs。 在機器學習領域,實現“一模型通用”(one-model-fits-all)的范式一直被視為最具雄心和變革性的目標之一。該愿景旨在構建高度可泛化的模型,能夠在無需大量任務特定架構設計或訓練的情況下,勝任多個領域的廣泛任務。歷史上,機器學習一直以針對特定數據模態和任務目標的專用模型為主導[1],通常依賴手工設計的特征[2]和依賴領域的優化策略[3]。從早期的基于規則的系統和線性分類器,到深度學習的崛起,機器學習的發展體現了在表示學習、可擴展性和任務性能方面的持續提升[4, 5]。 傳統模型如決策樹、支持向量機(SVM)和k近鄰(KNN)在低維度、結構化環境中表現良好,但在處理高維、非結構化或多模態數據時面臨挑戰。深度學習模型的出現——如用于視覺的卷積神經網絡(CNN)[6]和用于序列數據的循環神經網絡(RNN)[7, 8]——顯著提升了感知任務的表現。然而,這些模型仍需進行任務特定的微調、架構調整,并依賴大規模標注數據以實現穩健的泛化能力。 隨著遷移學習[9]和自監督學習[10]的發展,模型可以從大規模未標注數據中學習具有廣泛可遷移性的表示,標志著范式的重大轉變。這些進展為**基礎模型(foundation models)**的出現奠定了基礎,后者通過在海量數據上訓練以獲取通用知識,能夠快速適配各種下游任務。 基礎模型的核心特征包括其規模性、通用性以及跨異構數據源的預訓練能力。它們被設計為捕捉可遷移的歸納偏置,使得在極少的任務監督下也能實現強大的性能表現。擴展法則(scaling laws)[12, 13]與數據驅動的學習范式推動了基礎模型在自然語言處理、計算機視覺、機器人等多個領域的成功。例如,大型語言模型(LLMs)[14, 15]通過將文本分詞處理,并將翻譯、摘要、推理等任務建模為自回歸的下一個token預測問題。同樣地,大型視覺模型(LVMs)[16, 17, 18]將視覺輸入視為token序列,使用基于Transformer的架構處理圖像問答、圖像描述或圖像生成任務。這些模型展現出驚人的零樣本(zero-shot)與小樣本(few-shot)泛化能力,能夠在無需大規模微調的情況下快速適應新任務。 在這一背景下,**圖基礎模型(Graph Foundation Models, GFMs)**的興起(見圖1)旨在將上述能力拓展至圖結構數據——這一具有關系依賴、排列不變性和非歐幾里得幾何特征的關鍵但本質上不同的數據模態[19, 20, 21]。GFMs致力于為各種基于圖的應用場景提供統一、可預訓練、可適配的解決方案,涵蓋從分子性質預測、知識圖譜推理到社交網絡分析和推薦系統等任務。
例如,OFA[22]在包含文本屬性的八個圖(TAGs)上運行,這些圖涵蓋引文網絡、Wikipedia網絡、知識圖譜和分子圖等,每個節點都附帶文本描述。通過共享的文本編碼器,OFA將節點描述映射至統一的嵌入空間,實現跨圖節點特征的對齊。為了彌合預訓練與下游任務之間的鴻溝,它引入了提示圖機制(prompt graph mechanism)以增強任務適配能力。類似地,GFT[23]通過將圖數據建模為計算樹來識別可遷移模式,借助樹結構重建任務對齊跨圖的節點表示,從而捕捉跨領域的泛化能力。GFT的一項關鍵創新是構建可遷移的樹結構詞表,編碼在不同圖域中共享的結構模式。 除了這些通用模型,還存在許多為特定任務(如節點分類[24, 25]、異常檢測[26]、推薦系統[27])或特定領域(如知識圖譜[28, 29]、分子圖[30, 31]、計算圖[32, 33])而設計的GFMs。 已有綜述。 盡管GFMs研究迅速發展,且受到了越來越多的關注,但當前文獻中仍缺乏一部全面、系統的綜述,以覆蓋該新興領域的廣度與深度。現有綜述通常聚焦于GFMs的某一方面,提供的是零散視角,尚未全面揭示其基礎技術、設計挑戰與研究方向。例如,Liu等[34]基于主干架構將GFMs分類為基于GNN、基于LLM和GNN+LLM混合模型,但其討論局限于方法層面,未涉及應用與理論理解。Zhao等[35]則圍繞預訓練目標進行分析,盡管提出了有價值的學習范式觀點,但未涵蓋系統設計與理論深度。Mao等[36]從轉移性視角出發,聚焦于泛化能力的理論解釋,但未對方法創新與實證研究進行系統整理。Wang等[37]也強調可遷移性與涌現能力,但未能涵蓋GFMs的完整架構、算法和應用維度。另有如Zhao等[38]關注跨領域圖學習,這雖是GFMs設計的一個重要維度,卻難以涵蓋跨任務泛化與結構對齊等核心問題。其他如Wu等[39]探討GFMs在推薦系統中的應用,而近期綜述[40, 41, 42, 43]聚焦于GNN與LLM的集成,更多地視為一個子領域而非整體GFMs框架的一部分。 我們的立場。 本綜述旨在填補上述空白,系統化地回顧圖基礎模型的發展。我們首先介紹GFMs的歷史演進與基本挑戰,隨后提出一個統一的模塊化框架,將GFMs分解為三大核心組件:主干架構、預訓練策略與適配機制。我們引入一個系統的分類體系,將GFMs劃分為通用型、領域特定型與任務特定型,并在每一類中進行詳盡的文獻回顧,涵蓋其設計理念與代表性模型。 此外,我們還分析GFMs的理論基礎(如擴展法則、可遷移性理論與涌現能力),并整理相關基準資源與當前局限。最后,我們總結該領域的關鍵開放問題與未來研究方向,以指導后續研究。 我們的主要貢獻如下: * GFMs設計挑戰(第3節):我們將構建圖基礎模型所面臨的核心挑戰歸納為三個維度:特征異質性、結構異質性與任務異質性,突出圖結構數據在大規模學習中的復雜性。 * 統一框架(第4節):提出一個統一的模塊化框架,將GFMs拆解為主干架構、預訓練策略與適配機制三個關鍵組成部分,為理解不同設計方案提供系統化視角,并支持方法的可組合性。 * 分類體系與全面綜述(第5、6、7節):提出基于泛化能力范圍的三分類體系:通用GFMs、領域特定GFMs與任務特定GFMs,并在每類下展開系統文獻綜述,介紹其設計理念與代表性模型。 * 理論基礎(第8節):探討GFMs的理論支撐,包括擴展法則、可遷移性理論,以及關于圖預訓練泛化能力的新興理解,為其實證成功提供理論基礎。 * 資源與GitHub倉庫(第9節):為促進可復現性和研究加速,我們整理并發布了一個資源庫,涵蓋基準數據集、開源實現、預訓練模型以及動態更新的GitHub項目: * 開放問題(第10節):總結GFMs發展中尚待解決的關鍵問題,包括:異構圖對齊的有效機制、可擴展與高效的適配方法、魯棒的評估協議以及更深入的理論理解,這些問題為下一代通用圖學習系統的發展指明方向。
圖基礎模型未來發展方向概述。 盡管GFMs取得了初步進展,其整體仍處于早期階段,面臨諸多挑戰,如可擴展性、數據可用性、評估標準、模型利用以及理論理解等方面。首先,與已建立擴展法則的LLMs和VLMs不同,GFMs需開發更具擴展性的架構、高層次的生成目標及統一的學習實例以實現性能躍遷。其次,圖數據的稀缺性亟需通過自動化采集、高保真合成生成和質量導向的數據集構建策略加以解決。第三,GFMs的評估需要反映真實世界任務的基準,以及能全面衡量泛化性、魯棒性與可信度的指標。第四,GFMs的高效利用有賴于優化適配機制(如零樣本學習與提示式學習)、拓展傳統圖任務之外的高影響應用場景,并融合多模態知識表示。最后,理論基礎仍待深化,關鍵問題包括轉移性的極限、跨域模式沖突的解決方案、分布偏移下的魯棒性保障,以及泛化能力的理論保證。解決這些問題對于GFMs在多領域充分發揮潛力具有決定性意義。更多討論詳見第10節。
隨著大語言模型(LLMs)的最新進展,智能體人工智能(Agentic AI)在現實世界應用中變得愈發顯著,逐漸向基于多LLM的智能體發展,使其能夠感知、學習、推理并協同行動。這些基于LLM的多智能體系統(MASs)使得一組智能體能夠協調并大規模地共同解決復雜任務,從孤立的模型轉向以協作為核心的方法。本文對MASs的協作方面進行了廣泛綜述,并引入了一個可擴展的框架以指導未來研究。我們的框架基于關鍵維度對協作機制進行了分類:參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究結果為揭示和推進基于LLM的MASs提供了基礎,旨在為復雜的現實世界用例提供更智能和協作的解決方案。此外,本文還探討了MASs在多個領域的廣泛應用,包括5G/6G網絡、工業5.0、問答系統以及社會和文化場景,展示了其廣泛采用和深遠影響。最后,我們總結了關鍵經驗教訓、開放挑戰以及MASs在實現人工集體智能方面的潛在研究方向。 //arxiv.org/pdf/2501.06322
近年來,大語言模型(LLMs)的進展徹底改變了人工智能(AI)領域,使其能夠執行復雜的任務,如創意寫作、推理和決策,甚至在某些方面可與人類水平相媲美 [156]。然而,盡管這些模型在個體層面展現了卓越的能力,它們仍存在一些固有局限性,例如幻覺問題 [57]、自回歸特性(如無法進行慢思考 [49])以及擴展規律 [55, 69]。為了解決這些挑戰,智能體人工智能(Agentic AI)將LLMs作為“大腦”或“協調者”,將其與外部工具和議程(如規劃)相結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行學習和交互 [1,2]。此外,研究人員越來越多地探索水平擴展——利用多個基于LLM的智能體協同工作,以實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使智能體群體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的MASs,它們利用多個LLM的集體智能來應對復雜的多步驟挑戰 [118]。MASs的靈感不僅來自技術進步,還源于人類集體智能(如“心智社會” [87]、“心智理論” [45])。人類社會擅長通過團隊合作和專業化實現共同目標,從日常任務到科學發現皆是如此。類似地,MASs旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角進行有效協作。基于LLM的MAS可以具有多種不同特性的協作渠道,如圖1所示。MASs在各個領域取得了顯著成功,通過利用專業智能體之間的協作和協調,增強了個體LLM的能力。這些系統在智能體之間分配任務,使智能體能夠共享知識、執行子任務,并將其努力與共同目標對齊。MASs的潛在益處是變革性的。它們在知識記憶方面表現出色,使分布式智能體能夠保留和共享多樣化的知識庫,而不會使單個系統過載 [51, 154]。它們通過將任務分配給多個智能體來增強長期規劃能力,支持在長期交互中持續解決問題 [58]。此外,MASs通過匯集具有專門提示/角色的多個模型的專業知識,實現了有效的泛化,使其能夠比獨立模型更有效地解決多樣化問題。最后,MASs通過同時管理由專業智能體處理的子任務,提高了交互效率,加速了復雜多步驟任務的解決。MAS致力于實現集體智能,即多個智能體的綜合能力超越其個體貢獻的總和 [24]。有效MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],這些機制推動了從傳統的孤立模型向強調交互的方法的轉變,使智能體能夠連接、協商、決策、規劃并共同行動,從而在集體環境中推動AI能力的提升。深入了解協作機制在MASs中的運作方式,對于釋放其全部潛力至關重要。
由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些關于該主題的綜述。然而,這些工作往往未能全面探討基于LLM的MASs的協作方面和機制,而這些對于使智能體能夠有效實現共同目標至關重要,如表1所總結。例如,[47, 107, 136] 主要關注單智能體系統,僅淺顯地涉及多智能體協作。[136] 提出了一個基于LLM的智能體框架,包括三個組件:大腦、感知和行動。他們的工作強調了將LLMs作為智能體的“大腦”,利用輸入模態集成、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,缺乏對使智能體協同工作的機制的深入探討。[47] 調查了基于LLM的MASs成功應用的領域和場景,分析了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但未涉及協作的其他特征,如類型、策略或協調架構。其他工作,如[82],專注于協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLMs,并將合作擴展到傳統融合技術之外,但忽略了其他關鍵的協作機制,如競爭和競合,以及除流行協作類型之外的維度。相比之下,[120] 提出了一個通過MASs增強LLM能力的通用框架,展示了Auto-GPT等工具如何與其框架對齊。然而,協作機制仍停留在概念層面,缺乏詳細的實現和特征描述。[50] 的重點是配置LLMs以利用多樣化的能力和角色,例如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局和局部任務規劃。與此同時,[46] 將其研究范圍縮小到基于LLM的MASs在基于智能體的建模和模擬中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管對模擬特定應用具有啟發性,但它缺乏對深入協作機制的更廣泛視角。類似地,[68] 調查了這些系統在數字孿生中的應用,而[52, 70] 則專注于軟件工程領域。從上述總結和解釋中可以看出,現有研究在全面探索基于LLM的MASs的協作方面和機制方面存在明顯不足,而這些對于使智能體能夠共同實現目標至關重要。本文旨在提供基于LLM的智能體在多智能體協作系統中協作基礎的全面視角。以協作為核心,我們的研究基于參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)以及協調層對智能體之間的協作進行了特征化。我們強調了促進有效協作的機制和關鍵技術,識別了MAS設計中的關鍵特征和趨勢。通過對現有方法的綜述和開放挑戰的識別,我們將這些發現綜合為一個連貫的框架。該框架為未來研究奠定了基礎,推動了LLMs在MASs中的集成,并為開發更具適應性、智能性和協作性的AI系統鋪平了道路,以應對復雜的現實世界應用。我們的主要貢獻如下:
本文的結構如下:第2節提供了理解本工作所需的背景知識,包括LLMs、MASs和協作AI的概述。第3節通過數學符號介紹了基于LLM的多智能體協作系統的基礎概念,強調了協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛綜述,按協作的關鍵特征(包括類型、策略、結構和協調與編排)分類。第5節回顧了基于LLM的多智能體協作系統在學術界和工業界的關鍵應用。第6節討論了這一新興研究領域的開放問題和未來研究方向。最后,第7節總結了這篇關于基于LLM的多智能體協作系統的綜述論文。
基礎模型的崛起已經改變了機器學習研究,推動了揭示其內部機制的努力,并開發出更高效、更可靠的應用以實現更好的控制。盡管在解釋大規模語言模型(LLMs)方面已取得顯著進展,但多模態基礎模型(MMFMs)——如對比視覺-語言模型、生成視覺-語言模型和文本到圖像模型——在可解釋性上提出了超越單模態框架的獨特挑戰。盡管已有初步研究,但LLMs與MMFMs的可解釋性之間仍存在顯著差距。本綜述探索了兩個關鍵方面:(1)將LLM可解釋性方法適應到多模態模型;(2)理解單模態語言模型與跨模態系統之間的機制差異。通過系統回顧當前的MMFM分析技術,我們提出了一種結構化的可解釋性方法分類法,比較了單模態與多模態架構中的洞察,并突出了關鍵的研究空白。
1. 引言
多模態基礎模型(MMFMs)的快速發展與廣泛應用——尤其是圖像和文本模態的融合——已經推動了眾多實際應用的實現。例如,文本到圖像模型(Rombach等,2022;Ramesh等,2022;Podell等,2023)促進了圖像生成和編輯,生成式視覺-語言模型(VLMs)(Zhu等,2023;Agrawal等,2024)支持視覺問答(VQA)或圖像描述等任務,而對比(即非生成式)VLMs,如CLIP(Radford等,2021),則廣泛用于圖像檢索。隨著多模態模型的不斷進步,人們對理解其內部機制和決策過程的需求也日益增加(Basu等,2024a)。機制可解釋性不僅對解釋模型行為至關重要,還對啟用下游應用(如模型編輯(Basu等,2024a)、減少虛假相關(Balasubramanian等,2024)、以及提高組合泛化能力(Zarei等,2024))具有重要意義。 機器學習中的可解釋性,LLMs和多模態模型的可解釋性是一個廣泛且依賴上下文的概念,因任務、目標和利益相關者需求的不同而有所變化。在本綜述中,我們采用Murdoch等(2019)提出的定義:“提取并闡明模型所學習的相關知識、機制、特征和關系的過程,無論這些知識是編碼在其參數中還是通過輸入模式表現出來,從而解釋模型是如何以及為什么生成輸出的。”該定義強調了提取和理解模型知識,但“相關知識”的定義取決于應用的背景。例如,在記憶編輯應用中,可解釋性使得可以精確地修改內部表示而不會干擾模型的其他功能;而在安全性場景中,它有助于突出信號對抗性輸入的輸入特征和激活。通過這種視角,本綜述探討了可解釋性方法,研究它們如何揭示模型機制、促進實際應用并揭示關鍵的研究挑戰。 盡管在單模態大規模語言模型(LLMs)(Meng等,2022a;Marks等,2024)方面,關于可解釋性的研究取得了顯著進展,但對MMFMs的研究仍然相對滯后。鑒于大多數多模態模型都是基于變換器(Transformer)的,出現了幾個關鍵問題:LLM的可解釋性方法能否適應多模態模型?如果能,它們是否能提供類似的見解?多模態模型與單模態語言模型在機制上是否存在根本的差異?此外,分析跨模態交互等多模態特有過程時,是否需要全新的方法?最后,我們還探討了可解釋性的實際影響,提出問題——多模態可解釋性方法如何增強下游應用? 為了解答這些問題,我們進行了一項全面的綜述,并引入了一個三維的多模態模型機制可解釋性分類法:(1)模型家族——涵蓋文本到圖像擴散模型、生成式VLMs和非生成式VLMs;(2)可解釋性技術——區分從單模態LLM研究中適應的技術與專門為多模態模型設計的方法;(3)應用——分類多模態機制見解增強的實際任務。 我們的綜述綜合了現有的研究,并揭示了以下見解:(i)基于LLM的可解釋性方法可以通過適度調整擴展到MMFMs,特別是在將視覺和文本輸入類似對待時。(ii)出現了新的多模態挑戰,如如何將視覺嵌入轉化為人類可理解的形式,這需要全新的專門分析方法。(iii)盡管可解釋性有助于下游任務,但在多模態模型中,像幻覺緩解和模型編輯這樣的應用相比語言模型仍然較為欠缺。這些發現可以為未來多模態機制可解釋性研究提供指導。 最近,Dang等(2024)提供了一個關于MMFMs的可解釋性方法的廣泛概述,涵蓋了數據、模型架構和訓練范式。另一項并行工作(Sun等,2024)從歷史視角回顧了多模態可解釋性方法,涵蓋了2000年至2025年的研究。盡管具有啟發性,我們的工作在重點和范圍上有所不同。具體來說,我們的工作考察了現有的LLM可解釋性技術如何適應不同的多模態模型,分析了單模態和多模態系統在技術、應用和研究發現上的關鍵差異。 我們的貢獻總結如下:
2. 分類法
在我們的綜述中,我們提出了一個易于理解的分類法,用于從三個維度對機制可解釋性技術進行分類:(i)維度1提供了對各種多模態模型家族的機制見解,包括非生成式VLMs(例如CLIP)、文本到圖像模型(例如Stable-Diffusion)和多模態語言模型(例如LLaVa)。我們在第3節描述了本文研究的架構;(ii)維度2分類了技術是否用于語言模型(第4節)或是專門為多模態模型設計的(第5節);(iii)維度3將這些機制方法的見解與下游實際應用(第6節)相鏈接。分類法在圖1中進行了可視化。特別是,見解和應用的分布與第4、5、6節相對應。 我們相信這種簡單的分類將有助于讀者:(i)理解語言模型與多模態模型在機制見解和應用方面的差距,以及(ii)識別機制可解釋性(及其應用)尚未充分探索的多模態模型。 3 模型架構細節
在本節中,我們介紹了本綜述涵蓋的多模態模型的三個主要類別,包括(i)對比(即非生成)視覺-語言模型,(ii)生成視覺-語言模型,以及(iii)文本到圖像擴散模型。我們選擇這三個家族,因為它們涵蓋了當前社區使用的大多數最先進的架構。 非生成視覺-語言模型 非生成視覺-語言模型(如CLIP,Radford等,2021;ALIGN,Jia等,2021;FILIP,Yao等,2021;SigCLIP,Zhai等,2023;DeCLIP,Li等,2022;LLIP,Lavoie等,2024)通常包含一個基于語言模型的文本編碼器和一個基于視覺模型的視覺編碼器。這些模型特別適用于現實世界的應用,如文本引導的圖像檢索、圖像引導的文本檢索和零樣本圖像分類。 文本到圖像擴散模型 最先進的文本引導圖像生成模型主要基于擴散目標(Rombach等,2022;Ho等,2020),該目標預測在前向擴散過程中添加的噪聲,使其能夠在反向擴散過程中逐漸將隨機高斯噪聲去噪為干凈的圖像。一個擴散模型通常包含一個文本編碼器(如CLIP)和一個基于CNN的U-Net(Ronneberger等,2015)用于去噪以生成圖像。具有此目標的早期文本到圖像生成模型變體包括Stable-Diffusion-1(Rombach等,2022)(在壓縮的潛在空間中執行擴散過程)和Dalle-2(Ramesh等,2022)(在圖像空間中執行擴散過程,而不是在壓縮的潛在空間中)。最近,SD-XL(Podell等,2023)通過使用更大的去噪UNet和改進的條件(如文本或圖像)機制,改進了早期的Stable-Diffusion變體。最近的模型如Stable-Diffusion-3(Esser等,2024)通過(i)使用修正流公式,(ii)可擴展的Transformer架構作為擴散骨干,以及(iii)使用強大的文本編碼器集合(如T5,Raffel等,2020;Chung等,2022),獲得了比以前的Stable-Diffusion變體更強的圖像生成結果。除了圖像生成,文本到圖像模型還可以應用于圖像編輯(Hertz等,2022)和風格遷移(Zhang等,2023)。 生成視覺-語言模型 在我們的論文中,我們研究了最常見的生成VLMs,這些模型通過橋接模塊將視覺編碼器(如CLIP)連接到大型語言模型。這個橋接模塊(如幾個MLP層,Liu等,2023a;或Q-former,Li等,2023b)然后在大規模圖像-文本對上進行訓練。Frozen(Tsimpoukelli等,2021)是最早利用大型語言模型進行圖像理解任務(如少樣本學習)的工作之一。后續工作如MiniGpt(Zhu等,2023)、BLIP變體(Li等,2023b)和LLava(Liu等,2023a)通過修改訓練數據的規模和類型以及底層架構,改進了Frozen。最近,許多工作集中在策劃高質量圖像-文本對,涵蓋各種視覺-語言任務。Owen(Yang等,2024a)、Pixtral(Agrawal等,2024)和Molmo(Deitke等,2024)是一些最近的多模態語言模型,專注于高質量的圖像-文本策劃數據。多模態語言模型具有各種現實世界的應用,如VQA和圖像字幕。 注意。我們承認能夠同時進行圖像生成和多模態理解的統一Transformer多模態模型的出現,如Xie等(2024a);Team(2024);Dong等(2024)。然而,由于缺乏對這些模型的機制可解釋性研究,我們將它們排除在討論之外。此外,另一種模型架構變體,旨在生成交錯的圖像和文本,如GILL(Koh等,2024),將MLLM和擴散模型結合到一個系統中。我們將根據其分析的組件對此類模型進行分類。
4 多模態模型的LLM可解釋性方法
我們首先研究了最初為大型語言模型開發的機制可解釋性方法及其對多模態模型的適應性,重點關注現有LLM可解釋性技術如何為多模態模型提供有價值的機制見解。 具體來說,我們首先討論診斷工具(線性探測,第4.1節;Logit Lens,第4.2節),這些工具被動地映射模型表示中編碼的知識及其在層中的分布。然后,我們介紹因果干預方法(因果追蹤和電路分析,第4.3節),這些方法主動擾動模型狀態,以揭示知識存儲的位置以及多模態模型中特定預測的產生方式。這些見解隨后啟發了以表示為中心的表示分解方法(第4.4節),通過數學方法將激活分解為可解釋的組件,揭示模型知識的構建塊。這種結構理解直接為行為控制范式提供了信息:通用任務向量(第4.5節)利用顯式的任務驅動算術來編輯模型輸出,而稀疏自編碼器(作為其無監督對應物,第4.6節)提供了機器發現的特征基礎,用于細粒度操作,將分析與應用聯系起來。最后,神經元級描述(第4.7節)將這些解釋錨定在經驗現實中,通過微觀激活模式(如概念特定神經元)驗證宏觀假設,并確保機制保真度。 線性探測
探測通過在凍結的LLM表示上訓練輕量級分類器(通常是線性探測器)來評估它們是否編碼語言屬性,如語法、語義和事實知識(Hao等,2021;Liu等,2023b;Zhang等,2023a;Liu等,2023c;Beigi等,2024)。線性探測的圖示如圖2(a)所示。這種方法已擴展到多模態模型,引入了新的挑戰,如解耦每個模態(即視覺或文本)的相對貢獻。為了解決這些挑戰,Salin等(2022)開發了探測方法,專門評估視覺-語言模型如何合成和合并視覺輸入與文本數據以增強理解,而Dahlgren Lindstrom等(2020)研究了圖像-字幕配對中視覺-語義嵌入中語言特征的處理。與LLMs中上層主要編碼抽象語義(Jawahar等,2019;Tenney等,2019)不同,多模態探測研究(Tao等,2024;Salin等,2022)表明,多模態模型中的中間層更有效地捕捉全局跨模態交互,而上層通常強調局部細節或文本偏差。此外,盡管LLMs中的探測應用集中在特定語言分析上,但多模態模型中的探測范圍擴展到更多樣化的方面。例如,Dai等(2023)研究了視覺-語言模型中的對象幻覺,分析了圖像編碼如何影響文本生成準確性和令牌對齊。 主要發現和差距。線性探測的主要缺點是需要監督探測數據和訓練單獨的分類器來理解層中的概念編碼。因此,通過多模態探測數據策劃和訓練跨不同多模態模型的單獨分類器進行擴展是一個挑戰。 Logit Lens
Logit Lens是一種無監督的可解釋性方法,用于通過檢查輸出的logits值來理解LLMs的內部工作原理。如圖2(b)所示,該方法進行逐層分析,通過使用解嵌入投影矩陣將中間表示投影到詞匯空間,跟蹤每層的logits,以觀察預測如何在網絡中演變。通過將中間表示解碼為輸出詞匯上的分布,它揭示了網絡在每個階段的“思考”內容(Belrose等,2023)。在多模態模型的背景下,研究表明,與最終層相比,早期層的預測通常對誤導性輸入表現出更強的魯棒性(Halawi等,2024)。研究還表明,異常輸入會改變預測軌跡,使該方法成為異常檢測的有用工具(Halawi等,2024;Belrose等,2023)。此外,對于簡單示例——模型可以從初始層自信地預測結果的情況——正確答案通常出現在早期層,從而通過自適應早期退出實現計算效率(Schuster等,2022;Xin等,2020)。此外,Logit Lens已擴展到分析多個輸入。Huo等(2024)將其應用于研究前饋網絡(FFN)層中的神經元激活,識別專門用于不同領域的神經元以增強模型訓練。進一步的研究整合了上下文嵌入以改進幻覺檢測(Phukan等,2024;Zhao等,2024a)。此外,“注意力透鏡”(Jiang等,2024b)引入了研究視覺信息處理的方法,揭示了幻覺令牌在關鍵層中表現出較弱的注意力模式。 主要發現和差距。除了多模態語言模型,logit-lens還可以潛在地用于機制性地理解現代模型,如統一理解和生成模型(Xie等,2024a;Team,2024)。 因果追蹤
與被動診斷工具不同,因果追蹤分析(Pearl,2014)植根于因果推理,研究在對中間變量(中介)進行主動干預后響應變量的變化。圖2(c)展示了因果追蹤應用于基于Transformer的生成VLM的示例。該方法已廣泛應用于語言模型,以精確定位負責特定任務的網絡組件——如FFN層。例如,Meng等(2022a)證明了LLMs中的中層MLPs對于事實回憶至關重要,而Stolfo等(2023)識別了數學推理的重要層。基于此技術并使用監督探測數據集,Basu等(2023)發現,與LLMs不同,視覺概念(如風格、受版權保護的對象)在擴散模型的噪聲模型中分布在各個層中,但可以在條件文本編碼器中定位。此外,Basu等(2024b)識別了編碼藝術風格和一般事實等概念的關鍵交叉注意力層。最近的工作還將因果追蹤擴展到機制性地理解生成VLMs的VQA任務(Basu等,2024a;Palit等,2023;Yu和Ananiadou,2024c),揭示了在VQA任務中指導模型決策的關鍵層。 擴展到電路分析。雖然因果追蹤有助于識別特定任務的單個“因果”組件,但它不會自動導致提取模型的底層計算圖的子圖,該子圖對任務具有“因果”性。在這方面,語言建模中有許多工作致力于提取任務特定電路(Syed等,2023;Wang等,2024a;Conmy等,2023a)。然而,將這些方法擴展到獲取任務特定電路仍然是MMFMs的一個開放問題。 主要發現和差距。盡管因果追蹤已廣泛用于分析LLMs中的事實性和推理,但其在多模態模型中的應用仍然相對有限。將該方法擴展到更新、更復雜的多模態架構和多樣化任務仍然是一個重要的挑戰。 表示分解
在基于Transformer的LLMs中,如圖3所示,表示分解的概念涉及分析模型的內部機制,特別是將單個Transformer層分解為核心有意義的組件,旨在理解Transformer的內部過程。在單模態LLMs中,研究主要將模型的架構和表示分解為兩個主要組件:注意力機制和多層感知器(MLP)層。大量研究工作集中在分析這些組件,以了解它們對模型決策過程的個體貢獻。研究發現,雖然注意力不應直接等同于解釋(Pruthi等,2019;Jain和Wallace,2019;Wiegreffe和Pinter,2019),但它提供了對模型操作行為的重要見解,并有助于錯誤診斷和假設開發(Park等,2019;Voita等,2019;Vig,2019;Hoover等,2020;Vashishth等,2019)。此外,研究表明,Transformer MLP層中的前饋網絡(FFNs)作為鍵值存儲器,編碼和檢索事實和語義知識(Geva等,2021)。實驗研究建立了FFN輸出分布修改與后續令牌概率之間的直接相關性,表明模型的輸出是通過每層的累積更新精心制作的(Geva等,2022a)。這一核心特性是識別與特定任務相關的語言模型電路的基礎(Syed等,2023;Wang等,2024a;Conmy等,2023a)。 在多模態模型中,表示分解在分析模態處理和各層特定屬性方面發揮了重要作用。Gandelsman等(2024a);Balasubramanian等(2024)利用監督探測數據集,提出了一種分層分解方法——跨越層、注意力頭和令牌——以提供對模型行為的細粒度見解。
5. 專門針對多模態模型的可解釋性方法
許多近期的研究提出了針對多模態模型的內部機制解釋分析方法。與第4節中介紹的基于LLM(大型語言模型)的方法不同,這些方法僅為多模態基礎模型設計和應用。這些方法包括:用于用人類可理解的語言注釋嵌入或神經元的技術(第5.1節和第5.2節);利用跨注意力層等獨特的多模態架構組件以獲得更深層的見解(第5.3節);開發量身定制的多模態模型數據歸因方法,例如文本到圖像擴散模型(第5.4節);以及特定的可視化方法(第5.5節)。
6. 基于機制見解的多模態模型應用
在本節中,我們重點介紹受第4節和第5節中可解釋性分析方法啟發的下游應用。首先,我們在6.1節介紹上下文學習,接著是模型編輯(6.2節)和幻覺檢測(6.3節)。然后,我們在6.4節總結了在多模態基礎模型中提高安全性和隱私的應用,并在6.5節討論了提高組合能力的應用。最后,我們在6.6節列出了其他幾種應用類型。 7. 工具和基準
在LLMs領域,已有許多可解釋性工具涵蓋了注意力分析(Nanda 和 Bloom,2022;Fiotto-Kaufman等,2024)、SEA分析(Joseph Bloom 和 Chanin,2024)、電路發現(Conmy等,2023a)、因果追蹤(Wu等,2024)、向量控制(Vogel,2024;Zou等,2023)、logit鏡頭(Belrose等,2023)和token重要性(Lundberg 和 Lee,2017)等。然而,針對MMFMs的可解釋性工具較為狹窄。Yu和Ananiadou(2024d);Stan等(2024)主要聚焦于生成式VLMs中的注意力機制。Aflalo等(2022)提出了一種工具,用于可視化生成式VLMs的注意力和隱藏狀態。Joseph(2023)提出了一種針對視覺變換器(Vision Transformers)的工具,主要集中于注意力圖、激活補丁和logit鏡頭。此外,對于擴散模型,Lages(2022)提供了一種可視化生成圖像過程中的內部擴散步驟的工具。 統一的可解釋性基準也是一個非常重要的研究方向。在LLMs中,Huang等(2024b)提出了一個基準,用于評估可解釋性方法在解耦LLMs表示方面的效果。Thurnherr和Scheurer(2024)提出了一種新方法,用于生成LLMs的可解釋性測試平臺,節省了手動設計實驗數據的時間。Nauta等(2023);Schwettmann等(2024)也提供了LLMs可解釋性的基準。然而,目前尚未有針對多模態模型的基準,這是未來的重要研究方向。 總體來說,與LLMs領域中的全面工具和基準相比,多模態基礎模型的工具和基準相對較少。提供一個全面、統一的評估基準和工具是未來的研究方向。
8. 主要開放挑戰
盡管機制可解釋性是語言模型中一個成熟且廣泛的研究領域,但對于多模態模型而言,它仍處于早期階段。本節總結了該領域中的關鍵開放挑戰,重點關注利用機制見解的下游應用。這些挑戰包括解釋擴散變換器(Diffusion Transformers)的內部層次,用于諸如模型編輯等任務;將機制見解擴展到超出視覺問答(VQA)或簡單圖像生成的任務;開發多模態模型的順序批次模型編輯技術——包括擴散模型和多模態語言模型;探索稀疏自編碼器及其變體在控制和引導多模態模型中的有效性;設計基于機制見解的透明數據歸因方法;以及通過更深的機制理解改進多模態上下文學習。此外,擴展機制可解釋性技術以分析統一的視覺-文本理解和生成模型(例如Xie等,2024a)也是一個開放的研究方向。
9. 結論
我們的綜述回顧了多模態基礎模型(MMFMs)中的機制理解方法,包括對比性VLMs、生成式VLMs和文本到圖像擴散模型,重點關注下游應用。我們引入了一種新穎的分類法,區分了從語言模型適應過來的可解釋性方法和為多模態模型設計的可解釋性方法。此外,我們還比較了語言模型和多模態模型的機制見解,識別了理解上的差距及其對下游應用的影響。
摘要實現人類水平智能需要優化從快速、直覺的系統1到更慢速、更審慎的系統2推理的過渡。系統1擅長快速、啟發式決策,而系統2則依賴邏輯推理以實現更準確的判斷并減少偏見。基礎大語言模型(LLMs)在快速決策方面表現出色,但由于尚未完全具備真正的系統2思維所特有的逐步分析能力,其在復雜推理方面仍顯不足。最近,諸如OpenAI的o1/o3和DeepSeek的R1等推理大語言模型在數學和編程等領域展現了專家級的表現,高度模擬了系統2的審慎推理,并展示了類人的認知能力。本文首先簡要回顧了基礎大語言模型的進展以及系統2技術的早期發展,探討了它們的結合如何為推理大語言模型鋪平道路。接著,我們討論了如何構建推理大語言模型,分析了其特點、實現高級推理的核心方法以及各類推理大語言模型的演變。此外,我們還概述了推理基準測試,并對代表性推理大語言模型的性能進行了深入比較。最后,我們探討了推動推理大語言模型發展的潛在方向,并維護了一個實時GitHub倉庫以跟蹤最新進展。我們希望本文能為這一快速發展的領域提供有價值的參考,激發創新并推動進步。
//arxiv.org/abs/2502.17419 關鍵詞:慢思考、大語言模型、類人推理、人工智能決策、通用人工智能 1 引言
“不要教授,激勵。” —Hyung Won Chung, OpenAI 實現人類級別的智能需要精煉從系統1到系統2推理的過渡[1]–[5]。雙系統理論表明,人類認知通過兩種模式運作:系統1,它快速、自動、直覺,能夠以最小的努力做出快速決策;系統2,它較慢、更具分析性和深思熟慮[6],[7]。盡管系統1在處理常規任務時效率較高,但它容易受到認知偏差的影響,特別是在復雜或不確定的情境中,導致判斷錯誤。相比之下,系統2依賴于邏輯推理和系統化思維,能夠做出更加準確和理性的決策[8]–[11]。通過減輕系統1的偏差,系統2提供了一種更為精細的問題解決方法[12]–[15]。 基礎大語言模型(LLMs)的發展標志著人工智能(AI)領域的一個重大里程碑。像GPT-4o[16]和DeepSeekv3[17]等模型,在文本生成、語言翻譯和各種感知任務方面展示了令人印象深刻的能力[18]–[28]。這些模型經過廣泛數據集的訓練,并利用先進的算法,能夠理解并生成類人回應。然而,盡管這些基礎LLM取得了令人矚目的成就,它們的運作方式類似于系統1推理,依賴于快速、啟發式的決策過程。雖然它們在提供快速回應時表現出色,但在需要深度邏輯分析和復雜推理任務中的精準度時往往表現不佳。這個局限性在涉及復雜問題解決、邏輯分析或微妙理解的情境中尤為明顯,因為這些模型尚未達到人類的認知能力。 相比之下,推理型LLM代表了語言模型演變的重要進展。像OpenAI的o1/o3[29],[30]和DeepSeek的R1[31]等模型,旨在模擬與系統2思維相關的較慢、更深思熟慮的推理過程。與基礎LLM不同,推理型LLM配備了逐步處理信息的機制,使其能夠做出更為準確和理性的決策。這種從快速直覺型處理到更有條理的推理驅動型模型的轉變,使推理型LLM能夠處理復雜任務,如高級數學[32]–[37]、邏輯推理[38]–[44]和多模態推理[45]–[47],并表現出類人級的認知能力。因此,推理型LLM被越來越多地認為能夠實現深度邏輯思維,處理那些曾被認為超出AI能力范圍的任務。推理型LLM的最新發展時間線如圖1所示。
1.1 綜述結構
本綜述提供了關于推理型LLM發展中的關鍵概念、方法和挑戰的全面概述。如圖2所示,本綜述結構如下:
1.2 綜述的貢獻
近年來,已經進行了一些特定技術方法的分析和復制[48]–[55],然而,缺乏系統的分析和組織。研究[56]僅專注于測試過程中慢思維的方法。與此同時,研究[57]–[59]主要集中在訓練或實現推理型LLM,通常從強化學習的角度進行探討。 我們的綜述與現有文獻的不同之處及貢獻在于:
2. 推理大語言模型的基礎在本節中,我們簡要回顧了基礎大語言模型的進展和關鍵系統2技術的早期發展,強調了這些技術與基礎大語言模型的結合如何為推理大語言模型鋪平了道路。這些技術包括符號邏輯系統、蒙特卡洛樹搜索(MCTS)和強化學習(RL)。2.1 基礎大語言模型基礎大語言模型的發展在2018-2019年取得了顯著進展,特別是BERT和GPT的引入。這些模型利用大規模文本語料庫進行無監督預訓練,然后針對特定任務進行微調。這種方法使它們能夠在專門化任務(如情感分析、實體識別和問答)之前發展出廣泛的語言理解能力。BERT的雙向上下文處理改進了單詞理解,而GPT的單向設計在文本生成方面表現出色。2019年發布的GPT-2擁有15億參數,標志著生成性能的重大飛躍,盡管它也引發了倫理問題。GPT-3擁有1750億參數,進一步展示了無監督預訓練的強大能力,在少樣本學習中表現出色,并在廣泛的自然語言處理任務中表現良好。隨后幾年,多模態模型如CLIP和DALL-E出現,集成了文本和視覺輸入。這些模型實現了從文本生成圖像等新任務,并增強了人機交互。到2023-2024年,諸如GPT-4、LLaMA和LLaVA等模型展示了在推理、上下文理解和多模態推理方面的先進能力,能夠處理文本和圖像。基礎大語言模型的演變徹底改變了人工智能,使語言理解、問題解決和人機協作的應用更加復雜。2.2 符號邏輯系統符號邏輯系統標志著人工智能的最早階段,利用規則和邏輯原則來表示知識和得出結論。它們在結構化領域中特別有效,其中形式邏輯確保了精確性。Prolog是一種基于一階邏輯的邏輯編程語言,允許用戶定義事實、規則并通過查詢進行推理。它在符號推理系統中發揮了關鍵作用,特別是在自然語言處理和專家系統中。基于邏輯的系統如Prolog使用命題和謂詞邏輯進行形式推理。從20世紀60年代到80年代初,這種方法主導了人工智能,如IBM的LISP用于符號計算和Resolution Theorem Provers用于自動推理。20世紀70年代,Marvin Minsky引入了Frames,將知識組織成結構化框架,影響了專家系統和認知科學。2.3 蒙特卡洛樹搜索蒙特卡洛樹搜索(MCTS)是一種基于模擬的搜索算法,用于決策和規劃。它通過四個步驟構建搜索樹:選擇、擴展、模擬和回傳。MCTS在圍棋等棋盤游戲的策略優化和機器人路徑規劃中得到了廣泛應用。2.4 強化學習強化學習(RL)是一種機器學習類型,其中代理通過與環境交互并接收反饋來學習決策,旨在最大化累積獎勵。早期的RL突破,如Q學習和DQN,通過使用深度神經網絡處理復雜狀態空間,徹底改變了這一領域。這些方法為RL擴展到現實世界任務鋪平了道路,其中傳統的表格方法無法勝任。深度RL的出現標志著重要的一步,結合了深度學習和RL的強大能力,處理高維輸入,如圖像和非結構化數據。
3. 推理大語言模型的構建
在本節中,我們首先從輸出行為和訓練動態兩個角度分析了推理大語言模型的特征。然后,我們詳細介紹了實現其高級推理能力的核心方法。最后,我們總結了推理大語言模型的演變。3.1 推理大語言模型的特征分析3.1.1 輸出行為視角探索與規劃結構:最近的實證研究表明,推理大語言模型在其輸出結構中表現出強烈的探索行為,特別是在與WizardMath和DeepSeekMath等主要依賴傳統鏈式思維(CoT)推理方法的模型相比時。這種探索行為體現在新假設的制定和替代解決路徑的追求上。驗證與檢查結構:對OpenAI的o1和o3模型的分析表明,它們的推理框架結合了長期戰略規劃的宏觀行動和包括“等待”、“暫停”、“替代”和“讓我們暫停”等微觀行動。這些微觀行動促進了細致的驗證和迭代檢查過程,確保任務執行的精確性。更長的推理長度與時間:最近的研究表明,推理大語言模型通常生成超過2000個標記的輸出以解決復雜的編程和數學問題。然而,這種延長的輸出長度有時會導致過度思考,模型在問題上花費過多時間而不一定能改進解決方案。3.1.2 訓練動態視角驚人的數據效率:與專注于擴展指令集的傳統方法不同,研究表明,構建專注于困難樣本的慢思維鏈式思維(Slow-thinking CoT)數據集在醫學和數學等領域具有更好的泛化能力。稀疏訓練方法:與傳統觀點相反,開發有效的推理大語言模型并不需要大量的數據集或密集的獎勵信號。例如,STILL2僅使用5000個蒸餾樣本就展示了令人印象深刻的性能,而Sky-T1僅使用17000個長鏈式思維樣本就實現了與QwQ相當的性能。參數特征:通過長鏈式思維方法訓練的大語言模型在不同層中表現出相對均勻的梯度范數。相比之下,快速思維(如簡化的鏈式思維方法)在早期層中產生較大的梯度幅度,并且在不同層中的梯度范數存在顯著差異。 3.2 核心方法在本節中,我們概述了推動推理大語言模型高級推理能力的核心方法,包括結構搜索、獎勵建模、自我改進、宏觀行動和強化微調。我們還為每種方法介紹了代表性的推理大語言模型。3.2.1 結構搜索推理大語言模型旨在通過模仿人類推理的深思熟慮和系統性來實現高精度和深度。然而,盡管最近取得了進展,當前的基礎大語言模型在解決復雜推理任務時仍面臨固有的局限性。這些局限性源于它們缺乏模擬環境狀態的內部世界模型,無法預測推理路徑的長期結果,以及無法根據未來狀態或獎勵迭代改進推理步驟。蒙特卡洛樹搜索(MCTS)通過提供一個結構化框架來系統地探索和評估推理路徑,有效地解決了這些挑戰。它通過構建一個推理樹來操作,其中每個節點代表一個推理狀態,行動通過考慮潛在的下一步來擴展樹。通過模擬未來狀態和迭代回傳估計的獎勵,MCTS使基礎大語言模型能夠高效地識別高獎勵的推理路徑,模仿人類的規劃過程。3.2.2 獎勵建模兩種主要的訓練范式用于解決多步推理任務:結果監督和過程監督。結果監督強調最終答案的正確性,生成的模型稱為結果獎勵模型(ORM)。相比之下,過程監督為解決方案軌跡提供逐步標簽,評估每個推理步驟的質量。生成的模型稱為過程獎勵模型(PRM)。PRM在復雜推理任務中具有顯著優勢。首先,它提供了細粒度的逐步監督,允許識別解決方案路徑中的特定錯誤。其次,PRM密切模仿人類推理行為,依賴于準確的中間步驟來得出正確結論。與ORM不同,PRM避免了錯誤推理仍能導致正確最終答案的情況,從而確保更穩健和可解釋的推理。3.2.3 自我改進推理大語言模型展示了從弱監督到強監督的進步,而傳統的鏈式思維微調在擴展方面面臨挑戰。自我改進利用模型的探索能力進行自我監督,逐步提高大語言模型在翻譯、數學推理和多模態感知等任務中的性能。3.2.4 宏觀行動最近在大語言模型中的進展推動了通過復雜思維架構模仿人類系統2認知過程的進步,通常稱為宏觀行動框架。這些結構化推理系統超越了傳統的標記級自回歸生成,引入了分層的認知階段,如戰略規劃、內省驗證和迭代改進。3.2.5 強化微調強化微調(RFT)是OpenAI最近引入的一項創新技術,旨在使開發人員和工程師能夠針對特定領域或復雜任務微調現有模型。與一般的監督微調(SFT)不同,RFT專注于通過使用獎勵機制來優化模型的推理過程,從而提高其推理能力和準確性。3.3 推理大語言模型的演變推理大語言模型的演變經歷了幾個不同的階段,各種策略被開發出來以克服直接自回歸推理的局限性,并構建更先進的慢思維推理架構。在早期階段,推理大語言模型主要專注于通過外部推理算法增強預訓練的大語言模型,而不改變底層模型參數。諸如Tree of Thoughts和Reasoning via Planning等方法利用大語言模型驅動的廣度優先搜索、深度優先搜索和蒙特卡洛樹搜索(MCTS)來模擬人類推理過程。然而,這些外部化的慢推理方法引入了幾個挑戰:有限的探索空間:基于搜索的方法需要對搜索空間的廣度、深度和粒度進行預定義約束,這通常限制了大語言模型的探索范圍。有限的經驗共享:不同路徑的探索經驗和推理信息只能基于獎勵模型或結果之間的一致性進行評估。為了克服這些限制,隨后的模型如rStar、LLaMAV-ol、HiICL-MCTS、Mulberry、g1和Thinking-Claude引入了更豐富的行動空間。這些增強的行動空間提供了高級規劃線索,擴大了模型的探索范圍,并實現了更全面的結構化搜索過程。
4. 推理大語言模型的基準測試
開發一個強大的基準對于記錄推理大語言模型能力的進展并確定未來進展的有前景的研究方向至關重要。在這里,我們從類別、評估指標和性能比較三個方面回顧了基準,同時提供了我們的反思和見解。4.1 基準類別我們按任務類型對推理基準進行分類,可以大致分為數學、代碼、科學、代理、醫學和多模態推理。這些基準的詳細統計數據如表VI所示。4.1.1 基準介紹數學問題:我們記錄了當前流行的競賽級數學基準,以展示推理大語言模型的能力,包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench。代碼問題:代碼問題需要扎實的基礎和高邏輯思維來評估推理大語言模型的推理能力,如Codeforces、SWEbench和LiveCodeBench。科學問題:科學基準,如GPQA Diamond和MMLU-Pro,涉及化學、生物學和物理學的多領域推理,需要廣泛的知識積累和綜合推理。代理推理:現實任務通常涉及復雜的規劃和工具使用,導致了代理推理基準的創建,如WebShop和WebArena。醫學推理:醫學本質上涉及復雜的推理,涵蓋從診斷決策到治療計劃的任務。JAMA Clinical Challenge、Medbullets和MedQA等基準提供了模仿醫生疾病診斷的模型測量。多模態推理:多模態推理,如MMMU和MathVista基準,需要結合文本和圖像的跨模態思維。4.1.2 總結大語言模型領域近年來發展迅速,基準性能不斷提高。簡單的推理基準,如GSM8K、MATH-500和ScienceQA,已經接近性能飽和。最近對推理大語言模型的研究表明,為長推理鏈設計的模型在這些基準上并不顯著優于為短鏈設計的模型。這突顯了建立新基準的迫切需要,以更有效地評估推理大語言模型的推理能力。此外,當前的基準主要集中在硬推理任務上。軟推理基準缺乏明確定義的正確答案,提供了更細致的評估,更好地捕捉了類人推理的復雜性和微妙性。4.2 評估指標根據任務類型、技術方案和推理范式,引入了各種評估指標來衡量推理大語言模型在處理復雜推理任務中的表現,確保生成解決方案的質量和連貫性得到有效衡量。
4.2.1
任務類型在基準類別方面,數學推理通常使用兩個主要指標:Pass@k和Cons@k。Pass@k指標評估模型在k次嘗試內生成正確解決方案的能力,衡量在有限嘗試次數內成功的可能性。另一方面,Cons@k評估模型是否一致地生成正確或邏輯連貫的解決方案,突出其推理能力的穩定性和可靠性。對于代碼任務,關鍵指標是Elo和Percentile,兩者都衡量生成正確代碼的相對技能。在科學任務中,評估通常使用Exact Match(EM)和Accuracy來評估填空題和選擇題。
4.2.2 技術方案基于技術路線,使用ORM或PRM的方案通常利用RM@k和Best-of-N兩個評估指標。RM@k衡量獎勵模型是否能夠根據獎勵分數在k個候選答案中將好的答案排名更高,Best-of-N從N個生成的推理軌跡中選擇得分最高的解決方案。自我一致性方法使用Greedy Decoding、Beam Search和Major@k進行評估。4.2.3 推理范式對于推理大語言模型中的多輪解決方案生成,最近提出了Outcome Efficiency和Process Efficiency來評估長思維的具體效率。Outcome Efficiency指標經驗性地評估后續解決方案對準確性改進的貢獻,Process Efficiency指標經驗性地評估后續解決方案對解決方案多樣性的貢獻。4.2.4 總結大多數現有的評估指標都是根據最終答案來判斷的。鑒于大推理計算消耗,開發一個綜合考慮推理過程各個方面的全面評估框架勢在必行。當前流行的評估框架,如LMMs-Eval、OpenCompass和PRMBench,缺乏效率,其指標未能充分考慮到推理過程的計算和時間效率。為了解決這些不足,我們強烈建議探索更高效的代理任務作為潛在解決方案。4.3 性能比較在本節中,我們比較了不同推理大語言模型及其對應基礎大語言模型在純文本基準(如數學和代碼問題)以及多模態基準上的性能。4.3.1 純文本基準上的性能如表VII所示,推理大語言模型如DeepSeek-R1和OpenAI的o1/o3在廣泛的數學、編碼和其他一般任務中表現出色。這些模型在AIME 2024、MATH-500和LiveCodeBench等多個純文本基準上取得了高分,展示了其強大的文本推理能力。相比之下,基礎大語言模型如GPT-4o、Claude-3.5-Sonnet和DeepSeek-V3在數學和編碼任務(如AIME 2024和Codeforces)中表現較差。4.3.2 多模態基準上的性能如表VIII所示,推理大語言模型在多模態任務中繼續表現出色。OpenAI的o1在視覺任務中表現強勁,在MMMU上取得了77.3%的最高分,并在MathVista上比其對應的基礎大語言模型GPT-4o高出7.2%。然而,與純文本任務相比,多模態任務的性能提升不那么顯著。4.3.3 總結總的來說,推理大語言模型在純文本和多模態基準上都表現出色,特別是在數學和編碼任務中,它們大幅超越了基礎大語言模型。盡管多模態任務的改進不如純文本任務顯著,但推理大語言模型仍然超越了其對應模型,突顯了其在處理圖像和文本數據方面的潛力。這些結果強調了推理大語言模型在廣泛推理任務中的多功能性和有效性,具有在多模態推理技術方面進一步發展的潛力。5. 挑戰與未來方向盡管推理大語言模型取得了快速進展,但仍存在一些挑戰,限制了它們的通用性和實際應用。本節概述了這些挑戰,并強調了解決這些挑戰的潛在研究方向。5.1 高效的推理大語言模型雖然推理大語言模型通過擴展推理在解決復雜問題方面表現出色,但它們在大規模架構中依賴長自回歸推理帶來了顯著的效率挑戰。例如,Codeforces等平臺上的許多問題需要超過10000個標記的推理,導致高延遲。正如[102]所指出的,即使推理大語言模型早期識別出正確的解決方案,它通常也會花費大量時間驗證其推理。未來的研究應集中在兩個關鍵領域:(1)整合外部推理工具以實現早期停止和驗證機制,從而提高長推理鏈的效率;(2)探索在不犧牲性能的情況下在小型大語言模型(SLMs)中實現慢思維推理能力的策略。5.2 協同慢思維與快思維系統推理型LLM面臨的一大挑戰是失去快速思維能力,這導致在簡單任務中需要不必要的深度推理,造成效率低下。與人類能夠流暢地在快思維(系統1)和慢思維(系統2)之間切換不同,當前的推理型LLM在保持這種平衡方面存在困難。雖然推理型LLM確保了深思熟慮和全面的推理,但快思維系統依賴于先前的知識以提供快速回應。盡管有如系統1-2切換器[95]、推測解碼[258]–[260]和互動持續學習[261]等努力,整合兩種思維模式仍然是一個挑戰。這通常導致在領域特定任務中的低效以及在更復雜情境下未能充分利用系統的優勢。未來的研究應聚焦于開發自適應切換機制、聯合訓練框架和共進化策略,以調和快思維系統的效率與推理型LLM的精確度。實現這種平衡對于推動這一領域的發展并創建更加多功能的AI系統至關重要。5.3 推理型LLM在科學中的應用推理型LLM在科學研究中扮演著至關重要的角色[262],它們能夠進行深度、結構化的分析,超越了基于啟發式的快思維模型。它們的價值在需要復雜推理的領域,尤其是在醫學和數學領域中尤為明顯。在醫學中,特別是在鑒別診斷和治療規劃方面,推理型LLM(例如推理時間縮放)增強了AI的逐步推理能力,提高了診斷準確性,而傳統的縮放方法往往力不從心[52]。在數學中,像FunSearch[263]這樣的方式結合了慢思維原則,推動了超越以往發現的進展,展示了AI與人類協作的潛力。在這些領域之外,推理型LLM還能夠通過改進模型構建和假設檢驗,推動物理學、工程學和計算生物學的進步。投資推理型LLM的研究不僅架起了AI的計算能力與類人分析深度之間的橋梁,還為更可靠、可解釋且突破性的科學發現鋪平了道路。5.4 神經與符號系統的深度融合盡管推理型LLM取得了顯著進展,但它們的透明度和可解釋性的限制仍然制約了它們在更復雜現實世界推理任務中的表現。對大規模數據模式的依賴和缺乏清晰的推理路徑,使得處理復雜或模糊問題變得具有挑戰性。早期的符號邏輯系統,盡管適應性較差,但提供了更好的可解釋性和更清晰的推理步驟,在這類問題中表現得更可靠。未來一個有前景的方向是神經與符號系統的深度融合。谷歌的AlphaGeometry[264]和AlphaGeometry2[265]將推理型LLM與符號引擎相結合,在國際數學奧林匹克(IMO)中取得了突破性進展。特別是,AlphaGeometry2利用基于Gemini的模型[249],[266],[267]和更高效的符號引擎,通過減少規則集并改進關鍵概念處理,提升了性能。該系統現在覆蓋了更廣泛的幾何概念,包括軌跡定理和線性方程。新的搜索算法和知識共享機制加速了這一過程。該系統解決了84%的IMO幾何問題(2000-2024),超過了金牌得主的平均成績。相比之下,像OpenAI-o1[29]這樣的推理型LLM未能解決任何問題。神經與符號系統的融合提供了一種平衡的方法,提高了適應性和可解釋性,對于超越數學幾何問題的復雜現實世界推理任務具有巨大潛力。5.5 多語言推理型LLM當前的推理型LLM在英語和中文等高資源語言中表現良好,展示了在翻譯和各種推理任務中的強大能力[93],[101]。這些模型在大規模數據和多樣語言資源可用的環境中表現突出。然而,它們在低資源語言中的表現仍然有限[268],面臨數據稀缺、穩定性、安全性和整體性能等挑戰。這些問題阻礙了推理型LLM在缺乏大量語言數據集和資源的語言中的有效性。未來的研究應優先解決低資源語言中數據稀缺和文化偏見帶來的挑戰。創新方法如跨推理型LLM的參數共享和領域特定知識的增量注入,可能有助于緩解這些挑戰,從而加速慢思維能力在更廣泛語言中的適應。這不僅能夠提升推理型LLM在這些語言中的效果,還能夠確保更公平地訪問先進的AI技術。5.6 多模態推理型LLM將慢思維推理能力從基于文本的領域擴展到多模態上下文仍然是一個重大挑戰,特別是在需要精細感知的任務中[96]。雖然像Virgo[269]這樣的方式已經嘗試將基于文本的慢思維推理轉化為多模態LLM,但它們在需要詳細視覺理解的任務,如MathVision[241]中的表現提升有限。關鍵的研究方向包括開發層次化推理型LLM,以實現精細的跨模態理解和生成,針對音頻、視頻和3D數據等模態的獨特特性進行定制。5.7 安全推理型LLM推理型LLM如OpenAI-o1[29]和DeepSeek-R1[31]的快速發展導致了超智能模型的崛起,這些模型能夠進行持續的自我進化。然而,這一進展也帶來了安全性和控制方面的挑戰。強化學習(RL)作為一種關鍵訓練方法,引入了如獎勵黑客、泛化失敗和語言混合等風險,這可能導致有害的結果。確保這些系統(如DeepSeek-R1)的安全性變得迫在眉睫。雖然強化學習增強了推理能力,但其不可控的性質引發了如何安全引導這些模型的擔憂。SFT在一定程度上解決了一些問題,但并不是完整的解決方案。需要結合RL和SFT的混合方法,以減少有害輸出,同時保持模型的有效性[270]。隨著這些模型超越人類認知能力,確保它們的安全、負責任和透明使用變得至關重要。這需要持續的研究,開發控制和引導它們行為的方法,從而在AI能力與倫理決策之間找到平衡。6 結論本文提供了推理型LLM研究的全面綜述。我們首先回顧了基礎LLM的進展以及系統2關鍵技術的早期發展,包括符號邏輯、蒙特卡洛樹搜索(MCTS)和強化學習(RL),探討了這些技術如何與基礎LLM結合,為推理型LLM鋪平道路。然后,我們詳細分析了最新推理型LLM的特征,考察了使其具備高級推理能力的核心方法,并突出介紹了代表性模型。通過對主流推理基準和性能比較的回顧,我們為該領域的現狀提供了有價值的見解。展望未來,我們識別了有前景的研究方向,并通過我們的實時GitHub倉庫持續跟蹤最新進展。本綜述旨在激發創新,并推動推理型LLM這一快速發展的領域的進步。
摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。
關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。
智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。
1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具
除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。
雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。
在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。
大語言模型(LLMs)展現了極其強大的能力。實現成功的一個關鍵因素是將LLM的輸出與人類偏好對齊。這一對齊過程通常只需要少量數據就可以有效提升LLM的性能。盡管效果顯著,但該領域的研究涉及多個領域,所采用的方法相對復雜且難以理解。不同方法之間的關系研究較少,這限制了偏好對齊的進一步發展。有鑒于此,我們將現有的流行對齊策略分解為不同的組成部分,并提供了一個統一的框架來研究當前的對齊策略,從而建立它們之間的聯系。在本綜述中,我們將偏好學習中的所有策略分解為四個組成部分:模型、數據、反饋和算法。這個統一視角不僅能夠深入理解現有的對齊算法,還為不同策略的優勢協同提供了可能性。此外,我們還提供了詳細的現有算法工作示例,以幫助讀者全面理解。最后,基于我們的統一視角,我們探討了將大語言模型與人類偏好對齊所面臨的挑戰和未來的研究方向。
以ChatGPT為代表的大語言模型(LLMs)的崛起展示了令人印象深刻的語言能力和專業素養,能夠提供正確、禮貌且知識淵博的回答,這令人驚訝且值得欽佩。這種表現很大程度上要歸功于偏好對齊過程,這是LLM在公開部署前必須經歷的一個必要步驟,旨在防止其可能生成冒犯性、有害或誤導性的內容。盡管大語言模型(LLMs)在各個領域展現了卓越的能力 [19, 93, 115, 139],但它們在倫理 [54]、安全 [63, 106, 128] 和推理 [73, 123, 142] 方面仍面臨挑戰。為了應對這些問題,出現了許多與對齊相關的舉措 [28, 88, 94, 98],這也激發了本次綜述的興趣。雖然許多研究 [109, 124] 廣泛討論了對齊的概念,但偏好學習的各種算法之間的關系仍然支離破碎,缺乏統一的框架來將它們結合起來。為了彌補這一差距,我們旨在提供一個系統的偏好對齊框架,如圖1所示。通過將相關工作整合到這一框架中,我們希望為研究人員提供全面的理解,并為在特定領域的進一步探索奠定基礎。傳統的分類視角 [53, 109, 124] 通常將現有方法分為基于強化學習(RL)的方法,如RLHF [94],它需要獎勵模型用于在線RL;以及基于監督微調(SFT)的方法,如直接偏好優化(DPO)[98],它在離線環境中直接進行偏好優化。然而,這種分類無意中在兩類工作之間形成了一道障礙,不利于研究人員對偏好對齊核心內容的進一步理解。因此,我們致力于為這兩類方法建立統一的視角,并引入創新的分類框架。
這個新框架基于兩個關鍵見解:首先,在線策略(on-policy)與離線策略(off-policy)設置之間的區別,實質上取決于不同的數據來源,這可以與PPO或DPO等算法解耦。在線策略要求策略模型實時生成其數據,具體來說,被優化的LLM必須實時生成下一次訓練的迭代數據。而離線策略允許多種數據源,只要這些數據是提前收集的,而不需要策略模型同時生成。許多當前的工作采用特定算法在在線和離線設置之間的轉換 [39, 105]。因此,我們不使用在線或離線作為算法分類的標準。其次,受現有工作 [105] 的啟發,強化學習和監督微調方法的優化目標本質上非常相似。不同之處在于,基于強化學習的方法通常需要一個獎勵模型來計算進一步訓練的獎勵,而監督微調算法可以直接通過各種形式的偏好進行優化,如更好的對齊輸出、偏好關系中的成對或列表對比。有了統一的視角,我們可以將反饋定義為一系列能夠生成與人類判斷一致的偏好的工具,例如獎勵模型、人類標注者、更強大的模型(如GPT-4)以及各種規則。基于這些考慮,我們將偏好學習過程劃分為數據、反饋、偏好優化和評估。我們的分類框架如圖2所示。總之,我們的論文調查并整理了與LLM偏好學習相關的現有工作,提供了一個統一且新穎的視角。此外,基于這篇綜述的內容,我們總結了該領域的幾個未來研究方向,旨在為進一步的研究提供見解。
在本節中,我們首先為LLM的偏好學習提供定義:給定一般人類偏好分布P(??, ??),其中??是一個提示,??是LLM的相應輸出,LLM的偏好學習????是一種生成新的LLM ????′的范式,使其對齊于P(??, ??),即P(??, ????′(??)) > P(??, ????(??))。為了使LLMs學習人類偏好,這一過程通常涉及提供一個輸入??和相應的響應??的數據樣本,以及一個帶有人類偏好P(??, ??)的環境來對其進行反饋。與人類偏好一致的樣本會被賦予更高的獎勵,可能表現為正面標簽、在偏好排序中的較高位置,或較高的獎勵分數。在獲得數據后,策略模型????′通過特定算法進行優化。此外,根據這一定義,有必要解釋LLMs偏好學習與一些相關概念之間的關系。(1) 對齊:根據Kenton等人的研究 [58],對齊是指關注解決所謂的行為對齊問題的研究:我們如何創建一個能夠按照人類意愿行事的代理?基于這一定義,我們將LLMs的偏好學習視為旨在實現對齊的一類方法。本論文的范圍僅限于文本偏好對齊,不涉及其他廣為人知的對齊話題,如幻覺、多模態對齊和指令微調。(2) 從人類反饋中進行強化學習(RLHF):與RLHF不同,本論文的范圍不僅包括基于強化學習的方法,還涵蓋了傳統的基于監督微調(SFT)的方法。此外,我們采用了一個統一的視角來研究基于強化學習和監督學習的方法。
在本綜述中,我們將偏好學習的策略分解為幾個模塊:模型、數據、反饋和算法。通過根據它們的變體區分不同的策略,我們構建了一個統一的偏好學習策略視角,并在它們之間建立了聯系。我們認為,盡管這些對齊算法的核心目標本質上是相似的,但它們的表現可能在不同的應用場景中有顯著差異。我們將探索哪種變體在特定背景下表現更好作為未來的研究工作。最后,我們希望本綜述能夠為研究人員提供對偏好學習的進一步理解,并激發該領域的更多研究。
大語言模型(LLMs)與知識表示學習(KRL)的整合,標志著人工智能領域的重要進展,增強了捕捉和利用復雜知識結構的能力。這種協同作用利用了LLMs的高級語言和語境理解能力,以提升KRL的準確性、適應性和效能,從而擴展其應用和潛力。盡管有越來越多的研究集中在將LLMs嵌入到知識表示領域,但關于這些增強模型基本組件和過程的徹底審查明顯缺乏。我們的綜述通過基于三種不同的Transformer架構對這些模型進行分類,并分析來自各種KRL下游任務的實驗數據,以評估每種方法的優勢和劣勢。最后,我們確定并探討了這一新興但尚未深入探討的領域的潛在未來研究方向,提出了持續進展的路徑。
介紹
大語言模型(LLMs)(例如,BERT [18],LLaMA [59]),代表了一個不斷增長模型大小的方向,這些模型在更大的語料庫上進行預訓練,已經展示出在解決自然語言處理(NLP)任務中的強大能力,包括問答 [99],文本生成 [100] 和文檔理解 [101]。關于模型大小,沒有明確和靜態的閾值。早期的LLMs(例如BERT,RoBERTa)采用了編碼器架構,并展示了在文本表示學習和自然語言理解方面的能力。近年來,更多的關注點轉向了更大的編碼器-解碼器 [102] 或僅解碼器 [103] 架構。隨著模型大小的增加,這些LLMs還展示了推理能力甚至更高級的新興能力 [104],展示出對人工通用智能(AGI)的強大潛力。
這個拐點,隨著LLMs的到來,標志著從顯式知識表示向重新關注顯式知識和參數化知識混合表示的范式轉變。作為顯式知識表示的一種流行方法,知識圖譜(KGs)現在被廣泛研究,用于與基于Transformer的LLMs結合,包括預訓練的掩蔽語言模型(PLMs)如BERT和RoBERTa,以及更近期的生成式LLMs如GPT系列和LLaMA。一些工作利用LLMs來增強知識圖譜表示學習。在這篇綜述中,考慮到三個方向,即基于編碼器的方法、基于編碼器-解碼器的方法和基于解碼器的方法。我們對從顯式知識表示向重新關注顯式知識和參數化知識混合表示的轉變有了更深入的理解。
Cao等人 [22] 和Biswas等人 [40] 討論了知識圖譜表示學習的最新進展,但他們對與大型模型整合相關的方面處理不足。Pan等人 [42] 和Pan等人 [43] 探討了知識圖譜與大型模型的結合,特別是LLM4KG和KG4LLM;然而,他們在表示學習方面的覆蓋有限。因此,目前還沒有專門概述知識圖譜表示學習領域最新發展的綜述文章。
貢獻 本綜述的顯著貢獻總結如下:
組織結構 本綜述的結構如下:
近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。
我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。
大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。
人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:
本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。