摘要
隨著人工智能范式的持續演進,AI 研究正逐步邁入智能體 AI(Agentic AI)階段。研究焦點也從單一智能體與簡單應用,轉向多智能體在復雜環境下的自主決策與任務協同。伴隨大語言模型(LLMs)的發展,其應用變得愈加多樣化與復雜化,所引發的情境性和系統性風險亦日益突出,這使得智能體的價值對齊問題(Value Alignment)受到廣泛關注。價值對齊旨在確保智能體的目標、偏好與行為符合人類價值觀和社會規范。 本文從具體應用場景出發,系統回顧了智能體系統中的價值對齊問題,融合了大模型驅動的 AI 技術進展與社會治理的實際需求。我們的綜述內容包括價值原則、智能體系統的應用場景,以及智能體價值對齊的評估方法。 具體而言,價值原則部分采用自上而下的視角,按照宏觀(macro)、中觀(meso)和微觀(micro)三個層次進行組織與梳理;智能體系統應用場景則從一般到具體進行分類與回顧;價值對齊評估部分則系統性探討了用于評估的對齊數據集及相關方法。此外,本文還深入探討了多智能體系統中多智能體之間的價值協調問題。 最后,我們提出了該領域若干值得關注的未來研究方向。 關鍵詞:價值對齊;基于大語言模型的智能體系統應用;智能體 AI 系統;AI 智能體 1 引言
近年來,大語言模型(Large Language Models, LLMs)的迅猛發展深刻改變了人類社會的生產方式與生活形態。依托深度學習技術與海量訓練數據,OpenAI 的 GPT 系列與谷歌的 Gemini 系列等 LLM 展現出卓越的自然語言理解與生成能力【1】【2】。以 LLM 作為“核心大腦”的智能體(AI Agent)已廣泛應用于內容創作、自動編程、教育、醫療與商業決策等多個知識密集型領域。隨著其在自主決策、任務協作和治理環節中的能力不斷增強,LLM 智能體顯著提升了工作效率,并為用戶帶來了前所未有的交互體驗【3】。與此同時,研究者也日益關注多智能體系統(Multi-Agent Systems)的協調能力,以實現群體智能。AI 智能體正朝著更高自主性演進,逐步形成一種全新范式——智能體 AI(Agentic AI)。該范式的顯著特征包括:多智能體協作、動態任務分解、持久記憶及自主決策能力,已成為學術界與產業界的研究熱點【4】。 這一新范式的發展,亟需研究者跳出單一智能體與孤立應用場景的視角,深入探索智能體系統與具體應用之間的深度耦合。隨著 LLM 持續突破,其執行任務的種類與所應用的場景愈發多元與復雜,相應的社會風險也日益加劇。LLM 可能在訓練數據中保留有害信息、泄露隱私、生成誤導性內容,甚至采取對人類有害的行為【5】。例如,LLM 智能體系統可能表現出操控、欺騙等不良行為【6】,這引發了關于其潛在倫理與安全問題的廣泛擔憂。 未來 AI 若超越人類認知能力,并獲得自主學習與決策能力,其所構建的目標體系可能偏離甚至違背人類設計者的初衷。在追求自身目標的過程中,這類智能體可能會調動大量資源以維持自身運行并不斷自我增強,從而在資源分配與決策權上系統性地取代人類。若缺乏有效控制機制與穩健的價值對齊(Value Alignment)保障,人類在決策體系中的主導地位將逐步喪失,最終可能引發災難性的生存危機【7】。 隨著 LLM 深度嵌入到具體應用場景中,相關風險逐漸呈現出“情境化(situational)”與“系統化(systemic)”特征。例如,在用于城市交通優化的多智能體系統中,智能體可能出于效率考慮而犧牲公平性,從而加劇社會不平等【8】;在醫療領域中,LLM 可能在缺乏充分臨床證據或錯誤解讀倫理規范的前提下,提供誤導性的診療建議,進而造成隱私泄露、誤診或過度治療等嚴重后果【9】。因此,確保智能體行為符合人類意圖與價值規范,避免其執行有害操作,已成為當務之急。 此外,隨著以 LLM 為代表的 AI 系統日益參與治理情境,如何有效管理其引發的制度摩擦與交易成本,已成為關鍵的理論與實踐問題。在多智能體系統中,多個擁有語言理解與生成能力的 LLM 被部署于協同環境中,聯合完成決策、規劃與執行等任務。這類部署通常涉及復雜的信息共享、訪問控制與協作機制。雖然這提高了協作的靈活性,但也帶來了前所未有的價值沖突、目標異質性與不可預測的行為問題。若缺乏健全的制度設計與交互機制,復雜組織結構與模糊任務邊界將導致協同效率低下、職責不清、信任機制缺失,從而提升治理成本,削弱治理效能【10】。 這些不良行為與制度摩擦,歸根結底源于多方利益相關者在治理目標、價值觀念與行為規范上的深層沖突。將 LLM 有效嵌入人類價值體系,是負責任地釋放其潛力的關鍵前提。AI 智能體的價值對齊,旨在確保其運行過程中所設定的目標、偏好與行為輸出與個人、群體或組織的核心價值保持一致,正逐漸成為解決該問題的核心路徑【21】。 在單智能體場景中,主流的價值對齊方法側重于通過人類反饋、監督微調等手段引導模型生成符合倫理與社會預期的內容,從而避免有害輸出、虛假信息與道德偏離【8】。但在復雜的多智能體系統中,價值對齊更呈現出組織性挑戰,核心在于多智能體如何建立共享規范與協同機制。因此,從治理視角來看,價值對齊不應局限于單體智能體內部的算法優化,還應拓展至多智能體系統中的交互機制與組織結構設計。此時,價值對齊已不再是孤立的技術任務,而是關乎系統穩定性與智能體行為邊界的基礎性議題。 由于 Agentic AI 本質上強調基于場景驅動的多智能體協調機制,其研究核心應聚焦于特定應用背景下的任務分解策略、交互機制設計與環境適應能力構建。同時,理解復雜環境下多智能體系統的交互規律與組織模式,對于深入探討其價值對齊機制與實現穩健發展具有重要意義。 盡管已有研究梳理了 LLM 的價值對齊關鍵方法與技術進展【1, 11–20】,但鮮有專門針對基于 LLM 的多智能體系統中的價值對齊問題的深入探討。盡管部分文獻對多智能體協作機制有所涉及,但在價值對齊方面仍存在顯著空白。特別是在基于 LLM 的多智能體系統中,其高度自主性與語言驅動的協作模式進一步放大了價值異質性、目標沖突與協作機制脆弱等問題。此外,當前研究多數停留在理論或通用算法層面,缺乏對特定應用場景中多智能體價值對齊的機制與策略研究,也缺乏體系化的分層價值對齊框架。這表明,價值對齊不能僅被視為模型層面的技術挑戰,更應被理解為滲透于交互機制設計與組織結構配置的系統性治理問題。 因此,本文聚焦于多種具體應用場景下,基于 LLM 的智能體系統中的價值對齊問題,結合 AI 技術演進與社會治理需求,提出未來發展展望。作為一篇研究綜述,本文第 2 至第 4 節分別對價值原則、智能體系統應用場景與價值對齊評估進行系統回顧。具體而言: * 價值原則從自上而下的視角分層梳理,涵蓋宏觀(如社會規范)、中觀(如組織制度)與微觀(如個體偏好)三個層級; * 應用場景則按從一般到具體的邏輯進行歸類與分析; * 評估方法部分系統性介紹了價值對齊評估所用的數據集及關鍵技術。
第 5 節總結前文內容并提出未來研究展望。我們主張建立一個多層次價值對齊評估體系,同時深入探討多智能體系統中智能體之間的價值協調,特別關注交互機制與組織模型設計中的價值因素。此外,我們建議,為了促進場景化智能體系統的價值對齊,企業或組織可在不涉及機密信息的前提下,共享微觀領域的數據集中的價值偏好信息。本文致力于彌合理論研究與實際部署之間的差距,結合真實應用場景與組織交互動態,為基于 LLM 的智能體系統價值對齊提供新視角,推動 Agentic AI 內在機制的研究與發展。
摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:
//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習
隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?
智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。
隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。
在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。
覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:
智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。
論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。
第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。
第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。
第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。
第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。
第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向
摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)
I. 引言
近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合和時序融合等方向的覆蓋不足。
為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。
摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全
大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。
如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。
摘要——AI 智能體正在經歷一場范式轉變:從早期由強化學習(Reinforcement Learning, RL)主導,到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體興起,如今正進一步邁向 RL 與 LLM 能力融合的協同演進。這一演進過程不斷增強了智能體的能力。然而,盡管取得了顯著進展,要完成復雜的現實世界任務,智能體仍需具備有效的規劃與執行能力、可靠的記憶機制,以及與其他智能體的流暢協作能力。實現這些能力的過程中,智能體必須應對始終存在的信息復雜性、操作復雜性與交互復雜性。針對這一挑戰,數據結構化有望發揮關鍵作用,通過將復雜且無序的數據轉化為結構良好的形式,從而使智能體能夠更有效地理解與處理。在這一背景下,圖(Graph)因其在組織、管理和利用復雜數據關系方面的天然優勢,成為支撐高級智能體能力所需結構化過程的一種強大數據范式。
為此,本文首次系統性地回顧了圖如何賦能 AI 智能體。具體而言,我們探討了圖技術與智能體核心功能的融合方式,重點介紹了典型應用場景,并展望了未來的研究方向。通過對這一新興交叉領域的全面綜述,我們希望激發下一代智能體系統的研究與發展,使其具備利用圖結構應對日益復雜挑戰的能力。相關資源可在附帶的 Github 鏈接中獲取,并將持續更新以服務社區。
關鍵詞:圖、圖學習、智能體、大語言模型、強化學習、綜述
一、引言
在人工智能(AI)快速演進的浪潮中,AI 智能體因其在任務自動化處理方面的巨大潛力而受到廣泛關注。智能體的發展歷程經歷了從早期基于強化學習(Reinforcement Learning, RL)的架構 [1], [2],到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體 [3], [4],再到最新融合 LLM 作為知識基礎與 RL 作為任務特定學習范式的緊耦合架構 [5],標志著智能體能力的一次重大飛躍。這一演進使得智能體能夠利用 LLM 所蘊含的廣泛世界知識理解復雜任務,并通過 RL 優化實現對任務的精準處理。 執行復雜現實任務的 AI 智能體往往需要具備多樣化的能力 [6], [7]。高效的任務導航依賴于諸多智能體功能,例如精細化的規劃能力、結合外部工具的精確執行能力、可靠的記憶機制,以及與其他智能體的高效協同能力 [8], [9]。然而,由于任務復雜性的存在,智能體在這些功能中常常面臨信息、操作符以及交互的錯綜復雜與混亂無序。因此,亟需一種有效方式來組織和管理所遇數據,以便智能體能夠更好地理解和高效處理,從而提升其應對復雜任務的能力。例如,在規劃階段,智能體需要解析非結構化的任務描述并將其重組為可執行的子任務計劃;在執行過程中,需合理編排多種外部工具以兼顧效率與準確性;在記憶管理中,需有序整理龐大的內容以便有用信息得以保留并可快速檢索;而在多智能體協作中,則需確定合適的協同拓撲結構,以實現有效的信息傳遞。在面對非結構化數據時,傳統智能體通常只能在學習過程中隱式捕捉其中潛在的關聯。基于數據中固有的有益關系,采用圖為基礎的顯式建模結構化方法成為應對這一挑戰的有前景途徑,能夠將原始而復雜的輸入轉化為簡潔有序的形式,從而提升智能體的理解力與處理效率。這類結構化信息有助于智能體探索復雜任務并做出更具信息性的決策。 圖在各類領域中已展現出廣泛的適用性 [10]–[12],并被證明是管理數據、組織含有有價值關系信息的一種強大范式。在構建好的圖基礎上,圖學習(Graph Learning)進一步通過對結構化信息的學習展現出顯著成效 [13], [14]。具體而言,圖通過將實體表示為節點、顯式或隱式關系建模為邊,提供了一種有效的數據組織方式。一個合適的圖結構是實現智能體數據組織的關鍵。圖結構的構建具有高度靈活性,可根據特定環境、任務、操作符與應用需求自定義圖結構 [15]–[17],也可以利用現有的外部知識圖譜 [18], [19]。這種靈活性使得圖能夠廣泛嵌入于多種智能體及其多樣化功能中。在構建好的圖之上,圖學習技術還可進一步提供一個強大的知識提取框架,幫助智能體捕捉復雜關系與有意義的信息。這使得圖技術成為增強 AI 智能體在復雜場景下能力的理想手段。因此,圖與智能體的交叉融合有望大幅提升其對結構化信息的處理與利用能力,進而賦能其在規劃、執行、記憶與多智能體協作等方面的關鍵功能。 分類框架:本綜述系統性地探討了圖在信息、操作符與多模型結構化組織中的作用,涵蓋了從基于 RL 的智能體到基于 LLM 的智能體范式。考慮到 RL 技術與 LLM 基礎模型日益緊密的融合,我們在分析中并未刻意區分圖學習在這兩類智能體架構中的作用,而是如圖 1 所示,從智能體核心功能出發,以圖賦能為主線展開討論。我們重點關注圖學習如何增強智能體的四大關鍵功能:規劃、執行、記憶與多智能體協作。此外,本綜述還探討了智能體反過來如何促進圖學習技術的發展。最后,在全面回顧的基礎上,我們梳理了潛在的應用前景與關鍵的未來研究方向。通過綜述該領域的系統洞察,我們旨在推動新一代能夠利用結構化知識應對日益復雜挑戰的 AI 智能體的發展。 在本文所探討的背景下,現有綜述主要集中于圖技術在強化學習中的應用價值 [20], [21]。而隨著 LLM 的快速發展,圖學習也被視為提升其能力的有效技術,已有若干綜述對該方向進行過探討 [22], [23]。然而,盡管已有貢獻,目前仍缺乏一項系統性地闡述圖如何在智能體不同功能中發揮作用的綜述。據我們所知,本文為首個系統性探索圖技術與智能體多維操作交叉點的研究綜述。我們希望通過全面回顧,為構建下一代圖賦能智能體提供有價值的研究參考與啟發。 本文的主要貢獻如下: * 本文首次全面綜述了圖技術與 AI 智能體之間這一強大而充滿潛力的交叉方向; * 我們提出了一種新的分類方法,系統化地梳理了圖在智能體不同核心功能(規劃、執行、記憶與協作)中的作用,并探討了智能體如何反過來推動圖學習的發展; * 基于本綜述,我們進一步分析了圖賦能智能體的應用前景、關鍵挑戰以及未來研究方向。
文章結構如下:第二節介紹與本綜述相關的基礎知識;第三至第七節將根據提出的分類方法,詳述各項相關研究;第八與第九節分別探討圖與智能體交叉領域中的潛在應用與未來機會;第十節對全文進行總結歸納。
本文提出了一種全新的分類方法,用于系統地探討圖技術與 AI 智能體如何實現相互增強,如圖 2 所示。具體而言,在第 III 至第 VI 節中,我們介紹了圖學習如何支持智能體的核心功能,包括規劃(第 III 節)、執行(第 IV 節)、記憶(第 V 節)以及多智能體協作(第 VI 節)。通過將圖與智能體功能之間的協同點加以細分,不僅契合了智能體系統設計中的自然模塊化特征,也凸顯了圖技術在每項功能中所蘊含的獨特潛力。 此外,在第 VII 節中,我們進一步探討了智能體范式如何反過來促進圖學習的發展。通過明確考慮這一反向作用,即基于智能體范式如何反哺圖學習過程,我們強調了雙向創新的重要性,并倡導一種整體視角,即圖與智能體協同演化、深度融合,從而激發出超越單向整合的新方法論。 基于這一結構清晰的分類框架,我們將在第 VIII 與第 IX 節中進一步討論相關應用與未來研究機遇。
摘要
大型語言模型(LLMs)的出現為自然科學與社會科學研究帶來了變革性機遇,其通過提供理解復雜系統的新范式,正重塑相關領域的研究進程。尤其是生成式智能體模擬(GABMs)——通過整合LLMs模擬人類行為,因其能在多樣化人工環境中建模復雜交互而日益受到關注。本文綜述了LLMs在網絡科學、演化博弈論、社會動力學及流行病建模等領域的顛覆性作用,評估了其在社會行為預測、博弈合作增強、疾病傳播模擬等方面的最新進展。研究發現,LLMs不僅能復現人類典型行為(如公平偏好、合作傾向、社會規范遵循),還具有成本效益、可擴展性和倫理簡化等獨特優勢;但同時也存在因提示詞敏感性、幻覺問題甚至模型特性導致的行為不一致性,這為控制此類AI驅動的智能體帶來了挑戰。盡管潛力巨大,若要將LLMs有效整合至政府、社會或個人決策流程中,仍需解決數據偏見、提示詞設計難題及人機交互動力學理解等關鍵問題。未來研究需優化模型架構、標準化方法論,并探索LLMs與人類及彼此交互中可能涌現的新型合作行為,這些進展或將徹底改變各類系統的決策模式。
關鍵詞:大語言模型(LLMs),生成式智能體模擬(GABMs),復雜系統,網絡科學,合作博弈,社會動力學,流行病建模********************************
彭晨丨作者
論文題目:LLMs and generative agent-based models for complex systems research 發表時間:2024年10月28日 論文地址://doi.org/10.1016/j.plrev.2024.10.013 會議名稱:Physics of Life Reviews **
**
近年來,大語言模型(LLMs)的突破性進展正在重塑自然科學與社會科學的研究范式。近期,發表在 Physics of Life Reviews 的綜述文章系統梳理了LLMs與生成式智能體模擬(Generative Agent-Based Models, GABMs)在復雜系統研究中的前沿應用。這類模型通過將LLMs嵌入智能體決策核心,能夠實現人類在復雜環境中的互動行為的模擬,為網絡演化、群體合作、社會動態傳播等經典問題提供了全新研究路徑。LLMs不僅能復現人類的公平性、合作傾向等社會規范,還展現出成本效益、可擴展性和倫理簡化等獨特優勢。然而,其行為的不一致性、提示敏感性以及“幻覺”問題也揭示了AI智能體控制的技術挑戰。
**
復雜網絡:LLM驅動的自組織網絡演化
在復雜網絡領域,傳統模型依賴固定規則生成節點連接,而GABMs首次實現了基于語義理解的網絡自組織。一項研究通過GPT-3.5模擬在線社交網絡生長:每個新加入的智能體(節點)在接收到包含現有成員好友數的提示后,自主決定連接對象。有趣的是,初始實驗發現網絡呈現獨特的**“中心-輻條”結構**,與傳統偏好連接模型(preferential attachment)的冪律分布明顯不同。深入分析揭示,這種偏差源于LLM對節點名稱的隱性偏好——當研究者將節點名稱隨機化后,網絡結構立即趨近經典模型。這種**“名稱偏見”**現象凸顯了LLMs在模擬人類行為時可能引入的隱性認知偏差。
圖 1. 生成式智能體模型(GABMs)。智能體并不根據一組固定的規則來決定它們之間的相互作用。相反,會向LLM發送包含所需詳細信息的提示,并返回智能體應該做出的決策。
**
博弈論:AI智能體的合作悖論
博弈論實驗成為檢驗LLMs社會認知能力的試金石。一項獨裁者博弈(Dictator Game)中發現,GPT-3.5智能體的平均分配公平性顯著高于人類,且從未選擇“獨占全部資源”的理性策略。
在一項囚徒困境(Prisoner's Dilemma)的單次博弈中,LLMs的合作率高達65.4%,遠超人類37%的歷史數據。這種超理性行為在另一團隊的迭代實驗中發生反轉:**當GPT-4智能體相互博弈時,表現出“一次背叛終身不合作”**的極端懲罰策略,揭示了模型版本更新帶來的行為變化。
這些矛盾結果暗示,LLMs的合作傾向高度依賴提示框架和模型微調策略,其“價值觀”本質上是開發者預設與社會訓練數據共同作用的產物。
圖3. 提示一個LLM參與獨裁者博弈。將Brookins等人提供的指令復制到使用GPT-3.5的LLM智能體中。雖然指令沒有明確提到公平,但LLM表現出公平分配的傾向,超過人類參與者。
**
社會動力學:人機混合決策的曙光
社會動態模擬方面,LLMs正在突破傳統智能體模型的局限。一項研究在流行病建模中構建了三層提示框架:基礎場景智能體僅考慮工作收入;健康反饋層加入個體癥狀感知;完整反饋層進一步引入社區感染數據。結果顯示,獲取群體信息的智能體自發產生居家隔離行為,使疫情傳播規模下降80%。這種無需預設規則的適應性決策,為公共衛生干預模擬提供了動態響應基礎。
圖5. LLM驅動智能體的疫情傳播模型。Williams等人提出一種模型,其中個體每天通過LLM決策是否外出互動或居家隔離。在基準場景中,LLM僅被告知個體需要工作賺錢;在健康狀態反饋場景中,提示詞額外包含個體的健康狀況;最終,完整反饋場景還會提供社區病毒傳播信息(研究者將其命名為"Catasat病毒")及前一階段同區域(名為"Dewberry Hollow")的感染人數數據。
而在群體決策領域,另一項研究證實GPT-3能精準模擬特定亞文化群體(如美國福音派基督徒)的政治傾向,其預測結果與真實民調誤差小于2%。這種細粒度的人群建模能力,使政策仿真可以觸及傳統問卷調查難以覆蓋的微觀社會結構。
**
挑戰與未來:人機共生的決策新生態
盡管前景廣闊,LLMs在復雜系統中的應用仍面臨三重挑戰。首先是提示工程的脆弱性:在最后通牒博弈(Ultimatum Game)中,同一LLM作為提議者與響應者時行為一致性僅50%,而雙智能體架構則提升至88%,顯示決策角色的語義隔離至關重要。
其次是價值觀的隱形編碼,在一項政治傾向量表檢測中發現,早期模型(如BERT)呈現保守傾向,而GPT-4則更趨自由主義,這種偏差可能扭曲社會模擬的客觀性。
**最后是群體涌現的不確定性,**在多智能體公共品博弈中發現,惡意節點的存在會使相鄰個體貢獻率下降40%,但另一團隊觀察到補償性合作增強,這種矛盾可能源于不同LLM版本的風險評估機制差異。
圖6. LLM在社會決策中的整合應用。左圖:智能體為政府或第三方組織提供決策支持,右圖:智能體輔助個人決策的過程。此類智能元素的整合機制,在概念上類似于領域專家委員會模式,但其規模可擴展至前所未有的水平。
因此,未來的研究需建立標準化的提示詞協議、開發偏差檢測工具,并深入探索人機混合群體中新型合作機制的涌現規律。當數十億LLM智能體在數字空間持續交互,可能催生超越人類經驗的社會動力學新模式。這場始于語言理解的革命,未來可能將重塑我們理解復雜性的方式。
參考文獻 [1] De Marzo, G., Pietronero, L., & Garcia, D. (2023). Emergence of scale-free networks in social interactions among large language models. arXiv preprint arXiv:2312.06619. [2] Guo, F. (2023). GPT in game theory experiments. arXiv preprint arXiv:2305.05516. [3] Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986. [4] Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3), 337-351.**
**
摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。
本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型
遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:
基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;
學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;
視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。
盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:
對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;
對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;
對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;
討論當前挑戰與未來可能的研究方向。
圖2展示了本文的整體框架。
摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程
摘要
運輸網絡中的數據挖掘(DMTN)指的是利用多種時空數據進行各種交通任務,包括模式分析、交通預測和交通控制。圖神經網絡(GNNs)在許多DMTN問題中至關重要,因為它們能夠有效表示實體之間的空間關聯。從2016年到2024年,圖神經網絡在DMTN中的應用已擴展到多個領域,如交通預測和運營。然而,現有的綜述主要集中在交通預測任務上。為填補這一空白,本研究提供了一個及時且富有洞察力的總結,重點介紹自2023年以來在學術界和工業界關于GNN在DMTN中應用的最新進展。首先,我們介紹并分析了各種DMTN問題,并概述了經典與最新的GNN模型。其次,我們深入探討了三個領域的關鍵研究工作:(1)交通預測,(2)交通運營,以及(3)行業參與,如Google Maps、高德地圖和百度地圖。在這些方向上,我們討論了基于交通問題的重要性和數據可用性的新研究機會。最后,我們匯總了數據、代碼及其他學習材料,以促進跨學科的交流。本綜述以自2023年以來GNN在DMTN研究中的最新趨勢為驅動,旨在為各種交通問題(包括預測和運營)提供豐富的數據集和高效的GNN方法。 關鍵詞:數據挖掘;運輸網絡;圖神經網絡;交通預測;交通運營
ETA預測是運輸網絡數據挖掘(DMTNs)的一個實例,涉及從運輸網絡中的大量數據中提取和利用有價值的信息。DMTN包括使用各種交通數據進行數據收集、處理、融合、預測和操作。具體示例包括擁堵傳播特征化(Luan等,2022)、標準交通預測任務(如交通擁堵預測)(Rahman和Hasan,2023b,Feng等,2023b,Bogaerts等,2020,Cui等,2020)、共享出行(Ke等,2021a)和電動滑板車需求預測(Song等,2023)。此外,DMTN還涵蓋了交通數據補全(Chen等,2020,Nie等,2024,2025)、事故風險分析(Zhao等,2024)、系統韌性評估(Wang等,2020)和車輛路線優化(Liu和Jiang,2022)等內容。DMTN任務對于集成運輸系統的感知和操作至關重要,以提升其效能。例如,通過應用交通補全和預測技術,在線地圖導航平臺可以構建時間序列交通概況,為私家車和公共交通用戶提供高效的交通指導。盡管其重要性不言而喻,但許多DMTN任務仍然充滿挑戰,主要受以下三個因素的影響:(1)跨不同地點的空間交通狀態關系的復雜性(Wu等,2020a,2021,Lan等,2022);(2)交通網絡對人類活動(如體育賽事)的依賴(Yao和Qian,2021);(3)大城市中運輸網絡中大量的節點和邊(Boeing,2020)。
為了解決上述問題,現有研究已將GNN應用于各種DMTN問題。GNN是專門為圖結構數據設計的先進機器學習方法(Manessi等,2020,Veli?kovi?,2023,Corso等,2024)。這些模型將圖卷積操作與神經網絡架構相結合,捕捉沿圖邊的節點間關系(Scarselli等,2008,Kipf和Welling,2016,Veli?kovi?等,2017,Abu-El-Haija等,2019)。這一特性與描述實體間大量關系的需求無縫對接,例如推薦系統中的用戶-物品交互(Ying等,2018a,Chen等,2024b)、藥物發現中的蛋白質-蛋白質相互作用(Jiménez-Luna等,2020)、以及材料探索中的原子-原子接近性(Merchant等,2023)。在運輸網絡中,GNN推動了對DMTN問題中各種空間實體之間復雜相互關系的建模創新(Rahmani等,2023)。這些包括用于智能駕駛的車輛(Chen等,2021)、用于交通速度預測的傳感器(Feng等,2023b)、用于出行行為預測的用戶(Xue等,2024b)、用于旅行時間估算的路段(Fang等,2020)、用于打車服務的起始-目的地對(Ke等,2021b),以及用于空中交通密度預測的空域站點(Xu等,2023)。圖神經網絡在DMTN中的應用工作蓬勃發展,呼喚對這一領域進行系統的綜述與展望。 已有幾篇綜述總結了GNN架構及其在各領域的變種(見表1)。例如,Zhou等(2020)考察了包括圖卷積網絡(Kipf和Welling,2016)和門控GNN(Li等,2015)在內的通用GNN組件及其變體,并列舉了這些模型在自然科學、計算機視覺和自然語言處理等領域的應用(直至2020年)。后續關于GNN的綜述則集中于特定領域,如推薦系統(Wu等,2022)和時間序列分析(Jin等,2023b)。此外,Zhang等(2024a)考察了GNN的表達能力,專注于節點索引對GNN結果的影響。針對工業應用,Lu等(2024)總結了GNN在生物學、金融等多個工業領域的應用。然而,這些綜述并未專門聚焦于運輸網絡。 關于GNN在運輸網絡中的應用,我們列出了現有文獻綜述(見表2)。具體而言,Shaygan等(2022)討論了用于預測交通速度(Li等,2017,Guo等,2021)、交通流量(Song等,2020)以及二者結合的GNN方法(Zheng等,2020)。Jiang和Luo(2022)列舉了針對不同交通模式(如鐵路、出租車和自行車)的交通流量和需求預測研究。然而,這兩篇綜述并未涵蓋交通運營領域的研究,如交通信號控制(Devailly等,2021)。后續的綜述彌補了這一空白,將GNN應用擴展到智能交通任務中的交通運營(Rahmani等,2023,Wei等,2023)。然而,它們并未包含由Google Maps(Derrow-Pinion等,2021)、高德地圖(Dai等,2020)和百度地圖(Fang等,2020)等數字服務在運輸網絡中的大規模行業部署。 針對這些缺點的全面綜述使我們能夠識別出運輸系統數據挖掘和管理中的新研究方向。本綜述提供了關于GNN方法在DMTN問題中的應用的全面、最新總結,既面向學術界,也面向工業界(圖1)。
首先,我們總結了關鍵的DMTN問題,包括交通預測和交通運營。其次,我們概述了GNN模型及其隨著時間演變的變種(You等,2020)。接下來,我們分析了當前GNN在DMTN問題中的應用及未來的研究機會。最后,我們介紹了相關的在線數據集、代碼和學習材料,以支持學術界和工業界未來的研究工作。我們的貢獻如下:
接下來的部分安排如下(圖1)。第2節概述了各種DMTN問題,包括交通預測和運營。第3節討論了基礎的GNN模型及其進化變種。第4節回顧了GNN在運輸網絡中的學術和工業進展。第5節概述了新應用的未來研究方向。第6節總結了數據、代碼和其他資源,旨在促進未來研究。最后,第7節對本綜述進行總結。
3D點云表示在保持物理世界的幾何保真度方面發揮著至關重要的作用,使得對復雜三維環境的理解和交互更加精確。人類可以通過多感官系統自然地理解物體之間的復雜關系、空間布局及其變化,而人工智能(AI)系統尚未完全復現這一能力。為了彌合這一差距,整合多種模態(如圖像、文本、音頻和點云)變得尤為重要。能夠無縫集成并在這些模態之間進行推理的模型被稱為基礎模型(Foundation Models, FMs)。 在2D模態(如圖像和文本)方面,基礎模型的研究取得了顯著進展,這主要得益于大規模數據集的豐富性。然而,在3D領域,由于標注數據的稀缺性和高計算開銷,其發展相對滯后。針對這一問題,近年來的研究開始探索將FMs應用于3D任務的潛力,借助現有的2D知識克服這些挑戰。此外,語言作為一種能夠進行抽象推理和環境描述的媒介,通過大規模預訓練語言模型(LLMs)提供了一種增強3D理解的潛在途徑。 盡管近年來FMs在3D視覺任務中的發展和應用取得了快速進展,但仍缺乏全面和深入的綜述性研究。本文旨在填補這一空白,系統性地回顧當前最先進的利用FMs進行3D視覺理解的方法。我們首先回顧了構建3D FMs所采用的各種策略,然后對不同FMs在感知任務等領域的應用進行分類和總結。最后,我們對該領域的未來研究方向進行了探討。本綜述旨在為研究人員和實踐者提供一個結構化的指南,既總結現有知識,也為未來的探索提供一條清晰的路線圖。 此外,為了補充本綜述,我們提供了一個相關論文的精選列表://github.com/vgthengane/Awesome-FMs-in-3D
點云、3D視覺、基礎模型、視覺-語言模型、大型語言模型、多模態模型
在當前推動人工智能(AI)系統向類人思維和行為發展的競賽中,一個至關重要的因素是AI對三維(3D)世界的理解和導航能力。為了使AI系統能夠有效地部署在現實環境中,它們必須具備穩健的三維世界感知能力[1]。三維世界可以采用多種形式進行表示,包括深度圖像、網格(meshes)、體素網格(volumetric grids)和點云(point clouds)[2]。其中,點云是最常用的一種表示方式,由三維坐標系中的點集合構成[3]。 三維點云是空間數據表示領域中的核心范式[4],在多個領域發揮著關鍵作用,包括計算機視覺、機器人技術、自動駕駛、增強現實等[5]。在計算機視覺中,點云可用于精確建模現實場景,從而促進目標檢測、場景理解和三維重建等任務[2]。同樣,在機器人和自動駕駛領域,點云在感知和導航中起著至關重要的作用,有助于障礙物檢測、環境建圖和路徑規劃[6]。此外,在增強現實應用中,點云作為核心數據結構,支持虛擬對象在物理世界上的疊加,增強用戶體驗和交互[7]。總體而言,點云所蘊含的豐富信息和多功能性使其成為三維理解和交互不可或缺的工具。 盡管點云在三維數據處理中扮演著重要角色,但其應用仍面臨諸多挑戰。首先,三維數據集的采集過程復雜,成本高昂,且耗時較長[8]。此外,為點云數據提供用于目標識別、語義分割和推理等任務的標注(ground truth)極為繁瑣,需依賴專業知識[9]。訓練大規模模型需要處理海量數據集,這對計算資源和基礎設施提出了較高要求,往往需要高性能計算系統[10]。更進一步,盡管點云能夠捕捉幾何細節,但其數據本質上是稀疏的,缺乏關于物體或場景的語義信息[11]。 這些挑戰促使研究者們思考以下核心問題:我們能否利用其他數據模態,如圖像、文本和音頻,以增強對三維數據的理解,并借助能夠提取特征的模型實現這一目標?此外,我們能否在無需大量數據采集和昂貴模型訓練的情況下,彌補數據、標注和語義信息的缺失? 這種思考催生了基礎模型(Foundation Models, FMs)。“基礎模型”一詞首次由文獻[12]提出,指的是基于大規模數據集進行自監督學習訓練的深度學習模型。這類模型展現出前所未有的適應性,可跨多種任務和領域應用,其特點包括預訓練[13]、可泛化性、可通過遷移學習進行適配[14],在模型規模和數據規模上都具備大規模性,以及以自監督學習為核心的訓練方式。 盡管基礎模型(FMs)的基本組成部分(如神經網絡和遷移學習)已存在多年,但近年來,它們在自然語言處理(NLP)領域取得了顯著進展,尤其是在大型語言模型(LLMs)如BERT和GPT-3的推動下[15, 16]。隨著NLP的成功,計算機視覺(CV)領域也取得了類似進展。例如,視覺-語言模型(Vision-Language Models, VLMs),如CLIP[17],在大規模圖像-文本數據集上進行訓練,在多個下游任務中展現出卓越的泛化能力[18, 19]。進一步地,SAM等模型[20]針對分割任務的適應性,使其能夠用于無類別約束(class-agnostic)的分割應用,包括醫學圖像分割[21]和三維視覺任務[22]。 為了更有效地理解三維世界,研究者嘗試結合圖像、文本和音頻等多模態信息,并借助基礎模型(FMs)推動多種方法的發展[1]。例如,一種研究方向是利用二維基礎模型(2DFMs)構建三維基礎模型(3DFMs)[23, 24]。另一種方向是利用這些2DFMs進行點云分類[25, 18]、語義分割[26, 27]和目標檢測[28, 29]等任務。此外,隨著開源大型語言模型(LLMs)[30, 31, 32]的出現,一些方法已被提出用于三維理解,涵蓋物體級別[33, 34]和場景級別[35, 36]的任務。盡管LLMs本質上是為基于文本的推理設計的,但它們可以通過與視覺模型結合來適用于三維任務。例如,LLMs從文本描述或指令生成的嵌入向量可以與三維模型的特征進行對齊,從而實現視覺定位(visual grounding)[37]、三維文本描述(3D captioning)[38]和三維問答(3D question-answering)[39]等任務。 盡管2DFMs在三維視覺任務中的應用取得了快速發展和廣泛采用,但現有文獻仍缺乏對這些方法的深入總結。為填補這一空白,我們提出了一份全面且結構化的指南,旨在為研究人員和實踐者提供權威參考。
本綜述詳細分析了用于三維點云理解的二維基礎模型(2DFMs)。它旨在為研究人員提供幫助,無論是新入門者還是經驗豐富的專家,并通過結構化的分類體系(如圖1所示)幫助理解關鍵概念。我們首先在第2節奠定基礎,詳細討論點云、可用數據集、單模態和多模態模型以及下游任務適配等核心主題。隨后,第3節探討了利用2DFMs構建3D基礎模型(3DFMs)的早期研究工作。接著,第4節分析了這些2D-和3DFMs在分類、分割和檢測等3D任務中的應用。同樣地,第5節探討了2D-和3DFMs與LLMs結合以解決3D任務的研究進展。整個綜述中,我們總結了相關方法,并分析了它們在不同數據集上的表現。此外,第6節展望了當前的局限性及未來發展方向,并在第7節對本綜述進行總結。
本綜述聚焦于針對三維點云的基礎模型(FMs)。這些FMs涵蓋了單模態模型(主要為文本處理的大型語言模型LLMs),如LLaMa[30]、GPT-3[16]和Vacuna[31],以及其多模態擴展模型,如CLIP[17]、SAM[20]、ImageBind[40]及其變體[41],以及融合LLMs的多模態模型,如LLaVa[42]和MiniGPT-4[43]。我們排除了使用2DFMs進行圖像生成、操作或渲染的研究,因為這些方向已在現有文獻中得到廣泛覆蓋。此外,我們未涉及醫學影像或遙感等特定領域的應用,因為這些方向更適合獨立的綜述論文。相反,我們提供了對現有文獻的全面概述,這些研究可廣泛適用于多個領域。
我們將本綜述與現有三維點云相關文獻進行比較。Guo等人[44]對深度學習在三維點云處理中的應用進行了全面回顧。此外,[5, 2, 45]提供了針對基于Transformer架構模型的詳細分析,但僅關注于這一特定類別的模型。一些研究總結了自動駕駛領域的三維目標檢測方法[6, 46, 47, 48],但未涵蓋更廣泛的三維應用。此外,這些綜述較為過時,未能反映近年來利用預訓練大模型進行三維理解的最新進展。Awaise等人[49]對2DFMs在計算機視覺任務中的應用進行了總結,但未涉及三維應用。其他文獻如[7, 50]研究范圍較為局限,例如,[7]僅關注于點云的自監督學習方法,[50]專注于點云的標簽高效(label-efficient)學習方法。相比之下,我們的綜述旨在提供盡可能全面的方法列表,涵蓋利用2D/3D FMs解決各類三維下游任務的最新研究進展。
本綜述是首個對三維點云學習領域的基礎模型(FMs)進行全面探討的研究,填補了當前文獻中的重要空白,旨在為新入門者和資深研究人員提供一個起點和參考指南。本綜述的核心特性包括: ? 三維視覺任務與數據集背景介紹:提供點云基礎知識,并概述用于訓練和評估的多種數據集,重點分析其關鍵特性及面臨的挑戰。 ? 基礎模型(FMs)及關鍵概念討論:簡明扼要地解釋FMs的概念和重要術語,以確保讀者能夠清晰理解其在不同應用場景中的作用。 ? 方法的全面分析:詳細回顧現有方法,并與替代方案進行比較,使讀者能夠清楚地理解各方法的優缺點及其適用場景。
本研究的主要貢獻如下: ? 全面的背景介紹:我們介紹了三維點云的基本概念、現有可用的數據集,以及基礎模型(FMs)及相關術語。這一背景知識為理解綜述中討論的方法奠定了基礎。 ? 結構化分類體系(Taxonomy):我們提出了一種結構化的分類體系,使新研究人員能夠快速理解該領域的核心概念,同時為資深研究者提供深入探索當前趨勢的途徑。該分類體系按照不同任務、模型適配策略以及其他重要因素對方法進行分組,以便更好地組織和理解現有文獻。 ? 對未來發展方向的深入探討:此外,我們基于本綜述討論的研究成果,對未來發展趨勢進行了深入分析。內容涵蓋數據集構建、模型適配三維任務的有效方法,以及該領域的其他新興趨勢。 通過對基礎模型(FMs)、分類體系、數據集及方法的全面綜述,本研究為研究人員、從業者和愛好者提供了有價值的指導,旨在推動三維世界理解領域的發展。
摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。
關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。
人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。
為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。
然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:
這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。
本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。