亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——AI 智能體正在經歷一場范式轉變:從早期由強化學習(Reinforcement Learning, RL)主導,到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體興起,如今正進一步邁向 RL 與 LLM 能力融合的協同演進。這一演進過程不斷增強了智能體的能力。然而,盡管取得了顯著進展,要完成復雜的現實世界任務,智能體仍需具備有效的規劃與執行能力、可靠的記憶機制,以及與其他智能體的流暢協作能力。實現這些能力的過程中,智能體必須應對始終存在的信息復雜性、操作復雜性與交互復雜性。針對這一挑戰,數據結構化有望發揮關鍵作用,通過將復雜且無序的數據轉化為結構良好的形式,從而使智能體能夠更有效地理解與處理。在這一背景下,圖(Graph)因其在組織、管理和利用復雜數據關系方面的天然優勢,成為支撐高級智能體能力所需結構化過程的一種強大數據范式。

為此,本文首次系統性地回顧了圖如何賦能 AI 智能體。具體而言,我們探討了圖技術與智能體核心功能的融合方式,重點介紹了典型應用場景,并展望了未來的研究方向。通過對這一新興交叉領域的全面綜述,我們希望激發下一代智能體系統的研究與發展,使其具備利用圖結構應對日益復雜挑戰的能力。相關資源可在附帶的 Github 鏈接中獲取,并將持續更新以服務社區。

關鍵詞:圖、圖學習、智能體、大語言模型、強化學習、綜述

一、引言

在人工智能(AI)快速演進的浪潮中,AI 智能體因其在任務自動化處理方面的巨大潛力而受到廣泛關注。智能體的發展歷程經歷了從早期基于強化學習(Reinforcement Learning, RL)的架構 [1], [2],到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體 [3], [4],再到最新融合 LLM 作為知識基礎與 RL 作為任務特定學習范式的緊耦合架構 [5],標志著智能體能力的一次重大飛躍。這一演進使得智能體能夠利用 LLM 所蘊含的廣泛世界知識理解復雜任務,并通過 RL 優化實現對任務的精準處理。 執行復雜現實任務的 AI 智能體往往需要具備多樣化的能力 [6], [7]。高效的任務導航依賴于諸多智能體功能,例如精細化的規劃能力、結合外部工具的精確執行能力、可靠的記憶機制,以及與其他智能體的高效協同能力 [8], [9]。然而,由于任務復雜性的存在,智能體在這些功能中常常面臨信息、操作符以及交互的錯綜復雜與混亂無序。因此,亟需一種有效方式來組織和管理所遇數據,以便智能體能夠更好地理解和高效處理,從而提升其應對復雜任務的能力。例如,在規劃階段,智能體需要解析非結構化的任務描述并將其重組為可執行的子任務計劃;在執行過程中,需合理編排多種外部工具以兼顧效率與準確性;在記憶管理中,需有序整理龐大的內容以便有用信息得以保留并可快速檢索;而在多智能體協作中,則需確定合適的協同拓撲結構,以實現有效的信息傳遞。在面對非結構化數據時,傳統智能體通常只能在學習過程中隱式捕捉其中潛在的關聯。基于數據中固有的有益關系,采用圖為基礎的顯式建模結構化方法成為應對這一挑戰的有前景途徑,能夠將原始而復雜的輸入轉化為簡潔有序的形式,從而提升智能體的理解力與處理效率。這類結構化信息有助于智能體探索復雜任務并做出更具信息性的決策。 圖在各類領域中已展現出廣泛的適用性 [10]–[12],并被證明是管理數據、組織含有有價值關系信息的一種強大范式。在構建好的圖基礎上,圖學習(Graph Learning)進一步通過對結構化信息的學習展現出顯著成效 [13], [14]。具體而言,圖通過將實體表示為節點、顯式或隱式關系建模為邊,提供了一種有效的數據組織方式。一個合適的圖結構是實現智能體數據組織的關鍵。圖結構的構建具有高度靈活性,可根據特定環境、任務、操作符與應用需求自定義圖結構 [15]–[17],也可以利用現有的外部知識圖譜 [18], [19]。這種靈活性使得圖能夠廣泛嵌入于多種智能體及其多樣化功能中。在構建好的圖之上,圖學習技術還可進一步提供一個強大的知識提取框架,幫助智能體捕捉復雜關系與有意義的信息。這使得圖技術成為增強 AI 智能體在復雜場景下能力的理想手段。因此,圖與智能體的交叉融合有望大幅提升其對結構化信息的處理與利用能力,進而賦能其在規劃、執行、記憶與多智能體協作等方面的關鍵功能。 分類框架:本綜述系統性地探討了圖在信息、操作符與多模型結構化組織中的作用,涵蓋了從基于 RL 的智能體到基于 LLM 的智能體范式。考慮到 RL 技術與 LLM 基礎模型日益緊密的融合,我們在分析中并未刻意區分圖學習在這兩類智能體架構中的作用,而是如圖 1 所示,從智能體核心功能出發,以圖賦能為主線展開討論。我們重點關注圖學習如何增強智能體的四大關鍵功能:規劃、執行、記憶與多智能體協作。此外,本綜述還探討了智能體反過來如何促進圖學習技術的發展。最后,在全面回顧的基礎上,我們梳理了潛在的應用前景與關鍵的未來研究方向。通過綜述該領域的系統洞察,我們旨在推動新一代能夠利用結構化知識應對日益復雜挑戰的 AI 智能體的發展。 在本文所探討的背景下,現有綜述主要集中于圖技術在強化學習中的應用價值 [20], [21]。而隨著 LLM 的快速發展,圖學習也被視為提升其能力的有效技術,已有若干綜述對該方向進行過探討 [22], [23]。然而,盡管已有貢獻,目前仍缺乏一項系統性地闡述圖如何在智能體不同功能中發揮作用的綜述。據我們所知,本文為首個系統性探索圖技術與智能體多維操作交叉點的研究綜述。我們希望通過全面回顧,為構建下一代圖賦能智能體提供有價值的研究參考與啟發。 本文的主要貢獻如下: * 本文首次全面綜述了圖技術與 AI 智能體之間這一強大而充滿潛力的交叉方向; * 我們提出了一種新的分類方法,系統化地梳理了圖在智能體不同核心功能(規劃、執行、記憶與協作)中的作用,并探討了智能體如何反過來推動圖學習的發展; * 基于本綜述,我們進一步分析了圖賦能智能體的應用前景、關鍵挑戰以及未來研究方向。

文章結構如下:第二節介紹與本綜述相關的基礎知識;第三至第七節將根據提出的分類方法,詳述各項相關研究;第八與第九節分別探討圖與智能體交叉領域中的潛在應用與未來機會;第十節對全文進行總結歸納。

本文提出了一種全新的分類方法,用于系統地探討圖技術與 AI 智能體如何實現相互增強,如圖 2 所示。具體而言,在第 III 至第 VI 節中,我們介紹了圖學習如何支持智能體的核心功能,包括規劃(第 III 節)、執行(第 IV 節)、記憶(第 V 節)以及多智能體協作(第 VI 節)。通過將圖與智能體功能之間的協同點加以細分,不僅契合了智能體系統設計中的自然模塊化特征,也凸顯了圖技術在每項功能中所蘊含的獨特潛力。 此外,在第 VII 節中,我們進一步探討了智能體范式如何反過來促進圖學習的發展。通過明確考慮這一反向作用,即基于智能體范式如何反哺圖學習過程,我們強調了雙向創新的重要性,并倡導一種整體視角,即圖與智能體協同演化、深度融合,從而激發出超越單向整合的新方法論。 基于這一結構清晰的分類框架,我們將在第 VIII 與第 IX 節中進一步討論相關應用與未來研究機遇。

付費5元查看完整內容

相關內容

智能體,顧名思義,就是具有智能的實體,英文名是Agent。

摘要:

人工智能(AI)正在重塑科學發現,其角色正從專門的計算工具演化為自主的科研伙伴。我們將**智能體科學(Agentic Science)**定位為“AI for Science”范式中的關鍵階段,在這一階段,AI 系統從部分輔助走向全面的科學自主性。借助大語言模型(LLMs)、多模態系統以及一體化研究平臺,智能體化 AI 展現出在假設生成、實驗設計、執行、分析與迭代改進等方面的能力——這些行為曾被認為是人類獨有的。本綜述從生命科學、化學、材料和物理等領域出發,對自主科學發現進行了面向學科的系統性回顧,綜合各學科的研究進展與突破。我們通過一個綜合框架統一了此前分散的三類視角——過程導向、自主性導向和機制導向——并將其與基礎能力、核心過程及領域特定實現聯系起來。在該框架的基礎上,我們:(i) 追溯 AI for Science 的演進,(ii) 識別支撐科學自主性的五大核心能力,(iii) 將科學發現建模為動態的四階段工作流,(iv) 回顧其在生命科學、化學、材料科學和物理學中的應用,(v) 綜合關鍵挑戰與未來機遇。本研究確立了一個面向學科的自主科學發現綜合視角,并將智能體科學定位為推動 AI 驅動科研進步的結構化范式。 關鍵詞: 智能體科學,自主科學發現,自然科學,AI for Science,智能體化 AI,大語言模型

1. 引言

科學發現正經歷著一場由人工智能(AI)快速演進所驅動的變革性轉變,AI 的角色正在從專門化的工具轉向科研合作者。這一進展標志著“AI for Science”范式中的關鍵階段,即 AI 系統已從充當面向特定任務的計算“神諭”【121, 306, 339, 42, 87, 281, 351】逐步走向智能體科學(Agentic Science)的興起(見圖 1)【229, 220, 81, 274, 157】。智能體科學指的是“AI for Science”演化中的特定階段——主要對應圖 1 中的第 3 級(完全智能體化發現),其前身是第 2 級(部分智能體化發現)。在這一階段,AI 作為自主科學智能體,能夠獨立提出假設、設計并執行實驗、解釋結果,并以更少的人類依賴性迭代完善理論【229, 22】。這種進展得益于諸如 Intern-Discovery 這樣的綜合平臺(其提供了對多樣化 AI 智能體和數據集的訪問),以及 Intern-S1 等展現出深度科學推理能力的多模態模型。 這一轉變受到基礎模型(尤其是大語言模型,LLMs)【82, 256, 351】的最新突破所推動。LLMs 在自然語言理解、復雜推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,從而催生出能夠超越靜態學習流程的 AI 智能體。這類智能體不再僅是被動的模型,而是作為動態的、目標驅動的實體,能夠自主探索科學方法【311, 89, 178, 358】。從假設生成【307, 209】,到自主實驗【22, 317】,再到合成數據集的構建【150】,這些智能體展現出曾被認為僅屬于人類的涌現行為。 與現有綜述的比較。 盡管該領域發展迅速,但關于如何理解與設計日益自主化的科學系統,目前仍缺乏統一的框架。現有綜述大體可分為三類互補視角。過程導向的綜述試圖將 LLM 的能力映射到經典的 與現有綜述的比較。 盡管研究進展迅速,但關于如何理解和設計日益自主的科學系統,仍缺乏統一框架。現有綜述可沿三條互補軸線加以歸類:過程導向的視角將 LLM 的能力映射到經典研究循環【172, 352, 39】;自主性導向的研究依據系統的主動性與責任劃分等級【346, 293】;機制導向的分析則剖析支撐智能體行為的架構基元及其演化角色【220, 331, 81, 274】。盡管這些工作奠定了重要基礎,但仍然碎片化——往往將工作流程、自主性分級或體系結構彼此割裂開來單獨考察。 我們的貢獻。 有別于既有綜述分別從過程、自主性或架構單點切入,本文通過圖 2 所示的綜合框架對上述視角進行統一與拓展,將自主科學發現中的基礎能力—核心過程—領域實現貫通起來。我們圍繞生命科學、化學、材料與物理四大領域,給出面向學科的自主科學發現綜述,系統綜合各學科的研究進展與代表性成果。該統一視角將智能體科學從一個抽象階段提升為貫穿“能力—過程—應用”的結構化研究范式。我們的具體貢獻如下: 1. 繪制 AI for Science 的演進圖譜。 我們追溯了從“計算神諭”到“自主科研伙伴”的演進,形式化地將智能體科學界定為 AI 系統展現自主性、目標驅動推理與迭代學習的階段。 1. 科學智能體的“機理解剖”:五大核心能力。 我們識別并分析科學智能體所需的五項基礎能力:(i) 推理與規劃,(ii) 工具整合,(iii) 記憶機制,(iv) 多智能體協作,以及 (v) 優化與進化。針對每一項能力,我們回顧最前沿的實現(如【169, 25, 189, 32】)與領域特定挑戰。 1. 智能體科學的動態工作流:四個核心階段。 我們將科學發現建模為由智能體驅動的動態四階段工作流:(i) 觀察與假設生成,(ii) 實驗規劃與執行,(iii) 數據與結果分析,(iv) 綜合、驗證與進化。我們強調,智能體可以靈活、動態地組合這些階段以解決復雜科學問題【12, 22, 74, 73】。 1. 跨自然科學的系統綜述。 我們在自然科學四大領域(見圖 4:生命科學、化學、材料、物理)系統回顧智能體系統,覆蓋十余個細分方向,從藥物發現【317】到材料設計【113】,展示了智能體科學的廣泛適用性與領域特定創新。 1. 挑戰與未來機遇。 我們綜合該領域面臨的主要技術、倫理與哲學挑戰——包括可復現性新發現的驗證人—智能體協作——并提出研究路線圖,以引導穩健、可信且具影響力的科學智能體的未來發展。

通過上述綜合,我們旨在為智能體科學奠定概念與方法論基礎,引導后續研究走向能夠與人類探究共進化的 AI 系統設計,從而加速科學發現前沿的推進。

付費5元查看完整內容

摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:

//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習

1 引言

**1.1 概述

隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?

智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。

隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。

在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。


**1.2 覆蓋范圍與貢獻

覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:

智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。


**1.3 結構概覽

論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。

第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。

第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。

第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。

第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。

第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向

付費5元查看完整內容

摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)

I. 引言

近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合時序融合等方向的覆蓋不足。

為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。

付費5元查看完整內容

摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全

一、引言

大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。

文章結構

如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。

付費5元查看完整內容

摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型

1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。

近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。

生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。

為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。

本文的主要貢獻如下:

本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。

文章結構概覽:

第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。

付費5元查看完整內容

摘要

隨著人工智能范式的持續演進,AI 研究正逐步邁入智能體 AI(Agentic AI)階段。研究焦點也從單一智能體與簡單應用,轉向多智能體在復雜環境下的自主決策與任務協同。伴隨大語言模型(LLMs)的發展,其應用變得愈加多樣化與復雜化,所引發的情境性和系統性風險亦日益突出,這使得智能體的價值對齊問題(Value Alignment)受到廣泛關注。價值對齊旨在確保智能體的目標、偏好與行為符合人類價值觀和社會規范。 本文從具體應用場景出發,系統回顧了智能體系統中的價值對齊問題,融合了大模型驅動的 AI 技術進展與社會治理的實際需求。我們的綜述內容包括價值原則、智能體系統的應用場景,以及智能體價值對齊的評估方法。 具體而言,價值原則部分采用自上而下的視角,按照宏觀(macro)、中觀(meso)和微觀(micro)三個層次進行組織與梳理;智能體系統應用場景則從一般到具體進行分類與回顧;價值對齊評估部分則系統性探討了用于評估的對齊數據集及相關方法。此外,本文還深入探討了多智能體系統中多智能體之間的價值協調問題。 最后,我們提出了該領域若干值得關注的未來研究方向。 關鍵詞:價值對齊;基于大語言模型的智能體系統應用;智能體 AI 系統;AI 智能體 1 引言

近年來,大語言模型(Large Language Models, LLMs)的迅猛發展深刻改變了人類社會的生產方式與生活形態。依托深度學習技術與海量訓練數據,OpenAI 的 GPT 系列與谷歌的 Gemini 系列等 LLM 展現出卓越的自然語言理解與生成能力【1】【2】。以 LLM 作為“核心大腦”的智能體(AI Agent)已廣泛應用于內容創作、自動編程、教育、醫療與商業決策等多個知識密集型領域。隨著其在自主決策、任務協作和治理環節中的能力不斷增強,LLM 智能體顯著提升了工作效率,并為用戶帶來了前所未有的交互體驗【3】。與此同時,研究者也日益關注多智能體系統(Multi-Agent Systems)的協調能力,以實現群體智能。AI 智能體正朝著更高自主性演進,逐步形成一種全新范式——智能體 AI(Agentic AI)。該范式的顯著特征包括:多智能體協作、動態任務分解、持久記憶及自主決策能力,已成為學術界與產業界的研究熱點【4】。 這一新范式的發展,亟需研究者跳出單一智能體與孤立應用場景的視角,深入探索智能體系統與具體應用之間的深度耦合。隨著 LLM 持續突破,其執行任務的種類與所應用的場景愈發多元與復雜,相應的社會風險也日益加劇。LLM 可能在訓練數據中保留有害信息、泄露隱私、生成誤導性內容,甚至采取對人類有害的行為【5】。例如,LLM 智能體系統可能表現出操控、欺騙等不良行為【6】,這引發了關于其潛在倫理與安全問題的廣泛擔憂。 未來 AI 若超越人類認知能力,并獲得自主學習與決策能力,其所構建的目標體系可能偏離甚至違背人類設計者的初衷。在追求自身目標的過程中,這類智能體可能會調動大量資源以維持自身運行并不斷自我增強,從而在資源分配與決策權上系統性地取代人類。若缺乏有效控制機制與穩健的價值對齊(Value Alignment)保障,人類在決策體系中的主導地位將逐步喪失,最終可能引發災難性的生存危機【7】。 隨著 LLM 深度嵌入到具體應用場景中,相關風險逐漸呈現出“情境化(situational)”與“系統化(systemic)”特征。例如,在用于城市交通優化的多智能體系統中,智能體可能出于效率考慮而犧牲公平性,從而加劇社會不平等【8】;在醫療領域中,LLM 可能在缺乏充分臨床證據或錯誤解讀倫理規范的前提下,提供誤導性的診療建議,進而造成隱私泄露、誤診或過度治療等嚴重后果【9】。因此,確保智能體行為符合人類意圖與價值規范,避免其執行有害操作,已成為當務之急。 此外,隨著以 LLM 為代表的 AI 系統日益參與治理情境,如何有效管理其引發的制度摩擦與交易成本,已成為關鍵的理論與實踐問題。在多智能體系統中,多個擁有語言理解與生成能力的 LLM 被部署于協同環境中,聯合完成決策、規劃與執行等任務。這類部署通常涉及復雜的信息共享、訪問控制與協作機制。雖然這提高了協作的靈活性,但也帶來了前所未有的價值沖突、目標異質性與不可預測的行為問題。若缺乏健全的制度設計與交互機制,復雜組織結構與模糊任務邊界將導致協同效率低下、職責不清、信任機制缺失,從而提升治理成本,削弱治理效能【10】。 這些不良行為與制度摩擦,歸根結底源于多方利益相關者在治理目標、價值觀念與行為規范上的深層沖突。將 LLM 有效嵌入人類價值體系,是負責任地釋放其潛力的關鍵前提。AI 智能體的價值對齊,旨在確保其運行過程中所設定的目標、偏好與行為輸出與個人、群體或組織的核心價值保持一致,正逐漸成為解決該問題的核心路徑【21】。 在單智能體場景中,主流的價值對齊方法側重于通過人類反饋、監督微調等手段引導模型生成符合倫理與社會預期的內容,從而避免有害輸出、虛假信息與道德偏離【8】。但在復雜的多智能體系統中,價值對齊更呈現出組織性挑戰,核心在于多智能體如何建立共享規范與協同機制。因此,從治理視角來看,價值對齊不應局限于單體智能體內部的算法優化,還應拓展至多智能體系統中的交互機制與組織結構設計。此時,價值對齊已不再是孤立的技術任務,而是關乎系統穩定性與智能體行為邊界的基礎性議題。 由于 Agentic AI 本質上強調基于場景驅動的多智能體協調機制,其研究核心應聚焦于特定應用背景下的任務分解策略、交互機制設計與環境適應能力構建。同時,理解復雜環境下多智能體系統的交互規律與組織模式,對于深入探討其價值對齊機制與實現穩健發展具有重要意義。 盡管已有研究梳理了 LLM 的價值對齊關鍵方法與技術進展【1, 11–20】,但鮮有專門針對基于 LLM 的多智能體系統中的價值對齊問題的深入探討。盡管部分文獻對多智能體協作機制有所涉及,但在價值對齊方面仍存在顯著空白。特別是在基于 LLM 的多智能體系統中,其高度自主性與語言驅動的協作模式進一步放大了價值異質性、目標沖突與協作機制脆弱等問題。此外,當前研究多數停留在理論或通用算法層面,缺乏對特定應用場景中多智能體價值對齊的機制與策略研究,也缺乏體系化的分層價值對齊框架。這表明,價值對齊不能僅被視為模型層面的技術挑戰,更應被理解為滲透于交互機制設計與組織結構配置的系統性治理問題。 因此,本文聚焦于多種具體應用場景下,基于 LLM 的智能體系統中的價值對齊問題,結合 AI 技術演進與社會治理需求,提出未來發展展望。作為一篇研究綜述,本文第 2 至第 4 節分別對價值原則、智能體系統應用場景與價值對齊評估進行系統回顧。具體而言: * 價值原則從自上而下的視角分層梳理,涵蓋宏觀(如社會規范)、中觀(如組織制度)與微觀(如個體偏好)三個層級; * 應用場景則按從一般到具體的邏輯進行歸類與分析; * 評估方法部分系統性介紹了價值對齊評估所用的數據集及關鍵技術。

第 5 節總結前文內容并提出未來研究展望。我們主張建立一個多層次價值對齊評估體系,同時深入探討多智能體系統中智能體之間的價值協調,特別關注交互機制與組織模型設計中的價值因素。此外,我們建議,為了促進場景化智能體系統的價值對齊,企業或組織可在不涉及機密信息的前提下,共享微觀領域的數據集中的價值偏好信息。本文致力于彌合理論研究與實際部署之間的差距,結合真實應用場景與組織交互動態,為基于 LLM 的智能體系統價值對齊提供新視角,推動 Agentic AI 內在機制的研究與發展。

付費5元查看完整內容

摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。

本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型

一、引言

遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:

基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;

學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;

視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。

盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:

對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;

對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;

對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;

討論當前挑戰與未來可能的研究方向。

圖2展示了本文的整體框架。

付費5元查看完整內容

生成式人工智能(GenAI)正在掀起一場變革性的技術浪潮,憑借其在內容生成、推理、規劃以及多模態理解方面無與倫比的能力,重塑各行各業。這一革命性力量為解決工程領域最宏大的挑戰之一——實現可靠的完全自動駕駛,特別是向 L5 級自動駕駛邁進——提供了迄今為止最具前景的路徑。

本綜述系統地匯總并評析了生成式人工智能在自動駕駛技術棧中的新興作用。我們首先提煉了現代生成建模的基本原理及其權衡,包括變分自編碼器(VAE)、生成對抗網絡(GAN)、擴散模型(Diffusion Models)以及大語言模型(LLM)。隨后,我們繪制了這些模型在圖像、激光雷達(LiDAR)、軌跡、占用圖和視頻生成等方面的前沿應用圖譜,并探討了由大語言模型引導的推理與決策能力。

我們對其實際應用進行了分類,包括合成數據工作流、端到端自動駕駛策略、高保真數字孿生系統、智能交通網絡以及向具身智能的跨領域遷移。此外,我們還識別了若干關鍵挑戰與潛在機遇,如對稀有場景的全面泛化能力、評估與安全驗證、受限預算下的部署、監管合規、倫理問題及其環境影響等,并提出了涵蓋理論保障、信任度量、交通系統整合及社會技術影響等方面的研究規劃。

通過整合上述內容,本綜述為研究人員、工程師和政策制定者提供了一份面向未來的參考資料,以助力其應對生成式人工智能與先進自動駕駛融合發展所帶來的變革。所引用文獻的持續更新版本可參見://github.com/taco-group/GenAI4AD。

關鍵詞:生成式人工智能 · 計算機視覺 · 大語言模型 · 自動駕駛

自動駕駛:愿景、進展與生成式人工智能的變革潛力

自動駕駛長期以來被視為一項具有變革性的技術,承諾在提升道路安全、出行能力和物流效率方面帶來革命性影響。據高盛研究(Goldman Sachs Research)預測,到2030年,全球超過12%的新車銷量可能實現SAE L3及以上級別的自動化(如圖1所示),有望在實現完全自動駕駛之前,開啟一個數十億美元規模的Robotaxi市場。這一愿景正在逐步從設想變為現實,得益于過去二十年人工智能(AI)、計算機視覺、機器人技術和智能交通系統的快速發展。 這一進展覆蓋了整個技術棧,從大規模數據采集 [2, 3]、自監督模型訓練 [4, 5]、大規模驗證 [6–9],到高效的車載部署 [10–12],都受到高性能計算設備(如GPU)的推動。現代自動駕駛車輛通常配備高分辨率攝像頭、旋轉式與固態激光雷達(LiDAR)、毫米波雷達、慣性測量單元(IMU)以及全球導航衛星系統(GNSS/GPS)等多種傳感器(見圖2),用于采集周圍環境的動態信息。車規級域控制器通過多核CPU、高效GPU、高帶寬內存及強大的電源管理電路 [13–16],實現多源數據的實時融合與處理,支持從SAE L2/L3(需要駕駛員監督)到特定環境下的L4自動駕駛。 最終目標是實現L5自動駕駛,即在所有條件下無需人類介入。其潛在收益包括更安全的道路、更普惠的出行體驗,以及更高效的運輸體系,這些都激勵了全球范圍內的大規模研發投入 [18]。 學術界為自動駕駛奠定了堅實基礎,解決了多個關鍵挑戰。2005年斯坦福大學的“Stanley”贏得DARPA大獎賽,首次展示了車輛在復雜環境中自主導航的可行性 [19]。隨后,研究人員在同步定位與建圖(SLAM)[20]等領域取得突破。然而,實現真正穩健的自動駕駛系統仍依賴于感知與決策的技術進步,而這些正是傳統方法的瓶頸。深度學習的崛起推動了新一輪范式變革。ResNet [21] 與 Transformer [22, 23] 等先進神經網絡架構,使得從多模態傳感器中提取高層次語義信息成為可能,從而顯著提升了感知能力,帶動了目標檢測 [24, 25]、語義分割 [26, 27] 和目標追蹤 [28, 29] 等關鍵任務的發展,推動了復雜場景的理解能力 [30, 31]。 在此基礎上,研究進一步拓展至行為預測 [32]、路徑規劃 [33],乃至端到端自動駕駛系統的探索——即直接將傳感器輸入映射到控制輸出 [34, 35]。但正如Clive Humby所言,“數據是新的石油” [36],這一轉型依賴于大規模、高質量的視覺與多模態數據集,如ImageNet [37]、MS COCO [38]、YouTube8M [39],以及專為自動駕駛設計的KITTI [40]、nuScenes [2]、Waymo Open [3]、Argoverse [41] 和 BDD100K [42] 等。仿真平臺如CARLA [43]、AirSim [44]、SUMO [45] 和Isaac Sim [46]同樣至關重要,既用于生成地面真實數據,也為算法驗證提供平臺。 盡管工具與算法取得飛躍,大多數學術系統仍停留在原型或受控測試階段 [47, 48],這反映出從實驗室走向大規模產品部署的復雜性。工業界正在加速這一轉化進程。Waymo(起源于斯坦福DARPA團隊)和百度Apollo Go是L4 Robotaxi的領導者。Waymo自2020年起在鳳凰城運營完全無人駕駛服務,目前已擴展至舊金山、洛杉磯與奧斯汀等多個城市;百度在中國十多個城市實現了無人運營,累計服務超千萬次 [49]。Zoox(亞馬遜支持)開發專用車輛,計劃于2025年在拉斯維加斯和舊金山推出服務 [50]。然而,L4落地仍面臨技術、安全和商業障礙。Cruise(通用支持)于2023年底發生安全事故,2024年12月宣布暫停Robotaxi運營,轉而專注于高級駕駛輔助系統(ADAS)[51]。 目前市場主流仍是L2/L3級ADAS,如特斯拉Autopilot與FSD Beta [52],以及Mobileye等供應商為多家車廠提供的解決方案 [53]。這表明從受限環境擴展到廣義自動駕駛仍有重大挑戰。NVIDIA的DRIVE平臺 [54] 是核心推動者,支持從感知到規劃的AI計算。2022年推出的DRIVE Thor超級芯片 [55],進一步整合ADAS與自動駕駛功能,為量產車提供統一計算平臺。 盡管投入巨大,自動駕駛要實現L5仍面臨核心障礙: 1. 長尾問題(The Devil is in the “Long Tails”):系統難以泛化到訓練數據之外的稀有場景(如極端天氣、光照、傳感器干擾)[58]。 1. 不確定性管理(Confidentially Confused):如何在大規模、多樣化環境中可靠運行,并應對模型與環境的不確定性。 1. 復雜性與成本(An Arm and a LiDAR?):高計算需求與昂貴傳感器限制了系統的可擴展性和普及性。

當前范式的局限性表明,需要轉向更強大、可適應的AI架構以突破技術瓶頸。


生成式人工智能的崛起:自動駕駛的轉折點?

OpenAI在2021年推出的DALL·E [59] 引發了生成式人工智能(GenAI)的爆炸式發展,緊隨其后的Midjourney [60] 和Stable Diffusion [61] 進一步普及了AI生成藝術 [62],廣泛影響藝術、設計、營銷、媒體和娛樂產業 [63, 64]。與視覺生成技術并行發展的是大型語言模型(LLM)的崛起,如ChatGPT [65] 和GPT-4 [66] 展現出前所未有的自然語言理解與推理能力 [67]。Meta發布的開源LLaMA系列 [68–70] 促進了社區研究的發展,多模態功能的融合更開啟了視覺語言推理與人機協作的新方向。 在本綜述中,我們將生成式AI定義為:能夠學習數據分布并合成新數據的模型,包括圖像、視頻、文本、音頻、代碼乃至三維環境。這些輸出在統計上高度接近真實數據,賦予其在生成高質量、多樣化、可擴展數據表示方面的強大能力。 GenAI 為突破L5瓶頸提供新路徑: * 高保真“長尾”模擬:通過合成LiDAR [71]、攝像頭 [72] 與軌跡數據 [73],以及復雜場景 [74],生成涵蓋稀有事件的數據集和仿真環境。 * 多主體建模與長時預測:提升系統在不確定性下的感知與規劃能力。 * 統一多模態系統:如LLaVA [75] 與DriveVLM [76],融合感知、預測與規劃于語言中心架構中,替代脆弱的模塊化流程。

因此,生成式AI不僅是補充工具,更代表了范式轉變:向統一、數據驅動、可泛化系統邁進,加速實現安全可靠的L5自動駕駛。


本綜述的結構如下:

第2節:對比本綜述與其他自動駕駛相關綜述,推薦閱讀擴展材料。 * 第3節:匯總自動駕駛研究中常用數據集,并按應用領域分類,提供下載鏈接。 * 第4節:系統梳理生成模型的基本架構(VAE、GAN、擴散模型、自回歸模型)。 * 第5節:深入探討適用于自動駕駛的前沿GenAI模型,按圖像、視頻、LiDAR、軌跡等模態劃分。 * 第6節:詳述GenAI在自動駕駛中的關鍵應用,如傳感器合成、世界建模、多智能體預測、場景理解與決策。 * 第7節:拓展視角,探討生成式AI在具身智能領域的研究進展。 * 第8節:審視當前技術局限與未來挑戰,涵蓋數據稀缺、理論缺口、安全評估、仿真精度,以及政策、倫理、公共健康等社會議題,提出構建可信、可擴展、普惠交通系統的研究方向 [78, 79]。

付費5元查看完整內容

摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。

關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。

人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。

為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。

然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:

  • 我們提供了MXAI方法的歷史總結和分析,包括傳統機器學習方法和基于LLMs的當前MXAI方法。
  • 我們分析了跨時代的方法,涵蓋數據、模型和事后可解釋性,以及相關的數據集、評估指標、未來挑戰和發展方向。
  • 我們回顧了現有方法,總結了當前的研究方法,并從歷史演變的角度提供了對未來發展的洞見和系統全面的視角。

生成式大型語言模型時代

這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。

**A. 數據可解釋性

  1. 解釋數據集:大型語言模型(LLMs)可以通過交互式可視化和數據分析有效地解釋數據集。LIDA [241] 通過生成與語法無關的可視化圖表和信息圖,幫助理解數據的語義,列舉相關的可視化目標,并生成可視化規范。其他方法 [242]–[245] 通過分析數據集來增強數據集的可解釋性。通過結合多模態信息和強大的自然語言處理能力,LLMs可以提供全面、深入、定制化和高效的數據解釋 [13]。Bordt等人 [246] 探討了LLMs在理解和與“玻璃盒”模型互動中的能力,識別異常行為并提出修復或改進建議。重點在于利用多模態數據的可解釋性來增強這些過程。
  2. 數據選擇:數據選擇在這一時代至關重要。它提高了模型的性能和準確性,減少了偏差,增強了模型的泛化能力,節省了訓練時間和資源,并提升了可解釋性,使得決策過程更加透明,有助于模型改進 [302]。多模態C4 [247] 通過整合多個句子-圖像對并實施嚴格的圖像過濾,提高了數據集的質量和多樣性,排除了小型、不規則比例的圖像以及包含人臉的圖像。這種方法強調了文本-圖像的相關性,增強了多模態模型訓練的魯棒性和可解釋性。還提出了一種基于啟發式混合數據過濾的生成式AI新范式,旨在增強用戶沉浸感并提高視頻生成模型與語言工具(例如ChatGPT [3])之間的互動水平 [248]。該方法使得從單個文本或圖像提示生成交互式環境成為可能。除了上述內容外,還有一些工作旨在提高模型對分布變化和超出分布數據的魯棒性 [249],[250]。
  3. 圖形建模:盡管多模態大型語言模型(MLLMs)可以處理和整合來自不同模態的數據,但它們通常是隱式地捕捉關系。相比之下,圖形建模通過顯式表示數據節點(例如圖像中的對象、文本中的概念)及其關系(例如語義關聯、空間關系),來更直觀地理解復雜數據關系。一些方法 [251]–[253] 將圖形結構與LLMs結合,通過多模態整合提升了復雜任務的性能和模型的可解釋性。

**B. 模型可解釋性

  1. 過程解釋:在這一時代,MXAI的過程解釋強調了多模態上下文學習(ICL)和多模態思維鏈(CoT)。ICL的突出之處在于它能夠通過使用人類可理解的自然語言指令來避免對大量模型參數進行廣泛更新 [303]。Emu2 [254] 通過擴展多模態模型生成,增強了任務無關的ICL。Link context learning(LCL) [304] 關注因果推理,以提升多模態大型語言模型(MLLMs)的學習能力。[255] 提出了多模態ICL(M-ICL)的綜合框架,適用于DEFICS [256] 和OpenFlamingo [257]等模型,涵蓋了多種多模態任務。MM-Narrator [258] 利用GPT-4 [240] 和多模態ICL生成音頻描述(AD)。進一步的ICL進展和新的多模態ICL變種由 [259] 探討。MSIER [260] 使用神經網絡選擇能夠提高多模態上下文學習效率的實例。多模態CoT解決了單模態模型在復雜任務中的局限性,在這些任務中,單靠文本或圖像無法全面捕獲信息。文本缺乏視覺線索,而圖像缺少詳細描述,這限制了模型的推理能力 [305]。多模態CoT通過整合和推理多種數據類型,如文本和圖像 [261]–[264],來解決這一問題。例如,圖像識別可以分解為逐步的認知過程,構建生成視覺偏見的網絡鏈,這些偏見在每一步都被加到輸入的詞嵌入中 [261]。Zhang等人 [262] 首先從視覺和語言輸入中生成推理依據,然后將其與原始輸入結合進行推理。混合推理依據 [306] 使用文本推理來引導視覺推理,通過融合特征提供連貫且透明的答案解釋。
  2. 內在可解釋性:在這一小節中,我們探討了多模態大型語言模型(MLLMs)的內在可解釋性,重點是兩類主要任務:多模態理解和多模態生成 [307]。多模態理解任務包括圖像-文本、視頻-文本、音頻-文本和多模態-文本理解。在圖像-文本理解中,BLIP-2 [2] 通過兩階段的預訓練過程增強了解釋性,將視覺數據與文本數據對齊,從而提高了圖像描述的連貫性和相關性。LLaVA [308] 通過將圖像-文本對轉換為與GPT-4 [240] 兼容的格式,并將CLIP的視覺編碼器與LLaMA的語言解碼器對接進行微調,生成了指令跟隨數據。像LLaVA-MoLE [309]、LLaVA-NeXT [271] 和LLaVA-Med [272]等變種在此基礎上進行了增強,針對特定領域和任務做出了改進。對于視頻-文本理解,與圖像不同,視頻具有時間維度,需要模型處理靜態幀并理解它們之間的動態關系。這增加了多模態模型的復雜性,但也提供了更豐富的語義信息和更廣泛的應用場景。VideoChat [273] 構建了一個以視頻為中心的指令數據集,強調時空推理和因果關系。該數據集增強了時空推理、事件定位和因果推理,整合了視頻和文本,從而提高了模型的準確性和魯棒性。Dolphins [274] 結合視覺和語言數據來解讀駕駛環境,并與駕駛員自然互動。它提供了清晰且具有相關性的指令,為其建議生成解釋,并通過不斷學習新經驗來適應不斷變化的駕駛條件。對于音頻-文本理解,音頻數據由于其時間序列的性質,需要模型能夠解析和理解時間動態。這擴展了多模態理解的能力。Salmonn [275] 將預訓練的基于文本的LLM與語音和音頻編碼器整合到一個統一的多模態框架中。這種設置使得LLMs能夠直接處理和理解普通音頻輸入,增強了多模態可解釋性,并提供了有關文本和音頻數據關系的洞察。盡管如此,Salmonn在實現全面音頻理解方面仍面臨挑戰。相比之下,Qwen-audio [276] 通過開發大規模音頻-語言模型來推動該領域的發展。通過利用大量的音頻和文本數據集,Qwen-audio提高了模型處理和解釋多樣聽覺輸入的能力,從而推動了多模態理解的邊界,并在各種音頻相關任務中展現了強大的表現。

結論

本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。

付費5元查看完整內容
北京阿比特科技有限公司