亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)

I. 引言

近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合時序融合等方向的覆蓋不足。

為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。

付費5元查看完整內容

相關內容

具身智能是指一種基于物理身體進行感知和行動的智能系統,其通過智能體與環境的交互獲取信息、理解問題、做出決策并實現行動,從而產生智能行為和適應性。

摘要 —— 深度估計是三維計算機視覺中的一項基礎任務,對三維重建、自由視角渲染、機器人技術、自動駕駛以及增強/虛擬現實(AR/VR)等應用至關重要。傳統方法依賴于諸如 LiDAR 等硬件傳感器,常受制于高昂的成本、低分辨率以及對環境的敏感性,因而在真實場景中的適用性有限。近年來,基于視覺的方法取得了有前景的進展,但由于模型架構容量不足,或過度依賴領域特定且規模較小的數據集,這些方法在泛化能力與穩定性方面仍面臨挑戰。其他領域中“擴展法則(scaling laws)”與基礎模型的發展,啟發了“深度基礎模型”的提出 —— 這類模型是基于大規模數據集訓練的深度神經網絡,具備強大的零樣本泛化能力。本文系統回顧了單目、雙目、多視圖以及單目視頻等多種設置下的深度估計相關深度學習架構與范式的演進,探討這些模型在應對現有挑戰方面的潛力,并全面整理了可用于支持其發展的大規模數據集。通過識別關鍵的模型架構與訓練策略,我們旨在指明構建魯棒深度基礎模型的路徑,并為其未來的研究與應用提供參考。

索引詞 —— 深度估計,基礎模型,三維計算機視覺

1 引言

深度估計是三維計算機視覺領域的基石任務,長期以來一直是研究的焦點,其在三維重建、三維生成模型、機器人技術、自動駕駛以及增強/虛擬現實(AR/VR)等應用中發揮著關鍵作用。然而,現有算法往往難以實現類似人類感知的高質量和一致性的深度恢復。人類感知過程依賴于豐富的先驗知識和對場景的世界理解,而傳統算法在這方面仍存在顯著差距。 傳統的深度恢復方法通常依賴主動感知硬件,例如市售的 LiDAR、飛行時間(ToF)傳感器以及超聲波探測器。這些傳感器通過測量光子或聲波往返的時間來估計深度。盡管這些方法具有較高的精度,但其高昂的成本限制了廣泛應用。此外,主動傳感器常常存在分辨率低、噪聲干擾嚴重等問題。例如,iPhone 上的 LiDAR 傳感器僅能在有限距離范圍內實現較低分辨率的三維重建,且對于極近或較遠物體的測量精度較低。更進一步地,這些傳感器對環境光線條件較為敏感,在戶外強光場景中效果不佳。 近年來,基于視覺的深度估計方法逐漸受到關注。這類方法不依賴于主動深度感知硬件,而是利用日常設備中廣泛配備的相機進行深度推理。與主動傳感器方法相比,視覺方法成本低、深度范圍無限制、不易受環境干擾、并可提供高分辨率。例如,一臺標準的 iPhone 相機即可輕松獲取 4K 分辨率的 RGB 圖像。然而,現有基于視覺的深度估計算法仍面臨諸多挑戰。尤其是單目深度估計問題本質上是病態的,標準深度學習算法在該任務中難以獲得高精度的結果。為了引入約束以減輕問題的病態性,研究人員探索了基于多相機輸入或更豐富場景觀測的信息進行深度估計的方法,如雙目、多視圖或視頻序列下的深度估計。然而,這些方法往往依賴于小規模的合成數據進行訓練,導致其在空間和時間域上的不穩定性,對不同場景與輸入類型的泛化能力較差,且難以有效彌合合成數據與真實世界數據之間的域差距。 隨著自然語言處理、圖像生成與視頻生成等領域中“擴展法則(scaling laws)”的驗證與興起,“基礎模型(foundation models)”的概念應運而生。基礎模型是指在大規模數據集上訓練的深度神經網絡,在多個領域中展現出突現的零樣本泛化能力。為了實現類似的能力,研究者們關注訓練數據的規模與多樣性,借助其他領域的大規模模型,并巧妙構建自監督學習架構。我們將具備大規模數據吸收能力的可擴展深度估計模型定義為“深度基礎模型(depth foundation models)”。這類模型覆蓋包括單目、雙目、多視圖以及單目視頻等多種深度估計任務,有潛力解決前述的泛化難題,并為計算機視覺領域的長期挑戰提供關鍵解決方案。 本文旨在綜述面向深度基礎模型的演進過程,系統回顧在單目、雙目、多視圖以及單目視頻設置下的深度估計范式與模型架構的發展: * 我們梳理了各類任務中深度學習模型架構與學習范式的發展,并識別出具有基礎能力或潛力的關鍵范式; * 為推動深度基礎模型的構建,我們還全面調查了各子領域中可用于訓練的大規模數據集; * 此外,我們列舉了各類任務中基礎模型當前所面臨的主要挑戰,為未來研究提供啟示與方向。

付費5元查看完整內容

摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:

//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習

1 引言

**1.1 概述

隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?

智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。

隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。

在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。


**1.2 覆蓋范圍與貢獻

覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:

智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。


**1.3 結構概覽

論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。

第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。

第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。

第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。

第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。

第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向

付費5元查看完整內容

摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全

一、引言

大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。

文章結構

如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。

付費5元查看完整內容

摘要——AI 智能體正在經歷一場范式轉變:從早期由強化學習(Reinforcement Learning, RL)主導,到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體興起,如今正進一步邁向 RL 與 LLM 能力融合的協同演進。這一演進過程不斷增強了智能體的能力。然而,盡管取得了顯著進展,要完成復雜的現實世界任務,智能體仍需具備有效的規劃與執行能力、可靠的記憶機制,以及與其他智能體的流暢協作能力。實現這些能力的過程中,智能體必須應對始終存在的信息復雜性、操作復雜性與交互復雜性。針對這一挑戰,數據結構化有望發揮關鍵作用,通過將復雜且無序的數據轉化為結構良好的形式,從而使智能體能夠更有效地理解與處理。在這一背景下,圖(Graph)因其在組織、管理和利用復雜數據關系方面的天然優勢,成為支撐高級智能體能力所需結構化過程的一種強大數據范式。

為此,本文首次系統性地回顧了圖如何賦能 AI 智能體。具體而言,我們探討了圖技術與智能體核心功能的融合方式,重點介紹了典型應用場景,并展望了未來的研究方向。通過對這一新興交叉領域的全面綜述,我們希望激發下一代智能體系統的研究與發展,使其具備利用圖結構應對日益復雜挑戰的能力。相關資源可在附帶的 Github 鏈接中獲取,并將持續更新以服務社區。

關鍵詞:圖、圖學習、智能體、大語言模型、強化學習、綜述

一、引言

在人工智能(AI)快速演進的浪潮中,AI 智能體因其在任務自動化處理方面的巨大潛力而受到廣泛關注。智能體的發展歷程經歷了從早期基于強化學習(Reinforcement Learning, RL)的架構 [1], [2],到近年來由大語言模型(Large Language Models, LLMs)驅動的智能體 [3], [4],再到最新融合 LLM 作為知識基礎與 RL 作為任務特定學習范式的緊耦合架構 [5],標志著智能體能力的一次重大飛躍。這一演進使得智能體能夠利用 LLM 所蘊含的廣泛世界知識理解復雜任務,并通過 RL 優化實現對任務的精準處理。 執行復雜現實任務的 AI 智能體往往需要具備多樣化的能力 [6], [7]。高效的任務導航依賴于諸多智能體功能,例如精細化的規劃能力、結合外部工具的精確執行能力、可靠的記憶機制,以及與其他智能體的高效協同能力 [8], [9]。然而,由于任務復雜性的存在,智能體在這些功能中常常面臨信息、操作符以及交互的錯綜復雜與混亂無序。因此,亟需一種有效方式來組織和管理所遇數據,以便智能體能夠更好地理解和高效處理,從而提升其應對復雜任務的能力。例如,在規劃階段,智能體需要解析非結構化的任務描述并將其重組為可執行的子任務計劃;在執行過程中,需合理編排多種外部工具以兼顧效率與準確性;在記憶管理中,需有序整理龐大的內容以便有用信息得以保留并可快速檢索;而在多智能體協作中,則需確定合適的協同拓撲結構,以實現有效的信息傳遞。在面對非結構化數據時,傳統智能體通常只能在學習過程中隱式捕捉其中潛在的關聯。基于數據中固有的有益關系,采用圖為基礎的顯式建模結構化方法成為應對這一挑戰的有前景途徑,能夠將原始而復雜的輸入轉化為簡潔有序的形式,從而提升智能體的理解力與處理效率。這類結構化信息有助于智能體探索復雜任務并做出更具信息性的決策。 圖在各類領域中已展現出廣泛的適用性 [10]–[12],并被證明是管理數據、組織含有有價值關系信息的一種強大范式。在構建好的圖基礎上,圖學習(Graph Learning)進一步通過對結構化信息的學習展現出顯著成效 [13], [14]。具體而言,圖通過將實體表示為節點、顯式或隱式關系建模為邊,提供了一種有效的數據組織方式。一個合適的圖結構是實現智能體數據組織的關鍵。圖結構的構建具有高度靈活性,可根據特定環境、任務、操作符與應用需求自定義圖結構 [15]–[17],也可以利用現有的外部知識圖譜 [18], [19]。這種靈活性使得圖能夠廣泛嵌入于多種智能體及其多樣化功能中。在構建好的圖之上,圖學習技術還可進一步提供一個強大的知識提取框架,幫助智能體捕捉復雜關系與有意義的信息。這使得圖技術成為增強 AI 智能體在復雜場景下能力的理想手段。因此,圖與智能體的交叉融合有望大幅提升其對結構化信息的處理與利用能力,進而賦能其在規劃、執行、記憶與多智能體協作等方面的關鍵功能。 分類框架:本綜述系統性地探討了圖在信息、操作符與多模型結構化組織中的作用,涵蓋了從基于 RL 的智能體到基于 LLM 的智能體范式。考慮到 RL 技術與 LLM 基礎模型日益緊密的融合,我們在分析中并未刻意區分圖學習在這兩類智能體架構中的作用,而是如圖 1 所示,從智能體核心功能出發,以圖賦能為主線展開討論。我們重點關注圖學習如何增強智能體的四大關鍵功能:規劃、執行、記憶與多智能體協作。此外,本綜述還探討了智能體反過來如何促進圖學習技術的發展。最后,在全面回顧的基礎上,我們梳理了潛在的應用前景與關鍵的未來研究方向。通過綜述該領域的系統洞察,我們旨在推動新一代能夠利用結構化知識應對日益復雜挑戰的 AI 智能體的發展。 在本文所探討的背景下,現有綜述主要集中于圖技術在強化學習中的應用價值 [20], [21]。而隨著 LLM 的快速發展,圖學習也被視為提升其能力的有效技術,已有若干綜述對該方向進行過探討 [22], [23]。然而,盡管已有貢獻,目前仍缺乏一項系統性地闡述圖如何在智能體不同功能中發揮作用的綜述。據我們所知,本文為首個系統性探索圖技術與智能體多維操作交叉點的研究綜述。我們希望通過全面回顧,為構建下一代圖賦能智能體提供有價值的研究參考與啟發。 本文的主要貢獻如下: * 本文首次全面綜述了圖技術與 AI 智能體之間這一強大而充滿潛力的交叉方向; * 我們提出了一種新的分類方法,系統化地梳理了圖在智能體不同核心功能(規劃、執行、記憶與協作)中的作用,并探討了智能體如何反過來推動圖學習的發展; * 基于本綜述,我們進一步分析了圖賦能智能體的應用前景、關鍵挑戰以及未來研究方向。

文章結構如下:第二節介紹與本綜述相關的基礎知識;第三至第七節將根據提出的分類方法,詳述各項相關研究;第八與第九節分別探討圖與智能體交叉領域中的潛在應用與未來機會;第十節對全文進行總結歸納。

本文提出了一種全新的分類方法,用于系統地探討圖技術與 AI 智能體如何實現相互增強,如圖 2 所示。具體而言,在第 III 至第 VI 節中,我們介紹了圖學習如何支持智能體的核心功能,包括規劃(第 III 節)、執行(第 IV 節)、記憶(第 V 節)以及多智能體協作(第 VI 節)。通過將圖與智能體功能之間的協同點加以細分,不僅契合了智能體系統設計中的自然模塊化特征,也凸顯了圖技術在每項功能中所蘊含的獨特潛力。 此外,在第 VII 節中,我們進一步探討了智能體范式如何反過來促進圖學習的發展。通過明確考慮這一反向作用,即基于智能體范式如何反哺圖學習過程,我們強調了雙向創新的重要性,并倡導一種整體視角,即圖與智能體協同演化、深度融合,從而激發出超越單向整合的新方法論。 基于這一結構清晰的分類框架,我們將在第 VIII 與第 IX 節中進一步討論相關應用與未來研究機遇。

付費5元查看完整內容

摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型

1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。

近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。

生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。

為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。

本文的主要貢獻如下:

本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。

文章結構概覽:

第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。

付費5元查看完整內容

摘要——圖像匹配旨在建立雙視圖圖像之間的對應關系,以恢復三維結構和相機幾何,是計算機視覺領域的基石,支撐著諸如視覺定位、三維重建和同時定位與建圖(SLAM)等諸多應用。傳統圖像匹配流程由“特征檢測-描述子、特征匹配、離群點過濾與幾何估計器”組成,在復雜場景下往往表現不佳。近年來,深度學習的發展顯著提升了圖像匹配的魯棒性和準確性。本文從一個獨特視角出發,全面回顧了深度學習如何逐步革新經典圖像匹配流程。我們提出的分類方法在兩個關鍵方面與傳統流程高度契合: i)將傳統流程中的各個步驟替換為可學習的模塊,如可學習的特征檢測-描述子、離群點過濾器和幾何估計器; ii)將多個步驟整合為端到端可學習的模塊,如中層稀疏匹配器、端到端半稠密/稠密匹配器和位姿回歸器。 我們首先分析這兩種策略的設計原則、優勢與局限性,隨后在相對位姿恢復、單應性估計和視覺定位等任務上對典型方法進行基準評測。最后,本文討論了當前的開放性挑戰,并展望未來的研究方向。通過系統地分類與評估基于深度學習的圖像匹配策略,本文為不斷演進的圖像匹配研究提供了清晰的全景視圖,并指出了值得深入探索的關鍵路徑。 關鍵詞——三維視覺,圖像匹配,深度學習。

1 引言

計算機視覺通過處理、分析和解釋由相機等傳感器采集的圖像,已成為人工智能感知環境的主要手段之一。而圖像匹配技術通過建立二維圖像之間的三維關系,是計算機視覺眾多應用中的基礎構件,使機器人能夠全面感知世界。該核心技術旨在識別不同視角圖像對中的相同紋理或區域(通常以關鍵點形式表示),并建立圖像間的對應關系(匹配點),從而恢復三維結構并估計各視圖與物體之間的空間關系,支撐圖像檢索 [1]、視覺定位 [2]、三維重建 [3]、運動恢復結構(SfM)[4]、同時定位與建圖(SLAM)[5]、新視角合成 [6] 等廣泛應用。 圖像匹配的研究可追溯至早期的模式識別研究和人類視覺理論 [7],這些理論催生了模板匹配 [8] 和互相關 [9] 方法。隨后,“興趣點”概念被提出 [10],用于定義圖像中具有辨識度的特征點(關鍵點),由此形成了標準的基于特征的圖像匹配流程:包括特征檢測與描述、特征匹配、離群點剔除以及幾何模型估計,該流程如圖 1(II) 所示,并將在第 2 節中簡要回顧。盡管在理想條件下表現良好,但該流程在強光照變化、大視角變換、紋理稀疏、重復圖案或遮擋等極端情況下常常失效。 近年來,基于學習的方法被提出以提升這一基礎流程的魯棒性與準確性。一種直觀策略是將各模塊替換為可學習的組件,如圖 1(III) 所示。這包括:用于更優特征表達的可學習特征檢測-描述子、能在挑戰條件下實現可靠匹配的離群點過濾器、以及用于穩健位姿估計的幾何估計器——盡管仍依賴于特征相似性進行匹配。另一種策略則是將連續步驟整合為統一模塊,形成圖 1(IV) 中展示的三種典型范式: * 中層匹配器(Middle-end Matcher):結合特征匹配與離群點過濾器,在可學習特征空間中直接挖掘圖像間的對應關系; * 半稠密/稠密匹配器(Semi-dense/Dense Matcher):進一步將特征檢測-描述子也納入端到端框架,避免了傳統模塊間的不一致性與不適配問題; * 位姿回歸器(Pose Regressor):跳過顯式匹配,直接回歸兩視圖間的變換關系,無需迭代幾何模型擬合。

上述可學習方法將在第 3 和第 4 節中分別詳述。我們還通過圖 2 所示的時間軸,描繪了基于深度學習的圖像匹配方法的發展歷程。 本文旨在系統回顧機器學習和深度學習如何逐步替代經典圖像匹配流程中的各個組件,回顧各獨立模塊和融合框架的演進歷程,并通過多項任務的統一實驗比較不同方法的優劣。已有的相關綜述多集中于流程中的某一階段。例如,一些早期綜述僅聚焦于特征檢測與描述階段,涵蓋了人工設計方法 [11][12][13] 與可學習方法 [14][15];Zitova 等人 [16] 對整個流程進行了更廣泛的概覽,但該工作早于學習方法的興起;Ma 等人 [17] 首次覆蓋了全流程的手工與可學習方法,但未涉及近期發展的融合模塊。較新的綜述 [18][19] 提出了“基于檢測器的方法”與“去檢測器的方法”等新術語,但未明確將這些方法與傳統流程對應,也未全面涵蓋可學習的幾何估計器、位姿回歸器、多個離群點過濾器及新近圖像匹配方法。 相比之下,本文專注于基于學習的方法,具體貢獻如下: * 提出一種與經典流程對齊的分類方法,全面覆蓋了可替代的可學習模塊與融合式可學習模塊,見圖 1; * 補充了此前綜述中遺漏的相關方法,提供最新全面的圖像匹配研究全貌; * 在相對位姿估計 [20]、單應性估計 [21]、匹配準確率評估 [22] 與視覺定位 [23] 等任務上開展統一實驗,實現公平一致的跨類別比較。

我們的貢獻總結如下:

全面綜述圖像匹配領域中基于學習的方法,提出與傳統流程對齊的分類體系,揭示各模塊如何逐步被可學習方法取代,及多個階段如何融合為統一模塊; * 深入分析可學習替代模塊與融合模塊所面臨的關鍵挑戰,梳理各類代表性解決方案,追蹤各類別內部的方法演進; * 系統評估多個任務中的代表方法,揭示當前學習方法仍未解決的問題,并指出值得探索的未來研究方向。

付費5元查看完整內容

摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。

本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型

一、引言

遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:

基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;

學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;

視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。

盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:

對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;

對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;

對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;

討論當前挑戰與未來可能的研究方向。

圖2展示了本文的整體框架。

付費5元查看完整內容

摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程

付費5元查看完整內容

摘要——在現實場景中,實現領域適應和泛化面臨著重大挑戰,因為模型必須適應或在未知目標分布之間進行泛化。將這些能力擴展到看不見的多模態分布,即多模態領域適應與泛化,因不同模態的特性差異而變得更加困難。多年來,在這一領域取得了顯著進展,應用范圍涵蓋從動作識別到語義分割等多個領域。此外,近期大型預訓練多模態基礎模型(如CLIP)的出現,激發了利用這些模型來增強適應性和泛化性能,或將其應用于下游任務的研究工作。本綜述首次全面回顧了從傳統方法到基礎模型的最新進展,涵蓋以下內容:(1)多模態領域適應;(2)多模態測試時適應;(3)多模態領域泛化;(4)借助多模態基礎模型進行領域適應和泛化;(5)多模態基礎模型的適應。對于每個主題,我們正式定義問題并全面回顧現有方法。此外,我們還分析了相關的數據集和應用,突出了開放挑戰和未來可能的研究方向。我們維護一個活躍的資源庫,包含最新的文獻,網址://github.com/donghao51/Awesome-Multimodal-Adaptation。關鍵詞——領域泛化,領域適應,多模態學習,基礎模型,測試時適應

1 引言領域適應(Domain Adaptation, DA)和領域泛化(Domain Generalization, DG)已在研究領域中引起了廣泛關注 [1], [2]。在機器人學 [3], [4]、動作識別 [5] 和異常檢測 [6], [7] 等現實應用中,訓練于有限源領域的模型必須在新的目標領域上表現良好。為了解決分布偏移問題,已經提出了眾多DA和DG算法,包括分布對齊 [8]、領域不變特征學習 [9]、特征解耦 [10]、數據增強 [11] 和元學習 [12] 等。然而,這些算法大多是為單模態數據(如圖像或時間序列數據)設計的。隨著大規模多模態數據集的出現,解決多模態領域適應(Multimodal Domain Adaptation, MMDA)和多模態領域泛化(Multimodal Domain Generalization, MMDG)的問題變得尤為重要,這些數據集跨越了多個模態,包括音頻-視頻 [13]、圖像-語言 [14] 和激光雷達-相機 [15]。圖1展示了單模態和多模態DA/DG之間的區別,其中MMDA和MMDG通過整合來自多個模態的信息,增強了泛化能力。近年來,MMDA和MMDG在動作識別 [16] 和語義分割 [17] 等領域取得了顯著進展。MMDA和MMDG的一個核心挑戰是如何有效利用來自不同模態的互補信息來提升泛化性能——這是單模態DA和DG方法往往無法做到的。例如,Munro和Damen [16] 提出的方案將模態內對抗對齊與多模態自監督對齊結合,用于MMDA。多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)[18] 是一種特殊形式的MMDA,旨在通過在線適應預訓練的源多模態模型到目標領域,而無需訪問源領域數據。大規模多模態基礎模型(Multimodal Foundation Models, MFMs)的出現,如對比語言-圖像預訓練(CLIP)[14] 和穩定擴散 [19],為DA和DG開辟了新的研究方向。這些研究致力于利用MFMs增強泛化能力,或將MFMs適應到下游任務中。例如,Dunlap等人 [20] 通過語言擴展圖像嵌入到未見領域,而Huang等人 [21] 將CLIP的知識蒸餾到一個更小的學生模型中,用于領域泛化。此外,Zhou等人 [22] 通過建模可學習向量的提示上下文詞語,適應CLIP-like視覺-語言模型(VLMs)到下游圖像識別任務中。盡管該領域近期取得了顯著進展,但目前尚無全面的綜述文章總結多模態適應與泛化的主要思想。本文旨在提供過去十年中發展出的算法的詳細文獻回顧,并為未來的研究方向提供洞察。本論文涵蓋了五種適應場景(見圖2和圖3),結構安排如下:第2節討論相關研究領域;第3節介紹多模態領域適應問題,并重點回顧在動作識別和語義分割中的主要解決方案;第4節和第5節分別呈現多模態測試時適應和領域泛化的代表性方法;第6節探討如何利用多模態基礎模型改善DA和DG;第7節回顧了將MFMs適應到下游任務的流行方法;第8節總結了主要的應用和數據集;最后,在第9節概述了未來研究方向,第10節總結了全文。與之前綜述的比較。盡管我們的綜述貢獻于DA和DG的更廣泛領域,這些領域在之前的文獻中已有回顧 [1], [2],但我們的重點是多模態適應與泛化,即涉及多個模態的方法。Zhang等人 [23] 的綜述僅涵蓋了2023年前VLMs適應的概述,而我們則統一討論了傳統方法在MMDA、MMTTA和MMDG中的應用、先進MFMs在提升DA和DG中的作用,以及最近將MFMs適應到下游任務的方法。

2. 相關研究主題2.1 領域適應領域適應旨在通過利用標記的源數據和未標記的目標數據來增強模型在目標域中的性能 [1]。傳統的DA方法主要關注以圖像為主要輸入的單模態場景。常見的方法包括使用差異度量對齊特征分布 [8]、在輸入或特征空間中使用對抗學習 [130, 131]、以及使用基于重建的方法 [132]。此外,數據增強 [11] 和自訓練 [133] 等技術也得到了廣泛探索。根據源域和目標域之間標簽集關系的假設,DA進一步分為部分集 [134]、開放集 [135] 和通用DA [136]。2.2 領域泛化領域泛化旨在將模型泛化到未見過的目標域,而無需在訓練期間訪問目標數據。DG方法可以大致分為數據操作、表示學習和學習策略 [2]。數據操作方法(如 [137])增強了數據的多樣性,而表示學習方法 [138] 則專注于提取領域不變特征。此外,元學習 [12] 和自監督學習 [139] 等學習策略也展示了跨領域的泛化性能提升。Shu等人 [140] 還解決了目標域具有私有類的開放集DG問題。2.3 測試時適應測試時適應(TTA)旨在在線適應預訓練的源域模型,以應對分布偏移,而無需訪問源數據或目標標簽。在線TTA方法 [141, 142] 使用無監督目標(如熵最小化和偽標簽)更新特定模型參數。魯棒TTA方法 [143, 144] 解決了更復雜和實際的場景,包括標簽偏移、單樣本適應和混合域偏移。持續TTA方法 [145, 146] 針對測試時遇到的持續和演化的分布偏移。有關TTA的更多信息,請參閱 [147, 148]。2.4 多模態學習多模態學習利用不同模態的互補優勢來增強表示學習和上下文理解。主要的多模態學習方向包括多模態表示學習 [149, 150]、融合方法 [151, 152]、對齊 [153, 154] 等。有關多模態學習的更多信息,請參閱 [155, 156]。2.5 自監督學習自監督學習(SSL)旨在通過從預訓練任務中獲得監督信號來從未標記數據中學習,例如預測變換 [157, 158]、重建缺失組件 [159, 160] 或優化對比目標 [161, 162]。通過捕捉內在數據結構,SSL能夠學習魯棒和領域不變的表示,使其成為DA和DG的重要組成部分。在多模態背景下,SSL也通過多模態對齊 [163]、跨模態翻譯 [164] 和相對范數對齊 [165] 等任務得到應用。這些預訓練任務已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有關SSL的更多信息,請參閱現有文獻 [166, 167]。2.6 基礎模型基礎模型是在大量數據集上預訓練的大規模模型,可作為廣泛下游任務的通用起點。這些模型表現出強大的泛化能力,使其能夠以最小的微調適應各種應用。著名的例子包括語言模型如GPT [168]、視覺模型如SAM [169] 和DINO [170]、視覺-語言模型如CLIP [14] 和Flamingo [171]、以及生成模型如穩定擴散 [19]。有關基礎模型的更多信息,請參閱 [172]。3. 多模態領域適應多模態領域適應(MMDA)旨在將模型從源域適應到目標域,同時利用多模態數據(如視頻、音頻和光流)。MMDA在適應過程中同時使用來自源域的標記數據和來自目標域的未標記數據。

3.1 問題定義

其中 EE 表示期望,?(?,?)?(?,?) 是損失函數。現有的MMDA研究主要集中在兩個任務上——使用視頻、音頻和光流模態的動作識別任務,以及使用LiDAR點云和RGB圖像的語義分割任務。我們將在以下章節中分別討論它們。3.2 動作識別的MMDA在本節中,我們詳細介紹現有的動作識別MMDA方法,并將其分為領域對抗學習、對比學習和跨模態交互。

3.2.1 領域對抗學習

其中 CC 是自監督對應分類頭,cc 是定義模態是否對應的二元標簽。Zhang等人 [25] 通過對抗學習和語義保留策略生成缺失的模態,從而在目標模態缺失的情況下選擇可靠的偽標簽目標樣本。Yin等人 [26] 利用混合樣本對抗學習捕捉領域不變的時間特征,并通過動態模態知識蒸餾提高跨模態適應性。3.2.2 對比學習對比學習 [174] 通過將正樣本對拉近、負樣本對推遠來訓練模型區分正負樣本。它用于學習有效的特征表示,從而實現更好的遷移性能。例如,Song等人 [27] 使用自監督對比學習聯合對齊剪輯和視頻級特征,同時最小化視頻級領域差異,增強類別感知對齊和跨領域泛化。Kim等人 [28] 利用模態和領域特定的采樣策略進行對比學習,聯合正則化跨模態和跨領域特征表示。3.2.3 跨模態交互跨模態交互方法通過在適應過程中促進模態之間的信息交換來增強多模態特征學習,使模型能夠捕捉跨模態的互補和相互依賴關系。例如,Lv等人 [30] 將模態特定分類器建模為教師-學生子模型,使用基于原型的可靠性測量進行自適應教學和異步課程學習,并采用可靠性感知融合進行魯棒的最終決策。Huang等人 [31] 通過自熵引導的Mixup [11] 生成合成樣本,并使用多模態和時間相對對齊將其與假設的源類樣本對齊。Zhang等人 [32] 提出了音頻自適應編碼器和音頻注入識別器,以應對跨場景、視角和演員的動作識別領域偏移。通過利用領域不變的音頻活動信息,他們通過缺失活動學習細化視覺表示,并通過視覺線索增強無聲任務識別。Yang等人 [175] 表明,在跨領域對齊之前通過跨模態交互增強每個模態的可遷移性比直接對齊多模態輸入更有效。最近,Dong等人 [29] 通過設計兩個自監督任務——掩碼跨模態翻譯和多模態拼圖——來解決多模態開放集領域適應問題,以學習魯棒的多模態特征進行泛化和開放類檢測,并通過熵加權機制平衡模態特定損失。3.3 語義分割的MMDA在本節中,我們詳細介紹現有的語義分割MMDA方法,并將其分為xMUDA及其擴展、領域對抗學習和跨模態交互。3.3.1 xMUDA及其擴展

通過數據增強擴展。 數據增強技術已被探索用于增強xMUDA中的跨模態對齊。例如,Li等人 [33] 提出了一種多模態風格遷移策略和目標感知教師框架,以在源和合成的目標風格數據上進行跨領域和跨模態知識蒸餾。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增強2D和3D訓練數據,促進2D-3D交互和域內跨模態學習。最近,Cao等人 [35] 將xMUDA的多模態學習管道與從現實場景中收集的3D稀有對象和來自SAM [169] 模型的像素級監督相結合,解決了不平衡監督問題,并顯著提高了稀有對象分割。通過融合擴展。 Wu等人 [181] 通過使用融合的跨模態表示進行知識蒸餾,執行跨模態和跨領域對齊,最大化異構模態之間的相關性和互補性以減輕領域偏移。Cardace等人 [36] 通過將深度特征輸入到2D分支并動態豐富3D網絡的RGB特征來擴展xMUDA。通過兩個分支的中間融合,有效利用了內在的跨模態互補性。Simons等人 [37] 通過動態選擇融合和未融合的校正偽標簽進行自訓練,增強了xMUDA,以解決3DSS的無源MMDA。通過跨模態交互擴展。 Zhang等人 [38] 提出了平面到空間和離散到紋理的自監督任務,以在混合領域設置下訓練模型,增強模態特定學習并減輕領域偏移。Xing等人 [39] 通過跨模態對比學習和鄰域特征聚合模塊增強了xMUDA,加強了跨領域的2D-3D一致性,同時捕捉了更豐富的上下文信息。Zhang等人 [40] 通過引入掩碼跨模態建模來減輕大領域差距,并引入動態跨模態濾波器進行特征匹配,使方法能夠動態利用更合適的2D-3D互補性并提高整體適應性。3.3.2 領域對抗學習Peng等人 [41] 引入了稀疏到密集特征對齊,用于域內點-像素對應,并在跨領域和跨模態上進行對抗學習以實現跨領域對齊,使其成為第一個在兩級上解決跨模態學習的方法。相比之下,Liu等人 [42] 將對抗學習集中在圖像模態上,并提出了一種閾值移動策略以減輕推理期間的數據不平衡。Man等人 [43] 引入了一種蒸餾框架,通過深度估計和BEV嵌入的特征監督將知識從LiDAR教師模型轉移到相機學生模型。多階段對抗學習進一步對齊跨領域的特征空間,使單目3D感知在顯著領域偏移下保持準確。3.3.3 跨模態交互Vobecky等人 [44] 引入了一種跨模態無監督方法,用于2D語義分割(2DSS),使用未注釋的配對LiDAR和相機數據。它首先基于幾何特性提取3D一致的對象段,并應用投影和聚類生成2D偽地面實況,從而實現跨模態空間約束的知識蒸餾。Yin等人 [45] 通過集成多模態輔助網絡解決了2DSS的無源MMDA。該方法采用中間融合,并強制增強的深度-RGB對之間的預測一致性,以實現跨模態學習。Rizzoli等人 [46] 將深度數據集成到視覺變換器的輸入、特征和輸出階段。顏色和深度風格轉移實現了早期領域對齊,而跨模態自注意力生成混合特征以更好地進行語義提取。Bultmann等人 [182] 實現了LiDAR、RGB和熱傳感器模態的實時語義推理和融合,用于語義分割和對象檢測,使用后期融合方法和標簽傳播以適應跨傳感器和領域。3.4 其他任務的MMDA除了動作識別和語義分割,MMDA還在其他任務中得到了探索。Ma等人 [47] 通過使用堆疊注意力學習語義表示并應用多通道約束增強類別區分,解決了跨領域對象和事件識別任務的MMDA。Liu等人 [48] 使用基于張量的對齊模塊探索領域和模態之間的關系,并使用動態領域生成器創建過渡樣本,在多模態情感分析和視頻文本分類任務中實現了卓越性能。最近,Zhang等人 [49] 通過獨立學習每個模態的最佳表示并通過動態加權自適應平衡跨模態領域對齊,解決了情感識別的MMDA。

4. 多模態測試時適應

與多模態領域適應(MMDA)不同,多模態測試時適應(Multimodal Test-Time Adaptation, MMTTA)旨在在線適應預訓練的源模型到目標域,而無需訪問源域數據。MMTTA的核心挑戰在于如何在測試時動態調整模型參數,以應對目標域的分布偏移。

5. 多模態領域泛化

與多模態領域適應和多模態測試時適應不同,多模態領域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑戰性的問題設置。在MMDG中,模型僅在具有多個模態的源域上訓練,以泛化到未見過的域,而無需在訓練期間暴露目標域數據。

6. 借助多模態基礎模型進行領域適應和泛化

隨著大規模預訓練多模態基礎模型(MFMs)的出現,如CLIP [14]、穩定擴散 [19] 和Segment Anything Model (SAM) [169],許多研究探索了利用這些模型來增強泛化能力。這些方法可以分為三個主要方向:數據增強、知識蒸餾和學習策略。 7 多模態基礎模型的適應

盡管多模態基礎模型(MFMs)表現出強大的零-shot預測能力,但圖像和文本分布之間的差異,以及訓練目標的局限性,仍然制約著它們的泛化能力。為了解決這些問題,已經提出了多種遷移學習策略,如提示調優(prompt tuning)和特征適配器(feature adapters),以便將MFMs適應到下游任務中。圖8展示了基于提示和基于適配器的適應之間的區別。

8 數據集與應用 多模態適應與泛化已在多個應用領域中進行研究,包括動作識別、語義分割、圖像分類、情感分析、行人重識別、深度補全等。常見數據集的概述見表1,圖9展示了來自三個動作識別數據集的領域偏移示例。

結論

在分布偏移下,將預訓練的多模態模型適應到目標領域是機器學習中的一個新興且關鍵的挑戰。本綜述全面概述了多模態領域適應、多模態測試時適應和多模態領域泛化的最新進展,重點突出推動該領域發展的關鍵挑戰、方法論和應用。此外,我們強調了多模態基礎模型在提升領域適應與泛化任務中的關鍵作用,突出了它們在解決跨模態的現實世界挑戰中的潛力。通過回顧現有方法、數據集和應用,我們識別出未來研究的幾個關鍵方向,包括開發更好的基準和數據集、處理動態環境中的標簽偏移問題,以及進一步探索理論分析。隨著該領域的不斷發展,這些見解為推動多模態模型在現實場景中的魯棒性和效率提供了寶貴的基礎。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容
北京阿比特科技有限公司