亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——圖像匹配旨在建立雙視圖圖像之間的對應關系,以恢復三維結構和相機幾何,是計算機視覺領域的基石,支撐著諸如視覺定位、三維重建和同時定位與建圖(SLAM)等諸多應用。傳統圖像匹配流程由“特征檢測-描述子、特征匹配、離群點過濾與幾何估計器”組成,在復雜場景下往往表現不佳。近年來,深度學習的發展顯著提升了圖像匹配的魯棒性和準確性。本文從一個獨特視角出發,全面回顧了深度學習如何逐步革新經典圖像匹配流程。我們提出的分類方法在兩個關鍵方面與傳統流程高度契合: i)將傳統流程中的各個步驟替換為可學習的模塊,如可學習的特征檢測-描述子、離群點過濾器和幾何估計器; ii)將多個步驟整合為端到端可學習的模塊,如中層稀疏匹配器、端到端半稠密/稠密匹配器和位姿回歸器。 我們首先分析這兩種策略的設計原則、優勢與局限性,隨后在相對位姿恢復、單應性估計和視覺定位等任務上對典型方法進行基準評測。最后,本文討論了當前的開放性挑戰,并展望未來的研究方向。通過系統地分類與評估基于深度學習的圖像匹配策略,本文為不斷演進的圖像匹配研究提供了清晰的全景視圖,并指出了值得深入探索的關鍵路徑。 關鍵詞——三維視覺,圖像匹配,深度學習。

1 引言

計算機視覺通過處理、分析和解釋由相機等傳感器采集的圖像,已成為人工智能感知環境的主要手段之一。而圖像匹配技術通過建立二維圖像之間的三維關系,是計算機視覺眾多應用中的基礎構件,使機器人能夠全面感知世界。該核心技術旨在識別不同視角圖像對中的相同紋理或區域(通常以關鍵點形式表示),并建立圖像間的對應關系(匹配點),從而恢復三維結構并估計各視圖與物體之間的空間關系,支撐圖像檢索 [1]、視覺定位 [2]、三維重建 [3]、運動恢復結構(SfM)[4]、同時定位與建圖(SLAM)[5]、新視角合成 [6] 等廣泛應用。 圖像匹配的研究可追溯至早期的模式識別研究和人類視覺理論 [7],這些理論催生了模板匹配 [8] 和互相關 [9] 方法。隨后,“興趣點”概念被提出 [10],用于定義圖像中具有辨識度的特征點(關鍵點),由此形成了標準的基于特征的圖像匹配流程:包括特征檢測與描述、特征匹配、離群點剔除以及幾何模型估計,該流程如圖 1(II) 所示,并將在第 2 節中簡要回顧。盡管在理想條件下表現良好,但該流程在強光照變化、大視角變換、紋理稀疏、重復圖案或遮擋等極端情況下常常失效。 近年來,基于學習的方法被提出以提升這一基礎流程的魯棒性與準確性。一種直觀策略是將各模塊替換為可學習的組件,如圖 1(III) 所示。這包括:用于更優特征表達的可學習特征檢測-描述子、能在挑戰條件下實現可靠匹配的離群點過濾器、以及用于穩健位姿估計的幾何估計器——盡管仍依賴于特征相似性進行匹配。另一種策略則是將連續步驟整合為統一模塊,形成圖 1(IV) 中展示的三種典型范式: * 中層匹配器(Middle-end Matcher):結合特征匹配與離群點過濾器,在可學習特征空間中直接挖掘圖像間的對應關系; * 半稠密/稠密匹配器(Semi-dense/Dense Matcher):進一步將特征檢測-描述子也納入端到端框架,避免了傳統模塊間的不一致性與不適配問題; * 位姿回歸器(Pose Regressor):跳過顯式匹配,直接回歸兩視圖間的變換關系,無需迭代幾何模型擬合。

上述可學習方法將在第 3 和第 4 節中分別詳述。我們還通過圖 2 所示的時間軸,描繪了基于深度學習的圖像匹配方法的發展歷程。 本文旨在系統回顧機器學習和深度學習如何逐步替代經典圖像匹配流程中的各個組件,回顧各獨立模塊和融合框架的演進歷程,并通過多項任務的統一實驗比較不同方法的優劣。已有的相關綜述多集中于流程中的某一階段。例如,一些早期綜述僅聚焦于特征檢測與描述階段,涵蓋了人工設計方法 [11][12][13] 與可學習方法 [14][15];Zitova 等人 [16] 對整個流程進行了更廣泛的概覽,但該工作早于學習方法的興起;Ma 等人 [17] 首次覆蓋了全流程的手工與可學習方法,但未涉及近期發展的融合模塊。較新的綜述 [18][19] 提出了“基于檢測器的方法”與“去檢測器的方法”等新術語,但未明確將這些方法與傳統流程對應,也未全面涵蓋可學習的幾何估計器、位姿回歸器、多個離群點過濾器及新近圖像匹配方法。 相比之下,本文專注于基于學習的方法,具體貢獻如下: * 提出一種與經典流程對齊的分類方法,全面覆蓋了可替代的可學習模塊與融合式可學習模塊,見圖 1; * 補充了此前綜述中遺漏的相關方法,提供最新全面的圖像匹配研究全貌; * 在相對位姿估計 [20]、單應性估計 [21]、匹配準確率評估 [22] 與視覺定位 [23] 等任務上開展統一實驗,實現公平一致的跨類別比較。

我們的貢獻總結如下:

全面綜述圖像匹配領域中基于學習的方法,提出與傳統流程對齊的分類體系,揭示各模塊如何逐步被可學習方法取代,及多個階段如何融合為統一模塊; * 深入分析可學習替代模塊與融合模塊所面臨的關鍵挑戰,梳理各類代表性解決方案,追蹤各類別內部的方法演進; * 系統評估多個任務中的代表方法,揭示當前學習方法仍未解決的問題,并指出值得探索的未來研究方向。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要 —— 深度估計是三維計算機視覺中的一項基礎任務,對三維重建、自由視角渲染、機器人技術、自動駕駛以及增強/虛擬現實(AR/VR)等應用至關重要。傳統方法依賴于諸如 LiDAR 等硬件傳感器,常受制于高昂的成本、低分辨率以及對環境的敏感性,因而在真實場景中的適用性有限。近年來,基于視覺的方法取得了有前景的進展,但由于模型架構容量不足,或過度依賴領域特定且規模較小的數據集,這些方法在泛化能力與穩定性方面仍面臨挑戰。其他領域中“擴展法則(scaling laws)”與基礎模型的發展,啟發了“深度基礎模型”的提出 —— 這類模型是基于大規模數據集訓練的深度神經網絡,具備強大的零樣本泛化能力。本文系統回顧了單目、雙目、多視圖以及單目視頻等多種設置下的深度估計相關深度學習架構與范式的演進,探討這些模型在應對現有挑戰方面的潛力,并全面整理了可用于支持其發展的大規模數據集。通過識別關鍵的模型架構與訓練策略,我們旨在指明構建魯棒深度基礎模型的路徑,并為其未來的研究與應用提供參考。

索引詞 —— 深度估計,基礎模型,三維計算機視覺

1 引言

深度估計是三維計算機視覺領域的基石任務,長期以來一直是研究的焦點,其在三維重建、三維生成模型、機器人技術、自動駕駛以及增強/虛擬現實(AR/VR)等應用中發揮著關鍵作用。然而,現有算法往往難以實現類似人類感知的高質量和一致性的深度恢復。人類感知過程依賴于豐富的先驗知識和對場景的世界理解,而傳統算法在這方面仍存在顯著差距。 傳統的深度恢復方法通常依賴主動感知硬件,例如市售的 LiDAR、飛行時間(ToF)傳感器以及超聲波探測器。這些傳感器通過測量光子或聲波往返的時間來估計深度。盡管這些方法具有較高的精度,但其高昂的成本限制了廣泛應用。此外,主動傳感器常常存在分辨率低、噪聲干擾嚴重等問題。例如,iPhone 上的 LiDAR 傳感器僅能在有限距離范圍內實現較低分辨率的三維重建,且對于極近或較遠物體的測量精度較低。更進一步地,這些傳感器對環境光線條件較為敏感,在戶外強光場景中效果不佳。 近年來,基于視覺的深度估計方法逐漸受到關注。這類方法不依賴于主動深度感知硬件,而是利用日常設備中廣泛配備的相機進行深度推理。與主動傳感器方法相比,視覺方法成本低、深度范圍無限制、不易受環境干擾、并可提供高分辨率。例如,一臺標準的 iPhone 相機即可輕松獲取 4K 分辨率的 RGB 圖像。然而,現有基于視覺的深度估計算法仍面臨諸多挑戰。尤其是單目深度估計問題本質上是病態的,標準深度學習算法在該任務中難以獲得高精度的結果。為了引入約束以減輕問題的病態性,研究人員探索了基于多相機輸入或更豐富場景觀測的信息進行深度估計的方法,如雙目、多視圖或視頻序列下的深度估計。然而,這些方法往往依賴于小規模的合成數據進行訓練,導致其在空間和時間域上的不穩定性,對不同場景與輸入類型的泛化能力較差,且難以有效彌合合成數據與真實世界數據之間的域差距。 隨著自然語言處理、圖像生成與視頻生成等領域中“擴展法則(scaling laws)”的驗證與興起,“基礎模型(foundation models)”的概念應運而生。基礎模型是指在大規模數據集上訓練的深度神經網絡,在多個領域中展現出突現的零樣本泛化能力。為了實現類似的能力,研究者們關注訓練數據的規模與多樣性,借助其他領域的大規模模型,并巧妙構建自監督學習架構。我們將具備大規模數據吸收能力的可擴展深度估計模型定義為“深度基礎模型(depth foundation models)”。這類模型覆蓋包括單目、雙目、多視圖以及單目視頻等多種深度估計任務,有潛力解決前述的泛化難題,并為計算機視覺領域的長期挑戰提供關鍵解決方案。 本文旨在綜述面向深度基礎模型的演進過程,系統回顧在單目、雙目、多視圖以及單目視頻設置下的深度估計范式與模型架構的發展: * 我們梳理了各類任務中深度學習模型架構與學習范式的發展,并識別出具有基礎能力或潛力的關鍵范式; * 為推動深度基礎模型的構建,我們還全面調查了各子領域中可用于訓練的大規模數據集; * 此外,我們列舉了各類任務中基礎模型當前所面臨的主要挑戰,為未來研究提供啟示與方向。

付費5元查看完整內容

摘要—對通用人工智能(AGI)的追求使具身智能成為機器人研究的前沿課題。具身智能關注的是能夠在物理世界中感知、推理并行動的智能體。要實現魯棒的具身智能,不僅需要先進的感知與控制能力,還需具備將抽象認知扎根于現實交互中的能力。在這一過程中,兩項基礎技術——物理模擬器與世界模型——已成為關鍵推動力量。物理模擬器為訓練與評估機器人智能體提供了可控、高保真度的環境,使復雜行為的開發變得安全而高效。相比之下,世界模型為機器人賦予了對環境的內部表示能力,從而使其能夠進行預測性規劃和超越直接感知的自適應決策。本文系統回顧了近年來通過物理模擬器與世界模型融合學習具身智能的研究進展。我們分析了這兩者在提升智能體自主性、適應性與泛化能力方面的互補作用,并探討了外部模擬與內部建模之間的協同關系,如何推動從模擬訓練走向真實部署的跨越。通過整合當前的研究成果與開放問題,本文旨在為構建更強大、更具泛化能力的具身智能系統提供全面的視角。我們還維護了一個持續更新的文獻與開源項目倉庫,地址為:

//github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。 關鍵詞—具身智能,世界模型,物理模擬器,自動駕駛,機器人學習

1 引言

**1.1 概述

隨著人工智能 [1][2] 與機器人技術 [3][4] 的快速發展,智能體與物理世界的交互日益成為研究的核心焦點。通用人工智能(AGI)——即能在多樣領域中匹敵甚至超越人類認知能力的系統——的追求,提出了一個關鍵問題:如何將抽象推理能力扎根于對現實世界的理解與行動之中?

智能機器人作為具身智能體,正在成為通往 AGI 的重要媒介,它們為計算智能與真實環境交互之間架起了物理橋梁。不同于僅在符號或數字數據上運作的“非具身”智能系統,具身智能強調通過與環境的物理交互來實現感知、行動與認知的結合。這一范式使機器人能夠在任務執行過程中持續根據來自物理世界的反饋調整其行為與認知,從而使機器人不再只是人工智能的一個應用場景,而是通向通用智能的關鍵組成部分。 具身智能的意義遠不止于完成物理任務。借助對物理身體的感知與行動 [5],機器人可以通過持續交互實現穩健的經驗學習、假設檢驗與策略優化。這種對感知輸入、運動控制和認知處理的閉環整合,構成了真正自主性與適應性的基礎,使機器人能夠更類人地推理與響應世界 [6]。

隨著智能機器人在現實世界中的廣泛部署,例如老年照護 [7]、醫療輔助 [8]、災害救援 [9] 和教育 [10] 等場景,它們在動態不確定環境中自主、安全運行的能力變得尤為關鍵。然而,應用場景的多樣性與技術進步的高速演化,使得亟需建立一個系統性框架來評估與比較機器人能力。建立一個科學合理的機器人智能分級系統,不僅有助于明確技術發展路線,也為監管、安全評估與倫理部署提供了關鍵指導。 為應對這一需求,近期研究探索了多種機器人能力量化框架,如 DARPA 機器人挑戰賽的評估機制 [11]、服務機器人安全標準 ISO 13482 [12],以及關于自主等級的評述 [13][14]。盡管如此,仍缺乏一個能夠綜合智能認知、自主行為與社會交互維度的完整分級體系。

在本研究中,我們提出了一個針對智能機器人的能力分級模型,系統地定義了從基礎機械執行到高級完全自主社會智能的五個等級(IR-L0 至 IR-L4)。該分級體系涵蓋自主性、任務處理能力、環境適應能力與社會認知等關鍵維度,旨在為智能機器人的技術演進提供統一的評估與指導框架。 推動機器人實現智能行為的核心技術包括兩個方面:物理模擬器與世界模型。二者在提升機器人控制能力與擴展潛能方面發揮著關鍵作用。Gazebo [15]、MuJoCo [16] 等模擬器可對物理世界進行顯式建模,提供可控環境,使機器人在部署前能夠進行訓練、測試與行為調優。這些模擬器如同訓練場,幫助機器人在避免高昂代價與現實風險的前提下實現行為預測與優化。 與此不同,世界模型則為機器人提供了環境的內部表征,使其能夠在自身認知框架中進行模擬、預測與規劃。按照 NVIDIA 的定義,世界模型是“理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型” [17]。這一概念因 Ha 和 Schmidhuber 的開創性研究 [18] 而受到廣泛關注,該研究展示了智能體如何學習緊湊的環境表征以進行內部規劃。 模擬器與世界模型之間的協同作用能夠增強機器人在多種場景下的自主性、適應性與任務性能。本文將探討機器人控制算法、模擬器與世界模型之間的互動機制。通過分析模擬器如何提供結構化外部環境以訓練智能體,以及世界模型如何構建內部表征以實現更具適應性的決策,我們旨在全面闡述這些組件如何協同提升智能機器人的能力。


**1.2 覆蓋范圍與貢獻

覆蓋范圍。 本綜述全面分析了機器人控制算法、模擬器與世界模型之間的相互關系,重點關注 2018 年至 2025 年的最新進展。內容涵蓋了傳統基于物理的模擬器與新興的世界模型,重點突出其在自動駕駛與機器人系統中的應用。 本綜述不同于現有文獻,后者通常聚焦于單一組件(如機器人模擬器 [19]–[21] 或世界模型 [22]–[24]),而本研究則系統地探討了物理模擬器與世界模型在推動具身智能發展過程中的協同作用,揭示它們在智能機器人發展中的互補角色。 主要貢獻:

智能機器人能力分級標準: 提出一個涵蓋自主性、任務處理能力、環境適應能力與社會認知能力四個關鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。 * 機器人學習技術分析: 系統回顧智能機器人在腿式運動(如雙足行走、摔倒恢復)、操作控制(如靈巧操作、雙手協調)與人機交互(如認知協作、社會嵌入)方面的最新技術進展。 * 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質量與傳感器支持能力。 * 世界模型的最新進展: 首先回顧世界模型的代表性架構及其潛在作用,例如作為可控模擬器、動態建模器與獎勵模型在具身智能中的應用。進一步探討專為自動駕駛與關節型機器人設計的最新世界模型方案。


**1.3 結構概覽

論文結構如圖 2 所示,具體安排如下: * 第 1 節: 引出具身智能的重要性,并闡述物理模擬器與世界模型在其中的作用。 * 第 2 節: 提出一套完整的智能機器人能力分級體系。

第 2.1 節:分級標準 * 第 2.2 節:分級影響因素 * 第 2.3 節:分級定義 * 第 3 節: 回顧機器人在移動性、操作性與人機交互方面的任務能力進展。

第 3.1 節:相關機器人技術 * 第 3.2 節:機器人運動能力 * 第 3.3 節:機器人操作能力 * 第 3.4 節:人機交互能力 * 第 4 節: 討論主流模擬器在機器人研究中的優缺點。

第 4.1 節:主流模擬器綜述 * 第 4.2 節:物理仿真能力 * 第 4.3 節:渲染能力 * 第 4.4 節:傳感器與關節組件支持 * 第 4.5 節:討論與未來展望 * 第 5 節: 介紹世界模型的代表性架構與核心作用。

第 5.1 節:世界模型架構 * 第 5.2 節:世界模型的核心功能 * 第 6 節: 探討世界模型在自動駕駛與關節型機器人中的應用與挑戰。

第 6.1 節:用于自動駕駛的世界模型 * 第 6.2 節:用于關節型機器人的世界模型 * 第 6.3 節:挑戰與未來方向

付費5元查看完整內容

摘要—多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)是具身智能中的一項關鍵技術,能夠服務于多種下游任務(如三維目標檢測與語義分割)和應用場景(如自動駕駛與群體機器人)。近年來,基于人工智能的 MSFP 方法取得了顯著進展,并已在相關綜述中有所回顧。然而,通過嚴謹而細致的調研,我們發現現有綜述仍存在一些局限性。一方面,大多數綜述面向的是單一任務或研究領域,例如三維目標檢測或自動駕駛,因此難以為其他相關任務的研究者提供直接參考。另一方面,大多數綜述僅從多模態融合的單一視角介紹 MSFP,缺乏對 MSFP 方法多樣性的系統考量,例如多視角融合和時序融合等。 為此,本文嘗試從任務無關的視角系統梳理 MSFP 研究工作,從多個技術維度出發介紹相關方法。具體而言,我們首先介紹 MSFP 的背景知識,接著回顧多模態融合與多智能體融合方法,進一步分析時序融合技術。在大語言模型(LLM)時代背景下,我們也探討了多模態 LLM 融合方法。最后,本文總結了 MSFP 面臨的挑戰與未來發展方向。我們希望該綜述能幫助研究者理解 MSFP 的重要進展,并為未來研究提供有價值的參考。 關鍵詞—多傳感器融合感知,具身智能,多模態,多視角,時序,多模態大語言模型(MM-LLM)

I. 引言

近年來,得益于深度學習與大語言模型(Large Language Model, LLM)的快速發展,人工智能(Artificial Intelligence, AI)在多個領域取得了顯著進展 [1]–[3]。作為 AI 的重要研究方向之一,具身智能(Embodied AI)指的是以物理實體為載體,通過在動態環境中的實時感知實現自主決策與行動能力的一種智能形式。具身智能具有廣泛的應用場景,例如自動駕駛和群體機器人智能 [4], [5],近年來已成為 AI 社區的一個研究熱點,同時也被認為是突破當前 AI 發展瓶頸、實現通用人工智能(Artificial General Intelligence, AGI)的關鍵路徑。 在具身智能系統的構建過程中,傳感器數據理解是連接物理世界與數字智能的核心環節。不同于以視覺為主的傳統感知模式,具身智能體(Embodied Agent)需融合多模態傳感器數據,以實現對環境的全景式感知。這些傳感器包括視覺攝像頭、毫米波雷達、激光雷達(LiDAR)、紅外攝像頭和慣性測量單元(IMU)等。多傳感器融合感知(Multi-sensor Fusion Perception, MSFP)對于實現具身智能的魯棒感知與精準決策能力至關重要。例如,視覺攝像頭容易受到光照變化的干擾,而激光雷達在雨霧天氣下的性能也會顯著衰減。 如圖 1 所示,當前面向具身智能的多傳感器融合感知研究主要基于“智能體—傳感器—數據—模型—任務”的基本范式。現有 MSFP 方法在自動駕駛、工業機器人等領域已取得令人矚目的成果,但其在具身智能場景中的應用仍面臨一些固有挑戰。具體而言,首先,跨模態數據的異質性導致難以統一特征空間;其次,不同傳感器之間的時空異步可能造成融合誤差;此外,傳感器故障(如鏡頭污損或信號遮擋)可能導致多模態信息的動態丟失。 圍繞上述問題,如表 1 所示,近年來已有一些綜述工作系統地總結了相關方法 [6]–[14]。盡管這些研究做出了寶貴貢獻,我們在深入調研后仍發現當前綜述存在一些不足。一方面,大多數綜述聚焦于單一任務或研究領域,如三維目標檢測或自動駕駛,使得其他相關任務的研究者難以從中受益。另一方面,大多數綜述僅從多模態融合的單一視角出發,缺乏對 MSFP 方法多樣性的系統探討,例如多智能體融合時序融合等方向的覆蓋不足。

為此,本文旨在從任務無關的視角對 MSFP 研究進行系統梳理,從多個技術維度純粹地組織與呈現現有方法。具體而言,我們首先介紹 MSFP 的背景,包括不同的感知任務、傳感器數據、主流數據集以及評估指標;隨后,綜述多模態融合方法,涵蓋點級、體素級、區域級以及多層級融合策略;沿此思路,我們進一步分析關注多智能體與基礎設施協同感知的多智能體融合方法;在此基礎上,我們探討將多個時間幀傳感器數據進行聯合建模的時序融合方法;在大模型時代背景下,我們還系統調研了當前基于視覺-語言與視覺-LiDAR 融合的多模態大語言模型(MM-LLM)方法,這一方向在現有綜述中鮮有涉及。最后,我們從數據層、模型層與應用層三個維度,全面討論 MSFP 面臨的挑戰與未來發展機遇。 我們希望本文能幫助研究者全面理解過去十年 MSFP 的關鍵進展,并為未來研究提供有價值的啟發與參考。 **本文其余結構如下:**第二節從不同的傳感器數據、可用數據集和典型感知任務角度介紹 MSFP 的背景;第三節從點級、體素級、區域級和多層級等不同粒度介紹多模態融合方法;第四節總結多智能體協同感知方法;第五節回顧 MSFP 中的時序融合方法;第六節調研當前基于 MM-LLM 的融合方法;第七節探討 MSFP 領域尚未解決的挑戰與未來發展方向;最后在第八節總結全文內容。

付費5元查看完整內容

摘要——對于自動駕駛車輛而言,在復雜環境中實現安全導航依賴于其對多樣化且罕見的駕駛場景的應對能力。基于仿真與場景的測試已成為自動駕駛系統開發與驗證的關鍵方法。傳統的場景生成依賴于基于規則的系統、知識驅動模型和數據驅動的合成方式,但這些方法往往生成的場景多樣性有限,且難以覆蓋逼真的安全關鍵情形。隨著基礎模型(即新一代預訓練的通用人工智能模型)的興起,開發者可以處理異構輸入(例如自然語言、傳感器數據、高精地圖和控制動作),從而實現復雜駕駛場景的合成與理解。 本文針對基礎模型在自動駕駛中的場景生成場景分析應用(截至2025年5月)進行了系統綜述。我們提出了一個統一的分類體系,涵蓋大語言模型、視覺語言模型、多模態大語言模型、擴散模型和世界模型,用于自動駕駛場景的生成與分析。此外,本文還回顧了相關的方法論、開源數據集、仿真平臺與基準挑戰,并分析了專門面向場景生成與分析的評估指標。最后,我們總結了當前存在的關鍵挑戰與研究問題,并提出了未來值得探索的研究方向。所有參考論文均收錄于持續維護的資料庫中,附帶補充材料,托管于 GitHub.com/TUM-AVS/FM-for-Scenario-Generation-Analysis。

關鍵詞——自動駕駛、場景生成、場景分析、基礎模型、大語言模型。

一、引言

近年來,自動駕駛(Autonomous Driving, AD)取得了飛速發展,已達到在特定運行設計域(Operational Design Domains, ODDs)內幾乎無需人類干預,甚至可完全自主運行的水平 [1]。Waymo 等公司自 2018 年起便已成功部署了具備 SAE L4 等級的全自動機器人出租車(robotaxi)服務 [2][3],在特定城市環境中驗證了無人駕駛出行的可行性。截至 2025 年,Waymo 每周已提供約 250,000 次商業化出行服務 [4]。這一系列進展得益于高可靠性模塊化自動駕駛軟件功能的開發與嚴格驗證,包括感知、預測、規劃與控制等模塊 [5]。 除了傳統的模塊化架構,近年來還涌現出基于深度學習的端到端學習方法 [6][7],可直接從原始傳感器數據中生成軌跡或控制動作 [8]。

在仿真中進行的**基于場景的測試(scenario-based testing)**是評估和驗證自動駕駛系統安全性與性能的關鍵手段 [9]。作為一種成本效益高的替代實地測試方式,它能夠模擬真實、可復現且可控的駕駛環境 [10],尤其擅長重現那些在現實數據集中罕見或難以捕捉的安全關鍵情況(corner case)[11][12]。因此,系統化生成與分析駕駛場景的能力,對基于場景的測試至關重要,是自動駕駛功能(如感知、規劃和控制)開發、驗證與確認的重要支撐。

隨著機器學習的不斷發展,尤其是大規模基礎模型(Foundation Models, FMs)的出現,自動駕駛中基于場景的測試在真實性、多樣性與可擴展性方面迎來了新的機遇。基礎模型由斯坦福大學人本人工智能研究所(HAI)于 2021 年 8 月首次提出 [13],用于描述一類在大規模多樣化數據集上,通常采用自監督學習訓練的模型。與傳統機器學習模型通常針對特定任務進行訓練不同,基礎模型具備良好的遷移能力,可通過提示學習(prompting)或微調(fine-tuning)適應多種任務。這些模型已在多個領域取得卓越表現,包括自然語言處理(NLP)[14]、視覺理解 [15] 與代碼生成 [16]。在自動駕駛領域,基礎模型也日益受到關注,因為它們能夠結合預訓練階段習得的通用知識與針對特定自動駕駛任務的高效適應能力 [17]–[19]。


A. 文獻綜述范圍

本綜述聚焦于基礎模型在自動駕駛場景生成與場景分析中的應用(參見圖 1)。我們通過在 Google Scholar 中進行關鍵詞檢索(完整關鍵詞列表見論文 GitHub 倉庫)對相關文獻進行篩選。 為了確保綜述的廣度與相關性,我們納入了同行評審的會議與期刊論文,以及 arXiv 上的預印本。盡管 arXiv 上的論文未經過正式同行評審,但其在快速發展領域(如基礎模型應用)中往往代表前沿且具有影響力的研究。我們調研的時間范圍涵蓋從 2022 年 10 月至 2025 年 5 月 之間發表的文獻,重點關注自動駕駛、計算機視覺、機器學習/人工智能(AI)與機器人領域的研究成果。圖 2 展示了按月統計的發表數量及其在不同類型平臺(會議、期刊或預印本)中的分布趨勢。每篇文獻的發表平臺及其開源代碼(如有)均在論文 GitHub 倉庫中列出。


B. 綜述結構安排

本綜述的整體結構如圖 3 所示: * 第 II 節介紹基礎模型,并對已有關于場景生成與分析的相關綜述進行評述,涵蓋經典方法與基礎模型驅動的最新進展; * 第 III、IV、V 節系統探討語言類基礎模型,從基本概念出發,詳細分析大語言模型(LLMs)視覺語言模型(VLMs)多模態大語言模型(MLLMs)在場景生成與分析中的應用; * 第 VI 與 VII 節聚焦于視覺為中心的基礎模型,分別介紹擴散模型與世界模型的基本原理及其與場景生成的關聯; * 第 VIII 節調研當前可公開獲取的數據集與仿真基準,重點介紹與自動駕駛場景生成與分析密切相關的競賽與挑戰; * 第 IX 和 X 節歸納當前的研究難點與開放性問題,并展望未來的研究方向; * 第 XI 節總結本綜述的核心發現與主要觀點。

付費5元查看完整內容

摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。

本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型

一、引言

遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:

基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;

學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;

視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。

盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:

對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;

對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;

對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;

討論當前挑戰與未來可能的研究方向。

圖2展示了本文的整體框架。

付費5元查看完整內容

摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程

付費5元查看完整內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。

關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。

人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。

為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。

然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:

  • 我們提供了MXAI方法的歷史總結和分析,包括傳統機器學習方法和基于LLMs的當前MXAI方法。
  • 我們分析了跨時代的方法,涵蓋數據、模型和事后可解釋性,以及相關的數據集、評估指標、未來挑戰和發展方向。
  • 我們回顧了現有方法,總結了當前的研究方法,并從歷史演變的角度提供了對未來發展的洞見和系統全面的視角。

生成式大型語言模型時代

這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。

**A. 數據可解釋性

  1. 解釋數據集:大型語言模型(LLMs)可以通過交互式可視化和數據分析有效地解釋數據集。LIDA [241] 通過生成與語法無關的可視化圖表和信息圖,幫助理解數據的語義,列舉相關的可視化目標,并生成可視化規范。其他方法 [242]–[245] 通過分析數據集來增強數據集的可解釋性。通過結合多模態信息和強大的自然語言處理能力,LLMs可以提供全面、深入、定制化和高效的數據解釋 [13]。Bordt等人 [246] 探討了LLMs在理解和與“玻璃盒”模型互動中的能力,識別異常行為并提出修復或改進建議。重點在于利用多模態數據的可解釋性來增強這些過程。
  2. 數據選擇:數據選擇在這一時代至關重要。它提高了模型的性能和準確性,減少了偏差,增強了模型的泛化能力,節省了訓練時間和資源,并提升了可解釋性,使得決策過程更加透明,有助于模型改進 [302]。多模態C4 [247] 通過整合多個句子-圖像對并實施嚴格的圖像過濾,提高了數據集的質量和多樣性,排除了小型、不規則比例的圖像以及包含人臉的圖像。這種方法強調了文本-圖像的相關性,增強了多模態模型訓練的魯棒性和可解釋性。還提出了一種基于啟發式混合數據過濾的生成式AI新范式,旨在增強用戶沉浸感并提高視頻生成模型與語言工具(例如ChatGPT [3])之間的互動水平 [248]。該方法使得從單個文本或圖像提示生成交互式環境成為可能。除了上述內容外,還有一些工作旨在提高模型對分布變化和超出分布數據的魯棒性 [249],[250]。
  3. 圖形建模:盡管多模態大型語言模型(MLLMs)可以處理和整合來自不同模態的數據,但它們通常是隱式地捕捉關系。相比之下,圖形建模通過顯式表示數據節點(例如圖像中的對象、文本中的概念)及其關系(例如語義關聯、空間關系),來更直觀地理解復雜數據關系。一些方法 [251]–[253] 將圖形結構與LLMs結合,通過多模態整合提升了復雜任務的性能和模型的可解釋性。

**B. 模型可解釋性

  1. 過程解釋:在這一時代,MXAI的過程解釋強調了多模態上下文學習(ICL)和多模態思維鏈(CoT)。ICL的突出之處在于它能夠通過使用人類可理解的自然語言指令來避免對大量模型參數進行廣泛更新 [303]。Emu2 [254] 通過擴展多模態模型生成,增強了任務無關的ICL。Link context learning(LCL) [304] 關注因果推理,以提升多模態大型語言模型(MLLMs)的學習能力。[255] 提出了多模態ICL(M-ICL)的綜合框架,適用于DEFICS [256] 和OpenFlamingo [257]等模型,涵蓋了多種多模態任務。MM-Narrator [258] 利用GPT-4 [240] 和多模態ICL生成音頻描述(AD)。進一步的ICL進展和新的多模態ICL變種由 [259] 探討。MSIER [260] 使用神經網絡選擇能夠提高多模態上下文學習效率的實例。多模態CoT解決了單模態模型在復雜任務中的局限性,在這些任務中,單靠文本或圖像無法全面捕獲信息。文本缺乏視覺線索,而圖像缺少詳細描述,這限制了模型的推理能力 [305]。多模態CoT通過整合和推理多種數據類型,如文本和圖像 [261]–[264],來解決這一問題。例如,圖像識別可以分解為逐步的認知過程,構建生成視覺偏見的網絡鏈,這些偏見在每一步都被加到輸入的詞嵌入中 [261]。Zhang等人 [262] 首先從視覺和語言輸入中生成推理依據,然后將其與原始輸入結合進行推理。混合推理依據 [306] 使用文本推理來引導視覺推理,通過融合特征提供連貫且透明的答案解釋。
  2. 內在可解釋性:在這一小節中,我們探討了多模態大型語言模型(MLLMs)的內在可解釋性,重點是兩類主要任務:多模態理解和多模態生成 [307]。多模態理解任務包括圖像-文本、視頻-文本、音頻-文本和多模態-文本理解。在圖像-文本理解中,BLIP-2 [2] 通過兩階段的預訓練過程增強了解釋性,將視覺數據與文本數據對齊,從而提高了圖像描述的連貫性和相關性。LLaVA [308] 通過將圖像-文本對轉換為與GPT-4 [240] 兼容的格式,并將CLIP的視覺編碼器與LLaMA的語言解碼器對接進行微調,生成了指令跟隨數據。像LLaVA-MoLE [309]、LLaVA-NeXT [271] 和LLaVA-Med [272]等變種在此基礎上進行了增強,針對特定領域和任務做出了改進。對于視頻-文本理解,與圖像不同,視頻具有時間維度,需要模型處理靜態幀并理解它們之間的動態關系。這增加了多模態模型的復雜性,但也提供了更豐富的語義信息和更廣泛的應用場景。VideoChat [273] 構建了一個以視頻為中心的指令數據集,強調時空推理和因果關系。該數據集增強了時空推理、事件定位和因果推理,整合了視頻和文本,從而提高了模型的準確性和魯棒性。Dolphins [274] 結合視覺和語言數據來解讀駕駛環境,并與駕駛員自然互動。它提供了清晰且具有相關性的指令,為其建議生成解釋,并通過不斷學習新經驗來適應不斷變化的駕駛條件。對于音頻-文本理解,音頻數據由于其時間序列的性質,需要模型能夠解析和理解時間動態。這擴展了多模態理解的能力。Salmonn [275] 將預訓練的基于文本的LLM與語音和音頻編碼器整合到一個統一的多模態框架中。這種設置使得LLMs能夠直接處理和理解普通音頻輸入,增強了多模態可解釋性,并提供了有關文本和音頻數據關系的洞察。盡管如此,Salmonn在實現全面音頻理解方面仍面臨挑戰。相比之下,Qwen-audio [276] 通過開發大規模音頻-語言模型來推動該領域的發展。通過利用大量的音頻和文本數據集,Qwen-audio提高了模型處理和解釋多樣聽覺輸入的能力,從而推動了多模態理解的邊界,并在各種音頻相關任務中展現了強大的表現。

結論

本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。

付費5元查看完整內容

圖像匹配旨在建立圖像之間的點對應關系,是許多計算機視覺任務的關鍵環節.近年來,隨著深度學習技 術的發展,圖像匹配方法已從以手工設計特征為主轉變為基于深度網絡的方法,基于深度學習的圖像匹配方法在 多個標準數據集上展現出卓越的性能,推動著多個相關應用的發展.圍繞圖像匹配涉及的若干關鍵問題,如:特征 點檢測、特征點描述、稠密點匹配、誤匹配去除,本文對深度學習圖像匹配方法進行了系統性總結.首先分析了領域 內基于深度學習的典型方法和關鍵技術,隨后介紹了與圖像匹配密切相關的幾個典型應用并給出其現狀分析,最 后,根據對圖像匹配領域技術發展的分析總結,結合作者在該領域的長期研究積累,本文給出了目前圖像匹配所面 臨的主要挑戰以及未來發展趨勢.

//cjc.ict.ac.cn/online/onlinepaper/kqq-202479160641.pdf 圖像 匹 配 旨 在 建 立 不 同 圖 像 之 間 相 同 物 理 點[1,2]或者相同語義點之間的對應關系[3,4],其中后 者亦稱為語義匹配,本文主要討論面向前者的圖像 匹配方法,兩者的具體定義和區別詳見第2節.建立 同一實際物體在不同圖像之間的點對應關系,是三 維計算機視覺的基本出發點[5,6],許多三維計算機 視覺的理論都建立在已知圖像點對應關系基礎上, 三維重建[7,8]、相機姿態計算[9]、視覺定位[10,11]、圖 像拼 接[12]、增 強 現 實[13]、同 步 定 位 與 地 圖 繪 制 (SimultaneousLocalizationand Mapping,SLAM)[14-16] 等三維計算機視覺應用都離不開高質量的圖像匹配 算法.此外,高質量的圖像匹配算法還可直接應用于 物體識別[1,17]、目標跟蹤[18,19]等經典計算機視覺問 題,而且遙感圖像和醫學影像處理中的圖像融合與 變化檢測等應用方向[20-23]均離不開圖像匹配.可以 說,圖像匹配是計算機視覺和圖像處理領域極具應用 價值的一個研究方向,得到了研究人員的廣泛關注. 早期的圖像匹配方法以手工設計的特征為主, 其中最 具 代 表 性 的 工 作 是 SIFT (ScaleInvariant FeatureTransform)[1]和 SURF (SpeededUpRobust Features)[24],尤其是SIFT,不僅推動了圖像匹配領 域的技術進步,還影響了圖像識別、目標檢測等眾多 計算機視覺技術的發展.例如:在 SIFT 基礎上提出 的 HoG (HistogramofGradients)[25,26]特征在深度 學習出現之前一直都是行人檢測領域的主流方法, 并 在 一 般 性 的 目 標 檢 測 領 域 也 得 到 了 廣 泛 應 用[27,28],而基于 SIFT 這種局部圖像特征發展起來 的視覺詞袋(BagofVisualWords)[29,30]方法則在很 長一段時間都主導著圖像分類技術的發展.比SIFT 計算更加高效的 SURF 方法則推動了許多對實時 性圖像特征點匹配有要求的應用技術發展,如:目前 廣泛使 用 的 視 覺 SLAM 方 法,即 ORB-SLAM 系 列[14,31,32],依 然 是 基 于 手 工 特 征 ORB (Oriented FASTandRotatedBRIEF)[33]的方法. 圖1概括了前深度學習時代圖像匹配領域典型 方法的發展歷程,包括最早期的基于灰度統計量的 方法[34-36]、后續出現的基于梯度統計量[1,2,24,37]、基 于灰度大小關系[38-40]和基于二進制特征表示的方 法[33,41,42],以及在深度學習出現之前使用傳統機器 學習方法進行數據驅動的圖像匹配方法的一些嘗 試[43-45],更多關于手工設計的圖像特征匹配方法的 介紹可參考綜述論文獻[7,46-48],本文聚焦于深度 學習時代的圖像匹配. 隨著深度學習技術的不斷發展[49-52],圖像匹配 領域也取得了長足的進步,出現了許多優秀的基于 深度學習的方法,在圖像匹配涉及的多個方面均取 得了顯著效果,如:圖像特征點檢測[53]、圖像特征點 描述[54]、稠 密 圖 像 點 匹 配[55]、錯 誤 匹 配 點 濾 除[56] 等.相比傳統的手工設計方法以及非深度學習的機 器學習方法,基于深度學習的圖像匹配方法不僅在 圖像匹 配 相 關 的 數 據 集 上 取 得 了 卓 越 的 性 能 提 升[47,57],而且在多個以特征匹配為基礎的下游任務 上展現出強大的應用潛力,包括基于圖像的大場景三 維重建[7,58]、基于圖像的定位[11,59]、視覺 SLAM [60]、 多模態融合[22,61,62]等.盡管文獻中提出的許多方法 在不同方面促進了圖像匹配技術的進步,已有的綜 述主要聚焦于總結稀疏特征點匹配中不同的特征點 檢測與特征點描述方法[47,48,63]、或者基于某個特定 任務/數據集對不同的特征點檢測與描述方法的組 合進行性能對比分析[7,61,64,65],本文從稀疏特征點 匹配與稠密點匹配兩個角度,聚焦于近年來深度學 習在這兩個領域相關技術問題上的突破、對已有方 法進行了深入總結與分析,并且對誤匹配去除、典型 的下游應用技術進展進行了詳細介紹,給出了相關 研究所涉及的數據集,力求給讀者展現出圖像匹配 這一領域的全貌和最新的技術突破點,幫助進入該 領域的研究人員快速掌握圖像匹配的內涵、難點、關 鍵技術與數據集資源等. 本文首先在第2節給出圖像匹配問題的正式定 義和研究難點;之后,將在第3節至第5節對近年來 該領域的代表性方法進行綜述,總結分析現有方法 的特點、內在聯系、發展歷程,以及關鍵技術等,涵蓋 稀疏特征點匹配、稠密像素點匹配和錯誤點濾除三 個方向,試圖給讀者一個關于該領域的發展、現狀和 關鍵技術的全面了解.另一方面,深度學習的出現也 革新了許多計算機視覺問題的技術路線,如:基于局 部圖像特征的視覺詞袋模型[29]在深度學習出現之前占據了圖像分類方法絕對的主導地位,而深度神 經網絡端到端學習能力使得圖像分類這一典型的計 算 機 視 覺 問 題 不 再 依 賴 于 局 部 圖 像 特 征 的 設 計[49,52],目 標 檢 測 也 不 再 依 賴 繁 瑣 的 特 征 工 程[66,67].換句話說,隨著深度學習技術的進步,圖像 特征匹配以及相關的局部圖像特征提取的應用范疇 也發生了較大變化,本文將在系統總結分析基于深 度學習的圖像匹配方法基礎上,在第6節給出一些 目前仍然極度依賴局部圖像點對應關系的典型應 用,并介紹其現狀,第7節對圖像匹配及其下游應用 任務的研究中經常使用的數據集進行介紹.最后,值 得指出的是,盡管深度學習技術在圖像匹配問題的 成功應用,使得圖像匹配技術的發展取得了可喜的 進步,實際應用需求的不斷延申也對其提出了新的 要求,本文第8節將對該領域的現有挑戰與未來發 展方向進行展望.

付費5元查看完整內容
北京阿比特科技有限公司