摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型
機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。
單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:
結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。
這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。
本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。
本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。
摘要—視覺—語言模型(Vision-Language Models, VLMs)在廣泛任務中展現出卓越的泛化能力。然而,當直接應用于特定下游場景且未經過任務特定的適配時,其性能往往并不理想。為了在保持數據高效性的同時提升其實用性,近年來的研究日益聚焦于不依賴標注數據的無監督適配方法。盡管這一方向的關注度不斷上升,但仍缺乏一個面向任務的、專門針對無監督 VLM 適配的統一綜述。為彌補這一空白,本文對該領域進行了全面且結構化的梳理。我們提出了一種基于無標注視覺數據可得性及其性質的分類方法,將現有方法劃分為四種核心范式:無數據遷移(Data-Free Transfer,無數據)、無監督領域遷移(Unsupervised Domain Transfer,充足數據)、情景式測試時適配(Episodic Test-Time Adaptation,批量數據)和在線測試時適配(Online Test-Time Adaptation,流式數據)。在這一框架下,我們分析了各范式對應的核心方法與適配策略,旨在構建對該領域的系統化理解。此外,我們還回顧了多種應用場景下的代表性基準,并指出了開放挑戰與未來研究的潛在方向。相關文獻的持續更新倉庫可訪問://github.com/tim-learn/Awesome-LabelFree-VLMs。 關鍵詞—無監督學習,測試時適配,多模態學習,視覺—語言模型。 I. 引言
視覺—語言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],憑借強大的跨模態推理能力,已在學術界和工業界引起了廣泛關注。這類模型通過大規模數據集 [5] 學習圖像—文本的聯合表示,并在多種任務中展現出令人印象深刻的零樣本(zero-shot)性能與泛化能力。VLMs 已成功應用于多個領域,包括自動駕駛 [6]、機器人技術 [7]、異常檢測 [8] 以及跨模態檢索 [9]。 然而,由于預訓練階段無法覆蓋下游任務與環境的全部多樣性,將 VLMs 適配于特定應用仍是一項核心挑戰。早期的研究主要依賴有監督微調 [10]–[13],利用帶標注樣本挖掘更多知識。盡管該方法在性能上有效,但依然面臨高標注成本,以及在訓練與測試數據存在分布偏移(distribution shift)[14] 時的性能下降問題。為應對這些局限,越來越多的研究開始探索無監督適配技術 [15]–[20]。這些方法——通常被稱為零樣本推理 [21]–[23]、測試時方法(test-time methods)[18], [24], [25],或無監督調優 [17], [26], [27]——旨在無需昂貴標注即可提升 VLMs 在下游任務中的表現。實踐表明,這類方法在圖像分類 [15], [17], [18]、圖像分割 [16], [28], [29]、醫學影像診斷 [30], [31] 以及動作識別 [32], [33] 等任務中均取得了顯著成效。 鑒于該研究領域的快速發展,本文旨在對現有 VLM 無監督適配方法進行全面且結構化的綜述。據我們所知,這是首個圍繞無標注視覺數據可得性提出分類體系的工作——這一因素在實際部署中至關重要,卻往往被忽視。如圖 1 所示,我們將現有方法劃分為四種范式: 1. 無數據遷移(Data-Free Transfer)[15], [16], [21]:僅利用文本類別名稱來適配模型; 1. 無監督領域遷移(Unsupervised Domain Transfer)[17], [34], [35]:利用來自下游任務的充足無標注數據; 1. 情景式測試時適配(Episodic Test-Time Adaptation)[18], [24], [36]:針對一批測試樣本進行適配; 1. 在線測試時適配(Online Test-Time Adaptation)[19], [23], [25]:應對流式到達的測試數據。
這一分類體系為理解 VLM 無監督適配的研究版圖提供了系統化框架,有助于實踐者選擇合適的技術路徑,同時也有助于未來在同一范式下進行公平比較。 本文的組織結構如圖 2 所示:第 II 節概述了與 VLM 無監督學習相關的研究主題;第 III 節介紹了 VLM 的零樣本推理,并提出基于無標注視覺數據可得性的分類體系;第 IV–VII 節為本文核心內容,分別分析無數據遷移、無監督領域遷移、情景式測試時適配以及在線測試時適配中的現有方法;第 VIII 節探討無監督技術在多種應用場景中的實踐及相關基準,擴展對其實際意義和應用價值的認識;第 IX 節總結該領域的新興趨勢,并指出可能激發未來研究的關鍵科學問題。 與已有綜述的對比。 近年來,一些綜述性工作 [37]–[40] 涉及了無監督適配與 VLM 微調的不同方面。現有研究 [40]–[42] 多聚焦于單模態模型遷移,雖然對該領域進行了深入分析,但對 VLM 的覆蓋較為有限。較早的工作 [37] 討論了 VLM 的預訓練階段,并簡要分析了其在視覺任務上的微調方法;另一篇綜述 [38] 涉及多模態模型的適配與泛化,但粒度較為粗略;近期工作 [39] 從參數空間視角審視 VLM 下游任務的泛化,并回顧了相關方法。盡管這些綜述提供了有價值的見解,但本文首次基于無標注視覺數據可得性提出了分類體系,并在每個范式下深入分析前沿技術,我們認為這是對該領域的一個新穎且關鍵的補充,尤其對 VLM 的實際部署具有重要意義。
摘要——從視覺觀測中重建四維空間智能長期以來一直是計算機視覺領域中的核心難題之一,并具有廣泛的現實應用場景。這些應用涵蓋從電影等娛樂領域(側重于基礎視覺要素的重建)到具身智能(強調交互建模與物理現實性)。得益于三維表示和深度學習架構的迅猛發展,該研究方向迅速演進,已遠超以往綜述的覆蓋范圍。此外,現有綜述往往缺乏對四維場景重建中層次結構的系統分析。為填補這一空白,本文提出一種新的視角,將現有方法按照五個逐級遞進的四維空間智能層級進行組織: (1) 第一層級:低層三維屬性的重建(如深度、姿態和點云圖); (2) 第二層級:三維場景組成要素的重建(如物體、人類、結構體); (3) 第三層級:四維動態場景的重建; (4) 第四層級:場景組件之間交互的建模; (5) 第五層級:物理規律與約束的融合建模。 本文最后討論了各層級所面臨的關鍵挑戰,并指出了邁向更高層次四維空間智能的潛在研究方向。為了追蹤該領域的最新進展,我們維護了一個實時更新的項目頁面: //github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 關鍵詞——四維空間智能、低層線索、場景重建、動態建模、交互建模、物理建模、視頻
利用機器學習或深度學習技術自動重建四維空間智能,長期以來一直是計算機視覺領域中的關鍵難題。通過同時捕捉靜態構型與隨時間變化的動態過程,四維空間智能能夠提供對空間環境的全面表示與理解,將三維幾何結構與其時間演化整合在一起。該研究方向因其廣泛的應用場景而受到高度關注,包括視頻游戲 [1]、電影 [2] 和沉浸式體驗(如 AR/VR)[3], [4],其中高保真度的四維場景是實現真實用戶體驗的基礎。 除了這些側重于四維空間智能基本組成部分的應用場景——如深度、相機姿態、點云圖、三維跟蹤等低層線索,以及場景組成要素和動態之外,空間智能還在推動具身智能(Embodied AI)[5], [6], [7] 和世界模型(World Models)[8] 的發展中發揮著核心作用。這些后者的任務更加注重場景中各組成部分之間的交互以及重建環境的物理合理性。 近年來,四維空間智能的重建技術取得了飛速進展。已有若干綜述工作 [9], [10] 從不同角度提供了有價值的視角,并總結了該領域中持續存在的挑戰。例如,[11]–[13] 綜述了通過深度立體匹配獲取低層場景信息的最新進展;[14]–[16] 系統梳理了三維場景重建方面的研究,涵蓋多種輸入模態和多樣的三維表示方式;[9], [10] 則從核心架構出發對動態四維場景重建方法進行了分類。 然而,隨著新型三維表示方法的提出 [17]–[19]、高質量視頻生成技術的發展 [20]–[22]、以及更高效重建模型的出現,該領域已取得顯著進展。盡管如此,現有綜述尚未系統分析動態四維場景的不同組成層級,也未深入探討各層級的發展現狀與關鍵挑戰,導致人們對四維空間智能的理解仍存在碎片化傾向,容易忽略其中的關鍵組成部分。因此,亟需一份全面、系統、與時俱進的綜述來將四維空間智能劃分為不同層級,梳理最新進展,并描繪該研究領域不斷演化的全貌。 基于這一緊迫需求,本文將現有的四維空間智能重建方法劃分為以下五個層級,并分別對其最新進展進行系統梳理: * 第一層級:低層三維線索的重建。
該層級聚焦于深度、相機姿態、點云圖和三維跟蹤等基礎三維線索的重建,這些要素構成了三維場景的基本結構。傳統上,這一任務常被劃分為多個子領域,如關鍵點檢測 [23]–[25] 與匹配 [26]–[29]、魯棒估計 [28], [30]、SfM(結構自運動)[31]–[34]、BA(Bundle Adjustment)[35]–[38]、以及稠密多視圖立體重建(MVS)[39]–[43]。近期方法如 DUSt3R [44] 及其系列擴展 [45]–[48] 致力于聯合求解上述子任務,實現更協同的一體化推理。而 VGGT [54] 則在 Transformer 架構 [49]–[53] 的基礎上,提出了一個端到端系統,能在數秒內高效估計這些低層三維線索。 * 第二層級:三維場景組成要素的重建。
在第一層級的基礎上,第二層級進一步重建場景中的獨立要素,如人類、物體和建筑等。雖然某些方法涉及要素間的組合與空間布局,但通常不對它們之間的交互進行建模或約束。近期方法結合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示(如 DMTET [18] 和 FlexiCube [57])等創新型三維表示方式,提升了重建細節的真實性、渲染效率以及整體結構一致性,為照片級真實感場景重建和沉浸式虛擬體驗奠定基礎。 * 第三層級:四維動態場景的重建。
本層級引入場景動態,是實現“子彈時間”式四維空間體驗和沉浸式視覺內容的關鍵步驟。現有方法主要分為兩類:一類方法 [58]–[62] 先重建一個靜態的標準輻射場,再通過學習得到的時序變形建模動態過程;另一類方法 [63]–[69] 則將時間作為額外參數直接編碼進三維表示,實現連續動態建模。 * 第四層級:場景組件之間交互的建模。
該層級標志著空間智能研究進入更成熟階段,著眼于不同場景組成部分之間的交互建模。考慮到人類通常是交互的核心主體,早期工作 [70]–[74] 主要聚焦于捕捉人類與可操控物體的動作。隨著三維表示的進步,近期方法 [75]–[80] 可更精確地重建人類與物體外觀,而人-場景交互建模 [81]–[85] 也逐漸成為研究熱點,為構建完整世界模型提供基礎支撐。 * 第五層級:物理規律與約束的融合建模。
盡管第四層級能夠建模場景組件之間的交互,但通常忽略了如重力、摩擦力、壓力等底層物理規律。因此,在如具身智能 [5]–[7] 等任務中,這類方法常難以支持機器人在現實世界中模仿視頻中的動作與交互。第五層級的系統旨在通過引入物理可行性約束來彌補上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平臺及強化學習方法 [90]–[92],展示了從視頻中直接學習并復現類人技能的能力,標志著向物理一致性空間智能邁出重要一步。此外,對一般三維物體(如變形、碰撞與動力學)和物理場景的建模 [93]–[95] 也成為活躍研究方向,進一步拓展了第五層級的適用范圍。
綜述范圍: 本文主要聚焦于從視頻輸入中進行四維場景重建的方法,具體圍繞上述五個層級梳理關鍵技術進展與代表性工作。所選論文大多來自計算機視覺與圖形學的頂級會議和期刊,并補充了部分 2025 年發布的 arXiv 預印本。我們的選擇標準強調與本綜述主題的相關性,旨在提供該領域近期快速進展的全面概覽。 本綜述不涵蓋純三維生成方法 [96]–[98] 及基于生成式視頻擴散模型 [20]–[22] 的四維生成方法 [99]–[104],因為它們通常只生成單一類型輸入,與四維重建關系較弱。此外,我們也未深入探討各類三維表示方法,相關讀者可參考已有的綜述文獻 [10], [15], [105]–[110]。 組織結構: 圖 1 展示了四維空間智能各層級的整體概覽。接下來的章節中,我們按照從視頻輸入重建五個關鍵層級的流程,構建一個系統的研究分類體系:第 2 節介紹低層三維線索,第 3 節討論三維場景要素,第 4 節聚焦動態場景建模,第 5 節涉及場景交互,第 6 節探討物理規律建模。最后在第 7 節中,我們將對當前方法進行批判性反思,指出各層級仍面臨的開放挑戰,并展望超越現有五層級的四維空間智能未來發展方向。
摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。
隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型
1 引言
深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?
為此,本文對 VLM 的泛化能力展開系統文獻綜述。
研究動機與貢獻
現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。
我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。
同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。
綜述貢獻總結如下:
系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。
文章結構如下:
第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要——理解和復現真實世界是人工通用智能(AGI)研究中的關鍵挑戰。為實現這一目標,許多現有方法(如世界模型)試圖捕捉物理世界的基本規律,以實現更精確的模擬和更有意義的交互。然而,當前的方法通常將不同模態(包括2D圖像、視頻、3D和4D表示)視為獨立的領域,而忽略了它們之間的相互關聯。此外,這些方法通常僅關注現實世界的某個孤立維度,而未能系統性地整合它們的聯系。因此,在本綜述中,我們提出了一個統一的多模態生成模型綜述,研究數據維度在真實世界模擬中的演進過程。具體而言,我們從2D生成(外觀)出發,擴展到視頻生成(外觀+動態)和3D生成(外觀+幾何),最終達到整合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為引導未來研究,我們提供了對數據集、評測指標和未來方向的全面回顧,并為初學者提供深入見解。本綜述旨在作為一座橋梁,推動多模態生成模型與真實世界模擬在統一框架下的發展。 索引詞——生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述
【2 基礎知識】 本部分對深度生成模型的基本原理做了簡要回顧。論文中介紹的各類生成模型都旨在通過深度神經網絡近似真實數據的分布。文中詳細討論了幾種主流模型:
──────────────────────────── 【3 各范式下的真實世界模擬】 論文按照數據維度的增長,系統地將真實世界模擬劃分為四個層次,即二維生成、視頻生成、三維生成和四維生成,每個層次均著眼于不同的屬性建模。 【3.1 二維生成】 在二維生成部分,重點討論了文本到圖像的生成技術。利用擴散模型、預訓練語言模型及自編碼器等技術,現有方法已能夠從文本描述中生成高質量、語義準確的圖像。論文中詳細介紹了Imagen、DALL-E、DeepFloyd IF、Stable Diffusion及其擴展版本(如SDXL和FLUX.1)等模型,這些模型通過多階段生成、跨模態編碼以及高效的降噪技術,在圖像外觀建模方面取得了顯著成效。
【3.2 視頻生成】 視頻生成技術在二維圖像生成的基礎上增加了時間維度,面臨更高的時空一致性要求。論文將當前視頻生成方法歸納為基于變分自編碼器與對抗生成網絡、基于擴散模型以及自回歸模型三大類:
【3.3 三維生成】 三維生成部分主要關注對物體幾何和外觀信息的全面建模。論文首先討論了三維數據表示方式,分為明確表示(如點云、體素網格、網格模型和三維高斯分布)、隱式表示(通過連續函數描述物體表面,如符號距離函數與神經輻射場)以及混合表示(結合前兩者優點,通過混合體素或基于四面體網格等方法實現高效表達)。在算法層面,論文介紹了文本到三維生成、圖像到三維生成以及視頻到三維生成三種任務。 (1)在文本到三維生成中,有兩大類方法:一種是前向傳播方法,直接從文本編碼中得到緊湊的三維表示;另一類是基于優化的方法,通過利用文本到圖像的預訓練模型產生中間視角,再借助擴散模型或其他損失函數進行三維結構的精細化優化。 (2)圖像到三維生成主要利用已有圖像數據,通過編碼壓縮網絡和生成模型得到符合輸入圖像特征的三維資產; (3)視頻到三維生成則利用視頻中的多視角信息,通過時空一致性訓練,生成既具有細節又滿足多視角約束的三維結構。論文中對各類方法的優缺點進行了詳細比較,并討論了如何利用大規模三維數據集以及多視角預訓練模型來提高三維生成的精度和一致性。
【3.4 四維生成】 四維生成則是在三維生成的基礎上進一步引入時間維度,用以描述動態場景的演變。此部分面臨空間連續性和時間一致性的雙重挑戰。論文介紹了四維數據表示方法,包括基于靜態三維表示擴展時間信息、采用時空分解與哈希映射等技術以降低重建單個場景的計算成本。當前,四維生成主要分為兩類方法:
──────────────────────────── 【4 數據集與評測指標】 論文還對真實世界模擬中常用的數據集與評測指標做了綜述。針對二維、視頻、三維和四維生成,不同任務所采用的數據集具有各自特點,如大規模圖文數據集、視頻編輯數據集以及用于三維重建和視角合成的專用數據集。同時,評測指標不僅包括圖像質量、視頻時空連貫性,還涵蓋三維模型的幾何精度、表面細節以及多視角一致性等多個方面。對這些指標的詳細比較和應用場景的討論為后續研究提供了重要參考。 ──────────────────────────── 【5 未來方向與挑戰】 盡管當前多模態生成模型在模擬真實世界方面已取得顯著進展,但論文仍指出存在若干開放性挑戰: 一是如何在保證生成內容高保真和細節豐富的前提下進一步提高生成速度與計算效率; 二是如何在多模態、多維度之間建立更加緊密的聯系,克服單一維度模型帶來的局限; 三是如何借助更大規模、更高質量的數據集,推動文本、圖像、視頻到三維乃至四維生成方法的統一與協同; 此外,在應用層面,如虛擬現實、自動駕駛、機器人等場景中對生成模型的魯棒性、實時性以及交互性提出了更高要求,這些均為未來研究的重要方向。 ──────────────────────────── 【6 結論】 本文系統性地綜述了多模態生成模型在真實世界模擬中的研究進展,詳細討論了從二維到四維生成的各個技術范式。通過對比傳統圖形學方法與基于深度學習的生成模型,論文不僅明確了當前各類方法的優勢和局限,也為未來研究指明了方向。總體來說,本綜述為研究人員提供了一個統一的視角,幫助大家在跨模態、跨維度的真實世界模擬領域進行更深入的探討和創新。
摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。
關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG
I. 引言
大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在
本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。
與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。
摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在
//github.com/BestJunYu/Awesome-Physics-aware-Generation
1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。
摘要—人工智能(AI)的快速發展已徹底改變了眾多領域,尤其是大規模語言模型(LLMs)和計算機視覺(CV)系統,分別推動了自然語言理解和視覺處理的進步。這些技術的融合催生了多模態人工智能,能夠實現跨文本、視覺、音頻和視頻等模態的更豐富的跨模態理解。尤其是多模態大規模語言模型(MLLMs)作為一種強大的框架,展現了在圖像-文本生成、視覺問答和跨模態檢索等任務中的卓越能力。盡管取得了這些進展,MLLMs的復雜性和規模也帶來了可解釋性和可解釋性方面的重大挑戰,而這些挑戰對于在高風險應用中建立透明性、可信度和可靠性至關重要。本文提供了關于MLLMs可解釋性和可解釋性的全面綜述,提出了一個新穎的框架,將現有研究從以下三個角度進行分類:(I) 數據,(II) 模型,(III) 訓練與推理。我們系統地分析了從詞匯級到嵌入級表示的可解釋性,評估了與架構分析和設計相關的方法,并探討了增強透明度的訓練和推理策略。通過比較各種方法論,我們識別了它們的優缺點,并提出了未來研究方向,以解決多模態可解釋性中尚未解決的挑戰。本文綜述為推動MLLMs的可解釋性和透明度提供了基礎資源,旨在引導研究人員和實踐者開發更加負責任和穩健的多模態人工智能系統。
關鍵詞—多模態大規模語言模型、可解釋性、可解釋性、綜述
引言 人工智能(AI)的快速發展已經顯著改變了眾多領域。最近,AI領域最具影響力的進展之一是大規模語言模型(LLMs)的發展,這些模型在文本生成、翻譯和對話式AI等一系列自然語言任務中表現出卓越的語言理解和生成能力[1]。同樣,計算機視覺(CV)的進展使得系統能夠有效處理和解釋復雜的視覺數據,推動了物體檢測、動作識別和語義分割等任務的高精度實現[2]。最近,這些技術的融合激發了對多模態人工智能的興趣,它旨在整合文本、視覺、音頻和視頻等多種模態,實現更加豐富和全面的多模態理解[3, 4, 5, 6, 7, 8, 9, 10, 11]。多模態大規模語言模型(MLLMs)在深度學習技術的重大進展推動下,經歷了快速的發展[12, 13, 14, 15, 16, 17]。通過整合多種數據源,MLLMs在一系列多模態任務中展示了先進的理解、推理和生成能力,包括圖像-文本生成[18, 19, 20]、視覺問答[21, 22, 23, 24, 25, 26, 27, 28]、跨模態檢索[29, 30, 31]、視頻理解[32, 33, 34, 35, 36, 37, 38]。因此,MLLMs在多個領域找到了廣泛的應用[39, 40, 41],包括自然語言處理(NLP)[42, 43]、計算機視覺(CV)[44, 45]、視頻[15, 46, 47]、自動駕駛[3, 48, 49]、醫學[50, 51, 52]和機器人技術[53, 54, 55, 56, 57, 58]。然而,隨著MLLMs的復雜性和規模的增長,出現了一個關鍵挑戰:解碼MLLMs的決策過程[6, 59, 60]。 可解釋人工智能(XAI)領域已經成為使復雜AI系統的決策過程更加透明和易于理解的關鍵[61, 62, 63]。可解釋性和可解釋性被定義為能夠以人類可理解的方式解釋或呈現[64, 65]。盡管在單模態的可解釋性和可解釋性方面已經取得了顯著進展,例如在卷積神經網絡(CNN)[66, 67]和變換器(transformers)[68]在圖像上的應用,以及LLMs[69]在文本中的應用,但多模態領域存在獨特的挑戰,如不同模態的對齊和分解。此外,MLLMs的可解釋性和可解釋性對于確保透明性和可信度至關重要,特別是在人工智能決策對人類產生重大影響的高風險應用中,這涉及如何在模型中結合不同的數據類型,以及它們的相互作用如何影響輸出。根據近期的研究[64, 70, 71],本文定義了在MLLMs中,可解釋性指的是那些本質上易于理解的內部結構,使得輸入如何轉化為輸出能夠直觀地理解。另一方面,MLLMs的可解釋性涉及提供關于模型決策背后的外部分析的后置技術。 本文提出了一種新的視角來分類MLLMs的可解釋性和可解釋性,通過整合數據、模型、訓練與推理的視角。正如圖1所示,我們從三個角度考察MLLMs的可解釋性和可解釋性:數據(第III節)、模型(第IV節)、訓練與推理(第V節)。繼數據驅動的可解釋性研究[72, 73, 74, 75]之后,我們探討了數據視角(第III節),分析輸入和輸出數據如何歸因于模型的決策。我們還分析了基準和應用,以評估各種任務中的可信度和可靠性,從而確保其在現實場景中的魯棒性和適用性[76, 77]。在模型的可解釋性和可解釋性方面[78, 79, 80, 81, 82, 83, 84],從模型視角(第IV節),我們深入分析了從詞匯級、嵌入級、神經元級、層級到架構級的各個層面。在詞匯級[85, 86, 87, 88, 89],我們研究了單個詞匯對模型輸出的影響,并探索了增強可解釋性的方法。在嵌入級[90],我們評估了多模態嵌入如何影響MLLMs的性能和可解釋性,提供了對底層表示機制的更深刻理解。對于神經元級[91, 92, 93],我們分析了單個單元和特定神經元組的作用,以理解它們對整體模型行為的貢獻。在層級級[67, 78, 94],我們研究了不同層次如何影響模型內的決策過程。在架構方面,我們區分了架構分析和架構設計[95, 96, 97, 98]的可解釋性方法,強調了促進透明性和更好理解模型操作的策略。 此外,我們還探討了增強模型透明性和可解釋性的訓練與推理策略(第V節)。在訓練階段[79],我們總結了各種訓練機制和權重調整如何影響MLLMs的可解釋性。我們討論了旨在改善對齊、減少幻覺并促進核心知識和泛化能力獲取的技術。在推理階段,我們研究了如何在不需要重新訓練的情況下,緩解諸如幻覺等問題,包括過度信任懲罰機制和鏈式推理技術。 通過整合這些視角[3, 99, 100],我們的綜述提供了對MLLMs可解釋性和可解釋性挑戰與進展的全面理解。我們相信,這一全面分析將為致力于開發更透明、可靠和可信的多模態模型的研究人員和實踐者提供寶貴的資源。本研究的主要貢獻總結如下: * 我們首次提供了對現有多模態大規模語言模型(MLLMs)可解釋性和可解釋性的深入和全面回顧。 * 我們展示了當前多模態大規模語言模型可解釋性和可解釋性方法的結構化和比較分析,提出了一種新穎的分類方法,將這些方法組織為數據、模型、訓練與推理視角。 * 我們突出顯示了可能推動該領域發展的研究方向,為研究人員進一步發展MLLMs的可解釋性和可解釋性方法提供了有價值的指導。
II. 綜述框架
A. 綜述范圍 近年來,多模態模型和可解釋人工智能(XAI)取得了顯著進展,許多研究探索了使這些復雜模型更加透明和可解釋的方法[72, 73, 74]。為了將本綜述的范圍縮小到一個可管理的范圍,我們聚焦于多模態大規模語言模型(MLLMs)的可解釋性和可解釋性。MLLMs的可解釋性指的是那些本質上易于理解的內部結構,能夠為輸入如何被處理并轉化為輸出提供直觀的洞察[78, 79]。可解釋的MLLMs使研究人員和實踐者能夠深入理解這些跨模態的動態,澄清每個模態如何影響和塑造模型的決策過程[90]。可解釋性涉及使用外部技術來闡明模型決策背后的原因,這在MLLMs中對于理解多模態間復雜的交互作用至關重要[95]。這種重點不僅增強了我們對多模態集成的理解,也回應了對復雜AI系統透明度日益增長的需求[79]。 在本綜述中,我們集中探討MLLMs中四個主要維度的可解釋性和可解釋性: * 數據可解釋性 —— 探討來自不同模態的輸入數據如何預處理、對齊和表示,以支持跨模態的可解釋性,以及如何應用因果歸因方法來增強對模型決策的理解[72, 75]。 * 模型可解釋性 —— 闡明多模態模型本身的結構和功能,提供關于神經元、層次和架構如何貢獻于可解釋性的洞察[67, 78, 79, 80, 85, 86, 87, 90, 91, 95]。 * 訓練與推理可解釋性 —— 理解MLLMs的訓練和推理過程如何影響可解釋性,這對于在學習階段和實際應用中提升透明度至關重要。
為了保持焦點,我們將單一模態的可解釋性方法排除在本綜述的主要范圍之外,如變換器(Transformer)的可解釋性、卷積神經網絡(CNN)的可解釋性或LLMs的可解釋性,僅作為簡要的背景信息進行介紹。類似地,一些不涉及多模態交互獨特挑戰的通用可解釋性方法也不在本綜述的主要范圍之內。相反,我們將重點放在那些專門設計用于解釋和闡明多模態之間交互作用的方法和模型上。 B. 綜述方法論 為了提供對MLLMs可解釋性和可解釋性的全面概述,我們進行了廣泛的文獻回顧,涵蓋了機器學習、自然語言處理(NLP)、計算機視覺(CV)和多模態系統等領域的研究論文。我們重點審查了過去十年(2010–2024)間發表的論文,特別是研究這些領域中可解釋性和可解釋性的不斷增長的文獻。我們的研究方法包括幾個關鍵步驟。首先,我們使用“多模態大模型”、“可解釋性”和“可解釋性”等關鍵詞,在Google Scholar等數據庫中搜索相關論文,具體細節見表I。為了進一步確保綜述的完整性,我們還審查了關鍵論文的參考文獻,并包括了對該領域具有影響力的早期工作。 在收集候選論文后,我們進行了多步驟的篩選過程。首先通過標題篩選潛在相關的論文,然后進行摘要篩查以確認相關性。如果標題和摘要不足以做出決策,我們會進一步查閱完整的文本。如圖2所示,最終選擇的文獻涵蓋了應用于MLLMs的各種可解釋性和可解釋性技術,包括輸入輸出分析、模型組件和訓練動態等。
結論
本綜述系統地探討了多模態大規模語言模型(MLLMs)的可解釋性和可解釋性,強調了決策過程透明性的重要性。我們將可解釋性方法分為三個主要領域——數據、模型和訓練與推理——提供了一個結構化框架來組織研究并指導未來的研究工作。盡管已經取得了顯著進展,但在可解釋性方法和確保廣泛適用性方面仍然存在挑戰。未來的努力應著眼于填補這些空白,構建對MLLMs的統一理解,推動創新,使多模態系統變得更加可靠和可信。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構
深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。
為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。
在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。
在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸:
SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。
SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。
SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。
Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。
數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。
總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:
我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。
我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。
我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。
我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。
Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。
初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。
樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。
標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。
采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。
通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。
如圖2頂部所示,Mixup方法遵循以下步驟:
在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。