摘要—視頻場景解析(Video Scene Parsing, VSP)已成為計算機視覺領域的核心任務之一,它促進了在動態場景中對多種視覺實體的同時分割、識別與跟蹤。在本綜述中,我們全面回顧了VSP的最新研究進展,涵蓋了多個視覺任務,包括視頻語義分割(Video Semantic Segmentation, VSS)、視頻實例分割(Video Instance Segmentation, VIS)、視頻全景分割(Video Panoptic Segmentation, VPS)、視頻跟蹤與分割(Video Tracking & Segmentation, VTS)以及開放詞匯視頻分割(Open-Vocabulary Video Segmentation, OVVS)。我們系統分析了該領域從傳統手工特征到現代深度學習范式的發展過程——涵蓋了從全卷積網絡到最新的基于Transformer的架構,并評估了它們在建模局部與全局時序上下文方面的有效性。此外,我們還深入探討了該領域所面臨的技術挑戰,包括時序一致性的保持以及復雜場景動態的處理等,并對構建當前基準測試標準所依賴的數據集與評估指標進行了全面的對比分析。通過提煉當前先進方法的關鍵貢獻與不足,本綜述進一步指出了該領域的新興趨勢與潛在研究方向,有望在實際應用中進一步提升VSP方法的魯棒性與適應性。 關鍵詞—視頻場景解析,視頻分割,視頻跟蹤,開放詞匯,深度學習
視頻場景解析(Video Scene Parsing, VSP)是計算機視覺中的一個基礎性問題,旨在為視頻序列中的每一個像素分配語義標簽。它包含了一系列關鍵任務,如視頻語義分割(Video Semantic Segmentation, VSS)、視頻實例分割(Video Instance Segmentation, VIS)以及視頻全景分割(Video Panoptic Segmentation, VPS)。VSP架起了靜態圖像分析[^1]與動態場景理解[^2]之間的橋梁,在學術研究與工業應用中都發揮著至關重要的作用。 在學術層面,VSP帶來了諸多挑戰,例如跨幀保持時序一致性[^3]–[^5]、高效提取時空特征[^6], [^7],以及在復雜環境中準確跟蹤動態目標[^8]。解決這些挑戰不僅推動了計算機視覺理論基礎的發展,也促進了模式識別與機器學習等相關領域的技術創新。 在工業層面,VSP支撐著廣泛的重要應用,包括自動駕駛、智能監控、機器人系統以及視頻編輯等。理解與解析動態視覺場景的能力對于提升決策過程與實現真實世界中的穩健性能具有關鍵意義。 回顧歷史,VSP早期的研究主要依賴于手工設計的特征,例如顏色直方圖、紋理描述符與光流[^9]–[^11],以及傳統的機器學習模型,如聚類方法[^12]、圖模型方法[^13]、支持向量機(SVM)[^14]、隨機森林[^15],以及馬爾可夫隨機場與條件隨機場等概率圖模型[^16], [^17]。盡管這些基礎性技術為該領域奠定了重要基礎,但它們在處理復雜視頻數據時的可擴展性有限,且過于依賴領域知識的特征工程。 深度學習的興起,尤其是全卷積網絡(Fully Convolutional Networks, FCNs)[^1], [^18]–[^20],標志著VSP領域范式的重大轉變。FCNs 能夠學習層級化的特征表示,并進行像素級標簽預測,顯著提升了VSP任務的準確性與效率。在過去十年中,基于FCN的方法[^21]–[^25]已成為主流,建立了新的基準并展現出在各種VSP場景中的廣泛適應性。 在深度學習的基礎上,Transformer架構[^26]的興起進一步革新了計算機視覺的格局[^27]–[^35]。Transformer最初是為自然語言處理(NLP)設計的[^26],其引入的自注意力機制在捕捉長距離依賴關系與上下文建模方面表現出色。受其在NLP中的成功啟發,視覺Transformer(如ViT[^36]、DETR[^37])被引入視覺任務,重塑了圖像與視頻分割的技術前沿。這類基于Transformer的模型通過自注意力機制在空間與時間維度上建模全局交互,突破了傳統卷積神經網絡(CNN)在感受野方面的局限,為VSP帶來了新的發展機遇。 隨著這些技術的推進,VSP的研究范圍也不斷擴展,涵蓋了更為復雜的任務。例如,視頻跟蹤與分割(Video Tracking & Segmentation, VTS)作為關鍵的拓展方向,其目標不僅是對目標進行分割,還要在跨幀過程中保持目標身份的一致性[^38], [^39]。該任務對目標關聯策略的魯棒性提出了更高要求,同時還需應對遮擋、劇烈運動變化與復雜交互等問題,在擁擠場景下的多目標跟蹤與高級視頻編輯等應用中不可或缺。 另一個新興方向是開放詞匯視頻分割(Open-Vocabulary Video Segmentation, OVVS),其結合了CLIP模型[^40],突破了VSS中固定標簽集合的限制。通過多模態學習與自然語言引導,這類方法[^41]–[^45]能夠實現超越預定義類別的目標分割,從而適應真實視頻中豐富多樣的物體類別。這種范式的轉變對于動態環境中的泛化與零樣本識別尤為關鍵,尤其在面對新穎或稀有物體時,模型需具備更強的適應能力。 鑒于上述技術進展,本文對VSP的多方面發展進行了系統梳理。有別于現有綜述文獻僅聚焦某一子領域或特定方法,我們的工作在卷積方法與Transformer方法之間建立橋梁,采用統一視角全面覆蓋VSS、VIS、VPS、VTS與OVVS等任務。已有綜述如[^46]主要聚焦于視頻目標分割(Video Object Segmentation, VOS),在語義分割、實例分割與全景分割方面覆蓋有限,難以滿足對VSP的整體性理解;另一些工作如[^47]則側重于Transformer架構,常忽略卷積方法在本領域中的基礎地位。針對這些不足,我們在本綜述中不僅整合了VSP方法的全貌,也對卷積與Transformer技術的發展路徑進行了批判性分析。 通過同時關注如時序一致性與動態場景理解等長期挑戰,以及如跟蹤、分割與開放詞匯識別等新興需求,本綜述全面總結了當前VSP領域的研究現狀,并為未來研究方向奠定基礎。這些多任務的融合反映了VSP向更全面的動態環境理解自然演進的趨勢,最終推動關鍵應用場景中的創新發展。
摘要——水下目標跟蹤技術在海洋資源勘探、環境監測和國家安全等領域中發揮著關鍵作用。由于聲波在水域中具有良好的遠距離傳播能力,水聲目標跟蹤已成為水下通信與網絡研究中的重要方向。現有綜述文獻往往視角狹窄,或未能充分討論深度學習、強化學習等新興技術所帶來的范式變革。為填補這一空白,本文系統地回顧了該領域的發展,提出了一種基于目標尺度、傳感器感知模式和傳感器協同方式的多維度分類框架。在該框架下,我們系統梳理了2016年至2025年間的相關研究文獻(共180余篇),內容涵蓋水聲目標跟蹤的理論基礎與多種算法方法。特別地,本文強調了深度學習和強化學習等機器學習技術在提升水下跟蹤系統性能與適應性方面的變革潛力和最新進展。最后,本文總結了當前面臨的主要挑戰,并基于聯邦學習、區塊鏈、具身智能和大模型等新興技術,提出了未來研究的發展方向。 關鍵詞——水聲目標跟蹤,通信與網絡,狀態估計,深度學習,強化學習,數據融合。
一、引言
海洋蘊藏著豐富的資源與能源儲備,既是關鍵的資源寶庫,也是人類可持續發展的重要戰略空間,近年來受到了全球越來越多的關注。同時,海洋生態系統為人類提供了不可或缺的生態服務,如氣體調節、養分循環和廢棄物處理。此外,海洋控制權也是維護國家安全與主權的重要保障手段 [1]。因此,高效利用海洋資源、加強海洋生態保護、維護國家海洋權益,已成為國際社會的廣泛共識 [2]。 水下目標的精確有效跟蹤在海洋資源的勘探與保護以及海上安全的維護中均至關重要。作為海洋科技研究的核心方向之一,水下目標跟蹤技術受到了高度關注。近年來,傳感器性能的提升、多源信息融合技術的發展以及人工智能的快速進步,極大地推動了該技術的發展,使其在國防安全 [3]、環境監測 [4]、資源勘探 [5]等多個領域實現了廣泛應用。 然而,受海洋環境復雜性與目標多樣性的影響,水下目標跟蹤技術的發展仍面臨諸多挑戰 [6]。海洋環境會顯著影響信號傳播特性 [7],而水下目標往往具有高機動性和隱蔽性 [8]。常規的陸地跟蹤媒介,如電磁波和激光,在海水中存在嚴重的吸收與衰減,難以勝任水下應用 [9]。相比之下,聲波是唯一能夠實現遠距離水下傳播的介質,因此成為水下目標跟蹤的主要手段。 圖1展示了典型的水聲目標跟蹤場景,其中移動目標發出聲信號,通過水體介質傳播,被部署在特定海域的空間分布式傳感器陣列所接收。這些傳感器配備通信模塊,能夠周期性地采樣聲音信號,并共享測量數據與計算結果。該場景揭示了水聲目標跟蹤系統的三大核心組成部分:(1)兩個關鍵實體,即水聲目標與傳感器節點;(2)通過聲信號傳播與接收實現的目標-傳感器交互;(3)通過通信鏈路建立的傳感器間協同關系。
A. 建立多維分類框架的動機
水聲目標跟蹤在海洋探索中發揮著關鍵作用,因其在軍事與民用領域的廣泛應用,長期以來受到學術界的廣泛關注。已有的相關綜述對該技術進行了較為系統的總結 [10]–[14]。此外,人工智能、大數據分析與先進傳感技術的融合,為該領域帶來了前所未有的技術突破機遇,正成為推動未來海洋科技創新的重要驅動力。 然而,現有綜述文獻存在兩個顯著局限性 [15]: * 首先,盡管水聲目標跟蹤涉及多個研究維度,但現有綜述往往采用單一視角或狹隘場景框架,導致其難以適用于不同應用環境,也阻礙了讀者和研究者對問題場景的系統理解; * 其次,大多數綜述發表于深度學習等新興技術廣泛應用之前,未能涵蓋深度神經網絡在測量數據分析、深度強化學習在傳感器控制協調中的前沿成果。因此,它們未能反映正在發生的范式變革。
上述研究缺口表明,迫切需要一篇系統性綜述,能夠全面整合水聲目標跟蹤的基礎方法與最新進展。
B. 綜述范圍
如圖2所示,近年來水聲目標跟蹤技術的研究熱度持續上升,相關文獻數量迅速增長。本文系統分析水聲目標跟蹤的問題場景,梳理其關鍵組成要素,提出了一個三維分類框架,包括:(1)目標尺度,(2)傳感器感知方式,以及(3)傳感器協同模式。 此外,本文對深度學習、強化學習和數據處理技術與傳統跟蹤方法的融合進展進行了綜述,并在表1中對比了本綜述與已有相關綜述之間的差異。
C. 本文貢獻
據我們所知,本文是首個針對水聲目標跟蹤研究的系統性多維度綜述,全面總結了該領域的基礎方法與技術前沿成果,主要貢獻包括: * 提出全新的多維分類框架:與以往單一維度的分類方式不同,本文提出的框架結合了目標尺度、感知方式與協同模式三個關鍵維度,不僅揭示了水聲跟蹤系統的多樣性與復雜性,還建立了跨維度的映射機制,幫助研究者從多角度審視方法體系,克服傳統綜述的局限。 * 深入分析跟蹤算法中的新興技術:系統探討了深度學習與強化學習如何革新動態水下環境中的自適應算法設計,彌補了現有綜述對這些技術突破關注不足的問題,為研究者提供了先進方法的集成參考與未來研究的創新路線圖。 * 構建結構化的算法對比分析體系:通過詳實的對比表、技術路線圖與案例分析,提煉出各類跟蹤方法的基本原理、特色優勢與性能指標。這一結構化分析方法既有助于快速理解方法核心,又為實際應用中的技術選擇與優化提供了實用參考。 * 揭示關鍵挑戰并提出未來研究方向:通過系統評估,識別出海洋環境建模、低信噪比信號處理與數據共享等關鍵瓶頸。在此基礎上,提出涵蓋算法優化、技術融合、工程實施與數據協同的多維研究框架,為跨學科研究奠定理論基礎,也為后續工作提供了可操作的指導路徑。
本文結構安排如下:第二章介紹水聲目標跟蹤的基本理論;第三章從目標尺度、感知方式與協同模式三方面分類方法;第四章探討深度學習與強化學習在水聲目標跟蹤中的作用;第五章總結當前挑戰與未來發展方向;第六章為結論。圖3展示了本文如何基于上述分類與機器學習應用,系統整理2016至2025年間的180余篇文獻。
摘要——圖像匹配旨在建立雙視圖圖像之間的對應關系,以恢復三維結構和相機幾何,是計算機視覺領域的基石,支撐著諸如視覺定位、三維重建和同時定位與建圖(SLAM)等諸多應用。傳統圖像匹配流程由“特征檢測-描述子、特征匹配、離群點過濾與幾何估計器”組成,在復雜場景下往往表現不佳。近年來,深度學習的發展顯著提升了圖像匹配的魯棒性和準確性。本文從一個獨特視角出發,全面回顧了深度學習如何逐步革新經典圖像匹配流程。我們提出的分類方法在兩個關鍵方面與傳統流程高度契合: i)將傳統流程中的各個步驟替換為可學習的模塊,如可學習的特征檢測-描述子、離群點過濾器和幾何估計器; ii)將多個步驟整合為端到端可學習的模塊,如中層稀疏匹配器、端到端半稠密/稠密匹配器和位姿回歸器。 我們首先分析這兩種策略的設計原則、優勢與局限性,隨后在相對位姿恢復、單應性估計和視覺定位等任務上對典型方法進行基準評測。最后,本文討論了當前的開放性挑戰,并展望未來的研究方向。通過系統地分類與評估基于深度學習的圖像匹配策略,本文為不斷演進的圖像匹配研究提供了清晰的全景視圖,并指出了值得深入探索的關鍵路徑。 關鍵詞——三維視覺,圖像匹配,深度學習。
1 引言
計算機視覺通過處理、分析和解釋由相機等傳感器采集的圖像,已成為人工智能感知環境的主要手段之一。而圖像匹配技術通過建立二維圖像之間的三維關系,是計算機視覺眾多應用中的基礎構件,使機器人能夠全面感知世界。該核心技術旨在識別不同視角圖像對中的相同紋理或區域(通常以關鍵點形式表示),并建立圖像間的對應關系(匹配點),從而恢復三維結構并估計各視圖與物體之間的空間關系,支撐圖像檢索 [1]、視覺定位 [2]、三維重建 [3]、運動恢復結構(SfM)[4]、同時定位與建圖(SLAM)[5]、新視角合成 [6] 等廣泛應用。 圖像匹配的研究可追溯至早期的模式識別研究和人類視覺理論 [7],這些理論催生了模板匹配 [8] 和互相關 [9] 方法。隨后,“興趣點”概念被提出 [10],用于定義圖像中具有辨識度的特征點(關鍵點),由此形成了標準的基于特征的圖像匹配流程:包括特征檢測與描述、特征匹配、離群點剔除以及幾何模型估計,該流程如圖 1(II) 所示,并將在第 2 節中簡要回顧。盡管在理想條件下表現良好,但該流程在強光照變化、大視角變換、紋理稀疏、重復圖案或遮擋等極端情況下常常失效。 近年來,基于學習的方法被提出以提升這一基礎流程的魯棒性與準確性。一種直觀策略是將各模塊替換為可學習的組件,如圖 1(III) 所示。這包括:用于更優特征表達的可學習特征檢測-描述子、能在挑戰條件下實現可靠匹配的離群點過濾器、以及用于穩健位姿估計的幾何估計器——盡管仍依賴于特征相似性進行匹配。另一種策略則是將連續步驟整合為統一模塊,形成圖 1(IV) 中展示的三種典型范式: * 中層匹配器(Middle-end Matcher):結合特征匹配與離群點過濾器,在可學習特征空間中直接挖掘圖像間的對應關系; * 半稠密/稠密匹配器(Semi-dense/Dense Matcher):進一步將特征檢測-描述子也納入端到端框架,避免了傳統模塊間的不一致性與不適配問題; * 位姿回歸器(Pose Regressor):跳過顯式匹配,直接回歸兩視圖間的變換關系,無需迭代幾何模型擬合。
上述可學習方法將在第 3 和第 4 節中分別詳述。我們還通過圖 2 所示的時間軸,描繪了基于深度學習的圖像匹配方法的發展歷程。 本文旨在系統回顧機器學習和深度學習如何逐步替代經典圖像匹配流程中的各個組件,回顧各獨立模塊和融合框架的演進歷程,并通過多項任務的統一實驗比較不同方法的優劣。已有的相關綜述多集中于流程中的某一階段。例如,一些早期綜述僅聚焦于特征檢測與描述階段,涵蓋了人工設計方法 [11][12][13] 與可學習方法 [14][15];Zitova 等人 [16] 對整個流程進行了更廣泛的概覽,但該工作早于學習方法的興起;Ma 等人 [17] 首次覆蓋了全流程的手工與可學習方法,但未涉及近期發展的融合模塊。較新的綜述 [18][19] 提出了“基于檢測器的方法”與“去檢測器的方法”等新術語,但未明確將這些方法與傳統流程對應,也未全面涵蓋可學習的幾何估計器、位姿回歸器、多個離群點過濾器及新近圖像匹配方法。 相比之下,本文專注于基于學習的方法,具體貢獻如下: * 提出一種與經典流程對齊的分類方法,全面覆蓋了可替代的可學習模塊與融合式可學習模塊,見圖 1; * 補充了此前綜述中遺漏的相關方法,提供最新全面的圖像匹配研究全貌; * 在相對位姿估計 [20]、單應性估計 [21]、匹配準確率評估 [22] 與視覺定位 [23] 等任務上開展統一實驗,實現公平一致的跨類別比較。
我們的貢獻總結如下:
全面綜述圖像匹配領域中基于學習的方法,提出與傳統流程對齊的分類體系,揭示各模塊如何逐步被可學習方法取代,及多個階段如何融合為統一模塊; * 深入分析可學習替代模塊與融合模塊所面臨的關鍵挑戰,梳理各類代表性解決方案,追蹤各類別內部的方法演進; * 系統評估多個任務中的代表方法,揭示當前學習方法仍未解決的問題,并指出值得探索的未來研究方向。
摘要——視覺語言建模(Vision-Language Modeling, VLM)旨在彌合圖像與自然語言之間的信息鴻溝。在先進行大規模圖文對預訓練、再在任務數據上進行微調的全新范式下,遙感領域中的VLM取得了顯著進展。所產生的模型得益于廣泛通用知識的融入,在多種遙感數據分析任務中展現出強大的性能。此外,這些模型還具備與用戶進行對話式交互的能力。
本文旨在為遙感領域的研究者提供一份及時且全面的綜述,系統回顧基于該兩階段范式的VLM研究進展。具體而言,我們首先對遙感中的VLM進行分類梳理,包括對比學習、視覺指令微調以及文本條件圖像生成。針對每一類方法,我們詳細介紹了常用的網絡結構與預訓練目標。 其次,我們對現有研究進行深入評述,涵蓋對比學習類VLM中的基礎模型與任務適配方法,指令微調類VLM中的架構改進、訓練策略與模型能力,以及生成式基礎模型及其代表性的下游應用。 第三,我們總結了用于VLM預訓練、微調與評估的數據集,分析其構建方法(包括圖像來源與描述生成方式)與關鍵屬性,如數據規模與任務適應性。 最后,本文對未來研究方向提出若干思考與展望,包括跨模態表示對齊、模糊需求理解、基于解釋的模型可靠性、持續擴展的模型能力,以及具備更豐富模態與更大挑戰的大規模數據集。 關鍵詞——遙感,視覺語言建模,對比學習,視覺指令微調,擴散模型
遙感中的視覺語言建模(Vision-Language Modeling, VLM)旨在彌合遙感圖像與自然語言之間的信息鴻溝,促進對遙感場景語義(如地物屬性及其關系)的深入理解,并實現與智能遙感數據分析模型或方法的更自然交互方式 [17],[164]。自從遙感領域引入圖像描述 [62]、視覺問答 [54]、文本-圖像(或圖像-文本)檢索 [166] 以及基于文本的圖像生成 [165] 等任務以來,受益于深度學習的發展,VLM在遙感領域取得了顯著成果。 早期的VLM研究主要強調模型結構的精心設計,并通過從零開始在小規模數據集上進行監督訓練。例如,在圖像描述任務中,許多研究 [167]–[170] 試圖將卷積神經網絡(如VGG [171]和ResNet [172])與序列模型(如LSTM [173]和Transformer [174])有效結合,并在UCM-captions [62]與Sydney-captions [62]等數據集上進行訓練。在這一經典的構建范式下,深度模型通常在測試集上表現良好,但在大規模部署中效果欠佳。此外,盡管這些模型能夠描述圖像內容,但在處理圖像相關問答等任務時能力不足,限制了其在多樣化場景中的應用。 近年來,預訓練-微調的新范式為上述挑戰提供了有前景的解決方案。其核心思想是,首先在大規模圖文數據上進行預訓練,使模型能夠學習涵蓋廣泛視覺與文本概念及其對應關系的通用知識,然后在特定任務數據上進行微調。已有研究表明,通用知識的融入不僅提升了模型在單一任務中的泛化能力 [7],[8],還增強了模型在多種下游任務中的適應性與多樣性 [1],[3]。因此,該新范式下的視覺語言建模已成為遙感領域的研究熱點。迄今為止,相關研究取得了顯著進展,如圖1所示,主要體現在以下幾個方面:
基于對比學習的方法(如GeoRSCLIP [7]、SkyCLIP [8]和RemoteCLIP [2]),在跨模態任務與零樣本圖像理解任務中取得了重要突破;
學習圖文間隱式聯合分布的方法(如RS-SD [7]、DiffusionSat [38]和CRSDiff [39]),支持通過文本提示生成圖像;
視覺指令微調方法(如GeoChat [3]、LHRSBot [9]和SkySenseGPT [11]),在遙感數據分析中表現出更強的性能、多樣化的能力與對話交互能力。
盡管已有諸多成果,但VLM仍被公認為一個尚未完全解決的研究難題。目前的模型仍無法達到遙感專家在遙感數據處理方面的水平。為推動該領域進一步發展,已有若干綜述論文試圖系統梳理遙感中的視覺語言建模。例如,Li等人 [17] 從應用視角出發總結了相關模型,并提出潛在研究方向,但其主要聚焦于視覺基礎模型和早期工作;Zhou等人 [16] 則回顧了近期研究進展,但缺乏對關鍵設計的深入剖析,而這些設計對于未來研究的啟發具有重要意義。此外,作為VLM研究的前提條件,相關數據集在現有綜述中也未受到充分關注。 因此,本文旨在針對遙感領域中的預訓練-微調范式,提供一份及時且全面的文獻綜述,重點包括:
對遙感VLM方法的分類,詳細介紹各類方法中常用的網絡結構與預訓練目標;
對基于對比、指令與生成三類VLM方法的最新進展進行總結,重點分析其關鍵設計與下游應用;
對用于預訓練、微調與評估的數據集進行梳理,分析其構建方法與關鍵特性;
討論當前挑戰與未來可能的研究方向。
圖2展示了本文的整體框架。
摘要—交互式生成視頻(Interactive Generative Video, IGV)作為一項關鍵技術,正在應對各領域對高質量、交互性視頻內容日益增長的需求。本文將 IGV 定義為一種結合了生成能力與交互功能的技術,既能夠生成多樣化、高質量的視頻內容,又能夠通過控制信號和響應反饋實現用戶參與。我們綜述了 IGV 當前的應用格局,聚焦于三個主要領域:(1)游戲,IGV 實現了虛擬世界中的無限探索;(2)具身人工智能(Embodied AI),IGV 作為具備物理感知能力的環境生成器,用于訓練代理體在動態演化場景中的多模態交互;(3)自動駕駛,IGV 提供閉環仿真能力,用于安全關鍵的測試與驗證。為引導未來的發展,我們提出了一個全面的框架,將理想的 IGV 系統分解為五個核心模塊:生成、控制、記憶、動態建模與智能。進一步地,我們系統分析了實現每個模塊所面臨的技術挑戰與未來方向,例如實現實時生成、支持開放域控制、保持長期一致性、準確模擬物理規律以及融合因果推理。我們相信,這一系統性分析將促進 IGV 領域的研究與技術發展,推動該技術邁向更復雜、更具實用性的應用。
關鍵詞—交互式生成視頻;視頻生成;視頻擴散模型;電子游戲;具身人工智能;自動駕駛。
近年來,從數字娛樂到工業應用,各領域對高質量交互式視頻的需求顯著增長。這一趨勢反映了視頻技術在仿真、決策支持和內容創作等應用中的日益重要作用。與此同時,受益于生成建模范式的飛速發展,尤其是擴散模型(Diffusion Models)[12–15] 和下一幀預測方法(Next-Token Prediction Approaches)[16–18] 的推動,視頻生成技術也取得了顯著進展 [1–11]。現代視頻生成系統不僅能生成高度逼真的輸出,還能對生成內容進行精確控制,為多個領域帶來了前所未有的應用機會。 基于這些新興需求與技術進展,本文對交互式生成視頻(Interactive Generative Video, IGV)技術進行了全面綜述。為建立討論基礎,我們首先引入 IGV 的概念,該技術具備兩個關鍵特征。其一,IGV 是一種生成式系統,利用在大規模視頻數據集上訓練的生成模型,生成多樣化、高質量的開放域視頻內容;其二,IGV 具有交互性,能夠通過控制信號和響應反饋實現用戶在線參與,使用戶能夠通過交互完成特定任務或體驗。 根據我們的 IGV 定義,圖1 展示了三個主要 IGV 應用方向的發展軌跡:游戲、具身人工智能和自動駕駛。在游戲領域 [19–35],電子游戲本質上結合了視覺輸出與玩家交互,完美契合 IGV 的核心特性。IGV 能夠創建可無限探索的交互式虛擬世界,根據玩家的偏好與技能動態生成并個性化游戲內容。此外,IGV 的生成能力顯著簡化了游戲開發流程,減少了對人工素材制作的依賴,降低了開發成本并提高了效率。代表性實例包括 Oasis [22] 和 WHAM [26],它們已發布可供公眾試玩的版本,雖仍處于早期階段,但初步展示了 IGV 在游戲中的潛力。 在具身人工智能(Embodied AI)領域 [36–48],IGV 是構建真實且具交互性的機器人仿真環境的關鍵。它可生成高保真視頻序列,用于任務規劃與可視化,幫助機器人更好地理解并與環境交互。同時,IGV 提供多樣化的合成場景,有效緩解訓練數據不足的問題,從而提升策略學習能力,使機器人能在不同任務和環境中實現泛化。 在自動駕駛領域 [49–64],IGV 提供了超越傳統基于物理模擬器的高級仿真能力。它能基于不同控制輸入生成高保真的視頻仿真,支持在多樣化駕駛場景中的全面訓練。此外,IGV 能夠預測環境變化與潛在風險,提升實時決策能力,并提供安全平臺,用于測試自動駕駛系統在罕見或高危場景下的性能。 盡管 IGV 在游戲、具身人工智能和自動駕駛等領域展現出廣闊的應用前景,為更好地推動其發展,我們提出了一個全面的系統框架(見圖3),用于描述理想 IGV 系統的基本組成部分。該框架通過五個關鍵模塊識別核心挑戰與發展方向:生成模塊聚焦于基本的視頻生成能力,盡管生成質量已大幅提升,但在實現實時性能和逐幀自回歸生成方面仍面臨挑戰;控制模塊處理用戶與虛擬世界的交互,其核心難點在于實現精確控制的同時能泛化至開放域場景;記憶模塊保證靜態與動態內容的一致性,但長期連貫性仍是難題;動態模塊模擬虛擬世界中的物理規律,難點在于精確還原各類物理現象并實現對物理參數的精細調控;智能模塊融合因果推理能力,代表了更高級別的智能,有望推動 IGV 演化為具備自我進化能力的元宇宙。 本文的主要貢獻如下:首先,我們全面綜述了 IGV 技術在多個領域(包括游戲、具身人工智能與自動駕駛)中的應用現狀;其次,提出一個系統化框架,將理想 IGV 系統劃分為五個基本組成模塊,為該技術的發展提供結構化的理解路徑;最后,基于該框架,我們系統分析了實現每個模塊所面臨的技術挑戰,為該領域的未來研究提供了明確方向。 本文結構安排如下:第2節介紹視頻生成的基礎技術,涵蓋 VAE、GAN、擴散模型、自回歸模型及其混合形式;第3節描述 IGV 系統框架,包括生成、控制、記憶、動態與智能等模塊,并分析相關挑戰與研究方向;第4至第6節分別探討 IGV 在游戲、具身人工智能與自動駕駛領域中的應用現狀、技術方法、面臨挑戰與發展趨勢。 本研究為我們此前工作的擴展版本 [65],具有以下拓展內容:我們所提出的游戲引擎框架不僅適用于游戲技術,也代表了視頻生成模型向更高智能演進的路徑,能夠指導多領域的技術發展。具體而言,我們補充分析了 IGV 在自動駕駛和具身人工智能等更廣泛領域的應用,并識別出相應挑戰與未來研究方向。 在圖3中,我們構建了交互式生成視頻(Interactive Generative Video, IGV)系統的整體框架。IGV 系統構成了一個虛擬世界,并與來自現實世界的多種角色進行交互。這些現實世界中的角色包括人類參與者,如玩家、設計師和藝術家,他們可以與 IGV 系統交互,從而體驗其虛擬世界,或利用其高效地進行內容創作。同時,這些角色還包括各種智能體及其配備的傳感器,例如機器人、機械臂、車輛及其搭載的攝像頭,代表了 IGV 在自動駕駛和具身智能等領域的應用潛力。
摘要—盡管視覺基礎模型(VFMs)的最新進展在2D視覺感知領域取得了革命性突破,但其在3D場景理解(尤其是自動駕駛應用)中的潛力仍未得到充分探索。本文提出了 LargeAD,這是一個多功能且可擴展的框架,專為跨多種真實世界駕駛數據集的大規模3D預訓練而設計。我們的框架利用VFMs從2D圖像中提取語義豐富的超像素,并將其與LiDAR點云對齊以生成高質量的對比樣本。這種對齊促進了跨模態表示學習,增強了2D與3D數據之間的語義一致性。我們提出了幾項關鍵創新:i) 基于VFM的超像素生成,用于詳細的語義表示;ii) 一種VFM輔助的對比學習策略,用于對齊多模態特征;iii) 超點時間一致性,以保持跨時間的穩定表示;iv) 多源數據預訓練,以泛化到不同的LiDAR配置。我們的方法在LiDAR分割和目標檢測的線性探測和微調任務中,均顯著優于現有最先進方法。在十一個大規模多模態數據集上的廣泛實驗證明了我們方法的優越性能,展示了其在真實世界自動駕駛場景中的適應性、高效性和魯棒性。項目頁面可訪問://ldkong.com/LargeAD。關鍵詞—自動駕駛;3D場景理解;LiDAR分割;表示學習;數據預訓練
大型語言模型(LLMs)[1]–[5] 的出現徹底改變了自然語言處理領域,同時也為計算機視覺領域的類似突破鋪平了道路,例如視覺基礎模型(VFMs)中的 SAM [6]、X-Decoder [7] 和 SEEM [8]。這些模型在從2D圖像中提取豐富的像素級語義方面展現了卓越的能力。然而,將這些進展擴展到3D領域仍是一個未被充分探索的前沿。隨著自動駕駛應用越來越依賴來自LiDAR傳感器的3D數據,將VFMs在2D視覺中的成功遷移到3D場景理解中變得愈發重要 [9], [10]。LiDAR點云的精確分割和檢測對于安全的自動駕駛和高級駕駛輔助系統至關重要 [11]–[15]。傳統的LiDAR點云模型通常依賴于大規模標注數據集,而這些數據集的創建成本高昂且耗時 [16], [17]。為了緩解這一挑戰,研究探索了半監督 [18], [19] 和弱監督 [17], [20] 方法。然而,這些方法的泛化能力有限,尤其是在面對多樣化的傳感器配置時,例如不同的LiDAR光束數量、攝像頭位置、采樣率以及潛在的傳感器損壞 [11], [21]–[25]。這一限制對現實世界的可擴展性提出了重大挑戰。為此,我們提出了 LargeAD,這是一個新穎且可擴展的3D場景理解框架,利用跨多種傳感器的大規模數據預訓練。我們的方法基于跨模態表示學習的最新進展 [6], [7], [26],將VFMs引入3D領域以解決幾個關鍵目標:i) 利用原始點云作為輸入,避免對昂貴標簽的依賴;ii) 從駕駛場景中提取空間和時間線索以進行魯棒的表示學習;iii) 確保對預訓練數據之外的下游數據集的泛化能力。通過提取VFMs中編碼的語義知識,我們的方法促進了復雜3D點云的自監督學習,特別是在自動駕駛領域。我們框架的一個核心創新是利用VFMs從攝像頭圖像中生成語義豐富的超像素,然后將其與LiDAR數據對齊以構建高質量的對比樣本(見圖1)。這些語義超像素提供了增強的2D-3D對應關系,捕捉了對象級的一致性,減少了對比學習中常見的過分割和“自沖突”錯誤 [9]。這種對齊顯著提升了下游任務的性能,包括3D目標檢測和分割。此外,所提出的框架還引入了多項創新。首先,一種VFM輔助的對比學習策略將超像素和超點對齊到統一的嵌入空間中,解決了圖像和LiDAR特征之間的跨模態差異。其次,超點時間一致性機制增強了點云表示在時間上的魯棒性,緩解了LiDAR和攝像頭傳感器之間不完全同步帶來的誤差。最后,我們的多源數據預訓練策略利用多樣化的LiDAR數據集構建了一個能夠適應不同傳感器配置的通用模型,進一步提升了可擴展性。如圖2所示,與最先進的方法(如 SLidR [27] 和 ST-SLidR [28])相比,我們的框架引入了顯著改進:i) 使用語義豐富的超像素解決對比學習中的“自沖突”問題;ii) 創建高質量的對比樣本,從而實現了更快且更穩定的收斂;iii) 由于更高效的超像素生成過程,減少了計算開銷。總之,本文的主要貢獻如下: * 我們提出了 LargeAD,這是一個可擴展、一致且通用的框架,專為車載傳感器捕獲的大規模數據預訓練而設計,解決了多樣化LiDAR配置的挑戰并提升了表示學習能力。 * 據我們所知,這是首次全面探索跨多個大規模駕駛數據集的預訓練研究,利用跨數據集知識增強模型對不同傳感器設置和駕駛環境的泛化能力。 * 我們的框架包含多項關鍵創新:i) 基于VFM的超像素生成以豐富語義表示;ii) VFM輔助的對比學習以對齊2D-3D特征;iii) 超點時間一致性以穩定點云表示在時間上的表現;iv) 多源數據預訓練以確保跨領域的魯棒性。 * 我們的方法在11個多樣化點云數據集上的線性探測和微調任務中均展現了顯著的性能優勢,優于現有最先進方法,展示了其在現實應用中的適應性和高效性。
本文的其余部分組織如下。第2節回顧了自動駕駛數據感知與預訓練以及多數據集利用的相關文獻。第3節詳細介紹了圖像到LiDAR對比學習的基礎知識。第4節闡述了所提出的大規模跨傳感器預訓練框架的技術方法。第5節展示了我們方法的實驗驗證結果。最后,第6節總結了本文并討論了未來的研究方向。
視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。
//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8
計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。
盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。
根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。
即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。
我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式
在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。
結論與未來方向
本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。
【導讀】深度學習與計算系統結合是現在業界發展的趨勢。Logical Clocks的CEO Jim Dowling講述了分布式深度學習最新技術發展,以及其Hosworks開源平臺。
人工智能的需求在過去十年中顯著增長,很大程度是深度學習的進步。這種增長是由深度(機器)學習技術的進步和利用硬件加速的能力推動的。然而,為了提高預測的質量和使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。盡管小型機器學習模型可以用適量的數據進行訓練,但用于訓練較大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于對處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習工作量分散到多臺機器上,并將集中式系統轉變為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。
分布式深度學習有很多好處——使用更多的GPU更快地訓練模型,在許多GPU上并行超參數調優,并行消融研究以幫助理解深度神經網絡的行為和性能。隨著Spark 3.0的出現,GPU開始轉向執行器,使用PySpark的分布式深度學習現在成為可能。然而,PySpark給迭代模型開發帶來了挑戰——從開發機器(筆記本電腦)開始,然后重新編寫它們以運行在基于集群的環境中。
本講座概述了分布式深度學習的技術,并提供了可用系統的概述,從而對該領域當前的最新技術進行了廣泛的概述。
Jim Dowling是 Logical Clocks公司的首席執行官,也是KTH皇家理工學院的副教授。他是開源的Hopsworks平臺的首席架構師,這是一個橫向可擴展的機器學習數據平臺。
【導讀】場景優化理論(Scenario Optimization Approach)是一種基于約束樣本解決魯棒優化和機會約束優化問題的啟發式解決方案。該理論經過多年的發展,已經形成了較為系統的理論基礎。
介紹
本文從風險與復雜度(Risk and Complexity)的新角度,介紹了場景優化理論ScenarioOptimization Theory的最新進展。場景(scenario)是指源于環境的觀測樣本,場景優化(scenario approach)指使用一組可用的觀測樣本進行優化的理論,通過數據驅動優化(data-driven optimization)的思路,解決含不確定性的隨機優化和隨機決策問題。場景優化理論具有堅實的數學基礎,嘗試回答了一些基本問題,例如,如何將經驗納入決策過程,以取得優化的結果?若遇到訓練樣本中從未見過的新樣本,決策的執行效果如何?使用該理論和方法時,優化結果的魯棒性如何?該理論自2005年由M.C. Campi教授(IEEEFellow, 因該貢獻獲得2008年IEEE CSSGeorge S. Axelby outstanding paper award)等人提出以來,不斷取得新進展,已經廣泛應用于機器學習、控制系統設計、系統識別等問題,以及醫學分類、量化金融、航空運輸系統、能源系統等應用領域。本講座是M.C. Campi教授關于場景優化理論最新進展的介紹,更多相關研究可以訪問//marco-campi.unibs.it/?origin=publication_detail。
參考地址: