摘要—交互式生成視頻(Interactive Generative Video, IGV)作為一項關鍵技術,正在應對各領域對高質量、交互性視頻內容日益增長的需求。本文將 IGV 定義為一種結合了生成能力與交互功能的技術,既能夠生成多樣化、高質量的視頻內容,又能夠通過控制信號和響應反饋實現用戶參與。我們綜述了 IGV 當前的應用格局,聚焦于三個主要領域:(1)游戲,IGV 實現了虛擬世界中的無限探索;(2)具身人工智能(Embodied AI),IGV 作為具備物理感知能力的環境生成器,用于訓練代理體在動態演化場景中的多模態交互;(3)自動駕駛,IGV 提供閉環仿真能力,用于安全關鍵的測試與驗證。為引導未來的發展,我們提出了一個全面的框架,將理想的 IGV 系統分解為五個核心模塊:生成、控制、記憶、動態建模與智能。進一步地,我們系統分析了實現每個模塊所面臨的技術挑戰與未來方向,例如實現實時生成、支持開放域控制、保持長期一致性、準確模擬物理規律以及融合因果推理。我們相信,這一系統性分析將促進 IGV 領域的研究與技術發展,推動該技術邁向更復雜、更具實用性的應用。
關鍵詞—交互式生成視頻;視頻生成;視頻擴散模型;電子游戲;具身人工智能;自動駕駛。
近年來,從數字娛樂到工業應用,各領域對高質量交互式視頻的需求顯著增長。這一趨勢反映了視頻技術在仿真、決策支持和內容創作等應用中的日益重要作用。與此同時,受益于生成建模范式的飛速發展,尤其是擴散模型(Diffusion Models)[12–15] 和下一幀預測方法(Next-Token Prediction Approaches)[16–18] 的推動,視頻生成技術也取得了顯著進展 [1–11]。現代視頻生成系統不僅能生成高度逼真的輸出,還能對生成內容進行精確控制,為多個領域帶來了前所未有的應用機會。 基于這些新興需求與技術進展,本文對交互式生成視頻(Interactive Generative Video, IGV)技術進行了全面綜述。為建立討論基礎,我們首先引入 IGV 的概念,該技術具備兩個關鍵特征。其一,IGV 是一種生成式系統,利用在大規模視頻數據集上訓練的生成模型,生成多樣化、高質量的開放域視頻內容;其二,IGV 具有交互性,能夠通過控制信號和響應反饋實現用戶在線參與,使用戶能夠通過交互完成特定任務或體驗。 根據我們的 IGV 定義,圖1 展示了三個主要 IGV 應用方向的發展軌跡:游戲、具身人工智能和自動駕駛。在游戲領域 [19–35],電子游戲本質上結合了視覺輸出與玩家交互,完美契合 IGV 的核心特性。IGV 能夠創建可無限探索的交互式虛擬世界,根據玩家的偏好與技能動態生成并個性化游戲內容。此外,IGV 的生成能力顯著簡化了游戲開發流程,減少了對人工素材制作的依賴,降低了開發成本并提高了效率。代表性實例包括 Oasis [22] 和 WHAM [26],它們已發布可供公眾試玩的版本,雖仍處于早期階段,但初步展示了 IGV 在游戲中的潛力。 在具身人工智能(Embodied AI)領域 [36–48],IGV 是構建真實且具交互性的機器人仿真環境的關鍵。它可生成高保真視頻序列,用于任務規劃與可視化,幫助機器人更好地理解并與環境交互。同時,IGV 提供多樣化的合成場景,有效緩解訓練數據不足的問題,從而提升策略學習能力,使機器人能在不同任務和環境中實現泛化。 在自動駕駛領域 [49–64],IGV 提供了超越傳統基于物理模擬器的高級仿真能力。它能基于不同控制輸入生成高保真的視頻仿真,支持在多樣化駕駛場景中的全面訓練。此外,IGV 能夠預測環境變化與潛在風險,提升實時決策能力,并提供安全平臺,用于測試自動駕駛系統在罕見或高危場景下的性能。 盡管 IGV 在游戲、具身人工智能和自動駕駛等領域展現出廣闊的應用前景,為更好地推動其發展,我們提出了一個全面的系統框架(見圖3),用于描述理想 IGV 系統的基本組成部分。該框架通過五個關鍵模塊識別核心挑戰與發展方向:生成模塊聚焦于基本的視頻生成能力,盡管生成質量已大幅提升,但在實現實時性能和逐幀自回歸生成方面仍面臨挑戰;控制模塊處理用戶與虛擬世界的交互,其核心難點在于實現精確控制的同時能泛化至開放域場景;記憶模塊保證靜態與動態內容的一致性,但長期連貫性仍是難題;動態模塊模擬虛擬世界中的物理規律,難點在于精確還原各類物理現象并實現對物理參數的精細調控;智能模塊融合因果推理能力,代表了更高級別的智能,有望推動 IGV 演化為具備自我進化能力的元宇宙。 本文的主要貢獻如下:首先,我們全面綜述了 IGV 技術在多個領域(包括游戲、具身人工智能與自動駕駛)中的應用現狀;其次,提出一個系統化框架,將理想 IGV 系統劃分為五個基本組成模塊,為該技術的發展提供結構化的理解路徑;最后,基于該框架,我們系統分析了實現每個模塊所面臨的技術挑戰,為該領域的未來研究提供了明確方向。 本文結構安排如下:第2節介紹視頻生成的基礎技術,涵蓋 VAE、GAN、擴散模型、自回歸模型及其混合形式;第3節描述 IGV 系統框架,包括生成、控制、記憶、動態與智能等模塊,并分析相關挑戰與研究方向;第4至第6節分別探討 IGV 在游戲、具身人工智能與自動駕駛領域中的應用現狀、技術方法、面臨挑戰與發展趨勢。 本研究為我們此前工作的擴展版本 [65],具有以下拓展內容:我們所提出的游戲引擎框架不僅適用于游戲技術,也代表了視頻生成模型向更高智能演進的路徑,能夠指導多領域的技術發展。具體而言,我們補充分析了 IGV 在自動駕駛和具身人工智能等更廣泛領域的應用,并識別出相應挑戰與未來研究方向。 在圖3中,我們構建了交互式生成視頻(Interactive Generative Video, IGV)系統的整體框架。IGV 系統構成了一個虛擬世界,并與來自現實世界的多種角色進行交互。這些現實世界中的角色包括人類參與者,如玩家、設計師和藝術家,他們可以與 IGV 系統交互,從而體驗其虛擬世界,或利用其高效地進行內容創作。同時,這些角色還包括各種智能體及其配備的傳感器,例如機器人、機械臂、車輛及其搭載的攝像頭,代表了 IGV 在自動駕駛和具身智能等領域的應用潛力。
摘要——從視覺觀測中重建四維空間智能長期以來一直是計算機視覺領域中的核心難題之一,并具有廣泛的現實應用場景。這些應用涵蓋從電影等娛樂領域(側重于基礎視覺要素的重建)到具身智能(強調交互建模與物理現實性)。得益于三維表示和深度學習架構的迅猛發展,該研究方向迅速演進,已遠超以往綜述的覆蓋范圍。此外,現有綜述往往缺乏對四維場景重建中層次結構的系統分析。為填補這一空白,本文提出一種新的視角,將現有方法按照五個逐級遞進的四維空間智能層級進行組織: (1) 第一層級:低層三維屬性的重建(如深度、姿態和點云圖); (2) 第二層級:三維場景組成要素的重建(如物體、人類、結構體); (3) 第三層級:四維動態場景的重建; (4) 第四層級:場景組件之間交互的建模; (5) 第五層級:物理規律與約束的融合建模。 本文最后討論了各層級所面臨的關鍵挑戰,并指出了邁向更高層次四維空間智能的潛在研究方向。為了追蹤該領域的最新進展,我們維護了一個實時更新的項目頁面: //github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 關鍵詞——四維空間智能、低層線索、場景重建、動態建模、交互建模、物理建模、視頻
利用機器學習或深度學習技術自動重建四維空間智能,長期以來一直是計算機視覺領域中的關鍵難題。通過同時捕捉靜態構型與隨時間變化的動態過程,四維空間智能能夠提供對空間環境的全面表示與理解,將三維幾何結構與其時間演化整合在一起。該研究方向因其廣泛的應用場景而受到高度關注,包括視頻游戲 [1]、電影 [2] 和沉浸式體驗(如 AR/VR)[3], [4],其中高保真度的四維場景是實現真實用戶體驗的基礎。 除了這些側重于四維空間智能基本組成部分的應用場景——如深度、相機姿態、點云圖、三維跟蹤等低層線索,以及場景組成要素和動態之外,空間智能還在推動具身智能(Embodied AI)[5], [6], [7] 和世界模型(World Models)[8] 的發展中發揮著核心作用。這些后者的任務更加注重場景中各組成部分之間的交互以及重建環境的物理合理性。 近年來,四維空間智能的重建技術取得了飛速進展。已有若干綜述工作 [9], [10] 從不同角度提供了有價值的視角,并總結了該領域中持續存在的挑戰。例如,[11]–[13] 綜述了通過深度立體匹配獲取低層場景信息的最新進展;[14]–[16] 系統梳理了三維場景重建方面的研究,涵蓋多種輸入模態和多樣的三維表示方式;[9], [10] 則從核心架構出發對動態四維場景重建方法進行了分類。 然而,隨著新型三維表示方法的提出 [17]–[19]、高質量視頻生成技術的發展 [20]–[22]、以及更高效重建模型的出現,該領域已取得顯著進展。盡管如此,現有綜述尚未系統分析動態四維場景的不同組成層級,也未深入探討各層級的發展現狀與關鍵挑戰,導致人們對四維空間智能的理解仍存在碎片化傾向,容易忽略其中的關鍵組成部分。因此,亟需一份全面、系統、與時俱進的綜述來將四維空間智能劃分為不同層級,梳理最新進展,并描繪該研究領域不斷演化的全貌。 基于這一緊迫需求,本文將現有的四維空間智能重建方法劃分為以下五個層級,并分別對其最新進展進行系統梳理: * 第一層級:低層三維線索的重建。
該層級聚焦于深度、相機姿態、點云圖和三維跟蹤等基礎三維線索的重建,這些要素構成了三維場景的基本結構。傳統上,這一任務常被劃分為多個子領域,如關鍵點檢測 [23]–[25] 與匹配 [26]–[29]、魯棒估計 [28], [30]、SfM(結構自運動)[31]–[34]、BA(Bundle Adjustment)[35]–[38]、以及稠密多視圖立體重建(MVS)[39]–[43]。近期方法如 DUSt3R [44] 及其系列擴展 [45]–[48] 致力于聯合求解上述子任務,實現更協同的一體化推理。而 VGGT [54] 則在 Transformer 架構 [49]–[53] 的基礎上,提出了一個端到端系統,能在數秒內高效估計這些低層三維線索。 * 第二層級:三維場景組成要素的重建。
在第一層級的基礎上,第二層級進一步重建場景中的獨立要素,如人類、物體和建筑等。雖然某些方法涉及要素間的組合與空間布局,但通常不對它們之間的交互進行建模或約束。近期方法結合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示(如 DMTET [18] 和 FlexiCube [57])等創新型三維表示方式,提升了重建細節的真實性、渲染效率以及整體結構一致性,為照片級真實感場景重建和沉浸式虛擬體驗奠定基礎。 * 第三層級:四維動態場景的重建。
本層級引入場景動態,是實現“子彈時間”式四維空間體驗和沉浸式視覺內容的關鍵步驟。現有方法主要分為兩類:一類方法 [58]–[62] 先重建一個靜態的標準輻射場,再通過學習得到的時序變形建模動態過程;另一類方法 [63]–[69] 則將時間作為額外參數直接編碼進三維表示,實現連續動態建模。 * 第四層級:場景組件之間交互的建模。
該層級標志著空間智能研究進入更成熟階段,著眼于不同場景組成部分之間的交互建模。考慮到人類通常是交互的核心主體,早期工作 [70]–[74] 主要聚焦于捕捉人類與可操控物體的動作。隨著三維表示的進步,近期方法 [75]–[80] 可更精確地重建人類與物體外觀,而人-場景交互建模 [81]–[85] 也逐漸成為研究熱點,為構建完整世界模型提供基礎支撐。 * 第五層級:物理規律與約束的融合建模。
盡管第四層級能夠建模場景組件之間的交互,但通常忽略了如重力、摩擦力、壓力等底層物理規律。因此,在如具身智能 [5]–[7] 等任務中,這類方法常難以支持機器人在現實世界中模仿視頻中的動作與交互。第五層級的系統旨在通過引入物理可行性約束來彌補上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平臺及強化學習方法 [90]–[92],展示了從視頻中直接學習并復現類人技能的能力,標志著向物理一致性空間智能邁出重要一步。此外,對一般三維物體(如變形、碰撞與動力學)和物理場景的建模 [93]–[95] 也成為活躍研究方向,進一步拓展了第五層級的適用范圍。
綜述范圍: 本文主要聚焦于從視頻輸入中進行四維場景重建的方法,具體圍繞上述五個層級梳理關鍵技術進展與代表性工作。所選論文大多來自計算機視覺與圖形學的頂級會議和期刊,并補充了部分 2025 年發布的 arXiv 預印本。我們的選擇標準強調與本綜述主題的相關性,旨在提供該領域近期快速進展的全面概覽。 本綜述不涵蓋純三維生成方法 [96]–[98] 及基于生成式視頻擴散模型 [20]–[22] 的四維生成方法 [99]–[104],因為它們通常只生成單一類型輸入,與四維重建關系較弱。此外,我們也未深入探討各類三維表示方法,相關讀者可參考已有的綜述文獻 [10], [15], [105]–[110]。 組織結構: 圖 1 展示了四維空間智能各層級的整體概覽。接下來的章節中,我們按照從視頻輸入重建五個關鍵層級的流程,構建一個系統的研究分類體系:第 2 節介紹低層三維線索,第 3 節討論三維場景要素,第 4 節聚焦動態場景建模,第 5 節涉及場景交互,第 6 節探討物理規律建模。最后在第 7 節中,我們將對當前方法進行批判性反思,指出各層級仍面臨的開放挑戰,并展望超越現有五層級的四維空間智能未來發展方向。
摘要——人工智能生成內容(AIGC)的革命性進展從根本上改變了視覺內容創作與藝術表達的格局。盡管圖像生成與風格遷移領域取得了顯著成果,但其底層機制與審美影響仍未被充分理解。本文對視覺藝術領域中的 AIGC 技術進行了全面綜述,系統梳理了其從早期算法框架到當代深度生成模型的演進過程。我們識別出三種關鍵范式——變分自編碼器(VAE)、生成對抗網絡(GAN)以及擴散模型(Diffusion Models),并分析了它們在彌合人類創造力與機器合成之間鴻溝中的作用。為支撐我們的分析,我們系統回顧了過去十年中發表的 500 余篇研究論文,涵蓋基礎理論發展與最新技術進展。此外,本文還提出了一個多維評估框架,涵蓋技術創新性、藝術價值、視覺質量、計算效率與創意潛力等維度。研究結果揭示了 AIGC 系統的變革性能力與當前局限性,強調了其對未來創作實踐的深遠影響。通過本次全面綜述,我們提供了人工智能與藝術表達融合的統一視角,同時指出了該快速發展領域中的關鍵挑戰與未來研究的潛在方向。 關鍵詞——圖像生成,風格遷移,生成模型,綜述
1 引言
“我夢見自己的畫作,然后我畫出自己的夢。” ——文森特·梵高 風格遷移旨在學習一個映射函數 F : (Ic, Is) ? It, 其中輸出圖像 It 在保留內容圖像 Ic 的結構語義的同時,匹配參考圖像 Is 的風格統計特征。 自 Gatys 等人的開創性研究【1】以來,該領域已經從緩慢的優化方法發展到毫秒級的前饋生成器,近年來更是躍升至支持 4K 分辨率和細粒度語義控制的擴散模型與自回歸(AR)生成管線。風格遷移技術廣泛應用于肖像潤飾、實時視頻風格化以及游戲與電影中的三維資產生成。 過去十年的研究揭示了三次顛覆性飛躍: (i) 神經風格遷移展示了卷積網絡中的 Gram 統計量能夠編碼可遷移的風格; (ii) 實時生成器與對抗訓練帶來了逼真的寫實風格; (iii) 2022–2025 年的擴散與自回歸系統在規模與可控性上實現了雙重突破。 然而,核心挑戰依然存在:如何在有限計算資源下,在感知保真度、生成速度與風格多樣性之間取得平衡。
1.1 技術演進
早期的計算機圖形啟發式方法,隨著變分自編碼器(VAE)【2】與生成對抗網絡(GAN)【3】的提出,逐步演化為深度生成建模技術。Gatys 等人的神經風格遷移開創性地提出使用 Gram 統計量表示視覺風格,催生了實時前饋變體與任意風格遷移方法。 隨后,擴散模型【12】以及大規模文本-圖像生成系統(如 Stable Diffusion【22】和 DALL·E 2)進一步提升了圖像分辨率與語義控制能力。同時,CLIP【43】的引入也使語言引導的風格化成為可能(如 StyleGAN-NADA【44】、CLIPstyler【45】)。 近期的研究則探索結構解耦與高效架構,實現了可實時運行、具備強內容保持能力的 4K 風格遷移系統。圖 1 總結了這些重要的技術里程碑。
1.2 研究目標與貢獻
本綜述聚焦于風格遷移中的生成模型方法,涵蓋以下研究目標與貢獻: 1)生成模型:系統梳理基于 GAN、VAE、自回歸模型與擴散模型的風格遷移方法,重點關注圖像質量、訓練穩定性與風格-內容控制能力。 2)評估框架:探討不同方法在有效性、魯棒性、可控性、可解釋性、實用性與審美質量等方面的表現。 3)應用與未來趨勢:總結風格遷移在肖像、視頻、文本、三維等領域的現有應用場景,并展望未來可能的發展方向。 4)數據集與評估指標:匯總公開可用的數據集與風格遷移研究中常用的評估基準。 本文結構如下:第 2 節介紹風格遷移的基本原理,第 3 節探討生成模型的發展,第 4 節討論評估框架,第 5 節分析領域應用,第 6 節回顧數據集與評估方法。補充資源可訪問:
//github.com/neptune-T/Awesome-Style-Transfer。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要——視頻超分辨率(Video Super-Resolution,簡稱 VSR)是計算機視覺低層次任務中的一個重要研究方向,其中深度學習技術發揮了關鍵作用。近年來,深度學習的快速發展及其在 VSR 領域中的廣泛應用,推動了相關方法與技術的蓬勃發展。然而,這些方法的使用方式往往缺乏充分解釋,其設計決策更多是基于定量性能的提升。考慮到 VSR 在多個領域中具有廣泛而深遠的潛在影響,有必要對 VSR 研究中所采用的關鍵要素和深度學習方法進行系統的分析。這樣的系統性分析有助于針對具體應用需求開發更合適的模型。 本文對基于深度學習的視頻超分辨率模型進行了全面綜述,詳細探討了模型的各個組成部分及其潛在影響。同時,我們總結了當前主流以及早期 VSR 模型中所采用的關鍵技術和組件。通過對相關方法的解析與系統分類,我們揭示了該領域的發展趨勢、實際需求與面臨的挑戰。作為首個專門針對基于深度學習的 VSR 模型的綜述性工作,本文還建立了一個多層次的分類體系,為當前及未來的 VSR 研究提供指導,推動 VSR 技術在多種實際應用中的發展與理解。
關鍵詞——視頻超分辨率,深度學習,上采樣,融合,綜述,下采樣,對齊,損失函數
一、引言
近年來,隨著視頻采集技術、傳輸網絡以及顯示設備的不斷進步,視頻類多媒體內容的使用量顯著增加。這些技術的發展促使用戶對更高質量視頻信號的需求不斷增長。視頻質量可以從兩個角度來定義:服務質量(Quality of Service,QoS)和體驗質量(Quality of Experience,QoE)。 從 QoS 的角度看,較高的視頻質量意味著更高的碼率、更大的空間分辨率和/或更高的時間分辨率(即每秒幀數更多)。而從 QoE 的角度看,較高的質量則是一種主觀感受,難以量化,因為它取決于用戶的觀感體驗,這種體驗因人而異。
已有研究表明,在視頻信號的時空維度上進行增強,通常能夠提高 QoS,從而進一步改善用戶的 QoE 感知體驗【1】。更高的分辨率不僅提升了視頻的視覺效果,也增強了整體用戶體驗。因此,越來越多的視頻超分辨率(Video Super-Resolution,VSR)模型被提出和開發【2】【3】。VSR 的目標是從給定的低分辨率(Low-Resolution,LR)視頻輸入中生成高分辨率(High-Resolution,HR)的視頻輸出,從而提升圖像質量。
我們可以假設高分辨率視頻經歷了如下操作后生成低分辨率視頻: 其中,LR 表示低分辨率視頻,其來源是將高分辨率視頻 HR 的每一幀與模糊核進行卷積處理,隨后再進行其他降采樣操作。 其中,LR 表示低分辨率視頻,是在將高分辨率視頻 HR 的每一幀與模糊核或三次插值核 kkk 進行卷積處理后,接著執行下采樣操作 ddd,并疊加噪聲 nsn_sns 所得到的結果。因而,從 LR 視頻中重建出 HR 視頻的超分辨任務,實質上是對模糊核、下采樣過程以及噪聲的估計過程,是一個典型的逆問題。正如公式(1)所示,VSR 是一個病態的逆問題,是計算機視覺低層任務中的一個尚未完全解決的研究方向。 VSR 在研究中通常被視為單圖像超分辨(Single-Image Super-Resolution,SISR)和多圖像超分辨(Multi-Image Super-Resolution,MISR)的擴展。然而,與 SISR 和 MISR 不同,VSR 面臨更大的挑戰,因為它需要對視頻序列中高度相關但時空對齊不一致的幀進行有效建模【4】【5】。若直接將傳統 SISR 或 MISR 的方法應用于視頻超分辨任務,往往難以捕捉視頻幀之間的時間依賴性【6】【7】。因此,近年來研究者轉而采用基于學習的方法,充分挖掘低分辨率視頻中的時空特征,將其還原為高分辨率視頻【8】–【13】。
在傳統方法中,通常采用反投影(Back-Projection)方法【14】或基于最小均方(Least Mean Squares, LMS)的卡爾曼濾波方法【15】來插值圖像或視頻幀中的像素。這些方法主要基于確定性函數,將 LR 輸入映射為 HR 輸出。然而,傳統方法的確定性本質限制了它們在不同視頻內容上的泛化能力,所求得的逆函數也無法充分刻畫從 HR 到 LR 的非線性變換過程。
相比之下,近年來基于深度學習的視頻超分辨模型因其具有隨機性和數據驅動的特點,受到了廣泛關注。這類模型不僅具有良好的泛化能力,還能學習復雜的非線性映射函數,將 LR 視頻有效還原為 HR 視頻。學習型的 VSR 方法通常包括特征提取、對齊、融合、重建和上采樣等關鍵步驟。在這類模型中,從精確對齊的幀中提取相關特征并進行融合,是整個重建過程的核心【13】【16】【17】。 本文將深入探討基于深度學習的視頻超分辨模型的各個組成部分。迄今為止,僅有一項研究在該方向上進行過綜述【18】,但該研究僅以對齊過程為核心,采用了單層分類體系,未能充分覆蓋 VSR 領域中的多樣性與復雜性。而事實上,VSR 中的多個子模塊具有極高的多樣性,導致模型的行為和性能結果難以解釋與歸因。
因此,本文旨在彌補這些空白,具體目標包括: * 提出一個新的多層次分類體系,并全面梳理各 VSR 組件中的方法與研究趨勢; * 深入評述深度學習在視頻超分辨任務中的應用方法; * 系統總結 VSR 相關文獻中的研究現狀、發展趨勢、典型應用和挑戰; * 增強 VSR 模型及其性能的可解釋性; * 為未來 VSR 的研究提供基于當前需求與研究空白的實踐指導。
摘要—表格數據以行和列的形式組織,是機器學習分類和回歸應用中最常見的數據類型之一。用于從表格數據中學習的模型不斷發展,近年來深度神經網絡(DNNs)通過其表示學習能力展現出了良好的效果。在本綜述中,我們系統地介紹了表格表示學習領域,涵蓋了背景、挑戰和基準測試,以及使用深度神經網絡的優缺點。我們根據模型的泛化能力,將現有方法組織為三大類:專用模型、可遷移模型和通用模型。專用模型專注于訓練和評估在同一數據分布下進行的任務。我們基于表格數據的關鍵方面——特征、樣本和目標——提出了專用模型的層次化分類法,并深入探討了獲取高質量特征和樣本級表示的詳細策略。可遷移模型在一個或多個數據集上進行預訓練,然后在下游任務中進行微調,利用從同質或異質來源,甚至是跨模態(如視覺和語言)中獲取的知識。通用模型,也稱為表格基礎模型,進一步擴展了這一概念,允許在不額外微調的情況下直接應用于下游任務。我們根據跨異構數據集適應的策略,將這些通用模型進行了分類。此外,我們還探討了集成方法,整合了多種表格模型的優勢。最后,我們討論了表格學習的代表性擴展,包括開放環境下的表格機器學習、表格數據的多模態學習和表格理解任務。更多信息請參見以下存儲庫://github.com/LAMDA-Tabular/Tabular-Survey。 關鍵詞—表格數據、表示學習、深度表格學習、表格機器學習、表格基礎模型
1 引言
表格數據,以行和列的形式組織,是現實世界中機器學習應用中最常見的數據格式之一,涵蓋了金融[1]、醫療健康[2]、教育[3]、推薦系統[4]以及科學研究等多個領域。特別是,面向科學研究的人工智能(AI4science)日益依賴于表格數據,因為許多著名數據集——如基因組學[5]、化學[6]和氣候科學[7][8]的數據——自然采用了表格形式。 表格數據本質上以結構化的表格格式組織信息。在本綜述中,我們主要關注監督式表格機器學習任務,特別是分類和回歸任務。除了結構化的組織形式外,表格數據集通常還包括異質屬性[9],涵蓋了數值型、分類型或混合型數據類型,這些數據可能是稠密的或稀疏的。此外,許多表格數據集還面臨質量問題,如噪聲測量、缺失值、異常值、不準確性[10]以及隱私約束[11],這些問題都會使建模過程變得復雜。最常見的監督式表格任務是分類和回歸,其中目標分別是從訓練數據學習映射到離散或連續目標。如圖1所示,每一行代表一個實例(及其對應的標簽),而每一列則對應特定的屬性或特征[12]。理想情況下,學習到的映射應該具有良好的泛化能力,能夠準確地預測從相同底層分布中抽取的新實例的結果。 用于表格數據的機器學習方法多年來經歷了顯著的發展[13][14][15][16]。最近,深度學習的興起對計算機視覺[17]和自然語言處理[18]等領域產生了深遠的影響,深度神經網絡(DNNs)能夠直接從原始輸入中提取語義表示[19][20][21]。這些學習到的表示不僅提高了泛化能力,還促進了跨相關任務的知識遷移[22]。深度神經網絡在建模復雜特征交互和學習豐富層次結構方面的靈活性,激發了將深度學習技術應用于表格數據的巨大興趣。 事實上,深度神經網絡在幾十年前就已被應用于表格數據,最初主要針對降維和可視化任務[23][24][25][26],然而在標準的分類和回歸問題中,它們通常無法與基于樹的方法相匹敵。隨后,深度神經網絡的進展使得其在各種表格相關應用中取得了顯著進展,如點擊率預測[27][28]、異常檢測[29]、推薦系統[30]以及時間序列預測[31][32]。現代深度學習方法得益于更精心設計的架構、優化的訓練策略和高質量的表示,已使深度神經網絡在表格數據上的表現得到了復興,常常與傳統的基于樹的模型相抗衡甚至超越[33][34][35]。鑒于深度表格建模中涌現出的多種方法,回顧關鍵因素和當前的表示學習方法已成為越來越必要的任務。 本綜述首先介紹表格數據學習的背景,重點突出其中的挑戰,并對比深度神經網絡與經典方法(特別是基于樹的方法)[36][37][38][39]在使用中的優勢和局限性進行批判性分析。由于觀察到在不同表格數據集上方法性能的不穩定性,我們還討論了數據集收集、評估和分析的綜合策略,旨在為跨多個數據集匯總性能指標建立穩健的標準[40][41][42][43]。 我們將深度表格方法大致分為三種類型:專用方法、可遷移方法和通用方法,區分的標準包括它們訓練和部署的數據集的范圍,以及它們相應的泛化能力(如圖2所示)。專用表格方法與經典的監督模型密切相關,通常在來自相同分布的數據上進行訓練和評估。相反,可遷移方法利用從一個或多個源數據集上預訓練的模型的知識,隨后在目標數據集上進行微調;這里的主要挑戰在于解決預訓練源與目標任務之間的異質性。最近提出的通用表格方法——受到大型語言模型(LLMs)顯著“零-shot”泛化能力的啟發——展現出卓越的通用性。這些通用模型可以直接將其學習到的表示應用于下游表格數據集,而無需額外的微調,并通過先進的預訓練策略實現穩健的泛化。 盡管從專用模型到通用模型,泛化能力通常會增強,但這并不意味著專用或可遷移方法的價值較低;專用模型在大規模數據集上仍具有優勢,而對通用模型進行微調可以進一步提高其預測性能。此外,前兩類方法為通用表格模型的進展提供了基礎性見解和寶貴的組件。 對于專用方法,已經提出了許多從不同角度進行設計的方案,早期的文獻通常根據其架構特征或行為將這些方法進行分類。現有的分類法[44],例如,將專用方法分為基于特征預處理的[33][45]、基于數據增強的[46][47][48][49]、MLP變體[50][34]、專用DNN架構[51][52][53][54][55][56][57][58]、模仿樹的方法[59][60][61]、基于token的技術[62][63][33][64][65]、基于正則化的策略[66][67]、以及基于鄰域的方法[68][69][35]。然而,這些分類可能顯得分散,難以將位于不同組中的方法的核心思想進行聯系。與此不同,本綜述提出了一種基于表格數據的關鍵方面——特征、樣本和目標——的層次化分類法,提供了一個統一的組織框架。我們的方法強調了在特征級和樣本級上獲取高質量表示的詳細策略。這一統一視角有助于彌合不同方法之間的核心思想,促進更清晰的比較討論,并可能指導未來更先進的表格模型的設計。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在
//github.com/BestJunYu/Awesome-Physics-aware-Generation
1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。
摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。
I. 引言
圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。
近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。
隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。
已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。
相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。
本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。
摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務,VAD 已經取得了許多顯著的進展。在深度學習的時代,隨著具備持續增長的能力和容量的架構的爆發,基于深度學習的各種方法不斷涌現于 VAD 任務中,極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此,面對如此多樣的方法和大量的文獻,一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述,涵蓋了五種不同類別的范疇,即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法,并深入探討了基于預訓練大模型的最新 VAD 工作,彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務,我們構建了一個有條理的分類體系,深入討論了不同類型方法的特點,并展示了它們的性能對比。此外,本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后,我們為 VAD 社區提供了若干重要的研究方向。 關鍵詞——視頻異常檢測,異常檢測,視頻理解,深度學習。
異常代表著偏離標準、正常或預期的事物。正常性有多種多樣,而異常現象則非常稀少。然而,當異常出現時,往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常,從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】,例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中,視頻異常檢測 (VAD) 占據著重要地位,異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用(例如暴力、入侵和徘徊檢測),還廣泛應用于其他場景,如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力,VAD 吸引了來自工業界和學術界的廣泛關注。
在深度學習時代之前,常規的方法是將特征提取與分類器設計分離,形成一個兩階段的過程,并在推理階段將它們結合起來。首先進行特征提取,將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性,且在面對復雜場景時難以有效捕捉行為表達,但這些早期工作極大啟發了后續基于深度學習的研究工作。
在過去十年中,隨著深度學習的崛起,傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現,近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如,ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器,首次用于捕捉視頻中的規律;FuturePred【4】首次利用 U-Net 預測未來的異常;DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情,我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查(這個時期由基于深度學習方法的崛起所驅動)。我們選擇了五個相關主題,即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測,并在圖 1 中展示了出版物統計數據。不難看出,從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢,表明 VAD 已經引起了廣泛的關注。此外,我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢,并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢,未顯示出任何性能瓶頸。例如,CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升,從 70.2% AUC【3】上升到 90.1% AUC【7】。此外,針對后續提出的弱監督 VAD,研究也取得了顯著進展。這表明,隨著架構的發展,深度學習方法的能力不斷提升,同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。
上述統計數據清楚地表明,深度學習驅動的 VAD 是當前研究的熱點。因此,迫切需要對現有工作進行系統分類并進行全面總結,以便為新手提供指導并為現有研究人員提供參考。基于此,我們首先收集了近年來一些高影響力的 VAD 綜述,見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD,缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析,主要關注 2020 年之前的方法,忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查,但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述,但其重點不僅限于視頻,還涉及圖像異常檢測,導致對 VAD 任務的系統性組織不足。最近,Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系,例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD,并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而,他們的研究范圍局限于傳統的閉集場景,未涵蓋最新的開放集監督 VAD 研究,也未引入基于預訓練大模型和可解釋學習的全新框架。
為全面解決這一差距,我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面,以提供對 VAD 研究的全面分析。具體而言,我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查,并提出了一個統一的框架,將不同的 VAD 任務整合在一起,填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源,包括基準數據集、評估指標、開源代碼和性能對比,以幫助該領域的研究人員避免走彎路并提高效率。此外,我們系統地對各種 VAD 任務進行分類,將現有工作劃分為不同類別,并建立了一個清晰的結構化分類體系,以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系,我們還對每種模式進行了全面分析。此外,在整個綜述中,我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。 本綜述的主要貢獻總結如下三個方面:
我們對 VAD 進行了全面綜述,涵蓋了基于不同監督信號的五種任務,即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。
跟隨研究趨勢,我們回顧了最新的開放集監督 VAD 研究。此外,我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知,這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。
針對不同任務,我們系統地回顧了現有的基于深度學習的方法,更重要的是,我們引入了一個統一的分類框架,從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。
半監督視頻異常檢測
基于我們對以往綜述的深入調查,我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別,例如基于重建、基于距離和基于概率的方法,有些綜述則根據輸入進行分類,例如基于圖像、基于光流和基于片段的方法。顯然,現有的分類綜述相對簡單且表面化,因此難以全面有效地涵蓋所有方法。為了解決這個問題,我們建立了一個全面的分類體系,涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。
如前所述,在半監督 VAD 任務中,只有正常樣本可用于訓練,這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息,學習深度神經網絡 (DNN) 來解決前置任務。例如,正常性重建是一個經典的前置任務【3】。在此過程中,需要考慮幾個關鍵方面:樣本信息的選擇(模型輸入)、前置任務的設計(方法論)、深度網絡的利用(網絡架構)、方法的改進(優化)和異常結果的表達(模型輸出)。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中,我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。
IV. 弱監督視頻異常檢測
弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向,其起源可追溯到 DeepMIL【5】。相比于半監督 VAD,這是一個較新的研究方向,因此現有的綜述缺乏全面而深入的介紹。如表 I 所示,Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而,前者僅簡要描述了 2018 至 2020 年間的一些成果,而后者盡管涵蓋了近期的工作,卻缺乏科學的分類體系,僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景,我們從 2018 年至今調查了相關工作,包括基于預訓練大模型的最新方法,并從四個方面對現有工作進行了分類:模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。 與半監督 VAD 相比,弱監督 VAD 在訓練過程中明確定義了異常,為檢測算法提供了明確的方向。然而,與全監督 VAD 相比,粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包(正常視頻)中選擇看起來最異常的最困難區域(視頻片段),以及從異常包(異常視頻)中選擇最有可能異常的區域。然后,目標是最大化它們之間的預測置信差異(即使最困難的正常區域的置信度接近 0,最異常區域的置信度接近 1),這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征,異常區域的異常置信度逐漸增加,而正常區域的置信度則逐漸下降。不幸的是,由于缺乏強監督信號,檢測模型在上述優化過程中不可避免地會涉及盲目猜測。
VII. 開集監督視頻異常檢測
讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中,未見過的異常很可能會出現,因此,關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務,其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的(閉集)VAD 不同,傳統 VAD 中的異常類型是已知且定義明確的,而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要,因為在訓練過程中預見并標注所有可能的異常是不現實的。因此,開集 VAD 的研究引起了極大的關注。然而,現有的綜述工作并未對開集 VAD 進行深入研究。基于此,我們進行了深入的調查,并對現有的開集 VAD 工作進行了系統分類。據我們所知,這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中,我們根據不同的研究方向,將開集監督 VAD 大致分為兩類:開集 VAD 和小樣本 VAD。在圖 10 中,我們展示了六種經典的開集監督 VAD 方法。
IX. 結論
我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同,我們提出了一個系統的分類體系,將現有的工作根據監督信號分為五類:半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別,我們進一步根據模型的不同特征進行細分,例如模型輸入和輸出、方法論、優化策略和架構,并展示了各種方法的性能對比。最后,我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。
摘要: 圖像內容自動描述是計算機視覺和自然語言處理領域的一個重要任務,在生活娛樂、智慧 交通以及幫助視覺障礙者理解視覺內容等領域有著廣泛而重要的應用價值.相比于圖像分類和目標 檢測等感知任務,圖像內容自動描述是一種更高級別、更復雜的認知任務,對幫助分析和理解圖像有 著重要的意義.旨在對現有的圖像自動描述技術進行全面的綜述.討論圖像內容自動描述中常用的數 據集和評價指標,以及現有圖像自動描述技術的性能、優點和局限性。
關鍵詞: 圖像內容描述;卷積神經網絡;循環神經網絡;注意力機制;深度學習