曰本中文字幕一区二区三区高清,在线国产视频9999,久久精品A一级国产免视看成人

摘要——視頻超分辨率（Video Super-Resolution，簡稱 VSR）是計算機視覺低層次任務中的一個重要研究方向，其中深度學習技術發揮了關鍵作用。近年來，深度學習的快速發展及其在 VSR 領域中的廣泛應用，推動了相關方法與技術的蓬勃發展。然而，這些方法的使用方式往往缺乏充分解釋，其設計決策更多是基于定量性能的提升。考慮到 VSR 在多個領域中具有廣泛而深遠的潛在影響，有必要對 VSR 研究中所采用的關鍵要素和深度學習方法進行系統的分析。這樣的系統性分析有助于針對具體應用需求開發更合適的模型。本文對基于深度學習的視頻超分辨率模型進行了全面綜述，詳細探討了模型的各個組成部分及其潛在影響。同時，我們總結了當前主流以及早期 VSR 模型中所采用的關鍵技術和組件。通過對相關方法的解析與系統分類，我們揭示了該領域的發展趨勢、實際需求與面臨的挑戰。作為首個專門針對基于深度學習的 VSR 模型的綜述性工作，本文還建立了一個多層次的分類體系，為當前及未來的 VSR 研究提供指導，推動 VSR 技術在多種實際應用中的發展與理解。

關鍵詞——視頻超分辨率，深度學習，上采樣，融合，綜述，下采樣，對齊，損失函數

一、引言

近年來，隨著視頻采集技術、傳輸網絡以及顯示設備的不斷進步，視頻類多媒體內容的使用量顯著增加。這些技術的發展促使用戶對更高質量視頻信號的需求不斷增長。視頻質量可以從兩個角度來定義：服務質量（Quality of Service，QoS）和體驗質量（Quality of Experience，QoE）。從 QoS 的角度看，較高的視頻質量意味著更高的碼率、更大的空間分辨率和/或更高的時間分辨率（即每秒幀數更多）。而從 QoE 的角度看，較高的質量則是一種主觀感受，難以量化，因為它取決于用戶的觀感體驗，這種體驗因人而異。

已有研究表明，在視頻信號的時空維度上進行增強，通常能夠提高 QoS，從而進一步改善用戶的 QoE 感知體驗【1】。更高的分辨率不僅提升了視頻的視覺效果，也增強了整體用戶體驗。因此，越來越多的視頻超分辨率（Video Super-Resolution，VSR）模型被提出和開發【2】【3】。VSR 的目標是從給定的低分辨率（Low-Resolution，LR）視頻輸入中生成高分辨率（High-Resolution，HR）的視頻輸出，從而提升圖像質量。

我們可以假設高分辨率視頻經歷了如下操作后生成低分辨率視頻：其中，LR 表示低分辨率視頻，其來源是將高分辨率視頻 HR 的每一幀與模糊核進行卷積處理，隨后再進行其他降采樣操作。其中，LR 表示低分辨率視頻，是在將高分辨率視頻 HR 的每一幀與模糊核或三次插值核 kkk 進行卷積處理后，接著執行下采樣操作 ddd，并疊加噪聲 nsn_sns 所得到的結果。因而，從 LR 視頻中重建出 HR 視頻的超分辨任務，實質上是對模糊核、下采樣過程以及噪聲的估計過程，是一個典型的逆問題。正如公式（1）所示，VSR 是一個病態的逆問題，是計算機視覺低層任務中的一個尚未完全解決的研究方向。 VSR 在研究中通常被視為單圖像超分辨（Single-Image Super-Resolution，SISR）和多圖像超分辨（Multi-Image Super-Resolution，MISR）的擴展。然而，與 SISR 和 MISR 不同，VSR 面臨更大的挑戰，因為它需要對視頻序列中高度相關但時空對齊不一致的幀進行有效建模【4】【5】。若直接將傳統 SISR 或 MISR 的方法應用于視頻超分辨任務，往往難以捕捉視頻幀之間的時間依賴性【6】【7】。因此，近年來研究者轉而采用基于學習的方法，充分挖掘低分辨率視頻中的時空特征，將其還原為高分辨率視頻【8】–【13】。

在傳統方法中，通常采用反投影（Back-Projection）方法【14】或基于最小均方（Least Mean Squares, LMS）的卡爾曼濾波方法【15】來插值圖像或視頻幀中的像素。這些方法主要基于確定性函數，將 LR 輸入映射為 HR 輸出。然而，傳統方法的確定性本質限制了它們在不同視頻內容上的泛化能力，所求得的逆函數也無法充分刻畫從 HR 到 LR 的非線性變換過程。

相比之下，近年來基于深度學習的視頻超分辨模型因其具有隨機性和數據驅動的特點，受到了廣泛關注。這類模型不僅具有良好的泛化能力，還能學習復雜的非線性映射函數，將 LR 視頻有效還原為 HR 視頻。學習型的 VSR 方法通常包括特征提取、對齊、融合、重建和上采樣等關鍵步驟。在這類模型中，從精確對齊的幀中提取相關特征并進行融合，是整個重建過程的核心【13】【16】【17】。本文將深入探討基于深度學習的視頻超分辨模型的各個組成部分。迄今為止，僅有一項研究在該方向上進行過綜述【18】，但該研究僅以對齊過程為核心，采用了單層分類體系，未能充分覆蓋 VSR 領域中的多樣性與復雜性。而事實上，VSR 中的多個子模塊具有極高的多樣性，導致模型的行為和性能結果難以解釋與歸因。

因此，本文旨在彌補這些空白，具體目標包括： * 提出一個新的多層次分類體系，并全面梳理各 VSR 組件中的方法與研究趨勢； * 深入評述深度學習在視頻超分辨任務中的應用方法； * 系統總結 VSR 相關文獻中的研究現狀、發展趨勢、典型應用和挑戰； * 增強 VSR 模型及其性能的可解釋性； * 為未來 VSR 的研究提供基于當前需求與研究空白的實踐指導。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

人工智能治理 · 內生安全 · 衍生安全 · 社會倫理 · 負責任的人工智能 ·

8 月 13 日

[付費5元查看完整內容]人工智能治理全景綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——人工智能（AI）的快速發展顯著擴展了其在各個領域的能力。然而，這也帶來了復雜的技術漏洞，例如算法偏見與對抗脆弱性，它們可能引發重大社會風險，包括虛假信息傳播、不平等、計算機安全問題、現實世界中的事故，以及公眾信任度下降。這些挑戰凸顯了 AI 治理的緊迫性，以指導 AI 技術的研發與部署。為滿足這一需求，我們提出了一個同時整合技術與社會維度的綜合 AI 治理框架。具體而言，我們將治理劃分為三個相互關聯的方面：內生安全（內部系統可靠性）、衍生安全（外部現實危害）和社會倫理（價值對齊與問責制）。我們的獨特之處在于，將技術方法、新興評測基準和政策視角相結合，構建了一個能夠主動促進透明性、問責性與公眾信任的治理框架。通過對 300 多篇參考文獻的系統性回顧，我們識別了三大關鍵系統性挑戰：(1) 泛化差距——現有防御措施難以適應不斷演變的威脅；(2) 評測協議不足——未能充分反映真實部署風險；(3) 監管格局碎片化——導致監督與執法的不一致。我們將這些失敗歸因于當前實踐中的根本性錯位——治理被視為事后補充，而非基礎性設計原則。由此，現有工作往往呈現被動且零散的特征，難以應對技術可靠性與社會信任之間本質上的相互關聯性。對此，我們的研究提供了全面的格局分析，并提出了一個融合技術嚴謹性與社會責任的綜合研究議程。該框架為研究人員、工程師與政策制定者提供了可操作的洞見，用于設計既具備性能穩健性，又符合倫理要求并贏得公眾信任的 AI 系統。代碼倉庫可訪問：//github.com/ZTianle/Awesome-AI-SG。 關鍵詞——AI 治理，內生安全，衍生安全，社會倫理，負責任的人工智能

1 引言

人工智能（AI）的快速發展，尤其是大型語言模型（Large Language Models, LLMs）的出現，正在推動科學 [1]、工業 [2] 和社會 [3] 發生深刻變革。這些模型如今已支持從教育、醫療到法律與公共服務等廣泛的應用場景，并在推理 [4]、內容生成 [5] 和決策支持 [6] 等方面展現出前所未有的能力。然而，伴隨這些進步而來的，是一系列與傳統軟件系統根本不同的新型安全與可靠性挑戰。這些挑戰包括對抗性脆弱性 [7]、幻覺問題 [8] 以及輸出偏差 [9] 等，而這些問題可能被惡意利用并造成嚴重后果。例如，LLM 可能通過提示注入（prompt injection）被操縱以繞過內容過濾，從而生成有害或非法的建議 [10]。由生成模型驅動的深度偽造（Deepfake）技術 [11] 可能被用于虛假信息傳播或非自愿圖像生成，侵蝕公眾信任與隱私。在醫療場景中，錯誤的 AI 生成診斷甚至可能導致錯誤的臨床決策，從而危及生命 [12]。這些案例凸顯了一個重要事實：AI 系統帶來的風險已不再是理論假設——它們正在大規模地影響個人、社區和機構。針對這些風險，“AI 治理”概念應運而生，作為一個多學科框架，旨在確保 AI 系統不僅在技術上穩健可靠，而且在倫理上對齊、法律上合規，并對社會有益 [13]。AI 治理涵蓋了貫穿 AI 全生命周期的規則、實踐與技術 [14]，旨在將透明性、問責制與公平性等原則嵌入系統設計，并在真實部署中推動公眾監督與價值對齊。與將安全視為事后附加措施不同，AI 治理提倡對 AI 風險進行前瞻性、集成化管理 [15]。更重要的是，AI 治理不僅僅是 AI 安全的延伸 [16]。AI 安全側重于系統層面的穩健性，確保模型在分布偏移、對抗攻擊或數據噪聲下依然表現可靠；而治理的視野更為廣闊，關注 AI 部署過程中的社會、倫理與制度層面。它涵蓋了衍生風險，如隱私侵犯、虛假信息傳播與算法歧視，同時引入法律責任、利益相關方問責機制與倫理審議等手段。因此，治理在技術與社會領域之間架起了橋梁，提供了一種既強大又可被負責任地控制的 AI 構建路徑。如圖 1 所示，對相關文獻的時間分布分析揭示了 LLM 治理研究領域的演化趨勢。2017—2024 年間，該領域的學術關注度顯著上升，尤其是 2020 年之后。預計到 2025 年底，相關學術論文數量將超過 8,000 篇，顯示出 LLM 在現實應用中的快速部署已經引發了對其治理的迫切討論。盡管 AI 治理在學界、產業界和政策領域獲得了越來越多關注，但一個能夠跨越這些領域、系統整合且技術扎實的綜合性綜述仍然明顯缺失。現有研究 [17], [18] 往往將技術安全與更廣泛的治理問題割裂開來，或僅聚焦于特定風險（如公平性或對抗魯棒性），缺乏統一的框架。同時，另一類主要源于倫理與法律研究的成果，雖然提供了高層次的規范性分析，但很少涉及新興的實證評估方法、標準化基準與系統級防御手段 [18]。因此，迫切需要一篇綜合性綜述，以全面描繪 AI 治理的整體格局，并將其置于當代 AI 系統快速演進的背景之中。

本研究正是在這種需求下提出的，旨在提供一份全面、系統的 AI 治理綜述，構建一個貫通內生系統可靠性、衍生社會風險與規范治理機制的統一框架，為研究人員、開發者與政策制定者提供參考，從而確保 AI 系統既穩健可靠，又具備可問責性，并與公共利益保持一致。具體而言，我們試圖回答三個關鍵問題： 1. 為何迫切需要研究 AI 治理？ 我們識別出研究空白，即治理通常被視為事后補充而非核心設計原則，導致現有防御存在監管碎片化與評估不足的問題。這促使我們將 AI 治理定位為可信 AI 的基礎。 1. 從大量現有工作中可以提煉出哪些開放挑戰與未來治理指引？ 我們定義了一個涵蓋三大關鍵維度的統一治理框架：內生安全（如對抗魯棒性、幻覺、可解釋性）、衍生安全（如隱私、偏見、濫用）與社會倫理（如法律規范、問責機制、新興倫理關注點）。借助該分類法，我們對技術與社會風險進行結構化的綜合回顧。 1. 如何定義一個統一的治理框架？ 我們系統回顧了 300 多篇參考文獻，分析了視覺、語言與多模態系統中的代表性基準與評估指標，對比了現有方法的優劣，并綜合提出開放挑戰與未來研究方向。

這項多維度的綜述為研究人員、工程師與政策制定者提供了可操作的洞見，幫助他們構建不僅穩健可靠，而且具備社會責任感與倫理對齊的 AI 系統，其整體結構如圖 3 所示。本研究的貢獻總結如下： * 全面性：從技術視角對 AI 治理進行統一且系統的綜述，涵蓋內生安全（如對抗攻擊、幻覺）、衍生安全（如隱私、偏見）與社會倫理（如倫理與法律問題）。 * 基準整合：整理并對比了相關的最新評測基準（如魯棒性、幻覺、公平性與濫用檢測等基準），促進治理相關主題的可復現研究與標準化評估。 * 治理導向視角：融合技術方法與社會及政策視角，推動 AI 系統設計與透明性、問責性及安全性等原則保持一致的治理框架發展。

我們的綜述圍繞 AI 治理的三大支柱展開，即內生安全、衍生安全與社會倫理。具體而言（參見圖 1）：內生安全研究保持持續增長，尤其是在對抗性漏洞、模型魯棒性與透明性方面。安全攻擊與漏洞研究的論文數量從 2021 年的 230 篇增加到 2024 年的 353 篇，魯棒性研究也呈類似上升趨勢，反映了人們對對抗操縱與敏感數據保護的日益關注。盡管透明性與可解釋性相關研究發表數量較少，但自 2017 年以來保持穩定，顯示出學界持續探索理解與審計 LLM 行為的努力。相比之下，衍生安全（如隱私與虛假信息）在近幾年獲得了更快的關注增長。例如，虛假信息問題在 2021 年前幾乎未被關注，但相關論文數量在 2024 年急劇上升至 249 篇，體現了提升 LLM 輸出可信度的現實緊迫性。在社會倫理方面，偏見、責任與問責等主題的研究也在逐漸增多，顯示其受到的關注度不斷提升。本文的剩余部分安排如下：第 2 節介紹 AI 治理的背景及其與 AI 安全的關系，強調其關鍵動機與基礎原則；第 3 節討論內生安全，包括對抗性漏洞、魯棒性、幻覺與可解釋性問題；第 4 節探討衍生安全，重點關注隱私風險、偏見與歧視，以及濫用與誤用問題；第 5 節涉及社會倫理，包括社會與經濟影響、倫理與法律問題，以及責任與問責機制；第 6 節總結開放挑戰與未來方向，包括技術缺口、監管與倫理考量以及研究機會；最后，第 7 節對本文進行總結。

付費5元查看完整內容

四維空間智能 · 場景重建 · 物理建模 · 空間智能 ·

7 月 29 日

[付費5元查看完整內容]重建四維空間智能：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——從視覺觀測中重建四維空間智能長期以來一直是計算機視覺領域中的核心難題之一，并具有廣泛的現實應用場景。這些應用涵蓋從電影等娛樂領域（側重于基礎視覺要素的重建）到具身智能（強調交互建模與物理現實性）。得益于三維表示和深度學習架構的迅猛發展，該研究方向迅速演進，已遠超以往綜述的覆蓋范圍。此外，現有綜述往往缺乏對四維場景重建中層次結構的系統分析。為填補這一空白，本文提出一種新的視角，將現有方法按照五個逐級遞進的四維空間智能層級進行組織： (1) 第一層級：低層三維屬性的重建（如深度、姿態和點云圖）； (2) 第二層級：三維場景組成要素的重建（如物體、人類、結構體）； (3) 第三層級：四維動態場景的重建； (4) 第四層級：場景組件之間交互的建模； (5) 第五層級：物理規律與約束的融合建模。本文最后討論了各層級所面臨的關鍵挑戰，并指出了邁向更高層次四維空間智能的潛在研究方向。為了追蹤該領域的最新進展，我們維護了一個實時更新的項目頁面： //github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 關鍵詞——四維空間智能、低層線索、場景重建、動態建模、交互建模、物理建模、視頻

1 引言

利用機器學習或深度學習技術自動重建四維空間智能，長期以來一直是計算機視覺領域中的關鍵難題。通過同時捕捉靜態構型與隨時間變化的動態過程，四維空間智能能夠提供對空間環境的全面表示與理解，將三維幾何結構與其時間演化整合在一起。該研究方向因其廣泛的應用場景而受到高度關注，包括視頻游戲 [1]、電影 [2] 和沉浸式體驗（如 AR/VR）[3], [4]，其中高保真度的四維場景是實現真實用戶體驗的基礎。除了這些側重于四維空間智能基本組成部分的應用場景——如深度、相機姿態、點云圖、三維跟蹤等低層線索，以及場景組成要素和動態之外，空間智能還在推動具身智能（Embodied AI）[5], [6], [7] 和世界模型（World Models）[8] 的發展中發揮著核心作用。這些后者的任務更加注重場景中各組成部分之間的交互以及重建環境的物理合理性。近年來，四維空間智能的重建技術取得了飛速進展。已有若干綜述工作 [9], [10] 從不同角度提供了有價值的視角，并總結了該領域中持續存在的挑戰。例如，[11]–[13] 綜述了通過深度立體匹配獲取低層場景信息的最新進展；[14]–[16] 系統梳理了三維場景重建方面的研究，涵蓋多種輸入模態和多樣的三維表示方式；[9], [10] 則從核心架構出發對動態四維場景重建方法進行了分類。然而，隨著新型三維表示方法的提出 [17]–[19]、高質量視頻生成技術的發展 [20]–[22]、以及更高效重建模型的出現，該領域已取得顯著進展。盡管如此，現有綜述尚未系統分析動態四維場景的不同組成層級，也未深入探討各層級的發展現狀與關鍵挑戰，導致人們對四維空間智能的理解仍存在碎片化傾向，容易忽略其中的關鍵組成部分。因此，亟需一份全面、系統、與時俱進的綜述來將四維空間智能劃分為不同層級，梳理最新進展，并描繪該研究領域不斷演化的全貌。基于這一緊迫需求，本文將現有的四維空間智能重建方法劃分為以下五個層級，并分別對其最新進展進行系統梳理： * 第一層級：低層三維線索的重建。

該層級聚焦于深度、相機姿態、點云圖和三維跟蹤等基礎三維線索的重建，這些要素構成了三維場景的基本結構。傳統上，這一任務常被劃分為多個子領域，如關鍵點檢測 [23]–[25] 與匹配 [26]–[29]、魯棒估計 [28], [30]、SfM（結構自運動）[31]–[34]、BA（Bundle Adjustment）[35]–[38]、以及稠密多視圖立體重建（MVS）[39]–[43]。近期方法如 DUSt3R [44] 及其系列擴展 [45]–[48] 致力于聯合求解上述子任務，實現更協同的一體化推理。而 VGGT [54] 則在 Transformer 架構 [49]–[53] 的基礎上，提出了一個端到端系統，能在數秒內高效估計這些低層三維線索。 * 第二層級：三維場景組成要素的重建。

在第一層級的基礎上，第二層級進一步重建場景中的獨立要素，如人類、物體和建筑等。雖然某些方法涉及要素間的組合與空間布局，但通常不對它們之間的交互進行建模或約束。近期方法結合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示（如 DMTET [18] 和 FlexiCube [57]）等創新型三維表示方式，提升了重建細節的真實性、渲染效率以及整體結構一致性，為照片級真實感場景重建和沉浸式虛擬體驗奠定基礎。 * 第三層級：四維動態場景的重建。

本層級引入場景動態，是實現“子彈時間”式四維空間體驗和沉浸式視覺內容的關鍵步驟。現有方法主要分為兩類：一類方法 [58]–[62] 先重建一個靜態的標準輻射場，再通過學習得到的時序變形建模動態過程；另一類方法 [63]–[69] 則將時間作為額外參數直接編碼進三維表示，實現連續動態建模。 * 第四層級：場景組件之間交互的建模。

該層級標志著空間智能研究進入更成熟階段，著眼于不同場景組成部分之間的交互建模。考慮到人類通常是交互的核心主體，早期工作 [70]–[74] 主要聚焦于捕捉人類與可操控物體的動作。隨著三維表示的進步，近期方法 [75]–[80] 可更精確地重建人類與物體外觀，而人-場景交互建模 [81]–[85] 也逐漸成為研究熱點，為構建完整世界模型提供基礎支撐。 * 第五層級：物理規律與約束的融合建模。

盡管第四層級能夠建模場景組件之間的交互，但通常忽略了如重力、摩擦力、壓力等底層物理規律。因此，在如具身智能 [5]–[7] 等任務中，這類方法常難以支持機器人在現實世界中模仿視頻中的動作與交互。第五層級的系統旨在通過引入物理可行性約束來彌補上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平臺及強化學習方法 [90]–[92]，展示了從視頻中直接學習并復現類人技能的能力，標志著向物理一致性空間智能邁出重要一步。此外，對一般三維物體（如變形、碰撞與動力學）和物理場景的建模 [93]–[95] 也成為活躍研究方向，進一步拓展了第五層級的適用范圍。

綜述范圍：本文主要聚焦于從視頻輸入中進行四維場景重建的方法，具體圍繞上述五個層級梳理關鍵技術進展與代表性工作。所選論文大多來自計算機視覺與圖形學的頂級會議和期刊，并補充了部分 2025 年發布的 arXiv 預印本。我們的選擇標準強調與本綜述主題的相關性，旨在提供該領域近期快速進展的全面概覽。本綜述不涵蓋純三維生成方法 [96]–[98] 及基于生成式視頻擴散模型 [20]–[22] 的四維生成方法 [99]–[104]，因為它們通常只生成單一類型輸入，與四維重建關系較弱。此外，我們也未深入探討各類三維表示方法，相關讀者可參考已有的綜述文獻 [10], [15], [105]–[110]。 組織結構：圖 1 展示了四維空間智能各層級的整體概覽。接下來的章節中，我們按照從視頻輸入重建五個關鍵層級的流程，構建一個系統的研究分類體系：第 2 節介紹低層三維線索，第 3 節討論三維場景要素，第 4 節聚焦動態場景建模，第 5 節涉及場景交互，第 6 節探討物理規律建模。最后在第 7 節中，我們將對當前方法進行批判性反思，指出各層級仍面臨的開放挑戰，并展望超越現有五層級的四維空間智能未來發展方向。

付費5元查看完整內容

視覺通用模型 · 基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 ·

6 月 12 日

[付費5元查看完整內容]視覺通用模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

近年來，我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架，能夠同時處理多種下游任務。在其卓越性能的激勵下，越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而，視覺任務的輸入與輸出形式更加多樣化，難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述，深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景，包括數據集、任務類型以及評測基準。隨后，我們梳理了現有研究中提出的模型框架設計，并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域，我們還簡要探討了相關研究方向，揭示了它們之間的關聯性與潛在協同作用。最后，我們列舉了一些真實世界的應用場景，深入分析了當前尚存的挑戰，并對未來的研究方向提出了有益的見解。

關鍵詞：基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言

作為一種智能系統，人類大腦能夠從不同的輸入模態中感知信息，并能同時處理多種任務。類似于人類，在深度學習領域中，通用模型（generalist model）【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來，得益于大數據的強大驅動，大語言模型（LLMs）【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理（NLP）領域中展現了通用模型的巨大成功。然而，與 NLP 不同，視覺任務的輸出格式更加多樣且復雜。例如，傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別，而目標檢測模型則需進一步定位目標，其輸出為邊界框（bounding boxes）。分割模型則需生成像素級的語義掩碼。因此，對于視覺通用模型（Vision Generalist Models, VGM）【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言，設計一個能夠適配廣泛視覺下游任務的系統至關重要。與傳統神經網絡相比，通用模型通常擁有數十億個參數，并以海量數據進行訓練，因而具備傳統方法所不具備的諸多優秀特性。具體而言，視覺通用模型具備以下優勢： 1）零樣本多任務遷移能力（Zero-shot Multi-task Transfer）

傳統方法往往為不同任務采用各自的任務特定框架，而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務，卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后，能夠學習到通用表征，可直接擴展至多種下游任務，并具備零樣本遷移能力，無需額外適配器進行微調，從而實現真正的通用感知（general perception）。 2）多模態輸入（Multimodality Inputs）

通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異，統一編碼為特征表示極具挑戰。例如，圖像為規則的二維矩陣，而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同：分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號，還需考慮文本、音頻等其他模態，這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】，部分工作將多模態輸入統一為一系列 token 表示。 3）強大的表征能力（Great Representation Ability）

現有的通用模型往往擁有數十億個參數。盡管計算代價高昂，但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進，進一步增強模型性能。 4）大數據的賦能（Power of Big Data）

大數據為模型訓練提供了豐富的知識。例如，ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性，從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況，有助于模型在復雜場景中穩定工作。盡管視覺通用模型優勢顯著，但仍面臨若干挑戰： 1）框架設計（Framework Design）

通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題，但目前尚未形成標準化的流程。因此，建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2）數據獲取（Data Acquisition）

通用模型的訓練依賴于海量數據。在 NLP 領域，大量帶標簽的文本數據可從網頁中獲取；而在計算機視覺中，網絡上的大多數視覺數據并未標注，獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法，但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3）倫理風險（Ethical Risks）

與大語言模型類似，視覺通用模型也面臨倫理風險。在生成任務中，模型可能產生包含個人或敏感信息的內容，例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】；在判別任務中，訓練數據中的無意識偏見可能會影響模型判斷；此外，不當或非法數據的使用還可能引發法律問題。在過去兩年中，我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展，越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注，但尚缺乏一篇系統性綜述來全面總結這一熱門方向，因此我們撰寫了本文。本綜述的主要目的包括： 1. 對相關研究文獻進行系統梳理，幫助研究者快速入門； 1. 總結現有方法的局限與挑戰，并指出未來可能的研究方向； 1. 理清視覺通用模型與其他相關領域的聯系與差異。

在相關工作方面，Awais 等人（2023）提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練，并能接收多模態輸入，但通用模型還具備處理多任務的強泛化能力，而基礎模型在適應下游任務時通常需要針對特定數據集進行微調，限制了其實用性。因此，我們的綜述與 Awais 等人的工作在概念上存在顯著差異，我們更加專注于總結通用模態感知與通用任務處理能力。相比之下，另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發，探討了多模態基礎模型的分類與演進，包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型（VGM）這一子領域，深入剖析其框架設計與關鍵技術。我們將本文組織為六個部分，以系統梳理視覺通用模型的發展，如圖 1 所示： * 第2節：介紹 VGM 常用的任務類型、數據集與評測基準； * 第3節：深入分析 VGM 的框架設計，包括編碼器驅動方法與序列到序列框架； * 第4節：總結應對多領域輸入、模型設計和多任務輸出的關鍵技術； * 第5節：探討 VGM 與相關領域的聯系，尤其是多任務學習、視覺-語言學習與開放詞表學習； * 第6節：展示 VGM 的真實應用場景，并討論其面臨的挑戰與未來發展方向。

我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料，助力其在這一快速發展的研究領域中取得突破。

付費5元查看完整內容

視頻生成 · 擴散模型 · 具身智能 ·

5 月 4 日

[付費5元查看完整內容]交互式生成視頻綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—交互式生成視頻（Interactive Generative Video, IGV）作為一項關鍵技術，正在應對各領域對高質量、交互性視頻內容日益增長的需求。本文將 IGV 定義為一種結合了生成能力與交互功能的技術，既能夠生成多樣化、高質量的視頻內容，又能夠通過控制信號和響應反饋實現用戶參與。我們綜述了 IGV 當前的應用格局，聚焦于三個主要領域：（1）游戲，IGV 實現了虛擬世界中的無限探索；（2）具身人工智能（Embodied AI），IGV 作為具備物理感知能力的環境生成器，用于訓練代理體在動態演化場景中的多模態交互；（3）自動駕駛，IGV 提供閉環仿真能力，用于安全關鍵的測試與驗證。為引導未來的發展，我們提出了一個全面的框架，將理想的 IGV 系統分解為五個核心模塊：生成、控制、記憶、動態建模與智能。進一步地，我們系統分析了實現每個模塊所面臨的技術挑戰與未來方向，例如實現實時生成、支持開放域控制、保持長期一致性、準確模擬物理規律以及融合因果推理。我們相信，這一系統性分析將促進 IGV 領域的研究與技術發展，推動該技術邁向更復雜、更具實用性的應用。

關鍵詞—交互式生成視頻；視頻生成；視頻擴散模型；電子游戲；具身人工智能；自動駕駛。

1 引言

近年來，從數字娛樂到工業應用，各領域對高質量交互式視頻的需求顯著增長。這一趨勢反映了視頻技術在仿真、決策支持和內容創作等應用中的日益重要作用。與此同時，受益于生成建模范式的飛速發展，尤其是擴散模型（Diffusion Models）[12–15] 和下一幀預測方法（Next-Token Prediction Approaches）[16–18] 的推動，視頻生成技術也取得了顯著進展 [1–11]。現代視頻生成系統不僅能生成高度逼真的輸出，還能對生成內容進行精確控制，為多個領域帶來了前所未有的應用機會。基于這些新興需求與技術進展，本文對交互式生成視頻（Interactive Generative Video, IGV）技術進行了全面綜述。為建立討論基礎，我們首先引入 IGV 的概念，該技術具備兩個關鍵特征。其一，IGV 是一種生成式系統，利用在大規模視頻數據集上訓練的生成模型，生成多樣化、高質量的開放域視頻內容；其二，IGV 具有交互性，能夠通過控制信號和響應反饋實現用戶在線參與，使用戶能夠通過交互完成特定任務或體驗。根據我們的 IGV 定義，圖1 展示了三個主要 IGV 應用方向的發展軌跡：游戲、具身人工智能和自動駕駛。在游戲領域 [19–35]，電子游戲本質上結合了視覺輸出與玩家交互，完美契合 IGV 的核心特性。IGV 能夠創建可無限探索的交互式虛擬世界，根據玩家的偏好與技能動態生成并個性化游戲內容。此外，IGV 的生成能力顯著簡化了游戲開發流程，減少了對人工素材制作的依賴，降低了開發成本并提高了效率。代表性實例包括 Oasis [22] 和 WHAM [26]，它們已發布可供公眾試玩的版本，雖仍處于早期階段，但初步展示了 IGV 在游戲中的潛力。在具身人工智能（Embodied AI）領域 [36–48]，IGV 是構建真實且具交互性的機器人仿真環境的關鍵。它可生成高保真視頻序列，用于任務規劃與可視化，幫助機器人更好地理解并與環境交互。同時，IGV 提供多樣化的合成場景，有效緩解訓練數據不足的問題，從而提升策略學習能力，使機器人能在不同任務和環境中實現泛化。在自動駕駛領域 [49–64]，IGV 提供了超越傳統基于物理模擬器的高級仿真能力。它能基于不同控制輸入生成高保真的視頻仿真，支持在多樣化駕駛場景中的全面訓練。此外，IGV 能夠預測環境變化與潛在風險，提升實時決策能力，并提供安全平臺，用于測試自動駕駛系統在罕見或高危場景下的性能。盡管 IGV 在游戲、具身人工智能和自動駕駛等領域展現出廣闊的應用前景，為更好地推動其發展，我們提出了一個全面的系統框架（見圖3），用于描述理想 IGV 系統的基本組成部分。該框架通過五個關鍵模塊識別核心挑戰與發展方向：生成模塊聚焦于基本的視頻生成能力，盡管生成質量已大幅提升，但在實現實時性能和逐幀自回歸生成方面仍面臨挑戰；控制模塊處理用戶與虛擬世界的交互，其核心難點在于實現精確控制的同時能泛化至開放域場景；記憶模塊保證靜態與動態內容的一致性，但長期連貫性仍是難題；動態模塊模擬虛擬世界中的物理規律，難點在于精確還原各類物理現象并實現對物理參數的精細調控；智能模塊融合因果推理能力，代表了更高級別的智能，有望推動 IGV 演化為具備自我進化能力的元宇宙。本文的主要貢獻如下：首先，我們全面綜述了 IGV 技術在多個領域（包括游戲、具身人工智能與自動駕駛）中的應用現狀；其次，提出一個系統化框架，將理想 IGV 系統劃分為五個基本組成模塊，為該技術的發展提供結構化的理解路徑；最后，基于該框架，我們系統分析了實現每個模塊所面臨的技術挑戰，為該領域的未來研究提供了明確方向。本文結構安排如下：第2節介紹視頻生成的基礎技術，涵蓋 VAE、GAN、擴散模型、自回歸模型及其混合形式；第3節描述 IGV 系統框架，包括生成、控制、記憶、動態與智能等模塊，并分析相關挑戰與研究方向；第4至第6節分別探討 IGV 在游戲、具身人工智能與自動駕駛領域中的應用現狀、技術方法、面臨挑戰與發展趨勢。本研究為我們此前工作的擴展版本 [65]，具有以下拓展內容：我們所提出的游戲引擎框架不僅適用于游戲技術，也代表了視頻生成模型向更高智能演進的路徑，能夠指導多領域的技術發展。具體而言，我們補充分析了 IGV 在自動駕駛和具身人工智能等更廣泛領域的應用，并識別出相應挑戰與未來研究方向。在圖3中，我們構建了交互式生成視頻（Interactive Generative Video, IGV）系統的整體框架。IGV 系統構成了一個虛擬世界，并與來自現實世界的多種角色進行交互。這些現實世界中的角色包括人類參與者，如玩家、設計師和藝術家，他們可以與 IGV 系統交互，從而體驗其虛擬世界，或利用其高效地進行內容創作。同時，這些角色還包括各種智能體及其配備的傳感器，例如機器人、機械臂、車輛及其搭載的攝像頭，代表了 IGV 在自動駕駛和具身智能等領域的應用潛力。

付費5元查看完整內容

不平衡數據學習 · 機器學習 · 深度學習 ·

2 月 15 日

[付費5元查看完整內容]不平衡數據學習的全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—隨著數據可用性的擴展，機器學習（ML）在學術界和工業界取得了顯著的突破。然而，不平衡的數據分布在各種原始數據中普遍存在，并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用，本文系統分析了各種現實世界的數據格式，并將現有研究針對不同數據格式的工作歸納為四個主要類別：數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在，從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述，突出當前面臨的挑戰，并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展，機器學習（ML）已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計，以適應特定的數據分布，并隨后應用于各種下游任務，從預測分析到自動決策系統。因此，機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確，而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。然而，自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中，不平衡數據分布尤其突出，反映了各個領域普遍存在和自然產生的差異。例如，在金融領域，欺詐行為的實例相較于合法交易來說相對稀少，這使得模型難以準確地檢測這些異常。在醫療領域，稀有疾病在醫學數據集中可能被低估，這為開發穩健的診斷模型帶來了重大挑戰。在工業領域，質量控制系統常常需要識別稀有的產品缺陷，而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜，而且對系統的魯棒性提出了更高要求。通常，不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好，這些組的數據充足，但在低資源組上表現較差，后者的數據稀缺，導致數據分布的界限模糊。因此，盡管機器學習模型可能在整體上表現令人滿意，但在這些低資源組中的有效性會顯著降低。然而，這些低資源組往往在現實世界的應用中更為重要。例如，在醫學診斷中，由于數據不足未能檢測到稀有疾病，可能導致漏診和不充分的患者護理。同樣，在金融系統中，無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例，降低了自動決策系統在實際應用中的效用和安全性。為應對這些挑戰，機器學習領域已提出了一系列方法，我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要，采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要，符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要，使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法，以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性，平等地考慮所有樣本。最后，集成方法通過組合多個模型，屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢，以潛在地減少由不平衡數據引發的偏差，從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類，這一分類不僅有助于全面的領域調查，還闡明了這些策略背后的動機，幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現，包括圖像、文本和圖形，突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要，因為它加深了對每種數據格式的理解，并有助于為復雜數據格式場景制定針對性的機器學習策略。本調查的貢獻總結如下：

我們提供了關于不平衡數據學習的全面文獻綜述，系統地概述了基于機器學習基礎過程的方法。
我們對不平衡在各種數據格式中的表現進行了深入分析，包括圖像、文本和圖形，提供了每種格式特有的挑戰和方法的詳細探索。
我們突出了可用于解決不平衡數據問題的資源，并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員，幫助他們有效和高效地開發策略。

本調查的結構安排如下：第二節對處理不平衡問題的方法進行了詳細調查，并按我們的分類法進行組織；第三節廣泛討論了不平衡在各種數據格式中的表現；第四節對不平衡數據方法的評估指標進行了詳細研究；第五節介紹了可用于學習不平衡數據的資源；最后，第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

人工智能 · 生成式人工智能 ·

1 月 26 日

[付費5元查看完整內容]視覺中的生成物理人工智能：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—生成性人工智能（AI）通過使機器能夠以空前的復雜性創建和解釋視覺數據，迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上，能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上，生成模型主要關注視覺逼真度，而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果，如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真，其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互，架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI，按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式，討論了評估協議，并指出了未來的研究方向。通過提供全面的概述，本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱，解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里，該領域見證了多種生成模型的快速發展，包括變分自編碼器（VAE）[1]、生成對抗網絡（GAN）[3]、擴散模型（DM）[4]、[5]、[6]、神經輻射場（NeRF）[7]、高斯濺射（GS）[8] 和視覺自回歸模型（VAR）[9]。這些模型不斷推動生成學習的邊界，利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界，通過在未見過的場景中想象新的視覺內容實例。在這些進展中，擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲，擴散模型展現出卓越的魯棒性和多功能性，成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態，包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中，視頻生成最近在生成學習領域獲得了顯著關注，它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性，還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注，如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究，從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰，從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是，視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息，使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下，視頻可以被視為現實世界決策的“語言”，具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45]，處理物理知識，類似于文本大語言模型（LLM）處理抽象知識的方式。這種模型可以促進大量下游任務的執行，包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力，生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力，催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合，如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性，為其演變為世界模型鋪平了道路。然而，從生成到穩健世界建模的過渡仍然存在一個關鍵差距：真實世界物理的忠實理解和復制能力[66]（見圖1）。當前的最先進模型主要針對像素空間中的視覺真實感進行優化，而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器，它們必須融入對物理法則的深刻理解，如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要，以確保內容與物理世界的約束和行為一致。因此，我們提供本綜述，作為對現有文獻的及時而全面的回顧，旨在將物理感知嵌入生成模型。通過審視這些努力，我們希望突出至今所取得的進展，提供清晰的范式結構，并識別未來的潛在研究方向。綜述范圍：本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此，我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻，例如物理信息神經網絡（PINN）[67]、[68]，即使任務與生成學習相關，例如[69]、[70]、[71]。我們專注于生成任務，因此不包括圖像處理任務，如去模糊、去霧和增強，盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺，我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較：如同在我們的范圍中所述，本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同，因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成，因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述，如人類視頻或運動生成[80]、[81]、[82]相比，我們的綜述也有不同的范圍。

付費5元查看完整內容

擴散模型 · 條件圖像生成 · 生成模型 ·

2024 年 10 月 1 日

[付費5元查看完整內容]《基于擴散模型的條件圖像生成》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來，基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法，導致了相關文獻的爆炸式增長。然而，擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性，為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中，我們根據條件如何融入擴散模型的兩個基本組件（即去噪網絡和采樣過程）對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時，各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后，我們指出了一些關鍵但仍未解決的未來問題，并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型，擴散模型，條件圖像生成，條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時，它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破，如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而，早期基于深度學習的生成模型（如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200]）在條件圖像生成中的表現并不令人滿意，這是由于它們的內在局限性：GANs 容易出現模式崩潰和訓練不穩定的問題 [49]；VAEs 通常生成模糊的圖像 [81]；而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來，擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角，憑借其強大的生成能力和多功能性，得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中，圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能，表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外，與一步生成模型相比，擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具，近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展，模型架構、訓練方法和采樣技術的眾多變化，以及潛在的條件生成任務的廣泛性，研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述，提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述，如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64]，或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解，但它們并未涵蓋不同條件生成任務在模型框架中的共同特征，特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述，但它們的范圍有限，主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作，忽略了早期將條件集成到無條件去噪網絡中的工作，或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎，并且在低級任務如圖像修復中仍然廣泛應用。此外，[182] 主要關注基于擴散模型的圖像編輯框架，缺乏對該領域其他任務統一框架的系統分析，而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此，它們的分類方法缺乏系統性，并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下，本綜述旨在提供一個全面且結構化的框架，涵蓋當前廣泛的 DCIS 研究工作，基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說，我們通過審查和總結現有的 DCIS 方法，探討條件如何集成到擴散建模的兩個基本組件中：去噪網絡和采樣過程。在去噪網絡方面，我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中，我們將六種主流的采樣中條件機制進行分類，詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述，使他們能夠設計適用于其所需任務的條件生成框架，包括尚未探索的新任務。

本綜述的其余部分組織如下：首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來，我們在第三部分總結去噪網絡中的條件集成方法，并在第四部分總結采樣過程中的方法。最后，我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

深度學習 · 視頻異常檢測 · 異常檢測 ·

2024 年 9 月 10 日

[付費5元查看完整內容]基于深度學習的視頻異常檢測：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務，VAD 已經取得了許多顯著的進展。在深度學習的時代，隨著具備持續增長的能力和容量的架構的爆發，基于深度學習的各種方法不斷涌現于 VAD 任務中，極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此，面對如此多樣的方法和大量的文獻，一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述，涵蓋了五種不同類別的范疇，即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法，并深入探討了基于預訓練大模型的最新 VAD 工作，彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務，我們構建了一個有條理的分類體系，深入討論了不同類型方法的特點，并展示了它們的性能對比。此外，本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后，我們為 VAD 社區提供了若干重要的研究方向。關鍵詞——視頻異常檢測，異常檢測，視頻理解，深度學習。

異常代表著偏離標準、正常或預期的事物。正常性有多種多樣，而異常現象則非常稀少。然而，當異常出現時，往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常，從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】，例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中，視頻異常檢測 (VAD) 占據著重要地位，異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用（例如暴力、入侵和徘徊檢測），還廣泛應用于其他場景，如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力，VAD 吸引了來自工業界和學術界的廣泛關注。

在深度學習時代之前，常規的方法是將特征提取與分類器設計分離，形成一個兩階段的過程，并在推理階段將它們結合起來。首先進行特征提取，將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性，且在面對復雜場景時難以有效捕捉行為表達，但這些早期工作極大啟發了后續基于深度學習的研究工作。

在過去十年中，隨著深度學習的崛起，傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現，近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如，ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器，首次用于捕捉視頻中的規律；FuturePred【4】首次利用 U-Net 預測未來的異常；DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情，我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查（這個時期由基于深度學習方法的崛起所驅動）。我們選擇了五個相關主題，即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測，并在圖 1 中展示了出版物統計數據。不難看出，從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢，表明 VAD 已經引起了廣泛的關注。此外，我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢，并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢，未顯示出任何性能瓶頸。例如，CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升，從 70.2% AUC【3】上升到 90.1% AUC【7】。此外，針對后續提出的弱監督 VAD，研究也取得了顯著進展。這表明，隨著架構的發展，深度學習方法的能力不斷提升，同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。

上述統計數據清楚地表明，深度學習驅動的 VAD 是當前研究的熱點。因此，迫切需要對現有工作進行系統分類并進行全面總結，以便為新手提供指導并為現有研究人員提供參考。基于此，我們首先收集了近年來一些高影響力的 VAD 綜述，見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD，缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析，主要關注 2020 年之前的方法，忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查，但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述，但其重點不僅限于視頻，還涉及圖像異常檢測，導致對 VAD 任務的系統性組織不足。最近，Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系，例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD，并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而，他們的研究范圍局限于傳統的閉集場景，未涵蓋最新的開放集監督 VAD 研究，也未引入基于預訓練大模型和可解釋學習的全新框架。

為全面解決這一差距，我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面，以提供對 VAD 研究的全面分析。具體而言，我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查，并提出了一個統一的框架，將不同的 VAD 任務整合在一起，填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源，包括基準數據集、評估指標、開源代碼和性能對比，以幫助該領域的研究人員避免走彎路并提高效率。此外，我們系統地對各種 VAD 任務進行分類，將現有工作劃分為不同類別，并建立了一個清晰的結構化分類體系，以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系，我們還對每種模式進行了全面分析。此外，在整個綜述中，我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。本綜述的主要貢獻總結如下三個方面：

我們對 VAD 進行了全面綜述，涵蓋了基于不同監督信號的五種任務，即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。
跟隨研究趨勢，我們回顧了最新的開放集監督 VAD 研究。此外，我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知，這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。
針對不同任務，我們系統地回顧了現有的基于深度學習的方法，更重要的是，我們引入了一個統一的分類框架，從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。

半監督視頻異常檢測

基于我們對以往綜述的深入調查，我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別，例如基于重建、基于距離和基于概率的方法，有些綜述則根據輸入進行分類，例如基于圖像、基于光流和基于片段的方法。顯然，現有的分類綜述相對簡單且表面化，因此難以全面有效地涵蓋所有方法。為了解決這個問題，我們建立了一個全面的分類體系，涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。

如前所述，在半監督 VAD 任務中，只有正常樣本可用于訓練，這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息，學習深度神經網絡 (DNN) 來解決前置任務。例如，正常性重建是一個經典的前置任務【3】。在此過程中，需要考慮幾個關鍵方面：樣本信息的選擇（模型輸入）、前置任務的設計（方法論）、深度網絡的利用（網絡架構）、方法的改進（優化）和異常結果的表達（模型輸出）。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中，我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。

IV. 弱監督視頻異常檢測

弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向，其起源可追溯到 DeepMIL【5】。相比于半監督 VAD，這是一個較新的研究方向，因此現有的綜述缺乏全面而深入的介紹。如表 I 所示，Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而，前者僅簡要描述了 2018 至 2020 年間的一些成果，而后者盡管涵蓋了近期的工作，卻缺乏科學的分類體系，僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景，我們從 2018 年至今調查了相關工作，包括基于預訓練大模型的最新方法，并從四個方面對現有工作進行了分類：模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。與半監督 VAD 相比，弱監督 VAD 在訓練過程中明確定義了異常，為檢測算法提供了明確的方向。然而，與全監督 VAD 相比，粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包（正常視頻）中選擇看起來最異常的最困難區域（視頻片段），以及從異常包（異常視頻）中選擇最有可能異常的區域。然后，目標是最大化它們之間的預測置信差異（即使最困難的正常區域的置信度接近 0，最異常區域的置信度接近 1），這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征，異常區域的異常置信度逐漸增加，而正常區域的置信度則逐漸下降。不幸的是，由于缺乏強監督信號，檢測模型在上述優化過程中不可避免地會涉及盲目猜測。

VII. 開集監督視頻異常檢測

讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中，未見過的異常很可能會出現，因此，關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務，其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的（閉集）VAD 不同，傳統 VAD 中的異常類型是已知且定義明確的，而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要，因為在訓練過程中預見并標注所有可能的異常是不現實的。因此，開集 VAD 的研究引起了極大的關注。然而，現有的綜述工作并未對開集 VAD 進行深入研究。基于此，我們進行了深入的調查，并對現有的開集 VAD 工作進行了系統分類。據我們所知，這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中，我們根據不同的研究方向，將開集監督 VAD 大致分為兩類：開集 VAD 和小樣本 VAD。在圖 10 中，我們展示了六種經典的開集監督 VAD 方法。

IX. 結論

我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同，我們提出了一個系統的分類體系，將現有的工作根據監督信號分為五類：半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別，我們進一步根據模型的不同特征進行細分，例如模型輸入和輸出、方法論、優化策略和架構，并展示了各種方法的性能對比。最后，我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。

付費5元查看完整內容

深度學習 · 圖異常檢測 ·

2021 年 7 月 28 日

[付費5元查看完整內容]基于深度學習的圖異常檢測技術綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：圖異常檢測旨在大圖或海量圖數據庫中尋找“陌生”或“不尋常”模式，具有廣泛的應用場景.深度學習可以從數據中學習隱含的規律，在提取數據中潛在復雜模式方面表現出優越的性能. 近年來隨著基于深度神經網絡的圖表示學習取得顯著進展，如何利用深度學習方法進行圖異常檢測引起了學術界和產業界的廣泛關注. 盡管最近一系列研究從圖的角度對異常檢測技術進行了調研，但是缺少對深度學習技術下的圖異常檢測技術的關注. 首先給出了靜態圖和動態圖上各類常見的異常定義，然后調研了基于深度神經網絡的圖表示學習方法，接著從靜態圖和動態圖的角度出發，梳理了基于深度學習的圖異常檢測的研究現狀，并總結了圖異常檢測的應用場景和相關數據集，最后討論了圖異常檢測技術目前面臨的挑戰和未來的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200685

圖作為一種通用的數據結構,被廣泛用于表示復雜的結構化數據．相對于其他數據結構,它能更好地存儲和表達實體及其聯系．現實世界中,圖在社交網絡分析、Web網絡分析、交通路網優化、知識圖譜構建等領域均有廣泛的應用．針對這些語義豐富、樣式多樣、規模龐大的圖數據,如何快速、準確地檢測其中的異常引起了學術界和產業界的廣泛關注．圖異常檢測是指在一個大圖或海量圖數據庫中尋找包含“陌生”或者“不尋常”模式的結構(包括節點、邊或者子圖),具有廣泛的應用場景,例如英特網中的惡意攻擊、社交網絡中的突發事件檢測、電子商務中的水軍發現等．相較于傳統的異常檢測方法,基于圖的異常檢測由于圖具有強大的表達能力,不僅可以將復雜的數據加以直觀的呈現,同時也能將數據中隱含的相關性融入到異常檢測過程中．

面向圖的異常檢測工作最早發表于２００３年[１], 現有工作大致可分為基于靜態圖和基于動態圖２類．在基于靜態圖的異常檢測工作中,一類方法利用 ego網絡[２]或者基于團體[３]研究問題;一類方法基于圖的結構信息進行異常檢測[４Ｇ６],也有一些工作基于子空間選擇,試圖在節點特征的子空間中發現異常[７Ｇ９]．還有一些工作通過概率、統計方法獲取圖的統計信息進行異常檢測[１０Ｇ１３]．盡管這些工作在異常檢測上取得了不錯的進展,但這些方法如利用ego 網絡的方法,由于處理圖數據,必須考慮節點之間的交互,在圖較為稀疏時難以實現較好的效果;或者如子空間選擇和統計方法,由于淺層學習機制難以綜合利用節點的屬性和結構信息．在基于動態圖的異常檢測方面,同樣有一些工作基于團體[１４Ｇ１５]、基于結構[６,１６]、或基于概率統計[１７Ｇ１９]進行異常檢測．另外一類典型的方法是首先獲取圖的概要,然后通過聚類和異常檢測來確定概要中的異常,例如文獻 [２０Ｇ２１],但是這些方法獲得的概要無法保留重要的結構信息,比如鄰接節點的信息．現有的基于動態圖的異常檢測方法大多依賴于啟發式規則,通常只是簡單地考慮某一類特征;雖然有部分方法[２２Ｇ２３]考慮了內容甚至時間因素,但并不靈活,導致其應用局限于特定的場景．

近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面表現出優越的性能,并在音頻、圖像和自然語言處理等領域得到了廣泛應用．深度學習方法能夠合理處理復雜的屬性信息,并且可以從數據中學習隱含的規律;此外,通過神經網絡對圖進行嵌入不僅可以很好地保留信息[２４Ｇ２６],還可以很好地處理節點或邊的屬性,同時保留結構信息,進而方便檢查隱空間中節點或邊表示的相似性．近年來隨著對圖進行嵌入表示取得顯著進展,如何利用深度學習方法進行圖異常檢測在過去幾年中吸引了廣泛關注．基于深度學習的圖異常檢測方法通常使用圖的嵌入表示方法先將圖表示為隱空間中的向量,然后使用該向量重構圖從而剔除異常信息的影響,最后通過重構誤差進行異常檢測．

關于異常和離群點檢測,已經存在非常全面的綜述類文章,例如Zimek等人[２７]重點介紹了關于高維離群值檢測,Schubert等人[２８]討論了局部離群值檢測技術．但是,這些文章通常關注多維數據實例的點,沒有或者不是直接地關注基于圖的檢測技術．盡管文獻[２９]從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注．與以往關于異常檢測的綜述不同,本文專注于大圖或海量圖數據庫中的異常檢測,并對基于深度學習的圖異常檢測技術進行全面地梳理和總結, 是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述．

本文首先對圖上的異常定義做了全面的分析, 然后詳細介紹了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,對現有基于深度學習的圖異常檢測方法進行系統地總結和歸類,并討論相關方法的局限性．接著簡單介紹圖異常檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未來可行的研究方向．本文期望通過對目前基于深度學習的圖異常檢測研究現狀的梳理,為后續研究提供可借鑒的思路．

付費5元查看完整內容