摘要—三維場景生成旨在合成具備空間結構、語義意義和照片級真實感的環境,廣泛應用于沉浸式媒體、機器人、自動駕駛和具身智能等領域。早期基于程序規則的方法具有良好的可擴展性,但在多樣性方面受到限制。近年來,深度生成模型(如生成對抗網絡、擴散模型)和三維表示方法(如NeRF、三維高斯表示)的進展,使得模型能夠學習真實世界的場景分布,從而在逼真度、多樣性和視角一致性方面取得顯著提升。擴散模型等新興方法通過將三維場景合成重新表述為圖像或視頻生成問題,進一步拉近了三維合成與照片級真實感之間的距離。 本綜述系統地回顧了當前主流的三維場景生成方法,將其劃分為四大范式:程序生成、基于神經三維表示的生成、基于圖像的生成和基于視頻的生成。我們分析了各類方法的技術基礎、權衡因素及代表性成果,并回顧了常用數據集、評估協議以及下游應用場景。最后,我們討論了當前在生成能力、三維表示、數據與標注、評估機制等方面所面臨的關鍵挑戰,并展望了若干前沿方向,包括更高的生成保真度、具備物理意識和交互能力的生成方法,以及感知與生成一體化的統一模型。 本綜述梳理了三維場景生成領域的最新研究進展,強調了生成式人工智能、三維視覺與具身智能交叉融合中的潛力方向。我們同時維護了一個持續更新的項目頁面以跟蹤最新進展://github.com/hzxie/Awesome-3D-Scene-Generation。 關鍵詞—三維場景生成,生成模型,人工智能生成內容,三維視覺
三維場景生成的目標是構建具備空間結構、語義信息和視覺真實感的三維環境。作為計算機視覺領域的重要基石,該技術支撐著眾多應用場景,包括沉浸式影視制作 [1], [2]、開放世界游戲設計 [3], [4], [5]、建筑可視化 [6], [7],以及增強/虛擬現實(AR/VR)[8], [9], [10]、機器人仿真 [11], [12] 和自動駕駛 [13], [14] 等。在更深層次上,三維場景生成對于推動具身人工智能(Embodied AI)[15], [16], [17] 和世界模型(World Models)[18], [19], [20] 的發展至關重要,這些模型依賴于多樣、高質量的場景進行學習與評估。逼真的場景合成能力有助于提升智能體的導航、交互與適應能力,從而推動自主系統和虛擬仿真技術的發展。 如圖1所示,三維場景生成近年來獲得了顯著關注。早期方法依賴于基于規則的程序生成與人工設計的素材資源 [21], [22],在游戲設計 [23]、城市規劃 [24], [25] 和建筑建模 [26], [27] 中具備良好的可控性與可擴展性。然而,這些方法依賴預定義規則與確定性算法,導致生成結果缺乏多樣性,且在創建真實或復雜場景時需大量人工干預 [28]。 深度生成模型的興起(如生成對抗網絡 [29] 與擴散模型 [30])使神經網絡能夠學習真實世界的空間分布,從而合成多樣且逼真的空間結構。結合NeRF [31] 和三維高斯表示 [32] 等三維表達技術的突破,基于神經網絡的三維生成方法在幾何精度、渲染效率與視角一致性等方面均取得顯著提升,特別適用于構建具備照片真實感的虛擬環境。 從單張圖像出發,基于圖像的場景生成方法借助相機姿態變換與圖像擴展技術,逐步生成連續視角 [33], [34] 或局部全景場景 [35], [36]。隨著視頻擴散模型的快速發展 [37], [38],視頻生成的質量顯著提升,從而激發了過去兩年中三維場景生成的研究熱潮。這類方法將三維場景生成建模為視頻生成問題,通過時序建模提高視角一致性 [39]。動態三維表達 [40], [41] 的引入進一步推動了沉浸式動態場景的合成 [42], [43]。 與三維對象或虛擬角色的生成相比,三維場景生成在多個維度上面臨更大挑戰: 1. 規模:對象和角色通常位于固定、有限的空間范圍內,而場景需容納多個實體并適應更大且變化多樣的空間尺度; 1. 結構復雜性:場景涉及多樣對象間復雜的空間與語義關系,模型必須確保結構上的功能一致性與整體的合理性; 1. 數據稀缺性:盡管面向對象或角色的生成已有大量標注數據集,但高質量的三維場景數據集仍稀缺且成本高昂; 1. 精細控制:場景生成往往要求用戶對對象布局、功能分區和風格等屬性進行控制,而當前方法在靈活性與可解釋性方面仍有限。
盡管三維場景生成取得了迅速進展,目前尚缺乏一篇系統性綜述文獻來對現有方法進行分類、挑戰總結與未來展望。已有綜述多聚焦于狹窄領域,例如程序生成 [44], [45]、室內場景 [46], [47]、自動駕駛 [48] 以及文本驅動生成 [49], [50],視角較為局限。更廣泛的綜述聚焦于通用三維或四維內容生成 [51]–[56],通常僅將場景生成作為附屬內容,導致覆蓋面零散。例如,一些研究專注于擴散模型 [55]、文本驅動場景生成 [52] 或四維生成 [56],而忽視了如三維高斯表示 [51]、圖像序列 [53], [54]、以及程序與視頻生成范式 [51], [53], [54] 等關鍵組成。世界模型相關綜述 [18], [57], [58] 主要聚焦于駕駛場景下的視頻預測,提供的視角較為片面。因此,迫切需要一份全面、系統、緊跟進展的綜述,對三維場景生成進行整理與分析。
本綜述系統梳理了三維場景生成領域的最新研究進展。我們將現有方法歸類為四大類型:程序生成、基于神經三維表達的生成、基于圖像的生成與基于視頻的生成,并分析了各類方法的核心范式與技術權衡。此外,我們回顧了在場景編輯、人-場交互、具身智能、機器人與自動駕駛等下游任務中的應用。我們還梳理了常見的三維場景表達方式、數據集與評估協議,并指出當前在生成能力、可控性與真實感方面的限制。最后,我們探討了未來的發展方向,包括更高保真度、具物理意識與交互性的生成方法,以及感知-生成一體化的模型。
本綜述主要關注基于三維表達的三維場景生成方法。這些生成方法的目標是合成多樣的三維場景,而傳統的三維重建方法僅能從給定輸入重建單一場景。關于三維重建的綜述可參考 [59], [60]。此外,本綜述不涵蓋通用的視頻生成方法 [38], [61] 與三維對象生成方法 [62]–[64],盡管它們在某些場景中具備一定的三維生成能力。本文旨在補充現有關于三維生成模型的綜述 [51]–[55],填補對三維場景生成系統性總結的空白。
本綜述的結構如圖2所示。第2節介紹基本概念,包括任務定義、三維場景表達方式與生成模型基礎。第3節根據方法類別進行劃分,詳述各類方法的范式、優劣勢與技術路線。第4節介紹常用數據集與評估指標。第5節回顧各類三維場景生成的下游任務。第6節則討論當前面臨的挑戰、未來的發展方向,并總結全文。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
近年來,隨著交互媒體、擴展現實(XR)以及元宇宙等產業的智能化升級,對三維內容的需求呈指數級增長。為克服傳統手工建模方法中存在的流程繁瑣、生產周期長等問題,三維表示范式的創新與人工智能生成技術的融合帶來了革命性的進展。本文對靜態三維物體與場景生成領域中的前沿研究成果進行了系統綜述,并通過體系化的分類建立起一套完整的技術框架。具體而言,我們首先介紹主流的三維物體表示方式,隨后深入探討兩類核心的物體生成技術路徑:基于數據驅動的監督學習方法與基于深度生成模型的方法。在場景生成方面,我們聚焦于三種主流范式:基于布局引導的組合式合成、基于二維先驗的場景生成以及基于規則驅動的建模方式。最后,本文還深入剖析了當前三維生成面臨的挑戰,并提出了未來可能的研究方向。我們希望本綜述能夠為讀者提供對三維生成技術的結構化理解,并激發研究者在該領域開展更深入的探索。
幾十年來,自動內容生成技術經歷了顯著的發展。早期,基于規則的建模方法(如L系統 [1] 和過程形狀文法 [2, 3])在創建具有規則性和重復性結構的物體與場景方面表現出較高的效率。盡管這些方法能夠快速生成具有復雜幾何結構和紋理細節的三維內容,但其規則和文法的設計過程十分繁瑣,直到2010年代,神經網絡和深度學習在計算機視覺領域引發革命性變革后,情況才發生了改變。Guo 等人 [4] 首次將深度學習用于發現原子結構,從輸入圖像中提取規則并將其轉換為L系統,從而實現了逆向程序化建模。CropCraft [5] 則通過逆向程序化建模優化植物形態參數,從圖像中生成作物的網格表示。隨著深度學習技術的不斷突破,生成式人工智能在二維內容生成領域取得了革命性進展:以 DeepSeek [6] 為代表的文本解析與生成模型,以 Imagen [7] 和 GPT-4o [8] 為代表的文本生成圖像技術,均展現出卓越性能。
在元數據技術迅猛發展的背景下,三維內容生成作為二維技術的自然延伸,正受到廣泛關注。然而,其發展仍面臨諸多挑戰。維度的提升使得將顯式三維表示有效融合到神經網絡結構中變得更加復雜。同時,基于隱式神經輻射場(Neural Radiance Fields, NeRF)[9] 的新型渲染技術,在將生成內容直接應用于傳統光柵化圖形流水線時也面臨適配困難。此外,缺乏高質量三維資產數據集,也顯著增加了模型訓練的難度。 盡管如此,三維內容生成領域仍取得了一系列突破性成果。例如,Point-E [10] 構建了百萬級三維模型與文本配對數據集,用于訓練點云擴散模型,從而實現文本到三維點云的生成。諸多方法 [11–18] 將三維隱式表示集成進深度生成模型,并通過算法 [19, 20] 提取顯式網格。DreamFusion [21] 首次提出利用二維生成先驗監督三維表示優化的新范式,為后續研究奠定了新方向。同時,研究方法 [22–28] 充分利用大語言模型(LLMs)強大的文本解析能力,從自然語言描述中提取場景特征用于布局構建。RGBD2 [29] 則通過二維圖像先驗構建場景的網格表示。Raistrick 等人 [30] 提出的參數化生成框架,基于數學規則實現了自然資源的無限組合生成。
因此,本文旨在系統梳理三維內容生成領域的相關研究,歸納其技術路線并進行分類總結。如表1所示,我們對近年來代表性工作進行了結構化整理,聚焦于三維表示、三維物體與場景的生成方法。 如圖1所示,本文在第二節界定研究范圍并介紹相關工作;第三節介紹三維表示的基本理論,分析其優勢、局限性及與生成框架的融合方式。隨后,我們將三維內容生成任務劃分為物體級與場景級兩個層面。第四節從公開數據集出發,介紹基于數據驅動的生成方法,隨后探討其如何隨著深度生成模型的發展,擴展到三維生成領域并形成獨特的技術范式。第五節聚焦于場景生成,我們從理論角度將相關方法分為三類:基于布局或場景圖的多物體組合生成、基于二維圖像空間信息直接提取場景表示的方法,以及具有可控細節的規則驅動建模方法。代表性工作的時間線圖分別展示于附錄圖5與圖6中。最后,第六節指出當前領域所面臨的關鍵挑戰,并提出未來可能的研究方向。本文希望通過本綜述為研究人員提供技術參考,并激發后續的深入探索。 我們的主要貢獻可總結如下:
提出了一種新穎的分類方法,將三維內容生成劃分為物體生成與場景生成兩個子任務,并分別對其技術路徑進行了系統性總結與歸納; 全面回顧了近五年內的大量研究文獻,著重融合了最新研究成果,全面呈現技術演進軌跡與前沿發展動態。
摘要——理解和復現真實世界是人工通用智能(AGI)研究中的關鍵挑戰。為實現這一目標,許多現有方法(如世界模型)試圖捕捉物理世界的基本規律,以實現更精確的模擬和更有意義的交互。然而,當前的方法通常將不同模態(包括2D圖像、視頻、3D和4D表示)視為獨立的領域,而忽略了它們之間的相互關聯。此外,這些方法通常僅關注現實世界的某個孤立維度,而未能系統性地整合它們的聯系。因此,在本綜述中,我們提出了一個統一的多模態生成模型綜述,研究數據維度在真實世界模擬中的演進過程。具體而言,我們從2D生成(外觀)出發,擴展到視頻生成(外觀+動態)和3D生成(外觀+幾何),最終達到整合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為引導未來研究,我們提供了對數據集、評測指標和未來方向的全面回顧,并為初學者提供深入見解。本綜述旨在作為一座橋梁,推動多模態生成模型與真實世界模擬在統一框架下的發展。 索引詞——生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述
【2 基礎知識】 本部分對深度生成模型的基本原理做了簡要回顧。論文中介紹的各類生成模型都旨在通過深度神經網絡近似真實數據的分布。文中詳細討論了幾種主流模型:
──────────────────────────── 【3 各范式下的真實世界模擬】 論文按照數據維度的增長,系統地將真實世界模擬劃分為四個層次,即二維生成、視頻生成、三維生成和四維生成,每個層次均著眼于不同的屬性建模。 【3.1 二維生成】 在二維生成部分,重點討論了文本到圖像的生成技術。利用擴散模型、預訓練語言模型及自編碼器等技術,現有方法已能夠從文本描述中生成高質量、語義準確的圖像。論文中詳細介紹了Imagen、DALL-E、DeepFloyd IF、Stable Diffusion及其擴展版本(如SDXL和FLUX.1)等模型,這些模型通過多階段生成、跨模態編碼以及高效的降噪技術,在圖像外觀建模方面取得了顯著成效。
【3.2 視頻生成】 視頻生成技術在二維圖像生成的基礎上增加了時間維度,面臨更高的時空一致性要求。論文將當前視頻生成方法歸納為基于變分自編碼器與對抗生成網絡、基于擴散模型以及自回歸模型三大類:
【3.3 三維生成】 三維生成部分主要關注對物體幾何和外觀信息的全面建模。論文首先討論了三維數據表示方式,分為明確表示(如點云、體素網格、網格模型和三維高斯分布)、隱式表示(通過連續函數描述物體表面,如符號距離函數與神經輻射場)以及混合表示(結合前兩者優點,通過混合體素或基于四面體網格等方法實現高效表達)。在算法層面,論文介紹了文本到三維生成、圖像到三維生成以及視頻到三維生成三種任務。 (1)在文本到三維生成中,有兩大類方法:一種是前向傳播方法,直接從文本編碼中得到緊湊的三維表示;另一類是基于優化的方法,通過利用文本到圖像的預訓練模型產生中間視角,再借助擴散模型或其他損失函數進行三維結構的精細化優化。 (2)圖像到三維生成主要利用已有圖像數據,通過編碼壓縮網絡和生成模型得到符合輸入圖像特征的三維資產; (3)視頻到三維生成則利用視頻中的多視角信息,通過時空一致性訓練,生成既具有細節又滿足多視角約束的三維結構。論文中對各類方法的優缺點進行了詳細比較,并討論了如何利用大規模三維數據集以及多視角預訓練模型來提高三維生成的精度和一致性。
【3.4 四維生成】 四維生成則是在三維生成的基礎上進一步引入時間維度,用以描述動態場景的演變。此部分面臨空間連續性和時間一致性的雙重挑戰。論文介紹了四維數據表示方法,包括基于靜態三維表示擴展時間信息、采用時空分解與哈希映射等技術以降低重建單個場景的計算成本。當前,四維生成主要分為兩類方法:
──────────────────────────── 【4 數據集與評測指標】 論文還對真實世界模擬中常用的數據集與評測指標做了綜述。針對二維、視頻、三維和四維生成,不同任務所采用的數據集具有各自特點,如大規模圖文數據集、視頻編輯數據集以及用于三維重建和視角合成的專用數據集。同時,評測指標不僅包括圖像質量、視頻時空連貫性,還涵蓋三維模型的幾何精度、表面細節以及多視角一致性等多個方面。對這些指標的詳細比較和應用場景的討論為后續研究提供了重要參考。 ──────────────────────────── 【5 未來方向與挑戰】 盡管當前多模態生成模型在模擬真實世界方面已取得顯著進展,但論文仍指出存在若干開放性挑戰: 一是如何在保證生成內容高保真和細節豐富的前提下進一步提高生成速度與計算效率; 二是如何在多模態、多維度之間建立更加緊密的聯系,克服單一維度模型帶來的局限; 三是如何借助更大規模、更高質量的數據集,推動文本、圖像、視頻到三維乃至四維生成方法的統一與協同; 此外,在應用層面,如虛擬現實、自動駕駛、機器人等場景中對生成模型的魯棒性、實時性以及交互性提出了更高要求,這些均為未來研究的重要方向。 ──────────────────────────── 【6 結論】 本文系統性地綜述了多模態生成模型在真實世界模擬中的研究進展,詳細討論了從二維到四維生成的各個技術范式。通過對比傳統圖形學方法與基于深度學習的生成模型,論文不僅明確了當前各類方法的優勢和局限,也為未來研究指明了方向。總體來說,本綜述為研究人員提供了一個統一的視角,幫助大家在跨模態、跨維度的真實世界模擬領域進行更深入的探討和創新。
摘要
近年來,生成模型的最新進展顯著促進了個性化內容創作的發展。在給定一小組包含用戶特定概念的圖像的情況下,個性化圖像生成能夠創造出結合指定概念并遵循提供的文本描述的圖像。由于其在內容創作中的廣泛應用,近年來在這一領域已投入了大量的研究工作。然而,用于個性化的技術隨著生成模型的發展而不斷演化,且具有各自獨特且相互關聯的組成部分。在本綜述中,我們全面回顧了跨各種生成模型的廣義個性化圖像生成方法,包括傳統的生成對抗網絡(GAN)、當代文本到圖像的擴散模型和新興的多模態自回歸(AR)模型。我們首先定義了一個統一的框架,標準化不同生成模型中的個性化過程,涵蓋了三個關鍵組件:反演空間、反演方法和個性化方案。這個統一框架為分析和比較不同生成架構中的個性化技術提供了結構化的方法。基于該框架,我們進一步深入分析了每種生成模型中的個性化技術,突出其獨特貢獻和創新。通過比較分析,本綜述闡明了個性化圖像生成的現狀,識別了現有方法中的共性和特征差異。最后,我們討論了該領域中的開放挑戰,并提出了未來研究的潛在方向。相關工作的持續更新可以訪問://github.com/csyxwei/Awesome-Personalized-Image-Generation。
關鍵詞
個性化圖像生成,生成模型,生成對抗網絡,文本到圖像的擴散模型,多模態自回歸模型 1 引言
近年來,生成模型經歷了快速的發展,從生成對抗網絡(GANs)[1] 到擴散模型(DMs)[2] 和自回歸(AR)模型[3]。這些模型在生成多樣化和高質量圖像方面表現出了顯著的優勢。最近,文本到圖像(T2I)生成模型[4–7] 展現了通過文本輸入控制圖像生成的卓越靈活性。得益于大規模的預訓練,這些T2I模型表現出卓越的語義理解能力,能夠生成準確反映給定文本提示的逼真圖像。這些進展促進了多種下游任務的發展,如條件生成[8]、圖像編輯[9–11] 和藝術創作[12, 13]。其中,個性化圖像生成[14–17] 引起了廣泛關注,主要集中在通過圖像生成創造用戶特定的概念。 當代個性化方法[12, 14–18] 主要利用文本到圖像的擴散模型,并增強這些模型以在指定的上下文中生成用戶特定的概念。具體而言,用戶特定的概念通過一小組包含目標概念的圖像(例如,主題、面孔或風格,通常為 3~5 張圖像)來指示,而指定的上下文則由目標文本提供。在本綜述中,我們探討了跨多種生成模型的廣義個性化圖像生成技術,包括傳統的 GANs、當前的文本到圖像擴散模型以及新興的多模態自回歸(AR)模型。例如,如圖4所示,GAN 反演[19–23] 將真實圖像映射到 GAN 的潛在空間,從而允許后續的操作以實現廣義個性化。這些 GAN 反演技術顯著激發了當前基于擴散的個性化方法中概念反演技術的發展[16, 24, 25]。此外,最近自回歸模型[3, 26–28] 在多模態生成中的進展,為個性化生成提供了有前景的新方向。因此,本文將這些技術統稱為廣義個性化圖像生成,并對利用這些生成模型的個性化進行全面的綜述。 圖1展示了近年來該領域的論文數量和代表性作品。在過去兩年中,已提出超過180種基于擴散的個性化方法,而過去十年間,各種生成模型已發展出超過300種方法。 若干綜述[29–32] 提供了關于條件圖像合成的前沿擴散方法的全面回顧。盡管這些工作提供了寶貴的見解,但它們主要集中在一般的條件生成技術上,而沒有深入探討個性化圖像生成領域。其中,有兩篇最近的綜述[32, 33] 與我們的工作特別相關。Shuai 等人[32] 總結了文本到圖像擴散模型在圖像編輯中的應用,將個性化圖像生成歸類為一種無內容編輯形式。Zhang 等人[33] 則對基于擴散模型的個性化圖像生成進行了綜述,但傾向于忽視其他生成模型所引入的進展。與這些現有綜述不同,我們的研究集中在跨多種生成模型的個性化,包括 GANs、文本到圖像的擴散模型和多模態自回歸模型。我們全面概述了這些模型中的個性化技術,強調它們的共性和差異,以澄清當前個性化圖像生成方法的現狀。 為了系統地探索個性化圖像生成,本文首先定義了一個統一框架,標準化不同生成模型中的個性化過程。具體而言,我們將個性化圖像生成分為兩個主要階段:概念反演和個性化生成,其中包含三個關鍵組件。反演空間:個性化過程首先通過將給定概念反演為生成模型可以操作的表示,探索用于此目的的各種空間。反演方法:選擇目標空間后,可以采用多種反演方法來學習表示,例如基于優化的方法、基于學習的方法等。個性化方案:生成模型隨后將反演的概念表示與目標文本結合,生成個性化圖像。此步驟涉及針對每種生成模型量身定制的各種個性化方法和概念類別。 基于這一統一框架,我們進一步深入分析了每種生成模型中的個性化技術,突出它們在不同場景下的共性與差異。此外,我們還介紹了個性化圖像生成中常用的評估指標和數據集,并討論了該領域的開放挑戰以及未來研究的潛在方向。 本文其余部分組織如下:第2節定義了個性化圖像生成的問題,并介紹了生成模型的基礎知識;第3至5節討論了針對不同生成模型的個性化技術,包括 GANs、擴散模型和自回歸模型;第6節回顧了個性化圖像生成中現有的評估數據集和指標;第7節指出了該領域的開放挑戰,并概述了潛在的未來研究方向;最后,第8節通過總結關鍵見解和貢獻,結束了本綜述。圖2展示了我們綜述的組織結構,并分類了各節中的文獻。
生成對抗網絡(GANs)由生成器和判別器兩個神經網絡組成,通過對抗過程進行訓練。生成器旨在生成逼真的圖像,而判別器則試圖區分真實圖像和生成圖像。近年來,GANs在生成高分辨率圖像方面取得了顯著進展,特別是基于風格的GAN系列(如StyleGAN),通過分層潛在風格控制生成圖像的不同方面。
擴散模型通過逐步去噪的過程生成圖像,與GANs不同,擴散模型通過前向擴散過程和反向去噪過程生成圖像。近年來,擴散模型在文本到圖像生成領域得到了廣泛應用,特別是Stable Diffusion系列模型,通過在大規模文本-圖像數據集上進行預訓練,能夠生成與文本描述高度一致的圖像。
自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在自然語言處理(NLP)領域展示了卓越的性能。DALL-E等模型通過將文本和圖像轉換為離散標記,實現了文本到圖像的生成。多模態自回歸模型通過結合視覺和文本信息,展示了在個性化圖像生成中的潛力。
GANs中的個性化圖像生成主要依賴于GAN反演技術,將真實圖像映射到GAN的潛在空間中,以便進行后續的編輯和生成。具體來說,給定一個概念圖像,個性化圖像生成包括兩個主要階段:概念反演和潛在編輯。
在GAN反演中,有多種潛在空間可用于表示概念圖像,包括廣義風格空間、特征空間和參數空間。廣義風格空間(如StyleGAN中的WW空間)提供了更好的語義解纏,能夠更準確地表示復雜概念。特征空間通過映射中間殘差特征來增強細節一致性,而參數空間則通過微調生成器參數來提高反演保真度。
GAN反演方法可以分為優化方法、學習方法和混合方法。優化方法通過直接優化潛在表示來反演圖像,而學習方法則通過訓練編碼器來預測潛在表示。混合方法結合了學習和優化的優點,通過編碼器提供初始潛在表示,并通過優化進行細化。
在反演得到概念條件后,用戶可以通過潛在編輯生成個性化圖像。潛在編輯方法包括潛在導航和文本驅動編輯。潛在導航方法通過支持向量機(SVM)或條件歸一化流模型來學習屬性編輯方向,而文本驅動編輯則通過CLIP等模型將文本描述映射到潛在空間中,實現更直觀的圖像生成。
文本到圖像擴散模型通過文本提示生成圖像,個性化圖像生成進一步增強了其生成用戶特定概念的能力。與GANs類似,擴散模型中的個性化圖像生成也涉及概念反演和個性化生成兩個階段。
擴散模型中的反演空間包括噪聲空間、文本空間、特征空間和參數空間。噪聲空間通過DDIM反演等技術將圖像反演為噪聲表示,文本空間通過CLIP文本編碼器將概念表示為文本特征,特征空間通過映射中間特征來增強細節一致性,而參數空間則通過微調模型參數來提高反演保真度。
擴散模型中的概念反演方法包括無訓練方法、優化方法、學習方法和混合方法。無訓練方法利用擴散模型的固有特性進行反演,優化方法通過優化概念條件來學習新概念,學習方法通過訓練編碼器來預測概念條件,而混合方法則結合了學習和優化的優點。
擴散模型中的個性化圖像生成可以根據概念類型進行分類,包括主題驅動、面孔驅動、風格驅動和高層語義個性化。主題驅動個性化通過優化或學習方法生成包含目標主題的圖像,面孔驅動個性化則專注于生成與參考圖像具有相同身份的面孔圖像,風格驅動個性化通過反演風格特征生成具有特定風格的圖像,而高層語義個性化則通過反演關系或動作生成具有特定語義關系的圖像。
與GANs類似,擴散模型中的文本驅動圖像編輯通過反演噪聲空間并應用文本驅動編輯技術生成個性化圖像。Prompt-to-prompt等方法通過操縱注意力機制實現圖像編輯,而MasaCtrl等方法則通過自注意力機制保持對象外觀的同時進行非剛性編輯。
自回歸模型通過預測序列中的下一個元素來生成圖像,近年來在多模態圖像生成領域展示了卓越的性能。盡管現有的自回歸模型在個性化圖像生成方面的研究較少,但其多模態生成框架展示了在個性化圖像生成中的潛力。
多模態自回歸模型通過將圖像和文本編碼到共享的標記空間中,實現了文本和圖像的聯合生成。Emu2等模型通過CLIP視覺編碼器將圖像轉換為嵌入,并通過自回歸方式預測生成的圖像嵌入。這些模型通過大規模文本-圖像對進行預訓練,展示了在個性化圖像生成中的潛力。
盡管自回歸模型在多模態生成方面展示了卓越的性能,但在個性化圖像生成中仍面臨一些挑戰。例如,生成圖像與參考圖像之間的身份一致性仍然有限,未來的研究需要開發更有效的個性化技術,以提高身份一致性和生成質量。
個性化圖像生成模型的評估通常依賴于多個數據集,如DreamBench、Custom101等。這些數據集提供了豐富的圖像和文本對,用于評估模型在不同場景下的性能。
個性化圖像生成的評估指標主要包括概念保真度和文本可編輯性。概念保真度通過FID、身份得分等指標評估生成圖像與目標概念的相似性,而文本可編輯性則通過CLIP-T、ImageReward等指標評估生成圖像與文本提示的一致性。
除了定量指標,主觀評估通過人類評分者評估生成圖像的質量和相關性。用戶研究通常包括比較基線模型和提出方法的結果,以評估其有效性。
個性化圖像生成需要在主題保真度和文本可控性之間取得平衡。現有方法在提高身份保真度的同時,往往面臨過擬合問題,導致生成圖像忽視文本提示。未來的研究需要開發更精細的設計,以更好地平衡這兩個方面。
當前的個性化方法通常專注于特定領域,如主題、面孔或風格。未來的研究需要開發能夠生成多個自定義概念的通用類別個性化方法,以提供更靈活和多樣化的生成能力。
多條件圖像生成是一個新興且有前景的領域,旨在開發能夠處理多個條件輸入并支持各種任務的統一模型。未來的研究需要開發能夠確保可擴展性和高質量生成的魯棒多條件圖像生成方法。
生成模型經歷了顯著的演進,包括最近的DiT-based文本到圖像擴散模型和多模態自回歸模型。未來的研究需要開發與這些先進模型兼容的有效個性化技術。
近年來,視頻和3D內容生成取得了快速進展,未來的研究可以探索在這些領域中應用個性化生成技術,以擴展個性化生成技術的應用范圍。
本文綜述了基于深度生成模型的個性化圖像生成技術,包括生成對抗網絡、文本到圖像擴散模型和多模態自回歸模型。我們首先從整體角度定義了個性化圖像生成的范圍,統一了不同方法在一個共同的框架下。具體來說,我們將個性化圖像生成分為三個關鍵組件:反演空間、反演方法和個性化方案。基于這一統一框架,我們深入分析了各類生成模型中的技術,強調了現有方法的共性和差異。最后,我們討論了該領域的開放挑戰,并提出了未來研究的潛在方向。本文為個性化圖像生成領域提供了一個全面且最新的綜述,系統地跟蹤了這一快速演進領域中的相關研究。
摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。
關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG
I. 引言
大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在
本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。
與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。
隨著人工智能系統日益融入日常生活,可解釋性領域受到了極大的關注。這一趨勢尤其受到現代AI模型及其決策過程復雜性的驅動。基礎模型的出現,以其廣泛的泛化能力和新興應用,進一步加劇了這一領域的復雜性。基礎模型在可解釋性領域占據著模糊的位置:它們的復雜性使得這些模型天生難以解釋,但它們也越來越多地被用作構建可解釋模型的工具。在這篇綜述中,我們探討了基礎模型與可解釋AI(XAI)在視覺領域的交集。我們首先編制了一份全面的文獻合集,涵蓋了這些領域的交叉研究。接下來,我們根據模型的架構特征對這些研究進行了分類。然后,我們討論了當前研究在將XAI整合進基礎模型時所面臨的挑戰。此外,我們還回顧了這些結合方法的常見評估方法。最后,我們提出了本次綜述的關鍵觀察和見解,并為這一快速發展的領域提供了未來研究的方向。 關鍵詞: 可解釋性, 可解釋AI, XAI, 基礎模型, 視覺, 綜述
深度神經網絡(DNNs),即具有大量可訓練參數的網絡,近年來對計算機視覺領域產生了重大影響【1】。它們在語義分割【2】、分類【3】和圖像生成【4】等各種任務中取得了最先進的性能。然而,DNN的深度和復雜性也導致了決策過程和預測可解釋性的缺乏透明度【5】【6】。在那些性能和可解釋性都至關重要的高風險環境中,對透明度的需求日益增加【7】。為了增強透明度和可解釋性,廣泛采用的各種方法被統稱為可解釋人工智能(XAI)【8】(見圖1)。 XAI方法為自動化系統與人類用戶之間搭建了橋梁,因為人類的感知和解釋本質上是主觀的。滿足一個用戶需求的解釋可能并不一定能滿足另一個用戶【9】。因此,為了提高有效性,XAI方法應確保不同用戶之間的解釋一致性【10】。XAI引起了越來越多的關注,尤其是在倫理問題至關重要的領域,例如醫療診斷【11】和自動駕駛【12】。因為不透明的模型可能隱藏與道德原則相悖的功能。例如,在【13】中觀察到的性別偏見結果。 在文獻中,已經識別出一些XAI的關鍵屬性【14】【6】,例如可信性、復雜性、魯棒性、泛化能力和客觀性。我們將在4.1節進一步探討這些問題。 深度學習中的一個顯著趨勢是模型規模越來越大(見圖2)。這一趨勢始于1998年的LeNet(60,000個參數),然后是2014年的InceptionV3(6.23M參數),2016年的ResNet(42.70M參數)。隨后,2017年自然語言處理領域采用了Transformers(65M參數),2018年的BERT(340M參數),2019年的GPT-2(1.5T參數),2023年的QWEN(72B參數)。這些“大型語言模型”的成功激發了將高參數量和大量訓練數據的優勢應用到其他領域的興趣,例如視覺問答【15】和目標檢測【16】。這促使了這些架構在更廣泛的分類下被統稱為“基礎模型”。 基礎模型在XAI領域處于一個模糊的位置。一方面,基礎模型的復雜性使其特別難以解釋;另一方面,文獻中越來越多地將其作為構建可解釋模型的工具。這篇綜述提供了計算機視覺領域基礎模型中可解釋性技術的全景,特別是預訓練基礎模型(PFM)。結構安排如下:第2節提供了基礎模型和XAI方法的背景,回顧現有的綜述,并提出XAI方法的分類法;第3節定義了識別的XAI方法類別,描述了它們的背景、它們如何使用PFM、它們的應用以及評估方法;第4節討論了評估生成的解釋質量所采用的不同方法;第5節介紹了我們綜述中的一些觀察結果;第6節描述了XAI方法面臨的不同挑戰,包括仍未解決的問題;最后,第7節總結了我們的結論,并提出了進一步研究的潛在方向。
生成方法(生成式人工智能,Gen-AI)在解決機器學習和貝葉斯推斷任務中的應用進行了綜述。生成模型需要模擬一個大規模的訓練數據集,并使用深度神經網絡來解決監督學習問題。為了實現這一目標,我們需要高維回歸方法和用于降維的工具(即特征選擇)。生成式人工智能方法的主要優勢在于它們能夠不依賴具體模型,并利用深度神經網絡來估計條件密度或感興趣的后驗分位數。為了說明生成方法的應用,我們分析了著名的埃博拉數據集。最后,我們總結了未來研究的方向。
關鍵詞:生成式人工智能,神經網絡,深度學習,ABC,INN,歸一化流,擴散模型,分位貝葉斯,擬似推斷,埃博拉
1 引言
機器學習中的一個重要任務是:給定輸入-輸出對,其中輸入是高維的,構建一個“查找”表(即字典)來存儲輸入-輸出示例。這是一個編碼(即數據壓縮問題),用于快速搜索和檢索。另一個常見問題是找到一個簡單的預測規則(即算法),即:我們能否找到一個好的預測函數f(x)f(x)f(x),用來在給定xxx 的情況下預測輸出yyy?給定一個訓練數據集(yi,xi)i=1N(y_i, x_i)_{i=1}^{N}(yi,xi)i=1N 的輸入-輸出對,我們能否訓練一個模型,即找到函數fff?從計算角度來看,我們有一個高維的多變量函數f(x)f(x)f(x),其中x=(x1,…,xd)x = (x_1, \dots, x_d)x=(x1,…,xd)。 給定(y,x)(y, x)(y,x)-輸入-輸出對,我們有一個模式匹配(即監督學習)非參數回歸形式:
為了實現良好的泛化能力,我們需要能夠進行非線性降維,并找到一組合適的特征/因素。關鍵問題是:我們如何表示一個多變量函數,以便使訓練過程高效?許多高維統計模型需要數據降維方法。根據 Breiman(2001),我們將數據表示為由一個黑箱生成,其中輸入向量xxx 被黑箱轉化為輸出yyy,或生成一個描述從xxx 預測yyy 的不確定性的預測分布p(Y∣X)p(Y | X)p(Y∣X)。Fisher(1922)和Cook(2007)清楚地描述了降維問題。雖然通過篩選和將預測值與輸出變量繪制來尋找預測器是典型的做法。 統計推斷中的一個核心問題是計算一個感興趣的后驗分布。給定似然函數p(y∣θ)p(y | \theta)p(y∣θ) 或前向模型y=f(θ)y = f(\theta)y=f(θ),以及先驗分布π(θ)\pi(\theta)π(θ),目標是進行逆概率計算,即計算后驗分布p(θ∣y)p(\theta | y)p(θ∣y)。對于高維模型來說,這一任務非常困難。馬爾科夫鏈蒙特卡羅(MCMC)方法通過生成后驗樣本來解決這個問題,使用密度評估。 另一方面,生成式人工智能技術直接學習從均勻分布到目標分布的映射。生成式人工智能的主要優勢是它是無模型的,并且不需要使用迭代密度方法。逆貝葉斯映射被通過深度學習的輸入輸出映射的模式識別所替代。深度分位神經網絡(Deep Quantile NNs)提供了一個用于推斷決策的通用框架。分位神經網絡提供了一種替代不可逆神經網絡(如歸一化流)的方式。 生成方法通過以下方式解決這兩個問題。設Z~PZZ \sim P_ZZ~PZ 是潛變量ZZZ 的基礎度量,通常是標準多變量正態分布或均勻分布的向量。生成方法的目標是從訓練數據(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y 中表征后驗度量PX∣YP_{X|Y}PX∣Y,其中NNN 被選擇為適當的大值。使用深度學習器來估計f^\hat{f}f^,通過非參數回歸X=f(Y,Z)X = f(Y, Z)X=f(Y,Z)。深度學習器通過從三元組(Xi,Yi,Zi)i=1N~PX,Y×PZ(X_i, Y_i, Z_i){i=1}^{N} \sim P{X,Y} \times P_Z(Xi,Yi,Zi)i=1N~PX,Y×PZ 中學習來估計。隨后的估計器H^N\hat{H}NH^N 可以看作是從基礎分布到所需后驗分布的傳輸映射。在ZZZ 為均勻分布的情況下,這相當于逆累積分布函數(CDF)采樣,即X=FX∣Y?1(U)X = F{X|Y}^{-1}(U)X=FX∣Y?1(U)。 設(X,Y)~PX,Y(X, Y) \sim P_{X,Y}(X,Y)~PX,Y 是輸入-輸出對,且PX,YP_{X,Y}PX,Y 是聯合度量,我們可以從中模擬一個訓練數據集(Xi,Yi)i=1N~PX,Y(X_i, Y_i){i=1}^{N} \sim P{X,Y}(Xi,Yi)i=1N~PX,Y。標準的預測技術是條件后驗均值X^(Y)=E(X∣Y)=f(Y)\hat{X}(Y) = E(X|Y) = f(Y)X^(Y)=E(X∣Y)=f(Y),即給定輸出YYY 時預測輸入XXX。為此,考慮多變量非參數回歸X=f(Y)+?X = f(Y) + \epsilonX=f(Y)+?,并提供估計條件均值的方法。通常的估計器f^\hat{f}f^ 包括 KNN 和核方法。最近,提出了深度學習器,并提供了關于仿射函數疊加(即嶺函數)的理論屬性(見 Montanelli 和 Yang(2020),Schmidt-Hieber(2020),Polson 和 Rockova(2018))。一般來說,我們可以為任何輸出YYY 表征后驗映射。只需通過使用傳輸映射:
從新的基礎抽樣ZZZ 中評估網絡。這里,ψ\psiψ 表示余弦嵌入,因此潛變量的架構對應于離散傅里葉近似。另一方面,生成方法通過構建訓練數據的“查找”表,并將深度神經網絡擬合到該表上,來解決監督學習問題。這提供了一種傳輸映射到基礎分布,基礎分布由潛變量zzz 的已知分布p(z)p(z)p(z) 給出。由于我們可以選擇樣本大小NNN,因此理解這些深度學習估計器的貝葉斯風險屬性及其插值屬性(稱為雙重下降)非常重要。 本文的其余部分安排如下:第 1.1 節描述了降維技術;第 2 節介紹了架構設計的多種選擇。例如,自動編碼器(Albert et al. 2022;Akesson et al. 2021)或隱式模型(參見 Diggle 和 Gratton 1984;Baker et al. 2022;Schultz et al. 2022);它還與間接推斷方法相關(參見 Pastorello et al. 2003;Stroud et al. 2003;Drovandi et al. 2011, 2015)。常用的生成方法包括:變分自動編碼器(VAE)、獨立成分分析(ICA)、非線性獨立成分估計(NICE)、歸一化流(NF)、可逆神經網絡(INN)、生成對抗網絡(GAN)、條件生成對抗網絡、近似貝葉斯計算(ABC)和深度擬似推斷(DFI)。第 3 節回顧了使用無密度深度分位 ReLU 網絡的生成貝葉斯計算(GBC);第 4 節提供了經典埃博拉數據集的應用。最后,第 5 節總結了未來研究的方向。 深度學習的民間傳說:淺層深度學習器能夠很好地表示多變量函數,并且在外推時表現良好。因此,我們可以在任何新的輸入上評估網絡并預測輸出,同時我們仍然可以學習感興趣的后驗映射。 雙重下降:關于深度神經網絡的逼近和插值屬性的問題依然存在。最近關于分位神經網絡插值屬性的研究,參見 Padilla 等(2022)和 Shen 等(2021),Schmidt-Hieber(2020)。另見 Bach(2024);Belkin 等(2019)。 **
**
摘要—基礎模型(FM)驅動的代理服務被視為一種有前景的解決方案,用于開發智能化和個性化的應用,推動人工通用智能(AGI)的發展。為了在部署這些代理服務時實現高可靠性和可擴展性,必須協同優化計算和通信資源,從而確保有效的資源分配和無縫的服務交付。為實現這一愿景,本文提出了一個統一框架,旨在提供一個全面的綜述,探討在異構設備上部署基于FM的代理服務,重點是模型和資源優化的集成,以建立一個強大的基礎設施支持這些服務。特別地,本文首先探索了推理過程中的各種低層次優化策略,并研究了增強系統可擴展性的方法,如并行化技術和資源擴展方法。接著,本文討論了幾種重要的基礎模型,并調查了專注于推理加速的研究進展,包括模型壓縮和標記減少等技術。此外,本文還研究了構建代理服務的關鍵組件,并突出了值得關注的智能應用。最后,本文提出了開發具有高服務質量(QoS)實時代理服務的潛在研究方向。 關鍵詞—基礎模型、AI代理、云/邊緣計算、服務系統、分布式系統、AGI。
I. 引言
人工智能(AI)的快速發展使得基礎模型(FM)成為創新的基石,推動了自然語言處理、計算機視覺和自主系統等多個領域的進步。這些模型的特點是參數空間龐大,并在廣泛的數據集上進行了深度訓練,孕育了從自動化文本生成到高級多模態問答和自主機器人服務等眾多應用[1]。一些流行的基礎模型,如GPT、Llama、ViT和CLIP,推動了AI能力的邊界,提供了處理和分析大量數據的復雜解決方案,涵蓋了不同格式和模態。基礎模型的持續進展顯著增強了AI在理解和與世界互動方面的能力,使其在某種程度上類似于人類認知。 然而,傳統的基礎模型通常僅限于提供問答服務,并根據已有知識生成回答,往往無法整合最新信息或利用先進工具。基礎模型驅動的代理服務旨在增強基礎模型的能力。這些代理具備動態記憶管理、長期任務規劃、高級計算工具以及與外部環境的交互功能[2]。例如,基礎模型驅動的代理能夠調用不同的外部API以訪問實時數據,執行復雜的計算,并根據最新的可用信息生成更新的響應。這種方法提高了響應的可靠性和準確性,并使與用戶的互動更加個性化。 開發具有低延遲、高可靠性、高彈性并且資源消耗最小的服務系統,對于向用戶提供高質量的代理服務至關重要。這樣的系統能夠有效地管理不同的查詢負載,同時保持快速響應并減少資源成本。此外,在異構的邊緣-云設備上構建服務系統,是利用邊緣設備的閑置計算資源和云端豐富計算集群的一種有前景的解決方案。邊緣-云設備的協同推理能夠通過根據計算負載和實時網絡條件動態分配任務,提升整體系統效率。 盡管許多研究已經探討了小型模型在邊緣-云環境中的協同推理,但在這種范式下部署基礎模型以支持多樣化的代理服務仍然面臨著一些嚴重挑戰。首先,波動的查詢負載極大地挑戰了模型服務。隨著越來越多的用戶希望體驗基礎模型驅動的智能代理服務,查詢負載急劇增加。例如,截至2024年4月,ChatGPT的用戶約為1.805億,其中每周活躍用戶約為1億[3]。這些用戶在不同時間訪問服務,導致請求速率變化。因此,彈性服務系統應根據當前的系統特性動態調整系統容量。其次,基礎模型的參數空間極為龐大,達到數百億規模,這對存儲系統提出了巨大挑戰。然而,邊緣設備和消費級GPU的存儲容量有限,無法容納整個模型。龐大的參數量導致了顯著的推理開銷和較長的執行延遲。因此,有必要設計模型壓縮方法,并在不同的執行環境中采用不同的并行化方法。此外,用戶在不同應用中有不同的服務需求和輸入。例如,有些應用優先考慮低延遲,而有些則優先考慮高精度。這要求動態資源分配并調整推理過程。此外,AI代理需要在復雜環境中處理大量艱巨任務,這要求有效管理大規模內存、實時處理更新的規則和特定領域知識。此外,代理具有不同的個性和角色,因此需要設計高效的多代理協作框架。
為了解決上述挑戰,并推動實時基礎模型驅動的代理服務的發展,本文提出了一個統一框架,并從不同優化角度調查了多項研究成果。該框架如圖1所示。底層是執行層,邊緣或云設備在此執行基礎模型推理。聯合計算優化、輸入/輸出優化和通信優化被應用于加速推理,并促進構建強大的基礎模型基礎設施。資源層由兩個組件組成,幫助在不同設備上部署模型。并行化方法設計了不同的模型拆分和放置策略,以利用可用資源并協同提高吞吐量。資源擴展根據查詢負載和資源利用情況動態調整硬件資源,從而提高整體可擴展性。模型層專注于優化基礎模型,提出了兩種輕量級方法,包括模型壓縮和標記減少,旨在推動基礎模型的廣泛應用。基于這些基礎模型,構建了許多AI代理來完成各種任務。為了增強代理的四個關鍵組件,提出了許多方法,包括多代理框架、規劃能力、記憶存儲和工具利用。最終,利用上述技術,可以開發各種應用,為用戶提供智能化和低延遲的代理服務。
A. 相關工作
許多研究集中于優化在邊緣-云環境中部署機器學習模型的系統。KACHRIS回顧了一些用于大規模語言模型(LLMs)計算加速的硬件加速器,以解決計算挑戰[4]。Tang等人總結了旨在優化網絡和計算資源的調度方法[5]。Miao等人提出了一些加速方法以提高大規模語言模型的效率[6]。這項綜述涵蓋了系統優化,如內存管理和內核優化,以及算法優化,如架構設計和壓縮算法,以加速模型推理。Xu等人關注人工智能生成內容(AIGC)的部署,并概述了AIGC的移動網絡優化,涵蓋了數據集收集、AIGC預訓練、AIGC微調和AIGC推理過程[7]。Djigal等人研究了機器學習和深度學習技術在多接入邊緣計算(MEC)系統中資源分配的應用[8]。該綜述包括了資源卸載、資源調度和協同分配。許多研究提出了不同的算法來優化基礎模型和代理的設計。[1]、[9]和[10]提出了流行的基礎模型,特別是大規模語言模型。[11]、[12]和[13]總結了大規模語言模型的模型壓縮和推理加速方法。[2]、[14]和[15]回顧了代理開發中的挑戰和進展。 總之,上述研究要么優化了邊緣-云資源分配和調度以支持小型模型,要么為大規模基礎模型設計了加速或效率方法。據我們所知,本文是首篇全面綜述和討論實時基礎模型驅動的代理服務在異構設備上部署的研究,近年來這一研究方向已經變得尤為重要。我們設計了一個統一框架,填補了這一研究空白,并從不同視角回顧當前的研究成果。該框架不僅勾畫了基礎模型部署的關鍵技術,還識別了基礎模型驅動的代理服務的關鍵組件和相應的系統優化方法。
B. 貢獻
本文全面綜述了在邊緣-云環境中部署基礎模型驅動的代理服務,涵蓋了從硬件到軟件層的優化方法。為方便讀者,本文提供了綜述的大綱(見圖2)。本文的貢獻總結如下:
本文其余部分安排如下:第二節介紹了一些低層次的執行優化方法;第三節描述了資源分配和并行機制;第四節討論了當前的基礎模型及模型壓縮和標記減少技術;第五節闡明了代理的關鍵組件;第六節介紹了批處理方法及相關應用;最后,第七節討論了未來的研究方向并作結論總結。
摘要—視覺目標跟蹤(VOT)是計算機視覺領域一個具有吸引力且重要的研究方向,其目標是在視頻序列中識別和跟蹤特定目標,且目標對象是任意的、與類別無關的。VOT技術可以應用于多種場景,處理多種模態的數據,如RGB圖像、熱紅外圖像和點云數據。此外,由于沒有單一傳感器能夠應對所有動態和變化的環境,因此多模態VOT也成為了研究的重點。本文全面綜述了近年來單模態和多模態VOT的最新進展,特別是深度學習方法的應用。具體而言,本文首先回顧了三種主流的單模態VOT,包括RGB圖像、熱紅外圖像和點云跟蹤。特別地,我們總結了四種廣泛使用的單模態框架,抽象出其架構,并對現有的繼承方法進行了分類。接著,我們總結了四種多模態VOT,包括RGB-深度、RGB-熱紅外、RGB-LiDAR和RGB-語言。此外,本文還呈現了所討論模態在多個VOT基準測試中的對比結果。最后,我們提出了建議和深刻的觀察,旨在激發這一快速發展的領域的未來發展。 關鍵詞—視覺目標跟蹤,深度學習,綜述,單模態,多模態
//www.zhuanzhi.ai/paper/2edd0971ae625f759822052af4d569fd
1 引言
視覺目標跟蹤(VOT)是過去幾十年來計算機視覺領域的一個高度活躍的研究課題,因其在視頻監控 [1]、[2]、[3]、自動駕駛 [4]、[5]、移動機器人 [6]、[7]、人機交互 [8]、[9] 等廣泛場景中的重要應用而受到關注。VOT任務的定義是:給定目標在第一幀中的邊界框位置,跟蹤器需要在隨后的所有幀中持續且魯棒地識別和定位該目標,其中目標可以是任意實例且不依賴于類別。這個任務非常具有挑戰性,因為:1)目標可能經歷諸如形變、旋轉、尺度變化、運動模糊和視野丟失等復雜的外觀變化;2)背景可能帶來諸如光照變化、相似物體干擾、遮擋和雜亂等無法控制的影響;3)視頻捕捉設備可能會震動和移動。 作為計算機視覺中的一項核心任務,VOT有多種數據模態可供選擇。最常見的模態是RGB視頻,因其普及和易獲取性,吸引了大量研究者關注這一任務。RGB模態的VOT提供了在圖像坐標系下的大致目標位置,并通過二維邊界框為許多高級圖像分析任務奠定了基礎,例如姿態估計、步態/活動識別、細粒度分類等。基于RGB的VOT的演進 [2]、[10]、[11]、[12] 是持久且歷史悠久的,隨著深度學習 [13]、[14]、[15]、[16]、[17] 和大規模數據集 [18]、[19]、[20] 的出現,這一進展進一步加速。本文主要關注過去十年中的方法,特別是基于深度神經網絡(DNN)的方法。根據其工作流程,我們將主流的RGB跟蹤器分為四類:判別性相關濾波器(DCF) [17]、[21],Siamese跟蹤器 [22]、[23]、[24],實例分類/檢測(ICD) [25]、[26]、[27] 和單流變換器(OST) [1]、[28]、[29]。為了便于說明,圖3展示了這四種基于深度學習的框架及其最簡化的組件。前兩種框架在過去十年中非常流行,而后兩種則較少被提及,甚至在以往的綜述中沒有出現過,因為ICD不像DCF和Siamese那么常見,OST則是一個自2022年才出現的新框架。 另一方面,RGB模態的缺點也非常明顯,應用場景受到限制。首先,它在夜間和惡劣天氣(如雨天和雪天)下的表現不盡如人意。在這些嚴酷的視覺條件下,可以使用基于熱紅外(TIR)的VOT [30]、[31]、[32],通過TIR攝像機捕捉來自生物體的熱輻射,在沒有光照的情況下跟蹤目標。其次,缺乏深度信息使得單一的RGB模態VOT無法感知三維幾何和定位信息,這在自動駕駛和移動機器人等應用場景中尤為重要。最近,基于LiDAR的VOT [5]、[33]、[34]、[35] 應運而生,解決了這一問題,通過探索3D點云的內在幾何結構來感知目標的深度。LiDAR點的幾何結構有助于感知目標物體的深度,從而提供精確的3D形狀和位置。因此,本文還概述了兩種單模態VOT方法(基于TIR和LiDAR的)。此外,容易發現這些模態之間的共同框架,以便更好地理解。例如,基于TIR的跟蹤器通常遵循DCF和Siamese框架,因為TIR數據格式與RGB圖像非常相似。同樣,基于LiDAR的VOT借用了RGB模態中的Siamese框架,并將其發展為主導3D跟蹤領域的方法。 此外,由于不同的單模態VOT各有優缺點,因此也提出了融合多模態信息的跟蹤器,具有提高精度和魯棒性的潛力。更具體地說,融合意味著將兩種或多種模態的信息結合起來進行目標跟蹤。例如,TIR傳感器對光照變化、偽裝和物體姿態變化不敏感,但在人群中區分不同人的TIR輪廓會比較困難。另一方面,RGB傳感器則具有相反的特性。因此,直觀地將這兩種模態進行融合,可以互相補充 [36]、[37]、[38]。此外,融合選擇可能根據不同的應用有所不同。例如,RGB-LiDAR [39]、[40] 可以是適用于機器人跟隨的良好選擇,因其需要準確的3D信息;而RGB-語言VOT [8]、[9]、[41] 則適用于人機交互。隨著實際需求的增加,VOT領域的一些研究者已轉向集成多種模態,以構建魯棒的跟蹤系統。 現有關于VOT的綜述論文主要集中在單一RGB模態方法的不同方面和分類 [42]、[43]、[44]、[45]、[46]、[47]、[48]、[49]、[50]。例如,最近的綜述 [46] 將現有的RGB跟蹤器分為生成性跟蹤器和判別性跟蹤器。Javed等人 [43] 介紹了兩種廣為人知的RGB基VOT框架,即DCF和Siamese。然而,這些以往的工作未包含最新流行的基于變換器的方法,而這些方法不僅建立了新的最先進的性能,還帶來了許多有洞察力的研究方向。此外,ICD框架的展示也不夠充分。而且,關于多模態VOT的綜述非常少,要么僅討論了兩種模態(RGB-Depth和RGB-TIR) [51],要么側重于多線索特征的融合(如顏色、梯度、輪廓、空間能量、熱輪廓等) [52]、[53]。在過去五年里,我們目睹了多模態VOT的顯著進展。同時,新的研究方向如基于LiDAR的VOT、RGB-LiDAR VOT和RGB-語言VOT相繼出現。然而,這些研究在以往的VOT綜述中未被很好地總結。 本文從數據模態的角度,系統地回顧了VOT方法,考慮了單模態VOT和多模態VOT的最新發展。我們在圖1中總結了所回顧的模態及其代表性示例、優缺點和應用。具體而言,我們首先概述了三種常見的單模態VOT方法:基于RGB、基于TIR和基于LiDAR的。接下來,我們介紹了四種多模態融合跟蹤方法,包括RGB-Depth、RGB-TIR、RGB-LiDAR和RGB-Language。除了算法外,我們還報告并討論了不同模態的VOT基準數據集及其結果。本文的主要貢獻總結如下:
本文的其余部分安排如下:第2節介紹現有的VOT綜述,并闡述本文的不同方面。第3節回顧了使用不同單一數據模態的VOT方法及其比較結果。第4節總結了多模態VOT方法。第5節介紹了不同模態的VOT數據集。最后,第6節討論了VOT的未來發展潛力。由于篇幅限制,部分結果表格,包括單模態和所有多模態結果,已移至附錄A,且不同模態的VOT數據集介紹見附錄B。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。