亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—表格數據以行和列的形式組織,是機器學習分類和回歸應用中最常見的數據類型之一。用于從表格數據中學習的模型不斷發展,近年來深度神經網絡(DNNs)通過其表示學習能力展現出了良好的效果。在本綜述中,我們系統地介紹了表格表示學習領域,涵蓋了背景、挑戰和基準測試,以及使用深度神經網絡的優缺點。我們根據模型的泛化能力,將現有方法組織為三大類:專用模型、可遷移模型和通用模型。專用模型專注于訓練和評估在同一數據分布下進行的任務。我們基于表格數據的關鍵方面——特征、樣本和目標——提出了專用模型的層次化分類法,并深入探討了獲取高質量特征和樣本級表示的詳細策略。可遷移模型在一個或多個數據集上進行預訓練,然后在下游任務中進行微調,利用從同質或異質來源,甚至是跨模態(如視覺和語言)中獲取的知識。通用模型,也稱為表格基礎模型,進一步擴展了這一概念,允許在不額外微調的情況下直接應用于下游任務。我們根據跨異構數據集適應的策略,將這些通用模型進行了分類。此外,我們還探討了集成方法,整合了多種表格模型的優勢。最后,我們討論了表格學習的代表性擴展,包括開放環境下的表格機器學習、表格數據的多模態學習和表格理解任務。更多信息請參見以下存儲庫://github.com/LAMDA-Tabular/Tabular-Survey。 關鍵詞—表格數據、表示學習、深度表格學習、表格機器學習、表格基礎模型

1 引言

表格數據,以行和列的形式組織,是現實世界中機器學習應用中最常見的數據格式之一,涵蓋了金融[1]、醫療健康[2]、教育[3]、推薦系統[4]以及科學研究等多個領域。特別是,面向科學研究的人工智能(AI4science)日益依賴于表格數據,因為許多著名數據集——如基因組學[5]、化學[6]和氣候科學[7][8]的數據——自然采用了表格形式。 表格數據本質上以結構化的表格格式組織信息。在本綜述中,我們主要關注監督式表格機器學習任務,特別是分類和回歸任務。除了結構化的組織形式外,表格數據集通常還包括異質屬性[9],涵蓋了數值型、分類型或混合型數據類型,這些數據可能是稠密的或稀疏的。此外,許多表格數據集還面臨質量問題,如噪聲測量、缺失值、異常值、不準確性[10]以及隱私約束[11],這些問題都會使建模過程變得復雜。最常見的監督式表格任務是分類和回歸,其中目標分別是從訓練數據學習映射到離散或連續目標。如圖1所示,每一行代表一個實例(及其對應的標簽),而每一列則對應特定的屬性或特征[12]。理想情況下,學習到的映射應該具有良好的泛化能力,能夠準確地預測從相同底層分布中抽取的新實例的結果。 用于表格數據的機器學習方法多年來經歷了顯著的發展[13][14][15][16]。最近,深度學習的興起對計算機視覺[17]和自然語言處理[18]等領域產生了深遠的影響,深度神經網絡(DNNs)能夠直接從原始輸入中提取語義表示[19][20][21]。這些學習到的表示不僅提高了泛化能力,還促進了跨相關任務的知識遷移[22]。深度神經網絡在建模復雜特征交互和學習豐富層次結構方面的靈活性,激發了將深度學習技術應用于表格數據的巨大興趣。 事實上,深度神經網絡在幾十年前就已被應用于表格數據,最初主要針對降維和可視化任務[23][24][25][26],然而在標準的分類和回歸問題中,它們通常無法與基于樹的方法相匹敵。隨后,深度神經網絡的進展使得其在各種表格相關應用中取得了顯著進展,如點擊率預測[27][28]、異常檢測[29]、推薦系統[30]以及時間序列預測[31][32]。現代深度學習方法得益于更精心設計的架構、優化的訓練策略和高質量的表示,已使深度神經網絡在表格數據上的表現得到了復興,常常與傳統的基于樹的模型相抗衡甚至超越[33][34][35]。鑒于深度表格建模中涌現出的多種方法,回顧關鍵因素和當前的表示學習方法已成為越來越必要的任務。 本綜述首先介紹表格數據學習的背景,重點突出其中的挑戰,并對比深度神經網絡與經典方法(特別是基于樹的方法)[36][37][38][39]在使用中的優勢和局限性進行批判性分析。由于觀察到在不同表格數據集上方法性能的不穩定性,我們還討論了數據集收集、評估和分析的綜合策略,旨在為跨多個數據集匯總性能指標建立穩健的標準[40][41][42][43]。 我們將深度表格方法大致分為三種類型:專用方法、可遷移方法和通用方法,區分的標準包括它們訓練和部署的數據集的范圍,以及它們相應的泛化能力(如圖2所示)。專用表格方法與經典的監督模型密切相關,通常在來自相同分布的數據上進行訓練和評估。相反,可遷移方法利用從一個或多個源數據集上預訓練的模型的知識,隨后在目標數據集上進行微調;這里的主要挑戰在于解決預訓練源與目標任務之間的異質性。最近提出的通用表格方法——受到大型語言模型(LLMs)顯著“零-shot”泛化能力的啟發——展現出卓越的通用性。這些通用模型可以直接將其學習到的表示應用于下游表格數據集,而無需額外的微調,并通過先進的預訓練策略實現穩健的泛化。 盡管從專用模型到通用模型,泛化能力通常會增強,但這并不意味著專用或可遷移方法的價值較低;專用模型在大規模數據集上仍具有優勢,而對通用模型進行微調可以進一步提高其預測性能。此外,前兩類方法為通用表格模型的進展提供了基礎性見解和寶貴的組件。 對于專用方法,已經提出了許多從不同角度進行設計的方案,早期的文獻通常根據其架構特征或行為將這些方法進行分類。現有的分類法[44],例如,將專用方法分為基于特征預處理的[33][45]、基于數據增強的[46][47][48][49]、MLP變體[50][34]、專用DNN架構[51][52][53][54][55][56][57][58]、模仿樹的方法[59][60][61]、基于token的技術[62][63][33][64][65]、基于正則化的策略[66][67]、以及基于鄰域的方法[68][69][35]。然而,這些分類可能顯得分散,難以將位于不同組中的方法的核心思想進行聯系。與此不同,本綜述提出了一種基于表格數據的關鍵方面——特征、樣本和目標——的層次化分類法,提供了一個統一的組織框架。我們的方法強調了在特征級和樣本級上獲取高質量表示的詳細策略。這一統一視角有助于彌合不同方法之間的核心思想,促進更清晰的比較討論,并可能指導未來更先進的表格模型的設計。

付費5元查看完整內容

相關內容

摘要——強化學習(Reinforcement Learning, RL)是解決序列決策問題的重要機器學習范式。近年來,得益于深度神經網絡的快速發展,該領域取得了顯著進展。然而,當前RL的成功依賴于大量訓練數據和計算資源,且其跨任務泛化能力有限,制約了其在動態現實環境中的應用。隨著持續學習(Continual Learning, CL)的興起,持續強化學習(Continual Reinforcement Learning, CRL)通過使智能體持續學習、適應新任務并保留既有知識,成為解決上述局限性的重要研究方向。本文對CRL進行了系統梳理,圍繞其核心概念、挑戰和方法展開論述:首先,詳細回顧現有研究,對其評估指標、任務設定、基準測試和場景配置進行歸納分析;其次,從知識存儲/遷移視角提出新的CRL方法分類體系,將現有方法劃分為四種類型;最后,剖析CRL的特有挑戰,并為未來研究方向提供實踐性見解。 關鍵詞——持續強化學習,深度強化學習,持續學習,遷移學習

一、引言

強化學習(Reinforcement Learning, RL)已成為機器學習中的一種強大范式,使智能體能夠通過與環境的交互學習最優的決策策略 [1]。當強化學習與深度神經網絡的表示學習能力相結合時,便產生了深度強化學習(Deep Reinforcement Learning, DRL),其在多個領域取得了顯著的成功 [2]。DRL 展現了在解決高維復雜決策問題方面的巨大潛力,從精通國際象棋、日本將棋和圍棋等棋類游戲 [3],到推動科學發現,如蛋白質結構預測 [4]、量子計算誤差校正 [5],以及大型語言模型的訓練 [6],[7]。此外,DRL 也被廣泛應用于現實世界中的控制任務,如熱電聯產系統優化 [8]、托卡馬克核聚變反應堆中等離子體配置控制 [9],以及實現安全的自動駕駛 [10]。 盡管 DRL 已取得諸多成就,但其當前的成功主要歸因于在特定任務上學習固定策略的能力,通常需要大量的訓練數據和計算資源 [11]。這為 DRL 在現實應用中的部署帶來了重大挑戰。具體來說,現有的 DRL 算法普遍缺乏跨任務高效遷移知識或適應新環境的能力。面對新任務時,這些算法通常需要從頭開始學習,導致樣本效率低下以及泛化能力差 [12]–[14]。 為應對上述挑戰,研究人員開始探索如何使 RL 智能體避免災難性遺忘并有效遷移知識,其最終目標是推動該領域向更具類人智能的方向發展。人類在解決新任務時,能夠靈活地利用已有知識,同時不會顯著遺忘已掌握的技能 [15]。受到這一能力的啟發,持續學習(Continual Learning, CL),又稱終身學習或增量學習,旨在構建能夠適應新任務并保留過往知識的學習系統 [16]–[19]。CL 面臨的核心挑戰在于穩定性與可塑性的平衡——即在維持已學知識穩定性的同時,又具備足夠的靈活性來適應新任務。其總體目標是構建能在整個生命周期內持續學習和適應的智能系統,而不是每次面對新任務時都從零開始。當前 CL 的研究主要聚焦于兩個方面:災難性遺忘的緩解以及知識遷移的實現。災難性遺忘指的是學習新任務會導致模型覆蓋并遺失先前已學任務的知識;而知識遷移則是指利用過往任務中積累的知識來提升新任務(甚至是已見任務)的學習效率與表現。成功解決這兩個問題對于構建穩健的持續學習系統至關重要。 持續強化學習(Continual Reinforcement Learning, CRL),又稱終身強化學習(Lifelong Reinforcement Learning, LRL),是 RL 與 CL 的交叉領域,旨在突破當前 RL 算法的多種局限,構建能夠持續學習并適應一系列復雜任務的智能體 [20],[21]。圖 1 展示了 CRL 的基本設置。與傳統 DRL 主要聚焦于單一任務性能最優化不同,CRL 更強調在任務序列中保持并增強泛化能力。這種焦點的轉變對于將 RL 智能體部署于動態、非平穩環境中尤為關鍵。 需要指出的是,“lifelong” 與 “continual” 兩個術語在 RL 文獻中常被交替使用,但不同研究中的定義與使用方式可能存在顯著差異,從而引發混淆 [22]。一般而言,大多數 LRL 研究更強調對新任務的快速適應,而 CRL 研究更關注避免災難性遺忘。本文采用更廣義的 CRL 作為統一術語,呼應當前 CL 研究中同時兼顧這兩個方面的趨勢。 CRL 智能體需實現兩個核心目標:(1)最小化對先前任務知識的遺忘;(2)利用已有經驗高效學習新任務。達成這兩個目標將有助于克服 DRL 當前的局限,推動 RL 技術向更廣泛、更復雜的應用場景拓展。最終,CRL 旨在實現類人的終身學習能力,使其成為推動 RL 研究的重要方向。 目前,關于 CRL 的綜述工作仍相對較少。部分綜述文獻 [18],[23] 對 CL 領域進行了全面回顧,包括監督學習與強化學習。值得注意的是,Khetarpal 等人 [21] 從非平穩 RL 的視角對 CRL 進行了綜述,首先對通用 CRL 問題進行了定義,并通過數學刻畫提出了不同 CRL 形式的分類體系,強調了非平穩性所涉及的兩個關鍵屬性。然而,該綜述在 CRL 中的一些重要方面——如挑戰、基準測試與場景設置等——缺乏詳細的對比與討論,而這些因素對于指導實際研究至關重要。此外,過去五年中 CRL 方法數量快速增長。鑒于此,本文旨在系統回顧近年來關于 CRL 的研究工作,重點提出一種新的 CRL 方法分類體系,并深入探討知識在 CRL 中的存儲與遷移機制。 本綜述深入探討了 CRL 這一不斷發展的研究領域,旨在彌合傳統 RL 與現實動態環境需求之間的差距。我們全面審視了 CRL 的基本概念、面臨的挑戰與關鍵方法,系統性地回顧了當前 CRL 的研究現狀,并提出了一套將現有方法劃分為不同類別的新分類體系。該結構化方法不僅清晰地描繪了 CRL 研究的整體圖景,也突出了當前的研究趨勢與未來的潛在方向。我們還從策略、經驗、動態與獎勵等多個角度審視方法間的聯系,為優化 CRL 的學習效率與泛化能力提供了細致的理解。此外,我們也關注推動 CRL 邊界的新興研究領域,并探討這些創新如何助力構建更復雜的人工智能系統。 本綜述的主要貢獻體現在以下幾個方面: 1. 挑戰分析:我們強調了 CRL 所面臨的獨特挑戰,提出其需要在可塑性穩定性可擴展性三者之間實現平衡; 1. 場景設定:我們將 CRL 場景劃分為終身適應非平穩學習任務增量學習任務無關學習,為不同方法提供了統一的對比框架; 1. 方法分類:我們提出了一種基于知識存儲與遷移方式的新 CRL 方法分類體系,涵蓋策略導向經驗導向動態導向獎勵導向方法,幫助讀者結構性地理解 CRL 策略; 1. 方法綜述:我們對現有 CRL 方法進行了最全面的文獻回顧,包括開創性工作、最新發表的研究成果以及有前景的預印本; 1. 開放問題:我們討論了 CRL 當前的開放問題與未來研究方向,如任務無關的 CRL評估與基準建設可解釋知識建模以及大模型的集成使用

表 I 展示了本文的結構安排。接下來的內容如下:第二節介紹 RL 與 CL 的基礎背景,有助于理解 CRL 的核心理念;第三節概述 CRL 的研究范疇,包括定義、挑戰、評價指標、任務設置、基準與場景分類;第四節詳細介紹我們提出的 CRL 方法分類體系,并回顧現有方法,按知識類型劃分為策略導向(第四節 B)、經驗導向(第四節 C)、動態導向(第四節 D)與獎勵導向(第四節 E)四類;第五節探討 CRL 的開放問題與未來發展方向;第六節為本文的總結與展望。

付費5元查看完整內容

摘要

近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。

關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言

作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)

傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)2)多模態輸入(Multimodality Inputs)

通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)

現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)

大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)

通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)

通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)

與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異

在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。

我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。

付費5元查看完整內容

摘要—交互式生成視頻(Interactive Generative Video, IGV)作為一項關鍵技術,正在應對各領域對高質量、交互性視頻內容日益增長的需求。本文將 IGV 定義為一種結合了生成能力與交互功能的技術,既能夠生成多樣化、高質量的視頻內容,又能夠通過控制信號和響應反饋實現用戶參與。我們綜述了 IGV 當前的應用格局,聚焦于三個主要領域:(1)游戲,IGV 實現了虛擬世界中的無限探索;(2)具身人工智能(Embodied AI),IGV 作為具備物理感知能力的環境生成器,用于訓練代理體在動態演化場景中的多模態交互;(3)自動駕駛,IGV 提供閉環仿真能力,用于安全關鍵的測試與驗證。為引導未來的發展,我們提出了一個全面的框架,將理想的 IGV 系統分解為五個核心模塊:生成、控制、記憶、動態建模與智能。進一步地,我們系統分析了實現每個模塊所面臨的技術挑戰與未來方向,例如實現實時生成、支持開放域控制、保持長期一致性、準確模擬物理規律以及融合因果推理。我們相信,這一系統性分析將促進 IGV 領域的研究與技術發展,推動該技術邁向更復雜、更具實用性的應用。

關鍵詞—交互式生成視頻;視頻生成;視頻擴散模型;電子游戲;具身人工智能;自動駕駛。

1 引言

近年來,從數字娛樂到工業應用,各領域對高質量交互式視頻的需求顯著增長。這一趨勢反映了視頻技術在仿真、決策支持和內容創作等應用中的日益重要作用。與此同時,受益于生成建模范式的飛速發展,尤其是擴散模型(Diffusion Models)[12–15] 和下一幀預測方法(Next-Token Prediction Approaches)[16–18] 的推動,視頻生成技術也取得了顯著進展 [1–11]。現代視頻生成系統不僅能生成高度逼真的輸出,還能對生成內容進行精確控制,為多個領域帶來了前所未有的應用機會。 基于這些新興需求與技術進展,本文對交互式生成視頻(Interactive Generative Video, IGV)技術進行了全面綜述。為建立討論基礎,我們首先引入 IGV 的概念,該技術具備兩個關鍵特征。其一,IGV 是一種生成式系統,利用在大規模視頻數據集上訓練的生成模型,生成多樣化、高質量的開放域視頻內容;其二,IGV 具有交互性,能夠通過控制信號和響應反饋實現用戶在線參與,使用戶能夠通過交互完成特定任務或體驗。 根據我們的 IGV 定義,圖1 展示了三個主要 IGV 應用方向的發展軌跡:游戲、具身人工智能和自動駕駛。在游戲領域 [19–35],電子游戲本質上結合了視覺輸出與玩家交互,完美契合 IGV 的核心特性。IGV 能夠創建可無限探索的交互式虛擬世界,根據玩家的偏好與技能動態生成并個性化游戲內容。此外,IGV 的生成能力顯著簡化了游戲開發流程,減少了對人工素材制作的依賴,降低了開發成本并提高了效率。代表性實例包括 Oasis [22] 和 WHAM [26],它們已發布可供公眾試玩的版本,雖仍處于早期階段,但初步展示了 IGV 在游戲中的潛力。 在具身人工智能(Embodied AI)領域 [36–48],IGV 是構建真實且具交互性的機器人仿真環境的關鍵。它可生成高保真視頻序列,用于任務規劃與可視化,幫助機器人更好地理解并與環境交互。同時,IGV 提供多樣化的合成場景,有效緩解訓練數據不足的問題,從而提升策略學習能力,使機器人能在不同任務和環境中實現泛化。 在自動駕駛領域 [49–64],IGV 提供了超越傳統基于物理模擬器的高級仿真能力。它能基于不同控制輸入生成高保真的視頻仿真,支持在多樣化駕駛場景中的全面訓練。此外,IGV 能夠預測環境變化與潛在風險,提升實時決策能力,并提供安全平臺,用于測試自動駕駛系統在罕見或高危場景下的性能。 盡管 IGV 在游戲、具身人工智能和自動駕駛等領域展現出廣闊的應用前景,為更好地推動其發展,我們提出了一個全面的系統框架(見圖3),用于描述理想 IGV 系統的基本組成部分。該框架通過五個關鍵模塊識別核心挑戰與發展方向:生成模塊聚焦于基本的視頻生成能力,盡管生成質量已大幅提升,但在實現實時性能和逐幀自回歸生成方面仍面臨挑戰;控制模塊處理用戶與虛擬世界的交互,其核心難點在于實現精確控制的同時能泛化至開放域場景;記憶模塊保證靜態與動態內容的一致性,但長期連貫性仍是難題;動態模塊模擬虛擬世界中的物理規律,難點在于精確還原各類物理現象并實現對物理參數的精細調控;智能模塊融合因果推理能力,代表了更高級別的智能,有望推動 IGV 演化為具備自我進化能力的元宇宙。 本文的主要貢獻如下:首先,我們全面綜述了 IGV 技術在多個領域(包括游戲、具身人工智能與自動駕駛)中的應用現狀;其次,提出一個系統化框架,將理想 IGV 系統劃分為五個基本組成模塊,為該技術的發展提供結構化的理解路徑;最后,基于該框架,我們系統分析了實現每個模塊所面臨的技術挑戰,為該領域的未來研究提供了明確方向。 本文結構安排如下:第2節介紹視頻生成的基礎技術,涵蓋 VAE、GAN、擴散模型、自回歸模型及其混合形式;第3節描述 IGV 系統框架,包括生成、控制、記憶、動態與智能等模塊,并分析相關挑戰與研究方向;第4至第6節分別探討 IGV 在游戲、具身人工智能與自動駕駛領域中的應用現狀、技術方法、面臨挑戰與發展趨勢。 本研究為我們此前工作的擴展版本 [65],具有以下拓展內容:我們所提出的游戲引擎框架不僅適用于游戲技術,也代表了視頻生成模型向更高智能演進的路徑,能夠指導多領域的技術發展。具體而言,我們補充分析了 IGV 在自動駕駛和具身人工智能等更廣泛領域的應用,并識別出相應挑戰與未來研究方向。 在圖3中,我們構建了交互式生成視頻(Interactive Generative Video, IGV)系統的整體框架。IGV 系統構成了一個虛擬世界,并與來自現實世界的多種角色進行交互。這些現實世界中的角色包括人類參與者,如玩家、設計師和藝術家,他們可以與 IGV 系統交互,從而體驗其虛擬世界,或利用其高效地進行內容創作。同時,這些角色還包括各種智能體及其配備的傳感器,例如機器人、機械臂、車輛及其搭載的攝像頭,代表了 IGV 在自動駕駛和具身智能等領域的應用潛力。

付費5元查看完整內容

摘要

本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。

I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。

近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。

生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。

在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。

A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。

生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。

其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。

付費5元查看完整內容

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要

離線強化學習也稱為批量強化學習,是深度強化學習領域的一項重要研究內容。它利用行為策略生成靜態數據集,無需在線和環境交互,成功地將大規模數據轉換成強大的決策引擎。近年來,離線強化學習方法得到了廣泛關注和深入研究,并在實際應用中取得了矚目的成績。目前,該方法已經應用于推薦系統、導航駕駛、自然語言處理、機器人控制以及醫療與能源等應用領域,并被看作是現實世界應用強化學習最具潛力的技術途徑之一。該文首先介紹了離線強化學習的背景與理論基礎。隨后從決策思路出發,將離線強化學習方法分為無模型、基于模型和基于Transformer模型3大類,并對各類方法的研究現狀與發展趨勢進行分析。同時,對比了目前3個最流行的實驗環境D4RL、RL Unplugged和NeoRL,進而介紹了離線強化學習技術在現實世界諸多領域的應用。最后,對離線強化學習進行了總結與展望,以此推動更多領域的研究工作。 關鍵詞

人工智能;強化學習;深度強化學習;離線強化學習;批量強化學習

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

視頻基礎模型(ViFMs)旨在為各種視頻理解任務學習通用表示。通過利用大規模數據集和強大的模型,ViFMs通過從視頻數據中提取穩健且通用的特征來實現這一目標。這篇綜述分析了超過200個視頻基礎模型,提供了針對14種不同視頻任務的基準和評估指標的全面概覽,并將其分為3個主要類別。此外,我們還對最常見的6種視頻任務的這些模型進行了深入的性能分析。我們將ViFMs分為三類:1)基于圖像的ViFMs,將現有的圖像模型應用于視頻任務;2)基于視頻的ViFMs,采用特定于視頻的編碼方法;3)通用基礎模型(UFMs),在單一框架內結合多種模態(圖像、視頻、音頻和文本等)。通過比較各種ViFMs在不同任務上的性能,這篇綜述提供了有關它們優缺點的寶貴見解,為視頻理解的未來進展提供指導。我們的分析結果令人驚訝地發現,基于圖像的基礎模型在大多數視頻理解任務上始終優于基于視頻的模型。此外,利用多模態的UFMs在視頻任務上表現出色。我們在以下地址分享了這項研究中所分析的ViFMs完整列表://github.com/NeeluMadan/ViFM_Survey.git

強大的計算資源的日益普及和不斷增長的數據集推動了基礎模型的發展[10, 24]。這些多功能的AI模型使用自監督學習或半監督學習在海量數據上進行訓練,可以通過微調用于各種下游任務。最初的成功集中在靜態圖像上[123, 238],例如CLIP[238]和SAM[139]等模型都取得了令人印象深刻的成果。最近的研究[322, 352]已將這一成果擴展到視頻領域,開發出了幾種針對視頻基礎模型(ViFMs)的預訓練策略。 盡管視頻分析和生成數十年來一直是計算機視覺社區關注的焦點[19, 30, 134, 142, 278, 281],但由于任務的復雜性、額外的時間維度以及數據量龐大,這一問題在很大程度上一直具有挑戰性。最初開發的方法主要基于使用標準圖像分析技術處理各個幀并在其上加入時間維度[30, 80]。或者,專為視頻設計的更高級技術也被開發出來,例如3D卷積[338]、循環網絡、光流的使用以及Transformers[7, 19],直接作用于視頻,從而提供更好的時間建模。此外,針對增強視頻理解的多模態角色的研究也有顯著發展[111, 245]。 我們在ViFMs的發展中也看到了類似的趨勢,延續了圖像(基于圖像的ViFMs)、獨立的視頻建模(基于視頻的ViFMs)以及結合額外模態(例如自動語音識別(ASR))(通用基礎模型,Universal FMs)的路徑。 動機和貢獻:視頻理解領域正在經歷顯著的進步,這可以從日益增長的專注于各類視頻理解任務的研究論文數量中看出(圖1)。這種增長與大規模預訓練技術的發展相吻合。這些技術在適應不同任務方面表現出非凡的能力,只需最少的額外訓練即可實現強大的泛化。因此,研究人員正在積極探索這些基礎模型在解決各種視頻理解挑戰中的作用。為了在這個快速發展的研究領域中導航(見圖2),對視頻理解模型進行系統的綜述是必要的。我們試圖通過對用于視頻理解任務的基礎模型進行全面分析來填補這一關鍵空白。我們希望這篇綜述能夠為視頻理解相關的未來研究方向提供路線圖。

我們綜述的主要貢獻: * 本文首次對部署于各種視頻理解任務的基礎模型(ViFMs)進行了全面的綜述。我們將ViFMs分為三類:1)基于圖像的ViFMs:僅在圖像數據上進行訓練。2)基于視頻的ViFMs:在訓練期間利用視頻數據。3)通用基礎模型(UFMs):在預訓練期間結合多種模態(圖像、視頻、音頻、文本)。 * 我們獨特地根據視頻理解任務中對時間維度的涉入程度對其進行了分類。此外,還提供了與每個分類任務相關的數據集和評估指標的詳細列表。 * 我們對每個類別的ViFMs進行了全面的比較,分析了各種研究成果。這一分析揭示了有關最有效的ViFMs在不同視頻理解任務中的寶貴見解。 * 本綜述進一步指出了ViFMs面臨的關鍵挑戰,強調了需要進一步研究關注的開放性問題。此外,我們討論了ViFM開發的有前景的未來方向,為視頻理解的進步鋪平道路。

相關綜述:盡管一些綜述深入探討了特定的視頻理解任務[353, 366]或圖像的基礎模型[10],如Shiappa等人[252]提供了關于自監督視頻理解方法的詳盡綜述,但近年來這一領域已經發生了顯著變化。隨著大規模基礎模型的興起,需要對這些模型在視頻理解背景下進行全面的綜述。據我們所知,我們的綜述是第一個提供用于視頻理解的基礎模型的全面概述。 論文組織結構:在論文的第一部分(第2節),我們涵蓋了從視頻分類到生成的各種視頻分析任務。我們討論了廣泛使用的架構和損失函數,以及與大規模預訓練相關的數據集。接下來,我們解釋了ViFMs的主要類別,即:基于圖像的ViFMs(第3節)、基于視頻的ViFMs(第4節)和通用基礎模型(UFMs)(第5節)(有關分類法請參見圖5)。最后(第6-7節),我們比較并討論了所介紹模型的性能,并展示了該領域的挑戰和未來方向。

付費5元查看完整內容

摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容
北京阿比特科技有限公司