亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——隨著大規模語言模型(Large Language Model, LLM)的普及,世界模型(World Model, WM)的概念近年來在人工智能研究領域,尤其是人工智能代理(AI agents)的背景下,引起了極大的關注。可以說,WM正逐步演變為構建AI代理系統的重要基礎。WM旨在幫助代理預測環境狀態的未來演變,或者幫助代理填補缺失信息,從而使其能夠規劃行動并安全地運行。WM的安全屬性在其在關鍵應用中的有效使用中起著關鍵作用。在本研究中,我們基于全面的文獻調查和預期應用領域的分析,從可信性和安全性的角度對當前最先進的WM技術的影響進行了回顧和分析。我們對當前先進的WM進行了深入分析,并提出技術研究挑戰及其影響,以號召研究社區共同努力改進WM的安全性和可信性。 關鍵詞——人工智能安全、大規模語言模型(LLM)、具身人工智能(Embodied AI)、世界模型(World Model)、智能代理(Intelligent Agents)

I. 引言

近年來,基于Transformer的生成模型取得了快速進展[1],其能力已從自然語言處理(Natural Language Processing, NLP)擴展到多模態應用[2]。前沿模型如SORA[3]、LINGO-1[4]和GAIA-1[5]展示了前所未有的生成高度逼真視頻的能力,這表明通過僅在視頻和語言數據集上的訓練,這些模型已初步掌握了基本的物理和時空連續性等世界性原理。這一新興能力為研究開辟了新途徑,因為理解世界模型對于開發下一代智能系統至關重要。 數據驅動的世界模型概念最早于2017年提出,基于遞歸神經網絡(Recurrent Neural Network, RNN)或長短期記憶網絡(Long-Short-Term Memory, LSTM)架構[6]。盡管這些早期嘗試在相對簡單的模擬游戲環境中展現了一定的潛力,但其表現受限于序列長度、內存和并行能力等約束。Transformer方法的出現帶來了顯著改進,最近的實驗結果顯示了令人鼓舞的進展。因此,許多當代AI代理架構已將世界模型作為核心組成部分[7]。 我們的研究集中于針對具身AI代理(embodied AI agents)的一類特定世界模型。這些代理能夠與物理世界交互。我們從安全性角度審視這些世界模型,填補當前研究中的關鍵空白。自回歸生成模型固有的缺陷(如幻覺現象)[8][9],在機器人和自動駕駛系統(Autonomous Driving Systems, ADS)等安全關鍵應用中帶來了顯著風險[10],并引發了廣泛爭議[11]。盡管目前對世界模型的關注度很高,但我們發現針對具身AI代理的世界模型在安全性方面缺乏全面分析。本文旨在通過簡明而深入的回顧與研究填補這一空白,并從安全性視角進行詳細分析。最后,我們確定了高優先級的研究方向。 本文的主要貢獻總結如下:

  • 我們對近期世界模型研究成果進行了文獻調研,并按時間順序展示了實現世界模型的技術發展路徑。
  • 我們探討了世界模型在具身AI應用(如自動駕駛)中的安全問題。
  • 我們提出了未來研究的潛在方法,以推動可信世界模型的進一步發展。

本文結構安排如下:第二節對當前世界模型的定義進行闡述,并深入探討和分類當前最先進的方法。我們回顧了現代世界模型在不同應用背景下的發展路徑;第三節從批判性視角分析了當前方法在安全性方面的不足;第四節提出了一項研究議程,重點強調提高世界模型安全性的高優先級課題。通過解決這些關鍵問題,我們希望為當前關于具身AI中的世界模型的討論帶來清晰性,并促進更安全、更可信的智能系統的發展。

付費5元查看完整內容

相關內容

摘要—人工智能(AI)的快速發展已徹底改變了眾多領域,尤其是大規模語言模型(LLMs)和計算機視覺(CV)系統,分別推動了自然語言理解和視覺處理的進步。這些技術的融合催生了多模態人工智能,能夠實現跨文本、視覺、音頻和視頻等模態的更豐富的跨模態理解。尤其是多模態大規模語言模型(MLLMs)作為一種強大的框架,展現了在圖像-文本生成、視覺問答和跨模態檢索等任務中的卓越能力。盡管取得了這些進展,MLLMs的復雜性和規模也帶來了可解釋性和可解釋性方面的重大挑戰,而這些挑戰對于在高風險應用中建立透明性、可信度和可靠性至關重要。本文提供了關于MLLMs可解釋性和可解釋性的全面綜述,提出了一個新穎的框架,將現有研究從以下三個角度進行分類:(I) 數據,(II) 模型,(III) 訓練與推理。我們系統地分析了從詞匯級到嵌入級表示的可解釋性,評估了與架構分析和設計相關的方法,并探討了增強透明度的訓練和推理策略。通過比較各種方法論,我們識別了它們的優缺點,并提出了未來研究方向,以解決多模態可解釋性中尚未解決的挑戰。本文綜述為推動MLLMs的可解釋性和透明度提供了基礎資源,旨在引導研究人員和實踐者開發更加負責任和穩健的多模態人工智能系統。

關鍵詞—多模態大規模語言模型、可解釋性、可解釋性、綜述

引言 人工智能(AI)的快速發展已經顯著改變了眾多領域。最近,AI領域最具影響力的進展之一是大規模語言模型(LLMs)的發展,這些模型在文本生成、翻譯和對話式AI等一系列自然語言任務中表現出卓越的語言理解和生成能力[1]。同樣,計算機視覺(CV)的進展使得系統能夠有效處理和解釋復雜的視覺數據,推動了物體檢測、動作識別和語義分割等任務的高精度實現[2]。最近,這些技術的融合激發了對多模態人工智能的興趣,它旨在整合文本、視覺、音頻和視頻等多種模態,實現更加豐富和全面的多模態理解[3, 4, 5, 6, 7, 8, 9, 10, 11]。多模態大規模語言模型(MLLMs)在深度學習技術的重大進展推動下,經歷了快速的發展[12, 13, 14, 15, 16, 17]。通過整合多種數據源,MLLMs在一系列多模態任務中展示了先進的理解、推理和生成能力,包括圖像-文本生成[18, 19, 20]、視覺問答[21, 22, 23, 24, 25, 26, 27, 28]、跨模態檢索[29, 30, 31]、視頻理解[32, 33, 34, 35, 36, 37, 38]。因此,MLLMs在多個領域找到了廣泛的應用[39, 40, 41],包括自然語言處理(NLP)[42, 43]、計算機視覺(CV)[44, 45]、視頻[15, 46, 47]、自動駕駛[3, 48, 49]、醫學[50, 51, 52]和機器人技術[53, 54, 55, 56, 57, 58]。然而,隨著MLLMs的復雜性和規模的增長,出現了一個關鍵挑戰:解碼MLLMs的決策過程[6, 59, 60]。 可解釋人工智能(XAI)領域已經成為使復雜AI系統的決策過程更加透明和易于理解的關鍵[61, 62, 63]。可解釋性和可解釋性被定義為能夠以人類可理解的方式解釋或呈現[64, 65]。盡管在單模態的可解釋性和可解釋性方面已經取得了顯著進展,例如在卷積神經網絡(CNN)[66, 67]和變換器(transformers)[68]在圖像上的應用,以及LLMs[69]在文本中的應用,但多模態領域存在獨特的挑戰,如不同模態的對齊和分解。此外,MLLMs的可解釋性和可解釋性對于確保透明性和可信度至關重要,特別是在人工智能決策對人類產生重大影響的高風險應用中,這涉及如何在模型中結合不同的數據類型,以及它們的相互作用如何影響輸出。根據近期的研究[64, 70, 71],本文定義了在MLLMs中,可解釋性指的是那些本質上易于理解的內部結構,使得輸入如何轉化為輸出能夠直觀地理解。另一方面,MLLMs的可解釋性涉及提供關于模型決策背后的外部分析的后置技術。 本文提出了一種新的視角來分類MLLMs的可解釋性和可解釋性,通過整合數據、模型、訓練與推理的視角。正如圖1所示,我們從三個角度考察MLLMs的可解釋性和可解釋性:數據(第III節)、模型(第IV節)、訓練與推理(第V節)。繼數據驅動的可解釋性研究[72, 73, 74, 75]之后,我們探討了數據視角(第III節),分析輸入和輸出數據如何歸因于模型的決策。我們還分析了基準和應用,以評估各種任務中的可信度和可靠性,從而確保其在現實場景中的魯棒性和適用性[76, 77]。在模型的可解釋性和可解釋性方面[78, 79, 80, 81, 82, 83, 84],從模型視角(第IV節),我們深入分析了從詞匯級、嵌入級、神經元級、層級到架構級的各個層面。在詞匯級[85, 86, 87, 88, 89],我們研究了單個詞匯對模型輸出的影響,并探索了增強可解釋性的方法。在嵌入級[90],我們評估了多模態嵌入如何影響MLLMs的性能和可解釋性,提供了對底層表示機制的更深刻理解。對于神經元級[91, 92, 93],我們分析了單個單元和特定神經元組的作用,以理解它們對整體模型行為的貢獻。在層級級[67, 78, 94],我們研究了不同層次如何影響模型內的決策過程。在架構方面,我們區分了架構分析和架構設計[95, 96, 97, 98]的可解釋性方法,強調了促進透明性和更好理解模型操作的策略。 此外,我們還探討了增強模型透明性和可解釋性的訓練與推理策略(第V節)。在訓練階段[79],我們總結了各種訓練機制和權重調整如何影響MLLMs的可解釋性。我們討論了旨在改善對齊、減少幻覺并促進核心知識和泛化能力獲取的技術。在推理階段,我們研究了如何在不需要重新訓練的情況下,緩解諸如幻覺等問題,包括過度信任懲罰機制和鏈式推理技術。 通過整合這些視角[3, 99, 100],我們的綜述提供了對MLLMs可解釋性和可解釋性挑戰與進展的全面理解。我們相信,這一全面分析將為致力于開發更透明、可靠和可信的多模態模型的研究人員和實踐者提供寶貴的資源。本研究的主要貢獻總結如下: * 我們首次提供了對現有多模態大規模語言模型(MLLMs)可解釋性和可解釋性的深入和全面回顧。 * 我們展示了當前多模態大規模語言模型可解釋性和可解釋性方法的結構化和比較分析,提出了一種新穎的分類方法,將這些方法組織為數據、模型、訓練與推理視角。 * 我們突出顯示了可能推動該領域發展的研究方向,為研究人員進一步發展MLLMs的可解釋性和可解釋性方法提供了有價值的指導。

II. 綜述框架

A. 綜述范圍 近年來,多模態模型和可解釋人工智能(XAI)取得了顯著進展,許多研究探索了使這些復雜模型更加透明和可解釋的方法[72, 73, 74]。為了將本綜述的范圍縮小到一個可管理的范圍,我們聚焦于多模態大規模語言模型(MLLMs)的可解釋性和可解釋性。MLLMs的可解釋性指的是那些本質上易于理解的內部結構,能夠為輸入如何被處理并轉化為輸出提供直觀的洞察[78, 79]。可解釋的MLLMs使研究人員和實踐者能夠深入理解這些跨模態的動態,澄清每個模態如何影響和塑造模型的決策過程[90]。可解釋性涉及使用外部技術來闡明模型決策背后的原因,這在MLLMs中對于理解多模態間復雜的交互作用至關重要[95]。這種重點不僅增強了我們對多模態集成的理解,也回應了對復雜AI系統透明度日益增長的需求[79]。 在本綜述中,我們集中探討MLLMs中四個主要維度的可解釋性和可解釋性: * 數據可解釋性 —— 探討來自不同模態的輸入數據如何預處理、對齊和表示,以支持跨模態的可解釋性,以及如何應用因果歸因方法來增強對模型決策的理解[72, 75]。 * 模型可解釋性 —— 闡明多模態模型本身的結構和功能,提供關于神經元、層次和架構如何貢獻于可解釋性的洞察[67, 78, 79, 80, 85, 86, 87, 90, 91, 95]。 * 訓練與推理可解釋性 —— 理解MLLMs的訓練和推理過程如何影響可解釋性,這對于在學習階段和實際應用中提升透明度至關重要。

為了保持焦點,我們將單一模態的可解釋性方法排除在本綜述的主要范圍之外,如變換器(Transformer)的可解釋性、卷積神經網絡(CNN)的可解釋性或LLMs的可解釋性,僅作為簡要的背景信息進行介紹。類似地,一些不涉及多模態交互獨特挑戰的通用可解釋性方法也不在本綜述的主要范圍之內。相反,我們將重點放在那些專門設計用于解釋和闡明多模態之間交互作用的方法和模型上。 B. 綜述方法論 為了提供對MLLMs可解釋性和可解釋性的全面概述,我們進行了廣泛的文獻回顧,涵蓋了機器學習、自然語言處理(NLP)、計算機視覺(CV)和多模態系統等領域的研究論文。我們重點審查了過去十年(2010–2024)間發表的論文,特別是研究這些領域中可解釋性和可解釋性的不斷增長的文獻。我們的研究方法包括幾個關鍵步驟。首先,我們使用“多模態大模型”、“可解釋性”和“可解釋性”等關鍵詞,在Google Scholar等數據庫中搜索相關論文,具體細節見表I。為了進一步確保綜述的完整性,我們還審查了關鍵論文的參考文獻,并包括了對該領域具有影響力的早期工作。 在收集候選論文后,我們進行了多步驟的篩選過程。首先通過標題篩選潛在相關的論文,然后進行摘要篩查以確認相關性。如果標題和摘要不足以做出決策,我們會進一步查閱完整的文本。如圖2所示,最終選擇的文獻涵蓋了應用于MLLMs的各種可解釋性和可解釋性技術,包括輸入輸出分析、模型組件和訓練動態等。

結論

本綜述系統地探討了多模態大規模語言模型(MLLMs)的可解釋性和可解釋性,強調了決策過程透明性的重要性。我們將可解釋性方法分為三個主要領域——數據、模型和訓練與推理——提供了一個結構化框架來組織研究并指導未來的研究工作。盡管已經取得了顯著進展,但在可解釋性方法和確保廣泛適用性方面仍然存在挑戰。未來的努力應著眼于填補這些空白,構建對MLLMs的統一理解,推動創新,使多模態系統變得更加可靠和可信。

付費5元查看完整內容

摘要——工業網絡正在經歷由新興技術的融合推動的快速轉型,這些技術正在革新傳統工作流程、提升操作效率,并在各個行業領域中根本性地重塑工業格局。在這場革命中,數字孿生(DT)作為一種變革性創新,成功地將現實世界系統與其虛擬對應物相結合,架起了物理世界與數字世界之間的橋梁。本文提供了一個全面的調查,介紹了各行業中基于數字孿生(DT)的新興服務和應用,從數字孿生的基本概念和組成部分概述,到對數字孿生關鍵 enabling 技術的討論。與現有文獻不同,本文深入探討并分析了數字孿生在廣泛工業服務中的應用能力,包括數據共享、數據卸載、集成感知與通信、內容緩存、資源分配、無線網絡以及元宇宙等領域。特別地,本文對數字孿生在各個工業應用領域中的作用進行了深入的技術討論,涵蓋制造、醫療保健、交通運輸、能源、農業、航天、石油與天然氣以及機器人等行業。在技術分析過程中,我們深入探討了物理與虛擬平臺之間的實時數據通信,以實現工業數字孿生網絡的構建。隨后,本文廣泛探討并分析了數字孿生在工業領域中的主要隱私與安全問題。文中還提供了分類表和調查的主要研究成果,強調了數字孿生在工業中的重要意義。最后,本文指出了未來的研究方向,旨在推動該前沿領域的進一步發展。

關鍵詞——數字孿生、工業網絡、無線通信、機器學習、安全性。

I. 引言

工業革命標志著由最近在工業物聯網(IIoT)方面的進展驅動的技術創新和自動化新時代的開始[1]。這一關鍵時期為現代經濟中持續發展的先進工業流程奠定了基礎。近年來,數字孿生(DT)作為這一演變的關鍵推動力,允許通過雙向通信、實時仿真和監控,將物理世界與數字世界連接起來。通過優化操作和增強決策,數字孿生推動了智能制造、預測性維護以及更高效的基礎設施管理[2]。 近期,數字孿生模型因其強大的潛力和多功能性引起了廣泛關注,在醫療保健、教育、農業和制造業等多個領域帶來了顯著的益處[3][4]。它們提供實時洞察、優化流程并增強決策能力,推動了其在眾多領域的應用和探索[5]。憑借其創新的操作方法,數字孿生模型為工業應用提供了多種重要的優勢,且在不同的部署層級下具有不同程度的虛擬化功能[6]:

  • 監控:在這一層次上,數字孿生提供了物理對象的虛擬表示。此功能通過控制其在數字平臺上的數字對應物,實現對物理實體的監控。
  • 仿真:數字孿生作為物理對象的仿真器,幫助理解、預測和優化。虛擬模型適應變化,但這些變化不會影響物理對象。
  • 操作:這一層次特征是物理對象與其數字孿生通過以太網、Wi-Fi或無線蜂窩網絡進行雙向通信,狀態變化在虛擬實體和物理實體中同時反映。

借助其獨特的優勢,數字孿生技術已經被提出應用于廣泛的工業領域,包括智能制造、智能醫療、智能交通、能源管理、衛星通信等。例如,數字孿生在智能制造中扮演著至關重要的角色,通過創建制造系統、機器和流程的數字復制品,貫穿各行業[7]。在醫療保健中,數字孿生增強了病患數據管理并個性化治療方案,同時改善了手術規劃[8]。在交通運輸和物流中,數字孿生利用工業物聯網網絡和無線通信提高了資源監控和優化效率[9]。數字孿生在農業和食品生產中的應用通過無線傳感器網絡實現了精確監控和預測分析[10],同時提升了生產力和可持續性[11]。在衛星操作中,數字孿生通過先進的監控和預測性維護提高了裝配過程和網絡性能的準確性和可靠性[12]。此外,在自動駕駛車輛、無人機和智能港口的管理中,數字孿生利用蜂窩網絡和無線通信提升了導航、安全性和操作效率[13]。所有這些數字孿生在各行各業中的顯著進展和成就,突顯了進一步深入探討這一革命性研究領域的理想時機。本文中將展示的數字孿生在各行業中的集成概覽如圖1所示。數字孿生憑借其強大的技術潛力,已顯著轉變了許多工業領域,包括能源、交通運輸、制造和機器人等。 A. 比較與我們的貢獻

在數字孿生技術的最新進展及其與各類應用的集成推動下,近期已發布了多項綜述,探討了數字孿生的變革性影響及其新興趨勢。例如,[14]的研究貢獻了數字孿生概念,強調其與工業4.0及關鍵技術的集成,特別是在制造業中的快速發展,探討了人工智能和工業物聯網等關鍵技術的作用。類似地,[15]的作者分析了數字孿生技術的當前定義和核心特征,探索其在各個領域的應用,并提出了與社會技術方面和生命周期設計相關的意義。其他研究文獻[16]到[17]則探討了數字孿生在工業物聯網等相關領域中的影響。在[16]中,研究人員呈現了數字孿生的定義和特征,擴展其在物聯網中的應用,并展示了數字孿生在軟硬件一體化過程中的作用。有關數字孿生在工業物聯網中的研究也在[17]中得到探討,重點討論了如人工智能和區塊鏈等技術的支撐作用,探索了智能和安全的數字孿生-IIoT實現方案。此外,[18]中的文章回顧了數字孿生系統中的安全與隱私問題,并討論了防御措施。[19]也集中研究了數字孿生在工業4.0范式下的安全形勢,重點分析了網絡物理系統、工業物聯網、邊緣計算和人工智能等多種技術融合的安全威脅,提出了初步的安全建議。數字孿生在無線網絡中的集成問題在[20]中也有所探討,討論了數字孿生技術在無線系統中的關鍵概念、分類、設計考慮和部署趨勢。而[21]的研究則從通信和計算角度探討了數字孿生在智能產業中的作用,回顧了下一代無線技術(如5G及其后續技術)和計算范式(如邊緣計算和云計算)中的應用研究進展。數字孿生在6G通信系統中的作用也在[22]中進行了探討,分析了數字孿生在6G系統中的部署潛力和應用場景。有關數字孿生在各行業集成與進展的研究在[23]、[24]和[25]中有所涉及,提供了數字孿生在產品設計、生產和健康管理等領域的應用回顧。 盡管已有諸多研究,但它們缺乏對數字孿生在工業服務和應用中的全面綜述。尤其是在數據共享、數據感知與卸載、內容緩存、資源管理、無線網絡、元宇宙等工業服務領域,數字孿生的潛力在公開文獻中仍然未得到充分探索[23]-[24]。此外,關于數字孿生在不同工業領域中的應用的全面討論,在[16]到[17]中也缺失。現有的研究僅提供了部分數字孿生應用分析,而尚未深入探討從機器人、制造到農業和航天等所有重要應用領域的全面綜述。 受到這些局限性的啟發,本文提供了一個更全面的數字孿生在工業網絡中的集成調查,包括工業服務和應用。我們特別強調了在每個工業用例中,物理實體與其數字對應物在統一數字孿生平臺上的雙向通信,提供了有關工業數字孿生網絡操作的有價值見解。此外,本文還突出了數字孿生在工業領域中的安全性和隱私問題,這些也正是我們的關鍵創新,使我們的文章在相關文獻中與眾不同。為此,本文的主要貢獻如下:

  • 我們提供了一個全面的數字孿生在工業中的使用調查,討論了其基本原理、組成部分和主要支撐技術。
  • 我們詳細討論了數字孿生在關鍵工業服務中的作用,包括數據共享、數據卸載、集成感知與通信、內容緩存、資源分配、無線網絡,以及新興概念如元宇宙,重點討論系統、機器、流程及其數字對應物之間的通信和網絡協議特性。
  • 我們對數字孿生在廣泛工業領域中的應用進行了全面調查,包括制造業、醫療健康、運輸與物流、能源、農業與食品、航天、石油與天然氣以及機器人行業,突出了通信和網絡技術在提升數字孿生效果方面的關鍵作用。同時,我們提供了分類表,總結了每種數字孿生應用的技術要點、貢獻和局限。
  • 我們還探討了各行業不同層級的安全和隱私挑戰,包括物理層、數字層、通信層和人機交互層,并提出了有效的對策來解決這些漏洞。
  • 基于廣泛的調查,我們總結了研究成果,并指出了未來的研究方向,以推動這一充滿前景的領域的進一步發展。

B. 調查結構

我們的調查結構如圖2所示。第二節回顧了數字孿生的基本原理、組成部分和支撐技術。第三節深入分析了數字孿生在不同工業設置中的服務。第四節探討了數字孿生在各個工業應用中的潛力。第五節討論了工業網絡中各個層次的安全問題。第六節總結了主要發現,并指出了未來的研究方向。最后,第七節對本文進行了總結。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。

關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習

1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:

  • 挑戰1(模態不平衡)。模態不平衡指的是在多模態系統中對不同模態進行不均衡處理或表示,這種不平衡在數據和參數層面上都有體現。在數據層面,不同模態的數據可用性在CL過程中可能顯著不同,可能出現極端不平衡的情況,如某些模態的缺失【28】。在參數層面,不同模態特定組件的學習速率可能有所不同,導致跨所有模態的整體不平衡學習過程【34】。因此,MMCL模型可能會遭受性能下降,甚至在某些情況下其表現可能比單模態模型還要差【32, 36】。
  • 挑戰2(復雜模態交互)。模態交互發生在模型組件中,即多模態輸入信息的表示之間進行顯式交互。這一交互在MMCL中引入了獨特的挑戰,主要體現在兩個交互過程中:模態對齊和模態融合【37】。在模態對齊中,不同模態的單一數據樣本的特征在持續學習過程中往往會發生偏離,這種現象被稱為MMCL中的空間紊亂【38】。在模態融合中,傳統的多模態融合方法在非CL環境中效果良好,但在MMCL環境中可能表現較差,因為不同的融合技術對解決遺忘問題的影響各不相同【36, 39】。
  • 挑戰3(高計算成本)。MMCL中的多模態整合顯著增加了模型和任務特定層面的計算成本。在模型層面,增加模態不可避免地增加了可訓練參數的數量。許多MMCL方法利用預訓練的多模態模型作為基礎,但持續地微調這些大規模模型會導致沉重的計算負擔【42, 43】。這些不斷增加的計算需求對MMCL方法的實際部署提出了嚴格的可擴展性要求。
  • 挑戰4(預訓練零樣本能力的退化)。隨著預訓練模型的進步,MMCL方法可以借助這些強大的基礎模型。預訓練的多模態模型通常具有在未見過的任務上實現零樣本能力的優勢【44, 45】。然而,在MMCL的連續微調過程中,預訓練基礎模型的一些初始能力可能會下降,這種退化風險可能導致未來任務的性能嚴重下降【45】。 貢獻。為了應對這些挑戰,研究人員正日益關注MMCL方法。我們首次提供了MMCL的全面綜述。我們總結了當前的數據集和基準測試,以促進研究和實驗,并在快速發展的MMCL領域內討論了未來的研究方向。總之,我們的綜述有以下主要貢獻:
  1. 我們提供了第一個全面的MMCL綜述。我們詳細介紹了MMCL的背景知識,包括基本的設定、不同的MMCL場景和常用評估指標。
  2. 在我們的MMCL方法分類體系中,我們將現有的MMCL工作分為四個類別,并提供了詳細的子類別解釋。
  3. 我們總結了當前的數據集和基準,并討論了未來的研究方向,旨在激發創新性研究,從而促進更有效的MMCL方法的發展。

多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:

  • 類增量學習(Class-incremental Learning, CIL):不同任務間的數據分布和標簽空間不同,且測試階段不提供任務ID。模型需能在所有已學類別間進行分類。
  • 領域增量學習(Domain-incremental Learning, DIL):不同任務間的數據分布不同,但共享相同的標簽空間。測試階段不需要任務ID。
  • 任務增量學習(Task-incremental Learning, TIL):不同任務的數據分布和標簽空間均不同,且測試階段提供任務ID,模型知道執行的是哪個任務。 此外,為了適應多模態數據,定義了兩種新的場景:
  • 生成式領域增量學習(Generative Domain-incremental Learning, GDIL):此場景用于生成式任務,例如視覺問答。與CIL不同,GDIL中的模型輸出來自一個較大的詞匯集。
  • 模態動態任務增量學習(Modality-dynamic Task-incremental Learning, MDTIL):任務序列中的模態可能變化,模型在測試階段獲得任務ID,并適應不同的模態組合。

3 方法學

在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:

  • 彈性權重保持(Elastic Weight Consolidation, EWC):通過利用Fisher信息矩陣對參數賦予權重,從而實現參數保護,避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
  • 任務相關性調節(Task Importance Regularization, TIR):這是MMCL中的一種方法,基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重,以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性,從而減少遺忘風險。與顯式正則化不同,隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰,因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾(KD),通常包括以下幾種策略:
  • 基于logits的蒸餾(Logits-based KD):通過對比新模型和舊模型在最后一層輸出的logits,盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
  • 基于特征的蒸餾(Feature-based KD):不僅關注最終輸出,還在中間層的特征上進行對比,從而保留中間表征。
  • 基于關系的蒸餾(Relation-based KD):使用樣本間的關系信息進行對比,如在視覺-語言模型中,可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中,LwF(Learning without Forgetting)是一種經典的隱式正則化方法,它在訓練新任務前使用當前數據生成舊任務的輸出,并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性,被廣泛應用于多模態和單模態CL模型中。在多模態模型中,隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如,ZSCL(Zero-Shot Continual Learning)和Mod-X都使用CLIP作為基礎模型,通過KD技術保留零樣本能力。此外,Mod-X還關注空間無序(Spatial Disorder)問題,以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集:

  • P9D:Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D,并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據,并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
  • UESTC-MMEA-CL:Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據,構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集,這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準,并使用了三種基礎CL方法:EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示,與其他方法相比,iCaRL在重放基礎上能更有效地減輕遺忘問題。 這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性,也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:

  • CLiMB【31】:該基準包括四個視覺-語言任務(VQAv2、NLVR2、SNLI-VE和VCR)、五個僅語言任務(IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA)以及四個僅視覺任務(ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測)。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
  • CLOVE【63】:專注于生成任務,適用于不同模態的生成式任務,利用多個數據集進行評估。
  • MTIL【45】:該基準在視覺-語言領域內使用了多個數據集進行任務增量學習,驗證模型在多任務設置中的表現。
  • CEAR【39】:基準測試多模態數據集(視頻、加速度和陀螺儀)上的持續學習性能,評估模型對復雜運動數據的持續識別能力。 這些基準提供了多種任務和模態組合,用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準,研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:

  1. 豐富模態種類:許多現有研究主要集中在視覺、語言和音頻模態上,但實際應用中往往需要結合更多模態,如生物信號、環境數據等。因此,未來研究可以探索如何將更多元的模態引入MMCL系統,以提高模型對復雜環境的適應性和泛化能力。
  2. 提高數據質量:不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量,以及開發具有魯棒性的數據增強方法,將有助于改善模型對多模態數據的學習效果。
  3. 模態互補性研究:多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果,例如通過模態間對齊和融合方法,以更好地利用數據多樣性,提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:

  1. 參數高效的微調方法:開發參數高效的微調策略(如適配器模塊、低秩近似等),以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數,從而減輕計算負擔。
  2. 模型壓縮和加速:探索模型壓縮(如量化、剪枝)和加速(如蒸餾、混合精度訓練)技術,以降低MMCL模型的內存和計算成本,使其更適合實際部署。
  3. 分布式與異構計算:結合分布式計算和異構計算設備(如GPU和TPU),分擔大規模多模態數據的處理任務,以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:

  1. 保持預訓練模型能力:隨著持續微調的進行,MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上,繼續增強模型對新任務的適應性,將是未來的重要方向。
  2. 增強跨任務泛化:MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制,以增強模型在不同任務間的泛化能力,將有助于提高模型在多變環境下的實用性。
  3. 任務間關系學習:許多現實任務之間存在一定的關聯性,未來可以探索如何利用任務間的關系信息(如標簽關系、特征共現)來更好地指導模型學習,從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:

  1. 模態優先級與加權機制:不同模態對任務完成的重要性可能不同,因此可以研究如何為不同模態分配合適的權重和優先級,以提高模型在模態不平衡情況下的魯棒性。
  2. 動態模態選擇與融合:設計動態的模態選擇策略,使模型能夠在缺少某些模態數據時,靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
  3. 模態數據重采樣與合成:在模態不平衡的情況下,可以研究如何通過重采樣或合成方法生成缺少的模態數據,以保持模態之間的平衡性,提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:

  1. 隱私保護技術:研究如何在MMCL模型中引入隱私保護技術,如聯邦學習和差分隱私,以在多模態數據環境中保護用戶隱私。
  2. 安全模型更新與遷移:開發安全的模型更新和遷移機制,以防止敏感數據泄露,同時保證模型在不同平臺或設備上的適應性和性能。
  3. 數據合成與偽重放:為減輕隱私風險,可以利用數據合成與偽重放技術,在不依賴真實用戶數據的情況下,重建訓練數據分布,從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。

關鍵詞—擴散模型,三維視覺,生成模型。

I. 引言

近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。

為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。

第七節為結論。

**擴散模型基礎

A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。

這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎

 C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。

三維視覺基礎

三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。

**A. 三維表示

三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示

二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。

深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示

顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。

點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。

**B. 三維視覺中的深度學習方法

深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。

基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。

直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。

圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。

占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。

基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。

**C. 三維視覺中的挑戰

遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。

點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。

噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。

三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。

三維擴散生成任務

擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。

**A. 無條件生成

無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。

Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。

**B. 條件生成

在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。

**C. 三維編輯與操作

三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。

**D. 新視角合成

新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。

**E. 深度估計

擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。

結論

本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。

此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。

通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。

付費5元查看完整內容

摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構

深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。

為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。

在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。

在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸

  • SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。

  • SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。

  • SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。

  • Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。

  • 數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。

總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:

  • 我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。

  • 我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。

  • 我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。

  • 我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。

Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。

  • 初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。

  • 樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。

  • 標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。

  • 采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。

  • 通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。

Mixup方法的主要步驟

如圖2頂部所示,Mixup方法遵循以下步驟:

  1. 從訓練數據集中加載mini-batch原始樣本;
  2. 對于一些下游任務,包括選擇原始樣本和保留可靠樣本,一些基于顯著性或注意力的方法通過加載預訓練模型獲得特征區域或tokens。然后,定義從Beta分布或均勻分布采樣的混合比例λ;
  3. 初始化后,原始樣本通過樣本Mixup策略與其他樣本混合。我們在3.1小節中展示了這些策略;
  4. 當生成混合樣本x^\hat{x}x^ 后,有兩種選擇:一種是采樣,一些方法通過掩碼M的總像素更新混合比例,一些方法選擇混合樣本以保留更多的多樣性或具有挑戰性的樣本,另一些方法重新定義混合比例。另一種是標簽Mixup策略,我們在3.2小節中展示了這些策略并進一步挖掘標簽y^\hat{y}y^;
  5. 最后一步是通道Mixup策略,混合樣本x^\hat{x}x^ 通過網絡編碼并映射到高維潛在空間,一些方法相互插值或選擇特征圖用于高維特征z^\hat{z}z^。然后繼續對特征向量進行編碼以執行不同的任務,并根據不同的損失函數優化網絡。

結論

在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。

付費5元查看完整內容

摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務,VAD 已經取得了許多顯著的進展。在深度學習的時代,隨著具備持續增長的能力和容量的架構的爆發,基于深度學習的各種方法不斷涌現于 VAD 任務中,極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此,面對如此多樣的方法和大量的文獻,一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述,涵蓋了五種不同類別的范疇,即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法,并深入探討了基于預訓練大模型的最新 VAD 工作,彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務,我們構建了一個有條理的分類體系,深入討論了不同類型方法的特點,并展示了它們的性能對比。此外,本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后,我們為 VAD 社區提供了若干重要的研究方向。 關鍵詞——視頻異常檢測,異常檢測,視頻理解,深度學習。

異常代表著偏離標準、正常或預期的事物。正常性有多種多樣,而異常現象則非常稀少。然而,當異常出現時,往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常,從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】,例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中,視頻異常檢測 (VAD) 占據著重要地位,異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用(例如暴力、入侵和徘徊檢測),還廣泛應用于其他場景,如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力,VAD 吸引了來自工業界和學術界的廣泛關注。

在深度學習時代之前,常規的方法是將特征提取與分類器設計分離,形成一個兩階段的過程,并在推理階段將它們結合起來。首先進行特征提取,將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性,且在面對復雜場景時難以有效捕捉行為表達,但這些早期工作極大啟發了后續基于深度學習的研究工作。

在過去十年中,隨著深度學習的崛起,傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現,近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如,ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器,首次用于捕捉視頻中的規律;FuturePred【4】首次利用 U-Net 預測未來的異常;DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情,我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查(這個時期由基于深度學習方法的崛起所驅動)。我們選擇了五個相關主題,即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測,并在圖 1 中展示了出版物統計數據。不難看出,從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢,表明 VAD 已經引起了廣泛的關注。此外,我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢,并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢,未顯示出任何性能瓶頸。例如,CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升,從 70.2% AUC【3】上升到 90.1% AUC【7】。此外,針對后續提出的弱監督 VAD,研究也取得了顯著進展。這表明,隨著架構的發展,深度學習方法的能力不斷提升,同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。

上述統計數據清楚地表明,深度學習驅動的 VAD 是當前研究的熱點。因此,迫切需要對現有工作進行系統分類并進行全面總結,以便為新手提供指導并為現有研究人員提供參考。基于此,我們首先收集了近年來一些高影響力的 VAD 綜述,見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD,缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析,主要關注 2020 年之前的方法,忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查,但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述,但其重點不僅限于視頻,還涉及圖像異常檢測,導致對 VAD 任務的系統性組織不足。最近,Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系,例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD,并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而,他們的研究范圍局限于傳統的閉集場景,未涵蓋最新的開放集監督 VAD 研究,也未引入基于預訓練大模型和可解釋學習的全新框架。

為全面解決這一差距,我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面,以提供對 VAD 研究的全面分析。具體而言,我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查,并提出了一個統一的框架,將不同的 VAD 任務整合在一起,填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源,包括基準數據集、評估指標、開源代碼和性能對比,以幫助該領域的研究人員避免走彎路并提高效率。此外,我們系統地對各種 VAD 任務進行分類,將現有工作劃分為不同類別,并建立了一個清晰的結構化分類體系,以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系,我們還對每種模式進行了全面分析。此外,在整個綜述中,我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。 本綜述的主要貢獻總結如下三個方面:

  • 我們對 VAD 進行了全面綜述,涵蓋了基于不同監督信號的五種任務,即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。

  • 跟隨研究趨勢,我們回顧了最新的開放集監督 VAD 研究。此外,我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知,這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。

  • 針對不同任務,我們系統地回顧了現有的基于深度學習的方法,更重要的是,我們引入了一個統一的分類框架,從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。

半監督視頻異常檢測

基于我們對以往綜述的深入調查,我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別,例如基于重建、基于距離和基于概率的方法,有些綜述則根據輸入進行分類,例如基于圖像、基于光流和基于片段的方法。顯然,現有的分類綜述相對簡單且表面化,因此難以全面有效地涵蓋所有方法。為了解決這個問題,我們建立了一個全面的分類體系,涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。

如前所述,在半監督 VAD 任務中,只有正常樣本可用于訓練,這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息,學習深度神經網絡 (DNN) 來解決前置任務。例如,正常性重建是一個經典的前置任務【3】。在此過程中,需要考慮幾個關鍵方面:樣本信息的選擇(模型輸入)、前置任務的設計(方法論)、深度網絡的利用(網絡架構)、方法的改進(優化)和異常結果的表達(模型輸出)。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中,我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。

IV. 弱監督視頻異常檢測

弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向,其起源可追溯到 DeepMIL【5】。相比于半監督 VAD,這是一個較新的研究方向,因此現有的綜述缺乏全面而深入的介紹。如表 I 所示,Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而,前者僅簡要描述了 2018 至 2020 年間的一些成果,而后者盡管涵蓋了近期的工作,卻缺乏科學的分類體系,僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景,我們從 2018 年至今調查了相關工作,包括基于預訓練大模型的最新方法,并從四個方面對現有工作進行了分類:模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。 與半監督 VAD 相比,弱監督 VAD 在訓練過程中明確定義了異常,為檢測算法提供了明確的方向。然而,與全監督 VAD 相比,粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包(正常視頻)中選擇看起來最異常的最困難區域(視頻片段),以及從異常包(異常視頻)中選擇最有可能異常的區域。然后,目標是最大化它們之間的預測置信差異(即使最困難的正常區域的置信度接近 0,最異常區域的置信度接近 1),這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征,異常區域的異常置信度逐漸增加,而正常區域的置信度則逐漸下降。不幸的是,由于缺乏強監督信號,檢測模型在上述優化過程中不可避免地會涉及盲目猜測。

VII. 開集監督視頻異常檢測

讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中,未見過的異常很可能會出現,因此,關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務,其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的(閉集)VAD 不同,傳統 VAD 中的異常類型是已知且定義明確的,而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要,因為在訓練過程中預見并標注所有可能的異常是不現實的。因此,開集 VAD 的研究引起了極大的關注。然而,現有的綜述工作并未對開集 VAD 進行深入研究。基于此,我們進行了深入的調查,并對現有的開集 VAD 工作進行了系統分類。據我們所知,這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中,我們根據不同的研究方向,將開集監督 VAD 大致分為兩類:開集 VAD 和小樣本 VAD。在圖 10 中,我們展示了六種經典的開集監督 VAD 方法。

IX. 結論

我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同,我們提出了一個系統的分類體系,將現有的工作根據監督信號分為五類:半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別,我們進一步根據模型的不同特征進行細分,例如模型輸入和輸出、方法論、優化策略和架構,并展示了各種方法的性能對比。最后,我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。

付費5元查看完整內容

? 作者|劉子康 機構|中國人民大學研究方向|多模態

本文從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法、復雜度與指令側重點三方面展開介紹。引言:近幾個月來,大型語言模型(LLM)在人工智能的各個領域帶來了革命性的進展。通過極大的參數量與預訓練數據量,LLM克服了以往語言模型存在的問題,真正成為了通用的,具備極強推理能力的語言模型,不僅在許多現有的benchmark上取得了極佳的成績,還展現出了以往模型從未出現過了涌現能力。 盡管LLM作為語言模型的能力無可挑剔,但它缺少感知其他模態信息的能力,而這對于實現AIGC至關重要。當前的多模態大模型往往通過給大模型添加一個視覺模塊,再通過多模態指令微調來進行兩個模型的對齊。這之中,多模態指令微調至關重要。本文將從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法,復雜度與指令側重點來介紹它們。

一、多模態指令微調

多模態指令微調,即將純文本的指令微調拓展到多模態形式,并期望通過這些指令以及新增的視覺模塊賦予LLM視覺感知以及結合視覺信息進行正常推理的能力。在多模態指令出現之前,應用LLM解決一些復雜的視覺推理問題往往只能將圖像轉化為對應的caption,并將問題與caption一同作為純文本的輸入送入大型語言模型進行推理。這一類方法的代表為PiCa[1],它通過caption來讓gpt3感知圖像信息,再通過in-context-learning來引導gpt3完成對應任務。

除此之外,Visual-ChatGPT[2]也采用了類似的方式來完成相關任務。通過調用一系列的子模型,Visual-ChatGPT將其他模態的信息轉換成圖像信息,再利用ChatGPT作為大腦進行推理,最終生成最終結果。

盡管這些模型在一系列任務上有非凡的表現,它的缺點也同樣明顯。一方面,由于其他模態信息到文本的轉換需要利用到一系列的小模型,最終模型的表現在很大程度上會受到小模型性能的限制。同時,文本作為連接不同模態的橋梁是不足的,一段描述的文本很難完全的覆蓋到一張圖片的所有信息,因此會導致信息的失真,最終影響到模型的推理結果。因此,我們需要訓練一個端到端的模型。已有的很多工作已經可以將圖像輸入映射到文本空間中(如CLIP[3]),我們需要一個多模態指令集,既包含了原本的兩種模態的對齊數據,也包含了基于多模態信息的復雜推理與對話數據。本文將在后面介紹這一類指令。

二、多模態指令 * MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning

本文是在LLaMA出現前的一篇工作,非常具有前瞻性。作者提出了一個指令數據集-MultiInstruct,包含了當下的34個多模態任務,并將其劃分成了若干個任務組。整體指令沿用了Flan[4]指令集的風格,由人工標注者們先根據任務本身的類型描述來標注每個任務的instruction,再經過多個步驟確認每個任務指令的準確性以及保證任務之間的指令不發生沖突。基于當前構造的指令數據集,作者還加入了純文本的NATURAL INSTRUCTIONS[5]指令集,并通過一系列實驗證明了純文本指令集的加入能夠有效提高模型的敏感度-即模型對于不同或輕微改變的指令下生成相同答案的一致性。

  • Visual Instruction Tuning

本文提出了一個多模態大模型-LLaVA,是LLaMA出現后的多模態微調工作。本文采用對話微調后的Vicuna模型作為基座,期望能夠增強模型基于多種模態的對話能力。LLaVA采用的多模態指令主要follow了Vicuna[6]指令集的形式,沒有包含比較復雜的任務描述。為了增強模型在通用場景下的多模態對話與推理能力,LLaVA使用了ChatGPT/GPT-4來輔助多模態的指令生成。具體而言,LLaVA首先將圖像轉換為由文本表示的Context,為了盡可能的降低圖像到文本轉換的失真程度,作者采用了兩種Context,一種是captions,包含了全局的描述信息。另一種是boxes,包含了細粒度的實體-位置信息。

基于這一類信息,作者向GPT-4輸入了一系列指令,這一系列指令包含了對話類型指令,包含了對圖像細粒度推理的指令與基于圖像的復雜推理指令。由于GPT-4自身非常強大的推理能力,它能夠提供有意義的回復數據作為后續訓練的多模態指令。最終自動化構造的指令集包含158K個多模態指令,基于這些指令訓練得到的LLaVA模型在通用的多模態問答對話上表現出了強大的能力。 * GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

GPT4RoI是構建細粒度多模態指令的一個嘗試。此前的絕大多數多模態指令都著重關注全局的視覺理解與視覺推理,而忽略了局部的細粒度視覺特征。GPT4RoI希望能夠構建一個數據集,輔助多模態模型不僅能夠從全局層面來理解圖像,同樣能夠理解圖像的細粒度特征,從而可以完成一些更加復雜的圖像推理任務。本文構造了兩類用于不同階段訓練的多模態指令,第一階段指令用于訓練區域特征與實體的對齊,第二階段指令用于訓練包含區域特征的推理。大部分指令由原本的RefCOCO與Visual Genome等數據集中抽取而來,同時也利用了外部工具對原本的LLAVA-150K數據集構建了額外的細粒度標注。 通過細粒度的標注指令,GPT4RoI上訓練的模型能夠根據特別的區域輸入理解模型的細粒度特征,擁有了更加多樣化的推理能力。 * Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic

與GPT4RoI類似,Shikra同樣對多模態指令在細粒度層面進行了擴展。相較于GPT4RoI更加注重于在指令輸入端細粒度的增加,Shikra同時希望模型在輸出端能夠顯式的進行細粒度的推理,輸出更多樣化的結果。Shikra的主要靈感來源于人類對話中實體指代的存在,即在對話中會提及到一系列的實體,而這些實體應當對應到圖像的某一個具體區域。

為了構造這些指令,Shikra同樣借助到了GPT4的幫助。作者從高質量的細粒度標注數據集Flickr30K出發,Flickr30K中的每一個圖像包含了5個細粒度的實體標注以及對應的caption描述。這些實體描述和對應的具體坐標將會被送入GPT4中幫助它們理解實體在圖像中的問題。最后,基于這些實體,GPT4將會設計一系列的問答對,這些問題被保證是可以完全通過已有信息來回答的。

作為一個通用指令集,基于Shikra訓練的通用模型在一系列指代任務上取得了非常好的效果,同時由于生成文本指定了圖像的實體,也有效的降低了多模態幻象的產生。 * M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

M3IT同樣是一個大型的多任務多模態指令集。它包含了8個大類的任務集合,并采取了類似MultiInstruct的方式進行指令的人工標注。M3IT的創新點在于,它考慮到了原有的多模態數據集(如VQA)中會存在大量的信息量較少的“短答案”,即對于一個問題僅提供一個極短的精確答案,但沒有提供中間過程,而多模態大模型則希望能夠提供更加詳細,有效的回復。為了解決這個問題,M3IT對于這一類問題進行了答案的復寫,通過一些額外的圖像信息(例如OCR)來使得答案變得復雜化與多樣化。同時,為了支持多語言的多模態指令,M3IT對于一些重要的數據集的指令進行了翻譯,使其同時支持中英兩種語言。最終,經過人工和ChatGPT的雙重質量檢測過程,得到了一個包含了2,429,264個實例的多模態多語言指令集。基于M3IT指令集訓練的多模態模型在生成答案的ROUGE-L分數和多語場景下表現出了良好的性能。

VIGC: Visual Instruction Generation and Correction

VIGC是一種新式的多模態指令生成技術。此前的方法往往采用ChatGPT或GPT4進行對話生成,而圖像信息通過Caption或box等其他信息以文字的形式輸入到模型之中。這種方式會導致圖像信息的失真,從而導致生成對話的失真,即生成對話不一定是與圖像緊密相關的,或者有一些細節錯誤以及幻象的出現。VIGC借助了LLM中self-instruct的思想,通過多模態模型自身來生成指令。具體做法是基于已有或自動生成的指令,通過多模態模型生成回復。對于這些回復,通過ChatGPT來進行檢查修正,從而得到高質量的多模態指令集。VIGC既可以用于多模態指令集的生成,也可以用于已有任務指令集的增廣。通過這一類方式,基于VIGC的若干個模型在數個通用benchmark以及一些任務特定的benchmark都取得了提升,證明了該方法的有效性。

StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data

StableLLaVA是一種基于Stable Diffusion來完全的自動化生成多模態指令集的方案。當前的多模態指令集往往采用現有的圖像,通過ChatGPT來生成后續的對話。這樣的方法盡管有效,但現有的圖像數據集會存在一定的領域偏差,同時,生成的多模態對話嚴重依賴于真實圖像,會影響到生成多模態對話的多樣性與質量。一種很自然的想法是,借助當前AIGC領域所取得的巨大成功,可以通過擴散模型自由的生成任意類型的圖像,再通過ChatGPT生成任意類型的對話,如下圖所示:

在這種設定下,圖像和對話可以有關幾乎任何主題,甚至是超現實的,極大的提高了多模態模型的想象力與創造性。在具體做法上,作者通過ChatGPT來生成擴散模型的prompt,基于若干個基礎關鍵詞與場景,再加上一些額外的指令引導(如“生成一段笑話”),可以得到非常多樣化的生成圖像。基于生成圖像以及圖像的prompt,再通過ChatGPT生成一系列圖像相關的對話。基于StableLLaVA訓練的多模態模型在非真實場景與真實場景的benchmark中都取得了不錯的表現。

參考文獻:

[1]An empirical study of gpt-3 for few-shot knowledge-based vqa [2]Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [3]Learning Transferable Visual Models From Natural Language Supervision [4]Finetuned Language Models are Zero-Shot Learners [5]Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks [6]Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7]MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning [8]Visual Instruction Tuning [9]GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [10]Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic [11]M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning [12]VIGC: Visual Instruction Generation and Correction [13]StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data

付費5元查看完整內容

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容
北京阿比特科技有限公司