亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。

GitHub 倉庫//github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。

一、引言

時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。

近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。

為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。


本文的主要貢獻總結如下:

全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。

文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。

付費5元查看完整內容

相關內容

摘要——從視覺觀測中重建四維空間智能長期以來一直是計算機視覺領域中的核心難題之一,并具有廣泛的現實應用場景。這些應用涵蓋從電影等娛樂領域(側重于基礎視覺要素的重建)到具身智能(強調交互建模與物理現實性)。得益于三維表示和深度學習架構的迅猛發展,該研究方向迅速演進,已遠超以往綜述的覆蓋范圍。此外,現有綜述往往缺乏對四維場景重建中層次結構的系統分析。為填補這一空白,本文提出一種新的視角,將現有方法按照五個逐級遞進的四維空間智能層級進行組織: (1) 第一層級:低層三維屬性的重建(如深度、姿態和點云圖); (2) 第二層級:三維場景組成要素的重建(如物體、人類、結構體); (3) 第三層級:四維動態場景的重建; (4) 第四層級:場景組件之間交互的建模; (5) 第五層級:物理規律與約束的融合建模。 本文最后討論了各層級所面臨的關鍵挑戰,并指出了邁向更高層次四維空間智能的潛在研究方向。為了追蹤該領域的最新進展,我們維護了一個實時更新的項目頁面: //github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 關鍵詞——四維空間智能、低層線索、場景重建、動態建模、交互建模、物理建模、視頻

1 引言

利用機器學習或深度學習技術自動重建四維空間智能,長期以來一直是計算機視覺領域中的關鍵難題。通過同時捕捉靜態構型與隨時間變化的動態過程,四維空間智能能夠提供對空間環境的全面表示與理解,將三維幾何結構與其時間演化整合在一起。該研究方向因其廣泛的應用場景而受到高度關注,包括視頻游戲 [1]、電影 [2] 和沉浸式體驗(如 AR/VR)[3], [4],其中高保真度的四維場景是實現真實用戶體驗的基礎。 除了這些側重于四維空間智能基本組成部分的應用場景——如深度、相機姿態、點云圖、三維跟蹤等低層線索,以及場景組成要素和動態之外,空間智能還在推動具身智能(Embodied AI)[5], [6], [7] 和世界模型(World Models)[8] 的發展中發揮著核心作用。這些后者的任務更加注重場景中各組成部分之間的交互以及重建環境的物理合理性。 近年來,四維空間智能的重建技術取得了飛速進展。已有若干綜述工作 [9], [10] 從不同角度提供了有價值的視角,并總結了該領域中持續存在的挑戰。例如,[11]–[13] 綜述了通過深度立體匹配獲取低層場景信息的最新進展;[14]–[16] 系統梳理了三維場景重建方面的研究,涵蓋多種輸入模態和多樣的三維表示方式;[9], [10] 則從核心架構出發對動態四維場景重建方法進行了分類。 然而,隨著新型三維表示方法的提出 [17]–[19]、高質量視頻生成技術的發展 [20]–[22]、以及更高效重建模型的出現,該領域已取得顯著進展。盡管如此,現有綜述尚未系統分析動態四維場景的不同組成層級,也未深入探討各層級的發展現狀與關鍵挑戰,導致人們對四維空間智能的理解仍存在碎片化傾向,容易忽略其中的關鍵組成部分。因此,亟需一份全面、系統、與時俱進的綜述來將四維空間智能劃分為不同層級,梳理最新進展,并描繪該研究領域不斷演化的全貌。 基于這一緊迫需求,本文將現有的四維空間智能重建方法劃分為以下五個層級,并分別對其最新進展進行系統梳理: * 第一層級:低層三維線索的重建。

該層級聚焦于深度、相機姿態、點云圖和三維跟蹤等基礎三維線索的重建,這些要素構成了三維場景的基本結構。傳統上,這一任務常被劃分為多個子領域,如關鍵點檢測 [23]–[25] 與匹配 [26]–[29]、魯棒估計 [28], [30]、SfM(結構自運動)[31]–[34]、BA(Bundle Adjustment)[35]–[38]、以及稠密多視圖立體重建(MVS)[39]–[43]。近期方法如 DUSt3R [44] 及其系列擴展 [45]–[48] 致力于聯合求解上述子任務,實現更協同的一體化推理。而 VGGT [54] 則在 Transformer 架構 [49]–[53] 的基礎上,提出了一個端到端系統,能在數秒內高效估計這些低層三維線索。 * 第二層級:三維場景組成要素的重建。

在第一層級的基礎上,第二層級進一步重建場景中的獨立要素,如人類、物體和建筑等。雖然某些方法涉及要素間的組合與空間布局,但通常不對它們之間的交互進行建模或約束。近期方法結合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示(如 DMTET [18] 和 FlexiCube [57])等創新型三維表示方式,提升了重建細節的真實性、渲染效率以及整體結構一致性,為照片級真實感場景重建和沉浸式虛擬體驗奠定基礎。 * 第三層級:四維動態場景的重建。

本層級引入場景動態,是實現“子彈時間”式四維空間體驗和沉浸式視覺內容的關鍵步驟。現有方法主要分為兩類:一類方法 [58]–[62] 先重建一個靜態的標準輻射場,再通過學習得到的時序變形建模動態過程;另一類方法 [63]–[69] 則將時間作為額外參數直接編碼進三維表示,實現連續動態建模。 * 第四層級:場景組件之間交互的建模。

該層級標志著空間智能研究進入更成熟階段,著眼于不同場景組成部分之間的交互建模。考慮到人類通常是交互的核心主體,早期工作 [70]–[74] 主要聚焦于捕捉人類與可操控物體的動作。隨著三維表示的進步,近期方法 [75]–[80] 可更精確地重建人類與物體外觀,而人-場景交互建模 [81]–[85] 也逐漸成為研究熱點,為構建完整世界模型提供基礎支撐。 * 第五層級:物理規律與約束的融合建模。

盡管第四層級能夠建模場景組件之間的交互,但通常忽略了如重力、摩擦力、壓力等底層物理規律。因此,在如具身智能 [5]–[7] 等任務中,這類方法常難以支持機器人在現實世界中模仿視頻中的動作與交互。第五層級的系統旨在通過引入物理可行性約束來彌補上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平臺及強化學習方法 [90]–[92],展示了從視頻中直接學習并復現類人技能的能力,標志著向物理一致性空間智能邁出重要一步。此外,對一般三維物體(如變形、碰撞與動力學)和物理場景的建模 [93]–[95] 也成為活躍研究方向,進一步拓展了第五層級的適用范圍。

綜述范圍: 本文主要聚焦于從視頻輸入中進行四維場景重建的方法,具體圍繞上述五個層級梳理關鍵技術進展與代表性工作。所選論文大多來自計算機視覺與圖形學的頂級會議和期刊,并補充了部分 2025 年發布的 arXiv 預印本。我們的選擇標準強調與本綜述主題的相關性,旨在提供該領域近期快速進展的全面概覽。 本綜述不涵蓋純三維生成方法 [96]–[98] 及基于生成式視頻擴散模型 [20]–[22] 的四維生成方法 [99]–[104],因為它們通常只生成單一類型輸入,與四維重建關系較弱。此外,我們也未深入探討各類三維表示方法,相關讀者可參考已有的綜述文獻 [10], [15], [105]–[110]。 組織結構: 圖 1 展示了四維空間智能各層級的整體概覽。接下來的章節中,我們按照從視頻輸入重建五個關鍵層級的流程,構建一個系統的研究分類體系:第 2 節介紹低層三維線索,第 3 節討論三維場景要素,第 4 節聚焦動態場景建模,第 5 節涉及場景交互,第 6 節探討物理規律建模。最后在第 7 節中,我們將對當前方法進行批判性反思,指出各層級仍面臨的開放挑戰,并展望超越現有五層級的四維空間智能未來發展方向。

付費5元查看完整內容

摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。

隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型

1 引言

深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?

為此,本文對 VLM 的泛化能力展開系統文獻綜述。


研究動機與貢獻

現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。

我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。


同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。


綜述貢獻總結如下:

系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。


文章結構如下:

第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。

付費5元查看完整內容

摘要

近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。

關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言

作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)

傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)2)多模態輸入(Multimodality Inputs)

通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)

現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)

大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)

通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)

通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)

與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異

在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。

我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。

付費5元查看完整內容

基于Transformer的基礎模型已成為時間序列分析領域的主流范式,在預測、異常檢測、分類、趨勢分析等多種時間序列分析任務中展現出前所未有的能力。本文綜述了當前最新的預訓練基礎模型,提出了一種新穎的分類方法,從多個維度對相關模型進行系統性梳理。具體而言,我們按照架構設計對模型進行分類,區分了采用基于patch的表示方法的模型與直接處理原始序列的模型。該分類體系還包括模型是否提供概率性或確定性預測,以及模型是專為處理單變量時間序列設計,還是可直接處理多變量時間序列。 此外,分類框架還涵蓋了模型的規模與復雜度,突出輕量級架構與大規模基礎模型之間的差異。本綜述的一大特色是引入了以訓練階段所使用的目標函數類型為依據的分類方式。通過綜合上述多個視角,本文旨在為研究人員與業界從業者提供參考資料,洞察當前研究趨勢,并指明基于Transformer的時間序列建模未來的發展方向。

時間序列數據是現代數據分析中的關鍵組成部分,廣泛應用于金融、醫療健康、經濟學、氣候科學、庫存管理、能源管理、交通管理、物聯網(IoT)、工業流程、供應鏈優化、電信、零售分析、社交媒體監控、傳感器網絡、天氣預測,甚至醫療診斷等多個領域。時間序列分析的重要性在于其能夠捕捉時間依賴性和趨勢性,對于缺失值填補、分類、預測及異常檢測等任務至關重要。例如,在金融領域,時間序列數據可用于預測股價或識別市場異常;而在醫療健康領域,時間序列分析能夠實現患者生命體征的實時監控,及早發現潛在疾病或預測疾病暴發。在氣象學中,其對天氣模式和氣候變化的預測尤為關鍵;而在經濟學中,時間序列分析有助于預測如通貨膨脹和國內生產總值(GDP)增長等關鍵指標。在能源領域,時間序列數據對于優化需求預測和資源調配具有重要價值;在庫存管理中,它有助于預測庫存水平并提升供應鏈效率。在電信領域,時間序列數據用于網絡流量分析和預測性維護;在零售行業中,它支持需求預測與顧客行為分析。在制造業中,時間序列分析能夠優化生產調度并監控設備健康;而在交通運輸中,則有助于預測交通模式并優化車隊管理。圖1展示了在無需微調或微調基礎模型的情況下,在不同領域中應用時間序列任務(如預測、聚類、插補等)的實例。 傳統的時間序列分析方法主要依賴統計學方法,如移動平均(MA)、指數平滑等,這些方法通過對數據平滑處理來識別潛在趨勢。諸如自回歸移動平均整合模型(ARIMA)等方法,結合了自回歸(AR)與移動平均(MA)成分,廣泛用于建模時間相關結構。基于局部加權回歸的季節性和趨勢分解(STL)方法也常用于將時間序列分解為趨勢、季節性與殘差成分。在圖2中,我們展示了蘋果公司(AAPL)在5分鐘時間框架下的日內價格波動,使用了15周期的簡單移動平均(SMA)與指數移動平均(EMA)兩種常見技術分析指標對價格進行平滑處理并識別潛在趨勢。 盡管這些傳統方法在多數場景下有效,但在面對更復雜的非線性模式或高維數據時往往力不從心。相比之下,支持向量機(SVM)與梯度提升機(GBM)等機器學習算法在捕捉更復雜的時間依賴性方面表現更佳,尤其是數據趨勢較為簡單或線性時。然而,這些算法在處理不規則采樣數據或依賴人工特征工程以提取時間特征時面臨較大挑戰。例如,ARIMA模型難以捕捉長期依賴關系或非線性關系;傳統機器學習算法通常依賴繁瑣的數據預處理與特征選擇才能在時間序列任務中取得良好表現。此外,這些傳統模型常常依賴數據平穩性或均勻采樣等假設,這在實際應用中往往無法滿足。例如,在傳感器數據或具有不規則交易時間的股市數據中,傳統方法的表現往往不佳,從而推動了更先進技術的發展需求,以更有效應對這些復雜性。

1.1 神經網絡在時間序列分析中的應用

為克服上述局限,神經網絡,尤其是循環神經網絡(RNN)與卷積神經網絡(CNN),近年來成為時間序列建模的強大替代方案。神經網絡具備從原始輸入中自動學習分層表示的能力,從而免去了大量人工特征工程。這種“端到端”的學習方式使模型能夠自動捕捉數據中的潛在結構,尤其適用于存在復雜非線性時間依賴關系的預測、異常檢測和分類任務。RNN由Rumelhart等人在1980年代提出,專為處理序列數據而設計,能夠通過維護隱藏狀態捕捉歷史輸入信息。在每個時間步,RNN基于當前輸入與前一狀態更新隱藏狀態,從而建模時間依賴關系。這使得RNN非常適合于諸如股價預測、天氣預測或傳感器數據分析等場景。 然而,盡管RNN理論上具備建模序列依賴的優勢,但其在實際訓練過程中存在“梯度消失”問題。在采用時間反向傳播(BPTT)訓練RNN時,梯度在長序列中反向傳播過程中可能變得極小,從而難以學習長期依賴關系。在面臨需要捕捉遠距離依賴或長序列預測的任務中,RNN的表現通常不盡如人意。為緩解該問題,Hochreiter與Schmidhuber于1997年提出了長短期記憶網絡(LSTM),通過引入記憶單元和門控機制(輸入門、遺忘門和輸出門)來控制信息的保留與丟棄,從而有效捕捉長期依賴。Gated Recurrent Unit(GRU)由Cho等人在2014年提出,是LSTM的簡化版本,采用重置門和更新門,在保留性能的同時提高計算效率。 盡管LSTM與GRU在許多時間序列任務中(如股價預測、能源需求預測、傳感器異常檢測)已表現優于傳統RNN,但它們在處理大規模數據時仍面臨諸多挑戰: 1. 序列性與并行化限制:RNN需逐步處理時間序列,導致訓練與推理難以并行化,計算成本高、耗時長; 1. 長期依賴建模難度:即使是LSTM與GRU,面對極長或高度復雜的序列時仍可能出現梯度消失/爆炸; 1. 資源開銷:在大規模數據集上訓練RNN類模型需消耗大量內存與計算資源,難以滿足實時性或資源受限環境的需求; 1. 過擬合與泛化能力弱:參數較多的RNN模型在數據量不足時易發生過擬合,泛化性能較差。

1.2 Transformer范式

Transformer架構于2017年首次提出,標志著序列建模范式的重大轉變。Transformer最初用于自然語言處理(NLP)任務,其核心創新是自注意力機制,可在無遞歸結構的前提下建模序列中元素間的依賴關系。與RNN不同,Transformer能夠并行處理整個序列,從而顯著提升訓練效率。其自注意力機制使模型能動態關注序列中任意位置的相關信息,對于建模長距離依賴關系尤為有效。 Transformer架構能夠在較低計算成本下建模復雜時間依賴,克服了RNN在處理不規則采樣間隔或非線性跨尺度模式時的局限性。同時,由于不依賴遞歸結構,Transformer有效規避了梯度消失問題,自注意力機制實現了序列中任意位置之間的信息直接傳遞,使得模型能捕捉更復雜的時間關系。 因此,基于Transformer的模型迅速在時間序列分析中獲得關注,并在多項任務中(如預測、異常檢測)超越了傳統方法與RNN架構。近年來,許多專為時間序列設計的Transformer變體相繼出現,如 Time Series Transformer (TST)、Informer 等,它們在長序列建模與不規則數據處理方面表現出色。

1.3 基于Transformer的時間序列基礎模型

傳統時間序列建模方法通常對每條序列獨立建模,這在面對大規模或時間模式多樣的序列時難以取得良好效果,因為這種方法無法捕捉跨序列的共性與共享模式。相比之下,Transformer模型可在整體數據上統一訓練,從而提取跨序列的通用特征,構建更具魯棒性與泛化能力的基礎模型。 隨著對這一優勢的認識加深,學術界與工業界對基于Transformer架構的時間序列建模興趣日益增長,目標在于開發更準確、高效、可擴展的解決方案,適用于預測、異常檢測、分類等任務。Transformer在NLP與計算機視覺中的成功進一步證明了其跨領域的廣泛適用性,為時間序列分析提供了新的建模范式。 基于Transformer的模型的快速發展及其在多個領域的持續成功表明,這不僅僅是一種短暫的趨勢,而是對傳統序列建模方式的根本性變革。未來,Transformer架構有望在時間序列分析中發揮關鍵作用,推動預測精度、異常檢測能力與對時序數據的理解水平不斷提升,助力多個領域的數據驅動決策與智能系統發展

付費5元查看完整內容

摘要:深度學習極大地推動了遙感圖像處理技術的發展,在精度和速度方面展現了顯著優勢。然 而,深度學習模型在實際應用中通常需要大量人工標注的訓練樣本,且其泛化性能相對較弱。近 年來,視覺基礎模型和大語言模型的發展為遙感圖像處理的大模型研究引入了新的范式。遙感大 模型也稱為遙感基礎模型,基礎模型因其在下游任務中的卓越遷移性能而備受矚目,這些模型首 先在大型數據集上進行與具體任務無關的預訓練,然后通過微調適應各種下游應用。基礎模型在 語言和視覺及其他領域已經得到了廣泛應用,其在遙感領域的潛力也正逐漸引起學術界的重視。 然而,目前針對這些模型在遙感任務中的全面調查和性能比較仍然缺乏。由于自然圖像與遙感圖 像之間存在固有差異,這些差異限制了基礎模型的直接應用。在此背景下,本文從多個角度對常 見的基礎模型以及專門針對遙感領域的大模型進行了全面回顧,概述了最新進展,突出了面臨的 挑戰,并探討了未來發展的潛在方向。

關 鍵 詞:遙感基礎模型;微調;下游任務;預訓練

付費5元查看完整內容

摘要——近年來,自動駕駛領域的突破性進展徹底改變了車輛感知和與周圍環境互動的方式。特別是,世界模型作為一種關鍵技術應運而生,提供了對駕駛環境的高保真表示,能夠整合多傳感器數據、語義信息和時間動態。這類模型將感知、預測和規劃統一起來,使得自動駕駛系統能夠在復雜且經常不可預測的條件下快速做出知情決策。研究趨勢涉及多個領域,包括4D占用預測和生成數據合成,這些都能增強場景理解和軌跡預測。值得注意的是,近期的研究利用大規模預訓練和先進的自監督學習,擴大了模型在稀有事件模擬和實時互動方面的能力。在應對諸多關鍵挑戰時——包括領域適應、長尾異常檢測以及多模態融合——這些世界模型為更強大、可靠且適應性更強的自動駕駛解決方案鋪平了道路。本綜述系統地回顧了當前的技術前沿,將相關技術按其在未來預測、行為規劃以及兩者之間的互動方面的側重點進行了分類。我們還識別了未來研究的潛在方向,強調了整體集成、計算效率提升和高級仿真等方面。我們的綜合分析凸顯了世界模型在推動下一代自動駕駛系統朝著更安全、更公平的出行方向發展的變革性作用。

關鍵詞——自動駕駛、世界模型、自監督學習、行為規劃、生成方法 1 引言 1.1 概述 完全自動駕駛的追求已經迅速成為全球科學研究和工業努力的焦點。其核心目標是同時減少交通事故、緩解擁堵,并提升不同社會群體的出行能力[1]。現有統計數據顯示,人為錯誤仍然是道路事故的主要原因[2],這表明,減少人工干預可以顯著降低與交通相關的死亡和傷害的發生率。除了安全性,經濟因素(例如,減少擁堵和優化物流)也推動了自動駕駛技術的發展[3]。 盡管這些激勵因素令人信服,實現高水平的自動駕駛仍需克服相當大的技術難題。最重要的挑戰之一是感知和理解動態交通場景,這要求將異構傳感器數據流(例如激光雷達、雷達、攝像頭)融合成一個統一的環境表示[4],[5]。從復雜的城市布局到高速公路,自動駕駛車輛必須快速吸收多模態數據,檢測關鍵物體(如車輛、行人、自行車騎行者),并預測它們在不同條件下的運動——例如惡劣天氣、無結構道路或繁忙的交通[6],[7]。此外,實時決策還帶來了嚴格的計算約束,要求系統在毫秒級響應時間內應對突發障礙物或異常行為[8],[9]。同樣關鍵的是,系統在極端或長尾場景(例如嚴重天氣、施工區或異常駕駛行為)下的魯棒性,在這些情況下,性能不足可能會危及整體安全性[10],[11]。 在這一背景下,構建穩健且穩定的世界模型已成為基礎性要素。世界模型的概念包括創建一個高保真的駕駛環境表示——涵蓋靜態結構(如道路、建筑)和動態實體(如車輛、行人)[3],[8]。一個全面的世界模型不斷捕獲語義和幾何信息,同時實時更新這些表示,從而為下游任務(如物理世界預測)提供支持[12],[13]。近期的進展通過集成多傳感器數據來細化這些表示,例如生成性方法[14],[15],這些方法通過模擬物理世界來進行訓練,將異構傳感器輸入統一為一致的自上而下的視角[16],[17]。 這些穩健的世界模型利用環境表示來優化智能體的行為規劃,為更安全和更高效的自動駕駛應用奠定了基石。通過實現主動軌跡優化、實時危險檢測和自適應路線規劃,它們能夠直接降低突發危險所帶來的風險[5],并與不斷發展的車聯網(V2X)系統相契合[9]。最終,世界模型促進了感知和控制子系統之間更緊密的集成,簡化了閉環自動駕駛管道[18],[19]。 現有關于世界模型在自動駕駛中的綜述通常可分為兩類。一類主流綜述側重于描述廣泛應用于多個領域的世界模型[20]–[22],其中自動駕駛只是一個特定應用領域。第二類綜述[23],[24]則專注于世界模型在自動駕駛領域中的應用,嘗試總結該領域的現狀。目前,關于自動駕駛中世界模型的綜述較少,它們通常對這些研究進行大致分類,且常常僅關注世界仿真或缺乏對行為規劃與物理世界預測交互的討論,導致該領域缺乏清晰的分類體系。本文的目標不僅是正式定義和分類自動駕駛中的世界模型,還提供對近期技術進展的全面回顧,并探索其在多個領域的廣泛應用,特別強調它們在自動駕駛中的變革性潛力。這一結構化的分類方法使我們能夠突出這些模型如何根據汽車行業的挑戰進行塑造和適應。 1.2 貢獻 本文綜述的指導思想是世界模型是理解動態場景的核心,旨在提供一個全面、結構化的現有方法論回顧。我們將最前沿的研究分類為三個關鍵領域: 物理世界的未來預測:聚焦于動態物體和靜態實體的物理世界演化[11],[25]; 智能體的行為規劃:研究生成式和基于規則的規劃方法,這些方法在不確定的駕駛條件下生成安全、有效的路徑[12],[13]; 行為規劃與未來預測之間的交互:強調統一框架如何捕捉智能體之間的交互,并利用預測性洞察進行協同優化[18],[26],[27]。 具體來說,我們提供: 未來預測模型的深入分析:我們討論了基于圖像/鳥瞰圖/物體圖/點云的研究如何在動態場景中實現幾何和語義的高保真度,包括4D占用預測和基于擴散的生成方法。 行為規劃研究:我們探索了基于規則和基于學習的方法在行為規劃中的應用,展示了在魯棒性和避碰性能上的顯著提升。 交互模型研究的提案:我們系統回顧了交互模型,這些模型共同解決未來預測和智能體行為問題,并說明這種協同如何大幅提升現實世界的適應性和操作安全性。 我們總結了目前的開放挑戰,如自監督方法的無縫集成[26]、稀有事件增強的大規模仿真[10],[28]、以及實時多智能體協調[27],并為未來的研究提供了方向。隨著研究領域的不斷擴展以及現實世界應用的緊迫性,本綜述旨在為研究人員和實踐者提供有價值的參考,為更安全、更穩健的自動駕駛解決方案奠定基礎。 1.3 結構 本文的結構概覽見圖1,具體如下:第1節介紹了世界模型在自動駕駛中的重要性,并概述了它們解決的社會和技術挑戰。第2節提供了世界模型在自動駕駛中的背景知識,重點討論了物理世界的未來預測和智能體的行為規劃。第3節詳細介紹了方法的分類:第3.1節討論了物理世界的未來預測方法,涉及動態物體和靜態實體的物理世界演化;第3.2節討論了強調生成安全、有效駕駛策略的先進行為規劃方法;第3.3節研究了未來預測與行為規劃之間的交互關系,重點介紹了復雜場景下的協同優化技術。第4節探討了數據和訓練范式的不同方法,包括監督學習、自監督學習和數據生成技術。第5節考察了世界模型應用的領域和任務,討論了這些技術在感知、預測、仿真和系統集成等多個領域的影響。第6節對自動駕駛中的世界模型進行了詳細評估,評估了它們在不同任務和指標中的有效性。第7節探討了開放挑戰、潛在研究方向和進一步創新的有前景的方向。第8節總結了本綜述,并重申了世界模型在自動駕駛中不可或缺的作用。

付費5元查看完整內容

摘要—基礎模型已經革新了人工智能,在性能上設定了新的基準,并在廣泛的視覺和語言任務中實現了變革性能力。然而,盡管時空數據在交通、公共衛生和環境監測等關鍵領域中廣泛存在,時空基礎模型(STFMs)仍未取得相應的成功。本文提出了時空基礎模型的未來愿景,闡述了其基本特征以及廣泛應用所需的泛化能力。我們對當前的研究狀態進行了批判性評估,識別出與這些理想特征相比的研究空白,并突出了阻礙其進展的關鍵挑戰。最后,我們探討了推動研究向有效且廣泛適用的時空基礎模型發展的潛在機會和方向。

I. 引言 深度學習的出現顯著推進了各類應用中的最先進性能。在近幾年,基礎模型(FMs)[8]——在大規模和廣泛數據上預訓練的大型神經網絡——憑借其卓越的“泛化”能力,尤其在語言和視覺任務中,通過遷移學習的概念,取得了變革性的成功。然而,基礎模型尚未在涉及時空數據的任務中取得類似的影響。時空(ST)數據涵蓋了具有空間和時間維度的各種數據,廣泛存在于許多領域,包括城市分析 [37]、[45]、[50]、[53]、[58]、天氣預報 [9]、[30]、[38]、氣候科學 [16]、[18]、[31]、[54]、環境監測 [1]、[4]、[26]、[51]、農業 [10]、[14]、[34]、[55]、公共衛生 [36]、[42]、[49]、[60]、[64]等。隨著時空數據從不同來源不斷增長,其可行性和潛力也在增加,時空基礎模型(STFMs)有望在不同領域學習共享模式,提高效率,特別是對于數據匱乏的應用,增強其泛化能力。然而,由于時空數據的若干特性,大大增加了STFM學習的復雜性,導致進展緩慢。此外,現有的研究高度分散,主要依賴于特定的應用,這阻礙了朝著一種真正通用的時空基礎模型(STFM)的進展,而這種模型可以與現有的語言和視覺模型相媲美。

本文提出了時空基礎模型的未來愿景,并探討其在各類時空應用中推進最先進性能的潛力。我們概述了廣泛適用的時空基礎模型所必需的關鍵泛化能力,并分析了它們發展的主要挑戰和障礙。我們對當前的研究狀態進行了批判性評估,識別出與這些理想特征相比的研究空白。我們還探討了通過有針對性的研究和創新推動進一步發展的機會。總結來說,本文的主要貢獻如下:

我們通過識別時空基礎模型的關鍵理想能力,提出了時空基礎模型發展的方向。 我們審視了時空基礎模型研究中的現有努力,并根據這些理想評估了當前的能力。 我們考慮了進一步研究的主要途徑和機會,以提高性能和適用性。 II. 基礎知識 A. 時空數據 時空數據是涉及空間和時間維度的任何類型數據。最抽象地說,它可以被理解為一組時間序列,每個序列都與特定的空間位置相關聯。我們將時空序列表示為 X∈RV×N×TX \in R^{V \times N \times T}X∈RV×N×T,其中 VVV 代表變量或特征的數量,NNN 是空間位置的數量(通常但不一定由傳感器或測量設備的數量決定),TTT 是時間步數。在實際應用中,時空數據有多種不同的格式或結構,不同的格式適合不同的應用。圖1對四種類型的時空數據進行了分類,并提供了其應用示例。下面我們將詳細描述每種類型的時空數據。

柵格數據:柵格數據在一個規則且固定的空間網格上結構化,具有高度 HHH 和寬度 WWW。在這種格式下,NNN 等于網格中單元格的總數,即 N=H×WN = H \times WN=H×W。需要注意的是,每個單元格中的特征可能并不對應于物理系統中的唯一數據記錄或傳感器,這取決于物理和后勤的限制。相反,原始測量值可以通過各種插值技術轉換為所需分辨率的柵格數據。柵格數據廣泛應用于時空應用領域,如交通、天氣與氣候分析、醫學成像、遙感等。視頻數據也可以視為一種特殊形式的柵格數據,其中每個單元格代表一個像素,并在每個時間步包含自己的RGB值。 點參考數據:點參考數據與柵格數據類似,不同之處在于數據測量的空間位置可能隨著時間步的變化而變化。例如,氣象氣球收集的氣候數據,由于氣流的影響,氣象氣球隨時間移動,或者漂浮在海面上的浮標傳感器記錄的海表溫度。在這種情況下,變化的空間位置成為一個額外的變量,必須在每個時間步進行追蹤和記錄,從而增加了數據結構的復雜性。 軌跡數據:軌跡數據代表了物體在空間中隨時間變化的路徑,包含一對地理坐標和時間戳:{li,ti}{ l_i, t_i }{li,ti}。它通常應用于與移動相關的領域,例如行人或車輛運動跟蹤。在處理多個移動物體時,通常將軌跡數據分為離散的桶,其中特征表示在特定空間邊界和特定時間段內的軌跡數量,這與柵格數據非常相似。 事件數據:事件數據通過一組元組 {ei,li,ti}{ e_i, l_i, t_i }{ei,li,ti} 特征化,其中每個元組對應一個特定類型的事件 eie_iei,并在位置 lil_ili 和時間 tit_iti 記錄。事件通常較為稀有,例如犯罪或交通事故。因此,事件數據通常比其他形式的時空數據更加稀疏,大部分條目為零。由于這種稀疏性,事件數據的建模和分析需要采用專門的技術。 正如 [20] 所述,時空數據具有兩個關鍵特性。第一個特性是異質性,意味著時空模式可能會在空間(從一個位置到另一個位置)和時間(從一個時間段到另一個時間段)范圍和尺度上有所不同。異質性是一個特別具有挑戰性的特性,因為它違反了所有數據樣本都是獨立同分布的假設,即來自同一概率分布。第二個特性是自相關性,反映了相近時間和空間的測量往往遵循相似的分布,這里的相近既可以理解為空間上的接近,也可以是時間上的接近。這一點在托布勒的地理第一定律中得到了很好總結:“一切都是相互關聯的,但近的事物比遠的事物更相關。”

B. 時空數據挖掘 時空數據挖掘涉及學習建模時空數據中的空間和時間模式。近年來,結合卷積和遞歸模塊的神經網絡在捕捉空間和時間依賴性方面表現出了特別的成功。CNN-LSTMs 首先使用卷積神經網絡(CNN)從輸入數據中提取空間特征,隨后使用長短期記憶(LSTM)網絡從提取的空間特征中學習序列模式 [7],[11],[57]。另一種方法,ConvLSTMs [5],[15],[22],[27],[41],[47],將LSTM門中的矩陣乘法替換為卷積操作,以捕捉序列模型中的空間依賴性。

時空圖神經網絡(ST-GNNs)[3],[21],[30],[33],[39],[40],[44],[58],[65] 最近由于其能夠靈活處理不符合規則網格結構的時空數據而受到關注。它們在時空圖上操作,將空間位置表示為圖中的節點或頂點,連接的邊表示鄰近節點之間的空間關系,如接近性或連通性。更多關于ST-GNNs的細節可以參考 [20]。

繼其他模態的成功之后,Transformer [46] 也因其能夠通過自注意力機制捕捉跨越空間和時間的長程依賴關系而在時空數據中引起了廣泛關注 [2],[17],[23],[29],[56],[59]。與卷積模型(在局部感受野上操作)或遞歸模型(依賴于順序處理)不同,Transformer可以通過同時關注輸入序列的所有部分來學習全局關系。這在那些復雜的、非線性的互動在大范圍空間和長時間周期內演變的領域中特別有用。Transformer模型在其他模態的基礎模型中也得到了廣泛應用。然而,絕大多數時空研究依然采用單任務模型的方式,即為特定任務和訓練數據訓練單獨的模型。

III. 時空基礎模型 單模型任務范式與基礎模型范式的關鍵區別在于它們的泛化能力。

定義 3.1:泛化是模型從一組數據到另一組數據的有效遷移學習模式的能力。

在單模型任務范式中,模型是針對單一任務和單一領域的數據進行訓練的,期望其僅能對來自同一概率分布的未見樣本進行泛化。另一方面,基礎模型是在更廣泛的數據上進行訓練的,期望其能夠對來自其他分布的新數據進行泛化。在這種背景下,我們對時空基礎模型(STFM)的定義如下:

定義 3.2:時空基礎模型(STFM)是一個在多種時空數據源上進行大規模預訓練的神經網絡,旨在通過學習空間和時間依賴性的普遍模式,從而在多個任務之間實現泛化。

這個描述故意保持廣泛,以反映現有時空基礎模型研究中的顯著多樣性。我們觀察到,基礎模型的“基礎性”并不是一個二元的描述,而是存在于一個光譜上,其泛化能力的展示程度各不相同。為了開始解讀這種多樣性,我們提出了一個基本問題:時空基礎模型應該能夠做什么?我們通過識別時空上下文中任務的四種主要變化方式來回答這個問題,從而得出四種泛化形式,用于評估時空基礎模型的能力。總的來說,這些泛化能力如下:

領域泛化:跨越不同數據源,代表不同的物理系統和應用類別。 空間泛化:跨越不同的空間位置或區域。 時間泛化:跨越不同的時間段和間隔。 尺度泛化:跨越不同的數據分辨率、頻率或粒度。 這些泛化能力可以通過兩種不同的方式進行評估:

同分布泛化:我們可以通過評估模型在預訓練階段遇到的任務上的表現,來評估其在多個領域和分布上學習到的可泛化模式的能力。 跨分布泛化:或者,我們可以評估模型在沒有接觸過的數據分布的情況下,將其遷移到預訓練階段未見過的新任務的能力。 A. 時空基礎模型的泛化能力 在本節的其余部分,我們全面詳細地探討四種泛化方式,并識別在當前數據和技術限制下實現這些泛化能力的關鍵挑戰。

  1. 領域泛化 如前所述,時空數據在廣泛的應用中都有存在。圖3展示了按頂層類別或領域組織的一小部分應用示例:交通、天氣與氣候以及城市活動。每個類別都包含了大量的具體應用。例如,交通領域包括通過道路網絡傳感器測量的交通流量、交通事故的時間和地點,或公共交通網絡中乘客在不同站點的進出量。在天氣與氣候領域,則有各種不同的大氣變量,如氣溫、降水量或不同污染物的濃度。鑒于這些應用的多樣性,第一種泛化方式是跨越不同數據領域的泛化。

挑戰:基礎模型依賴于跨不同數據源或領域之間存在共享模式。例如,在語言學中,單詞的語義意義在不同的上下文中通常是一致的,句子遵循一套共同的語法規則。相比之下,時空數據的分布規律高度依賴于應用。例如,在交通網絡中,交通流量和交通事故等應用可能會有很強的相關性,因為它們都涉及相同的基礎物理系統。同樣,在天氣與氣候研究中,空氣中污染物的濃度通常與降水的發生和強度密切相關。在這些情況下,通過結合這兩類應用的時空數據訓練時空基礎模型(STFM)可能會通過共享模式帶來相互的好處。然而,在更為離散的應用之間,例如交通事故和疾病爆發之間,是否能通過同時建模這兩類應用來提高STFM的表現,仍然存在不確定性,這種現象在深度學習領域中被稱為負遷移。這突出了開發能夠有效跨多個應用領域進行泛化的時空基礎模型的挑戰。如第IV節所述,目前的研究通常側重于更為狹義的STFM,通常局限于某一領域中的少數應用,而非解決跨領域泛化的問題。 2) 空間泛化 第二種泛化方式是跨越不同空間位置。一個時空基礎模型不應僅限于從有限的地理空間選擇中進行應用,它應該能夠從不同的環境和條件中學習,并能夠在推理階段遷移到未見過的地方。

挑戰:時空數據可能表現出顯著的空間異質性。換句話說,數據模式可能在不同的位置間有顯著的變化,即使在同一應用中也是如此。例如,在交通流量應用中,基于一個城市的交通數據訓練的模型可能很難將其泛化到另一個有不同道路網絡或交通法規的城市中。在污染物濃度應用中,基于高度城市化區域的數據訓練的模型可能很難將其泛化到郊區或農村地區。這種挑戰在某些現有數據集的預訓練中尤為嚴重,因為這些數據集往往在某些特定區域有偏倚。例如,現有研究中使用的交通數據集,往往過度集中在像北京、紐約市和倫敦這樣的主要城市,這增加了時空基礎模型(STFM)對這些城市及類似城市中的模式的偏倚,而無法對其他大多數區域做出有效的泛化,尤其是在那些較小的、甚至沒有出現在訓練數據中的地區。 3) 時間泛化 時空基礎模型還應能夠跨越不同的時間段進行泛化。例如,它應在白天和夜晚、工作日和周末以及從一年到下一年的時間段中都能表現良好。

挑戰:時空模式本質上是動態的,持續以復雜的方式演變。因此,模型所學習到的模式可能隨時間推移而失去相關性。這些變化可能是漸進的,例如某一城市的總體人口增長導致交通和公共交通的使用量逐步增加。這類漸進變化通常較為容易管理,因為數據分布的變化速度較慢,為通過重新訓練模型來適應新數據提供了機會。相反,某些變化可能是突如其來的劇烈變化。例如,某個新景點的開設可能導致交通量急劇增加,或是自然災害等突發事件的發生。這類變化的應對要困難得多,因為它們的影響復雜且分布發生了突變,造成了歷史數據和新現實之間的顯著差距。這限制了模型在面對這些突變時的重新訓練能力。 4) 尺度泛化 時空數據跨越了廣泛的尺度。從空間尺度來看,可以從小尺度的測量(如米級)到大尺度的觀測(覆蓋數百公里甚至更遠)。同樣,時間尺度也從高頻觀測(如秒級或分鐘級時間戳)到低頻數據(如天級或周級數據)不等。一個時空基礎模型必須能夠跨越這些不同的空間和時間尺度進行泛化。

挑戰:時空模式可能高度依賴于尺度,也就是說,數據在不同尺度下觀察時,模式可能會有所不同。這在天氣應用中尤為顯著。例如,基于全球天氣模式訓練的模型可能無法在區域級的精細尺度上表現良好,因為各個區域有其獨特的特征和微氣候,這些特征在更廣泛的全球數據中不那么明顯。為克服這個挑戰,現有的時空數據挖掘研究探索了層次化架構,這些架構旨在捕捉不同級別和不同尺度的模式。

IV. 當前時空基礎模型研究 本節中,我們將審視當前時空基礎模型(STFM)研究的現狀,重點介紹一些特別近期和具有影響力的模型。我們首先簡要描述每個模型。

UniST [61] 采用基于 Transformer 的編碼器-解碼器架構,使用掩碼補丁建模進行訓練,目標是從模型輸出中的掩碼標記恢復原始數據。在預訓練階段,使用多種掩碼來模擬重建階段中的不同問題。此外,UniST構建了學習到的提示池,以編碼不同形式的時空知識,例如空間鄰近性和日常或每周的周期性,這些信息被添加到掩碼標記嵌入中,引導模型朝著更好的預測方向發展。

OpenCity [25] 將 Transformer 架構與圖神經網絡結合,學習來自大規模異構交通數據集的時空依賴關系。

UrbanGPT [24] 學習將時空序列編碼為新表示,可以將這些表示嵌入到自然語言提示中,從而使得大型語言模型能夠理解和處理這些提示。

ClimaX [35] 使用視覺 Transformer 進行多種天氣和氣候相關任務。它獨立地對每個變量進行標記化和嵌入,以靈活地處理不同數量的輸入變量,然后聚合這些變量以減少內存復雜度。

Pangu-Weather 設計了一個三維地球專用 Transformer(3DEST),將天氣信息處理為立方體數據,并進行有監督訓練,以執行各種天氣預測任務。

A. 當前STFM泛化能力 表I 展示了我們對當前最先進的STFM在泛化能力方面的定性評估,基于原始文獻中展示的性能。接下來,我們將詳細解釋我們的評估標準。

B. 領域泛化 一個顯著的觀察是,與其他模態的基礎模型不同,STFM在應用上高度碎片化。UniST、UrbanGPT 和 OpenCity 幾乎完全專注于交通數據。UniST 和 OpenCity 總共在21個數據集上進行訓練和評估,但這些數據集中的大多數都涉及交通速度或流量,另外一些數據集包括自行車使用、出租車軌跡和蜂窩使用。兩個模型都通過完全排除某些數據集來評估它們在適應未見過的應用中的能力。另一方面,UrbanGPT 僅使用四個來自出租車、自行車和犯罪應用的數據集,其中三個用于預訓練。

Pangu-Weather 和 ClimaX 則專注于各種大氣變量。ClimaX 總共接受48個輸入變量,但只評估了其中的4個變量。Pangu-Weather 只在預測任務中進行評估。

C. 空間泛化 公共交通數據集的空間覆蓋僅限于少數幾個主要的城市中心。UniST 和 OpenCity 在預訓練和評估中使用的數據集分別來自美國和中國的不同城市,并在這些城市的未見區域上評估泛化能力。UrbanGPT 完全在紐約市的數據上進行訓練,并在其對未見區域的泛化能力以及對新城市(如芝加哥)的泛化能力上進行評估。由于這些地理位置非常有限,因此很難評估它們在與訓練集高度不同的位置上的泛化能力。

常用的天氣數據集使用來自衛星的全球覆蓋的真實觀測數據,并結合數值天氣預測模型,這意味著它們相比交通數據集提供了更廣泛的空間覆蓋。特別是,ClimaX 在 CMIP6 [32] 上進行訓練,并在 ERA5 [19], [43] 上進行測試,而 Pangu-Weather 在 ERA5 中的不同年份數據上進行訓練和評估。這兩項工作的主要實驗是在全球范圍內進行性能測試,盡管ClimaX 也在北美區域進行區域預測。然而,由于訓練和推理是同時在整個全球范圍內進行的,這并沒有展示從已見區域到未見區域的泛化能力。這兩項研究也缺乏對空間維度中誤差分布的分析。

D. 時間泛化 來自中國的大多數交通數據集僅記錄了2022年3月和4月的同一月份數據,時間間隔為5分鐘。其他數據集在時間跨度和總長度上略有差異,涵蓋過去十年。UrbanGPT 在長期預測能力方面的評估通過使用2017年數據進行訓練,并在2021年數據上進行測試。

天氣數據集通常包含更長的時間跨度,使得訓練和評估可以涵蓋更長的時間范圍。Pangu-Weather 在 ERA5 中使用了38年的數據(1979-2017),并在2019年驗證,在2018年和2020-2021年的數據上進行測試;而ClimaX 則使用 CMIP6 數據進行訓練,時間范圍從1850年到2014年,并在 ERA5 上進行測試。此外,ClimaX 的氣候預測任務擴展至2100年,盡管需要注意的是,這并非一個時間建模任務,因為它并未使用歷史觀測數據來預測未來狀態。

E. 尺度泛化 大多數交通數據集的記錄時間間隔為5到30分鐘。UniST 執行了6個時間步長的短期實驗和64個時間步長的長期實驗,無論是輸入還是目標輸出的大小。UrbanGPT 只考慮了12個時間步長的單一時間尺度。

跨空間尺度的泛化對于天氣相關應用尤其重要。從空間上看,Pangu-Weather 只考慮了一個空間分辨率;0.25° × 0.25°,大約對應28km × 28km的格網大小。相比之下,ClimaX 使用了5.625° × 5.625°的格網以及1.40625° × 1.40625°的格網進行評估。它還評估了模型從5.625°降尺度到1.40625°的能力,以及僅在北美的區域預測。然而,這些都屬于相對大尺度且粗略的分辨率,無法捕捉到最有用的局部模式,這對于地方級預測至關重要。

從時間上看,Pangu-Weather 為不同的預報時間(1小時、3小時、6小時和24小時)訓練了四個獨立的模型,并將這些模型進行聚合,以進行任意時間的預測。這是為了減少預測中的誤差傳播,尤其是在較長預測時間下,但這也與基礎模型的初衷相悖。另一方面,ClimaX 在預訓練時隨機化了6小時到168小時(1周)之間的預報時間,并在評估時使用了不同的預報時間。此外,它考慮了各種預測任務,包括季節性預測和跨越更長時間范圍的氣候預測。

V. 機會 A. 跨領域協同 在第III-A1節中探討了來自不同應用或來源的時空序列之間復雜的關系。這些關系在現有的時空模型中被嚴重低估。例如,基于我們對傳染病通過密切接觸傳播的理解,我們可以推測人類流動模式和交通流量可能會顯著影響疾病傳播。因此,捕捉人類流動模式的模型也可能為模擬疾病傳播提供有價值的見解。通過訓練時空基礎模型(STFM)來理解來自多個領域的數據模式,我們可以通過識別和利用跨領域的相關性,增強在特定應用中的性能。

一個重要的考慮是,許多應用之間的關系是有方向的。例如,天氣條件可能會影響出行模式,因此準確的天氣預測有助于預測交通流量,但反過來并不成立。因此,一個有前景的方法可能是設計機制,將關于時空動態的先驗知識(如物理法則和約束)融入模型中。如果某些特征之間的關系尚不明確,我們還可以借助因果學習的最新進展來揭示這些關系。已經有一個專門的研究領域,致力于在時空背景下發現和推斷因果關系[13],[28],[67],這一研究線索在時空神經網絡時代[12],[48],[52],[66]中得到了延續。

B. 統一架構 如第II節所述,時空數據以各種不同的類型和格式出現。一個有效的時空基礎模型應能夠處理所有這些數據類型,但現有的模型主要或完全專注于單一數據類型(即基于網格的柵格數據)。最近有一些初步的工作開始嘗試將更靈活的時空圖數據納入模型[62],[63],然而這些方法大多將其視為簡單的預處理步驟,可能未能充分考慮不同數據類型的獨特屬性。此外,當前研究中對Transformer架構的關注過于集中,而Transformer由于其自注意機制存在二次復雜度,隨著時空數據集的規模以及待建模變量和特征數量的增長,這一復雜度逐漸成為學習時空模式的障礙。為了解決這些挑戰,需要創新性的方法,如稀疏注意力機制、高效的基于圖的表示以及將Transformer與其他架構(如卷積神經網絡)結合的混合模型。

C. 多樣化目標 現有的時空研究主要集中在預測變量的空間分布或基于歷史觀測數據預測其未來狀態。盡管這些目標具有重要的實踐意義,但時空基礎模型(STFM)有能力執行許多其他任務。例如,異常檢測可以自然地從預測任務中衍生出來,通過測量預測序列與真實序列之間的差異。在這種情況下,底層表示學習的質量起著至關重要的作用,一個在某一任務中表現優秀的模型,通常也能在其他任務中有效地發揮作用,因為它已經學習到強大的特征表示。然而,如果能夠為STFM賦予執行其他任務的能力,如分類、聚類或推薦系統,將大大擴展其在各種應用中的實用性,同時又不影響其在其他任務中的準確性。一種有效的方式是為基礎模型添加一個輕量級模塊,使其能夠在不損失準確性的情況下,靈活高效地適應新任務。

D. 適應數據分布偏移 基礎模型通過大量數據進行訓練,跨越不同來源和領域,從而使其暴露于各種場景下。然而,在推理階段,它們仍然嚴重依賴于訓練數據的統計特性。如果測試數據與訓練分布偏離(例如,由于城市發展等時間變化或區域政策等空間差異),模型的表現可能會急劇下降。此外,時空數據的高復雜度和維度增加了在實際應用中遇到未見過的模式或分布外(OOD)場景的可能性。第III-A2節和III-A3節中已經識別出了這一挑戰。基礎模型的適應性提供了一個有前景的解決方案來應對這一挑戰。近年來,關于計算機視覺中基礎模型適應性的研究引起了廣泛關注,以提高它們在特定任務中的性能,尤其是在數據分布外的任務中。最新的研究集中在如領域對抗訓練等技術上,旨在鼓勵模型學習領域不變的特征,此外還有元學習技術,可以通過有限的新分布數據迅速適應新的分布。

VI. 結論 時空基礎模型(STFM)作為一種新興的研究方向,展現出極大的潛力,能夠提高現有任務的性能,并解鎖與時空數據相關的新任務。盡管STFM在捕捉時空關系的復雜性方面展現了顯著的潛力,其在空間區域、時間段和新的下游任務上的泛化能力仍然是一個關鍵挑戰。我們強調了空間變化性、時間動態、數據分布偏移和尺度依賴模式等問題,這些問題限制了有效的泛化能力。

隨著時空模型的不斷發展,未來的研究應重點開發增強模型適應未見數據分布和動態環境的技術。通過集成更強大的機制來處理跨領域的相關性,并融入細粒度的適應性技術,我們可以充分發揮STFM在廣泛實際應用中的潛力。通過持續創新和完善,時空模型有望推動我們對復雜系統的理解,進而實現更準確的預測、更好的決策支持以及跨領域的更優成果。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要—近年來,聚類算法的研究主要集中在提高其準確性和效率,往往以犧牲可解釋性為代價。然而,隨著這些方法越來越多地應用于高風險領域,如醫療保健、金融和自動化系統,透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任,還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求,本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述,并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策,同時也促進了既高效又透明的聚類算法的發展和采用。

關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能(XAI) 導論

聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務,旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系,從而促進各種應用和進一步的分析。 幾十年來,已經提出了許多算法來解決不同應用中的聚類問題,并取得了很高的準確性。然而,在大多數情況下,聚類模型作為一個“黑箱”存在,導致了常見的問題,例如:聚類結果是如何形成的?人們能否理解聚類結果形成的邏輯?模型是否可信?模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用,本論文將全程使用“可解釋性”一詞。

至今,可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如,在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”,在文獻 [5] 中定義為“人類能夠理解決策原因的程度”,而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。

然而,模型的可解釋性可能因用戶的實際需求而異,并且可以在不同維度上表現出來。在某些疾病研究中,醫生通常更關心識別患者特征,這些特征表明患病的可能性較高,以及這些特征是否能有助于早期診斷。相比之下,數據科學家則關注設計可解釋的模型,為患者提供有說服力的解釋,并有效闡明每個患者被歸類為特定疾病類型的原因,從而幫助理解各種特征對結果的影響。因此,盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性,但仍然有必要對這些方法進行系統的總結和區分。

據我們所知,已經有一些綜述文章總結了與可解釋性相關的方法。然而,這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11],要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白,我們全面收集了現有的可解釋聚類方法,并提出了一套分類標準,以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外,我們將聚類過程劃分為三個階段,并根據不同階段的可解釋性對所有可解釋聚類方法進行分類,構建了本綜述的總體框架:(1)特征選擇階段(聚類前),(2)模型構建階段(聚類中),和(3)模型解釋階段(聚類后)。我們相信,本綜述將為讀者提供對可解釋聚類的新理解,并為該領域未來的研究奠定基礎。

本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性,回顧了可解釋的聚類前、聚類中和聚類后方法。最后,第7節總結了本文,并討論了未來的研究方向。

2 可解釋聚類的必要性

隨著人工智能和機器學習算法的進步并在各種任務中表現出色,它們正被應用于多個領域。然而,它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]:開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說,理解和信任算法如何得出結果至關重要。例如,開發者需要理解算法如何產生有意義的結果,并認識到其局限性,從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識,并且是否有充分的依據。監管者需要考慮算法結果的影響,例如公平性、潛在的歧視,以及風險和責任所在。這要求整個算法過程具備透明性和可信度。

為應對這些挑戰,可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的,聚類方法旨在通過生成模式作為數據的初步理解。在這一階段,聚類的可解釋性以及算法機制的透明性需求變得愈發重要。

**2.1 什么是可解釋聚類?

傳統的聚類算法通常注重提供聚類結果,將準確性和效率作為首要任務,尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”,尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值,并將它們積極地納入聚類結果的生成中。然而,“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明,使得最終用戶更難理解。

相比之下,可解釋的聚類方法明確旨在解釋聚類結果,使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果,使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值(如年齡、收入)來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果,并評估從中得出的結論是否可信。

**2.2 什么是好的可解釋聚類方法?

好的可解釋聚類方法應提供明確的證據,解釋聚類結果是如何得出的,為最終用戶提供理解算法行為及其背后邏輯的機會。然而,最終用戶是否選擇信任這些證據,可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家,我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。

首先,可解釋證據的形式應盡可能簡單。例如,用于生成某一聚類的特征值的數量應盡量減少,這可以大大降低最終用戶理解結果的復雜性。其次,每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說,理想情況下,同樣的可解釋證據應僅對應一個特定的聚類,而不會與其他聚類重疊。這種獨特性增強了證據的可信度,確保最終用戶相信它與特定的聚類緊密相關,從而減少了與其他不同功能的聚類混淆的可能性。

為了確定可解釋聚類方法的好壞,甚至量化其效果,必須考慮所使用的具體可解釋模型。例如,當使用決策樹模型時,通過樹的分裂,可以清晰地定義每個聚類的證據是高度獨特的,從而滿足了基本的獨特性要求。此外,可以通過檢查樹的結構參數(如葉節點的數量,即聚類的數量,和樹的平均深度)來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程,每個分支節點記錄了導致聚類的決策(分裂特征值)。使用更少的特征值可以生成更簡潔的可解釋證據,使最終用戶更容易理解和信任聚類結果。

3 可解釋聚類方法的分類

在本節中,通過收集和總結現有的可解釋聚類方法,我們建立了以下分類標準以系統地對它們進行分類: 首先,基于廣泛認可的聚類過程,現有的可解釋聚類方法可以分為三類:聚類前方法、聚類中方法和聚類后方法。具體來說,聚類前方法通常在聚類過程之前執行,通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型,能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果,試圖通過可解釋模型來解釋黑箱模型生成的結果。

其次,大多數方法,尤其是聚類中和聚類后方法,可以根據它們使用的不同可解釋模型來區分(如圖1所示),這些模型包括以下幾類:

  • 決策樹:決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來自于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可通過用于分裂的特征值進行追蹤。根據特定標準,通過清晰透明的路徑從根節點(代表整個數據集)到達分支節點,實例被分配到由特定分裂點確定的不同葉節點(聚類),這對于最終用戶來說易于理解。
  • 規則:與基于決策樹的模型不同,用戶需要通過樹的層級路徑來理解聚類是如何從整個數據集中導出的,隨著樹的深入,這種理解變得越來越復雜。基于規則的方法則提供了一種更直接的方式來理解聚類是如何提取的。規則方法中的可解釋性來源于基于特征值生成的候選規則,通常以邏輯組合的形式表達(例如有意義的模式),用戶更容易理解。
  • 原型:原型的概念(也稱為“示例”)可以類似于k-means算法中的質心。每個原型作為其對應聚類的代表,靠近某個原型的樣本被認為是該聚類的成員。同時,不同原型代表的樣本可以重疊。
  • 凸多面體:這種可解釋模型本質上是將二維空間的凸多邊形擴展到更高維空間,其中每個聚類由一組限制平面包圍。每個多面體由若干半空間的交集形成,有效地定義了高維空間中聚類的邊界。
  • 描述:描述可以定義為某一特定概念的關鍵特征或屬性的簡潔且可解釋的表示。例如,在社區分析中,某個社區的描述可能概括了該社區的顯著特征,如共同的人口統計學、行為或屬性,從而有效地總結了該社區的內部結構,并將其與其他社區區分開來。

第三,現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果,但也有一些方法強調從復雜數據中提取可解釋特征,或研究特定聚類及其相關特征之間的關系,從而增強可解釋性。

最后,方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據(數值型、類別型或兩者的組合)、序列數據(如離散序列和時間序列)、圖像、文本以及圖數據。

圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時,它們也可以用于識別符合特定可解釋性和性能要求的方法。

4 可解釋的聚類前方法

在研究可解釋的聚類模型時,雖然我們的目標是實現更透明的模型,但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說,現有的可解釋聚類前方法,重點研究在聚類之前進行的工作,可以從兩個角度來探討:(1) 特征提取 和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究,但它們很少與可解釋性聯系起來,尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此,我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表,并在以下兩個小節中詳細說明。

**4.1 特征提取

從特征提取角度來看,可解釋的聚類前方法通常集中在復雜數據類型上,例如多變量時間序列(MTS)。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型,這些模型能夠更好地捕捉復雜數據中的顯著特征,從而增強可解釋性并促進更好的理解。 在多變量時間序列領域,文獻 [16] 提出的系統自動從信號中提取特征,涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征,作者提出了兩種方法:一種是采用主特征分析(PFA)的無監督模式,另一種是結合用戶在小樣本數據集上的注釋的半監督模式,顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇,并使用退火均方誤差正則化鼓勵稀疏性,模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類,增強了聚類的相關性和可解釋性。 基于格式塔理論,文獻 [18] 提出了一種可解釋的波段選擇算法,其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建,從高光譜圖像序列中提取三個波段形成偽彩色圖像,增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型,通過歐幾里得距離最小化三個通道與標準顏色之間的差異,實現不同波段的偽彩色映射,直觀地顯示特定光譜波段內的目標差異,符合視覺感知的原則。

**4.2 特征選擇

另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征,以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性,同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控,以學習每個輸入樣本特定的稀疏門控向量。然后,使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋,使得模型在保持可解釋性的同時為每個實例使用更少的特征。

為了應對患者臨床事件日志聚類中的可解釋性不足問題,Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理,他們識別出與聚類結構相關的特定特征,并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。

Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征,從權重最高的特征開始,選擇它,除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性,計算特征集合的交集與并集的比率。

5 可解釋的聚類中方法

可解釋的聚類中方法作為可解釋聚類方法中的直接來源,將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標,與傳統的聚類標準(如k-means中的SSE)結合在一起。一些方法將可解釋性與傳統聚類標準結合起來,作為一個多目標優化問題 [22],而大多數方法則將其視為與某些結構參數相關的附加項 [23]。 有兩個典型的場景(S1和S2)可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆,具體取決于可解釋性是在何階段被考慮的: S1: 是否需要第三方算法的輸入? 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果(如使用通過樹生長派生聚類的決策樹模型),也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入,它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的,而不是通過擬合第三方算法的結果來保證近似性,則該方法更傾向于可解釋的聚類中方法。

為了更清晰地說明聚類中方法與聚類后方法之間的區別,我們可以考慮以下示例: S1 示例參考:盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量,前者代表了一種聚類后方法,而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類,并根據該聚類擬合決策樹,而文獻[23]允許參考聚類的變化,以發現更具可解釋性的聚類。因此,它們在過程中何時考慮可解釋性方面有所不同,決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征,使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的,任何后續解釋都可能被視為事后合理化,這可能使其不太可靠。理想情況下,可信的聚類結果應由可解釋模型直接產生 [14],減少對第三方聚類算法的依賴,并增強過程中的透明性和可控性。

S2: 數據集中的特征是否固有可解釋? 可解釋的聚類中方法處理各種形式的數據,并根據數據集特征的特性進行調整。對于典型的向量數據,特征通常是可解釋的 [26]:(1)對于數值特征,可以通過確定特征值是否大于或小于閾值來切分特征向量,這是決策樹聚類中常用的方法;(2)對于類別特征,值也可以基于是否包含或排除特定類別進行解釋。然而,對于缺乏顯式特征的社會和生物網絡數據 [27],可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像,其特征可能缺乏固有的可解釋性(例如,沒有清晰結構意義的像素矩陣),發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中,如描述性聚類領域 [29],重點轉向識別可解釋的標簽。總而言之,處理這些具有不可解釋特征的復雜數據時,通常需要結合深度學習技術 [30],[31]。對于類別順序數據集,每個樣本是一個長度可變的離散序列,一些常規的序列聚類方法需要將序列轉換為特征向量。然而,這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出,在構建可解釋的聚類方法之前,需要進行區分性序列模式挖掘。 某些方法將解釋性特征的搜索與聚類過程本身緊密結合,這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性,而不是對象/實例級別的可解釋性。以下是一些示例,這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起:

S2 示例參考:Kim等人 [33] 提出了一種生成方法,用于識別高維二元數據聚類中區分維度,促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中,使用基于邏輯的特征提取將維度分組為可解釋的集合,從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習,通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失,增強了聚類性能和可解釋性。

在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后,以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成,特別關注典型的可解釋模型類型。

**5.1 基于決策樹的方法

決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點(聚類),遵循從根節點(代表整個數據集)向下經過分支節點的清晰透明路徑,最終用戶易于理解。 早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到,使用均勻分布的合成數據作為輔助數據來構建標準(監督)決策樹。這種方法旨在通過修改標準的分裂標準(如信息增益)最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂,易于理解,但依賴于數據生成引入了額外的假設,使得難以聲稱分裂是真正可解釋的。相比之下,文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準,并為每個分支節點分裂數據提出了兩種算法。然而,要選擇用于計算這些度量的候選分裂點,需要先將數值特征域劃分為區間。文獻[35]引入了CUBT,提出了一種更簡單的分裂標準和更直觀的算法框架,并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法,包括三個步驟:最大樹結構構建,隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44],其中在分支節點使用模糊分裂來增長初始樹,隨后合并相似的聚類以創建更緊湊的樹結構。 上述無監督決策樹模型采用自頂向下的方法,在當前分支節點級別考慮所有可能的候選分裂點,并計算異質性等標準,以便樹根據從父節點傳遞下來的最佳分裂貪婪地(貪婪搜索)增長。然而,這種類型的算法缺乏全局指導,意味著每次分裂都是局部優化,而不是在整個數據集上實現全局優化。 一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括,但不限于,文獻[36]中使用的混合整數線性優化(MIO)技術 [45],文獻[24]中使用的樹交替優化(TAO)技術 [46],以及文獻[23]中使用的單調優化技術(如分支減少和界限(BRB)算法)[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同,這些方法直接建立了分配到不同葉節點(聚類)的實例與可解釋性目標之間的關系,并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性,通常通過指定樹的結構度量 [15](例如葉節點的數量),文獻[23],[24]中使用的葉節點數量(nLeaf)較少,通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上,還提出了一些可解釋的模糊聚類算法。例如,文獻[48]采用核密度決策樹(KDDTs)通過交替優化策略構建模糊決策樹,而文獻[49]則在目標函數中引入了分裂的軟(概率)版本,并通過受約束的連續優化模型獲得最優分裂。

**5.2 基于規則的方法

挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類,規則集通常具有兩個關鍵特征 [51]:(1)頻率(有意義),表示規則集應盡可能覆蓋其對應聚類中的樣本(真陽性);(2)區分能力(獨特),表示規則集應盡量減少覆蓋其他聚類樣本的數量(假陽性)。

為了獲得用于可解釋聚類的規則集,一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如,如文獻[37]所示,可解釋性評分用于評估某個特征值與聚類的相關性,通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集(如使用頻繁模式挖掘生成)中,這些方法旨在派生最大化可解釋性評分的聚類,同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突,現有方法通常將可解釋性評分作為用戶指定的邊界,以平衡可解釋性和聚類質量,并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準:一個類似于文獻[37],另一個則考慮規則集的獨特性,即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合,形成了多目標混合整數線性優化問題(multi-MIO)。此外,文獻[22]考慮了規則集長度(lenRule)的最大值,即組合中的特征值數量作為約束,確保通過簡潔的規則表示的聚類更加可解釋。

其他基于規則的可解釋方法可能是定制化的,其中規則的含義不僅僅基于特征值。例如,在文檔數據集[52]中,規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。

**5.3 其他方法

除了上述兩種廣泛使用的可解釋模型外,其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格,這些方法通常可以歸類為基于邊界或類質心的方法。然而,為了使這些代表性元素具有可解釋性,某些屬性需要保持。以下是這些方法的簡要概述。

凸多面體:這些方法將聚類邊界限制為在特征空間中軸平行(矩形),如文獻[38]中提出的方法,該方法設計了一個概率判別模型(PDM)來定義此類聚類。更普遍地,它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。

無論是哪種情況,目標都是創建具有更少特征值的聚類,并將這些作為可解釋性約束納入標準聚類目標函數中。例如,文獻[39]使用混合整數非線性優化(nonlinear-MIO)編程公式來同時識別聚類并定義多面體。對于軸平行邊界,每個維度使用一個特征值,而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力,但由于其復雜性增加,相較于簡單的軸平行邊界,其可解釋性較低。

原型(示例):在原始特征不可解釋且難以理解的數據集中,如圖像和文本,尤其是在使用深度嵌入時,最近關于通過示例進行可解釋聚類的工作發現,尋求高層次的類質心可以用于表征聚類并促進可視化。例如,文獻[40]解決了在沒有事先指定的情況下找到最少示例數量(nExemplar)的挑戰。此外,文獻[31]提出了一個新的端到端框架,旨在提高大型數據集的可擴展性,使基于示例的聚類更具現實應用的可行性。

**5.4 總結

各種可解釋模型已經為聚類中方法開發出來,還有其他潛在模型需要進一步研究(如表1所示)。這些模型始終將可解釋性視為與聚類質量同等重要的目標,并將其直接或間接地作為優化目標,具體取決于模型類型。例如,基于樹的模型通常優先減少分支或葉節點的數量,基于規則的模型則側重于簡短的規則,幾何表示模型,如基于原型的模型,旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如,文獻[25]中考慮了樹的深度作為優化目標;然而,這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。

可解釋性與聚類質量之間往往存在權衡,增強其中一個可能會削弱另一個。在聚類后方法中,這一經常討論的挑戰可能不那么嚴峻,因為這些方法只需要專注于一個方向,即擬合給定的聚類結果。相比之下,聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示,幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊,但更靈活的斜決策樹 [24]可以提高聚類性能。同樣,凸多面體方法可以通過允許對角邊界受益 [39],而不僅限于軸平行的矩形,前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。

6 可解釋的聚類后方法

模型后的可解釋性是可解釋學習中的一個關鍵方面,側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下,可解釋的聚類后方法指的是使用可解釋模型(如決策樹)來盡可能接近地逼近現有的聚類結果(也稱為參考聚類結果)。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中,從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。

**6.1 基于決策樹的方法

決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中,每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點(不一定是實際的聚類數量)對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。

在基于決策樹的聚類后方法中,構建的決策樹所獲得的聚類結果與參考聚類結果越接近,其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54],即可解釋聚類的成本與最優聚類(例如k-means/medians)的成本的比率。因此,目標通常是構建一個決策樹T,使得cost(T)與最優k-means/medians的成本相比不太大。具體來說,當一個算法返回一個閾值樹T時,它具有x-近似保證,即cost(T) < x · cost(opt)。

關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹,旨在最小化每個分裂的錯誤數(即從對應參考聚類中心分離的點數),當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似,在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最優k-medians上實現了O(d log k)的近似,在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹(其中d是數據的維數),然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先(LCA)相關。Makarychev等人 [59] 采用了不同的方法,在相對隨機的情況下選擇分裂特征和值,以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k),最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中,每個分裂節點的分割選擇完全是隨機的,只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值,排序這些值,然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64],在此不作詳細闡述。

不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力,Frost等人 [65] 采用了[25]的方法,構建了一棵具有k個葉節點的樹,然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點,并證明隨著k′增加,代理成本是不增加的。這種方法降低了聚類成本,同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋(即樹的深度較小)的決策樹,同時在k-means成本函數方面仍能誘導出良好的劃分。此外,他們提出了兩個用于衡量可解釋性的結構度量:加權平均深度(WAD),該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權;加權平均解釋大小(WAES),是WAD的一個變體。受穩健性研究的啟發,Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹,以精確匹配參考聚類結果,其中可解釋性通過刪除的點數來衡量。

**6.2 基于規則的方法

與決策樹不同,基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀,通過一組規則來描述聚類中的樣本。據我們所知,盡管if-then規則作為可解釋模型已經廣泛被接受,并得到了廣泛研究,但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此,針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例(即滿足解釋的聚類內樣本)的總數,同時最小化假陽性案例(即聚類外滿足解釋的個體)的總數。此外,規則的長度受到限制,以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集,然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集,研究了事件日志的解釋搜索。通過迭代過程,他們不斷提高實例解釋的準確性和簡潔性。在此基礎上,Koninck等人 [68] 從黑箱支持向量機(SVM)模型中為每個個體實例挖掘簡潔規則,并討論和評估可用于解釋技術的不同替代特征集。

**6.3 其他方法

除了上述的決策樹和if-then規則外,文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限,我們將不逐一回顧每個模型,而是在此提供總體總結。 原型:Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體,其與聚類內其他個體的相似性最小。在他們的方法中,他們解決了一個雙目標優化問題,以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量,同時最小化其他聚類中的假陽性案例的數量。 凸多面體:在文獻[55]中,圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題,其中變量對應于用于描述聚類的候選半空間。此外,他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數:超立方體的數量和實例的緊湊性。采用啟發式搜索方法(NSGA-II)來識別一組非支配解,定義理想點以確定最合適的解決方案,每個聚類由盡可能少的超立方體覆蓋。 描述:Davidson等人 [69] 提出了聚類描述問題,其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述,以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量,以及任何兩個描述可以共同覆蓋的聚類的最大數量。

**6.4 總結

幾種代表性的可解釋聚類后方法總結在表2中。此外,還可以注意到以下幾點:首先,大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而,決策樹生成的解釋存在一些缺點,例如深層決策依賴于淺層決策。此外,可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外,適合的數據類型可能影響選擇哪種可解釋模型;例如,描述可能更適合社區分析。因此,涉及其他可解釋模型的聚類后方法需要進一步研究。

其次,現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本,或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而,只有少數方法強調解釋的簡潔性(除[22], [25]外),其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此,平衡可解釋模型的準確性和簡潔性,以及量化可解釋性指標,仍然是一個需要進一步研究的領域。

7 結論與未來方向

本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討,重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題,包括聚類前、聚類中和聚類后階段。在每個階段,相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義,以及它如何嵌入常用的可解釋模型中,如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類,使人類用戶能夠理解這些元素,并可能使這些聚類結果應用于高風險領域,從而滿足透明性和可信度的基本要求。 為提供對該領域未來方向的有價值見解,我們根據不同方面對各種可解釋聚類方法進行了分類,并進一步總結了關鍵技術標準供讀者參考,例如:(1) 優化方法,說明來自不同領域的作者如何將可解釋性挑戰形式化,并使用哪些方法解決這些優化問題;(2) 與可解釋性相關的結構度量,這些度量可能被用于評估新方法的可解釋性質量,類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信,研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外,不同聚類階段的方法可以結合使用,因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下,構建可解釋的聚類算法變得困難。此外,針對復雜數據(如離散序列 [32]、網絡(圖) [70] 以及多視角和多模態數據 [71])的可解釋聚類方法的研究仍然有限。

付費5元查看完整內容

時間序列數據的研究對于理解隨時間變化的趨勢和異常至關重要,使得在各個領域內能夠實現預測性洞察。另一方面,時空數據對于分析空間和時間中的現象至關重要,為復雜系統交互提供動態視角。近期,擴散模型在時間序列和時空數據挖掘中得到了廣泛應用。這些模型不僅增強了序列和時間數據的生成和推理能力,而且還擴展到其他下游任務。在本綜述中,我們全面而深入地回顧了擴散模型在時間序列和時空數據中的使用,按模型類別、任務類型、數據形態和實際應用領域進行分類。具體而言,我們將擴散模型分為無條件和有條件兩種類型,并分別討論時間序列數據和時空數據。無條件模型,即無監督運行的模型,被進一步細分為基于概率和基于分數的模型,服務于預測和生成任務,如預測、異常檢測、分類和填補。有條件模型則利用額外信息以增強性能,同樣也針對預測和生成任務進行劃分。我們的綜述廣泛涵蓋了它們在包括醫療保健、推薦系統、氣候、能源、音頻和交通等多個領域的應用,為這些模型如何分析和生成數據提供了基礎理解。通過這一結構化概覽,我們旨在為研究人員和實踐者提供關于時間序列和時空數據分析中擴散模型的全面理解,旨在通過解決傳統挑戰和探索擴散模型框架內的創新解決方案,引導未來的創新和應用。 //www.zhuanzhi.ai/paper/38a12a5bf6945d011c3aa4827f0df55a

擴散模型代表了一類概率生成模型,這些模型通過一個包括在一組訓練樣本中注入噪聲及其后續移除的兩步過程進行優化。這個過程包括一個前向階段,稱為擴散,以及一個反向階段,稱為去噪。通過訓練模型去除在擴散過程中加入的噪聲,模型在推斷過程中學會生成與訓練數據分布緊密對齊的有效數據樣本。 近年來,擴散模型在各個領域中獲得了顯著的關注并產生了重大影響,包括計算機視覺(CV)、自然語言處理(NLP)和一般的多模態學習。這挑戰了生成對抗網絡(GANs)長期的主導地位。在這些領域中,擴散模型在如文本到圖像轉換、實例分割、3D形狀生成、分子設計和音頻生成等應用中展示了卓越的能力。值得注意的是,擴散模型也作為一種非自回歸的替代方案,開始在傳統由自回歸方法主導的任務中獲得人氣。最近,OpenAI Sora的推出標志著擴散模型在模擬嵌入時空連續體的物理世界中的新進展,突顯了它們的關鍵重要性。

時間數據主要包括時間序列和時空數據,封裝了絕大多數現實世界系統的動態。這些時間數據形式已被廣泛研究,并被認為對眾多應用至關重要。然而,從各種數據形態中導出物理世界的普適動態法則仍然是該領域內的一個重大挑戰。最近,時間序列和時空建模領域經歷了從感知智能向通用智能的顯著轉變。這一轉變由具有廣泛時間數據分析能力的統一基礎模型(FMs)的出現所特征化,挑戰了特定領域模型的優勢。擴散模型在許多模態上實現了最先進的成果,包括圖像、語音和視頻。由于這些領域中廣泛且多樣的可用數據,擴散模型常作為生成型基礎模型與大型語言模型(LLMs)或其他基礎模型一同促進了這些領域的快速發展。 近年來,也出現了越來越多專為模擬時間序列和時空數據而設計的擴散模型。同時,我們也注意到越來越多的嘗試使用擴散模型進行時間建模。觀察擴散模型的成功,引發了一個引人入勝的問題:時間序列/時空數據分析與擴散模型的交叉會擦出什么樣的火花?

時間序列和時空數據分析基本上依賴于對它們固有的時間動態的深刻理解,其主要任務主要集中在骨干模型的生成能力上,例如預測、填補和生成。這些分析聚焦于為特定目的生成時間數據樣本,無論是有條件的還是無條件的。目睹了時間序列和時空基礎模型的最近發展,無論是基于LLMs構建還是從零開始訓練,它們的成功可以歸功于估計訓練樣本分布的能力,從中可以提取有效的數據表示。在這方面,擴散模型作為一個強大的生成框架出現,使得(1)模擬時間數據中的復雜模式成為可能,以及(2)支持廣泛的下游任務。為特定任務生成有效的數據樣本時,時間序列和時空擴散模型通常以無條件方式操作,無需監督信號。鑒于實際應用的部分觀察性質,有條件的擴散模型已經出現。它們利用數據標簽(例如指令、元數據或外來變量)來調控生成過程,從而使得有效的跨模態提示成為可能,導致更定制化和改進的結果。

我們在圖3中提出了一個發展路線圖。通過在大規模時間數據上訓練,擴散模型有效地填補了時間序列/時空數據生成的空白,并展示了在解決下一代以LLM為中心的時間數據代理的難題中的重大潛力。

盡管擴散模型在處理時間序列和時空數據方面展示了充滿希望的前景和迅速的進步,現有文獻中對這一模型家族的系統分析卻明顯不足。本文旨在通過提供一份前瞻性的綜述來彌補這一差距,闡明擴散模型適用于這些數據形態的原因(“為什么”)以及它們如何提供優勢的機制(“如何”)。在這份綜述中,我們提供了細的分類,進行了徹底的評審,并識別了這一迅速發展領域內的新興趨勢。我們的主要貢獻總結如下:

全面且最新的綜述。我們呈現了一個全面、最新且前瞻性的擴散模型在時間序列和時空數據應用的綜述。我們的調查強調了擴散模型適用于這些數據形態的適宜性,并討論了它們提供的益處。通過覆蓋領域的廣泛譜系和各個方法的細節,我們為讀者提供了對這一主題領域的深入洞見。

統一和結構化的分類。我們引入了一個清晰且有組織的框架,用于將現有文獻分類為兩種主要類型:無條件和有條件的擴散模型,重點關注時間序列和時空數據,這些數據涵蓋了預測性和生成性任務。這種分類為讀者提供了從多個角度對該主題的連貫路線圖。

洞察新興進展。我們討論了無條件和有條件擴散模型中的前沿技術,關注時間序列和時空數據。我們的覆蓋范圍包括最新技術和新興趨勢,如多模態有條件生成。

挑戰和未來方向的總結。我們確定了當前研究環境中面臨的關鍵挑戰,并突出了幾個未來探索的有希望方向。

本文的其余部分結構如下:第2節提供了關于擴散模型的全面背景,詳細介紹了它們的發展、理論基礎和各種實現。第3節呈現了對時間序列和時空數據應用擴散模型的結構化概覽和分類,為在第4節中更深入探討模型視角奠定了基礎,該節將討論標準和先進的擴散模型。第5節關注于任務視角,檢查擴散模型如何處理預測、生成、填補、異常檢測等任務。第6節討論數據視角,強調針對時間序列和時空數據的特定挑戰和解決方案。第7節探索擴散模型在各種領域的應用,如醫療、交通和能源,展示了它們的廣泛實用性。最后,第8節以對未來機會的展望和總結性評論結束本文。

本節提供了針對時間序列和時空數據分析挑戰的擴散模型的概述和分類。我們的調查沿四個主要維度組織討論:擴散模型的類別、任務類型、數據形態和實際應用。圖7中展示了相關工作的全面總結。現有文獻被分類為兩個主要組別:無條件和有條件的擴散模型,重點關注時間序列和時空數據。

在無條件類別中,擴散模型以無監督方式操作,生成數據樣本無需監督信號。這一設置代表了分析時間序列和時空數據的基礎方法。在此類別中,文獻可以進一步分為基于概率的和基于評分的擴散模型。例如,去噪擴散概率模型(DDPMs)[2]和基于評分的隨機微分方程(Score SDEs)[4],[6],如第2節所介紹。這一類別的研究廣泛地組織為兩個任務組:預測任務和生成任務。預測任務通常涉及預測和異常檢測,利用歷史數據和模式來預測當前和/或未來事件。相反,生成任務則專注于識別大型數據集中的模式以生成新內容,如時間序列的插值和增強。這些方法被開發用于兩種主要數據形態:時間序列和時空數據,以滿足包括醫療保健、能源、氣候、交通等多個領域的廣泛應用。

在有條件類別中,擴散模型被定制用于時間序列和時空數據的條件分析。實證研究表明,使用數據標簽的條件生成模型比它們的無條件對應物更易于訓練且性能更優[75]。在這一上下文中,標簽(也稱為條件)通常來自各種來源,例如提取的短期趨勢[34]和城市流量圖[35],以增強模型推斷。這一類別采用基于概率和基于評分的擴散模型來應對預測和生成任務,提供了在特定約束下利用擴散模型應對時間序列和時空數據分析實際挑戰的新視角。

在對模型類別、任務類型、數據形態和應用領域的基礎理解的基礎上,我們更深入地探索了時間序列和時空數據分析中的擴散模型。每個部分都旨在解開擴散模型應用中固有的復雜性和細微差別,從多個視角提供全面概述。在第4節中,我們探討擴散模型的景觀,突出無條件和有條件方法之間的區別及其含義。第5節從預測和生成的視角分析任務,詳細說明了預測、生成、異常檢測和數據插值等具體功能。第6節檢查數據形態,區分時間序列和時空數據,概述模型挑戰和適用性。最后,第7節將討論擴展到應用領域,展示擴散模型在醫療、交通、序列推薦、氣候、能源和音頻等領域的廣泛實用性。這種結構化的探索旨在裝備讀者深入理解擴散模型處理復雜時間序列和時空數據挑戰的潛力和當前狀態。

付費5元查看完整內容
北京阿比特科技有限公司