摘要——多模態指代分割旨在根據文本或語音格式的指代表達,在圖像、視頻和三維場景等視覺場景中分割目標物體。這一任務在需要根據用戶指令進行精準目標感知的實際應用中發揮著關鍵作用。過去十年間,得益于卷積神經網絡、Transformer 以及大語言模型的快速發展,該任務在多模態領域受到廣泛關注,極大推動了多模態感知能力的提升。本文對多模態指代分割進行了全面綜述。我們首先介紹該領域的背景,包括問題定義和常用數據集。隨后,總結了一種統一的指代分割元架構,并系統回顧了在圖像、視頻和三維場景三類主要視覺場景中的代表性方法。我們還進一步探討了解決真實世界復雜性挑戰的廣義指代表達(GREx)方法,以及相關任務與實際應用。此外,文中還在標準基準上提供了廣泛的性能對比。我們持續維護相關工作的追蹤鏈接://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation。 關鍵詞——綜述,多模態指代分割,指代表達分割,指代視頻目標分割,指代視聽分割,三維指代表達分割,多模態學習,視覺-語言
1 引言
多模態指代分割(Multimodal Referring Segmentation)[1]–[7] 旨在根據指代表達(referring expression),如自由文本或音頻,對圖像 [2][3]、視頻 [1][8] 或三維場景 [7][9] 中的目標對象進行分割。例如,如圖 1(b) 所示,給定文本指代表達 “The bird flying away”,模型應能在視頻中分割并跟蹤所描述的目標對象。該任務是多模態理解中的一個基礎且具有挑戰性的問題,支持廣泛的實際應用,如圖像/視頻編輯 [10][11]、機器人 [12]、自動駕駛 [13] 等。由于其在實際中的巨大應用潛力,多模態指代分割在近年來引起了越來越多的關注,如圖 3 所示。 分割(Segmentation)[14]–[16] 是計算機視覺中的基本任務之一,構成了許多視覺理解任務和應用的基礎 [17]。傳統的分割方法,如語義分割(semantic segmentation)[14] 和實例分割(instance segmentation)[15],通常將視覺場景劃分為一組預定義類別。盡管開放詞匯分割(open-vocabulary segmentation)[18] 擴展了類別覆蓋范圍,但其仍依賴于顯式的類別名稱(如“人”、“車”等)。與這些經典分割任務不同,指代分割通過利用自由形式的指代表達,實現了更靈活、以用戶為中心的分割,能夠識別場景中的特定目標對象。 所謂指代表達,是一種人類可理解的語言表達方式,用于以任何能夠唯一、明確指代對象的方式對其進行描述。這類表達不局限于類別命名,還可以涉及目標對象的位置、視覺屬性、運動狀態或與其他對象的關系。只要表達能夠實現對目標的唯一識別,其描述策略均被視為有效。這種高度表達自由性帶來了對細粒度多模態理解與對齊的重大挑戰,也對模型在應對多樣表達風格與語言-視覺變異方面的魯棒性提出了更高要求。 根據指代表達的模態(如文本或音頻)和視覺場景的類型(如圖像、視頻、視聽視頻或三維場景),指代分割任務可進一步細分,如圖 1 所示。
盡管不同指代分割任務之間具有一定的共性,但現有綜述文獻 [24]–[28] 大多局限于特定模態或任務類型。例如,近期一篇綜述 [29] 僅關注二維圖像上的指代表達分割,忽略了對視頻和三維場景的擴展。因此,當前文獻仍存在關鍵空白,缺乏系統覆蓋多樣任務形式、輸入模態與挑戰的綜合性綜述。填補這一空白對于加深該領域理解、推動通用化和多模態方法的發展至關重要。 為此,我們對多模態指代分割領域中 600 多篇論文進行了全面回顧。本文旨在統一不同視覺場景下的多樣指代模態,為該領域提供連貫、結構化的理解,以提升其可接近性并促進跨任務洞察。此外,我們也強調了指代表達技術在實際應用中的潛力,特別是在具身智能(Embodied AI)等新興領域中的變革性作用。
綜述范圍:本文聚焦于圖像、視頻(包括顯著性視頻與視聽視頻)和三維場景三大類視覺場景中的指代分割研究,以及文本、音頻與全模態(omnimodal)三種主要指代模態,如圖 4 所示。我們主要回顧基于深度學習的方法,重點介紹發表于頂級會議和期刊的代表性研究成果,并納入具有前瞻性的近期預印本,以反映新興趨勢與未來方向。 * 文章結構:如圖 2 所示,本文結構如下:第 2 節介紹任務定義與常用數據集;第 3 節提出統一的指代分割元架構;在該架構下,第 4 至第 7 節系統回顧圖像、視頻與三維場景中的代表性方法。第 8 節討論面向真實復雜場景的廣義指代表達(GREx)方法;第 9 節探討相關任務與應用;第 10 節為總結與未來討論。附錄中還提供了基準性能對比結果。
摘要——擴散語言模型(Diffusion Language Models,DLMs)正迅速崛起,成為主流自回歸(autoregressive, AR)范式的一種強大且極具潛力的替代方案。通過在迭代去噪過程中并行生成 token,DLMs 在降低推理延遲和捕獲雙向上下文方面具有天然優勢,從而能夠對生成過程進行細粒度控制。在實現數倍推理加速的同時,近期的研究進展已使 DLMs 的性能可與自回歸模型相媲美,使其在多種自然語言處理任務中成為具有吸引力的選擇。盡管 DLMs 的應用日益普及,但其仍存在需要進一步探索的挑戰與機遇,這需要對其原理、技術與局限性進行系統且深入的理解。在本綜述中,我們對當前 DLM 領域進行了整體性梳理。我們追溯了其演化歷程以及與其他范式(如自回歸模型和掩碼語言模型)的關系,涵蓋了基礎原理與最新前沿模型。本研究還提供了最新、全面的分類體系,并深入分析了當前技術,從預訓練策略到先進的后訓練方法。另一項貢獻是全面回顧了 DLM 的推理策略與優化方法,包括解碼并行化、緩存機制以及生成質量提升等方面的改進。我們還重點介紹了 DLM 在多模態擴展上的最新方法,并闡述了其在多種實際場景中的應用。此外,我們討論了 DLM 的局限與挑戰,包括效率、長序列處理以及基礎設施需求,并展望了支撐該快速發展領域持續進步的未來研究方向。項目 GitHub 地址://github.com/VILA-Lab/Awesome-DLMs。
關鍵詞——擴散語言模型,大語言模型,擴散模型,擴散式大語言模型,語言建模,多模態語言模型
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。
擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。
為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
近期在通用人工智能(AGI)方面的進展,主要得益于自回歸大型語言模型(autoregressive large language models,LLMs)[1]–[7] 的出現,以及面向圖像與視頻生成的擴散模型(diffusion models)[8]–[12] 的興起。這些模型在跨多種模態的理解與生成任務中展現出了非凡能力,達到了過去難以想象的性能水平。它們在參數規模、數據集體量、訓練投入以及推理階段的計算開銷等方面的前所未有的規模,推動了人工智能達到新的高度,使得這些模型具備廣泛的通用知識以及對語言與真實世界的深刻理解。 GPT 系列 [1], [13], [14] 的崛起,尤其是 ChatGPT [2] 的公開發布,使得自回歸(AR)語言模型在自然語言處理領域占據了主導地位。AR 模型通過因果注意力(causal attention)與教師強制(teacher forcing)來預測下一個 token [4], [15], [16],能夠高效擴展至大規模數據集和模型規模。在推理時,AR 模型以逐 token 順序生成文本,在支持從簡單問答到復雜推理與創意寫作的廣泛任務中表現出色。然而,這種順序生成的特性在推理速度上形成了主要瓶頸——AR 模型一次僅能生成一個 token,天生缺乏并行性,從而顯著限制了計算效率與吞吐量。 擴散模型則是另一種極具潛力的生成范式。它們通過迭代去噪(denoising)過程,從逐步加噪的數據中恢復原始數據,并在生成階段以相反順序逆轉這一隨機擾動過程。在復雜數據分布建模方面,擴散模型已在圖像與視頻合成中實現了最新的性能記錄 [17]。擴散建模的學術突破 [18]–[21] 為訓練與推理奠定了堅實的理論基礎;同時,大規模實用模型如 Stable Diffusion [8], [10], [11]、Imagen [9] 與 Sora [12] 展現了擴散范式在可擴展性與泛化能力上的非凡表現——只需幾行文本提示,即可生成高保真、藝術級別的圖像與視頻。除對復雜數據分布的強大建模能力外,擴散模型還具有并行性的天然優勢:通過迭代去噪,它們可以一次性生成多個 token,甚至整個序列,從而在推理吞吐與現代并行計算硬件利用率上具備潛在優勢。盡管在建模離散數據和處理動態序列長度方面仍存在挑戰,擴散語言模型(Diffusion Language Models, DLMs)已逐漸成為在生成質量與速度權衡上頗具吸引力的替代方案。 為了將擴散方法適配于離散語言數據,已有多種關鍵方法被提出。早期 DLMs 的發展主要受益于擴散模型在連續域(如圖像生成)的成功。連續型 DLMs 會將 token 映射到嵌入向量,在連續空間中進行去噪,如 Diffusion-LM [22] 與 SED [23]。離散型 DLMs 則直接在 token 空間定義擴散過程,早期方法如 D3PM [24] 引入了帶有吸收態(absorbing states)的結構化轉移矩陣,實現了 token 級的擾動與迭代去噪;后續工作如 DiffusionBERT [25] 則結合了預訓練掩碼語言模型(如 BERT)以提升去噪質量,并提出了定制化的噪聲調度策略(如 spindle schedule)以更好地匹配 token 擾動與詞頻分布。這些早期模型證明了將迭代去噪應用于非自回歸文本生成的可行性,并帶來了可控性與并行性,但其性能仍落后于強大的自回歸基線。隨著 DLMs 核心挑戰的逐步解決與范式的成熟,更大規模的 DLMs 得以構建。例如,通過從自回歸模型初始化,Dream [26] 與 DiffuLLaMA [27] 等 70 億參數級模型證明了 DLMs 可在利用已有模型的同時實現具競爭力的性能;LLaDA-8B [28] 更進一步展示了從零訓練 DLMs 的潛力,其性能可與同規模的 LLaMA3-8B 相媲美。多模態 DLMs(又稱擴散多模態大語言模型,dMLLMs)也展現了在混合數據(如文本與圖像)建模上的前景,基于開源 DLMs 的 LLaDA-V [29]、Dimple [30] 與 MMaDA [31] 等模型,將跨模態推理與生成融入擴散框架中。同時,業界也開始展現出對 DLMs 的濃厚興趣,如 Mercury 系列 [32] 與 Gemini Diffusion [33] 在報告中不僅取得了出色性能,還實現了每秒生成數千 token 的推理速度。這些進展凸顯了 DLMs 日益增長的實用性與商業潛力。
DLMs 在訓練與推理階段也呈現出獨特的挑戰與機遇。預訓練通常借鑒自回歸語言模型或圖像擴散模型的策略 [26], [30], [31];為加快訓練并復用已有成果,許多 DLMs 直接從預訓練的自回歸模型權重初始化 [26], [27]。在監督微調(SFT)階段,DLMs 與 AR 模型類似,通過干凈的提示數據學習生成目標補全。強化學習(RL)也被用于 DLMs 的后訓練階段,以提升復雜任務性能;在 GRPO [41] 算法基礎上,diffu-GRPO [42] 與 UniGRPO [31] 等變體被提出,以增強大規模 DLMs 的推理能力與對齊效果。在推理階段,連續型 DLMs 可利用 ODE/SDE 求解器或少步生成技術來加速迭代去噪過程 [43];針對離散型 DLMs 在并行生成方面的更多挑戰,已有專門的并行解碼策略 [30], [44], [45],以在單步中接受多個 token,克服并行瓶頸;解掩碼與再掩碼(unmasking/remasking)策略 [28], [46] 則通過有選擇地揭示低置信度 token 來提升生成質量;而緩存技術 [47], [48] 則可顯著減少計算量并提升推理速度,這對兩類 DLMs 都適用。 相較于自回歸模型,擴散語言模型普遍被認為具有以下優勢: * 并行生成:DLMs 可通過迭代去噪過程并行生成多個 token,大幅提升推理速度與吞吐量。 * 雙向上下文:DLMs 自然融合雙向上下文,能夠進行更細膩的語言理解與生成,并產生更豐富的上下文嵌入,這對于跨模態生成任務尤為有益,也支持對生成過程的精細化控制。 * 迭代精煉:迭代去噪過程允許 DLMs 在多個步驟中不斷更新生成結果。通過提前接受高置信度 token、保留低置信度區域為掩碼,掩碼式 DLMs 可逐步改進不確定部分,從而生成更連貫、更高質量的文本。 * 可控性:DLMs 可在特定 token 位置或結構上進行條件生成,適用于填空(infilling)和結構化生成等任務;此外,分類器自由引導(classifier-free guidance)等技術還能更好地控制生成風格與語義相關性。 * 跨模態統一建模:基于統一的去噪建模框架,DLMs 天然支持文本與視覺的聯合生成任務,這使其在需要生成與理解能力一體化的多模態應用中具有獨特潛力。
盡管近年來 DLMs 熱度迅速攀升,但尚缺乏一篇系統覆蓋整個 DLM 生態的全面綜述。我們在本綜述的結構安排如下:第 2 節對現代語言建模范式進行全面回顧,包括自回歸、掩碼式與基于擴散的方法;第 3 節深入探討 DLMs 的訓練方法,包括預訓練、監督微調(SFT)與強化學習(RL)對齊等技術;第 4 節介紹多種推理策略與優化方法,重點關注適用于連續與離散空間模型的技術;第 5 節探討擴散模型在多模態場景下的拓展,綜述 LLaDA-V [29]、MMaDA [31]、Dimple [30] 等前沿架構;第 6 節呈現并可視化 DLMs 的性能對比;第 7 節展示 DLMs 在文本生成、代碼生成、計算生物學等多種任務中的應用;第 8 節則討論 DLMs 面臨的挑戰與局限,包括效率、推理能力、智能體能力及基礎設施等問題,并展望未來的研究方向。為提供整體性概覽,我們在圖 3 中給出了 DLMs 的分類體系。
摘要—視覺—語言模型(Vision-Language Models, VLMs)在廣泛任務中展現出卓越的泛化能力。然而,當直接應用于特定下游場景且未經過任務特定的適配時,其性能往往并不理想。為了在保持數據高效性的同時提升其實用性,近年來的研究日益聚焦于不依賴標注數據的無監督適配方法。盡管這一方向的關注度不斷上升,但仍缺乏一個面向任務的、專門針對無監督 VLM 適配的統一綜述。為彌補這一空白,本文對該領域進行了全面且結構化的梳理。我們提出了一種基于無標注視覺數據可得性及其性質的分類方法,將現有方法劃分為四種核心范式:無數據遷移(Data-Free Transfer,無數據)、無監督領域遷移(Unsupervised Domain Transfer,充足數據)、情景式測試時適配(Episodic Test-Time Adaptation,批量數據)和在線測試時適配(Online Test-Time Adaptation,流式數據)。在這一框架下,我們分析了各范式對應的核心方法與適配策略,旨在構建對該領域的系統化理解。此外,我們還回顧了多種應用場景下的代表性基準,并指出了開放挑戰與未來研究的潛在方向。相關文獻的持續更新倉庫可訪問://github.com/tim-learn/Awesome-LabelFree-VLMs。 關鍵詞—無監督學習,測試時適配,多模態學習,視覺—語言模型。 I. 引言
視覺—語言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],憑借強大的跨模態推理能力,已在學術界和工業界引起了廣泛關注。這類模型通過大規模數據集 [5] 學習圖像—文本的聯合表示,并在多種任務中展現出令人印象深刻的零樣本(zero-shot)性能與泛化能力。VLMs 已成功應用于多個領域,包括自動駕駛 [6]、機器人技術 [7]、異常檢測 [8] 以及跨模態檢索 [9]。 然而,由于預訓練階段無法覆蓋下游任務與環境的全部多樣性,將 VLMs 適配于特定應用仍是一項核心挑戰。早期的研究主要依賴有監督微調 [10]–[13],利用帶標注樣本挖掘更多知識。盡管該方法在性能上有效,但依然面臨高標注成本,以及在訓練與測試數據存在分布偏移(distribution shift)[14] 時的性能下降問題。為應對這些局限,越來越多的研究開始探索無監督適配技術 [15]–[20]。這些方法——通常被稱為零樣本推理 [21]–[23]、測試時方法(test-time methods)[18], [24], [25],或無監督調優 [17], [26], [27]——旨在無需昂貴標注即可提升 VLMs 在下游任務中的表現。實踐表明,這類方法在圖像分類 [15], [17], [18]、圖像分割 [16], [28], [29]、醫學影像診斷 [30], [31] 以及動作識別 [32], [33] 等任務中均取得了顯著成效。 鑒于該研究領域的快速發展,本文旨在對現有 VLM 無監督適配方法進行全面且結構化的綜述。據我們所知,這是首個圍繞無標注視覺數據可得性提出分類體系的工作——這一因素在實際部署中至關重要,卻往往被忽視。如圖 1 所示,我們將現有方法劃分為四種范式: 1. 無數據遷移(Data-Free Transfer)[15], [16], [21]:僅利用文本類別名稱來適配模型; 1. 無監督領域遷移(Unsupervised Domain Transfer)[17], [34], [35]:利用來自下游任務的充足無標注數據; 1. 情景式測試時適配(Episodic Test-Time Adaptation)[18], [24], [36]:針對一批測試樣本進行適配; 1. 在線測試時適配(Online Test-Time Adaptation)[19], [23], [25]:應對流式到達的測試數據。
這一分類體系為理解 VLM 無監督適配的研究版圖提供了系統化框架,有助于實踐者選擇合適的技術路徑,同時也有助于未來在同一范式下進行公平比較。 本文的組織結構如圖 2 所示:第 II 節概述了與 VLM 無監督學習相關的研究主題;第 III 節介紹了 VLM 的零樣本推理,并提出基于無標注視覺數據可得性的分類體系;第 IV–VII 節為本文核心內容,分別分析無數據遷移、無監督領域遷移、情景式測試時適配以及在線測試時適配中的現有方法;第 VIII 節探討無監督技術在多種應用場景中的實踐及相關基準,擴展對其實際意義和應用價值的認識;第 IX 節總結該領域的新興趨勢,并指出可能激發未來研究的關鍵科學問題。 與已有綜述的對比。 近年來,一些綜述性工作 [37]–[40] 涉及了無監督適配與 VLM 微調的不同方面。現有研究 [40]–[42] 多聚焦于單模態模型遷移,雖然對該領域進行了深入分析,但對 VLM 的覆蓋較為有限。較早的工作 [37] 討論了 VLM 的預訓練階段,并簡要分析了其在視覺任務上的微調方法;另一篇綜述 [38] 涉及多模態模型的適配與泛化,但粒度較為粗略;近期工作 [39] 從參數空間視角審視 VLM 下游任務的泛化,并回顧了相關方法。盡管這些綜述提供了有價值的見解,但本文首次基于無標注視覺數據可得性提出了分類體系,并在每個范式下深入分析前沿技術,我們認為這是對該領域的一個新穎且關鍵的補充,尤其對 VLM 的實際部署具有重要意義。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
摘要—時空數據在交通、氣象、能源等諸多現實世界領域中日益增長。時空深度學習模型旨在利用這類數據中的有用模式,支持預測、補全、異常檢測等任務。然而,傳統面向特定任務的一對一深度學習模型通常需要針對每個用例單獨訓練,導致計算和存儲成本顯著增加。為了解決這一問題,近年來出現了一對多的時空基礎模型,它們提供了一個統一的框架,能夠同時解決多種時空任務。這類基礎模型通過在時空數據中學習通用知識,或遷移預訓練語言模型的通用能力,取得了顯著成功。盡管已有綜述分別探討了時空數據和方法,但對基礎模型的設計、選擇、預訓練與適應過程尚缺乏系統性的審視。因此,時空基礎模型的整體流程仍不清晰。 為彌補這一空白,本文創新性地從流程視角出發,系統回顧了現有的時空基礎模型。我們首先介紹了不同類型的時空數據,隨后詳述了數據預處理與嵌入技術。在此基礎上,提出了一個新穎的數據屬性分類體系,根據數據來源與依賴關系對現有方法進行劃分,從而為研究者提供高效有效的模型設計與選擇參考。隨后,我們進一步闡述了原始模型的訓練目標以及遷移模型的適配策略。 總體而言,本文構建了一個清晰且結構化的流程框架,有助于理解時空基礎模型各核心要素之間的聯系,并為研究者快速入門提供指導。此外,我們還介紹了時空基礎模型領域中如多目標訓練等新興研究機遇,為研究人員和實踐者提供了寶貴的見解。
GitHub 倉庫://github.com/LMissher/AwesomeSpatio-Temporal-Foundation-Models 關鍵詞—基礎模型,時空數據,預訓練,適應方法。
時空數據正持續從交通、能源和氣象等多個現實世界領域中產生。這類數據天然地展現出隨時間演化的復雜時間特性以及跨區域的空間交互關系【1】。多種形式的時空數據(如軌跡數據、交通數據和視頻數據)在捕捉時空依賴關系方面面臨共通挑戰,需要專門的技術方法以有效提取其內在關聯。挖掘與分析這些時空關聯對于構建智能系統至關重要,使得現實應用能夠在規劃、推理、異常檢測等基礎任務中輔助決策。
近年來,隨著深度學習的發展,基于專用模型的一對一時空數據挖掘取得了顯著進展。這些方法主要依賴于順序建模和空間建模的神經網絡能力,如循環神經網絡(RNN)【2】、Transformer【3】、卷積神經網絡(CNN)【4】以及圖神經網絡(GNN)【5】。然而,面對多樣化的應用場景與任務類型,往往需要訓練大量任務專屬模型,帶來了巨大的計算資源消耗和存儲成本。 幸運的是,隨著自監督學習策略的提出以及“縮放定律”(scaling laws)【6】的發現,基礎模型(Foundation Models)在自然語言處理和計算機視覺領域被設計出來,可以通過高效的少樣本微調(few-shot)甚至無需訓練的零樣本提示(zero-shot prompting)來通用地解決多種任務【7】【8】。 在自然語言處理領域的基礎模型(如 ChatGPT)取得巨大成功之后,“一對多”的基礎模型理念被引入到時空領域,成為一條頗具前景的研究路徑。如圖1所示,時空基礎模型(Spatio-Temporal Foundation Models,STFMs)的目標是在單一的通用模型中學習通用的時空知識,從而應對多樣化的任務與應用,顯著降低對多個任務特定模型的依賴,減少訓練與存儲開銷。通過擴大時空數據的訓練規模,并利用通用的自監督學習目標來構建原始基礎模型,或遷移其他領域(如 NLP)的預訓練基礎模型所具備的通用知識構建遷移型基礎模型,現有的 STFMs 在多種任務中展現了優異效果,展現出統一框架推進該領域的巨大潛力。 盡管 STFMs 已取得明顯進展,但現有綜述仍面臨若干關鍵問題: 1. 數據與模型之間的聯系薄弱:如表 I 所示,盡管已有綜述對不同類型的時空數據進行了分類介紹,但往往忽視了數據對齊中的關鍵步驟(如嵌入技術),這使得時空數據如何有效對接基礎模型變得模糊。 1. 缺乏數據屬性視角:已有綜述大多采用粗粒度的 STFMs 分類方式(例如基于數據類型或深度學習方法),但未解釋為何相似方法被應用于具備共性的數據類型,忽略了從數據屬性出發進行模型選擇或設計的深入洞見。 1. 內容呈現零散:時空數據、基礎模型、訓練目標與遷移適應技術往往被孤立討論,導致無法系統理解在不同任務、數據集與實際場景中應選用哪些模型、目標與策略。
為解決上述問題,本文從“流程視角”出發,系統性地審視 STFMs 的整體開發與應用流程,從數據對齊與模型構想到訓練、適配再到實際應用,全面梳理工作流程。除了簡要介紹時空數據與可用數據集外,如圖2底部所示,我們詳細說明了數據預處理、嵌入技術及多種時空數據類型的輔助信息,從而完成 STFMs 流程中的第一階段:數據對齊。通過引入輔助信息與合適的預處理方式,可顯著提升數據質量,進而增強模型性能。此外,時空數據獨特的空間與時間依賴特性使其嵌入技術在與基礎模型的對接中扮演關鍵角色,是連接原始數據與模型輸入表示的重要橋梁。 STFM 流程的第二階段是基于多樣數據構建模型。為解決粗粒度分類帶來的混淆,我們提出了一種新穎的數據屬性分類體系(如圖2中部所示)。在該體系頂層,我們將 STFMs 分為兩類:原始模型與遷移模型,依據是否直接在原始時空數據上訓練,或是否由其他領域(如語言或圖像模型)遷移而來。此外,我們將原始模型按時間、空間、時空依賴進一步劃分;遷移模型則根據模態分為視覺類、語言類與多模態類。該分類體系基于數據來源與依賴關系進行細粒度建模,便于模型設計與選擇,并可擴展至其他數據類型。 STFM 流程的第三階段聚焦于原始模型的訓練目標與遷移模型的適配技術(如圖2頂部所示)。我們對這些方法進行深入分析,強調其在不同數據類型、任務或應用場景下的優勢與挑戰。 在流程的最后階段,我們總結 STFMs 在現實世界中的典型應用,如能源、金融、氣象、醫療、交通與公共服務等領域(圖1所示),展示其廣泛影響力。 通過逐步明晰的流程式解析,本文不僅理清了 STFMs 的核心組成要素,也揭示了它們之間的深層聯系,有助于模型的快速部署與高效落地。此外,表 I 顯示,現有綜述常常遺漏如關鍵數據類型、訓練目標和適配技術等核心內容,導致對 STFMs 的理解不夠全面。本文通過覆蓋最全面的關鍵要素,提供了一種更具整體視角的理解框架。 最后,我們還討論了 STFMs 當前所面臨的挑戰與未來發展機遇。
本文的主要貢獻總結如下:
全面且最新的綜述:本文提供了當前最系統的 STFMs 綜述,涵蓋數據類型、模型、訓練目標和適配技術等廣泛內容。 * 創新的數據屬性分類體系:我們提出了基于數據來源與依賴關系,從粗到細的 STFMs 分類方法,有助于高效模型設計與選擇。 * 首次基于流程視角的綜述:據我們所知,本文是首個從流程出發系統分析 STFMs 的綜述,有助于理解模型為何表現優越、如何構建。 * 未來研究方向的識別:我們總結了 STFMs 當前應用中的關鍵挑戰,并提出了未來研究的潛在機遇,激勵后續更先進模型的發展。
文章結構如下:第二節回顧時空數據的對齊過程;第三節探討原始基礎模型的設計與訓練目標;第四節深入分析遷移型基礎模型的選擇與適配技術;第五節介紹 STFMs 的典型應用場景;第六節識別新興研究機會與開放挑戰;第七節總結本文的關鍵內容。
摘要—三維場景生成旨在合成具備空間結構、語義意義和照片級真實感的環境,廣泛應用于沉浸式媒體、機器人、自動駕駛和具身智能等領域。早期基于程序規則的方法具有良好的可擴展性,但在多樣性方面受到限制。近年來,深度生成模型(如生成對抗網絡、擴散模型)和三維表示方法(如NeRF、三維高斯表示)的進展,使得模型能夠學習真實世界的場景分布,從而在逼真度、多樣性和視角一致性方面取得顯著提升。擴散模型等新興方法通過將三維場景合成重新表述為圖像或視頻生成問題,進一步拉近了三維合成與照片級真實感之間的距離。 本綜述系統地回顧了當前主流的三維場景生成方法,將其劃分為四大范式:程序生成、基于神經三維表示的生成、基于圖像的生成和基于視頻的生成。我們分析了各類方法的技術基礎、權衡因素及代表性成果,并回顧了常用數據集、評估協議以及下游應用場景。最后,我們討論了當前在生成能力、三維表示、數據與標注、評估機制等方面所面臨的關鍵挑戰,并展望了若干前沿方向,包括更高的生成保真度、具備物理意識和交互能力的生成方法,以及感知與生成一體化的統一模型。 本綜述梳理了三維場景生成領域的最新研究進展,強調了生成式人工智能、三維視覺與具身智能交叉融合中的潛力方向。我們同時維護了一個持續更新的項目頁面以跟蹤最新進展://github.com/hzxie/Awesome-3D-Scene-Generation。 關鍵詞—三維場景生成,生成模型,人工智能生成內容,三維視覺
三維場景生成的目標是構建具備空間結構、語義信息和視覺真實感的三維環境。作為計算機視覺領域的重要基石,該技術支撐著眾多應用場景,包括沉浸式影視制作 [1], [2]、開放世界游戲設計 [3], [4], [5]、建筑可視化 [6], [7],以及增強/虛擬現實(AR/VR)[8], [9], [10]、機器人仿真 [11], [12] 和自動駕駛 [13], [14] 等。在更深層次上,三維場景生成對于推動具身人工智能(Embodied AI)[15], [16], [17] 和世界模型(World Models)[18], [19], [20] 的發展至關重要,這些模型依賴于多樣、高質量的場景進行學習與評估。逼真的場景合成能力有助于提升智能體的導航、交互與適應能力,從而推動自主系統和虛擬仿真技術的發展。 如圖1所示,三維場景生成近年來獲得了顯著關注。早期方法依賴于基于規則的程序生成與人工設計的素材資源 [21], [22],在游戲設計 [23]、城市規劃 [24], [25] 和建筑建模 [26], [27] 中具備良好的可控性與可擴展性。然而,這些方法依賴預定義規則與確定性算法,導致生成結果缺乏多樣性,且在創建真實或復雜場景時需大量人工干預 [28]。 深度生成模型的興起(如生成對抗網絡 [29] 與擴散模型 [30])使神經網絡能夠學習真實世界的空間分布,從而合成多樣且逼真的空間結構。結合NeRF [31] 和三維高斯表示 [32] 等三維表達技術的突破,基于神經網絡的三維生成方法在幾何精度、渲染效率與視角一致性等方面均取得顯著提升,特別適用于構建具備照片真實感的虛擬環境。 從單張圖像出發,基于圖像的場景生成方法借助相機姿態變換與圖像擴展技術,逐步生成連續視角 [33], [34] 或局部全景場景 [35], [36]。隨著視頻擴散模型的快速發展 [37], [38],視頻生成的質量顯著提升,從而激發了過去兩年中三維場景生成的研究熱潮。這類方法將三維場景生成建模為視頻生成問題,通過時序建模提高視角一致性 [39]。動態三維表達 [40], [41] 的引入進一步推動了沉浸式動態場景的合成 [42], [43]。 與三維對象或虛擬角色的生成相比,三維場景生成在多個維度上面臨更大挑戰: 1. 規模:對象和角色通常位于固定、有限的空間范圍內,而場景需容納多個實體并適應更大且變化多樣的空間尺度; 1. 結構復雜性:場景涉及多樣對象間復雜的空間與語義關系,模型必須確保結構上的功能一致性與整體的合理性; 1. 數據稀缺性:盡管面向對象或角色的生成已有大量標注數據集,但高質量的三維場景數據集仍稀缺且成本高昂; 1. 精細控制:場景生成往往要求用戶對對象布局、功能分區和風格等屬性進行控制,而當前方法在靈活性與可解釋性方面仍有限。
盡管三維場景生成取得了迅速進展,目前尚缺乏一篇系統性綜述文獻來對現有方法進行分類、挑戰總結與未來展望。已有綜述多聚焦于狹窄領域,例如程序生成 [44], [45]、室內場景 [46], [47]、自動駕駛 [48] 以及文本驅動生成 [49], [50],視角較為局限。更廣泛的綜述聚焦于通用三維或四維內容生成 [51]–[56],通常僅將場景生成作為附屬內容,導致覆蓋面零散。例如,一些研究專注于擴散模型 [55]、文本驅動場景生成 [52] 或四維生成 [56],而忽視了如三維高斯表示 [51]、圖像序列 [53], [54]、以及程序與視頻生成范式 [51], [53], [54] 等關鍵組成。世界模型相關綜述 [18], [57], [58] 主要聚焦于駕駛場景下的視頻預測,提供的視角較為片面。因此,迫切需要一份全面、系統、緊跟進展的綜述,對三維場景生成進行整理與分析。
本綜述系統梳理了三維場景生成領域的最新研究進展。我們將現有方法歸類為四大類型:程序生成、基于神經三維表達的生成、基于圖像的生成與基于視頻的生成,并分析了各類方法的核心范式與技術權衡。此外,我們回顧了在場景編輯、人-場交互、具身智能、機器人與自動駕駛等下游任務中的應用。我們還梳理了常見的三維場景表達方式、數據集與評估協議,并指出當前在生成能力、可控性與真實感方面的限制。最后,我們探討了未來的發展方向,包括更高保真度、具物理意識與交互性的生成方法,以及感知-生成一體化的模型。
本綜述主要關注基于三維表達的三維場景生成方法。這些生成方法的目標是合成多樣的三維場景,而傳統的三維重建方法僅能從給定輸入重建單一場景。關于三維重建的綜述可參考 [59], [60]。此外,本綜述不涵蓋通用的視頻生成方法 [38], [61] 與三維對象生成方法 [62]–[64],盡管它們在某些場景中具備一定的三維生成能力。本文旨在補充現有關于三維生成模型的綜述 [51]–[55],填補對三維場景生成系統性總結的空白。
本綜述的結構如圖2所示。第2節介紹基本概念,包括任務定義、三維場景表達方式與生成模型基礎。第3節根據方法類別進行劃分,詳述各類方法的范式、優劣勢與技術路線。第4節介紹常用數據集與評估指標。第5節回顧各類三維場景生成的下游任務。第6節則討論當前面臨的挑戰、未來的發展方向,并總結全文。
摘要——理解和復現真實世界是人工通用智能(AGI)研究中的關鍵挑戰。為實現這一目標,許多現有方法(如世界模型)試圖捕捉物理世界的基本規律,以實現更精確的模擬和更有意義的交互。然而,當前的方法通常將不同模態(包括2D圖像、視頻、3D和4D表示)視為獨立的領域,而忽略了它們之間的相互關聯。此外,這些方法通常僅關注現實世界的某個孤立維度,而未能系統性地整合它們的聯系。因此,在本綜述中,我們提出了一個統一的多模態生成模型綜述,研究數據維度在真實世界模擬中的演進過程。具體而言,我們從2D生成(外觀)出發,擴展到視頻生成(外觀+動態)和3D生成(外觀+幾何),最終達到整合所有維度的4D生成。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為引導未來研究,我們提供了對數據集、評測指標和未來方向的全面回顧,并為初學者提供深入見解。本綜述旨在作為一座橋梁,推動多模態生成模型與真實世界模擬在統一框架下的發展。 索引詞——生成模型,圖像生成,視頻生成,3D生成,4D生成,深度學習,文獻綜述
【2 基礎知識】 本部分對深度生成模型的基本原理做了簡要回顧。論文中介紹的各類生成模型都旨在通過深度神經網絡近似真實數據的分布。文中詳細討論了幾種主流模型:
──────────────────────────── 【3 各范式下的真實世界模擬】 論文按照數據維度的增長,系統地將真實世界模擬劃分為四個層次,即二維生成、視頻生成、三維生成和四維生成,每個層次均著眼于不同的屬性建模。 【3.1 二維生成】 在二維生成部分,重點討論了文本到圖像的生成技術。利用擴散模型、預訓練語言模型及自編碼器等技術,現有方法已能夠從文本描述中生成高質量、語義準確的圖像。論文中詳細介紹了Imagen、DALL-E、DeepFloyd IF、Stable Diffusion及其擴展版本(如SDXL和FLUX.1)等模型,這些模型通過多階段生成、跨模態編碼以及高效的降噪技術,在圖像外觀建模方面取得了顯著成效。
【3.2 視頻生成】 視頻生成技術在二維圖像生成的基礎上增加了時間維度,面臨更高的時空一致性要求。論文將當前視頻生成方法歸納為基于變分自編碼器與對抗生成網絡、基于擴散模型以及自回歸模型三大類:
【3.3 三維生成】 三維生成部分主要關注對物體幾何和外觀信息的全面建模。論文首先討論了三維數據表示方式,分為明確表示(如點云、體素網格、網格模型和三維高斯分布)、隱式表示(通過連續函數描述物體表面,如符號距離函數與神經輻射場)以及混合表示(結合前兩者優點,通過混合體素或基于四面體網格等方法實現高效表達)。在算法層面,論文介紹了文本到三維生成、圖像到三維生成以及視頻到三維生成三種任務。 (1)在文本到三維生成中,有兩大類方法:一種是前向傳播方法,直接從文本編碼中得到緊湊的三維表示;另一類是基于優化的方法,通過利用文本到圖像的預訓練模型產生中間視角,再借助擴散模型或其他損失函數進行三維結構的精細化優化。 (2)圖像到三維生成主要利用已有圖像數據,通過編碼壓縮網絡和生成模型得到符合輸入圖像特征的三維資產; (3)視頻到三維生成則利用視頻中的多視角信息,通過時空一致性訓練,生成既具有細節又滿足多視角約束的三維結構。論文中對各類方法的優缺點進行了詳細比較,并討論了如何利用大規模三維數據集以及多視角預訓練模型來提高三維生成的精度和一致性。
【3.4 四維生成】 四維生成則是在三維生成的基礎上進一步引入時間維度,用以描述動態場景的演變。此部分面臨空間連續性和時間一致性的雙重挑戰。論文介紹了四維數據表示方法,包括基于靜態三維表示擴展時間信息、采用時空分解與哈希映射等技術以降低重建單個場景的計算成本。當前,四維生成主要分為兩類方法:
──────────────────────────── 【4 數據集與評測指標】 論文還對真實世界模擬中常用的數據集與評測指標做了綜述。針對二維、視頻、三維和四維生成,不同任務所采用的數據集具有各自特點,如大規模圖文數據集、視頻編輯數據集以及用于三維重建和視角合成的專用數據集。同時,評測指標不僅包括圖像質量、視頻時空連貫性,還涵蓋三維模型的幾何精度、表面細節以及多視角一致性等多個方面。對這些指標的詳細比較和應用場景的討論為后續研究提供了重要參考。 ──────────────────────────── 【5 未來方向與挑戰】 盡管當前多模態生成模型在模擬真實世界方面已取得顯著進展,但論文仍指出存在若干開放性挑戰: 一是如何在保證生成內容高保真和細節豐富的前提下進一步提高生成速度與計算效率; 二是如何在多模態、多維度之間建立更加緊密的聯系,克服單一維度模型帶來的局限; 三是如何借助更大規模、更高質量的數據集,推動文本、圖像、視頻到三維乃至四維生成方法的統一與協同; 此外,在應用層面,如虛擬現實、自動駕駛、機器人等場景中對生成模型的魯棒性、實時性以及交互性提出了更高要求,這些均為未來研究的重要方向。 ──────────────────────────── 【6 結論】 本文系統性地綜述了多模態生成模型在真實世界模擬中的研究進展,詳細討論了從二維到四維生成的各個技術范式。通過對比傳統圖形學方法與基于深度學習的生成模型,論文不僅明確了當前各類方法的優勢和局限,也為未來研究指明了方向。總體來說,本綜述為研究人員提供了一個統一的視角,幫助大家在跨模態、跨維度的真實世界模擬領域進行更深入的探討和創新。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
摘要—近年來,聚類算法的研究主要集中在提高其準確性和效率,往往以犧牲可解釋性為代價。然而,隨著這些方法越來越多地應用于高風險領域,如醫療保健、金融和自動化系統,透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任,還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求,本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述,并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策,同時也促進了既高效又透明的聚類算法的發展和采用。
關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能(XAI) 導論
聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務,旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系,從而促進各種應用和進一步的分析。 幾十年來,已經提出了許多算法來解決不同應用中的聚類問題,并取得了很高的準確性。然而,在大多數情況下,聚類模型作為一個“黑箱”存在,導致了常見的問題,例如:聚類結果是如何形成的?人們能否理解聚類結果形成的邏輯?模型是否可信?模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用,本論文將全程使用“可解釋性”一詞。
至今,可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如,在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”,在文獻 [5] 中定義為“人類能夠理解決策原因的程度”,而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。
然而,模型的可解釋性可能因用戶的實際需求而異,并且可以在不同維度上表現出來。在某些疾病研究中,醫生通常更關心識別患者特征,這些特征表明患病的可能性較高,以及這些特征是否能有助于早期診斷。相比之下,數據科學家則關注設計可解釋的模型,為患者提供有說服力的解釋,并有效闡明每個患者被歸類為特定疾病類型的原因,從而幫助理解各種特征對結果的影響。因此,盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性,但仍然有必要對這些方法進行系統的總結和區分。
據我們所知,已經有一些綜述文章總結了與可解釋性相關的方法。然而,這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11],要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白,我們全面收集了現有的可解釋聚類方法,并提出了一套分類標準,以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外,我們將聚類過程劃分為三個階段,并根據不同階段的可解釋性對所有可解釋聚類方法進行分類,構建了本綜述的總體框架:(1)特征選擇階段(聚類前),(2)模型構建階段(聚類中),和(3)模型解釋階段(聚類后)。我們相信,本綜述將為讀者提供對可解釋聚類的新理解,并為該領域未來的研究奠定基礎。
本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性,回顧了可解釋的聚類前、聚類中和聚類后方法。最后,第7節總結了本文,并討論了未來的研究方向。
隨著人工智能和機器學習算法的進步并在各種任務中表現出色,它們正被應用于多個領域。然而,它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]:開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說,理解和信任算法如何得出結果至關重要。例如,開發者需要理解算法如何產生有意義的結果,并認識到其局限性,從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識,并且是否有充分的依據。監管者需要考慮算法結果的影響,例如公平性、潛在的歧視,以及風險和責任所在。這要求整個算法過程具備透明性和可信度。
為應對這些挑戰,可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的,聚類方法旨在通過生成模式作為數據的初步理解。在這一階段,聚類的可解釋性以及算法機制的透明性需求變得愈發重要。
傳統的聚類算法通常注重提供聚類結果,將準確性和效率作為首要任務,尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”,尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值,并將它們積極地納入聚類結果的生成中。然而,“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明,使得最終用戶更難理解。
相比之下,可解釋的聚類方法明確旨在解釋聚類結果,使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果,使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值(如年齡、收入)來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果,并評估從中得出的結論是否可信。
好的可解釋聚類方法應提供明確的證據,解釋聚類結果是如何得出的,為最終用戶提供理解算法行為及其背后邏輯的機會。然而,最終用戶是否選擇信任這些證據,可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家,我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。
首先,可解釋證據的形式應盡可能簡單。例如,用于生成某一聚類的特征值的數量應盡量減少,這可以大大降低最終用戶理解結果的復雜性。其次,每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說,理想情況下,同樣的可解釋證據應僅對應一個特定的聚類,而不會與其他聚類重疊。這種獨特性增強了證據的可信度,確保最終用戶相信它與特定的聚類緊密相關,從而減少了與其他不同功能的聚類混淆的可能性。
為了確定可解釋聚類方法的好壞,甚至量化其效果,必須考慮所使用的具體可解釋模型。例如,當使用決策樹模型時,通過樹的分裂,可以清晰地定義每個聚類的證據是高度獨特的,從而滿足了基本的獨特性要求。此外,可以通過檢查樹的結構參數(如葉節點的數量,即聚類的數量,和樹的平均深度)來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程,每個分支節點記錄了導致聚類的決策(分裂特征值)。使用更少的特征值可以生成更簡潔的可解釋證據,使最終用戶更容易理解和信任聚類結果。
在本節中,通過收集和總結現有的可解釋聚類方法,我們建立了以下分類標準以系統地對它們進行分類: 首先,基于廣泛認可的聚類過程,現有的可解釋聚類方法可以分為三類:聚類前方法、聚類中方法和聚類后方法。具體來說,聚類前方法通常在聚類過程之前執行,通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型,能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果,試圖通過可解釋模型來解釋黑箱模型生成的結果。
其次,大多數方法,尤其是聚類中和聚類后方法,可以根據它們使用的不同可解釋模型來區分(如圖1所示),這些模型包括以下幾類:
第三,現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果,但也有一些方法強調從復雜數據中提取可解釋特征,或研究特定聚類及其相關特征之間的關系,從而增強可解釋性。
最后,方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據(數值型、類別型或兩者的組合)、序列數據(如離散序列和時間序列)、圖像、文本以及圖數據。
圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時,它們也可以用于識別符合特定可解釋性和性能要求的方法。
在研究可解釋的聚類模型時,雖然我們的目標是實現更透明的模型,但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說,現有的可解釋聚類前方法,重點研究在聚類之前進行的工作,可以從兩個角度來探討:(1) 特征提取 和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究,但它們很少與可解釋性聯系起來,尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此,我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表,并在以下兩個小節中詳細說明。
從特征提取角度來看,可解釋的聚類前方法通常集中在復雜數據類型上,例如多變量時間序列(MTS)。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型,這些模型能夠更好地捕捉復雜數據中的顯著特征,從而增強可解釋性并促進更好的理解。 在多變量時間序列領域,文獻 [16] 提出的系統自動從信號中提取特征,涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征,作者提出了兩種方法:一種是采用主特征分析(PFA)的無監督模式,另一種是結合用戶在小樣本數據集上的注釋的半監督模式,顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇,并使用退火均方誤差正則化鼓勵稀疏性,模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類,增強了聚類的相關性和可解釋性。 基于格式塔理論,文獻 [18] 提出了一種可解釋的波段選擇算法,其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建,從高光譜圖像序列中提取三個波段形成偽彩色圖像,增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型,通過歐幾里得距離最小化三個通道與標準顏色之間的差異,實現不同波段的偽彩色映射,直觀地顯示特定光譜波段內的目標差異,符合視覺感知的原則。
另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征,以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性,同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控,以學習每個輸入樣本特定的稀疏門控向量。然后,使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋,使得模型在保持可解釋性的同時為每個實例使用更少的特征。
為了應對患者臨床事件日志聚類中的可解釋性不足問題,Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理,他們識別出與聚類結構相關的特定特征,并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。
Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征,從權重最高的特征開始,選擇它,除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性,計算特征集合的交集與并集的比率。
可解釋的聚類中方法作為可解釋聚類方法中的直接來源,將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標,與傳統的聚類標準(如k-means中的SSE)結合在一起。一些方法將可解釋性與傳統聚類標準結合起來,作為一個多目標優化問題 [22],而大多數方法則將其視為與某些結構參數相關的附加項 [23]。 有兩個典型的場景(S1和S2)可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆,具體取決于可解釋性是在何階段被考慮的: S1: 是否需要第三方算法的輸入? 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果(如使用通過樹生長派生聚類的決策樹模型),也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入,它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的,而不是通過擬合第三方算法的結果來保證近似性,則該方法更傾向于可解釋的聚類中方法。
為了更清晰地說明聚類中方法與聚類后方法之間的區別,我們可以考慮以下示例: S1 示例參考:盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量,前者代表了一種聚類后方法,而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類,并根據該聚類擬合決策樹,而文獻[23]允許參考聚類的變化,以發現更具可解釋性的聚類。因此,它們在過程中何時考慮可解釋性方面有所不同,決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征,使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的,任何后續解釋都可能被視為事后合理化,這可能使其不太可靠。理想情況下,可信的聚類結果應由可解釋模型直接產生 [14],減少對第三方聚類算法的依賴,并增強過程中的透明性和可控性。
S2: 數據集中的特征是否固有可解釋? 可解釋的聚類中方法處理各種形式的數據,并根據數據集特征的特性進行調整。對于典型的向量數據,特征通常是可解釋的 [26]:(1)對于數值特征,可以通過確定特征值是否大于或小于閾值來切分特征向量,這是決策樹聚類中常用的方法;(2)對于類別特征,值也可以基于是否包含或排除特定類別進行解釋。然而,對于缺乏顯式特征的社會和生物網絡數據 [27],可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像,其特征可能缺乏固有的可解釋性(例如,沒有清晰結構意義的像素矩陣),發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中,如描述性聚類領域 [29],重點轉向識別可解釋的標簽。總而言之,處理這些具有不可解釋特征的復雜數據時,通常需要結合深度學習技術 [30],[31]。對于類別順序數據集,每個樣本是一個長度可變的離散序列,一些常規的序列聚類方法需要將序列轉換為特征向量。然而,這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出,在構建可解釋的聚類方法之前,需要進行區分性序列模式挖掘。 某些方法將解釋性特征的搜索與聚類過程本身緊密結合,這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性,而不是對象/實例級別的可解釋性。以下是一些示例,這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起:
S2 示例參考:Kim等人 [33] 提出了一種生成方法,用于識別高維二元數據聚類中區分維度,促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中,使用基于邏輯的特征提取將維度分組為可解釋的集合,從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習,通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失,增強了聚類性能和可解釋性。
在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后,以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成,特別關注典型的可解釋模型類型。
決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點(聚類),遵循從根節點(代表整個數據集)向下經過分支節點的清晰透明路徑,最終用戶易于理解。 早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到,使用均勻分布的合成數據作為輔助數據來構建標準(監督)決策樹。這種方法旨在通過修改標準的分裂標準(如信息增益)最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂,易于理解,但依賴于數據生成引入了額外的假設,使得難以聲稱分裂是真正可解釋的。相比之下,文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準,并為每個分支節點分裂數據提出了兩種算法。然而,要選擇用于計算這些度量的候選分裂點,需要先將數值特征域劃分為區間。文獻[35]引入了CUBT,提出了一種更簡單的分裂標準和更直觀的算法框架,并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法,包括三個步驟:最大樹結構構建,隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44],其中在分支節點使用模糊分裂來增長初始樹,隨后合并相似的聚類以創建更緊湊的樹結構。 上述無監督決策樹模型采用自頂向下的方法,在當前分支節點級別考慮所有可能的候選分裂點,并計算異質性等標準,以便樹根據從父節點傳遞下來的最佳分裂貪婪地(貪婪搜索)增長。然而,這種類型的算法缺乏全局指導,意味著每次分裂都是局部優化,而不是在整個數據集上實現全局優化。 一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括,但不限于,文獻[36]中使用的混合整數線性優化(MIO)技術 [45],文獻[24]中使用的樹交替優化(TAO)技術 [46],以及文獻[23]中使用的單調優化技術(如分支減少和界限(BRB)算法)[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同,這些方法直接建立了分配到不同葉節點(聚類)的實例與可解釋性目標之間的關系,并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性,通常通過指定樹的結構度量 [15](例如葉節點的數量),文獻[23],[24]中使用的葉節點數量(nLeaf)較少,通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上,還提出了一些可解釋的模糊聚類算法。例如,文獻[48]采用核密度決策樹(KDDTs)通過交替優化策略構建模糊決策樹,而文獻[49]則在目標函數中引入了分裂的軟(概率)版本,并通過受約束的連續優化模型獲得最優分裂。
挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類,規則集通常具有兩個關鍵特征 [51]:(1)頻率(有意義),表示規則集應盡可能覆蓋其對應聚類中的樣本(真陽性);(2)區分能力(獨特),表示規則集應盡量減少覆蓋其他聚類樣本的數量(假陽性)。
為了獲得用于可解釋聚類的規則集,一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如,如文獻[37]所示,可解釋性評分用于評估某個特征值與聚類的相關性,通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集(如使用頻繁模式挖掘生成)中,這些方法旨在派生最大化可解釋性評分的聚類,同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突,現有方法通常將可解釋性評分作為用戶指定的邊界,以平衡可解釋性和聚類質量,并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準:一個類似于文獻[37],另一個則考慮規則集的獨特性,即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合,形成了多目標混合整數線性優化問題(multi-MIO)。此外,文獻[22]考慮了規則集長度(lenRule)的最大值,即組合中的特征值數量作為約束,確保通過簡潔的規則表示的聚類更加可解釋。
其他基于規則的可解釋方法可能是定制化的,其中規則的含義不僅僅基于特征值。例如,在文檔數據集[52]中,規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。
除了上述兩種廣泛使用的可解釋模型外,其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格,這些方法通常可以歸類為基于邊界或類質心的方法。然而,為了使這些代表性元素具有可解釋性,某些屬性需要保持。以下是這些方法的簡要概述。
凸多面體:這些方法將聚類邊界限制為在特征空間中軸平行(矩形),如文獻[38]中提出的方法,該方法設計了一個概率判別模型(PDM)來定義此類聚類。更普遍地,它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。
無論是哪種情況,目標都是創建具有更少特征值的聚類,并將這些作為可解釋性約束納入標準聚類目標函數中。例如,文獻[39]使用混合整數非線性優化(nonlinear-MIO)編程公式來同時識別聚類并定義多面體。對于軸平行邊界,每個維度使用一個特征值,而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力,但由于其復雜性增加,相較于簡單的軸平行邊界,其可解釋性較低。
原型(示例):在原始特征不可解釋且難以理解的數據集中,如圖像和文本,尤其是在使用深度嵌入時,最近關于通過示例進行可解釋聚類的工作發現,尋求高層次的類質心可以用于表征聚類并促進可視化。例如,文獻[40]解決了在沒有事先指定的情況下找到最少示例數量(nExemplar)的挑戰。此外,文獻[31]提出了一個新的端到端框架,旨在提高大型數據集的可擴展性,使基于示例的聚類更具現實應用的可行性。
各種可解釋模型已經為聚類中方法開發出來,還有其他潛在模型需要進一步研究(如表1所示)。這些模型始終將可解釋性視為與聚類質量同等重要的目標,并將其直接或間接地作為優化目標,具體取決于模型類型。例如,基于樹的模型通常優先減少分支或葉節點的數量,基于規則的模型則側重于簡短的規則,幾何表示模型,如基于原型的模型,旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如,文獻[25]中考慮了樹的深度作為優化目標;然而,這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。
可解釋性與聚類質量之間往往存在權衡,增強其中一個可能會削弱另一個。在聚類后方法中,這一經常討論的挑戰可能不那么嚴峻,因為這些方法只需要專注于一個方向,即擬合給定的聚類結果。相比之下,聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示,幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊,但更靈活的斜決策樹 [24]可以提高聚類性能。同樣,凸多面體方法可以通過允許對角邊界受益 [39],而不僅限于軸平行的矩形,前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。
模型后的可解釋性是可解釋學習中的一個關鍵方面,側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下,可解釋的聚類后方法指的是使用可解釋模型(如決策樹)來盡可能接近地逼近現有的聚類結果(也稱為參考聚類結果)。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中,從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。
決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中,每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點(不一定是實際的聚類數量)對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。
在基于決策樹的聚類后方法中,構建的決策樹所獲得的聚類結果與參考聚類結果越接近,其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54],即可解釋聚類的成本與最優聚類(例如k-means/medians)的成本的比率。因此,目標通常是構建一個決策樹T,使得cost(T)與最優k-means/medians的成本相比不太大。具體來說,當一個算法返回一個閾值樹T時,它具有x-近似保證,即cost(T) < x · cost(opt)。
關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹,旨在最小化每個分裂的錯誤數(即從對應參考聚類中心分離的點數),當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似,在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最優k-medians上實現了O(d log k)的近似,在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹(其中d是數據的維數),然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先(LCA)相關。Makarychev等人 [59] 采用了不同的方法,在相對隨機的情況下選擇分裂特征和值,以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k),最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中,每個分裂節點的分割選擇完全是隨機的,只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值,排序這些值,然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64],在此不作詳細闡述。
不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力,Frost等人 [65] 采用了[25]的方法,構建了一棵具有k個葉節點的樹,然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點,并證明隨著k′增加,代理成本是不增加的。這種方法降低了聚類成本,同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋(即樹的深度較小)的決策樹,同時在k-means成本函數方面仍能誘導出良好的劃分。此外,他們提出了兩個用于衡量可解釋性的結構度量:加權平均深度(WAD),該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權;加權平均解釋大小(WAES),是WAD的一個變體。受穩健性研究的啟發,Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹,以精確匹配參考聚類結果,其中可解釋性通過刪除的點數來衡量。
與決策樹不同,基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀,通過一組規則來描述聚類中的樣本。據我們所知,盡管if-then規則作為可解釋模型已經廣泛被接受,并得到了廣泛研究,但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此,針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例(即滿足解釋的聚類內樣本)的總數,同時最小化假陽性案例(即聚類外滿足解釋的個體)的總數。此外,規則的長度受到限制,以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集,然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集,研究了事件日志的解釋搜索。通過迭代過程,他們不斷提高實例解釋的準確性和簡潔性。在此基礎上,Koninck等人 [68] 從黑箱支持向量機(SVM)模型中為每個個體實例挖掘簡潔規則,并討論和評估可用于解釋技術的不同替代特征集。
除了上述的決策樹和if-then規則外,文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限,我們將不逐一回顧每個模型,而是在此提供總體總結。 原型:Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體,其與聚類內其他個體的相似性最小。在他們的方法中,他們解決了一個雙目標優化問題,以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量,同時最小化其他聚類中的假陽性案例的數量。 凸多面體:在文獻[55]中,圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題,其中變量對應于用于描述聚類的候選半空間。此外,他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數:超立方體的數量和實例的緊湊性。采用啟發式搜索方法(NSGA-II)來識別一組非支配解,定義理想點以確定最合適的解決方案,每個聚類由盡可能少的超立方體覆蓋。 描述:Davidson等人 [69] 提出了聚類描述問題,其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述,以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量,以及任何兩個描述可以共同覆蓋的聚類的最大數量。
幾種代表性的可解釋聚類后方法總結在表2中。此外,還可以注意到以下幾點:首先,大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而,決策樹生成的解釋存在一些缺點,例如深層決策依賴于淺層決策。此外,可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外,適合的數據類型可能影響選擇哪種可解釋模型;例如,描述可能更適合社區分析。因此,涉及其他可解釋模型的聚類后方法需要進一步研究。
其次,現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本,或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而,只有少數方法強調解釋的簡潔性(除[22], [25]外),其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此,平衡可解釋模型的準確性和簡潔性,以及量化可解釋性指標,仍然是一個需要進一步研究的領域。
本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討,重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題,包括聚類前、聚類中和聚類后階段。在每個階段,相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義,以及它如何嵌入常用的可解釋模型中,如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類,使人類用戶能夠理解這些元素,并可能使這些聚類結果應用于高風險領域,從而滿足透明性和可信度的基本要求。 為提供對該領域未來方向的有價值見解,我們根據不同方面對各種可解釋聚類方法進行了分類,并進一步總結了關鍵技術標準供讀者參考,例如:(1) 優化方法,說明來自不同領域的作者如何將可解釋性挑戰形式化,并使用哪些方法解決這些優化問題;(2) 與可解釋性相關的結構度量,這些度量可能被用于評估新方法的可解釋性質量,類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信,研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外,不同聚類階段的方法可以結合使用,因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下,構建可解釋的聚類算法變得困難。此外,針對復雜數據(如離散序列 [32]、網絡(圖) [70] 以及多視角和多模態數據 [71])的可解釋聚類方法的研究仍然有限。
最近,我在IndabaX Rwanda和卡內基梅隆大學(學號為18-661)的“工程師機器學習導論”課程中的學生研究講座上進行了關于多模態大語言模型(LLM)的演講。在演講中,我們詳細剖析了多模態LLM、多模態任務以及一般的多模態LLM架構。大多數多模態LLM幾乎都有非常相似的架構:視覺編碼器用于獲取圖像嵌入(如CLIP-ViT或SigLIP),連接器/投影器用于將圖像標記映射到LLM維度空間(例如:線性層/MLP/注意力層),以及用于生成的底層LLM(通常是解碼器類型的語言模型)。我們還介紹了一些代表性模型:CLIP為基礎奠定了基礎,Flamingo啟發了圖像-文本交錯和視覺語言模型中的上下文學習,LLaVA引入了視覺指令調優,在許多多模態基準測試中實現了最先進的性能。最后,我們討論了基準測試、開源模型與閉源模型的對比、當前的挑戰以及我對多模態LLM的期望清單。
時間序列數據的研究對于理解隨時間變化的趨勢和異常至關重要,使得在各個領域內能夠實現預測性洞察。另一方面,時空數據對于分析空間和時間中的現象至關重要,為復雜系統交互提供動態視角。近期,擴散模型在時間序列和時空數據挖掘中得到了廣泛應用。這些模型不僅增強了序列和時間數據的生成和推理能力,而且還擴展到其他下游任務。在本綜述中,我們全面而深入地回顧了擴散模型在時間序列和時空數據中的使用,按模型類別、任務類型、數據形態和實際應用領域進行分類。具體而言,我們將擴散模型分為無條件和有條件兩種類型,并分別討論時間序列數據和時空數據。無條件模型,即無監督運行的模型,被進一步細分為基于概率和基于分數的模型,服務于預測和生成任務,如預測、異常檢測、分類和填補。有條件模型則利用額外信息以增強性能,同樣也針對預測和生成任務進行劃分。我們的綜述廣泛涵蓋了它們在包括醫療保健、推薦系統、氣候、能源、音頻和交通等多個領域的應用,為這些模型如何分析和生成數據提供了基礎理解。通過這一結構化概覽,我們旨在為研究人員和實踐者提供關于時間序列和時空數據分析中擴散模型的全面理解,旨在通過解決傳統挑戰和探索擴散模型框架內的創新解決方案,引導未來的創新和應用。 //www.zhuanzhi.ai/paper/38a12a5bf6945d011c3aa4827f0df55a
擴散模型代表了一類概率生成模型,這些模型通過一個包括在一組訓練樣本中注入噪聲及其后續移除的兩步過程進行優化。這個過程包括一個前向階段,稱為擴散,以及一個反向階段,稱為去噪。通過訓練模型去除在擴散過程中加入的噪聲,模型在推斷過程中學會生成與訓練數據分布緊密對齊的有效數據樣本。 近年來,擴散模型在各個領域中獲得了顯著的關注并產生了重大影響,包括計算機視覺(CV)、自然語言處理(NLP)和一般的多模態學習。這挑戰了生成對抗網絡(GANs)長期的主導地位。在這些領域中,擴散模型在如文本到圖像轉換、實例分割、3D形狀生成、分子設計和音頻生成等應用中展示了卓越的能力。值得注意的是,擴散模型也作為一種非自回歸的替代方案,開始在傳統由自回歸方法主導的任務中獲得人氣。最近,OpenAI Sora的推出標志著擴散模型在模擬嵌入時空連續體的物理世界中的新進展,突顯了它們的關鍵重要性。
時間數據主要包括時間序列和時空數據,封裝了絕大多數現實世界系統的動態。這些時間數據形式已被廣泛研究,并被認為對眾多應用至關重要。然而,從各種數據形態中導出物理世界的普適動態法則仍然是該領域內的一個重大挑戰。最近,時間序列和時空建模領域經歷了從感知智能向通用智能的顯著轉變。這一轉變由具有廣泛時間數據分析能力的統一基礎模型(FMs)的出現所特征化,挑戰了特定領域模型的優勢。擴散模型在許多模態上實現了最先進的成果,包括圖像、語音和視頻。由于這些領域中廣泛且多樣的可用數據,擴散模型常作為生成型基礎模型與大型語言模型(LLMs)或其他基礎模型一同促進了這些領域的快速發展。 近年來,也出現了越來越多專為模擬時間序列和時空數據而設計的擴散模型。同時,我們也注意到越來越多的嘗試使用擴散模型進行時間建模。觀察擴散模型的成功,引發了一個引人入勝的問題:時間序列/時空數據分析與擴散模型的交叉會擦出什么樣的火花?
時間序列和時空數據分析基本上依賴于對它們固有的時間動態的深刻理解,其主要任務主要集中在骨干模型的生成能力上,例如預測、填補和生成。這些分析聚焦于為特定目的生成時間數據樣本,無論是有條件的還是無條件的。目睹了時間序列和時空基礎模型的最近發展,無論是基于LLMs構建還是從零開始訓練,它們的成功可以歸功于估計訓練樣本分布的能力,從中可以提取有效的數據表示。在這方面,擴散模型作為一個強大的生成框架出現,使得(1)模擬時間數據中的復雜模式成為可能,以及(2)支持廣泛的下游任務。為特定任務生成有效的數據樣本時,時間序列和時空擴散模型通常以無條件方式操作,無需監督信號。鑒于實際應用的部分觀察性質,有條件的擴散模型已經出現。它們利用數據標簽(例如指令、元數據或外來變量)來調控生成過程,從而使得有效的跨模態提示成為可能,導致更定制化和改進的結果。
我們在圖3中提出了一個發展路線圖。通過在大規模時間數據上訓練,擴散模型有效地填補了時間序列/時空數據生成的空白,并展示了在解決下一代以LLM為中心的時間數據代理的難題中的重大潛力。
盡管擴散模型在處理時間序列和時空數據方面展示了充滿希望的前景和迅速的進步,現有文獻中對這一模型家族的系統分析卻明顯不足。本文旨在通過提供一份前瞻性的綜述來彌補這一差距,闡明擴散模型適用于這些數據形態的原因(“為什么”)以及它們如何提供優勢的機制(“如何”)。在這份綜述中,我們提供了細的分類,進行了徹底的評審,并識別了這一迅速發展領域內的新興趨勢。我們的主要貢獻總結如下:
全面且最新的綜述。我們呈現了一個全面、最新且前瞻性的擴散模型在時間序列和時空數據應用的綜述。我們的調查強調了擴散模型適用于這些數據形態的適宜性,并討論了它們提供的益處。通過覆蓋領域的廣泛譜系和各個方法的細節,我們為讀者提供了對這一主題領域的深入洞見。
統一和結構化的分類。我們引入了一個清晰且有組織的框架,用于將現有文獻分類為兩種主要類型:無條件和有條件的擴散模型,重點關注時間序列和時空數據,這些數據涵蓋了預測性和生成性任務。這種分類為讀者提供了從多個角度對該主題的連貫路線圖。
洞察新興進展。我們討論了無條件和有條件擴散模型中的前沿技術,關注時間序列和時空數據。我們的覆蓋范圍包括最新技術和新興趨勢,如多模態有條件生成。
挑戰和未來方向的總結。我們確定了當前研究環境中面臨的關鍵挑戰,并突出了幾個未來探索的有希望方向。
本文的其余部分結構如下:第2節提供了關于擴散模型的全面背景,詳細介紹了它們的發展、理論基礎和各種實現。第3節呈現了對時間序列和時空數據應用擴散模型的結構化概覽和分類,為在第4節中更深入探討模型視角奠定了基礎,該節將討論標準和先進的擴散模型。第5節關注于任務視角,檢查擴散模型如何處理預測、生成、填補、異常檢測等任務。第6節討論數據視角,強調針對時間序列和時空數據的特定挑戰和解決方案。第7節探索擴散模型在各種領域的應用,如醫療、交通和能源,展示了它們的廣泛實用性。最后,第8節以對未來機會的展望和總結性評論結束本文。
本節提供了針對時間序列和時空數據分析挑戰的擴散模型的概述和分類。我們的調查沿四個主要維度組織討論:擴散模型的類別、任務類型、數據形態和實際應用。圖7中展示了相關工作的全面總結。現有文獻被分類為兩個主要組別:無條件和有條件的擴散模型,重點關注時間序列和時空數據。
在無條件類別中,擴散模型以無監督方式操作,生成數據樣本無需監督信號。這一設置代表了分析時間序列和時空數據的基礎方法。在此類別中,文獻可以進一步分為基于概率的和基于評分的擴散模型。例如,去噪擴散概率模型(DDPMs)[2]和基于評分的隨機微分方程(Score SDEs)[4],[6],如第2節所介紹。這一類別的研究廣泛地組織為兩個任務組:預測任務和生成任務。預測任務通常涉及預測和異常檢測,利用歷史數據和模式來預測當前和/或未來事件。相反,生成任務則專注于識別大型數據集中的模式以生成新內容,如時間序列的插值和增強。這些方法被開發用于兩種主要數據形態:時間序列和時空數據,以滿足包括醫療保健、能源、氣候、交通等多個領域的廣泛應用。
在有條件類別中,擴散模型被定制用于時間序列和時空數據的條件分析。實證研究表明,使用數據標簽的條件生成模型比它們的無條件對應物更易于訓練且性能更優[75]。在這一上下文中,標簽(也稱為條件)通常來自各種來源,例如提取的短期趨勢[34]和城市流量圖[35],以增強模型推斷。這一類別采用基于概率和基于評分的擴散模型來應對預測和生成任務,提供了在特定約束下利用擴散模型應對時間序列和時空數據分析實際挑戰的新視角。
在對模型類別、任務類型、數據形態和應用領域的基礎理解的基礎上,我們更深入地探索了時間序列和時空數據分析中的擴散模型。每個部分都旨在解開擴散模型應用中固有的復雜性和細微差別,從多個視角提供全面概述。在第4節中,我們探討擴散模型的景觀,突出無條件和有條件方法之間的區別及其含義。第5節從預測和生成的視角分析任務,詳細說明了預測、生成、異常檢測和數據插值等具體功能。第6節檢查數據形態,區分時間序列和時空數據,概述模型挑戰和適用性。最后,第7節將討論擴展到應用領域,展示擴散模型在醫療、交通、序列推薦、氣候、能源和音頻等領域的廣泛實用性。這種結構化的探索旨在裝備讀者深入理解擴散模型處理復雜時間序列和時空數據挑戰的潛力和當前狀態。