摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。
最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:
本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。
摘要—神經場(Neural Fields)已成為計算機視覺和機器人領域中用于3D場景表示的變革性方法,能夠從帶姿態的2D數據中精準推理幾何、3D語義和動態信息。通過可微分渲染(differentiable rendering),神經場包括連續隱式和顯式神經表示,實現高保真3D重建、多模態傳感器數據的整合,以及新視角的生成。本綜述探討了神經場在機器人領域的應用,強調其在提升感知、規劃和控制方面的潛力。神經場的緊湊性、內存效率和可微性,加之與基礎模型和生成模型的無縫集成,使其非常適合實時應用,有助于提升機器人的適應性和決策能力。本文對機器人中的神經場進行了全面回顧,涵蓋200多篇論文中的應用,并對其優缺點進行評估。首先,我們介紹了四種關鍵的神經場框架:占用網絡(Occupancy Networks)、符號距離場(Signed Distance Fields)、神經輻射場(Neural Radiance Fields)和高斯分布(Gaussian Splatting)。其次,我們詳細描述了神經場在機器人五大主要領域中的應用:姿態估計、操控、導航、物理仿真和自動駕駛,重點介紹了關鍵工作并討論了主要發現與開放挑戰。最后,我們總結了神經場在機器人應用中的當前局限性,并提出了未來研究的有前景方向。項目頁面:robonerf.github.io 關鍵詞—神經輻射場(Neural Radiance Field, NeRF)、神經場(Neural Fields)、符號距離場(Signed Distance Fields)、3D高斯分布(3D Gaussian Splatting)、占用網絡(Occupancy Networks)、計算機視覺、新視角合成(Novel View Synthesis)、神經渲染(Neural Rendering)、體渲染(Volume Rendering)、姿態估計、機器人、操控、導航、自動駕駛。
I. 引言
機器人依賴對環境的精確且緊湊的表示來執行廣泛的任務,從穿越繁忙的倉庫到整理雜亂的家庭環境,甚至參與高風險的搜救任務。在典型的機器人系統中,感知與行動之間的協同作用是其核心。感知系統通過RGB相機、LiDAR和深度傳感器等設備采集感官數據,并將其轉化為一致的環境模型——例如,使機器人能夠在動態且障礙密集的空間中導航的3D地圖。這種表示的質量直接影響機器人的決策或策略,從而將所感知的環境轉化為行動,使其能夠避開移動的叉車、拾取散落的物體或在緊急情況下規劃安全路徑。 傳統上,機器人使用點云 [13–15]、體素網格 [16]、網格 [17–19]和截斷符號距離函數(TSDF)[20]等數據結構來建模環境。盡管這些表示提升了機器人能力,但它們在捕捉復雜或動態環境中的精細幾何細節方面仍存在局限,導致在適應性場景中的性能不佳。
為了克服這些限制,神經場(Neural Fields, NFs)[21]作為一種有前途的替代方案出現,它提供了從空間坐標到物理量(如顏色或符號距離)的連續、可微映射。與傳統的數據結構不同,神經場可以將3D環境建模為由神經網絡或高斯分布參數化的連續函數,從而更加高效地表示復雜的幾何結構和精細細節 [22, 23]。神經場可以使用基于梯度的方法與各種真實世界的傳感器數據(包括圖像和深度圖)進行優化,從而生成高質量的3D重建。
在機器人領域,神經場相比傳統方法具有幾大優勢:
生成式AI的最新進展 [39]通過將合成數據作為監督信號進一步擴展了神經場的能力,從而減少了對真實世界觀測數據的依賴。這一范式轉變使得神經場可以在現實數據采集不可行或成本高昂的情況下進行優化。重要的是,它將神經場定位為生成式AI與機器人之間的關鍵橋梁。盡管2D數據生成先驗具有強大的功能,但通常缺乏進行有效機器人決策所需的空間一致性。神經場將這些先驗與稀疏的真實世界數據 [33]結合,能夠在物理環境約束(如有限的傳感器配置和遮擋)下建模傳感與運動空間。 鑒于這些優勢,神經場在機器人領域的應用正迅速發展。圖1和圖2概述了神經場在機器人的應用,并展示了與神經場相關的機器人研究出版物的增長趨勢。本文旨在梳理和分析其對該領域的影響。
本文的結構如下:第II節介紹了神經場的基本公式,而第III節則從以下主題中概述其在不同領域中的優勢:
我們在第IV節通過探討若干研究方向和挑戰進行總結。據我們所知,本綜述是首批對機器人領域的神經場進行全面考察的研究之一。我們在最接近的并行綜述 [40] 的基礎上補充了對NeRF、3DGS、占用網絡、符號距離場等多個領域的全面涵蓋。通過結合多個維度的見解,本綜述旨在提供對神經場在機器人應用中當前狀態的整體理解,突顯近期成就、未來挑戰及未探索的研究領域。
摘要——圖上的分布偏移,即訓練和使用圖機器學習模型時數據分布之間的差異,在現實場景中普遍存在且常常不可避免。這些分布偏移可能會嚴重削弱模型性能,給可靠的圖機器學習帶來重大挑戰。因此,針對分布偏移下的圖機器學習研究激增,旨在訓練模型在分布外(OOD)測試數據上實現令人滿意的表現。在本綜述中,我們提供了關于分布偏移下深度圖學習的最新且具有前瞻性的回顧。具體而言,我們涵蓋了三個主要場景:圖的OOD泛化、訓練階段的圖OOD自適應,以及測試階段的圖OOD自適應。我們首先對問題進行正式表述,并討論可能影響圖學習的各種分布偏移類型,如協變量偏移和概念偏移。為便于理解相關文獻,我們基于提出的分類法系統地對現有模型進行分類,并研究其背后的技術方法。此外,我們還總結了該研究領域中常用的數據集,以便于進一步探索。最后,我們指出了一些有前景的研究方向及其相應的挑戰,以推動這一重要領域的進一步研究。此外,我們在 //github.com/kaize0409/Awesome-Graph-OOD 上提供了持續更新的閱讀列表。
關鍵詞——圖學習,分布偏移,圖的分布外泛化,圖的分布外自適應。
1 引言
受圖結構數據在眾多實際場景中普遍存在的驅動,圖機器學習逐漸獲得了越來越多的關注,因為它能夠有效地捕獲圖中實體之間的關系與依賴性。尤其是圖神經網絡(Graph Neural Networks, GNNs)通過消息傳遞機制[1], [2], [3],在圖上進行表示學習,已在社交網絡、物理問題和交通網絡等多個應用領域展現了顯著成效[4], [5], [6]。
盡管圖機器學習取得了顯著的成功,但大多數現有方法假設測試數據的分布與訓練數據相同,而這種假設在真實環境中往往不成立。當面對分布外(Out-of-Distribution, OOD)樣本時,圖機器學習方法的性能可能大幅下降,限制了其在金融和醫療等高風險圖應用中的有效性[7]。盡管已有眾多遷移學習方法被提出以應對歐幾里得數據的分布偏移[8], [9], [10],但直接將這些方法應用于圖數據存在挑戰。這是由于圖中的實體是相互關聯的,違背了傳統遷移學習方法中獨立同分布(IID)假設。此外,各類圖分布偏移帶來了新的挑戰。這些偏移存在于特征、結構和標簽等不同模態中,表現形式多種多樣,包括圖大小、子圖密度和同質性等的變化[11]。鑒于這些障礙,越來越多的研究致力于提高圖機器學習在分布偏移下的可靠性,主要集中在三個場景:圖的OOD泛化[7], [11]、訓練階段的圖OOD自適應[12], [13],以及測試階段的圖OOD自適應[14], [15]。
圖的OOD泛化與自適應方法的主要區別在于對目標數據可用性的假設。圖的OOD泛化方法通常假設在模型訓練過程中目標數據不可用,旨在提升模型對任何潛在未見測試分布的泛化能力。相反,訓練階段和測試階段的自適應方法則假設目標數據可用,目標是提高模型在該特定目標上的表現。然而,兩者在對源數據的假設和如何利用源分布知識方面有所不同。訓練階段的自適應假設源圖和目標圖同時可用,使得模型可以從頭開始在訓練過程中進行適應;而測試階段的自適應通常假設訪問的是預先在源圖上訓練好的模型,而非源圖本身,然后從該預訓練狀態開始適應目標數據。盡管圖的OOD泛化、訓練階段的OOD自適應和測試階段的OOD自適應密切相關,但目前尚無統一的框架能夠全面探討這三個場景下的深度圖學習在分布偏移下的表現。 隨著圖OOD學習領域的最新進展,對該領域的最新且具有前瞻性的回顧顯得尤為必要。在本綜述中,我們提供了據我們所知的第一個關于分布偏移下深度圖學習的統一、系統性的文獻回顧。我們首先對問題進行正式表述,討論圖機器學習中不同類型的圖分布偏移。接著,我們提出了新的分類法,將現有方法根據模型學習場景分為三類:(1) 圖的OOD泛化,通過對源數據訓練時的模型設計提升泛化能力;(2) 訓練階段的圖OOD自適應,通過基于源數據和目標數據的聯合訓練實現適應[16], [17];(3) 測試階段的圖OOD自適應,通過將預訓練源模型調整至目標數據進行適應[18], [19]。
為了加深對這些方法的理解,我們進一步將每類中的現有方法分為模型中心和數據中心策略。模型中心的方法關注于學習過程或圖模型架構本身,通過優化模型結構、訓練目標或學習機制來增強模型在分布偏移下的泛化或適應能力。相比之下,數據中心的方法強調對輸入圖的處理,通過預處理技術或數據增強策略直接提升模型性能。在每個研究子方向中,我們詳細介紹了在圖分布偏移下提升泛化性或適應性的技術。此外,我們總結了該研究領域使用的數據集,著重介紹了它們的特征以及與分布偏移挑戰的相關性。基于圖OOD學習的當前進展,本文最后指出了該領域中一些有前景的研究方向及相應的挑戰。
與現有綜述的差異
盡管圖學習在分布偏移下急需概覽,但現有綜述主要聚焦于該領域內的某些子領域,而未能從多場景的角度提供全面的概述。目前已有一些相關領域的綜述,但其關注點各不相同,包括圖的OOD泛化[7], [20]、圖域適應[21], [22]、分布偏移相關的可信圖學習[23]。本綜述的不同之處體現在以下方面:(1) 主要關注點。我們的綜述重點是分布偏移下圖學習的挑戰和解決方案,而[23]從可信性的角度分析了OOD問題,但未深入探討方法學層面。相反,[20]從因果視角審視圖機器學習,范圍較我們廣泛探討的角度更為狹窄。(2) 分類法。我們提供了現有方法的全面分類并對其進行了總結,而相關工作如[24]則缺少類似總結。其他綜述如[21]和[22]主要聚焦于域適應,未涉及更廣泛的圖OOD學習。此外,我們還涵蓋了該領域最新進展及討論。
綜述結構
本綜述的總體結構如下:第2節介紹符號和預備知識。第3、4和5節分別回顧圖的OOD泛化、訓練階段的圖OOD自適應以及測試階段的圖OOD自適應。每節在相應場景下討論模型中心和數據中心方法,并詳細介紹每類方法的相關技術。此外,第6節對文獻中使用的數據集進行了全面總結,重點介紹了常用的圖數據集及其與分布偏移挑戰的相關性。第7節探討了該領域中有前景的未來研究方向及相關挑戰。最后,第8節總結了本綜述的內容。
正如問題定義所示,圖的OOD泛化、訓練階段圖的OOD自適應和測試階段圖的OOD自適應在模型學習場景上存在顯著差異。具體而言,圖的OOD泛化方法假設目標數據不可訪問,僅使用源數據;訓練階段圖的OOD自適應方法同時涉及源數據和目標數據,并從零開始訓練模型,而測試階段圖的OOD自適應方法則假設源數據不可用,旨在將預訓練的源模型適應至目標數據。因此,在接下來的三部分中,我們首先將現有方法分類為圖的OOD泛化、訓練階段的圖OOD自適應和測試階段的圖OOD自適應。在每一部分中,我們進一步將方法細分為模型中心方法和數據中心方法。模型中心方法聚焦于學習過程或圖模型的設計,而數據中心方法則側重于對輸入圖的處理,例如變換圖結構或特征。我們的分類體系如圖2所示。
摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。
關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習
1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:
多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:
在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。
基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:
架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。
固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。
動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。
重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。
直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。
偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。
基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。
本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。
這一部分總結了兩個專門為MMCL構建的數據集:
除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:
隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。
當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:
MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:
MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:
在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:
隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:
結論
以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。
摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。
I. 引言
圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。
近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。
隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。
已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。
相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。
本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。
摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構
深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。
為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。
在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。
在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸:
SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。
SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。
SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。
Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。
數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。
總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:
我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。
我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。
我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。
我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。
Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。
初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。
樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。
標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。
采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。
通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。
如圖2頂部所示,Mixup方法遵循以下步驟:
在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。
摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。
引言
自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。
最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。
研究范圍概述
本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。
摘要—近年來,聚類算法的研究主要集中在提高其準確性和效率,往往以犧牲可解釋性為代價。然而,隨著這些方法越來越多地應用于高風險領域,如醫療保健、金融和自動化系統,透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任,還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求,本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述,并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策,同時也促進了既高效又透明的聚類算法的發展和采用。
關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能(XAI) 導論
聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務,旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系,從而促進各種應用和進一步的分析。 幾十年來,已經提出了許多算法來解決不同應用中的聚類問題,并取得了很高的準確性。然而,在大多數情況下,聚類模型作為一個“黑箱”存在,導致了常見的問題,例如:聚類結果是如何形成的?人們能否理解聚類結果形成的邏輯?模型是否可信?模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用,本論文將全程使用“可解釋性”一詞。
至今,可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如,在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”,在文獻 [5] 中定義為“人類能夠理解決策原因的程度”,而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。
然而,模型的可解釋性可能因用戶的實際需求而異,并且可以在不同維度上表現出來。在某些疾病研究中,醫生通常更關心識別患者特征,這些特征表明患病的可能性較高,以及這些特征是否能有助于早期診斷。相比之下,數據科學家則關注設計可解釋的模型,為患者提供有說服力的解釋,并有效闡明每個患者被歸類為特定疾病類型的原因,從而幫助理解各種特征對結果的影響。因此,盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性,但仍然有必要對這些方法進行系統的總結和區分。
據我們所知,已經有一些綜述文章總結了與可解釋性相關的方法。然而,這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11],要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白,我們全面收集了現有的可解釋聚類方法,并提出了一套分類標準,以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外,我們將聚類過程劃分為三個階段,并根據不同階段的可解釋性對所有可解釋聚類方法進行分類,構建了本綜述的總體框架:(1)特征選擇階段(聚類前),(2)模型構建階段(聚類中),和(3)模型解釋階段(聚類后)。我們相信,本綜述將為讀者提供對可解釋聚類的新理解,并為該領域未來的研究奠定基礎。
本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性,回顧了可解釋的聚類前、聚類中和聚類后方法。最后,第7節總結了本文,并討論了未來的研究方向。
隨著人工智能和機器學習算法的進步并在各種任務中表現出色,它們正被應用于多個領域。然而,它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]:開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說,理解和信任算法如何得出結果至關重要。例如,開發者需要理解算法如何產生有意義的結果,并認識到其局限性,從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識,并且是否有充分的依據。監管者需要考慮算法結果的影響,例如公平性、潛在的歧視,以及風險和責任所在。這要求整個算法過程具備透明性和可信度。
為應對這些挑戰,可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的,聚類方法旨在通過生成模式作為數據的初步理解。在這一階段,聚類的可解釋性以及算法機制的透明性需求變得愈發重要。
傳統的聚類算法通常注重提供聚類結果,將準確性和效率作為首要任務,尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”,尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值,并將它們積極地納入聚類結果的生成中。然而,“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明,使得最終用戶更難理解。
相比之下,可解釋的聚類方法明確旨在解釋聚類結果,使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果,使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值(如年齡、收入)來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果,并評估從中得出的結論是否可信。
好的可解釋聚類方法應提供明確的證據,解釋聚類結果是如何得出的,為最終用戶提供理解算法行為及其背后邏輯的機會。然而,最終用戶是否選擇信任這些證據,可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家,我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。
首先,可解釋證據的形式應盡可能簡單。例如,用于生成某一聚類的特征值的數量應盡量減少,這可以大大降低最終用戶理解結果的復雜性。其次,每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說,理想情況下,同樣的可解釋證據應僅對應一個特定的聚類,而不會與其他聚類重疊。這種獨特性增強了證據的可信度,確保最終用戶相信它與特定的聚類緊密相關,從而減少了與其他不同功能的聚類混淆的可能性。
為了確定可解釋聚類方法的好壞,甚至量化其效果,必須考慮所使用的具體可解釋模型。例如,當使用決策樹模型時,通過樹的分裂,可以清晰地定義每個聚類的證據是高度獨特的,從而滿足了基本的獨特性要求。此外,可以通過檢查樹的結構參數(如葉節點的數量,即聚類的數量,和樹的平均深度)來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程,每個分支節點記錄了導致聚類的決策(分裂特征值)。使用更少的特征值可以生成更簡潔的可解釋證據,使最終用戶更容易理解和信任聚類結果。
在本節中,通過收集和總結現有的可解釋聚類方法,我們建立了以下分類標準以系統地對它們進行分類: 首先,基于廣泛認可的聚類過程,現有的可解釋聚類方法可以分為三類:聚類前方法、聚類中方法和聚類后方法。具體來說,聚類前方法通常在聚類過程之前執行,通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型,能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果,試圖通過可解釋模型來解釋黑箱模型生成的結果。
其次,大多數方法,尤其是聚類中和聚類后方法,可以根據它們使用的不同可解釋模型來區分(如圖1所示),這些模型包括以下幾類:
第三,現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果,但也有一些方法強調從復雜數據中提取可解釋特征,或研究特定聚類及其相關特征之間的關系,從而增強可解釋性。
最后,方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據(數值型、類別型或兩者的組合)、序列數據(如離散序列和時間序列)、圖像、文本以及圖數據。
圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時,它們也可以用于識別符合特定可解釋性和性能要求的方法。
在研究可解釋的聚類模型時,雖然我們的目標是實現更透明的模型,但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說,現有的可解釋聚類前方法,重點研究在聚類之前進行的工作,可以從兩個角度來探討:(1) 特征提取 和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究,但它們很少與可解釋性聯系起來,尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此,我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表,并在以下兩個小節中詳細說明。
從特征提取角度來看,可解釋的聚類前方法通常集中在復雜數據類型上,例如多變量時間序列(MTS)。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型,這些模型能夠更好地捕捉復雜數據中的顯著特征,從而增強可解釋性并促進更好的理解。 在多變量時間序列領域,文獻 [16] 提出的系統自動從信號中提取特征,涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征,作者提出了兩種方法:一種是采用主特征分析(PFA)的無監督模式,另一種是結合用戶在小樣本數據集上的注釋的半監督模式,顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇,并使用退火均方誤差正則化鼓勵稀疏性,模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類,增強了聚類的相關性和可解釋性。 基于格式塔理論,文獻 [18] 提出了一種可解釋的波段選擇算法,其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建,從高光譜圖像序列中提取三個波段形成偽彩色圖像,增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型,通過歐幾里得距離最小化三個通道與標準顏色之間的差異,實現不同波段的偽彩色映射,直觀地顯示特定光譜波段內的目標差異,符合視覺感知的原則。
另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征,以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性,同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控,以學習每個輸入樣本特定的稀疏門控向量。然后,使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋,使得模型在保持可解釋性的同時為每個實例使用更少的特征。
為了應對患者臨床事件日志聚類中的可解釋性不足問題,Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理,他們識別出與聚類結構相關的特定特征,并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。
Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征,從權重最高的特征開始,選擇它,除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性,計算特征集合的交集與并集的比率。
可解釋的聚類中方法作為可解釋聚類方法中的直接來源,將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標,與傳統的聚類標準(如k-means中的SSE)結合在一起。一些方法將可解釋性與傳統聚類標準結合起來,作為一個多目標優化問題 [22],而大多數方法則將其視為與某些結構參數相關的附加項 [23]。 有兩個典型的場景(S1和S2)可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆,具體取決于可解釋性是在何階段被考慮的: S1: 是否需要第三方算法的輸入? 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果(如使用通過樹生長派生聚類的決策樹模型),也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入,它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的,而不是通過擬合第三方算法的結果來保證近似性,則該方法更傾向于可解釋的聚類中方法。
為了更清晰地說明聚類中方法與聚類后方法之間的區別,我們可以考慮以下示例: S1 示例參考:盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量,前者代表了一種聚類后方法,而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類,并根據該聚類擬合決策樹,而文獻[23]允許參考聚類的變化,以發現更具可解釋性的聚類。因此,它們在過程中何時考慮可解釋性方面有所不同,決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征,使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的,任何后續解釋都可能被視為事后合理化,這可能使其不太可靠。理想情況下,可信的聚類結果應由可解釋模型直接產生 [14],減少對第三方聚類算法的依賴,并增強過程中的透明性和可控性。
S2: 數據集中的特征是否固有可解釋? 可解釋的聚類中方法處理各種形式的數據,并根據數據集特征的特性進行調整。對于典型的向量數據,特征通常是可解釋的 [26]:(1)對于數值特征,可以通過確定特征值是否大于或小于閾值來切分特征向量,這是決策樹聚類中常用的方法;(2)對于類別特征,值也可以基于是否包含或排除特定類別進行解釋。然而,對于缺乏顯式特征的社會和生物網絡數據 [27],可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像,其特征可能缺乏固有的可解釋性(例如,沒有清晰結構意義的像素矩陣),發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中,如描述性聚類領域 [29],重點轉向識別可解釋的標簽。總而言之,處理這些具有不可解釋特征的復雜數據時,通常需要結合深度學習技術 [30],[31]。對于類別順序數據集,每個樣本是一個長度可變的離散序列,一些常規的序列聚類方法需要將序列轉換為特征向量。然而,這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出,在構建可解釋的聚類方法之前,需要進行區分性序列模式挖掘。 某些方法將解釋性特征的搜索與聚類過程本身緊密結合,這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性,而不是對象/實例級別的可解釋性。以下是一些示例,這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起:
S2 示例參考:Kim等人 [33] 提出了一種生成方法,用于識別高維二元數據聚類中區分維度,促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中,使用基于邏輯的特征提取將維度分組為可解釋的集合,從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習,通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失,增強了聚類性能和可解釋性。
在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后,以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成,特別關注典型的可解釋模型類型。
決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點(聚類),遵循從根節點(代表整個數據集)向下經過分支節點的清晰透明路徑,最終用戶易于理解。 早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到,使用均勻分布的合成數據作為輔助數據來構建標準(監督)決策樹。這種方法旨在通過修改標準的分裂標準(如信息增益)最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂,易于理解,但依賴于數據生成引入了額外的假設,使得難以聲稱分裂是真正可解釋的。相比之下,文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準,并為每個分支節點分裂數據提出了兩種算法。然而,要選擇用于計算這些度量的候選分裂點,需要先將數值特征域劃分為區間。文獻[35]引入了CUBT,提出了一種更簡單的分裂標準和更直觀的算法框架,并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法,包括三個步驟:最大樹結構構建,隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44],其中在分支節點使用模糊分裂來增長初始樹,隨后合并相似的聚類以創建更緊湊的樹結構。 上述無監督決策樹模型采用自頂向下的方法,在當前分支節點級別考慮所有可能的候選分裂點,并計算異質性等標準,以便樹根據從父節點傳遞下來的最佳分裂貪婪地(貪婪搜索)增長。然而,這種類型的算法缺乏全局指導,意味著每次分裂都是局部優化,而不是在整個數據集上實現全局優化。 一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括,但不限于,文獻[36]中使用的混合整數線性優化(MIO)技術 [45],文獻[24]中使用的樹交替優化(TAO)技術 [46],以及文獻[23]中使用的單調優化技術(如分支減少和界限(BRB)算法)[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同,這些方法直接建立了分配到不同葉節點(聚類)的實例與可解釋性目標之間的關系,并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性,通常通過指定樹的結構度量 [15](例如葉節點的數量),文獻[23],[24]中使用的葉節點數量(nLeaf)較少,通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上,還提出了一些可解釋的模糊聚類算法。例如,文獻[48]采用核密度決策樹(KDDTs)通過交替優化策略構建模糊決策樹,而文獻[49]則在目標函數中引入了分裂的軟(概率)版本,并通過受約束的連續優化模型獲得最優分裂。
挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類,規則集通常具有兩個關鍵特征 [51]:(1)頻率(有意義),表示規則集應盡可能覆蓋其對應聚類中的樣本(真陽性);(2)區分能力(獨特),表示規則集應盡量減少覆蓋其他聚類樣本的數量(假陽性)。
為了獲得用于可解釋聚類的規則集,一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如,如文獻[37]所示,可解釋性評分用于評估某個特征值與聚類的相關性,通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集(如使用頻繁模式挖掘生成)中,這些方法旨在派生最大化可解釋性評分的聚類,同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突,現有方法通常將可解釋性評分作為用戶指定的邊界,以平衡可解釋性和聚類質量,并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準:一個類似于文獻[37],另一個則考慮規則集的獨特性,即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合,形成了多目標混合整數線性優化問題(multi-MIO)。此外,文獻[22]考慮了規則集長度(lenRule)的最大值,即組合中的特征值數量作為約束,確保通過簡潔的規則表示的聚類更加可解釋。
其他基于規則的可解釋方法可能是定制化的,其中規則的含義不僅僅基于特征值。例如,在文檔數據集[52]中,規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。
除了上述兩種廣泛使用的可解釋模型外,其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格,這些方法通常可以歸類為基于邊界或類質心的方法。然而,為了使這些代表性元素具有可解釋性,某些屬性需要保持。以下是這些方法的簡要概述。
凸多面體:這些方法將聚類邊界限制為在特征空間中軸平行(矩形),如文獻[38]中提出的方法,該方法設計了一個概率判別模型(PDM)來定義此類聚類。更普遍地,它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。
無論是哪種情況,目標都是創建具有更少特征值的聚類,并將這些作為可解釋性約束納入標準聚類目標函數中。例如,文獻[39]使用混合整數非線性優化(nonlinear-MIO)編程公式來同時識別聚類并定義多面體。對于軸平行邊界,每個維度使用一個特征值,而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力,但由于其復雜性增加,相較于簡單的軸平行邊界,其可解釋性較低。
原型(示例):在原始特征不可解釋且難以理解的數據集中,如圖像和文本,尤其是在使用深度嵌入時,最近關于通過示例進行可解釋聚類的工作發現,尋求高層次的類質心可以用于表征聚類并促進可視化。例如,文獻[40]解決了在沒有事先指定的情況下找到最少示例數量(nExemplar)的挑戰。此外,文獻[31]提出了一個新的端到端框架,旨在提高大型數據集的可擴展性,使基于示例的聚類更具現實應用的可行性。
各種可解釋模型已經為聚類中方法開發出來,還有其他潛在模型需要進一步研究(如表1所示)。這些模型始終將可解釋性視為與聚類質量同等重要的目標,并將其直接或間接地作為優化目標,具體取決于模型類型。例如,基于樹的模型通常優先減少分支或葉節點的數量,基于規則的模型則側重于簡短的規則,幾何表示模型,如基于原型的模型,旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如,文獻[25]中考慮了樹的深度作為優化目標;然而,這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。
可解釋性與聚類質量之間往往存在權衡,增強其中一個可能會削弱另一個。在聚類后方法中,這一經常討論的挑戰可能不那么嚴峻,因為這些方法只需要專注于一個方向,即擬合給定的聚類結果。相比之下,聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示,幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊,但更靈活的斜決策樹 [24]可以提高聚類性能。同樣,凸多面體方法可以通過允許對角邊界受益 [39],而不僅限于軸平行的矩形,前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。
模型后的可解釋性是可解釋學習中的一個關鍵方面,側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下,可解釋的聚類后方法指的是使用可解釋模型(如決策樹)來盡可能接近地逼近現有的聚類結果(也稱為參考聚類結果)。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中,從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。
決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中,每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點(不一定是實際的聚類數量)對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。
在基于決策樹的聚類后方法中,構建的決策樹所獲得的聚類結果與參考聚類結果越接近,其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54],即可解釋聚類的成本與最優聚類(例如k-means/medians)的成本的比率。因此,目標通常是構建一個決策樹T,使得cost(T)與最優k-means/medians的成本相比不太大。具體來說,當一個算法返回一個閾值樹T時,它具有x-近似保證,即cost(T) < x · cost(opt)。
關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹,旨在最小化每個分裂的錯誤數(即從對應參考聚類中心分離的點數),當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似,在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最優k-medians上實現了O(d log k)的近似,在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹(其中d是數據的維數),然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先(LCA)相關。Makarychev等人 [59] 采用了不同的方法,在相對隨機的情況下選擇分裂特征和值,以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k),最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中,每個分裂節點的分割選擇完全是隨機的,只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值,排序這些值,然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64],在此不作詳細闡述。
不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力,Frost等人 [65] 采用了[25]的方法,構建了一棵具有k個葉節點的樹,然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點,并證明隨著k′增加,代理成本是不增加的。這種方法降低了聚類成本,同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋(即樹的深度較小)的決策樹,同時在k-means成本函數方面仍能誘導出良好的劃分。此外,他們提出了兩個用于衡量可解釋性的結構度量:加權平均深度(WAD),該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權;加權平均解釋大小(WAES),是WAD的一個變體。受穩健性研究的啟發,Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹,以精確匹配參考聚類結果,其中可解釋性通過刪除的點數來衡量。
與決策樹不同,基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀,通過一組規則來描述聚類中的樣本。據我們所知,盡管if-then規則作為可解釋模型已經廣泛被接受,并得到了廣泛研究,但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此,針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例(即滿足解釋的聚類內樣本)的總數,同時最小化假陽性案例(即聚類外滿足解釋的個體)的總數。此外,規則的長度受到限制,以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集,然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集,研究了事件日志的解釋搜索。通過迭代過程,他們不斷提高實例解釋的準確性和簡潔性。在此基礎上,Koninck等人 [68] 從黑箱支持向量機(SVM)模型中為每個個體實例挖掘簡潔規則,并討論和評估可用于解釋技術的不同替代特征集。
除了上述的決策樹和if-then規則外,文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限,我們將不逐一回顧每個模型,而是在此提供總體總結。 原型:Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體,其與聚類內其他個體的相似性最小。在他們的方法中,他們解決了一個雙目標優化問題,以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量,同時最小化其他聚類中的假陽性案例的數量。 凸多面體:在文獻[55]中,圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題,其中變量對應于用于描述聚類的候選半空間。此外,他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數:超立方體的數量和實例的緊湊性。采用啟發式搜索方法(NSGA-II)來識別一組非支配解,定義理想點以確定最合適的解決方案,每個聚類由盡可能少的超立方體覆蓋。 描述:Davidson等人 [69] 提出了聚類描述問題,其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述,以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量,以及任何兩個描述可以共同覆蓋的聚類的最大數量。
幾種代表性的可解釋聚類后方法總結在表2中。此外,還可以注意到以下幾點:首先,大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而,決策樹生成的解釋存在一些缺點,例如深層決策依賴于淺層決策。此外,可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外,適合的數據類型可能影響選擇哪種可解釋模型;例如,描述可能更適合社區分析。因此,涉及其他可解釋模型的聚類后方法需要進一步研究。
其次,現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本,或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而,只有少數方法強調解釋的簡潔性(除[22], [25]外),其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此,平衡可解釋模型的準確性和簡潔性,以及量化可解釋性指標,仍然是一個需要進一步研究的領域。
本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討,重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題,包括聚類前、聚類中和聚類后階段。在每個階段,相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義,以及它如何嵌入常用的可解釋模型中,如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類,使人類用戶能夠理解這些元素,并可能使這些聚類結果應用于高風險領域,從而滿足透明性和可信度的基本要求。 為提供對該領域未來方向的有價值見解,我們根據不同方面對各種可解釋聚類方法進行了分類,并進一步總結了關鍵技術標準供讀者參考,例如:(1) 優化方法,說明來自不同領域的作者如何將可解釋性挑戰形式化,并使用哪些方法解決這些優化問題;(2) 與可解釋性相關的結構度量,這些度量可能被用于評估新方法的可解釋性質量,類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信,研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外,不同聚類階段的方法可以結合使用,因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下,構建可解釋的聚類算法變得困難。此外,針對復雜數據(如離散序列 [32]、網絡(圖) [70] 以及多視角和多模態數據 [71])的可解釋聚類方法的研究仍然有限。
摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。
工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。
在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。
為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。
本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:
本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。
近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。
如表I所示,本文通過以下幾個關鍵貢獻來區分自身:
新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。
跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。
持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。
摘要
遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。
引言
遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。
概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。
與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。
本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。