国产又色又爽又黄又免费软件,丰满人妻被公侵犯高清版

摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型（LLMs）的出現推動了人工智能領域的范式轉變，越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注，但許多關鍵的研究問題仍未得到充分探索。例如，哪些疾病和LLM技術已被用于診斷任務的研究？如何為臨床決策選擇合適的LLM技術和評估方法？為解答這些問題，我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外，我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性，并劃定了該研究領域的挑戰與未來方向。總之，我們的綜述為基于LLM的疾病診斷勾勒了藍圖，幫助簡化并指導未來的研究工作。

引言

自動疾病診斷通過將臨床數據輸入算法，分析數據模式并生成診斷結果，幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先，它提高了診斷的準確性，支持醫生的臨床決策，并通過提供更多高質量的診斷服務，解決了醫療資源獲取不平等的問題。其次，它提高了診斷效率，尤其是在人口老齡化和臨床醫生短缺的情況下，診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后，它通過在線診斷服務為患者提供了更大的便利，促進了早期診斷并減少了傳統臨床就診所帶來的延誤。人工智能的進步推動了自動診斷系統的發展，經歷了兩個階段。最初，采用支持向量機（SVM）和決策樹等機器學習技術進行疾病分類1,2，通常包括四個步驟：數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升，深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡（DNN），包括卷積神經網絡（CNN）5、循環神經網絡（RNN）6和生成對抗網絡（GAN）7，實現了端到端的特征提取和模型訓練。例如，具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而，這些模型需要大量標注數據進行訓練，且通常針對特定任務，限制了它們在其他任務中的適應性5,8。近年來，人工智能的范式從傳統的深度學習轉向了大型語言模型（LLM）的興起。與監督學習不同，LLM如生成式預訓練轉換器（GPT）和LLaMA9，是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數，擅長處理語言，并能夠適應多種任務。迄今為止，LLM在臨床場景中展示了卓越的性能，包括問答10、信息檢索11和臨床報告生成12,13。

最近，越來越多的研究驗證了LLM在診斷任務中的有效性。例如，PathChat14，一個經過數十萬條指令微調的視覺語言通用LLM，在人類病理學中取得了最先進的性能。Med-MLLM13，一個在廣泛的醫學數據（包括胸部X光片、CT掃描和臨床筆記）上預訓練和微調的多模態LLM，在COVID-19診斷中表現出了顯著的準確性。此外，Kim等人15使用GPT-4結合提示工程，發現它在識別強迫癥方面超越了心理健康專家。盡管該研究領域備受關注，但許多關鍵問題仍未得到充分探索。例如，哪些疾病和LLM技術已被用于診斷任務？研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷？哪些評估方法適合評估模型性能？盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20，它們通常提供了對各種臨床應用的廣泛概述，但并未特別強調疾病診斷。例如，Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結，包括術前咨詢、治療、術后管理、出院和患者教育。然而，這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰，未能回答上述問題，凸顯了研究中的一個關鍵空白。本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外，我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性，全面呈現了該領域的挑戰和未來方向。總之，本綜述為基于LLM的疾病診斷勾勒了藍圖，并幫助啟發和簡化未來的研究工作。

研究范圍概述

本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是，LLM涵蓋了多種數據模式，包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類，而表2則展示了常用的評估指標。

付費5元查看完整內容

3 方法學

在多模態持續學習（MMCL）中，有多種方法學策略。本文將MMCL方法分為四大類：基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類，并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性，而圖6展示了代表性架構，主要以視覺和語言模態為主。對于其他模態的方法，在表3中進行了匯總。在正式介紹MMCL方法之前，我們將首先介紹一些經典的單模態持續學習（CL）方法，因為它們既是MMCL方法的前身，也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同，分為顯式正則化和隱式正則化兩種。下圖（圖6a）總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數，以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束，以保護模型在先前任務中的知識。在這種方法中，常用的技術包括：

彈性權重保持（Elastic Weight Consolidation, EWC）：通過利用Fisher信息矩陣對參數賦予權重，從而實現參數保護，避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
任務相關性調節（Task Importance Regularization, TIR）：這是MMCL中的一種方法，基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重，以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性，從而減少遺忘風險。與顯式正則化不同，隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰，因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾（KD），通常包括以下幾種策略：
基于logits的蒸餾（Logits-based KD）：通過對比新模型和舊模型在最后一層輸出的logits，盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
基于特征的蒸餾（Feature-based KD）：不僅關注最終輸出，還在中間層的特征上進行對比，從而保留中間表征。
基于關系的蒸餾（Relation-based KD）：使用樣本間的關系信息進行對比，如在視覺-語言模型中，可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中，LwF（Learning without Forgetting）是一種經典的隱式正則化方法，它在訓練新任務前使用當前數據生成舊任務的輸出，并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性，被廣泛應用于多模態和單模態CL模型中。在多模態模型中，隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如，ZSCL（Zero-Shot Continual Learning）和Mod-X都使用CLIP作為基礎模型，通過KD技術保留零樣本能力。此外，Mod-X還關注空間無序（Spatial Disorder）問題，以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾，通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構，通過任務掩碼選擇性地激活或抑制特定參數，從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中，HAT（Hard Attention to the Task）通過學習接近于二值的注意力向量，在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數，以保留早期任務的知識。在多模態模型中，RATT（Recurrent Attention Task Transformer）使用固定架構進行圖像描述生成。它結合了卷積神經網絡（CNN）和長短時記憶網絡（LSTM），并通過注意力掩碼實現特定任務的激活，以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展，通常通過添加新模塊來增加模型容量。與固定架構不同，動態架構可以在新任務到來時擴展新的任務特定模塊，因此性能不會受到初始容量的限制。在單模態模型中，進步網絡（Progressive Network）是一種早期的動態架構，它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如，MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊，減少了新任務對已有知識的干擾。此外，ODU和CMR-MFN都設計了模態融合模塊，以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例，以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構，也不需約束參數自由度。基于獲取重放數據的不同方式，重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中，以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中，例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明，與單模態重放相比，多模態重放能顯著提升模型的穩定性和靈活性。此外，KDR通過在跨模態相似度矩陣上引入KD，以確保模型更新前后的交互一致性，從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布，從而在當前階段生成偽造數據，避免了直接重放方法的存儲需求和隱私問題。例如，單模態模型中DGR（Deep Generative Replay）通過訓練生成對抗網絡（GAN）來生成數據樣本以進行重放。后續研究擴展了偽重放策略，包括在特征層面進行偽重放，以強化特征表示，減少遺忘現象。在多模態模型中，SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外，AID通過偽原型重放策略處理模態不平衡問題，從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型，通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求，并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中，例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略，增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息，使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習（MMCL）領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習（CL）任務設計的知名數據集中改編而來，研究人員常常利用多個數據集或將單一數據集劃分為多個子集，以便在MMCL設置中模擬任務【39】。此外，也存在一些專門為MMCL構建的數據集，例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準，若數據集和代碼為公開可訪問，將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集：

P9D：Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D，并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據，并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
UESTC-MMEA-CL：Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據，構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集，這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準，并使用了三種基礎CL方法：EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示，與其他方法相比，iCaRL在重放基礎上能更有效地減輕遺忘問題。這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性，也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外，也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹：

CLiMB【31】：該基準包括四個視覺-語言任務（VQAv2、NLVR2、SNLI-VE和VCR）、五個僅語言任務（IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA）以及四個僅視覺任務（ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測）。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
CLOVE【63】：專注于生成任務，適用于不同模態的生成式任務，利用多個數據集進行評估。
MTIL【45】：該基準在視覺-語言領域內使用了多個數據集進行任務增量學習，驗證模型在多任務設置中的表現。
CEAR【39】：基準測試多模態數據集（視頻、加速度和陀螺儀）上的持續學習性能，評估模型對復雜運動數據的持續識別能力。這些基準提供了多種任務和模態組合，用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準，研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展，多模態持續學習（MMCL）已成為一個活躍且前景廣闊的研究課題。在本節中，我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中，多模態數據的數量和質量直接影響模型的性能。然而，由于不同模態的數據特性和收集難度，提升模態數量和質量仍面臨諸多挑戰：

豐富模態種類：許多現有研究主要集中在視覺、語言和音頻模態上，但實際應用中往往需要結合更多模態，如生物信號、環境數據等。因此，未來研究可以探索如何將更多元的模態引入MMCL系統，以提高模型對復雜環境的適應性和泛化能力。
提高數據質量：不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量，以及開發具有魯棒性的數據增強方法，將有助于改善模型對多模態數據的學習效果。
模態互補性研究：多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果，例如通過模態間對齊和融合方法，以更好地利用數據多樣性，提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型，并在多個模態和任務上進行持續訓練，這對計算資源提出了更高要求。為提高資源利用效率，未來可以在以下幾個方面展開研究：

參數高效的微調方法：開發參數高效的微調策略（如適配器模塊、低秩近似等），以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數，從而減輕計算負擔。
模型壓縮和加速：探索模型壓縮（如量化、剪枝）和加速（如蒸餾、混合精度訓練）技術，以降低MMCL模型的內存和計算成本，使其更適合實際部署。
分布式與異構計算：結合分布式計算和異構計算設備（如GPU和TPU），分擔大規模多模態數據的處理任務，以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能：

保持預訓練模型能力：隨著持續微調的進行，MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上，繼續增強模型對新任務的適應性，將是未來的重要方向。
增強跨任務泛化：MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制，以增強模型在不同任務間的泛化能力，將有助于提高模型在多變環境下的實用性。
任務間關系學習：許多現實任務之間存在一定的關聯性，未來可以探索如何利用任務間的關系信息（如標簽關系、特征共現）來更好地指導模型學習，從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下，模態數據的分布和數量可能存在不平衡，這會影響MMCL的表現。未來的研究可以關注以下方面：

模態優先級與加權機制：不同模態對任務完成的重要性可能不同，因此可以研究如何為不同模態分配合適的權重和優先級，以提高模型在模態不平衡情況下的魯棒性。
動態模態選擇與融合：設計動態的模態選擇策略，使模型能夠在缺少某些模態數據時，靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
模態數據重采樣與合成：在模態不平衡的情況下，可以研究如何通過重采樣或合成方法生成缺少的模態數據，以保持模態之間的平衡性，提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加，未來MMCL研究需要更好地應對這些問題：

隱私保護技術：研究如何在MMCL模型中引入隱私保護技術，如聯邦學習和差分隱私，以在多模態數據環境中保護用戶隱私。
安全模型更新與遷移：開發安全的模型更新和遷移機制，以防止敏感數據泄露，同時保證模型在不同平臺或設備上的適應性和性能。
數據合成與偽重放：為減輕隱私風險，可以利用數據合成與偽重放技術，在不依賴真實用戶數據的情況下，重建訓練數據分布，從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論，為進一步發展多模態持續學習（MMCL）領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題，以及加強隱私與數據安全的適應性，研究人員可以應對MMCL的挑戰，推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題，還將推動更為廣泛和深入的實際應用，從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

擴散模型 · 三維視覺 · 生成模型 ·

2024 年 10 月 9 日

[付費5元查看完整內容]三維視覺中的擴散模型：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—近年來，三維視覺已成為計算機視覺領域的關鍵方向，推動了自動駕駛、機器人技術、增強現實（AR）和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務，但它們提供了更靈活的概率方法，更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而，傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用，包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理，概述了其前向和反向過程，并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰，如處理遮擋和點密度變化，以及高維數據的計算需求。最后，我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。

關鍵詞—擴散模型，三維視覺，生成模型。

I. 引言

近年來，三維視覺已成為計算機視覺領域中的重要方向，推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜，傳統方法常常在效率和可擴展性方面遇到挑戰。擴散模型[1]–[5]最初在生成建模領域提出，并迅速發展，展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念，這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是，擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力，同時對噪聲具備魯棒性。近年來，擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14]，如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等，標志著擴散建模與三維視覺的新時代的到來。將擴散模型應用于三維視覺任務展現出前景，主要原因在于它們能夠建模復雜的數據分布，并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務（如形狀生成[21]或深度估計[22]）提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同，擴散模型提供了更靈活的概率方法，可以更好地捕捉真實三維數據中的多樣性和不確定性。對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力，這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法，討論了其潛在的優勢，如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。盡管將擴散模型應用于三維視覺前景廣闊，但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加，它可以以多種形式表示，如網格、體素或點云，每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰，同時三維任務的計算需求常常遠遠高于二維任務，導致可擴展性問題。另一個挑戰在于建模三維數據中的長距離依賴關系，擴散模型并非原生具備該能力。此外，許多三維視覺任務缺乏大規模標注數據集，這進一步增加了擴散模型的訓練難度，要求大量高質量數據以實現有效泛化。本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用，包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性，涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下： * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結，分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題，以及未來研究方向，以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。

為完成本綜述，我們采用了全面的文獻檢索策略，以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語，如“擴散模型”、“三維視覺”以及相關概念（如“生成模型”和“三維數據的神經網絡”）。我們在多個學術數據庫（包括IEEE Xplore、arXiv和Google Scholar）中進行檢索，重點關注過去五年的出版物，以捕捉最新進展。此外，我們優先選擇經過同行評審的期刊文章、會議論文和預印本，確保包含高質量的前沿研究。通過此策略，我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。本文其余部分的組織結構如下：第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念，討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后，第六節討論了未來方向和開放問題。

第七節為結論。

**擴散模型基礎

A. 擴散模型簡介擴散模型（Diffusion Models）是一類生成模型，通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程，在此過程中噪聲逐步添加到數據中，以及反向過程，利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布，已證明能夠在多個領域（包括三維視覺）生成高質量的樣本。擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入，發展迅速。尤其是在Ho等人提出去噪擴散概率模型（DDPMs）之后，擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程，主要包括： * 前向過程：逐步向數據添加高斯噪聲。 * 反向過程：通過去噪還原數據，生成新樣本。

這種框架允許擴散模型避免模式崩潰，與生成對抗網絡（GANs）相比，生成出多樣性更高的樣本。B. 擴散模型的數學基礎

C. 擴散模型的變體 1. 去噪擴散概率模型（DDPMs）：在DDPM中，前向過程逐步將高斯噪聲添加到數據中，使原始數據分布轉變為已知先驗（通常為標準高斯分布）。反向過程則由神經網絡參數化，并訓練為逐步去噪。DDPM通過優化變分下界，實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型（Score-Based Generative Models）：這種變體使用得分匹配技術，以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程（SDE）：此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性，例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程與生成對抗網絡（GANs）和變分自編碼器（VAEs）相比，擴散模型在三維視覺任務中具有更強的生成能力，能夠生成光滑的連續表面，并處理復雜的高維數據。這對于需要詳細幾何結構的應用（如三維形狀重建）特別有利。

三維視覺基礎

三維視覺領域是現代計算機視覺中不可或缺的一部分，涉及各種數據表示方法及深度學習技術，以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域，這些應用都依賴于準確的三維場景感知與分析。

**A. 三維表示

三維數據表示是三維視覺的核心，提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點，通常用于不同的三維任務。 二維表示

二維表示使用平面圖像推斷三維信息，適用于渲染與理解三維場景。通過多視圖圖像或深度圖，可以從多個角度獲取場景或物體的三維結構。

深度圖：深度圖表示從特定視角到場景中物體的距離，將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要，因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示

顯式表示直接定義了三維模型的幾何形狀，如點云、體素網格和網格。它們直觀易操作，但存儲復雜形狀時空間需求較大。

點云：點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而，由于缺乏拓撲信息，點云通常需要進一步處理，以實現渲染或仿真。 1. 隱式表示隱式表示通過數學函數定義三維幾何，例如有符號距離場（SDF）和占用場。它們通常用于生成平滑、連續的表面，并能處理復雜的幾何形狀。

**B. 三維視覺中的深度學習方法

深度學習的進步推動了三維視覺的發展，使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。

基于卷積的神經網絡三維卷積神經網絡（3D CNN）將二維卷積擴展到體素數據，捕捉三維空間的關系，適用于體素網格處理任務。然而，三維CNN計算需求高，因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。

直接點云處理方法點云數據的處理逐步由PointNet等方法引領，這些方法通過直接操作點云數據而無需將其轉換為其他形式，從而保留了數據的稀疏性與不規則性。

圖神經網絡在點云上應用圖神經網絡（GNN）通過捕獲非歐幾里得結構中的關系，適合于對拓撲信息的建模。

占用網絡與深度有符號距離場占用網絡和深度有符號距離場（DeepSDF）模型能有效地在復雜場景中生成詳細的三維形狀，在物體重建和場景理解中具有優勢。

基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能，尤其在三維點云數據上，表現出在自適應分割和語義理解方面的能力。

**C. 三維視覺中的挑戰

遮擋遮擋問題在三維視覺中普遍存在，尤其在物體間相互重疊的場景中。這會導致數據缺失或失真，影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。

點密度變化由于掃描設備距離和角度的不同，點云密度可能不均勻，導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。

噪聲與離群值三維數據采集過程中常伴有噪聲和離群值，影響數據的準確性。去噪濾波和離群值去除是常見的應對手段，但在精度和計算需求之間的平衡仍具挑戰性。

三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰，但隨著深度學習技術的不斷進步，三維視覺的準確性和效率正在顯著提高，為實際應用帶來了新的突破。

三維擴散生成任務

擴散模型在三維數據生成任務中表現出極大的潛力，能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式，使擴散模型成為三維視覺研究的重要工具。

**A. 無條件生成

無條件生成指的是不依賴于任何輸入或條件（如類標簽、圖像或文本提示）生成三維形狀或物體。在這種生成模式下，模型從隨機噪聲或潛在變量出發，基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用，其目的是在沒有外部指導的情況下捕捉數據的底層分布，生成逼真且多樣的三維輸出。

Zhou等人提出的Point-Voxel Diffusion框架，是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合，使用點-體素混合表示進行生成。模型通過一系列去噪步驟，將觀察到的點云數據逆擴散回到高斯噪聲狀態，從而生成新的三維形狀。

**B. 條件生成

在條件生成任務中，擴散模型會根據特定輸入（例如圖像或文本提示）生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強，允許模型根據輸入生成具有特定特征的三維結構。例如，Ren等人提出的模型結合卷積和Transformer架構，生成動態掩模以在生成過程中實現特征融合，從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。

**C. 三維編輯與操作

三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性，允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法，應用擴散模型進行點云預訓練，有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題，通過循環均勻采樣優化策略，使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。

**D. 新視角合成

新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系，并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面（稱為triplanes），然后利用現有的二維擴散模型對這些表示進行訓練，從而生成高質量的三維神經場。

**E. 深度估計

擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中，模型可以利用擴散過程生成連續的深度數據，有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖，為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述，擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果，還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展，未來可通過結合物理約束和多模態數據進一步提升模型的表現，為復雜和動態場景中的三維任務提供更強大的支持。

結論

本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的，但隨著三維數據（如點云、網格和體素網格）的處理需求增長，這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法，并深入討論了擴散模型的數學基礎，包括其前向和反向過程及架構改進，使之能夠處理三維數據。

此外，本文分類和分析了擴散模型在不同三維任務中的顯著影響，包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰，如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰，我們提出了一些潛在解決方案，包括提升計算效率、增強多模態融合，以及探索使用大規模預訓練以更好地在三維任務中實現泛化。

通過整合當前擴散模型在三維視覺領域的研究現狀，并識別出其中的不足與機遇，本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步，未來的研究有望繼續優化模型的計算效率和多任務處理能力，為三維數據的生成、重建和理解開拓新的可能性。

付費5元查看完整內容

擴散模型 · 條件圖像生成 · 生成模型 ·

2024 年 10 月 1 日

[付費5元查看完整內容]《基于擴散模型的條件圖像生成》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來，基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法，導致了相關文獻的爆炸式增長。然而，擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性，為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中，我們根據條件如何融入擴散模型的兩個基本組件（即去噪網絡和采樣過程）對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時，各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后，我們指出了一些關鍵但仍未解決的未來問題，并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型，擴散模型，條件圖像生成，條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時，它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破，如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而，早期基于深度學習的生成模型（如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200]）在條件圖像生成中的表現并不令人滿意，這是由于它們的內在局限性：GANs 容易出現模式崩潰和訓練不穩定的問題 [49]；VAEs 通常生成模糊的圖像 [81]；而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來，擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角，憑借其強大的生成能力和多功能性，得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中，圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能，表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外，與一步生成模型相比，擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具，近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展，模型架構、訓練方法和采樣技術的眾多變化，以及潛在的條件生成任務的廣泛性，研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述，提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述，如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64]，或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解，但它們并未涵蓋不同條件生成任務在模型框架中的共同特征，特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述，但它們的范圍有限，主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作，忽略了早期將條件集成到無條件去噪網絡中的工作，或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎，并且在低級任務如圖像修復中仍然廣泛應用。此外，[182] 主要關注基于擴散模型的圖像編輯框架，缺乏對該領域其他任務統一框架的系統分析，而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此，它們的分類方法缺乏系統性，并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下，本綜述旨在提供一個全面且結構化的框架，涵蓋當前廣泛的 DCIS 研究工作，基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說，我們通過審查和總結現有的 DCIS 方法，探討條件如何集成到擴散建模的兩個基本組件中：去噪網絡和采樣過程。在去噪網絡方面，我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中，我們將六種主流的采樣中條件機制進行分類，詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述，使他們能夠設計適用于其所需任務的條件生成框架，包括尚未探索的新任務。

本綜述的其余部分組織如下：首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來，我們在第三部分總結去噪網絡中的條件集成方法，并在第四部分總結采樣過程中的方法。最后，我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

AI與醫療 · 大型語言模型 · 疾病診斷 ·

2024 年 9 月 21 日

[付費5元查看完整內容]大型語言模型疾病診斷綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型（LLMs）的出現推動了人工智能領域的范式轉變，越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到了越來越多的關注，但仍然缺乏整體視角。許多關鍵方面仍不清楚，例如LLMs已應用于哪些疾病和臨床數據、使用了哪些LLM技術以及采用了哪些評估方法。在本文中，我們對基于LLM的疾病診斷方法進行了綜合評述。我們的評審從多個維度考察了現有文獻，包括疾病類型及其相關的臨床專科、臨床數據、LLM技術和評估方法。此外，我們還提出了關于LLMs在診斷任務中應用與評估的建議。我們進一步評估了當前研究的局限性，并討論了未來的研究方向。據我們所知，這是首個關于基于LLM的疾病診斷的綜合評述。

引言

自動疾病診斷是臨床場景中的一項關鍵任務，它以臨床數據為輸入，分析模式，并生成潛在的診斷，幾乎無需或完全無需人為干預。這在醫療保健中的重要性是多方面的。首先，它提高了診斷的準確性，支持臨床醫生的決策，并通過提供更多高質量的診斷服務來解決醫療保健中的不平等問題。其次，自動診斷提高了醫療專業人員的效率，這對于管理老齡化患者和多病患者群體的臨床醫生來說尤為寶貴。例如，DXplain是一個診斷系統，它利用患者的體征、癥狀和實驗室數據生成潛在診斷列表，并提供每種病癥應被考慮的理由。此外，在線服務進一步促進了某些疾病的早期診斷或大規模篩查，例如心理健康障礙，通過早期階段提高意識，幫助預防潛在的風險。例如，幾項研究探討了使用社交媒體帖子進行大規模抑郁癥識別和自殺風險預測。

人工智能（AI）的最新進展推動了自動診斷系統的發展，經歷了兩個階段。最初，機器學習技術如支持向量機和決策樹被用于疾病分類，這通常包括四個步驟：數據處理、特征提取、模型優化和疾病預測。隨著數據集的增大和計算能力的提升，深度學習方法逐漸主導了診斷任務的發展。這些方法利用了深度神經網絡（DNNs），包括卷積神經網絡（CNN）、循環神經網絡（RNN）和生成對抗網絡（GAN），實現了端到端的特征提取和模型訓練。例如，一個擁有34層的卷積DNN在心律失常診斷中達到了與心臟病專家相當的水平。然而，這些模型通常需要大量標注數據進行監督學習，并且通常是任務特定的，限制了它們對其他任務或新需求的適應性。近年來，人工智能的范式已經從傳統的深度學習轉向了大型語言模型（LLMs）的出現。與監督學習不同，LLMs（如生成式預訓練變換器（GPT）和LLaMA）是通過自監督學習在大量未標記數據上進行預訓練的生成模型。這些模型通常包含數十億個參數，擅長語言處理，并能適應各種任務。迄今為止，LLMs在臨床場景中展現了卓越的表現，包括問答（QA）、信息檢索和臨床報告生成等任務。最近，越來越多的研究驗證了LLMs在診斷任務中的有效性。例如，PathChat是一個經過數十萬條指令微調的視覺-語言通用LLM，在人體病理學中達到了最先進的表現。Med-MLLM是一個基于多模態的LLM，經過在包括胸部X光、CT掃描和臨床筆記在內的廣泛醫療數據上的預訓練和微調，在COVID-19診斷中展示了顯著的準確性。此外，Kim等人通過提示工程使用GPT-4，發現其在識別強迫癥方面超越了心理健康專家，這突顯了LLMs在心理健康診斷中的潛力。盡管該研究領域引起了廣泛關注，但許多關鍵問題仍未得到充分探索。例如，在基于LLMs的診斷任務中，哪些疾病和醫療數據被調查過（Q1）？LLMs技術在疾病診斷中是如何應用的，以及如何選擇合適的技術（Q2）？評估診斷性能的合適方法是什么（Q3）？盡管已有眾多綜述文章探討了LLMs在醫學領域的應用研究，這些研究通常提供了廣泛的臨床應用概述，但并未特別強調疾病診斷。例如，Pressman等人對LLMs在預咨詢、治療、術后管理、出院和患者教育等方面的潛在臨床應用進行了全面總結。此外，這些綜述文章均未探討將LLMs應用于疾病診斷的細節與挑戰，或回答上述關鍵問題，突顯了這一領域的重要研究空白。本綜述的主要目的是提供關于利用LLMs進行疾病診斷研究的概述。綜述介紹了現有研究中的各種疾病類型、與疾病相關的臨床專科、臨床數據、LLM技術和評估方法。此外，我們為數據準備、選擇合適的LLM技術以及為診斷任務采用適當的評估策略提供了建議。進一步地，我們還分析了當前研究的局限性，并深入探討了這一領域的挑戰和未來研究方向。據我們所知，這是首個專注于LLMs疾病診斷的綜述，并全面概述了這一領域。總結來說，這篇綜述為基于LLM的疾病診斷提供了一個藍圖，旨在激發和引導未來的研究工作。

結果****研究范圍概述

本節介紹了我們綜述的范圍。圖2不僅展示了疾病類型、相關的臨床專科、臨床數據類型和數據模態（Q1），還介紹了應用的LLM技術（Q2）和評估方法（Q3），回答了前述問題。具體來說，我們調查了19個臨床專科和超過15種類型的臨床數據用于疾病診斷。這些臨床數據涵蓋了多種數據模態，包括文本、圖像、視頻、音頻、時間序列和多模態案例。此外，我們根據所應用的LLM技術對現有的疾病診斷工作進行了分類，例如提示（零樣本）、檢索增強生成（RAG）和預訓練。表1總結了主流LLM技術的分類。圖4展示了臨床專科、數據模態和所應用的LLM技術之間的關系。這些圖表全面揭示了基于LLM的疾病診斷的當前發展狀況。此外，圖3展示了我們綜述中的元信息分析，涉及不同地區的出版趨勢、廣泛用于訓練和推理的LLMs總結，以及數據來源、評估方法和數據隱私狀態的統計信息。

付費5元查看完整內容

可解釋聚類 · 可解釋性 · 可解釋人工智能 · 綜述 ·

2024 年 9 月 8 日

[付費5元查看完整內容]可解釋聚類綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—近年來，聚類算法的研究主要集中在提高其準確性和效率，往往以犧牲可解釋性為代價。然而，隨著這些方法越來越多地應用于高風險領域，如醫療保健、金融和自動化系統，透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任，還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求，本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述，并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策，同時也促進了既高效又透明的聚類算法的發展和采用。

關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能（XAI）導論

聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務，旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系，從而促進各種應用和進一步的分析。幾十年來，已經提出了許多算法來解決不同應用中的聚類問題，并取得了很高的準確性。然而，在大多數情況下，聚類模型作為一個“黑箱”存在，導致了常見的問題，例如：聚類結果是如何形成的？人們能否理解聚類結果形成的邏輯？模型是否可信？模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用，本論文將全程使用“可解釋性”一詞。

至今，可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如，在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”，在文獻 [5] 中定義為“人類能夠理解決策原因的程度”，而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。

然而，模型的可解釋性可能因用戶的實際需求而異，并且可以在不同維度上表現出來。在某些疾病研究中，醫生通常更關心識別患者特征，這些特征表明患病的可能性較高，以及這些特征是否能有助于早期診斷。相比之下，數據科學家則關注設計可解釋的模型，為患者提供有說服力的解釋，并有效闡明每個患者被歸類為特定疾病類型的原因，從而幫助理解各種特征對結果的影響。因此，盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性，但仍然有必要對這些方法進行系統的總結和區分。

據我們所知，已經有一些綜述文章總結了與可解釋性相關的方法。然而，這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11]，要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白，我們全面收集了現有的可解釋聚類方法，并提出了一套分類標準，以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外，我們將聚類過程劃分為三個階段，并根據不同階段的可解釋性對所有可解釋聚類方法進行分類，構建了本綜述的總體框架：（1）特征選擇階段（聚類前），（2）模型構建階段（聚類中），和（3）模型解釋階段（聚類后）。我們相信，本綜述將為讀者提供對可解釋聚類的新理解，并為該領域未來的研究奠定基礎。

本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性，回顧了可解釋的聚類前、聚類中和聚類后方法。最后，第7節總結了本文，并討論了未來的研究方向。

2 可解釋聚類的必要性

隨著人工智能和機器學習算法的進步并在各種任務中表現出色，它們正被應用于多個領域。然而，它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]：開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說，理解和信任算法如何得出結果至關重要。例如，開發者需要理解算法如何產生有意義的結果，并認識到其局限性，從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識，并且是否有充分的依據。監管者需要考慮算法結果的影響，例如公平性、潛在的歧視，以及風險和責任所在。這要求整個算法過程具備透明性和可信度。

為應對這些挑戰，可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的，聚類方法旨在通過生成模式作為數據的初步理解。在這一階段，聚類的可解釋性以及算法機制的透明性需求變得愈發重要。

**2.1 什么是可解釋聚類？

傳統的聚類算法通常注重提供聚類結果，將準確性和效率作為首要任務，尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”，尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值，并將它們積極地納入聚類結果的生成中。然而，“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明，使得最終用戶更難理解。

相比之下，可解釋的聚類方法明確旨在解釋聚類結果，使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果，使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值（如年齡、收入）來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果，并評估從中得出的結論是否可信。

**2.2 什么是好的可解釋聚類方法？

好的可解釋聚類方法應提供明確的證據，解釋聚類結果是如何得出的，為最終用戶提供理解算法行為及其背后邏輯的機會。然而，最終用戶是否選擇信任這些證據，可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家，我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。

首先，可解釋證據的形式應盡可能簡單。例如，用于生成某一聚類的特征值的數量應盡量減少，這可以大大降低最終用戶理解結果的復雜性。其次，每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說，理想情況下，同樣的可解釋證據應僅對應一個特定的聚類，而不會與其他聚類重疊。這種獨特性增強了證據的可信度，確保最終用戶相信它與特定的聚類緊密相關，從而減少了與其他不同功能的聚類混淆的可能性。

為了確定可解釋聚類方法的好壞，甚至量化其效果，必須考慮所使用的具體可解釋模型。例如，當使用決策樹模型時，通過樹的分裂，可以清晰地定義每個聚類的證據是高度獨特的，從而滿足了基本的獨特性要求。此外，可以通過檢查樹的結構參數（如葉節點的數量，即聚類的數量，和樹的平均深度）來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程，每個分支節點記錄了導致聚類的決策（分裂特征值）。使用更少的特征值可以生成更簡潔的可解釋證據，使最終用戶更容易理解和信任聚類結果。

3 可解釋聚類方法的分類

在本節中，通過收集和總結現有的可解釋聚類方法，我們建立了以下分類標準以系統地對它們進行分類：首先，基于廣泛認可的聚類過程，現有的可解釋聚類方法可以分為三類：聚類前方法、聚類中方法和聚類后方法。具體來說，聚類前方法通常在聚類過程之前執行，通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型，能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果，試圖通過可解釋模型來解釋黑箱模型生成的結果。

其次，大多數方法，尤其是聚類中和聚類后方法，可以根據它們使用的不同可解釋模型來區分（如圖1所示），這些模型包括以下幾類：

決策樹：決策樹模型在機器學習中廣泛被認為是一種可解釋模型，常用于分類和回歸任務。其可解釋性來自于基于特征值對數據進行遞歸、分層的劃分以生成中間結果，最終輸出可通過用于分裂的特征值進行追蹤。根據特定標準，通過清晰透明的路徑從根節點（代表整個數據集）到達分支節點，實例被分配到由特定分裂點確定的不同葉節點（聚類），這對于最終用戶來說易于理解。
規則：與基于決策樹的模型不同，用戶需要通過樹的層級路徑來理解聚類是如何從整個數據集中導出的，隨著樹的深入，這種理解變得越來越復雜。基于規則的方法則提供了一種更直接的方式來理解聚類是如何提取的。規則方法中的可解釋性來源于基于特征值生成的候選規則，通常以邏輯組合的形式表達（例如有意義的模式），用戶更容易理解。
原型：原型的概念（也稱為“示例”）可以類似于k-means算法中的質心。每個原型作為其對應聚類的代表，靠近某個原型的樣本被認為是該聚類的成員。同時，不同原型代表的樣本可以重疊。
凸多面體：這種可解釋模型本質上是將二維空間的凸多邊形擴展到更高維空間，其中每個聚類由一組限制平面包圍。每個多面體由若干半空間的交集形成，有效地定義了高維空間中聚類的邊界。
描述：描述可以定義為某一特定概念的關鍵特征或屬性的簡潔且可解釋的表示。例如，在社區分析中，某個社區的描述可能概括了該社區的顯著特征，如共同的人口統計學、行為或屬性，從而有效地總結了該社區的內部結構，并將其與其他社區區分開來。

第三，現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果，但也有一些方法強調從復雜數據中提取可解釋特征，或研究特定聚類及其相關特征之間的關系，從而增強可解釋性。

最后，方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據（數值型、類別型或兩者的組合）、序列數據（如離散序列和時間序列）、圖像、文本以及圖數據。

圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時，它們也可以用于識別符合特定可解釋性和性能要求的方法。

4 可解釋的聚類前方法

在研究可解釋的聚類模型時，雖然我們的目標是實現更透明的模型，但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說，現有的可解釋聚類前方法，重點研究在聚類之前進行的工作，可以從兩個角度來探討：(1) 特征提取和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究，但它們很少與可解釋性聯系起來，尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此，我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表，并在以下兩個小節中詳細說明。

**4.1 特征提取

從特征提取角度來看，可解釋的聚類前方法通常集中在復雜數據類型上，例如多變量時間序列（MTS）。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型，這些模型能夠更好地捕捉復雜數據中的顯著特征，從而增強可解釋性并促進更好的理解。在多變量時間序列領域，文獻 [16] 提出的系統自動從信號中提取特征，涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征，作者提出了兩種方法：一種是采用主特征分析（PFA）的無監督模式，另一種是結合用戶在小樣本數據集上的注釋的半監督模式，顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇，并使用退火均方誤差正則化鼓勵稀疏性，模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類，增強了聚類的相關性和可解釋性。基于格式塔理論，文獻 [18] 提出了一種可解釋的波段選擇算法，其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建，從高光譜圖像序列中提取三個波段形成偽彩色圖像，增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型，通過歐幾里得距離最小化三個通道與標準顏色之間的差異，實現不同波段的偽彩色映射，直觀地顯示特定光譜波段內的目標差異，符合視覺感知的原則。

**4.2 特征選擇

另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征，以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性，同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控，以學習每個輸入樣本特定的稀疏門控向量。然后，使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋，使得模型在保持可解釋性的同時為每個實例使用更少的特征。

為了應對患者臨床事件日志聚類中的可解釋性不足問題，Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理，他們識別出與聚類結構相關的特定特征，并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。

Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征，從權重最高的特征開始，選擇它，除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性，計算特征集合的交集與并集的比率。

5 可解釋的聚類中方法

可解釋的聚類中方法作為可解釋聚類方法中的直接來源，將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標，與傳統的聚類標準（如k-means中的SSE）結合在一起。一些方法將可解釋性與傳統聚類標準結合起來，作為一個多目標優化問題 [22]，而大多數方法則將其視為與某些結構參數相關的附加項 [23]。有兩個典型的場景（S1和S2）可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆，具體取決于可解釋性是在何階段被考慮的： S1: 是否需要第三方算法的輸入？ 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果（如使用通過樹生長派生聚類的決策樹模型），也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入，它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的，而不是通過擬合第三方算法的結果來保證近似性，則該方法更傾向于可解釋的聚類中方法。

為了更清晰地說明聚類中方法與聚類后方法之間的區別，我們可以考慮以下示例： S1 示例參考：盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量，前者代表了一種聚類后方法，而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類，并根據該聚類擬合決策樹，而文獻[23]允許參考聚類的變化，以發現更具可解釋性的聚類。因此，它們在過程中何時考慮可解釋性方面有所不同，決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征，使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的，任何后續解釋都可能被視為事后合理化，這可能使其不太可靠。理想情況下，可信的聚類結果應由可解釋模型直接產生 [14]，減少對第三方聚類算法的依賴，并增強過程中的透明性和可控性。

S2: 數據集中的特征是否固有可解釋？ 可解釋的聚類中方法處理各種形式的數據，并根據數據集特征的特性進行調整。對于典型的向量數據，特征通常是可解釋的 [26]：（1）對于數值特征，可以通過確定特征值是否大于或小于閾值來切分特征向量，這是決策樹聚類中常用的方法；（2）對于類別特征，值也可以基于是否包含或排除特定類別進行解釋。然而，對于缺乏顯式特征的社會和生物網絡數據 [27]，可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像，其特征可能缺乏固有的可解釋性（例如，沒有清晰結構意義的像素矩陣），發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中，如描述性聚類領域 [29]，重點轉向識別可解釋的標簽。總而言之，處理這些具有不可解釋特征的復雜數據時，通常需要結合深度學習技術 [30]，[31]。對于類別順序數據集，每個樣本是一個長度可變的離散序列，一些常規的序列聚類方法需要將序列轉換為特征向量。然而，這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出，在構建可解釋的聚類方法之前，需要進行區分性序列模式挖掘。某些方法將解釋性特征的搜索與聚類過程本身緊密結合，這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性，而不是對象/實例級別的可解釋性。以下是一些示例，這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起：

S2 示例參考：Kim等人 [33] 提出了一種生成方法，用于識別高維二元數據聚類中區分維度，促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中，使用基于邏輯的特征提取將維度分組為可解釋的集合，從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習，通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失，增強了聚類性能和可解釋性。

在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后，以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成，特別關注典型的可解釋模型類型。

**5.1 基于決策樹的方法

決策樹模型在機器學習中廣泛被認為是一種可解釋模型，常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果，最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點（聚類），遵循從根節點（代表整個數據集）向下經過分支節點的清晰透明路徑，最終用戶易于理解。早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到，使用均勻分布的合成數據作為輔助數據來構建標準（監督）決策樹。這種方法旨在通過修改標準的分裂標準（如信息增益）最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂，易于理解，但依賴于數據生成引入了額外的假設，使得難以聲稱分裂是真正可解釋的。相比之下，文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準，并為每個分支節點分裂數據提出了兩種算法。然而，要選擇用于計算這些度量的候選分裂點，需要先將數值特征域劃分為區間。文獻[35]引入了CUBT，提出了一種更簡單的分裂標準和更直觀的算法框架，并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法，包括三個步驟：最大樹結構構建，隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44]，其中在分支節點使用模糊分裂來增長初始樹，隨后合并相似的聚類以創建更緊湊的樹結構。上述無監督決策樹模型采用自頂向下的方法，在當前分支節點級別考慮所有可能的候選分裂點，并計算異質性等標準，以便樹根據從父節點傳遞下來的最佳分裂貪婪地（貪婪搜索）增長。然而，這種類型的算法缺乏全局指導，意味著每次分裂都是局部優化，而不是在整個數據集上實現全局優化。一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括，但不限于，文獻[36]中使用的混合整數線性優化（MIO）技術 [45]，文獻[24]中使用的樹交替優化（TAO）技術 [46]，以及文獻[23]中使用的單調優化技術（如分支減少和界限（BRB）算法）[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同，這些方法直接建立了分配到不同葉節點（聚類）的實例與可解釋性目標之間的關系，并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性，通常通過指定樹的結構度量 [15]（例如葉節點的數量），文獻[23]，[24]中使用的葉節點數量（nLeaf）較少，通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上，還提出了一些可解釋的模糊聚類算法。例如，文獻[48]采用核密度決策樹（KDDTs）通過交替優化策略構建模糊決策樹，而文獻[49]則在目標函數中引入了分裂的軟（概率）版本，并通過受約束的連續優化模型獲得最優分裂。

**5.2 基于規則的方法

挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類，規則集通常具有兩個關鍵特征 [51]：（1）頻率（有意義），表示規則集應盡可能覆蓋其對應聚類中的樣本（真陽性）；（2）區分能力（獨特），表示規則集應盡量減少覆蓋其他聚類樣本的數量（假陽性）。

為了獲得用于可解釋聚類的規則集，一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如，如文獻[37]所示，可解釋性評分用于評估某個特征值與聚類的相關性，通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集（如使用頻繁模式挖掘生成）中，這些方法旨在派生最大化可解釋性評分的聚類，同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突，現有方法通常將可解釋性評分作為用戶指定的邊界，以平衡可解釋性和聚類質量，并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準：一個類似于文獻[37]，另一個則考慮規則集的獨特性，即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合，形成了多目標混合整數線性優化問題（multi-MIO）。此外，文獻[22]考慮了規則集長度（lenRule）的最大值，即組合中的特征值數量作為約束，確保通過簡潔的規則表示的聚類更加可解釋。

其他基于規則的可解釋方法可能是定制化的，其中規則的含義不僅僅基于特征值。例如，在文檔數據集[52]中，規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。

**5.3 其他方法

除了上述兩種廣泛使用的可解釋模型外，其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格，這些方法通常可以歸類為基于邊界或類質心的方法。然而，為了使這些代表性元素具有可解釋性，某些屬性需要保持。以下是這些方法的簡要概述。

凸多面體：這些方法將聚類邊界限制為在特征空間中軸平行（矩形），如文獻[38]中提出的方法，該方法設計了一個概率判別模型（PDM）來定義此類聚類。更普遍地，它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。

無論是哪種情況，目標都是創建具有更少特征值的聚類，并將這些作為可解釋性約束納入標準聚類目標函數中。例如，文獻[39]使用混合整數非線性優化（nonlinear-MIO）編程公式來同時識別聚類并定義多面體。對于軸平行邊界，每個維度使用一個特征值，而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力，但由于其復雜性增加，相較于簡單的軸平行邊界，其可解釋性較低。

原型（示例）：在原始特征不可解釋且難以理解的數據集中，如圖像和文本，尤其是在使用深度嵌入時，最近關于通過示例進行可解釋聚類的工作發現，尋求高層次的類質心可以用于表征聚類并促進可視化。例如，文獻[40]解決了在沒有事先指定的情況下找到最少示例數量（nExemplar）的挑戰。此外，文獻[31]提出了一個新的端到端框架，旨在提高大型數據集的可擴展性，使基于示例的聚類更具現實應用的可行性。

**5.4 總結

各種可解釋模型已經為聚類中方法開發出來，還有其他潛在模型需要進一步研究（如表1所示）。這些模型始終將可解釋性視為與聚類質量同等重要的目標，并將其直接或間接地作為優化目標，具體取決于模型類型。例如，基于樹的模型通常優先減少分支或葉節點的數量，基于規則的模型則側重于簡短的規則，幾何表示模型，如基于原型的模型，旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如，文獻[25]中考慮了樹的深度作為優化目標；然而，這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。

可解釋性與聚類質量之間往往存在權衡，增強其中一個可能會削弱另一個。在聚類后方法中，這一經常討論的挑戰可能不那么嚴峻，因為這些方法只需要專注于一個方向，即擬合給定的聚類結果。相比之下，聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示，幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊，但更靈活的斜決策樹 [24]可以提高聚類性能。同樣，凸多面體方法可以通過允許對角邊界受益 [39]，而不僅限于軸平行的矩形，前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。

6 可解釋的聚類后方法

模型后的可解釋性是可解釋學習中的一個關鍵方面，側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下，可解釋的聚類后方法指的是使用可解釋模型（如決策樹）來盡可能接近地逼近現有的聚類結果（也稱為參考聚類結果）。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中，從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。

**6.1 基于決策樹的方法

決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中，每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點（不一定是實際的聚類數量）對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。

在基于決策樹的聚類后方法中，構建的決策樹所獲得的聚類結果與參考聚類結果越接近，其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54]，即可解釋聚類的成本與最優聚類（例如k-means/medians）的成本的比率。因此，目標通常是構建一個決策樹T，使得cost(T)與最優k-means/medians的成本相比不太大。具體來說，當一個算法返回一個閾值樹T時，它具有x-近似保證，即cost(T) < x · cost(opt)。

關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹，旨在最小化每個分裂的錯誤數（即從對應參考聚類中心分離的點數），當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似，在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性，在最優k-medians上實現了O(d log k)的近似，在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹（其中d是數據的維數），然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先（LCA）相關。Makarychev等人 [59] 采用了不同的方法，在相對隨機的情況下選擇分裂特征和值，以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k)，最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中，每個分裂節點的分割選擇完全是隨機的，只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近，Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值，排序這些值，然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64]，在此不作詳細闡述。

不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力，Frost等人 [65] 采用了[25]的方法，構建了一棵具有k個葉節點的樹，然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點，并證明隨著k′增加，代理成本是不增加的。這種方法降低了聚類成本，同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋（即樹的深度較小）的決策樹，同時在k-means成本函數方面仍能誘導出良好的劃分。此外，他們提出了兩個用于衡量可解釋性的結構度量：加權平均深度（WAD），該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權；加權平均解釋大小（WAES），是WAD的一個變體。受穩健性研究的啟發，Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹，以精確匹配參考聚類結果，其中可解釋性通過刪除的點數來衡量。

**6.2 基于規則的方法

與決策樹不同，基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀，通過一組規則來描述聚類中的樣本。據我們所知，盡管if-then規則作為可解釋模型已經廣泛被接受，并得到了廣泛研究，但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此，針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例（即滿足解釋的聚類內樣本）的總數，同時最小化假陽性案例（即聚類外滿足解釋的個體）的總數。此外，規則的長度受到限制，以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集，然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集，研究了事件日志的解釋搜索。通過迭代過程，他們不斷提高實例解釋的準確性和簡潔性。在此基礎上，Koninck等人 [68] 從黑箱支持向量機（SVM）模型中為每個個體實例挖掘簡潔規則，并討論和評估可用于解釋技術的不同替代特征集。

**6.3 其他方法

除了上述的決策樹和if-then規則外，文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限，我們將不逐一回顧每個模型，而是在此提供總體總結。原型：Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體，其與聚類內其他個體的相似性最小。在他們的方法中，他們解決了一個雙目標優化問題，以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量，同時最小化其他聚類中的假陽性案例的數量。 凸多面體：在文獻[55]中，圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題，其中變量對應于用于描述聚類的候選半空間。此外，他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數：超立方體的數量和實例的緊湊性。采用啟發式搜索方法（NSGA-II）來識別一組非支配解，定義理想點以確定最合適的解決方案，每個聚類由盡可能少的超立方體覆蓋。描述：Davidson等人 [69] 提出了聚類描述問題，其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述，以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量，以及任何兩個描述可以共同覆蓋的聚類的最大數量。

**6.4 總結

幾種代表性的可解釋聚類后方法總結在表2中。此外，還可以注意到以下幾點：首先，大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而，決策樹生成的解釋存在一些缺點，例如深層決策依賴于淺層決策。此外，可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外，適合的數據類型可能影響選擇哪種可解釋模型；例如，描述可能更適合社區分析。因此，涉及其他可解釋模型的聚類后方法需要進一步研究。

其次，現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本，或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而，只有少數方法強調解釋的簡潔性（除[22], [25]外），其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此，平衡可解釋模型的準確性和簡潔性，以及量化可解釋性指標，仍然是一個需要進一步研究的領域。

7 結論與未來方向

本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討，重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題，包括聚類前、聚類中和聚類后階段。在每個階段，相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義，以及它如何嵌入常用的可解釋模型中，如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類，使人類用戶能夠理解這些元素，并可能使這些聚類結果應用于高風險領域，從而滿足透明性和可信度的基本要求。為提供對該領域未來方向的有價值見解，我們根據不同方面對各種可解釋聚類方法進行了分類，并進一步總結了關鍵技術標準供讀者參考，例如：(1) 優化方法，說明來自不同領域的作者如何將可解釋性挑戰形式化，并使用哪些方法解決這些優化問題；(2) 與可解釋性相關的結構度量，這些度量可能被用于評估新方法的可解釋性質量，類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信，研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外，不同聚類階段的方法可以結合使用，因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下，構建可解釋的聚類算法變得困難。此外，針對復雜數據（如離散序列 [32]、網絡（圖） [70] 以及多視角和多模態數據 [71]）的可解釋聚類方法的研究仍然有限。

付費5元查看完整內容

大型語言模型 · 合成數據 · 綜述 ·

2024 年 7 月 5 日

[付費5元查看完整內容]基于大語言模型（LLM）的合成數據生成、策展和評估的綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在不斷發展的深度學習領域，數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型（LLMs）的出現為合成數據生成提供了一種以數據為中心的解決方案，緩解了現實世界數據的限制。然而，目前對這一領域的研究缺乏統一的框架，大多停留在表面。因此，本文基于合成數據生成的一般工作流程，整理了相關研究。通過這樣做，我們突出了現有研究中的空白，并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下，數據數量和質量的問題一直是一個長期存在的困境。大語言模型（LLMs）的革命性出現引發了深度學習領域的顯著范式轉變（Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023）。盡管有這些進展，大量高質量數據仍然是構建穩健自然語言處理（NLP）模型的基礎（Gandhi et al., 2024）。具體來說，這里的高質量數據通常指的是包含豐富監督信號（通常以標簽形式）并與人類意圖緊密對齊的多樣化數據。然而，由于高成本、數據稀缺、隱私問題等原因，依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的（Kurakin et al., 2023）。此外，多項研究（Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023）表明，人類生成的數據由于其固有的偏見和錯誤，可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題：是否有其他更有效和可擴展的數據收集方法可以克服當前的限制？

鑒于LLMs的最新進展，它們展示了生成與人類輸出相當的流暢文本的能力（Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a），由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說，合成數據旨在模仿真實世界數據的特征和模式（Liu et al., 2024）。一方面，LLMs通過廣泛的預訓練，積累了豐富的知識庫，并展現出卓越的語言理解能力（Kim et al., 2022; Ding et al., 2023a），這為生成真實的數據奠定了基礎。另一方面，LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性，從而能夠為特定應用創建定制的數據集，并設計更靈活的流程（Eldan and Li, 2023）。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用，合成數據生成對于深度學習的發展具有重要意義。如圖1所示，LLMs驅動的合成數據生成（Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023）使整個模型訓練和評估過程實現自動化，最小化了人類參與的需求（Huang et al., 2023），從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外，LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories（Eldan and Li, 2023）和Phi系列（Gunasekar et al., 2023; Li et al., 2023b）的見解強調了數據質量對于有效模型學習的重要性，而LLMs賦予我們主動“設計”模型學習內容的能力，通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月，Hugging Face上已有超過300個被標記為“合成”的數據集，許多主流LLMs利用高質量的合成數據進行訓練，包括Alpaca（Taori et al., 2023）、Vicuna（Zheng et al., 2023）、OpenHermes 2.5和Openchat 3.5（Wang et al., 2023a）。

盡管看似簡單，但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程，并涉及許多技巧（Gandhi et al., 2024），使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務（如預訓練（Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023）、微調（Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a）、評估（Feng et al., 2023; Wei et al., 2024））和不同領域（如數學（Yu et al., 2023a; Luo et al., 2023a）、代碼（Luo et al., 2023b; Wei et al., 2023b）、指令（Honovich et al., 2023a; Wang et al., 2023d））進行數據生成，但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題，并開發通用工作流程，本綜述調查了最近的研究，并根據生成、策展和評估三個密切相關的主題進行組織，如圖2所示。我們的主要目的是提供該領域的全面概述，確定關鍵關注領域，并突出需要解決的空白。我們希望為學術界和工業界帶來見解，并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

大型語言模型 · 自動程序修復 ·

2024 年 5 月 5 日

[付費5元查看完整內容]大型語言模型自動程序修復的系統文獻綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自動程序修復（APR）試圖修補軟件缺陷并減少手動調試的工作。最近，隨著大型語言模型（LLMs）的進步，提出了越來越多的APR技術，顯著地促進了軟件開發和維護，并展示了卓越的性能。然而，由于基于LLM的APR領域的持續探索，研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述，總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先，我們分類了現有的流行LLMs，這些模型被應用于支持APR，并概述了三種部署策略。此外，我們詳細描述了一些從LLMs受益的特定修復場景，例如，語義錯誤和安全漏洞。進一步地，我們討論了幾個將LLMs整合到APR研究中的關鍵方面，例如，輸入形式和開放科學。最后，我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言，我們的論文為APR社區提供了一個系統的研究概覽，幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用：//github.com/iSEngLab/AwesomeLLM4APR。

軟件缺陷被公認為不可避免且具有破壞性，為全球用戶帶來安全問題，并每年造成數十億美元的經濟損失【11, 156】。對開發者而言，手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復（APR）在軟件開發和維護中扮演著至關重要的角色，旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來，過去幾十年中APR已被廣泛研究【43, 105】，研究者們提出了多種APR技術，包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近，受到深度學習（DL）進步的啟發，越來越多基于學習的APR技術被提出，這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力，基于學習的APR在過去幾年中取得了顯著的表現【182】，吸引了學術界和工業界的廣泛關注【69, 70, 73】。最近，大型語言模型（LLMs）已成功應用于廣泛的源代碼相關任務【147, 184】，如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據，LLMs展示了令人印象深刻的性能，并從根本上改變了軟件工程（SE）社區的研究范式。在APR領域，從先驅研究開始，例如TFix【7】、CIRCLE【176】和AlphaRepair【163】，社區已經見證了利用LLMs的修復研究的爆炸性增長，已經取得了相當的優勢，并進一步顯示了未來研究的重大潛力。然而，LLMs在APR中的整合是一個相當復雜的任務，使得有興趣的研究者難以理解現有工作。例如，現有基于LLM的APR研究涵蓋了不同的研究視角（例如，經驗性【162】、技術性【163】和基準研究【187】）、修復階段（例如，補丁生成【186】和正確性評估【183】）、修復場景（例如，靜態警告【69】和語法錯誤【70】）、模型架構（例如，僅編碼器【185】和僅解碼器【100】）以及模型使用范式（例如，微調【176】、少量樣本【108】和零樣本【186】）。盡管該領域的探索仍在進行中，目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述，這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。本文。為了彌補這一差距，我們的工作提供了第一個系統的文獻綜述，關于迅速出現的基于LLM的APR研究的部署。基于此，社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些，以及它們如何被整合到修復工作流中。我們收集了127篇相關論文，并從LLMs、APR和整合視角進行了系統分析。通過我們的分析，我們揭示了當前的挑戰，并指出了基于LLM的APR研究可能的未來方向。總體來說，這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽，幫助研究者在這個迅速發展的領域中導航，并推動創新實踐。貢獻。總結來說，本工作做出了以下貢獻： * 調查方法論。我們進行了第一個系統的文獻綜述，涵蓋了127篇高質量的APR論文，這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs，并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景，涵蓋了18種錯誤類型，如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素，包括數據集、輸入表現形式和開放科學，這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰，并指出了未來基于LLM的APR研究的一些潛在指南。

論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后，根據上述貢獻，第3節列出了我們的研究問題（RQs）和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景，并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素，包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南，提供近期LLMs在APR應用的全面概覽。為了實現這一點，這個系統的文獻綜述回答了以下研究問題（RQs）： * RQ1：利用LLMs的APR研究的趨勢是什么？

(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢，從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文，其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域，包括軟件工程（SE）、人工智能（AI）和安全性。 (4) 有18種編程語言已被基于LLM的APR應用，其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言，如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究，而有兩篇論文執行了用戶研究，以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2：哪些受歡迎的LLMs已被應用于支持APR？

(1) 我們總結了46種不同的LLMs，這些模型已被用于修復缺陷，并且可以根據模型架構分為三類，即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構，其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs，分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法，即微調、少量樣本和零樣本。 * RQ3：哪些修復場景已由LLMs促進？

總體來看，我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用，涉及18種錯誤類型。在一些由傳統APR主導的常見場景中，例如語義錯誤，研究者繼續投入大量努力研究LLMs的應用。此外，由于LLMs從所有可能的互聯網數據中學到的通用知識，基于LLM的APR已擴展到一些以前未探索的罕見場景，如硬件缺陷和Web UI。 * RQ4：哪些關鍵因素有助于LLMs在APR中的整合？

(1) 我們總結了78種不同的數據集，這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中，Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組：原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式，這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具，而在頂級SE出版物中，這一比例增加到了86.84%。

付費5元查看完整內容

多模態融合 · 低質量數據 ·

2024 年 5 月 4 日

[付費5元查看完整內容]低質量數據的多模態融合綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態融合致力于整合來自多種模態的信息，目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中，多模態融合已取得顯著進展。然而，在低質量數據環境下，多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展，并將它們呈現在一個全面的分類體系中。從數據中心的視角，我們確定了低質量數據上多模態融合面臨的四個主要挑戰，即**（1）噪聲多模態數據，它們被不同種類的噪聲污染；（2）不完整的多模態數據，某些模態缺失；（3）不平衡的多模態數據，不同模態的質量或屬性有顯著差異；以及（4）質量變化的多模態數據**，每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀，并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態，例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠，人類也能從不完美的多模態輸入中提取有用線索，并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展，我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值，多模態融合作為一種有前景的范式出現，通過整合所有可用線索進行下游分析任務，以獲得精確和可靠的預測，例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說，融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而，人們越來越認識到，廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中，由于意外的環境因素或傳感器問題，不同模態的質量通常存在差異。一些最近的研究實證和理論上表明，傳統的多模態融合可能在野外的低質量多模態數據上失敗，例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制，并向實際應用中強大且通用的多模態學習邁進一步，我們確定了低質量多模態數據的特性，并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中，我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下（也在圖1中直觀展示）： (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰，同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據（即不完整的多模態數據）。例如，在醫療領域，即使是患有同一疾病的患者也可能選擇不同的醫療檢查，產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如，視覺模態通常比聽覺模態更有效，導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能，但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中，由于不可預見的環境因素或傳感器問題，一個模態的質量通常會因不同樣本而變化。例如，在低光或逆光條件下，RGB圖像的信息量不如熱成像模態。因此，在實際應用中，意識到融合中的質量變化并動態整合多模態數據是必要的。為了應對這些日益重要的多模態融合問題，本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同，這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰，包括聚類、分類、對象檢測和語義分割。在以下部分中，我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域：在噪聲多模態數據上的學習（第2節）、缺失模態插補（第3節）、平衡多模態融合（第4節）和動態多模態融合（第5節）。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態，傳感器中的電子噪聲會導致細節丟失。此外，音頻模態可能因環境因素受到意外的扭曲。更糟糕的是，弱對齊甚至未對齊的多模態樣本也常見，這存在于更高級別的語義空間中。幸運的是，考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明，多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性，識別和減輕潛在噪聲的能力。多模態噪聲大致可以根據其來源分為兩類：1) 模態特定噪聲，來源于各個模態的傳感器錯誤、環境因素或傳輸；2) 跨模態噪聲，來源于未對齊的多模態對，可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整，某些樣本的部分模態因意外因素（如設備損壞、數據傳輸和存儲損失）而缺失。例如，在面向用戶的推薦系統中，瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地，雖然結合多種模態的數據，例如磁共振成像（MRI）掃描、正電子發射斷層掃描（PET）和腦脊液（CSF）信息，可以為阿爾茨海默病提供更準確的診斷【49】【50】，但由于PET掃描的高測量成本和CSF的不適感侵入性測試，一些患者可能拒絕進行這些檢查。因此，在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常，傳統的多模態學習模型假設多模態數據的完整性，因此不能直接適用于部分模態缺失的情況。針對這一問題，旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現，并在近年來獲得了越來越多的研究關注【52】。在本節中，我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看，我們將現有方法分為兩大類，包括基于插補的和無插補的不完整多模態學習，其中基于插補的方法進一步分為兩組，如圖2所示，包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關，因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛，其中多種模態被整合，旨在增強對相關事件或對象的理解。然而，盡管存在自然的跨模態相關性，每種模態都有其獨特的數據來源和形式。例如，音頻數據通常表現為一維波形，而視覺數據則由像素組成的圖像構成。一方面，這種差異賦予了每種模態不同的屬性，如收斂速度，然后使得同時處理和學習所有模態變得困難，給聯合多模態學習帶來了難度。另一方面，這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念，它們與目標事件或對象相關的信息量不同。例如，考慮一個標有會議的音視覺樣本，視覺數據明顯顯示了會議的視覺內容，這很容易被識別（見圖1c）。而相應的音頻數據是嘈雜的街道汽車聲，很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】，多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態，同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能，最近的研究集中于策略上，以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設，即多模態數據的質量是靜態的，這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題，一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外，不同模態的質量會根據場景動態變化，如圖5所示。這一現象激發了一種新的多模態學習范式，即動態多模態融合，其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中，我們關注動態多模態融合的挑戰，并將當前文獻中的進展分類為三個主要方向，包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

貝葉斯遷移學習 · 遷移學習 · 概率圖模型 ·

2021 年 10 月 17 日

[付費5元查看完整內容]貝葉斯遷移學習: 遷移學習的概率圖模型概述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為，已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具，具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功，將PGMs應用于遷移學習似乎是很自然的。然而，盡管在文獻中已經有一些優秀的遷移學習特異性PGMs，但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究，即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。

引言

遷移學習是從源領域中提取可遷移的知識，并在目標領域中重用該知識的行為，這是一種自然的人類現象，即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)}，遷移學習的目的是借助DS改進DT中的學習任務，其中X為特征空間，P(X)為數據分布。”當XS = XT時，為同質遷移學習;當XS= XT時，為異質遷移學習。需要注意的是，遷移學習可以被看作是前面提到的問題，也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論，因此可以訓練一個分類器，并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如，在電影領域中，“觸摸我的心”是褒義詞，而在計算機領域中，“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中，有幾個與遷移學習密切相關的概念誤導了讀者，如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們，例如目標域中是否有標記數據。本文并沒有明確區分它們，但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al.， 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能，而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題，它向其他類似領域的機器人尋求幫助，并向他們學習，問題就解決了。因此，我們認為遷移學習不僅在統計機器學習領域，而且在機器人甚至一般人工智能領域都有很好的前景。

概率圖模型(PGM) (Wainwright, Jordan等，2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支，它是一個豐富的框架，用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點，以概率相關性為邊的圖，如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向)，概率圖模型分為有向和無向兩類。例如，隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum， & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務，第一步是分析問題的本質，然后設計一些變量及其關系來捕捉這種本質。換句話說，這一步是設計PGM的圖結構，該結構應共同考慮觀測數據和目標任務的附加知識。請注意，這個步驟沒有確切的過程，因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如，在Latent Dirichlet Allocation模型(Blei, Ng， & Jordan, 2003)中，文檔由滿足Dirichlet或多項分布的隨機變量建模，變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano， & Kondo, 2013)中，文檔由滿足Gamma或Poisson分布的隨機變量建模，變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下，討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外，從第一步開始的PGM實際上是一組模型，因為所設計的概率分布通常帶有未知的參數，不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的)，第二步是推斷潛在變量的后驗分布，并估計模型參數。對于一些稀疏圖，有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此，一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird， & Rubin, 1977)，拉普拉斯近似，期望傳播(Minka, 2001)，蒙特卡洛馬爾可夫鏈(Neal, 1993)，變分推理(Blei, Kucukelbir， & McAuliffe, 2017)。此外，設計的變量之間的概率相關性也可能不是固定的，而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡，其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎，概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al.， 2003)、自然語言處理(Sultan, Boyd-Graber， & Sumner, 2016) 和計算機視覺(Gupta, Phung， & Venkatesh, 2012) 等多個領域研究者的關注。

與機器學習中的其他模型(如支持向量機)相比，概率圖模型具有以下優點，這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中，當然也出現在他們的觀察(數據)中。例如，人們在編寫關于特定主題的文檔時可能會使用不同的詞匯，所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統，用戶只對有限數量的項目進行評級，因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl， & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成，因此人類專家可以評估其語義和屬性，甚至將他們的知識納入模型。通過PGM的結構，人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力，可以比較鑒別模型，特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究，如: 綜合研究(Pan & Yang, 2010;Weiss et al.， 2016)，應用，如強化學習(Taylor & Stone, 2009)，協同過濾(Li, 2011)，視覺分類(Shao, Zhu， & Li, 2015)，人臉和物體識別(Patel, Gopalan, Li， & Chellappa, 2015)，語音和語言處理(Wang & Zheng, 2015)，活動識別(Cook, Feuz， & Krishnan, 2013)，和方法論，如計算智能(Lu, Behbood, Hao, Zuo, Xue， & Zhang, 2015)，在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果，總結了已有的遷移研究的基本方法，為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述，并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用，并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。

本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后，第四部分對本文進行了總結，并提出了進一步研究可能面臨的挑戰。

付費5元查看完整內容

深度學習 · 數據庫 · 自然語言接口 ·

2021 年 9 月 27 日

[付費5元查看完整內容]基于深度學習的數據庫自然語言接口綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：數據庫自然語言接口(natural language interface to database, NLIDB)能夠憑借自然語言描述實現數據庫查詢操作，是促進用戶無障礙地與數據庫交互的重要工具.因為NLIDB具有較高的應用價值，近年來一直受到學術與商業領域的關注.目前成熟的NLIDB系統大部分基于經典自然語言處理方法，即通過指定的規則實現自然語言查詢到結構化查詢的轉化.但是基于規則的方法仍然存在拓展性不強的缺陷.深度學習方法具有分布式表示和深層次抽象表示等優勢，能深入挖掘自然語言中潛在的語義特征.因此近年來在NLIDB中，引入深度學習技術成為了熱門的研究方向.針對基于深度學習的NLIDB研究進展進行總結：首先以解碼方法為依據，將現有成果歸納為4種類型分別進行分析；然后匯總了7種模型中常用的輔助方法；最后根據目前尚待解決的問題，提出未來仍需關注的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200209

付費5元查看完整內容

游客

閱讀: 0 點贊: 0

小貼士

登錄享主題訂閱及個性化推薦

相關主題

AI與醫療

疾病診斷

大型語言模型

北京阿比特科技有限公司

注冊地址：北京市海淀區羊坊店路18號2幢3層301-191

亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

相關內容

3 方法學

**3.1 基于正則化的方法

3.2 基于架構的方法

**3.2.1 固定架構

**3.2.2 動態架構

3.3 基于重放的方法

**3.3.1 直接重放

**3.3.2 偽重放

3.4 基于提示的方法

4 數據集和基準

**4.1 基于原始數據集的基準

**4.2 基于多個數據集的基準

5 未來研究方向

**5.1 提升模態數量與質量

**5.2 更高效的計算資源利用

**5.3 增強零樣本能力和泛化性能

**5.4 應對多模態數據中的模態失衡

5.5 提高模型對隱私與數據安全的適應性

**擴散模型基礎

三維視覺基礎

**A. 三維表示

**B. 三維視覺中的深度學習方法

**C. 三維視覺中的挑戰

三維擴散生成任務

**A. 無條件生成

**B. 條件生成

**C. 三維編輯與操作

**D. 新視角合成

**E. 深度估計

結論

2 可解釋聚類的必要性

**2.1 什么是可解釋聚類？

**2.2 什么是好的可解釋聚類方法？

3 可解釋聚類方法的分類

4 可解釋的聚類前方法

**4.1 特征提取

**4.2 特征選擇

5 可解釋的聚類中方法

**5.1 基于決策樹的方法

**5.2 基于規則的方法

**5.3 其他方法

**5.4 總結

6 可解釋的聚類后方法

**6.1 基于決策樹的方法

**6.2 基于規則的方法

**6.3 其他方法

**6.4 總結

7 結論與未來方向