摘要—近年來,聚類算法的研究主要集中在提高其準確性和效率,往往以犧牲可解釋性為代價。然而,隨著這些方法越來越多地應用于高風險領域,如醫療保健、金融和自動化系統,透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任,還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求,本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述,并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策,同時也促進了既高效又透明的聚類算法的發展和采用。
關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能(XAI) 導論
聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務,旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系,從而促進各種應用和進一步的分析。 幾十年來,已經提出了許多算法來解決不同應用中的聚類問題,并取得了很高的準確性。然而,在大多數情況下,聚類模型作為一個“黑箱”存在,導致了常見的問題,例如:聚類結果是如何形成的?人們能否理解聚類結果形成的邏輯?模型是否可信?模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用,本論文將全程使用“可解釋性”一詞。
至今,可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如,在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”,在文獻 [5] 中定義為“人類能夠理解決策原因的程度”,而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。
然而,模型的可解釋性可能因用戶的實際需求而異,并且可以在不同維度上表現出來。在某些疾病研究中,醫生通常更關心識別患者特征,這些特征表明患病的可能性較高,以及這些特征是否能有助于早期診斷。相比之下,數據科學家則關注設計可解釋的模型,為患者提供有說服力的解釋,并有效闡明每個患者被歸類為特定疾病類型的原因,從而幫助理解各種特征對結果的影響。因此,盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性,但仍然有必要對這些方法進行系統的總結和區分。
據我們所知,已經有一些綜述文章總結了與可解釋性相關的方法。然而,這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11],要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白,我們全面收集了現有的可解釋聚類方法,并提出了一套分類標準,以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外,我們將聚類過程劃分為三個階段,并根據不同階段的可解釋性對所有可解釋聚類方法進行分類,構建了本綜述的總體框架:(1)特征選擇階段(聚類前),(2)模型構建階段(聚類中),和(3)模型解釋階段(聚類后)。我們相信,本綜述將為讀者提供對可解釋聚類的新理解,并為該領域未來的研究奠定基礎。
本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性,回顧了可解釋的聚類前、聚類中和聚類后方法。最后,第7節總結了本文,并討論了未來的研究方向。
隨著人工智能和機器學習算法的進步并在各種任務中表現出色,它們正被應用于多個領域。然而,它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]:開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說,理解和信任算法如何得出結果至關重要。例如,開發者需要理解算法如何產生有意義的結果,并認識到其局限性,從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識,并且是否有充分的依據。監管者需要考慮算法結果的影響,例如公平性、潛在的歧視,以及風險和責任所在。這要求整個算法過程具備透明性和可信度。
為應對這些挑戰,可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的,聚類方法旨在通過生成模式作為數據的初步理解。在這一階段,聚類的可解釋性以及算法機制的透明性需求變得愈發重要。
傳統的聚類算法通常注重提供聚類結果,將準確性和效率作為首要任務,尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”,尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值,并將它們積極地納入聚類結果的生成中。然而,“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明,使得最終用戶更難理解。
相比之下,可解釋的聚類方法明確旨在解釋聚類結果,使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果,使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值(如年齡、收入)來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果,并評估從中得出的結論是否可信。
好的可解釋聚類方法應提供明確的證據,解釋聚類結果是如何得出的,為最終用戶提供理解算法行為及其背后邏輯的機會。然而,最終用戶是否選擇信任這些證據,可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家,我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。
首先,可解釋證據的形式應盡可能簡單。例如,用于生成某一聚類的特征值的數量應盡量減少,這可以大大降低最終用戶理解結果的復雜性。其次,每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說,理想情況下,同樣的可解釋證據應僅對應一個特定的聚類,而不會與其他聚類重疊。這種獨特性增強了證據的可信度,確保最終用戶相信它與特定的聚類緊密相關,從而減少了與其他不同功能的聚類混淆的可能性。
為了確定可解釋聚類方法的好壞,甚至量化其效果,必須考慮所使用的具體可解釋模型。例如,當使用決策樹模型時,通過樹的分裂,可以清晰地定義每個聚類的證據是高度獨特的,從而滿足了基本的獨特性要求。此外,可以通過檢查樹的結構參數(如葉節點的數量,即聚類的數量,和樹的平均深度)來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程,每個分支節點記錄了導致聚類的決策(分裂特征值)。使用更少的特征值可以生成更簡潔的可解釋證據,使最終用戶更容易理解和信任聚類結果。
在本節中,通過收集和總結現有的可解釋聚類方法,我們建立了以下分類標準以系統地對它們進行分類: 首先,基于廣泛認可的聚類過程,現有的可解釋聚類方法可以分為三類:聚類前方法、聚類中方法和聚類后方法。具體來說,聚類前方法通常在聚類過程之前執行,通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型,能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果,試圖通過可解釋模型來解釋黑箱模型生成的結果。
其次,大多數方法,尤其是聚類中和聚類后方法,可以根據它們使用的不同可解釋模型來區分(如圖1所示),這些模型包括以下幾類:
第三,現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果,但也有一些方法強調從復雜數據中提取可解釋特征,或研究特定聚類及其相關特征之間的關系,從而增強可解釋性。
最后,方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據(數值型、類別型或兩者的組合)、序列數據(如離散序列和時間序列)、圖像、文本以及圖數據。
圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時,它們也可以用于識別符合特定可解釋性和性能要求的方法。
在研究可解釋的聚類模型時,雖然我們的目標是實現更透明的模型,但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說,現有的可解釋聚類前方法,重點研究在聚類之前進行的工作,可以從兩個角度來探討:(1) 特征提取 和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究,但它們很少與可解釋性聯系起來,尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此,我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表,并在以下兩個小節中詳細說明。
從特征提取角度來看,可解釋的聚類前方法通常集中在復雜數據類型上,例如多變量時間序列(MTS)。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型,這些模型能夠更好地捕捉復雜數據中的顯著特征,從而增強可解釋性并促進更好的理解。 在多變量時間序列領域,文獻 [16] 提出的系統自動從信號中提取特征,涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征,作者提出了兩種方法:一種是采用主特征分析(PFA)的無監督模式,另一種是結合用戶在小樣本數據集上的注釋的半監督模式,顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇,并使用退火均方誤差正則化鼓勵稀疏性,模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類,增強了聚類的相關性和可解釋性。 基于格式塔理論,文獻 [18] 提出了一種可解釋的波段選擇算法,其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建,從高光譜圖像序列中提取三個波段形成偽彩色圖像,增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型,通過歐幾里得距離最小化三個通道與標準顏色之間的差異,實現不同波段的偽彩色映射,直觀地顯示特定光譜波段內的目標差異,符合視覺感知的原則。
另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征,以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性,同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控,以學習每個輸入樣本特定的稀疏門控向量。然后,使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋,使得模型在保持可解釋性的同時為每個實例使用更少的特征。
為了應對患者臨床事件日志聚類中的可解釋性不足問題,Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理,他們識別出與聚類結構相關的特定特征,并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。
Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征,從權重最高的特征開始,選擇它,除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性,計算特征集合的交集與并集的比率。
可解釋的聚類中方法作為可解釋聚類方法中的直接來源,將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標,與傳統的聚類標準(如k-means中的SSE)結合在一起。一些方法將可解釋性與傳統聚類標準結合起來,作為一個多目標優化問題 [22],而大多數方法則將其視為與某些結構參數相關的附加項 [23]。 有兩個典型的場景(S1和S2)可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆,具體取決于可解釋性是在何階段被考慮的: S1: 是否需要第三方算法的輸入? 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果(如使用通過樹生長派生聚類的決策樹模型),也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入,它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的,而不是通過擬合第三方算法的結果來保證近似性,則該方法更傾向于可解釋的聚類中方法。
為了更清晰地說明聚類中方法與聚類后方法之間的區別,我們可以考慮以下示例: S1 示例參考:盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量,前者代表了一種聚類后方法,而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類,并根據該聚類擬合決策樹,而文獻[23]允許參考聚類的變化,以發現更具可解釋性的聚類。因此,它們在過程中何時考慮可解釋性方面有所不同,決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征,使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的,任何后續解釋都可能被視為事后合理化,這可能使其不太可靠。理想情況下,可信的聚類結果應由可解釋模型直接產生 [14],減少對第三方聚類算法的依賴,并增強過程中的透明性和可控性。
S2: 數據集中的特征是否固有可解釋? 可解釋的聚類中方法處理各種形式的數據,并根據數據集特征的特性進行調整。對于典型的向量數據,特征通常是可解釋的 [26]:(1)對于數值特征,可以通過確定特征值是否大于或小于閾值來切分特征向量,這是決策樹聚類中常用的方法;(2)對于類別特征,值也可以基于是否包含或排除特定類別進行解釋。然而,對于缺乏顯式特征的社會和生物網絡數據 [27],可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像,其特征可能缺乏固有的可解釋性(例如,沒有清晰結構意義的像素矩陣),發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中,如描述性聚類領域 [29],重點轉向識別可解釋的標簽。總而言之,處理這些具有不可解釋特征的復雜數據時,通常需要結合深度學習技術 [30],[31]。對于類別順序數據集,每個樣本是一個長度可變的離散序列,一些常規的序列聚類方法需要將序列轉換為特征向量。然而,這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出,在構建可解釋的聚類方法之前,需要進行區分性序列模式挖掘。 某些方法將解釋性特征的搜索與聚類過程本身緊密結合,這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性,而不是對象/實例級別的可解釋性。以下是一些示例,這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起:
S2 示例參考:Kim等人 [33] 提出了一種生成方法,用于識別高維二元數據聚類中區分維度,促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中,使用基于邏輯的特征提取將維度分組為可解釋的集合,從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習,通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失,增強了聚類性能和可解釋性。
在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后,以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成,特別關注典型的可解釋模型類型。
決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點(聚類),遵循從根節點(代表整個數據集)向下經過分支節點的清晰透明路徑,最終用戶易于理解。 早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到,使用均勻分布的合成數據作為輔助數據來構建標準(監督)決策樹。這種方法旨在通過修改標準的分裂標準(如信息增益)最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂,易于理解,但依賴于數據生成引入了額外的假設,使得難以聲稱分裂是真正可解釋的。相比之下,文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準,并為每個分支節點分裂數據提出了兩種算法。然而,要選擇用于計算這些度量的候選分裂點,需要先將數值特征域劃分為區間。文獻[35]引入了CUBT,提出了一種更簡單的分裂標準和更直觀的算法框架,并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法,包括三個步驟:最大樹結構構建,隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44],其中在分支節點使用模糊分裂來增長初始樹,隨后合并相似的聚類以創建更緊湊的樹結構。 上述無監督決策樹模型采用自頂向下的方法,在當前分支節點級別考慮所有可能的候選分裂點,并計算異質性等標準,以便樹根據從父節點傳遞下來的最佳分裂貪婪地(貪婪搜索)增長。然而,這種類型的算法缺乏全局指導,意味著每次分裂都是局部優化,而不是在整個數據集上實現全局優化。 一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括,但不限于,文獻[36]中使用的混合整數線性優化(MIO)技術 [45],文獻[24]中使用的樹交替優化(TAO)技術 [46],以及文獻[23]中使用的單調優化技術(如分支減少和界限(BRB)算法)[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同,這些方法直接建立了分配到不同葉節點(聚類)的實例與可解釋性目標之間的關系,并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性,通常通過指定樹的結構度量 [15](例如葉節點的數量),文獻[23],[24]中使用的葉節點數量(nLeaf)較少,通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上,還提出了一些可解釋的模糊聚類算法。例如,文獻[48]采用核密度決策樹(KDDTs)通過交替優化策略構建模糊決策樹,而文獻[49]則在目標函數中引入了分裂的軟(概率)版本,并通過受約束的連續優化模型獲得最優分裂。
挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類,規則集通常具有兩個關鍵特征 [51]:(1)頻率(有意義),表示規則集應盡可能覆蓋其對應聚類中的樣本(真陽性);(2)區分能力(獨特),表示規則集應盡量減少覆蓋其他聚類樣本的數量(假陽性)。
為了獲得用于可解釋聚類的規則集,一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如,如文獻[37]所示,可解釋性評分用于評估某個特征值與聚類的相關性,通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集(如使用頻繁模式挖掘生成)中,這些方法旨在派生最大化可解釋性評分的聚類,同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突,現有方法通常將可解釋性評分作為用戶指定的邊界,以平衡可解釋性和聚類質量,并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準:一個類似于文獻[37],另一個則考慮規則集的獨特性,即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合,形成了多目標混合整數線性優化問題(multi-MIO)。此外,文獻[22]考慮了規則集長度(lenRule)的最大值,即組合中的特征值數量作為約束,確保通過簡潔的規則表示的聚類更加可解釋。
其他基于規則的可解釋方法可能是定制化的,其中規則的含義不僅僅基于特征值。例如,在文檔數據集[52]中,規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。
除了上述兩種廣泛使用的可解釋模型外,其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格,這些方法通常可以歸類為基于邊界或類質心的方法。然而,為了使這些代表性元素具有可解釋性,某些屬性需要保持。以下是這些方法的簡要概述。
凸多面體:這些方法將聚類邊界限制為在特征空間中軸平行(矩形),如文獻[38]中提出的方法,該方法設計了一個概率判別模型(PDM)來定義此類聚類。更普遍地,它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。
無論是哪種情況,目標都是創建具有更少特征值的聚類,并將這些作為可解釋性約束納入標準聚類目標函數中。例如,文獻[39]使用混合整數非線性優化(nonlinear-MIO)編程公式來同時識別聚類并定義多面體。對于軸平行邊界,每個維度使用一個特征值,而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力,但由于其復雜性增加,相較于簡單的軸平行邊界,其可解釋性較低。
原型(示例):在原始特征不可解釋且難以理解的數據集中,如圖像和文本,尤其是在使用深度嵌入時,最近關于通過示例進行可解釋聚類的工作發現,尋求高層次的類質心可以用于表征聚類并促進可視化。例如,文獻[40]解決了在沒有事先指定的情況下找到最少示例數量(nExemplar)的挑戰。此外,文獻[31]提出了一個新的端到端框架,旨在提高大型數據集的可擴展性,使基于示例的聚類更具現實應用的可行性。
各種可解釋模型已經為聚類中方法開發出來,還有其他潛在模型需要進一步研究(如表1所示)。這些模型始終將可解釋性視為與聚類質量同等重要的目標,并將其直接或間接地作為優化目標,具體取決于模型類型。例如,基于樹的模型通常優先減少分支或葉節點的數量,基于規則的模型則側重于簡短的規則,幾何表示模型,如基于原型的模型,旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如,文獻[25]中考慮了樹的深度作為優化目標;然而,這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。
可解釋性與聚類質量之間往往存在權衡,增強其中一個可能會削弱另一個。在聚類后方法中,這一經常討論的挑戰可能不那么嚴峻,因為這些方法只需要專注于一個方向,即擬合給定的聚類結果。相比之下,聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示,幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊,但更靈活的斜決策樹 [24]可以提高聚類性能。同樣,凸多面體方法可以通過允許對角邊界受益 [39],而不僅限于軸平行的矩形,前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。
模型后的可解釋性是可解釋學習中的一個關鍵方面,側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下,可解釋的聚類后方法指的是使用可解釋模型(如決策樹)來盡可能接近地逼近現有的聚類結果(也稱為參考聚類結果)。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中,從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。
決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中,每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點(不一定是實際的聚類數量)對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。
在基于決策樹的聚類后方法中,構建的決策樹所獲得的聚類結果與參考聚類結果越接近,其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54],即可解釋聚類的成本與最優聚類(例如k-means/medians)的成本的比率。因此,目標通常是構建一個決策樹T,使得cost(T)與最優k-means/medians的成本相比不太大。具體來說,當一個算法返回一個閾值樹T時,它具有x-近似保證,即cost(T) < x · cost(opt)。
關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹,旨在最小化每個分裂的錯誤數(即從對應參考聚類中心分離的點數),當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似,在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最優k-medians上實現了O(d log k)的近似,在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹(其中d是數據的維數),然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先(LCA)相關。Makarychev等人 [59] 采用了不同的方法,在相對隨機的情況下選擇分裂特征和值,以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k),最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中,每個分裂節點的分割選擇完全是隨機的,只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值,排序這些值,然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64],在此不作詳細闡述。
不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力,Frost等人 [65] 采用了[25]的方法,構建了一棵具有k個葉節點的樹,然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點,并證明隨著k′增加,代理成本是不增加的。這種方法降低了聚類成本,同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋(即樹的深度較小)的決策樹,同時在k-means成本函數方面仍能誘導出良好的劃分。此外,他們提出了兩個用于衡量可解釋性的結構度量:加權平均深度(WAD),該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權;加權平均解釋大小(WAES),是WAD的一個變體。受穩健性研究的啟發,Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹,以精確匹配參考聚類結果,其中可解釋性通過刪除的點數來衡量。
與決策樹不同,基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀,通過一組規則來描述聚類中的樣本。據我們所知,盡管if-then規則作為可解釋模型已經廣泛被接受,并得到了廣泛研究,但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此,針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例(即滿足解釋的聚類內樣本)的總數,同時最小化假陽性案例(即聚類外滿足解釋的個體)的總數。此外,規則的長度受到限制,以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集,然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集,研究了事件日志的解釋搜索。通過迭代過程,他們不斷提高實例解釋的準確性和簡潔性。在此基礎上,Koninck等人 [68] 從黑箱支持向量機(SVM)模型中為每個個體實例挖掘簡潔規則,并討論和評估可用于解釋技術的不同替代特征集。
除了上述的決策樹和if-then規則外,文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限,我們將不逐一回顧每個模型,而是在此提供總體總結。 原型:Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體,其與聚類內其他個體的相似性最小。在他們的方法中,他們解決了一個雙目標優化問題,以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量,同時最小化其他聚類中的假陽性案例的數量。 凸多面體:在文獻[55]中,圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題,其中變量對應于用于描述聚類的候選半空間。此外,他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數:超立方體的數量和實例的緊湊性。采用啟發式搜索方法(NSGA-II)來識別一組非支配解,定義理想點以確定最合適的解決方案,每個聚類由盡可能少的超立方體覆蓋。 描述:Davidson等人 [69] 提出了聚類描述問題,其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述,以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量,以及任何兩個描述可以共同覆蓋的聚類的最大數量。
幾種代表性的可解釋聚類后方法總結在表2中。此外,還可以注意到以下幾點:首先,大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而,決策樹生成的解釋存在一些缺點,例如深層決策依賴于淺層決策。此外,可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外,適合的數據類型可能影響選擇哪種可解釋模型;例如,描述可能更適合社區分析。因此,涉及其他可解釋模型的聚類后方法需要進一步研究。
其次,現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本,或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而,只有少數方法強調解釋的簡潔性(除[22], [25]外),其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此,平衡可解釋模型的準確性和簡潔性,以及量化可解釋性指標,仍然是一個需要進一步研究的領域。
本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討,重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題,包括聚類前、聚類中和聚類后階段。在每個階段,相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義,以及它如何嵌入常用的可解釋模型中,如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類,使人類用戶能夠理解這些元素,并可能使這些聚類結果應用于高風險領域,從而滿足透明性和可信度的基本要求。 為提供對該領域未來方向的有價值見解,我們根據不同方面對各種可解釋聚類方法進行了分類,并進一步總結了關鍵技術標準供讀者參考,例如:(1) 優化方法,說明來自不同領域的作者如何將可解釋性挑戰形式化,并使用哪些方法解決這些優化問題;(2) 與可解釋性相關的結構度量,這些度量可能被用于評估新方法的可解釋性質量,類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信,研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外,不同聚類階段的方法可以結合使用,因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下,構建可解釋的聚類算法變得困難。此外,針對復雜數據(如離散序列 [32]、網絡(圖) [70] 以及多視角和多模態數據 [71])的可解釋聚類方法的研究仍然有限。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。
I. 引言
圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。
近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。
隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。
已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。
相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。
本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。
摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構
深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。
為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。
在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。
在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸:
SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。
SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。
SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。
Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。
數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。
總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:
我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。
我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。
我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。
我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。
Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。
初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。
樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。
標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。
采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。
通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。
如圖2頂部所示,Mixup方法遵循以下步驟:
在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。
摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。
引言
自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。
最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。
研究范圍概述
本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。
多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。
//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習
在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。
不完整多模態學習
在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習
不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合
當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml
人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。
摘要
遷移學習是指從源領域提取可遷移知識并將其重用到目標領域的行為,已成為人工智能領域的研究熱點。概率圖模型(PGMs)作為一種建模復雜系統的強大工具,具有處理不確定性的能力和良好的可解釋性。考慮到上述兩個研究領域的成功,將PGMs應用于遷移學習似乎是很自然的。然而,盡管在文獻中已經有一些優秀的遷移學習特異性PGMs,但PGMs在這一問題上的潛力仍然被嚴重低估。本文旨在通過以下幾個方面促進遷移學習的知識遷移模型的發展:1)考察遷移學習的知識遷移模型的試點研究,即分析和總結現有的專門設計的知識遷移機制;2)討論現有PGM成功應用于實際遷移問題的例子;3)利用PGM探討遷移學習的幾個潛在研究方向。
引言
遷移學習是從源領域中提取可遷移的知識,并在目標領域中重用該知識的行為,這是一種自然的人類現象,即使對于非常小的兒童(Brown & Kane, 1988)。形式定義如下(Pan & Yang, 2010):“給定源域DS = {XS, PS(X)}和目標域DT = {XT, PT (X)},遷移學習的目的是借助DS改進DT中的學習任務,其中X為特征空間,P(X)為數據分布。”當XS = XT時,為同質遷移學習;當XS= XT時,為異質遷移學習。需要注意的是,遷移學習可以被看作是前面提到的問題,也可以看作是解決這個問題的方法。一個經典的激勵例子是產品評論的跨領域(如電影和計算機領域) 情感預測: 1) 在電影領域有大量的標簽產品評論,因此可以訓練一個分類器,并應用于該領域的預測; 2)新計算機的評論標簽不足以訓練分類器進行進一步的情感預測; 3) 一個簡單的想法是直接來自電影領域的分類器應用到新電腦領域考慮兩個域之間的相似之處(例如,人們傾向于使用類似的詞語來表達他們的喜歡或不喜歡在不同的產品), 但它并不總是工作很可能導致負遷移(Weiss, Khoshgoftaar, & Wang, 2016). 因為它們在不同的上下文中存在差異(例如,在電影領域中,“觸摸我的心”是褒義詞,而在計算機領域中,“觸摸板”是中義詞)。如何結合源域和目標域提取可遷移知識是遷移學習的藝術。在文獻中,有幾個與遷移學習密切相關的概念誤導了讀者,如樣本選擇偏差、協變量轉移、類別不平衡、領域適應和多任務學習。(Pan & Yang, 2010)的研究試圖根據源域和目標域的設置來區分和組織它們,例如目標域中是否有標記數據。本文并沒有明確區分它們,但我們認為它們都是遷移學習。對這些概念及其區別的進一步討論可以在(Pan & Yang, 2010;Weiss et al., 2016)。識別、建模和利用兩個領域之間可遷移的知識的能力不僅提高了具體現實問題的性能,而且在促進機器人在沒有任何人類干預的情況下的自學習(像人類)方面邁出了重要的一步。想象一下這樣的場景:一個智能機器人面臨一個自己沒有知識的新問題,它向其他類似領域的機器人尋求幫助,并向他們學習,問題就解決了。因此,我們認為遷移學習不僅在統計機器學習領域,而且在機器人甚至一般人工智能領域都有很好的前景。
概率圖模型(PGM) (Wainwright, Jordan等,2008;Koller & Friedman, 2009)是統計機器學習的一個重要分支,它是一個豐富的框架,用于通過概率分布或隨機過程來建模(表達)來自領域的有限或無限個(可觀察或潛在)變量之間的復雜交互作用。它的名字來自于它的結構——一個以隨機變量為節點,以概率相關性為邊的圖,如圖1所示。根據節點/變量之間的邊緣類型(即有向或無向),概率圖模型分為有向和無向兩類。例如,隱馬爾可夫模型(Rabiner, 1989)是一種有向圖模型; 條件隨機場(Lafferty, McCallum, & Pereira, 2001)是無向圖模型的一個例子。將概率圖模型應用于目標任務包括以下兩個步驟: 1)模型設計和 2)模型推理。給定一個任務,第一步是分析問題的本質,然后設計一些變量及其關系來捕捉這種本質。換句話說,這一步是設計PGM的圖結構,該結構應共同考慮觀測數據和目標任務的附加知識。請注意,這個步驟沒有確切的過程,因為它嚴重依賴于處理同一問題的不同人員的視圖/理解。例如,在Latent Dirichlet Allocation模型(Blei, Ng, & Jordan, 2003)中,文檔由滿足Dirichlet或多項分布的隨機變量建模,變量之間通過Dirichlet-多項關系連接;在Gamma-Poisson模型(Ogura, Amano, & Kondo, 2013)中,文檔由滿足Gamma或Poisson分布的隨機變量建模,變量之間通過Gamma-Poisson關系連接。在不考慮具體任務的情況下,討論優點和缺點通常是困難和毫無意義的。PGM的輸出是給定觀測數據的圖模型定義的感興趣的邊際或關節后驗分布。另外,從第一步開始的PGM實際上是一組模型,因為所設計的概率分布通常帶有未知的參數,不同的參數設置會導致不同的模型。有了觀測數據(圖模型中的一些變量/節點的值是已知的),第二步是推斷潛在變量的后驗分布,并估計模型參數。對于一些稀疏圖,有一個精確的算法來學習PGM: 結點樹算法(Paskin & Lawrence, 2003; Wainwright et al., 2008)。但該算法不適用于任務復雜的復雜圖模型。因此,一些近似算法被發展來解決這個問題:期望最大化(Dempster, Laird, & Rubin, 1977),拉普拉斯近似,期望傳播(Minka, 2001),蒙特卡洛馬爾可夫鏈(Neal, 1993),變分推理(Blei, Kucukelbir, & McAuliffe, 2017)。此外,設計的變量之間的概率相關性也可能不是固定的,而是從數據中學習的(所謂結構學習)。一個例子是貝葉斯網絡,其中的網絡結構(即變量之間的依賴關系)可以從數據中學習。由于其強大的建模能力和堅實的理論基礎,概率圖模型受到了分子生物學(Friedman, 2004)、文本挖掘(Blei et al., 2003)、自然語言處理(Sultan, Boyd-Graber, & Sumner, 2016) 和 計算機視覺(Gupta, Phung, & Venkatesh, 2012) 等多個領域研究者的關注。
與機器學習中的其他模型(如支持向量機)相比,概率圖模型具有以下優點,這些優點可能有利于遷移學習: 1) 處理不確定性。不確定性幾乎出現在任何現實世界的問題中,當然也出現在他們的觀察(數據)中。例如,人們在編寫關于特定主題的文檔時可能會使用不同的詞匯,所以我們在構建模型以揭示隱藏的主題時需要考慮這種不確定性。PGMs能夠借助概率分布或隨機過程很好地處理(模型)這種不確定性; 2) 處理缺失數據。丟失數據的一個典型例子是來自推薦系統,用戶只對有限數量的項目進行評級,因此對其他項目的評級也會丟失。PGM可以通過潛在變量設計很好地處理這一問題(Mohan, Pearl, & Tian, 2013); 3) 可解釋性。PGM由定義的概率分布(或隨機過程)組成,因此人類專家可以評估其語義和屬性,甚至將他們的知識納入模型。通過PGM的結構,人們可以很容易地理解問題和領域; 4) 泛化能力。定向PGMs(也稱為生成模型)具有很好的泛化能力,可以比較鑒別模型,特別是在數據數量有限的情況下(Ng & Jordan, 2002)。盡管在文獻中已經發表了一些關于遷移學習的優秀研究,如: 綜合研究(Pan & Yang, 2010;Weiss et al., 2016),應用,如強化學習(Taylor & Stone, 2009),協同過濾(Li, 2011),視覺分類(Shao, Zhu, & Li, 2015),人臉和物體識別(Patel, Gopalan, Li, & Chellappa, 2015),語音和語言處理(Wang & Zheng, 2015),活動識別(Cook, Feuz, & Krishnan, 2013),和方法論,如計算智能(Lu, Behbood, Hao, Zuo, Xue, & Zhang, 2015),在使用PGMs進行遷移學習方面沒有一個具體的工作。本文綜述了該領域的主要研究成果,總結了已有的遷移研究的基本方法,為今后在該領域的進一步研究奠定了基礎。本文對遷移學習領域的研究人員進行了綜述,并對遷移學習方法的應用進行了推廣。本文還綜述了已有的遷移學習理論在遷移學習中的成功應用,并促進了遷移學習理論的發展。本文假設讀者已經具備遷移學習的基本知識。
本文的其余部分結構如下。第2節討論了現有的最先進的方法使用的概率圖模型遷移學習。第3節介紹了現實世界中使用概率圖模型解決的遷移學習問題。最后,第四部分對本文進行了總結,并提出了進一步研究可能面臨的挑戰。
摘要: 數據庫自然語言接口(natural language interface to database, NLIDB)能夠憑借自然語言描述實現數據庫查詢操作,是促進用戶無障礙地與數據庫交互的重要工具.因為NLIDB具有較高的應用價值,近年來一直受到學術與商業領域的關注.目前成熟的NLIDB系統大部分基于經典自然語言處理方法,即通過指定的規則實現自然語言查詢到結構化查詢的轉化.但是基于規則的方法仍然存在拓展性不強的缺陷.深度學習方法具有分布式表示和深層次抽象表示等優勢,能深入挖掘自然語言中潛在的語義特征.因此近年來在NLIDB中,引入深度學習技術成為了熱門的研究方向.針對基于深度學習的NLIDB研究進展進行總結:首先以解碼方法為依據,將現有成果歸納為4種類型分別進行分析;然后匯總了7種模型中常用的輔助方法;最后根據目前尚待解決的問題,提出未來仍需關注的研究方向.