去噪擴散模型是生成模型的一種,近年來在各種深度學習問題中引起了廣泛的關注。擴散概率模型定義了一個正向擴散階段,在這個階段中,輸入數據通過添加高斯噪聲在幾個步驟中逐漸被擾動,然后學習反向擴散過程,從有噪聲的數據樣本中檢索所需的無噪聲數據。擴散模型因其強大的模式覆蓋率和生成樣本的質量而受到廣泛贊賞,盡管它們已知的計算負擔。利用計算機視覺的進步,醫學成像領域也觀察到對擴散模型越來越感興趣。為了幫助研究者更好地理解這些模型,本綜述對醫學圖像分析中的擴散模型進行了全面的綜述。具體來說,我們首先介紹了擴散模型背后的堅實的理論基礎和基本概念,以及三種通用的擴散建模框架,即擴散概率模型、噪聲條件評分網絡和隨機微分方程。然后,我們對醫學領域的擴散模型進行了系統的分類,并提出了基于它們的應用、成像方式、感興趣的器官和算法的多視角分類。為此,我們涵蓋了擴散模型在醫學領域的廣泛應用,包括分割、異常檢測、圖像到圖像的翻譯、2/3D生成、重建、去噪和其他與醫學相關的挑戰。此外,我們強調了一些選擇的方法的實際用例,然后討論了擴散模型在醫學領域的局限性,并提出了滿足該領域需求的幾個方向。最后,我們在GitHub上收集了綜述研究及其可用的開源實現。我們的目標是定期更新相關的最新論文。
//github.com/amirhossein-kz/Awesome-Diffusion-Models-in-Medical-Imaging
圖1:在這個圖中,我們展示了生成模型的變革及其背后的見解。(a)通用對抗網絡(GAN)[1]是一種端到端管道,它以對抗方式訓練生成器以生成鑒別器能夠與真實數據樣本區分的樣本。(b)基于能量的模型(EBM)[2],也稱為非歸一化概率模型,訓練方式與GANs相同,但有兩個主要修改。首先,鑒別器學習一個適當的基于能量的函數,該函數將數據樣本映射到分布空間。其次,該生成器利用先驗輸入來提高樣本生成性能。(c)變分自動編碼器(VAE)[3]是一個獨立的網絡,它跟隨編碼器從數據樣本到低維潛在空間的投影,并通過解碼器路徑對其進行采樣生成。(d)歸一化流(NF)[4]利用可逆流函數將輸入轉化為潛在空間,并生成具有逆流函數的樣本。(e)擴散模型在連續的步驟中將噪聲與輸入混合,直到它成為一個噪聲分布,然后在采樣過程的每一步中應用逆向過程來中和噪聲附加。
1. 概述
在過去十年的深度學習中,使用神經網絡的生成模型是一股強大的力量。自生成模型出現以來,它在從圖像[5,6]、音頻[7,8]到文本、[9]和點云[10]等各個領域都產生了巨大的影響。從概率建模的角度來看,生成模型的關鍵定義特征是,它以這樣一種方式進行訓練,因此它的樣本 x? ~ pθ(x?) 來自與訓練數據分布x~pd(x)相同的分布。開創性的基于能量的模型通過定義狀態空間上的非歸一化概率密度來實現這一點;然而,這些方法在訓練和推理過程中都需要馬爾可夫鏈蒙特卡羅(MCMC)采樣,這是一個緩慢的迭代過程[11]。隨著可用數據集的空前激增,以及一般深度學習架構的進步,生成建模出現了革命性的范式轉變。具體而言,三種主流生成框架包括生成對抗網絡(GANs)[1]、變分自動編碼器(VAEs)[12,3]和歸一化流程13。生成模型通常包含在現實問題中需要采用的關鍵需求。這些要求包括(i)高質量采樣,(ii)模式覆蓋和樣本多樣性,以及(iii)快速執行時間和計算成本低的采樣14。生成模型通常在這些標準之間進行調整。具體來說,GANs能夠快速生成高質量的樣本,但模式覆蓋率較差,容易缺乏采樣多樣性。相反,盡管在覆蓋數據模式中看到了VAEs和歸一化流,但它們存在低樣本質量的固有屬性。GANs由兩個模型組成:生成器和鑒別器(discriminator),它們相互競爭,同時使彼此更強。生成器試圖捕獲真實樣本的分布,而鑒別器(通常是一個二進制分類器)估計來自真實數據集的給定樣本的概率。它作為一個評價器,經過優化后可以從真實樣本中識別合成樣本。關于GANs的一個常見問題是它們的訓練動態被認為是不穩定的,導致了模式崩潰、梯度消失和收斂[15]等缺陷。因此,提出更有效的變體也影響了GANs的研究方向[16,17]。變分自編碼器(VAEs)通過最大化證據下界(ELBO)來優化數據的對數似然。盡管變分自編碼器取得了顯著的成就,但由于平衡問題[18]和變量崩潰現象[19]等理論和實踐上的挑戰,變分自編碼器的行為還遠遠不能令人滿意。基于流的生成模型是由一系列可逆變換構建的。具體地說,歸一化流通過應用一系列可逆變換函數將簡單分布轉換為復雜分布,在這個函數中,人們可以使用變元定理獲得最終目標變量的期望概率分布。與GANs和VAEs不同,這些模型明確地學習數據分布;因此,它們的損失函數就是負對數似然[20]。盡管設計可行,但這些生成模型有其特定的缺陷。由于基于可能性的方法必須構建一個歸一化的概率模型,因此必須使用特定類型的體系結構(自回歸模型、流模型),或者在VAE的情況下,不直接計算生成的概率分布的替代損失,如ELBO。相反,由于GAN的對抗性損失的性質,GAN的學習過程本質上是不穩定的。最近,擴散模型[22,22]已經作為強大的生成模型出現,展示了計算機視覺的主要主題之一,因此研究人員和實踐者可能會發現跟上創新的速度是一項挑戰。從根本上說,擴散模型的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。
圖2:生成式學習試驗[14]。盡管GANs能夠快速生成高保真樣本,但其模式覆蓋是有限的。此外,價值流和標準化流已被揭示具有很大的多樣性;然而,它們的采樣質量通常很差。擴散模型通過顯示足夠的模式覆蓋和高質量的采樣來彌補VAEs和GANs的不足。然而,由于它們的迭代性質,這導致了一個緩慢的采樣過程,它們實際上是昂貴的,需要更多的改進。
迄今為止,擴散模型已被發現在各種各樣的領域都很有用,從生成建模任務,如圖像生成[23]、圖像超分辨率[24]、圖像嵌入[25]到辨別任務,如圖像分割[26]、分類[27]和異常檢測[28]。最近,醫學影像界見證了基于擴散的技術的數量呈指數級增長(見圖4)。如圖4所示,大量研究致力于擴散模型在各種醫學影像場景中的應用。因此,對現有文獻的調查既有利于社區,也非常及時。為此,本綜述旨在提供最新進展的全面概述,并提供這類模型在醫學成像中的整體概述。對相關文獻的徹底搜索顯示,我們是第一個覆蓋在醫學領域利用的擴散基礎模型。我們希望這項工作將指出新的路徑,為研究人員提供路線圖,并激發視覺社區進一步的興趣,以利用醫學領域的擴散模型的潛力。我們的主要貢獻包括:
這是第一篇全面涵蓋擴散模型在醫學成像領域應用的綜述論文。具體而言,我們將全面概述所有可用的相關論文(截止2022年10月)。
我們設計了醫學界擴散模型的多視角分類,提供了擴散模型及其應用研究的系統分類。我們將現有的擴散模型分為三類:去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。此外,我們將擴散模型的應用分為七個類別:異常檢測、去噪、重建、分割、圖像間翻譯、圖像生成和其他應用。
我們不將注意力局限于應用,并提供了一種新的分類法(見圖4),其中每篇論文都根據提出的算法以及相關的器官和成像方式進行了廣泛的分類。
最后,我們討論了挑戰和開放問題,并確定了新的趨勢,提出了關于擴散模型在醫學領域的算法和應用的未來發展的開放問題。
論文的組織。在第2.1節中,我們詳細概述了擴散模型背后的概念和理論基礎,涵蓋了三個具有相似基線定義的子類別。3.1至3.7節全面涵蓋了擴散模型在幾種醫學成像任務中的應用,如圖3所示,而3.8節提供了不同文獻工作的任務特定的比較概述。最后,我們在第四部分中指出了擴散模型在醫學成像領域的未來發展方向和面臨的挑戰。
2. 擴散模型分類法
在過去的幾十年里,生成方法在醫學成像中取得了重大進展。因此,已經發表了許多關于醫學成像的深度生成模型的綜述論文[29,30,31]。其中一些論文只關注特定的應用程序,而另一些則關注特定的圖像模態。然而,關于擴散模型在醫學成像中的應用還缺乏全面的研究。為此,在本調查中,我們設計了一個多視角的擴散模型,其中我們討論了現有的文獻,基于它們在醫學領域的應用。盡管如此,我們并不將我們的興趣局限于應用,而是描述了潛在的工作原理、器官和所提議的方法的成像方式。我們將進一步討論這些額外的信息如何幫助研究人員嘗試跨譜鞏固文獻。圖4描述了本文的簡要展望。
圖4:基于擴散的醫學圖像分析研究的擬議分類建立在七個子領域:I)圖像間翻譯,II)醫學圖像重建,III)圖像分割,IV)醫學圖像去噪,V)圖像生成,VI)異常檢測和VII)多學科應用,稱為其他應用。
本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT
1. 引言
在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。
Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。
**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。
本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。
本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。
在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?
本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。
可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。
*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。
擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。
對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。
通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。
根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。
與最新擴散模型的比較
從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。
除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
擴散模型是一類具有豐富理論基礎的深度生成模型,在各種任務中都取得了令人印象深刻的結果。盡管擴散模型比其他最先進的模型取得了令人印象深刻的質量和樣本合成多樣性,但它們仍然存在昂貴的采樣程序和次優的似然估計。近年來,研究人員對擴散模型性能的改進表現出極大的熱情。在這篇文章中,我們提出了擴散模型的現有變體的第一個全面的綜述。具體地說,我們提供了擴散模型的第一個分類,并將它們的變體分為三種類型,即采樣-加速增強、可能性-最大化增強和數據泛化增強。我們還詳細介紹了其他五種生成模型(即變分自編碼器、生成對抗網絡、歸一化流、自回歸模型和基于能量的模型),并闡明擴散模型和這些生成模型之間的聯系。然后對擴散模型的應用進行了深入的研究,包括計算機視覺、自然語言處理、波形信號處理、多模態建模、分子圖生成、時間序列建模和對抗性純化。此外,我們提出了關于發展這一生成模式的新觀點。
//www.zhuanzhi.ai/paper/edf9ba1200e0740b307a923e23f4c966
導論
擴散模型是深度生成模型中最先進的模型。擴散模型在圖像合成[1]上超越GAN后,在不同的任務上也顯示出了一種很有前途的算法,如計算機視覺[2,3,4,5]、自然語言處理[6]、波形信號處理[7,8]、多模態建模[9,10,11]、分子圖建模[12,13]、時間序列建模[14]和對抗式凈化[15]。此外,擴散模型與其他研究領域有著密切的聯系,如魯棒學習[16,17,18],代表性學習[11,19,20,21]和強化學習[22]。然而,原始的擴散模型仍然存在采樣過程緩慢的問題,通常需要數千步的評估才能得到一個樣本[23]。它一直難以實現與其他基于似然的模型(例如自回歸模型[24])競爭的對數似然。最近的一些研究從實際考慮或從理論角度分析擴散模型的能力來改進擴散模型的性能。然而,目前還沒有文獻對擴散模型的最新研究進展進行系統的綜述。為了反映這一快速發展的領域的進展,我們首次對擴散模型進行了全面的綜述。我們設想我們的工作將闡明擴散模型的設計考慮和先進方法,介紹其在不同領域的應用,并為未來的研究指明方向,我們的綜述方案如圖1所示。
擴散概率模型最初是受非平衡熱力學的啟發,作為一種潛在變量生成模型提出的。這類模型由兩個過程組成,第一個是通過在多個尺度上添加噪聲來逐步干擾數據分布的正向過程,第二個是學習恢復數據結構的反向過程[23,25]。從這個角度看,擴散模型可以看作是一個層次非常深的VAE,即破壞和恢復過程分別對應編碼和解碼過程。因此,許多研究的重點是學習編碼和解碼過程,并結合變分下界的設計來提高模型的性能。或者,擴散模型的過程可以看作是隨機微分方程(SDE)的離散化[26,27],其中正向和反向過程對應著正向SDE和反向SDE。因此,通過SDE對擴散模型進行分析,可以提供密集的理論結果和模型改進,特別是在采樣策略方面。基于這些觀點,我們建議將擴散模型分為三類: 采樣過程增強(第3節)、可能性最大化增強(第4節)和泛化能力增強(第5節)。在這兩類模型中,分別分析了離散時間和連續時間兩種具有豐富經驗和理論結果的模型。
在分析了三種擴散模型之后,我們介紹了其他五種常用的生成式模型(第6節),即變分自編碼器、生成式對抗網絡、歸一化流、自回歸模型和基于能量的模型。由于擴散模型具有良好的性質,研究人員開始將擴散模型與傳統的生成模型相結合。我們對這些組合工作進行了具體的介紹,并闡明了對原始生成模型的改進。然后,我們系統地介紹擴散模型在大量任務中的應用(第7節),包括計算機視覺、自然語言處理、波形信號處理、多模態建模、分子圖生成、時間序列建模和對抗性純化。對于每個任務,我們給出了問題的定義,并介紹了利用擴散模型來處理問題的工作。在第8部分,我們提出了這一快速發展的領域的潛在研究方向,并在第9部分總結了綜述。
本綜述的主要貢獻
新分類法。我們首先提出了一個新的和系統的分類擴散模型及其應用。具體而言,我們將現有的擴散模型分為三大類: 采樣加速增強、似然最大化增強和數據泛化增強。此外,我們將擴散模型的應用分為七大類: 計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖生成、時間序列建模和對抗性凈化。
全面綜述。本文首次全面概述了現代擴散模型及其應用。對每一類擴散模型進行了改進,并進行了必要的比較,總結了相應的文獻。對于每種類型的擴散模型應用,我們演示了要處理的主要問題,并說明它們如何處理這些問題。
未來研究方向。本文對擴散模型在算法和應用方面的發展提出了一些有待進一步研究的問題和建議。
本文的組織本文的其余部分組織如下。在第二節中,我們對擴散模型進行了初步的介紹,并給出了擴散模型的標準形式,然后對擴散模型的變體進行了分類。從第3節到第5節,我們闡述了各類型擴散模型的主要增強,并分析了它們的優點和局限性。在第6節中,我們介紹了其他五種常用的生成模型,并說明了它們與擴散模型之間的聯系。在第7節中,我們列出了擴散模型的一系列應用,提供了問題定義和解決方案分析。第8節討論了挑戰和可能的未來方向。在第9節中,我們總結了這一綜述。
應用
由于擴散模型的靈活性和強度,它們最近已被應用于許多現實世界的應用。在本節中,我們將這些應用分為七個部分,包括計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖建模、時間序列建模和對抗性凈化。在每個小節中,我們首先對每個任務進行簡要介紹,然后詳細介紹如何利用擴散模型來提高性能。
圖像超分辨率與修復
圖像超分辨率是指從低分辨率(LR)圖像中恢復高分辨率(HR)圖像,而圖像修補是指重建圖像中缺失或破壞的區域。超分辨率擴散(SRDiff)[2]是第一個基于擴散的單幅圖像超分辨率模型,該模型利用數據似然的變分界進行優化。SRDiff能夠提供多樣化和現實的超分辨率(SR)結果,通過逐步轉換高斯噪聲條件下的LR輸入與馬爾可夫鏈。重復細化超分辨率(SR3)[116]采用去噪擴散概率模型[23,25]進行條件圖像生成,通過隨機迭代去噪過程進行圖像超分辨率。LDM[117]提出了潛在擴散模型,這是一種既提高了去噪擴散模型的訓練效率和采樣效率,又不損失質量的有效方法。為了幫助擴散模型使用有限的計算資源進行訓練,同時保持質量和靈活性,LDM還利用預訓練的自動編碼器在潛在空間中利用它們。RePaint[118]設計了一種改進的去噪策略,通過重采樣迭代來更好地調節圖像。RePaint沒有減慢擴散過程[119],而是在擴散過程中前進和后退,產生有語義意義的圖像。調色板[120]提出了一個基于條件擴散模型的統一框架,并對該框架進行了四項具有挑戰性的圖像生成任務[121]的評估,如著色、修復、取消裁剪和JPEG恢復。級聯擴散模型(cascade Diffusion Models, CDM)[122]由級聯的多重擴散模型組成,生成分辨率逐漸增加的圖像。CDM能夠在類條件ImageNet[123]生成基準數據集上生成高質量的圖像,不需要任何來自輔助圖像分類器的監督信息。多速度擴散(MSDiff)[124]產生了一種條件多速度擴散估計器(CMDE),這是一種條件分數估計器,它結合了以往的條件分數估計方法[116,125]。
語義分割
語義分割是將圖像中屬于同一類別的部分聚類在一起。預訓練可以提高語義切分模型的標簽利用率,生成模型是一種替代預訓練的方法。最近的一項研究[3]對最先進的DDPM[23]學習的表征進行了調查,并表明它們有能力捕捉對下游視覺任務有價值的高級語義信息。它開發了一種簡單的方法,在少樣本的操作點上利用這些學習到的表示,并顯著優于包括VDVAE[126]和ALAE[16]在內的替代方法。受擴散模型成功的啟發,學者們還研究了通過對自動編碼器去噪學習到的表示在語義分割中的有效性[127]。解碼器去噪預訓練(Decoder去噪預訓練,DDeP)[128]使用監督學習程序對編碼器進行初始化,只在去噪目標引導下對解碼器進行預訓練。
異常檢測
異常檢測是機器學習和計算機視覺中的一個關鍵和具有挑戰性的問題[129]。生成模型已經被證明具有強大的異常檢測機制。它們有助于建立正常或健康參考數據的模型,這些參考數據隨后可被用作異常評分的基線[130],包括GAN、VAE和擴散模型[131,132]。AnoDDPM[131]提出了一種新的異常檢測方法,該方法利用DDPM破壞輸入圖像,并重建圖像的健康近似。該方法比對抗性訓練具有更好的建模性能和更高的樣本質量,并且訓練更加穩定。DDPM- cd[132]提出了一種通過DDPM將大量無監督遙感圖像納入訓練過程的新方法。它利用預訓練的DDPM和來自擴散模型解碼器的多尺度表示進行遙感變化檢測。它的目的是訓練一個光變化檢測分類器,有效地檢測精確的變化。
視頻生成
在深度學習時代,由于視頻幀的時空連續性和復雜性,高質量的視頻生成仍然具有挑戰性[4,5]。最近的研究求助于擴散模型來提高生成視頻的質量。柔性擴散模型(Flexible Diffusion Model, FDM)[137]提出了一種新的基于DDPM的視頻生成框架,可以在不同的現實場景下生成長期的視頻補全。它引入了一個生成模型,可以在測試期間對視頻幀的任意子集進行采樣,并提出了一個為此目的設計的架構。受神經視頻壓縮研究進展的啟發[138],殘差視頻擴散(RVD)提出了一種自回歸的端到端優化視頻擴散模型。它通過反向擴散過程產生的隨機殘差來修正確定性的下一幀預測,從而連續生成未來幀。視頻擴散模型(Video Diffusion Model, VDM)[139]引入了一種用于視頻時空擴展的條件采樣方法。它超越了之前提出的方法,并生成長、高分辨率的視頻。
自然語言處理
自然語言處理是旨在理解、建模和管理人類語言的研究領域。文本生成也被稱為自然語言生成,已經成為自然語言處理中最關鍵和最具挑戰性的任務之一[140]。它的目標是在給定輸入數據(如序列和關鍵字)或隨機噪聲的情況下,用人類語言生成可信和可讀的文本。研究人員已經開發了許多用于文本生成的廣泛應用的技術[141,142]。離散去噪擴散概率模型(D3PMs)[6]引入了用于字符級文本生成的類擴散生成模型[143]。他們通過超越具有統一轉移概率的腐蝕過程,推廣了多項擴散模型[144]。大型自回歸語言模型(LMs)能夠生成高質量的文本[90,145,146,147]。為了在實際應用中可靠地部署這些LM,文本生成過程通常是可控的。這意味著我們需要生成能夠滿足要求的文本(如主題、句法結構)。在文本生成中,不需要再訓練就能控制語言模型(LMs)的行為是一個重要的問題[148,149]。盡管最近的研究在簡單句子屬性(如情感)的控制上取得了顯著的成功[150,151],但在復雜的、細粒度的控制(如句法結構)上卻鮮有進展。為了解決更復雜的控制問題,Diffusion-LM[152]提出了一種基于連續擴散的新的語言模型。Diffusion-LM從一系列高斯噪聲向量開始,逐級降噪成單詞對應的向量。逐步去噪的步驟有助于產生分層連續的潛在表征。這種分層連續的潛在變量可以使簡單的、基于梯度的方法實現復雜的控制。
未來方向
新視角。我們觀察到離散擴散模型仍存在一些未解決的問題,這些問題在自然語言處理中具有實用價值。由于數據的離散性,在連續的高斯噪聲下很難恢復已損壞的數據。但如果我們加入像隨機游走這樣的離散噪聲,那么評分函數將變得不明確,評分匹配框架將不再適用。同樣的問題也存在于其他數據類型中,比如圖。因此,需要新的方法和視角[197]。在理論層面,我們仍然需要檢驗擴散模型中一些公認的前提。例如,在實踐中,人們普遍認為正向處理會將數據轉換為標準的高斯噪聲。然而,SDE的有限時間解不能忘記原始數據的分布。這些實踐和理論之間的不匹配可以激發更好的模型設計[198]。在實踐層面,由于擴散模型的靈活性,許多經驗方法的泛化能力有待進一步評價和分析[34,199,200,197]。
泛化到更多的應用。如第7節所示,擴散模型已應用于7種不同類型的場景,從計算機視覺到對抗性純化。然而,仍有一些場景有待開發,如文本到視聽語音合成和視覺問答(VQA)。此外,我們可以明顯地發現,現有的大多數應用都局限于單一輸入/輸出或簡單輸入/輸出。因此,如何使擴散模型能夠處理復雜的輸入并產生多種輸出,并在現實場景中獲得更好的性能,是研究人員面臨的關鍵和挑戰。雖然擴散模型在魯棒學習、代表性學習和強化學習等研究領域已經得到了研究,但仍存在與更多研究領域相聯系的機會。
機器學習 (ML) 的使用已迅速擴展到多個領域,在結構動力學和振動聲學 (SD&V) 中產生了許多應用。在前所未有的數據可用性、算法進步和計算能力的推動下,ML 從數據中揭示洞察力的能力不斷增強,增強了決策制定、不確定性處理、模式識別和實時評估。 SD&V 中的三個主要應用都利用了這些優勢。在結構健康監測中,機器學習檢測和預測導致安全操作和優化維護計劃。 ML 技術在主動噪聲控制和主動振動控制中利用了系統識別和控制設計。最后,所謂的基于 ML 的代理模型為昂貴的模擬提供了快速替代方案,從而實現了穩健和優化的產品設計。盡管該地區有許多作品,但尚未對其進行審查和分析。因此,為了跟蹤和理解這種持續的領域整合,本文對機器學習在 SD&V 分析中的應用進行了調查,闡明了當前的實施狀態和新出現的機會。為這三種應用中的每一種確定了主要的方法、優勢、局限性和基于科學知識的建議。此外,本文還考慮了數字孿生和物理引導 ML 在克服當前挑戰和推動未來研究進展方面的作用。因此,該調查對在 SD&V 中應用的機器學習的現狀進行了廣泛的概述,并引導讀者深入了解該領域的進展和前景。
圖 9:結構健康監測工作流程:(a)在經典方法中,特征提取和選擇是手工制作的,然后是 ML 方法;(b) 如果使用深度學習,則通過 ML 方法自動執行特征提取和選擇。
圖 15:數字孿生框架:來自物理的數據由數字孿生的數據驅動方法處理,在整個產品生命周期中支持優化和穩健的決策。