擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自布加勒斯特大學等學者發布了關于《視覺擴散模型》綜述論文,對對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻,值得關注**!**
最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻
去噪擴散模型是計算機視覺中的一個新興課題,在生成建模領域顯示了顯著的結果。擴散模型是基于正向擴散和反向擴散兩個階段的深度生成模型。在正向擴散階段,通過加入高斯噪聲對輸入數據進行逐級擾動。在反向階段,模型的任務是通過學習逐步逆轉擴散過程來恢復原始輸入數據。擴散模型因其生成樣本的質量和多樣性而受到廣泛贊賞,盡管其已知的計算負擔,即采樣過程中涉及的大量步驟導致速度較低。本文對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻。首先,我們確定并提出了三種通用的擴散建模框架,它們是基于去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。我們進一步討論了擴散模型和其他深層生成模型之間的關系,包括變分自編碼器、生成對抗網絡、基于能量的模型、自回歸模型和歸一化流。然后,我們介紹了一種多視角分類擴散模型在計算機視覺中的應用。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。
導論
擴散模型[1]-[11]構成了深度生成模型的一個類別,它最近成為計算機視覺中最熱門的話題之一(見圖1),展示了令人印象深刻的生成能力,從高水平的細節到生成示例的多樣性。我們甚至可以說,這些生成模型將生成建模領域的標準提高到一個新的水平,特別是涉及到模型,如Imagen[12]和潛在擴散模型(LDM)[10]。到目前為止,擴散模型已經被廣泛應用于各種生成建模任務,如圖像生成[1]-[7],[10]-[22],圖像超分辨率[10],[12],[23]-[26],圖像修復[1],[3],[4],[10],[23],[25],[27]-[29],圖像編輯[30]-[32],圖像轉換[31],[33]-[37]等。此外,通過擴散模型學習到的潛在表示在判別任務中也很有用,如圖像分割[38]-[41]、分類[42]和異常檢測[43]-[45]。這證實了去噪擴散模型的廣泛適用性,表明進一步的應用還有待發現。此外,學習強潛在表征的能力與表征學習[46],[47]建立了聯系,這是一個全面的領域,研究學習強大數據表征的方法,涵蓋多種方法,從設計新穎的神經結構[48]-[51]到開發學習策略[52]-[57]。
從圖1所示的圖表可以看出,擴散模型的論文數量增長速度非常快。為了概述這一快速發展的主題的過去和現在的成就,本文對計算機視覺中去噪擴散模型的文章進行了全面的回顧。更準確地說,我們調查了以下定義的生成式模型范疇的文章。擴散模型代表了一類深度生成模型,基于(i)前向擴散階段,輸入數據在幾個步驟中通過添加高斯噪聲逐漸受到擾動;(ii)反向(后向)擴散階段,生成模型的任務是從擴散(噪聲)數據中恢復原始輸入數據,通過學習逐步逆轉擴散過程,一步一步。 我們強調,至少有三個子類的擴散模型符合上述定義。第一類是受非平衡熱力學理論啟發的去噪擴散概率模型(DDPMs)[1]、[2]。DDPM是利用潛在變量估計概率分布的潛在變量模型。從這個角度看,DDPM可以看作是一種特殊的變分自編碼(VAEs)[49],正向擴散階段對應于VAE內部的編碼過程,反向擴散階段對應于解碼過程。第二類由噪聲條件評分網絡(NCSNs)[3]表示,它基于通過評分匹配來訓練共享神經網絡,以估計不同噪聲水平下受擾動數據分布的評分函數(定義為對數密度梯度)。隨機微分方程[4]代表了擴散模型的另一種方法,形成了擴散模型的第三個子類別。通過正向和反向SDEs對擴散進行建模,得到了有效的生成策略以及較強的理論結果[58]。后一種表述(基于SDEs)可以被視為對DDPM和NCSNs的泛化。 我們確定了幾個確定的設計選擇,并將它們綜合成三個通用的擴散模型框架,對應于上述三個子類別。在此基礎上,我們進一步討論了擴散模型與其他深層生成模型之間的關系。更具體地說,我們描述了與變分自編碼器(VAEs)[49]、生成對抗網絡(GANs)[51]、基于能量的模型(EBMs)[59]、[60]、自回歸模型[61]和歸一化流[62]、[63]的關系。然后,我們引入了一種用于計算機視覺的擴散模型的多視角分類方法,根據底層框架、目標任務或去噪條件等標準對現有模型進行分類。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。例如,可能最成問題的限制之一是推斷過程中較差的時間效率,這是由非常多的計算步驟(例如數千個)導致的,以生成一個示例[2]。當然,在不影響生成樣本質量的情況下克服這一限制是未來研究的一個重要方向。
綜上所述,我們的貢獻有兩方面:
由于視覺領域最近出現了許多基于擴散模型的貢獻,我們提供了一篇全面而及時的文獻綜述,介紹了在計算機視覺中應用的去噪擴散模型,旨在為我們的讀者提供對通用擴散模型框架的快速理解。
我們設計了擴散模型的多視角分類,旨在幫助其他研究應用于特定領域的擴散模型的研究人員快速找到各自領域的相關工作。
圖2所示。一個由三種不同形式的擴散模型組成的通用框架:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。基于SDEs的公式是對另外兩種公式的泛化。在正向過程中,輸入x0經過T步逐漸加入高斯噪聲。在相反的過程中,模型通過逐漸去除噪聲來學習恢復原始輸入。在SDE公式中,正向過程基于Eq.(11),反向過程基于Eq.(12)。在DDPM版本中,正向過程采用Eq.(1),反向過程采用Eq.(5)。同理,在NCSN版本中,正向過程采用Eq.(9),反向過程采用退火后的朗之萬動力學。 擴散模型是一類概率生成模型,它可以學習通過在不同尺度上添加噪聲來逆轉逐漸降低訓練數據結構的過程。在接下來的三個小節中,我們提出了三種擴散模型的形式,即去噪擴散概率模型、噪聲條件分數網絡和基于隨機微分方程的方法,該方法推廣了前兩種方法。對于每個公式,我們描述了向數據添加噪聲的過程,學習逆轉這一過程的方法,以及在推斷時如何生成新樣本。在圖2中,所有三個公式都作為一個通用框架進行了說明。我們在最后一小節專門討論與其他深度生成模型的聯系。 考慮到不同的分類標準,我們將擴散模型分為多視角分類法。也許分類模型的最重要的標準是由** (i)它們應用的任務和 (ii) 它們需要的輸入信號定義的。此外,由于形成擴散模型有多種方法,(iii) 底層架構是對擴散模型進行分類的另一個關鍵因素**。最后,在訓練和評估過程中使用的數據集也非常重要,因為這有助于在同一任務中比較不同的基線。我們根據之前列舉的標準對擴散模型的分類如表1所示。
擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自西湖大學李子青等學者發布了關于《擴散模型》綜述論文,對擴散模型的現狀進行詳細的綜述。通過對改進算法和在其他領域的應用進行分類。值得關注!
最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻
A Survey on Generative Diffusion Model Hanqun Cao, Cheng Tan, Zhangyang Gao, Guangyong Chen, Pheng-Ann Heng, Senior Member, IEEE, and Stan Z. Li, Fellow, IEEE 由于深度潛在表示,深度學習在生成任務中顯示出巨大的潛力。生成模型是一類可以根據某些隱含參數隨機生成觀察結果的模型。近年來,擴散模型以其強大的生成能力成為生成模型的一個新興門類。如今,已經取得了巨大的成就。除了計算機視覺、語音生成、生物信息學和自然語言處理外,該領域還將探索更多的應用。然而,擴散模型有其生成過程緩慢的天然缺陷,導致許多改進的工作。本文對擴散模型的研究領域進行了綜述。我們首先闡述兩項標志性工作的主要問題,DDPM及DSM。然后,我們提出了一系列先進的技術來加速擴散模型——訓練計劃、無訓練采樣、混合建模以及得分與擴散的統一。對于現有的模型,我們還根據具體的NFE提供了FID score, IS, NLL的基準。此外,還介紹了擴散模型的應用,包括計算機視覺、序列建模、音頻、科學人工智能等。最后,對該領域的研究現狀進行了總結,指出了研究的局限性和進一步的研究方向。
我們如何賦予機器與人類一樣的想象力? 深度生成模型,如VAE[1]、[2]、[3]、[4]、EBM[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、GAN[22]、[23]、[24]、標準流模型[25]、[26]、[27]、[28]、[29]、[30]和擴散模型[31]、[32]、[33]、[34]、[35],在創造人類無法正確區分的新模式方面顯示出巨大潛力。我們專注于基于擴散的生成模型,該模型不需要像VAE那樣調整后驗分布,不需要像EBM那樣處理難以處理的配分函數,不需要像GAN那樣訓練額外的鑒別器,也不需要將網絡約束作為歸一化流。由于上述優點,基于擴散的方法已經引起了從計算機視覺、自然語言處理到圖形分析的廣泛關注。然而,目前對擴散模型的研究進展還缺乏系統的分類和分析。
擴散模型的發展為模型的描述提供了可跟蹤的概率參數化,為訓練過程的穩定提供了充分的理論支持,為損失函數的統一設計提供了簡單的方法。擴散模型的目的是將先驗數據分布轉化為隨機噪聲,然后逐步對變換進行修正,重建一個與先驗[36]分布相同的全新樣本。近年來,擴散模型在計算機視覺(CV)[31]、[37]、生物信息學[38]、[39]、語音處理[40]、[41]等領域顯示出了其精妙的潛力。例如,去噪擴散GAN生成的高分辨率偽圖像只需要四個采樣步驟就能擊敗GAN[42]。Luo等人[33]首先利用蛋白質特征上的DDPM在原子分辨率上生成抗體CDR序列和結構。Wavegrad[43]生成高保真音頻樣本,具有恒定的生成步驟,優于現有的基于GAN的音頻生成模型。受擴散模型在CV、生物信息學和語音處理領域的成功啟發,將擴散模型應用于其他領域的生成相關任務將是開發強大的生成能力的有利途徑。
另一方面,與生成對抗網絡(GANs)和變分自編碼(VAEs)相比,擴散模型具有采樣步驟多、采樣時間長等固有缺陷。這是因為利用馬爾可夫核的擴散步驟只需要很小的擾動就可以得到大量的擴散。同時,可處理模型在推理過程中需要相同的步驟數。因此,從隨機噪聲中采樣需要數千步,直到它最終變成類似于先驗的高質量數據。因此,在提高采樣質量[47],[48],[49]的同時,加快擴散過程是很多工作的目標。例如,DPM求解器利用ODE的穩定性在10步[50]內生成最先進的樣本。ES-DDPM[51]成功地將軌跡學習與變分自編碼器相結合,實現了對擴散模型的高速采樣。部分受到Bao等人[50]的啟發,我們將擴散模型的改進工作總結為5類。(1)訓練時間表,(2)高級無訓練抽樣,(3)混合生成建模,(4)分數與擴散統一。詳細內容見第3節。
圖1所示。在這個圖中,我們為每一類生成模型提供了一個直觀的機制。(a) 生成式對抗網絡(Generative Adversarial Net, GAN)[44]在生成器上運用了對抗訓練策略,使其生成的樣本不能被真假鑒別器和先驗鑒別器區分。(b) 基于能量的模型(EBM)[45]以類似的方式訓練,它找到一個由softmax鑒別器和先驗輸入發生器組成的合適的能量函數,這樣它可以輸出隨機輸入的最佳匹配樣本。(c) 變分自動編碼器(VAE)[46]應用編碼器將先驗投影到一個潛在空間,從中解碼器可以采樣。(d) 歸一化流量(NF)[29]采用了一個設計良好的可逆流量函數,將輸入轉化為潛在變量,然后用流量函數的倒數返回樣本。(e) 擴散模型逐漸向原始數據注入噪聲,直到轉向已知的噪聲分布,再對采樣步驟中的每一步進行反轉。
因此,基于擴散模型的廣泛應用以及算法改進的多角度思考,我們旨在對擴散模型的現狀進行詳細的綜述。通過對改進算法和在其他領域的應用進行分類,本文的核心貢獻如下:
總結了擴散模型領域基本算法的本質數學公式和推導,包括方法公式、訓練策略和抽樣算法。
本文對改進擴散算法進行了全面和最新的分類,并將其分為五類: 蒸餾、噪聲/軌跡學習、高級免訓練采樣、混合生成建模和評分與擴散統一。
提供關于擴散模型在計算機視覺、自然語言處理、生物信息學和語音處理方面的應用的廣泛陳述,包括領域專用問題公式、相關數據集、評估指標、下游任務以及基準集。
闡明擴散模型領域現有模型的局限性和可能進一步證明的方向。
借助強條件設置,只需[48]幾步就可以實現擴散采樣,如文本到語音[83]和圖像超分辨率[84]。一般情況下,擴散模型需要數千個步驟才能生成高質量的樣本。以提高采樣速度為主要內容,從不同方面進行了許多工作。在本節中,我們將它們分為5類(如表2所示),并分別給出詳細的陳述。
擴散模型應用
結論擴散模型正成為廣泛應用領域的熱門課題。為了充分利用擴散模型的威力,本文對擴散模型的幾個方面進行了全面和最新的回顧,詳細分析了各種姿態,包括理論、改進的算法和應用。希望本研究能對擴散模型增強和模型增強起到一定的指導作用。本節從算法和應用的角度提出了一些預期的方向。一方面,應該對不同的數據類型進行更多的嘗試,包括離散空間、去量化空間和潛在空間。此外,為了擴大擴散模型的多樣性,還需要探索不同的最終態噪聲類型和擾動核,如正態分布、伯努利分布、二項分布和泊松分布。此外,明確的損失優化機制和加速與質量的權衡,將帶來有前景的影響,可控調控和更令人滿意的性能。另一方面,為了獲得更好的生成性能,擴散模型在各個領域都得到了應用。然而,目前的大多數應用還停留在表面。預計會有更多針對特定問題的擴散模型,特別是針對科學問題。