擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自布加勒斯特大學等學者發布了關于《視覺擴散模型》綜述論文,對對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻,值得關注**!**
最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻
去噪擴散模型是計算機視覺中的一個新興課題,在生成建模領域顯示了顯著的結果。擴散模型是基于正向擴散和反向擴散兩個階段的深度生成模型。在正向擴散階段,通過加入高斯噪聲對輸入數據進行逐級擾動。在反向階段,模型的任務是通過學習逐步逆轉擴散過程來恢復原始輸入數據。擴散模型因其生成樣本的質量和多樣性而受到廣泛贊賞,盡管其已知的計算負擔,即采樣過程中涉及的大量步驟導致速度較低。本文對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻。首先,我們確定并提出了三種通用的擴散建模框架,它們是基于去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。我們進一步討論了擴散模型和其他深層生成模型之間的關系,包括變分自編碼器、生成對抗網絡、基于能量的模型、自回歸模型和歸一化流。然后,我們介紹了一種多視角分類擴散模型在計算機視覺中的應用。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。
導論
擴散模型[1]-[11]構成了深度生成模型的一個類別,它最近成為計算機視覺中最熱門的話題之一(見圖1),展示了令人印象深刻的生成能力,從高水平的細節到生成示例的多樣性。我們甚至可以說,這些生成模型將生成建模領域的標準提高到一個新的水平,特別是涉及到模型,如Imagen[12]和潛在擴散模型(LDM)[10]。到目前為止,擴散模型已經被廣泛應用于各種生成建模任務,如圖像生成[1]-[7],[10]-[22],圖像超分辨率[10],[12],[23]-[26],圖像修復[1],[3],[4],[10],[23],[25],[27]-[29],圖像編輯[30]-[32],圖像轉換[31],[33]-[37]等。此外,通過擴散模型學習到的潛在表示在判別任務中也很有用,如圖像分割[38]-[41]、分類[42]和異常檢測[43]-[45]。這證實了去噪擴散模型的廣泛適用性,表明進一步的應用還有待發現。此外,學習強潛在表征的能力與表征學習[46],[47]建立了聯系,這是一個全面的領域,研究學習強大數據表征的方法,涵蓋多種方法,從設計新穎的神經結構[48]-[51]到開發學習策略[52]-[57]。
從圖1所示的圖表可以看出,擴散模型的論文數量增長速度非常快。為了概述這一快速發展的主題的過去和現在的成就,本文對計算機視覺中去噪擴散模型的文章進行了全面的回顧。更準確地說,我們調查了以下定義的生成式模型范疇的文章。擴散模型代表了一類深度生成模型,基于(i)前向擴散階段,輸入數據在幾個步驟中通過添加高斯噪聲逐漸受到擾動;(ii)反向(后向)擴散階段,生成模型的任務是從擴散(噪聲)數據中恢復原始輸入數據,通過學習逐步逆轉擴散過程,一步一步。 我們強調,至少有三個子類的擴散模型符合上述定義。第一類是受非平衡熱力學理論啟發的去噪擴散概率模型(DDPMs)[1]、[2]。DDPM是利用潛在變量估計概率分布的潛在變量模型。從這個角度看,DDPM可以看作是一種特殊的變分自編碼(VAEs)[49],正向擴散階段對應于VAE內部的編碼過程,反向擴散階段對應于解碼過程。第二類由噪聲條件評分網絡(NCSNs)[3]表示,它基于通過評分匹配來訓練共享神經網絡,以估計不同噪聲水平下受擾動數據分布的評分函數(定義為對數密度梯度)。隨機微分方程[4]代表了擴散模型的另一種方法,形成了擴散模型的第三個子類別。通過正向和反向SDEs對擴散進行建模,得到了有效的生成策略以及較強的理論結果[58]。后一種表述(基于SDEs)可以被視為對DDPM和NCSNs的泛化。 我們確定了幾個確定的設計選擇,并將它們綜合成三個通用的擴散模型框架,對應于上述三個子類別。在此基礎上,我們進一步討論了擴散模型與其他深層生成模型之間的關系。更具體地說,我們描述了與變分自編碼器(VAEs)[49]、生成對抗網絡(GANs)[51]、基于能量的模型(EBMs)[59]、[60]、自回歸模型[61]和歸一化流[62]、[63]的關系。然后,我們引入了一種用于計算機視覺的擴散模型的多視角分類方法,根據底層框架、目標任務或去噪條件等標準對現有模型進行分類。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。例如,可能最成問題的限制之一是推斷過程中較差的時間效率,這是由非常多的計算步驟(例如數千個)導致的,以生成一個示例[2]。當然,在不影響生成樣本質量的情況下克服這一限制是未來研究的一個重要方向。
綜上所述,我們的貢獻有兩方面:
由于視覺領域最近出現了許多基于擴散模型的貢獻,我們提供了一篇全面而及時的文獻綜述,介紹了在計算機視覺中應用的去噪擴散模型,旨在為我們的讀者提供對通用擴散模型框架的快速理解。
我們設計了擴散模型的多視角分類,旨在幫助其他研究應用于特定領域的擴散模型的研究人員快速找到各自領域的相關工作。
圖2所示。一個由三種不同形式的擴散模型組成的通用框架:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。基于SDEs的公式是對另外兩種公式的泛化。在正向過程中,輸入x0經過T步逐漸加入高斯噪聲。在相反的過程中,模型通過逐漸去除噪聲來學習恢復原始輸入。在SDE公式中,正向過程基于Eq.(11),反向過程基于Eq.(12)。在DDPM版本中,正向過程采用Eq.(1),反向過程采用Eq.(5)。同理,在NCSN版本中,正向過程采用Eq.(9),反向過程采用退火后的朗之萬動力學。 擴散模型是一類概率生成模型,它可以學習通過在不同尺度上添加噪聲來逆轉逐漸降低訓練數據結構的過程。在接下來的三個小節中,我們提出了三種擴散模型的形式,即去噪擴散概率模型、噪聲條件分數網絡和基于隨機微分方程的方法,該方法推廣了前兩種方法。對于每個公式,我們描述了向數據添加噪聲的過程,學習逆轉這一過程的方法,以及在推斷時如何生成新樣本。在圖2中,所有三個公式都作為一個通用框架進行了說明。我們在最后一小節專門討論與其他深度生成模型的聯系。 考慮到不同的分類標準,我們將擴散模型分為多視角分類法。也許分類模型的最重要的標準是由** (i)它們應用的任務和 (ii) 它們需要的輸入信號定義的。此外,由于形成擴散模型有多種方法,(iii) 底層架構是對擴散模型進行分類的另一個關鍵因素**。最后,在訓練和評估過程中使用的數據集也非常重要,因為這有助于在同一任務中比較不同的基線。我們根據之前列舉的標準對擴散模型的分類如表1所示。
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
擴散模型是一類具有豐富理論基礎的深度生成模型,在各種任務中都取得了令人印象深刻的結果。盡管擴散模型比其他最先進的模型取得了令人印象深刻的質量和樣本合成多樣性,但它們仍然存在昂貴的采樣程序和次優的似然估計。近年來,研究人員對擴散模型性能的改進表現出極大的熱情。在這篇文章中,我們提出了擴散模型的現有變體的第一個全面的綜述。具體地說,我們提供了擴散模型的第一個分類,并將它們的變體分為三種類型,即采樣-加速增強、可能性-最大化增強和數據泛化增強。我們還詳細介紹了其他五種生成模型(即變分自編碼器、生成對抗網絡、歸一化流、自回歸模型和基于能量的模型),并闡明擴散模型和這些生成模型之間的聯系。然后對擴散模型的應用進行了深入的研究,包括計算機視覺、自然語言處理、波形信號處理、多模態建模、分子圖生成、時間序列建模和對抗性純化。此外,我們提出了關于發展這一生成模式的新觀點。
//www.zhuanzhi.ai/paper/edf9ba1200e0740b307a923e23f4c966
導論
擴散模型是深度生成模型中最先進的模型。擴散模型在圖像合成[1]上超越GAN后,在不同的任務上也顯示出了一種很有前途的算法,如計算機視覺[2,3,4,5]、自然語言處理[6]、波形信號處理[7,8]、多模態建模[9,10,11]、分子圖建模[12,13]、時間序列建模[14]和對抗式凈化[15]。此外,擴散模型與其他研究領域有著密切的聯系,如魯棒學習[16,17,18],代表性學習[11,19,20,21]和強化學習[22]。然而,原始的擴散模型仍然存在采樣過程緩慢的問題,通常需要數千步的評估才能得到一個樣本[23]。它一直難以實現與其他基于似然的模型(例如自回歸模型[24])競爭的對數似然。最近的一些研究從實際考慮或從理論角度分析擴散模型的能力來改進擴散模型的性能。然而,目前還沒有文獻對擴散模型的最新研究進展進行系統的綜述。為了反映這一快速發展的領域的進展,我們首次對擴散模型進行了全面的綜述。我們設想我們的工作將闡明擴散模型的設計考慮和先進方法,介紹其在不同領域的應用,并為未來的研究指明方向,我們的綜述方案如圖1所示。
擴散概率模型最初是受非平衡熱力學的啟發,作為一種潛在變量生成模型提出的。這類模型由兩個過程組成,第一個是通過在多個尺度上添加噪聲來逐步干擾數據分布的正向過程,第二個是學習恢復數據結構的反向過程[23,25]。從這個角度看,擴散模型可以看作是一個層次非常深的VAE,即破壞和恢復過程分別對應編碼和解碼過程。因此,許多研究的重點是學習編碼和解碼過程,并結合變分下界的設計來提高模型的性能。或者,擴散模型的過程可以看作是隨機微分方程(SDE)的離散化[26,27],其中正向和反向過程對應著正向SDE和反向SDE。因此,通過SDE對擴散模型進行分析,可以提供密集的理論結果和模型改進,特別是在采樣策略方面。基于這些觀點,我們建議將擴散模型分為三類: 采樣過程增強(第3節)、可能性最大化增強(第4節)和泛化能力增強(第5節)。在這兩類模型中,分別分析了離散時間和連續時間兩種具有豐富經驗和理論結果的模型。
在分析了三種擴散模型之后,我們介紹了其他五種常用的生成式模型(第6節),即變分自編碼器、生成式對抗網絡、歸一化流、自回歸模型和基于能量的模型。由于擴散模型具有良好的性質,研究人員開始將擴散模型與傳統的生成模型相結合。我們對這些組合工作進行了具體的介紹,并闡明了對原始生成模型的改進。然后,我們系統地介紹擴散模型在大量任務中的應用(第7節),包括計算機視覺、自然語言處理、波形信號處理、多模態建模、分子圖生成、時間序列建模和對抗性純化。對于每個任務,我們給出了問題的定義,并介紹了利用擴散模型來處理問題的工作。在第8部分,我們提出了這一快速發展的領域的潛在研究方向,并在第9部分總結了綜述。
本綜述的主要貢獻
新分類法。我們首先提出了一個新的和系統的分類擴散模型及其應用。具體而言,我們將現有的擴散模型分為三大類: 采樣加速增強、似然最大化增強和數據泛化增強。此外,我們將擴散模型的應用分為七大類: 計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖生成、時間序列建模和對抗性凈化。
全面綜述。本文首次全面概述了現代擴散模型及其應用。對每一類擴散模型進行了改進,并進行了必要的比較,總結了相應的文獻。對于每種類型的擴散模型應用,我們演示了要處理的主要問題,并說明它們如何處理這些問題。
未來研究方向。本文對擴散模型在算法和應用方面的發展提出了一些有待進一步研究的問題和建議。
本文的組織本文的其余部分組織如下。在第二節中,我們對擴散模型進行了初步的介紹,并給出了擴散模型的標準形式,然后對擴散模型的變體進行了分類。從第3節到第5節,我們闡述了各類型擴散模型的主要增強,并分析了它們的優點和局限性。在第6節中,我們介紹了其他五種常用的生成模型,并說明了它們與擴散模型之間的聯系。在第7節中,我們列出了擴散模型的一系列應用,提供了問題定義和解決方案分析。第8節討論了挑戰和可能的未來方向。在第9節中,我們總結了這一綜述。
應用
由于擴散模型的靈活性和強度,它們最近已被應用于許多現實世界的應用。在本節中,我們將這些應用分為七個部分,包括計算機視覺、自然語言處理、波形信號處理、多模態學習、分子圖建模、時間序列建模和對抗性凈化。在每個小節中,我們首先對每個任務進行簡要介紹,然后詳細介紹如何利用擴散模型來提高性能。
圖像超分辨率與修復
圖像超分辨率是指從低分辨率(LR)圖像中恢復高分辨率(HR)圖像,而圖像修補是指重建圖像中缺失或破壞的區域。超分辨率擴散(SRDiff)[2]是第一個基于擴散的單幅圖像超分辨率模型,該模型利用數據似然的變分界進行優化。SRDiff能夠提供多樣化和現實的超分辨率(SR)結果,通過逐步轉換高斯噪聲條件下的LR輸入與馬爾可夫鏈。重復細化超分辨率(SR3)[116]采用去噪擴散概率模型[23,25]進行條件圖像生成,通過隨機迭代去噪過程進行圖像超分辨率。LDM[117]提出了潛在擴散模型,這是一種既提高了去噪擴散模型的訓練效率和采樣效率,又不損失質量的有效方法。為了幫助擴散模型使用有限的計算資源進行訓練,同時保持質量和靈活性,LDM還利用預訓練的自動編碼器在潛在空間中利用它們。RePaint[118]設計了一種改進的去噪策略,通過重采樣迭代來更好地調節圖像。RePaint沒有減慢擴散過程[119],而是在擴散過程中前進和后退,產生有語義意義的圖像。調色板[120]提出了一個基于條件擴散模型的統一框架,并對該框架進行了四項具有挑戰性的圖像生成任務[121]的評估,如著色、修復、取消裁剪和JPEG恢復。級聯擴散模型(cascade Diffusion Models, CDM)[122]由級聯的多重擴散模型組成,生成分辨率逐漸增加的圖像。CDM能夠在類條件ImageNet[123]生成基準數據集上生成高質量的圖像,不需要任何來自輔助圖像分類器的監督信息。多速度擴散(MSDiff)[124]產生了一種條件多速度擴散估計器(CMDE),這是一種條件分數估計器,它結合了以往的條件分數估計方法[116,125]。
語義分割
語義分割是將圖像中屬于同一類別的部分聚類在一起。預訓練可以提高語義切分模型的標簽利用率,生成模型是一種替代預訓練的方法。最近的一項研究[3]對最先進的DDPM[23]學習的表征進行了調查,并表明它們有能力捕捉對下游視覺任務有價值的高級語義信息。它開發了一種簡單的方法,在少樣本的操作點上利用這些學習到的表示,并顯著優于包括VDVAE[126]和ALAE[16]在內的替代方法。受擴散模型成功的啟發,學者們還研究了通過對自動編碼器去噪學習到的表示在語義分割中的有效性[127]。解碼器去噪預訓練(Decoder去噪預訓練,DDeP)[128]使用監督學習程序對編碼器進行初始化,只在去噪目標引導下對解碼器進行預訓練。
異常檢測
異常檢測是機器學習和計算機視覺中的一個關鍵和具有挑戰性的問題[129]。生成模型已經被證明具有強大的異常檢測機制。它們有助于建立正常或健康參考數據的模型,這些參考數據隨后可被用作異常評分的基線[130],包括GAN、VAE和擴散模型[131,132]。AnoDDPM[131]提出了一種新的異常檢測方法,該方法利用DDPM破壞輸入圖像,并重建圖像的健康近似。該方法比對抗性訓練具有更好的建模性能和更高的樣本質量,并且訓練更加穩定。DDPM- cd[132]提出了一種通過DDPM將大量無監督遙感圖像納入訓練過程的新方法。它利用預訓練的DDPM和來自擴散模型解碼器的多尺度表示進行遙感變化檢測。它的目的是訓練一個光變化檢測分類器,有效地檢測精確的變化。
視頻生成
在深度學習時代,由于視頻幀的時空連續性和復雜性,高質量的視頻生成仍然具有挑戰性[4,5]。最近的研究求助于擴散模型來提高生成視頻的質量。柔性擴散模型(Flexible Diffusion Model, FDM)[137]提出了一種新的基于DDPM的視頻生成框架,可以在不同的現實場景下生成長期的視頻補全。它引入了一個生成模型,可以在測試期間對視頻幀的任意子集進行采樣,并提出了一個為此目的設計的架構。受神經視頻壓縮研究進展的啟發[138],殘差視頻擴散(RVD)提出了一種自回歸的端到端優化視頻擴散模型。它通過反向擴散過程產生的隨機殘差來修正確定性的下一幀預測,從而連續生成未來幀。視頻擴散模型(Video Diffusion Model, VDM)[139]引入了一種用于視頻時空擴展的條件采樣方法。它超越了之前提出的方法,并生成長、高分辨率的視頻。
自然語言處理
自然語言處理是旨在理解、建模和管理人類語言的研究領域。文本生成也被稱為自然語言生成,已經成為自然語言處理中最關鍵和最具挑戰性的任務之一[140]。它的目標是在給定輸入數據(如序列和關鍵字)或隨機噪聲的情況下,用人類語言生成可信和可讀的文本。研究人員已經開發了許多用于文本生成的廣泛應用的技術[141,142]。離散去噪擴散概率模型(D3PMs)[6]引入了用于字符級文本生成的類擴散生成模型[143]。他們通過超越具有統一轉移概率的腐蝕過程,推廣了多項擴散模型[144]。大型自回歸語言模型(LMs)能夠生成高質量的文本[90,145,146,147]。為了在實際應用中可靠地部署這些LM,文本生成過程通常是可控的。這意味著我們需要生成能夠滿足要求的文本(如主題、句法結構)。在文本生成中,不需要再訓練就能控制語言模型(LMs)的行為是一個重要的問題[148,149]。盡管最近的研究在簡單句子屬性(如情感)的控制上取得了顯著的成功[150,151],但在復雜的、細粒度的控制(如句法結構)上卻鮮有進展。為了解決更復雜的控制問題,Diffusion-LM[152]提出了一種基于連續擴散的新的語言模型。Diffusion-LM從一系列高斯噪聲向量開始,逐級降噪成單詞對應的向量。逐步去噪的步驟有助于產生分層連續的潛在表征。這種分層連續的潛在變量可以使簡單的、基于梯度的方法實現復雜的控制。
未來方向
新視角。我們觀察到離散擴散模型仍存在一些未解決的問題,這些問題在自然語言處理中具有實用價值。由于數據的離散性,在連續的高斯噪聲下很難恢復已損壞的數據。但如果我們加入像隨機游走這樣的離散噪聲,那么評分函數將變得不明確,評分匹配框架將不再適用。同樣的問題也存在于其他數據類型中,比如圖。因此,需要新的方法和視角[197]。在理論層面,我們仍然需要檢驗擴散模型中一些公認的前提。例如,在實踐中,人們普遍認為正向處理會將數據轉換為標準的高斯噪聲。然而,SDE的有限時間解不能忘記原始數據的分布。這些實踐和理論之間的不匹配可以激發更好的模型設計[198]。在實踐層面,由于擴散模型的靈活性,許多經驗方法的泛化能力有待進一步評價和分析[34,199,200,197]。
泛化到更多的應用。如第7節所示,擴散模型已應用于7種不同類型的場景,從計算機視覺到對抗性純化。然而,仍有一些場景有待開發,如文本到視聽語音合成和視覺問答(VQA)。此外,我們可以明顯地發現,現有的大多數應用都局限于單一輸入/輸出或簡單輸入/輸出。因此,如何使擴散模型能夠處理復雜的輸入并產生多種輸出,并在現實場景中獲得更好的性能,是研究人員面臨的關鍵和挑戰。雖然擴散模型在魯棒學習、代表性學習和強化學習等研究領域已經得到了研究,但仍存在與更多研究領域相聯系的機會。
CVPR 2022 線下會議將于 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。相關一系列教程從19號就開始了。來自英偉達和Google的三名研究學者講述了《基于擴散的去噪生成建模:基礎與應用》教程,182頁ppt帶你更好地了解高保真圖像視頻生成方法。
去噪擴散模型,也被稱為基于分數的生成模型,是最近出現的一個強大的生成模型類別。它們在高保真圖像生成方面表現出驚人的結果,甚至常常超過生成對抗網絡。重要的是,它們還提供了較強的樣本多樣性和對已學習數據分布的保真模式覆蓋。這意味著去噪擴散模型非常適合學習復雜多樣的數據模型。去噪擴散模型定義了一個正向擴散過程,通過逐漸擾動輸入數據將數據映射到噪聲。數據生成是通過一個學習的、參數化的反向過程實現的,該過程執行迭代去噪,從純隨機噪聲開始(見上圖)。雖然擴散模型相對較新,但它們已經發現了許多成功的應用。例如,它們已經在計算機視覺中用于圖像編輯、可控、語義和文本驅動的圖像合成、圖像到圖像的翻譯、超分辨率、圖像分割以及三維形狀生成和完成。
在本教程中,我們介紹了去噪擴散模型的基礎,包括他們的離散步驟的公式以及他們的基于微分方程的描述。我們還討論了與實踐者相關的實際實施細節,并強調了與其他現有生成模型的聯系,從而將去噪擴散模型置于更廣泛的背景中。此外,我們回顧了近年來加速采樣、條件生成等方面的技術擴展和先進方法。采樣速度慢一直是擴散模型去噪的主要缺點。然而,已經出現了許多有希望克服這一挑戰的技術。最近去噪擴散模型在高分辨率條件生成任務中也取得了驚人的進展,例如文本到圖像的生成,我們討論了實現這一目標的幾個關鍵的先進技術。為了展示去噪擴散模型如何適合視覺用例,我們也回顧了在計算機視覺中的成功應用。
考慮到擴散模型具有生成質量高、模式覆蓋率和多樣性的獨特優勢,以及近年來關于快速采樣和條件生成的研究成果,我們認為擴散模型將在計算機視覺和圖形學領域得到廣泛應用。不幸的是,擴散模型依賴于相當技術性的概念,因此在許多應用領域,這些模型的真正潛力還沒有被釋放出來,因為研究它們的社區仍然相對較小。本教程的主要目標是使擴散模型可通過提供一個介紹性的短期課程廣泛的計算機視覺觀眾。本教程將建立在生成學習的簡單概念上,并將為感興趣的研究人員和從業者提供基礎知識,以開始在這一令人興奮的領域工作。
//cvpr2022-tutorial-diffusion-models.github.io/
日程目錄:
引言 Introduction
Part (1): Denoising Diffusion Probabilistic Models Part (2): Score-based Generative Modeling with Differential Equations Part (3): Advanced Techniques: Accelerated Sampling, Conditional Generation, and Beyond 應用:
Applications (1): Image Synthesis, Text-to-Image, Controllable and Semantic Generation Applications (2): Image Editing, Image-to-Image, Superresolution, Segmentation Applications (3): Discrete State Models, 3D Generation, Medical Imaging, Video Synthesis Conclusions, Open Problems and Final Remarks
講者介紹:
Karsten Kreis是英偉達多倫多人工智能實驗室的高級研究科學家。在加入NVIDIA之前,他曾在D-Wave Systems從事深度生成建模工作,并參與創立了一家利用生成模型進行藥物發現的初創公司Variational AI。在轉向深度學習之前,Karsten在馬克斯普朗克光科學研究所完成了量子信息論碩士學位,在馬克斯普朗克聚合物研究所完成了計算與統計物理學博士學位。目前,Karsten的研究重點是開發新的生成學習方法,以及將深度生成模型應用于計算機視覺、圖形和數字藝術等領域的問題。
Ruiqi Gao是谷歌research, Brain team的研究科學家。她的研究方向是統計建模和學習,主要關注生成模型和表示學習。她于2021年獲得加州大學洛杉磯分校(UCLA)統計學博士學位,在視覺、認知、學習和自主研究中心(VCLA)工作,導師是Song-Chun Zhu 和 Ying Nian Wu。她最近的研究主題包括深度生成模型的可擴展訓練算法,以及在計算機視覺、自然語言處理和神經科學中的應用。
Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。