去噪擴散模型(DDMs)已經成為一種強大的生成模型。正向擴散過程會緩慢地擾動數據,而深度模型則學會逐漸去噪。合成相當于求解由學習的模型定義的微分方程(DE)。為了獲得高質量的生成,求解DE需要緩慢的迭代求解器。在這項工作中,我們提出了高階去噪擴散求解器(GENIE):基于截斷泰勒方法,我們推導了一種新的高階求解器,它顯著加速了合成。我們的求解器依賴于受擾數據分布的高階梯度,即高階分數函數。在實踐中,只需要雅可比向量積(JVPs),本文建議通過自動微分從一階分數網絡中提取它們。然后,我們將JVP提取到一個單獨的神經網絡中,使我們能夠在合成過程中高效地計算新采樣器所需的高階項。我們只需要在一階分數網絡上訓練一個額外的小頭部。我們在多個圖像生成基準測試上驗證了GENIE,并證明了GENIE優于所有以前的求解器。與最近從根本上改變DDMs中的生成過程的方法不同,GENIE解決了真正的生成DE,并仍然支持編碼和引導采樣等應用。項目頁面和代碼://nv-tlabs.github.io/GENIE。
長期以來,生成學習領域(尤其是圍繞圖像生成的領域)被分為兩派:(1)生成對抗網絡(GANs)生成高質量的樣本,代價是模式覆蓋差和訓練不穩定;(2)基于似然的模型,包括變分自動編碼器(VAEs),歸一化流和自回歸模型,提供全模式覆蓋往往以樣本質量差為代價。最近,一種名為去噪擴散模型的新方法進入了生成學習領域,它以高樣本質量和全面模式覆蓋率解決了這兩個學派的難題。然而,這也以樣本生成速度慢為代價。在這次演講中,我將簡要回顧去噪擴散模型和我們最近在NVIDIA建立的一些成功的框架,使用這些模型,從文本到圖像生成模型到3D形狀模型和對抗魯棒分類框架。然后,我將深入研究擴散模型的抽樣挑戰,并討論我們為解決這些問題開發的三個框架。這些包括在潛在空間中訓練擴散模型的基于潛在分數的生成模型,使用復雜多模態分布進行去噪的擴散GANs,以及以更少的步驟求解擴散模型中的抽樣微分方程的高階求解器。參考鏈接:
-- //arxiv.org/abs/2106.05931: Score-based Generative Modeling in Latent Space
-- : Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
-- GENIE: Higher-Order Denoising Diffusion Solvers
Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。
**論文題目:**DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps **收錄會議:**NeurIPS 2022 Oral **論文鏈接:**//arxiv.org/abs/2206.00927 代碼鏈接:
在線demo: AI 領域今年影響力最大的進展,爆火的 AI 作圖絕對是其中之一。設計者只需要輸入對圖片的文字描述,就可以由 AI 生成一張質量極高的高分辨率圖片。目前,使用范圍最廣的當屬 StabilityAI 的開源模型 Stable Diffusion,模型一經開源就在社區引起了廣泛的討論。然而,擴散模型在使用上最大的問題就是其極慢的采樣速度。模型采樣需要從純噪聲圖片出發,一步一步不斷地去噪,最終得到清晰的圖片。在這個過程中,模型必須串行地計算至少 50 到 100 步才可以獲得較高質量的圖片,這導致生成一張圖片需要的時間是其它深度生成模型的 50 到 100 倍,極大地限制了模型的部署和落地。為了加速擴散模型的采樣,許多研究者從硬件優化的角度出發,例如 Google 使用 JAX 語言將模型編譯運行在 TPU 上,OneFlow 團隊 [1] 使用自研編譯器將 Stable Diffusion 做到了“一秒出圖”。這些方法都基于 50 步的采樣算法 PNDM [2],該算法在步數減少時采樣效果會急劇下降。就在幾天前,這一紀錄又被刷新了!Stable Diffusion 的官方 Demo [3] 更新顯示,采樣 8 張圖片的時間從原來的 8 秒鐘直接被縮短至了 4 秒鐘!快了整整一倍!
擴散模型是目前最先進的圖像生成和似然估計方法。在此工作中,我們將連續時間擴散模型推廣到任意黎曼流形,并推導出一個變分似然估計框架。在計算上,提出了計算似然估計所需黎曼散度的新方法。此外,在推廣歐幾里得情況下,我們證明了最大化這個變分下界等價于黎曼分數匹配。在經驗上,我們證明了黎曼擴散模型在廣譜光滑流形上的表達能力,如球面、環面、雙曲面和正交群。我們提出的方法在所有基準上都實現了最新的可能性。
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
題目: Graph Structure of Neural Networks
摘要:
神經網絡通常表示為神經元之間的連接圖。但是,盡管已被廣泛使用,但目前對神經網絡的圖結構與其預測性能之間的關系知之甚少。本文系統地研究了神經網絡的圖結構如何影響其預測性能。為此,開發了一種新的基于圖的神經網絡表示,稱為關系圖,其中神經網絡的計算層對應于圖結構每輪進行的消息交換。使用這種表示,我們表明:
(1)關系圖的“最佳點”導致神經網絡的預測性能大大提高;
(2)神經網絡的性能大約是其關系圖的聚類系數和平均路徑長度的平滑函數;
(3)文中發現在許多不同的任務和數據集上是一致的;
(4)可以有效地識別最佳點;
(5)表現最佳的神經網絡具有令人驚訝的類似于真實生物神經網絡的圖結構。
該方法為神經體系結構的設計和對神經網絡的一般理解開辟了新的方向。
主題: TOPOLOGY OF DEEP NEURAL NETWORKS
摘要: 我們研究數據集M=Ma∪Mb?Rd的拓撲結構如何表示二進制分類問題中的兩個類別a和b,如何通過經過良好訓練的神經網絡的層而發生變化,即在訓練集和接近零的泛化誤差(≈0.01%)。目的是揭示深層神經網絡的兩個奧秘:(i)像ReLU這樣的非平滑激活函數要優于像雙曲正切這樣的平滑函數; (ii)成功的神經網絡架構依賴于多層結構,即使淺層網絡可以很好地近似任意函數。我們對大量點云數據集的持久同源性進行了廣泛的實驗,無論是真實的還是模擬的。結果一致地證明了以下幾點:(1)神經網絡通過更改拓撲結構來運行,將拓撲復雜的數據集在穿過各層時轉換為拓撲簡單的數據集。無論M的拓撲多么復雜,當通過訓練有素的神經網絡f:Rd→Rp時,Ma和Mb的貝蒂數都會大大減少;實際上,它們幾乎總是減小到可能的最低值:對于k≥1和β0(f(Mi))= 1,i = a,b,βk(f(Mi))= 0。此外,(2)ReLU激活的Betti數減少比雙曲線切線激活快得多,因為前者定義了改變拓撲的非同胚映射,而后者定義了保留拓撲的同胚映射。最后,(3)淺層和深層網絡以不同的方式轉換數據集-淺層網絡主要通過更改幾何結構并僅在其最終層中更改拓撲來運行,而深層網絡則將拓撲變化更均勻地分布在所有層中。
題目: What Can Neural Networks Reason About?
摘 要:
神經網絡已經成功地完成了許多推理任務。從經驗上看,這些任務需要專門的網絡結構,例如,圖神經網絡(GNNs)在許多這樣的任務中表現良好,但較少結構的網絡會失敗。從理論上講,盡管網絡結構具有相同的表達能力,但人們對網絡結構為什么以及何時比其他網絡結構更能泛化的理解是有限的。本文通過研究網絡的計算結構與相關推理過程的算法結構之間的一致性,建立了一個描述網絡能很好學習哪些推理任務的框架。我們正式定義了這種算法對齊,并推導出一個隨更好的對齊而減小的樣本復雜度界。該框架為流行推理模型的經驗成功提供了一個解釋,并指出了它們的局限性。例如,我們通過一個強大的算法范例——動態規劃(DP)的鏡頭,將看似不同的推理任務,如直覺物理、可視化問題回答和最短路徑統一起來。我們證明了GNN與DP是一致的,因此可以解決這些問題。在一些推理任務中,我們的理論得到了實證結果的支持。