長期以來,生成學習領域(尤其是圍繞圖像生成的領域)被分為兩派:(1)生成對抗網絡(GANs)生成高質量的樣本,代價是模式覆蓋差和訓練不穩定;(2)基于似然的模型,包括變分自動編碼器(VAEs),歸一化流和自回歸模型,提供全模式覆蓋往往以樣本質量差為代價。最近,一種名為去噪擴散模型的新方法進入了生成學習領域,它以高樣本質量和全面模式覆蓋率解決了這兩個學派的難題。然而,這也以樣本生成速度慢為代價。在這次演講中,我將簡要回顧去噪擴散模型和我們最近在NVIDIA建立的一些成功的框架,使用這些模型,從文本到圖像生成模型到3D形狀模型和對抗魯棒分類框架。然后,我將深入研究擴散模型的抽樣挑戰,并討論我們為解決這些問題開發的三個框架。這些包括在潛在空間中訓練擴散模型的基于潛在分數的生成模型,使用復雜多模態分布進行去噪的擴散GANs,以及以更少的步驟求解擴散模型中的抽樣微分方程的高階求解器。參考鏈接:
-- //arxiv.org/abs/2106.05931: Score-based Generative Modeling in Latent Space
-- : Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
-- GENIE: Higher-Order Denoising Diffusion Solvers
Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。
CVPR 2022 線下會議將于 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。相關一系列教程從19號就開始了。來自英偉達和Google的三名研究學者講述了《基于擴散的去噪生成建模:基礎與應用》教程,182頁ppt帶你更好地了解高保真圖像視頻生成方法。
去噪擴散模型,也被稱為基于分數的生成模型,是最近出現的一個強大的生成模型類別。它們在高保真圖像生成方面表現出驚人的結果,甚至常常超過生成對抗網絡。重要的是,它們還提供了較強的樣本多樣性和對已學習數據分布的保真模式覆蓋。這意味著去噪擴散模型非常適合學習復雜多樣的數據模型。去噪擴散模型定義了一個正向擴散過程,通過逐漸擾動輸入數據將數據映射到噪聲。數據生成是通過一個學習的、參數化的反向過程實現的,該過程執行迭代去噪,從純隨機噪聲開始(見上圖)。雖然擴散模型相對較新,但它們已經發現了許多成功的應用。例如,它們已經在計算機視覺中用于圖像編輯、可控、語義和文本驅動的圖像合成、圖像到圖像的翻譯、超分辨率、圖像分割以及三維形狀生成和完成。
在本教程中,我們介紹了去噪擴散模型的基礎,包括他們的離散步驟的公式以及他們的基于微分方程的描述。我們還討論了與實踐者相關的實際實施細節,并強調了與其他現有生成模型的聯系,從而將去噪擴散模型置于更廣泛的背景中。此外,我們回顧了近年來加速采樣、條件生成等方面的技術擴展和先進方法。采樣速度慢一直是擴散模型去噪的主要缺點。然而,已經出現了許多有希望克服這一挑戰的技術。最近去噪擴散模型在高分辨率條件生成任務中也取得了驚人的進展,例如文本到圖像的生成,我們討論了實現這一目標的幾個關鍵的先進技術。為了展示去噪擴散模型如何適合視覺用例,我們也回顧了在計算機視覺中的成功應用。
考慮到擴散模型具有生成質量高、模式覆蓋率和多樣性的獨特優勢,以及近年來關于快速采樣和條件生成的研究成果,我們認為擴散模型將在計算機視覺和圖形學領域得到廣泛應用。不幸的是,擴散模型依賴于相當技術性的概念,因此在許多應用領域,這些模型的真正潛力還沒有被釋放出來,因為研究它們的社區仍然相對較小。本教程的主要目標是使擴散模型可通過提供一個介紹性的短期課程廣泛的計算機視覺觀眾。本教程將建立在生成學習的簡單概念上,并將為感興趣的研究人員和從業者提供基礎知識,以開始在這一令人興奮的領域工作。
//cvpr2022-tutorial-diffusion-models.github.io/
日程目錄:
引言 Introduction
Part (1): Denoising Diffusion Probabilistic Models Part (2): Score-based Generative Modeling with Differential Equations Part (3): Advanced Techniques: Accelerated Sampling, Conditional Generation, and Beyond 應用:
Applications (1): Image Synthesis, Text-to-Image, Controllable and Semantic Generation Applications (2): Image Editing, Image-to-Image, Superresolution, Segmentation Applications (3): Discrete State Models, 3D Generation, Medical Imaging, Video Synthesis Conclusions, Open Problems and Final Remarks
講者介紹:
Karsten Kreis是英偉達多倫多人工智能實驗室的高級研究科學家。在加入NVIDIA之前,他曾在D-Wave Systems從事深度生成建模工作,并參與創立了一家利用生成模型進行藥物發現的初創公司Variational AI。在轉向深度學習之前,Karsten在馬克斯普朗克光科學研究所完成了量子信息論碩士學位,在馬克斯普朗克聚合物研究所完成了計算與統計物理學博士學位。目前,Karsten的研究重點是開發新的生成學習方法,以及將深度生成模型應用于計算機視覺、圖形和數字藝術等領域的問題。
Ruiqi Gao是谷歌research, Brain team的研究科學家。她的研究方向是統計建模和學習,主要關注生成模型和表示學習。她于2021年獲得加州大學洛杉磯分校(UCLA)統計學博士學位,在視覺、認知、學習和自主研究中心(VCLA)工作,導師是Song-Chun Zhu 和 Ying Nian Wu。她最近的研究主題包括深度生成模型的可擴展訓練算法,以及在計算機視覺、自然語言處理和神經科學中的應用。
Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。
生成模型是一類機器學習算法,它定義了圖像、序列和圖等復雜高維物體的概率分布。深度神經網絡和優化算法的最新進展顯著地增強了這些模型的能力,并重新激發了對它們的研究興趣。本課程探討深度生成模型的基本概率原理、它們的學習算法和流行的模型族,包括變分自編碼器、生成對抗網絡、自回歸模型和規范化流。本課程還涵蓋了計算機視覺、自然語言處理和生物醫學等領域的應用,并將其與強化學習領域聯系起來。
Introduction and Background Autoregressive Models Variational Autoencoders Normalizing Flow Models Energy-Based Models Generative Adversarial Networks Probabilistic Reasoning, Combining Generative Model Discreteness in Generative Modeling Evaluating Generative Models
隨著深度學習的發展,尤其是GAN的出現,越來越多有趣且實用的Image-to-image(圖像到圖像轉換,I2I)算法變得可行。本文介紹NVIDIA在ICIP 2019的I2I教程,包含7個PPT。分別對GAN、Vid2Vid進行介紹。
Image-to-image translation (圖像到圖像轉換,I2I)任務要求基于一張輸入圖像來生成一張新圖像。許多圖像處理問題,都可以被定義為I2I問題,如超分辨率、圖像修復、風格轉換等。
NVIDIA在ICIP2019的教程首先介紹了Goodfellow等人提出的GAN和一些流行的GAN的變式,然后給出了I2I問題的正式定義,統一了一些符號,并將現有的工作進行了分類(有監督、半監督、多模態、小樣本等)。教程對這些問題的網絡設計、目標函數、訓練策略、局限性等都做了一些介紹。教程還介紹了Video-to-video translation問題,該問題可以看成是I2I問題的擴展。教程討論了一些實際的問題,如如何收集訓練數據和排查故障。
教程包含了共7個PPT,內容分別為:
PPT下載鏈接: //pan.baidu.com/s/1_N1ZagHtyTFBqT-W9SzhVA 提取碼: uwcd