亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

CVPR 2022 線下會議將于 2022 年 6 月 21 日-24 日在美國新奧爾良舉行。而今年投稿量創新高超過了一萬,其中 2067 篇論文被接收。相關一系列教程從19號就開始了。來自英偉達和Google的三名研究學者講述了《基于擴散的去噪生成建模:基礎與應用》教程,182頁ppt帶你更好地了解高保真圖像視頻生成方法。

去噪擴散模型,也被稱為基于分數的生成模型,是最近出現的一個強大的生成模型類別。它們在高保真圖像生成方面表現出驚人的結果,甚至常常超過生成對抗網絡。重要的是,它們還提供了較強的樣本多樣性和對已學習數據分布的保真模式覆蓋。這意味著去噪擴散模型非常適合學習復雜多樣的數據模型。去噪擴散模型定義了一個正向擴散過程,通過逐漸擾動輸入數據將數據映射到噪聲。數據生成是通過一個學習的、參數化的反向過程實現的,該過程執行迭代去噪,從純隨機噪聲開始(見上圖)。雖然擴散模型相對較新,但它們已經發現了許多成功的應用。例如,它們已經在計算機視覺中用于圖像編輯、可控、語義和文本驅動的圖像合成、圖像到圖像的翻譯、超分辨率、圖像分割以及三維形狀生成和完成。

在本教程中,我們介紹了去噪擴散模型的基礎,包括他們的離散步驟的公式以及他們的基于微分方程的描述。我們還討論了與實踐者相關的實際實施細節,并強調了與其他現有生成模型的聯系,從而將去噪擴散模型置于更廣泛的背景中。此外,我們回顧了近年來加速采樣、條件生成等方面的技術擴展和先進方法。采樣速度慢一直是擴散模型去噪的主要缺點。然而,已經出現了許多有希望克服這一挑戰的技術。最近去噪擴散模型在高分辨率條件生成任務中也取得了驚人的進展,例如文本到圖像的生成,我們討論了實現這一目標的幾個關鍵的先進技術。為了展示去噪擴散模型如何適合視覺用例,我們也回顧了在計算機視覺中的成功應用。

考慮到擴散模型具有生成質量高、模式覆蓋率和多樣性的獨特優勢,以及近年來關于快速采樣和條件生成的研究成果,我們認為擴散模型將在計算機視覺和圖形學領域得到廣泛應用。不幸的是,擴散模型依賴于相當技術性的概念,因此在許多應用領域,這些模型的真正潛力還沒有被釋放出來,因為研究它們的社區仍然相對較小。本教程的主要目標是使擴散模型可通過提供一個介紹性的短期課程廣泛的計算機視覺觀眾。本教程將建立在生成學習的簡單概念上,并將為感興趣的研究人員和從業者提供基礎知識,以開始在這一令人興奮的領域工作。

//cvpr2022-tutorial-diffusion-models.github.io/

日程目錄:

引言 Introduction

Part (1): Denoising Diffusion Probabilistic Models Part (2): Score-based Generative Modeling with Differential Equations Part (3): Advanced Techniques: Accelerated Sampling, Conditional Generation, and Beyond 應用:

Applications (1): Image Synthesis, Text-to-Image, Controllable and Semantic Generation Applications (2): Image Editing, Image-to-Image, Superresolution, Segmentation Applications (3): Discrete State Models, 3D Generation, Medical Imaging, Video Synthesis Conclusions, Open Problems and Final Remarks

講者介紹:

Karsten Kreis是英偉達多倫多人工智能實驗室的高級研究科學家。在加入NVIDIA之前,他曾在D-Wave Systems從事深度生成建模工作,并參與創立了一家利用生成模型進行藥物發現的初創公司Variational AI。在轉向深度學習之前,Karsten在馬克斯普朗克光科學研究所完成了量子信息論碩士學位,在馬克斯普朗克聚合物研究所完成了計算與統計物理學博士學位。目前,Karsten的研究重點是開發新的生成學習方法,以及將深度生成模型應用于計算機視覺、圖形和數字藝術等領域的問題。

Ruiqi Gao是谷歌research, Brain team的研究科學家。她的研究方向是統計建模和學習,主要關注生成模型和表示學習。她于2021年獲得加州大學洛杉磯分校(UCLA)統計學博士學位,在視覺、認知、學習和自主研究中心(VCLA)工作,導師是Song-Chun Zhu 和 Ying Nian Wu。她最近的研究主題包括深度生成模型的可擴展訓練算法,以及在計算機視覺、自然語言處理和神經科學中的應用。

Arash Vahdat是NVIDIA的首席研究科學家,專攻計算機視覺和機器學習。在加入NVIDIA之前,他是D-Wave Systems的一名研究科學家,在那里他致力于深度生成學習和弱監督學習。在D-Wave之前,Arash是西蒙弗雷澤大學(SFU)的一名研究教師,他領導了深度視頻分析的研究,并教授大數據機器學習研究生水平的課程。在Greg Mori的指導下,Arash在SFU獲得了視覺分析潛在變量框架的博士和碩士學位。他目前的研究領域包括深度生成學習、弱監督學習、高效神經網絡和概率深度學習。

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

現代深度學習已經在多個學科中帶來了許多發現:計算機視覺、語音識別、自然語言處理技術以及純粹通過自我游戲學習游戲的能力。這在很大程度上是由獲取大量數據的能力以及與問題域匹配的適當的歸納偏差所驅動的。在本教程中,我們將探討這一新興技術與信息論的相互作用。特別地,我們將討論兩個主題。

(1) 深度學習在信息論中的應用:信息論學界在編碼設計和解碼算法方面率先取得了幾項突破,徹底改變了現代數字通信。在這一主題中,我們將研究是否有可能利用現代深度學習技術來加速這種編碼方案的發現。我們將介紹這一領域的各種發展,展示Viterbi和BCJR算法可以從觀測數據中“學習”,以及如何為高密度編碼學習比消息傳遞更好的算法。此外,經過充分研究的信道編碼設置,我們基本上可以獲得無限數量的訓練數據,并且在一些設置中已經知道了接近最優的編碼策略,可以提供一個視角,通過它可以改進和增強目前的深度學習技術。除了代碼設計,深度學習作為一種通用函數逼近器在信息論中有更廣泛的應用潛力。我們將談到這個大致的概念。事實上,最近的一些研究已經將深度學習用于(條件)獨立檢驗、互信息估計、壓縮感知以及多假設檢驗中的誤發現率控制。

(2)在第二個主題中,我們將對信息論原理在理解和設計深度學習系統中的應用進行調研。這些工作大致可分為三類:(a)代表性(b)可學習性。(A)事實上,深度學習的一個基本結果是緊密逼近任何連續函數的能力。有幾個現代的表示定理的概括理解的數量和深度這樣的網絡需要近似各種函數類,以及一些不變的性質。我們將調研這些結果。(B)有一些新興的工作,包括張量方法,在一些數學假設下為神經網絡和混合專家提供了各種可學習性保證。

付費5元查看完整內容

做PPT需要復雜的多模態推理技能,以總結關鍵概念,并以邏輯和視覺上令人愉悅的方式呈現它們。機器能學會模仿這個費力的過程嗎?我們提出了一種新的任務和方法來生成文檔到幻燈片。解決這一問題涉及文檔摘要、圖像和文本檢索、幻燈片結構和布局預測,以便以適合展示的形式安排關鍵元素。我們提出了一個層次序列到序列的方法,以端到端方式解決我們的任務。我們的方法利用文檔和幻燈片的固有結構,并結合釋義和布局預測模塊來生成幻燈片。為了加速這一領域的研究,我們發布了一個關于6K配對文檔和幻燈片組的數據集,用于我們的實驗。我們證明了我們的方法優于強基線,并產生了具有豐富內容和對齊圖像的幻燈片。

//www.zhuanzhi.ai/paper/3078b811fd7aeb94fd538d646503840e

付費5元查看完整內容

人臉檢測是許多人臉識別和人臉分析系統的關鍵第一步。早期的人臉檢測方法主要是基于從局部圖像區域手工提取特征的基礎上構建分類器,如Haar級聯和梯度定向直方圖。然而,這些方法還不夠強大,無法對來自不受控制環境的圖像實現高精度。

隨著2012年深度神經網絡在圖像分類方面的突破性工作,人臉檢測的范式發生了巨大的轉變。受計算機視覺中深度學習的快速發展的啟發,在過去的幾年里,許多基于深度學習的框架被提出用于人臉檢測,在準確性方面取得了顯著的提高。

在這項工作中,我們提供了一些最具代表性的基于深度學習的人臉檢測方法的詳細概述,將它們分成幾個主要類別,并展示了它們的核心架構設計和流行基準上的精度。我們還描述了一些最流行的人臉檢測數據集。最后,我們討論了當前該領域存在的一些問題,并對未來的研究提出了建議。

付費5元查看完整內容

圖像到圖像轉換(I2I)的目的是在保留內容表示的同時將圖像從源域傳輸到目標域。I2I由于在圖像合成、分割、風格轉換、復原、姿態估計等計算機視覺和圖像處理問題上的廣泛應用,近年來受到越來越多的關注,并取得了巨大的進展。在本文中,我們對近年來發展起來的I2I工作進行了綜述。我們將分析現有I2I工作的關鍵技術,并闡明社區取得的主要進展。此外,我們將闡述I2I對研究和行業社區的影響,并指出在相關領域仍存在的挑戰。

//www.zhuanzhi.ai/paper/5fe5204f7d9eeb37dc385304f9cb9f62

想象一下,如果你拍了一張自拍照,想讓它更有藝術感,就像漫畫家畫的一樣,你怎么能通過電腦自動實現呢?這類研究工作可以概括為圖像到圖像轉換(I2I)問題。通常,I2I的目標是將輸入圖像x從源域A轉換為目標域B,保留內在源內容并轉移外部目標樣式。例如,可以將自拍圖像作為源域,以一些漫畫作為目標域參考,將其“翻譯”為想要的藝術風格圖像。

從上面I2I的基本定義可以看出,將一幅圖像從一個源域轉換到另一個目標域可以涵蓋圖像處理、計算機圖形學、計算機視覺等方面的許多問題。具體來說,I2I已經廣泛應用于語義圖像合成[3],[4],[5],[6],圖像分割[7],[8],[9],風格轉移[2],[10],[11],[12],[13],圖像修復[14],[15],[16],[17],[18],3 d姿勢估計[19],[20],圖像/視頻彩色化[21], [22]、[23]、[24]、[25]、[26],圖像超分辨率[27]、[28],域適配[29]、[30]、[31],卡通生成[22]0、[22]、[22]、[22]、[22]4、[22]5,圖像注冊[22]。我們將在第五節詳細分析和討論這些相關的應用。

本文就圖像到圖像翻譯的研究進展作一綜述。據我們所知,這是第一個概述了I2I的分析、方法和相關應用的論文。具體來說,我們的論文組織如下:

首先,我們簡要介紹了用于圖像-圖像翻譯的兩種最具代表性和最常用的生成模型,以及一些著名的評價指標,然后分析了這些生成模型如何學習表示和獲得想要的翻譯結果。

其次,我們將I2I問題劃分為兩大類任務,即雙域I2I任務和多域I2I任務,每一組I2I任務都出現了大量的I2I工作,對其他研究領域產生了深遠的影響,如圖2所示。

最后但并非最不重要的是,我們按照相同的I2I方法分類,提供了一個完整的I2I應用程序分類,如表1所示。

付費5元查看完整內容

盡管生成式對抗網絡(GAN)的歷史并不長,但它已被廣泛地研究和用于各種任務,包括其最初的目的,即合成樣品的生成。然而,將GAN用于具有不同神經網絡結構的不同數據類型,由于其在訓練方面的局限性,使得模型很容易出現混亂。這種臭名昭著的GAN訓練是眾所周知的,并已在許多研究中提出。因此,為了使GAN的訓練更加穩定,近年來提出了許多正則化方法。本文綜述了近年來引入的正則化方法,其中大部分是近三年來發表的。具體地說,我們關注的是那些可以被普遍使用的方法,而不管神經網絡體系結構如何。根據其運算原理將其分為若干組,并分析了各方法之間的差異。此外,為了提供使用這些方法的實際知識,我們調研了在最先進的GANs中經常使用的流行方法。此外,我們還討論了現有方法的局限性,并提出了未來的研究方向。

付費5元查看完整內容

生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。

//arxiv.org/abs/2005.00065

概述

深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。

為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。

GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。

對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。

GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。

近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。

本文貢獻:

  • GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。

  • GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。

付費5元查看完整內容
北京阿比特科技有限公司