生成對抗網絡(GAN)是無監督學習領域最近幾年快速發展的一個研究方向,其主要特點是能夠以一種間接的方 式對一個未知分布進行建模。在計算機視覺研究領域中,生成對抗網絡有著廣泛的應用,特別是在圖像生成方面,與其他的 生成模型相比,生成對抗網絡不僅可以避免復雜的計算,而且生成的圖像質量也更好。因此,本文將對生成對抗網絡及其在 圖像生成中的研究進展做一個小結和分析;本文首先從模型的架構、目標函數的設計、生成對抗網絡在訓練中存在的問題, 以及如何處理模式崩潰問題等角度對生成對抗網絡進行一個詳細的總結和歸納;其次介紹生成對抗網絡在圖像生成中的兩 種方法;隨后對一些典型的、用來評估生成圖像質量和多樣性的方法進行小結;并且對基于圖像生成的應用進行詳細分析;最后對生成對抗網絡和圖像生成進行總結,同時對其發展趨勢進行一個展望。
摘要: 圖像修復是計算機視覺領域中極具挑戰性的研究課題。近年來,深度學習技術的發展推動了圖像修復性能的顯著提升,使得圖像修復這一傳統課題再次引起了學者們的廣泛關注。文章致力于綜述圖像修復研究的關鍵技術。由于深度學習技術在解決“大面積缺失圖像修復”問題時具有重要作用并帶來了深遠影響,文中在簡要介紹傳統圖像修復方法的基礎上,重點介紹了基于深度學習的修復模型,主要包括模型分類、優缺點對比、適用范圍和在常用數據集上的性能對比等,最后對圖像修復潛在的研究方向和發展動態進行了分析和展望。
深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。
生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說,它們最重要的影響是在計算機視覺領域,在這一領域中,圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功,但將GAN應用于現實世界的問題仍然面臨著重大的挑戰,我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度,并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構,我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述,但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此,為了應對這些挑戰,我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面,對GAN的研究現狀進行概述和批判性分析。在此過程中,我們還將討論GANs在計算機視覺方面最引人注目的應用,并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在
//github.com/sheqi/GAN_Review上進行了總結。
地址:
生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比,GANs提供了一些優勢,如能夠處理清晰的估計密度函數,有效地生成所需樣本,消除確定性偏差,并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功,特別是在計算機視覺領域,如可信圖像生成[30]-[34],圖像到圖像轉換[2],[35]-[41],圖像超分辨率[26],[42]-[45]和圖像補全[46]-[50]。
然而,GANs并非沒有問題。最重要的兩點是,它們很難訓練,也很難評估。由于訓練難度大,在訓練過程中判別器和生成器很難達到納什均衡,生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面,首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是,不可能準確地估算pr。因此,對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能,如圖像質量、圖像多樣性和穩定訓練。在這項工作中,我們將研究計算機視覺領域中處理這方面的現有GAN變體,而對第二方面感興趣的讀者可以參考[55][63]。
目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練,(2)將GAN應用于現實應用。前者尋求提高GANs性能,因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果,我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN;(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標,并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體,說明了它們的差異和關系,并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述,并展望了GANs領域可能的未來研究工作。
文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1],因此特定類型的架構可能有利于特定的應用,例如,用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化,以使G的學習更加穩定。
圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體,即架構變體和損失變體。在體系架構變體中,我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改,例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改,例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類,應用,指的是根據不同的應用所做的修改,例如,CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化,我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數,正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說,我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中,鑒別器被限制為一類特定的函數[64],例如,WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。
近年來,生成式對抗網絡(generative adversarial nets, GAN)迅速發展,已經成為當前機器學習領域的主要研究方向之一。GAN來源于零和博弈的思想,其生成器和鑒別器對抗學習,獲取給定樣本的數據分布,生成新的樣本數據。對GAN模型在圖片生成、異常樣本檢測和定位、文字生成圖片以及圖片超分辨率等多方面進行了大量的調查研究,并在這些GAN的應用所取得的實質性進展進行了系統的闡述。對GAN的提出背景與研究意義、理論模型與改進結構,以及其主要應用領域進行了總結。通過對GAN在各方面的應用分析,對GAN的不足以及未來發展方向進行綜述。
盡管生成式對抗網絡(GAN)的歷史并不長,但它已被廣泛地研究和用于各種任務,包括其最初的目的,即合成樣品的生成。然而,將GAN用于具有不同神經網絡結構的不同數據類型,由于其在訓練方面的局限性,使得模型很容易出現混亂。這種臭名昭著的GAN訓練是眾所周知的,并已在許多研究中提出。因此,為了使GAN的訓練更加穩定,近年來提出了許多正則化方法。本文綜述了近年來引入的正則化方法,其中大部分是近三年來發表的。具體地說,我們關注的是那些可以被普遍使用的方法,而不管神經網絡體系結構如何。根據其運算原理將其分為若干組,并分析了各方法之間的差異。此外,為了提供使用這些方法的實際知識,我們調研了在最先進的GANs中經常使用的流行方法。此外,我們還討論了現有方法的局限性,并提出了未來的研究方向。
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。