摘要
我們研究了生成對抗網絡(GAN),它的流行變體和在許多領域的應用。GAN利用零和博弈理論將兩個相互對抗的神經網絡結合起來,使它們能夠產生更加清晰和離散的輸出。GAN可用于執行圖像處理、視頻生成和預測,以及其他計算機視覺應用。GAN還可用于各種科學相關活動,包括蛋白質工程、天文數據處理、遙感圖像去霧和晶體結構合成。GANs還在金融、營銷、時尚設計、體育和音樂等領域取得了成績。因此,在本文中,我們全面概述了GAN在各種學科中的應用。我們首先介紹支持GAN的理論、GAN變體和評估GAN的指標。然后,我們將介紹GAN及其變體如何應用于十二個領域,從STEM領域,如天文學和生物學,到商業領域,如市場營銷和金融,以及藝術,如音樂。因此,其他領域的研究人員可以掌握GAN的工作原理,并將其應用到自己的研究中。就我們所知,本文對GAN在不同領域的應用進行了最全面的綜述。
引言
生成對抗網絡[48]或GAN屬于生成模型[44]家族。生成模型試圖從訓練集中學習一個概率密度函數,然后從相同的分布中生成新的樣本。GAN通過讓兩個神經網絡(Generator和Discriminator)相互競爭,生成與真實數據相似的新合成數據。Generator試圖捕獲真實的數據分布,以生成新的樣本。另一方面,鑒別器通常是一個二進制分類器,它試圖盡可能精確地辨別真實和虛假生成的樣本。
在過去的幾年里,GANs取得了實質性的進展。由于硬件的進步,我們現在可以訓練更深入和更復雜的Generator和Discriminator神經網絡體系結構,增加模型容量。GAN與其他類型的生成模型相比有許多明顯的優勢。與玻爾茲曼機[62]不同,GAN不需要蒙特卡羅近似來訓練,而且GAN使用反向傳播,不需要馬爾可夫鏈。近年來,GAN得到了很大的發展,并被廣泛應用于各種學科,可以使用gan的領域列表也在快速擴展。GAN可用于數據生成和增強([78],[134])、圖像到圖像的轉換([70],[197])、圖像超分辨率([93],[73])等等。正是這種多用途的特性,使得GAN可以應用于醫學和天文學等完全不結盟的領域。
由于GANs非常受歡迎和重要,已經有一些關于GANs的調查和評論。然而,過去的大多數論文都集中在兩個不同的方面: 第一,描述GAN及其隨時間的增長,第二,討論GAN在圖像處理和計算機視覺應用中的應用([47],[3],[135],[51],[1])。因此,對GAN在廣泛學科中的應用的描述較少。因此,我們將在這篇史無前例的文章中全面回顧GAN。我們來看看GANs和一些最廣泛使用的模型和變異,以及評價指標的數量,GAN應用在不同的12個區域(包括圖片和視頻相關的任務,醫療和醫療、生物學、天文學、遙感、材料科學、金融、市場營銷、時尚、體育和音樂), GAN的挑戰和局限性,以及GAN未來的發展方向。本文的一些主要貢獻如下:
描述GAN在工程、科學、社會科學、商業、藝術、音樂和體育領域的廣泛應用。據我們所知,這是第一篇涵蓋GAN在如此不同領域應用的綜述論文。這篇綜述將有助于不同背景的研究人員理解GAN的操作,并發現其廣泛的應用。
GAN評估包括定性和定量方法。該綜述提供了定量指標的全面展示,用于評估GAN在計算機視覺和時間序列數據分析中的性能。我們將GAN應用于時間序列數據的評估指標包括在內,這在其他GAN綜述論文中沒有討論。據我們所知,這是第一份提出GAN時間序列數據評價指標的調研報告。
我們將本文的其余部分組織如下:第2節介紹GAN的基本工作,以及最常用的GAN變體及其描述。第3節總結了一些常用的GAN評估指標。第4節描述了GAN在各種領域的廣泛應用。我們還在每個小節的末尾提供了一個表格,總結了應用領域和使用的相應的GAN模型。第5節討論了GANs訓練過程中遇到的一些困難和挑戰。在此基礎上,對GAN的未來發展方向進行了簡要總結。第6節提供結束語。
生成對抗網絡(GAN)已經在計算機視覺、自然語言處理等領域推廣了各種應用,因為它的生成模型能夠從現有的樣本分布中合理地生成真實的例子。GAN不僅在基于數據生成的任務上提供了令人印象深刻的性能,而且由于其博弈優化策略,也為面向隱私和安全的研究提供了有利條件。遺憾的是,目前并沒有對GAN在隱私和安全方面進行全面的綜述,這也促使了本文對這些最新的研究成果進行系統的總結。現有的作品根據隱私和安全功能進行適當的分類,并對其優缺點進行綜合分析。鑒于GAN在隱私和安全方面仍處于非常初級的階段,并提出了有待解決的獨特挑戰,本文還闡述了GAN在隱私和安全方面的一些潛在應用,并闡述了未來的一些研究方向。
生成對抗網絡(Generative Adversarial Networks, GAN)帶來的技術突破迅速對機器學習及其相關領域產生了革命性的影響,這種影響已經蔓延到各個研究領域和應用領域。作為一種強大的生成框架,GAN顯著促進了許多復雜任務的應用,如圖像生成、超分辨率、文本數據操作等。最近,利用GAN為嚴重的隱私和安全問題制定優雅的解決方案,由于其博弈優化策略,在學術界和業界都變得越來越流行。本綜述的目的是提供一個關于GAN的全面的回顧和深入總結的最新技術,并討論了一些GAN在隱私和安全領域有前途的未來研究方向。我們以對GAN的簡要介紹開始我們的綜述。
GAN逆轉化的目的是將給定的圖像逆映射到預先訓練好的GAN模型的潛在空間,以便由生成器從反代碼忠實地重建圖像。GAN逆映射作為一種新興的連接真實和虛假圖像領域的技術,在使預先訓練好的GAN模型如StyleGAN和BigGAN用于真實圖像編輯應用中起著至關重要的作用。同時,GAN逆轉化也為GAN的潛在空間的解讀以及如何生成逼真的圖像提供了思路。在本文中,我們對GAN逆轉化進行了概述,并重點介紹了它最近的算法和應用。我們涵蓋了GAN逆轉化的重要技術及其在圖像恢復和圖像處理中的應用。我們進一步闡述了未來方向的一些趨勢和挑戰。
//www.zhuanzhi.ai/paper/8a6100aa9aacbe624aae09afc4308355
生成對抗網絡(GAN)框架是一種深度學習架構,可以估計數據點是如何在概率框架[1]、[2]中生成的。它由兩個相互作用的神經網絡組成:一個生成器G和一個鑒別器D,它們通過對抗過程共同訓練。G的目標是合成與真實數據相似的假數據,D的目標是區分真實數據和假數據。通過對抗性的訓練過程,生成器G可以生成與真實數據分布相匹配的假數據。近年來,GANs被應用于圖像翻譯[3]、[4]、[5]、圖像處理[6]、[7]、[11]0到圖像恢復[9]、[10]、[11]、[12]、[13]等眾多任務。
許多GAN模型,如PGGAN [14], BigGAN[15]和StyleGAN[16],[17],已經被開發用于從隨機噪聲輸入合成高質量和多樣性的圖像。近年來的研究表明,GANs在圖像生成過程中有效編碼了中間特征[18]和潛在空間[19]、[20]、[21]中豐富的語義信息。這些方法可以通過改變潛在代碼來合成具有不同屬性的圖像,如老化、表情、光方向等。然而,由于GANs缺乏推理功能和編碼器,這種對潛在空間的操作只適用于GANs生成的圖像,并不適用于任何給定的真實圖像。
相比之下,GAN反轉的目標是將給定的圖像反演回預先訓練好的GAN模型的潛在空間。然后,圖像發生器就可以從反碼中忠實地重建出來。由于GAN逆轉化是連接真實和虛假圖像域的關鍵,因此在[17]、[20]、[21]、[23]、[24]、[25]、[26]、[27]、[28]等領域取得了重大進展。GAN反演使得在現有訓練過的GAN的潛在空間中發現的可控方向適用于真實的圖像編輯,而不需要特別的監督或昂貴的優化。如圖1所示,在將真實圖像倒置到潛在空間后,我們可以沿著一個特定的方向改變其代碼來編輯圖像的相應屬性。GAN反演作為一個將生成對抗網絡與可解釋機器學習技術相結合的快速發展的領域,不僅提供了一種靈活的替代圖像編輯框架,而且有助于揭示深層生成模型的內在機制。
在這篇文章中,我們提出了一個全面的GAN逆向轉化方法,重點是算法和應用。據我們所知,這項工作是對快速增長的GAN反轉的第一次調查,并有以下貢獻。首先,我們提供了一個全面和系統的回顧,以及深刻的分析,在GAN倒置的所有方面的層次和結構。其次,我們對GAN反轉方法的性質和性能進行了比較總結。第三,我們討論了挑戰和有待解決的問題,并確定了未來研究的趨勢。
隨著深度學習的快速發展, 生成式模型領域也取得了顯著進展. 生成對抗網絡(Generative adversarial network, GAN)是一種無監督的學習方法, 它是根據博弈論中的二人零和博弈理論提出的. GAN具有一個生成器網絡和一個判別器網絡, 并通過對抗學習進行訓練. 近年來, GAN成為一個炙手可熱的研究方向. GAN不僅在圖像領域取得了不錯的成績, 還在自然語言處理(Natural language processing, NLP)以及其他領域嶄露頭角. 本文對GAN的基本原理、訓練過程和傳統GAN存在的問題進行了闡述, 進一步詳細介紹了通過損失函數的修改、網絡結構的變化以及兩者結合的手段提出的GAN變種模型的原理結構, 其中包括: 條件生成對抗網絡(Conditional GAN, CGAN)、基于Wasserstein 距離的生成對抗網絡(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理論的生成對抗網絡(Informational-GAN, InfoGAN)、序列生成對抗網絡(Sequence GAN, SeqGAN)、Pix2Pix、循環一致生成對抗網絡(Cycle-consistent GAN, Cycle GAN)及其增強Cycle-GAN (Augmented CycleGAN). 概述了在計算機視覺、語音與NLP領域中基于GAN和相應GAN變種模型的基本原理結構, 其中包括: 基于CGAN的臉部老化應用(Face aging CGAN, Age-cGAN)、雙路徑生成對抗網絡(Two-pathway GAN, TP-GAN)、表示解析學習生成對抗網絡(Disentangled representation learning GAN, DR-GAN)、對偶學習生成對抗網絡(DualGAN)、GeneGAN、語音增強生成對抗網絡(Speech enhancement GAN, SEGAN)等. 介紹了GAN在醫學、數據增強等領域的應用情況, 其中包括: 數據增強生成對抗網絡(Data augmentation GAN, DAGAN)、醫學生成對抗網絡(Medical GAN, MedGAN)、無監督像素級域自適應方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后對GAN未來發展趨勢及方向進行了展望.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831
生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說,它們最重要的影響是在計算機視覺領域,在這一領域中,圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功,但將GAN應用于現實世界的問題仍然面臨著重大的挑戰,我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度,并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構,我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述,但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此,為了應對這些挑戰,我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面,對GAN的研究現狀進行概述和批判性分析。在此過程中,我們還將討論GANs在計算機視覺方面最引人注目的應用,并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在
//github.com/sheqi/GAN_Review上進行了總結。
地址:
生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比,GANs提供了一些優勢,如能夠處理清晰的估計密度函數,有效地生成所需樣本,消除確定性偏差,并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功,特別是在計算機視覺領域,如可信圖像生成[30]-[34],圖像到圖像轉換[2],[35]-[41],圖像超分辨率[26],[42]-[45]和圖像補全[46]-[50]。
然而,GANs并非沒有問題。最重要的兩點是,它們很難訓練,也很難評估。由于訓練難度大,在訓練過程中判別器和生成器很難達到納什均衡,生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面,首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是,不可能準確地估算pr。因此,對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能,如圖像質量、圖像多樣性和穩定訓練。在這項工作中,我們將研究計算機視覺領域中處理這方面的現有GAN變體,而對第二方面感興趣的讀者可以參考[55][63]。
目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練,(2)將GAN應用于現實應用。前者尋求提高GANs性能,因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果,我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN;(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標,并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體,說明了它們的差異和關系,并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述,并展望了GANs領域可能的未來研究工作。
文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1],因此特定類型的架構可能有利于特定的應用,例如,用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化,以使G的學習更加穩定。
圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體,即架構變體和損失變體。在體系架構變體中,我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改,例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改,例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類,應用,指的是根據不同的應用所做的修改,例如,CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化,我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數,正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說,我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中,鑒別器被限制為一類特定的函數[64],例如,WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。
在計算機視覺領域,對抗網絡(GANs)在生成逼真圖像方面取得了巨大的成功。最近,基于GAN的技術在基于時空的應用如軌跡預測、事件生成和時間序列數據估算中顯示出了良好的前景。雖然在計算機視覺中對GANs提出了一些評論,但沒有人考慮解決與時空數據相關的實際應用和挑戰。在這篇文章中,我們對GANs在時空數據方面的最新發展進行了全面的回顧。我們總結了在時空數據中流行的GAN架構,以及用GANs評估時空應用程序性能的常見做法。最后,提出了未來的研究方向,希望能對相關研究者有所幫助。
概述:
時空屬性在交通運輸(shao2017travel)、社會科學(kupilik2018spatio)、犯罪學(rumi2019crime)等各個領域都很常見,其中,傳感器和大數據的激增迅速改變了時空屬性。大量的時空(ST)數據需要適當的處理技術來建立有效的應用。通常,處理表格數據或圖形數據的傳統方法在應用于時空數據集時表現不佳。原因主要有三層(wang2019deep): (1) ST數據通常是連續空間,而表或圖數據往往是離散的; (2) ST數據通常同時具有空間和時間屬性,其中數據相關性較復雜,傳統技術難以捕捉; (3) ST數據具有高度的自相關性,通常不像傳統數據那樣獨立生成數據樣本。
隨著深度學習的普及,許多神經網絡(如卷積神經網絡(CNN) (krizhevsky2012imagenet),遞歸神經網絡(RNN) (mikolov2010recurrent), Autoencoder (AE) (hinton2006 reduce),圖卷積網絡 (GCN) (kipf2016gcn))被提出并在ST數據建模方面取得了顯著的成功。ST數據的深度學習之所以被廣泛采用,是因為它在層次特征工程能力方面顯示出了潛力。在本次調研中,我們關注的是深度學習領域最有趣的突破之一——生成對抗網絡(GANs) (goodfellow2014generate)及其在ST數據方面的潛在應用。
GAN是一種對抗學習生成真實數據的生成模型。它由兩個組件(goodfellow2014)組成:generator G和discriminator D。G捕獲數據分布并從潛在變量z生成真實數據,D估計來自真實數據空間的數據概率。GAN采用了零和非合作博弈的概念,其中G和D被訓練為相互競爭,直到達到納什均衡。GAN在各領域獲得了相當大的關注,包括圖像(例如,圖像翻譯(isola2017image)超分辨率(ledig2017photo),聯合圖像生成(liu2016coupled),對象檢測(ehsani2018segan),改變面部屬性(donahue2017semantically))、視頻(例如,視頻一代(vondrick2016generating)),自然語言處理(例如,文本生成(lin2017adversarial),文本圖像(zhang2017stackgan))。
然而,直接使用圖像或視頻生成并不適用于ST數據的建模,如交通流、區域降雨和行人軌跡。一方面,圖像生成通常考慮輸入和輸出圖像之間的外觀,不能充分處理空間變化。另一方面,視頻生成考慮了圖像間的空間動態,但是,當對下一幅圖像的預測高度依賴于前一幅圖像時,時間變化沒有得到充分考慮(saxena2019d)。因此,將GANs成功應用于ST數據需要探索新的方法。
最近,GANs開始應用于ST數據。GANs在ST數據上的應用主要包括生成去識別的時空事件(saxena2019d);jin2019crime),時間序列歸責(luo2018multivariate;,軌跡預測(gupta2018;kosaraju2019), 圖表示 (wang2018;bojchevski2018)等。盡管GANs在計算機視覺領域取得了成功,但將GANs應用于ST數據預測具有挑戰性(saxena2019d)。例如,利用額外的信息,如景點(PoI),天氣信息在以前的研究中仍然是未觸及的。此外,與研究者可以依靠對生成的實例進行可視化檢查的圖像不同,GANs對ST數據的評估仍然是一個未解決的問題。在ST數據上采用傳統的GAN評價指標(saxena2019d;esteban2017real)。
一些研究回顧了最近關于ST數據或GAN在不同領域的應用問題的文獻。與從傳統關系數據挖掘模式相比,建模ST數據特別具有挑戰性,因為除了實際測量之外,它還具有空間和時間屬性。Atluri等人(atluri2018spatio)回顧了ST數據建模的流行問題和方法。提供了不同類型ST數據的分類、定義和描述數據實例的方法,以確定實際應用程序中任何類型ST數據的相關問題。他們還列出了通常研究的ST問題,并回顧了處理不同ST類型的獨特屬性的問題。Want等人(wang2019deep)回顧了將深度學習應用于ST數據挖掘任務的最新進展,并提出了一個利用深度學習模型解決ST數據建模問題的流程。Hong等人(hong2019生成)從不同的角度解釋了GANs,并列舉了常用的用于多任務的GAN變體。在(pan2019recent)中討論了GANs的最新進展,Wang et al. (wang2019生)提出了一種用于計算機視覺領域的GANs分類。特別是,Yi等人(yi2019生)回顧了GANs在醫學成像中的最新進展。
然而,上述工作回顧了ST數據建模問題或GANs在計算機視覺領域的最新進展。盡管許多研究者(saxena2019d;esteban2017real;gupta2018social;luo20192;已經用GANs對ST數據進行建模,在這個領域還沒有相關的調查來解決在ST數據應用中使用GANs的潛力。本文第一次全面概述了ST數據中的GANs,描述了GANs有希望的應用,并確定了在不同ST相關任務中成功應用尚需解決的一些挑戰。
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。
【導讀】生成式對抗網絡(Generative Adversarial Networks,GANs)作為近年來的研究熱點之一,受到了廣泛關注,每年在機器學習、計算機視覺、自然語言處理、語音識別等上大量相關論文發表。密歇根大學Jie Gui博士等人近期發布了《A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications》,包括28頁pdf,這篇綜述論文對460余篇論文進行了嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。
【摘要】生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GANs變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。首先,詳細介紹了大多數GANs算法的動機,數學表示形式和結構。此外,GANs已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GANs方法的共性和差異。其次,研究了與GANs相關的理論問題。第三,說明了GANs在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GANs未來的開放性研究問題。
1. 概述
對抗生成網絡已經成為了一個研究熱點。深度學習領域的傳奇人物Yann LeCun 在Quora上發帖稱:“GANs是過去10年機器學習領域最有趣的想法。”從谷歌學術上可以發現,有大量和GANs相關的論文。例如,2018年大約有11800篇關于GANs的論文。也就是說,2018年,每天大約有32篇論文,每小時有超過一篇論文與GANs有關。GANs有兩部分組成:生成器和判別器。這兩個模型都由神經網絡實現,該系統可以將數據從一個空間映射到另一個空間。生成器嘗試捕獲真實數據的分布,以生成新的數據。鑒別器通常是一個二進制分類器,要求盡可能準確地從真實的例子中鑒別出生成的例子。GANs的優化是一個最大最小優化問題。優化終止于一個鞍點,該鞍點相對于生成器是最小值,相對于鑒別器是最大值。也就是說,當優化達到Nash equilibrium的目標時,這時可以認為生成器捕獲了真實數據的真實分布。本文和先前的關于GANS的綜述之間的區別主要有以下幾點: 1)GANs的具體應用:將GANs用于諸如圖像合成和編輯,音頻增強和合成等具體領域。 2)關于GANs的綜合評述:最早關于GANs的相關綜述是Wang et al.整理的,該論文主要介紹了2017年以前GANs 的發展進程。Z.Wang所作的“Generative adversarial networks: A survey and taxonomy”主要介紹了GANs在計算機視覺領域中的各種變體以及變體的損失函數。
到目前為止,本文是第一個從算法,理論和應用的角度為GANs提供一個全面的綜述,并且介紹了GANs的最新的進展。再者,我們不僅關注GANs在圖像處理和計算機視覺上的應用,而且關注了GANs在諸如自然語言處理和其他如醫療領域等相關領域中的序列數據上的應用。
2.章節內容
3. 各種相關的GANs算法
在章節3中,我們首先介紹原始的GANs。然后介紹各種具有代表性的變體和GANs的訓練,評估方式以及任務驅動的GANs(如下圖所示)。
GAN代表性算法
4. GANs的具體應用
GANs是一個強有力的生成式模型,該模型可以用一個隨機向量生成看起來完全和真實樣例一樣的數據。訓練過程中我們既不需要明確的知道真實數據的分布也不需要任何數學假設。基于GANs的顯著優勢,GANs被廣泛應用于圖像處理,計算機視覺和序列數據上(具體見下表)。
5. GANs的開放研究問題