最近一期的計算機頂級期刊ACM Computing Surveys (CSUR)出版,涵蓋最新的GANs綜述論文,146篇參考文獻, 本文的作者來自首爾大學數據科學與人工智能實驗室的師生,研究方向為深度學習和機器學習。本綜述論文介紹了GAN的原理和應用。
生成對抗網絡(GAN)在機器學習領域受到廣泛關注,因為它們有可能學習高維,復雜的實際數據分布。具體而言,它們不依賴于關于分布的任何假設,并且可以以簡單的方式從潛在空間生成真實樣本。這種強大的屬性使GAN可以應用于各種應用,如圖像合成,圖像屬性編輯,圖像翻譯,領域適應和其他學術領域。在本文中,作者從各個角度探討GAN的細節。此外,作者還解釋了GAN如何運作以及最近提出的各種目標函數的基本含義。然后,作者將重點放在如何將GAN與自動編碼器框架相結合。最后,作者列舉了適用于各種任務和其他領域的GAN變體,適用于那些有興趣利用GAN進行研究的人。
【導讀】來自加州大學圣地亞哥分校《計算機視覺中的領域自適應》中生成式對抗網絡GAN介紹
【導讀】慕尼黑大學開設的《高級深度學習》技術課程,重點介紹計算機視覺的前沿深度學習技術。最新一期介紹了《生成式對抗網絡》進展,講述了GAN的知識體系,值得關注。
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。
【導讀】生成式對抗網絡(Generative Adversarial Networks,GANs)作為近年來的研究熱點之一,受到了廣泛關注,每年在機器學習、計算機視覺、自然語言處理、語音識別等上大量相關論文發表。密歇根大學Jie Gui博士等人近期發布了《A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications》,包括28頁pdf,這篇綜述論文對460余篇論文進行了嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。
【摘要】生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GANs變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。首先,詳細介紹了大多數GANs算法的動機,數學表示形式和結構。此外,GANs已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GANs方法的共性和差異。其次,研究了與GANs相關的理論問題。第三,說明了GANs在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GANs未來的開放性研究問題。
1. 概述
對抗生成網絡已經成為了一個研究熱點。深度學習領域的傳奇人物Yann LeCun 在Quora上發帖稱:“GANs是過去10年機器學習領域最有趣的想法。”從谷歌學術上可以發現,有大量和GANs相關的論文。例如,2018年大約有11800篇關于GANs的論文。也就是說,2018年,每天大約有32篇論文,每小時有超過一篇論文與GANs有關。GANs有兩部分組成:生成器和判別器。這兩個模型都由神經網絡實現,該系統可以將數據從一個空間映射到另一個空間。生成器嘗試捕獲真實數據的分布,以生成新的數據。鑒別器通常是一個二進制分類器,要求盡可能準確地從真實的例子中鑒別出生成的例子。GANs的優化是一個最大最小優化問題。優化終止于一個鞍點,該鞍點相對于生成器是最小值,相對于鑒別器是最大值。也就是說,當優化達到Nash equilibrium的目標時,這時可以認為生成器捕獲了真實數據的真實分布。本文和先前的關于GANS的綜述之間的區別主要有以下幾點: 1)GANs的具體應用:將GANs用于諸如圖像合成和編輯,音頻增強和合成等具體領域。 2)關于GANs的綜合評述:最早關于GANs的相關綜述是Wang et al.整理的,該論文主要介紹了2017年以前GANs 的發展進程。Z.Wang所作的“Generative adversarial networks: A survey and taxonomy”主要介紹了GANs在計算機視覺領域中的各種變體以及變體的損失函數。
到目前為止,本文是第一個從算法,理論和應用的角度為GANs提供一個全面的綜述,并且介紹了GANs的最新的進展。再者,我們不僅關注GANs在圖像處理和計算機視覺上的應用,而且關注了GANs在諸如自然語言處理和其他如醫療領域等相關領域中的序列數據上的應用。
2.章節內容
3. 各種相關的GANs算法
在章節3中,我們首先介紹原始的GANs。然后介紹各種具有代表性的變體和GANs的訓練,評估方式以及任務驅動的GANs(如下圖所示)。
GAN代表性算法
4. GANs的具體應用
GANs是一個強有力的生成式模型,該模型可以用一個隨機向量生成看起來完全和真實樣例一樣的數據。訓練過程中我們既不需要明確的知道真實數據的分布也不需要任何數學假設。基于GANs的顯著優勢,GANs被廣泛應用于圖像處理,計算機視覺和序列數據上(具體見下表)。
5. GANs的開放研究問題