通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機(Restricted Boltzmann machine, RBM)和以受限玻爾茲曼機為基礎模塊的深度置信網絡(Deep belief network, DBN)、深度玻爾茲曼機(Deep Boltzmann machines, DBM)和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.
近幾年來,將深度學習應用到處理和圖結構數據相關的任務中越來越受到人們的關注.圖神經 網絡的出現使其在上述任務中取得了重大突破,比如在社交網絡、自然語言處理、計算機視覺甚至生命 科學等領域得到了非常廣泛的應用.圖神經網絡可以把實際問題看作圖中節點之間的連接和消息傳播 問題,對節點之間的依賴關系進行建模,從而能夠很好地處理圖結構數據.鑒于此,系統綜述了圖神經網絡模型以及應用.首先從譜域、空間域和池化3方面對圖卷積神經網絡進行了闡述.然后,描述了基于注意 力機制和自編碼器的圖神經網絡模型,并補充了一些其他方法實現的圖神經網絡.其次,總結了針對圖 神經網絡能不能做大做深等問題的討論分析.進而,概括了圖神經網絡的4個框架.還詳細說明了在圖 神經網絡在自然語言處理、計算機視覺等方面的應用.最后,對圖神經網絡未來的研究進行了展望和總 結.相較于已有的圖神經網絡綜述文章,詳細闡述了譜理論知識,并對基于譜域的圖卷積神經網絡體系 進行全面總結.同時,給出了針對空間域圖卷積神經網絡效率低的改進模型這一新的分類標準.并總結 了針對圖神經網絡表達能力、理論保障等的討論分析,增加了新的框架模型.在應用部分,闡述了圖神經 網絡的最新應用.
在過去幾年,深度學習已經在人工智能和機器 學習上取得了成功,給社會帶來了巨大的進步.深度 學習的特點是堆積多層的神經網絡層,從而具有更 好的學 習 表 示 能 力.卷 積 神 經 網 絡 (convolutional neuralnetwork,CNN)的飛速發展更是將深度學習 帶上了一個新的臺階[1G2].CNN 的平移不變性、局部 性和組合性使其天然適用于處理像圖像這樣的歐氏 結構數據的任務中[3G4],同時也可以應用于機器學習 的其他各個領域[5G7].深度學習的成功一部分源自于 可以從歐氏數據中提取出有效的數據表示,從而對 其進行高效的處理.另一個原因則是得益于 GPU 的 快速發展,使得計算機具有強大的計算和存儲能力, 能夠在大規模的數據集中訓練和學習深度學習模 型.這使得深度學習在自然語言處理[8]、機器視覺[9] 和推薦系統[10]等領域都表現出了良好的性能.
但是, 現有的神經網絡只能對常規的歐氏結構 數據進行處理.如圖1(a)歐氏數據結構,其特點就是 節點有固定的排列規則和順序,如2維網格和1維 序列.而當前越來越多的實際應用問題必須要考慮 非歐氏數據,如圖1(b)非歐氏數據結構中節點沒有 固定的排列規則和順序,這就使得不能直接將傳統 的深度學習模型遷移到處理非歐氏結構數據的任務 中.如若直接將 CNN 應用到其中,由于非歐氏數據中心節點的鄰居節點數量和排列順序不固定,不滿 足平移不變性,這就很難在非歐氏數據中定義卷積 核.針對圖神經網絡(graphneuralnetwork,GNN) 的研究工作,最開始就是在如何固定鄰居節點數量 以及如何給鄰居節點排序展開的,比如 PATCHYG SAN [11],LGCN [12],DCNN [13]方法等.完成上述2項 工作之后,非歐氏結構數據就轉化為歐氏結構數據, 然后就可以利用 CNN 處理.圖是具有點和邊的典型 非歐氏數據,在實際中可以將各種非歐氏數據問題 抽象為圖結構.比如在交通系統中,利用基于圖的學 習模型可以對路況信息進行有效的預測[14].在計算 機視覺中,將人與物的交互看作一種圖結構,可以對 其進行有效地識別[15]。
近期已有一些學者對圖神經網絡及其圖卷積神經網絡分支進行了綜述[16G19].本文的不同之處在于,首先由于經典模型是很多變體模型的基石,所以給 出了經典模型的理論基礎以及詳細推理步驟.在1.2 節基于空間方法的圖卷積神經網絡中,多用圖的形 式列出模型的實現過程,使模型更加通俗易懂.文獻 [16G19]并未對目前廣大學者熱點討論的問題進行 總結,所以在第5節針對圖神經網絡的討論部分,首 次列出了目前研究學者對 GNN 的熱點關注問題, 比如其表達能力、過平滑問題等.然后,在第6節中 總結了圖神經網絡新框架.同時,針對圖神經網絡的 應用,在第7節中較全面地介紹了 GNN 的應用場 景.最后,列出了圖神經網絡未來的研究方向.在圖2 中列出了本文的主體結構.
研究圖神經網絡對推動深度學習的發展以及人 類的進步具有重大意義.首先,現實中越來越多的問 題可以抽象成非歐氏結構數據,由于圖數據的不規 則性,傳統的深度學習模型已經不能處理這種數據, 這就亟需研究設計一種新的深度神經網絡.而 GNN 所處理的數據對象就是具有不規則結構的圖數據,GNN 便在這種大背景下應運而生[20G21].然后,圖數 據的結構和任務是十分豐富的.這種豐富的結構和 任務也正是和人們生活中要處理的實際問題相貼合 的.比如,圖數據有異質性以及邊的有向連接特性, 這和推薦系統中的場景完全類似.圖數據處理任務 中節點級別、邊級別以及整圖級別也同樣可以應用到深度學習的各個應用場景中.所以,GNN 的研究 為解決生活中的實際問題找到了一種新的方法和途 徑.最后,GNN 的應用領域是十分廣泛的,能夠處理 各種能抽象成圖數據的任務.不管是在傳統的自然 語言處理領域[22G24]或者圖像領域[25G26],還是在新興 的生化領域[27G28],GNN都能表現出強大的性能.
1 圖卷積神經網絡
CNN 已經在圖像識別、自然語言處理等多個領 域取得了不俗的成績,但其只能高效地處理網格和 序列等這樣規則的歐氏數據.不能有效地處理像社 交多媒體網絡數據、化學成分結構數據、生物蛋白數 據以及知識圖譜數據等圖結構的非歐氏數據.為此, 無數學者經過不懈努力,成功地將 CNN 應用到圖 結構的非歐氏數據上,提出了圖卷積神經網絡(graph convolutionalnetwork,GCN).GCN 是 GNN 中一 個重要分支,現有的大多數模型基本上都是在此基 礎上變化推導而來.下面我們將按照從基于譜方法、 空間方法和池化3方面對 GCN 進行總結和概括.
2 基于注意力實現的圖神經網絡
注意力機制在處理序列任務已經表現出強大的 能力[60],比如在機器閱讀和學習 句 子 表 征 的 任 務 中.其強大的優勢在于允許可變大小的輸入,然后利 用注意力機制只關心最重要的部分,最后做出決策處理.一些研究發現,注意力機制可以改進卷積方 法,從而可以構建一個強大的模型,在處理一些任務 時能夠取得更好的性能.為此,文獻[61]將注意力機 制引入到了圖神經網絡中對鄰居節點聚合的過程 中,提出了圖注意力網絡(graphattentionnetworks, GAT).在傳統的 GNN 框架中,加入了注意力層,從 而可以學習出各個鄰居節點的不同權重,將其區別對待.進而在聚合鄰居節點的過程中只關注那些作 用比較大的節點,而忽視一些作用較小的節點.GAT 的核心思想是利用神經網絡學習出各個鄰居節點的 權重,然后利用不同權重的鄰居節點更新出中心節 點的表示。
3 基于自編碼器實現的圖神經網絡
在無監督學習任務中,自編碼器(autoencoder, AE)及其變體扮演者非常重要的角色,它借助于神 經網絡模型實現隱表示學習,具有強大的數據特征 提取能力.AE 通過編碼器和解碼器實現對輸入數 據的有效表示學習,并且學習到的隱表示的維數可 以遠遠小于輸入數據的維數,實現降維的目的.AE 是目前隱表示學習的首選深度學習技術,當我們把 具有某些聯系的原始數據(X1,X2,…,Xn)輸入到 AE中進行重構學習時,可以完成特征提取的任務. 自編碼器的應用場景是非常廣泛的,經常被用于數據去噪、圖像重構以及異常檢測等任務中.除此之 外,當 AE被用于生成與訓練數據類似的數據時, 稱之為生成式模型.由于 AE具有上述優點,一些學 者便將 AE 及其變體模型應用到圖神經網絡當中 來.文 獻 [69]第 1 個 提 出 了 基 于 變 分 自 編 碼 器 (variationalautoencoder,VAE)的變分圖自編碼器 模型 (variationalgraphautoencoder,VGAE),將 VAE應用到對圖結構數據的處理上.VGAE利用隱 變量學習出無向圖的可解釋隱表示,使用了圖卷積 網絡編碼器和一個簡單的內積解碼器來實現這個模 型.
4. 未來研究展望 GNN
雖然起步較晚, 但由于其強大的性能, 已經取得了不俗的表現, 并且也在例如計算機視覺和推薦系統等實際應用中發揮著巨大的作用.不難發現, GNN 確實更符合當前實際應用的發展趨勢, 所 以 在 近 幾 年 才 會 得 到 越 來 越 多 人 的 關 注.但 是, GNN 畢竟起步較晚,還沒有時間積累,研究的深度 和領域還不夠寬廣.目前來看,它依然面臨著許多亟 待解決的問題,本節總結了 GNN 以后的研究趨勢.
1) 動態圖.目前,GNN 處理的圖結構基本上都 是靜態圖,涉及動態圖結構的模型較少[138G139],處理 動態圖對 GNN 來說是一個不小的挑戰.靜態圖的 圖結構是靜態不變的,而動態圖的頂點和邊是隨機 變化的,甚至會消失,并且有時還沒有任何規律可 循.目前針對 GNN 處理動態圖結構的研究還是比 較少的,還不夠成熟.如果 GNN 能夠成功應用于動 態圖結構上,相信這會使 GNN 的應用領域更加寬 廣.將 GNN 模型成功地推廣到動態圖模型是一個 熱點研究方向.
2) 異質圖.同質圖是指節點和邊只有一種類型, 這種數據處理起來較容易.而異質圖則是指節點和 邊的類型不只一種,同一個節點和不同的節點連接 會表現出不同的屬性,同一條邊和不同的節點連接 也會表現出不同的關系,這種異質圖結構處理起來 就相對復雜.但異質圖卻是和實際問題最為貼切的 場景,比如在社交網絡中,同一個人在不同的社交圈 中可能扮演著父親、老師等不同的角色.對于異質圖 的研究還處在剛起步的階段[140G141],模型方法還不 夠完善.所以,處理異質圖也是將來研究的一個熱點.
3) 構建更深的圖神經網絡模型.深度學習的強 大優勢在于能夠形成多層的不同抽象層次的隱表 示,從而才能表現出優于淺層機器學習的強大優勢. 但對于圖深度學習來說,現有的圖神經網絡模型大 多還是只限于淺層的結構.通過實驗發現,當構造多 層的神經網絡時,實驗結果反而變差.這是由過平滑 現象造成的,GNN 的本質是通過聚合鄰居節點信息 來表征中心節點.當構造多層的神經網絡之后,中心 節點和鄰 居 節 點 的 差 異 就 會 變 得 微 乎 其 微,從 而 會導致分類結果變差.如何解決過平滑現象,使圖神 經網絡能夠應用于更多層的結構,從而發揮出深度 學習的強大優勢.雖然已有文獻對其進行了討論[91], 但構建更深的圖神經網絡模型仍是值得深入研究的 問題.
4) 將圖神經網絡應用到大圖上.隨著互聯網的 普及,圖神經網絡處理的數據也變得越來越大,致使 圖中的節點數量變得巨大,這就給圖神經網絡的計 算帶來了不小的挑戰.雖然一些學者對該問題進行 了研究改進[142],但針對將圖神經網絡應用到大圖 上的研究同樣是將來研究的熱點問題,在這方面,引 入摘要數據結構,構造局部圖數據,并能適當地融合 局部圖結構,形成整體圖神經網絡的表示是可能的 思路.
5) 探索圖中更多有用的信息.在當前諸多學者 對于圖神經網絡模型的研究中,僅僅利用了圖中節 點之間有無連接這一拓撲結構信息.但是,圖是一個 非常復雜的數據結構,里面還有很多有用的信息未 被人們發現利用.比如,圖中節點的位置信息.中心 節點的同階鄰居節點處于不同位置,距離中心節點 的遠近不同應該會對中心節點產生的影響程度不 同.如果能夠探索出圖中更多的有用信息,必會將圖 神經網絡的性能提升一個層次,這是一個非常值得 探討的問題.
6) 設計圖神經網絡的數學理論保障體系.任何 神經網絡模型必須有強大的數學理論支撐才能發展 得更快,走得更遠.現在對于圖神經網絡模型的設 計,大多還只是依靠研究者的經驗和基于機理邏輯 設計出來的,并且對于圖神經網絡模型的性能分析 僅僅是從實驗結果中得來,并沒有從數學理論層面 給出 一 個 合 理 的 解 釋.目 前,該 領 域 已 有 一 些 研 究[90G91],但為圖神經網絡設計出強大的數學理論,指 導圖神經網絡的構造、學習和推理過程.能夠給出圖 神經網絡學習結果正確性的數學理論保障,仍是未 來發展的一個重要方向.
注意力機制因其優秀的效果與即插即用的便利性,在深度學習任務中得到了越來越廣泛的應用。主要著眼于卷積神經網絡,對卷積網絡注意力機制發展過程中的各種主流方法進行介紹,并對其核心思想與實現過程進行提取與總結,同時對每種注意力機制方法進行實現,針對同型號輻射源設備實測數據進行對比實驗與結果分析,并依據主流方法的思想與實驗的結果總結并闡述了卷積網絡中的注意力機制的研究現狀與未來其發展方向。
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.
隨著深度學習的快速發展, 生成式模型領域也取得了顯著進展. 生成對抗網絡(Generative adversarial network, GAN)是一種無監督的學習方法, 它是根據博弈論中的二人零和博弈理論提出的. GAN具有一個生成器網絡和一個判別器網絡, 并通過對抗學習進行訓練. 近年來, GAN成為一個炙手可熱的研究方向. GAN不僅在圖像領域取得了不錯的成績, 還在自然語言處理(Natural language processing, NLP)以及其他領域嶄露頭角. 本文對GAN的基本原理、訓練過程和傳統GAN存在的問題進行了闡述, 進一步詳細介紹了通過損失函數的修改、網絡結構的變化以及兩者結合的手段提出的GAN變種模型的原理結構, 其中包括: 條件生成對抗網絡(Conditional GAN, CGAN)、基于Wasserstein 距離的生成對抗網絡(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理論的生成對抗網絡(Informational-GAN, InfoGAN)、序列生成對抗網絡(Sequence GAN, SeqGAN)、Pix2Pix、循環一致生成對抗網絡(Cycle-consistent GAN, Cycle GAN)及其增強Cycle-GAN (Augmented CycleGAN). 概述了在計算機視覺、語音與NLP領域中基于GAN和相應GAN變種模型的基本原理結構, 其中包括: 基于CGAN的臉部老化應用(Face aging CGAN, Age-cGAN)、雙路徑生成對抗網絡(Two-pathway GAN, TP-GAN)、表示解析學習生成對抗網絡(Disentangled representation learning GAN, DR-GAN)、對偶學習生成對抗網絡(DualGAN)、GeneGAN、語音增強生成對抗網絡(Speech enhancement GAN, SEGAN)等. 介紹了GAN在醫學、數據增強等領域的應用情況, 其中包括: 數據增強生成對抗網絡(Data augmentation GAN, DAGAN)、醫學生成對抗網絡(Medical GAN, MedGAN)、無監督像素級域自適應方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后對GAN未來發展趨勢及方向進行了展望.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831
通過學習可觀測數據的概率密度而隨機生成樣本的生成模型在近年來受到人們的廣泛關注, 網絡結構中包含多個隱藏層的深度生成式模型以更出色的生成能力成為研究熱點, 深度生成模型在計算機視覺、密度估計、自然語言和語音識別、半監督學習等領域得到成功應用, 并給無監督學習提供了良好的范式. 本文根據深度生成模型處理似然函數的不同方法將模型分為三類: 第一類方法是近似方法, 包括采用抽樣方法近似計算似然函數的受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的深度置信網絡、深度玻爾茲曼機和亥姆霍茲機, 與之對應的另一種模型是直接優化似然函數變分下界的變分自編碼器以及其重要的改進模型, 包括重要性加權自編碼和可用于半監督學習的深度輔助深度模型; 第二類方法是避開求極大似然過程的隱式方法, 其代表模型是通過生成器和判別器之間的對抗行為來優化模型參數從而巧妙避開求解似然函數的生成對抗網絡以及重要的改進模型, 包括WGAN、深度卷積生成對抗網絡和當前最頂級的深度生成模型BigGAN; 第三類方法是對似然函數進行適當變形的流模型和自回歸模型, 流模型利用可逆函數構造似然函數后直接優化模型參數, 包括以NICE為基礎的常規流模型、變分流模型和可逆殘差網絡(i-ResNet), 自回歸模型(NADE)將目標函數分解為條件概率乘積的形式, 包括神經自回歸密度估計(NADE)、像素循環神經網絡(PixelRNN)、掩碼自編碼器(MADE)以及WaveNet等. 詳細描述上述模型的原理和結構以及模型變形后, 闡述各個模型的研究進展和應用, 最后對深度生成式模型進行展望和總結.
//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866
受益于當前計算機性能的快速提升, 學習可觀測樣本的概率密度并隨機生成新樣本的生成模型成為熱點. 相比于需要學習條件概率分布的判別模型, 生成模型的訓練難度大、模型結構復雜, 但除了能夠生成新樣本外, 生成模型在圖像重構、缺失數據填充、密度估計、風格遷移和半監督學習等應用領域也獲得了巨大的成功. 當前可觀測樣本的數量和維數都大幅度增加, 淺層的生成模型受到性能瓶頸的限制而無法滿足應用需求, 從而被含有多個隱藏層的深度生成模型替代, 深度生成模型能夠學習到更好的隱表示, 模型性能更好. 本文對有重要意義的深度生成模型進行全面的分析和討論, 對各大類模型的結構和基本原理進行梳理和分類. 本文第1節介紹深度生成模型的概念和分類; 第2節介紹受限玻爾茲曼機和以受限玻爾茲曼機為基礎模塊的幾種深度生成模型, 重點內容是各種模型的不同訓練算法; 第3節介紹變分自編碼器的基本結構、變分下界的推理和重參數化方法; 第4節介紹生成對抗網絡, 主要內容為模型原理、訓練方法和穩定性研究, 以及兩種重要的模型結構; 第5節總結了流模型的結構, 詳細介紹了流模型的技術特點; 第6節分析了自回歸模型的模型結構以及幾種重要分支的研究進展; 第7節將介紹生成模型中的兩個小分支: 矩陣匹配模型和隨機生成模型; 第8節對深度生成模型存在的問題進行分析討論, 并對未來的研究方向和發展趨勢做出了展望.
生成對抗網絡(GANs)是近年來受到廣泛關注的一類新型的深度生成模型。GANs通過圖像、音頻和數據隱式地學習復雜的高維分布。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。據我們所知,目前還沒有一項綜述特別側重于這些解決辦法的廣泛和系統的發展。在這項研究中,我們進行了一個全面的綜述,在GANs的設計和優化解決方案提出,以處理GANs的挑戰。我們首先確定每個設計和優化技術中的關鍵研究問題,然后根據關鍵研究問題提出新的分類結構解決方案。根據分類,我們將詳細討論每個解決方案中提出的不同GANs變體及其關系。最后,在已有研究成果的基礎上,提出了這一快速發展領域的研究方向。
概述
深度生成模型(DGMs),如受限玻爾茲曼機(RBMs)、深度信念網絡(DBNs)、深度玻爾茲曼機(DBMs)、去噪自編碼器(DAE)和生成隨機網絡(GSN),最近因捕獲音頻、圖像或視頻等豐富的底層分布和合成新樣本而引起了廣泛關注。這些深度生成模型采用基于馬爾科夫鏈蒙特卡羅(MCMC)的[1][2]算法進行建模。基于MCMC的方法計算訓練過程中梯度消失的對數似然梯度。這是由馬爾科夫鏈產生的樣本生成慢的主要原因,因為它不能足夠快地在模式間混合。另一個生成模型,變分自動編碼器(VAE),使用帶有統計推理的深度學習來表示潛在空間[3]中的一個數據點,并在難以處理的概率計算的近似過程中體驗復雜性。此外,這些生成模型是通過最大化訓練數據可能性來訓練的,其中基于概率的方法在許多數據集(如圖像、視頻)中經歷了維數的詛咒。此外,在高維空間中,從馬爾可夫鏈進行的采樣是模糊的,計算速度慢且不準確。
為了解決上述問題,Goodfellow等人提出了生成對抗網(GANs),這是生成模型的另一種訓練方法。GANs是一種新穎的深度生成模型,它利用反向傳播來進行訓練,以規避與MCMC訓練相關的問題。GANs訓練是生成模型和判別模型之間的極小極大零和博弈。GANs最近在生成逼真圖像方面得到了廣泛的關注,因為它避免了與最大似然學習[5]相關的困難。圖1顯示了GANs能力從2014年到2018年的一個進展示例。
GANs是一種結構化的概率模型,它由兩個對立的模型組成:生成模型(Generator (G))用于捕獲數據分布; 判別模型(Discriminator (D))用于估計生成數據的概率,以確定生成的數據是來自真實的數據分布,還是來自G的分布。D和G使用基于梯度的優化技術(同時梯度下降)玩一個兩人極小極大對策,直到納什均衡。G可以從真實分布中生成采樣后的圖像,而D無法區分這兩組圖像。為了更新G和D,由D通過計算兩個分布之間的差異而產生的損失來接收梯度信號。我們可以說,GANs設計和優化的三個主要組成部分如下:(i) 網絡結構,(ii) 目標(損失)函數,(iii)優化算法。
對多模態數據建模的任務,一個特定的輸入可以與幾個不同的正確和可接受的答案相關聯。圖2顯示了具有多個自然圖像流形(紅色)的插圖,結果由使用均方誤差(MSE)的基本機器學習模型實現,該模型在像素空間(即,導致圖像模糊)和GANs所獲得的結果,從而驅動重構向自然圖像流形方向發展。由于GANs的這一優勢,它在許多領域得到了廣泛的關注和應用。
GANs在一些實際任務中表現良好,例如圖像生成[8][9]、視頻生成[11]、域自適應[12]和圖像超分辨率[10]等。傳統的GANs雖然在很多方面都取得了成功,但是由于D和G訓練的不平衡,使得GANs在訓練中非常不穩定。D利用迅速飽和的邏輯損失。另外,如果D可以很容易的區分出真假圖像,那么D的梯度就會消失,當D不能提供梯度時,G就會停止更新。近年來,對于模式崩潰問題的處理有了許多改進,因為G產生的樣本基于少數模式,而不是整個數據空間。另一方面,引入了幾個目標(損失)函數來最小化與傳統GANs公式的差異。最后,提出了幾種穩定訓練的方法。
近年來,GANs在自然圖像的制作方面取得了突出的成績。然而,在GANs的訓練中存在著主要的挑戰。由于網絡結構設計不當,使用目標函數和選擇優化算法,導致模式崩潰,不收斂和不穩定。最近,為了解決這些挑戰,一些更好地設計和優化GANs的解決方案已經被研究,基于重新設計的網絡結構、新的目標函數和替代優化算法的技術。為了研究以連續一致的方式處理GANs挑戰的GANs設計和優化解決方案,本綜述提出了不同GANs解決方案的新分類。我們定義了分類法和子類尋址來構造當前最有前途的GANs研究領域的工作。通過將提出的GANs設計和優化方案分類,我們對其進行了系統的分析和討論。我們還概述了可供研究人員進一步研究的主要未決問題。
本文貢獻:
GAN新分類法。在本研究中,我們確定了每個設計和優化技術中的關鍵研究問題,并提出了一種新的分類法,根據關鍵研究問題來構造解決方案。我們提出的分類將有助于研究人員增強對當前處理GANs挑戰的發展和未來研究方向的理解。
GAN全面的調研。根據分類法,我們提供了對各種解決方案的全面審查,以解決GANs面臨的主要挑戰。對于每一種類型的解決方案,我們都提供了GANs變體及其關系的詳細描述和系統分析。但是,由于廣泛的GANs應用,不同的GANs變體以不同的方式被制定、訓練和評估,并且這些GANs之間的直接比較是復雜的。為此,我們進行了必要的比較,總結了相應的方法。他們提出了解決GANs挑戰的新方案。這個調查可以作為了解、使用和開發各種實際應用程序的不同GANs方法的指南。
本文為大家帶來了一份斯坦福大學的最新課程CS236——深度生成模型,目前更新到第一課,感興趣的同學可以多多關注,跟隨學習。
生成式模型被廣泛應用到人工智能和機器學習的諸多領域當中。最近,通過結合隨機梯度下降的優化方法,使用深度神經網絡參數化這些模型所取得的進展,已經使得對于包括圖像,文本和語音在內的復雜,高維度數據建模成為可能。在本次課程中,我們將要學習深度生成式模型的概率基礎和學習算法,包括自動編碼器(AE)的各種變體,生成式對抗網絡,自回歸模型和標準化流模型(normalizing flow models)。本課程還將討論從深度生成式模型中獲益的應用領域,例如計算機視覺,語音,自然語言處理,圖挖掘和強化學習。