報告主題:A Geometric View of Optimal Transportation and Generative Adversarial Networks (GANs)
報告摘要:這項工作介紹了生成對抗網絡(GAN)的最佳運輸(OT)視圖。自然數據集具有內在模式,可以概括為流形分布原理:一類數據的分布接近于低維流形。 GAN主要完成兩項任務:流形學習和概率分布轉換。后者可以使用經典的最佳運輸方法進行。 從OT的角度來看,生成器計算最佳運輸圖,鑒別器計算生成的分布與實際數據分布之間的Wasserstein距離,兩者都可以簡化為凸幾何優化過程。此外,OT理論發現了生成器和鑒別器之間的內在協作關系而不是競爭關系,以及模式崩潰的根本原因。 此外,我們提出了一種新穎的生成模型,該模型使用自動編碼器進行流形學習,并使用OT映射進行分布轉換。 AE-OT模型提高了理論上的嚴格性和透明度,還提高了計算的穩定性和效率,尤其是消除了模式崩潰。實驗結果驗證了我們的假設,并證明了我們提出的模型的優勢。
邀請嘉賓:顧險峰,清華大學計算機系學士,哈佛大學博士,師承國際著名數學大師丘成桐先生。現為美國紐約州立大學石溪分校計算機系終身教授,曾獲美國NSFCAREER獎,中國海外杰青,“華人菲爾茲獎”-晨興應用數學金獎等。顧險峰教授團隊將微分幾何、代數拓撲、黎曼面理論,偏微分方程與計算機科學相結合,創立跨領域學科“計算共形幾何”,并廣泛應用于計算機圖形學,計算機視覺,三維幾何建模與可視化,無線傳感網絡,醫學圖像等領域。
PPT下載鏈接:
//www.sdlcv-workshop.com/slides/talk_Geometric_GANs.pdf
題目: Generative Adversarial Networks (GANs): An Overview of Theoretical Model, Evaluation Metrics, and Recent Developments
摘要:
統計信號處理和機器學習中最重要的挑戰之一是如何獲得一個生成模型,它可以生成大規模數據分布的樣本,例如圖像和演講。生成式對抗網絡(GAN)是解決這一問題的有效方法。GANs提供了一種適當的方法來學習深層表示,而不需要廣泛使用標記的訓練數據。該方法無需對概率密度函數進行精確建模就能生成大量數據,引起了計算機視覺領域眾多研究者的關注。在GANs中,生成模型是通過同時訓練生成器和鑒別器網絡的競爭過程來估計的。生成器學習生成可信的數據,鑒別器學習將生成器生成的虛假數據與真實數據樣本區分開來。鑒于近年來GANs的快速發展及其在各個領域的應用,有必要對這些網絡進行準確的研究。本文在介紹GAN的主要概念和理論的基礎上,對兩種新的深層生成模型進行了比較,并對文獻中使用的評價指標和GANs面臨的挑戰進行了說明。此外,最引人注目的GAN架構被分類和討論。最后,討論了計算機視覺的基本應用。
簡介: 生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GAN變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GAN方法進行敘述。首先,詳細介紹了大多數GAN算法的動機,數學表示形式和結構。此外,GAN已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GAN方法的共性和差異。其次,研究了與GAN相關的理論問題。第三,說明了GAN在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GAN未來的開放研究問題。
目錄:
報告名稱: Deep Geometric Learning of Big Data and Applications
報告摘要: 深度學習技術在計算機視覺,自然語言處理和語音分析方面取得了令人印象深刻的性能。這些任務專注于位于歐幾里得域上的數據,并且針對這些域的數學工具(例如卷積,下采樣,多尺度和局部性)已得到明確定義,并受益于GPU等快速計算硬件。但是,許多基本數據和任務都涉及非歐幾里德領域,而這些領域最初并不是為深度學習方法設計的。例如計算機圖形學中的3D點云和3D形狀,大腦結構連接網絡中的功能性MRI信號,基因組學中基因調控網絡的DNA,量子化學中的藥物設計,高能物理中的中微子檢測以及常見的知識圖理解視覺場景。這一主要局限性促使近年來的研究界將神經網絡推廣到任意的幾何域,例如圖形和流形。卷積,粗化,多分辨率,因果關系等基本操作已通過頻譜和空間方法進行了重新定義。這些非歐氏數據分析問題的最新結果顯示了在許多領域中都有希望的令人振奮的新工具。
該研討會的目標是:1)召集數學家,機器學習科學家和領域專家,以建立這些新興技術的現狀; 2)討論用于分析這些新的深度學習技術的框架; 3)確立新的研究方向以及這些技術在神經科學,社會科學,計算機視覺,自然語言處理,物理學,化學中的應用,以及4)討論了GPU以外的適用于非歐幾里德領域的新計算機處理體系結構。
邀請嘉賓: Jure Leskovec,斯坦福大學計算機科學副教授。 研究重點是對大型社會和信息網絡進行挖掘和建模,它們的演化,信息的傳播以及對它們的影響。 調查的問題是由大規模數據,網絡和在線媒體引起的。
Stanley Osher,加州大學洛杉磯分校 IPAM 數學與計算機科學教授,電氣工程與化學和生物分子工程教授。
報告部分大綱:
In this paper, we address the hyperspectral image (HSI) classification task with a generative adversarial network and conditional random field (GAN-CRF) -based framework, which integrates a semi-supervised deep learning and a probabilistic graphical model, and make three contributions. First, we design four types of convolutional and transposed convolutional layers that consider the characteristics of HSIs to help with extracting discriminative features from limited numbers of labeled HSI samples. Second, we construct semi-supervised GANs to alleviate the shortage of training samples by adding labels to them and implicitly reconstructing real HSI data distribution through adversarial training. Third, we build dense conditional random fields (CRFs) on top of the random variables that are initialized to the softmax predictions of the trained GANs and are conditioned on HSIs to refine classification maps. This semi-supervised framework leverages the merits of discriminative and generative models through a game-theoretical approach. Moreover, even though we used very small numbers of labeled training HSI samples from the two most challenging and extensively studied datasets, the experimental results demonstrated that spectral-spatial GAN-CRF (SS-GAN-CRF) models achieved top-ranking accuracy for semi-supervised HSI classification.
In this article, we introduce a new mode for training Generative Adversarial Networks (GANs). Rather than minimizing the distance of evidence distribution $\tilde{p}(x)$ and the generative distribution $q(x)$, we minimize the distance of $\tilde{p}(x_r)q(x_f)$ and $\tilde{p}(x_f)q(x_r)$. This adversarial pattern can be interpreted as a Turing test in GANs. It allows us to use information of real samples during training generator and accelerates the whole training procedure. We even find that just proportionally increasing the size of discriminator and generator, it succeeds on 256x256 resolution without adjusting hyperparameters carefully.
In this paper, we propose the Self-Attention Generative Adversarial Network (SAGAN) which allows attention-driven, long-range dependency modeling for image generation tasks. Traditional convolutional GANs generate high-resolution details as a function of only spatially local points in lower-resolution feature maps. In SAGAN, details can be generated using cues from all feature locations. Moreover, the discriminator can check that highly detailed features in distant portions of the image are consistent with each other. Furthermore, recent work has shown that generator conditioning affects GAN performance. Leveraging this insight, we apply spectral normalization to the GAN generator and find that this improves training dynamics. The proposed SAGAN achieves the state-of-the-art results, boosting the best published Inception score from 36.8 to 52.52 and reducing Frechet Inception distance from 27.62 to 18.65 on the challenging ImageNet dataset. Visualization of the attention layers shows that the generator leverages neighborhoods that correspond to object shapes rather than local regions of fixed shape.