題目: Structured GANs
摘要: 我們提出了生成性對抗網絡(GANs),其中生成圖像的對稱性受到控制。這是通過發電機網絡的結構獲得的,而訓練過程和損失保持不變。將對稱GANs應用于空間圖像合成,生成具有不同對稱性的新人臉。我們還提出了一種基于新的一次微調概念的非監督人臉旋轉能力。
作者簡介: Lior Wolf,特拉維夫大學計算機科學學院的教員,也是Facebook人工智能研究中心的研究科學家。個人主頁://www.cs.tau.ac.il/~wolf/
【導讀】來自加州大學圣地亞哥分校《計算機視覺中的領域自適應》中生成式對抗網絡GAN介紹
大多數的對象識別方法主要側重于學習有判別性的視覺模式,而忽略了整體的物體結構。盡管很重要,但結構建模通常需要大量的手工注釋,因此是勞動密集型的。在這篇論文中,我們提出通過將自我監督納入傳統的框架中來“觀察對象”(明確而內在地對對象結構建模)。我們證明了在不增加額外注釋和推理速度的情況下,識別主干可以被顯著增強,從而實現更健壯的表示學習。具體來說,我們首先提出了一個對象范圍學習模塊,用于根據同一類別中實例間共享的視覺模式對對象進行本地化。然后,我們設計了一個空間上下文學習模塊,通過預測范圍內的相對位置,對對象的內部結構進行建模。這兩個模塊可以很容易地插入到任何骨干網絡訓練和分離的推理時間。大量的實驗表明,我們的內視對象方法(LIO)在許多基準上獲得了巨大的性能提升,包括通用對象識別(ImageNet)和細粒度對象識別任務(CUB、Cars、Aircraft)。我們還表明,這種學習范式可以高度泛化到其他任務,如對象檢測和分割(MS COCO)。
真實的顏色紋理生成是RGB-D表面重建的一個重要步驟,但由于重建幾何形狀的不準確性、相機姿態的不正確以及與視圖相關的成像偽影,在實踐中仍然具有挑戰性。在這項工作中,我們提出了一種利用從弱監督視圖中獲得的條件對抗損失來生成顏色紋理的新方法。具體地說,我們提出了一種方法,通過學習一個目標函數來生成近似表面的真實感紋理,即使是在未對齊的圖像中。我們的方法的關鍵思想是學習一個基于補丁的條件鑒別器,它可以引導紋理優化對不匹配的容忍度。我們的鑒別器采用一個合成的視圖和一個真實的圖像,并在一個廣義的真實感定義下評估合成的圖像是否真實。我們通過提供輸入視圖的“真實”示例對及其未對齊的版本來訓練鑒別器,這樣學習到的競爭損失將能夠容忍掃描的錯誤。在定量或定性評價下對合成和真實數據進行的實驗表明,我們的方法與現有方法相比具有優勢。我們的代碼是公開的視頻演示。
題目: Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation
摘要: 我們提出了一個新的模型,稱為多通道注意選擇生成對抗網絡(SelectionGAN),用于指導圖像到圖像的翻譯,我們在尊重外部語義引導的前提下,將輸入圖像轉換成另一幅圖像。所提出的選擇GAN顯式地利用了語義引導信息,包括兩個階段。在第一階段,輸入圖像和條件語義引導被輸入到循環語義引導生成網絡中,產生初始的粗糙結果。在第二階段,我們使用所提出的多尺度空間池和信道選擇模塊以及多信道注意選擇模塊來細化初始結果。此外,利用從注意圖中自動學習到的不確定性圖來指導像素損失,以獲得更好的網絡優化效果。在四個具有挑戰性的引導圖像到圖像轉換任務(面部、手部、身體和街道視圖)上進行的詳盡實驗表明,我們的選擇GAN能夠產生明顯優于現有技術方法的效果。同時,所提出的框架和模塊是統一的解決方案,可用于解決語義圖像合成等其他生成任務。
作者簡介: Hao Tang,伊利諾伊大學厄巴納-香檳分校(UIUC)電子與計算機工程系的博士生,貝克曼高等科學技術學院圖像形成與處理組(IFP組)的研究生助理。個人主頁://www.ifp.illinois.edu/~haotang2/index.html
題目
知識圖譜的生成式對抗零樣本關系學習:Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs
簡介
大規模知識圖譜(KGs)在當前的信息系統中顯得越來越重要。為了擴大知識圖的覆蓋范圍,以往的知識圖完成研究需要為新增加的關系收集足夠的訓練實例。本文考慮一種新的形式,即零樣本學習,以擺脫這種繁瑣的處理,對于新增加的關系,我們試圖從文本描述中學習它們的語義特征,從而在不見實例的情況下識別出看不見的關系。為此,我們利用生成性對抗網絡(GANs)來建立文本與知識邊緣圖域之間的聯系:生成器學習僅用有噪聲的文本描述生成合理的關系嵌入。在這種背景下,零樣本學習自然轉化為傳統的監督分類任務。從經驗上講,我們的方法是模型不可知的,可以應用于任何版本的KG嵌入,并在NELL和Wikidataset上產生性能改進。
作者 Pengda Qin,Xin Wang,Wenhu Chen,Chunyun Zhang,Weiran Xu1William Yang Wang
計算機視覺頂會 CVPR 2019 的論文接前幾天公布了接受論文:在超過 5100 篇投稿中,共有 1300 篇被接收,達到了接近 25.2% 的接收率。上周小編推出CVPR2019圖卷積網絡相關論文,反響熱烈。CVPR2019 最新發布的論文有很多關于生成對抗網絡(GAN)相關論文,今天小編專門整理最新十篇生成對抗網絡相關視覺論文—風格遷移、圖像合成、異常檢測、事件、故事可視化、Text2Scene等。
1、A Style-Based Generator Architecture for Generative Adversarial Networks(一種用于生成對抗網絡的基于Style的新生成器結構)
作者:Tero Karras, Samuli Laine, Timo Aila
摘要:我們借鑒了風格遷移的相關工作,提出了一種用于生成對抗網絡的替代生成器結構。新的結構自動學習、無監督地分離高級屬性(例如,在人臉訓練時的姿勢和身份)和生成圖像中的隨機變化(例如雀斑、頭發),并支持對合成的直觀、特定尺度的控制。該算法改進了傳統的分布質量度量方法,提高了插補性能,并較好地解決了潛在的變化因素。為了量化interpolation quality和disentanglement,我們提出了兩種新的、適用于任何生成器架構的自動化方法。最后,我們介紹了一個新的,高度多樣化和高質量的人臉數據集。
網址:
代碼鏈接:
2、Spatial Fusion GAN for Image Synthesis(基于空間融合GAN的圖像合成)
作者:Fangneng Zhan, Hongyuan Zhu, Shijian Lu
摘要:生成對抗網絡(GANs)的最新研究成果顯示了其在真實圖像合成方面的巨大潛力,而現有的大多數文章都是在外觀空間或幾何空間進行合成,但同時使用兩者的很少。本文提出了一種新穎的空間融合GAN (SF-GAN),它結合了幾何合成器和表觀合成器,實現了幾何和外觀空間的綜合真實感。該幾何合成器學習背景圖像的背景幾何,并一致地將前景對象轉換和放置到背景圖像中。該外觀合成器對前景對象的顏色、亮度和樣式進行調整,并將其和諧地嵌入背景圖像中,其中引入了一個用于細節保存的引導濾波器。這兩個合成器相互連接,作為相互參照,可以在沒有監督的情況下進行端到端訓練。對SF-GAN在兩個任務中進行了評估: (1)為訓練更好的識別模型,進行了逼真的場景文本圖像合成;(2)戴眼鏡和帽子,與真人相匹配的眼鏡和帽子。定性和定量的比較表明了所提出的SF-GAN的優越性。
網址:
代碼鏈接:
3、f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning(任意樣本學習的特征生成框架)
作者:Yongqin Xian, Saurabh Sharma, Bernt Schiele, Zeynep Akata
摘要:當標記的訓練數據很少時,一種很有前途的數據增強方法是使用未知類的屬性生成它們的視覺特征。為了學習CNN特征的類條件分布,這些模型依賴于成對的圖像特征和類屬性。因此,他們無法利用大量未標記的數據樣本。在本文中,我們在一個統一的特征生成框架中處理任意樣本學習問題,即零樣本和少樣本。我們建立了一個結合VAE和GANs的強度的條件生成模型,并通過一個無條件的判別器學習未標記圖像的邊緣特征分布。我們的實驗表明,我們的模型學習了CUB、SUN、AWA和ImageNet這5個數據集的CNN特征,并建立了一種新的最前沿的任意樣本學習,即歸納和轉換(廣義)零樣本和少樣本學習設置。我們還證明了我們所學習的特性是可解釋的: 我們通過將它們反轉回像素空間來對它們進行可視化,并通過生成文本參數來解釋它們為什么與某個標簽相關聯。
網址:
4、OCGAN: One-class Novelty Detection Using GANs with Constrained Latent Representations(OCGAN:使用具有約束潛在表征的GAN進行One-class異常檢測)
作者:Pramuditha Perera, Ramesh Nallapati, Bing Xiang
摘要:針對單類異常檢測的經典問題,提出了一種新的OCGAN模型,其中,給定一組來自特定類的示例,目標是確定查詢示例是否來自同一類。我們的解決方案基于使用去噪自編碼器網絡學習類內示例的潛在表示。我們工作的關鍵貢獻是我們顯式地約束潛在空間,使其只表示給定的類。為了實現這一目標,首先,我們通過在編碼器的輸出層引入tanh激活函數來強制潛在空間獲得有限的支持。其次,在反方向訓練的潛在空間中使用判別器,保證了類內樣本的編碼表示形式類似于從同一有界空間抽取的均勻隨機樣本。第三,在輸入空間中使用第二個對抗性判別器,確保所有隨機抽取的潛在樣本生成的示例看起來都是真實的。最后,我們介紹了一種基于梯度下降的采樣技術,該技術探索潛在空間中的點,這些點生成潛在的類外示例,并將這些類外示例反饋給網絡,進一步訓練網絡從這些點生成類內示例。該方法通過四個公開可用的數據集,使用兩種one-class異常檢測協議來證明其有效性,跟別的方法相比,我們的方法實現了最先進的結果。
網址:
代碼鏈接:
5、Event-based High Dynamic Range Image and Very High Frame Rate Video Generation using Conditional Generative Adversarial Networks(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)
作者:S. Mohammad Mostafavi I., Lin Wang, Yo-Sung Ho, Kuk-Jin Yoon
摘要:與傳統相機相比,Event camera具有低延遲、高時間分辨率、高動態范圍等優點。然而,由于Event camera的輸出是超時的異步事件序列而不是實際強度圖像,因此不能直接應用現有算法。因此,需要從事件中為其他任務生成強度圖像。在本文中,我們揭開了基于Event camera的條件生成對抗網絡的潛力,從事件數據流的可調部分創建圖像/視頻。利用事件的時空坐標棧作為輸入,訓練網絡根據時空強度變化再現圖像。并且,還證明了Event camera在極端光照條件下也能生成高動態范圍(HDR)圖像,在快速運動下也能生成非模糊圖像。此外,還演示了生成非常高幀率視頻的可能性,理論上可以達到每秒100萬幀(FPS),因為Event camera的時間分辨率大約為1{\mu}s。通過與使用在線可用的真實數據集和Event camera模擬器生成的合成數據集在同一像素事件網格線上捕獲的強度圖像進行比較,對所提出的方法進行了評估。
網址:
6、GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction(GANFIT: 用于高保真三維人臉重建的生成對抗網絡擬合)
作者:Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou
摘要:在過去的幾年里,利用深度卷積神經網絡(DCNNs)的強大功能,從單個圖像中重建三維人臉結構已經做了大量的工作。在最近的研究中,我們使用了可微渲染器來學習人臉識別特征與三維形態和紋理模型參數之間的關系。紋理特征要么對應于線性紋理空間的組件,要么由自編碼器直接從野外圖像(in-the-wild images)中學習。在所有情況下,人臉紋理重建的最先進的方法仍然不能以高保真度來建模紋理。在這篇論文中,我們采取了一個完全不同的方法,利用生成對抗網絡(GANs)和DCNNs的力量,從單一的圖像重建面部紋理和形狀。也就是說,我們利用GAN在UV空間中訓練一個非常強大的面部紋理生成器。在此基礎上,利用非線性優化方法,對原三維形態模型(3DMMs)擬合方法進行了重新研究,找到了最優的潛在參數,并在新的視角下對測試圖像進行了重構。利用端到端可微框架,我們通過預先訓練的深層身份特征來優化參數。我們在真實感和保真性的三維人臉重建方面取得了優異的效果,并首次實現了基于高頻細節的人臉紋理重建。
網址:
代碼鏈接:
7、Self-Supervised Generative Adversarial Networks(自監督生成對抗網絡)
作者:Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, Neil Houlsby
摘要:條件GAN是自然圖像合成的前沿。這種模型的主要缺點是需要標記數據。在這項工作中,我們使用了兩種流行的無監督學習技術,對抗性訓練(adversarial training)和自監督(self-supervision),以縮小有條件和無條件GAN之間的差距。特別是,我們允許網絡在表示學習的任務上進行協作,同時在經典的GAN游戲中具有對抗性。自監督的作用是鼓勵discriminator學習有意義的特征表示,這些特征在訓練中不會被遺忘。我們對學習圖像表示的質量和合成圖像的質量進行了經驗檢驗。在相同條件下,自監督GAN獲得與最先進的條件相似的性能。最后,我們證明了這種完全無監督學習的方法可以在無條件生成ImageNet時擴展到FID為33。
網址:
代碼鏈接:
8、Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis(基于Mode Seeking的生成對抗網絡方法應用于多種圖像合成)
作者:Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, Ming-Hsuan Yang
摘要:大多數條件生成任務都期望給定一個條件上下文的不同輸出。然而,條件生成對抗網絡(cGANs)往往只關注先驗條件信息,而忽略了輸入噪聲向量,從而導致了輸出的變化。最近解決cGANs模式崩潰問題的嘗試通常是特定于任務的,而且計算成本很高。在這項工作中,我們提出了一個簡單而有效的正則化項來解決cGANs的模式崩潰問題。該方法顯式地將生成的圖像與對應的潛在編碼(latent codes)之間的距離比值最大化,從而鼓勵生成器在訓練過程中探索更多的小模式。這種尋求正則化項的模式很容易適用于各種條件生成任務,而不需要增加訓練開銷或修改原有的網絡結構。基于不同的baseline模型,我們在三個條件圖像合成任務上驗證了該算法的有效性,任務包括分類生成、圖像到圖像的轉換、文本到圖像的合成。定性和定量結果都證明了所提出的正則化方法在不損失質量的情況下提高多樣性的有效性。
網址:
代碼鏈接:
9、StoryGAN: A Sequential Conditional GAN for Story Visualization(StoryGAN: 序列條件GAN的故事可視化)
作者:Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, Jianfeng Gao
摘要:在這項工作中,我們提出了一個新的任務,稱為故事可視化(Story Visualization)。給定一個多句的段落,通過為每個句子生成一個圖像序列來可視化故事。與視頻生成不同,故事可視化不太關注生成圖像(幀)中的連續性,而是更關注動態場景和角色之間的全局一致性——這是任何單一圖像或視頻生成方法都無法解決的挑戰。因此,我們提出了一個新的基于序列條件GAN框架的故事到圖像序列生成模型StoryGAN。我們的模型的獨特之處在于,它由一個動態跟蹤故事流的深層上下文編碼器和兩個分別位于故事和圖像級別的鑒別器組成,以提高圖像質量和生成序列的一致性。為了評估模型,我們修改了現有的數據集,以創建CLEVR-SV和Pororo-SV數據集。從經驗上看,StoryGAN在圖像質量、上下文一致性度量和人類評估方面優于最先進的模型。
網址:
代碼鏈接:
10、Text2Scene: 從文本描述生成合成場景(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)
作者:Fuwen Tan, Song Feng, Vicente Ordonez
摘要:我們提出了Text2Scene模型,該模型對輸入的自然語言描述進行解釋,以生成各種形式的合成場景表示;從抽象的卡通場景到合成圖像。與最近的工作不同,我們的方法不使用生成對抗網絡,而是將編碼器-解碼器模型與基于半參數檢索的方法相結合。Text2Scene學習通過關注輸入文本的不同部分以及生成場景的當前狀態,在每一個時間步驟中依次生成對象及其屬性(位置、大小、外觀等)。我們表明,在微小的修改下,所提出的框架可以處理不同形式的場景表示的生成,包括卡通場景、與真實圖像對應的對象布局以及合成圖像組合。我們的方法不僅與最先進的基于GAN的自動度量方法和基于人類判斷的方法相比具有競爭力,而且更通用、更易于解釋。
網址:
下載鏈接: 提取碼:lb7k
論文題目: A Structural Graph Representation Learning Framework
論文摘要: 許多基于圖的機器學習任務的成功在很大程度上取決于從圖數據中學習到的適當表示。大多數工作都集中在于學習保留鄰近性的節點嵌入,而不是保留節點之間結構相似性的基于結構的嵌入。這些方法無法捕獲對基于結構的應用程序(如web日志中的visitor stitching)至關重要的高階結構依賴和連接模式。在這項工作中,我們闡述了高階網絡表示學習,并提出了一個稱為HONE的通用框架,用于通過節點鄰域中的子圖模式(network motifs, graphlet orbits/positions)從網絡中學習這種結構性節點嵌入。HONE引入了一種通用的diffusion機制和一種節省空間的方法,該方法避免了使用k-step線性算子來顯式構造k-step motif-based矩陣。此外,HONE被證明是快速和有效的,最壞情況下的時間復雜度幾乎是線性的。實驗結果表明,該算法能有效地處理大量的網絡日志數據,包括鏈接預測和visitor stitching。
作者簡介:
Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。我在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。
報告主題:Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data
報告摘要:整體場景結構的感知,即場景中的有序,規則,對稱或重復的模式和關系,在人類視覺中起著至關重要的作用。在辦公樓等人造環境中行走時,人們可以立即識別平行線,矩形,長方體,旋轉對稱性,重復性圖案以及許多其他類型的結構,并利用它們進行準確而強大的3D定位,定向和導航。在計算機視覺中,從各種傳感器(例如單眼和雙目視覺,LiDAR和RGB-D傳感器)獲取的數據中,使用此類整體結構元素對物理環境(尤其是人造環境)進行3D建模已有很長的歷史。 。這些方法在創建高保真3D模型,提高3D視覺系統的準確性,魯棒性和可靠性,以及為現代3D應用程序提供高級,緊湊且語義豐富的場景表示方面顯示出巨大的成功和潛力。
在這種情況下,此次報告旨在匯集當前的研究進展,并討論結構化場景的3D建模及其應用中的最新方法。報告將回顧3D結構的多視圖幾何學的基本理論;分析利用整體3D結構的傳統和最新幾何方法;當前概述了基于學習的方法和基于幾何的方法的融合。最后,我們討論了在人造環境的3D建模中結合重構和識別的未來可能的方向。
邀請嘉賓:馬毅, 1995年獲得中國清華大學自動化與應用數學博士學位,并獲得碩士學位。 1997年獲得EECS學位,2000年獲得數學碩士學位。 于2000年從UC Berkeley獲得EECS學位。 從2000年至2011年,他在伊利諾伊大學厄本那香檳分校的ECE系任教。從2009年至2013年,他是視覺計算小組的經理和微軟研究院在亞洲的首席研究員。 2014年至2017年擔任上海科技大學信息科學與技術學院教授和執行院長。他于2018年加入加州大學伯克利分校EECS系。
Zihan Zhou 是賓夕法尼亞州立大學信息科學與技術學院的教職員工。 在加入賓夕法尼亞州立大學之前,在伊利諾伊大學厄本那-香檳分校獲得了電氣和計算機工程博士學位。 分別于2007年和2007年從中國清華大學獲得自動化學士學位,并于2010年從UIUC獲得了ECE碩士學位。 其研究興趣在于計算機視覺,機器學習,信號處理和應用數據科學的廣泛領域。 特別關注3D Vision, 具體來說,曾開發了新穎的計算工具來對來自大型視覺數據的3D環境進行建模和分析,并將其應用于解決VR/AR,基于視覺的導航,建筑設計和工程,社交媒體等方面的現實世界難題。
Yasutaka Furukawa,西蒙弗雷澤大學計算機科學系的副教授, 曾是圣路易斯華盛頓大學的助理教授,Google的軟件工程師。 在加入Google之前,是華盛頓大學的博士后研究員。 曾與華盛頓大學的Seitz教授和Curless教授以及Facebook的Rick Szeliski一起(曾在Microsoft Research工作)。