題目: Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation
摘要: 我們提出了一個新的模型,稱為多通道注意選擇生成對抗網絡(SelectionGAN),用于指導圖像到圖像的翻譯,我們在尊重外部語義引導的前提下,將輸入圖像轉換成另一幅圖像。所提出的選擇GAN顯式地利用了語義引導信息,包括兩個階段。在第一階段,輸入圖像和條件語義引導被輸入到循環語義引導生成網絡中,產生初始的粗糙結果。在第二階段,我們使用所提出的多尺度空間池和信道選擇模塊以及多信道注意選擇模塊來細化初始結果。此外,利用從注意圖中自動學習到的不確定性圖來指導像素損失,以獲得更好的網絡優化效果。在四個具有挑戰性的引導圖像到圖像轉換任務(面部、手部、身體和街道視圖)上進行的詳盡實驗表明,我們的選擇GAN能夠產生明顯優于現有技術方法的效果。同時,所提出的框架和模塊是統一的解決方案,可用于解決語義圖像合成等其他生成任務。
作者簡介: Hao Tang,伊利諾伊大學厄巴納-香檳分校(UIUC)電子與計算機工程系的博士生,貝克曼高等科學技術學院圖像形成與處理組(IFP組)的研究生助理。個人主頁://www.ifp.illinois.edu/~haotang2/index.html
隨著深度學習的發展,尤其是GAN的出現,越來越多有趣且實用的Image-to-image(圖像到圖像轉換,I2I)算法變得可行。本文介紹NVIDIA在ICIP 2019的I2I教程,包含7個PPT。分別對GAN、Vid2Vid進行介紹。
Image-to-image translation (圖像到圖像轉換,I2I)任務要求基于一張輸入圖像來生成一張新圖像。許多圖像處理問題,都可以被定義為I2I問題,如超分辨率、圖像修復、風格轉換等。
NVIDIA在ICIP2019的教程首先介紹了Goodfellow等人提出的GAN和一些流行的GAN的變式,然后給出了I2I問題的正式定義,統一了一些符號,并將現有的工作進行了分類(有監督、半監督、多模態、小樣本等)。教程對這些問題的網絡設計、目標函數、訓練策略、局限性等都做了一些介紹。教程還介紹了Video-to-video translation問題,該問題可以看成是I2I問題的擴展。教程討論了一些實際的問題,如如何收集訓練數據和排查故障。
教程包含了共7個PPT,內容分別為:
PPT下載鏈接: //pan.baidu.com/s/1_N1ZagHtyTFBqT-W9SzhVA 提取碼: uwcd
主題: Image-to-Image Translation
簡介:
圖像到圖像的轉換是指在輸入圖像的基礎上生成新的圖像。圖像處理中的許多任務都可以表示為圖像到圖像的轉換問題,包括圖像超分辨率、圖像補全和樣式轉換。在這門簡短的課程中,我們將涵蓋圖像到圖像轉換的基礎知識和應用。
我們將首先回顧Goodfellow等人提出的生成對抗網絡(GAN)框架,這是一種流行的生成式模型,是各種最先進的圖像到圖像的轉換方法的骨干模型,因為它具有生成脆銳圖像的非凡能力。GANs有各種各樣的變體。我們將介紹幾個流行的,還將討論它們的條件擴展。
接下來,我們將給出圖像到圖像轉換問題的正式定義。我們將根據現有作品的學習設置對其進行統一的標注和分類,包括監督設置(觀察輸入-輸出關系)、非監督設置(不觀察輸入-輸出關系)、半監督設置、多模態設置和少鏡頭設置。我們將討論每個場景中代表作品的細節,介紹他們的網絡設計、目標功能、培訓策略和局限性。將討論在各種圖像處理任務中的應用。
然后將討論視頻到視頻的轉換問題,這是圖像到圖像轉換問題的自然延伸。將生成令人信服的視覺動力學的技術,以及確保時間一致性的技術。然后展示一個現有的3D渲染引擎和一個視頻到視頻轉換模型的集成,以創建一種新的計算機圖形形式,并且討論將它作為圖形渲染引擎的優缺點。
最后,我們將通過討論圖像到圖像轉換工作所需的條件來結束本課程,討論滿足這些條件的實用方法,包括如何收集培訓數據和故障排除技巧。并且將敘述未來的挑戰和潛在的研究問題。
邀請嘉賓:
Ming-Yu Liu是英偉達著名的研究科學家。在2016年加入NVIDIA之前,他是三菱電機研究實驗室(MERL)的首席研究科學家。2012年,他獲得了馬里蘭大學帕克學院電子與計算機工程系的博士學位。2014年,他的機器人揀料系統獲得了《R&D》雜志頒發的R&D 100獎。他的語義圖像合成論文和場景理解論文分別在2019年CVPR和2015年RSS會議上入圍最佳論文決賽。在2019年的SIGGRAPH上,他的圖像合成作品獲得了實時直播秀的最佳表演獎和觀眾選擇獎。他的研究重點是生成圖像建模。他的目標是使機器具有類人的想象力。
Image-to-image translation tasks have been widely investigated with Generative Adversarial Networks (GANs) and dual learning. However, existing models lack the ability to control the translated results in the target domain and their results usually lack of diversity in the sense that a fixed image usually leads to (almost) deterministic translation result. In this paper, we study a new problem, conditional image-to-image translation, which is to translate an image from the source domain to the target domain conditioned on a given image in the target domain. It requires that the generated image should inherit some domain-specific features of the conditional image from the target domain. Therefore, changing the conditional image in the target domain will lead to diverse translation results for a fixed input image from the source domain, and therefore the conditional input image helps to control the translation results. We tackle this problem with unpaired data based on GANs and dual learning. We twist two conditional translation models (one translation from A domain to B domain, and the other one from B domain to A domain) together for inputs combination and reconstruction while preserving domain independent features. We carry out experiments on men's faces from-to women's faces translation and edges to shoes&bags translations. The results demonstrate the effectiveness of our proposed method.