計算機視覺頂會 CVPR 2019 的論文接前幾天公布了接受論文:在超過 5100 篇投稿中,共有 1300 篇被接收,達到了接近 25.2% 的接收率。上周小編推出CVPR2019圖卷積網絡相關論文,反響熱烈。CVPR2019 最新發布的論文有很多關于生成對抗網絡(GAN)相關論文,今天小編專門整理最新十篇生成對抗網絡相關視覺論文—風格遷移、圖像合成、異常檢測、事件、故事可視化、Text2Scene等。
1、A Style-Based Generator Architecture for Generative Adversarial Networks(一種用于生成對抗網絡的基于Style的新生成器結構)
作者:Tero Karras, Samuli Laine, Timo Aila
摘要:我們借鑒了風格遷移的相關工作,提出了一種用于生成對抗網絡的替代生成器結構。新的結構自動學習、無監督地分離高級屬性(例如,在人臉訓練時的姿勢和身份)和生成圖像中的隨機變化(例如雀斑、頭發),并支持對合成的直觀、特定尺度的控制。該算法改進了傳統的分布質量度量方法,提高了插補性能,并較好地解決了潛在的變化因素。為了量化interpolation quality和disentanglement,我們提出了兩種新的、適用于任何生成器架構的自動化方法。最后,我們介紹了一個新的,高度多樣化和高質量的人臉數據集。
網址:
代碼鏈接:
2、Spatial Fusion GAN for Image Synthesis(基于空間融合GAN的圖像合成)
作者:Fangneng Zhan, Hongyuan Zhu, Shijian Lu
摘要:生成對抗網絡(GANs)的最新研究成果顯示了其在真實圖像合成方面的巨大潛力,而現有的大多數文章都是在外觀空間或幾何空間進行合成,但同時使用兩者的很少。本文提出了一種新穎的空間融合GAN (SF-GAN),它結合了幾何合成器和表觀合成器,實現了幾何和外觀空間的綜合真實感。該幾何合成器學習背景圖像的背景幾何,并一致地將前景對象轉換和放置到背景圖像中。該外觀合成器對前景對象的顏色、亮度和樣式進行調整,并將其和諧地嵌入背景圖像中,其中引入了一個用于細節保存的引導濾波器。這兩個合成器相互連接,作為相互參照,可以在沒有監督的情況下進行端到端訓練。對SF-GAN在兩個任務中進行了評估: (1)為訓練更好的識別模型,進行了逼真的場景文本圖像合成;(2)戴眼鏡和帽子,與真人相匹配的眼鏡和帽子。定性和定量的比較表明了所提出的SF-GAN的優越性。
網址:
代碼鏈接:
3、f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning(任意樣本學習的特征生成框架)
作者:Yongqin Xian, Saurabh Sharma, Bernt Schiele, Zeynep Akata
摘要:當標記的訓練數據很少時,一種很有前途的數據增強方法是使用未知類的屬性生成它們的視覺特征。為了學習CNN特征的類條件分布,這些模型依賴于成對的圖像特征和類屬性。因此,他們無法利用大量未標記的數據樣本。在本文中,我們在一個統一的特征生成框架中處理任意樣本學習問題,即零樣本和少樣本。我們建立了一個結合VAE和GANs的強度的條件生成模型,并通過一個無條件的判別器學習未標記圖像的邊緣特征分布。我們的實驗表明,我們的模型學習了CUB、SUN、AWA和ImageNet這5個數據集的CNN特征,并建立了一種新的最前沿的任意樣本學習,即歸納和轉換(廣義)零樣本和少樣本學習設置。我們還證明了我們所學習的特性是可解釋的: 我們通過將它們反轉回像素空間來對它們進行可視化,并通過生成文本參數來解釋它們為什么與某個標簽相關聯。
網址:
4、OCGAN: One-class Novelty Detection Using GANs with Constrained Latent Representations(OCGAN:使用具有約束潛在表征的GAN進行One-class異常檢測)
作者:Pramuditha Perera, Ramesh Nallapati, Bing Xiang
摘要:針對單類異常檢測的經典問題,提出了一種新的OCGAN模型,其中,給定一組來自特定類的示例,目標是確定查詢示例是否來自同一類。我們的解決方案基于使用去噪自編碼器網絡學習類內示例的潛在表示。我們工作的關鍵貢獻是我們顯式地約束潛在空間,使其只表示給定的類。為了實現這一目標,首先,我們通過在編碼器的輸出層引入tanh激活函數來強制潛在空間獲得有限的支持。其次,在反方向訓練的潛在空間中使用判別器,保證了類內樣本的編碼表示形式類似于從同一有界空間抽取的均勻隨機樣本。第三,在輸入空間中使用第二個對抗性判別器,確保所有隨機抽取的潛在樣本生成的示例看起來都是真實的。最后,我們介紹了一種基于梯度下降的采樣技術,該技術探索潛在空間中的點,這些點生成潛在的類外示例,并將這些類外示例反饋給網絡,進一步訓練網絡從這些點生成類內示例。該方法通過四個公開可用的數據集,使用兩種one-class異常檢測協議來證明其有效性,跟別的方法相比,我們的方法實現了最先進的結果。
網址:
代碼鏈接:
5、Event-based High Dynamic Range Image and Very High Frame Rate Video Generation using Conditional Generative Adversarial Networks(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)
作者:S. Mohammad Mostafavi I., Lin Wang, Yo-Sung Ho, Kuk-Jin Yoon
摘要:與傳統相機相比,Event camera具有低延遲、高時間分辨率、高動態范圍等優點。然而,由于Event camera的輸出是超時的異步事件序列而不是實際強度圖像,因此不能直接應用現有算法。因此,需要從事件中為其他任務生成強度圖像。在本文中,我們揭開了基于Event camera的條件生成對抗網絡的潛力,從事件數據流的可調部分創建圖像/視頻。利用事件的時空坐標棧作為輸入,訓練網絡根據時空強度變化再現圖像。并且,還證明了Event camera在極端光照條件下也能生成高動態范圍(HDR)圖像,在快速運動下也能生成非模糊圖像。此外,還演示了生成非常高幀率視頻的可能性,理論上可以達到每秒100萬幀(FPS),因為Event camera的時間分辨率大約為1{\mu}s。通過與使用在線可用的真實數據集和Event camera模擬器生成的合成數據集在同一像素事件網格線上捕獲的強度圖像進行比較,對所提出的方法進行了評估。
網址:
6、GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction(GANFIT: 用于高保真三維人臉重建的生成對抗網絡擬合)
作者:Baris Gecer, Stylianos Ploumpis, Irene Kotsia, Stefanos Zafeiriou
摘要:在過去的幾年里,利用深度卷積神經網絡(DCNNs)的強大功能,從單個圖像中重建三維人臉結構已經做了大量的工作。在最近的研究中,我們使用了可微渲染器來學習人臉識別特征與三維形態和紋理模型參數之間的關系。紋理特征要么對應于線性紋理空間的組件,要么由自編碼器直接從野外圖像(in-the-wild images)中學習。在所有情況下,人臉紋理重建的最先進的方法仍然不能以高保真度來建模紋理。在這篇論文中,我們采取了一個完全不同的方法,利用生成對抗網絡(GANs)和DCNNs的力量,從單一的圖像重建面部紋理和形狀。也就是說,我們利用GAN在UV空間中訓練一個非常強大的面部紋理生成器。在此基礎上,利用非線性優化方法,對原三維形態模型(3DMMs)擬合方法進行了重新研究,找到了最優的潛在參數,并在新的視角下對測試圖像進行了重構。利用端到端可微框架,我們通過預先訓練的深層身份特征來優化參數。我們在真實感和保真性的三維人臉重建方面取得了優異的效果,并首次實現了基于高頻細節的人臉紋理重建。
網址:
代碼鏈接:
7、Self-Supervised Generative Adversarial Networks(自監督生成對抗網絡)
作者:Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, Neil Houlsby
摘要:條件GAN是自然圖像合成的前沿。這種模型的主要缺點是需要標記數據。在這項工作中,我們使用了兩種流行的無監督學習技術,對抗性訓練(adversarial training)和自監督(self-supervision),以縮小有條件和無條件GAN之間的差距。特別是,我們允許網絡在表示學習的任務上進行協作,同時在經典的GAN游戲中具有對抗性。自監督的作用是鼓勵discriminator學習有意義的特征表示,這些特征在訓練中不會被遺忘。我們對學習圖像表示的質量和合成圖像的質量進行了經驗檢驗。在相同條件下,自監督GAN獲得與最先進的條件相似的性能。最后,我們證明了這種完全無監督學習的方法可以在無條件生成ImageNet時擴展到FID為33。
網址:
代碼鏈接:
8、Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis(基于Mode Seeking的生成對抗網絡方法應用于多種圖像合成)
作者:Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, Ming-Hsuan Yang
摘要:大多數條件生成任務都期望給定一個條件上下文的不同輸出。然而,條件生成對抗網絡(cGANs)往往只關注先驗條件信息,而忽略了輸入噪聲向量,從而導致了輸出的變化。最近解決cGANs模式崩潰問題的嘗試通常是特定于任務的,而且計算成本很高。在這項工作中,我們提出了一個簡單而有效的正則化項來解決cGANs的模式崩潰問題。該方法顯式地將生成的圖像與對應的潛在編碼(latent codes)之間的距離比值最大化,從而鼓勵生成器在訓練過程中探索更多的小模式。這種尋求正則化項的模式很容易適用于各種條件生成任務,而不需要增加訓練開銷或修改原有的網絡結構。基于不同的baseline模型,我們在三個條件圖像合成任務上驗證了該算法的有效性,任務包括分類生成、圖像到圖像的轉換、文本到圖像的合成。定性和定量結果都證明了所提出的正則化方法在不損失質量的情況下提高多樣性的有效性。
網址:
代碼鏈接:
9、StoryGAN: A Sequential Conditional GAN for Story Visualization(StoryGAN: 序列條件GAN的故事可視化)
作者:Yitong Li, Zhe Gan, Yelong Shen, Jingjing Liu, Yu Cheng, Yuexin Wu, Lawrence Carin, David Carlson, Jianfeng Gao
摘要:在這項工作中,我們提出了一個新的任務,稱為故事可視化(Story Visualization)。給定一個多句的段落,通過為每個句子生成一個圖像序列來可視化故事。與視頻生成不同,故事可視化不太關注生成圖像(幀)中的連續性,而是更關注動態場景和角色之間的全局一致性——這是任何單一圖像或視頻生成方法都無法解決的挑戰。因此,我們提出了一個新的基于序列條件GAN框架的故事到圖像序列生成模型StoryGAN。我們的模型的獨特之處在于,它由一個動態跟蹤故事流的深層上下文編碼器和兩個分別位于故事和圖像級別的鑒別器組成,以提高圖像質量和生成序列的一致性。為了評估模型,我們修改了現有的數據集,以創建CLEVR-SV和Pororo-SV數據集。從經驗上看,StoryGAN在圖像質量、上下文一致性度量和人類評估方面優于最先進的模型。
網址:
代碼鏈接:
10、Text2Scene: 從文本描述生成合成場景(使用條件生成對抗網絡生成基于事件的高動態范圍圖像和超高幀率視頻)
作者:Fuwen Tan, Song Feng, Vicente Ordonez
摘要:我們提出了Text2Scene模型,該模型對輸入的自然語言描述進行解釋,以生成各種形式的合成場景表示;從抽象的卡通場景到合成圖像。與最近的工作不同,我們的方法不使用生成對抗網絡,而是將編碼器-解碼器模型與基于半參數檢索的方法相結合。Text2Scene學習通過關注輸入文本的不同部分以及生成場景的當前狀態,在每一個時間步驟中依次生成對象及其屬性(位置、大小、外觀等)。我們表明,在微小的修改下,所提出的框架可以處理不同形式的場景表示的生成,包括卡通場景、與真實圖像對應的對象布局以及合成圖像組合。我們的方法不僅與最先進的基于GAN的自動度量方法和基于人類判斷的方法相比具有競爭力,而且更通用、更易于解釋。
網址:
下載鏈接: 提取碼:lb7k
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。
網址: //arxiv.org/pdf/2003.14111.pdf
代碼鏈接: github.com/kenziyuliu/ms-g3d
2. DPGN: Distribution Propagation Graph Network for Few-shot Learning
作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu
摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。
網址:
代碼鏈接:
3. Geometrically Principled Connections in Graph Neural Networks
作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou
摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。
網址:
4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks
作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen
摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。
網址:
代碼鏈接:
補充材料:
5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文、【可解釋性】相關論文和代碼,CVPR視覺目標跟蹤相關論文和代碼,反響熱烈。最近,視覺問答和推理這一領域也廣泛受關注,出現了好多新方法、新數據集,CVPR 2019已經陸續放出很多篇篇相關文章。今天小編專門整理最新七篇視覺問答相關應用論文—多模態關系推理、視覺上下文、遷移學習、通用VQA模型、新數據集GQA等。
1、MUREL: Multimodal Relational Reasoning for Visual Question Answering (MUREL:視覺問答的多模態關系推理)
CVPR ’19
作者:Remi Cadene, Hedi Ben-younes, Matthieu Cord, Nicolas Thome
摘要:多模態注意力網絡是目前用于涉及真實圖像的視覺問答(VQA)任務的最先進的模型。盡管注意力集中在與問題相關的可視內容上,但這種簡單的機制可能不足以模擬VQA或其他高級任務所需的復雜推理功能。在本文中,我們提出了MuRel,一種多模態關系網絡,它通過真實圖像進行端到端的學習。我們的第一個貢獻是引入了MuRel單元,這是一個原子推理原語,通過豐富的向量表示來表示問題和圖像區域之間的交互,并使用成對組合對區域關系建模。其次,我們將單元格合并到一個完整的MuRel網絡中,該網絡逐步細化了可視化和問題交互,并且可以用來定義比注意力更精細的可視化方案。我們驗證了我們的方法與各種消融研究的相關性,并在三個數據集:VQA 2.0、VQA- cp v2和TDIUC上顯示了它相對于基于注意力的方法的優勢。我們的最終MuRel網絡在這一具有挑戰性的環境中具有競爭力或優于最先進的結果。
網址:
代碼鏈接:
2、Image-Question-Answer Synergistic Network for Visual Dialog( 基于圖像-問題-答案協同網絡的視覺對話)
CVPR ’19
作者:Dalu Guo, Chang Xu, Dacheng Tao
摘要:圖像、問題(結合用于de-referencing的歷史)和相應的答案是視覺對話的三個重要組成部分。經典的視覺對話系統集成了圖像、問題和歷史來搜索或生成最佳匹配的答案,因此,這種方法明顯忽略了答案的作用。在本文中,我們設計了一個新穎的圖像 - 問題 - 答案協同網絡,以評估答案對精確視覺對話的作用。我們將傳統的一階段解決方案擴展為兩階段解決方案。在第一階段,根據候選答案與圖像和問題對的相關性對候選答案進行粗略評分。之后,在第二階段,通過與圖像和問題協同,對具有高正確概率的答案進行重新排序。在Visual Dialog v1.0數據集上,所提出的協同網絡增強了判別性視覺對話模型,實現了57.88%的NDCG(normalized discounted cumulative gain)的最新的最優表現。
網址:
3、Learning to Compose Dynamic Tree Structures for Visual Contexts(學習為視覺上下文構建動態樹結構)
CVPR ’19 Oral
作者:Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu
摘要:我們提出組合動態樹結構,將圖像中的對象放入視覺上下文中,幫助進行視覺推理任務,如場景圖生成和視覺問答。我們的視覺上下文樹模型(稱為VCTree)與現有的結構化對象表示(包括鏈和全連接圖)相比具有兩個關鍵優勢:1)高效且富有表現力的二叉樹編碼對象之間固有的并行/層次關系,例如“衣服”和“褲子”通常是共同出現的,屬于“人”; 2)動態結構因圖像和任務而異,允許在對象之間傳遞更多特定于任務的內容/消息。為了構造一個VCTree,我們設計了一個score函數來計算每個對象對之間的任務依賴效度,這個VCTree是score矩陣中最大生成樹的二進制版本。然后,視覺上下文由雙向TreeLSTM編碼,并由特定于任務的模型解碼。本文提出了一種混合學習方法,將末端任務監督學習與樹形結構強化學習相結合,前者的評估結果作為后者結構探索的self-critic。兩個benchmark測試的實驗結果,需要對上下文進行推理:用于場景圖生成的Visual Genome和用于視覺Q&A的VQA2.0,表明VCTree在發現可解釋的視覺上下文結構時優于最先進的結果。
網址:
4、Transfer Learning via Unsupervised Task Discovery for Visual Question Answering(通過無監督的任務發現遷移學習以進行視覺問答)
CVPR ’19
作者:Hyeonwoo Noh, Taehoon Kim, Jonghwan Mun, Bohyung Han
摘要:我們研究如何利用現成的視覺和語言數據來處理視覺問答任務中詞匯量不足的問題。現有的帶有圖像類標簽、邊界框和區域描述等標注的大型可視化數據集是學習豐富多樣的視覺概念的好資源。然而,由于依賴于問題的回答模型與無問題的視覺數據之間缺少聯系,如何捕獲視覺概念并將其轉化為VQA模型并不簡單。我們通過兩個步驟來解決這個問題:1)學習一個任務條件視覺分類器,該分類器基于無監督任務發現,能夠解決多種特定問題的視覺識別任務;2)將任務條件視覺分類器轉化為視覺問答模型。具體來說,我們使用結構化詞匯庫(如WordNet)和視覺概念描述等語言知識資源來進行無監督任務發現,并將學習到的任務條件視覺分類器作為一個回答單元遷移到一個 VQA模型中。實驗結果表明,該算法利用從視覺數據集中遷移的知識成功地推廣到詞匯表外的問題。
網址:
代碼鏈接:
5、Answer Them All! Toward Universal Visual Question Answering Models(回答他們所有人!基于通用的視覺問答模型)
CVPR ’19
作者:Robik Shrestha, Kushal Kafle, Christopher Kanan
摘要:視覺問答(VQA)研究分為兩個陣營:第一個陣營關注需要自然圖像理解的VQA數據集,第二個陣營關注測試推理的合成數據集。一個好的VQA算法應該同時具備這兩種功能,但是只有少數VQA算法是以這種方式進行測試的。我們比較了涵蓋這兩個領域的8個VQA數據集中的5種最先進的VQA算法。為了公平起見,所有的模型都盡可能標準化,例如,它們使用相同的視覺特性、答案詞表等。我們發現,這些方法不能泛化到這兩個領域。為了解決這一問題,我們提出了一種新的VQA算法,它可以與這兩個領域的最先進算法相媲美或超過它們。
網址:
6、GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering(GQA: 一個用于真實世界的視覺推理和合成問題回答的新數據集)
CVPR ’19
作者:Drew A. Hudson, Christopher D. Manning
摘要:我們介紹了一個新的數據集GQA,用于真實世界的視覺推理和合成問題回答,試圖解決以前的VQA數據集的關鍵缺陷。我們開發了一個強大而健壯的問題引擎,它利用場景圖結構創建了2200萬個不同的推理問題,所有這些問題都帶有表示其語義的功能程序。我們使用這些程序來獲得對答案分布的嚴格控制,并提出了一種新的可調平滑技術來減少問題的偏差。隨數據集而來的是一套新的度量標準,用于評估consistency、grounding和plausibility等基本質量。對baseline和最先進的模型進行了廣泛的分析,為不同的問題類型和拓撲提供了細粒度的結果。一個單獨的LSTM僅獲得42.1%的結果,強大的VQA模型達到54.1%,而人類的表現最高達到89.3%,這為探索新的研究提供了充足的機會。我們強烈希望GQA能夠為下一代模型提供支持資源,增強健壯性、改進一致性以及對圖像和語言更深入的語義理解。
網址:
7、Towards VQA Models that can Read(面向可讀的VQA模型)
CVPR ’19
作者:Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach
摘要:研究表明,視障用戶對周圍環境圖像提出的主要問題包括閱讀圖像中的文字。但是今天的VQA模型不能讀取! 我們的論文朝著解決這個問題邁出了第一步。首先,我們引入一個新的“TextVQA”數據集來促進在這個重要問題上的進展。現有的數據集要么有一小部分關于文本的問題(例如,VQA數據集),要么太小(例如,VizWiz數據集)。TextVQA包含45,336個問題,涉及28,408張圖像,需要對文本進行推理才能回答。其次,我們介紹了一種新的模型架構,它可以讀取圖像中的文本,在圖像和問題的上下文中對其進行推理,并預測一個可能是基于文本和圖像的推理或由圖像中發現的字符串組成的答案。因此,我們稱我們的方法為“Look, Read, Reason & Answer”(LoRRA)。我們在TextVQA數據集中展示了LoRRA優于現有的最先進的VQA模型。我們發現,在TextVQA上,人類性能和機器性能之間的差距明顯大于VQA 2.0,這表明TextVQA非常適合在與VQA 2.0互補的方向上進行基準測試。
網址:
代碼鏈接:
下載鏈接: 提取碼:yfq2