近年來,卷積神經網絡(ConvNets)在大量計算機視覺任務中的應用出現了戲劇性的增長。卷積結構在許多任務中都是非常強大的,它可以從圖像像素中提取相關性和抽象概念。然而,當面對一些更困難的計算機視覺任務時,ConvNets在建模中也有相當多的屬性方面存在缺陷。這些屬性包括成對關系、全局上下文和處理超越空間網格的不規則數據的能力。
一個有效的方向是根據手頭的任務重新組織要用圖處理的數據,同時構建網絡模塊,在圖內的視覺元素之間關聯和傳播信息。我們將這種具有傳播模塊的網絡稱為圖網絡結構。在本教程中,我們將介紹一系列有效的圖網絡結構,包括非局部神經網絡、空間廣義傳播網絡、面向對象和多主體行為建模的關系網絡、面向3D領域的視頻和數據的圖網絡。我們還將討論如何利用圖神經網絡結構來研究連接模式。最后,我們將討論在許多視覺問題中仍然存在的相關開放挑戰。
領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。
最近的研究表明,自注意力可以作為圖像識別模型的基本構件。我們探討了自注意力的變化,并評估了它們在圖像識別中的有效性。我們認為自注意力有兩種形式。一種是成對的自注意力,它概括了標準的點積注意,本質上是一個集合算子。另一種是拼湊式的自注意力,嚴格來說,它比卷積更強大。我們的成對自注意力網絡匹配或優于卷積網絡,補丁式網絡的性能大大優于卷積基線。我們還進行了實驗,探討了學習表征的魯棒性,并得出結論,自注意力網絡在魯棒性和泛化方面可能具有顯著的優勢。
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
題目: Learning Representations via Graph-structured Networks
報告簡介: 近年來,在無數的計算機視覺任務中,采用卷積神經網絡(ConvNets)的數量急劇增加。卷積的結構被證明在許多任務中都很強大,可以捕獲圖像像素中的相關性和抽象概念。但是,當計算機視覺處理更困難的AI任務時,ConvNets也被證明缺乏建模許多屬性的能力。這些屬性包括成對關系,全局上下文以及處理超出空間網格的不規則數據的能力。
一個有效的方向是根據手頭的任務來重新組織要使用圖形處理的數據,同時構建網絡模塊,這些模塊在圖形中的可視元素之間關聯和傳播信息。我們稱這些網絡為傳播模塊,稱為圖結構網絡。在本教程中,我們將介紹一系列有效的圖結構網絡,包括非局部神經網絡,空間傳播網絡,稀疏高維CNN和場景圖網絡。我們還將討論許多視覺問題中仍然存在的相關開放挑戰。
報告目錄:
部分嘉賓介紹:
Xiaolong Wang,將于2020年秋天加入圣地亞哥圣地亞哥分校(ECE)部門擔任助理教授。 目前是加州大學伯克利分校的博士后,與Alexei Efros和Trevor Darrell一起工作。 在卡內基梅隆大學(Carnegie Mellon University)獲得機器人學博士學位,博導是Abhinav Gupta。
,英偉達研究員,博士就讀于加州大學默塞德分校,與楊明教授一起研究計算機視覺,深度學習以及兩者的結合。曾于2015年在香港中文大學的多媒體實驗室(MMLAB)和2017年NVIDIA Research擔任實習生。