【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,Domain Adaptation(域自適應)相關研究非常火熱,特別是基于Domain Adaptation的視覺應用在今年的CVPR中有不少,專知小編整理了CVPR 2020 域自適應(DA)相關的比較有意思的值得閱讀的六篇論文,供大家參考—行為分割、語義分割、目標檢測、行為識別、域自適應檢索。
作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira
摘要:盡管最近在全監督行為分割(action segmentation)技術方面取得了一些進展,但性能仍然不盡如人意。一個主要挑戰是時空變化問題(例如,不同的人可能以不同的方式進行相同的活動)。因此,我們利用無標簽視頻將行為分割任務重新表述為一個具有時空變化引起的域差異的跨域問題來解決上述時空變化問題。為了減少這種域差異,我們提出了自監督時域自適應(SSTDA),它包含兩個自監督輔助任務(二進制和序列域預測)來聯合對齊嵌入局部和全局時間動態的跨域特征空間,取得了比其他域自適應(DA)方法更好的性能。在三個具有挑戰性的基準數據集(GTEA、50Salads和Breakfast)上,SSTDA的表現遠遠超過當前最先進的方法(在Breakfas上F1@25得分從59.6%到69.1%,在50Salads上F1@25得分從73.4%到81.5%,在GTEA上F1@25得分從83.6%到89.1%),并且只需要65%的標記訓練數據來就實現了該性能,這表明了SSTDA在各種變化中適應未標記目標視頻的有效性。
網址:
代碼鏈接:
作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi
摘要:本文通過緩解源域(合成數據)和目標域(真實數據)之間的域轉換(domain shift),研究語義分割中的無監督域自適應問題。之前的方法證明,執行語義級對齊有助于解決域轉換問題。我們觀察到事物類別通常在不同域的圖像之間具有相似的外觀,而事物(即目標實例)具有更大的差異,我們提出使用針對填充(stuff)區域和事物的不同策略來改進語義級別的對齊方式:1)對于填充類別,我們為每一類生成特征表示,并進行從目標域到源域的對齊操作;2)對于事物(thing)類別,我們為每個單獨的實例生成特征表示,并鼓勵目標域中的實例與源域中最相似的實例對齊。以這種方式,事物類別內的個體差異也將被考慮,以減輕過度校準。除了我們提出的方法之外,我們還進一步揭示了當前對抗損失在最小化分布差異方面經常不穩定的原因,并表明我們的方法可以通過最小化源域和目標域之間最相似的內容和實例特征來幫助緩解這個問題。
網址:
作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei
摘要:在本文中,我們解決了域自適應目標檢測問題,其中的主要挑戰在于源域和目標域之間存在明顯的域差距。以前的工作試圖明確地對齊圖像級和實例級的移位,以最小化域差異。然而,它們仍然忽略了去匹配關鍵圖像區域和重要的跨域實例,這將嚴重影響域偏移緩解。在這項工作中,我們提出了一個簡單有效的分類正則化框架來緩解這個問題。它可以作為一個即插即用(plug-and-play)組件應用于一系列域自適應Faster R-CNN方法,這些方法在處理域自適應檢測方面表現突出。具體地說,由于分類方式的定位能力較弱,通過在檢測主干上集成圖像級多標簽分類器,可以獲得與分類信息相對應的稀疏但關鍵的圖像區域。同時,在實例級,我們利用圖像級預測(分類器)和實例級預測(檢測頭)之間的分類一致性作為正則化因子,自動尋找目標域的硬對齊實例。各種域轉移場景的大量實驗表明,與原有的域自適應Faster R-CNN檢測器相比,我們的方法獲得了顯著的性能提升。此外,定性的可視化和分析可以證明我們的方法能夠關注針對領域適配的關鍵區域/實例。
網址:
代碼鏈接:
作者:Jonathan Munro, Dima Damen
摘要:細粒度行為識別數據集存在出環境偏差,多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練模型并在另一個環境中部署會由于不可避免的域轉換而導致性能下降。無監督域適應(UDA)方法經常利用源域和目標域之間進行對抗性訓練。然而,這些方法并沒有探索視頻在每個域中的多模式特性。在這項工作中,除了對抗性校準之外,我們還利用模態之間的對應關系作為UDA的一種自監督校準方法。
我們在大規模數據集EPIC-Kitchens中的三個kitchens上使用行為識別的兩種模式:RGB和光學流(Optical Flow)測試了我們的方法。結果顯示,僅多模態自監督比僅進行源訓練的性能平均提高了2.4%。然后,我們將對抗訓練與多模態自監督相結合,表明我們的方法比其他UDA方法要好3%。
網址:
作者:Myeongjin Kim, Hyeran Byun
摘要:由于用于語義分割的像素級標簽標注很費力,因此利用合成數據是一種更好的解決方案。然而,由于合成域和實域之間存在領域鴻溝,用合成數據訓練的模型很難推廣到真實數據。本文將這兩個領域之間的根本差異作為紋理,提出了一種自適應目標域紋理的方法。首先,我們使用樣式轉移算法使合成圖像的紋理多樣化。合成圖像的各種紋理防止分割模型過擬合到一個特定(合成)紋理。然后,通過自訓練對模型進行微調,得到對目標紋理的直接監督。我們的結果達到了最先進的性能,并通過大量的實驗分析了在多樣化數據集上訓練的模型的性質。
網址:
作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou
摘要:域自適應圖像檢索包括單域檢索和跨域檢索。現有的圖像檢索方法大多只關注單個域的檢索,假設檢索數據庫和查詢的分布是相似的。然而,在實際應用中,通常在理想光照/姿態/背景/攝像機條件下獲取的檢索數據庫與在非受控條件下獲得的查詢之間的差異很大。本文從實際應用的角度出發,重點研究跨域檢索的挑戰性問題。針對這一問題,我們提出了一種有效的概率加權緊湊特征學習(PWCF)方法,它提供域間相關性指導以提高跨域檢索的精度,并學習一系列緊湊二進制碼(compact binary codes)來提高檢索速度。首先,我們通過最大后驗估計(MAP)推導出我們的損失函數:貝葉斯(BP)誘發的focal-triplet損失、BP誘發的quantization損失和BP誘發的分類損失。其次,我們提出了一個通用的域間復合結構來探索域間的潛在相關性。考慮到原始特征表示因域間差異而存在偏差,復合結構難以構造。因此,我們從樣本統計的角度提出了一種新的特征—鄰域直方圖特征(HFON)。在不同的基準數據庫上進行了大量的實驗,驗證了我們的方法在領域自適應圖像檢索中的性能優于許多最先進的圖像檢索方法。
網址:
代碼鏈接:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。
網址: //arxiv.org/pdf/2003.14111.pdf
代碼鏈接: github.com/kenziyuliu/ms-g3d
2. DPGN: Distribution Propagation Graph Network for Few-shot Learning
作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu
摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。
網址:
代碼鏈接:
3. Geometrically Principled Connections in Graph Neural Networks
作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou
摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。
網址:
4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks
作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen
摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。
網址:
代碼鏈接:
補充材料:
5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址:
題目: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
摘要: 細粒度動作識別數據集表現出環境偏差,其中多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練一個模型,然后部署到另一個環境中,由于不可避免的領域轉換,會導致性能下降。無監督域適應(UDA)方法經常用于源域和目標域之間的對抗訓練。然而,這些方法并沒有探索視頻在每個領域的多模態性質。在這個工作我們利用模式的通信作為UDA self-supervised對齊的方法除了敵對的對齊(圖1),我們測試我們的方法在三個廚房從大規模的數據集,EPIC-Kitchens,使用兩種方法通常用于行為識別:RGB和光學流。結果表明,多模態的自監督比單純的訓練平均提高了2.4%。然后我們將對抗訓練與多模態自我監督相結合,結果表明我們的方法比其他的UDA方法高3%。
人工智能領域的頂會AAAI 2020將在2020年2月7日-12日在美國紐約舉行。據官方統計消息,AAAI 2020今年共收到的有效論文投稿超過 8800 篇,其中 7737 篇論文進入評審環節,最終收錄數量為 1591 篇,接收率 20.6%。開會在即,專知小編提前整理了AAAI 2020圖神經網絡(GNN)相關的接收論文,讓大家先睹為快——跨模態、部分標簽學習、交通流預測、少樣本學習、貝葉斯圖神經網絡。
作者:Renchun You, Zhiyao Guo, Lei Cui, Xiang Long, Yingze Bao, Shilei Wen
摘要:多標簽圖像和視頻分類是計算機視覺中最基本也是最具挑戰性的任務。主要的挑戰在于捕獲標簽之間的空間或時間依賴關系,以及發現每個類的區別性特征的位置。為了克服這些挑戰,我們提出將語義圖嵌入的跨模態注意力機制用于多標簽分類。基于所構造的標簽圖,我們提出了一種基于鄰接關系的相似圖嵌入方法來學習語義標簽嵌入,該方法顯式地利用了標簽之間的關系。在學習標簽嵌入的指導下,生成我們新穎的跨模態注意力圖。在兩個多標簽圖像分類數據集(MS-COCO和NUS-WIDE)上的實驗表明,我們的方法優于其他現有的方法。此外,我們在一個大的多標簽視頻分類數據集(YouTube-8M Segments)上驗證了我們的方法,評估結果證明了我們的方法的泛化能力。
網址: //arxiv.org/abs/1912.07872
作者:Brian Chen, Bo Wu, Alireza Zareian, Hanwang Zhang, Shih-Fu Chang
摘要:我們提出了一個實際但有挑戰性的問題: 通用部分標簽學習(General Partial Label Learning,GPLL)。相比傳統的部分標簽學習(Partial Label Learning,PLL)問題, GPLL將監督假設從從實例級別(標簽集部分標記一個實例)放到了組級別: 1)標簽集部分標簽了一組實例, 其中組內 instance-label link annotations 丟失, 2)組間的link是允許的——組中的實例可以部分鏈接到另一個組中的標簽集。這種模糊的組級監督在實際場景中更實用,因為不再需要實例級的附加標注,例如,在視頻中組由一個幀中的人臉組成,并在相應的標題中使用名稱集進行標記,因此不再需要對實例級進行命名。本文提出了一種新的圖卷積網絡(GCN)——Dual Bipartite Graph Autoencoder (DB-GAE)來解決GPLL的標簽模糊問題。首先,我們利用組間的相互關系將實例組表示為dual bipartite圖:組內圖和組間圖,它們相互補充以解決鏈接的歧義。其次,我們設計了一個GCN自動編碼器來對它們進行編碼和解碼,其中的解碼被認為是經過改進的結果。值得注意的是DB-GAE是自監督和轉導的,因為它只使用組級的監督,而沒有單獨的offline訓練階段。對兩個真實數據集的大量實驗表明,DB-GAEG跟最佳baseline相比有著絕對的提升,0.159 的F1 score和24.8%的accuracy。我們還進一步分析了標簽歧義的各個層次。
網址:
作者:Chuanpan Zheng, Xiaoliang Fan, Cheng Wang, Jianzhong Qi
摘要:由于交通系統的復雜性和影響因素的不斷變化,長期的交通預測具有很大的挑戰性。在本文中,我們以時空因素為研究對象,提出了一種多注意力圖網絡(graph multi-attention network ,GMAN)來預測道路網絡圖中不同位置的時間步長的交通狀況。GMAN采用了一種encoder-decoder結構,其中編碼器和解碼器都由多個時空注意力塊組成,以模擬時空因素對交通條件的影響。編碼器對輸入流量特征進行編碼,解碼器對輸出序列進行預測。在編碼器和解碼器之間,應用轉換注意力層來轉換已編碼的流量特征,以生成未來時間步長的序列表示作為解碼器的輸入。轉換注意力機制模擬了歷史時間步長與未來時間步長之間的直接關系,有助于緩解預測時間步長之間的誤差傳播問題。在兩個現實世界中的交通預測任務(即交通量預測和交通速度預測)上的實驗結果證明了GMAN的優越性。特別地,在提前1個小時的預測中,GMAN的MAE指標提高了4%,優于最新技術。源代碼可在
網址:
作者:Huaxiu Yao, Chuxu Zhang, Ying Wei, Meng Jiang, SuhangWang, Junzhou Huang, Nitesh V. Chawla, Zhenhui Li
摘要:對于具有挑戰性的半監督節點分類問題,已經進行了廣泛的研究。圖神經網絡(GNNs)作為一個前沿領域,近年來引起了人們極大的興趣。然而,大多數GNN具有較淺的層,接收域有限,并且可能無法獲得令人滿意的性能,特別是在標記節點數量很少的情況下。為了解決這一問題,我們創新性地提出了一種基于輔助圖的先驗知識的graph few-shot learning (GFL)算法,以提高目標圖的分類精度。具體來說,輔助圖與目標之間共享一個可遷移的度量空間,該空間以節點嵌入和特定于圖的原型嵌入函數為特征,便于結構知識的傳遞。對四個真實世界圖數據集的大量實驗和消融研究證明了我們提出的模型的有效性以及每個組件的貢獻。
網址:
作者:Yongfei Liu, Bo Wan, Xiaodan Zhu, Xuming He
摘要:Visual grounding是許多視覺語言任務中普遍存在的一個基本單元,但由于grounding實體的視覺和語言特征的巨大差異、強大的語境效應以及由此產生的語義歧義,visual grounding仍然具有挑戰性。以前的研究主要集中在學習單個短語在有限的語境信息下的表達。針對其局限性,本文提出了一種languageguided graph representation表示方法來捕獲grounding實體的全局上下文及其關系,并針對多短語visual grounding任務開發了一種跨模態圖匹配策略。特別地,我們引入一個模塊化圖神經網絡,通過消息傳播分別計算短語和目標建議的上下文感知表示,然后引入一個基于圖的匹配模塊來生成全局一致的基礎短語定位。我們在兩階段策略中聯合訓練整個圖神經網絡,并在Flickr30K Entities基準上對其進行評估。大量的實驗表明,我們的方法比之前的技術有相當大的優勢,證明了我們的基礎框架的有效性。代碼可以在 找到。
網址:
作者:Yadan Luo, Zi Huang, Zheng Zhang, Ziwei Wang, Mahsa Baktashmotlagh, Yang Yang
摘要:元學習(Meta-learning)用于few-shot learning,允許機器利用以前獲得的知識作為優先級,從而在只有少量數據的情況下提高新任務的性能。然而,大多數主流模型都存在災難性遺忘和魯棒性不足的問題,因此不能充分保留或利用長期知識,同時容易導致嚴重的錯誤累積。本文提出了一種新的基于貝葉斯圖神經網絡(CML-BGNN)的連續元學習方法。通過將每個任務形成一個圖,可以通過消息傳遞和歷史遷移很好地保存任務內部和任務間的相關性。為了解決圖初始化過程中的拓撲不確定性問題,我們使用了Bayes by Backprop算法,該算法利用amortized推理網絡逼近任務參數的后驗分布,并將其無縫地集成到端到端邊緣學習中。在miniImageNet和tieredImageNet數據集上進行的大量實驗證明了該方法的有效性和效率,與最先進的miniImageNet 5-way 1-shot分類任務相比,性能提高了42:8%。
網址:
作者:Wei Li, Shaogang Gong, Xiatian Zhu
摘要:現有的神經體系結構搜索((NAS))方法往往直接在離散空間或連續空間中進行搜索,忽略了神經網絡的圖形拓撲知識。考慮到神經網絡本質上是有向無環圖(DAG),這會導致搜索性能和效率欠佳。在這項工作中,我們通過引入一種新的神經圖嵌入(NGE)思想來解決這個限制。具體來說,我們用神經DAG表示神經網絡的構建塊(即cell),并利用圖卷積網絡來傳播和建模網絡結構的固有拓撲信息。這導致可與現有的不同NAS框架集成的通用神經網絡表示。大量實驗表明,在圖像分類和語義分割方面,NGE優于最新方法。
網址:
作者:Songtao He, Favyen Bastani, Satvat Jagwani, Edward Park, Sofiane Abbar, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Samuel Madden, Mohammad Amin Sadeghi
摘要:從衛星圖像中推斷道路屬性(例如車道數和道路類型)是一項挑戰。通常,由于衛星圖像的遮擋和道路屬性的空間相關性,僅當考慮道路的較遠路段時,道路上某個位置的道路屬性才可能是顯而易見的。因此,為了魯棒地推斷道路屬性,模型必須整合分散的信息,并捕捉道路沿線特征的空間相關性。現有的解決方案依賴于圖像分類器,無法捕獲這種相關性,導致準確性較差。我們發現這種失敗是由于一個基本的限制–圖像分類器的有效接受范圍有限。
為了克服這一局限性,我們提出了一種結合卷積神經網絡(CNNs)和圖神經網絡(GNNs)來推斷道路屬性的端到端體系結構RoadTagger。使用GNN允許信息在路網圖上傳播,消除了圖像分類器的接收域限制。我們在一個覆蓋美國20個城市688平方公里面積的大型真實數據集和一個綜合數據集上對RoadTagger進行了評估。在評估中,與基于CNN圖像分類器的方法相比,RoadTagger提高了推理的準確性。此外,RoadTagger對衛星圖像的中斷具有較強的魯棒性,能夠學習復雜的inductive rule來聚合道路網絡上分散的信息。
網址:
【導讀】最近小編推出CVPR2019圖卷積網絡、CVPR2019生成對抗網絡、【可解釋性】,CVPR視覺目標跟蹤,CVPR視覺問答,醫學圖像分割,圖神經網絡的推薦相關論文,反響熱烈。最近,Domain Adaptation(域自適應)相關研究非常火熱,一部分也是由于GAN、GNN以及其他一些的網絡結構的啟發,基于Domain Adaptation的工作在今年CVPR 2019上出現了大量的論文。今天小編專門整理最新九篇Domain Adaptation(域自適應)—類別級對抗、域對稱網絡、可遷移原型網絡、可遷移原型網絡、通用域自適應等。
DANN-梯度反轉層
1、Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation(域遷移: 類別級對抗用于語義一致的域自適應)
CVPR ’19 Oral
作者:Yawei Luo, Liang Zheng, Tao Guan, Junqing Yu, Yi Yang
摘要:我們考慮了語義分割中的無監督域自適應問題。該任務的關鍵在于減少域遷移,即,強制兩個域的數據分布相似。一種流行的策略是通過對抗學習來對齊特征空間的邊緣分布。但是,這種全局對齊策略不考慮局部類別的特征分布。全局遷移的一個可能結果是,一些原本在源域和目標域之間很好地對齊的類別可能被錯誤地映射。為了解決這一問題,本文引入了一種類別級的對抗網絡,旨在在全局對齊的趨勢下增強局部語義一致性。我們的想法是仔細研究類級別的數據分布,并將每個類與自適應的對抗損失對齊。具體地說,我們減少了類級別對齊特征的對抗性損失的權重,同時增加了對齊較差的特征的對抗性。在這個過程中,我們通過一種聯合訓練方法來決定一個特征在源域和目標域之間的類別級對齊程度。在兩個領域適應任務中,即GTA5 - > Cityscapes和SYNTHIA - > Cityscapes,我們驗證所提出的方法在分割準確性方面與現有技術相匹配。
網址:
代碼鏈接:
2、AdaGraph: Unifying Predictive and Continuous Domain Adaptation through Graphs(AdaGraph: 通過圖形統一預測和連續域自適應)
CVPR ’19 Oral
作者:Massimiliano Mancini, Samuel Rota Bulò, Barbara Caputo, Elisa Riccici
摘要:分類能力是視覺智能的基石,也是人工自主視覺機器的關鍵功能。 如果沒有能夠適應和概括跨視域的算法,這個問題將永遠無法解決。在域自適應和泛化的背景下,本文重點研究預測域自適應場景,即沒有目標數據可用的情況下,系統必須學習從帶注釋的源圖像和來自輔助域的帶關聯元數據的未標記樣本進行泛化。我們的貢獻是第一個解決預測域適應的深層架構,能夠通過圖利用輔助域帶來的信息。此外,我們提出了一種簡單而有效的策略,允許我們在測試時在連續的域適應場景中利用傳入的目標數據。在三個基準數據庫上的實驗支持驗證了我們的方法的價值。
網址:
3、Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation(基于Sliced Wasserstein Discrepancy的無監督域自適應)
CVPR ’19
作者:Chen-Yu Lee, Tanmay Batra, Mohammad Haris Baig, Daniel Ulbricht
摘要:在這項工作中,我們將兩個不同的無監督域自適應概念連接起來:利用特定于任務的決策邊界和Wasserstein度量在域之間進行特征分布對齊。我們提出的Sliced Wasserstein Discrepancy (SWD)旨在捕捉任務特定分類器輸出之間的自然差異概念。它提供了一個幾何上有意義的指導來檢測遠離源支持的目標樣本,并以端到端可訓練的方式實現有效的分布對齊。在實驗中,我們驗證了該方法在數字和符號識別、圖像分類、語義分割和目標檢測等方面的有效性和通用性。
網址:
4、Domain-Symmetric Networks for Adversarial Domain Adaptation(用于對抗域自適應的域對稱網絡)
CVPR ’19
作者:Yabin Zhang, Hui Tng, Kui Jia, Mingkui Tan
摘要:無監督域自適應是在給定源域上有標記樣本訓練數據的情況下,學習目標域上未標記樣本的分類器模型。最近,通過對深度網絡的域對抗訓練來學習不變特征,取得了令人矚目的進展。盡管近年來的研究取得了一定的進展,但域自適應在較細類別水平上實現特征分布的不變性方面仍然存在一定的局限性。為此,本文提出了一種新的域自適應方法——域對稱網絡(SymNets)。SymNet是基于源域和目標域任務分類器的對稱設計,在此基礎上,我們還構造了一個額外的分類器,與它們共享其層神經元。為了訓練SymNet, 我們提出了一種新穎的對抗學習目標函數,其關鍵設計是基于一個two-level域混淆方案, 通過推動中間網絡特征的學習,類級別的混淆損失在域級別上得到改善。在構造的附加分類器的基礎上,實現了域識別和域混淆。由于目標域樣本是無標記的,我們還提出了一種跨域訓練的方法來幫助學習目標分類器。仔細的消融研究表明我們提出的方法是有效的。特別是,基于常用的基本網絡,我們的symnet在三個基準域自適應數據集上實現了最新的技術水平。
網址:
5、Transferrable Prototypical Networks for Unsupervised Domain Adaptation(基于可遷移原型網絡的無監督域自適應)
CVPR'19 Oral
作者:Yingwei Pan, Ting Yao, Yehao Li, Yu Wang, Chong-Wah Ngo, Tao Mei
摘要:本文提出了一種通過重構原型網絡實現無監督域自適應的新方法,該方法通過學習嵌入空間,通過重構每個類到原型的距離進行分類。具體地說,我們提出了可遷移原型網絡(TPN)的自適應算法,使源域和目標域的每個類的原型在嵌入空間上接近,并且原型在源域和目標域數據上分別預測的得分分布是相似的。從技術上講,TPN最初將每個目標域示例與源域中最近的原型匹配,并為一個示例分配一個“偽”標簽。每個類的原型可以分別在純源域、純目標域和純源目標域數據上計算。TPN的優化是通過在三種數據上聯合最小化原型之間的距離和由每對原型輸出的得分分布的KL -散度來進行端到端訓練的。對MNIST、USPS和SVHN數據集之間的遷移進行了廣泛的實驗,與最先進的方法相比,報告了更好的結果。更值得注意的是,我們在VisDA 2017數據集上獲得了80.4%的單模型準確度。
網址:
6、Contrastive Adaptation Network for Unsupervised Domain Adaptation(基于對比自適應網絡的無監督域自適應)
CVPR'19
作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G Hauptmann
摘要:無監督域自適應(UDA)對目標域數據進行預測,而手工標注只在源域中可用。以往的方法在忽略類信息的情況下,最大限度地減小了域間的差異,從而導致了不一致和泛化性能差。為了解決這一問題,本文提出了一種新的比較自適應網絡(CAN)優化度量,它明確地對類內域和類間域的差異進行了建模。我們設計了一種交替的更新策略,以端到端方式訓練CAN。在office31和VisDA-2017這兩個真實世界基準測試上的實驗表明,相對于最先進的方法,該方法可以獲得更好的性能,并產生更多的區別性特征。
網址:
7、Universal Domain Adaptation(通用域自適應)
CVPR ’19
作者:Kaichao You, Mingsheng Long, Zhangjie Cao, Jianmin Wang, and Michael I. Jordan
摘要:域適應的目的是在存在域差距的情況下遷移知識。現有的域自適應方法依賴于對源域和目標域的標簽集之間關系的豐富先驗知識,這極大地限制了它們在實際中的應用。本文介紹了一種不需要標簽集先驗知識的通用域自適應算法(UDA)。對于給定的源域標簽集和目標域標簽集,它們可能分別包含一個公共標簽集和一個私有標簽集,從而帶來額外的類別差異。UDA要求一個模型 (1)正確地分類目標樣本,如果它與公共標簽集中的標簽相關聯,或者 (2) 將其標記為“未知”。更重要的是,UDA模型應該能夠穩定地應對廣泛的共性(通用標簽集在整個標簽集上的比例),以便它可以處理未知目標域標簽集的實際問題。為了解決通用域適應問題,提出了通用域適應網絡(UAN)。它量化了發現通用標簽集和對每個域私有的標簽集的樣本級可遷移性,從而促進了自動發現的通用標簽集的適應性,并成功地識別了“未知”樣本。全面的評價表明,在新穎的UDA設置中,UAN優于現有技術的閉集、部分域和開放域自適應方法。
網址:
代碼鏈接:
8、Learning to Transfer Examples for Partial Domain Adaptation(基于樣例轉移網絡的部分域自適應)
CVPR ’19
作者:Zhangjie Cao, Kaichao You, Mingsheng Long, Jianmin Wang, Qiang Yang
摘要:域自適應對于在新的未知環境中學習至關重要。通過領域對抗訓練,深度網絡可以學習可遷移的特征,從而有效地減少用于知識遷移的源域和目標域之間的數據集轉移。在大數據時代,大規模標記數據集的可用性引起了人們對局部域適應(PDA)的廣泛興趣,PDA將識別器從標記的大域遷移到未標記的小域。它將標準域適應擴展到目標域標簽只是源域標簽子集的場景。在目標域標簽未知的情況下,PDA的關鍵挑戰是如何在共享類中傳遞相關的例子來促進正遷移,而忽略特定類中不相關的例子來減少負遷移。在這項工作中,我們提出一個統一的PDA方法—Example Transfer Network (ETN), 共同學習源域和目標域的域不變表示和加權方案, 量化的可遷移源域示例同時控制他們對目標領域中的學習任務的重要性。對幾個基準數據集的全面評估表明,我們的方法可以為部分域自適應任務實現最先進的結果。
網址:
9、Geometry-Aware Symmetric Domain Adaptation for Monocular Depth Estimation(基于幾何感知對稱域自適應的單眼深度估計)
作者:Shanshan Zhao, Huan Fu, Mingming Gong, Dacheng Tao
摘要:先進的深度網絡體系結構使得監督深度估計具有較高的精度。由于groundtruth深度標簽難以獲取,近年來的方法試圖通過非監督線索來學習深度估計網絡,這種方法雖然有效,但不如真實標簽可靠。解決這一難題的一種新方法是通過域自適應技術從具有groundtruth深度的合成圖像中遷移知識。然而,這些方法忽略了目標域內自然圖像的特定幾何結構(即,真實數據),這對于高性能的深度預測非常重要。在此基礎上,我們提出了一種基于幾何感知的對稱域自適應框架(GASDA),用于研究合成數據和真實數據中的超極幾何標記。此外,通過在端到端網絡中對稱地訓練兩個圖像樣式轉換器和深度估計器,我們的模型實現了更好的圖像樣式轉換,生成了高質量的深度圖。實驗結果證明了該方法的有效性,并與現有方法進行了比較。我們的代碼在:
網址:
代碼鏈接:
下載鏈接: 提取碼:crqk
計算機視覺頂會 CVPR 2019 的論文接前幾天公布了接受論文:在超過 5100 篇投稿中,共有 1300 篇被接收,達到了接近 25.2% 的接收率。近期結合圖卷積網絡相關的應用論文非常多,CVPR最新發布的論文也有很多篇,專知小編專門整理了最新五篇圖卷積網絡相關視覺應用論文—零樣本學習、姿態估計、人臉聚類、交互式目標標注和視頻異常檢測。
1、Rethinking Knowledge Graph Propagation for Zero-Shot Learning(零樣本學習中知識圖傳播的再思考)
作者:Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing
摘要:最近,圖卷積神經網絡在零樣本學習任務中顯示出了巨大的潛力。這些模型具有高度的采樣效率,因為圖結構中的相關概念共享statistical strength,允許在缺少數據時對新類進行泛化。然而,由于多層架構需要將知識傳播到圖中較遠的節點,因此在每一層都進行了廣泛的拉普拉斯平滑來稀釋知識,從而降低了性能。為了仍然享受圖結構帶來的好處,同時防止遠距離節點的知識被稀釋,我們提出了一種密集圖傳播(DGP)模塊,該模塊在遠端節點之間精心設計了直接鏈接。DGP允許我們通過附加連接利用知識圖的層次圖結構。這些連接是根據節點與其祖先和后代的關系添加的。為了提高圖中信息的傳播速度,進一步采用加權方案,根據到節點的距離對它們的貢獻進行加權。結合兩階段訓練方法中的表示的微調,我們的方法優于目前最先進的零樣本學習方法。
網址: //www.zhuanzhi.ai/paper/dd4945166583a26685faaad5322162f0
代碼鏈接:
2、3D Hand Shape and Pose Estimation from a Single RGB Image(單一RGB圖像的3D手形和姿態估計)
CVPR 2019 Oral
作者:Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, Junsong Yuan
摘要:這項工作解決了一個新穎且具有挑戰性的問題,從單一RGB圖像估計完整3D手形和姿勢。目前對單目RGB圖像進行三維手部分析的方法大多只注重對手部關鍵點的三維位置進行估計,無法完全表達手部的三維形態。相比之下,我們提出了一種基于圖卷積神經網絡(Graph CNN)的方法來重建一個完整的手部三維網格,其中包含了更豐富的手部三維形狀和姿態信息。為了訓練具有完全監督的網絡,我們創建了一個包含ground truth三維網格和三維姿態的大規模合成數據集。當在真實世界數據集上微調網絡時(沒有三維ground truth),我們提出了一種利用深度圖作為訓練弱監督的方法。通過對所提出的新數據集和兩個公共數據集的廣泛評估,表明我們所提出的方法能夠生成準確合理的三維手部網格,與現有方法相比,能夠獲得更高的三維手部姿態估計精度。
網址:
代碼鏈接:
3、Linkage Based Face Clustering via Graph Convolution Network(通過圖卷積網絡實現基于鏈接的人臉聚類)
作者:Zhongdao Wang,Liang Zheng,Yali Li,Shengjin Wang
摘要:本文提出了一種精確、可擴展的人臉聚類方法。我們的目標是根據一組人臉的潛在身份對它們進行分組。我們將這個任務描述為一個鏈接預測問題:如果兩個面孔具有相同的身份,那么它們之間就存在一個鏈接。關鍵思想是,我們在實例(face)周圍的特征空間中找到本地上下文,其中包含關于該實例及其鄰居之間鏈接關系的豐富信息。通過將每個實例周圍的子圖構造為描述局部上下文的輸入數據,利用圖卷積網絡(GCN)進行推理,并推斷出子圖中對之間鏈接的可能性。實驗表明,與傳統方法相比,我們的方法對復雜的人臉分布具有更強的魯棒性,在標準人臉聚類基準測試上與最先進的方法具有良好的可比性,并且可擴展到大型數據集。此外,我們證明了該方法不像以前那樣需要事先知道簇的數量,能夠識別噪聲和異常值,并且可以擴展到多視圖版本,以獲得更精確的聚類精度。
網址:
4、Fast Interactive Object Annotation with Curve-GCN(使用Curve-GCN進行快速交互式目標標注)
作者:Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, Sanja Fidler
摘要:通過跟蹤邊界來手動標記對象是一個繁重的過程。 在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN體系結構以一種循環的方式生成多邊形注釋,允許通過人在環中進行交互式校正。我們提出了一個新的框架,通過使用圖卷積網絡(GCN)同時預測所有頂點,減輕了Polygon-RNN的時序性。我們的模型是端到端訓練的。 它支持多邊形或樣條線的對象標注,從而提高了基于線和曲線對象的標注效率。 結果表明,在自動模式下,curv- gcn的性能優于現有的所有方法,包括功能強大的PSP-DeepLab,并且在交互模式下,curv - gcn的效率明顯高于Polygon-RNN++。我們的模型在自動模式下運行29.3ms,在交互模式下運行2.6ms,比polyicon - rnn ++分別快10倍和100倍。
網址:
代碼鏈接:
5、Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection(圖卷積標簽噪聲清除器: 訓練用于異常檢測的Plug-and-play行為分類器)
作者:Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H. Li, Ge Li
摘要:在以往的工作中,弱標簽下的視頻異常檢測被描述為一個典型的多實例學習問題。在本文中,我們提供了一個新的視角,即在嘈雜標簽下的監督學習任務。在這樣的觀點中,只要去除標簽噪聲,就可以直接將全監督的動作分類器應用到弱監督異常檢測中,并最大限度地利用這些完善的分類器。為此,我們設計了一個圖卷積網絡來校正噪聲標簽。基于特征相似性和時間一致性,我們的網絡將監控信號從高置信度的片段傳播到低置信度的片段。以這種方式,網絡能夠為動作分類器提供清潔的監督。在測試階段,我們只需要從動作分類器獲得片段預測,而無需任何額外的后處理。使用2種類型的動作分類器對3個不同尺度的數據集進行了大量實驗,證明了我們的方法的有效性。值得注意的是,我們在UCF-Crime上獲得了82.12%的幀級AUC分數。
網址:
代碼鏈接:
下載鏈接: 提取碼:34p8