1、DeepGCNs:Can GCNs Go as Deep as CNNs
作者:Guohao Li , Matthias Müller , Ali Thabet Bernard Ghanem;
摘要:卷積神經網絡(CNNs)在廣泛的領域中取得了令人印象深刻的性能。他們的成功得益于一個巨大的推動,當非常深入的CNN模型能夠可靠的訓練。盡管CNNs有其優點,但它不能很好地解決非歐幾里德數據的問題。為了克服這一挑戰,圖形卷積網絡(GCNS)構建圖形來表示非歐幾里德數據,借用CNNs的概念,并將它們應用于訓練。GCNs顯示出有希望的結果,但由于消失梯度問題,它們通常僅限于非常淺的模型(見圖1)。因此,最先進的GCN模型不超過3層或4層。在這項工作中,我們提出了新的方法來成功地訓練非常深的GCNs。我們通過借鑒CNNs的概念來做到這一點,特別是剩余/密集連接和擴展卷積,并將它們應用到GCN架構中。大量的實驗證明了這些深度GCN框架的積極作用。最后,我們使用這些新的概念來構建一個非常深的56層GCN,并展示了它如何在點云語義分割任務中顯著提升性能(+ 3.7% Miou-Unice狀態)。我們相信公眾可以從這項工作中受益,因為它為推進基于GCN的研究提供了許多機會。
網站: //www.zhuanzhi.ai/paper/c1e02bdee9efe20fd0a53d23883901c3
2、Dynamic Graph Attention for Referring Expression Comprehension
作者:Sibei Yang, Guanbin Li, Yizhou Yu;
摘要:引用表達式理解的目的是在圖像中定位由自然語言描述的對象實例。這項任務是合成的,本質上需要在圖像中對象之間關系的基礎上進行視覺推理。同時,視覺推理過程是由指稱表達式的語言結構來指導的。然而,現有的方法孤立地對待對象,或者只探索對象之間的一階關系,而不與表達式的潛在復雜性對齊。因此,他們很難適應復雜的參考表達的基礎。本文從語言驅動的視覺推理的角度,探討了表達理解的問題,并提出了一種動態圖形注意力網絡,通過對圖像中的對象之間的關系和表達的語言結構進行建模來進行多步推理。特別地,我們構造了具有對應于對象和它們的關系的節點和邊緣的圖像,提出了一種差分分析器來預測語言制導的視覺推理過程,并在圖的頂部執行逐步推理,以更新每個節點上的復合對象表示。實驗結果表明,所提出的方法在三個共同的基準數據集不僅可以顯著超越所有現有的最先進的算法,而且還能產生可解釋的視覺證據,以逐步定位復雜的語言描述的對象。
網址:
3、Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
作者:Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song-Chun Zhu;
摘要:本文從原子層次和事件層次兩個方面探討了社會視頻中人的注釋交流這一新問題,對研究人類的社會互動具有重要意義。為了解決這一新穎而具有挑戰性的問題,我們貢獻了一個大規模的視頻數據集,VACATION,涵蓋不同的日常社會場景和注釋交流行為,并在原子級和事件級對物體和人臉、人類注意力、交流結構和標簽進行了完整的注釋。結合VACATION,我們提出了一個時空圖神經網絡,明確地表示社會場景中不同的注釋交互,并通過消息傳遞來推斷原子級的注視交流。在此基礎上,進一步提出了一種基于編碼-解碼器結構的事件網絡來預測事件級注視通信。我們的實驗表明,該模型在預測原子級和事件級注釋通信時顯著地改進了各種基線。
網址:
4、SceneGraphNet Neural Message Passing for 3D Indoor Scene Augmentation
作者:Yang Zhou, Zachary While, Evangelos Kalogerakis;
摘要:在本文中,我們提出了一種神經消息傳遞方法,以增加輸入三維室內場景中與周圍環境匹配的新對象。給定一個輸入,可能是不完整的,三維場景和一個查詢位置(圖1),我們的方法預測在該位置上適合的對象類型上的概率分布。我們的分布是通過在稠密圖中傳遞學習信息來預測的,其節點表示輸入場景中的對象,并且邊緣表示空間和結構關系。通過一個注意力機制對消息進行加權,我們的方法學會將注意力集中在最相關的周圍場景上下文,從而預測新的場景對象。基于我們在SUNCG數據集中的實驗,我們發現我們的方法在正確預測場景中丟失的對象方面明顯優于最先進的方法。我們還演示了我們的方法的其他應用,包括基于上下文的3D對象識別和迭代場景生成。
網址:
5、Language-Conditioned Graph Networks for Relational Reasoning
作者:Ronghang Hu, Anna Rohrbach, Trevor Darrell, Kate Saenko ;
摘要:解決基于語言任務通常需要對給定任務上下文中對象之間的關系進行推理。例如,要回答盤子上的杯子是什么顏色??我們必須檢查特定杯子的顏色,以滿足盤子上的關系。最近的工作提出了各種復雜關系推理的方法。然而,它們的能力大多在推理結構上,而場景則用簡單的局部外觀特征來表示。在本文中,我們采取另一種方法,建立一個視覺場景中的對象的上下文化表示,以支持關系推理。我們提出了一個通用的語言條件圖網絡(LCGN)框架,其中每個節點代表一個對象,并通過文本輸入的迭代消息傳遞來描述相關對象的感知表示。例如,調節與plate的on關系,對象mug收集來自對象plate的消息,以將其表示更新為mug on the plate,這可以很容易地被簡單分類器用于答案預測。我們的實驗表明,我們的LCGN方法有效地支持關系推理,并在多個任務和數據集上提高了性能。我們的代碼可以在
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。為此,專知小編提前為大家整理了五篇CVPR 2020場景圖神經網絡(SGNN)相關論文,讓大家先睹為快——3D語義分割、指代表達式推理、圖像描述生成、圖像處理、時空圖。
WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
1. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions
作者:Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari
摘要:場景理解(scene understanding)一直是計算機視覺領域的研究熱點。它不僅包括識別場景中的對象,還包括識別它們在給定上下文中的關系。基于這一目標,最近的一系列工作解決了3D語義分割和場景布局預測問題。在我們的工作中,我們關注場景圖,這是一種在圖中組織場景實體的數據結構,其中對象是節點,它們的關系建模為邊。我們利用場景圖上的推理作為實現3D場景理解、映射對象及其關系的一種方式。特別地,我們提出了一種從場景的點云回歸場景圖的學習方法。我們的新體系結構是基于PointNet和圖卷積網絡(GCN)的。此外,我們還介紹了一個半自動生成的數據集3DSSG,它包含了語義豐富的三維場景圖。我們展示了我們的方法在一個領域無關的檢索任務中的應用,其中圖作為3D-3D和2D-3D匹配的中間表示。
網址:
//arxiv.org/pdf/2004.03967.pdf
2. Graph-Structured Referring Expression Reasoning in The Wild
作者:Sibei Yang, Guanbin Li, Yizhou Yu
摘要:Grounding referring expressions的目標是參照自然語言表達式在圖像中定位一個目標。指代表達式(referring expression)的語言結構為視覺內容提供了推理的布局,并且該結構對于校準和共同理解圖像與指代表達式是十分重要的。本文提出了一種場景圖引導的模塊化網絡(SGMN),它在表達式的語言結構指導下,用神經模塊對語義圖和場景圖進行推理。特別地,我們將圖像(image)建模為結構化語義圖,并將表達式解析為語言場景圖。語言場景圖不僅對表達式的語言結構進行解碼,而且與圖像語義圖具有一致的表示。除了探索指代表達式基礎的結構化解決方案外,我們還提出了Ref-Reasning,一個用于結構化指代表達式推理的大規模真實數據集。我們使用不同的表達式模板和函數式程序自動生成圖像場景圖上的指代表達式。該數據集配備了真實世界的可視化內容以及具有不同推理布局的語義豐富的表達式。實驗結果表明,SGMN不僅在新的Ref-Reasning數據集上的性能明顯優于現有的算法,而且在常用的基準數據集上也超過了最先進的結構化方法。它還可以為推理提供可解釋的可視化證據。
網址:
代碼鏈接:
3. Say As Y ou Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
作者:Shizhe Chen, Qin Jin, Peng Wang, Qi Wu
摘要:人類能夠隨心所欲地用粗到細的細節來描述圖像內容。然而,大多數圖像字幕模型是意圖不可知的(intention-agnostic),不能主動根據不同的用戶意圖生成各種描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,它們以圖像為基礎,沒有任何具體的語義標簽。因此,這些節點可以很容易通過手動或自動獲得。與在VisualGenome和MSCOCO數據集上精心設計的基線相比,我們的模型在ASG上實現了更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了字幕多樣性。
網址:
4. Semantic Image Manipulation Using Scene Graphs
作者:Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht
摘要:圖像處理可以被認為是圖像生成的特例,其中要生成的圖像是對現有圖像的修改。在很大程度上,圖像生成和處理都是對原始像素進行操作的任務。然而,在學習豐富的圖像和對象表示方面的顯著進展已經為主要由語義驅動的諸如文本到圖像或布局到圖像生成之類的任務開辟了道路。在我們的工作中,我們解決了從場景圖進行圖像處理的新問題,在該問題中,用戶可以僅通過對從圖像生成的語義圖的節點或邊進行修改來編輯圖像。我們的目標是對給定constellation中的圖像信息進行編碼,然后在此基礎上生成新的constellation,例如替換對象,甚至改變對象之間的關系,同時尊重原始圖像的語義和樣式。我們引入了空間語義場景圖網絡,該網絡不需要直接監督constellation變化或圖像編輯。這使得從現有的現實世界數據集中訓練系統成為可能,而無需額外的注釋工作。
網址:
代碼鏈接:
5. Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
作者:Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles
摘要:視頻描述生成是一項具有挑戰性的任務,需要對視覺場景有深刻的理解。最先進的方法使用場景級或對象級信息生成字幕,但沒有顯式建模對象交互。因此,它們通常無法做出基于視覺的預測,并且對虛假相關性敏感。在本文中,我們為視頻字幕提出了一種新穎的時空圖模型,該模型利用了時空中的對象交互作用。我們的模型建立了可解釋的連接,并且能夠提供明確的視覺基礎。為了避免對象數量變化帶來的性能不穩定,我們進一步提出了一種對象感知的知識提煉機制,該機制利用局部對象信息對全局場景特征進行正則化。通過在兩個基準上的廣泛實驗證明了我們的方法的有效性,表明我們的方法在可解釋的預測上產生了具有競爭力的性能。
網址:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址:
1、Graph Convolutional Networks using Heat Kernel for Semi-supervised Learning
作者:Bingbing Xu , Huawei Shen , Qi Cao , Keting Cen and Xueqi Cheng;
摘要:圖卷積網絡在圖結構數據的半監督學習中取得了顯著的成功。基于圖的半監督學習的關鍵是捕捉由圖結構施加于節點上的標簽或特征的平滑性。以往的方法,包括spectral方法和spatial方法,都致力于將圖卷積定義為相鄰節點上的加權平均,然后學習圖卷積核,利用平滑度來提高基于圖的半監督學習的性能。一個開放的挑戰是如何確定合適的鄰域來反映圖結構中表現出來的平滑相關信息。在本文中,我們提出了GraphHeat,利用heat kernel來增強低頻濾波器,并在圖上的信號變化中增強平滑性。GraphHeat利用熱擴散下目標節點的局部結構靈活地確定其相鄰節點,而不受先前方法所受的順序約束。GraphHeat在三個基準數據集(Cora、Citeseer和Pubmed)上實現了基于圖的半監督分類,并取得了最先進的結果。
網址://www.ijcai.org/proceedings/2019/0267.pdf
2、Graph WaveNet for Deep Spatial-Temporal Graph Modeling
作者:Zonghan Wu , Shirui Pan , Guodong Long, Jing Jiang, Chengqi Zhang;
摘要:時空圖(Spatial-temporal graph)建模是分析系統中各組成部分的空間關系和時間趨勢的一項重要工作。假設實體之間的底層關系是預先確定的,現有的方法主要捕獲固定圖結構上的空間依賴關系。但是,顯式圖形結構(關系)不一定反映真實的依賴關系,并且由于數據中的不完整連接可能會丟失真正的關系。此外,現有的方法無法捕捉時間趨勢,因為這些方法中使用的RNNs或CNNs不能捕捉long-range的時間序列。為了克服這些局限性,本文提出了一種新的圖神經網絡結構—Graph WaveNet,用于時空圖的建模。通過開發一種新的自適應依賴矩陣,并通過節點嵌入學習,該模型可以精確地捕捉數據中隱藏的空間依賴關系。利用stacked dilated一維卷積分量,其接收域隨著層數的增加呈指數增長,Graph WaveNet能夠處理非常長的序列。這兩個組件無縫集成在一個統一的框架中,整個框架以端到端方式學習。在METR-LA和PEMS-BAY這兩個公共交通網絡數據集上的實驗結果表明,該算法具有優越的性能。
網址:
3、Hierarchical Graph Convolutional Networks for Semi-supervised Node Classification
作者:Fenyu Hu, Yanqiao Zhu, Shu Wu, Liang Wang and Tieniu Tan;
摘要:圖卷積網絡(GCNs)已成功地應用于網絡挖掘的節點分類任務中。然而,這些基于鄰域聚合的模型大多比較淺顯,缺乏“graph pooling”機制,無法獲得足夠的全局信息。為了增加感受野,我們提出了一種新的深度層次圖卷積網絡(H-GCN)用于半監督節點分類。H-GCN首先重復地將結構相似的節點聚合到超節點,然后將粗糙的圖細化為原始圖,以恢復每個節點的表示形式。該粗糙化方法不只是簡單地聚合一個或兩個hop的鄰域信息,而是擴展了每個節點的接受域,從而獲得更多的全局信息。提出的H-GCN模型在各種公共基準圖數據集上表現出較強的經驗性能,性能優于目前最先進的方法,在精度方面獲得了高達5.9%的性能提升。此外,當只提供少量帶標簽的樣本時,我們的模型得到了實質性的改進。
網址:
4、AddGraph: Anomaly Detection in Dynamic Graph Using Attention-based Temporal GCN
作者:Li Zheng, Zhenpeng Li, Jian Li, Zhao Li and Jun Gao;
摘要:動態圖中的異常檢測在許多不同的應用場景中都是非常關鍵的,例如推薦系統,但由于異常的高靈活性和缺乏足夠的標記數據,也帶來了巨大的挑戰。在學習異常模式時,最好考慮所有可能的提示,包括結構、內容和時間特征,而不是對部分特征使用啟發式規則。在本文中,我們提出了AddGraph,一個使用extended temporal GCN(Graph Convolutional Network,圖卷積網絡)和注意力模型的端到端異常邊緣檢測框架,它可以同時捕獲動態圖中的長期模式和短期模式。為了解決顯式標注數據不足的問題,我們采用了選擇性負采樣和邊際損失的方法,對AddGraph進行半監督訓練。我們在實際數據集上進行了大量的實驗,并證明了AddGraph在異常檢測方面可以明顯優于最先進的方法。
網址:
5、Dual Self-Paced Graph Convolutional Network: Towards Reducing Attribute Distortions Induced by Topology
作者:Liang Yang, Zhiyang Chen, Junhua Gu and Yuanfang Guo;
摘要:基于圖卷積神經網絡(GCNNs)的半監督節點分類的成功,歸功于其拓撲上的特征平滑(傳播)。然而,利用拓撲信息可能會干擾特征。這種失真將導致節點的一定量的錯誤分類,這可以僅用特征正確地預測。通過分析邊緣在特征傳播中的影響,連接具有相似特征的兩個節點的簡單邊緣應該在訓練過程中優先于根據curriculum learning的復雜邊緣。為了在充分挖掘屬性信息潛力的同時減少拓撲結構引起的失真,我們提出了Dual Self-Paced圖卷積網絡(DSP-GCN)。具體來說,在節點級self-paced learning中,將具有可信預測標簽的無標簽節點逐步添加到訓練集中,而在邊緣級self-paced learning中,在訓練過程中,將邊緣從簡單的邊緣逐漸添加到復雜的邊緣到圖中。這兩種學習策略通過對邊緣和無標簽節點的選擇進行耦合,實現了相互增強。在多個實際網絡上進行了transductive半監督節點分類的實驗結果表明,我們提出的DSP-GCN在僅使用一個圖卷積層的情況下,成功地減少了拓撲引起的特征失真,同時具有較好的性能。
網址:
6、Masked Graph Convolutional Network
作者:Liang Yang, Fan Wu, Yingkui Wang, Junhua Gu and Yuanfang Guo;
摘要:半監督分類是機器學習領域中處理結構化和非結構化數據的一項基本技術。傳統的基于特征圖的半監督分類方法在通常由數據特征構造的圖上傳播標簽,而圖卷積神經網絡在真實圖拓撲上平滑節點屬性,即傳播特征。本文從傳播的角度對其進行了解釋,并將其分為基于對稱傳播和基于非對稱傳播的方法。從傳播的角度看,傳統的方法和基于網絡的方法都是在圖上傳播特定的對象。然而,與標簽傳播不同的是,直覺上“連接的數據樣本在特征方面趨于相似”,在特征傳播中僅部分有效。因此,提出了一種masked圖卷積網絡(Masked GCN),它只是根據一個masking indicator將一部分特征傳播給鄰居,這是通過聯合考慮局部鄰域中的特征分布和對對分類結果的影響而為每個節點學習的。在傳transductive和inductive節點分類任務上的大量實驗證明了該方法的優越性。
網址:
7、Learning Image-Specific Attributes by Hyperbolic Neighborhood Graph Propagation
作者:Xiaofeng Xu, Ivor W. Tsang, Xiaofeng Cao, Ruiheng Zhang and Chuancai Liu;
摘要:特征作為視覺目標描述的一種語義表示,在各種計算機視覺任務中得到了廣泛的應用。在現有的基于特征的研究中,通常采用類特定特征(class-specific attributes, CSA),這是類級別的標注,由于其對每個類的標注成本較低,而不是對每個單獨的圖像進行標注。然而,由于標注錯誤和單個圖像的多樣性,class-specific的特征通常是有噪聲的。因此,我們希望從原始的class-specific特征中獲得特定于圖像的特征(image-specific,ISA),即image level標注。在本文中,我們提出了通過基于圖的特征傳播來學習image-specific的特征。考慮到雙曲幾何的內在屬性,其距離呈指數擴展,構造雙曲線鄰域圖(HNG)來表征樣本之間的關系。基于HNG,我們定義了每個樣本的鄰域一致性,以識別不一致的樣本。然后,根據HNG中不一致的樣本的鄰居對其進行細化。在5個基準數據集上的大量實驗表明,在zero-shot目標分類任務中,學習的image-specific的特征明顯優于原始的class-specific的特征。
網址:
1、3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions
作者:Dong Wook Shu, Sung Woo Park, Junseok Kwon;
摘要:本文提出了一種新的三維點云生成對抗網絡(GAN),稱為tree-GAN。為了實現多類三維點云生成的最優性能,引入了一種樹狀圖卷積網絡(TreeGCN)作為tree-GAN的生成工具。因為TreeGCN在樹中執行圖卷積,所以它可以使用ancestor信息來增強特性的表示能力。為了準確評估三維點云的GAN,我們提出了一種新的評價指標,稱為Fr'echet點云距離(FPD)。實驗結果表明,所提出的tree-GAN在傳統度量和FPD方面都優于最先進的GAN,并且可以在不需要先驗知識的情況下為不同的語義部分生成點云。
網址://www.zhuanzhi.ai/paper/ade9cbf39f5984d62fb0569c60038853
2、Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks
作者:Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, Nadia Magnenat Thalmann;
摘要:盡管單視圖圖像或視頻的三維姿態估計取得了很大的進展,但由于深度模糊和嚴重的自聚焦,這仍然是一個具有挑戰性的任務。為了有效地結合空間相關性和時間一致性來緩解這些問題,我們提出了一種新的基于圖的方法來解決短序列二維關節檢測的三維人體和三維手部姿態估計問題。特別是將人手(身體)構型的領域知識顯式地融入到圖卷積運算中,以滿足三維姿態估計的特定需求。此外,我們還介紹了一個從局部到全局的網絡架構,該架構能夠學習基于圖表示的多尺度特性。我們評估了所提出的方法在具有挑戰性的基準數據集的三維手部姿態估計和三維身體位姿估計。實驗結果表明,我們的方法在兩種任務上都達到了最先進的性能。
網址:< >
3、Graph Convolutional Networks for Temporal Action Localization
作者:Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan;
摘要:大多數最先進的行為定位系統都是單獨處理每個動作proposal,而不是在學習過程中顯式地利用它們之間的關系。然而,proposal之間的關系實際上在行動定位中扮演著重要的角色,因為一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中,我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關系。首先,我們構造一個action proposal圖,其中每個proposal表示為一個節點,兩個proposal之間的關系表示為一條邊。這里,我們使用兩種類型的關系,一種用于捕獲每個proposal的上下文信息,另一種用于描述不同action之間的關聯。我們在圖上應用GCN,以對不同proposal之間的關系進行建模,學習了動作分類和定位的強大表示。實驗結果表明,我們的方法在THUMOS14上顯著優于最先進的方法(49.1% versus42.8%)。此外,ActivityNet上的增強實驗也驗證了action proposal關系建模的有效性。代碼可以在
網址:< >
4、Graph-Based Object Classification for Neuromorphic Vision Sensing
作者:Yin Bi, Aaron Chadha, Alhabib Abbas, Eirina Bourtsoulatze, Yiannis Andreopoulos;
摘要:神經形態視覺傳感(NVS)設備將視覺信息表示為異步離散事件的序列(也稱為“spikes”),以響應場景反射率的變化。與傳統的有源像素傳感器(APS)不同,NVS允許更高的事件采樣率,大大提高了能源效率和對光照變化的魯棒性。然而,使用NVS流的對象分類不能利用最先進的卷積神經網絡(CNNs),因為NVS不產生幀表示。為了避免感知和處理與CNNs之間的不匹配,我們提出了一種用于NVS的緊湊圖表示方法。我們將其與新穎的殘差圖CNN體系結構相結合,結果表明,當對時空NVS數據進行訓練用于對象分類時,這種殘差圖CNN保持了spike事件的時空一致性,同時所需的計算和內存更少。最后,為了解決缺乏用于復雜識別任務的大型真實世界NVS數據集的問題,我們提出并提供了一個100k的美國手語字母NVS記錄數據集,該數據集是在真實世界條件下使用iniLabs DAVIS240c設備獲得的。
網址:< >
5、Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition
作者:Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin;
摘要:識別圖像中的多個標簽是一項現實而富有挑戰性的任務,通過搜索語義感知區域和對標簽依賴關系建模,已經取得了顯著的進展。然而,由于缺乏局部層次的監督和語義指導,現有的方法無法準確定位語義區域。此外,它們不能充分挖掘語義區域之間的相互作用,也不能顯式地對標簽的共現進行建模。為了解決這些問題,我們提出了一個語義特定的圖表示學習(SSGRL)框架,該框架由兩個關鍵模塊組成:1)一個語義解耦模塊,該模塊集成了范疇語義以指導學習語義特定的表示;2)一個語義交互模塊。它將這些表示與建立在統計標簽共現上的圖相關聯,并通過圖傳播機制探索它們的交互作用。在公共基準上的大量實驗表明,我們的SSGRL框架在很大程度上優于當前最先進的方法,例如,在PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks數據集上,mAP的性能分別提高了2.5%、2.6%、6.7%和3.1%。我們的代碼和模型可以在. com/HCPLab-SYSU/SSGRL上獲得。
網址:< >
6、Relation-Aware Graph Attention Network for Visual Question Answering
作者:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu;
摘要:為了解決圖像的語義復雜問題,視覺問答模型需要充分理解圖像中的視覺場景,特別是不同對象之間的交互動態。我們提出了一個關系感知圖注意網絡(ReGAT),它通過圖注意機制將每個圖像編碼成一個圖,并建立多類型的對象間關系模型,以學習問題的自適應關系表示。研究了兩種類型的視覺對象關系:(1)表示幾何位置的顯式關系和對象之間的語義交互;(2)捕捉圖像區域間隱藏動態的隱式關系。實驗表明,ReGAT在VQA2.0和VQA2-CP v2數據集上的性能都優于現有的最新方法。我們進一步證明了ReGAT與現有的VQA體系結構兼容,可以作為一個通用的關系編碼器來提高VQA的模型性能。
網址:< >
7、Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
作者:Jiwoong Park, Minsik Lee, Hyung Jin Chang, Kyuewang Lee, Jin Young Choi;
摘要:我們提出了一種對稱圖卷積自編碼器,它能從圖中產生低維的潛在表示。與現有的具有非對稱解碼部分的圖自編碼器相比,本文提出的圖自動編碼器有一個新的解碼器,它構建了一個完全對稱的圖自編碼器形式。針對節點特征的重構,設計了一種基于拉普拉斯銳化的解碼器,作為編碼器拉普拉斯平滑的對應,使圖結構在所提出的自編碼體系結構的整個過程中得到充分利用。為了避免拉普拉斯銳化引入網絡的數值不穩定性,我們進一步提出了一種新的結合符號圖的拉普拉斯銳化的數值穩定形式。此外,為了提高圖像聚類任務的性能,設計了一種新的成本函數,該函數能同時發現一個潛在的表示形式和一個潛在的affinity矩陣。在聚類、鏈路預測和可視化任務上的實驗結果表明,我們所提出的模型是穩定的,并且性能優于各種最先進的算法。
網址:< >
8、Learning Combinatorial Embedding Networks for Deep Graph Matching
作者:Runzhong Wang, Junchi Yan, Xiaokang Yang;
摘要:圖匹配是指尋找圖之間的節點對應關系,使對應的節點與邊的親和性(affinity)最大化。此外,由于NP完備性的性質之外,另一個重要的挑戰是對圖之間的節點和結構親和性及其結果目標進行有效建模,以指導匹配過程有效地找到針對噪聲的真實匹配。為此,本文設計了一個端到端可微的深度網絡pipeline來學習圖匹配的親和性。它涉及與節點對應有關的有監督置換損失,以捕捉圖匹配的組合性質。同時采用深度圖嵌入模型來參數化圖內和圖間親和性函數,而不是傳統的如高斯核等淺層、簡單的參數化形式。嵌入也能有效地捕獲二階邊緣以外的高階結構。置換損失模型與節點數量無關,嵌入模型在節點之間共享,這樣網絡就允許在圖中使用不同數量的節點進行訓練和推理。此外,我們的網絡是類不可知的,具有跨不同類別的泛化能力。所有這些特性在實際應用中都受到歡迎。實驗表明,該方法優于目前最先進的圖匹配學習方法。
網址:< >
【導讀】自然語言處理國際頂級會議EMNLP 2019于11月3日至11月7日在中國香港舉行。為了帶大家領略高質量論文,專知小編特意整理了六篇EMNLP 2019GNN相關論文,并附上論文鏈接供參考——命名實體識別、情感分類、對話圖卷積網絡、數據生成文本、短文本分類、Aspect-level情感分類等。
1、A Lexicon-Based Graph Neural Network for Chinese NER
作者:Tao Gui, Yicheng Zou, Qi Zhang;
摘要:遞歸神經網絡(RNN)用于中文命名實體識別(NER)中,能夠對文字信息進行順序跟蹤,取得了很大的成功。然而,由于鏈式結構的特點和缺乏全局語義,基于RNN的模型容易產生歧義。本文試圖通過引入一種全局語義的基于詞典的圖神經網絡來解決這一問題,該網絡利用詞典知識連接字符來捕獲局部成分,而全局中繼節點則可以捕獲全局句子語義和長距離依賴。基于字符、潛在單詞和整個句子語義之間的多重交互,可以有效地解決單詞歧義。在4個NER數據集的實驗表明,該模型與其他基線模型相比有顯著的改進。
網址:
//qizhang.info/paper/emnlp-2019.ner.pdf
2、Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks
作者:Chen Zhang, Qiuchi Li, Dawei Song;
摘要:注意機制和卷積神經網絡(CNNs)由于其固有的方面和上下文詞的語義對齊能力,被廣泛應用于基于方面的情感分類。然而,這些模型缺乏一種機制來解釋相關的句法約束和長距離的詞語依賴,因此可能會錯誤地將句法無關的上下文詞作為判斷方面情緒的線索。為了解決這個問題,我們提出在句子的依存樹上建立一個圖卷積網絡(GCN),以利用句法信息和詞的依存關系。在此基礎上,提出了一種新的面向方面的情感分類框架。在三個基準集合上的實驗表明,我們所提出的模型比一系列最先進的模型更具有相當的有效性,并且進一步證明了圖卷積結構能夠恰當地捕獲語法信息和長距離字的依賴關系。
網址:
3、DialogueGCN A Graph Convolutional Neural Network for Emotion Recognition in Conversation
作者:Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, Alexander Gelbukh;
摘要:會話情感識別(ECC)由于其在醫療、教育、人力資源等多個領域的廣泛應用,近年來受到了研究者的廣泛關注。在本文中,我們提出了對話圖卷積網絡(DialogueGCN),基于圖神經網絡的ERC方法。我們利用對話者的自言和對話人之間的依賴關系來為情緒識別建立會話環境模型。DialogueGCN通過圖形網絡解決了當前基于RNN的方法中存在的上下文傳播問題。我們經驗表明,這種方法緩解了這樣的問題,同時在一些基準的情緒分類數據集上超過了目前的狀態。
網址:
4、Enhancing AMR-to-Text Generation with Dual Graph Representations
作者:Leonardo F. R. Ribeiro, Claire Gardent, Iryna Gurevych;
摘要:基于圖的數據生成文本,如抽象意義表示(AMR),是一個具有挑戰性的任務,因為如何正確地對具有標記邊的圖的結構進行編碼存在固有的困難。為了解決這一難題,我們提出了一種新的圖-序列模型,該模型對AMR圖中包含的結構信息的不同但互補的透視圖進行編碼。該模型學習節點的自頂向下和自下而上的并行表示,以捕獲圖的對比視圖。我們還研究了不同節點消息傳遞策略的使用,使用不同的最先進的圖形編碼器來計算基于傳入和傳出透視圖的節點表示。在我們的實驗中,我們證明了對偶圖表示法可以改進AMR到文本的生成,從而在兩個AMR數據集上取得了最先進的效果。
網址:
5、Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
作者:Linmei Hu, Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li ;
摘要:短文本分類在新聞和推特標記中得到了豐富而重要的應用,以幫助用戶查找相關信息。由于在許多實際用例中缺乏標記的訓練數據,因此迫切需要研究半監督短文本分類。現有的研究大多集中在長文本上,由于標記數據的稀疏性和局限性,在短文本上的表現不盡人意。本文提出了一種新的基于異構圖神經網絡的半監督短文本分類方法,該方法充分利用了標記數據少和未標記數據大的優點,實現了信息在圖上的傳播。特別是,我們提出了一種靈活的HIN(異構信息網絡)框架,用于建模短文本,它可以集成任何類型的附加信息,并捕獲它們之間的關系來解決語義稀疏性。然后,我們提出了基于節點級和類型級注意的雙重注意機制的異構圖注意網絡(HGAT)嵌入HIN進行短文本分類。注意機制可以學習不同相鄰節點的重要性,以及不同節點(信息)類型對當前節點的重要性。大量的實驗結果表明,我們提出的模型在6個基準數據集上的性能顯著優于最先進的方法。
網址:
6、Syntax-Aware Aspect Level Sentiment Classification with Graph Attention Networks
作者:Binxuan Huang, Kathleen M. Carley ;
摘要:Aspect-level情感分類旨在識別向上下文語句給出的aspect表達的情緒。以往的基于神經網絡的方法在很大程度上忽略了句子的句法結構。在本文中,我們提出了一種新的目標依賴圖注意力網絡(TD-GAT)來進行方面層次的情感分類,該網絡明確利用了詞語之間的依賴關系。使用依賴圖,它直接從一個方面目標的語法上下文傳播情感特征。在我們的實驗中,我們證明了我們的方法優于使用GloVe嵌入的多個基線。我們還證明了使用BERT表示可以進一步顯著地提高性能。
網址: