【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。為此,專知小編提前為大家整理了五篇CVPR 2020場景圖神經網絡(SGNN)相關論文,讓大家先睹為快——3D語義分割、指代表達式推理、圖像描述生成、圖像處理、時空圖。
WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
1. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions
作者:Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari
摘要:場景理解(scene understanding)一直是計算機視覺領域的研究熱點。它不僅包括識別場景中的對象,還包括識別它們在給定上下文中的關系。基于這一目標,最近的一系列工作解決了3D語義分割和場景布局預測問題。在我們的工作中,我們關注場景圖,這是一種在圖中組織場景實體的數據結構,其中對象是節點,它們的關系建模為邊。我們利用場景圖上的推理作為實現3D場景理解、映射對象及其關系的一種方式。特別地,我們提出了一種從場景的點云回歸場景圖的學習方法。我們的新體系結構是基于PointNet和圖卷積網絡(GCN)的。此外,我們還介紹了一個半自動生成的數據集3DSSG,它包含了語義豐富的三維場景圖。我們展示了我們的方法在一個領域無關的檢索任務中的應用,其中圖作為3D-3D和2D-3D匹配的中間表示。
網址:
//arxiv.org/pdf/2004.03967.pdf
2. Graph-Structured Referring Expression Reasoning in The Wild
作者:Sibei Yang, Guanbin Li, Yizhou Yu
摘要:Grounding referring expressions的目標是參照自然語言表達式在圖像中定位一個目標。指代表達式(referring expression)的語言結構為視覺內容提供了推理的布局,并且該結構對于校準和共同理解圖像與指代表達式是十分重要的。本文提出了一種場景圖引導的模塊化網絡(SGMN),它在表達式的語言結構指導下,用神經模塊對語義圖和場景圖進行推理。特別地,我們將圖像(image)建模為結構化語義圖,并將表達式解析為語言場景圖。語言場景圖不僅對表達式的語言結構進行解碼,而且與圖像語義圖具有一致的表示。除了探索指代表達式基礎的結構化解決方案外,我們還提出了Ref-Reasning,一個用于結構化指代表達式推理的大規模真實數據集。我們使用不同的表達式模板和函數式程序自動生成圖像場景圖上的指代表達式。該數據集配備了真實世界的可視化內容以及具有不同推理布局的語義豐富的表達式。實驗結果表明,SGMN不僅在新的Ref-Reasning數據集上的性能明顯優于現有的算法,而且在常用的基準數據集上也超過了最先進的結構化方法。它還可以為推理提供可解釋的可視化證據。
網址:
代碼鏈接:
3. Say As Y ou Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
作者:Shizhe Chen, Qin Jin, Peng Wang, Qi Wu
摘要:人類能夠隨心所欲地用粗到細的細節來描述圖像內容。然而,大多數圖像字幕模型是意圖不可知的(intention-agnostic),不能主動根據不同的用戶意圖生成各種描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,它們以圖像為基礎,沒有任何具體的語義標簽。因此,這些節點可以很容易通過手動或自動獲得。與在VisualGenome和MSCOCO數據集上精心設計的基線相比,我們的模型在ASG上實現了更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了字幕多樣性。
網址:
4. Semantic Image Manipulation Using Scene Graphs
作者:Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht
摘要:圖像處理可以被認為是圖像生成的特例,其中要生成的圖像是對現有圖像的修改。在很大程度上,圖像生成和處理都是對原始像素進行操作的任務。然而,在學習豐富的圖像和對象表示方面的顯著進展已經為主要由語義驅動的諸如文本到圖像或布局到圖像生成之類的任務開辟了道路。在我們的工作中,我們解決了從場景圖進行圖像處理的新問題,在該問題中,用戶可以僅通過對從圖像生成的語義圖的節點或邊進行修改來編輯圖像。我們的目標是對給定constellation中的圖像信息進行編碼,然后在此基礎上生成新的constellation,例如替換對象,甚至改變對象之間的關系,同時尊重原始圖像的語義和樣式。我們引入了空間語義場景圖網絡,該網絡不需要直接監督constellation變化或圖像編輯。這使得從現有的現實世界數據集中訓練系統成為可能,而無需額外的注釋工作。
網址:
代碼鏈接:
5. Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
作者:Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles
摘要:視頻描述生成是一項具有挑戰性的任務,需要對視覺場景有深刻的理解。最先進的方法使用場景級或對象級信息生成字幕,但沒有顯式建模對象交互。因此,它們通常無法做出基于視覺的預測,并且對虛假相關性敏感。在本文中,我們為視頻字幕提出了一種新穎的時空圖模型,該模型利用了時空中的對象交互作用。我們的模型建立了可解釋的連接,并且能夠提供明確的視覺基礎。為了避免對象數量變化帶來的性能不穩定,我們進一步提出了一種對象感知的知識提煉機制,該機制利用局部對象信息對全局場景特征進行正則化。通過在兩個基準上的廣泛實驗證明了我們的方法的有效性,表明我們的方法在可解釋的預測上產生了具有競爭力的性能。
網址:
【導讀】作為世界數據挖掘領域的最高級別的學術會議,ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)每年都會吸引全球領域眾多專業人士參與。今年的 KDD大會計劃將于 2020 年 8 月 23 日 ~27 日在美國美國加利福尼亞州圣地亞哥舉行。上周,KDD 2020官方發布接收論文,共有1279篇論文提交到Research Track,共216篇被接收,接收率16.8%。近期KDD官網公布了接受論文列表,為此,上個月專知小編為大家整理了圖神經網絡相關的論文,這期小編繼續為大家奉上KDD 2020必讀的五篇圖神經網絡(GNN)相關論文-Part 2——多層次GCN、無監督預訓練GCN、圖Hash、GCN主題模型、采樣
KDD 2020 Accepted Paper: //www.kdd.org/kdd2020/accepted-papers
KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、
1. Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction
作者:Hongxu Chen, Hongzhi Yin, Xiangguo Sun, Tong Chen, Bogdan Gabrys, Katarzyna Musial
摘要:跨平臺的賬號匹配在社交網絡分析中發揮著重要作用,并且有利于廣泛的應用。然而,現有的方法要么嚴重依賴于高質量的用戶生成內容(包括用戶興趣模型),要么只關注網絡拓撲結構,存在數據不足的問題,這使得研究這個方向變得很困難。為了解決這一問題,我們提出了一種新的框架,該框架統一考慮了局部網絡結構和超圖結構上的多級圖卷積。該方法克服了現有工作中數據不足的問題,并且不一定依賴于用戶的人口統計信息。此外,為了使所提出的方法能夠處理大規模社交網絡,我們提出了一種兩階段的空間協調機制,在基于網絡分區的并行訓練和跨不同社交網絡的帳戶匹配中對齊嵌入空間。我們在兩個大規模的真實社交網絡上進行了廣泛的實驗。實驗結果表明,該方法的性能比現有的模型有較大幅度的提高。
網址:
2. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
作者:Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, Jie Tang
摘要:圖表示學習已經成為解決現實問題的一種強有力的技術。包括節點分類、相似性搜索、圖分類和鏈接預測在內的各種下游圖學習任務都受益于它的最新發展。然而,關于圖表示學習的現有技術集中于領域特定的問題,并為每個圖訓練專用模型,這通常不可轉移到領域之外的數據。受自然語言處理和計算機視覺在預訓練方面的最新進展的啟發,我們設計了圖對比編碼(Graph Contrastive Coding,GCC)一個無監督的圖表示學習框架來捕捉跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡內部和網絡之間的子圖級別的實例判斷,并利用對比學習來增強模型學習內在的和可遷移的結構表征能力。我們在三個圖學習任務和十個圖數據集上進行了廣泛的實驗。結果表明,GCC在一組不同的數據集上進行預訓練,可以獲得與從頭開始的特定任務訓練的方法相媲美或更好的性能。這表明,預訓練和微調范式對圖表示學習具有巨大的潛力。
網址:
代碼鏈接:
3. GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases
作者:Zongyue Qin, Yunsheng Bai, Yizhou Sun
摘要:圖相似搜索的目的是根據給定的鄰近度,即圖編輯距離(GED),在圖形數據庫中找到與查詢最相似的圖。這是一個被廣泛研究但仍具有挑戰性的問題。大多數研究都是基于剪枝驗證框架,該框架首先對非看好的圖進行剪枝,然后在較小的候選集上進行驗證。現有的方法能夠管理具有數千或數萬個圖的數據庫,但由于其精確的剪枝策略,無法擴展到更大的數據庫。受到最近基于深度學習的語義哈希(semantic hashing)在圖像和文檔檢索中的成功應用的啟發,我們提出了一種新的基于圖神經網絡(GNN)的語義哈希,即GHash,用于近似剪枝。我們首先用真實的GED結果訓練GNN,以便它學習生成嵌入和哈希碼,以保持圖之間的GED。然后建立哈希索引以實現恒定時間內的圖查找。在回答一個查詢時,我們使用哈希碼和連續嵌入作為兩級剪枝來檢索最有希望的候選對象,并將這些候選對象發送到精確的求解器進行最終驗證。由于我們的圖哈希技術利用了近似剪枝策略,與現有方法相比,我們的方法在保持高召回率的同時,實現了顯著更快的查詢時間。實驗表明,該方法的平均速度是目前唯一適用于百萬級數據庫的基線算法的20倍,這表明GHash算法成功地為解決大規模圖形數據庫的圖搜索問題提供了新的方向。
網址:
4. Graph Structural-topic Neural Network
作者:Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin
摘要:圖卷積網絡(GCNS)通過有效地收集節點的局部特征,取得了巨大的成功。然而,GCNS通常更多地關注節點特征,而較少關注鄰域內的圖結構,特別是高階結構模式。然而,這種局部結構模式被顯示為許多領域中的節點屬性。此外,由于網絡很復雜,每個節點的鄰域由各種節點和結構模式的混合組成,不只是單個模式,所有這些模式上的分布都很重要。相應地,在本文中,我們提出了圖結構主題神經網絡,簡稱GraphSTONE,這是一種利用圖的主題模型的GCN模型,使得結構主題廣泛地從概率的角度捕捉指示性的圖結構,而不僅僅是幾個結構。具體地說,我們使用 anonymous walks和Graph Anchor LDA(一種LDA的變體,首先選擇重要的結構模式)在圖上建立主題模型,以降低復雜性并高效地生成結構主題。此外,我們設計了多視圖GCNS來統一節點特征和結構主題特征,并利用結構主題來指導聚合。我們通過定量和定性實驗對我們的模型進行了評估,我們的模型表現出良好的性能、高效率和清晰的可解釋性。
網址:
代碼鏈接:
5. Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks
作者:Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi
摘要:抽樣方法(如節點抽樣、分層抽樣或子圖抽樣)已成為加速大規模圖神經網絡(GNNs)訓練不可缺少的策略。然而,現有的抽樣方法大多基于圖的結構信息,忽略了最優化的動態性,導致隨機梯度估計的方差較大。高方差問題在非常大的圖中可能非常明顯,它會導致收斂速度慢和泛化能力差。本文從理論上分析了抽樣方法的方差,指出由于經驗風險的復合結構,任何抽樣方法的方差都可以分解為前向階段的嵌入近似方差和后向階段的隨機梯度方差,這兩種方差都必須減小,才能獲得較快的收斂速度。我們提出了一種解耦的方差減小策略,利用(近似)梯度信息自適應地對方差最小的節點進行采樣,并顯式地減小了嵌入近似引入的方差。理論和實驗表明,與現有方法相比,該方法即使在小批量情況下也具有更快的收斂速度和更好的泛化能力。
網址:
【導讀】計算語言學協會(the Association for Computational Linguistics, ACL)年度會議作為頂級的國際會議,在計算語言學和自然語言處理領域一直備受關注。其接收的論文覆蓋了語義分析、文本挖掘、信息抽取、問答系統、機器翻譯、情感分析和意見挖掘等眾多自然語言處理領域的研究方向。今年,第58屆計算語言學協會(the Association for Computational Linguistics, ACL)年度會議將于2020年7月5日至10日在美國華盛頓西雅圖舉行。受COVID-19疫情影響,ACL 2020將全部改為線上舉行。本次ACL大會共提交了3429篇論文,共有571篇長論文、以及208篇短論文入選。不久之前,專知小編為大家整理了大會的圖神經網絡(GNN)相關論文,這期小編繼續為大家奉上ACL 2020圖神經網絡(GNN)相關論文-Part 2供參考——多文檔摘要、多粒度機器閱讀理解、帖子爭議檢測、GAE。
ACL2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN
1. Leveraging Graph to Improve Abstractive Multi-Document Summarization
作者:Wei Li, Xinyan Xiao, Jiachen Liu, Hua Wu, Haifeng Wang, Junping Du
摘要:捕捉文本單元之間關系圖對于從多個文檔中檢測顯著信息和生成整體連貫的摘要有很大好處。本文提出了一種神經抽取多文檔摘要(MDS)模型,該模型可以利用文檔的常見圖表示,如相似度圖和話語圖(discourse graph),來更有效地處理多個輸入文檔并生成摘要。我們的模型使用圖對文檔進行編碼,以捕獲跨文檔關系,這對于總結長文檔至關重要。我們的模型還可以利用圖來指導摘要的生成過程,這有利于生成連貫而簡潔的摘要。此外,預訓練的語言模型可以很容易地與我們的模型相結合,進一步提高了摘要的性能。在WikiSum和MultiNews數據集上的實驗結果表明,所提出的體系結構在幾個強大的基線上帶來了實質性的改進。
網址: //arxiv.org/abs/2005.10043
2. Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension
作者:Bo Zheng, Haoyang Wen, Yaobo Liang, Nan Duan, Wanxiang Che, Daxin Jiang, Ming Zhou, Ting Liu
摘要:“自然問題”是一種具有挑戰性的新的機器閱讀理解基準,其中包含兩個答案:長答案(通常是一個段落)和短答案(長答案中的一個或多個實體)。盡管此基準測試的現有方法很有效,但它們在訓練期間單獨處理這兩個子任務,忽略了它們間的依賴關系。為了解決這個問題,我們提出了一種新穎的多粒度機器閱讀理解框架,該框架專注于對文檔的分層性質進行建模,這些文檔具有不同的粒度級別:文檔、段落、句子和詞。我們利用圖注意力網絡來獲得不同層次的表示,以便它們可以同時學習。長答案和短答案可以分別從段落級表示和詞級表示中提取。通過這種方式,我們可以對兩個粒度的答案之間的依賴關系進行建模,以便為彼此提供證據。我們聯合訓練這兩個子任務,實驗表明,我們的方法在長答案和短答案標準上都明顯優于以前的系統。
網址:
代碼鏈接:
3. Integrating Semantic and Structural Information with Graph Convolutional Network for Controversy Detection
作者:Lei Zhong, Juan Cao, Qiang Sheng, Junbo Guo, Ziang Wang
摘要:識別社交媒體上有爭議的帖子是挖掘公眾情緒、評估事件影響、緩解兩極分化觀點的基礎任務。然而,現有的方法不能1)有效地融合來自相關帖子內容的語義信息;2)保留回復關系建模的結構信息;3)正確處理與訓練集中主題不同的帖子。為了克服前兩個局限性,我們提出了主題-帖子-評論圖卷積網絡(TPC-GCN),它綜合了來自主題、帖子和評論的圖結構和內容的信息,用于帖子級別的爭議檢測。對于第三個限制,我們將模型擴展到分離的TPC-GCN(DTPC-GCN),將主題相關和主題無關的特征分離出來,然后進行動態融合。在兩個真實數據集上的大量實驗表明,我們的模型優于現有的方法。結果和實例分析表明,該模型能夠將語義信息和結構信息有機地結合在一起,具有較強的通用性。
網址:
4. Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward
作者:Luyang Huang, Lingfei Wu, Lu Wang
摘要:用于抽取摘要的序列到序列(sequence-to-sequence )模型已經被廣泛研究,但是生成的摘要通常受到捏造的內容的影響,并且經常被發現是near-extractive的。我們認為,為了解決這些問題,摘要生成器應通過輸入獲取語義解釋,例如通過結構化表示,以允許生成更多信息的摘要。在本文中,我們提出了一種新的抽取摘要框架--Asgard,它具有圖形增強和語義驅動的特點。我們建議使用雙重編碼器-序列文檔編碼器和圖形結構編碼器-來保持實體的全局上下文和局部特征,并且相互補充。我們進一步設計了基于多項選擇完形填空測試的獎勵,以驅動模型更好地捕捉實體交互。結果表明,我們的模型在紐約時報和CNN/每日郵報的數據集上都比沒有知識圖作為輸入的變體產生了更高的Rouge分數。與從大型預訓練的語言模型中優化的系統相比,我們也獲得了更好或可比的性能。評委進一步認為我們的模型輸出信息更豐富,包含的不實錯誤更少。
網址:
5. A Graph Auto-encoder Model of Derivational Morphology
作者:Valentin Hofmann, Hinrich Schutze, Janet B. Pierrehumberty
摘要:關于派生詞的形態良好性(morphological well-formedness, MWF)建模工作在語言學中被認為是一個復雜而困難的問題,并且這方面的研究工作較少。我們提出了一個圖自編碼器學習嵌入以捕捉派生詞中詞綴和詞干的兼容性信息。自編碼器通過將句法和語義信息與來自心理詞典的關聯信息相結合,很好地模擬了英語中的MWF。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。
網址: //arxiv.org/pdf/2003.14111.pdf
代碼鏈接: github.com/kenziyuliu/ms-g3d
2. DPGN: Distribution Propagation Graph Network for Few-shot Learning
作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu
摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。
網址:
代碼鏈接:
3. Geometrically Principled Connections in Graph Neural Networks
作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou
摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。
網址:
4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks
作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen
摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。
網址:
代碼鏈接:
補充材料:
5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。
網址:
代碼鏈接:
【導讀】計算語言學協會(the Association for Computational Linguistics, ACL)年度會議作為頂級的國際會議,在計算語言學和自然語言處理領域一直備受關注。其接收的論文覆蓋了語義分析、文本挖掘、信息抽取、問答系統、機器翻譯、情感分析和意見挖掘等眾多自然語言處理領域的研究方向。今年,第58屆計算語言學協會(the Association for Computational Linguistics, ACL)年度會議將于2020年7月5日至10日在美國華盛頓西雅圖舉行。受COVID-19疫情影響,ACL 2020將全部改為線上舉行。為此,專知小編提前為大家整理了ACL 2020圖神經網絡(GNN)相關論文,讓大家先睹為快——事實驗證、法律文書、謠言檢測、自動摘要、情感分析。
WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
1. Fine-grained Fact Verification with Kernel Graph Attention Network
作者:Zhenghao Liu, Chenyan Xiong, Maosong Sun, Zhiyuan Liu
摘要:事實驗證(Fact V erification)需要細粒度的自然語言推理能力來找到微妙的線索去識別句法和語義上正確但沒有強有力支持的聲明(well-supported claims)。本文提出了基于核方法的圖注意力網絡(KGAT),該網絡使用基于核的注意力進行更細粒度的事實驗證。給定一個聲明和一組形成證據圖潛在證據的句子,KGAT在圖注意力網絡中引入了可以更好地衡量證據節點重要性的節點核,以及可以在圖中進行細粒度證據傳播的邊緣核,以實現更準確的事實驗證。KGAT達到了70.38%的FEVER得分,在FEVER上大大超過了現有的事實驗證模型(FEVER是事實驗證的大規模基準)。我們的分析表明,與點積注意力相比,基于核的注意力更多地集中在證據圖中的相關證據句子和有意義的線索上,這是KGAT有效性的主要來源。
網址://arxiv.org/pdf/1910.09796.pdf
2. Distinguish Confusing Law Articles for Legal Judgment Prediction
作者:Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao
摘要:法律審判預測(LJP)是在給出案件事實描述文本的情況下,自動預測案件判決結果的任務,其在司法協助系統中具有良好的應用前景,為公眾提供方便的服務。實際上,由于適用于類似法律條款的法律案件很容易被誤判,經常會產生混淆的指控。在本文中,我們提出了一個端到端的模型--LADAN來解決LJP的任務。為了解決這一問題,現有的方法嚴重依賴領域專家,這阻礙了它在不同法律制度中的應用。為了區分混淆的指控,我們提出了一種新的圖神經網絡來自動學習混淆法律文章之間的細微差別,并設計了一種新的注意力機制,該機制充分利用學習到的差別從事實描述中提取令人信服的鑒別特征。在真實數據集上進行的實驗證明了我們的LADAN算法的優越性。
網址:
3. GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media
作者:Yi-Ju Lu, Cheng-Te Li
摘要:本文解決了在更現實的社交媒體場景下的假新聞檢測問題。給定源短文本推文和相應的沒有文本評論的轉發用戶序列,我們的目的是預測源推文是否是假的,并通過突出可疑轉發者的證據和他們關注的詞語來產生解釋。為了實現這一目標,我們提出了一種新的基于神經網絡的模型--圖感知協同注意網絡(GCAN)。在真實推文數據集上進行的廣泛實驗表明,GCAN的平均準確率比最先進的方法高出16%。此外,案例研究還表明,GCAN可以給出合理的解釋。
網址:
4. Heterogeneous Graph Neural Networks for Extractive Document Summarization
作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang
摘要:作為提取文檔摘要的關鍵步驟,跨句關系學習已經有了大量的研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,該網絡具有更復雜的結構來捕獲句間關系。本文提出了一種基于圖的異構神經網絡抽取摘要算法(HeterSUMGraph),該算法除句子外,還包含不同粒度的語義節點。這些額外的結點起到句子之間的中介作用,豐富了句子之間的關系。此外,通過引入文檔節點,我們的圖結構可以靈活地從單文檔設置自然擴展到多文檔設置。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要的,我們還進行了全面的定性分析,以考察它們的好處。
網址:
代碼鏈接:
5. Relational Graph Attention Network for Aspect-based Sentiment Analysis
作者:Kai Wang, Weizhou Shen, Yunyi Yang, Xiaojun Quan, Rui Wang
摘要:Aspect級的情感分析旨在確定在線評論中對某一特定方面的情感極性。最近的大多數努力采用了基于注意力的神經網絡模型來隱式地將aspect與觀點詞聯系起來。然而,由于語言的復雜性和單句中多個aspect的存在,這些模型往往混淆了它們之間的聯系。在本文中,我們通過對語法信息進行有效的編碼來解決這個問題。首先,我們通過重塑和修剪常規依賴關系樹,定義了一個以目標方面為根的統一的面向aspect的依賴樹結構。然后,我們提出了一種關系圖注意力網絡(R-GAT)來編碼新的樹結構用于情感預測。我們在SemEval 2014和Twitter數據集上進行了廣泛的實驗,實驗結果證實,該方法可以更好地建立aspect和觀點詞之間的聯系,從而顯著提高了圖注意網絡(GAT)的性能。
網址:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址: