1、3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions
作者:Dong Wook Shu, Sung Woo Park, Junseok Kwon;
摘要:本文提出了一種新的三維點云生成對抗網絡(GAN),稱為tree-GAN。為了實現多類三維點云生成的最優性能,引入了一種樹狀圖卷積網絡(TreeGCN)作為tree-GAN的生成工具。因為TreeGCN在樹中執行圖卷積,所以它可以使用ancestor信息來增強特性的表示能力。為了準確評估三維點云的GAN,我們提出了一種新的評價指標,稱為Fr'echet點云距離(FPD)。實驗結果表明,所提出的tree-GAN在傳統度量和FPD方面都優于最先進的GAN,并且可以在不需要先驗知識的情況下為不同的語義部分生成點云。
網址://www.zhuanzhi.ai/paper/ade9cbf39f5984d62fb0569c60038853
2、Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks
作者:Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, Nadia Magnenat Thalmann;
摘要:盡管單視圖圖像或視頻的三維姿態估計取得了很大的進展,但由于深度模糊和嚴重的自聚焦,這仍然是一個具有挑戰性的任務。為了有效地結合空間相關性和時間一致性來緩解這些問題,我們提出了一種新的基于圖的方法來解決短序列二維關節檢測的三維人體和三維手部姿態估計問題。特別是將人手(身體)構型的領域知識顯式地融入到圖卷積運算中,以滿足三維姿態估計的特定需求。此外,我們還介紹了一個從局部到全局的網絡架構,該架構能夠學習基于圖表示的多尺度特性。我們評估了所提出的方法在具有挑戰性的基準數據集的三維手部姿態估計和三維身體位姿估計。實驗結果表明,我們的方法在兩種任務上都達到了最先進的性能。
網址:< >
3、Graph Convolutional Networks for Temporal Action Localization
作者:Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan;
摘要:大多數最先進的行為定位系統都是單獨處理每個動作proposal,而不是在學習過程中顯式地利用它們之間的關系。然而,proposal之間的關系實際上在行動定位中扮演著重要的角色,因為一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中,我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關系。首先,我們構造一個action proposal圖,其中每個proposal表示為一個節點,兩個proposal之間的關系表示為一條邊。這里,我們使用兩種類型的關系,一種用于捕獲每個proposal的上下文信息,另一種用于描述不同action之間的關聯。我們在圖上應用GCN,以對不同proposal之間的關系進行建模,學習了動作分類和定位的強大表示。實驗結果表明,我們的方法在THUMOS14上顯著優于最先進的方法(49.1% versus42.8%)。此外,ActivityNet上的增強實驗也驗證了action proposal關系建模的有效性。代碼可以在
網址:< >
4、Graph-Based Object Classification for Neuromorphic Vision Sensing
作者:Yin Bi, Aaron Chadha, Alhabib Abbas, Eirina Bourtsoulatze, Yiannis Andreopoulos;
摘要:神經形態視覺傳感(NVS)設備將視覺信息表示為異步離散事件的序列(也稱為“spikes”),以響應場景反射率的變化。與傳統的有源像素傳感器(APS)不同,NVS允許更高的事件采樣率,大大提高了能源效率和對光照變化的魯棒性。然而,使用NVS流的對象分類不能利用最先進的卷積神經網絡(CNNs),因為NVS不產生幀表示。為了避免感知和處理與CNNs之間的不匹配,我們提出了一種用于NVS的緊湊圖表示方法。我們將其與新穎的殘差圖CNN體系結構相結合,結果表明,當對時空NVS數據進行訓練用于對象分類時,這種殘差圖CNN保持了spike事件的時空一致性,同時所需的計算和內存更少。最后,為了解決缺乏用于復雜識別任務的大型真實世界NVS數據集的問題,我們提出并提供了一個100k的美國手語字母NVS記錄數據集,該數據集是在真實世界條件下使用iniLabs DAVIS240c設備獲得的。
網址:< >
5、Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition
作者:Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin;
摘要:識別圖像中的多個標簽是一項現實而富有挑戰性的任務,通過搜索語義感知區域和對標簽依賴關系建模,已經取得了顯著的進展。然而,由于缺乏局部層次的監督和語義指導,現有的方法無法準確定位語義區域。此外,它們不能充分挖掘語義區域之間的相互作用,也不能顯式地對標簽的共現進行建模。為了解決這些問題,我們提出了一個語義特定的圖表示學習(SSGRL)框架,該框架由兩個關鍵模塊組成:1)一個語義解耦模塊,該模塊集成了范疇語義以指導學習語義特定的表示;2)一個語義交互模塊。它將這些表示與建立在統計標簽共現上的圖相關聯,并通過圖傳播機制探索它們的交互作用。在公共基準上的大量實驗表明,我們的SSGRL框架在很大程度上優于當前最先進的方法,例如,在PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks數據集上,mAP的性能分別提高了2.5%、2.6%、6.7%和3.1%。我們的代碼和模型可以在. com/HCPLab-SYSU/SSGRL上獲得。
網址:< >
6、Relation-Aware Graph Attention Network for Visual Question Answering
作者:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu;
摘要:為了解決圖像的語義復雜問題,視覺問答模型需要充分理解圖像中的視覺場景,特別是不同對象之間的交互動態。我們提出了一個關系感知圖注意網絡(ReGAT),它通過圖注意機制將每個圖像編碼成一個圖,并建立多類型的對象間關系模型,以學習問題的自適應關系表示。研究了兩種類型的視覺對象關系:(1)表示幾何位置的顯式關系和對象之間的語義交互;(2)捕捉圖像區域間隱藏動態的隱式關系。實驗表明,ReGAT在VQA2.0和VQA2-CP v2數據集上的性能都優于現有的最新方法。我們進一步證明了ReGAT與現有的VQA體系結構兼容,可以作為一個通用的關系編碼器來提高VQA的模型性能。
網址:< >
7、Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning
作者:Jiwoong Park, Minsik Lee, Hyung Jin Chang, Kyuewang Lee, Jin Young Choi;
摘要:我們提出了一種對稱圖卷積自編碼器,它能從圖中產生低維的潛在表示。與現有的具有非對稱解碼部分的圖自編碼器相比,本文提出的圖自動編碼器有一個新的解碼器,它構建了一個完全對稱的圖自編碼器形式。針對節點特征的重構,設計了一種基于拉普拉斯銳化的解碼器,作為編碼器拉普拉斯平滑的對應,使圖結構在所提出的自編碼體系結構的整個過程中得到充分利用。為了避免拉普拉斯銳化引入網絡的數值不穩定性,我們進一步提出了一種新的結合符號圖的拉普拉斯銳化的數值穩定形式。此外,為了提高圖像聚類任務的性能,設計了一種新的成本函數,該函數能同時發現一個潛在的表示形式和一個潛在的affinity矩陣。在聚類、鏈路預測和可視化任務上的實驗結果表明,我們所提出的模型是穩定的,并且性能優于各種最先進的算法。
網址:< >
8、Learning Combinatorial Embedding Networks for Deep Graph Matching
作者:Runzhong Wang, Junchi Yan, Xiaokang Yang;
摘要:圖匹配是指尋找圖之間的節點對應關系,使對應的節點與邊的親和性(affinity)最大化。此外,由于NP完備性的性質之外,另一個重要的挑戰是對圖之間的節點和結構親和性及其結果目標進行有效建模,以指導匹配過程有效地找到針對噪聲的真實匹配。為此,本文設計了一個端到端可微的深度網絡pipeline來學習圖匹配的親和性。它涉及與節點對應有關的有監督置換損失,以捕捉圖匹配的組合性質。同時采用深度圖嵌入模型來參數化圖內和圖間親和性函數,而不是傳統的如高斯核等淺層、簡單的參數化形式。嵌入也能有效地捕獲二階邊緣以外的高階結構。置換損失模型與節點數量無關,嵌入模型在節點之間共享,這樣網絡就允許在圖中使用不同數量的節點進行訓練和推理。此外,我們的網絡是類不可知的,具有跨不同類別的泛化能力。所有這些特性在實際應用中都受到歡迎。實驗表明,該方法優于目前最先進的圖匹配學習方法。
網址:< >
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。
網址: //arxiv.org/pdf/2003.14111.pdf
代碼鏈接: github.com/kenziyuliu/ms-g3d
2. DPGN: Distribution Propagation Graph Network for Few-shot Learning
作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu
摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。
網址:
代碼鏈接:
3. Geometrically Principled Connections in Graph Neural Networks
作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou
摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。
網址:
4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks
作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen
摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。
網址:
代碼鏈接:
補充材料:
5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址:
1、 Adversarial Graph Embedding for Ensemble Clustering
作者:Zhiqiang Tao , Hongfu Liu , Jun Li , ZhaowenWang and Yun Fu;
摘要:Ensemble Clustering通常通過圖分區方法將基本分區集成到共識分區(consensus partition)中,但這種方法存在兩個局限性: 1) 它忽略了重用原始特征; 2)獲得具有可學習圖表示的共識分區(consensus partition)仍未得到充分研究。在本文中,我們提出了一種新穎的對抗圖自動編碼器(AGAE)模型,將集成聚類結合到深度圖嵌入過程中。具體地,采用圖卷積網絡作為概率編碼器,將特征內容信息與共識圖信息進行聯合集成,并使用簡單的內積層作為解碼器,利用編碼的潛變量(即嵌入表示)重建圖。此外,我們還開發了一個對抗正則化器來指導具有自適應分區依賴先驗的網絡訓練。通過對8個實際數據集的實驗,證明了AGAE在幾種先進的深度嵌入和集成聚類方法上的有效性。
網址://www.ijcai.org/proceedings/2019/0494.pdf
2、Attributed Graph Clustering via Adaptive Graph Convolution
作者:Xiaotong Zhang, Han Liu, Qimai Li and Xiao-Ming Wu;
摘要:Attributed Graph聚類是一項具有挑戰性的工作,它要求對圖結構和節點屬性進行聯合建模。圖卷積網絡的研究進展表明,圖卷積能夠有效地將結構信息和內容信息結合起來,近年來基于圖卷積的方法在一些實際屬性網絡上取得了良好的聚類性能。然而,對于圖卷積如何影響聚類性能以及如何正確地使用它來優化不同圖的性能,人們的了解有限。現有的方法本質上是利用固定低階的圖卷積,只考慮每個節點幾跳內的鄰居,沒有充分利用節點關系,忽略了圖的多樣性。本文提出了一種自適應圖卷積方法,利用高階圖卷積捕獲全局聚類結構,并自適應地為不同的圖選擇合適的順序。通過對基準數據集的理論分析和大量實驗,驗證了該方法的有效性。實驗結果表明,該方法與現有的方法相比具有較好的優越性。
網址:
3、Dynamic Hypergraph Neural Networks
作者:Jianwen Jiang , Yuxuan Wei , Yifan Feng , Jingxuan Cao and Yue Gao;
摘要:近年來,基于圖/超圖(graph/hypergraph)的深度學習方法引起了研究者的廣泛關注。這些深度學習方法以圖/超圖結構作為模型的先驗知識。然而,隱藏的重要關系并沒有直接表現在內在結構中。為了解決這個問題,我們提出了一個動態超圖神經網絡框架(DHGNN),它由兩個模塊的堆疊層組成:動態超圖構造(DHG)和超圖卷積(HGC)。考慮到最初構造的超圖可能不適合表示數據,DHG模塊在每一層上動態更新超圖結構。然后引入超圖卷積對超圖結構中的高階數據關系進行編碼。HGC模塊包括兩個階段:頂點卷積和超邊界卷積,它們分別用于聚合頂點和超邊界之間的特征。我們已經在標準數據集、Cora引文網絡和微博數據集上評估了我們的方法。我們的方法優于最先進的方法。通過更多的實驗驗證了該方法對不同數據分布的有效性和魯棒性。
網址:
4、Exploiting Interaction Links for Node Classification with Deep Graph Neural Networks
作者:Hogun Park and Jennifer Neville;
摘要:節點分類是關系機器學習中的一個重要問題。然而,在圖邊表示實體間交互的場景中(例如,隨著時間的推移),大多數當前方法要么將交互信息匯總為鏈接權重,要么聚合鏈接以生成靜態圖。在本文中,我們提出了一種神經網絡結構,它可以同時捕獲時間和靜態交互模式,我們稱之為Temporal-Static-Graph-Net(TSGNet)。我們的主要觀點是,利用靜態鄰居編碼器(可以學習聚合鄰居模式)和基于圖神經網絡的遞歸單元(可以捕獲復雜的交互模式),可以提高節點分類的性能。在我們對節點分類任務的實驗中,與最先進的方法相比,TSGNet取得了顯著的進步——與四個真實網絡和一個合成數據集中的最佳競爭模型相比,TSGNet的分類錯誤減少了24%,平均減少了10%。
網址:
5、Fine-grained Event Categorization with Heterogeneous Graph Convolutional Networks
作者:Hao Peng, Jianxin Li, Qiran Gong, Yangqiu Song, Yuanxing Ning, Kunfeng Lai and Philip S. Yu;
摘要:事件在現實世界中實時發生,可以是涉及多個人和物體的計劃和組織場合。社交媒體平臺發布了大量包含公共事件和綜合話題的文本消息。然而,由于文本中事件元素的異構性以及顯式和隱式的社交網絡結構,挖掘社會事件是一項具有挑戰性的工作。本文設計了一個事件元模式來表征社會事件的語義關聯,并構建了一個基于事件的異構信息網絡(HIN),該網絡融合了外部知識庫中的信息,提出了一種基于對偶流行度圖卷積網絡(PP-GCN)的細粒度社會事件分類模型。我們提出了一種基于事件間社會事件相似度(KIES)的知識元路徑實例,并建立了一個加權鄰域矩陣作為PP-GCN模型的輸入。通過對真實數據收集的綜合實驗,比較各種社會事件檢測和聚類任務。實驗結果表明,我們提出的框架優于其他可選的社會事件分類技術。
網址:
6、Graph Contextualized Self-Attention Network for Session-based Recommendation
作者:Chengfeng Xu, Pengpeng Zhao, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Fuzhen Zhuang, Junhua Fang and Xiaofang Zhou;
摘要:基于會話的推薦旨在預測用戶基于匿名會話的下一步行動,是許多在線服務(比如電子商務,媒體流)中的關鍵任務。近年來,在不使用遞歸網絡和卷積網絡的情況下,自注意力網絡(SAN)在各種序列建模任務中取得了顯著的成功。然而,SAN缺乏存在于相鄰商品上的本地依賴關系,并且限制了其學習序列中商品的上下文表示的能力。本文提出了一種利用圖神經網絡和自注意力機制的圖上下文自注意力模型(GC-SAN),用于基于會話的推薦。在GC-SAN中,我們動態地為會話序列構造一個圖結構,并通過圖神經網絡(GNN)捕獲豐富的局部依賴關系。然后,每個會話通過應用自注意力機制學習長期依賴關系。最后,每個會話都表示為全局首選項和當前會話興趣的線性組合。對兩個真實數據集的大量實驗表明,GC-SAN始終優于最先進的方法。
網址:
7、Graph Convolutional Network Hashing for Cross-Modal Retrieval
作者:Ruiqing Xu , Chao Li , Junchi Yan , Cheng Deng and Xianglong Liu;
摘要:基于深度網絡的跨模態檢索近年來取得了顯著的進展。然而,彌補模態差異,進一步提高檢索精度仍然是一個關鍵的瓶頸。本文提出了一種圖卷積哈希(GCH)方法,該方法通過關聯圖學習模態統一的二進制碼。一個端到端深度體系結構由三個主要組件構成:語義編碼模塊、兩個特征編碼網絡和一個圖卷積網絡(GCN)。我們設計了一個語義編碼器作為教師模塊來指導特征編碼過程,即學生模塊,用于語義信息的挖掘。此外,利用GCN研究數據點之間的內在相似性結構,有助于產生有區別的哈希碼。在三個基準數據集上的大量實驗表明,所提出的GCH方法優于最先進的方法。
網址:
1、DeepGCNs:Can GCNs Go as Deep as CNNs
作者:Guohao Li , Matthias Müller , Ali Thabet Bernard Ghanem;
摘要:卷積神經網絡(CNNs)在廣泛的領域中取得了令人印象深刻的性能。他們的成功得益于一個巨大的推動,當非常深入的CNN模型能夠可靠的訓練。盡管CNNs有其優點,但它不能很好地解決非歐幾里德數據的問題。為了克服這一挑戰,圖形卷積網絡(GCNS)構建圖形來表示非歐幾里德數據,借用CNNs的概念,并將它們應用于訓練。GCNs顯示出有希望的結果,但由于消失梯度問題,它們通常僅限于非常淺的模型(見圖1)。因此,最先進的GCN模型不超過3層或4層。在這項工作中,我們提出了新的方法來成功地訓練非常深的GCNs。我們通過借鑒CNNs的概念來做到這一點,特別是剩余/密集連接和擴展卷積,并將它們應用到GCN架構中。大量的實驗證明了這些深度GCN框架的積極作用。最后,我們使用這些新的概念來構建一個非常深的56層GCN,并展示了它如何在點云語義分割任務中顯著提升性能(+ 3.7% Miou-Unice狀態)。我們相信公眾可以從這項工作中受益,因為它為推進基于GCN的研究提供了許多機會。
網站: //www.zhuanzhi.ai/paper/c1e02bdee9efe20fd0a53d23883901c3
2、Dynamic Graph Attention for Referring Expression Comprehension
作者:Sibei Yang, Guanbin Li, Yizhou Yu;
摘要:引用表達式理解的目的是在圖像中定位由自然語言描述的對象實例。這項任務是合成的,本質上需要在圖像中對象之間關系的基礎上進行視覺推理。同時,視覺推理過程是由指稱表達式的語言結構來指導的。然而,現有的方法孤立地對待對象,或者只探索對象之間的一階關系,而不與表達式的潛在復雜性對齊。因此,他們很難適應復雜的參考表達的基礎。本文從語言驅動的視覺推理的角度,探討了表達理解的問題,并提出了一種動態圖形注意力網絡,通過對圖像中的對象之間的關系和表達的語言結構進行建模來進行多步推理。特別地,我們構造了具有對應于對象和它們的關系的節點和邊緣的圖像,提出了一種差分分析器來預測語言制導的視覺推理過程,并在圖的頂部執行逐步推理,以更新每個節點上的復合對象表示。實驗結果表明,所提出的方法在三個共同的基準數據集不僅可以顯著超越所有現有的最先進的算法,而且還能產生可解釋的視覺證據,以逐步定位復雜的語言描述的對象。
網址:
3、Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
作者:Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song-Chun Zhu;
摘要:本文從原子層次和事件層次兩個方面探討了社會視頻中人的注釋交流這一新問題,對研究人類的社會互動具有重要意義。為了解決這一新穎而具有挑戰性的問題,我們貢獻了一個大規模的視頻數據集,VACATION,涵蓋不同的日常社會場景和注釋交流行為,并在原子級和事件級對物體和人臉、人類注意力、交流結構和標簽進行了完整的注釋。結合VACATION,我們提出了一個時空圖神經網絡,明確地表示社會場景中不同的注釋交互,并通過消息傳遞來推斷原子級的注視交流。在此基礎上,進一步提出了一種基于編碼-解碼器結構的事件網絡來預測事件級注視通信。我們的實驗表明,該模型在預測原子級和事件級注釋通信時顯著地改進了各種基線。
網址:
4、SceneGraphNet Neural Message Passing for 3D Indoor Scene Augmentation
作者:Yang Zhou, Zachary While, Evangelos Kalogerakis;
摘要:在本文中,我們提出了一種神經消息傳遞方法,以增加輸入三維室內場景中與周圍環境匹配的新對象。給定一個輸入,可能是不完整的,三維場景和一個查詢位置(圖1),我們的方法預測在該位置上適合的對象類型上的概率分布。我們的分布是通過在稠密圖中傳遞學習信息來預測的,其節點表示輸入場景中的對象,并且邊緣表示空間和結構關系。通過一個注意力機制對消息進行加權,我們的方法學會將注意力集中在最相關的周圍場景上下文,從而預測新的場景對象。基于我們在SUNCG數據集中的實驗,我們發現我們的方法在正確預測場景中丟失的對象方面明顯優于最先進的方法。我們還演示了我們的方法的其他應用,包括基于上下文的3D對象識別和迭代場景生成。
網址:
5、Language-Conditioned Graph Networks for Relational Reasoning
作者:Ronghang Hu, Anna Rohrbach, Trevor Darrell, Kate Saenko ;
摘要:解決基于語言任務通常需要對給定任務上下文中對象之間的關系進行推理。例如,要回答盤子上的杯子是什么顏色??我們必須檢查特定杯子的顏色,以滿足盤子上的關系。最近的工作提出了各種復雜關系推理的方法。然而,它們的能力大多在推理結構上,而場景則用簡單的局部外觀特征來表示。在本文中,我們采取另一種方法,建立一個視覺場景中的對象的上下文化表示,以支持關系推理。我們提出了一個通用的語言條件圖網絡(LCGN)框架,其中每個節點代表一個對象,并通過文本輸入的迭代消息傳遞來描述相關對象的感知表示。例如,調節與plate的on關系,對象mug收集來自對象plate的消息,以將其表示更新為mug on the plate,這可以很容易地被簡單分類器用于答案預測。我們的實驗表明,我們的LCGN方法有效地支持關系推理,并在多個任務和數據集上提高了性能。我們的代碼可以在
網址:
【導讀】自然語言處理國際頂級會議EMNLP 2019于11月3日至11月7日在中國香港舉行。為了帶大家領略高質量論文,專知小編特意整理了六篇EMNLP 2019GNN相關論文,并附上論文鏈接供參考——命名實體識別、情感分類、對話圖卷積網絡、數據生成文本、短文本分類、Aspect-level情感分類等。
1、A Lexicon-Based Graph Neural Network for Chinese NER
作者:Tao Gui, Yicheng Zou, Qi Zhang;
摘要:遞歸神經網絡(RNN)用于中文命名實體識別(NER)中,能夠對文字信息進行順序跟蹤,取得了很大的成功。然而,由于鏈式結構的特點和缺乏全局語義,基于RNN的模型容易產生歧義。本文試圖通過引入一種全局語義的基于詞典的圖神經網絡來解決這一問題,該網絡利用詞典知識連接字符來捕獲局部成分,而全局中繼節點則可以捕獲全局句子語義和長距離依賴。基于字符、潛在單詞和整個句子語義之間的多重交互,可以有效地解決單詞歧義。在4個NER數據集的實驗表明,該模型與其他基線模型相比有顯著的改進。
網址:
//qizhang.info/paper/emnlp-2019.ner.pdf
2、Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks
作者:Chen Zhang, Qiuchi Li, Dawei Song;
摘要:注意機制和卷積神經網絡(CNNs)由于其固有的方面和上下文詞的語義對齊能力,被廣泛應用于基于方面的情感分類。然而,這些模型缺乏一種機制來解釋相關的句法約束和長距離的詞語依賴,因此可能會錯誤地將句法無關的上下文詞作為判斷方面情緒的線索。為了解決這個問題,我們提出在句子的依存樹上建立一個圖卷積網絡(GCN),以利用句法信息和詞的依存關系。在此基礎上,提出了一種新的面向方面的情感分類框架。在三個基準集合上的實驗表明,我們所提出的模型比一系列最先進的模型更具有相當的有效性,并且進一步證明了圖卷積結構能夠恰當地捕獲語法信息和長距離字的依賴關系。
網址:
3、DialogueGCN A Graph Convolutional Neural Network for Emotion Recognition in Conversation
作者:Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, Alexander Gelbukh;
摘要:會話情感識別(ECC)由于其在醫療、教育、人力資源等多個領域的廣泛應用,近年來受到了研究者的廣泛關注。在本文中,我們提出了對話圖卷積網絡(DialogueGCN),基于圖神經網絡的ERC方法。我們利用對話者的自言和對話人之間的依賴關系來為情緒識別建立會話環境模型。DialogueGCN通過圖形網絡解決了當前基于RNN的方法中存在的上下文傳播問題。我們經驗表明,這種方法緩解了這樣的問題,同時在一些基準的情緒分類數據集上超過了目前的狀態。
網址:
4、Enhancing AMR-to-Text Generation with Dual Graph Representations
作者:Leonardo F. R. Ribeiro, Claire Gardent, Iryna Gurevych;
摘要:基于圖的數據生成文本,如抽象意義表示(AMR),是一個具有挑戰性的任務,因為如何正確地對具有標記邊的圖的結構進行編碼存在固有的困難。為了解決這一難題,我們提出了一種新的圖-序列模型,該模型對AMR圖中包含的結構信息的不同但互補的透視圖進行編碼。該模型學習節點的自頂向下和自下而上的并行表示,以捕獲圖的對比視圖。我們還研究了不同節點消息傳遞策略的使用,使用不同的最先進的圖形編碼器來計算基于傳入和傳出透視圖的節點表示。在我們的實驗中,我們證明了對偶圖表示法可以改進AMR到文本的生成,從而在兩個AMR數據集上取得了最先進的效果。
網址:
5、Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
作者:Linmei Hu, Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li ;
摘要:短文本分類在新聞和推特標記中得到了豐富而重要的應用,以幫助用戶查找相關信息。由于在許多實際用例中缺乏標記的訓練數據,因此迫切需要研究半監督短文本分類。現有的研究大多集中在長文本上,由于標記數據的稀疏性和局限性,在短文本上的表現不盡人意。本文提出了一種新的基于異構圖神經網絡的半監督短文本分類方法,該方法充分利用了標記數據少和未標記數據大的優點,實現了信息在圖上的傳播。特別是,我們提出了一種靈活的HIN(異構信息網絡)框架,用于建模短文本,它可以集成任何類型的附加信息,并捕獲它們之間的關系來解決語義稀疏性。然后,我們提出了基于節點級和類型級注意的雙重注意機制的異構圖注意網絡(HGAT)嵌入HIN進行短文本分類。注意機制可以學習不同相鄰節點的重要性,以及不同節點(信息)類型對當前節點的重要性。大量的實驗結果表明,我們提出的模型在6個基準數據集上的性能顯著優于最先進的方法。
網址:
6、Syntax-Aware Aspect Level Sentiment Classification with Graph Attention Networks
作者:Binxuan Huang, Kathleen M. Carley ;
摘要:Aspect-level情感分類旨在識別向上下文語句給出的aspect表達的情緒。以往的基于神經網絡的方法在很大程度上忽略了句子的句法結構。在本文中,我們提出了一種新的目標依賴圖注意力網絡(TD-GAT)來進行方面層次的情感分類,該網絡明確利用了詞語之間的依賴關系。使用依賴圖,它直接從一個方面目標的語法上下文傳播情感特征。在我們的實驗中,我們證明了我們的方法優于使用GloVe嵌入的多個基線。我們還證明了使用BERT表示可以進一步顯著地提高性能。
網址: