計算機視覺頂會 CVPR 2019 的論文接前幾天公布了接受論文:在超過 5100 篇投稿中,共有 1300 篇被接收,達到了接近 25.2% 的接收率。近期結合圖卷積網絡相關的應用論文非常多,CVPR最新發布的論文也有很多篇,專知小編專門整理了最新五篇圖卷積網絡相關視覺應用論文—零樣本學習、姿態估計、人臉聚類、交互式目標標注和視頻異常檢測。
1、Rethinking Knowledge Graph Propagation for Zero-Shot Learning(零樣本學習中知識圖傳播的再思考)
作者:Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing
摘要:最近,圖卷積神經網絡在零樣本學習任務中顯示出了巨大的潛力。這些模型具有高度的采樣效率,因為圖結構中的相關概念共享statistical strength,允許在缺少數據時對新類進行泛化。然而,由于多層架構需要將知識傳播到圖中較遠的節點,因此在每一層都進行了廣泛的拉普拉斯平滑來稀釋知識,從而降低了性能。為了仍然享受圖結構帶來的好處,同時防止遠距離節點的知識被稀釋,我們提出了一種密集圖傳播(DGP)模塊,該模塊在遠端節點之間精心設計了直接鏈接。DGP允許我們通過附加連接利用知識圖的層次圖結構。這些連接是根據節點與其祖先和后代的關系添加的。為了提高圖中信息的傳播速度,進一步采用加權方案,根據到節點的距離對它們的貢獻進行加權。結合兩階段訓練方法中的表示的微調,我們的方法優于目前最先進的零樣本學習方法。
網址: //www.zhuanzhi.ai/paper/dd4945166583a26685faaad5322162f0
代碼鏈接:
2、3D Hand Shape and Pose Estimation from a Single RGB Image(單一RGB圖像的3D手形和姿態估計)
CVPR 2019 Oral
作者:Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, Junsong Yuan
摘要:這項工作解決了一個新穎且具有挑戰性的問題,從單一RGB圖像估計完整3D手形和姿勢。目前對單目RGB圖像進行三維手部分析的方法大多只注重對手部關鍵點的三維位置進行估計,無法完全表達手部的三維形態。相比之下,我們提出了一種基于圖卷積神經網絡(Graph CNN)的方法來重建一個完整的手部三維網格,其中包含了更豐富的手部三維形狀和姿態信息。為了訓練具有完全監督的網絡,我們創建了一個包含ground truth三維網格和三維姿態的大規模合成數據集。當在真實世界數據集上微調網絡時(沒有三維ground truth),我們提出了一種利用深度圖作為訓練弱監督的方法。通過對所提出的新數據集和兩個公共數據集的廣泛評估,表明我們所提出的方法能夠生成準確合理的三維手部網格,與現有方法相比,能夠獲得更高的三維手部姿態估計精度。
網址:
代碼鏈接:
3、Linkage Based Face Clustering via Graph Convolution Network(通過圖卷積網絡實現基于鏈接的人臉聚類)
作者:Zhongdao Wang,Liang Zheng,Yali Li,Shengjin Wang
摘要:本文提出了一種精確、可擴展的人臉聚類方法。我們的目標是根據一組人臉的潛在身份對它們進行分組。我們將這個任務描述為一個鏈接預測問題:如果兩個面孔具有相同的身份,那么它們之間就存在一個鏈接。關鍵思想是,我們在實例(face)周圍的特征空間中找到本地上下文,其中包含關于該實例及其鄰居之間鏈接關系的豐富信息。通過將每個實例周圍的子圖構造為描述局部上下文的輸入數據,利用圖卷積網絡(GCN)進行推理,并推斷出子圖中對之間鏈接的可能性。實驗表明,與傳統方法相比,我們的方法對復雜的人臉分布具有更強的魯棒性,在標準人臉聚類基準測試上與最先進的方法具有良好的可比性,并且可擴展到大型數據集。此外,我們證明了該方法不像以前那樣需要事先知道簇的數量,能夠識別噪聲和異常值,并且可以擴展到多視圖版本,以獲得更精確的聚類精度。
網址:
4、Fast Interactive Object Annotation with Curve-GCN(使用Curve-GCN進行快速交互式目標標注)
作者:Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, Sanja Fidler
摘要:通過跟蹤邊界來手動標記對象是一個繁重的過程。 在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN體系結構以一種循環的方式生成多邊形注釋,允許通過人在環中進行交互式校正。我們提出了一個新的框架,通過使用圖卷積網絡(GCN)同時預測所有頂點,減輕了Polygon-RNN的時序性。我們的模型是端到端訓練的。 它支持多邊形或樣條線的對象標注,從而提高了基于線和曲線對象的標注效率。 結果表明,在自動模式下,curv- gcn的性能優于現有的所有方法,包括功能強大的PSP-DeepLab,并且在交互模式下,curv - gcn的效率明顯高于Polygon-RNN++。我們的模型在自動模式下運行29.3ms,在交互模式下運行2.6ms,比polyicon - rnn ++分別快10倍和100倍。
網址:
代碼鏈接:
5、Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection(圖卷積標簽噪聲清除器: 訓練用于異常檢測的Plug-and-play行為分類器)
作者:Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H. Li, Ge Li
摘要:在以往的工作中,弱標簽下的視頻異常檢測被描述為一個典型的多實例學習問題。在本文中,我們提供了一個新的視角,即在嘈雜標簽下的監督學習任務。在這樣的觀點中,只要去除標簽噪聲,就可以直接將全監督的動作分類器應用到弱監督異常檢測中,并最大限度地利用這些完善的分類器。為此,我們設計了一個圖卷積網絡來校正噪聲標簽。基于特征相似性和時間一致性,我們的網絡將監控信號從高置信度的片段傳播到低置信度的片段。以這種方式,網絡能夠為動作分類器提供清潔的監督。在測試階段,我們只需要從動作分類器獲得片段預測,而無需任何額外的后處理。使用2種類型的動作分類器對3個不同尺度的數據集進行了大量實驗,證明了我們的方法的有效性。值得注意的是,我們在UCF-Crime上獲得了82.12%的幀級AUC分數。
網址:
代碼鏈接:
下載鏈接: 提取碼:34p8
【導讀】計算語言學協會(the Association for Computational Linguistics, ACL)年度會議作為頂級的國際會議,在計算語言學和自然語言處理領域一直備受關注。其接收的論文覆蓋了語義分析、文本挖掘、信息抽取、問答系統、機器翻譯、情感分析和意見挖掘等眾多自然語言處理領域的研究方向。今年,第58屆計算語言學協會(the Association for Computational Linguistics, ACL)年度會議將于2020年7月5日至10日在美國華盛頓西雅圖舉行。受COVID-19疫情影響,ACL 2020將全部改為線上舉行。本次ACL大會共提交了3429篇論文,共有571篇長論文、以及208篇短論文入選。不久之前,專知小編為大家整理了大會的圖神經網絡(GNN)相關論文,這期小編繼續為大家奉上ACL 2020圖神經網絡(GNN)相關論文-Part 2供參考——多文檔摘要、多粒度機器閱讀理解、帖子爭議檢測、GAE。
ACL2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN
1. Leveraging Graph to Improve Abstractive Multi-Document Summarization
作者:Wei Li, Xinyan Xiao, Jiachen Liu, Hua Wu, Haifeng Wang, Junping Du
摘要:捕捉文本單元之間關系圖對于從多個文檔中檢測顯著信息和生成整體連貫的摘要有很大好處。本文提出了一種神經抽取多文檔摘要(MDS)模型,該模型可以利用文檔的常見圖表示,如相似度圖和話語圖(discourse graph),來更有效地處理多個輸入文檔并生成摘要。我們的模型使用圖對文檔進行編碼,以捕獲跨文檔關系,這對于總結長文檔至關重要。我們的模型還可以利用圖來指導摘要的生成過程,這有利于生成連貫而簡潔的摘要。此外,預訓練的語言模型可以很容易地與我們的模型相結合,進一步提高了摘要的性能。在WikiSum和MultiNews數據集上的實驗結果表明,所提出的體系結構在幾個強大的基線上帶來了實質性的改進。
網址: //arxiv.org/abs/2005.10043
2. Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension
作者:Bo Zheng, Haoyang Wen, Yaobo Liang, Nan Duan, Wanxiang Che, Daxin Jiang, Ming Zhou, Ting Liu
摘要:“自然問題”是一種具有挑戰性的新的機器閱讀理解基準,其中包含兩個答案:長答案(通常是一個段落)和短答案(長答案中的一個或多個實體)。盡管此基準測試的現有方法很有效,但它們在訓練期間單獨處理這兩個子任務,忽略了它們間的依賴關系。為了解決這個問題,我們提出了一種新穎的多粒度機器閱讀理解框架,該框架專注于對文檔的分層性質進行建模,這些文檔具有不同的粒度級別:文檔、段落、句子和詞。我們利用圖注意力網絡來獲得不同層次的表示,以便它們可以同時學習。長答案和短答案可以分別從段落級表示和詞級表示中提取。通過這種方式,我們可以對兩個粒度的答案之間的依賴關系進行建模,以便為彼此提供證據。我們聯合訓練這兩個子任務,實驗表明,我們的方法在長答案和短答案標準上都明顯優于以前的系統。
網址:
代碼鏈接:
3. Integrating Semantic and Structural Information with Graph Convolutional Network for Controversy Detection
作者:Lei Zhong, Juan Cao, Qiang Sheng, Junbo Guo, Ziang Wang
摘要:識別社交媒體上有爭議的帖子是挖掘公眾情緒、評估事件影響、緩解兩極分化觀點的基礎任務。然而,現有的方法不能1)有效地融合來自相關帖子內容的語義信息;2)保留回復關系建模的結構信息;3)正確處理與訓練集中主題不同的帖子。為了克服前兩個局限性,我們提出了主題-帖子-評論圖卷積網絡(TPC-GCN),它綜合了來自主題、帖子和評論的圖結構和內容的信息,用于帖子級別的爭議檢測。對于第三個限制,我們將模型擴展到分離的TPC-GCN(DTPC-GCN),將主題相關和主題無關的特征分離出來,然后進行動態融合。在兩個真實數據集上的大量實驗表明,我們的模型優于現有的方法。結果和實例分析表明,該模型能夠將語義信息和結構信息有機地結合在一起,具有較強的通用性。
網址:
4. Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward
作者:Luyang Huang, Lingfei Wu, Lu Wang
摘要:用于抽取摘要的序列到序列(sequence-to-sequence )模型已經被廣泛研究,但是生成的摘要通常受到捏造的內容的影響,并且經常被發現是near-extractive的。我們認為,為了解決這些問題,摘要生成器應通過輸入獲取語義解釋,例如通過結構化表示,以允許生成更多信息的摘要。在本文中,我們提出了一種新的抽取摘要框架--Asgard,它具有圖形增強和語義驅動的特點。我們建議使用雙重編碼器-序列文檔編碼器和圖形結構編碼器-來保持實體的全局上下文和局部特征,并且相互補充。我們進一步設計了基于多項選擇完形填空測試的獎勵,以驅動模型更好地捕捉實體交互。結果表明,我們的模型在紐約時報和CNN/每日郵報的數據集上都比沒有知識圖作為輸入的變體產生了更高的Rouge分數。與從大型預訓練的語言模型中優化的系統相比,我們也獲得了更好或可比的性能。評委進一步認為我們的模型輸出信息更豐富,包含的不實錯誤更少。
網址:
5. A Graph Auto-encoder Model of Derivational Morphology
作者:Valentin Hofmann, Hinrich Schutze, Janet B. Pierrehumberty
摘要:關于派生詞的形態良好性(morphological well-formedness, MWF)建模工作在語言學中被認為是一個復雜而困難的問題,并且這方面的研究工作較少。我們提出了一個圖自編碼器學習嵌入以捕捉派生詞中詞綴和詞干的兼容性信息。自編碼器通過將句法和語義信息與來自心理詞典的關聯信息相結合,很好地模擬了英語中的MWF。
網址:
【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議 CVPR 每年都會吸引全球領域眾多專業人士參與。由于受COVID-19疫情影響,原定于6月16日至20日在華盛頓州西雅圖舉行的CVPR 2020將全部改為線上舉行。今年的CVPR有6656篇有效投稿,最終有1470篇論文被接收,接收率為22%左右。之前小編為大家整理過CVPR 2020 GNN 相關論文,這周小編繼續為大家整理了五篇CVPR 2020 圖神經網絡(GNN)相關論文,供大家參考——行為識別、少樣本學習、仿射跳躍連接、多層GCN、3D視頻目標檢測。
CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN
1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition
作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang
摘要:基于骨架的動作識別算法廣泛使用時空圖對人體動作動態進行建模。為了從這些圖中捕獲魯棒的運動模式,長范圍和多尺度的上下文聚合與時空依賴建模是一個強大的特征提取器的關鍵方面。然而,現有的方法在實現(1)多尺度算子下的無偏差長范圍聯合關系建模和(2)用于捕捉復雜時空依賴的通暢的跨時空信息流方面存在局限性。在這項工作中,我們提出了(1)一種簡單的分解(disentangle)多尺度圖卷積的方法和(2)一種統一的時空圖卷積算子G3D。所提出的多尺度聚合方法理清了不同鄰域中節點對于有效的遠程建模的重要性。所提出的G3D模塊利用密集的跨時空邊作為跳過連接(skip connections),用于在時空圖中直接傳播信息。通過耦合上述提議,我們開發了一個名為MS-G3D的強大的特征提取器,在此基礎上,我們的模型在三個大規模數據集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能優于以前的最先進方法。
網址: //arxiv.org/pdf/2003.14111.pdf
代碼鏈接: github.com/kenziyuliu/ms-g3d
2. DPGN: Distribution Propagation Graph Network for Few-shot Learning
作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu
摘要:大多數基于圖網絡的元學習方法都是為實例的instance-level關系進行建模。我們進一步擴展了此思想,以1-vs-N的方式將一個實例與所有其他實例的分布級關系明確建模。我們提出了一種新的少樣本學習方法--分布傳播圖網絡(DPGN)。它既表達了每個少樣本學習任務中的分布層次關系,又表達了實例層次關系。為了將所有實例的分布層關系和實例層關系結合起來,我們構造了一個由點圖和分布圖組成的對偶全圖網絡,其中每個節點代表一個實例。DPGN采用雙圖結構,在更新時間內將標簽信息從帶標簽的實例傳播到未帶標簽的實例。在少樣本學習的大量基準實驗中,DPGN在監督設置下以5%~12%和在半監督設置下以7%~13%的優勢大大超過了最新的結果。
網址:
代碼鏈接:
3. Geometrically Principled Connections in Graph Neural Networks
作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou
摘要:圖卷積操作為以前認為遙不可及的各種圖形和網格處理任務帶來了深度學習的優勢。隨著他們的持續成功,人們希望設計更強大的體系結構,這通常是將現有的深度學習技術應用于非歐幾里得數據。在這篇文章中,我們認為幾何應該仍然是幾何深度學習這一新興領域創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形和數據近似模型(徑向基函數(RBF))相關聯。我們推測,與RBF一樣,圖卷積層將從向功能強大的卷積核中添加簡單函數中受益。我們引入了仿射跳躍連接 (affine skip connections),這是一種通過將全連接層與任意圖卷積算子相結合而形成的一種新的構建塊。通過實驗證明了我們的技術的有效性,并表明性能的提高是參數數量增加的結果。采用仿射跳躍連接的算子在形狀重建、密集形狀對應和圖形分類等每一項任務上的表現都明顯優于它們的基本性能。我們希望我們簡單有效的方法將成為堅實的基準,并有助于簡化圖神經網絡未來的研究。
網址:
4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks
作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen
摘要:圖卷積網絡(GCN)在許多應用中越來越受歡迎,但在大型圖形數據集上的訓練仍然是出了名的困難。它們需要遞歸地計算鄰居的節點表示。當前的GCN訓練算法要么存在隨層數呈指數增長的高計算成本,要么存在加載整個圖和節點嵌入的高內存使用率問題。本文提出了一種新的高效的GCN分層訓練框架(L-GCN),該框架將訓練過程中的特征聚合和特征變換分離開來,從而大大降低了時間和存儲復雜度。我們在圖同構框架下給出了L-GCN的理論分析,在溫和的條件下,與代價更高的傳統訓練算法相比L-GCN可以產生同樣強大的GCN。我們進一步提出了L2-GCN,它為每一層學習一個控制器,該控制器可以自動調整L-GCN中每一層的訓練周期。實驗表明,L-GCN比現有技術快至少一個數量級,內存使用量的一致性不依賴于數據集的大小,同時保持了還不錯的預測性能。通過學習控制器,L2-GCN可以將訓練時間進一步減少一半。
網址:
代碼鏈接:
補充材料:
5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention
作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang
摘要:現有的基于LiDAR的3D目標檢測算法通常側重于單幀檢測,而忽略了連續點云幀中的時空信息。本文提出了一種基于點云序列的端到端在線3D視頻對象檢測器。該模型包括空間特征編碼部分和時空特征聚合部分。在前一個組件中,我們提出了一種新的柱狀消息傳遞網絡(Pillar Message Passing Network,PMPNet)來對每個離散點云幀進行編碼。它通過迭代信息傳遞的方式自適應地從相鄰節點收集柱節點的信息,有效地擴大了柱節點特征的感受野。在后一組件中,我們提出了一種注意力時空轉換GRU(AST-GRU)來聚合時空信息,通過注意力記憶門控機制增強了傳統的ConvGRU。AST-GRU包含一個空間Transformer Attention(STA)模塊和一個時間Transformer Attention(TTA)模塊,分別用于強調前景對象和對齊動態對象。實驗結果表明,所提出的3D視頻目標檢測器在大規模的nuScenes基準測試中達到了最先進的性能。
網址:
代碼鏈接:
【導讀】計算語言學協會(the Association for Computational Linguistics, ACL)年度會議作為頂級的國際會議,在計算語言學和自然語言處理領域一直備受關注。其接收的論文覆蓋了語義分析、文本挖掘、信息抽取、問答系統、機器翻譯、情感分析和意見挖掘等眾多自然語言處理領域的研究方向。今年,第58屆計算語言學協會(the Association for Computational Linguistics, ACL)年度會議將于2020年7月5日至10日在美國華盛頓西雅圖舉行。受COVID-19疫情影響,ACL 2020將全部改為線上舉行。為此,專知小編提前為大家整理了ACL 2020圖神經網絡(GNN)相關論文,讓大家先睹為快——事實驗證、法律文書、謠言檢測、自動摘要、情感分析。
WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
1. Fine-grained Fact Verification with Kernel Graph Attention Network
作者:Zhenghao Liu, Chenyan Xiong, Maosong Sun, Zhiyuan Liu
摘要:事實驗證(Fact V erification)需要細粒度的自然語言推理能力來找到微妙的線索去識別句法和語義上正確但沒有強有力支持的聲明(well-supported claims)。本文提出了基于核方法的圖注意力網絡(KGAT),該網絡使用基于核的注意力進行更細粒度的事實驗證。給定一個聲明和一組形成證據圖潛在證據的句子,KGAT在圖注意力網絡中引入了可以更好地衡量證據節點重要性的節點核,以及可以在圖中進行細粒度證據傳播的邊緣核,以實現更準確的事實驗證。KGAT達到了70.38%的FEVER得分,在FEVER上大大超過了現有的事實驗證模型(FEVER是事實驗證的大規模基準)。我們的分析表明,與點積注意力相比,基于核的注意力更多地集中在證據圖中的相關證據句子和有意義的線索上,這是KGAT有效性的主要來源。
網址://arxiv.org/pdf/1910.09796.pdf
2. Distinguish Confusing Law Articles for Legal Judgment Prediction
作者:Nuo Xu, Pinghui Wang, Long Chen, Li Pan, Xiaoyan Wang, Junzhou Zhao
摘要:法律審判預測(LJP)是在給出案件事實描述文本的情況下,自動預測案件判決結果的任務,其在司法協助系統中具有良好的應用前景,為公眾提供方便的服務。實際上,由于適用于類似法律條款的法律案件很容易被誤判,經常會產生混淆的指控。在本文中,我們提出了一個端到端的模型--LADAN來解決LJP的任務。為了解決這一問題,現有的方法嚴重依賴領域專家,這阻礙了它在不同法律制度中的應用。為了區分混淆的指控,我們提出了一種新的圖神經網絡來自動學習混淆法律文章之間的細微差別,并設計了一種新的注意力機制,該機制充分利用學習到的差別從事實描述中提取令人信服的鑒別特征。在真實數據集上進行的實驗證明了我們的LADAN算法的優越性。
網址:
3. GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media
作者:Yi-Ju Lu, Cheng-Te Li
摘要:本文解決了在更現實的社交媒體場景下的假新聞檢測問題。給定源短文本推文和相應的沒有文本評論的轉發用戶序列,我們的目的是預測源推文是否是假的,并通過突出可疑轉發者的證據和他們關注的詞語來產生解釋。為了實現這一目標,我們提出了一種新的基于神經網絡的模型--圖感知協同注意網絡(GCAN)。在真實推文數據集上進行的廣泛實驗表明,GCAN的平均準確率比最先進的方法高出16%。此外,案例研究還表明,GCAN可以給出合理的解釋。
網址:
4. Heterogeneous Graph Neural Networks for Extractive Document Summarization
作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang
摘要:作為提取文檔摘要的關鍵步驟,跨句關系學習已經有了大量的研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,該網絡具有更復雜的結構來捕獲句間關系。本文提出了一種基于圖的異構神經網絡抽取摘要算法(HeterSUMGraph),該算法除句子外,還包含不同粒度的語義節點。這些額外的結點起到句子之間的中介作用,豐富了句子之間的關系。此外,通過引入文檔節點,我們的圖結構可以靈活地從單文檔設置自然擴展到多文檔設置。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要的,我們還進行了全面的定性分析,以考察它們的好處。
網址:
代碼鏈接:
5. Relational Graph Attention Network for Aspect-based Sentiment Analysis
作者:Kai Wang, Weizhou Shen, Yunyi Yang, Xiaojun Quan, Rui Wang
摘要:Aspect級的情感分析旨在確定在線評論中對某一特定方面的情感極性。最近的大多數努力采用了基于注意力的神經網絡模型來隱式地將aspect與觀點詞聯系起來。然而,由于語言的復雜性和單句中多個aspect的存在,這些模型往往混淆了它們之間的聯系。在本文中,我們通過對語法信息進行有效的編碼來解決這個問題。首先,我們通過重塑和修剪常規依賴關系樹,定義了一個以目標方面為根的統一的面向aspect的依賴樹結構。然后,我們提出了一種關系圖注意力網絡(R-GAT)來編碼新的樹結構用于情感預測。我們在SemEval 2014和Twitter數據集上進行了廣泛的實驗,實驗結果證實,該方法可以更好地建立aspect和觀點詞之間的聯系,從而顯著提高了圖注意網絡(GAT)的性能。
網址:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。
CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu
摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao
摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。
網址:
作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu
摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。
網址:
作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou
摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。
網址:
作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath
摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。
網址:
代碼鏈接:
【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點云分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。
1. Grid-GCN for Fast and Scalable Point Cloud Learning
作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann
摘要:由于點云數據的稀疏性和不規則性,越來越多的方法直接使用點云數據。在所有基于point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關系表現出顯著的性能。然而,基于點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限制了其速度和可擴展性。本文提出了一種快速、可擴展的點云學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間復雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點云分類和分割基準上實現了最先進的性能,并且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。
2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning
作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha
摘要:充分利用視覺和語言的信息對于視頻字幕任務至關重要。現有的模型由于忽視了目標之間的交互而缺乏足夠的視覺表示,并且由于長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕系統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基于目標關系圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用于訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL系統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們系統的有效性。
網址:
3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
作者:Abduallah Mohamed and Kun Qian
摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在只有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。
網址:
代碼鏈接:
4. Unbiased Scene Graph Generation from Biased Training
作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang
摘要:由于嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基于這樣的SGG,VQA等下游任務很難推斷出比一系列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在后面/前面簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基于因果推理的SGG框架。我們首先為SGG建立因果關系圖,然后用該因果關系圖進行傳統的有偏差訓練。然后,我們提出從訓練好的圖中提取反事實因果關系(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。
網址:
代碼鏈接:
5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences
作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao
摘要:在本文中,我們考慮了一項用于多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能只存在于視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由于無效的管道預生成和缺乏對象關系建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關系,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然后,我們將文本線索加入到圖中,并開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關系數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。
網址: