大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。
【導讀】作為世界數據挖掘領域的最高級別的學術會議,ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)每年都會吸引全球領域眾多專業人士參與。今年的 KDD大會計劃將于 2020 年 8 月 23 日 ~27 日在美國美國加利福尼亞州圣地亞哥舉行。上周,KDD 2020官方發布接收論文,共有1279篇論文提交到Research Track,共216篇被接收,接收率16.8%。近期KDD官網公布了接受論文列表,為此,上個月專知小編為大家整理了圖神經網絡相關的論文,這期小編繼續為大家奉上KDD 2020必讀的五篇圖神經網絡(GNN)相關論文-Part 2——多層次GCN、無監督預訓練GCN、圖Hash、GCN主題模型、采樣
KDD 2020 Accepted Paper: //www.kdd.org/kdd2020/accepted-papers
KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、
1. Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction
作者:Hongxu Chen, Hongzhi Yin, Xiangguo Sun, Tong Chen, Bogdan Gabrys, Katarzyna Musial
摘要:跨平臺的賬號匹配在社交網絡分析中發揮著重要作用,并且有利于廣泛的應用。然而,現有的方法要么嚴重依賴于高質量的用戶生成內容(包括用戶興趣模型),要么只關注網絡拓撲結構,存在數據不足的問題,這使得研究這個方向變得很困難。為了解決這一問題,我們提出了一種新的框架,該框架統一考慮了局部網絡結構和超圖結構上的多級圖卷積。該方法克服了現有工作中數據不足的問題,并且不一定依賴于用戶的人口統計信息。此外,為了使所提出的方法能夠處理大規模社交網絡,我們提出了一種兩階段的空間協調機制,在基于網絡分區的并行訓練和跨不同社交網絡的帳戶匹配中對齊嵌入空間。我們在兩個大規模的真實社交網絡上進行了廣泛的實驗。實驗結果表明,該方法的性能比現有的模型有較大幅度的提高。
網址:
2. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
作者:Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, Jie Tang
摘要:圖表示學習已經成為解決現實問題的一種強有力的技術。包括節點分類、相似性搜索、圖分類和鏈接預測在內的各種下游圖學習任務都受益于它的最新發展。然而,關于圖表示學習的現有技術集中于領域特定的問題,并為每個圖訓練專用模型,這通常不可轉移到領域之外的數據。受自然語言處理和計算機視覺在預訓練方面的最新進展的啟發,我們設計了圖對比編碼(Graph Contrastive Coding,GCC)一個無監督的圖表示學習框架來捕捉跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡內部和網絡之間的子圖級別的實例判斷,并利用對比學習來增強模型學習內在的和可遷移的結構表征能力。我們在三個圖學習任務和十個圖數據集上進行了廣泛的實驗。結果表明,GCC在一組不同的數據集上進行預訓練,可以獲得與從頭開始的特定任務訓練的方法相媲美或更好的性能。這表明,預訓練和微調范式對圖表示學習具有巨大的潛力。
網址:
代碼鏈接:
3. GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases
作者:Zongyue Qin, Yunsheng Bai, Yizhou Sun
摘要:圖相似搜索的目的是根據給定的鄰近度,即圖編輯距離(GED),在圖形數據庫中找到與查詢最相似的圖。這是一個被廣泛研究但仍具有挑戰性的問題。大多數研究都是基于剪枝驗證框架,該框架首先對非看好的圖進行剪枝,然后在較小的候選集上進行驗證。現有的方法能夠管理具有數千或數萬個圖的數據庫,但由于其精確的剪枝策略,無法擴展到更大的數據庫。受到最近基于深度學習的語義哈希(semantic hashing)在圖像和文檔檢索中的成功應用的啟發,我們提出了一種新的基于圖神經網絡(GNN)的語義哈希,即GHash,用于近似剪枝。我們首先用真實的GED結果訓練GNN,以便它學習生成嵌入和哈希碼,以保持圖之間的GED。然后建立哈希索引以實現恒定時間內的圖查找。在回答一個查詢時,我們使用哈希碼和連續嵌入作為兩級剪枝來檢索最有希望的候選對象,并將這些候選對象發送到精確的求解器進行最終驗證。由于我們的圖哈希技術利用了近似剪枝策略,與現有方法相比,我們的方法在保持高召回率的同時,實現了顯著更快的查詢時間。實驗表明,該方法的平均速度是目前唯一適用于百萬級數據庫的基線算法的20倍,這表明GHash算法成功地為解決大規模圖形數據庫的圖搜索問題提供了新的方向。
網址:
4. Graph Structural-topic Neural Network
作者:Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin
摘要:圖卷積網絡(GCNS)通過有效地收集節點的局部特征,取得了巨大的成功。然而,GCNS通常更多地關注節點特征,而較少關注鄰域內的圖結構,特別是高階結構模式。然而,這種局部結構模式被顯示為許多領域中的節點屬性。此外,由于網絡很復雜,每個節點的鄰域由各種節點和結構模式的混合組成,不只是單個模式,所有這些模式上的分布都很重要。相應地,在本文中,我們提出了圖結構主題神經網絡,簡稱GraphSTONE,這是一種利用圖的主題模型的GCN模型,使得結構主題廣泛地從概率的角度捕捉指示性的圖結構,而不僅僅是幾個結構。具體地說,我們使用 anonymous walks和Graph Anchor LDA(一種LDA的變體,首先選擇重要的結構模式)在圖上建立主題模型,以降低復雜性并高效地生成結構主題。此外,我們設計了多視圖GCNS來統一節點特征和結構主題特征,并利用結構主題來指導聚合。我們通過定量和定性實驗對我們的模型進行了評估,我們的模型表現出良好的性能、高效率和清晰的可解釋性。
網址:
代碼鏈接:
5. Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks
作者:Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi
摘要:抽樣方法(如節點抽樣、分層抽樣或子圖抽樣)已成為加速大規模圖神經網絡(GNNs)訓練不可缺少的策略。然而,現有的抽樣方法大多基于圖的結構信息,忽略了最優化的動態性,導致隨機梯度估計的方差較大。高方差問題在非常大的圖中可能非常明顯,它會導致收斂速度慢和泛化能力差。本文從理論上分析了抽樣方法的方差,指出由于經驗風險的復合結構,任何抽樣方法的方差都可以分解為前向階段的嵌入近似方差和后向階段的隨機梯度方差,這兩種方差都必須減小,才能獲得較快的收斂速度。我們提出了一種解耦的方差減小策略,利用(近似)梯度信息自適應地對方差最小的節點進行采樣,并顯式地減小了嵌入近似引入的方差。理論和實驗表明,與現有方法相比,該方法即使在小批量情況下也具有更快的收斂速度和更好的泛化能力。
網址:
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。這周會議已經召開,會議論文集已經公開,大家可以自己查看感興趣的論文,專知小編繼續整理WWW 2020 系列論文,這期小編為大家奉上的是WWW 2020五篇知識圖譜+圖神經網絡(KG+GNN)相關論文,供大家參考!——多關系實體對齊、問答推理、動態圖實體鏈接、序列實體鏈接、知識圖譜補全。
WWW 2020 會議論文集: //dl.acm.org/doi/proceedings/10.1145/3366423
WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN
作者:Qi Zhu, Hao Wei, Bunyamin Sisman, Da Zheng, Christos Faloutsos, Xin Luna Dong and Jiawei Han
摘要:知識圖(如Freebase、Yago)是表示各類實體之間豐富真實信息的多關系圖。實體對齊是實現多源知識圖集成的關鍵步驟。它旨在識別涉及同一真實世界實體的不同知識圖中的實體。然而,現有的實體對齊系統忽略了不同知識圖的稀疏性,不能通過單一模型對多類型實體進行對齊。在本文中,我們提出了一種用于多類型實體對齊的聯合圖神經網絡(Collective Graph neural network),稱為CG-MuAlign。與以前的工作不同,CG-MuAlign聯合對齊多種類型的實體,共同利用鄰域信息并將其推廣到未標記的實體類型。具體地說,我們提出了一種新的集中聚集函數1)通過交叉圖和自注意力來緩解知識圖的不完全性,2)通過小批量訓練范例和有效的鄰域抽樣策略,有效地提高了可伸縮性。我們在具有數百萬個實體的真實知識圖上進行了實驗,觀察到了比現有方法更優越的性能。此外,我們的方法的運行時間比目前最先進的深度學習方法要少得多。
網址:
作者:Chen Zhao, Chenyan Xiong, Xin Qian and Jordan Boyd-Graber
摘要:我們介紹了Delft,一個事實問答系統,它將知識圖問答方法的細微和深度與更廣泛的free-文本結合在一起。Delft從Wikipedia構建了一個自由文本知識圖,以實體為節點和句子,其中實體同時出現做為邊。對于每個問題,Delft使用文本句子作為邊,找到將問題實體節點鏈接到候選對象的子圖,創建了密集且覆蓋率高的語義圖。一種新穎的圖神經網絡在free-文本圖上進行推理-通過沿邊句子的信息組合節點上的證據-以選擇最終答案。在三個問答數據集上的實驗表明,Delft能夠比基于機器閱讀的模型、基于BERT的答案排序和記憶網絡更好地回答實體豐富的問題。Delft的優勢既來自于其free-文本知識圖譜的高覆蓋率--是DBpedia關系的兩倍多--也來自于新穎的圖神經網絡,它基于豐富而嘈雜的free-文本證據進行推理。
網址:
作者:Junshuang Wu, Richong Zhang, Yongyi Mao, Hongyu Guo, Masoumeh Soflaei and Jinpeng Huai
摘要:實體鏈接將文檔中提及的命名實體映射到給定知識圖中的合適的實體,已被證明能夠從基于圖卷積網絡(GCN)對實體相關性建模中獲得顯著好處。然而,現有的GCN實體鏈接模型沒有考慮到,一組實體的結構化圖不僅依賴于給定文檔的上下文信息,而且在GCN的不同聚合層上自適應地變化,導致在捕捉實體之間的結構信息方面存在不足。在本文中,我們提出了一種動態的GCN體系結構來有效地應對這一挑戰。模型中的圖結構是在訓練過程中動態計算和修改的。通過聚合動態鏈接節點的知識,我們的GCN模型可以集中識別文檔和知識圖之間的實體映射,并有效地捕捉整個文檔中各個實體提及( mentions)之間的主題一致性。在基準實體連接數據集上的實證研究證實了我們提出的策略的優越性能和動態圖結構的好處。
網址:
作者:Yichao Zhou, Shaunak Mishra, Manisha Verma, Narayan Bhamidipati and Wei Wang
摘要:實體鏈接(EL)是將文本中提及的內容映射到知識庫(KB)中相應實體的任務。這項任務通常包括候選生成(CG)和實體消歧(ED)兩個階段。目前基于神經網絡模型的EL系統取得了較好的性能,但仍然面臨著兩個挑戰:(1)以往的研究在評估模型時沒有考慮候選實體之間的差異。事實上,候選集的質量(特別是黃金召回)對EL結果有影響。因此,如何提候選的素質需要引起更多的關注。(Ii)為了利用提及實體之間的主題一致性,提出了許多聚集ED的圖和序列模型。然而,基于圖的模型對所有候選實體一視同仁,這可能會引入大量的噪聲信息。相反,序列模型只能觀察先前引用的實體,而忽略了當前提及的實體與其后續實體之間的相關性。針對第一個問題,我們提出了一種基于多策略的CG方法來生成高召回率的候選集。對于第二個問題,我們設計了一個序列圖注意力網絡(SeqGat),它結合了圖和序列方法的優點。在我們的模型中,提及( mentions)是按順序處理的。在當前提到的情況下,SeqGAT對其先前引用的實體和后續實體進行動態編碼,并為這些實體分配不同的重要性。這樣既充分利用了主題的一致性,又減少了噪聲干擾。我們在不同類型的數據集上進行了實驗,并在開放的評測平臺上與以前的EL系統進行了比較。比較結果表明,與現有的方法相比,我們的模型有了很大的改進。
網址:
作者:Gaole He, Junyi Li, Wayne Xin Zhao, Peiju Liu and Ji-Rong Wen
摘要:知識圖補全(KGC)任務旨在自動推斷知識圖(KG)中缺失的事實信息。在本文中,我們采取了一個新的視角,旨在利用豐富的用戶-項目交互數據(簡稱用戶交互數據)來改進KGC任務。我們的工作靈感來自于觀察到許多KG實體對應于應用系統中的在線項目。然而,這兩種數據源的固有特性有很大的不同,使用簡單的融合策略很可能會損害原有的性能。為了應對這一挑戰,我們提出了一種新的對抗性學習方法,通過利用用戶交互數據來執行KGC任務。我們的生成器是從用戶交互數據中分離出來的,用來提高鑒別器的性能。鑒別器將從用戶交互數據中學習到的有用信息作為輸入,并逐步增強評估能力,以識別生成器生成的假樣本。為了發現用戶的隱含實體偏好,設計了一種基于圖神經網絡的協同學習算法,并與鑒別器進行聯合優化。這種方法有效地緩解了KGC任務的數據異構性和語義復雜性問題。在三個真實世界數據集上的廣泛實驗已經證明了我們在KGC任務上的方法的有效性。
網址:
摘要 近年來,使用結構化數據建模的圖神經網絡(GNNs)取得了巨大的成功。然而,大多數的GNN都是針對同構圖設計的,在同構圖中,所有的節點和邊都屬于同一種類型,使得它們無法表示異構結構。在這篇論文中,我們提出了一種異構圖 Transformer(HGT)結構來對web級的異構圖進行建模。為了對異構性進行建模,我們設計了節點類型和邊類型的相關參數來描述每個邊上的異構注意力程度,從而使HGT能夠維護不同類型節點和邊的特定表示。為了處理動態異構圖,我們在HGT中引入了相對時間編碼技術,該技術能夠捕獲具有任意持續時間的動態結構依賴關系。針對網絡規模圖數據的處理問題,設計了高效、可擴展的小批量圖數據采樣算法HGSampling。在擁有1.79億個節點和20億個邊的開放學術圖上進行的大量實驗表明,所提出的HGT模型在各種下游任務上的性能始終比所有最先進的GNN基線高9-21%。
關鍵詞:圖神經網絡;異構信息網絡;表示學習;圖嵌入;圖注意力
介紹
異構圖通常對復雜的系統進行抽象和建模,其中不同類型的對象以各種方式相互交互。此類系統的一些常見實例包括學術圖、Facebook實體圖、LinkedIn經濟圖,以及廣泛的物聯網網絡。例如,圖1中的開放學術圖(OAG)[28]包含五種類型的節點:論文、作者、機構、場所(期刊、會議或預印本)和字段,以及它們之間不同類型的關系。
在過去的十年中,人們對異構圖[17]的挖掘進行了大量的研究。其中一個經典的范例就是定義和使用元路徑來對異類結構進行建模,例如PathSim[18]和變元ath2vec[3]。最近,鑒于圖神經網絡(GNNs)的成功[7,9,22],[14,23,26,27]嘗試采用GNNs來學習異構網絡。然而,這些工作面臨著幾個問題:首先,它們大多涉及到為每種類型的異構圖設計元路徑,這需要特定的領域知識;其次,它們要么簡單地假設不同類型的節點/邊共享相同的特征和表示空間,要么為節點類型或單獨的邊類型保留不同的非共享權值,使它們不足以捕獲異類圖的屬性;三是大多忽略了每一個(異構)圖的動態性;最后,它們固有的設計和實現使得它們無法對web規模的異構圖進行建模。
以OAG為例:首先,OAG中的節點和邊可能具有不同的特征分布,如論文具有文本特征,而機構可能具有來自附屬學者的特征,共同作者明顯不同于引文鏈接;OAG一直在不斷發展,例如:1)出版物的數量每12年翻一倍[4];2)KDD會議在1990年代更多地與數據庫相關,而近年來更多地與機器學習相關;最后,OAG包含數億個節點和數十億個關系,使得現有的異構GNN無法擴展來處理它。
針對這些限制和挑戰,我們建議研究異構圖神經網絡,其目標是維護節點和邊類型依賴表示、捕獲網絡動態、避免自定義元路徑和可擴展到web級圖。在這項工作中,我們提出了異構圖 Transformer(HGT)架構來處理所有這些問題。
為了處理圖的異構性,我們引入了節點類型和邊類型依賴注意力機制。HGT中的相互注意不是對每一個類型邊參數化,而是根據其元關系三元組e=(s,t),即 s為節點類型,s與t之間的e的邊類型,t的節點類型。圖1展示了異構學術圖的元關系。具體來說,我們使用這些元關系來對權重矩陣參數化,以計算每條邊上的注意力。因此,允許不同類型的節點和邊維護其特定的表示空間。同時,不同類型的連接節點仍然可以交互、傳遞和聚合消息,而不受其分布差異的限制。由于其架構的性質,HGT可以通過跨層傳遞消息來整合來自不同類型的高階鄰居的信息,這可以看作是軟元路徑。也就是說,即使HGT只將其單跳邊作為輸入,而不需要手動設計元路徑,所提出的注意力機制也可以自動、隱式地學習和提取對不同下游任務重要的元路徑。
為了處理圖數據的動態特性,我們提出了相對時間編碼(RTE)策略來增強HGT。我們不打算將輸入圖分割成不同的時間戳,而是建議將發生在不同時間的所有邊作為一個整體進行維護,并設計RTE策略來對任何持續時間長度的結構性時間依賴關系進行建模,甚至包括不可見的和未來的時間戳。通過端到端訓練,RTE使HGT能夠自動學習異構圖的時間依賴性和演化。
為了處理網絡規模的圖形數據,我們設計了第一個用于小批量GNN訓練的異構子圖采樣算法HGSampling。它的主要思想是樣本異構子圖中不同類型的節點與類似的比例,由于直接使用現有的(均勻)GNN抽樣方法,如GraphSage [7], FastGCN[1],和LADIES[29],結果在高度不平衡的關于節點和邊緣的類型。此外,它還被設計成保持采樣子圖的密度以最小化信息的丟失。通過HGSampling,所有的GNN模型,包括我們提出的HGT,都可以在任意大小的異構圖上進行訓練和推斷。
我們證明了所提出的異構圖Transformer在網絡規模開放學術圖上的有效性和效率,該開放學術圖由1.79億個節點和20億個邊組成,時間跨度從1900年到2019年,這是迄今為止在異構圖上進行的規模最大、跨度最長的表示學習。此外,我們還檢查領域特定的圖表:計算機科學和醫學學術圖表。實驗結果表明,與最先進的GNNs和專用的異構模型相比,在下游任務中HGT可以顯著提高9-21%。我們進一步進行了案例研究,表明了所提出的方法確實能夠自動捕獲不同任務的隱式元路徑的重要性。
論文題目: MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding
摘要: 大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常在異構圖中定義多個元數據來捕獲復合關系并指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。
1、 Adversarial Graph Embedding for Ensemble Clustering
作者:Zhiqiang Tao , Hongfu Liu , Jun Li , ZhaowenWang and Yun Fu;
摘要:Ensemble Clustering通常通過圖分區方法將基本分區集成到共識分區(consensus partition)中,但這種方法存在兩個局限性: 1) 它忽略了重用原始特征; 2)獲得具有可學習圖表示的共識分區(consensus partition)仍未得到充分研究。在本文中,我們提出了一種新穎的對抗圖自動編碼器(AGAE)模型,將集成聚類結合到深度圖嵌入過程中。具體地,采用圖卷積網絡作為概率編碼器,將特征內容信息與共識圖信息進行聯合集成,并使用簡單的內積層作為解碼器,利用編碼的潛變量(即嵌入表示)重建圖。此外,我們還開發了一個對抗正則化器來指導具有自適應分區依賴先驗的網絡訓練。通過對8個實際數據集的實驗,證明了AGAE在幾種先進的深度嵌入和集成聚類方法上的有效性。
網址://www.ijcai.org/proceedings/2019/0494.pdf
2、Attributed Graph Clustering via Adaptive Graph Convolution
作者:Xiaotong Zhang, Han Liu, Qimai Li and Xiao-Ming Wu;
摘要:Attributed Graph聚類是一項具有挑戰性的工作,它要求對圖結構和節點屬性進行聯合建模。圖卷積網絡的研究進展表明,圖卷積能夠有效地將結構信息和內容信息結合起來,近年來基于圖卷積的方法在一些實際屬性網絡上取得了良好的聚類性能。然而,對于圖卷積如何影響聚類性能以及如何正確地使用它來優化不同圖的性能,人們的了解有限。現有的方法本質上是利用固定低階的圖卷積,只考慮每個節點幾跳內的鄰居,沒有充分利用節點關系,忽略了圖的多樣性。本文提出了一種自適應圖卷積方法,利用高階圖卷積捕獲全局聚類結構,并自適應地為不同的圖選擇合適的順序。通過對基準數據集的理論分析和大量實驗,驗證了該方法的有效性。實驗結果表明,該方法與現有的方法相比具有較好的優越性。
網址:
3、Dynamic Hypergraph Neural Networks
作者:Jianwen Jiang , Yuxuan Wei , Yifan Feng , Jingxuan Cao and Yue Gao;
摘要:近年來,基于圖/超圖(graph/hypergraph)的深度學習方法引起了研究者的廣泛關注。這些深度學習方法以圖/超圖結構作為模型的先驗知識。然而,隱藏的重要關系并沒有直接表現在內在結構中。為了解決這個問題,我們提出了一個動態超圖神經網絡框架(DHGNN),它由兩個模塊的堆疊層組成:動態超圖構造(DHG)和超圖卷積(HGC)。考慮到最初構造的超圖可能不適合表示數據,DHG模塊在每一層上動態更新超圖結構。然后引入超圖卷積對超圖結構中的高階數據關系進行編碼。HGC模塊包括兩個階段:頂點卷積和超邊界卷積,它們分別用于聚合頂點和超邊界之間的特征。我們已經在標準數據集、Cora引文網絡和微博數據集上評估了我們的方法。我們的方法優于最先進的方法。通過更多的實驗驗證了該方法對不同數據分布的有效性和魯棒性。
網址:
4、Exploiting Interaction Links for Node Classification with Deep Graph Neural Networks
作者:Hogun Park and Jennifer Neville;
摘要:節點分類是關系機器學習中的一個重要問題。然而,在圖邊表示實體間交互的場景中(例如,隨著時間的推移),大多數當前方法要么將交互信息匯總為鏈接權重,要么聚合鏈接以生成靜態圖。在本文中,我們提出了一種神經網絡結構,它可以同時捕獲時間和靜態交互模式,我們稱之為Temporal-Static-Graph-Net(TSGNet)。我們的主要觀點是,利用靜態鄰居編碼器(可以學習聚合鄰居模式)和基于圖神經網絡的遞歸單元(可以捕獲復雜的交互模式),可以提高節點分類的性能。在我們對節點分類任務的實驗中,與最先進的方法相比,TSGNet取得了顯著的進步——與四個真實網絡和一個合成數據集中的最佳競爭模型相比,TSGNet的分類錯誤減少了24%,平均減少了10%。
網址:
5、Fine-grained Event Categorization with Heterogeneous Graph Convolutional Networks
作者:Hao Peng, Jianxin Li, Qiran Gong, Yangqiu Song, Yuanxing Ning, Kunfeng Lai and Philip S. Yu;
摘要:事件在現實世界中實時發生,可以是涉及多個人和物體的計劃和組織場合。社交媒體平臺發布了大量包含公共事件和綜合話題的文本消息。然而,由于文本中事件元素的異構性以及顯式和隱式的社交網絡結構,挖掘社會事件是一項具有挑戰性的工作。本文設計了一個事件元模式來表征社會事件的語義關聯,并構建了一個基于事件的異構信息網絡(HIN),該網絡融合了外部知識庫中的信息,提出了一種基于對偶流行度圖卷積網絡(PP-GCN)的細粒度社會事件分類模型。我們提出了一種基于事件間社會事件相似度(KIES)的知識元路徑實例,并建立了一個加權鄰域矩陣作為PP-GCN模型的輸入。通過對真實數據收集的綜合實驗,比較各種社會事件檢測和聚類任務。實驗結果表明,我們提出的框架優于其他可選的社會事件分類技術。
網址:
6、Graph Contextualized Self-Attention Network for Session-based Recommendation
作者:Chengfeng Xu, Pengpeng Zhao, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Fuzhen Zhuang, Junhua Fang and Xiaofang Zhou;
摘要:基于會話的推薦旨在預測用戶基于匿名會話的下一步行動,是許多在線服務(比如電子商務,媒體流)中的關鍵任務。近年來,在不使用遞歸網絡和卷積網絡的情況下,自注意力網絡(SAN)在各種序列建模任務中取得了顯著的成功。然而,SAN缺乏存在于相鄰商品上的本地依賴關系,并且限制了其學習序列中商品的上下文表示的能力。本文提出了一種利用圖神經網絡和自注意力機制的圖上下文自注意力模型(GC-SAN),用于基于會話的推薦。在GC-SAN中,我們動態地為會話序列構造一個圖結構,并通過圖神經網絡(GNN)捕獲豐富的局部依賴關系。然后,每個會話通過應用自注意力機制學習長期依賴關系。最后,每個會話都表示為全局首選項和當前會話興趣的線性組合。對兩個真實數據集的大量實驗表明,GC-SAN始終優于最先進的方法。
網址:
7、Graph Convolutional Network Hashing for Cross-Modal Retrieval
作者:Ruiqing Xu , Chao Li , Junchi Yan , Cheng Deng and Xianglong Liu;
摘要:基于深度網絡的跨模態檢索近年來取得了顯著的進展。然而,彌補模態差異,進一步提高檢索精度仍然是一個關鍵的瓶頸。本文提出了一種圖卷積哈希(GCH)方法,該方法通過關聯圖學習模態統一的二進制碼。一個端到端深度體系結構由三個主要組件構成:語義編碼模塊、兩個特征編碼網絡和一個圖卷積網絡(GCN)。我們設計了一個語義編碼器作為教師模塊來指導特征編碼過程,即學生模塊,用于語義信息的挖掘。此外,利用GCN研究數據點之間的內在相似性結構,有助于產生有區別的哈希碼。在三個基準數據集上的大量實驗表明,所提出的GCH方法優于最先進的方法。
網址:
論文題目: Learning to Identify High Betweenness Centrality Nodes from Scratch: A Novel Graph Neural Network Approach
論文摘要:
Betweenness centrality (BC)是網絡分析中廣泛使用的一種中心性度量,它試圖通過最短路徑的比例來描述網絡中節點的重要性。它是許多有價值的應用的關鍵,包括社區檢測和網絡拆除。由于時間復雜度高,在大型網絡上計算BC分數在計算上具有挑戰性。許多基于采樣的近似算法被提出以加速BC的估計。然而,這些方法在大規模網絡上仍然需要相當長的運行時間,并且它們的結果對網絡的微小擾動都很敏感。
在這篇論文中,我們主要研究如何有效識別圖中BC最高的top k節點,這是許多網絡應用程序所必須完成的任務。與以往的啟發式方法不同,我們將該問題轉化為一個學習問題,并設計了一個基于encoder-decoder的框架作為解決方案。具體來說,encoder利用網絡結構將每個節點表示為一個嵌入向量,該嵌入向量捕獲節點的重要結構信息。decoder將每個嵌入向量轉換成一個標量,該標量根據節點的BC來標識節點的相對rank。我們使用pairwise ranking損失來訓練模型,以識別節點的BC順序。通過對小規模網絡的訓練,該模型能夠為較大網絡的節點分配相對BC分數,從而識別出高排名的節點。在合成網絡和真實世界網絡上的實驗表明,與現有的baseline相比,我們的模型在沒有顯著犧牲準確性的情況下大大加快了預測速度,甚至在幾個大型真實世界網絡的準確性方面超過了最先進的水平。
論文作者:
Muhao Chen在加州大學洛杉磯分校獲得了計算機科學博士學位,目前是丹·羅斯教授的博士后研究員。廣泛研究了機器學習和自然語言處理的主題,包括關系學習、序列建模、詞匯語義和圖表示學習。最近的研究全面擴展了表示學習模型,以捕獲多關系數據的各種屬性,包括可轉移性、不確定性和邏輯屬性。
【導讀】自然語言處理國際頂級會議EMNLP 2019于11月3日至11月7日在中國香港舉行。為了帶大家領略高質量論文,專知小編特意整理了六篇EMNLP 2019GNN相關論文,并附上論文鏈接供參考——命名實體識別、情感分類、對話圖卷積網絡、數據生成文本、短文本分類、Aspect-level情感分類等。
1、A Lexicon-Based Graph Neural Network for Chinese NER
作者:Tao Gui, Yicheng Zou, Qi Zhang;
摘要:遞歸神經網絡(RNN)用于中文命名實體識別(NER)中,能夠對文字信息進行順序跟蹤,取得了很大的成功。然而,由于鏈式結構的特點和缺乏全局語義,基于RNN的模型容易產生歧義。本文試圖通過引入一種全局語義的基于詞典的圖神經網絡來解決這一問題,該網絡利用詞典知識連接字符來捕獲局部成分,而全局中繼節點則可以捕獲全局句子語義和長距離依賴。基于字符、潛在單詞和整個句子語義之間的多重交互,可以有效地解決單詞歧義。在4個NER數據集的實驗表明,該模型與其他基線模型相比有顯著的改進。
網址:
//qizhang.info/paper/emnlp-2019.ner.pdf
2、Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks
作者:Chen Zhang, Qiuchi Li, Dawei Song;
摘要:注意機制和卷積神經網絡(CNNs)由于其固有的方面和上下文詞的語義對齊能力,被廣泛應用于基于方面的情感分類。然而,這些模型缺乏一種機制來解釋相關的句法約束和長距離的詞語依賴,因此可能會錯誤地將句法無關的上下文詞作為判斷方面情緒的線索。為了解決這個問題,我們提出在句子的依存樹上建立一個圖卷積網絡(GCN),以利用句法信息和詞的依存關系。在此基礎上,提出了一種新的面向方面的情感分類框架。在三個基準集合上的實驗表明,我們所提出的模型比一系列最先進的模型更具有相當的有效性,并且進一步證明了圖卷積結構能夠恰當地捕獲語法信息和長距離字的依賴關系。
網址:
3、DialogueGCN A Graph Convolutional Neural Network for Emotion Recognition in Conversation
作者:Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, Alexander Gelbukh;
摘要:會話情感識別(ECC)由于其在醫療、教育、人力資源等多個領域的廣泛應用,近年來受到了研究者的廣泛關注。在本文中,我們提出了對話圖卷積網絡(DialogueGCN),基于圖神經網絡的ERC方法。我們利用對話者的自言和對話人之間的依賴關系來為情緒識別建立會話環境模型。DialogueGCN通過圖形網絡解決了當前基于RNN的方法中存在的上下文傳播問題。我們經驗表明,這種方法緩解了這樣的問題,同時在一些基準的情緒分類數據集上超過了目前的狀態。
網址:
4、Enhancing AMR-to-Text Generation with Dual Graph Representations
作者:Leonardo F. R. Ribeiro, Claire Gardent, Iryna Gurevych;
摘要:基于圖的數據生成文本,如抽象意義表示(AMR),是一個具有挑戰性的任務,因為如何正確地對具有標記邊的圖的結構進行編碼存在固有的困難。為了解決這一難題,我們提出了一種新的圖-序列模型,該模型對AMR圖中包含的結構信息的不同但互補的透視圖進行編碼。該模型學習節點的自頂向下和自下而上的并行表示,以捕獲圖的對比視圖。我們還研究了不同節點消息傳遞策略的使用,使用不同的最先進的圖形編碼器來計算基于傳入和傳出透視圖的節點表示。在我們的實驗中,我們證明了對偶圖表示法可以改進AMR到文本的生成,從而在兩個AMR數據集上取得了最先進的效果。
網址:
5、Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification
作者:Linmei Hu, Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li ;
摘要:短文本分類在新聞和推特標記中得到了豐富而重要的應用,以幫助用戶查找相關信息。由于在許多實際用例中缺乏標記的訓練數據,因此迫切需要研究半監督短文本分類。現有的研究大多集中在長文本上,由于標記數據的稀疏性和局限性,在短文本上的表現不盡人意。本文提出了一種新的基于異構圖神經網絡的半監督短文本分類方法,該方法充分利用了標記數據少和未標記數據大的優點,實現了信息在圖上的傳播。特別是,我們提出了一種靈活的HIN(異構信息網絡)框架,用于建模短文本,它可以集成任何類型的附加信息,并捕獲它們之間的關系來解決語義稀疏性。然后,我們提出了基于節點級和類型級注意的雙重注意機制的異構圖注意網絡(HGAT)嵌入HIN進行短文本分類。注意機制可以學習不同相鄰節點的重要性,以及不同節點(信息)類型對當前節點的重要性。大量的實驗結果表明,我們提出的模型在6個基準數據集上的性能顯著優于最先進的方法。
網址:
6、Syntax-Aware Aspect Level Sentiment Classification with Graph Attention Networks
作者:Binxuan Huang, Kathleen M. Carley ;
摘要:Aspect-level情感分類旨在識別向上下文語句給出的aspect表達的情緒。以往的基于神經網絡的方法在很大程度上忽略了句子的句法結構。在本文中,我們提出了一種新的目標依賴圖注意力網絡(TD-GAT)來進行方面層次的情感分類,該網絡明確利用了詞語之間的依賴關系。使用依賴圖,它直接從一個方面目標的語法上下文傳播情感特征。在我們的實驗中,我們證明了我們的方法優于使用GloVe嵌入的多個基線。我們還證明了使用BERT表示可以進一步顯著地提高性能。
網址: