論文題目: Graph Transformer Network
論文摘要:
圖神經網絡(GNNs)在圖表示學習中得到了廣泛的應用,實現了節點分類和連接預測等任務的最佳性能。然而,大多數現有的GNNs都被設計為在固定(fix)和同質(homogeneous)的圖上學習節點表示。當在不確定的圖或由各種類型的節點和邊組成的異構(heterogeneous)圖上學習表示時,這些限制尤其成問題。本文提出了能夠生成新的圖結構的圖變換網絡(Graph Transformer Networks, GTNs),它涉及在原始圖上識別未連接節點之間的有用連接,同時以端到端方式學習新圖上的有效節點表示。圖變換層是GTNs的核心層,學習邊類型和復合關系的軟選擇,以產生有用的多跳連接,即所謂的元路徑。我們的實驗表明,GTNs基于數據和任務,在沒有領域知識(domain knowledge)的情況下學習新的圖結構,并通過在新圖上的卷積產生強大的節點表示。在沒有域特定的圖預處理的情況下,GTNs在所有三個benchmark節點分類任務中實現了對比需要領域知識的預定義的元路徑的現有技術方法的最佳性能。本文提出了能夠生成新的圖結構的圖變換網絡(Graph Transformer Networks, GTNs),該方法將異構圖轉化為由任意邊類型和任意長度的元路徑定義的多個新圖,同時通過對學習到的元路徑圖進行卷積學習節點表示。GTN打破了手工構建元路徑的現狀,構建了自動化的圖生成及表示學習模式。
作者簡介:
Raehyun Kim目前在高麗大學計算機科學與工程學院,研究領域為股票市場預測,推薦系統,決策支持系統。
Hyunwoo J. Kim目前在高麗大學計算機科學與工程學院助理教授,研究興趣為機器學習、計算機視覺、數值優化、多方面統計數據、深度學習。
論文下載鏈接: //arxiv.org/pdf/1911.06455.pdf
最近,人們對在非歐幾里得空間中表示數據的方法(例如雙曲或球面)越來越感興趣,這些方法提供了對某些真實世界數據屬性(例如無尺度、分層或循環)有用的特定歸納偏差。然而,流行的圖神經網絡目前僅限于通過歐幾里得幾何和相關的向量空間操作來建模數據。在這里,我們通過提出將圖卷積網絡(GCN)在數學基礎上推廣為常曲率空間的(乘積)來彌補這一差距。我們通過i)引入一種統一的形式,可以在所有常曲率幾何之間平滑地插入,ii)利用陀螺質心坐標,推廣了經典的歐幾里德質心概念。當曲率從任何一邊變為零時,我們這類模型平滑地恢復它們的歐幾里得對應模型。根據其離散曲率,我們在非歐幾里得行為的符號數據上的節點分類和失真最小化的任務表現優于歐幾里得GCNs。
概述
圖卷積網絡 針對圖像數據的卷積網絡和深度學習的成功啟發了對于共享參數與圖形幾何形狀一致的圖推廣。Bruna等人(2014);Henaff等人(2015)是利用圖上的局部譜濾波器在圖傅里葉空間中開發頻譜圖卷積神經網絡的先驅。然而,為了減少對拉普拉斯特征模式的圖依賴,Defferrard等人(2016)利用Hammond等人(2011)的結果使用Chebyshev多項式近似卷積濾波器。所得到的方法(在附錄A中討論)在計算效率和精度和復雜性方面是優越的。此外,Kipf和Welling(2017)通過考慮一階近似來簡化這種方法,從而獲得高可伸縮性。提出的圖卷積網絡(GCN)是通過對稱歸一化鄰接矩陣來插值節點嵌入,而這種權值共享可以理解為一種有效的擴散式正則化器。最近的工作擴展了GCNs,實現了鏈接預測(Zhang & Chen, 2018)、圖分類(Hamilton等,2017;和節點分類(Klicpera et al., 2019;Velickoviˇc et al .′, 2018)。
ML中的歐幾里得幾何。在機器學習(ML)中,由于各種原因,數據通常在歐幾里得空間中表示。首先,有些數據本質上是歐幾里得的,比如經典力學中三維空間中的位置。其次,直覺在這樣的空間中更容易,因為它們擁有一個吸引人的矢量結構,允許基本的算術和豐富的線性代數理論。最后,許多感興趣的量,如距離和內積在封閉公式中是已知的,可以在現有的硬件上非常有效地計算。這些操作是當今大多數流行的機器學習模型的基本構建模塊。因此,歐幾里得幾何強大的簡單性和效率已經導致許多方法實現了最先進的任務,如機器翻譯(Bahdanau等,2015;wani et al., 2017),語音識別(Graves et al., 2013),圖像分類(He et al., 2016)或推薦系統(He et al., 2017)。
黎曼ML 盡管取得了成功,但某些類型的數據(例如分層數據、無標度數據或球形數據)被證明可以更好地用非歐幾里德幾何表示(Defferrard et al., 2019;Bronstein等,2017;Nickel & Kiela, 2017;Gu et al., 2019),尤其帶來了豐富的流形學習理論(Roweis & Saul, 2000;和信息幾何(Amari & Nagaoka, 2007)。在活力操縱非歐幾里得幾何的數學框架被稱為黎曼幾何(Spivak, 1979)。雖然它的理論導致了許多強而優雅的結果,但它的一些基本量,如距離函數d(·,·),通常不能以封閉的形式提供,這對許多計算方法都是禁止的。
常曲率幾何的代表性優勢。在一般黎曼流形和歐幾里得空間之間的一個有趣的權衡是由常截面曲率流形給出的。他們一起定義了所謂的雙曲(負曲率),橢圓(正曲率)和歐幾里得(零曲率)幾何。正如下面和附錄B中所討論的,歐幾里得空間在嵌入某些類型的數據(如樹)時具有局限性,并且會產生很大的失真。在這些情況下,雙曲空間和球面空間具有代表性的優勢,為各自的數據提供了更好的歸納偏差。
雙曲空間可以直觀地理解為一棵連續樹:球的體積隨半徑呈指數增長,類似于二叉樹的節點數隨深度呈指數增長(圖1)。它的樹狀性質已經被數學研究了很長時間(Gromov, 1987;哈曼,2017;與歐幾里得幾何結構相比,它被證明能夠更好地嵌入復雜網絡(Krioukov et al., 2010)、無標度圖和分層數據(Cho et al., 2019; Sala et al., 2018; Ganea et al., 2018b; Gu et al., 2019; Nickel & Kiela, 2018; 2017; Tifrea et al., 2019)。一些重要的工具或方法找到了它們的雙曲線對應物,例如變分自編碼器(Mathieu et al., 2019;、注意力機制(Gulcehre等,2018)、矩陣乘法、遞歸單位和多項logistic回歸(Ganea等,2018)。
常曲率空間中的GCNs。在這項工作中,我們引入了一個擴展的圖形卷積網絡,它允許學習存在于具有任何曲率符號的常曲率空間(乘積)中的表示。我們通過將導出的統一陀螺框架與GCNs的有效性相結合來實現這一點(Kipf & Welling, 2017)。與我們的工作同時,Chami等人(2019年);Liu等人(2019)考慮了通過切線空間聚合在雙曲空間中學習嵌入的圖神經網絡。他們的方法將在第3.4節中作更詳細的分析。我們的模型更一般化,因為它在一個包含雙曲空間的嚴格超集中產生表示。
題目: Heterogeneous Graph Attention Network
摘要: 圖神經網絡作為一種基于深度學習的功能強大的圖表示技術,表現出了優越的性能,引起了廣泛的研究興趣。然而,對于包含不同節點和鏈接類型的異構圖,圖神經網絡還沒有充分考慮到這一點。異構性和豐富的語義信息給異構圖的圖神經網絡設計帶來了很大的挑戰。最近,深度學習領域最令人興奮的進展之一是注意力機制,其巨大的潛力在各個領域都得到了很好的展示。本文首先提出了一種基于分層關注的異構圖神經網絡,包括節點級關注和語義級關注。具體來說,節點級注意的目的是學習節點與其基于元路徑的鄰居之間的重要性,而語義級注意能夠學習不同元路徑之間的重要性。通過對節點級和語義級注意的學習,可以充分考慮節點和元路徑的重要性。然后將基于元路徑的鄰域的特征分層聚合,生成節點嵌入。在三個真實世界的異構圖上的廣泛實驗結果不僅顯示了我們所提出的模型的優越性能,而且也顯示了它對圖分析的潛在良好的可解釋性。
摘要 近年來,使用結構化數據建模的圖神經網絡(GNNs)取得了巨大的成功。然而,大多數的GNN都是針對同構圖設計的,在同構圖中,所有的節點和邊都屬于同一種類型,使得它們無法表示異構結構。在這篇論文中,我們提出了一種異構圖 Transformer(HGT)結構來對web級的異構圖進行建模。為了對異構性進行建模,我們設計了節點類型和邊類型的相關參數來描述每個邊上的異構注意力程度,從而使HGT能夠維護不同類型節點和邊的特定表示。為了處理動態異構圖,我們在HGT中引入了相對時間編碼技術,該技術能夠捕獲具有任意持續時間的動態結構依賴關系。針對網絡規模圖數據的處理問題,設計了高效、可擴展的小批量圖數據采樣算法HGSampling。在擁有1.79億個節點和20億個邊的開放學術圖上進行的大量實驗表明,所提出的HGT模型在各種下游任務上的性能始終比所有最先進的GNN基線高9-21%。
關鍵詞:圖神經網絡;異構信息網絡;表示學習;圖嵌入;圖注意力
介紹
異構圖通常對復雜的系統進行抽象和建模,其中不同類型的對象以各種方式相互交互。此類系統的一些常見實例包括學術圖、Facebook實體圖、LinkedIn經濟圖,以及廣泛的物聯網網絡。例如,圖1中的開放學術圖(OAG)[28]包含五種類型的節點:論文、作者、機構、場所(期刊、會議或預印本)和字段,以及它們之間不同類型的關系。
在過去的十年中,人們對異構圖[17]的挖掘進行了大量的研究。其中一個經典的范例就是定義和使用元路徑來對異類結構進行建模,例如PathSim[18]和變元ath2vec[3]。最近,鑒于圖神經網絡(GNNs)的成功[7,9,22],[14,23,26,27]嘗試采用GNNs來學習異構網絡。然而,這些工作面臨著幾個問題:首先,它們大多涉及到為每種類型的異構圖設計元路徑,這需要特定的領域知識;其次,它們要么簡單地假設不同類型的節點/邊共享相同的特征和表示空間,要么為節點類型或單獨的邊類型保留不同的非共享權值,使它們不足以捕獲異類圖的屬性;三是大多忽略了每一個(異構)圖的動態性;最后,它們固有的設計和實現使得它們無法對web規模的異構圖進行建模。
以OAG為例:首先,OAG中的節點和邊可能具有不同的特征分布,如論文具有文本特征,而機構可能具有來自附屬學者的特征,共同作者明顯不同于引文鏈接;OAG一直在不斷發展,例如:1)出版物的數量每12年翻一倍[4];2)KDD會議在1990年代更多地與數據庫相關,而近年來更多地與機器學習相關;最后,OAG包含數億個節點和數十億個關系,使得現有的異構GNN無法擴展來處理它。
針對這些限制和挑戰,我們建議研究異構圖神經網絡,其目標是維護節點和邊類型依賴表示、捕獲網絡動態、避免自定義元路徑和可擴展到web級圖。在這項工作中,我們提出了異構圖 Transformer(HGT)架構來處理所有這些問題。
為了處理圖的異構性,我們引入了節點類型和邊類型依賴注意力機制。HGT中的相互注意不是對每一個類型邊參數化,而是根據其元關系三元組e=(s,t),即 s為節點類型,s與t之間的e的邊類型,t的節點類型。圖1展示了異構學術圖的元關系。具體來說,我們使用這些元關系來對權重矩陣參數化,以計算每條邊上的注意力。因此,允許不同類型的節點和邊維護其特定的表示空間。同時,不同類型的連接節點仍然可以交互、傳遞和聚合消息,而不受其分布差異的限制。由于其架構的性質,HGT可以通過跨層傳遞消息來整合來自不同類型的高階鄰居的信息,這可以看作是軟元路徑。也就是說,即使HGT只將其單跳邊作為輸入,而不需要手動設計元路徑,所提出的注意力機制也可以自動、隱式地學習和提取對不同下游任務重要的元路徑。
為了處理圖數據的動態特性,我們提出了相對時間編碼(RTE)策略來增強HGT。我們不打算將輸入圖分割成不同的時間戳,而是建議將發生在不同時間的所有邊作為一個整體進行維護,并設計RTE策略來對任何持續時間長度的結構性時間依賴關系進行建模,甚至包括不可見的和未來的時間戳。通過端到端訓練,RTE使HGT能夠自動學習異構圖的時間依賴性和演化。
為了處理網絡規模的圖形數據,我們設計了第一個用于小批量GNN訓練的異構子圖采樣算法HGSampling。它的主要思想是樣本異構子圖中不同類型的節點與類似的比例,由于直接使用現有的(均勻)GNN抽樣方法,如GraphSage [7], FastGCN[1],和LADIES[29],結果在高度不平衡的關于節點和邊緣的類型。此外,它還被設計成保持采樣子圖的密度以最小化信息的丟失。通過HGSampling,所有的GNN模型,包括我們提出的HGT,都可以在任意大小的異構圖上進行訓練和推斷。
我們證明了所提出的異構圖Transformer在網絡規模開放學術圖上的有效性和效率,該開放學術圖由1.79億個節點和20億個邊組成,時間跨度從1900年到2019年,這是迄今為止在異構圖上進行的規模最大、跨度最長的表示學習。此外,我們還檢查領域特定的圖表:計算機科學和醫學學術圖表。實驗結果表明,與最先進的GNNs和專用的異構模型相比,在下游任務中HGT可以顯著提高9-21%。我們進一步進行了案例研究,表明了所提出的方法確實能夠自動捕獲不同任務的隱式元路徑的重要性。
題目: MEMORY-BASED GRAPH NETWORKS
摘 要:
圖神經網絡是一類對任意拓撲結構的數據進行操作的深度模型。我們為GNNs引入了一個有效的記憶層,它可以聯合學習節點表示并對圖進行粗化。在此基礎上,我們還引入了兩個新的網絡:基于記憶的GNN (MemGNN)和可以學習層次圖表示的圖存儲網絡(GMN)。實驗結果表明,所提出的模型在9個圖分類和回歸基準中有8個達到了最新的結果。我們也證明了這些表示學習可以對應于分子數據中的化學特征。
題目
幾何圖形卷積網絡,GEOM-GCN: GEOMETRIC GRAPH CONVOLUTIONAL NETWORKS
關鍵字
消息傳遞神經網絡,圖卷積神經網絡,圖表示學習,深度學習
簡介
消息傳遞神經網絡(MPNN)已成功應用于各種現實應用中的圖表示學習。但是,MPNN聚合器的兩個基本弱點限制了它們表示圖結構數據的能力:丟失了鄰居中節點的結構信息,并且缺乏捕獲解離圖中的長期依賴關系的能力。很少有研究注意到不同觀點的弱點。通過對經典神經網絡和網絡幾何的觀察,我們提出了一種新穎的圖神經網絡幾何聚合方案,以克服這兩個缺點。背后的基本思想是圖形上的聚合可以受益于圖形下方的連續空間。提出的聚合方案是置換不變的,由節點嵌入,結構鄰域和雙層聚合三個模塊組成。我們還介紹了該方案在圖卷積網絡(稱為Geom-GCN)中的實現,以對圖執行轉導學習。實驗結果表明,Geom-GCN在各種開放的圖形數據集上均達到了最先進的性能。
作者
Hongbin Pei,Bingzhe Wei,Kevin Chen-Chuan Chang,Yu Lei,Bo Yang
論文題目: Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation
論文摘要
圖神經網絡由于具有識別同構子圖的能力,已經成為一種強大的基于嵌入的實體對齊范式。然而,在真實知識圖(KGs)中,通常是對應的實體 具有非同構的鄰域結構,這很容易導致GNN產生不同的表示。為了解決這一問題,我們提出了一種新的KG對齊網絡,即AliNet,旨在以端到端方式緩解鄰域結構的非同構性。由于模式異構性,對等實體的直接鄰域通常是不相似的,AliNet引入了遠程鄰域來擴展它們的鄰域結構之間的重疊。它采用了一種注意機制,以突出有益的遙遠的鄰域和減少噪音。然后,利用門控機制控制直接和遠處鄰域信息的聚合。我們進一步提出了一個關系損失來細化實體表示。我們進行了深入的實驗,詳細的研究和分析的五個實體對齊數據集,證明了AliNet的有效性。
論文作者
孫澤群是南京大學計算機科學與技術系在讀博士,目前在南京大學軟件新技術國家重點實驗室,博士導師為胡偉副教授。
胡偉,博士,南京大學計算機科學與技術系副教授,博士生導師。2005年、2009年分別于東南大學計算機科學與工程學院獲學士、博士學位。2009年12月加入南京大學工作至今。研究領域為知識挖掘,數據集成,智能軟件。