論文題目: Learning to Identify High Betweenness Centrality Nodes from Scratch: A Novel Graph Neural Network Approach
論文摘要:
Betweenness centrality (BC)是網絡分析中廣泛使用的一種中心性度量,它試圖通過最短路徑的比例來描述網絡中節點的重要性。它是許多有價值的應用的關鍵,包括社區檢測和網絡拆除。由于時間復雜度高,在大型網絡上計算BC分數在計算上具有挑戰性。許多基于采樣的近似算法被提出以加速BC的估計。然而,這些方法在大規模網絡上仍然需要相當長的運行時間,并且它們的結果對網絡的微小擾動都很敏感。
在這篇論文中,我們主要研究如何有效識別圖中BC最高的top k節點,這是許多網絡應用程序所必須完成的任務。與以往的啟發式方法不同,我們將該問題轉化為一個學習問題,并設計了一個基于encoder-decoder的框架作為解決方案。具體來說,encoder利用網絡結構將每個節點表示為一個嵌入向量,該嵌入向量捕獲節點的重要結構信息。decoder將每個嵌入向量轉換成一個標量,該標量根據節點的BC來標識節點的相對rank。我們使用pairwise ranking損失來訓練模型,以識別節點的BC順序。通過對小規模網絡的訓練,該模型能夠為較大網絡的節點分配相對BC分數,從而識別出高排名的節點。在合成網絡和真實世界網絡上的實驗表明,與現有的baseline相比,我們的模型在沒有顯著犧牲準確性的情況下大大加快了預測速度,甚至在幾個大型真實世界網絡的準確性方面超過了最先進的水平。
論文作者:
Muhao Chen在加州大學洛杉磯分校獲得了計算機科學博士學位,目前是丹·羅斯教授的博士后研究員。廣泛研究了機器學習和自然語言處理的主題,包括關系學習、序列建模、詞匯語義和圖表示學習。最近的研究全面擴展了表示學習模型,以捕獲多關系數據的各種屬性,包括可轉移性、不確定性和邏輯屬性。
大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。
論文題目: MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding
摘要: 大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常在異構圖中定義多個元數據來捕獲復合關系并指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。
題目: Network Representation Learning: A Survey
摘要:
隨著信息技術的廣泛應用,信息網絡越來越受到人們的歡迎,它可以捕獲各種學科之間的復雜關系,如社交網絡、引用網絡、電信網絡和生物網絡。對這些網絡的分析揭示了社會生活的不同方面,如社會結構、信息傳播和交流模式。然而,在現實中,大規模的信息網絡往往使網絡分析任務計算昂貴或難以處理。網絡表示學習是近年來提出的一種新的學習范式,通過保留網絡拓撲結構、頂點內容和其它邊信息,將網絡頂點嵌入到低維向量空間中。這有助于在新的向量空間中方便地處理原始網絡,以便進行進一步的分析。在這項調查中,我們全面回顧了目前在數據挖掘和機器學習領域的網絡表示學習的文獻。我們提出了新的分類法來分類和總結最先進的網絡表示學習技術,根據潛在的學習機制、要保留的網絡信息、以及算法設計和方法。我們總結了用于驗證網絡表示學習的評估協議,包括已發布的基準數據集、評估方法和開源算法。我們還進行了實證研究,以比較代表性的算法對常見數據集的性能,并分析其計算復雜性。最后,我們提出有希望的研究方向,以促進未來的研究。
作者簡介:
Xingquan Zhu是佛羅里達大西洋大學計算機與電氣工程和計算機科學系的教授,在中國上海復旦大學獲得了計算機科學博士學位。曾在多家研究機構和大學工作過,包括微軟亞洲研究院(實習)、普渡大學、佛蒙特大學和悉尼科技大學。主要研究方向:數據挖掘、機器學習、多媒體系統、生物信息學。
題目: Graph Embedding Techniques, Applications, and Performance: A Survey
摘要: 圖形,如社交網絡、單詞共現網絡和通信網絡,自然地出現在各種實際應用中。通過對它們的分析,可以深入了解社會結構、語言和不同的交流模式。已經提出了許多方法來進行分析。近年來,在向量空間中使用圖節點表示的方法受到了研究界的廣泛關注。在這項調查中,我們對文獻中提出的各種圖嵌入技術進行了全面和結構化的分析。我們首先介紹了嵌入任務及其面臨的挑戰,如可伸縮性、維度的選擇、要保留的特性以及可能的解決方案。然后,我們提出了基于因子分解法、隨機游動和深度學習的三類方法,并舉例說明了每類算法的代表性,分析了它們在不同任務中的性能。我們在一些常見的數據集上評估這些最新的方法,并將它們的性能進行比較。我們的分析最后提出了一些潛在的應用和未來的方向。
作者簡介: Palash Goyal,南加州大學計算機系博士。
Emilio Ferrara,南加州大學計算機科學系助理研究教授和應用數據科學副主任,南加州大學信息科學研究所機器智能和數據科學(MINDS)小組的研究組長和首席研究員。
論文題目: Graph Transformer Network
論文摘要:
圖神經網絡(GNNs)在圖表示學習中得到了廣泛的應用,實現了節點分類和連接預測等任務的最佳性能。然而,大多數現有的GNNs都被設計為在固定(fix)和同質(homogeneous)的圖上學習節點表示。當在不確定的圖或由各種類型的節點和邊組成的異構(heterogeneous)圖上學習表示時,這些限制尤其成問題。本文提出了能夠生成新的圖結構的圖變換網絡(Graph Transformer Networks, GTNs),它涉及在原始圖上識別未連接節點之間的有用連接,同時以端到端方式學習新圖上的有效節點表示。圖變換層是GTNs的核心層,學習邊類型和復合關系的軟選擇,以產生有用的多跳連接,即所謂的元路徑。我們的實驗表明,GTNs基于數據和任務,在沒有領域知識(domain knowledge)的情況下學習新的圖結構,并通過在新圖上的卷積產生強大的節點表示。在沒有域特定的圖預處理的情況下,GTNs在所有三個benchmark節點分類任務中實現了對比需要領域知識的預定義的元路徑的現有技術方法的最佳性能。本文提出了能夠生成新的圖結構的圖變換網絡(Graph Transformer Networks, GTNs),該方法將異構圖轉化為由任意邊類型和任意長度的元路徑定義的多個新圖,同時通過對學習到的元路徑圖進行卷積學習節點表示。GTN打破了手工構建元路徑的現狀,構建了自動化的圖生成及表示學習模式。
作者簡介:
Raehyun Kim目前在高麗大學計算機科學與工程學院,研究領域為股票市場預測,推薦系統,決策支持系統。
Hyunwoo J. Kim目前在高麗大學計算機科學與工程學院助理教授,研究興趣為機器學習、計算機視覺、數值優化、多方面統計數據、深度學習。
論文下載鏈接: //arxiv.org/pdf/1911.06455.pdf
論文題目: Initialization for Network Embedding: A Graph Partition Approach
論文摘要: 網絡嵌入已經在文獻中得到了深入的研究,并廣泛用于各種應用中,如鏈接預測和節點分類。盡管先前的工作集中在新算法的設計上或針對各種問題設置進行了量身定制,但常常忽略了學習過程中對初始化策略的討論。在這項工作中,我們解決了這個重要的網絡嵌入初始化問題,它可以顯著地提高算法的有效性和效率。具體來說,我們首先利用graph partition技術將圖劃分為幾個不相交的子集,然后基于這些partition構造一個abstract graph。我們通過計算abstract graph上的網絡嵌入,得到圖中每個節點的嵌入初始化,abstract graph上的網絡嵌入比輸入圖小得多,然后將嵌入傳播到輸入圖的節點中。通過對各種數據集的大量實驗,我們證明了我們的初始化技術顯著提高了最先進算法在鏈接預測和節點分類方面的性能,分別提高了7.76%和8.74%。此外,我們證明了初始化技術至少減少了20%的運行時間。
作者簡介: Wenqing Lin,騰訊高級研究員,新加坡南洋理工大學計算機科學系博士。
論文題目: A Structural Graph Representation Learning Framework
論文摘要: 許多基于圖的機器學習任務的成功在很大程度上取決于從圖數據中學習到的適當表示。大多數工作都集中在于學習保留鄰近性的節點嵌入,而不是保留節點之間結構相似性的基于結構的嵌入。這些方法無法捕獲對基于結構的應用程序(如web日志中的visitor stitching)至關重要的高階結構依賴和連接模式。在這項工作中,我們闡述了高階網絡表示學習,并提出了一個稱為HONE的通用框架,用于通過節點鄰域中的子圖模式(network motifs, graphlet orbits/positions)從網絡中學習這種結構性節點嵌入。HONE引入了一種通用的diffusion機制和一種節省空間的方法,該方法避免了使用k-step線性算子來顯式構造k-step motif-based矩陣。此外,HONE被證明是快速和有效的,最壞情況下的時間復雜度幾乎是線性的。實驗結果表明,該算法能有效地處理大量的網絡日志數據,包括鏈接預測和visitor stitching。
作者簡介:
Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。我在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。
The application of deep learning to symbolic domains remains an active research endeavour. Graph neural networks (GNN), consisting of trained neural modules which can be arranged in different topologies at run time, are sound alternatives to tackle relational problems which lend themselves to graph representations. In this paper, we show that GNNs are capable of multitask learning, which can be naturally enforced by training the model to refine a single set of multidimensional embeddings $\in \mathbb{R}^d$ and decode them into multiple outputs by connecting MLPs at the end of the pipeline. We demonstrate the multitask learning capability of the model in the relevant relational problem of estimating network centrality measures, i.e. is vertex $v_1$ more central than vertex $v_2$ given centrality $c$?. We then show that a GNN can be trained to develop a $lingua$ $franca$ of vertex embeddings from which all relevant information about any of the trained centrality measures can be decoded. The proposed model achieves $89\%$ accuracy on a test dataset of random instances with up to 128 vertices and is shown to generalise to larger problem sizes. The model is also shown to obtain reasonable accuracy on a dataset of real world instances with up to 4k vertices, vastly surpassing the sizes of the largest instances with which the model was trained ($n=128$). Finally, we believe that our contributions attest to the potential of GNNs in symbolic domains in general and in relational learning in particular.