題目: A Survey on Network Embedding
摘要: 網絡嵌入將網絡中的節點分配給低維表示,有效地保持了網絡結構。近年來,這一新興的網絡分析范式取得了很大的進展。本文首先對網絡嵌入方法進行了分類,然后回顧了網絡嵌入方法的發展現狀,并指出了其未來的研究方向。我們首先總結了網絡嵌入的動機。討論了經典的圖嵌入算法及其與網絡嵌入的關系。隨后,我們對大量的網絡嵌入方法進行了系統的綜述,包括結構和屬性保持的網絡嵌入方法、帶邊信息的網絡嵌入方法和先進的信息保持的網絡嵌入方法。此外,還綜述了幾種網絡嵌入的評價方法和一些有用的在線資源,包括網絡數據集和軟件。最后,我們討論了利用這些網絡嵌入方法構建有效系統的框架,并指出了一些潛在的未來方向。
作者簡介: Peng Cui,清華大學計算機科學與技術系媒體與網絡實驗室副教授。
Jian Pei,現任加拿大大數據科學研究主席(Tier 1)和西蒙弗雷澤大學(Simon Fraser University)計算科學學院教授。他還是統計與精算科學系、科學院和健康科學院的副院士。他是數據科學、大數據、數據挖掘和數據庫系統等領域的知名首席研究員。他的專長是為新的數據密集型應用開發高效的數據分析技術。他被公認為計算機械協會(ACM)的研究員,他為數據挖掘的基礎、方法和應用做出貢獻,并作為電氣與電子工程師協會(IEEE)的研究員,為他的數據挖掘和知識發現做出貢獻。
現實網絡由多種相互作用、不斷進化的實體組成,而現有的研究大多將其簡單地描述為特定的靜態網絡,而沒有考慮動態網絡的演化趨勢。近年來,動態網絡的特性跟蹤研究取得了重大進展,利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與被廣泛提出的靜態網絡嵌入方法相比,動態網絡嵌入努力將節點編碼為低維密集表示,有效地保持了網絡結構和時間動態,有利于處理各種下游機器學習任務。本文對動態網絡嵌入問題進行了系統的研究,重點介紹了動態網絡嵌入的基本概念,首次對現有的動態網絡嵌入技術進行了分類,包括基于矩陣分解的、基于躍格的、基于自動編碼器的、基于神經網絡的等嵌入方法。此外,我們仔細總結了常用的數據集和各種各樣的后續任務,動態網絡嵌入可以受益。在此基礎上,提出了動態嵌入模型、大規模動態網絡、異構動態網絡、動態屬性網絡、面向任務的動態網絡嵌入以及更多的嵌入空間等現有算法面臨的挑戰,并提出了未來可能的研究方向。
題目: A Survey on Dynamic Network Embedding
簡介:
現實世界的網絡由各種相互作用和不斷發展的實體組成,而大多數現有研究只是將它們描述為特定的靜態網絡,而沒有考慮動態網絡的發展趨勢。近來,在跟蹤動態網絡特性方面取得了重大進展,它利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與靜態網絡嵌入方法相比,動態網絡嵌入致力于將節點編碼為低維密集表示形式,從而有效地保留了網絡結構和時間動態特性,這對眾多下游機器學習任務是有益的。在本文中,我們對動態網絡嵌入進行了系統的調查。特別是,描述了動態網絡嵌入的基本概念,特別是,我們首次提出了一種基于現有動態網絡嵌入技術的新分類法,包括基于矩陣分解的方法,基于Skip-Gram的方法,基于自動編碼器,基于神經網絡和其他嵌入方法。此外,我們仔細總結了常用的數據集以及動態網絡嵌入可以帶來的各種后續任務。之后,我們提出了現有算法面臨的幾個挑戰,并概述了促進未來研究的可能方向,例如動態嵌入模型,大規模動態網絡,異構動態網絡,動態屬性網絡,面向任務的動態網絡嵌入和更多的嵌入空間。
【導讀】近年來,隨著網絡數據量的不斷增加,挖掘圖形數據已成為計算機科學領域的熱門研究課題,在學術界和工業界都得到了廣泛的研究。但是,大量的網絡數據為有效分析帶來了巨大的挑戰。因此激發了圖表示的出現,該圖表示將圖映射到低維向量空間中,同時保持原始圖結構并支持圖推理。圖的有效表示的研究具有深遠的理論意義和重要的現實意義,本教程將介紹圖表示/網絡嵌入的一些基本思想以及一些代表性模型。
關于圖或網絡的文獻有兩個名稱:圖表示和網絡嵌入。我們注意到圖和網絡都指的是同一種結構,盡管它們每個都有自己的術語,例如,圖和網絡的頂點和邊。挖掘圖/網絡的核心依賴于正確表示的圖/網絡,這使得圖/網絡上的表示學習成為學術界和工業界的基本研究問題。傳統表示法直接基于拓撲圖來表示圖,通常會導致許多問題,包括稀疏性,高計算復雜性等,從而激發了基于機器學習的方法的出現,這種方法探索了除矢量空間中的拓撲結構外還能夠捕獲額外信息的潛在表示。因此,對于圖來說,“良好”的潛在表示可以更加精確的表示圖形。但是,學習網絡表示面臨以下挑戰:高度非線性,結構保持,屬性保持,稀疏性。
深度學習在處理非線性方面的成功為我們提供了研究新方向,我們可以利用深度學習來提高圖形表示學習的性能,作者在教程中討論了將深度學習技術與圖表示學習相結合的一些最新進展,主要分為兩類方法:面向結構的深層方法和面向屬性的深層方法。
對于面向結構的方法:
結構性深層網絡嵌入(SDNE),專注于保持高階鄰近度。
深度遞歸網絡嵌入(DRNE),其重點是維護全局結構。
深度超網絡嵌入(DHNE),其重點是保留超結構。
對于面向屬性的方法:
專注于不確定性屬性的深度變異網絡嵌入(DVNE)。
深度轉換的基于高階Laplacian高斯過程(DepthLGP)的網絡嵌入,重點是動態屬性。
本教程的第二部分就以上5種方法,通過對各個方法的模型介紹、算法介紹、對比分析等不同方面進行詳細介紹。
1、Structural Deep Network Embedding
network embedding,是為網絡中的節點學習出一個低維表示的方法。目的在于在低維中保持高度非線性的網絡結構特征,但現有方法多采用淺層網絡不足以挖掘高度非線性,或同時保留局部和全局結構特征。本文提出一種結構化深度網絡嵌入方法,叫SDNE該方法用半監督的深度模型來捕捉高度非線性結構,通過結合一階相似性(監督)和二階相似性(非監督)來保留局部和全局特征。
2、 Deep recursive network embedding with regular equivalence
網絡嵌入旨在保留嵌入空間中的頂點相似性。現有方法通常通過節點之間的連接或公共鄰域來定義相似性,即結構等效性。但是,位于網絡不同部分的頂點可能具有相似的角色或位置,即規則的等價關系,在網絡嵌入的文獻中基本上忽略了這一點。以遞歸的方式定義規則對等,即兩個規則對等的頂點具有也規則對等的網絡鄰居。因此,文章中提出了一種名為深度遞歸網絡嵌入(DRNE)的新方法來學習具有規則等價關系的網絡嵌入。更具體地說,我們提出了一種層歸一化LSTM,以遞歸的方式通過聚合鄰居的表示方法來表示每個節點。
3、Structural Deep Embedding for Hyper-Networks
是在hyperedge(超邊是不可分解的)的基礎上保留object的一階和二階相似性,學習異質網絡表示。于與HEBE的區別在于,本文考慮了網絡high-oeder網絡結構和高度稀疏性。
傳統的基于clique expansion 和star expansion的方法,顯式或者隱式地分解網絡。也就說,分解后hyper edge節點地子集,依然可以構成一個新的超邊。對于同質網絡這個假設是合理地,因為同質網絡地超邊,大多數情況下都是根據潛在地相似性(共同地標簽等)構建的。
4、** Deep variational network embedding in wasserstein space**
大多數現有的嵌入方法將節點作為點向量嵌入到低維連續空間中。這樣,邊緣的形成是確定性的,并且僅由節點的位置確定。但是,現實世界網絡的形成和發展充滿不確定性,這使得這些方法不是最優的。為了解決該問題,在本文中提出了一種新穎的在Wasserstein空間中嵌入深度變分網絡(DVNE)。所提出的方法學習在Wasserstein空間中的高斯分布作為每個節點的潛在表示,它可以同時保留網絡結構并為節點的不確定性建模。具體來說,我們使用2-Wasserstein距離作為分布之間的相似性度量,它可以用線性計算成本很好地保留網絡中的傳遞性。此外,我們的方法通過深度變分模型隱含了均值和方差的數學相關性,可以通過均值矢量很好地捕獲節點的位置,而由方差可以很好地捕獲節點的不確定性。此外,本文方法通過保留網絡中的一階和二階鄰近性來捕獲局部和全局網絡結構。
5、Learning embeddings of out-of-sample nodes in dynamic networks
迄今為止的網絡嵌入算法主要是為靜態網絡設計的,在學習之前,所有節點都是已知的。如何為樣本外節點(即學習后到達的節點)推斷嵌入仍然是一個懸而未決的問題。該問題對現有方法提出了很大的挑戰,因為推斷的嵌入應保留復雜的網絡屬性,例如高階鄰近度,與樣本內節點嵌入具有相似的特征(即具有同質空間),并且計算成本較低。為了克服這些挑戰,本文提出了一種深度轉換的高階拉普拉斯高斯過程(DepthLGP)方法來推斷樣本外節點的嵌入。DepthLGP結合了非參數概率建模和深度學習的優勢。特別是,本文設計了一個高階Laplacian高斯過程(hLGP)來對網絡屬性進行編碼,從而可以進行快速和可擴展的推理。為了進一步確保同質性,使用深度神經網絡來學習從hLGP的潛在狀態到節點嵌入的非線性轉換。DepthLGP是通用的,因為它適用于任何網絡嵌入算法學習到的嵌入。
題目: Attention Models in Graphs: A Survey
摘要: 圖結構數據自然地出現在許多不同的應用領域。通過將數據表示為圖形,我們可以捕獲實體(即節點)以及它們之間的關系(即邊)。許多有用的見解可以從圖形結構的數據中得到,這一點已被越來越多的關注于圖形挖掘的工作所證明。然而,在現實世界中,圖可以是大的-有許多復雜的模式-和噪聲,這可能會給有效的圖挖掘帶來問題。解決這一問題的一個有效方法是將“注意力”融入到圖挖掘解決方案中。注意機制允許一個方法關注圖中與任務相關的部分,幫助它做出更好的決策。在這項工作中,我們對圖形注意模型這一新興領域的文獻進行了全面而集中的調查。我們介紹了三個直觀的分類組現有的工作。它們基于問題設置(輸入和輸出類型)、使用的注意機制類型和任務(例如,圖形分類、鏈接預測等)。我們通過詳細的例子來激勵我們的分類法,并使用每種方法從一個獨特的角度來調查競爭方法。最后,我們強調了該領域的幾個挑戰,并討論了未來工作的前景。
作者簡介: Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。她在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。
題目: Network Representation Learning: A Survey
摘要:
隨著信息技術的廣泛應用,信息網絡越來越受到人們的歡迎,它可以捕獲各種學科之間的復雜關系,如社交網絡、引用網絡、電信網絡和生物網絡。對這些網絡的分析揭示了社會生活的不同方面,如社會結構、信息傳播和交流模式。然而,在現實中,大規模的信息網絡往往使網絡分析任務計算昂貴或難以處理。網絡表示學習是近年來提出的一種新的學習范式,通過保留網絡拓撲結構、頂點內容和其它邊信息,將網絡頂點嵌入到低維向量空間中。這有助于在新的向量空間中方便地處理原始網絡,以便進行進一步的分析。在這項調查中,我們全面回顧了目前在數據挖掘和機器學習領域的網絡表示學習的文獻。我們提出了新的分類法來分類和總結最先進的網絡表示學習技術,根據潛在的學習機制、要保留的網絡信息、以及算法設計和方法。我們總結了用于驗證網絡表示學習的評估協議,包括已發布的基準數據集、評估方法和開源算法。我們還進行了實證研究,以比較代表性的算法對常見數據集的性能,并分析其計算復雜性。最后,我們提出有希望的研究方向,以促進未來的研究。
作者簡介:
Xingquan Zhu是佛羅里達大西洋大學計算機與電氣工程和計算機科學系的教授,在中國上海復旦大學獲得了計算機科學博士學位。曾在多家研究機構和大學工作過,包括微軟亞洲研究院(實習)、普渡大學、佛蒙特大學和悉尼科技大學。主要研究方向:數據挖掘、機器學習、多媒體系統、生物信息學。
題目: Graph Summarization Methods and Applications: A Survey
摘要:
雖然計算資源的進步使處理大量數據成為可能,但人類識別這些數據模式的能力并沒有相應提高。因此,壓縮和簡化數據的高效計算方法對于提取可操作的見解變得至關重要。特別是,雖然對數據摘要技術進行了廣泛的研究,但直到最近才開始流行對相互關聯的數據或圖進行匯總。這項調查是一個結構化的,全面的概述了最先進的方法,以總結圖形數據。我們首先討論了圖形摘要背后的動機和挑戰。然后,我們根據作為輸入的圖形類型對摘要方法進行分類,并根據核心方法進一步組織每個類別。最后,我們討論了總結在真實世界圖上的應用,并通過描述該領域的一些開放問題進行了總結。
作者簡介:
Yike Liu是密西根大學物理系五年級的博士生,也是計算機科學與工程系的一名碩士研究生。我是葉杰平教授的顧問。主要研究方向是深度學習和強化學習,尤其是在交通數據上的應用。在此之前,從事過基于圖形的機器學習和數據挖掘,特別是圖形總結和圖形聚類,在這些工作中,開發了圖形挖掘算法,幫助更好地理解底層的圖形組織并理解它。
Tara Safavi是密西根大學博士研究生,研究重點是知識表示及其在以人為中心的任務中的使用、評估和解釋,還對更廣泛的AI+社會問題感興趣,比如隱私、偏見和環境可持續性。研究目前得到了美國國家科學基金會(NSF)研究生獎學金和谷歌女性科技創造者獎學金的支持。
題目: Graph Embedding Techniques, Applications, and Performance: A Survey
摘要: 圖形,如社交網絡、單詞共現網絡和通信網絡,自然地出現在各種實際應用中。通過對它們的分析,可以深入了解社會結構、語言和不同的交流模式。已經提出了許多方法來進行分析。近年來,在向量空間中使用圖節點表示的方法受到了研究界的廣泛關注。在這項調查中,我們對文獻中提出的各種圖嵌入技術進行了全面和結構化的分析。我們首先介紹了嵌入任務及其面臨的挑戰,如可伸縮性、維度的選擇、要保留的特性以及可能的解決方案。然后,我們提出了基于因子分解法、隨機游動和深度學習的三類方法,并舉例說明了每類算法的代表性,分析了它們在不同任務中的性能。我們在一些常見的數據集上評估這些最新的方法,并將它們的性能進行比較。我們的分析最后提出了一些潛在的應用和未來的方向。
作者簡介: Palash Goyal,南加州大學計算機系博士。
Emilio Ferrara,南加州大學計算機科學系助理研究教授和應用數據科學副主任,南加州大學信息科學研究所機器智能和數據科學(MINDS)小組的研究組長和首席研究員。
題目: A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications 摘要: 圖形是一種重要的數據表示形式,它出現在現實世界的各種場景中。有效的圖形分析可以讓用戶更深入地了解數據背后的內容,從而有利于節點分類、節點推薦、鏈路預測等許多有用的應用。然而,大多數圖形分析方法都存在計算量大、空間開銷大的問題。圖嵌入是解決圖分析問題的有效途徑。它將圖形數據轉換為一個低維空間,其中圖形結構信息和圖形屬性被最大程度地保留。在這項調查中,我們對圖嵌入的文獻進行了全面的回顧。本文首先介紹了圖嵌入的形式化定義及相關概念。之后,我們提出了兩個分類的圖形嵌入,對應于什么挑戰存在于不同的圖形嵌入問題設置,以及現有的工作如何解決這些挑戰,在他們的解決方案。最后,我們總結了圖形嵌入在計算效率、問題設置、技術和應用場景等方面的應用,并提出了四個有前途的研究方向。
作者簡介: Hongyun Cai,經驗豐富的研究人員,有在研究行業工作的經驗。精通計算機科學,C++,數據庫,Java和機器學習。昆士蘭大學計算機科學專業研究生,哲學博士。
Vincent W. Zheng,新加坡先進數字科學中心(ADSC)的研究科學家,也是伊利諾伊大學香檳分校協調科學實驗室的研究附屬機構。他目前領導著ADSC的大型社交項目。該項目旨在利用目前在我們的數字社會(即社交媒體)中普遍存在的巨大“人類傳感器”,并實現對此類數據的社會分析,從而建立一個以人為中心的網絡系統。他還對圖形表示學習、深度學習、自然語言處理、移動計算等領域感興趣,并在社交挖掘、文本挖掘、實際位置和活動識別、用戶分析、移動推薦、增強現實等方面有應用。
Kevin Chen-Chuan Chang是伊利諾伊大學香檳分校計算機科學教授,他領導了數據搜索、集成和挖掘的前沿數據實驗室。他在國立臺灣大學獲得理學學士學位,在斯坦福大學獲得電機工程博士學位。他的研究涉及大規模信息訪問,用于搜索、挖掘和跨結構化和非結構化大數據的集成,目前的重點是“以實體為中心”的Web搜索/挖掘和社交媒體分析。他在VLDB 2000年和2013年獲得了兩項最佳論文獎,2002年獲得了NSF職業獎,2003年獲得了NCSA院士獎,2004年和2005年獲得了IBM院士獎,2008年獲得了創業領導力學院院士獎,并在2001年、2004年、2005年、2006年、2010年和2011年獲得了伊利諾伊大學不完整的優秀教師名單。他熱衷于將研究成果帶到現實世界中,并與學生共同創辦了伊利諾伊大學(University of Illinois)的初創公司Cazoodle,致力于在網絡上深化垂直的“數據感知”搜索。
題目: Graph Neural Networks: A Review of Methods and Applications
摘要: 許多學習任務都需要處理包含元素間豐富關系信息的圖形數據。建模物理系統、學習分子指紋、預測蛋白質界面和疾病分類需要一個模型從圖形輸入中學習。在文本、圖像等非結構化數據的學習等領域,對句子的依存樹、圖像的場景圖等提取的結構進行推理是一個重要的研究課題,同時也需要建立圖形推理模型。圖神經網絡(GNNs)是通過圖節點之間的信息傳遞來獲取圖的依賴性的連接模型。與標準神經網絡不同,圖神經網絡保留了一種狀態,這種狀態可以以任意深度表示來自其鄰域的信息。雖然原始GNNs已經被發現很難訓練到固定的點,但是最近在網絡結構、優化技術和并行計算方面的進展已經使它能夠成功地學習。近年來,基于圖形卷積網絡(GCN)、圖形注意網絡(GAT)、門控圖形神經網絡(GGNN)等圖形神經網絡變體的系統在上述許多任務上都表現出了突破性的性能。在這項調查中,我們提供了一個詳細的檢討現有的圖形神經網絡模型,系統分類的應用,并提出了四個開放的問題,為今后的研究。
作者簡介: Jie Zhou,CS的研究生,從事系統研究,主要研究計算機安全。他畢業于廈門大學,在羅切斯特大學獲得碩士學位及博士學位。
Zhiyuan Liu,清華大學計算機系NLP實驗室副教授。