亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖學習旨在學習現實世界中常見的復雜節點關系和圖的拓撲結構,如社交網絡、學術網絡和電子商務網絡等。這些關系使得圖數據與傳統的表格數據不同,其中節點依賴于非歐氏空間,包含了豐富的信息。圖學習從圖論發展到圖數據挖掘,現在被賦予表示學習的能力,使其在各種場景中取得了出色的性能,甚至包括文本、圖像、化學和生物。由于在現實世界中的廣泛應用前景,圖學習已經成為機器學習中一個熱門且有前景的領域**。**

近年來,已有成千上萬的研究成果被提出用于解決圖學習中的各種問題,引起了學術界越來越多的關注,因此對已有的有價值的研究成果進行綜述變得至關重要。盡管一些研究人員已經注意到這種現象,并完成了關于圖學習的令人印象深刻的調研。然而,由于圖學習的快速擴展,它們未能以更合乎邏輯的方式將相關目標、方法和應用聯系起來,并涵蓋當前豐富的場景和具有挑戰性的問題。

1. 引言

圖學習旨在對圖進行建模,圖是一種廣泛存在于真實場景中的非歐氏數據,與以往機器學習中的數據結構有很大不同,如社交網絡[1]、[2]、[3],學術網絡[4]、[5]、[6],電子商務網絡[7]、[8]、[9],企業知識圖譜[10]、[11]、[12]等。挖掘圖中節點間復雜連接關系和拓撲結構中蘊含的豐富信息,對于圖上的許多任務和應用具有重要意義。此外,傳統應用也可以轉換為圖數據(如計算機視覺[13]、[14]、[15]、語言模型[16]、[17]、[18]、物理[19]、[20]和化學[21]、[22])。重點假設不同實體之間存在許多未直接觀察到的潛在聯系。這使得圖學習不僅是一種處理自然圖結構的方法,而且是一種思考各種問題的方式。

由于圖學習具有廣闊的應用前景,因此在國內外引起了廣泛的關注。盡管之前關于圖的理論工作幫助人們理解圖上的各種字符,并提供了基本的分析框架。這些工作通常集中在較小的模擬圖上,這限制了它們在真實場景中的應用,特別是當圖上存在復雜的關系和結構時。

盡管在這一領域已經有了一些顯著而詳細的調查。目前還缺乏一個綜合的、將相關的目標、方法和應用聯系起來,形成一個有機的、邏輯的綜述。此外,每年在頂級會議上都有數百篇關于圖學習的研究,并且數量還在高速增長。由于其發展迅速,缺乏涵蓋最新趨勢和挑戰的全面調研。 圖2按時間順序展示了有影響力的圖學習方法。這些方法主要分為3類(圖挖掘方法、圖表示方法和深度圖學習方法)。在圖學習早期,大多數方法集中于圖的字符[1]或利用圖的結構信息在小圖[25]、[26]上完成一些下游任務。圖表示學習目前占據主流地位,可歸納為圖嵌入方法和圖神經網絡方法兩大類。這兩類方法都旨在學習節點、邊或圖的語義表示。前者直接優化嵌入,可以減少圖結構信息的損失;后者利用深度神經網絡,在圖上建模信息傳遞過程。

如圖3所示,在本綜述中,我們從圖學習目標的角度提供了一個直觀的分類法。根據圖的元素(即節點、邊和圖結構)對以前對圖的工作進行排序。基于這種邏輯,綜述了圖上的相關方法和任務。展示了圖學習在現實世界中的各種應用上的出色性能。最后,提出了圖學習的發展趨勢和挑戰,以期進一步推動該領域的研究。

本綜述的主要貢獻總結如下。

  • 提供了一個新的分類法,以調查以前關于數據、模型和任務的研究。
  • 總結了當前圖學習在現實世界中的應用。
  • 提出了圖學習的當前趨勢和挑戰。

本文的其余部分組織如下。第2節從數據、模型和任務3個角度,基于節點、邊和圖結構對已有工作進行了直觀的分類。第3節展示了用于圖學習的主要方法和當前的研究趨勢。第四部分總結了該方法在實際中的應用。第5節提出了當今圖學習面臨的挑戰。

2 方法

在本節中,我們將當前的模型分為兩大類(即傳統模型和圖神經網絡)。傳統模型可以進一步分為3類(即矩陣分解模型、基于隨機游走的模型和基于自編碼器的模型)。首先回顧了傳統模型,其中一些仍然活躍或與GNN相結合,并給出了當前模型的許多啟示。在大多數場景下,與傳統模型相比,GNN表現出更高的表達能力和出色的性能。本文將GNN歸納為兩個方面。

3 應用

介紹當前圖學習在現實世界中的主要應用,包括傳統的機器學習場景,如推薦系統、自然語言處理、計算機視覺和金融科技,以及科學場景中的新興應用,如化學、生物、物理和數學。最后,總結了圖學習中流行的數據集。

付費5元查看完整內容

相關內容

圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。

//arxiv.org/abs/2301.05860

1. 引言

對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。

**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。

**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。

圖2:四種主流技術下的圖級學習時間線。

**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:

在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。

B.圖級深度神經網絡(GL-DNNs):

傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。

C.圖級圖神經網絡(GL-GNNs):

GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。

D .圖池化:

圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。

付費5元查看完整內容

圖上如何做異常分析?澳大利亞聯邦大學最新《圖學習異常分析:算法、應用與挑戰》綜述,闡述GCN/GAT/GAE等方法

異常分析是一項廣泛而重要的研究任務,已經被研究了幾十年。與此同時,深度學習在解決許多基于圖的任務方面表現出了其能力,如節點分類、鏈接預測和圖分類。近年來,許多研究通過擴展圖學習模型來解決異常分析問題,使得基于圖的異常分析技術取得了一些有益的進展。**本文對用于異常分析任務的圖學習方法進行了全面的概述。根據模型架構將它們分為四類,即圖卷積網絡(GCN)、圖注意力網絡(GAT)、圖自編碼器(GAE)和其他圖學習模型。**系統地比較了這些方法之間的差異。概述了現實世界中跨不同領域的幾個基于圖的異常分析應用。最后,討論了這一快速發展領域未來可能的5個研究方向。1. 引言

異常也被稱為離群點,普遍存在于各種真實世界的網絡[12]中,如觀點網絡中的虛假評論[121]、社交網絡中的假新聞[119]、協作網絡中的離群成員[94,118]、交通網絡中的突發人群[50]、移動網絡中的社會自私節點[110]以及計算機網絡中的網絡入侵[24]。異常檢測的研究可以追溯到20世紀60年代,幾十年來一直是一個熱門的研究領域。隨著日益增長的需求和在不同領域的廣泛應用,異常分析在數據挖掘、機器學習等領域發揮著越來越重要的作用。 隨著深度學習的發展,圖學習被提出,它是為應用于圖結構數據的基于深度學習的模型而創造的[112,128]。由于其令人信服的性能和可解釋性,近年來在各個學科中,越來越多的研究專注于利用深度圖模型[99,137]進行異常檢測和預測任務,而不僅僅局限于隨機游走等淺層網絡嵌入[40,111]。圖作為一種獨特的非歐氏數據結構,能夠表示不同場景中的實體及其關系。然而,在將深度學習和人工智能應用于真實世界網絡時,該研究方向對所有檢測方法都面臨著一些不可避免的問題復雜性[57,105]。

  • 圖結構不規則。與文本、序列和圖像等其他規則結構化數據不同,圖中的節點是無序的,并且可能具有不同的鄰域,這使得圖的結構不規則。因此,一些傳統的深度學習架構無法直接應用,例如卷積神經網絡(convolutional neural networks, CNN)中的卷積和池化操作[72]。

  • 異構異常類。圖中節點和鏈接的類型通常不統一,導致異質信息網絡(heterogeneous information networks, HINs)的出現。HINs通常包含實體和關系之間更復雜的信息,特別是那些包含不同模態的信息[85],這對于識別特定圖中不同類型的異常非常重要。

  • 可擴展到真實世界的網絡。如今,現實世界的網絡(如社交網絡)由數百萬甚至數十億的節點、邊和屬性信息組成[113]。這種大規模網絡無疑增加了計算復雜度。因此,設計相對于圖大小具有線性時間復雜度的可擴展模型是勢在必行的。

  • 標簽稀缺性。與人工生成的圖數據相比,真實世界網絡的稀疏性主要有兩個原因。第一個是無標度網絡結構的性質,在大多數現實世界網絡中,節點的度服從長尾分布[123]。另一種是在抓取數據過程中受到采集技術和隱私保護的限制。此外,由于缺乏標記數據集,設計無監督的異常檢測模型變得越來越重要。

  • 不同類型的異常。研究人員探索了幾種類型的異常,如節點、邊、子圖和路徑(如圖2所示)。節點異常是指在整個圖中與其他節點相比表現出異常行為的實體,例如在社交網絡中傳播假新聞的用戶。其他類型的異常也有類似的概念和它們自己的實際應用。在這種情況下,子圖異常難以檢測,因為從異常子圖中抽取出的子圖節點可能表現出正常的行為。

**已有一系列深度異常檢測研究證明,在解決上述挑戰方面,其性能明顯優于傳統模型。**盡管采用的技術從圖卷積網絡(GCNs)到圖自編碼器(GAEs)不同,但由于現有異常的復雜性,大多數方法專注于在特定情況下檢測或預測異常。目前很少有人對這些方法進行全面的總結,并清晰地分析它們如何應用于解決實際應用場景。

本綜述的其余部分結構如下。第2節介紹圖學習模型的表示法和初步知識,這些知識將在后續章節中使用。第3 ~ 6節將介紹異常分析方法。在第7節中,我們概述了可以用深度圖模型解決的異常分析的幾個實際應用,并在第8節中討論了一些未來的研究方向和挑戰。最后,我們在第9節簡要總結了這個綜述。

表1. 檢測和預測異常的圖學習模型綜述

2. 基于GCN的檢測方法

作為深度圖模型中最流行的結構,圖卷積網絡(graph Convolutional Networks, GCNs)可以通過卷積操作學習和生成節點嵌入,即從節點的局部鄰域聚合信息的過程。在本節中,我們介紹基于GCN的異常檢測和預測方法,這也是所有異常分析模型中最流行的模型類型。根據方法是否針對特定異常檢測任務設計,將其分為兩類,即通用模型和任務驅動模型。圖3展示了如何使用空間卷積操作檢測社交網絡中的異常用戶的玩具模型。表3總結了這些方法的主要特點。

3. 基于GAT的檢測方法

在深度圖模型中,節點鄰居的權重被定義為相等或默認設置。然而,鄰居的重要性往往因屬性和結構特征的不同而不同。受注意力機制的啟發,Velivckovic等人[92]將注意力機制應用于GCN的空間卷積操作,提出了一種圖注意力網絡(GAT)。圖4展示了注意力機制如何應用于網絡欺凌檢測的一個簡單示例。在本節中,我們總結并介紹了使用圖注意力網絡的異常分析算法。該方法按照異常類型分為2個子檢測,即節點異常檢測和(子)圖異常檢測。表4總結了這些方法的主要特征。

4**. 基于GAT的檢測方法**

圖自動編碼器(GAE)是一種用于生成低維表示的無監督結構,目的是最小化編碼器的輸入和解碼器的輸出之間的損失[91]。在本節中,我們將介紹應用于異常分析的基于GAE的算法。根據訓練和學習模式的不同,將這些方法分為3類,即通用自編碼器、對抗訓練和超球學習。表5總結了這些方法的主要特點。在圖5中,我們提出了一個基于GAE的異質網絡異常引用行為檢測模型

付費5元查看完整內容

圖被廣泛用于復雜系統的建模,檢測圖中的異常是復雜系統分析中的一項重要任務。圖異常是指圖中的模式不符合圖的屬性和/或結構所期望的正常模式。近年來,圖神經網絡(GNNs)得到了廣泛的研究,并成功地完成了節點分類、鏈接預測和圖分類等困難的機器學習任務,這得益于在有效學習圖表示中通過消息傳遞實現的高度表達能力。為了解決圖異常檢測問題,基于GNN的方法利用關于圖屬性(或特征)和/或結構的信息來學習對異常進行適當的評分。在這篇綜述中,我們回顧了使用GNN模型檢測圖異常的最新進展。具體而言,我們根據圖類型(即靜態和動態)、異常類型(即節點、邊、子圖和全圖)和網絡架構(如圖自動編碼器、圖卷積網絡)對基于GNN的方法進行了總結。據我們所知,這次綜述是第一次全面回顧基于GNN的圖異常檢測方法。

//www.zhuanzhi.ai/paper/86a58a5030f04de8d6483e0e7509e14e

圖形是一種有效的數據結構,可以有效地表示和提取復雜的數據模式,廣泛應用于社交媒體、電子商務、生物學、學術和通信等眾多領域。圖中表示的數據對象是相互關聯的,對象通常表示為節點,它們的關系表示為節點之間的邊。圖的結構指的是節點如何通過單獨的邊相互關聯,并且可以有效地表示節點之間甚至深遠的關系。此外,通過使用節點和/或邊的屬性來增強圖的結構表示,圖可以在語義上得到豐富。

異常檢測是識別明顯偏離通常觀察到的模式的異常模式的過程。這是一項重要的任務,因為在各個領域的需求和應用不斷增加。自從Grubbs等人[1]首次引入異常(或離群值)的概念以來,人們對異常檢測進行了大量的研究。此后,隨著近年來圖挖掘技術的發展,圖異常檢測備受關注[2],[3]。圖異常檢測的早期工作很大程度上依賴于領域知識和統計方法,其中檢測異常的特征大多是手工制作的。這種手工制作的檢測任務自然非常耗時和費力。此外,真實的圖通常包含大量的節點和標記有大量屬性的邊,因此是大規模和高維的。為了克服早期工作的局限性,最近深度學習方法在從圖[4]中檢測異常時受到了相當多的關注。深度學習具有非線性的多層結構,可以對大規模高維數據進行檢測,并從數據中提取模式,從而獲得令人滿意的性能,而無需手工制作特征[5]、[6]。

最近,圖神經網絡(GNN)通過學習圖表示(例如[7],[8])中的消息傳遞機制具有高度的表達能力,因此被用于高效、直觀地檢測圖中的異常。使用GNN,從圖中學習和提取異常模式,即使是那些具有高度復雜結構或屬性的圖,也相對簡單,因為GNN本身處理的圖具有屬性作為輸入數據[9]。最先進的圖異常檢測方法[7]、[10]將GNN與現有的深度學習方法相結合,其中GNN捕獲圖的特征,而深度學習捕獲其他類型的信息(如時間)。圖1給出了用GNN進行圖異常檢測的一個例子。假設節點(A)和(C)根據節點屬性被檢測到異常,節點(A)和(B)根據圖拓撲被檢測到異常。那么,如果同時考慮節點屬性和圖拓撲作為異常因素,則只檢測到節點(A)異常。GNN模型使我們能夠通過同時檢查圖拓撲和節點屬性來檢測這種異常。

在本綜述中,我們概述了基于GNN的圖異常檢測方法,并主要從圖的類型(即靜態圖和動態圖)進行了綜述。與其他調研相關的話題——圖異常檢測(一般)[2],[3],圖像異常檢測具體使用深度學習[11],[12],和一般的異常檢測使用深度學習[13],[14],本調研旨在涉及的獨特角度圖使用GNN異常檢測模型。鑒于GNN在圖異常檢測中的重要意義和正在進行的積極研究工作,我們相信,對這一特定主題的全面調研是及時的,對研究社區是有益的。圖2為調研方法的時間軸。第三節中的調研是根據其他圖異常檢測調研[3]、[2]、[11]、[12]所使用的分類框架組織的。這一領域仍然是新的,盡管研究主題的分布似乎傾向于靜態圖中的節點異常,但已發表的方法覆蓋了廣泛的圖(靜態與動態、普通與屬性)和異常類型(結構、節點、邊、子圖)。此外,在第四節中,我們分享了關于使用GNN進行圖異常檢測的幾個有前途的機遇和挑戰的觀點。

基于GNN的圖異常檢測

A.基于GNN的靜態圖異常檢測

靜態圖異常檢測的大部分研究都是針對節點異常,只有少數研究是針對邊緣異常和子圖異常。

1) 異常節點檢測:

使用GNNs檢測異常節點主要在屬性圖中進行。每一種基于GNN的方法都從靜態屬性圖中提取節點屬性信息和結構信息,并使用一定的評分算法評估節點的異常評分。人們提出了各種基于GNN的方法來有效地從屬性圖中提取必要的特征。我們根據這些方法的網絡架構對它們進行分類,然后簡要描述每種方法背后的關鍵思想。根據結構信息,異常節點可進一步劃分為三類:全局異常、結構異常和群體異常[12]。全局異常稱為圖中的偏離節點屬性;結構異常在圖中稱為偏離的結構信息;團體異常是指同一團體中節點屬性的偏差和結構信息的偏差。請注意,相當數量的基于gnn的方法是建立在用GCN或GAT實例化的圖形自動編碼器(GAE)框架之上的。對于靜態圖中的異常節點檢測,我們回顧了基于GNN的GAE方法以及獨立GNN方法。

2) 異常邊緣檢測:

異常邊緣通常表示圖中節點之間不同的或非典型的相互作用。在靜態圖中這種異常邊緣檢測的研究相對有限。Duan等人[48]提出了異常感知網絡嵌入(AANE),該網絡為平面圖設計,并使用基于gcn的GAE框架實現。該方法調整了擬合損失和“異常感知”損失,包括偏差損失和去除損失。損失函數的概率是一個優勢的得分。概率較低的邊更有可能是異常邊。Song等人[50]提出了用于欺詐檢測的基于子圖的框架(SubGNN)。提取靠近目標邊緣的子圖并重新標記以保證實體獨立性。提出的關系圖同構網絡(R-GIN)學習特征,用于精確的欺詐檢測。Zhang等人[49]提出了一種基于競爭圖神經網絡(CGNN)的欺詐檢測系統(eFraudCom),用于檢測電子商務平臺上的欺詐行為。CGNN是一種基于gcn的GAE系統。eFraudCom系統由一個數據處理器和一個欺詐檢測器組成。具體而言,在數據處理器中對有代表性的法向數據進行采樣,生成包含采樣的法向數據和其余數據的異構圖;在欺詐檢測器中,對圖中的鄰居進行采樣,并通過CGNN檢測異常邊緣。

3)異常子圖檢測: 異常子圖檢測比異常節點或邊緣檢測更具挑戰性。值得注意的一點是,異常子圖中的節點和邊本身可以被認為是正常的。此外,子圖的結構和大小可以非常多樣化。大概是由于這一挑戰,文獻中只有有限的研究。我們發現了一種GCN方法和一種基于gat的GAE方法。

B.基于GNN的動態圖異常檢測

與靜態圖不同,動態圖的結構或屬性會隨時間變化,時間性是動態圖的一個重要因素。最近,基于圖社區、壓縮、分解、距離度量和圖特征[2]的概率建模,提出了各種檢測隨時間變化或演化的圖異常的方法。針對動態圖提出了幾種方法,將GCN與適合于時間處理的深度學習方法相結合,如循環神經網絡(RNN)、門控循環單元(GRU)和transformer。一些研究解決了在動態圖的邊或節點中檢測異常的問題。目前還沒有關于異常子圖檢測的研究。

付費5元查看完整內容

圖結構數據是現實生活中廣泛存在的一類數據形式.宏觀上的互聯網、知識圖譜、社交網絡數據,微觀上 的蛋白質、化合物分子等都可以用圖結構來建模和表示.由于圖結構數據的復雜性和異質性,對圖結構數據的分析 和處理一直是研究界的難點和重點.圖神經網絡(GraphNeuralNetwork,GNN)是近年來出現的一種利用深度學 習直接對圖結構數據進行學習的框架,其優異的性能引起了學者高度的關注和深入的探索.通過在圖中的節點和 邊上制定一定的策略,GNN 將圖結構數據轉化為規范而標準的表示,并輸入到多種不同的神經網絡中進行訓練, 在節點分類、邊信息傳播和圖聚類等任務上取得優良的效果.與其他圖學習算法相比較,GNN 能夠學習到圖結構 數據中的節點以及邊的內在規律和更加深層次的語義特征.由于具有對圖結構數據強大的非線性擬合能力,因此 在不同領域的圖相關問題上,GNN 都表現出更高的準確率和更好的魯棒性.本文在現有 GNN 研究的基礎上,首先 概述了 GNN 的出現歷程,并介紹了相關概念和定義.之后本文著重討論和對比了 GNN 中的各種算法框架,包括 核心思想、任務劃分、學習方式、優缺點、適用范圍、實現成本等.此外,本文對 GNN 算法在多個不同領域下的應用 場景進行了詳細的闡述,將 GNN 與其他圖學習算法的優缺點作了聯系和比較.針對存在的一些問題和挑戰,本文勾畫了 GNN 的未來方向和發展趨勢,最后對全文進行了全面而細致的總結。

引言

近年來,深 度 學 習[1]在 多 個 領 域 取 得 明 顯 優 異的效果,特別是在計算機視覺、音頻識別以及自 然語言處理 三 個 方 面 取 得 突 破 性 進 展.深 度 學 習 通過建立人 工 神 經 網 絡,對 輸 入 的 信 息 和 數 據 逐 層進行特征 的 提 取 和 篩 選,最 終 獲 得 分 類 和 預 測 等任務的結 果.相 較 于 統 計 機 器 學 習 等 淺 層 學 習 模式,深度學 習 所 使 用 的 神 經 網 絡 架 構 具 有 多 個 功能各異的 復 雜 網 絡 層,其 特 征 提 取 和 識 別 的 數 量和質量顯 著 提 高,并 且 能 夠 自 底 向 上 生 成 更 加 高級的特征表示.這使得機器能夠獲得抽象概念, 具備 更 強 的 表 征 學 習 能 力[2].諸 如 多 層 感 知 機 (MultilayerPerceptron,MLP)[3]、卷 積 神 經 網 絡 (ConvolutionalNeuralNetwork,CNN)[4]、循 環 神 經網絡(RecurrentNeuralNetwork,RNN)[5]、生成 對 抗 網 絡 (Generative Adversarial Network,GAN)[6]和自編碼器(Auto-encoder,AE [7]等性能優 異的神經網絡已經成為許多研究領域解決問題的通 用網絡框架.

但是隨著研究的深入,研究人員發現深度學習 并不能適應和解決所有的情況和問題.在過去十多 年的發展中,深度學習取得的成就主要限定在了計 算機視覺、自然語言處理和音頻分析領域上.這些領 域上的數據和信息有著比較顯著的特點.文本、圖 像、音頻、視頻的數據格式在形式上有著統一而規整 的尺寸和維度,它們也被稱作歐式結構(Euclidean Structure)或者網格結構(GridStructure)數據.除 此之外,現實生活中存在大量的非歐式結構的圖數 據,例如互聯網、知識圖譜、社交網絡、蛋白質、化合 物分子等.盡管深度學習在歐式結構數據上取得巨 大的成功,但在圖結構數據上,基于神經網絡的深度 學習表現得并不好.在圖結構數據中,節點與節點之 間的邊連接可能是均勻分布的,也可能是不均勻的. 節點與節點之間沒有嚴格意義上的先后順序.對于神經網絡的輸入端而言,這些數據沒有固定的輸入 尺寸.在數學表達上,這些數據與歐式結構數據相 比,每一個區塊的特征矩陣維度都不是統一的,如圖 1所示.由于無法使用統一規整的算子對數據編排, 導致 CNN 等神經網絡不能再直接對其進行諸如卷 積和池化等操作,也就不再有局部連接、權值共享、 特征抽象等性質[8].如何將 CNN 等深度學習算法 用于分析圖結構數據上成為一個有挑戰性和前沿性 的課題.近年來 Gori等人[9]用 RNN 來壓縮節點信 息和學習圖節點標簽,首次提出圖神經網絡(Graph NeuralNetwork,GNN)這一概念.之后文獻[10]提出 圖 卷 積 網 絡 (Graph Convolutional Network, GCN),正式將 CNN 用于對圖結構數據建模.GCN 通過整合中心節點和鄰居節點的特征和標簽信息, 給出圖中每個節點的規整表達形式,并將其輸入到 CNN 中.這樣一來 GCN 就能利用多尺度的信息, 組合成更高層次的表達.其有效地利用了圖結構信 息和屬性信息,為深度學習中其他神經網絡遷移至 圖上提供了標準的范式.在新的研究思路的基礎上, 各種 GNN 架構相繼被構造出來,在多個領域的圖 結構數據中發揮了獨特的作用,并促進了圖相關的人工智能推理任務的發展。

本文針對近年來出現的 GNN 學習方法和研究現狀進行了系統的歸納和梳理,并對它們的主要思 想、改進以及局限性做了詳盡分析.目前已有 Xu等 人[11]關于圖卷積神經網絡的綜述,本文在全面對比 分析的基礎上,對目前主要的 GNN 算法進行了更 加合理的分類和介紹.除了圖卷積神經網絡,GNN 主流算法還包括有圖自編碼器、圖生成網絡、圖循環 網絡以及圖注意力網絡.本文對每類 GNN 算法都 給出了其定義和典型方法,將 GNN 中每種算法的 機制、優勢、缺點、適用范圍、實現成本等進行了提煉 總結.在進行了相應的數據實驗基礎上,與其他基準 圖算法進行了比對.本文在第2節中給出關于 GNN 的基本概念和定義;在第3節分門別類的給出 GNN 的主要模型和算法;在第4節,對比和分析 GNN 與 網絡嵌入(NetworkEmbedding)以 及 圖 核 (Graph Kernel)方法的特性和優勢.在第5節中,闡述目前 GNN 在多個領域圖數據上的具體應用;在第6節歸 納和總結現有 GNN 模型缺陷和不足,并對未來發 展方向和趨勢進行展望.最后在第7節對全文所述 進行總結.

圖神經網絡模型

圖卷積網絡

圖 卷 積 網 絡 (GraphConvolutionalNetwork, GCN)進行卷積操作主要有兩種方法:一種是基于 譜分解,即譜分解圖卷積.另一種是基于節點空間變 換,即空間圖卷積.Bruna等人[10]第一次將卷積神 經網路泛化到圖數據上,提出兩種并列的圖卷積模 型———譜分解圖卷積和空間圖卷積.Bruna等人對 比分析了一般圖結構數據和網格數據共有的特點和 不同之處,綜合運用了空間圖卷積和譜分解處理圖 像聚類問題.下面本文對譜分解圖卷積和空間圖卷積進行詳細的梳理和介紹。

圖自編碼器

在 深 度 學 習 領 域,自 編 碼 器 (Auto-encoder, AE)是一類將輸入信息進行表征學習的人工神經網 絡.自編碼器一般包含編碼器和解碼器兩個部分,基 于自編碼器的 GNN 被稱為圖自編碼器(GraphAuto-encoder,GAE),可以半監督或者無監督地學習 圖節點信息.如圖3所示

在圖自編碼器上,文獻[54]提出基于深度神經網絡的 表 示 模 型 (Deep NeuralNetworkforGraph Representations,DNGR).DNGR 采用隨機游走模 型(RandomSurfingModel)獲取圖結構信息,生成 概率共現 矩 陣,并 在 概 率 共 現 矩 陣 的 基 礎 上 計 算 PPMI矩陣.在圖節點嵌入表示學習上,DNGR 設計 了一個疊加去噪自編碼器(StackedDenoisingAuto-encoder,SDA),輸入 PPMI矩陣學習圖節點低維 表示,并且輸入的一部分會被隨機置零以提高模型 的魯棒性.DNGR的優點在于能學習到有向圖中更 多的結構信息,其生成的低維嵌入表示可以用于不 同的下游任務.但缺點是忽略了圖屬性信息,沒有將 圖屬性和圖結構信息一并納入到模型框架中,因此 圖結構的輕微變化就會影響節點表示的好壞.針對 節點內容信息的收集,Wang 等人[55]提出一種邊緣 圖 自 編 碼 器 (Marginalized Graph Autoencoder, MGAE)算法.其在自編碼器中使用基于譜分解的 圖卷積網絡層,整合節點屬性特征和圖結構信息,使得它們之間能進行數據交互.MGAE堆疊多層圖形 自編碼器,以建立一個深層次的架構來學習有效的 節點表示.Wang等人認為在訓練中隨機噪聲引起 的干擾可能會提供更有效的輸出表示,因此會在節點 內容特征中動態地加入一些干擾項.通過將某些特征 值置為零,獲得在大規模圖上學習的能力.MGAE構 建了優化器以確保編碼的節點屬性信息和真實屬性 信息之間的誤差最小化.在得到每個節點的表示后, MGAE使用譜聚類算法得到圖聚類結果。

圖生成網絡

建模和生成圖是研究生物工程和社會科學網絡 的基礎.圖生成網絡(GraphGenerativeNetwork, GGN)是一類用來生成圖數據的 GNN,其使用一定 的規則對節點和邊進行重新組合,最終生成具有特 定屬性和要求的目標圖.然而,在圖上模擬復雜分 布,并從這些分布中有效地采樣是比較困難的.因為 有些圖數據具有非唯一性、高維性質,圖中邊緣之間 存在復雜的非局部依賴性.因此不能假設所有的圖 數據都來自于同一個先驗分布,尤其是對于異質圖, 模型在識 別 過 程 中 必 須 要 具 有 平 移 不 變 性.因 此 GGN 著重用來解決這類問題和克服其中的難點. GGN 的輸入可以是節點或者邊向量,也可以是給定 的圖嵌入表示,然后對采樣的數據學習后合成各種 任務所需要的圖.

圖循環網絡

圖循環網絡(GraphRecurrentNetwork,GRN) 是最早出現的一種 GNN 模型.相較于其他的 GNN 算法,GRN 通常將圖數據轉換為序列,在訓練的過 程中序列會不斷地遞歸演進和變化.GRN 模型一般 使用 雙 向 循 環 神 經 網 絡 (BidirectionalRNN,BiRNN)和長短期記憶網絡(LongShort-Term MemoryNetwork,LSTM)作為網絡架構.

圖注意力網絡

注意力機制可以讓一個神經網絡只關注任務學 習所 需 要 的 信 息,它 能 夠 選 擇 特 定 的 輸 入[96].在 GNN 中引入注意力機制可以讓神經網絡關注對任 務更加相關的節點和邊,提升訓練的有效性和測試 的精度,由此形成圖注意力網絡(GraphAttention Network,GAT).

圖神經網絡總結分析

通過前文的歸納和分析, 從總體上看, 圖神經網絡可以分為五類: 圖卷積網絡、圖自編碼器、圖生成網絡、圖循環網絡和圖注意力網絡.每種圖神經網絡 都有自己對圖結構數據處理的一套算法和體系,其 中的原理和適用的范圍也有一定差別.當然它們之 間不是相互孤立和排斥的,例如文獻[59,65]的圖自 編碼器中包含圖卷積層,文獻[91,95]的圖循環網絡 為了圖序列學習更有效,也會加入注意力模塊.而圖 注意力網絡也大多以其他圖神經網絡框架為基礎, 構建合適的節點、邊以及圖注意力網絡層.因此在實 際操作當中,需要根據圖的分布和特征信息,以及任 務的實際需求,選擇合適的圖神經網絡,來更加有效 地學習圖結構數據. 表7是 GNN 機制、優點、缺點、 適用范圍及實現成本匯總表。

圖神經網絡應用

由于 GNN 能較好地學習圖結構數據的特征, 因此在許多圖相關的領域有著廣泛的應用.若按照 應用中圖的層次結構劃分,則大體可以分為節點、邊 和圖層面.在節點層面,常見的有節點分類、節點聚 合、節點表示學習.在邊層面,則有邊分類、邊聚類以 及鏈接預測.在圖層面,圖分類、圖生成、子圖劃分、 圖相似度分析等應用較為廣泛.按照圖的種類劃分, 可以分為引文網絡、社交網絡、交通網絡、圖像、化合 物分子結構、蛋白質網絡等.按照應用領域劃分,可 以分為自然語言處理、圖像處理、軌跡預測、物理化 學和 藥 物 醫 學 等.為 了 方 便 說 明 和 闡 述, 本 文 從 GNN 的主要應用領域這一角度出發,對近年來出現 的 GNN 應用實例進行分類歸納。

圖神經網絡未來研究方向

GNN 的核心在于規范化表示的圖結構數據并 用深度神經網絡進行學習.經過近些年的不斷發展, 通過大量數學證明和實驗分析后,GNN 在理論上和實踐上都被證實是對圖結構數據處理的一種有效方 法和框架.盡管 GNN 在各個領域的圖數據上取得 了不俗的表現和較好的普適性,但是 GNN 仍然存 在一定的不足和需要完善的地方.根據目前國內外 的研究現狀,下面本文對 GNN 的一些制約因素和 未來發展方向進行探討.

網絡深度

在計算機視覺、自然語言處理和音頻處理中,神 經網絡的層數可以疊加多層.在一定范圍內,神經網 絡層數的增加可以更好地提取數據中的特征信息. 例如深層殘差網絡 ResNet [150]可以達到152層.但 是 GNN 的鄰居節點聚合中,隨著網絡層數的增加, 鄰居節點的階數會不斷擴張,導致中心節點聚合特 征數量成指數變多.這在大規模數據集上,尤其是節 點之間的邊連接數量較多時表現的非常明顯.隨之 而來的是訓練過程中計算復雜度的劇增,并可能導 致過擬合的現象發生.這也就意味著隨著層數的增 加,GNN 模型性能會急劇下降.如果想要加深網絡 層數,就必須限制每層節點數量.但是這也會使得特 征聚集的量變少,導致節點之間信息傳播受阻.如何 解決這一矛盾性問題是將來研究的重點之一.

動態性

就目前來看,現有的 GNN 大多處理的是靜態 齊次圖.一方面,GNN 框架會假定圖結構是固定的; 另一方面,GNN 框架會假設圖中的節點和邊來自于 單一源分布.然而,這兩個假設在許多情況下并不能 同時成立.在社交網絡中,新的人可以隨時進入網 絡,并且現有的人也可以退出網絡.在推薦系統中, 產品可能有不同的類型,其輸入可能有不同的形式, 如文本或圖像.特別是在超大規模的圖中,節點的個 數和邊的個數可能有百萬、千萬乃至上億.尤其是隨 著數據的增加和改變,節點和邊的個數以及節點和 邊的類型都可能發生動態的變化.在這些任務處理 中,圖的動態變化是不能忽視的.特別是在固定尺寸 下,因為某個節點或者邊發生改變而重新學習整個 圖將會使得代價十分昂貴.而大多數 GNN 對于大 型圖不具 有 很 好 的 伸 縮 性.其 主 要 原 因 是 當 堆 疊 GNN 的多個層時,節點的最終狀態涉及大量鄰居的 隱藏狀態,導致反向傳播的高復雜性.雖然目前有一 定的文獻[94-95,136-137]在研究圖的時空動態性,但是面 對更大規模和更加復雜的動態異質圖數據時還不夠 有效.因此如何對圖的動態性進行有效的適應是未 來的研究方向之一.

感受域

一個節點的感受域是指一組節點集合,包括中 心節點及其鄰居節點.感受域大小是決定鄰居節點 數量的關鍵參數.在大規模圖數據集中,平均每個節 點周圍有多個鄰居節點存在.隨著網絡層數的增加, 鄰居節點會遞歸增加數目,感受域也隨之快速擴張. 這可能會超過存儲空間的上限.此外,一些節點可能 只有一個鄰居,而另外節點可能有多達數千個鄰居. 鄰居節點分布不均衡使得每個中心節點的感受域大 小不一致.盡管可以通過添加“啞結點”和刪除鄰居 節點的方式保持數據大小和維度的一致,但是在特 征的聚集和融合中不可避免的會有信息損失現象發 生,而現有的采樣方法還不能完全解決該問題.

多網絡的融合

由于現實世界數據的復雜性,抽象出來的圖結 構也會有很多的種類和變體.有向無向、異質非異 質、帶權不帶權等等,大部分的 GNN 僅能處理其中 的某一種類型.而更普遍的情況是各種各樣的圖混 雜在一起,并且希望 GNN 能滿足諸如節點分類、圖 分類、可視化、圖生成等多種任務需求.在這種復雜 的高強度的任務要求下,單一的神經網絡作用過于 有限.因此對于更加復雜的情況,有必要進行多網絡 融合.目前比較主流的多網絡融合方式是 GCN 與 其他 GNN 算法相結合.例如在節點屬性和圖拓撲 結構信息的獲取上,GCN 明顯具有較高的性能和良 好的適應性,在節點分類問題上會表現良好.鑒于其 優點,在 GAE中不乏部分模型使用 GCN 作為編碼 器,取得較好的效果.但如果還需要進行鏈接預測、 節點生成或者圖生成,GCN 則有點力不從心了.此 時可以再增設一個 GGN,輸入 GCN 處理后的節點 嵌入向量,在 GGN 內生成概率分布,完成生成式任 務.如果圖在不斷地遞歸演進,形成了圖序列.則可以 利用 GRN來處理,以攘括多個步驟下的圖信息.因此 在 GNN框架中構造不同用途的深度神經網絡,從不 同的側面來提取和整合數據的特征是十分有必要的. 此 外 可 以 對 諸 如 深 度 置 信 網 絡 (DeepBeliefNetwork)[151]、Transformer [152]等神經網絡進行改造,將 其泛化和應用至圖結構數據學習上。

與網絡嵌入的結合

網絡嵌入可以將原始圖數據的高維稀疏矩陣轉 變為低維度稠密的向量,這可以大幅度壓縮存儲空 間,并提取有效的圖信息.一般圖節點的原始特征矩 陣是高維稀疏的,對于一個 N ×F 的特征矩陣,當 F 比較大時,所需要的存儲空間也相應的增加.如果 矩陣比較稀疏,那么存儲效率也會比較低下.網絡嵌 入則可以利用圖結構信息,生成低維連續的節點特 征表示,避免存儲空間浪費.其次,由于生成的節點 嵌入表示包含了部分鄰居節點信息,所以中心節點 的感受域也可以相應的減少.對于多層圖卷積和需要迭代壓縮的 GNN 來說,一定程度上可以減少網 絡層數和迭代壓縮次數.例如 Kipf等人[27]半監督 GCN 復雜度為O(|E|FC),DeepWalk [110]的復雜 度為O(log(N)).當邊連接比較密集并且節點特征 維度很大時,復雜度較高.如果對節點特征降維,使 得降維之后的維度 F' ? F ,這樣總體復雜度變為 O(log(N))+O(|E|F'C).盡管增加了網絡嵌入 的計算時間,但是在圖卷積層可以大幅度降低計算 開銷,這樣可以提高訓練的有效性以及降低計算復 雜度.文獻[66,76,86]就使用隨機游走等網絡嵌入方法 來為 GNN 模型構建輸入序列,除此之外未來研究 中也可以嘗試諸如 Node2vec [77]、LINE [153]等網絡 嵌入方法來對 GNN 的輸入端進行改進.

付費5元查看完整內容

來自東北大學最新《大規模圖神經網絡系統》綜述論文

圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法, 它通過將圖廣播操作和深度學習算法結合, 可以讓圖的結構信息和頂點屬性信息都參與到學習中, 在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性, 已成為一種廣泛應用的圖分析方法. 然而現有主流的深度學習框架(如TensorFlow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持, 這限制了圖神經網絡算法在大規模圖數據上的應用. 目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點, 探索了大規模圖神經網絡系統的設計和實現方案. 首先對圖神經網絡的發展進行簡要概述, 總結了設計圖神經網絡系統需要面對的挑戰; 隨后對目前圖神經網絡系統的工作進行介紹, 從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析; 最后使用部分已開源的圖神經網絡系統進行實驗評估, 從精確度、性能、擴展性等多個方面驗證這些系統的有效性.

圖神經網絡概述

深度學習在對象檢測[1,2]、機器翻譯[3,4]、語音識別[5]、物理系統[6,7]等領域取得了革命性的成功, 推動了對模 式識別和數據挖掘的研究. 現有的深度學習方法能夠處理歐式空間表示下的規則數據, 例如圖像數據可以表示為 歐幾里得空間中的規則網絡, 而現實中的很多應用的數據以圖的形式來表示. 比如在社交網絡[8]中, 可以通過圖來 表示對象之間的關聯關系, 從而能夠進行社區發現、聚類[9]等算法. 在生物領域[10] , 可以通過圖來表示蛋白質分子 之間的關系, 從而能夠對蛋白質進行分類. 在引文網絡[11]領域, 可以用圖來表示論文之間的引用關系, 從而能夠對論文按領域進行分組. 在電子商務領域, 可以用圖來表示用戶和商品之間的交互關系, 從而能夠對用戶進行商品的 推薦. 由于圖數據的不規則性和稀疏性, 每個頂點可能具有不同數量的鄰居, 并且圖數據之間具有依賴性, 圖中每個頂點的計算依賴于其他的頂點, 所以導致很多深度學習方法無法直接應用在圖數據中. 例如, 卷積只能對圖像或文本這樣的歐幾里德數據進行操作, 無法直接應用于圖數據, 限制了深度學習方法在圖領域的發展.

隨著圖領域深度學習方法逐漸受到廣泛關注, 近些年出現了很多圖神經網絡算法, 這些方法通過在傳統深度 學習模型中添加圖操作, 應用圖的結構信息和屬性信息, 來處理圖數據的復雜性, 成為解決圖學習問題的有效方 法. 比較典型的工作有 Structure2Vec[12]、GCN[13]、FastGCN[14]、AS-GCN[15]、GraphSAGE[16]等.

圖神經網絡算法將傳統深度學習的方法, 如卷積, 擴展到了圖數據領域, 并結合數據傳播的思想形成了在圖上的深度學習算法, 其 在社交網絡、推薦系統[17]、知識圖譜[18]、鏈接預測[19]等領域都取得了良好的效果. 圖神經網絡受到廣泛關注的原因如下: 首先, 現有標準神經網絡無法正確處理圖數據的輸入, 因為其按照特定 順序處理節點特征, 而圖中的頂點沒有自然順序. 圖神經網絡算法采用在頂點上傳播信息的計算方式, 忽略頂點的 輸入順序解決了這個問題. 第二, 在標準神經網絡中, 圖中頂點的依賴關系僅能作為頂點特征輸入, 而圖神經網絡 算法根據圖中頂點的依賴關系進行信息傳播, 保留了圖結構的信息, 為下游深度學習任務提供了更加完整的信息. 第三, 推理是高級人工智能的一個重要研究課題, 圖神經網絡強大的表示能力, 為進一步生成強大的神經模型提供 了基礎.

現有的深度學習框架如 TensorFlow[20]、PyTorch[21]、MXNet[22]以及 CNTK[23] , 和圖處理框架 PowerLyra[24]、 PowerGraph[25]、Garaph[26]、Pregel[27]、TuX2[28]都不能很好地支持圖神經網絡的計算, 這阻礙了圖神經網絡的進一 步發展, 也限制了圖神經網絡在大規模數據中的應用. 因此突破現有框架限制, 開發專用于圖神經網絡訓練的系 統, 對于充分發揮圖神經網絡的潛力十分重要.

本文首先分析圖神經網絡算法的計算模式, 提出大規模圖神經系統訓練存在的挑戰, 并對現有系統進行介紹. 然后從系統架構、通信優化等多個維度對這些系統進行詳細的分析和對比, 對圖神經網絡系統的不同優化技術進 行總結和分析, 并對目前已經開源的圖神經網絡系統設計實驗, 從多個方面測評系統的性能, 驗證系統有效性.

大規模圖神經網絡訓練的挑戰

隨著圖神經網絡在不同領域的應用越來越廣, 對訓練圖神經網絡系統的性能要求也越來越高. 結合對圖嵌入[42-44]以及圖神經網絡[45, 46]的分析, 本文對設計開發神經網絡訓練系統存在的挑戰進行如下總結.

(1) 現有深度學習系統不能很好地抽象圖傳播過程. 現有的深度學習系統處理的是規則數據, 規則數據中每個樣本的計算圖是獨立的, 與其他樣本無關, 而圖神經網絡是將深度神經網絡和迭代圖傳播結合起來進行計算的, 圖數據的每個樣本(即圖頂點)之間具有依賴性, 所以現有系統不能自然地表達和有效地支持圖傳播模型. 如何突破現有框架的局限, 設計一種適用于圖神經網絡的系統架構是發展圖神經網絡的重要問題;

(2) 訓練大規模圖神經網絡的計算、存儲復雜度高. 真實世界中的尺寸都非常大, 而且由于頂點之間具有復雜的依賴性, 隨著圖神經網絡層數的增加, 計算成本和內存空間需求呈指數級增長. 例如Facebook的社交網絡圖包含超過20億個頂點和1萬億條邊, 這種規模的圖在訓練時可能會產生100 TB的數據. 所以針對大圖的訓練, 如何設計計算和存儲策略以利用有限的資源來使系統達到理想的性能也是發展圖神經網絡系統的一大挑戰;

(3) 圖計算局部性差導致系統開銷問題. 真實世界圖的稀疏性會導致非常差的空間局部性, 在單機系統中這會導致Cache命中率降低. 而在分布式系統中, 這會導致頻繁的跨節點訪問, 進而產生大量的消息傳遞開銷. 所以如何針對圖的特殊性質減少系統開銷是提高系統性能的一大挑戰;

(4) 圖的冪律分布導致分布式計算負載均衡問題. 對于具有數億個頂點的大型圖, 通常需要對圖進行分布式處理, 圖神經網絡算法不同于傳統的圖算法, 平衡的圖分區不僅依賴于分區內的頂點數量, 還依賴于分區內頂點鄰居的數量, 多層圖神經網絡模型中不同頂點多階鄰居的數量可能相差極大, 并且這些分區之間需要頻繁的數據交換, 如何對圖數據進行合理的分區來保證分布式訓練的性能是對于分布式系統的重大挑戰;

(5) 異構計算架構中的任務劃分和負載調度的合理性問題. GPU的廣泛應用為訓練深度學習模型帶來了很多機會和挑戰. 在利用GPU加速神經網絡的訓練時, 通常將數據存儲在主機內存中, 在計算時需要將數據傳輸到GPU, 由于圖神經網絡算法在反向傳播階段的復雜性, 需要頻繁的在主機和GPU之間進行數據傳輸, 如何設計合理的調度方案來最大程度地減少數據傳輸成本也是提高系統性能的一大挑戰.

為了應對這些挑戰, 出現了很多針對圖神經網絡的訓練框架, 其中單機系統如PyTorch Geomertic、DGL、NeuGraph. 圖神經網絡通常處理非常大且不規則的圖, 這些大圖無法存儲在單個設備中, 因此必須以分布式方式進行分區和處理, 其中分布式圖神經網絡框架如Euler、AliGraph、Roc、AGL. 接下來本文將介紹若干典型的單機圖神經網絡系統以及分布式圖神經網絡系統.

圖神經網絡系統介紹

圖神經網絡算法將深度神經網絡的運算(如卷積、梯度計算)與迭代圖傳播結合在一起: 每個頂點的特征都是由其鄰居頂點的特征結合一組深度神經網絡來計算. 但是, 現有的深度學習框架不能擴展和執行圖傳播模型, 因此缺乏高效訓練圖神經網絡的能力, 并且現有框架一般采用數據/模型并行來分布式訓練深度神經網絡, 這種并行計算方法難以直接應用于圖神經網絡, 因此限制了訓練大規模圖神經網絡的能力. 而現有的圖處理系統雖然能夠表示迭代圖傳播模型, 并能有效支持大規模圖的迭代計算, 但是缺乏支持神經網絡計算的關鍵能力, 如張量抽象、自動微分等. 因此, 為了支持圖神經網絡在大規模圖上的應用, 以及對更復雜圖神經網絡結構的探索, 開發針對圖神經網絡的訓練系統是十分有必要的.

目前具有代表性的圖神經網絡框架: DGL[47]、PyTorch Geometric[48]、NeuGraph[49]、EnGN[50]、Euler[51]、PSGraph[52]、AliGraph[53]、Roc[54]、AGL[55]、PGL[56]. DGL[47]是易于使用, 高性能且可擴展的Python庫, 用于圖結構的深度學習, 能夠與主流的深度學習框架集成, 例如Tensorflow[20]、PyTorch[21]、MXNet[22]. PyTorch Geometric[48]是基于PyTorch構建的深度學習庫, 用于處理非結構化數據的深度學習. NeuGraph[49]是一種將數據流系統和圖處理系統結合起來訓練圖神經網絡的框架, 它構建在現有的數據流引擎之上, 使用Python和C++作為開發語言. EnGN[50]是一種以邊為中心, 專門用于大規模圖神經網絡訓練的加速器. Euler[51]與PSGraph[52]是一個與深度學習工具集成的大規模分布式圖學習框架, 支持用戶在數十億點數百億邊的圖上進行模型訓練. AliGraph[53]是由阿里巴巴團隊開發的采樣建模訓練一體化的圖神經網絡平臺. Roc[54]是一種用于快速圖神經網絡訓練的分布式多GPU框架. AGL[55]是用于工業用途圖學習的集成系統, 利用傳統基礎架構(MapReduce、參數服務器[57])實現了容錯性和一致性. PGL (paddle graph learning)[56]是由百度開發的基于PaddlePaddle的高效靈活的圖學習框架.

圖神經網絡系統總結和分析

本節從系統架構、處理模型、圖分區策略、通信優化策略、以及社區活躍度與系統易用性方面, 對現有圖神經網絡系統進行分析和對比, 并從多個維度對系統的特點進行總結, 以表格的形式清晰的展示系統的共性與不同, 來為研究人員提供有效參考.

(1) 系統架構. DGL和PyTorch Geometric都是結合現有的深度學習框架來實現的, 并且針對圖神經網絡的特點做了多種優化, 達到了很好的性能. 結合現有深度學習框架來實現的系統, 更加方便用戶使用, 能夠幫助其更快地實現圖神經網絡模型. 但結合現有深度學習框架來實現的系統, 在針對圖操作的優化上有很多局限性. NeuGraph采用了一種新的架構, 將圖模型和數據流模型結合起來, 以支持高效的圖神經網絡訓練, 這種架構既彌補了現有數據流引擎不能有效地支持圖計算的缺點, 又彌補了圖引擎不能支持數據流編程模型的缺點. EnGN在統一的處理模型基礎上, 開發了一個定制的EnGN加速器, 它集成了一個神經圖處理單元(NGPU), 可以在統一的體系結構中執行特征提取, 聚合和更新操作. EnGN的專用加速器突破了硬件結構的限制, 相比于其他系統配備的多個CPU或GPU, 大大降低了成本和能源開銷. AliGraph、Euler和PGL的架構類似, 都采用分層架構, 構建于現有數據流框架之上, 并且都構建在CPU平臺上. Roc將圖神經網絡的計算分布在多個計算節點上, 每個計算節點可以包含多個GPU, 每個計算節點在子圖上執行圖神經網絡的訓練, 并與CPU通信來獲得輸入張量并保存中間結果. Roc采用分布式多GPU的架構不僅解決了單節點系統對于大規模圖的限制, 并且比基于CPU的系統更高效. AGL、PSGraph都是利用現有大數據處理系統和參數服務器的并行體系結構來組建的基于CPU的分布式圖神經網絡訓練框架, 這些系統具有良好的容錯性和可伸縮性.

(2) 處理模型. DGL和PyTorch Geometric通過使用面向圖的消息傳遞接口包裝深度學習系統, 來支持針對圖神經網絡的編程. 這種消息傳遞模型很好地表示了圖上的數據流動, 整個模型分為兩步. 第1步: “消息”生成操作, 這個操作定義在每個邊上, 通過將邊的特征與兩端頂點特征組合為每一條邊生成一條“消息”. 第2步: 更新操作, 定義在每個頂點上, 通過匯總頂點入邊傳入的消息來更新頂點特征. 通過系統提供的消息傳遞接口, 用戶可以快速實現圖神經網絡的原型制作. PGL也采用消息傳遞范式構建圖神經網絡的接口, 并提供多種聚合方法, 提高了并行處理效率. NeuGraph提出了一種新的處理模型SAGA-NN, 提高了在頂點和邊上執行批量操作的靈活性, 提供了在圖計算和數據流調度中實現優化的機會, 提高了系統性能. EnGN提供一種以邊為中心的處理模型, 將圖神經網絡的計算抽象為特征提取, 聚合和更新3個階段. EnGN與其他3個系統不同, 在處理模型基礎上定制了針對圖神經網絡的加速器, 不依賴于現有的深度學習系統, 并擁有獨特的數據流處理方法. EnGN優化了頂點數據和邊數據移動的內存訪問模式. 對于大圖中的源頂點數據訪問, 采用圖切片技術, 并確保對源節點的訪問僅引起對連續內存地址的訪問. 對于聚合和更新階段中的隨機目標頂點訪問, EnGN利用哈希邊數據布局和多級緩存方法來避免寫沖突并提高片上緩沖器中的數據命中率.

(3) 圖分區策略. 平衡的圖分區是實現分布式圖神經網絡系統的關鍵之一. Euler采用簡單的哈希方法將圖的頂點進行分片, 這種分片方式使各個節點擁有目標頂點的數量基本一致, 但是在每個頂點的子圖中擁有的鄰居數量是不同的, 所以每個節點的計算負載并不均衡. AliGraph則提供了多種內置的圖分區算法供用戶選擇, 比如適合處理稀疏圖的METIS方法, 適合稠密圖的點割和邊割方法, 這種方法雖然為用戶提供了多種選擇, 但需要用戶自己去判斷使用哪種分區方式, 給用戶造成很大不便. Roc采用一種在線線性回歸模型來優化圖分區. 這種基于線性回歸的圖分區方法在圖神經網絡系統中能夠達到比傳統分區更好的性能.

(4) 通信優化策略. 針對通信開銷影響分布式系統性能的問題, Euler采用的是緩存對應頂點k階內的鄰居頂點信息, 這種方式雖然直接避免了計算節點之間的通信, 但是造成了很嚴重的內存浪費, 并且在冪律分布的圖中還會使各個計算節點之間負載不均衡. AGL采用的策略和Euler相同, 但是AGL提出了重新索引的策略來均衡負載. AliGraph提出了一種緩存重要頂點的鄰居的方法來降低通信開銷, 同時提出了一種對頂點重要性的度量標準, 既能有效減低通信開銷, 又防止產生巨大的存儲成本, 避免資源浪費. ROC引入了代價模型, 可以最大程度地減少CPU和GPU之間的數據傳輸. 這種動態的方法突破了手動優化的局限, 將影響通信的多種因素綜合考慮, 從而更好的降低通信成本, 提高系統性能. PGL的分布式參數服務器提供了一種高效的參數更新策略: GeoSSD, 在全異步的條件下進行參數更新, 并重疊模型訓練與節點通信, 在保證模型效果的前提下提升了訓練效率.

(5)社區活躍度與系統易用性. PyTorch Geometric、DGL、AliGraph、Euler、PSGraph、PGL為開源系統, 這里的社區活躍度以GitHub上討論區的數量為標準, 這其中最活躍的社區為PyTorch Geometric. 在系統易用性方面, 從配置文件的完整度、對其他系統的依賴度、用戶使用的方便度多個角度綜合考量, 這其中DGL和PyTorch Geometric的易用性排在前列, 而Euler與PSGraph雖然給出了配置文件, 但在配置系統時, 需要配置其他多個依賴包, 并且數據處理過程繁瑣, 不易用戶使用. 本文為系統的社區活躍度和易用性給出星級評價, 星級越高, 系統在這兩方面表現越好, 其中空白符號表示系統未開源.

本文對目前的圖神經網絡系統從多個維度進行了綜合分析, 對這些系統的共同特性進行提取, 并總結歸納, 見表1.

總結

本文首先簡要介紹了圖神經網絡的發展, 并對典型的圖神經網絡算法的計算模式進行了介紹, 并簡要分析了圖神經網絡訓練的難點. 然后本文對現有圖神經網絡系統做了詳細描述, 并對這些系統從系統架構、處理模型以及優化策略和系統易用性等多個角度進行分析和總結, 總結了針對圖神經網絡系統的多種優化技術, 最后使用目前可用的開源系統驗證了現有分布式圖神經網絡系統的有效性. 經過論文分析與總結, 發現現有圖神經網絡系統仍存在以下問題, 同時也是未來的研究方向: 首先, 目前系統所采用的架構仍依賴于現有數據流框架, 現有數據流框架針對深度神經網絡的運算做了一系列優化, 但缺少針對圖操作的優化尤其是高效分布式圖操作, 與這些框架結合起來搭建系統, 制約了分布式圖神經網絡系統的進一步發展. 第二, 目前系統所采用的小批量并行計算方式, 并不適用于基于譜方法的圖卷積網絡, 本文通過實驗發現, 采用這種并行計算方式會對基于譜方法圖卷積網絡的訓練精度產生影響. 第三, 圖的分區操作和通信管理是影響系統性能的關鍵因素, 盡管目前的系統已經在這兩方面提出多種優化, 減少了內存消耗和通信開銷, 但這兩者仍存在非常大的優化空間.

付費5元查看完整內容

圖是連接數據網絡結構的一種常用表示形式。圖數據可以在廣泛的應用領域中找到,如社會系統、生態系統、生物網絡、知識圖譜和信息系統。隨著人工智能技術的不斷滲透發展,圖學習(即對圖進行機器學習)越來越受到研究者和實踐者的關注。圖學習對許多任務都非常有效,如分類,鏈接預測和匹配。圖學習方法通常是利用機器學習算法提取圖的相關特征。在這個綜述中,我們提出了一個關于圖學習最全面的概述。特別關注四類現有的圖學習方法,包括圖信號處理、矩陣分解、隨機游走和深度學習。分別回顧了這些類別下的主要模型和算法。我們研究了諸如文本、圖像、科學、知識圖譜和組合優化等領域的圖學習應用。此外,我們還討論了該領域幾個有前景的研究方向。

真實的智能系統通常依賴于機器學習算法處理各種類型的數據。盡管圖數據無處不在,但由于其固有的復雜性,給機器學習帶來了前所未有的挑戰。與文本、音頻和圖像不同,圖數據嵌入在一個不規則的領域,使得現有機器學習算法的一些基本操作不適用。許多圖學習模型和算法已經被開發出來解決這些挑戰。本文系統地綜述了目前最先進的圖學習方法及其潛在的應用。這篇論文有多種用途。首先,它作為不同領域(如社會計算、信息檢索、計算機視覺、生物信息學、經濟學和電子商務)的研究人員和從業者提供圖學習的快速參考。其次,它提供了對該領域的開放研究領域的見解。第三,它的目的是激發新的研究思路和更多的興趣在圖學習。

圖,又稱網絡,可以從現實世界中豐富的實體之間的各種關系中提取。一些常見的圖表已經被廣泛用于表達不同的關系,如社會網絡、生物網絡、專利網絡、交通網絡、引文網絡和通信網絡[1]-[3]。圖通常由兩個集合定義,即頂點集和邊集。頂點表示圖形中的實體,而邊表示這些實體之間的關系。由于圖學習在數據挖掘、知識發現等領域的廣泛應用,引起了人們的廣泛關注。由于圖利用了頂點[4],[5]之間的本質和相關關系,在捕獲復雜關系方面,圖學習方法變得越來越流行。例如,在微博網絡中,通過檢測信息級聯,可以跟蹤謠言的傳播軌跡。在生物網絡中,通過推測蛋白質的相互作用可以發現治療疑難疾病的新方法。在交通網絡中,通過分析不同時間戳[6]的共現現象,可以預測人類的移動模式。對這些網絡的有效分析很大程度上取決于網絡的表示方式。

一般來說,圖學習是指對圖進行機器學習。圖學習方法將圖的特征映射到嵌入空間中具有相同維數的特征向量。圖學習模型或算法直接將圖數據轉換為圖學習體系結構的輸出,而不將圖投影到低維空間。由于深度學習技術可以將圖數據編碼并表示為向量,所以大多數圖學習方法都是基于或從深度學習技術推廣而來的。圖學習的輸出向量在連續空間中。圖學習的目標是提取圖的期望特征。因此,圖的表示可以很容易地用于下游任務,如節點分類和鏈接預測,而無需顯式的嵌入過程。因此,圖學習是一種更強大、更有意義的圖分析技術。

在這篇綜述論文中,我們試圖以全面的方式檢驗圖機器學習方法。如圖1所示,我們關注現有以下四類方法:基于圖信號處理(GSP)的方法、基于矩陣分解的方法、基于隨機游走的方法和基于深度學習的方法。大致來說,GSP處理圖的采樣和恢復,并從數據中學習拓撲結構。矩陣分解可分為圖拉普拉斯矩陣分解和頂點接近矩陣分解。基于隨機游動的方法包括基于結構的隨機游動、基于結構和節點信息的隨機游動、異構網絡中的隨機游動和時變網絡中的隨機游動。基于深度學習的方法包括圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。基本上,這些方法/技術的模型架構是不同的。本文對目前最先進的圖學習技術進行了廣泛的回顧。

傳統上,研究人員采用鄰接矩陣來表示一個圖,它只能捕捉相鄰兩個頂點之間的關系。然而,許多復雜和不規則的結構不能被這種簡單的表示捕獲。當我們分析大規模網絡時,傳統的方法在計算上是昂貴的,并且很難在現實應用中實現。因此,有效地表示這些網絡是解決[4]的首要問題。近年來提出的網絡表示學習(NRL)可以學習低維表示[7]-[9]的網絡頂點潛在特征。當新的表示被學習后,可以使用以前的機器學習方法來分析圖數據,并發現數據中隱藏的關系。

當復雜網絡被嵌入到一個潛在的、低維的空間中時,結構信息和頂點屬性可以被保留[4]。因此,網絡的頂點可以用低維向量表示。在以往的機器學習方法中,這些向量可以看作是輸入的特征。圖學習方法為新的表示空間中的圖分析鋪平了道路,許多圖分析任務,如鏈接預測、推薦和分類,都可以有效地解決[10],[11]。網絡的圖形化表現方式揭示了社會生活的各個方面,如交流模式、社區結構和信息擴散[12],[13]。根據頂點、邊和子圖的屬性,可以將圖學習任務分為基于頂點、基于邊和基于子圖三類。圖中頂點之間的關系可以用于分類、風險識別、聚類和社區檢測[14]。通過判斷圖中兩個頂點之間的邊的存在,我們可以進行推薦和知識推理。基于子圖[15]的分類,該圖可用于聚合物分類、三維可視化分類等。對于GSP,設計合適的圖形采樣方法以保持原始圖形的特征,從而有效地恢復原始圖形[16]具有重要意義。在存在不完整數據[17]的情況下,可以使用圖恢復方法構造原始圖。然后利用圖學習從圖數據中學習拓撲結構。綜上所述,利用圖學習可以解決傳統的圖分析方法[18]難以解決的以下挑戰。

付費5元查看完整內容

近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。

概述

學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。

在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。

這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。

廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。

鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。

目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。

在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面

  • 我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。

  • 我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。

  • 我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。

付費5元查看完整內容
北京阿比特科技有限公司