亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖神經網絡(GNNs)是一種基于圖的深度學習模型,已成功應用于許多領域。盡管GNN具有一定的有效性,但GNN要有效地擴展到大型圖仍然是一個挑戰。作為一種補救措施,分布式計算能夠提供豐富的計算資源,成為訓練大規模GNN的一種很有前途的解決方案。然而,圖結構的依賴性增加了實現高效分布式GNN訓練的難度,這將受到海量通信和工作量不平衡的影響。近年來,人們在分布式GNN訓練方面做了很多工作,提出了一系列的訓練算法和系統。然而,從圖處理到分布式執行的優化技術還缺乏系統的綜述。本文分析了分布式GNN訓練中的三個主要挑戰,即大量特征通信、模型精度損失和工作負載不平衡。然后,我們介紹了分布式GNN訓練優化技術的一種新的分類法,以解決上述挑戰。新的分類法將現有技術分為四類:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。我們仔細討論了每個類別中的技術。最后,我們分別總結了現有的多GPU、GPU集群和CPU集群分布式GNN系統,并對可擴展GNN的未來發展方向進行了討論。

//www.zhuanzhi.ai/paper/f714e263f8583bad283b4dcbc85a2aa5

1. 概述

圖神經網絡(GNN)是處理圖建模問題的強大工具,已被廣泛應用于各種應用中,包括社交網絡(如社交垃圾郵件檢測[87,112],社會網絡分析[91]),生物信息學(如蛋白質界面預測[35],疾病-基因關聯[83]),藥物發現[11,66],流量預測[61],醫療保健[2,21],推薦[32,49,55,111],自然語言處理[134,145]和其他[26,85,133,141,144]。通過將圖結構信息融入到深度學習模型中,GNNs可以取得明顯優于傳統機器學習和數據挖掘方法的效果。GNN模型通常包含多圖卷積層,其中每個頂點聚合其鄰居的最新狀態,更新頂點的狀態,并對更新的頂點狀態應用神經網絡(即轉換)。以傳統的圖卷積網絡(GCN)為例,在每一層中,頂點使用求和函數聚合相鄰的狀態和自己的狀態,然后應用單層MLP轉換新狀態。如果層數為??,這樣的過程重復??次。在??th層中生成的頂點狀態供下游任務使用,如節點分類、鏈接預測等。近年來,許多研究工作在圖神經網絡模型的設計方面取得了顯著進展。著名的模型包括GCN[108]、GraphSAGE[46]、GAT[95]、GIN[118]和許多其他特定于應用程序的GNN模型[128,130]。到目前為止,已有數十篇綜述綜述了GNN模型[114,116,135,147]。另一方面,為了高效地開發不同的GNN模型,基于各種深度學習庫提出了許多面向GNN的框架[8,14,34,44,68,104]。許多新的優化被提出來加速GNN訓練,包括GNN計算內核[19,38,52,53,81,93,129],高效的編程模型[51,113,117],以及充分利用新硬件[18,42,124,148]。然而,這些框架和優化主要集中在單個機器上訓練GNN,而沒有過多關注輸入圖的可擴展性。

如今,大規模圖神經網絡[62,70]由于大規模大圖數據的普遍存在而成為一個熱門話題。擁有數十億個頂點和數萬億條邊的圖形是很常見的,比如新浪微博、微信、Twitter和Facebook等社交網絡。然而,現有的大多數GNN模型只在小圖數據集上進行測試,無法處理大圖數據集[50]或效率低下。這是因為之前的GNN模型比較復雜,在處理大型圖時需要大量的計算資源。通過設計可擴展的GNN模型,實現了大規模的圖神經網絡。他們使用簡化[36,47,110],量化[4,33,54,71,90,100,101,107,139],取樣[20,123,125]和蒸餾[24,121,131]來設計高效的模型。另一種方法是將分布式計算應用于GNN訓練。因為在處理大型圖形時,單個設備(如GPU)有限的內存和計算資源成為大規模GNN訓練的瓶頸,而分布式計算提供更多的計算資源(如多GPU、CPU集群等)來提高訓練效率。在設計高效的分布式GNN訓練框架(如PipeGCN [99], BNS-GCN[98])和分布式GNN訓練系統(如AliGraph [150], DistDGL [142], ROC[58])方面已經做出了許多努力。在這個調查中,我們關注的工作與分布式計算的大圖神經網絡,又稱分布式GNN訓練。它將整個模型訓練的工作量分配給一組工人,所有工人并行處理工作量。然而,由于GNN的數據依賴性,將現有的分布式機器學習方法[96,103]應用于GNN并非易事,許多新的技術被提出來優化分布式GNN的訓練管道。盡管有很多關于GNN模型的調查[114,135,147],但據我們所知,很少有人系統地回顧分布式GNN訓練的技術。最近,Besta等[9]只回顧了GNN的并行計算范式,Abadal[1]從算法到硬件加速器考察了GNN計算。

為了清晰地組織分布式GNN訓練的技術,我們介紹了一種通用的分布式GNN訓練管道,該管道由數據劃分、GNN模型優化和梯度聚合三個階段組成。前兩個階段涉及GNN特定的執行邏輯,包括圖處理和圖聚合。最后一個階段與傳統的分布式機器學習相同。在這個通用分布式GNN訓練管道的背景下,我們討論了分布式GNN訓練的三個主要挑戰,這些挑戰是由圖數據中的數據依賴性引起的,需要新的分布式GNN特定技術。為了幫助讀者更好地理解解決上述挑戰的各種優化技術,我們介紹了一種新的分類法,將這些技術分為四個正交的類別:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。該分類法不僅涵蓋了小批分布式GNN訓練和全圖分布式GNN訓練中使用的優化技術,而且還討論了從圖處理到模型執行的技術。我們仔細回顧了每個類別中的現有技術,然后描述了23個來自業界或學術界的代表性分布式GNN系統和框架。最后,簡要討論了分布式GNN訓練的未來發展方向。

這項綜述的貢獻如下:

這是第一個專注于高效分布式GNN訓練優化技術的綜述,它幫助研究人員快速了解分布式GNN訓練的現狀。

通過考慮端到端分布式GNN訓練的生命周期,我們引入了分布式GNN訓練技術的一種新的分類法。在高層次上,新的分類法由四個正交類別組成,分別是GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。

我們為新分類法中的每個類別提供了詳細和全面的技術總結。

我們回顧了23個具有代表性的分布式GNN訓練系統和框架,從工業界到學術界。

討論分布式GNN訓練的未來發展方向。

2. 分布式GNN訓練和挑戰

為了更好地理解端到端分布式GNN訓練的一般工作流程,我們將訓練管道分為數據劃分、GNN模型優化和梯度聚合三個階段。圖1可視化了端到端分布式GNN訓練工作流的高級抽象

  • 數據分區。這是一個支持分布式訓練的預處理階段。它將輸入數據(即圖和特征)分布到一組工作者中。考慮到GNN訓練數據的依賴性,數據劃分階段比傳統分布式機器學習中的數據劃分階段更加復雜。如圖1所示,分區數據(即子圖)之間的跨工作者邊暗示了數據依賴性。如果我們承認分區之間的數據依賴性,分布式訓練效率會因通信而降低;如果我們簡單地忽略數據依賴性,模型的準確性就會被破壞。因此,數據分區是端到端分布式GNN訓練效率的關鍵階段。

  • GNN模型優化。這是分布式GNN訓練的核心階段,執行GNN模型的訓練邏輯(即前向計算和后向計算)。我們進一步將這一階段分為計算圖生成、執行模型和通信協議。首先,每個worker根據分塊的輸入圖和特征生成計算圖,然后用計算圖執行GNN模型,計算損失和梯度。但由于數據的依賴性,計算圖的生成和GNN模型的執行與傳統的深度學習模型有很大的不同。在不訪問遠程輸入數據的情況下,小批量訓練策略的計算圖可能無法正確生成。執行模型涉及GNN模型的??-layer圖聚合,聚合呈現不規則的數據訪問模式。在分布式全圖訓練中,每一層的圖聚合需要通過通信協議訪問頂點遠程鄰居的隱藏特征,還需要考慮層與層之間的同步模式。因此,與傳統的分布式機器學習相比,由于GNN的數據依賴性,計算圖的生成和模型的執行變得更加復雜。

  • 梯度聚合。該階段負責聚合最新的局部梯度,獲得全局梯度,更新模型參數。在GNN環境下,模型規模通常較小,模型更新邏輯與其他機器學習模型相同。經典分布式機器學習中已有的梯度聚合技術可以直接應用于分布式GNN訓練。

為了解決上述問題,實現分布式GNN訓練并優化訓練效率,近年來提出了許多新的技術。大多數現有的工作都是從系統或框架的角度來展示他們自己的技術貢獻,而沒有從技術的角度來很好地回顧相關的工作。本文介紹了一種新的分類法,以端到端分布式訓練管道中的階段為基礎,組織分布式gnn特定技術。通過這樣的設計,我們將分布式GNN訓練管道中相同階段的相似技術組織在一起,幫助讀者充分理解分布式GNN訓練中不同階段的現有解決方案。根據以往的實證研究,由于數據依賴性,分布式GNN訓練的瓶頸一般出現在數據分區和在建的GNN模型優化階段,而針對GNN的新技術就在這兩個階段。此外,不同的訓練策略(如小批量訓練、全圖訓練)帶來不同的工作負載模式,導致模型優化中使用不同的優化技術。例如,模型優化階段的計算圖生成對于小批訓練很重要,而通信協議對于全圖訓練很重要。因此,我們的新分類法將特定于分布式GNN的技術分為四類(即GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議),如圖2所示。下面,我們將介紹每個類別的概述。

3. GNN數據分區****

在本節中,我們回顧了分布式GNN訓練中現有的GNN數據分區技術。圖3描述了這些技術的概述。考慮到圖和特征是GNN中兩種典型的數據類型,我們將劃分方法分為圖劃分和特征劃分。優化目標是工作量平衡、通信和計算最小化,旨在解決挑戰#1和#3。此外,成本模型是捕獲GNN工作負載特征的另一個關鍵組件。在下面,我們首先提出了代價模型,然后分別討論了圖劃分和特征劃分。

4 GNN批量生成

小批GNN訓練是將GNN擴展為大型圖的常用方法。圖采樣實際上是在獨立模式下生成小批量的工具。到目前為止,已經提出了許多基于采樣的圖神經網絡[17,23,46,56,125,151],根據采樣方法的不同類型,可以分為頂點采樣、層采樣和子圖采樣。不同的批生成方法會影響訓練效率和訓練精度。為了避免圖采樣成為瓶頸,人們對高效GNN數據加載器進行了一些探索[5,25,27,76]。在小批分布式GNN訓練中,數據依賴性為批生成過程帶來了大量的通信。為了提高分布式環境下的訓練效率,針對分布式訓練提出了幾種新的GNN批生成技術,并解決了挑戰#1和挑戰#2。如圖4所示,一種解決方案是通過分布式抽樣生成小批處理,另一種是直接使用本地分區(或子圖)作為小批處理。

5. GNN執行模型

圖1中的GNN模型優化階段包括計算圖生成和計算圖執行兩個子階段。執行模型負責對子階段的操作進行調度,以達到較高的訓練效率。這兩個子階段針對不同的訓練范式有不同的運算符。在分布式小批訓練中,采樣和特征提取操作影響訓練效率,計算圖生成成本高。而對于分布式全圖訓練,由于工作者之間的數據依賴性,計算圖的執行比較復雜。下面,我們分別討論了計算圖生成和計算圖執行的執行模型。

6 結論

分布式GNN訓練是將GNN模型擴展到大圖的成功方法之一。在本綜述中,我們系統地回顧了現有的分布式GNN訓練技術,從圖數據處理到分布式模型執行,涵蓋了端到端分布式GNN訓練的生命周期。我們將分布式GNN訓練管道分為三個階段,其中數據劃分階段和GNN模型優化階段是影響GNN訓練效率的兩個關鍵階段。為了清晰地組織優化這兩個關鍵階段的新技術貢獻,我們提出了一個新的分類法,由四個正交的類別組成:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。在GNN數據分區類別中,我們描述了用于分布式GNN訓練的數據分區技術;在GNN批生成類中,我們提出了用于小批分布式GNN訓練的快速GNN批生成技術;在GNN執行模型方面,討論了計算圖生成和計算圖執行所使用的執行模型;在GNN通信協議類別中,我們討論了分布式GNN訓練的同步和異步協議。在仔細回顧了這四類技術之后,我們分別總結了現有代表性的多GPU分布式GNN系統、GPU集群分布式GNN系統和CPU集群分布式GNN系統,并對未來優化大規模GNN訓練的方向進行了討論。

付費5元查看完整內容

相關內容

圖神經網絡 (GNN) 是一種連接模型,它通過圖的節點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,可以表示來自其鄰域的具有任意深度的信息。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統、問答系統甚至生命科學等各個領域得到了越來越廣泛的應用。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

為了對圖結構數據建模,圖學習,特別是利用圖神經網絡的深度圖學習,最近引起了學術界和工業界的廣泛關注。目前流行的圖學習方法通常依賴于從“大”數據中學習,需要大量標注數據進行模型訓練。然而,通常圖與“小”標記數據關聯,作為數據注釋,在圖上標記總是耗時和消耗資源。因此,在有限甚至沒有標記數據的低資源環境下,研究人力監督下的圖學習是非常必要的。在本教程中,我們將專注于圖最小監督學習的最先進的技術,特別是一系列弱監督學習、少樣本學習和自監督學習方法的圖結構數據及其現實應用。本教程的目標是: (1) 對圖最小監督學習中的問題進行正式的分類,并討論不同學習場景下的挑戰; (2) 全面回顧了圖最小監督學習的現有和最新進展; (3) 闡明有待解決的問題和未來的研究方向。本教程介紹了最小監督學習中的主要主題,并為圖學習的新前沿提供了指南。我們相信本教程對研究人員和實踐者是有益的,允許他們在圖學習上合作。

//sites.google.com/asu.edu/kdd2022-tutorial-gmsl

本教程主要關注圖結構數據的最小監督學習(即弱監督學習、少樣本學習和自監督學習)的問題和技術。我們希望觀眾有機器學習、圖挖掘和圖神經網絡的一般背景知識。目標受眾是對該主題不熟悉或感興趣的學生、研究人員和從業人員。本教程將以研究生水平的講座形式進行。具備深度學習、圖挖掘和機器學習的基礎知識優先考慮,但不是必需的。我們將通過網站和社交媒體發布我們的教程信息。

近年來,我們從網絡世界的眾多平臺和物理世界的各種傳感器中生成和收集數據的能力迅速增長。圖作為一種公共語言,用于建模大量的結構化和關系系統,如社會網絡、知識圖譜和學術圖,其中實體被表示為節點,而它們的關系被表示為邊。最近,圖學習算法,尤其是基于圖神經網絡(GNNs)的算法[27,30]由于其在解決現實問題方面的重大影響而受到了廣泛的研究關注。為了利用數據之間的固有結構,圖學習在方法論上取得了重大進展,在不同領域的應用中產生了有前途的結果,從網絡安全[38]到自然語言處理[9]。

一般來說,現有的圖學習算法都專注于在訓練過程中能夠訪問到大量的人類注釋示例的設置。這種假設往往是不可行的,因為收集這些輔助知識是費力的,需要密集的領域知識,特別是考慮到圖結構數據的異構性[10,31]。因此,在有限或沒有標記訓練數據的不同低資源設置下研究圖學習是具有挑戰性的,但也是勢在必行的。其中,圖最小監督學習領域的三個基本問題引起了越來越多的研究關注: (1)圖弱監督學習(graph weaksupervised learning),即利用不完整、間接或不準確的監督信號來學習針對特定下游任務的有效GNN;(2)圖少樣本學習(Graph few -shot Learning),它的目標是在只有少數標簽實例可用的情況下處理不可見的任務(從新的標簽空間);(3)圖自監督學習(Graph Self-supervised Learning),旨在訓練任務無關的GNN或增強GNN在特定的下游任務上的能力,而不需要任何語義注釋。為了解決上述每個基本問題,最近研究人員將不同的機器學習技術應用于圖域,如數據增強[37]、元學習學習[29]和對比學習[21]。因此,我們組織本教程來回顧和討論圖最小監督學習的最新進展,并討論如何利用它們來解決現實世界的問題。

在本教程中,我們的目標是提供一個全面的審查這個新興的和重要的研究主題: 圖最小監督學習。我們將首先介紹圖學習的理論基礎,特別關注圖神經網絡。然后我們討論了圖最小監督學習的三個基本問題以及近年來的關鍵文獻。結合不同粒度級別上的主要圖挖掘任務(例如,節點分類、鏈接預測和圖分類),我們在每個類別中介紹了用于節點級、邊緣級和圖級任務的技術。最后,我們將介紹圖最小監督學習在不同領域的應用,并討論該研究領域的未來發展方向。在圖學習社區中,我們認為圖最小監督學習是一個具有重要社會影響的前沿研究課題,將吸引學術界和業界的研究人員和從業者。

**目錄 **

  • 介紹和概述。首先,我們將簡要介紹深度圖學習及其在低資源環境下面臨的挑戰,然后我們將涉及圖神經網絡[30]、元學習[13]、對比學習[2]等相關主題的一些基礎知識,并介紹圖最小監督學習的概述。

  • 圖弱監督學習。我們將介紹帶有弱監督的圖學習方法和應用。重點抓好監督不到位、間接監督和不準確監督三種薄弱監督。本部分將回顧圖自訓練[8,18]、圖主動學習[5,6,14]和圖遷移學習[7,11,31]等一系列學習技術。

  • 我們將介紹圖少樣本學習的方法和應用。具體來說,我們將介紹兩類方法:基于元梯度的方法[22,28,35,36]和基于度量學習的方法[10-12,16,31,34],以展示如何處理從未見過的節點、邊和圖。此外,我們還將討論圖零樣本學習[19,20,24]。

  • 圖自監督學習。我們將介紹圖自監督學習的方法和應用。具體來說,我們將涵蓋三種主要的范式,包括圖生成建模[3,4,17,23]、圖屬性預測[15,26]和圖對比學習[1,25,32,33]。

  • 結論和討論。我們將總結所涵蓋的主題并討論它們之間的聯系。并討論了本課題未來的研究方向。

講者:

付費5元查看完整內容

近幾年來,將深度學習應用到處理和圖結構數據相關的任務中越來越受到人們的關注.圖神經 網絡的出現使其在上述任務中取得了重大突破,比如在社交網絡、自然語言處理、計算機視覺甚至生命 科學等領域得到了非常廣泛的應用.圖神經網絡可以把實際問題看作圖中節點之間的連接和消息傳播 問題,對節點之間的依賴關系進行建模,從而能夠很好地處理圖結構數據.鑒于此,系統綜述了圖神經網絡模型以及應用.首先從譜域、空間域和池化3方面對圖卷積神經網絡進行了闡述.然后,描述了基于注意 力機制和自編碼器的圖神經網絡模型,并補充了一些其他方法實現的圖神經網絡.其次,總結了針對圖 神經網絡能不能做大做深等問題的討論分析.進而,概括了圖神經網絡的4個框架.還詳細說明了在圖 神經網絡在自然語言處理、計算機視覺等方面的應用.最后,對圖神經網絡未來的研究進行了展望和總 結.相較于已有的圖神經網絡綜述文章,詳細闡述了譜理論知識,并對基于譜域的圖卷積神經網絡體系 進行全面總結.同時,給出了針對空間域圖卷積神經網絡效率低的改進模型這一新的分類標準.并總結 了針對圖神經網絡表達能力、理論保障等的討論分析,增加了新的框架模型.在應用部分,闡述了圖神經 網絡的最新應用.

在過去幾年,深度學習已經在人工智能和機器 學習上取得了成功,給社會帶來了巨大的進步.深度 學習的特點是堆積多層的神經網絡層,從而具有更 好的學 習 表 示 能 力.卷 積 神 經 網 絡 (convolutional neuralnetwork,CNN)的飛速發展更是將深度學習 帶上了一個新的臺階[1G2].CNN 的平移不變性、局部 性和組合性使其天然適用于處理像圖像這樣的歐氏 結構數據的任務中[3G4],同時也可以應用于機器學習 的其他各個領域[5G7].深度學習的成功一部分源自于 可以從歐氏數據中提取出有效的數據表示,從而對 其進行高效的處理.另一個原因則是得益于 GPU 的 快速發展,使得計算機具有強大的計算和存儲能力, 能夠在大規模的數據集中訓練和學習深度學習模 型.這使得深度學習在自然語言處理[8]、機器視覺[9] 和推薦系統[10]等領域都表現出了良好的性能.

但是, 現有的神經網絡只能對常規的歐氏結構 數據進行處理.如圖1(a)歐氏數據結構,其特點就是 節點有固定的排列規則和順序,如2維網格和1維 序列.而當前越來越多的實際應用問題必須要考慮 非歐氏數據,如圖1(b)非歐氏數據結構中節點沒有 固定的排列規則和順序,這就使得不能直接將傳統 的深度學習模型遷移到處理非歐氏結構數據的任務 中.如若直接將 CNN 應用到其中,由于非歐氏數據中心節點的鄰居節點數量和排列順序不固定,不滿 足平移不變性,這就很難在非歐氏數據中定義卷積 核.針對圖神經網絡(graphneuralnetwork,GNN) 的研究工作,最開始就是在如何固定鄰居節點數量 以及如何給鄰居節點排序展開的,比如 PATCHYG SAN [11],LGCN [12],DCNN [13]方法等.完成上述2項 工作之后,非歐氏結構數據就轉化為歐氏結構數據, 然后就可以利用 CNN 處理.圖是具有點和邊的典型 非歐氏數據,在實際中可以將各種非歐氏數據問題 抽象為圖結構.比如在交通系統中,利用基于圖的學 習模型可以對路況信息進行有效的預測[14].在計算 機視覺中,將人與物的交互看作一種圖結構,可以對 其進行有效地識別[15]。

近期已有一些學者對圖神經網絡及其圖卷積神經網絡分支進行了綜述[16G19].本文的不同之處在于,首先由于經典模型是很多變體模型的基石,所以給 出了經典模型的理論基礎以及詳細推理步驟.在1.2 節基于空間方法的圖卷積神經網絡中,多用圖的形 式列出模型的實現過程,使模型更加通俗易懂.文獻 [16G19]并未對目前廣大學者熱點討論的問題進行 總結,所以在第5節針對圖神經網絡的討論部分,首 次列出了目前研究學者對 GNN 的熱點關注問題, 比如其表達能力、過平滑問題等.然后,在第6節中 總結了圖神經網絡新框架.同時,針對圖神經網絡的 應用,在第7節中較全面地介紹了 GNN 的應用場 景.最后,列出了圖神經網絡未來的研究方向.在圖2 中列出了本文的主體結構.

研究圖神經網絡對推動深度學習的發展以及人 類的進步具有重大意義.首先,現實中越來越多的問 題可以抽象成非歐氏結構數據,由于圖數據的不規 則性,傳統的深度學習模型已經不能處理這種數據, 這就亟需研究設計一種新的深度神經網絡.而 GNN 所處理的數據對象就是具有不規則結構的圖數據,GNN 便在這種大背景下應運而生[20G21].然后,圖數 據的結構和任務是十分豐富的.這種豐富的結構和 任務也正是和人們生活中要處理的實際問題相貼合 的.比如,圖數據有異質性以及邊的有向連接特性, 這和推薦系統中的場景完全類似.圖數據處理任務 中節點級別、邊級別以及整圖級別也同樣可以應用到深度學習的各個應用場景中.所以,GNN 的研究 為解決生活中的實際問題找到了一種新的方法和途 徑.最后,GNN 的應用領域是十分廣泛的,能夠處理 各種能抽象成圖數據的任務.不管是在傳統的自然 語言處理領域[22G24]或者圖像領域[25G26],還是在新興 的生化領域[27G28],GNN都能表現出強大的性能.

1 圖卷積神經網絡

CNN 已經在圖像識別、自然語言處理等多個領 域取得了不俗的成績,但其只能高效地處理網格和 序列等這樣規則的歐氏數據.不能有效地處理像社 交多媒體網絡數據、化學成分結構數據、生物蛋白數 據以及知識圖譜數據等圖結構的非歐氏數據.為此, 無數學者經過不懈努力,成功地將 CNN 應用到圖 結構的非歐氏數據上,提出了圖卷積神經網絡(graph convolutionalnetwork,GCN).GCN 是 GNN 中一 個重要分支,現有的大多數模型基本上都是在此基 礎上變化推導而來.下面我們將按照從基于譜方法、 空間方法和池化3方面對 GCN 進行總結和概括.

2 基于注意力實現的圖神經網絡

注意力機制在處理序列任務已經表現出強大的 能力[60],比如在機器閱讀和學習 句 子 表 征 的 任 務 中.其強大的優勢在于允許可變大小的輸入,然后利 用注意力機制只關心最重要的部分,最后做出決策處理.一些研究發現,注意力機制可以改進卷積方 法,從而可以構建一個強大的模型,在處理一些任務 時能夠取得更好的性能.為此,文獻[61]將注意力機 制引入到了圖神經網絡中對鄰居節點聚合的過程 中,提出了圖注意力網絡(graphattentionnetworks, GAT).在傳統的 GNN 框架中,加入了注意力層,從 而可以學習出各個鄰居節點的不同權重,將其區別對待.進而在聚合鄰居節點的過程中只關注那些作 用比較大的節點,而忽視一些作用較小的節點.GAT 的核心思想是利用神經網絡學習出各個鄰居節點的 權重,然后利用不同權重的鄰居節點更新出中心節 點的表示。

3 基于自編碼器實現的圖神經網絡

在無監督學習任務中,自編碼器(autoencoder, AE)及其變體扮演者非常重要的角色,它借助于神 經網絡模型實現隱表示學習,具有強大的數據特征 提取能力.AE 通過編碼器和解碼器實現對輸入數 據的有效表示學習,并且學習到的隱表示的維數可 以遠遠小于輸入數據的維數,實現降維的目的.AE 是目前隱表示學習的首選深度學習技術,當我們把 具有某些聯系的原始數據(X1,X2,…,Xn)輸入到 AE中進行重構學習時,可以完成特征提取的任務. 自編碼器的應用場景是非常廣泛的,經常被用于數據去噪、圖像重構以及異常檢測等任務中.除此之 外,當 AE被用于生成與訓練數據類似的數據時, 稱之為生成式模型.由于 AE具有上述優點,一些學 者便將 AE 及其變體模型應用到圖神經網絡當中 來.文 獻 [69]第 1 個 提 出 了 基 于 變 分 自 編 碼 器 (variationalautoencoder,VAE)的變分圖自編碼器 模型 (variationalgraphautoencoder,VGAE),將 VAE應用到對圖結構數據的處理上.VGAE利用隱 變量學習出無向圖的可解釋隱表示,使用了圖卷積 網絡編碼器和一個簡單的內積解碼器來實現這個模 型.

4. 未來研究展望 GNN

雖然起步較晚, 但由于其強大的性能, 已經取得了不俗的表現, 并且也在例如計算機視覺和推薦系統等實際應用中發揮著巨大的作用.不難發現, GNN 確實更符合當前實際應用的發展趨勢, 所 以 在 近 幾 年 才 會 得 到 越 來 越 多 人 的 關 注.但 是, GNN 畢竟起步較晚,還沒有時間積累,研究的深度 和領域還不夠寬廣.目前來看,它依然面臨著許多亟 待解決的問題,本節總結了 GNN 以后的研究趨勢.

1) 動態圖.目前,GNN 處理的圖結構基本上都 是靜態圖,涉及動態圖結構的模型較少[138G139],處理 動態圖對 GNN 來說是一個不小的挑戰.靜態圖的 圖結構是靜態不變的,而動態圖的頂點和邊是隨機 變化的,甚至會消失,并且有時還沒有任何規律可 循.目前針對 GNN 處理動態圖結構的研究還是比 較少的,還不夠成熟.如果 GNN 能夠成功應用于動 態圖結構上,相信這會使 GNN 的應用領域更加寬 廣.將 GNN 模型成功地推廣到動態圖模型是一個 熱點研究方向.

2) 異質圖.同質圖是指節點和邊只有一種類型, 這種數據處理起來較容易.而異質圖則是指節點和 邊的類型不只一種,同一個節點和不同的節點連接 會表現出不同的屬性,同一條邊和不同的節點連接 也會表現出不同的關系,這種異質圖結構處理起來 就相對復雜.但異質圖卻是和實際問題最為貼切的 場景,比如在社交網絡中,同一個人在不同的社交圈 中可能扮演著父親、老師等不同的角色.對于異質圖 的研究還處在剛起步的階段[140G141],模型方法還不 夠完善.所以,處理異質圖也是將來研究的一個熱點.

3) 構建更深的圖神經網絡模型.深度學習的強 大優勢在于能夠形成多層的不同抽象層次的隱表 示,從而才能表現出優于淺層機器學習的強大優勢. 但對于圖深度學習來說,現有的圖神經網絡模型大 多還是只限于淺層的結構.通過實驗發現,當構造多 層的神經網絡時,實驗結果反而變差.這是由過平滑 現象造成的,GNN 的本質是通過聚合鄰居節點信息 來表征中心節點.當構造多層的神經網絡之后,中心 節點和鄰 居 節 點 的 差 異 就 會 變 得 微 乎 其 微,從 而 會導致分類結果變差.如何解決過平滑現象,使圖神 經網絡能夠應用于更多層的結構,從而發揮出深度 學習的強大優勢.雖然已有文獻對其進行了討論[91], 但構建更深的圖神經網絡模型仍是值得深入研究的 問題.

4) 將圖神經網絡應用到大圖上.隨著互聯網的 普及,圖神經網絡處理的數據也變得越來越大,致使 圖中的節點數量變得巨大,這就給圖神經網絡的計 算帶來了不小的挑戰.雖然一些學者對該問題進行 了研究改進[142],但針對將圖神經網絡應用到大圖 上的研究同樣是將來研究的熱點問題,在這方面,引 入摘要數據結構,構造局部圖數據,并能適當地融合 局部圖結構,形成整體圖神經網絡的表示是可能的 思路.

5) 探索圖中更多有用的信息.在當前諸多學者 對于圖神經網絡模型的研究中,僅僅利用了圖中節 點之間有無連接這一拓撲結構信息.但是,圖是一個 非常復雜的數據結構,里面還有很多有用的信息未 被人們發現利用.比如,圖中節點的位置信息.中心 節點的同階鄰居節點處于不同位置,距離中心節點 的遠近不同應該會對中心節點產生的影響程度不 同.如果能夠探索出圖中更多的有用信息,必會將圖 神經網絡的性能提升一個層次,這是一個非常值得 探討的問題.

6) 設計圖神經網絡的數學理論保障體系.任何 神經網絡模型必須有強大的數學理論支撐才能發展 得更快,走得更遠.現在對于圖神經網絡模型的設 計,大多還只是依靠研究者的經驗和基于機理邏輯 設計出來的,并且對于圖神經網絡模型的性能分析 僅僅是從實驗結果中得來,并沒有從數學理論層面 給出 一 個 合 理 的 解 釋.目 前,該 領 域 已 有 一 些 研 究[90G91],但為圖神經網絡設計出強大的數學理論,指 導圖神經網絡的構造、學習和推理過程.能夠給出圖 神經網絡學習結果正確性的數學理論保障,仍是未 來發展的一個重要方向.

  1. 圖神經網絡的工業落地.當前對于圖神經網 絡的研究大多還只是停留在理論層面,首先設計出模型,然后在公開數據集上進行測試驗證,鮮有把工 業的實際情況考慮在內.雖然圖神經網絡在工業上 已有一小部分的實際應用,但還遠沒有達到大規模 應用的程度.任何研究只有真正地在工業界落地,才 能發揮它的應用價值,反之也會促進其進一步的研 究發展.盡快將圖神經網絡應用到實際的工業場景 中,是一個亟需解決的問題.
付費5元查看完整內容

圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法,它通過將圖廣播操作和深度學習算法結合,可以讓圖的結構信息和頂點屬性信息都參與到學習中,在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性,已成為一種廣泛應用的圖分析方法.然而現有主流的深度學習框架(如Tensorflow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持,這限制了圖神經網絡算法在大規模圖數據上的應用.目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點,探索了大規模圖神經網絡系統的設計和實現方案.本文首先對圖神經網絡的發展進行簡要概述,總結了設計圖神經網絡系統需要面對的挑戰;隨后對目前圖神經網絡系統的工作進行介紹,從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析;最后使用部分已開源的圖神經網絡系統進行實驗評估,從精確度、性能、擴展性等多個方面驗證這些系統的有效性.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311

付費5元查看完整內容
北京阿比特科技有限公司