屬性圖是對現實系統建模的有力工具,它存在于社會科學、生物學、電子商務等許多領域。這些系統的行為大多由它們對應的網絡結構定義或依賴于它們。由于這些系統迅速融入到人類生活的各個方面,以及它們對人類行為的深刻影響,圖分析已經成為一個重要的研究方向。圖結構數據包含了來自網絡連通性和節點補充輸入特征的豐富信息。機器學習算法或傳統的網絡科學工具在同時利用網絡拓撲和節點特征方面存在局限性。圖神經網絡(GNNs)提供了一個有效的框架,將兩種信息源結合起來,為包括節點分類、鏈接預測等在內的廣泛任務產生精確的預測。
圖數據集的指數增長推動了復雜GNN模型的發展,引起了對處理時間和結果可解釋性的關注。另一個問題來自于收集大量帶注釋的數據來訓練深度學習GNN模型的成本和局限性。除了采樣問題外,數據中異常實體的存在可能會降低擬合模型的質量。在本文中,我們提出了新的技術和策略來克服上述挑戰。首先,我們提出了一種適用于簡單圖卷積(SGC)的靈活正則化方案。該框架在呈現稀疏擬合參數向量集的同時,繼承了SGC快速高效的特性,有利于識別重要的輸入特征。其次,我們研究收集訓練樣本的有效程序,并制定指示性措施及量化指引,以協助從業員選擇最佳抽樣策略以獲取數據。然后對現有的GNN模型進行改進,以完成異常檢測任務。該框架具有較好的準確性和可靠性。最后,我們嘗試將靈活的正則化機制應用于鏈接預測任務。
機器學習已經被應用于越來越多影響我們日常生活的社交相關場景,從社交媒體和電子商務到自動駕駛汽車和刑事司法。因此,開發可信、可靠的機器學習方法至關重要,以避免對個人和社會產生負面影響。本文致力于理解和提升圖機器學習的可信性,由于圖數據的復雜關系結構,這提出了獨特的挑戰。
特別地,我們認為機器學習模型的可信性在異常情況下是可靠的。例如,機器學習模型在對抗攻擊下或在子種群上的性能不應嚴重退化,分別對應對抗魯棒性或公平性問題。值得信任的圖機器學習的獨特挑戰是,在圖數據的上下文中有許多更復雜的,有時是隱式的異常條件。本文識別了未充分挖掘的異常情況,理解了識別出的異常情況下的預期模型行為,并改進了現有模型在此類異常情況下的行為。
重點關注圖神經網絡(GNN),這是一類流行的圖機器學習模型,利用了深度學習的最新進展。**本文確定了圖神經網絡的三種異常情況。**首先,受社交網絡應用場景啟發,通過一個新的實際威脅模型研究了GNN的對抗魯棒性,并研究了GNN何時以及為什么會遭受對抗攻擊。發現現有的GNN對許多現實世界的圖數據可能會被錯誤指定,并開發了一個新的框架來改進現有的模型。發現了一種與節點結構位置相關的測試節點子種群之間的GNN預測的不公平性。本文還提出了一種主動學習框架來緩解不公平問題。
人工智能(AI),特別是機器學習(ML),已經作為一種通用技術融入人類社會1,有望在許多方面重塑我們的日常生活,從社交媒體和電子商務,到自動駕駛汽車和刑事司法。然而,盡管AI和ML帶來了巨大的經驗成功和商業價值,但要更廣泛地部署這些技術,需要更好地理解ML模型對社會的影響。因此,可信的ML成為了一個越來越受歡迎的研究方向。Trustworthy ML是一個概括性的概念,包括關于ML可靠性和透明度的各種主題,如公平性、魯棒性、可解釋性等。
例如,機器學習模型可能在特定子種群上的系統表現較差,這導致了公平性問題。因此,對機器學習公平性的研究興趣迅速增加。也有現實世界的ML應用程序證明了偏見和不公平:亞馬遜的人工智能招聘工具被發現具有性別偏見[37];一種曾經廣泛使用的犯罪預測工具,矯正罪犯管理分析替代制裁(COMPAS),被發現具有種族偏見[4]。另一個例子是,ML模型已被證明對添加到數據中的小的對抗性擾動很敏感,因此容易受到對抗性攻擊[136]。例如,最先進的計算機視覺模型可能通過停車標志[45]上看似隨機的涂鴉,將停車標志識別為限速標志。
由于相關主題的多樣性和我們對可信機器學習的科學理解的文獻歷史,社區自然發展出了一套相對被廣泛接受的可信性問題的概念類別,包括但不限于公平性、魯棒性、安全性、隱私、可問責性、可解釋性和因果性。雖然這種概念分類,像任何分類系統一樣,有助于簡化對該領域的理解,但有時也會產生誤導。
首先,這種分類可以使可信機器學習的不同問題被視為孤立的主題。然而,這些不同的可信性問題可能相互沖突或相關。例如,在某些隱私和公平概念之間存在固有的沖突[32,24]。另一方面,公平性也可以與域外泛化相關[99]。此外,可解釋的ML[41]和因果推理[113]可以成為一些公平性或魯棒性問題的候選解決方案。一個扁平的概念類別分類方法無法捕捉不同主題之間豐富的相互關系。
其次,這種分類傾向于為每個主題尋找過度通用的解決方案,這可能不是解決可信機器學習問題的最佳方法。由于主題的概念性質,通常有各種直觀合理的方法來將可信性概念(例如,公平性或魯棒性)形式化為定量概念,而同時實現所有概念的可信性是不現實的。例如,Kleinberg等人[78]證明,通常不可能有一種算法同時滿足三個常見的公平標準。因此,沒有一個通用的解決方案是所有應用的萬能藥。此外,不同的可信性問題的重要性和恰當表述是高度特定于應用程序的。就可信性不同方面的重要性而言,例如,自動駕駛汽車可能會遭受對抗性攻擊,因為它在野生[45]中接受數據輸入;相比之下,對電子健康記錄(EHR)數據進行對抗性攻擊實際上要困難得多,因為這些數據由授權的醫療專家生成,并且在封閉的系統中循環。另一方面,EHR數據的隱私標準遠高于駕駛數據。在可信性的正確制定方面,研究表明,制定的選擇應該利用利益相關者在具體應用[28]中的感知。總的來說,應該將可信性作為位于特定類型的應用程序場景中的ML技術的屬性來研究,而不是作為通用ML技術的屬性。
許多現有的可信性概念可以按照這個程序重新制定。例如,機器學習模型的不公平性問題往往是由于它們在特定少數子種群上的性能下降,而與它們在多數子種群上的性能相比。機器學習的對抗漏洞是指與在干凈數據上的性能相比,它們在對抗攻擊下的性能下降。另一方面,其他一些可信性概念,如可解釋性或因果關系,不能通過上述過程直接表述。在某種程度上,不公平或不魯棒的模型將產生直接后果,而可解釋性或因果關系可以被視為緩解問題的候選解決方案(例如,不公平或不魯棒)。上述過程關注的是作為問題而不是解決方案的可信性概念。這個過程還強調應用場景的可信性問題。
為約束特定應用場景下的可信范圍,本文對圖機器學習(GML)的可信性進行了研究。現實世界的數據中存在大量的關系結構,通常以圖的形式表示。例如,社交媒體上的用戶或物聯網系統中的傳感器通過圖結構進行連接。如果在預測任務中使用得當,這種關系圖結構可以提供顯著的預測能力。GML是一個流行的機器學習技術家族,它將圖結構用于預測模型。近年來,GML在許多影響人們日常生活的應用中表現出了優異的性能。舉個常見的例子,GML在Uber Eats[65]、亞馬遜[162]和Pinterest[157]的工業推薦系統中發揮著重要作用;GML還被廣泛用于在谷歌Map[38]中的ETA預測或房地產價格估計等任務中對地理數據進行建模[114]。此外,由于關系結構的普遍性,GML方法已經應用于或準備應用于高利害攸關的決策問題,如社會正義。例如犯罪預測和數據驅動的起訴[68,156],警察不當行為預測[22],假釋決定的風險評估[132],公共安全監視[95],以及許多其他社會公正和安全問題[111]。
鑒于GML的眾多社會相關應用場景,這類ML系統的可信性問題變得至關重要。此外,與傳統的ML相比,由于GML復雜的關系結構,在理解和改進GML的可信性問題方面存在獨特的挑戰。特別是,在GML的上下文中,有許多更復雜,有時甚至是隱式的異常條件。以對抗性攻擊為例,在傳統的機器學習設置中,攻擊者大多通過向輸入特征添加對抗性擾動來進行攻擊。對于GML,在實際應用中存在著更復雜的威脅:攻擊者不僅可以擾動GML節點屬性,還可以擾動圖結構;攻擊者還可以通過擾動鄰居節點來間接影響節點的預測結果。在子種群之間的機器學習公平性方面,大多數傳統文獻研究的是有關某些敏感屬性的子種群,如性別或種族。在圖數據中,人們可以根據圖結構來調查子群體,例如節點中心性[12,13]或社區結構[51,47]。社會科學理論認為,社會網絡中人們的結構特征往往與其社會經濟地位相關[53,16]。圖數據中獨特的對抗性威脅和基于結構的子群呈現出在傳統ML文獻中沒有充分探索的例外情況,使可信的GML更具挑戰性。
本文旨在解決這些對理解和提高GML可信性的獨特挑戰。具體而言,本文旨在回答以下3類研究問題,并在3種應用場景下展示研究方法。
圖神經網絡(GNNs)是一種基于圖的深度學習模型,已成功應用于許多領域。盡管GNN具有一定的有效性,但GNN要有效地擴展到大型圖仍然是一個挑戰。作為一種補救措施,分布式計算能夠提供豐富的計算資源,成為訓練大規模GNN的一種很有前途的解決方案。然而,圖結構的依賴性增加了實現高效分布式GNN訓練的難度,這將受到海量通信和工作量不平衡的影響。近年來,人們在分布式GNN訓練方面做了很多工作,提出了一系列的訓練算法和系統。然而,從圖處理到分布式執行的優化技術還缺乏系統的綜述。本文分析了分布式GNN訓練中的三個主要挑戰,即大量特征通信、模型精度損失和工作負載不平衡。然后,我們介紹了分布式GNN訓練優化技術的一種新的分類法,以解決上述挑戰。新的分類法將現有技術分為四類:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。我們仔細討論了每個類別中的技術。最后,我們分別總結了現有的多GPU、GPU集群和CPU集群分布式GNN系統,并對可擴展GNN的未來發展方向進行了討論。
//www.zhuanzhi.ai/paper/f714e263f8583bad283b4dcbc85a2aa5
1. 概述
圖神經網絡(GNN)是處理圖建模問題的強大工具,已被廣泛應用于各種應用中,包括社交網絡(如社交垃圾郵件檢測[87,112],社會網絡分析[91]),生物信息學(如蛋白質界面預測[35],疾病-基因關聯[83]),藥物發現[11,66],流量預測[61],醫療保健[2,21],推薦[32,49,55,111],自然語言處理[134,145]和其他[26,85,133,141,144]。通過將圖結構信息融入到深度學習模型中,GNNs可以取得明顯優于傳統機器學習和數據挖掘方法的效果。GNN模型通常包含多圖卷積層,其中每個頂點聚合其鄰居的最新狀態,更新頂點的狀態,并對更新的頂點狀態應用神經網絡(即轉換)。以傳統的圖卷積網絡(GCN)為例,在每一層中,頂點使用求和函數聚合相鄰的狀態和自己的狀態,然后應用單層MLP轉換新狀態。如果層數為??,這樣的過程重復??次。在??th層中生成的頂點狀態供下游任務使用,如節點分類、鏈接預測等。近年來,許多研究工作在圖神經網絡模型的設計方面取得了顯著進展。著名的模型包括GCN[108]、GraphSAGE[46]、GAT[95]、GIN[118]和許多其他特定于應用程序的GNN模型[128,130]。到目前為止,已有數十篇綜述綜述了GNN模型[114,116,135,147]。另一方面,為了高效地開發不同的GNN模型,基于各種深度學習庫提出了許多面向GNN的框架[8,14,34,44,68,104]。許多新的優化被提出來加速GNN訓練,包括GNN計算內核[19,38,52,53,81,93,129],高效的編程模型[51,113,117],以及充分利用新硬件[18,42,124,148]。然而,這些框架和優化主要集中在單個機器上訓練GNN,而沒有過多關注輸入圖的可擴展性。
如今,大規模圖神經網絡[62,70]由于大規模大圖數據的普遍存在而成為一個熱門話題。擁有數十億個頂點和數萬億條邊的圖形是很常見的,比如新浪微博、微信、Twitter和Facebook等社交網絡。然而,現有的大多數GNN模型只在小圖數據集上進行測試,無法處理大圖數據集[50]或效率低下。這是因為之前的GNN模型比較復雜,在處理大型圖時需要大量的計算資源。通過設計可擴展的GNN模型,實現了大規模的圖神經網絡。他們使用簡化[36,47,110],量化[4,33,54,71,90,100,101,107,139],取樣[20,123,125]和蒸餾[24,121,131]來設計高效的模型。另一種方法是將分布式計算應用于GNN訓練。因為在處理大型圖形時,單個設備(如GPU)有限的內存和計算資源成為大規模GNN訓練的瓶頸,而分布式計算提供更多的計算資源(如多GPU、CPU集群等)來提高訓練效率。在設計高效的分布式GNN訓練框架(如PipeGCN [99], BNS-GCN[98])和分布式GNN訓練系統(如AliGraph [150], DistDGL [142], ROC[58])方面已經做出了許多努力。在這個調查中,我們關注的工作與分布式計算的大圖神經網絡,又稱分布式GNN訓練。它將整個模型訓練的工作量分配給一組工人,所有工人并行處理工作量。然而,由于GNN的數據依賴性,將現有的分布式機器學習方法[96,103]應用于GNN并非易事,許多新的技術被提出來優化分布式GNN的訓練管道。盡管有很多關于GNN模型的調查[114,135,147],但據我們所知,很少有人系統地回顧分布式GNN訓練的技術。最近,Besta等[9]只回顧了GNN的并行計算范式,Abadal[1]從算法到硬件加速器考察了GNN計算。
為了清晰地組織分布式GNN訓練的技術,我們介紹了一種通用的分布式GNN訓練管道,該管道由數據劃分、GNN模型優化和梯度聚合三個階段組成。前兩個階段涉及GNN特定的執行邏輯,包括圖處理和圖聚合。最后一個階段與傳統的分布式機器學習相同。在這個通用分布式GNN訓練管道的背景下,我們討論了分布式GNN訓練的三個主要挑戰,這些挑戰是由圖數據中的數據依賴性引起的,需要新的分布式GNN特定技術。為了幫助讀者更好地理解解決上述挑戰的各種優化技術,我們介紹了一種新的分類法,將這些技術分為四個正交的類別:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。該分類法不僅涵蓋了小批分布式GNN訓練和全圖分布式GNN訓練中使用的優化技術,而且還討論了從圖處理到模型執行的技術。我們仔細回顧了每個類別中的現有技術,然后描述了23個來自業界或學術界的代表性分布式GNN系統和框架。最后,簡要討論了分布式GNN訓練的未來發展方向。
這項綜述的貢獻如下:
這是第一個專注于高效分布式GNN訓練優化技術的綜述,它幫助研究人員快速了解分布式GNN訓練的現狀。
通過考慮端到端分布式GNN訓練的生命周期,我們引入了分布式GNN訓練技術的一種新的分類法。在高層次上,新的分類法由四個正交類別組成,分別是GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。
我們為新分類法中的每個類別提供了詳細和全面的技術總結。
我們回顧了23個具有代表性的分布式GNN訓練系統和框架,從工業界到學術界。
討論分布式GNN訓練的未來發展方向。
2. 分布式GNN訓練和挑戰
為了更好地理解端到端分布式GNN訓練的一般工作流程,我們將訓練管道分為數據劃分、GNN模型優化和梯度聚合三個階段。圖1可視化了端到端分布式GNN訓練工作流的高級抽象。
數據分區。這是一個支持分布式訓練的預處理階段。它將輸入數據(即圖和特征)分布到一組工作者中。考慮到GNN訓練數據的依賴性,數據劃分階段比傳統分布式機器學習中的數據劃分階段更加復雜。如圖1所示,分區數據(即子圖)之間的跨工作者邊暗示了數據依賴性。如果我們承認分區之間的數據依賴性,分布式訓練效率會因通信而降低;如果我們簡單地忽略數據依賴性,模型的準確性就會被破壞。因此,數據分區是端到端分布式GNN訓練效率的關鍵階段。
GNN模型優化。這是分布式GNN訓練的核心階段,執行GNN模型的訓練邏輯(即前向計算和后向計算)。我們進一步將這一階段分為計算圖生成、執行模型和通信協議。首先,每個worker根據分塊的輸入圖和特征生成計算圖,然后用計算圖執行GNN模型,計算損失和梯度。但由于數據的依賴性,計算圖的生成和GNN模型的執行與傳統的深度學習模型有很大的不同。在不訪問遠程輸入數據的情況下,小批量訓練策略的計算圖可能無法正確生成。執行模型涉及GNN模型的??-layer圖聚合,聚合呈現不規則的數據訪問模式。在分布式全圖訓練中,每一層的圖聚合需要通過通信協議訪問頂點遠程鄰居的隱藏特征,還需要考慮層與層之間的同步模式。因此,與傳統的分布式機器學習相比,由于GNN的數據依賴性,計算圖的生成和模型的執行變得更加復雜。
梯度聚合。該階段負責聚合最新的局部梯度,獲得全局梯度,更新模型參數。在GNN環境下,模型規模通常較小,模型更新邏輯與其他機器學習模型相同。經典分布式機器學習中已有的梯度聚合技術可以直接應用于分布式GNN訓練。
為了解決上述問題,實現分布式GNN訓練并優化訓練效率,近年來提出了許多新的技術。大多數現有的工作都是從系統或框架的角度來展示他們自己的技術貢獻,而沒有從技術的角度來很好地回顧相關的工作。本文介紹了一種新的分類法,以端到端分布式訓練管道中的階段為基礎,組織分布式gnn特定技術。通過這樣的設計,我們將分布式GNN訓練管道中相同階段的相似技術組織在一起,幫助讀者充分理解分布式GNN訓練中不同階段的現有解決方案。根據以往的實證研究,由于數據依賴性,分布式GNN訓練的瓶頸一般出現在數據分區和在建的GNN模型優化階段,而針對GNN的新技術就在這兩個階段。此外,不同的訓練策略(如小批量訓練、全圖訓練)帶來不同的工作負載模式,導致模型優化中使用不同的優化技術。例如,模型優化階段的計算圖生成對于小批訓練很重要,而通信協議對于全圖訓練很重要。因此,我們的新分類法將特定于分布式GNN的技術分為四類(即GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議),如圖2所示。下面,我們將介紹每個類別的概述。
3. GNN數據分區****
在本節中,我們回顧了分布式GNN訓練中現有的GNN數據分區技術。圖3描述了這些技術的概述。考慮到圖和特征是GNN中兩種典型的數據類型,我們將劃分方法分為圖劃分和特征劃分。優化目標是工作量平衡、通信和計算最小化,旨在解決挑戰#1和#3。此外,成本模型是捕獲GNN工作負載特征的另一個關鍵組件。在下面,我們首先提出了代價模型,然后分別討論了圖劃分和特征劃分。
4 GNN批量生成
小批GNN訓練是將GNN擴展為大型圖的常用方法。圖采樣實際上是在獨立模式下生成小批量的工具。到目前為止,已經提出了許多基于采樣的圖神經網絡[17,23,46,56,125,151],根據采樣方法的不同類型,可以分為頂點采樣、層采樣和子圖采樣。不同的批生成方法會影響訓練效率和訓練精度。為了避免圖采樣成為瓶頸,人們對高效GNN數據加載器進行了一些探索[5,25,27,76]。在小批分布式GNN訓練中,數據依賴性為批生成過程帶來了大量的通信。為了提高分布式環境下的訓練效率,針對分布式訓練提出了幾種新的GNN批生成技術,并解決了挑戰#1和挑戰#2。如圖4所示,一種解決方案是通過分布式抽樣生成小批處理,另一種是直接使用本地分區(或子圖)作為小批處理。
5. GNN執行模型
圖1中的GNN模型優化階段包括計算圖生成和計算圖執行兩個子階段。執行模型負責對子階段的操作進行調度,以達到較高的訓練效率。這兩個子階段針對不同的訓練范式有不同的運算符。在分布式小批訓練中,采樣和特征提取操作影響訓練效率,計算圖生成成本高。而對于分布式全圖訓練,由于工作者之間的數據依賴性,計算圖的執行比較復雜。下面,我們分別討論了計算圖生成和計算圖執行的執行模型。
6 結論
分布式GNN訓練是將GNN模型擴展到大圖的成功方法之一。在本綜述中,我們系統地回顧了現有的分布式GNN訓練技術,從圖數據處理到分布式模型執行,涵蓋了端到端分布式GNN訓練的生命周期。我們將分布式GNN訓練管道分為三個階段,其中數據劃分階段和GNN模型優化階段是影響GNN訓練效率的兩個關鍵階段。為了清晰地組織優化這兩個關鍵階段的新技術貢獻,我們提出了一個新的分類法,由四個正交的類別組成:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。在GNN數據分區類別中,我們描述了用于分布式GNN訓練的數據分區技術;在GNN批生成類中,我們提出了用于小批分布式GNN訓練的快速GNN批生成技術;在GNN執行模型方面,討論了計算圖生成和計算圖執行所使用的執行模型;在GNN通信協議類別中,我們討論了分布式GNN訓練的同步和異步協議。在仔細回顧了這四類技術之后,我們分別總結了現有代表性的多GPU分布式GNN系統、GPU集群分布式GNN系統和CPU集群分布式GNN系統,并對未來優化大規模GNN訓練的方向進行了討論。
時空圖是描述城市感知數據(如交通速度和空氣質量)的重要結構。基于時空圖的預測為智慧城市提供了許多重要的應用,如交通管理和環境分析。近年來,已有許多用于時空圖預測的深度學習模型被提出,并取得了顯著的效果。然而,設計神經網絡需要豐富的領域知識和專家的努力。為此,我們研究了時空圖的自動神經結構搜索在城市交通預測中的應用,面臨兩個挑戰:1)如何定義搜索空間來捕獲復雜的時空關聯;2)如何學習一個時空圖對應的屬性圖的網絡權值參數。為了解決這些挑戰,我們提出了一個新的框架,名為AutoSTG,用于自動時空圖預測。在我們的AutoSTG中,我們的搜索空間采用了空間圖卷積和時間卷積操作來捕獲復雜的時空相關性。此外,我們利用元學習技術從屬性圖的元知識中學習空間圖卷積層的鄰接矩陣和時間卷積層的核。具體地說,這種元知識是由一個圖元知識學習器來學習的,這個圖元知識學習器在屬性圖上迭代地聚集知識。最后,在兩個真實的基準數據集上進行了廣泛的實驗,證明AutoSTG可以找到有效的網絡架構并取得最先進的結果。據我們所知,我們是第一個研究神經結構搜索的時空圖。
關于圖信號處理、圖分析、圖機器學習比較全面的一本書,值得關注!
當前強大的計算機和龐大的數據集正在為計算數學創造新的機會,將圖論、機器學習和信號處理的概念和工具結合在一起,創建圖數據分析。
在離散數學中,圖僅僅是連接一些點(節點)和線的集合。這些圖表的強大之處在于,節點可以代表各種各樣的實體,比如社交網絡的用戶或金融市場數據,這些可以轉換成信號,然后使用數據分析工具進行分析。《圖數據分析》是對生成高級數據分析的全面介紹,它允許我們超越時間和空間的標準常規采樣,以促進建模在許多重要領域,包括通信網絡,計算機科學,語言學,社會科學,生物學,物理學,化學,交通,城市規劃,金融系統,個人健康和許多其他。
作者從現代數據分析的角度重新審視了圖拓撲,并著手建立圖網絡的分類。在此基礎上,作者展示了頻譜分析如何引導最具挑戰性的機器學習任務,如聚類,以直觀和物理上有意義的方式執行。作者詳細介紹了圖數據分析的獨特方面,例如它們在處理從不規則域獲取的數據方面的好處,它們通過局部信息處理微調統計學習過程的能力,圖上的隨機信號和圖移位的概念,從圖上觀察的數據學習圖拓撲,以及與深度神經網絡、多路張量網絡和大數據的融合。包括了大量的例子,使概念更加具體,并促進對基本原則的更好理解。
本書以對數據分析的基礎有良好把握的讀者為對象,闡述了圖論的基本原理和新興的數學技術,用于分析在圖環境中獲得的各種數據。圖表上的數據分析將是一個有用的朋友和伙伴,所有參與數據收集和分析,無論應用領域。
地址: //www.nowpublishers.com/article/Details/MAL-078-1
Graph Signal Processing Part I: Graphs, Graph Spectra, and Spectral Clustering
圖數據分析領域預示著,當我們處理數據類的信息處理時,模式將發生改變,這些數據類通常是在不規則但結構化的領域(社交網絡,各種特定的傳感器網絡)獲得的。然而,盡管歷史悠久,目前的方法大多關注于圖本身的優化,而不是直接推斷學習策略,如檢測、估計、統計和概率推理、從圖上獲取的信號和數據聚類和分離。為了填補這一空白,我們首先從數據分析的角度重新審視圖拓撲,并通過圖拓撲的線性代數形式(頂點、連接、指向性)建立圖網絡的分類。這作為圖的光譜分析的基礎,圖拉普拉斯矩陣和鄰接矩陣的特征值和特征向量被顯示出來,以傳達與圖拓撲和高階圖屬性相關的物理意義,如切割、步數、路徑和鄰域。通過一些精心選擇的例子,我們證明了圖的同構性使得基本屬性和描述符在數據分析過程中得以保留,即使是在圖頂點重新排序的情況下,在經典方法失敗的情況下也是如此。其次,為了說明對圖信號的估計策略,通過對圖的數學描述符的特征分析,以一般的方式介紹了圖的譜分析。最后,建立了基于圖譜表示(特征分析)的頂點聚類和圖分割框架,說明了圖在各種數據關聯任務中的作用。支持的例子展示了圖數據分析在建模結構和功能/語義推理中的前景。同時,第一部分是第二部分和第三部分的基礎,第二部分論述了對圖進行數據處理的理論、方法和應用,以及從數據中學習圖拓撲。
Graph Signal Processing Part II: Processing and Analyzing Signals on Graphs
本專題第一部分的重點是圖的基本性質、圖的拓撲和圖的譜表示。第二部分從這些概念著手,以解決圍繞圖上的數據/信號處理的算法和實際問題,也就是說,重點是對圖上的確定性和隨機數據的分析和估計。
Graph Signal Processing -- Part III: Machine Learning on Graphs, from Graph Topology to Applications
許多關于圖的現代數據分析應用都是在圖拓撲而不是先驗已知的領域上操作的,因此它的確定成為問題定義的一部分,而不是作為先驗知識來幫助問題解決。本部分探討了學習圖拓撲。隨著越來越多的圖神經網絡(GNN)和卷積圖網絡(GCN)的出現,我們也從圖信號濾波的角度綜述了GNN和卷積圖網絡的主要發展趨勢。接著討論了格結構圖的張量表示,并證明了張量(多維數據數組)是一類特殊的圖信號,圖的頂點位于高維規則格結構上。本部分以金融數據處理和地下交通網絡建模的兩個新興應用作為結論。
圖片
題目: 圖神經網絡的無冗余計算 會議: KDD2020 論文地址: //dl.acm.org/doi/abs/10.1145/3394486.3403142 推薦理由: 對于圖神經網絡中重復信息的聚合,這篇文章提出了一種簡單有效的層次化聚合的方法(HAG),用于層次化管理中間結果并減少圖神經網絡在訓練和推斷過程中重復計算。HAG 能夠保證在計算層次化聚合的過程中,可以使用更少的時間用于訓練并且得到的結果和傳統的圖神經網絡模型一致。
GNN在單層中基于遞歸鄰域聚合方案,每個節點聚合其鄰居的特征,并使用聚合值更新其自身的特征。這樣遞歸地傳播多次(多層),最后,GNN中的每個節點都會從其k階網絡鄰居中的其他節點收集信息。最后GNN層的激活然后被用于下游預測任務,例如節點分類、圖分類或鏈路預測。然而,如何設計一個能夠有效處理大規模圖數據集的GNN仍然是一個挑戰。特別的是,許多當前的工作是使用整張圖的拉普拉斯矩陣,這樣即便是對于中等規模的圖,也會面臨存儲空間的問題。GraphSAGE首次提出使用對每個獨立節點執行小圖鄰域采樣,然后再聚合這些節點的鄰域信息,但是對于單個節點進行鄰域采樣是一個高復雜度的事情,因此許多手工調整的啟發式算法被用來限制采樣復雜性并選擇鄰域圖并通過優化圖的采樣步驟來提高GNN的效率。