圖表示學習已經成為解決現實問題的一種強大的技術。節點分類、相似度搜索、圖分類和鏈接預測等各種下游圖學習任務都受益于它的最新發展。然而,現有的圖表示學習技術側重于特定領域的問題,并為每個圖訓練專用的模型,這些模型通常不能轉移到域外數據。受最近自然語言處理和計算機視覺的預訓練進展的啟發,我們設計了圖對比編碼(GCC)——一種無監督圖表示學習框架——來捕獲跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡中或跨網絡的子圖級實例識別,并利用對比學習來授權模型學習內在的和可轉移的結構表示。我們對三個圖學習任務和十個圖數據集進行了廣泛的實驗。結果表明,在一組不同的數據集上進行預訓練的GCC可以取得與任務相關的從零開始訓練的GCC具有競爭力或更好的性能。這表明,預訓練和微調范式為圖表示學習提供了巨大的潛力。
本文研究如何更好聚合網絡拓撲信息和特征信息。中心思想是,構造了結構圖,特征圖(feature graph),以及兩者的組合來提取特定的和通用的嵌入,并使用注意機制來學習嵌入的自適應重要性權重。實驗發現,AM-GCN可以從節點特征和拓撲結構中提取自適應地提取相關的信息,對應不同的參數取值。 //arxiv.org/abs/2007.02265
摘要:圖卷積網絡(GCNs)在處理圖數據和網絡數據的各種分析任務方面得到了廣泛的應用。然而,最近的一些研究提出了一個問題,即GCNs是否能夠在一個信息豐富的復雜圖形中優化地整合節點特征和拓撲結構。在本文中,我們首先提出一個實驗研究。令人驚訝的是,我們的實驗結果清楚地表明,當前的GCNs融合節點特征和拓撲結構的能力遠遠不是最優的,甚至是令人滿意的。由于GCNs無法自適應地學習拓撲結構與節點特征之間的一些深層次關聯信息,這一弱點可能會嚴重阻礙GCNs在某些分類任務中的能力。我們能否彌補這一缺陷,設計出一種新型的GCNs,既能保留現有GCNs的優勢,又能大幅度提高拓撲結構和節點特征融合的能力?為了解決這個問題,我們提出了一種自適應多通道半監督分類圖卷積網絡。其核心思想是同時從節點特征、拓撲結構及其組合中提取具體的和常見的嵌入,并利用注意機制學習嵌入的自適應重要度權值。我們在基準數據集上進行的大量實驗表明,AM-GCN從節點特征和拓撲結構中提取了最多的相關信息,顯著提高了分類精度。
摘要
圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。
**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練
消息傳遞被證明是一種設計圖神經網絡的有效方法,因為它能夠利用排列等方差和對學習局部結構的歸納偏差來實現良好的泛化。然而,當前的消息傳遞體系結構的表達能力有限,無法學習圖的基本拓撲性質。我們解決了這個問題,并提出了一個新的消息傳遞框架,它是強大的同時保持置換等方差。具體來說,我們以單熱點編碼的形式傳播惟一的節點標識符,以便了解每個節點的本地上下文。我們證明了我們的模型在極限情況下是通用的,同時也是等變的。通過實驗,我們發現我們的模型在預測各種圖的拓撲性質方面具有優勢,為新型的、功能強大的等變和計算效率的結構開辟了道路。
圖表示學習近年來得到了廣泛的研究。盡管它在為各種網絡生成連續嵌入方面具有潛力,但針對大量節點推斷高質量表示的有效性和效率仍然具有挑戰性。采樣是實現性能目標的關鍵。現有技術通常集中于正節點對的抽樣,而對負節點對的抽樣策略卻沒有進行充分的探索。為了彌補這一差距,我們從目標和風險兩個角度系統地分析了負抽樣的作用,從理論上論證了負抽樣與正抽樣在確定優化目標和由此產生的方差方面同樣重要。據我們所知,我們是第一個推導出負抽樣分布應該與正抽樣分布呈正相關但亞線性相關的理論并進行量化的工作。在該理論的指導下,我們提出了MCNS,用自對比近似逼近正分布,用Metropolis-Hastings加速負抽樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了廣泛的下游圖數據學習任務,包括鏈接預測、節點分類和個性化推薦,總共有19個實驗設置。這些較為全面的實驗結果證明了其魯棒性和優越性。
圖神經網絡(GNNs)是一種強大的圖表示學習工具。然而,最近的研究表明,GNN很容易受到精心設計的干擾,即所謂的對抗攻擊。對抗攻擊可以很容易地愚弄GNN,使其無法預測后續任務。在對安全性要求很高的應用程序中應用GNN的脆弱性引起了越來越多的關注。因此,開發對抗攻擊的魯棒算法具有重要意義。為對抗攻擊辯護的一個自然的想法是清理受干擾的圖。很明顯,真實世界的圖具有一些內在的特性。例如,許多真實世界的圖是低秩和稀疏的,并且兩個相鄰節點的特征趨于相似。事實上,我們發現,對抗攻擊很可能會破壞這些圖的屬性。因此,在本文中,我們探討這些性質,以防御圖的對抗性攻擊。特別地,我們提出了一個通用的框架Pro-GNN,它可以聯合學習結構圖和魯棒圖神經網絡模型從攝動圖的這些屬性指導。在真實圖上的大量實驗表明,與最先進的防御方法相比,即使在圖受到嚴重干擾的情況下,所提出的框架也能獲得更好的性能。我們將Pro-GNN的實現發布到我們的DeepRobust存儲庫,用于對抗攻擊和防御
//github.com/DSE-MSU/DeepRobust。
復現我們的結果的具體實驗設置可以在
概述
圖是在許多領域中普遍存在的數據結構,例如化學(分子)、金融(交易網絡)和社交媒體(Facebook朋友網絡)。隨著它們的流行,學習有效的圖表示并將其應用于解決后續任務尤為重要。近年來,圖神經網絡(Graph Neural Networks, GNNs)在圖表示學習取得了巨大的成功(Li et al., 2015;Hamilton,2017;Kipf and Welling, 2016a;Veli?kovi?et al ., 2018)。GNNs遵循消息傳遞方案(Gilmer et al., 2017),其中節點嵌入是通過聚合和轉換其鄰居的嵌入來獲得的。由于其良好的性能,GNNs已經應用于各種分析任務,包括節點分類(Kipf和Welling, 2016a)、鏈接預測(Kipf和Welling, 2016b)和推薦系統(Ying et al., 2018)。
雖然已經取得了令人鼓舞的結果,但最近的研究表明,GNNs易受攻擊(Jin et al., 2020;Zugner et al., 2018;Zugner Gunnemann, 2019;Dai et al., 2018;吳等,2019b)。換句話說,在圖中不明顯的擾動下,GNNs的性能會大大降低。這些模型缺乏健壯性,可能會對與安全和隱私相關的關鍵應用造成嚴重后果。例如,在信用卡欺詐檢測中,詐騙者可以創建多個交易,只有少數高信用用戶可以偽裝自己,從而逃避基于GNNs的檢測。因此,開發抗攻擊的穩健的GNN模型具有重要意義。修改圖數據可以擾亂節點特征或圖結構。然而,由于結構信息的復雜性,現有的對圖數據的攻擊主要集中在修改圖數據結構,特別是添加/刪除/重連邊(Xu et al., 2019)。因此,在這項工作中,我們的目標是抵御對圖數據的最常見的攻擊設置,即,對圖結構的毒殺攻擊。在這種情況下,圖結構在訓練GNNs之前已經修改了邊,而節點特征沒有改變,這已經擾亂了圖結構。
設計有效防御算法的一個視角是對擾動圖進行清理,如刪除反向邊和恢復被刪除邊(Zhu et al., 2019;Tang et al., 2019)。從這個角度來看,關鍵的挑戰是我們應該遵循什么標準來清除擾動圖。眾所周知,真實世界的圖通常具有某些特性。首先,許多真實世界的干凈圖是低秩和稀疏的(Zhou et al., 2013)。例如,在社交網絡中,大多數個體只與少數鄰居連接,影響用戶之間連接的因素很少(Zhou et al., 2013; Fortunato, 2010)。其次,干凈圖中連接的節點可能具有相似的特征或屬性(或特征平滑度)(McPherson et al., 2001)。例如,在一個引文網絡中,兩個相連的出版物經常共享相似的主題(Kipf Welling, 2016a)。圖1演示了干凈和中毒圖的這些屬性。具體來說,我們用了最先進的圖數據中毒攻擊metattack (Zugner和Gunnemann, 2019a)來擾亂圖數據,并在mettack之前和之后可視化圖的屬性。如圖(a)a所示,metattack擴大了鄰接矩陣的奇異值,圖(b)b說明metattack可以快速地增加鄰接矩陣的秩。此外,當我們分別從攝動圖中刪除對抗性邊和法線時,我們觀察到刪除對抗性邊比刪除法線更快地降低了秩,如圖(c)c所示。另外,我們在圖(d)d中描述了攻擊圖的連通節點特征差異的密度分布。可以看出,metattack傾向于連接特征差異較大的節點。圖1的觀察結果表明,對抗性攻擊可能破壞這些屬性。因此,這些性質有可能作為清除攝動圖的指導。然而,利用這些性質來建立魯棒圖神經網絡的研究還很有限。
本文旨在探討圖的稀疏性、低秩性和特征平滑性,設計魯棒的圖神經網絡。請注意,還有更多的屬性有待探索,我們希望將其作為未來的工作。從本質上講,我們面臨著兩個挑戰:(1)如何在這些屬性的引導下,從中毒的圖數據中學習干凈的圖結構;(二)如何將魯棒圖神經網絡的參數與凈結構聯合學習。為了解決這兩個問題,我們提出了一個通用的框架屬性GNN (Pro-GNN)來同時從攝動圖和GNN參數中學習干凈的圖結構,以抵御對抗攻擊。在各種真實世界圖形上的大量實驗表明,我們提出的模型能夠有效地防御不同類型的對抗攻擊,并優于最先進的防御方法。
對抗性攻擊會對圖數據產生精心設計的擾動。我們把精心設計的擾動稱為對抗性結構。對抗結構會導致GNNs的性能急劇下降。因此,為了防御競爭攻擊,一種自然的策略是消除精心設計的競爭結構,同時保持固有的圖結構。在本工作中,我們的目標是通過探索低秩、稀疏性和特征平滑性的圖結構特性來實現這一目標。該框架的示意圖如圖2所示,其中黑色的邊為普通邊,紅色的邊為攻擊者為降低節點分類性能而引入的對抗性邊。為了抵御攻擊,Pro-GNN通過保持圖的低秩性、稀疏性和特征平滑性,迭代地重構干凈圖,以減少對抗結構的負面影響。同時,為了保證重構圖能夠幫助節點分類,Pro-GNN通過求解交替模式下的優化問題,同時更新重構圖上的GNN參數。
圖神經網絡很容易被圖對抗攻擊所欺騙。為了防御不同類型的圖對抗攻擊,我們引入了一種新的防御方法Pro-GNN,該方法同時學習圖結構和GNN參數。我們的實驗表明,我們的模型始終優于最先進的基線,并提高了在各種對抗攻擊下的整體魯棒性。在未來,我們的目標是探索更多的屬性,以進一步提高GNNs的魯棒性。
【導讀】圖神經網絡依然是研究焦點之一。最近在WWW2020的DL4G@WWW2020論壇,斯坦福大學Jure Leskovec副教授介紹了圖神經網絡研究最新進展,包括GNN表現力、預訓練和公開圖神經網絡基準等。值得關注。
近年來,深度學習領域關于圖神經網絡(Graph Neural Networks,GNN)的研究熱情日益高漲,圖網絡已經成為各大深度學習頂會的研究熱點。GNN 處理非結構化數據時的出色能力使其在網絡數據分析、推薦系統、物理建模、自然語言處理和圖上的組合優化問題方面都取得了新的突破。但是,大部分的圖網絡框架的建立都是基于研究者的先驗或啟發性知識,缺少清晰的理論支撐。
Jure Leskovec
圖網絡領域的大牛Jure Leskovec,是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。在谷歌學術搜索(Google Scholar)上,Jure擁有接近4.5萬的論文引用數量,H指數為84。
下載鏈接: 鏈接: 提取碼: mtth
題目: Graph Neural Networks:A Review of Methods and Applications
簡介: 許多學習任務需要處理圖形數據,該圖形數據包含元素之間的關系信息。對物理系統進行建模,學習分子指紋,預測蛋白質界面以及對疾病進行分類,都需要從圖輸入中學習模型。在諸如從文本和圖像之類的非結構數據中學習的其他領域中,對提取結構的推理,例如句子的依存關系樹和圖像的場景圖,是一個重要的研究課題,它也需要圖推理模型。圖神經網絡(GNN)是連接器模型,可通過在圖的節點之間傳遞消息來捕獲圖的依賴性。與標準神經網絡不同,圖神經網絡保留一種狀態,該狀態可以表示來自其鄰域的任意深度的信息。盡管已經發現難以訓練原始圖神經網絡來固定點,但是網絡體系結構,優化技術和并行計算的最新進展已使他們能夠成功學習。近年來,基于圖卷積網絡(GCN)和門控圖神經網絡(GGNN)的系統已經在上述許多任務上展示了突破性的性能。在本綜述中,我們對現有的圖神經網絡模型進行了詳細的回顧,對應用程序進行了系統分類,并提出了四個未解決的問題,供以后研究。
作者簡介: 周杰,教授,清華大學自動化系黨委書記,教授,博士生導師。