【導讀】圖神經網絡依然是當下的研究熱點。來自新加坡南洋理工大學Xavier Bresson和Bengio聯合發布了一篇論文《Benchmarking Graph Neural Networks》,如何構建強大的GNN成為了核心問題。什么類型的架構、第一原則或機制是通用的、可推廣的、可伸縮的,可以用于大型圖數據集和大型圖數據集? 另一個重要的問題是如何研究和量化理論發展對GNNs的影響?基準測試為回答這些基本問題提供了一個強有力的范例。作者發現,準確地說,圖卷積、各向異性擴散、剩余連接和歸一化層是開發健壯的、可伸縮的GNN的通用構件。
圖神經網絡(GNNs)已經成為分析和學習圖數據的標準工具。它們已經成功地應用于無數的領域,包括化學、物理、社會科學、知識圖譜、推薦和神經科學。隨著這個領域的發展,識別架構和關鍵機制變得至關重要,這些架構和關鍵機制可以泛化圖的大小,使我們能夠處理更大、更復雜的數據集和域。不幸的是,在缺乏具有一致的實驗設置和大型數據集的標準基準的情況下,評估新GNN的有效性和比較模型變得越來越困難。在這篇論文中,我們提出了一個可復制的GNN基準測試框架,為研究人員方便地添加新的數據集和模型提供了便利。我們將該基準測試框架應用于數學建模、計算機視覺、化學和組合問題等新型中型圖數據集,以建立設計有效GNNs時的關鍵操作。準確地說,圖卷積、各向異性擴散、剩余連接和歸一化層是開發健壯的、可伸縮的GNN的通用構件。
自(Scarselli et al., 2009; Bruna et al., 2013; Defferrard et al., 2016; Sukhbaatar et al., 2016; Kipf & Welling, 2017; Hamilton et al., 2017)圖神經網絡(GNNs)近年來引起了人們極大的興趣,開發出了很有前途的方法。隨著這個領域的發展,如何構建強大的GNN成為了核心問題。什么類型的架構、第一原則或機制是通用的、可推廣的、可伸縮的,可以用于大型圖數據集和大型圖數據集? 另一個重要的問題是如何研究和量化理論發展對GNNs的影響?基準測試為回答這些基本問題提供了一個強有力的范例。它已被證明是有益的,在幾個領域的科學推動進步,確定基本的想法,并解決領域特定的問題(Weber et al., 2019)。最近,著名的2012年ImageNet (Deng et al.,2009)挑戰提供了觸發深度學習革命的基準數據集(Krizhevsky et al., 2012; Malik, 2017)。國際團隊競相在大型數據集上生成最佳的圖像分類預測模型。自從在ImageNet上取得突破性成果以來,計算機視覺社區已經開辟了一條道路,以識別健壯的體系結構和訓練深度神經網絡的技術(Zeiler & Fergus, 2014; Girshick et al., 2014; Long et al., 2015; He et al., 2016)。
但是,設計成功的基準測試是非常具有挑戰性的:它需要定義適當的數據集、健壯的編碼接口和用于公平比較的公共實驗設置,所有這些都是可重復的。這樣的需求面臨幾個問題。首先,如何定義合適的數據集?它可能很難收集有代表性的,現實的和大規模的數據集。這是GNNs最重要的問題之一。大多數發表的論文都集中在非常小的數據集,如CORA和TU數據集(Kipf & Welling, 2017; Ying et al., 2018; Velickovi ˇ c et al. ′ , 2018; Xinyi & Chen, 2019; Xu et al., 2019; Lee et al., 2019),其中所有的gnn執行幾乎相同的統計。有些與直覺相反的是,沒有考慮圖結構的基線表現得和GNNs一樣好,有時甚至更好(Errica et al., 2019)。這就提出了開發新的、更復雜的GNN架構的必要性問題,甚至提出了使用GNNs的必要性問題(Chen et al., 2019)。例如,在Hoang & Maehara(2019)和Chen等人(2019)的近期著作中,作者分析了GNNs的容量和組成,以揭示模型在小數據集上的局限性。他們聲稱這些數據集不適合設計復雜的結構歸納學習架構。
GNN文獻中的另一個主要問題是定義常見的實驗設置。正如Errica等人(2019)所指出的,最近關于TU數據集的論文在訓練、驗證和測試分割以及評估協議方面沒有達成共識,這使得比較新思想和架構的性能變得不公平。目前還不清楚如何執行良好的數據分割,除了隨機分割之外,后者已知會提供過于樂觀的預測(Lohr, 2009)。此外,不同的超參數、損失函數和學習速率時間表使得很難識別架構中的新進展。
本文的貢獻如下:
我們發布了一個基于PyTorch (Paszke et al., 2019)和DGL (Wang et al., 2019)庫的基于GitHub的GNNs開放基準基礎架構。我們專注于新用戶的易用性,使新數據集和GNN模型的基準測試變得容易。
我們的目標是超越流行的小型CORA和TU數據集,引入中等規模的數據集,其中包含12k-70k圖,節點大小為9-500個。提出的數據集包括數學建模(隨機塊模型)、計算機視覺(超級像素)、組合優化(旅行商問題)和化學(分子溶解度)。
我們通過建議的基準測試基礎設施來確定重要的GNN構建塊。圖卷積、非istropic擴散、殘差連接和歸一化層對設計高效的GNN非常有用。
我們的目標不是對已發布的GNN進行排名。為特定的任務尋找最佳模型在計算上是昂貴的(并且超出了我們的資源),因為它需要使用交叉驗證對超參數值進行徹底的搜索。相反,我們為所有模型確定了一個參數預算,并分析性能趨勢,以確定重要的GNN機制。
數值結果完全可重復。通過運行腳本,我們可以簡單地重現報告的結果。此外,基準基礎設施的安裝和執行在GitHub存儲庫中有詳細的說明。
消息傳遞被證明是一種設計圖神經網絡的有效方法,因為它能夠利用排列等方差和對學習局部結構的歸納偏差來實現良好的泛化。然而,當前的消息傳遞體系結構的表達能力有限,無法學習圖的基本拓撲性質。我們解決了這個問題,并提出了一個新的消息傳遞框架,它是強大的同時保持置換等方差。具體來說,我們以單熱點編碼的形式傳播惟一的節點標識符,以便了解每個節點的本地上下文。我們證明了我們的模型在極限情況下是通用的,同時也是等變的。通過實驗,我們發現我們的模型在預測各種圖的拓撲性質方面具有優勢,為新型的、功能強大的等變和計算效率的結構開辟了道路。
圖神經網絡(GNNs)是一種強大的圖表示學習工具。然而,最近的研究表明,GNN很容易受到精心設計的干擾,即所謂的對抗攻擊。對抗攻擊可以很容易地愚弄GNN,使其無法預測后續任務。在對安全性要求很高的應用程序中應用GNN的脆弱性引起了越來越多的關注。因此,開發對抗攻擊的魯棒算法具有重要意義。為對抗攻擊辯護的一個自然的想法是清理受干擾的圖。很明顯,真實世界的圖具有一些內在的特性。例如,許多真實世界的圖是低秩和稀疏的,并且兩個相鄰節點的特征趨于相似。事實上,我們發現,對抗攻擊很可能會破壞這些圖的屬性。因此,在本文中,我們探討這些性質,以防御圖的對抗性攻擊。特別地,我們提出了一個通用的框架Pro-GNN,它可以聯合學習結構圖和魯棒圖神經網絡模型從攝動圖的這些屬性指導。在真實圖上的大量實驗表明,與最先進的防御方法相比,即使在圖受到嚴重干擾的情況下,所提出的框架也能獲得更好的性能。我們將Pro-GNN的實現發布到我們的DeepRobust存儲庫,用于對抗攻擊和防御
//github.com/DSE-MSU/DeepRobust。
復現我們的結果的具體實驗設置可以在
概述
圖是在許多領域中普遍存在的數據結構,例如化學(分子)、金融(交易網絡)和社交媒體(Facebook朋友網絡)。隨著它們的流行,學習有效的圖表示并將其應用于解決后續任務尤為重要。近年來,圖神經網絡(Graph Neural Networks, GNNs)在圖表示學習取得了巨大的成功(Li et al., 2015;Hamilton,2017;Kipf and Welling, 2016a;Veli?kovi?et al ., 2018)。GNNs遵循消息傳遞方案(Gilmer et al., 2017),其中節點嵌入是通過聚合和轉換其鄰居的嵌入來獲得的。由于其良好的性能,GNNs已經應用于各種分析任務,包括節點分類(Kipf和Welling, 2016a)、鏈接預測(Kipf和Welling, 2016b)和推薦系統(Ying et al., 2018)。
雖然已經取得了令人鼓舞的結果,但最近的研究表明,GNNs易受攻擊(Jin et al., 2020;Zugner et al., 2018;Zugner Gunnemann, 2019;Dai et al., 2018;吳等,2019b)。換句話說,在圖中不明顯的擾動下,GNNs的性能會大大降低。這些模型缺乏健壯性,可能會對與安全和隱私相關的關鍵應用造成嚴重后果。例如,在信用卡欺詐檢測中,詐騙者可以創建多個交易,只有少數高信用用戶可以偽裝自己,從而逃避基于GNNs的檢測。因此,開發抗攻擊的穩健的GNN模型具有重要意義。修改圖數據可以擾亂節點特征或圖結構。然而,由于結構信息的復雜性,現有的對圖數據的攻擊主要集中在修改圖數據結構,特別是添加/刪除/重連邊(Xu et al., 2019)。因此,在這項工作中,我們的目標是抵御對圖數據的最常見的攻擊設置,即,對圖結構的毒殺攻擊。在這種情況下,圖結構在訓練GNNs之前已經修改了邊,而節點特征沒有改變,這已經擾亂了圖結構。
設計有效防御算法的一個視角是對擾動圖進行清理,如刪除反向邊和恢復被刪除邊(Zhu et al., 2019;Tang et al., 2019)。從這個角度來看,關鍵的挑戰是我們應該遵循什么標準來清除擾動圖。眾所周知,真實世界的圖通常具有某些特性。首先,許多真實世界的干凈圖是低秩和稀疏的(Zhou et al., 2013)。例如,在社交網絡中,大多數個體只與少數鄰居連接,影響用戶之間連接的因素很少(Zhou et al., 2013; Fortunato, 2010)。其次,干凈圖中連接的節點可能具有相似的特征或屬性(或特征平滑度)(McPherson et al., 2001)。例如,在一個引文網絡中,兩個相連的出版物經常共享相似的主題(Kipf Welling, 2016a)。圖1演示了干凈和中毒圖的這些屬性。具體來說,我們用了最先進的圖數據中毒攻擊metattack (Zugner和Gunnemann, 2019a)來擾亂圖數據,并在mettack之前和之后可視化圖的屬性。如圖(a)a所示,metattack擴大了鄰接矩陣的奇異值,圖(b)b說明metattack可以快速地增加鄰接矩陣的秩。此外,當我們分別從攝動圖中刪除對抗性邊和法線時,我們觀察到刪除對抗性邊比刪除法線更快地降低了秩,如圖(c)c所示。另外,我們在圖(d)d中描述了攻擊圖的連通節點特征差異的密度分布。可以看出,metattack傾向于連接特征差異較大的節點。圖1的觀察結果表明,對抗性攻擊可能破壞這些屬性。因此,這些性質有可能作為清除攝動圖的指導。然而,利用這些性質來建立魯棒圖神經網絡的研究還很有限。
本文旨在探討圖的稀疏性、低秩性和特征平滑性,設計魯棒的圖神經網絡。請注意,還有更多的屬性有待探索,我們希望將其作為未來的工作。從本質上講,我們面臨著兩個挑戰:(1)如何在這些屬性的引導下,從中毒的圖數據中學習干凈的圖結構;(二)如何將魯棒圖神經網絡的參數與凈結構聯合學習。為了解決這兩個問題,我們提出了一個通用的框架屬性GNN (Pro-GNN)來同時從攝動圖和GNN參數中學習干凈的圖結構,以抵御對抗攻擊。在各種真實世界圖形上的大量實驗表明,我們提出的模型能夠有效地防御不同類型的對抗攻擊,并優于最先進的防御方法。
對抗性攻擊會對圖數據產生精心設計的擾動。我們把精心設計的擾動稱為對抗性結構。對抗結構會導致GNNs的性能急劇下降。因此,為了防御競爭攻擊,一種自然的策略是消除精心設計的競爭結構,同時保持固有的圖結構。在本工作中,我們的目標是通過探索低秩、稀疏性和特征平滑性的圖結構特性來實現這一目標。該框架的示意圖如圖2所示,其中黑色的邊為普通邊,紅色的邊為攻擊者為降低節點分類性能而引入的對抗性邊。為了抵御攻擊,Pro-GNN通過保持圖的低秩性、稀疏性和特征平滑性,迭代地重構干凈圖,以減少對抗結構的負面影響。同時,為了保證重構圖能夠幫助節點分類,Pro-GNN通過求解交替模式下的優化問題,同時更新重構圖上的GNN參數。
圖神經網絡很容易被圖對抗攻擊所欺騙。為了防御不同類型的圖對抗攻擊,我們引入了一種新的防御方法Pro-GNN,該方法同時學習圖結構和GNN參數。我們的實驗表明,我們的模型始終優于最先進的基線,并提高了在各種對抗攻擊下的整體魯棒性。在未來,我們的目標是探索更多的屬性,以進一步提高GNNs的魯棒性。
圖卷積運算符將深度學習的優勢引入到各種以前認為無法實現的圖和網格處理任務中。隨著他們的不斷成功,人們希望設計更強大的架構,通常是通過將現有的深度學習技術應用于非歐幾里德數據。在這篇論文中,我們認為在新興的幾何深度學習領域,幾何應該保持創新的主要驅動力。我們將圖神經網絡與廣泛成功的計算機圖形學和數據近似模型:徑向基函數(RBFs)聯系起來。我們推測,與RBFs一樣,圖卷積層將受益于將簡單函數添加到強大的卷積內核中。我們引入了仿射跳躍連接,這是一種將全連通層與任意圖卷積算子相結合而形成的新型構造塊。通過實驗驗證了該方法的有效性,表明改進的性能不僅僅是參數數目增加的結果。在我們評估的每一項任務中,配備了仿射跳躍連接的操作人員都顯著地優于他們的基本性能。形狀重建,密集形狀對應,和圖形分類。我們希望我們的簡單而有效的方法將作為一個堅實的基線,并有助于緩解未來在圖神經網絡的研究。
課程介紹: 最近,圖神經網絡 (GNN) 在各個領域越來越受到歡迎,包括社交網絡、知識圖譜、推薦系統,甚至生命科學。GNN 在對圖形中節點間的依賴關系進行建模方面能力強大,使得圖分析相關的研究領域取得了突破性進展。本次課程對比傳統的卷積神經網絡以及圖譜圖卷積與空間圖卷積,從理論知識入手,并結合相關論文進行詳細講解。
主講人: Xavier Bresson,人工智能/深度學習方面的頂級研究員,培訓師和顧問。在“圖深度學習”上的NeurIPS'17和CVPR'17(2019年頂級人工智能會議排名)上的演講者,在劍橋,加州大學洛杉磯分校,布朗,清華,龐加萊,海德堡等地進行了30多次國際演講。
課程大綱:
Deep Learning based Recommender System: A Survey and New Perspectives
隨著在線信息量的不斷增長,推薦系統已成為克服此類信息過載的有效策略。鑒于其在許多網絡應用中的廣泛采用,以及其改善與過度選擇相關的許多問題的潛在影響,推薦系統的實用性不容小覷。近年來,深度學習在計算機視覺和自然語言處理等許多研究領域引起了相當大的興趣,不僅歸功于出色的表現,而且還具有從頭開始學習特征表征的吸引人的特性。深度學習的影響也很普遍,最近證明了它在應用于信息檢索和推薦系統研究時的有效性。顯然,推薦系統中的深度學習領域正在蓬勃發展。本文旨在全面回顧最近基于深度學習的推薦系統的研究工作。更具體地說,我們提供并設計了基于深度學習的推薦模型的分類,并提供了最新技術的綜合摘要。最后,我們擴展了當前的趨勢,并提供了有關該領域新的令人興奮的發展的新觀點。