Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks
基于注意力的神經網絡在許多應用中都達到最優的效果。然而當層數增加時,它們的性能趨于下降。在這項研究工作中,我們發現通過標準化注意力得分來加強Lipschitz連續性,可以顯著改善深度注意力模型的性能。首先,我們的發現深度圖注意力網絡(GAT)在訓練過程中會出現梯度爆炸問題,從而導致基于梯度的訓練算法的性能表現較差。為解決該問題,我們分析了注意力模塊的Lipschitz連續性,據此引入了LipschitzNorm算子。自在注意力機制中,LipschitzNorm是一種的簡單高效的非參數歸一化方法,可以確保模型的Lipschitz連續性。我們將LipschitzNorm應用于GAT和GraphTransformers,發現深度圖模型(10到30層)的性能得到了顯著提高。我們的實驗顯示,當節點間存在遠程交互時,使用LipschitzNorm的深層GAT模型在節點標簽預測任務中達到了當前最高水平。此外,在基準節點分類任務中,我們的方案也顯示了與未歸類的同類算法一致的提升效果。
雖然許多現有的圖神經網絡(gnn)已被證明可以執行基于?2的圖平滑,從而增強全局平滑,但在本工作中,我們旨在通過基于?1的圖平滑進一步增強GNN的局部平滑自適應。在此基礎上,提出了一種基于?1和?2圖平滑的彈性GNN。特別地,我們提出了一種新的、通用的消息傳遞方案。該消息傳遞算法不僅有利于反向傳播訓練,而且在保證理論收斂的前提下達到了預期的平滑特性。在半監督學習任務上的實驗表明,所提出的彈性GNN在基準數據集上具有較好的自適應能力,對圖對抗攻擊具有顯著的魯棒性。
深度圖神經網絡(GNN)在具有數百萬節點和邊的日益龐大的圖數據集上的各種任務中取得了良好的效果。然而,由于節點、邊和中間激活的數量巨大,記憶的復雜性已經成為訓練深度GNN用于實際應用的主要障礙。為了提高GNN的可擴展性,之前的工作提出了智能圖采樣或劃分策略,用更小的節點或子圖集訓練GNN。在這項工作中,我們研究可逆連接,群卷積,權重捆綁和平衡模型,以提高記憶和參數效率的GNN。我們發現,可逆連接結合深度網絡體系結構可以訓練過參數化GNN,在多個數據集上顯著優于現有方法。我們的模型RevGNN-Deep(1001層,每層80個通道)和RevGNN-Wide(448層,每層224個通道)都在單一的普通GPU上進行訓練,在ogbn-蛋白質數據集上獲得了87.74±0.13和88.14±0.15的ROC-AUC。據我們所知,RevGNN-Deep是文獻中最深的一個數量級的GNN。
本期小編挑選了幾篇ICML2021中關于GNN的論文(附論文下載地址)分享給大家~包括圖神經網絡規范化、圖表示能力增強、圖神經網絡的對抗攻擊能力、圖神經網絡與強化學習結合控制圖中動態傳播問題、分子圖卷積神經網絡 (GCNN) 的正則化方法~
論文清單
GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training
Graph Convolution for Semi-Supervised Classification: Improved Linear Separability and Out-of-Distribution Generalization
A Collective Learning Framework to Boost GNN Expressiveness
How to Stop Epidemics: Controlling Graph Dynamics with Reinforcement Learning and Graph Neural Networks
Improving Molecular Graph Neural Network Explainability with Orthonormalization and Induced Sparsity
GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training (論文下載地址://arxiv.org/abs/2009.03294)
Normalization有助于優化深度神經網絡。但不同的結構需要不同的規范化方法。在本文中,我們研究什么規范化方法對圖神經網絡 (GNN) 是有效的。首先,我們將現有的規范化方法應用到GNN中,并對其進行評估。與BatchNorm和LayerNorm相比,InstanceNorm的收斂速度更快。InstanceNorm 作為 GNN 的preconditioner,但由于圖數據集中的大量的批處理噪聲,BatchNorm 的這種預處理效果就顯得較弱。其次,我們證明了InstanceNorm中的shift操作會導致GNN對于高度正則圖的表達能力退化。我們提出了一種learnable shift的GraphNorm來解決這個問題。實驗表明,使用GraphNorm的GNN比使用其他規范化方法的GNN收斂更快。此外,GraphhNorm還改進了GNN的泛化能力,在圖分類中獲得了更好的性能。
A Collective Learning Framework to Boost GNN Expressiveness (論文下載地址:
圖神經網絡 (GNN) 最近已成功用于節點和圖分類任務。但 GNN 建模的是相鄰節點的屬性之間的依賴關系,而不是觀察到的節點標簽之間的依賴關系。在本文中,我們考慮在監督和半監督下考慮到標簽依賴性,使用 GNN 進行inductive node classification。當前的 GNN 不是通用的(即最具表現力的)圖表示模型,我們提出了一種通用的collective learning方法,增強現有 GNN 的表示能力。我們的模型將collective classification的思想與自監督學習相結合,并使用蒙特卡羅方法對embeddings進行采樣,以進行圖之間的歸納學習。我們評估了模型在五個真實網絡數據集上的性能,結果證明了模型可以顯著提高節點分類的準確度。
Information Obfuscation of Graph Neural Networks (論文下載地址:
圖神經網絡 (GNN) 的出現極大地改進了許多應用中的節點和圖表示學習能力,但鄰域聚合方法向試圖提取敏感屬性node-level信息的對手暴露了額外的漏洞。在本文中,我們研究了在使用圖結構數據進行學習時,利用信息混淆來保護敏感屬性的問題。我們提出了一個基于total variation和 Wasserstein 距離的對抗性訓練框架,用于局部過濾掉預先確定的敏感屬性。該方法可以對推理攻擊形成了強大的防御。理論上,我們分析了該框架對抗最壞情況的有效性,并描述了最大化預測準確性和最小化信息泄漏之間的內在權衡。在來自推薦系統、知識圖譜和量子化學的多個數據集上進行實驗,實驗表明,該方法在為下游任務生成 GNN 編碼器的同時,可以為各種圖結構和任務提供強大的防御能力。
How to Stop Epidemics: Controlling Graph Dynamics with Reinforcement Learning and Graph Neural Networks
(論文下載地址:
我們考慮控制圖中partially-observed的動態傳播過程的問題。例如,在安排病毒測試或選擇應該被隔離的節點以遏制流行病蔓延;手動檢查發布的文章來檢測在線網絡上傳播的虛假新聞;鼓勵產品的傳播而進行的有針對性的營銷,在這些情況下,都會遇到這個問題。當只能測試或隔離一小部分人口時,遏制傳播并限制感染人群的比例變得具有挑戰性。
為了應對這一挑戰,我們將此問題建模為圖上的順序決策問題。面對指數級狀態空間、組合動作空間和部分可觀察性,我們提出了 RLGN,這是一種新穎的易處理強化學習 (RL) 方法,用于確定節點是否需要測試,并使用圖神經網絡 (GNN) 對圖節點進行排序。我們在三種類型的社交網絡中評估這種方法:社區結構、優先連接依賴preferential attachment 和 基于真實 cellular tracking的統計數據。實驗表明,RLGN始終優于所有基線方法。與使用相同資源的非學習方法相比,在時間圖上使用RL進行優先測試可以使健康人群的數量增加25%,控制疫情的頻率比監督方法高30%,比非學習基線高2.5倍。
Improving Molecular Graph Neural Network Explainability with Orthonormalization and Induced Sparsity (論文下載地址:
對分子的哪些部分驅動了分子圖卷積神經網絡 (GCNN) 的預測進行合理解釋是很困難。針對這個問題,論文提出了兩種正則化方法,用于訓練GCNN。Batch Representation Orthonormalization (BRO) 和 Gini regularization。受molecular orbital theory的啟發,BRO鼓勵用圖卷積運算生成正交節點嵌入。Gini regularization應用于輸出層的權重,并約束模型可用于進行預測的維數。Gini 和 BRO 正則化方法可以提高GCNN 歸因方法在人工基準數據集上的準確性。在現實世界中,我們證明了藥物化學家更傾向于從正則化模型中提取解釋。雖然論文只在 GCNN 中研究這兩種正則化方法,但Gini 和 BRO 正則化方法都可以應用于其他類型的神經網絡中。
現有的GNN解釋方法側重于解釋圖的節點或邊的重要性,但忽略了圖子結構。事實上子結構更直觀且容易被人理解。論文提出了一種通過識別重要的子圖來解釋GNNs 的方法,即 Subgraph X。給定一個經過訓練的GNN模型和一個輸入圖,Subgraph X 通過蒙特卡洛樹搜索有效地探索不同的子圖來解釋其預測。為了使樹搜索更加有效,論文提出使用 Shapley 值作為子圖重要性的衡量標準,這也可以捕捉到不同子圖之間的相互作用。為了加快計算速度,論文提出了高效的近似方案來計算圖數據的 Shapley 值。該論文是通過識別子圖來解釋 GNN 的第一次嘗試,實驗結果表明,Subgraph X 明顯改善了解釋結果,同時將計算量也相對合理。
先說說為啥要關注圖神經網絡的可解釋性?
現有的 GNN 模型大多被視為黑盒子,其預測結果缺乏可解釋性。如果不理解和推理預測背后的關系,這些模型就不能被人們理解信任,阻礙了它們在關鍵領域的應用,因此研究深度圖模型的可解釋性十分必要。
本文的提出的解釋方法的獨特性在于?
很多文獻在研究圖像和文本上的深度模型的解釋技術方面做了工作,這些方法可以通過不同的策略解釋網絡行為和特定輸入的預測結果。然而,GNN 的可解釋性仍未得到充分的探索。與圖像和文本不同,圖數據不是網格狀的數據,它包含重要的結構信息。因此,圖像和文本領域的方法不能直接應用。目前存在的GNN 解釋方法,如 GNNExplainer、PGExplainer 和 PGM-Explainer,但它都是關注節點、邊或節點特征層面的可解釋性,沒有進行子圖層面的可解釋性研究。本文認為子圖層面的解釋更加直觀和有用,因為子圖是復雜圖的簡單構件,與圖的功能高度相關。
【導讀】ICML(International Conference on Machine Learning),即國際機器學習大會, 是機器學習領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。據官方統計,ICML 2021共有5513篇論文投稿,共有1184篇接受(包括1018篇短論文和166篇長論文),接受率21.48%。
為此,專知小編提前為大家整理了五篇ICML 2021圖神經網絡(Graph Neural Network)最新進展,這塊這幾年一直比較受關注,大家先睹為快——圖正則化、分子式圖神經網絡、時間序列預測、有向圖網絡、GNN泛化
CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training
作者:Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-Yan Liu, Liwei Wang
摘要:眾所周知,Normalization有助于深度神經網絡的優化。不同的體系結構需要專門的規范化方法。本文研究哪種歸一化對圖神經網絡(GNN)有效。首先,本文采用其他領域GNN的現有方法并評估。與BatchNorm和LayerNorm相比,InstanceNorm可以實現更快的收斂。我們通過將InstanceNorm作為GNN的前提條件來提供解釋,但是由于圖數據集中的大量批處理噪聲,BatchNorm的這種預處理效果較弱。其次,我們證明InstanceNorm中的移位操作會導致GNN的表達性下降,從而影響高度規則的圖。我們提出GraphNorm以可學習的方式解決此問題。根據經驗,與使用其他規范化的GNN相比,具有GraphNorm的GNN收斂更快。GraphNorm還改善了GNN的泛化,在圖分類基準上實現了更好的性能。
論文: //arxiv.org/abs/2009.03294
2. Improving Molecular Graph Neural Network Explainability with Orthonormalization and Induced Sparsity
作者:Ryan Henderson, Djork-Arné Clevert, Floriane Montanari
摘要:對于分子的哪些部分可能會影響分子圖卷積神經網絡(GCNN)的預測,這部分探索相對很困難。為了幫助解決這個問題,本文提出了兩種簡單的正則化方法,在GCNN的訓練過程中應用:批處理表示正態化(Batch Representation Orthonormalization,BRO)和基尼正則化(Gini regularization)。BRO受分子軌道理論的啟發,使圖卷積運算生成正交節點嵌入表示。Gini正則化應用于輸出層的權重,限制模型可用于進行預測的維數。本文表明,Gini和BRO正則化可以提高人工基準數據集上最新的GCNN方法的準確性。在現實世界中,本文證明了藥物化學家非常喜歡從正規化模型中提取解釋。雖然我們僅在GCNN的背景下研究這些正則化,但兩者都可以應用于其他類型的神經網絡。
論文:
3. Z-GCNETs: Time Zigzags at Graph Convolutional Networks for Time Series Forecasting
作者:Yuzhou Chen, Ignacio Segovia-Dominguez, Yulia R. Gel
摘要:最近,一種新的深度學習(DL)架構的變得很火,該架構將明確的時間維度集成為學習和表示機制的基本構建塊。與之相反,許多最新結果表明,觀測數據的拓撲描述符(即數據的持久同源性)可能包含重要的補充信息從而改善DL的性能和魯棒性,這種拓撲描述符以不同比例對拓撲空間中數據集形狀信息進行編碼。隨著這兩個新思想的融合,我們提出使用數據的最顯著的時間條件拓撲信息來增強DL體系結構,并將zigzag持久性的概念引入時間感知圖卷積網絡(GCN)中。zigzag持續性提供了一個系統的、數學上嚴格的框架來跟蹤觀察數據的最重要的拓撲特征,這些特征隨著時間的推移會逐漸顯現。為了將提取的時間條件拓撲描述符集成到DL中,本文開發了一個新的拓撲方法,zigzag持久性圖像,并得出其理論上的穩定性保證。我們使用時間感知zigzag拓撲層(Z-GCNET)驗證了新的GCN,并將其應用于流量預測和以太坊區塊鏈價格預測。結果表明,Z-GCNET在4個時間序列數據集上的表現優于13種最新方法。
論文:
4. Directional Graph Networks
作者:Dominique Beaini, Saro Passaro, Vincent Létourneau, William L. Hamilton, Gabriele Corso, Pietro Liò
摘要:圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,作者提出了第一個全局一致的各向異性核,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,將具體節點信息投影到場,提出了一種方向導數和平滑的方法。然后,用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。在不同的標準基準上評估了本文方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網絡能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
論文:
5. Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth
作者:Keyulu Xu, Mozhi Zhang, Stefanie Jegelka, Kenji Kawaguchi
摘要:GNN的表示能力和泛化能力得到了廣泛的研究。但是,它們的優化其實研究的很少。通過研究GNN的梯度動力學,本文邁出分析GNN訓練的第一步。具體來說,首先,本文分析線性化(linearized)的GNN,并證明了:盡管它的訓練不具有凸性,但在我們通過真實圖驗證的溫和假設下,可以保證以線性速率收斂到全局最小值。其次,我們研究什么會影響GNN的訓練速度。結果表明,通過跳過(skip)連接,可以的到更深的深度、良好的標簽分布,可以隱式地加速GNN的訓練。實驗結果證實,我們針對線性GNN的理論結果與非線性GNN的訓練行為一致。我們的結果在優化方面為具有跳過連接的GNN的成功提供了第一個理論支持,并表明具有跳過連接的深層GNN在實踐中將很有希望對。
論文:
論文題目:Graph Neural Networks Inspired by Classical Iterative Algorithms
作者:Yongyi Yang,Tang Liu,Yangkun Wang,Jinjing Zhou,Quan Gan,魏哲巍,Zheng Zhang,Zengfeng Huang,David Wipf
論文概述:圖神經網絡(GNN)作為建模實體間關系的代表性方法,已被成功應用于多個領域。然而現有方法仍存在一些局限性,例如過平滑問題、長距離依賴性問題等。本篇論文基于兩種經典迭代算法提出了首個unfolding視角的GNN集成框架TWIRLS,首先通過模仿近似梯度下降設計了一個可擴展的基礎GNN架構,能夠允許任意的傳播步驟以捕捉長距離依賴關系同時有效避免過平滑問題。在此基礎上,結合迭代加權最小二乘法的更新規則提出了新的注意力機制系列,無需引入額外參數或設計啟發式方法而對邊的不確定性表現魯棒。同時,本篇論文進行了大量實驗旨在評估不同情況下算法的性能,實驗結果表明,即使與特定任務SOTA模型相比,本篇論文所提算法均取得具有競爭力或更高的節點分類精度。
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
我們研究了智能體在面臨一系列強化學習任務時的知識轉移問題。在馬爾可夫決策過程之間引入了一種新的度量方法,證明了封閉式多目標決策具有封閉式最優值函數。形式上,最優值函數是關于任務空間的Lipschitz連續函數。根據這些理論結果,我們提出了一種終身RL的值轉移方法,并利用該方法建立了一種收斂速度較好的PAC-MDP算法。我們在終身RL實驗中說明了該方法的好處。
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。
標簽傳播(LPA)和圖卷積神經網絡(GCN)都是圖上的消息傳遞算法。兩者都解決了節點分類的任務,但是LPA將節點標簽信息傳播到圖的邊緣,而GCN傳播并轉換節點特征信息。然而,雖然概念相似,LPA和GCN之間的理論關系還沒有得到研究。這里我們從兩個方面研究了LPA和GCN之間的關系:(1)特征/標簽平滑,分析一個節點的特征/標簽如何擴散到它的鄰居;(2)一個節點的初始特征/標簽對另一個節點的最終特征/標簽的影響程度。在理論分析的基礎上,提出了一種統一GCN和LPA的節點分類端到端模型。在我們的統一模型中,邊緣權值是可學習的,LPA作為正則化幫助GCN學習合適的邊緣權值,從而提高分類性能。我們的模型也可以看作是基于節點標簽的注意力學習權重,它比現有的基于特征的注意力模型更面向任務。在真實圖數據的大量實驗中,我們的模型在節點分類準確度方面顯示出優于目前最先進的基于gcn的方法。