圖神經網絡中的注意力機制旨在將較大的權重分配給重要的鄰居節點,以實現更好的表示。但是,人們對圖的學習了解得不好,尤其是當圖嘈雜時。在本文中,作者提出了一種自監督圖注意力網絡(SuperGAT),這是一種針對noisy圖改進的圖注意力模型。自監督的關鍵是找到數據中存在的監督信息,其中預測邊存在和不存在是一個能夠編碼節點之間關系的監督信息,也被廣泛的使用。本文利用這個與自監督任務兼容的兩種注意力形式來預測邊的存在和缺失。提出的SuperGAT通過對邊進行編碼,在區分錯誤link的鄰居時會獲得更多的表達注意。另外本文發現兩個圖上的基本屬性會影響注意力的形式和自監督的有效性:同構和平均度(homophily and average degree)。這兩個圖的屬性,可為使用哪種注意力設計提供指導。本文對17個現實世界數據集進行的實驗表明,該方法可以泛化到其中的15個數據集,并且得到比基線更高的性能。
【導讀】第九屆國際學習表征大會(ICLR 2021)是深度學習領域的國際頂級會議,ICLR 2021一共有2997論文有效提交,大會最終接收860篇論文,其中 Oral 53 篇、Spotlight 114 篇,大會將于5月4-8日于線上舉辦。ICLR 采用公開評審(Open Review )機制。所有提交的論文都會公開,并且接受所有同行的評審及提問,任何學者都可或匿名或實名地評價論文。而在初審公開之后,論文作者也能夠對論文進行調整和修改以及進行Rebuttal。近期,小編發現基于圖神經網絡(Graph Neural Networks,GNN)相關的接受paper非常多,圖神經網絡這幾年方法的研究,以及在CV、NLP、DM上應用也非常廣,也是當前比較火的topic。
為此,這期小編為大家奉上ICLR 2021必讀的五篇圖神經網絡相關論文——SuperGAN、Simple GNN、AdaGCN、PageRank GNN、MLP to GNN
ICLR 2021 Accepted Papers : //openreview.net/group?id=ICLR.cc/2021/Conference
AAAI2021QA、AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI
1. How to Find Your Friendly Neighborhood: Graph Attention Design with Self-Supervision
作者:Dongkwan Kim, Alice Oh
摘要:圖神經網絡中的注意力機制將較大的權重分配給重要的鄰居節點,得到更好的表示。但是,圖注意力機制學習到的內容不能理解,尤其是圖存在噪聲時。在本文中,我們提出了一種自監督的圖注意力網絡(SuperGAT),這是一種針對噪聲圖的改進圖注意力模型。具體來說,我們用自監督的兩種注意力形式來預測邊,邊的存在和缺失都包含有關節點之間關系重要性的信息。通過對邊進行編碼,SuperGAT在區分錯誤連接的鄰居時會獲得更多可表達的注意力。我們發現兩個圖的特性會影響注意力形式和自監督的有效性:同構和平均程度。因此,當知道兩個圖的特性時,我們的方法可為使用哪種注意力設計提供指導。我們對17個公開數據集進行的實驗表明,我們的方法適用于其中的15個數據集,并且我們的方法設計的模型比基線模型性能更高。
網址:
2. Combining Label Propagation and Simple Models Out-performs Graph Neural Networks
作者:Qian Huang, Horace He, Abhay Singh, Ser-Nam Lim, Austin R. Benson
摘要:圖神經網絡(GNN)是圖學習的主要技術。但是,對于GNN為什么取得成功以及對性能是否好的必要性了解還很少。對于許多標準的transductive節點分類基準,通過將忽略圖結構的淺層模型與兩個探索標簽結構相關性的簡單后處理步驟結合起來,我們可以超越或達到現存最新好GNN模型的性能:(i)“誤差相關性”,它在訓練數據中分散剩余的錯誤來糾正測試數據中的錯誤;(ii)“預測相關性”,它使對測試數據的預測變得平滑。我們稱此總體過程為“糾正和平滑(C&S)”,后處理步驟是通過對早期基于圖的半監督學習方法中標準標簽傳播技術進行簡單修改而實現的。我們的方法在各種基準上都超過或接近了最好的GNN的性能,而參數卻很少,運行時間也快了幾個數量級。例如,我們以137倍的參數減少和超過100倍的訓練時間超過了OGB-Products數據集上最好的GNN性能。我們方法的性能著重于如何將標簽信息直接整合到學習算法中(就像傳統技術一樣),從而獲得簡單而可觀的性能提升。我們還可以將我們的技術整合到大型GNN模型中,從而獲得適度的提升。我們的OGB結果代碼位于:
網址:
3. AdaGCN: Adaboosting Graph Convolutional Networks into Deep Models
作者:Ke Sun, Zhouchen Lin, Zhanxing Zhu
摘要:深度圖模型的設計仍有待研究,關鍵部分是如何有效地探索和利用來自鄰居不同階點的知識。在本文中,我們通過將AdaBoost集成到網絡計算中,提出了一種新穎的RNN類深度圖神經網絡架構。提出的圖卷積網絡AdaGCN(Adaboosting圖卷積網絡),具有從當前節點的高階鄰居中高效提取知識,然后以Adaboost方式將鄰居的不同階點中的知識集成到網絡中的能力。與直接堆疊許多圖卷積層的其他圖神經網絡不同,AdaGCN在所有``層''之間共享相同的基礎神經網絡架構,并且經過遞歸優化,類似于RNN。此外,我們還在理論上建立了AdaGCN與現有圖卷積方法之間的聯系,從而展示了我們的方法的好處。最后,大量的實驗證明了跨不同標簽比率的圖始終如一的最新預測性能以及我們的方法AdaGCN的計算優勢。
網址:
4. Adaptive Universal Generalized PageRank Graph Neural Network
作者:Eli Chien, Jianhao Peng, Pan Li, Olgica Milenkovic
摘要:在許多重要的圖數據處理應用程序中,獲取的信息有節點特征和圖拓撲結構。圖神經網絡(GNN)旨在利用這兩種信息,但是是用一種通用的方式對其進行整合,并沒有一個最佳權衡策略。通用性是指同構或異構圖假設的獨立性。我們通過引入一種新的廣義PageRank(GPR)GNN架構來解決這些問題,該架構可以自適應地學習GPR權重,從而聯合優化節點特征和拓撲信息提取,而不管節點標簽同構或異構程度。學習的GPR權重自動調整為節點標簽模式,與初始化類型無關,從而為通常難以處理的標簽模式保證了出色的學習性能。此外,它們允許避免特征過度平滑,這一過程使特征信息無差別化,而無需網絡很淺。我們在上下文隨機塊模型生成的新型合成基準數據集有上對GPR-GNN方法進行了理論分析。我們還在知名的基準同質和異類數據集上,將我們的GNN架構與幾個最新的GNN的節點分類問題進行了性能比較。結果表明,與現有方法相比,GPR-GNN在合成數據和基準數據上均提供了顯著的性能改進。
網址:
5. How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks
作者:Keyulu Xu, Mozhi Zhang, Jingling Li, Simon S. Du, Ken-ichi Kawarabayashi, Stefanie Jegelka
摘要:我們研究了通過梯度下降訓練的神經網絡如何外推,即它們在訓練分布的支持范圍之外學到了什么。以前的工作在用神經網絡外推時報告了混合的經驗結果:雖然多層感知器(MLP)在簡單任務中無法很好地推理,但圖神經網絡(GNN)是帶有MLP模塊的結構化網絡,在較復雜的任務中也有一定的成功。我們提供了理論上的解釋,并確定了MLP和GNN良好推斷的條件。我們首先顯示受梯度下降訓練的ReLU MLP沿原點的任何方向迅速收斂到線性函數,這表明ReLU MLP無法在大多數非線性任務中很好地推斷。另一方面,當訓練分布足夠“多樣化”時,ReLU MLP可以證明收斂到線性目標函數。這些觀察結果得出一個假設:如果我們在體系結構和輸入表示中編碼適當的非線性,則GNN可以很好地推斷出動態編程(DP)任務。我們為該假設提供理論和經驗支持。我們的理論解釋了先前的外推法成功并提出了其局限性:成功的外推法依賴于結合特定于任務的非線性,這通常需要領域知識或廣泛的模型搜索。
網址:
從理解到改進:序列到序列建模中的編碼器特征融合
Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning
本文由騰訊AI Lab主導,與澳門大學、悉尼大學合作完成。編碼器特征融合(EncoderFusion)是提升序列到序列建模中的經典技術之一。盡管其有效性已在各種自然語言處理(NLP)任務上得到的驗證,但其原理及規律并沒有被深入探究。
本文首先提出了細粒度層注意力模型來量化編碼器每一層特征的貢獻度,并在多個NLP任務(機器翻譯、語法糾錯、文本摘要)上進行分析,從而進一步理解EncoderFusion的本質。前人工作認為EncoderFusion主要利用嵌在編碼器底層的詞法和語法信息,而我們發現編碼器詞嵌入層比其他中間層更重要,并且始終受到解碼器最上層的關注。基于該發現,我們提出了一種簡單直接的融合方法,即只融合編碼器詞嵌入層到解碼器輸出層。
實驗結果表明,該方法在多種序列建模任務上都優于已有融合方法,并使翻譯任務在WMT16羅英和WMT14英法數據集上取得SOTA性能。分析進一步表明,SurfaceFusion能幫助模型學到更具表現力的雙語詞嵌入。該工作對編碼器特征融合的改進和使用有較強啟發和指導意義。
本文由騰訊 AI Lab 和中國科學院自動化研究所合作完成。圖分類、藥物分子官能團發掘、圖數據去噪等任務都可以歸結為尋找一個與原圖標簽最為相關且濾除噪聲結構的子圖。然而監督學習需要利用子圖層面的標簽,且圖的不規則離散結構對算法優化帶來了挑戰。
本文基于信息瓶頸理論提出了信息瓶頸子圖的概念和圖信息瓶頸算法,并針對圖的不規則離散結構提出了二層互信息優化算法與連續化松弛方法。基于該算法,不需要顯式的子圖標簽即可有效識別這種子圖。
實驗表明,該算法能有效提高多種圖分類算法的精度;在分子數據集上,該算法能夠準確識別最能影響藥物分子屬性的子結構;此外,該算法對于有噪聲的圖分類任務有較好的魯棒性。
本文在圖深度學習中開拓出了一個子圖識別的新的研究領域,并在藥物發現中起到了一定的輔助分析的作用。其中結合信息瓶頸理論來解決圖問題的思路也對今后的相關研究有借鑒意義。
想了解更多關于圖深度學習的信息,可閱讀文章:騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
1.INDUCTIVE REPRESENTATION LEARNING IN TEMPORAL NETWORKS VIA CAUSAL ANONYMOUS WALKS
//arxiv.org/pdf/2101.05974.pdf
時序網絡是現實世界中動態系統的抽象。這些網絡通常根據某些定律發展,例如社交網絡中很普遍的三元閉包定律。歸納表示學習時間網絡應該能夠捕獲此類定律,并進一步將遵循相同定律應用于未在訓練過程中見過的數據,即inductive的能力。以前的工作主要依賴于網絡節點身份或豐富邊屬性,通常無法提取這些定律。因此,本文提出了因果關系匿名游走(Causal Anonymous Walks, CAW)來inductively的進行時序網絡的表示學習。
具體來說,CAW是通過時間隨機游走提取類似motif的結構來捕獲圖的動態性,這避免了motif計算復雜的問題。同時,CAW采用新穎的匿名化策略,用一組節點的命中計數來替換節點身份以保持模型inductive的能力,同時也建立了motif之間的相關性,這對于某些圖挖掘任務(如鏈路預測)是非常關鍵的。進一步的,本文進一步提出了一個神經網絡模型CAW-N來編碼CAW。最后,在6個真實時序網絡數據集上,CAW-N均取得了大幅度的提升,例如AUC提升了15%!
2.HOW TO FIND YOUR FRIENDLY NEIGHBORHOOD:GRAPH ATTENTION DESIGN WITH SELF-SUPERVISION
圖神經網絡中的注意力機制旨在分配更大的權重給重要的鄰居節點,以進行更好地表示。但是,圖神經網絡學到的東西不是那么容易理解的,尤其是在有噪聲的圖上。而本文提出的自監督的圖注意力網絡(SuperGAT)就是用來解決這一問題的。
3.ON THE BOTTLENECK OF GRAPH NEURAL NETWORKSAND ITS PRACTICAL IMPLICATIONS
自從Gori等人提出圖神經網絡(GNN)以來,訓練GNN的主要問題之一是在圖中的遠距離節點之間傳播信息。本文提出GNN在較長路徑中聚集信息時會出現瓶頸。這個瓶頸導致over-squarshing。這樣GNN就無法傳播源自遠程節點的消息,執行效果也不好。本文中調整了遠程GNN模型問題,無需任何調整或額外的權重即可突破瓶頸得到改善后的結果。
4.ADAGCN: ADABOOSTING GRAPH CONVOLUTIONALNETWORKS INTO DEEP MODELS
深圖模型的設計仍有待研究,其中至關重要部分是如何以有效的方式探索和利用來自鄰居的躍遷。在本文中,通過將AdaBoost集成到網絡計算中,提出了一種新穎的類RNN深度圖神經網絡架構。提出的圖卷積網絡AdaGCN(Adaboosting圖卷積網絡)具有有效提取來自當前節點的高階鄰居知識的能力。
不同于其他直接堆疊圖卷積層的圖神經網絡,AdaGCN在所有“層”之間共享相同的基礎神經網絡架構并進行遞歸優化處理,類似于RNN。
此外,本文還在理論上建立了AdaGCN與現有圖卷積方法之間的聯系,從而展示了模型的優勢。最后,用實驗證明了AdaGCN的計算優勢。
5.ACCURATE LEARNING OF GRAPH REPRESENTATIONSWITH GRAPH MULTISET POOLING
消息傳遞圖神經網絡已廣泛用于建模圖數據,在許多圖形分類和鏈路預測任務上取得了很好的效果。然而,為了獲得圖形的準確表示還需要定義良好的池化功能,即在不丟失單個節點特征和全局圖結構的前提下將節點表示集映射到緊湊的形式。
為了解決現有的圖池化的限制,本文將圖池化問題表述為帶有關于圖結構的輔助信息的多集編碼問題,并提出了圖形多集轉換器(GMT)。該方法可以輕松擴展到以前的節點聚類方法,來進行分層圖池化。實驗結果表明,GMT明顯優于其他圖形池化方法,并在圖重構和生成任務上獲得很大的性能提升。
6.GRAPH COARSENING WITH NEURAL NETWORKS
隨著大規模圖的日益流行,處理,提取和分析大型圖形數據的計算難題有著越來越重要意義。圖粗化是一種在保持基本屬性的同時減小圖尺寸的技術。盡管有豐富的圖粗化文獻,但只有有限的數據驅動方法。
本文利用圖深度學習的最新進展來進行圖粗化。首先提出測量粗化算法質量的框架并說明我們需要根據目標仔細選擇圖粗化的Laplace運算符和相關的投影/提升運算符。由于粗化圖的當前邊權可能不是最優的選擇,用圖神經網絡對權重分配圖進行參數化并對其進行訓練,以無監督的方式提高粗化質量。通過在合成網絡和真實網絡上進行的廣泛實驗,證明了該方法顯著改善了各種條件下的常用圖粗化方法指標,縮小率,圖尺寸和圖類型。它概括為較大的尺寸(訓練圖的25倍),可適應不同的損耗(可微分和不可微分),并且可以縮放到比以前大得多的圖。
可以看到GOREN可以在不同類型的圖上優化粗化方法。
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。
在多標簽文本分類(MLTC)中,一個樣本可以屬于多個類。可以看出,在大多數MLTC任務中,標簽之間存在依賴關系或相互關系。現有的方法往往忽略了標簽之間的關系。本文提出了一種基于圖的注意力網絡模型來捕獲標簽間的注意依賴結構。圖注意力網絡使用一個特征矩陣和一個相關矩陣來捕獲和探索標簽之間的關鍵依賴關系,并為任務生成分類器。將生成的分類器應用于文本特征提取網絡(BiLSTM)獲得的句子特征向量,實現端到端訓練。注意力允許系統為每個標簽分配不同的權值給相鄰節點,從而允許系統隱式地學習標簽之間的依賴關系。在5個實際的MLTC數據集上驗證了模型的結果。與以往的先進模型相比,該模型具有相似或更好的性能。