藥物的發現往往依賴于對蛋白配體結合親合性的成功預測。近年來,圖神經網絡(GNNs)通過學習蛋白質-配體配合物的表示來實現更好的親合性預測具有廣闊的應用前景。然而,現有的解決方案通常將蛋白質-配體配合物作為拓撲圖數據處理,因此沒有充分利用生物分子的結構信息。在GNN模型中也忽略了原子間基本的遠距離相互作用。為此,我們提出了一種結構感知的交互式圖神經網絡(SIGN),它由兩部分組成: 極性啟發圖注意力層(PGAL)和成對交互池(PiPool)。PGAL迭代執行節點邊緣聚合過程,更新節點和邊緣的嵌入,同時保留原子之間的距離和角度信息。然后,采用PiPool方法收集交互邊,并進行后續的重構損失,以反映全局交互。在兩個基準上進行了詳盡的實驗研究,驗證了SIGN算法的優越性。
本文將圖上定義的神經網絡轉換為消息傳遞神經網絡(MPNNs),以研究這類模型的不同分類的區分能力。我們感興趣的是某些架構何時能夠根據作為圖輸入的特征標簽區分頂點。我們考慮了兩種不同的MPNNs: 匿名MPNNs,其消息函數只依賴于所涉及的頂點的標簽; 以及程度感知的MPNNs,其消息函數可以額外使用關于頂點度數的信息。前一類涵蓋了流行的圖神經網絡(GNN)形式,其優異的能力是已知的。后者包括Kipf和Welling提出的圖卷積網絡(GCNs),其區分能力未知。利用Weisfeiler-Lehman (WL)算法的辨識能力,得到了(匿名和程度感知)多神經網絡辨識能力的上界和下界。我們的主要結果表明: (1) GCNs的分辨能力受到WL算法的限制,但它們可能領先一步; (ii) WL算法不能用普通的GCNs模擬,但通過在頂點和其鄰居的特征之間添加一個權衡參數(Kipf和Welling提出的)可以解決這個問題。
圖上的不平衡分類是普遍存在的,但在許多現實世界的應用(如欺詐節點檢測)中具有挑戰性。近年來,圖神經網絡在許多網絡分析任務中顯示出良好的性能。然而,現有的GNN大多只關注平衡網絡,在不平衡網絡上的性能不理想。為了彌補這一缺陷,本文提出了生成式對抗圖網絡模型ImGAGN來解決圖上的不平衡分類問題。介紹了一種新的圖結構數據生成器GraphGenerator,它可以通過生成一組合成的少數節點來模擬少數類節點的屬性分布和網絡拓撲結構分布,從而使不同類中的節點數量達到均衡。然后訓練一個圖卷積網絡(GCN)識別器來區分合成平衡網絡上的真實節點和虛假節點(即生成節點),以及少數節點和多數節點。為了驗證該方法的有效性,在四個真實的不平衡網絡數據集上進行了大量的實驗。實驗結果表明,在半監督不平衡節點分類任務中,該方法優于現有的算法。
圖神經網絡被廣泛應用于對圖數據的許多下游任務的節點表示的學習。現有的模型是為單個圖上的節點設計的,因此無法利用跨多個圖的信息。現實世界中確實存在多個圖,其中的節點通常是部分對齊的。例如,盡管知識圖譜可能具有不同的關系模式,但它們共享許多命名實體;出版物和獲獎項目的協作網絡共享一些分別是作者和研究者的研究節點;人們使用多種網絡服務,購物,推特,電影評級,有些人可能在不同平臺注冊相同的電子郵件帳戶。在本文中,我提出了部分對齊的圖卷積網絡來學習跨模型的節點表示。我研究了多種方法(包括模型共享、正則化和對齊重建)以及理論分析,以在(小)組部分對齊的節點上積極轉移知識。在真實知識圖譜和協作網絡上的大量實驗表明,我們提出的方法在關系分類和鏈接預測方面具有優越的性能。
近年來,基于圖卷積網絡(GCNs)的協同過濾(CF)方法引起了廣泛的研究興趣,并取得了最先進的性能。然而,現有的基于GCN的CF模型都是淺層的,無法對高階協同信號進行建模。此外,大多數基于GCN的CF模型利用相同的歸一化規則對鄰居信息進行聚合,導致鄰居具有與流行相關的重要性(對稱歸一化)或同等重要性(左歸一化)。由于節點之間的內在差異,不同的歸一化規則適合于它們聚合鄰居信息。在本文中,我們提出了一種新的混合歸一化深度圖卷積網絡(DGCN-HN)來緩解上述局限性。首先,設計了一個由殘差連接和整體連接組成的深度圖卷積推薦網絡,以緩解過度平滑問題;它允許對GCN進行更深層次的有效訓練。然后,提出了一種混合歸一化層和簡化的注意力網絡,通過自適應地融合來自不同歸一化規則的信息,靈活地建模鄰居的重要性。在三個真實數據集上的綜合實驗表明,DGCN-HN相對于最先進的方法取得了最好的精度(????????????@20和????????@20的平均相對提高了12.12%和12.77%)。此外,我們對最佳基線進行了多樣性研究。這表明我們提出的解決方案可以實現更多樣化的推薦結果。此外,在我們廣泛的案例研究中,我們表明,我們提出的方法更有利于用戶的交互歷史較少,可用于緩解數據稀疏問題。
現有的GNN解釋方法側重于解釋圖的節點或邊的重要性,但忽略了圖子結構。事實上子結構更直觀且容易被人理解。論文提出了一種通過識別重要的子圖來解釋GNNs 的方法,即 Subgraph X。給定一個經過訓練的GNN模型和一個輸入圖,Subgraph X 通過蒙特卡洛樹搜索有效地探索不同的子圖來解釋其預測。為了使樹搜索更加有效,論文提出使用 Shapley 值作為子圖重要性的衡量標準,這也可以捕捉到不同子圖之間的相互作用。為了加快計算速度,論文提出了高效的近似方案來計算圖數據的 Shapley 值。該論文是通過識別子圖來解釋 GNN 的第一次嘗試,實驗結果表明,Subgraph X 明顯改善了解釋結果,同時將計算量也相對合理。
先說說為啥要關注圖神經網絡的可解釋性?
現有的 GNN 模型大多被視為黑盒子,其預測結果缺乏可解釋性。如果不理解和推理預測背后的關系,這些模型就不能被人們理解信任,阻礙了它們在關鍵領域的應用,因此研究深度圖模型的可解釋性十分必要。
本文的提出的解釋方法的獨特性在于?
很多文獻在研究圖像和文本上的深度模型的解釋技術方面做了工作,這些方法可以通過不同的策略解釋網絡行為和特定輸入的預測結果。然而,GNN 的可解釋性仍未得到充分的探索。與圖像和文本不同,圖數據不是網格狀的數據,它包含重要的結構信息。因此,圖像和文本領域的方法不能直接應用。目前存在的GNN 解釋方法,如 GNNExplainer、PGExplainer 和 PGM-Explainer,但它都是關注節點、邊或節點特征層面的可解釋性,沒有進行子圖層面的可解釋性研究。本文認為子圖層面的解釋更加直觀和有用,因為子圖是復雜圖的簡單構件,與圖的功能高度相關。
//www.zhuanzhi.ai/paper/3696ec78742419bdaa9c23dce139b3d4
消息傳遞圖神經網絡(GNNs)為關系數據提供了強大的建模框架。曾經,現有GNN的表達能力上界取決于1- Weisfeiller -Lehman (1-WL)圖同構測試,這意味著gnn無法預測節點聚類系數和最短路徑距離,無法區分不同的d-正則圖。在這里,我們提出了一類傳遞消息的GNN,稱為身份感知圖神經網絡(ID- GNNs),具有比1-WL測試更強的表達能力。ID-GNN為現有GNN的局限性提供了一個最小但強大的解決方案。ID-GNN通過在消息傳遞過程中歸納地考慮節點的身份來擴展現有的GNN體系結構。為了嵌入一個給定的節點,IDGNN首先提取以該節點為中心的自我網絡,然后進行輪次異構消息傳遞,中心節點與自我網絡中其他周圍節點應用不同的參數集。我們進一步提出了一個簡化但更快的ID-GNN版本,它將節點標識信息作為增強節點特征注入。總之,ID-GNN的兩個版本代表了消息傳遞GNN的一般擴展,其中實驗表明,在具有挑戰性的節點、邊緣和圖屬性預測任務中,將現有的GNN轉換為ID-GNN平均可以提高40%的準確率;結點和圖分類在基準測試上提高3%精度;在實際鏈路預測任務提高15%的ROC AUC。此外,與其他特定于任務的圖網絡相比,ID- GNN表現出了更好的或相當的性能。
圖神經網絡(GNNs)在各種網絡相關任務已被證明是非常有效的。大多數現有的GNN通常利用節點特征的低頻信號,這就產生了一個基本的問題: 低頻信息是我們在現實應用中所需要的全部嗎?在本文中,我們首先提出了一個實驗研究來評估低頻和高頻信號的作用,結果清楚地表明,探索低頻信號與在不同場景下學習有效的節點表示是遙遠的。在GNN中,我們如何自適應地學習低頻信息以外的更多信息?一個可行的方案可以幫助GNNs增強適應性。針對這一問題,我們提出了一種具有自適應機制的頻率自適應圖卷積網絡(FAGCN),該網絡能夠在消息傳遞過程中自適應地整合不同的信號。為了加深理解,我們從理論上分析了低頻信號和高頻信號在學習節點表示上的作用,進一步解釋了為什么FAGCN能在不同類型的網絡上表現良好。在六個真實網絡上的廣泛實驗證實,FAGCN不僅緩解了過度平滑的問題,而且比最先進的技術有優勢。
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
題目: 圖神經網絡的無冗余計算 會議: KDD2020 論文地址: //dl.acm.org/doi/abs/10.1145/3394486.3403142 推薦理由: 對于圖神經網絡中重復信息的聚合,這篇文章提出了一種簡單有效的層次化聚合的方法(HAG),用于層次化管理中間結果并減少圖神經網絡在訓練和推斷過程中重復計算。HAG 能夠保證在計算層次化聚合的過程中,可以使用更少的時間用于訓練并且得到的結果和傳統的圖神經網絡模型一致。
GNN在單層中基于遞歸鄰域聚合方案,每個節點聚合其鄰居的特征,并使用聚合值更新其自身的特征。這樣遞歸地傳播多次(多層),最后,GNN中的每個節點都會從其k階網絡鄰居中的其他節點收集信息。最后GNN層的激活然后被用于下游預測任務,例如節點分類、圖分類或鏈路預測。然而,如何設計一個能夠有效處理大規模圖數據集的GNN仍然是一個挑戰。特別的是,許多當前的工作是使用整張圖的拉普拉斯矩陣,這樣即便是對于中等規模的圖,也會面臨存儲空間的問題。GraphSAGE首次提出使用對每個獨立節點執行小圖鄰域采樣,然后再聚合這些節點的鄰域信息,但是對于單個節點進行鄰域采樣是一個高復雜度的事情,因此許多手工調整的啟發式算法被用來限制采樣復雜性并選擇鄰域圖并通過優化圖的采樣步驟來提高GNN的效率。
標簽傳播(LPA)和圖卷積神經網絡(GCN)都是圖上的消息傳遞算法。兩者都解決了節點分類的任務,但是LPA將節點標簽信息傳播到圖的邊緣,而GCN傳播并轉換節點特征信息。然而,雖然概念相似,LPA和GCN之間的理論關系還沒有得到研究。這里我們從兩個方面研究了LPA和GCN之間的關系:(1)特征/標簽平滑,分析一個節點的特征/標簽如何擴散到它的鄰居;(2)一個節點的初始特征/標簽對另一個節點的最終特征/標簽的影響程度。在理論分析的基礎上,提出了一種統一GCN和LPA的節點分類端到端模型。在我們的統一模型中,邊緣權值是可學習的,LPA作為正則化幫助GCN學習合適的邊緣權值,從而提高分類性能。我們的模型也可以看作是基于節點標簽的注意力學習權重,它比現有的基于特征的注意力模型更面向任務。在真實圖數據的大量實驗中,我們的模型在節點分類準確度方面顯示出優于目前最先進的基于gcn的方法。