圖神經網絡(GNNs)在各個領域的圖結構數據學習中展示了顯著的成功。盡管取得了巨大成功,現有工作經常忽視一個關鍵挑戰,即消息傳播的學習能否有效地泛化到代表性不足的圖區域。這些少數區域經常展示不規則的同質性/異質性模式和多樣化的鄰域類分布,導致模糊性。在這項工作中,我們研究了GNNs內的模糊性問題,其對表示學習的影響,以及為對抗這一問題而開發的更豐富的監督信號。我們對GNN進行了細致的評估,分析了不同圖區域中模糊性的存在及其與節點位置的關系。為了消除節點嵌入的模糊性,我們提出了一種新穎的方法,DisamGCL,它利用額外的優化指導來增強表示學習,特別是對于模糊區域中的節點。DisamGCL基于預測的時間不一致性識別模糊節點,并通過以拓撲感知的方式采用對比學習引入消歧規則化。DisamGCL促進節點表示的區分性,并且可以減輕消息傳播引起的語義混合,有效地解決了模糊性問題。經驗結果驗證了DisamGCL的效率,并突出了其在代表性不足的圖區域改善GNN性能的潛力。
圖結構學習是一個成熟的問題,旨在優化適應特定圖數據集的圖結構,以幫助消息傳遞神經網絡(即GNN)產生有效且魯棒的節點嵌入。然而,現有模型的普遍限制在于基本的封閉世界假設:測試圖與訓練圖相同。這個前提要求對每個圖數據集獨立從頭開始訓練結構學習模型,導致計算成本過高,并可能出現嚴重的過擬合風險。為了緩解這些問題,本文探索了一個新的方向,即學習一個通用的結構學習模型,可以在開放世界中推廣到各種圖數據集。我們首先介紹這個新穎問題設置的數學定義,并從概率數據生成的角度描述模型的構建。然后,我們設計了一個通用框架,協調一個圖共享的結構學習器和多個圖特定的GNN,以捕捉跨數據集的可推廣的最佳消息傳遞拓撲模式。經過良好訓練的結構學習器可以直接為未見過的目標圖生成適應性結構,而無需任何微調。在不同的數據集和各種具有挑戰性的跨圖泛化協議中,我們的實驗證明,即使在目標圖上沒有進行訓練,所提出的模型:i)顯著優于在輸入(非優化)拓撲上訓練的表達能力強大的GNN;ii)令人驚訝地與獨立優化特定目標圖的最先進模型表現相當,并且在目標圖上訓練的速度明顯加快了幾個數量級。 //arxiv.org/abs/2306.11264
圖神經網絡(GNNs)在許多圖學習任務中表現出令人印象深刻的性能。然而,當輸入的圖數據信息弱,即結構不完整、特征不完整和標簽不足時,GNNs的性能可能會下降。大多數先前的研究試圖從具有特定類型弱信息的圖數據中學習,但在處理各種數據缺陷并相互影響的場景時,這些研究效果不佳。為了填補這個空白,我們在這篇論文中,試圖針對弱信息圖學習(GLWI)問題,開發一種有效且原則性的方法。基于我們的實證分析,我們得出了解決GLWI問題的兩個設計重點,即使GNNs能夠進行長距離傳播,并允許信息傳播到那些與最大連接組件隔離的漂泊節點。據此,我們提出了D2PT,一種雙通道GNN框架,它不僅在具有不完整結構的輸入圖上執行長距離信息傳播,而且還在編碼全局語義相似性的全局圖上執行信息傳播。我們進一步開發了一個原型對比對齊算法,它將從兩個通道中學到的類級原型進行對齊,以便兩種不同的信息傳播過程可以相互受益,最終學習的模型可以很好地處理GLWI問題。在八個真實世界的基準數據集上的大量實驗表明,我們提出的方法在各種GLWI場景中都表現出了有效性和效率。
結構化數據在網絡應用中很好地存在,如社交媒體中的社交網絡、學術網站中的引文網絡、在線論壇中的線程數據。由于拓撲結構的復雜性,這些數據中的豐富信息難以處理和利用。圖神經網絡(GNN)在結構化數據的學習表示方面顯示出極大的優勢。然而,深度學習模型的不透明性使得解釋GNN的預測變得非常重要。同時,GNN解釋的評價也是一個巨大的挑戰,因為在很多情況下,基準真相解釋是不可用的。在本文中,我們從因果推理理論中借鑒反事實和事實推理(CF^2)的觀點,來解決可解釋GNN中的學習和評價問題。為了生成解釋,我們提出了一個模型無關的框架,通過建立一個優化問題的基礎上,這兩個隨意的觀點。這將CF^2與之前只考慮其中一個的可解釋GNN區分開來。這項工作的另一個貢獻是對GNN解釋的評價。為了在不要求基本事實的情況下定量地評估生成的解釋,我們設計了基于反事實和事實推理的度量標準,以評估解釋的必要性和充分性。實驗表明,無論基準真相解釋是否可用,CF^2在真實數據集上都比以前的最先進的方法產生了更好的解釋。此外,統計分析證明了基準真相評估和我們提出的指標之間的相關性。
圖神經網絡(GNN)已被用于解決少樣本學習(FSL)問題,并顯示出在換能器設置下的巨大潛力。但在歸納設置下,現有的基于GNN的方法競爭力較弱。這是因為他們使用一個實例GNN作為標簽傳播/分類模塊,該模塊與一個特征嵌入網絡共同進行元學習。這種設計是有問題的,因為分類器需要快速適應新的任務,而嵌入不需要。為了解決這一問題,本文提出了一種新的混合GNN (HGNN)模型,該模型由兩個GNN、一個實例GNN和一個原型GNN組成。它們代替標簽傳播,作為嵌入特征的適應模塊,使元學習的特征嵌入快速適應新任務。重要的是,它們的設計是為了處理FSL中一個基本但經常被忽視的挑戰,即每個類中只有少量的樣本,任何少量樣本分類器都將對糟糕的采樣樣本敏感,這些樣本要么是異常值,要么會導致類間分布重疊。我們的兩個GNN分別針對這兩種差采樣的少樣本進行設計,并在混合GNN模型中利用它們的互補性。大量實驗表明,我們的HGNN在三個FSL基準測試中取得了新的先進水平。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
最近,異質圖神經網絡(HGNNs)在處理異質信息網絡(HIN)方面展現了優越的能力。大部分的HGNNs都遵循半監督學習的設定,然而實際應用中標簽信息往往很難獲得。而自監督學習由于能夠自發地從數據本身挖掘監督信號,已經成為無監督設定下很好的選擇。作為一種典型的自監督機制,對比學習(contrastive learning)通過從數據中抽取出正負樣本,同時最大化正例間的相似度以及最小化負例間相似度,能夠學到判別性的表示。盡管對比學習在CV和NLP領域得到了廣泛應用,如何將它和HIN結合卻尚未解決。
通過認真考慮HIN以及對比學習的特性,我們總結了三個需要解決的本質問題:
1)如何設計異質對比機制 HIN中包含復雜結構,例如元路徑(meta-path),需要利用跨視圖的對比學習機制來綜合刻畫。
2)如何在HIN中選擇合適的視圖 對于視圖的基本要求是,能夠刻畫網絡的局部結構和高階結構。網絡模式(network schema)反應了節點間的直接連接情況,捕捉局部結構;元路徑通常被用來抽取多跳關系。
3)如何設置困難的對比任務 簡單的正負關系很容易被捕獲,模型學到的信息有限。增加對比任務的難度,可通過增加兩個視圖間的差異,或者生成更高質量的負樣本來實現。
在本篇文章中,我們提出了一個新的基于協同對比學習的異質圖神經網絡框架,簡稱HeCo。HeCo采用跨視圖的對比機制,選擇網絡模式和元路徑作為兩個視圖,結合視圖掩蓋機制,分別學得兩個視圖下的節點表示。之后,利用跨視圖對比學習,使得兩個視圖協同監督。此外,我們還提出兩個HeCo擴展,通過生成更高質量的負例,提升最終效果。
圖神經網絡(GNNs)在各種圖分析任務中得到了廣泛的關注,設計良好的消息傳播機制是GNNs中最基本的組成部分,并且被證明是十分有效的。雖然傳播機制多種多樣,但基本上都是以沿網絡拓撲傳播聚合節點特征的方式來利用拓撲與特征這兩種信息的。鑒于此,一個問題自然會被提出:盡管不同圖神經網絡有不同的傳播策略,是否存在統一的數學準則,能夠從本質上指導著不同的傳播機制?如果有的話,是什么?對這個問題較為完善的回答,可以幫助我們從宏觀的角度考察不同圖神經網絡之間的關系與差異。這樣的數學準則一旦被發現,就能夠幫助我們發現現有圖神經網絡的不足之處,進而激發更多新的圖神經網絡被設計出來。
本文中,我們首先分析了幾個具有代表性的圖神經網絡(例如GCN,SGC,PPNP)的傳播過程,并抽象出他們的共性。我們發現它們均可以歸結到一個統一的優化目標框架下,該優化目標由一個帶有靈活圖卷積核的特征擬合約束項和一個圖拉普拉斯正則項組成。特征擬合約束項旨在建立節點表示與原始節點特征之間的關系,而圖拉普拉斯正則項則起到拓撲平滑特征的作用。而對應圖神經網絡傳播后的節點表示則可以隱式地看做這個統一優化目標的最優解。
同時,基于該統一優化目標框架也較容易發現現有圖神經網絡傳播策略的不足之處,為設計新的圖神經網絡也提供了機會。通常來說,設計新的圖神經網絡往往側重于設計特定的譜圖濾波器或者空域聚合策略,而該統一框架為實現這一目標提供了另一種新的途徑,即通過設計傳播過程對應的優化目標函數來得到新的GNNs。這樣,我們就能夠清楚地知道傳播過程背后的優化目標,使新設計的圖神經網絡更具有可解釋性和可靠性。
本文的主要貢獻總結如下:
提出了一個包含特征擬合項與圖正則化項的統一優化目標框架,并從理論上證明了該框架能夠解釋多個圖神經網絡的傳播策略,為理解圖神經網絡提供了一個較宏觀的視角,也為設計新的圖神經網絡帶來新思路。 基于該統一優化框架,我們設計了兩種具有靈活圖卷積核擬合項的圖神經網絡傳播目標,并給出相應的網絡模型。同時對他們的收斂性,表達能力等進行了理論分析。 我們在六個數據集上驗證了提出兩種圖神經網絡模型的效果,實驗也表明他們具有較好的緩解過平滑的能力。這進一步驗證了基于該統一框架設計新圖神經網絡的可行性。
圖神經網絡(GNN)已被證明是圖分析的強大工具。關鍵思想是沿著給定圖的邊遞歸地傳播和聚合信息。盡管它們取得了成功,但是,現有的GNN通常對輸入圖的質量很敏感。真實世界的圖通常是噪聲和包含任務無關的邊緣,這可能導致在學習的GNN模型中泛化性能次優。本文提出一種參數化拓撲去噪網絡PTDNet,通過學習丟棄任務無關邊來提高GNNs的魯棒性和泛化性能。PTDNet通過使用參數化網絡懲罰稀疏圖中的邊數來刪除與任務無關的邊。考慮到整個圖的拓撲結構,采用核范數正則化對稀疏圖施加低秩約束,以便更好地泛化。PTDNet可以作為GNN模型的關鍵組件,以提高其在各種任務中的性能,如節點分類和鏈路預測。在合成數據集和基準數據集上的實驗研究表明,PTDNet可以顯著提高GNNs的性能,并且對于噪聲較大的數據集性能增益更大。
//personal.psu.edu/dul262/PTDNet/WSDM2021_PTDNet_camera_ready.pdf
圖神經網絡(GNNs)最近變得越來越受歡迎,因為它們能夠學習復雜的關系系統或相互作用,這些關系或作用來源于生物學和粒子物理學到社會網絡和推薦系統等廣泛問題。盡管在圖上進行深度學習的不同模型太多了,但迄今為止,很少有人提出方法來處理呈現某種動態性質的圖(例如,隨著時間的推移而進化的特征或連通性)。在本文中,我們提出了時序圖網絡(TGNs),一個通用的,有效的框架,用于深度學習動態圖表示為時間事件序列。由于內存模塊和基于圖的運算符的新組合,TGNs能夠顯著優于以前的方法,同時在計算效率上也更高。此外,我們還展示了之前幾個用于學習動態圖的模型可以轉換為我們框架的具體實例。我們對框架的不同組件進行了詳細的消歧研究,并設計了最佳配置,在動態圖的幾個轉導和歸納預測任務中實現了最先進的性能。
大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。