本文研究了一種知識遷移的新范式,旨在通過將知識從在完全圖上訓練的教師GNN模型提取到在更小或更稀疏的圖上操作的學生GNN模型,將圖拓撲信息編碼到圖神經網絡(GNN)中。為此,我們回顧了熱力學和GNN行為之間的聯系,在此基礎上,我們提出了神經熱核(NHK)來封裝與GNN體系結構有關的底層流形的幾何特性。一個基本的和原則性的解決方案是通過對齊教師和學生模型的NHKs,稱為幾何知識蒸餾。我們開發了非參數實例化和參數化實例化,并在不同的實驗設置中演示了它們的有效性,用于不同類型的特權拓撲信息和師生方案的知識蒸餾。
//arxiv.org/pdf/2210.13014.pdf
作者信息: 楊晨曉 (上海交通大學),吳齊天 (上海交通大學),嚴駿馳 (上海交通大學) 論文鏈接: //openreview.net/pdf?id=7WGNT3MHyBm 代碼鏈接:
現目前有很多工作開始關注圖數據的泛化和遷移問題,然而很少有研究在泛化相關的問題上考慮拓撲信息。在這個工作中,我們提出了一種全新的基于拓撲的知識遷移范式,即幾何知識蒸餾(Geometric Knowledge Distillation),它可以實現兩個定義在不一致的圖拓撲上的圖神經網絡(GNN)之間實現知識遷移。為了實現這個目標,我們首先回顧了從熱力學的角度聯系熱傳導方程(Heat Equation)和圖神經網絡特征傳遞的過程。在這一理論框架下,我們提出了神經熱核函數 (Neural Heat Kernel, NHK) 將圖神經網絡背后的流形的幾何特性編碼成一系列層間的矩陣表示。幾何知識蒸餾通過挖掘和對齊教師和學生GNN模型的神經熱核,實現將圖拓撲信息壓縮到模型本身并實現不同GNN之間的知識遷移。我們繼而設計了非參數化和參數化的兩類模型變種,并在多個圖數據知識遷移任務上,如不同圖拓撲間的知識遷移、不同大小GNN間的知識蒸餾、通過自蒸餾(Self-Distillation)實現性能提升等,驗證了它們的有效性。 TAG: 幾何深度學習/ 圖神經網絡/ 知識蒸餾
首先,我們簡單介紹技術背景。在物理學中,黎曼流形上的熱傳導過程可以用如下的偏微分方程描述。其中,表示導熱系數,: 表示定義在流形上的一個函數,用來表示某個點和時間上的某種信號,例如溫度或者其他特征。表示Laplace-Beltrami operator,可以進一步寫成 (Divergence operator)和 (Gradient operator)的復合函數(即 )。 上述偏微分方程的含義可以直觀理解為:某一點的信號/溫度在無窮小時間間隔內的變化等同于該點信號/溫度與其周圍區域平均信號/溫度的差異。近期,一系列工作 [1-5] 揭示了 GNN 的特征傳播過程和底層黎曼流形的熱擴散的聯系。如下圖所示,圖拓撲結構(由節點和邊構成)可以被看作空間離散化(Spatial discretization)后的黎曼流形,而進一步將熱傳導方程以數值求解的方法(例如用Euler method求解)進行時間離散化(Temporal discretization)就可以產生一層的 GNN 架構。換句話說,在黎曼流形上一定時間間隔的熱傳導可以看做一層 GNN 做特征傳遞(如下圖所示)。
另外,不同的 定義或者不同的數值求解方法可以產生不同的 GNN 模型結構:例如,將 定義為計算相鄰節點特征的差值, 定義為對特征差值的求和,并用forward Euler method求解熱傳導方程,就可以得到一層GCN形式 [6] 的特征傳遞層。
如上所述,用數值求解的方法求解熱傳導方程可以得到一層 GNN 的信息傳遞,而有趣的是,給定信號初值,任何黎曼流形 上的熱傳導方程都有唯一的取決于 定義的最小正基解,稱為熱核(Heat kernel),用核函數 表示: 在物理學中,熱核 描述了布朗運動在流形上的轉移密度,決定了信號如何在流形上進行傳播,反應或者刻畫了底層流形的幾何特征。例如,如果流形是一個維的歐氏空間 ,熱核就可以用高斯核函數的形式表示,而如果流形是一個維的雙曲空間 ,熱核就需要用更復雜的核函數形式表示:
本文方法的出發點在于提出了神經熱核(Neural heat kernel,NHK),它建立在前文提到的 GNN 和熱方程的連接之上,將熱核的概念從流形上的熱傳導拓展到圖神經網絡(如上圖所示)。這一概念從熱力學視角使我們能夠挖掘 GNN 背后流形的內在幾何屬性。它的定義如下, NHK 的函數形式由圖神經網絡對應的 決定,而又由上一節所述,圖神經網絡對應的 和圖拓撲結構 ,GNN的定義 以及所學的權重 有關。因此,正如熱核在熱傳導方程中扮演的角色,我們可以將 NHK 視作一種對 GNN 背后流形的幾何特征的刻畫,控制信息如何在節點之間流動,這為我們提供了一個數學工具來封裝 GNN 模型從圖拓撲中提取的幾何知識。更直觀理解,NHK是一種對特定GNN(“特定”強調固定模型結構和訓練參數)背后的圖拓撲信息的表示。 最后,我們也在 GNN 和熱傳導聯系的視角下嚴格證明了神經熱核的存在:
NHK作為一個新的理論工具,我們可以將它用于不同GNN模型間基于圖拓撲的知識遷移任務,我們稱之為幾何知識蒸餾或幾何知識遷移。幾何知識蒸餾定義為:考慮一個用于節點預測的圖神經網絡,相對于在訓練階段可以見到完整的圖結構,它在測試階段只能見到一部分的圖拓撲結構(包括邊信息和節點信息): 我們的目標是將從 中提取的幾何知識遷移或編碼到只知道 的目標 GNN 模型。這個問題也對應了一些實際場景中的應用,例如:通過圖拓撲壓縮在不影響 GNN 模型有效性的情況下提高預測效率,社交推薦或者聯邦學習中的隱私限制場景,應對圖拓撲結構的動態偏移等等。實現這一目標并非易事,因為我們需要首先找到一種根本性的方法來編碼 GNN 模型提取的幾何知識,這需要深入研究圖拓撲在整個消息傳遞過程中的作用。因此,我們利用上述熱力學的觀點,將特征傳播解釋為底層黎曼流形上的熱流,并利用 NHK 來表示圖神經網絡從圖拓撲結構中提取出來的幾何知識。基于此,我們提出一個新的知識蒸餾/遷移框架,成為幾何知識蒸餾(Geometric knowledge distillation, GKD),它的 motivation 如下圖所示:
幾何知識蒸餾旨在對齊 GNN 模型之間背后的流形幾何特征,將教師 GNN 模型的幾何知識遷移給學生 GNN 模型,這樣學生模型就可以在同樣的底層流形上傳播特征,即使它不知道完整的圖拓撲信息。在實際操作上,我們定義如下的蒸餾損失函數來對齊教師 GNN 模型和學生 GNN 模型的 NHK matrices: 其中 表示 NHK 矩陣, 計算兩個矩陣的 Frobenius distance, 是一個加權矩陣用于根據連通性權衡不同的節點對。 實現幾何知識蒸餾的另一個挑戰是,由于 GNN 在做前饋的時候引入了非線性,我們很難推導出 NHK 的顯式表達(事實上,即使對于流形上的熱傳導方程,也只有一部分特定流形的熱核方程能被明確推導出來)。為了規避這個問題,我們為 GKD 提出了兩種類型的實現,即非參數化和參數化。非參數化的 GKD 通過對底層空間做出假設來考慮有明確公式的核函數,我們最后得出三種 NHK 實現方式,其中隨機化的實現依托于熱核函數的展開式: 參數化的 GKD 以數據驅動的方式學習 NHK(實際上是一個變分分布), 得到如下的實現形式: 其中 是一個可學習的非線性特征映射,我們用一種 EM-style 的訓練算法進行學習和優化。在實際測試中,我們發現參數化和非參數化的方法都能取得很好的效果,而非參數化的實現方式更加簡單高效。
實驗設置: 我們在節點分類數據集上進行實驗,對比不同類型的(label-based, feature-based, relation-based, graph-based)知識蒸餾算法 [7-10] 以及 Oracle,Teacher,Student 模型。所有方法在測試時均使用不完整的圖拓撲信息,除了Oracle模型在測試時可以看到完整的圖拓撲信息用于參考對比。我們考慮了兩個新實驗設定,分別是邊幾何知識遷移和節點幾何知識遷移,其中教師模型分別擁有額外的邊信息和節點信息。 主要結果: GKD的所有變體在兩個實驗設定上都優于其他 KD 算法,并且顯著超過 Student 和 Teacher 模型。此外,GKD 及其變體甚至可以與 Oracle 模型相媲美。換句話說,使用 GKD 訓練的學生模型可以使用更少的圖拓撲信息來實現與在推理過程中了解完整圖拓撲的競爭對手非常接近的性能。另外,我們通過額外實驗發現 GKD 用于傳統的知識蒸餾設定上(即,model compression, self-distillation, online distillation)也依然有效,驗證了我們方法的泛用性。部分的實驗結果如下圖表所示:
本文首次研究了針對GNN的圖拓撲知識遷移問題,并提出了神經熱核這一理論工具,利用它來表征圖的底層流形的幾何屬性。 * 基于此,本文進而探索了神經熱核的一個應用場景,提出了幾何知識蒸餾這一框架,它可以將幾何知識從教師GNN模型遷移到學生GNN模型。 * 實驗結果也驗證了我們的方法在各種場景中的有效性,如教師和學生GNN需要處理不同圖數據(節點和連邊不一致)、具有不同模型大小(參數量不同),或通過自蒸餾提升模型本身性能。
在許多涉及圖神經網絡的學習任務中,通過讀出函數將節點特征有效地聚合為圖級表示是必不可少的一步。通常,讀出是簡單且非自適應的函數,其設計使得得到的假設空間是排列不變的。先前對深度集的研究表明,這樣的讀出可能需要復雜的節點嵌入,通過標準的鄰域聚合方案很難學習。基于此,我們研究了神經網絡給出的自適應讀出的潛力,這些神經網絡不一定會產生排列不變的假設空間。我們認為,在一些問題中,如分子通常以規范形式呈現的結合親和性預測,可能會放松對假設空間排列不變性的約束,并通過使用自適應讀取函數學習更有效的親和性模型。我們的經驗結果證明了神經讀出在跨越不同領域和圖特征的40多個數據集上的有效性。此外,我們觀察到相對于鄰域聚合迭代次數和不同的卷積運算符,相對于標準讀數(即和、最大值和平均值)有一致的改進。
深度圖神經網絡(Deep graph neural networks, GNNs)能夠很好地表達圖結構數據的建模。然而,深度圖模型的過載架構使得其難以在移動或嵌入式系統上部署和快速測試。為了壓縮重疊的GNN,通過師生架構進行知識蒸餾是一種有效的技術,其中的關鍵步驟是用預定義的距離函數測量教師和學生網絡之間的差異。然而,對各種結構的圖使用相同的距離可能是不合適的,最優距離公式難以確定。為了解決這些問題,我們提出了一種新的對抗性知識蒸餾框架,命名為GraphAKD,它對抗性訓練一個鑒別器和一個生成器,自適應檢測和減少差異。特別地,注意到良好捕獲的節點間和類間相關性有利于深度GNN的成功,我們提出使用可訓練的鑒別器來批判從節點級和類級視圖繼承的知識。鑒別器區分老師的知識和學生繼承的知識,而學生GNN作為生成器,目的是欺騙鑒別器。據我們所知,GraphAKD是第一個將對抗性訓練引入到圖領域知識蒸餾的系統。在節點級和圖級分類基準上的實驗表明,GraphAKD在很大程度上提高了學生的表現。結果表明,GraphAKD能夠準確地將知識從復雜的教師GNN傳遞到緊湊的學生GNN。
//arxiv.org/pdf/2205.11678.pdf
題目:Compact Graph Structure Learning via Mutual Information Compression
作者:Nian Liu, Xiao Wang, Lingfei Wu, Yu Chen, Xiaojie Guo, Chuan Shi
簡介:圖結構學習(GSL)的目的是同時學習最優圖結構以及圖神經網絡(GNNs)參數,可大致分為基于單視圖和基于多視圖兩類。其中,基于多視圖的GSL能從原始結構中抽取出多個基礎視圖,利用多方面的知識,從而來綜合評估最優的最終視圖。那么,如何有原則地從多個視圖中評估出最優結構,如何定義“最優”的概念,尚未有理論的指導。我們認為,本質上,最優圖結構應該僅包含關于下游任務中最精簡的信息,不多不少,從而能對于標簽做出最精確的預測。如果學到的結構吸收了很多和標簽無關的信息,那它會易受到對抗攻擊的影響;反之,如果它僅包含關于標簽有限的信息,模型就無法支撐下游任務。總之,最優結構應該包含最小但卻充分的關于標簽的信息,我們稱其為最小充分結構,它是有效性和魯棒性的平衡。
然而,獲得這樣一個最小充分結構需要解決兩個挑戰:(1)如何確保最終視圖的最小以及充分?為了達到充分,最終視圖應該充分由標簽指導,從而盡可能多地包含和標簽有關的信息;為了達到最小,我們需要限制信息從基礎視圖向最終視圖的流動。因此,為了達到最小與充分,我們需要思考基礎視圖、最終視圖以及標簽三者間的關系;(2)如何確保基礎視圖的有效性?作為最終視圖的信息源,基礎視圖需要保證較高質量。一方面,基礎視圖同樣需要包含標簽的信息,從而保證最終視圖的表現效果;另一方面,不同視圖間應相互獨立,這樣能消除彼此間的冗余,為最終視圖提供多方面的關于標簽的知識。
為了解決上述挑戰,在本文中我們通過互信息壓縮來學習緊致的圖結構,提出CoGSL模型。我們首先從原始結構中抽取兩個基礎視圖作為輸入,并設計視圖估計器去對輸入視圖進行調整。基于估計后的視圖,我們提出新的自適應無參聚合機制得到最終視圖。之后,我們給出了“最小充分結構”的正式定義,并從理論上證明,在基礎視圖和最終視圖的效果得到保障的前提下,我們需要同時最小化兩兩視圖間的互信息。為了有效地評估不同視圖間的互信息,我們基于InfoNCE損失設計相應的互信息估計器。最后,我們采用三折優化去訓練上述框架。
圖神經網絡在許多基于圖的任務中得到了廣泛的應用,如節點分類、鏈路預測和節點聚類。GNNs的性能優勢主要來自于對圖的邊緣執行特征傳播和平滑,因此需要足夠的連接性和標簽信息來進行有效傳播。不幸的是,許多現實世界的網絡在邊緣和標簽方面都是稀疏的,這導致了GNN的次優性能。最近對這個稀疏問題的興趣集中在自訓練方法上,它用偽標簽擴展監督信號。然而,由于偽標簽的質量和數量都不理想,自訓練方法本身并不能充分發揮提煉稀疏圖學習性能的潛力。在本文中,我們提出了ROD,一種新的接收感知的在線知識提取方法用于稀疏圖學習。我們為ROD設計了三種監督信號:多尺度接收感知的圖知識、基于任務的監督和豐富的提煉知識,允許知識以同行教學的方式在線遷移。為了提取隱藏在多尺度接收領域中的知識,ROD明確要求個體學生模型保持不同層次的位置信息。對于給定的任務,每個學生根據自己的接受量表知識進行預測,同時結合多尺度知識動態地建立一個強大的教師。我們的方法已經在9個數據集和各種基于圖的任務上進行了廣泛的評估,包括節點分類、鏈接預測和節點聚類。結果表明,ROD算法達到了最先進的性能,對圖稀疏性具有更強的魯棒性。
推薦系統(RS)采用知識蒸餾,這是一種模型壓縮技術,用從預訓練的大型教師模型遷移的知識來訓練緊湊的學生模型。最近的研究表明,從教師的中間層遷移知識顯著提高了學生的推薦質量。但是,它們是逐點遷移個體表示的知識,因此存在一個局限,即RS的主要信息在于表示空間中的關系。本文提出了一種新的拓撲蒸餾方法,通過將建立在教師空間關系上的拓撲結構傳遞給學生來指導學生進行拓撲蒸餾。我們首先觀察到,簡單地讓學生學習整個拓撲結構并不總是有效的,甚至會降低學生的表現。我們證明,因為與老師相比,學生的能力是非常有限的,學習整個拓撲結構對學生來說是令人生畏的。為了解決這一問題,我們提出了一種新的分層拓撲蒸餾(HTD)方法,該方法可以分層地對拓撲進行蒸餾,以應對較大的容量缺口。我們在真實數據集上的大量實驗表明,提出的方法明顯優于先進的競爭對手。我們還提供了深入的分析,以確定提取RS拓撲的好處。
隨著深度學習的成功,基于圖神經網絡(GNN)的方法[8,12,30]已經證明了它們在分類節點標簽方面的有效性。大多數GNN模型采用消息傳遞策略[7]:每個節點從其鄰域聚合特征,然后將具有非線性激活的分層映射函數應用于聚合信息。這樣,GNN可以在其模型中利用圖結構和節點特征信息。
然而,這些神經模型的預測缺乏透明性,人們難以理解[36],而這對于與安全和道德相關的關鍵決策應用至關重要[5]。此外,圖拓撲、節點特征和映射矩陣的耦合導致復雜的預測機制,無法充分利用數據中的先驗知識。例如,已有研究表明,標簽傳播法采用上述同質性假設來表示的基于結構的先驗,在圖卷積網絡(GCN)[12]中沒有充分使用[15,31]。
作為證據,最近的研究提出通過添加正則化[31]或操縱圖過濾器[15,25]將標簽傳播機制納入GCN。他們的實驗結果表明,通過強調這種基于結構的先驗知識可以改善GCN。然而,這些方法具有三個主要缺點:(1)其模型的主體仍然是GNN,并阻止它們進行更可解釋的預測;(2)它們是單一模型而不是框架,因此與其他高級GNN架構不兼容;(3)他們忽略了另一個重要的先驗知識,即基于特征的先驗知識,這意味著節點的標簽完全由其自身的特征確定。
為了解決這些問題,我們提出了一個有效的知識蒸餾框架,以將任意預訓練的GNN教師模型的知識注入精心設計的學生模型中。學生模型是通過兩個簡單的預測機制構建的,即標簽傳播和特征轉換,它們自然分別保留了基于結構和基于特征的先驗知識。具體來說,我們將學生模型設計為參數化標簽傳播和基于特征的2層感知機(MLP)的可訓練組合。另一方面,已有研究表明,教師模型的知識在于其軟預測[9]。通過模擬教師模型預測的軟標簽,我們的學生模型能夠進一步利用預訓練的GNN中的知識。因此,學習的學生模型具有更可解釋的預測過程,并且可以利用GNN和基于結構/特征的先驗知識。我們的框架概述如圖1所示。 圖片
圖1:我們的知識蒸餾框架的示意圖。學生模型的兩種簡單預測機制可確保充分利用基于結構/功能的先驗知識。在知識蒸餾過程中,將提取GNN教師中的知識并將其注入學生。因此,學生可以超越其相應的老師,得到更有效和可解釋的預測。
我們在五個公共基準數據集上進行了實驗,并采用了幾種流行的GNN模型,包括GCN[12]、GAT[30]、SAGE[8]、APPNP[13]、SGC[33]和最新的深層GCN模型GCNII[4]作為教師模型。實驗結果表明,就分類精度而言,學生模型的表現優于其相應的教師模型1.4%-4.7%。值得注意的是,我們也將框架應用于GLP[15],它通過操縱圖過濾器來統一GCN和標簽傳播。結果,我們仍然可以獲得1.5%-2.3%的相對改進,這表明了我們框架的潛在兼容性。此外,我們通過探究參數化標簽傳播與特征轉換之間的可學習平衡參數以及標簽傳播中每個節點的可學習置信度得分,來研究學生模型的可解釋性。總而言之,改進是一致,并且更重要的是,它具有更好的可解釋性。
本文的貢獻總結如下:
視頻描述是一項具有挑戰性的任務,需要對視覺場景有深刻的理解。最先進的方法使用場景級或對象級信息生成標題,但不顯式地建模對象交互。因此,他們往往無法做出有視覺根據的預測,而且對虛假的相關性很敏感。本文提出了一種新的視頻描述時空圖模型,該模型利用了時空中物體間的相互作用。我們的模型建立了可解釋的鏈接,并能夠提供明確的視覺基礎。為了避免由于對象數量的變化而導致系統性能的不穩定,提出了一種基于局部對象信息的全局場景特征正則化的對象感知知識提取機制。我們通過在兩個基準上的大量實驗來證明我們的方法的有效性,表明我們的方法具有可解釋預測的競爭性能。
現有的知識蒸餾方法主要集中在卷積神經網絡(convolutional neural networks~, CNNs)上,其中圖像等輸入樣本位于一個網格域內,而處理非網格數據的graph convolutional networks~(GCN)則在很大程度上被忽略。在這篇論文中,我們提出從一個預先訓練好的GCN模型中蒸餾知識的第一個專門方法。為了實現知識從教師到學生的遷移,我們提出了一個局部結構保留模塊,該模塊明確地考慮了教師的拓撲語義。在這個模塊中,來自教師和學生的局部結構信息被提取為分布,因此最小化這些分布之間的距離,使得來自教師的拓撲感知的知識轉移成為可能,從而產生一個緊湊但高性能的學生模型。此外,所提出的方法很容易擴展到動態圖模型,其中教師和學生的輸入圖可能不同。我們使用不同架構的GCN模型,在兩個不同的數據集上對所提出的方法進行了評估,并證明我們的方法達到了GCN模型最先進的知識蒸餾性能。