異質信息網絡(HINs)也稱為異質圖,它是一種由多種類型的節點和邊組成的復雜網絡,包含了全面的信息和豐富的語義。圖神經網絡(GNNs)作為處理圖結構數據的強大工具,在網絡分析任務中表現出了卓越的性能。最近相繼提出了許多基于圖神經網絡的異質圖模型,并取得了巨大的成功。圖神經網絡旨在通過節點屬性間的傳播和聚合操作來完成圖表示學習任務,因而完備的節點屬性是算法運行的必要前提。
然而,大多數真實世界的場景通常存在信息不完備的問題,表現在異質信息網絡中即為:常存在某些類型節點的屬性完全缺失的現象,比如在包含三種類型節點的引文網絡ACM中,只有paper節點含有原始屬性,author和subject節點沒有屬性。不同于同構網絡中某些結點的屬性缺失或節點屬性在某些維度上的缺失,異質網絡中的屬性缺失程度更大、更為復雜。已有的一些異質網絡表示學習方法主要針對模型的改進來提高算法性能,對于屬性的缺失采用一些簡單的手工插補方法(例如平均插補、one-hot向量插補)進行補全。這些方法將屬性補全與圖表示學習過程分開,忽略了準確的屬性對于下游任務的重要性,因此很難使用簡單插補后的屬性來保證模型的性能。實際上,準確的輸入是任何模型實現性能提升的基礎,在異質網絡更為復雜的屬性缺失情況下,準確的屬性變得更為重要。
因此,本文認為與設計新的模型相比,科學準確地補全缺失的屬性應該成為異質網絡分析任務的另一個重要研究方向,并且屬性補全和模型設計可以相互增強。基于此,本文提出以可學習的方式來補全缺失的屬性,并通過采用屬性補全與圖神經網絡模型相互增強的模式來構建一個針對屬性缺失異質網絡的異質圖神經網絡通用框架(HGNN-AC)。
HGNN-AC共包含四個關鍵設計:基于拓撲結構的先驗知識預學習、基于注意力機制的屬性補全、弱監督重構損失的設計和端到端模型的構建。本文在三個真實世界的異質網絡上進行了大量的實驗,結果表明所提出的框架優于最新的基準。
近年來,圖已經成為表示各種真實世界數據集的抽象。作為一種圖結構數據進行機器學習的新興工具,圖神經網絡(GNN)通過遞歸聚合相鄰節點的內容(即特征或嵌入)來學習強大的圖表示,從而保留內容和結構信息。它們已被證明可以提高各種圖應用程序的性能,如節點和圖分類、推薦系統和圖生成。一般來說,GNN模型是使用(半)監督信息端到端的方式進行訓練的,不同的下游任務需要大量不同的標記數據。然而,在大多數現實場景中,大量的標記數據通常代價高昂。為了充分利用未標記的圖結構數據,最近部分工作從最近一些自然語言處理和計算機視覺中的預訓練技術中獲得了靈感,并提出在圖上進行預訓練的GNN模型。雖然這些GNN預訓練方法取得了很好的性能,但它們都是針對同構圖進行設計,其中每個節點或邊都屬于同一類型。相比之下,現有策略忽略了異構圖,其中多種類型的節點通過不同類型的邊相互作用。
現實生活中的網絡可以構成異構圖,這些圖體現了豐富的語義并組成由多種類型的節點和邊產生的獨特結構。如圖1(a)所示,為書目數據構建了一個簡單異構圖,該圖由作者、論文、會議和術語類型的節點以及作者論文、論文會議和論文術語類型的邊組成。不同類型的節點或邊通常表現出不同的網絡屬性,如度和聚類系數。例如,會議節點通常比作者節點具有更高的度。此外,這種異構性還產生了更復雜的語義上下文,涉及到多個節點之間的多方關系,例如,描述了“同一作者關于相似主題的兩篇論文”的語義語境。除了簡單的示例之外,異構圖在很多領域中也普遍存在,例如在用戶、產品、品牌和商店以各種方式交互的電子商務中,以及在疾病、蛋白質和藥物相互關聯的生物學中。考慮到它們的普遍性,為異構圖設計有效的GNN預訓練策略變得很重要。
在本文中,我們提出了一個對比預訓練的方案,它不僅考慮單個節點之間的差異,還保留了多個節點之間的高階語義。更具體的說,本文設計了一個預訓練任務來區分不同類型的兩個節點之間的關系類型(比如,作者-論文和論文-會議關系)來為下游任務編碼統一的基礎。受對比學習[42]的啟發,為了增強樣本的代表性,本文從兩個方面構造負關系級樣本:(1)來自不一致關系的負樣本,其中兩個節點與正樣本是不同的關系;(2)來自不相關節點的負樣本,其中兩個節點在圖中根本沒有鏈接。同時,本文提出了一個異構圖上的子圖級預訓練任務,使用元圖而不是元路徑來生成子圖實例進行對比學習,因此能夠對不同上下游任務相關的高階語義進行信息編碼。
//doi.org/10.1145/3459637.3482485
由多種類型的節點和鏈接組成的異質圖 (HG) 可以表征各種現實世界中的復雜系統。最近,異質圖神經網絡(HGNNs)作為一種強大的圖表示方法來聚合異質結構和屬性信息,贏得了很多關注。盡管 HGNNs 捕獲豐富語義的能力可以揭示節點不同方面,但它們仍然停留在簡單地利用結構特征的粗粒度級別。事實上,節點豐富的非結構化文本內容也承載著由多方面主題感知因素所產生的潛在但更細粒度的語義,這從根本上體現了不同類型的節點會進行鏈接并形成特定的異質結構的原因。然而,很少有人致力于對它們進行區分。 在本文中,我們提出了一個用于鏈接預測的主題感知異質圖神經網絡,命名為 THGNN,來層次性地挖掘主題感知語義并用于學習 HGs 中鏈接預測的多方面節點表示。具體來說,我們的模型主要應用了一種交替的兩步聚合機制,包括元路徑內分解和元路徑間合并,可以根據所推斷的主題感知因素有區分性地聚合豐富的異質信息,從而保留層次性語義。此外,還設計了一個主題先驗指導模塊,從而依靠來自 HGs 中非結構化文本內容的全局知識來保持多方面主題感知表示的質量,這有助于同時提高性能和可解釋性。在三個真實世界的 HGs上的實驗結果表明,我們提出的模型在鏈接預測任務中可以有效地優于最先進的方法,并展示了學習的多方面主題感知表示的潛在可解釋性。
在圖數據挖掘任務中,對于特定任務,有標簽的數據通常十分稀少,然而現實中存在著大量無標簽的數據。
因此,如何通過預訓練從這些標簽數據中獲取有用的先驗知識,從而提升下游任務的表現成為了一個有價值的問題。我們本篇工作提出了一種在大規模異質圖上進行高效預訓練的框架。
近年來,圖神經網絡作為圖結構數據學習的重要方法,可以通過遞歸的從鄰居聚合消息(特征和節點表示)來學習到有效的圖表示。但是圖神經網絡通常需要大量的有標簽數據來取得令人滿意的表現。為了解決標簽稀疏的問題,一些工作提出了基于自監督的方法來從無標簽的數據中提取先驗知識。然而,現有的預訓練框架都是基于同質圖的,但現實生活中的交互系統通常都是有多種類型節點和邊的大規模的異質圖。因此,在我們設計預訓練模型的時候遇到了如下兩個挑戰。
如何捕捉異質圖的語義和結構性質 相比同質圖,異質圖具有更豐富的語義和結構信息。不同類型的節點通常有不同的圖結構性質(例如會議節點的度要普遍高于其他類型的節點)。不同類型的連邊通常有不同的語義關系。因此為了有效的預訓練,我們需要捕捉這些信息。
如何在大規模異質圖上高效預訓練一個 GNN
現實生活中的異質圖可以擁有數十億的節點和邊。為了可以在這樣這樣大規模的圖上進行預訓練,我們需要設計一種加速策略來保證我們在大規模異質圖上的預訓練效率。
為了解決上述的兩個問題,我們提出了 PTHGNN 來進行大規模異質圖上的預訓練。對于第一個挑戰,基于對比學習,我們提出了節點級別和網絡模式級別的預訓練任務來捕捉異質圖的語義和結構信息。對于第二個挑戰,我們提出了基于 personalized pagerank 的邊稀疏化方法,從而來提高我們進行大規模預訓練的效率。
從圖結構數據中學習節點集的結構表示對于從節點角色發現到鏈接預測和分子分類的各種應用至關重要。圖神經網絡(GNNs)在結構表示學習方面取得了巨大的成功。然而:
大多數 GNN 受到 1-Weisfeiler-Lehman(WL)test 的限制,因此有可能為實際上不同的結構和圖形生成相同的表示。 最近通過模仿高階 WL tests 提出的更強大的 GNN 只關注全圖表示,不能利用圖結構的稀疏性來提高計算效率。 這篇文章提出了一類與結構相關的特征,稱為距離編碼(Distance Encoding,DE),以幫助 GNN 以比 1-WL test 更嚴格的表達能力來表示任意大小的節點集。DE 本質上捕獲了要學習表示的節點集與圖中每個節點之間的距離,其中包括與圖相關的重要度量,如最短路徑距離和廣義 PageRank 得分。
此外,此文還提出了兩個通用的 GNNs 框架來使用 DEs:
作為額外的節點屬性 進一步作為 GNNs 中消息聚合的控制器 這兩個框架仍然可以利用稀疏結構來保持處理大型圖的可擴展性。
理論上,作者證明了這兩個框架可以區分傳統 GNN 經常失效的幾乎所有規則圖中嵌入的節點集。還嚴格分析了它們的局限性。 實驗上,作者在6個真實網絡上分別從節點結構角色預測、鏈路預測和三角形預測三個方面對這兩個框架進行了實證評估。 結果表明,DE-assisted GNNs 的平均準確率比沒有 DEs 的 GNNs 提高了15%,DE-assisted GNNs 的性能也明顯優于專門為這些相應任務設計的其他最先進的基線。
大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。