網絡嵌入在社交推薦和網絡分析中得到了廣泛的應用,如推薦系統、圖異常檢測等。然而,以前的大多數方法不能有效地處理大型圖,這是由于(i)圖上的計算通常是昂貴的,(ii)圖的大小或向量的中間結果可能是非常大的,導致要在一臺機器上處理。本文利用Apache Spark提出了一種高效的大型圖上網絡嵌入的分布式算法,該算法將一個圖遞歸地劃分為若干個小的子圖來捕獲節點的內部和外部結構信息,然后并行計算每個子圖的網絡嵌入。最后,通過聚合所有子圖上的輸出,以線性代價得到節點的嵌入。在那之后,我們在各種實驗中證明了我們提出的方法能夠在幾個小時內處理擁有數十億條邊的圖,并且比最先進的方法至少快4倍。在鏈路預測和節點分類任務方面分別提高了4.25%和4.27%。最后,我們將所提出的算法應用于騰訊的兩款網絡游戲中,分別應用好友推薦和項目推薦,在運行時間上提高了競爭者高達91.11%,在相應的評價指標上提高了12.80%。
類別特征(如用戶/商品id)的嵌入學習是矩陣分解和神經協同過濾等各種推薦模型的核心。標準方法創建一個嵌入表,其中每一行代表每個唯一特征值的專用嵌入向量。然而,這種方法不能有效地處理現實世界推薦系統中普遍存在的高基數特征和不可見特征值(如新視頻ID)。在本文中,我們提出了一種替代的嵌入框架深度哈希嵌入(Deep Hash embedding, DHE),用一個深度嵌入網絡代替嵌入表來動態計算嵌入。DHE首先通過多個哈希函數和變換將特征值編碼為唯一的標識向量,然后應用DNN將標識向量轉換為嵌入。編碼模塊具有確定性、不可學習性、無存儲性,而在訓練時更新嵌入網絡以學習生成嵌入。實驗結果表明,DHE在模型尺寸較小的情況下,實現了與標準的一次性全嵌入相比較的AUC。我們的工作為不使用嵌入表查找的基于DNN的分類特征替代嵌入方案的設計提供了思路。
在許多數據科學應用中,如推薦系統、在線廣告、醫療等,對表格數據進行預測是一項重要的任務。表格數據被結構成行和列,每一行作為數據樣本,每一列作為特性屬性。表格數據的列和行都帶有可以提高模型預測性能的有用模式。然而,大多數現有模型關注的是跨列模式,而忽略了跨行模式,因為它們獨立處理單個樣本。在這項工作中,我們提出了一個通用的學習框架,名為檢索與交互機(RIM),它充分利用表格數據中的橫行和橫列模式。具體來說,RIM首先利用搜索引擎技術高效地檢索表中有用的行來輔助目標行標簽預測,然后利用特征交互網絡捕捉目標行與被檢索行之間的跨列模式,從而做出最終的標簽預測。我們對三個重要任務的11個數據集進行了廣泛的實驗,即CTR預測(分類)、top-n推薦(排名)和評分預測(回歸)。實驗結果表明,RIM在不同的基準上取得了顯著的改進,證明了RIM的優越性和有效性。
在圖數據挖掘任務中,對于特定任務,有標簽的數據通常十分稀少,然而現實中存在著大量無標簽的數據。
因此,如何通過預訓練從這些標簽數據中獲取有用的先驗知識,從而提升下游任務的表現成為了一個有價值的問題。我們本篇工作提出了一種在大規模異質圖上進行高效預訓練的框架。
近年來,圖神經網絡作為圖結構數據學習的重要方法,可以通過遞歸的從鄰居聚合消息(特征和節點表示)來學習到有效的圖表示。但是圖神經網絡通常需要大量的有標簽數據來取得令人滿意的表現。為了解決標簽稀疏的問題,一些工作提出了基于自監督的方法來從無標簽的數據中提取先驗知識。然而,現有的預訓練框架都是基于同質圖的,但現實生活中的交互系統通常都是有多種類型節點和邊的大規模的異質圖。因此,在我們設計預訓練模型的時候遇到了如下兩個挑戰。
如何捕捉異質圖的語義和結構性質 相比同質圖,異質圖具有更豐富的語義和結構信息。不同類型的節點通常有不同的圖結構性質(例如會議節點的度要普遍高于其他類型的節點)。不同類型的連邊通常有不同的語義關系。因此為了有效的預訓練,我們需要捕捉這些信息。
如何在大規模異質圖上高效預訓練一個 GNN
現實生活中的異質圖可以擁有數十億的節點和邊。為了可以在這樣這樣大規模的圖上進行預訓練,我們需要設計一種加速策略來保證我們在大規模異質圖上的預訓練效率。
為了解決上述的兩個問題,我們提出了 PTHGNN 來進行大規模異質圖上的預訓練。對于第一個挑戰,基于對比學習,我們提出了節點級別和網絡模式級別的預訓練任務來捕捉異質圖的語義和結構信息。對于第二個挑戰,我們提出了基于 personalized pagerank 的邊稀疏化方法,從而來提高我們進行大規模預訓練的效率。
推薦系統(RS)采用知識蒸餾,這是一種模型壓縮技術,用從預訓練的大型教師模型遷移的知識來訓練緊湊的學生模型。最近的研究表明,從教師的中間層遷移知識顯著提高了學生的推薦質量。但是,它們是逐點遷移個體表示的知識,因此存在一個局限,即RS的主要信息在于表示空間中的關系。本文提出了一種新的拓撲蒸餾方法,通過將建立在教師空間關系上的拓撲結構傳遞給學生來指導學生進行拓撲蒸餾。我們首先觀察到,簡單地讓學生學習整個拓撲結構并不總是有效的,甚至會降低學生的表現。我們證明,因為與老師相比,學生的能力是非常有限的,學習整個拓撲結構對學生來說是令人生畏的。為了解決這一問題,我們提出了一種新的分層拓撲蒸餾(HTD)方法,該方法可以分層地對拓撲進行蒸餾,以應對較大的容量缺口。我們在真實數據集上的大量實驗表明,提出的方法明顯優于先進的競爭對手。我們還提供了深入的分析,以確定提取RS拓撲的好處。
圖神經網絡(GNN)是一類基于深度學習的處理圖域信息的方法,它通過將圖廣播操作和深度學習算法結合,可以讓圖的結構信息和頂點屬性信息都參與到學習中,在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性,已成為一種廣泛應用的圖分析方法.然而現有主流的深度學習框架(如Tensorflow、PyTorch等)沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持,這限制了圖神經網絡算法在大規模圖數據上的應用.目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點,探索了大規模圖神經網絡系統的設計和實現方案.本文首先對圖神經網絡的發展進行簡要概述,總結了設計圖神經網絡系統需要面對的挑戰;隨后對目前圖神經網絡系統的工作進行介紹,從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析;最后使用部分已開源的圖神經網絡系統進行實驗評估,從精確度、性能、擴展性等多個方面驗證這些系統的有效性.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311
題目: 圖神經網絡的無冗余計算 會議: KDD2020 論文地址: //dl.acm.org/doi/abs/10.1145/3394486.3403142 推薦理由: 對于圖神經網絡中重復信息的聚合,這篇文章提出了一種簡單有效的層次化聚合的方法(HAG),用于層次化管理中間結果并減少圖神經網絡在訓練和推斷過程中重復計算。HAG 能夠保證在計算層次化聚合的過程中,可以使用更少的時間用于訓練并且得到的結果和傳統的圖神經網絡模型一致。
GNN在單層中基于遞歸鄰域聚合方案,每個節點聚合其鄰居的特征,并使用聚合值更新其自身的特征。這樣遞歸地傳播多次(多層),最后,GNN中的每個節點都會從其k階網絡鄰居中的其他節點收集信息。最后GNN層的激活然后被用于下游預測任務,例如節點分類、圖分類或鏈路預測。然而,如何設計一個能夠有效處理大規模圖數據集的GNN仍然是一個挑戰。特別的是,許多當前的工作是使用整張圖的拉普拉斯矩陣,這樣即便是對于中等規模的圖,也會面臨存儲空間的問題。GraphSAGE首次提出使用對每個獨立節點執行小圖鄰域采樣,然后再聚合這些節點的鄰域信息,但是對于單個節點進行鄰域采樣是一個高復雜度的事情,因此許多手工調整的啟發式算法被用來限制采樣復雜性并選擇鄰域圖并通過優化圖的采樣步驟來提高GNN的效率。
廣告系統的神經網絡通常從多種資源中獲取輸入,如查詢廣告相關性、廣告特征和用戶畫像。這些輸入被編碼成一個或多位熱的二進制特性,通常每個示例只有一小部分非零的特性值。在線廣告行業的深度學習模型可能有TB級的參數,這些參數既不適合GPU內存,也不適合計算節點上的CPU主內存。例如,一個贊助的在線廣告系統可以包含超過10^11個稀疏特征,使得神經網絡成為一個大約有10tb參數的大型模型。本文介紹了一種用于大規模深度學習ADS系統的分布式GPU分級參數服務器。我們提出了一種利用GPU高帶寬內存、CPU主存和SSD作為三層分層存儲的分層工作流。所有的神經網絡訓練計算都包含在GPU中。對真實數據的大量實驗證實了該系統的有效性和可擴展性。在MPI集群中,一個4節點的層次化GPU參數服務器可以比內存中150節點的分布式參數服務器多訓練2倍以上的模型。此外,我們提出的系統的性價比是MPI-cluster解決方案的4-9倍。
大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。