題目:GNEG:Graph-Based Negative Sampling for word2vec
論文摘要; 負抽樣是分布式詞表示學習的一個重要組成部分。我們假設,考慮全局的語料庫級信息,為每個目標詞生成不同的噪聲分布,比原始的基于頻率的分布更能滿足每個訓練詞的反例要求。為此,我們從語料庫中預先計算單詞的共現統計量,并將其應用于隨機游走等it網絡算法中。我們通過一系列實驗驗證了這一假設,實驗結果表明,我們的方法將單詞類比任務提高了約5%,并將單詞相似性任務的性能提高了約1%。
題目: Adaptive Graph Encoder for Attributed Graph Embedding
簡介: 從圖拓撲和節點特征中學習向量表示的屬性圖嵌入是圖分析的一項艱巨任務。近年來,基于圖卷積網絡(GCN)的方法在此任務上取得了很大的進步。但是,現有的基于GCN的方法具有三個主要缺點。首先,我們的實驗表明圖卷積濾波器和權重矩陣的糾纏將損害性能和魯棒性。其次,我們證明了這些方法中的圖卷積濾波器是廣義拉普拉斯平滑濾波器的特例,但它們并未保留最佳的低通特性。最后,現有算法的訓練目標通常是恢復與現實應用并不總是一致的鄰接矩陣或特征矩陣,為了解決這些問題,我們提出了一種新型的屬性圖嵌入框架Adaptive Graph Encoder(AGE)。 AGE由兩個模塊組成:(1)為了更好地減輕節點特征中的高頻噪聲,AGE首先應用了精心設計的拉普拉斯平滑濾波器。 (2)AGE采用了自適應編碼器,該編碼器迭代地增強了濾波后的特征,以實現更好的節點嵌入。我們使用四個公共基準數據集進行實驗,以驗證AGE在節點群集和鏈接預測任務上的作用。實驗結果表明,AGE在這些任務上始終優于最新的圖形嵌入方法。
圖表示學習近年來得到了廣泛的研究。盡管它在為各種網絡生成連續嵌入方面具有潛力,但針對大量節點推斷高質量表示的有效性和效率仍然具有挑戰性。采樣是實現性能目標的關鍵。現有技術通常集中于正節點對的抽樣,而對負節點對的抽樣策略卻沒有進行充分的探索。為了彌補這一差距,我們從目標和風險兩個角度系統地分析了負抽樣的作用,從理論上論證了負抽樣與正抽樣在確定優化目標和由此產生的方差方面同樣重要。據我們所知,我們是第一個推導出負抽樣分布應該與正抽樣分布呈正相關但亞線性相關的理論并進行量化的工作。在該理論的指導下,我們提出了MCNS,用自對比近似逼近正分布,用Metropolis-Hastings加速負抽樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了廣泛的下游圖數據學習任務,包括鏈接預測、節點分類和個性化推薦,總共有19個實驗設置。這些較為全面的實驗結果證明了其魯棒性和優越性。
主題: Understanding Negative Sampling in Graph Representation Learning
摘要: 在最近的幾年中,研究人員對圖形表示學習進行了廣泛的研究。盡管它具有為各種網絡生成連續嵌入的潛力,但推斷向大型節點集表示高質量表示的有效性和效率仍然具有挑戰性。采樣是實現性能目標的關鍵點。現有技術通常集中于對正節點對進行采樣,而對負采樣的策略還沒有得到足夠的研究。為了彌合差距,我們從客觀和風險兩個角度系統地分析了負樣本的作用,從理論上證明了負樣本在確定優化目標和結果方差方面與正樣本同等重要。據我們所知,我們是第一個推導該理論并量化負采樣分布應與其正采樣分布呈正相關但與子線性相關的方法。在該理論的指導下,我們提出了MCNS,用Metropolis-Hastings用自對比度逼近來近似正分布,并加速Metropolis-Hastings進行負采樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了19個實驗設置,涵蓋了廣泛的下游圖形學習任務,包括鏈接預測,節點分類和個性化推薦。這些相對全面的實驗結果證明了其魯棒性和優越性。
題目: Composition-Based Multi-Relational Graph Convolutional Networks
摘要: 圖卷積網絡(GCNs)最近被證明在對圖結構數據建模方面是非常成功的。然而,主要的重點是處理簡單的無向圖。多關系圖是一種更為普遍和流行的圖,其中每條邊都有一個與之相關的標簽和方向。現有的大多數處理此類圖的方法都存在參數過多的問題,并且僅限于學習節點的表示形式。在本文中,我們提出了一種新的圖卷積框架COMP-GCN,它將節點和關系共同嵌入到一個關系圖中。COMP-GCN利用知識圖譜嵌入技術中的各種實體關系組合操作,并根據關系的數量進行擴展。它還概括了幾種現有的多關系GCN方法。我們評估了我們提出的方法在多個任務,如節點分類,鏈接預測,和圖分類,并取得了明顯的結果。
機器學習的許多應用都需要一個模型來對測試樣本做出準確的預測,這些測試樣本在分布上與訓練示例不同,而在訓練期間,特定于任務的標簽很少。應對這一挑戰的有效方法是,在數據豐富的相關任務上對模型進行預訓練,然后在下游任務上對其進行微調。盡管預訓練在許多語言和視覺領域都是有效的,但是如何在圖數據集上有效地使用預訓練仍是一個有待解決的問題。本文提出了一種新的圖神經網絡訓練策略和自監督方法。我們的策略成功的關鍵是在單個節點以及整個圖的層次上預訓練一個具有強表示能力的GNN,以便GNN能夠同時學習有用的局部和全局表示。我們系統地研究了多類圖分類數據集的預處理問題。我們發現,在整個圖或單個節點級別上對GNN進行預訓練的樸素策略改進有限,甚至可能導致許多下游任務的負遷移。相比之下,我們的策略避免了負遷移,顯著提高了下游任務的泛化能力,使得ROC-AUC相對于未經訓練的模型提高了9.4%,實現了分子特性預測和蛋白質功能預測的最好性能。
Knowledge Graph (KG) embedding is a fundamental problem in data mining research with many real-world applications. It aims to encode the entities and relations in the graph into low dimensional vector space, which can be used for subsequent algorithms. Negative sampling, which samples negative triplets from non-observed ones in the training data, is an important step in KG embedding. Recently, generative adversarial network (GAN), has been introduced in negative sampling. By sampling negative triplets with large scores, these methods avoid the problem of vanishing gradient and thus obtain better performance. However, using GAN makes the original model more complex and hard to train, where reinforcement learning must be used. In this paper, motivated by the observation that negative triplets with large scores are important but rare, we propose to directly keep track of them with the cache. However, how to sample from and update the cache are two important questions. We carefully design the solutions, which are not only efficient but also achieve a good balance between exploration and exploitation. In this way, our method acts as a "distilled" version of previous GA-based methods, which does not waste training time on additional parameters to fit the full distribution of negative triplets. The extensive experiments show that our method can gain significant improvement in various KG embedding models, and outperform the state-of-the-art negative sampling methods based on GAN.