作者 | 黃 鋒
審核 | 付海濤
?今天給大家介紹清華大學計算機科學與技術系唐杰教授課題組發表于KDD 2022上的論文“GraphMAE: Self-Supervised Masked Graph Autoencoders”。這篇論文將掩碼自編碼器MAE引入到graph領域中,在涉及三個圖學習任務的21個數據集上執行了大量的實驗,實驗結果表明在圖自編碼器上一點簡單的改進能夠產生超越最近的對比式和生成式自監督的SOTA性能。
? 生成式自監督模型在NLP和CV領域得到廣泛應用,而在graph領域對比學習占據主導地位,不論是節點分類還是圖分類任務,生成式自監督的性能都被對比學習甩“幾條街”。雖然如此,對比學習卻有著致命缺陷,它要么過度依賴于數據增廣,要么需要使用負采樣、動量更新或指數滑動平均等策略來避免訓練時陷入平凡解。而生成式自監督,特別是圖自編碼器通常目標是重建圖自身的節點特征或結構信息,則會完全規避對比學習的局限。本文發現利用圖自編碼器,稍加改進,僅僅重建節點特征便能夠獲得優越的性能。GraphMAE的改進如下圖所示: ?
概括地講,改進主要是四點:1,掩碼特征重建,不重建邊;2,不同于大多數圖自編碼器使用的均方誤差,GraphMAE使用縮放余弦誤差作為損失函數;3,將編碼器輸出的嵌入重新掩碼后再輸入到解碼器中;4,比起大多數圖自編碼器的解碼器用多層感知機,GraphMAE的解碼器使用圖神經網絡。 ?GraphMAE在無監督節點分類、無監督圖分類以及在分子性質預測上的遷移學習三個任務共21個數據集上取得了與對比學習差不多,甚至是更好的效果。
? 給定一個屬性圖,輸入到編碼器前對進行類似BERT中的掩碼操作,具體來說,GraphMAE是隨機選取一個節點子集,將這些節點的特征替換成一個可學習的向量:
? 設經過編碼器得到的編碼,繼續對先前選取的那部分節點重新掩碼,即替換為: 使用圖神經網絡作為解碼器,希望其能從未掩碼的部分編碼恢復成節點特征。
?不同于大多數圖自編碼器模型使用的均方誤差,GraphMAE使用縮放余弦誤差,假設由編碼器恢復的節點特征為,縮放余弦誤差定義為:
?三種任務:1)無監督節點分類;2)無監督圖分類;3)分子性質預測的遷移學習 ?下表是節點分類任務上的結果。首先是無監督的學習,接著固定編碼器參數得到節點的嵌入,用節點嵌入訓練一個線性分類器,列出20次隨機初始化的平均結果。編碼器和解碼器都用的是標準的圖注意力網絡。更多細節參看原文。
?下表是圖分類任務上的結果。首先無監督訓練,得到節點嵌入后經過一個無參數的池化操作得到圖級表達,接著訓練LIBSVM作為分類器,列出5次十折交叉驗證的平均結果。編碼器和解碼器都是用的圖同構網絡。更多細節參看原文。
?下表是分子性質預測的結果。首先在大數據集上無監督訓練,接著在小數據上微調。更多細節參看原文。
更多實驗結果請參看原文
自監督學習(Self-supervised learning, SSL)是近年來的研究熱點。特別是,生成式SSL已經在自然語言處理和其他領域取得了成功,例如BERT和GPT的廣泛采用。盡管如此,對比學習(嚴重依賴結構化數據增強和復雜的訓練策略)一直是圖SSL的主要方法,而在圖上生成SSL的進展,特別是圖自編碼器(GAEs),迄今尚未達到其他領域所承諾的潛力。在本文中,我們識別并研究了對GAEs發展產生負面影響的問題,包括它們的重建目標、訓練魯棒性和誤差度量。我們提出了一個掩碼圖自編碼器GraphMAE,它緩解了生成式自監督圖學習的這些問題。而不是重建結構,我們建議集中在特征重建與掩蔽策略和縮放余弦誤差,有利于GraphMAE的魯棒訓練。我們在21個公共數據集上進行了廣泛的實驗,用于三種不同的圖學習任務。結果表明,GraphMAE—一個經過我們精心設計的簡單圖自編碼器—能夠始終如一地生成優于對比基線和生成基線的性能。本研究提供了對圖自動編碼器的理解,并展示了在圖上生成式自監督學習的潛力。
Code://github.com/Shen-Lab/GraphCL Paper:
對于當前的圖神經網絡(GNNs)來說,圖結構數據的可泛化、可遷移和魯棒表示學習仍然是一個挑戰。與為圖像數據而開發的卷積神經網絡(CNNs)不同,自監督學習和預訓練很少用于GNNs。在這篇文章中,我們提出了一個圖對比學習(GraphCL)框架來學習圖數據的無監督表示。我們首先設計了四種類型的圖擴充來包含不同的先驗。然后,我們在四種不同的環境下系統地研究了圖擴充的各種組合對多個數據集的影響:半監督、無監督、遷移學習和對抗性攻擊。結果表明,與最先進的方法相比,即使不調優擴展范圍,也不使用復雜的GNN架構,我們的GraphCL框架也可以生成類似或更好的可泛化性、可遷移性和健壯性的圖表示。我們還研究了參數化圖增強的范圍和模式的影響,并在初步實驗中觀察了性能的進一步提高。