對比學習(contrastive learning)是對于給定的正例樣本和負例樣本,通過讓編碼器學習如何去區分它們,從而捕捉到樣本中最具判別性的特征。因為這種隸屬于自監督學習的方式,模型框架清晰易懂,效果異常優越,受到了很多頂會論文的青睞。今天將分享兩篇KDD2020會議上的論文:一篇將對比學習應用于圖預訓練任務上;另一篇深度解析了負采樣技術在圖表示學習中的作用,能為對比學習的進一步發展帶來啟發。
GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
論文地址://arxiv.org/abs/2006.09963
本文提出了一種無監督的圖表示學習預訓練框架GCC,能夠捕捉到廣泛存在于不同圖之間的拓撲性質,并且無需輸入額外的屬性或是標簽。GCC將預訓練任務設定為在同一張圖內或不同圖之間區分子圖級別的實例,進一步利用對比學習使模型能夠學到固有的、可遷移的結構表示。最后通過一系列的實驗,驗證了pre-training & fine-tuning模式在圖表示學習中的巨大潛力。
Understanding Negative Sampling in Graph Representation Learning
論文地址:
本文分別從目標函數和風險兩個角度深刻剖析了負采樣技術在圖表示學習中起到的作用,并通過理論證明:負采樣的分布應該和正樣本分布呈正相關但是亞線性的關系。基于該理論,本文進一步提出了新的負采樣策略,即MCNS,并利用改進版的Metropolis-Hastings算法對該過程進行了加速。
我們考慮這樣一個問題:你如何為對比學習抽取好的負樣本例子?我們認為,與度量學習一樣,學習對比表示法受益于硬負樣本(即,點很難與錨點區分)。使用硬負樣本的關鍵挑戰是對比方法必須保持無監督,使得采用現有的使用標簽信息的負樣本抽樣策略不可行。作為回應,我們開發了一種新的無監督的方法來選擇硬負樣本,在那里用戶可以控制硬負樣本的數量。這種抽樣的極限情況會導致對每個類進行緊密聚類的表示,并將不同的類推到盡可能遠的地方。該方法提高了跨模態的下游性能,只需要少量的額外代碼來實現,并且沒有引入計算開銷。
本文通過新的概率建模方法,對對比學習的最新發展進行了有益的改進。我們推導了一種特殊形式的對比損失,稱為聯合對比學習(JCL)。JCL隱含地涉及到同時學習無限數量的查詢鍵對,這在搜索不變特征時帶來了更嚴格的約束。我們推導了這個公式的上界,它允許以端到端訓練的方式進行解析解。雖然JCL在許多計算機視覺應用程序中實際上是有效的,但我們也從理論上揭示了控制JCL行為的某些機制。我們證明,提出的公式具有一種內在的力量,強烈支持在每個實例特定類內的相似性,因此在搜索不同實例之間的區別特征時仍然具有優勢。我們在多個基準上評估這些建議,證明了對現有算法的相當大的改進。代碼可以通過以下網址公開獲得
圖神經網絡在處理基于圖數據問題方面取得了巨大的成功,受到了廣泛的關注和應用。GNNs通常是基于消息傳遞的方式設計的,本質思想即迭代地聚合鄰居信息,而經過次的迭代后, 層GNNs能夠捕獲節點的K-hop局部結構,學習來自跳鄰居的信息。因此更深層的GNN就能夠訪問更多的鄰居信息,學習與建模遠距離的節點關系,從而獲得更好的表達能力與性能。而在實際在做深層GNN操作時,往往會面臨著兩類問題:1. 隨著層數的增加,GNNs的性能會大幅下降;2. 隨著層數的增加,利用GNNs進行訓練與推斷時需要的計算量會指數上升。對于第一個問題來說,現有的很多工作分析出深層GNNs性能下降的原因是受到了過平滑問題的影響,并提出了緩解過平滑的解決方案;而對于第二個問題來說,設計方案模擬深層GNNs的表現能力并減少GNNs的計算消耗也成了亟待解決的需求,比如用于實時系統的推斷。針對這兩個問題,本文將分別介紹兩個在KDD 2020上的關于深度GNNs的最新工作。
第一個工作是Research Track的《Towards Deeper Graph Neural Networks》。該工作從另一個角度去解讀深度圖神經網絡隨著層數增加性能下降的問題,認為影響性能下降的主要原因是Transformation和Propagation兩個過程的糾纏影響作用,并且基于分析結果設計了深度自適應圖神經網絡(Deep Adaptive Graph Neural Networks) 模型,能夠有效地緩解深層模型的性能快速下降問題。
第二個工作是Research Track的《TinyGNN: Learning E?icient Graph Neural Networks》。該工作嘗試訓練small GNN(淺層)去模擬Deep GNN(深層)的表達能力和表現效果,致力于應用在實時系統推斷等對推斷速度有較高要求的場景。
【導讀】ICML(International Conference on Machine Learning),即國際機器學習大會, 是機器學習領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。因疫情的影響, 今年第37屆ICML大會已于2020年7月13日至18日在線上舉行。據官方統計,ICML 2020共提交4990篇論文,接收論文1088篇,接收率為21.8%。與往年相比,接收率逐年走低。小編發現基于對比學習(Contrastive Learning)相關的paper也不少,對比學習、自監督學習等等都是今年比較火的topic,受到了很多人的關注。
為此,這期小編繼續為大家奉上ICML 2020必讀的六篇對比學習(Contrastive Learning)相關論文——SimCLR、對比多視角圖學習、對比強化學習、CPC、分解GAN、
ICML 2020 Accepted Paper: //proceedings.icml.cc/book/2020
ICML2020CI、ICML2020GNN_Part2、ICML2020GNN_Part1
1、A Simple Framework for Contrastive Learning of Visual Representations
作者:Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton
摘要:本文提出了SimCLR:一種簡單的視覺表示的對比學習(contrastive learning)框架。我們簡化了最近提出的對比自監督學習算法,并且不需要專門的體系結構或存儲庫。為了理解什么使對比預測任務能夠學習有用的表示,我們系統地研究了我們框架的主要組成部分。我們表明:(1)數據增強部分在定義有效的預測任務中起著關鍵作用;(2)在表示和對比損失之間引入可學習的非線性變換大大提高了學習表示的質量;(3)與監督學習相比,對比學習受益于更大的batch和更多的訓練。結合這些發現,我們能夠在ImageNet上顯著優于以往的自監督和半監督學習方法。在通過SimCLR學習得到的自監督表示上訓練的線性分類器達到了76.5%的TOP-1準確率,比以前的技術相對提高了7%,與監督ResNet-50的性能相當。當只對1%的標簽進行微調時,我們達到了85.8%的TOP-5準確率,在標簽減少100倍的情況下表現優于AlexNet。
代碼:
網址:
2、Contrastive Multi-View Representation Learning on Graphs
作者:Kaveh Hassani、Amir Hosein Khasahmadi
摘要:我們介紹了一種通過對比圖的結構視圖來學習節點級和圖級表示的自監督方法。我們表明,與視覺表示學習不同的是,將視圖數增加到兩個以上或對比多尺度編碼并不能提高性能,并且通過對比來自一階鄰居的編碼和圖擴散( graph diffusion)可以獲得最佳性能。在線性評估協議下,我們的模型在8個節點和圖分類基準上有8個取得了最新結果。例如,在CORA(節點)和Reddit-Binary(圖)分類基準上,我們達到了86.8%和84.5%的準確率,比以前的技術水平分別提高了5.5%和2.4%。與監督基線相比,我們的方法在8個基準中有4個表現優于它們。
網址:
3、CURL: Contrastive Unsupervised Representations for Reinforcement Learning
作者:Michael Laskin、Aravind Srinivas、Pieter Abbeel
摘要:我們提出了CURL—用于強化學習的對比無監督表示法。CURL使用對比學習從原始像素中提取高層特征,并在提取的特征之上執行非策略控制。在DeepMind Control Suite和Atari Games的復雜任務上,無論是基于模型的方法還是非模型的方法,CURL的表現都優于之前基于像素的方法,在100K環境和交互步驟基準下分別顯示1.9倍和1.2倍的性能提升。在DeepMind Control Suite上,CURL是第一個幾乎與使用基于狀態特征的方法的采樣效率相當的基于圖像的算法。
代碼:
網址:
4、Data-Efficient Image Recognition with Contrastive Predictive Coding
作者:Olivier J. Hénaff、Aravind Srinivas、Jeffrey De Fauw、Ali Razavi、Carl Doersch、S. M. Ali Eslami、Aaron van den Oord
摘要:人類觀察者從少數幾個例子中可以學會識別新的圖像類別,但使用人造圖像做到這一點仍然是一個挑戰。我們假設通過表示使數據有效識別成為可能,這些表示使自然信號的可變性更加可預測。因此,我們重新改進了對比預測編碼,這是學習這種表示的一個無監督目標。此新實現產生的特征可以支持ImageNet數據集上的最新線性分類準確性。當使用深度神經網絡作為非線性分類的輸入時,這種表示允許我們使用比直接在圖像像素上訓練的分類器少2-5倍的標簽。最后,這種無監督表示大大改善了對Pascal VOC數據集上的目標檢測的遷移學習,超過了全監督預訓練的ImageNet分類器。
網址:
5、InfoGAN-CR and ModelCentrality: Self-supervised Model Training and Selection for Disentangling GANs
作者:Zinan Lin、Kiran K. Thekumparampil、Giulia Fanti1Sewoong Oh
摘要:分解(disentangled)的生成模型將潛在向量映射到目標空間,同時強制學習的潛在子集是可解釋的,并且與目標分布的不同屬性相關聯。最近的進展主要是基于變分自編碼器(VAE)的方法,而訓練分離的生成式對抗網絡(GANS)仍然是具有挑戰性的。在這項工作中,我們證明了分離的GAN面臨的主要挑戰可以通過使用自監督來緩解。我們的主要貢獻有兩個:第一,我們設計了一種新的具有自監督功能的分離GANs訓練方法。我們提出了對比正則化(contrastive regularizer)算法,它的靈感來自于一個自然的分解概念:latent traversal。這比最先進的基于VAE和GAN的方法獲得了更高的分離分數。其次,我們提出了一種稱為ModelCentrality的無監督模型選擇方案,它使用生成的合成樣本來計算模型集合的medoid(多維中值推廣)。令人驚訝的是,這種無監督的ModelCentrality能夠選擇比使用現有的監督超參數選擇技術訓練的模型性能更好的模型。將對比正則化和ModelCentrality相結合,在不需要有監督超參數選擇的情況下,大幅度地獲得了最先進的分離分數。
網址:
6、Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
作者:Tongzhou Wang、Phillip Isola
摘要:對比表示學習在實踐中取得了顯著的成功。在這項工作中,我們確定了與對比損失相關的兩個關鍵性質:(1)正對特征的對齊方式(緊密度)和(2)超球面上(歸一化)特征誘導分布的均勻性。我們證明,漸近地,對比損失優化了這些屬性,并分析了它們對下游任務的積極影響。根據經驗,我們引入了一個可優化的指標來量化每個屬性。在標準視覺和語言數據集上的大量實驗證實了指標與下游任務性能之間的強烈一致性。直接針對這兩個指標進行優化可以使下游任務的表現比對比學習更好或更高。
代碼:
網址:
簡介
本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。
背景:預訓練
機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。
為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。
在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。
受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。
GPT-GNN模型
要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?
本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。
由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。
在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,
在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。
我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。
為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。
實驗
我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。
第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。
總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。
我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。
圖表示學習已經成為解決現實問題的一種強大的技術。節點分類、相似度搜索、圖分類和鏈接預測等各種下游圖學習任務都受益于它的最新發展。然而,現有的圖表示學習技術側重于特定領域的問題,并為每個圖訓練專用的模型,這些模型通常不能轉移到域外數據。受最近自然語言處理和計算機視覺的預訓練進展的啟發,我們設計了圖對比編碼(GCC)——一種無監督圖表示學習框架——來捕獲跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡中或跨網絡的子圖級實例識別,并利用對比學習來授權模型學習內在的和可轉移的結構表示。我們對三個圖學習任務和十個圖數據集進行了廣泛的實驗。結果表明,在一組不同的數據集上進行預訓練的GCC可以取得與任務相關的從零開始訓練的GCC具有競爭力或更好的性能。這表明,預訓練和微調范式為圖表示學習提供了巨大的潛力。
圖表示學習近年來得到了廣泛的研究。盡管它在為各種網絡生成連續嵌入方面具有潛力,但針對大量節點推斷高質量表示的有效性和效率仍然具有挑戰性。采樣是實現性能目標的關鍵。現有技術通常集中于正節點對的抽樣,而對負節點對的抽樣策略卻沒有進行充分的探索。為了彌補這一差距,我們從目標和風險兩個角度系統地分析了負抽樣的作用,從理論上論證了負抽樣與正抽樣在確定優化目標和由此產生的方差方面同樣重要。據我們所知,我們是第一個推導出負抽樣分布應該與正抽樣分布呈正相關但亞線性相關的理論并進行量化的工作。在該理論的指導下,我們提出了MCNS,用自對比近似逼近正分布,用Metropolis-Hastings加速負抽樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了廣泛的下游圖數據學習任務,包括鏈接預測、節點分類和個性化推薦,總共有19個實驗設置。這些較為全面的實驗結果證明了其魯棒性和優越性。
主題: Understanding Negative Sampling in Graph Representation Learning
摘要: 在最近的幾年中,研究人員對圖形表示學習進行了廣泛的研究。盡管它具有為各種網絡生成連續嵌入的潛力,但推斷向大型節點集表示高質量表示的有效性和效率仍然具有挑戰性。采樣是實現性能目標的關鍵點。現有技術通常集中于對正節點對進行采樣,而對負采樣的策略還沒有得到足夠的研究。為了彌合差距,我們從客觀和風險兩個角度系統地分析了負樣本的作用,從理論上證明了負樣本在確定優化目標和結果方差方面與正樣本同等重要。據我們所知,我們是第一個推導該理論并量化負采樣分布應與其正采樣分布呈正相關但與子線性相關的方法。在該理論的指導下,我們提出了MCNS,用Metropolis-Hastings用自對比度逼近來近似正分布,并加速Metropolis-Hastings進行負采樣。我們在5個數據集上評估了我們的方法,這些數據集涵蓋了19個實驗設置,涵蓋了廣泛的下游圖形學習任務,包括鏈接預測,節點分類和個性化推薦。這些相對全面的實驗結果證明了其魯棒性和優越性。