亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖表示學習

近年來,圖神經網絡(GNNs)在結構化數據建模方面取得了巨大的成功。然而,大多數GNN是為同構網絡設計的,即所有節點或邊具有相同的特征空間和表示分布。這使得它們無法代表真實世界中不斷演化的異構圖,如知識圖譜、物聯網圖、領英經濟圖、開放學術圖和Facebook實體圖。在這次演講中,我將介紹圖神經網絡架構,它可以建模十億年規模的異構圖形與動態。重點將是我們如何設計圖注意力和相對時間編碼機制,以捕獲真實圖異構和動態性質。接下來,我將進一步討論為一般的圖挖掘任務預先訓練這類GNN的策略。最后,為了處理web規模的數據,我將介紹一種異構的小型批處理圖采樣算法,該算法帶有一個歸納的時間戳分配方法,用于高效和可擴展的訓練。大量的實驗顯示了在實踐中對網絡規模圖進行預訓練的GNNs的前景。

//ericdongyx.github.io/papers/slides-Graph-Rep-Learning-GNN-PreTraining-at-CCF-BAAI-2020.pdf

付費5元查看完整內容

相關內容

圖表示學習是2018年火爆全球的一個深度學習方向,從以 Line, meta-path 等為首的節點表示學習,到以 GCN,GraphSAGE,為首的圖卷積方法,在到近期的以 GraphVAE 為首的生成圖模型,圖表示學習方向的文章如過江之鯽。

如今,網絡越來越大,越來越復雜,應用越來越廣泛。眾所周知,網絡數據是復雜和具有挑戰性的。要有效地處理圖數據,第一個關鍵的挑戰是網絡數據表示,即如何正確地表示網絡,使模式發現、分析和預測等高級分析任務在時間和空間上都能有效地進行。在這次演講中,我將介紹網絡嵌入和GCN的最新發展趨勢和最新進展,包括解糾纏GCN、抗攻擊GCN以及用于網絡嵌入的自動機器學習。

//tcci.ccf.org.cn/conference/2020/dldoc/tutorial_3.pdf

付費5元查看完整內容

//www.aminer.cn/grla_ecmlpkdd2020

圖表示學習為挖掘和學習網絡數據提供了一個革命性的范例。在本教程中,我們將系統地介紹網絡上的表示學習。我們將以阿里巴巴、AMiner、Microsoft Academic、微信和XueTangX的行業案例作為教程的開始,來解釋網絡分析和網絡圖挖掘如何從表示學習中受益。然后,我們將全面介紹圖表示學習的歷史和最新進展,如網絡嵌入、圖神經網絡及其預訓練策略。獨特的是,本教程旨在向讀者提供圖形表示學習的基本理論,以及我們在將這方面的研究轉化為工業應用中的實際應用方面的經驗。最后,我們將為開放和可重現的圖表示學習研究發布公共數據集和基準。

付費5元查看完整內容

簡介

本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。

背景:預訓練

機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。

為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。

在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。

受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。

GPT-GNN模型

要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?

本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。

由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。

在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,

在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。

我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。

為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。

實驗

我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。

第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。

總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。

我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。

付費5元查看完整內容

我們討論關于圖神經網絡(GNNs)的兩個基本問題。首先,我們證明了幾個重要的圖屬性是不能由完全依賴于局部信息的GNN計算的。這樣的GNN包括標準的消息傳遞模型,以及更強大的空間變體,利用本地圖結構(例如,通過消息的相對方向,或本地端口排序)來區分每個節點的鄰居。我們的處理包括一種新的圖論形式主義。其次,我們為消息傳遞GNN提供了第一個依賴數據的泛化邊界。該分析明確地說明了GNN的局部置換不變性。我們的邊界比現有的基于VC維的GNN保證更緊,并且可與遞歸神經網絡的Rademacher邊界相媲美。

付費5元查看完整內容

圖表示學習已經成為解決現實問題的一種強大的技術。節點分類、相似度搜索、圖分類和鏈接預測等各種下游圖學習任務都受益于它的最新發展。然而,現有的圖表示學習技術側重于特定領域的問題,并為每個圖訓練專用的模型,這些模型通常不能轉移到域外數據。受最近自然語言處理和計算機視覺的預訓練進展的啟發,我們設計了圖對比編碼(GCC)——一種無監督圖表示學習框架——來捕獲跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡中或跨網絡的子圖級實例識別,并利用對比學習來授權模型學習內在的和可轉移的結構表示。我們對三個圖學習任務和十個圖數據集進行了廣泛的實驗。結果表明,在一組不同的數據集上進行預訓練的GCC可以取得與任務相關的從零開始訓練的GCC具有競爭力或更好的性能。這表明,預訓練和微調范式為圖表示學習提供了巨大的潛力。

//arxiv.org/abs/2006.09963

付費5元查看完整內容

摘要 近年來,使用結構化數據建模的圖神經網絡(GNNs)取得了巨大的成功。然而,大多數的GNN都是針對同構圖設計的,在同構圖中,所有的節點和邊都屬于同一種類型,使得它們無法表示異構結構。在這篇論文中,我們提出了一種異構圖 Transformer(HGT)結構來對web級的異構圖進行建模。為了對異構性進行建模,我們設計了節點類型和邊類型的相關參數來描述每個邊上的異構注意力程度,從而使HGT能夠維護不同類型節點和邊的特定表示。為了處理動態異構圖,我們在HGT中引入了相對時間編碼技術,該技術能夠捕獲具有任意持續時間的動態結構依賴關系。針對網絡規模圖數據的處理問題,設計了高效、可擴展的小批量圖數據采樣算法HGSampling。在擁有1.79億個節點和20億個邊的開放學術圖上進行的大量實驗表明,所提出的HGT模型在各種下游任務上的性能始終比所有最先進的GNN基線高9-21%。

關鍵詞:圖神經網絡;異構信息網絡;表示學習;圖嵌入;圖注意力

介紹

異構圖通常對復雜的系統進行抽象和建模,其中不同類型的對象以各種方式相互交互。此類系統的一些常見實例包括學術圖、Facebook實體圖、LinkedIn經濟圖,以及廣泛的物聯網網絡。例如,圖1中的開放學術圖(OAG)[28]包含五種類型的節點:論文、作者、機構、場所(期刊、會議或預印本)和字段,以及它們之間不同類型的關系。

在過去的十年中,人們對異構圖[17]的挖掘進行了大量的研究。其中一個經典的范例就是定義和使用元路徑來對異類結構進行建模,例如PathSim[18]和變元ath2vec[3]。最近,鑒于圖神經網絡(GNNs)的成功[7,9,22],[14,23,26,27]嘗試采用GNNs來學習異構網絡。然而,這些工作面臨著幾個問題:首先,它們大多涉及到為每種類型的異構圖設計元路徑,這需要特定的領域知識;其次,它們要么簡單地假設不同類型的節點/邊共享相同的特征和表示空間,要么為節點類型或單獨的邊類型保留不同的非共享權值,使它們不足以捕獲異類圖的屬性;三是大多忽略了每一個(異構)圖的動態性;最后,它們固有的設計和實現使得它們無法對web規模的異構圖進行建模。

以OAG為例:首先,OAG中的節點和邊可能具有不同的特征分布,如論文具有文本特征,而機構可能具有來自附屬學者的特征,共同作者明顯不同于引文鏈接;OAG一直在不斷發展,例如:1)出版物的數量每12年翻一倍[4];2)KDD會議在1990年代更多地與數據庫相關,而近年來更多地與機器學習相關;最后,OAG包含數億個節點和數十億個關系,使得現有的異構GNN無法擴展來處理它。

針對這些限制和挑戰,我們建議研究異構圖神經網絡,其目標是維護節點和邊類型依賴表示、捕獲網絡動態、避免自定義元路徑和可擴展到web級圖。在這項工作中,我們提出了異構圖 Transformer(HGT)架構來處理所有這些問題。

為了處理圖的異構性,我們引入了節點類型和邊類型依賴注意力機制。HGT中的相互注意不是對每一個類型邊參數化,而是根據其元關系三元組e=(s,t),即 s為節點類型,s與t之間的e的邊類型,t的節點類型。圖1展示了異構學術圖的元關系。具體來說,我們使用這些元關系來對權重矩陣參數化,以計算每條邊上的注意力。因此,允許不同類型的節點和邊維護其特定的表示空間。同時,不同類型的連接節點仍然可以交互、傳遞和聚合消息,而不受其分布差異的限制。由于其架構的性質,HGT可以通過跨層傳遞消息來整合來自不同類型的高階鄰居的信息,這可以看作是軟元路徑。也就是說,即使HGT只將其單跳邊作為輸入,而不需要手動設計元路徑,所提出的注意力機制也可以自動、隱式地學習和提取對不同下游任務重要的元路徑。

為了處理圖數據的動態特性,我們提出了相對時間編碼(RTE)策略來增強HGT。我們不打算將輸入圖分割成不同的時間戳,而是建議將發生在不同時間的所有邊作為一個整體進行維護,并設計RTE策略來對任何持續時間長度的結構性時間依賴關系進行建模,甚至包括不可見的和未來的時間戳。通過端到端訓練,RTE使HGT能夠自動學習異構圖的時間依賴性和演化。

為了處理網絡規模的圖形數據,我們設計了第一個用于小批量GNN訓練的異構子圖采樣算法HGSampling。它的主要思想是樣本異構子圖中不同類型的節點與類似的比例,由于直接使用現有的(均勻)GNN抽樣方法,如GraphSage [7], FastGCN[1],和LADIES[29],結果在高度不平衡的關于節點和邊緣的類型。此外,它還被設計成保持采樣子圖的密度以最小化信息的丟失。通過HGSampling,所有的GNN模型,包括我們提出的HGT,都可以在任意大小的異構圖上進行訓練和推斷。

我們證明了所提出的異構圖Transformer在網絡規模開放學術圖上的有效性和效率,該開放學術圖由1.79億個節點和20億個邊組成,時間跨度從1900年到2019年,這是迄今為止在異構圖上進行的規模最大、跨度最長的表示學習。此外,我們還檢查領域特定的圖表:計算機科學和醫學學術圖表。實驗結果表明,與最先進的GNNs和專用的異構模型相比,在下游任務中HGT可以顯著提高9-21%。我們進一步進行了案例研究,表明了所提出的方法確實能夠自動捕獲不同任務的隱式元路徑的重要性。

付費5元查看完整內容

 大量真實世界的圖或網絡本質上是異構的,涉及節點類型和關系類型的多樣性。異構圖嵌入是將異構圖的豐富結構和語義信息嵌入到低維節點表示中。現有的模型通常定義多個metapaths在異構圖捕捉復合關系和指導鄰居選擇。但是,這些模型要么忽略節點內容特性,要么沿著元路徑丟棄中間節點,要么只考慮一個元路徑。為了解決這三個局限性,我們提出了一種新的集合圖神經網絡模型來提高最終性能。具體來說,MAGNN使用了三個主要組件,即,節點內容轉換封裝輸入節點屬性,元內聚合合并中間語義節點,元間聚合合并來自多個元的消息。在三個真實世界的異構圖數據集上進行了大量的節點分類、節點聚類和鏈路預測實驗,結果表明MAGNN的預測結果比最先進的基線更準確。

付費5元查看完整內容
北京阿比特科技有限公司