近年來,知識圖譜(KG)的構建和應用得到了快速的發展。大量的KGs,如Freebase、DBpedia、YAGO和NELL,已經被創建并成功地應用于許多實際應用中,從語義解析和命名實體消歧到信息提取和問答。KG是由實體(節點)和關系(不同類型的邊)組成的多關系圖。每條邊都表示為形式(頭實體、關系、尾實體)的三個部分,也稱為事實,表示兩個實體通過特定的關系連接在一起,例如(AlfredHitchcock, DirectorOf, Psycho)。雖然在表示結構化數據方面很有效,但是這類三元組的底層符號特性通常使KGs很難操作。
為了解決這個問題,提出了一種新的研究方向——知識圖譜嵌入。關鍵思想是嵌入KG的組件,包括將實體和關系轉化為連續的向量空間,從而簡化操作,同時保留KG的原有的結構。那些實體和關系嵌入能進一步應用于各種任務中,如KG補全、關系提取、實體分類和實體解析。
圖機器學習講述關于《圖神經網絡GNN高級主題》最新課程。
近年來,一些研究人員致力于把神經網絡模型遷移到圖數據這類非歐空間數據上,提出了圖神經網絡(GNN)模型,成功應用在半監督節點分類、圖分類、推薦系統、交通預測、知識推理等任務中。本課程講述了圖神經網絡的高級主題:
圖神經網絡局限性
位置感知圖神經網絡
身份感知圖神經網絡
圖神經網絡魯棒性
問答(QA)是自然語言處理中最早的核心問題之一,并且在許多現實世界的應用(例如搜索引擎和個人助理)中發揮了重要作用。開放域問答在最近幾年重獲關注,它通常基于大量非結構化文檔的收集,旨在自動回答人類以自然語言形式提出的問題。
//web.stanford.edu/class/cs224n/index.html#schedule
業界和學界對知識圖譜的關注主要集中于兩大領域,分別是知識圖譜的構建和知識圖譜的應用。前者聚焦于通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;后者則著眼于通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務于具體行業應用。知識圖譜推理在其中發揮了重要作用,被譽為知識圖譜領域的皇冠。
CS224W圖機器學習課程講述了《知識圖譜推理》最新進展PPT。
斯坦福大學的最新課程CS224W——圖機器學習,主講人是斯坦福大牛Jure Leskovec,他是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。最新講述了關于圖神經網絡模型總結,內容包括:
知識圖譜表示學習: 從淺層嵌入到圖神經網絡
知識圖譜由于其廣泛的應用,如搜索引擎和問答系統,近年來受到了極大的關注。知識圖譜嵌入是將實體表示為低維向量,并將關系表示為低維向量上的算子,在知識推理等任務中得到了廣泛的研究和成功的應用。在本教程中,我們將介紹最新的知識圖譜表示學習技術,它包含三個部分。首先,我們將回顧通常基于淺層嵌入的知識圖譜表示技術,如TransE、DisMult和RotatE。其次,我們將討論如何集成額外的符號信息,如邏輯規則和本體論,以更好地學習知識圖譜的表示的最新進展。在第三部分中,我們將介紹圖神經網絡(GNNs)和最近在異構信息網絡中研究的進展,圖神經網絡可以被認為是知識圖譜的一般形式。
Martin Grohe是一位計算機科學家,以其在參數化復雜性、數學邏輯、有限模型理論、圖形邏輯、數據庫理論和描述復雜性理論方面的研究而聞名。他是RWTH Aachen大學的計算機科學教授,在那里他擔任離散系統邏輯和理論的主席。1999年,他獲得了德國研究基金會頒發的海因茨·梅爾-萊布尼茨獎。他在2017年被選為ACM Fellow,因為他“對計算機科學中的邏輯、數據庫理論、算法和計算復雜性的貢獻”。
word2vec, node2vec, graph2vec, X2vec: Towards a Theory of Vector Embeddings of Structured Data 構建結構數據的向量嵌入理論
圖和關系結構的向量表示,無論是手工制作的特征向量還是學習的表示,使我們能夠將標準的數據分析和機器學習技術應用到結構中。在機器學習和知識表示文獻中,廣泛研究了產生這種嵌入的方法。然而,從理論的角度來看,向量嵌入得到的關注相對較少。從對已經在實踐中使用的嵌入技術的調研開始,在這次演講中,我們提出了兩種理論方法,我們認為它們是理解向量嵌入基礎的中心。我們將各種方法聯系起來,并提出未來研究的方向。
典型機器學習算法需要將通常是符號數據表示為數字向量才能在結構化數據上計算。數據的向量表示從手工設計特征到學習表示,或者通過專用的嵌入算法計算,或者通過像圖神經網絡這樣的學習架構隱式計算。機器學習方法的性能關鍵取決于向量表示的質量。因此,有大量的研究提出了廣泛的矢量嵌入方法用于各種應用。這些研究大多是經驗性的,通常針對特定的應用領域。考慮到主題的重要性,關于向量嵌入的理論工作少得令人驚訝,特別是當它表示超越度量信息(即圖中的距離)的結構信息時。
本文的目的是概述在實踐中使用的結構化數據的各種嵌入技術,并介紹可以理解和分析這些嵌入技術的理論思想。矢量嵌入的研究前景是笨拙的,由于不同的應用領域(如社會網絡分析、知識圖、化學信息學、計算生物學等)的推動,幾個社區在很大程度上獨立地研究相關問題。因此,我們需要有選擇性,關注我們看到的共同想法和聯系。
向量嵌入可以在關系數據的“離散”世界和機器學習的“可微分”世界之間架起一座橋梁,因此在數據庫研究方面具有巨大的潛力。然而,除了知識圖譜的二元關系之外,對關系數據的嵌入所做的工作相對較少。在整個論文中,我將試圖指出關于向量嵌入的數據庫相關研究問題的潛在方向。
回答大規模知識圖譜上的復雜邏輯查詢是一項基本而又具有挑戰性的任務。在本文中,我將概述如何使用向量空間嵌入在知識圖譜中執行邏輯推理。首先,我將討論預測一對實體之間關系的知識圖譜補全方法:通過捕獲與實體相鄰的關系類型來考慮每個實體的關系上下文,并通過一種新的基于邊的消息傳遞方案進行建模;考慮關系路徑捕獲兩個實體之間的所有路徑;通過一種可學習的注意力機制,自適應地整合關系上下文和關系路徑。其次,我們還將討論QUERY2BOX,這是一個基于嵌入的框架,用于推理使用and、or和存在操作符進行的大量且不完整的KGs中的任意查詢。
近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。
概述
學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。
在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。
這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。
廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。
鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。
目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。
在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面
我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。
知識圖譜(KG)嵌入通過學習實體和關系的低維表示來預測缺失的事實。KGs通常表現出層次結構和邏輯模式,必須在嵌入空間中保留這些模式。對于層次數據,雙曲線嵌入方法已經顯示出高保真和精簡表示的前景。然而,現有的雙曲線嵌入方法并不能解釋KGs中豐富的邏輯模式。在本文中,我們介紹了一類雙曲線KG嵌入模型,該模型同時捕獲層次模式和邏輯模式。我們的方法結合了雙曲線反射和旋轉,并注意到模型的復雜關系模式。在標準KG基準上的實驗結果表明,我們的方法在低維平均倒數秩(MRR)方面比以前的基于歐幾里德和雙曲線的方法提高了6.1%。此外,我們觀察到不同的幾何變換捕獲不同類型的關系,而基于注意的變換泛化為多個關系。在高維情況下,我們的方法可以得到最新的MRRs, WN18RR為49.6%,YAGO3-10為57.7%。