題目: Representation Learning on Graphs: Methods and Applications
摘要:
圖機器學習是一項重要且普遍存在的任務,其應用范圍從藥物設計到社交網絡中的友情推薦。這個領域的主要挑戰是找到一種表示或編碼圖形結構的方法,以便機器學習模型能夠輕松地利用它。傳統上,機器學習方法依賴于用戶定義的啟發法來提取對圖的結構信息進行編碼的特征(例如,度統計或內核函數)。然而,近年來,使用基于深度學習和非線性降維的技術,自動學習將圖結構編碼為低維嵌入的方法激增。在這里,我們提供了一個概念上的回顧,在這一領域的關鍵進展,圖表示學習,包括基于矩陣分解的方法,隨機漫步的算法和圖神經網絡。我們回顧了嵌入單個節點的方法以及嵌入整個(子)圖的方法。在此過程中,我們開發了一個統一的框架來描述這些最近的方法,并強調了一些重要的應用程序和未來工作的方向。
作者簡介:
William L. Hamilton是麥吉爾大學計算機科學的助理教授,也是加拿大魁北克Mila AI研究所的CIFAR AI主席。William L. Hamilton開發的機器學習模型可以對這個復雜的、相互聯系的世界進行推理。研究興趣集中在機器學習、網絡科學和自然語言處理的交叉領域,目前的重點是快速發展的圖表示學習和圖神經網絡。
Rex Ying是斯坦福大學計算機科學二年級的博士生,研究主要集中在開發應用于圖形結構數據的機器學習算法。曾致力于開發可擴展到網絡規模數據集的廣義圖卷積網絡,應用于推薦系統、異常檢測和生物學。
【導讀】知識圖譜一直是學術界和工業界關注的焦點。之前專知報道了AAAI2020相關接受論文。最近Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu等學者發表了關于知識圖譜的最新綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》,25頁pdf涵蓋107篇參考文獻,對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。是關于知識圖譜最近非常重要的參考文獻。
摘要
人類知識提供了對世界的認知理解。表征實體間結構關系的知識圖譜已經成為認知和人類智能研究的一個日益流行的方向。在本次綜述論文中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。知識圖譜嵌入從表示空間、得分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了不同任務的數據集和開源庫的集合。最后,我們對幾個有前景的研究方向進行了深入的展望。
1. 引言
融合人類知識是人工智能的研究方向之一。知識表示與推理是受人類解決問題方式的啟發,為智能系統表示知識以獲得解決復雜任務的能力。近年來,知識圖譜作為結構化人類知識的一種形式,受到了學術界和產業界的廣泛關注。知識圖譜是事實的結構化表示,由實體、關系和語義描述組成。實體可以是現實世界的對象和抽象概念,關系表示實體之間的關聯,實體及其關系的語義描述包含定義良好的類型和屬性。屬性圖或性質圖被廣泛使用,其中節點和關系具有屬性或性質。
知識圖譜與知識庫是同義的,只是略有不同。當考慮知識圖譜的圖結構時,知識圖譜可以看作是一個圖。當它涉及到形式語義時,它可以作為解釋和推斷事實的知識庫。知識庫實例和知識圖譜如圖1所示。知識可以用事實的三元組形式來表達(頭實體,關系,尾實體)或者(主語,謂語,賓語)(head, relation,tail)或 (subject, predicate,object)
例如(Albert Einstein; WinnerOf; Nobel Prize). 它也可以表示為一個有向圖,其中節點是實體,邊是關系。為了簡化和順應研究領域的發展趨勢,本文將知識圖譜和知識庫這兩個術語互換使用。
圖1 知識庫和知識圖譜示例
近年來,基于知識圖譜的研究主要集中在知識表示學習(KRL)和知識圖譜嵌入(KGE)兩個方面。具體的知識獲取任務包括知識圖譜補全(KGC)、三元組分類、實體識別和關系提取。知識感知模型得益于異構信息、豐富的知識表示本體和語義以及多語言知識的集成。因此,許多現實世界的應用,如推薦系統和問題回答已經具備常識性的理解和推理能力。一些現實世界的產品,例如微軟的Satori和谷歌的Knowledge Graph,已經顯示出提供更高效服務的強大能力。
為了對現有的文獻進行全面的綜述,本文重點研究了知識表示,它為知識獲取和知識感知應用提供了更加上下文化、智能化和語義化的知識表示方法。我們的主要貢獻總結如下:
全面性綜述。我們對知識圖譜的起源和現代知識圖譜的關系學習技術進行了全面的綜述。介紹和比較了知識圖譜表示、學習和推理的主要神經網絡結構。此外,我們還提供了不同領域中許多應用的完整概述。
全視圖分類和新的分類法。對知識圖譜的研究進行了全面的分類,并提出了精細的分類方法。具體來說,在高層次上,我們從KRL、知識獲取和知識感知應用三個方面對知識圖譜進行了回顧。對于KRL方法,我們進一步將細粒度分類法分為四個視圖,包括表示空間、評分函數、編碼模型和輔助信息。在知識獲取方面,將知識獲取分為基于嵌入的排序、關系路徑推理、邏輯規則推理和元關系學習; 實體關系獲取任務分為實體識別、類型識別、消歧和對齊; 并根據神經范式對關系抽取進行了討論。
對新進展的廣泛綜述。知識圖譜經歷了快速的發展。本論文提供了廣泛的新興主題,包括基于transformer的知識編碼、基于圖神經網絡(GNN)的知識傳播、基于路徑推理的強化學習和元關系學習。
總結并展望未來的發展方向。這項綜述對每個類別進行了總結,并強調了有前途的未來研究方向。
該綜述的其余部分組織如下: 首先,知識圖譜的概述,包括歷史、符號、定義和分類,在第2節中給出; 然后,我們在第三節從四個范圍討論KRL; 接下來,我們將回顧第4節和第5節中知識獲取和時間知識圖譜的任務;下游應用介紹在第6節; 最后,討論了未來的研究方向,并得出結論。其他信息,包括KRL模型訓練和一組知識圖譜數據集以及開源實現,可以在附錄中找到。
2 概述
2.1 知識庫簡史
知識表示在邏輯和人工智能領域經歷了漫長的發展歷史。圖形化知識表示的思想最早可以追溯到1956年Richens[127]提出的語義網概念,而符號邏輯知識可以追溯到1959年的一般問題求解者[109]。知識庫首先用于基于知識的推理和問題解決系統。MYCIN[138]是最著名的基于規則的醫學診斷專家系統之一,知識庫約有600條規則。后來,人類知識表示的社區看到了基于框架的語言、基于規則的表示和混合表示的發展。大約在這個時期的末期,Cyc項目開始了,目的是收集人類的知識。資源描述框架(RDF)和Web本體語言(OWL)相繼發布,成為語義Web的重要標準。然后,許多開放知識庫或本體被發布,如WordNet、DBpedia、YAGO和Freebase。Stokman和Vries[140]在1988年的圖表中提出了結構知識的現代概念。然而,自2012年谷歌搜索引擎首次提出知識圖譜概念以來,知識圖譜得到了極大的普及,當時提出了知識庫[33]的知識融合框架來構建大規模的知識圖譜。附錄A說明了知識庫歷史的簡要路線圖。
圖2: 知識庫簡史
2.2 定義和符號
大多數現有工作都是通過描述一般的語義表示或基本特征來給出定義。然而,還沒有這樣被廣泛接受的正式定義。Paulheim[117]定義了知識圖譜的四個標準。Ehrlinger和Wo?[35]分析了現有的一些定義并提出定義1強調知識圖譜的推理引擎。Wang等[158]在定義2中提出了多關系圖的定義。根據之前的文獻,我們將知識圖譜定義為G={E,R,F},其中E、R和F分別是實體、關系和事實的集合。一個事實記作一個三元組A triple (h,r,t)∈F。
定義1 (Ehrlinger和Wo?[35])。知識圖譜獲取信息并將其集成到本體中,應用推理引擎獲得新知識。
定義2 (Wang et al.[158])。知識圖譜是由實體和關系構成的多關系圖,實體和關系分別被視為節點和不同類型的邊。
表一 列出了具體的符號表示及其描述。附錄B解釋了幾種數學運算的細節。
2.3 知識圖研究的分類
本綜述對知識圖譜的研究,即KRL、知識獲取、下游知識感知應用等方面進行了全面的文獻綜述,整合了許多最新的先進深度學習技術。研究的總體分類如圖2所示。
圖2: 知識圖譜研究的分類
知識表示學習(Knowledge Representation Learning,KRL)是知識圖譜的一個重要研究課題,它為許多知識獲取任務和后續應用奠定了基礎。我們將KRL分為表示空間、評分函數、編碼模型和輔助信息四個方面,為開發KRL模型提供了清晰的工作流程。具體的內容包括:
表示學習包括點向空間、流形、復向量空間、高斯分布和離散空間。評分指標一般分為基于距離的評分函數和基于相似度匹配的評分函數。目前的研究集中在編碼模型,包括線性/雙線性模型,因式分解和神經網絡。輔助信息包括文本信息、視覺信息和類型信息。
知識獲取任務分為三類:關系提取和實體發現。第一個用于擴展現有的知識圖譜,而其他兩個用于從文本中發現新知識(即關系和實體)。KGC分為以下幾類: 基于嵌入的排序、關系路徑推理、基于規則的推理和元關系學習。實體發現包括識別、消歧、類型化和對齊。關系提取模型利用了注意力機制、圖卷積網絡、對抗性訓練、強化學習、深度殘差學習和遷移學習。
時序知識圖譜包含了表示學習的時態信息。本研究將時間嵌入、實體動態、時序關系依賴、時序邏輯推理四個研究領域進行了分類。
知識感知應用包括自然語言理解(NLU)、問題回答、推薦系統和各種真實世界的任務,這些應用程序注入知識以改進表示學習。
2.4 相關綜述論文
以往關于知識圖譜的綜述論文主要集中在統計相關學習[112]、知識圖譜精細化[117]、中文知識圖譜構建[166]、KGE[158]或KRL[87]。后兩項綜述與我們的工作關系更大。Lin等[87]以線性的方式提出KRL,著重于定量分析。Wang等人[158]根據評分函數對KRL進行分類,并特別關注KRL中使用的信息類型。它僅從評分度量的角度提供了當前研究的一般視角。我們的綜述深入到KRL,并提供了一個完整的視圖,它來自四個方面,包括表示空間、評分函數、編碼模型和輔助信息。此外,本文還對知識獲取和知識感知應用進行了全面的綜述,討論了基于知識圖譜的推理和小樣本學習等幾個新興的主題。
3 知識表示學習
KRL在文獻中也被稱為KGE、多關系學習和統計關系學習。本節介紹在分布式表示學習豐富的語義信息的實體和關系形成4個范圍的最新進展,包括表示空間(表示實體和關系,3.1節), 得分函數(度量事實的合理性,3.2節),編碼模型(模型的語義交互事實,3.3節),和輔助信息(利用外部信息,3.4節)。我們還在第3.5節中提供了一個摘要。KRL模型的訓練策略在附錄D中進行了回顧。
3.1 表示空間
表示學習的關鍵是學習低維分布式嵌入的實體和關系。現有文獻主要使用實值點向空間(圖2(a)),包括向量空間、矩陣空間和張量空間,其他類型的空間如復向量空間(圖2(b))、高斯空間(圖2(c))、流形空間(圖2(d))也被利用。
圖3: 不同空間的知識表示示意圖
3.2 評分函數
評分函數用于度量事實的可信度,在基于能量的學習框架中也稱為能量函數。能量學習的目的是學習能量函數。基于能量的學習目標學習能量函數Eθ(x)參數化θ采取x作為輸入,以確保正樣本分數高于負樣本。本文采用評分函數的形式進行統一。評分函數有兩種典型類型,即基于距離的(圖3(a))和基于相似性的(圖3(b))函數,用于度量事實的合理性。基于距離的評分函數通過計算實體之間的距離來衡量事實的合理度,其中使用較多的是關系為h+r≈t的翻譯函數。基于語義相似度的評分方法是通過語義匹配來衡量事實的合理性,通常采用乘法公式,即h?Mr≈t?,轉換頭尾部附近的實體表示空間。
圖4: 以TransE[10]和DistMult[185]為例的基于距離和基于相似匹配的評分函數示意圖。
3.3 編碼模型
本節介紹通過特定的模型體系結構(包括線性/雙線性模型、因子分解模型和神經網絡)對實體和關系的交互進行編碼的模型。線性模型通過將頭部實體投射到接近尾部實體的表示空間中,將關系表示為線性/雙線性映射。因子分解的目的是將關系數據分解為低秩矩陣進行表示學習。神經網絡用非線性神經激活和更復雜的網絡結構來編碼關系數據。幾個神經模型如圖5所示。
圖5: 神經編碼模型示意圖。(a) MLP[33]和(b) CNN[110]將三元組數據輸入到稠密層和卷積運算中學習語義表示,(c) GCN[132]作為知識圖譜的編碼器,產生實體和關系嵌入。(d) RSN[50]對實體關系序列進行編碼,有區別地跳躍關系。
3.4 嵌入輔助信息
為了促進更有效的知識表示,多模態嵌入將諸如文本描述、類型約束、關系路徑和視覺信息等外部信息與知識圖譜本身結合起來。
3.5 總結
知識表示學習是知識圖譜研究領域的一個重要課題。本節回顧了KRL的四方面,其中最近的幾種方法總結在表II中,更多的方法在附錄c中。總的來說,開發一個新的KRL模型是為了回答以下四個問題:1)選擇哪個表示空間; 2)如何測量特定空間中三元組的合理度; 3)采用何種編碼模型對關系交互進行建模; 4)是否利用輔助信息。
最常用的表示空間是基于歐幾里德點的空間,它通過在向量空間中嵌入實體,并通過向量、矩陣或張量對相互作用進行建模。研究了復向量空間、高斯分布、流形空間和群等表示空間。流形空間相對于點向歐幾里德空間的優點是松弛點向嵌入。高斯嵌入能夠表達實體和關系的不確定性,以及多重關系語義。在復雜向量空間中嵌入可以有效地建模不同的關系連接模式,特別是對稱/反對稱模式。表示空間在實體語義信息的編碼和關系屬性的獲取中起著重要的作用。在建立表示學習模型時,應仔細選擇和設計合適的表示空間,以匹配編碼方法的性質,平衡表達性和計算復雜度。基于距離度量的評分函數采用了翻譯原則,而語義匹配評分函數采用了組合運算符。編碼模型,尤其是神經網絡,在實體和關系的交互建模中起著至關重要的作用。雙線性模型也引起了廣泛的關注,一些張量因子分解也可以看作是這一類。其他方法包括文本描述、關系/實體類型和實體圖像的輔助信息。
圖6 知識圖譜表示學習模型全面集合
4 知識獲取
知識獲取的目的是從非結構化文本中構造知識圖譜,補全已有的知識圖,發現和識別實體和關系。良好的構造和大規模的知識圖譜可以用于許多下游應用,并賦予知識感知模型常識推理的能力,從而為人工智能鋪平道路。知識獲取的主要任務包括關系提取、KGC和其他面向實體的獲取任務,如實體識別和實體對齊。大多數方法分別制定KGC和關系提取。然而,這兩個任務也可以集成到一個統一的框架中。Han等人[57]提出了一種知識圖譜與文本數據融合的聯合學習框架,實現了知識圖譜與文本的數據融合,解決了文本的KGC和關系提取問題。與知識獲取相關的任務還有三元組分類、關系分類等。在這一部分中,我們將對知識獲取技術的三個方面進行全面的回顧,即知識圖譜補全、實體發現技術和關系提取技術。
4.1 知識圖譜補全
基于知識圖譜不完備性的特點,提出了一種新的知識圖譜三元組生成方法。典型的子任務包括鏈路預測、實體預測和關系預測。這里給出了一個面向任務的定義。給定一個不完全知識圖譜 G = ( E , R , F ) , KGC 的目的推斷缺失的三元組 T = { ( h , r , t ) | ( h , r , t ) ? F } 。
對KGC的初步研究主要集中在學習低維嵌入進行三元組預測。在本次綜述中,我們將這些方法稱為基于嵌入的方法。然而,它們中的大多數都沒有捕捉到多步關系。因此,最近的工作轉向探索多步驟的關系路徑和合并邏輯規則,分別稱為關系路徑推理和基于規則的推理。三元組分類是KGC的一個相關任務,它評估了一個事實三元組分類的正確性,本節還將對此進行討論。
圖7: 基于嵌入的排序和關系路徑推理示意圖
4.2 實體的發現
本節將基于實體的知識獲取分為幾個細分的任務,即實體識別、實體消歧、實體類型和實體對齊。我們將它們稱為實體發現,因為它們都在不同的設置下探索實體相關的知識。
圖8: 實體發現任務的示意圖
4.3 關系提取
關系抽取是從純文本中抽取未知關系事實并將其加入到知識圖譜中,是自動構建大規模知識圖譜的關鍵。由于缺乏標記的關系數據,遠距離監督25使用啟發式匹配來創建訓練數據,假設包含相同實體提及的句子在關系數據庫的監督下可以表達相同的關系。Mintz等人[103]利用文本特征(包括詞匯和句法特征、命名實體標記和連接特征)對關系分類進行遠程監控。傳統的方法高度依賴于特征工程[103],最近的一種方法探索了特征之間的內在相關性[123]。深度神經網絡正在改變知識圖譜和文本的表示學習。本節回顧了神經關系提取(NRE)方法的最新進展,概述如圖9所示。
圖9: 神經關系提取概述
4.4 總結
這一部分回顧了不完全知識圖譜的知識補全和純文本的知識獲取。
知識圖譜補全完成了現有實體之間缺失的鏈接,或者推斷出給定實體和關系查詢的實體。基于嵌入的KGC方法通常依賴于三元組表示學習來捕獲語義,并對完成的候選排序。基于嵌入的推理仍然停留在個體關系層面,由于忽略了知識圖譜的符號性,缺乏可解釋性,使得復雜推理能力較差。符號學與嵌入相結合的混合方法結合了基于規則的推理,克服了知識圖譜的稀疏性,提高了嵌入的質量,促使有效的規則注入,并引入了可解釋的規則。從知識圖譜的圖形性質出發,研究了路徑搜索和神經路徑表示學習,但它們在大規模圖上遍歷時存在連通性不足的問題。元關系學習的新方向是學習在低資源環境下對未知關系提取的快速適應使用。
實體發現從文本中獲取面向實體的知識,將知識融合到知識圖譜中。以序列對序列的方式探討實體識別,實體類標討論有噪聲的類型標簽和零樣本,實體消歧和對齊學習統一嵌入的迭代對齊模型,解決有限數量的對齊種子樣本問題。但是,如果新對齊的實體性能較差,則可能會面臨錯誤積累問題。近年來,針對語言的知識越來越多,跨語言知識對齊的研究應運而生。
關系抽取在距離監督的假設下存在噪聲模式,尤其是在不同領域的文本語料庫中。因此,弱監督關系提取對于減輕噪聲標記的影響是很重要的,例如,以句子包為輸入的多實例學習,軟選擇超過實例的注意機制[90]以減少噪聲模式,以及基于rl的方法將實例選擇描述為硬決策。另一個原則是學習盡可能豐富的表示。由于深度神經網絡可以解決傳統特征提取方法中的誤差傳播問題,因此該領域以基于dnn的模型為主,如表四所示。
表四: 神經關系提取與研究進展綜述
5 時序知識圖
當前的知識圖譜研究多集中在靜態知識圖上,事實不隨時間變化,而對知識圖譜的時間動態研究較少。然而,時間信息是非常重要的,因為結構化的知識只在一個特定的時期內存在,而事實的演變遵循一個時間序列。最近的研究開始將時間信息引入到KRL和KGC中,與之前的靜態知識圖相比,這被稱為時序知識圖。同時對時間嵌入和關系嵌入進行了研究。
6 知識圖譜嵌入應用
豐富的結構化知識對人工智能應用非常有用。但是如何將這些符號化知識集成到現實世界應用的計算框架中仍然是一個挑戰。本節介紹幾種最新的基于dnn的知識驅動方法,以及NLU、推薦和問題回答方面的應用。附錄E中介紹了其他應用,如數字健康和搜索引擎。
6.1自然語言理解
知識感知NLU將結構化的知識注入到統一的語義空間中,增強了語言表示。近年來,知識驅動的發展利用了顯性事實知識和隱性語言表示,并探索了許多NLU任務。Chen等人[22]提出了兩個知識圖譜上的雙圖隨機游動,即提出了一個基于槽的語義知識圖譜和一個基于詞的詞匯知識圖譜,以考慮口語理解中的槽間關系。Wang等[156]通過加權的詞-概念嵌入,將基于知識概念化的短文本表示學習加以擴充。Peng等[118]整合外部知識庫,構建用于社會短文本事件分類的異構信息圖。
語言建模是一項基本的NLP任務,它根據給定的順序預測前面的單詞。傳統的語言建模方法沒有利用文本語料庫中經常出現的實體來挖掘事實知識。如何將知識整合到語言表達中,越來越受到人們的關注。知識圖譜語言模型(Knowledge graph language model, KGLM)[96]學習通過選擇和復制實體來呈現知識。ERNIE-Tsinghua[205]通過聚合的預訓練和隨機掩蔽來融合信息實體。BERT-MK[62]對圖上下文知識進行編碼,主要關注醫學語料庫。ERNIE- baidu[142]引入了命名實體掩蔽和短語掩蔽來將知識整合到語言模型中,ERNIE 2.0[143]通過持續的多任務學習對其進行了進一步的改進。Petroni等[119]對語言模型的大規模訓練和知識圖譜的查詢進行了反思,對語言模型和知識庫進行了分析,發現通過預訓練語言模型可以獲得一定的事實知識。
6.2 問答
基于知識圖譜的問答(KG-QA)利用知識圖譜中的事實回答自然語言問題。基于神經網絡的方法在分布式語義空間中表示問題和答案,也有一些方法對常識推理進行符號知識注入。
6.3 推薦系統
基于用戶歷史信息的協同過濾是推薦系統研究的熱點。然而,它往往不能解決稀疏性問題和冷啟動問題。將知識圖譜作為外部信息進行集成,使推薦系統具有常識性推理能力。
通過注入基于知識圖譜的邊側信息(如實體、關系和屬性),許多人致力于基于嵌入的正則化以改進推薦。協同CKE[195]通過翻譯KGE模型和堆疊的自動編碼器聯合訓練KGEs、物品的文本信息和視覺內容。DKN[154]注意到時間敏感和主題敏感的新聞文章是由壓縮的實體和常識組成的,它通過一個知識感知CNN模型將知識圖譜與多通道的單詞實體對齊的文本輸入合并在一起。然而,DKN不能以端到端方式進行訓練,因為實體嵌入需要提前學習。為了實現端到端訓練,MKR[155]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關聯起來。其他文獻考慮知識圖譜的關系路徑和結構,而KPRN[160]將用戶與項目之間的交互視為知識圖譜中的實體-關系路徑,并利用LSTM對該路徑進行偏好推理,獲取順序依賴關系。PGPR[170]在基于知識圖譜的用戶-物品交互的基礎上,實現了增強策略引導的路徑推理。KGAT[159]將圖注意網絡應用于實體-關系和用戶-物品圖的協作知識圖譜上,通過嵌入傳播和基于注意的聚合對高階連通性進行編碼。
7 未來的發展方向
為了解決知識表示及其相關應用的挑戰,人們做了很多努力。但仍存在一些難以解決的問題和有希望的未來方向。
7.1 復雜推理
知識表示和推理的數值計算需要一個連續的向量空間來捕獲實體和關系的語義。雖然基于嵌入的方法對于復雜的邏輯推理有一定的局限性,但關系路徑和符號邏輯的兩個方向值得進一步探討。遞歸關系路徑編碼、基于GNN的消息傳遞知識圖譜、基于強化學習的路徑查找和推理等方法是處理復雜推理的有效方法。對于邏輯規則和嵌入的組合,最近的著作[124,202]將馬爾科夫邏輯網絡與KGE結合起來,旨在利用邏輯規則并處理它們的不確定性。利用有效的嵌入技術實現不確定性和領域知識的概率推理是一個值得關注的研究方向。
7.2 統一框架
已有多個知識圖譜表示學習模型被證明是等價的,如Hayshi和Shimbo[61]證明了在一定約束條件下,HOIE和ComplEx在鏈接預測的數學上是等價的。ANALOGY [91]提供了幾種代表性模型的統一視圖,包括DistMult、ComplEx和HolE。Wang等人[162]探索了幾種雙線性模型之間的聯系。Chandrahas等[133]探討了加法和乘法KRL模型的幾何理解。大部分工作分別采用不同的模型對知識獲取KGC和關系提取進行了闡述。Han等人[57]將兩者放在同一框架下,提出了一種相互關注的知識圖譜與文本信息共享的聯合學習框架。對知識表示和推理的統一理解研究較少。然而,以類似于圖網絡[5]的統一框架的方式進行統一的研究,將是值得填補研究空白的。
7.3 可解釋性
知識表示和注入的可解釋性是知識獲取和實際應用的關鍵問題。已經為可解釋性作了初步的努力。ITransF[175]使用稀疏向量進行知識遷移,并用注意力可視化進行解釋。CrossE[200]通過使用基于嵌入的路徑搜索來生成鏈接預測的解釋,探索了知識圖譜的解釋方案。然而,最近的神經模型在透明性和可解釋性方面存在局限性,盡管它們取得了令人印象深刻的性能。一些方法結合了黑盒神經模型和符號推理,通過合并邏輯規則來提高互操作性。可解釋性可以說服人們相信預測。因此,進一步的工作應該是提高預測知識的可解釋性和可靠性。
7.4 可擴展性
可擴展性是大規模知識圖譜的關鍵。在計算效率和模型表達性之間存在一種權衡。幾種嵌入方法都是利用簡化來降低計算成本,如利用循環相關運算來簡化張量積[113]。然而,這些方法仍然難以擴展到數百萬個實體和關系。
使用馬爾可夫邏輯網絡等概率邏輯推理需要大量的計算,因此很難擴展到大規模的知識圖譜。最近的一個神經邏輯模型[124]中的規則是通過簡單的窮舉搜索生成的,這使得它在大規模的知識圖譜上顯得不足。ExpressGNN[202]試圖使用NeuralLP[186]進行有效的規則歸納。但是,要處理復雜的深層架構和不斷增長的知識圖譜,還有很長的路要走。
7.5 知識聚合
全局知識的聚合是知識感知應用的核心。例如,推薦系統使用知識圖譜對用戶-物品交互進行建模,聯合對文本進行分類,將文本和知識圖譜編碼到語義空間中。現有的知識聚合方法大多設計了注意機制和GNNs等神經網絡結構。自然語言處理社區已經從大規模的通過Transformer和BERT模型等變體的訓練中得到了發展,而最近的一項發現[119]表明,在非結構化文本上的訓練預訓練語言模型實際上可以獲得一定的事實知識。大規模的訓練是一種直接的知識注入方式。然而,以一種有效的、可解釋的方式重新思考知識聚合的方式也具有重要的意義。
7.6 自動構建和動態知識圖譜
當前的知識圖譜高度依賴于手工構建,這是一種勞動密集型和昂貴的工作。知識圖譜在不同認知智能領域的廣泛應用,要求從大規模非結構化內容中自動構建知識圖譜。目前的研究主要集中在已有知識圖譜監督下的半自動構建方面。面對多模態性、異構性和大規模的應用,自動構建仍然面臨著巨大的挑戰。
主流的研究主要集中在靜態知識圖譜上,在預測時間范圍有效性和學習時間信息和實體動態方面也有一些工作。許多事實只在特定的時期內有效。考慮到知識圖鋪的時間特性,動態知識圖譜可以解決傳統知識表示和推理的局限性。
8 結論
知識圖譜作為人類知識的集合,隨著知識表示學習、知識獲取方法的出現和知識感知應用的廣泛,知識圖譜的研究越來越受到重視。本文從四個方面進行了全面的綜述: 1)知識圖譜嵌入,從嵌入空間、評分指標、編碼模型、外部信息嵌入、訓練策略等方面進行了全方位的系統綜述; 2)從嵌入學習、關系路徑推理、邏輯規則推理三個角度對實體發現、關系提取、圖補全的知識獲取;時序知識圖表示學習與完成;4) 在自然語言理解,推薦系統,問題回答和其他雜項應用上的真實世界的知識感知應用。此外,還介紹了數據集和開源庫的一些有用資源,并對未來的研究方向進行了討論。知識圖譜承載著一個龐大的研究社區,并具有廣泛的方法和應用。我們進行這項綜述是為了總結當前有代表性的研究工作和趨勢,并期望它能促進未來的研究。
【導讀】近年來,隨著網絡數據量的不斷增加,挖掘圖形數據已成為計算機科學領域的熱門研究課題,在學術界和工業界都得到了廣泛的研究。 但是,大量的網絡數據為有效分析帶來了巨大的挑戰。 因此激發了圖表示的出現,該圖表示將圖映射到低維向量空間中,同時保持原始圖結構并支持圖推理。 圖的有效表示的研究具有深遠的理論意義和重要的現實意義,本教程將介紹圖表示/網絡嵌入的一些基本思想以及一些代表性模型。
關于圖或網絡的文獻有兩個名稱:圖表示和網絡嵌入。我們注意到圖和網絡都指的是同一種結構,盡管它們每個都有自己的術語,例如,圖和網絡的頂點和邊。挖掘圖/網絡的核心依賴于正確表示的圖/網絡,這使得圖/網絡上的表示學習成為學術界和工業界的基本研究問題。傳統表示法直接基于拓撲圖來表示圖,通常會導致許多問題,包括稀疏性,高計算復雜性等,從而激發了基于機器學習的方法的出現,這種方法探索了除矢量空間中的拓撲結構外還能夠捕獲額外信息的潛在表示。因此,對于圖來說,“良好”的潛在表示可以更加精確的表示圖形。但是,學習網絡表示面臨以下挑戰:高度非線性,結構保持,屬性保持,稀疏性。
深度學習在處理非線性方面的成功為我們提供了研究新方向,我們可以利用深度學習來提高圖形表示學習的性能,作者在教程中討論了將深度學習技術與圖表示學習相結合的一些最新進展,主要分為兩類方法:面向結構的深層方法和面向屬性的深層方法。
對于面向結構的方法:
對于面向屬性的方法:
本教程的第二部分就以上5種方法,通過對各個方法的模型介紹、算法介紹、對比分析等不同方面進行詳細介紹。
1、Structural Deep Network Embedding
network embedding,是為網絡中的節點學習出一個低維表示的方法。目的在于在低維中保持高度非線性的網絡結構特征,但現有方法多采用淺層網絡不足以挖掘高度非線性,或同時保留局部和全局結構特征。本文提出一種結構化深度網絡嵌入方法,叫SDNE該方法用半監督的深度模型來捕捉高度非線性結構,通過結合一階相似性(監督)和二階相似性(非監督)來保留局部和全局特征。
2、 Deep recursive network embedding with regular equivalence
網絡嵌入旨在保留嵌入空間中的頂點相似性。現有方法通常通過節點之間的連接或公共鄰域來定義相似性,即結構等效性。但是,位于網絡不同部分的頂點可能具有相似的角色或位置,即規則的等價關系,在網絡嵌入的文獻中基本上忽略了這一點。以遞歸的方式定義規則對等,即兩個規則對等的頂點具有也規則對等的網絡鄰居。因此,文章中提出了一種名為深度遞歸網絡嵌入(DRNE)的新方法來學習具有規則等價關系的網絡嵌入。更具體地說,我們提出了一種層歸一化LSTM,以遞歸的方式通過聚合鄰居的表示方法來表示每個節點。
3、Structural Deep Embedding for Hyper-Networks
是在hyperedge(超邊是不可分解的)的基礎上保留object的一階和二階相似性,學習異質網絡表示。于與HEBE的區別在于,本文考慮了網絡high-oeder網絡結構和高度稀疏性。 傳統的基于clique expansion 和star expansion的方法,顯式或者隱式地分解網絡。也就說,分解后hyper edge節點地子集,依然可以構成一個新的超邊。對于同質網絡這個假設是合理地,因為同質網絡地超邊,大多數情況下都是根據潛在地相似性(共同地標簽等)構建的。
4、 Deep variational network embedding in wasserstein space
大多數現有的嵌入方法將節點作為點向量嵌入到低維連續空間中。這樣,邊緣的形成是確定性的,并且僅由節點的位置確定。但是,現實世界網絡的形成和發展充滿不確定性,這使得這些方法不是最優的。為了解決該問題,在本文中提出了一種新穎的在Wasserstein空間中嵌入深度變分網絡(DVNE)。所提出的方法學習在Wasserstein空間中的高斯分布作為每個節點的潛在表示,它可以同時保留網絡結構并為節點的不確定性建模。具體來說,我們使用2-Wasserstein距離作為分布之間的相似性度量,它可以用線性計算成本很好地保留網絡中的傳遞性。此外,我們的方法通過深度變分模型隱含了均值和方差的數學相關性,可以通過均值矢量很好地捕獲節點的位置,而由方差可以很好地捕獲節點的不確定性。此外,本文方法通過保留網絡中的一階和二階鄰近性來捕獲局部和全局網絡結構。
5、 Learning embeddings of out-of-sample nodes in dynamic networks
迄今為止的網絡嵌入算法主要是為靜態網絡設計的,在學習之前,所有節點都是已知的。如何為樣本外節點(即學習后到達的節點)推斷嵌入仍然是一個懸而未決的問題。該問題對現有方法提出了很大的挑戰,因為推斷的嵌入應保留復雜的網絡屬性,例如高階鄰近度,與樣本內節點嵌入具有相似的特征(即具有同質空間),并且計算成本較低。為了克服這些挑戰,本文提出了一種深度轉換的高階拉普??拉斯高斯過程(DepthLGP)方法來推斷樣本外節點的嵌入。 DepthLGP結合了非參數概率建模和深度學習的優勢。特別是,本文設計了一個高階Laplacian高斯過程(hLGP)來對網絡屬性進行編碼,從而可以進行快速和可擴展的推理。為了進一步確保同質性,使用深度神經網絡來學習從hLGP的潛在狀態到節點嵌入的非線性轉換。 DepthLGP是通用的,因為它適用于任何網絡嵌入算法學習到的嵌入。
題目: Network Representation Learning: A Survey
摘要:
隨著信息技術的廣泛應用,信息網絡越來越受到人們的歡迎,它可以捕獲各種學科之間的復雜關系,如社交網絡、引用網絡、電信網絡和生物網絡。對這些網絡的分析揭示了社會生活的不同方面,如社會結構、信息傳播和交流模式。然而,在現實中,大規模的信息網絡往往使網絡分析任務計算昂貴或難以處理。網絡表示學習是近年來提出的一種新的學習范式,通過保留網絡拓撲結構、頂點內容和其它邊信息,將網絡頂點嵌入到低維向量空間中。這有助于在新的向量空間中方便地處理原始網絡,以便進行進一步的分析。在這項調查中,我們全面回顧了目前在數據挖掘和機器學習領域的網絡表示學習的文獻。我們提出了新的分類法來分類和總結最先進的網絡表示學習技術,根據潛在的學習機制、要保留的網絡信息、以及算法設計和方法。我們總結了用于驗證網絡表示學習的評估協議,包括已發布的基準數據集、評估方法和開源算法。我們還進行了實證研究,以比較代表性的算法對常見數據集的性能,并分析其計算復雜性。最后,我們提出有希望的研究方向,以促進未來的研究。
作者簡介:
Xingquan Zhu是佛羅里達大西洋大學計算機與電氣工程和計算機科學系的教授,在中國上海復旦大學獲得了計算機科學博士學位。曾在多家研究機構和大學工作過,包括微軟亞洲研究院(實習)、普渡大學、佛蒙特大學和悉尼科技大學。主要研究方向:數據挖掘、機器學習、多媒體系統、生物信息學。
題目: Graph Summarization Methods and Applications: A Survey
摘要:
雖然計算資源的進步使處理大量數據成為可能,但人類識別這些數據模式的能力并沒有相應提高。因此,壓縮和簡化數據的高效計算方法對于提取可操作的見解變得至關重要。特別是,雖然對數據摘要技術進行了廣泛的研究,但直到最近才開始流行對相互關聯的數據或圖進行匯總。這項調查是一個結構化的,全面的概述了最先進的方法,以總結圖形數據。我們首先討論了圖形摘要背后的動機和挑戰。然后,我們根據作為輸入的圖形類型對摘要方法進行分類,并根據核心方法進一步組織每個類別。最后,我們討論了總結在真實世界圖上的應用,并通過描述該領域的一些開放問題進行了總結。
作者簡介:
Yike Liu是密西根大學物理系五年級的博士生,也是計算機科學與工程系的一名碩士研究生。我是葉杰平教授的顧問。主要研究方向是深度學習和強化學習,尤其是在交通數據上的應用。在此之前,從事過基于圖形的機器學習和數據挖掘,特別是圖形總結和圖形聚類,在這些工作中,開發了圖形挖掘算法,幫助更好地理解底層的圖形組織并理解它。
Tara Safavi是密西根大學博士研究生,研究重點是知識表示及其在以人為中心的任務中的使用、評估和解釋,還對更廣泛的AI+社會問題感興趣,比如隱私、偏見和環境可持續性。研究目前得到了美國國家科學基金會(NSF)研究生獎學金和谷歌女性科技創造者獎學金的支持。
題目: A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications 摘要: 圖形是一種重要的數據表示形式,它出現在現實世界的各種場景中。有效的圖形分析可以讓用戶更深入地了解數據背后的內容,從而有利于節點分類、節點推薦、鏈路預測等許多有用的應用。然而,大多數圖形分析方法都存在計算量大、空間開銷大的問題。圖嵌入是解決圖分析問題的有效途徑。它將圖形數據轉換為一個低維空間,其中圖形結構信息和圖形屬性被最大程度地保留。在這項調查中,我們對圖嵌入的文獻進行了全面的回顧。本文首先介紹了圖嵌入的形式化定義及相關概念。之后,我們提出了兩個分類的圖形嵌入,對應于什么挑戰存在于不同的圖形嵌入問題設置,以及現有的工作如何解決這些挑戰,在他們的解決方案。最后,我們總結了圖形嵌入在計算效率、問題設置、技術和應用場景等方面的應用,并提出了四個有前途的研究方向。
作者簡介: Hongyun Cai,經驗豐富的研究人員,有在研究行業工作的經驗。精通計算機科學,C++,數據庫,Java和機器學習。昆士蘭大學計算機科學專業研究生,哲學博士。
Vincent W. Zheng,新加坡先進數字科學中心(ADSC)的研究科學家,也是伊利諾伊大學香檳分校協調科學實驗室的研究附屬機構。他目前領導著ADSC的大型社交項目。該項目旨在利用目前在我們的數字社會(即社交媒體)中普遍存在的巨大“人類傳感器”,并實現對此類數據的社會分析,從而建立一個以人為中心的網絡系統。他還對圖形表示學習、深度學習、自然語言處理、移動計算等領域感興趣,并在社交挖掘、文本挖掘、實際位置和活動識別、用戶分析、移動推薦、增強現實等方面有應用。
Kevin Chen-Chuan Chang是伊利諾伊大學香檳分校計算機科學教授,他領導了數據搜索、集成和挖掘的前沿數據實驗室。他在國立臺灣大學獲得理學學士學位,在斯坦福大學獲得電機工程博士學位。他的研究涉及大規模信息訪問,用于搜索、挖掘和跨結構化和非結構化大數據的集成,目前的重點是“以實體為中心”的Web搜索/挖掘和社交媒體分析。他在VLDB 2000年和2013年獲得了兩項最佳論文獎,2002年獲得了NSF職業獎,2003年獲得了NCSA院士獎,2004年和2005年獲得了IBM院士獎,2008年獲得了創業領導力學院院士獎,并在2001年、2004年、2005年、2006年、2010年和2011年獲得了伊利諾伊大學不完整的優秀教師名單。他熱衷于將研究成果帶到現實世界中,并與學生共同創辦了伊利諾伊大學(University of Illinois)的初創公司Cazoodle,致力于在網絡上深化垂直的“數據感知”搜索。
題目: Graph Neural Networks: A Review of Methods and Applications
摘要: 許多學習任務都需要處理包含元素間豐富關系信息的圖形數據。建模物理系統、學習分子指紋、預測蛋白質界面和疾病分類需要一個模型從圖形輸入中學習。在文本、圖像等非結構化數據的學習等領域,對句子的依存樹、圖像的場景圖等提取的結構進行推理是一個重要的研究課題,同時也需要建立圖形推理模型。圖神經網絡(GNNs)是通過圖節點之間的信息傳遞來獲取圖的依賴性的連接模型。與標準神經網絡不同,圖神經網絡保留了一種狀態,這種狀態可以以任意深度表示來自其鄰域的信息。雖然原始GNNs已經被發現很難訓練到固定的點,但是最近在網絡結構、優化技術和并行計算方面的進展已經使它能夠成功地學習。近年來,基于圖形卷積網絡(GCN)、圖形注意網絡(GAT)、門控圖形神經網絡(GGNN)等圖形神經網絡變體的系統在上述許多任務上都表現出了突破性的性能。在這項調查中,我們提供了一個詳細的檢討現有的圖形神經網絡模型,系統分類的應用,并提出了四個開放的問題,為今后的研究。
作者簡介: Jie Zhou,CS的研究生,從事系統研究,主要研究計算機安全。他畢業于廈門大學,在羅切斯特大學獲得碩士學位及博士學位。
Zhiyuan Liu,清華大學計算機系NLP實驗室副教授。
論文題目: A Structural Graph Representation Learning Framework
論文摘要: 許多基于圖的機器學習任務的成功在很大程度上取決于從圖數據中學習到的適當表示。大多數工作都集中在于學習保留鄰近性的節點嵌入,而不是保留節點之間結構相似性的基于結構的嵌入。這些方法無法捕獲對基于結構的應用程序(如web日志中的visitor stitching)至關重要的高階結構依賴和連接模式。在這項工作中,我們闡述了高階網絡表示學習,并提出了一個稱為HONE的通用框架,用于通過節點鄰域中的子圖模式(network motifs, graphlet orbits/positions)從網絡中學習這種結構性節點嵌入。HONE引入了一種通用的diffusion機制和一種節省空間的方法,該方法避免了使用k-step線性算子來顯式構造k-step motif-based矩陣。此外,HONE被證明是快速和有效的,最壞情況下的時間復雜度幾乎是線性的。實驗結果表明,該算法能有效地處理大量的網絡日志數據,包括鏈接預測和visitor stitching。
作者簡介:
Ryan A. Rossi,目前在Adobe Research工作,研究領域是機器學習;涉及社會和物理現象中的大型復雜關系(網絡/圖形)數據的理論、算法和應用。在普渡大學獲得了計算機科學博士和碩士學位。
Nesreen K. Ahmed,英特爾實驗室的高級研究員。我在普渡大學計算機科學系獲得博士學位,在普渡大學獲得統計學和計算機科學碩士學位。研究方向是機器學習和數據挖掘,涵蓋了大規模圖挖掘、統計機器學習的理論和算法,以及它們在社會和信息網絡中的應用。