摘要: 知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一種被廣泛采用的知識表示方法, 其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中, 用來簡化操作, 同時保留KG的固有結構. 可以使得多種下游任務受益, 例如KG補全和關系提取等. 首先對現有的知識圖譜嵌入技術進行全面回顧, 不僅包括使用KG中觀察到的事實進行嵌入的技術, 還包括添加時間維度的動態KG嵌入方法, 以及融合多源信息的KG嵌入技術. 對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹KG嵌入技術在下游任務中的典型應用, 包括問答系統、推薦系統和關系提取等. 最后闡述知識圖譜嵌入面臨的挑戰, 對未來的研究方向進行展望.
地址: //www.jos.org.cn/jos/article/abstract/6429
0 引言
知識圖譜(knowledge graph, KG)作為人工智能的一個分支, 引起了學術界和工業界的廣泛關注, 其構建與應用也得到了迅速發展. 例如Freebase[1], DBpedia[2], YAGO[3], NELL[4], Wikidata[5]等知識圖譜已經被成功創建并應用于許多現實世界應用, 從語義分析[6, 7]、命名實體消歧[8, 9], 到信息提取[10, 11]和問答系統[12, 13]等. 知識圖譜是以現實世界的實體為節點, 實體之間的關系為邊的有向圖. 在這個圖中, 每個有向邊連同其頭實體與尾實體構成了一個三元組, 即(頭實體, 關系, 尾實體), 表示頭實體與尾實體通過關系進行連接. 盡管知識圖譜在表示結構化數據方面非常有效, 但這種三元組的基本符號性質使KG難以操作[14].
為了解決這個問題, 近年來提出了一個新的研究方向, 稱為知識圖譜嵌入(knowledge graph embedding, KGE)或知識表示學習(knowledge representation learning, KRL), 旨在將KG的組成部分(包括實體和關系)嵌入到連續的向量空間中, 以在簡化操作的同時保留KG的固有結構. 與傳統的表示方法相比, KGE為KG中的實體和關系提供了更加密集的表示, 降低了其應用中的計算復雜度. 此外, KGE可以通過度量實體和關系低維嵌入的相似性來顯式地捕獲實體和關系之間的相似性.盡管研究者已提出多種模型來學習KG中的實體和關系表示, 但是目前大多數可用的技術仍然僅根據知識圖譜中觀察到的事實來執行嵌入任務. 具體地說, 給定一個KG, 首先在低維向量空間中表示實體和關系, 并為每個三元組定義一個評分函數以衡量其在該空間中的合理性. 然后通過最大化觀察到的三元組的總合理性來學習實體和關系的嵌入. 這些學習的嵌入還可以進一步用于實現各種任務, 例如KG補全[15, 16], 關系提取[10, 17], 實體分類[18, 19], 實體解析[18, 20]等. 由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容, 因此對下游任務可能沒有足夠的預測性[21, 22]. 近年來, 越來越多的研究者開始進一步考慮利用其他類型的信息, 例如實體類型[23, 24], 文本描述[25-28], 關系路徑[29-31], 甚至邏輯規則[32, 33]來學習更多的預測嵌入.
本文第1節介紹相關工作調查與基本符號定義; 第2節對僅使用KG中觀察到的事實進行嵌入的技術進行全面回顧, 具體介紹基于距離的模型, 語義匹配模型以及最新的KGE技術; 第3節主要討論了融合時間信息的動態知識圖譜嵌入技術, 詳細介紹t-TransE、Know-Evolve、HyTE、TDG2E等代表性的動態KGE方法; 第4節歸納了除KG中觀察到的事實以外的結合附加信息的KGE技術, 例如實體類別、文本描述、關系路徑等. 第5節介紹KGE技術在下游任務中的典型應用. 第6節對KGE技術面臨的挑戰與未來研究方向進行討論. 最后, 第7節對全文工作進行總結.
1 相關調查與符號定義
先前有關知識圖譜的調查論文主要集中在統計關系學習(statistical relational learning)[34], knowledge graph refinement[35], 中文知識圖譜構建(Chinese knowledge graph construction)[36], KGE[14]或KRL[37]. Liu等人[37]在2016年詳細介紹了知識表示學習(KRL)的基本概念和主要方法, 對知識表示學習面臨的主要挑戰、已有解決方案以及未來研究方向進行了全面總結, 為后續的調查和研究奠定了堅實的基礎. 近年來, Lin等人[37]以線性方式提出KRL, 著重于進行定量分析. Wang等人[14]根據評分函數對KRL模型進行分類, 側重于KRL中使用的信息類型.
我們的調查研究以Wang等人[14]的調查為基礎. 與之不同的是, 本文對基于距離的模型與語義匹配模型進行了全新角度的分類, 對主流KGE技術進行了闡述, 同時介紹了動態知識圖譜嵌入方法的最新進展, 并分析了相關代表模型. 此外, 本文討論了結合事實以外的其他信息的嵌入技術, 以及KGE技術的典型應用. 最后, 總結了KGE技術面臨的挑戰, 并對其未來方向進行展望.
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分. 評分函數用于衡量事實的合理性, 在基于能量的學習框架中也被稱為能量函數. 典型類型的評分函數分為兩種: 基于距離的評分函數(如圖1(a))與基于相似性的評分函數(如圖1(b)).
基于距離的模型
基于距離的模型使用基于距離的評分函數, 即通過計算實體之間的距離來衡量事實的合理性, 在這種情況下, 翻譯原理 h+r≈th+r≈t 被廣泛使用. 也就是說, 基于距離的模型通常由關系執行翻譯后, 根據兩個實體之間的距離來度量一個事實的合理性. 本小節將基于距離的模型進一步細分為基本距離模型, 翻譯模型和復雜關系建模. 下圖基于距離的模型進行了全面總結.
語義匹配模型
語義匹配模型利用基于相似性的評分函數, 即通過語義匹配來衡量事實的合理性. 語義匹配通常采用乘法公式 (h?Mr≈t?)(h?Mr≈t?) 來變換表示空間中的頭實體, 使其與尾實體相近. 本節根據實體和關系編碼的不同模型結構來介紹代表性的語義匹配模型.
最新的知識圖譜嵌入模型 大多數翻譯模型和雙線性模型是2016年之前提出的方法, 而最近幾年研究KGE的方法眾多. 本小節簡要介紹其中的主流方法, 具體劃分為卷積神經網絡模型, 旋轉模型, 雙曲幾何模型和其他模型.
3 動態知識圖譜嵌入
當前KGE的研究主要集中于靜態知識圖譜, 其中事實不會隨時間發生變化, 例如: TransE, TransH, TransR, RESCAL等. 但是, 在實際應用中, 知識圖譜通常是動態的, 例如Twitter中的社交知識圖, DBLP中的引文知識圖等, 其中事實隨時間演變, 僅在特定時間段內有效. 以往的靜態KGE方法完全忽略了時間信息, 這使得靜態KGE方法無法在這些實際場景中工作. 因此, 有必要設計一種用于動態知識圖譜嵌入的方法. 本節介紹了典型的動態知識圖譜嵌入方法, 其中分析了t-TransE, Know-Evolve, HyTE, TDG2E等相關模型, 表6將TDG2E模型與其他動態KGE方法進行對比, 直觀地展示了TDG2E方法的優越性. 然而, 從大量文獻中可以得出結論: 現有的大多數知識圖譜嵌入方法仍然關注于靜態知識圖譜, 忽略了知識圖譜中時間范圍信息的可用性與重要性. 實際上, 在表示學習過程中合并時間信息可能會產生更好的KG嵌入, 時間感知的知識圖譜嵌入研究仍然是一個有待于進一步探索的領域.
4. 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息, 能夠幫助構建更加精準的知識表示, 僅使用事實進行知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識, 例如: 實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度, 進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來, 知識驅動的應用在信息檢索和問答等領域取得了巨大成功, 這些應用有望幫助準確深入地了解用戶需求, 并給出適當響應. 知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量, 而學習到的實體、關系嵌入可以受益于多種下游任務. 在本節中, 我們將介紹KGE的典型應用.
基于知識圖譜嵌入的問答 隨著大規模知識圖譜的興起, 基于知識圖譜的問答(QA)成為重要的研究方向, 引起了人們的廣泛關注. 現實世界的領域中通常包含數百萬到數十億個事實, 其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有價值的知識. 為了緩解這個問題, 提出了基于知識圖譜的問答(QA-KG). QA-KG旨在利用知識圖譜中的事實來回答自然語言問題. 可以幫助普通用戶在不知道KG數據結構的情況下, 高效地訪問KG中對自己有價值的知識. 然而, 由于涉及到語義分析[112]和實體鏈接[113, 114]等多個具有挑戰性的子問題, QA-KG的問題還遠未得到解決. 近年來, 隨著KGE在不同的實際應用中表現出的有效性, 人們開始探索其在解決QA-KG問題中的一些潛在作用.
**推薦系統 **在過去的幾年中, 利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力, 能有效地解決新項目和數據稀疏性等問題[124-128]. 最近, KGE的流行促進了利用KGE捕獲實體語義進行推薦這一研究熱點, 使用KGE已被證明對推薦系統有效.
**關系提取 **關系提取(relation extraction, RE)是信息提取中的一項重要任務, 旨在根據兩個給定實體的上下文來提取它們之間的關系. 由于RE具有提取文本信息的能力, 并使許多自然語言處理應用受益(例如: 信息檢索, 對話生成, 問答等), 因此受到很多研究者的青睞.
6. 挑戰與展望
目前, KGE作為處理大型知識圖譜的一種方便有效的工具, 被廣泛探索并應用于多種知識驅動型任務, 極大地提高了任務的性能, 同時也存在許多可能的有待探索的領域. 在本小節中, 我們將討論KGE面臨的挑戰及其未來研究方向. 面臨的挑戰 探索KG的內部和外部信息知識應用的復雜性
未來方向
統一框架 * 可解釋性 * 可擴展性 * 自動構建
**7. 總 結 **知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性, 可以對現實世界中的實體、概念、屬性以及它們之間的關系進行建模. 隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用, 知識圖譜引起了越來越多的研究關注. 知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中, 在各種面向實體的任務中得到了重要應用. 本文圍繞知識圖譜嵌入技術的研究現狀, 通過回顧僅使用事實進行知識圖譜嵌入的方法、添加時間維度的動態 KGE方法以及融合多源信息的 KGE技術介紹了現有的知識圖譜嵌入技術. 并簡要討論了KGE技術在下游任務中的實際應用. 最后總結了知識圖譜嵌入領域所面臨的挑戰, 并對其未來的方向做出展望. 我們進行這項調查的目的是對當前KGE的代表性研究工作進行總結, 并且希望這一探索可以為KGE的未來研究提供幫助.
知識圖譜一直關注的研究熱點。中山大學等最新《知識圖譜嵌入:表征空間視角》研究綜述,32頁pdf闡述代數、幾何、分析下角度的知識圖譜嵌入,值得關注!
知識圖譜嵌入(Knowledge graph embedding, KGE)是一種日益流行的技術,旨在將知識圖譜中的實體和關系表示為低維的語義空間,在鏈接預測、知識推理和知識補全等領域有著廣泛的應用。在本文中,我們對現有的基于表示空間的KGE技術進行了系統的回顧。特別地,我們基于表示空間的三個數學角度** (1)代數角度、(2)幾何角度和(3)分析角度**建立了一個細粒度分類來對模型進行分類。在深入KGE模型及其數學性質之前,我們先介紹基本數學空間的嚴格定義。我們進一步討論了這三類不同的KGE方法,并總結了空間優勢如何在不同的嵌入需求中發揮作用。通過整理下游任務的實驗結果,我們還探索了數學空間在不同場景下的優勢及其背后的原因。進一步從表征空間的角度提出了一些有前景的研究方向,希望能啟發研究者在設計KGE模型及其相關應用時更多地考慮其數學空間性質。
//www.zhuanzhi.ai/paper/44427b32a1eea79e689822dd16ac0561
1. 概述
知識圖譜是一種存儲現實世界中事實知識的多關系圖。KGs中的節點表示現實世界中的實體(如名稱、事件和產品),邊表示實體之間的關系。通常,一個KG可以有效地存儲為知識三元組,其中每個三元組由兩個實體和它們之間的一個事實關系(即<頭實體、關系、尾實體>)組成。例如,在三重< RNA病毒,子類,COVID-19 >, RNA病毒和COVID-19是現實世界的實體和子類RNA病毒和COVID-19代表之間的關系。近年來,大型KGs的建設出現了快速增長,如YAGO[94]、Wikidata[104]、Freebase[7]和DBepedia[2]。由于它們在存儲和表示事實知識方面的有效性,它們已成功地應用于問答[91,132]、推薦系統[95,151]、信息檢索[34,118]和其他特定領域的應用[58,68]。盡管KGs在表示結構化事實信息方面是有效的,但由于其大規模和復雜的圖結構,它們很難操作。因此,如何有效、高效地從大規模KGs中提取和利用有用信息,用于下游任務,如鏈接預測[17,97,142]和實體分類[49,123,134],是一項艱巨的任務。為了解決這一具有挑戰性的任務,知識圖譜嵌入(Knowledge Graph Embedding, KGE)技術被提出,并在機器學習領域受到了大量關注[10,17,48,62,73,97]。KGE的基本思想是學習將一個KG的實體和關系嵌入到一個低維空間中(即向量嵌入),其中的嵌入要求保留原始KG的語義和關系結構。然后,可以利用學習到的實體和關系嵌入來解決下游應用,如KG補全[1,10,115,137,141],問題回答[24,61,127,132,150],信息提取[30,47,119,147]和實體分類[59,92]。
許多KGE技術被提出來學習KGs中實體和關系的嵌入[50,65,97,115,120]。一些KGE方法提出通過保留KGs中實體之間的關系模式來學習KG嵌入,例如,為了捕獲實體之間的轉換關系,提出了TransE[10]將KGs嵌入到歐氏空間中,并將實體之間的關系表示為向量空間中實體嵌入之間的平移向量。此外,為了保留和推斷KGs中的其他關系模式,包括對稱、反對稱、反轉和復合,RotatE[97]被提出將KGs映射到復向量空間中,其中關系表示為實體之間的旋轉。
另一種KGE方法提出通過保留KGs的結構模式來學習KG嵌入,這一工作的動機是大型KGs通常包含許多復雜和復合結構。例如,在圖1中,我們給出了KGs中三種典型的結構模式,即鏈結構、環結構和層次結構。為了有效地捕獲知識圖譜中的層次結構,提出了ATTH[3]將知識圖譜嵌入到曲率可訓練的雙曲空間中,在雙曲空間中可以使用比歐氏空間更豐富的變換來分離節點[76],同時捕獲邏輯模式。此外,一些KGE方法也嘗試將KGs嵌入到其他數學空間中,以在KGs中建模一些理想的性質,如KG2E[45]是第一個“基于密度”的嵌入技術,它學習KGs在高斯分布概率空間中的嵌入,以建模實體和關系的不確定性。此外,TorusE[26]選擇一個緊湊的李群作為其嵌入流形來處理正則化問題,ModulE[16]還引入了群理論,將實體和關系建模為群元素,這可以適應并優于大多數現有的KGE模型。從表示空間的角度,我們發現上述KGE方法大多學習在不同的數學空間(如歐氏空間、雙曲空間和概率空間)中嵌入,以捕獲KGs中不同的關系和結構模式,的確,不同的數學空間有其獨特的優勢,這有利于捕獲KGs中不同的模式和屬性,因此,我們認為表示空間在KGE方法中扮演著重要的角色。因為它決定了可以被KG嵌入捕獲和保存的KG的模式和屬性。除了KGE領域,一些研究[13,74,82]也證明了數學空間在傳統機器學習中的重要性。
一些研究致力于從數學空間的角度討論傳統的機器學習模型[74,82]。然而,目前還沒有從數學空間的角度對KGE方法進行系統的綜述。現有關于KGE方法的研究主要集中在編碼模型和KGE方法的應用上。例如Wang等[108]根據KGE方法的嵌入函數對其進行了分類,并將其分為三層:基于翻譯的模型、語義匹配模型和附加信息模型。Ji等人[51]從表示學習、評分函數、編碼模型和輔助信息四個方面全面介紹了KGE。Lu等人[70]調查了KGE方法,重點是利用文本信息。因此,本文旨在對知識圖嵌入技術的表示空間進行全面綜述,總結表示空間的不同性質,并為構建知識圖嵌入方法提供指導。為了從新的空間視角更好地理解KGE方法,在基本數學空間系統的啟發下,我們建立了一個系統的、全面的、多角度的分類法,根據現有KGE方法的表示空間對其進行分類。具體而言,我們建議將現有的KGE方法分為三類,即代數結構(algeaic Structure)、幾何結構(Geometric Structure)和分析結構(Analytical Structure)。圖2提供了我們的分類框架和屬于每個類別的一些代表性KGE方法的概述(詳細版本可以在第3節中找到)。在本綜述中,我們將介紹上述三種數學結構的定義和性質,并詳細介紹屬于這些類別的一些代表性KGE方法。此外,我們將總結不同的KGE方法的實驗結果,并為構建更有表現力和更強大的KGE方法提供一些建議和指導。此外,我們將從表示空間的角度指出KGE方法的新趨勢和進一步的發展方向。
據我們所知,我們是第一個通過建立一個全面的數學空間結構來總結KGE模型的調研。綜上所述,我們的工作貢獻可歸納如下:
這是第一篇全面綜述數學空間和KGE技術之間關系的論文。特別是,我們總結了KGE方法中不同數學空間的性質,以便清楚地了解它們在不同KGE方法中的數學性質。
我們根據現有的KGE模型的表示空間進行分類,同時從數學空間的角度對這些作品進行詳細的描述和比較。
基于對不同空間本質屬性的分析,我們為KGE任務提供了空間選擇的思路,這可以幫助研究人員和實踐者更好地理解空間特征,并為構建他們的KGE模型(包括損失函數、優化等)提供指導。
通過展示不同數學空間/結構中的一些獨特性質,對KGE任務提出了一些建議和未來的發展方向。這些性質可以啟發和推廣到其他場景,如自然語言處理,transformer等,不僅是KGE任務。
本文的其余部分組織如下。第2節介紹了基本數學空間的符號和嚴格定義,以及它們之間的關系。本節將提供關于各種表示空間的一些初步知識,并在這些空間與KGE模型的三個關鍵組件(即嵌入映射、評分函數和表示訓練)之間建立聯系。由于基本數學空間無法覆蓋現有KGE方法所使用的各種空間,我們從表示空間的角度開發了一個系統而全面的KGE方法分類框架。為了突出不同數學特征對KGE模型的出色作用,第3節介紹了提出的分類類別、不同空間的性質,并總結了空間優勢在KGE模型中的作用。隨后,第4節將介紹一些與空間相關的KG下游任務。通過結果,總結了數學空間在特定場景中的優勢以及哪些特征對任務至關重要。最后,我們在第5節中提出了我們的結論和未來的工作,在其中我們總結了三種不同的數學結構各自的優點及其背后的原因,這將有助于啟發我們在更多的領域構建最先進的算法,不限于KGE。
2. 知識圖嵌入中的表示空間
由于KG通常包含許多復雜的結構(如1-to-N、N-to-N和層次關系),研究人員提出將KG嵌入不同的表示空間,以更好地保存這些復雜的結構信息[17,26,41,122,142]。事實上,不同的表示空間有其獨特的結構和屬性,如我們在第2節中所示。但是,除了第2節中介紹的基本數學空間之外,還有更多的空間可以為KGE提供更好的屬性。例如,在雙曲空間中,區域和長度隨半徑呈指數增長,這為嵌入任務提供了更多的可用空間[3,17,76]。此外,在李群中,嵌入向量永遠不會無限發散,因此有效學習[26]不再需要對嵌入向量進行正則化。因此,建立在不同表示空間上的KGE方法能夠在原始KGs中捕獲和保存不同的結構和歸因信息。然而,從表示空間的角度對KG嵌入方法的系統綜述還沒有,也沒有文獻說明在特定KGE任務下如何正確選擇表示空間。在本文中,我們旨在通過總結基于其數學表示空間的結構和性質的KGE方法來填補這一空白。
3. 知識圖譜嵌入下游任務
在從數學結構的角度對現有的KGE模型進行系統回顧之后,本節將重點介紹基于KGE的下游任務。我們強調了一些重要的和流行的應用,它們通常被用來評估嵌入模型的性能。在總結和比較了幾種KGE模型的性能之后,從不同的空間角度分析了KGE模型的優缺點。在接下來的內容中,我們首先描述了鏈路預測的過程,這是KGE領域的一項基本任務,并重點介紹了一個流行的任務:鏈路預測場景中的層次獲取。此外,我們還對模式推理的任務進行了分析和討論。總結了數學特性在上述任務中的優勢。
東北大學《實體對齊》最新綜述論文
實體對齊(Entity Alignment)旨在發現不同知識圖譜(Knowledge Graph)中指代相同事物的實體,是知識圖譜融合的關 鍵技術,近年來受到了廣泛的關注。早期,研究者們使用字符串的各種特征來進行實體對齊工作。近年來,隨著知識表示學 習(Knowledge Representation Learning)技術的不斷發展,研究者們提出了許多基于知識表示學習的實體對齊方法,效果明顯 優于傳統方法。然而,實體對齊的研究仍然存在著許多亟待解決的問題與挑戰,比如數據質量、計算效率等。本文從實體對齊的定義、數據集和評價指標出發,詳細深入地綜述和比較了傳統實體對齊方法和基于知識表示學習的實體對齊方法。針對傳統方法,分類介紹了基于相似性計算和基于關系推理的實體對齊方法,并深入研究了每類方法對字符特 征、屬性特征、關系特征的利用,同時深入分析了不同方法之間的優勢與不足。針對基于知識表示學習的實體對齊方法,本文進行了重點討論、分析和對比。 首先,本文將該類實體對齊方法抽象為由三個模塊(即嵌入模塊、交互模塊和對齊模塊)組 成的統一框架,依據三個模塊對每個方法進行了詳細的綜述。進一步地,根據方法所利用的信息種類的不同,將已有方法劃 分為基于結構信息、屬性信息、實體名信息、實體描述信息和綜合信息等八類方法,對每一類方法進行了詳細的綜述。然后, 對基于知識表示學習的實體對齊方法進行了深入對比分析。最后,討論了實體對齊工作的主要挑戰,包括稀疏知識圖譜的處 理、標注數據的缺乏和噪聲問題、方法的效率問題等,并對該工作的未來進行了展望。
//cjc.ict.ac.cn/online/bfpub/zf-202237100856.pdf
近幾年,互聯網的快速發展促使各領域建立了 越 來 越 多 包 含 互 補 信 息 的 大 規 模 知 識 圖 譜 (Knowledge Graph)。同時,隨著鏈接數據(Linked Data)1計劃的發展,網絡上語義數據的數量不斷增 加,而各應用領域面臨的主要挑戰之一就是集成越 來越多獨立設計且存在于不同知識圖譜中的實體, 使得大規模的知識圖譜之間可以高效協調。因此, 如何發現不同知識圖譜實例之間的鏈接成為各個 領域亟待解決的重要問題[1]。
尤其是,隨著近幾年知識圖譜的快速發展,涌 現出大量的知識圖譜[2]。然而,目前很多的知識圖 譜由不同機構和個人構建,這些知識圖譜的需求特 定,設計和構建并不統一,因此互相之間存在異構 和冗余問題。知識融合旨在將知識圖譜中的異構和 冗余等信息進行對齊和合并,形成全局統一的知識 標識和關聯[1]。實體對齊(Entity Alignment,EA) [3], [4] 是知識圖譜融合過程的關鍵技術,主要目的是發現 不同知識圖譜之間的等價實體。由于不同知識圖譜 的知識內容存在來源各異和人為理解不同,指代同 一個事物的文字表達會各有不同。這是不同知識圖 譜融合集成的顯著問題,影響共享數據的實現。因 此,針對基于知識圖譜的知識融合研究,對后續大 數據集成統一的技術探索和發展意義重大[5]。
實體對齊一般可以分為本體對齊和實例對齊, 本體對齊重點關注類、屬性和關系,而實例對齊則 更加注重真實世界中指代的具體事物[2]。早期的相 關工作主要集中在本體對齊方面,近幾年隨著機器 學習和深度學習的發展,也逐漸向實例對齊方向發 展。本體對齊相對于實例對齊而言更加籠統概括,主要針對包含相似實例的一類實體;而實例對齊對 信息的精細程度要求更多,也更加復雜。此外,實 體對齊任務與傳統的實體消歧(鏈接)任務存在差 異,傳統的實體消歧需要將文本內容中提及的實 體,鏈接到知識圖譜或知識圖譜中的實體。然而實 體對齊,是將兩個或者多個結構化的知識圖譜或知 識圖譜中的實體進行等價對齊[6]。
隨著實體對齊技術的發展,許多學者提出了不同種類的實體對齊方法,涌現出大量的實體對齊研 究文獻。早期,研究者們使用字符串的各種特征來 進行實體對齊工作。近些年,隨著知識表示學習 (Knowledge Representation Learning)技術的快速發 展,研究者們提出了許多基于知識表示學習的實體 對齊方法,這些方法取得了比傳統方法更好的效果。然而,截止目前仍然缺少有關實體對齊技術全 面而深入的方法綜述。已有的綜述文獻[7]主要概括 了傳統實體對齊方法;文獻[8]僅針對基于圖神經網 絡(Graph Neural Network,GNN)的實體對齊方法進 行了簡略介紹;文獻[5]和[9]從實驗的角度,對部分 實體對齊方法在數據集上的性能進行了深入比較 分析。與上述已有綜述不同,本文從方法和技術層 面,更加全面深入地綜述和比較了傳統實體對齊方 法和基于知識表示學習的實體對齊方法,對這些已 有方法進行了詳細的劃分與綜述。針對傳統方法, 本文深入分析研究了每類方法對字符特征、屬性特 征、關系特征的利用,進而對比了不同方法之間的 優勢與不足。針對主流的基于知識表示學習的實體 對齊方法,本文深入挖掘并研究了每種方法所利用 的知識圖譜信息,根據所利用信息種類的不同將已 有方法細分為八個類別,同時進行了詳細的綜述和 對比分析。
基于以上分析,本文將實體對齊方法分為兩大 類,一類是傳統的實體對齊方法,一類是基于知識表示學習的實體對齊方法。在給出實體對齊的問題 定義、數據集和評價指標的基礎上,進一步詳細深 入地綜述和比較了這兩大類方法。主要貢獻如下:
針對傳統方法,分類介紹了基于相似性計算和 基于關系推理的實體對齊方法,并深入研究了 每類方法對字符特征、屬性特征、關系特征的 利用,同時深入分析了不同方法之間的優勢與 不足。
針對基于知識表示學習的實體對齊方法,本文進行了重點討論、分析和對比:(i)本文將該 類實體對齊方法抽象為由三個模塊(即嵌入模 塊、交互模塊和對齊模塊)組成的統一框架,依 據三個模塊對每個方法進行了詳細的綜述;(ii)根據方法所利用的知識圖譜信息種類的 不同,將已有方法細分為基于結構信息、屬性 信息、實體名信息、實體描述信息和綜合信息 等八類方法,并對每類方法進行了詳細介紹和 分析;(iii)進一步對基于知識表示學習的實體 對齊方法進行了深入對比分析。分析結果表 明,科學有效的迭代方法和對多種信息的利用 都能夠提升方法的性能等。
討論了實體對齊工作的主要挑戰和未來方向, 包括稀疏知識圖譜的處理、標注數據的缺乏和 噪聲問題、方法的效率問題等。
本文后續章節安排如下:第 2 節給出實體對齊 的問題定義、數據集和評價指標;第 3 節介紹傳統 實體對齊方法;第 4 節綜述基于知識表示學習的實 體對齊方法;第 5 節概括實體對齊工作的主要挑戰 和未來方向;最后給出本文總結。
傳統的實體對齊方法大多數都集中在句法和 結構上,尤其是早期的實體對齊和映射技術主要側 重于計算實體之間標簽和字符的距離。傳統的實體 對齊方法主要從兩個角度解決實體對齊問題:一類 是基于相似度計算來比較實體的符號特征[11],另一 類是基于關系推理[32],最近的研究還使用統計機器 學習來提高準確性。本節將詳細綜述已有的傳統實 體對齊方法,同時深入研究每類方法對字符特征、 屬性特征、關系特征的利用,并進行對比分析。
表 示 學 習 又 叫 做 表 征 學 習 (Representation Learning),其目的是利用機器學習技術將描述對象 表示為低維稠密的向量,兩個向量之間的距離反映 的是兩個對象之間的語義關系。將表示學習應用于 知 識 表 示 中 , 即 知 識 表 示 學 習 (Knowledge Representation Learning),目的是實現知識圖譜中實 體和實體之間關系的向量表示,通過降低高維實體 和關系,得到低維向量的數值表示。基于知識表示學習技術能夠將實體和關系表 示為低維向量空間的能力,許多研究者們提出了基 于知識表示學習的實體對齊方法,該類方法也成為 目前解決實體對齊問題的主要技術。通過深入研究 這些方法,本文概括并抽象出一個統一的實體對齊 框架,如圖 4 所示。其基本思想就是首先通過知識 表示學習技術對知識圖譜進行嵌入,即嵌入模塊;之后根據已對齊的實體對將不同知識圖譜的嵌入空間映射到同一個向量空間中,即交互模塊;最后 根據向量空間中實體之間的距離或者相似度得到 實體對齊結果,即對齊模塊。此外,大多數方法還 引入了迭代機制,將實體對齊結果添加至已經對齊 的實體對中。本節接下來將對基于知識表示學習的實體對 齊方法進行重點介紹、對比分析和總結。首先,依 據圖 4 提到的三個模塊(即嵌入模塊、交互模塊和對 齊模塊)對每一種方法進行了詳細介紹。同時,本文 通過深入研究,對所有方法根據其利用的知識圖譜 信息的不同進行了詳細的分類(見 4.2 節)。然后進一 步對該類方法進行了詳細的對比,并對結果進行了 深入的分析(見 4.3 節)。下面 4.1 節首先簡單介紹現有的知識表示學習 技術,然后后續幾節重點綜述基于知識表示學習的 實體對齊方法,并進行深入的對比分析。
4.1 知識表示學習技術 目前主要的知識表示學習技術可以分為三類:翻譯模型、語義匹配模型、深度模型[38], [39]。
**4.2 基于知識表示學習的實體對齊方法 **
基于知識表示學習的實體對齊方法已經成為 目前解決實體對齊問題的主要技術,并取得了較好 的效果,其中絕大多數方法都使用翻譯模型或圖神 經網絡(Graph Neural Network, GNN) [59]進行知識表 示學習,因為它們有著較強的魯棒性和泛化能力。
從上述已有方法可以看出,目前基于知識表示 學習的實體對齊方法主要包括三個模塊,分別是嵌 入模塊、交互模塊和對齊模塊。嵌入模塊目前主要 有三種方法,一種是利用 TransE 及其改進系列進行 關系結構信息嵌入;一種是使用 GNN 構建鄰接關 系圖進行嵌入;一種是使用 GNN 的改進模型 GCN 進行結構信息嵌入。嵌入模塊利用的信息主要有兩 種,即結構信息和屬性信息。交互模塊的作用主要 是將兩個不同的知識圖譜映射到同一向量空間,使 得向量的計算在同一空間。目前聯系兩個知識圖譜 的橋梁主要是預對齊的實體對,通過預對齊的實體 對在不同向量空間的轉換和校準,統一兩個知識圖 譜。對齊模塊的作用主要是根據已經嵌入的實體向 量來計算距離,此外,還能通過一些推理策略選擇 待對齊的實體。 值得注意的是,雖然基于知識表示學習的實體 對齊方法取得了較為不錯的效果,但是這并不意味 著傳統的實體對齊方法不具有研究價值。 正如文獻 [5]也指出這兩類方法是相輔相成的,結合起來考慮 會有可能取得更好的效果。 隨著知識圖譜的不斷完善,許多知識圖譜都變 得越來越復雜,規模也越來越大,原有的實體對齊 算法需要進一步考慮執行效率和準確率。 為了解決 這個問題,并行處理技術受到了越來越多地關注。目前研究工作將并行處理技術應用到實體對齊任 務中的是極少數[7],有關大規模知識圖譜的實體對 齊問題仍然需要進行深入的研究和探索。
通過 4.3 節的對比分析,可以看到針對知識圖 譜結構信息的利用還有待于繼續研究探索,無論是 鄰接實體還是實體間的關系,均對知識圖譜的更準 確表示起著至關重要的作用。使用神經網絡嵌入知 識圖譜的結構信息時,如何緩解錯誤信息的傳播至 關重要。目前普遍使用高速門機制,使得錯誤傳播 的問題得到了一定程度的緩解,但是對于單跳和多 跳實體的計算和信息傳播仍需繼續研究。此外,在知識圖譜結構信息嵌入表示方面,大 多數實體對齊模型是以實體為中心,多方面信息輔 助嵌入,在以后的研究中可以提高關系信息的占 比,甚至可以以實體之間關系為中心研究嵌入表 示,進而更深入地挖掘知識圖譜的結構信息。除了 結構信息,加入原知識圖譜中的實體描述信息使得 實體對齊效果顯著提高,如 BERT-INT,甚至可以 忽略結構信息。但是在真實大型知識圖譜中,很多實體缺乏具體準確的描述信息,所以對結構信息以 及其他未挖掘的信息有待于進一步深入研究。再 者,在實體對齊任務中,大多數模型方法在通用數 據集 DBP15K 數據集上獲得了不錯的效果。然而在 實際大型真實知識圖譜的表現一般,因此如何進一 步提出不同種類的數據集也成為實體對齊領域的 重要研究問題。
知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.
引言
知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .
為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.
盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.
本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.
1 符號定義
知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).
2.1 基于距離的模型
基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.
基于距離的模型總結
2.2 語義匹配模型
語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.
語義匹配模型總結
2.3 最新的知識圖譜嵌入模型
大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.
最新的知識圖譜嵌入模型總結
第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.
3 動態知識圖譜嵌入
當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.
4 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.
5.1 基于知識圖譜嵌入的問答
隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.
值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。
5.2 推薦系統
在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.
5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.
受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.
6 挑戰與展望
目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.
6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.
知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.
多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.
多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.
One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.
6.1.2 知識應用的復雜性
KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.
6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.
6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.
6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.
7 總結
知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.
圖分析用于深入挖掘圖數據的內在特征,然而圖作為非歐幾里德數據,傳統的數據分析方法普遍存在較高的計算量和空間開銷。圖嵌入是一種解決圖分析問題的有效方法,其將原始圖數據轉換到低維空間并保留關鍵信息,從而提升節點分類、鏈接預測、節點聚類等下游任務的性能。與以往的研究不同,同時對靜態圖和動態圖嵌入文獻進行全面回顧,我們提出一種靜態圖嵌入和動態圖嵌入通用分類方法, 即基于矩陣分解的圖嵌入、基于隨機游走的圖嵌入、基于自編碼器的圖嵌入、基于圖神經網絡(GNN)的圖嵌入和基于其他方法的圖嵌入。其次,對靜態圖和動態圖方法的理論相關性進行分析,對模型核心策略、下游任務和數據集進行全面總結。最后,提出了四個圖嵌入的潛在研究方向。
//fcst.ceaj.org/article/2022/1673-9418/1673-9418-16-1-59.shtml
圖是復雜系統中常用的信息載體,可以表示現實中許多復雜關系,如社交網絡[1]、犯罪網絡[2]、交通網絡[3]等。圖結構作為一種非歐幾里德數據,很難直接應用卷積神經網絡(convolutional neural network,CNN)[4]和循環神經網絡(recurrent neural network,RNN)[5]等深度學習方法[6]。為了構造用于圖數據挖掘的特征表示,圖嵌入將節點映射到低維空間,生成保留原始圖中某些重要信息的低維向量。目前,圖嵌入不僅在節點分類[7]、鏈接預測[8]、節點聚類[9]、可視化[10]等復雜網絡上的機器學習任務中獲得成功,還廣泛用于社交影響力建模[11]、內容推薦[12]等現實任務。
早期的圖嵌入算法主要用于數據降維,通過鄰域關系構建相似度圖,將節點嵌入低維向量空間,并保持相連節點向量的相似性。這類方法通常時間復雜度高,很難擴展到大型圖上。近年來,圖嵌入算法轉向擴展性強的方法。例如,矩陣分解方法[13]使用鄰接矩陣的近似分解作為嵌入;隨機游走法[14]將游走序列輸入到Skip-Gram[15]生成嵌入。這些方法利用圖的稀疏性降低了時間復雜度。當前,很多綜述[16,17,18,19,20,21]對圖嵌入方法進行了歸納與總結,但存在兩大局限:一是部分綜述僅涉及傳統方法介紹,許多新模型沒有納入研究;二是這些綜述只關注靜態圖嵌入或動態圖嵌入,忽略了二者之間的關聯性。
本文對圖嵌入方法進行全面系統性綜述,有以下三方面的貢獻:(1)提出一種新的圖嵌入分類法,同時對靜態圖和動態圖方法進行分類;(2)對現有模型進行系統性分析,為理解現有方法提供新視角;(3)提出了四個圖嵌入的潛在研究方向。
面向知識圖譜的知識推理旨在通過已有的知識圖譜事實,去推斷新的事實,進而實現知識庫的補全。近年來,盡管基于分布式表示學習的方法在推理任務上取得了巨大的成功,但是他們的黑盒屬性使得模型無法為預測出的事實做出解釋。所以,如何設計用戶可理解、可信賴的推理模型成為了人們關注的問題。本文從可解釋性的基本概念出發,系統梳理了面向知識圖譜的可解釋知識推理的相關工作,具體介紹了事前可解釋推理模型和事后可解釋推理模型的研究進展;根據可解釋范圍的大小,本文將事前可解釋推理模型進一步細分為全局可解釋的推理和局部可解釋的推理;在事后解釋模型中,本文回顧了推理模型的代表方法,并詳細介紹提供事后解釋的兩類解釋方法。此外,本文還總結了可解釋知識推理在醫療、金融領域的應用。隨后,本文對可解釋知識推理的現狀進行概述,最后展望了可解釋知識推理的未來發展方向,以期進一步推動可解釋推理的發展和應用。
//www.jos.org.cn/jos/article/abstract/6522
知識圖譜(Knowledge Graph)本質是一種語義網絡,通常用 (頭實體,關系,尾實體)/ ( ,r, t) h 這樣 的三元組來表達事物屬性以及事物之間的語義關系。自谷歌提出知識圖譜概念以來,知識圖譜已經為智能 問答、對話生成、個性化推薦等多個 NLP 任務領域提供了有力支撐。雖然目前的知識圖譜中存在大量的實 體和事實數據,但是這樣大規模的數據仍然不完整,大量缺失的三元組嚴重限制了這些下游任務的性能。知識推理,這一旨在根據一定的推理機制去預測圖譜中缺失三元組的任務,也吸引了學術界越來越多的目光。
早在 2013 年,Li 等人[1] 提出利用表示學習的方法去做知識推理,通過將實體和關系映射到低維連續 的向量空間,將推理預測任務轉化為實體與關系所關聯的簡單的向量/矩陣操作。鑒于該方法的自由度高、 可計算性好、推理效率高等優點,該類方法在近幾年得到了廣泛關注和發展,并且廣泛的應用在推薦系統、 對話生成等互聯網場景。在這些場景下,研究者們更多的關注如何提高知識推理的性能,忽略知識推理發 生錯誤時的風險問題。即便推理模型在這些場景下產生錯誤推理時,通常來說,并不會招致非常嚴重的后果。然而,在當今人工智能技術應用的大趨勢下,知識推理不僅可以應用在上述互聯網場景,而且越來越 多的被應用在和人類的生產生活息息相關的一些領域(例如,智能醫療[98,99,100]、軍事[112] 、金融[90,111]、交 通運輸[113,114]),這些領域往往對模型的安全性能要求較高,風險高度敏感。例如,在醫療領域,推理的可 靠性會關系到人的生命安全。通常來說,在這些領域,僅僅獲得預測結果是不夠的,模型還必須解釋是怎 么獲得這個預測的,來建立用戶和推理模型之間的信任。
隨著深度學習的發展,知識推理方法的模型結構越來越復雜,僅僅一個網絡就可能包含幾百個神經元、 百萬個參數。盡管這些推理模型在速度、穩定性、可移植性、準確性等諸多方面優于人類,但由于用戶無 法對這類模型里的參數、結構、特征產生直觀理解,對于模型的決策過程和模型的推理依據知之甚少,對 于模型的決策過程知之甚少,不知道它何時會出現錯誤,在風險敏感的領域中,用戶仍然無法信任模型的 預測結果。因此,為了建立用戶和推理模型之間的信任,平衡模型準確率和可解釋性之間的矛盾,可解釋 性知識推理在近幾年的科研會議上成為關注熱點。
盡管有很多學者對知識推理領域進行了深入的研究,并從不同的角度(如分布式表示角度[120] 、圖神 經網絡角度[121] 、神經-符號角度[119] 等)對推理模型進行梳理和總結。然而,在推理模型的可解釋性方面 卻缺少深入的對比和總結。為了促進可解釋知識推理的研究與發展,本文對現有的可解釋推理模型進行了 系統梳理、總結和展望。本文首先闡述可解釋性的定義和可解釋性在推理任務中的必要性,并介紹常見的 可解釋模型劃分標準;然后,根據解釋產生的方式,對現有的可解釋知識推理模型進行總結和歸類,并討 論相關方法的局限性;接著,簡單介紹可解釋知識推理在金融領域和醫療領域的應用。最后,本文討論可 解釋知識推理面臨的挑戰以及可能的研究方向。
1 可解釋的知識推理
在詳細介紹現有的可解釋知識推理模型之前,首先介紹知識推理的基本概念,接著對什么是可解釋性 (Interpretability),以及為什么要在推理任務中注重可解釋性進行介紹,最后對本文的劃分標準做簡要說明。
1.1 知識推理的基本概念
2012 年,谷歌正式提出知識圖譜的概念,用于改善自身的搜索質量。知識圖譜通常用 ( ,r, t) h 這樣 的三元組表達實體及其實體之間的語義關系,其中 h 代表頭實體, r 代表實體之間的關系, t 代表尾實體。例如(詹姆斯·卡梅隆,執導,泰坦尼克號)即是一個三元組,其中頭實體和尾實體分別為“詹姆斯·卡梅隆” 和“泰坦尼克號”,“執導”是兩個實體之間的關系。代表性的知識圖譜,如 DBpedia[108] 、Freebase[53] 、 Wikidata[55] 、YAGO[107] 等,雖然包含數以億計的三元組,但是卻面臨非常嚴重的數據缺失問題。據 2014 年的統計,在 Freebase 知識庫中,有 75%的人沒有國籍信息,DBpedia 中 60% 的人缺少沒有出生地信息 [125] 。知識圖譜的不完整性嚴重制約了知識圖譜在下游任務中的效能發揮。因此,如何讓機器自動基于知 識圖譜中的已有知識進行推理,從而補全和完善知識圖譜,成為了工業界和學術界都亟待解決的問題。
總的來說,面向知識圖譜的知識推理實質上是指利用機器學習或深度學習的方法,根據知識圖譜中已 有的三元組去推理出缺失的三元組,從而對知識圖譜進行補充和完善。例如,已知(詹姆斯·卡梅隆,執導, 泰坦尼克號)和(萊昂納多·迪卡普里奧,出演,泰坦尼克號),可以得到(詹姆斯·卡梅隆,合作,萊昂納 多·迪卡普里奧)。知識推理主要包含知識圖譜去噪[12] 和知識圖譜補全(又稱之為鏈接預測)[1,27,94,95]兩個 任務[117] ,其中,知識圖譜去噪任務專注于知識圖譜內部已有三元組正確性的判斷;而知識圖譜補全專注 于擴充現有的圖譜。根據要推理元素的不同,知識圖譜補全任務可以進一步細分為實體預測和關系預測。其中,實體預測是指給定查詢 ( ,r,?) h ,利用已有事實的關系,推理出另一個實體并由此構成完整三元組, 同理,關系預測則是指給定查詢 ( ,?, t) h ,推理給定的頭尾實體之間的關系。由于知識圖譜中大多數三元組 都是正確的,知識圖譜去噪任務通常采用對已有三元組進行聯合建模并進一步判斷特定三元組是否成立的 方法。在這種情況下,知識圖譜補全任務可以轉化為知識圖譜去噪任務[123,124]。為此,在下面的內容里,本 文以知識圖譜補全任務為中心,對相關的可解釋性方法進行梳理和總結。
1.2 可解釋性及其在知識推理中的必要性
目前學術界和工業界對于可解釋性沒有明確的數學定義[62] ,不同的研究者解決問題的角度不同,為 可解釋性賦予的涵義也不同,所提出的可解釋性方法也各有側重。目前被廣泛接受的一種定義由 Miller (2017)[2,42]所提出,指可解釋性是人們能夠理解決策原因的程度。如果一個模型比另一個模型的決策過程 更簡單、明了、易于理解,那么它就比另一個模型具有更高的可解釋性。
在某些情況下,我們不必關心模型為什么做出這樣的預測,因為它們是在低風險的環境中使用的,這 意味著錯誤不會造成嚴重后果(例如,電影推薦系統),但是對于某些問題或任務,僅僅獲得預測結果是 不夠的。該模型還必須解釋是怎么獲得這個預測的,因為正確的預測只部分地解決了原始問題。通常來說, 以下三點原因推動了對可解釋性的需求:
1、高可靠性要求。盡管可解釋性對于一些系統來說并不是不可或缺的,但是,對于某些需要高度可靠 的預測系統來說很重要,因為錯誤可能會導致災難性的結果(例如,人的生命、重大的經濟損失)。可解釋性可以使潛在的錯誤更容易被檢測到,避免嚴重的后果。此外,它可以幫助工程師查明根 本原因并相應地提供修復。可解釋性不會使模型更可靠或其性能更好,但它是構建高度可靠系統 的重要組成部分。
2、道德和法律要求。第一個要求是檢測算法歧視。由于機器學習技術的性質,經過訓練的深度神經網 絡可能會繼承訓練集中的偏差,這有時很難被注意到。在我們的日常生活中使用 DNN 時存在公 平性問題,例如抵押資格、信用和保險風險評估。人們要求算法能夠解釋作出特定預測或判斷的 原因,希望模型的解釋能夠使“算法歧視”的受害者訴諸人權。此外,推理模型目前也被用于新 藥的發現和設計[124] 。在藥物設計領域,除了臨床測試結果以外,新藥還需要通常還需要支持結 果的生物學機制,需要具備可解釋性才能獲得監管機構的批準,例如國家藥品監督管理局 (NMPA)。
3、科學發現的要求。推理模型本身應該成為知識的來源,可解釋性使提取模型捕獲的這些額外知識成 為可能。當深度網絡達到比舊模型更好的性能時,它們一定發現了一些未知的“知識”。可解釋性 是揭示這些知識的一種方式。
1.3 本文的劃分標準
根據不同的劃分標準,知識推理模型可以被劃分成不同的類別。其中,根據解釋產生的方法,可以將 推理模型劃分為兩大類:事前可解釋和事后可解釋[41,62,96,97,102,118]。其中,事前可解釋模型主要指不需要額 外的解釋方法,解釋蘊含在自身架構之中的模型。事后可解釋性是指模型訓練后運用解釋方法進行推理過 程和推理結果的解釋,解釋方法自身是不包含在模型里面的。一種方法被看作能夠對黑盒模型進行解釋, 是指該方法可以:(1)通過可解釋和透明的模型(例如,淺決策樹、規則列表或者稀疏線性模型)對模型 的行為進行近似,可以為模型提供全局的可解釋;(2)能夠解釋模型在特定輸入樣例上進行預測的原因;(3)可以對模型進行內部檢查,了解模型的某些特定屬性,譬如模型敏感性或深度學習中神經元在某一特 定決策中起到的作用[41] 。值得注意的是,可以將事后解釋方法應用于事前可解釋的模型上,例如,可以 從敏感性分析的角度對事前模型進行剖析。此外,根據可解釋的范圍大小----是否解釋單個實例預測或整個 模型行為,可以將模型劃分為局部可解釋和全局可解釋兩大類[97,96];根據解釋方法是否特定于模型,可以 將模型劃分為特定于模型和模型無關兩種類別[96] 。在接下來的內容里,本文按照解釋產生的方式,對知 識推理模型進行總結和歸類。
近年來,知識圖譜(KG)的構建和應用得到了快速的發展。大量的KGs,如Freebase、DBpedia、YAGO和NELL,已經被創建并成功地應用于許多實際應用中,從語義解析和命名實體消歧到信息提取和問答。KG是由實體(節點)和關系(不同類型的邊)組成的多關系圖。每條邊都表示為形式(頭實體、關系、尾實體)的三個部分,也稱為事實,表示兩個實體通過特定的關系連接在一起,例如(AlfredHitchcock, DirectorOf, Psycho)。雖然在表示結構化數據方面很有效,但是這類三元組的底層符號特性通常使KGs很難操作。
為了解決這個問題,提出了一種新的研究方向——知識圖譜嵌入。關鍵思想是嵌入KG的組件,包括將實體和關系轉化為連續的向量空間,從而簡化操作,同時保留KG的原有的結構。那些實體和關系嵌入能進一步應用于各種任務中,如KG補全、關系提取、實體分類和實體解析。
摘要
知識圖譜(KGs)在工業和學術領域有很多應用,這反過來又推動了朝著大規模地從各種來源提取信息大量的研究工作。盡管付出了這些努力,但眾所周知,即使是最先進的KGs也是不完整的。鏈路預測(Link Prediction, LP)是一種根據KG中已存在的實體去預測缺失事實的任務,是一種有前途的、廣泛研究的、旨在解決KG的不完整的任務。在最近的LP技術中,基于KG嵌入的LP技術在一些基準測試中取得了很好的性能。盡管這方面的文獻在迅速增加,但對這些方法中各種設計選擇的影響卻沒有引起足夠的注意。此外,這一領域的標準做法是通過測試大量的事實來報告準確性,其中一些實體被過度表示;這允許LP方法通過只修改包含這些實體的結構屬性來展示良好的性能,而忽略KG的主要部分。本篇綜述分析提供了基于嵌入的LP方法的全面比較,將分析的維度擴展到常見的文獻范圍之外。我們通過實驗比較了16種最先進的方法的有效性和效率,考慮了一個基于規則的基準,并報告了文獻中最流行的基準的詳細分析。
介紹
知識圖譜(KGs)是真實世界信息的結構化表示。在一個KG中,節點表示實體,例如人和地點;標簽是連接它們的關系類型;邊是用關系連接兩個實體的特定事實。由于KGs能夠以機器可讀的方式對結構化、復雜的數據進行建模,因此它被廣泛應用于各個領域,從問答到信息檢索和基于內容的推薦系統,并且對于任何語義web項目都非常重要。常見的KG有FreeBase、WikiData、DBPedia、Yago和行業KG有谷歌KG、Satori和Facebook Graph Search。這些巨大的KG可以包含數百萬個實體和數十億個事實。
盡管有這樣的努力,但眾所周知,即使是最先進的KGs也存在不完整性問題。例如,據觀察FreeBase是用于研究目的的最大和最廣泛使用的KGs之一,但是在FreeBase中超過70%的個體沒有出生地點,超過99%的個體沒有民族。這使得研究人員提出了各種各樣的技術來糾正錯誤,并將缺失的事實添加到KGs中,通常稱為知識圖譜補全或知識圖譜增強任務。可以通過從外部源(如Web語料庫)提取新的事實,或者從KG中已經存在的事實推斷缺失的事實,來增長現有的KG。后來的方法,稱為鏈接預測(LP),是我們分析的重點。
LP一直是一個日益活躍的研究領域,最近受益于機器學習和深度學習技術的爆炸式增長。目前絕大多數LP模型使用原始的KG元素來學習低維表示,稱為知識圖譜嵌入,然后利用它們來推斷新的事實。在短短幾年的時間里,研究人員受到RESCAL和TransE等一些開創性工作的啟發,開發了幾十種基于不同的架構的新模型。這一領域的絕大多數論文都有一個共同點,但也存在問題,那就是它們報告的結果匯總在大量的測試事實之上,其中很少有實體被過度表示。因此,LP方法可以在這些基準上表現出良好的性能,只對這些實體進行訪問,而忽略其他實體。此外,當前最佳實踐的局限性可能使人們難以理解這一文獻中的論文是如何結合在一起的,以及如何描述出值得追求的研究方向。除此之外,目前技術的優點、缺點和局限性仍然是未知的,也就是說,幾乎沒有研究過允許模型更好地執行的情況。粗略地說,我們仍然不知道是什么可以讓一個事實變得容易還是難以學習和預測。
為了緩解上述問題,我們對一組有代表性的基于KG嵌入的LP模型進行了廣泛的比較分析。我們優先考慮最先進的系統,并考慮屬于廣泛的體系結構的工作。我們從零開始對這些系統進行訓練和調整,并通過提出新的、信息豐富的評估實踐,提供超出原始論文的實驗結果。具體是:
我們考慮了16個模型,屬于不同的機器學習和深度學習架構;我們還采用了一個基于規則挖掘的附加的最先進的LP模型作為基線。我們提供了實驗比較考慮的方法的詳細描述和相關文獻的總結,以及知識圖譜嵌入技術的教育分類。 我們考慮了5個最常用的數據集,以及目前用于基準測試的最流行的指標;我們詳細分析了它們的特點和特性。 對于每個模型,我們為每個數據集提供了效率和有效性的定量結果。 我們在訓練數據中提出一組結構特征,并測量它們如何影響每個模型對每個測試事實的預測性能。
方法概述
在本節中,我們描述并討論了基于潛在特征的知識管理的主要方法。正如在第2節中所描述的,LP模型可以利用各種各樣的方法和架構,這取決于它們如何對優化問題進行建模,以及它們實現來處理優化問題的技術。
為了概述它們高度不同的特征,我們提出了一種新的分類法,如圖1所示。我們列出了三個主要的系列模型,并進一步將它們劃分為更小的組,以獨特的顏色標識。對于每個組,我們都包括最有效的代表性模型,優先考慮那些達到最先進性能的模型,并且在任何可能的情況下,優先考慮那些具有公開可用實現的模型。結果是一組16個模型,基于極其多樣化的架構;這些是我們隨后在比較分析的實驗部分所使用的模型。對于每個模型,我們還報告了發表的年份以及從其他模型得到的信息。我們認為,這種分類有助于理解這些模型和在我們的工作中進行的實驗。表1報告了關于所包括的模型的進一步信息,例如它們的損失函數和空間復雜性。我們確定了三大類模型:1)張量分解模型;2)幾何模型;3)深度學習模型。
張量分解模型
這個家族的模型將LP解釋為一個張量分解的任務。這些模型隱式地將KG考慮為一個三維鄰接矩陣(即一個3維張量),由于KG的不完整性,這個鄰接矩陣只有部分可觀測。張量被分解成低維向量的組合(比如一個多線性乘積):這些向量被用作實體和關系的嵌入表示。張量分解的核心思想是,只要訓練集訓練不過擬合,則學習到的嵌入應該能夠泛化,并將高值與圖鄰接矩陣中不可觀測的真實事實相關聯。在實踐中,每個事實的得分都是通過對事實中涉及的特定嵌入進行組合計算得出的;通過優化所有訓練事實的評分函數,可以像往常一樣進行學習嵌入。這些模型傾向于使用很少或根本沒有共享參數;這使得它們特別容易訓練。
幾何模型
幾何模型將關系解釋為潛在空間的幾何變換。對于給定的事實,頭實體嵌入進行空間轉換τ,使用嵌入的關系作為參數的值。對事實評分的值是結果向量和尾向量之間的距離;這樣則可以使用距離函數計算δ(例如L1和L2范數)。
?
深度學習模型
深度學習模型使用深度神經網絡來執行LP任務。神經網絡學習參數,如權重和偏差,它們結合輸入數據,以識別顯著模式。深度神經網絡通常將參數組織成獨立的層,通常穿插非線性激活函數。
隨著時間的推移,人們開發了許多不同類型的層,對輸入數據應用不同的操作。例如,全連接層將把輸入數據X與權重W結合起來,并添加一個偏差B: W X + B。為了簡單起見,在下面的公式中我們將不提及偏差的使用,使其保持隱式。更高級的層執行更復雜的操作,如卷積層(它學習卷積內核以應用于輸入數據)或遞歸層(以遞歸方式處理順序輸入)。
在LP任務中,通常結合各層的權重和偏差來學習KG嵌入;這些共享的參數使這些模型更有表現力,但可能導致參數更多,更難訓練,更容易過擬合。