隨著人工智能和大數據的爆炸式增長,如何合理地組織和表示海量的知識變得至關重要。知識圖譜作為圖數據,積累和傳遞現實世界的知識。知識圖譜可以有效地表示復雜信息;因此,近年來迅速受到學術界和工業界的關注。為了加深對知識圖譜的理解,對該領域進行了系統綜述。具體來說,關注知識圖譜的機遇和挑戰。首先從兩個方面回顧了知識圖譜的發展機遇: (1)基于知識圖譜構建的人工智能系統; (2)知識圖譜的潛在應用領域。然后,深入討論了該領域面臨的知識圖譜表示、知識獲取、知識補全、知識融合和知識推理等技術挑戰;本綜述將為知識圖譜的未來研究和發展提供新的思路。 //www.zhuanzhi.ai/paper/93a14b6709974a3bbd86c10302053fea1. 引言
知識在人類的生存和發展中起著至關重要的作用。學習和表示人類知識是人工智能(AI)研究中的關鍵任務。雖然人類能夠理解和分析周圍環境,但AI系統需要額外的知識才能獲得相同的能力并解決現實場景中的復雜任務(Ji et al, 2021)。為了支持這些系統,我們已經看到了根據不同的概念模型來表示人類知識的許多方法的出現。在過去十年中,知識圖譜已經成為這一領域的標準解決方案,也是學術界和工業界的研究趨勢(Kong et al, 2022)。 **知識圖譜被定義為積累和傳遞真實世界知識的數據圖譜。知識圖譜中的節點表示感興趣的實體,邊表示實體之間的關系(Hogan et al, 2021;Cheng et al, 2022b)。**這些表示利用了形式化語義,這使得計算機能夠高效且無歧義地處理它們。例如,實體“比爾·蓋茨”可以與實體“微軟”聯系起來,因為比爾·蓋茨是微軟的創始人;因此,他們在現實世界中是有關系的。 由于知識圖譜在機器可讀環境下處理異構信息方面的重要意義,近年來對這些解決方案持續開展了大量研究(Dai et al, 2020b)。所提出的知識圖譜最近被廣泛應用于各種人工智能系統(Ko等,2021;Mohamed et al, 2021),如推薦系統、問答系統和信息檢索。它們也被廣泛應用于許多領域(例如教育和醫療保健),以造福人類生活和社會。(Sun et al, 2020;Bounhas et al, 2020)。 因此,知識圖譜通過提高人工智能系統的質量并應用到各個領域,抓住了巨大的機遇。然而,知識圖譜的研究仍然面臨著重大的技術挑戰。例如,現有的從多個來源獲取知識并將其集成到典型的知識圖譜中的技術存在很大的局限性。因此,知識圖譜在現代社會中提供了巨大的機遇。然而,它們的發展存在著技術上的挑戰。因此,有必要對知識圖譜進行機遇與挑戰的分析,以更好地理解知識圖譜。 為深入了解知識圖譜的發展歷程,全面分析了知識圖譜面臨的機遇和挑戰。首先,從知識圖譜顯著提升人工智能系統性能和受益于知識圖譜的應用領域兩個方面討論了知識圖譜的機遇;然后,考慮到知識圖譜技術的局限性,分析了知識圖譜面臨的挑戰;本文的主要貢獻如下:
**知識圖譜研究綜述。**對現有的知識圖譜研究進行了全面的調研。詳細分析了知識圖譜的最新技術和應用進展。
**知識圖譜機遇。**本文從利用知識圖譜的基于知識圖譜的人工智能系統和應用領域的角度,研究了知識圖譜的潛在機會。研究了知識圖譜對人工智能系統的好處,包括推薦系統、問答系統和信息檢索。然后,通過描述知識圖譜在教育、科研、社交媒體、醫療等各個領域的當前和潛在應用,探討了知識圖譜對人類社會的深遠影響。
**知識圖譜挑戰。**本文對知識圖譜面臨的重大技術挑戰提供了深入的見解。特別地,從知識圖譜表示、知識獲取、知識圖譜補全、知識融合和知識推理等5個方面,分析了目前具有代表性的知識圖譜技術的局限性。
論文的其余部分組織如下。第2節對知識圖譜進行概述,包括知識圖譜的定義和現有研究的分類。第3節和第4節分別介紹了相關的AI系統和應用領域,探討了知識圖譜的機遇。第5節詳細介紹了基于這些技術的知識圖譜面臨的挑戰。最后,在第6節對本文進行總結。
2 概述
首先給出知識圖譜的定義;然后,對該領域的重要最新研究進行了分類。 2.1 什么是知識圖譜?
知識庫是一種典型的數據集,它以三元組的形式表示現實世界中的事實和語義關系。當三元組被表示為一個邊為關系、節點為實體的圖時,它被認為是一個知識圖譜。通常,知識圖譜和知識庫被視為同一個概念,可以互換使用。此外,知識圖譜的模式可以定義為一個本體,它顯示了特定領域的屬性以及它們之間的關系。因此,本體構建是知識圖譜構建的一個重要階段。
2012年,谷歌首次提出了知識圖譜,介紹了他們的知識庫谷歌知識圖譜(Ehrlinger and W¨o?, 2016)。隨后,引入并采用了許多知識圖譜,例如:
DBpedia,一個知識圖譜,它試圖從維基百科中發現有語義意義的信息,并將其轉化為DBpedia中一個有效的結構良好的本體知識庫(Auer et al, 2007)。 * Freebase,一個基于多個來源的知識圖譜,提供結構化和全球性的信息資源(Bollacker et al, 2008)。 * Facebook的實體圖(entity graph),這是一個知識圖譜,可以將用戶配置文件的非結構化內容轉換為有意義的結構化數據(Ugander et al, 2011)。 * Wikidata,一個跨語言的面向文檔的知識圖譜,支持許多網站和服務,如維基百科(Vrande ci′c and Kr¨otzsch, 2014)。 * Yago,是一個高質量的知識庫,包含大量的實體及其對應關系。這些實體是從維基百科和WordNet等多個來源提取的(Rebele et al, 2016)。 * WordNet,是一個衡量單詞之間語義相似度的詞匯知識庫。該知識庫包含許多層次概念圖來分析語義相似度(Pedersen et al, 2004)。
知識圖譜是由節點和邊組成的有向圖,其中一個節點表示一個實體(真實對象或抽象概念),兩個節點之間的邊表達了兩個實體之間的語義關系(Bordes et al, 2011)。資源描述框架(Resource Description Framework, RDF)和標簽屬性圖(Labeled Property Graphs, LPGs)是兩種典型的知識圖譜表示和管理方法(F¨arber等,2018;博肯,2020)。知識圖譜的基本單位是三元組(主語、謂語、賓語)(或(頭、關系、尾)),即(比爾·蓋茨,創始人,微軟)。由于關系不一定是對稱的,所以鏈接的方向很重要。因此,知識圖譜也可以看成是頭部實體通過關系邊指向尾部實體的有向圖
圖2知識圖譜研究
圖1描繪了一個簡單知識圖譜的例子。如圖1所示,圖中顏色變暗2 的節點e1 and通過關系r連接,關系r從e1到e2。因此,e1、e2、r1可以形成三元組(e1、r1、e2),其中eand分別2 是頭實體1 和尾實體。 近年來,知識圖譜得到了廣泛的研究興趣。大量的研究集中在對知識圖譜的探索上。對知識圖譜進行了全面的綜述,列出了當前該領域的7類重要研究。圖2顯示了關于知識圖譜的最流行的研究路線的模式。其中,人工智能系統是利用知識圖譜作為基礎的服務,應用領域是知識圖譜所觸及的領域。列出這兩條研究方向是為了探討知識圖譜的發展機遇。另外5個研究方向是5個主要的知識圖譜技術,對應5個任務。對這5種技術進行了介紹,并強調了它們的局限性,為知識圖譜面臨的主要挑戰提供了有益的啟示。 * 知識圖譜嵌入:知識圖譜嵌入是知識圖譜嵌入研究的中心問題之一。該任務旨在將知識圖譜中的實體和關系映射到低維向量空間,從而高效地捕捉知識圖譜的語義和結構(Dai等,2020b)。然后,通過機器學習模型可以有效地學習得到的特征向量。三種主要的基于三元組事實的嵌入方法如下:(a)基于張量因子分解的,(b)基于翻譯的,和(c)基于神經網絡的方法(Dai et al, 2020b)。 * **知識獲取:**知識獲取主要是對知識圖譜進行建模和構建,是知識圖譜研究的另一個重要研究方向。通常,知識是通過使用映射語言(如R2RML)從結構化來源導入的(Rodriguez- Muro and Rezk, 2015)。此外,知識可以從
非結構化文檔(如新聞、研究論文和專利),采用關系、實體或屬性提取方法(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。 * 知識圖譜完備性:盡管構建知識圖譜的方法有很多,但要建立一個領域內所有知識的全面表示仍然是不可實現的。大多數知識圖譜仍然缺乏大量的實體和關系。因此,對完備的知識圖譜進行了大量的研究。知識圖譜補全技術旨在通過預測新增的關系和實體來提高知識圖譜的質量。第一個任務通常采用鏈接預測技術生成三元組,然后對三元組的可信度評分進行分配(Ji et al, 2021)。第二個任務采用實體預測方法來獲取和整合來自外部來源的進一步信息。
**知識融合:**知識融合也是一個重要的研究方向,專注于捕獲不同來源的知識,并將其集成到知識圖譜中(Nguyen et al, 2020)。知識融合方法對于知識圖譜的生成和完善都有重要意義。最近,實體對齊已經成為實現知識融合任務的主要方法。 * **知識推理:**通過推理來豐富知識圖譜,旨在基于現有數據推斷新的事實(Minervini et al, 2020),是目前的研究熱點。特別是,在兩個不相連的實體之間推斷出新的關系,形成新的三元組。而且,通過推理出虛假的事實,知識推理具有識別錯誤知識的能力。知識推理的主要方法包括基于邏輯規則的方法、基于分布式表示的方法和基于神經網絡的方法(Chen et al, 2020b)。 * 人工智能系統:如今,知識圖譜被推薦、問答系統和信息檢索工具等人工智能系統(Liang et al, 2022)廣泛使用。通常情況下,知識圖譜中豐富的信息可以提高解決方案的性能。因此,許多研究側重于利用知識圖譜來提高人工智能系統的性能。 * **應用領域:**知識圖譜在教育、科學研究、社交媒體和醫療保健等各個領域都有眾多應用(Li et al, 2020b)。提高人類生活水平,需要各種智能應用。
與其他工作不同,重點關注知識圖譜的機遇與挑戰。特別是,隨著人工智能服務質量的提高,知識圖譜在各個領域的應用將迎來巨大的機遇。相反,認為知識圖譜技術的局限性是其面臨的挑戰。因此,討論知識圖譜表示、知識獲取、知識圖譜補全、知識融合、知識推理等方面的技術局限性。 3 面向人工智能系統的知識圖譜
本節通過分析知識圖譜對提高人工智能系統的功能所帶來的優勢,來說明它所帶來的機遇。具體來說,有幾個系統,包括推薦系統、問答系統和信息檢索工具(Guo et al, 2020;鄒,2020),將知識圖譜用于輸入數據,并從知識圖譜中獲益最大。除了這些系統外,其他人工智能系統,如圖像識別系統(Chen et al, 2020a),也開始考慮知識圖譜的特征。然而,知識圖譜在這些系統中的應用并不廣泛。此外,這些系統并沒有直接利用知識圖譜對輸入數據進行性能優化。因此,詳細討論了知識圖譜為推薦系統、問答系統和信息檢索工具帶來的優勢,分析了知識圖譜的發展機遇。通常,這些解決方案可以從采用知識圖譜中獲益,這些圖譜提供了高質量的領域知識表示。表1展示了我們將在下面討論的AI系統的摘要。
推薦系統 * 問答系統 * 信息檢索
4 應用和潛力
在本節中,我們將討論知識圖譜在教育、科學研究、社會網絡和健康/醫療保健四個領域的應用和潛力。盡管一些研究人員試圖利用知識圖譜開發其他領域的有益應用,如金融(Cheng et al, 2022c),但基于知識圖譜的智能服務在這些領域相對模糊,仍然需要探索。因此,本節主要圍繞教育、科研、社會網絡、醫療等方面,對知識圖譜的機遇進行總結。表2給出了知識圖譜在這些領域的幾個最新應用。 5 技術挑戰
雖然知識圖譜為各種服務和應用提供了極好的機會,但仍有許多挑戰有待解決(Noy等,2019)。具體而言,現有知識圖譜技術的局限性是推動知識圖譜發展的關鍵挑戰(Hogan et al, 2021)。因此,本節從知識圖譜嵌入、知識獲取、知識圖譜補全、知識融合和知識推理這5種熱門知識圖譜技術的局限性出發,討論知識圖譜面臨的挑戰。 5.1 知識圖譜的嵌入
知識圖譜嵌入的目標是在低維向量空間中有效表示知識圖譜,同時仍保留其語義(Xia et al, 2021;Vashishth et al, 2020)。首先,將實體和關系嵌入到給定知識圖譜的稠密維空間,并定義評分函數衡量每個事實(三元組)的可信性;然后,最大化事實的似然性以獲得實體和關系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知識圖譜的表示為下游任務帶來了諸多好處。基于三元組事實的知識圖譜嵌入方法主要有3類:基于張量因子化的方法、基于翻譯的方法和基于神經網絡的方法(Rossi et al, 2021)。 5.1.1 基于張量因子分解的方法
基于張量因子分解方法的核心思想是將知識圖譜中的三元組轉化為3D張量(Balazevi′c et al, 2019)。如圖5所示,張量X∈Rm×m×n,其中m和n分別表示實體和關系的數量,包含n個切片,每個切片對應一種關系類型。當滿足條件Xijk = 1時,知識圖譜中存在三元組(ej i, rk, e),其中e和r分別表示實體和關系。否則,當Xijk = 0時,表示知識圖譜中不存在這樣的三元組。那么,張量由由實體和關系的向量組成的嵌入矩陣表示。 5.1.2 基于翻譯的方法
基于翻譯的方法利用了基于翻譯不變性的評分函數。翻譯不變性解釋兩個詞的向量之間的距離,這是由它們的語義關系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻譯不變性的評分函數進行度量
嵌入結果。他們創造性地提出了TransE模型,該模型將知識圖譜中所有的實體和關系轉換到一個連續的低向量空間中。具體來說,三元組中頭部和尾部實體的向量由它們關系的向量連接起來。因此,在向量空間中,每個三元組的語義含義都被保留了下來。形式上,給定一個三元組(頭、關系、尾),頭實體、關系、尾實體的嵌入向量分別是h、r、t。在向量空間中,三元組(h, r, t)的似真度由基于平移不變性的評分函數計算,以確保它遵循幾何原理:h + r≈t。 在TransE之后,相關的擴展不斷被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻譯的知識圖譜表示的性能。
5.1.3 基于神經網絡的方法
目前,深度學習已經成為知識圖譜表示的流行工具,有相當多的研究提出使用神經網絡表示知識圖譜的三元組(Dai et al, 2020a)。在本節中,以SME、ConvKB和R-GCN這3個代表性的工作為例,對基于神經網絡的知識圖譜表示進行簡要介紹。 SME (Bordes et al, 2014)設計了一個能量函數來進行語義匹配,該能量函數利用神經網絡來度量知識圖譜中每個三元組(h, r, t)的置信度。SME的評分函數定義如下:
SME (bilinear)的評分函數為:
5.1.4 現有方法的局限性
現有的知識圖譜嵌入方法仍然存在嚴重的局限性。許多已有的方法只考慮知識圖譜的表面事實(三元組)。然而,忽略了實體類型和關系路徑等附加信息,這些信息可以進一步提高嵌入精度。大多數不考慮附加信息的傳統方法的性能并不令人滿意。表3列出了不考慮附加信息的嵌入方法。在表3中,性能評估是基于鏈接預測和三元組分類任務。用于評估結果的指標是命中率為10 (Hits@10)和準確率。如表3所示,只有少數模型有令人印象深刻的結果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的結果。近年來,一些研究人員開始將附加信息與知識圖譜結合起來,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的實體類型信息,即每個實體的語義類別,來獲得實體之間的相關性,并解決數據稀疏問題。因此,知識圖譜的表示更加準確。不僅是實體類型,有些其他信息,包括關系路徑(Li et al, 2021)、動態圖的時間信息(Messner et al, 2022)和實體的文本描述(An et al, 2018),近年來也得到了研究人員的關注。然而,如何有效利用豐富的附加信息來提高知識圖譜表示的準確性仍然是一個艱巨的挑戰。 一般附加信息不能充分表示三元組的語義。例如,實體類型與三元組的語義信息無關。此外,可以納入三元組特征的附加信息的類型現在受到了嚴重的限制。因此,為了提高現有知識圖譜嵌入方法的性能,需要在三元組特征中融入多元信息(如關系的分層描述、實體類型與文本描述的結合)。 就我們所知,復雜關系路徑仍然是一個開放的研究問題(Peng et al, 2021)。例如,內在關系,指的是兩個不相連的實體之間的間接關系,沒有被有效地表示出來。雖然通過知識圖譜中的關系鏈可以挖掘實體間的內在關系,但實體間的內在關系復雜多樣。因此,有效地表示這些關系并不是一件直接的事情。 5.2 知識獲取
知識獲取是融合不同來源的數據并生成新的知識圖譜的關鍵步驟。知識從結構化和非結構化數據中提取。知識獲取的三種主要方法是關系抽取、實體抽取和屬性抽取(Fu et al, 2019)。這里,屬性抽取可以看作是實體抽取的一種特例。Zhang等人(Zhang et al, 2019b)利用知識圖譜嵌入和圖卷積網絡提取長尾關系。Shi等人(Shi et al, 2021)提出實體集擴展構建大規模知識圖譜。 然而,現有的知識獲取方法仍然面臨準確率低的挑戰,這可能導致知識圖譜不完整或噪音大,阻礙下游任務的完成。因此,第一個關鍵問題是知識獲取工具及其評估的可靠性。此外,特定于領域的知識圖譜模式是面向知識的,而構建的知識圖譜模式是面向數據的,以覆蓋所有數據特征(Zhou等,2022)。因此,從原始數據中抽取實體和屬性來生成特定領域的知識圖譜是低效的。因此,如何通過生成面向特定領域的知識圖譜來高效地完成知識獲取任務是一個至關重要的問題。 此外,現有的知識獲取方法大多針對特定語言構建知識圖譜。然而,為了使知識圖譜中的信息更豐富、更全面,需要進行跨語言實體抽取。因此,給予更多是至關重要的 關注跨語言實體抽取和多語言知識圖譜的生成。例如,Bekoulis et al.(Bekoulis et al, 2018)提出了一種跨語言(英語和荷蘭語)實體和關系抽取的聯合神經模型。然而,由于非英語訓練數據集有限,語言翻譯系統并不總是準確的,并且跨語言實體抽取模型必須針對每一種新語言重新訓練,多語言知識圖譜構建仍然是一項艱巨的任務。 多模態知識圖譜構建被認為是知識獲取的另一個具有挑戰性的問題。現有的知識圖譜多采用純符號表示,導致機器理解現實世界的能力較差(Zhu et al, 2022b)。因此,許多研究人員關注于包含文本、圖像等多種實體的多模態知識圖譜。多模態知識圖譜的構建需要探索具有不同模態的實體,使得知識獲取任務復雜且效率低下。
5.3 知識圖譜補全
知識圖譜通常是不完整的,即缺少幾個相關的三元組和實體(Zhang et al, 2020b)。例如,在Freebase,最著名的知識圖譜之一,超過一半的人實體沒有關于他們的出生地和父母的信息。一般情況下,可用于保證知識圖譜質量的半自動化和人工利用機制是知識圖譜完成度評價必不可少的工具。具體而言,人類監督目前被認為是知識圖譜完成中的金標準評價(Ballandies和Pournaras, 2021年)。
知識圖譜補全旨在利用鏈接預測技術,通過添加新的三元組來擴展現有的知識圖譜(Wang et al, 2020b;Akrami et al, 2020)和實體預測(Ji et al, 2021)。這些方法通常在知識圖譜上訓練機器學習模型,以評估新的候選三元組的合理性。然后,他們將具有高可信度的候選三元組添加到圖譜中。例如,對于一個不完整的三元組(Tom, friendOf, ?),可以評估尾巴的范圍,并返回更可信的,以豐富知識圖譜。這些模型成功地利用了許多不同領域的知識圖譜,包括數字圖書館(Yao等,2017年)、生物醫學(Harnoune等,2021年)、社交媒體(Abu-Salih, 2021年)和科學研究(Nayyeri等,2021年)。一些新的方法能夠處理每個三元組與置信值相關聯的模糊知識圖譜(Chen et al, 2019)。
然而,現有的知識圖譜補全方法僅關注于從封閉世界的數據源中抽取三元組。這意味著生成的三元組是新的,但三元組中的實體或關系需要已經存在于知識圖譜中。例如,對于不完整的三元組(Tom, friendOf, ?),只有當實體Jerry已經在知識圖譜中,才有可能預測三元組(Tom, friendOf, Jerry)。由于這一限制, 這些方法無法向知識圖譜中添加新的實體和關系。為了解決這個問題,我們開始看到知識圖譜補全的開放世界技術的出現,這些技術從現有的知識庫之外提取潛在的對象。例如,ConMask模型(Shi和Weninger, 2018)被提出用于預測知識圖譜中未見實體。然而,開放世界知識圖譜的補全方法仍存在準確率不高的問題。主要原因是數據源通常比較復雜和嘈雜。此外,預測的新實體與現有實體的相似性可能會誤導結果。換句話說,兩個相似的實體被視為有聯系的實體,而它們可能沒有直接關系。
知識圖譜補全方法假設知識圖譜是靜態的,無法捕捉知識圖譜的動態演化。為了獲得隨時間變化的準確事實,考慮反映知識有效性的時態信息的時態知識圖譜補全技術應運而生。與靜態知識圖譜補全方法相比,時序知識圖譜補全方法將時間戳融入到學習過程中。因此,它們探索了時間敏感的事實,并顯著提高了鏈路預測精度。時序知識圖譜補全方法在取得優異性能的同時,也面臨著嚴峻的挑戰。由于這些模型認為時間信息的效率較低(Shao et al, 2022),時序知識圖譜補全的關鍵挑戰是如何有效地將事實的時間戳納入學習模型,并適當地捕獲事實的時序動態。
5.4 知識融合
知識融合旨在將來自不同數據源的知識進行組合和整合。它往往是知識圖譜生成的必要步驟(Nguyen et al, 2020;Smirnov和Levashova, 2019)。知識融合的主要方法是實體對齊或本體對齊(Ren et al, 2021),旨在從多個知識圖譜中匹配同一實體(Zhao et al, 2020)。由于數據的復雜性、多樣性和大數據量,實現高效、準確的知識圖譜融合是一項具有挑戰性的任務。
雖然在這個方向已經做了大量的工作,但仍然有幾個有趣的研究方向值得在未來進行研究。這通常用于支持跨語言推薦系統(Javed et al, 2021)。例如,Xu et al. (Xu et al., 2019)采用圖匹配神經網絡實現跨語言實體對齊。然而,由于來自不同語言的匹配實體的準確率相對較低,跨語言知識融合的結果仍然不盡人意。因此,探索跨語言知識融合仍然是一項艱巨的挑戰。
另一個主要挑戰是實體消歧(Nguyen et al, 2020)。作為自然語言的一詞多義問題,同一個實體在不同的知識圖譜中可能有不同的表達方式。因此,在進行實體對齊之前,需要對實體進行消歧。現有的實體消歧方法主要集中在基于從包含豐富語境信息的文本中提取知識來判別和匹配歧義實體(Zhu and Iglesias, 2018)。然而,當文本較短且上下文信息有限時,這些方法無法精確衡量實體的語義相似度。只有少數工作專注于解決這個問題。例如,Zhu和Iglesias (Zhu and Iglesias, 2018)提出了用于實體消歧的SCSNED。SCSNED同時基于知識圖譜中實體的含信息量詞和短文本中的上下文信息來度量語義相似度。雖然SCSNED在一定程度上緩解了上下文信息有限的問題,但還需要更多的努力來提高實體消歧的性能。
此外,許多知識融合方法只注重匹配具有相同模態的實體,忽略了知識以不同形式呈現的多模態場景。具體而言,僅考慮單模態知識圖譜場景的實體對齊,由于不能充分反映現實世界中實體之間的關系,性能不顯著(Cheng等,2022a)。最近,為了解決這一問題,一些研究提出了多模態知識融合,將具有不同模態的實體進行匹配,生成多模態知識圖譜。例如,HMEA (Guo et al, 2021)通過將多模態表示映射到雙曲空間,將實體與多種形式對齊。盡管許多研究人員已經在多模態知識融合方面進行了研究,但這仍然是一項關鍵任務。多模態知識融合主要是通過整合它們的多模態特征來尋找等價實體(Cheng et al, 2022a)。然而,如何有效地合并具有多模態的特征仍然是當前方法面臨的棘手問題。
5.5 知識推理
知識推理的目標是推理新的知識,如兩個實體之間的隱式關系(Liu等人,2021;Wang et al, 2019c),基于現有數據。對于給定的知識圖譜,其中存在兩個不相連的實體h和t,表示為h, t∈G,這里G表示知識圖譜,知識推理可以發現這些實體之間的潛在關系r,形成新的三元組(h, r, t)。知識推理方法主要分為基于邏輯規則的方法(De Meester et al, 2021)、基于分布式表示的方法(Chen et al, 2020b)和基于神經網絡的方法(Xiong et al, 2017)。基于邏輯規則的知識推理旨在根據隨機游走和邏輯規則發現知識,而基于分布式表示的知識推理則將實體和關系嵌入到向量空間中以獲得分布式表示(Chen et al, 2020b)。 基于網絡的知識推理方法在給定圖中的知識體的情況下,利用神經網絡來推斷新的三元組(Xian et al, 2019)。 在知識推理中有兩個任務:單跳預測和多跳推理(Ren et al, 2022)。單跳預測為給定的兩個元素預測三元組中的一個元素,而多跳推理預測多跳邏輯查詢中的一個或多個元素。換句話說,在多跳推理場景中,找到一個典型問題的答案并形成新的三元組,需要對多個邊和節點進行預測和填補。與單跳預測相比,多跳推理實現了更精確的三元組形成。因此,多跳推理受到越來越多的關注,成為近年來知識圖譜發展的迫切需求。盡管已有許多相關工作,但知識圖譜上的多跳推理仍處于起步階段。值得注意的是,海量知識圖譜上的多跳推理是具有挑戰性的任務之一(Zhu et al, 2022a)。例如,最近的研究主要集中在知識圖譜上的多跳推理,而這類圖譜只有63K個實體和592K個關系。對于數百萬個以上實體的海量知識圖譜,現有模型無法有效學習訓練集。此外,多跳推理需要遍歷知識圖譜中的多個關系和中間實體,這可能導致指數計算代價(Zhang et al, 2021)。因此,探索多跳知識推理仍然是一項艱巨的任務。 此外,對推斷出的新知識的驗證也是一個關鍵問題。知識推理豐富了現有的知識圖譜,給下游任務帶來了好處(Wan等,2021)。然而,推斷出的新知識有時是不確定的,新三元組的準確性需要驗證。此外,還需要檢測新知識與現有知識之間的沖突。為了解決這些問題,一些研究提出了多源知識推理(Zhao et al, 2020),可以檢測錯誤知識和沖突知識。總的來說,應該更多地關注多源知識推理和錯誤知識約簡。
6. 結論
知識圖譜在為各個領域創建許多智能服務和應用方面發揮了重要作用。本文從知識圖譜發展的機遇與挑戰兩個方面對其進行綜述。首先介紹了知識圖譜的定義和現有的研究方向,對知識圖譜進行了介紹性分析;之后,我們討論了利用知識圖譜的人工智能系統。然后,給出了知識圖譜在多個領域中的代表性應用;進一步,分析了現有知識圖譜技術存在的局限性和面臨的嚴峻技術挑戰。我們期待該調研為未來涉及知識圖譜的研發活動激發新的想法和有洞察力的視角。
摘要: 知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一種被廣泛采用的知識表示方法, 其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中, 用來簡化操作, 同時保留KG的固有結構. 可以使得多種下游任務受益, 例如KG補全和關系提取等. 首先對現有的知識圖譜嵌入技術進行全面回顧, 不僅包括使用KG中觀察到的事實進行嵌入的技術, 還包括添加時間維度的動態KG嵌入方法, 以及融合多源信息的KG嵌入技術. 對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹KG嵌入技術在下游任務中的典型應用, 包括問答系統、推薦系統和關系提取等. 最后闡述知識圖譜嵌入面臨的挑戰, 對未來的研究方向進行展望.
地址: //www.jos.org.cn/jos/article/abstract/6429
0 引言
知識圖譜(knowledge graph, KG)作為人工智能的一個分支, 引起了學術界和工業界的廣泛關注, 其構建與應用也得到了迅速發展. 例如Freebase[1], DBpedia[2], YAGO[3], NELL[4], Wikidata[5]等知識圖譜已經被成功創建并應用于許多現實世界應用, 從語義分析[6, 7]、命名實體消歧[8, 9], 到信息提取[10, 11]和問答系統[12, 13]等. 知識圖譜是以現實世界的實體為節點, 實體之間的關系為邊的有向圖. 在這個圖中, 每個有向邊連同其頭實體與尾實體構成了一個三元組, 即(頭實體, 關系, 尾實體), 表示頭實體與尾實體通過關系進行連接. 盡管知識圖譜在表示結構化數據方面非常有效, 但這種三元組的基本符號性質使KG難以操作[14].
為了解決這個問題, 近年來提出了一個新的研究方向, 稱為知識圖譜嵌入(knowledge graph embedding, KGE)或知識表示學習(knowledge representation learning, KRL), 旨在將KG的組成部分(包括實體和關系)嵌入到連續的向量空間中, 以在簡化操作的同時保留KG的固有結構. 與傳統的表示方法相比, KGE為KG中的實體和關系提供了更加密集的表示, 降低了其應用中的計算復雜度. 此外, KGE可以通過度量實體和關系低維嵌入的相似性來顯式地捕獲實體和關系之間的相似性.盡管研究者已提出多種模型來學習KG中的實體和關系表示, 但是目前大多數可用的技術仍然僅根據知識圖譜中觀察到的事實來執行嵌入任務. 具體地說, 給定一個KG, 首先在低維向量空間中表示實體和關系, 并為每個三元組定義一個評分函數以衡量其在該空間中的合理性. 然后通過最大化觀察到的三元組的總合理性來學習實體和關系的嵌入. 這些學習的嵌入還可以進一步用于實現各種任務, 例如KG補全[15, 16], 關系提取[10, 17], 實體分類[18, 19], 實體解析[18, 20]等. 由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容, 因此對下游任務可能沒有足夠的預測性[21, 22]. 近年來, 越來越多的研究者開始進一步考慮利用其他類型的信息, 例如實體類型[23, 24], 文本描述[25-28], 關系路徑[29-31], 甚至邏輯規則[32, 33]來學習更多的預測嵌入.
本文第1節介紹相關工作調查與基本符號定義; 第2節對僅使用KG中觀察到的事實進行嵌入的技術進行全面回顧, 具體介紹基于距離的模型, 語義匹配模型以及最新的KGE技術; 第3節主要討論了融合時間信息的動態知識圖譜嵌入技術, 詳細介紹t-TransE、Know-Evolve、HyTE、TDG2E等代表性的動態KGE方法; 第4節歸納了除KG中觀察到的事實以外的結合附加信息的KGE技術, 例如實體類別、文本描述、關系路徑等. 第5節介紹KGE技術在下游任務中的典型應用. 第6節對KGE技術面臨的挑戰與未來研究方向進行討論. 最后, 第7節對全文工作進行總結.
1 相關調查與符號定義
先前有關知識圖譜的調查論文主要集中在統計關系學習(statistical relational learning)[34], knowledge graph refinement[35], 中文知識圖譜構建(Chinese knowledge graph construction)[36], KGE[14]或KRL[37]. Liu等人[37]在2016年詳細介紹了知識表示學習(KRL)的基本概念和主要方法, 對知識表示學習面臨的主要挑戰、已有解決方案以及未來研究方向進行了全面總結, 為后續的調查和研究奠定了堅實的基礎. 近年來, Lin等人[37]以線性方式提出KRL, 著重于進行定量分析. Wang等人[14]根據評分函數對KRL模型進行分類, 側重于KRL中使用的信息類型.
我們的調查研究以Wang等人[14]的調查為基礎. 與之不同的是, 本文對基于距離的模型與語義匹配模型進行了全新角度的分類, 對主流KGE技術進行了闡述, 同時介紹了動態知識圖譜嵌入方法的最新進展, 并分析了相關代表模型. 此外, 本文討論了結合事實以外的其他信息的嵌入技術, 以及KGE技術的典型應用. 最后, 總結了KGE技術面臨的挑戰, 并對其未來方向進行展望.
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分. 評分函數用于衡量事實的合理性, 在基于能量的學習框架中也被稱為能量函數. 典型類型的評分函數分為兩種: 基于距離的評分函數(如圖1(a))與基于相似性的評分函數(如圖1(b)).
基于距離的模型
基于距離的模型使用基于距離的評分函數, 即通過計算實體之間的距離來衡量事實的合理性, 在這種情況下, 翻譯原理 h+r≈th+r≈t 被廣泛使用. 也就是說, 基于距離的模型通常由關系執行翻譯后, 根據兩個實體之間的距離來度量一個事實的合理性. 本小節將基于距離的模型進一步細分為基本距離模型, 翻譯模型和復雜關系建模. 下圖基于距離的模型進行了全面總結.
語義匹配模型
語義匹配模型利用基于相似性的評分函數, 即通過語義匹配來衡量事實的合理性. 語義匹配通常采用乘法公式 (h?Mr≈t?)(h?Mr≈t?) 來變換表示空間中的頭實體, 使其與尾實體相近. 本節根據實體和關系編碼的不同模型結構來介紹代表性的語義匹配模型.
最新的知識圖譜嵌入模型 大多數翻譯模型和雙線性模型是2016年之前提出的方法, 而最近幾年研究KGE的方法眾多. 本小節簡要介紹其中的主流方法, 具體劃分為卷積神經網絡模型, 旋轉模型, 雙曲幾何模型和其他模型.
3 動態知識圖譜嵌入
當前KGE的研究主要集中于靜態知識圖譜, 其中事實不會隨時間發生變化, 例如: TransE, TransH, TransR, RESCAL等. 但是, 在實際應用中, 知識圖譜通常是動態的, 例如Twitter中的社交知識圖, DBLP中的引文知識圖等, 其中事實隨時間演變, 僅在特定時間段內有效. 以往的靜態KGE方法完全忽略了時間信息, 這使得靜態KGE方法無法在這些實際場景中工作. 因此, 有必要設計一種用于動態知識圖譜嵌入的方法. 本節介紹了典型的動態知識圖譜嵌入方法, 其中分析了t-TransE, Know-Evolve, HyTE, TDG2E等相關模型, 表6將TDG2E模型與其他動態KGE方法進行對比, 直觀地展示了TDG2E方法的優越性. 然而, 從大量文獻中可以得出結論: 現有的大多數知識圖譜嵌入方法仍然關注于靜態知識圖譜, 忽略了知識圖譜中時間范圍信息的可用性與重要性. 實際上, 在表示學習過程中合并時間信息可能會產生更好的KG嵌入, 時間感知的知識圖譜嵌入研究仍然是一個有待于進一步探索的領域.
4. 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息, 能夠幫助構建更加精準的知識表示, 僅使用事實進行知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識, 例如: 實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度, 進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來, 知識驅動的應用在信息檢索和問答等領域取得了巨大成功, 這些應用有望幫助準確深入地了解用戶需求, 并給出適當響應. 知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量, 而學習到的實體、關系嵌入可以受益于多種下游任務. 在本節中, 我們將介紹KGE的典型應用.
基于知識圖譜嵌入的問答 隨著大規模知識圖譜的興起, 基于知識圖譜的問答(QA)成為重要的研究方向, 引起了人們的廣泛關注. 現實世界的領域中通常包含數百萬到數十億個事實, 其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有價值的知識. 為了緩解這個問題, 提出了基于知識圖譜的問答(QA-KG). QA-KG旨在利用知識圖譜中的事實來回答自然語言問題. 可以幫助普通用戶在不知道KG數據結構的情況下, 高效地訪問KG中對自己有價值的知識. 然而, 由于涉及到語義分析[112]和實體鏈接[113, 114]等多個具有挑戰性的子問題, QA-KG的問題還遠未得到解決. 近年來, 隨著KGE在不同的實際應用中表現出的有效性, 人們開始探索其在解決QA-KG問題中的一些潛在作用.
**推薦系統 **在過去的幾年中, 利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力, 能有效地解決新項目和數據稀疏性等問題[124-128]. 最近, KGE的流行促進了利用KGE捕獲實體語義進行推薦這一研究熱點, 使用KGE已被證明對推薦系統有效.
**關系提取 **關系提取(relation extraction, RE)是信息提取中的一項重要任務, 旨在根據兩個給定實體的上下文來提取它們之間的關系. 由于RE具有提取文本信息的能力, 并使許多自然語言處理應用受益(例如: 信息檢索, 對話生成, 問答等), 因此受到很多研究者的青睞.
6. 挑戰與展望
目前, KGE作為處理大型知識圖譜的一種方便有效的工具, 被廣泛探索并應用于多種知識驅動型任務, 極大地提高了任務的性能, 同時也存在許多可能的有待探索的領域. 在本小節中, 我們將討論KGE面臨的挑戰及其未來研究方向. 面臨的挑戰 探索KG的內部和外部信息知識應用的復雜性
未來方向
統一框架 * 可解釋性 * 可擴展性 * 自動構建
**7. 總 結 **知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性, 可以對現實世界中的實體、概念、屬性以及它們之間的關系進行建模. 隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用, 知識圖譜引起了越來越多的研究關注. 知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中, 在各種面向實體的任務中得到了重要應用. 本文圍繞知識圖譜嵌入技術的研究現狀, 通過回顧僅使用事實進行知識圖譜嵌入的方法、添加時間維度的動態 KGE方法以及融合多源信息的 KGE技術介紹了現有的知識圖譜嵌入技術. 并簡要討論了KGE技術在下游任務中的實際應用. 最后總結了知識圖譜嵌入領域所面臨的挑戰, 并對其未來的方向做出展望. 我們進行這項調查的目的是對當前KGE的代表性研究工作進行總結, 并且希望這一探索可以為KGE的未來研究提供幫助.
隨著人工智能研究領域的發展,知識圖譜(knowledge graphs, KGs)引起了學術界和工業界的廣泛關注。作為實體間語義關系的一種表示,知識圖譜在自然語言處理(natural language processing, NLP)中有著重要的意義,近年來得到了迅速的推廣和廣泛采用。鑒于這一領域的研究工作量不斷增加,自然語言處理研究界已經調研了幾種與KG相關的方法。然而,至今仍缺乏對既定主題進行分類和審查個別研究流成熟度的綜合研究。為了縮小這一差距,我們系統地分析了NLP中有關KGs的文獻中的507篇論文。我們的調研包括對任務、研究類型和貢獻的多方面。因此,我們提出了一個結構化的研究概況,提供了任務的分類,總結了我們的發現,并強調了未來工作的方向。
//www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d
知識的獲取和應用是自然語言固有的特性。人類使用語言作為交流事實、爭論決定或質疑信仰的手段。因此,計算語言學家早在20世紀50年代和60年代就開始研究如何將知識表示為語義網絡中概念之間的關系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近,知識圖譜(KGs)已成為一種以機器可讀的格式語義表示有關現實世界實體的知識的方法。它們起源于對語義網絡、領域特定本體以及鏈接數據的研究,因此并不是一個全新的概念(Hitzler, 2021)。盡管KG越來越受歡迎,但對于KG究竟是什么,適用于什么任務,人們仍然沒有一個普遍的理解。盡管之前的工作已經試圖定義kg (Pujara et al., 2013; Ehrlinger and W??, 2016; Paulheim, 2017; F?rber et al., 2018),該術語尚未被研究人員統一使用。大多數研究都隱含地采用了廣義的KGs定義,將其理解為“旨在積累和傳遞現實世界知識的數據圖,其節點代表感興趣的實體,其邊緣代表這些實體之間的關系”(Hogan等人,2022)。
自2012年谷歌的KG引入以來(Singhal, 2012), KG在學術界和產業界都吸引了大量的研究關注。特別是在自然語言處理(NLP)的研究中,使用KGs在過去5年里變得越來越流行,而且這一趨勢似乎正在加速。其基本范式是,結構化和非結構化知識的結合可以使各種NLP任務受益。例如,來自知識圖譜的結構化知識可以注入到語言模型中發現的上下文知識中,這可以提高下游任務的性能(Colon-Hernandez等人,2021)。此外,隨著知識庫的重要性日益增加,從非結構化文本中構建新知識庫的努力也在不斷擴大。
谷歌在2012年創造了知識圖譜這個術語,十年之后,學者們提出了大量新穎的方法。因此,重要的是收集見解,鞏固現有結果,并提供結構化的概述。然而,據我們所知,目前還沒有一項研究對自然語言處理領域中知識分子的整個研究格局進行了概述。為了縮小這一差距,我們進行了一項全面的調研,通過對已建立的主題進行分類,確定趨勢,并概述未來研究的領域,分析在該領域進行的所有研究。我們的三個主要貢獻如下:1. 我們系統地從507篇論文中提取信息,報告關于任務、研究類型和貢獻的見解。2. 本文提供了NLP中關于知識圖譜的文獻中的任務分類,如圖1所示。3.我們評估單個研究流的成熟度,確定趨勢,并強調未來工作的方向。本文綜述了NLP中知識圖譜的演變和目前的研究進展。盡管我們無法完全覆蓋該主題的所有相關論文,但我們的目標是提供一個具有代表性的概述,通過提供一個文獻起點,可以幫助NLP學者和實踐者。此外,多方面的分析可以指導研究界縮小現有差距,并找到如何將KGs與NLP結合的新方法。
KG研究綜述結果
**研究整體概況 (RQ1)**對于NLP中有關KGs的文獻,我們從研究數量作為研究興趣的指標開始分析。圖2說明了十年觀察期間的出版物分布情況。雖然第一批出版物出現在2013年,但年度出版物在2013年至2016年期間增長緩慢。從2017年起,出版物數量幾乎每年翻一番。由于這些年來研究興趣的顯著上升,所有納入的出版物中超過90%來自這五年。盡管增長趨勢似乎在2021年停止,但這可能是由于發生在2022年的第一周的數據導出,遺漏了2021年的許多研究,這些研究在2022年晚些時候被納入數據庫。盡管如此,圖2中的趨勢清楚地表明,KGs正受到NLP研究界越來越多的關注。如果考慮到507篇論文,會議論文(402篇)是期刊論文(105篇)的近4倍。
KG任務概況 (RQ2)
基于NLP中有關KGs的文獻中確定的任務,我們開發了如圖1所示的經驗分類法。這兩個頂級類別包括知識獲取和知識應用。知識獲取包含從非結構化文本構建知識基礎(知識圖構建)或對已經構建的知識基礎進行推理(知識圖推理)的NLP任務。知識庫構建任務進一步劃分為兩個子類:知識提取和知識集成,前者用于用實體、關系或屬性填充知識庫,后者用于更新知識庫。知識應用是第二大頂層概念,包含常見的NLP任務,通過知識庫中的結構化知識來增強這些任務。 正如預期的那樣,我們分類法中的任務在文獻中出現的頻率變化很大。表2概述了最流行的任務,圖5比較了它們隨時間的流行程度。圖4顯示了最突出的任務所檢測到的域的數量。它表明某些任務比其他任務更適用于領域特定的上下文。
研究類型及貢獻(RQ3)
表3顯示了根據附錄表4和表5定義的不同研究和貢獻類型的論文分布情況。它表明,大多數論文進行驗證研究,調查尚未在實踐中實施的新技術或方法。相當多的論文,雖然明顯較少,側重于解決方案的提出,通過一個小的例子或論證來證明它們的優點和適用性。然而,這些論文通常缺乏深刻的實證評價。
近年來,國內外在新一代知識圖譜的關鍵技術和理論方面取得了一定進展,以知識圖譜為載體 的典型應用也逐漸走進各個行業領域,包括智能問答、推薦系統、個人助手等.然而,在大數據環境和新 基建背景下,數據對象和交互方式的日益豐富和變化, 對新一代知識圖譜在基礎理論、體系架構、關鍵技 術等方面提出新的需求,帶來新的挑戰.將綜述國內外新一代知識圖譜的關鍵技術研究發展現狀,重點 從非結構化多模態數據組織與理解、大規模動態圖譜表示學習與預訓練模型、神經符號結合的知識更新 與推理3方面對國內外研究的最新進展進行歸納、比較和分析.最后,就未來的技術挑戰和研究方向進 行展望。
伴隨著過去10年浪潮,人工智能發展方興未 艾,正處于由感知智能到認知智能轉變的關鍵時期. 知識圖譜作為大數據時代的知識工程集大成者,是 符號主義與連接主義相結合的產物,是實現認知智 能的基石.知識圖譜以其強大的語義表達能力、存儲 能力和推理能力,為互聯網時代的數據知識化組織 和智能應用提供了有效的解決方案.因此,新一代知 識圖譜的關鍵技術研究逐漸受到來自工業界和學術 界的廣泛關注.
知識 圖 譜 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是為了改善搜索,提升用戶搜索體驗. 知識圖譜至今沒有統一的定義,在維基百科中的定 義為:“Google知識圖譜(Googleknowledgegraph) 是 Google的一個知識庫,其使用語義檢索從多種來 源收集信息,以提高 Google搜索的質量.”從當前知 識圖譜的發展看來,此定義顯然是不夠全面的,當前 知識圖譜的應用儼然遠超其最初始的搜索場景,已 經廣泛應用于搜索、問答、推薦等場景中.比較普遍 被接受的一種定義為“知識圖譜本質上是一種語義 網絡(semanticnetwork),網絡中的結點代表實體 (entity)或者概念(concept),邊代表實體∕概念之間 的各種語義關系”.一種更為寬泛的定義為“使用圖 (graph)作為媒介來組織與利用不同類型的大規模 數據,并表達明確的通用或領域知識”.從覆蓋的領 域來看,知識圖譜可以分為通用知識圖譜和行業知 識圖譜;前者面向開放領域,而后者則面向特定的行 業.隨著知識圖譜在各行業的應用落地,知識圖譜技 術的相關研究得到了大量研究者的關注.以知識圖 譜為基礎的典型應用也逐漸走進各個行業領域,包 括智能問答、推薦系統、個人助手、戰場指揮系統等.
傳統的知識圖譜研究領域主要圍繞傳統的數據 存儲、知識獲取、本體融合、邏輯推理以及知識圖譜 應用等方面.文獻[2]詳細綜合和分析了知識圖譜存 儲管理最新的研究進展.文獻[3]從知識表示學習、 知識獲取與知識補全、時態知識圖譜和知識圖譜應 用等方面進行了全面的綜述.文獻[4]則重點對面向 知識圖譜的知識推理相關研究進行了綜述.
然而,在大數據環境和新基建背景下,數據對象 和交互方式的日益豐富和變化,對新一代知識圖譜 在基礎理論和關鍵技術等方面提出新的需求,也帶 來新的挑戰.和已有的知識圖譜研究綜述相比,本文 將從眾多最新的知識圖譜研究方法中,對3方面的 新一代知識圖譜關鍵技術和理論做分析:1)非結構化多模態數據組織與理解; 2)大規模動態圖譜表示學習與預訓練模型; 3)神經符號結合的知識更新與推理. 本文將綜述國內外新一代知識圖譜關鍵技術研 究發展現狀,對國內外研究的最新進展進行歸納、比 較和分析,就未來的技術挑戰和研究方向進行展望.
1. 非結構化多模態數據組織與理解
1.1 非結構化多模態數據組織
“模態”的定義較多,可以直觀地理解為不同類 型的多媒體數據,也可以作為一個更加細粒度的概 念,區分模態的關鍵點可以理解為數據是否具有異 構性.例如,對于某個歌手,互聯網上可以找到他的 照片和歌曲視頻,同時也有相關的文本信息(百科、 新聞等)以及具體的歌曲音頻.圖片、視頻、文本、語 音這4種數據,可以被理解為該對象的多模態數據.目前主要的非結構化多模態知識圖譜如表1所示:
DBpedia [5]作為近10年來知識圖譜研究領域的 核心數據集,其豐富的語義信息中也包含了大量的 非結 構 化 數 據,如 文 本 描 述 和 實 體 圖 片.目 前 DBpedia包含了超過260萬個實體,且每個實體具 有唯一的全局標識符.以此為基礎,越來越多的數據 發布者 將 自 己 的 數 據 通 過 SameAs 關 系 鏈 接 到 DBpedia資源,使 DBpedia一定程度上成為多類型 數據組織的中心.目前,圍繞 DBpedia的互聯網數據 源網絡提供了約47億條信息,涵蓋地理信息、人、基 因、藥物、圖書、科技出版社等多個領域.
Wikidata [6]中也存在大量的多模態數據資源, 它是維基媒體基金會(WikimediaFoundation)推出 的知識圖譜,也是維基媒體數據組織和管理的核心 項目.Wikidata充分利用了知識圖譜的圖數據模型, 綜合了 Wikivoyage,Wiktionary,Wikisource等各類 結構化和非結構化數據,其目標是通過創造維基百 科全球管理數據的新方法來克服多類數據的不一致 性,已經成為維基媒體最活躍的項目之一,越來越多 的網站都從 Wikidata獲取內容以嵌入提供的頁面 瀏覽服務. IMGPedia [7]是多模態知識圖譜的早期嘗試.相 較于 DBpedia和 Wikidata,其更關注在已有的知識 圖譜中補充非結構化的圖片信息.
IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒體 資源(主要是圖片),然后基于多媒體內容生成特征 用于視覺相似性的計算,最后通過定義相似關系的 方式將圖片內容信息引入到知識圖譜中,此外其還 鏈接了 DBpedia和 DBpediaCommons來提供上下 文和元數據.IMGPedia的優勢在于開創性地定義了 知識圖譜中圖像 內 容 的“描 述 符”,也 就 是 視 覺 實 體屬性(諸如灰 度 等),同 時 根 據 這 些 描 述 符 去 計算圖片相似度,方便人們進行相似圖片的查找.但 IMGPedia中定義的“描述符”種類較少,且圖片之 間的關系單一.
MMKG [8]項目旨在對不同知識圖譜(Freebase, YAGO,DBpedia)的實體和圖片資源進行對齊.其通 過對3個知識圖譜(Freebase15k,YAGO15k,DB15k, 均為從原始的知識圖譜中獲得的知識圖譜子集)進 行實體對齊,以及數值、圖片資源與實體的綁定,構 建了一個包含3個知識圖譜子集的多模態數據集 合.MMKG 包含的3個知識圖譜既有諸多對齊的實 體,又有各自不同的拓撲結構.值得一提的是,MMKG 的目標并非是提供一個多模態知識圖譜,而是定義 一個包含多模態信息的評估知識圖譜實體對齊技術 的基準數據集.但是其本質上還是以傳統的知識圖 譜為主,規模很小同時也沒有充分收集和挖掘互聯 網上多種類型的多模態數據,在將圖像分發給相關 文本實體時也未曾考慮圖像的多樣性.
KgBench [9]和 MMKG 類似,在 RDF 編碼的知 識圖譜上引入了一組新的實體分類基準多模態數據 集.對于多個知識圖譜基準實體分類任務,提供至少 1000個實例的測試和驗證集,有些實例超過10000 個,每個實例包含了多種模態的數據描述和特征.每 個任務都能夠以知識圖譜結構特征進行評估,或者 使用多模態信息來實驗.所有數據集都以 CSV 格式 打包,并提供 RDF格式的源數據和源代碼. 東南大學的 Wang等人[10]提出的多模態圖譜 Richpedia,是目前國內在多模態知識圖譜領域的代 表工作.其核心思路延續了知識圖譜的基本數據模 型,在 RDF框架下對現有的知識圖譜進行擴充(主 要是包含視覺信息的圖片實體),使其變為多模態知 識圖譜.相較之前的多模態知識圖譜,該工作的最大 貢獻在于收集與實體相關圖片的同時,利用圖片的 配文來識 別 圖 片 中 所 包 含 的 其 他 實 體,進 而 在 跨 模態實體之間的語義關系發現方面取得了顯著效果 提升.
西安交通大學的鄭慶華等人[11G12]提出了知識森 林的概念,旨在針對智慧教育領域的多模態數據,實 現基于知識森林數據模型的組織與個性化導學.知 識森林的特點在于針對教育領域的垂域特點,用自 然語言處理、圖像識別等人工智能技術突破了教育 領域給定課程科目的知識森林自動構建,研制了知 識森林 AR 交互系統,緩解學習過程中人機可視化 交互難題.知識森林的多模態類型不再局限于文本 和圖像的范疇,增加了與視頻數據交互的能力.
百度知識圖譜近年來也逐漸向多模態知識圖譜演變.基于海量互聯網資源,百度構建了超大規模的 通用知識圖譜,并隨著文本、語音、視覺等智能技術 的不斷深入,以及行業智能化訴求的提升,百度近年 來一直致力于知識圖譜在復雜知識表示、多模態語 義理解、行業圖譜構建和應用,其挖掘的多模態知識 在圖文視頻的基礎上,加入了更多語音數據來豐富 多模態知識圖譜的內容.
1.2 多模態數據理解
多模態數據理解旨在實現處理和理解不同模態 信息之間共同表達語義的能力.整體上,和知識圖譜 相關的多模態數據的理解主要分為基于本體的多模 態語義理解和基于機器學習的多模態語義理解.基 于本體的多模態語義理解是比較早期的工作,均和 知識圖譜相關,其主要活躍于深度學習的浪潮興起 之前,代表性的工作為 LSCOM(largeGscaleconcept ontologyformultimedia)[13]和COMM(coreontology formultimedia)[14]. LSCOM [13]是 一 個 由 IBM、卡 內 基 梅 隆 大 學 (CarnegieMellonUniversity,CMU)和哥倫比亞大 學領導開發的多模態大規模概念本體協作編輯任 務.在這項工作中,CyC公司與很多學術研究和工業 團體均有參與.其整個過程包含了一系列學術研討 會,來自多個領域的專家聚集在一起,創建了描述廣 播新聞視頻的1000個概念的分類.LSCOM 中對多 模態數據的實用性、覆蓋率、可行性和可觀察性制 定了 多 個 標 準.除 了 對 1000 個 概 念 進 行 分 類 外, LSCOM 還生成了一組用例和查詢,以及廣播新聞 視頻的大型注釋數據集. COMM [14]是由德國、荷蘭以及葡萄牙的研究團 隊聯合推出的多模態本體,其誕生的主要動機在于 LSCOM 為多模態數據語義分析研究創建了一個統 一的框架,但并沒有一個高質量的多模態本體正式 描述,也缺乏與已有的語義 Web技術兼容.針對此 問題,COMM 定義了一個基于 MPEGG7的多模態 本體,由多模態數據模式組成,滿足了本體框架的基 本要求,并且在 OWLDL 中完全形式化.基于本體 的多模態語義理解要求高質量的本體編輯以及精細 粒度的數據描述,因此 COMM 和 LSCOM 并沒有 很好地發展起來.
基于機器學習的多模態語義理解[15]是目前多 模態數據理解的主流方法,和知識圖譜的聯系主要 是利用多模態表示學習方法實現知識補全或應用到 下游任務中.多模態表示學習是指通過利用不同多 模態數據之間的互補性,剔除模態冗余性,從而將多 模態數據的語義表征為實值向量,該實值向量蘊含 了不同模態數據的共同語義和各自特有的特征,如 圖1所示.代表性的工作如 Srivastava等人[16]通過 深度玻爾茲曼機實現圖像和文本的聯合空間生成, 在此基礎上實現多模態數據的統一表示.
多 模 態 知 識 圖 譜 表 示 學 習 的 代 表 性 工 作 是 MoussellyGSergieh等人[17]將視覺特征、文本特征和 知識圖譜的結構特征共同學習成統一的知識嵌入, 在此 過 程 中 使 用 SimpleConcatenation,DeViSE,Imagined這3種不同的方法來集成多模態信息,最 終實現了知識圖譜的多模態表示學習,生成了蘊含 多種模態特征的知識圖譜實體和關系實值向量,相 較于傳統的基于結構的知識圖譜表示學習,其在鏈 接預測和實體分類任務上的效果均有提升.
GAIA [18]是最近提出的一個細粒度的多模態知 識抽取、理解和組織框架,旨在提取不同來源的異構 多媒體數據(包括多模態、多語言等),生成連續的結 構化知識,同時提供一個豐富的細粒度的多模態數 據描述本體.GAIA 整個系統主要有3個優勢:1)大 量使用計算機視覺和自然語言處理的深度學習框架 和其他知識圖譜算法作為其底層模塊,通過結合不 同領域的技術實現了特別是對于圖片資源的實體識 別和多模態實體鏈接,相較于之前的IMGPedia,這 樣的處理保證了對圖片內容細粒度識別的進一步深 入,而對于文本資源,也實現了實體識別和關系抽 取.2)相較于粗粒度的實體,細粒度可以保證內容查 詢的靈活性和更強的易用性,例如對場景的理解和 事件預測,故可以更廣泛地用于實際應用中.3)通過 將圖片和文本實體進行實體鏈接、關系抽取等處理, 實現了多模態知識融合和知識推理,充分利用了多 模態的優勢.GAIA 所提出的多模態知識圖譜提取 框架是當前比較全面的一種范式,有著較好的借鑒 意義.
北京大學的 Peng等人[19]提出了跨媒體智能的 概念,該概念和多模態數據理解的思路類似,其借鑒 人腦跨越視覺、聽覺、語言等不同感官信息認知外部 世界的特性,重點研究了跨媒體分析推理技術中的任 務和目標,包括細粒度圖像分類、跨媒體檢索、文本 生成圖像、視頻描述生成等.其代表性的工作為 PKU FGGXmedia [20],是第1個包含4種媒體類型(圖像、 文本、視頻和音頻)的細粒度跨媒體檢索公開數據集 和評測基準,并且在此基礎上提出了能夠同時學習 4種媒體統一表征的深度網絡模型 FGCrossNet.
中國科學院自動化研究所的張瑩瑩等人[21]提 出了一個基于多模態知識感知注意力機制的問答模 型.該模型首先學習知識圖譜中實體的多模態表示; 然后從多模態知識圖譜中與問答對相關聯的實體的 路徑來推測出回答該問題時的邏輯,并刻畫問答對 之間的交互系.此外,該模型還提出了一種注意力 機制來判別連接問答對的不同路徑之間的重要性.
清華大學的 Liu等人[22]最早在多模態知識圖 譜表示學習方面開展了研究,代表性的工作是IKRL, 其將視覺特征和知識圖譜的結構特征進行聯合表示 學習,進而通過不同模態信息之間的約束生成質量 更高的知識圖譜嵌入. 華南理工大學的 Cai等人[23]提出一種結合圖 像信息和文本信息的神經網絡來對 Twitter等短文 本中的實體進行識別和消歧.其核心思想是將視覺 和文本信息通過表示學習生成的嵌入連接起來,并 且為細粒 度 的 信 息 交 互 引 入 了 共 同 關 注 機 制.在 Twitter數據集上的實驗結果表明,其方法優于單 純依賴文本信息的方法. 中國科學技術大學的 Xu等人[24]在多模態信息 理解與關聯方面探索了如何有效聯合映射與建模跨 模態信息,進而從視頻概括性描述深入至實體間語 義關系,實現視覺元素多層次、多維度語義理解與關 聯,以形成對視頻等多模態內容更為全面的解析,有 效解讀其中的語義信息,進而為支撐面向多模態內 容的智能應用服務奠定重要基礎.其代表性的工作 為 MMEA [24],針對多模態知識圖譜的實體對齊問 題,設計了一種多視圖知識嵌入方法,實現多模態知 識圖譜實體對齊效果的提升.
國防科技大學的 Zhao等人[25]在多模態知識圖 譜的實體對齊任務上進一步進行了探索,其主要將 多模態實體對齊任務從歐氏空間拓展到了雙曲空間 進行建模表示,最終利用雙曲空間內的圖卷積網絡 和視覺特征抽取模型 DENSENET 實現了多個數據 集上的實體對齊效果.
2 大規模動態圖譜表示學習與預訓練模型
2.1 大規模動態表示學習
知識圖譜的本質是一種語義網絡,亦是一種特 殊的圖.動態知識圖譜同樣是一種特殊的動態圖.但 是因為知識圖譜的特殊性,動態知識圖譜可以被分 為2類:一類是時序動態知識圖譜,其中蘊含著時間 特征,知識圖譜的結構、實體和關系都會隨著時間的 推移發生改變;另一類是非時序動態知識圖譜,這類 知識圖譜中沒有顯式的時間特征,但是知識圖譜會 發生更新,有新的實體和關系添加到原有的知識圖 譜中.一般情況來說,已存在知識圖譜中的實體和關 系不會發生改變.
1)時序的動態知識圖譜表示學習
時序知識圖譜是一種特殊的知識圖譜,其相比 傳統的靜態知識圖譜多了時間信息,知識圖譜中的知識不是靜態不變的,反而是因為時間的變化,知識 三元組發生改變.如表2中所總結,我們根據其對時 間信息處理方式的差異將所有算法模型分為三大 類:具有時間約束的歷時性時序知識圖譜表示模型、 基于時間序列編碼的時序知識圖譜表示模型和基于 路徑推理的時序知識圖譜表示模型.其中在各通用 數據上表現最佳的模型為2021年Zhu等人[26]提出 的 CyGNet,其模型結構如圖2所示.
2) 非時序的動態知識圖譜表示學習
對于非時序動態知識圖譜,其在應用和更新過 程中,可以加入新的實體和關系,新實體與原有實體 構成的三元組只要在現實應用場景下為正確的,則可 將此三元組納入到原有的知識圖譜中.所以非時序動 態知識圖譜的規模是可以隨著現實情況不斷增大的, 被認為是一種動態變化的知識圖譜.針對非時序知識 圖譜,其中最初的模型是在原有的 DKRL模型[34]上 進行簡單的更改,直接應用于開放世界知識圖譜上, 其效果相比其他靜態的算法有所提高,成為了這個任務的一個基準結果,其模型基礎框架如圖3所示. DKRL的優勢不僅在于提升了實體表示的區分能 力,而且更在于其對新實體的表示,當一個未在知識 圖譜中出現的新實體出現時,DKRL 將根據新實體 的簡短描述生成它的表示,用于知識圖譜補全.
Shi等人[35]提出了一種以文本為中心的表示方 法 ConMask,其中頭實體、關系和尾實體基于文本 的向量表示是通過注意力模型在名稱和描述上得出 的,并且通過全卷積 神 經 網 絡 (fullyconvolutional neuralnetwork)得到三元組的評分,最后通過評分 完成實體與關系的預測. Shah等人[36]提出了區別于 DKRL和 ConMask 這2種方法的新模型 OWE,其獨立地訓練知識圖 譜和文本向量,然后通過缺失實體的描述文本向量 模糊代替實體的表示,在知識圖譜中進行匹配,最終 得到實體與關系的預測結果.該模型可以調整和選 用不同的基礎知識圖譜表示模型得到不同的融合模 型,在不同環境任務中發揮更好的作用. Wang等人[37]提出了一種基于膠囊網絡的新模 型 CapsGOWKG,其在融合知識圖譜的結構信息和 描述信息后,采用膠囊網絡提取三元組的特征,得到 動態非時序知識圖譜三元組的表示.Gaur等人[38]提 出了一個框架 HUKA,它使用起源多項式通過編碼 生成答案所涉及的邊來跟蹤知識圖譜上查詢結果的 推導. Das等人[39]證明了基于案例的推理(caseGbased reasoning,CBR)系統通過檢索與給定問題相似的 “案例”來解決一個新問題是可以實現動態知識庫 (KBs).其通過收集知識庫中相似實體的推理路徑 來預測實體的屬性.概率模型估計路徑在回答關于 給定實體的查詢時有效的可能性. 在國內,最 初 的 模 型 是 在 Xie等 人[34]提 出 的 DKRL模型上進行簡單的更改,直接應用于開放世 界知識圖譜上,其效果相比其他靜態的算法有所提 高,成為了這個任務的一個基準結果. 杜治娟等人[40]提出一種表示學習方法 TransNS. 其選取相關的鄰居作為實體的屬性來推斷新實體, 并在學習階段利用實體之間的語義親和力選擇負例 三元組來增強語義交互能力.Xie等人[41]提出了一種基于深度遞歸神經網絡 DKGCGJSTD的動態知識圖譜補全模型.該模型學習 實體名稱及其部分文本描述的嵌入,將看不見的實 體連接到知識圖譜.為了建立文本描述信息與拓撲 信息之間的相關性,DKGCGJSTD 采用深度記憶網 絡和關聯匹配機制,從實體文本描述中提取實體與 關系之間的相關語義特征信息.然后利用深度遞歸 神經網絡對拓撲結構與文本描述之間的依賴關系進 行建模. Zhou等人[42]提出了一種聚合器,采用注意網 絡來獲取實體描述中單詞的權重.這樣既不打亂詞 嵌入中的信息,又使聚合的單詞嵌入更加高效. Niu等人[43]使用多重交互注意(MIA)機制來 模擬頭部實體描述、頭部實體名稱、關系名稱和候選 尾部實體描述之間的交互,以形成豐富的表示.此 外,還利用頭部實體描述的額外文本特征來增強頭 部實體的表示,并在候選尾部實體之間應用注意機 制來增強它們的表示.
2.2 知識圖譜的預訓練模型
知識廣泛存在于文本、結構化及其他多種模態 的數據中.除了通過抽取技術將知識從原始數據中 萃取出來以支持搜索、問答、推理、分析等應用以外, 另外一種思路是利用數據中本身存在的基本信號對 隱藏的知識進行預訓練.預訓練的核心思想是“預訓 練和微調”,例如預訓練一般包含2個步驟:首先利 用大量的通用知識數據訓練一個知識模型,獲取文 本中包含的通用知識信息;然后在下游任務微調階 段,針對不同下游任務,設計相應的目標函數,基于 相對較少的監督數據進行微調,便可得到不錯的效 果.近2年對面向知識表示、面向自然語言、面向下 游任務和基于圖結構的預訓練模型這4類有所進 展,代表性模型如表3所示:
**1) 面向知識圖譜表示的預訓練模型 **
在詞向量表示中,預訓練模型分為2個部分,分 別是預訓練與微調,這樣的模式可以使詞向量表示 更適合于不同的應用環境.同樣地,在面向知識表示 的預訓練模型中,同樣先采用預訓練的向量表示,然 后再基于此進行進一步的深化挖掘.這類預訓練模 型,旨在通過引入新的處理方法對預訓練的知識表 示進行進一步的特征挖掘,以此可以得到原有表示 不具備的特征,如 ConvKB [44],CapsE [45]等.這類模 型不能最大化地提取三元組的特征,模型預訓練效 果依賴于基礎知識圖譜表示學習模型的選擇.
2) 面向自然語言問題的預訓練模型
知識圖譜在處理與自然語言相關的任務時,必 不可少地與語言模型相互聯系.這一類預訓練模型, 主要是將知識融合到一個詞向量模型中形成一個既 包含知識又具備上下文信息的預訓練詞向量.近幾年 的相關研究主要是將知識融合到BERT 中形成新的 預訓練模型.典型的模型有:CMU 和微軟聯合提出的 JAKET [46]、清華大學和華為聯合提出的 ERNIE [47]、 北京大學和騰訊聯合提出的模型 KGBERT [48]、復旦 大學和亞馬遜提出的 CoLAKE [49]、清華大學和 Mila 實驗室提出的 KEPLER [50]等.這類模型利用實體信 息增強了預訓練效果并減少了訓練時間,但不適用 于缺少實體相關描述的預訓練任務. 3) 面向下游任務的預訓練模型
知識圖譜預訓練模型還可以通過不同的特殊下 游任務來幫助向預訓練模型融入任務相關的知識. 主要方法是在對具體的下游任務進行微調時,可以 采用不同的適配器來針對性地加入特征,進而增強 其效果.代表性的工作有復旦大學和微軟提出的 KG ADAPTER [51]和阿里巴巴實驗室提出的“預訓練+ 知識向量服務”的模式 PKGM [52],結構如圖4所示. 這類模型需要盡可能大且全量的知識圖譜數據集, 這樣才能發揮模型預訓練的優勢,因此模型對于圖 譜完成性差、稀疏度高的知識圖譜預訓練較差.
4) 基于圖譜中圖結構的預訓練模型
知識圖譜是一種特殊的信息圖,可以通過適用 于圖的方法 GNN 獲取知識圖譜的部分結構特征. 圖神經網絡(graphneuralnetworks,GNNs)已被 證明是建模圖結構數據的強大工具,然而,訓練 GNN 模型通常需要大量的特定任務的標記數據,而獲取這些數據往往非常昂貴.利用自監督 GNN 模型對 未標記數據進行預訓練是減少標記工作的一種有效 方法,預訓練學習到的模型可用在只有少量標簽圖 譜數 據 的 下 游 任 務 中.代 表 性 的 工 作 有:GPTG GNN [53],GI [54],GraphCL [55],GCC [56]等.這 類 方 法 不依賴于圖譜的節點與邊信息,僅利用圖結構進行 預訓練,避免復雜的特征工程,但缺陷是耗時巨大.
3 神經符號結合的知識更新與推理
ACM 圖靈獎獲得者 YoshuaBengio在 NeuIPS 2019的特邀報告中明確提到,深度學習需要從系統1 到系統2轉化.這里所說的系統1和系統2來源于 認知科學中的雙通道理論,其中系統1可以理解為 神經系統,它表示直覺的、快速的、無意識的系統;系 統2可以理解為符號系統,它表示慢的、有邏輯的、 有序的、可推理的系統.Bengio所提的系統2關于深 度學習的想法與“神經+符號”的知識表示與推理目 標基本一致.神經系統優勢在于能夠輕松處理圖像 識別、文本分類等一類機器學習擅長的問題,模型能 夠允許數據噪音的存在,但缺點在于其端到端的過 程缺乏可解釋性,并且在模型求解答案過程中難以 嵌入已有的人類知識.相反地,符號系統可以完美地 定義各類專家經驗規則和知識,形成對結構化數據 的各類原子操作,在此基礎上通過搜索和約束進行 求解,整個過程的解釋性和可理解性也很強.但是, 符號系統的缺點在于難以處理很多擁有異常數據和 噪音的場景.然而,“神經+符號”到底如何有機結合, 實現起來并不容易.知識圖譜從早期的知識庫、專家 系統,到谷歌2012年正式提出知識圖譜,其發展歷 程也體現了神經系統和符號系統的各自發展縮影, 整體上可分為神經助力符號和符號助力神經兩大類.
3.1 神經助力符號推理
神經助力符號推理方法的特點在于將神經的方 法應用在傳統符號系統的問題求解,通常主要是解 決淺層的推理問題,其核心在于如何將神經系統學 到的“淺層知識表示”(計算結構和連續型數值表示 的知識)更新到已有的符號知識體系中(離散的、顯 式的符號化知識),敏捷邏輯(swiftlogic)是牛津大學 Gottlob等 人[57]關于“神經+符號”的嘗試,如圖5所示,該系 統既能夠執行復雜的推理任務(以 Datalog ± 語言為 理論基礎),同時在可接受的計算復雜度下,利用神 經網絡在大數據上實現高效和可擴展的推理.此外,敏捷邏輯還定義了與企業數據庫、網絡、機器學習和 分析軟件包的接口,以實現與數據庫和人工智能中 不斷出現的新技術相結合.敏捷邏輯的特點是不局 限于模型層面的結合,更關注從知識圖譜管理系統 框架層面來使用神經和符號多種技術.
3.2 符號助力神經計算
符號助力神經方法的特點在于將符號的方法應 用在神經網絡的訓練過程中.
3.3 神經符號結合的知識表示與推理
一個完美的“神經 + 符號”系統的特點和優勢 為:1)能夠輕松處理目前主流機器學習擅長的問題; 2)對于數據噪音有較強的魯棒性;3)系統求解過程 和結果可以被人容易地進行理解、解釋和評價;4)可 以很好地進行各類符號的操作;5)可以無縫地利用 各種背景知識.從以上標準來看,實現神經符號知識 表示的充分結合還有很長一段路要走.國外目前最 具代表性的研究為 Cohen等人[91]和 Lamb等人[92] 的研究工作. Cohen [91]作為人工智能領域的重要學者,近年 來發表了一系列的神經符號結合的研究工作,其中 典型工作 DrKIT 的整體框架如圖6所示.DrKIT 使 用語料庫作為虛擬的知識圖譜,進而實現復雜多跳 問題求解.DrKIT 采用傳統知識圖譜上的搜索策略 進行文本數據的遍歷,主要是遵循語料庫中包含文 本提及實體之間的關系路徑.在每個步驟中,DrKIT 使用稀疏矩陣 TF∕IDF 索引和最大內積搜索,并且 整個模塊是可微的,所以整個系統可使用基于梯度 的方法從自然語言輸入到輸出答案進行訓練.DrKIT 非常高效,每秒比現有的多跳問答系統快10~100 倍,同時保持了很高的精度.
4 研究進展比較
4.1 非結構化多模態數據組織與理解
在非結構化多模態數據組織方面,多模態知識 圖譜目前已經成為國內外學者對于多種類型數據組 織的共識,國內外的學者均有新的研究成果.對于國 外研究團隊而言,其核心思路依然是從維基百科中 抽取已有知識圖譜的多模態數據資源,而國內研究 團隊將范圍擴展到了通過全域的數據資源來補充已 有知識圖譜中的視覺和文本信息.可以看出,對于知 識圖譜而言,開放域的非結構化數據資源豐富,但是 如何同已有結構化的圖譜融合并建立不同模態數據 之間的語義關聯是關鍵.此外,國內研究團隊面向垂 直領域(智慧教育)提出了系統級的研究工作,這一 點要比國外的研究更具有落地思維,可以預見未來國 內在更多垂域會出現以多模態知識圖譜為基礎的系 統和應用.在多模態數據理解方面,受益于深度學習技術的持續發展,國內外在該領域都取得了最新的 研究成果.可以看出,國內研究人員已經可以從延續 他人工作轉變為開辟新的研究領域,這一點說明國 內在該領域走在世界學術前沿.值得一提的是,國內 學者在知識圖譜驅動的多模態數據理解方面同樣具 有較強的應用落地思維,分別面向推薦系統等垂直 場景進行了探索嘗試.
4.2 大規模動態知識圖譜表示學習與預訓練
在大規模動態表示學習方面,國內外均有新的 研究成果,在不同的方向有所突破.國外在序列模型 編碼方法上有更多模型被提出,對 GCN,GNN 等類 型的編碼器進行了改進,在動態表示方面取得了更 好的結果;而國內主要的工作集中在基于分解、基于 歷時性編碼和基于隨機游走改進3個方面,雖然與 國外的方法思路不同,但是在動態表示方面也有亮 點和突出表現.知識圖譜預訓練是近兩年的一個熱 點方向,國內外很多研究機構都針對此方面有所研 究并做出了突破.國外在圖譜表示的預訓練方面有 一些新的工作,并在基于知識圖譜圖結構的預訓練 方面有更多的進展.而國內,基于自然語言方面的知 識預訓練有更多的新模型產生,諸如北京大學、清華 大學等學校,百度等企業均在這方面有新的研究成 果產生.尤其是面向基于大規模知識下游任務的預 訓練模型,有了重大突破,對數以10億計規模的知 識進行了預訓練,并應用于阿里電商平臺,為商品推 薦、語義搜索和智能問答等下游任務提供支持.
4.3 神經符號結合的知識表示與推理
在神經助力符號方面,國內外均有新的研究成 果.通過比較可以看出,國外研究團隊在知識圖譜表 示學習技術的初期走在該領域的前沿,提出了一系 列開創性的工作;國內的研究團隊主要針對各類模 型和數據特點進行改進,在后期逐漸提出了創新性 更高和實用性更強的工作,尤其是知識圖譜表示學 習技術在其他任務(如智能問答、近似搜索、推薦系 統、實體對齊、社交網絡等)中有效地使用,國內研究 團隊走在學術的前沿,可以看出國內學者更傾向于 應用層級的研究.除此之外,在邏輯推理等偏理論的 模型中如何引入神經網絡,國內研究工作還不多.在 符號助力神經方面,國內外都走在學術的前沿.在神 經符號結合方面,谷歌公司依然走在世界的最前沿, 提出了一系列開創性工作,國內這方面的工作還偏 少.不過整個神經符號的有機結合還屬于初期探索 領域,隨著越多的研究者開始關注,未來我國研究團 隊還有很大的提升空間.
總結
本文圍繞支撐新一代知識圖譜的關鍵技術研究 進展與趨勢展開系統性論述,內容包括:非結構化多模態圖譜組織與理解、大規模動態圖譜表示學習與預 訓練模型、神經符合結合的知識表示與推理.在此基 礎上,給出了國內與國際的當前研究進展,并對國內 外研究進展進行比較.最后對這些關鍵技術的發展趨 勢進行了展望.
知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.
引言
知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .
為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.
盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.
本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.
1 符號定義
知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).
2.1 基于距離的模型
基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.
基于距離的模型總結
2.2 語義匹配模型
語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.
語義匹配模型總結
2.3 最新的知識圖譜嵌入模型
大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.
最新的知識圖譜嵌入模型總結
第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.
3 動態知識圖譜嵌入
當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.
4 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.
5.1 基于知識圖譜嵌入的問答
隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.
值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。
5.2 推薦系統
在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.
5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.
受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.
6 挑戰與展望
目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.
6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.
知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.
多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.
多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.
One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.
6.1.2 知識應用的復雜性
KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.
6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.
6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.
6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.
7 總結
知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.
面向知識圖譜的知識推理旨在通過已有的知識圖譜事實,去推斷新的事實,進而實現知識庫的補全。近年來,盡管基于分布式表示學習的方法在推理任務上取得了巨大的成功,但是他們的黑盒屬性使得模型無法為預測出的事實做出解釋。所以,如何設計用戶可理解、可信賴的推理模型成為了人們關注的問題。本文從可解釋性的基本概念出發,系統梳理了面向知識圖譜的可解釋知識推理的相關工作,具體介紹了事前可解釋推理模型和事后可解釋推理模型的研究進展;根據可解釋范圍的大小,本文將事前可解釋推理模型進一步細分為全局可解釋的推理和局部可解釋的推理;在事后解釋模型中,本文回顧了推理模型的代表方法,并詳細介紹提供事后解釋的兩類解釋方法。此外,本文還總結了可解釋知識推理在醫療、金融領域的應用。隨后,本文對可解釋知識推理的現狀進行概述,最后展望了可解釋知識推理的未來發展方向,以期進一步推動可解釋推理的發展和應用。
//www.jos.org.cn/jos/article/abstract/6522
知識圖譜(Knowledge Graph)本質是一種語義網絡,通常用 (頭實體,關系,尾實體)/ ( ,r, t) h 這樣 的三元組來表達事物屬性以及事物之間的語義關系。自谷歌提出知識圖譜概念以來,知識圖譜已經為智能 問答、對話生成、個性化推薦等多個 NLP 任務領域提供了有力支撐。雖然目前的知識圖譜中存在大量的實 體和事實數據,但是這樣大規模的數據仍然不完整,大量缺失的三元組嚴重限制了這些下游任務的性能。知識推理,這一旨在根據一定的推理機制去預測圖譜中缺失三元組的任務,也吸引了學術界越來越多的目光。
早在 2013 年,Li 等人[1] 提出利用表示學習的方法去做知識推理,通過將實體和關系映射到低維連續 的向量空間,將推理預測任務轉化為實體與關系所關聯的簡單的向量/矩陣操作。鑒于該方法的自由度高、 可計算性好、推理效率高等優點,該類方法在近幾年得到了廣泛關注和發展,并且廣泛的應用在推薦系統、 對話生成等互聯網場景。在這些場景下,研究者們更多的關注如何提高知識推理的性能,忽略知識推理發 生錯誤時的風險問題。即便推理模型在這些場景下產生錯誤推理時,通常來說,并不會招致非常嚴重的后果。然而,在當今人工智能技術應用的大趨勢下,知識推理不僅可以應用在上述互聯網場景,而且越來越 多的被應用在和人類的生產生活息息相關的一些領域(例如,智能醫療[98,99,100]、軍事[112] 、金融[90,111]、交 通運輸[113,114]),這些領域往往對模型的安全性能要求較高,風險高度敏感。例如,在醫療領域,推理的可 靠性會關系到人的生命安全。通常來說,在這些領域,僅僅獲得預測結果是不夠的,模型還必須解釋是怎 么獲得這個預測的,來建立用戶和推理模型之間的信任。
隨著深度學習的發展,知識推理方法的模型結構越來越復雜,僅僅一個網絡就可能包含幾百個神經元、 百萬個參數。盡管這些推理模型在速度、穩定性、可移植性、準確性等諸多方面優于人類,但由于用戶無 法對這類模型里的參數、結構、特征產生直觀理解,對于模型的決策過程和模型的推理依據知之甚少,對 于模型的決策過程知之甚少,不知道它何時會出現錯誤,在風險敏感的領域中,用戶仍然無法信任模型的 預測結果。因此,為了建立用戶和推理模型之間的信任,平衡模型準確率和可解釋性之間的矛盾,可解釋 性知識推理在近幾年的科研會議上成為關注熱點。
盡管有很多學者對知識推理領域進行了深入的研究,并從不同的角度(如分布式表示角度[120] 、圖神 經網絡角度[121] 、神經-符號角度[119] 等)對推理模型進行梳理和總結。然而,在推理模型的可解釋性方面 卻缺少深入的對比和總結。為了促進可解釋知識推理的研究與發展,本文對現有的可解釋推理模型進行了 系統梳理、總結和展望。本文首先闡述可解釋性的定義和可解釋性在推理任務中的必要性,并介紹常見的 可解釋模型劃分標準;然后,根據解釋產生的方式,對現有的可解釋知識推理模型進行總結和歸類,并討 論相關方法的局限性;接著,簡單介紹可解釋知識推理在金融領域和醫療領域的應用。最后,本文討論可 解釋知識推理面臨的挑戰以及可能的研究方向。
1 可解釋的知識推理
在詳細介紹現有的可解釋知識推理模型之前,首先介紹知識推理的基本概念,接著對什么是可解釋性 (Interpretability),以及為什么要在推理任務中注重可解釋性進行介紹,最后對本文的劃分標準做簡要說明。
1.1 知識推理的基本概念
2012 年,谷歌正式提出知識圖譜的概念,用于改善自身的搜索質量。知識圖譜通常用 ( ,r, t) h 這樣 的三元組表達實體及其實體之間的語義關系,其中 h 代表頭實體, r 代表實體之間的關系, t 代表尾實體。例如(詹姆斯·卡梅隆,執導,泰坦尼克號)即是一個三元組,其中頭實體和尾實體分別為“詹姆斯·卡梅隆” 和“泰坦尼克號”,“執導”是兩個實體之間的關系。代表性的知識圖譜,如 DBpedia[108] 、Freebase[53] 、 Wikidata[55] 、YAGO[107] 等,雖然包含數以億計的三元組,但是卻面臨非常嚴重的數據缺失問題。據 2014 年的統計,在 Freebase 知識庫中,有 75%的人沒有國籍信息,DBpedia 中 60% 的人缺少沒有出生地信息 [125] 。知識圖譜的不完整性嚴重制約了知識圖譜在下游任務中的效能發揮。因此,如何讓機器自動基于知 識圖譜中的已有知識進行推理,從而補全和完善知識圖譜,成為了工業界和學術界都亟待解決的問題。
總的來說,面向知識圖譜的知識推理實質上是指利用機器學習或深度學習的方法,根據知識圖譜中已 有的三元組去推理出缺失的三元組,從而對知識圖譜進行補充和完善。例如,已知(詹姆斯·卡梅隆,執導, 泰坦尼克號)和(萊昂納多·迪卡普里奧,出演,泰坦尼克號),可以得到(詹姆斯·卡梅隆,合作,萊昂納 多·迪卡普里奧)。知識推理主要包含知識圖譜去噪[12] 和知識圖譜補全(又稱之為鏈接預測)[1,27,94,95]兩個 任務[117] ,其中,知識圖譜去噪任務專注于知識圖譜內部已有三元組正確性的判斷;而知識圖譜補全專注 于擴充現有的圖譜。根據要推理元素的不同,知識圖譜補全任務可以進一步細分為實體預測和關系預測。其中,實體預測是指給定查詢 ( ,r,?) h ,利用已有事實的關系,推理出另一個實體并由此構成完整三元組, 同理,關系預測則是指給定查詢 ( ,?, t) h ,推理給定的頭尾實體之間的關系。由于知識圖譜中大多數三元組 都是正確的,知識圖譜去噪任務通常采用對已有三元組進行聯合建模并進一步判斷特定三元組是否成立的 方法。在這種情況下,知識圖譜補全任務可以轉化為知識圖譜去噪任務[123,124]。為此,在下面的內容里,本 文以知識圖譜補全任務為中心,對相關的可解釋性方法進行梳理和總結。
1.2 可解釋性及其在知識推理中的必要性
目前學術界和工業界對于可解釋性沒有明確的數學定義[62] ,不同的研究者解決問題的角度不同,為 可解釋性賦予的涵義也不同,所提出的可解釋性方法也各有側重。目前被廣泛接受的一種定義由 Miller (2017)[2,42]所提出,指可解釋性是人們能夠理解決策原因的程度。如果一個模型比另一個模型的決策過程 更簡單、明了、易于理解,那么它就比另一個模型具有更高的可解釋性。
在某些情況下,我們不必關心模型為什么做出這樣的預測,因為它們是在低風險的環境中使用的,這 意味著錯誤不會造成嚴重后果(例如,電影推薦系統),但是對于某些問題或任務,僅僅獲得預測結果是 不夠的。該模型還必須解釋是怎么獲得這個預測的,因為正確的預測只部分地解決了原始問題。通常來說, 以下三點原因推動了對可解釋性的需求:
1、高可靠性要求。盡管可解釋性對于一些系統來說并不是不可或缺的,但是,對于某些需要高度可靠 的預測系統來說很重要,因為錯誤可能會導致災難性的結果(例如,人的生命、重大的經濟損失)。可解釋性可以使潛在的錯誤更容易被檢測到,避免嚴重的后果。此外,它可以幫助工程師查明根 本原因并相應地提供修復。可解釋性不會使模型更可靠或其性能更好,但它是構建高度可靠系統 的重要組成部分。
2、道德和法律要求。第一個要求是檢測算法歧視。由于機器學習技術的性質,經過訓練的深度神經網 絡可能會繼承訓練集中的偏差,這有時很難被注意到。在我們的日常生活中使用 DNN 時存在公 平性問題,例如抵押資格、信用和保險風險評估。人們要求算法能夠解釋作出特定預測或判斷的 原因,希望模型的解釋能夠使“算法歧視”的受害者訴諸人權。此外,推理模型目前也被用于新 藥的發現和設計[124] 。在藥物設計領域,除了臨床測試結果以外,新藥還需要通常還需要支持結 果的生物學機制,需要具備可解釋性才能獲得監管機構的批準,例如國家藥品監督管理局 (NMPA)。
3、科學發現的要求。推理模型本身應該成為知識的來源,可解釋性使提取模型捕獲的這些額外知識成 為可能。當深度網絡達到比舊模型更好的性能時,它們一定發現了一些未知的“知識”。可解釋性 是揭示這些知識的一種方式。
1.3 本文的劃分標準
根據不同的劃分標準,知識推理模型可以被劃分成不同的類別。其中,根據解釋產生的方法,可以將 推理模型劃分為兩大類:事前可解釋和事后可解釋[41,62,96,97,102,118]。其中,事前可解釋模型主要指不需要額 外的解釋方法,解釋蘊含在自身架構之中的模型。事后可解釋性是指模型訓練后運用解釋方法進行推理過 程和推理結果的解釋,解釋方法自身是不包含在模型里面的。一種方法被看作能夠對黑盒模型進行解釋, 是指該方法可以:(1)通過可解釋和透明的模型(例如,淺決策樹、規則列表或者稀疏線性模型)對模型 的行為進行近似,可以為模型提供全局的可解釋;(2)能夠解釋模型在特定輸入樣例上進行預測的原因;(3)可以對模型進行內部檢查,了解模型的某些特定屬性,譬如模型敏感性或深度學習中神經元在某一特 定決策中起到的作用[41] 。值得注意的是,可以將事后解釋方法應用于事前可解釋的模型上,例如,可以 從敏感性分析的角度對事前模型進行剖析。此外,根據可解釋的范圍大小----是否解釋單個實例預測或整個 模型行為,可以將模型劃分為局部可解釋和全局可解釋兩大類[97,96];根據解釋方法是否特定于模型,可以 將模型劃分為特定于模型和模型無關兩種類別[96] 。在接下來的內容里,本文按照解釋產生的方式,對知 識推理模型進行總結和歸類。
隨著智能化水平的不斷提高, 每時每刻都有大量的新知識產生, 知識圖譜逐漸成為我們管理知識的工具之一. 但現有的知識圖譜仍然存在屬性缺失、關系稀疏等問題, 同時還存在大量噪聲信息, 導致圖譜質量不佳, 易對自然語言處理領域中的各類任務造成影響. 面向知識圖譜的知識推理技術作為目前的研究熱點, 是解決該問題的主要方法, 其通過模擬人的推理過程完成對圖譜信息的完善, 在眾多應用中有較好表現. 以知識圖譜為切入點, 將知識推理技術按類別劃分并分別闡釋, 詳細分析該技術的幾種應用任務, 例如智能問答、推薦系統等, 最后對未來主要研究方向進行展望, 提出幾種研究思路.