99视频在线播放喷射,亚洲视频华人在线播放

面向知識圖譜的知識推理旨在通過已有的知識圖譜事實，去推斷新的事實，進而實現知識庫的補全。近年來，盡管基于分布式表示學習的方法在推理任務上取得了巨大的成功，但是他們的黑盒屬性使得模型無法為預測出的事實做出解釋。所以，如何設計用戶可理解、可信賴的推理模型成為了人們關注的問題。本文從可解釋性的基本概念出發，系統梳理了面向知識圖譜的可解釋知識推理的相關工作，具體介紹了事前可解釋推理模型和事后可解釋推理模型的研究進展；根據可解釋范圍的大小，本文將事前可解釋推理模型進一步細分為全局可解釋的推理和局部可解釋的推理；在事后解釋模型中，本文回顧了推理模型的代表方法，并詳細介紹提供事后解釋的兩類解釋方法。此外，本文還總結了可解釋知識推理在醫療、金融領域的應用。隨后，本文對可解釋知識推理的現狀進行概述，最后展望了可解釋知識推理的未來發展方向，以期進一步推動可解釋推理的發展和應用。

//www.jos.org.cn/jos/article/abstract/6522

知識圖譜（Knowledge Graph）本質是一種語義網絡，通常用 (頭實體，關系，尾實體)/ ( ,r, t) h 這樣的三元組來表達事物屬性以及事物之間的語義關系。自谷歌提出知識圖譜概念以來，知識圖譜已經為智能問答、對話生成、個性化推薦等多個 NLP 任務領域提供了有力支撐。雖然目前的知識圖譜中存在大量的實體和事實數據，但是這樣大規模的數據仍然不完整，大量缺失的三元組嚴重限制了這些下游任務的性能。知識推理，這一旨在根據一定的推理機制去預測圖譜中缺失三元組的任務，也吸引了學術界越來越多的目光。

早在 2013 年，Li 等人[1] 提出利用表示學習的方法去做知識推理，通過將實體和關系映射到低維連續的向量空間，將推理預測任務轉化為實體與關系所關聯的簡單的向量/矩陣操作。鑒于該方法的自由度高、可計算性好、推理效率高等優點，該類方法在近幾年得到了廣泛關注和發展，并且廣泛的應用在推薦系統、對話生成等互聯網場景。在這些場景下，研究者們更多的關注如何提高知識推理的性能，忽略知識推理發生錯誤時的風險問題。即便推理模型在這些場景下產生錯誤推理時，通常來說，并不會招致非常嚴重的后果。然而，在當今人工智能技術應用的大趨勢下，知識推理不僅可以應用在上述互聯網場景，而且越來越多的被應用在和人類的生產生活息息相關的一些領域（例如，智能醫療[98,99,100]、軍事[112] 、金融[90,111]、交通運輸[113,114]），這些領域往往對模型的安全性能要求較高，風險高度敏感。例如，在醫療領域，推理的可靠性會關系到人的生命安全。通常來說，在這些領域，僅僅獲得預測結果是不夠的，模型還必須解釋是怎么獲得這個預測的，來建立用戶和推理模型之間的信任。

隨著深度學習的發展，知識推理方法的模型結構越來越復雜，僅僅一個網絡就可能包含幾百個神經元、百萬個參數。盡管這些推理模型在速度、穩定性、可移植性、準確性等諸多方面優于人類，但由于用戶無法對這類模型里的參數、結構、特征產生直觀理解，對于模型的決策過程和模型的推理依據知之甚少，對于模型的決策過程知之甚少，不知道它何時會出現錯誤，在風險敏感的領域中，用戶仍然無法信任模型的預測結果。因此，為了建立用戶和推理模型之間的信任，平衡模型準確率和可解釋性之間的矛盾，可解釋性知識推理在近幾年的科研會議上成為關注熱點。

盡管有很多學者對知識推理領域進行了深入的研究，并從不同的角度（如分布式表示角度[120] 、圖神經網絡角度[121] 、神經-符號角度[119] 等）對推理模型進行梳理和總結。然而，在推理模型的可解釋性方面卻缺少深入的對比和總結。為了促進可解釋知識推理的研究與發展，本文對現有的可解釋推理模型進行了系統梳理、總結和展望。本文首先闡述可解釋性的定義和可解釋性在推理任務中的必要性，并介紹常見的可解釋模型劃分標準；然后，根據解釋產生的方式，對現有的可解釋知識推理模型進行總結和歸類，并討論相關方法的局限性；接著，簡單介紹可解釋知識推理在金融領域和醫療領域的應用。最后，本文討論可解釋知識推理面臨的挑戰以及可能的研究方向。

1 可解釋的知識推理

在詳細介紹現有的可解釋知識推理模型之前，首先介紹知識推理的基本概念，接著對什么是可解釋性（Interpretability），以及為什么要在推理任務中注重可解釋性進行介紹，最后對本文的劃分標準做簡要說明。

1.1 知識推理的基本概念

2012 年，谷歌正式提出知識圖譜的概念，用于改善自身的搜索質量。知識圖譜通常用 ( ,r, t) h 這樣的三元組表達實體及其實體之間的語義關系，其中 h 代表頭實體， r 代表實體之間的關系， t 代表尾實體。例如（詹姆斯·卡梅隆，執導，泰坦尼克號）即是一個三元組，其中頭實體和尾實體分別為“詹姆斯·卡梅隆” 和“泰坦尼克號”，“執導”是兩個實體之間的關系。代表性的知識圖譜，如 DBpedia[108] 、Freebase[53] 、 Wikidata[55] 、YAGO[107] 等，雖然包含數以億計的三元組，但是卻面臨非常嚴重的數據缺失問題。據 2014 年的統計，在 Freebase 知識庫中，有 75%的人沒有國籍信息，DBpedia 中 60% 的人缺少沒有出生地信息 [125] 。知識圖譜的不完整性嚴重制約了知識圖譜在下游任務中的效能發揮。因此，如何讓機器自動基于知識圖譜中的已有知識進行推理，從而補全和完善知識圖譜，成為了工業界和學術界都亟待解決的問題。

總的來說，面向知識圖譜的知識推理實質上是指利用機器學習或深度學習的方法，根據知識圖譜中已有的三元組去推理出缺失的三元組，從而對知識圖譜進行補充和完善。例如，已知（詹姆斯·卡梅隆，執導，泰坦尼克號）和（萊昂納多·迪卡普里奧，出演，泰坦尼克號），可以得到（詹姆斯·卡梅隆，合作，萊昂納多·迪卡普里奧）。知識推理主要包含知識圖譜去噪[12] 和知識圖譜補全（又稱之為鏈接預測）[1,27,94,95]兩個任務[117] ，其中，知識圖譜去噪任務專注于知識圖譜內部已有三元組正確性的判斷；而知識圖譜補全專注于擴充現有的圖譜。根據要推理元素的不同，知識圖譜補全任務可以進一步細分為實體預測和關系預測。其中，實體預測是指給定查詢 ( ,r,?) h ，利用已有事實的關系，推理出另一個實體并由此構成完整三元組，同理，關系預測則是指給定查詢 ( ,?, t) h ，推理給定的頭尾實體之間的關系。由于知識圖譜中大多數三元組都是正確的，知識圖譜去噪任務通常采用對已有三元組進行聯合建模并進一步判斷特定三元組是否成立的方法。在這種情況下，知識圖譜補全任務可以轉化為知識圖譜去噪任務[123,124]。為此，在下面的內容里，本文以知識圖譜補全任務為中心，對相關的可解釋性方法進行梳理和總結。

1.2 可解釋性及其在知識推理中的必要性

目前學術界和工業界對于可解釋性沒有明確的數學定義[62] ，不同的研究者解決問題的角度不同，為可解釋性賦予的涵義也不同，所提出的可解釋性方法也各有側重。目前被廣泛接受的一種定義由 Miller （2017）[2,42]所提出，指可解釋性是人們能夠理解決策原因的程度。如果一個模型比另一個模型的決策過程更簡單、明了、易于理解，那么它就比另一個模型具有更高的可解釋性。

在某些情況下，我們不必關心模型為什么做出這樣的預測，因為它們是在低風險的環境中使用的，這意味著錯誤不會造成嚴重后果（例如，電影推薦系統），但是對于某些問題或任務，僅僅獲得預測結果是不夠的。該模型還必須解釋是怎么獲得這個預測的，因為正確的預測只部分地解決了原始問題。通常來說，以下三點原因推動了對可解釋性的需求：

1、高可靠性要求。盡管可解釋性對于一些系統來說并不是不可或缺的，但是，對于某些需要高度可靠的預測系統來說很重要，因為錯誤可能會導致災難性的結果（例如，人的生命、重大的經濟損失）。可解釋性可以使潛在的錯誤更容易被檢測到，避免嚴重的后果。此外，它可以幫助工程師查明根本原因并相應地提供修復。可解釋性不會使模型更可靠或其性能更好，但它是構建高度可靠系統的重要組成部分。

2、道德和法律要求。第一個要求是檢測算法歧視。由于機器學習技術的性質，經過訓練的深度神經網絡可能會繼承訓練集中的偏差，這有時很難被注意到。在我們的日常生活中使用 DNN 時存在公平性問題，例如抵押資格、信用和保險風險評估。人們要求算法能夠解釋作出特定預測或判斷的原因，希望模型的解釋能夠使“算法歧視”的受害者訴諸人權。此外，推理模型目前也被用于新藥的發現和設計[124] 。在藥物設計領域，除了臨床測試結果以外，新藥還需要通常還需要支持結果的生物學機制，需要具備可解釋性才能獲得監管機構的批準，例如國家藥品監督管理局 (NMPA)。

3、科學發現的要求。推理模型本身應該成為知識的來源，可解釋性使提取模型捕獲的這些額外知識成為可能。當深度網絡達到比舊模型更好的性能時，它們一定發現了一些未知的“知識”。可解釋性是揭示這些知識的一種方式。

1.3 本文的劃分標準

根據不同的劃分標準，知識推理模型可以被劃分成不同的類別。其中，根據解釋產生的方法，可以將推理模型劃分為兩大類：事前可解釋和事后可解釋[41,62,96,97,102,118]。其中，事前可解釋模型主要指不需要額外的解釋方法，解釋蘊含在自身架構之中的模型。事后可解釋性是指模型訓練后運用解釋方法進行推理過程和推理結果的解釋，解釋方法自身是不包含在模型里面的。一種方法被看作能夠對黑盒模型進行解釋，是指該方法可以：（1）通過可解釋和透明的模型（例如，淺決策樹、規則列表或者稀疏線性模型）對模型的行為進行近似，可以為模型提供全局的可解釋；（2）能夠解釋模型在特定輸入樣例上進行預測的原因；（3）可以對模型進行內部檢查，了解模型的某些特定屬性，譬如模型敏感性或深度學習中神經元在某一特定決策中起到的作用[41] 。值得注意的是，可以將事后解釋方法應用于事前可解釋的模型上，例如，可以從敏感性分析的角度對事前模型進行剖析。此外，根據可解釋的范圍大小----是否解釋單個實例預測或整個模型行為，可以將模型劃分為局部可解釋和全局可解釋兩大類[97,96]；根據解釋方法是否特定于模型，可以將模型劃分為特定于模型和模型無關兩種類別[96] 。在接下來的內容里，本文按照解釋產生的方式，對知識推理模型進行總結和歸類。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

知識圖譜嵌入 · 翻譯模型 · 復雜關系建模 · 動態知識圖譜 · 關系提取 ·

2022 年 2 月 5 日

[付費5元查看完整內容]知識圖譜嵌入技術研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜嵌入面臨的挑戰,對未來的研究方向進行展望.

引言

知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .

為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的相似性來顯式地捕獲實體和關系之間的相似性.

盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.

本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向進行討論.最后,第 7 節對全文工作進行總結.

1 符號定義

知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義幾種基本符號.首先,定義知識圖譜為 G=（E,R,S）.

2. 使用事實進行知識圖譜嵌入

本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基于相似性的評分函數(如圖 1(b)).

2.1 基于距離的模型

基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.

基于距離的模型總結

2.2 語義匹配模型

語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來介紹代表性的語義匹配模型.

語義匹配模型總結

2.3 最新的知識圖譜嵌入模型

大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.

最新的知識圖譜嵌入模型總結

第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知識圖譜嵌入方法的部分代表模型進行對比.

3 動態知識圖譜嵌入

當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.

4 融合多源信息的知識圖譜嵌入

多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.

5 知識圖譜嵌入的應用

近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.

5.1 基于知識圖譜嵌入的問答

隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.

值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相當的性能,驗證了 KEQA 的健壯性。

5.2 推薦系統

在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.

5.3 關系提取關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本中的信息,而忽略了 KG 結構所包含的豐富信息.

受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結構對于 KG 補全非常有效.

6 挑戰與展望

目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其未來研究方向.

6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.

知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型的關系應該采用不同的方式建模.

多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研究是一項有待解決的有意義但又具有挑戰性的工作.

多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍然獨立于知識圖譜表示的構建,因此還有待進一步研究.

One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使其更適合于低頻實體和關系的表示學習.

6.1.2 知識應用的復雜性

KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.

6.2 未來方向 6.2.1 統一框架一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一研究[158]是彌合研究差距的一種有價值的方法.

6.2.2 可解釋性知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并提高預測知識的可靠性.

6.2.3 可擴展性在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.

7 總結

知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研究提供幫助.

付費5元查看完整內容

推薦系統 · 知識圖譜 · 論文 ·

2021 年 11 月 22 日

[付費5元查看完整內容]知識驅動的推薦系統：現狀與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

個性化推薦系統能夠根據用戶的個性化偏好和需要，自動、快速、精準地為用戶提供其所需的互聯網資源，已成為當今大數據時代應用最廣泛的信息檢索系統，具有巨大的商業應用價值。近年來，隨著互聯網海量數據的激增，人工智能技術的快速發展與普及，以知識圖譜為代表的大數據知識工程日益受到學界和業界的高度關注，也有力地推動推薦系統和個性化推薦技術也邁入到知識驅動與賦能的發展階段。將知識圖譜中蘊含的豐富知識作為有用的輔助信息引入推薦系統，不僅能夠有效應對數據稀疏、語義失配等傳統推薦系統難以避免的問題，還能幫助推薦系統產生多樣化、可解釋的推薦結果，并更好地完成跨領域推薦、序列化推薦等具有挑戰性的推薦任務，從而提升各類實際推薦場景中的用戶滿意度。本文將現有融入知識圖譜的各種推薦模型按其采用的推薦算法與面向的推薦場景不同進行分類，構建科學、合理的分類體系。其中，按照推薦方法的不同，劃分出基于特征表示的和基于圖結構的兩大類推薦模型；按推薦場景劃分，特別關注多樣化推薦、可解釋推薦、序列化推薦與跨領域推薦。然后，我們在各類推薦模型中分別選取代表性的研究工作進行介紹，還簡要對比了各個模型的特點與優劣。此外，本文還結合當下人工智能技術和應用的發展趨勢，展望了認知智能推薦系統的發展前景，具體包括融合多模態知識的推薦系統，具有常識理解能力的推薦系統，以及解說式、勸說式、抗辯式推薦系統。本文的綜述內容和展望可作為推薦系統未來研究方向的有益參考。

//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20210503&flag=1

付費5元查看完整內容

知識圖譜 · 綜述論文 ·

2021 年 11 月 1 日

[付費5元查看完整內容]面向知識圖譜的知識推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著智能化水平的不斷提高, 每時每刻都有大量的新知識產生, 知識圖譜逐漸成為我們管理知識的工具之一. 但現有的知識圖譜仍然存在屬性缺失、關系稀疏等問題, 同時還存在大量噪聲信息, 導致圖譜質量不佳, 易對自然語言處理領域中的各類任務造成影響. 面向知識圖譜的知識推理技術作為目前的研究熱點, 是解決該問題的主要方法, 其通過模擬人的推理過程完成對圖譜信息的完善, 在眾多應用中有較好表現. 以知識圖譜為切入點, 將知識推理技術按類別劃分并分別闡釋, 詳細分析該技術的幾種應用任務, 例如智能問答、推薦系統等, 最后對未來主要研究方向進行展望, 提出幾種研究思路.

//www.c-s-a.org.cn/csa/article/abstract/8137

付費5元查看完整內容

知識圖譜 · 語義網絡 · 智能制造 ·

2021 年 2 月 25 日

[付費5元查看完整內容]知識圖譜在智能制造領域的研究現狀及其應用前景綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：數據和知識是新一代信息技術與智能制造深度融合的基礎。然而，當前產品設計、制造、裝配和服務等過程中，數據及知識的存儲大多以傳統關系型數據庫為基礎，這導致了數據及知識的冗余性和搜索及推理的低效性。近年來，知識圖譜技術飛速發展起來，它本質上是基于語義網絡的思想，可以實現對現實世界的事物及其相互關系的形式化描述。該技術為智能制造領域數據及知識的關聯性表達和相關性搜索推理問題的解決帶來了可能性，因此其在智能制造的實現過程中扮演著越來越重要的角色。為了給知識圖譜在智能制造領域的應用提供理論支撐，總結了知識圖譜領域的研究進展；同時探索了知識圖譜在智能制造領域的3大類應用方向，共15小類應用前景，分析了在各個應用前景上與傳統方法的不同之處，應用過程中所需要使用的知識圖譜相關技術以及實施過程中所待突破的關鍵技術，希望可以為進一步展開針對知識圖譜在智能制造領域的研究提供啟發，同時為相關企業針對知識圖譜的實際應用提供參考；最后以數控車床故障分析為案例，驗證了知識圖譜在智能制造領域應用的有效性。

物聯網、云計算、人工智能等新一代信息技術的迅猛發展，帶來了制造業的新一輪突破，推動著制造系統向智能化方向發展，驅動著未來制造模式的創新[1]。其中數據和知識是實現制造業與新一代信息技術融合的基礎，是實現智能制造的保障。一方面，產品在其生命周期的各個階段將會產生海量工業數據和知識[2]；另一方面，工業數據和知識是制造領域的信息化進程的必備資源，其中蘊含了大量有用的模式。然而，當前制造領域產品設計、制造、裝配、服務等生命周期過程中數據以及知識的存儲大多以傳統關系型數據庫為基礎，冗余性較高、分布分散、關聯性較弱且儲量相對較小，強調對數據以及知識的檢索卻較少從語義層面研究數據以及知識的關聯、認知、理解與推理。因此，如何從冗余的數據與知識文本中抽取有用信息，如何有效表達數據之間的內在關聯與知識之間的內在關聯，如何有效利用數據的關聯性與知識的關聯性實現高效的信息檢索與信息推理，是當前實現智能制造目標的核心瓶頸之一。知識圖譜(Knowledge graph，KG)來源于谷歌下一代智能語義搜索引擎技術。其本質上基于語義網絡的思想，是一種有向圖結構的語義知識庫，用于以符號形式描述物理世界中的概念及其相互關系 [3]，其應用服務架構如圖 1 所示。在知識圖譜內部，數據和知識的存儲結構為三元組，形如 s p o , ，其中 s 和 o 為知識圖譜中的節點，分別代表了主語實體知識和賓語實體知識， p 為知識圖譜中的邊，代表了從 s 指向 o 的關系知識(謂語)。

知識圖譜具有如下 3 種特點：① 數據及知識的存儲結構為有向圖結構。有向圖結構允許知識圖譜有效地存儲數據和知識之間的關聯關系；② 具備高效的數據和知識檢索能力。知識圖譜可以通過圖匹配算法，實現高效的數據和知識訪問；③ 具備智能化的數據和知識推理能力。知識圖譜可以自動化、智能化地從已有的知識中發現和推理多角度的隱含知識。

目前，知識圖譜技術已經在互聯網領域如搜索引擎、智能問答等發揮了重要作用，同時也已經在多個領域進行初步應用，比如：金融、電商、醫療等 [4]。許多國際著名企業也已經開始探索知識圖譜的應用，比如谷歌、微軟、IBM、蘋果等。與此同時，在智能制造領域，西門子于 2018 年提出了他們在知識圖譜領域的規劃[5]；博世公司于 2019 年構建了底盤系統控制相關數據的大型知識圖譜，以提供有效地數據訪問[6]。然而國內的機械行業針對知識圖譜的探索卻有些許不足。在研究過程中以及與多家機械相關企業的交流中發現，當前知識圖譜在智能制造領域應用過程還存在以下不足。

(1) 缺乏對知識圖譜理論的深入認識。目前知識圖譜相關理論與技術在迅速發展，但是智能制造領域的專家大多對該技術缺乏深入的了解，無法有效管理和應用知識圖譜中的數據及知識。

(2) 知識圖譜相關技術在智能制造領域的優勢不明晰。目前知識圖譜在智能制造領域的應用處于起步階段，針對產品設計、制造、裝配、服務等過程所帶來的優勢不是很明確，且在知識圖譜應用于智能制造領域過程中可能遇到的問題尚不明確。

(3) 知識圖譜相關技術在智能制造領域的應用場景模糊。當前企業對知識圖譜在智能制造領域的應用前景有所疑問，不確定知識圖譜技術在產品設計、制造、裝配和服務等過程的切入點和切入方式。

(4) 知識圖譜在智能制造領域落地所需要的技術不明確。目前在通用領域上的知識圖譜的研究角度十分廣泛，但是針對智能制造領域各個應用場景，所需要使用的知識圖譜相關技術類別卻還不是很明晰。

(5) 智能制造領域相關數據缺乏。目前基于深度學習的知識圖譜相關技術需要構建一定量的有標簽數據集，目前通用領域的相關數據集比較多，而智能制造領域的相關數據卻比較缺乏。

針對以上問題，本文總結了可以應用于智能制造領域的知識圖譜技術的研究進展。同時從應用出發，探索了知識圖譜在智能制造領域的 3 大類應用方向，共 15 小類應用前景，分析了在各個應用前景上與傳統方法的不同之處，應用過程中所需要的知識圖譜技術以及實施過程中所待突破的關鍵技術，為后續知識圖譜在智能制造領域的進一步落地提供理論支撐和方法參考。

付費5元查看完整內容

知識圖譜 · 推薦系統 ·

2020 年 8 月 10 日

[付費5元查看完整內容]基于知識圖譜的推薦系統研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.

付費5元查看完整內容