摘要 知識圖譜以語義網絡的形式將客觀世界中概念、實體及其之間的關系進行結構化描述,提高了人類從數據中抽取信息、從信息中提煉知識的能力。該文形式化地描述了知識圖譜的基本概念,提出了知識圖譜的層次化體系架構,詳細分析了信息抽取、知識融合、知識架構、知識管理等核心層次的技術發展現狀,系統梳理了知識圖譜在軍事領域的應用,并對知識圖譜未來發展的挑戰和趨勢進行了總結展望。
知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.
引言
知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .
為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.
盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.
本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.
1 符號定義
知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).
2.1 基于距離的模型
基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.
基于距離的模型總結
2.2 語義匹配模型
語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.
語義匹配模型總結
2.3 最新的知識圖譜嵌入模型
大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.
最新的知識圖譜嵌入模型總結
第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.
3 動態知識圖譜嵌入
當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.
4 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.
5.1 基于知識圖譜嵌入的問答
隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.
值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。
5.2 推薦系統
在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.
5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.
受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.
6 挑戰與展望
目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.
6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.
知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.
多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.
多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.
One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.
6.1.2 知識應用的復雜性
KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.
6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.
6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.
6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.
7 總結
知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.
針對知識圖譜(KG)在知識驅動的人工智能研究中發揮的強大支撐作用,分析并總結了現有知識圖譜和知識超圖技術。首先,從知識圖譜的定義與發展歷程出發,介紹了知識圖譜的分類和架構;其次,對現有的知識表示與存儲方式進行了闡述;然后,基于知識圖譜的構建流程,分析了各類知識圖譜構建技術的研究現狀。特別是針對知識圖譜中的知識推理這一重要環節,分析了基于邏輯規則、嵌入表示和神經網絡的三類典型的知識推理方法。此外,以異構超圖引出知識超圖的研究進展,并提出三層架構的知識超圖,從而更好地表示和提取超關系特征,實現對超關系數據的建模及快速的知識推理。最后,總結了知識圖譜和知識超圖的典型應用場景并對未來的研究作出了展望。
隨著計算機科學相關領域研究的不斷深入,人工智能的 研究重心由感知智能轉向認知智能。專家系統和語義網絡作 為認知智能的早期代表,提出“將知識引入人工智能領域”,在 某些特定領域具備一定的問題解決能力,但仍存在規模較小、 自動化構建能力不足、知識獲取困難等一系列問題。知識圖譜(Knowledge Graph,KG)的出現,改變了傳統的 知識獲取模式,將知識工程“自上而下”方式轉變為挖掘數據、 抽取知識的“自下而上”方式。經過長期的理論創新與實踐探 索,知識圖譜已經具備體系化的構建與推理方法。然而,對于 實體關系,知識圖譜雖然有較強的建模能力,但難以表達普遍存在的多元關系。知識超圖通過引入超邊關系,能夠完整表 達各種復雜的關系類型,得到學術界和工業界的高度關注。此 外 ,知 識 圖 譜 和 知 識 超 圖 能 夠 結 合 深 度 學 習(Deep Learning,DL)等人工智能技術,實現高效推理。
摘要:數據和知識是新一代信息技術與智能制造深度融合的基礎。然而,當前產品設計、制造、裝配和服務等過程中,數據及知識的存儲大多以傳統關系型數據庫為基礎,這導致了數據及知識的冗余性和搜索及推理的低效性。近年來,知識圖譜技術飛速發展起來,它本質上是基于語義網絡的思想,可以實現對現實世界的事物及其相互關系的形式化描述。該技術為智能制造領域數據及知識的關聯性表達和相關性搜索推理問題的解決帶來了可能性,因此其在智能制造的實現過程中扮演著越來越重要的角色。為了給知識圖譜在智能制造領域的應用提供理論支撐,總結了知識圖譜領域的研究進展;同時探索了知識圖譜在智能制造領域的3大類應用方向,共15小類應用前景,分析了在各個應用前景上與傳統方法的不同之處,應用過程中所需要使用的知識圖譜相關技術以及實施過程中所待突破的關鍵技術,希望可以為進一步展開針對知識圖譜在智能制造領域的研究提供啟發,同時為相關企業針對知識圖譜的實際應用提供參考;最后以數控車床故障分析為案例,驗證了知識圖譜在智能制造領域應用的有效性。
物聯網、云計算、人工智能等新一代信息技術的迅猛發展,帶來了制造業的新一輪突破,推動著制造系統向智能化方向發展,驅動著未來制造模式的創新[1]。其中數據和知識是實現制造業與新一代信息技術融合的基礎,是實現智能制造的保障。一方面,產品在其生命周期的各個階段將會產生海量工業數據和知識[2];另一方面,工業數據和知識是制造領域的信息化進程的必備資源,其中蘊含了大量有用的模式。然而,當前制造領域產品設計、制造、裝配、服務等生命周期過程中數據以及知識的存儲大多以傳統關系型數據庫為基礎,冗余性較高、分布分散、關聯性較弱且儲量相對較小,強調對數據以及知識的檢索卻較少從語義層面研究數據以及知識的關聯、認知、理解與推理。因此,如何從冗 余的數據與知識文本中抽取有用信息,如何有效表 達數據之間的內在關聯與知識之間的內在關聯,如 何有效利用數據的關聯性與知識的關聯性實現高效 的信息檢索與信息推理,是當前實現智能制造目標 的核心瓶頸之一。知識圖譜(Knowledge graph,KG)來源于谷歌下 一代智能語義搜索引擎技術。其本質上基于語義網 絡的思想,是一種有向圖結構的語義知識庫,用于 以符號形式描述物理世界中的概念及其相互關 系 [3],其應用服務架構如圖 1 所示。在知識圖譜內 部,數據和知識的存儲結構為三元組,形如 s p o , ,其中 s 和 o 為知識圖譜中的節點,分別 代表了主語實體知識和賓語實體知識, p 為知識圖 譜中的邊,代表了從 s 指向 o 的關系知識(謂語)。
知識圖譜具有如下 3 種特點:① 數據及知識的 存儲結構為有向圖結構。有向圖結構允許知識圖譜 有效地存儲數據和知識之間的關聯關系;② 具備高 效的數據和知識檢索能力。知識圖譜可以通過圖匹 配算法,實現高效的數據和知識訪問;③ 具備智能 化的數據和知識推理能力。知識圖譜可以自動化、 智能化地從已有的知識中發現和推理多角度的隱含知識。
目前,知識圖譜技術已經在互聯網領域如搜索引擎、智能問答等發揮了重要作用,同時也已經在 多個領域進行初步應用,比如:金融、電商、醫療 等 [4]。許多國際著名企業也已經開始探索知識圖譜 的應用,比如谷歌、微軟、IBM、蘋果等。與此同 時,在智能制造領域,西門子于 2018 年提出了他們 在知識圖譜領域的規劃[5];博世公司于 2019 年構建 了底盤系統控制相關數據的大型知識圖譜,以提供 有效地數據訪問[6]。然而國內的機械行業針對知識 圖譜的探索卻有些許不足。在研究過程中以及與多家機械相關企業的交流中發現,當前知識圖譜在智 能制造領域應用過程還存在以下不足。
(1) 缺乏對知識圖譜理論的深入認識。目前知 識圖譜相關理論與技術在迅速發展,但是智能制造 領域的專家大多對該技術缺乏深入的了解,無法有 效管理和應用知識圖譜中的數據及知識。
(2) 知識圖譜相關技術在智能制造領域的優勢 不明晰。目前知識圖譜在智能制造領域的應用處于 起步階段,針對產品設計、制造、裝配、服務等過 程所帶來的優勢不是很明確,且在知識圖譜應用于 智能制造領域過程中可能遇到的問題尚不明確。
(3) 知識圖譜相關技術在智能制造領域的應用 場景模糊。當前企業對知識圖譜在智能制造領域的 應用前景有所疑問,不確定知識圖譜技術在產品設 計、制造、裝配和服務等過程的切入點和切入方式。
(4) 知識圖譜在智能制造領域落地所需要的技 術不明確。目前在通用領域上的知識圖譜的研究角 度十分廣泛,但是針對智能制造領域各個應用場景, 所需要使用的知識圖譜相關技術類別卻還不是很明晰。
(5) 智能制造領域相關數據缺乏。目前基于深 度學習的知識圖譜相關技術需要構建一定量的有標 簽數據集,目前通用領域的相關數據集比較多,而 智能制造領域的相關數據卻比較缺乏。
針對以上問題,本文總結了可以應用于智能制 造領域的知識圖譜技術的研究進展。同時從應用出 發,探索了知識圖譜在智能制造領域的 3 大類應用 方向,共 15 小類應用前景,分析了在各個應用前景 上與傳統方法的不同之處,應用過程中所需要的知 識圖譜技術以及實施過程中所待突破的關鍵技術, 為后續知識圖譜在智能制造領域的進一步落地提供 理論支撐和方法參考。