目前,各個國家和地區均已將大數據視為重要的戰略資源.然而,大數據時代普遍存在數據流通困難、數據 監管不足等問題,致使數據孤島現象嚴重,數據質量低下,數據要素潛能難以釋放.這驅使研究人員探索數據集成技 術,以打破數據壁壘、實現信息共享、提升數據質量,進而激活數據要素潛能.關系型數據和知識圖譜作為兩種至關 重要的數據組織與存儲形式,在現實生活中應用廣泛.為此,本文聚焦關系型數據和知識圖譜,歸納總結并分析實體 解析、數據融合、數據清洗三方面的數據集成關鍵技術,最后展望未來研究方向與趨勢.
0.引言
隨著物聯網、社交媒體、電子醫療等技術的高速發展,全球數據呈現爆炸式增長的態勢.根據國際數據公 司(International Data Corporation,簡稱 IDC)統計,到 2025 年全球數據量預計將達 175ZB,表明人類社會已進入大 數據時代[1].近年來,各個國家和地區已陸續將大數據上升至戰略層面.例如,2015 年我國在十八屆五中全會上首 次提出“國家大數據戰略”,同年國務院印發《促進大數據發展行動綱要》,以推進我國大數據發展進程,加速數 據強國建設.此外,美國實施的《大數據研究和發展計劃》、英國發布的《英國數據能力發展戰略規劃》以及歐 盟力推的《數據價值鏈戰略計劃》等均已顯示出布局大數據戰略的迫切性.可以說,大數據正在改變全球社會的發展動力與發展方式,重塑世界格局[2]. 然而,大數據時代普遍存在數據流通困難、數據監管不足等問題,數據孤島現象嚴重、數據質量低下,進而 導致數據要素潛能難以釋放.2020 年《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》 指出 1 :要加快培育數據要素市場,推進政府數據開放共享,加強數據資源整合,提高數據質量和規范性.因此,各 行業各領域對于數據集成的需求日益迫切.數據集成的最終目標是為駐留在不同數據源中的異構數據提供統 一訪問渠道,它是打破數據壁壘,實現信息共享,提升數據質量的重要手段.同時,也為下游的各類數據驅動應用 提供可靠的數據基礎.
**數據集成的概念廣泛,包括實體解析、數據融合數據清洗、關系解析、語義消歧等技術.**專家學者們對于 實體解析、數據融合以及數據清洗技術的關注度日益增加,實體解析、數據融合以及數據清洗已成為數據集成 領域的關鍵研究方向.實體解析是實現數據集成的先決條件,旨在關聯不同來源中指向同一實體的數據實例.在 執行完實體解析后,需要將已關聯的不同來源的數據集成至統一的數據庫中,使得數據內容更豐富,從而發現新 的價值信息.然而,由于不同數據集的異構性、信息不完整、數據錯誤或數據過時等問題,可能在數據集成過程 中發生沖突.因此,需要通過數據融合以解決來自不同數據源的同一實體在集成過程中產生的沖突問題,從而保 證數據的正確性與一致性,提升數據價值.此外,不同來源的數據本身以及數據集成過程中很可能產生數據質量 問題.所以,數據清洗是貫穿整個數據集成過程的關鍵技術,旨在檢測并修復臟數據,以確保數據集成的有效性.
盡管目前已有若干關于數據集成的綜述性文獻,但現有的綜述性文獻側重于(1)描述數據集成的框架概念 [3-4]、發展脈絡[5];或是(2)對數據集成中的某一關鍵技術(譬如實體解析[6-8]、數據融合[9]、數據清洗[10,11]等)進行 綜述,尚缺乏對數據集成中各項關鍵技術研究現狀的全面探討與分析.此外,隨著 5G 和物聯網等技術的飛速發 展,網絡數據內容呈現爆炸式增長的態勢.由于互聯網內容的大規模、異質多元、組織結構松散等特點,為人們 有效地獲取信息和知識提出了巨大挑戰.不同于傳統的關系型數據,知識圖譜[12](Knowledge Graph,簡稱 KG)以 其強大的語義處理能力和開放組織能力,已成為一種流行的數據組織形式.近年來,工業界和學術界都致力于 構建大規模知識圖譜.然而,盡管這些知識圖譜的規模較大(存儲了真實世界中的數百萬條事實),但仍然是高度 不完整的.例如,開源知識庫 Freebase 中 71%的人沒有對應的出生地,75%的人沒有對應的國籍信息.此外,對于一 些不常見的事實描述可能更不完整.因此,數據集成所關注的數據類型已不僅局限于傳統的關系型數據,知識 圖譜亦是數據集成所需應對的關鍵數據類型.此外,亦有一些研究工作涉及面向半結構化數據(Json、XML 等)、 非結構化數據(多媒體數據)的數據集成問題[13,14],然而此類工作仍處于起步階段,尚未形成完整的體系. 鑒于此,本文從關系型數據和知識圖譜兩種關鍵數據類型出發,歸納總結并分析實體解析、數據融合、數 據清洗三方面的數據集成關鍵技術(如圖 1 所示),最后展望未來研究方向與趨勢.
1 實體解析
實體解析是數據庫、信息檢索、機器學習、自然語言處理等領域的研究重點.近年來,專家學者對于實體 解析的關注度日益提升,已提出了許多面向不同數據類型(包括知識圖譜[7]、關系型數據[15,16]、文本數據[17]、 圖像數據[18]等)的實體解析技術.本節聚焦面向關系型數據與知識圖譜的實體解析技術,下面分別對這兩部分工 作予以闡述和分析.
1.1 面向關系型數據的實體解析
概念與定義. 在現實生活中,大量的數據被存儲為關系型數據.然而,這些數據通常分散在彼此孤立的數據 庫中,從而導致數據孤島,阻礙數據的關聯與共享[19].關系型數據實體解析長期以來是學術界和工業界所共同關 注的研究熱點[20,21],其旨在識別來自兩個不同來源的元組是否指向真實世界中的同一對象(或稱兩者為正確匹 配項),以打破數據孤島,實現跨源數據之間的關聯互通,從而為數據集成奠定基礎.
1.2 面向知識圖譜的實體解析
概念與定義. 知識圖譜由一系列三元組(或稱事實)所構成,其中每個三元組包含兩個實體以及連接它們的 關系.知識圖譜作為一種被廣泛使用的知識表現形式,能夠以一種便于機器存儲、識別和理解的方式對數據進 行有效地組織與管理.在現實生活中,不同來源的知識圖譜具有異構性和不完整性的特點,因而需要關聯共享來 自不同來源或不同語言的異構知識,以擴大知識規模、豐富知識內容,從而實現知識集成.面向知識圖譜的實體 解析是知識集成的先決條件,旨在關聯不同來源知識圖譜中指向真實世界同一對象的等價/匹配實體.長期以 來,專家學者一直致力于探索各類知識圖譜實體解析技術.
2 數據融合
由于數據不完整、數據錯誤和數據過時等問題,不同數據源可能產生相互矛盾的數據,對后續查詢分析的 結果產生誤導作用.例如,人們撥打無效的電話號碼可能無法聯系上對方,或是導航到錯誤的診所導致錯過最佳 就診時間,從而導致嚴重后果.因此,解決不同來源數據之間的沖突問題并識別相關數據的真實/正確性顯得至 關重要.近年來,隨著互聯網的迅速發展以及網絡監管的局限性,互聯網成為了虛假信息泛濫的重災區,數據沖 突問題變得尤為突出.數據沖突可以被歸納為兩種問題,即不確定性和矛盾性.不確定性由信息的不完整引起, 指非空值的數據與一個或多個空值數據之間的數據沖突.矛盾性是指兩個或多個不同的非空值之間的沖突,這 些非空值亦是對同一實體中相同屬性的描述.數據融合的目標是通過鑒別不同來源數據的真實性,解決來自不 同數據源的數據沖突問題,進而確保數據集成過程中的數據一致性.
3 數據清洗
在現實生活中,臟數據無處不在,各組織或機構的研究調查報告了驚人的臟數據比例:在全球頂尖的企業 中,超過 25%的關鍵數據都存在一定的數據缺陷[162].臟數據的存在,不僅會導致錯誤的決定和不可靠的分析,還 可能對企業經濟造成巨額損失.例如,IBM 的報告指出:臟數據造成美國每年損失近 3 萬億美元[163].近幾十年來, 數據清洗已成為學術界和工業界的研究重點,其旨在檢測與修復臟數據(包括屬性值域錯誤、錯別字、缺失值、 數據冗余等),從而提升數據質量[164].本節圍繞關系型數據和知識圖譜的數據清洗技術展開研究,下面將分別對 這兩部分的相關工作進行闡述和分析.
4 研究展望與趨勢
面向關系型數據與知識圖譜的數據集成技術是一個充滿挑戰性的研究課題,目前仍有大量的研究工作亟 待進一步深入探討.本節先依次對本文所聚焦的三類數據集成關鍵技術(即實體解析、數據融合以及數據清洗) 的未來研究方向進行展望.而后,從數據類型角度出發,探討未來數據集成技術在不同類型數據上的研究方向. 最后,進一步探究數據集成與數據治理之間的依存關系,指出未來研究趨勢.
1) 放松知識圖譜實體解析技術研究的前提假設. 隨著知識互聯時代的日漸趨近,基于知識圖譜的相關 研究工作越來越受到專家學者的廣泛重視.目前現有的知識圖譜實體解析方法主要建立在以下兩大前提假設 上:(1)不同來源實體之間存在一一匹配關系;(2)已知一部分既定的實體解析標簽.然而,現實生活中不同來源的 知識圖譜通常具有不同規模且高度不完整,因而無法為每個實體找到其對應的匹配項.為此,探討非一一匹配約 束下的知識圖譜實體解析技術更具現實意義.另外,在現實生活中,由于實體解析在各行各業的需求日益增大, 故在少標簽甚至無標簽情況下探索有效的知識圖譜實體解析技術,以降低成本、提高普適性,這對于實際應用 而言至關重要.盡管本文已提出了若干基于實體名稱信息的匹配標簽生成策略,為降低知識圖譜實體解析的成 本提供了行之有效的方法.然而,現實生活中存在一類情況——由于隱私保護或數據編碼等問題,導致實體名稱 差異過大,因而難以利用名稱信息實現有效的標簽自動生成策略.鑒于此,如何利用實體本身所蘊含的內在特征 探索更為通用的標簽生成策略或探討有效的無監督方法,亦是值得進一步研究的關鍵問題.
2) 支持大規模的關系型數據實體解析技術. 現有的關系型數據實體解析技術主要為單機算法,由于單 機系統在存儲容量、計算資源等方面的限制,其難以有效地處理大規模數據.此外,深度學習已在關系型數據實 體解析任務上展現出強大的能力,但其復雜且龐大的模型架構與模型參數對大規模的關系型數據實體解析任 務提出了進一步的挑戰.因此,在大數據環境下,還需解決分布式存儲、分布式模型訓練等問題,以確保大規模關 系型數據實體解析技術的可擴展性.另外,計算效率也是大規模關系型數據實體解析任務所亟待解決的關鍵問 題,需深入地探索面向大規模關系型數據實體解析任務的數據分塊、索引、剪枝等優化策略,以進一步提高計 算效率.
**3) 支持來源廣泛、類型異構的復雜數據融合技術. **大數據時代,數據來源復雜、類型異構、規模龐大, 如何高效地融合多源異構數據,確保數據的正確性與一致性至關重要.然而,現有的方法大多關注于單一的數據 類型,難以有效地衡量具有異構特征但對應于同一實體的不同數據實例之間的正誤性.另外,現有的數據融合方 法耗時長且擴展性不高,難以支持大規模的數據融合,因而如何提升大數據環境下復雜數據融合效率仍有待進 一步深入的研究.
4) 低時延、高質量、易交互的數據清洗新模式. 隨著大數據的蓬勃發展,數據規模不斷增大.大多數現有 的數據清洗方法側重于全局數據清洗,其在應對大規模數據時易導致效率與可擴展性問題,難以滿足現實生活 中各種具有高時效性要求的數據查詢與分析需求.為此,在線數據清洗技術應運而生.此類技術以用戶查詢或分 析需求為主導,僅需清洗用戶所需的數據集合,因而大大縮小了數據清洗的范圍,能夠在一定程度上提高清洗效 率.然而,如何在包含臟數據的數據集中精準定位用戶所需的數據范圍,并以低時延、高質量、易交互的方式將 清洗后的干凈數據及時返回給用戶,仍是需要深入探索的關鍵問題.
5) 跨類型的數據集成新技術. 目前現有的數據集成技術大多關注于單一的數據類型,而較少關注于不同類型數據之間的交互.然而,大數據類型多樣,半結構化數據(Json、XML 等)、非結構化數據(多媒體數據) 等層出不窮,且隨著萬物互聯時代的日益趨近,對于跨類型的數據集成需求日益迫切.盡管目前已有一些專家學 者進行了初步嘗試(譬如,Fan 等人[13]提出了支持關系型數據與圖結構數據互通的異構實體解析技術),但現有 方法在數據種類數量、數據規模、效率等方面離滿足實際的跨模態數據集成需求存在較大差距.
6) 深入探索復雜數據治理技術.
實體解析、數據融合以及數據清洗不僅是數據集成的核心技術,更是 數據治理中的關鍵步驟,但僅憑這些技術不足以解決當前復雜而多樣的數據共享、共融、共用問題.所以,還需 進一步深入地探索復雜數據融合、元數據管理、數據風險監測與預警等技術,從而為數據治理提供更豐富且有 效的技術支撐.
**5 總 結 **
大數據時代普遍存在數據流通困難、監管不足等問題,導致數據共享薄弱、質量低下.這驅使研究人員探 索數據治理技術,以實現數據共享、提升數據質量,從而激活數據要素潛能.數據集成作為數據治理的關鍵技術, 長期以來受到專家學者的重點關注.數據集成旨在通過實體解析、數據融合和數據清洗等技術,打破數據壁壘、 實現信息共享、提升數據質量,進而激活數據要素潛能.本文聚焦關系型數據和知識圖譜,歸納總結并分析了實 體解析、數據融合、數據清洗三方面的現有數據集成關鍵技術,并展望了未來的研究方向與趨勢,以供相關的 研究工作人員參考.
當前人工智能正在經歷從感知智能到認知智能的重要發展階段。認知是人們獲取和應用 知識的過程,因此,作為人類對客觀世界認知的一種表現形式,知識圖譜是認知智能研究不 可或缺的組成部分。知識圖譜可以幫助機器積累人在解決問題中使用的知識,可以幫助組織 互聯網資源,進而用知識賦能行業智能應用,知識圖譜及其知識引擎技術已經成為人工智能 系統的基礎設施。《知識圖譜發展報告》(2022)是中國中文信息學會語言與知識計算專委會 邀請知識圖譜領域專家結合人工智能和知識圖譜技術的最新發展,在《知識圖譜發展報告》 (2018)基礎上對本方向前沿技術和應用的又一次系統總結,并對未來前沿趨勢進行展望。
近年來,隨著人工智能特別是大數據、深度學習和大規模預訓練模型的快速發展,知識 圖譜的理論、方法和應用也有了很大進展。
在知識表示和建模中,知識圖譜表示形式更加多樣化,從單一語言和符號表示的知識圖 譜,到多語言和多模態的知識圖譜;從結構化知識表示發展到與半結構化和非結構化數據融 合的概念-實體-上下文一體化知識表示,從符號知識表示到融合符號和數值的知識表示。
在知識獲取方面,低資源、真實場景下的知識獲取技術也有了長足進步,由傳統限定領 域的知識抽取,到如今開放領域的多類別知識抽取;由基于知識庫的關系獲取,到以知識為 指導的面向大規模預訓練技術的關系獲取;由粗粒度有監督學習到細粒度小樣本學習,以及 由單一模態的概念抽取到跨模態的聯合學習。
在知識圖譜應用方面,知識圖譜領域應用越來越廣泛,以多模態知識為驅動的虛擬數字 人推動著人工智能走向更廣闊的應用場景,“知識圖譜+產業”的新范式凸顯著以知識為中心 的應用與現實業務的深度融合。“知識圖譜+其他學科(如區塊鏈、物聯網)”的交叉研究也 正在興起和發展。
知識圖譜未來發展趨勢和面臨的挑戰在于,能否利用大規模預訓練模型進一步促進知識 表示、獲取和推理技術的發展,能否基于認知推理實現具有認知能力的人工智能新架構,能 否利用知識的可解釋性釋放更多產業潛能和應用。 本發展報告的定位是深度科普,旨在向政府、企業、媒體中對知識圖譜感興趣的社會各 界人士簡要介紹相關領域的基本概念、基本方法和應用方向,向高等院校、科研院所和高新 技術企業中從事相關工作的專業人士介紹相關領域的前沿技術和發展趨勢。 本報告共由 13 章組成,每一章按照 1)任務定義、目標和研究意義;2)研究內容和關 鍵科學問題;3)技術方法和研究現狀;4)技術展望與發展趨勢等四部分的結構形成每一章的內容。每一章我們邀請了本專業領域內的專家協同撰寫完成。具體結構如下:
摘要 知識圖譜以語義網絡的形式將客觀世界中概念、實體及其之間的關系進行結構化描述,提高了人類從數據中抽取信息、從信息中提煉知識的能力。該文形式化地描述了知識圖譜的基本概念,提出了知識圖譜的層次化體系架構,詳細分析了信息抽取、知識融合、知識架構、知識管理等核心層次的技術發展現狀,系統梳理了知識圖譜在軍事領域的應用,并對知識圖譜未來發展的挑戰和趨勢進行了總結展望。
本文件給出了知識圖譜的技術框架中知識圖譜供應方、知識圖譜集成方、知識圖譜用戶、知識圖 譜生態合作伙伴的主要活動、任務組成和質量一般性能等。本文件適用于知識圖譜及其應用系統的構建、應用、實施與維護。
本文件給出了知識圖譜的技術框架中知識圖譜供應方、知識圖譜集成方、知識圖譜用戶、知識圖譜生態合作伙伴的主要活動、任務組成和質量一般性能等。本文件適用于知識圖譜及其應用系統的構建、應用、實施與維護。
目的意義
當前,人工智能發展進入新階段,其迅速發展正在深刻改變人類社會生活、 改變世界,成為國際競爭的新焦點和經濟發展的新引擎。其中,如何從海量數據 中獲取有用的信息是人工智能關注的一個重要問題。知識圖譜技術提供了一種從 海量文本和圖像等數據中抽取結構化知識的手段,是搜索引擎、問答系統等應用 的核心技術。在國務院發布的《新一代人工智能發展規劃》中明確指出要發展“知 識計算引擎和知識服務技術”,重點突破知識加工、深度搜索和可視交互核心技術,實現對知識持續增量的自動獲取,具備概念識別、實體發現、屬性預測、知 識演化建模和關系挖掘能力,形成涵蓋數十億實體規模的多源、多學科和多數據 類型的跨媒體知識圖譜。知識圖譜技術提供了一種從海量文本和圖像等數據中抽 取結構化知識的手段,是搜索引擎、問答系統等應用的核心技術,并在金融證券、 生物醫療、交通、教育、農業、電信、電商、出版等行業已有非常豐富的應用場 景。但是,目前還缺少一套規范化的知識圖譜技術框架指導相關企業,特別是中 小型企業和創業公司有效開展技術研發,同時與其他行業的現有系統之間實現互 聯互通和信息融合。存在的問題如下: 1)知識圖譜相關核心術語定義缺失,各方使用術語混雜、內容不明確、體 系不統一;2)知識圖譜構成描述不統一、不明確,內容劃分混亂; 3)知識圖譜構建技術路徑及主要組成活動間關系不明確; 4)知識圖譜應用系統架構不統一,核心模塊定義缺失; 5)知識圖譜應用系統集成與部署路徑及主要組成活動間關系不明確。
本文件在編制過程中,通過參考大量已經發布的國內外標準,并廣泛聽取產 學研用相關單位的意見和建議,結合知識圖譜技術水平和應用現狀,對知識圖譜 供應方、知識圖譜集成方、知識圖譜用戶、知識圖譜生態合作伙伴等利益相關方 劃分進行明確,提出了各利益相關方的輸入輸出關系和主要活動構成等。
范圍和主要技術內容
本標準規定了知識圖譜的框架,包括知識圖譜的輸入要求,知識圖譜的建立過程,即知識圖譜的提取、存儲、挖掘與推斷、性能指標、知識圖譜的應用、相關領域、知識圖譜涉及的人工智能技術以及其他需要的數字基礎設施。 本標準的目標使用者包括:任意類型與規模的企業,包括應用或實施知識圖譜系統的公有和民營企業、政府主管部門、非營利組織等。 本標準的主要技術內容包括:知識圖譜架構、輸入要求、場景定義、性能指標、構建知識圖譜所需的人工智能技術和數字基礎設施等。
產業化情況、推廣應用論證和預期達到的經濟效果
知識圖譜作為機器認知智能實現的基礎之一,是人工智能的重要組成部分, 有助于實現自動化和智能化獲取、挖掘和應用知識,獲得了產業界和學術界的廣 泛關注。知識圖譜是以結構化的形式描述客觀世界中的概念、實體及其關系的大 型知識網絡,將信息表達成更接近人類認知的形式,提供了一種更好地組織、管 理和理解海量信息的能力。在政策部署、技術研發、標準研制、產業化推廣、前 沿應用場景試點等多方面因素的共同驅動下,知識圖譜逐漸實現在智慧金融、智 慧醫療、智慧能源、智能制造等眾多領域的落地應用和深度融合,同時在各行業 的數字化轉型過程中,跨領域、行業或產業的知識圖譜也逐漸獲得關注。在上述背景下,本標準對目前知識圖譜應用比較好的金融證券、生物醫療、 交通、教育、農業、電信、電商、出版等行業的應用過程特點、需求、主要問題 和未來趨勢進行了歸納總結。制定本標準有助于不同類型的企業基于規范化的實 施路徑進行知識圖譜應用的開發。同時,該標準還有利于給知識圖譜研發企業提 供數字化基礎設施支持的人員,如云平臺研發人員,信息安全工程師等理解知識 圖譜,從而提供更有效的技術支持。不同行業的應用企業和人員也可通過這一框 架提取出更多類型的知識,產生更多可能的應用場景。此外,本標準的研制對推 動企業進行知識驅動的數字化轉型升級具有重要意義,為進一步加快知識要素的 規劃化獲取、挖掘、應用與流通奠定了基礎。
知識圖譜概念模型
知識圖譜的概念模型可劃分為本體層和實例層,如圖1所示。其中,本體層由實體類型和其屬性、 實體類型間關系類型、規則等本體相關知識元素構成;實例層是對本體層的實例化,由實體類型對應 的實體及其屬性以及實體間關系等實體相關知識元素構成。 圖1示出的知識圖譜概念模式的主體是實體。實體是真實對象的抽象,實體類型是某類實體的進一 步抽象。基于不同層次的抽象,圖中的本體層和與實例層是相對的。構建某個知識領域的某個層次的 特定知識圖譜時,“實體”這個抽象稱呼將使用所關注的特定對象的具體名稱取代。圖中名為“屬性” 的兩個方框是分別針對本體層的所有實體類型和實例層的所有實體。本體層的“屬性”是指對應實體 類型的屬性,各個屬性是概括性描述;實體層的“屬性”是指對應實體的屬性,是某實體類型實例的 屬性的具體描述。同時,多個實體和關系的組合可以構成新的復雜實體,如:由時間、人物、地點等 要素構成的事件,由不同模塊構成的產品等。
知識圖譜技術框架
圖2示出從構建到使用知識圖譜涉及的各類技術活動的框架,簡稱技術框架。這些活動歸納為知識 圖譜的構建、基于知識圖譜的產品或服務的開發、知識圖譜的使用、以及面向知識圖譜開發和使用的 輔助支持四大類。
圖 2 知識圖譜技術框架
圖2示出的四大類知識圖譜相關活動簡述如下: a) 知識圖譜的構建:此組活動主要包括知識表示、知識建模、知識獲取等活動。其主要目標是構 建出所需的知識圖譜,同時開發出相應的基礎工具和/或服務。此組活動的主要依據是知識圖 譜應用需求和質量要求;往往需要行業知識、業務數據、輔助知識等予以支持。 b) 基于知識圖譜的產品或服務開發:此組活動主要包括需求分析、系統設計、知識圖譜集成等活 動。這些活動的執行基于上述a)描述的活動構建的知識圖譜和相應的知識圖譜應用需求等完成 知識圖譜應用系統的開發和集成,并提供配套的產品或服務。 c) 知識圖譜的使用:此組活動主要包括知識應用、知識維護、知識提供等活動。這些活動的執行 基于上述b)描述的活動產生的知識圖譜應用系統或服務。通過這些活動完成知識的使用和維護, 并對外提供必要的知識。 d) 知識圖譜開發和使用的支持:此組活動主要包括基礎設施提供、數據提供、安全保障、咨詢評 估等。它們對上述a)、b)和c)描述的活動的執行提供必要支持,例如:提供輔助數據或知識、 支撐技術或服務等。
上述四大類活動分別主要由以下四類參與者執行:
來自“ 知識圖譜標準化” //mp.weixin.qq.com/s/vLmnMIaL9-AeKW6eKeVrzw
當前,5G、云計算、人工智能等新一代信息技術快速發展,信息技術與傳統產業加速融合,數字經濟蓬勃發展。數據中心作為各個行業信息系統運行的物理載體,已成為經濟社會運行不可或缺的關鍵基礎設施,在數字經濟發展中扮演至關重要的角色。“加快5G網絡、數據中心等新型基礎設施建設進度”,是習近平總書記提出的重要指示精神,國家高度重視數據中心產業發展,我國數據中心技術應用和產業生態加速演進,步入新發展階段。
為切實貫徹落實國家戰略部署,引導算力基礎設施建設應用,落實《新型數據中心發展三年行動計劃(2021-2023年)》中對于“產業鏈穩固增強行動”的具體要求,中國信息通信研究院(以下簡稱“中國信通院”)云計算與大數據研究所牽頭撰寫了《數據中心產業圖譜報告》,現報告正式發布。
摘要:數據和知識是新一代信息技術與智能制造深度融合的基礎。然而,當前產品設計、制造、裝配和服務等過程中,數據及知識的存儲大多以傳統關系型數據庫為基礎,這導致了數據及知識的冗余性和搜索及推理的低效性。近年來,知識圖譜技術飛速發展起來,它本質上是基于語義網絡的思想,可以實現對現實世界的事物及其相互關系的形式化描述。該技術為智能制造領域數據及知識的關聯性表達和相關性搜索推理問題的解決帶來了可能性,因此其在智能制造的實現過程中扮演著越來越重要的角色。為了給知識圖譜在智能制造領域的應用提供理論支撐,總結了知識圖譜領域的研究進展;同時探索了知識圖譜在智能制造領域的3大類應用方向,共15小類應用前景,分析了在各個應用前景上與傳統方法的不同之處,應用過程中所需要使用的知識圖譜相關技術以及實施過程中所待突破的關鍵技術,希望可以為進一步展開針對知識圖譜在智能制造領域的研究提供啟發,同時為相關企業針對知識圖譜的實際應用提供參考;最后以數控車床故障分析為案例,驗證了知識圖譜在智能制造領域應用的有效性。
物聯網、云計算、人工智能等新一代信息技術的迅猛發展,帶來了制造業的新一輪突破,推動著制造系統向智能化方向發展,驅動著未來制造模式的創新[1]。其中數據和知識是實現制造業與新一代信息技術融合的基礎,是實現智能制造的保障。一方面,產品在其生命周期的各個階段將會產生海量工業數據和知識[2];另一方面,工業數據和知識是制造領域的信息化進程的必備資源,其中蘊含了大量有用的模式。然而,當前制造領域產品設計、制造、裝配、服務等生命周期過程中數據以及知識的存儲大多以傳統關系型數據庫為基礎,冗余性較高、分布分散、關聯性較弱且儲量相對較小,強調對數據以及知識的檢索卻較少從語義層面研究數據以及知識的關聯、認知、理解與推理。因此,如何從冗 余的數據與知識文本中抽取有用信息,如何有效表 達數據之間的內在關聯與知識之間的內在關聯,如 何有效利用數據的關聯性與知識的關聯性實現高效 的信息檢索與信息推理,是當前實現智能制造目標 的核心瓶頸之一。知識圖譜(Knowledge graph,KG)來源于谷歌下 一代智能語義搜索引擎技術。其本質上基于語義網 絡的思想,是一種有向圖結構的語義知識庫,用于 以符號形式描述物理世界中的概念及其相互關 系 [3],其應用服務架構如圖 1 所示。在知識圖譜內 部,數據和知識的存儲結構為三元組,形如 s p o , ,其中 s 和 o 為知識圖譜中的節點,分別 代表了主語實體知識和賓語實體知識, p 為知識圖 譜中的邊,代表了從 s 指向 o 的關系知識(謂語)。
知識圖譜具有如下 3 種特點:① 數據及知識的 存儲結構為有向圖結構。有向圖結構允許知識圖譜 有效地存儲數據和知識之間的關聯關系;② 具備高 效的數據和知識檢索能力。知識圖譜可以通過圖匹 配算法,實現高效的數據和知識訪問;③ 具備智能 化的數據和知識推理能力。知識圖譜可以自動化、 智能化地從已有的知識中發現和推理多角度的隱含知識。
目前,知識圖譜技術已經在互聯網領域如搜索引擎、智能問答等發揮了重要作用,同時也已經在 多個領域進行初步應用,比如:金融、電商、醫療 等 [4]。許多國際著名企業也已經開始探索知識圖譜 的應用,比如谷歌、微軟、IBM、蘋果等。與此同 時,在智能制造領域,西門子于 2018 年提出了他們 在知識圖譜領域的規劃[5];博世公司于 2019 年構建 了底盤系統控制相關數據的大型知識圖譜,以提供 有效地數據訪問[6]。然而國內的機械行業針對知識 圖譜的探索卻有些許不足。在研究過程中以及與多家機械相關企業的交流中發現,當前知識圖譜在智 能制造領域應用過程還存在以下不足。
(1) 缺乏對知識圖譜理論的深入認識。目前知 識圖譜相關理論與技術在迅速發展,但是智能制造 領域的專家大多對該技術缺乏深入的了解,無法有 效管理和應用知識圖譜中的數據及知識。
(2) 知識圖譜相關技術在智能制造領域的優勢 不明晰。目前知識圖譜在智能制造領域的應用處于 起步階段,針對產品設計、制造、裝配、服務等過 程所帶來的優勢不是很明確,且在知識圖譜應用于 智能制造領域過程中可能遇到的問題尚不明確。
(3) 知識圖譜相關技術在智能制造領域的應用 場景模糊。當前企業對知識圖譜在智能制造領域的 應用前景有所疑問,不確定知識圖譜技術在產品設 計、制造、裝配和服務等過程的切入點和切入方式。
(4) 知識圖譜在智能制造領域落地所需要的技 術不明確。目前在通用領域上的知識圖譜的研究角 度十分廣泛,但是針對智能制造領域各個應用場景, 所需要使用的知識圖譜相關技術類別卻還不是很明晰。
(5) 智能制造領域相關數據缺乏。目前基于深 度學習的知識圖譜相關技術需要構建一定量的有標 簽數據集,目前通用領域的相關數據集比較多,而 智能制造領域的相關數據卻比較缺乏。
針對以上問題,本文總結了可以應用于智能制 造領域的知識圖譜技術的研究進展。同時從應用出 發,探索了知識圖譜在智能制造領域的 3 大類應用 方向,共 15 小類應用前景,分析了在各個應用前景 上與傳統方法的不同之處,應用過程中所需要的知 識圖譜技術以及實施過程中所待突破的關鍵技術, 為后續知識圖譜在智能制造領域的進一步落地提供 理論支撐和方法參考。
隨著網絡空間安全情報在網絡犯罪、網絡戰和網絡反恐等領域的作用日益凸顯,迫切需要對網絡空間安全情報的基本理論和綜合分析方法進行深入研究。當前,安全情報在實際應用中主要面臨著數據類型多樣、分布離散、內容不一致等問題,因此引入知識圖譜技術框架,旨在利用知識圖譜面向海量數據時信息收集及加工整合的思想,提高安全情報的收集效率、情報質量,同時拓展情報的使用范圍。本文首先簡要回顧安全情報和知識圖譜的研究現狀,同時介紹知識圖譜在安全領域的應用。其次給出面向安全情報的知識圖譜構建框架。然后介紹安全情報知識圖譜構建的關鍵技術,包括信息抽取、本體構建和知識推理等。最后,對安全情報知識圖譜發展面臨的問題進行了討論。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200505&flag=1