分享嘉賓:李文杰博士 北京大學 博士后
編輯整理:王京旺 河北北方學院 出品平臺:DataFunTalk
**導讀:**本文分享圖數據庫和知識圖譜的基礎內容以及我們做過的相關工作。主要內容包括以下五個方面: * 什么是知識圖譜 知識圖譜研究的多個維度 從人工智能和大數據角度看待知識圖譜 我們的工作 知識圖譜相關案例
01
什么是知識圖譜
1. 搜索引擎方式革新
2012年5月6日,Google發布了“知識圖譜”的新一代“智能”搜索功能。 傳統的搜索引擎搜索數據,更多的方法是基于關鍵詞匹配的方式。 近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關鍵詞“詹姆斯瓦特”,你會發現在某一個地方出現一些卡片,信息卡片的方式是搜索領域的一大革新,它是基于知識圖譜的方式。
2. 知識圖譜的本質
基于關鍵詞匹配的傳統搜索引擎,是將匹配到關鍵詞后再把信息展現出來。 如果把信息的形式進行轉換,例如將里面的人物、地點、時間等信息抽取出來,構建一個知識圖譜的結構,就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。 知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式,轉變為對信息的推理、對信息的追溯這種方式。 知識圖譜本質上是基于圖的語義網絡,表示實體與實體之間的關系。
02
知識圖譜研究的多個維度
知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。 知識工程:例如知識庫構建、基于規則的推理等。
自然語言處理:例如信息抽取、語義解析等。 數據庫:例如RDF數據庫系統、數據集成、知識融合等。 機器學習:例如知識圖譜數據的知識表示(Graph Embedding)等。
1. 知識工程
知識圖譜是Web和?數據時代的知識?程新的發展形態。 知識工程的核心是知識庫和推理引擎。
知識庫包括以下幾個方面: 領域本體的構建:面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。 知識抽取:從海量的數據中通過信息抽取的?式獲取知識。 知識融合:通過對多個相關知識圖譜的對?、關聯和合并,使其稱為?個有機的整體,以提供更全?知識。
① 知識圖譜數據模型 RDF
基于領域本體的構建,有幾種基本的數據模型,比如常見的RDF數據模型。 RDF數據模型將知識庫里面的各個本體以及它的屬性,還有一些相關的屬性值,以及它和其他的本體之間的關系,用一個3元組的方式來描述,即主謂賓三列的表。
RDFs
RDF數據模型的一種變式,在RDF數據層的基礎上引?模式層,定義類、屬性、關系、屬性的定義域與值域來描述與約束資源,構建最基本的類層次體系和屬性體系,?持簡單的上下位推理。
本體語言OWL
進?步擴展RDFs詞匯,可聲明類間互斥關系、屬性的傳遞性等復雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機器友好,但認知復雜性限制了?程應?。
② 知識抽取
③ 大規模知識抽取
知識庫的構建有以下案例: Yago(Yet Another Great Ontology)
融合了WordNet和Wikipedia,從Wikipedia的結構中抽取信息,利???采樣評估 DBPedia
通過社區成員定義和撰寫準確的抽取模板,進?從維基百科中抽取結構信息,并將其發布到Web上。 Freebase
從Wikipedia和其他數據源(如 IMDB、MusicBrainz)中導?知識。
2. 自然語言處理
?然語?處理和知識圖譜研究是雙向互動的關系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務的準確度。
(1)知識圖譜與自然語言處理
知識圖譜與自然語言處理在如下兩個方面關系緊密:
**①信息抽取 **
主要技術:實體識別與抽取、實體消歧、關系抽取 趨勢及挑戰: ? 從封閉?向開放 ? ?規模信息抽取 ? 深層次挖掘信息背后的語義(從抽取到理解)
**②語義解析 **
語義解析就是將?然語?映射成機器可以表達的形式。 主要技術:詞義消歧、語義??標注、指代消解等。 應?: ? ?向知識圖譜的?然語?問答 ? 聊天機器?等
(2)實體識別
在實體識別中,命名實體識別的主要?法有如下兩種:
**①基于規則的實體識別?法 **
基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。 優點:規則簡單。 缺點:需要構建詞典和規則;性能受詞典規模和質量的影響。
**②基于機器學習的實體識別?法 **
利?預先標注好的語料訓練模型,使模型學習到某個字或詞作為命名實體組成部分的概率,進?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。 分為:最?熵模型(Maximum Entropy Model)和條件隨機場模型(Conditional Markov Random Field)。
(3)語義解析之語義搜索
語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現象看本質,準確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進?搜索,從?更準確地向?戶返回最符合其需求的搜索結果。
(4)語義解析之知識問答
智能問答的主要?法有如下兩種:
**①基于信息檢索的?法 **
?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞,然后去知識資源庫中去進?檢索,并通過打分模型對答案進?排序。
**②基于語義解析的?****法 **
將?個?然語?形式的問句,按照特定語?的語法規則,解析成語義表達式,將其轉化為某種數據庫的查詢語?。 兩種主要方法的框架對比如下所示:
3. 圖數據庫
知識圖譜與圖數據庫的關系從以下四個方面介紹:知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。 ① 知識圖譜與數據管理
知識圖譜本質上是多關系圖,通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。 關系型數據庫:實體與實體之間的關系通常都是利?外鍵來實現,對關系的查詢需要?量join操作。 圖數據庫:圖模型建模實體(結點)和實體之間的關系(邊),在對關系的操作上有更?的性能。 ② 基于關系的知識圖譜存儲管理
使用三元組進行知識圖譜的存儲: 優點:簡單明了 缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。 為解決基于關系的是指圖譜存儲管理中出現的問題,采用以下兩種方法解決: * 屬性表:屬性相似的聚為?張表
優點:克服三元組?連接的問題。 缺點:?對多聯系或多值屬性存儲問題、RDF的靈活性等。 代表:采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。 * 垂直劃分:以謂語劃分三元組表
優點:克服屬性表的空值多值問題。 缺點:?量屬性表、刪除代價?。 代表:采?垂直劃分存儲?案的代表數據庫是 SW‐Store。 ③ 原生知識圖譜存儲管理
RDF模型
gStore系統利用子圖匹配整個圖譜。 優點:任意一個節點不滿足子圖的模式都可以跳過,實現高并發。 * 屬性圖
典型屬性圖代表:Neo4j圖數據庫。 與RDF的區別為:邊也有屬性,可以與RDF互相轉換 ④ 知識圖譜與圖數據庫
4. 機器學習
在與機器學習的聯系更多地表現在知識表示學習這一方面,應用較多的場景為知識推理。 ① 知識表示學習
知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。 知識表示學習(representation learning)主要是?向知識圖譜中的實體和關系進?表示學習,使?建模?法將實體和向量表示在低維稠密向量空間中,然后進?計算和推理。 * 優點:顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合。 * 應?:知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。 * 舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。
對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優化?標是S+P=O 。 ② 自然語言問答
03 從人工智能和大數據的角度看待知識圖譜
為什么要從這兩個角度來看待?這主要是目前這兩個角度非常火。 ① 人工智能的誕生
早在1956年達特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。 人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。 * 符號主義
符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學派(psychologism)或計算機學派(computerism),其主要原理為認知過程就是在符號表示上的?種運算。 可以舉例理解: ?明認識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。 * 連接主義
連接主義(connectionism),?稱為仿?學派(bionicsism)或?理學派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。 當前典型研究:深度學習、深度神經?絡。 可以舉例理解: ?明學騎???:經過?時間練習,?明終于學會了!卻說不清楚“到底該怎樣”騎。
② 知識圖譜與人工智能
計算機的發展分為三個階段:計算智能、感知智能、認知智能。 人工智能需要機器智能,特別是認知智能,而認知智能依賴知識圖譜。 目前的重要研究方向是和連接主義的結合(例如知識圖譜的表示學習等)。 ③ 知識圖譜與大數據
知識圖譜與大數據的聯系
“知識圖譜”是?向關聯分析的?數據模型。 大數據的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數據里面隱含的關系,可以用一個知識圖譜來表示。 * 知識圖譜與大數據的應用
知識圖譜與大數據方面的應用包括以下幾個方面: 圖機器學習,例如TransE,GCN等模型。 圖數據庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。 圖計算系統,例如點中心模型系統Pregel、GraphLab等。 圖挖掘算法,例如Pagerank、Simrank、社區發現、影響力傳播等。 04
我們的工作
① 研發路線圖
我們團隊來自于北京大學王選計算機研究所數據管理研究室,2011年開始做圖數據庫方面的研究,提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。 ② 技術路線圖
基于圖的生態鏈的系統平臺分為三個步驟研發:知識圖譜的構建、知識圖譜管理、知識圖譜應用。 * 知識圖譜的構建
大部分數據是結構化或非結構化等形式,存儲在關系數據庫中,而非以RDF或屬性圖的形式存儲,因此在構建時需要進行數據形式的轉換。 涉及知識抽取、知識融合等問題,是整個系統平臺的重難點。 * 知識圖譜管理
解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。 * 知識圖譜應用
開發知識圖譜的應用,體現數據的價值,是整個系統平臺的價值點。 ③ 產品生態
gStore
項?特點:基于?圖匹配的圖數據查詢和優化策略,單機能?持50億規模的圖數據的存儲和查詢,以及更新等。 代碼:除了SPARQL語法解析器外均為獨?開發的,?前有14萬?C++代碼,完成?主知識產權。 目前版本:v 0.9.1 項?主?:gstore.cn 開源地址://github.com/pkumod/gStore * gBuilder
項?特點:知識圖譜構建的?體化平臺,包括Schema設計,結構化和?結構數據抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。 * gAnswer
項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。 開源地址: * gStore Workbench
gStore可視化管理工具。 * gCloud
“開箱即用”的gStore服務。 * gMaster
支持百億規模分布式部署。 gStore高效RDF圖數據庫管理系統實現了自主可控國產化,能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。 05
相關案例
① 金融科技
知識關聯查詢:?融實體查詢、多層股權查詢、?融實體關聯分析。 ?險分析:?險識別、資本系分析。 ② 政府大數據
社會的自然人會產生諸多數據,例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘,例如用于民政和司法的親屬關系檢索。 ③ 智慧紀檢
可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。 ④ 智慧醫療
基于藥物說明書構建“病-癥-藥”的知識圖譜,可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。 ⑤ 人工智能
例如智能問答等語音機器人。 ⑥ 氣象交通
將規則寫進知識圖譜,實時采集氣象信息并進行知識圖譜的匹配,以起到預警的作用。 ⑦ 公安知識圖譜
多維度知識探索:從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。 隱含關系挖掘:從交通出?、?吧上?、出?境等部?和系統中獲取數據,發現?物的“同?,同上?,同出國”等隱含關聯關系。 **今天的分享就到這里,謝謝大家。 **
在文末分享、點贊、在看,給個3連擊唄~
01**/**分享嘉賓
李文杰 北京大學博士后
李文杰博士,北京大學王選計算機研究所博士后,助理研究員。目前主要研究方向為圖數據庫、知識圖譜等,在計算機領域國際知名期刊/會議發表論文10余篇。負責或參與國家科技部重點研發計劃項目5項,國家自然科學基金重點項目3項,國防科工創新特區項目2項以及其他省部級項目10余項,在軍工、金融、醫療、公安、紀檢監察等領域均有應用項目落地,在知識圖譜構建、知識圖譜存儲管理和知識圖譜應用方面具有豐富的項目研發和實施經驗。
在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了業界和學術界的極大關注。在大致介紹之后,我們對用于知識圖譜的各種基于圖的數據模型和查詢語言進行了歸納和對比。我們將討論模式、標識和上下文在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最后,我們總結了未來高層次的知識圖譜研究方向。
盡管“知識圖譜”一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源于2012年發布的谷歌知識圖譜[459],隨后Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關于知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。
所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用于涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關系模型或NoSQL替代方案相比,使用基于圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關系。圖允許維護者推遲模式的定義,允許數據(及其范圍)以比關系設置中通常可能的更靈活的方式發展,特別是對于獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關系運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用于標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用于計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。
總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。
本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表征;討論演繹和歸納的方式使知識明確;介紹可用于創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;并提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們并不假設讀者對知識圖譜有特定的專業知識。
知識圖。“知識圖譜”的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互沖突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這里,我們采用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關系。數據圖(又稱數據圖)符合一個基于圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如“圣地亞哥是智利的首都”,也可以由量化的語句組成,如“所有的首都都是城市”。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那么就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,“圣地亞哥是一個城市”)。基于簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。
知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。
在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要么是從Wikipedia[232,291]中提取出來的,要么是由志愿者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,并應用于商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關于在實踐中使用知識圖譜的細節。
結構。本文件其余部分的結構如下: