知識圖譜以結構化的方式描述客觀世界中的概念、實體及其間的關系,將萬維網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解萬維網上海量信息的能力。知識圖譜可以由任何機構和個人自由構建,其背后的數據來源廣泛、質量參差不齊,導致它們之間存在多樣性和異構性。例如,對于相似領域,通常會存在多個不同的概念或實體指稱真實世界中的相同事物。本報告首先簡要介紹了語義網、知識圖譜及知識圖譜融合問題,然后介紹了面向知識圖譜模式層的本體匹配方法,接下來介紹了面向知識圖譜實例層的實體對齊方法,特別涉及近期基于表示學習的實體對齊方法,還介紹了知識融合過程中的真值推斷方法,最后做了總結和展望。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
隨著谷歌知識圖譜、DBpedia、微軟 Concept Graph、YAGO 等眾多知識圖譜的不斷出現, 根據 RDF 來構建的知識表達體系越來越為人們所熟知. 利用 RDF 三元組表達形式成為人們對現實世界中 知識的基本描述方式, 由于其結構簡單、邏輯清晰, 所以易于理解和實現, 但也因為如此, 當其面對現 實中無比繁雜的知識和很多常識時, 往往也無法做到對知識的認識面面俱到, 知識圖譜的構建過程注 定會使其中包含的知識不具有完整性, 即知識庫無法包含全部的已知知識. 此時知識庫補全技術在應 對此種情形時就顯得尤為重要, 任何現有的知識圖譜都需要通過補全來不斷完善知識本身, 甚至可以 推理出新的知識. 本文從知識圖譜構建過程出發, 將知識圖譜補全問題分為概念補全和實例補全兩個 層次: (1) 概念補全層次主要針對實體類型補全問題, 按照基于描述邏輯的邏輯推理機制、基于傳統機 器學習的類型推理機制和基于表示學習的類型推理機制等 3 個發展階段展開描述; (2) 實例補全層次 又可以分為 RDF 三元組補全和新實例發現兩個方面, 本文主要針對 RDF 三元組補全問題沿著統計 關系學習、基于隨機游走的概率學習和知識表示學習等發展階段來闡述實體補全或關系補全的方法. 通過對以上大規模知識圖譜補全技術研究歷程、發展現狀和最新進展的回顧與探討, 最后提出了未來 該技術需要應對的挑戰和相關方向的發展前景.
知識圖譜封裝了實體和關系。知識圖譜的簡潔表示格式和圖的特性使得許多新的Web應用程序得以創建,并增強了現有的應用性能。然而,在一個知識圖譜中,描述一個實體的幾十個或幾百個事實可能會超出一個典型用戶界面的能力,并使用戶超載過多的信息。這激發了對實體摘要的富有成果的研究——為實體自動生成緊湊的摘要,以高效和有效地滿足用戶的信息需求。例如,在其搜索結果頁面右側,谷歌通過選擇和顯示用戶可能正在搜索的特定實體的一些事實,為其知識圖中的實體提供“最佳摘要”。
近年來,研究人員通過提出從純粹的排序和挖掘技術到機器和深度學習技術等各種方法,對這個問題做出了貢獻。技術水平不斷提高,同時也使社區和新來者很難跟上該領域最近和過去的貢獻。此外,盡管知識圖譜在學術界和產業界越來越流行,但迄今為止還沒有對該問題領域的最新趨勢和基本構件進行教育和討論。本教程的目的就是填補這一空白。
鏈接: //pan.baidu.com/s/1qSv16wZEAJWUcwx40ByvwQ 提取碼: g9bq
人工智能本質是解決生產力升級的問題,人類生產力可以歸類為知識生產力和勞動生產力,人工智能走入產業后,可以分為感知智能、認知智能和行為智能,后兩者更與生產力相對應,NLP和知識圖譜是發展認知智能的基礎。
原始數據通過知識抽取或數據整合的方式轉換為三元組形式,然后三元組數據再經過實體對齊,加入數據模型,形成標準的知識表示,過程中如產生新的關系組合,通過知識推理形成新的知識形態,與原有知識共同經過質量評估,完成知識融合,最終形成完整形態上的知識圖譜。
在面對數據多樣、復雜,孤島化,且單一數據價值不高的應用場景時,存在關系深度搜索、規范業務流程、規則和經驗性預測等需求,使用知識圖譜解決方案將帶來最佳的應用價值。
2019年涵蓋大數據分析預測、領域知識圖譜及NLP應用的大數據智能市場規模約為106.6億元,預計2023年將突破300億元,年復合增長率為30.8%,其中2019年市場中以金融領域和公安領域應用份額占比最大。
隨著整體市場數據基礎的完善和需求喚醒,大數據智能領域規模持續走高,但在行業可落地性和理性建設的限制下,預計市場增速將呈現下降趨勢,期間咨詢性需求將會大量出現,從整體發展來看增速處于良性區間,對真正有價值的公司和產品有正向意義。
在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了業界和學術界的極大關注。在大致介紹之后,我們對用于知識圖譜的各種基于圖的數據模型和查詢語言進行了歸納和對比。我們將討論模式、標識和上下文在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最后,我們總結了未來高層次的知識圖譜研究方向。
盡管“知識圖譜”一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源于2012年發布的谷歌知識圖譜[459],隨后Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關于知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。
所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用于涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關系模型或NoSQL替代方案相比,使用基于圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關系。圖允許維護者推遲模式的定義,允許數據(及其范圍)以比關系設置中通常可能的更靈活的方式發展,特別是對于獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關系運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用于標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用于計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。
總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。
本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表征;討論演繹和歸納的方式使知識明確;介紹可用于創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;并提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們并不假設讀者對知識圖譜有特定的專業知識。
知識圖。“知識圖譜”的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互沖突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這里,我們采用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關系。數據圖(又稱數據圖)符合一個基于圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如“圣地亞哥是智利的首都”,也可以由量化的語句組成,如“所有的首都都是城市”。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那么就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,“圣地亞哥是一個城市”)。基于簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。
知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。
在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要么是從Wikipedia[232,291]中提取出來的,要么是由志愿者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,并應用于商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關于在實踐中使用知識圖譜的細節。
結構。本文件其余部分的結構如下:
題目: 知識圖譜中的關聯搜索
摘要: 南京大學計算機科學與技術系副教授程龔在第3屆知識工程與問答技術研討會上介紹了知識圖譜中的關聯搜索,主要包括關聯實體搜索、實體關聯搜索 。
作者簡介: 程龔,南京大學計算機科學與技術系副教授、江蘇省“六大人才高峰”高層次人才。目前主要面向智能軟件系統,研究語義網與知識圖譜技術,研究主題包括語義搜索、數據摘要、智能問答等。主持國家重點研發計劃課題、國家自然科學基金面上項目等多個項目課題。在WWW、AAAI、IJCAI、TKDE等會議期刊上發表論文70余篇,獲ISWC最佳論文提名2次、COLING最佳論文提名1次,論文總引用2000余次。現任中國計算機學會系統軟件專委委員、中國中文信息學會語言與知識計算專委委員、江蘇省人工智能學會知識工程與智能服務專委副秘書長,擔任過ISWC短文程序委員會主席、CCKS領域主席等職務。