亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。

概述

增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展,這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識,有一到兩個數量級的實體。

知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其后端數據中心有一個巨大的知識庫,有助于發現用戶請求(及其上下文)中的實體,并找到簡明的答案。

本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。

這篇文章共分為十章。第2章給出了知識表示的基礎知識,并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了業界和學術界的極大關注。在大致介紹之后,我們對用于知識圖譜的各種基于圖的數據模型和查詢語言進行了歸納和對比。我們將討論模式、標識和上下文在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最后,我們總結了未來高層次的知識圖譜研究方向。

盡管“知識圖譜”一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源于2012年發布的谷歌知識圖譜[459],隨后Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關于知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。

所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用于涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關系模型或NoSQL替代方案相比,使用基于圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關系。圖允許維護者推遲模式的定義,允許數據(及其范圍)以比關系設置中通常可能的更靈活的方式發展,特別是對于獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關系運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用于標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用于計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。

總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。

本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表征;討論演繹和歸納的方式使知識明確;介紹可用于創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;并提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們并不假設讀者對知識圖譜有特定的專業知識。

知識圖。“知識圖譜”的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互沖突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這里,我們采用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關系。數據圖(又稱數據圖)符合一個基于圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如“圣地亞哥是智利的首都”,也可以由量化的語句組成,如“所有的首都都是城市”。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那么就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,“圣地亞哥是一個城市”)。基于簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。

知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。

在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要么是從Wikipedia[232,291]中提取出來的,要么是由志愿者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,并應用于商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關于在實踐中使用知識圖譜的細節。

結構。本文件其余部分的結構如下:

  • 第2節概述了圖形數據模型和可用于查詢它們的語言。
  • 第3節描述了知識圖譜中模式、標識和上下文的表示形式。
  • 第四節介紹了演繹式的形式主義,通過這種形式主義,知識可以被描述和推導出來。
  • 第5節描述了可以提取額外知識的歸納技術。
  • 第6節討論了如何從外部資源中創建和豐富知識圖譜。
  • 第7節列舉了可用于評估知識圖譜的質量維度。
  • 第8節討論知識圖譜細化的各種技術。
  • 第9節討論發布知識圖譜的原則和協議。
  • 第10節介紹了一些著名的知識圖譜及其應用。
  • 第11節總結了知識圖譜的研究概況和未來的研究方向。
  • 附錄A提供了知識圖譜的歷史背景和以前的定義。
  • 附錄B列舉了將從論文正文中引用的正式定義。
付費5元查看完整內容
北京阿比特科技有限公司