特定領域的知識庫(KB)從各種數據源精心整理而來,為專業人員提供了寶貴的參閱咨詢。由于自然語言理解和人工智能的最新進展,會話系統使這些KBs很容易被專業人員訪問,并且越來越受歡迎。盡管在開放域應用程序中越來越多地使用各種會話系統,但特定于域的會話系統的需求是完全不同的,而且具有挑戰性。在本文中,我們針對特定領域的KBs提出了一個基于本體的對話系統。特別是,我們利用領域本體中固有的領域知識來識別用戶意圖,并利用相應的實體來引導對話空間。我們結合了來自領域專家的反饋來進一步細化這些模式,并使用它們為會話模型生成訓練樣本,減輕了會話設計人員的沉重負擔。我們已經將我們的創新集成到一個對話代理中,該代理關注醫療保健,這是IBM Micromedex產品的一個特性。
開放域對話系統由于潛在回復數量過大而存在著訓練數據不足的問題。我們在本文中提出了一種利用反事實推理來探索潛在回復的方法。給定現實中觀測到的回復,反事實推理模型會自動推理:如果執行一個現實中未發生的替代策略會得到什么結果?這種后驗推理得到的反事實回復相比隨機合成的回復質量更高。在對抗訓練框架下,使用反事實回復來訓練模型將有助于探索潛在回復空間中的高獎勵區域。在DailyDialog數據集上的實驗結果表明,我們的方法顯著優于HRED模型和傳統的對抗訓練方法。
隨著大數據時代的到來,海量數據不斷涌現,從中尋找有用信息,抽取對應知識的需求變得越來越強烈。針對該需求,知識圖譜技術應運而生,并在實現知識互聯的過程中日益發揮重要作用。信息抽取作為構建知識圖譜的基礎技術,實現了從大規模數據中獲取結構化的命名實體及其屬性或關聯信息。同時,由于具有多樣化的實現方法,擴充了信息抽取技術的應用領域和場景,也提升了對信息抽取技術研究的價值和必要性的認可度。本文首先以知識圖譜的構建框架為背景。探討信息抽取研究的意義;然后從MUC、ACE和ICDM三個國際測評會議的角度回顧信息抽取的發展歷史;接著,基于面向限定域和開放域兩個方面,介紹信息抽取的關鍵技術,包括實體抽取技術、關系抽取技術和屬性抽取技術。
為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。
概述
增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展,這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識,有一到兩個數量級的實體。
知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其后端數據中心有一個巨大的知識庫,有助于發現用戶請求(及其上下文)中的實體,并找到簡明的答案。
本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。
這篇文章共分為十章。第2章給出了知識表示的基礎知識,并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。
了解在線用戶可能關注的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體、概念、事件、主題和類別的高度結構化和web級本體。雖然現有的知識庫和分類法包含了大量的實體和類別,但我們認為它們未能以online population的語言風格發現適當粒度的概念、事件和主題。這些概念之間也不存在邏輯結構的本體。在本文中,我們提出GIANT,一種構建一個以用戶為中心的、網絡規模的、結構化的本體論的機制,該本體論包含了大量的自然語言短語,這些短語在不同的粒度上符合用戶的需要,這些短語是從大量的網絡文檔和搜索點擊圖中挖掘出來的。此外,還構造了各種類型的邊來維護本體中的層次結構。我們介紹了在GIANT中使用的基于圖神經網絡的技術,并與各種基線進行了比較,對提出的方法進行了評估。騰訊開發出了注意力本體,并將其應用到騰訊的各種應用中,涉及用戶超過10億。在騰訊QQ瀏覽器上進行的在線A/B測試表明,注意力本體可以顯著提高新聞推薦的點擊率。
awesome-taxonomy