知識圖譜在很多的真實的應用中都起著重要的作用,比如語義搜索、智能問答、文本理解等。通用知識圖譜構建中最重要的數據源之一是百科類網站,比如維基百科、百 度百科等。如英文知識圖譜 Freebase 最主要的數據源即是維基百科,大型中文通用知識圖譜 CN-DBpedia 主要的數據源是百度百科、互動百科等中文類百科網站。知識圖 譜相當于是現實世界的知識集合,這些知識并不是恒定不變的而是不斷變化的,沒有及時更新的知識圖譜無法及時地捕獲到已經變化的知識以及新出現的知識,而其數據源 百科類網站可以很及時的覆蓋新的知識和變化的知識。一個未能及時更新的知識圖譜會包含一些過時的知識、甚至是錯誤的知識,這會對知識圖譜的下層應用的產生很大的 限制。因而一個很重要的問題就是如何對知識圖譜進行更新,也就是使得知識圖譜和其數據源進行同步,這里的數據源只考慮百科類網站。
對于大部分的知識圖譜所采用的更新方式周期性批量更新,這種更新方式會有很多的弊端。其中一個弊端是在進行更新時的代價較大,百科類的網站通常會包含千萬級別的實體,在每次周期批量更新時會花費大量的時間代價,以及會占用大量的網絡帶寬。另一個主要的弊端是在周期性更新的周期內,會不斷有新知識的出現以及一些變化的知識,也就是周期性的更新方式也會導致知識圖譜中包含一些過時的知識。為了解決以上兩個問題,本文提出了智能知識圖譜更新系統 S-USB,一個更加智能的知識圖譜更新方案。
本文提出的智能知識圖譜更新系統 S-USB 可以智能的識別出已發生變化的實體并僅更新這些實體。S-USB 的核心部分是一個實體更新頻率預測器用于預測實體的更新頻率,該實體更新頻率預測器主要包括一系列高效的特征和回歸器。我們做了一系列實驗去檢測本文提出的知識圖譜智能更新系統 S-USB 以及實體更新頻率預測器的效果,實驗結果表明本文所提出的知識圖譜更新系統 S-USB 可以有效地識別出變化的實體和新出現的實體。特別的,本文所提出的知識圖譜智能更新系統已經在一些知識圖譜中得到應用落地,其中包括最大中文知識圖譜系統 CN-DBpedia。
本文的主要創新點主要有以下幾點: