知識圖譜是關于實體及其關系的集合,是非常有用資源。然而,由于知識圖通常是不完備的,所以進行知識圖補全或鏈接預測是有用的,即預測一個不在知識圖譜中的關系是否可能是真的。本文綜述了用于知識圖譜完成的實體和關系嵌入模型,總結了在標準基準數據集上最新的實驗結果,并指出了未來可能的研究方向。
為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。
概述
增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展,這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識,有一到兩個數量級的實體。
知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其后端數據中心有一個巨大的知識庫,有助于發現用戶請求(及其上下文)中的實體,并找到簡明的答案。
本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。
這篇文章共分為十章。第2章給出了知識表示的基礎知識,并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。
知識圖譜補全是一類重要的問題。近年來基于圖神經網絡的知識圖譜表示得到了很多關注。這邊綜述論文總結了圖神經網絡知識圖譜補全的工作,值得查看!
摘要:知識圖譜在諸如回答問題和信息檢索等各種下游任務中越來越流行。然而,知識圖譜往往不完備,從而導致性能不佳。因此,人們對知識庫補全的任務很感興趣。最近,圖神經網絡被用來捕獲固有地存儲在這些知識圖譜中的結構信息,并被證明可以跨各種數據集實現SOTA性能。在這次綜述中,我們了解所提出的方法的各種優勢和弱點,并試圖在這一領域發現新的令人興奮的研究問題,需要進一步的調研。
知識庫是以關系三元組形式的事實信息的集合。每個關系三元組可以表示為(e1,r,e2),其中e1和e2是知識庫中的實體,r是e1和e2之間的關系。最受歡迎的知識庫表示方式是多關系圖,每個三元組(r e1, e2)是表示為有向邊從e1, e2與標簽r。知識圖譜被用于各種下游任務。
然而,由于知識庫是從文本中自動挖掘來填充的,它們通常是不完整的,因為不可能手動編寫所有事實,而且在提取過程中經常會出現不準確的情況。這種不準確性會導致各種下游任務的性能下降。因此,大量工作開發一種有效的工具來完成知識庫(KBs)方面,它可以在不需要額外知識的情況下自動添加新的事實。這個任務被稱為知識庫補全(或鏈接預測),其目標是解決諸如(e1,r,?)這樣的查詢。
第一種實現高效知識庫補全的方法是像TransE (Bordes et al.(2013))和TransH (Wang et al.(2014))這樣的加法模型,其中關系被解釋為隱藏實體表示的簡單翻譯。然后觀察到,諸如Distmult (Yang et al.(2015))和Complex (Trouillon et al.(2016))等乘法模型優于這些簡單的相加模型。與平移不同,旋轉(Sun等人(2019a))將關系定義為簡單的旋轉,這樣頭部實體就可以在復雜的嵌入空間中旋轉來匹配尾部實體,這已經被證明滿足了很多有用的語義屬性,比如關系的組合性。最近,引入了表達性更強的基于神經網絡的方法(如ConvE (Dettmers等人(2018))和ConvKB(Nguyen等人(2018)),其中評分函數與模型一起學習。然而,所有這些模型都獨立地處理每個三元組。因此,這些方法不能捕獲語義豐富的鄰域,從而產生低質量的嵌入。
圖已被廣泛用于可視化真實世界的數據。在將ML技術應用于圖像和文本方面已經取得了巨大進展,其中一些已成功應用于圖形(如Kipf和Welling(2017)、Hamilton等人(2017)、Velickovic等人(2018)。基于該方法的啟發,許多基于圖神經網絡的方法被提出用于KBC任務中獲取知識圖的鄰域。在這次調查中,我們的目的是研究這些工作。
摘要
知識圖譜(KGs)在工業和學術領域有很多應用,這反過來又推動了朝著大規模地從各種來源提取信息大量的研究工作。盡管付出了這些努力,但眾所周知,即使是最先進的KGs也是不完整的。鏈路預測(Link Prediction, LP)是一種根據KG中已存在的實體去預測缺失事實的任務,是一種有前途的、廣泛研究的、旨在解決KG的不完整的任務。在最近的LP技術中,基于KG嵌入的LP技術在一些基準測試中取得了很好的性能。盡管這方面的文獻在迅速增加,但對這些方法中各種設計選擇的影響卻沒有引起足夠的注意。此外,這一領域的標準做法是通過測試大量的事實來報告準確性,其中一些實體被過度表示;這允許LP方法通過只修改包含這些實體的結構屬性來展示良好的性能,而忽略KG的主要部分。本篇綜述分析提供了基于嵌入的LP方法的全面比較,將分析的維度擴展到常見的文獻范圍之外。我們通過實驗比較了16種最先進的方法的有效性和效率,考慮了一個基于規則的基準,并報告了文獻中最流行的基準的詳細分析。
介紹
知識圖譜(KGs)是真實世界信息的結構化表示。在一個KG中,節點表示實體,例如人和地點;標簽是連接它們的關系類型;邊是用關系連接兩個實體的特定事實。由于KGs能夠以機器可讀的方式對結構化、復雜的數據進行建模,因此它被廣泛應用于各個領域,從問答到信息檢索和基于內容的推薦系統,并且對于任何語義web項目都非常重要。常見的KG有FreeBase、WikiData、DBPedia、Yago和行業KG有谷歌KG、Satori和Facebook Graph Search。這些巨大的KG可以包含數百萬個實體和數十億個事實。
盡管有這樣的努力,但眾所周知,即使是最先進的KGs也存在不完整性問題。例如,據觀察FreeBase是用于研究目的的最大和最廣泛使用的KGs之一,但是在FreeBase中超過70%的個體沒有出生地點,超過99%的個體沒有民族。這使得研究人員提出了各種各樣的技術來糾正錯誤,并將缺失的事實添加到KGs中,通常稱為知識圖譜補全或知識圖譜增強任務。可以通過從外部源(如Web語料庫)提取新的事實,或者從KG中已經存在的事實推斷缺失的事實,來增長現有的KG。后來的方法,稱為鏈接預測(LP),是我們分析的重點。
LP一直是一個日益活躍的研究領域,最近受益于機器學習和深度學習技術的爆炸式增長。目前絕大多數LP模型使用原始的KG元素來學習低維表示,稱為知識圖譜嵌入,然后利用它們來推斷新的事實。在短短幾年的時間里,研究人員受到RESCAL和TransE等一些開創性工作的啟發,開發了幾十種基于不同的架構的新模型。這一領域的絕大多數論文都有一個共同點,但也存在問題,那就是它們報告的結果匯總在大量的測試事實之上,其中很少有實體被過度表示。因此,LP方法可以在這些基準上表現出良好的性能,只對這些實體進行訪問,而忽略其他實體。此外,當前最佳實踐的局限性可能使人們難以理解這一文獻中的論文是如何結合在一起的,以及如何描述出值得追求的研究方向。除此之外,目前技術的優點、缺點和局限性仍然是未知的,也就是說,幾乎沒有研究過允許模型更好地執行的情況。粗略地說,我們仍然不知道是什么可以讓一個事實變得容易還是難以學習和預測。
為了緩解上述問題,我們對一組有代表性的基于KG嵌入的LP模型進行了廣泛的比較分析。我們優先考慮最先進的系統,并考慮屬于廣泛的體系結構的工作。我們從零開始對這些系統進行訓練和調整,并通過提出新的、信息豐富的評估實踐,提供超出原始論文的實驗結果。具體是:
我們考慮了16個模型,屬于不同的機器學習和深度學習架構;我們還采用了一個基于規則挖掘的附加的最先進的LP模型作為基線。我們提供了實驗比較考慮的方法的詳細描述和相關文獻的總結,以及知識圖譜嵌入技術的教育分類。 我們考慮了5個最常用的數據集,以及目前用于基準測試的最流行的指標;我們詳細分析了它們的特點和特性。 對于每個模型,我們為每個數據集提供了效率和有效性的定量結果。 我們在訓練數據中提出一組結構特征,并測量它們如何影響每個模型對每個測試事實的預測性能。
方法概述
在本節中,我們描述并討論了基于潛在特征的知識管理的主要方法。正如在第2節中所描述的,LP模型可以利用各種各樣的方法和架構,這取決于它們如何對優化問題進行建模,以及它們實現來處理優化問題的技術。
為了概述它們高度不同的特征,我們提出了一種新的分類法,如圖1所示。我們列出了三個主要的系列模型,并進一步將它們劃分為更小的組,以獨特的顏色標識。對于每個組,我們都包括最有效的代表性模型,優先考慮那些達到最先進性能的模型,并且在任何可能的情況下,優先考慮那些具有公開可用實現的模型。結果是一組16個模型,基于極其多樣化的架構;這些是我們隨后在比較分析的實驗部分所使用的模型。對于每個模型,我們還報告了發表的年份以及從其他模型得到的信息。我們認為,這種分類有助于理解這些模型和在我們的工作中進行的實驗。表1報告了關于所包括的模型的進一步信息,例如它們的損失函數和空間復雜性。我們確定了三大類模型:1)張量分解模型;2)幾何模型;3)深度學習模型。
張量分解模型
這個家族的模型將LP解釋為一個張量分解的任務。這些模型隱式地將KG考慮為一個三維鄰接矩陣(即一個3維張量),由于KG的不完整性,這個鄰接矩陣只有部分可觀測。張量被分解成低維向量的組合(比如一個多線性乘積):這些向量被用作實體和關系的嵌入表示。張量分解的核心思想是,只要訓練集訓練不過擬合,則學習到的嵌入應該能夠泛化,并將高值與圖鄰接矩陣中不可觀測的真實事實相關聯。在實踐中,每個事實的得分都是通過對事實中涉及的特定嵌入進行組合計算得出的;通過優化所有訓練事實的評分函數,可以像往常一樣進行學習嵌入。這些模型傾向于使用很少或根本沒有共享參數;這使得它們特別容易訓練。
幾何模型
幾何模型將關系解釋為潛在空間的幾何變換。對于給定的事實,頭實體嵌入進行空間轉換τ,使用嵌入的關系作為參數的值。對事實評分的值是結果向量和尾向量之間的距離;這樣則可以使用距離函數計算δ(例如L1和L2范數)。
?
深度學習模型
深度學習模型使用深度神經網絡來執行LP任務。神經網絡學習參數,如權重和偏差,它們結合輸入數據,以識別顯著模式。深度神經網絡通常將參數組織成獨立的層,通常穿插非線性激活函數。
隨著時間的推移,人們開發了許多不同類型的層,對輸入數據應用不同的操作。例如,全連接層將把輸入數據X與權重W結合起來,并添加一個偏差B: W X + B。為了簡單起見,在下面的公式中我們將不提及偏差的使用,使其保持隱式。更高級的層執行更復雜的操作,如卷積層(它學習卷積內核以應用于輸入數據)或遞歸層(以遞歸方式處理順序輸入)。
在LP任務中,通常結合各層的權重和偏差來學習KG嵌入;這些共享的參數使這些模型更有表現力,但可能導致參數更多,更難訓練,更容易過擬合。
有關實體及其關系的真實世界事實的知識庫是各種自然語言處理任務的有用資源。然而,由于知識庫通常是不完整的,因此能夠執行知識庫補全或鏈接預測是很有用的。本文全面概述了用于知識庫完成的實體和關系的嵌入模型,總結了標準基準數據集上最新的實驗結果。
題目: A Survey on Knowledge Graphs: Representation, Acquisition and Applications
摘要: 人類知識提供了對世界的正確的理解。表征實體間結構關系的知識圖譜已成為認知和人類智能研究的一個日益流行的研究方向。在本次綜述中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們建議對這些主題進行全視圖分類和新的分類法。知識圖譜嵌入從表示空間、評分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了一個關于不同任務的數據集和開源庫的管理集合。最后,我們對幾個有前景的研究方向進行了深入的展望。
【導讀】知識圖譜一直是學術界和工業界關注的焦點。之前專知報道了AAAI2020相關接受論文。最近Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu等學者發表了關于知識圖譜的最新綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》,25頁pdf涵蓋107篇參考文獻,對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。是關于知識圖譜最近非常重要的參考文獻。
摘要
人類知識提供了對世界的認知理解。表征實體間結構關系的知識圖譜已經成為認知和人類智能研究的一個日益流行的方向。在本次綜述論文中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。知識圖譜嵌入從表示空間、得分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了不同任務的數據集和開源庫的集合。最后,我們對幾個有前景的研究方向進行了深入的展望。
1. 引言
融合人類知識是人工智能的研究方向之一。知識表示與推理是受人類解決問題方式的啟發,為智能系統表示知識以獲得解決復雜任務的能力。近年來,知識圖譜作為結構化人類知識的一種形式,受到了學術界和產業界的廣泛關注。知識圖譜是事實的結構化表示,由實體、關系和語義描述組成。實體可以是現實世界的對象和抽象概念,關系表示實體之間的關聯,實體及其關系的語義描述包含定義良好的類型和屬性。屬性圖或性質圖被廣泛使用,其中節點和關系具有屬性或性質。
知識圖譜與知識庫是同義的,只是略有不同。當考慮知識圖譜的圖結構時,知識圖譜可以看作是一個圖。當它涉及到形式語義時,它可以作為解釋和推斷事實的知識庫。知識庫實例和知識圖譜如圖1所示。知識可以用事實的三元組形式來表達(頭實體,關系,尾實體)或者(主語,謂語,賓語)(head, relation,tail)或 (subject, predicate,object)
例如(Albert Einstein; WinnerOf; Nobel Prize). 它也可以表示為一個有向圖,其中節點是實體,邊是關系。為了簡化和順應研究領域的發展趨勢,本文將知識圖譜和知識庫這兩個術語互換使用。
圖1 知識庫和知識圖譜示例
近年來,基于知識圖譜的研究主要集中在知識表示學習(KRL)和知識圖譜嵌入(KGE)兩個方面。具體的知識獲取任務包括知識圖譜補全(KGC)、三元組分類、實體識別和關系提取。知識感知模型得益于異構信息、豐富的知識表示本體和語義以及多語言知識的集成。因此,許多現實世界的應用,如推薦系統和問題回答已經具備常識性的理解和推理能力。一些現實世界的產品,例如微軟的Satori和谷歌的Knowledge Graph,已經顯示出提供更高效服務的強大能力。
為了對現有的文獻進行全面的綜述,本文重點研究了知識表示,它為知識獲取和知識感知應用提供了更加上下文化、智能化和語義化的知識表示方法。我們的主要貢獻總結如下:
全面性綜述。我們對知識圖譜的起源和現代知識圖譜的關系學習技術進行了全面的綜述。介紹和比較了知識圖譜表示、學習和推理的主要神經網絡結構。此外,我們還提供了不同領域中許多應用的完整概述。
全視圖分類和新的分類法。對知識圖譜的研究進行了全面的分類,并提出了精細的分類方法。具體來說,在高層次上,我們從KRL、知識獲取和知識感知應用三個方面對知識圖譜進行了回顧。對于KRL方法,我們進一步將細粒度分類法分為四個視圖,包括表示空間、評分函數、編碼模型和輔助信息。在知識獲取方面,將知識獲取分為基于嵌入的排序、關系路徑推理、邏輯規則推理和元關系學習; 實體關系獲取任務分為實體識別、類型識別、消歧和對齊; 并根據神經范式對關系抽取進行了討論。
對新進展的廣泛綜述。知識圖譜經歷了快速的發展。本論文提供了廣泛的新興主題,包括基于transformer的知識編碼、基于圖神經網絡(GNN)的知識傳播、基于路徑推理的強化學習和元關系學習。
總結并展望未來的發展方向。這項綜述對每個類別進行了總結,并強調了有前途的未來研究方向。
該綜述的其余部分組織如下: 首先,知識圖譜的概述,包括歷史、符號、定義和分類,在第2節中給出; 然后,我們在第三節從四個范圍討論KRL; 接下來,我們將回顧第4節和第5節中知識獲取和時間知識圖譜的任務;下游應用介紹在第6節; 最后,討論了未來的研究方向,并得出結論。其他信息,包括KRL模型訓練和一組知識圖譜數據集以及開源實現,可以在附錄中找到。
2 概述
2.1 知識庫簡史
知識表示在邏輯和人工智能領域經歷了漫長的發展歷史。圖形化知識表示的思想最早可以追溯到1956年Richens[127]提出的語義網概念,而符號邏輯知識可以追溯到1959年的一般問題求解者[109]。知識庫首先用于基于知識的推理和問題解決系統。MYCIN[138]是最著名的基于規則的醫學診斷專家系統之一,知識庫約有600條規則。后來,人類知識表示的社區看到了基于框架的語言、基于規則的表示和混合表示的發展。大約在這個時期的末期,Cyc項目開始了,目的是收集人類的知識。資源描述框架(RDF)和Web本體語言(OWL)相繼發布,成為語義Web的重要標準。然后,許多開放知識庫或本體被發布,如WordNet、DBpedia、YAGO和Freebase。Stokman和Vries[140]在1988年的圖表中提出了結構知識的現代概念。然而,自2012年谷歌搜索引擎首次提出知識圖譜概念以來,知識圖譜得到了極大的普及,當時提出了知識庫[33]的知識融合框架來構建大規模的知識圖譜。附錄A說明了知識庫歷史的簡要路線圖。
圖2: 知識庫簡史
2.2 定義和符號
大多數現有工作都是通過描述一般的語義表示或基本特征來給出定義。然而,還沒有這樣被廣泛接受的正式定義。Paulheim[117]定義了知識圖譜的四個標準。Ehrlinger和Wo?[35]分析了現有的一些定義并提出定義1強調知識圖譜的推理引擎。Wang等[158]在定義2中提出了多關系圖的定義。根據之前的文獻,我們將知識圖譜定義為G={E,R,F},其中E、R和F分別是實體、關系和事實的集合。一個事實記作一個三元組A triple (h,r,t)∈F。
定義1 (Ehrlinger和Wo?[35])。知識圖譜獲取信息并將其集成到本體中,應用推理引擎獲得新知識。
定義2 (Wang et al.[158])。知識圖譜是由實體和關系構成的多關系圖,實體和關系分別被視為節點和不同類型的邊。
表一 列出了具體的符號表示及其描述。附錄B解釋了幾種數學運算的細節。
2.3 知識圖研究的分類
本綜述對知識圖譜的研究,即KRL、知識獲取、下游知識感知應用等方面進行了全面的文獻綜述,整合了許多最新的先進深度學習技術。研究的總體分類如圖2所示。
圖2: 知識圖譜研究的分類
知識表示學習(Knowledge Representation Learning,KRL)是知識圖譜的一個重要研究課題,它為許多知識獲取任務和后續應用奠定了基礎。我們將KRL分為表示空間、評分函數、編碼模型和輔助信息四個方面,為開發KRL模型提供了清晰的工作流程。具體的內容包括:
表示學習包括點向空間、流形、復向量空間、高斯分布和離散空間。評分指標一般分為基于距離的評分函數和基于相似度匹配的評分函數。目前的研究集中在編碼模型,包括線性/雙線性模型,因式分解和神經網絡。輔助信息包括文本信息、視覺信息和類型信息。
知識獲取任務分為三類:關系提取和實體發現。第一個用于擴展現有的知識圖譜,而其他兩個用于從文本中發現新知識(即關系和實體)。KGC分為以下幾類: 基于嵌入的排序、關系路徑推理、基于規則的推理和元關系學習。實體發現包括識別、消歧、類型化和對齊。關系提取模型利用了注意力機制、圖卷積網絡、對抗性訓練、強化學習、深度殘差學習和遷移學習。
時序知識圖譜包含了表示學習的時態信息。本研究將時間嵌入、實體動態、時序關系依賴、時序邏輯推理四個研究領域進行了分類。
知識感知應用包括自然語言理解(NLU)、問題回答、推薦系統和各種真實世界的任務,這些應用程序注入知識以改進表示學習。
2.4 相關綜述論文
以往關于知識圖譜的綜述論文主要集中在統計相關學習[112]、知識圖譜精細化[117]、中文知識圖譜構建[166]、KGE[158]或KRL[87]。后兩項綜述與我們的工作關系更大。Lin等[87]以線性的方式提出KRL,著重于定量分析。Wang等人[158]根據評分函數對KRL進行分類,并特別關注KRL中使用的信息類型。它僅從評分度量的角度提供了當前研究的一般視角。我們的綜述深入到KRL,并提供了一個完整的視圖,它來自四個方面,包括表示空間、評分函數、編碼模型和輔助信息。此外,本文還對知識獲取和知識感知應用進行了全面的綜述,討論了基于知識圖譜的推理和小樣本學習等幾個新興的主題。
3 知識表示學習
KRL在文獻中也被稱為KGE、多關系學習和統計關系學習。本節介紹在分布式表示學習豐富的語義信息的實體和關系形成4個范圍的最新進展,包括表示空間(表示實體和關系,3.1節), 得分函數(度量事實的合理性,3.2節),編碼模型(模型的語義交互事實,3.3節),和輔助信息(利用外部信息,3.4節)。我們還在第3.5節中提供了一個摘要。KRL模型的訓練策略在附錄D中進行了回顧。
3.1 表示空間
表示學習的關鍵是學習低維分布式嵌入的實體和關系。現有文獻主要使用實值點向空間(圖2(a)),包括向量空間、矩陣空間和張量空間,其他類型的空間如復向量空間(圖2(b))、高斯空間(圖2(c))、流形空間(圖2(d))也被利用。
圖3: 不同空間的知識表示示意圖
3.2 評分函數
評分函數用于度量事實的可信度,在基于能量的學習框架中也稱為能量函數。能量學習的目的是學習能量函數。基于能量的學習目標學習能量函數Eθ(x)參數化θ采取x作為輸入,以確保正樣本分數高于負樣本。本文采用評分函數的形式進行統一。評分函數有兩種典型類型,即基于距離的(圖3(a))和基于相似性的(圖3(b))函數,用于度量事實的合理性。基于距離的評分函數通過計算實體之間的距離來衡量事實的合理度,其中使用較多的是關系為h+r≈t的翻譯函數。基于語義相似度的評分方法是通過語義匹配來衡量事實的合理性,通常采用乘法公式,即h?Mr≈t?,轉換頭尾部附近的實體表示空間。
圖4: 以TransE[10]和DistMult[185]為例的基于距離和基于相似匹配的評分函數示意圖。
3.3 編碼模型
本節介紹通過特定的模型體系結構(包括線性/雙線性模型、因子分解模型和神經網絡)對實體和關系的交互進行編碼的模型。線性模型通過將頭部實體投射到接近尾部實體的表示空間中,將關系表示為線性/雙線性映射。因子分解的目的是將關系數據分解為低秩矩陣進行表示學習。神經網絡用非線性神經激活和更復雜的網絡結構來編碼關系數據。幾個神經模型如圖5所示。
圖5: 神經編碼模型示意圖。(a) MLP[33]和(b) CNN[110]將三元組數據輸入到稠密層和卷積運算中學習語義表示,(c) GCN[132]作為知識圖譜的編碼器,產生實體和關系嵌入。(d) RSN[50]對實體關系序列進行編碼,有區別地跳躍關系。
3.4 嵌入輔助信息
為了促進更有效的知識表示,多模態嵌入將諸如文本描述、類型約束、關系路徑和視覺信息等外部信息與知識圖譜本身結合起來。
3.5 總結
知識表示學習是知識圖譜研究領域的一個重要課題。本節回顧了KRL的四方面,其中最近的幾種方法總結在表II中,更多的方法在附錄c中。總的來說,開發一個新的KRL模型是為了回答以下四個問題:1)選擇哪個表示空間; 2)如何測量特定空間中三元組的合理度; 3)采用何種編碼模型對關系交互進行建模; 4)是否利用輔助信息。
最常用的表示空間是基于歐幾里德點的空間,它通過在向量空間中嵌入實體,并通過向量、矩陣或張量對相互作用進行建模。研究了復向量空間、高斯分布、流形空間和群等表示空間。流形空間相對于點向歐幾里德空間的優點是松弛點向嵌入。高斯嵌入能夠表達實體和關系的不確定性,以及多重關系語義。在復雜向量空間中嵌入可以有效地建模不同的關系連接模式,特別是對稱/反對稱模式。表示空間在實體語義信息的編碼和關系屬性的獲取中起著重要的作用。在建立表示學習模型時,應仔細選擇和設計合適的表示空間,以匹配編碼方法的性質,平衡表達性和計算復雜度。基于距離度量的評分函數采用了翻譯原則,而語義匹配評分函數采用了組合運算符。編碼模型,尤其是神經網絡,在實體和關系的交互建模中起著至關重要的作用。雙線性模型也引起了廣泛的關注,一些張量因子分解也可以看作是這一類。其他方法包括文本描述、關系/實體類型和實體圖像的輔助信息。
圖6 知識圖譜表示學習模型全面集合
4 知識獲取
知識獲取的目的是從非結構化文本中構造知識圖譜,補全已有的知識圖,發現和識別實體和關系。良好的構造和大規模的知識圖譜可以用于許多下游應用,并賦予知識感知模型常識推理的能力,從而為人工智能鋪平道路。知識獲取的主要任務包括關系提取、KGC和其他面向實體的獲取任務,如實體識別和實體對齊。大多數方法分別制定KGC和關系提取。然而,這兩個任務也可以集成到一個統一的框架中。Han等人[57]提出了一種知識圖譜與文本數據融合的聯合學習框架,實現了知識圖譜與文本的數據融合,解決了文本的KGC和關系提取問題。與知識獲取相關的任務還有三元組分類、關系分類等。在這一部分中,我們將對知識獲取技術的三個方面進行全面的回顧,即知識圖譜補全、實體發現技術和關系提取技術。
4.1 知識圖譜補全
基于知識圖譜不完備性的特點,提出了一種新的知識圖譜三元組生成方法。典型的子任務包括鏈路預測、實體預測和關系預測。這里給出了一個面向任務的定義。給定一個不完全知識圖譜 G = ( E , R , F ) , KGC 的目的推斷缺失的三元組 T = { ( h , r , t ) | ( h , r , t ) ? F } 。
對KGC的初步研究主要集中在學習低維嵌入進行三元組預測。在本次綜述中,我們將這些方法稱為基于嵌入的方法。然而,它們中的大多數都沒有捕捉到多步關系。因此,最近的工作轉向探索多步驟的關系路徑和合并邏輯規則,分別稱為關系路徑推理和基于規則的推理。三元組分類是KGC的一個相關任務,它評估了一個事實三元組分類的正確性,本節還將對此進行討論。
圖7: 基于嵌入的排序和關系路徑推理示意圖
4.2 實體的發現
本節將基于實體的知識獲取分為幾個細分的任務,即實體識別、實體消歧、實體類型和實體對齊。我們將它們稱為實體發現,因為它們都在不同的設置下探索實體相關的知識。
圖8: 實體發現任務的示意圖
4.3 關系提取
關系抽取是從純文本中抽取未知關系事實并將其加入到知識圖譜中,是自動構建大規模知識圖譜的關鍵。由于缺乏標記的關系數據,遠距離監督25使用啟發式匹配來創建訓練數據,假設包含相同實體提及的句子在關系數據庫的監督下可以表達相同的關系。Mintz等人[103]利用文本特征(包括詞匯和句法特征、命名實體標記和連接特征)對關系分類進行遠程監控。傳統的方法高度依賴于特征工程[103],最近的一種方法探索了特征之間的內在相關性[123]。深度神經網絡正在改變知識圖譜和文本的表示學習。本節回顧了神經關系提取(NRE)方法的最新進展,概述如圖9所示。
圖9: 神經關系提取概述
4.4 總結
這一部分回顧了不完全知識圖譜的知識補全和純文本的知識獲取。
知識圖譜補全完成了現有實體之間缺失的鏈接,或者推斷出給定實體和關系查詢的實體。基于嵌入的KGC方法通常依賴于三元組表示學習來捕獲語義,并對完成的候選排序。基于嵌入的推理仍然停留在個體關系層面,由于忽略了知識圖譜的符號性,缺乏可解釋性,使得復雜推理能力較差。符號學與嵌入相結合的混合方法結合了基于規則的推理,克服了知識圖譜的稀疏性,提高了嵌入的質量,促使有效的規則注入,并引入了可解釋的規則。從知識圖譜的圖形性質出發,研究了路徑搜索和神經路徑表示學習,但它們在大規模圖上遍歷時存在連通性不足的問題。元關系學習的新方向是學習在低資源環境下對未知關系提取的快速適應使用。
實體發現從文本中獲取面向實體的知識,將知識融合到知識圖譜中。以序列對序列的方式探討實體識別,實體類標討論有噪聲的類型標簽和零樣本,實體消歧和對齊學習統一嵌入的迭代對齊模型,解決有限數量的對齊種子樣本問題。但是,如果新對齊的實體性能較差,則可能會面臨錯誤積累問題。近年來,針對語言的知識越來越多,跨語言知識對齊的研究應運而生。
關系抽取在距離監督的假設下存在噪聲模式,尤其是在不同領域的文本語料庫中。因此,弱監督關系提取對于減輕噪聲標記的影響是很重要的,例如,以句子包為輸入的多實例學習,軟選擇超過實例的注意機制[90]以減少噪聲模式,以及基于rl的方法將實例選擇描述為硬決策。另一個原則是學習盡可能豐富的表示。由于深度神經網絡可以解決傳統特征提取方法中的誤差傳播問題,因此該領域以基于dnn的模型為主,如表四所示。
表四: 神經關系提取與研究進展綜述
5 時序知識圖
當前的知識圖譜研究多集中在靜態知識圖上,事實不隨時間變化,而對知識圖譜的時間動態研究較少。然而,時間信息是非常重要的,因為結構化的知識只在一個特定的時期內存在,而事實的演變遵循一個時間序列。最近的研究開始將時間信息引入到KRL和KGC中,與之前的靜態知識圖相比,這被稱為時序知識圖。同時對時間嵌入和關系嵌入進行了研究。
6 知識圖譜嵌入應用
豐富的結構化知識對人工智能應用非常有用。但是如何將這些符號化知識集成到現實世界應用的計算框架中仍然是一個挑戰。本節介紹幾種最新的基于dnn的知識驅動方法,以及NLU、推薦和問題回答方面的應用。附錄E中介紹了其他應用,如數字健康和搜索引擎。
6.1自然語言理解
知識感知NLU將結構化的知識注入到統一的語義空間中,增強了語言表示。近年來,知識驅動的發展利用了顯性事實知識和隱性語言表示,并探索了許多NLU任務。Chen等人[22]提出了兩個知識圖譜上的雙圖隨機游動,即提出了一個基于槽的語義知識圖譜和一個基于詞的詞匯知識圖譜,以考慮口語理解中的槽間關系。Wang等[156]通過加權的詞-概念嵌入,將基于知識概念化的短文本表示學習加以擴充。Peng等[118]整合外部知識庫,構建用于社會短文本事件分類的異構信息圖。
語言建模是一項基本的NLP任務,它根據給定的順序預測前面的單詞。傳統的語言建模方法沒有利用文本語料庫中經常出現的實體來挖掘事實知識。如何將知識整合到語言表達中,越來越受到人們的關注。知識圖譜語言模型(Knowledge graph language model, KGLM)[96]學習通過選擇和復制實體來呈現知識。ERNIE-Tsinghua[205]通過聚合的預訓練和隨機掩蔽來融合信息實體。BERT-MK[62]對圖上下文知識進行編碼,主要關注醫學語料庫。ERNIE- baidu[142]引入了命名實體掩蔽和短語掩蔽來將知識整合到語言模型中,ERNIE 2.0[143]通過持續的多任務學習對其進行了進一步的改進。Petroni等[119]對語言模型的大規模訓練和知識圖譜的查詢進行了反思,對語言模型和知識庫進行了分析,發現通過預訓練語言模型可以獲得一定的事實知識。
6.2 問答
基于知識圖譜的問答(KG-QA)利用知識圖譜中的事實回答自然語言問題。基于神經網絡的方法在分布式語義空間中表示問題和答案,也有一些方法對常識推理進行符號知識注入。
6.3 推薦系統
基于用戶歷史信息的協同過濾是推薦系統研究的熱點。然而,它往往不能解決稀疏性問題和冷啟動問題。將知識圖譜作為外部信息進行集成,使推薦系統具有常識性推理能力。
通過注入基于知識圖譜的邊側信息(如實體、關系和屬性),許多人致力于基于嵌入的正則化以改進推薦。協同CKE[195]通過翻譯KGE模型和堆疊的自動編碼器聯合訓練KGEs、物品的文本信息和視覺內容。DKN[154]注意到時間敏感和主題敏感的新聞文章是由壓縮的實體和常識組成的,它通過一個知識感知CNN模型將知識圖譜與多通道的單詞實體對齊的文本輸入合并在一起。然而,DKN不能以端到端方式進行訓練,因為實體嵌入需要提前學習。為了實現端到端訓練,MKR[155]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關聯起來。其他文獻考慮知識圖譜的關系路徑和結構,而KPRN[160]將用戶與項目之間的交互視為知識圖譜中的實體-關系路徑,并利用LSTM對該路徑進行偏好推理,獲取順序依賴關系。PGPR[170]在基于知識圖譜的用戶-物品交互的基礎上,實現了增強策略引導的路徑推理。KGAT[159]將圖注意網絡應用于實體-關系和用戶-物品圖的協作知識圖譜上,通過嵌入傳播和基于注意的聚合對高階連通性進行編碼。
7 未來的發展方向
為了解決知識表示及其相關應用的挑戰,人們做了很多努力。但仍存在一些難以解決的問題和有希望的未來方向。
7.1 復雜推理
知識表示和推理的數值計算需要一個連續的向量空間來捕獲實體和關系的語義。雖然基于嵌入的方法對于復雜的邏輯推理有一定的局限性,但關系路徑和符號邏輯的兩個方向值得進一步探討。遞歸關系路徑編碼、基于GNN的消息傳遞知識圖譜、基于強化學習的路徑查找和推理等方法是處理復雜推理的有效方法。對于邏輯規則和嵌入的組合,最近的著作[124,202]將馬爾科夫邏輯網絡與KGE結合起來,旨在利用邏輯規則并處理它們的不確定性。利用有效的嵌入技術實現不確定性和領域知識的概率推理是一個值得關注的研究方向。
7.2 統一框架
已有多個知識圖譜表示學習模型被證明是等價的,如Hayshi和Shimbo[61]證明了在一定約束條件下,HOIE和ComplEx在鏈接預測的數學上是等價的。ANALOGY [91]提供了幾種代表性模型的統一視圖,包括DistMult、ComplEx和HolE。Wang等人[162]探索了幾種雙線性模型之間的聯系。Chandrahas等[133]探討了加法和乘法KRL模型的幾何理解。大部分工作分別采用不同的模型對知識獲取KGC和關系提取進行了闡述。Han等人[57]將兩者放在同一框架下,提出了一種相互關注的知識圖譜與文本信息共享的聯合學習框架。對知識表示和推理的統一理解研究較少。然而,以類似于圖網絡[5]的統一框架的方式進行統一的研究,將是值得填補研究空白的。
7.3 可解釋性
知識表示和注入的可解釋性是知識獲取和實際應用的關鍵問題。已經為可解釋性作了初步的努力。ITransF[175]使用稀疏向量進行知識遷移,并用注意力可視化進行解釋。CrossE[200]通過使用基于嵌入的路徑搜索來生成鏈接預測的解釋,探索了知識圖譜的解釋方案。然而,最近的神經模型在透明性和可解釋性方面存在局限性,盡管它們取得了令人印象深刻的性能。一些方法結合了黑盒神經模型和符號推理,通過合并邏輯規則來提高互操作性。可解釋性可以說服人們相信預測。因此,進一步的工作應該是提高預測知識的可解釋性和可靠性。
7.4 可擴展性
可擴展性是大規模知識圖譜的關鍵。在計算效率和模型表達性之間存在一種權衡。幾種嵌入方法都是利用簡化來降低計算成本,如利用循環相關運算來簡化張量積[113]。然而,這些方法仍然難以擴展到數百萬個實體和關系。
使用馬爾可夫邏輯網絡等概率邏輯推理需要大量的計算,因此很難擴展到大規模的知識圖譜。最近的一個神經邏輯模型[124]中的規則是通過簡單的窮舉搜索生成的,這使得它在大規模的知識圖譜上顯得不足。ExpressGNN[202]試圖使用NeuralLP[186]進行有效的規則歸納。但是,要處理復雜的深層架構和不斷增長的知識圖譜,還有很長的路要走。
7.5 知識聚合
全局知識的聚合是知識感知應用的核心。例如,推薦系統使用知識圖譜對用戶-物品交互進行建模,聯合對文本進行分類,將文本和知識圖譜編碼到語義空間中。現有的知識聚合方法大多設計了注意機制和GNNs等神經網絡結構。自然語言處理社區已經從大規模的通過Transformer和BERT模型等變體的訓練中得到了發展,而最近的一項發現[119]表明,在非結構化文本上的訓練預訓練語言模型實際上可以獲得一定的事實知識。大規模的訓練是一種直接的知識注入方式。然而,以一種有效的、可解釋的方式重新思考知識聚合的方式也具有重要的意義。
7.6 自動構建和動態知識圖譜
當前的知識圖譜高度依賴于手工構建,這是一種勞動密集型和昂貴的工作。知識圖譜在不同認知智能領域的廣泛應用,要求從大規模非結構化內容中自動構建知識圖譜。目前的研究主要集中在已有知識圖譜監督下的半自動構建方面。面對多模態性、異構性和大規模的應用,自動構建仍然面臨著巨大的挑戰。
主流的研究主要集中在靜態知識圖譜上,在預測時間范圍有效性和學習時間信息和實體動態方面也有一些工作。許多事實只在特定的時期內有效。考慮到知識圖鋪的時間特性,動態知識圖譜可以解決傳統知識表示和推理的局限性。
8 結論
知識圖譜作為人類知識的集合,隨著知識表示學習、知識獲取方法的出現和知識感知應用的廣泛,知識圖譜的研究越來越受到重視。本文從四個方面進行了全面的綜述: 1)知識圖譜嵌入,從嵌入空間、評分指標、編碼模型、外部信息嵌入、訓練策略等方面進行了全方位的系統綜述; 2)從嵌入學習、關系路徑推理、邏輯規則推理三個角度對實體發現、關系提取、圖補全的知識獲取;時序知識圖表示學習與完成;4) 在自然語言理解,推薦系統,問題回答和其他雜項應用上的真實世界的知識感知應用。此外,還介紹了數據集和開源庫的一些有用資源,并對未來的研究方向進行了討論。知識圖譜承載著一個龐大的研究社區,并具有廣泛的方法和應用。我們進行這項綜述是為了總結當前有代表性的研究工作和趨勢,并期望它能促進未來的研究。