知識圖譜表示學習: 從淺層嵌入到圖神經網絡
知識圖譜由于其廣泛的應用,如搜索引擎和問答系統,近年來受到了極大的關注。知識圖譜嵌入是將實體表示為低維向量,并將關系表示為低維向量上的算子,在知識推理等任務中得到了廣泛的研究和成功的應用。在本教程中,我們將介紹最新的知識圖譜表示學習技術,它包含三個部分。首先,我們將回顧通常基于淺層嵌入的知識圖譜表示技術,如TransE、DisMult和RotatE。其次,我們將討論如何集成額外的符號信息,如邏輯規則和本體論,以更好地學習知識圖譜的表示的最新進展。在第三部分中,我們將介紹圖神經網絡(GNNs)和最近在異構信息網絡中研究的進展,圖神經網絡可以被認為是知識圖譜的一般形式。
知識圖譜是關于實體及其關系的集合,是非常有用資源。然而,由于知識圖通常是不完備的,所以進行知識圖補全或鏈接預測是有用的,即預測一個不在知識圖譜中的關系是否可能是真的。本文綜述了用于知識圖譜完成的實體和關系嵌入模型,總結了在標準基準數據集上最新的實驗結果,并指出了未來可能的研究方向。
人工智能的一個基本問題是對知識圖譜(KG)捕獲的事實執行復雜的多跳邏輯推理。這個問題是具有挑戰性的,因為KGs可能是不完備的。最近的方法是將KG實體嵌入到低維空間中,然后利用這些嵌入來尋找答案實體。然而,如何處理任意一階邏輯(FOL)查詢一直是一個突出的挑戰,因為目前的方法僅限于FOL操作符的一個子集。特別地,不支持否定運算符。現有方法的另一個限制是它們不能自然地建模不確定性。在這里,我們提出了一種用于回答KGs中任意FOL查詢的概率嵌入框架BETAE。BETAE是第一種可以處理完整的一階邏輯運算的方法:合取(∧)、析取(不確定)和否定(ed)。BETAE的一個關鍵觀點是使用有界支持的概率分布,特別是Beta分布,以及嵌入查詢/實體作為分布,這使得我們也能建模不確定性。邏輯操作由概率嵌入的神經算子在嵌入空間中執行。我們演示了BETAE在三個大的、不完整的KG上回答任意的FOL查詢時的性能。雖然BETAE更加通用,但相對于目前最先進的KG推理方法(僅能處理不含否定的連接查詢),它的相對性能提高了25.4%。
知識圖譜補全是一類重要的問題。近年來基于圖神經網絡的知識圖譜表示得到了很多關注。這邊綜述論文總結了圖神經網絡知識圖譜補全的工作,值得查看!
摘要:知識圖譜在諸如回答問題和信息檢索等各種下游任務中越來越流行。然而,知識圖譜往往不完備,從而導致性能不佳。因此,人們對知識庫補全的任務很感興趣。最近,圖神經網絡被用來捕獲固有地存儲在這些知識圖譜中的結構信息,并被證明可以跨各種數據集實現SOTA性能。在這次綜述中,我們了解所提出的方法的各種優勢和弱點,并試圖在這一領域發現新的令人興奮的研究問題,需要進一步的調研。
知識庫是以關系三元組形式的事實信息的集合。每個關系三元組可以表示為(e1,r,e2),其中e1和e2是知識庫中的實體,r是e1和e2之間的關系。最受歡迎的知識庫表示方式是多關系圖,每個三元組(r e1, e2)是表示為有向邊從e1, e2與標簽r。知識圖譜被用于各種下游任務。
然而,由于知識庫是從文本中自動挖掘來填充的,它們通常是不完整的,因為不可能手動編寫所有事實,而且在提取過程中經常會出現不準確的情況。這種不準確性會導致各種下游任務的性能下降。因此,大量工作開發一種有效的工具來完成知識庫(KBs)方面,它可以在不需要額外知識的情況下自動添加新的事實。這個任務被稱為知識庫補全(或鏈接預測),其目標是解決諸如(e1,r,?)這樣的查詢。
第一種實現高效知識庫補全的方法是像TransE (Bordes et al.(2013))和TransH (Wang et al.(2014))這樣的加法模型,其中關系被解釋為隱藏實體表示的簡單翻譯。然后觀察到,諸如Distmult (Yang et al.(2015))和Complex (Trouillon et al.(2016))等乘法模型優于這些簡單的相加模型。與平移不同,旋轉(Sun等人(2019a))將關系定義為簡單的旋轉,這樣頭部實體就可以在復雜的嵌入空間中旋轉來匹配尾部實體,這已經被證明滿足了很多有用的語義屬性,比如關系的組合性。最近,引入了表達性更強的基于神經網絡的方法(如ConvE (Dettmers等人(2018))和ConvKB(Nguyen等人(2018)),其中評分函數與模型一起學習。然而,所有這些模型都獨立地處理每個三元組。因此,這些方法不能捕獲語義豐富的鄰域,從而產生低質量的嵌入。
圖已被廣泛用于可視化真實世界的數據。在將ML技術應用于圖像和文本方面已經取得了巨大進展,其中一些已成功應用于圖形(如Kipf和Welling(2017)、Hamilton等人(2017)、Velickovic等人(2018)。基于該方法的啟發,許多基于圖神經網絡的方法被提出用于KBC任務中獲取知識圖的鄰域。在這次調查中,我們的目的是研究這些工作。
【導讀】知識圖譜是學術界和工業界近年來關注的焦點。2020年最近以來,KDD、ICML、ACL、IJCAI會議論文公布,專知小編整理了最新8篇關于知識圖譜的論文,來自Amazon、CMU、斯坦福 、Google等,請大家查看!
1、MultiImport: Inferring Node Importance in a Knowledge Graph from Multiple Input Signals(推斷知識圖譜節點重要性),KDD 2020
摘要:給定多個輸入信號,我們如何推斷知識圖譜(KG)中的節點重要性?節點重要性估計是一項非常重要和具有挑戰性的任務,它可以為許多應用帶來好處,包括推薦、搜索和查詢消歧。實現這一目標的一個關鍵挑戰是如何有效地利用來自不同來源的輸入。一方面,KG是一個豐富的信息源,具有多種類型的節點和邊。另一方面,有外部輸入信號,如投票或頁面瀏覽量,可以直接告訴我們實體在KG中的重要性。雖然已經開發了一些方法來解決這個問題,但它們對這些外部信號的使用受到了限制,因為它們沒有同時考慮多個信號的輸入。在本文中,我們提出了一個端到端的多輸入模型,它從多個可能重疊的輸入信號中推斷出潛在節點的重要性。MultiImport是一種潛在的變量模型,它捕捉節點重要性與輸入信號之間的關系,有效地從多個可能存在沖突的信號中學習。同時,MultiImport提供了一種基于注意力圖神經網絡的有效估計器。我們在真實的KGs上進行了實驗,表明MultiImport處理了多個涉及從多個輸入信號推斷節點重要性的挑戰,并且始終優于現有方法,實現了比最先進的方法高23.7%的NDCG@100。
論文地址:
2、Low-Dimensional Hyperbolic Knowledge Graph Embeddings(低維雙曲知識圖譜嵌入),ACL 2020
摘要: 知識圖譜(KG)嵌入通過學習實體和關系的低維表示,以預測缺失事實。KGs通常具有層次結構和邏輯模式,必須在嵌入空間中保留這些模式。對于分層數據,雙曲嵌入方法已顯示出高保真度和簡潔表示的優勢。然而,現有的雙曲嵌入方法不能解釋KGs中豐富的邏輯模式。在本工作中,我們引入了一類雙曲KG嵌入模型,可以同時捕獲層次和邏輯模式。我們的方法結合雙曲反射和旋轉注意力模型復雜的關系模式。在標準KG基準上的實驗結果表明,我們的方法在低維的平均倒數(MRR)方面比預先的歐幾里得和雙曲的工作提高了6.1%。此外,我們觀察到不同的幾何變換捕捉不同類型的關系,而基于注意的變換則推廣到多重關系。在高維情況下,我們的方法在WN18RR和YAGO3-10上分別獲得了49.6%和57.7%的最先進的MRR。
論文地址:
3、Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding(正交關系轉換與圖上下文建模的知識圖譜嵌入),ACL 2020
摘要: 基于距離的知識圖譜嵌入已經在知識圖譜鏈接預測任務上有了實質性的改進,從TransE到目前最先進的RotatE。然而,諸如 N-to-1, 1-to-N和N-to-N的復雜關系仍然難以預測。在這項工作中,我們提出了一種新的基于距離的知識圖譜鏈接預測方法。首先,通過對模型關系的正交變換,將RotatE從二維復數域擴展到高維空間。關系的正交變換嵌入保持了對于對稱/反對稱關系、逆關系和復合關系的建模能力,同時具有更好的建模能力。其次,將圖形上下文直接集成到距離評分函數中。具體地說,圖上下文是通過兩個有向上下文表示來顯式建模的。嵌入到知識圖中的每個節點都增加了兩個上下文表示,這兩個上下文表示分別從相鄰的傳出節點/邊和傳入節點/邊計算得到。該方法提高了N-to-1, 1-to-N和N-to-N情況下的預測精度。實驗結果表明,該算法在兩個常用的基準測試FB15k237和WNRR-18上都取得了最好的結果,特別是在節點數較多的FB15k-237上。
論文地址:
4、SEEK: Segmented Embedding of Knowledge Graphs(知識圖譜可分割嵌入),ACL 2020
摘要:近年來,知識圖譜嵌入成為人工智能領域的研究熱點,在推薦、問答等各種下游應用中發揮著越來越重要的作用。然而,現有的知識圖譜嵌入方法沒有在模型復雜度和模型表現力之間取得適當的折衷,這使得它們仍然遠遠不能令人滿意。為了緩解這一問題,我們提出了一個輕量級的建模框架,它可以在不增加模型復雜度的情況下獲得具有高度競爭力的關系表達能力。我們的框架側重于評分函數的設計,并突出了兩個關鍵特征:1)促進充分的特征交互;2)保持關系的對稱性和反對稱性。值得注意的是,由于評分函數設計的通用性和美觀性,我們的框架可以將現有的許多著名的方法作為特例合并在一起。此外,在公共基準上的大量實驗證明了該框架的有效性。
論文地址:
5、Reasoning Like Human: Hierarchical Reinforcement Learning for Knowledge Graph Reasoning(層次強化學習知識圖譜推理),IJCAI 2020
摘要:知識圖譜通常存在不完備性。知識圖譜補全的一種流行方法是通過對連接兩個實體的其他路徑上發現的信息進行多跳推理來推斷丟失的知識。然而,多跳推理仍然具有挑戰性,因為推理過程通常經歷多個語義問題,即一個關系或一個實體具有多個含義。針對這種情況,我們提出了一種新的層次強化學習框架來自動地從知識圖譜中學習推理鏈。我們的框架是受層次結構的啟發,通過人類處理認知模糊的情況。整個推理過程分解為兩層強化學習策略,用于編碼歷史信息和學習結構化行動空間。因此,處理多重語義問題更加可行和自然。實驗結果表明,我們提出的模型在模糊關系任務方面取得了顯著的改進。
論文地址:
6、TransOMCS: From Linguistic Graphs to Commonsense Knowledge(從語言圖譜到常識圖譜),IJCAI 2020
摘要:常識的獲取是人工智能的關鍵問題。傳統的獲取常識的方法通常需要費力而昂貴的人工注釋,這在大規模上是不可行的。本文探討了一種實用的從語言圖中挖掘常識知識的方法,目的是將用語言模式獲得的廉價知識轉化為昂貴的常識知識。其結果是將大規模選擇偏好知識資源ASER [Zhang et al., 2020]轉換為與ConceptNet表示相同但比前者大兩個數量級的TransOMCS [Liu and Singh, 2004]。實驗結果表明,該方法在數量、新穎性和質量上都是有效的。TransOMCS可以通過以下網址公開訪問。
論文地址:
回答大規模知識圖譜上的復雜邏輯查詢是一項基本而又具有挑戰性的任務。在本文中,我將概述如何使用向量空間嵌入在知識圖譜中執行邏輯推理。首先,我將討論預測一對實體之間關系的知識圖譜補全方法:通過捕獲與實體相鄰的關系類型來考慮每個實體的關系上下文,并通過一種新的基于邊的消息傳遞方案進行建模;考慮關系路徑捕獲兩個實體之間的所有路徑;通過一種可學習的注意力機制,自適應地整合關系上下文和關系路徑。其次,我們還將討論QUERY2BOX,這是一個基于嵌入的框架,用于推理使用and、or和存在操作符進行的大量且不完整的KGs中的任意查詢。
【導讀】WWW2020的DL4G論壇,William L. Hamilton做了關于元學習與圖上邏輯規則推導的報告,55頁ppt。