推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。
在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。
對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。
在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識。
盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。
在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題:
1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?
2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?
3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?
4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?
5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?
在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。
如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。
本論文的主要貢獻如下。
知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。
知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。
圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。
多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。
文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。
我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。
知識圖譜(KGs)在許多領域都有應用,如金融、制造和醫療等領域。雖然最近的努力已經創建了大型的KGs,但它們的內容還遠遠不夠完整,有時還包括無效的語句。因此,通過KG的完成和KG的驗證來提高KG的覆蓋率和準確性是至關重要的,這些都被稱為KG的完善。在這種情況下,為KG的完善輸出提供人類可理解的解釋也是至關重要的,這樣人類就會對完善后的KG質量產生信任。
通過搜索和瀏覽進行的KG探索,對于用戶了解KG的價值和對下游應用的限制至關重要。然而,KG的龐大規模使得KG的探索具有挑戰性。雖然KG的類型分類法是一個有用的資產,但它仍然不足以進行深度探索。
本論文通過對KG的邏輯推理,結合KG嵌入模型和文本挖掘等其他技術,解決了KG細化和KG探索的挑戰。我們為這些目標引入了提供人類可理解的輸出的方法。
具體來說,本論文包括以下貢獻:
為了解決KG的不完整性,我們提出了ExRuL,一種通過在Horn規則的主體中添加例外(即否定的原子)來修訂Horn規則的方法。學習到的規則可以用來預測新的事實,以填補KG中的空白。在真實世界的KG上的實驗表明,例外意識的規則極大地降低了事實預測的錯誤率。此外,規則為這些預測提供了用戶可理解的解釋。
我們還提出了RuLES,一種利用缺失事實的概率表示的規則學習方法。該方法通過結合預先計算的KG嵌入和文本語料庫的反饋,反復擴展從KG誘導出的規則。該方法利用了新設計的規則質量衡量標準。RuLES提高了所學規則及其預測的質量。
為了支持KG驗證,我們提出了ExFaKT,一個為候選事實構建人類可理解的解釋的框架。該方法使用規則將一個候選事實改寫成一組更容易發現和確認(或反駁)的相關事實。ExFaKT的輸出是一組來自文本和KG的候選事實的語義痕跡。實驗表明,基于規則的重寫極大地提高了所發現的痕跡的召回率,同時保留了高精確度。此外,這些解釋支持手動和自動的KG驗證。
為了促進KG的探索,我們介紹了ExCut,一種將KG嵌入與規則挖掘相結合的方法,以計算帶有解釋的信息性實體集群。集群的解釋由區分這個集群的實體關系的簡明組合組成。ExCut通過迭代交織學習嵌入和規則,共同提高了實體集群及其解釋的質量。實驗表明,ExCut產生了高質量的聚類,為它們計算的解釋幫助人類理解這些聚類中的實體之間的共同點。
人工智能追求的是開發能夠推理出理性決策的自動化代理。如果沒有關于世界的足夠知識,自動推理是不可行的[Lenat and Feigenbaum, 1991]。對這種知識的需求推動了各種努力,將人類知識表現為機器可讀的結構化模型。理想情況下,創建的資源應該同時保持高覆蓋率和高準確性。
對機器可讀知識的需求體現在創建一些適合自動推理任務的大型結構化知識庫,這些知識庫后來被稱為知識圖譜。
知識圖譜(KGs)是事實三要素h主語謂語賓語i的大集合。主語和賓語是代表人、地方、組織等的實體,而謂語是它們之間的關系。此外,有些KG還包括一個類型化系統,表明KG實體的類型和這些類型分類學之間的關系。類型化系統對推理和探索任務很有價值。
例1.1. 關于阿爾伯特-愛因斯坦的知識,比如他是一個出生在德國烏爾姆、生活在美國的科學家,以三要素的格式表示為。
<阿爾伯特-愛因斯坦 生于 烏爾姆>
<烏爾姆 位于 德國>
<阿爾伯特-愛因斯坦 移民 到美國>
而上述實體背后的類型化系統包括:
<阿爾伯特-愛因斯坦 屬于 科學家>
<烏爾姆 屬于 城市>
<德國 屬于 國家>
<科學家 屬于 人>
歷史。早期的KG是手工制作的;結果是高質量的KG,但范圍和規模有限,例如,Cyc [Lenat, 1995] 和WordNet [Miller, 1995]。隨著新千年的開始,自動知識采集的進展導致了所構建的KG在規模、質量和覆蓋面方面的飛躍。一些大規模的KG出現了,包括Freebase [Bollacker et al., 2008]和Wikidata [Vrandecic and Kr?tzsch, 2014],它們是通過在線社區手動構建的。其他KG項目,如DBpedia[Auer等人,2007]、YAGO[Suchanek等人,2007]、BabelNet[Navigli和Ponzetto,2012]、NELL[Mitchell等人,2015]和KnowledgeVault[Dong等人,2014]利用來自異質資源的(半)自動策展技術。同時,對現有的KGs進行調整和互聯的努力,比如,[Saeedi等人, 2018, Raad等人, 2020]出現了,目的是創造一個統一的視圖,這被稱為關聯開放數據[Bizer等人, 2011]。
應用。KGs被用于信息檢索任務,比如語義搜索[Haussmann, 2017, Dietz等人, 2018]和問題回答[Diefenbach等人, 2018, Abujabal, 2019]。它們對于文本分析和語言理解任務也至關重要。在這類任務中,KGs提供了所需的語義和背景,以分析和提取來自噪聲源的信息。此外,KGs擁有描述現實世界動態和人類常識的隱含模式,這在推理[Liu等人,2020]和數據清理[Chu等人,2015]任務中很有用。
KGs的使用已經超出了通用搜索和文本分析的范圍,例如[Singhal, 2012],而擴展到更多特定領域的應用。KGs被廣泛用于商業目的,例如,在推薦系統中[Wang等人,2019b, Guo等人,2020]。KGs也被利用于更復雜的領域,如學術文獻[Wan等人,2019]、法律[González-Conejero等人,2018,Junior等人,2020]、金融[Reuters,2017,Meij,2019,Albrecht等人,2019]和制造[Bader等人,2020,Mehdi等人,2019,Kalayci等人,2020]。最值得注意的是,KGs在敏感領域逐漸被采用,如醫療保健[Ernst et al., 2015, Noy et al., 2019, Terolli et al., 2020, Li et al., 2020]
覆蓋率和質量。知識圖譜的質量是由其構建過程決定的。例如,貢獻者的專業知識和偏見決定了人工構建的KGs的質量[Demartini, 2019]。同樣,自動策劃的KGs也受到來源的質量和提取方法的有效性的影響[Weikum等人,2020,Hogan等人,2020]。盡管現有的知識圖譜規模很大,但它們仍然有幾個缺點[Darari等人,2013,Hogan等人,2020],包括(i)實體和關于實體的事實都不完整;有時(ii)不準確,表現為不正確的策劃或過時的陳述(例如,婚姻狀況的改變)。
KG的缺點直接影響到下游應用的有效性。例如,在推理任務中,KG的覆蓋率和準確性對于得出有效的結論都是至關重要的。同樣,在語義文本分析中,缺失的實體和關系會損害實體鏈接算法的輸出質量。
完善的方法。鑒于上述KG的局限性,提高現有KG的質量至關重要,這就是KG細化的目的[Paulheim, 2017]。與KG構建不同,KG細化利用現有的KG事實,可能與其他資源相結合,以執行兩個主要任務:(i)KG完成,涉及預測KG實體之間的缺失關系,以及(ii)KG驗證,旨在確保KG中事實的正確性和一致性。
補全和驗證的方法分為兩類:符號化(基于邏輯)和亞符號化(即基于統計)方法。符號方法,例如[Drabent等人,2009,Nakashole等人,2012a,Fierens等人,2015,Bienvenu等人,2016],在KG上學習推理規則,并利用這些規則來推斷新的事實或使現有事實失效。另一方面,亞符號方法從KG三要素中學習統計相關性模型,并利用這些模型來估計新的候選事實的可信度[Paulheim和Bizer, 2014, Nakashole和Mitchell, 2014, Nickel等人, 2016a]。最突出的統計方法是KG嵌入模型,例如[Bordes等人,2013,Trouillon等人,2016],其中KG被嵌入到一個多維的連續空間[Nickel等人,2016a],反映了KG實體之間的語義關聯。
可解釋性和可擴展性。KGs在敏感領域有應用,這些領域由于質量保證和安全原因需要人類參與,例如醫療保健。因此,開發具有人類可理解輸出的細化方法是至關重要的。理解結果有助于人類建立對KGs質量的信任。可解釋性也允許克服KG構建和細化方法的局限性。例如,可解釋的結果可以幫助檢測和解決KG嵌入模型的社會偏見[Fisher等人,2020]。
統計方法有能力處理噪聲和大規模數據[Nickel等人,2016a],并支持異質數據模式的融合,例如,文本與關系圖元[Wang等人,2014a]。然而,它們受到一些限制;特別是,它們的結果不容易解釋[Bianchi等人,2020]。另一方面,產生可解釋的結果是符號方法的一個核心優勢[Eiter等人,2016,Martires等人,2020]。然而,僅靠邏輯推理無法處理噪聲源[Ji等人,2011]。
將基于邏輯的方法和統計方法結合起來,有可能開發出大規模的KG細化方法,產生人類可理解的結果。更具體地說,對KG的規則學習可以為解釋獲得的結果提供一個很好的代理,而統計技術可以提供邏輯推理的接口,以收集來自噪聲源的信號。
對于知識工程師來說,KG探索對于了解KG的價值和對下游應用的限制是至關重要的。然而,鑒于現有KG的規模,探索KG是具有挑戰性的。此外,KG包含異質數據,并且缺乏預定義的模式[Mohanty和Ramanath,2019];因此,在KG上組成探索性查詢是繁瑣而耗時的。
已經開發了幾個KG可視化和導航工具,以促進KG的探索[Gómez-Romero等人,2018]。其他方法支持通過基于KG的自動補全[Mohanty and Ramanath, 2019]、查詢擴展[Lissandrini et al., 2020]或通過實例查詢[Mottin et al., 2016]制定查詢。然而,這些方法并不能提供對KG的整體看法,仍然需要大量的人工努力來掌握KG的主要內容。
另一種方法是對KG進行總結,以產生人類可讀的綜合視圖[Cebiric等人,2019,Liu等人,2018]。在一些KG中,例如YAGO,類型系統在這種情況下是一種有用的資產。然而,這類KG中的類型仍然是粗粒度的,不能支持深度探索。因此,需要額外的支持,這可以通過發現語義相關實體的實體集群來實現。
本論文研究了符號推理與統計技術(如KG嵌入和文本挖掘)的整合,以解決以下挑戰。
KG的完成。我們的目標是通過提高從KG中學習到的規則的質量來提高基于規則的完成的精度。
KG驗證。我們研究收集支持(或反駁)候選事實的足夠證據的挑戰。
KG探索。我們研究了將語義相關的KG實體歸入基于KG結構的可解釋集群的問題。
最重要的是,我們專注于開發能夠提供人類可理解的輸出的方法。具體來說,我們提出了以下貢獻。
ExRuL:例外意識的規則學習。雖然KG不可避免地注定是不完整的,但KG中的相關性可以被分析,以挖掘推理規則來預測可能缺失的事實。早期的方法,例如[Galárraga等人,2015],主要是學習Horn規則,它不考慮可能的例外。因此,使用Horn規則來推斷新的事實往往會導致許多錯誤。
為了提高基于規則的預測的精確性,我們提出了ExRuL,一種將Horn規則有效修改為例外意識規則(即非單調規則)的方法。我們通過在這些規則的主體中加入從KG中挖掘的例外(即否定的原子)來實現這一目標。在現實世界的KG上進行的實驗表明,與Horn規則相比,修訂后的規則的預測誤差大大降低。此外,修訂后的規則不僅解釋了推斷的事實,而且還指出了規則在什么時候不應該推斷出一個三元組。
RuLES:知識圖譜嵌入的規則學習。標準的規則質量衡量標準,如置信度,是單獨基于KG計算的。因此,當在稀疏的KG上計算時,這些措施可能會產生誤導,使規則學習方法無法發現高質量的規則。
我們介紹了RuLES,這是一種規則學習方法,利用缺失事實的概率表示來解決這個問題。該方法通過結合預先計算的KG嵌入模型和文本語料庫的反饋,迭代擴展了從KG誘導出的候選規則。該方法利用了新設計的規則質量衡量標準,超越了KG本身,提高了規則的排名。實驗證明了我們方法的有效性,提高了所學規則及其預測的質量。
ExFaKT: 可解釋的事實核查。自動事實核查通常從收集網絡來源中候選事實的證據開始。這種證據通常是在支持或反駁的背景下直接提到該事實。然后,提取的證據被用來計算這個事實的真相分數。這個過程有兩個限制。首先,直接提到的事實很難被發現,而且由于網絡來源的自然報道偏差,直接提到的事實往往不夠充分。第二,每當人類做出最終決定時,計算出來的分數是不夠的,沒有解釋。
為了更好地支持KG策展人決定候選事實的有效性,我們提出了ExFaKT,一個為候選事實構建人類可理解的解釋的框架。ExFaKT使用霍恩規則將一個候選事實改寫成一組更容易發現和確認(或反駁)的其他事實。其輸出是一組來自網絡資源和KG的候選事實的語義痕跡(即證據)。實驗表明,基于規則的重寫大大增強了所發現的相關線索的召回率,同時保持了較高的精度。此外,實驗表明,所發現的解釋對人工和自動事實核查都有好處。最后,我們介紹了Tracy,一個向終端用戶展示我們框架的網絡界面。
ExCut:可解釋的聚類。通過實體聚類,使用無監督的方法將實體歸入信息子集,可以促進KG的探索。然而,僅僅對實體集進行聚類是不夠的。用戶還需要了解每個集群的性質。因此,聚類必須以用戶可理解的標簽形式進行解釋。在KG中提供的粗粒度的類型可能不足以區分個別領域內的實體群。
為了促進KG的探索,我們介紹了ExCut,一種將KG嵌入與規則挖掘相結合的方法,以計算具有可理解解釋的信息集群。每個解釋都由區分相應集群的實體關系的簡明組合組成。這種可解釋的聚類可以幫助分析者探索實體集并發現潛在結構。此外,ExCut通過交錯學習嵌入和規則,共同提高實體集群及其解釋的質量。實驗表明,迭代過程提高了聚類和解釋的質量。此外,用戶研究表明,所產生的解釋可以幫助人類理解所識別的聚類。
本節列出了為構建本學位論文而發表的研究論文。它還指出了本論文作者在每篇出版物中的作用。
第3章(異常感知的規則學習)是基于:
[Gad-Elrab等人,2016] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2016). Exception-Enriched Rule Learning from Knowledge Graphs. In: International Semantic Web Conference (ISWC ’16).
作者在這項研究的形式化和執行方面發揮了主導作用。
[Tran et al., 2016] Tran, D., Stepanova, D., Gad-Elrab, M. H., Lisi, F. A., and Weikum, G. (2016). Towards Nonmonotonic Relational Learning from Knowledge Graphs. In: International Conference on Inductive Logic Programming (ILP ’16). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在問題的形式化、方法的開發、實驗的設計和結果的分析方面做出了主要貢獻。
第4章(知識圖譜嵌入的規則學習)是基于:
[Ho et al., 2018] Ho, V. T., Stepanova, D., Gad-Elrab, M. H., Kharlamov, E., and Weikum, G. (2018). Rule Learning from Knowledge Graphs Guided by Embedding Models. In: International Semantic Web Conference (ISWC ’18). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在問題的形式化、方法的開發、實驗的設計和結果的分析方面做出了主要貢獻。
第5章(可解釋的事實核查)結合了兩者的產出:
[Gad-Elrab等人,2019]Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). ExFaKT: A Framework for Explaining Facts over Knowledge Graphs and Text. In: International Conference on Web Search and Data Mining (WSDM ’19).
作者在這項研究的形式化和執行中發揮了主導作用。
[Gad-Elrab et al., 2019] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). Tracing Facts over Knowledge Graphs and Text. In: The Web Conference (WWW ’19).
作者在這項研究的形式化和執行中發揮了主導作用。
第6章(可解釋聚類)是基于:
[Gad-Elrab等人,2020b] Gad-Elrab, M. H., Stepanova, D., Tran, T., Adel, H., and Weikum, G. (2020). ExCut: Explainable Embedding-based Clustering over Knowledge Graph. In: International Semantic Web Conference (ISWC ’20).
作者在這項研究的形式化和執行方面發揮了主導作用。
[Gad-Elrab et al., 2020a] Gad-Elrab, M. H., Ho, V. T., Levinkov, E., Tran, T., and Stepanova, D. (2020). Towards Utilizing Knowledge Graph Embedding Models for Conceptual Clustering. In: International Semantic Web Conference (ISWC ’20).
作者在這項研究的形式化和執行中發揮了主導作用。
第2章(背景)部分是基于:
[Stepanova et al., 2018] Stepanova, D., Gad-Elrab, M. H., and Ho, V. T. (2018). Rule Induction and Reasoning over Knowledge Graphs. In: Reasoning Web International Summer School (RW ’18).
作者在編寫本教程的手稿中發揮了很大作用。
其他出版物。作者還對以下相關研究做出了貢獻,這些研究不包括在本論文的貢獻中。這項工作通過引入一種高效的方法來生成對KGs不一致的解釋,從而解決了KG驗證的難題。
[Tran et al., 2020] Tran, T., Gad-Elrab, M. H., Stepanova, D., Kharlamov, E., and Str?tgen, J. (2020). Fast Computation of Explanations for Inconsistency in LargeScale Knowledge Graphs. In: The Web Conference (WWW ’20).
本論文的其余部分組織如下。第2章提供了與知識圖譜和符號推理有關的必要背景。第3章和第4章描述了我們在通過挖掘例外意識規則來改善基于規則的完成方面的貢獻。第5章描述了我們在通過收集復雜證據驗證KG事實領域的貢獻。第6章描述了我們通過發現可解釋實體集群來促進KG探索的方法。最后,第七章總結了本論文的貢獻并提出了未來工作的可能方向。
知識庫上的問答(QA)提供了一種用戶友好的方式來訪問存儲在知識庫中的大量信息。由于最近在深度神經模型的表征學習方面取得的進展,我們在QA系統的性能上取得了巨大的進步。然而,這種深度模型作為黑盒的功能,具有不透明的推理過程,很脆弱,并且提供非常有限的控制(例如,用于調試錯誤的模型預測)。目前還不清楚如何可靠地添加或更新存儲在其模型參數中的知識。
本論文提出了用于回題的非參數模型,該模型將邏輯與知識分離開來。對于一個給定的查詢,所提出的模型能夠從訓練集中的其他上下文相似的查詢中 "即時"得出可解釋的推理模式。我們表明,我們的模型可以無縫地處理新的知識(新的實體和關系),因為它們被不斷地添加到知識庫中。我們的模型對需要子圖推理模式的復雜和組合性自然語言查詢是有效的,甚至在推理模式(邏輯形式)的注釋不可用時也能工作,在多個基準上取得了新的最先進的結果。利用我們的非參數化方法,我們還證明有可能糾正深度QA模型的錯誤預測,而不需要重新訓練,從而為建立更加可控和可調試的QA系統鋪平道路。最后,與深度參數模型相比,本論文證明了非參數推理模型(i)可以更好地概括需要復雜推理的問題,特別是在訓練期間看到的問題數量有限的情況下(ii)可以在新數據增加時更有效地推理,(iii)為其預測提供更多的可解釋性,(iv)更可控和可調試。
自動推理,即計算系統從觀察到的證據中做出新推論的能力,一直是人工智能的一個長期目標。我們對具有豐富多樣語義類型的大型知識庫(KBs)的自動推理感興趣(157;7;14)。無論是自動還是手動構建的知識庫,往往都是不完整的。然而,許多有效的未觀察到的事實可以通過推理從觀察到的KB事實中推斷出來。存儲在知識庫中的大部分信息都是形式為(e1,r, e2)的符號事實,其中e1, e2表示實體,r表示語義關系。因此,知識庫可以被自然地描述為一個圖,其中實體是節點,關系是標記的邊。
訪問存儲在知識庫中的信息的一個有效和用戶友好的方法是向它發出查詢。這種查詢可以是結構化的(如預訂航班的查詢)或非結構化的(如自然語言查詢)。在知識庫上的問答(QA)系統面臨的一個挑戰是處理那些答案沒有直接存儲在知識庫中(作為一個簡單的事實)的查詢,相反,QA模型需要推理,以便從其他觀察到的事實中得出答案。這篇論文的重點是在結構化的KB上建立能夠進行這種推理的QA系統。
由于最近深度神經模型在表征學習方面的進展,我們在QA和KB完成系統的性能方面取得了巨大的進步。然而,這樣的深度模型也有很多實際的不足之處。比如說:
目前的質量保證和知識庫完成模型通常是黑盒式的評分函數,學習實體和關系的固定詞匯的向量表示(9;155;162;55)。模型的參數同時存儲了邏輯和知識,使得模型所使用的底層推理過程不透明,也不清楚。
可以向質量保證系統提出的問題類型基本上是沒有限制的,因此,模型必須學習并存儲在其參數中的推理模式類型是巨大的。此外,在訓練過程中,一個模型可能只遇到每種問題類型的幾個訓練實例。我們表明,KBQA的參數化模型在這樣的環境中很困難(29)。
我們生活在一個不斷發展的世界中,有很多異質性,同時新的實體和關系也在不斷被創造。例如,描述新實體事實的科學論文和維基百科頁面被不斷添加。這些新的發現進一步引發了更多新的事實的推論,每一個事實都有其不同的推理。由于固定的預定義詞匯,目前的知識庫完成模型不能處理新增加的實體和關系,也不能對新數據進行推理。
隨著我們觀察到新證據(數據),人類的推理過程變得更加細微,即新的推理規則出現,現有的推理規則隨著新數據的加入而演變。目前還不清楚如何穩健地更新深度神經模型的參數來編碼更新的(和新的推理規則)。正如我們在論文后面所顯示的,模型在對新到的數據進行訓練時,往往會出現災難性的遺忘,即模型已經忘記了它之前所學的東西(28;31)。
最后,當模型對一個給定的問題輸出錯誤的預測時,它們為我們提供的見解和對錯誤預測的調試控制非常有限(31)。我們表明,非參數模型讓我們有新的機會來修復錯誤的模型預測,讓我們向KNN記憶 "注入 "案例,使模型更有可解釋性和可控性。
我們希望為大型知識庫的問答設計準確的模型,并具有以下理想的特性:
適用于新加入的數據。我們需要能夠與動態世界無縫推理的模型。這意味著模型應該能夠處理新的實體和關系,以及隨著新數據的加入而出現的新的(潛在的)推理規則。
準確地回答需要復雜推理模式的各種自然語言查詢。知識庫的自然語言界面為存儲在其中的信息提供了一種用戶友好的訪問方式。自然語言查詢還允許我們提出更復雜的問題,這些問題很難用單一的知識庫關系來表達。此外,看似簡單的問題可能需要涉及KB中多個事實的復雜推理(例如,居里家族的成員獲得了多少諾貝爾獎?) 回答許多這樣的問題所需要的推理模式是子圖的形狀,而且往往比簡單的推理鏈更復雜。我們需要能夠對復雜的(潛在的)子圖圖譜進行所需的推理的模型,以準確回答此類問題。
具有可控性和可調試性的可解釋推理過程。目前的QA和KB完成模型作為黑盒的功能,對其推理過程提供了有限的見解。此外,當它們對一個查詢輸出錯誤的預測時,除了在失敗的輸入上重新訓練模型外,我們沒有什么可以做的。我們需要的模型不僅在如何得出查詢的答案方面提供更多的透明度,而且是可控制和可調試的,對如何修復錯誤的模型預測提供更好的洞察力。
本論文提出建立模型,將邏輯與存儲在模型參數中的數據分離開來。所建議的模型不是記憶數據并將其存儲在參數中,而是學習如何瀏覽知識圖譜來回答一個給定的查詢。我們提出的解決方案MINERVA(26),將知識圖譜(KG)視為強化學習(RL)框架中的一個環境。從對應于查詢實體的節點開始,MINERVA通過從所有邊的集合(行動空間)中選擇一條出站邊來遍歷知識圖譜。這樣重復進行,直到代理決定在它認為是答案的節點上停止。在訓練過程中,如果終端節點是給定查詢的答案,環境就會給予積極的獎勵。應該強調的是,MINERVA不是記憶KG,而是學習如何為給定的查詢進行導航。這使得MINERVA能夠泛化到包含未見過的實體的圖的新部分。此外,所穿越的關系邊的序列也為模型所采用的推理過程提供了可解釋性。然而,瀏覽KG的邏輯,即下一步選擇哪條關系邊緣,完全是由模型的參數來編碼的。這意味著MINERVA將無法適應添加到KG中的新關系,因為沒有經過訓練的參數來適應它們。另外,隨著新信息的加入,現有的規則會不斷演變,新的推理規則也會出現。隨著新數據的加入,MINERVA將無法使用新的(或進化的)規則進行推理(無需重新訓練)。
為了能夠對動態世界進行推理,我們提出了能夠進行非參數和背景推理的模型(27)。給定一個關于新實體的查詢,我們的模型在我們觀察到查詢關系的KG中找到其他上下文相似的實體。接下來,我們收集多個推理路徑,將檢索到的實體與使用查詢關系的實體相連接。最后,這些推理路徑會在查詢實體周圍的子圖中被遍歷,從而得出答案。這種非參數化的方法使我們能夠與新到達的數據進行無縫推理。回答一個新增加的實體的查詢所需的推理模式可以從知識庫中的現有實體中導出。同樣地,任何新增加的數據都可以被納入,以完善對現有實體的查詢的預測。(27)中提出的算法對從上下文實體中收集的所有路徑進行了平等處理。然而,并不是所有的路徑對推理都同樣重要。事實上,經常存在一些 "虛假 "的路徑,它們將問題實體與答案實體連接起來,但并不是有效的推理鏈。為了處理這種情況,我們提出了一種概率方法,用先驗分和精確分來衡量每條推理路徑(28)。我們證明了我們簡單的基于CBR的方法不僅在各種知識庫完成基準上取得了最先進的性能(168;187),而且在一個具有挑戰性的開放世界知識庫完成設置中,以很大的幅度超過了SOTA模型,在這個世界中,新的實體和事實正在不斷地被添加。
本論文到目前為止所描述的工作,接受結構化查詢(e1,r,?)作為輸入。如前所述,知識庫的自然語言界面為用戶提供了對知識庫中存儲信息的友好訪問。自然語言(NL)查詢也允許我們提出難以用單一KB關系表達的問題。為了處理復雜的NL查詢,我們引入了一種非參數化的語義解析方法,從訓練集中檢索其他類似的NL查詢及其邏輯形式。然后,一個神經編碼器-解碼器模型以檢索到的案例為條件,得出給定查詢的邏輯形式(31)。我們表明,我們提出的方法對復雜的組合性問題非常有效,這些問題需要在訓練過程中沒有看到的新的KB關系組合,從而在多個KBQA數據集(192;164;77)中獲得最先進的結果。
上述方法讓人想起幾十年前經典人工智能中提出的非參數框架--基于案例的推理(147;84)。一個CBR系統(1)的簡圖包括:(i)一個檢索模塊,其中檢索與給定問題相似的 "案例",(ii)一個重用模塊,其中重新使用檢索到的案例的解決方案來合成一個新的解決方案。通常情況下,新的解決方案不起作用,需要更多的修改,這由(iii)修改模塊來處理。最近,在質量保證方面有很多工作,從非參數存儲器中檢索相關證據(59;94;75)。另一項工作(96)是從文件中預先生成一個大的問題集。回答一個問題可以歸結為在生成的列表中找到最相似的問題解析(使用KNN搜索)并返回相應的答案。
相比之下,我們的CBR方法是從訓練數據(或KG)中檢索與給定查詢有關聯的查詢(或一個實體)。檢索到的查詢不需要是轉述,但應該有關系上的相似性(例如,對于 "哪些國家與美國接壤?"的查詢,一個最近的鄰居問題可能是 "哪些國家與印度接壤?") 接下來,它找到解釋解決所檢索查詢的推理模式(KG路徑或子圖)。最后,檢索到的推理模式被用來推導出一個適用于給定查詢的推理模式。與(96)提出的方法相比,我們認為我們的方法(31)是一種更穩健的非參數推理方式,因為不能保證所有問題都能從文檔中預先生成。
然而,以前的工作(31)需要在訓練過程中對邏輯形式進行注釋,這對大規模的注釋來說是非常昂貴的。此外,一個模式的注釋并不能推廣到不同的模式。我們假設在一個大的知識庫中,回答一個查詢類型所需的推理模式在它們各自的子圖鄰域中的各種實體中重復出現(29)。利用不同子圖的局部鄰域之間的這種結構相似性,我們引入了一個半參數模型,包括:(i)一個非參數組件,對于每個查詢,動態地檢索其他類似的k-近鄰(KNN)訓練查詢以及查詢特定的子圖;(ii)一個參數組件,它被訓練來識別來自KNN查詢子圖的(潛在)推理模式,然后將其應用于目標查詢的子圖。我們還提出了一種新的算法,從大規模知識圖譜(KG)中選擇一個特定于查詢的緊湊子圖,使我們能夠擴展到包含數十億條邊的完整Freebase KG。
最后,本論文探討了非參數模型的另一個有用屬性。當QA模型對一個查詢輸出錯誤的預測時,非參數模型給我們提供了一個機會,通過向KNN索引注入相關案例來 "修復 "錯誤的預測。另一個選擇是在失敗的輸入上訓練模型,但我們發現,除非在失敗的例子上進行仔細的微調,否則模型經常表現出災難性的遺忘。相反,我們表明,在向KNN索引添加一些簡單的案例(查詢,邏輯形式對)時,我們的模型能夠檢索到新添加的案例,并使用它來推導出正確的邏輯形式,本質上修復了錯誤的預測。我們利用這一特性來證明,一個質量保證模型可以被用來回答那些需要關系的查詢,而該模型從未被訓練過,這為實現實用的生產準備模型鋪平了道路。
歸納推理是一種邏輯推理的形式,它使用觀察結果來合成一般原則,而這些原則又被用來對未觀察到的事物進行預測(72)。大多數機器學習(ML)方法都可以說是屬于這一類推理,其中學習的參數編碼了這些一般原則,對未觀察到的數據的預測涉及模型參數與輸入特征的加權組合。ML方法(尤其是深度神經網絡)在泛化精度上有了很大的提高,然而,要理解模型參數中所捕捉到的基本泛化原則變得越來越困難。
相反,演繹推理從一組前提(如一組規則)開始,然后根據這些規則得出新的結論。任何通過演繹得出的新結論都可以通過遵循推導過程中使用的推理步驟來清晰地理解。然而,在大多數實際案例中,完整的規則/前提集是未知的。
本論文中提出的大多數工作都結合了歸納推理和演繹推理的優點。例如,MINERVA(第2章)從數據中誘導出通用角條款并將其存儲在其參數中,但是在推理過程中,它不是直接輸出一個答案實體,而是通過遵循學到的推理規則遍歷KG。同樣地,CBR(第3章)從KB中針對一個給定的查詢實體,從其他類似的實體中飛快地誘導出象征性的加權角條款,最終的答案是通過這些規則的演繹而得到的。在CBR-KBQA(第四章)中,一個神經網絡學習從類似查詢的注釋規則中復制相關關系。然后,神經網絡輸出查詢的邏輯形式(歸納法),然后針對KB執行(演繹法)。因為有了歸納和演繹的成分,論文中的模型享有很高的準確性和可解釋性。
我還想指出,本論文中提出的工作也不同于Peirce的歸納推理(63),其目的是找到最可能解釋觀察的規則。相反,本論文中的所有工作都推導出多種推理規則,并利用這些規則推導出結論。
表1.1: 本論文中提出的方法在學習的規則結構方面的分類,它們被儲存在哪里,以及這些規則如何被模型執行。
表1.1對本文介紹的方法進行了分類,包括所學規則的結構、存儲位置以及規則的執行方式。在MINERVA和CBR中,學到的規則是一連串的KB關系或代表角句的關系鏈。在CBR-KBQA中,規則采取任意子圖的形式(表示為SPARQL查詢),而在CBR-SUBG中,規則是(潛在的)子圖模式,在多個近鄰查詢的子圖中重復。在MINERVA中,規則被編碼在策略網絡的參數中。在CBR中,對于一個給定的查詢實體和關系,規則是從其他類似的實體中即時衍生出來的。這些規則是符號化的,存儲在表格中。在PRCBR(28)中,每個規則都與所有可能的KB查詢關系的標量分數有關。在CBR-KBQA和CBR-SUBG中,規則是根據上下文檢索的。例如,對于CBR-KBQA,每個檢索到的問題都與一個注釋的SPARQL查詢配對,對于CBR-SUBG,每個檢索到的查詢子圖都包含潛在的推理子圖。CBR-KBQA和CBR-SUBG的參數組件學習從上下文中存在的規則中識別所需的關系集,并輸出一個邏輯形式(對于CBR-KBQA)或一個答案實體節點(對于CBR-SUBG)。最后,對于MINERVA和CBR來說,規則是通過遵循誘導規則遍歷KG來執行的(推理)。在CBR-KBQA中,學到的規則可以用SPARQL解釋器針對KB執行。最后,在CBR-SUBG中,節點表示是通過消息傳遞形成的,它(希望)在回答節點的表示中編碼推理子圖。然后,查詢子圖中的答案節點通過對檢索到的KNN問題的已知答案節點進行相似性搜索來確定。
本論文建議文件組織如下。
第二章,介紹了我們提出的模型(MINERVA),該模型參數中的邏輯與知識解耦。我們將演示MINERVA如何在KG上行走,以找到一個給定查詢的答案。
第三章,我們描述了我們的非參數推理方法來完成知識庫,并在一個具有挑戰性的開放世界的知識圖譜完成環境中證明了其功效。
第四章將我們的非參數方法擴展到自然語言中復雜的組合查詢。利用我們模型的非參數屬性,我們表明有可能 "修復 "深度QA模型的錯誤預測,而不需要重新訓練它們。
第五章,描述了我們的解決方案,即對需要復雜子圖推理模式的問題進行KBQA,而不需要在訓練中注釋邏輯形式。我們表明,我們提出的模型(CBR-SUBG)可以回答需要復雜推理模式的問題,即使它在訓練期間只看到少數問題類型的例子;可以泛化到包含全新實體的圖,并令人信服地超過基于路徑的模型。我們還表明,模型的性能,以真正的非參數方式,隨著更多證據(類似問題)的檢索而增加。
知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.
引言
知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .
為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.
盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.
本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.
1 符號定義
知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).
2. 使用事實進行知識圖譜嵌入
本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).
2.1 基于距離的模型
基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.
基于距離的模型總結
2.2 語義匹配模型
語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.
語義匹配模型總結
2.3 最新的知識圖譜嵌入模型
大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.
最新的知識圖譜嵌入模型總結
第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.
3 動態知識圖譜嵌入
當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.
4 融合多源信息的知識圖譜嵌入
多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.
5 知識圖譜嵌入的應用
近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.
5.1 基于知識圖譜嵌入的問答
隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.
值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。
5.2 推薦系統
在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.
5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.
受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.
6 挑戰與展望
目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.
6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.
知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.
多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.
多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.
One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.
6.1.2 知識應用的復雜性
KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.
6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.
6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.
6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.
7 總結
知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.
會話代理面臨的一個挑戰是,它們無法識別用戶命令的未聲明的假設,這對于人類來說是一項微不足道的任務,因為它們具有常識。為了實現這一目標,本文提出了一個面向會話代理的零樣本常識推理系統。我們的推理器從滿足if-(狀態),then-(動作),because-(目標)的一般模板的用戶命令中發現未聲明的假設。我們的推理器使用最先進的基于transformer的生成常識知識庫(KB)作為其推理背景知識的來源。我們提出了一種新穎的迭代知識查詢機制,利用符號邏輯規則從神經知識庫中提取多跳推理鏈,大大減少了搜索空間。與迄今為止收集到的任何KBs類似,我們的常識知識庫很容易丟失知識。因此,我們提出了一種新的動態問題生成策略,以對話方式從人類用戶中引出缺失的知識,該策略為人類用戶生成并呈現上下文化的查詢。我們通過用戶研究來評估該模型,與SOTA相比,該模型的成功率提高了35%。
VLDB會議全稱International Conference on Very Large Date Bases,是數據庫領域的頂級學術會議和另外兩大數據庫會議SIGMOD、ICD共同構成了數據庫領域的三大頂級會議。本教程講述知識圖譜相關主題。
通用知識庫(KBs)是一些數據驅動應用的重要組件。從可用的網絡資源實際構建的這些KBs遠未完成,這在管理和使用方面提出了一系列挑戰。在本教程中,我們將討論如何表示、提取和推斷DBs和KBs中的完整性、召回和否定。我們首先介紹了部分封閉世界語義下知識表示和查詢的邏輯基礎。(ii)我們展示了如何在KBs和文本中識別召回信息,以及(iii)如何通過統計模式估計召回信息。(iv)我們展示了如何識別有趣的否定陳述,以及(v)如何在比較概念中定位召回。
像Wikidata[32]、DBpedia[2]或Yago[30]這樣的網絡規模知識庫(KBs)被用于從問答到個人助理的各種應用中。它們從網絡資源中構建而成,專注于代表積極的知識,即真實的陳述。它們不存儲否定語句。它們也是不完整的,也就是說,它們不包含感興趣領域的所有真實陳述。這意味著,如果一條語句不在知識庫中,我們就不知道它在現實世界中是假的,還是只是不存在。
這給KBs的管理和應用帶來了重大挑戰: 首先,知識庫管理人員可能想知道知識庫在哪里不完整,以便他們可以優先完成工作。這尤其適用于像NELL[4]這樣的KBs,他們想要自動補全。其次,KB應用程序需要知道哪里的數據是不完整的,以便向最終用戶發出質量問題的提示。例如,如果KB中恰好沒有東京,那么查詢“日本最大的城市”可能返回錯誤的答案。類似地,在企業設置中用于問答的知識庫需要知道某個問題何時超出了它的知識[22]。這尤其適用于布爾問題,如“空客制造了這架飛機嗎”,在這種情況下,“不”可能僅僅來自丟失的信息。最后,對于總結關于一個實體的顯著信息的要求,一個全面的回答還應該包含不適用的顯著事實。
傳統上,知識庫的構建和保存主要集中在出處和準確性方面[23,33]。然而,近年來,描述回憶和負面知識的形式主義日趨成熟[1,5,18],估計召回的統計和基于文本的方法也在興起[3,7,12 - 14,17,24,29]和推導負面陳述[1,13]。將這些方法系統化,并使它們能夠被普通數據庫用戶訪問,是本教程的主題。本教程對理論和實踐都有興趣。它將向聽眾介紹完整性評估和否定方面的最新進展,并向他們提供一整套方法,以便更好地代表和評估特定數據集的召回。
知識圖譜補全是一類重要的問題。近年來基于圖神經網絡的知識圖譜表示得到了很多關注。這邊綜述論文總結了圖神經網絡知識圖譜補全的工作,值得查看!
摘要:知識圖譜在諸如回答問題和信息檢索等各種下游任務中越來越流行。然而,知識圖譜往往不完備,從而導致性能不佳。因此,人們對知識庫補全的任務很感興趣。最近,圖神經網絡被用來捕獲固有地存儲在這些知識圖譜中的結構信息,并被證明可以跨各種數據集實現SOTA性能。在這次綜述中,我們了解所提出的方法的各種優勢和弱點,并試圖在這一領域發現新的令人興奮的研究問題,需要進一步的調研。
知識庫是以關系三元組形式的事實信息的集合。每個關系三元組可以表示為(e1,r,e2),其中e1和e2是知識庫中的實體,r是e1和e2之間的關系。最受歡迎的知識庫表示方式是多關系圖,每個三元組(r e1, e2)是表示為有向邊從e1, e2與標簽r。知識圖譜被用于各種下游任務。
然而,由于知識庫是從文本中自動挖掘來填充的,它們通常是不完整的,因為不可能手動編寫所有事實,而且在提取過程中經常會出現不準確的情況。這種不準確性會導致各種下游任務的性能下降。因此,大量工作開發一種有效的工具來完成知識庫(KBs)方面,它可以在不需要額外知識的情況下自動添加新的事實。這個任務被稱為知識庫補全(或鏈接預測),其目標是解決諸如(e1,r,?)這樣的查詢。
第一種實現高效知識庫補全的方法是像TransE (Bordes et al.(2013))和TransH (Wang et al.(2014))這樣的加法模型,其中關系被解釋為隱藏實體表示的簡單翻譯。然后觀察到,諸如Distmult (Yang et al.(2015))和Complex (Trouillon et al.(2016))等乘法模型優于這些簡單的相加模型。與平移不同,旋轉(Sun等人(2019a))將關系定義為簡單的旋轉,這樣頭部實體就可以在復雜的嵌入空間中旋轉來匹配尾部實體,這已經被證明滿足了很多有用的語義屬性,比如關系的組合性。最近,引入了表達性更強的基于神經網絡的方法(如ConvE (Dettmers等人(2018))和ConvKB(Nguyen等人(2018)),其中評分函數與模型一起學習。然而,所有這些模型都獨立地處理每個三元組。因此,這些方法不能捕獲語義豐富的鄰域,從而產生低質量的嵌入。
圖已被廣泛用于可視化真實世界的數據。在將ML技術應用于圖像和文本方面已經取得了巨大進展,其中一些已成功應用于圖形(如Kipf和Welling(2017)、Hamilton等人(2017)、Velickovic等人(2018)。基于該方法的啟發,許多基于圖神經網絡的方法被提出用于KBC任務中獲取知識圖的鄰域。在這次調查中,我們的目的是研究這些工作。