亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

知識庫上的問答(QA)提供了一種用戶友好的方式來訪問存儲在知識庫中的大量信息。由于最近在深度神經模型的表征學習方面取得的進展,我們在QA系統的性能上取得了巨大的進步。然而,這種深度模型作為黑盒的功能,具有不透明的推理過程,很脆弱,并且提供非常有限的控制(例如,用于調試錯誤的模型預測)。目前還不清楚如何可靠地添加或更新存儲在其模型參數中的知識。

本論文提出了用于回題的非參數模型,該模型將邏輯與知識分離開來。對于一個給定的查詢,所提出的模型能夠從訓練集中的其他上下文相似的查詢中 "即時"得出可解釋的推理模式。我們表明,我們的模型可以無縫地處理新的知識(新的實體和關系),因為它們被不斷地添加到知識庫中。我們的模型對需要子圖推理模式的復雜和組合性自然語言查詢是有效的,甚至在推理模式(邏輯形式)的注釋不可用時也能工作,在多個基準上取得了新的最先進的結果。利用我們的非參數化方法,我們還證明有可能糾正深度QA模型的錯誤預測,而不需要重新訓練,從而為建立更加可控和可調試的QA系統鋪平道路。最后,與深度參數模型相比,本論文證明了非參數推理模型(i)可以更好地概括需要復雜推理的問題,特別是在訓練期間看到的問題數量有限的情況下(ii)可以在新數據增加時更有效地推理,(iii)為其預測提供更多的可解釋性,(iv)更可控和可調試

第一章 引言

自動推理,即計算系統從觀察到的證據中做出新推論的能力,一直是人工智能的一個長期目標。我們對具有豐富多樣語義類型的大型知識庫(KBs)的自動推理感興趣(157;7;14)。無論是自動還是手動構建的知識庫,往往都是不完整的。然而,許多有效的未觀察到的事實可以通過推理從觀察到的KB事實中推斷出來。存儲在知識庫中的大部分信息都是形式為(e1,r, e2)的符號事實,其中e1, e2表示實體,r表示語義關系。因此,知識庫可以被自然地描述為一個圖,其中實體是節點,關系是標記的邊。

訪問存儲在知識庫中的信息的一個有效和用戶友好的方法是向它發出查詢。這種查詢可以是結構化的(如預訂航班的查詢)或非結構化的(如自然語言查詢)。在知識庫上的問答(QA)系統面臨的一個挑戰是處理那些答案沒有直接存儲在知識庫中(作為一個簡單的事實)的查詢,相反,QA模型需要推理,以便從其他觀察到的事實中得出答案。這篇論文的重點是在結構化的KB上建立能夠進行這種推理的QA系統。

由于最近深度神經模型在表征學習方面的進展,我們在QA和KB完成系統的性能方面取得了巨大的進步。然而,這樣的深度模型也有很多實際的不足之處。比如說:

  • 目前的質量保證和知識庫完成模型通常是黑盒式的評分函數,學習實體和關系的固定詞匯的向量表示(9;155;162;55)。模型的參數同時存儲了邏輯和知識,使得模型所使用的底層推理過程不透明,也不清楚。

  • 可以向質量保證系統提出的問題類型基本上是沒有限制的,因此,模型必須學習并存儲在其參數中的推理模式類型是巨大的。此外,在訓練過程中,一個模型可能只遇到每種問題類型的幾個訓練實例。我們表明,KBQA的參數化模型在這樣的環境中很困難(29)。

  • 我們生活在一個不斷發展的世界中,有很多異質性,同時新的實體和關系也在不斷被創造。例如,描述新實體事實的科學論文和維基百科頁面被不斷添加。這些新的發現進一步引發了更多新的事實的推論,每一個事實都有其不同的推理。由于固定的預定義詞匯,目前的知識庫完成模型不能處理新增加的實體和關系,也不能對新數據進行推理。

  • 隨著我們觀察到新證據(數據),人類的推理過程變得更加細微,即新的推理規則出現,現有的推理規則隨著新數據的加入而演變。目前還不清楚如何穩健地更新深度神經模型的參數來編碼更新的(和新的推理規則)。正如我們在論文后面所顯示的,模型在對新到的數據進行訓練時,往往會出現災難性的遺忘,即模型已經忘記了它之前所學的東西(28;31)。

  • 最后,當模型對一個給定的問題輸出錯誤的預測時,它們為我們提供的見解和對錯誤預測的調試控制非常有限(31)。我們表明,非參數模型讓我們有新的機會來修復錯誤的模型預測,讓我們向KNN記憶 "注入 "案例,使模型更有可解釋性和可控性。

1.1 期望

我們希望為大型知識庫的問答設計準確的模型,并具有以下理想的特性:

  • 適用于新加入的數據。我們需要能夠與動態世界無縫推理的模型。這意味著模型應該能夠處理新的實體和關系,以及隨著新數據的加入而出現的新的(潛在的)推理規則。

  • 準確地回答需要復雜推理模式的各種自然語言查詢。知識庫的自然語言界面為存儲在其中的信息提供了一種用戶友好的訪問方式。自然語言查詢還允許我們提出更復雜的問題,這些問題很難用單一的知識庫關系來表達。此外,看似簡單的問題可能需要涉及KB中多個事實的復雜推理(例如,居里家族的成員獲得了多少諾貝爾獎?) 回答許多這樣的問題所需要的推理模式是子圖的形狀,而且往往比簡單的推理鏈更復雜。我們需要能夠對復雜的(潛在的)子圖圖譜進行所需的推理的模型,以準確回答此類問題。

  • 具有可控性和可調試性的可解釋推理過程。目前的QA和KB完成模型作為黑盒的功能,對其推理過程提供了有限的見解。此外,當它們對一個查詢輸出錯誤的預測時,除了在失敗的輸入上重新訓練模型外,我們沒有什么可以做的。我們需要的模型不僅在如何得出查詢的答案方面提供更多的透明度,而且是可控制和可調試的,對如何修復錯誤的模型預測提供更好的洞察力。

1.2 已完成的工作總結

本論文提出建立模型,將邏輯與存儲在模型參數中的數據分離開來。所建議的模型不是記憶數據并將其存儲在參數中,而是學習如何瀏覽知識圖譜來回答一個給定的查詢。我們提出的解決方案MINERVA(26),將知識圖譜(KG)視為強化學習(RL)框架中的一個環境。從對應于查詢實體的節點開始,MINERVA通過從所有邊的集合(行動空間)中選擇一條出站邊來遍歷知識圖譜。這樣重復進行,直到代理決定在它認為是答案的節點上停止。在訓練過程中,如果終端節點是給定查詢的答案,環境就會給予積極的獎勵。應該強調的是,MINERVA不是記憶KG,而是學習如何為給定的查詢進行導航。這使得MINERVA能夠泛化到包含未見過的實體的圖的新部分。此外,所穿越的關系邊的序列也為模型所采用的推理過程提供了可解釋性。然而,瀏覽KG的邏輯,即下一步選擇哪條關系邊緣,完全是由模型的參數來編碼的。這意味著MINERVA將無法適應添加到KG中的新關系,因為沒有經過訓練的參數來適應它們。另外,隨著新信息的加入,現有的規則會不斷演變,新的推理規則也會出現。隨著新數據的加入,MINERVA將無法使用新的(或進化的)規則進行推理(無需重新訓練)。

為了能夠對動態世界進行推理,我們提出了能夠進行非參數和背景推理的模型(27)。給定一個關于新實體的查詢,我們的模型在我們觀察到查詢關系的KG中找到其他上下文相似的實體。接下來,我們收集多個推理路徑,將檢索到的實體與使用查詢關系的實體相連接。最后,這些推理路徑會在查詢實體周圍的子圖中被遍歷,從而得出答案。這種非參數化的方法使我們能夠與新到達的數據進行無縫推理。回答一個新增加的實體的查詢所需的推理模式可以從知識庫中的現有實體中導出。同樣地,任何新增加的數據都可以被納入,以完善對現有實體的查詢的預測。(27)中提出的算法對從上下文實體中收集的所有路徑進行了平等處理。然而,并不是所有的路徑對推理都同樣重要。事實上,經常存在一些 "虛假 "的路徑,它們將問題實體與答案實體連接起來,但并不是有效的推理鏈。為了處理這種情況,我們提出了一種概率方法,用先驗分和精確分來衡量每條推理路徑(28)。我們證明了我們簡單的基于CBR的方法不僅在各種知識庫完成基準上取得了最先進的性能(168;187),而且在一個具有挑戰性的開放世界知識庫完成設置中,以很大的幅度超過了SOTA模型,在這個世界中,新的實體和事實正在不斷地被添加。

本論文到目前為止所描述的工作,接受結構化查詢(e1,r,?)作為輸入。如前所述,知識庫的自然語言界面為用戶提供了對知識庫中存儲信息的友好訪問。自然語言(NL)查詢也允許我們提出難以用單一KB關系表達的問題。為了處理復雜的NL查詢,我們引入了一種非參數化的語義解析方法,從訓練集中檢索其他類似的NL查詢及其邏輯形式。然后,一個神經編碼器-解碼器模型以檢索到的案例為條件,得出給定查詢的邏輯形式(31)。我們表明,我們提出的方法對復雜的組合性問題非常有效,這些問題需要在訓練過程中沒有看到的新的KB關系組合,從而在多個KBQA數據集(192;164;77)中獲得最先進的結果。

上述方法讓人想起幾十年前經典人工智能中提出的非參數框架--基于案例的推理(147;84)。一個CBR系統(1)的簡圖包括:(i)一個檢索模塊,其中檢索與給定問題相似的 "案例",(ii)一個重用模塊,其中重新使用檢索到的案例的解決方案來合成一個新的解決方案。通常情況下,新的解決方案不起作用,需要更多的修改,這由(iii)修改模塊來處理。最近,在質量保證方面有很多工作,從非參數存儲器中檢索相關證據(59;94;75)。另一項工作(96)是從文件中預先生成一個大的問題集。回答一個問題可以歸結為在生成的列表中找到最相似的問題解析(使用KNN搜索)并返回相應的答案。

相比之下,我們的CBR方法是從訓練數據(或KG)中檢索與給定查詢有關聯的查詢(或一個實體)。檢索到的查詢不需要是轉述,但應該有關系上的相似性(例如,對于 "哪些國家與美國接壤?"的查詢,一個最近的鄰居問題可能是 "哪些國家與印度接壤?") 接下來,它找到解釋解決所檢索查詢的推理模式(KG路徑或子圖)。最后,檢索到的推理模式被用來推導出一個適用于給定查詢的推理模式。與(96)提出的方法相比,我們認為我們的方法(31)是一種更穩健的非參數推理方式,因為不能保證所有問題都能從文檔中預先生成。

然而,以前的工作(31)需要在訓練過程中對邏輯形式進行注釋,這對大規模的注釋來說是非常昂貴的。此外,一個模式的注釋并不能推廣到不同的模式。我們假設在一個大的知識庫中,回答一個查詢類型所需的推理模式在它們各自的子圖鄰域中的各種實體中重復出現(29)。利用不同子圖的局部鄰域之間的這種結構相似性,我們引入了一個半參數模型,包括:(i)一個非參數組件,對于每個查詢,動態地檢索其他類似的k-近鄰(KNN)訓練查詢以及查詢特定的子圖;(ii)一個參數組件,它被訓練來識別來自KNN查詢子圖的(潛在)推理模式,然后將其應用于目標查詢的子圖。我們還提出了一種新的算法,從大規模知識圖譜(KG)中選擇一個特定于查詢的緊湊子圖,使我們能夠擴展到包含數十億條邊的完整Freebase KG。

最后,本論文探討了非參數模型的另一個有用屬性。當QA模型對一個查詢輸出錯誤的預測時,非參數模型給我們提供了一個機會,通過向KNN索引注入相關案例來 "修復 "錯誤的預測。另一個選擇是在失敗的輸入上訓練模型,但我們發現,除非在失敗的例子上進行仔細的微調,否則模型經常表現出災難性的遺忘。相反,我們表明,在向KNN索引添加一些簡單的案例(查詢,邏輯形式對)時,我們的模型能夠檢索到新添加的案例,并使用它來推導出正確的邏輯形式,本質上修復了錯誤的預測。我們利用這一特性來證明,一個質量保證模型可以被用來回答那些需要關系的查詢,而該模型從未被訓練過,這為實現實用的生產準備模型鋪平了道路。

1.3 本文背景下的推理

歸納推理是一種邏輯推理的形式,它使用觀察結果來合成一般原則,而這些原則又被用來對未觀察到的事物進行預測(72)。大多數機器學習(ML)方法都可以說是屬于這一類推理,其中學習的參數編碼了這些一般原則,對未觀察到的數據的預測涉及模型參數與輸入特征的加權組合。ML方法(尤其是深度神經網絡)在泛化精度上有了很大的提高,然而,要理解模型參數中所捕捉到的基本泛化原則變得越來越困難。

相反,演繹推理從一組前提(如一組規則)開始,然后根據這些規則得出新的結論。任何通過演繹得出的新結論都可以通過遵循推導過程中使用的推理步驟來清晰地理解。然而,在大多數實際案例中,完整的規則/前提集是未知的。

本論文中提出的大多數工作都結合了歸納推理和演繹推理的優點。例如,MINERVA(第2章)從數據中誘導出通用角條款并將其存儲在其參數中,但是在推理過程中,它不是直接輸出一個答案實體,而是通過遵循學到的推理規則遍歷KG。同樣地,CBR(第3章)從KB中針對一個給定的查詢實體,從其他類似的實體中飛快地誘導出象征性的加權角條款,最終的答案是通過這些規則的演繹而得到的。在CBR-KBQA(第四章)中,一個神經網絡學習從類似查詢的注釋規則中復制相關關系。然后,神經網絡輸出查詢的邏輯形式(歸納法),然后針對KB執行(演繹法)。因為有了歸納和演繹的成分,論文中的模型享有很高的準確性和可解釋性。

我還想指出,本論文中提出的工作也不同于Peirce的歸納推理(63),其目的是找到最可能解釋觀察的規則。相反,本論文中的所有工作都推導出多種推理規則,并利用這些規則推導出結論。

表1.1: 本論文中提出的方法在學習的規則結構方面的分類,它們被儲存在哪里,以及這些規則如何被模型執行。

表1.1對本文介紹的方法進行了分類,包括所學規則的結構、存儲位置以及規則的執行方式。在MINERVA和CBR中,學到的規則是一連串的KB關系或代表角句的關系鏈。在CBR-KBQA中,規則采取任意子圖的形式(表示為SPARQL查詢),而在CBR-SUBG中,規則是(潛在的)子圖模式,在多個近鄰查詢的子圖中重復。在MINERVA中,規則被編碼在策略網絡的參數中。在CBR中,對于一個給定的查詢實體和關系,規則是從其他類似的實體中即時衍生出來的。這些規則是符號化的,存儲在表格中。在PRCBR(28)中,每個規則都與所有可能的KB查詢關系的標量分數有關。在CBR-KBQA和CBR-SUBG中,規則是根據上下文檢索的。例如,對于CBR-KBQA,每個檢索到的問題都與一個注釋的SPARQL查詢配對,對于CBR-SUBG,每個檢索到的查詢子圖都包含潛在的推理子圖。CBR-KBQA和CBR-SUBG的參數組件學習從上下文中存在的規則中識別所需的關系集,并輸出一個邏輯形式(對于CBR-KBQA)或一個答案實體節點(對于CBR-SUBG)。最后,對于MINERVA和CBR來說,規則是通過遵循誘導規則遍歷KG來執行的(推理)。在CBR-KBQA中,學到的規則可以用SPARQL解釋器針對KB執行。最后,在CBR-SUBG中,節點表示是通過消息傳遞形成的,它(希望)在回答節點的表示中編碼推理子圖。然后,查詢子圖中的答案節點通過對檢索到的KNN問題的已知答案節點進行相似性搜索來確定。

1.4 本文組織

本論文建議文件組織如下。

第二章,介紹了我們提出的模型(MINERVA),該模型參數中的邏輯與知識解耦。我們將演示MINERVA如何在KG上行走,以找到一個給定查詢的答案。

第三章,我們描述了我們的非參數推理方法來完成知識庫,并在一個具有挑戰性的開放世界的知識圖譜完成環境中證明了其功效。

第四章將我們的非參數方法擴展到自然語言中復雜的組合查詢。利用我們模型的非參數屬性,我們表明有可能 "修復 "深度QA模型的錯誤預測,而不需要重新訓練它們。

第五章,描述了我們的解決方案,即對需要復雜子圖推理模式的問題進行KBQA,而不需要在訓練中注釋邏輯形式。我們表明,我們提出的模型(CBR-SUBG)可以回答需要復雜推理模式的問題,即使它在訓練期間只看到少數問題類型的例子;可以泛化到包含全新實體的圖,并令人信服地超過基于路徑的模型。我們還表明,模型的性能,以真正的非參數方式,隨著更多證據(類似問題)的檢索而增加。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

視覺感知和語言理解是人類智能的基本組成部分,使他們能夠理解和推理物體及其相互作用。對于機器來說,使用這兩種模式來創造新的機器人-人類協作系統的推理能力是至關重要的。深度學習的最新進展已經建立了視覺場景和語言的獨立復雜表示。然而,在共享的上下文中理解兩種模態之間的關聯以進行多模態推理仍然是一個挑戰。本文以語言和視覺模態為重點,推進了對如何利用神經網絡開發和使用視覺-語言任務的關鍵方面來支持推理的理解。這些貢獻包括:(i)從動態視覺場景中選擇內容和構建時間關系以響應語言查詢的有效機制,并為推理過程準備足夠的知識(ii)利用視覺-語言關聯(直接從數據推導或由外部先驗引導)用神經網絡進行推理的新框架。 在第一項工作中,本文提出一種新的雙過程神經架構,類似于人類視頻問答(視頻QA)推理系統中的雙過程。它由一個快速和反應的問題引導視頻處理模塊(系統1)和一個緩慢和深思的通用推理模塊(系統2)組成。快速系統是一個層次模型,在給定問題的文本線索的情況下,編碼關于對象、動作和時空關系的視覺模式。編碼的表示是一組高級的視覺特征,然后傳遞給緩慢的、深思熟慮的系統。多步推理用于根據文本元素的需要迭代地鏈接視覺元素。該系統在主要的大規模視頻QA基準上進行了評估,顯示了有競爭力的結果,在多步驟推理的情況下有很大的優勢。

付費5元查看完整內容

幾個世紀以來,人類一直在收集數據和表征信息,但數字技術的出現,特別是萬維網的出現,導致了新的挑戰:穩步增長的各種數據需要以系統和有意義的方式進行整合管理。否則,只剩下質量不明的大量無關聯的數據。

為了實現信息的智能管理,我們需要以統一的方式表示數據。此外,我們需要表示限制條件,以定義哪些數據連接在某個用例中是有意義的或有效的,以表示手頭的信息。一個簡單但強大的方法是通過兩件事來表示信息:概念和概念之間的關系。這就形成了一個以概念為節點、以連接節點的關系為邊的圖結構,即所謂的知識圖譜。像這樣,我們可以表示 "作者"、"人 "和 "書 "這三個概念,以及 "寫 "或 "買 "這樣的關系。而作者 "安迪-威爾 "寫了《火星人》一書的信息是有意義的信息,《火星人》一書不能寫作者 "安迪-威爾"。然而,對于計算機來說,如果沒有限制條件來限制連接概念與關系的可能方式,這兩個例子都是有效的。

表達什么是在特定環境下有意義的或者什么是高質量的限制是主觀的,必須由人類來定義。在給定的例子中,限制可以是作者寫書,作者也是一個人。在這種情況下,這些限制是所謂的公理:說明根據模型什么是真的。這些限制可以被計算機用來推斷新的知識:根據安迪-威爾寫了《火星人》這本書的知識,可以推斷出他是一個作家和一個人。另一個限制可能是,只有人可以寫書,而且數據庫中的所有書都需要有作者。在這種情況下,這些限制是所謂的約束,用來識別無效的數據。這可以用于質量評估,以識別缺失的作者信息或錯誤的數據。

本論文主要研究人類對知識圖譜的創建和使用限制。當定義抽象的概念,如 "作者 "或 "書 "時,人們通常把它稱為詞匯表。它的術語可以通過公理來限制意義,那么這個詞匯就可以被稱為本體論。當連接知識圖譜中的具體數據時,如作者 "安迪-威爾 "和書 "火星人",人們使用這種詞匯表的術語將其稱為數據,例如 "安迪-威爾是一位作者 "和 "火星人是一本書"。在某種情況下,對這些數據有效的東西可能受到限制。為了用機器友好的方式表示所有這些,我們可以使用萬維網聯盟(W3C)推薦的以下語言:(i)資源描述框架(RDF)來表示術語,(ii)RDF Schema(RDFS)和網絡本體語言(OWL)來表示公理(iii)和形狀約束語言(SHACL)來表示約束。

第一個挑戰是支持用戶根據使用的限制條件來評估知識圖譜。在構建知識圖譜時,現有的詞匯表經常被重復使用,這使得一個系統中的信息在其他系統中也能被理解。這些詞匯表通常包含影響潛在重用的公理:一些公理在計算上更加復雜,人們可能希望在某個使用案例中避免重用包含這些公理的詞匯表。同樣地,人們可能要評估現有約束條件對通用詞匯的使用。但在這兩種情況下,目前對用戶比較和選擇所使用的限制條件的知識圖譜的支持有限。

第二個挑戰是如何支持用戶創建約束條件。通常情況下,領域專家最清楚他們要施加哪些限制,但他們不是知識圖譜專家,需要一種用戶友好的方式來創建知識圖譜限制。其他研究表明,表示如何以視覺方式表示某些概念的可視化符號可以支持用戶。目前,還沒有這樣的可視化符號來可視化知識圖譜的約束。

限制條件的使用是特定的,因此在本論文中,我們專注于數據管理的某個用例:支持國家圖書館對社會媒體的保存。一方面,在保存動態社交媒體內容時,需要考慮不同的異質數據源。然而,目前還沒有一個完整的社交媒體歸檔工作流程,可以有意義地結合不同的數據片段。另一方面,保存的內容需要被訪問和查詢,這對主觀的數據質量約束提出了挑戰。

為了解決第一個挑戰,我們提出了一種方法來衡量知識圖譜中限制條件的使用,并提出了收集到的原理和限制條件的統計數據。我們首先介紹了Montolo,這是一種定義抽象限制類型的方法,如 "subclass "和RDF中的具體表達,如rdfs:subClassOf。然后,我們介紹了一個在RDF中創建可互操作的限制使用統計的實現。我們通過測量(i)RDFS和OWL公理在來自通用LOV和特定領域的BioPortal資源庫的一千多個本體中的使用情況,以及(ii)來自確定的GitHub資源庫的SHACL形狀中的限制使用情況,來證明這種方法的可行性。

為了解決第二個挑戰,我們關注的是如何支持人類用視覺符號來創建約束,這些符號可以直觀地顯示SHACL中指定的所有約束。我們在計算機科學和知識圖譜領域現有的常用可視化符號的基礎上,提出了兩個可視化符號ShapeUML和ShapeVOWL。我們根據認知有效的設計原則對它們進行了比較,因為它們是要被人類用戶認知處理的,并在一個用戶比較研究中對這兩種符號進行了評估。

為了解決第三個挑戰,我們引入了一個基于知識圖譜的社交媒體歸檔解決方案和相應的質量評估與約束。我們的BESOCIAL解決方案是基于聲明式的知識圖譜生成:使用通用詞匯及其公理來有意義地整合異質的社會媒體歸檔相關數據。此外,我們提出了社交媒體檔案相關的數據質量類別、維度和指標,以及用知識圖譜約束的低級驗證來衡量相應的高級數據質量指標。我們遵循既定的方法,但與現有作品相比,我們的質量評估依賴于萬維網聯盟(W3C)的相關規范,而不是定制軟件。

本論文的貢獻為評估和處理知識圖譜的限制提供了可互操作的手段

Montolo使用戶能夠評估現有的知識圖譜在公理和約束方面的使用情況。關于公理,我們發現來自通用LOV和特定領域的BioPortal資源庫的詞匯顯示出類似的模式:95%以上使用基于RDFS的限制,但只有一半使用基于OWL的限制。創建的統計數據可以支持本體的重用:本體工程師現在可以依靠公理的使用統計數據來評估現有的本體。關于約束,我們發現了與公理使用類似的模式:概念之間的關系經常被限制在某些類別或數據類型中,而關于字面價值的約束則使用得較少。我們的統計數據揭示了一個可能的問題:一個自我實現的預言,即創建約束的工具只關注常用的約束類型,最終產生更多這樣的約束。因此,少用的約束類型應該得到更多的關注。

ShapeUML和ShapeVOWL的可視化符號獨立于特定的約束語言,并且是在考慮到認知有效性的情況下建立的。因此,人類可以利用他們的快速認知系統,而不必依賴特定的文本語法。我們的比較分析的定量部分顯示,用戶使用一種視覺符號或另一種視覺符號所犯的錯誤并沒有減少,而且兩種符號都有超過80%的問題被正確回答。因此,兩種可視化符號都有可能被用于不同的使用案例,我們的定性分析也指出了可能的改進。

我們的BESOCIAL社交媒體歸檔工作流程使文化遺產專家能夠使用聲明性的手段來保存社交媒體,因此無需他們編寫代碼。此外,我們還定義了與社交媒體收集相關的質量類別、維度和指標,可供社區重新使用。這個用例體現了使用公理和約束來實現數據管理,并在數據整合和數據質量方面提供附加價值。開發的數據質量評估也可以應用于其他用例,因為我們的解決方案只依賴于公開的W3C相關規范。

未來方向包括增加對約束條件的可視化符號的采用,以及創建知識圖譜限制的方法。

關于約束條件的創建,我們對兩種可視化符號與知識圖譜專家的比較評估所得到的結果,是向用戶友好型支持知識圖譜約束條件工作邁出的第一步。類似的研究可以與來自不同領域的專家一起進行,以改進可視化符號和實現符號的工具。后者可以通過調查不同的編輯工作流程來改進。此外,還可以研究如何用我們的可視化符號來表示SHACL以外的其他約束語言。一個有希望的候選語言是形狀表達語言(ShEx),它在從事維基數據工作的社區中引起了關注。

目前有幾種本體工程方法,但特別是隨著SHACL等約束語言的出現,出現了新的建模范式。在這篇論文中,我們將公理和約束同時應用于文化遺產的使用案例,未來的工作可以研究一種通用的方法來支持知識工程師創建知識圖譜。創建知識圖譜的方法論支持何時使用哪些公理,何時使用哪些約束。這使得與限制有關的設計決策透明化,從而最大限度地減少了關于使用公理和使用限制的主觀討論。

付費5元查看完整內容

題目

Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings,使用知識庫嵌入改進知識圖上的多跳問答

摘要

知識圖(KG)是由實體作為節點,實體之間的關系作為類型化邊組成的多關系圖。 KG問答(KGQA)任務的目的是回答對KG提出的自然語言查詢。 多跳KGQA要求在KG的多個邊緣進行推理,以得出正確的答案。 KG通常缺少許多鏈接,這給KGQA尤其是多跳KGQA帶來了額外的挑戰。 最近對多跳KGQA的研究已嘗試使用相關的外部文本來處理KG稀疏性,但這種方式并非一帆風順。 在另一項研究中,提出了KG嵌入方法,以通過執行丟失的鏈接預測來減少KG稀疏性。 此類KG嵌入方法盡管非常相關,但迄今為止尚未針對多跳KGQA進行探索。 我們在本文中填補了這一空白,并提出了EmbedKGQA。 EmbedKGQA在執行稀疏KG上的多跳KGQA方面特別有效(但是當知識圖譜不稀疏時,也應該能夠超過基線)。 EmbedKGQA還放寬了從預先指定的鄰域中選擇答案的要求,這是先前的多跳KGQA方法實施的次優約束。 通過在多個基準數據集上進行的廣泛實驗,我們證明了EmbedKGQA在其他最新基準上的有效性。

付費5元查看完整內容

知識圖譜補全的目的是預測知識圖譜中實體之間的缺失關系。雖然已經提出了許多不同的方法,但缺乏一個統一的框架產生SOTA的結果。在這里,我們開發了PathCon,這是一種知識圖譜補全方法,它利用四個新穎的見解來超越現有的方法。PathCon通過以下方法預測一對實體之間的關系: (1)通過捕獲實體附近的關系類型,并通過基于邊緣的消息傳遞模式建模,來考慮每個實體的關系上下文; (2)考慮獲取兩個實體之間所有路徑的關系路徑; (3)通過可學習的注意力機制,自適應地整合關系上下文和關系路徑。重要的是,與傳統的基于節點的表示不同,PathCon僅使用關系類型表示上下文和路徑,這使得它適用于歸納設置。在知識圖譜基準上的實驗結果以及我們新提出的數據集表明,PathCon在很大程度上優于最先進的知識圖譜補全方法。最后,PathCon能夠通過識別對給定的預測關系很重要的上下文和路徑關系來提供可解釋的說明。

付費5元查看完整內容
北京阿比特科技有限公司