亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

開放知識圖譜(KG)補全的任務是從已知事實中提取新的發現。現有的增強KG補全的工作需要:(1)事實三元組來擴大圖推理空間,或者(2)手動設計提示來從預訓練的語言模型(PLM)中提取知識,這種方式的性能有限,需要專家付出昂貴的努力。為此,我們提出了TAGREAL,它可以自動生成高質量的查詢提示,并從大型文本語料庫中檢索支持信息,以探測PLM中的知識進行KG補全。結果顯示,TAGREAL在兩個基準數據集上實現了最新的性能。我們發現,即使在訓練數據有限的情況下,TAGREAL的性能也非常出色,超過了現有的基于嵌入的、基于圖的和基于PLM的方法。

1. 引言

知識圖譜(KG)是一種異構圖,它以實體-關系-實體三元組的形式編碼事實信息,其中關系連接頭實體和尾實體(例如,“邁阿密位于-美國”)(Wang et al., 2017;Hogan et al., 2021)。KG(Dai et al., 2020)在許多NLP應用中起著核心作用,包括問答系統(Hao et al., 2017;Yasunaga et al., 2021)、推薦系統(Zhou et al., 2020)和藥物發現(Zitnik et al., 2018)。然而,現有的研究(Wang et al., 2018;Hamilton et al., 2018)顯示,大部分大規模KG都是不完整的,無法全面覆蓋龐大的現實世界知識。這個挑戰促使了KG補全,其目標是給定主題實體和關系,找出一個或多個對象實體(Lin et al., 2015)。例如,在圖1中,我們的目標是預測對象實體,其中“底特律”是主題實體,“包含于”是關系。

然而,現有的KG補全方法(Trouillon et al., 2016b;Das et al., 2018)存在幾個限制(Fu et al., 2019)。首先,他們的性能嚴重依賴于圖的密度。他們通常在具有豐富結構信息的密集圖上表現良好,但在更常見的稀疏圖上表現不佳。其次,以前的方法(例如,Bordes et al.(2013))假設一個封閉世界的KG,沒有考慮外部資源中的大量開放知識。實際上,在許多情況下,KG通常與豐富的文本語料庫(Bodenreider, 2004)相關聯,其中包含大量尚未提取的事實數據。為了克服這些挑戰,我們研究了開放知識圖譜補全的任務,其中KG可以使用來自KG外部的新事實進行構建。最近的文本富集解決方案(Fu et al., 2019)關注使用預定義的事實集來豐富知識圖譜。然而,預定義的事實集通常嘈雜且受限,也就是說,它們沒有提供足夠的信息來有效更新KG。

預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。

預訓練語言模型(PLMs)(Devlin et al., 2019; Liu et al., 2019a)已被證明在隱式從大量未標記文本中學習 factual knowledge 上非常強大(Petroni et al., 2019b)。由于 PLMs 在文本編碼方面非常出色,它們可以被用來利用外部文本信息幫助知識圖譜補全。最近的知識圖譜補全方法(Shin et al., 2020; Lv et al., 2022)側重于使用手工制作的提示(例如,在圖1中的“底特律位于[MASK]”)來查詢 PLMs 進行圖譜補全(例如,“密歇根州”)。然而,手動創建提示可能代價昂貴且質量有限(例如,對于手工制作的提示的查詢,PLM給出了錯誤的答案“加拿大”,如圖1所示)。

基于標準KG的上述限制和PLMs(Devlin et al., 2019;Liu et al., 2019a)的巨大能力,我們的目標是使用PLMs進行開放知識圖譜補全。我們提出了一個端到端的框架,共同利用PLMs中的隱含知識和語料庫中的文本信息來進行知識圖譜補全(如圖1所示)。與現有的工作不同(例如,(Fu et al., 2019;Lv et al., 2022)),我們的方法不需要手動預定義的事實和提示集,這使得它更具通用性,更易于適應實際應用。我們的貢獻可以總結為:

? 我們研究了可以通過從PLMs中捕捉到的事實進行輔助的開放KG補全問題。為此,我們提出了一個新的框架TAGREAL,它表示了用PLMs中的現實世界知識增強的開放KG補全。 ? 我們開發了提示生成和信息檢索方法,這使得TAGREAL能夠自動創建高質量的PLM知識探測提示,并搜索支持信息,特別是當PLMs缺乏某些領域知識時,這使得它更加實用。 ? 通過在Freebase等實際知識圖譜上的大量定量和定性實驗,我們展示了我們框架的適用性和優點。 2. 方法

我們提出了TAGREAL,一個基于PLM的框架來處理KG補全任務。與以前的工作相比,我們的框架不依賴手工制作的提示或預定義的相關事實。如圖2所示,我們自動創建合適的提示并搜索相關的支持信息,這些信息進一步被用作模板,以從PLMs中探索隱含的知識。

2.1 問題定義

知識圖譜補全的目的是在KG的現有三元組集合中添加新的三元組(事實)。為了實現這個目標,有兩個任務。第一個是三元組分類,這是一個二元分類任務,用于預測一個三元組(h, r, t)是否屬于KG,其中h, r, t分別表示頭實體、關系和尾實體。第二個任務是鏈接預測,其目標是預測查詢(h, r, ?)的尾實體t或者預測查詢(?, r, t)的頭實體h。

2.2 提示生成 Prompt Generation

之前的研究(例如,Jiang等人(2020))表明,從預訓練語言模型(PLMs)中提取關系知識的準確性,很大程度上依賴于用于查詢的提示的質量。為了達到這個目的,我們開發了一種全面的方法,只需要將知識圖譜中的三元組作為輸入,就可以自動生成高質量的提示,如圖3所示。我們使用文本模式挖掘方法從大型語料庫中挖掘出高質量的模式,作為用于從PLMs中探索知識的提示。據我們所知,我們是首次使用文本模式挖掘方法進行語言模型提示挖掘的研究者。我們認為這種方法具有以下應用性:

? 數據源相似。我們在大型語料庫(例如,維基百科)上應用模式挖掘,這些語料庫是大多數PLMs預訓練的數據源。 ?** 目標相似**。文本模式挖掘的目的是從大型語料庫中挖掘出模式以提取新信息;提示挖掘的目的是挖掘出提示以從PLMs中探測隱含的知識。 ? 性能標準相似。模式或提示的可靠性取決于它能從語料庫/PLMs中提取出多少準確的事實。

2.3 支持信息檢索 Support Information Retrieval

除了提示挖掘外,我們還將一些查詢相關和三元組相關的支持文本信息附加到提示中,以幫助PLMs理解我們想要探測的知識,以及幫助訓練三元組分類能力。如圖4所示,對于關系r中的第i個查詢q r i,我們使用BM25(Robertson等人,1995)從可靠的語料庫中檢索得分高于δ且長度小于?的高排名支持文本,并隨機選擇其中一個作為支持信息。為了組成輸入到PLM的填空q? r i,我們將支持文本連接到我們在前面步驟中通過優化得到的每個提示中,其中主體已填充,對象被掩蓋。[CLS]和[SEP]分別是用于序列分類和支持信息-提示分隔的標記。在訓練階段,我們使用三元組而不是查詢來搜索文本,而[MASK]將被對象實體填充。值得注意的是,支持文本在TAGREAL中是可選的,如果沒有找到匹配的數據,我們將其留空。

**2.4 訓練 **

為了訓練我們的模型,我們根據PKGC(Lv等人,2022)提出的思想,除了給定的正三元組外,我們還創建負三元組,以處理三元組分類任務。我們通過將每個正三元組中的頭部和尾部替換為KGE模型給出高概率的“錯誤”實體,來創建負三元組。我們還通過隨機替換頭部和尾部,創建隨機負樣本,以擴大負訓練/驗證三元組的集合。

**2.5 推理 **

給定一個查詢 (h, r, ?),我們應用與頭實體 h 和關系 r 相關的查詢相關的支持信息,因為我們假設我們不知道尾實體(我們的預測目標)。然后,我們制作包含 [MASK] 的相應查詢實例,既包含支持信息也包含提示集合,如圖4所示。為了在鏈接預測中利用 PLM 的三元組分類能力,我們用已知實體集中的每個實體替換查詢實例中的 [MASK],并按降序排列它們的分類分數,以創建一個一維向量,作為每個查詢的預測結果。這表明,向量中索引較低的實體更有可能與輸入查詢組成正三元組。對于提示集合,我們在排序之前按實體索引將分數相加。詳細的說明放在附錄E中。

3. 實驗

我們將我們的模型 TAGREAL 與四種方法進行比較。對于(1)傳統的知識圖譜嵌入方法,我們評估了 TransE (Bordes 等人,2013),DisMult (Yang 等人,2014),ComplEx (Trouillon 等人,2016a),ConvE (Dettmers 等人,2018),TuckER (Bala?evic′等人,2019) 和 RotatE (Sun 等人,2019),其中 TuckER 是新添加的模型。對于(2)聯合文本和圖嵌入方法,我們評估了 RCNet (Xu等人,2014),TransE+LINE (Fu 等人,2019) 和 JointNRE (Han等人,2018)。對于(3)基于強化學習 (RL) 的路徑查找方法,我們評估了 MINERVA (Das等人,2017) 和 CPL (Fu等人,2019)。對于(4)基于 PLM 的方法,我們評估了 PKGC (Lv等人,2022) 和我們的方法 TAGREAL。我們保留了 Fu等人2019報告的(2)和(3)的數據,同時重新評估所有的。

結果

我們在表1和表2中展示了與最先進方法的性能比較。正如人們可以觀察到的,TAGREAL在大多數情況下都超過了現有的工作。在給定密集的訓練數據的情況下,基于KGE的方法(例如,RotatE)和基于RL的方法(例如,CPL)仍然可以達到相對較高的性能。然而,當訓練數據有限時,這些方法遇到困難,而基于PLM的方法(PKGC和TAGREAL)受到的影響不大。在這種情況下,我們的方法明顯優于當前的非基于PLM的方法。這是因為KGE模型在數據不足的情況下無法有效地進行訓練,基于RL的路徑查找模型在KG中沒有足夠的證據和通用路徑時無法識別出潛在的模式。另一方面,PLM已經擁有可以直接使用的隱含信息,微調時數據不足的負面影響會比從零開始訓練要小得多。TAGREAL由于其能夠自動挖掘高質量提示和檢索支持信息的能力,而超過PKGC,與此相反的是,手動注釋通常是有限的。

4. 結論

在這項研究中,我們提出了一個新穎的框架,利用PLM中的隱含知識進行開放的KG補全。實驗結果顯示,我們的方法在訓練數據有限的情況下,表現優于現有的方法。我們證明了我們的方法優化的提示在PLM知識探測中優于手工制作的提示。支持信息檢索對于輔助提示的有效性也得到了證明。在未來,我們可能會利用QA模型的能力來檢索更可靠的支持信息。另一個潛在的擴展是通過探索路徑查找任務,使我們的模型更具可解釋性。

付費5元查看完整內容

相關內容

國際計算語言學年會(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)在世界范圍內每年召開一次,是自然語言處理領域的頂級會議,被中國計算機協會(CCF)評級為A類會議,今年是第61屆會議,將于2023年7月9-14日在加拿大多倫多召開。ACL 2023會議網址//2023.aclweb.org/

像GPT-3和PaLM這樣的語言模型(LMs)在自然語言處理(NLP)任務中表現出了令人印象深刻的能力。然而,僅僅依賴于他們的參數來編碼大量的世界知識需要過多的參數,因此需要大量的計算,而且他們經常難以學習長期的知識。此外,這些參數化的LMs在根本上無法隨著時間的推移進行適應,常常產生幻覺,并可能從訓練語料庫中泄露私人數據。為了克服這些限制,人們對基于檢索的LMs產生了越來越大的興趣,這些模型將非參數化的數據存儲(例如,來自外部語料庫的文本塊)與它們的參數化副本結合在一起。基于檢索的LMs可以以更少的參數大幅度超越沒有檢索的LMs,可以通過更換他們的檢索語料庫來更新他們的知識,并且為用戶提供引文以便于輕松驗證和評估預測。

在這個教程中,我們的目標是提供關于基于檢索的LMs最近進展的全面而連貫的概述。我們將首先提供基礎知識,涵蓋LMs和檢索系統的基礎。然后我們將關注基于檢索的LMs在架構,學習方法和應用方面的最近進展。

像GPT-3 (Brown等,2020) 和 PaLM (Chowdhery等,2022) 這樣的語言模型(LMs)在一系列自然語言處理(NLP)任務中展示出了令人印象深刻的能力。然而,僅依賴它們的參數來編碼世界知識需要過于龐大的參數數量,從而導致大量的計算,它們往往在學習長期知識方面存在困難(Roberts等,2020;Kandpal等,2022;Mallen等,2022)。此外,這些參數化的LMs從根本上無法隨時間的推移進行適應(De Cao等,2021;Lazaridou等,2021;Kasai等,2022),經常會產生幻覺(Shuster等,2021),并可能從訓練語料庫中泄漏私人數據(Carlini等,2021)。為了克服這些限制,人們對基于檢索的LMs(Guu等,2020;Khandelwal等,2020;Borgeaud等,2022;Zhong等,2022;Izacard等,2022b;Min等,2022)產生了越來越大的興趣,這些模型將非參數化的數據存儲(例如,來自外部語料庫的文本塊)與他們的參數化版本結合在一起。基于檢索的LMs可以以更少的參數大幅度超越沒有檢索的LMs(Mallen等,2022),可以通過替換檢索語料庫來更新他們的知識(Izacard等,2022b),并且為用戶提供引文以便于輕松驗證和評估預測(Menick等,2022;Bohnet等,2022)。過去,檢索和LMs大多被分開研究,只是最近研究者們才將他們集成起來,構建了在其中檢索和LMs更有機地互動的系統,由于興趣的增長,已經提出了一些基于檢索的LMs。他們在神經架構(例如,檢索單元的粒度,如何整合檢索到的信息)、學習算法和在下游應用中的不同使用等方面存在差異。在這個教程中,我們的目標是提供關于基于檢索的LMs最近進展的全面而連貫的概述。我們將首先提供基礎知識,涵蓋LMs(例如,掩碼LMs,自回歸LMs)和檢索系統(例如,廣泛用于神經檢索系統的最近鄰搜索方法;Karpukhin等,2020)的基礎。然后我們將關注基于檢索的LMs在架構,學習方法和應用方面的最近進展。

架構分類

我們根據各種維度介紹了基于檢索的LMs的架構分類。基于檢索的LMs可以按照在數據存儲中存儲的檢索單元的粒度進行分類:1) 一段文本(Borgeaud等,2022;Izacard等,2022b);2) 一個標記(Khandelwal等,2020;Zhong等,2022;Min等,2022);3) 一個實體提及(Févry等,2020;de Jong等,2022)。我們也計劃介紹用于優化數據存儲和改進相似性搜索的技術(He等,2021;Alon等,2022)。同時,基于檢索的LMs可以根據檢索到的信息如何與參數編碼器集成來進行分類:1) 是否將檢索到的組件與原始輸入文本連接起來(Lewis等,2020;Guu等,2020;Izacard等,2022b);2) 是否將檢索到的組件作為潛在的組件并集成到Transformers的中間層中(de Jong等,2022;Févry等,2020;Borgeaud等,2022);3) 是否將從檢索到的組件和LMs中分布的標記進行插值(Khandelwal等,2020;Zhong等,2022;Yogatama等,2021)。

可擴展的學習算法

接下來,我們討論基于檢索的LMs的訓練方法。由于檢索數據存儲通常非常大,如何有效且高效地訓練基于檢索的LMs仍然是一個挑戰。我們首先討論分步訓練方法,這種方法將檢索組件和LMs分開訓練,可以通過大規模預訓練(Izacard等,2022a)或多任務指令調整(Asai等,2022)來實現。其他一些工作用固定的檢索模塊訓練基于檢索的LMs(Borgeaud等,2022;Yogatama等,2021)。然后,我們討論在合理的資源需求下進行聯合訓練:可以通過對全數據存儲進行批處理近似,或者異步更新具有更新參數的數據存儲。前者在聯合訓練過程中使用精心設計的全文檔的一部分(Zhong等,2022;de Jong等,2022;Min等,2022)。另一方面,后者的目標是在訓練過程中使用全文檔,并每隔一定的時間步長異步更新索引(Izacard等,2022b;Guu等,2020)。

適應下游任務在討論了基于檢索的LMs的基本構建模塊后,我們展示了如何將基于檢索的LMs應用于下游應用。我們首先簡要總結了將模型適應新任務的兩種方法:零-shot或少-shot提示(Shi等,2022;Wang等,2022),以及在目標任務數據上進行微調(Lewis等,2020)。然后,我們討論了設計用于特定下游任務的更強大的基于檢索的LMs方法,如對話(Shuster等,2021),語義解析(Pasupat等,2021)和機器翻譯(Khandelwal等,2021;Zheng等,2021)。到目前為止,我們的教程主要關注的是檢索和整合英文普通文本。在最后,我們將介紹基于檢索的LMs在英文文本之外的最新擴展,包括多語言(Asai等,2021),多模態(Chen等,2022;Yasunaga等,2022)和代碼(Parvez等,2021)檢索。這些工作通常將稠密檢索模型擴展到可以在異構輸入空間之間進行檢索(例如,跨語言,跨模態),并且已經表明引用檢索的知識可以產生知識密集型生成。最后,我們將通過一個練習展示基于檢索的LMs的有效性。我們通過討論一些重要問題和未來方向來結束我們的教程,包括(1)如何在不犧牲性能的情況下進一步提高基于檢索的LMs的可擴展性,(2)在迅速發展的LMs時代,基于檢索的LMs在何時特別有用,以及(3)為了實現基于檢索的LMs在更多樣化的領域中的應用,我們需要什么。

付費5元查看完整內容

隨著人工智能研究領域的發展,知識圖譜(knowledge graphs, KGs)引起了學術界和工業界的廣泛關注。作為實體間語義關系的一種表示,知識圖譜在自然語言處理(natural language processing, NLP)中有著重要的意義,近年來得到了迅速的推廣和廣泛采用。鑒于這一領域的研究工作量不斷增加,自然語言處理研究界已經調研了幾種與KG相關的方法。然而,至今仍缺乏對既定主題進行分類和審查個別研究流成熟度的綜合研究。為了縮小這一差距,我們系統地分析了NLP中有關KGs的文獻中的507篇論文。我們的調研包括對任務、研究類型和貢獻的多方面。因此,我們提出了一個結構化的研究概況,提供了任務的分類,總結了我們的發現,并強調了未來工作的方向。

//www.zhuanzhi.ai/paper/d3a164b388877b723eec8789fd081c3d

知識的獲取和應用是自然語言固有的特性。人類使用語言作為交流事實、爭論決定或質疑信仰的手段。因此,計算語言學家早在20世紀50年代和60年代就開始研究如何將知識表示為語義網絡中概念之間的關系(Richens, 1956;Quillian, 1963;Collins和Quillian, 1969)。最近,知識圖譜(KGs)已成為一種以機器可讀的格式語義表示有關現實世界實體的知識的方法。它們起源于對語義網絡、領域特定本體以及鏈接數據的研究,因此并不是一個全新的概念(Hitzler, 2021)。盡管KG越來越受歡迎,但對于KG究竟是什么,適用于什么任務,人們仍然沒有一個普遍的理解。盡管之前的工作已經試圖定義kg (Pujara et al., 2013; Ehrlinger and W??, 2016; Paulheim, 2017; F?rber et al., 2018),該術語尚未被研究人員統一使用。大多數研究都隱含地采用了廣義的KGs定義,將其理解為“旨在積累和傳遞現實世界知識的數據圖,其節點代表感興趣的實體,其邊緣代表這些實體之間的關系”(Hogan等人,2022)。

自2012年谷歌的KG引入以來(Singhal, 2012), KG在學術界和產業界都吸引了大量的研究關注。特別是在自然語言處理(NLP)的研究中,使用KGs在過去5年里變得越來越流行,而且這一趨勢似乎正在加速。其基本范式是,結構化和非結構化知識的結合可以使各種NLP任務受益。例如,來自知識圖譜的結構化知識可以注入到語言模型中發現的上下文知識中,這可以提高下游任務的性能(Colon-Hernandez等人,2021)。此外,隨著知識庫的重要性日益增加,從非結構化文本中構建新知識庫的努力也在不斷擴大。

谷歌在2012年創造了知識圖譜這個術語,十年之后,學者們提出了大量新穎的方法。因此,重要的是收集見解,鞏固現有結果,并提供結構化的概述。然而,據我們所知,目前還沒有一項研究對自然語言處理領域中知識分子的整個研究格局進行了概述。為了縮小這一差距,我們進行了一項全面的調研,通過對已建立的主題進行分類,確定趨勢,并概述未來研究的領域,分析在該領域進行的所有研究。我們的三個主要貢獻如下:1. 我們系統地從507篇論文中提取信息,報告關于任務、研究類型和貢獻的見解。2. 本文提供了NLP中關于知識圖譜的文獻中的任務分類,如圖1所示。3.我們評估單個研究流的成熟度,確定趨勢,并強調未來工作的方向。本文綜述了NLP中知識圖譜的演變和目前的研究進展。盡管我們無法完全覆蓋該主題的所有相關論文,但我們的目標是提供一個具有代表性的概述,通過提供一個文獻起點,可以幫助NLP學者和實踐者。此外,多方面的分析可以指導研究界縮小現有差距,并找到如何將KGs與NLP結合的新方法。

KG研究綜述結果

**研究整體概況 (RQ1)**對于NLP中有關KGs的文獻,我們從研究數量作為研究興趣的指標開始分析。圖2說明了十年觀察期間的出版物分布情況。雖然第一批出版物出現在2013年,但年度出版物在2013年至2016年期間增長緩慢。從2017年起,出版物數量幾乎每年翻一番。由于這些年來研究興趣的顯著上升,所有納入的出版物中超過90%來自這五年。盡管增長趨勢似乎在2021年停止,但這可能是由于發生在2022年的第一周的數據導出,遺漏了2021年的許多研究,這些研究在2022年晚些時候被納入數據庫。盡管如此,圖2中的趨勢清楚地表明,KGs正受到NLP研究界越來越多的關注。如果考慮到507篇論文,會議論文(402篇)是期刊論文(105篇)的近4倍。

KG任務概況 (RQ2)

基于NLP中有關KGs的文獻中確定的任務,我們開發了如圖1所示的經驗分類法。這兩個頂級類別包括知識獲取和知識應用。知識獲取包含從非結構化文本構建知識基礎(知識圖構建)或對已經構建的知識基礎進行推理(知識圖推理)的NLP任務。知識庫構建任務進一步劃分為兩個子類:知識提取和知識集成,前者用于用實體、關系或屬性填充知識庫,后者用于更新知識庫。知識應用是第二大頂層概念,包含常見的NLP任務,通過知識庫中的結構化知識來增強這些任務。 正如預期的那樣,我們分類法中的任務在文獻中出現的頻率變化很大。表2概述了最流行的任務,圖5比較了它們隨時間的流行程度。圖4顯示了最突出的任務所檢測到的域的數量。它表明某些任務比其他任務更適用于領域特定的上下文。

研究類型及貢獻(RQ3)

表3顯示了根據附錄表4和表5定義的不同研究和貢獻類型的論文分布情況。它表明,大多數論文進行驗證研究,調查尚未在實踐中實施的新技術或方法。相當多的論文,雖然明顯較少,側重于解決方案的提出,通過一個小的例子或論證來證明它們的優點和適用性。然而,這些論文通常缺乏深刻的實證評價。

付費5元查看完整內容

知識圖譜補全是一類重要的問題。近年來基于圖神經網絡的知識圖譜表示得到了很多關注。這邊綜述論文總結了圖神經網絡知識圖譜補全的工作,值得查看!

摘要:知識圖譜在諸如回答問題和信息檢索等各種下游任務中越來越流行。然而,知識圖譜往往不完備,從而導致性能不佳。因此,人們對知識庫補全的任務很感興趣。最近,圖神經網絡被用來捕獲固有地存儲在這些知識圖譜中的結構信息,并被證明可以跨各種數據集實現SOTA性能。在這次綜述中,我們了解所提出的方法的各種優勢和弱點,并試圖在這一領域發現新的令人興奮的研究問題,需要進一步的調研。

知識庫是以關系三元組形式的事實信息的集合。每個關系三元組可以表示為(e1,r,e2),其中e1和e2是知識庫中的實體,r是e1和e2之間的關系。最受歡迎的知識庫表示方式是多關系圖,每個三元組(r e1, e2)是表示為有向邊從e1, e2與標簽r。知識圖譜被用于各種下游任務。

然而,由于知識庫是從文本中自動挖掘來填充的,它們通常是不完整的,因為不可能手動編寫所有事實,而且在提取過程中經常會出現不準確的情況。這種不準確性會導致各種下游任務的性能下降。因此,大量工作開發一種有效的工具來完成知識庫(KBs)方面,它可以在不需要額外知識的情況下自動添加新的事實。這個任務被稱為知識庫補全(或鏈接預測),其目標是解決諸如(e1,r,?)這樣的查詢。

第一種實現高效知識庫補全的方法是像TransE (Bordes et al.(2013))和TransH (Wang et al.(2014))這樣的加法模型,其中關系被解釋為隱藏實體表示的簡單翻譯。然后觀察到,諸如Distmult (Yang et al.(2015))和Complex (Trouillon et al.(2016))等乘法模型優于這些簡單的相加模型。與平移不同,旋轉(Sun等人(2019a))將關系定義為簡單的旋轉,這樣頭部實體就可以在復雜的嵌入空間中旋轉來匹配尾部實體,這已經被證明滿足了很多有用的語義屬性,比如關系的組合性。最近,引入了表達性更強的基于神經網絡的方法(如ConvE (Dettmers等人(2018))和ConvKB(Nguyen等人(2018)),其中評分函數與模型一起學習。然而,所有這些模型都獨立地處理每個三元組。因此,這些方法不能捕獲語義豐富的鄰域,從而產生低質量的嵌入。

圖已被廣泛用于可視化真實世界的數據。在將ML技術應用于圖像和文本方面已經取得了巨大進展,其中一些已成功應用于圖形(如Kipf和Welling(2017)、Hamilton等人(2017)、Velickovic等人(2018)。基于該方法的啟發,許多基于圖神經網絡的方法被提出用于KBC任務中獲取知識圖的鄰域。在這次調查中,我們的目的是研究這些工作。

付費5元查看完整內容

題目: Relation Adversarial Network for Low Resource Knowledge Graph Completion

摘要: 知識圖譜補全(Knowledge Graph Completion, KGC)是一種通過鏈接預測或關系提取來填充缺少的鏈接來改進知識圖譜的方法。KGC的主要困難之一是資源不足。之前的方法假設有足夠訓練的三元組來學習實體和關系的通用向量,或者假設有足夠數量的標簽句子來訓練一個合格的關系提取模型。然而,在KGs中,少資源關系非常普遍,這些新增加的關系往往沒有很多已知的樣本去進行訓練。在這項工作中,我們的目標是在具有挑戰性的環境下只有有限可用的訓練實例預測新的事實。我們提出了一個加權關系對抗性網絡的通用框架,它利用對抗性過程來幫助將從多資源關系中學習到的知識/特征調整為不同但相關的少資源關系。具體地說,該框架利用了一個關系鑒別器來區分樣本和不同的關系,幫助學習更容易從源關系轉移到目標關系的關系不變量特征。實驗結果表明,該方法在少資源設置下的鏈路預測和關系提取都優于以往的方法。

付費5元查看完整內容
北京阿比特科技有限公司