亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文題目: Deep Reinforcement Learning for Entity Alignment

本文作者: 郭凌冰、韓玉強、張強、陳華鈞(浙江大學)

發表會議: ACL 2022 Findings

論文鏈接//openreview.net/pdf?id=CRBzhRdkycU

代碼鏈接

歡迎轉載,轉載請注明出處****

一、引言

實體對齊(Entity Alignment)是知識圖譜表示學習研究中關鍵任務之一,其基本目標在于發現兩個知識圖譜間指向同一現實對象的實體對,以便將不同知識圖譜鏈接起來,更好地支持下游應用。 目前,基于知識圖譜嵌入(Knowledge Graph Embedding)的方法,如MTransE、JAPE,受到了廣泛關注,它們提供了一種端到端的、具有強魯棒性的實體對齊手段。盡管這些方法在性能和效率上相較以往有了顯著提升,但它們很少考慮如何根據訓練得到的實體嵌入(Entity Embedding)高效地搜尋和評估匹配的實體對,往往只是強行把相似度最高的候選實體直接作為輸入實體的匹配,而不考慮該候選實體也許已經找到了更優的匹配。 下圖中的例子說明了這一現象,對角線對應的為正確匹配,顏色越深則表示兩個實體相似度越高。目前主流方法貪心地選擇相似度最高的匹配對,如左圖所示,將會錯誤地只選擇第一列作為匹配結果。而如果將匹配過程視為一個序列,如右圖所示,已經匹配的候選實體不能再被后續輸入實體匹配,就能避免落入高相似度陷阱。

二、基于強化學習的知識圖譜實體對齊

上述序列決策方式盡管能夠正確地排除一些候選實體,但也存在著累積錯誤的風險。因此,本文提出了一種基于強化學習的方法來克服這一缺陷,其并不直接使用實體嵌入的相似度作為判斷依據,而是直接把嵌入作為輸入,訓練一個策略網絡(Policy Network)使其能夠尋找到盡可能多的實體對,以實現最大回報(Reward)。同時,本文還采用了一種課程學習(Curriculum Learning)的策略,在訓練過程中逐步增加難度,避免因任務復雜性而導致學習失敗。

下圖展示了策略網絡的基本構成,對于輸入實體和候選實體,我們選擇了額外k個與輸入實體接近的實體(即 opponent entities)作為context信息,可以用于拒絕當前匹配。對于每個實體,我們使用GNN模型同時編碼其鄰居向量以得到中間表示。除了線性層以外,最終的輸出層還考慮了實體對間的互信息,綜合兩個評估器得到最終的輸出標簽,即匹配或不匹配。

下圖中展示了學習過程中,策略網絡是如何與環境(Environment)互動的。在環境中維持了一個匹配對序列,其排序方法為實體對間的相似度,以保證在測試階段該序列仍可用。如前文所述,相似度高的實體對未必真正匹配,因此在訓練過程中本文通過對比實際標簽與相似度信息來判斷一個匹配對的難易程度,根據當前訓練輪數,一些較高難度的匹配對將有更大的概率直接逃過訓練。在一個情節(Episode)中,環境所給出的實體對將被策略網絡一一判斷,被認為匹配的實體對將會直接排除環境序列中的所有涉及這些實體的匹配對,這一過程一直持續到序列終止或所有實體均被匹配。

三、實驗

本文選取了數個性能領先且具有不同特點的實體對齊模型作為對比,并在OpenEA數據集上進行了實驗。結果如下表所示:本文所述方法RLEA在全部四種數據集上均相較原有方法有明顯提升。Seq為僅僅采用序列決策而不涉及強化學習的對比方法,可以看出,其仍在絕大多數情況下也優于目前所采用的貪心策略。

同時,本文還與傳統實體對齊方法進行了對比。在此之前,盡管基于知識圖譜嵌入的方法具有許多優點,但在絕對性能上與基于字符匹配等技術的傳統方法有著較大差距。本文所提出的基于強化學習的方法不但縮小了這一差距,并且在一些數據集上(如D-Y)顯著優于傳統方法。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等
北京阿比特科技有限公司