国产欧美日韩视频一区二区,男女一边脱一边亲一边膜

論文題目： Deep Reinforcement Learning for Entity Alignment

本文作者：郭凌冰、韓玉強、張強、陳華鈞（浙江大學）

發表會議： ACL 2022 Findings

論文鏈接： //openreview.net/pdf?id=CRBzhRdkycU

代碼鏈接：

歡迎轉載，轉載請注明出處****

一、引言

實體對齊(Entity Alignment）是知識圖譜表示學習研究中關鍵任務之一，其基本目標在于發現兩個知識圖譜間指向同一現實對象的實體對，以便將不同知識圖譜鏈接起來，更好地支持下游應用。目前，基于知識圖譜嵌入（Knowledge Graph Embedding）的方法，如MTransE、JAPE，受到了廣泛關注，它們提供了一種端到端的、具有強魯棒性的實體對齊手段。盡管這些方法在性能和效率上相較以往有了顯著提升，但它們很少考慮如何根據訓練得到的實體嵌入（Entity Embedding）高效地搜尋和評估匹配的實體對，往往只是強行把相似度最高的候選實體直接作為輸入實體的匹配，而不考慮該候選實體也許已經找到了更優的匹配。下圖中的例子說明了這一現象，對角線對應的為正確匹配，顏色越深則表示兩個實體相似度越高。目前主流方法貪心地選擇相似度最高的匹配對，如左圖所示，將會錯誤地只選擇第一列作為匹配結果。而如果將匹配過程視為一個序列，如右圖所示，已經匹配的候選實體不能再被后續輸入實體匹配，就能避免落入高相似度陷阱。

二、基于強化學習的知識圖譜實體對齊

上述序列決策方式盡管能夠正確地排除一些候選實體，但也存在著累積錯誤的風險。因此，本文提出了一種基于強化學習的方法來克服這一缺陷，其并不直接使用實體嵌入的相似度作為判斷依據，而是直接把嵌入作為輸入，訓練一個策略網絡（Policy Network）使其能夠尋找到盡可能多的實體對，以實現最大回報（Reward）。同時，本文還采用了一種課程學習（Curriculum Learning）的策略，在訓練過程中逐步增加難度，避免因任務復雜性而導致學習失敗。

下圖展示了策略網絡的基本構成，對于輸入實體和候選實體，我們選擇了額外k個與輸入實體接近的實體（即 opponent entities）作為context信息，可以用于拒絕當前匹配。對于每個實體，我們使用GNN模型同時編碼其鄰居向量以得到中間表示。除了線性層以外，最終的輸出層還考慮了實體對間的互信息，綜合兩個評估器得到最終的輸出標簽，即匹配或不匹配。

下圖中展示了學習過程中，策略網絡是如何與環境（Environment）互動的。在環境中維持了一個匹配對序列，其排序方法為實體對間的相似度，以保證在測試階段該序列仍可用。如前文所述，相似度高的實體對未必真正匹配，因此在訓練過程中本文通過對比實際標簽與相似度信息來判斷一個匹配對的難易程度，根據當前訓練輪數，一些較高難度的匹配對將有更大的概率直接逃過訓練。在一個情節（Episode）中，環境所給出的實體對將被策略網絡一一判斷，被認為匹配的實體對將會直接排除環境序列中的所有涉及這些實體的匹配對，這一過程一直持續到序列終止或所有實體均被匹配。