跨語言實體鏈接(Cross-lingual entity linking, XEL)的任務是在目標語言知識庫(target-language知識庫,KB)中查找從源語言文本中提取的提及內容。(X)EL的第一步是生成候選實體,它從目標語言知識庫中為每個提到的候選實體檢索貌似合理的候選實體列表。基于Wikipedia資源的方法已經在資源相對較多的語言(HRL)領域被證明是成功的,但是這些方法不能很好地擴展到資源較少的語言(LRL),即使有,也只有很少的Wikipedia頁面。近年來,遷移學習方法已被證明可以利用相近語言的資源來降低語言學習對資源的需求,但其性能仍遠遠落后于資源豐富的語言學習。在本文中,我們首先評估了當前低資源XEL的實體候選生成方法所面臨的問題,然后提出了三個改進:(1)減少實體提及和知識庫條目之間的脫節,(2)提高模型對低資源場景的魯棒性。這些方法很簡單,但是很有效:我們在7個XEL數據集上對我們的方法進行了實驗,發現與最先進的基線相比,它們在前30名標準候選召回中平均產生16.9%的收益。我們改進的模型還使端到端XEL的in-KB精度平均提高了7.9%。
題目: Relation Adversarial Network for Low Resource Knowledge Graph Completion
摘要: 知識圖譜補全(Knowledge Graph Completion, KGC)是一種通過鏈接預測或關系提取來填充缺少的鏈接來改進知識圖譜的方法。KGC的主要困難之一是資源不足。之前的方法假設有足夠訓練的三元組來學習實體和關系的通用向量,或者假設有足夠數量的標簽句子來訓練一個合格的關系提取模型。然而,在KGs中,少資源關系非常普遍,這些新增加的關系往往沒有很多已知的樣本去進行訓練。在這項工作中,我們的目標是在具有挑戰性的環境下只有有限可用的訓練實例預測新的事實。我們提出了一個加權關系對抗性網絡的通用框架,它利用對抗性過程來幫助將從多資源關系中學習到的知識/特征調整為不同但相關的少資源關系。具體地說,該框架利用了一個關系鑒別器來區分樣本和不同的關系,幫助學習更容易從源關系轉移到目標關系的關系不變量特征。實驗結果表明,該方法在少資源設置下的鏈路預測和關系提取都優于以往的方法。
題目: Low-Resource Text Classification using Domain-Adversarial Learning
簡介:
深度學習技術最近在自然語言處理任務中取得了成功。 但是,它們需要大量的注釋數據,而這些數據通常會丟失。 本文探討了在訓練新目標域或語言中的低資源和零資源設置的深度,復雜神經網絡的領域不變特征時,如何使用領域對抗學習作為正則化函數來避免過度擬合。 在使用新語言的情況下,我們證明了單語言單詞向量可以直接用于訓練而無需預先對齊。 它們在公共空間中的映射可以在訓練時臨時學習,以達到預訓練的多語言單詞向量的最終性能。
題目
跨語言表示學習,Unsupervised Cross-lingual Representation Learning at Scale
關鍵詞
自然語言處理,表示學習,跨語言,人工智能
簡介
本文表明,針對多種跨語言轉換任務,大規模地對多語言語言模型進行預訓練可以顯著提高性能。 我們使用超過2 TB的經過過濾的CommonCrawl數據在一百種語言上訓練了基于Transformer的屏蔽語言模型。 我們的模型稱為XLM-R,在各種跨語言基準測試中,其性能明顯優于多語言BERT(mBERT),包括XNLI的平均精度為+ 13.8%,MLQA的平均F1得分為+ 12.3%,NER的平均F1得分為+ 2.1%。 XLM-R在低資源語言上表現特別出色,與以前的XLM模型相比,斯瓦希里語的XNLI準確性提高了11.8%,烏爾都語的準確性提高了9.2%。 我們還對獲得這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋以及(2)大規模資源資源的高低性能之間的權衡。 最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性。 XLM-R在GLUE和XNLI基準測試中具有強大的單語言模型,因此非常具有競爭力。 我們將公開提供XLM-R代碼,數據和模型。
作者
Alexis Conneau, Kartikay Khandelwal等。
本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。
Cross-lingual entity linking (XEL) is the task of finding referents in a target-language knowledge base (KB) for mentions extracted from source-language texts. The first step of (X)EL is candidate generation, which retrieves a list of plausible candidate entities from the target-language KB for each mention. Approaches based on resources from Wikipedia have proven successful in the realm of relatively high-resource languages (HRL), but these do not extend well to low-resource languages (LRL) with few, if any, Wikipedia pages. Recently, transfer learning methods have been shown to reduce the demand for resources in the LRL by utilizing resources in closely-related languages, but the performance still lags far behind their high-resource counterparts. In this paper, we first assess the problems faced by current entity candidate generation methods for low-resource XEL, then propose three improvements that (1) reduce the disconnect between entity mentions and KB entries, and (2) improve the robustness of the model to low-resource scenarios. The methods are simple, but effective: we experiment with our approach on seven XEL datasets and find that they yield an average gain of 16.9% in Top-30 gold candidate recall, compared to state-of-the-art baselines. Our improved model also yields an average gain of 7.9% in in-KB accuracy of end-to-end XEL.
Recently, neural methods have achieved state-of-the-art (SOTA) results in Named Entity Recognition (NER) tasks for many languages without the need for manually crafted features. However, these models still require manually annotated training data, which is not available for many languages. In this paper, we propose an unsupervised cross-lingual NER model that can transfer NER knowledge from one language to another in a completely unsupervised way without relying on any bilingual dictionary or parallel data. Our model achieves this through word-level adversarial learning and augmented fine-tuning with parameter sharing and feature augmentation. Experiments on five different languages demonstrate the effectiveness of our approach, outperforming existing models by a good margin and setting a new SOTA for each language pair.
摘要: 對于沒有標注資源的語言,從資源豐富的語言中轉移知識是命名實體識別(NER)的有效解決方案。雖然現有的方法都是直接從源學習模型轉移到目標語言中,但在本文中,我們建議通過一個測試用例的幾個類似例子對學習模型進行微調,這樣可以利用類似例子中傳遞的結構和語義信息來幫助預測。為此,我們提出了一種元學習算法,通過計算句子相似度來尋找一種能快速適應給定測試用例的模型參數初始化方法,并提出了構造多個偽ner任務進行元訓練的方法。為了進一步提高模型在不同語言間的泛化能力,我們引入了掩蔽機制,并在元訓練中增加了一個最大損失項。我們在五種目標語言中以最少的資源進行了大量的跨語言命名實體識別實驗。結果表明,我們的方法在整體上顯著優于現有的最先進的方法。
For languages with no annotated resources, transferring knowledge from rich-resource languages is an effective solution for named entity recognition (NER). While all existing methods directly transfer from source-learned model to a target language, in this paper, we propose to fine-tune the learned model with a few similar examples given a test case, which could benefit the prediction by leveraging the structural and semantic information conveyed in such similar examples. To this end, we present a meta-learning algorithm to find a good model parameter initialization that could fast adapt to the given test case and propose to construct multiple pseudo-NER tasks for meta-training by computing sentence similarities. To further improve the model's generalization ability across different languages, we introduce a masking scheme and augment the loss function with an additional maximum term during meta-training. We conduct extensive experiments on cross-lingual named entity recognition with minimal resources over five target languages. The results show that our approach significantly outperforms existing state-of-the-art methods across the board.