論文題目: Attending to Entities for Better Text Understanding
論文作者: Pengxiang Cheng ,Katrin Erk
論文摘要: NLP的最新進展見證了大規模預訓練語言模型(GPT,BERT,XLNet等)的發展。基于Transformer(Vaswani等人,2017),并在一系列最終任務中,此類模型取得了最先進的結果,接近人類的表現。當與足夠多的層和大量的預訓練數據配對時,這清楚地證明了堆疊式自我注意架構的強大功能。但是,在需要復雜而又長距離推理的任務上,表面水平的提示還不夠,在預訓練的模型和人類績效之間仍然存在很大的差距。Strubell等。 (2018)最近表明,可以注入句法知識通過監督的自我注意將其構建為模型。我們推測,將語義知識(尤其是共指信息)類似地注入到現有模型中,將會提高此類復雜問題的性能。上在LAMBADA(Paperno et al.2016)任務中,我們顯示了從頭開始訓練并同時作為自我注意的輔助監督的模型優于最大的GPT-2模型,并設置了新的最新技術,而僅包含與GPT-2相比,它只占很小一部分參數。我們還對模型架構和監督配置的不同變體進行了全面分析,為將類似技術應用于其他問題提供了未來的方向。
對于自然語言理解任務來說,外部知識通常是有用的。我們介紹了一個上下文文本表示模型,稱為概念上下文(CC)嵌入,它將結構化的知識合并到文本表示中。與實體嵌入方法不同,我們的方法將知識圖編碼到上下文模型中。就像預先訓練好的語言模型一樣,CC嵌入可以很容易地在廣泛的任務中重用。我們的模型利用語義泛化,有效地編碼了龐大的UMLS數據庫。在電子健康記錄(EHRs)和醫療文本處理基準上的實驗表明,我們的模型大大提高了監督醫療NLP任務的性能。
知識圖譜補全的目的是預測知識圖譜中實體之間的缺失關系。雖然已經提出了許多不同的方法,但缺乏一個統一的框架產生SOTA的結果。在這里,我們開發了PathCon,這是一種知識圖譜補全方法,它利用四個新穎的見解來超越現有的方法。PathCon通過以下方法預測一對實體之間的關系: (1)通過捕獲實體附近的關系類型,并通過基于邊緣的消息傳遞模式建模,來考慮每個實體的關系上下文; (2)考慮獲取兩個實體之間所有路徑的關系路徑; (3)通過可學習的注意力機制,自適應地整合關系上下文和關系路徑。重要的是,與傳統的基于節點的表示不同,PathCon僅使用關系類型表示上下文和路徑,這使得它適用于歸納設置。在知識圖譜基準上的實驗結果以及我們新提出的數據集表明,PathCon在很大程度上優于最先進的知識圖譜補全方法。最后,PathCon能夠通過識別對給定的預測關系很重要的上下文和路徑關系來提供可解釋的說明。
簡介: 今年AAAI 2020接收了1591篇論文,其中有140篇是與圖相關的。接下來將會介紹幾篇與圖和知識圖譜相關的幾篇論文。以下為內容大綱:
Hayashi等人在知識圖上建立了自然語言生成(NLG)任務的潛在關系語言模型(LRLM)。就是說,模型在每個時間步上要么從詞匯表中提取一個單詞,要么求助于已知關系。 最終的任務是在給定主題實體的情況下生成連貫且正確的文本。 LRLM利用基礎圖上的KG嵌入來獲取實體和關系表示,以及用于嵌入表面形式的Fasttext。 最后,要參數化流程,需要一個序列模型。作者嘗試使用LSTM和Transformer-XL來評估與使用Wikidata批注的Freebase和WikiText鏈接的WikiFacts上的LRLM。
Liu等人提出了K-BERT,它希望每個句子(如果可能)都用來自某些KG的命名實體和相關(謂詞,賓語)對進行注釋。 然后,將豐富的句子樹線性化為一個新的位置相似嵌入,并用可見性矩陣進行遮罩,該矩陣控制輸入的哪些部分在訓練過程中可以看到并得到關注。
Bouraoui等人進一步評估了BERT的關系知識,即在給定一對實體(例如,巴黎,法國)的情況下,它是否可以預測正確的關系。 作者指出,BERT在事實和常識性任務中通常是好的,而不是糟糕的非詞性任務,并且在形態任務中相當出色。
不同的KG具有自己的模型來建模其實體,以前,基于本體的對齊工具僅依靠此類映射來標識相似實體。 今天,我們有GNN只需少量培訓即可自動學習此類映射!
Sun等人提出了AliNet,這是一種基于端到端GNN的體系結構,能夠對多跳鄰域進行聚合以實現實體對齊。 由于架構異質性,由于相似的實體KG的鄰域不是同構的,因此任務變得更加復雜。 為了彌補這一點,作者建議關注節點的n跳環境以及具有特定損失函數的TransE樣式關系模式。
Xu等人研究了多語言KG(在這種情況下為DBpedia)中的對齊問題,其中基于GNN的方法可能陷入“多對一”的情況,并為給定的目標實體生成多個候選源實體。 作者研究了如何使他們的預測中的GNN編碼輸出更加確定。
AAAI’20標記并概述了兩個增長趨勢:神經符號計算與臨時性的KG越來越受到關注。
AAAI’20主持了“對話狀態跟蹤研討會”(DSTC8)。 該活動聚集了對話AI方面的專家,包括來自Google Assistant,Amazon Alexa和DeepPavlov的人員。在研討會上,多個專家都提出了對話AI的相關研究方法。
題目:
Transfer Learning in Visual and Relational Reasoning
簡介:
遷移學習已成為計算機視覺和自然語言處理中的事實上的標準,尤其是在缺少標簽數據的地方。通過使用預先訓練的模型和微調,可以顯著提高準確性。在視覺推理任務(例如圖像問答)中,傳遞學習更加復雜。除了遷移識別視覺特征的功能外,我們還希望遷移系統的推理能力。而且,對于視頻數據,時間推理增加了另一個維度。在這項工作中,我們將遷移學習的這些獨特方面形式化,并提出了一種視覺推理的理論框架,以完善的CLEVR和COGdatasets為例。此外,我們引入了一種新的,端到端的微分遞歸模型(SAMNet),該模型在兩個數據集上的傳輸學習中均顯示了最新的準確性和更好的性能。改進的SAMNet性能源于其將抽象的多步推理與序列的長度解耦的能力及其選擇性的關注能力,使其僅能存儲與問題相關的信息外部存儲器中的對象。
目錄:
論文題目: Learning Conceptual-Contextual Embeddings for Medical Text
論文摘要:
對于自然語言理解任務來說,外部知識通常是有用的。本文介紹了一個上下文文本表示模型,稱為概念上下文(CC)嵌入,它將結構化的知識合并到文本表示中。與實體嵌入方法不同,文中提到的方法將知識圖編碼到上下文模型中。就像預先訓練好的語言模型一樣,CC嵌入可以很容易地在廣泛的任務中重用。模型利用語義泛化,有效地編碼了龐大的UMLS數據庫。電子實驗健康記錄(EHRs)和醫療文本處理基準表明,而使得模型大大提高了監督醫療NLP任務的性能。
摘要:文本蘊涵是自然語言處理的基本任務。大多數解決這個問題的方法只使用訓練數據中的文本內容。一些方法已經表明,來自外部知識來源(如知識圖譜)的信息除了文本內容之外,還可以通過提供對任務至關重要的背景知識來增加價值。然而,所提出的模型并沒有充分利用通常大而有噪聲的公斤中所包含的信息,而且也不清楚如何有效地編碼這些信息以使其對加密有用。我們提出了一種方法,通過(1)使用個性化的PageR- ank生成低噪聲的上下文子圖和(2)使用圖卷積網絡捕獲KG結構對這些子圖進行編碼,用KGs的信息來補充基于文本的嵌入模型。我們的技術擴展了文本模型挖掘知識結構和語義信息的能力。我們在多個文本蘊涵數據集上評估了我們的方法,并表明使用外部知識有助于提高預測準確性。這一點在極具挑戰性的BreakingNLI數據集中表現得尤為明顯,我們看到在多個基于文本的entailment模型上有5-20%的絕對改進。
We present a new local entity disambiguation system. The key to our system is a novel approach for learning entity representations. In our approach we learn an entity aware extension of Embedding for Language Model (ELMo) which we call Entity-ELMo (E-ELMo). Given a paragraph containing one or more named entity mentions, each mention is first defined as a function of the entire paragraph (including other mentions), then they predict the referent entities. Utilizing E-ELMo for local entity disambiguation, we outperform all of the state-of-the-art local and global models on the popular benchmarks by improving about 0.5\% on micro average accuracy for AIDA test-b with Yago candidate set. The evaluation setup of the training data and candidate set are the same as our baselines for fair comparison.
This paper presents a novel framework, MGNER, for Multi-Grained Named Entity Recognition where multiple entities or entity mentions in a sentence could be non-overlapping or totally nested. Different from traditional approaches regarding NER as a sequential labeling task and annotate entities consecutively, MGNER detects and recognizes entities on multiple granularities: it is able to recognize named entities without explicitly assuming non-overlapping or totally nested structures. MGNER consists of a Detector that examines all possible word segments and a Classifier that categorizes entities. In addition, contextual information and a self-attention mechanism are utilized throughout the framework to improve the NER performance. Experimental results show that MGNER outperforms current state-of-the-art baselines up to 4.4% in terms of the F1 score among nested/non-overlapping NER tasks.
We present the zero-shot entity linking task, where mentions must be linked to unseen entities without in-domain labeled data. The goal is to enable robust transfer to highly specialized domains, and so no metadata or alias tables are assumed. In this setting, entities are only identified by text descriptions, and models must rely strictly on language understanding to resolve the new entities. First, we show that strong reading comprehension models pre-trained on large unlabeled data can be used to generalize to unseen entities. Second, we propose a simple and effective adaptive pre-training strategy, which we term domain-adaptive pre-training (DAP), to address the domain shift problem associated with linking unseen entities in a new domain. We present experiments on a new dataset that we construct for this task and show that DAP improves over strong pre-training baselines, including BERT. The data and code are available at //github.com/lajanugen/zeshel.