作者:秦禹嘉、林衍凱、高信龍一、劉知遠、李鵬、季姮、黃民烈、孫茂松、周杰
類型:Long Paper
摘要:預訓練語言模型在各種自然語言處理任務上顯示出卓越的性能。但是常規的預訓練語言模型并未學會在文本中建模實體的關系事實(relational facts),而這對于理解文本至關重要。為了解決這個問題,我們提出了一種新穎的對比學習框架ERICA,以幫助預訓練模型深入了解文本中的實體(entity)及其關系(relation)。具體來說,我們定義了兩個新穎的預訓練任務:(1)實體區分(entity discrimination)任務,給定頭部實體和關系,訓練模型推斷出對應尾部實體;(2)關系區分(relation discrimination)任務,區分兩個關系在語義上是否接近,這涉及復雜的關系推理。實驗結果表明,ERICA可以在多種語言理解任務(包括關系抽取,實體類型分辨和問答),尤其是在資源匱乏的環境下,提升預訓練模型的性能。該工作與騰訊微信模式識別中心、伊利諾伊大學厄巴納-香檳分校(UIUC)合作完成。
基于外部因果陳述自監督表示學習的事件因果關系識別
Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement
論文鏈接: //www.zhuanzhi.ai/paper/f2d21791440eef4f7550cb9045d0101d
利用外部大量的因果陳述,提升模型對因果關系語義的理解能力,這些因果陳述可以提供充足的上下文相關因果模式,有助于理解文本中事件的因果關系。然而,與ECI任務的標注數據不同,外部因果陳述中沒有標注事件,模型很難直接從中學習上下文相關的因果模式幫助識別事件因果關系。為了解決這個問題,我們設計了一個基于自監督表示學習的事件因果關系識別模型 (Self-Supervised Representation Learning on External Causal Statement, CauSeRL),從外部因果陳述中學習強化的因果表示。具體來說,從外部因果陳述中迭代抽樣兩個實例,分別以其中一個因果陳述為目標,學習它們之間的共性。直覺上,通過自監督學習到的不同因果陳述間的共性反映了文本中上下文相關的因果模式,有助于在未見的實例中識別事件的因果關系。
在基準數據集上的實驗結果表明,該方法可以有效增強事件因果關系的表示、提升事件因果關系識別的性能,證明了我們的方法對于ECI任務的有效性。
預訓練跨語言語言模型(Pretrained Cross-Lingual Language Model)在自然語言推斷、問答、序列標注等諸多任務上展現了強大的跨語言遷移能力。例如,僅用英語的問答訓練數據來微調預訓練跨語言語言模型,得到的模型就可以直接在多個語言上實現問答任務。以往的跨語言預訓練任務更關注句子級別的對齊,隱式地鼓勵跨語言對齊,而忽略了顯示的詞級別的細粒度的對齊。
在本文中,微軟亞洲研究院的研究員們將詞級別的跨語言對齊引入預訓練,并提出了一個新的跨語言預訓練任務:去噪聲詞對齊(Denoising word alignment),來訓練 XLM-Align 模型。
在訓練過程中,對翻譯句對交替進行詞對齊自標注和去噪聲詞對齊。詞對齊自標注(Word alignment self-labeling)是指將輸入的翻譯句對的詞對齊問題轉化為最優傳輸問題,并在訓練過程中在線得到輸入句對的詞對齊標注;去噪聲詞對齊則是指隨機地將輸入句對中的詞進行掩蓋,然后使用指針網絡預測翻譯句對原始的詞對齊關系。
研究員們在 XTREME 多語言理解評價基準上進行了驗證,包括序列標注、問答、句子分類等。實驗使用“跨語言遷移”(Cross-lingual transfer)的實驗設置——模型用英文的訓練數據微調,但在多種語言的測試集上進行測試。如表13所示,XLM-Align 在7項任務上都超越了 XLM-R_base,且取得了最好的平均分數。
事件檢測旨在從給定的文本中識別事件觸發詞,并將其分類為事件類型。目前事件檢測的大多數方法在很大程度上依賴于訓練實例,而幾乎忽略了事件類型之間的相關性。因此,它們往往會面臨數據匱乏的問題,并且無法處理新的未見過的事件類型。為了解決這些問題,我們將事件檢測重構成事件本體填充的過程:將事件實例鏈接到事件本體中的預定義事件類型,并提出一種新穎的借助本體嵌入進行事件檢測的框架——OntoED。我們通過建立事件類型之間的聯系來豐富事件本體,并進一步推理出更多的事件對之間的關聯。OntoED可以基于事件本體實現事件知識的利用和傳播,特別是從高資源傳播到低資源的事件類型。此外,OntoED可以通過建立未知事件類型與現有事件的鏈接,實現對新的未見事件類型的檢測。
論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。
在關系抽取任務中,注釋大量的句子集是費時且昂貴的,因此標記數據的數量非常有限。通常的解決方法是采用遠程監督,然而遠程監督的缺陷是生成的數據噪聲較多。因為兩個實體之間可能存在多種關系,很難確定實體對在特定的上下文中屬于哪一種關系,或者句子是否表達了某種關系。
目前人們傾向于使用元學習的方法來提取關系。元學習的思想是用大量不同的任務來訓練模型,每個任務都有幾個例子來演示,這樣學習的模型就可以快速推廣到只有幾個例子的新任務。但該方法訓練數據的信息量仍然有限,其性能仍然不盡人意。為了更有效地推廣到新的關系和任務,作者提出了利用全局圖的方法建模不同的關系。全局關系圖提供了不同關系之間關系的先驗知識,允許我們在關系之間轉移監督以及在沒有擴充帶標簽的句子的情況下推廣這些關系。此外,作者提出了一種新的貝葉斯元學習方法,通過學習基于標記句子的關系原型向量(即支持集)和全局關系圖實現小樣本關系抽取。
論文題目: Attending to Entities for Better Text Understanding
論文作者: Pengxiang Cheng ,Katrin Erk
論文摘要: NLP的最新進展見證了大規模預訓練語言模型(GPT,BERT,XLNet等)的發展。基于Transformer(Vaswani等人,2017),并在一系列最終任務中,此類模型取得了最先進的結果,接近人類的表現。當與足夠多的層和大量的預訓練數據配對時,這清楚地證明了堆疊式自我注意架構的強大功能。但是,在需要復雜而又長距離推理的任務上,表面水平的提示還不夠,在預訓練的模型和人類績效之間仍然存在很大的差距。Strubell等。 (2018)最近表明,可以注入句法知識通過監督的自我注意將其構建為模型。我們推測,將語義知識(尤其是共指信息)類似地注入到現有模型中,將會提高此類復雜問題的性能。上在LAMBADA(Paperno et al.2016)任務中,我們顯示了從頭開始訓練并同時作為自我注意的輔助監督的模型優于最大的GPT-2模型,并設置了新的最新技術,而僅包含與GPT-2相比,它只占很小一部分參數。我們還對模型架構和監督配置的不同變體進行了全面分析,為將類似技術應用于其他問題提供了未來的方向。