在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。
多模態信息抽取,Multi-modal Information Extraction from Text, Semi-structured, and Tabular Data on the Web
Organizers: Xin Luna Dong, Hannaneh Hajishirzi, Colin Lockard and Prashant Shiralkar
萬維網以多種形式包含大量的文本信息:非結構化文本、基于模板的半結構化網頁(以鍵-值對和列表的形式呈現數據)和表格。從這些資源中提取信息并將其轉換為結構化形式的方法一直是自然語言處理(NLP)、數據挖掘和數據庫社區研究的目標。雖然這些研究人員已經很大程度上根據數據的模態將web數據的提取分離到不同的問題中,但他們也面臨著類似的問題,比如使用有限的標記數據進行學習,定義(或避免定義)本體,利用先驗知識,以及針對web規模的縮放解決方案。在本教程中,我們將從整體的角度來看待信息抽取,探索挑戰中的共性,以及為解決這些不同形式的文本而開發的解決方案。
地址:
無監督復述是自然語言處理中的重要研究課題。我們提出了一種利用模擬退火實現無監督復述的新方法,我們將復述建模為一個離散優化問題,并提出了一個精心設計的目標函數,包括語義相似性、表達多樣性和釋義的語言流暢性等衡量指標。通過執行一系列的局部編輯,在整個句子空間中搜索滿足該目標函數的句子。因為我們的方法是無監督的,不需要平行語料庫進行訓練,因此可以方便地應用于不同領域的復述生成任務。我們在各種基準數據集上(Quora、Wikianswers、MSCOCO和Twitter)評估了本方法,結果表明,與以往的無監督方法相比,我們的方法在自動評估和人工評估方面都具備明顯的優越性。此外,我們無監督方法優于大多數現有的領域自適應監督模型。
學習跨句關系是文檔摘要提取的關鍵步驟,目前已有多種研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,這種神經網絡具有更復雜的結構來捕獲句子之間的關系。我們提出了一種基于異構圖的提取摘要神經網絡,該網絡包含除句子外的不同粒度的語義節點。這些額外的節點充當句子之間的中介,豐富了跨句關系。此外,通過引入文檔節點,我們的圖結構在從單文檔設置到多文檔設置的自然擴展方面具有靈活性。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要,并對其進行全面的定性分析來研究其好處的人。代碼將在Github上發布。
題目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
摘要: 語言模型預先從各種來源的文本訓練,形成了今天的自然語言處理的基礎。鑒于這些廣泛覆蓋模型的成功,我們研究了將一個預訓練的模型裁剪到目標任務的領域是否仍然有幫助。我們提出了一項涉及四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,領域內的第二階段訓練(領域自適應訓練)可提高性能。此外,適應任務的未標記數據(任務自適應預訓練)甚至可以提高域自適應預訓練后的性能。最后,我們證明使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的替代方法,特別是在域自適應預訓練資源可能不可用的情況下。總的來說,我們一致發現,多相適應性訓練在任務效果方面提供了很大的提高。
本文試圖對神經文本生成模型的基本性質有更深入的理解。對機器生成文本中由于建模選擇而出現的構件的研究是一個新興的研究領域。在此之前,這些人工制品在生成文本中出現的范圍和程度還沒有得到很好的研究。為了更好地理解生成文本模型及其構件,我們提出了一項新的任務,即區分給定模型的幾個變體中哪個生成了一段文本,我們進行了一系列診斷測試,以觀察建模選擇(例如,抽樣方法、top-k概率、模型架構等)是否在它們生成的文本中留下可檢測的構件。我們的關鍵發現得到了一組嚴格實驗的支持,即存在這樣的構件,并且可以通過單獨觀察生成的文本推斷出不同的建模選擇。這表明,神經文本生成器對各種建模選擇的敏感度可能比之前認為的要高。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
題目
跨語言表示學習,Unsupervised Cross-lingual Representation Learning at Scale
關鍵詞
自然語言處理,表示學習,跨語言,人工智能
簡介
本文表明,針對多種跨語言轉換任務,大規模地對多語言語言模型進行預訓練可以顯著提高性能。 我們使用超過2 TB的經過過濾的CommonCrawl數據在一百種語言上訓練了基于Transformer的屏蔽語言模型。 我們的模型稱為XLM-R,在各種跨語言基準測試中,其性能明顯優于多語言BERT(mBERT),包括XNLI的平均精度為+ 13.8%,MLQA的平均F1得分為+ 12.3%,NER的平均F1得分為+ 2.1%。 XLM-R在低資源語言上表現特別出色,與以前的XLM模型相比,斯瓦希里語的XNLI準確性提高了11.8%,烏爾都語的準確性提高了9.2%。 我們還對獲得這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋以及(2)大規模資源資源的高低性能之間的權衡。 最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性。 XLM-R在GLUE和XNLI基準測試中具有強大的單語言模型,因此非常具有競爭力。 我們將公開提供XLM-R代碼,數據和模型。
作者
Alexis Conneau, Kartikay Khandelwal等。
本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練transformer 模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。