本文試圖對神經文本生成模型的基本性質有更深入的理解。對機器生成文本中由于建模選擇而出現的構件的研究是一個新興的研究領域。在此之前,這些人工制品在生成文本中出現的范圍和程度還沒有得到很好的研究。為了更好地理解生成文本模型及其構件,我們提出了一項新的任務,即區分給定模型的幾個變體中哪個生成了一段文本,我們進行了一系列診斷測試,以觀察建模選擇(例如,抽樣方法、top-k概率、模型架構等)是否在它們生成的文本中留下可檢測的構件。我們的關鍵發現得到了一組嚴格實驗的支持,即存在這樣的構件,并且可以通過單獨觀察生成的文本推斷出不同的建模選擇。這表明,神經文本生成器對各種建模選擇的敏感度可能比之前認為的要高。
本文處理學習和推理語言和視覺數據的相關下游任務的挑戰,如視覺問題回答(VQA)和自然語言的視覺推理(NLVR)。我們設計了一個新穎的跨模態關聯模塊,用端到端框架在目標任務的監督下學習各種輸入模態組件之間的關聯表示,這比僅僅重塑原始表示空間更易于推廣到未觀測的數據。除了對文本實體和視覺實體之間的相關性進行建模外,我們還對文本中的實體關系和圖像中的對象關系之間的高階相關性進行建模。我們提出的方法使用公共基準,在兩個不同的語言和視覺任務上顯示出具有競爭力的性能,并改進了最新發布的結果。NLVR任務學習的輸入空間對齊及其相關表示提高了VQA任務的訓練效率。
文本生成在過去幾年中取得了重大進展。然而,評估指標卻落后了,因為最流行的選擇(如BLEU 和ROUGE)可能與人類的判斷關系不大。我們提出了BLEURT,一種基于BERT的學習評價指標,它可以用幾千個可能有偏見的訓練例子來模擬人類的判斷。我們的方法的一個關鍵方面是一個新的預訓練方案,它使用了數百萬的綜合例子來幫助模型泛化。BLEURT提供了過去三年WMT指標共享任務和WebNLG競賽數據集的最先進的結果。與基于普通BERT的方法相比,即使在訓練數據稀少且分布不均勻的情況下,它也能產生更好的結果。
學習跨句關系是文檔摘要提取的關鍵步驟,目前已有多種研究方法。一種直觀的方法是將它們放入基于圖的神經網絡中,這種神經網絡具有更復雜的結構來捕獲句子之間的關系。我們提出了一種基于異構圖的提取摘要神經網絡,該網絡包含除句子外的不同粒度的語義節點。這些額外的節點充當句子之間的中介,豐富了跨句關系。此外,通過引入文檔節點,我們的圖結構在從單文檔設置到多文檔設置的自然擴展方面具有靈活性。據我們所知,我們是第一個將不同類型的節點引入到基于圖的神經網絡中進行提取文檔摘要,并對其進行全面的定性分析來研究其好處的人。代碼將在Github上發布。
大多數關于自動事實核查的現有工作都是基于元數據、社會網絡傳播、聲明中使用的語言,以及最近支持或否認聲明的證據,來預測聲明的準確性。這個謎題中仍然缺失的一個關鍵部分是,理解如何自動化這個過程中最復雜的部分——為聲明的裁決生成理由。本文首次研究了如何根據可用的聲明上下文自動生成這些解釋,以及如何將此任務與準確性預測聯合建模。我們的結果表明,同時優化這兩個目標,而不是分別訓練它們,可以提高事實核查系統的性能。手工評估的結果進一步表明,在多任務模型中生成的解釋的信息量、覆蓋率和整體質量也得到了提高。
在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。
機器學習模型在自然語言處理中的應用最近的進展是由評估各種任務模型的基準驅動的。然而,這些覆蓋范圍廣泛的基準測試主要局限于英語,盡管人們對多語言模型的興趣越來越大,但是仍然缺少一個基準測試來全面評估這些方法對各種語言和任務的影響。為此,我們引入了多語言編碼器XTREME基準的跨語言轉換評估,這是一個多任務基準,用于評估40種語言和9個任務的多語言表示的跨語言泛化能力。我們證明,雖然英語測試的模型在許多任務上達到了人類的表現,但在跨語言遷移模型的表現上仍然有相當大的差距,特別是在句法和句子檢索任務上。在不同的語言之間也有廣泛的結果。我們發布基準測試是為了鼓勵對跨語言學習方法的研究,這種方法可以將語言知識傳遞到不同的、有代表性的語言和任務中。
我們提出了一個多語言神經機器翻譯的概率框架,它包括監督和非監督設置,重點是無監督翻譯。除了研究只有單語數據可用的基本情況外,我們還提出了一種新的設置,即(源、目標)對中的一種語言不與任何并行數據相關聯,但可能存在包含另一種語言的輔助并行數據。通過一個新的交叉翻譯損失項,這些輔助數據可以很自然地用在我們的概率框架中。經驗表明,我們的方法在大多數方向的WMT'14英-法、WMT'16英-德、WMT'16英-羅數據集上,比最先進的無監督模型獲得更高的BLEU分數。特別是,我們獲得了+1.65 BLEU的優勢,在羅馬尼亞-英國方向的最佳表現的無監督模式。