PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
近些年 Transformers 在海量語料上進行自監督預訓練再到下游各種NLP任務(當然也包括文本摘要)上微調的方案已取得巨大成功。但是,尚未有針抽象文本摘要(abstractive text summarization)定制預訓練目標。此外,目前抽象文本摘要任務也缺乏跨領域的系統評價。為此,本文提出了一種新的自監督預訓練目標:GSG(Gap Sentences Generation),以適配 Transformer-based 的 encoder-decoder 模型在海量文本語料上預訓練。在 PEGASUS 中, 將輸入文檔中的“重要句子”刪除或者遮蔽,再利用剩余的句子在輸出中生成這些被刪除或遮蔽的句子。從輸入和輸出看,該目標與文本摘要類似。本文以 12 個文本摘要數據集(包括新聞、科學、故事、使用說明、電子郵件、專利和立法議案)對最好的 PEGASUS 模型進行全面測試。實驗結果是:PEGASUS 刷新 12 個數據集的 ROUGE 得分記錄。另外,PEGASUS 模型在處理低資源摘要數據集也顯示出驚人的性能,在 6 個數據集上僅以 1000 個樣本就超過了之前的最先進結果。最后,本文還對 PEGASUS 模型生成的摘要結果進行人工評測,結果表明本文的模型在多個數據集上達到與人工摘要相媲美的性能。
UniLMv2:統一預訓練偽掩碼語言模型
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177
基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。
我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。
偽掩碼語言模型(PMLM)
在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。
在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。
題目: Neural Abstractive Summarization with Structural Attention
簡介: 基于RNN的注意力編碼器-解碼器體系結構在新聞文章的抽象摘要方面實現了令人印象深刻的性能。但是,這些方法無法解決文檔句子中的長期依賴性。在多文檔摘要任務中,例如在諸如Yahoo等社區問題解答(CQA)網站中出現的主題中總結流行觀點時,此問題會更加嚴重。這些線索包含的答案通常相互重疊或矛盾。在這項工作中,我們提出了一種基于結構注意力的分層編碼器,以對諸如句子間和文檔間的依存關系進行建模。我們將流行的指針生成器體系結構和從中衍生的某些體系結構設置為基線,并表明它們無法在多文檔設置中生成良好的摘要。我們進一步說明,我們提出的模型在單文檔和多文檔摘要設置中均比基線有了顯著改進–在以前的設置中,它在CNN和CQA數據集上分別比最佳基線低1.31和7.8 ROUGE-1點;在后一種設置中,CQA數據集的性能進一步提高了1.6 ROUGE-1點
基于注意力的、基于RNN的編解碼器體系結構在對新聞文章進行抽象摘要方面取得了令人矚目的成績。然而,這些方法不能解釋文檔句子中的長期依賴關系。這個問題在多文檔摘要任務中更加嚴重,例如在社區問答(CQA)網站(如Yahoo!答案,Quora。這些線索包含的答案往往相互重疊或相互矛盾。在這項工作中,我們提出了一種基于結構注意力建模這種句子間和文檔間依賴關系的層次編碼器。我們將流行的指針-生成器體系結構及其派生的一些體系結構設置為基線,并說明它們無法在多文檔設置中生成良好的摘要。我們進一步證明,我們提出的模型在單文檔和多文檔摘要設置方面都比基線有了顯著的改進——在前一種設置中,它分別比CNN和CQA數據集上的最佳基線提高了1.31和7.8個ROUGE-1點;在后一種設置中,CQA數據集的性能進一步提高了1.6個ROUGE-1點。
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練transformer 模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。