題目: Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations
摘要:
本文介紹了Span-ConveRT,這是一種用于對話框槽填充的輕量級模型,它將任務描述為基于輪的span提取任務。這個公式允許簡單地集成編碼在大型預先訓練的會話模型中的會話知識,如ConveRT (Henderson等人,2019)。我們展示了在Span-ConveRT中利用這些知識對于很少的學習場景特別有用:
為了激發更多關于填槽任務的span提取的工作,我們還發布了RESTAURANTS-8K,這是一個新的具有挑戰性的數據集,包含8,198個話語,是從餐館預訂領域的實際對話中匯編而成。
題目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
摘要: 語言模型預先從各種來源的文本訓練,形成了今天的自然語言處理的基礎。鑒于這些廣泛覆蓋模型的成功,我們研究了將一個預訓練的模型裁剪到目標任務的領域是否仍然有幫助。我們提出了一項涉及四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,領域內的第二階段訓練(領域自適應訓練)可提高性能。此外,適應任務的未標記數據(任務自適應預訓練)甚至可以提高域自適應預訓練后的性能。最后,我們證明使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的替代方法,特別是在域自適應預訓練資源可能不可用的情況下。總的來說,我們一致發現,多相適應性訓練在任務效果方面提供了很大的提高。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
題目: Data Augmentation using Pre-trained Transformer Models
簡介:
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練變壓器模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。
簡介:
作為面向任務的對話系統中的關鍵組件,自然語言生成(NLG)模塊將以語義形式表示的對話行為轉換為自然語言的響應。傳統的基于模板或統計模型的成功通常依賴于帶有大量注釋的數據,這對于新領域而言是不可行的。因此,對于NLG系統而言,在實際應用中使用有限的標記數據很好地泛化至關重要。為此,我們展示了FewShotWOZ,這是第一個NLG基準測試,用于模擬面向任務的對話系統中的少量學習設置。此外,我們開發了SC-GPT模型。它在大量帶注釋的NLG語料庫上進行了預訓練,以獲取可控的生成能力,并僅用少數幾個特定于域的標簽進行微調以適應新的域。在FewShotWOZ和大型Multi-Domain-WOZ數據集上進行的實驗表明,通過各種自動指標和人工評估,提出的SC-GPT明顯優于現有方法。
題目: CodeBERT: A Pre-Trained Model for Programming and Natural Languages
摘 要:
本文提出了一種用于編程語言(PL)和自然語言(NL)的預訓練模型CodeBERT。CodeBERT學習了支持下游NL-PL應用程序(如自然語言代碼研究、代碼文檔生成等)的通用表示形式。我們使用基于變壓器的神經結構來開發CodeBERT,并使用混合目標函數來訓練它,該混合目標函數合并了替換令牌檢測的訓練前任務,即檢測從生成器中采樣的可信替代。這使我們能夠利用NL-PL對的雙峰數據和單峰數據,前者為模型訓練提供輸入標記,而后者有助于更好地學習生成器。我們通過微調模型參數來評估CodeBERT在兩個NL-PL應用程序上的性能。結果表明,CodeBERT在自然語言代碼搜索和代碼文檔生成任務方面都實現了最先進的性能。此外,為了研究在CodeBERT中學習的知識的類型,我們構造了一個用于NL-PL探測的數據集,并在一個預先訓練的模型的參數固定的零距離設置中進行評估。結果表明,CodeBERT在NL-PL探測方面的性能優于之前的預訓練模型。
題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA
摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。
題目
知識增強的常識性故事生成預訓練模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation
關鍵字
知識增強,故事生成,預訓練,機器學習,神經網絡,語言模型
簡介
故事生成,即從主導語境中生成真實的故事,是一項重要而富有挑戰性的任務。盡管成功建模流暢性和本地化,現有的神經語言生成模型(例如,GPT-2)仍然遭受重復,邏輯沖突,缺乏長期連貫性在生成的故事。我們推測,這是由于關聯相關常識知識、理解因果關系、規劃實體和事件具有適當的時間順序等方面的困難,本文設計了一個常識故事生成的知識增強預訓練模型,并提出了利用常識知識的方法來自外部知識庫的知識,以生成合理的故事。為了進一步捕捉可推理故事中句子之間的因果關系和時間依賴關系,我們采用了多任務學習法,在微調過程中結合辨別目標來區分真假故事。自動和手動評估表明,我們的模型可以生成比藝術基線狀態更合理的故事,特別是在邏輯和全局一致性方面。
作者
Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,來自人工智能研究所,智能技術與系統國家重點實驗室;北京國家信息科學技術研究中心;清華大學計算機科學與技術系。 Zhihao Zhao,來自北京航空航天大學軟件學院。
論文摘要: 我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容,DialoGPT擴展了Hugging Face PyTorch transformer,在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明,利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布,以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。
Pre-trained language model representations have been successful in a wide range of language understanding tasks. In this paper, we examine different strategies to integrate pre-trained representations into sequence to sequence models and apply it to neural machine translation and abstractive summarization. We find that pre-trained representations are most effective when added to the encoder network which slows inference by only 14%. Our experiments in machine translation show gains of up to 5.3 BLEU in a simulated resource-poor setup. While returns diminish with more labeled data, we still observe improvements when millions of sentence-pairs are available. Finally, on abstractive summarization we achieve a new state of the art on the full text version of CNN/DailyMail.