題目: Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
摘要: 語言模型預先從各種來源的文本訓練,形成了今天的自然語言處理的基礎。鑒于這些廣泛覆蓋模型的成功,我們研究了將一個預訓練的模型裁剪到目標任務的領域是否仍然有幫助。我們提出了一項涉及四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,領域內的第二階段訓練(領域自適應訓練)可提高性能。此外,適應任務的未標記數據(任務自適應預訓練)甚至可以提高域自適應預訓練后的性能。最后,我們證明使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的替代方法,特別是在域自適應預訓練資源可能不可用的情況下。總的來說,我們一致發現,多相適應性訓練在任務效果方面提供了很大的提高。
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
近些年 Transformers 在海量語料上進行自監督預訓練再到下游各種NLP任務(當然也包括文本摘要)上微調的方案已取得巨大成功。但是,尚未有針抽象文本摘要(abstractive text summarization)定制預訓練目標。此外,目前抽象文本摘要任務也缺乏跨領域的系統評價。為此,本文提出了一種新的自監督預訓練目標:GSG(Gap Sentences Generation),以適配 Transformer-based 的 encoder-decoder 模型在海量文本語料上預訓練。在 PEGASUS 中, 將輸入文檔中的“重要句子”刪除或者遮蔽,再利用剩余的句子在輸出中生成這些被刪除或遮蔽的句子。從輸入和輸出看,該目標與文本摘要類似。本文以 12 個文本摘要數據集(包括新聞、科學、故事、使用說明、電子郵件、專利和立法議案)對最好的 PEGASUS 模型進行全面測試。實驗結果是:PEGASUS 刷新 12 個數據集的 ROUGE 得分記錄。另外,PEGASUS 模型在處理低資源摘要數據集也顯示出驚人的性能,在 6 個數據集上僅以 1000 個樣本就超過了之前的最先進結果。最后,本文還對 PEGASUS 模型生成的摘要結果進行人工評測,結果表明本文的模型在多個數據集上達到與人工摘要相媲美的性能。
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。
文本生成在過去幾年中取得了重大進展。然而,評估指標卻落后了,因為最流行的選擇(如BLEU 和ROUGE)可能與人類的判斷關系不大。我們提出了BLEURT,一種基于BERT的學習評價指標,它可以用幾千個可能有偏見的訓練例子來模擬人類的判斷。我們的方法的一個關鍵方面是一個新的預訓練方案,它使用了數百萬的綜合例子來幫助模型泛化。BLEURT提供了過去三年WMT指標共享任務和WebNLG競賽數據集的最先進的結果。與基于普通BERT的方法相比,即使在訓練數據稀少且分布不均勻的情況下,它也能產生更好的結果。
基于卷積神經網絡的方法在語義分割方面取得了顯著的進展。然而,這些方法嚴重依賴于注釋數據,這是勞動密集型的。為了解決這一限制,使用從圖引擎生成的自動注釋數據來訓練分割模型。然而,從合成數據訓練出來的模型很難轉換成真實的圖像。為了解決這個問題,以前的工作已經考慮直接將模型從源數據調整到未標記的目標數據(以減少域間的差距)。盡管如此,這些技術并沒有考慮到目標數據本身之間的巨大分布差異(域內差異)。在這項工作中,我們提出了一種兩步自監督域適應方法來減少域間和域內的差距。首先,對模型進行域間自適應;在此基礎上,我們使用基于熵的排序函數將目標域分成簡單和困難的兩部分。最后,為了減小域內間隙,我們提出了一種自監督自適應技術。在大量基準數據集上的實驗結果突出了我們的方法相對于現有的最先進方法的有效性。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。
過去幾年間,遷移學習給 NLP 領域帶來了豐碩的成果,掀起了新一波的發展浪潮。 而遷移學習之所以如此有效,得益于其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標注的文本數據上對模型進行預訓練;接著,又在更小的標注數據集上對模型進行微調,從而讓模型實現比單單在標注數據上訓練更好得多的性能。 遷移學習在2018年出現的GPT、ULMFiT、ELMo以及 BERT等成果上初露鋒芒,之后又在2019年大顯身手,推動了領域內多種新方法的發展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。 隨著 NLP 領域的發展迅猛,評估其中的哪些發展成果最具有意義以及這些成果結合起來會發揮出怎樣的效果,已不是易事。
論文地址://arxiv.org/abs/1910.10683
谷歌研究者在論文《使用統一的文本到文本的Transformer 來探索遷移學習的局限性》中,提出了一個大規模的實證評估,以確定哪些遷移學習技術效果最好,并大規模應用這些遷移學習技術來創建一個新模型,作者將這個新模型稱之為文本到文本的遷移Transformer (Text-To-Text Transfer Transformer,T5)。與此同時,他們還引入了一個新的開源預訓練數據集——Colossal Clean Crawled Corpus(C4)。 作者在C4數據集上對T5 模型進行預訓練,讓模型在許多 NLP 基準上都實現了最佳結果,與此同時還擁有足夠的靈活性,進行微調后可應用到多個重要的下游任務上。
一、共享的文本到文本框架
創建了T5模型后,作者將所有的 NLP 任務都重新構建為統一的文本到文本格式,輸入和輸出都始終是文本字符串,與只能輸出類標簽或者輸入范圍的 BERT 式的模型截然不同。 該文本到文本的框架讓他們可以在任何 NLP 任務上都使用相同的模型、損失函數以及超參數,包括機器翻譯、文檔摘要、問答和分類任務(如情感分析)等等。 T5 模型甚至可以被應用到回歸任務上,具體方式是訓練 T5 模型來預測一個數字的字符串表示,而不是這個數字本身。
文本到文本框架圖。對于每個任務,作者都考慮使用文本作為模型的輸入,并訓練模型生成一些目標文本。這讓他們能夠在多個任務上使用相同的模型、損失函數和超參數,包括翻譯(綠色框)、語言可接受性(紅色框)、句子相似性(黃色框)和文檔摘要(藍色框)。它也為實證評估中所包含的方法提供了一個標準的試驗臺。
二、大型預訓練數據集(C4)
遷移學習的一個重要部分,便是用于模型預訓練的未標注的數據集。為了準確地評估擴大預訓練規模的效果,我們需要一個不僅高質量、多樣化而且規模龐大的數據集。 現有的預訓練數據集無法滿足上述三點要求,例如來自維基百科的文本是高質量的,并且格式統一,但是規模相對而言較小,而從Common Crawl 網站上爬取的文本雖然規模較大并且多樣化程度高,但是質量相當低。 為了滿足這三點要求,作者開發了一個Colossal Clean Crawled Corpus數據集 (C4),該數據集是比維基百科大兩個數量級的 Common Crawl 的清潔版本。他們的清潔處理過程涉及到刪除重復數據、去除不完整的句子以及消除冒犯性或有噪音的內容。 這一過濾可以讓模型在下游任務上獲得更好的表現,與此同時額外規模的數據集也讓模型在預訓練期間不過擬合的情況下,增加其大小。 C4數據集地址:
三、遷移學習方法的系統研究
作者使用T5 文本到文本框架和新的預訓練數據集C4,評估了在過去幾年間為NLP 遷移學習引入的大量思想和方法。詳盡的評估細節可前往論文查看,其中包括以下實驗:
模型架構的實驗中,他們發現編碼—解碼模型通常比“僅解碼”的語言模型,性能更優; 預訓練目標的實驗中,他們證實了填空式的去噪目標(即訓練模型來復原輸入中缺失的詞)的效果更好,并且其中最重要的因素是計算成本。 未標注數據集的實驗中,他們展示了在域內數據集上訓練模型是有益的,而在更小的數據集上對模型進行預訓練則會導致不利的過擬合; 訓練策略的實驗中,他們發現多任務學習可以與“先預訓練再微調”的方法相媲美,但是要求更細致地選擇模型在每個任務上訓練的頻率。 模型規模的實驗中,他們對比了不同大小的模型、訓練時間以及集成模型的數量,以確定如何才能最好地利用固定的計算能力。
四、遷移方法+數據規模=性能最佳
為了探索NLP目前遷移學習的局限性,作者進行了最后一組實驗,結合系統研究中的所有最佳方法,并利用Google Cloud TPU加速器進行了優化。 其中最大規模的模型有110億個參數,在GLUE、Superglue、Team和CNN/Daily Mail基準測試中都能夠達到SOTA。另外,在SuperGLUE 自然語言理解的基準測試中獲得了接近人類水平的分數。
五、擴展到其他任務,表現也同樣可喜
T5非常靈活,可以非常容易的進行修改,除了作者論文中的一些任務,在其他任務中也能取得了巨大的成功。例如在下面兩個新任務中,模型表現也不錯。
1、封閉數據問答
在閱讀理解問題中往往可以使用文本到文本的框架。給模型提供上下文信息以及一個問題,訓練其在上下文信息中找到問題的答案,例如可以向模型提供維基百科文章中關于康尼颶風的文本,并提問“康妮颶風在哪天發生?”然后訓練模型,讓其找到文章中的日期。事實上,作者使用這種方法在斯坦福問答數據集(SQuAD)中取得了最先進的結果。 在作者的Colab demo和后續論文中,其訓練了T5在一個更加困難的封閉的環境中回答瑣碎的問題,而且不需要接觸任何外部知識。 換句話說,T在回答問題時只能用其在無監督預訓練期間訓練出的參數和知識。
在預訓練期間,T5學習如何從C4文檔中填充文本的丟失跨度。對模型進行了微調,在無需輸入任何信息或者上下文的情況下,將其應用于已經封閉式問答。 T5非常擅長這項任務,其110億參數模型分別在TriviaQA、Web問題(WebQuestions)和自然問題(Natural Questions)對50.1%、37.4%和34.5%的答案進行了精確生成。 為了客觀看待此類問題,T5團隊在酒吧瑣事挑戰(pub trivia challenge)與訓練好的模型并肩作戰,但不幸的是慘敗而歸。如下動圖所示
2、完形填空 第二個任務是完形填空。像GPT-2這種大型語言模型在文本生產方面非常擅長。模型在經過訓練之后,能夠根據輸入預測出下一個單詞,如此將模型集成,便會產生非常創新性的應用程序,例如基于文本的游戲“AI地下城”。
T5使用的預訓練目標與填空任務非常相似,在填空任務中,模型預測文本中缺少的單詞,但是此目標是對“繼續任務”(continuation task)的概括,因為填空任務中的空白有可能出現在文本的末尾。 為了完成目標,創建了一個名為“填充空白”的新任務,并要求模型用指定數量的單詞替換空白。例如給模型輸入:我喜歡吃花生醬和—4—三明治。大概會訓練模型用4個單詞進行填空。 用C4對模型進行了微調,效果良好,尤其是模型對缺失文本的預測非常棒!例如下列對于輸入:“我喜歡花生醬和—N—三明治”,輸出結果如下所示:
預訓練模型:
代碼: Colab Notebook
題目: Unsupervised pre-training for sequence to sequence speech recognition
摘要:
本文提出了一種新的編碼-解碼器序列到序列預訓練模型(seq2seq)。我們的前訓練方法分為兩個階段,分別是聲學前訓練和語言前訓練。在聲學預訓練階段,我們使用大量的語音來預訓練編碼器,通過預測掩蔽語音特征塊及其上下文。在語言前訓練階段,我們使用單說話文本到語音(TTS)系統從大量的文本中生成合成語音,并使用合成的成對數據對譯碼器進行預訓練。這種兩階段預訓練方法將豐富的聲學和語言知識整合到seq2seq模型中,有利于后續的自動語音識別(ASR)任務。在AISHELL-2數據集上完成無監督的預訓練,我們將預訓練模型應用于AISHELL-1和香港科技大學的多重配對數據比率。我們的相對錯誤率由AISHELL-1的38.24%降至7.88%,由香港科技大學的12.00%降至1.20%。此外,將我們的預訓練模型應用到帶有CALLHOME數據集的跨語言案例中。對于CALLHOME數據集中的所有六種語言,我們的預訓練方法使模型始終優于基線。
作者:
徐波,研究員,1988年畢業于浙江大學,現任中國科學院自動化所所長 ,研究領域包括:多語言語音識別與機器翻譯、多媒體網絡內容智能處理、互動沉浸式3D互聯網等。
題目: PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL
摘要: 預訓練語言模型的最新突破表明了自監督學習在廣泛的自然語言處理任務中的有效性。除了標準的句法和語義NLP任務外,預訓練模型在涉及真實世界知識的任務上也取得了很強的改進,這表明大規模語言建模可能是一種隱含的知識獲取方法。在這項工作中,我們進一步研究了BERT等預訓練模型使用零鏡頭事實完成任務捕獲知識的程度,此外,我們還提出了一個簡單而有效的弱監督預訓練目標,該目標明確地迫使模型包含關于真實世界實體的知識。用我們的新目標訓練的模型在事實完成任務上有顯著的改進。當應用于下游任務時,我們的模型在四個實體相關的問答數據集(即WebQuestions、TriviaQA、SearchQA和Quasar-T)上的平均F1改進為2.7,標準細粒度實體類型數據集(即FIGER)的平均精度提高為5.7。
作者簡介:
Wenhan Xiong,加州大學圣塔芭芭拉分校計算機科學博士,主要研究結構化和非結構化文本數據的信息提取、問答和推理。//xwhan.github.io/
William Yang Wang,加州大學圣塔芭芭拉分校自然語言處理小組和負責的機器學習中心的主任。他是加州大學圣塔芭芭拉分校計算機科學系的助理教授。他獲得了卡內基梅隆大學計算機科學學院的博士學位。他對數據科學的機器學習方法有著廣泛的興趣,包括統計關系學習、信息提取、計算社會科學、語音和視覺。
論文題目: Unsupervised Pre-training for Natural Language Generation
論文摘要: 最近,由于無監督預訓練在促進自然語言理解(NLU)方面取得了令人驚訝的成功以及有效利用大規模未標記語料庫的潛力,因此在計算語言學領域正變得越來越受歡迎。但是,無論NLU是否成功,當涉及自然語言生成(NLG)時,無監督預訓練的功能只能被部分挖掘。 NLG特質的主要障礙是:文本通常是基于特定的上下文生成的,可能會因目標應用程序而異。結果,像在NLU場景中一樣,設計用于預訓練的通用體系結構是很難的。此外,在目標任務上學習時保留從預訓練中學到的知識也是不容置疑的。這篇綜述總結了近期在無監督的預訓練下增強NLG系統的工作,特別著重于催化將預訓練的模型集成到下游任務中的方法。根據它們處理上述障礙的方式,它們分為基于體系結構的方法和基于策略的方法。還提供了討論,以提供這兩種工作方式之間的進一步相互了解,一些有益的經驗現象以及未來工作可能涉及的一些方向。