題目: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
摘要: 遷移學習是自然語言處理(NLP)中的一項強大技術,它首先對一個數據豐富的任務進行預訓練,然后再對下游任務進行微調。遷移學習的有效性帶來了方法、方法和實踐的多樣性。本文通過引入一個統一的框架,將每一個語言問題轉換成文本到文本的格式,探討了NLP的遷移學習技術的發展前景。我們的系統研究比較了數十種語言理解任務的訓練前目標、體系結構、無標記數據集、遷移方法和其他因素。通過結合我們的探索和規模的見解和我們新的“巨大的干凈的爬網語料庫”,我們在總結、問答、文本分類等許多基準上取得了最新的成果。為了促進NLP遷移學習的未來工作,我們發布了我們的數據集、預先訓練的模型和代碼。
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
題目: Attention in Natural Language Processing
摘要:
注意力是一種越來越受歡迎的機制,在廣泛的神經結構中使用。該機制本身以各種格式實現。然而,由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們為自然語言處理中的注意力架構定義了一個統一的模型,重點是那些設計用來處理文本數據的向量表示的模型。根據四個維度提出了注意力模型的分類:輸入的表示、兼容性函數、分布函數和輸入和輸出的多樣性。然后展示了如何在注意力模型中利用先驗信息的例子,并討論了該領域正在進行的研究工作和面臨的挑戰。
雖然探測是在預訓練模型表示中識別知識的一種常見技術,但是尚不清楚這種技術是否能夠解釋像BERT這樣在finetuning中端到端訓練的模型的下游成功。為了解決這個問題,我們將探測與一種不同的可轉移性度量進行比較:部分重新初始化的模型的微調性能的下降。該技術表明,在BERT中,對下游粘合任務具有高探測精度的層對這些任務的高精度來說既不是必要的,也不是充分的。此外,數據集的大小影響層的可移植性:一個人擁有的精細數據越少,BERT的中間層和后中間層就越重要。此外,BERT并沒有簡單地為各個層找到更好的初始化器;相反,層次之間的相互作用很重要,在細化之前重新排序BERT的層次會極大地損害評估指標。這些結果提供了一種理解參數在預訓練語言模型中的可轉移性的方法,揭示了這些模型中轉移學習的流動性和復雜性。
過去幾年間,遷移學習給 NLP 領域帶來了豐碩的成果,掀起了新一波的發展浪潮。 而遷移學習之所以如此有效,得益于其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標注的文本數據上對模型進行預訓練;接著,又在更小的標注數據集上對模型進行微調,從而讓模型實現比單單在標注數據上訓練更好得多的性能。 遷移學習在2018年出現的GPT、ULMFiT、ELMo以及 BERT等成果上初露鋒芒,之后又在2019年大顯身手,推動了領域內多種新方法的發展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。 隨著 NLP 領域的發展迅猛,評估其中的哪些發展成果最具有意義以及這些成果結合起來會發揮出怎樣的效果,已不是易事。
論文地址://arxiv.org/abs/1910.10683
谷歌研究者在論文《使用統一的文本到文本的Transformer 來探索遷移學習的局限性》中,提出了一個大規模的實證評估,以確定哪些遷移學習技術效果最好,并大規模應用這些遷移學習技術來創建一個新模型,作者將這個新模型稱之為文本到文本的遷移Transformer (Text-To-Text Transfer Transformer,T5)。與此同時,他們還引入了一個新的開源預訓練數據集——Colossal Clean Crawled Corpus(C4)。 作者在C4數據集上對T5 模型進行預訓練,讓模型在許多 NLP 基準上都實現了最佳結果,與此同時還擁有足夠的靈活性,進行微調后可應用到多個重要的下游任務上。
一、共享的文本到文本框架
創建了T5模型后,作者將所有的 NLP 任務都重新構建為統一的文本到文本格式,輸入和輸出都始終是文本字符串,與只能輸出類標簽或者輸入范圍的 BERT 式的模型截然不同。 該文本到文本的框架讓他們可以在任何 NLP 任務上都使用相同的模型、損失函數以及超參數,包括機器翻譯、文檔摘要、問答和分類任務(如情感分析)等等。 T5 模型甚至可以被應用到回歸任務上,具體方式是訓練 T5 模型來預測一個數字的字符串表示,而不是這個數字本身。
文本到文本框架圖。對于每個任務,作者都考慮使用文本作為模型的輸入,并訓練模型生成一些目標文本。這讓他們能夠在多個任務上使用相同的模型、損失函數和超參數,包括翻譯(綠色框)、語言可接受性(紅色框)、句子相似性(黃色框)和文檔摘要(藍色框)。它也為實證評估中所包含的方法提供了一個標準的試驗臺。
二、大型預訓練數據集(C4)
遷移學習的一個重要部分,便是用于模型預訓練的未標注的數據集。為了準確地評估擴大預訓練規模的效果,我們需要一個不僅高質量、多樣化而且規模龐大的數據集。 現有的預訓練數據集無法滿足上述三點要求,例如來自維基百科的文本是高質量的,并且格式統一,但是規模相對而言較小,而從Common Crawl 網站上爬取的文本雖然規模較大并且多樣化程度高,但是質量相當低。 為了滿足這三點要求,作者開發了一個Colossal Clean Crawled Corpus數據集 (C4),該數據集是比維基百科大兩個數量級的 Common Crawl 的清潔版本。他們的清潔處理過程涉及到刪除重復數據、去除不完整的句子以及消除冒犯性或有噪音的內容。 這一過濾可以讓模型在下游任務上獲得更好的表現,與此同時額外規模的數據集也讓模型在預訓練期間不過擬合的情況下,增加其大小。 C4數據集地址:
三、遷移學習方法的系統研究
作者使用T5 文本到文本框架和新的預訓練數據集C4,評估了在過去幾年間為NLP 遷移學習引入的大量思想和方法。詳盡的評估細節可前往論文查看,其中包括以下實驗:
模型架構的實驗中,他們發現編碼—解碼模型通常比“僅解碼”的語言模型,性能更優; 預訓練目標的實驗中,他們證實了填空式的去噪目標(即訓練模型來復原輸入中缺失的詞)的效果更好,并且其中最重要的因素是計算成本。 未標注數據集的實驗中,他們展示了在域內數據集上訓練模型是有益的,而在更小的數據集上對模型進行預訓練則會導致不利的過擬合; 訓練策略的實驗中,他們發現多任務學習可以與“先預訓練再微調”的方法相媲美,但是要求更細致地選擇模型在每個任務上訓練的頻率。 模型規模的實驗中,他們對比了不同大小的模型、訓練時間以及集成模型的數量,以確定如何才能最好地利用固定的計算能力。
四、遷移方法+數據規模=性能最佳
為了探索NLP目前遷移學習的局限性,作者進行了最后一組實驗,結合系統研究中的所有最佳方法,并利用Google Cloud TPU加速器進行了優化。 其中最大規模的模型有110億個參數,在GLUE、Superglue、Team和CNN/Daily Mail基準測試中都能夠達到SOTA。另外,在SuperGLUE 自然語言理解的基準測試中獲得了接近人類水平的分數。
五、擴展到其他任務,表現也同樣可喜
T5非常靈活,可以非常容易的進行修改,除了作者論文中的一些任務,在其他任務中也能取得了巨大的成功。例如在下面兩個新任務中,模型表現也不錯。
1、封閉數據問答
在閱讀理解問題中往往可以使用文本到文本的框架。給模型提供上下文信息以及一個問題,訓練其在上下文信息中找到問題的答案,例如可以向模型提供維基百科文章中關于康尼颶風的文本,并提問“康妮颶風在哪天發生?”然后訓練模型,讓其找到文章中的日期。事實上,作者使用這種方法在斯坦福問答數據集(SQuAD)中取得了最先進的結果。 在作者的Colab demo和后續論文中,其訓練了T5在一個更加困難的封閉的環境中回答瑣碎的問題,而且不需要接觸任何外部知識。 換句話說,T在回答問題時只能用其在無監督預訓練期間訓練出的參數和知識。
在預訓練期間,T5學習如何從C4文檔中填充文本的丟失跨度。對模型進行了微調,在無需輸入任何信息或者上下文的情況下,將其應用于已經封閉式問答。 T5非常擅長這項任務,其110億參數模型分別在TriviaQA、Web問題(WebQuestions)和自然問題(Natural Questions)對50.1%、37.4%和34.5%的答案進行了精確生成。 為了客觀看待此類問題,T5團隊在酒吧瑣事挑戰(pub trivia challenge)與訓練好的模型并肩作戰,但不幸的是慘敗而歸。如下動圖所示
2、完形填空 第二個任務是完形填空。像GPT-2這種大型語言模型在文本生產方面非常擅長。模型在經過訓練之后,能夠根據輸入預測出下一個單詞,如此將模型集成,便會產生非常創新性的應用程序,例如基于文本的游戲“AI地下城”。
T5使用的預訓練目標與填空任務非常相似,在填空任務中,模型預測文本中缺少的單詞,但是此目標是對“繼續任務”(continuation task)的概括,因為填空任務中的空白有可能出現在文本的末尾。 為了完成目標,創建了一個名為“填充空白”的新任務,并要求模型用指定數量的單詞替換空白。例如給模型輸入:我喜歡吃花生醬和—4—三明治。大概會訓練模型用4個單詞進行填空。 用C4對模型進行了微調,效果良好,尤其是模型對缺失文本的預測非常棒!例如下列對于輸入:“我喜歡花生醬和—N—三明治”,輸出結果如下所示:
預訓練模型:
代碼: Colab Notebook
題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA
摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。
題目: Exploring Benefits of Transfer Learning in Neural Machine Translation
摘要: 眾所周知,神經機器翻譯需要大量的并行訓練語句,這通常會妨礙它在低資源語言對上的優勢。本文探討了跨語言遷移學習在神經網絡中的應用,以解決資源匱乏的問題。我們提出了幾種轉移學習方法來重用預先訓練在高資源語言對上的模型。我們特別注意技術的簡單性。我們研究了兩種情形:(a)當我們重用高資源模型而不事先修改其訓練過程時;(b)當我們可以預先準備第一階段的高資源模型用于轉移學習時。對于前一個場景,我們通過重用其他研究人員訓練的模型,提出了一種概念證明方法。在后一種情況下,我們提出了一種在翻譯性能上得到更大改進的方法。除了提出的技術外,我們還著重于對遷移學習技術進行深入的分析,并試圖對遷移學習的改進有所啟發。我們展示了我們的技術如何解決低資源語言的特定問題,甚至在高資源轉移學習中也是適用的。我們通過研究轉移學習在各種情況下的潛在缺陷和行為,例如,在人為損壞的訓練語料庫下,或者在固定的模型部分下。
作者簡介: Tom Kocmi,查爾斯特大學,數學與物理學院,形式與應用語言學研究所博士,他的主要研究方向是基于神經網絡的機器翻譯。個人主頁://ufal.mff.cuni.cz/tom-kocmi
文章名字
NLP Transfer Learning In 3 Steps
文章簡介
BERT(Devlin等人,2018)可能是最流行的NLP遷移學習方法。Huggingface的實現提供了許多不錯的特性,并在漂亮的API背后抽象出了細節。PyTorch Lightning是一個輕量級框架(實際上更像是重構PyTorch代碼),它允許使用PyTorch的任何人(如學生、研究人員和生產團隊)輕松擴展深度學習代碼,同時使其可重復。它還通過教練旗提供42+項高級研究功能。閃電沒有添加抽象的PyTorch,這意味著它與其他偉大的包,如擁抱臉玩得很好!在本教程中,我們將使用它們的BERT實現在Lightning中執行微調任務。在本教程中,我們將通過3個步驟為NLP進行遷移學習: 我們將從huggingface圖書館導入BERT。 我們將創建一個LightningModule,它使用BERT提取的特征進行微調 我們將使用燈光教練機訓練BertMNLIFinetuner。
文章作者
William Falcon,博士生,人工智能(紐約大學,Facebook人工智能研究)。最近一直致力于自然語言預訓練模型研究,并取得了最大突破。主張機器學習要面向實踐,面向實際,立志解決當前問題,AI必須要有商業驅動,方能足夠長遠的發展。
論文題目: Attending to Entities for Better Text Understanding
論文作者: Pengxiang Cheng ,Katrin Erk
論文摘要: NLP的最新進展見證了大規模預訓練語言模型(GPT,BERT,XLNet等)的發展。基于Transformer(Vaswani等人,2017),并在一系列最終任務中,此類模型取得了最先進的結果,接近人類的表現。當與足夠多的層和大量的預訓練數據配對時,這清楚地證明了堆疊式自我注意架構的強大功能。但是,在需要復雜而又長距離推理的任務上,表面水平的提示還不夠,在預訓練的模型和人類績效之間仍然存在很大的差距。Strubell等。 (2018)最近表明,可以注入句法知識通過監督的自我注意將其構建為模型。我們推測,將語義知識(尤其是共指信息)類似地注入到現有模型中,將會提高此類復雜問題的性能。上在LAMBADA(Paperno et al.2016)任務中,我們顯示了從頭開始訓練并同時作為自我注意的輔助監督的模型優于最大的GPT-2模型,并設置了新的最新技術,而僅包含與GPT-2相比,它只占很小一部分參數。我們還對模型架構和監督配置的不同變體進行了全面分析,為將類似技術應用于其他問題提供了未來的方向。