雖然BERT等大規模的預訓練語言模型在各種自然語言理解任務上取得了巨大的成功,但如何高效、有效地將它們合并到序列到序列模型和相應的文本生成任務中仍然是一個不容忽視的問題。為了解決這個問題,我們提出采用兩種不同的BERT模型分別作為編碼器和解碼器,并通過引入簡單的和輕量級的適配器模塊對它們進行微調,這些適配器模塊插入到BERT層之間,并針對特定的任務數據集進行調優。這樣,我們得到了一個靈活高效的模型,它能夠聯合利用源端和目標端BERT模型中包含的信息,同時繞過了災難性遺忘問題。框架中的每個組件都可以看作是一個插件單元,使得框架靈活且任務不相關。該框架基于并行序列譯碼算法掩模預測,考慮了BERT算法的雙向和條件獨立性,易于適應傳統的自回歸譯碼。我們在神經機器翻譯任務上進行了廣泛的實驗,在實驗中,所提出的方法始終優于自回歸基線,同時將推理延遲減少了一半,并且在IWSLT14德語-英語/WMT14德語-英語翻譯中達到36.49/33.57的BLEU分數。當采用自回歸譯碼時,該方法在WMT14英-德/英-法翻譯中的BLEU得分達到30.60/43.56,與最先進的基線模型相當。
人工智能的一個基本問題是對知識圖譜(KG)捕獲的事實執行復雜的多跳邏輯推理。這個問題是具有挑戰性的,因為KGs可能是不完備的。最近的方法是將KG實體嵌入到低維空間中,然后利用這些嵌入來尋找答案實體。然而,如何處理任意一階邏輯(FOL)查詢一直是一個突出的挑戰,因為目前的方法僅限于FOL操作符的一個子集。特別地,不支持否定運算符。現有方法的另一個限制是它們不能自然地建模不確定性。在這里,我們提出了一種用于回答KGs中任意FOL查詢的概率嵌入框架BETAE。BETAE是第一種可以處理完整的一階邏輯運算的方法:合取(∧)、析取(不確定)和否定(ed)。BETAE的一個關鍵觀點是使用有界支持的概率分布,特別是Beta分布,以及嵌入查詢/實體作為分布,這使得我們也能建模不確定性。邏輯操作由概率嵌入的神經算子在嵌入空間中執行。我們演示了BETAE在三個大的、不完整的KG上回答任意的FOL查詢時的性能。雖然BETAE更加通用,但相對于目前最先進的KG推理方法(僅能處理不含否定的連接查詢),它的相對性能提高了25.4%。
近來,基于Transformer結構的預訓練語言模型(如BERT和RoBERTa)在自然語言處理任務上取得了顯著成果。但是,這些模型參數量巨大,限制了其在存儲、計算、功耗等性能有限的邊緣設備上的部署。將BERT部署到這些設備的困難體現在兩個方面:(1)各種終端設備性能各不一樣,怎么給不同性能的設備部署適合自身性能的模型;(2)同一個終端設備在不同的情況下可接受的運行BERT模型的存儲、計算和功耗也不一樣。為了解決這個問題,我們提出了一種寬度和深度可伸縮的動態預訓練模型DynaBERT。與以往將BERT網絡壓縮到固定大小或者只在深度方向做可伸縮的方法相比,本文第一次提出來在BERT寬度方向進行可伸縮訓練。寬度可伸縮通過調整Transformer層可以并行計算的注意力頭和全連接層中間層神經元數目達到。本文還針對寬度方向提出了新穎的網絡重連方式使得重要的注意力頭和神經元被更多的子網絡共享。在基準數據集上的實驗結果表明,該模型通過新穎的知識蒸餾策略顯著提升了子網絡在NLU任務上的準確率。該模型可以根據不同設備的硬件性能部署不同寬度和深度的子網絡。并且一旦某個設備部署了BERT模型,該設備也可以根據自身資源條件動態加載已部署模型的一部分進行推理。代碼已經開源在//github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。
題目: Data Augmentation using Pre-trained Transformer Models
簡介:
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練變壓器模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。
預先訓練詞嵌入是NLP深度學習成功的關鍵,因為它們允許模型利用web上幾乎無限數量的未注釋文本。在過去的幾年里,條件語言模型被用來生成預先訓練好的上下文表示,這比簡單的嵌入更加豐富和強大。本文介紹了一種新的預訓練技術——BERT(來自Transformer的雙向編碼器表示),它可以生成深度雙向的預訓練語言表示。BERT在斯坦福問答數據集、多項、斯坦福情感樹庫和許多其他任務上獲得了最先進的結果。
Jacob Devlin是谷歌的研究員。在谷歌,他的主要研究興趣是開發用于信息檢索、問題回答和其他語言理解任務的快速、強大和可擴展的深度學習模型。2014年至2017年,他在微軟研究院擔任首席研究員,領導微軟翻譯從基于短語的翻譯過渡到神經機器翻譯(NMT)。他獲得了ACL 2014最佳長論文獎和NAACL 2012最佳短論文獎。2009年,他在馬里蘭大學(University of Maryland)獲得了計算機科學碩士學位,導師是邦尼·多爾(Bonnie Dorr)博士。
1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT論文)
谷歌BERT斬獲最佳長論文!自然語言頂會NAACL2019最佳論文5篇出爐
Google NAACL2019 最佳論文
作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
摘要:本文介紹一種稱為BERT的新語言表征模型,意為來自變換器的雙向編碼器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的語言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有層的左、右語境來預訓練深度雙向表征。因此,預訓練的BERT表征可以僅用一個額外的輸出層進行微調,進而為很多任務(如問答和語言推理)創建當前最優模型,無需對任務特定架構做出大量修改。BERT的概念很簡單,但實驗效果很強大。它刷新了11個NLP任務的當前最優結果,包括將GLUE基準提升至80.4%(7.6%的絕對改進)、將MultiNLI的準確率提高到86.7%(5.6%的絕對改進),以及將SQuADv1.1問答測試F1的得分提高至93.2分(1.5分絕對提高)——比人類性能還高出2.0分。
網址:
//www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec
BERT的slides: BERT一作Jacob Devlin斯坦福演講PPT:BERT介紹與答疑
2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Google CMU
作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
摘要:Transformer 網絡具有學習更長期依賴性的潛力,但這種潛力往往會受到語言建模中上下文長度固定的限制。因此,我們提出了一種叫做 Transformer-XL 的新神經架構來解決這一問題,它可以在不破壞時間一致性的情況下,讓 Transformer 超越固定長度學習依賴性。具體來說,它是由片段級的循環機制和全新的位置編碼策略組成的。我們的方法不僅可以捕獲更長的依賴關系,還可以解決上下文碎片化的問題。Transformer-XL 學習到的依賴性比 RNN 學習到的長 80%,比標準 Transformer 學到的長 450%,無論在長序列還是短序列中都得到了更好的結果,而且在評估時比標準 Transformer 快 1800+ 倍。此外,我們還提升了 bpc 和困惑度的當前最佳結果,在 enwiki8 上 bpc 從 1.06 提升至 0.99,在 text8 上從 1.13 提升至 1.08,在 WikiText-103 上困惑度從 20.5 提升到 18.3,在 One Billion Word 上從 23.7 提升到 21.8,在賓州樹庫(不經過微調的情況下)上從 55.3 提升到 54.5。我們的代碼、預訓練模型以及超參數在 TensorFlow 和 PyTorch 中都可以使用。。
網址:
3、XLNet: Generalized Autoregressive Pretraining for Language Understanding
Google CMU
作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
摘要:由于上下文雙向建模的表達能力更強,降噪自編碼類型中的典型代表BERT能夠比自回歸語言模型取得更好的結果。即,上下文建模獲得雙向的信息在Language Understanding中是很重要的。但是BERT存在以下不足:(1)在輸入端依賴mask的掩模的方式,遮蔽部分的輸入信息。(2)忽略了被mask位置之間的依賴性。這兩點在預訓練-微調兩個階段存在不符。即,上述2個方面在預訓練和微調這2個階段之間都是有差異的。在正視了上述優缺點之后,本文提出一種通用(或者廣義,英語原文是generalized)的自回歸預訓練方法:XLNet。XLNet的貢獻在于(1)新的雙向上下文學習方法:分解輸入的順序,對其進行排列組合,并遍歷所有的排列組合,獲得最大似然期望。(2)克服BERT自回歸中的缺陷。XLNet在預訓練中融合Transformer-XL和state-of-the-art自回歸模型的優點。實驗結果:XLNet在20個任務中超出了BERT,且很多是碾壓式地超越。XLNet在其中18個任務中取得了目前最優結果,包括問答、自然語言推理、情感分析和文檔排序。
網址:
4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
摘要:通常而言,在預訓練自然語言表征時增加模型大小可以提升模型在下游任務中的性能。但在某些情況下,由于 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,進一步增加模型大小的難度也隨之增加。所以,為了解決這些問題,來自谷歌的研究者提出通過兩種參數削減(parameter-reduction)技術來降低內存消耗,加快 BERT 的訓練速度。綜合實驗表明,ALBERT 的擴展效果要優于原始 BERT。此外,他們還使用了聚焦于句間連貫性建模的自監督損失,并證明這種損失對下游任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果,并且參數量少于 BERT-large。
網址:
?
?更多預訓練語言模型的論文請上: