1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT論文)
谷歌BERT斬獲最佳長論文!自然語言頂會NAACL2019最佳論文5篇出爐
Google NAACL2019 最佳論文
作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
摘要:本文介紹一種稱為BERT的新語言表征模型,意為來自變換器的雙向編碼器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的語言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有層的左、右語境來預訓練深度雙向表征。因此,預訓練的BERT表征可以僅用一個額外的輸出層進行微調,進而為很多任務(如問答和語言推理)創建當前最優模型,無需對任務特定架構做出大量修改。BERT的概念很簡單,但實驗效果很強大。它刷新了11個NLP任務的當前最優結果,包括將GLUE基準提升至80.4%(7.6%的絕對改進)、將MultiNLI的準確率提高到86.7%(5.6%的絕對改進),以及將SQuADv1.1問答測試F1的得分提高至93.2分(1.5分絕對提高)——比人類性能還高出2.0分。
網址:
//www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec
BERT的slides: BERT一作Jacob Devlin斯坦福演講PPT:BERT介紹與答疑
2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Google CMU
作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
摘要:Transformer 網絡具有學習更長期依賴性的潛力,但這種潛力往往會受到語言建模中上下文長度固定的限制。因此,我們提出了一種叫做 Transformer-XL 的新神經架構來解決這一問題,它可以在不破壞時間一致性的情況下,讓 Transformer 超越固定長度學習依賴性。具體來說,它是由片段級的循環機制和全新的位置編碼策略組成的。我們的方法不僅可以捕獲更長的依賴關系,還可以解決上下文碎片化的問題。Transformer-XL 學習到的依賴性比 RNN 學習到的長 80%,比標準 Transformer 學到的長 450%,無論在長序列還是短序列中都得到了更好的結果,而且在評估時比標準 Transformer 快 1800+ 倍。此外,我們還提升了 bpc 和困惑度的當前最佳結果,在 enwiki8 上 bpc 從 1.06 提升至 0.99,在 text8 上從 1.13 提升至 1.08,在 WikiText-103 上困惑度從 20.5 提升到 18.3,在 One Billion Word 上從 23.7 提升到 21.8,在賓州樹庫(不經過微調的情況下)上從 55.3 提升到 54.5。我們的代碼、預訓練模型以及超參數在 TensorFlow 和 PyTorch 中都可以使用。。
網址:
3、XLNet: Generalized Autoregressive Pretraining for Language Understanding
Google CMU
作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
摘要:由于上下文雙向建模的表達能力更強,降噪自編碼類型中的典型代表BERT能夠比自回歸語言模型取得更好的結果。即,上下文建模獲得雙向的信息在Language Understanding中是很重要的。但是BERT存在以下不足:(1)在輸入端依賴mask的掩模的方式,遮蔽部分的輸入信息。(2)忽略了被mask位置之間的依賴性。這兩點在預訓練-微調兩個階段存在不符。即,上述2個方面在預訓練和微調這2個階段之間都是有差異的。在正視了上述優缺點之后,本文提出一種通用(或者廣義,英語原文是generalized)的自回歸預訓練方法:XLNet。XLNet的貢獻在于(1)新的雙向上下文學習方法:分解輸入的順序,對其進行排列組合,并遍歷所有的排列組合,獲得最大似然期望。(2)克服BERT自回歸中的缺陷。XLNet在預訓練中融合Transformer-XL和state-of-the-art自回歸模型的優點。實驗結果:XLNet在20個任務中超出了BERT,且很多是碾壓式地超越。XLNet在其中18個任務中取得了目前最優結果,包括問答、自然語言推理、情感分析和文檔排序。
網址:
4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
摘要:通常而言,在預訓練自然語言表征時增加模型大小可以提升模型在下游任務中的性能。但在某些情況下,由于 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,進一步增加模型大小的難度也隨之增加。所以,為了解決這些問題,來自谷歌的研究者提出通過兩種參數削減(parameter-reduction)技術來降低內存消耗,加快 BERT 的訓練速度。綜合實驗表明,ALBERT 的擴展效果要優于原始 BERT。此外,他們還使用了聚焦于句間連貫性建模的自監督損失,并證明這種損失對下游任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果,并且參數量少于 BERT-large。
網址:
?
?更多預訓練語言模型的論文請上: