基于Transformer的模型目前在NLP中得到了廣泛的應用,但我們對它們的內部工作原理仍然知之甚少。本文綜合了40多項分析研究,對著名的BERT模型(Devlin et al 2019)的已知情況進行了描述。我們還提供了對模型及其訓練機制的擬議修改的概述。然后我們概述了進一步研究的方向。
概述
自2017年推出以來,Transformers(Vaswani et al 2017)掀起了NLP的風暴,提供了增強的并行化和更好的長依賴建模。最著名的基于Transformers 的模型是BERT (Devlin et al 2019),他們在許多基準測試中獲得了最先進的結果,并集成在谷歌搜索中,提升了10%的查詢準確率。
雖然很明顯BERT和其他基于Transformer的模型工作得非常好,但是不太清楚為什么,這限制了架構的進一步假設驅動的改進。與CNNs不同,Transformer幾乎沒有認知動機,而且這些模型的大小限制了我們進行預訓練實驗和消融研究的能力。這解釋了過去一年里大量的研究試圖理解BERT表現背后的原因。
本文概述了迄今為止所了解到的情況,并強調了仍未解決的問題。我們重點研究BERT學習的知識的類型,這些知識在哪里體現,如何學習,以及提出的改進方法。
BERT架構
從根本上說,BERT是一堆由多個“頭”組成的Transformer 編碼器層,即全連接神經網絡增強了一個自我注意機制。對于序列中的每個輸入標記,每個頭計算鍵、值和查詢向量,這些向量用于創建加權表示。將同一層中所有磁頭的輸出合并并通過全連接層運行。每個層都用一個跳過連接進行包裝,并在它之后應用層規范化。
圖1 BERT模型
目錄:
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
上下文嵌入,如ELMo和BERT,超越了像Word2Vec這樣的全局單詞表示,在廣泛的自然語言處理任務中取得了突破性的性能。上下文嵌入根據上下文為每個單詞分配一個表示,從而捕獲不同上下文中單詞的用法,并對跨語言傳輸的知識進行編碼。在這項綜述中,我們回顧了現有的上下文嵌入模型、跨語言的多語言預訓練、上下文嵌入在下游任務中的應用、模型壓縮和模型分析。
在大型語料庫無監督訓練的分布式詞表示(Turian et al., 2010; Mikolov et al., 2013; Pennington et al., 2014)在現代自然語言處理系統中得到了廣泛的應用。但是,這些方法只獲得每個單詞的一個全局表示,而忽略了它們的上下文。與傳統的單詞表示不同,上下文嵌入超越了單詞級語義,因為每個標記都與作為整個輸入序列的函數的表示相關聯。這些與上下文相關的表示可以在不同的上下文中捕捉到詞匯的許多句法和語義特征。(Peters et al., 2018; Devlin et al., 2018; Yang et al., 2019; Raffel et al., 2019)的研究表明,在大規模未標記的語料庫上預訓練的上下文嵌入,在文本分類、問題回答和文本摘要等一系列自然語言處理任務上取得了最先進的表現。進一步的分析(Liu et al., 2019a; Hewitt and Liang, 2019; Hewitt and Manning, 2019; Tenney et al., 2019a)證明了上下文嵌入能夠學習跨語言的有用且可遷移的表示。
綜述論文的其余部分組織如下。在第2節中,我們定義了上下文嵌入的概念。在第3節中,我們將介紹獲取上下文嵌入的現有方法。第四部分介紹了多語言語料庫中下文嵌入的預處理方法。在第5節中,我們描述了在下游任務中應用預訓練的上下文嵌入的方法。在第6節中,我們詳細介紹了模型壓縮方法。在第7節中,我們調查了旨在識別通過語境嵌入學到的語言知識的分析。在第8節中,我們通過強調未來研究的一些挑戰來結束綜述。
題目
BERT到底如何work的?A Primer in BERTology: What we know about how BERT works
關鍵字
BERT,Transformer,NLP,預訓練模型,綜述,人工智能
簡介
基于Transformer的模型現在已在NLP中廣泛使用,但我們對其內部運作仍然知之甚少。 本文描述了迄今為止已知的著名BERT模型(Devlin等人,2019),它綜合了40多項分析研究。 我們還提供了對模型及其訓練方案的擬議修改的概述。 然后,我們概述了進一步研究的方向。
作者
Anna Rogers, olga Kovaleva, Anna Rumshisky
1、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT論文)
谷歌BERT斬獲最佳長論文!自然語言頂會NAACL2019最佳論文5篇出爐
Google NAACL2019 最佳論文
作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
摘要:本文介紹一種稱為BERT的新語言表征模型,意為來自變換器的雙向編碼器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的語言表征模型(Peters等,2018; Radford等,2018),BERT旨在基于所有層的左、右語境來預訓練深度雙向表征。因此,預訓練的BERT表征可以僅用一個額外的輸出層進行微調,進而為很多任務(如問答和語言推理)創建當前最優模型,無需對任務特定架構做出大量修改。BERT的概念很簡單,但實驗效果很強大。它刷新了11個NLP任務的當前最優結果,包括將GLUE基準提升至80.4%(7.6%的絕對改進)、將MultiNLI的準確率提高到86.7%(5.6%的絕對改進),以及將SQuADv1.1問答測試F1的得分提高至93.2分(1.5分絕對提高)——比人類性能還高出2.0分。
網址:
//www.zhuanzhi.ai/paper/7acdc843627c496a2ad7fb2785357dec
BERT的slides: BERT一作Jacob Devlin斯坦福演講PPT:BERT介紹與答疑
2、Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Google CMU
作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
摘要:Transformer 網絡具有學習更長期依賴性的潛力,但這種潛力往往會受到語言建模中上下文長度固定的限制。因此,我們提出了一種叫做 Transformer-XL 的新神經架構來解決這一問題,它可以在不破壞時間一致性的情況下,讓 Transformer 超越固定長度學習依賴性。具體來說,它是由片段級的循環機制和全新的位置編碼策略組成的。我們的方法不僅可以捕獲更長的依賴關系,還可以解決上下文碎片化的問題。Transformer-XL 學習到的依賴性比 RNN 學習到的長 80%,比標準 Transformer 學到的長 450%,無論在長序列還是短序列中都得到了更好的結果,而且在評估時比標準 Transformer 快 1800+ 倍。此外,我們還提升了 bpc 和困惑度的當前最佳結果,在 enwiki8 上 bpc 從 1.06 提升至 0.99,在 text8 上從 1.13 提升至 1.08,在 WikiText-103 上困惑度從 20.5 提升到 18.3,在 One Billion Word 上從 23.7 提升到 21.8,在賓州樹庫(不經過微調的情況下)上從 55.3 提升到 54.5。我們的代碼、預訓練模型以及超參數在 TensorFlow 和 PyTorch 中都可以使用。。
網址:
3、XLNet: Generalized Autoregressive Pretraining for Language Understanding
Google CMU
作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
摘要:由于上下文雙向建模的表達能力更強,降噪自編碼類型中的典型代表BERT能夠比自回歸語言模型取得更好的結果。即,上下文建模獲得雙向的信息在Language Understanding中是很重要的。但是BERT存在以下不足:(1)在輸入端依賴mask的掩模的方式,遮蔽部分的輸入信息。(2)忽略了被mask位置之間的依賴性。這兩點在預訓練-微調兩個階段存在不符。即,上述2個方面在預訓練和微調這2個階段之間都是有差異的。在正視了上述優缺點之后,本文提出一種通用(或者廣義,英語原文是generalized)的自回歸預訓練方法:XLNet。XLNet的貢獻在于(1)新的雙向上下文學習方法:分解輸入的順序,對其進行排列組合,并遍歷所有的排列組合,獲得最大似然期望。(2)克服BERT自回歸中的缺陷。XLNet在預訓練中融合Transformer-XL和state-of-the-art自回歸模型的優點。實驗結果:XLNet在20個任務中超出了BERT,且很多是碾壓式地超越。XLNet在其中18個任務中取得了目前最優結果,包括問答、自然語言推理、情感分析和文檔排序。
網址:
4、ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations
作者:Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut
摘要:通常而言,在預訓練自然語言表征時增加模型大小可以提升模型在下游任務中的性能。但在某些情況下,由于 GPU/TPU 內存限制、訓練時間延長以及意外的模型退化等原因,進一步增加模型大小的難度也隨之增加。所以,為了解決這些問題,來自谷歌的研究者提出通過兩種參數削減(parameter-reduction)技術來降低內存消耗,加快 BERT 的訓練速度。綜合實驗表明,ALBERT 的擴展效果要優于原始 BERT。此外,他們還使用了聚焦于句間連貫性建模的自監督損失,并證明這種損失對下游任務中的多語句輸入有持續幫助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基準測試上都取得了新的 SOTA 效果,并且參數量少于 BERT-large。
網址:
?
?更多預訓練語言模型的論文請上: