預訓練語言模型如BERT在自然語言理解(NLU)的許多任務中表現出色。模型中的tokens通常是細粒度的,像英語是單詞或sub-words或者是像中文字符。在英語中,例如,有多詞表達形式的自然詞匯單位,因此使用粗粒度標記似乎也是合理的。事實上,細粒度和粗粒度的標記化在學習預訓練語言模型方面都有優缺點。在本文中,我們提出了一種新的基于細粒度和粗粒度標記的預訓練語言模型,稱為AMBERT(一種多粒度的BERT)。對于英語,AMBERT將單詞序列(細粒度令牌)和短語序列(粗粒度令牌)作為標記化后的輸入,使用一個編碼器處理單詞序列,另一個編碼器處理短語序列,利用兩個編碼器之間的共享參數,最后創建單詞的上下文化表示序列和短語的上下文化表示序列。實驗在CLUE, GLUE, SQuAD和RACE基準數據集上進行了中文和英文測試,。結果表明,AMBERT模型在幾乎所有情況下都優于現有的性能最好的模型,特別是對中文的性能改善顯著。
//arxiv.org/pdf/2008.11869.pdf
概述
預訓練模型,如BERT、RoBERTa和ALBERT(Devlin et al., 2018; Liu et al., 2019; Lan et al., 2019) 在自然語言理解(NLU)方面顯示出強大的能力。基于Transformer的語言模型首先在預訓練中從大型語料庫中學習,然后在微調中從下游任務的標記數據中學習。基于Transformer (Vaswani et al ., 2017),通過預訓練的技術,和大數據, 該模型可以有效地捕捉詞法,句法,語義關系的標記輸入文本,在許多NLU任務,如情緒分析、文本蘊涵和機器閱讀理解實現最先進的性能。
例如在BERT中,預訓練主要是基于mask language modeling (MLM)進行的,其中輸入文本中約15%的token被一個特殊的token[mask]蒙住,目的是根據蒙住的文本重建出原始文本。對個別任務分別進行微調,如文本分類、文本匹配、文本跨度檢測等。通常,輸入文本中的標記是細粒度的;例如,它們是英語中的詞或子詞,是漢語中的字。原則上,標記也可以是粗粒度的,即,例如,英語中的短語和漢語中的單詞。英語中有很多多詞的表達,比如“紐約”和“冰淇淋”,短語的使用也似乎是合理的。在漢語中使用單詞(包括單字單詞)更為明智,因為它們是基本的詞匯單位。實際上,所有現有的預訓練語言模型都使用了單粒度(通常是細粒度)的標記。
以前的工作表明,細粒度方法和粗粒度方法各有利弊。細粒度方法中的標記作為詞匯單位不太完整,但它們的表示更容易學習(因為在訓練數據中有更少的標記類型和更多的標記),雖然粗粒度方法中的標記作為詞匯單位更完整,但是它們的表示更難以學習(因為在訓練數據中有更多的標記類型和更少的標記)。此外,對于粗粒度方法,不能保證標記(分割)是完全正確的。有時模棱兩可的存在,最好保留所有標記化的可能性。相比之下,對于細粒度的方法,標記化是在原始級別執行的,不存在“不正確”標記化的風險。
例如,Li et al(2019)觀察到,在漢語語言處理的深度學習中,細粒度模型的表現始終優于粗粒度模型。他們指出,原因是低頻率的單詞(粗粒度的標記)往往沒有足夠的訓練數據,而且往往沒有詞匯表,因此學習到的表示是不夠可靠的。另一方面,之前的工作也證明了在語言模型的預訓練中對粗粒度標記進行掩蔽是有幫助的(Cui et al., 2019;Joshi et al., 2020)。也就是說,盡管模型本身是細粒度的,但是在連續的標記(英語中的短語和漢語中的單詞)上進行屏蔽可以導致學習更準確的模型。
在本文中,我們提出了一個多粒度的BERT模型(AMBERT),它同時使用了細粒度和粗粒度標記。對于英語,AMBERT通過使用兩個編碼器同時構造輸入文本中的單詞和短語的表示來擴展BERT。確切地說,AMBERT首先在單詞和短語級別上進行標記化。然后,它將單詞和短語的嵌入作為兩個編碼器的輸入。它在兩個編碼器中使用相同的參數。最后,它在每個位置上分別獲得該詞的上下文表示和該短語的上下文表示。注意,由于參數共享,AMBERT中的參數數目與BERT中的參數數目相當。AMBERT可以在單詞級和短語級表示輸入文本,以利用這兩種標記方法的優點,并在多個粒度上為輸入文本創建更豐富的表示。
我們使用英文和中文的基準數據集進行了廣泛的實驗,以比較AMBERT和基線以及備選方案。結果表明,無論在中文還是英文中,AMBERT模型的性能都顯著優于單粒度的BERT模型。在英語方面,與谷歌BERT相比,AMBERT的GLUE分數比谷歌BERT高2.0%,RACE分數比谷歌BERT高2.5%,SQuAD 分數比谷歌BERT高5.1%。在漢語中,AMBERT的CLUE平均分提高了2.7%以上。AMBERT可以在CLUE的leader board擊敗所有參數小于200M的基礎模型。
在這項工作中,我們做出了以下貢獻。