自然語言處理(NLP)最近取得了巨大的成功,它使用了帶有數億個參數的巨大的預先訓練的模型。然而,這些模型存在模型大小過大和延遲時間長等問題,因此無法部署到資源有限的移動設備上。在本文中,我們提出了壓縮和加速流行的BERT模型的MobileBERT。與最初的BERT一樣,MobileBERT是與任務無關的,也就是說,它可以通過簡單的微調應用于各種下游NLP任務。基本上,MobileBERT是BERT_LARGE的瘦版,同時配備了瓶頸結構和精心設計的自關注和前饋網絡之間的平衡。為了訓練MobileBERT,我們首先訓練一個特別設計的教師模型,一個倒瓶頸合并BERT_LARGE模型。然后,我們把這個老師的知識傳遞給MobileBERT。實證研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同時在著名的基準上取得了有競爭力的結果。在GLUE的自然語言推斷任務中,MobileBERT實現了GLUEscore o 77.7(比BERT_BASE低0.6),在Pixel 4手機上實現了62毫秒的延遲。在team v1.1/v2.0的問題回答任務中,MobileBERT獲得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。
Transformers 在自然語言處理(NLP)任務中是普遍存在的,但由于計算量大,很難部署到硬件上。為了在資源受限的硬件平臺上實現低延遲推理,我們提出使用神經架構搜索設計硬件感知轉換器(HAT)。我們首先構造了一個具有任意編碼-解碼器關注和異構層的大設計空間。然后我們訓練一個超級Transformers,它能覆蓋設計空間中的所有候選Transformers ,并有效地產生許多具有重量共享的次級Transformers。最后,我們執行帶有硬件延遲約束的進化搜索,以找到專用于在目標硬件上快速運行的專用子轉換器。對四種機器翻譯任務的大量實驗表明,HAT可以發現不同硬件(CPU、GPU、IoT設備)的有效模型。在Raspberry Pi-4上運行WMT’14翻譯任務時,HAT可以實現3×加速,3.7×比基準Transformer小;2.7×加速,比進化后的Transformer小3.6倍,搜索成本低12,041倍,沒有性能損失。
題目: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
摘要:
大規模的預訓練語言模型(如BERT)給NLP應用帶來了顯著的改進。然而,它們也因推理速度慢而臭名昭著,這使得它們很難部署到實時應用程序中。我們提出了一個簡單而有效的方法DeeBERT,來加速BERT推理。我們的方法允許樣本在不經過整個模型的情況下提前退出。實驗表明,在模型質量下降最小的情況下,DeeBERT可以節省高達40%的推理時間。進一步的分析顯示了伯特變壓器層的不同行為,并揭示了它們的冗余性。我們的工作為有效地將深度轉換模型應用于下游任務提供了新的思路。
機器學習模型在自然語言處理中的應用最近的進展是由評估各種任務模型的基準驅動的。然而,這些覆蓋范圍廣泛的基準測試主要局限于英語,盡管人們對多語言模型的興趣越來越大,但是仍然缺少一個基準測試來全面評估這些方法對各種語言和任務的影響。為此,我們引入了多語言編碼器XTREME基準的跨語言轉換評估,這是一個多任務基準,用于評估40種語言和9個任務的多語言表示的跨語言泛化能力。我們證明,雖然英語測試的模型在許多任務上達到了人類的表現,但在跨語言遷移模型的表現上仍然有相當大的差距,特別是在句法和句子檢索任務上。在不同的語言之間也有廣泛的結果。我們發布基準測試是為了鼓勵對跨語言學習方法的研究,這種方法可以將語言知識傳遞到不同的、有代表性的語言和任務中。
論文摘要:
預先訓練自然語言表示時,增加模型大小可改善下游任務的性能。 但是,由于GPU / TPU內存的限制,更長的訓練時間以及意外的模型降級,在某些時候,進一步的模型增加變得更加困難。 為了解決這些問題,我們提出了兩種參數減少技術,以降低內存消耗并提高BERT的訓練速度。 全面的經驗證據表明,與原始BERT相比,我們提出的方法所導致的模型可擴展性更好。 我們還使用了一個自我監督的損失,該損失集中于對句子間的連貫性進行建模,并表明它始終可以幫助多句子輸入的下游任務。 因此,我們的最佳模型在GLUE,RACE和SQuAD基準上建立了最新的技術成果,而參數卻比BERT-large少。
論文目錄:
介紹(Introduction)
相關工作(Related work)
ALBERT因素
實驗(Experiments)
討論(Discussion)