論文題目: Pruning a BERT-based Question Answering Model
論文摘要: 我們研究了通過從基本的BERT模型中剪除參數來壓縮基于BERT的問答系統。我們從為2.0小隊訓練的模型開始,引入允許變壓器的選定部分被單獨消除的門。具體來說,我們研究:(1)減少每個變壓器中的注意頭數目,(2)減少每個變壓器的前向子層的中間寬度,以及(3)減少嵌入尺寸。我們比較了幾種確定這些閾值的方法。我們發現剪枝注意頭和前饋層的結合幾乎使解碼速度加倍,只有1.5f點的精度損失。
作者介紹: Jeffrey McCarley,IBM T.J.沃森研究中心
自然語言處理(NLP)最近取得了巨大的成功,它使用了帶有數億個參數的巨大的預先訓練的模型。然而,這些模型存在模型大小過大和延遲時間長等問題,因此無法部署到資源有限的移動設備上。在本文中,我們提出了壓縮和加速流行的BERT模型的MobileBERT。與最初的BERT一樣,MobileBERT是與任務無關的,也就是說,它可以通過簡單的微調應用于各種下游NLP任務。基本上,MobileBERT是BERT_LARGE的瘦版,同時配備了瓶頸結構和精心設計的自關注和前饋網絡之間的平衡。為了訓練MobileBERT,我們首先訓練一個特別設計的教師模型,一個倒瓶頸合并BERT_LARGE模型。然后,我們把這個老師的知識傳遞給MobileBERT。實證研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同時在著名的基準上取得了有競爭力的結果。在GLUE的自然語言推斷任務中,MobileBERT實現了GLUEscore o 77.7(比BERT_BASE低0.6),在Pixel 4手機上實現了62毫秒的延遲。在team v1.1/v2.0的問題回答任務中,MobileBERT獲得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。
題目: EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
摘要:
卷積神經網絡(ConvNets)通常是在固定的資源預算下開發的,如果有更多的資源可用,則會進行擴展以獲得更高的精度。在這篇論文中,我們系統地研究了模型縮放,并發現仔細平衡網絡的深度、寬度和分辨率可以獲得更好的性能。基于這一觀察結果,我們提出了一種新的標度方法,使用簡單而高效的復合系數來均勻地標度深度/寬度/分辨率的所有維度。我們證明了該方法在擴展MobileNets和ResNet方面的有效性。為了更進一步,我們使用神經結構搜索來設計一個新的基線網絡,并將其擴展以獲得一系列被稱為EfficientNets的模型,這些模型比以前的ConvNets獲得了更好的準確性和效率。特別是,我們的EfficientNet-B7在ImageNet上達到了最先進的84.4% top-1 / 97.1% top-5的精度,同時比現有最好的ConvNet小8.4倍,推理速度快6.1倍。我們的效率網在CIFAR-100(91.7%)、Flowers(98.8%)和其他3個傳輸學習數據集上傳輸良好,并且達到了最先進的精度,參數少了一個數量級。
作者:
Quoc V. Le目前是谷歌研究科學家,斯坦福大學計算機科學系人工智能實驗室博士生。研究領域是機器學習和人工智能。個人官網:
This technical note describes a new baseline for the Natural Questions. Our model is based on BERT and reduces the gap between the model F1 scores reported in the original dataset paper and the human upper bound by 30% and 50% relative for the long and short answer tasks respectively. This baseline has been submitted to the official NQ leaderboard at ai.google.com/research/NaturalQuestions. Code, preprocessed data and pretrained model are available at //github.com/google-research/language/tree/master/language/question_answering/bert_joint.