亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近來,基于Transformer結構的預訓練語言模型(如BERT和RoBERTa)在自然語言處理任務上取得了顯著成果。但是,這些模型參數量巨大,限制了其在存儲、計算、功耗等性能有限的邊緣設備上的部署。將BERT部署到這些設備的困難體現在兩個方面:(1)各種終端設備性能各不一樣,怎么給不同性能的設備部署適合自身性能的模型;(2)同一個終端設備在不同的情況下可接受的運行BERT模型的存儲、計算和功耗也不一樣。為了解決這個問題,我們提出了一種寬度和深度可伸縮的動態預訓練模型DynaBERT。與以往將BERT網絡壓縮到固定大小或者只在深度方向做可伸縮的方法相比,本文第一次提出來在BERT寬度方向進行可伸縮訓練。寬度可伸縮通過調整Transformer層可以并行計算的注意力頭和全連接層中間層神經元數目達到。本文還針對寬度方向提出了新穎的網絡重連方式使得重要的注意力頭和神經元被更多的子網絡共享。在基準數據集上的實驗結果表明,該模型通過新穎的知識蒸餾策略顯著提升了子網絡在NLU任務上的準確率。該模型可以根據不同設備的硬件性能部署不同寬度和深度的子網絡。并且一旦某個設備部署了BERT模型,該設備也可以根據自身資源條件動態加載已部署模型的一部分進行推理。代碼已經開源在//github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

付費5元查看完整內容

相關內容

BERT全稱Bidirectional Encoder Representations from Transformers,是預訓練語言表示的方法,可以在大型文本語料庫(如維基百科)上訓練通用的“語言理解”模型,然后將該模型用于下游NLP任務,比如機器翻譯、問答。

雖然BERT等大規模的預訓練語言模型在各種自然語言理解任務上取得了巨大的成功,但如何高效、有效地將它們合并到序列到序列模型和相應的文本生成任務中仍然是一個不容忽視的問題。為了解決這個問題,我們提出采用兩種不同的BERT模型分別作為編碼器和解碼器,并通過引入簡單的和輕量級的適配器模塊對它們進行微調,這些適配器模塊插入到BERT層之間,并針對特定的任務數據集進行調優。這樣,我們得到了一個靈活高效的模型,它能夠聯合利用源端和目標端BERT模型中包含的信息,同時繞過了災難性遺忘問題。框架中的每個組件都可以看作是一個插件單元,使得框架靈活且任務不相關。該框架基于并行序列譯碼算法掩模預測,考慮了BERT算法的雙向和條件獨立性,易于適應傳統的自回歸譯碼。我們在神經機器翻譯任務上進行了廣泛的實驗,在實驗中,所提出的方法始終優于自回歸基線,同時將推理延遲減少了一半,并且在IWSLT14德語-英語/WMT14德語-英語翻譯中達到36.49/33.57的BLEU分數。當采用自回歸譯碼時,該方法在WMT14英-德/英-法翻譯中的BLEU得分達到30.60/43.56,與最先進的基線模型相當。

//arxiv.org/abs/2010.06138

付費5元查看完整內容

近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。

付費5元查看完整內容

像BERT和RoBERTa這樣的預訓練語言模型,盡管在許多自然語言處理任務中功能強大,但在計算和內存方面都很昂貴。為了緩解這個問題,一種方法是在部署之前對特定任務進行壓縮。然而,最近的BERT壓縮工作通常將大的BERT模型壓縮到一個固定的更小的尺寸,并不能完全滿足不同硬件性能的不同邊緣器件的要求。在本文中,我們提出了一種新的動態BERT模型(簡稱DynaBERT),它可以在自適應的寬度和深度上運行。DynaBERT的訓練過程包括首先訓練一個寬度自適應的BERT,然后通過從全尺寸的模型中提取知識到小的子網絡中,允許自適應的寬度和深度。網絡重布線也被用來讓更多的子網絡共享更重要的注意力頭部和神經元。在各種效率約束下的綜合實驗表明,我們提出的動態BERT(或RoBERTa)在其最大尺寸下的性能與BERT(或RoBERTa)相當,而在較小的寬度和深度下,動態BERT(或RoBERTa)的性能始終優于現有的BERT壓縮方法。

付費5元查看完整內容
北京阿比特科技有限公司