亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度和大型的預訓練語言模型是各種自然語言處理任務的最新技術。然而,這些模型的巨大尺寸可能會阻礙在實踐中使用它們。最近的一些并行工作使用知識蒸餾來將這些龐大的模型壓縮成小型模型。在這項工作中,我們以多語言命名實體識別(NER)為重點來研究知識蒸餾。特別地,我們研究了幾種提煉策略,并提出了一種利用教師內部表征的階段性優化方案,該方案不考慮教師體系結構,并證明其優于以往工作中所采用的策略。此外,我們還研究了幾個因素的作用,比如未標記數據的數量、注釋資源、模型架構和推理延遲等等。我們證明,我們的方法可以將類mbert教師模型的參數壓縮高達35倍,批量推理的延遲壓縮51倍,而NER超過41種語言的95%的f1分都保留下來。

付費5元查看完整內容

相關內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

我們介紹了一種通過對比圖的結構視圖來學習節點和圖表示的自監督方法。我們表明,與視覺表示學習不同,增加視圖數量到兩個以上或對比多尺度編碼不會提高性能,而最佳性能是通過對比一階鄰居編碼和圖擴散來實現的。在線性評估協議下,我們在8個節點中的8個和圖分類基準上實現了新的最先進的自監督學習結果。例如,在Cora(節點)和reddy - binary(圖形)分類基準上,我們實現了86.8%和84.5%的準確率,相對于之前的最先進水平分別提高了5.5%和2.4%。與監督基準相比,我們的方法在8個基準中有4個優于監督基準。源代碼發布在:

付費5元查看完整內容

人工神經網絡(ANNS)在解決各種認知模式下的感知任務方面顯示出很大的經驗成功。雖然它們只是受到生物大腦的松散啟發,但最近的研究報告稱,從任務優化的神經網絡中提取的表征與大腦中的神經種群之間存在相當多的相似性。神經網絡后來成為一個流行的模型類,用來推斷復雜認知功能下的計算原理,反過來,它們也成為一個自然的實驗平臺,用來應用最初開發的方法來探測神經群體中的信息。在這項工作中,我們利用平均場理論流形分析,從計算神經科學的最新技術,從大規模語境嵌入模型分析語言表示的高維幾何。我們從不同的模型族(BERT, RoBERTa, GPT-2等)中探索表征,并找到跨層深度的語言流形出現的證據(例如詞性流形和組合范疇語法標簽)。我們進一步觀察到,不同的編碼方案用于獲取表示,導致這些語言流形出現在網絡的早期或后期層的差異。此外,我們發現這些流形中線性可分性的出現是由流形半徑、維數和流形間相關性的聯合減少所驅動的。

//arxiv.org/abs/2006.01095

付費5元查看完整內容

無監督復述是自然語言處理中的重要研究課題。我們提出了一種利用模擬退火實現無監督復述的新方法,我們將復述建模為一個離散優化問題,并提出了一個精心設計的目標函數,包括語義相似性、表達多樣性和釋義的語言流暢性等衡量指標。通過執行一系列的局部編輯,在整個句子空間中搜索滿足該目標函數的句子。因為我們的方法是無監督的,不需要平行語料庫進行訓練,因此可以方便地應用于不同領域的復述生成任務。我們在各種基準數據集上(Quora、Wikianswers、MSCOCO和Twitter)評估了本方法,結果表明,與以往的無監督方法相比,我們的方法在自動評估和人工評估方面都具備明顯的優越性。此外,我們無監督方法優于大多數現有的領域自適應監督模型。

付費5元查看完整內容

題目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

簡介: 深度和大型預訓練語言模型是各種自然語言處理任務的最新技術。但是,這些模型的巨大規模可能會阻礙在實踐中使用它們。一些近期和并行的工作使用知識蒸餾將這些巨大的模型壓縮為淺層模型。在這項工作中,我們重點研究多語言命名實體識別(NER)的知識提煉。特別是,我們研究了幾種蒸餾策略,并提出了一個階段性的優化方案,該方案利用了與教師架構無關的教師內部表示形式,并表明它優于先前工作中采用的策略。此外,我們調查了幾個因素的作用,例如未標記數據的數量,注釋資源,模型架構和推理延遲僅舉幾例。我們證明了我們的方法可以對MBERT類教師模型進行大規模壓縮,在參數推斷方面最多可壓縮35倍,在延遲方面則可壓縮51倍,同時為41種語言的NER有95%的F1分數。

付費5元查看完整內容

自然語言處理(NLP)中神經網絡模型的標準歸一化方法是層歸一化(LN)。這不同于計算機視覺中廣泛采用的批量歸一化(BN)。LN在NLP中的優先使用主要是由于經驗觀察,使用BN會導致NLP任務的性能顯著下降;然而,對其根本原因的透徹理解并不總是顯而易見的。在本文中,我們對NLP transformers 模型進行了系統的研究,以了解為什么BN與LN相比性能較差。我們發現,整個批處理維度的NLP數據統計在整個訓練過程中呈現出較大的波動。這導致不穩定,如果BN是天真地執行。為了解決這個問題,我們提出Power 歸一化(PN),一種新的歸一化方案, 解決這個問題(i)放松零均值歸一化的BN, (ii) 將運行二次平均,而不是每批統計數據穩定的波動,和(iii)使用一個近似反向傳播。在溫和的假設下,我們從理論上證明了PN相對于BN會導致更小的Lipschitz常數的損失。此外,我們證明了近似的反向傳播方案會導致有界梯度。我們在一系列NLP任務中對Transformer的PN進行了廣泛的測試,結果表明它的性能顯著優于LN和BN。特別是,PN在IWSLT14/WMT14上的表現比LN好0.4/0.6個BLEU,在PTB/WikiText-103上的表現比LN好5.6/3.0個PPL。

付費5元查看完整內容

我們常常希望將表征性知識從一個神經網絡轉移到另一個神經網絡。例如,將一個大的網絡提煉成一個較小的網絡,將知識從一種感覺模態傳遞到另一種感覺模態,或者將一組模型集成到一個單獨的估計器中。知識蒸餾是解決這些問題的標準方法,它最小化了教師和學生網絡的概率輸出之間的KL分歧。我們證明這一目標忽視了教師網絡的重要結構知識。這激發了另一個目標,通過這個目標,我們訓練學生從老師對數據的描述中獲取更多的信息。我們把這個目標稱為對比學習。實驗表明,我們得到的新目標在各種知識轉移任務(包括單模型壓縮、集成蒸餾和跨模態轉移)上的性能優于知識蒸餾和其他前沿蒸餾器。我們的方法在許多轉移任務中設置了一個新的水平,有時甚至超過教師網絡與知識蒸餾相結合。

付費5元查看完整內容

由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。

這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司