亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

付費5元查看完整內容

相關內容

BERT全稱Bidirectional Encoder Representations from Transformers,是預訓練語言表示的方法,可以在大型文本語料庫(如維基百科)上訓練通用的“語言理解”模型,然后將該模型用于下游NLP任務,比如機器翻譯、問答。

圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。

//www.zhuanzhi.ai/paper/852db932624d6feeb7bbd32e67772b27

付費5元查看完整內容

協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。

//www.zhuanzhi.ai/paper/9f6f6b9ea06d5249f6a1e91d9635a429

付費5元查看完整內容

我們提出了一種新的參數化方案來解決在大型神經網絡上運用差分私有SGD所面臨的挑戰,這些挑戰包括1) 存儲單個梯度的巨大存儲成本,2) 附加的噪聲嚴重依賴于維數。具體地說,我們用兩個小維的梯度載波矩陣和一個殘差權矩陣來重新參數化每個權矩陣。我們認為,這樣的重新參數化保持向前/向后過程不變,同時使我們能夠在不計算梯度本身的情況下計算投影梯度。為了學習差分隱私,我們設計了重參數梯度擾動(RGP),它擾亂梯度載體矩陣上的梯度,并從有噪聲的梯度中重建原始權重的更新。重要的是,我們使用歷史更新來尋找梯度載波矩陣,其最優性在線性回歸下得到嚴格證明,并通過深度學習任務得到經驗驗證。RGP顯著降低了內存成本并改進了實用程序。例如,我們首次能夠在BERT模型上應用差分隱私,并在e = 8的四個下游任務上實現了83.9%的平均精度,與非私有基準相比,損失在5%以內,但隱私泄漏風險要低得多。

//www.zhuanzhi.ai/paper/3daeb1dc335f94ac104faf7abb027f98

付費5元查看完整內容

//www.zhuanzhi.ai/paper/d5394f35aef16fb3a4dca59d68fb1882

一個有效的神經網絡結構性能評估方案是神經網絡結構搜索(NAS)成功的關鍵。現有NAS算法通常在訓練時間有限的小型數據集上訓練和評估神經結構。但這樣一種粗糙的評估方式很難對神經網絡結構進行準確評估。本文提出一種新的神經網絡結構評價方案,旨在確定哪個神經網絡結構的性能更好,而不是精確地預測性能絕對值。因此,我們提出了一個結構相對性能預測NAS (ReNAS)。我們將神經結構編碼為特征張量,并利用預測器進一步細化表示。本方法可用于離散搜索,無需額外評估。在NASBench101數據集上抽樣424個(搜索空間的0.1%)神經架構及其標簽已經足夠學習一個準確的架構性能預測器。在NAS-Bench-101和NAS-Bench-201數據集上,我們搜索的神經結構的準確性高于最新的方法,顯示了本方法的優先性。

付費5元查看完整內容

基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。

付費5元查看完整內容

NLP自然語言處理在高德各個業務線發揮重要作用,例如動態事件命名實時識別,搜索場景用戶語義理解,共享出行通話文本自動判責等。

而NLP領域近期最重要的進展當屬預訓練模型,Google發布的BERT預訓練語言模型一經推出就霸占了NLP各大榜單,提升了諸多 NLP 任務的性能,在11種不同NLP測試中創出最佳成績,預訓練模型成為自然語言理解主要趨勢之一。

預訓練模型通常包括兩個階段: 第一階段是在大型語料庫根據給定上下文預測特定文本。 第二階段是在特定的下游任務進行finetuning。

BERT的強大毫無疑問,但由于模型有上億參數量體型龐大,單個樣本計算一次的開銷動輒上百毫秒,因而給部署線上服務帶來很大的困擾,如何讓BERT瘦身是工業界以及學術界重點攻堅問題。

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知識蒸餾的概念,將teacher知識壓縮到student網絡,student網絡與teacher網絡具有相同的預測能力但擁有更快的推理速度,極大節省了計算資源。

目前前沿的技術有微軟的 BERT-PKD (Patient Knowledge Distillation for BERT),huggingface 的 DistilBERT,以及華為TinyBERT。其基本思路都是減少 transformer encoding 的層數和 hidden size 大小,實現細節上各有不同,主要差異體現在 loss 的設計上。

然而知識蒸餾最核心問題是如何捕捉到模型潛在語義信息,而之前工作焦點在loss設計上,而這種方式讓模型關注在單個樣本的表達信息細節上,對于捕捉潛在語義信息無能為力。

高德智能技術中心研發團隊在工作中設計了對比學習框架進行知識蒸餾,并在此基礎上提出COS-NCE LOSS,通過優化COS-NCE LOSS拉近正樣本,并拉遠負樣本距離,能夠讓模型有效的學習到潛在語義表達信息(LRC-BERT對比DistillBERT,BERT-PKD并不限制模型的結構,student網絡可以靈活的選擇模型結構以及特征維度)。

同時為進一步讓LRC-BERT更加有效的學習,我們設計了兩階段訓練過程。最后LRC-BERT在word vector embedding layer引入梯度擾動技術提升模型魯棒性。

本文的主要貢獻點概括如下:

  • 提出了對比學習框架進行知識蒸餾,在此基礎上提出COS-NCE LOSS可以有效的捕捉潛在語義信息。
  • 梯度擾動技術首次引入到知識蒸餾中,在實驗中驗證其能夠提升模型的魯棒性。
  • 提出使用兩階段模型訓練方法更加高效的提取中間層潛在語義信息。

本文在General Language Understanding Evaluation (GLUE)評測集合取得了蒸餾模型的SOTA效果。

付費5元查看完整內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

自然語言處理(NLP)最近取得了巨大的成功,它使用了帶有數億個參數的巨大的預先訓練的模型。然而,這些模型存在模型大小過大和延遲時間長等問題,因此無法部署到資源有限的移動設備上。在本文中,我們提出了壓縮和加速流行的BERT模型的MobileBERT。與最初的BERT一樣,MobileBERT是與任務無關的,也就是說,它可以通過簡單的微調應用于各種下游NLP任務。基本上,MobileBERT是BERT_LARGE的瘦版,同時配備了瓶頸結構和精心設計的自關注和前饋網絡之間的平衡。為了訓練MobileBERT,我們首先訓練一個特別設計的教師模型,一個倒瓶頸合并BERT_LARGE模型。然后,我們把這個老師的知識傳遞給MobileBERT。實證研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同時在著名的基準上取得了有競爭力的結果。在GLUE的自然語言推斷任務中,MobileBERT實現了GLUEscore o 77.7(比BERT_BASE低0.6),在Pixel 4手機上實現了62毫秒的延遲。在team v1.1/v2.0的問題回答任務中,MobileBERT獲得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。

付費5元查看完整內容

由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。

這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司