亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

一旦抽象數學計算被用于數字計算機上的計算,這些計算中數值的有效表示、操作和通信的問題就出現了。與數字表示問題密切相關的是量化問題:一組連續的實數應該以何種方式分布在一組固定的離散數上,以最小化所需的位數,并使伴隨的計算的準確性最大化?當內存和/或計算資源受到嚴重限制時,量化這個長期存在的問題就顯得尤為重要。由于神經網絡模型在計算機視覺、自然語言處理和相關領域的出色表現,這一問題近年來已經成為一個前沿問題。從浮點表示方式移動到以4位或更少表示的低精度固定整數值可以將內存占用和延遲減少16倍;事實上,4倍到8倍的縮小在這些應用中經常被實現。因此,量化最近作為神經網絡計算的有效實現的一個重要和非常活躍的研究子領域出現就不足為奇了。在這篇文章中,我們調研了在深度神經網絡計算中量化數值問題的方法,包括當前方法的優點/缺點。通過這個調研和它的組織,我們希望已經提出了一個有用的量化神經網絡研究綜述,以方便在這一領域的未來研究的拓展。

//www.zhuanzhi.ai/paper/c451f4f98fbca30e3edee0a9751a0b93

引言

在過去的十年中,我們已經觀察到神經網絡(NNs)在精度上的顯著改進,用于解決廣泛的問題,通常是通過高度過參數化的模型實現的。雖然這些過度參數化(因此非常大)的神經網絡模型的精度顯著提高了,但這些模型的純粹規模?相等的貢獻。這意味著不可能為許多資源受限的應用程序部署它們。這給在資源受限的環境下實現普適深度學習帶來了問題,普適深度學習需要實時推理,具有低能耗和高精度。這種普遍深度學習預計將對實時智能醫療保健監控、自動駕駛、音頻分析和語音識別等廣泛應用產生重大影響。

要實現高效、實時的、具有最優精度的神經網絡,需要重新思考神經網絡模型的設計、訓練和部署[71]。有大量的文獻專注于通過使NN模型更有效(在延遲、內存占用和能量消耗等方面)來解決這些問題,同時仍然提供最佳的準確性/泛化權衡。這些努力可以大致分為以下幾類。

a) 設計高效的NN模型架構: 一些工作都集中在優化神經網絡模型結構的微架構(101,111,127,167,168,212,253,280](例如,內核類型深度方面卷積或低秩分解等)以及它macro-architecture(100、101、104、110、214、233](如模塊類型,例如殘差,或inception)。這里的經典技術大多使用手動搜索找到新的體系結構模塊,這是不可擴展的。因此,一個新的工作是設計自動機器學習(AutoML)和神經結構搜索(NAS)方法。這些方法的目的是在給定模型尺寸、深度和/或寬度的約束下,自動找到正確的NN架構[161,194,232,245,252,291]。我們向有興趣的讀者推薦[54]來了解NAS方法的最新調查。

b) 協同設計網絡架構和硬件: 最近的另一項工作是為特定的目標硬件平臺調整(并協同設計)網絡架構。這是因為NN組件的開銷(在延遲和能量方面)是依賴于硬件的。例如,具有專用緩存層次結構的硬件可以比沒有專用緩存層次結構的硬件更有效地執行受帶寬限制的操作。與神經網絡體系結構設計類似,體系結構-硬件協同設計的最初方法是手動的,即由專家調整/更改神經網絡體系結構[70],然后使用自動化的AutoML和/或NAS技術[22,23,100,252]。

c) 剪枝: 另一種減少網絡的內存占用和計算成本的方法是運用剪枝。在剪枝過程中,去掉敏感性小的神經元,得到稀疏計算圖。這里,具有小顯著性的神經元是指那些去除后對模型輸出/損失函數影響最小的神經元。剪枝方法可以大致分為非結構剪枝[49,86,139,143,191,257]和結構剪枝[91,106,156,166,274,275,279]。在非結構化剪枝中,我們可以去除那些不太顯著的神經元,無論它們在哪里出現。該方法可以進行主動剪枝,去除大部分神經網絡參數,對模型的泛化性能影響很小。然而,這種方法導致了稀疏矩陣操作,這是眾所周知的難以加速,并且通常是內存受限的[21,66]。另一方面,使用結構化剪枝,一組參數(例如,整個卷積濾波器)被刪除。這可以改變層和權重矩陣的輸入和輸出形狀,從而仍然允許密集的矩陣操作。然而,積極的結構修剪往往導致顯著的精度退化。具有高水平修剪/稀疏性的訓練和推理,同時保持最先進的性能,仍然是一個開放問題[16]。有興趣的讀者請參閱[66,96,134],了解修剪/稀疏性相關工作的詳細情況。

d) 知識蒸餾: 模型蒸餾[3,95,150,177,195,207,269,270]涉及訓練一個大模型,然后作為教師使用它來訓練一個更緊湊的模型。在對學生模型的訓練中,不是使用“硬”的類別標簽,模型蒸餾的關鍵思想是利用老師產生的“軟”概率,因為這些概率可以包含更多關于輸入的信息。盡管在蒸餾方面做了大量的工作,但這里的一個主要挑戰是僅用蒸餾就能獲得高壓縮比。與量化和剪枝相比,在壓縮≥4×的情況下(具有INT8和較低的精度),知識蒸餾方法在壓縮強度大的情況下具有不可忽略的精度退化。然而,將知識精餾與之前的方法(即量化和剪枝)相結合已經取得了巨大的成功[195]。

e) 量化: 最后,量化方法在神經網絡模型的訓練和推理方面都表現出了巨大和一致的成功。雖然數字表示和量化的問題和數字計算一樣古老,但神經網絡提供了獨特的改進機會。雖然對量化的研究主要集中在推理方面,但我們應該強調量化在神經網絡訓練方面取得了重要的成功[10,35,57,130,247]。特別是,半精度和混合精度訓練的突破[41,72,79,175]是人工智能加速器實現一個數量級更高吞吐量的主要驅動因素。然而,事實證明,如果沒有顯著的調整,很難達到半精度以下,而且最近的大多數量化研究都集中在推理上。這種用于推理的量化是本文的重點。

f) 量化和神經科學: 神經網絡量化是神經科學領域的一項工作,表明人類大腦以離散/量化的形式存儲信息,而不是以連續的形式存儲信息[171,236,240]。這一觀點的一個普遍理由是,以連續形式存儲的信息不可避免地會被噪聲(噪聲總是存在于物理環境中,包括我們的大腦,它可以由熱噪聲、感覺噪聲、外部噪聲、突觸噪聲等引起)所損壞[27,58]。然而,離散信號表示對這種低水平噪聲更有魯棒性。其他原因,包括離散表示更高的泛化能力[128,138,242]和有限資源下更高的效率[241],也被提出。我們建議讀者參考[228]對神經科學文獻中相關工作的全面回顧。

付費5元查看完整內容

相關內容

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而,隨著深度學習模型的不斷改進,其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此,關注模型的度量也變得很重要,而不僅僅是它的質量。我們提出深度學習中的效率問題,隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼,供從業者優化他們的模型訓練和部署。我們相信,這是在高效深度學習領域的第一次全面綜述,涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是,這個綜述將為讀者提供心理模型和必要的理解,應用通用的效率技術,立即獲得顯著的改進,并促使他們的想法,進一步的研究和實驗,以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里,利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年,多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92],以首席開發人員Alex Krizhevsky的名字命名),其表現比排名第二的好41%。這一開創性工作的結果是,人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構,如VGGNet [141], Inception [146], ResNet[73]等,在隨后幾年的ImageNet競賽中連續打破了先前的記錄,同時它們的占用空間(模型大小,延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注,其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1),以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能,圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如,GPT-3包含1750億個參數,僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本,這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務,但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時,深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型,則可能是免費的),但是部署并讓推理運行很長一段時間,在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說,數據中心的碳足跡也是一個非常現實的問題,這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上),原因有很多(隱私、連通性、響應性)。因此,必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時,能夠使用盡可能少的數據進行訓練是至關重要的。因此,使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡),現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好,但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎,等等?更具體地說,模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題,比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題,模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中,我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們,前四個集中在建模上,最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法,通常是通過壓縮層數。一個經典的例子是量化[82],它試圖壓縮一層的權矩陣,通過降低其精度(例如。(從32位浮點值到8位無符號整數),質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤,需要更少的數據,收斂更快等)。如果需要的話,通過削減參數的數量,可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75],它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61],優化超參數有助于提高精度,然后可以用較少參數的模型進行交換。類似地,體系結構搜索[167]也屬于這一類,其中體系結構本身進行了調優,搜索有助于找到一個模型,該模型既優化了損耗/準確性,又優化了一些其他指標,如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等),是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如,卷積層引入了參數共享用于圖像分類,避免了為每個輸入像素學習單獨的權值,也使其對過擬合具有魯棒性。同樣,注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后,我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架,如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具,如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如,要獲得量化模型的規模和延遲改進,我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

付費5元查看完整內容

深度學習不斷增長的能源耗費和性能成本,促使社區通過選擇性修剪組件來減少神經網絡的規模。與生物學上的相似之處是,稀疏網絡即使不能比原來的密集網絡更好,也能得到同樣好的推廣。稀疏性可以減少常規網絡的內存占用,以適應移動設備,也可以縮短不斷增長的網絡的訓練時間。在本文中,我們調研了深度學習中的稀疏性之前的工作,并為推理和訓練提供了一個廣泛的稀疏化教程。我們描述了去除和添加神經網絡元素的方法,實現模型稀疏性的不同訓練策略,以及在實踐中利用稀疏性的機制。我們的工作從300多篇研究論文中提煉思想,并為希望利用稀疏性的實踐者提供指導,以及為目標是推動前沿發展的研究人員提供指導。我們在稀疏化中包括必要的數學方法背景,描述諸如早期結構適應、稀疏性和訓練過程之間的復雜關系等現象,并展示在真實硬件上實現加速的技術。我們還定義了一個修剪參數效率的度量,可以作為不同稀疏網絡比較的基線。最后,我們推測稀疏性如何改善未來的工作,并概述該領域的主要開放問題。

在計算機視覺、自然語言處理、知識表示、推薦系統、藥物發現等領域,深度學習在解決非常復雜的現實世界問題方面展現了無與倫比的前景。隨著這一發展,機器學習領域正從傳統的特征工程向神經結構工程發展。然而,對于如何選擇正確的架構來解決特定的任務,我們仍然知之甚少。在模型設計中,采用了卷積層中的平移等方差、遞歸、結構權重共享、池化或局部化等方法來引入強歸納偏差。然而,任務所需的精確模型大小和容量仍然未知,一個常見的策略是訓練過度參數化的模型,并將它們壓縮成更小的表示。

生物的大腦,特別是人類的大腦,是分層的、稀疏的和周期性的結構[Friston 2008],我們可以得出一些類似于今天人工神經網絡中的歸納偏差。稀疏性在生物大腦的縮放中扮演著重要的角色——大腦的神經元越多,大腦就越稀疏[Herculano-Houzel et al. 2010]。此外,研究表明,人類的大腦開始稀疏,在大量修剪之后有一個致密化的早期階段,然后保持在一個相對穩定的稀疏水平。然而,即使是完全發育成熟的大腦,每天也會改變多達40%的突觸[Hawkins 2017]。許多今天的工程修剪技術具有直觀的生物學類比,我們將在整篇文章中提到并在第8節討論。然而,計算基質(生物組織和CMOS)導致了非常不同的限制。

人工深度學習模型傳統上是密集和過度參數化的,有時甚至可以記憶數據中的隨機模式[Zhang et al. 2017],或者95%的參數可以從剩余的5%中預測出來[Denil et al. 2014]。這可能與經驗證據有關,表明使用隨機梯度下降(SGD)訓練過度參數化模型比使用更緊湊的表示更容易Glorot et al. 2011a; Kaplan et al. 2020; Li et al. 2020a; Mhaskar and Poggio 2016]. Brutzkus et al. [2017] 和Du et al. [2019]表明,這種梯度下降技術可證明以良好的泛化最優地訓練(淺)過參數化網絡。具體來說,他們指出,過度參數化會導致一種強大的“類凸性”,這有利于梯度下降的收斂性。最近的理論結果[Allen-Zhu et al. 2019; Neyshabur et al. 2018]似乎支持這些發現,并指出訓練動力學和泛化依賴于過度參數化。

這種過度參數化是以模型訓練和推理過程中額外的內存和計算工作為代價的。特別是,對于移動設備和電池驅動設備的推理,以及在成本意識較強的環境下,稀疏模型表示可以帶來巨大的節省。具體地說,稀疏模型更容易存儲,并且常常節省計算量。此外,過度參數化的模型往往會過度擬合數據,并降低泛化到看不見的例子。緊跟著Occam 's razor,稀疏化也可以看作是某種形式的正則化,可以通過有效降低模型中的噪聲來提高模型質量。具體來說,最小描述長度框架提供了一個具有貝葉斯解釋和數據壓縮清晰解釋的吸引人的公式[Grünwald 2007],我們稍后會討論。

許多工作,特別是老的工作,集中在通過稀疏化改進泛化。早期的研究[Mozer和Smolensky 1988]關注的是具有數十到數百個參數的模型,也說明了它們的簡化版本有更好的可解釋性。然而,隨著今天的模型使用數百萬或數十億個參數,稀疏性是否會顯著提高可解釋性和可解釋性就有待觀察了。Bartoldson等人[2020]最近的工作將剪枝作為“噪聲”,類似于dropout或數據增強來解釋泛化。其他近期的研究發現,稀疏性可以提高對抗對抗攻擊的魯棒性[Cosentino et al. 2019; Gopalakrishnan et al. 2018; Guo et al. 2018; Madaan et al. 2020; Rakin et al. 2020; Sehwag et al. 2020; Verdenius et al. 2020]。

最近,一組更大的工作集中在提高計算效率的同時保持模型的精度。現代網絡在計算上的使用是昂貴的——例如,Inception-V3 [Szegedy等人2016],一個最先進的目標識別網絡,需要57億次算術運算和2700萬個參數進行評估;GPT-3 [Brown et al. 2020],一種最先進的自然語言處理網絡的實驗狀態需要1750億個參數(350 GiB,假設每個參數16位)來評估。此外,訓練這樣的深度神經模型變得越來越昂貴,而且最大的語言模型已經需要超級計算機進行訓練,每次訓練可能要花費數百萬美元[Brown等人2020]。因此,研究訓練過程中的稀疏性對于管理訓練成本是非常重要的。

我們綜述的結果表明,今天的稀疏化方法可以導致模型尺寸減少10-100倍,并在計算、存儲和能源效率方面獲得相應的理論收益,而不會顯著降低精度。如果這些加速是在高效的硬件實現中實現的,那么所獲得的性能可能會導致一個階段的變化,使更復雜的、可能是革命性的任務得到實際解決。此外,我們還觀察到,在稀疏化方法方面的進展速度正在加快,因此,即使在我們編寫本論文的最后幾個月里,也發表了一些改進現有技術的新方法。

我們的目標是總結現有的技術,并且在第2-5節首先關注設計模型的純定性方面。然后,在第6節和第7節中,我們將解釋實現這些設計組合的架構選擇,包括性能結果。

付費5元查看完整內容

近年來,圖神經網絡(GNNs)由于具有建模和從圖結構數據中學習的能力,在機器學習領域得到了迅猛發展。這種能力在數據具有內在關聯的各種領域具有很強的影響,而傳統的神經網絡在這些領域的表現并不好。事實上,正如最近的評論可以證明的那樣,GNN領域的研究已經迅速增長,并導致了各種GNN算法變體的發展,以及在化學、神經學、電子或通信網絡等領域的突破性應用的探索。然而,在目前的研究階段,GNN的有效處理仍然是一個開放的挑戰。除了它們的新穎性之外,由于它們依賴于輸入圖,它們的密集和稀疏操作的組合,或者在某些應用中需要伸縮到巨大的圖,GNN很難計算。在此背景下,本文旨在做出兩大貢獻。一方面,從計算的角度對GNNs領域進行了綜述。這包括一個關于GNN基本原理的簡短教程,在過去十年中該領域發展的概述,以及在不同GNN算法變體的多個階段中執行的操作的總結。另一方面,對現有的軟硬件加速方案進行了深入分析,總結出一種軟硬件結合、圖感知、以通信為中心的GNN加速方案。

付費5元查看完整內容

近年來,隨著深度學習的飛速發展,深度神經網絡受到了越來越多的關注,在許多應用領域取得了顯著效果。通常,在較高的計算量下,深度神經網絡的學習能力隨著網絡層深度的增加而不斷提高,因此深度神經網絡在大型數據集上的表現非常卓越。然而,由于其計算量大、存儲成本高、模型復雜等特性,使得深度學習無法有效地應用于輕量級移動便攜設備。因此,壓縮、優化深度學習模型成為目前研究的熱點,當前主要的模型壓縮方法有模型裁剪、輕量級網絡設計、知識蒸餾、量化、體系結構搜索等。通過對以上方法的性能、優缺點和最新研究成果進行分析總結,對未來研究方向進行了展望。

付費5元查看完整內容

本文通過最小化驗證損失代理來搜索最佳神經網絡結構。現有的神經結構搜索(NAS)方法在給定最新的網絡權重的情況下發現基于驗證樣本的最佳神經網絡結構。但是,由于在NAS中需要多次重復進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。在本文中,我們建議通過學習從神經網絡結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網絡結構識別為該代理驗證損失范圍的最小值。同時,本文進一步提出了一種新的采樣策略,可以有效地近似損失情況。理論分析表明,與均勻采樣相比,我們的采樣策略可以達到更低的錯誤率和更低的標簽復雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網絡結構。

付費5元查看完整內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

【導讀】深度神經網絡在很多監督任務都達到了SOTA性能,但是其計算量是個挑戰。來自MIT 教授 Vivienne Sze等學者發布了關于《深度神經網絡的高效處理》著作,本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。值得關注。

//www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530

本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。DNNs目前廣泛應用于許多人工智能(AI)應用,包括計算機視覺、語音識別和機器人技術。雖然DNNs在許多人工智能任務中提供了最好的性能,但它以高計算復雜度為代價。因此,在不犧牲準確性或增加硬件成本的情況下,能夠有效處理深層神經網絡以提高指標(如能源效率、吞吐量和延遲)的技術對于在人工智能系統中廣泛部署DNNs至關重要。

本書中包括了DNN處理的背景知識;設計DNN加速器的硬件架構方法的描述和分類;評價和比較不同設計的關鍵指標;DNN處理的特點是服從硬件/算法的共同設計,以提高能源效率和吞吐量;以及應用新技術的機會。讀者將會發現對該領域的結構化介紹,以及對現有工作中關鍵概念的形式化和組織,從而提供可能激發新想法的見解。

深度神經網絡(DNNs)已經變得非常流行; 然而,它們是以高計算復雜度為代價的。因此,人們對有效處理DNNs產生了極大的興趣。DNN加速的挑戰有三:

  • 為了實現高性能和效率
  • 提供足夠的靈活性,以滿足廣泛和快速變化的工作負載范圍
  • 能夠很好地集成到現有的軟件框架中。

目錄內容:

第一部分理解深層神經網絡

  • 介紹
  • 深度神經網絡概述

第二部分處理DNNs的硬件設計

  • 關鍵量度和設計目標
  • 內核計算
  • 設計DNN加速器
  • 專用硬件上的操作映射

第三部分,DNN硬件和算法的協同設計

  • 減少精度
  • 利用稀疏
  • 設計高效的DNN模型
  • 先進技術
  • 結論

第一個模塊旨在提供DNN領域的總體背景和了解DNN工作負載的特點。

  • 第一章提供了DNNs為什么重要的背景,他們的歷史和他們的應用。
  • 第二章概述了神經網絡的基本組成部分和目前常用的神經網絡模型。還介紹了用于DNN研究和開發的各種資源。這包括各種軟件框架的討論,以及用于訓練和評估的公共數據集。

第二部分主要介紹處理DNNs的硬件設計。它根據定制程度(從通用平臺到完全定制硬件)討論各種架構設計決策,以及在將DNN工作負載映射到這些架構時的設計考慮。同時考慮了時間和空間架構。

  • 第三章描述了在設計或比較各種DNN加速器時應該考慮的關鍵指標。
  • 第四章描述了如何處理DNN內核,重點關注的是時序架構,比如cpu和gpu。為了獲得更高的效率,這類架構通常具有緩存層次結構和粗粒度的計算能力,例如向量指令,從而使計算結果更高效。對于這樣的架構,DNN處理通常可以轉化為矩陣乘法,這有很多優化的機會。本章還討論了各種軟件和硬件優化,用于加速這些平臺上的DNN計算,而不影響應用程序的精度。
  • 第五章介紹了DNN處理專用硬件的設計,重點介紹了空間架構。它強調了用于處理DNN的硬件的處理順序和產生的數據移動,以及與DNN的循環嵌套表示的關系。循環嵌套中的循環順序稱為數據流,它決定了移動每個數據塊的頻率。循環嵌套中的循環限制描述了如何將DNN工作負載分解成更小的塊,稱為平鋪/阻塞,以說明在內存層次結構的不同級別上有限的存儲容量。
  • 第六章介紹了將DNN工作負載映射到DNN加速器的過程。它描述了找到優化映射所需的步驟,包括枚舉所有合法映射,并通過使用預測吞吐量和能源效率的模型來搜索這些映射。

第三個模塊討論了如何通過算法和硬件的協同設計來提高堆棧的效率,或者通過使用混合信號電路新的存儲器或設備技術來降低堆棧的效率。在修改算法的情況下,必須仔細評估對精度的影響。

  • 第七章描述了如何降低數據和計算的精度,從而提高吞吐量和能源效率。它討論了如何使用量化和相關的設計考慮來降低精度,包括硬件成本和對精度的影響。
  • 第八章描述了如何利用DNNs的稀疏性來減少數據的占用,這為減少存儲需求、數據移動和算術操作提供了機會。它描述了稀疏的各種來源和增加稀疏的技術。然后討論了稀疏DNN加速器如何將稀疏轉化為能源效率和吞吐量的提高。它還提出了一種新的抽象數據表示,可用于表達和獲得關于各種稀疏DNN加速器的數據流的見解。
  • 第九章描述了如何優化DNN模型的結構(即(例如DNN的“網絡架構”),以提高吞吐量和能源效率,同時盡量減少對準確性的影響。它討論了手工設計方法和自動設計方法(例如。(如神經結構搜索)
  • 第十章,關于先進技術,討論了如何使用混合信號電路和新的存儲技術,使計算更接近數據(例如,在內存中處理),以解決昂貴的數據移動,支配吞吐量和DNNs的能源消耗。并簡要討論了在光域內進行計算和通信以降低能耗和提高吞吐量的前景。

Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構。

付費5元查看完整內容

由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。

這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司