亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

隨著神經網絡在21世紀的復興,深度學習已經成為一個非常活躍的研究領域,為現代機器學習鋪平了道路。在這本實用的書中,作者Nikhil Buduma提供了例子和明確的解釋,以指導您通過這個復雜的領域的主要概念。

谷歌、微軟和Facebook等公司都在積極發展內部深度學習團隊。然而,對于我們其他人來說,深度學習仍然是一個相當復雜和難以掌握的學科。如果您熟悉Python,并且有微積分的背景知識,并且對機器學習有基本的了解,那么這本書將幫助您入門。

  • 檢查機器學習和神經網絡的基礎
  • 學習如何訓練前饋神經網絡
  • 使用TensorFlow實現你的第一個神經網絡
  • 當你開始建立更深入的關系網時,要管理出現的問題
  • 建立分析復雜圖像的神經網絡
  • 使用自動編碼器進行有效的降維
  • 深入序列分析來檢查語言
  • 了解強化學習的基本原理

本書的第一章致力于通過深入鉆研線性代數和概率來介紹數學基礎,這些深度嵌入到深度學習領域。接下來的幾個章節將討論前饋神經網絡的結構,如何在代碼中實現它們,以及如何在現實世界的數據集上訓練和評估它們。本書的其余部分致力于深度學習的具體應用,并理解為這些應用開發的專門學習技術和神經網絡架構背后的直覺。雖然我們在后面的章節中涉及到高級的研究,但我們希望提供這些技術的分解,這些技術來源于基本原則,易于理解。

//www.oreilly.com/library/view/fundamentals-of-deep/9781491925607/

付費5元查看完整內容

機器學習(ML)是一種系統從大規模數據中自動獲取、整合、開發知識,然后通過發現新信息自主擴展所獲得知識的能力,而無需專門編程。簡而言之,ML算法可以在以下方面找到應用: (1)對生成研究數據的網絡事件有更深入的了解,(2)以模型的形式捕獲對事件的低估,(3)基于構建的模型預測事件將產生的未來價值,(4)主動檢測現象的任何異常行為,以便提前采取適當的糾正措施。ML是一個不斷發展的領域,隨著最近的技術創新,特別是隨著更智能算法的發展以及硬件和存儲系統的進步,它已經能夠更高效、更精確地執行大量任務,這在幾十年前甚至是無法想象的。在過去的幾年中,深度學習(deep learning, DL)也在不斷發展,它是機器學習的一個專門子集,涉及更復雜的架構、算法和模型,用于解決復雜問題和預測復雜事件的未來結果。

//www.zhuanzhi.ai/paper/a2722f2cd41de99beda43da11ddddf66

近年來,機器學習算法系統發展迅速,特別是在強化學習、自然語言處理、計算機和機器人視覺、圖像處理、語音、情感處理和理解等方面。目前,機器學習在一些業務領域已經出現或正在發展,如醫藥和醫療保健、金融和投資、銷售和市場營銷、運營和供應鏈、人力資源、媒體和娛樂等。

近年來,工業上應用的ML系統呈現出一些突出的發展趨勢。這些趨勢將利用ML和人工智能(AI)系統的力量,進一步在商業和社會中獲取利益。其中一些趨勢如下:(1)更少的代碼量和更快的ML系統實現;(2)越來越多地使用適合在資源受限的物聯網設備上工作的輕量級系統;(3) ML模型構建代碼的自動生成;(4)為ML系統開發的魯棒管理設計新的流程,以提高可靠性和效率;(5)深度學習解決方案在各個領域和應用產品中得到更廣泛的應用;6)增加使用基于生成對抗式網絡(GAN)的各種圖像處理應用,包括圖像搜索、圖像增強等;7)更加突出非監督學習系統,不需要或更少的人為干預;(8)使用強化學習系統;最后,(9)基于零樣本的學習系統的進化。

隨著ML模型、算法及其應用的重要性和相關性的增加,以及基于DL和人工智能系統的更多創新應用的出現,本卷介紹了一些創新的研究工作及其在現實世界中的應用,如股票交易、醫療和醫療保健系統、和軟件自動化如何設計、優化ML和DL算法和模型,并將其應用于真實世界場景中的業務和其他流程,以實現更高的精度和效率。本書介紹了6個章節,重點介紹了機器學習、深度學習和人工智能的不同架構、模型、算法和應用。本書各章節討論的主題說明了在真實世界的應用中涉及到的設計、訓練、驗證、測試和部署機器學習和深度學習模型的復雜性。

付費5元查看完整內容

【導讀】關于《深度學習系統優化》綜述論文

深度學習(Deep Learning, DL)模型在視覺、語言、醫療、商業廣告、娛樂等許多應用領域都取得了優異的表現。隨著DL應用和底層服務硬件的快速發展,都顯示出了強大的擴展趨勢,即模型擴展和計算擴展,例如,最近的預訓練模型具有數千億參數,內存消耗約TB級,以及提供數百個TFLOPS的最新GPU加速器。隨著規模化趨勢的出現,DL推理服務系統出現了新的問題和挑戰,逐步向大規模深度學習服務系統發展。本綜述旨在總結和分類大規模深度學習服務系統出現的挑戰和優化機會。通過提供一種新穎的分類方法,總結計算范式,闡述最新的技術進展,我們希望本綜述能夠揭示新的優化視角,激發大規模深度學習系統優化的新工作。

//www.zhuanzhi.ai/paper/9ee7ca2cf6457080794f9b6608f09e7a

深度學習(DEEP Learning, DL)模型,如CNN[15,36,44],Transformers[2,7,10,29]和推薦模型[31,41]在許多認知任務,如視覺、語音和語言應用中取得了優異的表現,這在許多領域產生重要的應用,如醫學圖像分析[38],照片造型[34],機器翻譯[40],產品推薦[31]、定制廣告[13]、游戲[21]等。這種廣泛的DL應用帶來了巨大的市場價值,也帶來了大量的DL服務流量。例如,FB有18.2億的日活躍用戶[11]。廣告推薦查詢的數量可以達到每秒10M查詢。消費者生成數據的巨大增長和DL服務的使用也推動了對以人工智能為中心的數據中心(如亞馬遜AWS[27]和微軟Azure[6])的需求,以及對GPU等強大的DL加速器的日益采用。根據[35]的報告,2018年,GPU在全球數據中心加速器市場上以298300萬美元的份額占據了85%的主要份額。到2025年,該產品將達到298.19億美元。

隨著市場需求的不斷增長,DL應用和底層服務硬件在計算可擴展(例如,增加計算并行性、內存和存儲以服務于更大的模型)和模型擴展(例如,更高的結構復雜性、計算工作量、參數大小以獲得更好的精度),這大大復雜化了服務系統的管理和優化。一方面,如圖1 (a)所示,在計算擴展趨勢下,具有大規模計算并行性的GPU已成為近年來數據中心DL計算加速器的主要類型之一,并保持著持續的指數級性能縮放。最近的GPU如NVIDIA Tesla V100提供每秒130拉浮點運算(TFLOPS),和900 GB / s內存帶寬, 和這些數字進一步增加到312 TFLOPS和1.6 TB / s內存帶寬,可以提供數萬DL模型如ResNet50[15]同時提供更高的效率(性能/瓦特)。另一方面,如圖1 (b)所示,模型規模已經被證明是獲得更好的精度的最重要的因素之一,其有效性在實踐中一致顯示在所有領域的工業超大模型,如視覺模型BiT [22], NLP模型BERT [7],GPT3[2]和深度學習推薦模型DLRM[31]。例如,最近的超大型模型MT-NLG[29]已經實現了5300億參數。工業級商用DLRM[31]已達到~ TB模型大小,大大超過了單機存儲能力,需要多個設備才能進行協同計算。

在這樣的背景下,我們觀察到目前的DL系統社區對大規模深度學習系統(LDS)仍然缺乏足夠的認識和關注,忽視了出現的挑戰和機遇: 傳統的DL系統優化通常集中在單模型單機推理設置(即一對一映射)。然而,LDS具有更大的DL模型和更強大的硬件,能夠實現更靈活的推理計算,將多實例到單設備、一實例到多設備、甚至多實例到多設備映射變為現實。例如,計算縮放(如GPU、TPU)促使許多研究工作在單個設備上進行多模型推理,例如將一個GPU劃分為多個容器化vGPU或多實例GPU (MIG),以獲得更好的硬件利用率、更高的服務吞吐量和成本效率。考慮到實際的成本管理(例如,總擁有成本,TCO),服務大量推理查詢的數據中心也傾向于遷移到多租戶推理服務,例如,將多個推理查詢放置在同一設備上,從而產生新的優化目標(例如,每秒服務的總查詢,以及來自傳統單租戶推斷的約束(例如,服務水平協議、SLA)。類似地,模型擴展也提出了新的一對多推理場景的要求。目前的超大型模型(如DLRM)在推理過程中需要耗費大量的內存(~TB不量化),這需要新的協同計算范式,如異構計算或分布式推理。這種協作服務涉及遠程進程調用(RPC)和低帶寬通信,這帶來了與傳統的單設備推理截然不同的瓶頸。由于涉及到以上所有場景,現代數據中心面臨更復雜的多對多場景,需要專門的推理查詢調度,如服務路由器和計算設備管理,以獲得更好的服務性能,如延遲、吞吐量和成本等。

在本文中,我們提出了一種新的計算范式分類法,總結了新的優化目標,闡述了新的技術設計視角,并為未來的LDS優化提供了見解。

  • 多對多計算范式以DNN實例(I)和計算設備(D)之間的關系為特征,新興的LDS計算范式除了單實例單設備(SISD)外,還可以分為三個新的類別,即多實例單設備(MISD),單實例多設備(SIMD)和多實例多設備(MIMD),如圖2所示。與專注于單模型性能的SISD不同,LDS工作有不同的優化目標,包括推理延遲、服務吞吐量、成本、可擴展性、服務質量等。例如,多租戶推理(multi-tenant inference, MISD)的目標是提高服務吞吐量和電力效率,而超大規模模型推理服務的目標是以低成本提高硬件可伸縮性。

  • 大規模設計和技術由于推理服務的規模,LDS工作也在算法創新、運行時調度和資源管理方面面臨許多優化挑戰和機遇。例如,多租戶推理優化尋求細粒度的硬件資源分區和作業調度,例如空間/時間共享,以提供QoS保證。由于延遲通信瓶頸,分布式推理需要專門的模型-硬件協同優化,例如高效的模型分片和平衡協作等。

通過對現有工作的總結,我們旨在對出現的挑戰、機遇和創新提供一個全面的調研,從而推動LDS運營和優化的新創新。調研的其余部分組織如下:第2節介紹了研究的初步內容,包括我們對LDS的分類,并說明了本次調研的范圍。第3節總結了在多實例單設備(MISD)優化方面面臨的挑戰和最近的工作;第4節總結了單實例多設備(SIMD)優化方面的研究工作;第5節總結了這項工作。

付費5元查看完整內容

摘要

近年來,更大、更深度的模型層出不窮,并不斷推動各種領域(如自然語言處理(NLP)和計算機視覺(CV))的最先進(SOTA)結果。然而,盡管有很好的結果,但需要注意的是,SOTA模型所需的計算是以指數速度增長的。大規模計算不僅會產生驚人的巨大碳足跡,而且還會對研究的包容性和現實應用的部署產生負面影響。綠色深度學習是一個日益熱門的研究領域,呼吁研究者關注模型訓練和推理過程中的能源使用和碳排放問題。目標是用輕量化和高效的技術產生新的結果。許多技術可以用來實現這一目標,如模型壓縮和知識蒸餾。本文對綠色深度學習技術的發展進行了系統的綜述。我們將這些方法分為四類:(1)緊湊的網絡,(2)高效的訓練策略,(3)高效的推理方法,(4)高效的數據使用。對于每一類,我們都討論已經取得的進展和尚未解決的挑戰。

//www.zhuanzhi.ai/paper/71afe2b393a19f309bcf1aa03131b4fa

引言

十年前,人工智能(AI)主要關注淺層模型,比如結構感知器(McDonald et al., 2010;Huang et al., 2012;Li & Ji, 2014)和條件隨機場(Ghosh et al., 2011; Sutton & McCallum, 2012; Zheng et al., 2015)。這些淺層模型只需要有限的計算。大多數AI方法都可以部署在CPU上。

近年來,強大的GPU變得越來越容易使用,這使得部署更大的模型成為可能,這加速了深度學習的發展。深度學習模型的概念在20世紀90年代被廣泛應用,如卷積神經網絡(CNNs) (LeCun et al., 1998)和長短期網絡(LSTMs) (Hochreiter & Schmidhuber, 1997)。由于受到硬件容量和大規模數據資源的限制,這些模型直到最近幾年才開始流行。Collobert等人(2011)提出了第一個面向NLP任務的系統深度學習框架。Krizhevsky等人(2012)提出了一種基于卷積的深度網絡,在圖像分類挑戰中排名第一。這些研究是激勵人工智能參與者深入學習的良好先驅。

在深度學習時代,獲取SOTA結果是一個熱門方向。根據Schwartz et al. (2020a),我們將這種研究趨勢稱為Red AI。最近,研究人員注意到它比SOTA結果更難獲得優勢。對于CV和NLP等傳統人工智能領域,新的人工智能模型/算法所取得的進步正在減少。許多流行的研究基準正在達到它們的性能上限。

紅色AI的趨勢需要大量的計算來獲得更好的結果。例如,正如Schwartz等人(2020a)所報道的,用于訓練深度學習模型的計算量在6年內增加了30萬倍。這些計算不僅會造成昂貴的財務成本,還會導致過度的碳足跡。前者危害人工智能的包容性,后者危害我們的環境。我們將深度學習所需的計算源分為以下三類: 模型規模、參數調優和訓練數據。

綠色學習是由Schwartz等人(2020a)最先提出的一個術語,目前正受到越來越多的關注。形式上,綠色深度學習或綠色人工智能呼吁研究人員在不增加計算成本的情況下獲得SOTA結果,理想情況下是減少計算成本。與紅色人工智能不惜一切代價推動最先進的結果不同,綠色深度學習鼓勵人工智能參與者使用盡可能少的計算來實現可比或更好的結果。

為所有人工智能研究人員和工程師開發微小但強大的網絡是一個長期目標。在這個目標的驅動下,提出了幾個流行的微型網絡(Howard et al., 2017; Chollet, 2017; Tan & Le, 2019)。例如,Howard等人(2017)提出的MobileNet就是一種基于深度可分離卷積的高效架構。類似的想法已在例外(Chollet, 2017)采用。最近,為了探索極小的網絡,人們提出了先進的訓練/推理/網絡手術方法。例如,EdgeBERT (Tambe et al., 2021)提議建立一個可以在物聯網設備上運行的非常小的網絡。采用量化、剪枝、提前退出等先進方法,進一步減少模型參數和運行計算量。

在本次綜述中,我們對綠色深度學習技術進行了系統的綜述。首先構建綠色技術分類,然后將相關技術分為緊湊網絡、節能訓練策略、節能推理和高效數據利用四大類。在每個類別中,我們回顧綠色技術的當前進展,并探討潛在問題。值得注意的是,由于缺乏統一的標準度量,構建綠色技術分類法具有挑戰性。例如,BERT在訓練過程中需要大量的計算。如果只考慮訓練成本,BERT就不能被視為綠色技術。然而,BERT可以用更少的訓練示例來改善下游性能。從遷移移能力上看,BERT絕對是一種綠色技術。因此,一項技術是否被定義為綠色是值得懷疑的。我們將盡量避免給出有偏見的定義。如果一項技術有可能降低深度學習的成本,我們將把它納入綠色技術分類。我們從以下幾個方面回顧了綠色深度學習技術:

  • 緊湊架構設計。本部分主要關注小型網絡。我們將這一章分成兩個子章,即組件設計和組件組裝。組件設計專注于具有競爭性結果的微妙組件,但計算量少得多。組件組裝描述了如何高效地構建網絡。

  • 節能訓練策略。以往的研究提出了幾種有效的訓練方法。在本調查中,我們將這些研究分為四類,包括初始化、規范化、漸進式訓練和高效AutoML。

  • 節能推理。在本章中,我們描述了一些方法,旨在從一個較大的網絡中得到一個較小但具有可比性的網絡來進行有效的推理,包括模型修剪、低秩因子分解、量化、蒸餾。

  • 有效數據使用。本章列出了有效利用訓練數據的算法。我們專注于兩個流行的方向:主動學習和預先訓練的模式作為少樣本學習者。

付費5元查看完整內容

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而,隨著深度學習模型的不斷改進,其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此,關注模型的度量也變得很重要,而不僅僅是它的質量。我們提出深度學習中的效率問題,隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼,供從業者優化他們的模型訓練和部署。我們相信,這是在高效深度學習領域的第一次全面綜述,涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是,這個綜述將為讀者提供心理模型和必要的理解,應用通用的效率技術,立即獲得顯著的改進,并促使他們的想法,進一步的研究和實驗,以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里,利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年,多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92],以首席開發人員Alex Krizhevsky的名字命名),其表現比排名第二的好41%。這一開創性工作的結果是,人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構,如VGGNet [141], Inception [146], ResNet[73]等,在隨后幾年的ImageNet競賽中連續打破了先前的記錄,同時它們的占用空間(模型大小,延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注,其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1),以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能,圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如,GPT-3包含1750億個參數,僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本,這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務,但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時,深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型,則可能是免費的),但是部署并讓推理運行很長一段時間,在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說,數據中心的碳足跡也是一個非常現實的問題,這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上),原因有很多(隱私、連通性、響應性)。因此,必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時,能夠使用盡可能少的數據進行訓練是至關重要的。因此,使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡),現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好,但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎,等等?更具體地說,模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題,比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題,模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中,我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們,前四個集中在建模上,最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法,通常是通過壓縮層數。一個經典的例子是量化[82],它試圖壓縮一層的權矩陣,通過降低其精度(例如。(從32位浮點值到8位無符號整數),質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤,需要更少的數據,收斂更快等)。如果需要的話,通過削減參數的數量,可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75],它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61],優化超參數有助于提高精度,然后可以用較少參數的模型進行交換。類似地,體系結構搜索[167]也屬于這一類,其中體系結構本身進行了調優,搜索有助于找到一個模型,該模型既優化了損耗/準確性,又優化了一些其他指標,如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等),是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如,卷積層引入了參數共享用于圖像分類,避免了為每個輸入像素學習單獨的權值,也使其對過擬合具有魯棒性。同樣,注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后,我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架,如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具,如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如,要獲得量化模型的規模和延遲改進,我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容

【導讀】知識蒸餾是一種典型的模型壓縮和加速方法,在很多應用場景對此有需求。來自悉尼大學的學者發布了《知識蒸餾》的綜述論文,值的關注。

//arxiv.org/abs/2006.05525

近年來,深度神經網絡在工業和學術界取得了巨大的成功,特別是在視覺識別和神經語言處理方面的應用。深度學習的巨大成功,主要歸功于其巨大的可擴展性,既有大規模的數據樣本,也有數十億的模型參數。然而,在資源有限的設備如移動電話和嵌入式設備上部署這些笨重的深模型也帶來了巨大的挑戰,不僅因為計算量大,而且存儲空間大。為此,開發了各種模型壓縮和加速技術,如剪枝、量化和神經結構搜索。知識蒸餾是一種典型的模型壓縮和加速方法,旨在從大教師模型中學習小學生模型,越來越受到社會的關注。本文從知識分類、訓練方案、知識提取算法以及應用等方面對知識提取進行了綜述。此外,我們簡要回顧了知識提煉的挑戰,并對未來的研究課題提供了一些見解。

概述

在過去的幾年里,深度學習在人工智能領域取得了巨大的成功,包括計算機視覺(Krizhevsky et al., 2012)、強化學習(Silver et al., 2016)和神經語言處理(Devlin et al., 2018)的各種應用。借助最近許多技術,包括殘差連接(He et al., 2016)和批處理歸一化(Ioffe and Szegedy, 2015),我們可以輕松地在強大的GPU或TPU集群上訓練具有數千層的深度模型。例如,只需不到10分鐘就可以在數百萬張圖像的數據集上訓練ResNet模型(Deng et al. , 2009 ; Sun et al. , 2019); 訓練一個強大的BERT模型進行語言理解只需要不到一個半小時 (Devlin et al., 2018; You et al., 2019).。雖然大規模的深度模型帶來了令人難以置信的性能,但其龐大的計算復雜度和海量的存儲需求給實時應用的部署帶來了巨大的挑戰,特別是對于那些資源有限的設備,比如嵌入式人臉識別系統和自動駕駛汽車。

為了開發高效的深度模型,最近的工作通常集中在1)基于深度可分離卷積的高效基本塊,如MobileNets (Howard et al. , 2017 ; Sandler et al. , 2018) 和ShuffleNets (Zhang et al. , 2018a ; Ma et al. , 2018); (2)模型壓縮和加速技術,主要包括以下類別(Cheng et al., 2018)。

  • 參數修剪和共享: 這些方法主要是去除深層神經網絡中不重要的參數,去除的參數對性能影響不大。該類別又分為模型量化(Wu et al., 2016)和二值化(Courbariaux et al., 2015)、參數共享(Han et al., 2015)和結構矩陣(Sindhwani et al., 2015)。

  • 低秩分解: 這些方法通過矩陣/張量分解來探索深度神經網絡參數的冗余性(Denton et al., 2014)。

  • 傳輸/壓縮卷積濾波器: 這些方法通過傳輸/壓縮卷積濾波器來減少不必要的參數(Zhai et al., 2016)。

  • 知識蒸餾(KD): 這些方法通常將知識從一個較大的深度神經網絡提取到一個較小的網絡中(Hinton et al., 2015)。

對模型壓縮和加速的全面回顧超出了本文涵蓋的范圍,而我們關注的是知識蒸餾,這已經得到越來越多的研究社區關注。在實踐中,大型深度模型往往會取得非常好的性能,因為過參數化提高了泛化性能 (Brutzkus and Globerson, 2019; Allen-Zhu et al., 2019; Arora et al., 2018)。知識蒸餾通過在大教師模型的監督下學習小學生模型,從而探究深度模型中參數的冗余性,用于推理(Bucilua et al., 2006; Ba and Caruana, 2014; Hinton et al., 2015; Urban et al., 2016),而知識蒸餾的關鍵問題是如何將知識從大教師模型轉移到小學生模型。一般情況下,知識蒸餾的師生框架如圖1所示。雖然在實踐中取得了巨大的成功,但在理論或經驗上理解知識提煉方法的工作并不多(Cheng et al., 2020; Phuong and Lampert, 2019; Cho and Hariharan, 2019)。具體來說,為了理解知識蒸餾的工作機制,Phuong和Lampert在深度線性分類器的情況下,從理論上證明了學習精餾學生網絡快速收斂的泛化邊界(Phuong和Lampert, 2019)。這一解釋理論上回答了學生學習的內容和速度,并揭示了決定蒸餾成功的因素。蒸餾的成功依賴于數據幾何、蒸餾目標的優化偏差和學生分類器的強單調性。Cheng等人量化了來自深度神經網絡中間層的視覺概念知識,以解釋知識蒸餾(Cheng et al., 2020)。Cho和Hariharan對知識蒸餾的有效性進行了詳細的實證分析(Cho和Hariharan, 2019)。實證分析發現,由于模型容量的差距,較大的模型不一定是更好的老師(Mirzadeh et al., 2019),而精餾會對學生的學習產生不利影響。據我們所知,(Cho and Hariharan, 2019)忽略了對教師和學生之間不同知識、不同蒸餾和相互感情的經驗評價。此外,通過實證分析,從標簽平滑、教師和先驗對最優輸出層幾何形狀的預測置信度等角度探討了對知識蒸餾的理解(Tang et al., 2020)。

模型壓縮的知識蒸餾思想與人類的學習方案非常相似。為此,近年來的知識蒸餾方法不僅擴展到了師生學習(Hinton et al., 2015),還擴展到了相互學習(Zhang et al., 2018b)、自學(Yuan et al., 2019)、輔助教學(Mirzadeh et al., 2019)和終身學習(Zhai et al., 2019)。知識蒸餾的大部分擴展集中于壓縮深度神經網絡,因此輕量級的學生網絡可以很容易地部署在諸如視覺識別、語音識別和自然語言處理(NLP)等應用程序中。此外,知識蒸餾中從一個模型到另一個模型的知識轉移符號也可以擴展到其他任務,如對抗攻擊(Papernot et al., 2016b)、數據增強(Lee et al., 2019a;Gordon和Duh, 2019),數據隱私和安全(Wang等,2019a)。

本文對知識蒸餾的研究進行了綜述。本綜述的主要目的是1) 全面概述知識蒸餾,包括動機的背景,基本符號和公式,以及幾種典型知識,蒸餾和算法; 2) 全面回顧知識蒸餾的最新進展,包括理論、應用和在不同現實場景下的擴展; 3) 從知識遷移的不同角度,包括不同類型的知識、訓練方案、知識提煉算法/結構和應用,闡述知識蒸餾的一些挑戰和見解。本文組織概況如圖2所示。具體地說,本文的其余部分結構如下。第二節給出了知識蒸餾的重要概念和常規模型。知識和蒸餾的種類分別在第3節和第4節中進行了總結。現有的關于知識提煉中的師生結構的研究在第5部分進行了說明。第6節對許多最新的知識蒸餾方法進行了全面的總結和介紹。知識蒸餾的廣泛應用將在第7節的不同方面加以說明。第8節討論了知識蒸餾中具有挑戰性的問題和未來的方向。最后,在第9節給出結論。

付費5元查看完整內容

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。

付費5元查看完整內容
北京阿比特科技有限公司