主題: Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures
簡介: 本教程介紹了用于高效處理深度神經網絡(DNN)的方法,這些方法已在許多AI應用程序中使用,包括計算機視覺,語音識別,機器人等。DNN以高計算復雜度為代價,提供了一流的準確性和結果質量。因此,為深度神經網絡設計有效的算法和硬件架構是朝著在人工智能系統(例如,自動駕駛汽車,無人機,機器人,智能手機,可穿戴設備,物聯網等)中廣泛部署DNN邁出的重要一步。在速度,延遲,功耗/能耗和成本方面有嚴格的限制。 在本教程中,我們將簡要概述DNN,討論支持DNN的各種硬件平臺的權衡,包括CPU,GPU,FPGA和ASIC,并重點介紹基準測試/比較指標和評估DNN效率的設計注意事項。然后,我們將從硬件體系結構和網絡算法的角度描述降低DNN計算成本的最新技術。最后,我們還將討論如何將這些技術應用于各種圖像處理和計算機視覺任務。
嘉賓介紹: Vivienne Sze是麻省理工學院電氣工程和計算機科學系的副教授。她的研究興趣包括能量感知信號處理算法,便攜式多媒體應用的低功耗電路和系統設計,包括計算機視覺,深度學習,自主導航和視頻編碼。在加入MIT之前,她是TI研發中心的技術人員,在那里她設計了用于視頻編碼的低功耗算法和體系結構。在高效視頻編碼(HEVC)的開發過程中,她還代表TI參加了ITU-T和ISO / IEC標準機構的JCT-VC委員會,該委員會獲得了黃金時段工程艾美獎。她是《高效視頻編碼(HEVC):算法和體系結構》(Springer,2014年)的合編者,也是即將出版的《深度神經網絡的高效處理》(Morgan&Claypool)的合著者。她是2020年機器學習和系統會議(MLSys)的計劃共同主席,并教授MIT設計高效深度學習系統的專業教育課程。
【導讀】深度神經網絡在很多監督任務都達到了SOTA性能,但是其計算量是個挑戰。來自MIT 教授 Vivienne Sze等學者發布了關于《深度神經網絡的高效處理》著作,本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。值得關注。
//www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530
本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。DNNs目前廣泛應用于許多人工智能(AI)應用,包括計算機視覺、語音識別和機器人技術。雖然DNNs在許多人工智能任務中提供了最好的性能,但它以高計算復雜度為代價。因此,在不犧牲準確性或增加硬件成本的情況下,能夠有效處理深層神經網絡以提高指標(如能源效率、吞吐量和延遲)的技術對于在人工智能系統中廣泛部署DNNs至關重要。
本書中包括了DNN處理的背景知識;設計DNN加速器的硬件架構方法的描述和分類;評價和比較不同設計的關鍵指標;DNN處理的特點是服從硬件/算法的共同設計,以提高能源效率和吞吐量;以及應用新技術的機會。讀者將會發現對該領域的結構化介紹,以及對現有工作中關鍵概念的形式化和組織,從而提供可能激發新想法的見解。
深度神經網絡(DNNs)已經變得非常流行; 然而,它們是以高計算復雜度為代價的。因此,人們對有效處理DNNs產生了極大的興趣。DNN加速的挑戰有三:
目錄內容:
第一部分理解深層神經網絡
第二部分處理DNNs的硬件設計
第三部分,DNN硬件和算法的協同設計
第一個模塊旨在提供DNN領域的總體背景和了解DNN工作負載的特點。
第二部分主要介紹處理DNNs的硬件設計。它根據定制程度(從通用平臺到完全定制硬件)討論各種架構設計決策,以及在將DNN工作負載映射到這些架構時的設計考慮。同時考慮了時間和空間架構。
第三個模塊討論了如何通過算法和硬件的協同設計來提高堆棧的效率,或者通過使用混合信號電路新的存儲器或設備技術來降低堆棧的效率。在修改算法的情況下,必須仔細評估對精度的影響。
Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構。
Transformers 在自然語言處理(NLP)任務中是普遍存在的,但由于計算量大,很難部署到硬件上。為了在資源受限的硬件平臺上實現低延遲推理,我們提出使用神經架構搜索設計硬件感知轉換器(HAT)。我們首先構造了一個具有任意編碼-解碼器關注和異構層的大設計空間。然后我們訓練一個超級Transformers,它能覆蓋設計空間中的所有候選Transformers ,并有效地產生許多具有重量共享的次級Transformers。最后,我們執行帶有硬件延遲約束的進化搜索,以找到專用于在目標硬件上快速運行的專用子轉換器。對四種機器翻譯任務的大量實驗表明,HAT可以發現不同硬件(CPU、GPU、IoT設備)的有效模型。在Raspberry Pi-4上運行WMT’14翻譯任務時,HAT可以實現3×加速,3.7×比基準Transformer小;2.7×加速,比進化后的Transformer小3.6倍,搜索成本低12,041倍,沒有性能損失。
深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。
然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。
1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。
2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。
本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。
然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。
最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。
目錄:
3.問題 4. 休息時間 5. 分布式學習
演講主講人是 Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構,她最近在MIT公開課給了《Efficient Computing for Deep Learning, AI and Robotics》報告。
本次演講的主題是 DNN 在硬件設備中的高效計算處理方法。隨著深度學習算法效率逐漸提高,計算速度、延遲程度、耗能和硬件成本成為制約算法性能的瓶頸問題。如果能夠解決這些問題,包括自動駕駛、無人機導航、智能手機、可穿戴設備和物聯網設備就都能夠受益于算法性能的提升。
在演講中,Sze 教授首先會介紹 DNN 算法,以及它們在各類硬件上部署時可能帶來的性能損失。更重要的是,演講會提到基準測試和評價標準對設計高效 DNN 算法帶來的影響。之后,Sze 教授會從算法角度硬件架構兩個角度介紹減少耗能的方法。同時,演講也會涵蓋將這些方法應用于計算機視覺等領域。Sze 教授因多項成果獲得過谷歌和 Facebook 的 faculty 獎等多個獎項。
本次演講的主要目標如下:
讓硬件高效處理 DNN 的方法(非常多);
關注包括設計 DNN 硬件處理器和 DNN 模型的評估方法;
設計 DNN 硬件處理器和 DNN 模型的方法;
研究過程中,你應當問什么樣的關鍵問題;
真正需要評價和對比的評估指標體系;
達成這些指標的挑戰;
了解設計中需要考慮到的問題,以及可能平衡在算法性能和耗能中遇到的問題;
在講解的過程中,Sze 教授會穿插大量的圖解和案例,讓介紹更加充實有趣。
簡介:
Maggie Zhang,Nathan Luehr,Josh Romero,Pooya Davoodi和Davide Onofrio深入研究了用于加速深度學習訓練和推理的通用深度學習和機器學習工作負載的技術。 通過本教程將了解DALI如何消除現實應用中的I/O和數據處理瓶頸,以及自動混合精度(AMP)如何輕松地在Volta GPU上的訓練性能提高3倍。 您將看到使用Horovod進行多GPU和多節點擴展的最佳實踐。 他們使用深度學習探查器來可視化TensorFlow操作并確定優化機會。 本教程將教讀者學習使用TensorRT(TRT)中的INT8量化來部署這些訓練有素的模型,所有這些都將在TensorFlow框架的新型便捷API中進行。
嘉賓介紹:
Maggie Zhang是NVIDIA的深度學習軟件工程師,她在深度學習框架上工作。 她獲得了澳大利亞新南威爾士大學的計算機科學與工程博士學位。 她的研究方向是GPU和CPU異構計算,編譯器優化,計算機體系結構和深度學習。
Nathan Luehr是NVIDIA的一名高級開發人員技術工程師,他致力于加速深度學習框架。 他擁有斯坦福大學的博士學位,在那里他致力于加速GPU上的電子結構計算。
Josh Romero是NVIDIA的一名開發技術工程師。 他在GPU計算方面擁有豐富的經驗,從移植和優化高性能計算(HPC)應用程序到深度學習的最新工作。 Josh擁有斯坦福大學的博士學位,其研究重點是開發新的計算流體動力學方法以更好地利用GPU硬件。
Pooya Davoodi是NVIDIA的高級軟件工程師,致力于在NVIDIA GPU上加速TensorFlow。 之前,Pooya從事Caffe2,Caffe,CUDNN和其他CUDA庫的研究。
Davide Onofrio是NVIDIA的高級深度學習軟件技術營銷工程師。 他專注于NVIDIA的面向開發人員的深度學習技術開發和演示。 Davide在生物識別,VR和汽車行業的計算機視覺和機器學習工程師方面擁有多年經驗。 他在米蘭理工大學獲得了信號處理博士學位。
A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。