久久久久精品电影,国产精品久久久久精品合紧,产精品免费视频观看

主題： Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures

簡介： 本教程介紹了用于高效處理深度神經網絡（DNN）的方法，這些方法已在許多AI應用程序中使用，包括計算機視覺，語音識別，機器人等。DNN以高計算復雜度為代價，提供了一流的準確性和結果質量。因此，為深度神經網絡設計有效的算法和硬件架構是朝著在人工智能系統（例如，自動駕駛汽車，無人機，機器人，智能手機，可穿戴設備，物聯網等）中廣泛部署DNN邁出的重要一步。在速度，延遲，功耗/能耗和成本方面有嚴格的限制。在本教程中，我們將簡要概述DNN，討論支持DNN的各種硬件平臺的權衡，包括CPU，GPU，FPGA和ASIC，并重點介紹基準測試/比較指標和評估DNN效率的設計注意事項。然后，我們將從硬件體系結構和網絡算法的角度描述降低DNN計算成本的最新技術。最后，我們還將討論如何將這些技術應用于各種圖像處理和計算機視覺任務。

嘉賓介紹： Vivienne Sze是麻省理工學院電氣工程和計算機科學系的副教授。她的研究興趣包括能量感知信號處理算法，便攜式多媒體應用的低功耗電路和系統設計，包括計算機視覺，深度學習，自主導航和視頻編碼。在加入MIT之前，她是TI研發中心的技術人員，在那里她設計了用于視頻編碼的低功耗算法和體系結構。在高效視頻編碼（HEVC）的開發過程中，她還代表TI參加了ITU-T和ISO / IEC標準機構的JCT-VC委員會，該委員會獲得了黃金時段工程艾美獎。她是《高效視頻編碼（HEVC）：算法和體系結構》（Springer，2014年）的合編者，也是即將出版的《深度神經網絡的高效處理》（Morgan＆Claypool）的合著者。她是2020年機器學習和系統會議（MLSys）的計劃共同主席，并教授MIT設計高效深度學習系統的專業教育課程。

付費5元查看完整內容

相關內容

深度神經網絡

關注 34

深度神經網絡（DNN）是深度學習的一種框架，它是一種具備至少一個隱層的神經網絡。與淺層神經網絡類似，深度神經網絡也能夠為復雜非線性系統提供建模，但多出的層次為模型提供了更高的抽象層次，因而提高了模型的能力。

深度神經網絡 ·

2020 年 6 月 22 日

[付費5元查看完整內容]【MIT硬核新書】深度神經網絡高效處理，82頁pdf，Efficient Processing of DNN

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】深度神經網絡在很多監督任務都達到了SOTA性能，但是其計算量是個挑戰。來自MIT 教授 Vivienne Sze等學者發布了關于《深度神經網絡的高效處理》著作，本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。值得關注。

//www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530

本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。DNNs目前廣泛應用于許多人工智能(AI)應用，包括計算機視覺、語音識別和機器人技術。雖然DNNs在許多人工智能任務中提供了最好的性能，但它以高計算復雜度為代價。因此，在不犧牲準確性或增加硬件成本的情況下，能夠有效處理深層神經網絡以提高指標(如能源效率、吞吐量和延遲)的技術對于在人工智能系統中廣泛部署DNNs至關重要。

本書中包括了DNN處理的背景知識;設計DNN加速器的硬件架構方法的描述和分類;評價和比較不同設計的關鍵指標;DNN處理的特點是服從硬件/算法的共同設計，以提高能源效率和吞吐量;以及應用新技術的機會。讀者將會發現對該領域的結構化介紹，以及對現有工作中關鍵概念的形式化和組織，從而提供可能激發新想法的見解。

深度神經網絡(DNNs)已經變得非常流行; 然而，它們是以高計算復雜度為代價的。因此，人們對有效處理DNNs產生了極大的興趣。DNN加速的挑戰有三:

為了實現高性能和效率
提供足夠的靈活性，以滿足廣泛和快速變化的工作負載范圍
能夠很好地集成到現有的軟件框架中。

目錄內容：

第一部分理解深層神經網絡

介紹
深度神經網絡概述

第二部分處理DNNs的硬件設計

關鍵量度和設計目標
內核計算
設計DNN加速器
專用硬件上的操作映射

第三部分，DNN硬件和算法的協同設計

減少精度
利用稀疏
設計高效的DNN模型
先進技術
結論

第一個模塊旨在提供DNN領域的總體背景和了解DNN工作負載的特點。

第一章提供了DNNs為什么重要的背景，他們的歷史和他們的應用。
第二章概述了神經網絡的基本組成部分和目前常用的神經網絡模型。還介紹了用于DNN研究和開發的各種資源。這包括各種軟件框架的討論，以及用于訓練和評估的公共數據集。

第二部分主要介紹處理DNNs的硬件設計。它根據定制程度(從通用平臺到完全定制硬件)討論各種架構設計決策，以及在將DNN工作負載映射到這些架構時的設計考慮。同時考慮了時間和空間架構。

第三章描述了在設計或比較各種DNN加速器時應該考慮的關鍵指標。
第四章描述了如何處理DNN內核，重點關注的是時序架構，比如cpu和gpu。為了獲得更高的效率，這類架構通常具有緩存層次結構和粗粒度的計算能力，例如向量指令，從而使計算結果更高效。對于這樣的架構，DNN處理通常可以轉化為矩陣乘法，這有很多優化的機會。本章還討論了各種軟件和硬件優化，用于加速這些平臺上的DNN計算，而不影響應用程序的精度。
第五章介紹了DNN處理專用硬件的設計，重點介紹了空間架構。它強調了用于處理DNN的硬件的處理順序和產生的數據移動，以及與DNN的循環嵌套表示的關系。循環嵌套中的循環順序稱為數據流，它決定了移動每個數據塊的頻率。循環嵌套中的循環限制描述了如何將DNN工作負載分解成更小的塊，稱為平鋪/阻塞，以說明在內存層次結構的不同級別上有限的存儲容量。
第六章介紹了將DNN工作負載映射到DNN加速器的過程。它描述了找到優化映射所需的步驟，包括枚舉所有合法映射，并通過使用預測吞吐量和能源效率的模型來搜索這些映射。

第三個模塊討論了如何通過算法和硬件的協同設計來提高堆棧的效率，或者通過使用混合信號電路新的存儲器或設備技術來降低堆棧的效率。在修改算法的情況下，必須仔細評估對精度的影響。

第七章描述了如何降低數據和計算的精度，從而提高吞吐量和能源效率。它討論了如何使用量化和相關的設計考慮來降低精度，包括硬件成本和對精度的影響。
第八章描述了如何利用DNNs的稀疏性來減少數據的占用，這為減少存儲需求、數據移動和算術操作提供了機會。它描述了稀疏的各種來源和增加稀疏的技術。然后討論了稀疏DNN加速器如何將稀疏轉化為能源效率和吞吐量的提高。它還提出了一種新的抽象數據表示，可用于表達和獲得關于各種稀疏DNN加速器的數據流的見解。
第九章描述了如何優化DNN模型的結構(即(例如DNN的“網絡架構”)，以提高吞吐量和能源效率，同時盡量減少對準確性的影響。它討論了手工設計方法和自動設計方法(例如。(如神經結構搜索)
第十章，關于先進技術，討論了如何使用混合信號電路和新的存儲技術，使計算更接近數據(例如，在內存中處理)，以解決昂貴的數據移動，支配吞吐量和DNNs的能源消耗。并簡要討論了在光域內進行計算和通信以降低能耗和提高吞吐量的前景。

Vivienne Sze，來自 MIT 的高效能多媒體系統組（Energy-Efficient Multimedia Systems Group）。她曾就讀于多倫多大學，在 MIT 完成 PhD 學業并獲得電氣工程博士學位，目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構。

付費5元查看完整內容

ACL2020 · Transformer ·

2020 年 5 月 29 日

[付費5元查看完整內容]【ACL2020-MIT-韓松】用于高效自然語言處理的硬件感知Transformer

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Transformers 在自然語言處理(NLP)任務中是普遍存在的，但由于計算量大，很難部署到硬件上。為了在資源受限的硬件平臺上實現低延遲推理，我們提出使用神經架構搜索設計硬件感知轉換器(HAT)。我們首先構造了一個具有任意編碼-解碼器關注和異構層的大設計空間。然后我們訓練一個超級Transformers，它能覆蓋設計空間中的所有候選Transformers ，并有效地產生許多具有重量共享的次級Transformers。最后，我們執行帶有硬件延遲約束的進化搜索，以找到專用于在目標硬件上快速運行的專用子轉換器。對四種機器翻譯任務的大量實驗表明，HAT可以發現不同硬件(CPU、GPU、IoT設備)的有效模型。在Raspberry Pi-4上運行WMT’14翻譯任務時，HAT可以實現3×加速，3.7×比基準Transformer小;2.7×加速，比進化后的Transformer小3.6倍，搜索成本低12,041倍，沒有性能損失。

付費5元查看完整內容

分布式 · 深度學習 · 神經網絡 · 聯邦學習 ·

2020 年 5 月 6 日

[付費5元查看完整內容]【ICASSP2020】分布式與高效深度學習，140頁ppt詳述深度學習壓縮與聯邦學習訓練進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練，能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外，深度學習也將成為未來許多技術的組成部分，例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現，智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器，使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。

然而，這些新的應用程序帶有許多附加的約束和要求，這些約束和要求限制了當前模型的開箱即用。

1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限，能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數，執行單次向前傳遞需要15 gb的操作。很明顯，這些模型的當前(未壓縮的)形式不能在設備上使用。

2. 訓練數據通常分布在設備上，由于隱私問題或有限的資源(帶寬)，無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望，因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。

本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習，它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要，并討論實現這一目標的最新進展，包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。

然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念，包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此，我們將區分壓縮過程的不同步驟，即剪枝和稀疏化、量化和熵編碼。前兩步是有損的，而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如，快速推理、能源效率是其他目標)，我們還將討論有效推理的方法，包括最近提出的神經網絡格式。最后，我們將介紹一個用例，即設備上的語音識別，演示如何在實際應用中使用壓縮方法。

最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景，并根據它們的通信特性進行了比較。接下來，我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術，并討論集群化FL，這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性，即稀疏化、量化和編碼。

目錄：

介紹

目前使用的深度學習
現有模型和新應用的實際局限性
研究、工業和標準化方面的最新發展

神經網絡壓縮

背景:資料編碼、信息論
修剪和稀疏化方法
量化和定點推理
神經網絡格式
用例研究:設備上的語音識別

3.問題 4. 休息時間 5. 分布式學習

背景:SGD，學習理論
聯邦和分布式學習的基本概念
減少通信開銷和連接到NN壓縮
聯邦學習和差異隱私
集群聯合學習

問題

付費5元查看完整內容

深度學習 · 硬件加速 ·

2020 年 2 月 18 日

[付費5元查看完整內容]MIT公開課-Vivienne Sze教授《深度學習硬件加速器》，86頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

演講主講人是 Vivienne Sze，來自 MIT 的高效能多媒體系統組（Energy-Efficient Multimedia Systems Group）。她曾就讀于多倫多大學，在 MIT 完成 PhD 學業并獲得電氣工程博士學位，目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構，她最近在MIT公開課給了《Efficient Computing for Deep Learning, AI and Robotics》報告。

本次演講的主題是 DNN 在硬件設備中的高效計算處理方法。隨著深度學習算法效率逐漸提高，計算速度、延遲程度、耗能和硬件成本成為制約算法性能的瓶頸問題。如果能夠解決這些問題，包括自動駕駛、無人機導航、智能手機、可穿戴設備和物聯網設備就都能夠受益于算法性能的提升。

在演講中，Sze 教授首先會介紹 DNN 算法，以及它們在各類硬件上部署時可能帶來的性能損失。更重要的是，演講會提到基準測試和評價標準對設計高效 DNN 算法帶來的影響。之后，Sze 教授會從算法角度硬件架構兩個角度介紹減少耗能的方法。同時，演講也會涵蓋將這些方法應用于計算機視覺等領域。Sze 教授因多項成果獲得過谷歌和 Facebook 的 faculty 獎等多個獎項。

本次演講的主要目標如下：

讓硬件高效處理 DNN 的方法（非常多）；
關注包括設計 DNN 硬件處理器和 DNN 模型的評估方法；

設計 DNN 硬件處理器和 DNN 模型的方法；

研究過程中，你應當問什么樣的關鍵問題；

具體地，演講還會討論；

真正需要評價和對比的評估指標體系；

達成這些指標的挑戰；

了解設計中需要考慮到的問題，以及可能平衡在算法性能和耗能中遇到的問題；

要關注硬件推理，但包括一部分訓練的內容。

在講解的過程中，Sze 教授會穿插大量的圖解和案例，讓介紹更加充實有趣。

付費5元查看完整內容

Maggie Zhang · Nathan Luehr · Josh Romero · Pooya Davoodi · Davide Onofrio ·

2019 年 12 月 29 日

[付費5元查看完整內容]如何加速NVIDIA gpu上的訓練、推理和ML應用？108頁ppt，Accelerating training, inference, and ML applications on NVIDIA GPUs

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

簡介：

Maggie Zhang，Nathan Luehr，Josh Romero，Pooya Davoodi和Davide Onofrio深入研究了用于加速深度學習訓練和推理的通用深度學習和機器學習工作負載的技術。通過本教程將了解DALI如何消除現實應用中的I/O和數據處理瓶頸，以及自動混合精度（AMP）如何輕松地在Volta GPU上的訓練性能提高3倍。您將看到使用Horovod進行多GPU和多節點擴展的最佳實踐。他們使用深度學習探查器來可視化TensorFlow操作并確定優化機會。本教程將教讀者學習使用TensorRT（TRT）中的INT8量化來部署這些訓練有素的模型，所有這些都將在TensorFlow框架的新型便捷API中進行。

嘉賓介紹：

Maggie Zhang是NVIDIA的深度學習軟件工程師，她在深度學習框架上工作。她獲得了澳大利亞新南威爾士大學的計算機科學與工程博士學位。她的研究方向是GPU和CPU異構計算，編譯器優化，計算機體系結構和深度學習。

Nathan Luehr是NVIDIA的一名高級開發人員技術工程師，他致力于加速深度學習框架。他擁有斯坦福大學的博士學位，在那里他致力于加速GPU上的電子結構計算。

Josh Romero是NVIDIA的一名開發技術工程師。他在GPU計算方面擁有豐富的經驗，從移植和優化高性能計算（HPC）應用程序到深度學習的最新工作。 Josh擁有斯坦福大學的博士學位，其研究重點是開發新的計算流體動力學方法以更好地利用GPU硬件。

Pooya Davoodi是NVIDIA的高級軟件工程師，致力于在NVIDIA GPU上加速TensorFlow。之前，Pooya從事Caffe2，Caffe，CUDNN和其他CUDA庫的研究。

Davide Onofrio是NVIDIA的高級深度學習軟件技術營銷工程師。他專注于NVIDIA的面向開發人員的深度學習技術開發和演示。 Davide在生物識別，VR和汽車行業的計算機視覺和機器學習工程師方面擁有多年經驗。他在米蘭理工大學獲得了信號處理博士學位。

付費5元查看完整內容

壓縮感知 · 深度學習 · 神經網絡 · 文獻綜述 · 卷積神經網絡 ·

2019 年 10 月 12 日

[付費5元查看完整內容]深度神經網絡模型壓縮與加速綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而，現有的深度神經網絡模型在計算上是昂貴的和內存密集型的，這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此，在不顯著降低模型性能的情況下，在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中，這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法，然后介紹其他技術。對于每種方案，我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法，例如，動態容量網絡和隨機深度網絡。然后，我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后，對全文進行總結，并對今后的研究方向進行了展望。

付費5元查看完整內容