国产欧美日韩视频一区二区-综合综合综合综合综合网

演講主講人是 Vivienne Sze，來自 MIT 的高效能多媒體系統組（Energy-Efficient Multimedia Systems Group）。她曾就讀于多倫多大學，在 MIT 完成 PhD 學業并獲得電氣工程博士學位，目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構，她最近在MIT公開課給了《Efficient Computing for Deep Learning, AI and Robotics》報告。

本次演講的主題是 DNN 在硬件設備中的高效計算處理方法。隨著深度學習算法效率逐漸提高，計算速度、延遲程度、耗能和硬件成本成為制約算法性能的瓶頸問題。如果能夠解決這些問題，包括自動駕駛、無人機導航、智能手機、可穿戴設備和物聯網設備就都能夠受益于算法性能的提升。

在演講中，Sze 教授首先會介紹 DNN 算法，以及它們在各類硬件上部署時可能帶來的性能損失。更重要的是，演講會提到基準測試和評價標準對設計高效 DNN 算法帶來的影響。之后，Sze 教授會從算法角度硬件架構兩個角度介紹減少耗能的方法。同時，演講也會涵蓋將這些方法應用于計算機視覺等領域。Sze 教授因多項成果獲得過谷歌和 Facebook 的 faculty 獎等多個獎項。

本次演講的主要目標如下：

讓硬件高效處理 DNN 的方法（非常多）；
關注包括設計 DNN 硬件處理器和 DNN 模型的評估方法；

設計 DNN 硬件處理器和 DNN 模型的方法；

研究過程中，你應當問什么樣的關鍵問題；

具體地，演講還會討論；

真正需要評價和對比的評估指標體系；

達成這些指標的挑戰；

了解設計中需要考慮到的問題，以及可能平衡在算法性能和耗能中遇到的問題；

要關注硬件推理，但包括一部分訓練的內容。

在講解的過程中，Sze 教授會穿插大量的圖解和案例，讓介紹更加充實有趣。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

深度神經網絡 ·

2020 年 6 月 22 日

[付費5元查看完整內容]【MIT硬核新書】深度神經網絡高效處理，82頁pdf，Efficient Processing of DNN

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】深度神經網絡在很多監督任務都達到了SOTA性能，但是其計算量是個挑戰。來自MIT 教授 Vivienne Sze等學者發布了關于《深度神經網絡的高效處理》著作，本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。值得關注。

//www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530

本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。DNNs目前廣泛應用于許多人工智能(AI)應用，包括計算機視覺、語音識別和機器人技術。雖然DNNs在許多人工智能任務中提供了最好的性能，但它以高計算復雜度為代價。因此，在不犧牲準確性或增加硬件成本的情況下，能夠有效處理深層神經網絡以提高指標(如能源效率、吞吐量和延遲)的技術對于在人工智能系統中廣泛部署DNNs至關重要。

本書中包括了DNN處理的背景知識;設計DNN加速器的硬件架構方法的描述和分類;評價和比較不同設計的關鍵指標;DNN處理的特點是服從硬件/算法的共同設計，以提高能源效率和吞吐量;以及應用新技術的機會。讀者將會發現對該領域的結構化介紹，以及對現有工作中關鍵概念的形式化和組織，從而提供可能激發新想法的見解。

深度神經網絡(DNNs)已經變得非常流行; 然而，它們是以高計算復雜度為代價的。因此，人們對有效處理DNNs產生了極大的興趣。DNN加速的挑戰有三:

為了實現高性能和效率
提供足夠的靈活性，以滿足廣泛和快速變化的工作負載范圍
能夠很好地集成到現有的軟件框架中。

目錄內容：

第一部分理解深層神經網絡

介紹
深度神經網絡概述

第二部分處理DNNs的硬件設計

關鍵量度和設計目標
內核計算
設計DNN加速器
專用硬件上的操作映射

第三部分，DNN硬件和算法的協同設計

減少精度
利用稀疏
設計高效的DNN模型
先進技術
結論

第一個模塊旨在提供DNN領域的總體背景和了解DNN工作負載的特點。

第一章提供了DNNs為什么重要的背景，他們的歷史和他們的應用。
第二章概述了神經網絡的基本組成部分和目前常用的神經網絡模型。還介紹了用于DNN研究和開發的各種資源。這包括各種軟件框架的討論，以及用于訓練和評估的公共數據集。

第二部分主要介紹處理DNNs的硬件設計。它根據定制程度(從通用平臺到完全定制硬件)討論各種架構設計決策，以及在將DNN工作負載映射到這些架構時的設計考慮。同時考慮了時間和空間架構。

第三章描述了在設計或比較各種DNN加速器時應該考慮的關鍵指標。
第四章描述了如何處理DNN內核，重點關注的是時序架構，比如cpu和gpu。為了獲得更高的效率，這類架構通常具有緩存層次結構和粗粒度的計算能力，例如向量指令，從而使計算結果更高效。對于這樣的架構，DNN處理通常可以轉化為矩陣乘法，這有很多優化的機會。本章還討論了各種軟件和硬件優化，用于加速這些平臺上的DNN計算，而不影響應用程序的精度。
第五章介紹了DNN處理專用硬件的設計，重點介紹了空間架構。它強調了用于處理DNN的硬件的處理順序和產生的數據移動，以及與DNN的循環嵌套表示的關系。循環嵌套中的循環順序稱為數據流，它決定了移動每個數據塊的頻率。循環嵌套中的循環限制描述了如何將DNN工作負載分解成更小的塊，稱為平鋪/阻塞，以說明在內存層次結構的不同級別上有限的存儲容量。
第六章介紹了將DNN工作負載映射到DNN加速器的過程。它描述了找到優化映射所需的步驟，包括枚舉所有合法映射，并通過使用預測吞吐量和能源效率的模型來搜索這些映射。

第三個模塊討論了如何通過算法和硬件的協同設計來提高堆棧的效率，或者通過使用混合信號電路新的存儲器或設備技術來降低堆棧的效率。在修改算法的情況下，必須仔細評估對精度的影響。

第七章描述了如何降低數據和計算的精度，從而提高吞吐量和能源效率。它討論了如何使用量化和相關的設計考慮來降低精度，包括硬件成本和對精度的影響。
第八章描述了如何利用DNNs的稀疏性來減少數據的占用，這為減少存儲需求、數據移動和算術操作提供了機會。它描述了稀疏的各種來源和增加稀疏的技術。然后討論了稀疏DNN加速器如何將稀疏轉化為能源效率和吞吐量的提高。它還提出了一種新的抽象數據表示，可用于表達和獲得關于各種稀疏DNN加速器的數據流的見解。
第九章描述了如何優化DNN模型的結構(即(例如DNN的“網絡架構”)，以提高吞吐量和能源效率，同時盡量減少對準確性的影響。它討論了手工設計方法和自動設計方法(例如。(如神經結構搜索)
第十章，關于先進技術，討論了如何使用混合信號電路和新的存儲技術，使計算更接近數據(例如，在內存中處理)，以解決昂貴的數據移動，支配吞吐量和DNNs的能源消耗。并簡要討論了在光域內進行計算和通信以降低能耗和提高吞吐量的前景。

Vivienne Sze，來自 MIT 的高效能多媒體系統組（Energy-Efficient Multimedia Systems Group）。她曾就讀于多倫多大學，在 MIT 完成 PhD 學業并獲得電氣工程博士學位，目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構。

付費5元查看完整內容

FPGA ·

2020 年 6 月 20 日

[付費5元查看完整內容]基于FPGA的機器學習硬件加速研究進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：隨著日益劇增的海量數據信息的產生以及數據挖掘算法的廣泛應用,人們已經進入了大數據時代.在數據規模飛速增長的前提下,如何高效穩定的存取數據信息以及加快數據挖掘算法的執行已經成為學術界和工業界急需解決的關鍵問題.機器學習算法作為數據挖掘應用的核心組成部分,吸引了越來越多研究者的關注,而利用新型的軟硬件手段來加速機器學習算法已經成為了目前的研究熱點之一.本文主要針對基于ASIC和FPGA等硬件平臺設計的機器學習加速器進行了歸納與總結.首先,本文先介紹了機器學習算法,對代表性的算法進行了分析和歸納.接下來對加速器可能的著眼點進行了列舉綜述,以各種機器學習硬件加速器為主要實例介紹了目前主流的加速器設計和實現,并圍繞加速器結構進行簡單分類和總結.最后本文對機器學習算法硬件加速這個領域進行了分析,并對目前的發展趨勢做出了展望.

付費5元查看完整內容

分布式 · 深度學習 · 神經網絡 · 聯邦學習 ·

2020 年 5 月 6 日

[付費5元查看完整內容]【ICASSP2020】分布式與高效深度學習，140頁ppt詳述深度學習壓縮與聯邦學習訓練進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練，能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外，深度學習也將成為未來許多技術的組成部分，例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現，智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器，使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。

然而，這些新的應用程序帶有許多附加的約束和要求，這些約束和要求限制了當前模型的開箱即用。

1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限，能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數，執行單次向前傳遞需要15 gb的操作。很明顯，這些模型的當前(未壓縮的)形式不能在設備上使用。

2. 訓練數據通常分布在設備上，由于隱私問題或有限的資源(帶寬)，無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望，因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。

本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習，它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要，并討論實現這一目標的最新進展，包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。

然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念，包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此，我們將區分壓縮過程的不同步驟，即剪枝和稀疏化、量化和熵編碼。前兩步是有損的，而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如，快速推理、能源效率是其他目標)，我們還將討論有效推理的方法，包括最近提出的神經網絡格式。最后，我們將介紹一個用例，即設備上的語音識別，演示如何在實際應用中使用壓縮方法。

最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景，并根據它們的通信特性進行了比較。接下來，我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術，并討論集群化FL，這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性，即稀疏化、量化和編碼。

目錄：

介紹

目前使用的深度學習
現有模型和新應用的實際局限性
研究、工業和標準化方面的最新發展

神經網絡壓縮

背景:資料編碼、信息論
修剪和稀疏化方法
量化和定點推理
神經網絡格式
用例研究:設備上的語音識別

3.問題 4. 休息時間 5. 分布式學習

背景:SGD，學習理論
聯邦和分布式學習的基本概念
減少通信開銷和連接到NN壓縮
聯邦學習和差異隱私
集群聯合學習

問題

付費5元查看完整內容

自動架構搜索 · 自動機器學習 ·

2020 年 5 月 4 日

[付費5元查看完整內容]【MIT韓松博士-ICLR2020】端上自動機器學習-一勞永逸網絡的NAS: Once-for-All Network

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】現實應用中，不同硬件很多，對于IoT設備、以及FPGA、GPU和CPU的搜索結果的是不一樣的。如果對于每一個硬件都需要重新訓練并且重新搜索的話，是非常昂貴的，所以為了降低搜索成本，MIT韓松博士等學者提出一次訓練一個Once for All（一勞永逸）的網絡，可以從這個網絡中抽取不同的子網絡，定制到不同的硬件上，這樣就做到了只需要訓練一次，極大降低NAS的搜索成本。對很多IoT設備以及不同的手機，包括LG的手機、三星的手機、Google的手機，都定制了不同的網絡，定制的開銷是非常低的，無論是延遲還是準確率都全面超越了EfficientNet和MobileNetV3。

韓松博士在ICLR-NAS論壇做了報告，64頁PPT詳細講述了Once-for-All Network.

地址：

//sites.google.com/view/nas2020

訓練和搜索來訓練一個支持多種架構設置的一次性網絡(OFA)。通過從OFA網絡中進行選擇，不需要額外的訓練，就可以快速地得到一個專門的子網絡。我們還提出了一種新的漸進式縮減算法，一種廣義剪枝方法，它比剪枝方法(深度、寬度、內核大小和分辨率)在更多的維度上減少模型大小，從而可以獲得數量驚人的子網絡(> 1019)，這些子網絡可以適應不同的延遲約束。在邊緣設備上，OFA始終優于SOTA NAS方法(與MobileNetV3相比，ImageNet top1精度提高了4.0%，或與MobileNetV3相同的精度，但比MobileNetV3快1.5倍，比有效凈w.r快2.6倍)。減少了許多數量級的GPU時間和二氧化碳排放。特別是，OFA在移動設置(<600M MACs)下實現了新的SOTA 80.0% ImageNet top1精度。OFA是第四屆低功耗計算機視覺挑戰的獲獎方案，包括分類跟蹤和檢測跟蹤。

韓松本科畢業于清華大學，博士畢業于斯坦福大學，師從 NVIDIA 首席科學家 Bill Dally 教授。他的研究也廣泛涉足深度學習和計算機體系結構，他提出的 Deep Compression 模型壓縮技術曾獲得 ICLR'16 最佳論文，ESE 稀疏神經網絡推理引擎獲得 FPGA'17 最佳論文，對AI算法在移動端的高效部署影響深遠。他的研究成果在 Xilinx、NVIDIA、Facebook、Samsung 得到廣泛應用。韓松在博士期間與同為清華大學畢業的汪玉、姚頌聯合創立了深鑒科技（DeePhi Tech），其核心技術之一為神經網絡壓縮算法，隨后深鑒科技被美國半導體公司賽靈思收購。2018 年，韓松加入MIT擔任助理教授，入選2019年度麻省理工科技評論35 Innovators under 35，并在2020年獲得NSF CAREER Award。

ICLR 2020論文 Once for All: Train One Network and Specialize it for Efficient Deployment

作者：Han Cai、Chuang Gan、Song Han 論文鏈接：

將神經網絡部署在各種硬件平臺時，不同的部署場景需要匹配的網絡架構，同時網絡還要盡可能精簡。傳統的做法是手動設計、或者使用 AutoML 搜索網絡架構，之后針對每個不同網絡重新進行訓練。這樣的做法成本很高，也不具有擴展性。隨著需要部署的環境數量增加，這種做法的成本呈線性上升。本文提出了一種名為「一次構建、處處部署（Once for all：OFA）」的方法，可以高效設計神經網絡架構，并同時處理多種部署情況。研究人員的方法摒棄了給每一種情況設計一個專門模型的做法，而是提出訓練一個網絡，支持多種架構設定（網絡深度、寬度、核大小和清晰度等）。給定部署場景后，網絡可以搜索出一個特定的子網絡。這個子網絡是從原始網絡中搜索出來的，而且不需要訓練。

圖 1：左圖：當訓練了一個網絡后，根據部署條件的不同，從該網絡中搜索出一個子網絡。中圖：這樣的搜索方法的設計成本從 O(N) 降低到了 O(1)。右圖：相比其他網絡，論文提出的方法能夠在降低延遲的情況下更好地提升效果。

圖 2：階段性縮減流程示意。

付費5元查看完整內容

深度神經網絡 · 中央處理器 (CPU) · GPU · 神經網絡 · 麻省理工學院 (MIT) ·

2019 年 12 月 9 日

[付費5元查看完整內容]【NeurIPS2019教程】深度神經網絡的高效處理:從算法到硬件架構

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

主題： Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures

簡介： 本教程介紹了用于高效處理深度神經網絡（DNN）的方法，這些方法已在許多AI應用程序中使用，包括計算機視覺，語音識別，機器人等。DNN以高計算復雜度為代價，提供了一流的準確性和結果質量。因此，為深度神經網絡設計有效的算法和硬件架構是朝著在人工智能系統（例如，自動駕駛汽車，無人機，機器人，智能手機，可穿戴設備，物聯網等）中廣泛部署DNN邁出的重要一步。在速度，延遲，功耗/能耗和成本方面有嚴格的限制。在本教程中，我們將簡要概述DNN，討論支持DNN的各種硬件平臺的權衡，包括CPU，GPU，FPGA和ASIC，并重點介紹基準測試/比較指標和評估DNN效率的設計注意事項。然后，我們將從硬件體系結構和網絡算法的角度描述降低DNN計算成本的最新技術。最后，我們還將討論如何將這些技術應用于各種圖像處理和計算機視覺任務。

嘉賓介紹： Vivienne Sze是麻省理工學院電氣工程和計算機科學系的副教授。她的研究興趣包括能量感知信號處理算法，便攜式多媒體應用的低功耗電路和系統設計，包括計算機視覺，深度學習，自主導航和視頻編碼。在加入MIT之前，她是TI研發中心的技術人員，在那里她設計了用于視頻編碼的低功耗算法和體系結構。在高效視頻編碼（HEVC）的開發過程中，她還代表TI參加了ITU-T和ISO / IEC標準機構的JCT-VC委員會，該委員會獲得了黃金時段工程艾美獎。她是《高效視頻編碼（HEVC）：算法和體系結構》（Springer，2014年）的合編者，也是即將出版的《深度神經網絡的高效處理》（Morgan＆Claypool）的合著者。她是2020年機器學習和系統會議（MLSys）的計劃共同主席，并教授MIT設計高效深度學習系統的專業教育課程。

付費5元查看完整內容