演講主講人是 Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構,她最近在MIT公開課給了《Efficient Computing for Deep Learning, AI and Robotics》報告。
本次演講的主題是 DNN 在硬件設備中的高效計算處理方法。隨著深度學習算法效率逐漸提高,計算速度、延遲程度、耗能和硬件成本成為制約算法性能的瓶頸問題。如果能夠解決這些問題,包括自動駕駛、無人機導航、智能手機、可穿戴設備和物聯網設備就都能夠受益于算法性能的提升。
在演講中,Sze 教授首先會介紹 DNN 算法,以及它們在各類硬件上部署時可能帶來的性能損失。更重要的是,演講會提到基準測試和評價標準對設計高效 DNN 算法帶來的影響。之后,Sze 教授會從算法角度硬件架構兩個角度介紹減少耗能的方法。同時,演講也會涵蓋將這些方法應用于計算機視覺等領域。Sze 教授因多項成果獲得過谷歌和 Facebook 的 faculty 獎等多個獎項。
本次演講的主要目標如下:
讓硬件高效處理 DNN 的方法(非常多);
關注包括設計 DNN 硬件處理器和 DNN 模型的評估方法;
設計 DNN 硬件處理器和 DNN 模型的方法;
研究過程中,你應當問什么樣的關鍵問題;
真正需要評價和對比的評估指標體系;
達成這些指標的挑戰;
了解設計中需要考慮到的問題,以及可能平衡在算法性能和耗能中遇到的問題;
在講解的過程中,Sze 教授會穿插大量的圖解和案例,讓介紹更加充實有趣。
【導讀】深度神經網絡在很多監督任務都達到了SOTA性能,但是其計算量是個挑戰。來自MIT 教授 Vivienne Sze等學者發布了關于《深度神經網絡的高效處理》著作,本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。值得關注。
//www.morganclaypoolpublishers.com/catalog_Orig/product_info.php?cPath=22&products_id=1530
本書為深度神經網絡(DNNs)的高效處理提供了關鍵原則和技術的結構化處理。DNNs目前廣泛應用于許多人工智能(AI)應用,包括計算機視覺、語音識別和機器人技術。雖然DNNs在許多人工智能任務中提供了最好的性能,但它以高計算復雜度為代價。因此,在不犧牲準確性或增加硬件成本的情況下,能夠有效處理深層神經網絡以提高指標(如能源效率、吞吐量和延遲)的技術對于在人工智能系統中廣泛部署DNNs至關重要。
本書中包括了DNN處理的背景知識;設計DNN加速器的硬件架構方法的描述和分類;評價和比較不同設計的關鍵指標;DNN處理的特點是服從硬件/算法的共同設計,以提高能源效率和吞吐量;以及應用新技術的機會。讀者將會發現對該領域的結構化介紹,以及對現有工作中關鍵概念的形式化和組織,從而提供可能激發新想法的見解。
深度神經網絡(DNNs)已經變得非常流行; 然而,它們是以高計算復雜度為代價的。因此,人們對有效處理DNNs產生了極大的興趣。DNN加速的挑戰有三:
目錄內容:
第一部分理解深層神經網絡
第二部分處理DNNs的硬件設計
第三部分,DNN硬件和算法的協同設計
第一個模塊旨在提供DNN領域的總體背景和了解DNN工作負載的特點。
第二部分主要介紹處理DNNs的硬件設計。它根據定制程度(從通用平臺到完全定制硬件)討論各種架構設計決策,以及在將DNN工作負載映射到這些架構時的設計考慮。同時考慮了時間和空間架構。
第三個模塊討論了如何通過算法和硬件的協同設計來提高堆棧的效率,或者通過使用混合信號電路新的存儲器或設備技術來降低堆棧的效率。在修改算法的情況下,必須仔細評估對精度的影響。
Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構。
摘要:隨著日益劇增的海量數據信息的產生以及數據挖掘算法的廣泛應用,人們已經進入了大數據時代.在數據規模飛速增長的前提下,如何高效穩定的存取數據信息以及加快數據挖掘算法的執行已經成為學術界和工業界急需解決的關鍵問題.機器學習算法作為數據挖掘應用的核心組成部分,吸引了越來越多研究者的關注,而利用新型的軟硬件手段來加速機器學習算法已經成為了目前的研究熱點之一.本文主要針對基于ASIC和FPGA等硬件平臺設計的機器學習加速器進行了歸納與總結.首先,本文先介紹了機器學習算法,對代表性的算法進行了分析和歸納.接下來對加速器可能的著眼點進行了列舉綜述,以各種機器學習硬件加速器為主要實例介紹了目前主流的加速器設計和實現,并圍繞加速器結構進行簡單分類和總結.最后本文對機器學習算法硬件加速這個領域進行了分析,并對目前的發展趨勢做出了展望.
深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。
然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。
1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。
2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。
本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。
然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。
最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。
目錄:
3.問題 4. 休息時間 5. 分布式學習
【導讀】現實應用中,不同硬件很多,對于IoT設備、以及FPGA、GPU和CPU的搜索結果的是不一樣的。如果對于每一個硬件都需要重新訓練并且重新搜索的話,是非常昂貴的,所以為了降低搜索成本,MIT韓松博士等學者提出一次訓練一個Once for All(一勞永逸)的網絡,可以從這個網絡中抽取不同的子網絡,定制到不同的硬件上,這樣就做到了只需要訓練一次,極大降低NAS的搜索成本。對很多IoT設備以及不同的手機,包括LG的手機、三星的手機、Google的手機,都定制了不同的網絡,定制的開銷是非常低的,無論是延遲還是準確率都全面超越了EfficientNet和MobileNetV3。
韓松博士在ICLR-NAS論壇做了報告,64頁PPT詳細講述了Once-for-All Network.
地址:
//sites.google.com/view/nas2020
訓練和搜索來訓練一個支持多種架構設置的一次性網絡(OFA)。通過從OFA網絡中進行選擇,不需要額外的訓練,就可以快速地得到一個專門的子網絡。我們還提出了一種新的漸進式縮減算法,一種廣義剪枝方法,它比剪枝方法(深度、寬度、內核大小和分辨率)在更多的維度上減少模型大小,從而可以獲得數量驚人的子網絡(> 1019),這些子網絡可以適應不同的延遲約束。在邊緣設備上,OFA始終優于SOTA NAS方法(與MobileNetV3相比,ImageNet top1精度提高了4.0%,或與MobileNetV3相同的精度,但比MobileNetV3快1.5倍,比有效凈w.r快2.6倍)。減少了許多數量級的GPU時間和二氧化碳排放。特別是,OFA在移動設置(<600M MACs)下實現了新的SOTA 80.0% ImageNet top1精度。OFA是第四屆低功耗計算機視覺挑戰的獲獎方案,包括分類跟蹤和檢測跟蹤。
韓松 本科畢業于清華大學,博士畢業于斯坦福大學,師從 NVIDIA 首席科學家 Bill Dally 教授。他的研究也廣泛涉足深度學習和計算機體系結構,他提出的 Deep Compression 模型壓縮技術曾獲得 ICLR'16 最佳論文,ESE 稀疏神經網絡推理引擎獲得 FPGA'17 最佳論文,對AI算法在移動端的高效部署影響深遠。他的研究成果在 Xilinx、NVIDIA、Facebook、Samsung 得到廣泛應用。韓松在博士期間與同為清華大學畢業的汪玉、姚頌聯合創立了深鑒科技(DeePhi Tech),其核心技術之一為神經網絡壓縮算法,隨后深鑒科技被美國半導體公司賽靈思收購。2018 年,韓松加入MIT擔任助理教授,入選2019年度麻省理工科技評論35 Innovators under 35,并在2020年獲得NSF CAREER Award。
ICLR 2020論文 Once for All: Train One Network and Specialize it for Efficient Deployment
作者:Han Cai、Chuang Gan、Song Han 論文鏈接:
將神經網絡部署在各種硬件平臺時,不同的部署場景需要匹配的網絡架構,同時網絡還要盡可能精簡。傳統的做法是手動設計、或者使用 AutoML 搜索網絡架構,之后針對每個不同網絡重新進行訓練。這樣的做法成本很高,也不具有擴展性。隨著需要部署的環境數量增加,這種做法的成本呈線性上升。本文提出了一種名為「一次構建、處處部署(Once for all:OFA)」的方法,可以高效設計神經網絡架構,并同時處理多種部署情況。研究人員的方法摒棄了給每一種情況設計一個專門模型的做法,而是提出訓練一個網絡,支持多種架構設定(網絡深度、寬度、核大小和清晰度等)。給定部署場景后,網絡可以搜索出一個特定的子網絡。這個子網絡是從原始網絡中搜索出來的,而且不需要訓練。
圖 1:左圖:當訓練了一個網絡后,根據部署條件的不同,從該網絡中搜索出一個子網絡。中圖:這樣的搜索方法的設計成本從 O(N) 降低到了 O(1)。右圖:相比其他網絡,論文提出的方法能夠在降低延遲的情況下更好地提升效果。
圖 2:階段性縮減流程示意。
主題: Efficient Processing of Deep Neural Networks: from Algorithms to Hardware Architectures
簡介: 本教程介紹了用于高效處理深度神經網絡(DNN)的方法,這些方法已在許多AI應用程序中使用,包括計算機視覺,語音識別,機器人等。DNN以高計算復雜度為代價,提供了一流的準確性和結果質量。因此,為深度神經網絡設計有效的算法和硬件架構是朝著在人工智能系統(例如,自動駕駛汽車,無人機,機器人,智能手機,可穿戴設備,物聯網等)中廣泛部署DNN邁出的重要一步。在速度,延遲,功耗/能耗和成本方面有嚴格的限制。 在本教程中,我們將簡要概述DNN,討論支持DNN的各種硬件平臺的權衡,包括CPU,GPU,FPGA和ASIC,并重點介紹基準測試/比較指標和評估DNN效率的設計注意事項。然后,我們將從硬件體系結構和網絡算法的角度描述降低DNN計算成本的最新技術。最后,我們還將討論如何將這些技術應用于各種圖像處理和計算機視覺任務。
嘉賓介紹: Vivienne Sze是麻省理工學院電氣工程和計算機科學系的副教授。她的研究興趣包括能量感知信號處理算法,便攜式多媒體應用的低功耗電路和系統設計,包括計算機視覺,深度學習,自主導航和視頻編碼。在加入MIT之前,她是TI研發中心的技術人員,在那里她設計了用于視頻編碼的低功耗算法和體系結構。在高效視頻編碼(HEVC)的開發過程中,她還代表TI參加了ITU-T和ISO / IEC標準機構的JCT-VC委員會,該委員會獲得了黃金時段工程艾美獎。她是《高效視頻編碼(HEVC):算法和體系結構》(Springer,2014年)的合編者,也是即將出版的《深度神經網絡的高效處理》(Morgan&Claypool)的合著者。她是2020年機器學習和系統會議(MLSys)的計劃共同主席,并教授MIT設計高效深度學習系統的專業教育課程。