【導讀】現實應用中,不同硬件很多,對于IoT設備、以及FPGA、GPU和CPU的搜索結果的是不一樣的。如果對于每一個硬件都需要重新訓練并且重新搜索的話,是非常昂貴的,所以為了降低搜索成本,MIT韓松博士等學者提出一次訓練一個Once for All(一勞永逸)的網絡,可以從這個網絡中抽取不同的子網絡,定制到不同的硬件上,這樣就做到了只需要訓練一次,極大降低NAS的搜索成本。對很多IoT設備以及不同的手機,包括LG的手機、三星的手機、Google的手機,都定制了不同的網絡,定制的開銷是非常低的,無論是延遲還是準確率都全面超越了EfficientNet和MobileNetV3。
韓松博士在ICLR-NAS論壇做了報告,64頁PPT詳細講述了Once-for-All Network.
地址:
//sites.google.com/view/nas2020
訓練和搜索來訓練一個支持多種架構設置的一次性網絡(OFA)。通過從OFA網絡中進行選擇,不需要額外的訓練,就可以快速地得到一個專門的子網絡。我們還提出了一種新的漸進式縮減算法,一種廣義剪枝方法,它比剪枝方法(深度、寬度、內核大小和分辨率)在更多的維度上減少模型大小,從而可以獲得數量驚人的子網絡(> 1019),這些子網絡可以適應不同的延遲約束。在邊緣設備上,OFA始終優于SOTA NAS方法(與MobileNetV3相比,ImageNet top1精度提高了4.0%,或與MobileNetV3相同的精度,但比MobileNetV3快1.5倍,比有效凈w.r快2.6倍)。減少了許多數量級的GPU時間和二氧化碳排放。特別是,OFA在移動設置(<600M MACs)下實現了新的SOTA 80.0% ImageNet top1精度。OFA是第四屆低功耗計算機視覺挑戰的獲獎方案,包括分類跟蹤和檢測跟蹤。
韓松 本科畢業于清華大學,博士畢業于斯坦福大學,師從 NVIDIA 首席科學家 Bill Dally 教授。他的研究也廣泛涉足深度學習和計算機體系結構,他提出的 Deep Compression 模型壓縮技術曾獲得 ICLR'16 最佳論文,ESE 稀疏神經網絡推理引擎獲得 FPGA'17 最佳論文,對AI算法在移動端的高效部署影響深遠。他的研究成果在 Xilinx、NVIDIA、Facebook、Samsung 得到廣泛應用。韓松在博士期間與同為清華大學畢業的汪玉、姚頌聯合創立了深鑒科技(DeePhi Tech),其核心技術之一為神經網絡壓縮算法,隨后深鑒科技被美國半導體公司賽靈思收購。2018 年,韓松加入MIT擔任助理教授,入選2019年度麻省理工科技評論35 Innovators under 35,并在2020年獲得NSF CAREER Award。
ICLR 2020論文 Once for All: Train One Network and Specialize it for Efficient Deployment
作者:Han Cai、Chuang Gan、Song Han 論文鏈接:
將神經網絡部署在各種硬件平臺時,不同的部署場景需要匹配的網絡架構,同時網絡還要盡可能精簡。傳統的做法是手動設計、或者使用 AutoML 搜索網絡架構,之后針對每個不同網絡重新進行訓練。這樣的做法成本很高,也不具有擴展性。隨著需要部署的環境數量增加,這種做法的成本呈線性上升。本文提出了一種名為「一次構建、處處部署(Once for all:OFA)」的方法,可以高效設計神經網絡架構,并同時處理多種部署情況。研究人員的方法摒棄了給每一種情況設計一個專門模型的做法,而是提出訓練一個網絡,支持多種架構設定(網絡深度、寬度、核大小和清晰度等)。給定部署場景后,網絡可以搜索出一個特定的子網絡。這個子網絡是從原始網絡中搜索出來的,而且不需要訓練。
圖 1:左圖:當訓練了一個網絡后,根據部署條件的不同,從該網絡中搜索出一個子網絡。中圖:這樣的搜索方法的設計成本從 O(N) 降低到了 O(1)。右圖:相比其他網絡,論文提出的方法能夠在降低延遲的情況下更好地提升效果。
圖 2:階段性縮減流程示意。
題目:
Accelerator-aware neural network desing using autoML
簡介:
盡管神經網絡硬件加速器提供了大量的原始計算量,但必須針對底層硬件體系結構共同設計部署在其上的模型,以獲得最佳的系統性能。 我們提供了一類計算機視覺模型,該模型使用硬件感知的神經體系結構搜索設計并定制運行在Edge TPU上,Edge TPU是用于低功耗,邊緣設備的Google神經網絡硬件加速器。 對于Coral設備中的Edge TPU,這些模型可實現實時分析圖像分類性能,同時獲得通常只有在數據中心運行的大型,計算繁重的模型才能看到的準確性。 在Pixel 4的Edge TPU上,這些模型與現有的SoTA移動模型相比,改善了精確度-延遲等問題。
題目: NETWORK DECONVOLUTION
摘 要:
卷積是卷積神經網絡(CNNs)的核心操作,它將一個核函數應用于圖像上移位的重疊區域。然而,由于實際圖像數據具有很強的相關性,卷積核實際上是對冗余數據的再學習。在這項工作中,我們證明了這種冗余使神經網絡訓練具有挑戰性,并提出了網絡反褶積,這是一種在數據被輸入到每一層之前最優地去除像素和信道相關的方法。網絡反褶積可以有效地計算在一個卷積層的計算成本的一小部分。我們還發現,網絡第一層的反褶積濾波器與大腦視覺區域的生物神經元中發現的中央環繞結構相似。使用這種內核進行過濾會得到一個稀疏表示,這是神經網絡訓練中所缺少的一個理想特性。在不使用批處理標準化的情況下,從稀疏表示中學習可以促進更快的收斂和更好的結果。我們將我們的網絡反褶積操作應用到10個現代神經網絡模型中,在每個模型中替換批量歸一化。大量的實驗表明,在CIFAR-10、CIFAR-100、MNIST、Fashion-MNIST、Cityscapes和ImageNet數據集的所有情況下,網絡反卷積操作都能夠提供性能改進。
演講主講人是 Vivienne Sze,來自 MIT 的高效能多媒體系統組(Energy-Efficient Multimedia Systems Group)。她曾就讀于多倫多大學,在 MIT 完成 PhD 學業并獲得電氣工程博士學位,目前在 MIT 任教。Sze 教授的主要研究興趣是高效能算法和移動多媒體設備應用架構,她最近在MIT公開課給了《Efficient Computing for Deep Learning, AI and Robotics》報告。
本次演講的主題是 DNN 在硬件設備中的高效計算處理方法。隨著深度學習算法效率逐漸提高,計算速度、延遲程度、耗能和硬件成本成為制約算法性能的瓶頸問題。如果能夠解決這些問題,包括自動駕駛、無人機導航、智能手機、可穿戴設備和物聯網設備就都能夠受益于算法性能的提升。
在演講中,Sze 教授首先會介紹 DNN 算法,以及它們在各類硬件上部署時可能帶來的性能損失。更重要的是,演講會提到基準測試和評價標準對設計高效 DNN 算法帶來的影響。之后,Sze 教授會從算法角度硬件架構兩個角度介紹減少耗能的方法。同時,演講也會涵蓋將這些方法應用于計算機視覺等領域。Sze 教授因多項成果獲得過谷歌和 Facebook 的 faculty 獎等多個獎項。
本次演講的主要目標如下:
讓硬件高效處理 DNN 的方法(非常多);
關注包括設計 DNN 硬件處理器和 DNN 模型的評估方法;
設計 DNN 硬件處理器和 DNN 模型的方法;
研究過程中,你應當問什么樣的關鍵問題;
真正需要評價和對比的評估指標體系;
達成這些指標的挑戰;
了解設計中需要考慮到的問題,以及可能平衡在算法性能和耗能中遇到的問題;
在講解的過程中,Sze 教授會穿插大量的圖解和案例,讓介紹更加充實有趣。