題目: The Deep Learning Compiler: A Comprehensive Survey
摘要: 在不同的DL硬件上部署各種深度學習(deep learning,DL)模型的困難,推動了DL編譯器在社區中的研究和開發。業界和學術界都提出了一些DL編譯器,如Tensorflow XLA和TVM。類似地,DL編譯器將不同DL框架中描述的DL模型作為輸入,然后為不同的DL硬件生成優化代碼作為輸出。然而,現有的調查沒有全面分析DL編譯器的獨特設計。在本文中,我們對現有DL編譯器進行了全面的調查,通過對常用設計的詳細剖析,著重介紹了面向DL的多級IRS,以及前端/后端優化。具體來說,我們提供了一個全面的比較現有的DL編譯器從各個方面。此外,我們還詳細分析了多級IR設計和編譯器優化技術。最后,提出了DL編譯器潛在的研究方向。這是第一篇針對DL編譯器獨特設計的綜述性論文,希望能為以后的研究鋪平道路。
主題: A Review on Deep Learning Techniques for Video Prediction
摘要: 預測,預期和推理未來結果的能力是智能決策系統的關鍵組成部分。鑒于深度學習在計算機視覺中的成功,基于深度學習的視頻預測已成為有前途的研究方向。視頻預測被定義為一種自我監督的學習任務,它代表了一個表示學習的合適框架,因為它展示了提取自然視頻中潛在模式的有意義的表示的潛在能力。視頻序列預測的深度學習方法。我們首先定義視頻預測的基礎知識,以及強制性的背景概念和最常用的數據集。接下來,我們會仔細分析根據擬議的分類法組織的現有視頻預測模型,突出顯示它們的貢獻及其在該領域的意義。數據集和方法的摘要均附有實驗結果,有助于在定量基礎上評估現有技術。通過得出一些一般性結論,確定開放研究挑戰并指出未來的研究方向來對本文進行總結。
主題: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic
摘要: 深度強化學習(DRL)方法在經濟學中的應用已成倍增加。 DRL通過從強化學習(RL)和深度學習(DL)的廣泛功能來處理復雜的動態業務環境提供了廣闊的機遇。 DRL的特點是可伸縮性,它有可能結合經濟數據的噪聲和非線性模式應用于高維問題。在這項工作中,我們首先考慮對經濟學中各種應用中的DL,RL和深層RL方法進行簡要回顧,以提供對最新技術水平的深入了解。此外,研究了應用于經濟應用的DRL體系結構,以突出其復雜性,魯棒性,準確性,性能,計算任務,風險約束和獲利能力。調查結果表明,與傳統算法相比,DRL可以提供更好的性能和更高的精度,同時在存在風險參數和不確定性不斷增加的情況下面臨實際的經濟問題。
【導讀】近年來深度學習芯片的研究發展是業界關注的焦點。專知之前報道過Google AI Jeff Dean獨自撰文的關于AI時代芯片的歷史發展趨勢-【Google Jeff Dean獨自署名論文】深度學習革命及其對計算機架構和芯片設計的影響,講述AI芯片發展歷程與未來,但學術業界一直缺乏對當前深度學習編譯器框架的綜述。最近北航的學者撰寫了第一篇關于當下深度學習編譯器的綜述論文《The Deep Learning Compiler: A Comprehensive Survey》36頁pdf1,從各個方面對現有的DL編譯器進行了全面的比較。此外,還詳細分析了多級紅外設計和編譯優化技術。最后,指出了DL編譯器的研究方向,很好的論文。
摘要
在不同的DL硬件上部署各種深度學習(DL)模型的困難,促進了社區中DL編譯器的研究和開發。工業界和學術界已經提出了幾個DL編譯器,如Tensorflow XLA和TVM。類似地,DL編譯器將不同DL框架中描述的DL模型作為輸入,然后為不同的DL硬件生成優化代碼作為輸出。然而,現有的綜述論文沒有一個全面地分析DL編譯器的獨特設計。在本文中,我們通過剖析通常采用的設計細節,對現有的DL編譯器進行了全面的調研,重點是面向DL的多級IRs和前端/后端優化。具體來說,我們從各個方面對現有的DL編譯器進行了全面的比較。此外,還詳細分析了多級紅外設計和編譯優化技術。最后,指出了DL編譯器的研究方向。這是第一篇關于DL編譯器的獨特設計的綜述論文,我們希望能夠為將來DL編譯器的研究鋪平道路。
概述
深度學習(DL)的發展對各個科學領域產生了深遠的影響。它不僅在自然語言處理(NLP) (Manning et al., 1999)和計算機視覺(CV) (Forsyth and Ponce, 2002)等人工智能領域顯示出顯著的價值,而且在電子商務(Ha et al., 2016)、智慧城市(Mohammadi et al., 2017)和藥物發現(Chen et al., 2018a)等更廣泛的應用領域也取得了巨大的成功。隨著卷積神經網絡(convolutional neural network, CNN) (LeCun et al., 1998)、遞歸神經網絡(neural network, RNN) (Rumelhart et al., 1986)、長短時記憶(long short-term memory, LSTM) (Hochreiter and Schmidhuber, 1997)、生成對抗網絡(adversarial network, GAN) (Goodfellow et al., 2014)等多種深度學習模型的出現,簡化DL模型的編程是實現其廣泛應用的關鍵。
在工業界和學術界的不斷努力下,為了簡化各種DL模型的應用,提出了TensorFlow (Abadi et al., 2016)、PyTorch (Paszke et al., 2019)、MXNet (Chen et al., 2015)和CNTK (Seide and Agarwal, 2016)等流行的DL編程框架。盡管上述DL編程框架的優點和缺點取決于它們設計中的折衷方案,但是互操作性對于減少冗余工程工作變得非常重要,因為它支持跨現有DL模型的新出現的DL模型。為了提高互操作性,ONNX (onn, [n.d.])被提議定義一種表示DL模型的開放源碼格式,這種格式可以促進不同DL框架之間的模型轉換。
與此同時,矩陣乘法等獨特的計算特性激發了芯片架構師為提高效率而設計定制DL芯片的熱情。互聯網巨頭(如谷歌TPU (Jouppi等,2017年),Hisilicon NPU (Liao等,2019年),蘋果Bonic (Kingsley-Hughes, 2017年)),處理器供應商(如NNP (tur, [n.d]),英特爾NNP (NNP, [n.d])),服務提供商(如亞馬遜推論(inf, [n.d]),阿里巴巴Hanguang (han, [n.d]),甚至初創公司(如Cambricon (Liu等,2016年),Graphcore (Jia等,為了提高DL模型的計算能力,他們投入了大量的人力和資本來開發DL芯片。一般來說,DL芯片的種類包括:1)通用芯片與軟硬件協同設計;2)完全定制DL機型專用芯片;3)受生物腦科學啟發的神經形態芯片。例如,通用芯片(如CPU、GPU)增加了AVX512矢量單元和張量核等特殊硬件組件來加速DL模型。而對于專用芯片,如谷歌張量處理單元(TPU),應用特定的集成電路(如矩陣乘法引擎和高帶寬內存)被設計來提高性能和能源效率到極致。在可預見的未來,DL芯片的設計將變得更加多樣化。
為了在不同的DL芯片上加速DL模型,有效地將計算映射到DL芯片是很重要的。在通用芯片上,高度優化的線性代數庫(如基本線性代數子程序庫(BLAS))(如MKL和cuBLAS)是DL模型高效計算的基礎。以卷積運算為例,DL框架將卷積轉換為矩陣乘法,然后調用BLAS庫中的GEMM函數。此外,芯片廠商還為DL計算(例如,MKL-DNN和cuDNN)發布了特別優化的庫,包括前向和后向卷積、池化、標準化和激活。還開發了更高級的工具來進一步加速DL操作。以TensorRT (ten, [n.d])為例,它支持圖形優化(如層融合)和低比特量化,并具有大量高度優化的GPU內核。在專用的DL芯片上,供應商還提供了類似的庫和工具鏈,以有效地執行DL模型。然而,依賴上述的庫和工具在不同的DL芯片上映射DL模型的缺點是,它們通常落后于DL模型的快速開發,因此不能有效地利用DL芯片。
為了解決DL庫和工具的缺陷,以及減輕手工優化每個DL芯片上的DL模型的負擔,DL社區求助于領域特定的編譯器技術來解決問題。很快地,一些流行的DL編譯器被提了出來,例如來自工業界和學術界的TVM (Chen等人,2018b)、Tensor Comprehension (Vasilache等人,2018)、Glow (Rotem等人,2018)、nGraph (Cyphers等人,2018)和XLA (Leary和Wang, 2017)。DL編譯器將DL框架中描述的模型定義作為輸入,并在各種DL芯片上生成高效的代碼實現作為輸出。模型定義和特定代碼實現之間的轉換針對模型規范和硬件體系結構進行了高度優化。具體地說,DL編譯器結合了面向DL的優化,比如層和操作符融合,這支持高效的代碼生成。此外,現有的DL編譯器也利用了來自通用編譯器(如LLVM (Lattner和Adve, 2004))的成熟工具鏈,這些工具鏈提供了跨不同硬件架構的更好的可移植性。與傳統編譯器相似,DL編譯器也采用了包括前端、中間表示(IR)和后端在內的分層設計。然而,DL編譯器的惟一性在于多層IRs和DL特定優化的設計。
在這篇論文中,我們通過將編譯器的設計分為前端、多級IR和后端,并著重介紹了IR的設計和優化方法,對現有的DL編譯器進行了全面的研究。據我們所知,這是第一篇全面介紹DL編譯器設計的論文。具體而言,本文的貢獻如下:
我們從硬件支持、DL框架支持、代碼生成和優化等方面對現有的DL編譯器進行了全面的比較,為最終用戶選擇合適的DL編譯器提供了指導。
我們剖析了現有DL編譯器的總體設計,并詳細分析了多級IR設計和編譯器優化技術,如數據流底層優化、硬件內在映射、內存延遲隱藏和并行化。
我們為DL編譯器的未來發展提供了一些見解,包括自動調優、多面體編譯器、量化、可微編程和隱私保護,希望能促進DL編譯器社區的研究。
本文其余部分組織如下。第2節介紹DL編譯器的背景,包括DL框架、DL芯片以及硬件(FPGA)特定的DL編譯器。第3節詳細比較了現有的DL編譯器。第4節描述了DL編譯器的總體設計,重點介紹了IR和前端/后端優化。第五部分是全文的總結,并對未來的研究方向進行了展望。
The difficulty of deploying various deep learning (DL) models on diverse DL hardwares has boosted the research and development of DL compilers in the community. Several DL compilers have been proposed from both industry and academia such as Tensorflow XLA and TVM. Similarly, the DL compilers take the DL models described in different DL frameworks as input, and then generate optimized codes for diverse DL hardwares as output. However, none of the existing survey has analyzed the unique design of the DL compilers comprehensively. In this paper, we perform a comprehensive survey of existing DL compilers by dissecting the commonly adopted design in details, with emphasis on the DL oriented multi-level IRs, and frontend/backend optimizations. Specifically, we provide a comprehensive comparison among existing DL compilers from various aspects. In addition, we present detailed analysis of the multi-level IR design and compiler optimization techniques. Finally, several insights are highlighted as the potential research directions of DL compiler. This is the first survey paper focusing on the unique design of DL compiler, which we hope can pave the road for future research towards the DL compiler.
簡介:
深度學習技術在圖像降噪方面獲得了極大的關注。但是,處理噪聲的不同類型的學習方法有很大的差異。具體來說,基于深度學習的判別式學習可以很好地解決高斯噪聲。基于深度學習的優化模型方法對真實噪聲的估計有很好的效果。迄今為止,很少有相關研究來總結用于圖像去噪的不同深度學習技術。在本文中,作者對圖像去噪中不同深度技術進行了比較研究。我們首先對(1)用于加白噪聲圖像的深卷積神經網絡(CNN),(2)用于真實噪聲圖像的深CNN,(3)用于盲目去噪的深CNN和(4)用于混合噪聲圖像的深CNN進行分類,這是噪聲,模糊和低分辨率圖像的組合。然后,又分析了不同類型的深度學習方法的動機和原理。接下來,將在定量和定性分析方面比較和驗證公共去噪數據集的最新方法。最后,論文指出了一些潛在的挑戰和未來研究的方向。
簡要內容:
圖像去噪的深度學習方法的基礎框架:
圖像去噪中的深度學習技術:
題目: Deep Learning for Visual Tracking: A Comprehensive Survey
簡介: 視覺目標跟蹤是計算機視覺領域中最受關注和最具挑戰性的研究課題之一。考慮到這個問題的不適定性質及其在現實世界中廣泛應用的情況,已經建立了大量的大型基準數據集,在這些數據集上已經開發了相當多的方法,并在近年來取得了顯著進展——主要是最近基于深度學習(DL)的方法。這項綜述的目的是系統地調查當前基于深度學習的視覺跟蹤方法、基準數據集和評估指標。它也廣泛地評價和分析領先的視覺跟蹤方法。首先,從網絡體系結構、網絡利用、視覺跟蹤網絡訓練、網絡目標、網絡輸出、相關濾波優勢利用六個關鍵方面,總結了基于dll的方法的基本特征、主要動機和貢獻。其次,比較了常用的視覺跟蹤基準及其各自的性能,總結了它們的評價指標。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基準上,全面檢查最先進的基于dll的方法。最后,通過對這些最先進的方法進行定量和定性的批判性分析,研究它們在各種常見場景下的優缺點。它可以作為一個溫和的使用指南,讓從業者在什么時候、在什么條件下選擇哪種方法。它還促進了對正在進行的問題的討論,并為有希望的研究方向帶來光明。
文章題目
圖論深度學習研究綜述:A comprehensive collection of recent papers on graph deep learning
文章內容
作者懷著大公無私的精神,致力于服務廣大AI從事人員,此次將關于圖深度學習的最新最經典的書籍,論文等資料全部搜集了一下,以供廣大圖深度學習者參考,內容海納百川,包羅萬象,精彩豐富,實在不容錯過。
論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
主題: Deep Learning Compiler
簡介:
Apache TVM是一個用于Cpu、Gpu和專用加速器的開源深度學習編譯器堆棧。它的目標是縮小以生產力為中心的深度學習框架和以性能或效率為中心的硬件后端之間的差距。在此次演講中主要圍繞AWS AI的深度學習編譯器的項目展開,講述了如何通過TVM使用預量化模型,完全從零開始添加新的操作或者是降低到現有繼電器操作符的序列。
邀請嘉賓:
Yida Wang是亞馬遜AWS AI團隊的一名應用科學家。在加入Amazon之前,曾在Intel實驗室的并行計算實驗室擔任研究科學家。Yida Wang在普林斯頓大學獲得了計算機科學和神經科學博士學位。研究興趣是高性能計算和大數據分析。目前的工作是優化深度學習模型對不同硬件架構的推理,例如Cpu, Gpu, TPUs。