国产一区二区高清无码-欧美日韩国产视频

深度學習(Deep learning, DL)在各個領域都表現出了蓬勃發展的勢頭。DL模型的開發是一個耗時且資源密集型的過程。因此，GPU專用加速器被集合構建為GPU數據中心。對于這種GPU數據中心，高效的調度設計對于降低運行成本、提高資源利用率至關重要。然而，針對大數據或高性能計算工作負載的傳統方法無法支持DL工作負載，無法充分利用GPU資源。最近，針對GPU數據中心的DL工作負載，提出了大量的調度器。本文調研了訓練和推理工作量的現有研究成果。我們主要介紹現有的調度器如何從調度目標和資源消耗特性促進各自的工作負載。最后，對未來的研究方向進行了展望。在我們的項目網站上可以找到更詳細的綜述論文總結和代碼鏈接://github.com/S-Lab-SystemGroup/Awesome-DL-Scheduling-Papers。

近幾十年來，深度學習(deep learning, DL)在許多領域的研究、開發和應用急劇增加，包括圍棋[130]、醫學分析[125]、機器人[48]等。標準的DL開發流程包括模型訓練和模型推理。每個階段都需要高級硬件資源(GPU和其他計算系統)來生產和服務生產級DL模型[62,71,106,149]。因此，it行業[62,149]和研究機構[18,19,71]普遍建立GPU數據中心，以滿足日益增長的DL發展需求。GPU數據中心擁有大量的異構計算資源來承載大量的DL工作負載。迫切需要一個有效的調度器系統來協調這些資源和工作負載，以保證DL工作負載執行、硬件利用率和其他調度目標的效率。

調度器負責確定整個數據中心的資源利用率和每個作業的性能，從而進一步影響操作成本和用戶體驗[42]。具體來說，(1)對于模型訓練，調度器分配用戶請求的資源，以支持長時間運行的離線訓練工作負載。調度器需要為每個單獨的工作負載實現高性能，為整個數據中心實現高資源利用率，并在不同用戶之間實現高公平性。由于DL訓練工作的特殊性和復雜性，傳統的高性能計算(HPC)和大數據負載調度算法會導致資源利用率不均衡和基礎設施費用過高[157]，需要為GPU數據中心量身定制新的解決方案。(2)在模型推理中，DL應用通常作為在線服務來回答用戶的請求。他們通常對響應延遲和推斷精度有更高的期望[25,172]。未能在指定時間內完成(服務水平協議)或精度低于預期的應用程序可能很少或沒有商業價值。因此，調度器在推斷延遲、準確性和成本之間的平衡是至關重要的。

多年來，各種DL調度器被提出用于GPU數據中心[25,46,106,117,121,152,172]。然而，這些系統中的大多數都是針對某些特定目標而設計的。對于DL工作負載的高效調度，目前還缺乏全面的探索。我們對以下問題感興趣:** (1)設計一個令人滿意的調度器來管理DL工作負載和資源的主要挑戰是什么? (2) 現有的解決方案是否有共同的策略來實現其調度目標? (3) 我們需要如何完善調度程序以適應DL技術的快速發展?這些問題對于系統研究人員和實踐者理解DL工作負載調度和管理的基本原理，以及為更復雜的場景和目標設計創新的調度程序是很重要的。遺憾的是，目前還沒有這樣的工作來系統地總結和回答這些問題**。據我們所知，本文首次介紹了在研究和生產中GPU數據中心調度DL訓練和推理工作負載的調研。我們做出了以下貢獻。首先，我們深入分析了DL工作負載的特征，并確定了在GPU數據中心管理各種DL工作負載的固有挑戰。其次，對現有的DL調度工作進行了全面的回顧和總結。我們根據調度目標和資源消耗特征對這些解決方案進行分類。我們還分析了它們的機制，以解決日程安排方面的挑戰。這樣的總結可以揭示現有的DL調度器設計的常見和重要的考慮因素。第三，我們總結了現有設計的局限性和影響，為GPU數據中心的調度器設計提供了新的思路。我們希望這項調研可以幫助社區了解DL調度程序的發展，并促進未來的設計。

論文結構

本文的結構如下: 第2節描述了DL工作負載的獨特特征以及GPU數據中心調度的挑戰。它也說明了這次調研的范圍。本次調研的主體部分如圖1所示。具體而言，第3節和第4節分別基于調度目標和資源消耗特征對訓練和推理工作量進行了詳細的分類。第5節討論了其他工作負載，例如超參數優化、混合訓練和推理工作負載。在每一節的末尾也給出了這些研究的啟示。第6節總結了這篇調研論文，并確定了調度程序設計的未來方向。

圖2 訓練和推斷工作量的特征。(a)獨占分配vs GPU共享。(b) Gang Scheduling vs彈性訓練。(c)合并布局vs .拓撲不可知布局。(d)推理中的查詢批處理機制。e)迭代過程:通過torch分配和保留GPU內存跟蹤。profiler (ResNet-50 ImageNet分類任務)。(f)異構親和(Heterogeneous Affinity): GPU各代之間的加速幅度在不同任務之間存在顯著差異。

付費5元查看完整內容

相關內容

深度學習系統

關注 0

人工智能 · 硬件描述語言與編譯 · 深度學習 · 綜述論文 ·

2021 年 12 月 5 日

[付費5元查看完整內容]深度學習如何規模化？GMU微軟等最新《大規模深度學習服務系統優化研究》綜述論文，闡述大規模深度學習推理系統優化挑戰與機遇

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】關于《深度學習系統優化》綜述論文

深度學習(Deep Learning, DL)模型在視覺、語言、醫療、商業廣告、娛樂等許多應用領域都取得了優異的表現。隨著DL應用和底層服務硬件的快速發展，都顯示出了強大的擴展趨勢，即模型擴展和計算擴展，例如，最近的預訓練模型具有數千億參數，內存消耗約TB級，以及提供數百個TFLOPS的最新GPU加速器。隨著規模化趨勢的出現，DL推理服務系統出現了新的問題和挑戰，逐步向大規模深度學習服務系統發展。本綜述旨在總結和分類大規模深度學習服務系統出現的挑戰和優化機會。通過提供一種新穎的分類方法，總結計算范式，闡述最新的技術進展，我們希望本綜述能夠揭示新的優化視角，激發大規模深度學習系統優化的新工作。

//www.zhuanzhi.ai/paper/9ee7ca2cf6457080794f9b6608f09e7a

深度學習(DEEP Learning, DL)模型，如CNN[15,36,44]，Transformers[2,7,10,29]和推薦模型[31,41]在許多認知任務，如視覺、語音和語言應用中取得了優異的表現，這在許多領域產生重要的應用，如醫學圖像分析[38]，照片造型[34]，機器翻譯[40]，產品推薦[31]、定制廣告[13]、游戲[21]等。這種廣泛的DL應用帶來了巨大的市場價值，也帶來了大量的DL服務流量。例如，FB有18.2億的日活躍用戶[11]。廣告推薦查詢的數量可以達到每秒10M查詢。消費者生成數據的巨大增長和DL服務的使用也推動了對以人工智能為中心的數據中心(如亞馬遜AWS[27]和微軟Azure[6])的需求，以及對GPU等強大的DL加速器的日益采用。根據[35]的報告，2018年，GPU在全球數據中心加速器市場上以298300萬美元的份額占據了85%的主要份額。到2025年，該產品將達到298.19億美元。

隨著市場需求的不斷增長，DL應用和底層服務硬件在計算可擴展(例如，增加計算并行性、內存和存儲以服務于更大的模型)和模型擴展(例如，更高的結構復雜性、計算工作量、參數大小以獲得更好的精度)，這大大復雜化了服務系統的管理和優化。一方面，如圖1 (a)所示，在計算擴展趨勢下，具有大規模計算并行性的GPU已成為近年來數據中心DL計算加速器的主要類型之一，并保持著持續的指數級性能縮放。最近的GPU如NVIDIA Tesla V100提供每秒130拉浮點運算(TFLOPS),和900 GB / s內存帶寬, 和這些數字進一步增加到312 TFLOPS和1.6 TB / s內存帶寬,可以提供數萬DL模型如ResNet50[15]同時提供更高的效率(性能/瓦特)。另一方面，如圖1 (b)所示，模型規模已經被證明是獲得更好的精度的最重要的因素之一，其有效性在實踐中一致顯示在所有領域的工業超大模型，如視覺模型BiT [22]， NLP模型BERT [7]，GPT3[2]和深度學習推薦模型DLRM[31]。例如，最近的超大型模型MT-NLG[29]已經實現了5300億參數。工業級商用DLRM[31]已達到~ TB模型大小，大大超過了單機存儲能力，需要多個設備才能進行協同計算。

在這樣的背景下，我們觀察到目前的DL系統社區對大規模深度學習系統(LDS)仍然缺乏足夠的認識和關注，忽視了出現的挑戰和機遇: 傳統的DL系統優化通常集中在單模型單機推理設置(即一對一映射)。然而，LDS具有更大的DL模型和更強大的硬件，能夠實現更靈活的推理計算，將多實例到單設備、一實例到多設備、甚至多實例到多設備映射變為現實。例如，計算縮放(如GPU、TPU)促使許多研究工作在單個設備上進行多模型推理，例如將一個GPU劃分為多個容器化vGPU或多實例GPU (MIG)，以獲得更好的硬件利用率、更高的服務吞吐量和成本效率。考慮到實際的成本管理(例如，總擁有成本，TCO)，服務大量推理查詢的數據中心也傾向于遷移到多租戶推理服務，例如，將多個推理查詢放置在同一設備上，從而產生新的優化目標(例如，每秒服務的總查詢，以及來自傳統單租戶推斷的約束(例如，服務水平協議、SLA)。類似地，模型擴展也提出了新的一對多推理場景的要求。目前的超大型模型(如DLRM)在推理過程中需要耗費大量的內存(～TB不量化)，這需要新的協同計算范式，如異構計算或分布式推理。這種協作服務涉及遠程進程調用(RPC)和低帶寬通信，這帶來了與傳統的單設備推理截然不同的瓶頸。由于涉及到以上所有場景，現代數據中心面臨更復雜的多對多場景，需要專門的推理查詢調度，如服務路由器和計算設備管理，以獲得更好的服務性能，如延遲、吞吐量和成本等。

在本文中，我們提出了一種新的計算范式分類法，總結了新的優化目標，闡述了新的技術設計視角，并為未來的LDS優化提供了見解。

多對多計算范式以DNN實例(I)和計算設備(D)之間的關系為特征，新興的LDS計算范式除了單實例單設備(SISD)外，還可以分為三個新的類別，即多實例單設備(MISD)，單實例多設備(SIMD)和多實例多設備(MIMD)，如圖2所示。與專注于單模型性能的SISD不同，LDS工作有不同的優化目標，包括推理延遲、服務吞吐量、成本、可擴展性、服務質量等。例如，多租戶推理(multi-tenant inference, MISD)的目標是提高服務吞吐量和電力效率，而超大規模模型推理服務的目標是以低成本提高硬件可伸縮性。
大規模設計和技術由于推理服務的規模，LDS工作也在算法創新、運行時調度和資源管理方面面臨許多優化挑戰和機遇。例如，多租戶推理優化尋求細粒度的硬件資源分區和作業調度，例如空間/時間共享，以提供QoS保證。由于延遲通信瓶頸，分布式推理需要專門的模型-硬件協同優化，例如高效的模型分片和平衡協作等。

通過對現有工作的總結，我們旨在對出現的挑戰、機遇和創新提供一個全面的調研，從而推動LDS運營和優化的新創新。調研的其余部分組織如下:第2節介紹了研究的初步內容，包括我們對LDS的分類，并說明了本次調研的范圍。第3節總結了在多實例單設備(MISD)優化方面面臨的挑戰和最近的工作;第4節總結了單實例多設備(SIMD)優化方面的研究工作;第5節總結了這項工作。

付費5元查看完整內容

深度神經網絡 · 視覺識別 · 網絡壓縮 ·

2021 年 8 月 31 日

[付費5元查看完整內容]基于深度神經網絡的高效視覺識別研究進展與新方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下，深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮，但效率實際上是相當重要的，有時對學術研究和工業應用都至關重要。此外，整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研，但據我們所知，很少有系統地關注視覺識別，因此不清楚哪些進展適用于視覺識別，還有哪些需要關注。在本文中，我們回顧了近年來的研究進展，并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研，而且還從數據的角度進行調研(在現有的調研中并非如此)，并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研，對視覺識別問題進行系統的總結，以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界，包括研究圖像和視頻字幕[4]-[6]，身體姿勢估計[7]，和許多其他。然而，這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然，在大多數成本敏感的應用程序中，這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力，人們確實有了足夠的高質量訓練數據，但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型，通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力)，在終端用戶的實際應用程序中部署模型仍然不容易，因為運行時推斷必須適合可用的或負擔得起的資源，而且運行速度必須滿足實際需要，可以是實時的，甚至是更高的。因此，除了學術界通常最關注的準確性之外，效率是另一個重要問題，在大多數情況下，是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面，但在效率方面仍有許多可喜的進展，特別是在最近幾年。在過去的兩年中，已經發表了許多關于DNN效率問題的調研論文，詳細內容見下文I-A小節。然而，這些方法都沒有重點關注視覺識別任務，特別是缺少有效處理視覺數據的專項工作，而視覺數據處理有其自身的特點。在實踐中，有效的視覺識別必須是一個系統的解決方案，不僅要考慮到緊湊/壓縮的網絡和硬件加速，而且還要正確處理視覺數據，這些數據可能是各種類型(如圖像、視頻和點)，具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此，就我們所知，本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗，本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下，本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率，希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展，這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題，包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域，綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡，圖1是作為組織的藍圖。具體來說，在第二節中，我們將介紹視覺識別問題中常見的三種主要數據類型，并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結，這對基于DNN的視覺識別系統的實際部署非常重要。最后，第六節概述了所有努力，以產生一個清晰的總體映射，并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

聯邦學習 · 自然語言處理 ·

2021 年 8 月 1 日

[付費5元查看完整內容]聯邦學習自然語言處理綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

聯邦學習旨在在不犧牲本地數據隱私的情況下，從多個分散的邊緣設備（例如移動設備）或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而，大型深度神經模型和語言模型都是用大量數據訓練的，這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶，在這項工作中，我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰，包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后，我們強調了當前的研究差距和未來的方向。

//www.zhuanzhi.ai/paper/a7798d2845ab5942e6e095b0be202d08

付費5元查看完整內容

數據庫 · 人工智能 · SIGMOD ·

2021 年 7 月 14 日

[付費5元查看完整內容]【SIGMOD2021】數據庫與人工智能交叉技術綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據庫和人工智能(AI)可以相互受益。一方面，人工智能可以使數據庫更加智能(AI4DB)。例如，傳統的經驗數據庫優化技術(例如，成本估算、聯結選擇、旋鈕調優、索引和視圖顧問)不能滿足大規模數據庫實例、各種應用程序和多樣化用戶的高性能需求，特別是在云上。幸運的是，基于學習的技術可以緩解這個問題。另一方面，數據庫技術可以優化AI模型(DB4AI)。例如，AI很難部署，因為它需要開發人員編寫復雜的代碼和訓練復雜的模型。數據庫技術可用于降低使用人工智能模型的復雜性，加速人工智能算法，并在數據庫內提供人工智能能力。DB4AI和AI4DB近年來得到了廣泛的研究。在本教程中，我們回顧了關于AI4DB和DB4AI的現有研究。對于{AI4DB}，我們回顧了基于學習的數據庫配置、優化、設計、監控和安全方面的技術。對于{DB4AI}，我們回顧了面向AI的聲明語言、數據治理、訓練加速和推理加速。最后，提出了AI4DB和DB4AI的研究挑戰和未來發展方向。

#背景#

在過去的五十年中，數據庫（DB）和人工智能（AI）技術都得到了廣泛的研究。首先，數據庫系統已在金融、醫療等多個領域中得到使用，其通過提供聲明式語言、查詢優化、ACID等機制，滿足不同場景的數據管理需求。其次，人工智能技術借助算法、數據集、硬件等方面的進步，近三十年取得了飛速發展。二者的交叉技術通過結合數據庫中系統設計、查詢優化、數據管理等方面的技術和人工智能從歷史數據中學習的優勢，幫助解決各自的問題。一方面，人工智能可以使數據庫變得更加智能（AI4DB）。例如，傳統的經驗數據庫優化技術（例如，經驗公式，啟發式算法）不能滿足大型數據庫實例，各類應用程序和用戶（尤其是云數據庫）的高性能要求。幸運的是，基于學習的技術可以緩解此問題。例如，深度學習可以提高代價估算的質量（關系復雜），深度強化學習可以自動調整數據庫參數（樣本小）。另一方面，數據庫技術可以優化AI模型（DB4AI）。目前AI落地要求開發人員根據不同的硬件環境編寫代碼并進行大量訓練。數據庫技術可用于降低使用AI模型的復雜性，加速AI算法，并在數據庫內部提供AI功能。

#AI for DB#

傳統數據庫設計基于經驗方法和規范，并且需要人工投入（如DBA）來調整和運維數據庫[1][2]。人工智能技術通過自動探索遠高于人工的設計空間，并在歷史數據中積累經驗，可以取得優于啟發式算法的表現和優于人工選擇的開銷。我們將使用AI優化數據庫的現有技術分類如下：

◆ 數據庫智能配置：數據庫配置主要針對數據庫實例啟動和工作過程中的“元信息”進行優化，如系統參數、索引表、物化視圖等。傳統數據庫配置高度依賴人力運維或經驗規則，如需要DBA來構建和維護索引和視圖。學習型數據庫配置借助探索-優化等機制，可以針對特定場景探索高質量的配置方案，包括SQL重寫、參數調優[3][4]、視圖推薦[5]等。

◆ 數據庫智能優化：數據庫優化器主要包括查詢重寫、基數估計、代價估計、連接順序選擇。然而，傳統技術基于固定規則，處理多表連接等復雜查詢會有較大誤差。比如，線性回歸等方法無法有效地捕獲不同列/表之間的相關性，因此無法提供高質量的估計。有一些基于長短期記憶網絡的方法，可以學習算子間的數據傳遞關系，幫助更好的估計執行代價[6]，選擇合適的查詢計劃[7]。

◆ 數據庫智能設計：傳統的數據庫由數據庫架構師根據他們的經驗進行設計，但是數據庫架構師只能探索數量有限的可能設計空間最近，提出了一些基于學習的自我設計技術，包括學習型索引[8]、數據結構[9]、事務管理[10]等。

◆ 數據庫智能診斷：數據庫可以捕獲數據庫運行時指標，例如讀/寫延遲，CPU 內存使用情況，從而可以在異常發生時（例如性能下降和數據庫攻擊）提醒管理員。但是，傳統的監視方法依靠數據庫管理員來監視大多數數據庫活動并報告問題，這是不完整且效率低下的。因此，提出了一種基于機器學習的技術來優化數據庫運維，包括表現預測[11]、進程控制[12]、活動監控[13]等。

#DB for AI#

盡管AI可以解決許多現實世界中的問題，但是由于現有AI系統的移植性性較差，且難以為普通用戶所使用，因此沒有像DBMS這樣廣泛使用的AI系統可以在不同領域中得到應用。為了解決這個問題，我們下面介紹數據庫技術如何降低AI使用的門檻。

◆ 聲明性的語言模型：面向AI的聲明性語言模型通過擴展SQL語法，可以擴展到AI模型上，使AI模型更易于使用。目前主流SQL擴展方法包括兩種：混合語言模型會根據SQL關鍵字判斷是DB還是AI操作，然后分別下發給相應的解析器解析，可以靈活支持不同AI平臺，但是效率較低；另一種統一模型則在數據庫內核中原生支持AI算子[14]，如數據收集、迭代訓練等，可以提高AI執行效率，但是移植性較差。

◆ 大規模數據治理：數據質量對于機器學習非常重要。數據治理可以提高數據質量，包括數據發現，數據清理，數據集成和數據血緣。(1) 數據發現。借助領域專家和知識庫[15]，我們可以適當地利用人力或現有知識來標記大量ML算法的訓練數據，增強發現相關數據的能力。(2) 數據清洗。臟數據會嚴重影響訓練效果。數據清洗和集成技術可以檢測和修復臟數據，并集成來自多個源的數據以生成高質量數據。(3) 數據血緣。數據血緣描述了模型輸入和輸出之間的關系，對于確保ML模型正常工作很重要。使用諸如多表連接和圖映射等數據庫技術，我們可以向后和向前跟蹤數據關系。

◆ 大規模模型訓練：模型訓練旨在訓練一個好的模型用于在線推理。然而，模型訓練是一個耗時且復雜的過程，包括特征選擇，模型選擇，模型管理和硬件加速。(1) 特征選擇。選擇和評估可能的功能非常耗時。我們可以借助批處理、物化視圖等技術來解決此問題[16]。(2) 模型選擇。它旨在從大量可能的模型中選擇合適的模型（和參數值）。一些數據庫并行技術可以加快此步驟，包括批量同步并行、模型多跳并行、參數服務器等。(3) 模型管理。模型訓練是一個反復試驗的過程，需要維護歷史模型和參數，因此有必要設計一個模型管理系統來跟蹤，存儲和搜索ML模型。我們回顧了基于GUI的[17]和基于命令的[18]模型管理系統。(4) 硬件加速。諸如GPU、FPGA之類的新硬件常被用來加速模型訓練。我們分別在行存儲[19]和列存儲[20]數據庫中介紹硬件加速技術。

AI4DB和DB4AI的技術為AI和DB領域帶來新的機遇的同時，也帶來了新的挑戰。AI4DB方面，對于數據庫這類高可靠系統，需要解決AI算法由于黑盒、過擬合等問題導致的表現退化問題；此外，現有AI4DB技術主要集中在數據分析型查詢，如何應對事務處理這類即時性查詢，也是一個重要的挑戰。DB4AI方面，盡管將AI模型靠近數據側，可以提高AI執行和使用效率，但也存在算子差異性大、難以構建AI&DB統一優化器等問題。

References

[1] G. Li, X. Zhou, and S Li. Xuanyuan: An ai-native database. IEEE Data Eng. Bull., 42(2):70–81, 2019.

[2] J. Chen, Y. Chen, and G. L. et al. Data management at huawei: Recent accomplishments and future challenges. In ICDE, 2019.

[3] J. Zhang, Y. Liu, K. Zhou, G. Li and et al. An end-to-end automatic cloud database tuning system using deep reinforcement learning. In SIGMOD, 2019.

[4] G. Li, X. Zhou, and S. L. et al. Qtune: A query-aware database tuning system with deep reinforcement learning. VLDB, 2019.

[5] H. Yuan, G. Li, L. Feng, J. Sun, and Y. Han. Automatic view generation with deep learning and reinforcement learning. In ICDE, 2020.

[6] J. Sun and G. Li. An end-to-end learning-based cost estimator.

PVLDB, 13(3):307–319, 2019.

[7] X. Yu, G. Li, and C. C. et al. Reinforcement learning with tree-lstm

for join order selection. In ICDE 2020, pages 196–207, 2019.

[8] T. Kraska, A. Beutel, and E. H. C. et al. The case for learned index structures. In SIGMOD, pages 489–504, 2018.

[9] S. Idreos and et al. Design continuums and the path toward self-designing key-value stores that know and learn. In CIDR, 2019.

[10] M. L¨ uhring, K. Sattler, K. Schmidt and et al. Autonomous management of soft indexes. In ICDE, 2007.

[11] X. Zhou, J. Sun, G. Li, and J. Feng. Query performance prediction

for concurrent queries using graph embedding. In VLDB, 2020.

[12] H. Kaneko and K. Funatsu. Automatic database monitoring for process control systems. In IEA/AIE 2014, pages 410–419, 2014.

[13] M. Ma, Z. Yin, and S. Z. et al. Diagnosing root causes of intermittent slow queries in cloud databases. In PVLDB, 2020.

[14] J. M. Hellerstein, C. R′e, and F. S. et al. The madlib analytics library or MAD skills, the SQL. PVLDB, 5(12):1700–1711, 2012.

[15] G. Li, J. Wang, Y. Zheng, and M. J. Franklin. Crowdsourced data management: A survey. IEEE Trans. Knowl. Data Eng., 28(9):2296–

2319, 2016.

[16] M. Kunjir and S. Babu. Thoth in action: Memory management in modern data analytics. PVLDB, 10(12):1917–1920, 2017.

[17] M. Chavan, R. Guravannavar, K. Ramachandra and et al. Dbridge: A program rewrite tool for set-oriented query execution. In ICDE, 2011.

[18] M. Vartak, H. Subramanyam, W. Lee and et al. Modeldb: a system for machine learning model management. In SIGMOD, 2016.

[19] D. Mahajan, J. K. Kim, J. Sacks and et al. In-rdbms hardware acceleration of advanced analytics. PVLDB, 11(11):1317–1331, 2018.

[20] K. Kara, K. Eguro, C. Zhang, and G. Alonso. Columnml: Column-store

machine learning with on-the-fly data transformation. PVLDB, 2018.

付費5元查看完整內容

圖神經網絡 · 大規模圖數據 · 分布式系統 · 深度學習 · 反向傳播 ·

2021 年 3 月 30 日

[付費5元查看完整內容]大規模圖神經網絡系統綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖神經網絡（GNN）是一類基于深度學習的處理圖域信息的方法，它通過將圖廣播操作和深度學習算法結合，可以讓圖的結構信息和頂點屬性信息都參與到學習中，在頂點分類、圖分類、鏈接預測等應用中表現出良好的效果和可解釋性，已成為一種廣泛應用的圖分析方法.然而現有主流的深度學習框架（如Tensorflow、PyTorch等）沒有為圖神經網絡計算提供高效的存儲支持和圖上的消息傳遞支持，這限制了圖神經網絡算法在大規模圖數據上的應用.目前已有諸多工作針對圖結構的數據特點和圖神經網絡的計算特點，探索了大規模圖神經網絡系統的設計和實現方案.本文首先對圖神經網絡的發展進行簡要概述，總結了設計圖神經網絡系統需要面對的挑戰；隨后對目前圖神經網絡系統的工作進行介紹，從系統架構、編程模型、消息傳遞優化、圖分區策略、通信優化等多個方面對系統進行分析；最后使用部分已開源的圖神經網絡系統進行實驗評估，從精確度、性能、擴展性等多個方面驗證這些系統的有效性.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6311

付費5元查看完整內容

深度學習稀疏性 · 深度學習 ·

2021 年 2 月 8 日

[付費5元查看完整內容]「深度學習稀疏性」首篇大綜述論文，90頁pdf闡述神經網絡中有效的推理和訓練的剪枝和生長

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習不斷增長的能源耗費和性能成本，促使社區通過選擇性修剪組件來減少神經網絡的規模。與生物學上的相似之處是，稀疏網絡即使不能比原來的密集網絡更好，也能得到同樣好的推廣。稀疏性可以減少常規網絡的內存占用，以適應移動設備，也可以縮短不斷增長的網絡的訓練時間。在本文中，我們調研了深度學習中的稀疏性之前的工作，并為推理和訓練提供了一個廣泛的稀疏化教程。我們描述了去除和添加神經網絡元素的方法，實現模型稀疏性的不同訓練策略，以及在實踐中利用稀疏性的機制。我們的工作從300多篇研究論文中提煉思想，并為希望利用稀疏性的實踐者提供指導，以及為目標是推動前沿發展的研究人員提供指導。我們在稀疏化中包括必要的數學方法背景，描述諸如早期結構適應、稀疏性和訓練過程之間的復雜關系等現象，并展示在真實硬件上實現加速的技術。我們還定義了一個修剪參數效率的度量，可以作為不同稀疏網絡比較的基線。最后，我們推測稀疏性如何改善未來的工作，并概述該領域的主要開放問題。

在計算機視覺、自然語言處理、知識表示、推薦系統、藥物發現等領域，深度學習在解決非常復雜的現實世界問題方面展現了無與倫比的前景。隨著這一發展，機器學習領域正從傳統的特征工程向神經結構工程發展。然而，對于如何選擇正確的架構來解決特定的任務，我們仍然知之甚少。在模型設計中，采用了卷積層中的平移等方差、遞歸、結構權重共享、池化或局部化等方法來引入強歸納偏差。然而，任務所需的精確模型大小和容量仍然未知，一個常見的策略是訓練過度參數化的模型，并將它們壓縮成更小的表示。

生物的大腦，特別是人類的大腦，是分層的、稀疏的和周期性的結構[Friston 2008]，我們可以得出一些類似于今天人工神經網絡中的歸納偏差。稀疏性在生物大腦的縮放中扮演著重要的角色——大腦的神經元越多，大腦就越稀疏[Herculano-Houzel et al. 2010]。此外，研究表明，人類的大腦開始稀疏，在大量修剪之后有一個致密化的早期階段，然后保持在一個相對穩定的稀疏水平。然而，即使是完全發育成熟的大腦，每天也會改變多達40%的突觸[Hawkins 2017]。許多今天的工程修剪技術具有直觀的生物學類比，我們將在整篇文章中提到并在第8節討論。然而，計算基質(生物組織和CMOS)導致了非常不同的限制。

人工深度學習模型傳統上是密集和過度參數化的，有時甚至可以記憶數據中的隨機模式[Zhang et al. 2017]，或者95%的參數可以從剩余的5%中預測出來[Denil et al. 2014]。這可能與經驗證據有關，表明使用隨機梯度下降(SGD)訓練過度參數化模型比使用更緊湊的表示更容易Glorot et al. 2011a; Kaplan et al. 2020; Li et al. 2020a; Mhaskar and Poggio 2016]. Brutzkus et al. [2017] 和Du et al. [2019]表明，這種梯度下降技術可證明以良好的泛化最優地訓練(淺)過參數化網絡。具體來說，他們指出，過度參數化會導致一種強大的“類凸性”，這有利于梯度下降的收斂性。最近的理論結果[Allen-Zhu et al. 2019; Neyshabur et al. 2018]似乎支持這些發現，并指出訓練動力學和泛化依賴于過度參數化。

這種過度參數化是以模型訓練和推理過程中額外的內存和計算工作為代價的。特別是，對于移動設備和電池驅動設備的推理，以及在成本意識較強的環境下，稀疏模型表示可以帶來巨大的節省。具體地說，稀疏模型更容易存儲，并且常常節省計算量。此外，過度參數化的模型往往會過度擬合數據，并降低泛化到看不見的例子。緊跟著Occam 's razor，稀疏化也可以看作是某種形式的正則化，可以通過有效降低模型中的噪聲來提高模型質量。具體來說，最小描述長度框架提供了一個具有貝葉斯解釋和數據壓縮清晰解釋的吸引人的公式[Grünwald 2007]，我們稍后會討論。

許多工作，特別是老的工作，集中在通過稀疏化改進泛化。早期的研究[Mozer和Smolensky 1988]關注的是具有數十到數百個參數的模型，也說明了它們的簡化版本有更好的可解釋性。然而，隨著今天的模型使用數百萬或數十億個參數，稀疏性是否會顯著提高可解釋性和可解釋性就有待觀察了。Bartoldson等人[2020]最近的工作將剪枝作為“噪聲”，類似于dropout或數據增強來解釋泛化。其他近期的研究發現，稀疏性可以提高對抗對抗攻擊的魯棒性[Cosentino et al. 2019; Gopalakrishnan et al. 2018; Guo et al. 2018; Madaan et al. 2020; Rakin et al. 2020; Sehwag et al. 2020; Verdenius et al. 2020]。

最近，一組更大的工作集中在提高計算效率的同時保持模型的精度。現代網絡在計算上的使用是昂貴的——例如，Inception-V3 [Szegedy等人2016]，一個最先進的目標識別網絡，需要57億次算術運算和2700萬個參數進行評估;GPT-3 [Brown et al. 2020]，一種最先進的自然語言處理網絡的實驗狀態需要1750億個參數(350 GiB，假設每個參數16位)來評估。此外，訓練這樣的深度神經模型變得越來越昂貴，而且最大的語言模型已經需要超級計算機進行訓練，每次訓練可能要花費數百萬美元[Brown等人2020]。因此，研究訓練過程中的稀疏性對于管理訓練成本是非常重要的。

我們綜述的結果表明，今天的稀疏化方法可以導致模型尺寸減少10-100倍，并在計算、存儲和能源效率方面獲得相應的理論收益，而不會顯著降低精度。如果這些加速是在高效的硬件實現中實現的，那么所獲得的性能可能會導致一個階段的變化，使更復雜的、可能是革命性的任務得到實際解決。此外，我們還觀察到，在稀疏化方法方面的進展速度正在加快，因此，即使在我們編寫本論文的最后幾個月里，也發表了一些改進現有技術的新方法。

我們的目標是總結現有的技術，并且在第2-5節首先關注設計模型的純定性方面。然后，在第6節和第7節中，我們將解釋實現這些設計組合的架構選擇，包括性能結果。

付費5元查看完整內容

分布式 · 機器學習 · 文獻綜述 ·

2019 年 12 月 26 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述，共33頁pdf和172篇文獻，概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇，討論了用于分布式機器學習的技術，并對可用的系統進行了概述，從而全面概述了該領域的最新進展。

?論文地址： //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?

摘要在過去的十年里，對人工智能的需求顯著增長，而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而，為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行，需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練，但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長，因此需要將機器學習的工作負載分布到多臺機器上，并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰，首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇，討論了用于分布式機器學習的技術，并對可用的系統進行了概述，從而全面概述了該領域的最新進展。

1. 引言

近年來，新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統，因為問題的復雜性，算法解決方案是不可行的。例如控制自動駕駛汽車[23]，識別語音[8]，或者預測消費者行為[82]。

在某些情況下，訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量，因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下，當數據本身就是分布式的，或者數據太大而不能存儲在一臺機器上時，集中式解決方案甚至都不是一個選項。例如，大型企業對存儲在不同位置的[19]的數據進行事務處理，或者對大到無法移動和集中的天文數據進行事務處理[125]。

為了使這些類型的數據集可作為機器學習問題的訓練數據，必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統，我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比，我們對該問題應用了一個整體的觀點，并從分布式系統的角度討論了最先進的機器學習的實踐方面。

第2節深入討論了機器學習的系統挑戰，以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構，涵蓋了從算法到網絡通信模式的整個堆棧，這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后，第5節討論了分布式機器學習的主要挑戰

2. 機器學習——高性能計算的挑戰?

近年來，機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法，但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此，一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時，HPC社區已經發現機器學習是一種新興的高價值工作負載，并開始將HPC方法應用于它們。Coates等人，[38]能夠在短短三天內，在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模，解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性，加速器通常部署在主要的高性能計算系統中。

與其他大規模計算挑戰一樣，加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。

3. 一個分布式機器學習的參考架構

avatar

圖1 機器學習的概述。在訓練階段，利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。

avatar

圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。

機器學習算法

機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:

反饋、在學習過程中給算法的反饋類型

目的、期望的算法最終結果

方法、給出反饋時模型演化的本質

反饋訓練算法需要反饋，這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:

包括監督學習、無監督學習、半監督學習與強化學習

目的機器學習算法可用于各種各樣的目的，如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸

每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進，從而提高其準確性。通過算法的學習方式，我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。

avatar

圖3所示：基于分布程度的分布式機器學習拓撲

4. 分布式機器學習生態系統

avatar

圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。

5 結論和當前的挑戰

分布式機器學習是一個蓬勃發展的生態系統，它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的，必須克服一些基本的挑戰，例如，建立一種機制，使數據處理并行化，同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而，對于分布式機器學習的長期成功來說，仍然存在許多挑戰：性能、容錯、隱私、可移植性等。

付費5元查看完整內容

壓縮感知 · 深度學習 · 神經網絡 · 文獻綜述 · 卷積神經網絡 ·

2019 年 10 月 12 日

[付費5元查看完整內容]深度神經網絡模型壓縮與加速綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而，現有的深度神經網絡模型在計算上是昂貴的和內存密集型的，這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此，在不顯著降低模型性能的情況下，在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中，這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法，然后介紹其他技術。對于每種方案，我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法，例如，動態容量網絡和隨機深度網絡。然后，我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后，對全文進行總結，并對今后的研究方向進行了展望。

付費5元查看完整內容