亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。

為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。

本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。

這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

機器學習是一種從數據中提取預測模型,從而能夠將預測泛化到未觀察數據的技術。根據已知數據集選擇良好模型的過程需要進行優化。具體地說,優化過程在約束集中生成一個變量來最小化目標。這個過程包含了包括神經網絡訓練在內的許多機器學習管道,這將是我們在本文中進行理論分析的主要試驗場。在各種優化算法中,梯度方法因其高維可擴展性和反向傳播的自然局限性而成為深度學習中的主導算法。然而,盡管基于梯度的算法很受歡迎,但我們從理論的角度對機器學習環境中的這種算法的理解似乎還遠遠不夠。一方面,在現有的理論框架內,大多數上下界是封閉的,理論問題似乎得到了解決。另一方面,理論分析很難產生比實踐者發現的經驗更快的算法。本文回顧了梯度法的理論分析,指出了理論與實踐的差異。然后,我們解釋了為什么會發生不匹配,并通過發展由經驗觀察驅動的理論分析,提出了一些初始解決方案。

//dspace.mit.edu/handle/1721.1/143318

付費5元查看完整內容

深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。

在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。

//arxiv.org/pdf/2112.01423.pdf

付費5元查看完整內容

深度學習(Deep learning, DL)在各個領域都表現出了蓬勃發展的勢頭。DL模型的開發是一個耗時且資源密集型的過程。因此,GPU專用加速器被集合構建為GPU數據中心。對于這種GPU數據中心,高效的調度設計對于降低運行成本、提高資源利用率至關重要。然而,針對大數據或高性能計算工作負載的傳統方法無法支持DL工作負載,無法充分利用GPU資源。最近,針對GPU數據中心的DL工作負載,提出了大量的調度器。本文調研了訓練和推理工作量的現有研究成果。我們主要介紹現有的調度器如何從調度目標和資源消耗特性促進各自的工作負載。最后,對未來的研究方向進行了展望。在我們的項目網站上可以找到更詳細的綜述論文總結和代碼鏈接://github.com/S-Lab-SystemGroup/Awesome-DL-Scheduling-Papers。

近幾十年來,深度學習(deep learning, DL)在許多領域的研究、開發和應用急劇增加,包括圍棋[130]、醫學分析[125]、機器人[48]等。標準的DL開發流程包括模型訓練和模型推理。每個階段都需要高級硬件資源(GPU和其他計算系統)來生產和服務生產級DL模型[62,71,106,149]。因此,it行業[62,149]和研究機構[18,19,71]普遍建立GPU數據中心,以滿足日益增長的DL發展需求。GPU數據中心擁有大量的異構計算資源來承載大量的DL工作負載。迫切需要一個有效的調度器系統來協調這些資源和工作負載,以保證DL工作負載執行、硬件利用率和其他調度目標的效率。

調度器負責確定整個數據中心的資源利用率和每個作業的性能,從而進一步影響操作成本和用戶體驗[42]。具體來說,(1)對于模型訓練,調度器分配用戶請求的資源,以支持長時間運行的離線訓練工作負載。調度器需要為每個單獨的工作負載實現高性能,為整個數據中心實現高資源利用率,并在不同用戶之間實現高公平性。由于DL訓練工作的特殊性和復雜性,傳統的高性能計算(HPC)和大數據負載調度算法會導致資源利用率不均衡和基礎設施費用過高[157],需要為GPU數據中心量身定制新的解決方案。(2)在模型推理中,DL應用通常作為在線服務來回答用戶的請求。他們通常對響應延遲和推斷精度有更高的期望[25,172]。未能在指定時間內完成(服務水平協議)或精度低于預期的應用程序可能很少或沒有商業價值。因此,調度器在推斷延遲、準確性和成本之間的平衡是至關重要的。

多年來,各種DL調度器被提出用于GPU數據中心[25,46,106,117,121,152,172]。然而,這些系統中的大多數都是針對某些特定目標而設計的。對于DL工作負載的高效調度,目前還缺乏全面的探索。我們對以下問題感興趣:** (1)設計一個令人滿意的調度器來管理DL工作負載和資源的主要挑戰是什么? (2) 現有的解決方案是否有共同的策略來實現其調度目標? (3) 我們需要如何完善調度程序以適應DL技術的快速發展?這些問題對于系統研究人員和實踐者理解DL工作負載調度和管理的基本原理,以及為更復雜的場景和目標設計創新的調度程序是很重要的。遺憾的是,目前還沒有這樣的工作來系統地總結和回答這些問題**。 據我們所知,本文首次介紹了在研究和生產中GPU數據中心調度DL訓練和推理工作負載的調研。我們做出了以下貢獻。首先,我們深入分析了DL工作負載的特征,并確定了在GPU數據中心管理各種DL工作負載的固有挑戰。其次,對現有的DL調度工作進行了全面的回顧和總結。我們根據調度目標和資源消耗特征對這些解決方案進行分類。我們還分析了它們的機制,以解決日程安排方面的挑戰。這樣的總結可以揭示現有的DL調度器設計的常見和重要的考慮因素。第三,我們總結了現有設計的局限性和影響,為GPU數據中心的調度器設計提供了新的思路。我們希望這項調研可以幫助社區了解DL調度程序的發展,并促進未來的設計。

論文結構

本文的結構如下: 第2節描述了DL工作負載的獨特特征以及GPU數據中心調度的挑戰。它也說明了這次調研的范圍。本次調研的主體部分如圖1所示。具體而言,第3節和第4節分別基于調度目標和資源消耗特征對訓練和推理工作量進行了詳細的分類。第5節討論了其他工作負載,例如超參數優化、混合訓練和推理工作負載。在每一節的末尾也給出了這些研究的啟示。第6節總結了這篇調研論文,并確定了調度程序設計的未來方向。

圖2 訓練和推斷工作量的特征。(a)獨占分配vs GPU共享。(b) Gang Scheduling vs彈性訓練。(c)合并布局vs .拓撲不可知布局。(d)推理中的查詢批處理機制。e)迭代過程:通過torch分配和保留GPU內存跟蹤。profiler (ResNet-50 ImageNet分類任務)。(f)異構親和(Heterogeneous Affinity): GPU各代之間的加速幅度在不同任務之間存在顯著差異。

付費5元查看完整內容

?視覺識別是當前計算機視覺、模式識別乃至人工智能領域最重要、最活躍的研究領域之一。它具有重大的基礎重要性和強烈的工業需求。在大量訓練數據和新的強大計算資源的幫助下,深度神經網絡在許多具體任務上大大提高了其性能。雖然識別精度通常是新進展的首要考慮,但效率實際上是相當重要的,有時對學術研究和工業應用都至關重要。此外,整個社會也高度需要對效率的機遇和挑戰有深刻見解。雖然從不同角度對DNN的效率問題進行了全面的調研,但據我們所知,很少有系統地關注視覺識別,因此不清楚哪些進展適用于視覺識別,還有哪些需要關注。在本文中,我們回顧了近年來的研究進展,并對提高DNN相關視覺識別方法的效率提出了可能的新方向。我們不僅從模型的角度進行調研,而且還從數據的角度進行調研(在現有的調研中并非如此),并關注三種最常被研究的數據類型(圖像、視頻和點)。本文試圖通過全面的調研,對視覺識別問題進行系統的總結,以期對從事視覺識別研究的研究者和實踐者提供有價值的參考。

深度神經網絡(DNNs)在許多視覺識別任務中取得了巨大的成功。它們極大地改善了手寫數字識別[1]、人臉識別[2]、圖像分類[3]等長期存在的問題的性能。他們也使探索新的邊界,包括研究圖像和視頻字幕[4]-[6],身體姿勢估計[7],和許多其他。然而,這種成功通常取決于大量高質量的手標記訓練數據和最近非常先進的計算資源。顯然,在大多數成本敏感的應用程序中,這兩個條件通常過于昂貴而無法滿足。即使由于許多標注者的大量努力,人們確實有了足夠的高質量訓練數據,但要弄清楚如何在有限的資源和可接受的時間內訓練有效的模型,通常也是一個巨大的挑戰。假設模型可以以某種方式得到適當的訓練(無論花費多少努力),在終端用戶的實際應用程序中部署模型仍然不容易,因為運行時推斷必須適合可用的或負擔得起的資源,而且運行速度必須滿足實際需要,可以是實時的,甚至是更高的。因此,除了學術界通常最關注的準確性之外,效率是另一個重要問題,在大多數情況下,是實際應用中不可缺少的需求。

雖然目前使用DNN進行視覺識別任務的研究主要集中在準確性方面,但在效率方面仍有許多可喜的進展,特別是在最近幾年。在過去的兩年中,已經發表了許多關于DNN效率問題的調研論文,詳細內容見下文I-A小節。然而,這些方法都沒有重點關注視覺識別任務,特別是缺少有效處理視覺數據的專項工作,而視覺數據處理有其自身的特點。在實踐中,有效的視覺識別必須是一個系統的解決方案,不僅要考慮到緊湊/壓縮的網絡和硬件加速,而且還要正確處理視覺數據,這些數據可能是各種類型(如圖像、視頻和點),具有相當不同的屬性。這可能是缺乏關于這個主題的調研的一個重要原因。因此,就我們所知,本文首次對基于DNN的高效視覺識別進行了綜述。基于我們在主要視覺數據類型、它們的各種識別模型和網絡壓縮算法方面的專業知識和經驗,本課程旨在從各個方面系統地概述最近的進展和趨勢。

相比之下,本綜述主要關注從原始視覺數據到最終識別結果的生產全局效率,希望能幫助對現代視覺識別任務及其高效的基于DNN的解決方案感興趣的讀者。這篇論文在以下幾個方面也有我們所知的創新之處。1)系統地綜述了神經網絡在視覺識別領域的研究進展,這是我們所知的同類研究的首次。2)第一次總結了有效視覺識別的數據相關問題,包括數據壓縮、數據選擇和數據表示。3)從有利于視覺識別任務的角度研究網絡壓縮模型。4)在高效視覺識別領域,綜述了運行時推理和模型泛化的加速方法。5)對DNN高效視覺識別的挑戰、機遇和新方向進行深入討論。為了清楚地了解這個調研的脈絡,圖1是作為組織的藍圖。具體來說,在第二節中,我們將介紹視覺識別問題中常見的三種主要數據類型,并討論它們的屬性以及與它們相關的挑戰。第三節回顧了在實際識別部分之前的三個方面的工作: 數據壓縮、數據選擇和數據表示。第四節簡要介紹和分析了網絡壓縮在視覺識別領域的廣泛研究方向。第五部分對測試階段的高效模型泛化和快速推理的最新進展進行了總結,這對基于DNN的視覺識別系統的實際部署非常重要。最后,第六節概述了所有努力,以產生一個清晰的總體映射,并討論了一些重要的未發現的方面和新的研究方向。

付費5元查看完整內容

幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。

然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。

本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。

本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html

付費5元查看完整內容

一旦抽象數學計算被用于數字計算機上的計算,這些計算中數值的有效表示、操作和通信的問題就出現了。與數字表示問題密切相關的是量化問題:一組連續的實數應該以何種方式分布在一組固定的離散數上,以最小化所需的位數,并使伴隨的計算的準確性最大化?當內存和/或計算資源受到嚴重限制時,量化這個長期存在的問題就顯得尤為重要。由于神經網絡模型在計算機視覺、自然語言處理和相關領域的出色表現,這一問題近年來已經成為一個前沿問題。從浮點表示方式移動到以4位或更少表示的低精度固定整數值可以將內存占用和延遲減少16倍;事實上,4倍到8倍的縮小在這些應用中經常被實現。因此,量化最近作為神經網絡計算的有效實現的一個重要和非常活躍的研究子領域出現就不足為奇了。在這篇文章中,我們調研了在深度神經網絡計算中量化數值問題的方法,包括當前方法的優點/缺點。通過這個調研和它的組織,我們希望已經提出了一個有用的量化神經網絡研究綜述,以方便在這一領域的未來研究的拓展。

//www.zhuanzhi.ai/paper/c451f4f98fbca30e3edee0a9751a0b93

引言

在過去的十年中,我們已經觀察到神經網絡(NNs)在精度上的顯著改進,用于解決廣泛的問題,通常是通過高度過參數化的模型實現的。雖然這些過度參數化(因此非常大)的神經網絡模型的精度顯著提高了,但這些模型的純粹規模?相等的貢獻。這意味著不可能為許多資源受限的應用程序部署它們。這給在資源受限的環境下實現普適深度學習帶來了問題,普適深度學習需要實時推理,具有低能耗和高精度。這種普遍深度學習預計將對實時智能醫療保健監控、自動駕駛、音頻分析和語音識別等廣泛應用產生重大影響。

要實現高效、實時的、具有最優精度的神經網絡,需要重新思考神經網絡模型的設計、訓練和部署[71]。有大量的文獻專注于通過使NN模型更有效(在延遲、內存占用和能量消耗等方面)來解決這些問題,同時仍然提供最佳的準確性/泛化權衡。這些努力可以大致分為以下幾類。

a) 設計高效的NN模型架構: 一些工作都集中在優化神經網絡模型結構的微架構(101,111,127,167,168,212,253,280](例如,內核類型深度方面卷積或低秩分解等)以及它macro-architecture(100、101、104、110、214、233](如模塊類型,例如殘差,或inception)。這里的經典技術大多使用手動搜索找到新的體系結構模塊,這是不可擴展的。因此,一個新的工作是設計自動機器學習(AutoML)和神經結構搜索(NAS)方法。這些方法的目的是在給定模型尺寸、深度和/或寬度的約束下,自動找到正確的NN架構[161,194,232,245,252,291]。我們向有興趣的讀者推薦[54]來了解NAS方法的最新調查。

b) 協同設計網絡架構和硬件: 最近的另一項工作是為特定的目標硬件平臺調整(并協同設計)網絡架構。這是因為NN組件的開銷(在延遲和能量方面)是依賴于硬件的。例如,具有專用緩存層次結構的硬件可以比沒有專用緩存層次結構的硬件更有效地執行受帶寬限制的操作。與神經網絡體系結構設計類似,體系結構-硬件協同設計的最初方法是手動的,即由專家調整/更改神經網絡體系結構[70],然后使用自動化的AutoML和/或NAS技術[22,23,100,252]。

c) 剪枝: 另一種減少網絡的內存占用和計算成本的方法是運用剪枝。在剪枝過程中,去掉敏感性小的神經元,得到稀疏計算圖。這里,具有小顯著性的神經元是指那些去除后對模型輸出/損失函數影響最小的神經元。剪枝方法可以大致分為非結構剪枝[49,86,139,143,191,257]和結構剪枝[91,106,156,166,274,275,279]。在非結構化剪枝中,我們可以去除那些不太顯著的神經元,無論它們在哪里出現。該方法可以進行主動剪枝,去除大部分神經網絡參數,對模型的泛化性能影響很小。然而,這種方法導致了稀疏矩陣操作,這是眾所周知的難以加速,并且通常是內存受限的[21,66]。另一方面,使用結構化剪枝,一組參數(例如,整個卷積濾波器)被刪除。這可以改變層和權重矩陣的輸入和輸出形狀,從而仍然允許密集的矩陣操作。然而,積極的結構修剪往往導致顯著的精度退化。具有高水平修剪/稀疏性的訓練和推理,同時保持最先進的性能,仍然是一個開放問題[16]。有興趣的讀者請參閱[66,96,134],了解修剪/稀疏性相關工作的詳細情況。

d) 知識蒸餾: 模型蒸餾[3,95,150,177,195,207,269,270]涉及訓練一個大模型,然后作為教師使用它來訓練一個更緊湊的模型。在對學生模型的訓練中,不是使用“硬”的類別標簽,模型蒸餾的關鍵思想是利用老師產生的“軟”概率,因為這些概率可以包含更多關于輸入的信息。盡管在蒸餾方面做了大量的工作,但這里的一個主要挑戰是僅用蒸餾就能獲得高壓縮比。與量化和剪枝相比,在壓縮≥4×的情況下(具有INT8和較低的精度),知識蒸餾方法在壓縮強度大的情況下具有不可忽略的精度退化。然而,將知識精餾與之前的方法(即量化和剪枝)相結合已經取得了巨大的成功[195]。

e) 量化: 最后,量化方法在神經網絡模型的訓練和推理方面都表現出了巨大和一致的成功。雖然數字表示和量化的問題和數字計算一樣古老,但神經網絡提供了獨特的改進機會。雖然對量化的研究主要集中在推理方面,但我們應該強調量化在神經網絡訓練方面取得了重要的成功[10,35,57,130,247]。特別是,半精度和混合精度訓練的突破[41,72,79,175]是人工智能加速器實現一個數量級更高吞吐量的主要驅動因素。然而,事實證明,如果沒有顯著的調整,很難達到半精度以下,而且最近的大多數量化研究都集中在推理上。這種用于推理的量化是本文的重點。

f) 量化和神經科學: 神經網絡量化是神經科學領域的一項工作,表明人類大腦以離散/量化的形式存儲信息,而不是以連續的形式存儲信息[171,236,240]。這一觀點的一個普遍理由是,以連續形式存儲的信息不可避免地會被噪聲(噪聲總是存在于物理環境中,包括我們的大腦,它可以由熱噪聲、感覺噪聲、外部噪聲、突觸噪聲等引起)所損壞[27,58]。然而,離散信號表示對這種低水平噪聲更有魯棒性。其他原因,包括離散表示更高的泛化能力[128,138,242]和有限資源下更高的效率[241],也被提出。我們建議讀者參考[228]對神經科學文獻中相關工作的全面回顧。

付費5元查看完整內容

過去的十年見證了深度學習(DL)應用數據量的巨大增長。因此,深度神經網絡(DNNs)的訓練時間過長已經成為機器學習(ML)開發者和研究者的瓶頸。例如,在8個P100 gpu上完成90-epoch ImageNet/ResNet-50的訓練需要29個小時。在16個v3 TPU芯片上完成BERT預訓練需要81小時。本文主要研究的是快速準確的ML訓練。盡管生產團隊希望充分利用超級計算機來加速訓練過程,但傳統的優化器無法擴展到數千個處理器。在本論文中,我們設計了一系列基本的優化算法來提高DL系統的并行度。我們的算法為谷歌、英特爾、騰訊、英偉達等最先進的分布式系統提供支持。本文的重點是彌合高性能計算(HPC)和ML之間的差距。

在2017年HPC和ML之間有很大的差距。一方面,我們擁有強大的超級計算機,每秒可以執行2x10^17個浮點運算。另一方面,我們甚至不能充分利用1%的計算能力來訓練一個最先進的機器學習模型。原因是超級計算機需要極高的并行度才能達到其峰值性能。然而,高并行性導致ML優化器的收斂性很差。為了解決這個問題,我和我的合著者提出了LARS優化器、LAMB優化器和CA-SVM框架。這些新方法使ML訓練擴展到數千個處理器而不會失去準確性。在過去的三年里,我們觀察到ResNet-50的訓練時間從29小時下降到67.1秒。事實上,自2017年12月以來,所有最先進的ImageNet訓練速度記錄都是由LARS創造的。LARS在MLPerf v0.6中成為行業指標。此外,即使沒有超級計算機,我們的方法也比現有的求解器要快。如果我們固定訓練預算(例如1個GPU 1小時),我們的優化器可以達到一個更高的精度比最先進的基線。

付費5元查看完整內容
北京阿比特科技有限公司