久久久久久久精品少妇9999,又黄又爽视频在线观看WWW,日韩中文字幕在线视频一区

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而，隨著深度學習模型的不斷改進，其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此，關注模型的度量也變得很重要，而不僅僅是它的質量。我們提出深度學習中的效率問題，隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼，供從業者優化他們的模型訓練和部署。我們相信，這是在高效深度學習領域的第一次全面綜述，涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是，這個綜述將為讀者提供心理模型和必要的理解，應用通用的效率技術，立即獲得顯著的改進，并促使他們的想法，進一步的研究和實驗，以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里，利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年，多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92]，以首席開發人員Alex Krizhevsky的名字命名)，其表現比排名第二的好41%。這一開創性工作的結果是，人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構，如VGGNet [141]， Inception [146]， ResNet[73]等，在隨后幾年的ImageNet競賽中連續打破了先前的記錄，同時它們的占用空間(模型大小，延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注，其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1)，以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能，圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如，GPT-3包含1750億個參數，僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本，這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務，但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時，深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型，則可能是免費的)，但是部署并讓推理運行很長一段時間，在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說，數據中心的碳足跡也是一個非常現實的問題，這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上)，原因有很多(隱私、連通性、響應性)。因此，必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時，能夠使用盡可能少的數據進行訓練是至關重要的。因此，使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡)，現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好，但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎，等等?更具體地說，模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題，比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題，模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中，我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們，前四個集中在建模上，最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法，通常是通過壓縮層數。一個經典的例子是量化[82]，它試圖壓縮一層的權矩陣，通過降低其精度(例如。(從32位浮點值到8位無符號整數)，質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤，需要更少的數據，收斂更快等)。如果需要的話，通過削減參數的數量，可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75]，它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61]，優化超參數有助于提高精度，然后可以用較少參數的模型進行交換。類似地，體系結構搜索[167]也屬于這一類，其中體系結構本身進行了調優，搜索有助于找到一個模型，該模型既優化了損耗/準確性，又優化了一些其他指標，如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等)，是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如，卷積層引入了參數共享用于圖像分類，避免了為每個輸入像素學習單獨的權值，也使其對過擬合具有魯棒性。同樣，注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后，我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架，如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具，如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如，要獲得量化模型的規模和延遲改進，我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容

相關內容

神經網絡推理 · 量化 · 加州大學伯克利分校 (UC Berkeley) ·

2021 年 6 月 28 日

[付費5元查看完整內容]【伯克利】高效神經網絡推理的量化方法綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

一旦抽象數學計算被用于數字計算機上的計算，這些計算中數值的有效表示、操作和通信的問題就出現了。與數字表示問題密切相關的是量化問題:一組連續的實數應該以何種方式分布在一組固定的離散數上，以最小化所需的位數，并使伴隨的計算的準確性最大化?當內存和/或計算資源受到嚴重限制時，量化這個長期存在的問題就顯得尤為重要。由于神經網絡模型在計算機視覺、自然語言處理和相關領域的出色表現，這一問題近年來已經成為一個前沿問題。從浮點表示方式移動到以4位或更少表示的低精度固定整數值可以將內存占用和延遲減少16倍;事實上，4倍到8倍的縮小在這些應用中經常被實現。因此，量化最近作為神經網絡計算的有效實現的一個重要和非常活躍的研究子領域出現就不足為奇了。在這篇文章中，我們調研了在深度神經網絡計算中量化數值問題的方法，包括當前方法的優點/缺點。通過這個調研和它的組織，我們希望已經提出了一個有用的量化神經網絡研究綜述，以方便在這一領域的未來研究的拓展。

//www.zhuanzhi.ai/paper/c451f4f98fbca30e3edee0a9751a0b93

引言

在過去的十年中，我們已經觀察到神經網絡(NNs)在精度上的顯著改進，用于解決廣泛的問題，通常是通過高度過參數化的模型實現的。雖然這些過度參數化(因此非常大)的神經網絡模型的精度顯著提高了，但這些模型的純粹規模?相等的貢獻。這意味著不可能為許多資源受限的應用程序部署它們。這給在資源受限的環境下實現普適深度學習帶來了問題，普適深度學習需要實時推理，具有低能耗和高精度。這種普遍深度學習預計將對實時智能醫療保健監控、自動駕駛、音頻分析和語音識別等廣泛應用產生重大影響。

要實現高效、實時的、具有最優精度的神經網絡，需要重新思考神經網絡模型的設計、訓練和部署[71]。有大量的文獻專注于通過使NN模型更有效(在延遲、內存占用和能量消耗等方面)來解決這些問題，同時仍然提供最佳的準確性/泛化權衡。這些努力可以大致分為以下幾類。

a) 設計高效的NN模型架構: 一些工作都集中在優化神經網絡模型結構的微架構(101,111,127,167,168,212,253,280](例如,內核類型深度方面卷積或低秩分解等)以及它macro-architecture(100、101、104、110、214、233](如模塊類型,例如殘差,或inception)。這里的經典技術大多使用手動搜索找到新的體系結構模塊，這是不可擴展的。因此，一個新的工作是設計自動機器學習(AutoML)和神經結構搜索(NAS)方法。這些方法的目的是在給定模型尺寸、深度和/或寬度的約束下，自動找到正確的NN架構[161,194,232,245,252,291]。我們向有興趣的讀者推薦[54]來了解NAS方法的最新調查。

b) 協同設計網絡架構和硬件: 最近的另一項工作是為特定的目標硬件平臺調整(并協同設計)網絡架構。這是因為NN組件的開銷(在延遲和能量方面)是依賴于硬件的。例如，具有專用緩存層次結構的硬件可以比沒有專用緩存層次結構的硬件更有效地執行受帶寬限制的操作。與神經網絡體系結構設計類似，體系結構-硬件協同設計的最初方法是手動的，即由專家調整/更改神經網絡體系結構[70]，然后使用自動化的AutoML和/或NAS技術[22,23,100,252]。

c) 剪枝: 另一種減少網絡的內存占用和計算成本的方法是運用剪枝。在剪枝過程中，去掉敏感性小的神經元，得到稀疏計算圖。這里，具有小顯著性的神經元是指那些去除后對模型輸出/損失函數影響最小的神經元。剪枝方法可以大致分為非結構剪枝[49,86,139,143,191,257]和結構剪枝[91,106,156,166,274,275,279]。在非結構化剪枝中，我們可以去除那些不太顯著的神經元，無論它們在哪里出現。該方法可以進行主動剪枝，去除大部分神經網絡參數，對模型的泛化性能影響很小。然而，這種方法導致了稀疏矩陣操作，這是眾所周知的難以加速，并且通常是內存受限的[21,66]。另一方面，使用結構化剪枝，一組參數(例如，整個卷積濾波器)被刪除。這可以改變層和權重矩陣的輸入和輸出形狀，從而仍然允許密集的矩陣操作。然而，積極的結構修剪往往導致顯著的精度退化。具有高水平修剪/稀疏性的訓練和推理，同時保持最先進的性能，仍然是一個開放問題[16]。有興趣的讀者請參閱[66,96,134]，了解修剪/稀疏性相關工作的詳細情況。

d) 知識蒸餾: 模型蒸餾[3,95,150,177,195,207,269,270]涉及訓練一個大模型，然后作為教師使用它來訓練一個更緊湊的模型。在對學生模型的訓練中，不是使用“硬”的類別標簽，模型蒸餾的關鍵思想是利用老師產生的“軟”概率，因為這些概率可以包含更多關于輸入的信息。盡管在蒸餾方面做了大量的工作，但這里的一個主要挑戰是僅用蒸餾就能獲得高壓縮比。與量化和剪枝相比，在壓縮≥4×的情況下(具有INT8和較低的精度)，知識蒸餾方法在壓縮強度大的情況下具有不可忽略的精度退化。然而，將知識精餾與之前的方法(即量化和剪枝)相結合已經取得了巨大的成功[195]。

e) 量化: 最后，量化方法在神經網絡模型的訓練和推理方面都表現出了巨大和一致的成功。雖然數字表示和量化的問題和數字計算一樣古老，但神經網絡提供了獨特的改進機會。雖然對量化的研究主要集中在推理方面，但我們應該強調量化在神經網絡訓練方面取得了重要的成功[10,35,57,130,247]。特別是，半精度和混合精度訓練的突破[41,72,79,175]是人工智能加速器實現一個數量級更高吞吐量的主要驅動因素。然而，事實證明，如果沒有顯著的調整，很難達到半精度以下，而且最近的大多數量化研究都集中在推理上。這種用于推理的量化是本文的重點。

f) 量化和神經科學: 神經網絡量化是神經科學領域的一項工作，表明人類大腦以離散/量化的形式存儲信息，而不是以連續的形式存儲信息[171,236,240]。這一觀點的一個普遍理由是，以連續形式存儲的信息不可避免地會被噪聲(噪聲總是存在于物理環境中，包括我們的大腦，它可以由熱噪聲、感覺噪聲、外部噪聲、突觸噪聲等引起)所損壞[27,58]。然而，離散信號表示對這種低水平噪聲更有魯棒性。其他原因，包括離散表示更高的泛化能力[128,138,242]和有限資源下更高的效率[241]，也被提出。我們建議讀者參考[228]對神經科學文獻中相關工作的全面回顧。

付費5元查看完整內容

深度學習 · 計算機視覺 ·

2021 年 5 月 20 日

[付費5元查看完整內容]【2021新書】深度學習計算機視覺，320頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖像分類、目標檢測與跟蹤、姿態估計、人臉識別和情感估計在解決計算機視覺問題中都起著重要的作用。

本書將重點介紹這些和其他深度學習架構和技術，以幫助您創建使用Keras和TensorFlow庫的解決方案。您還將回顧多種神經網絡架構，包括LeNet、AlexNet、VGG、Inception、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLO和SqueezeNet，并通過最佳實踐、技巧、捷徑和陷阱了解它們如何與Python代碼一起工作。所有代碼片段都將被分解并進行詳細討論，以便您可以在各自的環境中實現相同的原則。

使用深度學習的計算機視覺提供了一個全面而簡潔的指南，將DL和CV結合在一起，實現自動化操作，減少人工干預，提高能力，并降低成本。

你會:

掌握深度學習的代碼和概念，將指導原則應用到您自己的項目中
對各種體系結構進行分類和評估，以更好地理解您在各種用例中的選擇
深入基本深度學習功能，找出它們是如何工作的。

不久前，計算機視覺還只是科幻小說的專屬內容，但現在，即使不是在整個社會，也正迅速成為各行各業的普遍現象。人類視覺是人類感官中最珍貴的一種，在模仿人類視覺這一領域取得的進展令人驚嘆。直到1957年，拉塞爾·基爾希才掃描出了世界上第一張照片——他兒子的黑白照片。到20世紀80年代末，西羅維奇和柯比的工作幫助人臉識別成為一種可行的生物識別技術。盡管存在隱私問題和法律挑戰，但Facebook在2010年將人臉識別技術納入其社交媒體平臺時，使這項技術無處不在。

這本書試圖解釋計算機視覺問題的深度學習和神經網絡的概念。我們正在詳細研究卷積神經網絡，以及它們的各個組成部分和屬性。我們正在探索各種神經網絡架構，如LeNet, AlexNet, VGG, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO, ResNet, Inception, DeepFace，和FaceNet的細節。我們還在開發實用的解決方案，以解決二值圖像分類、多類圖像分類、目標檢測、人臉識別和視頻分析的用例。我們將使用Python和Keras作為解決方案。所有的代碼和數據集被檢入GitHub repo快速訪問。在最后一章中，我們將學習深度學習項目中的所有步驟——從定義業務問題到部署。我們還在處理在制定解決方案時面臨的重大錯誤和問題。在這本書中，我們提供了訓練更好的算法的技巧和技巧，減少訓練時間，監測結果，并改進解決方案。我們也分享代表性的研究論文和數據集，你應該使用它們來獲得進一步的知識。

這本書把這個主題分成三部分。在第1章到第4章，本書描述了神經網絡的本質和揭秘他們如何學習。并指出了不同的架構及其歷史意義。實踐者在擁有所有所需資源的情況下，可以體驗到LeNet優雅的簡單性、AlexNet提高的效率以及流行的VGG Net。在第5至7章，從業人員運用簡單而強大的計算機視覺應用，如訓練算法來檢測物體和識別人臉。在進行視頻分析時，我們遇到了漸變消失和爆炸的困擾問題，以及如何在ResNet架構中使用跳過連接來克服它。最后，在第8章中，我們回顧了完整的模型開發過程，從正確定義的業務問題開始，系統地推進，直到模型在生產環境中部署和維護。

付費5元查看完整內容

自然語言處理 · 自然語言處理現代方法 ·

2021 年 2 月 22 日

[付費5元查看完整內容]自然語言處理現代方法，176頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中，我們將回顧這些框架，以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中，即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響，因為它們是最近大多數最先進的架構的基礎。因此，我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例，用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里，人工智能技術的重要性和應用不斷得到關注。在當今時代，它已經與構成人類塑造環境的大部分環境密不可分。因此，商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中，我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法，如深度學習和遷移學習。此外，本研究亦會研究可用于訓練自然語言處理任務的資源，并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言，自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練，因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的，深度神經網絡。為了解決容易的任務，可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性，采用了遞歸和卷積神經網絡。因此，遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型，卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中，將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里，可以使用相關任務或領域的現有標記數據來訓練模型，并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練，并且可以節省訓練模型的時間，同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力，它使解碼器能夠注意到整個輸入序列，或自注意，它允許一個Transformer 模型處理所有輸入單詞，并建模一個句子中所有單詞之間的關系，這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合，介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模，需要資源。為了找到任務的最佳模型，可以使用基準測試。為了在基準實驗中比較不同的模型，需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標，深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA，以及可以找到資源的預訓練模型和數據庫，如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中，介紹了生成性NLP處理自然語言生成，從而在人類語言中生成可理解的文本。因此，不同的算法將被描述，聊天機器人和圖像字幕將被展示，以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法，并提供了一個更詳細的討論，以及各種示例的潛力和限制。

付費5元查看完整內容

深度學習稀疏性 · 深度學習 ·

2021 年 2 月 8 日

[付費5元查看完整內容]「深度學習稀疏性」首篇大綜述論文，90頁pdf闡述神經網絡中有效的推理和訓練的剪枝和生長

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習不斷增長的能源耗費和性能成本，促使社區通過選擇性修剪組件來減少神經網絡的規模。與生物學上的相似之處是，稀疏網絡即使不能比原來的密集網絡更好，也能得到同樣好的推廣。稀疏性可以減少常規網絡的內存占用，以適應移動設備，也可以縮短不斷增長的網絡的訓練時間。在本文中，我們調研了深度學習中的稀疏性之前的工作，并為推理和訓練提供了一個廣泛的稀疏化教程。我們描述了去除和添加神經網絡元素的方法，實現模型稀疏性的不同訓練策略，以及在實踐中利用稀疏性的機制。我們的工作從300多篇研究論文中提煉思想，并為希望利用稀疏性的實踐者提供指導，以及為目標是推動前沿發展的研究人員提供指導。我們在稀疏化中包括必要的數學方法背景，描述諸如早期結構適應、稀疏性和訓練過程之間的復雜關系等現象，并展示在真實硬件上實現加速的技術。我們還定義了一個修剪參數效率的度量，可以作為不同稀疏網絡比較的基線。最后，我們推測稀疏性如何改善未來的工作，并概述該領域的主要開放問題。

在計算機視覺、自然語言處理、知識表示、推薦系統、藥物發現等領域，深度學習在解決非常復雜的現實世界問題方面展現了無與倫比的前景。隨著這一發展，機器學習領域正從傳統的特征工程向神經結構工程發展。然而，對于如何選擇正確的架構來解決特定的任務，我們仍然知之甚少。在模型設計中，采用了卷積層中的平移等方差、遞歸、結構權重共享、池化或局部化等方法來引入強歸納偏差。然而，任務所需的精確模型大小和容量仍然未知，一個常見的策略是訓練過度參數化的模型，并將它們壓縮成更小的表示。

生物的大腦，特別是人類的大腦，是分層的、稀疏的和周期性的結構[Friston 2008]，我們可以得出一些類似于今天人工神經網絡中的歸納偏差。稀疏性在生物大腦的縮放中扮演著重要的角色——大腦的神經元越多，大腦就越稀疏[Herculano-Houzel et al. 2010]。此外，研究表明，人類的大腦開始稀疏，在大量修剪之后有一個致密化的早期階段，然后保持在一個相對穩定的稀疏水平。然而，即使是完全發育成熟的大腦，每天也會改變多達40%的突觸[Hawkins 2017]。許多今天的工程修剪技術具有直觀的生物學類比，我們將在整篇文章中提到并在第8節討論。然而，計算基質(生物組織和CMOS)導致了非常不同的限制。

人工深度學習模型傳統上是密集和過度參數化的，有時甚至可以記憶數據中的隨機模式[Zhang et al. 2017]，或者95%的參數可以從剩余的5%中預測出來[Denil et al. 2014]。這可能與經驗證據有關，表明使用隨機梯度下降(SGD)訓練過度參數化模型比使用更緊湊的表示更容易Glorot et al. 2011a; Kaplan et al. 2020; Li et al. 2020a; Mhaskar and Poggio 2016]. Brutzkus et al. [2017] 和Du et al. [2019]表明，這種梯度下降技術可證明以良好的泛化最優地訓練(淺)過參數化網絡。具體來說，他們指出，過度參數化會導致一種強大的“類凸性”，這有利于梯度下降的收斂性。最近的理論結果[Allen-Zhu et al. 2019; Neyshabur et al. 2018]似乎支持這些發現，并指出訓練動力學和泛化依賴于過度參數化。

這種過度參數化是以模型訓練和推理過程中額外的內存和計算工作為代價的。特別是，對于移動設備和電池驅動設備的推理，以及在成本意識較強的環境下，稀疏模型表示可以帶來巨大的節省。具體地說，稀疏模型更容易存儲，并且常常節省計算量。此外，過度參數化的模型往往會過度擬合數據，并降低泛化到看不見的例子。緊跟著Occam 's razor，稀疏化也可以看作是某種形式的正則化，可以通過有效降低模型中的噪聲來提高模型質量。具體來說，最小描述長度框架提供了一個具有貝葉斯解釋和數據壓縮清晰解釋的吸引人的公式[Grünwald 2007]，我們稍后會討論。

許多工作，特別是老的工作，集中在通過稀疏化改進泛化。早期的研究[Mozer和Smolensky 1988]關注的是具有數十到數百個參數的模型，也說明了它們的簡化版本有更好的可解釋性。然而，隨著今天的模型使用數百萬或數十億個參數，稀疏性是否會顯著提高可解釋性和可解釋性就有待觀察了。Bartoldson等人[2020]最近的工作將剪枝作為“噪聲”，類似于dropout或數據增強來解釋泛化。其他近期的研究發現，稀疏性可以提高對抗對抗攻擊的魯棒性[Cosentino et al. 2019; Gopalakrishnan et al. 2018; Guo et al. 2018; Madaan et al. 2020; Rakin et al. 2020; Sehwag et al. 2020; Verdenius et al. 2020]。

最近，一組更大的工作集中在提高計算效率的同時保持模型的精度。現代網絡在計算上的使用是昂貴的——例如，Inception-V3 [Szegedy等人2016]，一個最先進的目標識別網絡，需要57億次算術運算和2700萬個參數進行評估;GPT-3 [Brown et al. 2020]，一種最先進的自然語言處理網絡的實驗狀態需要1750億個參數(350 GiB，假設每個參數16位)來評估。此外，訓練這樣的深度神經模型變得越來越昂貴，而且最大的語言模型已經需要超級計算機進行訓練，每次訓練可能要花費數百萬美元[Brown等人2020]。因此，研究訓練過程中的稀疏性對于管理訓練成本是非常重要的。

我們綜述的結果表明，今天的稀疏化方法可以導致模型尺寸減少10-100倍，并在計算、存儲和能源效率方面獲得相應的理論收益，而不會顯著降低精度。如果這些加速是在高效的硬件實現中實現的，那么所獲得的性能可能會導致一個階段的變化，使更復雜的、可能是革命性的任務得到實際解決。此外，我們還觀察到，在稀疏化方法方面的進展速度正在加快，因此，即使在我們編寫本論文的最后幾個月里，也發表了一些改進現有技術的新方法。

我們的目標是總結現有的技術，并且在第2-5節首先關注設計模型的純定性方面。然后，在第6節和第7節中，我們將解釋實現這些設計組合的架構選擇，包括性能結果。

付費5元查看完整內容

Transformers ·

2020 年 9 月 17 日

[付費5元查看完整內容]【Google】最新《高效Transformers》綜述大全，Efficient Transformers: A Survey

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

Transformer模型架構最近引起了極大的興趣，因為它們在語言、視覺和強化學習等領域的有效性。例如，在自然語言處理領域，Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近，提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型，其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導，本文描述了大量經過深思熟慮的最新高效X-former模型的選擇，提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

關鍵詞：深度學習，自然語言處理，Transformer模型，注意力模型

介紹

Transformer是現代深度學習領域中一股強大的力量。Transformer無處不在，在語言理解、圖像處理等許多領域都產生了巨大的影響。因此，在過去的幾年里，大量的研究致力于對該模型進行根本性的改進，這是很自然的。這種巨大的興趣也刺激了對該模式更高效變體的研究。

最近出現了大量的Transformer模型變體，研究人員和實踐者可能會發現跟上創新的速度很有挑戰性。在撰寫本文時，僅在過去6個月里就提出了近12種新的以效率為中心的模式。因此，對現有文獻進行綜述，既有利于社區，又十分及時。

自注意力機制是確定Transformer模型的一個關鍵特性。該機制可以看作是一種類似圖的歸納偏差，它通過基于關聯的池化操作將序列中的所有標記連接起來。一個眾所周知的自注意力問題是二次時間和記憶復雜性，這可能阻礙模型在許多設置的可伸縮性。最近，為了解決這個問題，出現了大量的模型變體。以下我們將這類型號命名為“高效Transformers”。

根據上下文，可以對模型的效率進行不同的解釋。它可能指的是模型的內存占用情況，當模型運行的加速器的內存有限時，這一點非常重要。效率也可能指計算成本，例如，在訓練和推理期間的失敗次數。特別是對于設備上的應用，模型應該能夠在有限的計算預算下運行。在這篇綜述中，我們提到了Transformer在內存和計算方面的效率，當它們被用于建模大型輸入時。

有效的自我注意力模型在建模長序列的應用中是至關重要的。例如，文檔、圖像和視頻通常都由相對大量的像素或標記組成。因此，處理長序列的效率對于Transformer的廣泛采用至關重要。

本篇綜述旨在提供這類模型的最新進展的全面概述。我們主要關注的是通過解決自我注意力機制的二次復雜性問題來提高Transformer效率的建模進展和架構創新，我們還將在后面的章節簡要討論一般改進和其他效率改進。

本文提出了一種高效Transformer模型的分類方法，并通過技術創新和主要用例對其進行了表征。特別地，我們回顧了在語言和視覺領域都有應用的Transformer模型，試圖對各個領域的文獻進行分析。我們還提供了許多這些模型的詳細介紹，并繪制了它們之間的聯系。

付費5元查看完整內容

持續學習 · 深度學習 · 深度持續學習 ·

2020 年 9 月 7 日

[付費5元查看完整內容]最新《深度持續學習》綜述論文，32頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現，那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域，在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示，以免由于迭代參數更新而出現災難性地遺忘的情況。然而，各個方法的比較是與現實應用程序隔離的，通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中，一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰，因為眾所周知，神經網絡會對未知的實例提供過于自信的錯誤預測，并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓，我們提出了一個統一的觀點，以搭建持續學習，主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明，這不僅有利于每個個體范式，而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進，同時在以前提出的方法失敗的地方展示了強大的開放世界應用。

//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c

概述：

隨著實用機器學習系統的不斷成熟，社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同，在孤立學習中，系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段，持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用，回顧一下最近關于終身機器學習[3]的書，深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4]，[5]，正如最近的評論[6]，[7]，[8]，[9]和對深度持續學習[8]，[10]，[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應，機器學習模型貪婪地根據給定的數據群更新參數，比如神經網絡迭代地更新其權值，使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時，學習到的表示集被單向引導，以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征，導致突然忘記以前獲得的信息。

盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘，但我們認為，一種非常不同形式的災難性遺忘的風險正在增長，即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊，但除了只捕獲災難性遺忘[12]的度量之外，我們還高度關注了實際的需求和權衡，例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障，那么大多數當前系統會立即崩潰，這幾乎可以被視為誤導。封閉世界的假設似乎無所不在，即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據，這在真實的開放世界中是非常不現實的，因為在開放世界中，數據可以根據不同的程度變化，而這些變化是不現實的，無法捕獲到訓練集中，或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時，不可避免地會產生完全沒有意義的預測，這是眾所周知的事實，已經被暴露了幾十年了，但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務，通常總結在開放集識別的傘下。然而，大多數現有的深度連續學習系統仍然是黑盒，不幸的是，對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16]，這些系統并沒有表現出理想的魯棒性。

除了目前的基準測試實踐仍然局限于封閉的世界之外，另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性，關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是，從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓，似乎并沒有整合到現代的連續學習實踐中。在主動學習中，目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下，逐步地找到與任務解決方案最接近的方法。因此，它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息，而不是無休止地積累所有的數據，而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱，但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位，這些挑戰將再次面臨。

在這項工作中，我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題，然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論，這些看似獨立的主題不僅從另一個角度受益，而且應該結合起來看待。在這個意義上，我們建議將當前的持續學習實踐擴展到一個更廣泛的視角，將持續學習作為一個總括性術語，自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案，而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展，以說明一種走向全面框架的可能選擇。重要的是，它作為論證的基礎，努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性，通過實證證明，概述了未來研究的含義和有前景的方向。

付費5元查看完整內容

深度學習模型 · 模型壓縮 ·

2020 年 8 月 19 日

[付費5元查看完整內容]最新《文本深度學習模型壓縮》綜述論文，21頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，自然語言處理(NLP)和信息檢索(IR)領域取得了巨大的進展，這要歸功于深度學習模型，如回歸神經網絡(RNNs)、門控回歸單元(GRUs)和長短時記憶(LSTMs)網絡，以及基于Transformer (Vaswani et al.， 2017)的雙向編碼器表示模型(BERT) (Devlin et al.， 2018)。但這些模型都是巨大的。另一方面，現實世界的應用程序要求較小的模型尺寸、低響應時間和低計算功率。在這個綜述中，我們討論了六種不同類型的方法(剪枝、量化、知識蒸餾、參數共享、張量分解和基于線性變壓器的方法)來壓縮這些模型，使它們能夠在實際的工業NLP項目中部署。考慮到構建具有高效和小型模型的應用程序的迫切需要，以及最近在該領域發表的大量工作，我們相信，本論文調研組織了“NLP深度學習”社區在過去幾年里所做的大量工作，并將其作為一個連貫的故事呈現出來。

//www.zhuanzhi.ai/paper/3fba50f6f54fa8722b1c7fd56ec0bcfb

付費5元查看完整內容

深度學習 · 自動駕駛 ·

2020 年 6 月 14 日

[付費5元查看完整內容]最新《深度學習自動駕駛》技術綜述論文，28頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間，深度學習的幾位先驅取得了突破，其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域，如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限，我們將重點分析幾個關鍵領域，即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。

//arxiv.org/abs/2006.06091

付費5元查看完整內容

神經架構搜索 · 綜述論文 ·

2020 年 6 月 5 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在許多領域都取得了重大突破和進展。這是因為深度學習具有強大的自動表示能力。實踐證明，網絡結構的設計對數據的特征表示和最終的性能至關重要。為了獲得良好的數據特征表示，研究人員設計了各種復雜的網絡結構。然而，網絡架構的設計在很大程度上依賴于研究人員的先驗知識和經驗。因此，一個自然的想法是盡量減少人為的干預，讓算法自動設計網絡的架構。因此，這需要更深入到強大的智慧。

近年來,大量相關的神經結構搜索算法(NAS)已經出現。他們對NAS算法進行了各種改進，相關研究工作復雜而豐富。為了減少初學者進行NAS相關研究的難度，對NAS進行全面系統的調查是必不可少的。之前的相關調查開始主要從NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類。這種分類方法比較直觀，但是讀者很難把握中間的挑戰和標志性作品。因此，在本次調查中，我們提供了一個新的視角:首先概述最早的NAS算法的特點，總結這些早期NAS算法存在的問題，然后為后續的相關研究工作提供解決方案。并對這些作品進行了詳細而全面的分析、比較和總結。最后，提出了今后可能的研究方向。

概述

深度學習已經在機器翻譯[1-3]、圖像識別[4,6,7]和目標檢測[8-10]等許多領域展示了強大的學習能力。這主要是因為深度學習對非結構化數據具有強大的自動特征提取功能。深度學習已經將傳統的手工設計特征[13,14]轉變為自動提取[4,29,30]。這使得研究人員可以專注于神經結構的設計[11,12,19]。但是神經結構的設計很大程度上依賴于研究者的先驗知識和經驗，這使得初學者很難根據自己的實際需要對網絡結構進行合理的修改。此外，人類現有的先驗知識和固定的思維范式可能會在一定程度上限制新的網絡架構的發現。

因此，神經架構搜索(NAS)應運而生。NAS旨在通過使用有限的計算資源，以盡可能少的人工干預的自動化方式設計具有最佳性能的網絡架構。NAS- RL[11]和MetaQNN[12]的工作被認為是NAS的開創性工作。他們使用強化學習(RL)方法得到的網絡架構在圖像分類任務上達到了SOTA分類精度。說明自動化網絡架構設計思想是可行的。隨后，大規模演化[15]的工作再次驗證了這一想法的可行性，即利用演化學習來獲得類似的結果。然而，它們在各自的方法中消耗了數百天的GPU時間，甚至更多的計算資源。如此龐大的計算量對于普通研究者來說幾乎是災難性的。因此，如何減少計算量，加速網絡架構的搜索[18-20,48,49,52,84,105]就出現了大量的工作。與NAS的提高搜索效率,NAS也迅速應用領域的目標檢測(65、75、111、118),語義分割(63、64、120),對抗學習[53],建筑規模(114、122、124),多目標優化(39、115、125),platform-aware(28日34、103、117),數據增加(121、123)等等。另外，如何在性能和效率之間取得平衡也是需要考慮的問題[116,119]。盡管NAS相關的研究已經非常豐富，但是比較和復制NAS方法仍然很困難[127]。由于不同的NAS方法在搜索空間、超參數技巧等方面存在很多差異，一些工作也致力于為流行的NAS方法提供一個統一的評估平臺[78,126]。

隨著NAS相關研究的不斷深入和快速發展，一些之前被研究者所接受的方法被新的研究證明是不完善的。很快就有了改進的解決方案。例如，早期的NAS在架構搜索階段從無到有地訓練每個候選網絡架構，導致計算量激增[11,12]。ENAS[19]提出采用參數共享策略來加快架構搜索的進程。該策略避免了從頭訓練每個子網，但強制所有子網共享權值，從而大大減少了從大量候選網絡中獲得性能最佳子網的時間。由于ENAS在搜索效率上的優勢，權值共享策略很快得到了大量研究者的認可[23,53,54]。不久，新的研究發現，廣泛接受的權重分配策略很可能導致候選架構[24]的排名不準確。這將使NAS難以從大量候選架構中選擇最優的網絡架構，從而進一步降低最終搜索的網絡架構的性能。隨后DNA[21]將NAS的大搜索空間模塊化成塊，充分訓練候選架構以減少權值共享帶來的表示移位問題。此外，GDAS-NSAS[25]提出了一種基于新的搜索架構選擇(NSAS)損失函數來解決超網絡訓練過程中由于權值共享而導致的多模型遺忘問題。

在快速發展的NAS研究領域中，類似的研究線索十分普遍，基于挑戰和解決方案對NAS研究進行全面、系統的調研是非常有用的。以往的相關綜述主要根據NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類[26,27]。這種分類方法比較直觀，但不利于讀者捕捉研究線索。因此，在本次綜述查中，我們將首先總結早期NAS方法的特點和面臨的挑戰。基于這些挑戰，我們對現有研究進行了總結和分類，以便讀者能夠從挑戰和解決方案的角度進行一個全面和系統的概述。最后，我們將比較現有的研究成果，并提出未來可能的研究方向和一些想法。

付費5元查看完整內容

深度學習 · 自然語言處理 ·

2020 年 3 月 6 日

[付費5元查看完整內容]深度學習自然語言處理進展綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

自然語言處理(NLP)幫助智能機器更好地理解人類語言，實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現，增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別，特別是NLP等領域的應用取得了顯著的進步，數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用，并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。

付費5元查看完整內容