精品亚洲中文一区二区三区,国产视频999免费在线观看,久久人人做人人玩人人娄精品

近年來，深度學習領域取得了重大進展，特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而，它的訓練過程極不穩定，對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高，大量研究在一定程度上探索了高效訓練領域，但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式，并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術，可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心"，包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術，側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”，包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術，注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”，包括在資源受限情況下的一些獨特加速方法，例如對總迭代次數的限制; (5)“以系統為中心”，包括一些高效的分布式框架和開源庫，它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法，本文綜述了一個全面的回顧，以了解每個組件內的一般機制及其聯合交互。同時，對通用加速技術發展的未來工作進行了詳細的分析和討論，這些工作可以啟發我們重新思考和設計新的高效范式。總之，我們希望這項綜述將成為普遍有效訓練的寶貴指南。

//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f

隨著人工智能技術的快速發展，深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律，并表明更大的模型本質上需要大量的數據，在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如，Dehghani等人[44]提出了ViT-22B，該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后，GPT-3[18]在45TB數據樣本上訓練了175B參數，并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型，只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229]，這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚，但為了保持實際效率，人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言，訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說，訓練GPT-3消耗大約355 GPU年，成本為460萬美元。在如此龐大的參數和數據樣本下，傳統的從零開始訓練顯然無法承受巨大的費用，特別是在擴展到下游任務[30,138,187,188,211,243]時，這將引入額外的架構和過多的參數。因此，預訓練-微調模式在深度學習領域日益受到關注。

預訓練的主題是繼承遷移學習的范式，在一個通用的數據集上訓練一個通用的基礎模型，以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態)，幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像，有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練，為下游任務產生了有希望的遷移性能。同樣，來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48]，通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區，Radford等人[196]提出了生成式預訓練(GPT)，通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率，GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習，在預訓練中可以顯著增強對知識的理解，在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明，使用預訓練可以提高模型的魯棒性和不確定性，對于在大型數據集上進行訓練表現出極大的優勢，泛化能力較好。最近的進展表明，從具有巨大容量的預訓練模型中獲得了實質性的收獲，特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向，即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴，極大地啟發了大數據的應用。同時，它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本，包括時間和金錢，嚴重阻礙了它的發展。在此背景下，本文介紹和總結了在大規模模型上加速訓練的通用和實用技術，這些技術促進了更快的訓練，也可能有助于預訓練中龐大的基礎模型。

最近的許多工作回顧和總結了高效的訓練技術，主要包括引入了高效的預訓練模型，設計了新的加速組件，先進的優化方法，在NLP或CV社區上的高效訓練，以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作，并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型，主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧，討論了它們在每個不同社區的成果的最新研究進展，這些成果可能會給本地研究帶來新的思考。同時，系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型，并回顧了Transformer模型的幾種變體，這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展，介紹了Transformer模型的詳細演變，并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發，提出了一些提高Transformer模型訓練效率的策略，并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述，包括計算效率、存儲效率和硬件/算法協同設計。與它們不同，我們更關注基本的加速技術，不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐，以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展，包括新的優化器和策略，以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗，總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法，并討論了它們的效率和缺點。

近年來，高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展，但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下，本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧，這些技術獨立于任務或模型架構。從實踐效率的角度來看，我們認為高效的訓練主要圍繞兩個明確的目標:

為了達到相當的測試精度，高效的訓練需要更少的訓練時間。

在相似的訓練成本下，高效的訓練可以實現更高的性能。

該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構，本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外，由于我們的調研是無任務和無模型的，因此提供了訓練加速技術的廣泛泛化，可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理，研究人員可以開發更快、更有效的模型，而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述，為機器學習領域做出了重大貢獻。本文對解決一般的基本最小化問題很感興趣，可以很容易地擴展到訓練基礎模型或預訓練任務:

與之前的工作不同，本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件，這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中，省略了額外的近端項。在不損失通用性的情況下，使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:

在表1中，我們總結了這些符號及其對應的研究領域。基于式(3)，通過提煉和拆分組件的不同角色，將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析，以對當前用于訓練大規模模型的通用加速技術進行分類，并結合實際實現的可行性。具體來說，它們是:

以數據為中心的有效訓練。在深度學習中，全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高，盡管在早期階段表現有效。為了解決這個問題并提高泛化性能，以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性，從而在實際應用中具有更好的泛化性能。同時，為了實現有效加速并進一步提高模型的通用性，以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外，它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明，課程學習是一個循序漸進的過程，可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本，逐步恢復到高質量的樣本。總之，以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。

以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡，例如基于卷積的神經網絡(CNN)，多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化，更多地關注DNNs的計算復雜性，以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說，架構近似側重于采用簡化的算子組合，以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率，也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態，可以有效地加快收斂速度，防止訓練過程在早期崩潰。總之，以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法，它具有很強的實用性，可以很容易地在任何深度學習框架中實現。

以優化為中心的高效訓練。為提高優化效率，總結了三個主要因素，即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而，要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此，以學習率為中心的方法旨在開發高效和靈活的策略，以高效和穩定地訓練模型。第二個因素，批量大小，在優化中也起著關鍵作用。借助GPU設備的并行計算能力，特別是在計算資源充足的情況下，通過增加單個minibatch中的樣本數量可以提高訓練效率。因此，以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看，我們總是努力實現一個具有高穩定性的目標，這是以目標為中心的方法的主要關注點。這些方法專注于優化目標，提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述，以優化為中心的方法研究了訓練過程中的高效迭代計算，為高效訓練提供了堅實的保證。

有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率，在這些場景中，計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練，同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練，研究人員和從業人員可以充分利用可用資源，避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發，這些模型更實用，更適合于資源通常有限的現實世界應用程序。

以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現，能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯，以解決跨設備通信中的瓶頸，并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練，訓練過程被分布為更小的計算任務，在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架，如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練，并顯著減少了大規模深度學習模型的訓練時間。

總而言之，本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分，我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分，我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:

從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術，總結了它們的技術路線和每個組件的實現，有助于為無任務和無模型的高效訓練提供堅實的指導。

比較了訓練加速中每個組件的優缺點，展示了它們的見解和互動，可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。

對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析，這可以為它們未來的發展提供指導。

本調查的主要結構組織如下。在第2節中，介紹了一些初步工作，包括不同骨干中的基本模塊，以及對大規模深度學習模型、數據集的預訓練，以及本綜述中采用的詳細符號。在第3 ~ 6節中，基于迭代公式(3)，從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中，我們討論和總結了本綜述中的技術，并提出了一些有前途的研究方向。

付費5元查看完整內容

相關內容

大模型

關注 213

大模型是基于海量多源數據打造的預訓練模型，是對原有算法模型的技術升級和產品迭代，用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習，以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。

牛津大學 (University of Oxford) · 博士論文 · 深度學習 · 模型壓縮 ·

2023 年 4 月 25 日

[付費5元查看完整內容]【牛津大學博士論文】深度學習中模型和數據的壓縮，160頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模，既適用于訓練也適用于推理。因此，壓縮神經網絡以使其訓練和運行更高效至關重要，并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化，它們是本論文的重點。本論文探討了如何利用高階梯度（元梯度）的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制：盡管許多方法（如基于顯著性的剪枝）在剪枝后進行訓練或微調階段，但參數顯著性只關注參數的一個快照，而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號，在初始化時找到更好的可訓練子網絡。接下來，我們研究量化神經網絡，并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后，我們研究雙重壓縮問題，即使用神經網絡壓縮數據源。我們從圖像開始，提出了一種簡單的無自編碼器架構，其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后，我們使用元梯度來元學習一個基礎網絡，以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知，并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是，我們評估了標準DNN壓縮技術（如量化）在這種新型神經網絡中的實用性。

1. 引言

近年來，深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播，卷積神經網絡的進步，大規模數據集的可用性，至關重要的是，由于GPU演變為通用、高度并行、多線程的計算平臺，計算能力的大幅提高。隨著算法和計算能力的不斷進步，訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。

然而，隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代，在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在，神經網絡很容易擁有數百萬或數十億個參數，并且沒有跡象表明我們的速度正在放緩，特別是在一些應用程序，如自然語言處理，我們還沒有看到縮放定律的結束。這可以在圖1.1中看到，它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面，人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕，其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備，這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。除了推理之外，訓練也會受到神經網絡和數據集規模較大的阻礙。首先，與推理相比，訓練需要更多的內存。這是因為在訓練過程中，我們需要保留網絡生成的中間值，以便完成反向傳播。這也使得并行化變得困難，因為我們無法進行新的前向傳遞，直到梯度找到它們自己的路回到第一層。其次，訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型，除了模型參數，他們還包括訓練日志，這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到，這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。

因此，壓縮神經網絡以使其更有效地訓練和運行是至關重要的，自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人，1990a;Hassibi等人，1993b)。在介紹各種用于提高神經網絡效率的方法之前，有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人，2017;Sze等人，2020):

準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標，本文中的大多數實驗都是這樣的，在其他任務中，準確率可以用其他指標來代替，以提高模型的性能。

能耗和動力。能耗指的是每單位能量可以處理的數據量，在使用電池供電的設備上運行時，能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面，功率消耗是單位時間內消耗的能量，它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。

存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。

吞吐量和延遲;除了存儲權重和中間值之外，我們還需要足夠快地移動數據。延遲衡量的是這個要求，定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行，這在許多應用中至關重要，如機器人，自動駕駛和游戲。

要使神經網絡對這些指標有效，需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管，從而產生了更強大和更節能的芯片，但深度學習工作負載尤其影響了CPU和GPU的硬件設計，并產生了專門針對神經網絡的定制加速器。

本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡，并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外，我們還研究了對偶壓縮問題，即用神經網絡壓縮數據，并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是，量化和剪枝技術是否仍然適用于此設置?

除了提供必要背景材料的第2章和總結工作的第6章外，本文的主要材料分為三章(如圖1.2所示)，每一章都專注于一個壓縮任務。

付費5元查看完整內容

高效訓練 · 綜述 · 課程學習 · 深度學習 · 語言處理 ·

2023 年 4 月 7 日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Li Shen,Yan Sun,Zhiyuan Yu,Liang Ding,Xinmei Tian,Dacheng Tao

from arxiv, 60 pages

The field of deep learning has witnessed significant progress, particularly in computer vision (CV), natural language processing (NLP), and speech. The use of large-scale models trained on vast amounts of data holds immense promise for practical applications, enhancing industrial productivity and facilitating social development. With the increasing demands on computational capacity, though numerous studies have explored the efficient training, a comprehensive summarization on acceleration techniques of training deep learning models is still much anticipated. In this survey, we present a detailed review for training acceleration. We consider the fundamental update formulation and split its basic components into five main perspectives: (1) data-centric: including dataset regularization, data sampling, and data-centric curriculum learning techniques, which can significantly reduce the computational complexity of the data samples; (2) model-centric, including acceleration of basic modules, compression training, model initialization and model-centric curriculum learning techniques, which focus on accelerating the training via reducing the calculations on parameters; (3) optimization-centric, including the selection of learning rate, the employment of large batchsize, the designs of efficient objectives, and model average techniques, which pay attention to the training policy and improving the generality for the large-scale models; (4) budgeted training, including some distinctive acceleration methods on source-constrained situations; (5) system-centric, including some efficient open-source distributed libraries/systems which provide adequate hardware support for the implementation of acceleration algorithms. By presenting this comprehensive taxonomy, our survey presents a comprehensive review to understand the general mechanisms within each component and their joint interaction.

ChatGPT · 預訓練模型 · BERT · GPT · 大模型 ·

2023 年 2 月 22 日

[付費5元查看完整內容]ChatGPT背后的大模型技術如何煉？MSU等最新《預訓練基礎模型綜述》，97頁pdf全面闡述BERT到ChatGPT歷史脈絡

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型，如BERT、GPT-3、MAE、DALLE-E和ChatGPT，在大規模數據上進行訓練，為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式，預訓練通過凍結和微調技術應用于計算機視覺，顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種，但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同，生成預訓練(GPT)方法應用Transformer作為特征提取器，并以自回歸范式在大型數據集上進行訓練。類似地，BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近，ChatGPT在大型語言模型上顯示出可喜的成功，它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功，人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法，數據集和評估指標，需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs，以及考慮數據質量和數量的統一PFMs。此外，還討論了PFM的相關研究，包括模型效率與壓縮、安全與隱私。最后，總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名，這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中，PFM被廣泛研究。**PFM是強大的通用模型，在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力，如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練，并將其微調到類似的小規模任務方面表現出優越的性能，使啟動快速數據處理成為可能。**PFMs基于預訓練技術，該技術旨在使用大量數據和任務訓練一個通用模型，這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性，人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時，訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識，如長期依賴關系、層次關系等。此外，在NLP領域進行預訓練的顯著優勢在于，訓練數據可以來自任何未標記的文本語料庫，即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術，如NNLM[11]和Word2vec[12]，但靜態方法難以適應不同的語義環境。因此，提出了動態預訓練技術，如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入，各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的，它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18]，這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術，如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24]，向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs，這是一個比較成熟的研究分類。對于文本，它是一個多用途的語言模型，用于預測序列中的下一個單詞或字符。例如，PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像，它類似于文本上的PFMs，使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖，類似的預訓練思想也被應用于獲得pfm，用于許多下游任務。除了特定數據域的PFMs，還回顧和介紹了其他一些先進的PFMs，如語音、視頻和跨領域數據的PFMs，以及多模態PFMs。此外，還出現了一種處理多模態的PFMs大收斂，即所謂的統一PFMs。首先定義了統一PFMs的概念，然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點，我們得出PFMs具有以下兩個主要優勢。**首先，需要輕微的微調來增強模型在下游任務上的性能。第二，PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集，而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作，以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型，如文本生成[6]，視覺transformer[7]，目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而，現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中，我們專門跟蹤了NLP領域的PFMs的演變，以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比，我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同，本文總結了現有的模型，從傳統模型到pfm，以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構，這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究，包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后，總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言，本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中，討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外，還討論了PFMs的前沿問題，包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧，討論了大數據時代超大模型未來研究的主要挑戰和機遇，這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

Transformer · 計算效率 · 高效存儲 ·

2023 年 2 月 4 日

[付費5元查看完整內容]Transformer如何訓得更快更好？莫納什大學最新《Transformer高效訓練》綜述，詳述訓練Transformer技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Transformer的最新進展伴隨著對計算資源的巨大需求，突出了開發高效訓練技術的重要性，通過有效使用計算和存儲資源，使Transformer訓練更快、成本更低、準確度更高。

本綜述首次系統地概述了transformer的高效訓練，涵蓋了加速算法和硬件方面的最新進展，重點是前者。我們分析和比較了在訓練期間節省中間張量計算和存儲成本的方法，以及硬件/算法協同設計的技術。最后討論了面臨的挑戰和未來的研究方向。

//www.zhuanzhi.ai/paper/3b027298fe1e5d2a83a18e2e19e245ed **深度學習，又稱深度神經網絡(DNN)是機器學習的一種變革性方法。它徹底改變了機器學習和人工智能，被公認為引領第四次產業革命的技術。**總的來說，深度學習的巨大成功歸功于它有效地利用了現有的大量計算資源和大量標記數據。盡管最近的發展帶來了巨大的興奮，但深度學習模型，特別是transformer，已經變得異常龐大和計算密集型，導致了兩個基本挑戰。

**第一個問題涉及訓練基于transformer的大型模型的密集計算。**一項廣泛討論的深度學習模型能耗研究[74]估計，訓練一個大型語言模型(LLM)會產生626,155磅的溫室氣體，相當于五輛汽車的壽命排放量;隨著型號越來越大，它們對計算的需求超過了硬件效率的提高。例如，超級巨星GPT-3[9]在5000億個單詞上進行訓練，并膨脹到1750億個參數。值得注意的是，根據GPT-32的技術概述，單次訓練運行將需要355 gpu年，成本至少為460萬美元，V100理論上估計為28 TFLOPS，最低的3年保留云定價。因此，讓深度學習在計算中站得住，以及與之相關的能耗對于綠色人工智能顯得尤為重要。

第二個問題是與基于注意力的模型大小成正比的指數式增長的訓練存儲。例如，文獻中最大的語言模型從2018年的BERTlarge[43]的3.45億增長到目前的數千億，如配備530B參數的MT-NLG[71]模型。因此，這些SOTA海量模型需要存儲高效的訓練技術，以減少存儲中間張量和跨加速器數據交換(通信)的存儲占用，同時確保高處理元素(PE)利用率。**本綜述回顧了提高訓練基于注意力模型的計算和存儲效率的通用技術，即transformer，如圖1所示。**通過技術創新和主要用例來描述它們，總結它們并得出它們之間的聯系。主要對提高transformer訓練效率的算法創新感興趣，還簡要討論了硬件/算法協同設計的進展。我們把對硬件加速器設計的回顧作為未來的工作。

2 計算效率

為了實現更快的梯度下降收斂速度，一個經典的解決方案是融合動量技術，其中每一步都是最陡的下降方向和最近迭代位移的組合，有助于加速相關方向的梯度下降并抑制振蕩。開創性的工作包括Nesterov的凸優化加速梯度[61]和非凸問題的動量近端梯度[50]等。為了滿足機器學習模型大規模優化的需求，支配優化器以隨機方式設計。特別是，帶動量的隨機梯度下降(SGD)和自適應學習率估計方法Adam[45]被廣泛用于訓練深度神經網絡。從經驗上講，用Adam訓練transformer的效果優于SGD，[85]揭示了隨機梯度中噪聲的重尾分布是SGD性能不佳的主要原因，并通過自適應噪聲裁剪的視角來理解Adam。默認情況下，AdamW[56]是Adam的一個變體，它將L2正則化和權重衰減解耦，是transformer廣泛使用的優化器。關于機器學習中的加速優化方法的更多細節，請參閱[54,8]。

數據選擇

令牌掩蔽。標記掩碼是自監督預訓練任務中的一種主要方法，如掩碼語言建模(MLM)[43,9]和掩碼圖像建模(MIM)[6,32]。標記掩碼的精神是隨機掩碼一些輸入標記，并訓練模型用可見標記的上下文信息預測缺失的內容，例如詞匯表id或像素。由于壓縮序列長度以二次方式降低了計算和存儲復雜度，跳過處理掩碼token為MLM和MIM帶來了可觀的訓練效率增益。對于MLM，[72]提出聯合預訓練語言生成任務的編碼器和解碼器，同時刪除解碼器中的掩碼標記，以節省存儲和計算成本。對于MIM，代表性工作[32]表明，在視覺中，在編碼器之前刪除掩碼圖像塊顯示出更強的性能，并且比保留掩碼標記的總體預訓練時間和存儲消耗低3倍或更多。在[51]中也發現了類似的現象，對于語言-圖像預訓練，隨機掩碼并去除掩碼圖像塊的總體預訓練時間比原始片段快3.7倍[66]。 **3 存儲效率 **

除了計算負擔之外，大型Transformer模型的模型規模越來越大，例如從BERT [43] 345M參數模型到1.75萬億參數的GPT-3，這是訓練的一個關鍵瓶頸，因為它們不適合單個設備的存儲。我們首先分析了現有模型訓練框架的內存消耗，它被1)模型狀態所占用，包括優化器狀態(例如Adam中的動量和方差)、梯度和參數;2)激活(我們忽略了臨時緩沖區和空閑碎片存儲，因為它們相對較小)。我們在表1中總結了記憶有效的訓練方法。下面，我們將討論優化存儲使用的主要解決方案。

4 硬件算法設計

除了計算和存儲負擔外，設計高效的硬件加速器可以加快DNN的訓練和推理。具體來說，與中央處理器(CPU)相比，圖形處理器(GPU)由于高度的并行性，在執行矩陣乘法時更加強大。對于專注于特定計算任務的應用，專用集成電路(AISCs)具有低功耗、高訓練/推理速度的優勢。例如，谷歌設計的張量處理單元(TPU)比當代cpu和gpu[41]的每瓦性能高30 ~ 80倍。然而，ASIC不容易重新編程或適應新任務。相比之下，現場可編程門陣列(FGPA)可以根據需要重新編程以執行不同的功能，也可以在最終設計之前作為asic的原型。為了進一步優化DNNs，特別是Transformer的訓練效率，硬件-算法協同設計在設計算法時考慮了硬件的約束和能力。

付費5元查看完整內容

人工智能 · 硬件描述語言與編譯 · 深度學習 · 綜述論文 ·

2021 年 12 月 5 日

[付費5元查看完整內容]深度學習如何規模化？GMU微軟等最新《大規模深度學習服務系統優化研究》綜述論文，闡述大規模深度學習推理系統優化挑戰與機遇

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】關于《深度學習系統優化》綜述論文

深度學習(Deep Learning, DL)模型在視覺、語言、醫療、商業廣告、娛樂等許多應用領域都取得了優異的表現。隨著DL應用和底層服務硬件的快速發展，都顯示出了強大的擴展趨勢，即模型擴展和計算擴展，例如，最近的預訓練模型具有數千億參數，內存消耗約TB級，以及提供數百個TFLOPS的最新GPU加速器。隨著規模化趨勢的出現，DL推理服務系統出現了新的問題和挑戰，逐步向大規模深度學習服務系統發展。本綜述旨在總結和分類大規模深度學習服務系統出現的挑戰和優化機會。通過提供一種新穎的分類方法，總結計算范式，闡述最新的技術進展，我們希望本綜述能夠揭示新的優化視角，激發大規模深度學習系統優化的新工作。

//www.zhuanzhi.ai/paper/9ee7ca2cf6457080794f9b6608f09e7a

深度學習(DEEP Learning, DL)模型，如CNN[15,36,44]，Transformers[2,7,10,29]和推薦模型[31,41]在許多認知任務，如視覺、語音和語言應用中取得了優異的表現，這在許多領域產生重要的應用，如醫學圖像分析[38]，照片造型[34]，機器翻譯[40]，產品推薦[31]、定制廣告[13]、游戲[21]等。這種廣泛的DL應用帶來了巨大的市場價值，也帶來了大量的DL服務流量。例如，FB有18.2億的日活躍用戶[11]。廣告推薦查詢的數量可以達到每秒10M查詢。消費者生成數據的巨大增長和DL服務的使用也推動了對以人工智能為中心的數據中心(如亞馬遜AWS[27]和微軟Azure[6])的需求，以及對GPU等強大的DL加速器的日益采用。根據[35]的報告，2018年，GPU在全球數據中心加速器市場上以298300萬美元的份額占據了85%的主要份額。到2025年，該產品將達到298.19億美元。

隨著市場需求的不斷增長，DL應用和底層服務硬件在計算可擴展(例如，增加計算并行性、內存和存儲以服務于更大的模型)和模型擴展(例如，更高的結構復雜性、計算工作量、參數大小以獲得更好的精度)，這大大復雜化了服務系統的管理和優化。一方面，如圖1 (a)所示，在計算擴展趨勢下，具有大規模計算并行性的GPU已成為近年來數據中心DL計算加速器的主要類型之一，并保持著持續的指數級性能縮放。最近的GPU如NVIDIA Tesla V100提供每秒130拉浮點運算(TFLOPS),和900 GB / s內存帶寬, 和這些數字進一步增加到312 TFLOPS和1.6 TB / s內存帶寬,可以提供數萬DL模型如ResNet50[15]同時提供更高的效率(性能/瓦特)。另一方面，如圖1 (b)所示，模型規模已經被證明是獲得更好的精度的最重要的因素之一，其有效性在實踐中一致顯示在所有領域的工業超大模型，如視覺模型BiT [22]， NLP模型BERT [7]，GPT3[2]和深度學習推薦模型DLRM[31]。例如，最近的超大型模型MT-NLG[29]已經實現了5300億參數。工業級商用DLRM[31]已達到~ TB模型大小，大大超過了單機存儲能力，需要多個設備才能進行協同計算。

在這樣的背景下，我們觀察到目前的DL系統社區對大規模深度學習系統(LDS)仍然缺乏足夠的認識和關注，忽視了出現的挑戰和機遇: 傳統的DL系統優化通常集中在單模型單機推理設置(即一對一映射)。然而，LDS具有更大的DL模型和更強大的硬件，能夠實現更靈活的推理計算，將多實例到單設備、一實例到多設備、甚至多實例到多設備映射變為現實。例如，計算縮放(如GPU、TPU)促使許多研究工作在單個設備上進行多模型推理，例如將一個GPU劃分為多個容器化vGPU或多實例GPU (MIG)，以獲得更好的硬件利用率、更高的服務吞吐量和成本效率。考慮到實際的成本管理(例如，總擁有成本，TCO)，服務大量推理查詢的數據中心也傾向于遷移到多租戶推理服務，例如，將多個推理查詢放置在同一設備上，從而產生新的優化目標(例如，每秒服務的總查詢，以及來自傳統單租戶推斷的約束(例如，服務水平協議、SLA)。類似地，模型擴展也提出了新的一對多推理場景的要求。目前的超大型模型(如DLRM)在推理過程中需要耗費大量的內存(～TB不量化)，這需要新的協同計算范式，如異構計算或分布式推理。這種協作服務涉及遠程進程調用(RPC)和低帶寬通信，這帶來了與傳統的單設備推理截然不同的瓶頸。由于涉及到以上所有場景，現代數據中心面臨更復雜的多對多場景，需要專門的推理查詢調度，如服務路由器和計算設備管理，以獲得更好的服務性能，如延遲、吞吐量和成本等。

在本文中，我們提出了一種新的計算范式分類法，總結了新的優化目標，闡述了新的技術設計視角，并為未來的LDS優化提供了見解。

多對多計算范式以DNN實例(I)和計算設備(D)之間的關系為特征，新興的LDS計算范式除了單實例單設備(SISD)外，還可以分為三個新的類別，即多實例單設備(MISD)，單實例多設備(SIMD)和多實例多設備(MIMD)，如圖2所示。與專注于單模型性能的SISD不同，LDS工作有不同的優化目標，包括推理延遲、服務吞吐量、成本、可擴展性、服務質量等。例如，多租戶推理(multi-tenant inference, MISD)的目標是提高服務吞吐量和電力效率，而超大規模模型推理服務的目標是以低成本提高硬件可伸縮性。
大規模設計和技術由于推理服務的規模，LDS工作也在算法創新、運行時調度和資源管理方面面臨許多優化挑戰和機遇。例如，多租戶推理優化尋求細粒度的硬件資源分區和作業調度，例如空間/時間共享，以提供QoS保證。由于延遲通信瓶頸，分布式推理需要專門的模型-硬件協同優化，例如高效的模型分片和平衡協作等。

通過對現有工作的總結，我們旨在對出現的挑戰、機遇和創新提供一個全面的調研，從而推動LDS運營和優化的新創新。調研的其余部分組織如下:第2節介紹了研究的初步內容，包括我們對LDS的分類，并說明了本次調研的范圍。第3節總結了在多實例單設備(MISD)優化方面面臨的挑戰和最近的工作;第4節總結了單實例多設備(SIMD)優化方面的研究工作;第5節總結了這項工作。

付費5元查看完整內容

深度學習 ·

2021 年 6 月 18 日

[付費5元查看完整內容]深度學習如何又好又快? Google最新《高效深度學習: 更小、更快、更好》綜述論文，43頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而，隨著深度學習模型的不斷改進，其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此，關注模型的度量也變得很重要，而不僅僅是它的質量。我們提出深度學習中的效率問題，隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼，供從業者優化他們的模型訓練和部署。我們相信，這是在高效深度學習領域的第一次全面綜述，涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是，這個綜述將為讀者提供心理模型和必要的理解，應用通用的效率技術，立即獲得顯著的改進，并促使他們的想法，進一步的研究和實驗，以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里，利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年，多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92]，以首席開發人員Alex Krizhevsky的名字命名)，其表現比排名第二的好41%。這一開創性工作的結果是，人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構，如VGGNet [141]， Inception [146]， ResNet[73]等，在隨后幾年的ImageNet競賽中連續打破了先前的記錄，同時它們的占用空間(模型大小，延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注，其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1)，以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能，圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如，GPT-3包含1750億個參數，僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本，這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務，但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時，深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型，則可能是免費的)，但是部署并讓推理運行很長一段時間，在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說，數據中心的碳足跡也是一個非常現實的問題，這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上)，原因有很多(隱私、連通性、響應性)。因此，必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時，能夠使用盡可能少的數據進行訓練是至關重要的。因此，使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡)，現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好，但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎，等等?更具體地說，模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題，比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題，模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中，我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們，前四個集中在建模上，最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法，通常是通過壓縮層數。一個經典的例子是量化[82]，它試圖壓縮一層的權矩陣，通過降低其精度(例如。(從32位浮點值到8位無符號整數)，質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤，需要更少的數據，收斂更快等)。如果需要的話，通過削減參數的數量，可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75]，它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61]，優化超參數有助于提高精度，然后可以用較少參數的模型進行交換。類似地，體系結構搜索[167]也屬于這一類，其中體系結構本身進行了調優，搜索有助于找到一個模型，該模型既優化了損耗/準確性，又優化了一些其他指標，如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等)，是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如，卷積層引入了參數共享用于圖像分類，避免了為每個輸入像素學習單獨的權值，也使其對過擬合具有魯棒性。同樣，注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后，我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架，如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具，如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如，要獲得量化模型的規模和延遲改進，我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容