亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于深度神經網絡(DNN)模型的訓練具有非凸性質,它們的有效性依賴于非凸優化啟發式方法的使用。傳統的DNN訓練方法通常需要昂貴的實證方法來生成成功的模型,并且沒有明確的理論基礎。在這篇論文中,我們研究了如何利用凸優化理論改進神經網絡的訓練,并提供對它們最優權重的更好解釋。在這篇論文中,我們專注于具有分段線性激活函數的兩層神經網絡,并表明它們可以被表述為有限維度的凸程序,帶有促進稀疏性的正則化項,這是一種群體Lasso的變體。我們首先利用半無限編程理論證明有限寬度神經網絡的強對偶性,然后將這些架構等價地描述為高維凸模型。值得注意的是,當數據矩陣的秩有界(這是卷積網絡中的情況)時,解決凸程序的最壞情況復雜度在樣本數量和神經元數量上是多項式的。為了將我們的方法擴展到任意秩的訓練數據,我們基于zonotope采樣開發了一種新的多項式時間近似方案,該方案具有保證的近似比率。我們的凸模型可以使用標準的凸求解器進行訓練,而無需像非凸方法那樣使用啟發式方法或進行大量的超參數調整。由于凸性,優化器超參數如初始化、批大小和步長計劃對最終模型沒有影響。通過大量的數值實驗,我們展示了凸模型可以勝過傳統的非凸方法,并且對優化器超參數不敏感。

在論文的其余部分,我們首先將分析擴展到某些標準的兩層和三層卷積神經網絡(CNN),這些網絡可以在全多項式時間內全局優化。與第一部分研究的全連接網絡不同,我們證明了這些CNN的等價表述在所有輸入維度上都具有全多項式復雜性,而無需依賴任何近似技術,因此在計算復雜性上有顯著的改進。然后,我們討論將我們的凸分析擴展到各種神經網絡架構,包括向量輸出網絡、批量歸一化、生成對抗網絡(GANs)、更深的架構和閾值網絡。

引言

深度神經網絡因其在大量機器學習任務中的出色實證成功而受到歡迎。然而,盡管它們在機器學習中的普遍存在,以及人們對其的熱情不斷激增,但我們對神經網絡模型的基本理解仍存在重大差距。理解其出色的泛化特性背后的機制仍是一個未解的問題。訓練深度神經網絡的非凸性引起了一項重大的挑戰。在非凸優化中,優化方法的選擇及其內部參數,如初始化、小批處理和步長,對學習模型的質量有著顯著的影響。這與凸優化問題形成了鮮明的對比,在凸優化問題中,這些優化參數沒有影響,可以以非常健壯、高效、透明和可復制的方式獲得全局最優解。因此,我們將通過凸優化理論的視角研究深度神經網絡的訓練問題,并引入精確的凸優化形式,其全局最優解可以通過標準的凸優化求解器實現。在下一部分,我們將為整篇論文中將要使用的概念提供背景。

這篇論文的主要貢獻可以總結如下

  • 神經網絡的全局最優訓練:我們引入了一個凸分析框架,用來描述帶有分段線性激活函數(包括ReLU,Leaky ReLU和絕對值激活)的神經網絡的訓練,將其視為等效的有限維凸規劃問題。
  • 神經網絡的高效訓練:解決我們的凸規劃問題的一個潛在限制是,當應用到無界秩的數據時,最壞情況下的指數復雜性,這在全連接(FC)神經網絡中常常出現。我們引入了一種基于隨機錐體頂點采樣的近似算法,它是完全的多項式時間,用于解決這種復雜性。然后,我們證明了關于全局最優的強近似保證,并在實踐中展示了其可擴展性。
  • 理解架構選擇對隱式正則化現象的影響:提出的凸模型通過多種凸正則化機制,揭示了神經網絡模型的新穎解釋。正則化器的范圍從組?p-范數到核范數,取決于網絡架構,如連接結構和輸出數量。因此,我們提供了對由架構選擇引起的隱式正則化機制的完全理解。

付費5元查看完整內容

相關內容

人工神經網絡(Artificial Neural Network,即ANN ),是20世紀80 年代以來人工智能領域興起的研究熱點。它從信息處理角度對人腦神經元網絡進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網絡。在工程與學術界也常直接簡稱為神經網絡或類神經網絡。神經網絡是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式,權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。 最近十多年來,人工神經網絡的研究工作不斷深入,已經取得了很大的進展,其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性。

機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。

付費5元查看完整內容

基礎模型迅速從實驗室走向實際部署和應用。在這篇論文中,我討論了兩個相關的研究方向,旨在彌合這一鴻溝,以便基礎模型可以在實際環境中得到有效應用,例如工程、醫學或科學領域第一個方向是使模型更加領域無關:雖然用于訓練基礎模型的技術最初是為語言和視覺領域開發的,但我們展示了簡單的技術可以將這些方法推廣到至少十二個不同的領域中。第二個方向是在任務模糊性的情況下使模型更加有用,即用戶所需任務可能模糊或沒有完全明確,這在實際環境中經常發生。在這里,我們展示了如何衡量和改進基礎模型在任務模糊性下的性能,并探討了模型本身如何協助消除用戶意圖的歧義過程。最后,我們討論了未來的方向以及面臨的挑戰和機遇的廣闊前景。

通用機器學習模型已經問世。雖然它們往往是不完美的、不可靠的、不可信賴的或帶有偏見的,但現在存在著機器學習模型,能夠通過自然語言或圖像示例快速學習各種新任務。使用這些模型的一般公式包括兩個步驟。首先,模型在大量廣泛的數據上進行訓練,例如從互聯網中篩選出的圖像或文本,然后根據所需的任務進行適應,例如使用一組輸入-輸出示例的自然語言指令。這種范式被稱為基礎模型,因為訓練的第一階段產生了一個可以作為許多后續用例的中心基礎的模型。支撐這些模型的進展源于各種研究實驗室的進展,這里無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如C4,ImageNet),為評估模型構建后續任務和基準測試(例如GLUE,SQuAD,ImageNet),開發用于專門的機器學習加速器的硬件和軟件堆棧(例如CUDA,AlexNet,TPUs),用于訓練神經網絡的編程抽象(例如Torch,Theano,TensorFlow,PyTorch,JAX),可擴展的機器學習架構(例如ResNets,Transformers),優化器和分布式訓練的改進(例如Adam,Megatron),當然還有大規模無監督預訓練和遷移學習(例如BERT,GPT-3)。

像許多技術一樣,機器學習在開發過程中使用了一套假設,以使上述的發展變得可行。這些假設就像訓練輪,它們支持技術在初期的發展,但隨著技術成熟并在更廣泛的社會中部署,這些假設需要被摒棄,以免阻礙進一步的進展。盡管上面提到的進展令人矚目,但機器學習算法必須摒棄一些重要的訓練輪,以推動在實際問題中的進展,例如科學、工程和醫學領域。特別是,這篇論文關注的是兩個訓練輪,即領域特定性和明確的任務,隨著這些技術繼續從實驗室走向真實世界,它們已經不再可行。

付費5元查看完整內容

機器學習近期的實質性進展主要源于序列模型的突破,這些模型構成了在科學應用中取得廣泛成功的深度學習模型的骨干。然而,現有的方法需要對不同任務、模態和能力進行廣泛的專門化;存在計算效率瓶頸;并且在對更復雜的序列數據建模時,例如涉及長期依賴性時,會遇到困難。因此,繼續開發用于建模一般序列的原則性和實用的方法仍然至關重要。這篇論文開發了一種使用狀態空間模型進行深度序列建模的新方法,這種方法理論上有根據,計算效率高,并在各種數據模態和應用中取得了強大的結果。首先,我們介紹了一類具有眾多表示和屬性的模型,這些模型概括了標準深度序列模型(如循環神經網絡和卷積神經網絡)的優點。然而,我們發現這些模型的計算可能具有挑戰性,并開發了新的結構化狀態空間類別,這些狀態空間在現代硬件上非常快,無論是在擴展到長序列還是在諸如自回歸推斷等其他設置中。最后,我們提出了一個新的數學框架,用于增量建模連續信號,可以與狀態空間模型結合,賦予它們原則性的狀態表示,并提高它們對長距離依賴性的建模能力。總的來說,這新的方法類別為機器學習模型提供了有效和多功能的構建塊,特別是針對大規模的通用序列數據的處理。

深度學習方法在機器學習和人工智能領域取得了顯著進步,在科學和工業應用中獲得了廣泛的成功。序列模型是核心類別的模型,它們是作用于任意輸入序列的參數化映射。這些模型可以應用于各種復雜的序列數據處理任務,包括自然語言理解、語音和音頻、時間序列分析,甚至可以轉化為序列的間接模態,如圖像 [194, 148, 18, 94, 51]。

付費5元查看完整內容

我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。

1. 引言

近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。

然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。

因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):

準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。

能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。

存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。

吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。

要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。

本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?

除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。

付費5元查看完整內容

機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們

機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。

在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。

其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。

在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。

最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。

付費5元查看完整內容

自主決策系統正變得越來越普遍,我們越來越依賴這些系統為我們執行行動。以前,我們主要使用算法來完成簡單的預測任務。目前,我們遇到它們在順序決策場景中導航,在這些場景中,它們被精心設計來選擇導致理想狀態下最大預期性能的行動序列。隨著數據的廣泛可用性、計算能力的提高和學習算法的進步,機器學習正在成為傳統專家精心設計的解決方案的可行替代方案。機器能夠從數據中學習,并建立世界的表示來指導它們的行動。近年來,人工神經網絡已成為非常流行的函數逼近方法。從自動語言翻譯到自動駕駛汽車,計算機智能的許多驚人成就都是基于神經網絡的。特別是,它們與強化學習(RL)的結合使機器能夠學習復雜順序問題的解決方案。 與傳統軟件不同的是,人類幾乎不可能理解神經網絡實現的邏輯,這使得它們成為不透明的模型,并可能阻止它們在安全或關鍵任務應用中使用。在很多情況下,僅僅運行模擬還不足以讓人們對它們建立信心,因為一個故障就可能導致災難性的后果。本文的工作解決了在具有神經網絡組件的機器學習系統中建立信任的挑戰。我們首先介紹神經網絡驗證,這是一種驗證網絡是否具有所需屬性的過程。我們介紹了神經網絡驗證的最新進展,包括我們自己的貢獻,并表明,盡管取得了進展,驗證仍然是一個非常具有挑戰性的問題,目前的算法難以擴展到大型網絡。然后,我們提出了一種可選的方法,該方法將驗證需求合并到模型的設計中。更簡單的模型更容易驗證,我們證明了一些問題可以用二值化神經網絡(BNNs)解決,明顯更簡單的模型,參數可以用1位表示,具有與全精度模型相似的性能。我們提出并演示了一種簡單的混合整數規劃方法來驗證它們,并表明該方法具有良好的可擴展性。最后,我們提出了一種深度強化學習算法,類似于使用BNN作為函數逼近器的深度Q學習算法。我們再次表明,這種方法能夠犧牲少量性能,并獲得可擴展的驗證。

付費5元查看完整內容

在這項工作中,我們探索了提高機器學習系統各方面效率的理論和算法。首先,我們研究了在ML中實現高效機器不學習的算法原理。我們提出了兩種無監督學習算法,它們在在線數據刪除方面實現了超過100倍的改進,同時產生了統計質量與標準k-means++基線相當的集群。

其次,我們探索混合維嵌入,這是一種嵌入層架構,其中特定嵌入向量的維數隨其查詢頻率的變化而變化。通過理論分析和系統實驗,我們證明了使用混合維可以大大減少內存使用,同時保持甚至提高預測性能。使用Criteo Kaggle數據集上一半的參數或使用16倍的參數進行點擊率預測,混合維層將精度提高0.1%。他們在GPU上的訓練速度也超過2倍。

最后,我們提出了一種用于ML部署監控的新方法MLDemon。MLDemon集成了未標記數據和少量按需標簽,從而對給定數據流上部署的模型當前的準確性進行實時估計。受預算限制,MLDemon決定何時獲得額外的、可能昂貴的、專家監督標簽來驗證模型。在基準測試中,MLDemon優于之前的方法。我們還提供了理論分析,表明MLDemon對于廣泛的一類分布漂移是極小極大速率最優的。

付費5元查看完整內容

深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。

本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。

付費5元查看完整內容
北京阿比特科技有限公司