青柠在线观看免费高清1,国产欧美日韩视频一区二区

簡介： 本書的第2部分是基礎機器學習和深度學習算法的初學者指南。目的是使讀者對現代AI方法的基本組成部分有一個了解。有些概念偏數學內容，但是不必完全了解細節，了解其重要性即可。盡管這些算法中的許多已不再是最新技術，但由于它們提供了后續方法性能的可靠基準，因此仍在工業中得到廣泛使用。

目錄：

1 介紹
2 機器學習
- 線性回歸
- 邏輯回歸
- 決策樹
- 隨機森林
3 深度學習與神經網絡
- 實例
- 神經網絡元素
- 深度神經網絡的關鍵概念
- 后向網絡
- 多元線性回歸
- 梯度下降
- 優化算法
- 激活函數
- 損失函數
- 邏輯回歸
- 深度學習中的損失函數
- 神經網絡與AI

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

神經網絡 · 優化 · 梯度 · 分布式 · 深度學習 ·

2019 年 12 月 28 日

[付費5元查看完整內容]【論文】深度學習的最優化:理論和算法（Optimization for deep learning: theory and algorithms）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Optimization for deep learning: theory and algorithms

摘要：

什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先，我們討論了梯度爆炸、消失問題，然后討論了實際的解決方案，包括初始化和歸一化方法。其次，我們回顧了用于訓練神經網絡的一般優化方法，如SGD、自適應梯度方法和分布式方法以及這些算法的理論結果。第三，我們回顧了現有的關于神經網絡訓練的全局問題的研究，包括局部極值的結果、模式連接、無限寬度分析。

作者：

Ruoyu Sun是伊利諾伊大學厄本那香檳分校 (UIUC)電子與計算機工程系的助理教授，研究優化和機器學習，尤其是深度學習。最近，一直在研究深度學習中的最優化，例如神經網絡，GANs和Adam。

摘要

什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先，我們討論了梯度爆炸/消失問題和更一般的不期望譜問題，然后討論了實際的解決方案，包括仔細的初始化和歸一化方法。其次，我們回顧了用于訓練神經網絡的一般優化方法，如SGD、自適應梯度方法和分布式方法，以及這些算法的現有理論結果。第三，我們回顧了現有的關于神經網絡訓練的全局問題的研究，包括局部極值的結果、模式連接、彩票假設和無限寬度分析。

概述

本文的一個主要主題是了解成功訓練神經網絡的實際組成部分，以及可能導致訓練失敗的因素。假設你在1980年試圖用神經網絡解決一個圖像分類問題。如果你想從頭開始訓練一個神經網絡，很可能你最初的幾次嘗試都沒有得到合理的結果。什么本質的變化使算法能有效進行?在高層次上，你需要三樣東西(除了強大的硬件): 合適的神經網絡、合適的訓練算法和合適的訓練技巧。

合適的神經網絡。這包括神經結構和激活功能。對于神經結構，您可能想要用一個至少有5層和足夠神經元的卷積網絡來替換一個完全連接的網絡。為了獲得更好的性能，您可能希望將深度增加到20甚至100，并添加跳躍skip連接。對于激活函數，一個好的起點是ReLU激活，但是使用tanh或swish激活也是合理的。

訓練算法。一個大的選擇是使用隨機版本的梯度下降(SGD)并堅持它。良好調整的步長足夠好，而動量和自適應步長可以提供額外的好處。

訓練技巧。適當的初始化對于算法的訓練是非常重要的。要訓練一個超過10層的網絡，通常需要兩個額外的技巧:添加規范化層和添加跳過連接。

哪些設計選擇是必要的?目前我們已經了解了一些設計選擇，包括初始化策略、規范化方法、跳過連接、參數化(大寬度)和SGD，如圖1所示。我們將優化優勢大致分為三部分: 控制Lipschitz常數、更快的收斂速度和更好的landscape。還有許多其他的設計選擇是很難理解的，尤其是神經架構。無論如何，似乎不可能理解這個復雜系統的每個部分，目前的理解已經可以提供一些有用的見解。

圖1: 成功訓練具有理論理解的神經網絡的幾個主要設計選擇。它們對算法收斂的三個方面有影響:使收斂成為可能、更快的收斂和更好的全局解。這三個方面有一定的聯系，只是一個粗略的分類。請注意，還有其他一些重要的設計選擇，特別是神經體系結構，它們在理論上還沒有被理解，因此在該圖中被省略了。還有其他好處，比如泛化，也被忽略了。

為了使綜述調查簡單，我們將重點研究前饋神經網絡的監督學習問題。我們將不討論更復雜的公式，如GANs(生成對抗網絡)和深度強化學習，也不討論更復雜的體系結構，如RNN(遞歸神經網絡)、attention和Capsule。在更廣泛的背景下，監督學習理論至少包含表示、優化和泛化(參見1.1節)，我們不詳細討論表示和泛化。一個主要的目標是理解神經網絡結構(由許多變量連接的參數化)如何影響優化算法的設計和分析，這可能會超越監督學習。

這篇文章是為那些對神經網絡優化的理論理解感興趣的研究人員寫的。關于優化方法和基礎理論的先驗知識將非常有幫助(參見，[24,200,29]的準備)。現有的關于深度學習優化的調查主要針對一般的機器學習受眾，如Goodfellow等[76]的第8章。這些綜述通常不深入討論優化的理論方面。相反，在這篇文章中，我們更多地強調理論結果，同時努力使它對非理論讀者具有可訪問性。如果可能的話，我們將提供一些簡單的例子來說明這種直覺，我們將不解釋定理的細節。

1.1 大景觀：分解理論

分解是發展理論的一個有用且流行的元方法。首先簡要回顧了優化在機器學習中的作用，然后討論了如何分解深度學習的優化理論。

表示、優化和泛化。監督學習的目標是根據觀察到的樣本找到一個近似底層函數的函數。第一步是找到一個豐富的函數家族(如神經網絡)，可以代表理想的函數。第二步是通過最小化某個損失函數來識別函數的參數。第三步是使用第二步中找到的函數對不可見的測試數據進行預測，產生的錯誤稱為測試錯誤。測試誤差可以分解為表示誤差、優化誤差和泛化誤差，分別對應這三個步驟引起的誤差。

在機器學習中，表示、優化和泛化這三個學科經常被分開研究。例如，在研究一類函數的表示能力時，我們往往不關心優化問題能否很好地解決。在研究泛化誤差時，我們通常假設已經找到了全局最優值(概化調查見[95])。類似地，在研究優化屬性時，我們通常不明確地考慮泛化誤差(但有時我們假定表示誤差為零)。

優化問題的分解。深度學習的優化問題比較復雜，需要進一步分解。優化的發展可以分為三個步驟。第一步是使算法開始運行，并收斂到一個合理的解，如一個固定點。第二步是使算法盡快收斂。第三步是確保算法收斂到一個低目標值的解(如全局極小值)。要獲得良好的測試精度，還有一個額外的步驟，但是這超出了優化的范圍。簡而言之，我們將優化問題分為三個部分: 收斂性、收斂速度和全局質量。

大部分工作的回顧分為三個部分: 第四部分，第五部分和第六部分。大致說來，每個部分主要是由優化理論的三個部分之一。然而，這種劃分并不精確，因為這三個部分之間的邊界是模糊的。例如，第4節中討論的一些技術也可以提高收斂速度，第6節中的一些結果解決了收斂問題和全局問題。劃分的另一個原因是它們代表了神經網絡優化的三個相當獨立的子領域，并且在一定程度上是獨立發展的。

1.2 文章結構

這篇文章的結構如下。在第二節中，我們提出了一個典型的監督學習神經網絡優化問題。在第三節中，我們提出了反向傳播(BP)，并分析了將經典收斂分析應用于神經網絡梯度下降的困難。在第四節中，我們將討論訓練神經網絡的神經網絡特定技巧，以及一些基本理論。這些是神經網絡相關的方法，打開了神經網絡的黑盒子。特別地，我們討論了一個主要的挑戰，稱為梯度爆炸/消失和一個更普遍的挑戰，控制頻譜，并回顧了主要的解決方案，如仔細的初始化和歸一化方法。在第五節中，我們討論了將神經網絡視為一般非凸優化問題的泛型算法設計。特別地，我們回顧了SGD的各種學習速率調度、自適應梯度方法、大規模分布式訓練、二階方法以及現有的收斂和迭代復雜度結果。在第六節中，我們回顧了神經網絡的全局優化研究，包括全局景觀、模式連接、彩票假設和無限寬度分析(如神經正切核)。

更多請下載論文查看

便捷下載，請關注專知公眾號（點擊上方藍色專知關注）

后臺回復“

付費5元查看完整內容