報告主題: Scalable Deep Learning: from theory to practice
簡介:
人工智能的一個基本任務是學習。深度神經網絡已被證明可以完美地應對所有的學習范式,即監督學習、非監督學習和強化學習。然而,傳統的深度學習方法利用云計算設施不能很好地擴展到計算資源少的自主代理。即使在云計算中,它們也受到計算和內存的限制,不能用于為假定網絡中有數十億神經元的代理建立適當的大型物理世界模型。這些問題在過去幾年通過可擴展和高效的深度學習的新興主題得到了解決。本教程涵蓋了這些主題,重點是理論進步、實際應用和實踐經驗,分為兩部分。
第一部分 -可擴展的深度學習:從修剪到演化。
本教程的第一部分側重于理論。首先修正目前有多少代理使用深度神經網絡。然后介紹了神經網絡的基本概念,并從功能和拓撲的角度將人工神經網絡與生物神經網絡進行了比較。我們接著介紹了90年代早期的第一篇關于高效神經網絡的論文,這些論文使用稀疏執行或基于不同顯著性標準的全連通網絡的權值剪枝。然后,我們回顧了近年來一些從全連通網絡出發,利用剪枝再訓練循環壓縮深度神經網絡,使其在推理階段更有效的工作。然后我們討論另一種方法,即增強拓撲的神經進化及其后續,使用進化計算來增長有效的深度神經網絡。
第二部分:可擴展的深度學習:深度強化學習
到目前為止,一切都是在監督和非監督學習的背景下討論的。在此基礎上,我們引入了深度強化學習,為可擴展的深度強化學習奠定了基礎。我們描述了在深度強化學習領域的一些最新進展,這些進展可以用來提高強化學習主體在面對動態變化的環境時的性能,就像在能量系統中經常出現的情況一樣。
邀請嘉賓:
Decebal Constantin Mocanu是埃因霍芬理工大學(TU/e)數學與計算機科學系數據挖掘組人工智能與機器學習助理教授(2017年9月至今),TU/e青年工程院院士。他的研究興趣是利用網絡科學、進化計算、優化和神經科學的原理,構想可擴展的深度人工神經網絡模型及其相應的學習算法。
Elena Mocanu是特溫特大學(University of Twente)數據科學小組的機器學習助理教授,也是艾恩德霍芬理工大學(Eindhoven University of Technology)的研究員。2013年10月,埃琳娜在德國理工大學開始了她在機器學習和智能電網方面的博士研究。2015年1月,她在丹麥技術大學進行了短暫的研究訪問,2016年1月至4月,她是美國奧斯汀德克薩斯大學的訪問研究員。2017年,埃琳娜在德國理工大學獲得了機器學習和智能電網的哲學博士學位。
Damien Ernst目前在列日大學(University of Liege)擔任全職教授。在列日大學獲得碩士學位,博士后研究期間,由FNRS資助,在CMU、美國麻省理工學院和蘇黎世聯邦理工學院度過。他現在正在做能源和人工智能領域的研究。
統計學習理論是一個新興的研究領域,它是概率論、統計學、計算機科學和最優化的交叉領域,研究基于訓練數據進行預測的計算機算法的性能。以下主題將包括:統計決策理論基礎;集中不平等;監督學習和非監督學習;經驗風險最小化;complexity-regularized估計;學習算法的泛化界VC維與復雜性;極大極小下界;在線學習和優化。利用一般理論,我們將討論統計學習理論在信號處理、信息論和自適應控制方面的一些應用。
題目: Optimization for deep learning: theory and algorithms
摘要:
什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸、消失問題,然后討論了實際的解決方案,包括初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法以及這些算法的理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、無限寬度分析。
作者:
Ruoyu Sun是伊利諾伊大學厄本那香檳分校 (UIUC)電子與計算機工程系的助理教授,研究優化和機器學習,尤其是深度學習。最近,一直在研究深度學習中的最優化,例如神經網絡,GANs和Adam。
摘要
什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然后討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。
本文的一個主要主題是了解成功訓練神經網絡的實際組成部分,以及可能導致訓練失敗的因素。假設你在1980年試圖用神經網絡解決一個圖像分類問題。如果你想從頭開始訓練一個神經網絡,很可能你最初的幾次嘗試都沒有得到合理的結果。什么本質的變化使算法能有效進行?在高層次上,你需要三樣東西(除了強大的硬件): 合適的神經網絡、合適的訓練算法和合適的訓練技巧。
合適的神經網絡。這包括神經結構和激活功能。對于神經結構,您可能想要用一個至少有5層和足夠神經元的卷積網絡來替換一個完全連接的網絡。為了獲得更好的性能,您可能希望將深度增加到20甚至100,并添加跳躍skip連接。對于激活函數,一個好的起點是ReLU激活,但是使用tanh或swish激活也是合理的。
訓練算法。一個大的選擇是使用隨機版本的梯度下降(SGD)并堅持它。良好調整的步長足夠好,而動量和自適應步長可以提供額外的好處。
訓練技巧。適當的初始化對于算法的訓練是非常重要的。要訓練一個超過10層的網絡,通常需要兩個額外的技巧:添加規范化層和添加跳過連接。
哪些設計選擇是必要的?目前我們已經了解了一些設計選擇,包括初始化策略、規范化方法、跳過連接、參數化(大寬度)和SGD,如圖1所示。我們將優化優勢大致分為三部分: 控制Lipschitz常數、更快的收斂速度和更好的landscape。還有許多其他的設計選擇是很難理解的,尤其是神經架構。無論如何,似乎不可能理解這個復雜系統的每個部分,目前的理解已經可以提供一些有用的見解。
圖1: 成功訓練具有理論理解的神經網絡的幾個主要設計選擇。它們對算法收斂的三個方面有影響:使收斂成為可能、更快的收斂和更好的全局解。這三個方面有一定的聯系,只是一個粗略的分類。請注意,還有其他一些重要的設計選擇,特別是神經體系結構,它們在理論上還沒有被理解,因此在該圖中被省略了。還有其他好處,比如泛化,也被忽略了。
為了使綜述調查簡單,我們將重點研究前饋神經網絡的監督學習問題。我們將不討論更復雜的公式,如GANs(生成對抗網絡)和深度強化學習,也不討論更復雜的體系結構,如RNN(遞歸神經網絡)、attention和Capsule。在更廣泛的背景下,監督學習理論至少包含表示、優化和泛化(參見1.1節),我們不詳細討論表示和泛化。一個主要的目標是理解神經網絡結構(由許多變量連接的參數化)如何影響優化算法的設計和分析,這可能會超越監督學習。
這篇文章是為那些對神經網絡優化的理論理解感興趣的研究人員寫的。關于優化方法和基礎理論的先驗知識將非常有幫助(參見,[24,200,29]的準備)。現有的關于深度學習優化的調查主要針對一般的機器學習受眾,如Goodfellow等[76]的第8章。這些綜述通常不深入討論優化的理論方面。相反,在這篇文章中,我們更多地強調理論結果,同時努力使它對非理論讀者具有可訪問性。如果可能的話,我們將提供一些簡單的例子來說明這種直覺,我們將不解釋定理的細節。
1.1 大景觀:分解理論
分解是發展理論的一個有用且流行的元方法。首先簡要回顧了優化在機器學習中的作用,然后討論了如何分解深度學習的優化理論。
表示、優化和泛化。監督學習的目標是根據觀察到的樣本找到一個近似底層函數的函數。第一步是找到一個豐富的函數家族(如神經網絡),可以代表理想的函數。第二步是通過最小化某個損失函數來識別函數的參數。第三步是使用第二步中找到的函數對不可見的測試數據進行預測,產生的錯誤稱為測試錯誤。測試誤差可以分解為表示誤差、優化誤差和泛化誤差,分別對應這三個步驟引起的誤差。
在機器學習中,表示、優化和泛化這三個學科經常被分開研究。例如,在研究一類函數的表示能力時,我們往往不關心優化問題能否很好地解決。在研究泛化誤差時,我們通常假設已經找到了全局最優值(概化調查見[95])。類似地,在研究優化屬性時,我們通常不明確地考慮泛化誤差(但有時我們假定表示誤差為零)。
優化問題的分解。深度學習的優化問題比較復雜,需要進一步分解。優化的發展可以分為三個步驟。第一步是使算法開始運行,并收斂到一個合理的解,如一個固定點。第二步是使算法盡快收斂。第三步是確保算法收斂到一個低目標值的解(如全局極小值)。要獲得良好的測試精度,還有一個額外的步驟,但是這超出了優化的范圍。簡而言之,我們將優化問題分為三個部分: 收斂性、收斂速度和全局質量。
大部分工作的回顧分為三個部分: 第四部分,第五部分和第六部分。大致說來,每個部分主要是由優化理論的三個部分之一。然而,這種劃分并不精確,因為這三個部分之間的邊界是模糊的。例如,第4節中討論的一些技術也可以提高收斂速度,第6節中的一些結果解決了收斂問題和全局問題。劃分的另一個原因是它們代表了神經網絡優化的三個相當獨立的子領域,并且在一定程度上是獨立發展的。
1.2 文章結構
這篇文章的結構如下。在第二節中,我們提出了一個典型的監督學習神經網絡優化問題。在第三節中,我們提出了反向傳播(BP),并分析了將經典收斂分析應用于神經網絡梯度下降的困難。在第四節中,我們將討論訓練神經網絡的神經網絡特定技巧,以及一些基本理論。這些是神經網絡相關的方法,打開了神經網絡的黑盒子。特別地,我們討論了一個主要的挑戰,稱為梯度爆炸/消失和一個更普遍的挑戰,控制頻譜,并回顧了主要的解決方案,如仔細的初始化和歸一化方法。在第五節中,我們討論了將神經網絡視為一般非凸優化問題的泛型算法設計。特別地,我們回顧了SGD的各種學習速率調度、自適應梯度方法、大規模分布式訓練、二階方法以及現有的收斂和迭代復雜度結果。在第六節中,我們回顧了神經網絡的全局優化研究,包括全局景觀、模式連接、彩票假設和無限寬度分析(如神經正切核)。
?
更多請下載論文查看
便捷下載,請關注專知公眾號(點擊上方藍色專知關注)
后臺回復“
主題: On the information bottleneck theory of deep learning
摘要: 深度神經網絡的實際成功并沒有得到令人滿意地解釋其行為的理論進展。在這項工作中,我們研究了深度學習的信息瓶頸理論,它提出了三個具體的主張:第一,深度網絡經歷了兩個不同的階段,分別是初始擬合階段和隨后的壓縮階段;第二,壓縮階段與深網絡良好的泛化性能有著因果關系;第三,壓縮階段是由隨機梯度下降的類擴散行為引起的。在這里,我們證明這些聲明在一般情況下都不成立,而是反映了在確定性網絡中計算有限互信息度量的假設。當使用簡單的binning進行計算時,我們通過分析結果和模擬的結合證明,在先前工作中觀察到的信息平面軌跡主要是所采用的神經非線性的函數:當神經激活進入飽和時,雙邊飽和非線性如產生壓縮相但線性激活函數和單邊飽和非線性(如廣泛使用的ReLU)實際上沒有。此外,我們發現壓縮和泛化之間沒有明顯的因果關系:不壓縮的網絡仍然能夠泛化,反之亦然。接下來,我們表明,壓縮階段,當它存在時,不產生從隨機性在訓練中,通過證明我們可以復制IB發現使用全批梯度下降,而不是隨機梯度下降。最后,我們證明當輸入域由任務相關信息和任務無關信息的子集組成時,隱藏表示確實壓縮了任務無關信息,盡管輸入的總體信息可能隨著訓練時間單調增加,并且這種壓縮與擬合過程同時發生而不是在隨后的壓縮期間。
主題: Mathematics of Deep Learning
摘要: 本教程將介紹一些深神經網絡的理論結果,其目的是為屬性提供數學證明,如逼近能力、收斂性、全局最優性、不變性、學習表征的穩定性、泛化誤差等。討論了該理論在神經網絡訓練中的應用。本教程將從90年代早期的神經網絡理論(包括著名的Hornik等人的研究成果)開始。還有Cybenko)。接下來,我們將討論過去五年中為深度學習而建立的最新理論成果。文中還將討論該理論所遵循的實際考慮。
邀請嘉賓: Raja Giryes,是特拉維夫大學電氣工程學院的助理教授。他獲得了海拉以色列理工學院計算機科學系理學學士(2007)、理學碩士(M.Elad教授和Y.C.Eldar教授監督,2009)和博士(M.Elad教授監督,2014)學位。Raja是Technion(2013年11月至2014年7月)計算機科學系和杜克大學G.Sapiro教授實驗室(2014年7月和2015年8月)的博士后。他的研究興趣在于信號和圖像處理與機器學習的交叉點,特別是在深度學習、反問題、稀疏表示和信號和圖像建模方面。Raja獲得了EURASIP最佳博士獎、ERC StG獎、Maof優秀青年教師獎(2016-2019)、VATAT優秀博士后獎學金(2014-2015)、英特爾研究與卓越獎(2005、2013),德克薩斯儀器公司(2008)頒發的信號處理卓越獎(ESPA),是Azrieli研究員計劃(2010-2013)的一部分。
下載鏈接: 鏈接://pan.baidu.com/s/1tHvvi7codVe4kdb1quZB1w 提取碼:99fm
論文題目: A Survey of Deep Learning-based Object Detection
論文摘要: 目標檢測是計算機視覺中最重要和最具挑戰性的分支之一,它已廣泛應用于人們的生活中,例如監視安全性,自動駕駛等。隨著用于檢測任務的深度學習網絡的迅速發展,對象檢測器的性能得到了極大的提高。為了深入地了解目標檢測的主要發展狀況,在本次調查中,我們首先分析了現有典型檢測模型的方法并描述了基準數據集。之后,我們以系統的方式全面概述了各種目標檢測方法,涵蓋了一級和二級檢測器。此外,我們列出了傳統和新的應用程序。還分析了對象檢測的一些代表性分支。最后,我們討論了利用這些對象檢測方法來構建有效且高效的系統的體系結構,并指出了一組發展趨勢,以更好地遵循最新的算法和進一步的研究。
作者介紹: Licheng Jiao 1982年獲得中國上海交通大學博士學位,并分別于1984年和1990年獲得西安交通大學的博士學位。 1990年至1991年,他是西安電子科技大學雷達信號處理國家重點實驗室的博士后研究員。自1992年以來,焦博士一直是中國西安電子科技大學電子工程學院的教授,目前是電子工程學院的院長,也是智能感知與圖像理解重點實驗室的主任。 西安電子科技大學中國教育部 1992年,焦博士獲得了青年科學技術獎。 1996年,他獲得了中國教育部跨世紀專家基金的資助。 從1996年起,他被選為“中國第一級人才計劃”的成員。2006年,他被霍英東教育基金會授予高中青年教師獎一等獎。 從2006年起,他被選為陜西省特別貢獻專家。
課程介紹:
深度學習正在改變人工智能領域,但缺乏扎實的理論基礎。這種事務狀態極大地阻礙了進一步的發展,例如耗時的超參數優化或對抗性機器學習中遇到的非凡困難。我們為期三天的研討會基于我們確定為當前的主要瓶頸:了解深度神經網絡的幾何結構。這個問題是數學,計算機科學和實用機器學習的融合。我們邀請這些領域的領導者加強新的合作,并為深度學習的奧秘尋找新的攻擊角度。
主講人:
Peter Bartlett,加州大學伯克利分校教授,工作于計算機科學和統計部門、伯克利人工智能研究實驗室、西蒙斯計算理論研究所。
Leon Bottou,一名研究科學家,對機器學習和人工智能有著廣泛的興趣。近年來,在大規模學習和隨機梯度算法方面的工作受到了廣泛的關注。他也以DjVu文件壓縮系統而聞名,于2015年3月加入Facebook人工智能研究。
Anna Gilbert,在芝加哥大學獲得理學學士學位,在普林斯頓大學獲得數學博士學位;1997年,是耶魯大學和at&T實驗室研究所的博士后研究員。1998年至2004年,她是新澤西州弗洛勒姆公園at&T實驗室研究部的技術人員。從那以后,她一直在密歇根大學數學系工作,現在是那里的一名教授。
Piotr Indyk,電氣工程和計算機科學系的托馬斯D.和弗吉尼亞W.卡伯特教授。計算機科學與人工智能實驗室,無線麻省理工學院,大數據學院和MIFODS計算組的成員。興趣方向:高維計算幾何(包括近似最近鄰搜索)、數據流算法、稀疏恢復、壓縮感知、機器學習。
S. T. Yau,中國科學院數學科學研究所所長,哈佛大學數學系教授。感興趣的領域:微分幾何,微分方程和數學物理。
課程介紹:
本課程介紹用于自然語言處理(NLP)的深度學習(DL)技術。與其他DL4NLP課程相反,我們將在一些講座中對所有神經體系結構(例如CNN,RNN,注意力)進行一次旋風之旅。 然后,我們將在使用貝葉斯和馬爾可夫網絡學習結構化預測方面做出巨大的努力,并應用順序標注,句法解析和句子生成。 在這個過程中,我們還將看到如何將這些傳統方法與簡單的神經網絡相結合并加以改進。
主講人:
Lili Mou博士是阿爾伯塔大學計算機科學系的助理教授。Lili分別于2012年和2017年在北京大學EECS學院獲得了學士和博士學位。之后,他在滑鐵盧大學(University of Waterloo)擔任博士后,并在Adeptmind(加拿大多倫多的一家初創公司)擔任研究科學家。他的研究興趣包括應用于自然語言處理以及編程語言處理的深度學習。他在頂級會議和期刊上都有出版物,包括AAAI,ACL,CIKM,COLING,EMNLP,ICASSP,ICML,IJCAI,INTERSPEECH,NAACL-HLT和TACL(按字母順序)。
課程大綱:
神經網絡基礎
結構化預測
句子生成
離散空間
課程簡介
麻省理工學院的深度學習入門課程,適用于計算機視覺,自然語言處理,生物學等領域。主要內容包括深度序列建模,深度計算機視覺,深度生成模型,深度強化學習等。旨在讓學習者獲得深度學習算法的基礎知識,并獲得在TensorFlow中構建神經網絡的實踐經驗。
課程大綱
首席講師:Alexander Amini、Ava Soleimany
講師簡介
Alexander Amini在麻省理工學院獲得了電子工程和計算機科學的理學學士學位和碩士學位,目前為麻省理工學院(MIT)博士生 ,NSF研究員,MIT6.S191的主要組織者和講師:《深度學習入門》。研究重點是構建用于自主系統的端到端控制(即對執行的感知)的機器學習算法,并為這些算法制定保證。并且從事自動駕駛汽車的控制,深層神經網絡的置信度,人類移動性的數學建模以及構建復雜的慣性優化系統等方面的工作。
Ava Soleimany在麻省理工學院獲得了計算機科學和分子生物學的理學學士學位,目前為哈弗大學生物學理學博士、麻省理工學院博士生,同為MIT6.S191的主要組織者和講師:《深度學習入門》。
題目: Active Learning: From Theory to Practice
簡介:
近年來,機器學習領域取得了相當大的進步,但主要是在定義明確的領域中使用了大量帶有人類標記的訓練數據。機器可以識別圖像中的物體并翻譯文本,但它們必須接受比人一生所能看到的更多的圖像和文本的訓練。生成必要的訓練數據集需要大量的人力工作。Active ML旨在解決這個問題,它設計了一種學習算法,能夠自動、自適應地選擇最具信息性的數據進行標記,這樣就不會浪費人類的時間來標記不相關、冗余或瑣碎的例子。本教程將概述應用程序,并介紹主動機器學習的基本理論和算法。它將特別關注可證明的健全的主動學習算法,并量化學習所需的標記訓練數據的減少。
邀請嘉賓:
Robert Nowak是威斯康星大學麥迪遜分校的諾斯布施工程教授,他的研究重點是信號處理、機器學習、優化和統計。
Steve Hanneke是芝加哥豐田技術研究所的研究助理教授。他的研究探索了機器學習理論:設計新的學習算法,能夠從更少的樣本中學習,理解交互式機器學習的好處和能力,開發遷移學習和終身學習的新視角,并在學習理論的基礎上重新審視基本的概率假設。Steve于2005年在UIUC獲得了計算機科學學士學位,2009年在卡內基梅隆大學獲得了機器學習博士學位,并完成了一篇關于主動學習理論基礎的論文。