最近,深度學習在許多AI/ML任務中被證明非常成功,但對該技術的理論理解一直滯后。這次報告將調研正在進行的努力,以理解這種方法的成功,包括優化方面和巨大的網絡在微小數據集上不過度擬合的神奇能力。
在過去的十年里,深度學習迅速占據了人工智能和機器學習的主導地位。盡管深度學習在很大程度上是一個“黑盒子”,但不可否認,其取得了顯著的成功。當下,有一個小的分支學科正在發展起來,獲得對深度學習潛在數學特性更好的理解。通過對深度學習在某些具體情況下的最新理論分析的回顧,我們說明了黑盒理論是如何忽略(甚至錯誤地理解)訓練過程中發生的特殊現象的。這些現象也沒有體現在訓練目標函數中。我們認為,通過數學視角來理解這種現象對于未來的全面應用至關重要。
**演講嘉賓:**Sanjeev Arora
**Sanjeev Arora是普林斯頓大學計算機科學Charles C. Fitzmorris教授。**他曾獲得Packard Fellowship(1997)、Simons Investigator Award(2012)、G?del Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成員。
來自哈佛大學Boaz Barak教授最新報告《Empirical challenges to theories of deep learning》
在第一個教程中,我們回顧了來自經典統計學習理論的工具,這些工具對理解深度神經網絡的泛化性能很有用。我們描述大數的統一定律,以及它們如何依賴于感興趣的函數類的復雜性。我們專注于一個特定的復雜性度量,Rademacher復雜性,以及深度ReLU網絡中這種復雜性的上界。我們研究了現代神經網絡的行為如何與在經典設置中發展的直覺相沖突。
在第二篇教程中,我們將從優化的角度回顧理解神經網絡訓練的方法。我們回顧了凸目標和光滑目標的梯度下降的經典分析。我們描述了Polyak- Lojasiewicz (PL)不等式,并討論如何在神經網絡訓練的背景下解釋這樣的不等式。我們描述了一種特殊的神經網絡訓練機制,它可以通過核方法很好地逼近,被稱為神經切線核(NTK)機制。我們展示了如何用兩種方法建立神經網絡的PL不等式:一種基于NTK近似的一般方法,另一種在線性可分離數據的特殊設置中。
**幾何在機器學習中變得越來越重要。**微分幾何和同源場為機器學習研究引入了新的思想,包括利用了對稱性和類似于圖中的曲率的新等變圖神經網絡(GNN)架構,以及在深度學習模型中理解和利用不確定性。
**消息傳遞仍然是 GNN 的主導范式。**在 2020 年,研究社區意識到了了消息傳遞 GNN 的不足之處,并尋求這種范式之外的更具表現力的架構。2021 年,很明顯,消息傳遞仍然占據主導地位,因為有的研究工作表明,將 GNN 應用于子圖可以獲得更好的表達能力。
**微分方程催生了新的 GNN 架構。**NeuralODE 的趨勢擴展到了圖機器學習領域。一些工作說明了如何將 GNN 模型形式化定義為連續微分方程的離散形式。在短期內,這些工作將催生新的可以規避 GNN 中的常見問題(如過平滑和過壓縮)的架構。從長遠來看,我們可能會更好地理解 GNN 的工作原理,以及如何使它們更具表現力和可解釋性。
**信號處理、神經科學和物理學領域的舊思想煥發了新生。**許多研究者認為,圖信號處理重新點燃了最近對圖機器學習的興趣,并為該領域提供了第一套分析工具(例如,廣義傅里葉變換和圖卷積)。表征理論等其它經典信號處理和物理學中的基本技術已經在2021年取得了一些重要進展,并仍有很大的潛力。
**為復雜系統建模不僅需要圖。**2021 年的諾貝爾物理學獎授予 Giorgio Parisi,以表彰他對復雜系統的研究。雖然,這樣的系統通常可以被基本地抽象為圖。但我們有時必須考慮非成對關系和動態行為等更復雜的結構。2021 年的多項工作討論了動態關系系統,并展示了如何將 GNN 擴展到高階結構(如傳統上在代數拓撲領域處理的細胞和單純復雜結構)。我們可能會看到機器學習更多地采用該領域的其它思想。
**在圖機器學習領域中,推理、公理化和泛化的問題仍然是重要的有待解決的問題。**在這一年中,我們看到了受算法推理啟發的 GNN 架構的持續進步,以及在圖結構任務上更魯棒的與分布外泛化(OOD)相關的工作。如今,我們有了與廣義 Bellman-Ford 算法顯式一致的知識圖譜推理器,以及利用分布偏移的顯式因果模型的圖分類器。可以說,這些都是未來具有廣闊前景的更魯棒、更通用的 GNN 的發展方向。在2022年,這其中許多的課題可能將取得很大的進展。
**圖在強化學習中越來越流行,但可能還有很大的探索空間。**也許并不令人意外的是,強化學習中存在許多有關圖和對稱性的問題(通常在強化學習智能體的結構中,或在對環境的表征中)。2021 年,有一些研究方向試圖利用這種結構,并取得了不同程度的成功。我們現在對如何在強化學習中利用這些對稱性有了更好的理解(包括在多智能體系統中)。然而,將智能體建模為圖似乎不需要嚴格地使用圖結構。盡管如此,我們相信,圖和幾何賦能的強化學習在 2022 年具有廣闊的發展前景。
**AlphaFold 2 是幾何機器學習領域的重要成果,也是結構生物學領域的范式轉變。**20 世紀 70 年代,諾貝爾化學獎得主 Christian Anfinsen 提出了預測蛋白質三維折疊結構的可能性。這是一項非常困難的計算任務,是結構生物學領域的「圣杯」。2021年,DeepMind 的 AlphaFold 2 打破了該問題之前的記錄,取得了讓領域專家們信服的準確率,并得到了廣泛的應用。AlphaFold 2 的核心正是一個基于等變注意力機制的幾何架構。
**GNN 及其與 Transformer 模型的融合助力了藥物研發和設計。**實際上,GNN 的起源可以追溯到 20 世紀 90 年代的計算化學工作。因此,分子圖的分析是最流行的 GNN 應用之一,也就不足為奇了。2021 年,這一領域取得了持續的顯著進展,涌現出了數十個新架構和幾項超越對比基準的成果。將 Transformer 應用于圖數據也取得了巨大的成功,它有望模擬 Transformer 架構在自然語言處理領域成功的關鍵之處:能夠跨任務泛化的大型預訓練模型。
**人工智能主導的藥物發現技術越來越多地使用了幾何和圖機器學習。**AlphaFold 2 和分子圖神經網絡的成功讓人類距離通過人工智能設計新藥的夢想更近了一步。Alphabet 的新公司 Isomorphic Labs 標志著工業界「壓寶」于這項技術。然而,為了實現這類夢想,對分子間的相互作用建模是必須解決的重要前沿課題。
**基于圖的方法也助力了量子機器學習。**對于機器學習領域的大多數專家來說,量子機器學習仍然是一個神器的小眾方向,但隨著量子計算硬件的逐漸普及,它很快就成為了現實。Alphabet X 最近的工作顯示了圖結構歸納偏置在量子機器學習架構中的優勢,他們結合了這兩個貌似不相關的領域。從長遠來看,由于量子物理系統通常擁有豐富而深奧的群對稱性,我們可以將這種性質用于量子結構設計,幾何可能會扮演更重要的角色。
計算復雜度理論在過去的三十年里發展迅速。自1990年以來所證明的一系列令人驚訝和基本的結果足以寫一本書:這些結果包括經典復雜性類(IP = PSPACE和PCP定理)的新概率定義及其對近似算法領域的影響;使用量子計算機分解整數的肖爾算法;理解為什么目前對著名的P對NP的方法不會成功;基于計算硬度的去隨機化和偽隨機理論還有偽隨機對象的漂亮構造,比如提取器和擴展器。這本書旨在描述在經典結果的背景下復雜性理論的這些最近的成就。它的目的是作為一本教科書,作為自學的參考。這意味著它必須同時迎合許多觀眾,并且是精心設計的。在本書中,我們解釋了特定概念在什么情況下是有用的,以及為什么事物以某種方式被定義。,里面有相關的輔助材料。這包括關于自動機和可計算性理論的網頁章節,基于本書的課程的詳細教學計劃,書中所有章節的草稿,以及涉及相關主題的其他在線資源的鏈接。
第一部分:基本復雜度類。本卷提供了對該領域的廣泛介紹。從圖靈機的定義和可計算性理論的基本概念開始,這卷涵蓋了基本的時間和空間復雜度類,也包括一些更現代的主題,如概率算法,交互式證明和密碼學。
第二部分:具體計算模型的下界。本部分描述了在具體模型(如電路、決策樹等)上求解算法任務所需資源的下界。乍一看,這些模型似乎與圖靈機非常不同,但深入觀察,就會發現有趣的相互聯系。
第三部分:高級主題。這部分主要介紹1980年代后期以來的發展情況。它包括平均情況復雜度、去隨機化和偽隨機化、PCP定理和逼近困難、證明復雜度和量子計算。
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
非凸優化是機器學習中的基礎問題,迭代優化方法缺乏理論支撐。普林斯頓大學助理教授Yuxin Chen一直從事非凸優化方面的研究,這份報告講述了最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。
Yuxin Chen 目前是普林斯頓大學電氣工程系的助理教授。在加入普林斯頓大學之前,他是斯坦福大學統計系的博士后學者,并在斯坦福大學完成了電子工程博士學位。他的研究興趣包括高維統計、凸與非凸優化、統計學習和信息論。他獲得了2019年AFOSR青年研究員獎。
非凸優化與統計學
近年來,利用非凸優化方法來解決統計估計和學習問題的研究工作層出不窮。由于非凸優化算法易受虛假局部極小值的影響,傳統工作通常對其持悲觀看法,而簡單的迭代方法,如梯度下降法,在實踐中已經取得了顯著的成功。然而,直到最近,這些理論基礎在很大程度上一直缺乏。這個報告展示了兩個最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。第一個故事是關于一個相位檢索問題的隨機初始化非凸方法:即使沒有仔細的初始化,像梯度下降這樣的簡單算法也可以在對數迭代次數內找到全局解。第二個故事是關于非凸低秩矩陣補全的不確定性量化。我們在非凸估計的基礎上開發了一個去偏估計器,使未知矩陣缺失項的置信區間能得到最優構造。所有這些都是通過一個“一留一出”的統計分析框架實現的,該框架在處理和解耦復雜的統計依賴方面非常強大。
摘要:
本文將優化描述為一個過程。在許多實際應用中,環境是如此復雜,以致于無法制定一個全面的理論模型,并使用經典算法理論和數學優化。采取一種穩健的方法是必要的,也是有益的,方法是應用一種不斷學習的優化方法,在觀察到問題的更多方面時從經驗中學習。這種將優化視為一個過程的觀點在各個領域都很突出,并在建模和系統方面取得了一些驚人的成功,現在它們已經成為我們日常生活的一部分。
作者介紹:
Elad Hazan是普林斯頓大學計算機科學教授。他于2015年從Technion畢業,當時他是該校運籌學副教授。他的研究重點是機器學習和優化的基本問題的算法設計和分析。他的貢獻包括合作開發用于訓練學習機器的AdaGrad算法,以及第一個用于凸優化的次線性時間算法。他曾(兩次)獲得2012年IBM Goldberg最佳論文獎,以表彰他對機器學習的次線性時間算法的貢獻。2008年,他還獲得了歐洲研究理事會(European Research Council)的一筆撥款、瑪麗?居里(Marie Curie)獎學金和谷歌研究獎(兩次)。他是計算學習協會的指導委員會成員,并擔任COLT 2015的項目主席。