凸優化提供了一個統一的框架,以獲得數據分析問題的數值解決方案,并在充分理解的計算成本下,以可證明的統計保證正確性。
為此,本課程回顧了大數據之后在凸優化和統計分析方面的最新進展。我們提供了新興的凸數據模型及其統計保證的概述,描述了可擴展的數值求解技術,如隨機,一階和原對偶方法。在整個課程中,我們將數學概念運用到大規模的應用中,包括機器學習、信號處理和統計。
在整個課程中,我們將數學概念運用到大規模的應用中,包括機器學習、信號處理和統計。
//www.epfl.ch/labs/lions/teaching/ee-556-mathematics-of-data-from-theory-to-computation/
本課程包括以下主題
第一講:緒論。模型和數據的作用。最大似然公式。估計和預測的樣本復雜度界限。
第二講:計算的作用。優化算法的挑戰。最優測度。結構優化。梯度下降法。梯度下降的收斂速度。
第三講:收斂速度的最優性。加速梯度下降法。全部復雜性的概念。隨機梯度下降法。
第四講:簡潔的信號模型。壓縮傳感。估計和預測的樣本復雜度界限。非光滑優化對優化算法的挑戰。
第五講:近端算子介紹。近端梯度方法。線性最小化神諭。約束優化的條件梯度法。
第六講:時間-數據的權衡。方差減少以改進權衡。
第七講:深度學習的數學介紹。雙下降曲線和過度參數化。隱式規則化。
第八講:非凸優化中的結構。最優的措施。逃避鞍點。自適應梯度方法。
第九講:對抗性機器學習和生成式對抗性網絡(GANs)。Wasserstein GAN。極大極小優化的難點。
第十講: 原對偶優化- i:極大極小問題的基礎。梯度下降-上升法的陷阱。
第十一講: 原對偶優化- ii:額外梯度法。Chambolle-Pock算法。隨機非方法。
第十二講:原對偶III:拉格朗日梯度法。拉格朗日條件梯度法。
計算數學
1947 年 Von Neumann 和 Goldstine 在《美國數學會通報》發表了題為“高階矩 陣的數值求逆”的著名論文, 開啟了現代計算數學的研究。一般來說, 計算數學主要研究如何求出數學問題的近似解 (數值解), 包括算法 的設計、分析與計算機實現。計算數學主要研究內容: 數值代數, 數值逼近, 數值微積分, 微分方程數值解, 數值優化等。
//math.ecnu.edu.cn/~jypan/Teaching/MNA/index.html
計算數學的主要任務
? 算法設計: 構造求解各種數學問題的數值方法 ? 算法分析: 收斂性、穩定性、復雜性、計算精度等 ? 算法實現: 編程實現、軟件開發
好的數值方法一般需滿足以下幾點 ? 有可靠的理論分析, 即收斂性、穩定性等有數學理論保證 ? 有良好的計算復雜性 (時間和空間) ? 易于在計算機上實現 ? 要有具體的數值試驗來證明是行之有效的
課程主要內容
線性方程組 的直接解法 (講義第二講)
線性方程組的迭代方法 (講義第六講)
線性最小二乘問題 的數值算法 (講義第三講)
非對稱 矩陣特征值 計算 (講義第四講)
對稱矩陣 矩陣特征值 計算 (講義第五講)
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。
深度學習的研究在許多機器學習任務上產生了最先進的結果。大多數的進步都是由直覺和通過試驗和錯誤進行的大規模探索推動的。因此,目前理論落后于實踐。ML社區并不完全理解為什么最好的方法是有效的。來自UIUC Matus Telgarsky教授撰寫了關于深度學習理論筆記,值得關注。
地址: //mjt.cs.illinois.edu/dlt/
這些筆記的哲學。兩個關鍵的觀點決定了到目前為止所包含的內容。 我的目標是對文獻中出現的東西提供簡化的證明,理想情況下,把困難的東西簡化成適合一節課的東西。 我主要關注通過標準(通常是ReLU)前饋網絡實現IID數據的二進制分類的低測試誤差的經典觀點。
內容組織:
近似 (從第1節開始): 給定一個分類問題,存在一個深度網絡,在分布上實現低誤差。
優化 (從第9節開始): 對于一個分類問題,給定一個有限的訓練集,存在尋找低訓練誤差和低復雜度的預測器的算法。
泛化 (從第16節開始): 對于低復雜度的網絡,訓練和測試誤差之間的差距很小。
線性代數是計算和數據科學家的基本工具之一。這本書“高級線性代數:基礎到前沿”(ALAFF)是一個替代傳統高級線性代數的計算研究生課程。重點是數值線性代數,研究理論、算法和計算機算法如何相互作用。這些材料通過將文本、視頻、練習和編程交織在一起來保持學習者的參與性。
我們在不同的設置中使用了這些材料。這是我們在德克薩斯大學奧斯汀分校名為“數值分析:線性代數”的課程的主要資源,該課程由計算機科學、數學、統計和數據科學、機械工程以及計算科學、工程和數學研究生課程提供。這門課程也通過UT-Austin計算機科學碩士在線課程提供“高級線性代數計算”。最后,它是edX平臺上名為“高級線性代數:基礎到前沿”的大規模在線開放課程(MOOC)的基礎。我們希望其他人可以將ALAFF材料重新用于其他學習設置,無論是整體還是部分。
為了退怕學習者,我們采取了傳統的主題的數字線性代數課程,并組織成三部分。正交性,求解線性系統,以及代數特征值問題。
第一部分:正交性探討了正交性(包括規范的處理、正交空間、奇異值分解(SVD)和解決線性最小二乘問題)。我們從這些主題開始,因為它們是其他課程的先決知識,學生們經常與高等線性代數并行(甚至在此之前)進行學習。
第二部分:求解線性系統集中在所謂的直接和迭代方法,同時也引入了數值穩定性的概念,它量化和限定了在問題的原始陳述中引入的誤差和/或在計算機算法中發生的舍入如何影響計算的正確性。
第三部分:代數特征值問題,重點是計算矩陣的特征值和特征向量的理論和實踐。這和對角化矩陣是密切相關的。推廣了求解特征值問題的實用算法,使其可以用于奇異值分解的計算。本部分和本課程以在現代計算機上執行矩陣計算時如何實現高性能的討論結束。
UvA - Machine Learning 1課程是阿姆斯特丹大學人工智能碩士課程的一部分。該課程由阿姆斯特丹機器學習實驗室開發,目前由Erik Bekkers博士提供。
UvA - Machine Learning 1的課程主頁(//uvaml1.github.io)包括講課的鏈接(Youtube頻道)和相應的pdf注釋幻燈片。該系列講座密切關注Bishop的《模式識別和機器學習》一書。每個視頻的開頭都有相關章節。
課程內容如下:
第一周
第二周
第三周
第四周:
第五周
第六周
第七周
課程視頻和PDF下載鏈接在下方的PDF文件中
多模態機器學習(MMML)是一個充滿活力的多學科研究領域,通過整合和建模多種交流模態(包括語言、聲音和視覺信息)來實現人工智能的一些原始目標。隨著對視聽語音識別的初步研究,以及最近的語言和視覺項目,如圖像和視頻字幕,這個研究領域給多模態研究人員帶來了一些獨特的挑戰,因為數據的異質性和模式之間經常發現的偶然性。本課程將教授與MMML相關的基本數學概念,包括多模態對齊與融合、異質表示學習和多流時間建模。我們還將回顧最近描述最先進的MMML概率模型和計算算法的論文,并討論當前和即將面臨的挑戰。
本課程將介紹機器學習和深度學習中與多模態機器學習中的五個主要挑戰相關的基本數學概念:(1)多模態表示學習,(2)平移與映射,(3)模態對齊,(4)多模態融合和(5)協同學習。這些包括但不限于,多模態自動編碼器,深度典型相關分析,多核學習,注意力模型和多模態遞歸神經網絡。本課程還將討論MMML的許多最新應用,包括多模式的情感識別、圖像和視頻字幕以及跨模式的多媒體檢索。
課程目錄:
//www.math.arizona.edu/~hzhang/math574.html
隨著信息技術的飛速發展,在各個領域產生了大量的科學和商業數據。例如,人類基因組數據庫項目已經收集了千兆字節的人類遺傳密碼數據。萬維網提供了另一個例子,它擁有由數百萬人使用的文本和多媒體信息組成的數十億Web頁面。
本課程涵蓋了現代數據科學技術,包括基本的統計學習理論及其應用。將介紹各種數據挖掘方法、算法和軟件工具,重點在概念和計算方面。將涵蓋生物信息學、基因組學、文本挖掘、社交網絡等方面的應用。
本課程著重于現代機器學習的統計分析、方法論和理論。它是為學生誰想要實踐先進的機器學習工具和算法,也了解理論原理和統計性質的算法。主題包括回歸、分類、聚類、降維和高維分析。
本課程主要包括非光滑優化和一階近似分裂方法的主題。這包括基于梯度的方法(子梯度法、近端梯度法、加速梯度法)、算子分裂方法(增廣拉格朗日法、乘子交替方向法、單調算子和算子分裂格式)和(可能的)內點算法。還將介紹非凸優化和隨機優化。
目錄內容:
專注于識別和解決應用中出現的凸優化問題。凸集、函數和優化問題。凸分析基礎。最小二乘、線性和二次規劃、半定規劃、極大極小、極值體積等問題。最優性條件,對偶理論,備選定理,及應用。內點法。應用于信號處理,統計和機器學習,控制和機械工程,數字和模擬電路設計,和金融。