現代機器學習(ML)的核心是高維函數的近似。傳統的方法,如用分段多項式、小波或其他固定基函數的線性組合進行逼近,都面臨著維數(CoD)的問題。我們將提供ML的數學觀點,集中在CoD的問題。我們將討論三個主要問題: 現代ML模型的近似理論和誤差分析,梯度下降算法的動力學和定性行為,以及從連續觀點的ML。我們將看到,在連續的水平上,ML可以被表示為一系列合理的漂亮的變分和類似于方程的問題。現代的ML模型/算法,如隨機特征模型和兩層殘差神經網絡模型,都可以看作是這類連續問題的特殊離散化。我們還將提供一個適合分析高維ML模型和算法的框架,并提供無CoD的結果。最后,我們將討論現代ML成功的基本原因,以及仍有待理解的微妙和神秘之處。
//www.datasig.ac.uk/event/weiman-e
機器學習領域最大的兩個難題是:為什么它會如此成功?為什么它會如此脆弱?
這個講座將提供一個框架,從高維函數近似的角度來解開這些難題。我們將討論關于假設空間的神經網絡類型的近似泛化特性已知的和未知的,以及訓練過程的動力學和泛化特性。我們還將討論淺神經網絡模型和深神經網絡模型的相對優點,并提出建立更魯棒的機器學習模型的方法。
本課程由四個部分組成。
數學基礎。矩陣、向量、Lp范數、范數的幾何、對稱性、正確定性、特征分解。無約束優化,graident下降,凸函數,拉格朗日乘數,線性最小二乘。概率空間,隨機變量,聯合分布,多維高斯函數。
線性分類器。線性判別分析、分離超平面、多類分類、貝葉斯決策規則、貝葉斯決策規則的幾何、線性回歸、邏輯回歸、感知器算法、支持向量機、非線性變換。
學習理論。偏差與方差、訓練與測試、泛化、PAC框架、Hoeffding不等式、VC維。
魯棒性。對抗性攻擊,有目標和無目標攻擊,最小距離攻擊,最大損失攻擊,規則攻擊。通過納微擾。支持向量機的魯棒性。
//www.math.arizona.edu/~hzhang/math574.html
隨著信息技術的飛速發展,在各個領域產生了大量的科學和商業數據。例如,人類基因組數據庫項目已經收集了千兆字節的人類遺傳密碼數據。萬維網提供了另一個例子,它擁有由數百萬人使用的文本和多媒體信息組成的數十億Web頁面。
本課程涵蓋了現代數據科學技術,包括基本的統計學習理論及其應用。將介紹各種數據挖掘方法、算法和軟件工具,重點在概念和計算方面。將涵蓋生物信息學、基因組學、文本挖掘、社交網絡等方面的應用。
本課程著重于現代機器學習的統計分析、方法論和理論。它是為學生誰想要實踐先進的機器學習工具和算法,也了解理論原理和統計性質的算法。主題包括回歸、分類、聚類、降維和高維分析。
有幾個主要的主題貫穿全書。這些主題主要是對兩個不同類別的比較。當你閱讀的時候,很重要的一點是你要明白書的不同部分適合什么類別,不適合什么類別。
統計與因果。即使有無限多的數據,我們有時也無法計算一些因果量。相比之下,很多統計是關于在有限樣本中解決不確定性的。當給定無限數據時,沒有不確定性。然而,關聯,一個統計概念,不是因果關系。在因果推理方面還有更多的工作要做,即使在開始使用無限數據之后也是如此。這是激發因果推理的主要區別。我們在這一章已經做了這樣的區分,并將在整本書中繼續做這樣的區分。
識別與評估。因果效應的識別是因果推論所獨有的。這是一個有待解決的問題,即使我們有無限的數據。然而,因果推理也與傳統統計和機器學習共享估計。我們將主要從識別因果效應(在第2章中,4和6)之前估計因果效應(第7章)。例外是2.5節和節4.6.2,我們進行完整的例子估計給你的整個過程是什么樣子。
介入與觀察。如果我們能進行干預/實驗,因果效應的識別就相對容易了。這很簡單,因為我們可以采取我們想要衡量因果效應的行動,并簡單地衡量我們采取行動后的效果。觀測數據變得更加復雜,因為數據中幾乎總是引入混雜。
假設。將會有一個很大的焦點是我們用什么假設來得到我們得到的結果。每個假設都有自己的框來幫助人們注意到它。清晰的假設應該使我們很容易看到對給定的因果分析或因果模型的批評。他們希望,清晰地提出假設將導致對因果關系的更清晰的討論。
現代機器學習有兩個明顯的特點:它可以非常強大,也可以非常脆弱。前者不需要贅述。后者指的是現代機器學習算法的性能敏感地依賴于超參數的選擇。這個演講集中在機器學習的連續公式是“適定的”。我們將機器學習和相關的優化過程描述為表現良好的變分問題和類偏微分問題,并證明一些最流行的現代機器學習算法可以作為這些連續問題的離散化恢復。實驗結果表明,該方法對不同的超參數選擇具有更強的魯棒性。我們還討論了如何在這個框架下開發新的算法。
Andrew Gordon Wilson,紐約大學Courant數學科學研究所和數據科學中心助理教授,曾擔任AAAI 2018、AISTATS 2018、UAI 2018、NeurIPS 2018、AISTATS 2019、ICML 2019、UAI 2019、NeurIPS 2019、AAAI 2020、ICLR 2020的區域主席/SPC以及ICML 2019、2020年EXO主席。 個人主頁://cims.nyu.edu/~andrewgw/
貝葉斯深度學習與概率模型構建
貝葉斯方法的關鍵區別屬性是間隔化,而不是使用單一的權重設置。貝葉斯間隔化尤其可以提高現代深度神經網絡的準確性和標度,這些數據通常不充分指定,并可以代表許多引人注目但不同的解決方案。研究表明,深層的綜合系統提供了一種有效的近似貝葉斯間隔化機制,并提出了一種相關的方法,在沒有顯著開銷的情況下,通過在吸引 basins 內間隔化來進一步改進預測分布。我們還研究了神經網絡權值的模糊分布所隱含的先驗函數,從概率的角度解釋了這些模型的泛化特性。從這個角度出發,我們解釋了一些神秘而又不同于神經網絡泛化的結果,比如用隨機標簽擬合圖像的能力,并表明這些結果可以用高斯過程重新得到。我們還表明貝葉斯平均模型減輕了雙下降,從而提高了靈活性,提高了單調性能。最后,我們提供了一個貝葉斯角度的調溫校正預測分布。
視頻地址:
專注于識別和解決應用中出現的凸優化問題。凸集、函數和優化問題。凸分析基礎。最小二乘、線性和二次規劃、半定規劃、極大極小、極值體積等問題。最優性條件,對偶理論,備選定理,及應用。內點法。應用于信號處理,統計和機器學習,控制和機械工程,數字和模擬電路設計,和金融。
非凸優化是機器學習中的基礎問題,迭代優化方法缺乏理論支撐。普林斯頓大學助理教授Yuxin Chen一直從事非凸優化方面的研究,這份報告講述了最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。
Yuxin Chen 目前是普林斯頓大學電氣工程系的助理教授。在加入普林斯頓大學之前,他是斯坦福大學統計系的博士后學者,并在斯坦福大學完成了電子工程博士學位。他的研究興趣包括高維統計、凸與非凸優化、統計學習和信息論。他獲得了2019年AFOSR青年研究員獎。
非凸優化與統計學
近年來,利用非凸優化方法來解決統計估計和學習問題的研究工作層出不窮。由于非凸優化算法易受虛假局部極小值的影響,傳統工作通常對其持悲觀看法,而簡單的迭代方法,如梯度下降法,在實踐中已經取得了顯著的成功。然而,直到最近,這些理論基礎在很大程度上一直缺乏。這個報告展示了兩個最近關于非凸統計估計的故事,它們強調了統計模型在實現有效的非凸優化中的重要作用。第一個故事是關于一個相位檢索問題的隨機初始化非凸方法:即使沒有仔細的初始化,像梯度下降這樣的簡單算法也可以在對數迭代次數內找到全局解。第二個故事是關于非凸低秩矩陣補全的不確定性量化。我們在非凸估計的基礎上開發了一個去偏估計器,使未知矩陣缺失項的置信區間能得到最優構造。所有這些都是通過一個“一留一出”的統計分析框架實現的,該框架在處理和解耦復雜的統計依賴方面非常強大。
機器學習是計算機科學中增長最快的領域之一,具有深遠的應用。本書的目的是介紹機器學習,以及它所提供的算法范例。本書對機器學習的基本原理和將這些原理轉化為實際算法的數學推導提供了理論解釋。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的界限。本文面向高級本科生或剛畢業的學生,使統計學、計算機科學、數學和工程學領域的學生和非專業讀者都能接觸到機器學習的基本原理和算法。
//www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html
概述
機器學習是指自動檢測數據中有意義的模式。在過去的幾十年里,它已經成為幾乎所有需要從大數據集中提取信息的任務的通用工具。我們被一種基于機器學習的技術包圍著:搜索引擎學習如何給我們帶來最好的結果(同時投放有利可圖的廣告),反垃圾郵件軟件學習如何過濾我們的電子郵件信息,信用卡交易被一種學習如何偵測欺詐的軟件保護著。數碼相機學會識別人臉,智能手機上的智能個人輔助應用學會識別語音指令。汽車配備了使用機器學習算法構建的事故預防系統。機器學習還廣泛應用于生物信息學、醫學和天文學等科學領域。
所有這些應用程序的一個共同特征是,與計算機的更傳統使用相比,在這些情況下,由于需要檢測的模式的復雜性,人類程序員無法提供關于這些任務應該如何執行的明確、詳細的規范。以智慧生物為例,我們的許多技能都是通過學習我們的經驗(而不是遵循給我們的明確指示)而獲得或改進的。機器學習工具關注的是賦予程序“學習”和適應的能力。
這本書的第一個目標是提供一個嚴格的,但易于遵循,介紹機器學習的主要概念: 什么是機器學習?
本書的第二個目標是介紹幾種關鍵的機器學習算法。我們選擇展示的算法一方面在實踐中得到了成功應用,另一方面提供了廣泛的不同的學習技術。此外,我們特別關注適合大規模學習的算法(又稱“大數據”),因為近年來,我們的世界變得越來越“數字化”,可用于學習的數據量也在急劇增加。因此,在許多應用中數據量大,計算時間是主要瓶頸。因此,我們明確地量化了學習給定概念所需的數據量和計算時間。
目錄:
Part I: Foundations
Part II: From Theory to Algorithms
Part III: Additional Learning Models
Part IV: Advanced Theory
Appendices