近年來,隨機矩陣理論(RMT)已經成為學習理論的前沿,作為一種工具來理解它的一些最重要的挑戰。從深度學習模型的泛化到優化算法的精確分析,RMT提供了易于分析的模型。
第一部分:介紹和經典隨機矩陣理論集合
本節介紹兩個經典的隨機矩陣理論集合,高斯正交集合和Wishart矩陣。通過數值實驗,我們將介紹隨機矩陣理論中一些最重要的分布,如半圓和馬爾欽科-帕斯圖,以及一些關鍵的概念,如通用性。 圖片
第2部分:隨機矩陣理論概論:斯蒂爾吉斯和R變換 本節介紹隨機矩陣理論中的一些核心證明技術: Stieltjes和R變換。
第3部分:數值算法分析 本節主要介紹隨機矩陣理論在數值算法分析中的應用。
第4部分:為什么深度學習有效? 本節討論深度神經網絡泛化的隨機矩陣理論模型。
這項工作的目標是向讀者介紹加權有限狀態自動機及其在機器學習中的應用。我首先介紹了機器學習中自動機的使用,然后介紹了受體、換能器和它們的相關屬性。然后詳細描述了加權自動機的許多核心運算。在此基礎上,通過解釋自動分化及其在加權自動機中的應用,進一步向研究前沿邁進。最后一節介紹幾個擴展示例,以加深對加權自動機及其操作的熟悉,以及它們在機器學習中的使用。
機器學習(ML)最近的快速進展提出了一些科學問題,挑戰了該領域長期存在的教條。最重要的謎題之一是過度參數化模型的良好經驗泛化。過度參數化的模型對于訓練數據集的大小來說過于復雜,這導致它們完美地擬合(即插值)訓練數據,而訓練數據通常是有噪聲的。這種對噪聲數據的插值傳統上與有害的過擬合有關,但最近觀察到,從簡單的線性模型到深度神經網絡的各種插值模型在新測試數據上都能很好地泛化。事實上,最近發現的雙下降現象表明,在測試性能上,高度過度參數化的模型往往比最好的欠參數化模型更好。理解這種過度參數化的學習需要新的理論和基礎的實證研究,即使是最簡單的線性模型。這種理解的基礎已經在最近對過度參數化線性回歸和相關統計學習任務的分析中奠定,這導致了雙下降的精確分析特征。本文簡要概述了這一新興的過度參數化ML理論(以下簡稱為TOPML),并從統計信號處理的角度解釋了這些最新發現。我們強調將TOPML研究領域定義為現代ML理論的一個子領域的獨特方面,并概述了仍然存在的有趣的未決問題。
//www.zhuanzhi.ai/paper/182ad6c4b994aa517d10319504e9bb3a
引言
深度學習技術已經徹底改變了許多工程和科學問題的解決方式,使數據驅動方法成為實踐成功的主要選擇。當前的深度學習方法是經典機器學習(ML)設置的極限開發版本,以前這些設置受到有限的計算資源和訓練數據可用性不足的限制。目前已建立的實踐是從一組訓練示例中學習高度復雜的深度神經網絡(DNN),這些示例雖然本身很大,但相對于DNN中的參數數量來說相當小。雖然這種過度參數化的DNN在ML實踐中是最先進的,但這種實際成功的根本原因仍不清楚。特別神秘的是兩個經驗觀察結果: 1) 模型中添加更多參數的明顯益處(在泛化方面),2) 這些模型即使完美地擬合了噪聲訓練數據,也能很好地泛化。這些觀察結果在現代ML的不同結構中都得到了體現——當它們首次被用于復雜的、最先進的DNN時(Neyshabur et al., 2014; Zhang et al., 2017)),它們已經在更簡單的模型家族中出土,包括寬神經網絡、核方法,甚至線性模型(Belkin et al., 2018b; Spigler et al., 2019; Geiger et al., 2020; Belkin et al., 2019a)。
在本文中,我們綜述了最近發展起來的過度參數化機器學習理論(簡稱TOPML),該理論建立了與訓練數據插值(即完美擬合)相關的現象相關的基本數學原理。我們很快將提供一個過度參數化ML的正式定義,但在這里描述一些模型必須滿足的顯著屬性,以合格為過度參數化。首先,這樣的模型必須是高度復雜的,因為它的獨立可調參數的數量要遠遠高于訓練數據集中的示例數量。其次,這樣的模型絕不能以任何方式被明確地規范化。DNN是過度參數化模型的常見實例,這些模型通常沒有明確的正則化訓練(參見,例如,Neyshabur et al., 2014; Zhang et al., 2017)。這種過度參數化和缺乏顯式正則化的組合產生了一個可插值訓練示例的學習模型,因此在任何訓練數據集上都實現了零訓練誤差。訓練數據通常被認為是來自底層數據類(即噪聲數據模型)的噪聲實現。因此,插值模型完美地擬合了基礎數據和訓練示例中的噪聲。傳統的統計學習總是將噪聲的完美擬合與較差的泛化性能聯系在一起(例如,Friedman et al., 2001, p. 194);因此,值得注意的是,這些插值解決方案通常能很好地泛化到訓練數據集以外的新測試數據。
在本文中,我們回顧了TOPML研究的新興領域,主要關注在過去幾年發展的基本原理。與最近的其他綜述相比(Bartlett et al., 2021; Belkin, 2021),我們從更基本的信號處理角度來闡明這些原則。形式上,我們將TOPML研究領域定義為ML理論的子領域,其中1. 明確考慮訓練數據的精確或近似插值 2. 相對于訓練數據集的大小,學習模型的復雜性較高。
本文組織如下。在第2節中,我們介紹了過度參數化學習中插值解的基礎知識,作為一個機器學習領域,它超出了經典偏方差權衡的范圍。在第3節中,我們概述了最近關于過度參數化回歸的結果。在這里,我們從信號處理的角度直觀地解釋了過度參數化學習的基本原理。在第4節中,我們回顧了關于過度參數化分類的最新發現。在第5節中,我們概述了最近關于過度參數化子空間學習的工作。在第6節中,我們考察了最近關于回歸和分類以外的過度參數化學習問題的研究。在第7節中,我們討論了過度參數化ML理論中的主要開放問題。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
《量子信息理論》這本書基本上是自成體系的,主要關注構成這門學科基礎的基本事實的精確數學公式和證明。它是為研究生和研究人員在數學,計算機科學,理論物理學尋求發展一個全面的理解關鍵結果,證明技術,和方法,與量子信息和計算理論的廣泛研究主題相關。本書對基礎數學,包括線性代數,數學分析和概率論有一定的理解。第一章總結了這些必要的數學先決條件,并從這個基礎開始,這本書包括清晰和完整的證明它提出的所有結果。接下來的每一章都包含了具有挑戰性的練習,旨在幫助讀者發展自己的技能,發現關于量子信息理論的證明。
這是一本關于量子信息的數學理論的書,專注于定義、定理和證明的正式介紹。它主要是為對量子信息和計算有一定了解的研究生和研究人員準備的,比如將在本科生或研究生的入門課程中涵蓋,或在目前存在的關于該主題的幾本書中的一本中。量子信息科學近年來有了爆炸性的發展,特別是在過去的二十年里。對這個問題的全面處理,即使局限于理論方面,也肯定需要一系列的書,而不僅僅是一本書。與這一事實相一致的是,本文所涉及的主題的選擇并不打算完全代表該主題。量子糾錯和容錯,量子算法和復雜性理論,量子密碼學,和拓撲量子計算是在量子信息科學的理論分支中發現的許多有趣的和基本的主題,在這本書中沒有涵蓋。然而,當學習這些主題時,人們很可能會遇到本書中討論的一些核心數學概念。
對機器學習優化和無約束凸優化進行簡明導論介紹。
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
計算機科學在建模和解決問題的方法上正在經歷一個根本性的轉變。早期的計算機科學家主要研究離散數學,專注于由有限數量的不同片段組成的圖形、樹和陣列等結構。隨著快速浮點處理、“大數據”、三維掃描和其他噪雜輸入來源的引入,現代計算機科學工作者必須設計健壯的方法來處理和理解實值數據。現在,除了離散數學,計算機科學家必須同樣流利地掌握多元微積分和線性代數的語言。
數值算法介紹了計算機科學應用的數值方法的用戶所必需的技能。本文是為高級本科生和早期研究生設計的,他們熟悉數學符號和形式,但需要在考慮算法的同時復習連續的概念。它涵蓋了廣泛的主題基礎,從數值線性代數到優化和微分方程,目標是導出標準方法,同時發展直覺和舒適所需的理解更多的文獻在每個子主題。在書中,每一章都溫和而嚴謹地介紹了數值方法、數學背景和現代計算機科學的實例。
幾乎每個部分都考慮了給定類型的數值算法的實際用例。例如,奇異值分解與統計方法、點云對齊和低秩近似一起被引入,最小二乘的討論包括機器學習的概念,如核化和正則化。本理論與應用并行介紹的目的是提高設計數值方法和每種方法在實際情況中的應用。
基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用,我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始,證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后,我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置,我們首先給出確定性一階方法收斂速度的已知結果,然后是最優隨機和隨機梯度格式的一般理論分析,以及隨機一階方法的概述。然后,我們討論了相當一般的一類非凸問題,如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數,這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。
本書介紹了數據科學的數學和算法基礎,包括機器學習、高維幾何和大型網絡的分析。主題包括高維數據的反直覺性質、重要的線性代數技術,如奇異值分解、隨機游動和馬爾科夫鏈理論、機器學習的基本原理和重要算法、聚類算法和分析、大型網絡的概率模型、表示學習,包括主題建模和非負矩陣分解、小波和壓縮感知。本文提出了一種正概率技術,包括大數定律、尾部不等式、隨機投影分析、機器學習中的泛化保證以及分析大隨機圖相變的矩量法。此外,還討論了重要的結構和復雜性度量,如矩陣范數和vc維。本書適用于設計和分析數據算法的本科和研究生課程。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。