信息論和統計學之間的相互作用是兩個領域發展的永恒主題。本課程將討論基于信息理論的技術如何在理解高維統計問題的極大極小風險和樣本復雜性的基本極限方面發揮關鍵作用。特別地,我們將嚴格證明通過固有低維(稀疏性、平滑性、形狀等)或不太熟悉的外在低維(功能估計)來降維的現象。為了補充理解基礎極限的目標,另一個重要的方向是開發達到統計最優的計算效率程序。
本書是Coursera統計推理課程的配套教材,是數據科學專業的一部分。然而,如果你不上這門課,這本書基本上是獨立的。這本書的一個有用的組成部分是包括Coursera課程的一系列YouTube視頻。這本書是對統計推斷做介紹。目標受眾是具有數字和計算能力的學生,他們希望將這些技能用于數據科學或統計學。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
這本書的第三版繼續演示如何應用概率論,以獲得洞察到真實的,日常統計問題和情況。這種方法最終導致了對統計程序和策略的直觀理解,最常用的是實踐工程師和科學家。這本書是為統計學或概率和統計的入門課程而寫的,為工程、計算機科學、數學、統計學和自然科學的學生而寫。因此,它假定你有初等微積分知識。
第一章簡要介紹統計學,介紹它的兩個分支,描述性統計和推理統計學,并簡要介紹該學科的歷史和一些人的早期工作為今天所做的工作奠定了基礎。描述性統計的主題將在第二章中討論。描述數據集的圖和表在本章中給出,以及用于總結數據集某些關鍵屬性的數量。要想從數據中得出結論,就必須了解數據的來源。例如,通常假設數據是來自某些總體的“隨機樣本”。為了準確理解這意味著什么,以及將樣本數據屬性與總體屬性相關聯的結果是什么,有必要對概率有一些了解,這是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。我們的概率研究將在第四章繼續,這一章涉及隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常出現的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正態、均勻、伽馬、卡方、t和F等隨機變量。在第6章中,我們研究了樣本均值和樣本方差等抽樣統計量的概率分布。我們將展示如何使用一個著名的概率理論結果,即中心極限定理,來近似樣本均值的概率分布。此外,我們還介紹了關節基礎數據來自正態分布總體的重要特殊情況下的樣本均值和樣本方差的概率分布。第7章展示了如何使用數據來估計感興趣的參數。第8章介紹了統計假設檢驗的重要主題,它涉及到使用數據來檢驗特定假設的可信性。第9章討論回歸的重要課題。簡單線性回歸(包括回歸到均值、殘差分析和加權最小二乘等子主題)和多元線性回歸都被考慮在內。第10章是方差分析。考慮了單向和雙向(有或沒有交互的可能性)問題。第11章是關于擬合優度檢驗,它可以用來檢驗所提出的模型是否與數據一致。文中給出了經典的卡方擬合優度檢驗,并將其應用于列聯表的獨立性檢驗。本章的最后一節介紹了Kolmogorov-Smirnov程序,用于測試數據是否來自特定的連續概率分布。第12章討論了非參數假設檢驗,當人們無法假設潛在的分布具有某些特定的參數形式(如正態分布)時,可以使用非參數假設檢驗。第13章考慮質量控制的主題,一個關鍵的統計技術在制造和生產過程。我們考慮了各種控制圖,不僅包括休哈特控制圖,還包括基于移動平均線和累積總和的更復雜的控制圖。第14章討論與壽命試驗有關的問題。在本章中,指數分布,而不是正態分布,起著關鍵作用。
高維概率提供了對隨機向量、隨機矩陣、隨機子空間和用于量化高維不確定性的對象的行為的洞察。借鑒了概率、分析和幾何的思想,它適用于數學、統計學、理論計算機科學、信號處理、優化等領域。它是第一個將高維概率的理論、關鍵工具和現代應用集成起來的。集中不等式是其核心,它涵蓋了Hoeffding和Chernoff等經典不等式和Bernstein等現代發展。然后介紹了基于隨機過程的強大方法,包括Slepian的、Sudakov的和Dudley的不等式,以及基于VC維的泛鏈和界。整本書包含了大量的插圖,包括經典和現代的協方差估計、聚類、網絡、半定規劃、編碼、降維、矩陣補全、機器學習、壓縮感知和稀疏回歸等結果。
這是一本教科書在高維概率與數據科學的應用展望。它是為博士和高級碩士學生和數學,統計,電子工程,計算機科學,計算生物學和相關領域的初級研究人員,誰正在尋求擴大他們的理論方法在現代研究數據科學的知識。
本教程關注信息理論在統計學中的應用。被稱為信息散度或Kullback-Leibler距離或相對熵的信息度量起著關鍵作用。涵蓋的主題包括大偏差、假設檢驗、指數族的最大似然估計、列聯表的分析以及具有“信息幾何”背景的迭代算法。同時,還介紹了通用編碼的理論,以及由通用編碼理論驅動的最小描述長度原理的統計推理。
本書致力于概率信息測度理論及其在信息源和噪聲信道編碼定理中的應用。最終的目標是全面發展香農的通信數學理論,但大部分篇幅都用于證明香農編碼定理所需的工具和方法。這些工具形成了遍歷理論和信息論的共同領域,并包含了隨機變量、隨機過程和動力系統中的信息的幾個定量概念。例如熵、互信息、條件熵、條件信息和相對熵(鑒別、Kullback-Leibler信息),以及這些量的極限標準化版本,如熵率和信息率。在考慮多個隨機對象時,除了考慮信息之外,我們還會考慮隨機對象之間的距離或變形,即一個隨機對象被另一個隨機對象表示的準確性。書的大部分與這些量的性質有關,特別是平均信息和扭曲的長期漸近行為,其中兩個樣本平均數和概率平均數是有興趣的。
深度學習在實踐中的顯著成功,從理論的角度揭示了一些重大的驚喜。特別是,簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案,盡管在沒有任何明確的努力控制模型復雜性的情況下,這些方法提供了近乎完美的訓練數據,這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解,這些方法隱含地施加正則化,過度參數化導致良性過擬合,也就是說,盡管過擬合訓練數據,但仍能準確預測。在這篇文章中,我們調查了統計學習理論的最新進展,它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子,在這些例子中,梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法,關注二次損失的回歸問題。對于這些方法,我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件,但在良好的設置下,不會損害預測精度。我們特別關注神經網絡的線性區域,其中網絡可以用一個線性模型來近似。在這種情況下,我們證明了梯度流的成功,并考慮了雙層網絡的良性過擬合,給出了精確的漸近分析,精確地證明了過參數化的影響。最后,我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。
計算機科學在建模和解決問題的方法上正在經歷一個根本性的轉變。早期的計算機科學家主要研究離散數學,專注于由有限數量的不同片段組成的圖形、樹和陣列等結構。隨著快速浮點處理、“大數據”、三維掃描和其他噪雜輸入來源的引入,現代計算機科學工作者必須設計健壯的方法來處理和理解實值數據。現在,除了離散數學,計算機科學家必須同樣流利地掌握多元微積分和線性代數的語言。
數值算法介紹了計算機科學應用的數值方法的用戶所必需的技能。本文是為高級本科生和早期研究生設計的,他們熟悉數學符號和形式,但需要在考慮算法的同時復習連續的概念。它涵蓋了廣泛的主題基礎,從數值線性代數到優化和微分方程,目標是導出標準方法,同時發展直覺和舒適所需的理解更多的文獻在每個子主題。在書中,每一章都溫和而嚴謹地介紹了數值方法、數學背景和現代計算機科學的實例。
幾乎每個部分都考慮了給定類型的數值算法的實際用例。例如,奇異值分解與統計方法、點云對齊和低秩近似一起被引入,最小二乘的討論包括機器學習的概念,如核化和正則化。本理論與應用并行介紹的目的是提高設計數值方法和每種方法在實際情況中的應用。
越來越多來自不同領域的計算機科學家使用離散數學結構來解釋概念和問題。在教學經驗的基礎上,作者提供了一個容易理解的文本,強調了離散數學的基礎及其高級課題。這篇文章展示了如何用清晰的數學語言表達精確的思想。學生發現離散數學在描述計算機科學結構和解決問題方面的重要性。他們還學習如何掌握離散數學將幫助他們發展重要的推理技能,這些技能將在他們的職業生涯中繼續發揮作用。
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材: