數據科學概率導論
這本書是大學概率論的入門教材。它有一個使命: 闡明我們在科學和工程中使用的概率工具的動機、直覺和含義。從超過五年的課程教學中,我提煉出了我認為是概率方法的核心。我把這本書放在數據科學的背景下,以強調數據(計算)和概率(理論)在我們這個時代的不可分離性。
地址: //probability4datascience.com/index.html
概率論是電子工程和計算機科學中最有趣的學科之一。它將我們喜愛的工程原理與現實聯系起來,這是一個充滿不確定性的世界。然而,因為概率是一門非常成熟的學科,單是本科生的課本就可能在圖書館的書架上擺滿好幾排書。當文學如此豐富時,挑戰就變成了一個人如何在深入細節的同時洞察到洞察力。例如,你們中的許多人以前使用過正態隨機變量,但你們是否想過“鐘形”是從哪里來的?每一門概率課都會教你拋硬幣,但是“拋硬幣”在今天的機器學習中有什么用呢?數據科學家使用泊松隨機變量來模擬互聯網流量,但是這個漂亮的泊松方程是從哪里來的呢?這本書的目的是填補這些知識的差距,這是所有數據科學學生必不可少的。
這就引出了本書的三個目標。(i) 動機: 在數學定義、定理、方程的海洋中,為什么我們要把時間花在這個主題上,而不是其他的? (ii) 直覺: 當進行推導時,在這些方程之外是否有幾何解釋或物理學?(iii) 言外之意: 當我們學習了一個話題后,我們可以解決哪些新問題?本書的目標讀者是電子工程和計算機科學專業的本科生三、四年級和一年級研究生。先決條件是標準的本科線性代數和微積分,除了需要傅里葉變換的特征函數部分。一門信號與系統的本科課程就足夠了,即使是在學習這本書的同時選修。
這本書的篇幅適合兩學期的課程。教師被鼓勵使用最適合他們的課程的章節集。例如,基本概率課程可以使用第1-5章作為主干。關于樣本統計的第6章適合希望獲得概率收斂理論見解的學生。關于回歸的第七章和關于估計的第八章最適合學習機器學習和信號處理的學生。第9章討論了對現代數據分析至關重要的置信區間和假設檢驗。第10章介紹了隨機過程。我的隨機過程方法更適合于信息處理和通信系統,這通常與電氣工程專業的學生更相關。
本書特色:
涵蓋范圍廣,從經典的概率論到現代數據分析技術 概念的幾何和圖形解釋 與MATLAB / Python緊密集成 機器學習的實際應用
目錄內容
Chapter 1 Mathematical Background Chapter 2 Probability Chapter 3 Discrete Random Variables Chapter 4 Continuous Random Variables Chapter 5 Joint Distributions Chapter 6 Sample Statistics Chapter 7 Regression Chapter 8 Estimation Chapter 9 Confidence and Hypothesis Chapter 10 Random Processes
書籍主頁://cs.nyu.edu/~mohri/mlbook/
《機器學習基礎》(Foundations of Machine Learning)是對機器學習的通用簡介,可作為研究者的參考書和學生的教科書來使用。該書覆蓋機器學習領域的基礎現代話題,同時提供討論和算法證明所需的理論基礎與概念工具。這本書還介紹了算法應用的多個關鍵方面。
這本書旨在呈現最新的理論工具和概念,同時提供準確的證明。該書寫作風格力求簡潔,同時討論了機器學習領域的一些關鍵復雜話題,以及多個開放性研究問題。一些經常與其他話題混合的話題以及沒有得到足夠關注的話題在本書中得到了單獨討論和重視,例如,這本書專門有一個章節講多類別分類、排序和回歸。
這本書覆蓋了機器學習領域的大量重要話題,但作者也省略了個別話題,如圖模型和流行的神經網絡,這是出于簡潔性的考慮,以及這些方法暫時缺少一些堅實的理論保證。
什么樣的讀者適合讀
這本書針對的讀者群體是機器學習、統計學及相關領域的學生和研究者。它可用作機器學習研究生和高年級本科生的教材,或者科研討論會的參考書。
本書前三四章主要講理論,為后續章節夯實理論基礎。其他章各自獨立,第 6 和 13 章除外,第六章介紹了和后面章節有關的一些概念,第 13 章和 第 12 章關聯度很高。每一章的最后都有一系列練習題(附完整答案)。
本書希望讀者熟悉線性代數、概率和算法分析。但是,為了進一步幫助到大家,這本書的擴展附錄中還包括:對線性代數的概述、凸優化簡介、概率論簡介、對書中算法分析和討論有用的一些集中不等式(Concentration inequality),以及信息論簡介。
第二版的小目標
Mehryar Mohri 等作者的目標是為多個主題和領域提供統一的內容框架,而不是其它書籍采用的專題展示。這些專題書籍只描述某個特殊的視角或主題,例如貝葉斯視角或核方法主題。這本書有比較強的理論基礎,證明與分析也會著重強調,因此它相比很多書籍都有較大的差別。
在第二版中,作者們更新了整本書。其主要改變體現在很多章節的寫作風格、新的圖表可視化、簡化的內容與推導過程、對現有章節的一些補充,特別是第 6 章與第 17 章等一些新的章節。此外,作者們新添了完整的章節「模型選擇」(第四章),這是非常重要的一個主題,但以前只簡要討論過。
對于第二版的最后,作者在附錄中添加了很多新內容,包括線性代數和概率論等數學基礎,也包括了信息論等機器學習基礎。另外,作者為新章節提供了很多練習題與解決方案,讀者也可以做做習題。
補充資料
這本書提供了很多材料,其中大多數都是紐約大學 Mehryar Mohri 的課程機器學習基礎(Foundations of Machine Learning)提供的。這門課已經開展了 14 年,這本書也是該課程的內容概述。Mehryar Mohri 表示,正因為該課程學生的一些好建議,第二版才能最終出版。
課程主頁:
該課程主頁上有額外的家庭作業、課件和項目等資料,配合書籍使用效果更佳。
這本書的第三版繼續演示如何應用概率論,以獲得洞察到真實的,日常統計問題和情況。這種方法最終導致了對統計程序和策略的直觀理解,最常用的是實踐工程師和科學家。這本書是為統計學或概率和統計的入門課程而寫的,為工程、計算機科學、數學、統計學和自然科學的學生而寫。因此,它假定你有初等微積分知識。
第一章簡要介紹統計學,介紹它的兩個分支,描述性統計和推理統計學,并簡要介紹該學科的歷史和一些人的早期工作為今天所做的工作奠定了基礎。描述性統計的主題將在第二章中討論。描述數據集的圖和表在本章中給出,以及用于總結數據集某些關鍵屬性的數量。要想從數據中得出結論,就必須了解數據的來源。例如,通常假設數據是來自某些總體的“隨機樣本”。為了準確理解這意味著什么,以及將樣本數據屬性與總體屬性相關聯的結果是什么,有必要對概率有一些了解,這是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。我們的概率研究將在第四章繼續,這一章涉及隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常出現的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正態、均勻、伽馬、卡方、t和F等隨機變量。在第6章中,我們研究了樣本均值和樣本方差等抽樣統計量的概率分布。我們將展示如何使用一個著名的概率理論結果,即中心極限定理,來近似樣本均值的概率分布。此外,我們還介紹了關節基礎數據來自正態分布總體的重要特殊情況下的樣本均值和樣本方差的概率分布。第7章展示了如何使用數據來估計感興趣的參數。第8章介紹了統計假設檢驗的重要主題,它涉及到使用數據來檢驗特定假設的可信性。第9章討論回歸的重要課題。簡單線性回歸(包括回歸到均值、殘差分析和加權最小二乘等子主題)和多元線性回歸都被考慮在內。第10章是方差分析。考慮了單向和雙向(有或沒有交互的可能性)問題。第11章是關于擬合優度檢驗,它可以用來檢驗所提出的模型是否與數據一致。文中給出了經典的卡方擬合優度檢驗,并將其應用于列聯表的獨立性檢驗。本章的最后一節介紹了Kolmogorov-Smirnov程序,用于測試數據是否來自特定的連續概率分布。第12章討論了非參數假設檢驗,當人們無法假設潛在的分布具有某些特定的參數形式(如正態分布)時,可以使用非參數假設檢驗。第13章考慮質量控制的主題,一個關鍵的統計技術在制造和生產過程。我們考慮了各種控制圖,不僅包括休哈特控制圖,還包括基于移動平均線和累積總和的更復雜的控制圖。第14章討論與壽命試驗有關的問題。在本章中,指數分布,而不是正態分布,起著關鍵作用。
高維概率提供了對隨機向量、隨機矩陣、隨機子空間和用于量化高維不確定性的對象的行為的洞察。借鑒了概率、分析和幾何的思想,它適用于數學、統計學、理論計算機科學、信號處理、優化等領域。它是第一個將高維概率的理論、關鍵工具和現代應用集成起來的。集中不等式是其核心,它涵蓋了Hoeffding和Chernoff等經典不等式和Bernstein等現代發展。然后介紹了基于隨機過程的強大方法,包括Slepian的、Sudakov的和Dudley的不等式,以及基于VC維的泛鏈和界。整本書包含了大量的插圖,包括經典和現代的協方差估計、聚類、網絡、半定規劃、編碼、降維、矩陣補全、機器學習、壓縮感知和稀疏回歸等結果。
這是一本教科書在高維概率與數據科學的應用展望。它是為博士和高級碩士學生和數學,統計,電子工程,計算機科學,計算生物學和相關領域的初級研究人員,誰正在尋求擴大他們的理論方法在現代研究數據科學的知識。
這本《Linear Algebra Done Right》雖然只有 352 頁,但是內容非常全面,基本涵蓋了線性代數的各個方面,包括:向量空間、線性獨立、跨度、基礎和維度、線性映射、特征值和特征向量等等。
內容上來說也是圖文并茂,不僅提供知識點的證明,還有相應的例子加以解釋。
//www.springer.com/gp/book/9783319110790
第1章 向量空間 第2章 有限維向量空間 第3章 線性映射 第4章 多項式 第5章 特征值、特征向量、不變量子空間 第6章 內積空間 第7章 內積空間上的算子 第8章 復向量空間上的算子 第9章 實向量空間上的算子 第10章 跡與行列式
這是我2004年,2006年和2009年在斯坦福大學教授的概率理論博士課程的講義。本課程的目標是為斯坦福大學數學和統計學系的博士生做概率論研究做準備。更廣泛地說,文本的目標是幫助讀者掌握概率論的數學基礎和在這一領域中證明定理最常用的技術。然后將此應用于隨機過程的最基本類的嚴格研究。
為此,我們在第一章中介紹了測度與積分理論中的相關元素,即事件的概率空間與格-代數、作為可測函數的隨機變量、它們的期望作為相應的勒貝格積分,以及獨立性的重要概念。
利用這些元素,我們在第二章中研究了隨機變量收斂的各種概念,并推導了大數的弱定律和強定律。
第三章討論了弱收斂的理論、分布函數和特征函數的相關概念以及中心極限定理和泊松近似的兩個重要特例。
基于第一章的框架,我們在第四章討論了條件期望的定義、存在性和性質,以及相關的規則條件概率分布。
第五章討論了過濾、信息在時間上的級數的數學概念以及相應的停止時間。關于后者的結果是作為一組稱為鞅的隨機過程研究的副產品得到的。討論了鞅表示、極大不等式、收斂定理及其各種應用。為了更清晰和更容易的表述,我們在這里集中討論離散時間的設置來推遲與第九章相對應的連續時間。
第六章簡要介紹了馬爾可夫鏈的理論,概率論的核心是一個龐大的主題,許多教科書都致力于此。我們通過研究一些有趣的特殊情況來說明這類過程的一些有趣的數學性質。
在第七章中,我們簡要介紹遍歷理論,將注意力限制在離散時間隨機過程的應用上。我們定義了平穩過程和遍歷過程的概念,推導了Birkhoff和Kingman的經典定理,并強調了該理論的許多有用應用中的少數幾個。
第八章建立了以連續時間參數為指標的右連續隨機過程的研究框架,引入了高斯過程族,并嚴格構造了布朗運動為連續樣本路徑和零均值平穩獨立增量的高斯過程。
第九章將我們先前對鞅和強馬爾可夫過程的處理擴展到連續時間的設定,強調了右連續濾波的作用。然后在布朗運動和馬爾可夫跳躍過程的背景下說明了這類過程的數學結構。
在此基礎上,在第十章中,我們利用不變性原理重新構造了布朗運動作為某些重新標定的隨機游動的極限。進一步研究了其樣本路徑的豐富性質以及布朗運動在clt和迭代對數定律(簡稱lil)中的許多應用。
概率論起源于17世紀的法國,當時兩位偉大的法國數學家,布萊斯·帕斯卡和皮埃爾·德·費馬,對兩個來自機會博弈的問題進行了通信。帕斯卡和費馬解決的問題繼續影響著惠更斯、伯努利和DeMoivre等早期研究者建立數學概率論。今天,概率論是一個建立良好的數學分支,應用于從音樂到物理的學術活動的每一個領域,也應用于日常經驗,從天氣預報到預測新的醫療方法的風險。
本文是為數學、物理和社會科學、工程和計算機科學的二、三、四年級學生開設的概率論入門課程而設計的。它提出了一個徹底的處理概率的想法和技術為一個牢固的理解的主題必要。文本可以用于各種課程長度、水平和重點領域。
在標準的一學期課程中,離散概率和連續概率都包括在內,學生必須先修兩個學期的微積分,包括多重積分的介紹。第11章包含了關于馬爾可夫鏈的材料,為了涵蓋這一章,一些矩陣理論的知識是必要的。
文本也可以用于離散概率課程。材料被組織在這樣一種方式,離散和連續的概率討論是在一個獨立的,但平行的方式,呈現。這種組織驅散了對概率過于嚴格或正式的觀點,并提供了一些強大的教學價值,因為離散的討論有時可以激發更抽象的連續的概率討論。在離散概率課程中,學生應該先修一學期的微積分。
為了充分利用文中的計算材料和例子,假設或必要的計算背景很少。所有在文本中使用的程序都是用TrueBASIC、Maple和Mathematica語言編寫的。
這本書的第五版繼續講述如何運用概率論來深入了解真實日常的統計問題。這本書是為工程、計算機科學、數學、統計和自然科學的學生編寫的統計學、概率論和統計的入門課程。因此,它假定有基本的微積分知識。
第一章介紹了統計學的簡要介紹,介紹了它的兩個分支:描述統計學和推理統計學,以及這門學科的簡短歷史和一些人,他們的早期工作為今天的工作提供了基礎。
第二章將討論描述性統計的主題。本章展示了描述數據集的圖表和表格,以及用于總結數據集某些關鍵屬性的數量。
為了能夠從數據中得出結論,有必要了解數據的來源。例如,人們常常假定這些數據是來自某個總體的“隨機樣本”。為了確切地理解這意味著什么,以及它的結果對于將樣本數據的性質與整個總體的性質聯系起來有什么意義,有必要對概率有一些了解,這就是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。
我們在第四章繼續研究概率,它處理隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常發生的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正規、均勻、伽瑪、卡方、t和F等隨機變量。
本課程從數據科學的角度介紹概率論與統計的基本概念。目的是熟悉在數據分析中廣泛使用的概率模型和統計方法。
斯坦福大學Stephen Boyd教授與加州大學Lieven Vandenberghe教授合著的應用線性代數導論:向量、矩陣和最小二乘法《Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares》在2018年由劍橋大學出版社發行,開源書包含19章,473頁pdf,這本書的目的是提供一個介紹向量,矩陣,最小二乘方法,應用線性代數的基本主題。目標是讓學生通俗易懂,入門學習。讓學習者了解在包括數據擬合、機器學習和人工智能,斷層、導航、圖像處理、金融、和自動控制系統的應用。是一本不可多得好教材。?
Stephen P. Boyd是斯坦福大學電子工程Samsung 教授,信息系統實驗室電子工程教授,斯坦福大學電子工程系系主任。他在管理科學與工程系和計算機科學系任職,是計算與數學工程研究所的成員。他目前的研究重點是凸優化在控制、信號處理、機器學習和金融方面的應用。 //web.stanford.edu/~boyd/
Lieven Vandenberghe,美國加州大學洛杉磯分校電子與計算機工程系和數學系教授
這本書的目的是提供一個介紹向量,矩陣,最小二乘方法,應用線性代數的基本主題。我們的目標是讓很少或根本沒有接觸過線性代數的學生快速學習,以及對如何使用它們在許多應用程序中, 包括數據擬合、機器學習和人工智能, 斷層、導航、圖像處理、金融、和自動控制系統。
讀者所需要的背景知識是熟悉基本的數學符號。我們只在少數地方使用微積分,但它并不是一個關鍵的角色,也不是一個嚴格的先決條件。雖然這本書涵蓋了許多傳統上作為概率和統計的一部分來教授的話題,比如如何將數學模型與數據相匹配,但它并不需要概率和統計方面的知識或背景。
這本書涉及的數學比應用線性代數的典型文本還少。我們只使用線性代數中的一個理論概念,線性無關,和一個計算工具,QR分解;我們處理大多數應用程序的方法只依賴于一種方法,即最小二乘(或某種擴展)。從這個意義上說,我們的目標是知識經濟:僅用一些基本的數學思想、概念和方法,我們就涵蓋了許多應用。然而,我們所提供的數學是完整的,因為我們仔細地證明了每一個數學命題。然而,與大多數介紹性的線性代數文本不同,我們描述了許多應用程序,包括一些通常被認為是高級主題的應用程序,如文檔分類、控制、狀態估計和組合優化。
這本書分為三部分。第一部分向讀者介紹向量,以及各種向量運算和函數,如加法、內積、距離和角度。我們還將描述如何在應用程序中使用向量來表示文檔中的字數、時間序列、病人的屬性、產品的銷售、音軌、圖像或投資組合。第二部分對矩陣也做了同樣的處理,最終以矩陣的逆和求解線性方程的方法結束。第三部分,關于最小二乘,是回報,至少在應用方面。我們展示了近似求解一組超定方程的簡單而自然的思想,以及對這一基本思想的一些擴展,可以用來解決許多實際問題。