//www.stat.cmu.edu/~larry/all-of-statistics/
這本書是為那些想要快速學習概率和統計的人準備的。它將現代統計學的許多主要思想集中在一起。本書適合統計學、計算機科學、數據挖掘和機器學習方面的學生和研究人員。
這本書涵蓋了一個更廣泛的主題比一個典型的介紹性文本的數學統計。它包括現代主題,如非參數曲線估計,bootstrap和分類,這些主題通常歸入后續課程。假定讀者懂得微積分和一點線性代數。以前不需要概率和統計知識。該文本可用于高等本科和研究生水平。
本文的第一部分是概率論,它是不確定性的形式語言,是統計推理的基礎。
第二部分是關于統計推斷,數據挖掘和機器學習。統計推理的基本問題是概率的逆問題.
第三部分將第二部分的思想應用于具體的問題,如回歸、圖形模型、因果關系、密度估計、平滑、分類和仿真。第三部分還有一章是關于概率的,涵蓋了包括馬爾可夫鏈在內的隨機過程。
《數據科學家的統計基礎:使用R和Python》是一本一學期或兩學期的數學統計入門教材,供培養成為數據科學家的學生使用。它深入介紹了任何數據科學家都應該熟悉的統計科學主題,包括概率分布、描述性和推理統計方法以及線性建模。這本書假設有基本的微積分知識,所以演示可以集中在“為什么它可以工作”以及“如何做它”上。然而,與傳統的“數理統計”教科書相比,這本書較少強調概率論,而更強調使用軟件來實現統計方法和進行模擬來說明關鍵概念。書中所有的統計分析都使用R軟件,還有一個附錄展示了用Python進行的相同分析。
這本書還介紹了現代主題,通常不出現在數理統計文本,但與數據科學家高度相關,如貝葉斯推理,非正態響應的廣義線性模型(例如,邏輯回歸和泊松loglinear模型),和正則模型擬合。將近500個練習被分為“數據分析與應用”和“方法與概念”。附錄介紹了R和Python,并包含了奇數號練習的解決方案。本書的網站擴展了R, Python和Matlab的附錄,以及來自示例和練習的所有數據集。
本教材提供了一個全面的介紹統計原理,概念和方法,是必不可少的現代統計和數據科學。涵蓋的主題包括基于可能性的推理,貝葉斯統計,回歸,統計測試和不確定性的量化。此外,這本書討論了在現代數據分析中有用的統計思想,包括bootstrapping,多元分布的建模,缺失數據分析,因果關系以及實驗設計的原則。本教材包括兩個學期課程的充足材料,旨在為數據科學、統計和計算機科學的碩士學生掌握概率論的基本知識。對于想要加強統計技能的數據科學從業者來說也是有用的。
第一章對為什么統計和統計思想在數據科學領域具有重要意義進行了一般性討論。本書的這一章還將本書與側重于統計和機器學習的其他書進行了對比。后面的第2-5章可以看作是統計估計理論的簡要介紹。這兩種方法我們都包括,頻率理論和貝葉斯理論。換句話說,我們引入似然模型,就像解釋數值方法一樣,比如貝葉斯模型中的蒙特卡羅馬爾可夫鏈。第6章討論了統計檢驗,它與使用置信區間進行不確定性量化、貝葉斯推理和分類的方法相同。前六章提供了核心教學大綱,當然更多地關注理論和概念,但較少地關注應用。第7章著眼于回歸模型的廣泛領域,雖然本章更適用于此,但它肯定沒有涵蓋該領域,因為它應該與數據科學項目的普通教育有關。在我們看來,回歸是統計學和數據科學的一個基本概念,應該在單獨的講座/課程中討論;因此,這些材料需要包含在一個單獨的書中,其中一些我們在我們的書中引用。然而,我們認為,一本不涉及回歸的統計書也是不合適的。
本書從根本上重新思考了概率論和統計學第一課的微積分。我們提供廣度優先的方法,其中概率論和統計的要點可以在一個學期教授。通過模擬、數據爭論、可視化和統計程序,統計編程語言R在全文中扮演著核心角色。在示例和練習中使用了來自各種來源的數據集,包括許多來自最近的開放源代碼科學文章的數據集。通過模擬給出了重要事實的證明,也有一些正式的數學證明。
這本書是學習數據科學,統計,工程,計算機科學,數學,科學,商業的學生的一個優秀的選擇,或任何學生想要在模擬實踐課程的基礎上。
這本書假設有一個學期的微積分的數學背景,并且在第三章中有一些無窮級數。在第3章和第4章中,積分和無窮級數被用于表示法和說明,但在其他章節中微積分的使用很少。由于強調通過模擬來理解結果(以及對偏離假設的穩健性),本書的大部分內容(如果不是全部的話)無需微積分也能理解。提供了許多結果的證明,并通過模擬為更多的理由,但本文不打算支持一個基于證明的課程。我們鼓勵讀者遵循證明,但通常只有在首先理解結果和為什么它是重要的之后,才想要理解一個證明。
本書是Coursera統計推理課程的配套教材,是數據科學專業的一部分。然而,如果你不上這門課,這本書基本上是獨立的。這本書的一個有用的組成部分是包括Coursera課程的一系列YouTube視頻。這本書是對統計推斷做介紹。目標受眾是具有數字和計算能力的學生,他們希望將這些技能用于數據科學或統計學。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
這本書的第三版繼續演示如何應用概率論,以獲得洞察到真實的,日常統計問題和情況。這種方法最終導致了對統計程序和策略的直觀理解,最常用的是實踐工程師和科學家。這本書是為統計學或概率和統計的入門課程而寫的,為工程、計算機科學、數學、統計學和自然科學的學生而寫。因此,它假定你有初等微積分知識。
第一章簡要介紹統計學,介紹它的兩個分支,描述性統計和推理統計學,并簡要介紹該學科的歷史和一些人的早期工作為今天所做的工作奠定了基礎。描述性統計的主題將在第二章中討論。描述數據集的圖和表在本章中給出,以及用于總結數據集某些關鍵屬性的數量。要想從數據中得出結論,就必須了解數據的來源。例如,通常假設數據是來自某些總體的“隨機樣本”。為了準確理解這意味著什么,以及將樣本數據屬性與總體屬性相關聯的結果是什么,有必要對概率有一些了解,這是第三章的主題。本章介紹了概率實驗的思想,解釋了事件概率的概念,并給出了概率的公理。我們的概率研究將在第四章繼續,這一章涉及隨機變量和期望的重要概念,在第五章,考慮一些在應用中經常出現的特殊類型的隨機變量。給出了二項式、泊松、超幾何、正態、均勻、伽馬、卡方、t和F等隨機變量。在第6章中,我們研究了樣本均值和樣本方差等抽樣統計量的概率分布。我們將展示如何使用一個著名的概率理論結果,即中心極限定理,來近似樣本均值的概率分布。此外,我們還介紹了關節基礎數據來自正態分布總體的重要特殊情況下的樣本均值和樣本方差的概率分布。第7章展示了如何使用數據來估計感興趣的參數。第8章介紹了統計假設檢驗的重要主題,它涉及到使用數據來檢驗特定假設的可信性。第9章討論回歸的重要課題。簡單線性回歸(包括回歸到均值、殘差分析和加權最小二乘等子主題)和多元線性回歸都被考慮在內。第10章是方差分析。考慮了單向和雙向(有或沒有交互的可能性)問題。第11章是關于擬合優度檢驗,它可以用來檢驗所提出的模型是否與數據一致。文中給出了經典的卡方擬合優度檢驗,并將其應用于列聯表的獨立性檢驗。本章的最后一節介紹了Kolmogorov-Smirnov程序,用于測試數據是否來自特定的連續概率分布。第12章討論了非參數假設檢驗,當人們無法假設潛在的分布具有某些特定的參數形式(如正態分布)時,可以使用非參數假設檢驗。第13章考慮質量控制的主題,一個關鍵的統計技術在制造和生產過程。我們考慮了各種控制圖,不僅包括休哈特控制圖,還包括基于移動平均線和累積總和的更復雜的控制圖。第14章討論與壽命試驗有關的問題。在本章中,指數分布,而不是正態分布,起著關鍵作用。
這本最新的教科書是向數學、計算機科學、工程、統計學、經濟學或商業研究的新學生介紹概率論和信息理論的一個極好的方式。它只需要基本的微積分知識,首先建立一個清晰和系統的基礎: 通過對布爾代數度量的簡化討論,特別關注概率的概念。這些理論思想隨后被應用到實際領域,如統計推斷、隨機游走、統計力學和通信建模。主題涵蓋了離散和連續隨機變量,熵和互信息,最大熵方法,中心極限定理和編碼和信息傳輸,并為這個新版本添加了關于馬爾可夫鏈和它們的熵的材料。大量的例子和練習包括說明如何使用理論在廣泛的應用,與詳細的解決方案,大多數練習可在網上找到。
這本書的目的是介紹計算機科學家所需要的一些基本數學知識。讀者并不期望自己是數學家,我們希望下面的內容對你有用。
本教程關注信息理論在統計學中的應用。被稱為信息散度或Kullback-Leibler距離或相對熵的信息度量起著關鍵作用。涵蓋的主題包括大偏差、假設檢驗、指數族的最大似然估計、列聯表的分析以及具有“信息幾何”背景的迭代算法。同時,還介紹了通用編碼的理論,以及由通用編碼理論驅動的最小描述長度原理的統計推理。
本書涵蓋了這些領域中使用Python模塊演示的概率、統計和機器學習的關鍵思想。整本書包括所有的圖形和數值結果,都可以使用Python代碼及其相關的Jupyter/IPython Notebooks。作者通過使用多種分析方法和Python代碼的有意義的示例,開發了機器學習中的關鍵直覺,從而將理論概念與具體實現聯系起來。現代Python模塊(如panda、y和Scikit-learn)用于模擬和可視化重要的機器學習概念,如偏差/方差權衡、交叉驗證和正則化。許多抽象的數學思想,如概率論中的收斂性,都得到了發展,并用數值例子加以說明。本書適合任何具有概率、統計或機器學習的本科生,以及具有Python編程的基本知識的人。