統計學正迅速成為數學中最重要的多學科領域。據美國統計協會稱,統計學是增長最快的10個職業之一,而統計學是增長最快的學士學位之一。統計素養對我們這個數據驅動的社會至關重要。盡管對統計能力的重要性和需求增加,但統計方面的教學方法幾乎沒有改變。使用Mike Bostock的數據可視化軟件,D3.js,看到理論可視化的基本概念所涵蓋的大學統計學導論或大學預修課程的統計。我們鼓勵學生將視覺理論作為教科書、教授和同學的額外資源。
來自斯坦福大學的一位研究生和他的伙伴們開發了一本頗有新意的統計概率入門教材,與傳統教材不同的是,這本書充分利用了數據可視化技術,交互性和趣味性都非常強,可以邊讀邊玩。
該書共分為 6 章,分別為基礎概率論、進階概率論、概率分布、統計推斷:頻率學派、統計推斷:貝葉斯學派和回歸分析,每章分為三個小節,如圖所示:
這本書的目的是介紹圖理論的基礎。在第一章中,我們對數學符號和證明技巧給予了明確的關注。這種方法使學生逐漸為使用圖論所必需的工具——復雜網絡——做好準備。在書的第二部分,學生學習關于隨機網絡,小世界,互聯網和網絡的結構,點對點系統,和社會網絡。再說一次,所有的問題都是在初級階段討論的,但這樣到最后學生們確實會有這樣的感覺:1。學會了如何閱讀和理解與圖論相關的基本數學。了解基本圖論如何應用于優化問題,如通訊網絡中的路由。更多地了解這個小世界和隨機網絡的神秘領域。
這本書的書名聽起來有點神秘。如果這本書以一種錯誤的方式呈現了這個主題,人們為什么要讀它呢?書中哪些地方做得特別“不對”?
在回答這些問題之前,讓我先描述一下本文的目標受眾。這本書是“榮譽線性代數”課程的課堂講稿。這應該是高等數學學生的第一門線性代數課程。它的目標是一個學生,雖然還不是非常熟悉抽象推理,但愿意學習更嚴格的數學,在“烹飪書風格”的微積分類型課程。除了作為線性代數的第一門課程,它也應該是第一門向學生介紹嚴格證明、形式定義——簡而言之,現代理論(抽象)數學風格的課程。
目標讀者解釋了基本概念和具體實例的非常具體的混合,它們通常出現在介紹性的線性代數文本中,具有更抽象的定義和高級書籍的典型構造。
這本書系統性講述了統計學理論,包括概率理論、分布式理論與統計模型,基本統計理論、貝葉斯理論、無偏點估計、最大似然統計推斷、統計假設與置信集、非參與魯棒推斷。
第一門課程以對統計中有用的測量論概率論的概念和結果的簡要概述開始。隨后討論了統計決策理論和推理中的一些基本概念。探討了估計的基本方法和原理,包括各種限制條件下的最小風險方法,如無偏性或等方差法,最大似然法,以及矩法和其他插件方法等函數法。然后詳細地考慮了貝葉斯決策規則。詳細介紹了最小方差無偏估計的方法。主題包括統計量的充分性和完全性、 Fisher信息、估計量的方差的界、漸近性質和統計決策理論,包括極大極小和貝葉斯決策規則。
第二門課程更詳細地介紹了假設檢驗和置信集的原理。我們考慮了決策過程的表征,內曼-皮爾森引理和一致最有力的測試,置信集和推理過程的無偏性。其他主題包括等方差、健壯性和函數估計。
除了數理統計的經典結果外,還討論了馬爾可夫鏈蒙特卡洛理論、擬似然、經驗似然、統計泛函、廣義估計方程、折刀法和自舉法。
這是我2004年,2006年和2009年在斯坦福大學教授的概率理論博士課程的講義。本課程的目標是為斯坦福大學數學和統計學系的博士生做概率論研究做準備。更廣泛地說,文本的目標是幫助讀者掌握概率論的數學基礎和在這一領域中證明定理最常用的技術。然后將此應用于隨機過程的最基本類的嚴格研究。
為此,我們在第一章中介紹了測度與積分理論中的相關元素,即事件的概率空間與格-代數、作為可測函數的隨機變量、它們的期望作為相應的勒貝格積分,以及獨立性的重要概念。
利用這些元素,我們在第二章中研究了隨機變量收斂的各種概念,并推導了大數的弱定律和強定律。
第三章討論了弱收斂的理論、分布函數和特征函數的相關概念以及中心極限定理和泊松近似的兩個重要特例。
基于第一章的框架,我們在第四章討論了條件期望的定義、存在性和性質,以及相關的規則條件概率分布。
第五章討論了過濾、信息在時間上的級數的數學概念以及相應的停止時間。關于后者的結果是作為一組稱為鞅的隨機過程研究的副產品得到的。討論了鞅表示、極大不等式、收斂定理及其各種應用。為了更清晰和更容易的表述,我們在這里集中討論離散時間的設置來推遲與第九章相對應的連續時間。
第六章簡要介紹了馬爾可夫鏈的理論,概率論的核心是一個龐大的主題,許多教科書都致力于此。我們通過研究一些有趣的特殊情況來說明這類過程的一些有趣的數學性質。
在第七章中,我們簡要介紹遍歷理論,將注意力限制在離散時間隨機過程的應用上。我們定義了平穩過程和遍歷過程的概念,推導了Birkhoff和Kingman的經典定理,并強調了該理論的許多有用應用中的少數幾個。
第八章建立了以連續時間參數為指標的右連續隨機過程的研究框架,引入了高斯過程族,并嚴格構造了布朗運動為連續樣本路徑和零均值平穩獨立增量的高斯過程。
第九章將我們先前對鞅和強馬爾可夫過程的處理擴展到連續時間的設定,強調了右連續濾波的作用。然后在布朗運動和馬爾可夫跳躍過程的背景下說明了這類過程的數學結構。
在此基礎上,在第十章中,我們利用不變性原理重新構造了布朗運動作為某些重新標定的隨機游動的極限。進一步研究了其樣本路徑的豐富性質以及布朗運動在clt和迭代對數定律(簡稱lil)中的許多應用。
本書圍繞虛擬化、并發和持久性這三個主要概念展開,介紹了所有現代系統的主要組件(包括調度、虛擬內存管理、磁盤和I/O子系統、文件系統)。全書共50章,分為3個部分,分別講述虛擬化、并發和持久性的相關內容。作者以對話形式引入所介紹的主題概念,行文詼諧幽默卻又鞭辟入里,力求幫助讀者理解操作系統中虛擬化、并發和持久性的原理。本書內容全面,并給出了真實可運行的代碼(而非偽代碼),還提供了相應的練習,很適合高等院校相關專業的教師開展教學和高校學生進行自學。?
本書具有以下特色:
本書基于易于理解且具有數據科學相關的豐富的庫的Python語言環境,從零開始講解數據科學工作。具體內容包括:Python速成,可視化數據,線性代數,統計,概率,假設與推斷,梯度下降法,如何獲取數據,k近鄰法,樸素貝葉斯算法,等等。作者借助大量具體例子以及數據挖掘、統計學、機器學習等領域的重要概念,詳細展示了什么是數據科學。
介紹數據科學基本知識的重量級讀本,Google數據科學家作品。
數據科學是一個蓬勃發展、前途無限的行業,有人將數據科學家稱為“21世紀頭號性感職業”。本書從零開始講解數據科學工作,教授數據科學工作所必需的黑客技能,并帶領讀者熟悉數據科學的核心知識——數學和統計學。
作者選擇了功能強大、簡單易學的Python語言環境,親手搭建工具和實現算法,并精心挑選了注釋良好、簡潔易讀的實現范例。書中涵蓋的所有代碼和數據都可以在GitHub上下載。
統計學習是一套以復雜數據建模和數據理解為目的的工具集,是近期才發展起來的統計學的一個新領域。本書出自統計學習領域聲名顯赫的幾位專家,結合R語言介紹了分析大數據必不可少的工具,提供一些重要的建模和預測技術,并借助豐富的實驗來解釋如何用R語言實現統計學習方法。論題包括線性回歸、分類、重抽樣方法、壓縮方法、基于樹的方法、支持向量機、聚類等,作者借助彩圖和實際案例直觀解釋這些方法。為了讀者更好地理解書中內容,每章后還配有豐富的概念性和應用性練習題。
書中內容與《The Elements of Statistical Learning》的大部分內容相同,但是本書起點低,弱化了數學推導的細節,更注重方法的應用,所以更適合作為入門教材。當然,這本《統計學習導論》不僅是優秀的“統計學習”或“機器學習”課程的教材,也是數據挖掘、數據分析等相關從業者不可或缺的參考書。
Gareth James 斯坦福大學統計學博士畢業,師從Trevor Hastie。現為南加州大學馬歇爾商學院統計學教授,美國統計學會會士,數理統計協會終身會員,新西蘭統計協會會員。《Statistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主編。
Daniela Witten 斯坦福大學統計學博士畢業,師從Robert Tibshirani。現為華盛頓大學生物統計學副教授,美國統計學會和國際數理統計協會會士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主編。
Trevor Hastie 美國統計學家和計算機科學家,斯坦福大學統計學教授,英國皇家統計學會、國際數理統計協會和美國統計學會會士。Hastie參與開發了 R 中的大部分統計建模軟件和環境,發明了主曲線和主曲面。
Robert Tibshirani 斯坦福大學統計學教授,國際數理統計協會、美國統計學會和加拿大皇家學會會士,1996年COPSS總統獎得主,提出lasso方法。Hastie和Tibshirani都是統計學習領域的泰山北斗,兩人合著《The Elements of Statistical Learning》,還合作講授斯坦福大學的公開課《統計學習》。
在Python中獲得操作、處理、清理和處理數據集的完整說明。本實用指南的第二版針對Python 3.6進行了更新,其中包含了大量的實際案例研究,向您展示了如何有效地解決廣泛的數據分析問題。在這個過程中,您將學習最新版本的panda、NumPy、IPython和Jupyter。
本書由Python panda項目的創建者Wes McKinney編寫,是對Python中的數據科學工具的實用的、現代的介紹。對于剛接觸Python的分析人員和剛接觸數據科學和科學計算的Python程序員來說,它是理想的。數據文件和相關材料可以在GitHub上找到。
斯坦福大學Stephen Boyd教授與加州大學Lieven Vandenberghe教授合著的應用線性代數導論:向量、矩陣和最小二乘法《Introduction to Applied Linear Algebra – Vectors, Matrices, and Least Squares》在2018年由劍橋大學出版社發行,開源書包含19章,473頁pdf,這本書的目的是提供一個介紹向量,矩陣,最小二乘方法,應用線性代數的基本主題。目標是讓學生通俗易懂,入門學習。讓學習者了解在包括數據擬合、機器學習和人工智能,斷層、導航、圖像處理、金融、和自動控制系統的應用。是一本不可多得好教材。?
Stephen P. Boyd是斯坦福大學電子工程Samsung 教授,信息系統實驗室電子工程教授,斯坦福大學電子工程系系主任。他在管理科學與工程系和計算機科學系任職,是計算與數學工程研究所的成員。他目前的研究重點是凸優化在控制、信號處理、機器學習和金融方面的應用。 //web.stanford.edu/~boyd/
Lieven Vandenberghe,美國加州大學洛杉磯分校電子與計算機工程系和數學系教授
這本書的目的是提供一個介紹向量,矩陣,最小二乘方法,應用線性代數的基本主題。我們的目標是讓很少或根本沒有接觸過線性代數的學生快速學習,以及對如何使用它們在許多應用程序中, 包括數據擬合、機器學習和人工智能, 斷層、導航、圖像處理、金融、和自動控制系統。
讀者所需要的背景知識是熟悉基本的數學符號。我們只在少數地方使用微積分,但它并不是一個關鍵的角色,也不是一個嚴格的先決條件。雖然這本書涵蓋了許多傳統上作為概率和統計的一部分來教授的話題,比如如何將數學模型與數據相匹配,但它并不需要概率和統計方面的知識或背景。
這本書涉及的數學比應用線性代數的典型文本還少。我們只使用線性代數中的一個理論概念,線性無關,和一個計算工具,QR分解;我們處理大多數應用程序的方法只依賴于一種方法,即最小二乘(或某種擴展)。從這個意義上說,我們的目標是知識經濟:僅用一些基本的數學思想、概念和方法,我們就涵蓋了許多應用。然而,我們所提供的數學是完整的,因為我們仔細地證明了每一個數學命題。然而,與大多數介紹性的線性代數文本不同,我們描述了許多應用程序,包括一些通常被認為是高級主題的應用程序,如文檔分類、控制、狀態估計和組合優化。
這本書分為三部分。第一部分向讀者介紹向量,以及各種向量運算和函數,如加法、內積、距離和角度。我們還將描述如何在應用程序中使用向量來表示文檔中的字數、時間序列、病人的屬性、產品的銷售、音軌、圖像或投資組合。第二部分對矩陣也做了同樣的處理,最終以矩陣的逆和求解線性方程的方法結束。第三部分,關于最小二乘,是回報,至少在應用方面。我們展示了近似求解一組超定方程的簡單而自然的思想,以及對這一基本思想的一些擴展,可以用來解決許多實際問題。