大多數有關回歸的教科書側重于理論和最簡單的例子。然而,真正的統計問題是復雜而微妙的。這不是一本關于回歸理論的書。它是關于使用回歸來解決比較、估計、預測和因果推理等實際問題。與其他書籍不同,它側重于實際問題,如樣本量、缺失數據以及廣泛的目標和技術。它直接進入你可以立即使用的方法和計算機代碼。作者親身經歷的真實例子和故事,展示了回歸的作用及其局限性,并為理解實驗和觀察研究的假設和實施方法提供了實用建議。他們順利過渡到邏輯回歸和GLM。重點是R和Stan的計算,而不是推導,代碼可以在線獲得。圖形和演示有助于理解模型和模型擬合。
目錄內容: 介紹 數據和測量 數學和概率論中的一些基本方法 生成模型和統計推斷 模擬 回歸建模背景 單預測器線性回歸 擬合回歸模型 預測和貝葉斯推理 多預測因子線性回歸 假設、診斷和模型評估 轉換 邏輯回歸 使用邏輯回歸 其他廣義線性模型 設計和樣本大小的決定 后分層和缺失數據歸因 因果推理基礎和隨機實驗 使用對治療變量的回歸進行因果推斷 因果推理中更高級的主題 高級回歸和多級模型
現有的關于回歸的教科書通常混合了一些數學推導。我們寫這本書是因為我們看到了一種新的前進方式,專注于理解回歸模型,將它們應用于實際問題,并使用假數據模擬來理解模型是如何匹配的。讀完這本書并完成練習之后,您應該能夠在計算機上模擬回歸模型,并建立、批判性地評估它們,并將它們用于應用問題。我們的書的另一個特點,除了廣泛的例子和計算機模擬的重點,是它的廣泛的覆蓋,包括統計和測量的基礎知識,線性回歸,多元回歸,貝葉斯推理,邏輯回歸和廣義線性模型,從樣本到人口的外推,和因果推論。線性回歸是一個起點,但止步于此是沒有意義的:一旦你有了統計預測的基本概念,最好的理解方法是將它應用到許多不同的方式和不同的環境中。
在完成本書的第1部分后,您應該能夠使用數學、統計和計算工具,這些工具將允許您使用回歸模型。這些前幾章可以作為你在入門統計學課程中所學到的方法和思想的橋梁。
第1部分的目標包括顯示和探索數據,計算和繪制線性關系,理解基本的概率分布和統計推斷,以及模擬隨機過程來表示推斷和預測不確定性。
在完成第2部分之后,您應該能夠構建、適應、理解、使用和評估線性回歸模型的適應。本書這部分的章節在幾個應用和模擬數據示例的背景下開發相關的統計和計算工具。
完成第3部分后,您應該能夠類似地使用邏輯回歸和其他廣義線性模型。
第4部分涵蓋了從樣本到總體的數據收集和外推,第5部分我們涵蓋了因果推理,從使用受控實驗回歸的基本方法開始,然后考慮更復雜的方法來調整觀測數據的不平衡或利用自然實驗。
第6部分介紹了更高級的回歸模型,附錄包括一些快速提示和軟件的概述
本教材提供了一個全面的介紹統計原理,概念和方法,是必不可少的現代統計和數據科學。涵蓋的主題包括基于可能性的推理,貝葉斯統計,回歸,統計測試和不確定性的量化。此外,這本書討論了在現代數據分析中有用的統計思想,包括bootstrapping,多元分布的建模,缺失數據分析,因果關系以及實驗設計的原則。本教材包括兩個學期課程的充足材料,旨在為數據科學、統計和計算機科學的碩士學生掌握概率論的基本知識。對于想要加強統計技能的數據科學從業者來說也是有用的。
第一章對為什么統計和統計思想在數據科學領域具有重要意義進行了一般性討論。本書的這一章還將本書與側重于統計和機器學習的其他書進行了對比。后面的第2-5章可以看作是統計估計理論的簡要介紹。這兩種方法我們都包括,頻率理論和貝葉斯理論。換句話說,我們引入似然模型,就像解釋數值方法一樣,比如貝葉斯模型中的蒙特卡羅馬爾可夫鏈。第6章討論了統計檢驗,它與使用置信區間進行不確定性量化、貝葉斯推理和分類的方法相同。前六章提供了核心教學大綱,當然更多地關注理論和概念,但較少地關注應用。第7章著眼于回歸模型的廣泛領域,雖然本章更適用于此,但它肯定沒有涵蓋該領域,因為它應該與數據科學項目的普通教育有關。在我們看來,回歸是統計學和數據科學的一個基本概念,應該在單獨的講座/課程中討論;因此,這些材料需要包含在一個單獨的書中,其中一些我們在我們的書中引用。然而,我們認為,一本不涉及回歸的統計書也是不合適的。
本書從根本上重新思考了概率論和統計學第一課的微積分。我們提供廣度優先的方法,其中概率論和統計的要點可以在一個學期教授。通過模擬、數據爭論、可視化和統計程序,統計編程語言R在全文中扮演著核心角色。在示例和練習中使用了來自各種來源的數據集,包括許多來自最近的開放源代碼科學文章的數據集。通過模擬給出了重要事實的證明,也有一些正式的數學證明。
這本書是學習數據科學,統計,工程,計算機科學,數學,科學,商業的學生的一個優秀的選擇,或任何學生想要在模擬實踐課程的基礎上。
這本書假設有一個學期的微積分的數學背景,并且在第三章中有一些無窮級數。在第3章和第4章中,積分和無窮級數被用于表示法和說明,但在其他章節中微積分的使用很少。由于強調通過模擬來理解結果(以及對偏離假設的穩健性),本書的大部分內容(如果不是全部的話)無需微積分也能理解。提供了許多結果的證明,并通過模擬為更多的理由,但本文不打算支持一個基于證明的課程。我們鼓勵讀者遵循證明,但通常只有在首先理解結果和為什么它是重要的之后,才想要理解一個證明。
你們已經學過了一些基本的統計學知識。均值、中位數和標準差都很熟悉。你知道調查和實驗,以及相關和簡單回歸的基本概念。你已經學習了概率,誤差范圍,一些假設檢驗和置信區間。你準備好為你的統計工具箱裝載新的工具了嗎?Statistics II For Dummies, 2nd Edition,拾取了Statistics For Dummies, 2nd Edition, (John Wiley & Sons)的右邊,并保持你沿著統計學的想法和技術的道路,以積極的,一步一步的方式。《傻瓜統計II》第二版的重點是尋找更多分析數據的方法。我會一步一步地說明如何使用一些技術,如多元回歸、非線性回歸、單向和雙向方差分析(ANOVA)和卡方檢驗,我還會給你一些使用大數據集的練習,這是現在非常流行的。使用這些新技術,您可以根據手頭的信息估計、調查、關聯和聚集更多的變量,并看到如何將這些工具組合在一起,創建一個關于您的數據的偉大故事(我希望是非虛構的!)。
//www.wiley.com/en-ag/Statistics+II+For+Dummies,+2nd+Edition-p-9781119827399
這本書是為那些已經通過置信區間和假設檢驗完成統計學的基本概念的人設計的(在《傻瓜統計學》第二版中找到),他們已經準備好了通過Stats I的最后部分,或者解決Stats II的問題。不過,我還是會根據需要對Stats進行一些簡要概述,以提醒您所涵蓋的內容,并確保您了解最新情況。對于每一項新技術,您都可以從經驗豐富的數據分析師(真正屬于您的)那里獲得關于何時以及為何使用它的概述,如何知道何時需要它,如何應用它的逐步指導,以及提示和技巧。因為知道何時使用哪種方法是非常重要的,我強調是什么使每一種技術不同,以及結果告訴你什么。您還將看到這些技術在現實生活中的許多應用。
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
在這個反事實和因果推理的第二版中,講述了反事實方法的基本特征,觀察數據分析來自社會,人口統計和健康科學的例子。首先介紹了使用潛在結果模型和因果圖的替代估計技術; 在此之后,條件調節技術,如匹配和回歸,從潛在結果的角度提出。在沒有觀察到重要的因果公開決定因素的研究情景中,然后提出了替代技術,如工具變量估計、縱向方法和通過因果機制的估計。本書強調了因果效應異質性的重要性,并討論了通過機制進行深度因果解釋的必要性。
在過去的三十年里,一個反事實的因果模型已經被開發出來,一個統一的框架起訴的因果問題現在是可用的。通過這本書,我們的目標是說服更多的社會科學家將這個模型應用到社會科學的核心經驗問題上。
在第2章介紹了反事實模型的主要部分之后,我們將在本書的第2部分介紹因果效應估計的條件反射技術。在第三章中,我們將使用因果圖來展示一個基本的條件作用框架。然后,在第4章和第5章,我們將解釋匹配和回歸估計量,說明它們是更一般條件作用方法的互補變量。在這本書的第三部分,我們將從因果效應估計的“容易”到“困難”的實例進行轉換,對于這種情況,簡單的條件作用是不夠的,因為決定因果公開的相關變量沒有被觀察到。在第6章介紹了一般性困境之后,我們將在第7章至第9章中介紹工具變量技術、基于機制的因果效應估計,以及使用超時數據來估計因果效應。最后,在第十章中,我們將總結一些反對反事實模型的意見。在本書的結尾,我們將對因果調研的互補模式進行廣泛的討論,這些模式包括觀察社會科學中的因果效應估計。在某種程度上,因為詳細的目錄已經給出了我們將在其余章節中呈現的材料的準確描述,我們在這里不提供一套詳細的章節摘要。相反,我們將用三個因果圖和它們所提出的因果效應估計策略來結束這一介紹性的章節。這些圖表使我們能夠預示許多具體的因果效應估計策略,我們將在后面介紹這些策略。因為本章的其余內容將在以后重新介紹和更全面地解釋(主要在第3、6和8章),所以現在可以跳過它,沒有任何后果。然而,我們在教學這一材料的經驗表明,在考慮觀察數據分析的反事實框架的細節之前,許多讀者可能受益于對基本估計技術的快速圖形介紹。
作者姓名: Stephen Morgan Christopher Winship
作者機構: 約翰霍普金斯大學 哈佛大學
圖書目錄 一、社會科學中的因果關系與實證研究 1 簡介 二、反事實、潛在結果和因果圖 2 反事實和潛在結果模型 3 因果圖 三、通過對觀察到的變量進行條件調節以阻止后門路徑來估計因果效應 4 因果暴露模型和識別標準 5 因果效應的匹配估計量 6 因果效應的回歸估計 7 因果效應的加權回歸估計 四、估計后門調節無效時的因果效應 8 自我選擇、異質性和因果圖 9 因果效應的工具變量估計量 10 機制與因果解釋 11 重復觀察和因果效應估計 五、當因果效應不是由可觀測點識別時的V估計 12 分布假設、集合識別和敏感性分析 六、結論 13 反事實與觀察社會科學實證研究的未來
機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型,針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子,討論機器學習的統計方面,并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。
到本書結束時,你將掌握機器學習所需的統計數據,并能夠將你的新技能應用于任何類型的行業問題。
如果您不熟悉基礎知識,則機器學習可能是一個困難的主題。借助本書,您將獲得統計編程語言R在機器學習中使用的入門原則的堅實基礎。您將從回歸等基礎知識開始,然后進入神經網絡等更高級的主題,最后深入研究像Caret這樣的軟件包在R世界中機器學習的前沿。
通過熟悉諸如理解回歸模型和分類模型之間的差異之類的主題,您將能夠解決一系列機器學習問題。知道何時使用特定模型可能意味著高精度模型與完全無用的模型之間的區別。本書提供了大量示例來構建機器學習的實用知識。
了解機器學習算法的主要部分: 認識到如何使用機器學習以簡單的方式解決問題 找出何時使用某些機器學習算法與其他算法 了解如何使用最先進的軟件包實施算法
這本關于機器學習的研究生教科書講述了數據模式如何支持預測和結果行動的故事。從決策的基礎開始,我們將涵蓋作為有監督學習的組成部分的表示、優化和泛化。關于數據集作為基準檢查他們的歷史和科學基礎的一章。對因果關系的介紹,因果推理的實踐,序列決策,和強化學習使讀者了解概念和工具來。整本書討論了歷史背景和社會影響。讀者有概率論、微積分和線性代數方面的經驗就足夠了。
目錄內容:
導論 Introduction
決策 Decision making
監督學習 Supervised learning
表示學習 Representations and features
優化 Optimization
泛化 Generalization
深度學習 Deep learning
數據 Datasets
因果性 Causality
因果性實踐 Causal inference in practice
序列決策與動態優化,Sequential decision making and dynamic programming
強化學習,Reinforcement learning
Epilogue
Mathematical background
這個備受期待的第二版包含新的章節和新內容,225個新參考文獻以及全面的R軟件。與上一版保持一致,這本書涉及數據分析和預測建模相關的知識,需要選擇和使用多種工具。本書沒有介紹孤立的技術,而是強調解決問題的策略,這些策略解決了使用實際數據而不是標準教科書示例開發多變量模型時出現的許多問題。它包括用于有效處理缺失數據的插補方法,用于擬合非線性關系并使轉換估計成為建模過程正式形式的方法,用于處理“要分析的變量太多而觀察不到的方法” 以及基于引導程序的強大模型驗證技術。讀者將對預測的準確性以及對連續的預測因素或結果進行分類的危害有敏銳的理解。本書實際處理模型不確定性及其對推理的影響,以實現“安全數據挖掘”。它還提供了許多圖形方法,用于將復雜的回歸模型傳達給非統計人員。

回歸建模策略提供了非平凡數據集的全面案例研究,而不是每種方法的過度簡化說明。這些案例研究使用免費提供的R函數,這些函數使書中所述的多重插補,模型構建,驗證和解釋任務相對容易實現。本書中的大多數方法都適用于所有回歸模型,但是要特別強調使用廣義最小二乘用于縱向數據,二進制邏輯模型,序數響應模型,參數生存回歸模型和Cox半參數生存模型的多元回歸。。新的重點是使用序數回歸對連續因變量進行穩健分析。
如在第一版中,該文本適用于碩士或博士學位。擁有一般概論和統計課程的高水平研究生,并且精通普通的多元回歸和中級代數。該書還將包含有關現代統計建模技術的最新調查和參考書目,可供數據分析人員和統計方法學家參考。本書中使用的示例主要來自生物醫學研究,但是該方法適用于任何有用的預測模型(“分析”),包括經濟學,流行病學,社會學,心理學,工程學和市場營銷。
有幾個主要的主題貫穿全書。這些主題主要是對兩個不同類別的比較。當你閱讀的時候,很重要的一點是你要明白書的不同部分適合什么類別,不適合什么類別。
統計與因果。即使有無限多的數據,我們有時也無法計算一些因果量。相比之下,很多統計是關于在有限樣本中解決不確定性的。當給定無限數據時,沒有不確定性。然而,關聯,一個統計概念,不是因果關系。在因果推理方面還有更多的工作要做,即使在開始使用無限數據之后也是如此。這是激發因果推理的主要區別。我們在這一章已經做了這樣的區分,并將在整本書中繼續做這樣的區分。
識別與評估。因果效應的識別是因果推論所獨有的。這是一個有待解決的問題,即使我們有無限的數據。然而,因果推理也與傳統統計和機器學習共享估計。我們將主要從識別因果效應(在第2章中,4和6)之前估計因果效應(第7章)。例外是2.5節和節4.6.2,我們進行完整的例子估計給你的整個過程是什么樣子。
介入與觀察。如果我們能進行干預/實驗,因果效應的識別就相對容易了。這很簡單,因為我們可以采取我們想要衡量因果效應的行動,并簡單地衡量我們采取行動后的效果。觀測數據變得更加復雜,因為數據中幾乎總是引入混雜。
假設。將會有一個很大的焦點是我們用什么假設來得到我們得到的結果。每個假設都有自己的框來幫助人們注意到它。清晰的假設應該使我們很容易看到對給定的因果分析或因果模型的批評。他們希望,清晰地提出假設將導致對因果關系的更清晰的討論。