本書解釋了數據科學中至關重要的統計學概念,介紹如何將各種統計方法應用于數據科學。作者以易于理解、瀏覽和參考的方式,引出統計學中與數據科學相關的關鍵概念;解釋各統計學概念在數據科學中的重要性及有用程度,并給出原因。
統計方法是數據科學的關鍵部分,但很少有數據科學家有任何正式的統計培訓。關于基本統計的課程和書籍很少從數據科學的角度涵蓋這個主題。這本實用指南解釋了如何將各種統計方法應用到數據科學中,告訴你如何避免它們被誤用,并就什么是重要的、什么是不重要的給出建議。
許多數據科學資源包含了統計方法,但缺乏更深層次的統計視角。如果您熟悉R編程語言,并且對統計學有一定的了解,那么本文的快速引用將以一種可訪問、可讀的格式填補空白。
通過這本書,你會學到:
//www.oreilly.com/library/view/practical-statistics-for/9781491952955/
如果您不熟悉基礎知識,則機器學習可能是一個困難的主題。借助本書,您將獲得統計編程語言R在機器學習中使用的入門原則的堅實基礎。您將從回歸等基礎知識開始,然后進入神經網絡等更高級的主題,最后深入研究像Caret這樣的軟件包在R世界中機器學習的前沿。
通過熟悉諸如理解回歸模型和分類模型之間的差異之類的主題,您將能夠解決一系列機器學習問題。知道何時使用特定模型可能意味著高精度模型與完全無用的模型之間的區別。本書提供了大量示例來構建機器學習的實用知識。
了解機器學習算法的主要部分: 認識到如何使用機器學習以簡單的方式解決問題 找出何時使用某些機器學習算法與其他算法 了解如何使用最先進的軟件包實施算法
《Python機器學習經典實例(影印版 英文版)》這本實用指南提供了近200則完整的攻略,可幫助你解決日常工作中可能遇到的機器學習難題。如果你熟悉Python以及包括pandas和scikit-learn在內的庫,那么解決一些特定問題將不在話下,比如數據加載、文本處理、數值數據、模型選擇、降維以及諸多其他主題。
每則攻略中都包含代碼,你可以將其復制并粘貼到實驗數據集中,以確保代碼的確有效。你可以插入、組合、修改這些代碼,從而協助構建你自己的應用程序。攻略中還包括相關的討論,對解決方案給出了解釋并提供有意義的上下文。
《Python機器學習經典實例(影印版 英文版)》在理論和概念之外提供了構造實用機器學習應用所需的具體細節。
//www.oreilly.com/library/view/machine-learning-with/9781491989371/
鏈接:
//greenteapress.com/wp/think-bayes/
作者:Allen B. Downey
Think Bayes是介紹如何通過編程方法進行貝葉斯統計的書籍。
這本書和其他Think X系列書籍的想法一樣,他們認為只要你知道如何編程,那么你就可以通過這項技能來學習其他的課題。
大多數的貝葉斯統計書籍會使用數學符號并且通過微積分一類的數學概念來展現其統計思想。這本書則使用Python代碼、離散逼近而非數學、連續數學來解釋貝葉斯統計。通過這樣的方式,在數學書里的積分,將會轉變為求和。許多在概率分布上的操作將會通過簡單的循環而實現。
本書解釋了數據科學中至關重要的統計學概念,介紹如何將各種統計方法應用于數據科學。作者以易于理解、瀏覽和參考的方式,引出統計學中與數據科學相關的關鍵概念;解釋各統計學概念在數據科學中的重要性及有用程度,并給出原因。
作者介紹
彼得·布魯斯(Peter Bruce),知名統計學家,Statistics.com統計學教育學院的創立者兼院長,重采樣統計軟件的開發者。曾在美國馬里蘭大學和各種短訓班教授重采樣統計課程。
安德魯·布魯斯(Andrew Bruce),華盛頓大學統計學博士,擁有30多年的統計學和數據科學經驗,在多家知名學術期刊上發表過多篇論文。
//github.com/gedeck/practical-statistics-for-data-scientists
通過使用Python開發用例,全面了解監督學習算法您將學習監督學習概念、Python代碼、數據集、最佳實踐、常見問題和缺陷的解決方案,以及實現結構化、文本和圖像數據集算法的實踐知識。
你將從介紹機器學習開始,強調監督學習、半監督學習和非監督學習之間的區別。在接下來的章節中,你將學習回歸和分類問題,它們背后的數學,像線性回歸、邏輯回歸、決策樹、KNN、樸素貝葉斯等算法,以及像隨機森林、支持向量機、梯度增強和神經網絡等高級算法。提供了所有算法的Python實現。最后,您將得到一個端到端模型開發流程,包括模型的部署和維護。在閱讀了Python的監督學習之后,你將會對監督學習和它的實際實現有一個廣泛的理解,并且能夠以一種創新的方式運行代碼和擴展它。
你將學習:
這本書是給誰的
管理統計和數據科學的原理包括:數據可視化;描述性措施;概率;概率分布;數學期望;置信區間;和假設檢驗。方差分析;簡單線性回歸;多元線性回歸也包括在內。另外,本書還提供了列聯表、卡方檢驗、非參數方法和時間序列方法。
教材:
有興趣的數據科學專業人士可以通過本書學習Scikit-Learn圖書館以及機器學習的基本知識。本書結合了Anaconda Python發行版和流行的Scikit-Learn庫,演示了廣泛的有監督和無監督機器學習算法。通過用Python編寫的清晰示例,您可以在家里自己的機器上試用和試驗機器學習的原理。
所有的應用數學和編程技能需要掌握的內容,在這本書中涵蓋。不需要深入的面向對象編程知識,因為工作和完整的例子被提供和解釋。必要時,編碼示例是深入和復雜的。它們也簡潔、準確、完整,補充了介紹的機器學習概念。使用示例有助于建立必要的技能,以理解和應用復雜的機器學習算法。
對于那些在機器學習方面追求職業生涯的人來說,Scikit-Learn機器學習應用手冊是一個很好的起點。學習這本書的學生將學習基本知識,這是勝任工作的先決條件。讀者將接觸到專門為數據科學專業人員設計的蟒蛇分布,并將在流行的Scikit-Learn庫中構建技能,該庫是Python世界中許多機器學習應用程序的基礎。
你將學習
這本書是給誰的
本書涵蓋了這些領域中使用Python模塊演示的概率、統計和機器學習的關鍵思想。整本書包括所有的圖形和數值結果,都可以使用Python代碼及其相關的Jupyter/IPython Notebooks。作者通過使用多種分析方法和Python代碼的有意義的示例,開發了機器學習中的關鍵直覺,從而將理論概念與具體實現聯系起來。現代Python模塊(如panda、y和Scikit-learn)用于模擬和可視化重要的機器學習概念,如偏差/方差權衡、交叉驗證和正則化。許多抽象的數學思想,如概率論中的收斂性,都得到了發展,并用數值例子加以說明。本書適合任何具有概率、統計或機器學習的本科生,以及具有Python編程的基本知識的人。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。