本書介紹了如何使用Stan進行貝葉斯統計建模,它已經成為最流行的概率編程語言。 這本書分為四部分。第一部分回顧了建模和貝葉斯推理的理論背景,提出了一個建模工作流,使建模更工程而不是藝術。第二部分從一開始就討論了Stan、CmdStanR和CmdStanPy的使用,然后討論了基本的回歸分析。第三部分介紹了一些概率分布、非線性模型和分層(多級)模型,這些是掌握統計建模的必要知識。還介紹了廣泛使用的建模技術,如審查、異常值、缺失數據、加速和參數約束,并討論了如何引導MCMC收斂。最后,第四部分探討了現實世界數據的高級主題:縱向數據分析、狀態空間模型、空間數據分析、高斯過程、貝葉斯優化、降維、模型選擇和信息標準,證明Stan可以在短短30行中解決這些問題中的任何一個。 本書通過大量易于理解的示例解釋了一些關鍵概念,這些概念在Stan的后續版本和其他統計建模工具中仍然很有用。這些例子不需要領域知識,可以推廣到許多領域。本書提供了代碼和數學公式的充分解釋,使讀者能夠為自己的問題擴展模型。所有代碼和數據都在GitHub上。
本書旨在為有興趣在數據科學和分析以及一般統計分析領域使用他們的技能的畢業生和商業從業人員在統計學方面提供幫助。一方面,本書旨在為那些上過一些統計學課程,但在日常工作中不一定使用過統計學的讀者提供復習。另一方面,這些材料也適合第一次接觸Python統計工作的感興趣的讀者。使用Python進行統計和數據可視化旨在通過使讀者了解推斷統計學背后的思想,并開始制定假設,這些假設構成統計分析、商業分析、機器學習和應用機器學習中的應用和算法的基礎,從而從頭開始構建統計知識。本書從Python編程和數據分析的基礎知識開始,為統計學方法和假設檢驗打下堅實的基礎,這在許多現代應用中都很有用。 //www.routledge.com/Statistics-and-Data-Visualisation-with-Python/Rogel-Salazar/p/book/9780367744519#:~:text=Statistics%20and%20Data%20Visualisation%20with%20Python%20aims%20to%20build%20statistical,in%20statistical%20analysis%2C%20business%20analytics%2C 目錄內容:
這本教科書介紹了時間序列分析和預測的方法和技術,并展示了如何使用Python實現它們和解決數據科學問題。它不僅涵蓋了常用的統計方法和時間序列模型,包括ARMA、SARIMA、VAR、GARCH、狀態空間和(非)平穩、多元和金融時間序列的馬爾可夫切換模型,還包括現代機器學習程序和時間序列預測的挑戰。它提供了時間序列分析原理和Python編程的有機結合,使讀者能夠學習方法和技術,同時練習編寫和運行Python代碼。它的數據驅動方法來分析和建模時間序列數據,幫助新學習者可視化和解釋原始數據及其計算結果。本書主要面向具有概率和統計學本科知識的統計學、經濟學和數據科學專業的學生,同樣也會吸引人工智能和數據科學領域的行業專業人士,以及任何對使用Python解決時間序列問題感興趣的人。
Python是訪問、操作和從各種數據中獲得見解的理想選擇。Python for Data Science通過根植于實際示例和實踐活動的邊做邊學的方法向您介紹Python的數據分析世界。您將學習如何編寫Python代碼來獲取、轉換和分析數據,為業務管理、市場營銷和決策支持中的用例實踐最先進的數據處理技術。
您將發現Python豐富的用于基本操作的內置數據結構集,以及用于數據科學的健壯的開源庫生態系統,包括NumPy、pandas、scikit-learn、matplotlib等。這些示例展示了如何以各種格式加載數據,如何簡化、分組和聚合數據集,以及如何創建圖表、地圖和其他可視化功能。后面的章節將深入展示真實世界的數據應用,包括使用位置數據為出租車服務提供動力,市場籃子分析來識別共同購買的商品,以及機器學習來預測股票價格。
這本書從數據處理和分析的概念介紹開始,解釋一個典型的數據處理管道。然后,我們將介紹Python的內置數據結構和一些廣泛用于數據科學應用程序的第三方Python庫。接下來,我們將探討用于獲取、組合、聚合、分組、分析和可視化不同大小和數據類型的數據集的日益復雜的技術。隨著本書的深入,我們將把Python數據科學技術應用到商業管理、市場營銷和金融領域的實際用例中。每一章都包含“練習”部分,這樣你就可以練習和鞏固你剛剛學到的知識。
第一章: 數據的基礎知識為理解使用數據的基本要素提供了必要的背景知識。您將了解到數據有不同的類別,包括結構化、非結構化和半結構化數據。然后,您將了解典型數據分析過程中涉及的步驟。
第二章:Python數據結構介紹Python內置的四種數據結構:列表、字典、元組和集合。您將看到如何使用每個結構,以及如何將它們組合成更復雜的結構,可以表示現實世界的對象。
第三章:Python數據科學庫討論了Python健壯的第三方數據分析和操作庫生態系統。您將看到pandas庫及其主要數據結構Series和DataFrame,它們已經成為面向數據的Python應用程序的實際標準。您還將了解NumPy和scikit-learn,這兩個庫通常用于數據科學。
第四章:從文件和api訪問數據深入了解獲取數據并將其加載到腳本中的細節。您將學習如何將不同來源的數據(如文件和api)加載到Python腳本中的數據結構中,以便進行進一步處理。
第五章:使用數據庫繼續討論將數據導入Python,涵蓋了如何使用數據庫數據。您將看到訪問和操作存儲在不同類型數據庫中的數據的示例,包括關系數據庫(如MySQL)和NoSQL數據庫(如MongoDB)。 第六章:聚合數據通過對數據進行分組并進行聚合計算來解決匯總數據的問題。您將學習使用pandas對數據進行分組,并生成小計、總計和其他聚合。 第七章:結合數據集介紹了如何將來自不同數據源的數據組合為一個單獨的數據集。您將學習SQL開發人員用于連接數據庫表的技術,并將它們應用于內置的Python數據結構、NumPy數組和pandas DataFrames。 第八章:創建可視化討論可視化是最自然的方式揭露隱藏的數據中的模式。您將了解不同類型的可視化,如線形圖、條形圖和直方圖,并將了解如何使用用于繪圖的主要Python庫Matplotlib創建它們。您還將使用Cartopy庫來生成映射。 第九章:分析位置數據解釋如何使用geopy和Shapely庫處理位置數據。您將學習獲取和使用靜止和移動物體的GPS坐標的方法,并將探索拼車服務如何為給定的皮卡識別最佳汽車的現實世界示例。 第十章:分析時間序列數據提出了一些分析技術可以應用于時間序列數據中提取有意義的數據。特別地,本章中的例子說明了時間序列數據分析如何應用于股票市場數據。 第十一章:從數據中獲得洞察力探討了從數據中獲得洞察力的策略,以便做出明智的決定。例如,您將學習如何發現超市中銷售的產品之間的關聯,從而確定在一次交易中經常一起購買的商品組(對推薦和促銷有用)。 第十二章:機器學習數據分析涵蓋了使用scikitlearn先進的數據分析任務。您將訓練機器學習模型,根據產品的星級評級對產品評論進行分類,并預測股票價格的趨勢。
如果你對機器學習很好奇,但不知道從哪里開始,這就是你一直在等待的書。它專注于被稱為深度學習的機器學習子領域,解釋了核心概念,并為您提供了開始構建自己的模型所需的基礎。而不是簡單地概述使用現有工具包的教程,實用深度學習教你為什么使用深度學習,并將激勵你進一步探索。
你所需要的是對計算機編程和高中數學的基本熟悉——這本書將涵蓋其余的內容。在介紹Python之后,您將瀏覽關鍵主題,如如何構建良好的訓練數據集,使用scikit-learn和Keras庫,并評估您的模型的性能。
您還將了解:
如何使用經典的機器學習模型,如k-最近鄰,隨機森林,和支持向量機 神經網絡是如何工作的,又是如何訓練的 如何使用卷積神經網絡 如何從零開始開發一個成功的深度學習模型 您將在此過程中進行實驗,構建最終的案例研究,其中包含您所學到的所有內容。 您將使用的所有代碼都可以在這里獲得: //github.com/rkneusel9/PracticalDeepLearningPython/
這是對這個動態的,不斷擴大的領域的完美介紹,實用深度學習將給你的技能和信心潛入自己的機器學習項目。
這本書的目的是講述當今世界各地研究人員使用的統計學的故事。這是一個不同的故事,在大多數介紹性的統計書籍,重點教如何使用一套工具,以實現非常具體的目標。這本書的重點在于理解統計思維的基本思想——一種關于我們如何描述世界、如何使用數據做出決定和預測的系統思維方式,所有這些都存在于現實世界的內在不確定性的背景下。它還帶來了當前的方法,這些方法只有在過去幾十年中計算能力的驚人增長才變得可行。在20世紀50年代需要數年時間才能完成的分析,現在在一臺標準的筆記本電腦上只需幾秒鐘就能完成,這種能力釋放了利用計算機模擬以新的、強大的方式提出問題的能力。
這本書也是在2010年以來席卷了許多科學領域的再現危機之后寫成的。這場危機的一個重要根源在于,研究人員一直在使用(和濫用)統計假設檢驗(我將在本書的最后一章詳細說明),這直接與統計教育有關。因此,本書的目標是突出當前統計方法可能存在的問題,并提出替代方案。
//link.springer.com/book/10.1007/978-3-319-55444-0
這本引人入勝的和清晰的書面教科書/參考提供了一個必要的介紹,迅速興起的跨學科領域的數據科學。它側重于成為一名優秀的數據科學家的基本原則,以及建立收集、分析和解釋數據的系統所需的關鍵技能。
《數據科學設計手冊》是一個實用的見解來源,它突出了分析數據中真正重要的東西,并提供了對如何使用這些核心概念的直觀理解。這本書沒有強調任何特定的編程語言或數據分析工具套件,而是著重于重要設計原則的高層討論。
《數據科學概論》是一門易于閱讀的課程,理想情況下,它能滿足本科生和早期研究生的需求。它揭示了這門學科如何處于統計學、計算機科學和機器學習的交叉點,具有自己獨特的分量和特點。這些和相關領域的從業者會發現這本書非常適合自學。
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
歡迎學習Python的基礎知識。不僅僅是高級語法和編寫干凈代碼的熟練技巧的集合,您將學習如何通過使用命令行和其他專業工具(如代碼格式化器、類型檢查器、linters和版本控制)來提高您的Python編程技能。
Sweigart帶您通過設置開發環境、命名變量和提高可讀性的最佳實踐,然后處理文檔、組織和性能度量,以及面向對象設計和編程面試中常用的Big-O算法分析。你所學的技能將會提高你編程的能力——不僅僅是用Python,而是用任何語言。
//nostarch.com/beyond-basic-stuff-python
你將學習: