如何將原始的、未經處理的或格式不正確的數據轉換為動態的、交互式的Web可視化?在這本實用的書中,作者Kyran Dale向數據科學家和分析師——以及Python和JavaScript開發人員——展示了如何為工作創建理想的工具鏈。通過提供引人入勝的示例和強調來之不易的最佳實踐,本指南教你如何利用最佳Python和JavaScript庫的力量。 Python提供了可訪問的、強大的、成熟的庫來抓取、清理和處理數據。雖然JavaScript是web可視化編程的最佳語言,但它的數據處理能力無法與Python相比。總之,這兩種語言是創建現代web可視化工具鏈的完美補充。這本書能讓你入門。
//www.oreilly.com/library/view/data-visualization-with/9781098111861/
你將學習如何:
通過編程獲取你需要的數據,使用抓取工具或web api: Requests, Scrapy, Beautiful Soup * 使用NumPy生態系統中的Python重量級數據處理庫清理和處理數據:Jupyter notebook with pandas+Matplotlib+Seaborn * 將數據以靜態文件的形式發送給瀏覽器,或者使用輕量級的Flask (Python服務器)和RESTful API * 學習足夠的web開發技能(HTML、CSS、JS),以便在web上獲得可視化數據 * 使用你挖掘和細化的數據,使用Plotly、D3、Leaflet和其他庫創建網絡圖表和可視化
對于許多研究人員來說,Python是一個一流的工具,主要是因為它用于存儲、操作和洞察數據的庫。這個數據科學技術棧的各個部分有很多資源,但只有通過Python數據科學手冊,你才能獲得所有的資源——ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相關工具。
//www.oreilly.com/library/view/python-data-science/9781491912126/
熟悉閱讀和編寫Python代碼的工作科學家和數據處理人員會發現這個全面的桌面參考資料非常適合處理日常問題:操作、轉換和清理數據;可視化不同類型的數據;并使用數據建立統計或機器學習模型。很簡單,這是Python科學計算的必備參考資料。 通過這本手冊,你將學習如何使用: * IPython和Jupyter:為使用Python的數據科學家提供計算環境 * NumPy:包括ndarray,用于在Python中高效存儲和操作密集數據數組 * Pandas:以DataFrame為特色,用于在Python中高效存儲和操作標記/列式數據 * Matplotlib:包含Python中靈活的數據可視化功能 * Scikit-Learn:為最重要和已建立的機器學習算法提供高效和干凈的Python實現
如何將原始的、未經處理的或格式不正確的數據轉換為動態的、交互式的web可視化?在這本實用的書中,作者Kyran Dale向數據科學家和分析師——以及Python和JavaScript開發人員——展示了如何為工作創建理想的工具鏈。通過提供引人入勝的示例和強調來之不易的最佳實踐,本指南教你如何利用最佳Python和JavaScript庫的力量。
Python提供了可訪問的、強大的、成熟的庫來抓取、清理和處理數據。雖然JavaScript是web可視化編程的最佳語言,但它的數據處理能力無法與Python相比。總之,這兩種語言是創建現代web可視化工具鏈的完美補充。這本書能讓你入門。
你將學習如何:
通過編程獲取你需要的數據,使用抓取工具或web api: Requests, Scrapy, Beautiful Soup * 使用NumPy生態系統中的Python重量級數據處理庫清理和處理數據:Jupyter notebook with pandas+Matplotlib+Seaborn * 將數據以靜態文件的形式發送給瀏覽器,或者使用輕量級的Flask (Python服務器)和RESTful API * 學習足夠的web開發技能(HTML、CSS、JS),以便在web上獲得可視化數據 * 使用你挖掘和細化的數據,使用Plotly、D3、Leaflet和其他庫創建網絡圖表和可視化
//www.oreilly.com/library/view/data-visualization-with/9781098111861/
獲取使用Python操作、處理、清理和處理數據集的權威手冊。對于Python 3.10和pandas 1.4的更新,這個實踐指南的第三版包含了實踐案例研究,向您展示如何有效地解決大量數據分析問題。在此過程中,您將了解最新版本的pandas、NumPy和Jupyter。
本書涉及Python中操作、處理、清理和處理數據的具體細節。我的目標是為Python編程語言的各個部分及其面向數據的庫生態系統和工具提供指導,幫助您成為一名有效的數據分析師。雖然“數據分析”在這本書的標題中,但重點是Python編程、庫和工具,而不是數據分析方法。這是數據分析所需的Python編程。
在我2012年最初出版這本書之后的某個時候,人們開始用數據科學這個術語來概括從簡單的描述性統計到更高級的統計分析和機器學習的一切。從那時起,用于進行數據分析(或數據科學)的Python開源生態系統也得到了顯著的擴展。現在有很多其他的書專門關注這些更高級的方法。我希望本書能夠為您提供充分的準備,使您能夠轉向更具體的領域資源。
目錄內容:
Preface * Preliminaries * Python Language Basics, IPython, and Jupyter Notebooks * Built-In Data Structures, Functions, and Files * NumPy Basics: Arrays and Vectorized Computation * Getting Started with pandas * Data Loading, Storage, and File Formats * Data Cleaning and Preparation * Data Wrangling: Join, Combine, and Reshape * Plotting and Visualization
Data Aggregation and Group Operations* Time Series * Introduction to Modeling Libraries in Python * Data Analysis Examples * Advanced NumPy * More on the IPython System * Index * About the Author
Python是訪問、操作和從各種數據中獲得見解的理想選擇。Python for Data Science通過根植于實際示例和實踐活動的邊做邊學的方法向您介紹Python的數據分析世界。您將學習如何編寫Python代碼來獲取、轉換和分析數據,為業務管理、市場營銷和決策支持中的用例實踐最先進的數據處理技術。
您將發現Python豐富的用于基本操作的內置數據結構集,以及用于數據科學的健壯的開源庫生態系統,包括NumPy、pandas、scikit-learn、matplotlib等。這些示例展示了如何以各種格式加載數據,如何簡化、分組和聚合數據集,以及如何創建圖表、地圖和其他可視化功能。后面的章節將深入展示真實世界的數據應用,包括使用位置數據為出租車服務提供動力,市場籃子分析來識別共同購買的商品,以及機器學習來預測股票價格。
這本書從數據處理和分析的概念介紹開始,解釋一個典型的數據處理管道。然后,我們將介紹Python的內置數據結構和一些廣泛用于數據科學應用程序的第三方Python庫。接下來,我們將探討用于獲取、組合、聚合、分組、分析和可視化不同大小和數據類型的數據集的日益復雜的技術。隨著本書的深入,我們將把Python數據科學技術應用到商業管理、市場營銷和金融領域的實際用例中。每一章都包含“練習”部分,這樣你就可以練習和鞏固你剛剛學到的知識。
第一章: 數據的基礎知識為理解使用數據的基本要素提供了必要的背景知識。您將了解到數據有不同的類別,包括結構化、非結構化和半結構化數據。然后,您將了解典型數據分析過程中涉及的步驟。
第二章:Python數據結構介紹Python內置的四種數據結構:列表、字典、元組和集合。您將看到如何使用每個結構,以及如何將它們組合成更復雜的結構,可以表示現實世界的對象。
第三章:Python數據科學庫討論了Python健壯的第三方數據分析和操作庫生態系統。您將看到pandas庫及其主要數據結構Series和DataFrame,它們已經成為面向數據的Python應用程序的實際標準。您還將了解NumPy和scikit-learn,這兩個庫通常用于數據科學。
第四章:從文件和api訪問數據深入了解獲取數據并將其加載到腳本中的細節。您將學習如何將不同來源的數據(如文件和api)加載到Python腳本中的數據結構中,以便進行進一步處理。
第五章:使用數據庫繼續討論將數據導入Python,涵蓋了如何使用數據庫數據。您將看到訪問和操作存儲在不同類型數據庫中的數據的示例,包括關系數據庫(如MySQL)和NoSQL數據庫(如MongoDB)。 第六章:聚合數據通過對數據進行分組并進行聚合計算來解決匯總數據的問題。您將學習使用pandas對數據進行分組,并生成小計、總計和其他聚合。 第七章:結合數據集介紹了如何將來自不同數據源的數據組合為一個單獨的數據集。您將學習SQL開發人員用于連接數據庫表的技術,并將它們應用于內置的Python數據結構、NumPy數組和pandas DataFrames。 第八章:創建可視化討論可視化是最自然的方式揭露隱藏的數據中的模式。您將了解不同類型的可視化,如線形圖、條形圖和直方圖,并將了解如何使用用于繪圖的主要Python庫Matplotlib創建它們。您還將使用Cartopy庫來生成映射。 第九章:分析位置數據解釋如何使用geopy和Shapely庫處理位置數據。您將學習獲取和使用靜止和移動物體的GPS坐標的方法,并將探索拼車服務如何為給定的皮卡識別最佳汽車的現實世界示例。 第十章:分析時間序列數據提出了一些分析技術可以應用于時間序列數據中提取有意義的數據。特別地,本章中的例子說明了時間序列數據分析如何應用于股票市場數據。 第十一章:從數據中獲得洞察力探討了從數據中獲得洞察力的策略,以便做出明智的決定。例如,您將學習如何發現超市中銷售的產品之間的關聯,從而確定在一次交易中經常一起購買的商品組(對推薦和促銷有用)。 第十二章:機器學習數據分析涵蓋了使用scikitlearn先進的數據分析任務。您將訓練機器學習模型,根據產品的星級評級對產品評論進行分類,并預測股票價格的趨勢。
使用免費且易于學習的網絡工具,用數據講述你的故事并展示出來。這本入門書教你如何為你的網站設計交互式圖表和定制地圖,從簡單的拖放工具開始,如谷歌Sheets、Datawrapper和Tableau Public。你也將逐漸學會如何編輯開源代碼模板,如圖表.js, Highcharts,和在GitHub上的傳單。
動手數據可視化將通過教程,現實世界的例子和在線資源逐步帶您。這本實用指南對于學生、非營利組織、小企業主、地方政府、記者、學者以及任何想要從電子表格中提取數據并將其轉化為生動互動故事的人來說都是理想的。不需要編碼經驗。
這本書,你將學習如何通過混合設計原則和一步一步的教程的章節來創建真實和有意義的數據可視化,從而使你的基于信息的分析和論證更有洞察力和說服力。就像句子有了支持性證據和來源說明會變得更有說服力一樣,你的數據驅動寫作在搭配適當的表格、圖表或地圖時也會變得更強大。文字告訴我們故事,而可視化通過將數量、關系或空間模式轉換為圖像向我們展示數據故事。當可視化設計良好時,它們會將我們的注意力吸引到數據中最重要的東西上,而這是很難通過文本進行交流的。
我們的書以越來越多的免費和易于學習的數字工具為特色,用于創建數據可視化。我們將這一術語廣義地定義為:將數據編碼為圖像的圖表和添加空間維度的地圖。雖然表格不能以同樣的方式展示數據,但我們在本書中包含它們,是因為我們的實用需要引導新學習者通過決策過程,通常導致構建這三種產品之一。此外,在這個數字時代,我們將數據可視化定義為可以通過修改底層信息(通常存儲在數據文件中)輕松重用的圖像,而不是通常設計為一次性藝術品的信息圖。
我們設計了動手數據可視化來介紹關鍵概念,并為新學習者提供一步一步的教程。你可以自學,也可以用書來教別人。另外,與許多只關注于一個工具的技術書籍不同,我們的書指導您如何在我們推薦的20多個免費且易于使用的可視化工具中進行選擇。最后,雖然其他一些書只關注只能分布在紙上或PDF文檔上的靜態可視化,但我們演示了如何設計交互式表格、圖表和地圖,并將它們嵌入到web上。交互式可視化通過邀請他們與數據進行交互,探索他們感興趣的模式,如果需要的話下載文件,并輕松地在社交媒體上分享您的工作,從而在互聯網上吸引更廣泛的受眾。
//www.oreilly.com/library/view/hands-on-data-visualization/9781492085997/
任何使用動態類型語言的程序員都會告訴你,要擴展到更多的代碼行和更多的工程師是多么困難。這就是為什么Facebook、谷歌和微軟為他們的動態類型JavaScript和Python代碼發明了漸進靜態類型層。這本實用的書向你展示了TypeScript這個類型層的獨特之處:它通過其強大的靜態類型系統使編程變得有趣。
如果你是一個有中級JavaScript經驗的程序員,作者Boris Cherny會教你如何掌握TypeScript語言。你將了解TypeScript如何幫助你消除代碼中的bug,并使你的代碼能夠比以前在更多的工程師中擴展。
//www.oreilly.com/library/view/programming-typescript/9781492037644/
在這本書中,你會:
從基礎開始:學習TypeScript的不同類型和類型操作符,包括它們的用途和使用方法
探索高級主題:理解TypeScript復雜的類型系統,包括如何安全處理錯誤和構建異步程序
深入實踐:在你最喜歡的前端和后端框架中使用TypeScript,將你現有的JavaScript項目遷移到TypeScript中,并在生產環境中運行你的TypeScript應用
有興趣的數據科學專業人士可以通過本書學習Scikit-Learn圖書館以及機器學習的基本知識。本書結合了Anaconda Python發行版和流行的Scikit-Learn庫,演示了廣泛的有監督和無監督機器學習算法。通過用Python編寫的清晰示例,您可以在家里自己的機器上試用和試驗機器學習的原理。
所有的應用數學和編程技能需要掌握的內容,在這本書中涵蓋。不需要深入的面向對象編程知識,因為工作和完整的例子被提供和解釋。必要時,編碼示例是深入和復雜的。它們也簡潔、準確、完整,補充了介紹的機器學習概念。使用示例有助于建立必要的技能,以理解和應用復雜的機器學習算法。
對于那些在機器學習方面追求職業生涯的人來說,Scikit-Learn機器學習應用手冊是一個很好的起點。學習這本書的學生將學習基本知識,這是勝任工作的先決條件。讀者將接觸到專門為數據科學專業人員設計的蟒蛇分布,并將在流行的Scikit-Learn庫中構建技能,該庫是Python世界中許多機器學習應用程序的基礎。
你將學習
這本書是給誰的
如果編程是一種魔法,那么web抓取無疑是一種魔術。通過編寫一個簡單的自動化程序,您可以查詢web服務器、請求數據并解析它以提取所需的信息。這本實用書籍的擴展版不僅介紹了web抓取,而且還提供了從現代web中抓取幾乎所有類型數據的全面指南。
第1部分側重于web抓取機制:使用Python從web服務器請求信息,執行服務器響應的基本處理,并以自動方式與站點交互。第2部分探索了各種更具體的工具和應用程序,以適應您可能遇到的任何web抓取場景。