//www.manning.com/books/mastering-large-datasets-with-python
現代數據科學解決方案需要簡潔、易于閱讀和可伸縮。在《用Python掌握大型數據集》一書中,作者J.T. Wolohan向您介紹了如何使用Python編碼的功能影響方法來處理小型項目并對其進行擴展。您將探索有助于清晰性和可伸縮性的方法和內置Python工具,比如高性能并行方法,以及支持高數據吞吐量的分布式技術。本實用教程中豐富的實踐練習將為任何大型數據科學項目鎖定這些基本技能。
對這項技術
當應用于大量文件或分布式數據集時,在筆記本大小的數據上運行良好的編程技術可能會變慢,甚至完全失敗。通過掌握強大的map和reduce范型,以及支持它的基于python的工具,您可以編寫以數據為中心的應用程序,這些應用程序可以有效地擴展,而不需要在需求發生變化時重寫代碼庫。
關于這本書
使用Python掌握大型數據集教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教會您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業級數據集。有了map和reduce范型,您將探索像Hadoop和PySpark這樣的工具來有效地處理大量的分布式數據集,使用機器學習加速決策制定,并使用AWS S3簡化數據存儲。
里面有什么
對map和reduce范例的介紹
并行化與多處理模塊框架
分布式計算的Hadoop和Spark
運行AWS作業來處理大型數據集
機器學習已經成為許多商業應用和研究項目中不可或缺的一部分,但這一領域并不僅限于擁有廣泛研究團隊的大公司。如果您使用Python,即使是初學者,這本書也會教你構建自己的機器學習解決方案的實用方法。今天,有了所有可用的數據,機器學習應用程序只受限于你的想象力。
您將學習使用Python和scikit-learn庫創建成功的機器學習應用程序所需的步驟。兩位作者安德烈亞斯?穆勒(Andreas Muller)和薩拉?圭多(Sarah Guido)關注的是使用機器學習算法的實踐層面,而不是背后的數學。熟悉NumPy和matplotlib庫將有助于您從本書獲得更多信息。
通過這本書,你會學到 :
Manning最暢銷的Java 8書籍已經被修訂為Java 9和Java 10!在Modern Java In Action中,讀者可以使用最新的特性和技術,在已有的Java語言技能的基礎上進行構建。
Java 9的發布建立在Java 8令人激動的基礎之上。除了Java 8的lambdas和streams之外,Java 9還添加了許多自己的新特性。它包含了新的庫特性來支持響應式編程,這為用戶提供了一種新的方式來思考編程和編寫更易于閱讀和維護的代碼。
簡單易懂,讀起來很有趣,介紹Python對于初學者和語言新手都是理想的。作者Bill Lubanovic帶您從基礎知識到更復雜和更多樣的主題,混合教程和烹飪書風格的代碼配方來解釋Python 3中的概念。章節結尾的練習可以幫助你練習所學的內容。
您將獲得該語言的堅實基礎,包括測試、調試、代碼重用和其他開發技巧的最佳實踐。本書還向您展示了如何使用各種Python工具和開放源碼包將Python用于商業、科學和藝術領域的應用程序。
考慮到當今使用的各種大數據應用程序的復雜性,cpu密集型的數據處理任務已經變得至關重要。降低每個進程的CPU利用率對于提高應用程序的總體速度非常重要。
這本書將教你如何執行計算的并行執行,將它們分布在一臺機器的多個處理器上,從而提高大數據處理任務的整體性能。我們將討論同步和異步模型、共享內存和文件系統、各種進程之間的通信、同步等等。
你會學到什么
《算法精解:C語言描述》,機械工業出版社出版,外文書名:Mastering Algorithms with C。作者:(美)Kyle Loudon (作者),? 肖翔 (譯者),? 陳舸 (譯者) 。《算法精解:C語言描述》是數據結構和算法領域的經典之作,十余年來,暢銷不衰!全書共分為三部分:部分首先介紹了數據結構和算法的概念,以及使用它們的原因和意義,然后講解了數據結構和算法中最常用的技術——指針和遞歸,最后還介紹了算法的分析方法,旨在為讀者學習這本書打下堅實的基礎;第二部分對鏈表、棧、隊列、集合、哈希表、堆、圖等常用數據結構進行了深入闡述;第三部分對排序、搜索數值計算、數據壓縮、數據加密、圖算法、幾何算法等經典算法進行了精辟的分析和講解。
本書的眾多特色使得它在同類書中獨樹一幟:具體實現都采用正式的C語言代碼而不是偽代碼,在很多數據結構和算法的實現過程中,有大量細節問題是偽代碼不能解決的;每一章都有精心組織的主題和應用;全部示例來自真實的應用,不只是一般的練習;對每種數據結構、算法和示例都進行了詳細分析;每一章的末尾都會有一系列問題和對應的回答,旨在強調這一章的重要思想……
本書中的代碼尤為值得強調:所有實現都采用C語言編寫,所有代碼都優先用于教學目的,所有代碼都在4種平臺上經過完整測試,頭文件記錄了所有公共的接口,命名規則適用于全書所有的代碼,所有的代碼都包含大量注釋……
《O’Reilly精品圖書系列·算法精解:C語言描述》內容包括: · 數據結構和算法的概念,以及使用它們的原因和意義 · 指針和遞歸 · 算法分析 · 常用數據結構:鏈表、棧、隊列、集合、哈希表、樹、堆、優先級隊列以及圖 · 排序和搜索 · 數值計算 · 數據壓縮 · 數據加密 · 圖算法 · 幾何算法
Python是一種多范式編程語言,已經成為數據科學家進行數據分析、可視化和機器學習的首選語言。有沒有想過如何成為有效處理數據分析問題的專家,解決這些問題,并從數據中提取所有可用信息?好了,別再找了,這就是你要的書!
通過這個全面的指南,您將探索數據,并以一種有意義的方式展示統計分析的結果和結論。您將能夠快速準確地執行實際操作的排序、縮減和后續分析,并充分理解數據分析方法如何支持業務決策。
您將首先了解Python中可用的數據分析工具,然后探索用于識別數據模式的統計模型。漸漸地,您將使用Python、panda和SciPy回顧統計推斷。在此之后,我們將集中于使用計算工具執行回歸,您將了解如何用算法的方式識別數據中的集群。最后,我們將深入探討使用貝葉斯方法量化因果關系的高級技術,您將發現如何使用Python的工具進行監督機器學習。
你會學到什么
掌握通過機器學習和深度學習識別和解決復雜問題的基本技能。使用真實世界的例子,利用流行的Python機器學習生態系統,這本書是你學習機器學習的藝術和科學成為一個成功的實踐者的完美伴侶。本書中使用的概念、技術、工具、框架和方法將教會您如何成功地思考、設計、構建和執行機器學習系統和項目。
使用Python進行的實際機器學習遵循結構化和全面的三層方法,其中包含了實踐示例和代碼。
第1部分側重于理解機器學習的概念和工具。這包括機器學習基礎,對算法、技術、概念和應用程序的廣泛概述,然后介紹整個Python機器學習生態系統。還包括有用的機器學習工具、庫和框架的簡要指南。
第2部分詳細介紹了標準的機器學習流程,重點介紹了數據處理分析、特征工程和建模。您將學習如何處理、總結和可視化各種形式的數據。特性工程和選擇方法將詳細介紹真實數據集,然后是模型構建、調優、解釋和部署。
第3部分探討了多個真實世界的案例研究,涵蓋了零售、交通、電影、音樂、營銷、計算機視覺和金融等不同領域和行業。對于每個案例研究,您將學習各種機器學習技術和方法的應用。動手的例子將幫助您熟悉最先進的機器學習工具和技術,并了解什么算法最適合任何問題。
實用的機器學習與Python將授權您開始解決您自己的問題與機器學習今天!
你將學習:
這本書是給誰看的 IT專業人士、分析師、開發人員、數據科學家、工程師、研究生
目錄:
Part I: Understanding Machine Learning
Chapter 12: Deep Learning for Computer Vision
主題: Mastering Large Datasets with Python
簡介: 使用Python掌握大型數據集可以教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業大小的數據集。隨著map和reduce范例的穩固就位,您將探索Hadoop和PySpark等工具,以高效地處理大量分布式數據集,使用機器學習加快決策,并使用AWS S3簡化數據存儲。
作者簡介: John T. Wolohan是Booz Allen Hamilton的首席數據科學家,也是印第安納大學的博士研究員。
簡介:
探索用Python編寫代碼的正確方法。這本書提供的技巧和技術,你需要生產更干凈,無錯誤,和雄辯的Python項目。
要獲得更好的代碼,首先要理解對代碼進行格式化和編制文檔以獲得最大可讀性的重要性,利用內置的數據結構和Python字典來提高可維護性,并使用模塊和元類來有效地組織代碼。然后,您將深入了解Python語言的新特性,并學習如何有效地利用它們。接下來,您將解碼關鍵概念,如異步編程、Python數據類型、類型提示和路徑處理。學習在Python代碼中調試和執行單元測試和集成測試的技巧,以確保您的代碼可以投入生產。學習旅程的最后一段為您提供了版本管理、實時代碼管理和智能代碼完成的基本工具。 在閱讀和使用這本書之后,您將熟練地編寫干凈的Python代碼,并成功地將這些原則應用到您自己的Python項目中。
目錄:
作者:
Sunil Kapil在過去十年一直從事軟件行業,用Python和其他幾種語言編寫產品代碼。 他曾是一名軟件工程師,主要從事網絡和移動服務的后端工作。他開發、部署并維護了數百萬用戶喜愛和使用的從小型到大型的生產項目。他與世界各地知名軟件公司的大小團隊在不同的專業環境中完成了這些項目。他也是開源的熱情倡導者,并不斷為Zulip Chat和Black等項目貢獻力量。Sunil經常在各種會議上發表關于Python的演講。