【導讀】Python現在是編程首選語言,但是面向數據科學家的Python的教程并非那么好上手。最近Wenqiang Feng, Xu Gao and Upendra Madam三位數據科學家撰寫了一本《給數據科學家的Python技能秘籍》,簡明扼要,非常實用,使用與數據科學家相關的詳細演示代碼和示例來共享一些用于數據科學家工作的有用python技巧,值得放在身旁學習查看!
地址: //runawayhorse001.github.io/PythonTipsDS/pd.html
為什么寫這本筆記?
不管你喜歡與否,Python一直是最流行的編程語言之一。我已經使用Python將近4年了。坦白地說,在第一次使用Python時,我并沒有被它所吸引。在開始工作后,我不得不使用Python。漸漸地,我認識到了Python的優雅之處,并將其作為我的主要編程語言之一。但我相信:
大多數強調編程的Python書籍或教程會淹沒新入門的用戶。
雖然大多數用于數據科學家或數據分析的Python書籍或教程都沒有涵蓋工程師方面的一些基本技能。
所以我想保留一些有價值的建議,這些建議在我的日常工作中得到了廣泛的應用。
機器學習已經成為許多商業應用和研究項目中不可或缺的一部分,但這一領域并不僅限于擁有廣泛研究團隊的大公司。如果您使用Python,即使是初學者,這本書也會教你構建自己的機器學習解決方案的實用方法。今天,有了所有可用的數據,機器學習應用程序只受限于你的想象力。
您將學習使用Python和scikit-learn庫創建成功的機器學習應用程序所需的步驟。兩位作者安德烈亞斯?穆勒(Andreas Muller)和薩拉?圭多(Sarah Guido)關注的是使用機器學習算法的實踐層面,而不是背后的數學。熟悉NumPy和matplotlib庫將有助于您從本書獲得更多信息。
通過這本書,你會學到 :
從設計和原型設計到測試、部署和維護,Python在許多方面都很有用,它一直是當今最流行的編程語言之一。這本實用的書的第三版提供了對語言的快速參考——包括Python 3.5、2.7和3.6的突出部分——它龐大的標準庫中常用的區域,以及一些最有用的第三方模塊和包。
本書非常適合具有一些Python經驗的程序員,以及來自其他編程語言的程序員,它涵蓋了廣泛的應用領域,包括web和網絡編程、XML處理、數據庫交互和高速數字計算。了解Python如何提供優雅、簡單、實用和強大功能的獨特組合。
這個版本包括:
《快速Python書籍,第三版》是由Python權威Naomi Ceder編寫的關于Python語言的全面指南。作為一名熟練的教師,她完美地平衡了語言的細節和你處理任何任務所需的洞察力和建議。大量相關的例子和邊做邊學的練習可以幫助你第一次掌握每個重要的概念。無論您是抓取網站還是玩弄嵌套元組,您都會欣賞這本書的清晰、重點和對細節的關注。
這是Manning受歡迎的《快速Python》一書的第三版,對優雅的Python編程語言及其著名的易于閱讀的語法進行了清晰、清晰的介紹。這是為初學Python的程序員編寫的,最新的版本包含了新的練習。它簡明扼要地介紹了其他語言共有的特性,同時詳細介紹了Python的全面標準函數庫和獨特的特性。
Python算法,第二版解釋了Python方法的算法分析和設計。本書由《初級Python》的作者Magnus Lie Hetland撰寫,主要關注經典算法,但也對基本的算法解決問題技術有了深入的理解。
這本書涉及一些最重要和最具挑戰性的領域的編程和計算機科學在一個高度可讀的方式。它涵蓋了算法理論和編程實踐,演示了理論是如何反映在真實的Python程序中的。介紹了Python語言中內置的著名算法和數據結構,并向用戶展示了如何實現和評估其他算法和數據結構
//www.manning.com/books/mastering-large-datasets-with-python
現代數據科學解決方案需要簡潔、易于閱讀和可伸縮。在《用Python掌握大型數據集》一書中,作者J.T. Wolohan向您介紹了如何使用Python編碼的功能影響方法來處理小型項目并對其進行擴展。您將探索有助于清晰性和可伸縮性的方法和內置Python工具,比如高性能并行方法,以及支持高數據吞吐量的分布式技術。本實用教程中豐富的實踐練習將為任何大型數據科學項目鎖定這些基本技能。
對這項技術
當應用于大量文件或分布式數據集時,在筆記本大小的數據上運行良好的編程技術可能會變慢,甚至完全失敗。通過掌握強大的map和reduce范型,以及支持它的基于python的工具,您可以編寫以數據為中心的應用程序,這些應用程序可以有效地擴展,而不需要在需求發生變化時重寫代碼庫。
關于這本書
使用Python掌握大型數據集教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教會您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業級數據集。有了map和reduce范型,您將探索像Hadoop和PySpark這樣的工具來有效地處理大量的分布式數據集,使用機器學習加速決策制定,并使用AWS S3簡化數據存儲。
里面有什么
對map和reduce范例的介紹
并行化與多處理模塊框架
分布式計算的Hadoop和Spark
運行AWS作業來處理大型數據集
簡介:
探索用Python編寫代碼的正確方法。這本書提供的技巧和技術,你需要生產更干凈,無錯誤,和雄辯的Python項目。
要獲得更好的代碼,首先要理解對代碼進行格式化和編制文檔以獲得最大可讀性的重要性,利用內置的數據結構和Python字典來提高可維護性,并使用模塊和元類來有效地組織代碼。然后,您將深入了解Python語言的新特性,并學習如何有效地利用它們。接下來,您將解碼關鍵概念,如異步編程、Python數據類型、類型提示和路徑處理。學習在Python代碼中調試和執行單元測試和集成測試的技巧,以確保您的代碼可以投入生產。學習旅程的最后一段為您提供了版本管理、實時代碼管理和智能代碼完成的基本工具。 在閱讀和使用這本書之后,您將熟練地編寫干凈的Python代碼,并成功地將這些原則應用到您自己的Python項目中。
目錄:
作者:
Sunil Kapil在過去十年一直從事軟件行業,用Python和其他幾種語言編寫產品代碼。 他曾是一名軟件工程師,主要從事網絡和移動服務的后端工作。他開發、部署并維護了數百萬用戶喜愛和使用的從小型到大型的生產項目。他與世界各地知名軟件公司的大小團隊在不同的專業環境中完成了這些項目。他也是開源的熱情倡導者,并不斷為Zulip Chat和Black等項目貢獻力量。Sunil經常在各種會議上發表關于Python的演講。