BuzzFeed News高級記者Lam Thuy Vo解釋了如何使用Python編程語言以有意義的方式挖掘、處理和分析社交網站上的數據。
虛假的推特賬號影響了總統選舉嗎?關于人類行為,Facebook和Reddit的檔案能告訴我們什么?在《挖掘社交媒體》中,BuzzFeed資深記者Lam Thuy Vo向你展示了如何使用Python和關鍵數據分析工具來挖掘隱藏在社交媒體中的故事。
無論您是專業記者、學術研究者還是公民調查員,您都將學習如何使用技術工具來收集和分析來自社交媒體的數據,從而構建引人注目的、數據驅動的故事。
學習如何:
社交媒體上充斥著成千上萬個隱藏的故事,等著被人講述。學習使用專業人士用來編寫自己的數據驅動的故事的數據偵探工具。
通過這個緊湊的實用指南,開始使用Python進行數據分析。這本書包括三個練習和一個用正確的格式從Python代碼中獲取數據的案例研究。使用Python學習數據分析還可以幫助您使用分析發現數據中的意義,并展示如何可視化數據。
每一節課都盡可能是獨立的,允許您根據需要插入和退出示例。如果您已經在使用Python進行數據分析,那么您會發現您希望知道如何使用Python來完成許多事情。然后,您可以將這些技術直接應用到您自己的項目中。
如果您不使用Python進行數據分析,那么本書從一開始就帶您了解基礎知識,為您在該主題中打下堅實的基礎。當你閱讀完這本書的時候,你會對如何使用Python進行數據分析有更好的理解。
你將學到什么
這本書是給誰的
想學習使用Python進行數據分析的同學。建議您具有Python方面的經驗,但不是必需的,因為您需要具有數據分析或數據科學方面的經驗。
理解并實施panda的大數據分析解決方案,強調性能。本書通過探索其底層實現和數據結構,增強了您使用Python數據分析庫pandas的直覺。
《Pandas 編程思想》介紹了大數據的主題,并通過觀看pandas幫助解決的激動人心和有影響力的項目來展示概念。從那里,您將學習按大小和類型評估您自己的項目,以確定pandas是否適合您的需要。作者Hannah Stepanek解釋了如何在pandas中有效地加載和規范化數據,并回顧了一些最常用的加載器和它們的幾個最強大的選項。然后,您將了解如何有效地訪問和轉換數據,應該避免哪些方法,以及何時使用更高級的性能技術。您還將學習基本的數據訪問、學習panda和直觀的字典語法。此外,還討論了如何選擇正確的DataFrame格式、使用多層次的DataFrame以及將來如何改進panda。
在本書結束時,您將對pandas庫的底層工作原理有一個牢固的理解。準備好用正確的方法在你自己的項目中做出自信的決定。
你將學到什么
這本書是給誰的
從設計和原型設計到測試、部署和維護,Python在許多方面都很有用,它一直是當今最流行的編程語言之一。這本實用的書的第三版提供了對語言的快速參考——包括Python 3.5、2.7和3.6的突出部分——它龐大的標準庫中常用的區域,以及一些最有用的第三方模塊和包。
本書非常適合具有一些Python經驗的程序員,以及來自其他編程語言的程序員,它涵蓋了廣泛的應用領域,包括web和網絡編程、XML處理、數據庫交互和高速數字計算。了解Python如何提供優雅、簡單、實用和強大功能的獨特組合。
這個版本包括:
數據科學庫、框架、模塊和工具包非常適合進行數據科學研究,但它們也是深入研究這一學科的好方法,不需要真正理解數據科學。在本書中,您將了解到許多最基本的數據科學工具和算法都是通過從頭實現來實現的。
如果你有數學天賦和一些編程技能,作者Joel Grus將幫助你熟悉作為數據科學核心的數學和統計,以及作為數據科學家的入門技能。如今,這些雜亂的、充斥著海量數據的數據,為一些甚至沒人想過要問的問題提供了答案。這本書為你提供了挖掘這些答案的訣竅。
參加Python速成班
簡單易懂,讀起來很有趣,介紹Python對于初學者和語言新手都是理想的。作者Bill Lubanovic帶您從基礎知識到更復雜和更多樣的主題,混合教程和烹飪書風格的代碼配方來解釋Python 3中的概念。章節結尾的練習可以幫助你練習所學的內容。
您將獲得該語言的堅實基礎,包括測試、調試、代碼重用和其他開發技巧的最佳實踐。本書還向您展示了如何使用各種Python工具和開放源碼包將Python用于商業、科學和藝術領域的應用程序。
本書主要內容包括:數據清洗在數據科學領域中的重要作用,文件格式、數據類型、字符編碼的基本概念,組織和處理數據的電子表格與文本編輯器,各種格式數據的轉換方法,解析和清洗網頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數據的方法,檢測和清除RDBMS 中的壞數據的解決方案,以及使用書中介紹的方法清洗來自Twitter 和Stack Overflow 的數據。
本書適合任何水平的數據科學家以及對數據清理感興趣的讀者閱讀。
數據清洗是數據挖掘與分析過程中不可缺少的一個環節,但因為數據類型極其復雜,傳統的清洗臟數據工作單調乏味且異常辛苦。如果能利用正確的工具和方法,就可以讓數據清洗工作事半功倍。
本書從文件格式、數據類型、字符編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關系型數據庫、網頁文件和PDF文檔中的數據。最后提供了兩個真實的項目,讓讀者將所有數據清洗技術付諸實踐,完成整個數據科學過程。
如果你是一位數據科學家,或者從事數據科學工作,哪怕是位新手,只要對數據清洗有興趣,那么本書就適合你閱讀!
如果編程是一種魔法,那么web抓取無疑是一種魔術。通過編寫一個簡單的自動化程序,您可以查詢web服務器、請求數據并解析它以提取所需的信息。這本實用書籍的擴展版不僅介紹了web抓取,而且還提供了從現代web中抓取幾乎所有類型數據的全面指南。
第1部分側重于web抓取機制:使用Python從web服務器請求信息,執行服務器響應的基本處理,并以自動方式與站點交互。第2部分探索了各種更具體的工具和應用程序,以適應您可能遇到的任何web抓取場景。
流式數據介紹了流式和實時數據系統的概念和要求。這本書是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。
對這項技術
作為人類,我們不斷地過濾和解密流向我們的信息。以同樣的方式,流數據應用程序可以完成一些驚人的任務,比如讀取實時位置數據以推薦附近的服務,實時跟蹤機器故障,以及在客戶離開商店之前發送數字收據。流數據技術和技術的最新進展使任何開發人員都有可能構建這些應用程序,如果他們有正確的心態。這本書會讓你加入他們。
關于這本書
流式數據是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。通過相關的示例和演示用例,您將探索讀取、分析、共享和存儲流數據的應用程序的設計。在此過程中,您將發現關鍵技術的角色,如Spark、Storm、Kafka、Flink、RabbitMQ等。這本書在宏觀思維和實現細節之間提供了完美的平衡。
里面有什么
收集實時數據的正確方法 構建流管道 分析數據 何時使用何種技術
從數據科學的角度研究Python,并學習用于做出關鍵業務決策的數據可視化的成熟技術。從介紹Python的數據科學開始,您將進一步了解Python環境,并熟悉Jupyter Notebook和Spyder等編輯器。通過Python編程入門之后,您將掌握數據科學中使用的基本Python編程技術。接下來是數據可視化,您將看到它如何滿足現代業務需求并形成決策的關鍵因素。您還將了解Python中一些流行的數據可視化庫。
將重點轉移到數據結構,您將從數據科學的角度了解數據結構的各個方面。然后使用Python處理文件I/O和正則表達式,然后收集和清理數據。繼續探索和分析數據,您將看到Python中的高級數據結構。然后,您將深入研究數據可視化技術,了解Python中的許多繪圖系統。
最后,您將完成一個詳細的案例研究,您將有機會重溫到目前為止介紹的概念。
你會學到什么
這本書是給誰看的
具有基本Python編程知識的開發人員希望采用使用Python進行數據分析和可視化的關鍵策略。
用科學的分析方法從數據中挖掘出更多的信息
圖分析和可視化將圖論從實驗室帶到了現實世界。使用跨越分析功能的復雜方法和工具,本指南向您展示了如何利用圖和網絡分析技術來發現新的業務見解和機會。全彩出版,這本書描述了創建強大的可視化的過程中使用了豐富和迷人的一組例子,從體育,金融,營銷,安全,社會媒體,等等。您將找到模式識別和使用各種數據源(包括大數據)的實用指南,以及關于軟件和編程的清晰說明。這個配套的網站提供了數據集、Python中的完整代碼示例以及到書中涉及的所有工具的鏈接。
科學已經從網絡和圖論中獲益,這為物理學、經濟學、遺傳學等領域的突破提供了動力。本書將這些經過驗證的技術引入商業、金融、戰略和設計領域,幫助從數據中提取更多的信息,并更好地將結果傳達給決策者。
在網絡和圖論方面有大量的科學工作,但很少直接應用于核心科學之外的分析功能——直到現在。對于那些尋求經驗為基礎的,系統的分析方法和強大的工具,適用于實驗室之外,圖形分析和可視化是一個徹底的,權威的資源。