如果編程是一種魔法,那么web抓取無疑是一種魔術。通過編寫一個簡單的自動化程序,您可以查詢web服務器、請求數據并解析它以提取所需的信息。這本實用書籍的擴展版不僅介紹了web抓取,而且還提供了從現代web中抓取幾乎所有類型數據的全面指南。
第1部分側重于web抓取機制:使用Python從web服務器請求信息,執行服務器響應的基本處理,并以自動方式與站點交互。第2部分探索了各種更具體的工具和應用程序,以適應您可能遇到的任何web抓取場景。
通過這個緊湊的實用指南,開始使用Python進行數據分析。這本書包括三個練習和一個用正確的格式從Python代碼中獲取數據的案例研究。使用Python學習數據分析還可以幫助您使用分析發現數據中的意義,并展示如何可視化數據。
每一節課都盡可能是獨立的,允許您根據需要插入和退出示例。如果您已經在使用Python進行數據分析,那么您會發現您希望知道如何使用Python來完成許多事情。然后,您可以將這些技術直接應用到您自己的項目中。
如果您不使用Python進行數據分析,那么本書從一開始就帶您了解基礎知識,為您在該主題中打下堅實的基礎。當你閱讀完這本書的時候,你會對如何使用Python進行數據分析有更好的理解。
你將學到什么
這本書是給誰的
想學習使用Python進行數據分析的同學。建議您具有Python方面的經驗,但不是必需的,因為您需要具有數據分析或數據科學方面的經驗。
從設計和原型設計到測試、部署和維護,Python在許多方面都很有用,它一直是當今最流行的編程語言之一。這本實用的書的第三版提供了對語言的快速參考——包括Python 3.5、2.7和3.6的突出部分——它龐大的標準庫中常用的區域,以及一些最有用的第三方模塊和包。
本書非常適合具有一些Python經驗的程序員,以及來自其他編程語言的程序員,它涵蓋了廣泛的應用領域,包括web和網絡編程、XML處理、數據庫交互和高速數字計算。了解Python如何提供優雅、簡單、實用和強大功能的獨特組合。
這個版本包括:
簡單易懂,讀起來很有趣,介紹Python對于初學者和語言新手都是理想的。作者Bill Lubanovic帶您從基礎知識到更復雜和更多樣的主題,混合教程和烹飪書風格的代碼配方來解釋Python 3中的概念。章節結尾的練習可以幫助你練習所學的內容。
您將獲得該語言的堅實基礎,包括測試、調試、代碼重用和其他開發技巧的最佳實踐。本書還向您展示了如何使用各種Python工具和開放源碼包將Python用于商業、科學和藝術領域的應用程序。
本書主要內容包括:數據清洗在數據科學領域中的重要作用,文件格式、數據類型、字符編碼的基本概念,組織和處理數據的電子表格與文本編輯器,各種格式數據的轉換方法,解析和清洗網頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數據的方法,檢測和清除RDBMS 中的壞數據的解決方案,以及使用書中介紹的方法清洗來自Twitter 和Stack Overflow 的數據。
本書適合任何水平的數據科學家以及對數據清理感興趣的讀者閱讀。
數據清洗是數據挖掘與分析過程中不可缺少的一個環節,但因為數據類型極其復雜,傳統的清洗臟數據工作單調乏味且異常辛苦。如果能利用正確的工具和方法,就可以讓數據清洗工作事半功倍。
本書從文件格式、數據類型、字符編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關系型數據庫、網頁文件和PDF文檔中的數據。最后提供了兩個真實的項目,讓讀者將所有數據清洗技術付諸實踐,完成整個數據科學過程。
如果你是一位數據科學家,或者從事數據科學工作,哪怕是位新手,只要對數據清洗有興趣,那么本書就適合你閱讀!
BuzzFeed News高級記者Lam Thuy Vo解釋了如何使用Python編程語言以有意義的方式挖掘、處理和分析社交網站上的數據。
虛假的推特賬號影響了總統選舉嗎?關于人類行為,Facebook和Reddit的檔案能告訴我們什么?在《挖掘社交媒體》中,BuzzFeed資深記者Lam Thuy Vo向你展示了如何使用Python和關鍵數據分析工具來挖掘隱藏在社交媒體中的故事。
無論您是專業記者、學術研究者還是公民調查員,您都將學習如何使用技術工具來收集和分析來自社交媒體的數據,從而構建引人注目的、數據驅動的故事。
學習如何:
社交媒體上充斥著成千上萬個隱藏的故事,等著被人講述。學習使用專業人士用來編寫自己的數據驅動的故事的數據偵探工具。
用科學的分析方法從數據中挖掘出更多的信息
圖分析和可視化將圖論從實驗室帶到了現實世界。使用跨越分析功能的復雜方法和工具,本指南向您展示了如何利用圖和網絡分析技術來發現新的業務見解和機會。全彩出版,這本書描述了創建強大的可視化的過程中使用了豐富和迷人的一組例子,從體育,金融,營銷,安全,社會媒體,等等。您將找到模式識別和使用各種數據源(包括大數據)的實用指南,以及關于軟件和編程的清晰說明。這個配套的網站提供了數據集、Python中的完整代碼示例以及到書中涉及的所有工具的鏈接。
科學已經從網絡和圖論中獲益,這為物理學、經濟學、遺傳學等領域的突破提供了動力。本書將這些經過驗證的技術引入商業、金融、戰略和設計領域,幫助從數據中提取更多的信息,并更好地將結果傳達給決策者。
在網絡和圖論方面有大量的科學工作,但很少直接應用于核心科學之外的分析功能——直到現在。對于那些尋求經驗為基礎的,系統的分析方法和強大的工具,適用于實驗室之外,圖形分析和可視化是一個徹底的,權威的資源。
?
改進您的編程技術和方法,成為一個更有生產力和創造性的Python程序員。本書探索了一些概念和特性,這些概念和特性不僅將改進您的代碼,而且還將幫助您理解Python社區,并對Python哲學有深入的了解和詳細的介紹。
專業的Python 3,第三版給你的工具寫干凈,創新的代碼。它首先回顧了一些核心的Python原則,這些原則將在本書后面的各種概念和示例中進行說明。本書的前半部分探討了函數、類、協議和字符串的各個方面,描述了一些技術,這些技術可能不是常見的知識,但它們共同構成了堅實的基礎。后面的章節涉及文檔、測試和應用程序分發。在此過程中,您將開發一個復雜的Python框架,該框架將整合在本書中所學到的思想。
這個版本的更新包括Python 3中迭代器的角色、用Scrapy和BeautifulSoup進行web抓取、使用請求調用沒有字符串的web頁面、用于分發和安裝的新工具等等。在本書的最后,您將準備好部署不常見的特性,這些特性可以將您的Python技能提升到下一個級別。
你將學習
這本書是給誰看的 熟悉Python的中級程序員,希望提升到高級水平。您應該至少編寫了一個簡單的Python應用程序,并且熟悉基本的面向對象方法、使用交互式解釋器和編寫控制結構。
主題: C++ Primer Plus
摘要: 本書的第五版描述了ISO C++標準中所提出的語言,非正式地稱為C++99和C++03。或者,有時作為C++99/03。(2003版本在很大程度上是對1999標準的技術修正,沒有添加任何新的特征。)此后,C++繼續發展。國際C++標準委員會剛剛批準了一個新版本的標準。這個標準在開發過程中有C++0x的非正式名稱,現在它將被稱為C++11。大多數現代編譯器都支持C++99/03。本書中的大多數例子都符合這一標準,但是新標準的許多特征已經在一些實現中出現了,而這個版本的C++Primer-Plus探究了這些新特性。C++Primer-Plus討論了C語言的基本原理,并給出了C++的特點,使這本書可以自如。它給出了C++的基本原理,并用簡單的、易于復制和實驗的點程序來說明它們。學習輸入/輸出(I/O),如何使程序執行重復的任務和做出選擇。處理數據的許多方法,以及如何使用函數。您了解C++中添加到C的許多特性,包括以下內容:n類和對象n繼承n多態性、虛擬函數和運行時類型標識(RTTI)n函數重載n引用變量n泛型或與類型無關的編程,由模板和標準模板庫(STL)提供n處理錯誤條件的異常機制n用于管理名稱的命名空間函數、類和變量的。