本書主要內容包括:數據清洗在數據科學領域中的重要作用,文件格式、數據類型、字符編碼的基本概念,組織和處理數據的電子表格與文本編輯器,各種格式數據的轉換方法,解析和清洗網頁上的HTML 文件的三種策略,提取和清洗PDF 文件中數據的方法,檢測和清除RDBMS 中的壞數據的解決方案,以及使用書中介紹的方法清洗來自Twitter 和Stack Overflow 的數據。
本書適合任何水平的數據科學家以及對數據清理感興趣的讀者閱讀。
數據清洗是數據挖掘與分析過程中不可缺少的一個環節,但因為數據類型極其復雜,傳統的清洗臟數據工作單調乏味且異常辛苦。如果能利用正確的工具和方法,就可以讓數據清洗工作事半功倍。
本書從文件格式、數據類型、字符編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關系型數據庫、網頁文件和PDF文檔中的數據。最后提供了兩個真實的項目,讓讀者將所有數據清洗技術付諸實踐,完成整個數據科學過程。
如果你是一位數據科學家,或者從事數據科學工作,哪怕是位新手,只要對數據清洗有興趣,那么本書就適合你閱讀!
Python Workout提供了50個練習,重點是Python 3的關鍵特性。在這本書中,Python專家教練魯文·勒納(Reuven Lerner)通過一系列小項目指導你,練習你處理日常任務所需的技能。你會喜歡每個技巧的清晰解釋,你可以觀看Reuven解決每個練習的視頻。
//www.manning.com/books/python-workout
在過去的幾年中,Python已經進入了許多領域,包括系統管理、數據科學、devops、文本處理和Web開發。因此,現在有許多課程和書籍旨在教授Python。
本書分為10章,每一章涵蓋Python的不同領域。總的來說,隨著本書的發展,問題會變得越來越復雜——但這并不意味著我要等到“函數”一章才開始使用函數,或者等到“函數編程”一章才開始理解函數。你可以使用任何你認為必要的工具。
每一章都以一個參考表開始,包括鏈接,指向可能幫助你更好地理解你已經忘記或從未學過的主題的資源。我希望這些將幫助您加強對Python的理解,而不僅僅是本書本身。
除了練習和解決方案,還有視頻,在其中我演示如何解決每個問題,并添加到我在書中的討論。解決方案和你在書中讀到的一樣,但對很多人來說,視頻讓整個過程更加生動;你會在我的現場培訓課程中得到更多的感覺。此外,查看編碼和解決過程的時間變化通常很有幫助,而不是在頁面上一次性查看所有內容。使用視頻片段的最佳方法是同時打開該書和視頻(在Manning的liveVideo平臺中)。對于每個練習,從書開始,完成每個練習,如果你喜歡,閱讀解決方案和討論。然后點擊相應的視頻片段,看我演示解決方案,并為討論提供進一步的見解。
理解并實施panda的大數據分析解決方案,強調性能。本書通過探索其底層實現和數據結構,增強了您使用Python數據分析庫pandas的直覺。
《Pandas 編程思想》介紹了大數據的主題,并通過觀看pandas幫助解決的激動人心和有影響力的項目來展示概念。從那里,您將學習按大小和類型評估您自己的項目,以確定pandas是否適合您的需要。作者Hannah Stepanek解釋了如何在pandas中有效地加載和規范化數據,并回顧了一些最常用的加載器和它們的幾個最強大的選項。然后,您將了解如何有效地訪問和轉換數據,應該避免哪些方法,以及何時使用更高級的性能技術。您還將學習基本的數據訪問、學習panda和直觀的字典語法。此外,還討論了如何選擇正確的DataFrame格式、使用多層次的DataFrame以及將來如何改進panda。
在本書結束時,您將對pandas庫的底層工作原理有一個牢固的理解。準備好用正確的方法在你自己的項目中做出自信的決定。
你將學到什么
這本書是給誰的
通過機器學習的實際操作指南深入挖掘數據
機器學習: 為開發人員和技術專業人員提供實踐指導和全編碼的工作示例,用于開發人員和技術專業人員使用的最常見的機器學習技術。這本書包含了每一個ML變體的詳細分析,解釋了它是如何工作的,以及如何在特定的行業中使用它,允許讀者在閱讀過程中將所介紹的技術融入到他們自己的工作中。機器學習的一個核心內容是對數據準備的強烈關注,對各種類型的學習算法的全面探索說明了適當的工具如何能夠幫助任何開發人員從現有數據中提取信息和見解。這本書包括一個完整的補充教師的材料,以方便在課堂上使用,使這一資源有用的學生和作為一個專業的參考。
機器學習的核心是一種基于數學和算法的技術,它是歷史數據挖掘和現代大數據科學的基礎。對大數據的科學分析需要機器學習的工作知識,它根據從訓練數據中獲得的已知屬性形成預測。機器學習是一個容易理解的,全面的指導,為非數學家,提供明確的指導,讓讀者:
通過學習構建一個可以從數據中學習的系統,讀者可以在各個行業中增加他們的效用。機器學習是深度數據分析和可視化的核心,隨著企業發現隱藏在現有數據中的金礦,這一領域的需求越來越大。對于涉及數據科學的技術專業人員,機器學習:為開發人員和技術專業人員提供深入挖掘所需的技能和技術。
Python算法,第二版解釋了Python方法的算法分析和設計。本書由《初級Python》的作者Magnus Lie Hetland撰寫,主要關注經典算法,但也對基本的算法解決問題技術有了深入的理解。
這本書涉及一些最重要和最具挑戰性的領域的編程和計算機科學在一個高度可讀的方式。它涵蓋了算法理論和編程實踐,演示了理論是如何反映在真實的Python程序中的。介紹了Python語言中內置的著名算法和數據結構,并向用戶展示了如何實現和評估其他算法和數據結構
數據結構和算法的更新、創新方法
這個權威的指南由其領域的專家組成的作者團隊編寫,它甚至解釋了最困難的數學概念,這樣您就可以清楚地理解c++中的數據結構和算法。
權威的作者團隊采用面向對象的設計范式,使用c++作為實現語言,同時還提供基本算法的直覺和分析。
為了提取知識和做出預測,機器學習使用數學模型來擬合數據。這些模型將特征作為輸 入。特征就是原始數據某個方面的數值表示。在機器學習流程中,特征是數據和模型之間 的紐帶。特征工程是指從原始數據中提取特征并將其轉換為適合機器學習模型的格式。它 是機器學習流程中一個極其關鍵的環節,因為正確的特征可以減輕構建模型的難度,從而 使機器學習流程輸出更高質量的結果。機器學習從業者有一個共識,那就是建立機器學習 流程的絕大部分時間都耗費在特征工程和數據清洗上。然而,盡管特征工程非常重要,專 門討論這個話題的著作卻很少。究其原因,可能是正確的特征要視模型和數據的具體情況 而定,而模型和數據千差萬別,很難從各種項目中歸納出特征工程的實踐原則。
然而,特征工程并不只是針對具體項目的行為,它有一些基本原則,而且最好結合具體情 境進行解釋說明。在本書中,每一章都集中闡述一個數據問題:如何表示文本數據或圖像 數據,如何為自動生成的特征降低維度,何時以及如何對特征進行標準化,等等。你可以 將本書看作內容互有聯系的短篇小說集,而不是一部長篇小說。每一章都對大量現有特征 工程技術進行了簡單介紹,它們綜合在一起,闡明了特征工程的基本原則。
掌握一門學科不僅僅是要了解其中的定義以及能夠推導公式。僅知道它的工作機制和用途 是不夠的,你還必須理解它為什么這樣設計,它與其他技術有何聯系,以及每種方法的優 點和缺點。只有清楚地知道事情是如何完成的,對其中的基本原理有直觀的理解,并能將 知識融會貫通,才稱得上精通。盡管一本好書可以讓你初窺門徑,但只靠讀書不能登堂入 室,你必須動手實踐,將你的想法變成實際的應用,這是一個不斷迭代的過程。在每次迭 代中,我們都能將想法理解得更加透徹,并逐漸找到更巧妙、更有創造性的實現方法。本書的目的就是幫助你更好地實現想法。
第 8 章專門講解圖像處理, 圖像數據的特征提取要比文本數據困難得多。我們先介紹兩種手動提取特征的技術:SIFT 和 HOG,然后再介紹深度學習這種最新的圖像特征提取技術。
最后,第 9 章通過一個完 整的例子(為一個學術論文數據集創建推薦器)演示幾種技術的實際應用。
簡介:
探索用Python編寫代碼的正確方法。這本書提供的技巧和技術,你需要生產更干凈,無錯誤,和雄辯的Python項目。
要獲得更好的代碼,首先要理解對代碼進行格式化和編制文檔以獲得最大可讀性的重要性,利用內置的數據結構和Python字典來提高可維護性,并使用模塊和元類來有效地組織代碼。然后,您將深入了解Python語言的新特性,并學習如何有效地利用它們。接下來,您將解碼關鍵概念,如異步編程、Python數據類型、類型提示和路徑處理。學習在Python代碼中調試和執行單元測試和集成測試的技巧,以確保您的代碼可以投入生產。學習旅程的最后一段為您提供了版本管理、實時代碼管理和智能代碼完成的基本工具。 在閱讀和使用這本書之后,您將熟練地編寫干凈的Python代碼,并成功地將這些原則應用到您自己的Python項目中。
目錄:
作者:
Sunil Kapil在過去十年一直從事軟件行業,用Python和其他幾種語言編寫產品代碼。 他曾是一名軟件工程師,主要從事網絡和移動服務的后端工作。他開發、部署并維護了數百萬用戶喜愛和使用的從小型到大型的生產項目。他與世界各地知名軟件公司的大小團隊在不同的專業環境中完成了這些項目。他也是開源的熱情倡導者,并不斷為Zulip Chat和Black等項目貢獻力量。Sunil經常在各種會議上發表關于Python的演講。
簡介:
科學專業人員可以通過本書學習Scikit-Learn庫以及機器學習的基礎知識。該書將Anaconda Python發行版與流行的Scikit-Learn庫結合在一起,展示了各種有監督和無監督的機器學習算法。通過Python編寫的清晰示例向讀者介紹機器學習的原理,以及相關代碼。
本書涵蓋了掌握這些內容所需的所有應用數學和編程技能。不需要深入的面向對象編程知識,因為可以提供并說明完整的示例。必要時,編碼示例很深入且很復雜。它們也簡潔,準確,完整,是對引入的機器學習概念的補充。處理示例有助于建立理解和應用復雜機器學習算法所需的技能。
本書的學生將學習作為勝任力前提的基礎知識。讀者將了解專門為數據科學專業人員設計的Python Anaconda發行版,并將在流行的Scikit-Learn庫中構建技能,該庫是Python領域許多機器學習應用程序的基礎。
本書內容包括:
內容介紹:
這本書分為八章。 第1章介紹了機器學習,Anaconda和Scikit-Learn的主題。 第2章和第3章介紹算法分類。 第2章對簡單數據集進行分類,第3章對復雜數據集進行分類。 第4章介紹了回歸預測模型。 第5章和第6章介紹分類調整。 第5章調整簡單數據集,第6章調整復雜數據集。 第7章介紹了預測模型回歸調整。 第8章將所有知識匯總在一起,以整體方式審查和提出發現。
作者介紹:
David Paper博士是猶他州立大學管理信息系統系的教授。他寫了兩本書-商業網絡編程:Oracle的PHP面向對象編程和Python和MongoDB的數據科學基礎。他在諸如組織研究方法,ACM通訊,信息與管理,信息資源管理期刊,AIS通訊,信息技術案例與應用研究期刊以及遠程計劃等參考期刊上發表了70余篇論文。他還曾在多個編輯委員會擔任過各種職務,包括副編輯。Paper博士還曾在德州儀器(TI),DLS,Inc.和鳳凰城小型企業管理局工作。他曾為IBM,AT&T,Octel,猶他州交通運輸部和空間動力實驗室執行過IS咨詢工作。 Paper博士的教學和研究興趣包括數據科學,機器學習,面向對象的程序設計和變更管理。
目錄: