數據工程在過去十年中發展迅速,許多軟件工程師、數據科學家和分析師都在尋找這種實踐的全面觀點。通過這本實用的書,您將學習如何通過評估數據工程生命周期框架中可用的最佳技術來規劃和構建系統,以滿足您的組織和客戶的需求。 作者Joe Reis和Matt Housley將向您介紹數據工程的整個生命周期,并向您展示如何將各種云技術結合起來,以滿足下游數據消費者的需求。您將了解如何應用數據生成、攝取、編制、轉換、存儲和治理的概念,這些概念在任何數據環境中都是至關重要的,而不管底層技術是什么。
//www.oreilly.com/library/view/fundamentals-of-data/9781098108298/ 這本書將幫助你:
獲得整個數據工程領域的簡明概述使用端到端最佳實踐框架評估數據工程問題在選擇數據技術、架構和流程時,要避開營銷炒作使用數據工程生命周期來設計和構建一個魯棒的架構跨數據工程生命周期合并數據治理和安全性
當您面臨任何云安全問題時,您將需要一本AWS安全服務指南。因為它是圍繞最重要的安全任務組織的,所以您可以很快找到數據保護、審計、事件響應等方面的最佳實踐。在此過程中,您將探索幾個不安全的應用程序,分析用于攻擊它們的漏洞,并學習如何自信地做出反應。 本書共分為11章。它從核心服務中的最佳實踐開始,然后轉移到更一般的主題,如威脅檢測和事件響應。最后,本文將使用從本書中學到的技能來演示一個示例應用程序:
第2章、第3章和第4章都是在IAM上連續構建的,應該按順序讀取。關于VPCs和網絡的第5章和第6章也是如此。除了第11章以外,其余章節可以按順序閱讀,因為它吸取了前面所有章節的經驗教訓,并將其應用于現實場景中。
**機器學習和數據科學, **由一組在該領域的專家撰寫和編輯,這份論文集合反映了機器學習和數據科學的最新和全面的現狀,適用于工業、政府和學術界。
機器學習(ML)和數據科學(DS)是非常活躍的課題,在理論和應用方面都具有廣泛的應用范圍。它們已經成為一個重要的新興科學領域和范式,推動了統計、計算科學和智能科學等學科的研究演變,以及科學、工程、公共部門、商業、社會科學和生活方式等領域的實踐轉型。同時,它們的應用提供了一些重要的挑戰,這些挑戰通常只能通過創新的機器學習和數據科學算法來解決。
這些算法涵蓋了人工智能、數據分析、機器學習、模式識別、自然語言理解和大數據操作等更廣泛的領域。他們還解決了相關的新的科學挑戰,從數據捕獲、創建、存儲、檢索、共享、分析、優化和可視化,到跨異構和相互依賴的復雜資源的集成分析,以更好的決策、協作,并最終創造價值。
Python是訪問、操作和從各種數據中獲得見解的理想選擇。Python for Data Science通過根植于實際示例和實踐活動的邊做邊學的方法向您介紹Python的數據分析世界。您將學習如何編寫Python代碼來獲取、轉換和分析數據,為業務管理、市場營銷和決策支持中的用例實踐最先進的數據處理技術。
您將發現Python豐富的用于基本操作的內置數據結構集,以及用于數據科學的健壯的開源庫生態系統,包括NumPy、pandas、scikit-learn、matplotlib等。這些示例展示了如何以各種格式加載數據,如何簡化、分組和聚合數據集,以及如何創建圖表、地圖和其他可視化功能。后面的章節將深入展示真實世界的數據應用,包括使用位置數據為出租車服務提供動力,市場籃子分析來識別共同購買的商品,以及機器學習來預測股票價格。
這本書從數據處理和分析的概念介紹開始,解釋一個典型的數據處理管道。然后,我們將介紹Python的內置數據結構和一些廣泛用于數據科學應用程序的第三方Python庫。接下來,我們將探討用于獲取、組合、聚合、分組、分析和可視化不同大小和數據類型的數據集的日益復雜的技術。隨著本書的深入,我們將把Python數據科學技術應用到商業管理、市場營銷和金融領域的實際用例中。每一章都包含“練習”部分,這樣你就可以練習和鞏固你剛剛學到的知識。
第一章: 數據的基礎知識為理解使用數據的基本要素提供了必要的背景知識。您將了解到數據有不同的類別,包括結構化、非結構化和半結構化數據。然后,您將了解典型數據分析過程中涉及的步驟。
第二章:Python數據結構介紹Python內置的四種數據結構:列表、字典、元組和集合。您將看到如何使用每個結構,以及如何將它們組合成更復雜的結構,可以表示現實世界的對象。
第三章:Python數據科學庫討論了Python健壯的第三方數據分析和操作庫生態系統。您將看到pandas庫及其主要數據結構Series和DataFrame,它們已經成為面向數據的Python應用程序的實際標準。您還將了解NumPy和scikit-learn,這兩個庫通常用于數據科學。
第四章:從文件和api訪問數據深入了解獲取數據并將其加載到腳本中的細節。您將學習如何將不同來源的數據(如文件和api)加載到Python腳本中的數據結構中,以便進行進一步處理。
第五章:使用數據庫繼續討論將數據導入Python,涵蓋了如何使用數據庫數據。您將看到訪問和操作存儲在不同類型數據庫中的數據的示例,包括關系數據庫(如MySQL)和NoSQL數據庫(如MongoDB)。 第六章:聚合數據通過對數據進行分組并進行聚合計算來解決匯總數據的問題。您將學習使用pandas對數據進行分組,并生成小計、總計和其他聚合。 第七章:結合數據集介紹了如何將來自不同數據源的數據組合為一個單獨的數據集。您將學習SQL開發人員用于連接數據庫表的技術,并將它們應用于內置的Python數據結構、NumPy數組和pandas DataFrames。 第八章:創建可視化討論可視化是最自然的方式揭露隱藏的數據中的模式。您將了解不同類型的可視化,如線形圖、條形圖和直方圖,并將了解如何使用用于繪圖的主要Python庫Matplotlib創建它們。您還將使用Cartopy庫來生成映射。 第九章:分析位置數據解釋如何使用geopy和Shapely庫處理位置數據。您將學習獲取和使用靜止和移動物體的GPS坐標的方法,并將探索拼車服務如何為給定的皮卡識別最佳汽車的現實世界示例。 第十章:分析時間序列數據提出了一些分析技術可以應用于時間序列數據中提取有意義的數據。特別地,本章中的例子說明了時間序列數據分析如何應用于股票市場數據。 第十一章:從數據中獲得洞察力探討了從數據中獲得洞察力的策略,以便做出明智的決定。例如,您將學習如何發現超市中銷售的產品之間的關聯,從而確定在一次交易中經常一起購買的商品組(對推薦和促銷有用)。 第十二章:機器學習數據分析涵蓋了使用scikitlearn先進的數據分析任務。您將訓練機器學習模型,根據產品的星級評級對產品評論進行分類,并預測股票價格的趨勢。
這本書的重點是面向深度不確定性下關于決策的理論和實踐的相關工具和方法。它探討了在深度不確定性下支持戰略計劃設計的方法和工具,以及它們在現實世界中的測試,包括在實踐中使用它們的障礙和促成因素。這本書擴展了傳統的方法和工具,包括與手頭的問題相關的行為和網絡的分析。它還展示了如何利用應用過程中獲得的經驗教訓來改進設計過程中使用的方法和工具。這本書提供了識別和運用適當的方法和工具來設計計劃的指導,以及在現實世界中實施這些計劃的建議。對于決策者和實踐者,這本書包括現實的例子和實用的指導方針,應該幫助他們理解在深度不確定性下的決策是什么,以及它可能如何幫助他們。
深度不確定性下的決策: 從理論到實踐分為四個部分。第一部分介紹了在深度不確定性下設計策略計劃的五種方法: 穩健決策、動態適應規劃、動態適應策略路徑、信息缺口決策理論和工程選項分析。每種方法都是根據其理論基礎、使用方法時要遵循的方法學步驟、最新的方法學見解和改進的挑戰來制定的。在第二部分中,將介紹每一種方法的應用。基于最近的案例研究,運用每種方法的實際意義被深入討論。第三部分基于對真實世界案例的理解,重點關注在真實世界的環境中使用這些方法和工具。第四部分包含結論和綜合可以為設計、應用和執行深度不確定性下的策略計劃而得出的教訓,以及對未來工作的建議。
學習設計、構建和部署由機器學習(ML)支持的應用程序所必需的技能。通過這本親力親為的書,您將構建一個示例ML驅動的應用程序,從最初的想法到部署的產品。數據科學家、軟件工程師和產品經理—包括有經驗的實踐者和新手—將逐步學習構建真實的ML應用程序所涉及的工具、最佳實踐和挑戰。
作者Emmanuel Ameisen是一位經驗豐富的數據科學家,他領導了一個人工智能教育項目,通過代碼片段、插圖、截圖和對行業領袖的采訪展示了實用的ML概念。第1部分將告訴您如何計劃ML應用程序并度量成功。第2部分解釋了如何構建一個工作的ML模型。第三部分演示了改進模型的方法,直到它滿足您最初的設想。第4部分介紹部署和監控策略。
這本書會對你有所幫助:
學習設計思維的基本原理,以及如何在定義軟件開發和人工智能解決方案時應用設計思維技術。設計思維是一種創新的方法,它能識別問題并產生解決方案,并能通過原型設計迅速得到驗證。
這本書提供了設計思維的簡史和過程的概述。然后深入探討在設計思維研討會中使用的方法和工具的更多細節,從而得出有用的原型。提供以下指引:
本書最后討論了成功原型的操作化的最佳實踐,并描述了對成功采用至關重要的變更管理技術。您可以使用從閱讀本書中獲得的知識,將設計思維技術融入到您的軟件開發和AI項目中,并確保及時和成功地交付解決方案。
你將學到什么
這本書是給誰的呢
簡介:
科學專業人員可以通過本書學習Scikit-Learn庫以及機器學習的基礎知識。該書將Anaconda Python發行版與流行的Scikit-Learn庫結合在一起,展示了各種有監督和無監督的機器學習算法。通過Python編寫的清晰示例向讀者介紹機器學習的原理,以及相關代碼。
本書涵蓋了掌握這些內容所需的所有應用數學和編程技能。不需要深入的面向對象編程知識,因為可以提供并說明完整的示例。必要時,編碼示例很深入且很復雜。它們也簡潔,準確,完整,是對引入的機器學習概念的補充。處理示例有助于建立理解和應用復雜機器學習算法所需的技能。
本書的學生將學習作為勝任力前提的基礎知識。讀者將了解專門為數據科學專業人員設計的Python Anaconda發行版,并將在流行的Scikit-Learn庫中構建技能,該庫是Python領域許多機器學習應用程序的基礎。
本書內容包括:
內容介紹:
這本書分為八章。 第1章介紹了機器學習,Anaconda和Scikit-Learn的主題。 第2章和第3章介紹算法分類。 第2章對簡單數據集進行分類,第3章對復雜數據集進行分類。 第4章介紹了回歸預測模型。 第5章和第6章介紹分類調整。 第5章調整簡單數據集,第6章調整復雜數據集。 第7章介紹了預測模型回歸調整。 第8章將所有知識匯總在一起,以整體方式審查和提出發現。
作者介紹:
David Paper博士是猶他州立大學管理信息系統系的教授。他寫了兩本書-商業網絡編程:Oracle的PHP面向對象編程和Python和MongoDB的數據科學基礎。他在諸如組織研究方法,ACM通訊,信息與管理,信息資源管理期刊,AIS通訊,信息技術案例與應用研究期刊以及遠程計劃等參考期刊上發表了70余篇論文。他還曾在多個編輯委員會擔任過各種職務,包括副編輯。Paper博士還曾在德州儀器(TI),DLS,Inc.和鳳凰城小型企業管理局工作。他曾為IBM,AT&T,Octel,猶他州交通運輸部和空間動力實驗室執行過IS咨詢工作。 Paper博士的教學和研究興趣包括數據科學,機器學習,面向對象的程序設計和變更管理。
目錄: