這本書將向你展示如何通過連接特定的Azure技術來組裝數據倉庫解決方案,這些技術可以滿足你的需求并為你的業務帶來價值。您將看到如何為數據池技術和SQL數據庫使用批、事件和流實現一系列體系結構模式。您將了解如何管理元數據和自動化以加速倉庫的開發,同時在每個級別上建立彈性。您還將知道如何提供下游分析解決方案,如Power BI和Azure分析服務,以增強數據驅動的決策能力,從而推動您的業務走向成功模式。
學習使用技術進行數據科學并在實踐中利用物聯網(IoT)。這本書介紹了現代數據科學的核心概念。您將從可以在BBC micro:bit上進行的簡單應用程序開始,然后使用其他硬件進行更復雜的實驗。
在教育領域,數據科學是最令人興奮和增長最快的主題之一。理解數據是如何工作的,以及如何使用數據,是21世紀的一項關鍵生活技能。在一個由信息驅動的世界里,學生們必須配備他們需要的工具來理解這一切。例如,考慮一下數據科學是如何成為識別氣候變化危險的關鍵因素,并繼續幫助我們識別和應對它帶來的威脅。這本書探討了數據的威力,以及如何使用手邊的硬件來應用數據。
您將學習數據科學的核心概念,如何在現實世界中應用它們,以及如何利用物聯網的巨大潛力。到最后,你將能夠執行復雜而有意義的數據科學實驗——為什么不成為一名公民科學家,為對抗氣候變化做出真正的貢獻呢?
你將學習
使用Microsoft Excel中流行的數據挖掘技術,更好地理解機器學習方法。
軟件工具和編程語言包接受數據輸入并直接交付數據挖掘結果,對工作機制沒有任何見解,并在輸入和輸出之間造成了鴻溝。這就是Excel可以提供幫助的地方。
Excel允許您以透明的方式處理數據。當您打開一個Excel文件時,數據立即可見,您可以直接使用它。在執行挖掘任務時,可以檢查中間結果,從而更深入地理解如何操作數據和獲得結果。這些是隱藏在軟件工具和編程語言包中的模型構建過程的關鍵方面。
這本書教你通過Excel進行數據挖掘。您將了解當數據集不是很大時Excel在數據挖掘方面的優勢。它可以為您提供數據挖掘的可視化表示,在結果中建立信心。您將手動完成每一個步驟,這不僅提供了一個主動學習體驗,而且還告訴您挖掘過程是如何工作的,以及如何發現數據內部隱藏的模式。
你將學到什么
這本書是給誰的
關于大數據技術的信息很多,但將這些技術拼接到端到端企業數據平臺是一項艱巨的任務,沒有得到廣泛的討論。通過這本實用的書,您將學習如何在本地和云中構建大數據基礎設施,并成功地構建一個現代數據平臺。
本書非常適合企業架構師、IT經理、應用程序架構師和數據工程師,它向您展示了如何克服Hadoop項目期間出現的許多挑戰。在深入了解以下內容之前,您將在一個徹底的技術入門中探索Hadoop和大數據領域中可用的大量工具:
-平臺: 了解部署、操作、安全性、高可用性和災難恢復的各個方面,以及將平臺與企業IT的其他部分集成在一起所需了解的所有內容
流式數據介紹了流式和實時數據系統的概念和要求。這本書是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。
對這項技術
作為人類,我們不斷地過濾和解密流向我們的信息。以同樣的方式,流數據應用程序可以完成一些驚人的任務,比如讀取實時位置數據以推薦附近的服務,實時跟蹤機器故障,以及在客戶離開商店之前發送數字收據。流數據技術和技術的最新進展使任何開發人員都有可能構建這些應用程序,如果他們有正確的心態。這本書會讓你加入他們。
關于這本書
流式數據是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。通過相關的示例和演示用例,您將探索讀取、分析、共享和存儲流數據的應用程序的設計。在此過程中,您將發現關鍵技術的角色,如Spark、Storm、Kafka、Flink、RabbitMQ等。這本書在宏觀思維和實現細節之間提供了完美的平衡。
里面有什么
收集實時數據的正確方法 構建流管道 分析數據 何時使用何種技術
要成為一名成功的數據科學家,你需要的不僅僅是技術知識。從如何找到你的第一份工作,到數據科學項目的生命周期,甚至是如何成為一名經理,在數據科學領域開創一番事業會教會你學校遺漏了什么。
對這項技術 數據科學家長期成功的關鍵是什么?將你的技術知識與正確的“軟技能”結合起來,是一份有意義的職業的核心要素。
關于這本書
在數據科學領域發展是你獲得第一份數據科學工作并成為有價值的高級員工的指南。通過遵循清晰而簡單的指導,你將學會制作一份出色的簡歷,并在面試中取得好成績。在這個要求高、變化快的領域,保持項目在正確的軌道上、適應公司的需求并管理棘手的涉眾是很有挑戰性的。你會喜歡書中那些經驗豐富的數據科學家的故事中關于如何處理期望、處理失敗和規劃職業道路的見解。
里面有什么
找到有合適技能的人。本書闡明了創建高效能數據集成團隊的最佳實踐,使您能夠理解計劃、設計和監視一次性遷移和日常集成系統的技能和需求、文檔和解決方案。
數據的增長是爆炸式的。隨著跨企業系統的多個信息源的不斷到達,將這些系統組合成一個單一的、內聚的、可記錄的單元變得比以往任何時候都更加重要。但是,與其他軟件規程相比,集成的方法有很大的不同,它要求能夠編寫代碼、協作并將復雜的業務規則分解為可伸縮的模型。
數據遷移和集成可能很復雜。在許多情況下,項目團隊將實際的遷移保留到項目的最后一個周末,任何問題都可能導致錯過最后期限,或者在最壞的情況下導致需要在部署后進行協調的數據損壞。本書詳細介紹了如何進行戰略規劃以避免這些最后時刻的風險,以及如何為未來的集成項目構建正確的解決方案。
你會學到什么
這本書是給誰看的
構建相應實踐的執行和集成團隊領導。它也適用于需要額外熟悉ETL工具、集成過程和相關項目可交付成果的集成架構師、開發人員和業務分析人員
//www.manning.com/books/mastering-large-datasets-with-python
現代數據科學解決方案需要簡潔、易于閱讀和可伸縮。在《用Python掌握大型數據集》一書中,作者J.T. Wolohan向您介紹了如何使用Python編碼的功能影響方法來處理小型項目并對其進行擴展。您將探索有助于清晰性和可伸縮性的方法和內置Python工具,比如高性能并行方法,以及支持高數據吞吐量的分布式技術。本實用教程中豐富的實踐練習將為任何大型數據科學項目鎖定這些基本技能。
對這項技術
當應用于大量文件或分布式數據集時,在筆記本大小的數據上運行良好的編程技術可能會變慢,甚至完全失敗。通過掌握強大的map和reduce范型,以及支持它的基于python的工具,您可以編寫以數據為中心的應用程序,這些應用程序可以有效地擴展,而不需要在需求發生變化時重寫代碼庫。
關于這本書
使用Python掌握大型數據集教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教會您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業級數據集。有了map和reduce范型,您將探索像Hadoop和PySpark這樣的工具來有效地處理大量的分布式數據集,使用機器學習加速決策制定,并使用AWS S3簡化數據存儲。
里面有什么
對map和reduce范例的介紹
并行化與多處理模塊框架
分布式計算的Hadoop和Spark
運行AWS作業來處理大型數據集
簡介:
與微軟的人工智能平臺并駕齊驅,學習創新和加速開放和強大的工具和服務,將人工智能帶到每個數據科學家和開發人員。人工智能(AI)是新常態,深度學習算法和硬件的創新正在快速發展。這本書由微軟的數據科學專家撰寫,微軟人工智能平臺的深度學習幫助你如何在Azure上進行深度學習,并利用深度學習來創建創新和智能的解決方案。
你將學習
作者:
Mathew Salvaris博士是微軟Azure CAT的高級數據科學家,他與一組數據科學家和工程師一起為微軟的云人工智能平臺的外部公司構建機器學習和人工智能解決方案。他列舉了機器學習和深度學習方面的最新創新,為現實世界的業務問題提供新穎的解決方案,并利用從這些項目中獲得的經驗來幫助改進微軟的云人工智能產品。在加入微軟之前,他曾在一家金融科技初創公司擔任數據科學家,專門提供機器學習解決方案。
Danielle Dean博士是微軟Azure CAT的首席數據科學主管,她領導著一個數據科學家和工程師團隊,與外部公司一起利用微軟的云人工智能平臺構建人工智能解決方案。在此之前,她是諾基亞的一名數據科學家,她通過數據挖掘和數據驅動項目的統計建模,從大數據中產生了商業價值和見解,這些數據驅動項目影響了一系列的業務、產品和計劃。
隨著我們進入21世紀,數據集越來越大,原始運行和緩慢的算法令人頭痛,并且導致生產效率和經濟的損失。通過優化算法,并將其應用于股市預測、氣候變化建模、人工智能和癌癥研究等,可以從更快、更準確的數值方法中獲得顯著效益。現代大數據算法這一本書綜合了一些高速的機器學習技術,以便于大家借鑒學習。