Kafka是什么?它是如何運作的?在這本全面的電子書,你將得到Apache Kafka?的全面介紹,分發,出版-訂閱隊列處理實時數據feed。了解Kafka是如何工作的,內部架構,它的用途,以及如何充分利用Kafka流處理技術。
作者Neha Narkhede、Gwen Shapira和Todd Palino向您展示了如何部署生產Kafka集群;保護、調優和監視它們;使用Kafka編寫魯棒的應用程序;并構建流處理應用程序,以幫助您利用實時數據的強大功能。
微軟Azure云是數據密集型應用程序的理想平臺。Azure是為提高生產力而設計的,它提供了預構建的服務,使收集、存儲和分析的實現和管理更加容易。Azure存儲、流和批處理分析通過逐步構建一個完整的工作分析系統,教你如何在Azure中設計一個可靠的、高性能的和經濟的數據基礎設施。
利用Kubernetes快速采用新興技術。Kubernetes是企業平臺開發的未來,它已經成為當今最流行的、通常被認為是最健壯的容器編配系統。這本書集中在平臺技術的力量的物聯網,區塊鏈,機器學習,和許多層的數據和應用管理支持他們。
這本書以一種結構化的、直觀的、友好的方式學習c++編程語言。這本書教授現代c++編程語言、c++標準庫和現代c++標準的基礎知識。不需要以前的編程經驗。
c++是一種不同于其他語言的語言,它的復雜性令人驚訝,但在許多方面都非常優美和優雅。它也是一種不能通過猜測來學習的語言,是一種很容易出錯的語言。為了克服這一點,每個部分都充滿了現實世界中逐漸增加復雜性的例子。面向絕對初學者的現代c++教的不僅僅是用c++ 20編程。它提供了一個可在其上進行構建的堅實的c++基礎。
作者帶您了解c++編程語言、標準庫和c++ 11到c++ 20標準基礎知識。每一章都附有適量的理論和大量的源代碼示例。
您將使用c++ 20個特性和標準,同時還將比較和查看以前的c++版本。您將使用大量相關的源代碼示例來實現此目的。
你將學到什么
這本書是給誰的
首先加速介紹R生態系統、編程語言和工具,包括R腳本和RStudio。通過使用許多例子和項目,這本書教你如何將數據導入R,以及如何使用R處理這些數據。一旦基礎扎實,《實用R 4》的其余部分將深入具體的項目和例子,從使用R和LimeSurvey運行和分析調查開始。接下來,您將使用R和MouselabWeb執行高級統計分析。然后,您將看到在沒有統計信息的情況下R如何工作,包括如何使用R自動化數據格式化、操作、報告和自定義函數。
本書的最后一部分討論了在服務器上使用R;您將使用R構建一個腳本,該腳本可以運行RStudio服務器并監視報表源的更改,以便在發生更改時向用戶發出警報。這個項目包括定期電子郵件提醒和推送通知。最后,您將使用R創建一個定制的個人最重要信息的每日綱要報告,例如天氣報告、每日日歷、待辦事項等等。這演示了如何自動化這樣一個過程,以便用戶每天早上導航到相同的web頁面并獲得更新的報告。
你將學到什么
這本書是給誰的
流式數據介紹了流式和實時數據系統的概念和要求。這本書是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。
對這項技術
作為人類,我們不斷地過濾和解密流向我們的信息。以同樣的方式,流數據應用程序可以完成一些驚人的任務,比如讀取實時位置數據以推薦附近的服務,實時跟蹤機器故障,以及在客戶離開商店之前發送數字收據。流數據技術和技術的最新進展使任何開發人員都有可能構建這些應用程序,如果他們有正確的心態。這本書會讓你加入他們。
關于這本書
流式數據是一個思想豐富的教程,教你如何有效地與快速流動的數據交互。通過相關的示例和演示用例,您將探索讀取、分析、共享和存儲流數據的應用程序的設計。在此過程中,您將發現關鍵技術的角色,如Spark、Storm、Kafka、Flink、RabbitMQ等。這本書在宏觀思維和實現細節之間提供了完美的平衡。
里面有什么
收集實時數據的正確方法 構建流管道 分析數據 何時使用何種技術
無論您需要全文搜索還是結構化數據的實時分析,還是兩者都需要,Elasticsearch分布式搜索引擎都是使您的數據發揮作用的理想方法。本實用指南不僅向您展示了如何使用Elasticsearch搜索、分析和探索數據,還幫助您處理人類語言、地理位置和關系的復雜性。
如果您是搜索和分布式系統的新手,您將很快學會如何將Elasticsearch集成到您的應用程序中。更有經驗的用戶將獲得許多高級技術。在整本書中,您將遵循基于問題的方法來學習為什么、何時以及如何使用Elasticsearch特性。
Kafka in Action是構建基于Kafka的數據管道的實用指南。充滿了真實的用例和場景,這本書探討了Kafka最常見的用例,從簡單的日志記錄到管理用于消息路由、分析等的流數據系統。
在處理大數據、流數據或快速數據的系統中,確保數據管道正確是非常重要的。Apache Kafka是一個非常快的分布式流平臺,它不僅僅作為一個持久的日志或靈活的消息隊列來運行。
//www.manning.com/books/mastering-large-datasets-with-python
現代數據科學解決方案需要簡潔、易于閱讀和可伸縮。在《用Python掌握大型數據集》一書中,作者J.T. Wolohan向您介紹了如何使用Python編碼的功能影響方法來處理小型項目并對其進行擴展。您將探索有助于清晰性和可伸縮性的方法和內置Python工具,比如高性能并行方法,以及支持高數據吞吐量的分布式技術。本實用教程中豐富的實踐練習將為任何大型數據科學項目鎖定這些基本技能。
對這項技術
當應用于大量文件或分布式數據集時,在筆記本大小的數據上運行良好的編程技術可能會變慢,甚至完全失敗。通過掌握強大的map和reduce范型,以及支持它的基于python的工具,您可以編寫以數據為中心的應用程序,這些應用程序可以有效地擴展,而不需要在需求發生變化時重寫代碼庫。
關于這本書
使用Python掌握大型數據集教會您編寫可以處理任何大小的數據集的代碼。您將從筆記本大小的數據集開始,這些數據集通過將大任務分解為可以同時運行的小任務來教會您并行化數據分析。然后將這些程序擴展到云服務器集群上的工業級數據集。有了map和reduce范型,您將探索像Hadoop和PySpark這樣的工具來有效地處理大量的分布式數據集,使用機器學習加速決策制定,并使用AWS S3簡化數據存儲。
里面有什么
對map和reduce范例的介紹
并行化與多處理模塊框架
分布式計算的Hadoop和Spark
運行AWS作業來處理大型數據集