使用Scikit-Multiflow框架設計、開發和驗證帶有流數據的機器學習模型。這本書是一個快速入門指南,為數據科學家和機器學習工程師尋求實現機器學習模型流數據與Python產生實時見解。
本書首先介紹流數據、與它相關的各種挑戰、它的一些實際業務應用程序和各種窗口技術。然后,您將研究增量學習算法和在線學習算法,以及使用流數據進行模型評估的概念,并將介紹Python中的Scikit-Multiflow框架。接下來回顧了各種變化檢測/概念漂移檢測算法,以及使用Scikit-Multiflow實現各種數據集。
本書還介紹了流數據的各種有監督和無監督算法,以及它們使用Python在各種數據集上的實現。本書最后簡要介紹了其他可用于流媒體數據的開源工具,如Spark、MOA(大規模在線分析)、Kafka等。
你會學習到: 理解流數據的機器學習概念 回顧增量學習和在線學習 開發檢測概念漂移的模型 探索流數據上下文中的分類、回歸和集成學習技術 應用最佳實踐來調試和驗證流數據上下文中的機器學習模型 介紹其他處理流數據的開源框架。
深入機器學習模型的超參數調優,關注什么是超參數以及它們是如何工作的。這本書討論了超參數調優的不同技術,從基礎到高級方法。
這是一個循序漸進的超參數優化指南,從什么是超參數以及它們如何影響機器學習模型的不同方面開始。然后通過一些基本的(蠻力的)超參數優化算法。進一步,作者提出了時間和內存約束的問題,使用分布式優化方法。接下來,您將討論超參數搜索的貝葉斯優化,它從以前的歷史中學習。
這本書討論了不同的框架,如Hyperopt和Optuna,它們實現了基于順序模型的全局優化(SMBO)算法。在這些討論中,您將關注不同的方面,比如搜索空間的創建和這些庫的分布式優化。
機器學習中的超參數優化創建了對這些算法如何工作的理解,以及如何在現實生活中的數據科學問題中使用它們。最后一章總結了超參數優化在自動機器學習中的作用,并以創建自己的AutoML腳本的教程結束。
超參數優化是一項繁瑣的任務,所以請坐下來,讓這些算法來完成您的工作。
//link.springer.com/book/10.1007/978-1-4842-6579-6#about
你會:
了解超參數的變化如何影響模型的性能。
將不同的超參數調優算法應用于數據科學問題
使用貝葉斯優化方法創建高效的機器學習和深度學習模型
使用一組機器來分配超參數優化
利用超參數優化方法實現自動機器學習
學習使用Python分析數據和預測結果的更簡單和更有效的方法
Python機器學習教程展示了通過關注兩個核心機器學習算法家族來成功分析數據,本書能夠提供工作機制的完整描述,以及使用特定的、可破解的代碼來說明機制的示例。算法用簡單的術語解釋,沒有復雜的數學,并使用Python應用,指導算法選擇,數據準備,并在實踐中使用訓練過的模型。您將學習一套核心的Python編程技術,各種構建預測模型的方法,以及如何測量每個模型的性能,以確保使用正確的模型。關于線性回歸和集成方法的章節深入研究了每種算法,你可以使用書中的示例代碼來開發你自己的數據分析解決方案。
機器學習算法是數據分析和可視化的核心。在過去,這些方法需要深厚的數學和統計學背景,通常需要結合專門的R編程語言。這本書演示了機器學習可以如何實現使用更廣泛的使用和可訪問的Python編程語言。
使用線性和集成算法族預測結果
建立可以解決一系列簡單和復雜問題的預測模型
使用Python應用核心機器學習算法
直接使用示例代碼構建自定義解決方案
機器學習不需要復雜和高度專業化。Python使用了更簡單、有效和經過良好測試的方法,使這項技術更容易為更廣泛的受眾所接受。Python中的機器學習將向您展示如何做到這一點,而不需要廣泛的數學或統計背景。
機器學習已經成為許多商業應用和研究項目中不可或缺的一部分,但這一領域并不僅限于擁有廣泛研究團隊的大公司。如果您使用Python,即使是初學者,這本書也會教你構建自己的機器學習解決方案的實用方法。今天,有了所有可用的數據,機器學習應用程序只受限于你的想象力。
您將學習使用Python和scikit-learn庫創建成功的機器學習應用程序所需的步驟。兩位作者安德烈亞斯?穆勒(Andreas Muller)和薩拉?圭多(Sarah Guido)關注的是使用機器學習算法的實踐層面,而不是背后的數學。熟悉NumPy和matplotlib庫將有助于您從本書獲得更多信息。
通過這本書,你會學到 :
Kafka in Action是構建基于Kafka的數據管道的實用指南。充滿了真實的用例和場景,這本書探討了Kafka最常見的用例,從簡單的日志記錄到管理用于消息路由、分析等的流數據系統。
在處理大數據、流數據或快速數據的系統中,確保數據管道正確是非常重要的。Apache Kafka是一個非常快的分布式流平臺,它不僅僅作為一個持久的日志或靈活的消息隊列來運行。
機器學習(ML)是一組用于發現數據關系的編程技術。使用ML算法,您可以對數據進行聚類和分類,以執行建議或欺詐檢測之類的任務,并對銷售趨勢、風險分析和其他預測進行預測。機器學習曾經是學術數據科學家的領域,現在已經成為主流的業務流程,而像易于學習的R編程語言這樣的工具將高質量的數據分析交到任何程序員的手中。《使用R、tidyverse和mlr的機器學習》將教會您廣泛使用的ML技術,以及如何使用R編程語言及其強大的工具生態系統將它們應用于您自己的數據集。這本書會讓你開始!
對這項技術
機器學習技術準確而有效地識別數據中的模式和關系,并使用這些模型對新數據進行預測。ML技術甚至可以在相對較小的數據集上工作,使這些技能成為幾乎所有數據分析任務的強大盟友。R語言的設計考慮了數學和統計的應用。小型數據集是它的最佳選擇,它的現代數據科學工具(包括流行的tidyverse包)使R成為ML的自然選擇。
關于這本書
《使用R、tidyverse和mlr的機器學習》將教會您如何使用強大的R編程語言從數據中獲得有價值的見解。作者兼R專家Hefin Ioan Rhys以其引人入勝的、非正式的風格為ML基礎知識打下了堅實的基礎,并向您介紹了tidyverse,這是一套專門為實用數據科學設計的強大的R工具。有了這些基礎知識,您將更深入地研究常用的機器學習技術,包括分類、預測、約簡和聚類算法,并將每種技術應用于實際數據,從而對有趣的問題進行預測。
使用tidyverse包,您將轉換、清理和繪制您的數據,并在工作中使用數據科學最佳實踐。為了簡化您的學習過程,您還將使用R的mlr包,這是一個非常靈活的接口,用于各種核心算法,允許您以最少的編碼執行復雜的ML任務。您將探索一些基本概念,如過擬合、欠擬合、驗證模型性能,以及如何為您的任務選擇最佳模型。富有啟發性的圖片提供了清晰的解釋,鞏固了你的新知識。
無論您是在處理業務問題、處理研究數據,還是僅僅是一個有數據頭腦的開發人員,您都可以通過本實用教程立即構建自己的ML管道!
里面有什么
這本書在對算法工作原理的高層次理解和對優化模型的具體細節的了解之間找到一個平衡點。這本書將給你的信心和技能時,開發所有主要的機器學習模型。在這本Pro機器學習算法中,您將首先在Excel中開發算法,以便在用Python/R實現模型之前,實際了解可以在模型中調優的所有細節。
你將涵蓋所有主要的算法:監督和非監督學習,其中包括線性/邏輯回歸;k - means聚類;主成分分析;推薦系統;決策樹;隨機森林;“GBM”;和神經網絡。您還將通過CNNs、RNNs和word2vec等文本挖掘工具了解最新的深度學習。你不僅要學習算法,還要學習特征工程的概念來最大化模型的性能。您將看到該理論與案例研究,如情緒分類,欺詐檢測,推薦系統,和圖像識別,以便您得到最佳的理論和實踐為工業中使用的絕大多數機器學習算法。在學習算法的同時,您還將接觸到在所有主要云服務提供商上運行的機器學習模型。
你會學到什么?
這本書是給誰看的
希望轉換到數據科學角色的業務分析師/ IT專業人員。想要鞏固機器學習知識的數據科學家。
【導讀】 機器學習和圖像處理基礎實戰,可以使讀者深入了解圖像處理的基本知識以及各種圖像處理方法和算法,使用各種Python庫的應用程序以及使用機器學習方法的實時用例實現。
本書首先討論了不同操作系統的安裝環境,介紹了基本的圖像處理方法,它使用兩個庫Scikit Image和OpenCV深入研究各種圖像處理算法以及它們在Python中的實際實現。接下來,提出了用于圖像處理和分類的機器學習和深度學習方法。解釋了諸如Adaboost,XG Boost,卷積神經網絡等用于圖像特定應用的概念。并將所有概念均使用真實場景進行演示。
作者介紹: Santanu Pattanayak目前在GE Digital工作,是一名工作數據科學家,并且是《使用TensorFlow進行深度學習:Python中高級人工智能的數學方法》的作者。他擁有大約12年的工作經驗,在數據分析/數據科學領域有8年的經驗,并且具有開發和數據庫技術的背景。
內容大綱
內容簡介: chapter 1:
本章內容主要介紹了運行本書代碼中的環境設置,主要包括:
Anaconda
OpenCV
Keras
本書代碼大部分都以Anaconda為開發環境,分別介紹了windows系統、MacOS系統、Ubuntu系統的安裝方法。
chapter 2:
在本章中,我們將精確地介紹什么是圖像及其相關屬性。主要包括:
chapter 3:
本章的前半部分討論了Python的基本概念,這些概念對應用圖像處理技術很有用。 本章的后半部分介紹了Python的圖像處理庫:Scikit Learn。 在上一章中研究的所有概念以及其他一些概念都可以使用Scikit Learn在Python中應用。
chapter 4:
現在,我們已經了解了使用Scikit圖像庫的基本圖像處理技術,繼續介紹其更高級的方面。 在本章中,我們使用最全面的計算機視覺庫之一OpenCV,并研究以下概念:
我們通過研究一些最廣泛使用的圖像處理算法來開始本章的內容,然后繼續進行圖像處理中的機器學習實現。 本章概述如下:
使用比例不變特征變換(SIFT)算法的特征映射
使用隨機樣本共識(RANSAC)算法進行圖像配準
使用人工神經網絡進行圖像分類
使用卷積神經網絡(CNN)進行圖像分類
使用機器學習進行圖像分類