機器學習是計算機科學發展最快的領域之一,有著廣泛的應用。這本教科書的目的是以一種有原則的方式介紹機器學習和它提供的算法范例。這本書提供了一個基本的理論基礎的機器學習和數學推導,將這些原則轉化為實際的算法。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的邊界。為高級本科生或剛開始的研究生設計,文本使學生和非專業讀者在統計,計算機科學,數學和工程的機器學習的基礎和算法。
這本書來自統計學習課程,這是一門統計機器學習的入門課程,面向具有一些微積分、線性代數和統計學背景的學生。這門課程的重點是監督學習:分類和回歸。本課程將涵蓋機器學習和數據科學中使用的一系列方法,包括:
這些方法將在整個課程中被研究并應用于來自各種應用的真實數據。課程還涵蓋了一些重要的實際問題,如交叉驗證、模型選擇和偏方差權衡。課程包括理論(例如,推導和證明)以及實踐(特別是實驗室和小型項目)。實際部分將使用Python實現。
機器學習是計算機科學中增長最快的領域之一,具有深遠的應用。本書的目的是介紹機器學習,以及它所提供的算法范例。本書對機器學習的基本原理和將這些原理轉化為實際算法的數學推導提供了理論解釋。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的界限。本文面向高級本科生或剛畢業的學生,使統計學、計算機科學、數學和工程學領域的學生和非專業讀者都能接觸到機器學習的基本原理和算法。
//www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html
概述
機器學習是指自動檢測數據中有意義的模式。在過去的幾十年里,它已經成為幾乎所有需要從大數據集中提取信息的任務的通用工具。我們被一種基于機器學習的技術包圍著:搜索引擎學習如何給我們帶來最好的結果(同時投放有利可圖的廣告),反垃圾郵件軟件學習如何過濾我們的電子郵件信息,信用卡交易被一種學習如何偵測欺詐的軟件保護著。數碼相機學會識別人臉,智能手機上的智能個人輔助應用學會識別語音指令。汽車配備了使用機器學習算法構建的事故預防系統。機器學習還廣泛應用于生物信息學、醫學和天文學等科學領域。
所有這些應用程序的一個共同特征是,與計算機的更傳統使用相比,在這些情況下,由于需要檢測的模式的復雜性,人類程序員無法提供關于這些任務應該如何執行的明確、詳細的規范。以智慧生物為例,我們的許多技能都是通過學習我們的經驗(而不是遵循給我們的明確指示)而獲得或改進的。機器學習工具關注的是賦予程序“學習”和適應的能力。
這本書的第一個目標是提供一個嚴格的,但易于遵循,介紹機器學習的主要概念: 什么是機器學習?
本書的第二個目標是介紹幾種關鍵的機器學習算法。我們選擇展示的算法一方面在實踐中得到了成功應用,另一方面提供了廣泛的不同的學習技術。此外,我們特別關注適合大規模學習的算法(又稱“大數據”),因為近年來,我們的世界變得越來越“數字化”,可用于學習的數據量也在急劇增加。因此,在許多應用中數據量大,計算時間是主要瓶頸。因此,我們明確地量化了學習給定概念所需的數據量和計算時間。
目錄:
Part I: Foundations
Part II: From Theory to Algorithms
Part III: Additional Learning Models
Part IV: Advanced Theory
Appendices
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。
本文介紹了一階優化方法及其在機器學習中的應用。這不是一門關于機器學習的課程(特別是它不涉及建模和統計方面的考慮),它側重于使用和分析可以擴展到具有大量參數的大型數據集和模型的廉價方法。這些方法都是圍繞“梯度下降”的概念而變化的,因此梯度的計算起著主要的作用。本課程包括最優化問題的基本理論性質(特別是凸分析和一階微分學)、梯度下降法、隨機梯度法、自動微分、淺層和深層網絡。
機器學習(ML)是一組用于發現數據關系的編程技術。使用ML算法,您可以對數據進行聚類和分類,以執行建議或欺詐檢測之類的任務,并對銷售趨勢、風險分析和其他預測進行預測。機器學習曾經是學術數據科學家的領域,現在已經成為主流的業務流程,而像易于學習的R編程語言這樣的工具將高質量的數據分析交到任何程序員的手中。《使用R、tidyverse和mlr的機器學習》將教會您廣泛使用的ML技術,以及如何使用R編程語言及其強大的工具生態系統將它們應用于您自己的數據集。這本書會讓你開始!
對這項技術
機器學習技術準確而有效地識別數據中的模式和關系,并使用這些模型對新數據進行預測。ML技術甚至可以在相對較小的數據集上工作,使這些技能成為幾乎所有數據分析任務的強大盟友。R語言的設計考慮了數學和統計的應用。小型數據集是它的最佳選擇,它的現代數據科學工具(包括流行的tidyverse包)使R成為ML的自然選擇。
關于這本書
《使用R、tidyverse和mlr的機器學習》將教會您如何使用強大的R編程語言從數據中獲得有價值的見解。作者兼R專家Hefin Ioan Rhys以其引人入勝的、非正式的風格為ML基礎知識打下了堅實的基礎,并向您介紹了tidyverse,這是一套專門為實用數據科學設計的強大的R工具。有了這些基礎知識,您將更深入地研究常用的機器學習技術,包括分類、預測、約簡和聚類算法,并將每種技術應用于實際數據,從而對有趣的問題進行預測。
使用tidyverse包,您將轉換、清理和繪制您的數據,并在工作中使用數據科學最佳實踐。為了簡化您的學習過程,您還將使用R的mlr包,這是一個非常靈活的接口,用于各種核心算法,允許您以最少的編碼執行復雜的ML任務。您將探索一些基本概念,如過擬合、欠擬合、驗證模型性能,以及如何為您的任務選擇最佳模型。富有啟發性的圖片提供了清晰的解釋,鞏固了你的新知識。
無論您是在處理業務問題、處理研究數據,還是僅僅是一個有數據頭腦的開發人員,您都可以通過本實用教程立即構建自己的ML管道!
里面有什么
掌握通過機器學習和深度學習識別和解決復雜問題的基本技能。使用真實世界的例子,利用流行的Python機器學習生態系統,這本書是你學習機器學習的藝術和科學成為一個成功的實踐者的完美伴侶。本書中使用的概念、技術、工具、框架和方法將教會您如何成功地思考、設計、構建和執行機器學習系統和項目。
使用Python進行的實際機器學習遵循結構化和全面的三層方法,其中包含了實踐示例和代碼。
第1部分側重于理解機器學習的概念和工具。這包括機器學習基礎,對算法、技術、概念和應用程序的廣泛概述,然后介紹整個Python機器學習生態系統。還包括有用的機器學習工具、庫和框架的簡要指南。
第2部分詳細介紹了標準的機器學習流程,重點介紹了數據處理分析、特征工程和建模。您將學習如何處理、總結和可視化各種形式的數據。特性工程和選擇方法將詳細介紹真實數據集,然后是模型構建、調優、解釋和部署。
第3部分探討了多個真實世界的案例研究,涵蓋了零售、交通、電影、音樂、營銷、計算機視覺和金融等不同領域和行業。對于每個案例研究,您將學習各種機器學習技術和方法的應用。動手的例子將幫助您熟悉最先進的機器學習工具和技術,并了解什么算法最適合任何問題。
實用的機器學習與Python將授權您開始解決您自己的問題與機器學習今天!
你將學習:
這本書是給誰看的 IT專業人士、分析師、開發人員、數據科學家、工程師、研究生
目錄:
Part I: Understanding Machine Learning
Chapter 12: Deep Learning for Computer Vision
題目: Machine Learning in Action
摘要: 這本書向人們介紹了重要的機器學習算法,介紹了使用這些算法的工具和應用程序,讓讀者了解它們在今天的實踐中是如何使用的。大部分的機器學習書籍都是討論數學,但很少討論如何編程算法。這本書旨在成為從矩陣中提出的算法到實際運行程序之間的橋梁。有鑒于此,請注意這本書重代碼輕數學。
代碼下載鏈接: //pan.baidu.com/s/1--8P9Hlp7vzJdvhnnhsDvw 提取碼:vqhg
題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。
書籍介紹: 機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能。機器學習是人工智能及模式識別領域的共同研究熱點,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題。本書從機器學習的基礎入手,分別講述了分類、排序、降維、回歸等機器學習任務,是入門機器學習的一本好書。
作者: Mehryar Mohri,是紐約大學庫蘭特數學科學研究所的計算機科學教授,也是Google Research的研究顧問。
大綱介紹:
作者主頁://cs.nyu.edu/~mohri/