由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰寫的《機器學習數學基礎》“Mathematics for Machine Learning” 最新版417頁pdf版本已經放出,作者表示撰寫這本書旨在激勵人們學習數學概念。這本書并不打算涵蓋前沿的機器學習技術,因為已經有很多書這樣做了。相反,作者的目標是通過該書提供閱讀其他書籍所需的數學基礎。這本書分為兩部分:數學基礎知識和使用數學基礎知識進行機器學習算法示例。值得初學者收藏和學習!
前言(Foreword)
隨著機器學習變得越來越普遍,它的軟件包也越來越容易使用。一些低級的技術細節被抽象出來,并對實踐者隱藏起來,這是很自然的,也是可取的。然而,這帶來了一些風險,即實踐者不知道設計決策,因此不知道機器學習算法的局限性。
有興趣了解機器學習算法背后機制的實踐者需要具備如下的先驗知識:
在大學里,關于機器學習的入門課程往往會在課程的早期部分涉及到以上這些先驗知識。由于歷史原因,機器學習的課程傾向于在計算機科學系進行授課。在計算機科學系,學生通常在前兩個知識領域受到的訓練比較多,但在數學和統計學方面的訓練較少。目前的一些機器學習教科書試圖加入一到兩章的內容來介紹數學背景知識,但是這些介紹要么在書的開頭,要么作為附錄。本書將機器學習中的數學基礎知識放在首位,并且信息相對集中。
【為什么要寫一本關于機器學習的書?】
機器學習建立在數學語言的基礎上,用來表達直觀上顯而易見但卻難以形式化的概念。一旦正確地形式化,我們就可以使用數學工具來得出我們設計選擇的結果。這使我們能夠深入了解我們正在解決的任務以及智能的本質。全球數學系學生普遍抱怨的一個問題是,數學所涵蓋的主題似乎與實際問題沒有太多關聯。我們認為機器學習是人們學習數學的一個明顯而直接的動機。
作者希望這本書可以成為一本指導機器學習大量數學基礎的指南。作者通過直接指出數學概念在基本機器學習問題中的有用性來激發對數學概念的需求。為了使書簡短,許多細節和更先進的概念都被省略了。書中介紹了一些基本概念,以及這些概念如何適用于機器學習的大背景,讀者可以找到大量的資源進行進一步研究。對于有數學背景的讀者,這本書提供了一個簡短但精確的機器學習入門介紹。書中只提供四個代表性的經典的機器學習算法示例。作者關注的是模型本身背后的數學概念,目的是闡明它們的抽象美。作者希望所有的讀者都能對機器學習的基本問題有更深入的了解,并將機器學習的實際問題與數學模型的基本選擇聯系起來。
【誰是目標受眾】
隨著機器學習在社會中的廣泛應用,作者相信每個人都應該對它的基本原理有一些了解。這本書是用學術數學的風格來寫的,這使讀者能夠精確地了解機器學習背后的概念。作者鼓勵不熟悉這種簡潔的風格的讀者堅持閱讀下去,并牢記每個主題的目標。作者在整篇文章中都有標記和評論,希望這些評論能對讀者提供一些有用的指導。此外,本書假定讀者具備高中數學和物理中常用的數學知識。例如,導數和積分,以及二維或三維的幾何向量。因此,本書的目標受眾包括普通大學生、夜校生和機器學習在線課程的學習者等等。
目錄
Part I: 數據基礎
Part II: 機器學習問題
簡介(Introduction)
本書分為兩部分,第一部分是數學基礎的講解,第二部分是將第一部分的數學概念應用于基本的機器學習問題中,從而形成“機器學習四大支柱”,如下圖所示:
這本書的第一部分描述了關于機器學習系統的三個主要組成部分的數學概念和數學基礎:數據、模型和學習。在本書中,作者假設數據已經被適當地轉換成適合于閱讀的數字表示形式,并被轉換成計算機程序。在這本書中,作者認為數據是向量。模型是現實世界的簡化版本,它捕獲與任務相關的現實世界的各個方面。模型的用戶需要理解模型沒有捕捉到什么,從而理解模型的局限性。概括起來就是,作者使用領域知識將數據表示為向量。并選擇一個合適的模型,要么使用概率方法,要么使用優化方法。采用數值優化的方法,對過去的數據進行學習,目的是它在看不見的數據上表現良好。
本書第二部分介紹了上圖所示的機器學習四大支柱,如下表所示。表中的每一行區分了相關變量是連續的還是非連續的類別的問題。作者解釋了如何將本書第一部分介紹的數學概念應用于機器學習算法的設計中。在第8章中,作者以數學的方式重述了機器學習的三個組成部分(數據、模型和學習)。此外,作者還提供了一些建立實驗設置的指南,以防止對機器學習系統過于樂觀的評估。
此外,作者在第一部分提供了一些練習,這些練習大部分可以用筆和紙來完成。在第二部分中,作者提供了一些編程教程(jupyter記事本)來探索在本書中討論的機器學習算法的一些特性。
許多統計和機器學習的方法正在被定義。這些方法用于從系統的感知數據創建模型,幫助科學家生成或改進當前的模型。機器學習在科學領域得到了廣泛的研究,特別是在生物信息學、經濟學、社會科學、生態學和氣候科學等領域,但從數據中學習需要在復雜的情況下進行更多的研究。要為機器學習算法提供有意義的知識,就必須采用能夠捕獲結構和過程屬性的高級知識表示方法。它對理解困難的科學問題有重大影響。
這本《知識表示和機器學習的預測和分析》展示了各種知識表示和機器學習方法和體系結構,將在研究領域活躍。這些方法被回顧與現實生活的例子,從廣泛的研究主題。本書的網站提供了許多在機器學習知識表示中實現的技術和算法的理解。
特點:
檢查所需知識表示的表示充分性 掌握知識表示的推理充分性,以便從原始信息中產生新的知識 運用自動方法獲取新知識,提高推理和獲取效率 使用最新的技術,涵蓋知識表示和機器學習方面的主要挑戰、關注和突破 描述知識表示的思想和相關技術,以及它們的應用,以幫助人類變得更好、更智能 這本書作為研究人員和實踐者誰是在信息技術和計算機科學領域的知識表示和機器學習的基本和先進的概念的研究人員和實踐者的參考書。如今,開發自適應的、文件的、可擴展的和可靠的應用,以及為日常問題設計解決方案已經變得非常重要。這本書將有助于行業人士,也將幫助初學者和高級用戶學習最新的東西,其中包括基本和先進的概念。
如果您不熟悉基礎知識,則機器學習可能是一個困難的主題。借助本書,您將獲得統計編程語言R在機器學習中使用的入門原則的堅實基礎。您將從回歸等基礎知識開始,然后進入神經網絡等更高級的主題,最后深入研究像Caret這樣的軟件包在R世界中機器學習的前沿。
通過熟悉諸如理解回歸模型和分類模型之間的差異之類的主題,您將能夠解決一系列機器學習問題。知道何時使用特定模型可能意味著高精度模型與完全無用的模型之間的區別。本書提供了大量示例來構建機器學習的實用知識。
了解機器學習算法的主要部分: 認識到如何使用機器學習以簡單的方式解決問題 找出何時使用某些機器學習算法與其他算法 了解如何使用最先進的軟件包實施算法
雖然機器學習的專業知識并不意味著你可以創建自己的圖靈測試證明機器人(就像電影《機械總動員》中那樣),但它是人工智能的一種形式,是快速大規模識別機會和解決問題的最令人興奮的技術手段之一。任何掌握了機器學習原理的人都將掌握我們科技未來的很大一部分,并在職業領域開辟令人難以置信的新方向,包括欺詐檢測、優化搜索結果、服務實時廣告、信用評分、建立精確而復雜的定價模型等等。
與大多數機器學習書籍不同的是,完全更新的第二版《傻瓜機器學習》并不假設你有多年使用編程語言(如Python)的經驗,但讓你入門,涵蓋了入門的材料,將幫助你建立和運行你需要執行實際任務的構建模型。它揭示了推動機器學習的潛在的——迷人的——數學原理,同時也表明,你不需要是一個數學天才,就可以構建有趣的新工具,并將它們應用到你的工作和學習中。
目錄
第一章 為什么機器學習至關重要。 本章描繪了人工智能和機器學習的發展全貌——從過去到現在,再到未來。
第二章 監督學習(一)。 本章通過例題介紹了線性回歸、損失函數、過擬合和梯度下降。
第三章 監督學習(二)。 本章介紹了兩種分類方法:邏輯回歸和SVM。
第四章 監督學習(三)。 本章介紹了非參數方法:k近鄰估計、決策樹、隨機森林。以及交叉驗證、超參數調整和集成模型的相關知識。
第五章 無監督學習。 本章介紹了聚類:K-means、層次聚類;降維:主成分分析(PCA)、奇異值分解(SVD)。
第六章 神經網絡與深度學習。 本章介紹了深度學習的工作原理、應用領域和實現方法,并回顧了神經網絡是如何從人類大腦中汲取靈感的。此外,本章還涉及卷積神經網絡(CNN)、遞歸神經網絡(DNN)以及神經網絡應用案例等內容。
第七章 強化學習。 本章介紹了強化學習的Exploration和Exploitation(探索-利用),包括馬爾可夫決策過程、Q-learning、策略學習和深度強化學習。
附錄: 最佳機器學習資源。 一份用于學習機器學習的資源清單。
前言
Machine Learning for Humans是國外機器學習愛好者之間流傳甚廣的一本電子書,它最先是Medium上的連載文章,后因文章質量出眾、閱讀價值高,作者在建議下把文章整理成電子書,供讀者免費閱讀。本書的作者Vishal Maini是耶魯大學的文學學士,目前已入職DeepMind;另一名作者Samer Sabri同樣畢業于耶魯大學,目前正在加州大學圣迭戈分校的計算機學院攻讀碩士學位。
哪些人應該讀一讀?
希望快速跟上機器學習發展潮流的開發者;
希望掌握機器學習入門知識并參與技術開發的普通讀者;
所有對機器學習感興趣的讀者。
本書向所有人免費開放閱讀。書中雖然會涉及概率論、統計學、程序設計、線性代數和微積分等基礎知識,但沒有數學基礎的讀者也能從中獲得啟發。
本書旨在幫助讀者在2—3個小時內迅速掌握機器學習高級概念,如果您想得到更多關于線上課程、重要書籍、相關項目等方面的內容,請參考附錄中的建議。
這本書目前作為補充為STAT 432的統計學習的介紹-在伊利諾伊大學厄巴納-香檳的統計學習的基礎。
本文最初的重點是擴展ISL對使用R進行統計學習的介紹,主要是通過添加和修改現有代碼。這一文本目前正變得更加獨立。為什么?考慮到作者認為ISL是目前最好的本科教材之一,并且是STAT 432創建的驅動力之一,這是一個非常好的問題。然而,課程一旦創建,對內容的精確控制就變得非常有用。這篇課文的主要重點是滿足學生在那門課上的需要。其中一些需要包括:
換句話說,本文試圖復制統計學習介紹的最佳部分,統計學習的元素,和應用預測建模,這是最需要的一組學生。
由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰寫的《機器學習數學基礎》“Mathematics for Machine Learning” 最新版417頁pdf版本已經放出,作者表示撰寫這本書旨在激勵人們學習數學概念。這本書并不打算涵蓋前沿的機器學習技術,因為已經有很多書這樣做了。相反,作者的目標是通過該書提供閱讀其他書籍所需的數學基礎。這本書分為兩部分:數學基礎知識和使用數學基礎知識進行機器學習算法示例。值得初學者收藏和學習!