主動學習是一種有監督的機器學習協議,其中學習算法從大量未標記數據中序列地請求選定數據點的標簽。這與被動學習形成了對比,被動學習是隨機獲取有標記的數據。主動學習的目標是產生一個高度精確的分類器,理想情況下使用的標簽要比被動學習達到同樣目的所需的隨機標記數據的數量少。這本書描述了我們對主動學習的理論益處的理解的最新進展,以及對設計有效的主動學習算法的啟示。文章的大部分內容都集中在一種特殊的方法上,即基于不同意見的主動學習,到目前為止,這種方法已經積累了大量的文獻。它還從文獻中簡要地考察了幾種可供選擇的方法。重點是關于一些一般算法的性能的定理,包括適當的嚴格證明。然而,本文的目的是教學,集中于說明基本思想的結果,而不是獲得最強或最普遍的已知定理。目標受眾包括機器學習和統計學領域的研究人員和高級研究生,他們有興趣更深入地了解主動學習理論最近和正在進行的發展。
本書是對機器學習一個領域的全面綜述,處理在分類問題中的未標記數據的使用: 最先進的算法,該領域的分類,應用,基準實驗,和未來的研究方向。
在機器學習領域,半監督學習(SSL)處于監督學習(其中所有訓練示例都被標記)和非監督學習(其中不給出標記數據)之間。近年來,人們對SSL的興趣有所增加,特別是在圖像、文本和生物信息學等未標記數據豐富的應用領域。這是對SSL的第一次全面概述,介紹了最先進的算法、該領域的分類、選定的應用程序、基準測試,以及對未來研究的展望。半監督學習首先提出了該領域的關鍵假設和思想:平滑性、聚類或低密度分離、流形結構和轉導。本書的核心是介紹根據算法策略組織的SSL方法。經過對生成模型的檢查,本書描述了實現低密度分離假設的算法,基于圖的方法,和執行兩步學習的算法。然后,本書討論了SSL應用程序,并通過分析大量基準測試的結果為SSL實踐者提供了指導方針。最后,本書還介紹了SSL研究的有趣方向。本書以半監督學習和轉導之間的關系的討論結束。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型,針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子,討論機器學習的統計方面,并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。
到本書結束時,你將掌握機器學習所需的統計數據,并能夠將你的新技能應用于任何類型的行業問題。
目錄
第一章 為什么機器學習至關重要。 本章描繪了人工智能和機器學習的發展全貌——從過去到現在,再到未來。
第二章 監督學習(一)。 本章通過例題介紹了線性回歸、損失函數、過擬合和梯度下降。
第三章 監督學習(二)。 本章介紹了兩種分類方法:邏輯回歸和SVM。
第四章 監督學習(三)。 本章介紹了非參數方法:k近鄰估計、決策樹、隨機森林。以及交叉驗證、超參數調整和集成模型的相關知識。
第五章 無監督學習。 本章介紹了聚類:K-means、層次聚類;降維:主成分分析(PCA)、奇異值分解(SVD)。
第六章 神經網絡與深度學習。 本章介紹了深度學習的工作原理、應用領域和實現方法,并回顧了神經網絡是如何從人類大腦中汲取靈感的。此外,本章還涉及卷積神經網絡(CNN)、遞歸神經網絡(DNN)以及神經網絡應用案例等內容。
第七章 強化學習。 本章介紹了強化學習的Exploration和Exploitation(探索-利用),包括馬爾可夫決策過程、Q-learning、策略學習和深度強化學習。
附錄: 最佳機器學習資源。 一份用于學習機器學習的資源清單。
前言
Machine Learning for Humans是國外機器學習愛好者之間流傳甚廣的一本電子書,它最先是Medium上的連載文章,后因文章質量出眾、閱讀價值高,作者在建議下把文章整理成電子書,供讀者免費閱讀。本書的作者Vishal Maini是耶魯大學的文學學士,目前已入職DeepMind;另一名作者Samer Sabri同樣畢業于耶魯大學,目前正在加州大學圣迭戈分校的計算機學院攻讀碩士學位。
哪些人應該讀一讀?
希望快速跟上機器學習發展潮流的開發者;
希望掌握機器學習入門知識并參與技術開發的普通讀者;
所有對機器學習感興趣的讀者。
本書向所有人免費開放閱讀。書中雖然會涉及概率論、統計學、程序設計、線性代數和微積分等基礎知識,但沒有數學基礎的讀者也能從中獲得啟發。
本書旨在幫助讀者在2—3個小時內迅速掌握機器學習高級概念,如果您想得到更多關于線上課程、重要書籍、相關項目等方面的內容,請參考附錄中的建議。
在復雜的以人為中心的系統中,每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是,它們沒有能力處理概率和事件不精確的情況。在這本書中,我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束,從行為決策的外部建模轉向組合狀態的框架。
這本書將有助于在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學的專業人員,學者,經理和研究生。
讀者:專業人士,學者,管理者和研究生在模糊邏輯,決策科學,人工智能,數學經濟學,和計算經濟學。
統計學習理論是一個新興的研究領域,它是概率論、統計學、計算機科學和最優化的交叉領域,研究基于訓練數據進行預測的計算機算法的性能。以下主題將包括:統計決策理論基礎;集中不平等;監督學習和非監督學習;經驗風險最小化;complexity-regularized估計;學習算法的泛化界VC維與復雜性;極大極小下界;在線學習和優化。利用一般理論,我們將討論統計學習理論在信號處理、信息論和自適應控制方面的一些應用。
機器學習是計算機科學發展最快的領域之一,有著廣泛的應用。這本教科書的目的是以一種有原則的方式介紹機器學習和它提供的算法范例。這本書提供了一個基本的理論基礎的機器學習和數學推導,將這些原則轉化為實際的算法。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的邊界。為高級本科生或剛開始的研究生設計,文本使學生和非專業讀者在統計,計算機科學,數學和工程的機器學習的基礎和算法。
題目: Active Learning: From Theory to Practice
簡介:
近年來,機器學習領域取得了相當大的進步,但主要是在定義明確的領域中使用了大量帶有人類標記的訓練數據。機器可以識別圖像中的物體并翻譯文本,但它們必須接受比人一生所能看到的更多的圖像和文本的訓練。生成必要的訓練數據集需要大量的人力工作。Active ML旨在解決這個問題,它設計了一種學習算法,能夠自動、自適應地選擇最具信息性的數據進行標記,這樣就不會浪費人類的時間來標記不相關、冗余或瑣碎的例子。本教程將概述應用程序,并介紹主動機器學習的基本理論和算法。它將特別關注可證明的健全的主動學習算法,并量化學習所需的標記訓練數據的減少。
邀請嘉賓:
Robert Nowak是威斯康星大學麥迪遜分校的諾斯布施工程教授,他的研究重點是信號處理、機器學習、優化和統計。
Steve Hanneke是芝加哥豐田技術研究所的研究助理教授。他的研究探索了機器學習理論:設計新的學習算法,能夠從更少的樣本中學習,理解交互式機器學習的好處和能力,開發遷移學習和終身學習的新視角,并在學習理論的基礎上重新審視基本的概率假設。Steve于2005年在UIUC獲得了計算機科學學士學位,2009年在卡內基梅隆大學獲得了機器學習博士學位,并完成了一篇關于主動學習理論基礎的論文。