來自臺灣國立清華大學吳尚鴻副教授主講的《大規模機器學習》教程,內容包括深度學習概述與學習理論。
本課程介紹深度學習的概念和實踐。課程由三個部分組成。在第一部分中,我們快速介紹了經典機器學習,并回顧了一些需要理解深度學習的關鍵概念。在第二部分中,我們將討論深度學習與經典機器學習的不同之處,并解釋為什么它在處理復雜問題如圖像和自然語言處理時是有效的。我們將介紹各種CNN和RNN模型。在第三部分,我們介紹了深度強化學習及其應用。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
本課程也提供了編程的實驗。在整個課程中,我們將使用Python 3作為主要的編程語言。一些流行的機器學習庫,如Scikit-learn和Tensorflow 2.0將被使用并詳細解釋。
目錄內容:
本文推薦來自法國INRIA Francis Bach研究員述《大規模機器學習與凸優化》,205頁ppt系統性講述了大規模機器學習優化與凸優化算法,非常干貨。
Large-scale machine learning and convex optimization
機器學習是數學、計算機科學和工程相結合的一個快速發展的領域,它為計算機提供了無需明確編程就能進行學習的能力,以便做出預測或采取理性行動。從癌癥研究到金融、自然語言處理、市場營銷或自動駕駛汽車,如今許多領域都受到了機器學習算法近期進展的影響。機器學習算法得益于收集大量數據并從中“學習”的能力。
本報告概述了監督機器學習、面向凸優化的快速隨機梯度方法、更多超越凸優化的問題。
本課程涵蓋了機器學習和數據挖掘的一系列選定主題,重點是部署真實系統的好方法和實踐。大部分章節是關于常用的監督學習技術,和較小程度上非監督方法。這包括線性回歸和邏輯回歸的基本算法、決策樹、支持向量機、聚類、神經網絡,以及特征選擇和降維、誤差估計和經驗驗證的關鍵技術。
//www.siamak.page/teachings/comp551f20/comp551f20/
Part 1.機器學習簡史 a short tour of ML Part 2. 線性模型、概率解釋與梯度優化,linear models, their probabilistic interpretation and gradient optimization Part 3. 神經網絡與深度學習,Neural networks and deep learning
近日,本科畢業于哈佛大學統計學與經濟學專業、現任哈佛助教的 Daniel Friedman 開放了他撰寫的一本免費在線書籍《Machine Learning from Scratch》,該書從理論和數學上介紹了 ML 最常見算法(OLS、邏輯回歸、樸素貝葉斯、決策樹、boosts 和神經網絡等)的完整推論。
地址://dafriedman97.github.io/mlbook/content/introduction.html
該書是為讀者學習新的機器學習算法或了解更深層次的算法。具體地說,它是為那些有興趣學習機器學習算法的讀者準備的。這些推導可能有助于讀者,特別是對基礎算法不熟悉的讀者,可以更直觀地理解它們是如何工作的。或者,這些推導可以幫助有建模經驗的讀者理解不同算法是如何創建模型,以及每種算法的優缺點。
書籍概述
這本書涵蓋了機器學習中最常見的方法。這些方法就像一個工具箱,為那些進入機器學習領域的人提供了便利,從而可以很快地找到所需工具。該書由 7 個章節以及 1 個附錄組成。書的每一章節都對應一種機器學習方法或一組方法。
通過學習,你將學得:普通線性回歸、線性回歸擴展、判別分類器(Logistic 回歸)、生成分類器(樸素貝葉斯)以及決策樹等算法的完整推論。
每個章節均由這 3 部分組成。
其中,概念部分從概念上介紹這些方法,并從數學上推導結果;構建部分展示了如何使用 Python 從頭開始構建方法;實現部分介紹了如何使用 Python 中的工具包(如 scikit-learn、statsmodels 和 tensorflow)應用這些方法。
為什么選擇這本書?
現在關于機器學習的書籍數不勝數,在網上就可以免費獲得。像《An Introduction to Statistical Learning》、《Elements of Statistical Learning》 和 《Pattern Recognition and Machine Learning》,這些機器學習書籍的作者掌握的知識更豐富,書籍內容涵蓋的范圍也更廣。但值得注意的一點是:這些書籍只提供了概念上的機器學習以及方法背后的理論。
但是,本書重點介紹了機器學習算法的基本框架,旨在為讀者提供獨立構建這些算法的能力。作為一種「工具箱」而言,本書旨在成為用戶指南,它不是用來指導用戶關于該領域的廣泛實踐,而是在微觀層面上講述如何使用每種工具。
這本書需要讀者掌握哪些知識?
需要注意的是,這本書的「概念」部分需要讀者了解微積分知識,有些還需要了解概率(如最大似然和貝葉斯規則)和基本線性代數知識(如矩陣運算和點積)。
不過,該書附錄部分回顧了所需的數學和概率知識。「概念」部分還參考了一些常見的機器學習方法,這些方法在附錄中也有介紹。所以,「概念」部分不需要任何編程知識。
該書的「構建」和「代碼」部分使用了一些基礎的 Python 知識。「構建」部分需要了解相應的內容,并且需要熟悉用 Python 創建函數和類。「代碼」部分則不需要這些知識。
參考鏈接:
強化學習理論(RL),重點是樣本復雜性分析。
//www.math.arizona.edu/~hzhang/math574.html
隨著信息技術的飛速發展,在各個領域產生了大量的科學和商業數據。例如,人類基因組數據庫項目已經收集了千兆字節的人類遺傳密碼數據。萬維網提供了另一個例子,它擁有由數百萬人使用的文本和多媒體信息組成的數十億Web頁面。
本課程涵蓋了現代數據科學技術,包括基本的統計學習理論及其應用。將介紹各種數據挖掘方法、算法和軟件工具,重點在概念和計算方面。將涵蓋生物信息學、基因組學、文本挖掘、社交網絡等方面的應用。
本課程著重于現代機器學習的統計分析、方法論和理論。它是為學生誰想要實踐先進的機器學習工具和算法,也了解理論原理和統計性質的算法。主題包括回歸、分類、聚類、降維和高維分析。
機器學習暑期學校(MLSS)系列開始于2002年,致力于傳播統計機器學習和推理的現代方法。今年因新冠疫情在線舉行,從6月28號到7月10號講述了眾多機器學習主題。本文推薦來自法國INRIA Francis Bach研究員述《大規模機器學習優化》,177頁ppt系統性講述了大規模機器學習優化算法,非常干貨。
Francis Bach 先生是INRIA(法國國家信息與自動化研究所)的研究員,自2011年起領導SIERRA項目團隊(該團隊是Ecole Normale Supérieure計算機科學系的一部分,也是CNRS、ENS和INRIA的聯合團隊)。自2016年起,成為Ecole Normale Supérieure的兼職教授。在伯克利大學完成了計算機科學博士學位,與邁克爾·喬丹教授合作,在巴黎礦業大學數學形態學組工作了兩年,然后從2007年到2010年加入了INRIA/Ecole Normale Superieure/CNRS的WILLOW項目組。從2009年到2014年,負責ERC項目SIERRA。對統計機器學習很感興趣,特別是在圖形模型、稀疏方法、基于核的學習、凸優化視覺和信號處理方面。
Optimization for Large Scale Machine Learning
機器學習是數學、計算機科學和工程相結合的一個快速發展的領域,它為計算機提供了無需明確編程就能進行學習的能力,以便做出預測或采取理性行動。從癌癥研究到金融、自然語言處理、市場營銷或自動駕駛汽車,如今許多領域都受到了機器學習算法近期進展的影響。機器學習算法得益于收集大量數據并從中“學習”的能力。
本報告概述了監督機器學習、面向凸優化的快速隨機梯度方法、更多超越凸優化的問題。
【導讀】2020新年伊始,多倫多大學Amir-massoud Farahmand和Emad A. M. Andrews博士開設了機器學習導論課程,介紹了機器學習的主要概念和思想,并概述了許多常用的機器學習算法。它還可以作為更高級的ML課程的基礎。
課程地址:
//amfarahmand.github.io/csc311/
機器學習(ML)是一組技術,它允許計算機從數據和經驗中學習,而不需要人工指定所需的行為。ML在人工智能作為一個學術領域和工業領域都變得越來越重要。本課程介紹了機器學習的主要概念和思想,并概述了許多常用的機器學習算法。它還可以作為更高級的ML課程的基礎。
本課程結束時,學生將學習(大致分類)
機器學習問題:監督(回歸和分類),非監督(聚類,降維),強化學習
模型:線性和非線性(基擴展和神經網絡)
損失函數:平方損失、交叉熵、鉸鏈、指數等。
Regularizers: l1和l2
概率觀點:最大似然估計,最大后驗,貝葉斯推理
偏差和方差的權衡
集成方法:Bagging 和 Boosting
ML中的優化技術: 梯度下降法和隨機梯度下降法
課程目錄:
參考資料:
(ESL) Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning, 2009.
(PRML) Christopher M. Bishop, Pattern Recognition and Machine Learning, 2006.
(RL) Richard S. Sutton and Andrew G. Barto Reinforcement Learning: An Introduction, 2018.
(DL) Ian Goodfellow, Yoshua Bengio and Aaron Courville (2016), Deep Learning
(MLPP) Kevin P. Murphy, Machine Learning: A Probabilistic Perspective, 2013.
(ISL) Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani, Introduction to Statistical Learning, 2017.
() Shai Shalev-Shwartz and Shai Ben-David Understanding Machine Learning: From Theory to Algorithms, 2014.
(ITIL) David MacKay, Information Theory, Inference, and Learning Algorithms, 2003.
臺大教授李宏毅的機器學習課程廣受歡迎與好評。李老師的授課風格風趣幽默,通俗易懂,其課程內容中不僅有機器學習、深度學習的基礎知識,也會介紹 ML 領域里的各種最新技術。最新的機器學習課程,李老師講述了終身學習與可解釋ML、異常檢測、對抗攻擊,值得觀看學習。
課程資料鏈接:
//speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
課程視頻(Bilibili):
YouTube 鏈接: