這是一門關于在不確定情況下強化學習(RL)和順序決策的入門課程,重點在于理解理論基礎。我們研究如何使用動態規劃方法,如價值和策略迭代,來解決具有已知模型的順序決策問題,以及如何擴展這些方法,以解決模型未知的強化學習問題。其他主題包括(但不限于)RL中的函數近似、策略梯度方法、基于模型的RL以及平衡探索-利用權衡。本課程將以講座和閱讀古典及近期論文的方式傳授給學生。因為重點是理解基礎,你應該期望通過數學細節和證明。本課程的要求背景包括熟悉概率論和統計、微積分、線性代數、最優化和(有監督的)機器學習。
//amfarahmand.github.io/IntroRL/
目錄內容:
強化學習入門筆記
這是多倫多大學計算機科學系于2021年春季教授的強化學習(RL)研究生課程介紹的講義。本課程是入門性的,因為它不需要預先接觸強化學習。然而,它不僅僅是算法的集合。相反,它試圖在RL中經常遇到的許多重要思想和概念背后建立數學直覺。在這些講義的過程中,我證明了很多基礎的,或者有時不那么基礎的,RL的結果。如果某個結果的證明過于復雜,我就證明一個簡化的版本。
強化學習(RL)既指一類問題,也指解決這類問題的一組計算方法。RL問題是指如何采取行動,使某些長期績效的概念得到最大化。RL問題,從它的定義來看,是關于一個實體的行為和交互,我們稱之為代理,與其周圍的環境,我們稱之為環境。這是一個非常普遍的目標。有人可能會說,解決AI問題等同于解決RL問題。強化學習也指解決RL問題的一套計算方法。一個代理需要做什么樣的計算才能確保它的行為能夠帶來良好的(甚至是最佳的)長期性能?實現這些的方法稱為RL方法。歷史上,在所有試圖解決RL問題的計算方法中,只有一個子集被稱為RL方法。例如Q-Learning這樣的方法(我們將在本課程中學習)是一種很好的RL方法,但是進化計算的方法,如遺傳算法,則不是。人們可以爭辯說,進化計算方法沒有太多的“學習”成分,或者它們不以個體生命的時間尺度行事,而是以世代的時間尺度行事。雖然這些是真正的區別,但這種劃分方式有些武斷。在本課堂講稿中,我們將重點放在“RL社區”中經常學習的方法上。
這本書調研了大約20世紀90年代末機器學習的許多重要課題。我的意圖是在理論和實踐之間尋求一個中間橋梁帶。筆記集中在機器學習的重要思想上——它既不是一本實踐手冊,也不是一個理論證明的概要。我的目標是為讀者提供充分的準備,使一些關于機器學習的廣泛文獻易于理解。草稿只有200多頁(包括扉頁)。
這本書集中在機器學習的重要思想上。對于我所陳述的許多定理,我并沒有給出證明,但對于形式的證明,我確實給出了可信的論據和引用。而且,我沒有討論許多在應用中具有實際重要性的問題;這本書不是機器學習實踐手冊。相反,我的目標是為讀者提供充分的準備,使大量關于機器學習的文獻易于理解。
學習,就像智力一樣,涵蓋了如此廣泛的過程,很難精確定義。詞典的定義包括這樣的短語:“通過學習、指導或經驗獲得知識、或理解、或技能”和“通過經驗改變行為傾向”。動物學家和心理學家研究動物和人類的學習。在這本書中,我們關注的是機器學習。動物和機器學習之間有一些相似之處。當然,機器學習的許多技術都來自心理學家的努力,他們通過計算模型使動物和人類學習的理論更加精確。機器學習研究人員正在探索的概念和技術似乎也可能闡明生物學習的某些方面。
機器學習和人工神經網絡無處不在,它們對我們日常生活的影響比我們可能意識到的還要深遠。這堂課是專門針對機器學習在不同科學領域的使用的介紹。在科學研究中,我們看到機器學習的應用越來越多,反映了工業技術的發展。這樣一來,機器學習就成為了精確科學的通用新工具,與微積分、傳統統計學和數值模擬等方法并行其道。這就提出了一個問題,在圖2所示的科學工作流程中,這些新方法是最好的。
此外,一旦確定了一項特定的任務,將機器學習應用到科學領域就會面臨非常具體的挑戰: (i) 科學數據通常具有非常特定的結構,例如晶體圖像中近乎完美的周期性; (ii) 通常情況下,我們對應該反映在機器學習分析中的數據相關性有特定的知識; (iii) 我們想要了解為什么一個特定的算法會起作用,尋求對自然機制和法則的基本見解; (iv) 在科學領域,我們習慣于算法和定律提供確定性答案,而機器學習本質上是概率性的——不存在絕對的確定性。盡管如此,定量精度在許多科學領域是至關重要的,因此是機器學習方法的一個關鍵基準。
這堂課是為科學領域的科學家和學生介紹基本機器學習算法。我們將涵蓋:
機器學習領域充滿了行話,對于不了解機器學習的人來說,這些行話掩蓋了機器學習方法的核心。作為一個不斷變化的領域,新的術語正在以快速的速度被引入。我們的目標是通過精確的數學公式和簡潔的公式來切入俚語,為那些了解微積分和線性代數的人揭開機器學習概念的神秘面紗。
如上所述,數據是本節課所討論的大多數機器學習方法的核心。由于原始數據在很多情況下非常復雜和高維,首先更好地理解數據并降低它們的維數往往是至關重要的。下一節,第2節將討論在轉向神經網絡的重型機器之前可以使用的簡單算法。
我們最關注的機器學習算法,一般可以分為兩類算法,即判別算法和生成算法,如圖3所示。判別任務的例子包括分類問題,如上述數字分類或分類為固體,液體和氣相給出一些實驗觀測。同樣,回歸,也就是估計變量之間的關系,也是一個判別問題。更具體地說,我們在給定一些輸入數據x的情況下,嘗試近似某個變量y (label)的條件概率分布P(y|x)。由于這些任務中的大部分數據都是以輸入數據和目標數據的形式提供的,這些算法通常采用監督學習。判別算法最直接地適用于科學,我們將在第3和第4節中討論它們。
人工智能的前景可能引發科學領域的不合理預期。畢竟,科學知識的產生是最復雜的智力過程之一。計算機算法肯定還遠沒有達到那樣復雜的水平,而且在不久的將來也不會獨立地制定新的自然法則。盡管如此,研究人員研究了機器學習如何幫助科學工作流程的各個部分(圖2)。雖然制定牛頓經典力學定律所需的抽象類型似乎難以置信地復雜,但神經網絡非常擅長隱式知識表示。然而,要準確地理解它們是如何完成某些任務的,并不是一件容易的事情。我們將在第6節討論這個可解釋的問題。
第三類算法被稱為強化學習(reinforcement learning),它不完全符合近似統計模型的框架. 機器學習的成功很大程度上與科學家使用適當算法的經驗有關。因此,我們強烈建議認真解決伴隨練習,并充分利用練習課程。
要實現人工智能的夢想,就需要學會做出正確決策的自主系統。強化學習是這樣做的一個強大范式,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程將提供強化學習領域的充實介紹,學生將學習強化學習的核心挑戰和方法,包括推廣和探索。通過講課、書面作業和編碼作業的結合,學生將學習RL的關鍵思想和技術。作業將包括強化學習的基礎知識以及深度強化學習——一個結合了深度學習技術和強化學習的極具前景的新領域。
地址: //web.stanford.edu/class/cs234/
學生能夠學習到:
內容目錄:
//deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
這個經典的10部分課程,由強化學習(RL)的驅David Silver教授,雖然錄制于2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。
強化學習已經成為現代機器學習中一項強大的技術,它允許系統通過反復試驗進行學習。它已成功應用于許多領域,包括AlphaZero等系統,學會了掌握國際象棋、圍棋和Shogi游戲。
這門課程由DeepMind首席科學家、倫敦大學學院教授、AlphaZero的共同創始人David Silver教授共同向學生們介紹RL中使用的主要方法和技術。學生們還會發現薩頓和巴托的經典著作《強化學習:入門》(Reinforcement Learning: an Introduction)是一個很有幫助的書籍。
經典書《強化學習導論》
強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版公布啦。本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,并附上了全書目錄、課程代碼與資料。下載《強化學習》PDF 請點擊文末「閱讀原文」。
原書籍地址:
當我們思考學習的本質時,首先映入腦海的想法很可能是通過與環境的交互進行學習。當一個嬰兒玩耍時,揮舞手臂,左顧右盼,旁邊沒有老師指導他,他與環境卻有著一種直接的感知連接。通過這種連接,他懂得了因果關系,行動帶來的結果,以及為了達成目標所需做的一切。人的一生中,這樣的交互成了我們關于環境和自身知識的主要來源。不管學習駕駛汽車,還是進行一場交談,實際上我們自始至終觀察著環境如何回應我們的所為,并通過自身行為影響當下情景。交互式學習幾乎是所有學習與智能理論的基石。
本書中我們提出了一種通過計算實現交互式學習的方法。我們沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,我們站在人工智能研究者或工程師的角度來解決問題。我們探討了在解決科學或經濟問題方面表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較于其他機器學習方法,它更專注于交互之中的目標導向性學習。
本課程關注控制理論和強化學習的理論介紹,側重于連續狀態空間以及物理世界和機器人技術的應用。我們強調計算效率的算法和可證明的界。特別關注RL中非隨機控制和遺憾最小化的新方法。我們將與該領域的經典方法論進行比較和對比。
本課程的練習和項目將需要用python編寫代碼。
這門課程對所有學生開放,但要求有很強的數學背景。
//sites.google.com/view/cos59x-cct/home
深度學習的先驅、圖靈獎獲得者Yann Lecun教授有一種非常簡潔明了地抓住問題癥結的氣質。2020年2月左右,他在巴巴多斯研討會上說,
“控制=梯度強化學習”。
強化學習和控制理論的關鍵區別在于它們所操作的空間。強化學習的范圍通常位于離散狀態空間(如圍棋、國際象棋),而控制理論通常處理涉及物理和連續空間(如機器人)的問題。物理學和結構環境的知識使我們能夠利用差分信息。
后者允許我們使用強大的數學優化和凸松弛技術來設計高效的算法。這是自適應非隨機控制理論的主題,也是本課程的主題。
為土木工程專業的學生和專業人士介紹概率機器學習的關鍵概念和技術;有許多循序漸進的例子、插圖和練習。
這本書向土木工程的學生和專業人員介紹了概率機器學習的概念,以一種對沒有統計學或計算機科學專業背景的讀者可訪問的方式提出了關鍵的方法和技術。通過一步步的例子、插圖和練習,它清晰而直接地展示了不同的方法。掌握了材料,讀者將能夠理解更高級的機器學習文獻,從這本書中提取。
本書介紹了概率機器學習的三個子領域的關鍵方法:監督學習、非監督學習和強化學習。它首先涵蓋了理解機器學習所需的背景知識,包括線性代數和概率論。接著介紹了有監督和無監督學習方法背后的貝葉斯估計,以及馬爾可夫鏈蒙特卡洛方法,該方法使貝葉斯估計能夠在某些復雜情況下進行。這本書接著涵蓋了與監督學習相關的方法,包括回歸方法和分類方法,以及與非監督學習相關的概念,包括聚類、降維、貝葉斯網絡、狀態空間模型和模型校準。最后,本書介紹了不確定環境下理性決策的基本概念,以及不確定和序列上下文下理性決策的基本概念。在此基礎上,這本書描述了強化學習的基礎,虛擬代理學習如何通過試驗和錯誤作出最優決策,而與它的環境交互。
目錄內容: Chapter 1: 引言 Introduction Part one: 背景 Background
Chapter 2: 線性代數 Chapter 3: 概率理論 Probability Theory Chapter 4: 概率分布 Probability Distributions Chapter 5: 凸優化 Convex Optimization Part two: 貝葉斯估計 Bayesian Estimation Chapter 6: 從數據中學習 Learning from Data Chapter 7: 馬爾科夫鏈蒙特卡洛 Markov Chain Monte Carlo
Part three: 監督學習 Supervised Learning Chapter 8: 回歸 Regression Chapter 9: 分類 Classification Part four: 無監督學習 Unsupervised Learning Chapter 10: 聚類 Clustering Chapter 11: 貝葉斯網絡 Bayesian Networks Chapter 12: 狀態空間 State-Space Models Chapter 13: 模型 Model Calibration Part five: 強化學習 Reinforcement Learning Chapter 14: 不確定上下文決策 Decision in Uncertain Contexts Chapter 15: 序列決策 Sequential Decisions
這是一門關于機器學習的入門課程。機器學習是一組技術,它允許機器從數據和經驗中學習,而不是要求人類手工指定所需的行為。在過去的20年里,機器學習技術在人工智能的學術領域和科技行業中都變得越來越重要。本課程提供了一些最常用的ML算法的廣泛介紹。
課程的前半部分側重于監督學習。我們從最近鄰、決策樹和集合開始。然后介紹了參數化模型,包括線性回歸、logistic回歸和softmax回歸以及神經網絡。然后我們轉向無監督學習,特別關注概率模型,以及主成分分析和k均值。最后,我們介紹了強化學習的基礎知識。
課程內容:
//www.cs.toronto.edu/~huang/courses/csc2515_2020f/
推薦閱讀材料: Hastie, Tibshirani, and Friedman: “The Elements of Statistical Learning” Christopher Bishop: “Pattern Recognition and Machine Learning”, 2006. Kevin Murphy: “Machine Learning: a Probabilistic Perspective”, 2012. David Mackay: “Information Theory, Inference, and Learning Algorithms”, 2003. Shai Shalev-Shwartz & Shai Ben-David: “Understanding Machine Learning: From Theory to Algorithms”, 2014.
學習路線圖:
機器學習(ML)是一組技術,允許計算機從數據和經驗中學習,而不是要求人類手工指定所需的行為。ML在AI的學術領域和工業領域都越來越重要。本課程提供了一些最常用的ML算法的廣泛介紹。它還將介紹一些關鍵的算法原理,這些原理將作為更高級課程的基礎,如CSC412/2506(概率學習和推理)和CSC413/2516(神經網絡和深度學習)。
我們從最近鄰,典型非參數模型開始。然后我們轉向參數模型:線性回歸、邏輯回歸、softmax回歸和神經網絡。然后我們轉向無監督學習,特別關注概率模型,以及主成分分析和k均值。最后,我們介紹了強化學習的基礎知識。
//www.cs.toronto.edu/~rgrosse/courses/csc311_f20/
強化學習理論(RL),重點是樣本復雜性分析。
【導讀】2020新年伊始,多倫多大學Amir-massoud Farahmand和Emad A. M. Andrews博士開設了機器學習導論課程,介紹了機器學習的主要概念和思想,并概述了許多常用的機器學習算法。它還可以作為更高級的ML課程的基礎。
課程地址:
//amfarahmand.github.io/csc311/
機器學習(ML)是一組技術,它允許計算機從數據和經驗中學習,而不需要人工指定所需的行為。ML在人工智能作為一個學術領域和工業領域都變得越來越重要。本課程介紹了機器學習的主要概念和思想,并概述了許多常用的機器學習算法。它還可以作為更高級的ML課程的基礎。
本課程結束時,學生將學習(大致分類)
機器學習問題:監督(回歸和分類),非監督(聚類,降維),強化學習
模型:線性和非線性(基擴展和神經網絡)
損失函數:平方損失、交叉熵、鉸鏈、指數等。
Regularizers: l1和l2
概率觀點:最大似然估計,最大后驗,貝葉斯推理
偏差和方差的權衡
集成方法:Bagging 和 Boosting
ML中的優化技術: 梯度下降法和隨機梯度下降法
課程目錄:
參考資料:
(ESL) Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning, 2009.
(PRML) Christopher M. Bishop, Pattern Recognition and Machine Learning, 2006.
(RL) Richard S. Sutton and Andrew G. Barto Reinforcement Learning: An Introduction, 2018.
(DL) Ian Goodfellow, Yoshua Bengio and Aaron Courville (2016), Deep Learning
(MLPP) Kevin P. Murphy, Machine Learning: A Probabilistic Perspective, 2013.
(ISL) Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani, Introduction to Statistical Learning, 2017.
() Shai Shalev-Shwartz and Shai Ben-David Understanding Machine Learning: From Theory to Algorithms, 2014.
(ITIL) David MacKay, Information Theory, Inference, and Learning Algorithms, 2003.