//deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
這個經典的10部分課程,由強化學習(RL)的驅David Silver教授,雖然錄制于2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。
強化學習已經成為現代機器學習中一項強大的技術,它允許系統通過反復試驗進行學習。它已成功應用于許多領域,包括AlphaZero等系統,學會了掌握國際象棋、圍棋和Shogi游戲。
這門課程由DeepMind首席科學家、倫敦大學學院教授、AlphaZero的共同創始人David Silver教授共同向學生們介紹RL中使用的主要方法和技術。學生們還會發現薩頓和巴托的經典著作《強化學習:入門》(Reinforcement Learning: an Introduction)是一個很有幫助的書籍。
經典書《強化學習導論》
強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版公布啦。本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,并附上了全書目錄、課程代碼與資料。下載《強化學習》PDF 請點擊文末「閱讀原文」。
原書籍地址:
當我們思考學習的本質時,首先映入腦海的想法很可能是通過與環境的交互進行學習。當一個嬰兒玩耍時,揮舞手臂,左顧右盼,旁邊沒有老師指導他,他與環境卻有著一種直接的感知連接。通過這種連接,他懂得了因果關系,行動帶來的結果,以及為了達成目標所需做的一切。人的一生中,這樣的交互成了我們關于環境和自身知識的主要來源。不管學習駕駛汽車,還是進行一場交談,實際上我們自始至終觀察著環境如何回應我們的所為,并通過自身行為影響當下情景。交互式學習幾乎是所有學習與智能理論的基石。
本書中我們提出了一種通過計算實現交互式學習的方法。我們沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,我們站在人工智能研究者或工程師的角度來解決問題。我們探討了在解決科學或經濟問題方面表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較于其他機器學習方法,它更專注于交互之中的目標導向性學習。
要實現人工智能的夢想,就需要學會做出正確決策的自主系統。強化學習是這樣做的一個強大范式,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程將提供強化學習領域的充實介紹,學生將學習強化學習的核心挑戰和方法,包括推廣和探索。通過講課、書面作業和編碼作業的結合,學生將學習RL的關鍵思想和技術。作業將包括強化學習的基礎知識以及深度強化學習——一個結合了深度學習技術和強化學習的極具前景的新領域。
地址: //web.stanford.edu/class/cs234/
學生能夠學習到:
內容目錄:
在因果關系領域,我們想要了解一個系統在干預(例如基因剔除實驗)下是如何反應的。這些問題超出了統計上的依賴,因此不能用標準的回歸或分類技術來回答。在本教程中,你將學習因果推理的有趣問題和該領域的最新發展。不需要事先了解因果關系。
第一部分: 我們引入結構化的因果模型和形式化的干預分布。我們定義因果效應,并說明如果因果結構已知,如何計算它們。
第二部分: 我們提出了三個可以用來從數據中推斷因果結構的想法:(1)發現數據中的(條件)獨立性,(2)限制結構方程模型和(3)利用因果模型在不同環境中保持不變的事實。
第三部分: 如果時間允許,我們將展示因果概念如何在更經典的機器學習問題中使用。
//stat.mit.edu/news/four-lectures-causality/
來自DeepMind研究人員Feryal Behbahani, Matt Hoffman 和 Bobak Shahriari講解的強化學習教程。
報告主題: Reinforcement Learning
報告簡介: 強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由于外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。其基本原理是:如果Agent的某個行為策略導致環境正的獎賞(強化信號),那么Agent以后產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。Nando教授將從強化學習的基礎入手,并結合強化學習的應用展開介紹。
嘉賓介紹: Nando曾在加州大學伯克利分校(UC Berkeley)從事人工智能工作,并于2001年成為加拿大不列顛哥倫比亞大學的教授,隨后于2013年成為英國牛津大學的教授。2017年,他全職加入DeepMind,擔任首席科學家,以幫助他們解決智力問題,使子孫后代可以過上更好的生活。 Nando還是加拿大高級研究所的資深研究員,并曾獲得多個學術獎項。