在過去的十年中,人們對不確定性下的連續決策產生了極大的興趣,這是一類涉及到智能體與未知環境交互以實現某些目標的廣泛問題。強化學習方法解決了這些問題,最近人工智能在游戲、機器人等領域取得了突破。受這些實證證明的啟發,許多學習理論界的研究人員將他們的注意力轉向了強化學習,試圖更好地理解這些問題并發展新的算法原則。他們的努力為強化學習帶來了一個更現代的統計基礎,強調通過全局收斂、樣本復雜性和遺憾分析的非漸近特征。
本教程將概述這一新興理論,重點是最具挑戰性的在線探索設置。本教程分為三個部分:
第一部分將介紹必要的背景知識和定義。我們在這里重點討論了表式馬爾可夫決策過程的最基本設置,并考慮了難度不斷增加的問題:從規劃,到基于探索性分布的優化,再到在線探索。我們將提出兩種算法:用于優化問題的自然策略梯度(NPG)和用于探索的ucb -值迭代(UCB-VI),以及它們的保證。
第二部分是復習/實踐習部分。我們準備了一個問題集,涵蓋了NPG和UCB-VI的詳細分析,突出了在強化學習中廣泛有用的關鍵引理,以及與相關領域的技術聯系。這次會議將集體舉行。許多該領域的專家將會在問題集上提供幫助或回答其他問題。
第三部分將著重于表格設置之外的在線探索,在表格設置中需要函數近似來進行泛化。在這里,我們將提供一個RL模型和復雜性度量的合集,使易于處理的學習,以及一些統計障礙和算法。最后,我們將討論一些尚未解決的問題和未來的方向。
所有COLT參與者都可以訪問本教程。不需要RL的背景知識,但我們希望教程參與者能夠熟練使用學習理論研究中使用的標準數學工具,如集中不等式和一些線性代數。
近年來,在控制和強化學習中出現了新的方法,這些方法結合了遺憾(regret )最小化和在線凸優化技術。由此產生的理論為控制和強化學習中一些長期存在的問題提供了可證明的保證:對數后悔和快速速率,沒有系統知識的端到端LQG-LQR,帶有對抗噪聲的卡爾曼濾波,具有可證明的有限時間保證的黑盒控制,系統識別的緊下界,等等。
這些結果的主要創新之處在于在線控制模型將隨機擾動替換為對抗性擾動,并以后悔最小為最優控制目標。我們將描述設置,以及基于梯度和依賴于新的凸松弛的新方法。
大多數大型在線推薦系統,如新聞推送排名、人員推薦、工作推薦等,通常都有多個實用工具或指標需要同時優化。經過訓練以優化單一效用的機器學習模型通過參數組合在一起,生成最終的排名函數。這些組合參數驅動業務指標。找到正確的參數選擇通常是通過在線A/B實驗,這是非常復雜和耗時的,特別是考慮到這些參數對指標的非線性影響。
在本教程中,我們將討論如何應用貝葉斯優化技術為這樣復雜的在線系統獲取參數,以平衡競爭性指標。首先,我們將深入介紹貝葉斯優化,包括一些基礎知識以及該領域的最新進展。其次,我們將討論如何將一個真實世界的推薦系統問題制定為一個可以通過貝葉斯優化解決的黑盒優化問題。我們將專注于一些關鍵問題,如新聞推送排名、人員推薦、工作推薦等。第三,我們將討論解決方案的架構,以及我們如何能夠為大規模系統部署它。最后,我們將討論該領域的擴展和一些未來的發展方向。
強化學習(RL)為基于學習的控制提供了一種數學形式,允許通過優化用戶指定的獎勵函數來獲得接近最優的行為。最近,由于在許多領域的出色應用,RL方法受到了相當多的關注,但事實上,RL需要一個基本的在線學習范式,這是其廣泛采用的最大障礙之一。在線交互通常是不切實際的,因為數據收集是昂貴的(例如,在機器人或教育代理中)或危險的(例如,在自動駕駛或醫療保健中)。另一種方法是利用RL算法,在不需要在線交互的情況下有效地利用以前收集的經驗。這被稱為批處理RL、脫機RL或數據驅動RL。這樣的算法對將數據集轉化為強大的決策引擎有著巨大的希望,類似于數據集在視覺和NLP中被證明是成功的關鍵。在本教程中,我們的目標是為讀者提供既可以利用離線RL作為工具,又可以在這個令人興奮的領域進行研究的概念性工具。我們的目標是提供對離線RL的挑戰的理解,特別是在現代深度RL方法的背景下,并描述一些潛在的解決方案。我們將以一種從業者易于理解的方式呈現經典和最新的方法,并討論在這一領域開展研究的理論基礎。我們將以討論待解問題來結束。
//sites.google.com/view/offlinerltutorial-neurips2020/home
本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來進行決策——而不是將環境視為一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及規劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。
//sites.google.com/view/mbrl-tutorial
近年來,強化學習領域取得了令人印象深刻的成果,但主要集中在無模型方法上。然而,社區認識到純無模型方法的局限性,從高樣本復雜性、需要對不安全的結果進行抽樣,到穩定性和再現性問題。相比之下,盡管基于模型的方法在機器人、工程、認知和神經科學等領域具有很大的影響力,但在機器學習社區中,這些方法的開發還不夠充分(但發展迅速)。它們提供了一系列獨特的優勢和挑戰,以及互補的數學工具。本教程的目的是使基于模型的方法更被機器學習社區所認可和接受。鑒于最近基于模型的規劃的成功應用,如AlphaGo,我們認為對這一主題的全面理解是非常及時的需求。在教程結束時,觀眾應該獲得:
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
Deep Reinforcement Learning via Policy Optimization
本文為大家帶來了一份斯坦福大學的最新課程CS234——強化學習,主講人是斯坦福大學Emma Brunskill,她是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組,主要研究強化學習。要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。
1.課程介紹(Description)
要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程將為強化學習領域提供扎實的介紹,學生將學習包括通用化和探索在內的核心挑戰和方法。通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。作業將包括強化學習和深度強化學習的基礎,這是一個極有前途的新領域,將深度學習技術與強化學習相結合。此外,學生將通過期末專題來增進對強化學習領域的理解。
課程地址:
//web.stanford.edu/class/cs234/schedule.html
2.預備知識(Prerequisites)
1)熟練Python
所有的課程都將使用Python(使用numpy和Tensorflow,也可以使用Keras)。這里有一個針對那些不太熟悉Python的人的教程。如果你有很多使用不同語言(如C/ c++ / Matlab/ Javascript)的編程經驗,可能會很好。
2)大學微積分,線性代數(如 MATH 51, CME 100)
你應該能夠熟練地進行(多變量)求導,理解矩陣/向量符號和運算。
3)基本概率及統計(例如CS 109 或同等課程)
你應該了解基本的概率,高斯分布,均值,標準差等。
4)機器學習基礎
我們將闡述成本函數,求導數,用梯度下降法進行優化。CS 221或CS 229均可涵蓋此背景。使用一些凸優化知識,一些優化技巧將更加直觀。
3.主講:Emma Brunskill
Emma Brunskill是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組。
主要研究強化學習系統,以幫助人們更好地生活。并處理一些關鍵技術。最近的研究重點包括:1)有效強化學習的基礎。一個關鍵的挑戰是要了解代理商如何平衡勘探與開發之間的局限性。2)如果要進行順序決策,該怎么辦。利用巨大數量的數據來改善在醫療保健,教育,維護和許多其他應用程序中做出的決策,這是一個巨大的機會。這樣做需要假設/反事實推理,以便在做出不同決定時對潛在結果進行推理。3)人在回路系統。人工智能具有極大地擴大人類智能和效率的潛力。我們正在開發一個系統,用其他眾包商(CHI 2016)生產的(機器)固化材料對眾包商進行訓練,并確定何時擴展系統規格以包括新內容(AAAI 2017)或傳感器。我們也有興趣研究確保機器學習系統在人類用戶的意圖方面表現良好(Arxiv 2017),也被稱為安全和公平的機器學習。
個人主頁:
4.課程安排
01: 強化學習導論(Introduction to Reinforcement Learning)
02: 表格MDP規劃(Tabular MDP planning)
03: 表格RL政策評估(Tabular RL policy evaluation)
04: Q-learning
05: 帶函數逼近的強化學習(RL with function approximation)
06: 帶函數逼近的強化學習(RL with function approximation)
07: 帶函數逼近的強化學習(RL with function approximation)
08: 從馬爾可夫決策過程到強化學習(Policy search)
09: 從馬爾可夫決策過程到強化學習(Policy search)
10: 課堂中期(In-class Midterm)
11: 模仿學習/探索(Imitation learning/Exploration)
12: 探索/開發(Exploration/Exploitation)
13: 探索/開發(Exploration/Exploitation)
14: 批處理強化學習(Batch Reinforcement Learning)
15: 嘉賓講座:Craig Boutilier(Guest Lecture: Craig Boutilier)
16: 課堂測驗(In-class Quiz)
17: 蒙特卡洛樹搜索算法(Monte Carlo Tree Search)
18: 墻報展示(Poster presentations)
主題: Exploration-Exploitation in Reinforcement Learning
摘要: 強化學習(RL)研究的是當環境(即動力和反饋)最初未知,但可以通過直接交互學習時的順序決策問題。學習問題的一個關鍵步驟是恰當地平衡對環境的探索,以便收集有用的信息,并利用所學的政策來收集盡可能多的回報。最近的理論結果證明,基于樂觀主義或后驗抽樣的方法(如UCRL、PSRL等)成功地解決了勘探開發難題,并且可能需要比簡單(但非常流行)的技術(如epsilon貪心)小指數的樣本來收斂到接近最優的策略。樂觀主義和后驗抽樣原則直接受到多臂bandit文獻的啟發,RL提出了具體的挑戰(例如,“局部”不確定性如何通過Markov動力學傳播),這需要更復雜的理論分析。本教程的重點是提供勘探開發困境的正式定義,討論其挑戰,并回顧不同優化標準(特別是有限時間和平均回報問題)的主要算法原則及其理論保證。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
邀請嘉賓: Ronan Fruit,Inria SequeL團隊的博士生。他目前是蒙特利爾Facebook人工智能研究(FAIR)的研究實習生。他的研究集中在理論上理解強化學習中的探索性開發困境,以及設計具有可證明的良好后悔保證的算法。
Alessandro Lazaric,自2017年以來一直是Facebook AI Research(FAIR)實驗室的研究科學家,他之前是SequeL團隊Inria的研究員。他的主要研究主題是強化學習,在RL的理論和算法方面都做出了巨大貢獻。在過去的十年中,他研究了多臂土匪和強化學習框架中的勘探與開發困境,特別是在遺憾最小化,最佳武器識別,純粹探索和分層RL等問題上。
Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)實驗室的研究科學家。之前,他是SequeL團隊的Inria博士后。2016年,他在米蘭理工大學(意大利)獲得計算機科學博士學位。他在強化學習方面的博士論文獲得了Dimitris N.Chorafas基金會獎和EurAI杰出論文獎。他的主要研究興趣是強化學習。近幾年來,他主要關注的是RL的勘探開發困境。