作者介紹: Cornelius Weber擁有德國比勒費爾德大學的物理學博士學位。 他于2000年在德國柏林的柏林工業大學獲得計算機科學博士學位。他是德國University of Hamburg知識技術小組的實驗室主任。 他曾是美國紐約州羅徹斯特大學的腦與認知科學博士后研究員。 從2002年到2005年,他在英國桑德蘭大學擔任混合智能系統研究科學家。在2010年之前,他是法蘭克福高級研究所的資深研究員。他目前的研究興趣包括計算神經科學,重點是視覺,無監督學習和強化學習。
簡要介紹: 大腦統治著整個世界,類腦計算越來越多地用于計算機和電子設備中。 類腦計算是關于處理和解釋數據或直接提出并執行動作。 學習是一個非常重要的方面。 這本書是關于強化學習的,涉及為實現目標而采取的行動。 本書的前11章介紹并擴展了強化學習的范圍。 其余11章表明,在許多領域中已經有了廣泛的使用。 增強學習可以解決對于傳統的手工設計的非學習控制器來說過于復雜的控制任務。 由于學習計算機可以處理技術復雜性,因此操作人員的任務仍然是在越來越高的水平上指定目標。 本書表明,強化學習在理論和應用方面是一個非常活躍的領域,它將激發并鼓勵該領域的新研究。
下載鏈接: //pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ
提取碼:mivq
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
資源標題
強化學習整合:Awesome Reinforcement Learning
資源列表
題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。
報告主題: Reinforcement Learning
報告簡介: 強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由于外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。其基本原理是:如果Agent的某個行為策略導致環境正的獎賞(強化信號),那么Agent以后產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。Nando教授將從強化學習的基礎入手,并結合強化學習的應用展開介紹。
嘉賓介紹: Nando曾在加州大學伯克利分校(UC Berkeley)從事人工智能工作,并于2001年成為加拿大不列顛哥倫比亞大學的教授,隨后于2013年成為英國牛津大學的教授。2017年,他全職加入DeepMind,擔任首席科學家,以幫助他們解決智力問題,使子孫后代可以過上更好的生活。 Nando還是加拿大高級研究所的資深研究員,并曾獲得多個學術獎項。
主題: Safe and Fair Machine Learning
簡介:
在這個演講將討論一些我們的未來的工作在一個新的框架設計的機器學習算法,內容包括:1)使得算法的用戶更容易定義他們認為是不受歡迎的行為(例如,他們認為是不公平的,不安全,或者成本);2)提供了一個高信任度保證它不會產生一個解決方案,展示了用戶定義的不受歡迎的行為。
作者簡介:
Philip Thomas是馬薩諸塞大學安姆斯特分校信息與計算機科學學院助理教授,自主學習實驗室聯合主任。之前是卡內基·梅隆大學(CMU)的博士后,2015年,在馬薩諸塞州立大學阿默斯特分校(UMass Amherst)獲得了計算機科學博士學位。主要研究如何確保人工智能(AI)系統的安全性,重點是確保機器學習(ML)算法的安全性和公平性以及創建安全和實用的強化學習(RL)算法。
題目: Safe Machine Learning
簡介:
隨著我們將ML應用到越來越多的現實任務中,我們正在走向一個ML將在未來社會中扮演越來越重要角色。因此,解決安全問題正成為一個日益緊迫的問題。一般來說,我們可以將當前的安全研究分為三個領域:規范、健壯性和保證。規范關注于調查和開發技術,以減輕由于目標僅僅是期望的替代者而可能出現的系統不期望的行為。這種情況可能會發生,例如,當對包含歷史偏差的數據集進行訓練時,或者在真實環境中嘗試度量增強學習智能體的進度時魯棒性處理在推斷新數據和響應敵對輸入時處理系統故障。
Assurance涉及到開發方法,使我們能夠理解本質上不透明和黑箱的系統,并在操作期間控制它們。本教程將概述這三個領域,特別關注規范,更具體地說,關注增強學習智能體的公平性和一致性。其目的是激發從事不同安全領域的研究人員之間的討論。
邀請嘉賓:
Silvia Chiappa是DeepMind機器學習方面的研究科學家。她擁有數學文憑和機器學習博士學位。在加入DeepMind之前,Silvia Chiappa曾在馬克斯-普朗克智能系統研究所的經驗推理部門、微軟劍橋研究院的機器智能與感知小組以及劍橋大學的統計實驗室工作。她的研究興趣是基于貝葉斯和因果推理,圖形模型,變分推理,時間序列模型,ML公平性和偏差。
Jan Leike是DeepMind的高級研究科學家,他在那里研究智能體對齊問題。他擁有澳大利亞國立大學的計算機科學博士學位,在那里他致力于理論強化學習。在加入DeepMind之前,他是牛津大學的博士后研究員。Jan的研究興趣是人工智能安全、強化學習和技術人工智能治理。