【干貨書】Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師,“Reinforcement Learning: Theory and Algorithms(2022版)”(強化學習:理論與算法 2022版),205頁pdf
該RL理論專著以美國伊利諾伊大學香檳分校Nan Jiang教授和華盛頓大學Sham Kakade教授的課程筆記為基礎的RL理論專著,筆記正在積極更新。
三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。
Alekh Agarwal:目前是谷歌學習理論團隊的一名研究員。在那之前,在微軟研究院度過了9年的美好時光,是紐約實驗室機器學習小組的成員,后來領導了雷德蒙德的強化學習小組。在加州大學伯克利分校獲得了計算機科學博士學位。
強化學習(RL)將成為未來10年人工智能領域最大的突破之一,使算法能夠從環境中學習以實現任意目標。這一令人興奮的發展避免了傳統機器學習(ML)算法中的限制。這本實用的書向數據科學和人工智能專業人士展示了如何通過強化學習,讓機器自己學習。
Winder研究的作者Phil Winder涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,并從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,并希望熟悉ML。
目錄內容: Preface
人類從反饋中學習得最好——我們被鼓勵采取導致積極結果的行動,而被具有消極后果的決定所阻礙。這種強化過程可以應用到計算機程序中,使它們能夠解決經典編程所不能解決的更復雜的問題。深度強化學習實戰教你基本概念和術語的深度強化學習,以及實踐技能和技術,你將需要把它落實到你自己的項目。
對這項技術
深度強化學習是一種機器學習的形式,人工智能智能體從自己的原始感官輸入中學習最優行為。系統感知環境,解釋其過去決策的結果,并使用這些信息優化其行為以獲得最大的長期回報。眾所周知,深度強化學習對AlphaGo的成功做出了貢獻,但這并不是它所能做的全部!更令人興奮的應用程序等待被發現。讓我們開始吧。
關于這本書
深度強化學習實戰中教你如何編程的代理人,學習和改善的直接反饋,從他們的環境。您將使用流行的PyTorch深度學習框架構建網絡,以探索從深度Q-Networks到策略梯度方法再到進化算法的強化學習算法。在你進行的過程中,你會將你所知道的應用到實際操作項目中,比如控制模擬機器人、自動化股票市場交易,甚至構建一個可以下圍棋的機器人。
里面有什么
摘要:
本文將優化描述為一個過程。在許多實際應用中,環境是如此復雜,以致于無法制定一個全面的理論模型,并使用經典算法理論和數學優化。采取一種穩健的方法是必要的,也是有益的,方法是應用一種不斷學習的優化方法,在觀察到問題的更多方面時從經驗中學習。這種將優化視為一個過程的觀點在各個領域都很突出,并在建模和系統方面取得了一些驚人的成功,現在它們已經成為我們日常生活的一部分。
作者介紹:
Elad Hazan是普林斯頓大學計算機科學教授。他于2015年從Technion畢業,當時他是該校運籌學副教授。他的研究重點是機器學習和優化的基本問題的算法設計和分析。他的貢獻包括合作開發用于訓練學習機器的AdaGrad算法,以及第一個用于凸優化的次線性時間算法。他曾(兩次)獲得2012年IBM Goldberg最佳論文獎,以表彰他對機器學習的次線性時間算法的貢獻。2008年,他還獲得了歐洲研究理事會(European Research Council)的一筆撥款、瑪麗?居里(Marie Curie)獎學金和谷歌研究獎(兩次)。他是計算學習協會的指導委員會成員,并擔任COLT 2015的項目主席。
題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。
書名題目
強化學習:理論與算法(Reinforcement Learning: Theory and Algorithms)
籍簡介
本書由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師親自執筆,為2019關于強化學習的最新書籍之一,三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。
書籍作者
Alekh Agarwal,目前是微軟研究人工智能的研究員,在那里我領導強化學習研究小組。此前,在加州大學伯克利分校獲得計算機科學博士學位后,曾在微軟研究院紐約實驗室度過了六年時光,與彼得·巴特利特和馬丁·溫瑞格一起工作。 Sham M. Kakade ,研究機器學習和人工智能的數學基礎,重點是設計可證明的高效和實用的算法,這些算法與廣泛的范例相關。試圖利用這些進步來幫助在核心人工智能問題上取得進展。目前的興趣包括:強化學習和控制表征學習和自然語言處理和記憶。
作者介紹: Cornelius Weber擁有德國比勒費爾德大學的物理學博士學位。 他于2000年在德國柏林的柏林工業大學獲得計算機科學博士學位。他是德國University of Hamburg知識技術小組的實驗室主任。 他曾是美國紐約州羅徹斯特大學的腦與認知科學博士后研究員。 從2002年到2005年,他在英國桑德蘭大學擔任混合智能系統研究科學家。在2010年之前,他是法蘭克福高級研究所的資深研究員。他目前的研究興趣包括計算神經科學,重點是視覺,無監督學習和強化學習。
簡要介紹: 大腦統治著整個世界,類腦計算越來越多地用于計算機和電子設備中。 類腦計算是關于處理和解釋數據或直接提出并執行動作。 學習是一個非常重要的方面。 這本書是關于強化學習的,涉及為實現目標而采取的行動。 本書的前11章介紹并擴展了強化學習的范圍。 其余11章表明,在許多領域中已經有了廣泛的使用。 增強學習可以解決對于傳統的手工設計的非學習控制器來說過于復雜的控制任務。 由于學習計算機可以處理技術復雜性,因此操作人員的任務仍然是在越來越高的水平上指定目標。 本書表明,強化學習在理論和應用方面是一個非常活躍的領域,它將激發并鼓勵該領域的新研究。
下載鏈接: //pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ
提取碼:mivq
報告主題: Reinforcement Learning
報告簡介: 強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由于外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。其基本原理是:如果Agent的某個行為策略導致環境正的獎賞(強化信號),那么Agent以后產生這個行為策略的趨勢便會加強。Agent的目標是在每個離散狀態發現最優策略以使期望的折扣獎賞和最大。Nando教授將從強化學習的基礎入手,并結合強化學習的應用展開介紹。
嘉賓介紹: Nando曾在加州大學伯克利分校(UC Berkeley)從事人工智能工作,并于2001年成為加拿大不列顛哥倫比亞大學的教授,隨后于2013年成為英國牛津大學的教授。2017年,他全職加入DeepMind,擔任首席科學家,以幫助他們解決智力問題,使子孫后代可以過上更好的生活。 Nando還是加拿大高級研究所的資深研究員,并曾獲得多個學術獎項。
主題: Exploration-Exploitation in Reinforcement Learning
摘要: 強化學習(RL)研究的是當環境(即動力和反饋)最初未知,但可以通過直接交互學習時的順序決策問題。學習問題的一個關鍵步驟是恰當地平衡對環境的探索,以便收集有用的信息,并利用所學的政策來收集盡可能多的回報。最近的理論結果證明,基于樂觀主義或后驗抽樣的方法(如UCRL、PSRL等)成功地解決了勘探開發難題,并且可能需要比簡單(但非常流行)的技術(如epsilon貪心)小指數的樣本來收斂到接近最優的策略。樂觀主義和后驗抽樣原則直接受到多臂bandit文獻的啟發,RL提出了具體的挑戰(例如,“局部”不確定性如何通過Markov動力學傳播),這需要更復雜的理論分析。本教程的重點是提供勘探開發困境的正式定義,討論其挑戰,并回顧不同優化標準(特別是有限時間和平均回報問題)的主要算法原則及其理論保證。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
邀請嘉賓: Ronan Fruit,Inria SequeL團隊的博士生。他目前是蒙特利爾Facebook人工智能研究(FAIR)的研究實習生。他的研究集中在理論上理解強化學習中的探索性開發困境,以及設計具有可證明的良好后悔保證的算法。
Alessandro Lazaric,自2017年以來一直是Facebook AI Research(FAIR)實驗室的研究科學家,他之前是SequeL團隊Inria的研究員。他的主要研究主題是強化學習,在RL的理論和算法方面都做出了巨大貢獻。在過去的十年中,他研究了多臂土匪和強化學習框架中的勘探與開發困境,特別是在遺憾最小化,最佳武器識別,純粹探索和分層RL等問題上。
Matteo Pirotta,巴黎Facebook人工智能研究(FAIR)實驗室的研究科學家。之前,他是SequeL團隊的Inria博士后。2016年,他在米蘭理工大學(意大利)獲得計算機科學博士學位。他在強化學習方面的博士論文獲得了Dimitris N.Chorafas基金會獎和EurAI杰出論文獎。他的主要研究興趣是強化學習。近幾年來,他主要關注的是RL的勘探開發困境。