書名題目
強化學習:理論與算法(Reinforcement Learning: Theory and Algorithms)
籍簡介
本書由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師親自執筆,為2019關于強化學習的最新書籍之一,三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。
書籍作者
Alekh Agarwal,目前是微軟研究人工智能的研究員,在那里我領導強化學習研究小組。此前,在加州大學伯克利分校獲得計算機科學博士學位后,曾在微軟研究院紐約實驗室度過了六年時光,與彼得·巴特利特和馬丁·溫瑞格一起工作。 Sham M. Kakade ,研究機器學習和人工智能的數學基礎,重點是設計可證明的高效和實用的算法,這些算法與廣泛的范例相關。試圖利用這些進步來幫助在核心人工智能問題上取得進展。目前的興趣包括:強化學習和控制表征學習和自然語言處理和記憶。
決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
Deep Reinforcement Learning via Policy Optimization
主題: Reinforcement Learning 101
摘要: 強化學習是現代人工智能領域最熱門的研究課題之一,它的普及程度也在不斷提高。讓我們看看開始學習RL需要知道的5件有用的事情:
作者簡介: Shweta Bhatt,理學碩士,數據科學家,谷歌開發人員機器學習專家。
題目: Machine learning and the physical sciences
摘要:
機器學習(ML)包含廣泛的算法和建模工具,用于大量的數據處理任務,這些任務近年來已經進入大多數科學學科。本文有選擇地回顧了機器學習與物理科學接口的最新研究進展。這包括由物理洞察力驅動的ML的概念發展,機器學習技術在物理中的幾個領域的應用以及這兩個領域之間的交叉。在介紹了機器學習方法和原理的基本概念之后,舉例說明了如何用統計物理來理解ML中的方法,然后介紹了ML方法在粒子物理和宇宙學、量子多體物理、量子計算、化學和材料物理中的應用。此外,還強調了針對加速ML的新型計算體系結構的研究和開發。每個部分都描述了最近的成功以及特定領域的方法和挑戰。
作者簡介:
Giuseppe Carleo于2018年加入了位于美國計算量子物理中心的Flatiron研究所。2007年,他在羅馬大學獲得物理學學士學位;2011年,他在意大利國際高等研究學院獲得凝聚態理論博士學位。他在法國光學研究所和瑞士蘇黎世聯邦理工學院獲得博士后。他也是蘇黎世聯邦理工學院計算量子物理學的講師。Carleo的主要研究方向是發展先進的數值算法來研究強相互作用量子系統的挑戰性問題。他的研究應用范圍包括凝聚態物質、超冷原子和量子計算。他對量子蒙特卡羅方法的發展做出了貢獻,包括平衡和動態特性,包括時變蒙特卡羅和神經網絡量子態。在CCQ,他正在開發和推廣基于人工智能的新技術來解決量子問題。他是開源項目NetKet的創始人和開發負責人。
題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。
作者介紹: Cornelius Weber擁有德國比勒費爾德大學的物理學博士學位。 他于2000年在德國柏林的柏林工業大學獲得計算機科學博士學位。他是德國University of Hamburg知識技術小組的實驗室主任。 他曾是美國紐約州羅徹斯特大學的腦與認知科學博士后研究員。 從2002年到2005年,他在英國桑德蘭大學擔任混合智能系統研究科學家。在2010年之前,他是法蘭克福高級研究所的資深研究員。他目前的研究興趣包括計算神經科學,重點是視覺,無監督學習和強化學習。
簡要介紹: 大腦統治著整個世界,類腦計算越來越多地用于計算機和電子設備中。 類腦計算是關于處理和解釋數據或直接提出并執行動作。 學習是一個非常重要的方面。 這本書是關于強化學習的,涉及為實現目標而采取的行動。 本書的前11章介紹并擴展了強化學習的范圍。 其余11章表明,在許多領域中已經有了廣泛的使用。 增強學習可以解決對于傳統的手工設計的非學習控制器來說過于復雜的控制任務。 由于學習計算機可以處理技術復雜性,因此操作人員的任務仍然是在越來越高的水平上指定目標。 本書表明,強化學習在理論和應用方面是一個非常活躍的領域,它將激發并鼓勵該領域的新研究。
下載鏈接: //pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ
提取碼:mivq
機器學習是計算機科學發展最快的領域之一,有著廣泛的應用。這本教科書的目的是以一種有原則的方式介紹機器學習和它提供的算法范例。這本書提供了一個基本的理論基礎的機器學習和數學推導,將這些原則轉化為實際的算法。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的邊界。為高級本科生或剛開始的研究生設計,文本使學生和非專業讀者在統計,計算機科學,數學和工程的機器學習的基礎和算法。
強化學習導論第二版全新出爐。本書,由麻省理工大學出版社出版,預計于11月開印。它的電子版目前已經被作者公開,讓我們可以在出版前,搶先閱讀。
下載鏈接://pan.baidu.com/s/1BMy9seCGx_SlTHZRhpfdlA 密碼:ka1a