題目: Reinforcement Learning:Theory and Algorithms
簡介:
強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習范式,在這種范式中,agent從經驗中學習完成順序決策任務,RL在機器人、控制、對話系統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本復雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。
章節:
作者簡介:
Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位后,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。
姜楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注于RL的樣本效率,并利用統計學習理論中的思想來分析和開發RL算法。
沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學系任職。他致力于機器學習的理論基礎,專注于設計(和實現)統計和計算效率的算法。
決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
摘要:
本文將優化描述為一個過程。在許多實際應用中,環境是如此復雜,以致于無法制定一個全面的理論模型,并使用經典算法理論和數學優化。采取一種穩健的方法是必要的,也是有益的,方法是應用一種不斷學習的優化方法,在觀察到問題的更多方面時從經驗中學習。這種將優化視為一個過程的觀點在各個領域都很突出,并在建模和系統方面取得了一些驚人的成功,現在它們已經成為我們日常生活的一部分。
作者介紹:
Elad Hazan是普林斯頓大學計算機科學教授。他于2015年從Technion畢業,當時他是該校運籌學副教授。他的研究重點是機器學習和優化的基本問題的算法設計和分析。他的貢獻包括合作開發用于訓練學習機器的AdaGrad算法,以及第一個用于凸優化的次線性時間算法。他曾(兩次)獲得2012年IBM Goldberg最佳論文獎,以表彰他對機器學習的次線性時間算法的貢獻。2008年,他還獲得了歐洲研究理事會(European Research Council)的一筆撥款、瑪麗?居里(Marie Curie)獎學金和谷歌研究獎(兩次)。他是計算學習協會的指導委員會成員,并擔任COLT 2015的項目主席。
講座題目
深強化學習及其在交通運輸中的應用:Deep Reinforcement Learning with Applications in Transportation
講座簡介
交通領域,特別是移動共享領域,有許多傳統上具有挑戰性的動態決策問題,這些問題有很長的研究文獻,很容易從人工智能(AI)中受益匪淺。一些核心例子包括在線乘車命令調度,它將可用的駕駛員與在共享平臺上請求乘客的行程實時匹配;路線規劃,它規劃行程的起點和終點之間的最佳路線;交通信號控制,它動態和自適應地調整實現低延遲的區域。所有這些問題都有一個共同的特點,即當我們關注某一特定時間范圍內的一些累積目標時,需要做出一系列的決定。強化學習(RL)是一種機器學習范式,它通過與環境的交互和獲取反饋信號,訓練agent學會在環境中采取最佳行動(以獲得的總累積回報衡量)。因此,它是一類求解序列決策問題的優化方法。
講座嘉賓
Jen-Tzung Chien在臺灣新竹國立清華大學取得電機工程博士學位。現任職于臺灣新竹國立交通大學電子及電腦工程學系及電腦科學系講座教授。2010年,他擔任IBM沃森研究中心的客座教授。他的研究興趣包括機器學習、深度學習、自然語言處理和計算機視覺。在2011年獲得了IEEE自動語音識別和理解研討會的最佳論文獎,并在2018年獲得了AAPM Farrington Daniels獎。2015年,劍橋大學出版社出版《貝葉斯語音與語言處理》;2018年,學術出版社出版《源分離與機器學習》。他目前是IEEE信號處理技術委員會機器學習的當選成員。
書名題目
強化學習:理論與算法(Reinforcement Learning: Theory and Algorithms)
籍簡介
本書由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師親自執筆,為2019關于強化學習的最新書籍之一,三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。
書籍作者
Alekh Agarwal,目前是微軟研究人工智能的研究員,在那里我領導強化學習研究小組。此前,在加州大學伯克利分校獲得計算機科學博士學位后,曾在微軟研究院紐約實驗室度過了六年時光,與彼得·巴特利特和馬丁·溫瑞格一起工作。 Sham M. Kakade ,研究機器學習和人工智能的數學基礎,重點是設計可證明的高效和實用的算法,這些算法與廣泛的范例相關。試圖利用這些進步來幫助在核心人工智能問題上取得進展。目前的興趣包括:強化學習和控制表征學習和自然語言處理和記憶。
作者介紹: Cornelius Weber擁有德國比勒費爾德大學的物理學博士學位。 他于2000年在德國柏林的柏林工業大學獲得計算機科學博士學位。他是德國University of Hamburg知識技術小組的實驗室主任。 他曾是美國紐約州羅徹斯特大學的腦與認知科學博士后研究員。 從2002年到2005年,他在英國桑德蘭大學擔任混合智能系統研究科學家。在2010年之前,他是法蘭克福高級研究所的資深研究員。他目前的研究興趣包括計算神經科學,重點是視覺,無監督學習和強化學習。
簡要介紹: 大腦統治著整個世界,類腦計算越來越多地用于計算機和電子設備中。 類腦計算是關于處理和解釋數據或直接提出并執行動作。 學習是一個非常重要的方面。 這本書是關于強化學習的,涉及為實現目標而采取的行動。 本書的前11章介紹并擴展了強化學習的范圍。 其余11章表明,在許多領域中已經有了廣泛的使用。 增強學習可以解決對于傳統的手工設計的非學習控制器來說過于復雜的控制任務。 由于學習計算機可以處理技術復雜性,因此操作人員的任務仍然是在越來越高的水平上指定目標。 本書表明,強化學習在理論和應用方面是一個非常活躍的領域,它將激發并鼓勵該領域的新研究。
下載鏈接: //pan.baidu.com/s/19M6dsNWn90kutFTynqKZjQ
提取碼:mivq
機器學習是計算機科學發展最快的領域之一,有著廣泛的應用。這本教科書的目的是以一種有原則的方式介紹機器學習和它提供的算法范例。這本書提供了一個基本的理論基礎的機器學習和數學推導,將這些原則轉化為實際的算法。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的邊界。為高級本科生或剛開始的研究生設計,文本使學生和非專業讀者在統計,計算機科學,數學和工程的機器學習的基礎和算法。
強化學習導論第二版全新出爐。本書,由麻省理工大學出版社出版,預計于11月開印。它的電子版目前已經被作者公開,讓我們可以在出版前,搶先閱讀。
下載鏈接://pan.baidu.com/s/1BMy9seCGx_SlTHZRhpfdlA 密碼:ka1a
主題: Introduction to Machine Learning
課程簡介: 機器學習是指通過經驗自動提高性能的計算機程序(例如,學習識別人臉、推薦音樂和電影以及驅動自主機器人的程序)。本課程從不同的角度介紹機器學習的理論和實用算法。主題包括貝葉斯網絡、決策樹學習、支持向量機、統計學習方法、無監督學習和強化學習。本課程涵蓋理論概念,例如歸納偏差、PAC學習框架、貝葉斯學習方法、基于邊際的學習和Occam的剃刀。編程作業包括各種學習算法的實際操作實驗。這門課程的目的是讓一個研究生在方法論,技術,數學和算法方面有一個徹底的基礎,目前需要的人誰做的機器學習的研究。
邀請嘉賓: Hal Daumé III,紐約市微軟研究院的研究員,是機器學習小組的一員;他也是馬里蘭大學的副教授。他主要從事自然語言處理和機器學習。
Matt Gormley,卡內基梅隆大學計算機科學學院機器學習部(ML)助教。
Roni Rosenfeld,卡內基梅隆大學計算機學院機器學習系教授兼主任,個人主頁://www.cs.cmu.edu/~roni/。等