Leiden大學Aske Plaat教授《深度強化學習》2022新書,值得關注!
深度強化學習近年來備受關注。在自動駕駛、游戲、分子重組和機器人等各種活動中,他們都取得了令人印象深刻的成果。在所有這些領域,計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作,如回旋和翻滾。在某些應用中,他們甚至比最優秀的人類還要優秀,比如Atari、Go、撲克和星際爭霸。深度強化學習探索復雜環境的方式提醒我們,孩子們是如何學習的,通過開玩笑地嘗試東西,獲得反饋,然后再嘗試。計算機似乎真的擁有人類學習的各個方面; 這是人工智能夢想的核心。教育工作者并沒有忽視研究方面的成功,大學已經開始開設這方面的課程。這本書的目的是提供深度強化學習領域的全面概述。這本書是為人工智能的研究生寫的,并為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基于模型的方法,它們構成了該領域的基礎。發展很快,我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。
//deep-reinforcement-learning.net/
這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我游戲、多主體、層次和元學習方面的先進的、前瞻性的發展。
深度強化學習建立在深度監督學習和表格強化學習的基礎上
在這些章節中有很多材料,既有基礎的,也有先進的,有很多文獻。一種選擇是講授一門關于書中所有主題的課程。另一種選擇是慢一些、深入一些,在基礎知識上花足夠的時間,創建關于Chaps. 2-5的課程,以涵蓋基本主題(基于值、基于策略和基于模型的學習),并創建關于Chaps. 6-9的單獨課程,以涵蓋多智能體、分層和元學習等更高級的主題。
在這一介紹性的章節之后,我們將繼續學習第二章,在第二章中,我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始,并詳細討論它們。第三章解釋了基于深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基于價值、無模型的范式中工作。在本章的最后,我們將分析一個自學如何玩上世紀80年代Atari電子游戲的玩家。下一章,第四章,討論了一種不同的方法:基于深度策略的強化學習。下一章,第5章,介紹了基于深度模型的強化學習與學習模型,該方法首先建立環境的過渡模型,然后再建立策略。基于模型的強化學習有希望獲得更高的樣本效率,從而加快學習速度。
這是一門關于在不確定情況下強化學習(RL)和順序決策的入門課程,重點在于理解理論基礎。我們研究如何使用動態規劃方法,如價值和策略迭代,來解決具有已知模型的順序決策問題,以及如何擴展這些方法,以解決模型未知的強化學習問題。其他主題包括(但不限于)RL中的函數近似、策略梯度方法、基于模型的RL以及平衡探索-利用權衡。本課程將以講座和閱讀古典及近期論文的方式傳授給學生。因為重點是理解基礎,你應該期望通過數學細節和證明。本課程的要求背景包括熟悉概率論和統計、微積分、線性代數、最優化和(有監督的)機器學習。
//amfarahmand.github.io/IntroRL/
目錄內容:
強化學習入門筆記
這是多倫多大學計算機科學系于2021年春季教授的強化學習(RL)研究生課程介紹的講義。本課程是入門性的,因為它不需要預先接觸強化學習。然而,它不僅僅是算法的集合。相反,它試圖在RL中經常遇到的許多重要思想和概念背后建立數學直覺。在這些講義的過程中,我證明了很多基礎的,或者有時不那么基礎的,RL的結果。如果某個結果的證明過于復雜,我就證明一個簡化的版本。
強化學習(RL)既指一類問題,也指解決這類問題的一組計算方法。RL問題是指如何采取行動,使某些長期績效的概念得到最大化。RL問題,從它的定義來看,是關于一個實體的行為和交互,我們稱之為代理,與其周圍的環境,我們稱之為環境。這是一個非常普遍的目標。有人可能會說,解決AI問題等同于解決RL問題。強化學習也指解決RL問題的一套計算方法。一個代理需要做什么樣的計算才能確保它的行為能夠帶來良好的(甚至是最佳的)長期性能?實現這些的方法稱為RL方法。歷史上,在所有試圖解決RL問題的計算方法中,只有一個子集被稱為RL方法。例如Q-Learning這樣的方法(我們將在本課程中學習)是一種很好的RL方法,但是進化計算的方法,如遺傳算法,則不是。人們可以爭辯說,進化計算方法沒有太多的“學習”成分,或者它們不以個體生命的時間尺度行事,而是以世代的時間尺度行事。雖然這些是真正的區別,但這種劃分方式有些武斷。在本課堂講稿中,我們將重點放在“RL社區”中經常學習的方法上。
//deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
這個經典的10部分課程,由強化學習(RL)的驅David Silver教授,雖然錄制于2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。
強化學習已經成為現代機器學習中一項強大的技術,它允許系統通過反復試驗進行學習。它已成功應用于許多領域,包括AlphaZero等系統,學會了掌握國際象棋、圍棋和Shogi游戲。
這門課程由DeepMind首席科學家、倫敦大學學院教授、AlphaZero的共同創始人David Silver教授共同向學生們介紹RL中使用的主要方法和技術。學生們還會發現薩頓和巴托的經典著作《強化學習:入門》(Reinforcement Learning: an Introduction)是一個很有幫助的書籍。
經典書《強化學習導論》
強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版公布啦。本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,并附上了全書目錄、課程代碼與資料。下載《強化學習》PDF 請點擊文末「閱讀原文」。
原書籍地址:
當我們思考學習的本質時,首先映入腦海的想法很可能是通過與環境的交互進行學習。當一個嬰兒玩耍時,揮舞手臂,左顧右盼,旁邊沒有老師指導他,他與環境卻有著一種直接的感知連接。通過這種連接,他懂得了因果關系,行動帶來的結果,以及為了達成目標所需做的一切。人的一生中,這樣的交互成了我們關于環境和自身知識的主要來源。不管學習駕駛汽車,還是進行一場交談,實際上我們自始至終觀察著環境如何回應我們的所為,并通過自身行為影響當下情景。交互式學習幾乎是所有學習與智能理論的基石。
本書中我們提出了一種通過計算實現交互式學習的方法。我們沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,我們站在人工智能研究者或工程師的角度來解決問題。我們探討了在解決科學或經濟問題方面表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較于其他機器學習方法,它更專注于交互之中的目標導向性學習。
現代人工智能(AI)系統通常需要在一個未知的、不確定的、可能敵對的環境中,通過積極地與環境交互來收集相關數據,從而做出連續的決策。強化學習(RL)是一個通用框架,可以捕獲交互式學習設置,并已被用于設計智能代理,以實現超人水平的表現,在具有挑戰性的任務,如圍棋,電腦游戲,機器人操作。
這門研究生水平的課程著重于強化學習的理論和算法基礎。本課程的四個主題為: (1)可證明有效的探索; (2)策略優化(特別是策略梯度); (3)控制; (4)模仿學習。
通過本課程,學生將能夠理解經典的和最新的可證明正確的RL算法及其分析。學生將能夠對與RL相關的課題進行研究。
決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:
課程可分為兩部分。
第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然后討論未知參數的估計和假設檢驗。最后,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。
第二部分是不確定性下的決策研究,特別是強化學習和專家咨詢學習。首先,我們研究幾個有代表性的統計模型。然后,我們給出了使用這些模型做出最優決策的算法的概述。最后,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、游戲樹搜索和優化方面有很多應用。
【導讀】陳丹琦博士是自然語言處理研究員領域的新星大神,她從斯坦福畢業后,到普林斯頓大學任助理教授。她將深度學習用于一系列自然語言處理重要問題,幫助機器獲取知識、更好地回答問題。她開設了COS 598C (Winter 2020)課程,深度學習自然語言處理, Deep Learning for Natural Language Processing,共有21講,講解最新NLP進展,非常值得follow。
本課程旨在介紹自然語言處理的前沿深度學習方法。本課程的主題包括詞的嵌入/上下文化的詞的嵌入、預訓練和微調、機器翻譯、問題回答、摘要、信息提取、語義分析和對話系統等。我們對每個主題進行了深入的討論,并討論了最近關于每個主題的重要論文,包括背景、方法、評價、目前的局限性和未來的發展方向。學生應定期閱讀和提交研究論文,并完成一篇期末論文。
學習目標:
本課程旨在為您在自然語言處理方面的前沿研究做準備。我們將討論在NLP的每個子領域中最有影響力的想法,最先進的技術和我們今天面臨的主要問題。
練習你的研究技能,包括閱讀研究論文,進行文獻調查,口頭和書面報告,以及提供建設性的反饋。
強化學習(RL)是一種流行的處理順序決策任務的范式,其中agent只有有限的環境反饋。盡管在過去的三十年里取得了許多進步,但是在許多領域的學習仍然需要大量的與環境的交互,這在現實的場景中是非常昂貴的。為了解決這個問題,遷移學習被應用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更困難的任務時得到利用。最近,有幾項研究探索了如何將任務(或數據樣本本身)排序到課程中,以便學習一個可能很難從頭學起的問題。在本文中,我們提出了一個課程學習的強化學習框架,并利用它來調查和分類現有的課程學習方法的假設、能力和目標。最后,我們使用我們的框架來發現開放的問題,并為未來的RL課程學習研究提出方向。