來自伯克利Pieter Abbeel教授講述的深度強化學習課程6講,講述內容包括,MDP basics, value & policy iteration, max-ent, DQN, policy gradient, TRPO, PPO, DDPG, SAC, model-based RL.
視頻地址: //www.youtube.com/playlist?list=PLwRJQ4m4UJjNymuBM9RdmB3Z9N5-0IlY0
嘉賓:Pieter Abbeel ,加州大學伯克利分校機器人學習實驗室主任,人工智能實驗室聯合主任、covariant.ai 和 Gradescope 聯合創始人
在這次演講中,我將分享我對如何為機器人實現大型預訓練神經網絡的想法,就像GPT-x/BERT等預訓練模型在NLP中被標準使用的方式一樣。我列出了我們如何在無監督表征學習、無監督(無獎勵)強化學習(RL)預訓練、人在循環中的RL和少樣本模仿學習等方面取得實質性的研究進展。
這是一門關于在不確定情況下強化學習(RL)和順序決策的入門課程,重點在于理解理論基礎。我們研究如何使用動態規劃方法,如價值和策略迭代,來解決具有已知模型的順序決策問題,以及如何擴展這些方法,以解決模型未知的強化學習問題。其他主題包括(但不限于)RL中的函數近似、策略梯度方法、基于模型的RL以及平衡探索-利用權衡。本課程將以講座和閱讀古典及近期論文的方式傳授給學生。因為重點是理解基礎,你應該期望通過數學細節和證明。本課程的要求背景包括熟悉概率論和統計、微積分、線性代數、最優化和(有監督的)機器學習。
//amfarahmand.github.io/IntroRL/
目錄內容:
強化學習入門筆記
這是多倫多大學計算機科學系于2021年春季教授的強化學習(RL)研究生課程介紹的講義。本課程是入門性的,因為它不需要預先接觸強化學習。然而,它不僅僅是算法的集合。相反,它試圖在RL中經常遇到的許多重要思想和概念背后建立數學直覺。在這些講義的過程中,我證明了很多基礎的,或者有時不那么基礎的,RL的結果。如果某個結果的證明過于復雜,我就證明一個簡化的版本。
強化學習(RL)既指一類問題,也指解決這類問題的一組計算方法。RL問題是指如何采取行動,使某些長期績效的概念得到最大化。RL問題,從它的定義來看,是關于一個實體的行為和交互,我們稱之為代理,與其周圍的環境,我們稱之為環境。這是一個非常普遍的目標。有人可能會說,解決AI問題等同于解決RL問題。強化學習也指解決RL問題的一套計算方法。一個代理需要做什么樣的計算才能確保它的行為能夠帶來良好的(甚至是最佳的)長期性能?實現這些的方法稱為RL方法。歷史上,在所有試圖解決RL問題的計算方法中,只有一個子集被稱為RL方法。例如Q-Learning這樣的方法(我們將在本課程中學習)是一種很好的RL方法,但是進化計算的方法,如遺傳算法,則不是。人們可以爭辯說,進化計算方法沒有太多的“學習”成分,或者它們不以個體生命的時間尺度行事,而是以世代的時間尺度行事。雖然這些是真正的區別,但這種劃分方式有些武斷。在本課堂講稿中,我們將重點放在“RL社區”中經常學習的方法上。
近日,深度學習課程 CS182 已發布所有視頻課程(截至目前),課程講師是來自加州大學伯克利分校電氣工程與計算機科學系的助理教授 Sergey Levine 。
Youtube 地址:
此外,該課程目前也可以在 B 站觀看。
B 站地址:
CS 182 是一門深度學習入門課程,涵蓋了深度學習的諸多內容,適用于高級本科生及研究生。 目前,這門課程在 Youtube 和 B 站上已有 44 節視頻內容:
Deep Reinforcement Learning via Policy Optimization
報告簡介: 深度強化學習與元學習是當前研究熱點。加州大學UC Berkeley Pieter Abbeel教授最新在卡內基梅隆大學CMU中做了演講關于深度強化學習在機器人的應用,《Deep Learning to learn》,是了解深度學習在機器人應用研究進展的很好報告。
嘉賓介紹: Pieter Abbeel,加州大學伯克利分校教授、機器人學習實驗室主任,伯克利人工智能研究(BAIR)實驗室聯合主任。Pieter Abbeel是機器人和強化學習領域的大牛。Pieter Abbeel 2008年從斯坦福大學獲得博士學位,師從百度前首席科學家 Andrew Ng(吳恩達),畢業后在UC Berkeley任教。Pieter Abbeel還是兩家AI公司的創始人,Gradescope和covariant.ai。Gradescope開發為家庭作業、課題研究、試卷等打分的AI系統;covariant.ai開發機器人自動化的AI系統,在制造/倉儲/電子商務/物流等領域應用。 Pieter Abbeel 的研究重點特別集中于如何讓機器人向人類學習(學徒學習),如何讓機器人通過自己的試錯過程學習(強化學習),以及如何通過從learning-to-learn(元學習)過程中加快技能獲取。他開發的機器人已經學會了先進的直升機特技飛行、打結、基本裝配、疊衣服、移動、以及基于視覺的機器人操作。
下載鏈接: 鏈接://pan.baidu.com/s/1aFOE18rk-icczXBYJERWow 提取碼:8ixa