本文為大家帶來了一份斯坦福大學的最新課程CS236——深度生成模型,目前更新到第一課,感興趣的同學可以多多關注,跟隨學習。
生成式模型被廣泛應用到人工智能和機器學習的諸多領域當中。最近,通過結合隨機梯度下降的優化方法,使用深度神經網絡參數化這些模型所取得的進展,已經使得對于包括圖像,文本和語音在內的復雜,高維度數據建模成為可能。在本次課程中,我們將要學習深度生成式模型的概率基礎和學習算法,包括自動編碼器(AE)的各種變體,生成式對抗網絡,自回歸模型和標準化流模型(normalizing flow models)。本課程還將討論從深度生成式模型中獲益的應用領域,例如計算機視覺,語音,自然語言處理,圖挖掘和強化學習。
本文為大家帶來了一份斯坦福大學的最新課程CS234——強化學習,主講人是斯坦福大學Emma Brunskill,她是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組,主要研究強化學習。要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。
1.課程介紹(Description)
要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主系統。強化學習是這樣做的一個強有力的范例,它與大量的任務相關,包括機器人、游戲、消費者建模和醫療保健。本課程將為強化學習領域提供扎實的介紹,學生將學習包括通用化和探索在內的核心挑戰和方法。通過講課、書面作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。作業將包括強化學習和深度強化學習的基礎,這是一個極有前途的新領域,將深度學習技術與強化學習相結合。此外,學生將通過期末專題來增進對強化學習領域的理解。
課程地址:
//web.stanford.edu/class/cs234/schedule.html
2.預備知識(Prerequisites)
1)熟練Python
所有的課程都將使用Python(使用numpy和Tensorflow,也可以使用Keras)。這里有一個針對那些不太熟悉Python的人的教程。如果你有很多使用不同語言(如C/ c++ / Matlab/ Javascript)的編程經驗,可能會很好。
2)大學微積分,線性代數(如 MATH 51, CME 100)
你應該能夠熟練地進行(多變量)求導,理解矩陣/向量符號和運算。
3)基本概率及統計(例如CS 109 或同等課程)
你應該了解基本的概率,高斯分布,均值,標準差等。
4)機器學習基礎
我們將闡述成本函數,求導數,用梯度下降法進行優化。CS 221或CS 229均可涵蓋此背景。使用一些凸優化知識,一些優化技巧將更加直觀。
3.主講:Emma Brunskill
Emma Brunskill是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組。
主要研究強化學習系統,以幫助人們更好地生活。并處理一些關鍵技術。最近的研究重點包括:1)有效強化學習的基礎。一個關鍵的挑戰是要了解代理商如何平衡勘探與開發之間的局限性。2)如果要進行順序決策,該怎么辦。利用巨大數量的數據來改善在醫療保健,教育,維護和許多其他應用程序中做出的決策,這是一個巨大的機會。這樣做需要假設/反事實推理,以便在做出不同決定時對潛在結果進行推理。3)人在回路系統。人工智能具有極大地擴大人類智能和效率的潛力。我們正在開發一個系統,用其他眾包商(CHI 2016)生產的(機器)固化材料對眾包商進行訓練,并確定何時擴展系統規格以包括新內容(AAAI 2017)或傳感器。我們也有興趣研究確保機器學習系統在人類用戶的意圖方面表現良好(Arxiv 2017),也被稱為安全和公平的機器學習。
個人主頁:
4.課程安排
01: 強化學習導論(Introduction to Reinforcement Learning)
02: 表格MDP規劃(Tabular MDP planning)
03: 表格RL政策評估(Tabular RL policy evaluation)
04: Q-learning
05: 帶函數逼近的強化學習(RL with function approximation)
06: 帶函數逼近的強化學習(RL with function approximation)
07: 帶函數逼近的強化學習(RL with function approximation)
08: 從馬爾可夫決策過程到強化學習(Policy search)
09: 從馬爾可夫決策過程到強化學習(Policy search)
10: 課堂中期(In-class Midterm)
11: 模仿學習/探索(Imitation learning/Exploration)
12: 探索/開發(Exploration/Exploitation)
13: 探索/開發(Exploration/Exploitation)
14: 批處理強化學習(Batch Reinforcement Learning)
15: 嘉賓講座:Craig Boutilier(Guest Lecture: Craig Boutilier)
16: 課堂測驗(In-class Quiz)
17: 蒙特卡洛樹搜索算法(Monte Carlo Tree Search)
18: 墻報展示(Poster presentations)
課程介紹
在人工智能、統計學、計算機系統、計算機視覺、自然語言處理和計算生物學等許多領域中的問題,都可以被視為從局部信息中尋找一致的全局結論。概率圖模型框架為這些普遍問題提供了統一的視角解決方案,支持在具有大量屬性和龐大數據集的問題中進行有效的推理、決策和學習。本研究生課程將為您運用圖模型到復雜的問題和解決圖模型的核心研究課題提供堅實的基礎。
課程大綱
講師:邢波
講師簡介
邢波,卡耐基梅隆大學教授,曾于2014年擔任國際機器學習大會(ICML)主席。主要研究興趣集中在機器學習和統計學習方法論及理論的發展,和大規模計算系統和架構的開發。他創辦了Petuum 公司,這是一家專注于人工智能和機器學習的解決方案研發的公司,騰訊曾投資了這家公司。
個人主頁: