本課程關注控制理論和強化學習的理論介紹,側重于連續狀態空間以及物理世界和機器人技術的應用。我們強調計算效率的算法和可證明的界。特別關注RL中非隨機控制和遺憾最小化的新方法。我們將與該領域的經典方法論進行比較和對比。
本課程的練習和項目將需要用python編寫代碼。
這門課程對所有學生開放,但要求有很強的數學背景。
//sites.google.com/view/cos59x-cct/home
深度學習的先驅、圖靈獎獲得者Yann Lecun教授有一種非常簡潔明了地抓住問題癥結的氣質。2020年2月左右,他在巴巴多斯研討會上說,
“控制=梯度強化學習”。
強化學習和控制理論的關鍵區別在于它們所操作的空間。強化學習的范圍通常位于離散狀態空間(如圍棋、國際象棋),而控制理論通常處理涉及物理和連續空間(如機器人)的問題。物理學和結構環境的知識使我們能夠利用差分信息。
后者允許我們使用強大的數學優化和凸松弛技術來設計高效的算法。這是自適應非隨機控制理論的主題,也是本課程的主題。
這些是我在2020年秋季在莫斯科物理與技術研究所(MIPT)和Yandex數據分析學院(YSDA)做的演講筆記。這些筆記涵蓋了初始化、損失曲面、泛化和神經切線核理論的一些方面。雖然許多其他的主題(如表達性,平均場理論,雙下降現象)在當前版本中缺失,我們計劃在未來的修訂中添加它們。
本課程涵蓋了每個專業程序員需要了解的關于算法和數據結構的基本信息,重點是應用程序和Java實現的科學性能分析。第一部分介紹基本的數據結構、排序和搜索算法。第二部分重點介紹圖形和字符串處理算法。
《算法(第四版》是普林斯頓超級大神教授Robert Sedgewick的神作,該書還有配套的MOOC課程,是算法領域經典的參考書。
這本書涵蓋所有程序員必須掌握的50種算法,全面介紹了關于算法和數據結構的必備知識,并特別針對排序、搜索、圖處理和字符串處理進行了論述。第4版具體給出了每位程序員應知應會的50個算法,提供了實際代碼,而且這些Java代碼實現采用了模塊化的編程風格,讀者可以方便地加以改造。
強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。
強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:
論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。
第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。
第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。
第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。
總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。
有很多關于傅里葉變換的書; 然而,很少有面向多學科讀者的。為工程師寫一本關于代數概念的書是一個真正的挑戰,即使不是太難的事,也要比寫一本關于理論應用的代數書更有挑戰性。這就是本書試圖面對的挑戰。因此,每個讀者都能夠創建一個“按菜單”的程序,并從語句或計算機程序中提取特定元素,以建立他們在該領域的知識,或將其運用于更具體的問題。
本文敘述是非常詳細的。讀者可能偶爾需要一些關于有限組的高級概念,以及對組行為的熟悉程度。我強調了那些重要的定義和符號。例如,從多個角度(交換群、信號處理、非交換群)研究卷積的概念,每次都要放在它的背景知識中。因此,不同的段落,雖然遵循一個邏輯遞進,有一個真正的統一,但可以根據自己需要選取閱讀。
第一章用群論的語言來解釋主要概念,并解釋后面將用到的符號。第二章將所得結果應用于各種問題,并首次接觸快速算法(例如Walsh 變換)。第三章對離散傅里葉變換進行了闡述。第四章介紹了離散傅里葉變換的各種應用,并構成了對前一章的必要補充,以充分理解所涉及的機制以及在實際情況中使用。第五章圍繞傅里葉變換提出了更多新穎的思想和算法,產生了大量的應用。第六章需要一些更高級的知識,特別是對有限場理論的一些熟悉。它研究了有限域中的值變換,并給出了在校正碼中的應用。最后兩章(最困難的一章),具有更多的代數性質,并建議推廣已經在有限非交換群的情況下進行的構造。第七章揭示了線性表示的理論。第八章和最后一章將這一理論應用于理論(群的簡潔性研究)和實際(光譜分析)領域。
現代人工智能(AI)系統通常需要在一個未知的、不確定的、可能敵對的環境中,通過積極地與環境交互來收集相關數據,從而做出連續的決策。強化學習(RL)是一個通用框架,可以捕獲交互式學習設置,并已被用于設計智能代理,以實現超人水平的表現,在具有挑戰性的任務,如圍棋,電腦游戲,機器人操作。
這門研究生水平的課程著重于強化學習的理論和算法基礎。本課程的四個主題為: (1)可證明有效的探索; (2)策略優化(特別是策略梯度); (3)控制; (4)模仿學習。
通過本課程,學生將能夠理解經典的和最新的可證明正確的RL算法及其分析。學生將能夠對與RL相關的課題進行研究。
這是對常微分方程的介紹。摘要討論了一階標量方程、二階線性方程和線性方程組的解的主要思想。利用冪級數法求解變系數二階線性方程組。本文引入拉普拉斯變換方法求解具有廣義源函數的常系數方程。簡要介紹邊值問題、特征值-特征函數問題和傅立葉級數展開。本文采用分離變量的方法,通過求解無窮多個常微分方程得到偏微分方程的解
異步分布式計算系統的模型。基本概念的并發和同步,通信,可靠性,拓撲和電子約束,時間和空間的復雜性,和分布式算法。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。
課程內容:
數學基礎:矩陣、向量、Lp范數、范數的幾何、對稱性、正確定性、特征分解。無約束最優化,graident下降法,凸函數,拉格朗日乘子,線性最小二乘法。概率空間,隨機變量,聯合分布,多維高斯。
線性分類器:線性判別分析,分離超平面,多類分類,貝葉斯決策規則,貝葉斯決策規則幾何,線性回歸,邏輯回歸,感知機算法,支持向量機,非線性變換。
魯棒性:對抗性攻擊、定向攻擊和非定向攻擊、最小距離攻擊、最大允許攻擊、基于規則的攻擊。通過納微擾。支持向量機的魯棒性。
學習理論:偏差和方差,訓練和測試,泛化,PAC框架,Hoeffding不等式,VC維。
參考書籍:
講者: Stanley Chan 教授 //engineering.purdue.edu/ChanGroup/stanleychan.html
課程目標: 您將能夠應用基本的線性代數、概率和優化工具來解決機器學習問題
?你將了解一般監督學習方法的原理,并能評論它們的優缺點。 ?你會知道處理數據不確定性的方法。 ?您將能夠使用學習理論的概念運行基本的診斷。 ?您將獲得機器學習算法編程的實際經驗。