【作者簡介】
Seongjai Kim
個人主頁:
//skim.math.msstate.edu/index.html
【講稿簡介】
在“微分方程的數值方法”這一領域,似乎很難找到一本將數值方法的數學、物理和工程問題結合在一起的教科書。因此,本講稿的第一個目標是為學生提供一本方便的教科書,介紹偏微分方程(PDEs)數值解法的物理和數學方面。
在數值求解偏微分方程時,需要考慮以下幾點:
【導讀】MIT科學家Dimitri P. Bertsekas在ASU開設了2022《強化學習》課程,講述了強化學習一系列主題。Dimitri 的專著《強化學習與最優控制》,是一本探討人工智能與最優控制的共同邊界的著作。
本課程將聚焦于強化學習(RL),這是人工智能目前非常活躍的一個分支領域,并將有選擇性地討論一些基于近似動態規劃(DP)方法的算法主題: 逼近值和策略空間,近似策略迭代,推出(策略迭代的一種一次性形式),模型預測控制,多智能體方法,挑戰組合優化問題的應用,使用模擬和神經網絡架構的實現,策略梯度方法,聚合,以及工程和人工智能應用,比如AlphaZero和TD-Gammon程序的高調成功,這兩個程序分別會下國際象棋和西洋雙陸棋。
我們的主要目標之一是為RL和近似DP提出和開發一個新的概念框架。這個框架圍繞著兩種算法,它們在很大程度上獨立設計,并通過牛頓方法的強大機制協同運行。我們稱之為離線訓練和在線游戲算法; 這些名字是借用了一些RL的主要成功游戲,如AlphaZero和TD-Gammon。在這些程序的背景下,離線訓練算法是用來教程序如何評估位置和在任何給定的位置產生好的移動的方法,而在線比賽算法是用來實時對抗人或計算機對手的方法。我們的主要目標之一是,通過牛頓方法的算法思想和抽象DP的統一原則,表明AlphaZero和TD-Gammon方法的值空間逼近和鋪展非常廣泛地應用于確定性和隨機最優控制問題,包括離散和連續搜索空間,以及有限和無限視界。此外,我們將展示我們的概念框架可以有效地與其他重要的方法集成,如模型預測和自適應控制、多智能體系統和分散控制、離散和貝葉斯優化,以及離散優化的啟發式算法。本課程的主要重點是鼓勵研究生通過定向閱讀和與教師的互動來加強學習。
地址: //web.mit.edu/dimitrib/www/RLbook.html
作者Dimitri P. Bertsekas教授,1942年出生于希臘雅典,美國工程院院士,麻省理工大學電子工程及計算機科學教授。Bertsekas教授因其在算法優化與控制方面以及應用概率論方面編寫了多達16本專著而聞名于世。他也是CiteSeer搜索引擎學術數據庫中被引用率最高的100位計算機科學作者之一。Bertsekas教授還是Athena Scientific出版社的聯合創始人。
講義稿:
《強化學習與最優控制》書籍
本書的目的是考慮大型和具有挑戰性的多階段決策問題,這些問題可以通過動態規劃和最優控制從原則上解決,但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略(suboptimal policies)的求解方法。這些方法統稱為強化學習(reinforcement learning),也包括近似動態規劃(approximate dynamic programming)和神經動態規劃( neuro-dynamic programming)等替代名稱。
我們的學科從最優控制和人工智能的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界,并形成一個可以在任一領域具有背景的人員都可以訪問的橋梁。
這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴于直觀的解釋,而不是基于證據的洞察力。在附錄中,我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此,我們需要一個適度的數學背景:微積分、初等概率和矩陣向量代數等。
實踐證明這本書中的方法是有效的,最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而,在廣泛的問題中,它們的性能可能不太可靠。這反映了該領域的技術現狀:沒有任何方法能夠保證對所有甚至大多數問題都有效,但有足夠的方法來嘗試某個具有挑戰性的問題,并有合理的機會使其中一個或多個問題最終獲得成功。因此,我們的目標是提供一系列基于合理原則的方法,并為其屬性提供直覺,即使這些屬性不包括可靠的性能保證。希望通過對這些方法及其變體的充分探索,讀者將能夠充分解決他/她自己的問題。
課程講義課件:
【作者簡介】
Seongjai Kim
個人主頁:
//skim.math.msstate.edu/index.html
【講稿】
【作者簡介】
Seongjai Kim
個人主頁:
//skim.math.msstate.edu/index.html
【講稿】
——微積分,
-線性代數,還有
-概率推理(即概率的數學理論和如何使用它)。
我們將深入探討應用數學分支的關鍵部分,并在ML的背景下。
更具體地說,本課程的數學主題可以分為四個基本的學科領域:
數據表示和將數據映射到決策、估計或兩者的操作符。我們將從線性表示的深入討論開始;它們本身就很重要/有用,也被用作非線性表示的構建塊。這就是我們需要大量線性代數及其擴展的地方。
估計。從數據集中估計一個參數是什么意思?我們將盡量用統計學的語言,把這個問題建立在一個牢固的數學基礎上。
建模。
計算。最后,我們將看看如何計算解決ML中出現的問題。我們將從優化中了解一些基本的算法,并從數值線性代數中了解一些代數技術。
課程介紹
在人工智能、統計學、計算機系統、計算機視覺、自然語言處理和計算生物學等許多領域中的問題,都可以被視為從局部信息中尋找一致的全局結論。概率圖模型框架為這些普遍問題提供了統一的視角解決方案,支持在具有大量屬性和龐大數據集的問題中進行有效的推理、決策和學習。本研究生課程將為您運用圖模型到復雜的問題和解決圖模型的核心研究課題提供堅實的基礎。
課程大綱
講師:邢波
講師簡介
邢波,卡耐基梅隆大學教授,曾于2014年擔任國際機器學習大會(ICML)主席。主要研究興趣集中在機器學習和統計學習方法論及理論的發展,和大規模計算系統和架構的開發。他創辦了Petuum 公司,這是一家專注于人工智能和機器學習的解決方案研發的公司,騰訊曾投資了這家公司。
個人主頁: