這本書是對卡內基梅隆大學Drew Bagnell在自適應控制和強化學習課程(2010,11,14),Byron Boots在佐治亞理工大學(2019)和Sanjiban Choudhury在康奈爾大學(2022)所做課堂筆記的編輯合集。我們感謝Chris Atkeson共同講授了這門課的第一個實例,并塑造了我們在這里思考問題的方式。這本書——以及它所依據的類——旨在提供一套實用工具,為機器與世界的交互構建決策程序。我們的應用程序從視頻游戲和網絡搜索到機器人操作和自動駕駛汽車。這個領域是廣闊的,所以我們的觀點必然是狹隘的。我們明確地不做嚴格的嘗試,而是專注于直覺和建立這種直覺的非正式數學論證,以及我們在艱難的決策問題上多次看到的技術。我們試圖概括出我們在實踐中最有可能采用的技術和思維方式。在整個過程中,我們試圖指出嚴格的衍生和原始文獻的主題。這些筆記的設計基于概率的基本技術(條件概率、條件獨立、高斯、積分技術、貝葉斯方法和推斷、濾波和時間序列模型)、線性代數(計算和基本線性分析)、優化(梯度、Hessians、度量、Krylov子空間)和機器學習(泛化、優化、無后悔/在線學習、反向傳播和核方法)。
這本教科書介紹了Banach空間中優化問題的凸對偶性、積分理論,以及它們在靜態或動態設置中的隨機規劃問題的應用。對隨機規劃的主要算法進行了介紹和分析,并對理論方面進行了細致的論述。 讀者展示了如何這些工具可以應用到各種領域,包括近似理論,半定和二階錐規劃和線性決策規則。 本書推薦給那些愿意用嚴格的方法來研究對偶理論在不確定性優化中的應用中的數學的學生、工程師和研究人員。
凸優化工具箱本章在巴拿赫空間中,通過極大極小法和攝動法,給出優化問題的對偶理論。在一些穩定性(限定)假設下,證明了對偶問題具有一個非空有界解集。這就引出了次微分學,這似乎只是一個偏次微分法則。提供了應用的十進制卷積,以及衰退和透視函數。利用Shapley-Folkman定理,分析了一些非凸問題的松弛性。
半定規劃與半無限規劃本章討論正半定矩陣錐上的最優化問題,以及這類線性問題的對偶理論。我們將凸旋轉不變矩陣函數與譜的凸函數聯系起來;這使得我們可以計算對數勢壘函數的共軛和相關優化問題的對偶。給出了具有非凸二次型代價和約束的半定松弛問題。證明了二階錐優化是半定規劃的一個子類。第二部分研究有限支撐測度空間中的半無限規劃及其對偶問題,并應用于Chebyshev近似和一維多項式優化問題。 集成工具箱本章簡明地介紹了一般測度空間中的積分理論,包括關于積分極限的經典定理。它擴展了在巴拿赫空間中具有值的可測函數所需要的波奇納積分。然后,它展示了如何計算積分泛函的共軛和子微分,無論是在凸情況下,基于凸被積函數理論,或在Carathéodory被積函數的情況下。然后利用Shapley-Folkman定理分析了具有積分代價和約束函數的優化問題。
**風險度量 **將期望最小化幾乎無法控制遠低于期望值的回報的風險。因此,設計函數是很有用的,其最小化將允許人們在風險和期望值之間進行權衡。本章簡要介紹了相應的風險度量理論。在介紹了效用函數之后,引入了風險的貨幣度量,并與它們的接受集相聯系。然后討論了偏差和半偏差的情況,以及(條件)風險值。
抽樣和優化本章討論的不是最小化期望,而是最小化通過獲得獨立事件的樣本得到的樣本近似時會發生什么。該分析依賴于漸近定律理論(δ定理)及其在隨機規劃中的應用。我們將結果推廣到期望約束的情況。
動態隨機優化動態隨機優化問題具有以下信息約束:每個決策必須是相應時刻可用信息的函數。這可以表示為包含條件期望的線性約束。本章在充分觀察狀態的情況下發展了凸問題的相應理論。由此得到的最優系統涉及一個后向共態方程,控制變量是某個哈密頓函數的最小值點.
馬爾可夫決策過程
本章考慮一個受控馬爾可夫鏈過程的最小回報期望問題,無論是有限范圍的馬爾可夫鏈過程,還是有折扣的無限馬爾可夫鏈過程,包括退出時間和停止決策的情況。比較了值和策略(Howard)迭代。對于具有期望約束、局部觀察的問題,對于具有無折現代價的大視界問題的遍歷情況,給出了這些結果的推廣。 算法對于凸的動態隨機優化問題,Bellman函數是凸的,可以近似為仿射函數的有限上極值。從靜態和確定性問題開始,展示了這如何導致有效的隨機對偶動態規劃算法。本章第二部分討論了線性決策規則的一種很有前途的方法,它使我們可以得到隨機優化問題的值函數的上下界。
廣義凸性與運輸理論
本章首先介紹了用任意集上的一般耦合函數代替對偶積時凸性理論的推廣。優化問題的Fenchel共軛、循環單調性和對偶性的概念,對這種設置有一個自然的擴展,其中增廣拉格朗日方法有一個自然的解釋。度量空間上的凸函數,構造為連續函數的積分函數的Fenchel共軛,有時被證明等于其密度的函數的某個積分。這被用于在緊集上的最優運輸理論的表述,以及相關的懲罰問題。本章最后討論了多傳輸環境。
強化學習是人工智能中一個強大的工具,其中虛擬或物理代理學習優化他們的決策,以實現長期目標。在某些情況下,這種機器學習方法可以節省程序員的時間,超越現有的控制器,達到超人的性能,并不斷適應不斷變化的條件。這本書認為,這些成功表明強化學習可以成功地應用于許多不同的情況,包括機器人控制、股票交易、供應鏈優化和工廠控制。
然而,強化學習傳統上僅限于虛擬環境或模擬環境中的應用,在這些環境中已經提供了設置。此外,實驗可以完成幾乎無限次的嘗試無風險。在許多現實生活任務中,使用強化學習并不像(1)數據沒有正確的形式;(2)數據稀缺,(3)自動化在現實世界中有局限性。
因此,這本書是寫來幫助學者,領域專家,和數據愛好者一樣理解的基本原則,應用強化學習到現實世界的問題。這是通過將重點放在使用實際示例和將標準數據建模為所需的正確形式,然后應用基本智能體的過程來實現的。為了進一步幫助讀者獲得對這些方法的深入和接地氣的理解,本書展示了完整的手工計算示例,以及如何用代碼以更自動化的方式實現這一點。
對于對強化學習作為解決方案感興趣但不精通的決策者,本書在介紹和案例研究部分包括簡單的、非技術的例子。這些提供了強化學習的背景,以及在實踐中應用它的挑戰和風險。具體來說,這些部分闡述了強化學習和其他機器學習方法的區別,以及知名公司如何成功地使用這種方法解決他們的問題。
//www.morganclaypool.com/doi/abs/10.2200/S01170ED1V01Y202202AIM052
強化學習(RL)將成為未來10年人工智能領域最大的突破之一,使算法能夠從環境中學習以實現任意目標。這一令人興奮的發展避免了傳統機器學習(ML)算法中的限制。這本實用的書向數據科學和人工智能專業人士展示了如何通過強化學習,讓機器自己學習。
Winder研究的作者Phil Winder涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,并從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,并希望熟悉ML。
目錄內容: Preface
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
強化學習是一種學習范式,它關注的是如何控制一個系統,從而最大化一個表示長期目標的數值性能度量。強化學習與監督學習的區別在于,對于學習器的預測,只會給予部分反饋。此外,這些預測可能通過影響被控制系統的未來狀態而產生長期影響。因此,時間扮演著特殊的角色。強化學習的目標是發展有效的學習算法,以及了解算法的優點和局限性。強化學習之所以引起人們極大的興趣,是因為它可以用于解決大量的實際應用,從人工智能到運籌學或控制工程的問題。在這本書中,我們專注于那些建立在強大的動態規劃理論基礎上的強化學習算法。我們給出了一個相當全面的學習問題的目錄,描述了核心思想,關注大量的最先進的算法,然后討論了它們的理論性質和局限性。
《強化學習和隨機優化:序列決策的統一框架》是一本新書,它提供了一個統一框架,涵蓋了所有在不確定性下進行決策的社區(見jungle.princeton.edu)。這是第一本全面介紹這些領域的書,遵循了確定性優化和機器學習(但不是隨機優化)中長期使用的風格。
第一部分提供了基礎材料,其中大部分可以略讀。第1章提供了通用建模框架的概述,該框架涵蓋了任何序列決策問題,最困難的挑戰(對于大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規范化建模框架,這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章,了解已經采用的各種方法。有深度的讀者將在這些規范問題中的一個或多個方面有一定程度的專業知識,這將有助于在該問題和我們的框架之間提供一座橋梁。最后,第三章深入探討了在線學習。本章應該略讀,然后在需要時作為參考資料使用。
第二部分-隨機搜索-這些是隨機優化問題,可以使用自適應算法解決,其中唯一的信息鏈接迭代是關于函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數,以區別于我們在第三部分中開始處理的更一般的狀態依賴函數。
第三部分-狀態相關問題-這里我們過渡到更豐富的序列問題類,其中被優化的函數是狀態相關的。
第四部分-策略搜索-這些章節描述了必須調整的策略,無論是在模擬器中還是通過經驗。
第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的對應。
第六部分-多智能體系統和學習-最后我們展示了如何擴展我們的框架來處理多智能體系統。
目錄內容:
Chapter 1 – Introduction
Chapter 2 – Canonical models and applications .
Chapter 3 – Online learning- Revised from ADP book
Chapter 4 – Introduction to stochastic search
Chapter 5 – Derivative-based stochastic optimization
Chapter 6 – Stepsize policies
Chapter 7 – Derivative-free stochastic optimization
Chapter 8 – State-dependent problems
Chapter 9 – Modeling sequential decision problems
Chapter 10 – Uncertainty modeling
Chapter 11 – Designing policies
Chapter 12 – Policy function approximations and policy search
Chapter 13 – Cost function approximations
Chapter 14 – Discrete Markov decision processes
Chapter 15 – Backward approximate dynamic programming
Chapter 16 – Forward ADP I: The value of a policy
Chapter 17 – Forward ADP II: Policy optimization
Chapter 18 – Forward ADP III: Convex functions
Chapter 19 – Direct lookahead policies
Chapter 20 – POMDPs, two-agent systems, and multiagent RL
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。