這本手稿涵蓋了強化學習的所有重要的基本方面。第二章采用馬爾可夫決策過程對主體與環境之間的相互作用進行建模。第三章介紹了基于給定環境模型解決MDP問題的核心技術——動態規劃。一般來說,解決MDP問題涉及到政策評估和政策改進的迭代。在第四章中,我們討論了無模型方法:蒙特卡洛,TD學習,SARSA和q學習。第五章對強化學習中的值函數逼近進行了一般討論。作為一個重要的例子,深度Q-learning將在第6章中詳細介紹。第7章介紹了策略梯度方法,重點介紹了策略梯度定理、REINFORCE算法、Advantage Actor-Critic算法等基本概念。
博弈論是一種用數學工具研究相互依賴的理性博弈者之間復雜相互作用的形式框架。博弈論中最著名的概念是著名的納什均衡。實際上,博弈論的方法是多種多樣的,包括合作和非合作模型,靜態和動態博弈,單槽和重復博弈,有限和無限視野博弈。博弈論導致了經濟學的革命性變化,并在社會學、現代通信、生物工程和交通運輸等領域得到了重要應用。這本書介紹了博弈論的介紹,并提供了博弈論的應用。 這本書是關于博弈論的傳統解釋。博弈論分為兩個主要分支。第一種是合作博弈論,該理論假設參與者可以溝通、結成聯盟并簽署有約束力的協議。例如,合作博弈論被用于分析政治科學及相關領域的投票行為等問題。我們將專門討論另一個主要分支,即非合作博弈論。非合作博弈論模型的情況下,參與者要么無法溝通,或能夠溝通,但不能簽署有約束力的合同。后一種情況的一個例子是,在反壟斷法規定企業就價格或生產配額或其他形式的串通行為達成協議為非法的環境中,行業內企業之間的相互作用。
這本書分為五個部分。這本書的印刷版分為兩卷。第一卷涵蓋了基本概念,包括第1-7章(第一部分和第II部分),而第二卷致力于高級主題,包括第8-16章(第III部分到第五部分)。
深度強化學習(Deep Reinforcement Learning, Deep RL)結合了深度學習和強化學習,人工智能體通過學習來解決順序決策問題。在過去的十年中,深度RL在一系列問題上取得了顯著的成果,從單人和多人游戲(如圍棋、Atari游戲和DotA 2)到機器人。
《深度強化學習基礎》是對深度學習的介紹,獨特地結合了理論和實現。它從直覺開始,然后仔細地解釋了深度RL算法的理論,討論了其伴生軟件庫SLM Lab中的實現,最后介紹了使深度RL工作的實際細節。 本指南對于熟悉基本機器學習概念并對Python有實際理解的計算機科學學生和軟件工程師都是理想的。
理解深度RL問題的每個關鍵方面 * 探索基于策略和價值的算法,包括REINFORCE、SARSA、DQN、Double DQN和優先體驗重放(PER) * 深入研究組合算法,包括actor - critical和近端策略優化(PPO) * 理解如何同步和異步并行算法 * 在SLM Lab中運行算法,學習深入RL工作的實際實現細節 * 探索調優超參數的算法基準測試結果 * 理解深度RL環境是如何設計的
發現在多機器人協調技術的最新發展與這個深刻的和原始的資源 多智能體協調:強化學習方法提供了一個全面、深刻和獨特的處理多機器人協調算法的開發,與傳統算法相比,計算負擔最小,存儲需求更低。有成就的學者、工程師和作者為讀者提供了多機器人協調的高層次介紹和概述,以及基于學習的規劃算法的深入分析。 您將了解如何加速對團隊目標的探索,以及通過確定團隊首選的聯合行動來加快TMAQL收斂的替代方法。作者還提出了共識q學習的新方法,解決了均衡選擇問題。最后,本書總結了這一快速發展領域的未來研究的可能方向。
讀者將發現多智能體協調的前沿技術,包括:
強化學習(RL)將成為未來10年人工智能領域最大的突破之一,使算法能夠從環境中學習以實現任意目標。這一令人興奮的發展避免了傳統機器學習(ML)算法中的限制。這本實用的書向數據科學和人工智能專業人士展示了如何通過強化學習,讓機器自己學習。
Winder研究的作者Phil Winder涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,并從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,并希望熟悉ML。
目錄內容: Preface
圖論因其在計算機科學、通信網絡和組合優化方面的應用而成為一門重要的學科。它與其他數學領域的互動也越來越多。雖然這本書可以很好地作為圖表理論中許多最重要的主題的參考,但它甚至正好滿足了成為一本有效的教科書的期望。主要關注的是服務于計算機科學、應用數學和運籌學專業的學生,確保滿足他們對算法的需求。在材料的選擇和介紹方面,已試圖在基本的基礎上容納基本概念,以便對那些剛進入這一領域的人提供指導。此外,由于它既強調定理的證明,也強調應用,所以應該先吸收主題,然后對主題的深度和方法有一個印象。本書是一篇關于圖論的綜合性文章,主題是有組織的、系統的。這本書在理論和應用之間取得了平衡。這本書以這樣一種方式組織,主題出現在完美的順序,以便于學生充分理解主題。這些理論已經用簡單明了的數學語言進行了描述。這本書各方面都很完整。它將為主題提供一個完美的開端,對主題的完美理解,以及正確的解決方案的呈現。本書的基本特點是,概念已經用簡單的術語提出,并詳細解釋了解決過程。
這本書有10章。每一章由緊湊但徹底的理論、原則和方法的基本討論組成,然后通過示例進行應用。本書所介紹的所有理論和算法都通過大量的算例加以說明。這本書在理論和應用之間取得了平衡。第一章介紹圖。第一章描述了同構、完全圖、二部圖和正則圖的基本和初等定義。第二章介紹了不同類型的子圖和超圖。本章包括圖形運算。第二章還介紹了步行、小徑、路徑、循環和連通或不連通圖的基本定義。第三章詳細討論了歐拉圖和哈密頓圖。第四章討論樹、二叉樹和生成樹。本章深入探討了基本電路和基本割集的討論。第五章涉及提出各種重要的算法,在數學和計算機科學中是有用的。第六章的數學前提包括線性代數的第一個基礎。矩陣關聯、鄰接和電路在應用科學和工程中有著廣泛的應用。第七章對于討論割集、割頂點和圖的連通性特別重要。第八章介紹了圖的著色及其相關定理。第九章著重介紹了平面圖的基本思想和有關定理。最后,第十章給出了網絡流的基本定義和定理。
本書提供了分布式優化、博弈和學習的基本理論。它包括那些直接從事優化工作的人,以及許多其他問題,如時變拓撲、通信延遲、等式或不等式約束,以及隨機投影。本書適用于在動態經濟調度、需求響應管理和智能電網插電式混合動力汽車路由等領域使用分布式優化、博弈和學習理論的研究人員和工程師。
無線技術和計算能力的進步使得理論、模型和工具的發展成為必要,以應對網絡上大規模控制和優化問題帶來的新挑戰。經典的優化方法是在所有問題數據都可用于集中式服務器的前提下工作的。然而,這一前提不適用于由電力系統、傳感器網絡、智能建筑和智能制造等應用驅動的分布式環境中的大型網絡系統。在這樣的環境中,每個節點(agent)根據自己的數據(信息)以及通過底層通信網絡從相鄰的agent接收到的信息進行本地計算,從而分布式地解決大規模控制和優化問題。最終,集中式優化方法必然會走向衰落,從而產生一種新的分布式優化類型,它考慮了多個agent之間的有效協調,即所有agent共同協作,使一個局部目標函數之和的全局函數最小化。
本書研究了近年來分布式優化問題中的幾個標準熱點問題,如無約束優化、有約束優化、分布式博弈和分布式/分散學習等。為了強調分布式優化在這些主題中的作用,我們將重點放在一個簡單的原始(次)梯度方法上,但我們也提供了網絡中其他分布式優化方法的概述。介紹了分布式優化框架在電力系統控制中的應用。這本書自然主要包括三個部分。第一部分討論了分布式優化算法理論,共分為四章:(1)多智能體時滯網絡中的協同分布式優化;(2)時變拓撲多智能體系統的約束一致性;(3)不等式約束和隨機投影下的分布式優化;(4)隨機矩陣有向圖上的加速分布優化。第二部分作為過渡,研究了分布式優化算法理論及其在智能電網動態經濟調度問題中的應用,包括兩章:(5)時變有向圖約束優化的線性收斂性;(6)時變有向圖上經濟調度的隨機梯度推動。第三部分對分布式優化、博弈和學習算法理論進行了分析和綜合,本部分所有算法都是針對智能電網系統內的特定案例場景設計的。本部分共分三章:(7)智能微電網能源交易博弈中的強化學習;(8)不完全信息約束博弈的強化學習;(9)基于擁塞博弈的插電式混合動力汽車路徑選擇強化學習。其中,給出了仿真結果和實際應用實例,以說明前面提出的優化算法、博弈算法和學習算法的有效性和實用性。
《強化學習和隨機優化:序列決策的統一框架》是一本新書,它提供了一個統一框架,涵蓋了所有在不確定性下進行決策的社區(見jungle.princeton.edu)。這是第一本全面介紹這些領域的書,遵循了確定性優化和機器學習(但不是隨機優化)中長期使用的風格。
第一部分提供了基礎材料,其中大部分可以略讀。第1章提供了通用建模框架的概述,該框架涵蓋了任何序列決策問題,最困難的挑戰(對于大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規范化建模框架,這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章,了解已經采用的各種方法。有深度的讀者將在這些規范問題中的一個或多個方面有一定程度的專業知識,這將有助于在該問題和我們的框架之間提供一座橋梁。最后,第三章深入探討了在線學習。本章應該略讀,然后在需要時作為參考資料使用。
第二部分-隨機搜索-這些是隨機優化問題,可以使用自適應算法解決,其中唯一的信息鏈接迭代是關于函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數,以區別于我們在第三部分中開始處理的更一般的狀態依賴函數。
第三部分-狀態相關問題-這里我們過渡到更豐富的序列問題類,其中被優化的函數是狀態相關的。
第四部分-策略搜索-這些章節描述了必須調整的策略,無論是在模擬器中還是通過經驗。
第五部分-基于前瞻近似的策略-基于前瞻近似的策略是策略搜索派生的策略的對應。
第六部分-多智能體系統和學習-最后我們展示了如何擴展我們的框架來處理多智能體系統。
目錄內容:
Chapter 1 – Introduction
Chapter 2 – Canonical models and applications .
Chapter 3 – Online learning- Revised from ADP book
Chapter 4 – Introduction to stochastic search
Chapter 5 – Derivative-based stochastic optimization
Chapter 6 – Stepsize policies
Chapter 7 – Derivative-free stochastic optimization
Chapter 8 – State-dependent problems
Chapter 9 – Modeling sequential decision problems
Chapter 10 – Uncertainty modeling
Chapter 11 – Designing policies
Chapter 12 – Policy function approximations and policy search
Chapter 13 – Cost function approximations
Chapter 14 – Discrete Markov decision processes
Chapter 15 – Backward approximate dynamic programming
Chapter 16 – Forward ADP I: The value of a policy
Chapter 17 – Forward ADP II: Policy optimization
Chapter 18 – Forward ADP III: Convex functions
Chapter 19 – Direct lookahead policies
Chapter 20 – POMDPs, two-agent systems, and multiagent RL