發現在多機器人協調技術的最新發展與這個深刻的和原始的資源 多智能體協調:強化學習方法提供了一個全面、深刻和獨特的處理多機器人協調算法的開發,與傳統算法相比,計算負擔最小,存儲需求更低。有成就的學者、工程師和作者為讀者提供了多機器人協調的高層次介紹和概述,以及基于學習的規劃算法的深入分析。 您將了解如何加速對團隊目標的探索,以及通過確定團隊首選的聯合行動來加快TMAQL收斂的替代方法。作者還提出了共識q學習的新方法,解決了均衡選擇問題。最后,本書總結了這一快速發展領域的未來研究的可能方向。
讀者將發現多智能體協調的前沿技術,包括:
這本書是對卡內基梅隆大學Drew Bagnell在自適應控制和強化學習課程(2010,11,14),Byron Boots在佐治亞理工大學(2019)和Sanjiban Choudhury在康奈爾大學(2022)所做課堂筆記的編輯合集。我們感謝Chris Atkeson共同講授了這門課的第一個實例,并塑造了我們在這里思考問題的方式。這本書——以及它所依據的類——旨在提供一套實用工具,為機器與世界的交互構建決策程序。我們的應用程序從視頻游戲和網絡搜索到機器人操作和自動駕駛汽車。這個領域是廣闊的,所以我們的觀點必然是狹隘的。我們明確地不做嚴格的嘗試,而是專注于直覺和建立這種直覺的非正式數學論證,以及我們在艱難的決策問題上多次看到的技術。我們試圖概括出我們在實踐中最有可能采用的技術和思維方式。在整個過程中,我們試圖指出嚴格的衍生和原始文獻的主題。這些筆記的設計基于概率的基本技術(條件概率、條件獨立、高斯、積分技術、貝葉斯方法和推斷、濾波和時間序列模型)、線性代數(計算和基本線性分析)、優化(梯度、Hessians、度量、Krylov子空間)和機器學習(泛化、優化、無后悔/在線學習、反向傳播和核方法)。
這篇文章是關于實踐中的強化學習領域的溫和討論,關于機會和挑戰,涉及廣泛的主題,有觀點,沒有技術細節。本文基于歷史和最近的研究論文、調查、教程、談話、博客、書籍、(小組)討論和研討會/會議。不同的讀者群體,如研究人員、工程師、學生、經理、投資者、官員和想要更多地了解該領域的人,可能會發現這篇文章很有趣。在本文中,我們首先簡要介紹了強化學習(RL),以及它與深度學習、機器學習和人工智能的關系。然后,我們討論了RL的機會,特別是產品和服務、游戲、博弈、推薦系統、機器人、交通、金融和經濟、醫療保健、教育、組合優化、計算機系統和科學與工程。然后我們討論挑戰,特別是1)基礎 ,2)表示,3)獎勵,4)勘探、5)模型,模擬、規劃、和基準, 6)離線策略/離線學習,7)學會學習又名元學習,8)explainability和可解釋性,9)限制,10)軟件開發和部署,11)業務視角,還有更多的挑戰。我們以討論結束,試圖回答:“為什么RL還沒有在實踐中被廣泛采用?”和“在線學習什么時候有用?”
【干貨書】Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師,“Reinforcement Learning: Theory and Algorithms(2022版)”(強化學習:理論與算法 2022版),205頁pdf
該RL理論專著以美國伊利諾伊大學香檳分校Nan Jiang教授和華盛頓大學Sham Kakade教授的課程筆記為基礎的RL理論專著,筆記正在積極更新。
三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。
Alekh Agarwal:目前是谷歌學習理論團隊的一名研究員。在那之前,在微軟研究院度過了9年的美好時光,是紐約實驗室機器學習小組的成員,后來領導了雷德蒙德的強化學習小組。在加州大學伯克利分校獲得了計算機科學博士學位。
強化學習(RL)將成為未來10年人工智能領域最大的突破之一,使算法能夠從環境中學習以實現任意目標。這一令人興奮的發展避免了傳統機器學習(ML)算法中的限制。這本實用的書向數據科學和人工智能專業人士展示了如何通過強化學習,讓機器自己學習。
Winder研究的作者Phil Winder涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,并從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,并希望熟悉ML。
目錄內容: Preface
這本書通過探索計算機科學理論和機器學習雙方可以相互傳授的內容,將理論和機器學習聯系起來。它強調了對靈活、易于操作的模型的需求,這些模型更好地捕捉使機器學習變得容易的東西,而不是讓機器學習變得困難的東西。
理論計算機科學家將被介紹到機器學習的重要模型和該領域的主要問題。機器學習研究人員將以一種可訪問的格式介紹前沿研究,并熟悉現代算法工具包,包括矩法、張量分解和凸規劃松弛。
超越最壞情況分析的處理方法是建立對實踐中使用的方法的嚴格理解,并促進發現令人興奮的、解決長期存在的重要問題的新方法。
在這本書中,我們將涵蓋以下主題:
(a)非負矩陣分解
(b)主題建模
(c)張量分解
(d)稀疏恢復
(e)稀疏編碼
(f)學習混合模型
(g)矩陣補全
本書涵蓋了這些領域中使用Python模塊演示的概率、統計和機器學習的關鍵思想。整本書包括所有的圖形和數值結果,都可以使用Python代碼及其相關的Jupyter/IPython Notebooks。作者通過使用多種分析方法和Python代碼的有意義的示例,開發了機器學習中的關鍵直覺,從而將理論概念與具體實現聯系起來。現代Python模塊(如panda、y和Scikit-learn)用于模擬和可視化重要的機器學習概念,如偏差/方差權衡、交叉驗證和正則化。許多抽象的數學思想,如概率論中的收斂性,都得到了發展,并用數值例子加以說明。本書適合任何具有概率、統計或機器學習的本科生,以及具有Python編程的基本知識的人。