亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

多智能體強化學習 (RL) 解決了每個智能體應該如何在多個智能體同時學習的隨機環境中表現最佳的問題。它是一個歷史悠久的跨學科領域,位于心理學、控制理論、博弈論、強化學習和深度學習的聯合領域。繼 AlphaGO 系列在單智能體 RL 中取得顯著成功之后,2019 年是蓬勃發展的一年,見證了多智能體 RL 技術的重大進步;在開發許多具有挑戰性的任務(尤其是多人視頻游戲)上,勝過人類的人工智能已經取得了令人矚目的突破。盡管如此,多智能體 RL 技術的主要挑戰之一仍是可擴展性。設計高效的學習算法來解決包括遠多于兩個智能體 (N2) 的任務仍然不是一件容易的事,我將其命名為大量智能體強化學習 (many-agent reinforcement learning,MARL) 問題。

在本論文中,我從四個方面對解決MARL問題做出了貢獻。首先,我從博弈論的角度提供了多智能體 RL 技術的獨立概述。該概述填補了大多數現有工作要么未能涵蓋自 2010 年以來的最新進展,要么沒有充分關注博弈論的研究空白,我認為博弈論是解決多智能體學習問題的基石。其次,我在多智能體系統中開發了一種易于處理的策略評估算法——的關鍵優勢在于它可以在多人廣義和博弈中輕松計算 α-Rank 的解概念,而無需存儲整個收益矩陣。這與經典的解概念形成對比,例如納什均衡,即使在兩人的情況下也被認為是 PPAD 難的。讓我們第一次能夠實際進行大規模的多智能體評估。第三,我在多智能體系統中引入了一種可擴展的策略學習算法——平均場 MARL。平均場 MARL 方法利用了物理學中的平均場近似,它是第一個試圖打破 MARL 任務維數詛咒的可證明收斂的算法。使用所提出的算法,我給出了通過 MARL 方法解決 Ising 模型和多智能體戰斗博弈的第一個結果。第四,我研究了開放式元博弈(即策略空間中的博弈)中的多智能體學習問題。具體來說,我專注于對元博弈中的行為多樣性進行建模,并開發保證在訓練期間擴大多樣性的算法。所提出的基于行列式點過程的度量,是多樣性的第一個數學嚴格定義。重要的是,多樣性感知學習算法在可利用性方面大大擊敗了現有的最先進的博弈求解器。

除了算法開發之外,我還貢獻了 MARL 技術的兩個實際應用。具體來說,我展示了MARL的巨大應用潛力, 研究了自然界中涌現的人口動態,并為自動駕駛中的多樣化和現實交互建模。這兩個應用程序都體現了 MARL 技術可以在純視頻游戲之外的真實物理世界中產生巨大影響的前景。

MARL的重大挑戰

與單智能體 RL 相比,多智能體 RL 是一個通用框架,可以更好地匹配現實世界 AI 應用的廣泛范圍。然而,由于存在同時學習的多個智能體,除了單智能體 RL 中已經存在的那些之外,MARL 方法還提出了更多的理論挑戰。與通常有兩個智能體的經典 MARL 環境相比,解決大量智能體 RL 問題更具挑戰性。事實上,1 組合復雜性、2 多維學習目標、3 非平穩性問題,都導致大多數 MARL 算法能夠解決只有兩個玩家的博弈,特別是兩個玩家的零和博弈。

本文的結構及貢獻

本論文主要圍繞大量智能體強化學習的研究課題。我為這個主題貢獻的方法位于圖 1.8 中列出的三個研究領域:它們是博弈論,它提供了現實且易于處理的解決方案概念來描述大量智能體系統的學習結果; RL 算法,提供可證明的收斂學習算法,可以在順序決策過程中達到穩定和合理的均衡;最后是深度學習技術,它提供了學習算法表達函數逼近器。

圖 1.8:本論文的研究范圍包括三個支柱。深度學習是學習過程中強大的函數逼近工具。博弈論提供了一種描述學習成果的有效方法。 RL 提供了一種有效的方法來描述多智能體系統中智能體的激勵。

圖 1.9:本文后續章節的結構,與列出的三個挑戰(1 組合復雜性、2 多維學習目標、3 非平穩性)相關,每章都試圖解決這些挑戰。

以下各章的結構和貢獻如下(另請參見圖 1.9):

  • 第 2 章:由于 MARL 的可擴展性問題深深植根于其博弈論基礎,在本章中,我將首先概述現代 MARL 方法的博弈論方面,以及最近的進展。我相信這個概述是對社區的重要貢獻,因為大多數現有調查要么不關注博弈論,要么就遺漏了自 2010 年以來的大多數近期文獻而過時。第 1 章和第 2 章構成了 MARL 的獨立專著。該專著的目標是從博弈論的角度對當前最先進的 MARL 技術進行專門評估。我希望這項工作能夠為即將進入這個快速發展領域的新研究人員和想要獲得全景,并根據最新進展確定新方向的現有領域專家提供基礎。

  • 第 3 章:本章提供了 MARL 技術在理解 AI 智能體的新興種群動態方面的應用。本章的目標是在我介紹方法學發展之前作為開篇,展示 MARL 方法的巨大潛力。具體來說,在這項工作中,我將 RL 智能體放入模擬的捕食者-獵物世界中,并驗證自然界中開發的原理是否可用于理解人工創造的智能種群,反之亦然。這項工作的主要貢獻在于,它啟發了許多人口生物學家和計算生物學家,在對宏觀生物學研究中的自利智能體進行建模時,為他們提供了一種基于 MARL 的新方法。

  • 第 4 章:本章介紹了一種新的大量智能體系統策略評估方法:是 α-rank 的隨機變體,是一種新穎的解概念,在多人廣義和博弈中具有多項式時間解。的一個主要好處是,人們現在可以輕松地評估大型多智能體系統(即多人廣義和博弈),例如,具有聯合策略配置文件的多智能體系統只需一臺機器;這與計算納什均衡相反,即使在兩人的情況下,這也是眾所周知的 PPAD-hard。

  • 第 5 章:在本章中,我將重點解決大量智能體系統中策略學習的核心問題。具體來說,我提出了平均場 MARL (MFMARL) 方法,該方法利用了物理學中平均場近似的經典思想。 MF-MARL 通過僅??考慮總體的平均效應,有效地將大量智能體學習問題轉化為雙智能體問題。使用 MF-MARL 方法,可以有效地訓練數百萬智能體來解決大型合作博弈。我測試了 MF-MARL 算法來解決 Ising 模型,這是一個眾所周知的物理學難題,因為它的組合性質,并得出了第一個基于 MARL 的 Ising 模型解。總的來說,本章的主要貢獻是提供了第一個可證明收斂的可擴展 MARL 算法,并證明了它在遠不止兩個智能體的場景中的有效性。

  • 第 6 章:本章研究開放式元博弈(即策略級別的博弈,也稱為聯盟訓練或自動課程)中的大量智能體學習問題,其中行為多樣性是一個關鍵但尚未充分探索的主題。本章為策略空間中的行為多樣性提供了第一個數學上嚴格的定義,并提出了被證明可以在策略訓練期間擴大多樣性的學習算法。零和博弈的經驗結果表明,所提出的方法在很大程度上優于現有的最新技術。這項研究可能會產生重大的經濟影響,因為所提出的算法可以直接插入到開發游戲 AI 的聯盟訓練中(例如,訓練能夠在撲克游戲中擊敗人類玩家的 AI 群體)。

  • 第 7 章:除第3章外,本章介紹MARL的第二種應用,即自動駕駛(AD)。我展示了使用 MARL 技術來模擬 AD 中現實和多樣化的多智能體交互的巨大潛力。具體來說,我介紹了 SMARTS 平臺:第一個專門支持 RL 和 MARL 訓練的 AD 模擬器。基于 SMART,我分享了一個藍天理念,即在 MARL 中創建多樣化的自動課程是在 AD 中建模現實交互的關鍵。我詳細闡述了多樣化自動課程的必要性,并列出了應用這種技術的四個開放挑戰。本章的貢獻有兩方面:首先,我展示了 MARL 技術可以在真實的物理世界中產生有影響力的應用,而不是純粹的視頻游戲;其次,我向 AD 中的研究人員介紹了一種新方法,以便他們能夠生成當前缺失的高質量交互。

  • 第8章:在最后一章中,我總結了這篇論文,并提出了四個未來的研究方向;它們是深度 MARL 理論、安全魯棒的 MARL、基于模型的 MARL 和多智能體元 RL。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

A Theory of Abstraction in Reinforcement Learning.

論文鏈接://david-abel.github.io/thesis.pdf

強化學習定義了學習僅通過行動和觀察做出好的決策的智能體所面臨的問題。要成為有效的問題解決者,這些智能體必須有效地探索廣闊的世界,從延遲的反饋中獲得 credit,并歸納出新的經驗,同時利用有限的數據、計算資源和感知帶寬。抽象(abstraction)對于所有這些努力都是必不可少的。通過抽象,智能體可以搭建起關于其環境的簡潔模型,這些模型支持一個合理的、適應性強的決策者所需的許多實踐。

在這篇論文中,作者提出了一個強化學習中的抽象理論。具體來說,他首先提供了實現抽象過程的函數的三個要求。它們應該:1)保持接近最佳行為的表示;2 該被有效地學習和構造;3)減少規劃或學習時間。

接下來,他提出了一套新的算法和分析結果,闡明了智能體如何能夠根據這些需求學習抽象。

總的來說,這些結果提供了發現和使用抽象的部分路徑,最小化了有效強化學習的復雜性。

付費5元查看完整內容

盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

強化學習算法被廣泛的認為可以分為兩大類:無模型(Model-Free)的算法和基于模型(Model-Based)的算法。無模型的算法在過去一段時間在許多任務中已經取得了巨大的進步,這包括了機器人,視頻游戲等。盡管這類算法取得了巨大的成功,但是由于其較高的采樣復雜度,即需要與測試任務和環境進行大量的交互,生成樣本,從而學習得到效果較好的策略,這使得無模型的強化學習算法難以應用到大量的實際場景問題中,而僅僅應用在具有仿真環境的問題當中。

而通過學習一個近似環境的參數化的模型(Model),進而進一步幫助策略的學習的這類算法,被稱為基于模型的算法,使得其相比無模型算法可以大大降低采樣復雜度。本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

主題: Representations for Stable Off-Policy Reinforcement Learning

摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。

付費5元查看完整內容

強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。

本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。

付費5元查看完整內容

書名題目

強化學習:理論與算法(Reinforcement Learning: Theory and Algorithms)

籍簡介

本書由Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師親自執筆,為2019關于強化學習的最新書籍之一,三位作者來自于強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對于剛從事RL的學者,可謂及時雨,神筆之作。

書籍作者

Alekh Agarwal,目前是微軟研究人工智能的研究員,在那里我領導強化學習研究小組。此前,在加州大學伯克利分校獲得計算機科學博士學位后,曾在微軟研究院紐約實驗室度過了六年時光,與彼得·巴特利特和馬丁·溫瑞格一起工作。 Sham M. Kakade ,研究機器學習和人工智能的數學基礎,重點是設計可證明的高效和實用的算法,這些算法與廣泛的范例相關。試圖利用這些進步來幫助在核心人工智能問題上取得進展。目前的興趣包括:強化學習和控制表征學習和自然語言處理和記憶。

付費5元查看完整內容
北京阿比特科技有限公司