亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著AlphaGo的突破,深度強化學習成為解決順序決策問題的公認技術。盡管深度強化學習有著良好的聲譽,但由于其試錯學習機制導致的數據效率低下,使得深度強化學習很難在廣泛的領域應用。樣本高效深度強化學習的方法有環境建模、經驗轉移和分布式修改等,其中分布式深度強化學習在人機博弈、智能交通等領域顯示出了巨大的應用潛力**

本文通過比較經典的分布式深度強化學習方法,研究實現高效分布式學習的重要組成部分,總結了這一激動人心的研究領域的現狀,從單一玩家單一智能體分布式深度強化學習到最復雜的多玩家多智能體分布式深度強化學習。此外,我們回顧了最近發布的有助于實現分布式深度強化學習的工具箱,而無需對其非分布式版本進行大量修改。在分析其優缺點的基礎上,開發并發布了多玩家多智能體分布式深度強化學習工具箱,并在復雜游戲環境Wargame上進行了進一步驗證,顯示了該工具箱在復雜游戲環境下多玩家多智能體分布式深度強化學習的可用性。最后,我們試圖指出分布式深度強化學習的挑戰和未來的發展趨勢,希望通過本文的簡要回顧可以為那些對分布式深度強化學習感興趣的研究者提供指導或啟發。

1.概述

隨著智能體AlphaGo[1],[2]的突破,在人機博弈中贏得了眾多專業圍棋棋手的勝利,深度強化學習(DRL)開始受到大多數研究人員的關注,成為一種公認的解決順序決策問題的技術。許多算法都是為了解決DRL與現實世界應用之間的挑戰性問題,如勘探和開發困境、數據效率低下、多智能體合作和競爭。在所有這些挑戰中,由于DRL的試錯學習機制需要大量的交互數據,數據效率低下是最受批評的。

為了緩解數據效率低下的問題,提出了幾個研究方向。例如,基于模型的深度強化學習構建環境模型,生成假想軌跡,以幫助減少與環境的交互時間。遷移強化學習從源任務中挖掘共享的技能、角色或模式,然后使用學到的知識來加速目標任務中的強化學習。受分布式機器學習技術(已成功應用于計算機視覺和自然語言處理[4])的啟發,開發了分布式深度強化學習(DDRL),該技術已顯示出訓練非常成功的智能體的潛力,如Suphx [5], OpenAI Five[6]和AlphaStar[7]。

通常,訓練深度強化學習智能體由兩個主要部分組成,即: 通過與環境交互拉動策略網絡參數生成數據,通過消費數據更新策略網絡參數。這種結構化模式使得分布式修改DRL成為可能,并且開發了大量的DDRL算法。例如,通用的強化學習體系結構[8]可能是第一個DDRL體系結構,它將訓練系統分為四個部分,即參數服務器、學習者、參與者和重放緩沖區,這激發了后續的數據效率更高的DDRL體系結構。最近提出的SEED RL[9]是IMPALA[10]的改進版本,據稱能夠每秒產生和消耗數百萬幀,基于此,AlphaStar在44天內(192 v3 + 12 128個核心tpu, 1800個cpu)成功訓練,擊敗了專業人類玩家。

為了使DRL的分布式修改能夠使用多臺機器,需要解決機器通信和分布式存儲等幾個工程問題。幸運的是,已經開發并發布了幾個有用的工具箱,將DRL的代碼修改為分布式版本通常需要少量的代碼修改,這在很大程度上促進了DDRL的發展。例如Uber發布的Horovod[11],充分利用了ring allreduce技術,相對于單一GPU版本,只需要增加幾行代碼就可以很好地使用多個GPU進行訓練加速。Ray[12]是UC Berkeley RISELab發布的一個分布式機器學習框架,它為高效的DDRL提供了一個RLlib[13],由于它的強化學習抽象和算法庫,使用起來很方便。

鑒于DDRL研究取得的巨大進展,梳理DDRL技術的發展歷程、面臨的挑戰和機遇,為今后的研究提供線索是十分必要的。最近,Samsami和Alimadad[14]對DDRL進行了簡要的回顧,但他們的目標是單玩家單智能體分布式強化學習框架,而缺乏更具挑戰性的多智能體多玩家DDRL。捷克[15]對強化學習的分布式方法進行了簡要的綜述,但只對幾種具體算法進行了分類,沒有討論關鍵技術、比較和挑戰。與以往的總結不同,本文通過比較經典的分布式深度強化學習方法,研究實現高效分布式學習的重要組成部分,進行了更全面的考察,從單一參與者單一智能體分布式深度強化學習到最復雜的多參與者多智能體分布式深度強化學習。

本文的其余部分組織如下。在第二節中,我們簡要介紹了DRL的背景、分布式學習和典型的DDRL測試平臺。在第3節中,我們詳細闡述了DDRL的分類。在第4節中,我們將比較當前的DDRL工具箱,這些工具箱在很大程度上幫助實現了高效的DDRL。在第5節中,我們介紹了一個新的多玩家多智能體DDRL工具箱,它為復雜游戲提供了一個有用的DDRL工具。在第6部分,我們總結了DDRL的主要挑戰和機遇,希望能啟發未來的研究。最后,我們在第7節對本文進行了總結。

2. 背景知識

強化學習是一種典型的機器學習范式,其本質是通過交互進行學習。在一般的強化學習方法中,智能體通過采取行動來驅動環境的動態,并接受獎勵來改進其追逐長期結果的策略,從而與環境進行交互。為了學習一個能夠進行順序決策的智能體,有兩種典型的算法,即學習算法。一種是不使用環境模型的無模型方法,另一種是使用預先給定或學習的環境模型的基于模型的方法。已經提出了大量的算法,讀者可以參考[16],[17]獲得更全面的回顧。 深度學習的成功離不開龐大的數據和計算能力,這就導致了對能夠處理數據密集型和計算密集型計算的分布式學習的巨大需求。由于深度學習算法的結構化計算模式,針對深度學習[20]、[21]的并行性,提出了一些成功的分布式學習方法。早期流行的分布式深度學習框架是由谷歌設計的DistBelief[22],其中提出了參數服務器和A-SGD的概念。谷歌基于DistBelief發布了第二代分布式深度學習框架Tensorflow[23],成為廣泛使用的工具。其他典型的分布式深度學習框架,如PyTorch、MXNet和Caffe2也被研究和工業團體開發和使用。

3. 分布式深度強化學習的分類法

目前已有大量的DDRL算法或框架,其代表有GORILA[8]、A3C[32]、APEX[33]、IMPALA[10]、Distributed PPO[34]、R2D2[35]、Seed RL[9]等,我們可以根據這些算法或框架繪制出DDRL的關鍵組成部分,如圖1所示。我們有時使用框架而不是算法或方法,因為這些框架不針對特定的強化學習算法,它們更像是各種強化學習方法的分布式框架。一般來說,一個基本的DDRL算法主要由三個部分組成,構成了一個單玩家單agent的DDRL方法:

行動者 Actor:通過與環境的交互產生數據(軌跡或梯度)。 * 學習者Learner: 使用數據(軌跡或梯度)執行神經網絡參數更新。 * 協調器 Coordinators: 協調數據(參數或軌跡),以控制學習者和行動者之間的交流。

行動者從學習者中提取神經網絡參數,從環境中接收狀態,并執行推理以獲得動作,這些動作將環境的動態驅動到下一個狀態。通過對多個參與者重復上述過程,可以提高數據吞吐量,并收集足夠的數據。學習者從行動者那里提取數據,進行梯度計算或后處理,并更新網絡參數。多個學習器可以通過使用多個GPU和諸如ring allreduce或參數服務器[11]等工具來緩解GPU的有限存儲。通過重復上述過程,可以得到最終的強化學習智能體。

協調器是DDRL算法的重要組成部分,它控制著學習者和行動者之間的通信。例如,當使用協調器同步參數更新和提取(由參與者)時,DDRL算法是同步的。當參數的更新和提取(參與者)不嚴格協調時,DDRL算法是異步的。因此,DDRL算法的基本分類可以基于協調器的類型。

  • 同步:全局策略參數的更新是同步的,策略參數的提取(行動者)是同步的,即不同的行動者共享最新的全局策略。
  • 異步:全局策略參數的更新是異步的,或者說策略更新(由學習者進行)和策略拉取(由行動者進行)是異步的,即行動者和學習者通常具有不同的策略參數。

利用上述基本框架,可以設計出一個單玩家單agent的DDRL算法。然而,當面對多個智能體或多個參與者時,基本框架無法訓練可用的強化學習智能體。基于目前支持AlphaStar[7]、OpenAI Five[6]和JueWU[36]等大型系統級AI的DDRL算法,構建多玩家和多agent DDRL需要兩個關鍵組件,即agent合作和玩家進化,如圖2所示:

基于多智能體增強學習算法[18],采用智能體協作模塊對多智能體進行訓練。通常,多智能體強化學習可以根據如何進行智能體關系建模分為獨立訓練和聯合訓練兩大類。

獨立訓練:通過將其他學習智能體視為環境的一部分,獨立地訓練每個智能體。

聯合訓練:將所有智能體作為一個整體進行訓練,考慮智能體通信、獎勵分配和分布式執行的集中訓練等因素。

玩家模塊進化是為每個玩家的智能體迭代而設計的,其中其他玩家的智能體同時學習,從而為每個玩家學習多代智能體,如AlphaStar和OpenAI Five。根據目前主流的玩家進化技術,玩家進化可以分為兩種類型:

  • 基于自玩:不同的玩家共享相同的策略網絡,玩家通過面對過去的版本來更新當前生成的策略。
  • 基于群體的游戲:不同的玩家有不同的策略網絡,或稱為群體,玩家通過對抗其他玩家或/及其過去的版本來更新當前世代的策略。

最后,基于上述DDRL的關鍵組件,DDRL的分類如圖3所示。下面,我們將根據代表性方法的主要特點,對其進行總結和比較。

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。

付費5元查看完整內容

摘要

深度強化學習因其在解決復雜的視頻游戲和工業應用方面的成功而引起了工業界和學術界的廣泛關注。最近,硬件和計算方面的進步成倍地增加了計算能力的可用性,促進了深度神經網絡的訓練。這些網絡可以從高維數據中學習RL行為策略,并且比精確的表格解決方案表現得更好,盡管需要相當多的計算機資源。

游戲是評估強化學習(RL)算法的行為特性和規劃效率最常用的應用之一。它們可以提供訓練深度學習模型所需的數據結構和數量。專門制作的游戲可以表達現實世界的工業應用,以減少設置成本,同時大幅提高可重復性。RL可以提高專家系統占主導地位的工業應用的效率,減少人工和潛在的危險勞動。應用工業強化學習的問題是,傳統方法是通過試驗和錯誤來學習。正因為如此,RL智能體在學習過程中存在遇到災難性事件的風險,這可能會對人類或設備造成損害。因此,使用游戲來訓練和研究安全的RL智能體很有吸引力。

即時戰略(RTS)游戲由于其高維的狀態和行動空間而特別吸引人。此外,RTS游戲與工業和現實世界的應用有許多共同的屬性,如同時行動、不完美信息和系統隨機性。最近的進展表明,無模型RL算法可以在《星際爭霸II》這樣的游戲中學習到超人的表現,同樣使用了大量的計算能力。因此,缺點是這些算法昂貴且難以訓練,使得將同樣的方法用于工業應用具有挑戰性。在開源環境中也有大量的狀態空間復雜性的差距。這就限制了算法的評估,使其只適用于工業應用中充分操作所需的任務子集。

游戲環境:本論文通過提出六個新的游戲環境來解決環境差距問題,以評估幾個任務中的RL算法。Deep Line Wars和Deep RTS是兩個新的RTS環境,用于測試不完美信息下長期規劃的算法。Deep Maze是一個靈活的迷宮環境,用于學習RL智能體從記憶中導航迷宮。Deep Warehouse是一個專門制作的環境,用于評估自動存儲和檢索系統(ASRS)中RL算法的安全性,這也是本論文的唯一重點。ASRS有自主車輛,在一個三維網格中尋求最大的物品吞吐量。擬議環境的設計目標是為RL算法的評估提供大量的額外問題。因此,所有的環境都提供了調整問題復雜性的參數和一個靈活的場景引擎,可以挑戰各種問題的算法,如記憶和控制。我們的經驗表明,我們的環境比類似復雜度的環境在計算上明顯更有效率。提出的環境的多樣性可以幫助填補文獻中的復雜性空白。我們最后介紹了用于高性能RL研究的人工智能和強化學習中心(CaiRL)工具包,它在一個單一的運行時間內收集了所有提議的環境。

基于模型的RL:本論文還介紹了新的節能、高性能的RL算法,用于RTS游戲和使用所介紹的環境的工業近似模擬。無模型強化學習在模擬環境中顯示出有希望的結果,但對于工業應用來說是不夠的。他們需要收集數以百萬計的樣本并通過試驗和錯誤來學習。相反,基于模型的強化學習(MBRL)利用已知的或學到的動力學模型,可以大幅提高樣本效率。因此,與無模型的RL方法相比,基于模型的RL在工業應用中是一個更穩健的研究選擇。目前基于模型的RL文獻顯示,基于深度學習的模型表現最好,但也有一些不足之處。深度學習模型通常對超參數很敏感,真實環境的輕微變化都會顯著影響模型的準確性。此外,現有的模型在推導行為策略時并不考慮安全或風險,這使得此類方法在工業應用中存在問題。

這篇論文解決了其中的一些挑戰,并提出了新的基于模型的強化學習方法,這些方法注重決策安全和樣本效率。我們的算法,Dreaming變分自動編碼器(DVAE),深度變分 Q 網絡(DVQN)和觀察獎勵行動成本學習集成(ORACLE),結合了基于模型的RL和改進貝葉斯方法來訓練現有和擬議環境中的動力學模型。DVAE算法使用遞歸神經網絡和變異自動編碼器來學習動力學模型,并在原始環境中顯示出有效性。DVQN使用變異自動編碼器和深度Q網絡來實現可解釋和可分離的潛在空間,并有助于分層強化學習中的自動選項發現。最后,ORACLE結合了狀態空間、遞歸神經和隨機神經網絡。該算法顯示了最先進的預測能力,同時使用輔助的安全目標進行更安全的學習。

然后,我們利用動力學模型的優勢,離線訓練無模型算法。此外,我們利用風險導向的探索和好奇心來建立對風險敏感的智能體,以提高游戲和工業應用的決策安全性。我們的經驗表明,我們的方法在大多數情況下比最先進的無模型和基于模型的算法在傳統的RL基準、RTS游戲和模擬的工業應用中表現更好。

總而言之,我們相信本論文中提出的游戲環境、RL方法和研究將推動所課題中最先進的研究,并為在工業應用中實現基于模型的RL做出積極的貢獻。

論文大綱

本學位論文由兩部分組成。第一部分概述了整個博士學習期間所進行的工作。第二部分包括代表本論文主要貢獻的出版物和在審文章,見貢獻清單。本論文的其余部分結構如下。

第二章:背景介紹了本論文中使用的技術的背景文獻。這包括馬爾科夫決策過程、強化學習、安全強化學習和各種深度學習建模技術。

第三章:文獻綜述介紹了強化學習的科學進展的全面文獻綜述,這些文獻激勵并啟發了我們的貢獻。我們研究的關鍵詞是基于模型的、安全的、環境的、目標導向的RL、可解釋的RL,以及,分層的RL。

第四章:軟件貢獻和評估描述了我們對新型強化學習環境的科學軟件貢獻。我們提出了新的環境,以填補目前最先進的狀態復雜性的差距,并討論了我們的動機,設計規范,并提供基線結果和評估。

第五章:算法貢獻介紹了我們在RTS游戲中基于安全模型的強化學習的新技術的主要貢獻,以實現一個功能性的工業級強化學習解決方案。具體來說,我們介紹了開展這項工作的動機,并描述了我們算法的細節。我們提供了在實驗中導致最佳結果的超參數,并總結了算法的貢獻。

第六章:貢獻評估使用提議的軟件貢獻實證評估我們的算法貢獻,包括強化學習文獻中最先進的環境。每一節都提出了一個假設,我們的目標是在實驗和評估中解決這個問題。

第七章:結論和未來的工作結束了本論文的第一部分,并討論了進行了博士工作的最終成就。最后,我們概述了未來的研究方向,這些方向有可能改進本論文中提出的工作。

第二部分介紹了博士工作期間的全部出版物。這些論文按時間順序排列,大致代表本論文的流程。研究進展的詳細圖示見圖1.1。

圖1.1:顏色代碼說明了以下主題。藍色說明了新的研究環境的貢獻,灰色是可解釋性和層次性RL(選項)。紫色表示安全強化學習,黃色代表目標導向強化學習的工作。最后,綠色是我們在基于模型和安全RL方面的主要貢獻。

付費5元查看完整內容

南京大學最新《基于模型的強化學習》綜述論文,值得關注!

強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功,但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差,基于模型的強化學習(MBRL)被認為是一個有前途的方向,它建立的環境模型中可以進行試錯,而不需要實際成本。本文對MBRL的研究現狀進行了綜述,并著重介紹了近年來研究的進展。對于非表格環境,學習到的環境模型與實際環境之間存在泛化誤差。因此,分析環境模型中策略訓練與實際環境中策略訓練的差異,對算法設計、模型使用和策略訓練具有重要的指導意義。此外,我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外,我們還討論了MBRL在實際任務中的適用性和優勢。最后,我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢,但這些優勢往往被忽視,希望本文的綜述能夠吸引更多關于MBRL的研究。

強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應用范圍擴展到現實任務中是非常有意義的。通常,深度RL算法需要大量的訓練樣本,導致樣本復雜度很高。在一般的RL任務中,特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地,與監督學習范式從歷史標記數據中學習不同,典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新,基礎數據分布(正式的入住率測量[Syed et al., 2008])就會發生變化,必須通過運行策略再次收集數據。因此,具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中,因為在這些任務中,試錯代價很高。

因此,近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中,基于模型的強化學習(MBRL)是最重要的方向之一,人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al., 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發生可以被預測。通過這種方式,可以根據想象選擇適當的行動,這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。

在MBRL中,環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態轉移動力學,R: S × A→R表示獎勵函數。通常情況下,給定狀態和行為空間以及折扣因子,環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此,學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下,獎勵函數也被明確定義,因此模型學習的主要任務是學習狀態轉移動力學[Luo et al., 2018, Janner et al., 2019]。

有了環境模型,智能體就有了想象的能力。它可以與模型進行交互,以便對交互數據進行采樣,也稱為仿真數據。理想情況下,如果模型足夠準確,可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環境的交互中采樣的數據,稱為經驗數據,MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經驗數據,如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數據來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區中收集歷史數據,在重放緩沖區中學習策略。在行動者-評論者RL中,如1(c)所示,智能體學習評論者,其是長期回報的價值函數,然后學習批評者輔助的策略(行動者)。如圖1(d)所示,MBRL顯式地學習一個模型。與策略外RL相比,MBRL重構了狀態轉移的動態過程,而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息,但MBRL中的學習模型與策略解耦,因此可以用于評估其他策略,而價值函數與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結構,圖1(e)顯示了它們的可能組合。

RL算法的體系結構。圖中顯示了RL的訓練迭代,重點是如何利用交互數據。

通過足夠準確的模型,可以直觀地看到MBRL比MFRL產生更高的樣本效率,這一點在最近的理論研究[Sun el.,2019年]和經驗研究[Janner et al.,2019年,Wang et al.,2019年]的視角都表明了這一點。然而,在大量具有相對復雜環境的DRL任務中,要學習一個理想的模型并非易事。因此,我們需要仔細考慮模型學習和模型使用的方法。

在這一綜述中,我們對基于模型的強化學習方法進行了全面的綜述。首先,我們關注模型是如何在基本設置中學習和使用的,如第3節的模型學習和第4節的模型使用。對于模型學習,我們從經典的表格表示模型開始,然后使用神經網絡等近似模型,我們回顧了在面對復雜環境時的理論和關鍵挑戰,以及減少模型誤差的進展。對于模型的使用,我們將文獻分為兩部分,即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務,我們還討論了在模型學習和模型使用之間建立橋梁的嘗試,即價值感知模型學習和策略感知模型學習。此外,我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合,包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后,我們對MBRL的研究前景和未來發展趨勢進行了展望。

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容

論文題目

視頻游戲中深度強化學習的研究綜述,A Survey of Deep Reinforcement Learning in Video

論文摘要

摘要深度強化學習(DRL)自提出以來取得了很大的成就。通常,DRL代理在每個步驟都接收高維輸入,并根據基于深度神經網絡的策略進行操作。這種學習機制通過端到端的方法更新策略以最大化回報。本文綜述了DRL方法的研究進展,包括基于價值的方法、基于策略梯度的方法和基于模型的方法,比較了它們的主要技術和性能,并指出DRL在智能游戲中的重要作用。我們還回顧了DRL在各種電子游戲中的成就,包括經典的街機游戲、第一人稱視角游戲和多智能體實時戰略游戲,從2D到3D,從單智能體到多智能體,大量帶有DRL的電子游戲AIs都取得了超人的性能,在這個領域還有一些挑戰。因此,我們還討論了將DRL方法應用于該領域的一些關鍵點,包括探索性開發、樣本效率、泛化和遷移、多智能體學習、不完全信息和延遲備用研究,以及一些研究方向。

論文作者

Kun Shao, Zhentao Tang, Yuanheng Zhu,IEEE成員。Nannan Li, Dongbin Zhao,IEEE資深會員。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司