亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要: 強化學習作為一種用于解決無模型序列決策問題的方法已經有數十年的歷史, 但強化學習方法在處理高維變量問題時常常會面臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為復雜高維的多智能體系統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習系統的閉環控制框架, 分析了多智能體深度強化學習中存在的若干重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最后提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控制系統提供一些思路.

付費5元查看完整內容

相關內容

多智能體系統(multi-agent system,MAS) 是一種全新的分布式計算技術。自20 世紀70年代出現以來得到迅速發展,目前已經成為一種進行復雜系統分析與模擬的思想方法與工具。

多智能體深度強化學習中的Q值路徑分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺

簡介:

近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

方法:

  • 在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。

  • 在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。

  • 使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。

效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。

付費5元查看完整內容

主題: Multi-Agent Determinantal Q-Learning

摘要: 具有分散執行力的集中訓練已成為多主體學習中的重要范例。盡管可行,但是當前的方法依賴于限制性假設來分解跨執行主體的集中價值函數。在本文中,我們通過提出多智能體確定性Q學習來消除這種限制。我們的方法是基于Q-DPP,這是一種將確定性點過程(DPP)擴展到多智能體設置的新方法。 Q-DPP促進代理商獲取多種行為模式;這允許對聯合Q函數進行自然分解,而無需對值函數或特殊網絡體系結構進行先驗結構約束。我們證明Q-DPP在可分散合作任務上概括了包括VDN,QMIX和QTRAN在內的主要解決方案。為了有效地從Q-DPP提取樣本,我們開發了具有理論近似保證的線性時間采樣器。在訓練過程中,我們的采樣器還通過協調代理覆蓋狀態空間中的正交方向而受益于探索。我們在多個合作基準上評估我們的算法;與最新技術相比,我們算法的有效性得到了證明。

付費5元查看完整內容

最新的技術進步提高了交通運輸的質量。新的數據驅動方法為所有基于控制的系統(如交通、機器人、物聯網和電力系統)帶來了新的研究方向。將數據驅動的應用與運輸系統相結合在最近的運輸應用程序中起著關鍵的作用。本文綜述了基于深度強化學習(RL)的交通控制的最新應用。其中,詳細討論了基于深度RL的交通信號控制(TSC)的應用,這在文獻中已經得到了廣泛的研究。綜合討論了TSC的不同問題求解方法、RL參數和仿真環境。在文獻中,也有一些基于深度RL模型的自主駕駛應用研究。我們的調查廣泛地總結了這一領域的現有工作,并根據應用程序類型、控制模型和研究的算法對它們進行了分類。最后,我們討論了基于深度可編程邏輯語言的交通應用所面臨的挑戰和有待解決的問題。

付費5元查看完整內容

人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。

付費5元查看完整內容

深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司