亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Setting the Variance of Multi-Agent Policy Gradients

策略梯度方法是常見的強化學習方法之一,其中基線函數通常用于減少梯度估計的方差。在多智能體強化學習中,雖然策略梯度定理可直接被擴展使用,但隨著梯度估計的方差隨著智能體數量的增加而迅速增加,多智能體策略梯度方法的性能會逐漸惡化。本文中,我們首先通過量化智能體數量及各智能體探索對多智能體策略梯度估計方差的貢獻,對策略梯度方法進行了嚴格的分析。基于此分析,可獲得實現最小方差的最佳基線函數。進而我們測量了現有多智能體強化學習算法如vanilla MAPG和COMA的過量方差。考慮到現有方法大多使用深度神經網絡,為此我們提出了可以直接與現有多智能體強化學習策略梯度方法相兼容的代理最優基線函數。在多智能體MuJoCo和星際爭霸基線任務上,所提方法有效地穩定了訓練過程,并顯著提高了MAPPO和COMA算法的性能。

//www.zhuanzhi.ai/paper/44143cf9491f61bb2ca14e5c6a0abe27

付費5元查看完整內容

相關內容

?姚班2018級本科生周潤龍作為共同第一作者完成的論文《Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret》被2021年神經信息處理系統進展大會(NeurIPS 2021)接收并評為焦點(Spotlight)論文。本年度大會上獲得該榮譽的論文占總提交論文數不足3%。該論文研究了理論強化學習中最為根本的問題——馬爾科夫決策過程隨機最短路問題(SSP-MDP),并得出了理論最優的算法。

//www.zhuanzhi.ai/paper/616680d5758b82a133a4ce3dc4e540b9

由于其普適性,馬爾科夫決策過程是理論強化學習領域中最受關注的問題模型。在這類問題中,人工智能可以將其所在的環境抽象成一個馬爾科夫鏈,即用狀態、操作、轉移狀態、回報刻畫。在不知道每個操作的轉移狀態和回報的情況下,人工智能需要在K輪學習后最優化某個特定目標。理論研究最為深入的MDP通常假設人工智能一輪只能走固定、有限的步數,或者假設回報隨著步數增長呈指數衰減,這樣的假設過于強大,以至于生活中的另一些基本問題不能被很好地表示。隨機最短路(SSP)問題則沒有上述假設,而采用了一個較弱的假設,即假設按照最優策略執行的人工智能,其一輪的期望總代價不超過一個特定值B*,同時期望步數不超過另一個特定值T*。同時,SSP的目標為搜尋到一個特定狀態的最小總代價,這也與人們以目標為導向的行為方式更加吻合。采用遺憾刻畫算法的優劣,即前K輪所花的實際代價減去K倍最優代價。

????該論文提出了SSP問題的三點要求:(1)最小化最劣情況下的遺憾,由信息論推知下界為Ω(B√(SAK)),依照理論強化學習慣例,可以忽略對數項和與K無關的項;(2)算法的執行不需要事先知道參數B和T*,實際情況中人工智能也是不可能知道這兩個參數的;(3)忽略對數項后,遺憾與T無關,因為T可能會比B大任意多倍。該論文與另一篇同時投稿的論文分別獨立提出了滿足要求(1)的不同算法,而該論文的獨有貢獻在于提出了滿足要求(2)的通用算法。最后,該論文中的算法還能以犧牲要求(2)中的T換取要求(3),而同時滿足三點要求的算法是否存在目前仍是開放性問題。

????對于要求(1),該論文提出的算法基于樂觀估計、值迭代的有限時間近似收斂來保證運行效率和遺憾上界。樂觀估計部分用到了上確信界的思路,通過引入統計量方差來獲得較同領域前作更精細的分析方式。該論文通過構造一個新式的貝爾曼算子來保證值迭代的單調、收斂。基于這兩點,該論文將遺憾分解為貝爾曼誤差和統計誤差,并通過遞歸(推)的方式得到方差總和的上界,從而證明遺憾上界。對于要求(2),該論文的通用算法核心對于B的估計。只要給定一個滿足要求(1)的算法,通用算法可以通過定期比較其實際總代價與估計B的遺憾上界來自適應調整B的估計值。對于遺憾上界的估計需要精細構造常數以及對數項。由于零代價環的存在,需要對對代價增加微小擾動來保證算法的執行效率,而代價就是會在小項上引入T。如果事先知道關于T*的階的正確估計,那么就可以精細地計算擾動值來滿足要求(3)。

付費5元查看完整內容

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.

//xwxt.sict.ac.cn/CN/volumn/current_abs.shtml#

付費5元查看完整內容

作為一種新穎的范式,可以讓智能體以完全不與環境交互的方式快速適應新的未知任務,極大地提升了強化學習算法在真實世界中的應用范圍和價值。圍繞這一問題目前的相關研究還較少,并且有兩個主要的技術難點。其一,離線強化學習中通常會因為訓練數據與所學習策略的狀態-動作對的分布偏移而產生較大誤差,甚至導致價值函數的發散。其二,元強化學習要求在學習控制策略的同時能高效且魯棒地進行任務推斷(task inference)。

在本文中,我們將針對離線策略學習的行為正則化(behavior regularization)方法,與一個用于任務推斷的確定性的任務信息編碼器進行結合來解決上述的兩大難點。我們在有界的任務信息嵌入空間中引入了一個全新的負指數距離度量,并且將其與控制策略的貝爾曼方程的梯度解耦進行學習。我們分析驗證了在該設定下,采用一些簡單的算法設計即可帶來相比經典元強化學習及度量學習的效果的明顯提升。據我們所知,本方法是第一個端到端、無模型的離線元強化學習算法,計算效率高并且在多個元強化學習實驗環境上表現出優于以往方法的性能。

本方法賦予強化學習算法進行離線學習及高效遷移的能力,離線意味著不需要在真實環境中進行探索、交互,高效遷移意味著算法的魯棒性及數據利用效率更高。我們的方法實現了同時具備上述兩種能力的端到端的算法訓練框架,可以極大擴展強化學習算法的實際應用范圍:例如推動其在諸如醫療、農業、自動駕駛等數據稀缺或極度重視安全性的相關領域的實際應用,包括構建定制化的患者治療方案、針對特定氣候/作物品種的溫室種植策略等。

//www.zhuanzhi.ai/paper/af16ee8631cae148425f27ba32b6f673

付費5元查看完整內容
北京阿比特科技有限公司