We examine the problem of regret minimization when the learner is involved in a continuous game with other optimizing agents: in this case, if all players follow a no-regret algorithm, it is possible to achieve significantly lower regret relative to fully adversarial environments. We study this problem in the context of variationally stable games (a class of continuous games which includes all convex-concave and monotone games), and when the players only have access to noisy estimates of their individual payoff gradients. If the noise is additive, the game-theoretic and purely adversarial settings enjoy similar regret guarantees; however, if the noise is multiplicative, we show that the learners can, in fact, achieve constant regret. We achieve this faster rate via an optimistic gradient scheme with learning rate separation -- that is, the method's extrapolation and update steps are tuned to different schedules, depending on the noise profile. Subsequently, to eliminate the need for delicate hyperparameter tuning, we propose a fully adaptive method that attains nearly the same guarantees as its non-adapted counterpart, while operating without knowledge of either the game or of the noise profile.
深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。
圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。
該項目基于博弈論、不確定性量化和數值逼近等方法,致力于兩個主要目標:(I)將它們應用于計算數學中具有實際意義的高影響問題;(II)它們向機器學習方向發展。本著這一目的,以及對概念/理論進步和算法/計算復雜性進步的雙重強調,本計劃的成就如下:(1) 我們開發了學習核的一般穩健方法,包括:(a) 通過核流(交叉驗證的一種變體)進行超參數調整,并應用于學習動態系統和天氣時間序列的外推;(b) 通過可解釋回歸網絡(核模式分解)對核進行規劃,并應用于經驗模式分解。(2) 我們發現了一種非常穩健和大規模并行的算法,基于Kullback-Liebler發散(KL)最小化,計算密集核矩陣的反Cholesky因子的精確近似值,具有嚴格的先驗復雜度與準確度的保證。(3) 我們引入了競爭梯度下降法,這是梯度下降法在雙人博弈環境中的一個令人驚訝的簡單而強大的概括,其中更新是由基礎游戲的正則化雙線性局部近似的納什均衡給出。該算法避免了交替梯度下降中出現的振蕩和發散行為,而且選擇較大步長的能力進一步使所提出的算法實現更快的收斂。(4)我們開發了一個嚴格的框架,用于分析人工神經網絡作為離散化的圖像注冊算法,圖像被高維空間的高維函數所取代。(5) 我們引入了一種通用的高斯過程/核方法來解決和學習任意的非線性PDEs。(6) 我們引入了一個新的不確定性量化框架,解決了傳統方法的局限性(在準確性、穩健性和計算復雜性方面)。
本文研究具有已知動力學和對抗性干擾動態系統的多智能體控制問題。我們的研究重點是沒有集中的預計算策略的最優控制,而是對不同的智能體只配備一個穩定控制器的自適應控制策略。我們給出了一個從任何(標準)遺憾最小化控制方法到分布式算法的還原方法。該還原法保證了所產生的分布式算法相對于最佳預計算的聯合策略具有較低的遺憾。我們的方法包括將在線凸優化推廣到多智能體環境中,并應用最近從非隨機控制中得出的單智能體工具。我們在一個過度行動的飛機模型上對我們的方法進行了經驗評估。我們表明,分布式方法對故障和動態中的對抗性擾動是穩健的。
中科院自動化所智能系統與工程研究中心團隊在游戲AI領域重要期刊IEEE Transactions on Games發表論文Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games。團隊針對強化學習中的高維環境探索問題,提出了一種圖像局部區域敏感的獎勵構造機制:通過在標準的隨機蒸餾網絡中引入由注意力網絡產生的與智能體決策相關的注意圖,實現獎勵信號對圖像中局部重要區域的感知。團隊在標準的強化學習 Atari 基準測試中的部分視頻游戲上驗證了方法的有效性。實驗結果顯示新方法與主流的探索方法相比實現了明顯的性能提升。
強化學習算法依賴于精心設計的環境獎勵。然而,具有稠密獎勵的環境很少見,這促使學界設計鼓勵探索的人工獎勵。好奇心是一種成功的人工獎勵函數,它使用預測誤差作為獎勵信號。在之前的工作中,用于產生人工獎勵的預測問題在像素空間而不是可學習的特征空間中進行了優化,以避免特征變化引起的隨機性。然而,這些方法忽略了圖像中占比很小,但很重要的信息,比如角色位置的信息,這使得這些方法無法生成準確的人工獎勵。在本文中,我們首先證實了為現有的基于預測的探索方法引入預訓練特征的有效性,然后設計了一種注意力圖機制來離散化在線學習的特征,從而保證在線學習特性的同時減少這一過程引起隨機性對人工獎勵的影響。
圖表 1 方法流程圖
我們的目標是構建一種基于預測誤差的探索方法,該方法可以使用在線學習的特征來生成更準確的探索獎勵。一個簡單的想法是將學習到的特征作為預測問題的附加輸入。但是,只有在整個訓練期間使得將觀測值映射到特征的編碼函數參數固定時,此方法才有效。如果編碼函數不斷地變化,則同一觀察相對應的特征在不同時間是不同的。這導致基于預測的探索方法無法對熟悉的觀測值給出低的獎勵,因為此時觀測對應的特征編碼是新穎的。這與基于誤差的方法的基本思想背道而馳,即對熟悉的狀態提供低的獎勵,對新穎的狀態提供高的獎勵。
我們的核心思想是控制特征的變化范圍,我們通過將連續空間中的學習到的特征映射到離散空間來實現這一目標。我們認為離散化可以緩解特征變化對基于獎勵的方法的影響。我們進一步發現可以通過引入空間注意機制來以無監督的方式生成這種離散編碼。具體來說,我們訓練一個額外的網絡生成注意力圖。注意力圖中的值表示觀察的每個部分對代理任務的重要程度。之后,我們對注意力圖中前n個大的元素取值為1,對其他元素取值為0,以獲得與所學習特征相對應的離散編碼。
圖表 2 注意力圖示意以及不同輸入對最終性能的影響
深度學習中的泛化神秘在于:為什么經過梯度下降(GD)訓練的過參數化神經網絡能夠很好地對真實數據集進行泛化,即使它們能夠擬合具有可比性的隨機數據集?此外,在符合訓練數據的所有解決方案中,GD如何找到一個泛化良好的解決方案(當存在這樣一個泛化良好的解決方案時)?
我們認為,這兩個問題的答案都在于訓練過程中不同例子的梯度之間的交互作用。直觀地說,如果每個示例的梯度是良好對齊的,也就是說,如果它們是一致的,那么可以期望GD(在算法上)是穩定的,因此可以很好地泛化。我們用一個易于計算和解釋的一致性度量來形式化這個論點,并表明對于幾個常見的視覺網絡,度量在真實和隨機數據集上具有非常不同的值。該理論還解釋了深度學習中的一些其他現象,比如為什么一些例子比其他例子更早被可靠地學習,為什么早停止有用,為什么可以從嘈雜的標簽中學習。由于該理論提供了一個因果解釋,解釋了GD如何在存在的情況下找到一個很好的泛化解決方案,它激發了對GD的一系列簡單的修改,減少了記憶,提高了泛化。
在深度學習中,泛化是一個極其廣泛的現象,因此,它需要一個同樣普遍的解釋。最后,我們對解決這一問題的其他途徑進行了綜述,并認為所建議的方法是在此基礎上最可行的方法。
Setting the Variance of Multi-Agent Policy Gradients
策略梯度方法是常見的強化學習方法之一,其中基線函數通常用于減少梯度估計的方差。在多智能體強化學習中,雖然策略梯度定理可直接被擴展使用,但隨著梯度估計的方差隨著智能體數量的增加而迅速增加,多智能體策略梯度方法的性能會逐漸惡化。本文中,我們首先通過量化智能體數量及各智能體探索對多智能體策略梯度估計方差的貢獻,對策略梯度方法進行了嚴格的分析。基于此分析,可獲得實現最小方差的最佳基線函數。進而我們測量了現有多智能體強化學習算法如vanilla MAPG和COMA的過量方差。考慮到現有方法大多使用深度神經網絡,為此我們提出了可以直接與現有多智能體強化學習策略梯度方法相兼容的代理最優基線函數。在多智能體MuJoCo和星際爭霸基線任務上,所提方法有效地穩定了訓練過程,并顯著提高了MAPPO和COMA算法的性能。
主題: Representations for Stable Off-Policy Reinforcement Learning
摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。
我們研究了深度學習優化算法評估中的幾個混合因素。首先,我們深入研究自適應梯度方法如何與學習速率調整相互作用,這是一個眾所周知的難以調整的超參數,它對神經網絡訓練的收斂和推廣具有顯著影響。我們引入了一個“嫁接”實驗,該實驗將更新的大小與其方向解耦,發現文獻中的許多現有信念可能是由于對步長的隱式時間表的隔離不足而產生的。除了這一貢獻之外,我們還對自適應梯度方法的推廣進行了一些實證和理論回顧,旨在為這一空間帶來更清晰的視角。
題目
生成式對抗網絡先驗貝葉斯推斷,Bayesian Inference with Generative Adversarial Network Priors
關鍵字
生成對抗網絡,貝葉斯推斷,深度學習,人工智能,計算物理學,圖像處理
簡介
當兩者通過物理模型鏈接時,貝葉斯推斷被廣泛用于根據相關場的測量來推斷并量化感興趣場的不確定性。盡管有許多應用,貝葉斯推理在推斷具有大維離散表示和/或具有難以用數學表示的先驗分布的字段時仍面臨挑戰。在本手稿中,我們考慮使用對抗性生成網絡(GAN)來應對這些挑戰。 GAN是一種深層神經網絡,具有學習給定字段的多個樣本所隱含的分布的能力。一旦對這些樣本進行了訓練,GAN的生成器組件會將低維潛矢量的iid組件映射到目標場分布的近似值。在這項工作中,我們演示了如何將這種近似分布用作貝葉斯更新中的先驗,以及它如何解決與表征復雜的先驗分布和推斷字段的大范圍相關的挑戰。我們通過將其應用于熱噪聲問題中的熱傳導問題中的推斷和量化初始溫度場中的不確定性的問題,論證了該方法的有效性,該問題由稍后的溫度噪聲測量得出。
作者
Dhruv Patel, Assad A Oberai