眾所周知,Q-learning算法會受到最大化偏差的影響,即對動作值的系統性高估,這是最近重新受到關注的一個重要問題。雙Q學習被提出作為一種有效的算法來緩解這種偏差。然而,這樣做的代價是動作值被低估,以及內存需求增加和收斂速度減慢。在本文中,我們提出了一種新的方法來解決最大化偏差問題,即采用“自校正算法”來逼近期望值的最大值。我們的方法平衡了傳統Q-learning中單估計量的高估和雙估計量的低估。將此策略應用到Q-learning中,就會產生自校正Q-learning。我們從理論上證明了該算法具有與Q-learning相同的收斂性保證,并且更加精確。從經驗上看,它在高方差獎勵領域優于雙Q-learning,甚至在零或低方差獎勵領域的收斂速度也比Q-learning快。這些優勢轉移到深度Q網絡實現,我們稱之為自校正DQN,它在Atari2600域的幾個任務上優于常規DQN和雙DQN。
The Q-learning algorithm is known to be affected by the maximization bias, i.e. the systematic overestimation of action values, an important issue that has recently received renewed attention. Double Q-learning has been proposed as an efficient algorithm to mitigate this bias. However, this comes at the price of an underestimation of action values, in addition to increased memory requirements and a slower convergence. In this paper, we introduce a new way to address the maximization bias in the form of a "self-correcting algorithm" for approximating the maximum of an expected value. Our method balances the overestimation of the single estimator used in conventional Q-learning and the underestimation of the double estimator used in Double Q-learning. Applying this strategy to Q-learning results in Self-correcting Q-learning. We show theoretically that this new algorithm enjoys the same convergence guarantees as Q-learning while being more accurate. Empirically, it performs better than Double Q-learning in domains with rewards of high variance, and it even attains faster convergence than Q-learning in domains with rewards of zero or low variance. These advantages transfer to a Deep Q Network implementation that we call Self-correcting DQN and which outperforms regular DQN and Double DQN on several tasks in the Atari 2600 domain.
逆合成設計是有機化學的關鍵問題之一。由于在反應的每一步理論上都有成千上萬種可能的轉化導致設計的搜索空間是巨大的,即使是有經驗的化學家處理這個問題也是十分棘手的。
單步逆合成預測對給定產物可能的直接反應物列表的預測,盡管單步合成法不斷得到改進,但現實世界中的大多數分子都無法在一步之內合成。合成步驟的數量可以達到60個甚至更多。單步逆合成法面臨著巨大的搜索空間和性能測量及基準測試模糊性的挑戰,為實現多步逆合成設計奠定基礎。
在本文中,作者提出了一種新的基于學習的逆合成設計算法Retro*來學習以前的設計經驗,該算法框架可以歸納出保證最優解的搜索算法。另外,作者提出了一種構建合成路線數據集的方法,用于對多步合成設計方法進行定量分析。其設計算法是通用的,它也可以應用于其他機器學習問題,如定理證明和分層任務設計,實驗結果表明該算法的性能大大優于現有方法。
//www.zhuanzhi.ai/paper/84dcdb8686f27852f81a0a23d48ce2dd
在線評論為客戶提供產品評估以做出決策。不幸的是,這些評估可能會被專業的垃圾郵件發送者使用虛假的評論(“垃圾郵件”)來操縱,而這些專業的垃圾郵件發送者通過適應部署的檢測器,已經學會了越來越陰險和強大的垃圾郵件發送策略。垃圾郵件策略很難捕捉,因為隨著時間的推移,它們會迅速變化,垃圾郵件發送者和目標產品之間也會不同,更重要的是,在大多數情況下,它們仍然是未知的。此外,現有的大多數檢測器關注的是檢測精度,這與保持產品評價的可信度的目標不是很一致的。為了解決這些挑戰,我們制定了一個極大極小游戲,垃圾郵件發送者和垃圾郵件檢測器在他們的實際目標上相互競爭,而不僅僅是基于檢測的準確性。博弈的納什均衡導致穩定的檢測器,對于任何混合檢測策略都是不可知的。然而,對于典型的基于梯度的算法來說,該博弈沒有封閉形式的解,不可微。我們將博弈轉化為兩個依賴的馬爾可夫決策過程(MDPs),以實現基于多武裝強盜和政策梯度的高效隨機優化。我們在三個大型綜述數據集上使用各種最新的垃圾郵件發送和檢測策略進行了實驗,結果表明,該優化算法能夠可靠地找到一種均衡檢測器,能夠有效地防止使用任何混合垃圾郵件發送策略的垃圾郵件發送者達到他們的實際目標。我們的代碼可以在//github.com/YingtongDou/Nash-Detect獲得。
主題: Representations for Stable Off-Policy Reinforcement Learning
摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。
資源標題
強化學習整合:Awesome Reinforcement Learning
資源列表
Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.