亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

第19屆智能體及多智能體系統國際會議(International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS-2020)近日在線舉行。智能體及多智能體系統國際會議(AAMAS) 是多智能體系統領域最具影響力的會議之一,由非營利組織IFAAMAS主辦。今年,AAMAS-2020共收到808篇論文投稿,錄用186篇。

我們回顧了在無模型和基于模型的強化學習設置中的殘差算法。我們提出了雙向目標網絡技術來穩定殘差算法,生成一個在DeepMind控制套件基準測試中顯著優于普通DDPG的DDPG的殘差版本。此外,我們發現殘差算法是解決基于模型規劃中分布不匹配問題的有效方法。與現有的TD(k)方法相比,我們基于殘差的方法對模型的假設更弱,并產生了更大的性能提升。

付費5元查看完整內容

相關內容

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

為了將深度學習模型部署到生產中,它需要準確和緊湊,以滿足延遲和內存的限制。這通常會導致網絡的深度(以確保性能)和瘦(以提高計算效率)。本文提出了一種在理論保證下訓練深薄網絡的有效方法。我們的方法是由模型壓縮驅動的。它由三個階段組成。在第一階段,我們充分拓寬深薄網絡,并訓練它直到收斂。在第二階段,我們使用這個訓練良好的深寬網絡來預熱(或初始化)原始的深薄網絡。這是通過讓瘦網絡從層到層模擬寬網絡的直接輸出來實現的。在最后一個階段,我們進一步優化這個初始化良好的深薄網絡。通過平均場分析,建立了理論保證,表明了分層模擬比傳統的反向傳播從頭開始訓練深薄網絡的優越性。我們還進行了大規模的實證實驗來驗證我們的方法。通過使用我們的方法進行訓練,ResNet50可以超過ResNet101, BERTBASE可以與BERTLARGE相媲美,后者的模型都是通過文獻中的標準訓練程序進行訓練的。

付費5元查看完整內容

題目

深度殘差強化學習,Deep Residual Reinforcement Learning

關鍵字

強化學習,殘差算法,機器學習

簡介

我們在無模型和基于模型的強化學習設置中重新研究殘差算法。 我們建議使用雙向目標網絡技術來穩定殘差算法,從而產生DDPG的殘差版本,該版本明顯優于DeepMind Control Suite基準測試中的原始DDPG。 此外,我們發現殘差算法是解決基于模型的規劃中分布不匹配問題的有效方法。 與現有的TD(k)方法相比,我們的基于殘差的方法對模型的假設更弱,并且性能提升更大。

作者

Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,來自牛津大學

付費5元查看完整內容

論文題目: A Divergence Minimization Perspective on Imitation Learning Methods

論文摘要: 在許多情況下,希望通過專家演示的學習或引導來學習決策和控制策略。這種模仿學習(IL)框架下最常見的方法是行為克隆(BC)和逆強化學習(IRL)。IRL的最新方法已經證明了可以通過訪問非常有限的一組演示來學習有效策略的能力,一種情況BC方法經常失敗。不幸的是,由于變化的多種因素,直接比較這些方法并不能提供足夠的直覺來理解這種性能差異。在這項工作中,我們提出了基于散度最小化的IL算法的統一概率觀點。我們提出了f-MAX,這是AIRL的一種泛化概括,它是一種最新的IRL方法。 f-MAX使我們能夠關聯以前的IRL方法,例如GAIL和AIRL,并了解它們的算法特性。通過散度最小化的鏡頭,我們可以找出BC和成功的IRL方法之間的差異,并在模擬的高維連續控制域上經驗地評估這些細微差別。我們的發現最終確定了IRL的州際匹配目標是其卓越績效的最大貢獻。最后,我們將對IL方法的新理解應用于狀態-邊際匹配的問題,其中我們證明了在模擬推臂環境中,我們可以使用簡單的手動指定狀態分布來教給代理各種行為,而無需獎勵函數或專家。

論文作者: Richard Zemel ,Vector人工智能研究所的聯合創始人兼研究總監,多倫多大學機器學習工業研究主席,加拿大高級研究所高級研究員,研究興趣包括:圖像和文本的生成模型,基于圖的機器學習,少量數據學習,詞典,單詞列表和公平性。

github鏈接: //github.com/KamyarGh/rl_swiss/blob/master/reproducing/fmax_paper.md

付費5元查看完整內容

主題: Deep Reinforcement Learning with Applications in Transportation

簡介: 交通運輸,特別是移動乘車共享領域,存在許多傳統上具有挑戰性的動態決策問題,這些問題涉及研究文獻,而且很容易從人工智能(AI)中受益匪淺。一些核心示例包括在線乘車指令調度,該系統將可用的駕駛員與乘車共享平臺上的出行請求乘客實時匹配;路線規劃,用于規劃行程起點和終點之間的最佳路線;交通信號控制,可動態自適應地調整區域內的交通信號以實現低延遲。所有這些問題都有一個共同的特征,即在我們關注某個范圍內的一些累積目標時,要做出一系列決定。強化學習(RL)是一種機器學習范例,可訓練代理通過與之交互并獲取反饋信號來學習在環境中采取最佳行動(以所獲得的總累積獎勵衡量)。因此,它是用于解決順序決策問題的一類優化方法。得益于深度學習研究和計算能力的飛速發展,深度神經網絡和RL的集成為解決復雜的大規模學習問題在RL中產生了爆炸性的進展,近年來引起了巨大的興趣。深度學習和RL的結合甚至被認為是通往真正AI的道路。它具有巨大的潛力,以前所未有的方式解決運輸中的一些難題。

目錄簡介:

  • Part I: 介紹:機器學習與強化學習
  • Part II: 強化學習基礎
  • Part III:基于policy的強化學習
  • Part IV:強化學習框架
付費5元查看完整內容
北京阿比特科技有限公司