亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于模型的強化學習算法旨在學習環境模型,并通過環境模型做決策,其樣本效率高于無模型算法。基于模型的方法的樣本效率取決于模型能否很好地近似環境。然而,學習一個精確的模型是具有挑戰性的,特別是在復雜和嘈雜的環境中。為了解決這個問題,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。這是一種在不依賴精確學習模型的情況下實現了高樣本效率的新方法。具體而言,CMBAC從一組不準確的模型中學習Q值函數的多個估計值,并使用其最小的k個估計值的均值(即保守估計值)來優化策略。CMBAC的保守估計能夠有效地鼓勵智能體避免不可靠的“有前景的動作”,即那些僅在一小部分模型中估計價值高的動作。實驗結果表明,CMBAC方法在多個具有挑戰性的控制任務上的樣本效率明顯優于現有的方法,并且該方法在噪聲環境下比現有的方法更具魯棒性。原論文標題為《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》,由王杰教授指導MIRA Lab 的王治海、周祺等人發表于AAAI 2022。

//arxiv.org/abs/2112.10504

付費5元查看完整內容

相關內容

構建能夠有效解決各種問題的通用RL算法需要將正確的結構和表示編碼到我們的模型中。我們泛化能力的一個關鍵組成部分是我們開發世界內部模型的能力,該模型可以用于穩健的預測和有效的規劃。在本論文中,我們討論了如何利用表示學習來學習更好的物理場景預測模型,并使agent能夠在基于模型的RL框架下通過規劃學習到的模型來推廣到新的任務。我們將介紹兩種能夠實現良好泛化的抽象:對象級表示形式的狀態抽象和分層RL的技能表示形式的時間抽象。通過將這些抽象概念整合到我們的模型中,我們可以在長期、多階段的問題上實現高效的學習和組合推廣。我們還討論了元學習在自動學習一般RL算法的正確結構中的作用。利用大規模的基于進化的計算,我們可以學習通用的RL算法,這些算法在各種任務中具有更好的樣本效率和最終性能。最后,我們將介紹如何使用這些內部模型來計算RL目標本身,并在不設計獎勵函數的情況下訓練具有復雜行為的一般RL代理。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一種數學形式,允許通過優化用戶指定的獎勵函數來獲得接近最優的行為。最近,由于在許多領域的出色應用,RL方法受到了相當多的關注,但事實上,RL需要一個基本的在線學習范式,這是其廣泛采用的最大障礙之一。在線交互通常是不切實際的,因為數據收集是昂貴的(例如,在機器人或教育代理中)或危險的(例如,在自動駕駛或醫療保健中)。另一種方法是利用RL算法,在不需要在線交互的情況下有效地利用以前收集的經驗。這被稱為批處理RL、脫機RL或數據驅動RL。這樣的算法對將數據集轉化為強大的決策引擎有著巨大的希望,類似于數據集在視覺和NLP中被證明是成功的關鍵。在本教程中,我們的目標是為讀者提供既可以利用離線RL作為工具,又可以在這個令人興奮的領域進行研究的概念性工具。我們的目標是提供對離線RL的挑戰的理解,特別是在現代深度RL方法的背景下,并描述一些潛在的解決方案。我們將以一種從業者易于理解的方式呈現經典和最新的方法,并討論在這一領域開展研究的理論基礎。我們將以討論待解問題來結束。

//sites.google.com/view/offlinerltutorial-neurips2020/home

付費5元查看完整內容

眾所周知,Q-learning算法會受到最大化偏差的影響,即對動作值的系統性高估,這是最近重新受到關注的一個重要問題。雙Q學習被提出作為一種有效的算法來緩解這種偏差。然而,這樣做的代價是動作值被低估,以及內存需求增加和收斂速度減慢。在本文中,我們提出了一種新的方法來解決最大化偏差問題,即采用“自校正算法”來逼近期望值的最大值。我們的方法平衡了傳統Q-learning中單估計量的高估和雙估計量的低估。將此策略應用到Q-learning中,就會產生自校正Q-learning。我們從理論上證明了該算法具有與Q-learning相同的收斂性保證,并且更加精確。從經驗上看,它在高方差獎勵領域優于雙Q-learning,甚至在零或低方差獎勵領域的收斂速度也比Q-learning快。這些優勢轉移到深度Q網絡實現,我們稱之為自校正DQN,它在Atari2600域的幾個任務上優于常規DQN和雙DQN。

//www.zhuanzhi.ai/paper/7ac6a8d6fb4d231cf273760d59f8dab2

付費5元查看完整內容

Model-Based Methods in Reinforcement Learning 本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述,特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法,如何有效地使用這些模式來做出更好的決策,以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式,以及在設計未來的MBRL系統時,從人類認知中可以得到什么啟示。

付費5元查看完整內容
北京阿比特科技有限公司