中国熟妇内谢69XXXXX,九色丨PORNY丨自拍 ICU,亚洲欧美日韩中文字幕二区,国产欧美日韩在线观看一卡二卡

深度強化學習解決很多復雜問題的能力已經有目共睹，然而，如何提升其學習效率是目前面臨的主要問題之一。現有的很多方法已驗證遷移學習可利用相關任務中獲得的先驗知識來加快強化學習任務的學習效率。然而，這些方法需要明確計算任務之間的相似度，或者只能選擇一個適合的源策略，并利用它提供針對目標任務的指導性探索。目前仍缺少如何不顯式的計算策略間相似性，自適應的利用源策略中的先驗知識的方法。本文提出了一種通用的策略遷移框架（PTF），利用上述思想實現高效的強化學習。PTF通過將多策略遷移過程建模為選項（option）學習，option判斷何時和哪種源策略最適合重用，何時終止該策略的重用。如圖1所示，PTF分為兩個子模塊，智能體（agent）模塊和option模塊。Agent模塊負責與環境交互，并根據環境的經驗和option的指導進行策略更新。

付費5元查看完整內容

相關內容

深度強化學習

關注 154

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而，傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下，深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

賭博機 · 資源約束推薦 · WWW2020 ·

2020 年 4 月 3 日

[付費5元查看完整內容]【WWW2020-中科大-滴滴】層次自適應上下文賭博機的資源約束推薦

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在本文中，我們提出了一種層次自適應上下文強盜方法(HATCH)來進行有預算約束的上下文強盜的策略學習。HATCH采用了一種自適應的方法，根據剩余資源/時間和不同用戶上下文之間的報酬分配來分配勘探資源。此外，我們利用豐富的上下文特征信息來尋找最佳的個性化推薦。