深度強化學習解決很多復雜問題的能力已經有目共睹,然而,如何提升其學習效率是目前面臨的主要問題之一。現有的很多方法已驗證遷移學習可利用相關任務中獲得的先驗知識來加快強化學習任務的學習效率。然而,這些方法需要明確計算任務之間的相似度,或者只能選擇一個適合的源策略,并利用它提供針對目標任務的指導性探索。目前仍缺少如何不顯式的計算策略間相似性,自適應的利用源策略中的先驗知識的方法。本文提出了一種通用的策略遷移框架(PTF),利用上述思想實現高效的強化學習。PTF通過將多策略遷移過程建模為選項(option)學習,option判斷何時和哪種源策略最適合重用,何時終止該策略的重用。如圖1所示,PTF分為兩個子模塊,智能體(agent)模塊和option模塊。Agent模塊負責與環境交互,并根據環境的經驗和option的指導進行策略更新。
在本文中,我們提出了一種層次自適應上下文強盜方法(HATCH)來進行有預算約束的上下文強盜的策略學習。HATCH采用了一種自適應的方法,根據剩余資源/時間和不同用戶上下文之間的報酬分配來分配勘探資源。此外,我們利用豐富的上下文特征信息來尋找最佳的個性化推薦。