近年來,深度強化學習在游戲人工智能、機器人等領域取得了諸多重要成就. 然而,在具有稀疏獎 勵、隨機噪聲等特性的現實應用場景中,該類方法面臨著狀態動作空間探索困難的問題. 基于內在動機的 深度強化學習探索方法是解決上述問題的一種重要思想. 首先解釋了深度強化學習探索困難的問題內涵, 介紹了 3 種經典探索方法,并討論了它們在高維或連續場景下的局限性;接著描述了內在動機引入深度 強化學習的背景和算法模型的常用測試環境;在此基礎上詳細梳理各類探索方法的基本原理、優勢和缺 陷,包括基于計數、基于知識和基于能力 3 類方法;然后介紹了基于內在動機的深度強化學習技術在不同 領域的應用情況;最后總結亟需解決的難以構建有效狀態表示等關鍵問題以及結合表示學習、知識積累 等領域方向的研究展望.
0 引言
強化學習(reinforcement learning, RL)是監督學習、 無監督學習之外的另一機器學習范式, 通過設置反 映目標任務的獎勵函數, 驅動智能體在與環境的交 互與試錯中學習能使累計收益最大化的策略[1]。深度強化學習(deep reinforcement learning, DRL) 是在強化學習提供的最優決策能力的基礎上, 結合 深度學習(deep learning, DL)強大的高維數據表征能 力來擬合價值函數或策略, 進而基于交互樣本訓練 得到最優價值函數或最優策略, 被認為是結合感知 智能和認知智能的有效方法. 深度強化學習在游戲人工智能、機器人、自然 語言處理、金融等諸多領域取得了超越人類的性能 表現[2-3] , 但在具備稀疏獎勵、隨機噪聲等特性的環境 中, 難以通過隨機探索方法獲得包含有效獎勵信息 的狀態動作樣本, 導致訓練過程效率低下甚至無法 學習到有效策略[4] . 具體來說, 一方面現實應用中往往存在大量獎勵信號十分稀疏甚至沒有獎勵的場景. 智能體在這類場景探索時需要執行一系列特定的動 作, 以到達少數特定的狀態來獲得獎勵信號, 這使得 在初始時缺乏所處環境知識的智能體很難收集到有 意義的獎勵信號來進行學習. 例如, 多自由度機械臂 在執行移動物體任務中, 需要通過系列復雜的位姿 控制將物體抓取并放置到指定位置, 才能獲得獎勵. 另一方面, 現實環境往往具有高度隨機性, 存在意料 之外的無關環境要素(如白噪聲等), 大大降低了智 能體的探索效率, 使其難以構建準確的環境模型來 學習有效策略. 例如, 部署應用在商場的服務機器人 在執行視覺導航任務時, 既要受到商場中大量的動 態廣告圖片或視頻的傳感干擾, 還可能面臨動作執 行器與環境交互時的結果不確定性, 同時長距離的 導航任務也使其難以獲得有效正獎勵信號. 因此深 度強化學習領域亟需解決探索困難問題, 這對提高 DRL 的策略性能和訓練效率都十分重要.針對獎勵稀疏、隨機噪聲等引起的探索困難問 題, 研究者們提出了基于目標、不確定性度量、模仿 學習等探索方法, 但對任務指標的提升效果有限, 并 增加了額外的數據獲取的代價. 近年來, 源自心理學 的內在動機(intrinsic motivation)概念因對人類發育 過程的合理解釋, 逐漸被廣泛應用在 DRL 的獎勵設 計中以解決探索問題, 成為了 ICML, ICLR, NeurIPS, ICRA 等頂級學術會議上的熱點方向, 受到來自清華、 斯坦福、牛津、谷歌等頂級高校與研究機構的關注. 雖然已有文獻[5-8] 介紹內在動機在深度強化學習領域 的研究現狀, 但據我們所知, 尚沒有文獻全面深入研 究各類基于內在動機的 DRL 探索方法, 并逐步深入 討論其應用于貼近真實世界的復雜動態場景中所面 臨的關鍵問題以及未來的發展方向. 我們從出發點、 研究角度分析了相關綜述文獻與本文的主要區別, 如表 1 所示. 基于上文梳理的深度強化學習面臨的探索困難 問題, 本文首先介紹 3 種經典探索方法以及它們在高 維或連續場景下的局限性, 接著全面梳理 3 類不同的 基于內在動機的 DRL 探索方法的基本原理、優勢和 缺陷, 隨后介紹上述基于內在動機的方法在不同領 域的應用情況, 最后總結亟需解決的關鍵問題以及 發展方向.
1 經典探索方法
為提高智能體在未知環境中的探索效率, 研究 者們提出了簡單的隨機擾動方法, 例如 -貪婪方法. 除此之外,研究者們在小規模狀態動作空間下提出了 許多具有理論保證的經典探索方法, 并推導出對應 的累計后悔值或樣本復雜度的理論上界. 根據統計 學中認識世界不確定性的觀點, 本文將它們分為頻 率派方法與貝葉斯派方法.
1.1 隨機擾動方法
隨機擾動方法可按照加入噪聲的位置差異分為 2 類: 一是在動作選擇的過程中增加隨機性或噪聲, 如在ε -貪婪算法中, 以1?ε 的概率選擇當前估值最高 的動作, 以 ε的概率在所有動作中隨機選擇. 在此基 礎上, Boltzmann 策略在學習初期設置較大的 值以促 進探索, 使 值隨學習過程逐漸減小, 當策略收斂后 完全利用當前模型以持續獲得最大獎勵. 類似地, 深 度確定性策略梯度算法[9] 對策略網絡輸出的動作加 入隨機噪聲過程進行擾動, 以此增加探索. 二是在擬 合策略的網絡參數上加入噪聲, 比如參數空間噪聲 模型[10] 和 NoisyNet 模型[11] 等.
1.2 頻率派方法
頻率派基于實際數據樣本的估計來衡量狀態的 不確定性, 在數據量有限的情況下一般采用帶有置 信水平的區間估計方法.
1.3 貝葉斯派方法
貝葉斯學派觀點認為, 面對未知環境人們維護 著對于所有可能模型的概率分布以表達其不確定性, 隨著觀測證據的增多, 后驗分布一般比先驗分布更 能反映不同備選模型與真實模型的接近程度. 由于 在選擇動作時不僅依據觀測狀態, 也必須考慮對信 念狀態的更新, 貝葉斯強化學習方法被認為有助于 提高探索效率, 防止陷入局部最優, 且同時考慮利用 現有策略最大化累積收益[18]
**1.4 小 結 **
隨機擾動方法缺少對具體狀態和動作探索作用 的評估, 難以依據對狀態的某種度量引導探索過程, 因此無法形成有啟發性的探索過程, 也被稱為無指 導探索[22] . 頻率派或貝葉斯派的方法, 大多僅是在小 規模場景中推導出了樣本復雜度或期望后悔值的上 界, 具有一定理論保證, 但很難直接應用到更加復雜 的環境如具有動態性和不確定性的實際場景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需對狀態動作對有準確 的計數, 在小規模的狀態和動作空間條件下是可行 的, 但無法應用于動態、高維或連續場景中, 亟需啟 發性更強、計算效率更高的探索方法.
2 基于內在動機的深度強化學習探索方法
為解決大規模狀態動作空間中由稀疏獎勵、隨 機噪聲干擾等產生的探索困難問題, 研究者們提出 了基于目標、不確定性度量和內在動機等深度強化 學習探索方法[7-8] . 基于目標探索的方法通過對興趣 狀態進行分析來生成探索性子目標, 同時對如何到 達子目標的過程進行控制, 以提高智能體在復雜環 境中的探索效率. 這類方法偏規劃, 重點在于存儲狀 態和軌跡信息, 并根據存儲的信息規劃生成子目標 點, 然后學習如何到達子目標點. 基于不確定性度量 的方法通常采用價值函數的貝葉斯后驗來顯示建模 認知不確定性, 或者采用分布式價值函數來額外評 估環境內在不確定性, 以鼓勵智能體探索具有高度 認知不確定性的狀態動作對, 并盡量避免訪問具有 高度內在不確定性的區域. 該方法更多偏向于挖掘 價值函數中的不確定性, 體現的是計算思維. 與前 2 類方法相比, 本文所關注的基于內在動機 的方法從行為學和心理學中內在動機驅動高等生物 自主探索未知環境的機理出發, 將“新穎性”等多種 源自內在動機的啟發式概念形式化為內在獎勵信號, 以驅動智能體自主高效探索環境, 體現的是一種更 抽象和擬人的思維. 具體來說, 內在動機源于高等生 物在追求提高自主性和能力或掌控力的過程中獲得 的愉悅感, 是驅動無外界刺激條件下探索未知環境 的動力. 內在動機在 DRL 中, 可以被映射為內在獎勵 信號[23] , 與基于值函數或策略梯度的深度強化學習方 法相結合, 形成具備強啟發性的探索策略, 以提高智 能體探索復雜未知環境的效率。 如何在內在獎勵信號中形式化“新穎性”“好奇 心”“學習提升”“多樣性”“控制力”等源自內在動機的啟發式概念, 是設計基于內在動機的 DRL 探索方 法的關鍵內容. 根據內在獎勵信號的不同啟發式來 源并參考文獻 [24] 中設想的各類基于內在動機的計 算框架, 本文將基于內在動機的深度強化學習探索 方法主要分為 3 類(見圖 1): 基于計數的方法、基于 知識的方法和基于能力的方法.
2.1 基于計數的方法
在高維連續環境中, 難以采用表格化的方式來 表示狀態, 并且幾乎沒有任何 2 個觀測狀態完全相 同, 絕大多數狀態的真實訪問次數都不會超過 1 次, 直接采用經典探索理論方法中基于頻率派或貝葉斯 派的方法, 得到的計數值無法有效衡量狀態新穎性. 針對上述問題, 基于計數的方法一方面借鑒了 UCB 算法的思路, 繼承了“面對不確定性的樂觀”思想, 即 向訪問次數較少的狀態或狀態動作對賦予更高的獎 勵, 以鼓勵智能體盡快探索狀態空間的未知部分, 另 一方面采用基于相似性的狀態泛化的解決思路. 該 類方法的實現途徑包括偽計數方法[39] 和狀態抽象方 法 [40] , 其中偽計數方法可細分為基于密度模型的偽計 數和間接偽計數方法。
2.4. 基于預測模型的方法 現有大量方法為智能體建立和維護一個對動作 結果和狀態轉移進行預測的模型, 以模型精度表達 外部環境的不確定性. 以此預測模型為基礎, 智能體 根據某些新穎性或可預測性的衡量指標學習價值函 數或策略. 依據產生內在獎勵指標的不同, 可以分為 基于預測誤差、預測結果不一致性和預測精度提升 的方法.
2.5 基于信息論的方法 信息論中以熵(entropy)為基礎的一系列概念, 天 然地為衡量現實世界中的不確定性而生, 因此信息 度量也成為形式化啟發式概念, 生成內在獎勵的重 要工具[83] , 用于促進智能體高效探索未知區域.
3 應用研究
基于內在動機的 DRL 探索方法起初應用于游戲 領域的智能體策略生成, 隨著 DRL 算法在現實場景基于內在動機的 DRL 探索方法通過構建強啟發 性的探索策略, 可有效應對機器人運動、機械臂操控、 空間探索與導航等領域面臨的探索困難問題. 此外, 在量化投資、自然語言處理等領域, 基于內在動機的 DRL 探索方法也發揮著重要作用. 例如, 針對股票市 場的自動金融交易策略學習問題, Hirchoua 等人[116] 將 PPO 算法與基于好奇心驅動的風險學習的內在獎 勵相結合進行交易策略學習, 并在 8 個真實股票交易 上對其訓練得到的策略的適用性和有效性進行了驗 證; 針對面向目標的對話策略學習問題, Wesselmann 等人[117] 采用基于好奇心的內在獎勵來克服稀疏獎勵 問題, 以改進狀態動作空間的探索效率, 從而獲取更 多有關用戶目標的知識來訓練對話策略。 **4 總結 **
本文首先描述了 DRL 方法對高效率探索方法的 需求、經典方法的原理和局限性, 接著引入了內在動 機的概念和功能, 在此基礎上重點梳理了內在動機 與 DRL 結合的不同形式. 它們主要包括: 1) 受新穎 性動機驅動的基于計數的內在獎勵形式化; 2) 受好 奇心驅動的預測誤差的獎勵設計; 3) 受學習提升期 望驅動的精度提升和信息增益近似方法; 4) 以狀態 多樣性為啟發式的最大熵方法; 5) 追求自主性和控 制力的互信息量化方法. 然后介紹了基于內在動機 的 DRL 探索技術在機器人運動、機械臂操作、空間 探索與導航等領域的應用情況. 最后深入分析了基 于內在動機的 DRL 探索方法在應用于貼近真實的復 雜場景時, 仍面臨著難以構建有效的狀態表示、環境 認知效率低、復雜目標/任務空間探索效果差等關鍵 問題, 并對基于內在動機的探索方法結合表示學習、 知識積累、獎勵設計、目標空間探索、課程學習、多 智能體強化學習等領域方向開展研究進行了展望.
深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。
如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.
摘要
本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。
關鍵詞:遷移學習,強化學習,綜述,機器學習
介紹
強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。
DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。
在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。
在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。
本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。
在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。
第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。