亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習 (Reinforcement learning, RL) 通過智能體與環境在線交互來學習最優策略, 近年來已成為解決復雜環 境下感知決策問題的重要手段. 然而, 在線收集數據的方式可能會引發安全、時間或成本等問題, 極大限制了強化學習在實 際中的應用. 與此同時, 原始數據的維度高且結構復雜, 解決復雜高維數據輸入問題也是強化學習面臨的一大挑戰. 幸運的 是, 基于表征學習的離線強化學習能夠僅從歷史經驗數據中學習策略, 而無需與環境產生交互. 它利用表征學習技術將離線 數據集中的特征表示為低維向量, 然后利用這些向量來訓練離線強化學習模型. 這種數據驅動的方式為實現通用人工智能 提供了新契機. 為此, 對近期基于表征學習的離線強化學習方法進行全面綜述. 首先給出離線強化學習的形式化描述, 然后 從方法、基準數據集、離線策略評估與超參數選擇 3 個層面對現有技術進行歸納整理, 進一步介紹離線強化學習在工業、推 薦系統、智能駕駛等領域中的研究動態. 最后, 對全文進行總結, 并探討基于表征學習的離線強化學習未來所面臨的關鍵挑 戰與發展趨勢, 以期為后續的研究提供有益參考.

付費5元查看完整內容

相關內容

在機器學習中,表征學習或表示學習是允許系統從原始數據中自動發現特征檢測或分類所需的表示的一組技術。這取代了手動特征工程,并允許機器學習特征并使用它們執行特定任務。在有監督的表征學習中,使用標記的輸入數據來學習特征,包括監督神經網絡,多層感知器和(監督)字典學習。在無監督表征學習中,特征是與未標記的輸入數據一起學習的,包括字典學習,獨立成分分析,自動編碼器,矩陣分解和各種形式的聚類。

強化學習作為機器學習的一種范式,因其強大的策略試錯學習能力,受到關注 .隨著深度學習的融入,強 化學習方法在許多復雜的控制任務中取得了巨大成功.然而,深度強化學習網絡作為黑盒模型,其缺乏可解釋性所 帶來的不安全、不可控及難理解等問題限制了強化學習在諸如自動駕駛、智慧醫療等關鍵領域中的發展.為了解決 這一問題,科研人員開展了對強化學習可解釋性的研究 .然而,這些研究開展相對較晚,且缺少針對多智能體強化 學習可解釋性方法的系統性總結,同時,可解釋性的定義存在人為主觀性,導致系統性面向強化學習過程的可解釋 性研究較為困難.本文對當前強化學習的可解釋性研究工作進行了全面的整理與總結.首先,對強化學習的可解釋 性進行定義并總結了相關評估方法.隨后,基于馬爾可夫決策過程,劃分了行為級解釋、特征級解釋、獎勵級解釋及 策略級解釋四個類別 .此外,在每個類別中,分析了單智能體及多智能體的策略解釋方法,并特別關注可解釋性研 究中的人為因素,描述了人機交互式的解釋方法.最后,對當前強化學習可解釋性研究面臨的挑戰以及未來的研究 方向進行總結與展望.

付費5元查看完整內容

近年來, 深度強化學習(deep reinforcement learning, DRL)已經在諸多序貫決策任務中取得矚目成功, 但當前, 深度強化學習的成功很大程度依賴于海量的學習數據與計算資源, 低劣的樣本效率和策略通用性是制約其進一步發展的關鍵因素. 元強化學習(meta-reinforcement learning, Meta-RL)致力于以更小的樣本量適應更廣泛的任務, 其研究有望緩解上述限制從而推進強化學習領域發展. 以元強化學習工作的研究對象與適用場景為脈絡, 對元強化學習領域的研究進展進行了全面梳理: 首先, 對深度強化學習、元學習背景做基本介紹; 然后, 對元強化學習作形式化定義及常見的場景設置總結, 并從元強化學習研究成果的適用范圍角度展開介紹元強化學習的現有研究進展; 最后, 分析了元強化學習領域的研究挑戰與發展前景.

付費5元查看完整內容

近年來, 深度學習模型在眾多領域取得了廣泛成功. 現有的深度學習模型大多部署在靜態環境下, 依賴提前收集好 的數據集進行離線訓練, 模型一經確定, 便無法進一步更新. 然而, 現實中開放動態的環境往往存在以流形式不斷到來的數據, 包括隨時間演進不斷產生的新類別數據. 因此, 理想的機器學習模型應能夠從流式數據中不斷學習新類, 從而增強自身的判別 能力. 這樣的學習范式被稱作“類別增量學習”(class-incremental learning), 且近年來已成為機器學習領域的研究熱點. 面對流 式數據, 直接使用新類別樣本訓練模型會使其遺忘舊類別的數據, 造成整體性能的下降. 因此, 設計增量學習模型時, 需確保模 型在學習新類的同時也能夠抵抗災難性遺忘. 本文從機器學習的三個重要方面 (數據層面, 參數層面, 算法層面) 著眼, 總結和 歸納近幾年基于深度學習的類別增量學習算法. 此外, 本文還在基準數據集上對 10 種典型算法進行了實驗驗證, 并從中總結 出適應類別增量學習的一般性規律. 最后, 本文對基于深度學習的類別增量學習算法目前存在的挑戰加以分析, 并展望未來的 發展趨勢.

近年來, 機器學習方法在眾多領域取得了顯著 的成效,并被廣泛應用到圖片分類[1]、聚類[2,3]、圖 像檢索[4,5]、用戶商品推薦[6,7] 等場景中. 傳統的機器學習模型要求在訓練前取得所有訓練樣本以 進行離線訓練, 并且在訓練結束后無法繼續更新. 然而, 在開放動態環境中, 訓練樣本往往以數據流 的形式到來[8] , 或因存儲、隱私等問題僅在一段時 間內可以獲得[9] . 理想情況下的機器學習模型應 當能夠僅利用數據流中的新樣本更新模型, 而無需 耗費大量計算資源進行重新訓練. 因此, 增量學習1 (incremental learning) 這一概念被提出, 旨在設計具 有持續學習能力的機器學習模型. 面對不斷到來 的新數據, 直接使用他們更新模型會引發災難性遺忘[10,11] (catastrophic forgetting) ——模型在學習新 數據的同時會遺忘以往學得舊數據的模式, 失去對 舊數據的判別能力, 從而導致模型分類性能的急劇 下降. 因此, 如何在模型持續學習新數據的同時抵 抗對舊數據的災難性遺忘便成為增量學習問題的 研究重點.

真實世界中的場景往往會隨時間演進產生新 的類別[12–17] . 例如, 在社交媒體中, 新類型的新聞 事件層出不窮[18,19];在電商平臺上, 新類型的商品 會不斷涌現[20] . 機器學習模型不斷學習新增的類 別無疑會遭受災難性遺忘. 這種新類別在數據流 中不斷到來的增量學習場景被稱為類別增量學習 (class-incremental learning). 理想的學習模型應當能 按順序地學習一系列不斷到來的新類, 從而使自身 的判別能力不斷增強——這種學習過程和人類學習 新事物的過程存在共性[21,22] . 圖1展示了類別增量 學習的訓練和測試過程:模型首先在任務 1 上進 行訓練, 學習分類鳥和水母. 之后, 需要基于當前模 型分別在任務 2 中學習鵝和北極狐、在任務 3 中 學習狗和螃蟹. 按順序完成訓練后, 模型需要在所 有訓練過的類別上進行評估, 一個優秀的類別增量 模型能既學得新類知識, 又不遺忘舊類知識. 在類 別增量學習過程中, 學習新類意味著模型要盡可能 適配新類別的特征, 抵抗災難性遺忘則要求模型仍 然反映舊類別的特征, 因此二者存在學習過程中的 權衡 (trade-off). 這種權衡最早在人類和鼠類的神 經系統中被研究, 又被稱作穩定性-可塑性窘境[23] (stability-plasticity dilemma), 其中穩定性指模型保 持已有知識的能力, 而可塑性指模型學得新知識的能力. 因此, 理想的類別增量學習模型應當既能高 效地學習新類別的知識, 又不遺忘已有類別的舊知 識. 除類別增量學習以外, 依照數據流中新數據 的特征和測試階段的輸入, 增量學習任務還可以 被分為任務增量學習[9,24,25] (task-incremental learning) 和域增量學習[26–28] (domain-incremental learning) 等子類問題. 其中任務增量學習的設定和類別 增量學習非常相似, 二者區別在于, 任務增量學習的 測試階段會為每一個樣本提供額外的任務下標, 模 型只需要在給定任務的標記空間中進行預測, 因而 難度比類別增量學習更小, 從而成為早期增量學習 研究的主要設定. 如圖2所示, 任務增量學習和類別 增量學習的訓練/測試集設定完全一致, 但類別增量 學習要求模型在測試階段在所有已知類別中進行 預測, 而任務增量學習則只要求在給定任務的標記 空間中進行預測. 域增量學習則主要關注數據流發 生概念漂移[29–31] (concept drift) 和分布變化[32–34] 的場景:每個增量任務中都包含所有類別, 但不同 增量任務中同一類別的樣本分布會發生變化. 如 圖2所示, 域增量學習要求模型首先學習真實拍攝 的勺子和床兩種類別, 之后學習剪貼畫風格的勺子 和床, 兩個域之間存在分布變化. 在測試階段則要 求模型能夠對兩種不同風格的圖片給出準確的預 測. 由于在更新模型后要求模型同時區分新類和舊 類, 類別增量學習問題的研究相比任務增量學習和 域增量學習都更具挑戰性, 對于構建真實世界的魯 棒分類器也更加具有現實意義, 因此成為了近年來 增量學習問題研究的重點和難點. 本文主要著眼于類別增量學習算法, 并對該領域最新研究成果進行 分類和總結.

對于增量學習問題的研究可以追溯到對災難 性遺忘現象的觀察[10,11,35] , 早期文獻基于傳統機器 學習方法對增量學習問題進行研究[36–39] , 但其大 多僅關注單階段的增量學習過程, 因此難以應對持 續性、大規模的數據輸入, 無法滿足現今開放動態 環境場景下的應用需求. 隨著機器學習領域的發展 和深度學習的成熟, 基于深度學習的增量學習問題 研究近年來成為機器學習, 數據挖掘等領域主流會 議上的熱點. 而類別增量學習因其應用面最廣, 難 度最大, 在所有增量學習問題的設定中受到最多關 注. 截至目前仍缺少有關基于深度學習的類別增 量學習算法全面而深入的方法綜述, 已有的綜述文 獻大多著眼于早期的任務增量學習算法[9,40] , 并缺 少在大規模數據集上的驗證對比. 其他綜述或關 注不同應用場景下的增量學習研究, 文獻[19] 主要 關注增量學習算法在自然語言處理領域的應用. 文 獻[41] 主要關注增量學習在機器人領域的應用. 文 獻[42] 主要從生物學角度對當前增量學習算法進行 分析. 與上述已有綜述不同, 本文主要關注基于深 度學習的類別增量學習算法, 更加全面深入地對當 前類別增量學習算法進行劃分和綜述. 考慮到機器 學習的三個重要層面——數據層面、參數層面和算 法層面, 本文依此對已有的類別增量學習算法進行 分類和總結. 此外, 本文也對 10 種典型的類別增量學習算法在多個基準公開數據集上進行了廣泛的 驗證和比較. 通過在基準數據集上的實驗比對, 本 文觀察到, 從數據層面考慮, 進行數據重放可以極大 地提升增量學習模型的性能? 從參數層面考慮, 基 于動態模型結構的類別增量學習算法能夠取得當 前最優的性能, 同時也消耗了最多的存儲開銷? 而 從算法層面考慮的知識蒸餾和滯后調節方法能夠 在性能與存儲方面折中.

**本文的主要貢獻如下: **

? 基于機器學習的三個重要層面——數據層面、 參數層面和算法層面, 本文依此對已有的基于 深度學習的類別增量學習算法進行分類和總 結, 同時深入分析了不同方法之間的優勢與不 足. ? 在圖片分類、文本分類等多個基準數據集上對 10 種典型的類別增量學習算法進行了對比評 估. 通過多種評價準則, 在多種數據設定下進 行了比較, 并從存儲開銷、運行時間、混淆矩 陣、消融實驗等多方面對已有方法進行深入對 比分析. ? 討論了基于深度學習的類別增量學習的主要挑 戰和未來研究方向, 從學習場景、數據形式、網 絡結構、優化方式、學習范式、知識遷移等角 度對類別增量學習的未來研究方向進行展望. 本文的組織結構如下:第2章介紹相關工作? 第3章給出類別增量學習問題的定義? 第4章從三個 層面對當前基于深度學習的類別增量學習算法進 行分類和概述, 分別對經典和最新的類別增量學習 算法進行了介紹. 第5章對當前類別增量學習的基 準數據集進行總結, 對于 10 種典型的類別增量學習 算法進行系統性的復現, 并在基準數據集上進行了 測試和分析. 除了模型分類性能以外, 還從模型運 行時間、存儲開銷等多方面分析了不同算法的優劣 勢. 最后, 第6章討論未來增量學習的發展方向并總 結全文.

基于深度學習的類別增量學習算法分類

考慮到機器學習的三個重要層面——數據層 面、參數層面和算法層面, 本文依此對當前的類別 增量學習算法進行分類和總結. 數據層面的類別 增量學習算法主要關注如何利用范例集增廣訓練 集和如何利用范例集樣本約束模型更新過程, 并可 以被細分為數據重放 (data replay) 和數據約束 (data restriction) 兩種子類型. 參數層面的類別增量學習 算法主要關注如何從參數重要性對模型進行約束 和如何動態調整模型的網絡結構/參數數目, 并可以 被分為參數正則 (parameter regularization) 和動態結 構 (dynamic architecture) 兩種子類型. 算法層面的 類別增量學習算法則主要關注如何設計有效的學 習范式以維護模型知識和如何發掘類別增量學習 模型在訓練過程中的偏好并進行調節, 并可以被分 為基于知識蒸餾 (knowledge distillation) 和滯后調節 (post tuning) 兩種子類型. 本文主要關注以上三個層 面的六種子類型學習算法, 并整理和總結相關的研究內容. 對于類別增量學習的算法的分類如表 1所 示. 接下來, 將按照上述思路對每一種層面的類別 增量學習算法進行總結和回顧.

實驗驗證

類別增量學習的未來與展望

本章主要從類別增量學習的三個分類角度對 其發展方向進行討論, 并結合實驗章節中的一些結 論, 討論開放動態環境下類別增量學習方法的發展 方向.

數據層面愈發一般的學習場景:當前的類別增量學習場 景距離真實應用場景依然存在很多額外的限制. 例 如, 要求模型存儲一定數量的舊類樣本作為范例集、 要求給定增量學習任務的邊界以評估參數重要程 度或固定舊模型、在單個任務內要求進行多輪訓練 而非在線訓練等. 若將類別增量學習算法部署到開 放動態環境中, 則需要研究能夠不借助范例集或額 外生成式模型的類別增量學習算法[32]、能夠不依 賴任務邊界進行增量學習的訓練范式[79]、能夠完 全在線更新模型的訓練技巧[184] 等. 對于不給定任 務邊界的增量學習場景, 則可以考慮設計有效地任 務邊界檢測器, 用于判斷數據流是否發生了概念漂 移. 若模型更新完全不能依賴范例集, 則可以考慮 基于無需數據的知識蒸餾方法[185] 從模型中提煉 范例樣本. 愈發復雜的數據形式:開放動態環境中, 數 據往往呈現小樣本[186]、多模態[187]、無標記[188]、 弱監督[189] 有噪聲[190] 等復雜特性. 適應開放動 態環境的類別增量學習算法應當能夠魯棒地應 對復雜環境帶來的多樣化模型輸入. 目前, 已經 有一些工作關注復雜環境下的增量學習問題. 文 獻[156,158,191–194] 關注如何改進知識蒸餾方法以將 類別增量學習算法擴展到小樣本類別增量學習任 務中. 文獻[195] 提出適用于視覺對話生成的多模態 增量學習算法. 文獻[196] 旨在設計算法, 利用無標 記樣本進行增量表示學習. 文獻[197] 關注數據存在 噪聲環境下的類別增量學習研究. 對于小樣本類 別增量學習場景, 應考慮如何設計有效的預訓練手 段[194,198] , 使模型不依賴后續調整就可以獲得有效 的特征表示. 對于多模態類別增量學習場景, 則應 當對應地考慮模態間的相互作用和關聯, 通過模態 關聯性抵抗災難性遺忘.

參數層面

參數精簡的網絡結構:當前的類別增量學習 算法往往部署在較短的數據流中, 然而真實應用中 的增量學習模型可能需要部署在移動終端上, 并進 行長期的增量學習和模型更新過程. 使用動態模型結構的類別增量學習算法需要引入額外的模型 存儲, 這種額外的存儲開銷往往會隨著增量學習任 務數的增多而線性增長. 因此, 開放動態環境下的 應用需要設計適應長數據流的類別增量學習模型 結構, 并保證整個增量學習過程中模型參數具有平 緩的增長速度. 文獻[98,199] 研究了有效替代范例集 的存儲方式, 然而目前尚無工作關注如何設計類別 增量學習模型的緊湊表示. 對于模型大小受限的類 別增量學習過程, 應當考慮引入模型壓縮[200] 和剪 枝[201–203] 手段, 在不傷害模型判別能力的情況下 改善模型的存儲開銷. 任務維度的參數優化:當前類別增量學習算 法對于模型參數的優化方式是基于樣本維度的, 而 元學習[204,205] (meta-learning) 是一種更高階的參數 優化方式, 旨在通過學習大量采樣出的任務學得模 型優化的一般性方式, 并抽取出適應任務的歸納偏 好. 由于元學習算法能夠利用舊任務的學習經驗幫 助新任務的學習, 因此在類別增量學習領域具有廣 泛的應用前景. 文獻[186] 研究了如何借助元學習進 行單階段類別增量學習. 文獻[206] 從梯度優化方面 論證了元學習對增量學習后續任務的幫助. 相似地, 文獻[207] 從特征提取角度驗證了元學習對增量學 習的有效性. 文獻[208] 研究了如何利用元學習輔助 任務增量學習過程. 可通過在增量學習過程中構造 元學習任務[205,209,210] , 將模型在元學習任務中學得 的可泛化的學習能力應用到真實的類別增量學習 任務中.

**算法層面 **

開放世界的學習范式:在開放動態環境下, 模型 應當不僅能學習新類, 更應當擁有檢測未知新類的 能力. 在這種場景下, 分類器能夠自主地檢測和學 習未知新類, 從而實現自動化的學習過程[20] . 檢測 新類要求模型具有開放集識別[18] (open-set recognition) 和新類發現[211] (novel class discovery) 的能 力. 其中開放集識別指模型能夠在區分已知類的 同時檢測數據集中的未知類. 新類發現指模型能夠 從多個未知類構成的集合中發掘出不同新類的子 簇. 將以上二者和類別增量學習過程結合, 便實現 了開放世界學習[212] (open-world learning). 目前機 器學習領域正在關注開放世界學習的研究, 包括語 義分割[213] , 人臉檢測[214] , 圖像分類[20] 等. 若要求 類別增量學習模型應對開放動態環境的輸入, 則應 將其與開放集檢測模型進行結合, 使模型能夠檢測 未知類別的輸入, 并同時擁有順序化學習新類的能力[16,17,20,215] . 雙向傳遞的知識遷移:當前基于知識蒸餾的 類別增量學習算法使用舊模型對新模型進行指導, 從而緩解模型在舊類別上的災難性遺忘. 然而, 很 少有方法關注如何利用舊模型幫助新類別的學習, 這樣的學習范式被稱作雙向知識遷移. 基于零樣本 學習[216] (zero-shot learning) 的方法關注如何使舊 知識輔助新任務的學習, 或可對知識的雙向傳遞有 所幫助. 在這方面, Zhou 等[130] 提出了利用增量學 習過程中新類和舊類間的語義相似關系[217,218] 指 導分類器間最優輸運[219,220] 的增量學習算法, 實 現了從舊模型到新模型的知識遷移. 若要增強模 型的前向知識遷移能力, 可以考慮不同的預訓練手 段[194,221] 和無監督學習[188] 范式, 在模型的初始訓 練階段增強判別能力, 以輔助后續的學習過程.

結論

設計行之有效的類別增量學習算法對于在開 放動態環境下構建魯棒、可拓展的學習模型具有重 大意義, 并引發了大量關注. 本文主要著眼于基于 深度學習的類別增量學習算法, 并從三方面對當前 已有的研究成果進行了分類和總結. 此外, 本文還 將 10 種不同類型的類別增量學習的算法在基準數 據集上進行了廣泛的實驗驗證, 希望對相關研究人 員提供些許參考。

付費5元查看完整內容

隨著深度強化學習的研究與發展, 強化學習在博弈與優化決策、智能駕駛等現實問題中的應用也取得顯著進展. 然而強化學習在智能體與環境的交互中存在人工設計獎勵函數難的問題, 因此研究者提出了逆強化學習這一研究方向. 如何從專家演示中學習獎勵函數和進行策略優化是一個新穎且重要的研究課題, 在人工智能領域具有十分重要的研究意義. 本文綜合介紹了逆強化學習算法的最新進展, 首先介紹了逆強化學習在理論方面的新進展, 然后分析了逆強化學習面臨的挑戰以及未來的發展趨勢, 最后討論了逆強化學習的應用進展和應用前景.

隨著人工智能技術的不斷發展, 智能決策與控制技術變得越來越重要, 促進了機器學習另一個領域—強化學習(Reinforcement learning, RL)的發展. 目前, 強化學習的理論體系日趨完善, 已經廣泛應用于各個領域, 具有巨大的發展前景, 吸引了學術界和工業界的學者對該領域進行深入地探索研究[1-4]. 強化學習算法將策略優化問題建模為馬爾科夫決策過程(Markov decision process, MDP), 其主要目標是通過智能體與環境的試錯交互, 最大化累積獎勵函數和優化策略. 獎勵函數作為MDP的重要組成部分, 因此MDP的求解與獎勵密切相關[5]. 人為設計獎勵函數具有很強的主觀性和經驗性, 獎勵函數的差異會影響強化學習的策略優化. 因此, 如何設計準確的獎勵函數是一項非常重要的工作. 然而, 在復雜環境中, 需要考慮多種因素對獎勵函數的影響, 很難人為設定準確的獎勵函數, 這成為制約強化學習算法發展的瓶頸, 影響了強化學習算法的理論研究和應用發展. 新南威爾士大學Bain等[6]首次較系統地給出了基于行為克隆(Behavior cloning, BC) 的模仿學習(Imitation leaning) 的定義, 該方法采用監督學習的方式, 通過模仿人類專家的動作來學習隨機或確定性策略網絡. 然而該方法無需學習獎勵和推理行為背后產生的內在原因[7], 只能在專家演示下學習最優策略, 無法突破和超越專家演示的最優策略[8]. 因此, 針對如何設計準確的獎勵函數的問題, 2000年加州大學伯克利分校Ag等[9]首次提出逆強化學習(Inverse reinforcement learning, IRL) 的概念. 該算法的基本思想是首先利用專家演示反向推導MDP的獎勵函數, 然后根據學習的獎勵函數去優化策略, 進行正向的強化學習[10].

逆強化學習隨著人工智能技術的不斷成熟表現出強大的發展潛力, 逆強化學習算法的理論和應用領域不斷被完善. 從解決問題的方面來看, 可以分為三大分支. 第一個分支是最早的逆強化學習算法, 主要包括2000年斯坦福大學Abbeel等[11]提出的學徒學習逆強化學習(Apprenticeship learning inverse reinforcement learning, ALIRL)、2006年Ratliff等[12]提出的最大邊際規劃逆強化學習(Maximum margin planning inverse reinforcement learning, MMPIRL)等算法. 然而, 這類算法存在模糊性問題, 即不同的獎勵對應相同的策略. 進而衍生出第二個分支, 基于熵的逆強化學習算法, 主要包括2008年卡內基梅隆大學Ziebart等[13]提出的最大熵逆強化學習(Maximum entropy inverse reinforcement learning, MEIRL)、2011年馬克斯- 普朗克智能系統研究所Boularias等[14]提出的相對熵逆強化學習(Relative entropy inverse reinforcement learning, REIRL)等. 基于熵的逆強化學習最初實現的是特征到獎勵的線性映射, 隨著環境復雜度的增大, 2016年牛津大學Wulfmeier等[15]提出深度逆強化學習算法, 借助神經網絡能擬合任意非線性函數的能力來學習非線性獎勵函數[16-17]. 在專家演示下, 雖然基于熵的逆強化學習算法一定程度上提高了獎勵函數的學習精度, 但有限和非最優的專家演示依然影響著獎勵函數的學習. 因此, 2016年, 斯坦福大學Ho等[18]給出了生成對抗逆強化學習(Generative adversarial inverse reinforcement learning, GAIRL)的基本定義, 通過RL和IRL的學習迭代不斷優化專家演示, 提高獎勵的學習精度. 此外, 在復雜的非線性環境下, 2016年斯坦福大學Levine等[19]提出基于高斯過程的逆強化學習(Inverse reinforcement learning with Gaussian processes, GPIRL), 利用高斯函數的高度非線性確定每個特征與策略的相關性, 求解獎勵函數. 三個分支既相互獨立又相互補充, 基于以上探討, 如何構建高效可靠的獎勵函數和求得最優策略是逆強化學習研究的重點. 在求解的過程中, 針對出現的模糊性和專家演示非最優的問題, 研究者們提出了不同的應對策略, 在一定程度上解決了這些問題. 本文首先介紹逆強化學習算法的發展歷程, 然后重點介紹和討論了逆強化學習算法的應用進展及算法面臨的挑戰.

本文內容安排如下: 第1節介紹了馬爾科夫決策過程、逆強化學習、強化學習、行為克隆等算法的基本概念和知識; 第2節介紹解決MDP問題的逆強化學習算法的研究進展; 第3節介紹了逆強化學習算法的應用進展; 第4節介紹逆強化學習算法面臨的挑戰及解決方案; 第5節對逆強化學習算法的未來進行展望; 第6節對本文內容進行總結.

付費5元查看完整內容

作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。

1. 引言

強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。

深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。

盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]

解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。

常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。

課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。

3. 1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。

(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。

(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。

3. 2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。

付費5元查看完整內容

強化學習 (reinforcement learning, RL) 技術經歷了數十年的發展, 已經被成功地應用于連續決 策的環境中. 如今強化學習技術受到越來越多的關注, 甚至被冠以最接近通用人工智能的方法之一. 但 是, 客觀環境中往往不僅包含一個決策智能體. 因此, 我們更傾向于以多智能體強化學習 (multi-agent reinforcement learning, MARL) 為技術手段, 應對現實的復雜系統.** 近十年來, 多智能體系統 (multiagent system, MAS) 和強化學習的結合日漸緊密, 逐漸形成并豐富了多智能體強化學習這個研究方向. 回顧 MARL 的相關工作, 我們發現研究者們大致從學習框架的討論、聯合動作學習, 以及基于通信的 MARL 這 3 個角度解決 MARL 的問題**. 而本文重點調研基于通信的 MARL 的工作. 首先介紹選取基 于通信的 MARL 進行討論的原因, 然后列舉出不同性質的多智能體系統下的代表性工作. 希望本文能 夠為 MARL 的研究者提供參考, 進而提出能夠解決實際問題的 MAS 方法.

1 引言

如今, 強化學習 (reinforcement learning, RL) 作為人工智能領域中的熱門話題之一, 吸引了很多不 同專業領域學者的關注. 強化學習的本質 [1] 是讓智能體在與環境的不斷交互中, 通過嘗試和犯錯, 學 習如何在特定的時間段中作出合適的序列性決策以解決社會和工程中遇到的問題. 強化學習的發展過程有著鮮明的特征. 在 20 世紀 50 ~ 60 年代以前, 關于 RL 的探索都局限于 反復的試錯. 而后, 貝爾曼提出貝爾曼方程 (Bellman equation) 以及離散的動態系統中的最優控制理 論并且將其建模為馬爾可夫決策過程 (Markov decision process, MDP). 然而最優控制的潛在前提是我 們知道系統相關的所有特性, 實際上這個前提往往是無法滿足的. 這一點恰恰是強化學習的獨特研究 背景之一. 在 20 世紀 60 年代, “Reinforcement Learning” 第一次出現在了工程領域的試錯方法總結 中. 其中影響最深遠的就是 Minsky 的工作 [2], 其中提到了試錯和信任分配 (credit assignment) 的問題, 這些都是強化學習的起源. 此后研究者們從未知環境中試錯的出發點提出了基于時序差分的方法 (temporal differences, TD) [3]、Q- 學習 [4] 和 SARSA [5] . 當時的 RL 技術還處于比較樸素的階段, 主要針對的是規模較小的離散狀態離散動作的場景. 當 狀態或者動作空間連續時, 便無法得到準確的值函數. 這時就需要對值函數進行近似, 從而產生了基 于值函數 (value based) 的強化學習方法. 此外, 如果直接對策略進行近似, 學習的目標就可以直接定 義為最優策略搜索 (policy search) 的性能. 如果在策略近似的同時還引入了值函數的近似, 并且策略 是基于值函數的評價而更新的, 這類方法屬于策略近似的一種特殊形式, 稱為 Actor-Critic 方法, 其中 的 Actor 指的是策略, Critic 指的是值函數. 自從 2015 年, Mnih 等 [6] 在 Atari 環境中利用深度 Q- 學習取得了突破性進展之后, 深度強化學 習 (deep reinforcement learning, DRL) 便開始在機器學習、人工智能領域掀起了一陣熱潮. 研究者們 不斷發現 DRL 的巨大潛力, 不論是機器人控制 [7]、優化與調度 [8] , 或者是游戲和博弈 [6, 9] 等方面都 能夠借助于 DRL 來解決. 而當 DRL 在解決現實問題的時候, 研究者們往往高估了它的能力, 低估了 實現它的難度 [10] . 事實上, 現實世界中的問題是十分復雜的. 本文總結, 現實世界的復雜性很大程度上體現在: 多 數任務所涉及的系統規模較為龐大, 并且根據一些規則或者常識可以分解為多個完成不同子任務的個 體. 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但 從任務層面來看, 這些智能體需要互相配合并且子決策的結果會互相影響. 這樣的系統可以被稱為多 智能體系統 (multi-agent system, MAS). 在多智能體系統中, 各個智能體需要在環境不完全可知的情 況下互相關聯進而完成任務. 簡而言之, 它們可以互相協同, 或者互相競爭, 也可以有競爭有合作. 如 果將強化學習技術用于上述場景中, 相異于傳統強化學習場景的是, 在這種系統中, (1) 至少有兩個智 能體; (2) 智能體之間存在著一定的關系, 如合作關系、競爭關系, 或者同時存在競爭與合作的關系; (3) 每個智能體最終所獲得的獎賞會受到其余智能體的影響. 通常, 我們將這種場景下的強化學習技術稱 為多智能體強化學習 (multi-agent RL, MARL). MARL 場景中的環境是復雜的、動態的. 這些特性給 學習過程帶來很大的困難, 例如, 隨著智能體數量的增長, 聯合狀態及動作空間的規模會呈現出指數擴 大, 帶來較大的計算開銷; 多個智能體是同時學習的, 當某個智能體的策略改變時, 其余智能體的最優 策略也可能會變化, 這將對算法的收斂性和穩定性帶來不利的影響。

針對上述 MARL 的困難, 研究者們提出智能體可以在動態的環境中借助于一些輔助信息彌補其 不可見的信息, 從而高效學得各自的策略. 為了達到這個目的, 研究者們提出了一些方法, 可以大致被 分為以下幾類: (1) 學習框架的討論, 這類工作意在探索一種可行的學習框架, 因此這類工作更多地 偏向于將已有的機器學習 (machine learning, ML) 研究背景或者 RL 技術向 MAS 的場景中作融合; (2) 聯合動作學習, 這類方法基于單智能體的視角, 即將多個智能體合并為一個整體, 而原本各個智能 體的動作則被視為系統 “子部件” 的動作, 但是這類方法在狀態動作空間維數較高時會面臨學習效率 不高的問題; (3) 智能體之間的通信, 即智能體通過發送和接收抽象的通信信息來分析環境中其他智能 體的情況從而協調各自的策略. 學習框架和聯合的多動作學習算法主要依賴于集中式的訓練學習或者 直接共享某些局部信息等條件. 不難發現, 更容易適應于現實系統的是基于通信的這類方法: 集中各 個智能體, 并使各個智能體分享的局部信息的訓練模式在實際應用中很難滿足. 因此, 我們希望智能 體之間可以不依賴于集中式的訓練學習方式, 依舊能夠在不完全可知的環境中分析感知其他智能體的 信息, 從而完成任務. 所以, 通過通信信息來補充環境的缺失信息的這種思路更容易被泛化. 近期, 更 為迫切的實際需求是參與任務的多個智能體不愿意進行諸如策略參數等信息的共享. 這就是聯邦學習 (federated learning, FL) 的要求. 在這種情況下, 算法更需要保證智能體之間只有有限的抽象信息用來傳輸, 從而滿足各個智能體對于隱私的需求。

在多智能體系統中, 如果對智能體的保護程度較高, 即智能體不會直接分享重要的內部信息, 智能 體則需要一些輔助的信息來補充這一部分缺失的不可觀測狀態. 最直觀的做法就是互相傳遞有意義的 通信信息, 這種信息可以在一定程度上幫助智能體對環境進行理解. 但是, 在滿足嚴格的互相不可見, 且有限信息共享的要求的前提下, 智能體之間要做到完全的獨立學習與通信是十分困難的事情. 即便 是在基于通信的 MARL 的工作中, 也有很大一部分工作依賴于集中式的訓練學習或者依賴于智能體 之間重要信息的共享 (例如智能體的動作). 而這樣的學習方式有悖于實際的需求. 因此, 智能體需要 能夠自主地在更新策略的同時自行調整通信信息, 從而做到完全的不依賴于集中式的或基于局部信息 共享的學習. 本文重點回顧基于通信的 MARL 的工作. 我們總結了基于通信的 MARL 的發展歷程, 以及不同 性質的多智能體系統場景下的代表性工作, 進一步給出不同工作的分析以及適用條件. 最后, 我們總結 并展望未來可能進行的探索方向. 我們由衷希望本文能夠為對研究 MARL 的讀者提供幫助.

2 單智能體強化學習

本節主要介紹單智能體 DRL 的基礎知識. 首先, 回顧傳統的強化學習, 即單智能體 (single-agent RL, SARL) 的相關概念, 然后, 介紹深度強化學習的興起、前沿的算法和現存的問題以及挑戰. 方便后 續章節為大家引入多智能體 RL 的問題設定、前沿研究的大致分類和框架.

3 多智能體強化學習

MARL DRL 面對的問題的復雜性很大程度上體現在: 多數任務所涉及的系統結構較為繁雜, 往往根據一 些規則或者常識可以分解為多個完成不同子任務的個體. 也就是說, 為了完成某個任務, 系統需要多個 智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 它們需要互相配合并 且這些智能體各自的子決策結果會互相影響. 在這樣的多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯, 進而完成任務. 它們需要互相配合. “配合” 沒有限定一定要合作, 可以互相競爭也可以有競爭有合作, 依據任務本身 來定. 對于 MAS 的場景, 同樣需要對這類問題進行建模然后探索解決問題的方法.

4 基于通信的多智能體強化學習

在實際系統中, 參與任務的各個智能體往往會考慮安全或者隱私, 不希望過多地依賴于直接共享 各自領域的局部信息來完成任務. 這些關鍵的局部信息可能包括: 各個智能體的動作, 或者直接共享 同樣的策略網絡結構, 甚至是集中起來共享經驗池以更新各個智能體的策略, 也就是中心化的學習 (centralized learning) 的概念. 下面我們簡要地將現有的基于通信的 MARL 或者 MADRL 算法歸類, 然后列舉現在每一類的研究進展. 依據算法利用的 DRL 技術, 現有的基于通信的多智能體深度強化 學習算法 (communication-based multi-agent deep reinforcement learning, CB-MADRL) 大致可以分為 以下幾類: (1) 基于值函數的 CB-MADRL. 這種方法依靠對值函數 (以 Q- 值函數為主) 進行重構使之適用 于 MA 系統, 這部分工作在表 1 中總結. (2) 包含直接策略搜索的 CB-MADRL. 由于表現不夠穩定, 單純使用直接策略搜索作 MAS 決策 的工作十分少見. 現在大多學者都傾向于選擇基于 Actor-Critic 框架作 CB-MADRL 的研究, Actor 是 各個智能體的局部子策略, 通信的過程和效果主要依靠 Critic 來判定, 這部分算法在表 2 中總結. (3) 提升通信效率的突破. 我們發現在以上兩類方法逐漸發展的過程中, 學者們對這些算法也嘗 試了改進, 意在提升通信的效率進而提升算法的學習性能, 相關工作總結于表 3. (4) 關于應急通信的研究. 如今研究領域間的交叉已經極為常見, 很多語言研究領域的研究者們開 始嘗試從通信語言如何產生, 以及通信信息的質量度量等方向進行研究, 從而豐富了多智能體通信的 研究方向, 相關工作總結于表 4. 如果要求智能體通過通信的方式彼此協同完成一項任務, 智能體就需要通過將自己的信息, 例如 狀態和動作等, 編碼成一條有限長的信息, 傳遞給其余智能體, 同時也接受來自其余智能體的信息. 其 目的就是希望智能體能夠將收到的信息作為觀測的補充, 盡可能地還原不可見狀態的信息, 進而得到 近似全局狀態下的最優動作. 上述過程中, 通信的問題主要集中在如何傳遞高質量的通信信息, 具體來 說主要考慮: 通信信息需要包含哪些內容, 以及如何及時地更新通信信息. 在接下來的幾個小節中, 我們將主要從以上兩點為大家介紹并分析現有算法的特性.

5 歸納與展望

通過前面的回顧不難發現, 隨著 DRL 技術的發展, MAS 場景的問題越來越多地可以利用 DRL技術的遷移得到解決. 并且在各種 MAS 環境中都得到了測試, 甚至在星際這樣的游戲上也取得了勝 利. MADRL 的技術和突破是值得肯定的, 并且 MADRL 大背景下的現有工作已經有學者進行了總 結[62] . 我們更加希望各個智能體通過互相必要的溝通, 就能在不完全可知的環境中分析感知環境中其 他智能體的信息, 從而完成既定的任務. 本節主要對現存的 CB-MADRL 算法進行歸納, 然后進一步探 討未來可能需要解決的問題和工作方向.

6 結束語

多智能體強化學習的發展離不開深度強化學習的突破性進展. 而從多智能體強化學習這個層面來 說, 在看到已有的成績的同時, 提高學習效率、提高魯棒性和泛化性的困難依舊存在. 這種困難是多智 能體系統本身固有的性質, 例如環境的非穩定性、獎賞的延遲性和稀疏性、獎賞分配的困難性等. 盡 管這些困難依舊是牽制這個領域發展的因素, 但多智能體強化學習服務于現實系統解決現實問題是學 界的目標. 選擇基于通信的多智能體強化學習算法進行介紹的主要原因是通信本身更迎合實際的應用場景 的需求. 通信信息能夠很自然地使得智能體擺脫中心化的學習的框架. 智能體之間的有效的信息傳遞 不是簡單的私密的信息共享, 而是智能體在不斷地跟環境交互中所給出的有意義的反饋. 這種反饋通 常是抽象的, 是需要協同的智能體互相理解的. 通過對現有的基于通信的多智能體深度強化學習算法的分析, 不難發現能用于現實多智能體系統 中的基于通信的多智能體強化學習算法需要盡可能擺脫其對信息共享的依賴, 也就是盡可能保證較少 的信息共享, 做到完全基于通信. 完全基于通信的隱含意義是智能體在互相不可知的情況下僅僅依靠 通信信息實現缺失信息的補充, 進而擺脫過多的內部信息交流以及中心化學習的需求. 從而有如下的 結果.

? 智能體的隱私需求得到保障: 智能體可以根據自身狀態及接收的信息自行調整傳送信息. ? 算法的泛化性得到提升: 如果智能體可以僅通過通信信息互相理解進而協同完成任務, 在面對不 同任務時智能體可以根據不同的任務需求, 自適應地調整通信信息. 最后, 希望通過我們的介紹能夠對多智能體強化學習, 特別是基于通信手段的多智能體強化學習 方向有所關注的學者們提供一些幫助; 希望通過廣大學者們的努力使得多智能體強化學習技術更快更好地服務于現實世界中的系統.

付費5元查看完整內容

深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].

付費5元查看完整內容

個性化學習推薦是智能學習的一個研究領域,其目標是在學習平臺上給特定學習者提供有效學習資源,從而提升學習積極性與學習效果。雖然現有的推薦方法已被廣泛用于教學場景,但教學活動自身的科學規律,使個性化學習推薦在個性化參數設置、推薦目標設定、評價標準設計等方面具有一定的特殊性。針對上述問題,在調研大量文獻的基礎上對近年來個性化學習推薦的研究進行了綜述。從學習推薦通用框架、學習者建模、學習推薦對象建模、學習推薦算法、學習推薦評價五方面對個性化學習推薦的相關研究進行了系統的梳理和解讀。首先提出了學習推薦系統的通用框架,其次介紹了學習者建模的思路和方法,接著討論了學習推薦對象建模的思路和方法,然后歸納了學習推薦的算法與模型,接下來總結了學習推薦評價的設計與方法。并對這五方面現有研究的主要思想、實施方案、優勢及不足進行了分析。最后還展望了個性化學習推薦未來的發展方向,為智能學習的進一步深入研究奠定了基礎。

付費5元查看完整內容
北京阿比特科技有限公司