一区二区三区四区五区无码,全网最新黄色网站,91系列高清露脸对白,亚洲色婷婷综合久久一区色欲,丰满乱子无码视频

強化學習 (reinforcement learning, RL) 技術經歷了數十年的發展, 已經被成功地應用于連續決策的環境中. 如今強化學習技術受到越來越多的關注, 甚至被冠以最接近通用人工智能的方法之一. 但是, 客觀環境中往往不僅包含一個決策智能體. 因此, 我們更傾向于以多智能體強化學習 (multi-agent reinforcement learning, MARL) 為技術手段, 應對現實的復雜系統.** 近十年來, 多智能體系統 (multiagent system, MAS) 和強化學習的結合日漸緊密, 逐漸形成并豐富了多智能體強化學習這個研究方向. 回顧 MARL 的相關工作, 我們發現研究者們大致從學習框架的討論、聯合動作學習, 以及基于通信的 MARL 這 3 個角度解決 MARL 的問題**. 而本文重點調研基于通信的 MARL 的工作. 首先介紹選取基于通信的 MARL 進行討論的原因, 然后列舉出不同性質的多智能體系統下的代表性工作. 希望本文能夠為 MARL 的研究者提供參考, 進而提出能夠解決實際問題的 MAS 方法.

1 引言

如今, 強化學習 (reinforcement learning, RL) 作為人工智能領域中的熱門話題之一, 吸引了很多不同專業領域學者的關注. 強化學習的本質 [1] 是讓智能體在與環境的不斷交互中, 通過嘗試和犯錯, 學習如何在特定的時間段中作出合適的序列性決策以解決社會和工程中遇到的問題. 強化學習的發展過程有著鮮明的特征. 在 20 世紀 50 ～ 60 年代以前, 關于 RL 的探索都局限于反復的試錯. 而后, 貝爾曼提出貝爾曼方程 (Bellman equation) 以及離散的動態系統中的最優控制理論并且將其建模為馬爾可夫決策過程 (Markov decision process, MDP). 然而最優控制的潛在前提是我們知道系統相關的所有特性, 實際上這個前提往往是無法滿足的. 這一點恰恰是強化學習的獨特研究背景之一. 在 20 世紀 60 年代, “Reinforcement Learning” 第一次出現在了工程領域的試錯方法總結中. 其中影響最深遠的就是 Minsky 的工作 [2], 其中提到了試錯和信任分配 (credit assignment) 的問題, 這些都是強化學習的起源. 此后研究者們從未知環境中試錯的出發點提出了基于時序差分的方法 (temporal differences, TD) [3]、Q- 學習 [4] 和 SARSA [5] . 當時的 RL 技術還處于比較樸素的階段, 主要針對的是規模較小的離散狀態離散動作的場景. 當狀態或者動作空間連續時, 便無法得到準確的值函數. 這時就需要對值函數進行近似, 從而產生了基于值函數 (value based) 的強化學習方法. 此外, 如果直接對策略進行近似, 學習的目標就可以直接定義為最優策略搜索 (policy search) 的性能. 如果在策略近似的同時還引入了值函數的近似, 并且策略是基于值函數的評價而更新的, 這類方法屬于策略近似的一種特殊形式, 稱為 Actor-Critic 方法, 其中的 Actor 指的是策略, Critic 指的是值函數. 自從 2015 年, Mnih 等 [6] 在 Atari 環境中利用深度 Q- 學習取得了突破性進展之后, 深度強化學習 (deep reinforcement learning, DRL) 便開始在機器學習、人工智能領域掀起了一陣熱潮. 研究者們不斷發現 DRL 的巨大潛力, 不論是機器人控制 [7]、優化與調度 [8] , 或者是游戲和博弈 [6, 9] 等方面都能夠借助于 DRL 來解決. 而當 DRL 在解決現實問題的時候, 研究者們往往高估了它的能力, 低估了實現它的難度 [10] . 事實上, 現實世界中的問題是十分復雜的. 本文總結, 現實世界的復雜性很大程度上體現在: 多數任務所涉及的系統規模較為龐大, 并且根據一些規則或者常識可以分解為多個完成不同子任務的個體. 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 這些智能體需要互相配合并且子決策的結果會互相影響. 這樣的系統可以被稱為多智能體系統 (multi-agent system, MAS). 在多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯進而完成任務. 簡而言之, 它們可以互相協同, 或者互相競爭, 也可以有競爭有合作. 如果將強化學習技術用于上述場景中, 相異于傳統強化學習場景的是, 在這種系統中, (1) 至少有兩個智能體; (2) 智能體之間存在著一定的關系, 如合作關系、競爭關系, 或者同時存在競爭與合作的關系; (3) 每個智能體最終所獲得的獎賞會受到其余智能體的影響. 通常, 我們將這種場景下的強化學習技術稱為多智能體強化學習 (multi-agent RL, MARL). MARL 場景中的環境是復雜的、動態的. 這些特性給學習過程帶來很大的困難, 例如, 隨著智能體數量的增長, 聯合狀態及動作空間的規模會呈現出指數擴大, 帶來較大的計算開銷; 多個智能體是同時學習的, 當某個智能體的策略改變時, 其余智能體的最優策略也可能會變化, 這將對算法的收斂性和穩定性帶來不利的影響。

針對上述 MARL 的困難, 研究者們提出智能體可以在動態的環境中借助于一些輔助信息彌補其不可見的信息, 從而高效學得各自的策略. 為了達到這個目的, 研究者們提出了一些方法, 可以大致被分為以下幾類: (1) 學習框架的討論, 這類工作意在探索一種可行的學習框架, 因此這類工作更多地偏向于將已有的機器學習 (machine learning, ML) 研究背景或者 RL 技術向 MAS 的場景中作融合; (2) 聯合動作學習, 這類方法基于單智能體的視角, 即將多個智能體合并為一個整體, 而原本各個智能體的動作則被視為系統 “子部件” 的動作, 但是這類方法在狀態動作空間維數較高時會面臨學習效率不高的問題; (3) 智能體之間的通信, 即智能體通過發送和接收抽象的通信信息來分析環境中其他智能體的情況從而協調各自的策略. 學習框架和聯合的多動作學習算法主要依賴于集中式的訓練學習或者直接共享某些局部信息等條件. 不難發現, 更容易適應于現實系統的是基于通信的這類方法: 集中各個智能體, 并使各個智能體分享的局部信息的訓練模式在實際應用中很難滿足. 因此, 我們希望智能體之間可以不依賴于集中式的訓練學習方式, 依舊能夠在不完全可知的環境中分析感知其他智能體的信息, 從而完成任務. 所以, 通過通信信息來補充環境的缺失信息的這種思路更容易被泛化. 近期, 更為迫切的實際需求是參與任務的多個智能體不愿意進行諸如策略參數等信息的共享. 這就是聯邦學習 (federated learning, FL) 的要求. 在這種情況下, 算法更需要保證智能體之間只有有限的抽象信息用來傳輸, 從而滿足各個智能體對于隱私的需求。

在多智能體系統中, 如果對智能體的保護程度較高, 即智能體不會直接分享重要的內部信息, 智能體則需要一些輔助的信息來補充這一部分缺失的不可觀測狀態. 最直觀的做法就是互相傳遞有意義的通信信息, 這種信息可以在一定程度上幫助智能體對環境進行理解. 但是, 在滿足嚴格的互相不可見, 且有限信息共享的要求的前提下, 智能體之間要做到完全的獨立學習與通信是十分困難的事情. 即便是在基于通信的 MARL 的工作中, 也有很大一部分工作依賴于集中式的訓練學習或者依賴于智能體之間重要信息的共享 (例如智能體的動作). 而這樣的學習方式有悖于實際的需求. 因此, 智能體需要能夠自主地在更新策略的同時自行調整通信信息, 從而做到完全的不依賴于集中式的或基于局部信息共享的學習. 本文重點回顧基于通信的 MARL 的工作. 我們總結了基于通信的 MARL 的發展歷程, 以及不同性質的多智能體系統場景下的代表性工作, 進一步給出不同工作的分析以及適用條件. 最后, 我們總結并展望未來可能進行的探索方向. 我們由衷希望本文能夠為對研究 MARL 的讀者提供幫助.

2 單智能體強化學習

本節主要介紹單智能體 DRL 的基礎知識. 首先, 回顧傳統的強化學習, 即單智能體 (single-agent RL, SARL) 的相關概念, 然后, 介紹深度強化學習的興起、前沿的算法和現存的問題以及挑戰. 方便后續章節為大家引入多智能體 RL 的問題設定、前沿研究的大致分類和框架.

3 多智能體強化學習

MARL DRL 面對的問題的復雜性很大程度上體現在: 多數任務所涉及的系統結構較為繁雜, 往往根據一些規則或者常識可以分解為多個完成不同子任務的個體. 也就是說, 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 它們需要互相配合并且這些智能體各自的子決策結果會互相影響. 在這樣的多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯, 進而完成任務. 它們需要互相配合. “配合” 沒有限定一定要合作, 可以互相競爭也可以有競爭有合作, 依據任務本身來定. 對于 MAS 的場景, 同樣需要對這類問題進行建模然后探索解決問題的方法.

4 基于通信的多智能體強化學習

在實際系統中, 參與任務的各個智能體往往會考慮安全或者隱私, 不希望過多地依賴于直接共享各自領域的局部信息來完成任務. 這些關鍵的局部信息可能包括: 各個智能體的動作, 或者直接共享同樣的策略網絡結構, 甚至是集中起來共享經驗池以更新各個智能體的策略, 也就是中心化的學習 (centralized learning) 的概念. 下面我們簡要地將現有的基于通信的 MARL 或者 MADRL 算法歸類, 然后列舉現在每一類的研究進展. 依據算法利用的 DRL 技術, 現有的基于通信的多智能體深度強化學習算法 (communication-based multi-agent deep reinforcement learning, CB-MADRL) 大致可以分為以下幾類: (1) 基于值函數的 CB-MADRL. 這種方法依靠對值函數 (以 Q- 值函數為主) 進行重構使之適用于 MA 系統, 這部分工作在表 1 中總結. (2) 包含直接策略搜索的 CB-MADRL. 由于表現不夠穩定, 單純使用直接策略搜索作 MAS 決策的工作十分少見. 現在大多學者都傾向于選擇基于 Actor-Critic 框架作 CB-MADRL 的研究, Actor 是各個智能體的局部子策略, 通信的過程和效果主要依靠 Critic 來判定, 這部分算法在表 2 中總結. (3) 提升通信效率的突破. 我們發現在以上兩類方法逐漸發展的過程中, 學者們對這些算法也嘗試了改進, 意在提升通信的效率進而提升算法的學習性能, 相關工作總結于表 3. (4) 關于應急通信的研究. 如今研究領域間的交叉已經極為常見, 很多語言研究領域的研究者們開始嘗試從通信語言如何產生, 以及通信信息的質量度量等方向進行研究, 從而豐富了多智能體通信的研究方向, 相關工作總結于表 4. 如果要求智能體通過通信的方式彼此協同完成一項任務, 智能體就需要通過將自己的信息, 例如狀態和動作等, 編碼成一條有限長的信息, 傳遞給其余智能體, 同時也接受來自其余智能體的信息. 其目的就是希望智能體能夠將收到的信息作為觀測的補充, 盡可能地還原不可見狀態的信息, 進而得到近似全局狀態下的最優動作. 上述過程中, 通信的問題主要集中在如何傳遞高質量的通信信息, 具體來說主要考慮: 通信信息需要包含哪些內容, 以及如何及時地更新通信信息. 在接下來的幾個小節中, 我們將主要從以上兩點為大家介紹并分析現有算法的特性.

5 歸納與展望

通過前面的回顧不難發現, 隨著 DRL 技術的發展, MAS 場景的問題越來越多地可以利用 DRL技術的遷移得到解決. 并且在各種 MAS 環境中都得到了測試, 甚至在星際這樣的游戲上也取得了勝利. MADRL 的技術和突破是值得肯定的, 并且 MADRL 大背景下的現有工作已經有學者進行了總結[62] . 我們更加希望各個智能體通過互相必要的溝通, 就能在不完全可知的環境中分析感知環境中其他智能體的信息, 從而完成既定的任務. 本節主要對現存的 CB-MADRL 算法進行歸納, 然后進一步探討未來可能需要解決的問題和工作方向.

6 結束語

多智能體強化學習的發展離不開深度強化學習的突破性進展. 而從多智能體強化學習這個層面來說, 在看到已有的成績的同時, 提高學習效率、提高魯棒性和泛化性的困難依舊存在. 這種困難是多智能體系統本身固有的性質, 例如環境的非穩定性、獎賞的延遲性和稀疏性、獎賞分配的困難性等. 盡管這些困難依舊是牽制這個領域發展的因素, 但多智能體強化學習服務于現實系統解決現實問題是學界的目標. 選擇基于通信的多智能體強化學習算法進行介紹的主要原因是通信本身更迎合實際的應用場景的需求. 通信信息能夠很自然地使得智能體擺脫中心化的學習的框架. 智能體之間的有效的信息傳遞不是簡單的私密的信息共享, 而是智能體在不斷地跟環境交互中所給出的有意義的反饋. 這種反饋通常是抽象的, 是需要協同的智能體互相理解的. 通過對現有的基于通信的多智能體深度強化學習算法的分析, 不難發現能用于現實多智能體系統中的基于通信的多智能體強化學習算法需要盡可能擺脫其對信息共享的依賴, 也就是盡可能保證較少的信息共享, 做到完全基于通信. 完全基于通信的隱含意義是智能體在互相不可知的情況下僅僅依靠通信信息實現缺失信息的補充, 進而擺脫過多的內部信息交流以及中心化學習的需求. 從而有如下的結果.

? 智能體的隱私需求得到保障: 智能體可以根據自身狀態及接收的信息自行調整傳送信息. ? 算法的泛化性得到提升: 如果智能體可以僅通過通信信息互相理解進而協同完成任務, 在面對不同任務時智能體可以根據不同的任務需求, 自適應地調整通信信息. 最后, 希望通過我們的介紹能夠對多智能體強化學習, 特別是基于通信手段的多智能體強化學習方向有所關注的學者們提供一些幫助; 希望通過廣大學者們的努力使得多智能體強化學習技術更快更好地服務于現實世界中的系統.

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

強化學習 · 深度學習 · 深度強化學習 · 課程學習 · 遷移學習 ·

2022 年 11 月 28 日

[付費5元查看完整內容]基于課程學習的深度強化學習研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。

1. 引言

強化學習(Reinforcement Learning,RL) 作為機器學習分支之一,在人工智能領域具有重要地位[1] :智能體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整自身的動作策略,從而生成總獎勵值最大的動作策略模型[2]。傳統強化學習方法在有限狀態空間和動作空間的任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態任務往往具有很大的狀態空間和連續的動作空間,尤其當輸入數據為圖像和聲音時,傳統強化學習很難處理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強化學習中的值函數和策略函數[6] 。

深度強化學習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名專家 Hinton、Bengio、Lecun 在《Nature》上發表的深度學習綜述一文將深度強化學習作為深度學習的重要發展方向[13] 。

盡管在過去三十年間取得很大進步,但由于標準強化學習智能體的初始設定都是隨機策略,在簡單環境中通過隨機探索和試錯,能夠達成較好的訓練效果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵信號的稀疏性,強化學習從環境中獲取樣本的成本不斷提高,學習時間過長,從而影響了智能體的有效探索[15]。

解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊在國際頂級機器學習會議 ICML 上首次提出課程學習的概念[17] ,引起機器學習領域的巨大轟動。課程學習借鑒人類從簡單到復雜的學習思想,首先在任務集中篩選出部分簡單任務進行學習以產生訓練課程,而后在剩余的復雜任務中利用訓練課程進行學習,最后在整個訓練集中進行訓練。將課程學習和深度強化學習相結合,可以有以下兩個方面的作用[18] :(1)可以加快訓練模型的收斂速度,避免訓練初期對于復雜任務投入過多訓練時間;(2)提高模型的泛化能力,增強對復雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度對深度強化學習中的課程學習進行了分類整理,之后對近三年的基于課程學習的深度強化學習新算法進行了總結分析,最后討論了基于課程學習的深度強化學習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提高對目標任務的學習速度或性能[19] ,課程學習流程如圖 1 所示。課程馬爾可夫決策過程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。

常見的課程創建方法有以下兩種[21] :(1)在線創建課程,根據智能體對給定頂點樣本的學習進度動態添加邊;(2)離線創建課程,在訓練前生成圖,并根據與不同頂點相關聯的樣本的屬性選擇邊。課程設計流程如圖 2 所示。

課程學習方法可認為包括三部分[22] :任務生成、排序和遷移學習。任務生成是創建一組好的中間任務的過程,從中獲取經驗樣本。排序研究了如何在一組經驗樣本上創建部分排序 D ,也就是說,如何生成課程圖的邊。遷移學習主要研究如何將知識從一個或多個源任務直接轉移到目標任務。為了評價源任務遷移到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。即智能體在遷移知識的前提下能夠以多快的速度學習到最優策略,從而在目標任務上實現預期的性能值 GO 逸啄 ,其中啄是總任務期望的性能閾值。 (2) 初始性能提升。通過從源任務進行遷移,觀察智能體在學習過程中對目標任務的初始性能提升來衡量遷移效果。 (3)漸近性能提升。通過比較智能體在使用遷移與不使用遷移時目標任務收斂后的最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任務需要很長的時間。在深度強化學習中應用課程學習,可以通過利用一個或多個源任務的知識來加速或改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃分為簡單任務;(2)在盡量小的專家經驗支持下,根據面向對象的任務描述自動生成課程;(3) 使用生成的課程來跨任務重用知識。實驗表明在人工指定和生成子任務方面都取得了更好的性能。為了提高多智能體的學習性能,Jayesh 等人應用前饋神經網絡( Feedforward Neural Network,FNN) 完成協同控制任務[27] , 包括離散和連續動作任務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不同任務的訓練。為了解決從稀疏和延遲獎勵中學習的局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的課程學習方法[29] ,帶參數的模塊被附加上預先確定的參數,該策略比單組參數的效果更好。

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46] ,盡管在過去的三十年中取得了許多進步,但在許多領域的學習仍然需要與環境進行大量的交互,導致模型的訓練時間過長,收斂速度過慢。為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更難的任務時加以利用。然而,盡管課程學習理論、算法和應用研究在國內外已普遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但仍然有許多問題還亟待解決。

3. 1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的多智能體強化學習性能提升明顯,但在大規模多智能體環境中,由于環境和智能體之間的復雜動態以及狀態-行動空間的爆炸,因此在實際問題的解決上進展不大[49] 。得益于深度神經網絡的數據處理能力,使用深度神經網絡表示回報函數,避免了特征提取工作,當前基于課程學習的深度強化學習算法在實驗場景中應用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。隨著課程學習技術的發展,算法在智能決策[54] 、困難編隊下的合作導航[55] 、在 SUMO 交通模擬器中協商多車輛變道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也取得了一定的成功。該綜述分四個角度對目前強化學習中的課程學習方法進行分類并介紹,希望能夠為相關研究人員提供一點幫助。為方便了解和對比,該文分析、對比了這幾類方法的優缺點,并歸納在表 1 中。

(1)基于網絡優化的課程學習。解決大規模問題的方法是從小型多智能體場景開始學習,逐步增加智能體的數量,最終學習目標任務。使用多種傳輸機制以加速課程學習過程,課程設計是影響課程遷移成績的關鍵因素。如何選擇合適的課程(包括如何決定每個任務的訓練步長,如何選擇合適的學習模型重新加載等)是至關重要的。如何自動生成多智能體課程可能是目前尚存在的主要局限性,這將在今后的工作中進一步研究[58] 。

(2)基于多智能體合作的課程學習。是根據全局目標和個體目標之間的關系進行學習探索,使用信度分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函數增強方案來連接價值和策略函數的階段,在具有高維狀態空間的多目標多智能體環境中執行高挑戰性任務性能較好,缺點是沖突較為頻繁、更高的方差和無法維持合作解決方案[59] ,目前難以推廣到非齊次系統或沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。通過限制其最初行動空間來設置內部課程,使用非策略強化學習同時估計多個行動空間的最優值函數,建立技能、表述和有意義的經驗數據集,從而避免從頭開始學習,加快學習效率。缺點是集群對每個狀態都會改變[60] ,這可能會干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。 通過設定級數函數和映射函數來為智能體量身定制在線課程,通過高斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。使用神經網絡作為函數逼近器來估計動作-價值函數,并提出一個獎勵函數來幫助單位平衡它們的移動和攻擊。缺點是只提供最初的啟發式解決方案[61] ,而且質量不能得到保證。

3. 2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節對當前基于課程學習的深度強化學習存在的開放性問題和可能的研究方向進行討論。 (1)自動創建任務課程。任務創建是課程學習方法的重要組成部分,任務質量會影響課程的生成質量,任務數量會影響課程排序算法的搜索空間和效率。現有課程學習中的任務大多由人工創建,減少任務創建過程中的人工輸入量是未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。課程任務之間,知識必須從一個任務遷移到另一個任務。目前大部分研究中,知識遷移的類型是固定的。例如, Narvekar 等人在任務之間遷移價值函數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。這種知識遷移類型的局限性在于,不同的任務對于知識類型的需求可能是不同的,因此可以從不同任務中分別提取知識進行組合。例如,從一個任務中提取一個選項,從另一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。當前課程學習方法的另一個局限性是,生成課程的時間可能比直接學習目標任務的時間更長。原因在于,課程通常是為每個智能體和目標任務獨立學習的。因此,分攤成本的一種方法是學習一門課程來訓練多個不同的智能體[65] ,或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回顧,由淺入深地對課程學習進行了分析,介紹了課程學習的概念理論、經典算法、研究進展和發展展望等,從基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習四個角度對強化學習中的課程學習進行了分類梳理、對比分析,最后對基于課程學習的深度強化學習的未來展望進行簡要分析。根據當前深度強化學習中存在的狀態空間復雜、維數災難、學習時間長等問題,課程學習會是未來的一個發展方向。課程學習算法可以將目標任務分解成多個子任務,結合大多數的強化學習算法,使用多種傳輸機制以加速強化學習進程,大大提高了學習探索效率和通用性。最后,目前課程算法在大規模多智能體場景的研究進展緩慢,其主要原因在于多智能體場景的復雜性。然而大規模多智能體場景更加貼近現實,優質的課程學習算法能夠在很大程度上提高學習探索的效率。因此,相信課程學習算法會成為深度強化學習的熱門方向,加快深度強化學習的發展速度。

付費5元查看完整內容

博弈論 · 多智能體 · 強化學習 · 多智能體強化學習 · 綜述論文 ·

2022 年 4 月 30 日

[付費5元查看完整內容]「博弈論視角下多智能體強化學習」研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

繼AlphaGO系列的巨大成功之后，2019年是一個蓬勃發展的一年，見證了多智能體強化學習(MARL)技術的重大進展。MARL對應于多智能體系統中多個智能體同時學習的學習問題。這是一個具有悠久歷史的跨學科領域，包括博弈論、機器學習、隨機控制、心理學和優化。盡管MARL在解決現實世界的游戲方面取得了相當大的經驗上的成功，但文獻中缺乏一個完整的概述來闡述現代MARL方法的博弈理論基礎，并總結最近的進展。事實上，現有的大多數綜述都是過時的，沒有完全涵蓋2010年以來的最新發展。在這項工作中，我們提供了一個關于MARL的專著，包括基本原理和研究前沿的最新發展。本綜述分為兩部分。從§1到§4，我們介紹了MARL的完備的基礎知識，包括問題公式、基本解決方案和現有的挑戰。具體地說，我們通過兩個具有代表性的框架，即隨機博弈和廣義博弈，以及可以處理的不同博弈變體，來呈現MARL公式。這一部分的目的是使讀者，即使是那些相關背景很少的人，掌握MARL研究的關鍵思想。從§5到§9，我們概述了MARL算法的最新發展。從MARL方法的新分類開始，我們對以前的研究論文進行了調研。在后面的章節中，我們將重點介紹MARL研究中的幾個現代主題，包括Q函數分解、多智能體軟學習、網絡化多智能體MDP、隨機潛在博弈、零和連續博弈、在線MDP、回合制隨機博弈、策略空間響應oracle、一般和博弈中的近似方法、以及具有無限個體的游戲中的平均場類型學習。在每個主題中，我們都選擇了最基礎和最先進的算法。我們調研的目的是從博弈理論的角度對當前最先進的MARL技術提供一個完備的評估。我們希望這項工作能夠為即將進入這個快速發展的領域的新研究人員和現有的領域專家提供一個跳板，他們希望獲得一個全景視圖，并根據最近的進展確定新的方向。

//openreview.net/forum?id=ORgCYmo0os

引言

機器學習可以看作是將數據轉換為知識的過程(Shalev-Shwartz & Ben-David, 2014)。學習算法的輸入是訓練數據(例如，含有貓的圖像)，輸出是一些知識(例如，關于如何在圖像中檢測貓的規則)。這些知識通常表示為能夠執行某些任務的計算機(例如，自動貓探測器)。在過去的十年中，一種特殊的機器學習技術——深度學習(LeCun et al.， 2015)取得了長足的進步。深度學習的一個重要體現的是不同種類的深層神經網絡(DNNs)(Schmidhuber, 2015),可以找到分離表示(Bengio, 2009)在高維數據, 這使得軟件訓練本身執行新任務而不是僅僅依賴于程序員手工設計規則。通過使用DNNs，計算機視覺(Krizhevsky et al., 2012)和自然語言處理(Brown et al., 2020; Devlin et al., 2018)是取得了顯著的進展。

現代人工智能應用正在從純粹的特征識別(例如，在圖像中檢測一只貓)轉變為決策(安全通過交通十字路口)，其中不可避免地會發生多個智能體之間的交互。因此，每個智能體都必須采取戰略性的行為。此外，這個問題變得更具挑戰性，因為當前的決定會影響未來的結果。

除了從現有數據進行特征識別，現代人工智能應用通常需要計算機程序根據所獲得的知識做出決策(見圖1)。為了說明決策的關鍵組成部分，讓我們考慮現實世界中控制汽車安全通過十字路口的例子。在每一個時間步，機器人汽車都可以通過轉向、加速和制動來移動。目標是安全駛出十字路口并到達目的地(可以選擇直走或左轉/右轉入另一條車道)。因此,除了能夠檢測對象,如交通信號燈、車道標記,和其他汽車(通過將數據轉化為知識),我們的目標是找到一個能控制汽車的方向盤政策做出一系列演習達到目標(決策基于獲得的知識)。在這樣的決策環境中，還會出現兩個額外的挑戰:

首先，在決策過程中，在每一個時間步，機器人小車不僅要考慮當前行動的即時價值，還要考慮當前行動在未來的后果。例如，在開車通過一個十字路口的情況下，如果策略選擇在過程的開始轉向一個“安全”的方向，這將是有害的，如果它最終會導致隨后的車禍。
其次，為了正確安全地做出每一個決定，汽車還必須考慮到其他汽車的行為，并采取相應的行動。例如，人類駕駛員通常會提前預測其他車輛的移動，然后采取戰略性的應對措施(比如給迎面駛來的車輛讓路，或者加速駛入另一條車道)。

對適應性決策框架的需求，以及處理多個交互學習者的復雜性，導致了多智能體學習的發展。Multi-agent RL解決的是在一個共享的隨機環境中運行多個智能agent的順序決策問題，每個智能agent的目標是通過與環境和其他agent的交互來最大化其長期回報。多智能體強化學習是在多智能體系統和資源學習的基礎上建立起來的。在下一節中，我們將簡要概述(單agent) RL及其近幾十年的研究進展。

強化學習發展簡述

**RL是機器學習的一個子領域，其中代理學習如何在與環境的交互過程中基于試錯過程的最佳行為。與以帶標簽的數據作為輸入的監督學習(例如帶有貓標簽的圖像)不同，RL是面向目標的:它構建了一個學習模型，學習通過試錯改進來實現最優的長期目標，學習者沒有帶標簽的數據來獲取知識。“強化”一詞指的是學習機制，因為導致滿意結果的行動在學習者的行為集合中得到了強化。

歷史上，RL機制最初是在研究貓在謎盒中的行為的基礎上發展起來的(Thorndike, 1898)。Minsky(1954)在他的博士論文中首次提出了RL的計算模型，并將他得到的模擬機器命名為隨機神經模擬強化計算器。幾年后，他首先提出了動態規劃(Bellman, 1952)和RL (Minsky, 1961)之間的聯系。在1972年，Klopf(1972)將試錯學習過程與心理學中發現的時間差異(TD)學習結合起來。在為更大的系統擴展RL時，TD學習很快成為不可或缺的。Watkins & Dayan(1992)在動態規劃和TD學習的基礎上，使用馬爾可夫決策過程(MDP)為今天的RL奠定了基礎，并提出了著名的Q-learning方法作為求解器。作為一種動態規劃方法，原來的Q-learning過程繼承了Bellman (Bellman, 1952)的“維數災難”(curse of dimensional維數災難)，當狀態變量數量較大時，極大地限制了它的應用。為了克服這一瓶頸，Bertsekas & Tsitsiklis(1996)提出了基于神經網絡的近似動態規劃方法。最近，來自DeepMind的Mnih等人(2015)通過引入深度q -學習(DQN)架構取得了重大突破，該架構利用了DNN對近似動態規劃方法的表示能力。DQN已經在49款Atari游戲中展示了人類水平的表現。從那時起，深度RL技術在機器學習/人工智能中變得普遍，并引起了研究社區的大量關注。

RL源于對動物行為的理解，動物使用試錯法來強化有益的行為，然后更頻繁地執行這些行為。在其發展過程中，計算RL整合了諸如最佳控制理論和其他心理學發現等思想，這些思想有助于模仿人類做出決策的方式，從而使決策任務的長期收益最大化。因此，RL方法自然可以用來訓練計算機程序(代理)，使其在某些任務上達到與人類相當的性能水平。RL方法對人類玩家的最早成功可以追溯到西洋雙陸棋(Tesauro, 1995)。最近，應用RL解決順序決策問題的進展標志著AlphaGo系列的顯著成功(Silver et al.， 2016;2017;2018年)，一名自學的RL智能體，擊敗了圍棋游戲的頂級專業玩家，這款游戲的搜索空間(10761種可能的游戲)甚至比宇宙中的原子數量還要多。

AlphaGo系列的成功標志著單agent決策過程的成熟。2019年是MARL技術蓬勃發展的一年;在解決極具挑戰性的多人實戰策略電子游戲和多人不完全信息撲克游戲方面取得了顯著進展。

事實上，大多數成功的RL應用，如游戲GO2、機器人控制(Kober et al.， 2013)和自動駕駛(Shalev-Shwartz et al.， 2016)，自然涉及多個人工智能智能體的參與，這探索了MARL領域。正如我們所預期的，單agent RL方法取得的重大進展——以2016年GO的成功為標志——預示著未來幾年多agent RL技術的突破。

強化學習多智能體興盛

2019年是MARL發展的繁榮之年，在過去人們認為不可能通過人工智能解決的極具挑戰性的多智能體任務上取得了一系列突破。盡管如此，MARL領域取得的進展，盡管令人矚目，但在某種程度上已經被AlphaGo之前的成功所掩蓋(Chalmers, 2020)。AlphaGo系列有可能(Silver et al.， 2016;2017;2018年)已經在很大程度上滿足了人們對RL方法有效性的期望，因此對該領域的進一步發展缺乏興趣。MARL的進展在學術界引起的反響相對溫和。在本節中，我們將重點介紹幾項工作，我們認為這些工作非常重要，并且可能深刻影響MARL技術的未來發展。

單代理MDP(左)和多代理MDP(右)示意圖

MARL的一個熱門測試平臺是星際爭霸2 (Vinyals等人，2017年)，這是一款擁有自己職業聯賽的多人即時策略電腦游戲。在這個博弈中，每個參與人關于博弈狀態的信息都是有限的，而且搜索空間的維度比圍棋大了幾個數量級(每一步有1026種可能的選擇)。《星際爭霸2》中有效的RL方法的設計曾一度被認為是人工智能的一個長期挑戰(Vinyals等人，2017)。然而，AlphaStar在2019年實現了突破(Vinyals et al.， 2019b)，它已經展示了特級大師水平的技能，排名超過人類玩家的99.8%。

MARL的另一個著名的基于視頻游戲的測試平臺是Dota2，這是一個由兩支隊伍玩的零和游戲，每支隊伍由5名玩家組成。從每個agent的角度來看，除了不完全信息的難度(類似于星際爭霸2)，Dota2更具挑戰性，在這個意義上，團隊成員之間的合作和與對手的競爭都必須考慮。OpenAI Five人工智能系統(Pachocki et al.， 2018)在一場公開的電子競技比賽中擊敗了世界冠軍，在Dota2中展現了超人的表現。除了星際爭霸2和Dota2, Jaderberg等人(2019)和Baker等人(2019a)分別在抓旗和捉迷藏游戲中表現出了人類水平的表現。雖然游戲本身不如星際爭霸2或Dota2復雜，但對于人工智能agent來說，掌握戰術仍然不是一件容易的事情，所以agent令人印象深刻的表現再次證明了MARL的有效性。有趣的是，兩位作者都報告了由他們提出的MARL方法引發的緊急行為，人類可以理解，并以物理理論為基礎。

MARL最后一個值得一提的成就是它在撲克游戲《Texas hold ' em》中的應用，這是一種多玩家廣泛形式的游戲，玩家可以獲得不完整的信息。Heads-up(即兩個玩家)無限持有的游戲中有超過6 × 10161種信息狀態。直到最近，游戲中才出現了突破性的成就，這多虧了MARL。兩個獨立的程序，DeepStack (Morav?ík等人，2017)和Libratus (Brown & Sandholm, 2018)，能夠擊敗專業的人類玩家。最近，Libratus被升級為Pluribus (Brown & Sandholm, 2019年)，并表現出非凡的表現，在無限制設置中贏得了5名精英人類專業人士的100多萬美元。為了更深入地理解RL和MARL，需要對概念進行數學表示法和解構。在下一節中，我們將提供這些概念的數學公式，從單代理RL開始，逐步發展到多代理RL方法。

單智能體強化學習

**單agent RL通過試錯，RL agent試圖找到最優策略，使其長期回報最大化。該過程由馬爾可夫決策過程制定。

多智能體強化學習

多智能體RL在多智能體場景中，很像在單智能體場景中，每個智能體仍然試圖通過試錯過程來解決順序決策問題。不同之處在于，環境狀態的演化以及每個agent收到的獎勵函數現在都是由所有agent的聯合行動決定的(見圖3)。因此，agent不僅需要考慮環境，還需要與其他學習agent進行交互。一個涉及多個主體的決策過程通常通過隨機對策(Shapley, 1953)來建模，也被稱為馬爾可夫對策(Littman, 1994)。

與單agent RL相比，多agent RL是一個更適合現實世界AI應用的通用框架。然而，由于多個agent同時學習的存在，除了單agent RL中已經存在的方法外，MARL方法提出了更多的理論挑戰。與通常有兩個代理的經典MARL設置相比，解決多代理RL問題更具挑戰性。事實上，1 組合復雜性，2 多維學習目標和3 非平穩性問題都導致大多數MARL算法能夠解決只有4個參與者的博弈，特別是兩方零和博弈。