針對典型海空協同作戰中指揮控制技術對時效性、準確性和跨域融合能力的高要求, 提出了一種先驗知識啟發的雙層強化學習框架. 通過研究先驗知識啟發的獎勵塑造方式, 提取作戰子任務設計狀態聚合方法, 從而把具體狀態映射到抽象狀態; 基于抽象狀態使用馬爾科夫決策過程(Markov decision process, MDP)理論進行建模, 使用強化學習算法求解該模型; 使用最終求解出的抽象狀態價值函數進行基于勢能的獎勵塑造. 以上流程與下層具體MDP 過程并行求解, 從而搭建了一個雙層強化學習算法框架.基于全國兵棋推演大賽的兵棋推演平臺進行了實驗, 在狀態空間、動作空間、獎勵函數等方面細化算法. 指出了先驗知識代表從上而下的任務式指揮方式, 而多智能體強化學習在某些結構上符合自下而上的事件式指揮方式. 兩種方式結合, 使得該算法控制下的作戰單元學習到協同作戰戰術, 面對復雜環境具有更好的魯棒性. 經過仿真實驗, 該算法控制的紅方智能體對抗規則智能體控制的藍方可以獲得70 %的勝率.海空協同作戰是高技術戰爭條件下最為典型的 作戰樣式之一[1] , 其作戰空間包含海、空、天、電磁等領 域, 具有典型的跨域作戰特征. 海空協同作戰面臨戰場態勢復雜快變、信息不完 全、不同域之間戰術協同困難、決策時效性要求高等 問題[2] , 需要指揮員從跨域的視角審視問題, 將不同領 域的能力予以互補, 對指揮控制技術提出了更高的要 求[3-4] . 傳統的指揮控制理論具有局限性[5] , 較多考慮同 一領域力量的疊加性利用, 缺乏跨域視角[6] . 近年來, 以 多智能體強化學習(multi-agent-reinforcement-learning, MARL)為代表的智能決策技術發展迅速, 在星際 爭霸[7]、足球[8]比賽等大型實時策略類游戲應用中甚至 能夠擊敗人類頂尖玩家, 該技術在解決多智能體對抗 博弈問題領域中具有顯著優勢, 為研究海空協同作戰 的指揮控制技術開辟了新的技術路線. 綜上所述, 研究多智能體強化學習技術在海空協 同作戰的指揮決策中的應用, 有助于輔助指揮官制定 戰略戰術, 推動新型指揮控制技術的研究.
首先介紹典型多智能體強化學習算法(monotonic value function factorisation for deep multi-agent reinforcement learning, QMIX)的研究現狀, Tabish 等研究 者提出的 QMIX 算法[9]采用分布式決策、集中式訓練 的方法, 在理論上可以較好地適應海空協同作戰的特 點. 作戰編成中的各個作戰單元可以根據局部觀測進 行決策, 同時在全局信息和獎勵分解的幫助下兼顧全 局最優策略. 但是在實際應用中, 海空協同作戰往往 比較復雜, 存在獎勵稀疏的問題, 單純的 QMIX 算法 存在探索效率不高 [10] , 魯棒性較差的問題, 這會導致 算法最后無法學習到較好的協作策略. 為提升 QMIX 算法性能, 本文將目光投向了專家 先驗知識[11] . 在海空協同作戰中, 往往存在許多與作 戰相關的高階先驗知識[12] , 子任務是其中最重要也是 最常見的一種. 指揮員通過對作戰階段的劃分, 在時 間上把復雜的總作戰任務分解成多個子任務, 通過從 上而下的任務式指揮方式, 指導作戰集群完成一系列 子任務, 最終實現總作戰任務. 如何使用子任務相關的先驗知識提高 QMIX 算 法的性能, 成為了本文的關鍵研究問題之一. 為有效使用子任務相關的先驗知識, 首先研究先 驗知識與強化學習算法的結合方式, 在強化學習中, 先驗知識可以是一種偏好, 或是一種目標狀態. 為了 將先驗知識嵌入到算法中, 偏好可以用智能體在選擇 不同動作的概率分布表示[13]; 目標狀態可以用相應的 獎勵進行表示. 這些先驗知識發生在強化學習訓練以 前, 由人類根據以往的實踐經驗或是主觀想法設定. Takato 等研究者將獎勵函數的自動塑造方法與 狀態聚合方法結合, 提出了使用在線獎勵塑造加速單 智能體強化學習訓練的方法[14] . 但是該方法使用的狀 態聚合由志愿者人工指定, 且沒有驗證在多智能體強 化學習中的可行性.
針對上述研究背景與研究問題, 本文提出了一種 戰術先驗知識啟發的多智能體雙層強化學習算法. 根 據人類先驗知識, 把 MARL 問題的總任務分解成一 系列的子任務, 設計狀態聚合方法, 構建了狀態聚合 函數, 把具體狀態映射到抽象狀態. 接著基于抽象狀 態對抽象 MDP 進行建模[15] , 使用強化學習算法求解該 模型. 最后使用求解出的抽象狀態價值函數進行基于 勢能的獎勵塑造. 以上流程與下層具體 MDP 并行求 解, 從而搭建了一個雙層強化學習算法框架, 使得獎 勵稠密化, 加速下層 MDP 的求解. 為驗證算法效果, 本文基于海空協同作戰這一任務背景進行了仿真實 驗. 實驗結果表明, 使用戰術先驗知識啟發的多智能 體雙層強化學習算法能夠指揮智能體團體實現總體 作戰意圖, 學習到協同作戰的策略. 與此同時, 各智能 體仍可以根據自身觀察和全局信息作出獨立決策, 具 有較好的魯棒性, 符合作戰要素融合化和去中心化的 特點.
多智能體協同決策問題是群體智能領域一個重要的研究方向,隨著深度強化學習算法在多智能體決策領域如游戲AI、推薦系統、智能交通等方面的應用,基于深度強化學習的多智能體算法已經成為一個研究熱點。文中分別針對不完全信息決策、復雜決策空間設計以及動態博弈等問題開展分析,并闡述了相應的算法或模型,最后對未來多智能體領域的研究進行了展望。
多智能體[1-5]系統由一群有自主性的,可互相 交互的實體組成,它們共享一個相同的環境,通過感 知器感知環境并通過執行器采取行動。根據系統中 智能體的結構不同可以分為同構多智能體系統和異 構多智能體系統,異構多智能體系統個體間模型不 統一,使得個體感知環境的方式或者決策空間存在 一定的差異。在多智能體系統中,智能體通過與環 境進行交互獲取當前決策下的獎勵,智能體基于獎 勵改善策略并獲得最優策略的方法為多智能體強化 學習算法。
相對于單智能體策略學習問題,多智能體策略 學習過程具有更高的復雜度。一方面在于多智能體 不僅要考慮環境因素,還要考慮到己方、敵方、中立 方的行動和意圖; 另一方面考慮智能體間的神經網 絡網絡是相互連接的,以此來促進智能體之間的協 同性。在單智能體強化學習中,智能體所在的環境 通常是穩定不變的,但是在多智能體強化學習中,環 境是復雜的、動態的,因此給學習過程帶來很大的困 難。強化學習[5]算法包含狀態值函數和動作- 狀態 值函數等要素。在多智能體強化環境中,狀態空間、 動作空間隨智能體數量指數增長,因此多智能體情形下搜索空間通常非常巨大,對計算資源要求高。基于每個智能體的任務不同,其決策動作的獎勵設 計不同,但是彼此之間又相互耦合影響,其設計的優 劣對學習到的策略好壞有直接的影響。多個智能體 的策略是同時學習的,在單個智能體的策略發生改 變時,其他智能體的最優策略也可能會變化,這將對 算法的收斂性帶來影響。
根據對多智能體控制形式的不同,多智能體協 同算法可以分為集中式( 中心化) 控制算法與分布 式( 去中心化) 控制算法。集中式控制算法通常把 整個多智能體系統的協作機制看成一個整體,通過 一個全局性的中央單元對所有單元進行統一控制。與集中式控制算法對應,分布式控制算法將各個智 能體劃分為單個主體,每一個主體獨立處理環境狀 態信息,并做出行為決策。隨著深度思考等知名研 究機構在星際爭霸 2、守護古樹 2 等多智能體游戲 環境中取得突破,基于深度強化學習算法[6-8]實現 對多智能體集中式或分布式協同控制的研究已經成 為人工智能領域的研究熱點。本文主要介紹應對多智能體博弈環境下面臨信 息不完全、動作空間維度爆炸、動態不確定性等問題 的主要方法,并對未來深度強化學習算法的發展及 應用進行展望。
智能博弈對抗是人工智能認知決策領域亟待解決的前沿熱點問題.以反事實后悔最小化算法為代表的博弈論方法和 以虛擬自博弈算法為代表的強化學習方法,依托大規模算力支撐,在求解智能博弈策略中脫穎而出,但對兩種范式之間的關聯 缺乏深入發掘. **文中針對智能博弈對抗問題,定義智能博弈對抗的內涵與外延,梳理智能博弈對抗的發展歷程,總結其中的關 鍵挑戰.**從博弈論和強化學習兩種視角出發,介紹智能博弈對抗模型、算法.多角度對比分析博弈理論和強化學習的優勢與局 限,歸納總結博弈理論與強化學習統一視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范式的結合提供方向,推動智 能博弈技術前向發展,為邁向通用人工智能蓄力.
1. 導論
對抗是人類社會發展與演進的主旋律,廣泛存在于人與 自然、人與人、人與機器之間,是人類思維活動特別是人類智 能的重要體現.人工智能浪潮中,對抗的形式不斷發生變化, 貫穿計算智能、感知智能和認知智能3個階段[1].以對抗關 系為主的博弈研究,為探索認知智能的關鍵技術原理提供了 有效工具.在認知智能層面,信息環境復雜、對抗對手復雜、 策略求解復 雜 等 愈 發 逼 近 真 實 世 界 的 復 雜 場 景 應 用 需 求, 推動了博弈對抗能力的不斷提升.高 度 保 留 真 實 世 界 特 性 (巨復雜、高動態、強對抗)的智能博弈對抗技術逐漸成為了金 融、經濟、交通等民用領域的技術引擎和軍事智能化實現的重 要助推力.在民用領域,尤其是在保護各種關鍵公共基礎設 施和目標的挑戰性任務[3]中,智能博弈對抗技術不可或缺, 例如博物館、港口、機場等安全機構部署有限的防護資源,在 入口處或者外圍路網設置安檢口進行警力的巡邏防控[4].在 軍事領域,智能博弈技術積極推動了指揮與控制的智能化發 展[5],美國先后啟動了“深綠”[6]、指揮官虛擬參謀[7]、“終身學習機器”“指南針”(COMPASS)等項目,旨在縮短“觀察G判 斷G決策G行動”(OODA)的循環時間.
近年來,在 人 機 對 抗 場 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、絕 悟[12]等 一 大 批 高 水 平 AI在 游 戲 驗證平臺中戰勝了人類玩家,智能博弈發展取得了顯著突破. 智能博弈技術的巨大成功主要依賴于博弈論和強化學習兩種 范式的結合[13]:博弈論提供了有效的解概念來描述多智能體 系統的學習結果,但主要是在理論上發展,應用于實際問題的 范圍較窄;深度強化學習算法為智能體的訓練提供了可收斂 性學習算法,可 以 在 序 列 決 策 過 程 中 達 到 穩 定 和 理 性 的 均 衡[14G15].一方面,反事實后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一種迭代搜索算法,其依托 大規模算力支撐,在求解大規模不完美信息博弈策略中脫穎 而出,逐漸成為了智能博弈中博弈論范式下的先進代表性算 法之一.另 一 方 面,虛 擬 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大規模分布式計算框架,在求解多智能體系統問 題中成為了一種通用的強化學習框架,先后被成功應用到雷 神之錘III [18]、星際爭霸[19]、王者榮耀[12]、德州撲克[20]等復雜 大規模對抗場景.CFR 與 FSP是博弈范式和強化學習范式 中的典型方法,也是連接兩種范式的算法基礎.本文將深挖 博弈范式與強化學習范式的深層聯系,為兩種范式的結合提 供方向,推動智能博弈技術前向發展,為邁向通用人工智能 蓄力.
本文第2節簡要介紹了智能博弈對抗,包括智能博弈對 抗的內涵與外延、智能博弈對抗發展歷史以及智能博弈對抗 中的關鍵挑戰;第3節介紹了智能博弈對抗模型,包括博弈論 的基礎模型———擴展式博弈模型和強化學習的基礎模型——— 部分可觀隨機博弈模型,以及結合擴展式博弈模型與馬爾可 夫模型的通用模型———觀察信息可分解的隨機博弈模型,從 模型上梳理了博弈理論和強化學習的內在聯系;第4節進行 了博弈論與強化學習的對比分析,首先詳細梳理了博弈論和 強化學習視角下的典型對抗方法,分別以 CFR 和 FSP 為代 表介紹其具體原理,分析變體改進思路,然后多角度對比分析 博弈理論與強化學習的優缺點,探討后悔值與值函數等基礎 概念的聯系,歸納總結博弈理論與強化學習的結合方法和結 合框架;第5節介紹了智能博弈對抗研究前沿,歸納了當前熱 點前沿智能博弈問題,分別從面向復雜博弈場景的智能博弈 模型、多智能體場景下博弈論與強化學習融合的智能博弈方 法、結合對手建模 的 智 能 博 弈 方 法,以 及 結 合 元 學 習 的 多 任務場景泛化4個角度討論了智能 博 弈 前 沿 研 究;最 后 總 結全文.
2. 智能博弈對抗簡介
**智能博弈對抗的內涵與外延 **
廣義上的智能概念涵蓋了人工智能、機 器 智 能、混 合 智 能和群體智能.本 文 的 智 能 概 念 特 指 認 知 智 能 中 機 器 的 自主決策能力,即機器智能,表現為機器模 擬 人 類 的 行 為、思考方式,通過攝像頭、話筒等傳感器接收 外 界 數 據,與 存 儲器中的數據進行對比、識別,從而進行判斷、分 析、推 理、 決策.機器智能智能水平的高低可 分 為 若 干 層 次,如 從 最 簡單的應激反射算法到較為基礎的控 制 模 式 生 成 算 法,再 到復雜神經網 絡 和 深 度 學 習 算 法.博 弈 對 抗 指 代 以 對 抗 關系為主的博弈,在 沖 突 為 主 的 背 景 下 博 弈 方 (擁 有 理 性 思維的個體或群體)選 擇 行 為 或 策 略 加 以 實 施,并 從 中 取 得各自相應的結果或收 益[21].博 弈 與 對 抗 是 人 類 演 化 進 程中的重要交互活動,是人類智能和人 類 思 維 方 式 的 重 要 體現.這種 交 互 活 動 廣 泛 存 在 于 個 體 與 個 體、個 體 與 群 體、群體與群體之間.
智能博弈對抗發展歷史
博弈對抗不斷推動著智能水平的發展,對抗場景從早期 的“圖靈測試”到目前的“通用場景”探索,不斷向真實世界場 景靠攏. 2016年,DeepMind基于深度強化學習和蒙特卡洛樹搜 索開發的智能圍棋博弈程序 AlphaGo [8],以4∶1的分數戰勝 了人類頂級圍棋選手李世石,這標志著人工智能的發展重點 逐漸由感知智能向認知智能過渡.同年,辛辛那提大學基于 遺傳模糊樹構建的 AlphaAI空戰系統[22]在空戰對抗中擊敗 人類飛行員,這成為了無人系統博弈對抗能力生成的推動性 進展.2017年,DeepMind提出的基于自博弈強化學習的棋 類 AIAlphaZero [23]可以從零開始自學圍棋、國際象棋和將 棋,并擊敗了 AlphaGo.以圍棋為代表的完全信息博弈已基 本得到解決,智能博弈的研究開始轉向德州撲克和星際爭霸 等不完全信息博弈.同年,阿爾伯塔大學和卡內基梅隆大學 先后開發了智能 德 州 撲 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 機 對 抗 中 擊 敗 了 職 業 玩 家.2018 年,DeepG Mind在雷神之 錘III奪 旗 游 戲 中 提 出 了 一 種 基 于 種 群 訓 練的多智能 體 強 化 學 習 框 架[18],訓 練 構 建 的 AIFTW 的 性能超越了人類玩家水平.隨后,智 能 博 弈 朝 著 多 智 能 體 參與、通用場景擴 展 遷 移 等 方 向 不 斷 發 展,高 效 海 量 數 據 的實時采樣(數據)、大 規 模 算 力 加 速 采 樣 和 優 化 (算 力)、 大規模集群架構算 法(算 法)成 為 了 多 智 能 體 強 化 學 習 成 功的關鍵.博弈 均 衡 的 方 法 在 多 智 能 體 博 弈 中 仍 存 在 理 論上的局限性,但基于兩人框架的多人 博 弈 擴 展 依 舊 在 實 驗中具有較好表 現,如 2019 年 卡 內 基 梅 隆 大 學 的 六 人 德 州撲克 智 能 博 弈 程 序 Pluribus [10]擊 敗 了 多 名 職 業 玩 家. 隨后,智能博弈的研 究 趨 勢 開 始 形 成 “高 質 量 對 抗 數 據 引 導”+“分布式強化學習訓練”的模式(如麻將 AISuphx,星 際爭霸 AIAlphaStar [19],谷歌足球 AI覺悟GWeKick),并 逐 漸擺脫先驗 知 識,直 接 完 成 “端 到 端 ”的 學 習 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、兩 人 德 州 撲 克 AI AlG phaHoldem [20]).2021 年,DARPA 舉 辦 的 AlphaDogFight 挑戰賽[28]推動了無人系統 博 弈 對 抗 能 力 的 提 升.另 一 方 面,DARPA 開始布局通 用 AI的 探 索 性 項 目,推 動 智 能 博 弈向強人工智 能 邁 進.智 能 博 弈 對 抗 發 展 歷 程 與 典 型 應 用總結如圖1所示.
智能博弈對抗中的關鍵挑戰 復雜博弈環境難評估
(1)不完全信息與不確定性 環境中的不完全信息與不確定性因素提高了博弈決策的 難度.戰爭迷霧造成的不完全信息問題中,關于其他智能體 的任何關鍵信息(如偏好、類型、數量等)的缺失都將直接影響 智能體對世界狀態的感知,并間接增加態勢節點評估的復雜 性.不僅如此,考慮不完全信息帶來的“欺騙”(如隱真、示假 等[29G31])行為,將進一步擴展問題的維度.此外,不確定性引 入了系統風險,任何前期積累的“優勢”都可能因環境中隨機 因素的負面影響而“落空”.如何綜合評估當前態勢進行“風 險投資”,以獲得最大期望回報,成為了研究的另一個難點. 另一方面,在策略評估與演化過程中,如何去除不確定因素帶 來的干擾[32]成為了“準確評價策略的好壞、尋找優化的方向” 的難點.
(2)對抗空間大規模
在一些復雜博弈環境中,狀態空間和動作空間的規模都 非常龐大(見表1),搜索遍歷整個對抗空間,無論是在時間約 束上還是在存儲空間約束上[33]都難以滿足要求.
模型抽象[34G35]的方法在一定程度上可以降低問題的規 模,但缺乏理論保證,往往以犧牲解的質量為代價[36].即使以求 解 次 優 策 略 為 目 標,部 分 優 化 算 法 (如 EGT [37]、一 階 (FirstOrder)算法)仍舊難以直接應用到抽象后的模型.蒙 特卡洛采樣可以有效地加快算法的速率,但在復雜環境下,如 何與其他方法結合并減小搜索中的方差依舊是研究的難點.
** 多智能體博弈難求解**
**(1) 均衡特性缺失 **
納什均衡作為非合作博弈中應用最廣泛的解概念,在兩 人零和場景中具有成熟的理論支撐,但擴展到多智能體博弈 時具有較大局限性.兩人零和博弈具有納什均衡存在性和可 交換性等一系列優良特性[39].然而,多人博弈的納什均衡解 存在性缺乏理論保證,且計算復雜,兩人一般和博弈的納什均 衡 是 PPAD 難 問 題[40],多 人 一 般 和 的 計 算 復 雜 度 高 于 PPAD.即使可以在多人博弈中有效地計算納什均衡,但采 取這樣的納什均衡策略并不一定是“明智”的.如果博弈中的 每個玩家都獨立地計算和采取納什均衡策略,那么他們的策 略組合可能并不是納什均衡,并且玩家可能具有偏離到不同 策略的動機[41G42]. **(2) 多維學習目標 **
對于單智能體強化學習而言,學習目標是最大化期望獎 勵,但是在多智能體強化學習中,所有智能體的目標不一定是 一致的,學習目標呈現出了多維度[13].學習目標可以分為兩 類[43]:理性和收斂性.當對手使用固定策略時,理性確保了 智能體盡可能采取最佳響應,收斂性保證了學習過程動態收 斂到一個針對特定對手的穩定策略,當理性和收斂性同時滿 足時,會達到新的納什均衡. **(3) 環境非平穩 **
當多個智能體同時根據自己的獎勵來改進自身策略時, 從每個智能體角度來看,環境變得非平穩,學習過程難以解 釋[44].智能體本身無法判斷狀態轉移或獎勵變化是自身行 為產生的結果,還是對手探索產生的.完全忽略其他智能體獨立學習,這種方法有時能產生很好的性能,但是本質上違背 了單智能體強化學習理論收斂性的平穩性假設[45].這種做 法會失去環境的馬爾可夫性,并且靜態策略下的性能測度也 隨之改變.例如,多智能體中單智能體強化學習的策略梯度 法的收斂 結 果 在 簡 單 線 性 二 次 型 博 弈[46](LinearGQuadratic Games)中是不收斂的.
3 智能博弈對抗模型
**擴展式博弈模型 **
擴展式博弈適用于序貫決策中建模智能體與環境的重復 交互過程,尤其是存在“智能體對其他智能體之前的決策節點 不可分辨(含有隱藏信息)”或者“智能體遺忘之前的決策(不 完美回憶)”的情景.
部分可觀隨機博弈
與擴展 式 博 弈 的 樹 結 構 不 同,馬 爾 可 夫 博 弈 (Markov Game)也稱隨機博弈(StochasticGame),具有馬爾可夫鏈式 結構.
**通用模型 **
博弈理論和強化學習理論并不互斥,在模型上,博弈論的 擴展式博弈模型和強化學習的部分可觀隨機博弈兩種模型之 間具有一定的聯系,例如都可以通過放寬某些條件限制轉化 為觀察 信 息 可 分 解 的 隨 機 博 弈 (FactoredGObservationStoG chasticGames,FOSG)[58].FOSG 是 POSG 的一種擴展性變 體,模型聚焦于公共信息(PublicInformation)的表示和分解, 如圖3所示.
4 博弈論與強化學習的對比分析
博弈論和強化學習是求解序貫決策問題的有效工具,然 而它們在算法特性(泛化性、可解釋性、收斂性保證)、應用場 景(多人博弈、序貫博弈、即時策略博弈)以及硬件資源(算力 需求)等 方 面 各 有 所 長,本 文 總 結 了 近 5 年 AAAI,IJCAI, NeuralPS,AMMAS,ICRL等人工智能頂刊頂會中與智能博 弈技術相關的博弈論與強化學習文章,按專家打分的方法,繪 制對比分析雷達圖,如圖7所示.博弈理論在兩人零和博弈 問題上已經具有較為成熟的理論,包括納什均衡(以及其他解概念)的等價性、存在性、可交換性(Interchangeability)[39]等, 但在多人博弈問題中還需要新的解概念以及相關理論的支 撐.CFR算法通過后悔值迭代更新生成策略,模型具有可解 釋性.但是,完美回放和終端可達的強烈假設限制了 CFR 的 使用場景[92].強化學習結合深度學習,直接實現端到端的學 習,具有很強的泛化性,在多智能體博弈中已取得較多成功應 用.但網絡的訓練往往需要超大規模的算力支撐,且模型的 可解釋性不強.本節將對兩種方法的具體局限性進行深入剖 析,為兩種方法的結合互補提供方向.
5. 智能博弈對抗研究前沿
** 面向復雜博弈場景的智能博弈模型**
博弈論中的“信息集”和強化學習中的“觀察函數”都是針 對智能博弈場景中不完全信息的形式化描述.現實世界中,博 弈場景更加復雜,不完全信息引發了博弈信息“不可信”等問 題———智能體通常是不完全理性的,并且不同認知層次的智能 體參與的博弈具有 “欺詐[114G115]”“隱藏”“合謀”“認知嵌套(建 模對手的同時,對手也在建模利用己方)”[116G117]等新挑戰.如 何針對認知博弈對抗中的新挑戰,形式化描述“欺騙”等復雜博 弈要素,建立復雜博弈信息的量化評估體系,成為了智能博弈 向真實世界遷移應用的模型基礎.
**多智能體場景下博弈論與強化學習融合的智能博弈方法 **
雖然博弈論提供了易于處理的解決方案概念來描述多智 能體系統的學習結果,但是納什均衡是一個僅基于不動點的 靜態解概念,在描述多主體系統的動態特性方面(如循環集 (RecurrentSet)[118]、周 期 軌 道 (Periodic Orbits)和 極 限 環 (LimitCycles)[55])具有局限性.一方面,尋求具有更多優良 特性的多人博弈新解概念,探索多人局部納什均衡點求解方 法,將是博弈視角下求解多智能體博弈問題的新突破口;另一 方面,發揮深度學習和強化學習在信息表征、復雜函數擬合 方面的優勢,基于自博弈求解框架、值函數評估方法、強化學 習結合 CFR等方法,探索博弈論方法與強化學習的有效融合 機制,將是突破多智能體博弈學習瓶頸的前沿方向.
**結合對手建模的智能博弈方法 **
對抗勝負的本質是超越對手的相對優勢,決策的制定必 須以對手的行動或策略為前提.納什均衡是應對未知通用對 手時最小化最壞可能性,用最“保險”的策略應對,而并不是尋 求最優應對策略.放寬納什均衡中“未知通用對手”的設定, 考慮不完全理性對手的最佳應對,一些新的解 概 念[61]被 提 出,結合顯式對手建模(ExplicitOpponentModeling)[119]和均 衡近似,平衡利用性與剝削性,實現多目標優化,為融合對手 建模的博弈學習提供參考.此外,在一些更加復雜的對抗場 景中,如 對 手 具 有 學 習 意 識 (OpponentGLearning AwareG ness)[120]等,最大熵多智能體強化學習[121]成為研究如何進行 博弈均衡對抗策略選擇的新趨勢.不僅如此,反對手建模方 法也在同步發展.基于意圖識別設計[122]的對抗意圖識別、 包含意圖隱藏與欺騙的對抗意圖識別方法等[123]反對手建模 方法在欺騙路徑規劃[29]等問題中得到了一定的研究.在復 雜博弈對抗場景中,如何基于對手模型安全利用對手,以及如 何保全自我反對手建模成為了新的探索性研究.
**結合元學習的多任務場景泛化 **
學習模型如何更好地泛化到差異很大的新領域中,是一 種更加高效和智能的學習方法.元學習(MetaLearning)逐 漸發展成為讓機器學會學習的重要方法.元學習是通用人工 智能(GeneralAI)的分支,通過發現并推廣不同任務之間的 普適規律來解決未知難題.元學習的輸入是一個任務集合, 目的是對每個任務的特性和任務集合的共性建模,發現任務 之間的共性和內在規律,以追求在差異較大任務之間的遷移, 且不會產生 較 大 的 精 度 損 失,目 前 其 已 經 擴 展 到 元 強 化 學 習[124G125]、元模仿學習[126]、元遷移學習、在線元學習[127]、無監 督元學習[128G129]等.如 何 結 合 博 弈 理 論 和 元 強 化 學 習 的 優 勢,構建高效、可解釋性強、具有收斂性保障和泛化性的近似 納什均衡求解體系,將是未來智能博弈技術發展的巨大推動 力之一.
**結束語 **
本文針對智能博弈對抗問題,介紹了智能博弈 對抗的內涵與外延,梳理了智能博弈對抗發展歷程,總結了其 中的關鍵挑戰.從博弈論和強化學習兩種視角出發,介紹了 智能博弈對抗模型和算法,多角度對比分析了博弈理論和強 化學習的優勢與局限,歸納總結了博弈理論與強化學習統一 視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范 式的結合提供方向,推動智能博弈技術前向發展,為邁向通用 人工智能蓄力.
摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。
索引詞:基于智能體的建模,智能體,機器學習,多智能體系統
只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。
圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。
近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。
在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:
首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰
其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。
具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究,即無人機的自主機動決策。形成了大量研究成果,但其中基于強化學習(RL)的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標,最突出的是遺傳算法(GA),A*,RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗(Alpha Dogfight Trials)中,強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后,強化學習帶來了巨大的關注。在這項研究中,將無人機作為目標,該無人機有一個杜賓斯車動態特性,在二維空間中使用雙延遲深確定策略梯度(TD3)以最佳路徑移動到目標,并用于經驗回放(HER)。首先,它的目的是讓agent采取最佳路徑到達目標,過程中有障礙物。在每個情節中,我們的agent從一個隨機點開始,我們的目標是穩定的,其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后,為了測試機制的極限,使我們的agent更難達到目標,并使其執行不同的機動性,我們添加了障礙物。它表現得很好,克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法,它使用了雙延遲深度確定性策略梯度(TD3),這是一種為具有連續行動的MDP定制的算法,使用強化學習作為基礎。
【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey
【作者團隊】Sven Gronauer, Klaus Diepold
【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf
【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。
多智能體深度強化學習中的Q值路徑分解
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
作者:
楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺
簡介:
近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。
方法:
在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。
在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。
使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。
效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。
題目: A Survey and Critique of Multiagent Deep Reinforcement Learning
簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。
作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。