智能博弈對抗是人工智能認知決策領域亟待解決的前沿熱點問題.以反事實后悔最小化算法為代表的博弈論方法和 以虛擬自博弈算法為代表的強化學習方法,依托大規模算力支撐,在求解智能博弈策略中脫穎而出,但對兩種范式之間的關聯 缺乏深入發掘. **文中針對智能博弈對抗問題,定義智能博弈對抗的內涵與外延,梳理智能博弈對抗的發展歷程,總結其中的關 鍵挑戰.**從博弈論和強化學習兩種視角出發,介紹智能博弈對抗模型、算法.多角度對比分析博弈理論和強化學習的優勢與局 限,歸納總結博弈理論與強化學習統一視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范式的結合提供方向,推動智 能博弈技術前向發展,為邁向通用人工智能蓄力.
1. 導論
對抗是人類社會發展與演進的主旋律,廣泛存在于人與 自然、人與人、人與機器之間,是人類思維活動特別是人類智 能的重要體現.人工智能浪潮中,對抗的形式不斷發生變化, 貫穿計算智能、感知智能和認知智能3個階段[1].以對抗關 系為主的博弈研究,為探索認知智能的關鍵技術原理提供了 有效工具.在認知智能層面,信息環境復雜、對抗對手復雜、 策略求解復 雜 等 愈 發 逼 近 真 實 世 界 的 復 雜 場 景 應 用 需 求, 推動了博弈對抗能力的不斷提升.高 度 保 留 真 實 世 界 特 性 (巨復雜、高動態、強對抗)的智能博弈對抗技術逐漸成為了金 融、經濟、交通等民用領域的技術引擎和軍事智能化實現的重 要助推力.在民用領域,尤其是在保護各種關鍵公共基礎設 施和目標的挑戰性任務[3]中,智能博弈對抗技術不可或缺, 例如博物館、港口、機場等安全機構部署有限的防護資源,在 入口處或者外圍路網設置安檢口進行警力的巡邏防控[4].在 軍事領域,智能博弈技術積極推動了指揮與控制的智能化發 展[5],美國先后啟動了“深綠”[6]、指揮官虛擬參謀[7]、“終身學習機器”“指南針”(COMPASS)等項目,旨在縮短“觀察G判 斷G決策G行動”(OODA)的循環時間.
近年來,在 人 機 對 抗 場 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、絕 悟[12]等 一 大 批 高 水 平 AI在 游 戲 驗證平臺中戰勝了人類玩家,智能博弈發展取得了顯著突破. 智能博弈技術的巨大成功主要依賴于博弈論和強化學習兩種 范式的結合[13]:博弈論提供了有效的解概念來描述多智能體 系統的學習結果,但主要是在理論上發展,應用于實際問題的 范圍較窄;深度強化學習算法為智能體的訓練提供了可收斂 性學習算法,可 以 在 序 列 決 策 過 程 中 達 到 穩 定 和 理 性 的 均 衡[14G15].一方面,反事實后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一種迭代搜索算法,其依托 大規模算力支撐,在求解大規模不完美信息博弈策略中脫穎 而出,逐漸成為了智能博弈中博弈論范式下的先進代表性算 法之一.另 一 方 面,虛 擬 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大規模分布式計算框架,在求解多智能體系統問 題中成為了一種通用的強化學習框架,先后被成功應用到雷 神之錘III [18]、星際爭霸[19]、王者榮耀[12]、德州撲克[20]等復雜 大規模對抗場景.CFR 與 FSP是博弈范式和強化學習范式 中的典型方法,也是連接兩種范式的算法基礎.本文將深挖 博弈范式與強化學習范式的深層聯系,為兩種范式的結合提 供方向,推動智能博弈技術前向發展,為邁向通用人工智能 蓄力.
本文第2節簡要介紹了智能博弈對抗,包括智能博弈對 抗的內涵與外延、智能博弈對抗發展歷史以及智能博弈對抗 中的關鍵挑戰;第3節介紹了智能博弈對抗模型,包括博弈論 的基礎模型———擴展式博弈模型和強化學習的基礎模型——— 部分可觀隨機博弈模型,以及結合擴展式博弈模型與馬爾可 夫模型的通用模型———觀察信息可分解的隨機博弈模型,從 模型上梳理了博弈理論和強化學習的內在聯系;第4節進行 了博弈論與強化學習的對比分析,首先詳細梳理了博弈論和 強化學習視角下的典型對抗方法,分別以 CFR 和 FSP 為代 表介紹其具體原理,分析變體改進思路,然后多角度對比分析 博弈理論與強化學習的優缺點,探討后悔值與值函數等基礎 概念的聯系,歸納總結博弈理論與強化學習的結合方法和結 合框架;第5節介紹了智能博弈對抗研究前沿,歸納了當前熱 點前沿智能博弈問題,分別從面向復雜博弈場景的智能博弈 模型、多智能體場景下博弈論與強化學習融合的智能博弈方 法、結合對手建模 的 智 能 博 弈 方 法,以 及 結 合 元 學 習 的 多 任務場景泛化4個角度討論了智能 博 弈 前 沿 研 究;最 后 總 結全文.
2. 智能博弈對抗簡介
**智能博弈對抗的內涵與外延 **
廣義上的智能概念涵蓋了人工智能、機 器 智 能、混 合 智 能和群體智能.本 文 的 智 能 概 念 特 指 認 知 智 能 中 機 器 的 自主決策能力,即機器智能,表現為機器模 擬 人 類 的 行 為、思考方式,通過攝像頭、話筒等傳感器接收 外 界 數 據,與 存 儲器中的數據進行對比、識別,從而進行判斷、分 析、推 理、 決策.機器智能智能水平的高低可 分 為 若 干 層 次,如 從 最 簡單的應激反射算法到較為基礎的控 制 模 式 生 成 算 法,再 到復雜神經網 絡 和 深 度 學 習 算 法.博 弈 對 抗 指 代 以 對 抗 關系為主的博弈,在 沖 突 為 主 的 背 景 下 博 弈 方 (擁 有 理 性 思維的個體或群體)選 擇 行 為 或 策 略 加 以 實 施,并 從 中 取 得各自相應的結果或收 益[21].博 弈 與 對 抗 是 人 類 演 化 進 程中的重要交互活動,是人類智能和人 類 思 維 方 式 的 重 要 體現.這種 交 互 活 動 廣 泛 存 在 于 個 體 與 個 體、個 體 與 群 體、群體與群體之間.
智能博弈對抗發展歷史
博弈對抗不斷推動著智能水平的發展,對抗場景從早期 的“圖靈測試”到目前的“通用場景”探索,不斷向真實世界場 景靠攏. 2016年,DeepMind基于深度強化學習和蒙特卡洛樹搜 索開發的智能圍棋博弈程序 AlphaGo [8],以4∶1的分數戰勝 了人類頂級圍棋選手李世石,這標志著人工智能的發展重點 逐漸由感知智能向認知智能過渡.同年,辛辛那提大學基于 遺傳模糊樹構建的 AlphaAI空戰系統[22]在空戰對抗中擊敗 人類飛行員,這成為了無人系統博弈對抗能力生成的推動性 進展.2017年,DeepMind提出的基于自博弈強化學習的棋 類 AIAlphaZero [23]可以從零開始自學圍棋、國際象棋和將 棋,并擊敗了 AlphaGo.以圍棋為代表的完全信息博弈已基 本得到解決,智能博弈的研究開始轉向德州撲克和星際爭霸 等不完全信息博弈.同年,阿爾伯塔大學和卡內基梅隆大學 先后開發了智能 德 州 撲 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 機 對 抗 中 擊 敗 了 職 業 玩 家.2018 年,DeepG Mind在雷神之 錘III奪 旗 游 戲 中 提 出 了 一 種 基 于 種 群 訓 練的多智能 體 強 化 學 習 框 架[18],訓 練 構 建 的 AIFTW 的 性能超越了人類玩家水平.隨后,智 能 博 弈 朝 著 多 智 能 體 參與、通用場景擴 展 遷 移 等 方 向 不 斷 發 展,高 效 海 量 數 據 的實時采樣(數據)、大 規 模 算 力 加 速 采 樣 和 優 化 (算 力)、 大規模集群架構算 法(算 法)成 為 了 多 智 能 體 強 化 學 習 成 功的關鍵.博弈 均 衡 的 方 法 在 多 智 能 體 博 弈 中 仍 存 在 理 論上的局限性,但基于兩人框架的多人 博 弈 擴 展 依 舊 在 實 驗中具有較好表 現,如 2019 年 卡 內 基 梅 隆 大 學 的 六 人 德 州撲克 智 能 博 弈 程 序 Pluribus [10]擊 敗 了 多 名 職 業 玩 家. 隨后,智能博弈的研 究 趨 勢 開 始 形 成 “高 質 量 對 抗 數 據 引 導”+“分布式強化學習訓練”的模式(如麻將 AISuphx,星 際爭霸 AIAlphaStar [19],谷歌足球 AI覺悟GWeKick),并 逐 漸擺脫先驗 知 識,直 接 完 成 “端 到 端 ”的 學 習 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、兩 人 德 州 撲 克 AI AlG phaHoldem [20]).2021 年,DARPA 舉 辦 的 AlphaDogFight 挑戰賽[28]推動了無人系統 博 弈 對 抗 能 力 的 提 升.另 一 方 面,DARPA 開始布局通 用 AI的 探 索 性 項 目,推 動 智 能 博 弈向強人工智 能 邁 進.智 能 博 弈 對 抗 發 展 歷 程 與 典 型 應 用總結如圖1所示.
智能博弈對抗中的關鍵挑戰 復雜博弈環境難評估
(1)不完全信息與不確定性 環境中的不完全信息與不確定性因素提高了博弈決策的 難度.戰爭迷霧造成的不完全信息問題中,關于其他智能體 的任何關鍵信息(如偏好、類型、數量等)的缺失都將直接影響 智能體對世界狀態的感知,并間接增加態勢節點評估的復雜 性.不僅如此,考慮不完全信息帶來的“欺騙”(如隱真、示假 等[29G31])行為,將進一步擴展問題的維度.此外,不確定性引 入了系統風險,任何前期積累的“優勢”都可能因環境中隨機 因素的負面影響而“落空”.如何綜合評估當前態勢進行“風 險投資”,以獲得最大期望回報,成為了研究的另一個難點. 另一方面,在策略評估與演化過程中,如何去除不確定因素帶 來的干擾[32]成為了“準確評價策略的好壞、尋找優化的方向” 的難點.
(2)對抗空間大規模
在一些復雜博弈環境中,狀態空間和動作空間的規模都 非常龐大(見表1),搜索遍歷整個對抗空間,無論是在時間約 束上還是在存儲空間約束上[33]都難以滿足要求.
模型抽象[34G35]的方法在一定程度上可以降低問題的規 模,但缺乏理論保證,往往以犧牲解的質量為代價[36].即使以求 解 次 優 策 略 為 目 標,部 分 優 化 算 法 (如 EGT [37]、一 階 (FirstOrder)算法)仍舊難以直接應用到抽象后的模型.蒙 特卡洛采樣可以有效地加快算法的速率,但在復雜環境下,如 何與其他方法結合并減小搜索中的方差依舊是研究的難點.
** 多智能體博弈難求解**
**(1) 均衡特性缺失 **
納什均衡作為非合作博弈中應用最廣泛的解概念,在兩 人零和場景中具有成熟的理論支撐,但擴展到多智能體博弈 時具有較大局限性.兩人零和博弈具有納什均衡存在性和可 交換性等一系列優良特性[39].然而,多人博弈的納什均衡解 存在性缺乏理論保證,且計算復雜,兩人一般和博弈的納什均 衡 是 PPAD 難 問 題[40],多 人 一 般 和 的 計 算 復 雜 度 高 于 PPAD.即使可以在多人博弈中有效地計算納什均衡,但采 取這樣的納什均衡策略并不一定是“明智”的.如果博弈中的 每個玩家都獨立地計算和采取納什均衡策略,那么他們的策 略組合可能并不是納什均衡,并且玩家可能具有偏離到不同 策略的動機[41G42]. **(2) 多維學習目標 **
對于單智能體強化學習而言,學習目標是最大化期望獎 勵,但是在多智能體強化學習中,所有智能體的目標不一定是 一致的,學習目標呈現出了多維度[13].學習目標可以分為兩 類[43]:理性和收斂性.當對手使用固定策略時,理性確保了 智能體盡可能采取最佳響應,收斂性保證了學習過程動態收 斂到一個針對特定對手的穩定策略,當理性和收斂性同時滿 足時,會達到新的納什均衡. **(3) 環境非平穩 **
當多個智能體同時根據自己的獎勵來改進自身策略時, 從每個智能體角度來看,環境變得非平穩,學習過程難以解 釋[44].智能體本身無法判斷狀態轉移或獎勵變化是自身行 為產生的結果,還是對手探索產生的.完全忽略其他智能體獨立學習,這種方法有時能產生很好的性能,但是本質上違背 了單智能體強化學習理論收斂性的平穩性假設[45].這種做 法會失去環境的馬爾可夫性,并且靜態策略下的性能測度也 隨之改變.例如,多智能體中單智能體強化學習的策略梯度 法的收斂 結 果 在 簡 單 線 性 二 次 型 博 弈[46](LinearGQuadratic Games)中是不收斂的.
3 智能博弈對抗模型
**擴展式博弈模型 **
擴展式博弈適用于序貫決策中建模智能體與環境的重復 交互過程,尤其是存在“智能體對其他智能體之前的決策節點 不可分辨(含有隱藏信息)”或者“智能體遺忘之前的決策(不 完美回憶)”的情景.
部分可觀隨機博弈
與擴展 式 博 弈 的 樹 結 構 不 同,馬 爾 可 夫 博 弈 (Markov Game)也稱隨機博弈(StochasticGame),具有馬爾可夫鏈式 結構.
**通用模型 **
博弈理論和強化學習理論并不互斥,在模型上,博弈論的 擴展式博弈模型和強化學習的部分可觀隨機博弈兩種模型之 間具有一定的聯系,例如都可以通過放寬某些條件限制轉化 為觀察 信 息 可 分 解 的 隨 機 博 弈 (FactoredGObservationStoG chasticGames,FOSG)[58].FOSG 是 POSG 的一種擴展性變 體,模型聚焦于公共信息(PublicInformation)的表示和分解, 如圖3所示.
4 博弈論與強化學習的對比分析
博弈論和強化學習是求解序貫決策問題的有效工具,然 而它們在算法特性(泛化性、可解釋性、收斂性保證)、應用場 景(多人博弈、序貫博弈、即時策略博弈)以及硬件資源(算力 需求)等 方 面 各 有 所 長,本 文 總 結 了 近 5 年 AAAI,IJCAI, NeuralPS,AMMAS,ICRL等人工智能頂刊頂會中與智能博 弈技術相關的博弈論與強化學習文章,按專家打分的方法,繪 制對比分析雷達圖,如圖7所示.博弈理論在兩人零和博弈 問題上已經具有較為成熟的理論,包括納什均衡(以及其他解概念)的等價性、存在性、可交換性(Interchangeability)[39]等, 但在多人博弈問題中還需要新的解概念以及相關理論的支 撐.CFR算法通過后悔值迭代更新生成策略,模型具有可解 釋性.但是,完美回放和終端可達的強烈假設限制了 CFR 的 使用場景[92].強化學習結合深度學習,直接實現端到端的學 習,具有很強的泛化性,在多智能體博弈中已取得較多成功應 用.但網絡的訓練往往需要超大規模的算力支撐,且模型的 可解釋性不強.本節將對兩種方法的具體局限性進行深入剖 析,為兩種方法的結合互補提供方向.
5. 智能博弈對抗研究前沿
** 面向復雜博弈場景的智能博弈模型**
博弈論中的“信息集”和強化學習中的“觀察函數”都是針 對智能博弈場景中不完全信息的形式化描述.現實世界中,博 弈場景更加復雜,不完全信息引發了博弈信息“不可信”等問 題———智能體通常是不完全理性的,并且不同認知層次的智能 體參與的博弈具有 “欺詐[114G115]”“隱藏”“合謀”“認知嵌套(建 模對手的同時,對手也在建模利用己方)”[116G117]等新挑戰.如 何針對認知博弈對抗中的新挑戰,形式化描述“欺騙”等復雜博 弈要素,建立復雜博弈信息的量化評估體系,成為了智能博弈 向真實世界遷移應用的模型基礎.
**多智能體場景下博弈論與強化學習融合的智能博弈方法 **
雖然博弈論提供了易于處理的解決方案概念來描述多智 能體系統的學習結果,但是納什均衡是一個僅基于不動點的 靜態解概念,在描述多主體系統的動態特性方面(如循環集 (RecurrentSet)[118]、周 期 軌 道 (Periodic Orbits)和 極 限 環 (LimitCycles)[55])具有局限性.一方面,尋求具有更多優良 特性的多人博弈新解概念,探索多人局部納什均衡點求解方 法,將是博弈視角下求解多智能體博弈問題的新突破口;另一 方面,發揮深度學習和強化學習在信息表征、復雜函數擬合 方面的優勢,基于自博弈求解框架、值函數評估方法、強化學 習結合 CFR等方法,探索博弈論方法與強化學習的有效融合 機制,將是突破多智能體博弈學習瓶頸的前沿方向.
**結合對手建模的智能博弈方法 **
對抗勝負的本質是超越對手的相對優勢,決策的制定必 須以對手的行動或策略為前提.納什均衡是應對未知通用對 手時最小化最壞可能性,用最“保險”的策略應對,而并不是尋 求最優應對策略.放寬納什均衡中“未知通用對手”的設定, 考慮不完全理性對手的最佳應對,一些新的解 概 念[61]被 提 出,結合顯式對手建模(ExplicitOpponentModeling)[119]和均 衡近似,平衡利用性與剝削性,實現多目標優化,為融合對手 建模的博弈學習提供參考.此外,在一些更加復雜的對抗場 景中,如 對 手 具 有 學 習 意 識 (OpponentGLearning AwareG ness)[120]等,最大熵多智能體強化學習[121]成為研究如何進行 博弈均衡對抗策略選擇的新趨勢.不僅如此,反對手建模方 法也在同步發展.基于意圖識別設計[122]的對抗意圖識別、 包含意圖隱藏與欺騙的對抗意圖識別方法等[123]反對手建模 方法在欺騙路徑規劃[29]等問題中得到了一定的研究.在復 雜博弈對抗場景中,如何基于對手模型安全利用對手,以及如 何保全自我反對手建模成為了新的探索性研究.
**結合元學習的多任務場景泛化 **
學習模型如何更好地泛化到差異很大的新領域中,是一 種更加高效和智能的學習方法.元學習(MetaLearning)逐 漸發展成為讓機器學會學習的重要方法.元學習是通用人工 智能(GeneralAI)的分支,通過發現并推廣不同任務之間的 普適規律來解決未知難題.元學習的輸入是一個任務集合, 目的是對每個任務的特性和任務集合的共性建模,發現任務 之間的共性和內在規律,以追求在差異較大任務之間的遷移, 且不會產生 較 大 的 精 度 損 失,目 前 其 已 經 擴 展 到 元 強 化 學 習[124G125]、元模仿學習[126]、元遷移學習、在線元學習[127]、無監 督元學習[128G129]等.如 何 結 合 博 弈 理 論 和 元 強 化 學 習 的 優 勢,構建高效、可解釋性強、具有收斂性保障和泛化性的近似 納什均衡求解體系,將是未來智能博弈技術發展的巨大推動 力之一.
**結束語 **
本文針對智能博弈對抗問題,介紹了智能博弈 對抗的內涵與外延,梳理了智能博弈對抗發展歷程,總結了其 中的關鍵挑戰.從博弈論和強化學習兩種視角出發,介紹了 智能博弈對抗模型和算法,多角度對比分析了博弈理論和強 化學習的優勢與局限,歸納總結了博弈理論與強化學習統一 視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范 式的結合提供方向,推動智能博弈技術前向發展,為邁向通用 人工智能蓄力.
對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。
引言
人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。
1 多智能體博弈對抗
近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。
1.1 多智能體模型
在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。
當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。
1.2 非平穩問題
多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。
2 對手建模
合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。
**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.
智能博弈領域已逐漸成為當前AI研究的熱點之一,游戲AI領域、智能兵棋領域都在近年取得了一系列的研究突破。但是,游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國內外整體研究進展,詳細剖析智能作戰推演的主要屬性需求,并結合當前最新的強化學習發展概況進行闡述。從智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點3個維度綜合分析游戲AI發展為智能作戰推演的可行性,最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發展現狀并提供有價值的研究思路。
以2016年AlphaGo的成功研發為起點,對智能博弈領域的研究獲得突飛猛進的進展。2016年之前,對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年,受AlphaGo的啟發,研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展,很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時,在智能作戰推演領域,不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主,同時以基于事件驅動的機制進行推演[3-4]。然而,隨著近些年國內外在各種棋類、策略類游戲領域取得新突破,智能作戰推演的發展迎來了新的機遇[5]。
國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績,可以擊敗97%的玩家,并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6],如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技(深圳)有限公司打造了游戲AI平臺“Delta”,集成機器學習、強化學習、大系統工程等技術,通過將AI與游戲場景結合,提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司,準備在游戲AI領域發力。除了游戲AI領域,國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統,并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10],并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外,由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺,也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年,國內舉辦了4次大型智能兵棋推演比賽,這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注,胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異,分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演,取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統,對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究,取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法,對于智能博弈中的態勢認知研究具有重要參考價值[22]。
總體來說,國內在智能博弈領域進行了一系列的研究,嘗試將該技術應用到作戰推演領域,建立了具有自主產權的博弈平臺,技術層面也不斷突破,不再局限于傳統的行為決策樹、專家知識庫等,開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈,取得了一系列的關鍵技術的突破。但是,當前的研究主要聚焦在比較簡單的智能博弈環境,對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。
國外游戲 AI 領域則取得了一系列突出成果,尤其是深度強化學習技術的不斷發展,游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章,認為深度強化學習可以實現人類水平的控制[24]。2017年,DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25],擊敗了圍棋世界冠軍李世石。此后,基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下,經過短時間的訓練就擊敗了AlphaGo。2019年, DeepMind 團隊基于多智能體(agent)深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平,并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28], Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下,通過自我觀察掌握圍棋、國際象棋、將棋和雅達利(Atari)游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲:紅龍》(Wargame:Red Dragon),同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究,利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果,并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理,并將其應用到軍事訓練及軍事演習[34-35]。
但就目前而言,國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域,但是就目前發表的論文和報告來看,國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決,現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是,隨著未來計算機硬件的發展和機器學習技術的完善,作戰推演 AI 會迎來一波革命式的發展,給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景,進而引出作戰推演的技術需求,并給出當前可參考的主流及小眾技術思路。同時,對可能出現的技術難點進行了分析并給出解決方案建議。最后,對作戰推演的未來發展提出建議。
狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現,是深度強化學習進行訓練的基礎。在圍棋中,狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中,狀態空間是每一幀、每個單位可能有的狀態,如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中,狀態空間主要是每個作戰單元實體的狀態信息,是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的,可觀察空間主要是每個 agent 可以觀察到的狀態信息,是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜,具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。
動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說,動作空間為361個,是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說,動作空間主要是玩家控制一個“英雄”進行的一系列操作,玩家平均水平是每秒可以進行一個動作,但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項,包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技(multiplayer online battle arena,MOBA)游戲的動作空間可以達到1060 000+。假設游戲時長為45 min,每秒30幀,共計81 000幀,AI每4幀進行一次操作,共計20 250次操作,這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000,但考慮到其中大部分是不可執行的(例如使用一個尚處于冷卻狀態的技能),平均的可執行動作數約為1 000,即動作空間[37]。因此,操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說,因為需要控制大量的作戰單元和建筑單元,動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說,需要對每個作戰單元進行大量精細的控制。在作戰推演中,每個作戰單元實際都包括大量的具體執行動作,以作戰飛機為例,應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此,實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出,對于作戰推演來說,龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策,根據戰略決策構建一系列綁定的宏函數,進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度,同時也方便高效訓練,但是實際問題是訓練出來的 AI 總體缺乏靈活性,過于僵化。
對于動作空間,還需要考慮其是離散的還是連續的,Atari和圍棋這類游戲動作都是離散動作空間[25,39-40],《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作,可以考慮基于值函數的強化學習進行訓練,而對于連續動作,可以考慮利用基于策略函數的強化學習進行訓練。同時,離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演,即把回合制轉化為固定的時間表達。同時對于連續動作,也可以在固定節點提取對應的動作,然后將其轉化為離散動作。
智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前,每個選手要進行任務規劃,這個任務規劃是開始推演前的整體戰略部署,例如分配導彈打擊目標,規劃艦艇、戰斗機活動的大致區域,以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后,推演階段即自主執行所制定的宏觀戰略決策。同時,在推演過程中也可以進行微觀具體動作的干預,這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策,首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中,針對大型對抗想定,計算機基本需要每秒進行數百個決策,一局想定推演中雙方博弈決策空間數量預估為 1080+個,而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略(real-time strategy,RTS)游戲,決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案,現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決,根據具體對抗態勢進行宏觀戰略決策的選擇,然后根據不同的決策再分別執行對應的微觀具體動作,這樣可以有效降低智能決策數量,明顯提高智能決策的執行效率。
博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同,圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲,不管過程如何,只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易,在回報值設置中給予最終獎勵更高的回報值,總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲,甚至實際作戰推演來說,獲勝條件更加復雜,目標更多。比如,有時可能需要考慮在我方損失最低的情況下實現作戰目標,而有時則需要不計代價地快速實現作戰目標,這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值,而需要根據真實演習數據構建獎賞函數,通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。
博弈對抗過程中最核心的環節是設置回報值,合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲,可以按照固定的條件設置明確的回報值,例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長,在整局對抗過程中,如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題,即回報值稀疏問題。為了解決這個難題,現有的解決方案都是在對抗過程中設置許多細節條件,如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗,可以設置坦克擊毀對手、占領奪控點即可獲得回報值,如果被打擊、失去奪控點等則會損失回報值,甚至為了加快收斂防止算子長期不能達到有效地點,會在每步(step)都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36],從資源、KDA(殺人率(kill,K),死亡率(death,D),支援率(assista, A))、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是,對于復雜的作戰推演來說,設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣,需要利用逆強化學習[41-42],通過以往的作戰數據反向構建獎賞函數。
戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況,我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題,但是情況更加復雜。在實際作戰推演中,可以考慮利用不完全信息博弈解決這個問題,已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29],但是在實際作戰推演中這一問題還需要進一步探討研究。
這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分,觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息,是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題,因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思,一個層面是屏幕限制的區域更易于獲取態勢信息,因為玩家更直觀的注意力在屏幕局域,部分注意力在小地圖局域。為了更加符合實際, AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制,從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因,即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取,對于不能獲取的態勢信息則只能評估預測,而這一部分則涉及對手建模部分,主要利用部分可觀察馬爾可夫決策過程(partially observable Markov decision process,POMDP)[43],這一技術明顯難于完全信息博弈。而對于圍棋游戲來說,其中的態勢信息是完全可獲取的,屬于完全信息博弈,態勢信息即觀察信息。并且圍棋游戲屬于回合制,相對于即時策略游戲,其有更加充分的獲取態勢信息的時間。因此,則可以利用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法對所獲取的圍棋游戲中的觀察信息進行詳細分析,計算出所有可能的結果,進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息,其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似,其主要以小地圖的宏觀信息進行訓練,然后以此為基礎為戰略方案提供支持,如游戲中的“英雄”是去野區發育還是去中路對抗。同時,對主屏幕態勢信息進行特征提取,結合強化學習訓練,可以得出戰術層面的方案和建議,是去選擇回塔防御還是進草叢躲避,或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演,在作戰信息獲取各個方面都高度模擬了作戰推演的場景,需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息,這部分可觀察信息非常復雜,需要結合各種情況才能發現部分目標,對于戰爭迷霧更加真實。因此,作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模,但還需要設置各種更加符合真實裝備的作戰情況,需要在環境中提前設置有針對性的條件。
在博弈對抗過程中對手 AI 的建模也是至關重要的,不同水平的AI會導致博弈對抗的勝率不同,并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低,就不能逼真地模擬假設對手,博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中,AI性能已經可以擊敗職業選手,通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作,研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上,積分排名前三名的均是AI選手,勝率均在80%以上[11]。但是,現有對手建模主要還是聚焦在一對一的對手建模,很少學者研究多方博弈,而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈,如在《墨子?未來指揮官系統》的海峽大潮想定中,紅方不僅面對藍方,還有綠方,藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。
博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中,想定是永久固定不變的,而且也完全沒有環境的影響,因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響,《覺悟AI》嘗試利用強化學習技術,結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響,不僅作戰單元會產生變化,并且在不同的作戰推演中,不同的環境之中也會有不同的地形、地貌,這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲:紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度,否則會產生擱淺,不能在理想區域登陸會對作戰目標產生較大負面影響。因此,對于實際作戰推演來說,最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的,傳統的基于規則的AI就很難適應變化的想定,早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型,導致只在某個想定會有較好的AI智能性,假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題,現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性,并可以加速回報函數收斂,保證快速訓練出高水平的AI模型。
本節針對智能作戰推演所需要的關鍵屬性,結合當前游戲AI、智能兵棋等相關博弈平臺,利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析,經過對比不難發現游戲 AI 過渡到智能兵棋,甚至是智能作戰推演的難度,各個關鍵屬性也是未來需要研究突破的關鍵點,具體見表1。
2 作戰推演的智能決策核心技術思路
2.1 強化學習技術框架 強化學習的核心思想是不斷地在環境中探索試錯,并通過得到的回報值來判定當前動作的好壞,從而訓練出高水平的智能AI[50]。馬爾可夫決策過程(Markov decision process,MDP)是強化學習的基礎模型,環境通過狀態與動作建模,描述agent與環境的交互過程。一般地,MDP可表示為四元組<S,A,R,T >[44]:
agent從環境中感知當前狀態st,從動作空間A中選擇能夠獲取的動作at;執行at后,環境給agent相應的獎賞信號反饋 rt+1,環境以一定概率轉移到新的狀態st+1,等待agent做出下一步決策。在與環境的交互過程中,agent有兩處不確定性,一處是在狀態 s 處選擇什么樣的動作,用策略π(a|s)表示agent的某個策略;另一處則是環境本身產生的狀態轉移概率Pass′,強化學習的目標是找到一個最優策略π*,使得它在任意狀態s和任意時間步驟t都能夠獲得最大的長期累計獎賞,即:
2.2.1 基于值函數的強化學習
強化學習早期利用Q-learning算法來建立游戲AI,通過預先設計每步動作可以獲得的回報值來采取動作。Q-learning 最大的局限是需要提前設計好所有執行動作的回報值,它用一張Q表來保存所有的Q值,當動作空間巨大時,該算法難以適應。因此,Q-learning 算法只能在比較簡單的環境中建模使用,如在簡單的迷宮問題中,讓 agent 通過Q-learning算法自動尋找出口。
DeepMind在2015年第一次利用DQN(deep Q network)算法在Atari游戲環境中實現了高水平的智能AI,該AI綜合評定達到了人類專業玩家的水平[24]。這也使得DQN算法成為強化學習的經典算法。DQN算法通過神經網絡擬合Q值,通過訓練不斷調整神經網絡中的權重,獲得精準的預測 Q值,并通過最大的Q值進行動作選擇。DQN算法有效地解決了Q-learning算法中存儲的Q值有限的問題,可以解決大量的離散動作估值問題,并且DQN算法主要使用經驗回放機制(experience replay),即將每次和環境交互得到的獎勵與狀態更新情況都保存起來,用于后面的Q值更新,從而明顯增強了算法的適應性。DQN由于對價值函數做了近似表示,因此強化學習算法有了解決大規模強化學習問題的能力。但是 DQN 算法主要被應用于離散的動作空間,且DQN算法的訓練不一定能保證Q值網絡收斂,這就會導致在狀態比較復雜的情況下,訓練出的模型效果很差。在 DQN 算法的基礎上,衍生出了一系列新的改進 DQN 算法,如 DDQN (double DQN )算法[51]、優先級經驗回放 DQN (prioritized experience replay DQN)算法[52]、競爭構架Q網絡(dueling DQN)算法[53]等。這些算法主要是在改進Q網絡過擬合、改進經驗回放中的采樣機制、改進目標Q值計算等方面提升傳統DQN算法網絡的性能。總體來說,DQN系列強化學習算法都屬于基于值函數的強化學習算法類型。基于值函數的強化學習算法主要存在 3點不足:對連續動作的處理能力不足、對受限狀態下的問題處理能力不足、無法解決隨機策略問題。由于這些原因,基于值函數的強化學習方法不能適用所有的場景,因此需要新的方法解決上述問題,例如基于策略的強化學習方法。
2.2.2 基于策略的強化學習
在基于值函數的強化學習方法中,主要是對價值函數進行了近似表示,引入了一個動作價值函數q,這個函數由參數w描述,以狀態s與動作a為輸入,計算后得到近似的動作價值,即式(4):
在基于策略的強化學習方法中,主要采用類似的思路,只不過主要對策略進行近似表示。此時,策略可以被描述為一個包含參數θ的函數,θ主要為神經網絡中的權重,即式(5):
在基于策略的強化學習方法中,比較經典的就是理查德·薩頓(Richard S.Sutton)在2000年提出的 AC(actor-critic)框架強化學習算法。AC 包括兩部分:演員(actor)和評價者(critic)。其中actor使用策略函數負責生成動作(action),通過動作與環境進行交互。而critic使用第2.2.1節提到的價值函數來評估actor的表現,并指導actor下一階段的動作。總體來說,critic 通過 Q 網絡計算狀態的最優價值Vt,而actor利用Vt迭代更新策略函數的參數,進而選擇動作,并得到反饋和新的狀態, critic 使用反饋和新的狀態更新 Q 網絡參數 w,在后面critic會使用新的網絡參數w幫助actor計算狀態的最優價值Vt。
2016 年 DeepMind 在國際機器學習大會(International Conference on Machine Learning)提出了A3C算法[54]。之前的DQN算法為了方便收斂使用了經驗回放的技巧;AC 也可以使用經驗回放的技巧。A3C更進一步,還克服了一些經驗回放的問題,主要采取隨機性策略[55]。這里確定性策略和隨機性策略是相對而言的,對于某一些動作集合來說,它可能是連續值,或者非常高維的離散值,這導致動作的空間維度極大。如果使用隨機性策略,即像DQN算法一樣研究它所有的可能動作的概率,并計算各個可能動作的價值,那需要的樣本量是非常大的。于是DeepMind就想出使用確定性策略來簡化這個問題[56]。作為深度確定性策略梯度(deep deterministic policy gradient)、critic目標網絡和深度雙Q網絡(double DQN )的當前Q網絡,目標Q網絡的功能定位基本類似,但是DDPG有自己的actor策略網絡,因此不需要貪婪法這樣的選擇方法,這部分DDQN的功能到了DDPG可以在actor當前網絡完成。而對經驗回放池中采樣的下一狀態s'使用貪婪法選擇動作a',這部分工作的作用是估計目標 Q 值,因此可以放到 actor 目標網絡完成。
此外,actor當前網絡也會基于critic目標網絡計算出的目標Q值進行網絡參數的更新,并定期將網絡參數復制到 actor 目標網絡。DDPG 參考了DDQN的算法思想,通過雙網絡和經驗回放,以及一些其他的優化,比較好地解決了AC難收斂的問題。因此在實際產品中尤其是與自動化相關的產品中使用得比較多,是一個比較成熟的AC算法。2017年, Open AI在神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems)上又提出了改進的多 agent 深度確定性策略梯度(multi-agent deep deterministic policy gradient)算法[57],把強化學習算法進一步推廣應用到多agent環境。在AC框架下,比較經典的算法還有近端策略優化(proximal policy optimization)算法[58]、柔性演員-評論家(soft actor-critic)算法[59]、雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient)算法[60]等,這些算法也都是在樣本提取效率、探索能力增強方面進一步改進優化AC框架的。
在現有策略對抗游戲中利用深度學習技術結合強化學習來實現游戲AI已成為主流研究方向[52]。其主要思路為在游戲對抗過程中利用圖像特征的卷積提取技術。如在《覺悟AI》中,圖像特征的提取采取了分層的思想,在主視野和小地圖中,對不同種類的要素進行提取并合并到一個層中,最終每層都提取到一類關鍵屬性節點信息,形成“英雄”“野怪”“小兵”位置矩陣[6]。最終將多尺度特征的信息融合形成全局態勢特征信息,這一工作同樣應用在AlphaStar中。對于作戰推演來說,態勢理解一直是研究的難點,那么考慮利用深度學習技術來實現態勢圖像特征的提取,進而最終輸出態勢圖的關鍵信息將是解決方案之一。此外,筆者所在團隊也嘗試利用深度學習技術對態勢信息進行卷積提取,然后將提取信息與語義模型結合,生成當前態勢的直觀文本語義。而在前端利用強化學習進行實體單元控制,這樣就可以將強化學習、深度學習、自然語言處理融合,在推演過程中實時生成方便人類理解的智能決策文本語義信息,這一工作對于實現推演系統中的人機融合具有積極意義。
智能博弈對抗的建模過程面臨兩個難題,一個是動作空間龐大,另一個是獎勵稀疏問題。面對這兩個問題,有研究人員提出了分層強化學習的解決思路。該思路的核心是對動作進行分層,將低層級(low-level)動作組成高層級(high-level)動作,這樣搜索空間就會被減小[52]。同時基于分層的思想,在一個預訓練的環境中學習有用的技能,這些技能是通用的,與要解決的對抗任務的關系不太緊密。學習一個高層的控制策略能夠使 agent 根據狀態調用技能,并且該方法能夠很好地解決探索效率較低的問題,該方法已在一系列稀疏獎勵的任務中表現出色[61-62]。《覺悟 AI》同樣設計了分層強化學習的動作標簽來控制“英雄”的微觀操作。具體來說,每個標簽由兩個層級(或子標簽)組成,它們表示一級和二級操作。第一個動作,即一級動作,表示要采取的動作,包括移動、普通攻擊、一技能、二技能、三技能、回血、回城等。第二個是二級動作,它告訴玩家如何根據動作類型具體地執行動作。例如,如果第一個層級是移動動作,那么第二個層級就是選擇一個二維坐標來選擇移動的方向;當第一個層級為普通攻擊時,第二個層級將成為選擇攻擊目標;如果第一個層級是一技能(或二技能、三技能),那么第二個層級將針對不同技能選擇釋放技能的類型、目標和區域。這對于作戰推演中不同算子如何執行動作也具有參考價值,每一個類型的算子同樣存在不同的動作,例如坦克可以選擇直瞄射擊、間瞄射擊、移動方向等,實際作戰推演不同裝備同樣具有眾多復雜的動作,通過這樣的特征和標簽設計,可以將人工智能建模任務作為一個層次化的多類分類問題來完成。具體來說,一個深層次的神經網絡模型被訓練以預測在給定的情境下要采取的行動。作戰推演也可以參考層次化的動作標簽來不斷細化動作執行過程,進而訓練解決復雜的動作執行難題。在作戰推演中完全可以借鑒這種思路設計適用于作戰場景的分層強化學習框架。南京大學的研究人員利用分層強化學習建立宏觀策略模型和微觀策略模型,根據具體的態勢評估宏觀策略模型,然后利用宏函數批量綁定選擇微觀動作,這樣可以在不同的局勢下選擇對應的一系列動作,進而實現了分層強化學習在《星際爭霸》環境中的應用[63]。分層強化學習比較通用的框架是兩層,頂層策略被稱為元控制器(meta-controller),負責生成總體宏觀目標,底層策略被稱為控制器(controller),負責完成給定的子目標,這種機制本質也對應作戰推演中的戰略、戰役、戰術3個層次,不同層次關注的作戰目標各有不同,但又互相關聯。其他相關改進是學者在獎賞函數設置、增加分層結構、保持分層同步、提高采樣效率等方面改進分層強化學習[64]。
在游戲博弈對抗過程中必然需要考慮多 agent建模,而在作戰推演中利用多 agent 技術實現不同作戰單元的協同合作也是博弈智能研究的重點之一。在這方面OpenAI和AlphaStar在多agent深度強化學習方面使用了不同的技術思路。OpenAI 使用的是分布異構的多agent建模思路,每一個agent都有一個相同的訓練神經網絡,但是沒有全局控制網絡[37,47]。AlphaStar則是使用了一個集中的控制網絡對不同的單元進行控制。還有一種思路是對于每一個agent,都建立屬于各自的神經網絡進行訓練。第三種思路是最理想的,但是訓練過程復雜,也難以適用于大規模的推演過程[43]。對于實際作戰推演來說,除了要考慮多 agent 建模方法,還需要讓每個 agent 具有柔性加入的能力,在對抗過程中可以按照需要隨時加入所需要的作戰單元,而不需要每次加入作戰單元后,再重新訓練一遍網絡。基于此考慮,讓每一個 agent 具有自己獨立的神經網絡將是更好的選擇。
《覺悟 AI》在設計過程中利用深度學習不斷提取游戲界面的態勢信息。利用深度學習雖然可以把一個對抗界面的所有特征提取出來,但是提取的是靜態的某一幀的界面信息,并沒有把時間步之間的信息關聯起來。時間步一般指一幀,也可以指多幀,其關鍵是將歷史的幀信息和現在的信息關聯起來。基于此,需要引入長短期記憶(long short-term memory,LSTM)網絡。讓 LSTM 一次接收多個時間步信息來學習這些時間步之間的關聯信息,從而讓 LSTM 幫助“英雄”學習技能組合,并選擇“英雄”應該關注的主視野和小地圖的具體方面,進而綜合輸出合理的動作,也通過 LSTM 關聯歷史數據來訓練強化學習的神經網絡模型[65]。在實際作戰推演過程中同樣需要考慮這種情況,防止出現訓練的AI為了某個戰術目標而忽視了整體戰略目標。
強化學習的回報值往往根據專家經驗手工設置,但是這種手工設置的回報值的收斂性及智能性均難以保證,并且長時間訓練才能評估設置的回報值的效果。因此可以考慮結合推演數據,結合多屬性決策方法進行客觀分析,總結提煉出合適的回報值。首先,從推演環境中獲取各關鍵屬性數據,如在陸戰對抗環境提取作戰單元位置、高程、類型、射程屬性、打擊屬性、裝甲屬性等。以這些屬性數據為基礎,計算出對應的評估指標,如目標距離威脅、目標攻擊威脅、目標速度威脅等,通過熵權法計算相應權重,并最終結合多屬性方法對敵方威脅度進行排序,將其和強化學習的回報值函數進行關聯,進而設置出更加客觀合理的回報值函數,這樣有利于提高強化學習訓練的智能性,并有利于加快收斂。
在對強化學習的訓練過程中,研究人員總是會遇到訓練過程時間長、難以收斂的問題,這種情況通常被稱為冷啟動問題。針對這個問題,現有研究人員提出了多種解決方案,比較有效的解決方案是利用專家的領域知識預先設計固定的先驗知識,利用先驗知識進行智能博弈訓練,進而在強化學習的經驗存儲中得到高水平的訓練數據。在強化學習的后期訓練中直接利用這些先驗知識對抗出來的經驗數據進行模型訓練,從而可以有效縮小探索空間和動作空間,進而保證強化學習可以快速訓練出高水平的AI,避免了前期盲目探索的情況。在實際作戰推演過程中,也可以考慮使用高水平指揮員的先驗知識,提前進行形式化存儲,進而在強化學習訓練過程中導入先驗知識,加快訓練結果的收斂,得到較高水平的智能AI。
在智能博弈對抗過程中經常會出現訓練一定階段后陷入局部最優結果的情況。表現為在智能兵棋比賽中,經過長時間訓練后,強化學習訓練出的結果是控制算子進行固定的線路和射擊套路,這種情況可被稱為過擬合現象。為了避免這種情況的出現,應該在算法設計中加入隨機可能性,在一定比例的動作選擇概率下隨機探索,而不是完全按照強化學習算法給出的結果進行執行。其次,按照貝爾曼方程,應該在獎勵函數設計過程中,考慮當前影響和未來影響的可變比重,即回報函數設計包括一定的可變性,而不是固定不變的。當然也可以利用強大的計算力,生成大量新的對手,從不同方面與需要訓練的 agent 進行對抗,從而避免因為固定對手而導致的過擬合現象。
智能博弈的 AI 建模普遍存在適應性不高的問題,有部分研究人員開發的 AI 是針對某個固定想定開發的,導致更換博弈想定后AI性能大幅下降。考慮到大部分數據或任務是存在相關性的,通過遷移學習可以將已經學到的模型參數通過某種方式分享給新模型,從而加快優化模型效率。中國科學院自動化研究所的研究人員引入了課程遷移學習,將強化學習模型擴展到各種不同博弈場景,并且提升了采樣效率[81]。DeepMind 在 AlphaZero 中使用同樣的算法設置、網絡架構和超參數,得到了一種適用于圍棋、國際象棋和將棋的通用算法,并戰勝了基于其他技術的棋類游戲AI[82]。《覺悟AI》引入了課程學習方法,將訓練至符合要求的參數遷移至同一個神經網絡再次訓練、迭代、修正以提高效率,使《覺悟AI》模型能熟練掌握40多個“英雄”[6,36]。在作戰推演中,更需要這種適用性強的通用 AI 算法,不需要在更換作戰想定后重新訓練模型,也只有這樣才可以更加適應實時性要求極高的作戰場景。
對手建模指在兩個 agent 博弈的環境中,為了獲得更高的收益,需要對對手的策略進行建模,利用模型(隱式)推斷其所采取的策略來輔助決策。智能藍方建模主要是在具有戰爭迷霧的情況下,對對手進行建模,并預測對手的未來動作。其前提通常是博弈環境存在戰爭迷霧,我方在無法獲取準確的對手信息的情況下,針對對方進行預測評估。在對抗過程中,一種假設是對手是完全理性的,對對手(隊友)進行建模是為了尋找博弈中的納什均衡策略。為了解決這一難點問題,阿爾伯塔大學的研究人員提出了反事實遺憾最小化(counterfactual regret minimization,CFR)技術,該技術不再需要一次性推理一棵完整的博弈樹,而是允許從博弈的當前狀態使用啟發式搜索。另外,對手建模可分為隱式建模和顯式建模。通常隱式建模直接將對手信息作為自身博弈模型的一部分來處理對手信息缺失的問題,通過最大化agent期望回報的方式將對手的決策行為隱式引進自身模型,構成隱式建模方法。顯式建模則直接根據觀測到的對手歷史行為數據進行推理優化,通過模型擬合對手行為策略,掌握對手意圖,降低對手信息缺失帶來的影響[83]。總體來說,對手建模技術是智能博弈對抗是否有效的關鍵,只有建立一個可以高效預估對手行為的模型,才能保證智能博弈AI的有效性。
路徑規劃作為智能博弈中的重要組成部分,其主要任務是根據不同的想定,針對每個單元在起始點和終止點之間快速規劃一條由多個路徑點依次連接而成的最優路徑[84]。在智能博弈的背景下,最優路徑的含義不僅僅是兩點之間的距離最短,而是綜合考慮博弈態勢、資源情況和綜合威脅后的最佳路徑。但是,已有的路徑規劃算法主要以A-Star算法、Dijkstra算法、D算法、LPA算法、D* lite算法等為典型代表,在物流運輸、無人駕駛、航空航天等領域都取得了顯著成效。同時也有學者提出其他的路徑規劃算法,如基于神經網絡和人工勢場的協同博弈路徑規劃方法[85]等,但是在智能博弈的環境下,需要考慮的問題更加復雜,需要進一步對這些算法進行改進優化。
現有的游戲平臺中也有比較成熟的AI開發通用框架(如 pysc2[86-87]),但是相比成熟的作戰推演通用框架還有較大差距。智能作戰推演系統可以設計一個適用于復雜環境的通用框架,該框架包括作戰推演算子、地圖、規則、想定。同時最關鍵的是設計通用的算法接口,這些接口可以方便智能博弈算法的設計與實現,如環境加載接口、環境重置接口、環境渲染接口、動作隨機選擇接口、執行動作接口等。同時,也可以提前設計智能作戰推演的基本功能框架,包括地圖編輯模塊、想定編輯模塊、算子管理模塊、規則編輯模塊、推演設置模塊、數據分析模塊、系統配置模塊。其中最核心的是推演設置模塊可以自由選擇每局推演使用的智能算法,從而實現智能算法設計和作戰推演環境開發的解耦,這樣才可以保證智能作戰推演的靈活適應性。通用框架中另一個重要的因素是可以提供AI使用的工具,例如對于深度學習的分層態勢顯示,可以直觀地提供一個通用接口進行展現,方便指揮人員快速調用該接口實現智能算法的輔助決策功能。
智能作戰推演必然面對的問題是選擇在戰略、戰役還是戰術場景下應用。現階段主要還是在戰術層面進行智能算法的研究,包括國內的某智能兵棋推演大賽,各種想定只有算子數量種類的差別,但本質上都還屬于戰術智能決策。《墨子?未來指揮官系統》中的對抗想定更接近于戰役層面的智能決策方案,現階段對戰略層面的智能決策的研究還比較少。其原因就在于面臨的想定越宏觀,智能決策的技術挑戰越大,包括動作空間、狀態空間的變化以及現階段 agent 之間的協同交互還并沒有很成熟。因此,當前考慮戰術層面的智能決策更容易。如果要解決戰略層面的智能決策,必然需要研究各agent之間的協同機制,還要考慮作戰的后勤支持機制。然而當前尚未有游戲、作戰推演在智能推演中考慮后勤機制的影響。另外,戰術、戰役、戰略層面的方案制定技術思路也并不相同,有的研究以各agent獨自訓練、交互,進而涌現出智能決策方案。這一技術思路更加逼近真實場景,但是算力要求和技術實現難度都較高。另一思路是建立統一的宏觀agent 模型,利用宏觀 agent 控制所有算子進行推演,這一技術思路實現比較簡單,所需的算力也較低,可以考慮將其作為初期實現的路徑之一。
智能作戰推演的未來趨勢主要分為人不在環和人在環兩種類型。人不在環主要類似于AlphaStar、OpenAI 的游戲智能,通過預先訓練完成agent,完全由訓練好的agent自主進行博弈對抗,左右互搏,實現方案的預演和推測。人在環的模式又分為兩種,一種是實現人機對抗,國內已有這方面的比賽,通過開發訓練好的智能算法 agent 與高水平指揮人員進行對抗,探測發現自身指揮問題并不斷提高,可用于指揮人員訓練場景。另一種人在環更加困難,即 agent 可以響應人的指令,并完成低層次的規劃任務。主要還是由指揮人員進行整體戰略宏觀判斷,并通過指令交互部署 agent 完成低層次任務,最后總體實現戰略目標。同時,也需要對人機融合模式的框架進行探索,如將人類領域知識引入智能算法中,幫助智能算法更高效地實現智能作戰推演。
隨著智能博弈的興起,國內外高校、研究所、企業都已逐漸開發完成各種類型的智能博弈平臺。但是不同平臺之間并不互通,相互獨立,形成了各個平臺的信息孤島,在智能算法開發的過程中,面對新的平臺就需要研究人員重新學習適應新的平臺接口和架構,這浪費了研究人員大部分精力。另外,智能博弈的強化學習接口以及其他算法雖然在不同平臺體現不同,但本質都一樣,很有必要構建一個通用一體化智能博弈平臺框架,減少不斷重新開發、學習的過程,提高智能博弈平臺的研究效率也勢在必行。
本文構建并梳理了智能作戰推演的國內外發展概況,詳細介紹了智能作戰推演所需要的各項技術難點及國內外進展,同時借鑒游戲 AI 領域的發展現狀并將其與智能作戰推演所需要的技術需求進行對比,分析現有技術還需要改進和優化的方向,也對智能作戰推演的各個研究方向進行了歸納。可以為從事游戲AI、智能兵棋、智能作戰推演等智能博弈領域的研究人員提供一定的思路。當前智能博弈的研究思路還主要以深度強化學習為基礎,但絕不僅僅是深度強化學習技術,各種傳統的智能算法和新的機器學習算法都可以作為智能博弈領域補充完善的技術力量。本文以作戰推演技術需求為牽引,結合國內外游戲AI、兵棋推演相關實際發展情況,總結出雖然智能博弈依然還有很多難題需要解決,現有技術實現程度相比于實際應用還有較大差距,但智能博弈這一研究方向是未來智能決策研究發展的必由之路,相信最終會在各個相關領域得以實現。
參考文獻
[1] 沈宇, 韓金朋, 李靈犀, 等. 游戲智能中的 AI: 從多角色博弈到平 行博弈[J]. 智能科學與技術學報, 2020, 2(3): 205-213. [2] 胡曉峰, 賀筱媛, 陶九陽. AlphaGo 的突破與兵棋推演的挑戰[J]. 科技導報, 2017, 35(21): 49-60. [3] 葉利民, 龔立, 劉忠. 兵棋推演系統設計與建模研究[J]. 計算機與 數字工程, 2011, 39(12): 58-61. [4] 譚鑫. 基于規則的計算機兵棋系統技術研究[D]. 長沙: 國防科學 技術大學, 2010.
到目前為止,博弈論已經在各個領域形成了大量應用,包括經濟學、工業、法學和人工智能,其中每個玩家只關心自己的利益,以非合作或合作的方式,但對其他玩家沒有明顯惡意。然而,在很多實際應用中,如撲克、國際象棋、追逃、緝毒、海岸警衛隊、網絡安全和國防等,玩家往往有明顯的敵對立場,即每個玩家的自私行為不可避免地或有意地對其他玩家造成損失或破壞。按照這一思路,本文從一系列角度對對抗性博弈中廣泛采用的三種主要博弈模型,即零和范式和廣泛形式博弈、斯塔爾伯格博弈(安全)博弈、零和微分博弈進行了系統的調查,包括博弈模型的基本知識、(近似)均衡概念、問題分類、研究前沿、(近似)最優策略尋求技術、流行算法和實際應用。最后,還討論了相關對抗性博弈的未來研究方向。
索引詞:對抗博弈,零和博弈,斯塔爾伯格博弈,微分博弈,納什均衡。
自John von Neumann, John Nash等人的開創性工作[1]-[3]以來,博弈論一直是一個強大而傳統的范式,用于模擬一群玩家之間復雜而智能的互動,并改善自私的玩家的決策。迄今為止,它已經在各種領域發現了廣泛的現實應用,包括經濟學、生物學、金融學、計算機科學、政治學等等,其中每個參與者只關心自己的利益[4]-[6]。即使在60年代的冷戰期間,它也發揮了極其重要的作用,并被許多國家的國防機構采用,如美國的安全控制機構[7]。
圖1. 一個具有同時或連續行動、完全或不完全信息、對稱或不對稱信息的對抗博弈的一般框架,其中三角形表示玩家,存在m個團隊,在團隊內部,團隊成員以合作方式進行博弈,而團隊之間的博弈是對抗性的,通常是零和,即 為所有策略,下標ij代表第i隊中的第j個玩家,其策略和效用函數分別表示為
和
。而
是除第i隊中第j名球員外的所有球員的策略情況。
對抗性博弈是一類特別重要的博弈模型,博弈者故意與對方競爭,同時實現自己的效用最大化。迄今為止,對抗性博弈已經成為眾多現實應用中塑造高效決策的正統框架,如撲克、國際象棋、追逃、緝毒、海岸警衛、網絡安全和國防等。例如,在德州撲克中,它一直是由AAAI等國際知名會議舉辦的測試研究人員提出的博弈論和人工智能(AI)算法的主要比賽之一,多個玩家相互競爭,通過尋求復雜的策略技術來贏得比賽[8]。一般來說,對抗性博弈具有以下幾個主要特點:1)在有限的計算資源和/或樣本的情況下,高效快速的算法設計很難;2)許多實際問題的信息不完善,也就是說,有些信息對一個或多個玩家是私有的,但對其他玩家是隱藏的,如撲克牌游戲。3)大型模型,包括大型行動空間和信息集,例如,道路網絡安全問題中的對手空間是1018的數量級[9];4)眾多現實生活應用中的不完全信息,即一個或多個智能體不知道正在進行什么游戲(如 g., 在這種情況下,正在進行的游戲一般用玩家的不確定性來表示,如具有不確定參數的不確定報酬函數;5)可能的動態特征,即所進行的游戲有時是時間變化的,而不是靜態的,例如,一個偷獵者在野生動物公園里可能有不同的偷獵策略,因為環境隨季節而變化。值得指出的是,這里的不完全信息與不完全信息是截然不同的,正如一些研究者所區分的那樣,盡管它們在一些文獻中被互換使用。此外,其他可能的特征包括有界理性,玩家可能不完全理性,比如恐怖分子任意隨機的獨狼式攻擊。然而,值得注意的是,并不是所有的對抗性博弈都具有不完美和/或不完全的信息,例如,圍棋游戲既有完美的信息,也有完全的信息,因為它有明確的游戲規則,所有棋子的位置對雙方來說在任何時候都是可見的,也有對手的行動,著名的人工智能agent,如AlphaGo和AlphaZero[10]-[12]已經很好地解決了這個問題。
由于競爭特征在大量現實世界的應用中無處不在,直到現在,對抗性博弈已經得到了廣泛的研究[13]-[18]。例如,作者在[13]中對2018年Stackelberg安全博弈(SSG)的技術進展進行了廣泛的調查,作者在[14]中回顧了一些主要的基于反事實后悔最小化(CFR)方法的不完美信息的廣泛形式博弈的納什均衡(NE)計算算法。作者在[15]中回顧了博弈論和優化算法的結合使用,并對該領域的研究進行了新的分類,作者在[16]中回顧了分布式在線優化,從隱私保護機制角度的聯合優化,以及從兩個方面的合作/非合作游戲,即, 作者在[17]中從問題分類、性能指標、最先進的性能結果和未來潛在的研究方向的角度,調查了分布式在線學習的最新進展,包括分布式在線優化和在線游戲。此外,考慮到博弈論在國防中的重要性,[18]、[19]對博弈論在國防中的應用進行了一些回顧,[20]對基于博弈論和機器學習(ML)方法的防御性欺騙進行了調查。盡管如此,仍然缺乏從基本模型知識、均衡概念、最優策略尋求技術、研究前沿和流行算法等角度對對抗性博弈的徹底概述。
在上述事實的激勵下,本調查旨在從多個維度對對抗性博弈進行系統回顧,包括對抗性博弈中經常采用的三種主要模型(即零和范式和廣泛形式博弈、Stackelberg(安全)博弈和零和差分博弈)的模型、(近似)最優策略概念(即:NE、相關均衡、coarsecorrelated均衡、強Stackelberg均衡、teammaxmin均衡以及相應的近似概念),(近似)最優策略計算技術(如CFR方法、AI方法),最先進的結果、流行的算法、潛在的應用以及有希望的未來研究方向。據我們所知,本綜述報告是第一個關于對抗性博弈的系統性概述,一般來說,它為上述調查報告提供了一個正交和補充的部分,這可能有助于相關領域的研究人員和從業人員。請注意,這三種博弈模型并不相互排斥,但對于同一博弈,從不同的角度看,可能會有重疊。例如,Stackelberg博弈和差分博弈也可以是零點博弈,等等。此外,實際上還存在其他借助于對抗性博弈的模型,如貝葉斯博弈、馬爾科夫博弈(或隨機博弈)、信號博弈、行為博弈論和進化博弈論。然而,我們并不打算在這次調查中回顧所有這些模型,因為它們中的每一個都具有獨立的意義,并且在現有的各種材料中相當豐富。
本調查的結構安排如下。第二節介紹了詳細的博弈模型和解決方案的概念,第三節回顧了現有的主要文獻和最先進的結果,第四節闡述了一些流行的算法,第五節介紹了一系列的應用,第六節討論了有前途的未來研究方向,最后在第七節得出結論。
博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時出現的現象。博弈描述了玩家之間的戰略互動,他們在利益的指引下,意識到自己的行動會影響到對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是面臨決策挑戰和機會的國家或聯盟。在這方面,"能力 "這一概念為優化國防資源分配所需的規劃 "游戲 "要素提供了維度和變量。本文開發的模型側重于在假設的能力上分配可用的國防資源,以實現對國家安全的最佳響應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
戰爭是一種代價高昂的經濟活動。博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時發生的現象。博弈描述了參與者之間的戰略互動,他們以自己的利益為導向,并意識到他們的行動會影響對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是需要做出決定的國家或聯盟。
為了描述一個理論博弈,我們需要明確四個基本要素:玩家、行動、報酬和信息。Rasmussen用PAPI的縮寫來指代這些要素[2]。
為了在博弈論的基礎上建立一個能夠描述最佳防御資源分配的模型,并確定規劃的 "游戲"要素,需要對 "防御能力 "有一個全面的概念性理解。
澳大利亞國防軍將 "防御能力 "定義為 "在指定的環境中,在指定的時間內達到預期的作戰效果,并在指定的時間內保持這種效果的能力"[3]。這包括多種投入的綜合效果,如:人員、組織、訓練、主要系統、物資。美國國防部將軍事能力定義為 "在規定的標準和條件下,通過執行一系列任務的手段和方法的組合,達到預期效果的能力"[CJCSI/M 3010系列]。它包括四個主要部分:部隊結構、現代化、戰備和可持續性。
這兩個定義都是圍繞著 "效果 "的概念。這使我們想到一個問題:"在有限的可用資源(如分配的國防預算)的壓力下,在設計了某些能力以應對某些威脅后,可以采取什么決定來最大化一般的安全效果?"
本文建立的模型側重于在假定的能力上分配可用的國防資源,以實現對國家安全的最佳反應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey
【作者團隊】Sven Gronauer, Klaus Diepold
【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf
【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.