近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.
尹奇躍, 趙美靜, 倪晚成, 張俊格, 黃凱奇, 兵棋推演的智能決策技術與挑戰. 自動化學報, 2022, 48(x): xx-xx //www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547
人機對抗, 作為人工智能技術的試金石, 近年 來獲得了舉世矚目的進展. 隨著 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能體分別在 國際象棋、圍棋、二人無限注德州撲克以及星際爭 霸中戰勝頂尖職業人類選手, 其背后的智能決策技 術獲得了廣泛的關注, 也代表了智能決策技術在中 等復雜度完美信息博弈、高復雜度完美信息博弈再 到高復雜度不完美信息博弈中的技術突破.
國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由
, 后者更是被譽為人 工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有 , 但其為不完美信息博弈, 相比于國際象棋與 圍棋信息集大小僅為 1, 其信息集平均大小達到 . 而星際爭霸, 作為高復雜度不完美信息博弈的代 表, 因其相比于上述游戲的即時制、長時決策等特 性[4, 5] , 對智能決策技術提出了更高的要求. 星際爭霸突破之后, 研究人員迫切需要新的人 機對抗環境實現智能技術的前沿探索. 兵棋推演是 一款經典策略游戲[6?8] , 也被稱為戰爭游戲, 作為一 種人機對抗策略驗證環境, 由于其具有不對稱環境 決策、更接近真實環境的隨機性與高風險決策等特 點, 受到智能決策技術研究者的廣泛關注. 近些年 來, 研究者投入了大量的精力進行兵棋推演智能體 研發以及兵棋推演子問題求解, 試圖解決兵棋推演 的人機對抗挑戰[9?14] .
兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與 20 世紀 80 年代后期普 及的計算機兵棋[15?17] . 胡曉峰等人[6] 全面綜述了兵 棋推演的基本要素 (參演人員、兵棋系統模擬的戰 場環境和作戰部隊、導演部及導調機構), 指出 “兵 棋推演的難點在于模擬人的智能行為”, 進而得出 “兵 棋推演需要突破作戰態勢智能認知瓶頸”, 最后給 出了如何實現態勢理解與自主決策可能的路徑. 和 目前兵棋推演關注的重點不同, 本文關注的是兵棋 推演中的智能體研究, 針對通用性的智能決策技術 與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推 演, 如非特別闡述, 在不引起歧義的前提下統一指 雙方計算機兵棋推演 (紅藍兩方). 本文內容組織如下: 第二章將梳理兵棋推演與 目前主流人機對抗環境如星際爭霸等的區別, 以及 為什么其潛在是人機對抗的下一個挑戰; 第三章將 介紹兵棋推演智能技術的研究現狀; 之后在第四章 闡述當前主流技術的瓶頸; 第五章對兵棋推演的智 能決策技術進行展望與思考, 希望啟發新的研究方 向; 最后對全文進行總結.
**1 兵棋智能決策問題的挑戰 **
本章首先簡要介紹兵棋推演問題以及與手工兵 棋的比較. 在此基礎上, 以人機對抗發展脈絡為主 線, 以兵棋推演中的智能體研究為核心, 介紹兵棋 推演與其他主流策略游戲的通用挑戰, 之后重點闡 述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機 對抗的成功提供了技術基礎, 后者則對當下人機對 抗智能體決策技術提出了新的挑戰.
表1 對智能決策技術帶來挑戰的代表性因素
2 兵棋智能決策技術研究現狀
為應對兵棋推演的挑戰性問題, 研究者提出了 多種智能體研發與評測方法. 與圍棋、星際爭霸等 主流游戲人機對抗智能體研發脈絡類似 (如星際爭 霸從早期知識規則為主, 中期以數據學習為主, 后 期以聯合知識與強化學習完成突破), 兵棋推演也經 歷了以知識驅動為主、以數據驅動為主以及以知識 與數據混合驅動的研發歷程. 兵棋的評測技術包含 了智能體的定量與定性分析方法. 在本節中, 將重 點闡述兵棋智能體研發的技術與框架, 同時對智能 體的評估評測進行簡述.
當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的 兵棋推演智能體, 本節將分別闡述各個技術框架的 研究進展.
3. 兵棋推演智能體評估
正確評估智能體的策略對于智能體的能力迭代具有至關重要的作用。研究者提出了一系列算法(如ELO、多維ELO等)實現智能體能力的準確刻畫,但仍面臨復雜非傳遞性策略的綜合評估、協同智能體中單個智能體的能力評估、定性評估標準體系化等問題帶來的挑戰。近些年來,上述挑戰促進了智能體評估開放平臺的建設,例如,中科院自動化所開放了“圖靈網”人機對抗智能門戶網站(
4. 兵棋智能決策技術展望
博弈理論,作為研究多個利己個體之間的策略性交互而發展的數學理論,有望為兵棋推演人機對抗突破提供理論支撐,但是面臨著如何求解以及保證大規模博弈的近似納什均衡解的挑戰。大模型,近些年來在自然語言處理領域獲得了突飛猛進的發展,兵棋推演的大模型訓練有望實現類似的零樣本或小樣本遷移,但是面臨著如何進行優化目標設計、多智能體訓練以及不同規模任務訓練的挑戰。問題約簡,作為一種引導技術發展的有效手段,本文設計了“排兵布陣”、“算子異步協同對抗”等問題,以牽引算法研究,進而反哺解決兵棋推演人機對抗挑戰。
智能博弈對抗是人工智能認知決策領域亟待解決的前沿熱點問題.以反事實后悔最小化算法為代表的博弈論方法和 以虛擬自博弈算法為代表的強化學習方法,依托大規模算力支撐,在求解智能博弈策略中脫穎而出,但對兩種范式之間的關聯 缺乏深入發掘. **文中針對智能博弈對抗問題,定義智能博弈對抗的內涵與外延,梳理智能博弈對抗的發展歷程,總結其中的關 鍵挑戰.**從博弈論和強化學習兩種視角出發,介紹智能博弈對抗模型、算法.多角度對比分析博弈理論和強化學習的優勢與局 限,歸納總結博弈理論與強化學習統一視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范式的結合提供方向,推動智 能博弈技術前向發展,為邁向通用人工智能蓄力.
1. 導論
對抗是人類社會發展與演進的主旋律,廣泛存在于人與 自然、人與人、人與機器之間,是人類思維活動特別是人類智 能的重要體現.人工智能浪潮中,對抗的形式不斷發生變化, 貫穿計算智能、感知智能和認知智能3個階段[1].以對抗關 系為主的博弈研究,為探索認知智能的關鍵技術原理提供了 有效工具.在認知智能層面,信息環境復雜、對抗對手復雜、 策略求解復 雜 等 愈 發 逼 近 真 實 世 界 的 復 雜 場 景 應 用 需 求, 推動了博弈對抗能力的不斷提升.高 度 保 留 真 實 世 界 特 性 (巨復雜、高動態、強對抗)的智能博弈對抗技術逐漸成為了金 融、經濟、交通等民用領域的技術引擎和軍事智能化實現的重 要助推力.在民用領域,尤其是在保護各種關鍵公共基礎設 施和目標的挑戰性任務[3]中,智能博弈對抗技術不可或缺, 例如博物館、港口、機場等安全機構部署有限的防護資源,在 入口處或者外圍路網設置安檢口進行警力的巡邏防控[4].在 軍事領域,智能博弈技術積極推動了指揮與控制的智能化發 展[5],美國先后啟動了“深綠”[6]、指揮官虛擬參謀[7]、“終身學習機器”“指南針”(COMPASS)等項目,旨在縮短“觀察G判 斷G決策G行動”(OODA)的循環時間.
近年來,在 人 機 對 抗 場 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、絕 悟[12]等 一 大 批 高 水 平 AI在 游 戲 驗證平臺中戰勝了人類玩家,智能博弈發展取得了顯著突破. 智能博弈技術的巨大成功主要依賴于博弈論和強化學習兩種 范式的結合[13]:博弈論提供了有效的解概念來描述多智能體 系統的學習結果,但主要是在理論上發展,應用于實際問題的 范圍較窄;深度強化學習算法為智能體的訓練提供了可收斂 性學習算法,可 以 在 序 列 決 策 過 程 中 達 到 穩 定 和 理 性 的 均 衡[14G15].一方面,反事實后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一種迭代搜索算法,其依托 大規模算力支撐,在求解大規模不完美信息博弈策略中脫穎 而出,逐漸成為了智能博弈中博弈論范式下的先進代表性算 法之一.另 一 方 面,虛 擬 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大規模分布式計算框架,在求解多智能體系統問 題中成為了一種通用的強化學習框架,先后被成功應用到雷 神之錘III [18]、星際爭霸[19]、王者榮耀[12]、德州撲克[20]等復雜 大規模對抗場景.CFR 與 FSP是博弈范式和強化學習范式 中的典型方法,也是連接兩種范式的算法基礎.本文將深挖 博弈范式與強化學習范式的深層聯系,為兩種范式的結合提 供方向,推動智能博弈技術前向發展,為邁向通用人工智能 蓄力.
本文第2節簡要介紹了智能博弈對抗,包括智能博弈對 抗的內涵與外延、智能博弈對抗發展歷史以及智能博弈對抗 中的關鍵挑戰;第3節介紹了智能博弈對抗模型,包括博弈論 的基礎模型———擴展式博弈模型和強化學習的基礎模型——— 部分可觀隨機博弈模型,以及結合擴展式博弈模型與馬爾可 夫模型的通用模型———觀察信息可分解的隨機博弈模型,從 模型上梳理了博弈理論和強化學習的內在聯系;第4節進行 了博弈論與強化學習的對比分析,首先詳細梳理了博弈論和 強化學習視角下的典型對抗方法,分別以 CFR 和 FSP 為代 表介紹其具體原理,分析變體改進思路,然后多角度對比分析 博弈理論與強化學習的優缺點,探討后悔值與值函數等基礎 概念的聯系,歸納總結博弈理論與強化學習的結合方法和結 合框架;第5節介紹了智能博弈對抗研究前沿,歸納了當前熱 點前沿智能博弈問題,分別從面向復雜博弈場景的智能博弈 模型、多智能體場景下博弈論與強化學習融合的智能博弈方 法、結合對手建模 的 智 能 博 弈 方 法,以 及 結 合 元 學 習 的 多 任務場景泛化4個角度討論了智能 博 弈 前 沿 研 究;最 后 總 結全文.
2. 智能博弈對抗簡介
**智能博弈對抗的內涵與外延 **
廣義上的智能概念涵蓋了人工智能、機 器 智 能、混 合 智 能和群體智能.本 文 的 智 能 概 念 特 指 認 知 智 能 中 機 器 的 自主決策能力,即機器智能,表現為機器模 擬 人 類 的 行 為、思考方式,通過攝像頭、話筒等傳感器接收 外 界 數 據,與 存 儲器中的數據進行對比、識別,從而進行判斷、分 析、推 理、 決策.機器智能智能水平的高低可 分 為 若 干 層 次,如 從 最 簡單的應激反射算法到較為基礎的控 制 模 式 生 成 算 法,再 到復雜神經網 絡 和 深 度 學 習 算 法.博 弈 對 抗 指 代 以 對 抗 關系為主的博弈,在 沖 突 為 主 的 背 景 下 博 弈 方 (擁 有 理 性 思維的個體或群體)選 擇 行 為 或 策 略 加 以 實 施,并 從 中 取 得各自相應的結果或收 益[21].博 弈 與 對 抗 是 人 類 演 化 進 程中的重要交互活動,是人類智能和人 類 思 維 方 式 的 重 要 體現.這種 交 互 活 動 廣 泛 存 在 于 個 體 與 個 體、個 體 與 群 體、群體與群體之間.
智能博弈對抗發展歷史
博弈對抗不斷推動著智能水平的發展,對抗場景從早期 的“圖靈測試”到目前的“通用場景”探索,不斷向真實世界場 景靠攏. 2016年,DeepMind基于深度強化學習和蒙特卡洛樹搜 索開發的智能圍棋博弈程序 AlphaGo [8],以4∶1的分數戰勝 了人類頂級圍棋選手李世石,這標志著人工智能的發展重點 逐漸由感知智能向認知智能過渡.同年,辛辛那提大學基于 遺傳模糊樹構建的 AlphaAI空戰系統[22]在空戰對抗中擊敗 人類飛行員,這成為了無人系統博弈對抗能力生成的推動性 進展.2017年,DeepMind提出的基于自博弈強化學習的棋 類 AIAlphaZero [23]可以從零開始自學圍棋、國際象棋和將 棋,并擊敗了 AlphaGo.以圍棋為代表的完全信息博弈已基 本得到解決,智能博弈的研究開始轉向德州撲克和星際爭霸 等不完全信息博弈.同年,阿爾伯塔大學和卡內基梅隆大學 先后開發了智能 德 州 撲 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 機 對 抗 中 擊 敗 了 職 業 玩 家.2018 年,DeepG Mind在雷神之 錘III奪 旗 游 戲 中 提 出 了 一 種 基 于 種 群 訓 練的多智能 體 強 化 學 習 框 架[18],訓 練 構 建 的 AIFTW 的 性能超越了人類玩家水平.隨后,智 能 博 弈 朝 著 多 智 能 體 參與、通用場景擴 展 遷 移 等 方 向 不 斷 發 展,高 效 海 量 數 據 的實時采樣(數據)、大 規 模 算 力 加 速 采 樣 和 優 化 (算 力)、 大規模集群架構算 法(算 法)成 為 了 多 智 能 體 強 化 學 習 成 功的關鍵.博弈 均 衡 的 方 法 在 多 智 能 體 博 弈 中 仍 存 在 理 論上的局限性,但基于兩人框架的多人 博 弈 擴 展 依 舊 在 實 驗中具有較好表 現,如 2019 年 卡 內 基 梅 隆 大 學 的 六 人 德 州撲克 智 能 博 弈 程 序 Pluribus [10]擊 敗 了 多 名 職 業 玩 家. 隨后,智能博弈的研 究 趨 勢 開 始 形 成 “高 質 量 對 抗 數 據 引 導”+“分布式強化學習訓練”的模式(如麻將 AISuphx,星 際爭霸 AIAlphaStar [19],谷歌足球 AI覺悟GWeKick),并 逐 漸擺脫先驗 知 識,直 接 完 成 “端 到 端 ”的 學 習 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、兩 人 德 州 撲 克 AI AlG phaHoldem [20]).2021 年,DARPA 舉 辦 的 AlphaDogFight 挑戰賽[28]推動了無人系統 博 弈 對 抗 能 力 的 提 升.另 一 方 面,DARPA 開始布局通 用 AI的 探 索 性 項 目,推 動 智 能 博 弈向強人工智 能 邁 進.智 能 博 弈 對 抗 發 展 歷 程 與 典 型 應 用總結如圖1所示.
智能博弈對抗中的關鍵挑戰 復雜博弈環境難評估
(1)不完全信息與不確定性 環境中的不完全信息與不確定性因素提高了博弈決策的 難度.戰爭迷霧造成的不完全信息問題中,關于其他智能體 的任何關鍵信息(如偏好、類型、數量等)的缺失都將直接影響 智能體對世界狀態的感知,并間接增加態勢節點評估的復雜 性.不僅如此,考慮不完全信息帶來的“欺騙”(如隱真、示假 等[29G31])行為,將進一步擴展問題的維度.此外,不確定性引 入了系統風險,任何前期積累的“優勢”都可能因環境中隨機 因素的負面影響而“落空”.如何綜合評估當前態勢進行“風 險投資”,以獲得最大期望回報,成為了研究的另一個難點. 另一方面,在策略評估與演化過程中,如何去除不確定因素帶 來的干擾[32]成為了“準確評價策略的好壞、尋找優化的方向” 的難點.
(2)對抗空間大規模
在一些復雜博弈環境中,狀態空間和動作空間的規模都 非常龐大(見表1),搜索遍歷整個對抗空間,無論是在時間約 束上還是在存儲空間約束上[33]都難以滿足要求.
模型抽象[34G35]的方法在一定程度上可以降低問題的規 模,但缺乏理論保證,往往以犧牲解的質量為代價[36].即使以求 解 次 優 策 略 為 目 標,部 分 優 化 算 法 (如 EGT [37]、一 階 (FirstOrder)算法)仍舊難以直接應用到抽象后的模型.蒙 特卡洛采樣可以有效地加快算法的速率,但在復雜環境下,如 何與其他方法結合并減小搜索中的方差依舊是研究的難點.
** 多智能體博弈難求解**
**(1) 均衡特性缺失 **
納什均衡作為非合作博弈中應用最廣泛的解概念,在兩 人零和場景中具有成熟的理論支撐,但擴展到多智能體博弈 時具有較大局限性.兩人零和博弈具有納什均衡存在性和可 交換性等一系列優良特性[39].然而,多人博弈的納什均衡解 存在性缺乏理論保證,且計算復雜,兩人一般和博弈的納什均 衡 是 PPAD 難 問 題[40],多 人 一 般 和 的 計 算 復 雜 度 高 于 PPAD.即使可以在多人博弈中有效地計算納什均衡,但采 取這樣的納什均衡策略并不一定是“明智”的.如果博弈中的 每個玩家都獨立地計算和采取納什均衡策略,那么他們的策 略組合可能并不是納什均衡,并且玩家可能具有偏離到不同 策略的動機[41G42]. **(2) 多維學習目標 **
對于單智能體強化學習而言,學習目標是最大化期望獎 勵,但是在多智能體強化學習中,所有智能體的目標不一定是 一致的,學習目標呈現出了多維度[13].學習目標可以分為兩 類[43]:理性和收斂性.當對手使用固定策略時,理性確保了 智能體盡可能采取最佳響應,收斂性保證了學習過程動態收 斂到一個針對特定對手的穩定策略,當理性和收斂性同時滿 足時,會達到新的納什均衡. **(3) 環境非平穩 **
當多個智能體同時根據自己的獎勵來改進自身策略時, 從每個智能體角度來看,環境變得非平穩,學習過程難以解 釋[44].智能體本身無法判斷狀態轉移或獎勵變化是自身行 為產生的結果,還是對手探索產生的.完全忽略其他智能體獨立學習,這種方法有時能產生很好的性能,但是本質上違背 了單智能體強化學習理論收斂性的平穩性假設[45].這種做 法會失去環境的馬爾可夫性,并且靜態策略下的性能測度也 隨之改變.例如,多智能體中單智能體強化學習的策略梯度 法的收斂 結 果 在 簡 單 線 性 二 次 型 博 弈[46](LinearGQuadratic Games)中是不收斂的.
3 智能博弈對抗模型
**擴展式博弈模型 **
擴展式博弈適用于序貫決策中建模智能體與環境的重復 交互過程,尤其是存在“智能體對其他智能體之前的決策節點 不可分辨(含有隱藏信息)”或者“智能體遺忘之前的決策(不 完美回憶)”的情景.
部分可觀隨機博弈
與擴展 式 博 弈 的 樹 結 構 不 同,馬 爾 可 夫 博 弈 (Markov Game)也稱隨機博弈(StochasticGame),具有馬爾可夫鏈式 結構.
**通用模型 **
博弈理論和強化學習理論并不互斥,在模型上,博弈論的 擴展式博弈模型和強化學習的部分可觀隨機博弈兩種模型之 間具有一定的聯系,例如都可以通過放寬某些條件限制轉化 為觀察 信 息 可 分 解 的 隨 機 博 弈 (FactoredGObservationStoG chasticGames,FOSG)[58].FOSG 是 POSG 的一種擴展性變 體,模型聚焦于公共信息(PublicInformation)的表示和分解, 如圖3所示.
4 博弈論與強化學習的對比分析
博弈論和強化學習是求解序貫決策問題的有效工具,然 而它們在算法特性(泛化性、可解釋性、收斂性保證)、應用場 景(多人博弈、序貫博弈、即時策略博弈)以及硬件資源(算力 需求)等 方 面 各 有 所 長,本 文 總 結 了 近 5 年 AAAI,IJCAI, NeuralPS,AMMAS,ICRL等人工智能頂刊頂會中與智能博 弈技術相關的博弈論與強化學習文章,按專家打分的方法,繪 制對比分析雷達圖,如圖7所示.博弈理論在兩人零和博弈 問題上已經具有較為成熟的理論,包括納什均衡(以及其他解概念)的等價性、存在性、可交換性(Interchangeability)[39]等, 但在多人博弈問題中還需要新的解概念以及相關理論的支 撐.CFR算法通過后悔值迭代更新生成策略,模型具有可解 釋性.但是,完美回放和終端可達的強烈假設限制了 CFR 的 使用場景[92].強化學習結合深度學習,直接實現端到端的學 習,具有很強的泛化性,在多智能體博弈中已取得較多成功應 用.但網絡的訓練往往需要超大規模的算力支撐,且模型的 可解釋性不強.本節將對兩種方法的具體局限性進行深入剖 析,為兩種方法的結合互補提供方向.
5. 智能博弈對抗研究前沿
** 面向復雜博弈場景的智能博弈模型**
博弈論中的“信息集”和強化學習中的“觀察函數”都是針 對智能博弈場景中不完全信息的形式化描述.現實世界中,博 弈場景更加復雜,不完全信息引發了博弈信息“不可信”等問 題———智能體通常是不完全理性的,并且不同認知層次的智能 體參與的博弈具有 “欺詐[114G115]”“隱藏”“合謀”“認知嵌套(建 模對手的同時,對手也在建模利用己方)”[116G117]等新挑戰.如 何針對認知博弈對抗中的新挑戰,形式化描述“欺騙”等復雜博 弈要素,建立復雜博弈信息的量化評估體系,成為了智能博弈 向真實世界遷移應用的模型基礎.
**多智能體場景下博弈論與強化學習融合的智能博弈方法 **
雖然博弈論提供了易于處理的解決方案概念來描述多智 能體系統的學習結果,但是納什均衡是一個僅基于不動點的 靜態解概念,在描述多主體系統的動態特性方面(如循環集 (RecurrentSet)[118]、周 期 軌 道 (Periodic Orbits)和 極 限 環 (LimitCycles)[55])具有局限性.一方面,尋求具有更多優良 特性的多人博弈新解概念,探索多人局部納什均衡點求解方 法,將是博弈視角下求解多智能體博弈問題的新突破口;另一 方面,發揮深度學習和強化學習在信息表征、復雜函數擬合 方面的優勢,基于自博弈求解框架、值函數評估方法、強化學 習結合 CFR等方法,探索博弈論方法與強化學習的有效融合 機制,將是突破多智能體博弈學習瓶頸的前沿方向.
**結合對手建模的智能博弈方法 **
對抗勝負的本質是超越對手的相對優勢,決策的制定必 須以對手的行動或策略為前提.納什均衡是應對未知通用對 手時最小化最壞可能性,用最“保險”的策略應對,而并不是尋 求最優應對策略.放寬納什均衡中“未知通用對手”的設定, 考慮不完全理性對手的最佳應對,一些新的解 概 念[61]被 提 出,結合顯式對手建模(ExplicitOpponentModeling)[119]和均 衡近似,平衡利用性與剝削性,實現多目標優化,為融合對手 建模的博弈學習提供參考.此外,在一些更加復雜的對抗場 景中,如 對 手 具 有 學 習 意 識 (OpponentGLearning AwareG ness)[120]等,最大熵多智能體強化學習[121]成為研究如何進行 博弈均衡對抗策略選擇的新趨勢.不僅如此,反對手建模方 法也在同步發展.基于意圖識別設計[122]的對抗意圖識別、 包含意圖隱藏與欺騙的對抗意圖識別方法等[123]反對手建模 方法在欺騙路徑規劃[29]等問題中得到了一定的研究.在復 雜博弈對抗場景中,如何基于對手模型安全利用對手,以及如 何保全自我反對手建模成為了新的探索性研究.
**結合元學習的多任務場景泛化 **
學習模型如何更好地泛化到差異很大的新領域中,是一 種更加高效和智能的學習方法.元學習(MetaLearning)逐 漸發展成為讓機器學會學習的重要方法.元學習是通用人工 智能(GeneralAI)的分支,通過發現并推廣不同任務之間的 普適規律來解決未知難題.元學習的輸入是一個任務集合, 目的是對每個任務的特性和任務集合的共性建模,發現任務 之間的共性和內在規律,以追求在差異較大任務之間的遷移, 且不會產生 較 大 的 精 度 損 失,目 前 其 已 經 擴 展 到 元 強 化 學 習[124G125]、元模仿學習[126]、元遷移學習、在線元學習[127]、無監 督元學習[128G129]等.如 何 結 合 博 弈 理 論 和 元 強 化 學 習 的 優 勢,構建高效、可解釋性強、具有收斂性保障和泛化性的近似 納什均衡求解體系,將是未來智能博弈技術發展的巨大推動 力之一.
**結束語 **
本文針對智能博弈對抗問題,介紹了智能博弈 對抗的內涵與外延,梳理了智能博弈對抗發展歷程,總結了其 中的關鍵挑戰.從博弈論和強化學習兩種視角出發,介紹了 智能博弈對抗模型和算法,多角度對比分析了博弈理論和強 化學習的優勢與局限,歸納總結了博弈理論與強化學習統一 視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范 式的結合提供方向,推動智能博弈技術前向發展,為邁向通用 人工智能蓄力.
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
作者:尹奇躍,趙美靜,倪晚成,張俊格,黃凱奇
近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.
人機對抗, 作為人工智能技術的試金石, 近年來獲得了舉世矚目的進展. 隨著Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4]等智能體分別在國際象棋、圍棋、二人無限注德州撲克以及星際爭霸中戰勝頂尖職業人類選手, 其背后的智能決策技術獲得了廣泛的關注, 也代表了智能決策技術在中等復雜度完美信息博弈、高復雜度完美信息博弈再到高復雜度不完美信息博弈中的技術突破.
國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由1047增至10360, 后者更是被譽為人工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有10160, 但其為不完美信息博弈, 相比于國際象棋與圍棋信息集大小僅為1, 其信息集平均大小達到103. 而星際爭霸, 作為高復雜度不完美信息博弈的代表, 因其相比于上述游戲的即時制、長時決策等特性[4, 5], 對智能決策技術提出了更高的要求.
星際爭霸突破之后, 研究人員迫切需要新的人機對抗環境實現智能技術的前沿探索. 兵棋推演是一款經典策略游戲[6-8], 也被稱為戰爭游戲, 作為一種人機對抗策略驗證環境, 由于其具有不對稱環境決策、更接近真實環境的隨機性與高風險決策等特點, 受到智能決策技術研究者的廣泛關注. 近些年來, 研究者投入了大量的精力進行兵棋推演智能體研發以及兵棋推演子問題求解, 試圖解決兵棋推演的人機對抗挑戰[9-14].
兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與20世紀80年代后期普及的計算機兵棋[15-17]. 胡曉峰等人[6]全面綜述了兵棋推演的基本要素(參演人員、兵棋系統模擬的戰場環境和作戰部隊、導演部及導調機構), 指出“兵棋推演的難點在于模擬人的智能行為”, 進而得出“兵棋推演需要突破作戰態勢智能認知瓶頸”, 最后給出了如何實現態勢理解與自主決策可能的路徑. 和目前兵棋推演關注的重點不同, 本文關注的是兵棋推演中的智能體研究, 針對通用性的智能決策技術與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推演, 如非特別闡述, 在不引起歧義的前提下統一指雙方計算機兵棋推演(紅藍兩方).
本文內容組織如下: 第二章將梳理兵棋推演與目前主流人機對抗環境如星際爭霸等的區別, 以及為什么其潛在是人機對抗的下一個挑戰; 第三章將介紹兵棋推演智能技術的研究現狀; 之后在第四章闡述當前主流技術的瓶頸; 第五章對兵棋推演的智能決策技術進行展望與思考, 希望啟發新的研究方向; 最后對全文進行總結.
本章首先簡要介紹兵棋推演問題以及與手工兵棋的比較. 在此基礎上, 以人機對抗發展脈絡為主線, 以兵棋推演中的智能體研究為核心, 介紹兵棋推演與其他主流策略游戲的通用挑戰, 之后重點闡述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機對抗的成功提供了技術基礎, 后者則對當下人機對抗智能體決策技術提出了新的挑戰.
早期的兵棋推演一般指手工兵棋, 具有200年的研究歷史, 而隨著信息技術與計算機性能的不斷發展, 計算機兵棋, 因其簡便、快速、逼真等特點成為目前兵棋推演的主流方向[18]. 王桂起等人[15]在2012年概述了兵棋的概念、發展、分類以及應用, 并分析了兵棋的各組成要素以及國內外兵棋的研究現狀. 彭春光等人[16]在2009年對兵棋推演技術進行了綜述, 指出兵棋主要研究人員決策與兵棋事件之間的因果關系.
2017年, 胡曉峰等人[6]對兵棋推演進行了全面的綜述, 描述了兵棋推演的基本要素, 重點闡述了兵棋推演的關鍵在于模擬人的智能行為, 面臨的難點為“假變真”、“粗變細”、“死變活”、“靜變動”、“無變有”, 歸結起來為“對戰場態勢的判斷理解”以及“對未來行動的正確決策處置”, 在此基礎上, 作者展望了AlphaGo等技術對兵棋推演帶來的新機遇. 不同于上述工作, 本文以人機對抗智能決策切入, 針對通用性的智能決策技術與挑戰展開對兵棋推演中的智能體研究.
回顧當前典型的已獲得一定人機對抗突破的決策環境如雅達利、圍棋、德州撲克以及星際爭霸, 可以得出一些基本的結論. 人機對抗研究的重心已經從早期的單智能體決策環境如雅達利過渡到了多智能體決策環境如圍棋與星際爭霸; 從回合制決策環境如圍棋逐漸過渡到更貼近現實應用的復雜即時戰略類決策環境如星際爭霸; 從完美信息博弈如圍棋逐漸過渡到非完美信息博弈如德撲與星際爭霸; 從以樹為基礎的博弈算法如圍棋與德撲過渡到以深度強化學習為基礎的大規模機器學習算法. 針對上述轉變與各自博弈對抗環境的特點, 可以凝練抽取一些影響智能體設計與訓練的關鍵因素, 如表1所述. 典型的兵棋推演仿真環境一般由算子、地圖、想定以及規則要素組成, 展現了紅藍雙方之間的博弈對抗. 與代表性策略游戲如雅達利、圍棋、德州撲克以及星際爭霸等類似, 兵棋推演的智能體研究表現出策略游戲中智能體研究的普遍挑戰性問題.
表 1 對決策帶來挑戰的代表性因素
不完美信息博弈. 不完美信息博弈是指沒有參與者能夠獲得其他參與者的行動信息[19], 即參與者做決策時不知道或者不完全知道自己所處的決策位置. 相比于完美信息博弈, 不完信息博弈挑戰更大, 因為對于給定決策點, 最優策略的制定不僅僅與當下所處的子博弈相關. 與德州撲克、星際爭霸相似, 兵棋推演同樣是不完美信息博弈, 紅方或者藍方受限于算子視野范圍、通視規則、掩蔽規則等, 需要推斷對手的決策進而制定自己的策略.
長時決策. 相比于決策者僅做一次決策的單階段決策游戲, 上述游戲屬于序貫決策游戲[20]. 以圍棋為例, 決策者平均決策次數在150次, 相比于圍棋, 星際爭霸與兵棋推演的決策次數以千為單位. 長時決策往往導致決策點數量指數級的增加, 使得策略空間復雜度變大, 過高的策略空間復雜度將帶來探索與利用等一系列難題, 這對決策制定帶來了極大的挑戰.
策略非傳遞性. 對于任何策略vt可戰勝vt?1, vt+1可戰勝vt, 有vt+1可戰勝vt?1, 則認為策略之間存在傳遞性. 一般情況下, 盡管部分決策環境存在必勝策略, 但在整個策略空間下都或多或少存在非傳遞性的部分, 即大多數博弈的策略不具備傳遞性[21]. 例如, 星際爭霸與兵棋推演環境, 策略難以枚舉且存在一定的相互克制關系. 策略非傳遞性會導致標準自博弈等技術手段難以實現智能體能力的迭代提升, 而當前經典的博弈算法如Double Oracle[58]等又往往難以處理大規模的博弈問題, 使得逼近納什均衡策略極其困難.
智能體協作. 在多智能體合作環境中, 智能體間的協作將提升單個智能體的能力, 增加系統的魯棒性, 適用于現實復雜的應用場景[22-24]. 圍棋與兩人德州撲克參與方屬于純競爭博弈環境, 因此不存在多個智能體之間的協作. 星際爭霸與兵棋雖然也屬于競爭博弈環境, 但是需要多兵力/算子之間配合獲得多樣化且高水平策略. 將上述問題看作是單個智能體進行建模對求解是困難的, 可以建模為組隊零和博弈, 隊伍之間智能體相互協作, 最大化集體收益. 針對組隊零和博弈問題, 相比于二人零和博弈問題, 理論相對匱乏.
為應對上述挑戰, 研究人員進行了大量的技術創新. 例如, 在蒙特卡洛樹搜索基礎上引入深度神經網絡實現博弈樹剪枝、通過自博弈實現強化學習的圍棋AI AlphaGo系列[2], 在虛擬遺憾最小化算法基礎上引入安全嵌套子博弈求解以及問題約簡等技術的二人無限注德州撲克AI Libratus[3], 采用改進自博弈以及分布式強化學習的星際爭霸AI AlphaStar[4]. 上述技術為相應決策問題的挑戰性因素提出了可行的解決方案, 盡管兵棋推演存在上述挑戰, 但相關技術基礎已經具備, 可以指導兵棋推演的研究方向.
傳統的非對稱信息指某些行為人擁有但另一些行為人不擁有的信息, 本文的非對稱以學習的角度考慮, 指的是游戲雙方的能力水平或游戲平衡性. 以圍棋、星際爭霸以及絕大多數游戲環境為例, 游戲設計者為保證游戲的體驗以及促進人類選手競技水平的提升, 往往保證游戲不同方具有相對均衡的能力. 例如, 星際爭霸游戲中包含了三個種族, 即人族、蟲族以及神族, 盡管不同種族具有截然不同的科技樹、兵力類型等, 但是三個種族在能力上處于大致均衡的狀態.
相比于星際爭霸等, 兵棋推演中游戲是不平衡的. 這不僅體現在紅方與藍方在兵力配備上的不同, 也體現在不同任務/想定下紅方和藍方的現實需要. 以部分奪控戰為例, 紅方兵力水平一般弱于藍方, 同時紅方往往具有更好的視野能力(如紅方配備巡飛彈算子), 而藍方往往具有更強的進攻能力(如配備更多的坦克算子). 這種嚴重的非對稱性, 對于目前的學習算法提出了極大的挑戰.
當前主流的或改進的自博弈技術, 在智能體迭代過程中往往對每個參與智能體以對稱的方式進行訓練, 進而保證智能體能力在相互對抗的迭代過程中持續增長. 但是, 在兵棋推演中, 紅方與藍方嚴重的非對稱性, 使得直接采用相似的設計難以保證弱勢方的訓練, 需要設計更合理的迭代方式(如啟發式迭代)保證相對較弱勢方的訓練. 另一方面, 在二人零和博弈中, 雖然弱勢方的納什均衡策略可取, 但是如何根據對手的情況調整自己的策略以最大可能剝削或者發現對手的漏洞并加以利用, 可能是要考慮的重點問題.
隨機性與高風險主要體現在游戲的裁決中, 泛指交戰規則中隨機影響因素以及對交戰結果產生的影響. 裁決是游戲的重要組成部分, 在決定游戲的勝負規則之外, 明確定義了參與方在對抗過程中的交戰結果. 例如, 在圍棋中, 黑子包圍白子之后, 需要將白子從棋盤中拿下, 即吃子. 在星際爭霸環境中, 兩隊兵力對抗中, 血量為零的兵力將直接消失. 一般來說, 在圍棋等棋類游戲中, 裁決不受隨機因素的干擾, 即不具有隨機性. 而在星際爭霸環境中, 盡管不同兵力攻擊產生的傷害數值是固定的, 但仍然受到少量隨機因素的影響, 例如具有一定概率觸發某項技能(如閃避).
相比于上述游戲, 兵棋推演在所有攻擊裁決過程中均受到隨機因素的影響, 即隨機性較高, 這主要是因為兵棋裁決一般遵循著“攻擊等級確定、攻擊等級修正、原始戰果查詢、最終戰果修正”的基本流程. 在原始戰果查詢與最終戰果修正中, 將基于骰子產生的隨機數值(兩個骰子1?12點)分別進行修正, 上述修正的結果差距較大, 可能產生壓制甚至消滅對方班組的戰果, 也有可能不產生任何效果. 更重要的是, 相比于其他即時戰略類游戲(如星際爭霸), 兵力一旦消失, 將不能重新生成, 因此會造成極高的風險, 對于專業級選手, 兵力的消失往往意味著游戲的失敗.
兵棋推演的隨機性與高風險決策對于智能體的訓練提出了極高的挑戰. 反映在數據上, 環境的狀態轉移不僅受到其他算子以及不可見信息的影響, 也受到裁決的影響, 即狀態轉移高度不確定. 另一方面, 決策的高風險使得算子所處狀態的值估計等具有高方差特性, 難以引導智能體的訓練, 尤其是在評估上難以消除該隨機性的情況下訓練更加困難.
總的來說, 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其具備目前主流對抗環境的挑戰性問題, 使得完成兵棋推演的人機對抗挑戰具備一定的技術基礎. 同時, 由于其不對稱信息決策、更接近于真實環境的隨機性與高風險決策特點, 對當前人機對抗技術提出了新的挑戰, 也使得兵棋推演成為人機對抗的下一個挑戰.
為應對兵棋推演的挑戰性問題, 研究者提出了多種智能體研發與評測方法. 與圍棋、星際爭霸等主流游戲人機對抗智能體研發脈絡類似(如星際爭霸從早期知識規則為主, 中期以數據學習為主, 后期以聯合知識與強化學習完成突破), 兵棋推演也經歷了以知識驅動為主、以數據驅動為主以及以知識與數據混合驅動的研發歷程. 兵棋的評測技術包含了智能體的定量與定性分析方法. 在本節中, 將重點闡述兵棋智能體研發的技術與框架, 同時對智能體的評估評測進行簡述.
當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的兵棋推演智能體, 本節將分別闡述各個技術框架的研究進展.
知識驅動的兵棋推演智能體研發利用人類推演經驗形成知識庫, 進而實現給定狀態下的智能體決策[25]. 代表性的知識驅動框架為包以德循環(OODA[26]), 其基本觀點是通過觀察(Observation)、判斷(Orientation)、決策(Decision)以及執行(Action)的循環過程實現決策, 如圖1所示. 具體來說, 觀察包括觀察自己、環境以及對手實現信息的收集; 判斷對應態勢感知, 即對收集的數據進行分析、歸納以及總結獲得當前的態與勢; 決策對應策略的制定, 利用前面兩步的結果實現最優策略的制定; 執行對應于具體的行動.
圖 1 包以德循環
通過引入高水平人類選手的經驗形成知識庫, 可以一定程度規避前面所述的挑戰性問題, 實現態勢到決策的規則制定與編碼. 自2017年國內各類兵棋大賽舉辦以來, 每年都有數十甚至上百個參賽隊伍進行機機對抗, 角逐的精英智能體將參與人機對抗以及人機混合對抗. 為適應不同的想定以及進行人機協同, 目前絕大多數智能體為知識驅動型, 即依據人類選手的經驗進行戰法總結, 以行為樹[27]、自動機[28]等框架實現智能體決策執行邏輯的編程實現. 總的來說, 知識驅動型智能體研發依賴于人類推演經驗與規律的總結, 實現相對簡單, 不需要借助于大量的數據進行策略的訓練與學習.
近些年來, 通過編碼高水平選手的決策, 涌現出了一系列高水平知識驅動型智能體并開放對抗①, 例如, 信息工程大學的“兵棋分隊級AI-微風1.0”, 該智能體基于動態行為樹框架, 在不同想定下實現了不同的戰法戰術庫. 中國科學院自動化研究所的“兵棋群隊級AI-紫冬智劍2.0”, 該智能體以OODA環為基本體系架構, 以敵情、我情以及地形等通用態勢認識抽象狀態空間, 以多層級任務行為認知抽象決策空間, 可以快速適應不同的任務/想定. 目前部分智能體可以支撐人機混合對抗, 甚至在特定想定下達到了專業級選手水平.
隨著AlphaGo、AlphaStar等智能體取得巨大成功, 以深度強化學習為基礎進行策略自主迭代(如自博弈中每一輪的策略學習)成為當前的主流決策技術[29]并被成功應用于兵棋推演[30, 31]. 其基本框架如圖2所示, 智能體以自博弈或改進的自博弈方式進行每一代智能體的迭代, 而每一代智能體采用強化學習的方式進行訓練. 對于強化學習來說, 智能體與環境進行交互收集狀態、動作與獎賞等序列數據進行訓練, 直至學習得到可以適應特定任務的策略. 由于兵棋推演環境沒有顯式定義狀態、動作與獎賞等的具體表現形式, 因此在應用于強化學習的過程中, 首要的任務是進行上述基本要素的封裝, 在此基礎上便可以進行基本的強化學習訓練.
圖 2 自博弈+強化學習訓練
深度強化學習通過改進神經網絡的設計可以一定程度緩解非完美信息與長時決策帶來的挑戰. 例如, 通過增加認知網絡結構如記憶單元[32, 33]可以有效使用歷史信息, 一定程度解決部分可觀測狀態下的決策問題; 通過增加內在獎勵驅動的環境建模網絡[34], 可以緩解長時決策尤其是獎勵稀疏情況下強化學習的訓練. 自博弈尤其是改進的自博弈框架, 如星際爭霸提出的帶有優先級的虛擬自我對局與聯盟博弈有效緩解了策略非傳遞性的挑戰, 并通過初期的強化學習網絡監督訓練初始化實現了對策略非傳遞性的進一步緩解. 針對智能體協作, 研究者提出了大量的多智能體協同算法, 并通過獎勵共享、獎勵分配等實現了不同智能體的有效訓練. 關于非對稱性與高隨機性, 據本文作者所了解, 尚未有相關文獻解決兵棋推演的上述挑戰.
近些年來部分研究者將其他數據學習方式與強化學習進行結合以緩解端到端強化學習的困難. 例如, 李琛等[30]將Actor-Critic框架引入兵棋推演并與規則結合進行智能體開發, 在簡化想定(對稱的坦克加步戰車對抗)上進行了驗證. 張振等[31]將近端策略優化技術應用于智能體開發, 并與監督學習結合在智能體預訓練基礎上進行優化, 在簡化想定(對稱的兩個坦克對抗)驗證了策略的快速收斂. 中國科學院自動化研究所提出的AlphaWar②引入監督學習與自博弈技術手段實現聯合策略的學習, 保證了智能體策略的多樣性, 一定程度緩解了兵棋推演的策略非傳遞性問題. 2020年, AlphaWar在與專業級選手對抗過程中通過了圖靈測試, 展現了強化學習驅動型兵棋推演智能體的技術優勢.
另一方面, 分布式強化學習作為一種能夠有效利用大規模計算資源加速強化學習訓練的手段, 目前已成為數據驅動智能體研發的關鍵技術, 研究者提出了一系列算法在保證數據高效利用的同時也保證了策略訓練的穩定性. 例如, Mnih等人[35]在2016年提出異步優勢動作評價算法(Asynchronous advantage actor-critic), 實現了策略梯度算法的有效分布式訓練. Horgan等人[36]在2018年提出APE-X分布式強化學習算法, 對生成數據進行有效加權, 提升分布式深度Q網絡(Deep Q Network)訓練效果. Mnih等人[37]在2018年提出IMPALA算法實現了離策略分布式強化學習, 在高效數據產生的同時也可以通過V-Trace算法進行離策略(off-policy)修正, 該技術被成功用于奪旗對抗[38]. Espeholt等人[39]在2019年引入中心化模型統一前向, 進一步提升了IMAPLA的分布式訓練能力, 并被應用于星際爭霸AlphaStar的訓練中. 考慮到IMPALA的高效以及方便部署, 以IMPALA為代表的分布式強化學習已經成為兵棋智能體訓練的常用算法. IMPALA的結構如下圖3所示, 其實現可以方便地通過TensorFlow③、Pytorch④或伯克利近期提出的Ray[40] 框架完成.
圖 3 IMAPLA用于兵棋推演AI訓練
知識驅動智能體具有較強的可解釋性, 但是受限于人類的推演水平. 與之相反, 基于數據驅動的兵棋智能體較少依賴人類推演經驗, 可以通過自主學習的方式得到不同態勢下的決策策略, 具有超越專業人類水平的潛力, 但是由于數據驅動的兵棋推演智能體依賴數據以及深度神經網絡, 其訓練往往較為困難且決策算法缺乏可解釋性.
為了有效融合知識驅動與數據驅動框架的優點, 避免各自的局限性, 目前越來越多的研究者試圖將兩者進行結合[41]. 其中關注較多的工作為將先驗信息加入到學習過程中進而實現對機器學習模型的增強[42-44]. 在該類工作中, 知識或稱為先驗信息作為約束、損失函數等加入到學習的目標函數中實現一定程度的可解釋性以及模型的增強. 近年來, Laura von Rueden等人[42]進行了將知識融合到學習系統的綜述并提出了知信機器學習的概念(informed machine learning), 從知識的來源、表示以及知識與機器學習管道的集成對現有方法進行了分類.
知識與數據混合驅動框架結合了兩者的優勢, 可以更好應對兵棋推演環境的挑戰, 目前代表性的融合方式包括“加性融合”, 如圖4所示, 即知識驅動與數據驅動各自做擅長的部分, 將其整合形成完整的智能體. 一般來說, 知識驅動善于處理兵棋推演前期排兵布陣問題, 因為該階段往往缺乏環境的有效獎勵設計. 另一方面, 緊急態勢下的決策以及相對常識性的決策也可以由知識驅動完成, 以減少模型訓練的探索空間. 數據驅動善于自動分析態勢并作出決策, 更適用于進行兵棋推演中后期多樣性策略的探索與學習. 此外, 一些難以用相對有限的知識規則刻畫的態勢-決策也可由數據驅動完成. 黃凱奇等人[45] 提出了一種融合知識與數據的人機對抗框架, 如圖5所示, 該框架以OODA為基礎, 刻畫了決策不同階段的關鍵問題, 不同問題可以通過數據驅動或知識驅動的方式進行求解.
圖 4 知識與數據驅動“加性融合”框架
圖 5 人機對抗框架[45]
另一種代表性融合方式為“主從融合”, 如圖6所示, 即以一方為主要框架, 另一方為輔助的融合方式. 在以知識驅動為主的框架中, 整體設計遵循知識驅動的方式, 在部分子問題或者子模塊上采用如監督學習、進化學習等方式實現優化. 例如, 武警警官學院開發的分隊/群隊AI“破曉星辰2.0”⑤在較為完善的人類策略庫基礎上結合蟻群或狼群等算法進行策略庫優化, 以提升智能體的適應性. 在以數據驅動為主的框架下, 則采用如數據驅動的改進自博弈加強化學習的方式進行整體策略學習, 同時增加先驗尤其是常識性約束. 例如, 將常識或人類經驗作為神經網絡選擇動作的二次過濾以減少整體探索空間.
圖 6 知識與數據驅動“主從融合”框架
智能體的評估涉及智能體整體能力與局部能力評估, 同時開放的智能體評估平臺將有效支撐智能體的能力測評與迭代. 本節將從智能體評估算法與智能體評估開放平臺展開介紹.
正確評估智能體策略的好壞對于智能體的訓練與能力迭代具有至關重要的作用. 考慮到兵棋推演中策略的非傳遞性以及其巨大的策略空間問題, 進行智能體的準確評估挑戰巨大. 近年來, 研究者們提出了一系列評估算法, 試圖對智能體能力進行準確描述. 經典的ELO算法[46]利用智能體之間的對抗結果, 通過極大似然估計得到反映智能體能力的分值. 例如, 圍棋、星際爭霸等對抗環境中的段位就是基于ELO算法計算獲得. Herbrich等人[47]提出TrueSkill算法, 通過將對抗過程建立為因子關系圖, 借助于貝葉斯理論實現了多個智能體對抗中單一智能體能力的評估. 考慮到ELO算法難以處理策略非傳遞性這一問題, Balduzzi等人[48]提出多維ELO算法, 通過對非傳遞維度進行顯式的近似改善了勝率的預測問題. 更進一步, Omidshafiei等人[49]提出α-rank算法, 基于Markov-Conley鏈, 使用種群策略進化的方法, 對多種群中的策略進行排序, 實現策略的有效評估.
定量評估之外, 也可以通過專家評判的方式進行定性評估, 實現對智能體單項能力的有效評估. 例如, 圖7是廟算杯測試賽 ⑥中對智能體AlphaWar的評估, 在人為抽象出的“武器使用”、“地形利用”、“兵力協同”、“策略高明”、“反應迅速”方面與測試賽排名第一位的人類選手進行了比較.
圖 7 智能體單項能力評估
為促進兵棋推演智技術的發展, 構建標準的評估評測平臺至關重要, 其可以實現廣泛的兵棋智能體機機對抗、人機對抗甚至人機混合對抗[50], 這對兵棋推演評估評測平臺提出了較高的要求, 但也極大地促進了兵棋評估評測平臺的建設與標準化. 最近, 中國科學院自動化研究所構建了人機對抗智能門戶網站(//turingai.ia.ac.cn/), 如圖8所示. 該平臺以機器和人類對抗為途徑, 以博弈學習等為核心技術來實現機器智能快速學習進化的研究方向. 平臺提供兵棋推演智能體的機機對抗、人機對抗以及人機混合對抗測試, 并支持智能體的多種評估評測.
圖 8 “圖靈網”平臺
針對兵棋推演的智能技術研究現狀, 本節重點闡述不同技術框架存在的挑戰性問題, 引導研究者對相關問題的深入研究.
知識驅動型作為智能體研發的主流技術之一, 其依賴人類推演經驗形成知識庫, 進而實現給定態勢下的智能體決策. 基于此, 知識驅動型智能體具有較強的可解釋性, 但同樣面臨不可避免的局限, 即受限于人類本身的推演水平, 同時環境遷移與適應能力較差, 造成上述局限的根本原因在于缺乏高質量的知識庫[51, 52]實現知識建模、表示與學習[53], 這也是目前知識驅動型技術的主要挑戰. 知識庫一般泛指專家系統設計所應用的規則集合, 其中規則所聯系的事實及數據的全體構成了知識庫, 其具有層次化基本結構.
對于兵棋推演來說, 知識庫最底層是“事實知識”, 如算子機動能力等; 中間層是用來控制“事實”的知識(規則、過程等表示), 對應于兵棋中的微操等; 最頂層是“策略”, 用于控制中間層知識, 一般可以認為是規則的規則, 如圖9所示. 兵棋推演中知識庫構建過程最大的挑戰便是頂層策略的建模, 面臨著通用態勢認知與推理困難的挑戰. 胡曉峰等人[6]指出兵棋推演需要突破作戰態勢智能認知瓶頸, 并提出戰場態勢層次不同, 對態勢認知的要求和內容也不同. 盡管部分學者嘗試從多尺度表達模型[54]、指揮決策智能體認知行為建模框架[55]以及基于OODA環框架下態勢認知概念模型[56]等進行態勢建模, 但是, 目前基于經典知識規劃的智能體受限于對環境的認識的正確性和完備程度, 表現相較呆板缺乏靈活應對能力, 不能很好地進行不確定環境邊界下的意圖估計與威脅評估等態勢理解.
圖 9 兵棋推演知識庫構建示例
數據驅動型技術以深度強化學習為基礎進行策略自主迭代, 從該角度出發解決兵棋推演智能體研發, 訓練得到的智能體具有潛在的環境動態變化適應能力, 甚至有可能超越專業人類選手的水平, 涌現出新戰法. 同樣地, 為實現有效的智能體策略學習, 目前數據驅動型技術面臨以下技術挑戰: 自博弈與改進自博弈設計、多智能體有效協作、強化學習樣本效率較低. 其中, 自博弈與改進自博弈設計可以實現智能體能力的有效迭代提升, 多智能體有效協作將解決兵棋推演中的算子間協同(異步協同)問題, 而解決強化學習樣本效率較低問題可以實現在可控計算資源與時間下的智能體訓練.
自博弈與改進自博弈. 在兵棋推演這一二人零和博弈問題下, 傳統的博弈算法如虛擬自我對局[57]、Double Oracle[58]等難以適用于兵棋推演本身巨大的問題復雜度, 采用目前較為主流的自博弈或改進自博弈方式實現智能體能力的迭代成為一種可行的方案. 例如, 圍棋游戲的AlphaGo系列[2]采用結合蒙特卡洛樹搜索與深度神經網絡的自博弈強化學習實現智能體能力的迭代. 星際爭霸游戲的AlphaStar[4]則改進傳統的虛擬自我對局, 提出帶有優先級的虛擬自我對局并結合聯盟博弈進行智能體迭代. 具體來說, AlphaStar引入主智能體、主利用智能體以及聯盟利用智能體, 并對不同的智能體采用不同的自博弈進行以強化學習為基礎的參數更新. 總的來說, 盡管上述自博弈與一系列改進自博弈方法可以實現智能體的迭代, 但當前的設計多是啟發式迭代方式, 兵棋推演的非對稱環境等獨特挑戰是否適用有待驗證與開展深入研究.
多智能體協作. 協作環境下單個智能體的訓練受到環境非平穩性的影響而變得不穩定[59-62], 研究者提出了大量的學習范式以緩解該問題, 但仍然面臨著智能體信用分配這一核心挑戰, 即團隊智能體在和環境交互時產生的獎勵如何按照各個智能體的貢獻進行合理分配以促進協作[63-65]. 目前, 一類典型的算法為Q值分解類算法, 即在聯合Q值學習過程中按照單調性等基本假設將聯合Q值分解為智能體Q值的聯合, 進而實現信用隱式分配[66-68]. 例如, Sunehag等人[66] 率先提出此類算法將聯合Q值分解為各個智能體Q值的加和. 在此基礎上, Rashid等人[67]基于單調性假設提出了更為復雜的Q值聯合算法QMIX. 另外一類典型的信用分配算法借助于差異獎勵(difference reward)來實現顯式獎勵分配. 例如, Foster等人[69]通過引入反事實的方法提出COMA以評估智能體的動作對聯合智能體動作的貢獻程度. 通過將夏普利值引入Q學習過程中, Nguyen等人[70]提出了Shapley-Q方法以實現“公平”的信用分配. 在兵棋推演環境中, 不同智能體原子動作執行耗時是不一樣的, 導致智能體協作時的動作異步性, 如圖10所示. 這種異步性使得智能體間的信用分配算法要求的動作同步性假設難以滿足, 如何實現動作異步性下多智能體的有效協作仍然是相對開放的問題.
圖 10 兵棋推演中的異步多智能體協同
強化學習低樣本效率. 強化學習通過與環境交互試錯的方式進行模型訓練, 一般樣本效率較低, 因此在復雜環境下智能體訓練需要動用巨大的計算資源. 例如, AlphaZero[71] 采用了5000一代TPU與16二代TPU進行智能體學習; AlphaStar[4]采用192 TPU (8核)、12 TPU (128核)與50400 CPU實現群體博弈. 探索作為一種有效緩解樣本效率低的手段[72], 近些年來受到了研究者的廣泛關注, 并潛在適用具有巨大狀態空間、稀疏獎勵的兵棋推演環境中. 在單智能體強化學習中, 目前涌現了大量的探索類算法[72, 74], 如隨機網絡蒸餾(random network distillation)[34]、Go Explore[73] 等. 但多智能體的環境探索問題研究相對較少, 代表性方法包括MAVEN[75]、Deep-Q-DPP[76]、ROMA[77] 等. 其中MAVEN通過在QMIX的基礎上引入隱變量來實現多個聯合Q值的學習, 進而完成環境的有效探索. Deep-Q-DPP將量子物理中建模反費米子的行列式點過程(Determinantal Point Process)引入多智能體探索中, 通過增加智能體行為的多樣性來實現探索. 另一方面, ROMA通過考慮智能體的分工, 讓相同角色的單元完成相似的任務, 進而利用動作空間劃分來實現環境高效探索. 上述算法在星際爭霸微操等驗證環境中取得了有效的驗證, 但是兵棋推演環境擁有更加龐大的狀態空間, 如何實現智能體異步動作下的環境高效探索對當前技術提出了新的要求.
知識與數據混合驅動型相比于知識型與數據型, 可以有效融合兩者的優點, 既具備對環境的適用能力, 涌現出超越高水平人類玩家的策略, 同時又具備一定可解釋性, 實現可信決策. 在融合過程中面臨知識與數據驅動本身的技術挑戰之外, 另一個核心技術挑戰在于融合方式, 即如何實現兩者的有機融合[78]. 上一章節提到了代表性的 “加性融合”、“主從融合”, 可以實現知識與數據的一定程度融合, 但是何種融合方式更優目前并無定論, 另一方面, 探索更優的兵棋推演知識與數據融合思路是值得深入探索與研究的開放問題.
加性融合的挑戰. 在加性融合中, 知識驅動與數據驅動負責智能體不同的模塊, 兩者加和構成完整的智能體. 首先需要解決的問題是整個決策過程的模塊化或解耦合. 目前兵棋推演中較為簡單的一種做法是開局過程(算子前期布局/機動到中心戰場)采用知識驅動的方式, 中后期對抗(中心戰場對抗如消滅對手、奪控等)采用數據驅動的方式. 但是上述做法如何解耦合或者定義兩者的邊界是困難的, 這不可避免引入專家的領域知識, 也將受限于專家對問題認識的局限. 以OODA為基礎的人機對抗框架[45]雖然給出了較為一般化的框架, 但是如何在兵棋推演中具體實現存在較大的不確定性. 另一方面, 知識驅動與數據驅動部分相互制約, 在設計或訓練過程中勢必受到彼此的影響. 例如, 數據驅動的部分在迭代過程中受到知識驅動部分的限制. 這要求知識驅動或數據驅動部分在自我迭代的同時, 設計兩者的交替迭代進而實現完整智能體能力的迭代提升. 上述設計與研究目前仍然是相對開放的問題.
主從融合的挑戰. 在主從融合中, 以知識驅動或數據驅動為主, 部分子問題以另一種方式為手段進行解決. 在以數據驅動為主的框架中, 難點在于如何將知識或常識加入到深度學習或深度強化學習的訓練中. 例如, 如何引入領域知識設計狀態空間、動作空間以及獎賞. 相關設計將極大影響智能體的最終水平以及訓練效率, 因此需要對上述問題進行折中, 保證智能體能力的同時盡可能引入更多的知識以提升訓練效率. 在以知識為主的框架中, 難點在于尋找適宜用學習進行解決的子問題, 進而解決難以枚舉或難以制定策略的場景. 例如采用經典的尋路算法[79]實現臨機路障等環境下的智能體機動設計; 利用模糊系統方法實現兵棋進攻關鍵點推理[80]; 基于關聯分析模型進行兵棋推演武器效用挖掘[81]. 目前, 在星際爭霸、dota2等復雜即時戰略類游戲中的取得代表性成果的智能體多采用以數據驅動為主的方式, 即引入領域知識設計深度強化學習的各要素和訓練過程, 如何根據兵棋推演獨特的挑戰進行相關技術遷移與改進目前是相對開放的問題.
當前智能體的評估主要借助機機對抗的勝率進行智能體綜合能力/段位的排名/估計. 除此之外, 兵棋推演一般建模為多智能體協作問題, 因此, 單個智能體的能力評估將量化不同智能體的能力, 在人機協作[82]中機的能力評估中占據重要的地位. 另一方面, 人機對抗中人對機的主觀評價正逐漸成為一種智能體能力評估的重要補充. 下面將分別介紹相關的挑戰性問題.
非傳遞性策略綜合評估. 多維ELO算法[48]在傳統ELO的基礎上通過對非傳遞維度進行顯式的近似, 可以緩解非傳遞性策略勝率的預測問題, 但是因為其依賴于ELO的計算方式, 也就存在ELO本身對于對抗順序依賴以及如何有效選取基準智能體等問題. 對于兵棋推演這一面臨嚴重策略非傳遞性的問題, 目前的評估技術基于ELO或者改進的ELO, 仍然具有較大的局限性.
智能體協作中的單個智能體評估. 基于經典的ELO算法, Jaderberg等人[38]提出啟發式的算法進行協作智能體中單個智能體的評估, 但是該算法依賴于智能體能力的可加和假設, 因此難以應用于兵棋推演環境, 即算子之間的能力并非線性可加和. 另一方面, TrueSkill算法通過引入貝葉斯理論, 實現了群體對抗中的某一選手的評估, 但是其對時間不敏感, 且往往會因為對抗選手的冗余出現評估偏差. 因此如何設計有效的評估算法實現協作智能體中的單個智能體的評估是當前的主要挑戰之一.
定性評估標準體系化. 當前一些評估評測平臺人為抽象了包括“武器使用”、“地形利用”等概念實現人機對抗中人對智能體的打分評測. 上述概念主要啟發于指揮決策中對指揮官能力的刻畫, 因此是面向現實應用下智能體能力評估的重要維度[83, 84]. 但是, 如何將智能體的評估體系與作戰指揮中的能力維度進行對齊仍然是開放的問題, 需要指揮控制領域的研究人員與博弈決策領域的研究人員共同協作.
為緩解兵棋推演智能決策技術存在的挑戰性問題, 部分研究者另辟蹊徑, 引入了新的理論、抽象約簡問題等以應對兵棋推演的人機對抗.
博弈理論是研究多個利己個體之間的策略性交互而發展的數學理論, 作為個體之間決策的一般理論框架, 有望為兵棋人機對抗挑戰突破提供理論支撐[85-88]. 一般來說, 利用博弈理論解決兵棋推演挑戰, 需要為兵棋推演問題定義博弈解, 并對該解進行計算. 兵棋推演作為典型的兩人零和博弈, 可以采用納什均衡解. 但是, 納什均衡解作為一種相對保守的解, 并非在所有場合都適用. 考慮到兵棋推演的嚴重非對稱性, 納什均衡解對于較弱勢方可能并不合適. 因此, 如何改進納什均衡解(例如以納什均衡解為基礎進行對對手剝削解的遷移)是需要研究關鍵問題.
在博弈解求解這一問題上, 早期相對成熟的求解方法包括線性規劃、虛擬自我對局[57]、策略空間回應oracle (Policy space response oracle)[89]、Double oracle[58]、反事實遺憾最小化[90] 等. 但是, 上述納什均衡解(或近似納什均衡解)優化方法一般只能處理遠低于兵棋推演復雜度的博弈環境, 而目前主流的用于星際爭霸等問題的基于啟發式設計的改進自博弈迭代往往缺乏對納什均衡解逼近的理論保證. 因此, 針對兵棋推演這一具有高復雜度的不完美信息博弈問題, 如何將深度強化學習技術有效地納入可逼近納什均衡解的計算框架、或者提出更有效/易迭代的均衡逼近框架, 來實現兵棋推演解的計算仍然是開放性問題.
總的來說, 盡管博弈理論為兵棋推演的人機對抗挑戰提供了理論指導, 但是, 如何借助于該理論實現兵棋推演人機對抗的突破仍然是相對開放性的問題, 需要研究者們進行更深入的研究.
近些年來, 大模型(預訓練模型)在自然語言處理領域獲得了飛速發展[91, 92]. 例如, OpenAI于2020年發布的GPT-3模型參數規模達到1750億[93], 可以作為有效的零樣本或小樣本學習器提升自然語言處理下游任務的性能, 如文本分類、對話生成、文本生成等. 中國科學院自動化研究所在2021世界人工智能大會上發布了三模態(視覺、文本、語音)大模型, 具備跨模態理解與生成能力⑦. 一般來說, 預訓練的大模型, 作為通用人工智能的一種有效探索路徑, 需要海量的數據支撐訓練, 但具有重要的學術研究價值與廣闊的應用前景.
兵棋推演提供多種任務/想定, 理論上可以有大量不同的訓練環境, 深度強化學習與環境交互試錯的學習機制使得大模型訓練的數據問題得以緩解. 但是, 如何針對兵棋推演訓練大模型, 使得其在不同的兵棋對抗任務中可以快速適應仍然面臨各種挑戰, 如圖11所示. 首先, 兵棋推演沒有如自然語言處理任務較為通用的訓練目標或優化目標, 尤其是不同規模的對抗任務差異較大, 因此如何設計該大模型的優化目標是需要解決的首要問題, 這涉及強化學習中動作空間、獎勵空間等多項要素的深入考慮.
圖 11 兵棋推演大模型訓練挑戰
另一方面, 兵棋推演包含異質且異步協同的智能體, 不同任務下需要協同的智能體在數量、類型上有所差距, 這就要求大模型在訓練過程中既能解耦合不同智能體之間的訓練, 同時可以建立有效的協同機制實現智能體之間的協同. 盡管, 可以采用智能體共享獎勵、神經網絡獨立訓練的框架, 但是該設計過于簡單, 難以有效實現智能體協同時的信用分配等挑戰性問題. 總的來說, 如何設計大模型下多智能體訓練以適應具有較大差異的兵棋推演任務是需要重點研究的問題之一.
最后, 在自博弈過程中進行大模型的訓練, 需要適應不同規模(兵棋推演天然存在連隊級、群隊級、旅隊級等規模)以及同規模下不同任務難度的對抗, 這對大模型的訓練提出了新的挑戰. 自步學習[94]的范式提供了智能體由易到難的逐步訓練框架, 但如何定義兵棋推演不同任務難度是啟發式的. 另一方面, 要求智能體在更難任務訓練時不能遺忘對已訓練任務的記憶, 這也需要持續學習[95]等前沿技術手段的引入.
星際爭霸完整游戲的人機對抗挑戰突破之前, 研究者們設計了包括敵方意圖識別[96]、微操控制(多智能體協同)[97, 98, 99]等在內的關鍵子任務以促進智能決策技術的發展. 針對兵棋推演問題, 為引領技術突破進而反饋解決兵棋人機對抗挑戰, 迫切需要對兵棋推演中的關鍵問題進行抽象、約簡, 在保證約簡的問題能夠表征原始問題的重要特征前提下, 在約簡的問題中進行求解.
基于上述考慮, 本文提出兩個約簡問題, 即排兵布陣與算子異步協同對抗. 需要指出的是, 問題約簡過程中不可避免對兵棋推演環境等要素的規則進行簡化, 甚至脫離兵棋推演本身的任務或者目的導向屬性, 但是相關問題的約簡與抽象一定程度反映了兵棋推演智能體決策的核心挑戰, 將極大促進研究者對相關問題的研究.
排兵布陣. 排兵布陣反映了決策者在未知對手如何決策的前提下采取何種規劃或者兵力選擇可以最大化自己的收益, 代表性環境如爐石傳說卡牌類游戲, 即如何布置自己的卡牌以在后期積累優勢獲得最大化利益. 其挑戰在于未知對手如何規劃的條件下實現己方規劃, 該問題因為缺乏驗證環境, 目前研究較少.
兵棋推演的前期, 紅方或者藍方基于未知的對手信息布局自己的兵力, 該布局一定程度決定了后期的對抗成敗. 該過程因為缺少環境的顯式反饋, 無法度量何種排兵布陣能夠最大限度利用地形、能夠最大化攻擊等, 也就難以評估何種兵力布置最優. 基于上述原因, 本文設計如圖12所示的排兵布陣簡化問題. 具體來說, 在一個簡化的地圖中, 紅方與藍方各占有一部分區域進行兵力放置, 同時紅方與藍方之間具有一定距離間隔, 考慮紅方與藍方不能移動且兵力放置之后自動進行裁決.
圖 12 排兵布陣問題示意圖
需要指出的是, 上述簡化環境對兵棋推演本身做了極大的簡化, 更多是從算法研究的角度出發. 在研究兵力放置過程中, 可以由簡單到復雜進行調整, 以契合兵棋推演問題本身, 包括兵棋推演的目的加入(如奪控)、地形設置(如高程)等.
算子異步協同對抗. 算子協同對抗是多智能體相關問題的重要組成部分, 目前相關領域已經開放了大量的智能體協同對抗環境, 如星際爭霸微操、捉迷藏等[22-24]. 值得注意的是, 目前絕大多數環境, 不同算子之間協同是同步的, 即智能體的動作執行周期一致. 以此為基礎, 研究者提出了大量的算法實現有效的算子間協同[100, 75, 101]. 但是當不同智能體的動作執行周期不一致時, 便導致異步協同問題, 兵棋推演的對抗便屬于異步協同對抗, 當前的研究因為相關環境的缺乏相對較少.
兵棋推演中后期, 紅方與藍方進行對抗, 為評估智能體的接敵能力實現算子之間異步動作的有效協同, 本文設計算子異步協同對抗簡化問題. 如圖13所示, 在一個簡化的相對較小的地圖上, 不考慮復雜地形、復雜交戰規則以及兵棋推演任務約束等因素, 紅方與藍方在各自的起始位置出發進行對抗, 算子可選動作包括機動(6個方向與停止)與射擊(對方算子). 由于不同算子機動能力的差異, 重點為領域提供多智能體異步協作的評估環境.
圖 13 算子異步協同問題示意圖
同排兵布陣問題, 簡化更多從驗證算法性能的角度入手. 在研究算子異步協同對抗過程中, 可以對任務的難度進行調整, 如對地圖進行調整, 包括設置高程、增加特殊地形等.
為了促進上述問題的深入研究, 在約簡問題設計上, 本文將陸續公開:
1)與OpenAI Gym⑧一致的領域認可的環境接口, 供智能體與環境交互進行策略的學習;
2)提供不同難度等級的內置智能體, 供算法研究人員進行算法驗證與算法間比較;
3)完全開放的底層源碼, 進而支持自博弈等主流技術以及人機對抗.
星際爭霸人機對抗挑戰的成功標志著智能決策技術在高復雜不完美信息博弈中的突破. 星際爭霸之后, 迫切需要新的人機對抗環境以牽引智能決策技術的發展. 兵棋推演, 因其非對稱信息決策以及隨機性與高風險決策等挑戰性問題, 潛在成為下一個人機對抗熱點. 本文詳細分析了兵棋推演智能體的研究挑戰尤其是其相比于其他博弈環境的獨特挑戰性問題, 在此基礎上了梳理了兵棋推演智能決策技術的研究現狀, 包括智能體研發技術框架以及智能體評估評測技術, 之后指出了當前技術的挑戰, 并展望兵棋推演智能決策技術的發展趨勢. 通過本文, 將啟發研究者對兵棋推演關鍵問題的研究, 進而產生實際應用價值.
中國科學院自動化研究所的周雷博士在“兵棋推演與博弈理論”章節給出了博弈理論解決兵棋推演問題的研究思路, 在此感謝周雷博士的建議.
近年來,隨著人工智能技術的發展,人機對抗領域取得了一系列突破性的進展,如AlphaGo、Libratus以及AlphaStar分別在圍棋、二人無限注德州撲克以及星際爭霸2中擊敗了人類職業選手。然而,當前大部分研究基于傳統機器學習方法——以最大化收益/最小化損失為學習目標,將對手視為被動反饋的環境中的一部分,忽略了對手的理性和策略性,導致在非平穩環境中缺乏理論保證,難以處理復雜人機對抗中多個趨利的智能體共同學習、相互對抗的非平穩任務。如何從理論和方法上高效、穩定求解對抗任務中的博弈策略是目前國際上的研究熱點和難點。
近期,中科院自動化所智能系統團隊提出了面向人機對抗的博弈學習方法,該方法結合博弈論和機器學習,從人機對抗任務出發,充分考慮對手的策略性回應(strategic response),基于博弈論從建模、解概念定義及求解出發設計學習方法,以收斂到智能體的策略均衡為學習目標,并利用機器學習方法幫助形成穩定、高效、可擴展的博弈求解算法。
人機對抗中的博弈學習方法是智能系統團隊面向人機對抗智能研究的核心環節,如下圖所示,人機對抗智能技術提出了人-機-物三元博弈問題定義,博弈學習方法給出了三元博弈學習的內涵、組成要素和解決復雜人對抗任務的方法步驟,并在典型人機對抗任務如兵棋推演、德州撲克等場景進行驗證,以解決復雜人機對抗任務中的關鍵科學問題。上述研究成果已經發表在中國科學、計算機學報、自動化學報、IEEE Trans. On TOG、AAAI等國內外重要期刊與會議上,探索了博弈智能通往自主進化智能的可行性與路徑。
《人機對抗中的博弈學習方法》摘要
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.
關鍵詞 人工智能;人機對抗;博弈論;機器學習;博弈學習
周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.
強化學習是一種從試錯過程中發現最優行為策略的技術,已經成為解決環境交互問題的通用方法.然而,作為一類機器學習算法,強化學習也面臨著機器學習領域的公共難題,即難以被人理解.缺乏可解釋性限制了強化學習在安全敏感領域中的應用,如醫療、駕駛等,并導致強化學習在環境仿真、任務泛化等問題中缺乏普遍適用的解決方案.為了克服強化學習的這一弱點,涌現了大量強化學習可解釋性(Explainable Reinforcement Learning,XRL)的研究.然而,學術界對XRL尚缺乏一致認識.因此,本文探索XRL的基礎性問題,并對現有工作進行綜述.具體而言,本文首先探討了父問題——人工智能可解釋性,對人工智能可解釋性的已有定義進行了匯總;其次,構建了一套可解釋性領域的理論體系,從而描述XRL與人工智能可解釋性的共同問題,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性;然后,根據強化學習本身的特征,定義了XRL的三個獨有問題,即環境解釋、任務解釋、策略解釋;之后,對現有方法進行了系統的歸類,并對XRL的最新進展進行綜述;最后,展望了XRL領域的潛在研究方向.
//www.jos.org.cn/jos/article/abstract/6485
人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體策略[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表 現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫 療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.
強化學習(Reinforcement Learning, RL)被驗證適用于復雜的環境交互類問題[6]-[8] ,如機器人控制[9] ,游 戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨著缺乏可解釋性的問題,主要表現在如下 4 個方面:
(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 策略難以保證其可靠性,存在安全隱患.這一問題 在安全敏感任務(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來的危險,RL 在安全敏感 任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;
(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單游戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過擬合. 當過擬合發生時,模型學到環境的背景信息,而非真正的知識.這導致了兩難的問題,一方面,在真實世 界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環境中訓練的模型學到了真實的規律.
(3) 相似任務的策略泛化困難.RL 策略通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的 環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以確定模 型在相似任務中的表現.
(4) 對抗攻擊的安全隱患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過將微小的惡意擾 動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型 而言,對抗樣本會使模型的輸出產生極大的偏差.對抗攻擊從深度學習擴展到 RL[15] [16] ,成為 RL 算 法的安全隱患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模 型并未學到真正的知識.
解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學的知識,便于 通過人的經驗驗證模型是否學到魯棒的知識,從而使人高效地參與到模型的設計和優化中;對于特定領域的專 家使用者,解釋提供模型的內部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域內的實 踐.對于普通用戶,解釋呈現模型的決策的原因,從而加深用戶對模型的理解,增強用戶對模型的信心.
強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型理解,優化模型性能,從而解決上述缺乏可 解釋性導致的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.
一方面,XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找 等,其特點是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算 法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法 關注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過程 必然伴隨對模型策略的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一致性;最 后,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下相互轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直觀的展示輸入和輸出之間的邏輯關系,但面對由 大量簡單結構組成的龐大模型,其錯綜復雜的邏輯關系仍然導致模型的整體不可理解.同時,雖然結構復雜的模 型(如神經網絡)通常難以被理解,但當模型被極致約減時(如將神經網絡塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。
另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體策略三個關鍵因素組成,因此, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏 對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨復雜任務時,缺乏對環境內部 規律的理解,導致對環境狀態進行抽象時忽略有利信息,使智能體難以學到真實的規律;缺乏對任務的解釋使任 務目標與過程狀態序列之間的關聯不明確,不利于智能體策略與環境的解耦合,影響強化學習智能體策略在相 似任務或動態環境中的泛化能力.因此,對環境、任務和策略的解釋存在強關聯,是實現強化學習解釋必然面臨 的問題.
目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性 問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然后, 分析 XRL 與 XAI 的共同問題,構建出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋 的含義、討論影響可解釋性的因素、劃分解釋的直觀性;其次,探討 XRL 問題的獨特性,提出包括環境解釋、任 務解釋和策略解釋的三個 XRL 領域的獨有問題;隨后,對現有 XRL 領域的研究進展進行總結.以技術類別和解 釋效果為依據將對現有方法進行分類,對于每個分類,根據獲取解釋的時間、解釋的范圍、解釋的程度和 XRL 的獨有問題,確定每類方法的屬性;最后,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的 評估標準兩個方向進行展開.
1 人工智能可解釋性的觀點總結
對 XRL 的研究不能脫離 XAI 的基礎.一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,因此 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論 較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義.基于上述原因, 本文從 XAI 的角度探討可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎.
雖然學者們從不同角度對 XAI 的定義在特定情況下指導著一類研究.然而,缺乏精確而統一的定義使得學 術界對 XAI 的認識存在一定差異.本文對 XAI 相關的定義進行總結,并將其分為形而上的概念描述、形而下的 概念描述兩類.
形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] .這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等.其中可信性意味著人以較強的信心相信模型所做的決定,而可 靠性意味著模型不同場景下總是能保持其性能.雖然這樣抽象的概念不夠精確,只能產生直觀的解釋,但仍然可以使人準確了解可解釋性的目標、對象和作用,建立對可解釋性的直覺認知.這些概念表明,可解釋性算法具備 兩個關鍵實體,即人和模型.換而言之,可解釋性是一項以模型為對象,以人為目標的技術.
形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義.如 Páez 等人[17] 從哲 學角度出發,認為解釋所產生的理解并不完全等同于知識,同時理解的過程也不一定建立在真實的基礎上.我們 認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或構建虛擬邏輯的方式,增強人對模型的理解.同 時,人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進行符合認知 的預測. Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學映 射. 一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是將這樣的數學映射以人類可理解和 研究的方式展現出來.雖然數學映射也是人們為描述世界而創造的一種方式,但對于復雜的數學映射(如用于表 示神經網絡的高維多層嵌套函數),人們卻無法將其與生活中的直觀邏輯相聯系. Tjoa 等人[19] 認為,可解釋性 是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導.這一解釋也 基于數學表達,反映出人們更多地通過模型的決策模式來理解模型,而非數學上的可重現性.
一些觀點與上述文獻存在微小出入,但仍具有借鑒意義.例如,Arrieta 等人[21] 認為可解釋性是模型的被動 特征,指示模型被人類觀察者理解的程度.這個觀點將模型的可解釋性視為被動特征,忽略了模型為了更強的可 解釋性而主動提出解釋的可能. Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式.這一觀點 傾向于關注模型的結果,其目的是為了確保模型一貫的性能.然而該描述忽略了一個事實,即模型本身意味著知 識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發 展.雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個特性,而評 估模型的性能是解釋的重要功能.
雖然對 XAI 的定義眾多,但就整體而言,學術界對 XAI 的基本概念仍然是一致的.本文嘗試提取其中的共 性作為研究 XRL 問題的理論基礎.通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:
(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目標的技 術; (2) 解釋作為理解的媒介存在,該媒介可以是真實存在的事物,也可以是理想構建的邏輯,亦或是二者并 舉,達到讓人能夠理解模型的目的; (3) 人的對模型的理解不需要建立在完全掌握模型的基礎上; (4) 可準確重現的數學推導不可取代可解釋性,人對模型的理解包括感性和理性的認知; (5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能.
2 強化學習可解釋性與人工智能可解釋性的共同問題
在對 XAI 定義進行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問題.由于 XRL 與 XAI 之間存在強 耦合,因此本節內容既適用于 XAI,同時也是 XRL 的基礎問題.
2.1 智能算法和機械算法界定
可解釋性的對象是智能算法而非機械算法.傳統認知中的機械算法,如排序、查找等,面對確定的任務目標, 同時具有固定的算法程序.強化學習作為一種智能算法,在與環境動態交互的過程中尋找最優的策略,最大化獲 得的獎賞.界定智能算法和機械算法可用于確定被解釋的對象,進而回答“什么需要被解釋”的問題.一方面,智能 算法與機械算法存在差異,而解釋只在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其 所有過程產生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀態轉移等.因此,在討論 可解釋性問題前,有必要區分智能算法和機械算法.
本文根據算法對已知條件的獲取程度和建模的完整性,定義“完全知識”和“完全建模”:
完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;
完全建模:進行完整的問題建模,具備完成任務所需的計算能力;
完全知識是以機械方法確定最優解的前提.例如,求解系數矩陣的秩為 的線性方程組,完全知識表示其增 廣矩陣的秩大于等于系數矩陣的秩,此時可以根據當前知識,獲得確定的解或者確定其無解;完全建模意味著對 現有知識的充分利用,換言之,完全建模從建模者的角度出發,表示在解決任務的過程中有能力(包括程序設計 者的設計能力和硬件的算力)利用所有的知識.例如,在 19×19 圍棋游戲中,存在理論上的最優解法,但目前尚不具備足夠的計算能力在有限時間內獲取最優解.
根據上述對完全知識和完全建模的定義,本文進一步提出“任務完全”的概念來確定機械算法與智能算法 之間的邊界:
任務完全:對特定任務,具備完全知識并進行完全建模.
任務完全必須在完全知識的前提下進行完全建模.滿足任務完全的條件后,算法的優劣取僅決于建模方式 和使用者的實際需求.任務完全的定義考慮了知識和建模兩方面因素(圖 1).
任務完全的概念可以用來區分機械算法和智能算法.機械算法是任務完全的,具體來說,算法已知足夠的 知識,并進行了無簡化的建模.此時,算法具備獲取最優解的條件,因此算法的過程是確定的,獲得的解也是可預期的.例如,經典排序算法、傳統數據查詢、3×3 井字棋游戲算法等都屬于機械算法.智能算法是任務不完全的, 這意味著算法不具備足夠的知識,或者采取了簡化的建模方式.智能算法無法直接獲取最優解,通常在解空間中 尋找較優的解.如基于貪心策略的算法,線性回歸方法,19×19 傳統圍棋策略,機器學習類算法等。
導致任務不完全的可能有二,即知識不完全和建模不完全.在知識不完全的情況下,算法無法直接確定最 優解,因此只能在解空間中逼近最優解.此時,智能算法的實際作用是在解空間中進行解的選擇.導致知識不完 全的因素通常是客觀的,如環境狀態無法被完全觀測,任務目標不可預知,任務評價指標的不可知,任務始終點 不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過程沒有充分利用知識,從而無法獲得 最優解.建模不完全的原因有客觀和主觀兩方面,客觀原因如建模偏差,不完全建模等,主觀原因包括降低硬件 需求,模型提速等.在強化學習中,并非所有過程具備任務不完全的特點,因此只有部分需要進行解釋,如策略生 成、環境狀態轉移等.
2.2 對“解釋”的定義
在漢語詞典中,解釋有“分析、闡明”的含義.這不僅符合生活中對該詞的理解,同時也與可解釋性研究中“解 釋”的含義相近.然而,具體到可解釋性的研究中,這一含義顯得寬泛.我們希望結合對可解釋性的理解,細化“解 釋”的含義,使之具有更強的指導意義.以強化學習模型為例,模型學習使獎勵最大化的策略,其中包含著環境、獎 勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來.本文將多個知識視為集合,稱 為知識體系,從知識體系相互之間關系的角度,對“解釋”做出如下定義:
解釋:知識體系之間的簡潔映射.簡潔映射是在不引入新知識的條件下對目標知識進行表達;
具體來說,解釋是將基于原知識體系的表達轉換為目標知識體系表達的過程,這個過程僅使用目標知識體 系的知識,而不引入新的知識.而 XRL 算法的目的在于產生解釋,從而使原知識體系能夠被目標知識體系簡潔 的表達出來.在 XRL 中,原知識體系通常指代強化學習模型,而目標知識體系通常指人的認知,模型和人是可解 釋性的兩個關鍵實體.本文將原知識體系看作由多個元知識及其推論構成的集合.以 表示元知識, 表示知識 體系,則 .假設智能體習得的知識屬于知識體系 ,而人類能夠理解的知識屬于知識體系 ,則解釋 是將知識體系 轉換為知識體系 表達的過程.對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋 本身的被理解難度,進而導致解釋本身讓人無法理解(見 2.3 ).
在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目標知識體系進行描述,這時只有部分 知識可以被解釋.本文使用“完全解釋”和“部分解釋”的概念描述這一情況:
完全解釋:待解釋的知識完全被目標知識體系表達.其中,被解釋的知識屬于目標知識體系是其必要條件;
部分解釋:待解釋的知識的部分被目標知識體系表達.
具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2).只有當待解釋的知識體系完全 被目標知識體系所包含時,才可能進行完全解釋,否則只能進行部分解釋.在 XRL 中,完全解釋通常是不必要的.
一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實現對 模型的解釋通常不需要建立在對模型完全掌握的基礎上.因此,部分解釋是大部分可解釋性研究中采用的方法, 即只描述算法的主要決策邏輯.
2.3 可解釋性的影響因素
一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性產生了短板,導 致 ML難于解釋,因此 ML 解釋的本質是對深度學習的解釋[21] .這與可解釋性領域的認知相悖[28] .這一觀點只 關注模型而忽略了人在可解釋性中的地位.對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度 時,仍然會導致整體的不可理解.本文對可解釋性的影響因素進行如下定義:
透明度:待解釋模型結構的簡潔程度;
模型規模:待解釋模型包含的知識量和知識組合多樣化程度;
本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述.透明度和模型規模是影響可解釋性的兩 個主要因素.具體來說,可解釋性強意味著同時具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低 將導致模型的弱可解釋性(圖 3).
在不同語境下,“透明”一詞具有不同的含義.例如,在軟件結構中,透明指的是對底層過程的抽象程度,意味 著上層程序無需關注底層的實現.類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明 度是模型可以被理解的程度,將透明度與可解釋性等價.以強化學習為例,基于值表的強化學習算法在規模一定 時通常具有更強的可解釋性,而使用深度學習擬合值表則可解釋性更弱,這是因為通過查詢值表而產生策略的 過程符合人的直觀理解,但神經網絡傳播過程僅在數學上可被準確描述,于人而言透明度更低.然而,這一思考 將構建模型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目標—— 人.因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡潔程度.
模型規模從人理解能力的角度衡量解釋的難度.具體來說,假設模型中的知識由一系列元知識構成,則模 型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模 超過特定范圍(人的理解能力)時模型將無法被理解.例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過 程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的.然而,當模型規模逐漸 龐大時,各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無法抓住其主從關系.對于以簡潔 結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類的理解能 力,導致系統整體將仍然不具備可解釋性.
2.4 可解釋性的程度劃分
人的學習過程與強化學習過程存在一定的相似性,因此,如果將人腦看作目前最先進的智能模型,則人對 模型的理解不僅僅是人對模型的直觀感受,也是一個先進的智能體對強化學習模型的綜合評估.然而,一個無法 理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介.作為人和模型之間媒介,可解釋性算 法不同程度的具備兩個相互平衡特點:接近模型和接近人的感知.具體來說,不同的解釋有的更注重準確的描述 模型,而另一些更注重與人的感知一致.基于這一概念,本文將可解釋性分為如下三個層次:
(1) 數學表達: 通過理想化的數學推導解釋模型.數學表達是使用數學語言簡化模型的表達.由于強化學 習模型建立在數學理論的基礎上,因此通過數學表達可以準確地描述和重構模型.雖然數學理論體 系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異.以深度學習為例,雖然存 在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的.因此,數學的表 達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;
(2) 邏輯表達: 通過將模型轉換為顯性的邏輯規律解釋模型.邏輯表達是對模型中主體策略的提取,即忽 略其細微分支,凸顯主體邏輯.一方面,邏輯表達保留了模型的主體策略,因此與模型真實決策結果相 近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知.邏輯表達是較 為直觀的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般用戶尚不夠直觀;
(3) 感知表達: 通過提供符合人類直覺感知的規律解釋模型.感知表達基于模型生成符合人類感知的解 釋,由于不需要人具備特定領域的知識,因此易于理解.例如,可視化關鍵輸入、示例對比等解釋形式 都屬于感知表達的范疇.然而,感知表達通常是對模型策略的極大精簡,因為無法重現模型的決策,導 致其只解釋決策的合理性.
在可解釋性的三個層次中,數學表達作為第一個層次,也是構建強化學習算法的理論基礎.在已知模型所 有參數的情況下,數學表達通常可以較為準確的推斷出模型的結果,然而,數學上的合理性不意味著能被人所理 解;邏輯表達介于數學表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產生的解釋通常要求用戶具 備特定領域的專業知識;感知表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結 果易于理解,但已經不具備重構策略的能力.總而言之,不同的解釋在接近模型和接近人類感知之間存在著平 衡,難以兼顧.
3 強化學習可解釋性的獨有問題
與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成.其中,環境為給定的具有一定內部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系 列行為之間的關聯.根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解 釋,策略解釋.三個獨有問題之間存在著密切的關聯,與整個強化學習過程密不可分,是實現強化學習解釋直接 面臨的問題.
4 強化學習可解釋性研究現狀
由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導致所提出的方法具有較大差異.因此,本節分兩步 對相關方法進行總結.首先,根據技術類別和解釋的展現形式,將現有方法分為視覺和語言輔助解釋、策略模仿、 可解釋模型、邏輯關系提取和策略分解五個類別.然后,在通用分類方法(即獲取解釋的時間、解釋的范圍)的基 礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),確定不同類別方法的屬性.
在可解釋性領域中,分類通常基于獲取解釋的時間和解釋的范圍兩個因素[31] .具體而言,根據獲取解釋的 時間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋.固有解釋通過限制模型的表達,使模型在運 行時生成具備可解釋性的輸出.例如,基于較強可解釋性的原理和組件(決策樹、線性模型等)構造模型,或者通過 增加特定過程使模型生成可解釋性的輸出;事后解釋是通過對模型行為的分析,總結模型的行為模式,從而達到 解釋的目的.通常而言,固有解釋是策略產生過程中的解釋,特定于某個模型,而事后解釋是策略產生后的解釋, 與模型無關.根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微 觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲 得對模型的解釋.
除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感知的符合程度,將可解釋性方法分為數學 表達、邏輯表達和感知表達三類(見 2.4 ).這三類可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模 型結果的近似程度和解釋的直觀度等方面的區別.前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和策略解釋.目前,單個 XRL 方法難以同時解決三類問題,因此,我們也以此為依據,對當前 XRL 方法所 著眼的問題進行區分.
綜上所述,本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關鍵問題”為依據,對 XRL 方法 進行分類(見表 1).由于算法多樣,表 1 僅顯示大類別算法的特點,部分算法可能不完全符合
總結
本文以 XRL 的問題為中心,討論了該領域的基礎問題,并對現有方法進行總結.由于目前在 XRL 領域,乃至 整個 XAI 領域尚未形成完整、統一的共識,導致不同研究的基礎觀點存在較大差異,難于類比.本文針對該領域 缺乏一致認知的問題,進行了較為深入的研究工作.首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域 的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,討論 XAI 與 XRL 面臨的共同 問題;然后,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最后,總結了相關的研究方法,并對相關方法進 行分類.分類中包括作者明確指出為 XRL 的方法,也包括作者雖未著重強調,但實際對 XRL 有重要意義的方法. XRL 目前尚處于初步階段,因此存在大量亟待解決的問題.本文重點提出環境和任務的解釋、統一的評估標準 兩類問題.本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域.
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.
近幾年, 計算機圍棋成功引發了又一輪的人工智能熱潮, 從計算機圍棋中發展出來的AlphaZero框架成功地應用在其他完全信息條件下的二人有限零和博弈問題, 進而展示出了深度學習和強化學習在智能決策領域的優異性能。本文首先介紹了AlphaZero框架中三個核心技術: 深度學習、 強化學習以及蒙特卡羅樹搜索, 然后詳細說明了AlphaZero框架兩個關鍵階段——AlphaGo和AlphaGo Zero的基本原理, 最后, 對AlphaZero框架提出了自己的思考, 并基于對AlphaZero原理的剖析討論了其對軍事決策智能化的啟示。
//www.aeroweaponry.avic.com/CN/abstract/abstract10638.shtml
人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。