對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。
引言
人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。
1 多智能體博弈對抗
近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。
1.1 多智能體模型
在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。
當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。
1.2 非平穩問題
多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。
2 對手建模
合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。
**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.
摘 要:智能博弈領域已逐漸成為當前 AI 研究的熱點之一,游戲 AI 領域、智能兵棋領域都在近年取得了一系列 的研究突破。但是,游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國 內外整體研究進展,詳細剖析智能作戰推演的主要屬性需求,并結合當前最新的強化學習發展概況進行闡述。從 智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點 3 個維度綜合分析游戲 AI 發展為智能作戰 推演的可行性,最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發 展現狀并提供有價值的研究思路。
關鍵詞:智能博弈;游戲 AI;智能作戰推演;智能兵棋;深度強化學習
以2016年AlphaGo的成功研發為起點,對智能博弈領域的研究獲得突飛猛進的進展。2016年之前,對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年,受AlphaGo的啟發,研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展,很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時,在智能作戰推演領域,不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主,同時以基于事件驅動的機制進行推演[3-4]。然而,隨著近些年國內外在各種棋類、策略類游戲領域取得新突破,智能作戰推演的發展迎來了新的機遇[5]。
國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績,可以擊敗97%的玩家,并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6],如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技(深圳)有限公司打造了游戲AI平臺“Delta”,集成機器學習、強化學習、大系統工程等技術,通過將AI與游戲場景結合,提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司,準備在游戲AI領域發力。除了游戲AI領域,國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統,并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10],并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外,由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺,也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年,國內舉辦了4次大型智能兵棋推演比賽,這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注,胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異,分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演,取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統,對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究,取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法,對于智能博弈中的態勢認知研究具有重要參考價值[22]。
總體來說,國內在智能博弈領域進行了一系列的研究,嘗試將該技術應用到作戰推演領域,建立了具有自主產權的博弈平臺,技術層面也不斷突破,不再局限于傳統的行為決策樹、專家知識庫等,開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈,取得了一系列的關鍵技術的突破。但是,當前的研究主要聚焦在比較簡單的智能博弈環境,對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。
國外游戲 AI 領域則取得了一系列突出成果,尤其是深度強化學習技術的不斷發展,游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章,認為深度強化學習可以實現人類水平的控制[24]。2017年,DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25],擊敗了圍棋世界冠軍李世石。此后,基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下,經過短時間的訓練就擊敗了AlphaGo。2019年, DeepMind 團隊基于多智能體(agent)深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平,并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28], Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下,通過自我觀察掌握圍棋、國際象棋、將棋和雅達利(Atari)游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲:紅龍》(Wargame:Red Dragon),同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究,利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果,并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理,并將其應用到軍事訓練及軍事演習[34-35]。
但就目前而言,國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域,但是就目前發表的論文和報告來看,國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決,現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是,隨著未來計算機硬件的發展和機器學習技術的完善,作戰推演 AI 會迎來一波革命式的發展,給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景,進而引出作戰推演的技術需求,并給出當前可參考的主流及小眾技術思路。同時,對可能出現的技術難點進行了分析并給出解決方案建議。最后,對作戰推演的未來發展提出建議。
狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現,是深度強化學習進行訓練的基礎。在圍棋中,狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中,狀態空間是每一幀、每個單位可能有的狀態,如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中,狀態空間主要是每個作戰單元實體的狀態信息,是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的,可觀察空間主要是每個 agent 可以觀察到的狀態信息,是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜,具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。
動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說,動作空間為361個,是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說,動作空間主要是玩家控制一個“英雄”進行的一系列操作,玩家平均水平是每秒可以進行一個動作,但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項,包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技(multiplayer online battle arena,MOBA)游戲的動作空間可以達到1060 000+。假設游戲時長為45 min,每秒30幀,共計81 000幀,AI每4幀進行一次操作,共計20 250次操作,這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000,但考慮到其中大部分是不可執行的(例如使用一個尚處于冷卻狀態的技能),平均的可執行動作數約為1 000,即動作空間[37]。因此,操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說,因為需要控制大量的作戰單元和建筑單元,動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說,需要對每個作戰單元進行大量精細的控制。在作戰推演中,每個作戰單元實際都包括大量的具體執行動作,以作戰飛機為例,應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此,實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出,對于作戰推演來說,龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策,根據戰略決策構建一系列綁定的宏函數,進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度,同時也方便高效訓練,但是實際問題是訓練出來的 AI 總體缺乏靈活性,過于僵化。
對于動作空間,還需要考慮其是離散的還是連續的,Atari和圍棋這類游戲動作都是離散動作空間[25,39-40],《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作,可以考慮基于值函數的強化學習進行訓練,而對于連續動作,可以考慮利用基于策略函數的強化學習進行訓練。同時,離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演,即把回合制轉化為固定的時間表達。同時對于連續動作,也可以在固定節點提取對應的動作,然后將其轉化為離散動作。
智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前,每個選手要進行任務規劃,這個任務規劃是開始推演前的整體戰略部署,例如分配導彈打擊目標,規劃艦艇、戰斗機活動的大致區域,以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后,推演階段即自主執行所制定的宏觀戰略決策。同時,在推演過程中也可以進行微觀具體動作的干預,這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策,首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中,針對大型對抗想定,計算機基本需要每秒進行數百個決策,一局想定推演中雙方博弈決策空間數量預估為 1080+個,而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略(real-time strategy,RTS)游戲,決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案,現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決,根據具體對抗態勢進行宏觀戰略決策的選擇,然后根據不同的決策再分別執行對應的微觀具體動作,這樣可以有效降低智能決策數量,明顯提高智能決策的執行效率。
博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同,圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲,不管過程如何,只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易,在回報值設置中給予最終獎勵更高的回報值,總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲,甚至實際作戰推演來說,獲勝條件更加復雜,目標更多。比如,有時可能需要考慮在我方損失最低的情況下實現作戰目標,而有時則需要不計代價地快速實現作戰目標,這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值,而需要根據真實演習數據構建獎賞函數,通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。
博弈對抗過程中最核心的環節是設置回報值,合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲,可以按照固定的條件設置明確的回報值,例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長,在整局對抗過程中,如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題,即回報值稀疏問題。為了解決這個難題,現有的解決方案都是在對抗過程中設置許多細節條件,如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗,可以設置坦克擊毀對手、占領奪控點即可獲得回報值,如果被打擊、失去奪控點等則會損失回報值,甚至為了加快收斂防止算子長期不能達到有效地點,會在每步(step)都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36],從資源、KDA(殺人率(kill,K),死亡率(death,D),支援率(assista, A))、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是,對于復雜的作戰推演來說,設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣,需要利用逆強化學習[41-42],通過以往的作戰數據反向構建獎賞函數。
戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況,我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題,但是情況更加復雜。在實際作戰推演中,可以考慮利用不完全信息博弈解決這個問題,已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29],但是在實際作戰推演中這一問題還需要進一步探討研究。
這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分,觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息,是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題,因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思,一個層面是屏幕限制的區域更易于獲取態勢信息,因為玩家更直觀的注意力在屏幕局域,部分注意力在小地圖局域。為了更加符合實際, AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制,從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因,即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取,對于不能獲取的態勢信息則只能評估預測,而這一部分則涉及對手建模部分,主要利用部分可觀察馬爾可夫決策過程(partially observable Markov decision process,POMDP)[43],這一技術明顯難于完全信息博弈。而對于圍棋游戲來說,其中的態勢信息是完全可獲取的,屬于完全信息博弈,態勢信息即觀察信息。并且圍棋游戲屬于回合制,相對于即時策略游戲,其有更加充分的獲取態勢信息的時間。因此,則可以利用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法對所獲取的圍棋游戲中的觀察信息進行詳細分析,計算出所有可能的結果,進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息,其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似,其主要以小地圖的宏觀信息進行訓練,然后以此為基礎為戰略方案提供支持,如游戲中的“英雄”是去野區發育還是去中路對抗。同時,對主屏幕態勢信息進行特征提取,結合強化學習訓練,可以得出戰術層面的方案和建議,是去選擇回塔防御還是進草叢躲避,或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演,在作戰信息獲取各個方面都高度模擬了作戰推演的場景,需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息,這部分可觀察信息非常復雜,需要結合各種情況才能發現部分目標,對于戰爭迷霧更加真實。因此,作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模,但還需要設置各種更加符合真實裝備的作戰情況,需要在環境中提前設置有針對性的條件。
在博弈對抗過程中對手 AI 的建模也是至關重要的,不同水平的AI會導致博弈對抗的勝率不同,并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低,就不能逼真地模擬假設對手,博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中,AI性能已經可以擊敗職業選手,通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作,研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上,積分排名前三名的均是AI選手,勝率均在80%以上[11]。但是,現有對手建模主要還是聚焦在一對一的對手建模,很少學者研究多方博弈,而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈,如在《墨子?未來指揮官系統》的海峽大潮想定中,紅方不僅面對藍方,還有綠方,藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。
博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中,想定是永久固定不變的,而且也完全沒有環境的影響,因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響,《覺悟AI》嘗試利用強化學習技術,結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響,不僅作戰單元會產生變化,并且在不同的作戰推演中,不同的環境之中也會有不同的地形、地貌,這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲:紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度,否則會產生擱淺,不能在理想區域登陸會對作戰目標產生較大負面影響。因此,對于實際作戰推演來說,最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的,傳統的基于規則的AI就很難適應變化的想定,早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型,導致只在某個想定會有較好的AI智能性,假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題,現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性,并可以加速回報函數收斂,保證快速訓練出高水平的AI模型。
本節針對智能作戰推演所需要的關鍵屬性,結合當前游戲AI、智能兵棋等相關博弈平臺,利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析,經過對比不難發現游戲 AI 過渡到智能兵棋,甚至是智能作戰推演的難度,各個關鍵屬性也是未來需要研究突破的關鍵點,具體見表1。
智能博弈對抗是人工智能認知決策領域亟待解決的前沿熱點問題.以反事實后悔最小化算法為代表的博弈論方法和 以虛擬自博弈算法為代表的強化學習方法,依托大規模算力支撐,在求解智能博弈策略中脫穎而出,但對兩種范式之間的關聯 缺乏深入發掘. **文中針對智能博弈對抗問題,定義智能博弈對抗的內涵與外延,梳理智能博弈對抗的發展歷程,總結其中的關 鍵挑戰.**從博弈論和強化學習兩種視角出發,介紹智能博弈對抗模型、算法.多角度對比分析博弈理論和強化學習的優勢與局 限,歸納總結博弈理論與強化學習統一視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范式的結合提供方向,推動智 能博弈技術前向發展,為邁向通用人工智能蓄力.
1. 導論
對抗是人類社會發展與演進的主旋律,廣泛存在于人與 自然、人與人、人與機器之間,是人類思維活動特別是人類智 能的重要體現.人工智能浪潮中,對抗的形式不斷發生變化, 貫穿計算智能、感知智能和認知智能3個階段[1].以對抗關 系為主的博弈研究,為探索認知智能的關鍵技術原理提供了 有效工具.在認知智能層面,信息環境復雜、對抗對手復雜、 策略求解復 雜 等 愈 發 逼 近 真 實 世 界 的 復 雜 場 景 應 用 需 求, 推動了博弈對抗能力的不斷提升.高 度 保 留 真 實 世 界 特 性 (巨復雜、高動態、強對抗)的智能博弈對抗技術逐漸成為了金 融、經濟、交通等民用領域的技術引擎和軍事智能化實現的重 要助推力.在民用領域,尤其是在保護各種關鍵公共基礎設 施和目標的挑戰性任務[3]中,智能博弈對抗技術不可或缺, 例如博物館、港口、機場等安全機構部署有限的防護資源,在 入口處或者外圍路網設置安檢口進行警力的巡邏防控[4].在 軍事領域,智能博弈技術積極推動了指揮與控制的智能化發 展[5],美國先后啟動了“深綠”[6]、指揮官虛擬參謀[7]、“終身學習機器”“指南針”(COMPASS)等項目,旨在縮短“觀察G判 斷G決策G行動”(OODA)的循環時間.
近年來,在 人 機 對 抗 場 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、絕 悟[12]等 一 大 批 高 水 平 AI在 游 戲 驗證平臺中戰勝了人類玩家,智能博弈發展取得了顯著突破. 智能博弈技術的巨大成功主要依賴于博弈論和強化學習兩種 范式的結合[13]:博弈論提供了有效的解概念來描述多智能體 系統的學習結果,但主要是在理論上發展,應用于實際問題的 范圍較窄;深度強化學習算法為智能體的訓練提供了可收斂 性學習算法,可 以 在 序 列 決 策 過 程 中 達 到 穩 定 和 理 性 的 均 衡[14G15].一方面,反事實后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一種迭代搜索算法,其依托 大規模算力支撐,在求解大規模不完美信息博弈策略中脫穎 而出,逐漸成為了智能博弈中博弈論范式下的先進代表性算 法之一.另 一 方 面,虛 擬 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大規模分布式計算框架,在求解多智能體系統問 題中成為了一種通用的強化學習框架,先后被成功應用到雷 神之錘III [18]、星際爭霸[19]、王者榮耀[12]、德州撲克[20]等復雜 大規模對抗場景.CFR 與 FSP是博弈范式和強化學習范式 中的典型方法,也是連接兩種范式的算法基礎.本文將深挖 博弈范式與強化學習范式的深層聯系,為兩種范式的結合提 供方向,推動智能博弈技術前向發展,為邁向通用人工智能 蓄力.
本文第2節簡要介紹了智能博弈對抗,包括智能博弈對 抗的內涵與外延、智能博弈對抗發展歷史以及智能博弈對抗 中的關鍵挑戰;第3節介紹了智能博弈對抗模型,包括博弈論 的基礎模型———擴展式博弈模型和強化學習的基礎模型——— 部分可觀隨機博弈模型,以及結合擴展式博弈模型與馬爾可 夫模型的通用模型———觀察信息可分解的隨機博弈模型,從 模型上梳理了博弈理論和強化學習的內在聯系;第4節進行 了博弈論與強化學習的對比分析,首先詳細梳理了博弈論和 強化學習視角下的典型對抗方法,分別以 CFR 和 FSP 為代 表介紹其具體原理,分析變體改進思路,然后多角度對比分析 博弈理論與強化學習的優缺點,探討后悔值與值函數等基礎 概念的聯系,歸納總結博弈理論與強化學習的結合方法和結 合框架;第5節介紹了智能博弈對抗研究前沿,歸納了當前熱 點前沿智能博弈問題,分別從面向復雜博弈場景的智能博弈 模型、多智能體場景下博弈論與強化學習融合的智能博弈方 法、結合對手建模 的 智 能 博 弈 方 法,以 及 結 合 元 學 習 的 多 任務場景泛化4個角度討論了智能 博 弈 前 沿 研 究;最 后 總 結全文.
2. 智能博弈對抗簡介
**智能博弈對抗的內涵與外延 **
廣義上的智能概念涵蓋了人工智能、機 器 智 能、混 合 智 能和群體智能.本 文 的 智 能 概 念 特 指 認 知 智 能 中 機 器 的 自主決策能力,即機器智能,表現為機器模 擬 人 類 的 行 為、思考方式,通過攝像頭、話筒等傳感器接收 外 界 數 據,與 存 儲器中的數據進行對比、識別,從而進行判斷、分 析、推 理、 決策.機器智能智能水平的高低可 分 為 若 干 層 次,如 從 最 簡單的應激反射算法到較為基礎的控 制 模 式 生 成 算 法,再 到復雜神經網 絡 和 深 度 學 習 算 法.博 弈 對 抗 指 代 以 對 抗 關系為主的博弈,在 沖 突 為 主 的 背 景 下 博 弈 方 (擁 有 理 性 思維的個體或群體)選 擇 行 為 或 策 略 加 以 實 施,并 從 中 取 得各自相應的結果或收 益[21].博 弈 與 對 抗 是 人 類 演 化 進 程中的重要交互活動,是人類智能和人 類 思 維 方 式 的 重 要 體現.這種 交 互 活 動 廣 泛 存 在 于 個 體 與 個 體、個 體 與 群 體、群體與群體之間.
智能博弈對抗發展歷史
博弈對抗不斷推動著智能水平的發展,對抗場景從早期 的“圖靈測試”到目前的“通用場景”探索,不斷向真實世界場 景靠攏. 2016年,DeepMind基于深度強化學習和蒙特卡洛樹搜 索開發的智能圍棋博弈程序 AlphaGo [8],以4∶1的分數戰勝 了人類頂級圍棋選手李世石,這標志著人工智能的發展重點 逐漸由感知智能向認知智能過渡.同年,辛辛那提大學基于 遺傳模糊樹構建的 AlphaAI空戰系統[22]在空戰對抗中擊敗 人類飛行員,這成為了無人系統博弈對抗能力生成的推動性 進展.2017年,DeepMind提出的基于自博弈強化學習的棋 類 AIAlphaZero [23]可以從零開始自學圍棋、國際象棋和將 棋,并擊敗了 AlphaGo.以圍棋為代表的完全信息博弈已基 本得到解決,智能博弈的研究開始轉向德州撲克和星際爭霸 等不完全信息博弈.同年,阿爾伯塔大學和卡內基梅隆大學 先后開發了智能 德 州 撲 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 機 對 抗 中 擊 敗 了 職 業 玩 家.2018 年,DeepG Mind在雷神之 錘III奪 旗 游 戲 中 提 出 了 一 種 基 于 種 群 訓 練的多智能 體 強 化 學 習 框 架[18],訓 練 構 建 的 AIFTW 的 性能超越了人類玩家水平.隨后,智 能 博 弈 朝 著 多 智 能 體 參與、通用場景擴 展 遷 移 等 方 向 不 斷 發 展,高 效 海 量 數 據 的實時采樣(數據)、大 規 模 算 力 加 速 采 樣 和 優 化 (算 力)、 大規模集群架構算 法(算 法)成 為 了 多 智 能 體 強 化 學 習 成 功的關鍵.博弈 均 衡 的 方 法 在 多 智 能 體 博 弈 中 仍 存 在 理 論上的局限性,但基于兩人框架的多人 博 弈 擴 展 依 舊 在 實 驗中具有較好表 現,如 2019 年 卡 內 基 梅 隆 大 學 的 六 人 德 州撲克 智 能 博 弈 程 序 Pluribus [10]擊 敗 了 多 名 職 業 玩 家. 隨后,智能博弈的研 究 趨 勢 開 始 形 成 “高 質 量 對 抗 數 據 引 導”+“分布式強化學習訓練”的模式(如麻將 AISuphx,星 際爭霸 AIAlphaStar [19],谷歌足球 AI覺悟GWeKick),并 逐 漸擺脫先驗 知 識,直 接 完 成 “端 到 端 ”的 學 習 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、兩 人 德 州 撲 克 AI AlG phaHoldem [20]).2021 年,DARPA 舉 辦 的 AlphaDogFight 挑戰賽[28]推動了無人系統 博 弈 對 抗 能 力 的 提 升.另 一 方 面,DARPA 開始布局通 用 AI的 探 索 性 項 目,推 動 智 能 博 弈向強人工智 能 邁 進.智 能 博 弈 對 抗 發 展 歷 程 與 典 型 應 用總結如圖1所示.
智能博弈對抗中的關鍵挑戰 復雜博弈環境難評估
(1)不完全信息與不確定性 環境中的不完全信息與不確定性因素提高了博弈決策的 難度.戰爭迷霧造成的不完全信息問題中,關于其他智能體 的任何關鍵信息(如偏好、類型、數量等)的缺失都將直接影響 智能體對世界狀態的感知,并間接增加態勢節點評估的復雜 性.不僅如此,考慮不完全信息帶來的“欺騙”(如隱真、示假 等[29G31])行為,將進一步擴展問題的維度.此外,不確定性引 入了系統風險,任何前期積累的“優勢”都可能因環境中隨機 因素的負面影響而“落空”.如何綜合評估當前態勢進行“風 險投資”,以獲得最大期望回報,成為了研究的另一個難點. 另一方面,在策略評估與演化過程中,如何去除不確定因素帶 來的干擾[32]成為了“準確評價策略的好壞、尋找優化的方向” 的難點.
(2)對抗空間大規模
在一些復雜博弈環境中,狀態空間和動作空間的規模都 非常龐大(見表1),搜索遍歷整個對抗空間,無論是在時間約 束上還是在存儲空間約束上[33]都難以滿足要求.
模型抽象[34G35]的方法在一定程度上可以降低問題的規 模,但缺乏理論保證,往往以犧牲解的質量為代價[36].即使以求 解 次 優 策 略 為 目 標,部 分 優 化 算 法 (如 EGT [37]、一 階 (FirstOrder)算法)仍舊難以直接應用到抽象后的模型.蒙 特卡洛采樣可以有效地加快算法的速率,但在復雜環境下,如 何與其他方法結合并減小搜索中的方差依舊是研究的難點.
** 多智能體博弈難求解**
**(1) 均衡特性缺失 **
納什均衡作為非合作博弈中應用最廣泛的解概念,在兩 人零和場景中具有成熟的理論支撐,但擴展到多智能體博弈 時具有較大局限性.兩人零和博弈具有納什均衡存在性和可 交換性等一系列優良特性[39].然而,多人博弈的納什均衡解 存在性缺乏理論保證,且計算復雜,兩人一般和博弈的納什均 衡 是 PPAD 難 問 題[40],多 人 一 般 和 的 計 算 復 雜 度 高 于 PPAD.即使可以在多人博弈中有效地計算納什均衡,但采 取這樣的納什均衡策略并不一定是“明智”的.如果博弈中的 每個玩家都獨立地計算和采取納什均衡策略,那么他們的策 略組合可能并不是納什均衡,并且玩家可能具有偏離到不同 策略的動機[41G42]. **(2) 多維學習目標 **
對于單智能體強化學習而言,學習目標是最大化期望獎 勵,但是在多智能體強化學習中,所有智能體的目標不一定是 一致的,學習目標呈現出了多維度[13].學習目標可以分為兩 類[43]:理性和收斂性.當對手使用固定策略時,理性確保了 智能體盡可能采取最佳響應,收斂性保證了學習過程動態收 斂到一個針對特定對手的穩定策略,當理性和收斂性同時滿 足時,會達到新的納什均衡. **(3) 環境非平穩 **
當多個智能體同時根據自己的獎勵來改進自身策略時, 從每個智能體角度來看,環境變得非平穩,學習過程難以解 釋[44].智能體本身無法判斷狀態轉移或獎勵變化是自身行 為產生的結果,還是對手探索產生的.完全忽略其他智能體獨立學習,這種方法有時能產生很好的性能,但是本質上違背 了單智能體強化學習理論收斂性的平穩性假設[45].這種做 法會失去環境的馬爾可夫性,并且靜態策略下的性能測度也 隨之改變.例如,多智能體中單智能體強化學習的策略梯度 法的收斂 結 果 在 簡 單 線 性 二 次 型 博 弈[46](LinearGQuadratic Games)中是不收斂的.
3 智能博弈對抗模型
**擴展式博弈模型 **
擴展式博弈適用于序貫決策中建模智能體與環境的重復 交互過程,尤其是存在“智能體對其他智能體之前的決策節點 不可分辨(含有隱藏信息)”或者“智能體遺忘之前的決策(不 完美回憶)”的情景.
部分可觀隨機博弈
與擴展 式 博 弈 的 樹 結 構 不 同,馬 爾 可 夫 博 弈 (Markov Game)也稱隨機博弈(StochasticGame),具有馬爾可夫鏈式 結構.
**通用模型 **
博弈理論和強化學習理論并不互斥,在模型上,博弈論的 擴展式博弈模型和強化學習的部分可觀隨機博弈兩種模型之 間具有一定的聯系,例如都可以通過放寬某些條件限制轉化 為觀察 信 息 可 分 解 的 隨 機 博 弈 (FactoredGObservationStoG chasticGames,FOSG)[58].FOSG 是 POSG 的一種擴展性變 體,模型聚焦于公共信息(PublicInformation)的表示和分解, 如圖3所示.
4 博弈論與強化學習的對比分析
博弈論和強化學習是求解序貫決策問題的有效工具,然 而它們在算法特性(泛化性、可解釋性、收斂性保證)、應用場 景(多人博弈、序貫博弈、即時策略博弈)以及硬件資源(算力 需求)等 方 面 各 有 所 長,本 文 總 結 了 近 5 年 AAAI,IJCAI, NeuralPS,AMMAS,ICRL等人工智能頂刊頂會中與智能博 弈技術相關的博弈論與強化學習文章,按專家打分的方法,繪 制對比分析雷達圖,如圖7所示.博弈理論在兩人零和博弈 問題上已經具有較為成熟的理論,包括納什均衡(以及其他解概念)的等價性、存在性、可交換性(Interchangeability)[39]等, 但在多人博弈問題中還需要新的解概念以及相關理論的支 撐.CFR算法通過后悔值迭代更新生成策略,模型具有可解 釋性.但是,完美回放和終端可達的強烈假設限制了 CFR 的 使用場景[92].強化學習結合深度學習,直接實現端到端的學 習,具有很強的泛化性,在多智能體博弈中已取得較多成功應 用.但網絡的訓練往往需要超大規模的算力支撐,且模型的 可解釋性不強.本節將對兩種方法的具體局限性進行深入剖 析,為兩種方法的結合互補提供方向.
5. 智能博弈對抗研究前沿
** 面向復雜博弈場景的智能博弈模型**
博弈論中的“信息集”和強化學習中的“觀察函數”都是針 對智能博弈場景中不完全信息的形式化描述.現實世界中,博 弈場景更加復雜,不完全信息引發了博弈信息“不可信”等問 題———智能體通常是不完全理性的,并且不同認知層次的智能 體參與的博弈具有 “欺詐[114G115]”“隱藏”“合謀”“認知嵌套(建 模對手的同時,對手也在建模利用己方)”[116G117]等新挑戰.如 何針對認知博弈對抗中的新挑戰,形式化描述“欺騙”等復雜博 弈要素,建立復雜博弈信息的量化評估體系,成為了智能博弈 向真實世界遷移應用的模型基礎.
**多智能體場景下博弈論與強化學習融合的智能博弈方法 **
雖然博弈論提供了易于處理的解決方案概念來描述多智 能體系統的學習結果,但是納什均衡是一個僅基于不動點的 靜態解概念,在描述多主體系統的動態特性方面(如循環集 (RecurrentSet)[118]、周 期 軌 道 (Periodic Orbits)和 極 限 環 (LimitCycles)[55])具有局限性.一方面,尋求具有更多優良 特性的多人博弈新解概念,探索多人局部納什均衡點求解方 法,將是博弈視角下求解多智能體博弈問題的新突破口;另一 方面,發揮深度學習和強化學習在信息表征、復雜函數擬合 方面的優勢,基于自博弈求解框架、值函數評估方法、強化學 習結合 CFR等方法,探索博弈論方法與強化學習的有效融合 機制,將是突破多智能體博弈學習瓶頸的前沿方向.
**結合對手建模的智能博弈方法 **
對抗勝負的本質是超越對手的相對優勢,決策的制定必 須以對手的行動或策略為前提.納什均衡是應對未知通用對 手時最小化最壞可能性,用最“保險”的策略應對,而并不是尋 求最優應對策略.放寬納什均衡中“未知通用對手”的設定, 考慮不完全理性對手的最佳應對,一些新的解 概 念[61]被 提 出,結合顯式對手建模(ExplicitOpponentModeling)[119]和均 衡近似,平衡利用性與剝削性,實現多目標優化,為融合對手 建模的博弈學習提供參考.此外,在一些更加復雜的對抗場 景中,如 對 手 具 有 學 習 意 識 (OpponentGLearning AwareG ness)[120]等,最大熵多智能體強化學習[121]成為研究如何進行 博弈均衡對抗策略選擇的新趨勢.不僅如此,反對手建模方 法也在同步發展.基于意圖識別設計[122]的對抗意圖識別、 包含意圖隱藏與欺騙的對抗意圖識別方法等[123]反對手建模 方法在欺騙路徑規劃[29]等問題中得到了一定的研究.在復 雜博弈對抗場景中,如何基于對手模型安全利用對手,以及如 何保全自我反對手建模成為了新的探索性研究.
**結合元學習的多任務場景泛化 **
學習模型如何更好地泛化到差異很大的新領域中,是一 種更加高效和智能的學習方法.元學習(MetaLearning)逐 漸發展成為讓機器學會學習的重要方法.元學習是通用人工 智能(GeneralAI)的分支,通過發現并推廣不同任務之間的 普適規律來解決未知難題.元學習的輸入是一個任務集合, 目的是對每個任務的特性和任務集合的共性建模,發現任務 之間的共性和內在規律,以追求在差異較大任務之間的遷移, 且不會產生 較 大 的 精 度 損 失,目 前 其 已 經 擴 展 到 元 強 化 學 習[124G125]、元模仿學習[126]、元遷移學習、在線元學習[127]、無監 督元學習[128G129]等.如 何 結 合 博 弈 理 論 和 元 強 化 學 習 的 優 勢,構建高效、可解釋性強、具有收斂性保障和泛化性的近似 納什均衡求解體系,將是未來智能博弈技術發展的巨大推動 力之一.
**結束語 **
本文針對智能博弈對抗問題,介紹了智能博弈 對抗的內涵與外延,梳理了智能博弈對抗發展歷程,總結了其 中的關鍵挑戰.從博弈論和強化學習兩種視角出發,介紹了 智能博弈對抗模型和算法,多角度對比分析了博弈理論和強 化學習的優勢與局限,歸納總結了博弈理論與強化學習統一 視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范 式的結合提供方向,推動智能博弈技術前向發展,為邁向通用 人工智能蓄力.
近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.
尹奇躍, 趙美靜, 倪晚成, 張俊格, 黃凱奇, 兵棋推演的智能決策技術與挑戰. 自動化學報, 2022, 48(x): xx-xx //www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547
人機對抗, 作為人工智能技術的試金石, 近年 來獲得了舉世矚目的進展. 隨著 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能體分別在 國際象棋、圍棋、二人無限注德州撲克以及星際爭 霸中戰勝頂尖職業人類選手, 其背后的智能決策技 術獲得了廣泛的關注, 也代表了智能決策技術在中 等復雜度完美信息博弈、高復雜度完美信息博弈再 到高復雜度不完美信息博弈中的技術突破.
國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由
, 后者更是被譽為人 工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有 , 但其為不完美信息博弈, 相比于國際象棋與 圍棋信息集大小僅為 1, 其信息集平均大小達到 . 而星際爭霸, 作為高復雜度不完美信息博弈的代 表, 因其相比于上述游戲的即時制、長時決策等特 性[4, 5] , 對智能決策技術提出了更高的要求. 星際爭霸突破之后, 研究人員迫切需要新的人 機對抗環境實現智能技術的前沿探索. 兵棋推演是 一款經典策略游戲[6?8] , 也被稱為戰爭游戲, 作為一 種人機對抗策略驗證環境, 由于其具有不對稱環境 決策、更接近真實環境的隨機性與高風險決策等特 點, 受到智能決策技術研究者的廣泛關注. 近些年 來, 研究者投入了大量的精力進行兵棋推演智能體 研發以及兵棋推演子問題求解, 試圖解決兵棋推演 的人機對抗挑戰[9?14] .
兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與 20 世紀 80 年代后期普 及的計算機兵棋[15?17] . 胡曉峰等人[6] 全面綜述了兵 棋推演的基本要素 (參演人員、兵棋系統模擬的戰 場環境和作戰部隊、導演部及導調機構), 指出 “兵 棋推演的難點在于模擬人的智能行為”, 進而得出 “兵 棋推演需要突破作戰態勢智能認知瓶頸”, 最后給 出了如何實現態勢理解與自主決策可能的路徑. 和 目前兵棋推演關注的重點不同, 本文關注的是兵棋 推演中的智能體研究, 針對通用性的智能決策技術 與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推 演, 如非特別闡述, 在不引起歧義的前提下統一指 雙方計算機兵棋推演 (紅藍兩方). 本文內容組織如下: 第二章將梳理兵棋推演與 目前主流人機對抗環境如星際爭霸等的區別, 以及 為什么其潛在是人機對抗的下一個挑戰; 第三章將 介紹兵棋推演智能技術的研究現狀; 之后在第四章 闡述當前主流技術的瓶頸; 第五章對兵棋推演的智 能決策技術進行展望與思考, 希望啟發新的研究方 向; 最后對全文進行總結.
**1 兵棋智能決策問題的挑戰 **
本章首先簡要介紹兵棋推演問題以及與手工兵 棋的比較. 在此基礎上, 以人機對抗發展脈絡為主 線, 以兵棋推演中的智能體研究為核心, 介紹兵棋 推演與其他主流策略游戲的通用挑戰, 之后重點闡 述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機 對抗的成功提供了技術基礎, 后者則對當下人機對 抗智能體決策技術提出了新的挑戰.
表1 對智能決策技術帶來挑戰的代表性因素
2 兵棋智能決策技術研究現狀
為應對兵棋推演的挑戰性問題, 研究者提出了 多種智能體研發與評測方法. 與圍棋、星際爭霸等 主流游戲人機對抗智能體研發脈絡類似 (如星際爭 霸從早期知識規則為主, 中期以數據學習為主, 后 期以聯合知識與強化學習完成突破), 兵棋推演也經 歷了以知識驅動為主、以數據驅動為主以及以知識 與數據混合驅動的研發歷程. 兵棋的評測技術包含 了智能體的定量與定性分析方法. 在本節中, 將重 點闡述兵棋智能體研發的技術與框架, 同時對智能 體的評估評測進行簡述.
當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的 兵棋推演智能體, 本節將分別闡述各個技術框架的 研究進展.
3. 兵棋推演智能體評估
正確評估智能體的策略對于智能體的能力迭代具有至關重要的作用。研究者提出了一系列算法(如ELO、多維ELO等)實現智能體能力的準確刻畫,但仍面臨復雜非傳遞性策略的綜合評估、協同智能體中單個智能體的能力評估、定性評估標準體系化等問題帶來的挑戰。近些年來,上述挑戰促進了智能體評估開放平臺的建設,例如,中科院自動化所開放了“圖靈網”人機對抗智能門戶網站(
4. 兵棋智能決策技術展望
博弈理論,作為研究多個利己個體之間的策略性交互而發展的數學理論,有望為兵棋推演人機對抗突破提供理論支撐,但是面臨著如何求解以及保證大規模博弈的近似納什均衡解的挑戰。大模型,近些年來在自然語言處理領域獲得了突飛猛進的發展,兵棋推演的大模型訓練有望實現類似的零樣本或小樣本遷移,但是面臨著如何進行優化目標設計、多智能體訓練以及不同規模任務訓練的挑戰。問題約簡,作為一種引導技術發展的有效手段,本文設計了“排兵布陣”、“算子異步協同對抗”等問題,以牽引算法研究,進而反哺解決兵棋推演人機對抗挑戰。
近年來,隨著人工智能技術的發展,人機對抗領域取得了一系列突破性的進展,如AlphaGo、Libratus以及AlphaStar分別在圍棋、二人無限注德州撲克以及星際爭霸2中擊敗了人類職業選手。然而,當前大部分研究基于傳統機器學習方法——以最大化收益/最小化損失為學習目標,將對手視為被動反饋的環境中的一部分,忽略了對手的理性和策略性,導致在非平穩環境中缺乏理論保證,難以處理復雜人機對抗中多個趨利的智能體共同學習、相互對抗的非平穩任務。如何從理論和方法上高效、穩定求解對抗任務中的博弈策略是目前國際上的研究熱點和難點。
近期,中科院自動化所智能系統團隊提出了面向人機對抗的博弈學習方法,該方法結合博弈論和機器學習,從人機對抗任務出發,充分考慮對手的策略性回應(strategic response),基于博弈論從建模、解概念定義及求解出發設計學習方法,以收斂到智能體的策略均衡為學習目標,并利用機器學習方法幫助形成穩定、高效、可擴展的博弈求解算法。
人機對抗中的博弈學習方法是智能系統團隊面向人機對抗智能研究的核心環節,如下圖所示,人機對抗智能技術提出了人-機-物三元博弈問題定義,博弈學習方法給出了三元博弈學習的內涵、組成要素和解決復雜人對抗任務的方法步驟,并在典型人機對抗任務如兵棋推演、德州撲克等場景進行驗證,以解決復雜人機對抗任務中的關鍵科學問題。上述研究成果已經發表在中國科學、計算機學報、自動化學報、IEEE Trans. On TOG、AAAI等國內外重要期刊與會議上,探索了博弈智能通往自主進化智能的可行性與路徑。
《人機對抗中的博弈學習方法》摘要
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.
關鍵詞 人工智能;人機對抗;博弈論;機器學習;博弈學習
周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.
深度強化學習作為機器學習發展的最新成果,已經在很多應用領域嶄露頭角。關于深度強化學習的算法研究和應用研究,產生了很多經典的算法和典型應用領域。深度強化學習應用在智能制造中,能在復雜環境中實現高水平控制。對深度強化學習的研究進行概述,對深度強化學習基本原理進行介紹,包括深度學習和強化學習。介紹深度強化學習算法應用的理論方法,在此基礎對深度強化學習的算法進行了分類介紹,分別介紹了基于值函數和基于策略梯度的強化學習算法,列舉了這兩類算法的主要發展成果,以及其他相關研究成果。對深度強化學習在智能制造的典型應用進行分類分析。對深度強化學習存在的問題和未來發展方向進行了討論。
模仿學習是一種基于專家示教重建期望策略的方法,一直是AI領域的研究熱點。為了提升模仿學習的通用性和在實際工程中的應用,相關的研究方向吸引了大量學術和工業界人士,其中利用多模態模仿學習提升模仿學習效果是重要的方向之一。例如,應用于自動駕駛中的駕駛行為學習,真實駕駛員示教數據由于駕駛技能和行為習慣的多樣性呈現多種模態并服從不同的分布,如果直接利用行為克隆(Behavioral Cloning,BC)或逆向強化學習(Inverse Reinforcement Learning,IRL)容易導致模態坍塌問題(mode collapse problem),因缺乏發現和區分示教數據中的模態變化的能力。為了針對多模態示教數據進行有效的模仿,我們提出了一種基于生成對抗模仿學習(Generative Adversarial Imitation Learning,GAIL)的多模態模仿學習算法框架(圖3),稱為Triple-GAIL,通過對模態選擇和行為模仿聯合學習并利用模態選擇器增量式生成數據促進模態區分優化模仿效果。Triple-GAIL在GAIL的基礎上增加了一個模態選擇器(Selector)用于區分多個模態,并和生成器(Generator)一起持續生成狀態-動作-模態數據序列,達到數據增廣的目的,而判別器(Discriminator)用于區分狀態-動作-模態數據序列是否來自于專家示教數據。與已有多模態模仿學習方法相比,Triple-GAIL既可以直接通過指定模態生成行為軌跡,也可以直接利用模態選擇器基于歷史數據判斷模態。
人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。