亚洲AV午夜成人片精品网站听书,亚洲欧洲综合成人AV一区,国产精品久久久久久咪咪爱

近年來，人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展，如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作，深入分析博弈論和機器學習在其中發揮的作用，總結了面向人機對抗任務的博弈學習研究框架，指出博弈論為人機對抗任務提供博弈模型和定義求解目標，機器學習幫助形成穩定高效可擴展的求解算法. 具體地，本文首先介紹了人機對抗中的博弈學習方法的內涵，詳細闡述了面向人機對抗任務的博弈學習研究框架，包括博弈模型構建、解概念定義、博弈解計算三個基本步驟，之后利用該框架分析了當前人機對抗智能技術領域的典型進展，最后指出了人機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對抗智能技術領域的發展提供了方法保障和技術途徑，同時也為通用人工智能的發展提供了新思路.周雷，尹奇躍，黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報，2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)

1 引言

人機對抗智能技術研究計算機博弈中機器戰勝人類的方法，是當前人工智能研究領域的前沿方向，它以人機（人類與機器）和機機（機器與機器）對抗為主要形式研究不同博弈場景下，機器智能戰勝人類智能的基礎理論與方法技術[1] . 人機對抗智能技術通過人、機、環境之間的博弈對抗和交互學習，探索巨復雜、高動態、不確定的對抗環境下機器智能快速增長的機理和途徑，以期最終達到或者超越人類智能.

人機對抗智能技術的突破離不開機器學習的發展，機器學習主要研究如何讓機器通過與數據的交互實現能力的提升[2][3] . 然而，與傳統的機器學習關注單智能體（single-agent）與環境的交互不同，人機對抗智能技術研究的場景往往包含兩個或兩個以上智能體，也就是多智能體（multi-agent）的情形，這些智能體都擁有自己的優化目標，比如最大化自身收益. 此時，如果直接應用單智能體機器學習方法，得到的智能體（稱為中心智能體）一般表現欠佳[4][5] . 這是因為傳統機器學習方法假設數據的產生機制是平穩的（stationary）[6]（即數據均來自于同一個分布，簡稱為環境的平穩性），這一假設忽略了研究場景中的其他智能體，而這些智能體也同時在進行學習，因此其行為模式會隨著時間發生變化，從而破壞中心智能體所處環境的平穩性，進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是，隨著人機對抗場景中智能體數量的增加，環境非平穩的問題將會愈發凸顯，多個趨利的智能體在學習的過程中相互影響的情況將不可避免.

為了處理環境非平穩的問題，有學者考慮將博弈論引入機器學習方法中[7] . 這主要是因為博弈論本身就是為了研究多個利己個體之間的策略性交互（strategic interactions）而發展的數學理論. 博弈論誕生于 1944 年 von Neumann 和 Morgenstern 合著的 Theory of Games and Economic Behavior[8] . 在完全理性的假設下，博弈論給出了一系列解概念來預測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念（solution concepts）的定義、精煉（refinement）、存在性及其擁有的性質 [9] . 隨著博弈論的發展，部分研究者開始研究在非完全理性的情形下，個體是否可以通過迭代學習的方式來達到這些解概念，其中著名的工作包括 Brown 提出的虛擬對局（fictitious play）[10]，Hannan 和 Blackwell 研究的無悔學習（no-regret learning， regret minimization，or Hannan consistency）[11][12][13] 等. 近年來，得益于機器算力的提升和深度學習的興起，人機對抗智能技術領域取得了一系列突破，如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人類圍棋頂尖選手李世石，阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家級人類選手等. 在 AlphaGo 中，圍棋被建模為二人零和完美信息擴展形式博弈，并利用自我對局、蒙特卡洛樹搜索以及深度神經網絡近似來對博弈進行求解；在 DeepStack 中，二人德州撲克被建模為二人零和非完美信息擴展形式博弈，求解方法結合了自我對局、反事實遺憾最小化算法以及深度神經網絡近似. 從這些例子可以看出，人機對抗智能技術領域的突破離不開博弈論和機器學習的深度結合.

然而，雖然人機對抗智能技術領域目前取得了一系列突破，博弈論與機器學習交叉方向的研究卻缺乏清晰的研究框架. 基于此，本文通過梳理人機對抗智能技術領域的重要工作，介紹了人機對抗中的博弈學習方法的內涵，總結了面向人機對抗任務的博弈學習研究框架，包括其組成要素和基本步驟，并利用該框架對人機對抗智能技術領域的典型進展進行了分析. 本文作者認為，隨著人機對抗智能技術領域試驗場景和測試環境逐漸接近真實場景，場景的復雜性和對抗性急劇增加，結合現代機器學習方法和博弈論的博弈學習方法將會在未來人機對抗領域的發展中發揮越來越重要的作用。

2 發展歷史

自圖靈測試這一人機對抗模式在 1950 年被提出[16]以來，博弈論和機器學習就在人工智能的發展中發揮著越來越重要的作用，并呈現出交叉融合的趨勢. 本文梳理了人機對抗智能技術和博弈論領域開創性的工作和里程碑事件，并將其發展歷史分為兩條路線，一條是博弈論結合專家系統（見圖 1 中綠色實線），另一條是博弈論結合學習方法（見圖 1 中橙色虛線）.

1.1 路線一：博弈論結合專家系統

在發展路線一中，為了取得較好的人機對抗表現，研究者們主要是針對基于博弈論的 min-max 樹搜索算法進行優化，并結合專家經驗來改進評估函數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現國際象棋走子程序的論文[17]，論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估函數的設計，參考的是如下定理：在國際象棋中，最終的結局只可能是以下三種當中的一種：(1) 不論白方如何走子，黑方有一種策略總能保證贏；(2) 不論黑方如何走子，白方有一種策略總能保證贏； (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋（checkers）走子程序，并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該跳棋走子程序使用了 min-max 搜索. 1957 年，Bernstein 帶領的團隊在 IBM 701 上完成了第一個能下完整局的國際象棋走子程序，該程序使用了 min-max 搜索，但每次最多向后搜索 4 步，每步只能考慮 7 個備選走法. 1958 年，Newell，Shaw 和 Simon 第一次在國際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進，通過剪掉明顯次優的子樹分支，該算法極大地降低了搜索空間. 該算法最初由 McCarthy 在 1956 年提出. 此后，跳棋和國際象棋程序的優化大多圍繞評估函數和搜索算法進行改進. 隨著計算能力的增強，IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強大的搜索能力擊敗國際象棋大師 Kasparov，一時轟動. 該事件從此成為人機對抗智能技術發展歷史上的標志性事件.

1.2 路線二：博弈論結合學習方法

路線一中采用的方法很難稱得上實現了機器的―學習‖能力，在路線二中，研究者們試圖克服機器對專家數據的過度依賴，希望能夠打造自主學習的智能機器. 路線二的簡要發展歷程如下：最早在人機對抗研究中引入學習的是 Samuel，他 1957 年完成的跳棋走子程序不僅使用了 min-max 搜索，同時也引入了兩種―學習‖機制[19]：死記硬背式學習（rote learning）和泛化式學習（learning by generalization）. 前者通過存儲之前下棋過程中計算得到的局面得分來減少不必要的搜索，后者則根據下棋的不同結果來更新評估函數中不同參數的系數來得到一個更好的評估函數. 此外，該論文也第一次提到了自我對局（self-play）. 此后，這種通過學習來提升機器能力的思想就一直沒能引起重視. 直到 1990 年前后，才陸續出現了能夠學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算法的興趣，并促成了博弈論與機器學習的初步結合，其中著名的工作是 Littman 在 1994 年正式建立了 Markov 博弈（或隨機博弈）與多智能體強化學習之間的聯系. 之后，Markov 博弈便作為多智能體強化學習的理論框架，啟發了眾多學者的研究. 同時，在該論文中 Littman 也提出了第一個多智能體強化學習算法 minimax-Q [22]. Minimax-Q 是針對二人零和博弈的學習算法，當博弈的雙方都使用該算法時，最終博弈雙方的策略都會收斂到二人零和博弈的最優解極大極小策略上. 值得指出的是，除了人工智能領域，博弈論領域的研究者們很早也開始了對學習方法的研究.與人工智能領域學者的出發點不同，他們關注的是在博弈模型給定的情形下，如何設計迭代學習的規則能使個體的策略收斂到均衡.此類方法之后被稱為博弈學習（game-theoretic learning）方法.博弈學習方法的思想最早可以追溯到 1951 年 Brown 提出的虛擬對局（fictitious play）[10]，即采用迭代學習的方式來計算二人零和博弈的極大極小策略，之后著名的博弈學習方法包括無悔學習（ no-regret learning ） [11][12][13] 和復制動力學（ replicator dynamics）[23] . 在 1998 年，幾乎與 Littman 等人同一時期，Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24]，對之前博弈學習方法的研究進行了匯總、總結和擴展.博弈學習方法的研究為博弈論中的解概念（主要是納什均衡）提供了非理性假設下的解釋，換言之，非理性的個體在一定學習規則的指導下也能達到均衡. 此后，博弈論和機器學習領域的研究興趣和研究內容開始交叉，逐步形成了博弈論與機器學習結合的博弈學習方法[25][26][27][28][29][30] .相關工作包括： (1) 利用強化學習方法計算博弈的解，比如 Nash-Q [31]等；(2)利用博弈論中的學習方法進行游戲 AI 的算法設計，比如針對不完美信息博弈的反事實遺憾最小化算法[28]（屬于無悔學習算法的一種）； (3)利用機器學習加強博弈論中學習方法的可擴展性，比如虛擬自我對局（fictitious self-play，FSP） [29] . 相比于傳統解決單智能體與環境交互問題的機器學習方法，與博弈論結合的學習方法有兩個優勢：一是充分考慮了多個智能體同時最大化收益時環境的非平穩問題，學習的目標是任務的均衡解而不是讓某個智能體的收益最大化；二是在滿足模型的假設時，這些算法一般具有收斂的理論保證.特別地，面向人機對抗任務，人機對抗中的博弈學習方法在此基礎上添加了人機對抗任務建模，為的是能更好地利用和拓展現有的博弈學習方法來處理復雜的人機對抗任務.

近年來，隨著深度學習的興起，深度神經網絡被廣泛應用于人機對抗任務,形成了一系列優秀的模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這也促進了人機對抗智能技術近期一系列的突破，包括2016 年AlphaGo擊敗圍棋9段選手李世石，2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.

3 人機對抗中的博弈學習方法內涵

人機對抗中的博弈學習方法是一種面向人機對抗任務，以博弈論為理論基礎、以機器學習為主要技術手段，通過智能體與環境、智能體與其他智能體的交互來獲得具有良好性質（比如適應性、魯棒性等等）博弈策略的學習方法，是實現人機對抗智能技術的核心. 具體地，人機對抗中的博弈學習方法基于博弈論建模人機對抗任務和定義學習目標，并利用機器學習方法來幫助設計高效、穩健、可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法的區別與聯系，本文按照系統中信息的流向以及信息產生的機制將已有的學習框架劃分為一元、二元以及三元（或多元）學習. 在一元學習中，智能體從數據中獲取知識，并且這個過程只涉及數據到智能體的單向信息流動，監督學習、無監督學習以及深度學習都屬于一元學習（見圖 2 (A)）. 在二元學習中，智能體通過與環境互動得到數據，進而獲取知識，與一元學習不同的是此時數據的產生不僅取決于環境也取決于智能體，即智能體決策的好壞影響它自身學習的效果，必要時智能體還需要對環境動力學進行建模，單智能體強化學習屬于二元學習（見圖 2 (B)）. 在三元學習中，智能體通過與環境和其他智能體的交互獲得數據，此時智能體學習的效果受到環境和其他智能體的共同影響，必要時智能體需要對環境動力學和其他智能體進行建模（見圖 2 (C)），博弈學習屬于三元學習.

4 人機對抗中的博弈學習研究框架

通過對博弈論和人機對抗智能技術發展歷程的梳理，并結合人機對抗中的博弈學習方法的內涵，本文總結出了如圖 3 所示的人機對抗中的博弈學習研究框架：人機對抗中的博弈學習研究框架以人機對抗任務為輸入，首先通過博弈模型構建獲得博弈模型，然后通過解概念定義得到博弈的可行解，最后通過博弈解計算輸出滿足需求的博弈策略組合，也就是學習任務的解. 直觀來講，人機對抗中的博弈學習研究框架將一類人機對抗任務的解決近似或等價轉換為對某一類博弈問題的求解，該框架包含兩個組成要素（博弈模型和博弈解）和三個基本步驟（博弈模型構建、解概念定義和博弈解計算）.

5 典型應用上一節闡述了人機對抗中的博弈學習研究框架，本節將利用該框架對當前人機對抗智能技術領域的重要工作進行分析（如表 2 所示），這些工作基本涵蓋了本文介紹的幾種博弈模型，包括完美信息擴展形式博弈（圍棋）、不完美信息擴展形式博弈（德州撲克）以及部分可觀測 Markov 博弈（星際爭霸 2）. 各工作的具體分析如下：

6 總結與展望

人機對抗智能技術是人工智能發展的前沿方向，它通過人、機、環境之間的博弈對抗和交互學習研究機器智能快速提升的基礎理論與方法技術. 為了更好地促進人機對抗智能技術的發展，本文通過梳理人機對抗智能技術領域的重要工作，總結了面向人機對抗任務的博弈學習研究框架，指出了博弈論和機器學習在其中發揮的作用，闡述了人機對抗中的博弈學習方法的兩個組成要素和三個基本步驟，并利用該框架分析了領域內的重要進展. 與此同時，本文就當前人機對抗中的博弈學習方法面臨的理論和應用難點問題進行了介紹，包括非零和博弈求解目標定義、博弈學習方法的可解釋性、多樣化博弈學習測試環境構建以及大規模復雜博弈快速求解. 人機對抗中的博弈學習方法是人機對抗智能技術的核心，它為人機對抗智能技術領域的發展提供了方法保障和技術途徑，同時也為通用人工智能的發展提供了新思路.

付費5元查看完整內容

0 引言

以2016年AlphaGo的成功研發為起點，對智能博弈領域的研究獲得突飛猛進的進展。2016年之前，對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年，受AlphaGo的啟發，研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展，很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時，在智能作戰推演領域，不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主，同時以基于事件驅動的機制進行推演[3-4]。然而，隨著近些年國內外在各種棋類、策略類游戲領域取得新突破，智能作戰推演的發展迎來了新的機遇[5]。

國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績，可以擊敗97%的玩家，并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6]，如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技（深圳）有限公司打造了游戲AI平臺“Delta”，集成機器學習、強化學習、大系統工程等技術，通過將AI與游戲場景結合，提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司，準備在游戲AI領域發力。除了游戲AI領域，國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統，并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10]，并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外，由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺，也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年，國內舉辦了4次大型智能兵棋推演比賽，這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注，胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異，分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演，取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統，對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究，取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法，對于智能博弈中的態勢認知研究具有重要參考價值[22]。

總體來說，國內在智能博弈領域進行了一系列的研究，嘗試將該技術應用到作戰推演領域，建立了具有自主產權的博弈平臺，技術層面也不斷突破，不再局限于傳統的行為決策樹、專家知識庫等，開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈，取得了一系列的關鍵技術的突破。但是，當前的研究主要聚焦在比較簡單的智能博弈環境，對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。

國外游戲 AI 領域則取得了一系列突出成果，尤其是深度強化學習技術的不斷發展，游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章，認為深度強化學習可以實現人類水平的控制[24]。2017年，DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25]，擊敗了圍棋世界冠軍李世石。此后，基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下，經過短時間的訓練就擊敗了AlphaGo。2019年， DeepMind 團隊基于多智能體（agent）深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平，并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28]， Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下，通過自我觀察掌握圍棋、國際象棋、將棋和雅達利（Atari）游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲：紅龍》（Wargame：Red Dragon），同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究，利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果，并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理，并將其應用到軍事訓練及軍事演習[34-35]。

但就目前而言，國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域，但是就目前發表的論文和報告來看，國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決，現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是，隨著未來計算機硬件的發展和機器學習技術的完善，作戰推演 AI 會迎來一波革命式的發展，給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景，進而引出作戰推演的技術需求，并給出當前可參考的主流及小眾技術思路。同時，對可能出現的技術難點進行了分析并給出解決方案建議。最后，對作戰推演的未來發展提出建議。

1 智能作戰推演主要屬性需求

1.1 狀態空間

狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現，是深度強化學習進行訓練的基礎。在圍棋中，狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中，狀態空間是每一幀、每個單位可能有的狀態，如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中，狀態空間主要是每個作戰單元實體的狀態信息，是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的，可觀察空間主要是每個 agent 可以觀察到的狀態信息，是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜，具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。

1.2 動作空間設計

動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說，動作空間為361個，是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說，動作空間主要是玩家控制一個“英雄”進行的一系列操作，玩家平均水平是每秒可以進行一個動作，但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項，包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技（multiplayer online battle arena，MOBA）游戲的動作空間可以達到1060 000+。假設游戲時長為45 min，每秒30幀，共計81 000幀，AI每4幀進行一次操作，共計20 250次操作，這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000，但考慮到其中大部分是不可執行的（例如使用一個尚處于冷卻狀態的技能），平均的可執行動作數約為1 000，即動作空間[37]。因此，操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說，因為需要控制大量的作戰單元和建筑單元，動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說，需要對每個作戰單元進行大量精細的控制。在作戰推演中，每個作戰單元實際都包括大量的具體執行動作，以作戰飛機為例，應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此，實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出，對于作戰推演來說，龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策，根據戰略決策構建一系列綁定的宏函數，進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度，同時也方便高效訓練，但是實際問題是訓練出來的 AI 總體缺乏靈活性，過于僵化。

對于動作空間，還需要考慮其是離散的還是連續的，Atari和圍棋這類游戲動作都是離散動作空間[25,39-40]，《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作，可以考慮基于值函數的強化學習進行訓練，而對于連續動作，可以考慮利用基于策略函數的強化學習進行訓練。同時，離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演，即把回合制轉化為固定的時間表達。同時對于連續動作，也可以在固定節點提取對應的動作，然后將其轉化為離散動作。

1.3 決策空間構建

智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前，每個選手要進行任務規劃，這個任務規劃是開始推演前的整體戰略部署，例如分配導彈打擊目標，規劃艦艇、戰斗機活動的大致區域，以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后，推演階段即自主執行所制定的宏觀戰略決策。同時，在推演過程中也可以進行微觀具體動作的干預，這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策，首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中，針對大型對抗想定，計算機基本需要每秒進行數百個決策，一局想定推演中雙方博弈決策空間數量預估為 1080+個，而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略（real-time strategy，RTS）游戲，決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案，現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決，根據具體對抗態勢進行宏觀戰略決策的選擇，然后根據不同的決策再分別執行對應的微觀具體動作，這樣可以有效降低智能決策數量，明顯提高智能決策的執行效率。

1.4 勝利條件設置

博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同，圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲，不管過程如何，只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易，在回報值設置中給予最終獎勵更高的回報值，總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲，甚至實際作戰推演來說，獲勝條件更加復雜，目標更多。比如，有時可能需要考慮在我方損失最低的情況下實現作戰目標，而有時則需要不計代價地快速實現作戰目標，這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值，而需要根據真實演習數據構建獎賞函數，通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。

1.5 回報值設置

博弈對抗過程中最核心的環節是設置回報值，合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲，可以按照固定的條件設置明確的回報值，例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長，在整局對抗過程中，如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題，即回報值稀疏問題。為了解決這個難題，現有的解決方案都是在對抗過程中設置許多細節條件，如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗，可以設置坦克擊毀對手、占領奪控點即可獲得回報值，如果被打擊、失去奪控點等則會損失回報值，甚至為了加快收斂防止算子長期不能達到有效地點，會在每步（step）都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36]，從資源、KDA（殺人率（kill，K），死亡率（death，D），支援率（assista， A））、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是，對于復雜的作戰推演來說，設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣，需要利用逆強化學習[41-42]，通過以往的作戰數據反向構建獎賞函數。

1.6 戰爭迷霧

戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況，我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題，但是情況更加復雜。在實際作戰推演中，可以考慮利用不完全信息博弈解決這個問題，已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29]，但是在實際作戰推演中這一問題還需要進一步探討研究。

1.7 觀察信息

這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分，觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息，是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題，因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思，一個層面是屏幕限制的區域更易于獲取態勢信息，因為玩家更直觀的注意力在屏幕局域，部分注意力在小地圖局域。為了更加符合實際， AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制，從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因，即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取，對于不能獲取的態勢信息則只能評估預測，而這一部分則涉及對手建模部分，主要利用部分可觀察馬爾可夫決策過程（partially observable Markov decision process，POMDP）[43]，這一技術明顯難于完全信息博弈。而對于圍棋游戲來說，其中的態勢信息是完全可獲取的，屬于完全信息博弈，態勢信息即觀察信息。并且圍棋游戲屬于回合制，相對于即時策略游戲，其有更加充分的獲取態勢信息的時間。因此，則可以利用蒙特卡洛樹搜索（Monte Carlo tree search，MCTS）算法對所獲取的圍棋游戲中的觀察信息進行詳細分析，計算出所有可能的結果，進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息，其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似，其主要以小地圖的宏觀信息進行訓練，然后以此為基礎為戰略方案提供支持，如游戲中的“英雄”是去野區發育還是去中路對抗。同時，對主屏幕態勢信息進行特征提取，結合強化學習訓練，可以得出戰術層面的方案和建議，是去選擇回塔防御還是進草叢躲避，或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演，在作戰信息獲取各個方面都高度模擬了作戰推演的場景，需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息，這部分可觀察信息非常復雜，需要結合各種情況才能發現部分目標，對于戰爭迷霧更加真實。因此，作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模，但還需要設置各種更加符合真實裝備的作戰情況，需要在環境中提前設置有針對性的條件。

1.8 對手建模

在博弈對抗過程中對手 AI 的建模也是至關重要的，不同水平的AI會導致博弈對抗的勝率不同，并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低，就不能逼真地模擬假設對手，博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中，AI性能已經可以擊敗職業選手，通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作，研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上，積分排名前三名的均是AI選手，勝率均在80%以上[11]。但是，現有對手建模主要還是聚焦在一對一的對手建模，很少學者研究多方博弈，而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈，如在《墨子?未來指揮官系統》的海峽大潮想定中，紅方不僅面對藍方，還有綠方，藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。

1.9 想定設計

博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中，想定是永久固定不變的，而且也完全沒有環境的影響，因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響，《覺悟AI》嘗試利用強化學習技術，結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響，不僅作戰單元會產生變化，并且在不同的作戰推演中，不同的環境之中也會有不同的地形、地貌，這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲：紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度，否則會產生擱淺，不能在理想區域登陸會對作戰目標產生較大負面影響。因此，對于實際作戰推演來說，最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的，傳統的基于規則的AI就很難適應變化的想定，早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型，導致只在某個想定會有較好的AI智能性，假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題，現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性，并可以加速回報函數收斂，保證快速訓練出高水平的AI模型。

1.10 總體比較

本節針對智能作戰推演所需要的關鍵屬性，結合當前游戲AI、智能兵棋等相關博弈平臺，利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析，經過對比不難發現游戲 AI 過渡到智能兵棋，甚至是智能作戰推演的難度，各個關鍵屬性也是未來需要研究突破的關鍵點，具體見表1。

2 作戰推演的智能決策核心技術思路

2.1 強化學習技術框架強化學習的核心思想是不斷地在環境中探索試錯，并通過得到的回報值來判定當前動作的好壞，從而訓練出高水平的智能AI[50]。馬爾可夫決策過程（Markov decision process，MDP）是強化學習的基礎模型，環境通過狀態與動作建模，描述agent與環境的交互過程。一般地，MDP可表示為四元組<S,A,R,T >[44]：

- S為有限狀態空間（state space），包含agent在環境中的所有狀態；
- A為有限動作空間（action space），包含agent在每個狀態上可以采取的所有動作；

agent從環境中感知當前狀態st，從動作空間A中選擇能夠獲取的動作at；執行at后，環境給agent相應的獎賞信號反饋 rt+1，環境以一定概率轉移到新的狀態st+1，等待agent做出下一步決策。在與環境的交互過程中，agent有兩處不確定性，一處是在狀態 s 處選擇什么樣的動作，用策略π(a|s)表示agent的某個策略；另一處則是環境本身產生的狀態轉移概率Pass′，強化學習的目標是找到一個最優策略π*，使得它在任意狀態s和任意時間步驟t都能夠獲得最大的長期累計獎賞，即：

2.2 強化學習主流算法

2.2.1 基于值函數的強化學習

強化學習早期利用Q-learning算法來建立游戲AI，通過預先設計每步動作可以獲得的回報值來采取動作。Q-learning 最大的局限是需要提前設計好所有執行動作的回報值，它用一張Q表來保存所有的Q值，當動作空間巨大時，該算法難以適應。因此，Q-learning 算法只能在比較簡單的環境中建模使用，如在簡單的迷宮問題中，讓 agent 通過Q-learning算法自動尋找出口。

DeepMind在2015年第一次利用DQN（deep Q network）算法在Atari游戲環境中實現了高水平的智能AI，該AI綜合評定達到了人類專業玩家的水平[24]。這也使得DQN算法成為強化學習的經典算法。DQN算法通過神經網絡擬合Q值，通過訓練不斷調整神經網絡中的權重，獲得精準的預測 Q值，并通過最大的Q值進行動作選擇。DQN算法有效地解決了Q-learning算法中存儲的Q值有限的問題，可以解決大量的離散動作估值問題，并且DQN算法主要使用經驗回放機制（experience replay），即將每次和環境交互得到的獎勵與狀態更新情況都保存起來，用于后面的Q值更新，從而明顯增強了算法的適應性。DQN由于對價值函數做了近似表示，因此強化學習算法有了解決大規模強化學習問題的能力。但是 DQN 算法主要被應用于離散的動作空間，且DQN算法的訓練不一定能保證Q值網絡收斂，這就會導致在狀態比較復雜的情況下，訓練出的模型效果很差。在 DQN 算法的基礎上，衍生出了一系列新的改進 DQN 算法，如 DDQN （double DQN ）算法[51]、優先級經驗回放 DQN （prioritized experience replay DQN）算法[52]、競爭構架Q網絡（dueling DQN）算法[53]等。這些算法主要是在改進Q網絡過擬合、改進經驗回放中的采樣機制、改進目標Q值計算等方面提升傳統DQN算法網絡的性能。總體來說，DQN系列強化學習算法都屬于基于值函數的強化學習算法類型。基于值函數的強化學習算法主要存在 3點不足：對連續動作的處理能力不足、對受限狀態下的問題處理能力不足、無法解決隨機策略問題。由于這些原因，基于值函數的強化學習方法不能適用所有的場景，因此需要新的方法解決上述問題，例如基于策略的強化學習方法。

2.2.2 基于策略的強化學習

在基于值函數的強化學習方法中，主要是對價值函數進行了近似表示，引入了一個動作價值函數q，這個函數由參數w描述，以狀態s與動作a為輸入，計算后得到近似的動作價值，即式（4）：

在基于策略的強化學習方法中，主要采用類似的思路，只不過主要對策略進行近似表示。此時，策略可以被描述為一個包含參數θ的函數，θ主要為神經網絡中的權重，即式（5）：

在基于策略的強化學習方法中，比較經典的就是理查德·薩頓（Richard S.Sutton）在2000年提出的 AC（actor-critic）框架強化學習算法。AC 包括兩部分：演員（actor）和評價者（critic）。其中actor使用策略函數負責生成動作（action），通過動作與環境進行交互。而critic使用第2.2.1節提到的價值函數來評估actor的表現，并指導actor下一階段的動作。總體來說，critic 通過 Q 網絡計算狀態的最優價值Vt，而actor利用Vt迭代更新策略函數的參數，進而選擇動作，并得到反饋和新的狀態， critic 使用反饋和新的狀態更新 Q 網絡參數 w，在后面critic會使用新的網絡參數w幫助actor計算狀態的最優價值Vt。

2016 年 DeepMind 在國際機器學習大會（International Conference on Machine Learning）提出了A3C算法[54]。之前的DQN算法為了方便收斂使用了經驗回放的技巧；AC 也可以使用經驗回放的技巧。A3C更進一步，還克服了一些經驗回放的問題，主要采取隨機性策略[55]。這里確定性策略和隨機性策略是相對而言的，對于某一些動作集合來說，它可能是連續值，或者非常高維的離散值，這導致動作的空間維度極大。如果使用隨機性策略，即像DQN算法一樣研究它所有的可能動作的概率，并計算各個可能動作的價值，那需要的樣本量是非常大的。于是DeepMind就想出使用確定性策略來簡化這個問題[56]。作為深度確定性策略梯度（deep deterministic policy gradient）、critic目標網絡和深度雙Q網絡（double DQN ）的當前Q網絡，目標Q網絡的功能定位基本類似，但是DDPG有自己的actor策略網絡，因此不需要貪婪法這樣的選擇方法，這部分DDQN的功能到了DDPG可以在actor當前網絡完成。而對經驗回放池中采樣的下一狀態s'使用貪婪法選擇動作a'，這部分工作的作用是估計目標 Q 值，因此可以放到 actor 目標網絡完成。

此外，actor當前網絡也會基于critic目標網絡計算出的目標Q值進行網絡參數的更新，并定期將網絡參數復制到 actor 目標網絡。DDPG 參考了DDQN的算法思想，通過雙網絡和經驗回放，以及一些其他的優化，比較好地解決了AC難收斂的問題。因此在實際產品中尤其是與自動化相關的產品中使用得比較多，是一個比較成熟的AC算法。2017年， Open AI在神經信息處理系統大會（Conference and Workshop on Neural Information Processing Systems）上又提出了改進的多 agent 深度確定性策略梯度（multi-agent deep deterministic policy gradient）算法[57]，把強化學習算法進一步推廣應用到多agent環境。在AC框架下，比較經典的算法還有近端策略優化（proximal policy optimization）算法[58]、柔性演員-評論家（soft actor-critic）算法[59]、雙延遲深度確定性策略梯度（twin delayed deep deterministic policy gradient）算法[60]等，這些算法也都是在樣本提取效率、探索能力增強方面進一步改進優化AC框架的。

2.3 深度學習結合強化學習

在現有策略對抗游戲中利用深度學習技術結合強化學習來實現游戲AI已成為主流研究方向[52]。其主要思路為在游戲對抗過程中利用圖像特征的卷積提取技術。如在《覺悟AI》中，圖像特征的提取采取了分層的思想，在主視野和小地圖中，對不同種類的要素進行提取并合并到一個層中，最終每層都提取到一類關鍵屬性節點信息，形成“英雄”“野怪”“小兵”位置矩陣[6]。最終將多尺度特征的信息融合形成全局態勢特征信息，這一工作同樣應用在AlphaStar中。對于作戰推演來說，態勢理解一直是研究的難點，那么考慮利用深度學習技術來實現態勢圖像特征的提取，進而最終輸出態勢圖的關鍵信息將是解決方案之一。此外，筆者所在團隊也嘗試利用深度學習技術對態勢信息進行卷積提取，然后將提取信息與語義模型結合，生成當前態勢的直觀文本語義。而在前端利用強化學習進行實體單元控制，這樣就可以將強化學習、深度學習、自然語言處理融合，在推演過程中實時生成方便人類理解的智能決策文本語義信息，這一工作對于實現推演系統中的人機融合具有積極意義。

2.4 分層強化學習

智能博弈對抗的建模過程面臨兩個難題，一個是動作空間龐大，另一個是獎勵稀疏問題。面對這兩個問題，有研究人員提出了分層強化學習的解決思路。該思路的核心是對動作進行分層，將低層級（low-level）動作組成高層級（high-level）動作，這樣搜索空間就會被減小[52]。同時基于分層的思想，在一個預訓練的環境中學習有用的技能，這些技能是通用的，與要解決的對抗任務的關系不太緊密。學習一個高層的控制策略能夠使 agent 根據狀態調用技能，并且該方法能夠很好地解決探索效率較低的問題，該方法已在一系列稀疏獎勵的任務中表現出色[61-62]。《覺悟 AI》同樣設計了分層強化學習的動作標簽來控制“英雄”的微觀操作。具體來說，每個標簽由兩個層級（或子標簽）組成，它們表示一級和二級操作。第一個動作，即一級動作，表示要采取的動作，包括移動、普通攻擊、一技能、二技能、三技能、回血、回城等。第二個是二級動作，它告訴玩家如何根據動作類型具體地執行動作。例如，如果第一個層級是移動動作，那么第二個層級就是選擇一個二維坐標來選擇移動的方向；當第一個層級為普通攻擊時，第二個層級將成為選擇攻擊目標；如果第一個層級是一技能（或二技能、三技能），那么第二個層級將針對不同技能選擇釋放技能的類型、目標和區域。這對于作戰推演中不同算子如何執行動作也具有參考價值，每一個類型的算子同樣存在不同的動作，例如坦克可以選擇直瞄射擊、間瞄射擊、移動方向等，實際作戰推演不同裝備同樣具有眾多復雜的動作，通過這樣的特征和標簽設計，可以將人工智能建模任務作為一個層次化的多類分類問題來完成。具體來說，一個深層次的神經網絡模型被訓練以預測在給定的情境下要采取的行動。作戰推演也可以參考層次化的動作標簽來不斷細化動作執行過程，進而訓練解決復雜的動作執行難題。在作戰推演中完全可以借鑒這種思路設計適用于作戰場景的分層強化學習框架。南京大學的研究人員利用分層強化學習建立宏觀策略模型和微觀策略模型，根據具體的態勢評估宏觀策略模型，然后利用宏函數批量綁定選擇微觀動作，這樣可以在不同的局勢下選擇對應的一系列動作，進而實現了分層強化學習在《星際爭霸》環境中的應用[63]。分層強化學習比較通用的框架是兩層，頂層策略被稱為元控制器（meta-controller），負責生成總體宏觀目標，底層策略被稱為控制器（controller），負責完成給定的子目標，這種機制本質也對應作戰推演中的戰略、戰役、戰術3個層次，不同層次關注的作戰目標各有不同，但又互相關聯。其他相關改進是學者在獎賞函數設置、增加分層結構、保持分層同步、提高采樣效率等方面改進分層強化學習[64]。

2.5 多agent強化學習

在游戲博弈對抗過程中必然需要考慮多 agent建模，而在作戰推演中利用多 agent 技術實現不同作戰單元的協同合作也是博弈智能研究的重點之一。在這方面OpenAI和AlphaStar在多agent深度強化學習方面使用了不同的技術思路。OpenAI 使用的是分布異構的多agent建模思路，每一個agent都有一個相同的訓練神經網絡，但是沒有全局控制網絡[37,47]。AlphaStar則是使用了一個集中的控制網絡對不同的單元進行控制。還有一種思路是對于每一個agent，都建立屬于各自的神經網絡進行訓練。第三種思路是最理想的，但是訓練過程復雜，也難以適用于大規模的推演過程[43]。對于實際作戰推演來說，除了要考慮多 agent 建模方法，還需要讓每個 agent 具有柔性加入的能力，在對抗過程中可以按照需要隨時加入所需要的作戰單元，而不需要每次加入作戰單元后，再重新訓練一遍網絡。基于此考慮，讓每一個 agent 具有自己獨立的神經網絡將是更好的選擇。

2.6 LSTM技術結合深度強化學習

《覺悟 AI》在設計過程中利用深度學習不斷提取游戲界面的態勢信息。利用深度學習雖然可以把一個對抗界面的所有特征提取出來，但是提取的是靜態的某一幀的界面信息，并沒有把時間步之間的信息關聯起來。時間步一般指一幀，也可以指多幀，其關鍵是將歷史的幀信息和現在的信息關聯起來。基于此，需要引入長短期記憶（long short-term memory，LSTM）網絡。讓 LSTM 一次接收多個時間步信息來學習這些時間步之間的關聯信息，從而讓 LSTM 幫助“英雄”學習技能組合，并選擇“英雄”應該關注的主視野和小地圖的具體方面，進而綜合輸出合理的動作，也通過 LSTM 關聯歷史數據來訓練強化學習的神經網絡模型[65]。在實際作戰推演過程中同樣需要考慮這種情況，防止出現訓練的AI為了某個戰術目標而忽視了整體戰略目標。

2.7 多屬性決策結合強化學習

強化學習的回報值往往根據專家經驗手工設置，但是這種手工設置的回報值的收斂性及智能性均難以保證，并且長時間訓練才能評估設置的回報值的效果。因此可以考慮結合推演數據，結合多屬性決策方法進行客觀分析，總結提煉出合適的回報值。首先，從推演環境中獲取各關鍵屬性數據，如在陸戰對抗環境提取作戰單元位置、高程、類型、射程屬性、打擊屬性、裝甲屬性等。以這些屬性數據為基礎，計算出對應的評估指標，如目標距離威脅、目標攻擊威脅、目標速度威脅等，通過熵權法計算相應權重，并最終結合多屬性方法對敵方威脅度進行排序，將其和強化學習的回報值函數進行關聯，進而設置出更加客觀合理的回報值函數，這樣有利于提高強化學習訓練的智能性，并有利于加快收斂。

作戰推演技術難點及技術解決方案

3.1 冷啟動問題

在對強化學習的訓練過程中，研究人員總是會遇到訓練過程時間長、難以收斂的問題，這種情況通常被稱為冷啟動問題。針對這個問題，現有研究人員提出了多種解決方案，比較有效的解決方案是利用專家的領域知識預先設計固定的先驗知識，利用先驗知識進行智能博弈訓練，進而在強化學習的經驗存儲中得到高水平的訓練數據。在強化學習的后期訓練中直接利用這些先驗知識對抗出來的經驗數據進行模型訓練，從而可以有效縮小探索空間和動作空間，進而保證強化學習可以快速訓練出高水平的AI，避免了前期盲目探索的情況。在實際作戰推演過程中，也可以考慮使用高水平指揮員的先驗知識，提前進行形式化存儲，進而在強化學習訓練過程中導入先驗知識，加快訓練結果的收斂，得到較高水平的智能AI。

3.2 過擬合問題

在智能博弈對抗過程中經常會出現訓練一定階段后陷入局部最優結果的情況。表現為在智能兵棋比賽中，經過長時間訓練后，強化學習訓練出的結果是控制算子進行固定的線路和射擊套路，這種情況可被稱為過擬合現象。為了避免這種情況的出現，應該在算法設計中加入隨機可能性，在一定比例的動作選擇概率下隨機探索，而不是完全按照強化學習算法給出的結果進行執行。其次，按照貝爾曼方程，應該在獎勵函數設計過程中，考慮當前影響和未來影響的可變比重，即回報函數設計包括一定的可變性，而不是固定不變的。當然也可以利用強大的計算力，生成大量新的對手，從不同方面與需要訓練的 agent 進行對抗，從而避免因為固定對手而導致的過擬合現象。

4.3 想定適應性問題

智能博弈的 AI 建模普遍存在適應性不高的問題，有部分研究人員開發的 AI 是針對某個固定想定開發的，導致更換博弈想定后AI性能大幅下降。考慮到大部分數據或任務是存在相關性的，通過遷移學習可以將已經學到的模型參數通過某種方式分享給新模型，從而加快優化模型效率。中國科學院自動化研究所的研究人員引入了課程遷移學習，將強化學習模型擴展到各種不同博弈場景，并且提升了采樣效率[81]。DeepMind 在 AlphaZero 中使用同樣的算法設置、網絡架構和超參數，得到了一種適用于圍棋、國際象棋和將棋的通用算法，并戰勝了基于其他技術的棋類游戲AI[82]。《覺悟AI》引入了課程學習方法，將訓練至符合要求的參數遷移至同一個神經網絡再次訓練、迭代、修正以提高效率，使《覺悟AI》模型能熟練掌握40多個“英雄”[6,36]。在作戰推演中，更需要這種適用性強的通用 AI 算法，不需要在更換作戰想定后重新訓練模型，也只有這樣才可以更加適應實時性要求極高的作戰場景。

4.4 智能藍方建模

對手建模指在兩個 agent 博弈的環境中，為了獲得更高的收益，需要對對手的策略進行建模，利用模型（隱式）推斷其所采取的策略來輔助決策。智能藍方建模主要是在具有戰爭迷霧的情況下，對對手進行建模，并預測對手的未來動作。其前提通常是博弈環境存在戰爭迷霧，我方在無法獲取準確的對手信息的情況下，針對對方進行預測評估。在對抗過程中，一種假設是對手是完全理性的，對對手（隊友）進行建模是為了尋找博弈中的納什均衡策略。為了解決這一難點問題，阿爾伯塔大學的研究人員提出了反事實遺憾最小化（counterfactual regret minimization，CFR）技術，該技術不再需要一次性推理一棵完整的博弈樹，而是允許從博弈的當前狀態使用啟發式搜索。另外，對手建模可分為隱式建模和顯式建模。通常隱式建模直接將對手信息作為自身博弈模型的一部分來處理對手信息缺失的問題，通過最大化agent期望回報的方式將對手的決策行為隱式引進自身模型，構成隱式建模方法。顯式建模則直接根據觀測到的對手歷史行為數據進行推理優化，通過模型擬合對手行為策略，掌握對手意圖，降低對手信息缺失帶來的影響[83]。總體來說，對手建模技術是智能博弈對抗是否有效的關鍵，只有建立一個可以高效預估對手行為的模型，才能保證智能博弈AI的有效性。

4.5 路徑規劃問題

路徑規劃作為智能博弈中的重要組成部分，其主要任務是根據不同的想定，針對每個單元在起始點和終止點之間快速規劃一條由多個路徑點依次連接而成的最優路徑[84]。在智能博弈的背景下，最優路徑的含義不僅僅是兩點之間的距離最短，而是綜合考慮博弈態勢、資源情況和綜合威脅后的最佳路徑。但是，已有的路徑規劃算法主要以A-Star算法、Dijkstra算法、D算法、LPA算法、D* lite算法等為典型代表，在物流運輸、無人駕駛、航空航天等領域都取得了顯著成效。同時也有學者提出其他的路徑規劃算法，如基于神經網絡和人工勢場的協同博弈路徑規劃方法[85]等，但是在智能博弈的環境下，需要考慮的問題更加復雜，需要進一步對這些算法進行改進優化。

5 作戰推演未來發展建議

5.1 智能作戰推演通用框架

現有的游戲平臺中也有比較成熟的AI開發通用框架（如 pysc2[86-87]），但是相比成熟的作戰推演通用框架還有較大差距。智能作戰推演系統可以設計一個適用于復雜環境的通用框架，該框架包括作戰推演算子、地圖、規則、想定。同時最關鍵的是設計通用的算法接口，這些接口可以方便智能博弈算法的設計與實現，如環境加載接口、環境重置接口、環境渲染接口、動作隨機選擇接口、執行動作接口等。同時，也可以提前設計智能作戰推演的基本功能框架，包括地圖編輯模塊、想定編輯模塊、算子管理模塊、規則編輯模塊、推演設置模塊、數據分析模塊、系統配置模塊。其中最核心的是推演設置模塊可以自由選擇每局推演使用的智能算法，從而實現智能算法設計和作戰推演環境開發的解耦，這樣才可以保證智能作戰推演的靈活適應性。通用框架中另一個重要的因素是可以提供AI使用的工具，例如對于深度學習的分層態勢顯示，可以直觀地提供一個通用接口進行展現，方便指揮人員快速調用該接口實現智能算法的輔助決策功能。

5.2 智能戰略、戰役、戰術決策方案制定

智能作戰推演必然面對的問題是選擇在戰略、戰役還是戰術場景下應用。現階段主要還是在戰術層面進行智能算法的研究，包括國內的某智能兵棋推演大賽，各種想定只有算子數量種類的差別，但本質上都還屬于戰術智能決策。《墨子?未來指揮官系統》中的對抗想定更接近于戰役層面的智能決策方案，現階段對戰略層面的智能決策的研究還比較少。其原因就在于面臨的想定越宏觀，智能決策的技術挑戰越大，包括動作空間、狀態空間的變化以及現階段 agent 之間的協同交互還并沒有很成熟。因此，當前考慮戰術層面的智能決策更容易。如果要解決戰略層面的智能決策，必然需要研究各agent之間的協同機制，還要考慮作戰的后勤支持機制。然而當前尚未有游戲、作戰推演在智能推演中考慮后勤機制的影響。另外，戰術、戰役、戰略層面的方案制定技術思路也并不相同，有的研究以各agent獨自訓練、交互，進而涌現出智能決策方案。這一技術思路更加逼近真實場景，但是算力要求和技術實現難度都較高。另一思路是建立統一的宏觀agent 模型，利用宏觀 agent 控制所有算子進行推演，這一技術思路實現比較簡單，所需的算力也較低，可以考慮將其作為初期實現的路徑之一。

5.3 人機融合的智能作戰推演模式建立

智能作戰推演的未來趨勢主要分為人不在環和人在環兩種類型。人不在環主要類似于AlphaStar、OpenAI 的游戲智能，通過預先訓練完成agent，完全由訓練好的agent自主進行博弈對抗，左右互搏，實現方案的預演和推測。人在環的模式又分為兩種，一種是實現人機對抗，國內已有這方面的比賽，通過開發訓練好的智能算法 agent 與高水平指揮人員進行對抗，探測發現自身指揮問題并不斷提高，可用于指揮人員訓練場景。另一種人在環更加困難，即 agent 可以響應人的指令，并完成低層次的規劃任務。主要還是由指揮人員進行整體戰略宏觀判斷，并通過指令交互部署 agent 完成低層次任務，最后總體實現戰略目標。同時，也需要對人機融合模式的框架進行探索，如將人類領域知識引入智能算法中，幫助智能算法更高效地實現智能作戰推演。

5.4 開放性的仿真實驗平臺建立

隨著智能博弈的興起，國內外高校、研究所、企業都已逐漸開發完成各種類型的智能博弈平臺。但是不同平臺之間并不互通，相互獨立，形成了各個平臺的信息孤島，在智能算法開發的過程中，面對新的平臺就需要研究人員重新學習適應新的平臺接口和架構，這浪費了研究人員大部分精力。另外，智能博弈的強化學習接口以及其他算法雖然在不同平臺體現不同，但本質都一樣，很有必要構建一個通用一體化智能博弈平臺框架，減少不斷重新開發、學習的過程，提高智能博弈平臺的研究效率也勢在必行。

6 結束語

本文構建并梳理了智能作戰推演的國內外發展概況，詳細介紹了智能作戰推演所需要的各項技術難點及國內外進展，同時借鑒游戲 AI 領域的發展現狀并將其與智能作戰推演所需要的技術需求進行對比，分析現有技術還需要改進和優化的方向，也對智能作戰推演的各個研究方向進行了歸納。可以為從事游戲AI、智能兵棋、智能作戰推演等智能博弈領域的研究人員提供一定的思路。當前智能博弈的研究思路還主要以深度強化學習為基礎，但絕不僅僅是深度強化學習技術，各種傳統的智能算法和新的機器學習算法都可以作為智能博弈領域補充完善的技術力量。本文以作戰推演技術需求為牽引，結合國內外游戲AI、兵棋推演相關實際發展情況，總結出雖然智能博弈依然還有很多難題需要解決，現有技術實現程度相比于實際應用還有較大差距，但智能博弈這一研究方向是未來智能決策研究發展的必由之路，相信最終會在各個相關領域得以實現。

參考文獻

[1] 沈宇, 韓金朋, 李靈犀, 等. 游戲智能中的 AI: 從多角色博弈到平行博弈[J]. 智能科學與技術學報, 2020, 2(3): 205-213. [2] 胡曉峰, 賀筱媛, 陶九陽. AlphaGo 的突破與兵棋推演的挑戰[J]. 科技導報, 2017, 35(21): 49-60. [3] 葉利民, 龔立, 劉忠. 兵棋推演系統設計與建模研究[J]. 計算機與數字工程, 2011, 39(12): 58-61. [4] 譚鑫. 基于規則的計算機兵棋系統技術研究[D]. 長沙: 國防科學技術大學, 2010.

付費5元查看完整內容

人工智能 · 強化學習 · 深度強化學習 · 深度分層強化學習 · 半馬爾可夫決策過程 ·

2022 年 8 月 6 日

[付費5元查看完整內容]「深度分層強化學習DHRL」最新2022研究與進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度分層強化學習是深度強化學習領域的一個重要研究方向,它重點關注經典深度強化學習難以解決的稀疏獎勵、順序決策和弱遷移能力等問題.其核心思想在于,根據分層思想構建具有多層結構的強化學習策略,運用時序抽象表達方法組合時間細粒度的下層動作,學習時間粗粒度的、有語義的上層動作,將復雜問題分解為數個簡單問題進行求解.近年來,隨著研究的深入,深度分層強化學習方法已經取得了實質性的突破,且被應用于視覺導航、自然語言處理、推薦系統和視頻描述生成等生活領域.該文首先介紹了分層強化學習的理論基礎;然后描述了深度分層強化學習的核心技術,包括分層抽象技術和常用實驗環境;詳細分析了基于技能的深度分層強化學習框架和基于子目標的深度分層強化學習框架,對比了各類算法的研究現狀和發展趨勢;接下來介紹了深度分層強化學習在多個現實生活領域中的應用;最后,對深度分層強化學習進行展望和總結.

強化學習(reinforcement learning,簡稱 RL)是機器學習領域的一個重要分支,它以馬爾可夫決策過程 (markov decision process,簡稱 MDP)為理論基礎,是一種交互式學習方法[1] .深度強化學習(deep reinforcementlearning,簡稱 DRL)作為深度學習(deep learning,簡稱 DL)[2]和 RL 的結合算法,同時具備了 DL的感知能力和 RL的決策能力,初步形成從輸入原始數據到輸出動作控制的完整智能系統.近些年,劉全等人[3]對 DRL進行了全面的分析和解讀,總結了深度??網絡(deep q-learning network,簡稱 DQN)[4]、深度確定性策略梯度(deep deterministicpolicy gradient,簡稱 DDPG)[5]和異步行動者-評論家(asynchronous advantage actor-critic,簡稱 A3C)[6]等經典算法,并介紹了多種前沿研究方向.

分層強化學習(hierarchical reinforcement learning,簡稱 HRL)[7]作為 RL的重要分支,與經典 RL方法的最大區別在于,它以半馬爾可夫決策過程(semi-markov decision process,簡稱 SMDP)[8]為理論基礎,基于分層抽象技術,從結構上對 RL 進行改進,重點關注 RL 難以解決的稀疏獎勵、順序決策和弱遷移能力等問題,實現了更強的探索能力和遷移能力.但是,HRL 仍然存在計算能力不足,無法對狀態特征進行高效表達的問題,通常只能處理離散狀態-動作空間任務.在 DRL 的成功應用后,深度分層強化學習(deep hierarchical reinforcement learning,簡稱 DHRL)[9]同樣將 DL 方法引入 HRL 框架,不僅從理論層面對 HRL 進行了拓展,還利用深度網絡實現了更強的特征提取能力和策略學習能力,構建了更有效、更靈活的分層結構,可以有效解決更復雜的任務[10].隨著 DHRL理論的發展和完善,逐步形成了,以下層策略學習基礎任務實現能力,上層策略學習下游任務解決方案的問題求解路線.目前,DHRL 已經被廣泛應用于視覺導航[11]、自然語言處理[12]、推薦系統[13]和視頻描述生成[14]等真實世界應用領域.

為了對 DHRL 進行系統的分析和總結,我們首先在中國計算機學會推薦國際學術會議和期刊,以及 CNKI論文數據庫中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等關鍵詞進行檢索,并在谷歌學術中,將被引次數超過 500 的核心論文[1, 15-17]作為基準,檢索引用了這些論文的HRL和 DHRL論文;然后通過人工審查方式,對已檢索的論文進行篩選,排除與研究問題無關和已被收錄的網絡論文.我們用圖 1 和圖 2 對所篩選論文進行展示.圖 1 反映了從 1998 年(HRL理論基礎被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各類會議、期刊和網絡上,較有影響力的 HRL和 DHRL相關論文的數量及刊載情況,它們中的絕大多數都被收錄于 CCF A 類會議(112 篇)、CCF B類會議(25篇)、SCI 一區期刊(7篇)和 SCI 二區期刊(22 篇).圖 2 反映了從 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相關論文的被引次數.從圖 1 和圖 2 可以看出,一方面,HRL 與 DHRL 的研究熱度逐年增加,尤其是在 2016之后,隨著 DL的發展和 DRL 的出現,國內外學者對 DHRL 的關注程度與日俱增.另一方面,相關論文的被引次數在 1999年和 2017年出現高峰,這與 RL 奠基工作的開展和 DRL 的飛躍式發展有著密切關系.

本文以 HRL 基礎理論為研究脈絡,重點關注 DHRL 的研究現狀和發展趨勢. 第1章對 HRL的基礎理論進行介紹;第 2 章描述了 DHRL 的核心技術,包括可以解決的問題、常用實驗環境和 DHRL主流框架的劃分依據;第 3、4 章分析了兩種 DHRL 框架下的核心算法,詳細說明了各類算法的發展歷程、研究重心和優缺點;第 5章對 DHRL 在現實生活領域中的應用進行介紹;第 6、7 章對 DHRL 進行展望和總結.

深度分層強化學習技術

SMDP 和時序抽象法作為 DHRL 方法的核心技術,是構造分層結構的基礎,我們將這兩種核心技術統稱為分層抽象技術.當一個序列動作包含多個序列動作或多個基礎動作時,可以認為前者是比后者層次更高、語義更強的動作[8] .將這些動作以一定規則進行組合,便形成了 DHRL 的多層結構.與經典 DRL相比,DHRL算法有更強的問題解決能力,具體來說,DHRL 常用來解決以下 3 種問題:

(1) 稀疏獎勵

DRL 的本質是利用獎勵函數強化行為的過程,好的獎勵函數可以反映任務的特性,引導狀態和動作的價值被正確估計,進一步優化策略.但經典 DRL 把狀態空間看成一個巨大的、平坦的搜索空間[21] ,這意味著,智能體從初始狀態到終止狀態的路徑非常長,過長的路徑會產生獎勵信號變弱、延遲增高等問題.一旦環境只能提供稀疏獎勵信號,問題會變得更為棘手.此外, ? -貪婪策略和動作噪音作為 DRL常用的探索方案[22, 23],只能輔助智能體探索臨近的、有限的狀態空間,尤其在稀疏獎勵環境下,無法為智能體提供探索更廣闊狀態空間的動力.反過來,探索能力又會影響算法在稀疏獎勵環境中的性能.而 DHRL 利用分層抽象技術,可以組合多個時序擴展動作,幫助智能體實現更大范圍的狀態空間快速覆蓋,強化探索能力;同時,也可以快速捕獲外部獎勵,或收集內部獎勵,以此克服稀疏獎勵問題.

(2) 順序決策

許多任務的實現需要遵循一定的順序決策過程,例如在蒙特祖瑪的復仇中,需要先拿到鑰匙才可以打開門.該問題有時也被看成部分可觀測馬爾可夫決策過程(partially observable MDP,簡稱 POMDP)[24, 25],因為從本質上來說,如果不給予先驗知識,鑰匙的獲取對智能體來說是不可觀測的.經典 DRL往往無法記錄中間過程,或找不到決策規律.DHRL 的多層結構可以關注不同水平的知識結構[26] ,智能體在得到一些關鍵信息后,切換上層策略,以實現對順序決策信息的隱性表達.

(3) 弱遷移能力

經典 DRL 通常存在策略可遷移能力不足的問題,即每一個任務都需要學習專屬的網絡[4] ,且一種算法往往只可以在單一或少數幾個任務上取得較優結果.DHRL 能夠學到具有高遷移能力的 option,在面對相似任務時,智能體可以快速獲得學習能力[27] .同時,DHRL 充分利用狀態抽象法,將不同狀態轉化為相似的抽象特征,建立有效的狀態特征表達機制[28] ,輔助 option 在相似狀態區域上的重用. DHRL 具有較強的學習能力,可以說,DHRL 對復雜問題的求解能力正是源于分層抽象技術的應用.但分層抽象技術同樣也會引入一些額外問題,包括分層結構參數過多,訓練時間過長,option學習過程與組合過程的矛盾,異策略分層同步訓練不穩定,以及子目標太遠難以到達等問題.對于一些更具體的情況,我們將在后續章節于每一個核心算法的論述中進行說明,并介紹更為優秀的算法如何在前文基礎上進行改進,以解決這些額外問題.

基于分層抽象技術,學者們提出了豐富多樣的 DHRL 方法,根據求解思路的差異,我們將它們分為: (1)基于技能的深度分層強化學習框架(option-based DHRL,簡稱 O-DHRL)(option 在 O-DHRL中常被稱為技能(skill),為保證符號的統一,下文依然用符號 o 來表示).下層網絡學習一組技能,然后由上層網絡調用這些技能,使用不同的組合技能來解決下游任務;** (2) 基于子目標的深度分層強化學習框架**(subgoal-based DHRL,簡稱 G-DHRL).利用神經網絡提取狀態特征,然后將狀態特征作為子目標空間.上層網絡學習產生子目標,下層網絡根據內部驅動來實現子目標.除此之外,早些年學者還提出了基于子任務的分層強化學習框架(subtask-based HRL,簡稱 S-HRL)[60] ,但該框架引入了嚴重的先驗知識問題,需要人工經驗進行任務分解,如果原問題復雜難分,則難以使用該方法.因此,在追求端到端解決問題的 DRL 領域中,極少有論文[61-63]以 S-HRL為基礎進行拓展,不足以構成完整的 DHRL 研究方向,故本文不討論該支線.

基于技能的深度分層強化學習

O-DHRL 與 SMDP 密不可分,而求解 SMDP 問題的關鍵在于如何定義和尋找 option.從內容上看,option既可以由先驗知識定義,也可以由算法學習產生.從形式上看,option 既可以是單步的基礎動作,也可以是一組動作序列,或是另一組 option. O-DHRL 的每個 option 可以由一個 3 元組 , 來表示[80] ,該 3 元組的含義分別是:(1)I表示 option初始狀態集,當且僅當狀態時,option 才會被執行.初始條件 I 也可以被看成 option策略 ,智能體通過 option 策略選擇當前的 option;(2) 表示 option o 的內部策略,用于產生序列動作或序列 option;(3) 表示 option o 的中斷函數,當某一狀態滿足條件時,該 option 結束.通常,智能體在某一初始狀態選擇某一 option后,執行該 option 內部策略,在到達某一狀態或滿足中斷函數時,停止該 option,并以此刻狀態為初始狀態,繼續執行下一 option.盡管 O-DHRL 增加了 MDP 的復雜性,但它具有易實現和分層易拓展的優點. 根據近幾年 O-DHRL 的技術發展路線,以上下層策略是否同步訓練,將 O-DHRL框架分為同步式技能 (synchronous option,簡稱 SO)和異步式技能(asynchronous option,簡稱 AO):(1)在 SO-DHRL中,技能和上層策略的訓練過程是同步的,根據對任務處理能力和技能遷移能力的側重差異,SO-DHRL又分為獨立型技能和共享型技能.SO-DHRL 可以針對特定任務,直接得到與任務高度相關的技能組合,具有明顯的性能優勢,但單次訓練的成本較高;(2)在 AO-DHRL 中,技能和上層策略的訓練過程是分離的,根據求解步驟,AO-DHRL又分為技能學習和技能組合.下層網絡(技能網絡)在訓練好數個技能后,由上層策略在下游任務中調用這些技能.它通常要求技能在任務無關的環境下進行訓練,使學到的技能具有較好的狀態覆蓋能力和可遷移能力.但技能的多樣性難以被量化,組合技能也不一定總是優于非分層算法.

基于子目標的深度分層強化學習

深度分層強化學習應用

目前,DHRL 方法已經被廣泛應用于視覺導航、自然語言處理、推薦系統和視頻描述生成等真實世界應用領域,以解決現實生活中的稀疏獎勵和順序決策等問題,并展現出巨大的商業價值.圖 7描述了從 2016年至 2021 年(截止到 2021 年 6 月),DHRL 在不同真實世界應用領域的論文數量占比情況(共 78篇).

視覺導航領域

視覺導航領域包括自動駕駛模擬和目標導向機器人兩種任務,它們不僅要求智能體具備對圖像數據的表達能力,還要求控制器能夠以不同頻率更新路況信息和動作策略.考慮到這些特性,將分層抽象技術應用在視覺導航領域,可以發揮重要作用.

大量研究表明,許多動物在自我定位和路徑規劃方面形成空間表達的能力,都依賴于大腦對原始感知信號的特征編碼.在自動駕駛模擬任務中,慢性特征分析算法(slow feature analysis,簡稱 SFA)[123]從視覺圖像中學得拓撲地圖,利用 DHRL 從拓撲地圖中學得豐富的環境層級表達,為車輛在不同空間尺度上實現自我定位和方向檢測.在紅綠燈通行問題中,Chen 等人[11]提出了一種分層策略梯度方法,學習數個簡單且有差異的技能,然后組合技能來獲得對復雜問題的求解能力,使車輛在交通燈變黃時做出正確選擇.這些算法的實驗結果均表明,相比于經典 DRL,DHRL 有更好的學習能力,可以幫助車輛實現模擬駕駛,包括并道和等待紅綠燈等操作. 在目標導向機器人應用中,出于穩定和安全的考慮,位置估計器需要以較低頻率更新,而動作控制器必須在幾毫秒內計算出電機指令.Jain 等人[124]針對 4 足機器人路徑跟蹤任務,充分利用 DHRL的分層結構特性和時序解耦方案,為上下層控制器使用不同的狀態表達,強調位置估計和動作控制的不同關注點,確保下層策略的可重用能力;并在可變的時間尺度上更新上下層策略,減輕硬件對上層狀態信息的處理需求.Li 等人[125]在 18自由度機器人的多目標導向任務中,對技能進行預訓練,得到可以實現簡單目標的技能(如轉彎和直線行走),然后對技能進行規劃學習.這種分層學習方式不僅可以利用預訓練技能提高對多目標任務的求解能力,還可以減少構建上層模型所需的硬件數據.

自然語言處理領域

DHRL 在自然語言處理領域常用于任務導向型對話生成(task-oriented)和開放域對話生成(open-domain)方向,與經典環境 Atari 相比,這些任務的動作維度要高出多個數量級. 在任務導向型對話生成任務中,Budzianowski 等人[126]利用 DHRL 的強遷移能力來學習跨領域對話系統.考慮到不同領域中存在著相似的子域,如訂購房間和購買書本主域都有付款子域,該算法在不同主域的相似子域中學習可共享的信息,以訓練通用的下層策略.Saha 等人[127, 128]利用 DHRL框架來學習多意圖對話策略.考慮到大多數對話系統只使用了用戶語義,而忽略了用戶行為和情感在對話中的作用,該算法將基于情感的即時獎勵引入到對話系統基礎獎勵中,使問答機器人具有自適應能力,意圖獲得最大用戶滿意度.實驗結果表明,用戶情感和行為等信息在創造復合性的問答機器人和最大化用戶滿意度方面,均發揮了重要作用. 在開放域對話生成領域,經典 DRL 方法[129, 130]往往只能在單詞層面上構建獎勵模型,這種低水平的控制將不利于信用分配,導致獎勵模型難以跟蹤長期對話目標.為克服這一挑戰,Saleh 等人[131]提出變分對話模型分層強化學習算法(variational sequence model HRL,簡稱 VHRL),該算法不再單純考慮單詞級別的信息,而是在話語層次上建立獎勵模型,提高模型的全局視野和靈活性,以學習長期的對話回報.VHRL避免了在電影這類長對話數據中,可能產生的不適當、有偏見或攻擊性的文本,在人類評估和自動指標性能方面,均超過了最先進的對話模型[132] .

** 推薦系統領域**

推薦系統具有巨大的商業價值,序列推薦(sequential recommendations)作為推薦系統中與 DRL技術緊密相關的研究方向[133, 134] ,意圖通過交互獲得的項目序列(item sequence)來刻畫用戶偏好. 對于同質項目(homogeneous items)(如不同類型的文章),注意力機制方法[132]已經可以區分不同歷史項目對推薦目標項目的貢獻程度,但當用戶記錄存在過多噪音時,注意力機制的效果會變差.為了消除用戶記錄的噪音,Zhang 等人[135]將推薦問題形式化為順序決策過程,在由數據集和基礎推薦模型構成的環境反饋下,上層控制器判斷用戶記錄是否需要修改,下層控制器對需要修改的項目進行判定和刪除.該算法在慕課(open onlinecourses,簡稱 MOOCs)數據集中進行了驗證,結果顯示,可以有效消除用戶噪音的影響.此外,為了克服項目數據過大和用戶記錄稀疏的問題,Wang 等人[136]提出基于聚類的分層強化學習算法(clustering-based reinforcementlearning,簡稱 CHRL).該算法先對基礎推薦系統進行預訓練,然后設計分層結構來過濾可能誤導推薦系統的交互,同時加入聚類策略,以減少項目數據的稀疏問題. 相比于同質項目推薦系統,綜合推薦系統[137]需要在一個頁面中同時推薦異質項目(heterogeneous item)(如文章和視頻).Xie 等人[138]提出綜合推薦分層強化學習框架(HRL framework for integrated recommendation,簡稱 HRL-Rec),在該框架中,上層控制器作為頻道選擇器,負責在列表推薦器中生成頻道序列;下層控制器作為項目推薦器,負責在頻道列表中選擇項目,以此捕獲用戶不同粒度的偏好.目前,該方案已應用于微信看一看線上系統,實現了 DHRL 在推薦系統領域的商業價值.

視頻描述生成領域

視頻描述(video captioning,簡稱 VC)作為集視覺和文本兩個維度的多模態任務,具有更高的復雜度.當前基于 DL 的視頻描述方法通常利用自動編碼器(auto-encoder),來學習從視頻序列到文本序列的轉移過程[139],但這些方法往往只能提取到粗粒度的視頻特征,無法在噪音背景下捕獲明確的對象,損失了對重要內容的理解能力.為消除視頻噪音,提取細粒度的視頻描述特征,Wang 等人[14]在 VC領域中引入 DHRL,將文本和視頻語境視為強化學習環境,定義任務為一個順序決策過程.在該算法中,上層控制器為新文本片段產生子目標,下層控制器按序列產生的單詞來生成文本片段,采用二元判定機制評估當前子目標是否被實現.為了克服更具挑戰的多語句生成問題,Huang 等人[140]提出了一種 DHRL框架,上層控制器為每個圖像序列生成語義連貫的主題,下層控制器根據主題,使用語義合成網絡生成句子描述,將句子生成建立在主題的基礎上.該算法在視覺故事(visualstorytelling,簡稱 VIST)數據集上的評測結果表明,其性能明顯優于其他 DL模型[141] .此外,Chen等人[142]首次將 DHRL 應用于視頻摘要生成領域,將整個任務分解成若干子任務,通過定義子目標和內部獎勵來解決稀疏獎勵問題.該算法在視頻摘要數據集上的表現不僅超越了最先進的無監督方法[143] ,甚至超越了它的有監督擴展方法 [144] .

付費5元查看完整內容

兵棋推演 · 智能決策 · 人機對抗 · 博弈學習 ·

2022 年 7 月 5 日

[付費5元查看完整內容]兵棋推演的智能決策技術與挑戰

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.

尹奇躍, 趙美靜, 倪晚成, 張俊格, 黃凱奇, 兵棋推演的智能決策技術與挑戰. 自動化學報, 2022, 48(x): xx-xx //www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

人機對抗, 作為人工智能技術的試金石, 近年來獲得了舉世矚目的進展. 隨著 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能體分別在國際象棋、圍棋、二人無限注德州撲克以及星際爭霸中戰勝頂尖職業人類選手, 其背后的智能決策技術獲得了廣泛的關注, 也代表了智能決策技術在中等復雜度完美信息博弈、高復雜度完美信息博弈再到高復雜度不完美信息博弈中的技術突破.

國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由

, 后者更是被譽為人工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有 , 但其為不完美信息博弈, 相比于國際象棋與圍棋信息集大小僅為 1, 其信息集平均大小達到 . 而星際爭霸, 作為高復雜度不完美信息博弈的代表, 因其相比于上述游戲的即時制、長時決策等特性[4, 5] , 對智能決策技術提出了更高的要求. 星際爭霸突破之后, 研究人員迫切需要新的人機對抗環境實現智能技術的前沿探索. 兵棋推演是一款經典策略游戲[6?8] , 也被稱為戰爭游戲, 作為一種人機對抗策略驗證環境, 由于其具有不對稱環境決策、更接近真實環境的隨機性與高風險決策等特點, 受到智能決策技術研究者的廣泛關注. 近些年來, 研究者投入了大量的精力進行兵棋推演智能體研發以及兵棋推演子問題求解, 試圖解決兵棋推演的人機對抗挑戰[9?14] .

兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與 20 世紀 80 年代后期普及的計算機兵棋[15?17] . 胡曉峰等人[6] 全面綜述了兵棋推演的基本要素 (參演人員、兵棋系統模擬的戰場環境和作戰部隊、導演部及導調機構), 指出 “兵棋推演的難點在于模擬人的智能行為”, 進而得出 “兵棋推演需要突破作戰態勢智能認知瓶頸”, 最后給出了如何實現態勢理解與自主決策可能的路徑. 和目前兵棋推演關注的重點不同, 本文關注的是兵棋推演中的智能體研究, 針對通用性的智能決策技術與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推演, 如非特別闡述, 在不引起歧義的前提下統一指雙方計算機兵棋推演 (紅藍兩方). 本文內容組織如下: 第二章將梳理兵棋推演與目前主流人機對抗環境如星際爭霸等的區別, 以及為什么其潛在是人機對抗的下一個挑戰; 第三章將介紹兵棋推演智能技術的研究現狀; 之后在第四章闡述當前主流技術的瓶頸; 第五章對兵棋推演的智能決策技術進行展望與思考, 希望啟發新的研究方向; 最后對全文進行總結.

**1 兵棋智能決策問題的挑戰 **

本章首先簡要介紹兵棋推演問題以及與手工兵棋的比較. 在此基礎上, 以人機對抗發展脈絡為主線, 以兵棋推演中的智能體研究為核心, 介紹兵棋推演與其他主流策略游戲的通用挑戰, 之后重點闡述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機對抗的成功提供了技術基礎, 后者則對當下人機對抗智能體決策技術提出了新的挑戰.

表1 對智能決策技術帶來挑戰的代表性因素

2 兵棋智能決策技術研究現狀

為應對兵棋推演的挑戰性問題, 研究者提出了多種智能體研發與評測方法. 與圍棋、星際爭霸等主流游戲人機對抗智能體研發脈絡類似 (如星際爭霸從早期知識規則為主, 中期以數據學習為主, 后期以聯合知識與強化學習完成突破), 兵棋推演也經歷了以知識驅動為主、以數據驅動為主以及以知識與數據混合驅動的研發歷程. 兵棋的評測技術包含了智能體的定量與定性分析方法. 在本節中, 將重點闡述兵棋智能體研發的技術與框架, 同時對智能體的評估評測進行簡述.

當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的兵棋推演智能體, 本節將分別闡述各個技術框架的研究進展.

3. 兵棋推演智能體評估

正確評估智能體的策略對于智能體的能力迭代具有至關重要的作用。研究者提出了一系列算法（如ELO、多維ELO等）實現智能體能力的準確刻畫，但仍面臨復雜非傳遞性策略的綜合評估、協同智能體中單個智能體的能力評估、定性評估標準體系化等問題帶來的挑戰。近些年來，上述挑戰促進了智能體評估開放平臺的建設，例如，中科院自動化所開放了“圖靈網”人機對抗智能門戶網站（

4. 兵棋智能決策技術展望

博弈理論，作為研究多個利己個體之間的策略性交互而發展的數學理論，有望為兵棋推演人機對抗突破提供理論支撐，但是面臨著如何求解以及保證大規模博弈的近似納什均衡解的挑戰。大模型，近些年來在自然語言處理領域獲得了突飛猛進的發展，兵棋推演的大模型訓練有望實現類似的零樣本或小樣本遷移，但是面臨著如何進行優化目標設計、多智能體訓練以及不同規模任務訓練的挑戰。問題約簡，作為一種引導技術發展的有效手段，本文設計了“排兵布陣”、“算子異步協同對抗”等問題，以牽引算法研究，進而反哺解決兵棋推演人機對抗挑戰。

付費5元查看完整內容

人機對抗 · 博弈論 · 博弈學習 · 人工智能 · 中科院自動化所智能系統與工程研究中心 ·

2022 年 3 月 29 日

[付費5元查看完整內容]《人機對抗中的博弈學習方法》21頁PDF，中科院自動化所最新發表

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，隨著人工智能技術的發展，人機對抗領域取得了一系列突破性的進展，如AlphaGo、Libratus以及AlphaStar分別在圍棋、二人無限注德州撲克以及星際爭霸2中擊敗了人類職業選手。然而，當前大部分研究基于傳統機器學習方法——以最大化收益/最小化損失為學習目標，將對手視為被動反饋的環境中的一部分，忽略了對手的理性和策略性，導致在非平穩環境中缺乏理論保證，難以處理復雜人機對抗中多個趨利的智能體共同學習、相互對抗的非平穩任務。如何從理論和方法上高效、穩定求解對抗任務中的博弈策略是目前國際上的研究熱點和難點。

近期，中科院自動化所智能系統團隊提出了面向人機對抗的博弈學習方法，該方法結合博弈論和機器學習，從人機對抗任務出發，充分考慮對手的策略性回應（strategic response），基于博弈論從建模、解概念定義及求解出發設計學習方法，以收斂到智能體的策略均衡為學習目標，并利用機器學習方法幫助形成穩定、高效、可擴展的博弈求解算法。

人機對抗中的博弈學習方法是智能系統團隊面向人機對抗智能研究的核心環節，如下圖所示，人機對抗智能技術提出了人-機-物三元博弈問題定義，博弈學習方法給出了三元博弈學習的內涵、組成要素和解決復雜人對抗任務的方法步驟，并在典型人機對抗任務如兵棋推演、德州撲克等場景進行驗證，以解決復雜人機對抗任務中的關鍵科學問題。上述研究成果已經發表在中國科學、計算機學報、自動化學報、IEEE Trans. On TOG、AAAI等國內外重要期刊與會議上,探索了博弈智能通往自主進化智能的可行性與路徑。

《人機對抗中的博弈學習方法》摘要

近年來，人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展，如 AlphaGo和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作，深入分析博弈論和機器學習在其中發揮的作用，總結了面向人機對抗任務的博弈學習研究框架，指出博弈論為人機對抗任務提供博弈模型和定義求解目標，機器學習幫助形成穩定高效可擴展的求解算法. 具體地，本文首先介紹了人機對抗中的博弈學習方法的內涵，詳細闡述了面向人機對抗任務的博弈學習研究框架，包括博弈模型構建、解概念定義、博弈解計算三個基本步驟，之后利用該框架分析了當前人機對抗智能技術領域的典型進展，最后指出了人機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對抗智能技術領域的發展提供了方法保障和技術途徑，同時也為通用人工智能的發展提供了新思路.

關鍵詞 人工智能；人機對抗；博弈論；機器學習；博弈學習

周雷，尹奇躍，黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報，2022.

付費5元查看完整內容

強化學習 · 無模型強化學習 · 深度強化學習 ·

2021 年 3 月 13 日

[付費5元查看完整內容]無模型強化學習研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelＧbasedReinforcementLearＧ ning)和無模型強化學習(ModelＧfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.

付費5元查看完整內容

機器學習 · 安全隱私 · 模型安全 ·

2020 年 11 月 12 日

[付費5元查看完整內容]機器學習模型安全與隱私研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大數據時代下，深度學習、強化學習以及分布式學習等理論和技術取得的突破性進展，為機器學習提供了數據和算法層面的強有力支撐，同時促進了機器學習的規模化和產業化發展.然而，盡管機器學習模型在現實應用中有著出色的表現，但其本身仍然面臨著諸多的安全威脅.機器學習在數據層、模型層以及應用層面臨的安全和隱私威脅呈現出多樣性、隱蔽性和動態演化的特點.機器學習的安全和隱私問題吸引了學術界和工業界的廣泛關注，一大批學者分別從攻擊和防御的角度對模型的安全和隱私問題進行了深入的研究，并且提出了一系列的攻防方法. 在本綜述中，我們回顧了機器學習的安全和隱私問題，并對現有的研究工作進行了系統的總結和科學的歸納，同時明確了當前研究的優勢和不足. 最后，我們探討了機器學習模型安全與隱私保護研究當前所面臨的挑戰以及未來潛在的研究方向，旨在為后續學者進一步推動機器學習模型安全與隱私保護研究的發展和應用提供指導.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1

付費5元查看完整內容

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。

付費5元查看完整內容

生成對抗網絡 · 模仿學習 · 華為諾亞方舟實驗室 · 強化學習 · 郝建業 ·

2020 年 2 月 1 日

[付費5元查看完整內容]基于生成對抗網絡的模仿學習綜述, 蘇州大學，計算機學報

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

簡介：

模仿學習研究如何從專家的決策數據中進行學習,以得到接近專家的決策模型。同樣學習如何決策的強化學習往往只根據環境的滯后反饋進行學習。與之相比,模仿學習能從決策數據中獲得更為直接的反饋。它可以分為行為克隆、基于逆向強化學習的模仿學習兩類方法。基于逆向強化學習的模仿學習把模仿學習的過程分解成逆向強化學習和強化學習兩個子過程,并反復迭代。逆向強化學習用于推導符合專家決策數據的獎賞函數,而強化學習基于該獎賞函數學習策略。基于生成對抗網絡的模仿學習方法從基于逆向強化學習的模仿學習發展而來,其中最早出現且最具代表性的是生成對抗模仿學習方法(Generative Adversarial Imitation Learning,簡稱GAIL)。生成對抗網絡由兩個相對抗的神經網絡構成,分別為判別器和生成器。GAIL的特點是用生成對抗網絡框架求解模仿學習問題,其中,判別器的訓練過程可類比獎賞函數的學習過程,生成器的訓練過程可類比策略的學習過程。與傳統模仿學習方法相比,GAIL具有更好的魯棒性、表征能力和計算效率。因此,它能夠處理復雜的大規模問題,并可拓展到實際應用中。然而,GAIL存在著模態崩塌、環境交互樣本利用效率低等問題。最近,新的研究工作利用生成對抗網絡技術和強化學習技術等分別對這些問題進行改進,并在觀察機制、多智能體系統等方面對GAIL進行了拓展。本文綜述了這些有代表性的工作,并探討這類算法未來的發展趨勢,最后進行了總結。

作者簡介：

郝建業博士，現任天津大學智能與計算學部-軟件學院副教授，博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士，麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士后研究員。

郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10余項, 與國際上多個頂尖科研團隊（包括麻省理工學院 (MIT), 帝國理工學院，CMU, 香港中文大學，代爾夫特理工大學，新加坡國立大學，南洋理工大學等）具有良好的長期合作關系, 并取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗，目前已在多智能體系統、人工智能、軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70余篇，專著2部。

付費5元查看完整內容