99视频在线播放喷射,国产精品午夜无码AV天美,亚洲国产高清精品一区一级,欧洲一级欧美三级在线观看

摘要：智能博弈領域已逐漸成為當前 AI 研究的熱點之一，游戲 AI 領域、智能兵棋領域都在近年取得了一系列的研究突破。但是，游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國內外整體研究進展，詳細剖析智能作戰推演的主要屬性需求，并結合當前最新的強化學習發展概況進行闡述。從智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點 3 個維度綜合分析游戲 AI 發展為智能作戰推演的可行性，最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發展現狀并提供有價值的研究思路。

關鍵詞：智能博弈；游戲 AI；智能作戰推演；智能兵棋；深度強化學習

0 引言

以2016年AlphaGo的成功研發為起點，對智能博弈領域的研究獲得突飛猛進的進展。2016年之前，對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年，受AlphaGo的啟發，研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展，很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時，在智能作戰推演領域，不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主，同時以基于事件驅動的機制進行推演[3-4]。然而，隨著近些年國內外在各種棋類、策略類游戲領域取得新突破，智能作戰推演的發展迎來了新的機遇[5]。

國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績，可以擊敗97%的玩家，并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6]，如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技（深圳）有限公司打造了游戲AI平臺“Delta”，集成機器學習、強化學習、大系統工程等技術，通過將AI與游戲場景結合，提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司，準備在游戲AI領域發力。除了游戲AI領域，國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統，并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10]，并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外，由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺，也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年，國內舉辦了4次大型智能兵棋推演比賽，這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注，胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異，分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演，取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統，對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究，取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法，對于智能博弈中的態勢認知研究具有重要參考價值[22]。

總體來說，國內在智能博弈領域進行了一系列的研究，嘗試將該技術應用到作戰推演領域，建立了具有自主產權的博弈平臺，技術層面也不斷突破，不再局限于傳統的行為決策樹、專家知識庫等，開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈，取得了一系列的關鍵技術的突破。但是，當前的研究主要聚焦在比較簡單的智能博弈環境，對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。

國外游戲 AI 領域則取得了一系列突出成果，尤其是深度強化學習技術的不斷發展，游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章，認為深度強化學習可以實現人類水平的控制[24]。2017年，DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25]，擊敗了圍棋世界冠軍李世石。此后，基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下，經過短時間的訓練就擊敗了AlphaGo。2019年， DeepMind 團隊基于多智能體（agent）深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平，并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28]， Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下，通過自我觀察掌握圍棋、國際象棋、將棋和雅達利（Atari）游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲：紅龍》（Wargame：Red Dragon），同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究，利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果，并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理，并將其應用到軍事訓練及軍事演習[34-35]。

但就目前而言，國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域，但是就目前發表的論文和報告來看，國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決，現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是，隨著未來計算機硬件的發展和機器學習技術的完善，作戰推演 AI 會迎來一波革命式的發展，給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景，進而引出作戰推演的技術需求，并給出當前可參考的主流及小眾技術思路。同時，對可能出現的技術難點進行了分析并給出解決方案建議。最后，對作戰推演的未來發展提出建議。

1 智能作戰推演主要屬性需求

1.1 狀態空間

狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現，是深度強化學習進行訓練的基礎。在圍棋中，狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中，狀態空間是每一幀、每個單位可能有的狀態，如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中，狀態空間主要是每個作戰單元實體的狀態信息，是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的，可觀察空間主要是每個 agent 可以觀察到的狀態信息，是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜，具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。

1.2 動作空間設計

動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說，動作空間為361個，是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說，動作空間主要是玩家控制一個“英雄”進行的一系列操作，玩家平均水平是每秒可以進行一個動作，但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項，包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技（multiplayer online battle arena，MOBA）游戲的動作空間可以達到1060 000+。假設游戲時長為45 min，每秒30幀，共計81 000幀，AI每4幀進行一次操作，共計20 250次操作，這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000，但考慮到其中大部分是不可執行的（例如使用一個尚處于冷卻狀態的技能），平均的可執行動作數約為1 000，即動作空間[37]。因此，操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說，因為需要控制大量的作戰單元和建筑單元，動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說，需要對每個作戰單元進行大量精細的控制。在作戰推演中，每個作戰單元實際都包括大量的具體執行動作，以作戰飛機為例，應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此，實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出，對于作戰推演來說，龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策，根據戰略決策構建一系列綁定的宏函數，進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度，同時也方便高效訓練，但是實際問題是訓練出來的 AI 總體缺乏靈活性，過于僵化。

對于動作空間，還需要考慮其是離散的還是連續的，Atari和圍棋這類游戲動作都是離散動作空間[25,39-40]，《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作，可以考慮基于值函數的強化學習進行訓練，而對于連續動作，可以考慮利用基于策略函數的強化學習進行訓練。同時，離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演，即把回合制轉化為固定的時間表達。同時對于連續動作，也可以在固定節點提取對應的動作，然后將其轉化為離散動作。

1.3 決策空間構建

智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前，每個選手要進行任務規劃，這個任務規劃是開始推演前的整體戰略部署，例如分配導彈打擊目標，規劃艦艇、戰斗機活動的大致區域，以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后，推演階段即自主執行所制定的宏觀戰略決策。同時，在推演過程中也可以進行微觀具體動作的干預，這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策，首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中，針對大型對抗想定，計算機基本需要每秒進行數百個決策，一局想定推演中雙方博弈決策空間數量預估為 1080+個，而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略（real-time strategy，RTS）游戲，決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案，現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決，根據具體對抗態勢進行宏觀戰略決策的選擇，然后根據不同的決策再分別執行對應的微觀具體動作，這樣可以有效降低智能決策數量，明顯提高智能決策的執行效率。

1.4 勝利條件設置

博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同，圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲，不管過程如何，只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易，在回報值設置中給予最終獎勵更高的回報值，總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲，甚至實際作戰推演來說，獲勝條件更加復雜，目標更多。比如，有時可能需要考慮在我方損失最低的情況下實現作戰目標，而有時則需要不計代價地快速實現作戰目標，這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值，而需要根據真實演習數據構建獎賞函數，通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。

1.5 回報值設置

博弈對抗過程中最核心的環節是設置回報值，合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲，可以按照固定的條件設置明確的回報值，例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長，在整局對抗過程中，如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題，即回報值稀疏問題。為了解決這個難題，現有的解決方案都是在對抗過程中設置許多細節條件，如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗，可以設置坦克擊毀對手、占領奪控點即可獲得回報值，如果被打擊、失去奪控點等則會損失回報值，甚至為了加快收斂防止算子長期不能達到有效地點，會在每步（step）都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36]，從資源、KDA（殺人率（kill，K），死亡率（death，D），支援率（assista， A））、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是，對于復雜的作戰推演來說，設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣，需要利用逆強化學習[41-42]，通過以往的作戰數據反向構建獎賞函數。

1.6 戰爭迷霧

戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況，我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題，但是情況更加復雜。在實際作戰推演中，可以考慮利用不完全信息博弈解決這個問題，已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29]，但是在實際作戰推演中這一問題還需要進一步探討研究。

1.7 觀察信息

這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分，觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息，是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題，因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思，一個層面是屏幕限制的區域更易于獲取態勢信息，因為玩家更直觀的注意力在屏幕局域，部分注意力在小地圖局域。為了更加符合實際， AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制，從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因，即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取，對于不能獲取的態勢信息則只能評估預測，而這一部分則涉及對手建模部分，主要利用部分可觀察馬爾可夫決策過程（partially observable Markov decision process，POMDP）[43]，這一技術明顯難于完全信息博弈。而對于圍棋游戲來說，其中的態勢信息是完全可獲取的，屬于完全信息博弈，態勢信息即觀察信息。并且圍棋游戲屬于回合制，相對于即時策略游戲，其有更加充分的獲取態勢信息的時間。因此，則可以利用蒙特卡洛樹搜索（Monte Carlo tree search，MCTS）算法對所獲取的圍棋游戲中的觀察信息進行詳細分析，計算出所有可能的結果，進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息，其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似，其主要以小地圖的宏觀信息進行訓練，然后以此為基礎為戰略方案提供支持，如游戲中的“英雄”是去野區發育還是去中路對抗。同時，對主屏幕態勢信息進行特征提取，結合強化學習訓練，可以得出戰術層面的方案和建議，是去選擇回塔防御還是進草叢躲避，或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演，在作戰信息獲取各個方面都高度模擬了作戰推演的場景，需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息，這部分可觀察信息非常復雜，需要結合各種情況才能發現部分目標，對于戰爭迷霧更加真實。因此，作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模，但還需要設置各種更加符合真實裝備的作戰情況，需要在環境中提前設置有針對性的條件。

1.8 對手建模

在博弈對抗過程中對手 AI 的建模也是至關重要的，不同水平的AI會導致博弈對抗的勝率不同，并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低，就不能逼真地模擬假設對手，博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中，AI性能已經可以擊敗職業選手，通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作，研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上，積分排名前三名的均是AI選手，勝率均在80%以上[11]。但是，現有對手建模主要還是聚焦在一對一的對手建模，很少學者研究多方博弈，而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈，如在《墨子?未來指揮官系統》的海峽大潮想定中，紅方不僅面對藍方，還有綠方，藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。

1.9 想定設計

博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中，想定是永久固定不變的，而且也完全沒有環境的影響，因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響，《覺悟AI》嘗試利用強化學習技術，結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響，不僅作戰單元會產生變化，并且在不同的作戰推演中，不同的環境之中也會有不同的地形、地貌，這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲：紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度，否則會產生擱淺，不能在理想區域登陸會對作戰目標產生較大負面影響。因此，對于實際作戰推演來說，最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的，傳統的基于規則的AI就很難適應變化的想定，早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型，導致只在某個想定會有較好的AI智能性，假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題，現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性，并可以加速回報函數收斂，保證快速訓練出高水平的AI模型。

1.10 總體比較

本節針對智能作戰推演所需要的關鍵屬性，結合當前游戲AI、智能兵棋等相關博弈平臺，利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析，經過對比不難發現游戲 AI 過渡到智能兵棋，甚至是智能作戰推演的難度，各個關鍵屬性也是未來需要研究突破的關鍵點，具體見表1。

付費5元查看完整內容

0 引言

1 智能作戰推演主要屬性需求

1.1 狀態空間

1.2 動作空間設計

1.3 決策空間構建

1.4 勝利條件設置

1.5 回報值設置

1.6 戰爭迷霧

1.7 觀察信息

1.8 對手建模

1.9 想定設計

1.10 總體比較

2 作戰推演的智能決策核心技術思路

2.1 強化學習技術框架強化學習的核心思想是不斷地在環境中探索試錯，并通過得到的回報值來判定當前動作的好壞，從而訓練出高水平的智能AI[50]。馬爾可夫決策過程（Markov decision process，MDP）是強化學習的基礎模型，環境通過狀態與動作建模，描述agent與環境的交互過程。一般地，MDP可表示為四元組<S,A,R,T >[44]：

- S為有限狀態空間（state space），包含agent在環境中的所有狀態；
- A為有限動作空間（action space），包含agent在每個狀態上可以采取的所有動作；

agent從環境中感知當前狀態st，從動作空間A中選擇能夠獲取的動作at；執行at后，環境給agent相應的獎賞信號反饋 rt+1，環境以一定概率轉移到新的狀態st+1，等待agent做出下一步決策。在與環境的交互過程中，agent有兩處不確定性，一處是在狀態 s 處選擇什么樣的動作，用策略π(a|s)表示agent的某個策略；另一處則是環境本身產生的狀態轉移概率Pass′，強化學習的目標是找到一個最優策略π*，使得它在任意狀態s和任意時間步驟t都能夠獲得最大的長期累計獎賞，即：

2.2 強化學習主流算法

2.2.1 基于值函數的強化學習

強化學習早期利用Q-learning算法來建立游戲AI，通過預先設計每步動作可以獲得的回報值來采取動作。Q-learning 最大的局限是需要提前設計好所有執行動作的回報值，它用一張Q表來保存所有的Q值，當動作空間巨大時，該算法難以適應。因此，Q-learning 算法只能在比較簡單的環境中建模使用，如在簡單的迷宮問題中，讓 agent 通過Q-learning算法自動尋找出口。

DeepMind在2015年第一次利用DQN（deep Q network）算法在Atari游戲環境中實現了高水平的智能AI，該AI綜合評定達到了人類專業玩家的水平[24]。這也使得DQN算法成為強化學習的經典算法。DQN算法通過神經網絡擬合Q值，通過訓練不斷調整神經網絡中的權重，獲得精準的預測 Q值，并通過最大的Q值進行動作選擇。DQN算法有效地解決了Q-learning算法中存儲的Q值有限的問題，可以解決大量的離散動作估值問題，并且DQN算法主要使用經驗回放機制（experience replay），即將每次和環境交互得到的獎勵與狀態更新情況都保存起來，用于后面的Q值更新，從而明顯增強了算法的適應性。DQN由于對價值函數做了近似表示，因此強化學習算法有了解決大規模強化學習問題的能力。但是 DQN 算法主要被應用于離散的動作空間，且DQN算法的訓練不一定能保證Q值網絡收斂，這就會導致在狀態比較復雜的情況下，訓練出的模型效果很差。在 DQN 算法的基礎上，衍生出了一系列新的改進 DQN 算法，如 DDQN （double DQN ）算法[51]、優先級經驗回放 DQN （prioritized experience replay DQN）算法[52]、競爭構架Q網絡（dueling DQN）算法[53]等。這些算法主要是在改進Q網絡過擬合、改進經驗回放中的采樣機制、改進目標Q值計算等方面提升傳統DQN算法網絡的性能。總體來說，DQN系列強化學習算法都屬于基于值函數的強化學習算法類型。基于值函數的強化學習算法主要存在 3點不足：對連續動作的處理能力不足、對受限狀態下的問題處理能力不足、無法解決隨機策略問題。由于這些原因，基于值函數的強化學習方法不能適用所有的場景，因此需要新的方法解決上述問題，例如基于策略的強化學習方法。

2.2.2 基于策略的強化學習

在基于值函數的強化學習方法中，主要是對價值函數進行了近似表示，引入了一個動作價值函數q，這個函數由參數w描述，以狀態s與動作a為輸入，計算后得到近似的動作價值，即式（4）：

在基于策略的強化學習方法中，主要采用類似的思路，只不過主要對策略進行近似表示。此時，策略可以被描述為一個包含參數θ的函數，θ主要為神經網絡中的權重，即式（5）：

在基于策略的強化學習方法中，比較經典的就是理查德·薩頓（Richard S.Sutton）在2000年提出的 AC（actor-critic）框架強化學習算法。AC 包括兩部分：演員（actor）和評價者（critic）。其中actor使用策略函數負責生成動作（action），通過動作與環境進行交互。而critic使用第2.2.1節提到的價值函數來評估actor的表現，并指導actor下一階段的動作。總體來說，critic 通過 Q 網絡計算狀態的最優價值Vt，而actor利用Vt迭代更新策略函數的參數，進而選擇動作，并得到反饋和新的狀態， critic 使用反饋和新的狀態更新 Q 網絡參數 w，在后面critic會使用新的網絡參數w幫助actor計算狀態的最優價值Vt。

2016 年 DeepMind 在國際機器學習大會（International Conference on Machine Learning）提出了A3C算法[54]。之前的DQN算法為了方便收斂使用了經驗回放的技巧；AC 也可以使用經驗回放的技巧。A3C更進一步，還克服了一些經驗回放的問題，主要采取隨機性策略[55]。這里確定性策略和隨機性策略是相對而言的，對于某一些動作集合來說，它可能是連續值，或者非常高維的離散值，這導致動作的空間維度極大。如果使用隨機性策略，即像DQN算法一樣研究它所有的可能動作的概率，并計算各個可能動作的價值，那需要的樣本量是非常大的。于是DeepMind就想出使用確定性策略來簡化這個問題[56]。作為深度確定性策略梯度（deep deterministic policy gradient）、critic目標網絡和深度雙Q網絡（double DQN ）的當前Q網絡，目標Q網絡的功能定位基本類似，但是DDPG有自己的actor策略網絡，因此不需要貪婪法這樣的選擇方法，這部分DDQN的功能到了DDPG可以在actor當前網絡完成。而對經驗回放池中采樣的下一狀態s'使用貪婪法選擇動作a'，這部分工作的作用是估計目標 Q 值，因此可以放到 actor 目標網絡完成。

此外，actor當前網絡也會基于critic目標網絡計算出的目標Q值進行網絡參數的更新，并定期將網絡參數復制到 actor 目標網絡。DDPG 參考了DDQN的算法思想，通過雙網絡和經驗回放，以及一些其他的優化，比較好地解決了AC難收斂的問題。因此在實際產品中尤其是與自動化相關的產品中使用得比較多，是一個比較成熟的AC算法。2017年， Open AI在神經信息處理系統大會（Conference and Workshop on Neural Information Processing Systems）上又提出了改進的多 agent 深度確定性策略梯度（multi-agent deep deterministic policy gradient）算法[57]，把強化學習算法進一步推廣應用到多agent環境。在AC框架下，比較經典的算法還有近端策略優化（proximal policy optimization）算法[58]、柔性演員-評論家（soft actor-critic）算法[59]、雙延遲深度確定性策略梯度（twin delayed deep deterministic policy gradient）算法[60]等，這些算法也都是在樣本提取效率、探索能力增強方面進一步改進優化AC框架的。

2.3 深度學習結合強化學習

在現有策略對抗游戲中利用深度學習技術結合強化學習來實現游戲AI已成為主流研究方向[52]。其主要思路為在游戲對抗過程中利用圖像特征的卷積提取技術。如在《覺悟AI》中，圖像特征的提取采取了分層的思想，在主視野和小地圖中，對不同種類的要素進行提取并合并到一個層中，最終每層都提取到一類關鍵屬性節點信息，形成“英雄”“野怪”“小兵”位置矩陣[6]。最終將多尺度特征的信息融合形成全局態勢特征信息，這一工作同樣應用在AlphaStar中。對于作戰推演來說，態勢理解一直是研究的難點，那么考慮利用深度學習技術來實現態勢圖像特征的提取，進而最終輸出態勢圖的關鍵信息將是解決方案之一。此外，筆者所在團隊也嘗試利用深度學習技術對態勢信息進行卷積提取，然后將提取信息與語義模型結合，生成當前態勢的直觀文本語義。而在前端利用強化學習進行實體單元控制，這樣就可以將強化學習、深度學習、自然語言處理融合，在推演過程中實時生成方便人類理解的智能決策文本語義信息，這一工作對于實現推演系統中的人機融合具有積極意義。

2.4 分層強化學習

智能博弈對抗的建模過程面臨兩個難題，一個是動作空間龐大，另一個是獎勵稀疏問題。面對這兩個問題，有研究人員提出了分層強化學習的解決思路。該思路的核心是對動作進行分層，將低層級（low-level）動作組成高層級（high-level）動作，這樣搜索空間就會被減小[52]。同時基于分層的思想，在一個預訓練的環境中學習有用的技能，這些技能是通用的，與要解決的對抗任務的關系不太緊密。學習一個高層的控制策略能夠使 agent 根據狀態調用技能，并且該方法能夠很好地解決探索效率較低的問題，該方法已在一系列稀疏獎勵的任務中表現出色[61-62]。《覺悟 AI》同樣設計了分層強化學習的動作標簽來控制“英雄”的微觀操作。具體來說，每個標簽由兩個層級（或子標簽）組成，它們表示一級和二級操作。第一個動作，即一級動作，表示要采取的動作，包括移動、普通攻擊、一技能、二技能、三技能、回血、回城等。第二個是二級動作，它告訴玩家如何根據動作類型具體地執行動作。例如，如果第一個層級是移動動作，那么第二個層級就是選擇一個二維坐標來選擇移動的方向；當第一個層級為普通攻擊時，第二個層級將成為選擇攻擊目標；如果第一個層級是一技能（或二技能、三技能），那么第二個層級將針對不同技能選擇釋放技能的類型、目標和區域。這對于作戰推演中不同算子如何執行動作也具有參考價值，每一個類型的算子同樣存在不同的動作，例如坦克可以選擇直瞄射擊、間瞄射擊、移動方向等，實際作戰推演不同裝備同樣具有眾多復雜的動作，通過這樣的特征和標簽設計，可以將人工智能建模任務作為一個層次化的多類分類問題來完成。具體來說，一個深層次的神經網絡模型被訓練以預測在給定的情境下要采取的行動。作戰推演也可以參考層次化的動作標簽來不斷細化動作執行過程，進而訓練解決復雜的動作執行難題。在作戰推演中完全可以借鑒這種思路設計適用于作戰場景的分層強化學習框架。南京大學的研究人員利用分層強化學習建立宏觀策略模型和微觀策略模型，根據具體的態勢評估宏觀策略模型，然后利用宏函數批量綁定選擇微觀動作，這樣可以在不同的局勢下選擇對應的一系列動作，進而實現了分層強化學習在《星際爭霸》環境中的應用[63]。分層強化學習比較通用的框架是兩層，頂層策略被稱為元控制器（meta-controller），負責生成總體宏觀目標，底層策略被稱為控制器（controller），負責完成給定的子目標，這種機制本質也對應作戰推演中的戰略、戰役、戰術3個層次，不同層次關注的作戰目標各有不同，但又互相關聯。其他相關改進是學者在獎賞函數設置、增加分層結構、保持分層同步、提高采樣效率等方面改進分層強化學習[64]。

2.5 多agent強化學習

在游戲博弈對抗過程中必然需要考慮多 agent建模，而在作戰推演中利用多 agent 技術實現不同作戰單元的協同合作也是博弈智能研究的重點之一。在這方面OpenAI和AlphaStar在多agent深度強化學習方面使用了不同的技術思路。OpenAI 使用的是分布異構的多agent建模思路，每一個agent都有一個相同的訓練神經網絡，但是沒有全局控制網絡[37,47]。AlphaStar則是使用了一個集中的控制網絡對不同的單元進行控制。還有一種思路是對于每一個agent，都建立屬于各自的神經網絡進行訓練。第三種思路是最理想的，但是訓練過程復雜，也難以適用于大規模的推演過程[43]。對于實際作戰推演來說，除了要考慮多 agent 建模方法，還需要讓每個 agent 具有柔性加入的能力，在對抗過程中可以按照需要隨時加入所需要的作戰單元，而不需要每次加入作戰單元后，再重新訓練一遍網絡。基于此考慮，讓每一個 agent 具有自己獨立的神經網絡將是更好的選擇。

2.6 LSTM技術結合深度強化學習

《覺悟 AI》在設計過程中利用深度學習不斷提取游戲界面的態勢信息。利用深度學習雖然可以把一個對抗界面的所有特征提取出來，但是提取的是靜態的某一幀的界面信息，并沒有把時間步之間的信息關聯起來。時間步一般指一幀，也可以指多幀，其關鍵是將歷史的幀信息和現在的信息關聯起來。基于此，需要引入長短期記憶（long short-term memory，LSTM）網絡。讓 LSTM 一次接收多個時間步信息來學習這些時間步之間的關聯信息，從而讓 LSTM 幫助“英雄”學習技能組合，并選擇“英雄”應該關注的主視野和小地圖的具體方面，進而綜合輸出合理的動作，也通過 LSTM 關聯歷史數據來訓練強化學習的神經網絡模型[65]。在實際作戰推演過程中同樣需要考慮這種情況，防止出現訓練的AI為了某個戰術目標而忽視了整體戰略目標。

2.7 多屬性決策結合強化學習

強化學習的回報值往往根據專家經驗手工設置，但是這種手工設置的回報值的收斂性及智能性均難以保證，并且長時間訓練才能評估設置的回報值的效果。因此可以考慮結合推演數據，結合多屬性決策方法進行客觀分析，總結提煉出合適的回報值。首先，從推演環境中獲取各關鍵屬性數據，如在陸戰對抗環境提取作戰單元位置、高程、類型、射程屬性、打擊屬性、裝甲屬性等。以這些屬性數據為基礎，計算出對應的評估指標，如目標距離威脅、目標攻擊威脅、目標速度威脅等，通過熵權法計算相應權重，并最終結合多屬性方法對敵方威脅度進行排序，將其和強化學習的回報值函數進行關聯，進而設置出更加客觀合理的回報值函數，這樣有利于提高強化學習訓練的智能性，并有利于加快收斂。

作戰推演技術難點及技術解決方案

3.1 冷啟動問題

在對強化學習的訓練過程中，研究人員總是會遇到訓練過程時間長、難以收斂的問題，這種情況通常被稱為冷啟動問題。針對這個問題，現有研究人員提出了多種解決方案，比較有效的解決方案是利用專家的領域知識預先設計固定的先驗知識，利用先驗知識進行智能博弈訓練，進而在強化學習的經驗存儲中得到高水平的訓練數據。在強化學習的后期訓練中直接利用這些先驗知識對抗出來的經驗數據進行模型訓練，從而可以有效縮小探索空間和動作空間，進而保證強化學習可以快速訓練出高水平的AI，避免了前期盲目探索的情況。在實際作戰推演過程中，也可以考慮使用高水平指揮員的先驗知識，提前進行形式化存儲，進而在強化學習訓練過程中導入先驗知識，加快訓練結果的收斂，得到較高水平的智能AI。

3.2 過擬合問題

在智能博弈對抗過程中經常會出現訓練一定階段后陷入局部最優結果的情況。表現為在智能兵棋比賽中，經過長時間訓練后，強化學習訓練出的結果是控制算子進行固定的線路和射擊套路，這種情況可被稱為過擬合現象。為了避免這種情況的出現，應該在算法設計中加入隨機可能性，在一定比例的動作選擇概率下隨機探索，而不是完全按照強化學習算法給出的結果進行執行。其次，按照貝爾曼方程，應該在獎勵函數設計過程中，考慮當前影響和未來影響的可變比重，即回報函數設計包括一定的可變性，而不是固定不變的。當然也可以利用強大的計算力，生成大量新的對手，從不同方面與需要訓練的 agent 進行對抗，從而避免因為固定對手而導致的過擬合現象。

4.3 想定適應性問題

智能博弈的 AI 建模普遍存在適應性不高的問題，有部分研究人員開發的 AI 是針對某個固定想定開發的，導致更換博弈想定后AI性能大幅下降。考慮到大部分數據或任務是存在相關性的，通過遷移學習可以將已經學到的模型參數通過某種方式分享給新模型，從而加快優化模型效率。中國科學院自動化研究所的研究人員引入了課程遷移學習，將強化學習模型擴展到各種不同博弈場景，并且提升了采樣效率[81]。DeepMind 在 AlphaZero 中使用同樣的算法設置、網絡架構和超參數，得到了一種適用于圍棋、國際象棋和將棋的通用算法，并戰勝了基于其他技術的棋類游戲AI[82]。《覺悟AI》引入了課程學習方法，將訓練至符合要求的參數遷移至同一個神經網絡再次訓練、迭代、修正以提高效率，使《覺悟AI》模型能熟練掌握40多個“英雄”[6,36]。在作戰推演中，更需要這種適用性強的通用 AI 算法，不需要在更換作戰想定后重新訓練模型，也只有這樣才可以更加適應實時性要求極高的作戰場景。

4.4 智能藍方建模

對手建模指在兩個 agent 博弈的環境中，為了獲得更高的收益，需要對對手的策略進行建模，利用模型（隱式）推斷其所采取的策略來輔助決策。智能藍方建模主要是在具有戰爭迷霧的情況下，對對手進行建模，并預測對手的未來動作。其前提通常是博弈環境存在戰爭迷霧，我方在無法獲取準確的對手信息的情況下，針對對方進行預測評估。在對抗過程中，一種假設是對手是完全理性的，對對手（隊友）進行建模是為了尋找博弈中的納什均衡策略。為了解決這一難點問題，阿爾伯塔大學的研究人員提出了反事實遺憾最小化（counterfactual regret minimization，CFR）技術，該技術不再需要一次性推理一棵完整的博弈樹，而是允許從博弈的當前狀態使用啟發式搜索。另外，對手建模可分為隱式建模和顯式建模。通常隱式建模直接將對手信息作為自身博弈模型的一部分來處理對手信息缺失的問題，通過最大化agent期望回報的方式將對手的決策行為隱式引進自身模型，構成隱式建模方法。顯式建模則直接根據觀測到的對手歷史行為數據進行推理優化，通過模型擬合對手行為策略，掌握對手意圖，降低對手信息缺失帶來的影響[83]。總體來說，對手建模技術是智能博弈對抗是否有效的關鍵，只有建立一個可以高效預估對手行為的模型，才能保證智能博弈AI的有效性。

4.5 路徑規劃問題

路徑規劃作為智能博弈中的重要組成部分，其主要任務是根據不同的想定，針對每個單元在起始點和終止點之間快速規劃一條由多個路徑點依次連接而成的最優路徑[84]。在智能博弈的背景下，最優路徑的含義不僅僅是兩點之間的距離最短，而是綜合考慮博弈態勢、資源情況和綜合威脅后的最佳路徑。但是，已有的路徑規劃算法主要以A-Star算法、Dijkstra算法、D算法、LPA算法、D* lite算法等為典型代表，在物流運輸、無人駕駛、航空航天等領域都取得了顯著成效。同時也有學者提出其他的路徑規劃算法，如基于神經網絡和人工勢場的協同博弈路徑規劃方法[85]等，但是在智能博弈的環境下，需要考慮的問題更加復雜，需要進一步對這些算法進行改進優化。

5 作戰推演未來發展建議

5.1 智能作戰推演通用框架

現有的游戲平臺中也有比較成熟的AI開發通用框架（如 pysc2[86-87]），但是相比成熟的作戰推演通用框架還有較大差距。智能作戰推演系統可以設計一個適用于復雜環境的通用框架，該框架包括作戰推演算子、地圖、規則、想定。同時最關鍵的是設計通用的算法接口，這些接口可以方便智能博弈算法的設計與實現，如環境加載接口、環境重置接口、環境渲染接口、動作隨機選擇接口、執行動作接口等。同時，也可以提前設計智能作戰推演的基本功能框架，包括地圖編輯模塊、想定編輯模塊、算子管理模塊、規則編輯模塊、推演設置模塊、數據分析模塊、系統配置模塊。其中最核心的是推演設置模塊可以自由選擇每局推演使用的智能算法，從而實現智能算法設計和作戰推演環境開發的解耦，這樣才可以保證智能作戰推演的靈活適應性。通用框架中另一個重要的因素是可以提供AI使用的工具，例如對于深度學習的分層態勢顯示，可以直觀地提供一個通用接口進行展現，方便指揮人員快速調用該接口實現智能算法的輔助決策功能。

5.2 智能戰略、戰役、戰術決策方案制定

智能作戰推演必然面對的問題是選擇在戰略、戰役還是戰術場景下應用。現階段主要還是在戰術層面進行智能算法的研究，包括國內的某智能兵棋推演大賽，各種想定只有算子數量種類的差別，但本質上都還屬于戰術智能決策。《墨子?未來指揮官系統》中的對抗想定更接近于戰役層面的智能決策方案，現階段對戰略層面的智能決策的研究還比較少。其原因就在于面臨的想定越宏觀，智能決策的技術挑戰越大，包括動作空間、狀態空間的變化以及現階段 agent 之間的協同交互還并沒有很成熟。因此，當前考慮戰術層面的智能決策更容易。如果要解決戰略層面的智能決策，必然需要研究各agent之間的協同機制，還要考慮作戰的后勤支持機制。然而當前尚未有游戲、作戰推演在智能推演中考慮后勤機制的影響。另外，戰術、戰役、戰略層面的方案制定技術思路也并不相同，有的研究以各agent獨自訓練、交互，進而涌現出智能決策方案。這一技術思路更加逼近真實場景，但是算力要求和技術實現難度都較高。另一思路是建立統一的宏觀agent 模型，利用宏觀 agent 控制所有算子進行推演，這一技術思路實現比較簡單，所需的算力也較低，可以考慮將其作為初期實現的路徑之一。

5.3 人機融合的智能作戰推演模式建立

智能作戰推演的未來趨勢主要分為人不在環和人在環兩種類型。人不在環主要類似于AlphaStar、OpenAI 的游戲智能，通過預先訓練完成agent，完全由訓練好的agent自主進行博弈對抗，左右互搏，實現方案的預演和推測。人在環的模式又分為兩種，一種是實現人機對抗，國內已有這方面的比賽，通過開發訓練好的智能算法 agent 與高水平指揮人員進行對抗，探測發現自身指揮問題并不斷提高，可用于指揮人員訓練場景。另一種人在環更加困難，即 agent 可以響應人的指令，并完成低層次的規劃任務。主要還是由指揮人員進行整體戰略宏觀判斷，并通過指令交互部署 agent 完成低層次任務，最后總體實現戰略目標。同時，也需要對人機融合模式的框架進行探索，如將人類領域知識引入智能算法中，幫助智能算法更高效地實現智能作戰推演。

5.4 開放性的仿真實驗平臺建立

隨著智能博弈的興起，國內外高校、研究所、企業都已逐漸開發完成各種類型的智能博弈平臺。但是不同平臺之間并不互通，相互獨立，形成了各個平臺的信息孤島，在智能算法開發的過程中，面對新的平臺就需要研究人員重新學習適應新的平臺接口和架構，這浪費了研究人員大部分精力。另外，智能博弈的強化學習接口以及其他算法雖然在不同平臺體現不同，但本質都一樣，很有必要構建一個通用一體化智能博弈平臺框架，減少不斷重新開發、學習的過程，提高智能博弈平臺的研究效率也勢在必行。

6 結束語

本文構建并梳理了智能作戰推演的國內外發展概況，詳細介紹了智能作戰推演所需要的各項技術難點及國內外進展，同時借鑒游戲 AI 領域的發展現狀并將其與智能作戰推演所需要的技術需求進行對比，分析現有技術還需要改進和優化的方向，也對智能作戰推演的各個研究方向進行了歸納。可以為從事游戲AI、智能兵棋、智能作戰推演等智能博弈領域的研究人員提供一定的思路。當前智能博弈的研究思路還主要以深度強化學習為基礎，但絕不僅僅是深度強化學習技術，各種傳統的智能算法和新的機器學習算法都可以作為智能博弈領域補充完善的技術力量。本文以作戰推演技術需求為牽引，結合國內外游戲AI、兵棋推演相關實際發展情況，總結出雖然智能博弈依然還有很多難題需要解決，現有技術實現程度相比于實際應用還有較大差距，但智能博弈這一研究方向是未來智能決策研究發展的必由之路，相信最終會在各個相關領域得以實現。

參考文獻

[1] 沈宇, 韓金朋, 李靈犀, 等. 游戲智能中的 AI: 從多角色博弈到平行博弈[J]. 智能科學與技術學報, 2020, 2(3): 205-213. [2] 胡曉峰, 賀筱媛, 陶九陽. AlphaGo 的突破與兵棋推演的挑戰[J]. 科技導報, 2017, 35(21): 49-60. [3] 葉利民, 龔立, 劉忠. 兵棋推演系統設計與建模研究[J]. 計算機與數字工程, 2011, 39(12): 58-61. [4] 譚鑫. 基于規則的計算機兵棋系統技術研究[D]. 長沙: 國防科學技術大學, 2010.

付費5元查看完整內容

AI與軍事 · 強化學習 · 多智能體協同 · 戰略機動策略 · 美國陸軍研究實驗室（ARL） ·

2022 年 6 月 23 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在未來的軍事行動中，通過協調多智能體系統（MAS）來實施戰略機動以獲得對對手的優勢，是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施，以及通過多智能體強化學習（RL）來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為，這有可能抑制對抗性協作，反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域（如陸地、海洋、空中、網絡、電磁和空間）對美國構成的威脅所推動的，這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行，人工智能（AI）將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程（TTPs）。這些機器人將聚集在一起，形成智能多Agent團隊，與人類士兵有效協作，完成任務。

美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的基本研究計劃（ERPs）構建了開發和實施智能多Agent系統（MAS）的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案，這些問題匯聚在一起，指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性（AIMM）和新興超限技術（EOT）是ERP的例子，明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃，并通過戰場上的自主機動（AIMM）和保護（EOT）向士兵提供支持。本報告重點關注需要進行的自主協作，以使多智能體系統（即人類、智能體或人類和智能體混合）在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步，重點是超越我們目前的能力，以有效地對付同等裝備的對手（同行或接近同行）的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動（OODA-Loop）。雖然新的努力促進了對多智能體范式中情報的一般理解，但目前對情報的解釋并不明確。最近的文獻表明，基于強化學習（RL）的方法可能為實現這種技術進步提供了一條可行的途徑，本文介紹的一系列工作就是證明。

在本報告中，介紹了RL領域的貢獻，以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作，以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外，協作的戰略機動可以通過各種RL方法學習，以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作，我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展（如alphago）促進了更復雜的多智能體強化學習（MARL）算法在現實世界應用。此外，近年來也有一些框架來實現多智能體協作。這些努力加在一起，可以為開發和實施多機器人協作提供一條道路，以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中，對近年來突出的RL方法進行了分類和概述，并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說，本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外，對選定的RL方法類別進行了分類，以深入了解戰略機動的潛在實施，并考慮到情報、監視、目標獲取和偵察（ISTAR）任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說，戰略機動可以解釋為一組智能體協調他們的行動，通過戰勝對手來實現一個共同的目標。破壞，是戰略機動的一個特例，可以表示為對對手協作戰略機動的抑制。因此，戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方，他們處于動態的斗爭中，通過限制、抑制或以其他方式破壞對手的協調或戰術，并強加自己的協作戰術來獲得對對方的優勢。

在本節中，提供了一個對抗性的交戰場景，其核心是使用選定的遠程資產，這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例，描述了與所述多域作戰（MDO）情景相關的選定資產和部隊的軍事符號學。根據MDO理論，在武裝沖突中，對手的遠程反介入和區域拒止（A2AD）火力系統可以被用來拒絕友軍在戰區的機動自由（見圖1）。這是通過將情報、監視和偵察（ISR）資產與致命性和非致命性火力相結合來實現的，以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產（如部隊和裝備）的傳統集結地（見圖2）。對手有能力在友軍后方深處識別和攻擊目標，導致這些實體在地理上與戰術支持區和近距離區分離，這有效地提高了友軍的損耗率，即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離，敵對勢力可以利用這種友軍孤立無援的情況，將其消滅。

圖1 友軍（BLUEFOR，左）和敵軍（OPFOR，右）部隊的資產和資源。在所描述的MDO情景中，假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍（OPFOR）使用遠程導彈和火箭炮干擾或破壞友軍（BLUEFOR）戰略支援區的維持行動，這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略，BLUEFOR執行反擊任務，以摧毀位于深火區的OPFOR遠程火力系統（藍色箭頭）。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術，它打破了對手的隊形和節奏。

圖3 壓制（S）或解除（N）敵方遠程火力系統和ISR資產，使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人，并使機動指揮官有能力利用他們的成功，迅速將部隊轉移到深度機動區，摧毀（D）脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定"，可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃（即對峙），以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰（即穿透和瓦解A2AD系統以利用機動自由）。在這里，我們只關注友軍（BLUEFOR）野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分，這可能需要在未來的戰斗中使用自主MAS。此外，據推測，圖1中友軍（BLUEFOR）和敵軍（OPFOR）的所有符號都將包含自主化的編隊（例如，機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產）。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示，敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視（未顯示）接收有針對性的情報，在狹窄的時間窗口內打擊高價值目標（即多管火箭系統[MLRS]），以減少對手的位置調整。除了監視之外，還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中，MARL可以通過利用敵軍理論和敵軍行動中的局部觀察，戰略性地照亮和跟蹤敵軍目標的位置。此外，經過MARL訓練的具有自主能力的編隊，結合高度機動和分散的空中和地面火力，可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP，進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅，戰略和作戰支援部隊能夠向前方的作戰部隊推進（機動）（見圖2）。

敵軍利用ISR資產識別作戰支援區的友軍資產，并從作戰縱深火力區用遠程火力系統（即多管火箭炮）攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力，這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外，這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論，為了消除對峙，友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制（C2）節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口，可以被機動指揮官所利用。在這種覆蓋下，友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區，近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊（即MAS），利用MARL訓練的策略來利用對手的TTP（來自理論）、本地觀察和ISR收集的信息。如圖2所示，聯合部隊將協調其ISR和遠程精確火力的能力，為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下，擁有自主能力的前線部隊可以在近距離和縱深地區進行協調，以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊（OPFOR），使遠程火力系統容易受到地面攻擊（瓦解），如圖2所示。

聯合火力（即友軍或BLUEFOR）壓制或消滅對手的遠程火力系統，使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊（見圖3）。然后，友軍機動部隊利用這一優勢，在深度機動區（見圖3中的D區）摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出，并在深層機動區域建立一個新的戰線。這個過程不斷重復，直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外，鑒于目前正在積極研究開發和部署這種自主系統，預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景；然而，在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試，或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中，我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講，RL是機器學習（ML）的一個分支，它超越了從數據中建立精確的預測，通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式，但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習（或訓練），最終確定在當前情況下（即該智能體在環境中的狀態），哪一個是智能體要選擇的最佳行動。例如，RL智能體可以與環境互動，產生與獎勵掛鉤的經驗，這將形成學習的策略（即一系列的狀態-行動對）。然而，在后面的章節中強調，目前的RL方法可能還不夠成熟，無法克服與人類類似的適應性相關的挑戰，以便在新情況或環境中進行智能決策。盡管RL算法有其缺點，但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中，協作通常是定義不清的，而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中，開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性，以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件，而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下，最佳行為可能是可取的，但如果任務以某種不可預見的方式發生了變化，一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此，未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分，描述了與開發戰略機動MAS有關的一些挑戰，其中時間尺度、能力和局部目標可能有很大的不同（例如，MDO），但需要某種程度的協作。此外，假設更大程度的靈活協作可以促進任務執行的改進（例如，更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成）。

隨著環境在動態戰場上的變化，敵對雙方（至少）可能需要重復規劃和預測，以便1）跟上，或2）領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外，如果學習智能體建立了一個關于對手協作行動的適當模型，然后采取行動破壞這種協作，也可以實現這一目標。

在一個理想的情況下，一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力（獲得新的能力或失去以前的能力）、團隊組成（例如，改變合作者）和局部目標的變化。然而，大多數最先進的（sota）方法受到經驗的限制（正如許多RL方法的情況一樣）。此外，在大多數模擬中，團隊的能力和組成通常是固定的，不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此，在選擇一種算法來指導旨在產生戰略機動的MAS的行為時，必須考慮新的或動態的事件、行為、資產和實體。

總之，目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1）數據要求，由于情況的新穎性，數據是有限的，數據集不足以產生準確的預測，或者數據以某種方式被污染（例如，嘈雜、臟亂或對手的改變），2）有限的計算資源，以及3）算法不能泛化到訓練期間遇到的情況之外（例如，不同的目標、改變的能力或修改的團隊組成），導致狹隘或脆弱的MAS解決方案。

在下一節中，我們將更詳細地討論RL的缺點，以闡明如何克服這些問題，為軍事防御MDO環境提供解決方案。為此，我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力，這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一，特別是因為這種任務可能需要大量的智能體來完成一個目標。此外，軍事任務可能涉及多個子任務，每個子任務都有自己的子目標，從而進一步復雜化了場景。在MDO中，預計一個子目標由無數復雜的戰略演習組成，這需要MAS的快速計算，以及使用最小計算資源（如在戰術邊緣計算）的最佳（或至少足夠）戰略。因此，一個可擴展的RL算法必須考慮到：1）環境和任務的復雜性；2）智能體（伙伴和對手）的數量，以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性（即智能體的狀態和行動空間的大小）可以指環境的狀態空間中可用的狀態數量，以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中，在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體（例如，擴展到MAS），其中狀態空間被放大以考慮到額外的智能體，而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的，因為連續的領域會使表格無法維持，而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源（如過多的計算機內存）來包含所有的狀態，在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反，一個解決方案是使用非參數函數近似器（例如，權重為參數的深度神經網絡）來近似整個狀態空間的值。然而，函數近似器必須是可微分的，這樣就可以計算出一個梯度，以提供參數調整的方向。

有兩種方法來訓練值函數近似器：1）增量方法和2）批量方法。增量方法使用隨機梯度，在梯度方向上調整近似器的參數，使估計值和目標值之間的誤差最小。然而，增量方法的樣本效率不高，因此不具備可擴展性。相比之下，批量處理方法從一組經驗中保存數據，并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處，即結果是已知的（例如，數據被標記），計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡（DQN）玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功，但如果不考慮額外智能體的加入（即非平穩性或部分可觀察性），單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比，策略學習方法依靠策略梯度（PG）的計算來明確優化策略，而不是間接依靠價值函數。與函數近似方法相比，PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效（即在復雜環境中可擴展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，實際回報（選擇行動）與一個分數函數相乘，以計算梯度。該梯度被用于策略調整（通過改變參數值）以找到最大的回報行動。MC策略梯度具有高方差，收斂速度慢，因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中，PG方程被修改為使用價值函數的近似值，而不是使用真實的行動-價值函數乘以分數（如REINFORCE算法）。這表明行為者按照評論者所指向的方向調整策略，以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法（即MC、時差-TD（0）和TD（λ））來完成。為了減少策略梯度的差異，可以使用一個優勢函數。優勢函數告訴我們，與一般的狀態值函數相比，一個行動比另一個行動（Q值）好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error，它是優勢函數的無偏樣本，評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是，MC（高方差）和TD方法可以與行為人一起使用，隨著時間的推移（即收集的經驗）修改策略。

由于MDO涉及軍事任務，RL算法必須有能力與許多其他智能體協調，以實現最佳的戰略機動，因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間（即許多智能體）和多領域環境的大量觀察能力。在接下來的章節中，我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法，其中狀態行動空間可以是連續的或離散的。在這一節中，討論了無模型算法的優勢和劣勢，以及它們如何與戰略機動相一致，從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡（DQN）

深度Q網絡（DQN）是一種單一的RL智能體算法，它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡，從高維輸入（連續圖像）中學習。

DQN算法是一種有效的樣本方法，因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大，可以使用相同的超參數進行訓練，玩六種不同的Atari游戲，其中智能體在其中三個游戲中的表現比人類專家更好。

然而，DQN的一個缺點是，在理論上不能保證訓練好的神經網絡實現穩定的Q值預測（即在不同的獨立模型中，訓練好的策略可能會有很大的差異）。

鑒于DQN本質上是一個單一的RL智能體模型，它應該不足以在MDO中進行戰略機動。在MDO中，多智能體RL算法可能更適合，因為智能體在執行時間內典型的分散化，允許智能體彼此獨立運作。此外，DQN的原始實現只利用了四個觀察序列來學習Q值，這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上，這是DQN在評估的三個Atari游戲（即Q*bert、Seaquest和Space Invaders）中與人類相比表現不好的主要原因。然而，存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體，它學習了一個Q網絡的集合，以提高采樣效率，并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法，以解決大的行動空間。帶有記憶類型的DQN（即循環神經網絡）也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境，這種方法就特別有用。另外，分布式DQN返回一個分布信息，可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途，但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術，而這是MDO中戰略機動的需要。此外，DQN在大多數情況下計算量太大，無法用于軍事相關環境。最后，DQN算法方法對未見過的例子（例如，伙伴的新行為或環境中出現的實體/障礙）缺乏足夠的適應性。

4.2 深度確定性策略梯度（DDPG）

在現實世界中，大多數常規任務涉及連續狀態和行動空間。然而，DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度（DDPG）方法。DDPG通過結合價值函數近似和確定性策略梯度（DPG），推進了DQN方法的進展。DDPG利用行為批判的方法，可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務（如車桿、靈巧的操縱、腿部運動或汽車駕駛）。

另一種使用深度神經網絡的方法是信任區域策略優化（TRPO）。這種方法直接構建一個隨機策略，而不需要演員-評論者模型（不要與環境模型混淆，這將使其成為一種基于模型的方法）。與TRPO類似，引導式策略搜索（GPS）不需要角色評論模型，而是使用軌跡引導的監督式策略學習以及一些額外的技術（例如，減少視覺特征的維度，在網絡的第一層增加機器人配置動態的信息）。因此，GPS的數據效率很高，如果需要的話，可以改編成DDPG。另一方面，PILCO首先學習一個概率模型，然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率；然而，它的計算量很大。此外，D4PG對DDPG算法提出了一些改進：分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級，以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看，DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法（即獨立學習者）。因此，DDPG算法不便于在多智能體場景中進行協作。因此，使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外，DDPG不具備處理基于角色的多目標任務的能力，而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度（MADDPG）

RL智能體互動對于戰略機動的人工智能系統至關重要，不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題，多智能體深度確定性策略梯度（MADDPG）算法擴展了一個演員評論家方法，這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練，并在測試期間部署分散的演員。一個評論者（每個智能體都有一個）接收每個智能體的策略，這允許開發具有潛在不同獎勵功能的依賴性策略（例如，MADDPG允許訓練具有相反獎勵功能的對抗性團隊）。相反，演員（即策略網絡）在訓練和測試期間只擁有本地知識。演員（通過訓練）在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是，對Q函數的輸入隨著環境中智能體數量的增加而增加（不可擴展）。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除，可能需要進行再訓練。在戰略機動中，智能體可能需要定期轉換角色或改變能力，這對MADDPG適應軍事領域構成了重大挑戰。此外，頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷，使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用，希望有一個強大的對手或智能體模型，以便使作戰時間最大化（即有足夠的時間來執行戰略機動）。

為解決其可擴展性問題，對MADDPG的一個潛在修改是形成智能體集群，為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下，可以推遲重新訓練的需要，因為從理論上講，一個智能體集群將有一套處理動態情況的可變能力。此外，這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而，問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務，并使最優分組策略的退化程度最小？

雖然MADDPG可以形成一組異質的多智能體策略，能夠完成不同的任務，但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加，策略梯度的方差會呈指數級增長。因此，這種方法不太適合MDO中的戰略機動，在這種情況下，必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法，該算法計算鄰近智能體Q值的均值估計，當智能體之間的鄰近互動變得復雜時，可能導致高誤差率。此外，進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合，使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功，可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是，反事實多智能體（COMA）方法對所有智能體使用一個集中的評論家，但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性，但它可能導致一套同質的策略，在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似，Minmax多智能體DDPG（M3DDPG）比MADDPG的原始版本增加了一項改進，允許智能體制定更穩健的策略來對抗對手（即具有對立獎勵結構的競爭游戲）。然而，M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法，有時需要利用常見的技術來操作輸入或輸出，如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中，離散的策略組件被用來計算連續的行動。從另一個角度來看，多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制，然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法，但這些算法方法沒有用連續信息進行訓練，這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的，其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值，而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體，仍需進行再訓練。然而，與MADDPG相比，它更具有可擴展性，因為單個Q值僅從局部觀察中學習，避免了通過學習因子化的Qtot來學習聯合行動值。但是，當有超過40個智能體時，這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性，已經提出了基于角色的算法RODE，其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動，RODE算法是非常有前途的，因為各組智能體可以被分配到不同的角色，其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為（對于盟友或甚至敵人）。然后，該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制，該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用，這可能會在未來的工作中進行研究。即使RODE是非常可擴展的，我們也不清楚當新的智能體將被添加到環境中時如何調整它；需要學習一個集中的策略以實現最佳協作。

與RODE算法相比，一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略，實驗表明它能夠擴展到1000多個智能體。如前所述，可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多，狀態空間越大。RODE是有限的，因為它使用一個集中的策略，當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法（即共享一個中央經驗重放緩沖器），其執行是分布式的（即每個智能體根據其本地觀察做出自己的控制決定），而不是來自中央控制器。由于這種分布式的方案，當智能體被添加或從系統中移除時，團隊不受影響，繼續執行他們的策略。

在可擴展性方面，訓練大型MAS（即許多智能體）是很困難的，而且已經表明，即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題，該方法允許在較小的智能體集合上訓練策略（例如，在目標追蹤場景中，四個智能體追蹤四個目標），并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整（即用1000個智能體測試和評估）。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化：它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看，這種提法是戰略機動的理想選擇，因為現場的智能體可能會在原地丟失或獲得，可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素，包括科技進步，美國的對手正在變得更加先進。在未來的MAS自主戰爭中，協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中，我們討論了一些最突出的RL算法，以發現訓練MAS的可行候選策略，這些MAS可以有效地進行戰略機動，從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法，并對最突出的RL算法進行了概述。研究發現，由于訓練和測試因素的不同，大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案，AIMM和EOT ERPs特別促成了研究，可以為協作的自主MAS提供一個路徑，可以克服與1）環境，2）對手戰術和能力，3）自身能力（即，獲得新的能力，失去以前的能力，或能力被改變），4）團隊組成（例如，增加、刪除或交換隊友），5）戰略團隊定位、進入、導航（機動）以支持部隊并壓倒對手，以及6）任務目標。最近，AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法，并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性，此外還評估了利用一系列集中訓練技術的新算法方法。

此外，還需要進行更多的調查，以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下，將完全自主的MAS送入高風險情況（即預期因果率高的情況）是可取的；然而，由于目前的技術限制，僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此，在未來的工作中，將進行研究以確定一套強有力的交戰方案。最后，這項工作將導致自主MAS的最終整合，以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

強化學習 · 無模型強化學習 · 深度強化學習 ·

2021 年 3 月 13 日

[付費5元查看完整內容]無模型強化學習研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelＧbasedReinforcementLearＧ ning)和無模型強化學習(ModelＧfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.

付費5元查看完整內容

深度強化學習 ·

2021 年 1 月 1 日

[付費5元查看完整內容]多Agent深度強化學習綜述(中文版)，21頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容