無人機集群協同作戰的自主化、智能化是未來軍事指揮控制技術發展的重要趨勢, 為滿足日趨重視的集群應用需求, 提出了面向協同作戰任務的無人機集群自主決策技術概念與體系, 建立了無人機集群多任務的通信-決策-規劃-控制(communication, decision, planning, control;CDPC)自主決策框架. 根據通信拓撲結構建立了集中式、完全分布式和混合式的決策樣式, 在此基礎上, 分別建立了感性任務推理決策模型和理性任務推理決策模型, 探討了模型的求解框架以及關鍵技術解決途徑, 表示無人機集群任務決策對協同作戰的規劃和實施具有較好的指導意義.
2020 年 1 月, 中國科學院發布的 《2019 年人工 智能發展白皮書》中將“群體智能技術”列為八大人工 智能關鍵技術之一[1] , 隨著智能系統與復雜體系、感 知與判斷、分布式協同、人工智能和算法戰等理論 與技術的不斷發展與突破, 智能系統已呈現出無人 化、集群化和自主化等特征[2] . 無人機集群作為未來集 群智能系統的主要形式, 能夠實現單平臺行為決策、 多平臺任務協同, 具有集群涌現特性, 表現出了巨大 的應用前景. 無人機集群任務環境彈性大、態勢變化 快、傳感器信息不完全、通信結構不穩定, 是以決策 為主的對抗. 因此, 協同自主決策作為“感知-判斷決策-行動 (observation-orientation-decision-action, OODA)”環路循環中的關鍵技術引起了國內外廣泛 關注[3-5] . 無人機集群在復雜動態變化的環境下, 如何 根據不確定的態勢信息, 實施可解釋的自主決策推 理, 確定高效可靠的任務協同執行方式對保障集群 安全, 提升作戰效能至關重要.
按照系統科學的觀點[6] , 無人機集群系統多平臺 異構、任務需求眾多、輸入態勢變化、戰術目的復 雜、約束條件耦合, 為解決以上問題, 需要面向無人 機集群多任務設計自主決策規劃框架, 降低系統研 究的復雜性. 文獻[7]基于不確定攻防博弈態勢信息 搭建了無人機集群對抗博弈模型, 并設計博弈成本 函數計算最優策略;文獻[8]提出了一種多無人機分 布式智能自組織算法, 將集群偵察-打擊任務優化問 題分解為多個局部優化問題, 并通過集群與環境和 集群之間的信息交流實現全局優化決策;文獻[9]針 對區域偵察等典型集群任務, 采用深度學習方法構 建任務決策模型, 然后基于遺傳算法對決策模型進 行優化, 為集群實現離線學習和在線決策提供了有 效支撐, 然而現有成果從多任務角度出發, 對集群自 主決策問題進行研究相對較少.
對于集群系統協同作戰任務方面的研究, 主要 以任務規劃問題為主[10] , 此類問題大都是事先擬定好 了任務輸入類型和約束, 是一種有目標信息的多約 束優化問題. 然而對于集群如何獲得準確的任務目 標信息, 并根據態勢進行動態任務調整并沒有考慮, 此問題正是集群協同任務決策的研究重點. 現階段 無人機決策問題研究大都聚焦于空戰過程中的機動 動作決策[11-12] , 或者某個明確任務場景中的決策, 如集 群打擊任務等[13-14] , 沒有從集群協同作戰過程中戰術 戰略及任務的多樣性和復雜性方面開展自主決策研 究. 因此, 本文針對這個問題, 分析了集群任務自主 決策概念、任務定義與分類, 設計了自主決策的流 程;應用分層研究思想提出一種自主決策框架, 并根 據通信結構定義不同的決策模式;結合多種技術途徑 對無人機集群自主決策建模的體系結構和求解框架 進行了分析和探討.
為利用智能技術解決現代戰爭中的意圖判斷、威脅評估與指揮控制, 提高軍事決策水平, 將軍事問題轉化為博弈問題, 綜 合利用博弈論和人工智能(artificial intelligence, AI)技術尋求策略均衡解. 通過深入剖析游戲智能博弈的最新進展, 梳理美軍人工 智能軍事應用項目研究情況, 總結常用智能方法的優缺點, 分析軍事博弈面臨的挑戰及應對措施, 為突破復雜戰場環境下高動態 不確定的軍事智能決策問題提供借鑒.
現代戰爭無疑是一場激烈博弈, 隨著信息化程 度不斷提高, 作戰空間由物理域、信息域向認知域拓 展[1] , 快變的戰場態勢、緊湊的作戰節奏以及跨域軍事力量運用對作戰指揮的時效性和精確性提出了更 高要求. 敵方意圖判斷、行動威脅評估、指揮決策與 控制的難度不斷增加, 迫切需要利用智能技術延伸 人腦, 以提高軍事決策的自動化和自主化水平, 決策 智能成為軍事領域研究熱點之一. 近年來, 諸多游戲博弈系統在邊界和規則確定 的對抗中取得了顯著成績, 不僅極大推動了認知智 能發展, 更為軍事決策智能研究指明了探索方向[2] . 智能博弈也稱為機器博弈 (computer game), 主要研 究如何讓機器像人一樣在競爭環境下進行對抗, 屬 于認知智能范疇. 眾多知名學者很早便開始涉足該 領域研究, 如馮·諾依曼、香農、圖靈和塞繆等[3] . 隨著 計算機硬件不斷升級, 智能博弈理論和技術迅猛發 展. IBM 于 1997 年開發“深藍(deep blue)”系統, 以 絕對優勢戰勝了卡斯帕羅夫, 成為智能博弈系統“叫 板”人類的歷史性里程碑[4] . Deep Mind 于 2016 年至 2017 年相繼推出圍棋 AlphaGo 系列 AI 系統, 成功解 決了有限狀態零和完全信息兩人博弈問題[5-7];美國 卡耐基梅隆大學分別于 2017 年和 2019 年開發了 Li原 bratus 系統和 Pluribus 系統[8-9] , 突破了多人游戲智能 博弈的壁壘. 繼以圍棋、德州撲克等序貫博弈之后, 以實時策略游戲為代表的同步博弈問題成為新的 研究熱點, Deep Mind 在 2019 年公布的 AlphaStar 系 統的底層技術[10] , 對未來開發具有安全性、魯棒性和 實用性的通用 AI 系統具有重要意義. 然而軍事對抗 不同于游戲博弈, 兩者存在顯著區別[11] , 難以直接借 鑒應用.
本文闡述了軍事智能博弈的概念及應用前景, 提出在博弈論框架下利用 AI 技術應尋找策略均衡 解, 而非傳統求解最優解. 通過比較完全信息、不完 全信息和即時戰略類游戲的特點, 深入剖析不同智 能博弈技術框架的原理, 梳理美軍智能決策項目的 最新發展情況, 而后根據戰爭復雜性特征, 分析軍事 博弈面臨的主要困難以及智能技術軍事應用的挑戰. 有助于把握智能博弈最新進展, 為軍事決策智能發展儲備必要的理論與技術, 進而為利用 AI 技術突破 復雜戰場環境下高動態不確定的決策問題提供借鑒.
1 軍事智能博弈
軍事智能博弈(military intelligence game, MIG), 是指將軍事問題轉化為博弈問題, 綜合利用博弈論 (game theory)和 AI 技術尋求軍事對抗中的策略均衡 解. 博弈論為解決軍事問題提供了理論框架, AI 技術 為策略求解提供了高效方法. 隨著智能理論與技術 的迅猛發展, 博弈論和 AI 技術在現實應用中結合的 更加緊密, 為突破軍事決策智能發展瓶頸提供了新 思路. 軍事智能博弈具有廣闊的應用場景, 如圖 1 所 示. 利用智能博弈技術構建虛擬藍軍, 為作戰方案分 析、武器裝備檢驗和人員技能訓練提供逼真的作戰 對手, 可獲得更好的客觀真實性;智能博弈系統可充 當“決策大腦”或“智能參謀”, 面向動態戰場環境快 速生成博弈策略, 輔助指揮員開展對抗推演, 并在訓 練中與人類共同學習, 不斷提升指揮決策能力;構建 智能博弈對抗平臺, 作戰模擬仿真系統雖然大大降 低了實兵對抗訓練組織難、消耗大的弊端, 但大規模 聯合作戰推演仍需上百人員協作, 智能博弈平臺上 雙方“智能體”自主對抗, 不僅能對作戰方案進行快 速驗證, 還能通過分析智能體行為發現新戰法.
軍事智能博弈主要有兩大研究內容:一是軍事博 弈規則構建. 局中人為最大化自身利益進行決策, 不 同的規則設計將會導致策略選擇的不同, 如何設計 博弈規則以使最終均衡解達到整體利益最大化成為 首要問題. 二是博弈策略求解, 博弈論提供了問題建模 框架, 納什定理證明了均衡解的存在性, 但現實問題 的求解通常面臨狀態決策空間大、信息不完備等問 題, 如何利用高效算法搜索最優策略成為關鍵問題.
2 智能博弈研究現狀
梳理游戲智能博弈最新成果和美軍智能決策項 目發展情況, 深入剖析所用理論方法和技術框架, 有 助于把握領域的研究進展和方向.
2.1 游戲智能博弈研究
研究人員一直熱衷于將游戲作為測試和評估 AI 算法的平臺, 從最初的 Atari 游戲到后來的圍棋、德 州撲克和星際爭霸等, 人類攻克了越來越復雜的游 戲堡壘, 其技術方法為解決現實問題和實現通用人 工智能奠定了基礎.
2.1.1 完全信息博弈游戲
完全信息博弈中, 局中人可獲取即時完整的決 策信息, 雙方行動有先后順序, 并能在有限步后得到 結果, 是研究成果最顯著的領域, 如圍棋、國際象棋. 該類問題通常采用博弈樹搜素算法, 將博弈過程轉 化為樹的擴展過程. 博弈樹的根節點為初始狀態, 子 節點表示在根節點選擇動作后達到的新狀態(state), 從一個節點通向其他節點的邊表示動作(action), 通 過評估葉節點來判斷博弈結果. 樹中每一層代表了 雙方的狀態, 同層中的所有邊為局中人在狀態下所 有可選動作, 局中人在不同層間交替執行動作, 允許 一次執行若干動作但只看作是一個動作. 博弈目的 就是尋找博弈樹根節點的最優子節點, 而通往最優 子節點的動作即為最優動作.
2.1.2 不完全信息博弈游戲
不完全信息博弈中, 局中人行動順序雖有先后, 但無法完全獲取其他局中人的特征、收益及策略空 間等決策信息, 如德州撲克、麻將等. 不完全信息博 弈更符合現實場景, 但求解納什均衡解的復雜度和 難度也更大. 由于信息的非完備性和局勢的動態變 化, 需對其他局中人的未知信息進行推理和猜測, 同 一狀態下采取的行動可能有多種, 甚至可以利用信 息迷霧進行欺騙, 通常需要根據局勢縮小博弈搜索 空間, 如圖 4 所示.
2.1.3 即時戰略博弈
即時戰略游戲(real time strategy, RTS)具有以下 特點:局中人需同時決策是否采取行動以及采取何 種行動, 而非輪流決策;局中人需在短時間內進行一 系列決策并付諸實施, 以滿足實時對抗要求, 而動作 可能需要持續一段時間, 完全不同于棋牌類游戲“決策的交替性和間斷性、動作的瞬時性和突發性”;游 戲中存在各種功能角色, 如何發揮各角色作用和協 作效果, 是制定最優策略的關鍵問題;游戲中多角色 多任務、高度不確定性和不完備不完美信息等問題, 導致狀態空間規模和決策可選動作十分巨大;由于 無法準確預測對手行為, 游戲并不存在理論上的最 優解. 因此, RTS 游戲研究對解決具有實時對抗、長 遠規劃、多角色多任務和信息不完備不完美等特點 的問題更具借鑒意義, 如軍事決策、應急規劃等.
2.2 美軍智能博弈系統應用及進展
美軍早已預見智能技術在軍事領域的應用前景,力求在“第三次抵消戰略”中憑借智能技術形成絕對 軍事優勢. 美軍提出“馬賽克戰”概念, 希望構建一個 具有超強適應能力的彈性殺傷網絡, 實現要素的快 速聚合與分解, 重塑在大國博弈中的競爭力[20] . 智能博 弈技術, 必將成為未來智能化戰爭條件下進行指揮 決策的基礎.
3 智能博弈技術的軍事應用展望
3.1 軍事博弈面臨的困難
戰爭具有非線性和不確定性, 軍事博弈是一個 典型的面向不完美不完備信息的序貫決策和同步博 弈問題, 必須兼顧宏觀策略規劃和微觀戰術選擇, 平 衡短期利益、長期目標以及意外情況處置能力. 現有 智能博弈技術難以直接利用, 主要因為軍事博弈具 有以下突出特點。
3.1.1 戰爭充滿“迷霧”和不確定性
在完全信息博弈中, 雙方可以完全掌握棋局狀 態, 即使是在德州撲克等非完全信息博弈中, 未知的 牌局信息也只發生在一定概率區間內, 通過多輪博 弈可進行概率判斷. 而在真實戰場中, 由于預警范圍 和偵察注意力受限, 只能從戰場環境中獲取部分信 息, 而且敵方行動策略和作戰企圖無法完全知曉, 基 于部分可觀察的態勢估計是不可回避的. 指揮員需 要在一個非完全信息環境下進行決策, 必須具備高 效準確的偵察、探索、記憶和推測能力, 信息的缺失 導致以求解局部最優來獲取全局最優的方式無法完 成策略回溯. 戰場各類偵察系統獲取的信息可能是隨機模糊 的, 敵我雙方為隱藏企圖而采取各種欺騙行為和佯 裝動作, 導致獲取的信息不一定準確, 產生“信息獲 取的不確定性”;信息在各層級傳播和融合過程中, 會出現衰減、丟失和出錯等現象, 產生“信息融合的 不確定性”;事物的描述和表示會因知識表示方法不 同而不同, 產生“知識表示的不確定性”;利用證據信 息與軍事知識進行戰場態勢和敵方策略行動推理時, 不同的推理算法會產生不同的估計結果, 產生“推理 結果的不確定性”. 戰爭信息的高度不確定性, 導致 基于先驗知識推理未知領域的方式難以奏效.
3.1.2 軍事博弈對抗激烈、連續且非零和
戰爭博弈日趨激烈. 無論戰前還是戰中, 博弈發 生在時時刻刻、方方面面, 雙方意圖互為對抗且此消 彼長. 戰爭節奏緊張, 戰場態勢劇變, 雙方需要更快速 更準確地進行決策. 決策過程不僅要考慮作戰目的和 戰場態勢, 還要持續判斷敵方可能采取的戰法和行 動, 更需要在交戰過程中反復迭代更新策略, 以掌握 戰爭主動權. 為保證自身方案計劃順利實施, 達成“出 其不意攻其不備”的效果, 還要巧妙地利用佯裝行動 誘騙敵方;相反, 為避免被敵方牽著鼻子走, 也需通過 有效的信息推理來識別和預測敵方的真實意圖. 軍事決策是動態連續的. 與棋牌類游戲的輪次 博弈不同, 戰爭態勢連續演進, 交戰雙方決策無順序 約束, 任何時刻既要決策是否采取行動, 還需決策采 取哪些行動, 決策的速度和準確度共同決定了指揮 效率. 從理論上講, 可將動態連續決策過程離散為更 精細的時間片段, 而后采用輪次博弈的靜態解決方 法. 但戰爭系統具有整體性和不確定性, 以離散方式 進行抽象建模, 必然需要解決時間尺度、模型精確度 和問題求解復雜度三者之間的關系. 軍事博弈具有典型的“非零和”特性. 戰爭開始 及結束時機, 需要綜合考慮政治意圖、戰略目的、敵 我能力變化和國際環境等, 以實現國家利益最大化. 達成國家利益最大化時, 有可能是雙方軍事作戰在 某一階段的“雙輸”“/ 雙贏”局勢, 也可能是在實現政 治、經濟等目的后的“僵持”局勢. 這種模糊、復雜、 稀疏及非零和的博弈收益, 無法依靠單一指標的價 值網絡來評價。
3.1.3 策略空間巨大且難以達成均衡解
軍事博弈具有異常龐大的狀態策略空間, 難以 依靠遍歷求解或模擬仿真等傳統方法進行求解. 指 揮員每次決策都會涉及任務類型、執行單位、空間 和時間的選擇, 不同作戰單位和作戰行動之間的時 間協同、效果協同和任務協同進一步增大了策略空 間. 棋牌類游戲的狀態空間復雜度均是有限的, 星際 爭霸游戲的狀態空間仍在現有算法算力解決范圍內. 而解決擁有巨大狀態策略空間的軍事博弈問題, 不 僅對構建戰爭抽象模型提出了挑戰, 更對軟硬件運 算能力提出了要求. 軍事博弈策略求解面臨三大難題. 一是多方博 弈增大了達成納什均衡的難度. 在當今全球一體化 現狀下, 各國在政治、經濟、文化和軍事等多方面密 切相連, 戰爭不僅僅是兩國之事, 更多情況下會涉及多國利益. 在多方博弈問題中, 納什均衡求解的復雜 度隨著局中人數量的增加呈指數上升. 二是多軍兵 種參戰增加了協同難度. 作戰力量多元化是聯合作 戰一大特征, 不同領域作戰力量的合理利用和協同 互補是擬制作戰方案計劃的重要內容, 這也是實現 決策智能無法回避的內容. 三是不存在最優策略能 穩定勝過其他策略. 在策略學習與探索過程中, 策略 之間相互克制和歷史遺忘的特性十分明顯, 單純采 用自博弈訓練方式, 可能會陷入在不同策略間游移 但水平停滯不前的境地. 由于難以推理敵方策略行 動, 需要在不同子博弈之間尋找平衡. 戰爭規則的多樣性、創新性和復雜性, 進一步增 大了狀態策略空間的規模和納什均衡的求解難度. 戰爭參與者都試圖通過作戰行動來達成作戰目的, 策略會因戰場態勢的不斷更新而時刻變化, 出奇制 勝和另辟蹊徑的戰法創新為各方所推崇追尋. 面對 同一戰場態勢, 各方可能采取不同的響應動作, 而指 揮員的決策風格也不盡相同.
3.1.4 面向任務使命的長程規劃難以實現
現代作戰已從傳統的由外及內逐層消滅敵人的 線性作戰, 轉變為集中全域力量進行全縱深整體打 擊的非線性作戰. 戰爭事件因果關系復雜, 通常難以 在短時間內呈現, 作戰行動的執行效果可能在長時 間后才會有所體現. 方案計劃的制定要始終圍繞使 命任務進行主動籌劃和戰爭設計, 研究作戰行動與 作戰效果之間的非線性關系. 這種長遠且全局的規劃視野, 體現了人類指揮 員的指揮藝術和大局觀. 美軍率先提出基于效果作 戰(effect based operation, EBO)概念, 通過逆向規 劃將目標分解為具體預期效果. EBO 理論從邏輯上 講難以實現, 因為在不確定環境中無法確定某一行 動的結果, 同時也忽視了對抗性這一戰爭本質[23] . 中 外學者通常使用影響網進行研究, 結合博弈論實 現對抗條件下作戰方案計劃的生成[24] . 強化學習天生 具有“行動-效果”的探索能力, 為解決 EBO 提供了新 思路. 長程規劃應能夠體現戰爭設計的前瞻性、各領 域各層級的協同性以及指揮藝術性. 一是主動籌劃 行動以掌握戰場主動權, 瞄準作戰目的, 確保作戰進 程朝著終止態勢發展而不“走偏”, 優先完成“觀察判斷-決策-行動”循環;二是適應性調整方案以應對 戰場中的不確定干擾, 確保己方作戰過程持續進行 而不會“中斷”, 具有較強的學習能力和泛化性. 為此, 策略學習應具有記憶功能, 以判斷什么樣的行動產 生了好的效果、什么樣的策略更具有獲勝的可能性. 正如 AlphaStar 使用長短時記憶網絡捕捉歷史信息, 構建虛擬競技場保持策略穩定, 并采用持續強化學 習實現策略不斷更新進化.
3.2 智能博弈應用展望
3.2.1 基于知識規則的智能技術
知識來源于實踐, 人類在解決問題時更傾向于 遵循成熟規則. 機器還難以模仿人類大腦的復雜學 習能力, 智能博弈水平需要漫長的成長過程. 傳統基 于知識的專家系統, 利用人類經驗和專家知識, 便可 解決各領域復雜問題. 在深度學習盛行之后, 基于知 識規則的智能技術依舊取得了不凡成績. 例如, 東京 大學日麻 AI 系統利用 9.6 萬多條規則進行監督學習, 達到了專業六段水平;韓國三星的 SAIDA 系統完全 憑借職業玩家總結的規則知識, 在 2018 年 IEEE 舉 辦的星際爭霸比賽中獲得第一. 即便是融合了深層 神經網絡的 AlphaGo 和 AlphaStar, 依然需要在預訓 練中使用大量人類對局數據進行模仿學習. 雖然 AlphaZero 和 Muzero 能夠完全通過自主學 習實現成長[25] , 但圍棋游戲與戰爭對抗存在天壤之 別, 難以直接應用于軍事領域. 強化學習算法還難以 實現從基本策略中總結出高層策略, 現有的條令條 例、規劃流程、作戰規則等大量知識可轉化為知識 網絡以引導 AI 系統決策.
3.2.2 人機融合實現決策智能
戰爭的非透明性和不確定性, 使得作戰籌劃及 指揮控制過程極其復雜, 單純依靠人類大腦難以滿 足決策速度和精度要求, 而完全依賴機器又難以滿 足決策的可解釋性. 人機融合決策具有兩個明顯特 性, 如圖 10 所示. 一是層次性, 指揮決策具有科學性 和藝術性, 科學性隨指揮層次提升而降低, 藝術性與 之相反. 低層級指揮決策可采用傳統運籌學、貝葉斯 網絡、機器學習等科學方法, 這是實現決策智能的基 礎;中間層級指揮決策采用不同程度的人機協作決 策, 重點研究人機協作的時機、場合和方式等;而高 層級指揮決策需要由指揮員及參謀機構擬制. 二是 交替性, 傳統的 OODA 環已轉化為具有學習機制的 OODA 螺旋[11] , 指揮決策成為一個滾動迭代、不斷優 化的過程. 人與機器在各環節都有擅長與不足之處, 例如:態勢理解環節, 機器善于處理海量數據、提取 態勢特征和簡單戰斗戰術級態勢理解, 人來負責復 雜戰術戰役級態勢理解及意圖判斷;行動決策環節, 機器善于快速運籌計算和基于數據挖掘關聯關系, 人來負責基于因果關系進行非即時反饋決策. 在 OODA 循環中, 人與機器交替進行智能決策, 并推進 其螺旋上升.
3.2.3 混合技術突破軍事智能瓶頸
軍事博弈的復雜性決定了需要依靠多種技術手 段, AlphaStar 結合了神經網絡、多智能體、強化學 習、模仿學習、聯盟機制以及各種網絡結構和參數 的巧妙設計, 才實現了最終效果. ONTANON 等總結 了多智能體 RTS 游戲的難點及應對措施[26] , 為軍事 智能博弈研究發展提供了很好借鑒. 如圖 11 所示, 軍事智能博弈需重點關注以下幾點: 1)任務分解. 采用分層任務網絡、影響網絡和 影響圖等技術, 將戰役任務按時間、因果和邏輯等關 系進行分解, 降低整體求解難度. 2)策略分層. 模擬人類思維流程進行分層決策 和多尺度規劃, 上層策略為下層規劃目標, 而下層策 略的執行支撐了上層策略, 如高層策略關注戰役全 局問題、底層策略聚焦短期利益、即時策略控制反 應式動作. 3)規劃方法. 靈活運用多種規劃方法:低層次局 部任務規劃與高層次全局作戰規劃的一致性耦合;復 雜多目標問題求解的優化與效率的均衡;在理論和技 術條件下, 若能基于知識規則進行規劃, 則應避免使 用強化學習. 4)策略學習. 一是基于歷史或仿真數據的策略 模仿學習, 解決復雜問題從零學習的困境;二是基于 聯盟機制的策略持續學習, 解決策略持續優化、避免 陷入死循環的困境;三是基于通用 AI 技術的策略遷 移學習, 解決知識經驗和學習機制在不同場景下的 共享問題. 5)不確定性推理. 針對戰場信息不完全性增加 偵察策略, 構建預測模型對戰場態勢、敵方意圖及行 動策略進行推理;針對廣闊戰場空間和作戰單位功能 各異, 需要合理安排力量跨域作戰、資源空間轉移和 行動空間協同等問題, 進行空間不確定性推理;針對 戰爭非即時反饋特點, 既需要解決當前危機, 又要長 遠地規劃資源利用和策略轉換等問題, 進行時間不 確定推理. 6)知識圖譜. 以圖譜形式組織軍事領域知識, 構 建基礎知識圖譜;基于歷史數據及專家經驗, 構建敵 方意圖圖譜;針對不同決策場景, 結合指揮員經驗總 結, 構建我方行動推薦圖譜.
**3.2.4 對抗博弈用于強化訓練和戰法研究 **
戰爭謀略是長期作戰實踐的經驗總結. 通過對 抗博弈, 機器學習人類已有經驗知識, 人類從機器行 為表現中得到啟發, 實現人類決策能力與機器智能 水平的共同提升. 以戰役級計算機兵棋系統為訓練 平臺, 基于敵軍戰法規則構建智能對手, 通過人機博 弈對抗進行戰法研究和方案檢驗, 持續提升指揮員 的決策能力和戰場大局觀. 借鑒 AlphaStar 的虛擬競 技場思路, 通過機器自博弈探索不同行動方案并進 行評估, 從而克服指揮員傳統思維禁錮, 尋找好招、 奇招與妙招. 面向未來無人作戰領域, 大力發展多智 能體博弈策略生成的關鍵技術[27] .
4 結論
通過梳理經典智能博弈理論方法和軍事博弈特 征, 得出以下結論:1)軍事博弈與游戲存在顯著區 別, 戰爭注重指揮藝術性和決策科學性的結合, 強調 戰爭設計和“運籌帷幄”;2)軍事博弈更加強調面向 戰役使命進行長遠規劃, 而非游戲的反應式規劃, 必 須兼顧宏觀策略規劃和微觀戰術選擇;3)軍事博弈 問題規模遠遠大于游戲場景, 種種不確定性因素和 動態連續的激烈對抗, 增大了均衡策略的求解難度. 因此, 智能博弈相關技術方法還難以完全用于解決 戰爭問題. 面對復雜的戰爭系統, 長期積累的軍事知 識和作戰經驗能夠引導機器減少盲目搜索, 并避免 犯下違背軍事常識的錯誤;人機交互式決策在保證速 度和精度的同時, 還可通過“人在回路”提高決策的 適應性;如何利用已有技術手段解決現有復雜問題, 聚焦于智能技術混合使用方式, 是亟需研究的內容.
鑒于演化博弈理論在解決合作問題中的廣泛應用, 主要探索無人機集群協同控制領域中演化博弈理論的應用前景. 首 先, 介紹演化博弈理論的起源發展及主要思想; 而后分類總結促進合作演化的機制; 接著從情報共享、任務分配、資源調整和編 隊重組 4 個方面闡述了具體應用構想; 最后提出待解決的難點問題和解決思路. 從演化博弈的角度為無人機集群的有效協同控 制提供了有意義的探索和借鑒.合作被當作演化的自然法則之一, 在人類社會 進步發展、生物群體進化演化中發揮著非常重要的 作用. 合作行為的普遍出現且能夠相對穩定的延續 已經成為一個前沿熱點問題[1] . 演化博弈理論[2] 是 傳統博弈論結合生物進化論發展而來的, 它將經濟 學的 “均衡觀” 與生物學的 “適應性” 相結合, 刻畫了 在理性不完全、信息不對稱、對環境及預期存在偏差 的條件下, 群體通過學習、模仿、試錯而不斷適應外 部環境, 最終達到演化穩定狀態 (Evolutionary Stable State, ESS)[3] 的過程, 演化博弈為多智能體之間的交 互提供了一種有效的研究框架[4?5] . 近年來, 眾多學 者利用演化博弈理論研究合作問題, 取得了很多重 要成果, 并在解決實際問題中廣泛應用.無人機集群被當作未來戰場中智能作戰的主要 樣式, 其自主協同能力是影響戰斗力生成的關鍵問 題. 高度智能化的無人機個體在有限信息、有限資源 的條件下穩定合作并有效協同, 與演化博弈的思想 不謀而合. 所以, 用演化博弈理論解決無人機集群合 作問題極具理論價值和現實意義. 無人機集群協同控制方法大體分為集中式和分 布式兩類, 其中分布式方法逐漸成為熱點, 發展出協 商一致理論、信息素、博弈論、多智能體系統等多種 方法. 國內學者在此方向取得了很多成果[6] , 最具代 表性的是國防科技大學沈林成教授團隊, 對無人機 集群協同控制的多個問題都有分析總結, 具有非常 高的指導價值[7?9] . 針對于此, 我們梳理了促進合作演化的機制, 并 參考無人機集群的發展現狀及應用前景, 對未來無 人機集群作戰中的具體任務, 提出演化博弈理論框 架下的應用想定, 旨在對提高和完善無人機集群的 自主協同能力提供新的思路和方案.