亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

為利用智能技術解決現代戰爭中的意圖判斷、威脅評估與指揮控制, 提高軍事決策水平, 將軍事問題轉化為博弈問題, 綜 合利用博弈論和人工智能(artificial intelligence, AI)技術尋求策略均衡解. 通過深入剖析游戲智能博弈的最新進展, 梳理美軍人工 智能軍事應用項目研究情況, 總結常用智能方法的優缺點, 分析軍事博弈面臨的挑戰及應對措施, 為突破復雜戰場環境下高動態 不確定的軍事智能決策問題提供借鑒.

現代戰爭無疑是一場激烈博弈, 隨著信息化程 度不斷提高, 作戰空間由物理域、信息域向認知域拓 展[1] , 快變的戰場態勢、緊湊的作戰節奏以及跨域軍事力量運用對作戰指揮的時效性和精確性提出了更 高要求. 敵方意圖判斷、行動威脅評估、指揮決策與 控制的難度不斷增加, 迫切需要利用智能技術延伸 人腦, 以提高軍事決策的自動化和自主化水平, 決策 智能成為軍事領域研究熱點之一. 近年來, 諸多游戲博弈系統在邊界和規則確定 的對抗中取得了顯著成績, 不僅極大推動了認知智 能發展, 更為軍事決策智能研究指明了探索方向[2] . 智能博弈也稱為機器博弈 (computer game), 主要研 究如何讓機器像人一樣在競爭環境下進行對抗, 屬 于認知智能范疇. 眾多知名學者很早便開始涉足該 領域研究, 如馮·諾依曼、香農、圖靈和塞繆等[3] . 隨著 計算機硬件不斷升級, 智能博弈理論和技術迅猛發 展. IBM 于 1997 年開發“深藍(deep blue)”系統, 以 絕對優勢戰勝了卡斯帕羅夫, 成為智能博弈系統“叫 板”人類的歷史性里程碑[4] . Deep Mind 于 2016 年至 2017 年相繼推出圍棋 AlphaGo 系列 AI 系統, 成功解 決了有限狀態零和完全信息兩人博弈問題[5-7];美國 卡耐基梅隆大學分別于 2017 年和 2019 年開發了 Li原 bratus 系統和 Pluribus 系統[8-9] , 突破了多人游戲智能 博弈的壁壘. 繼以圍棋、德州撲克等序貫博弈之后, 以實時策略游戲為代表的同步博弈問題成為新的 研究熱點, Deep Mind 在 2019 年公布的 AlphaStar 系 統的底層技術[10] , 對未來開發具有安全性、魯棒性和 實用性的通用 AI 系統具有重要意義. 然而軍事對抗 不同于游戲博弈, 兩者存在顯著區別[11] , 難以直接借 鑒應用.

本文闡述了軍事智能博弈的概念及應用前景, 提出在博弈論框架下利用 AI 技術應尋找策略均衡 解, 而非傳統求解最優解. 通過比較完全信息、不完 全信息和即時戰略類游戲的特點, 深入剖析不同智 能博弈技術框架的原理, 梳理美軍智能決策項目的 最新發展情況, 而后根據戰爭復雜性特征, 分析軍事 博弈面臨的主要困難以及智能技術軍事應用的挑戰. 有助于把握智能博弈最新進展, 為軍事決策智能發展儲備必要的理論與技術, 進而為利用 AI 技術突破 復雜戰場環境下高動態不確定的決策問題提供借鑒.

1 軍事智能博弈

軍事智能博弈(military intelligence game, MIG), 是指將軍事問題轉化為博弈問題, 綜合利用博弈論 (game theory)和 AI 技術尋求軍事對抗中的策略均衡 解. 博弈論為解決軍事問題提供了理論框架, AI 技術 為策略求解提供了高效方法. 隨著智能理論與技術 的迅猛發展, 博弈論和 AI 技術在現實應用中結合的 更加緊密, 為突破軍事決策智能發展瓶頸提供了新 思路. 軍事智能博弈具有廣闊的應用場景, 如圖 1 所 示. 利用智能博弈技術構建虛擬藍軍, 為作戰方案分 析、武器裝備檢驗和人員技能訓練提供逼真的作戰 對手, 可獲得更好的客觀真實性;智能博弈系統可充 當“決策大腦”或“智能參謀”, 面向動態戰場環境快 速生成博弈策略, 輔助指揮員開展對抗推演, 并在訓 練中與人類共同學習, 不斷提升指揮決策能力;構建 智能博弈對抗平臺, 作戰模擬仿真系統雖然大大降 低了實兵對抗訓練組織難、消耗大的弊端, 但大規模 聯合作戰推演仍需上百人員協作, 智能博弈平臺上 雙方“智能體”自主對抗, 不僅能對作戰方案進行快 速驗證, 還能通過分析智能體行為發現新戰法.

軍事智能博弈主要有兩大研究內容:一是軍事博 弈規則構建. 局中人為最大化自身利益進行決策, 不 同的規則設計將會導致策略選擇的不同, 如何設計 博弈規則以使最終均衡解達到整體利益最大化成為 首要問題. 二是博弈策略求解, 博弈論提供了問題建模 框架, 納什定理證明了均衡解的存在性, 但現實問題 的求解通常面臨狀態決策空間大、信息不完備等問 題, 如何利用高效算法搜索最優策略成為關鍵問題.

2 智能博弈研究現狀

梳理游戲智能博弈最新成果和美軍智能決策項 目發展情況, 深入剖析所用理論方法和技術框架, 有 助于把握領域的研究進展和方向.

2.1 游戲智能博弈研究

研究人員一直熱衷于將游戲作為測試和評估 AI 算法的平臺, 從最初的 Atari 游戲到后來的圍棋、德 州撲克和星際爭霸等, 人類攻克了越來越復雜的游 戲堡壘, 其技術方法為解決現實問題和實現通用人 工智能奠定了基礎.

2.1.1 完全信息博弈游戲

完全信息博弈中, 局中人可獲取即時完整的決 策信息, 雙方行動有先后順序, 并能在有限步后得到 結果, 是研究成果最顯著的領域, 如圍棋、國際象棋. 該類問題通常采用博弈樹搜素算法, 將博弈過程轉 化為樹的擴展過程. 博弈樹的根節點為初始狀態, 子 節點表示在根節點選擇動作后達到的新狀態(state), 從一個節點通向其他節點的邊表示動作(action), 通 過評估葉節點來判斷博弈結果. 樹中每一層代表了 雙方的狀態, 同層中的所有邊為局中人在狀態下所 有可選動作, 局中人在不同層間交替執行動作, 允許 一次執行若干動作但只看作是一個動作. 博弈目的 就是尋找博弈樹根節點的最優子節點, 而通往最優 子節點的動作即為最優動作.

2.1.2 不完全信息博弈游戲

不完全信息博弈中, 局中人行動順序雖有先后, 但無法完全獲取其他局中人的特征、收益及策略空 間等決策信息, 如德州撲克、麻將等. 不完全信息博 弈更符合現實場景, 但求解納什均衡解的復雜度和 難度也更大. 由于信息的非完備性和局勢的動態變 化, 需對其他局中人的未知信息進行推理和猜測, 同 一狀態下采取的行動可能有多種, 甚至可以利用信 息迷霧進行欺騙, 通常需要根據局勢縮小博弈搜索 空間, 如圖 4 所示.

2.1.3 即時戰略博弈

即時戰略游戲(real time strategy, RTS)具有以下 特點:局中人需同時決策是否采取行動以及采取何 種行動, 而非輪流決策;局中人需在短時間內進行一 系列決策并付諸實施, 以滿足實時對抗要求, 而動作 可能需要持續一段時間, 完全不同于棋牌類游戲“決策的交替性和間斷性、動作的瞬時性和突發性”;游 戲中存在各種功能角色, 如何發揮各角色作用和協 作效果, 是制定最優策略的關鍵問題;游戲中多角色 多任務、高度不確定性和不完備不完美信息等問題, 導致狀態空間規模和決策可選動作十分巨大;由于 無法準確預測對手行為, 游戲并不存在理論上的最 優解. 因此, RTS 游戲研究對解決具有實時對抗、長 遠規劃、多角色多任務和信息不完備不完美等特點 的問題更具借鑒意義, 如軍事決策、應急規劃等.

2.2 美軍智能博弈系統應用及進展

美軍早已預見智能技術在軍事領域的應用前景,力求在“第三次抵消戰略”中憑借智能技術形成絕對 軍事優勢. 美軍提出“馬賽克戰”概念, 希望構建一個 具有超強適應能力的彈性殺傷網絡, 實現要素的快 速聚合與分解, 重塑在大國博弈中的競爭力[20] . 智能博 弈技術, 必將成為未來智能化戰爭條件下進行指揮 決策的基礎.

3 智能博弈技術的軍事應用展望

3.1 軍事博弈面臨的困難

戰爭具有非線性和不確定性, 軍事博弈是一個 典型的面向不完美不完備信息的序貫決策和同步博 弈問題, 必須兼顧宏觀策略規劃和微觀戰術選擇, 平 衡短期利益、長期目標以及意外情況處置能力. 現有 智能博弈技術難以直接利用, 主要因為軍事博弈具 有以下突出特點。

3.1.1 戰爭充滿“迷霧”和不確定性

在完全信息博弈中, 雙方可以完全掌握棋局狀 態, 即使是在德州撲克等非完全信息博弈中, 未知的 牌局信息也只發生在一定概率區間內, 通過多輪博 弈可進行概率判斷. 而在真實戰場中, 由于預警范圍 和偵察注意力受限, 只能從戰場環境中獲取部分信 息, 而且敵方行動策略和作戰企圖無法完全知曉, 基 于部分可觀察的態勢估計是不可回避的. 指揮員需 要在一個非完全信息環境下進行決策, 必須具備高 效準確的偵察、探索、記憶和推測能力, 信息的缺失 導致以求解局部最優來獲取全局最優的方式無法完 成策略回溯. 戰場各類偵察系統獲取的信息可能是隨機模糊 的, 敵我雙方為隱藏企圖而采取各種欺騙行為和佯 裝動作, 導致獲取的信息不一定準確, 產生“信息獲 取的不確定性”;信息在各層級傳播和融合過程中, 會出現衰減、丟失和出錯等現象, 產生“信息融合的 不確定性”;事物的描述和表示會因知識表示方法不 同而不同, 產生“知識表示的不確定性”;利用證據信 息與軍事知識進行戰場態勢和敵方策略行動推理時, 不同的推理算法會產生不同的估計結果, 產生“推理 結果的不確定性”. 戰爭信息的高度不確定性, 導致 基于先驗知識推理未知領域的方式難以奏效.

3.1.2 軍事博弈對抗激烈、連續且非零和

戰爭博弈日趨激烈. 無論戰前還是戰中, 博弈發 生在時時刻刻、方方面面, 雙方意圖互為對抗且此消 彼長. 戰爭節奏緊張, 戰場態勢劇變, 雙方需要更快速 更準確地進行決策. 決策過程不僅要考慮作戰目的和 戰場態勢, 還要持續判斷敵方可能采取的戰法和行 動, 更需要在交戰過程中反復迭代更新策略, 以掌握 戰爭主動權. 為保證自身方案計劃順利實施, 達成“出 其不意攻其不備”的效果, 還要巧妙地利用佯裝行動 誘騙敵方;相反, 為避免被敵方牽著鼻子走, 也需通過 有效的信息推理來識別和預測敵方的真實意圖. 軍事決策是動態連續的. 與棋牌類游戲的輪次 博弈不同, 戰爭態勢連續演進, 交戰雙方決策無順序 約束, 任何時刻既要決策是否采取行動, 還需決策采 取哪些行動, 決策的速度和準確度共同決定了指揮 效率. 從理論上講, 可將動態連續決策過程離散為更 精細的時間片段, 而后采用輪次博弈的靜態解決方 法. 但戰爭系統具有整體性和不確定性, 以離散方式 進行抽象建模, 必然需要解決時間尺度、模型精確度 和問題求解復雜度三者之間的關系. 軍事博弈具有典型的“非零和”特性. 戰爭開始 及結束時機, 需要綜合考慮政治意圖、戰略目的、敵 我能力變化和國際環境等, 以實現國家利益最大化. 達成國家利益最大化時, 有可能是雙方軍事作戰在 某一階段的“雙輸”“/ 雙贏”局勢, 也可能是在實現政 治、經濟等目的后的“僵持”局勢. 這種模糊、復雜、 稀疏及非零和的博弈收益, 無法依靠單一指標的價 值網絡來評價。

3.1.3 策略空間巨大且難以達成均衡解

軍事博弈具有異常龐大的狀態策略空間, 難以 依靠遍歷求解或模擬仿真等傳統方法進行求解. 指 揮員每次決策都會涉及任務類型、執行單位、空間 和時間的選擇, 不同作戰單位和作戰行動之間的時 間協同、效果協同和任務協同進一步增大了策略空 間. 棋牌類游戲的狀態空間復雜度均是有限的, 星際 爭霸游戲的狀態空間仍在現有算法算力解決范圍內. 而解決擁有巨大狀態策略空間的軍事博弈問題, 不 僅對構建戰爭抽象模型提出了挑戰, 更對軟硬件運 算能力提出了要求. 軍事博弈策略求解面臨三大難題. 一是多方博 弈增大了達成納什均衡的難度. 在當今全球一體化 現狀下, 各國在政治、經濟、文化和軍事等多方面密 切相連, 戰爭不僅僅是兩國之事, 更多情況下會涉及多國利益. 在多方博弈問題中, 納什均衡求解的復雜 度隨著局中人數量的增加呈指數上升. 二是多軍兵 種參戰增加了協同難度. 作戰力量多元化是聯合作 戰一大特征, 不同領域作戰力量的合理利用和協同 互補是擬制作戰方案計劃的重要內容, 這也是實現 決策智能無法回避的內容. 三是不存在最優策略能 穩定勝過其他策略. 在策略學習與探索過程中, 策略 之間相互克制和歷史遺忘的特性十分明顯, 單純采 用自博弈訓練方式, 可能會陷入在不同策略間游移 但水平停滯不前的境地. 由于難以推理敵方策略行 動, 需要在不同子博弈之間尋找平衡. 戰爭規則的多樣性、創新性和復雜性, 進一步增 大了狀態策略空間的規模和納什均衡的求解難度. 戰爭參與者都試圖通過作戰行動來達成作戰目的, 策略會因戰場態勢的不斷更新而時刻變化, 出奇制 勝和另辟蹊徑的戰法創新為各方所推崇追尋. 面對 同一戰場態勢, 各方可能采取不同的響應動作, 而指 揮員的決策風格也不盡相同.

3.1.4 面向任務使命的長程規劃難以實現

現代作戰已從傳統的由外及內逐層消滅敵人的 線性作戰, 轉變為集中全域力量進行全縱深整體打 擊的非線性作戰. 戰爭事件因果關系復雜, 通常難以 在短時間內呈現, 作戰行動的執行效果可能在長時 間后才會有所體現. 方案計劃的制定要始終圍繞使 命任務進行主動籌劃和戰爭設計, 研究作戰行動與 作戰效果之間的非線性關系. 這種長遠且全局的規劃視野, 體現了人類指揮 員的指揮藝術和大局觀. 美軍率先提出基于效果作 戰(effect based operation, EBO)概念, 通過逆向規 劃將目標分解為具體預期效果. EBO 理論從邏輯上 講難以實現, 因為在不確定環境中無法確定某一行 動的結果, 同時也忽視了對抗性這一戰爭本質[23] . 中 外學者通常使用影響網進行研究, 結合博弈論實 現對抗條件下作戰方案計劃的生成[24] . 強化學習天生 具有“行動-效果”的探索能力, 為解決 EBO 提供了新 思路. 長程規劃應能夠體現戰爭設計的前瞻性、各領 域各層級的協同性以及指揮藝術性. 一是主動籌劃 行動以掌握戰場主動權, 瞄準作戰目的, 確保作戰進 程朝著終止態勢發展而不“走偏”, 優先完成“觀察判斷-決策-行動”循環;二是適應性調整方案以應對 戰場中的不確定干擾, 確保己方作戰過程持續進行 而不會“中斷”, 具有較強的學習能力和泛化性. 為此, 策略學習應具有記憶功能, 以判斷什么樣的行動產 生了好的效果、什么樣的策略更具有獲勝的可能性. 正如 AlphaStar 使用長短時記憶網絡捕捉歷史信息, 構建虛擬競技場保持策略穩定, 并采用持續強化學 習實現策略不斷更新進化.

3.2 智能博弈應用展望

3.2.1 基于知識規則的智能技術

知識來源于實踐, 人類在解決問題時更傾向于 遵循成熟規則. 機器還難以模仿人類大腦的復雜學 習能力, 智能博弈水平需要漫長的成長過程. 傳統基 于知識的專家系統, 利用人類經驗和專家知識, 便可 解決各領域復雜問題. 在深度學習盛行之后, 基于知 識規則的智能技術依舊取得了不凡成績. 例如, 東京 大學日麻 AI 系統利用 9.6 萬多條規則進行監督學習, 達到了專業六段水平;韓國三星的 SAIDA 系統完全 憑借職業玩家總結的規則知識, 在 2018 年 IEEE 舉 辦的星際爭霸比賽中獲得第一. 即便是融合了深層 神經網絡的 AlphaGo 和 AlphaStar, 依然需要在預訓 練中使用大量人類對局數據進行模仿學習. 雖然 AlphaZero 和 Muzero 能夠完全通過自主學 習實現成長[25] , 但圍棋游戲與戰爭對抗存在天壤之 別, 難以直接應用于軍事領域. 強化學習算法還難以 實現從基本策略中總結出高層策略, 現有的條令條 例、規劃流程、作戰規則等大量知識可轉化為知識 網絡以引導 AI 系統決策.

3.2.2 人機融合實現決策智能

戰爭的非透明性和不確定性, 使得作戰籌劃及 指揮控制過程極其復雜, 單純依靠人類大腦難以滿 足決策速度和精度要求, 而完全依賴機器又難以滿 足決策的可解釋性. 人機融合決策具有兩個明顯特 性, 如圖 10 所示. 一是層次性, 指揮決策具有科學性 和藝術性, 科學性隨指揮層次提升而降低, 藝術性與 之相反. 低層級指揮決策可采用傳統運籌學、貝葉斯 網絡、機器學習等科學方法, 這是實現決策智能的基 礎;中間層級指揮決策采用不同程度的人機協作決 策, 重點研究人機協作的時機、場合和方式等;而高 層級指揮決策需要由指揮員及參謀機構擬制. 二是 交替性, 傳統的 OODA 環已轉化為具有學習機制的 OODA 螺旋[11] , 指揮決策成為一個滾動迭代、不斷優 化的過程. 人與機器在各環節都有擅長與不足之處, 例如:態勢理解環節, 機器善于處理海量數據、提取 態勢特征和簡單戰斗戰術級態勢理解, 人來負責復 雜戰術戰役級態勢理解及意圖判斷;行動決策環節, 機器善于快速運籌計算和基于數據挖掘關聯關系, 人來負責基于因果關系進行非即時反饋決策. 在 OODA 循環中, 人與機器交替進行智能決策, 并推進 其螺旋上升.

3.2.3 混合技術突破軍事智能瓶頸

軍事博弈的復雜性決定了需要依靠多種技術手 段, AlphaStar 結合了神經網絡、多智能體、強化學 習、模仿學習、聯盟機制以及各種網絡結構和參數 的巧妙設計, 才實現了最終效果. ONTANON 等總結 了多智能體 RTS 游戲的難點及應對措施[26] , 為軍事 智能博弈研究發展提供了很好借鑒. 如圖 11 所示, 軍事智能博弈需重點關注以下幾點: 1)任務分解. 采用分層任務網絡、影響網絡和 影響圖等技術, 將戰役任務按時間、因果和邏輯等關 系進行分解, 降低整體求解難度. 2)策略分層. 模擬人類思維流程進行分層決策 和多尺度規劃, 上層策略為下層規劃目標, 而下層策 略的執行支撐了上層策略, 如高層策略關注戰役全 局問題、底層策略聚焦短期利益、即時策略控制反 應式動作. 3)規劃方法. 靈活運用多種規劃方法:低層次局 部任務規劃與高層次全局作戰規劃的一致性耦合;復 雜多目標問題求解的優化與效率的均衡;在理論和技 術條件下, 若能基于知識規則進行規劃, 則應避免使 用強化學習. 4)策略學習. 一是基于歷史或仿真數據的策略 模仿學習, 解決復雜問題從零學習的困境;二是基于 聯盟機制的策略持續學習, 解決策略持續優化、避免 陷入死循環的困境;三是基于通用 AI 技術的策略遷 移學習, 解決知識經驗和學習機制在不同場景下的 共享問題. 5)不確定性推理. 針對戰場信息不完全性增加 偵察策略, 構建預測模型對戰場態勢、敵方意圖及行 動策略進行推理;針對廣闊戰場空間和作戰單位功能 各異, 需要合理安排力量跨域作戰、資源空間轉移和 行動空間協同等問題, 進行空間不確定性推理;針對 戰爭非即時反饋特點, 既需要解決當前危機, 又要長 遠地規劃資源利用和策略轉換等問題, 進行時間不 確定推理. 6)知識圖譜. 以圖譜形式組織軍事領域知識, 構 建基礎知識圖譜;基于歷史數據及專家經驗, 構建敵 方意圖圖譜;針對不同決策場景, 結合指揮員經驗總 結, 構建我方行動推薦圖譜.

**3.2.4 對抗博弈用于強化訓練和戰法研究 **

戰爭謀略是長期作戰實踐的經驗總結. 通過對 抗博弈, 機器學習人類已有經驗知識, 人類從機器行 為表現中得到啟發, 實現人類決策能力與機器智能 水平的共同提升. 以戰役級計算機兵棋系統為訓練 平臺, 基于敵軍戰法規則構建智能對手, 通過人機博 弈對抗進行戰法研究和方案檢驗, 持續提升指揮員 的決策能力和戰場大局觀. 借鑒 AlphaStar 的虛擬競 技場思路, 通過機器自博弈探索不同行動方案并進 行評估, 從而克服指揮員傳統思維禁錮, 尋找好招、 奇招與妙招. 面向未來無人作戰領域, 大力發展多智 能體博弈策略生成的關鍵技術[27] .

4 結論

通過梳理經典智能博弈理論方法和軍事博弈特 征, 得出以下結論:1)軍事博弈與游戲存在顯著區 別, 戰爭注重指揮藝術性和決策科學性的結合, 強調 戰爭設計和“運籌帷幄”;2)軍事博弈更加強調面向 戰役使命進行長遠規劃, 而非游戲的反應式規劃, 必 須兼顧宏觀策略規劃和微觀戰術選擇;3)軍事博弈 問題規模遠遠大于游戲場景, 種種不確定性因素和 動態連續的激烈對抗, 增大了均衡策略的求解難度. 因此, 智能博弈相關技術方法還難以完全用于解決 戰爭問題. 面對復雜的戰爭系統, 長期積累的軍事知 識和作戰經驗能夠引導機器減少盲目搜索, 并避免 犯下違背軍事常識的錯誤;人機交互式決策在保證速 度和精度的同時, 還可通過“人在回路”提高決策的 適應性;如何利用已有技術手段解決現有復雜問題, 聚焦于智能技術混合使用方式, 是亟需研究的內容.

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

針對人機交互語音識別技術軍事應用的現狀,介紹語音識別技術的發展歷史,并對其軍事應用進行分析。 將關鍵詞識別技術應用于軍事場景中,介紹目前主流的幾種關鍵詞識別模型,并對其在軍事領域的應用進行展望。 結果表明,該分析能為語音人機交互技術應用于軍事裝備提供參考。

工業化時代,按鈕、開關、拉桿等被應用于機 器控制,是人機交互的主要手段。電子信息化時代, 新增了感應式觸摸屏、實體或虛擬數字鍵盤、軟件 菜單等人機交互手段,人機交互手段進一步豐富。 智能化時代,基于語音、肢體動作識別的非接觸式 新興人機交互手段因使用方式靈活、便捷等優勢, 在商用領域的發展和應用十分活躍。軍事裝備的人 機交互手段,因在高強度對抗的戰場環境中應用, 不但要求方式靈活、便捷,而且更為關注交互的快 速性和準確性,這是人機交互語音識別技術軍事化 應用發展的重點。

付費5元查看完整內容

智能博弈是認知決策智能領域的挑戰性問題, 是輔助聯合作戰籌劃與智能任務規劃的關鍵支撐. 從協作式團隊博弈、競爭式零和博弈和混合式一般和博弈共3 個角度梳理了智能博弈模型, 從認知角度出發定義了運籌型博弈(完全/ 有限理性)、不確定型博弈(經驗/知識)、涌現探索型博弈(直覺+ 靈感)、群體交互型博弈(協同演化)共4 類智能博弈認知模型, 從問題可信任解、策略訓練平臺、問題求解范式共3 個視角給出智能博弈求解方案. 基于Transformer 架構重點梳理了架構增強(表示學習、網絡組合、模型擴展)與序列建模(離線預訓練、在線適變、模型擴展)共2 大類6 小類決策Transformer 方法, 相關研究為開展“離線預訓練+ 在線適變”范式下滿足多主體、多任務、多模態及虛實遷移等應用場景的決策預訓練模型構建提供了初始參考. 為智能博弈領域的決策基石模型相關研究提供可行借鑒.

博弈一詞的英文單詞為 Game, 英文直譯為游戲, 早年國內譯為對策、賽局. 博弈問題的研究本質是通 過將除己方外其他參與方的行為策略考慮在內制定 己方對策過程. 未來軍事對抗具有環境高復雜、信息 不完整、博弈強對抗、響應高實時、自主無人化等突 出特征, 無人集群自主協同、作戰仿真推演和智能任 務規劃等挑戰課題都亟需智能博弈相關技術的支撐. 協作與競爭是雙生體, 廣泛存在于認知決策博弈領 域. 博弈智能是認知智能的高階表現形式. 近年來, 借助各類計算機博弈平臺, 面向智能博弈(intelligent gaming)的相關人工智能技術得到迅猛發展. 智能博 弈本質是指協作、競爭或對抗場景下, 利用博弈理論 分析問題、智能方法求解應對策略的過程. 人機對抗 (human computer gaming)作為圖靈測試的典型范式, 是測試人工智能(artificial intelligence, AI)技術程序 的主要手段和基準[1] , 是智能博弈的重要表現形式. 智 能博弈作為智能指揮與控制領域研究決策智能的基 準挑戰, 是當前研究決策大模型的試驗場和果蠅. 當 前圍繞智能博弈問題的求解, 已然傳統的“知識與搜 索”、“博弈學習”范式過渡到“模型與適應”范式, 其 中, 包括面向小模型的“預訓練+微調”和面向大模型 的“基石模型+情境學習”.

圍繞人類認知能力的認知建模技術已然成為 AI 領域的前沿課題. 近年來, 隨著 AI 技術的發展和 GPU 性能的逐年翻倍, AI 大模型/基石模型[2]在視覺 與語言智能計算、智能博弈領域取得了快速發展. 基 于大模型的 AI 生成內容(AI-generated context, AIGC) 技術未來將成為一種基礎設施, AI 生成行動 (AIgenerated action, AIGA)相關技術(行為生成、模型生 成)為決策問題求解提供了可行方案. 伴隨著 2022年 年末 ChatGPT 的出現, 各類基石的出現已然引發了 AI 各賽道里的“軍備競賽”, 但一般的語言能力無法 完全匹配決策需要的推理能力, 如何構建“決策基石 模型”已然成為當前 AI 與智能決策領域的前沿問題. Transformer 作為一種利用注意力機制來完成序 列到序列變換的表示學習模型, 利用此類模型構建 智能博弈問題的決策策略求解方法是熱門研究方向. 基于 Transformer 的表示學習方法[3]和序列建模方法[4] 及多模態融合學習方法[5]引發了各大領域(自然語言 處理、計算機視覺、語音與視頻、智能博弈決策)的 持續關注. LI 等[6]從表示學習、模型學習、序貫決策 和通才智能體 4 個角度對基于 Transformer 的強化學 習方法進行了綜述分析. HU 等[7]從架構增強(特征表 示、環境表示), 軌跡優化(條件行為克隆、經典強化 學習、預訓練、泛化性)和典型應用(機器人操控、文 字游戲、導航、自動駕駛) 共 3 大類對基于 Trans原 former 的強化學習方法進行了總結對比分析. 當前圍 繞決策 Transformer 的方法可分為 3 大類:直接利用 大語言模型類(百科、視頻、互聯網知識)、基于框架 變換的表示及模型學習類 (表示學習、環境學習)、 基于決策問題重構的條件生成類(序列建模、行為生 成、世界模型生成). 如何為規劃與決策領域的智能博弈問題設計新 型求解框架仍充滿挑戰. 本文圍繞智能博弈問題展開, 梳理各類問題的博弈模型, 創新性構建智能博弈認知 模型, 探索性給出智能博弈問題的求解范式;重點梳 理面向智能博弈問題求解的決策 Transformer 方法

付費5元查看完整內容

無人車(UGV)可替代人類自主地執行民用和軍事任務,對未來智能 交通及陸軍裝備發展有重要戰略意義。隨著人工智能技術的日益成熟, 采用強化學習技術成為了無人車智能決策領域最受關注的發展趨勢之 一。本文首先簡要概述了強化學習的發展歷程、基礎原理和核心算法;隨后,分析總結了強化學習在無人車智能決策中的研究進展,包括障礙 物規避、變道與超車、車道保持和道路交叉口通行四種典型場景;最后, 針對基于強化學習的智能決策面臨的問題和挑戰,探討并展望了未來的 研究工作與潛在的研究方向。

1. 引言

無人車是指不具有人類駕駛機構并可以自主執 行運輸、公交、物流、清掃、巡邏、救援、作戰、偵 察等民用或軍用任務的智能車輛。在民用領域,無 人車已成為未來智能交通與智慧城市建設的核心要素。在軍用領域,無人車也已成為各軍事大國競相 角逐的新一代陸軍裝備。無人車的核心技術主要有 環境感知、智能決策、路徑規劃、動力學控制、集 群調度等相關技術。其中,智能決策是無人車的關 鍵核心技術之一,其性能是衡量無人車智能化水平 的重要標準。智能決策系統根據任務調度信息、環 境感知信息和無人車狀態信息等,做出合理、安全 的駕駛決策,并輸出車輛控制指令,以控制車輛完 成指定任務。 無人車智能決策系統的算法主要包含規則驅 動[1-2] 和數據驅動兩類算法[3-4] 。由規則驅動的決 策系統基于既定規則構建,其根據人類駕駛經驗及 交通規則等建立相應的駕駛行為決策庫,結合感知 系統得到的環境信息進行車輛狀態的劃分,依據預 設的規則邏輯確認車輛行為[5] 。這類基于規則的 決策系統無法枚舉和覆蓋所有交通場景,且在交通 復雜、不確定性強的路況中,常因規則數目冗雜和 行為決策庫觸發條件的重疊而導致決策無法求解、 決策系統的自適應性和魯棒性不足等問題。基于強 化學習的決策方法是數據驅動的無人車決策系統的 代表,該方法將無人車決策過程視為黑箱,利用機 器學習建立由傳感器到轉向系統、驅動系統、制動 系統等執行機構的映射,實現基于高維度感知數據 對執行機構的直接控制。這類決策算法把整個自動 駕駛過程與神經網絡深度融合,通過由數據驅動的 仿真訓練使神經網絡學習在不同交通場景下的智能 決策能力。

強化學習技術是人工智能領域的研究熱點,適 用于 解 決 復 雜 的 序 貫 決 策 問 題,在 機 器 人 控 制[6-7] 、調度優化[8-9] 、多智能體協同[10-11] 等領域 中,取得了令人矚目的成果。強化學習的基本思路 是智能體依靠探索試錯以及環境交互的方式,結合 反饋信號學習最優策略。近些年,隨著強化學習的 廣泛研究和應用,特別是綜合了深度學習的特征提 取能力和強化學習的策略優化能力的深度強化學習 (deepreinforcementlearning,DRL)取得突破性進展 之后,采用強化學習技術解決無人車智能決策問題 成為無人車領域最受關注的研究方向之一。

本文旨在綜述強化學習在無人車領域的應用。首先介紹了強化學習的發展歷史、基礎原理和核心 算法;然后分析總結了強化學習在無人車智能決策 問題中的研究現狀,包括避障、變道與超車、車道 保持及道路交叉口通行四個典型的決策場景;最后 探討并展望了未來的研究工作和潛在的研究方向。

1 強化學習的基本理論

強化學習是動物心理學、最優控制理論和時序 差分學習等學科交叉的產物[12] 。強化學習的“試 錯”思想源于動物心理學家對試錯行為的研究,最 早可追溯到 Pavlov的條件反射實驗。1911年美國 心理學家 Thorndike提出效應定律,第一次明確地 闡述了試錯行為的本質是學習。最優控制理論,是 現代控制體系的關鍵分支之一。在 20世紀 50年代 初,美國數學家 Bellman等提出求解最優控制的動 態規劃法(dynamicprogramming,DP),該方法衍生 出了強化學習試錯迭代求解的機制。時序差分學習 (temporaldifferencelearning,TDL)是 DP和蒙特卡 洛方法結合的產物。1959年 Samuel首次提出并實 現一個包含時序差分思想的學習算法。1989年 Watkins在他的博士論文將最優控制和 TDL整合, 并提出 Q學習算法,這項工作正式標志著強化學習 的誕生,該算法通過優化累積未來獎勵信號學習最 優策略。隨后,Watkins和 Dayan共同證明 Q學習 算法的收斂性。表 1總結了強化學習發展歷程中的 若干重要事件。

2 強化學習在自動駕駛領域的應用

2.1 在避障問題中的應用

在避障問題中無人車根據自車和障礙物的位置 和狀態信息,在滿足乘坐舒適性和行駛安全性的條 件下,輸出轉向、制動和油門指令控制車輛規避障 礙物。 Arvind等[22-23]提出基于 MLPSARSA和基于 MLPQ學習的避障算法。設計了以車載的 7個超 聲波雷達的感知數據為輸入量,輸出離散的制動、 轉向和加速動作的端對端決策模型,將多層感知機 (multilayerperceptron,MLP)引入到對 Q函數的預 測中,以提高避障策略的收斂速度。車輛在包含多 個動態障礙物的仿真環境下實現自主避障,且無碰 撞通行的成功率達 96%。 Chae等[24] 提出復雜城市場景下基于 DQN的主 動制動算法,如圖 4所示。使用 6層的深度神經網 絡架構,采用障礙物相對于主車的橫向和縱向的位 置和速度作為 DQN網絡輸入,輸出無制動、弱制 動、中制動和強制動四個不同強度等級的制動動 作。在獎勵函數的設計中,考慮車輛的乘坐舒適性 和安全性,對過早的制動行為和與障礙物發生碰撞 進行懲罰。經過 2000次的迭代訓練,無人車能有 效地處理行人橫穿馬路等隨機突發事件,但面對碰 撞時間(timetocollision,TTC)等于 1.4s的緊急工 況僅有 74%的避障成功率。

雖然上述基于值函數的避障算法通過將動作離 散化取得較好的避障效果,但在執行動作的精度和 緊急情況下的避障成功率上仍然有待提高。部分學 者考慮將用于高維連續空間的基于策略的強化學習 方法應用于避障問題中。 Zong等[25-26] 設計基于 DDPG的避障算法,策 略網絡以車載的多類型傳感器融合感知數據作為狀 態輸入,輸出動作空間連續的轉向、油門、制動動 作。相比于文[24],該算法解決了連續動作空間下 避障決策所引發的維數災難,實現動作空間連續的 車輛動作輸出,提高了決策模型輸出動作的精度。 Porav等[27] 在研究中運用變分自編碼器(varia tionalautoencoder,VAE)對障礙物特征降維,將高 維語義圖像映射到低維且保留原始語義信息的隱變 量,將低維的隱變量及其預測狀態作為 DDPG網絡 輸入,有效剔除了環境無關因素對決策的影響,并 提高了決策模型訓練收斂速度。此外,作者建立基 于 DeltaV模型的獎勵函數,利用碰撞前后車輛速 度差值衡量車輛碰撞的嚴重程度,以量化危險駕駛 行為的懲罰。相比于文[24],該算法在 TTC為 1s 和 0.75s的極端緊急情況,仍能保持 100%和 95% 的避障成功率。

Fu等[28] 詳細分析了車輛在緊急情況下的制動 過程和乘坐舒適性變化,提出包含多目標獎勵函數 的 DDPG算法,可綜合衡量制動觸發時刻、事故嚴 重程度和乘坐舒適度等指標。在仿真試驗中,所提 出算法在緊急情況下避障成功率相較于基于 DDPG 和 DQN的避障算法分別提高 4%和 12%。 余伶俐等[29] 針對無人車在避障過程中對周圍 車輛駕駛意圖預判不足的問題,設計了基于蒙特卡 洛預測—深度確定性策略梯度(MCPDDPG)的決策 方法。該方法假設車輛狀態的轉移滿足馬爾可夫 性,將周圍車輛的位置和速度作為觀測方程參數, 利用 MCP預測其他車輛的運動軌跡,有效地提高 決策模型在緊急情況下的響應時間。實車試驗證明 該決策方法能夠有效預估碰撞風險,降低無人車發 生碰撞的概率。 基于強化學習的方法雖然可通過增加避障場景 庫的廣度,以盡可能多地覆蓋各種復雜避障工況。 但當面臨 TTC過小等臨近碰撞的極端工況,決策模 型的穩定性和安全性亟待提高。

2.2 在變道與超車問題中的應用

在變道與超車問題中,無人車根據自車和周圍 車輛狀態、自車的期望速度和交通規則約束等,做出變道及超車決策,指導車輛超越前方低速車輛, 以盡快地通過特定的交通流。 Loiacono等[30] 提出基于 Q學習的超車決策算 法,建立了包含主車和前方車輛相對距離、相對速 度,主車和車道邊緣橫向距離等在內的離散狀態, 并以 有 限 的 離 散 動 作 驅 動 車 輛 完 成 超 車。在 TORCS賽車模擬器中驗證了該算法在直線賽道和 彎道上的超車效果,在超車持續時間、超車時最高 車速和超車成功率等指標上明顯優于人類駕駛員。 針對求解連續空間下超車決策問題時 Q學習 存在的計算效率低的問題。Liu等[31-32]提出基于 線性函數逼近強化學習的變道決策算法。作者將變 道場景建立為狀態、動作空間連續的 MDP模型,將 基于多核的最小二乘策略迭代法(multikernelLSPI, MKLSPI)引入對 Q函數的擬合中,并基于國防科技 大學研制的紅旗 HQ3無人車采集的實車感知數據, 對決策算法開展離線測試工作,論證了算法的有效 性和泛化能力。Min等[33]利用非線性值函數逼近 的方法,提出基于 DuelingDQN的超車決策算法, 構建以卷積神經網絡(convolutionalneuralnetworks, CNN)和長短期記憶網絡(Longshorttermmemory, LSTM)提取的視覺圖像和雷達點云的特征作為狀態 輸入,輸出橫向的變道操作及縱向的車速變化的決 策模型。該算法改進 DQN網絡結構,利用 DNN輸 出的狀態值函數和動作優勢函數近似擬合 Q函數, 提高了策略學習的收斂速度。 An等[34] 提出車聯網環境下基于 DDPG的變道 決策算法,網絡結構如圖 5所示。該算法策略網絡 輸入包含兩部分,分別為由車載傳感器獲得的主車 狀態信息和由 V2X通信獲得的前方車輛狀態信息, 并通過 2個全連接的隱藏層輸出對主車油門和方向 盤的控制。在 Airsim軟件中的仿真實驗驗證該算 法的有效性,但由于輸入層網絡結構固定,其僅能 處理 2個車輛交互這種簡單場景,缺少對更為復雜 交通場景的適應性。

針對文[34]無法處理無人車在復雜的包含多 車交互場景下變道的問題。Wolf等[35]提出一種基 于通用語義狀態模型的超車決策算法。該算法將駕 駛場景抽象映射到一個包含交通參與者列表(車 輛、行人、車道等)并疊加場景關系描述(交通參與 者相對于主車的速度、位置、相對車道信息等)的 跨場景、通用的語義狀態模型,實時地輸入到基于 DQN的決策模型中。在 SUMO仿真環境中,該算 法可處理存在 7輛交互車輛場景下的超車決策問題。Huegle等[36-37]提 出 基 于 DeepSetQ 學 習 和 Set2SetQ學習的超車決策算法。作者分別利用深 度集(deepsets,DS)和圖卷積網絡(graphconvolu tionalnetwork,GCN)提取無人車感知域內多車的狀 態特征,作為 DQN網絡輸入,解決了基于 DQN的 決策算法因網絡結構固定,無法處理數量可變的狀 態輸入的問題,提高超車決策算法在不同交通密度 場景應用的可移植性。

在變道與超車場景中,復雜的環境狀態和車輛 動作空間,以及多車間的交互行為,導致訓練過程 中策略難以收斂。有學者將分層思想和模仿學習 (imitationlearning,IL)引入到基于強化學習的決策 算法中。 Duan等[38] 提出高速公路場景下基于分層強化 學習(hierarchicalreinforcementlearning,HRL)的變 道決策算法,算法框架如圖 6所示。決策網絡包括 主策略和子策略兩層,分別用于高層行為決策(車 道內駕駛、左/右車道變換)和底層運動控制(方向 盤轉角、車輛速度等控制)。HRL將復雜的變道決 策任務分解為若干個簡單的子任務,在不發生維數 災難的情況下實現多任務學習,提高決策算法場景 遍歷的廣度。此外,受啟發于 A3C算法多線程并 行的訓練方式,作者利用異步并行訓練的網絡參數 的平均梯度更新共享網絡參數,以加快 HRL訓練 速度。 宋曉琳等[39] 提出 IL和強化學習結合的決策算 法,將變道決策劃分為宏觀決策層和細化決策層。 宏觀決策層中,作者基于專家變道決策的示范數據 集構建極端梯度提升(eXtremeGradientBoosting, XGBoost)模型,模仿經驗豐富的專家駕駛員做出宏 觀決策。細化決策層中,作者構造多個基于 DDPG 算法的子模塊,分別處理車道保持、左變道和右變道中具體執行的動作。在 Prescan軟件中的仿真訓 練,所提出方法策略收斂所需的步數較基于強化學 習的方法降低約 32%。Liang等[40] 提出基于可控模 仿 強 化 學 習 (controllable imitative reinforcement learning,CIRL)的變道決策算法。首先利用引入門 控機制的 IL網絡學習專家提供的駕駛示范集,通 過網絡權重共享的方式將預訓練結果遷移到 DDPG 決策模型中,以初始化 DDPG動作探索策略,解決 了連續動作空間下 DDPG算法探索效率低、對超參 數敏感的問題。

針對變道與超車過程中未知和不確定性因素對 無人車安全性的影響。Zhang等[41] 考慮前車異常駕 駛行為對超車安全性的影響,將模糊推理系統 (fuzzyinferencesystem,FIS)引入到變道決策中。 其主要思想是基于車載激光雷達獲得的前方車輛的 位置、速度和航向角,利用 FIS分析前方車輛的駕 駛激進度,進而判斷超車風險類型,以指導基于強 化學習的決策算法采取保守或激進的超車策略。 Althoff等[42-43] 考慮周圍車輛駕駛意圖未知、感知 系統觀測不完整、傳感器的擾動與噪音等不確定因 素,提出基于安全強化學習的變道決策算法。運 用可達性分析(reachabilityanalysis,RA)[44-46] 預測 周圍車輛在滿足物理約束和交通規則下,在設定時 間內所有可能的可達集,通過判斷無人車和其他車 輛的可達集是否存在交集,來驗證變道決策的安 全性。 從上文綜述可知,基于強化學習的決策算法在 處理動態多車交互、策略收斂速度、決策安全性方 面有較大的局限性,且難以從強化學習模型本身加 以改進。與安全驗證、行為分析及其他機器學習方 法相結合,可顯著地提高基于強化學習的變道和超車決策算法的性能。

2.3 在車道保持問題中的應用

在車道保持問題中,無人車根據車載傳感器獲 得的車道線信息,輸出車輛方向盤轉角控制指令, 以使車輛在車道中心線附近行駛。 視覺感知是檢測車道線的最有效手段。方 川[47] 提出基于 DoubleDQN的車道保持算法,以原 始的 RGB圖像作為網絡輸入,分別利用當前 Q網 絡和目標 Q網絡處理方向盤控制動作選擇和目標 Q 函數預測。在仿真試驗中,車輛在直線車道及大曲 率彎道的車道保持任務中均表現出良好的性能。 Kendall等[48]提出視覺感知數據輸入下基于 DDPG 的車道保持算法(如圖 7),并將在虛擬環境中訓練 好的算法網絡結構和參數遷移到實車上,車輛僅依 靠單目相機的 RGB圖像完成了 250m的車道保持 路測。然而該方法忽略視覺傳感器抗干擾能力差、 易受光照影響等缺點,且決策模型場景遍歷的深度 不足,難以完成特殊天氣條件下的車道保持任務。

原始視覺圖像包含大量與決策無關的環境細 節,而細微的環境變化易導致決策模型錯誤,進而 引發車輛駛出車道等危險駕駛行為。針對此問題, Wolf[49] 利用機器視覺剔除無關環境信息,提取車道 線的灰度化圖像,構建由灰度化的視覺圖像到車輛 方向盤的端對端決策,降低細微的環境亮度變化及 無關環境細節對決策模型的影響。并利用經驗回放 機制降低訓練樣本的相關性,以減輕 DQN算法處 理高維圖像數據時存在的不穩定性。 視覺感知缺少車輛與道路邊緣的距離信息,而 其他具有目標距離測量功能的傳感器對提取車道線 信息具有重要的補充作用。楊順等[50]研究了多源 感知數據輸入下基于 DDPG的車道保持算法,如圖 8所示。策略網絡分別利用一維和二維 CNN提取低 維目標級感知數據和高維視覺圖像數據的特征,并 輸出每一時間步長內車輛的動作,價值網絡根據策 略網絡提取的低維特征和輸出的車輛動作預測 Q 函數。作者構建包含期望車速、車輛偏離中心距 離、車輛與車道中心線的夾角在內的獎勵函數,指導車輛與環境交互。在直線車道和彎道下的仿真實 驗中,車輛的橫向偏移量和車輛與車道中心線的夾 角均保持在理想的范圍內。作者利用不同 CNN對 多類型傳感器數據進行特征提取,并通過特征組合 的方式,解決了視覺傳感器獲取車道線信息不完 備、信息冗余性差的問題。

基于強化學習的車道保持算法具有重大的應用 潛力,但是視覺傳感器作為主要的車道線檢測手 段,其感知圖像包含豐富的環境細節,且圖像細節 隨光照、天氣等環境因素顯著變化,給決策模型的 穩定性和泛化能力帶來巨大的影響。引入能穩定地 在復雜多變環境下提取車道線特征的方法,并有效 地利用和融合其他類型傳感器數據,對提高決策性 能有著重要意義。

2.4 在道路交叉口通行問題中的應用

在道路交叉口通行問題中,無人車根據交叉口 各車道上車輛位置、速度及交通規則等,輸出執行 機構控制指令,以控制車輛無碰撞地通過交叉口。 無交通信號燈的交叉口通行是最具挑戰性的交 通場景,學者們對基于強化學習的通行決策方法進 行大量研究。Saxena等[51]設計基于近端策略優化 (proximalpolicyoptimization,PPO)的通行決策算 法。作者利用由數據驅動的仿真訓練建立交叉口中 無人車周圍車輛間交互的隱式模型,并通過設置車 輛的加速度和轉向角度閾值,減少不良的加速和轉 向動作,提高乘坐舒適性。Qiao等[52]提出課程式 學習(curriculumlearning,CL)和 DRL結合的交叉 口決策算法。作者利用 CL自動生成若干由簡單到 復雜的樣本,引導 DRL學習駛入并通過城市交叉路口的策略,仿真實驗中通過交叉口的成功率達 98.7%。 Müller等[53]提出基于視覺場景理解的決策算 法,引入編碼器—解碼器網絡來提取 RGB視覺圖 像更細化的語義特征,實現原始圖像到多場景通用 的語義分割圖像的映射,將語義圖像作為決策模型 輸入,輸出車輛期望的軌跡。其后,作者將訓練好 的決策模型遷移至小型卡車上,車輛可在多個駕駛 場景(晴朗、陰天、雨雪)自主地通過交叉路口。該 方法通過模塊化和抽象語義分割的方法降低真實場 景傳感器噪聲等對決策的影響,提高決策算法的遷 移能力。 無交通信號燈的交叉口中車輛缺少交通規則約 束。無人車無法獲悉其他車輛的駕駛意圖,因而無 法預判其行駛軌跡,且因車輛間的相互遮擋易造成 無人車的感知盲區,給決策的安全性帶來巨大隱 患。Isele等[54-55]利用卡爾曼濾波 (Kalmanfilte ring,KF)預測可能與無人車發生碰撞車輛的行駛 軌跡,并根據預測結果約束 DQN決策算法的動作 空間,提高車輛在交叉口通行的安全裕度。Gruber 等[56] 設計基于 RA的在線安全驗證方法,利用 RA 建立其他車輛未來時間在交叉口所有可達集,以驗 證決策的安全性。其后,Lauer等[57]提出基于 RA和責任敏感安全模型(responsibilitysensitivesafety, RSS)的驗證方法,解決了 RA因考慮最危險情況下 周圍車輛的占用空間而導致的無人車在交叉口駕駛 策略過度保守的問題。Stiller等[58] 提出一種風險認 知 DQN的交叉口決策算法,在獎勵函數中引入風 險項度量感知盲區內的車輛對決策安全性的程度, 減少無人車采取冒進決策行為的概率。 無交通信號燈的交叉口的復雜程度高,且事故 風險隱患多,給無人車決策的安全性帶來巨大挑 戰。基于強化學習的決策模型無法有效預估事故風 險,結合行駛軌跡預測、安全性驗證等方法對提高 決策安全性具有重要意義。

3 強化學習在無人車領域的應用展望

無人車可自主執行運輸、物流、清掃、巡邏、 救援、作戰、偵察等民用或軍用任務,是未來智能 交通與新一代陸軍裝備發展的核心要素,對汽車產 業發展與國防安全建設具有重要意義。面向未來無 人車技術發展需求,高效、準確、穩定的智能決策 技術已經成為限制無人車行業水平提升與大規模產 業應用的關鍵技術瓶頸。強化學習技術是實現無人 車智能決策技術水平提升的最重要突破口之一。但 是,基于強化學習的智能決策存在泛化能力弱、可 解釋性差,缺少安全驗證等問題,限制了其在實車 上的應用。此外,云控制、車聯網及大數據等先進 技術在無人車領域的應用極大程度拓寬了強化學習 技術的應用內涵,帶來了全新的挑戰與不確定性。 下面指出未來強化學習技術在無人車領域的研究 重點:

1)提高強化學習在無人車決策上的泛化能力當前研究多利用強化學習構建從無人車的傳感 器到執行機構的端對端決策。而以復雜高維的圖 像、雷達點云等原始感知數據作為決策模型的輸 入,使得表征環境狀態的特征維度過多,導致決策 模型過擬合于特定的訓練環境,難以遷移至新的駕 駛場景。此外,模型訓練中常忽略光照變化、背景 干擾等敏感環境細節以及傳感器噪音和自身擾動的 影響,使得訓練好的決策模型需要人工調參后才能 遷移到實車上。提高強化學習在無人車決策上的泛 化能力,已經成為其在無人車應用亟需解決的關鍵 問題之一。為突破決策算法在新場景中泛化能力弱 的瓶頸:(1)可借鑒虛擬到現實(Sim2Real)領域的 研究成果,利用領域自適 應 (domainadaptation, DA)等方法將虛擬訓練環境映射到真實行駛環境[59] ,以在訓練過程中最大限度地模擬無人車與 真實場景的交互過程。(2)從原始感知數據中提取 或抽象出面向通用場景的低維環境狀態表征,替代 復雜高維的原始數據作為決策模型的輸入[60] ,可 以降低決策模型精度對行駛環境的依賴性。

2)提升強化學習在無人車決策上的可解釋性

當前研究多利用基于復雜深度神經網絡的深度 強化學習學習駕駛策略。而訓練好的決策模型因其 復雜的網略結構及龐大的網略參數,導致人們難以 理解模型內部的決策過程。在決策模型出現偏差和 故障時,難以對錯誤源頭進行排查和分析。提高強 化學習在無人車決策上的可解釋性,已成為提高其 決策合理性與安全性的關鍵挑戰之一。為解決決策 算法的內部運行機制可解釋性差的弱點:(1)利用 概率圖模型(probabilisticgraphicalmodel,PGM)深 度綜合表征無人車行駛環境、行駛軌跡、交通參與 者等的時序特征,并將高度可解釋化的隱含狀態作 為模型輸入[61-63] ,可顯著地提高模型的可解釋性。 (2)利用神經網絡可視化技術以熱力圖的形式表征 決策模型內部每一層的權重參數、特征圖等,以實 現模型決策過程的透明化[64] 。(3)也可借鑒機器人 領域的最新進展,根據人類經驗將復雜的作業任務 分解為若干子任務,決策模型輸出子任務的序貫組 合,以組合的順序表征無人車決策的合理性[65] ,也 是值得深入探討的話題。

3)提高強化學習在無人車決策上的安全性

當前研究多圍繞感知完備等理想工況下的決策 任務,且對車輛行駛中的不確定性因素考慮不足。 而強化學習通過探索試錯的機制學習駕駛策略,其 隨機性的探索策略常導致不安全的駕駛行為,給決 策模型帶來潛在的安全風險。此外,無人車行駛環 境具有高度的不確定性,具體表現為周圍車輛行駛 意圖和駕駛風格的不確定性,因遮擋和感知盲區造 成的感知不完整性等,給決策模型的安全性帶來巨 大挑戰。提高強化學習在無人車決策上的安全性, 已經成為其在無人車應用亟需解決的重要技術瓶頸 之一。為提高決策算法在復雜動態場景下決策的安 全性:(1)可通過在獎勵函數中引入風險項[66] ,在 動作探索策略中引入安全約束[67] ,在動作執行中 引入安全驗證[68]等方法,降低決策模型做出激進 和危險決策的概率。(2)利用部分可觀測 MDP (partiallyobservableMDP,POMDP)將環境的不確 定性因素作為隱變量[69] ,實現環境不完全觀測下 周圍車輛的軌跡預測,可有效地提高車輛感知能力受限下決策的安全性。(3)利用基于嚴格數學定義 的形式驗證精確求解當前狀態下無人車在預定時間 內不安全狀態的可達范圍[70] ,驗證其決策行為的 安全性,以保證系統安全驗證的完備性。

4)研究無人車大數據背景下基于強化學習的

云端決策技術 基于云控制、車聯網、大數據等先進技術的云 控系統(cloudcontrolsystem,CCS)[71]在無人車領 域的應用為無人車產業化落地提供重要的技術支 撐,CCS擴大了無人車的感知域,并提供強大的算 力支持,實現無人車綜合性能的顯著提升。此外, CCS可實時地獲取并存儲各無人車的硬件和軟件系 統海量的運行數據,并基于大數據分析建立云端的 無人車性能預測模型、故障預警模型、交通流量預 測模型、車輛集群調度模型等[72-73] ,以提高無人 車群體的安全性和效率。CCS在無人車中的應用是 未來無人車發展的重要趨勢[74] ,并極大地豐富了 強化學習在無人車領域的應用場景。研究無人車大 數據背景下,云端決策系統利用強化學習技術,結 合多源的時空感知數據和云端的交通流量、車輛性 能等大數據預測結果,實現面向群體及單車層級的 決策,將是非常有意義的工作。

4 結論

本文綜述了強化學習技術在無人車領域的研究 現狀,重點介紹了基于強化學習技術的無人車智能 決策在避障、變道與超車、車道保持等典型場景下 的應用。其次,展望了強化學習技術在無人車領域 的應用前景。筆者看來,強化學習技術將極大程度 地提高無人車的智能決策能力,是實現無人車規模 化產業應用并服務于智能交通系統建設和新一代陸 軍裝備發展的重要支撐。

付費5元查看完整內容

智能博弈領域已逐漸成為當前AI研究的熱點之一,游戲AI領域、智能兵棋領域都在近年取得了一系列的研究突破。但是,游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國內外整體研究進展,詳細剖析智能作戰推演的主要屬性需求,并結合當前最新的強化學習發展概況進行闡述。從智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點3個維度綜合分析游戲AI發展為智能作戰推演的可行性,最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發展現狀并提供有價值的研究思路。

0 引言

以2016年AlphaGo的成功研發為起點,對智能博弈領域的研究獲得突飛猛進的進展。2016年之前,對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年,受AlphaGo的啟發,研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展,很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時,在智能作戰推演領域,不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主,同時以基于事件驅動的機制進行推演[3-4]。然而,隨著近些年國內外在各種棋類、策略類游戲領域取得新突破,智能作戰推演的發展迎來了新的機遇[5]。

國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績,可以擊敗97%的玩家,并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6],如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技(深圳)有限公司打造了游戲AI平臺“Delta”,集成機器學習、強化學習、大系統工程等技術,通過將AI與游戲場景結合,提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司,準備在游戲AI領域發力。除了游戲AI領域,國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統,并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10],并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外,由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺,也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年,國內舉辦了4次大型智能兵棋推演比賽,這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注,胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異,分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演,取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統,對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究,取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法,對于智能博弈中的態勢認知研究具有重要參考價值[22]。

總體來說,國內在智能博弈領域進行了一系列的研究,嘗試將該技術應用到作戰推演領域,建立了具有自主產權的博弈平臺,技術層面也不斷突破,不再局限于傳統的行為決策樹、專家知識庫等,開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈,取得了一系列的關鍵技術的突破。但是,當前的研究主要聚焦在比較簡單的智能博弈環境,對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。

國外游戲 AI 領域則取得了一系列突出成果,尤其是深度強化學習技術的不斷發展,游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章,認為深度強化學習可以實現人類水平的控制[24]。2017年,DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25],擊敗了圍棋世界冠軍李世石。此后,基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下,經過短時間的訓練就擊敗了AlphaGo。2019年, DeepMind 團隊基于多智能體(agent)深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平,并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28], Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下,通過自我觀察掌握圍棋、國際象棋、將棋和雅達利(Atari)游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲:紅龍》(Wargame:Red Dragon),同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究,利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果,并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理,并將其應用到軍事訓練及軍事演習[34-35]。

但就目前而言,國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域,但是就目前發表的論文和報告來看,國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決,現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是,隨著未來計算機硬件的發展和機器學習技術的完善,作戰推演 AI 會迎來一波革命式的發展,給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景,進而引出作戰推演的技術需求,并給出當前可參考的主流及小眾技術思路。同時,對可能出現的技術難點進行了分析并給出解決方案建議。最后,對作戰推演的未來發展提出建議。

1 智能作戰推演主要屬性需求

1.1 狀態空間

狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現,是深度強化學習進行訓練的基礎。在圍棋中,狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中,狀態空間是每一幀、每個單位可能有的狀態,如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中,狀態空間主要是每個作戰單元實體的狀態信息,是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的,可觀察空間主要是每個 agent 可以觀察到的狀態信息,是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜,具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。

1.2 動作空間設計

動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說,動作空間為361個,是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說,動作空間主要是玩家控制一個“英雄”進行的一系列操作,玩家平均水平是每秒可以進行一個動作,但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項,包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技(multiplayer online battle arena,MOBA)游戲的動作空間可以達到1060 000+。假設游戲時長為45 min,每秒30幀,共計81 000幀,AI每4幀進行一次操作,共計20 250次操作,這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000,但考慮到其中大部分是不可執行的(例如使用一個尚處于冷卻狀態的技能),平均的可執行動作數約為1 000,即動作空間[37]。因此,操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說,因為需要控制大量的作戰單元和建筑單元,動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說,需要對每個作戰單元進行大量精細的控制。在作戰推演中,每個作戰單元實際都包括大量的具體執行動作,以作戰飛機為例,應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此,實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出,對于作戰推演來說,龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策,根據戰略決策構建一系列綁定的宏函數,進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度,同時也方便高效訓練,但是實際問題是訓練出來的 AI 總體缺乏靈活性,過于僵化。

對于動作空間,還需要考慮其是離散的還是連續的,Atari和圍棋這類游戲動作都是離散動作空間[25,39-40],《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作,可以考慮基于值函數的強化學習進行訓練,而對于連續動作,可以考慮利用基于策略函數的強化學習進行訓練。同時,離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演,即把回合制轉化為固定的時間表達。同時對于連續動作,也可以在固定節點提取對應的動作,然后將其轉化為離散動作。

1.3 決策空間構建

智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前,每個選手要進行任務規劃,這個任務規劃是開始推演前的整體戰略部署,例如分配導彈打擊目標,規劃艦艇、戰斗機活動的大致區域,以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后,推演階段即自主執行所制定的宏觀戰略決策。同時,在推演過程中也可以進行微觀具體動作的干預,這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策,首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中,針對大型對抗想定,計算機基本需要每秒進行數百個決策,一局想定推演中雙方博弈決策空間數量預估為 1080+個,而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略(real-time strategy,RTS)游戲,決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案,現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決,根據具體對抗態勢進行宏觀戰略決策的選擇,然后根據不同的決策再分別執行對應的微觀具體動作,這樣可以有效降低智能決策數量,明顯提高智能決策的執行效率。

1.4 勝利條件設置

博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同,圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲,不管過程如何,只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易,在回報值設置中給予最終獎勵更高的回報值,總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲,甚至實際作戰推演來說,獲勝條件更加復雜,目標更多。比如,有時可能需要考慮在我方損失最低的情況下實現作戰目標,而有時則需要不計代價地快速實現作戰目標,這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值,而需要根據真實演習數據構建獎賞函數,通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。

1.5 回報值設置

博弈對抗過程中最核心的環節是設置回報值,合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲,可以按照固定的條件設置明確的回報值,例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長,在整局對抗過程中,如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題,即回報值稀疏問題。為了解決這個難題,現有的解決方案都是在對抗過程中設置許多細節條件,如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗,可以設置坦克擊毀對手、占領奪控點即可獲得回報值,如果被打擊、失去奪控點等則會損失回報值,甚至為了加快收斂防止算子長期不能達到有效地點,會在每步(step)都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36],從資源、KDA(殺人率(kill,K),死亡率(death,D),支援率(assista, A))、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是,對于復雜的作戰推演來說,設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣,需要利用逆強化學習[41-42],通過以往的作戰數據反向構建獎賞函數。

1.6 戰爭迷霧

戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況,我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題,但是情況更加復雜。在實際作戰推演中,可以考慮利用不完全信息博弈解決這個問題,已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29],但是在實際作戰推演中這一問題還需要進一步探討研究。

1.7 觀察信息

這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分,觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息,是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題,因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思,一個層面是屏幕限制的區域更易于獲取態勢信息,因為玩家更直觀的注意力在屏幕局域,部分注意力在小地圖局域。為了更加符合實際, AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制,從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因,即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取,對于不能獲取的態勢信息則只能評估預測,而這一部分則涉及對手建模部分,主要利用部分可觀察馬爾可夫決策過程(partially observable Markov decision process,POMDP)[43],這一技術明顯難于完全信息博弈。而對于圍棋游戲來說,其中的態勢信息是完全可獲取的,屬于完全信息博弈,態勢信息即觀察信息。并且圍棋游戲屬于回合制,相對于即時策略游戲,其有更加充分的獲取態勢信息的時間。因此,則可以利用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法對所獲取的圍棋游戲中的觀察信息進行詳細分析,計算出所有可能的結果,進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息,其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似,其主要以小地圖的宏觀信息進行訓練,然后以此為基礎為戰略方案提供支持,如游戲中的“英雄”是去野區發育還是去中路對抗。同時,對主屏幕態勢信息進行特征提取,結合強化學習訓練,可以得出戰術層面的方案和建議,是去選擇回塔防御還是進草叢躲避,或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演,在作戰信息獲取各個方面都高度模擬了作戰推演的場景,需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息,這部分可觀察信息非常復雜,需要結合各種情況才能發現部分目標,對于戰爭迷霧更加真實。因此,作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模,但還需要設置各種更加符合真實裝備的作戰情況,需要在環境中提前設置有針對性的條件。

1.8 對手建模

在博弈對抗過程中對手 AI 的建模也是至關重要的,不同水平的AI會導致博弈對抗的勝率不同,并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低,就不能逼真地模擬假設對手,博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中,AI性能已經可以擊敗職業選手,通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作,研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上,積分排名前三名的均是AI選手,勝率均在80%以上[11]。但是,現有對手建模主要還是聚焦在一對一的對手建模,很少學者研究多方博弈,而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈,如在《墨子?未來指揮官系統》的海峽大潮想定中,紅方不僅面對藍方,還有綠方,藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。

1.9 想定設計

博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中,想定是永久固定不變的,而且也完全沒有環境的影響,因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響,《覺悟AI》嘗試利用強化學習技術,結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響,不僅作戰單元會產生變化,并且在不同的作戰推演中,不同的環境之中也會有不同的地形、地貌,這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲:紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度,否則會產生擱淺,不能在理想區域登陸會對作戰目標產生較大負面影響。因此,對于實際作戰推演來說,最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的,傳統的基于規則的AI就很難適應變化的想定,早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型,導致只在某個想定會有較好的AI智能性,假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題,現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性,并可以加速回報函數收斂,保證快速訓練出高水平的AI模型。

1.10 總體比較

本節針對智能作戰推演所需要的關鍵屬性,結合當前游戲AI、智能兵棋等相關博弈平臺,利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析,經過對比不難發現游戲 AI 過渡到智能兵棋,甚至是智能作戰推演的難度,各個關鍵屬性也是未來需要研究突破的關鍵點,具體見表1。

2 作戰推演的智能決策核心技術思路

2.1 強化學習技術框架 強化學習的核心思想是不斷地在環境中探索試錯,并通過得到的回報值來判定當前動作的好壞,從而訓練出高水平的智能AI[50]。馬爾可夫決策過程(Markov decision process,MDP)是強化學習的基礎模型,環境通過狀態與動作建模,描述agent與環境的交互過程。一般地,MDP可表示為四元組<S,A,R,T >[44]:

    • S為有限狀態空間(state space),包含agent在環境中的所有狀態;
    • A為有限動作空間(action space),包含agent在每個狀態上可以采取的所有動作;

agent從環境中感知當前狀態st,從動作空間A中選擇能夠獲取的動作at;執行at后,環境給agent相應的獎賞信號反饋 rt+1,環境以一定概率轉移到新的狀態st+1,等待agent做出下一步決策。在與環境的交互過程中,agent有兩處不確定性,一處是在狀態 s 處選擇什么樣的動作,用策略π(a|s)表示agent的某個策略;另一處則是環境本身產生的狀態轉移概率Pass′,強化學習的目標是找到一個最優策略π*,使得它在任意狀態s和任意時間步驟t都能夠獲得最大的長期累計獎賞,即:

2.2 強化學習主流算法

2.2.1 基于值函數的強化學習

強化學習早期利用Q-learning算法來建立游戲AI,通過預先設計每步動作可以獲得的回報值來采取動作。Q-learning 最大的局限是需要提前設計好所有執行動作的回報值,它用一張Q表來保存所有的Q值,當動作空間巨大時,該算法難以適應。因此,Q-learning 算法只能在比較簡單的環境中建模使用,如在簡單的迷宮問題中,讓 agent 通過Q-learning算法自動尋找出口。

DeepMind在2015年第一次利用DQN(deep Q network)算法在Atari游戲環境中實現了高水平的智能AI,該AI綜合評定達到了人類專業玩家的水平[24]。這也使得DQN算法成為強化學習的經典算法。DQN算法通過神經網絡擬合Q值,通過訓練不斷調整神經網絡中的權重,獲得精準的預測 Q值,并通過最大的Q值進行動作選擇。DQN算法有效地解決了Q-learning算法中存儲的Q值有限的問題,可以解決大量的離散動作估值問題,并且DQN算法主要使用經驗回放機制(experience replay),即將每次和環境交互得到的獎勵與狀態更新情況都保存起來,用于后面的Q值更新,從而明顯增強了算法的適應性。DQN由于對價值函數做了近似表示,因此強化學習算法有了解決大規模強化學習問題的能力。但是 DQN 算法主要被應用于離散的動作空間,且DQN算法的訓練不一定能保證Q值網絡收斂,這就會導致在狀態比較復雜的情況下,訓練出的模型效果很差。在 DQN 算法的基礎上,衍生出了一系列新的改進 DQN 算法,如 DDQN (double DQN )算法[51]、優先級經驗回放 DQN (prioritized experience replay DQN)算法[52]、競爭構架Q網絡(dueling DQN)算法[53]等。這些算法主要是在改進Q網絡過擬合、改進經驗回放中的采樣機制、改進目標Q值計算等方面提升傳統DQN算法網絡的性能。總體來說,DQN系列強化學習算法都屬于基于值函數的強化學習算法類型。基于值函數的強化學習算法主要存在 3點不足:對連續動作的處理能力不足、對受限狀態下的問題處理能力不足、無法解決隨機策略問題。由于這些原因,基于值函數的強化學習方法不能適用所有的場景,因此需要新的方法解決上述問題,例如基于策略的強化學習方法。

2.2.2 基于策略的強化學習

在基于值函數的強化學習方法中,主要是對價值函數進行了近似表示,引入了一個動作價值函數q,這個函數由參數w描述,以狀態s與動作a為輸入,計算后得到近似的動作價值,即式(4):

在基于策略的強化學習方法中,主要采用類似的思路,只不過主要對策略進行近似表示。此時,策略可以被描述為一個包含參數θ的函數,θ主要為神經網絡中的權重,即式(5):

在基于策略的強化學習方法中,比較經典的就是理查德·薩頓(Richard S.Sutton)在2000年提出的 AC(actor-critic)框架強化學習算法。AC 包括兩部分:演員(actor)和評價者(critic)。其中actor使用策略函數負責生成動作(action),通過動作與環境進行交互。而critic使用第2.2.1節提到的價值函數來評估actor的表現,并指導actor下一階段的動作。總體來說,critic 通過 Q 網絡計算狀態的最優價值Vt,而actor利用Vt迭代更新策略函數的參數,進而選擇動作,并得到反饋和新的狀態, critic 使用反饋和新的狀態更新 Q 網絡參數 w,在后面critic會使用新的網絡參數w幫助actor計算狀態的最優價值Vt。

2016 年 DeepMind 在國際機器學習大會(International Conference on Machine Learning)提出了A3C算法[54]。之前的DQN算法為了方便收斂使用了經驗回放的技巧;AC 也可以使用經驗回放的技巧。A3C更進一步,還克服了一些經驗回放的問題,主要采取隨機性策略[55]。這里確定性策略和隨機性策略是相對而言的,對于某一些動作集合來說,它可能是連續值,或者非常高維的離散值,這導致動作的空間維度極大。如果使用隨機性策略,即像DQN算法一樣研究它所有的可能動作的概率,并計算各個可能動作的價值,那需要的樣本量是非常大的。于是DeepMind就想出使用確定性策略來簡化這個問題[56]。作為深度確定性策略梯度(deep deterministic policy gradient)、critic目標網絡和深度雙Q網絡(double DQN )的當前Q網絡,目標Q網絡的功能定位基本類似,但是DDPG有自己的actor策略網絡,因此不需要貪婪法這樣的選擇方法,這部分DDQN的功能到了DDPG可以在actor當前網絡完成。而對經驗回放池中采樣的下一狀態s'使用貪婪法選擇動作a',這部分工作的作用是估計目標 Q 值,因此可以放到 actor 目標網絡完成。

此外,actor當前網絡也會基于critic目標網絡計算出的目標Q值進行網絡參數的更新,并定期將網絡參數復制到 actor 目標網絡。DDPG 參考了DDQN的算法思想,通過雙網絡和經驗回放,以及一些其他的優化,比較好地解決了AC難收斂的問題。因此在實際產品中尤其是與自動化相關的產品中使用得比較多,是一個比較成熟的AC算法。2017年, Open AI在神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems)上又提出了改進的多 agent 深度確定性策略梯度(multi-agent deep deterministic policy gradient)算法[57],把強化學習算法進一步推廣應用到多agent環境。在AC框架下,比較經典的算法還有近端策略優化(proximal policy optimization)算法[58]、柔性演員-評論家(soft actor-critic)算法[59]、雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient)算法[60]等,這些算法也都是在樣本提取效率、探索能力增強方面進一步改進優化AC框架的。

2.3 深度學習結合強化學習

在現有策略對抗游戲中利用深度學習技術結合強化學習來實現游戲AI已成為主流研究方向[52]。其主要思路為在游戲對抗過程中利用圖像特征的卷積提取技術。如在《覺悟AI》中,圖像特征的提取采取了分層的思想,在主視野和小地圖中,對不同種類的要素進行提取并合并到一個層中,最終每層都提取到一類關鍵屬性節點信息,形成“英雄”“野怪”“小兵”位置矩陣[6]。最終將多尺度特征的信息融合形成全局態勢特征信息,這一工作同樣應用在AlphaStar中。對于作戰推演來說,態勢理解一直是研究的難點,那么考慮利用深度學習技術來實現態勢圖像特征的提取,進而最終輸出態勢圖的關鍵信息將是解決方案之一。此外,筆者所在團隊也嘗試利用深度學習技術對態勢信息進行卷積提取,然后將提取信息與語義模型結合,生成當前態勢的直觀文本語義。而在前端利用強化學習進行實體單元控制,這樣就可以將強化學習、深度學習、自然語言處理融合,在推演過程中實時生成方便人類理解的智能決策文本語義信息,這一工作對于實現推演系統中的人機融合具有積極意義。

2.4 分層強化學習

智能博弈對抗的建模過程面臨兩個難題,一個是動作空間龐大,另一個是獎勵稀疏問題。面對這兩個問題,有研究人員提出了分層強化學習的解決思路。該思路的核心是對動作進行分層,將低層級(low-level)動作組成高層級(high-level)動作,這樣搜索空間就會被減小[52]。同時基于分層的思想,在一個預訓練的環境中學習有用的技能,這些技能是通用的,與要解決的對抗任務的關系不太緊密。學習一個高層的控制策略能夠使 agent 根據狀態調用技能,并且該方法能夠很好地解決探索效率較低的問題,該方法已在一系列稀疏獎勵的任務中表現出色[61-62]。《覺悟 AI》同樣設計了分層強化學習的動作標簽來控制“英雄”的微觀操作。具體來說,每個標簽由兩個層級(或子標簽)組成,它們表示一級和二級操作。第一個動作,即一級動作,表示要采取的動作,包括移動、普通攻擊、一技能、二技能、三技能、回血、回城等。第二個是二級動作,它告訴玩家如何根據動作類型具體地執行動作。例如,如果第一個層級是移動動作,那么第二個層級就是選擇一個二維坐標來選擇移動的方向;當第一個層級為普通攻擊時,第二個層級將成為選擇攻擊目標;如果第一個層級是一技能(或二技能、三技能),那么第二個層級將針對不同技能選擇釋放技能的類型、目標和區域。這對于作戰推演中不同算子如何執行動作也具有參考價值,每一個類型的算子同樣存在不同的動作,例如坦克可以選擇直瞄射擊、間瞄射擊、移動方向等,實際作戰推演不同裝備同樣具有眾多復雜的動作,通過這樣的特征和標簽設計,可以將人工智能建模任務作為一個層次化的多類分類問題來完成。具體來說,一個深層次的神經網絡模型被訓練以預測在給定的情境下要采取的行動。作戰推演也可以參考層次化的動作標簽來不斷細化動作執行過程,進而訓練解決復雜的動作執行難題。在作戰推演中完全可以借鑒這種思路設計適用于作戰場景的分層強化學習框架。南京大學的研究人員利用分層強化學習建立宏觀策略模型和微觀策略模型,根據具體的態勢評估宏觀策略模型,然后利用宏函數批量綁定選擇微觀動作,這樣可以在不同的局勢下選擇對應的一系列動作,進而實現了分層強化學習在《星際爭霸》環境中的應用[63]。分層強化學習比較通用的框架是兩層,頂層策略被稱為元控制器(meta-controller),負責生成總體宏觀目標,底層策略被稱為控制器(controller),負責完成給定的子目標,這種機制本質也對應作戰推演中的戰略、戰役、戰術3個層次,不同層次關注的作戰目標各有不同,但又互相關聯。其他相關改進是學者在獎賞函數設置、增加分層結構、保持分層同步、提高采樣效率等方面改進分層強化學習[64]。

2.5 多agent強化學習

在游戲博弈對抗過程中必然需要考慮多 agent建模,而在作戰推演中利用多 agent 技術實現不同作戰單元的協同合作也是博弈智能研究的重點之一。在這方面OpenAI和AlphaStar在多agent深度強化學習方面使用了不同的技術思路。OpenAI 使用的是分布異構的多agent建模思路,每一個agent都有一個相同的訓練神經網絡,但是沒有全局控制網絡[37,47]。AlphaStar則是使用了一個集中的控制網絡對不同的單元進行控制。還有一種思路是對于每一個agent,都建立屬于各自的神經網絡進行訓練。第三種思路是最理想的,但是訓練過程復雜,也難以適用于大規模的推演過程[43]。對于實際作戰推演來說,除了要考慮多 agent 建模方法,還需要讓每個 agent 具有柔性加入的能力,在對抗過程中可以按照需要隨時加入所需要的作戰單元,而不需要每次加入作戰單元后,再重新訓練一遍網絡。基于此考慮,讓每一個 agent 具有自己獨立的神經網絡將是更好的選擇。

2.6 LSTM技術結合深度強化學習

《覺悟 AI》在設計過程中利用深度學習不斷提取游戲界面的態勢信息。利用深度學習雖然可以把一個對抗界面的所有特征提取出來,但是提取的是靜態的某一幀的界面信息,并沒有把時間步之間的信息關聯起來。時間步一般指一幀,也可以指多幀,其關鍵是將歷史的幀信息和現在的信息關聯起來。基于此,需要引入長短期記憶(long short-term memory,LSTM)網絡。讓 LSTM 一次接收多個時間步信息來學習這些時間步之間的關聯信息,從而讓 LSTM 幫助“英雄”學習技能組合,并選擇“英雄”應該關注的主視野和小地圖的具體方面,進而綜合輸出合理的動作,也通過 LSTM 關聯歷史數據來訓練強化學習的神經網絡模型[65]。在實際作戰推演過程中同樣需要考慮這種情況,防止出現訓練的AI為了某個戰術目標而忽視了整體戰略目標。

2.7 多屬性決策結合強化學習

強化學習的回報值往往根據專家經驗手工設置,但是這種手工設置的回報值的收斂性及智能性均難以保證,并且長時間訓練才能評估設置的回報值的效果。因此可以考慮結合推演數據,結合多屬性決策方法進行客觀分析,總結提煉出合適的回報值。首先,從推演環境中獲取各關鍵屬性數據,如在陸戰對抗環境提取作戰單元位置、高程、類型、射程屬性、打擊屬性、裝甲屬性等。以這些屬性數據為基礎,計算出對應的評估指標,如目標距離威脅、目標攻擊威脅、目標速度威脅等,通過熵權法計算相應權重,并最終結合多屬性方法對敵方威脅度進行排序,將其和強化學習的回報值函數進行關聯,進而設置出更加客觀合理的回報值函數,這樣有利于提高強化學習訓練的智能性,并有利于加快收斂。

作戰推演技術難點及技術解決方案

3.1 冷啟動問題

在對強化學習的訓練過程中,研究人員總是會遇到訓練過程時間長、難以收斂的問題,這種情況通常被稱為冷啟動問題。針對這個問題,現有研究人員提出了多種解決方案,比較有效的解決方案是利用專家的領域知識預先設計固定的先驗知識,利用先驗知識進行智能博弈訓練,進而在強化學習的經驗存儲中得到高水平的訓練數據。在強化學習的后期訓練中直接利用這些先驗知識對抗出來的經驗數據進行模型訓練,從而可以有效縮小探索空間和動作空間,進而保證強化學習可以快速訓練出高水平的AI,避免了前期盲目探索的情況。在實際作戰推演過程中,也可以考慮使用高水平指揮員的先驗知識,提前進行形式化存儲,進而在強化學習訓練過程中導入先驗知識,加快訓練結果的收斂,得到較高水平的智能AI。

3.2 過擬合問題

在智能博弈對抗過程中經常會出現訓練一定階段后陷入局部最優結果的情況。表現為在智能兵棋比賽中,經過長時間訓練后,強化學習訓練出的結果是控制算子進行固定的線路和射擊套路,這種情況可被稱為過擬合現象。為了避免這種情況的出現,應該在算法設計中加入隨機可能性,在一定比例的動作選擇概率下隨機探索,而不是完全按照強化學習算法給出的結果進行執行。其次,按照貝爾曼方程,應該在獎勵函數設計過程中,考慮當前影響和未來影響的可變比重,即回報函數設計包括一定的可變性,而不是固定不變的。當然也可以利用強大的計算力,生成大量新的對手,從不同方面與需要訓練的 agent 進行對抗,從而避免因為固定對手而導致的過擬合現象。

4.3 想定適應性問題

智能博弈的 AI 建模普遍存在適應性不高的問題,有部分研究人員開發的 AI 是針對某個固定想定開發的,導致更換博弈想定后AI性能大幅下降。考慮到大部分數據或任務是存在相關性的,通過遷移學習可以將已經學到的模型參數通過某種方式分享給新模型,從而加快優化模型效率。中國科學院自動化研究所的研究人員引入了課程遷移學習,將強化學習模型擴展到各種不同博弈場景,并且提升了采樣效率[81]。DeepMind 在 AlphaZero 中使用同樣的算法設置、網絡架構和超參數,得到了一種適用于圍棋、國際象棋和將棋的通用算法,并戰勝了基于其他技術的棋類游戲AI[82]。《覺悟AI》引入了課程學習方法,將訓練至符合要求的參數遷移至同一個神經網絡再次訓練、迭代、修正以提高效率,使《覺悟AI》模型能熟練掌握40多個“英雄”[6,36]。在作戰推演中,更需要這種適用性強的通用 AI 算法,不需要在更換作戰想定后重新訓練模型,也只有這樣才可以更加適應實時性要求極高的作戰場景。

4.4 智能藍方建模

對手建模指在兩個 agent 博弈的環境中,為了獲得更高的收益,需要對對手的策略進行建模,利用模型(隱式)推斷其所采取的策略來輔助決策。智能藍方建模主要是在具有戰爭迷霧的情況下,對對手進行建模,并預測對手的未來動作。其前提通常是博弈環境存在戰爭迷霧,我方在無法獲取準確的對手信息的情況下,針對對方進行預測評估。在對抗過程中,一種假設是對手是完全理性的,對對手(隊友)進行建模是為了尋找博弈中的納什均衡策略。為了解決這一難點問題,阿爾伯塔大學的研究人員提出了反事實遺憾最小化(counterfactual regret minimization,CFR)技術,該技術不再需要一次性推理一棵完整的博弈樹,而是允許從博弈的當前狀態使用啟發式搜索。另外,對手建模可分為隱式建模和顯式建模。通常隱式建模直接將對手信息作為自身博弈模型的一部分來處理對手信息缺失的問題,通過最大化agent期望回報的方式將對手的決策行為隱式引進自身模型,構成隱式建模方法。顯式建模則直接根據觀測到的對手歷史行為數據進行推理優化,通過模型擬合對手行為策略,掌握對手意圖,降低對手信息缺失帶來的影響[83]。總體來說,對手建模技術是智能博弈對抗是否有效的關鍵,只有建立一個可以高效預估對手行為的模型,才能保證智能博弈AI的有效性。

4.5 路徑規劃問題

路徑規劃作為智能博弈中的重要組成部分,其主要任務是根據不同的想定,針對每個單元在起始點和終止點之間快速規劃一條由多個路徑點依次連接而成的最優路徑[84]。在智能博弈的背景下,最優路徑的含義不僅僅是兩點之間的距離最短,而是綜合考慮博弈態勢、資源情況和綜合威脅后的最佳路徑。但是,已有的路徑規劃算法主要以A-Star算法、Dijkstra算法、D算法、LPA算法、D* lite算法等為典型代表,在物流運輸、無人駕駛、航空航天等領域都取得了顯著成效。同時也有學者提出其他的路徑規劃算法,如基于神經網絡和人工勢場的協同博弈路徑規劃方法[85]等,但是在智能博弈的環境下,需要考慮的問題更加復雜,需要進一步對這些算法進行改進優化。

5 作戰推演未來發展建議

5.1 智能作戰推演通用框架

現有的游戲平臺中也有比較成熟的AI開發通用框架(如 pysc2[86-87]),但是相比成熟的作戰推演通用框架還有較大差距。智能作戰推演系統可以設計一個適用于復雜環境的通用框架,該框架包括作戰推演算子、地圖、規則、想定。同時最關鍵的是設計通用的算法接口,這些接口可以方便智能博弈算法的設計與實現,如環境加載接口、環境重置接口、環境渲染接口、動作隨機選擇接口、執行動作接口等。同時,也可以提前設計智能作戰推演的基本功能框架,包括地圖編輯模塊、想定編輯模塊、算子管理模塊、規則編輯模塊、推演設置模塊、數據分析模塊、系統配置模塊。其中最核心的是推演設置模塊可以自由選擇每局推演使用的智能算法,從而實現智能算法設計和作戰推演環境開發的解耦,這樣才可以保證智能作戰推演的靈活適應性。通用框架中另一個重要的因素是可以提供AI使用的工具,例如對于深度學習的分層態勢顯示,可以直觀地提供一個通用接口進行展現,方便指揮人員快速調用該接口實現智能算法的輔助決策功能。

5.2 智能戰略、戰役、戰術決策方案制定

智能作戰推演必然面對的問題是選擇在戰略、戰役還是戰術場景下應用。現階段主要還是在戰術層面進行智能算法的研究,包括國內的某智能兵棋推演大賽,各種想定只有算子數量種類的差別,但本質上都還屬于戰術智能決策。《墨子?未來指揮官系統》中的對抗想定更接近于戰役層面的智能決策方案,現階段對戰略層面的智能決策的研究還比較少。其原因就在于面臨的想定越宏觀,智能決策的技術挑戰越大,包括動作空間、狀態空間的變化以及現階段 agent 之間的協同交互還并沒有很成熟。因此,當前考慮戰術層面的智能決策更容易。如果要解決戰略層面的智能決策,必然需要研究各agent之間的協同機制,還要考慮作戰的后勤支持機制。然而當前尚未有游戲、作戰推演在智能推演中考慮后勤機制的影響。另外,戰術、戰役、戰略層面的方案制定技術思路也并不相同,有的研究以各agent獨自訓練、交互,進而涌現出智能決策方案。這一技術思路更加逼近真實場景,但是算力要求和技術實現難度都較高。另一思路是建立統一的宏觀agent 模型,利用宏觀 agent 控制所有算子進行推演,這一技術思路實現比較簡單,所需的算力也較低,可以考慮將其作為初期實現的路徑之一。

5.3 人機融合的智能作戰推演模式建立

智能作戰推演的未來趨勢主要分為人不在環和人在環兩種類型。人不在環主要類似于AlphaStar、OpenAI 的游戲智能,通過預先訓練完成agent,完全由訓練好的agent自主進行博弈對抗,左右互搏,實現方案的預演和推測。人在環的模式又分為兩種,一種是實現人機對抗,國內已有這方面的比賽,通過開發訓練好的智能算法 agent 與高水平指揮人員進行對抗,探測發現自身指揮問題并不斷提高,可用于指揮人員訓練場景。另一種人在環更加困難,即 agent 可以響應人的指令,并完成低層次的規劃任務。主要還是由指揮人員進行整體戰略宏觀判斷,并通過指令交互部署 agent 完成低層次任務,最后總體實現戰略目標。同時,也需要對人機融合模式的框架進行探索,如將人類領域知識引入智能算法中,幫助智能算法更高效地實現智能作戰推演。

5.4 開放性的仿真實驗平臺建立

隨著智能博弈的興起,國內外高校、研究所、企業都已逐漸開發完成各種類型的智能博弈平臺。但是不同平臺之間并不互通,相互獨立,形成了各個平臺的信息孤島,在智能算法開發的過程中,面對新的平臺就需要研究人員重新學習適應新的平臺接口和架構,這浪費了研究人員大部分精力。另外,智能博弈的強化學習接口以及其他算法雖然在不同平臺體現不同,但本質都一樣,很有必要構建一個通用一體化智能博弈平臺框架,減少不斷重新開發、學習的過程,提高智能博弈平臺的研究效率也勢在必行。

6 結束語

本文構建并梳理了智能作戰推演的國內外發展概況,詳細介紹了智能作戰推演所需要的各項技術難點及國內外進展,同時借鑒游戲 AI 領域的發展現狀并將其與智能作戰推演所需要的技術需求進行對比,分析現有技術還需要改進和優化的方向,也對智能作戰推演的各個研究方向進行了歸納。可以為從事游戲AI、智能兵棋、智能作戰推演等智能博弈領域的研究人員提供一定的思路。當前智能博弈的研究思路還主要以深度強化學習為基礎,但絕不僅僅是深度強化學習技術,各種傳統的智能算法和新的機器學習算法都可以作為智能博弈領域補充完善的技術力量。本文以作戰推演技術需求為牽引,結合國內外游戲AI、兵棋推演相關實際發展情況,總結出雖然智能博弈依然還有很多難題需要解決,現有技術實現程度相比于實際應用還有較大差距,但智能博弈這一研究方向是未來智能決策研究發展的必由之路,相信最終會在各個相關領域得以實現。

參考文獻

[1] 沈宇, 韓金朋, 李靈犀, 等. 游戲智能中的 AI: 從多角色博弈到平 行博弈[J]. 智能科學與技術學報, 2020, 2(3): 205-213. [2] 胡曉峰, 賀筱媛, 陶九陽. AlphaGo 的突破與兵棋推演的挑戰[J]. 科技導報, 2017, 35(21): 49-60. [3] 葉利民, 龔立, 劉忠. 兵棋推演系統設計與建模研究[J]. 計算機與 數字工程, 2011, 39(12): 58-61. [4] 譚鑫. 基于規則的計算機兵棋系統技術研究[D]. 長沙: 國防科學 技術大學, 2010.

付費5元查看完整內容

摘 要:智能博弈領域已逐漸成為當前 AI 研究的熱點之一,游戲 AI 領域、智能兵棋領域都在近年取得了一系列 的研究突破。但是,游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國 內外整體研究進展,詳細剖析智能作戰推演的主要屬性需求,并結合當前最新的強化學習發展概況進行闡述。從 智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點 3 個維度綜合分析游戲 AI 發展為智能作戰 推演的可行性,最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發 展現狀并提供有價值的研究思路。

關鍵詞:智能博弈;游戲 AI;智能作戰推演;智能兵棋;深度強化學習

0 引言

以2016年AlphaGo的成功研發為起點,對智能博弈領域的研究獲得突飛猛進的進展。2016年之前,對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年,受AlphaGo的啟發,研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展,很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時,在智能作戰推演領域,不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主,同時以基于事件驅動的機制進行推演[3-4]。然而,隨著近些年國內外在各種棋類、策略類游戲領域取得新突破,智能作戰推演的發展迎來了新的機遇[5]。

國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績,可以擊敗97%的玩家,并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6],如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技(深圳)有限公司打造了游戲AI平臺“Delta”,集成機器學習、強化學習、大系統工程等技術,通過將AI與游戲場景結合,提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司,準備在游戲AI領域發力。除了游戲AI領域,國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統,并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10],并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外,由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺,也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年,國內舉辦了4次大型智能兵棋推演比賽,這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注,胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異,分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演,取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統,對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究,取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法,對于智能博弈中的態勢認知研究具有重要參考價值[22]。

總體來說,國內在智能博弈領域進行了一系列的研究,嘗試將該技術應用到作戰推演領域,建立了具有自主產權的博弈平臺,技術層面也不斷突破,不再局限于傳統的行為決策樹、專家知識庫等,開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈,取得了一系列的關鍵技術的突破。但是,當前的研究主要聚焦在比較簡單的智能博弈環境,對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。

國外游戲 AI 領域則取得了一系列突出成果,尤其是深度強化學習技術的不斷發展,游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章,認為深度強化學習可以實現人類水平的控制[24]。2017年,DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25],擊敗了圍棋世界冠軍李世石。此后,基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下,經過短時間的訓練就擊敗了AlphaGo。2019年, DeepMind 團隊基于多智能體(agent)深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平,并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28], Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下,通過自我觀察掌握圍棋、國際象棋、將棋和雅達利(Atari)游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲:紅龍》(Wargame:Red Dragon),同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究,利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果,并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理,并將其應用到軍事訓練及軍事演習[34-35]。

但就目前而言,國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域,但是就目前發表的論文和報告來看,國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決,現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是,隨著未來計算機硬件的發展和機器學習技術的完善,作戰推演 AI 會迎來一波革命式的發展,給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景,進而引出作戰推演的技術需求,并給出當前可參考的主流及小眾技術思路。同時,對可能出現的技術難點進行了分析并給出解決方案建議。最后,對作戰推演的未來發展提出建議。

1 智能作戰推演主要屬性需求

1.1 狀態空間

狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現,是深度強化學習進行訓練的基礎。在圍棋中,狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中,狀態空間是每一幀、每個單位可能有的狀態,如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中,狀態空間主要是每個作戰單元實體的狀態信息,是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的,可觀察空間主要是每個 agent 可以觀察到的狀態信息,是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜,具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。

1.2 動作空間設計

動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說,動作空間為361個,是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說,動作空間主要是玩家控制一個“英雄”進行的一系列操作,玩家平均水平是每秒可以進行一個動作,但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項,包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技(multiplayer online battle arena,MOBA)游戲的動作空間可以達到1060 000+。假設游戲時長為45 min,每秒30幀,共計81 000幀,AI每4幀進行一次操作,共計20 250次操作,這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000,但考慮到其中大部分是不可執行的(例如使用一個尚處于冷卻狀態的技能),平均的可執行動作數約為1 000,即動作空間[37]。因此,操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說,因為需要控制大量的作戰單元和建筑單元,動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說,需要對每個作戰單元進行大量精細的控制。在作戰推演中,每個作戰單元實際都包括大量的具體執行動作,以作戰飛機為例,應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此,實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出,對于作戰推演來說,龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策,根據戰略決策構建一系列綁定的宏函數,進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度,同時也方便高效訓練,但是實際問題是訓練出來的 AI 總體缺乏靈活性,過于僵化。

對于動作空間,還需要考慮其是離散的還是連續的,Atari和圍棋這類游戲動作都是離散動作空間[25,39-40],《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作,可以考慮基于值函數的強化學習進行訓練,而對于連續動作,可以考慮利用基于策略函數的強化學習進行訓練。同時,離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演,即把回合制轉化為固定的時間表達。同時對于連續動作,也可以在固定節點提取對應的動作,然后將其轉化為離散動作。

1.3 決策空間構建

智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前,每個選手要進行任務規劃,這個任務規劃是開始推演前的整體戰略部署,例如分配導彈打擊目標,規劃艦艇、戰斗機活動的大致區域,以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后,推演階段即自主執行所制定的宏觀戰略決策。同時,在推演過程中也可以進行微觀具體動作的干預,這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策,首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中,針對大型對抗想定,計算機基本需要每秒進行數百個決策,一局想定推演中雙方博弈決策空間數量預估為 1080+個,而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略(real-time strategy,RTS)游戲,決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案,現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決,根據具體對抗態勢進行宏觀戰略決策的選擇,然后根據不同的決策再分別執行對應的微觀具體動作,這樣可以有效降低智能決策數量,明顯提高智能決策的執行效率。

1.4 勝利條件設置

博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同,圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲,不管過程如何,只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易,在回報值設置中給予最終獎勵更高的回報值,總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲,甚至實際作戰推演來說,獲勝條件更加復雜,目標更多。比如,有時可能需要考慮在我方損失最低的情況下實現作戰目標,而有時則需要不計代價地快速實現作戰目標,這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值,而需要根據真實演習數據構建獎賞函數,通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。

1.5 回報值設置

博弈對抗過程中最核心的環節是設置回報值,合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲,可以按照固定的條件設置明確的回報值,例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長,在整局對抗過程中,如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題,即回報值稀疏問題。為了解決這個難題,現有的解決方案都是在對抗過程中設置許多細節條件,如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗,可以設置坦克擊毀對手、占領奪控點即可獲得回報值,如果被打擊、失去奪控點等則會損失回報值,甚至為了加快收斂防止算子長期不能達到有效地點,會在每步(step)都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36],從資源、KDA(殺人率(kill,K),死亡率(death,D),支援率(assista, A))、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是,對于復雜的作戰推演來說,設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣,需要利用逆強化學習[41-42],通過以往的作戰數據反向構建獎賞函數。

1.6 戰爭迷霧

戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況,我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題,但是情況更加復雜。在實際作戰推演中,可以考慮利用不完全信息博弈解決這個問題,已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29],但是在實際作戰推演中這一問題還需要進一步探討研究。

1.7 觀察信息

這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分,觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息,是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題,因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思,一個層面是屏幕限制的區域更易于獲取態勢信息,因為玩家更直觀的注意力在屏幕局域,部分注意力在小地圖局域。為了更加符合實際, AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制,從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因,即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取,對于不能獲取的態勢信息則只能評估預測,而這一部分則涉及對手建模部分,主要利用部分可觀察馬爾可夫決策過程(partially observable Markov decision process,POMDP)[43],這一技術明顯難于完全信息博弈。而對于圍棋游戲來說,其中的態勢信息是完全可獲取的,屬于完全信息博弈,態勢信息即觀察信息。并且圍棋游戲屬于回合制,相對于即時策略游戲,其有更加充分的獲取態勢信息的時間。因此,則可以利用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法對所獲取的圍棋游戲中的觀察信息進行詳細分析,計算出所有可能的結果,進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息,其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似,其主要以小地圖的宏觀信息進行訓練,然后以此為基礎為戰略方案提供支持,如游戲中的“英雄”是去野區發育還是去中路對抗。同時,對主屏幕態勢信息進行特征提取,結合強化學習訓練,可以得出戰術層面的方案和建議,是去選擇回塔防御還是進草叢躲避,或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演,在作戰信息獲取各個方面都高度模擬了作戰推演的場景,需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息,這部分可觀察信息非常復雜,需要結合各種情況才能發現部分目標,對于戰爭迷霧更加真實。因此,作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模,但還需要設置各種更加符合真實裝備的作戰情況,需要在環境中提前設置有針對性的條件。

1.8 對手建模

在博弈對抗過程中對手 AI 的建模也是至關重要的,不同水平的AI會導致博弈對抗的勝率不同,并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低,就不能逼真地模擬假設對手,博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中,AI性能已經可以擊敗職業選手,通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作,研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上,積分排名前三名的均是AI選手,勝率均在80%以上[11]。但是,現有對手建模主要還是聚焦在一對一的對手建模,很少學者研究多方博弈,而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈,如在《墨子?未來指揮官系統》的海峽大潮想定中,紅方不僅面對藍方,還有綠方,藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。

1.9 想定設計

博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中,想定是永久固定不變的,而且也完全沒有環境的影響,因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響,《覺悟AI》嘗試利用強化學習技術,結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響,不僅作戰單元會產生變化,并且在不同的作戰推演中,不同的環境之中也會有不同的地形、地貌,這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲:紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度,否則會產生擱淺,不能在理想區域登陸會對作戰目標產生較大負面影響。因此,對于實際作戰推演來說,最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的,傳統的基于規則的AI就很難適應變化的想定,早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型,導致只在某個想定會有較好的AI智能性,假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題,現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性,并可以加速回報函數收斂,保證快速訓練出高水平的AI模型。

1.10 總體比較

本節針對智能作戰推演所需要的關鍵屬性,結合當前游戲AI、智能兵棋等相關博弈平臺,利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析,經過對比不難發現游戲 AI 過渡到智能兵棋,甚至是智能作戰推演的難度,各個關鍵屬性也是未來需要研究突破的關鍵點,具體見表1。

付費5元查看完整內容

人工智能(AI)的最新進展為許多經典的AI應用帶來了突破,例如計算機視覺、自然語言處理、機器人和數據挖掘。因此,有很多人努力將這些進展應用于軍事領域,如監視、偵察、威脅評估、水雷戰、網絡安全、情報分析、指揮和控制以及教育和培訓。然而,盡管人工智能在軍事應用上有很多可能性,但也有很多挑戰需要考慮。例如,1)高風險意味著軍事人工智能系統需要透明,以獲得決策者的信任并能進行風險分析;這是一個挑戰,因為許多人工智能技術具有黑盒性質,缺乏足夠的透明度;2)軍用 AI 系統需要穩健可靠;這是一個挑戰,因為已經表明即使對所使用的 AI 技術沒有任何了解,AI 技術也容易受到輸入數據微小變動的影響,并且 3) 許多 AI 技術基于需要大量數據的機器學習訓練;這是一個挑戰,因為在軍事應用中經常缺乏足夠的數據。本文介紹了正在進行的項目成果,以說明軍事應用中人工智能的可能性,以及如何應對這些挑戰。

1 介紹

人工智能(AI),特別是機器學習(ML)和深度學習(DL),在十年內已經從研究機構和大學的原型設計轉向工業和現實世界應用。使用DL技術的現代人工智能已經徹底改變了傳統人工智能應用的性能,如機器翻譯、問答系統和語音識別。這一領域的許多進展也將其優秀的想法變成了卓越的人工智能應用,能夠進行圖像說明、唇語閱讀、語音模仿、視頻合成、連續控制等。這些成果表明,一個能夠自我編程的機器有潛力:1)提高軟件和硬件開發的效率,2)以超越人類的水平完成特定的任務,3)為人類以前沒有考慮過的問題提供創造性的解決方案,4)在人類已知的主觀、偏見、不公平、腐敗等方面提供客觀和公平的決定。

在軍事背景下,人工智能的潛力存在于所有維度的軍事空間中(即陸地、海洋、空中、空間和信息)和所有級別的戰爭內(即政治、戰略、作戰和戰術)。例如,在政治和戰略層面,人工智能可以通過制作和發布大量的虛假信息來破壞對手的穩定狀態。在這種情況下,人工智能很可能也是抵御這種攻擊的最佳人選。在戰術層面,人工智能可以改善無人系統的部分自主控制,以便人類操作員可以更有效地操作無人系統,最終擴大戰場影響力,增強戰場實力。

然而,正如我們將在這項工作中指出的那樣,有幾個關鍵挑戰可能會減緩或限制現代人工智能在軍事應用中的使用:

  • ML模型的透明度和可解釋性不足。舉一個例子,使用DL對使用深度神經網絡(DNN)的自動駕駛汽車進行控制建模需要幾十萬個參數。顯然,這樣一個復雜的程序不容易被解釋。即使是使用替代的ML算法生成的模型,其中模型可以被圖形化,如解析樹或決策樹,即使在應用于玩具模型問題時,也很難甚至不可能解釋。一個更重要的挑戰是人工智能系統向決策者或人類操作者解釋其推理的能力,或者在這種情況下是無能為力的。
  • 眾所周知,使用ML開發的模型很容易受到對抗性攻擊。例如,基于DL的模型可以很容易地通過操縱輸入信號而被欺騙,即使該模型對攻擊者來說是未知的。舉一個例子,使用最先進的目標檢測的無人駕駛飛行器(UAV)也有可能被地面上精心設計的偽裝圖案所欺騙。
  • 任何 ML 應用的原料是機器可以從中學習并最終深入理解的數據。軍事組織通常擅長收集數據用于匯報或重建目的。然而,不能保證同樣的數據可以成功用于ML。因此,軍事組織可能必須調整其數據收集過程,以充分利用現代人工智能技術,如DL。

本文的目的是強調人工智能在軍事應用中的可能性和主要挑戰。第2節簡要介紹了DL,它是本文關注的主要人工智能技術。第3節提供了幾個人工智能在軍事領域中應用的例子。第4節描述了與軍事領域中人工智能的關鍵挑戰,以及部分可用于解決這些挑戰的技術。第5節提出了結論。

2 深度學習

我們所說的DL是指由多個非線性處理單元層組成的機器學習模型。通常情況下,這些模型由人工神經網絡表示。在這種情況下,神經元指的是一個單一的計算單元,其輸出是通過一個(非線性)激活函數的輸入的加權和(例如,一個只有在信號為正時才通過的函數)。DNN指的是具有大量串連神經元層(神經元層由神經元并聯組成)的系統。與DNN相對的是淺層神經網絡,它只有一層平行連接的神經元。

直到大約十年前,DNN的訓練幾乎是不可能的。第一個成功的深度網絡的訓練策略是基于一次訓練一個層。逐層訓練的深度網絡的參數最終使用隨機梯度方法進行微調(同時),以最大限度地提高分類精度。此后,許多研究進展使得直接訓練DNN成為可能,而無需逐層訓練。例如,人們發現,網絡權重的初始化策略與激活函數的選擇相結合是解決問題的關鍵。甚至一些技術,如在訓練階段隨機停用神經元,以及在信號到達激活函數之前對其進行歸一化處理,也已證明對于使用 DNN 獲得良好結果非常重要。

表示學習是DNN高性能的主要原因之一。使用DL和DNN,不再需要手動制作學習特定任務所需的特征。相反,辨別特征是在 DNN 的訓練過程中自動學習的。

支持 DL 應用的技術和工具如今比以往任何時候都更加好用。通過廉價的計算資源、免費的 ML 框架、預訓練模型、開源數據和代碼,僅使用有限的編程/腳本技能即可成功應用和定制高級 DL。

3 軍事人工智能應用

本節介紹了幾個可以應用人工智能來提高軍事能力的例子。

3.1 監視

海上監視是利用固定雷達站、巡邏飛機、船舶,以及近年來使用自動識別系統(AIS)對海上船只進行的電子跟蹤。這些信息源提供了大量的關于船只運動的信息,這些信息可能會揭示船舶非法的、不安全的、有威脅的和異常的行為。然而,大量的船舶運動信息使得手動檢測此類行為變得困難。因此ML-方法被用來從船舶運動數據中生成常態模型。任何偏離常態模型的船舶運動都被認為是異常的,并提交給操作員進行人工檢查。

一種早期的海事異常檢測方法使用模糊 ARTMAP 神經網絡架構根據港口位置對正常船舶速度進行建模。另一種方法是利用運動模式的關聯學習來預測基于其當前位置和行駛方向的船舶運動。其他方法則使用基于高斯混合模型(GMM)和內核密度估計(KDE)的無監督聚類。這些模型能夠檢測出改變方向、穿越海路、向相反方向移動或高速行駛的船只。最近的方法是使用貝葉斯網絡來檢測錯誤的船舶類型,以及不連續的、不可能的和徘徊的船舶運動。海事異常檢測的未來發展還應該考慮周圍的船只和多艘船只之間的互動。

3.2 水下水雷戰

水雷對海上船只構成重大威脅,被用來限制船只行動或阻止船只通過受限水域。因此,反水雷措施(MCM)試圖定位和消除水雷,以實現行動自由。越來越多地使用配備合成孔徑聲納 (SAS) 的自主水下航行器 (AUV) 進行水雷搜索,該水下航行器能提供厘米分辨率的海底聲學圖像。由于AUV收集了大量的SAS圖像,自動目標分類對于區分潛在的水雷與其他物體是很有用的。雖然對水雷的自動目標分類已經研究了很長時間,但DNN在圖像分類方面的高性能表現使人們對如何將這種辦法用于自動地雷探測產生了興趣。

一些研究顯示了DNN在水雷探測方面的潛力。例如,這些研究描述了如何將假水雷的形狀、類似水雷的目標、人造物體和巖石放置在海底的各種地理圖形位置上。然后用AUV和SAS對海底進行測量。結果顯示,與傳統的目標分類器相比,DNN的性能明顯提高,對水雷形狀的檢測概率更高,誤報率更低。同樣,這些研究也描述了如何生成圓柱形物體和各種海底景觀的協同SAS圖像,并這些圖像用來訓練DNN。進一步的研究可能會探究如何從所有類型的雜波物體中分辨出水雷,結合檢測和分類,以及對噪聲、模糊和遮擋的魯棒性等

3.3 網絡安全

入侵檢測是網絡安全的重要組成部分,可在惡意網絡活動危及信息可用性、完整性或機密性之前對其進行檢測。入侵檢測是使用入侵檢測系統(IDS)進行的,該系統將網絡流量分類為正常或入侵。然而,由于正常的網絡流量往往具有與實際攻擊相似的特征,網絡安全分析師對所有入侵警報的情況進行分析,以確定是否存在實際的攻擊。雖然基于簽名的IDS通常擅長檢測已知的攻擊模式,但它們不能檢測以前未見過的攻擊。此外,基于簽名的檢測的開發往往是緩慢和昂貴的,因為它需要大量的專業知識。這限制了系統對快速演變的網絡威脅的適應性。

許多研究使用 ML 和其他 AI 技術來提高已知攻擊的分類準確性、檢測異常網絡流量(因為這可能表明新的攻擊模式偏離了正常網絡流量)以及自動化模型構建。然而,這些系統很少被實際使用。其原因是,入侵檢測給出了具體的挑戰,如缺乏訓練數據、網絡流量變化大、錯誤成本高以及難以進行相關評估。雖然可以收集大量的網絡流量,但這些信息往往是敏感的,只能部分匿名化處理。使用模擬數據是另一種選擇,但它往往不夠真實。然后,必須根據模式是正常還是入侵,或用于確保無攻擊的異常檢測來標記數據以進行監督學習,這通常很難做到。最后,模型需要是透明的,以便研究人員能夠理解檢測限制和特征的含義。

另一項提高網絡安全的措施是在安全審計期間進行滲透測試,以確定潛在的可利用的安全弱點。由于許多網絡的復雜性和其中的大量主機,滲透測試通常是自動化的。一些研究已經調查了如何使用網絡的邏輯模型而不是實際的網絡將 AI 技術用于模擬滲透測試。網絡通常用攻擊圖或樹來表示,描述對手如何利用漏洞闖入系統。描述了模型在表征方式方面的不同之處:1) 攻擊者的不確定性,從抽象的成功和檢測概率到網絡狀態的不確定性,以及 2) 從已知的前后條件到一般感知和觀察的攻擊者行為-結果的服務。此外,通過網絡和主機的正式模型,可以對不同的緩解策略進行假設分析。未來對滲透測試的研究可能會使用攻擊者和防御者之間交互的認知有效模型,例如,深度強化學習來探索可能攻擊的大問題空間。

4 挑戰

正如第3節中的案例所示,在為軍事目的開發和部署的基于人工智能的應用之前,有一些尚未解決的挑戰是很重要的。在本節中,我們將討論我們認為對軍事人工智能最關鍵的挑戰:1)透明度,2)脆弱性,以及3)在有限的訓練數據下的學習。其他重要的,但不太關鍵的,與優化、泛化、架構設計、超參數調整和生產級部署有關的挑戰,在本節中沒有進一步討論。

4.1 透明度

許多應用除了需要高性能外,還需要高透明度、高安全性以及用戶的信任或理解。這種要求在安全關鍵系統、監控系統、自主智能體、醫學和其他類似的應用中很典型。隨著最近人工智能技術的突破,人們對透明度的研究也越來越感興趣,以支持最終用戶在此類應用中的使用與透明度相關的成果。

4.1.1 對透明度的期望

人工智能所需的透明度取決于終端用戶的需求。利普頓描述了透明度可能涉及五種類型的用戶需求:

  • 1.信任-在用戶難以質疑系統建議的情況下。然而,可能不清楚用戶的信任是基于系統的性能或穩定性,相對于用戶的體驗,還是用戶對系統推薦的舒適度。
  • 2.理解之前未知的因果關系,可以用其他方法測試。
  • 3.由于與用戶的能力相比,模型的通用性有限,因此對系統性能的了解受到限制。
  • 4.有關系統建議的一些補充信息。
  • 5.公平性,以避免可能導致某些情況下的不平等待遇的系統性偏見。例如,對信貸申請的評估不應基于個人屬性,如性別或種族,盡管這種屬性可能在整體統計水平上用來區分人口群體。

原則上,有兩種方法可以使人工智能系統透明。首先,某些類型的模型被認為比其他的更容易解釋,例如線性模型、基于規則的系統或決策樹。檢查這些模型可以理解它們的組成和計算。Lipton描述了可解釋性取決于用戶是否能夠預測系統的建議,理解模型參數,以及理解訓練算法。其次,系統可以解釋其建議。這種解釋可以是文字的,也可以是視覺的。例如,通過指出圖像的哪些方面最有助于其分類。Miller 對社會科學研究中如何使用這些知識來設計 AI 系統的進行了的回顧。通常情況下,人們用他們感知到的信念、欲望和意圖來解釋其他智能體的行為。對于人工智能系統來說,信念對應于系統關于情況的信息,欲望對應于系統的目標,而意圖對應于中間狀態。此外,解釋可能包括行動的異常性、使成本或風險最小化的偏好、對預期規范的偏離、事件的回顧性和行動的可控性。主要的發現是:

  • 解釋是針對特定的反事實案例而進行的對比性解釋。因此,解釋的重點是為什么提出特定的建議而不是其他建議。
  • 解釋是有選擇的,并且集中在一兩個可能的原因上,而不是建議的所有原因。
  • 解釋是一種傳遞知識的社會對話和互動。

4.1.2 可解釋模型的實例

貝葉斯規則列表(BRL)是可解釋模型的一個例子。BRL由一系列的if(條件)then(結果)else(替代)語句組成。Letham等人描述了如何為一個高度準確和可解釋的模型生成BRL來估計中風的風險。條件離散化了影響中風風險的高維多變量特征空間,結果描述了預測的中風風險。BRL在預測中風風險方面具有與其他ML方法類似的性能,并且與其他現有評分系統一樣具有可解釋性,但其準確性較低。

基于詞典的分類器是文本分類的另一個可解釋模型的例子。基于詞典的分類器將術語的頻率與每個類別中出現的術語的概率相乘。得分最高的類別被選為預測對象。Clos等人使用一個門控遞歸網絡對詞典進行建模,該網絡同時學習術語和修飾語,如副詞和連詞。受過訓練的詞典是關于論壇中的帖子是支持還是反對死刑以及對商業作品的看法。詞典的表現比其他ML方法更好,同時也是可解釋的。

4.1.3 特征可視化的實例

盡管DNN在許多應用中提供了很高的性能,但它們的子符號計算可能有數百萬個參數,這使得人們很難準確理解輸入特征對系統推薦的貢獻。由于DNN的高性能對許多應用來說是至關重要的,因此人們對如何使它們更容易解釋產生了濃厚的興趣(見一篇評論)。許多用于解釋DNN的算法將DNN處理轉化為原始輸入空間,以便將辨別特征可視化。通常,有兩種通用方法用于特征的可視化,即激活最大化和DNN解釋。

激活最大化會計算哪些輸入特征將最大限度地激活可能的系統建議。對于圖像分類來說,這代表了理想的圖像,它顯示了每個類別的可區分和可識別的特征。然而,由于各類可能使用同一物體的許多方面,而且圖像中的語義信息往往是分散的,所以圖像往往看起來不自然。激活最大化的方法的一些例子是梯度上升法,更好的正則化方法以增加通用性,以及合成首選圖像法。

DNN的解釋是通過強調區分輸入特征來解釋系統建議。在圖像分類中,這種可視化可能會突出顯示支持或反對某個類別的區域,或者僅顯示包含區分特征的區域。計算鑒別特征的一種方法是使用局部梯度或其他變化度量的敏感性分析。然而,敏感性分析的一個問題是,它可能顯示輸入中不存在的判別特征。例如,在圖像分類中,敏感性分析可能會顯示物體被遮擋的部分,而不是可見部分。逐層相關性傳播通過考慮特征存在和模型反應來避免這個問題。

4.1.4 具體應用解釋的實例

與分類不同的是,人工智能規劃是基于動態的領域模型。Fox等人描述如何使用領域模型來解釋為什么行動被執行或不執行,為什么一些行動不能被執行,使未來行動的因果關系,以及重新規劃的需要。

由于公平性對許多人工智能應用來說非常重要,Tan等人描述了如何利用模型蒸餾來檢測黑箱模型的偏差。模型蒸餾法將更大更復雜的模型進行簡化,而沒有明顯的準確性損失。為了提高透明度,他們使用了基于淺層樹的廣義加性模型,對每個參數和兩個參數之間的相互作用進行建模。他們根據黑盒模型的系統建議訓練一個透明模型,并根據實際結果訓練一個透明模型。對兩個模型的推薦差異的假設檢驗體現了黑盒模型引入偏差的情況,然后可以通過比較兩個透明模型來診斷偏差。該系統在犯罪風險、借貸風險和卷入槍擊事件的個人風險方面進行了評估。結果顯示,一個黑盒模型低估了年輕罪犯和白種人的犯罪風險,而高估了美國本土非洲裔犯罪的風險。

4.2 脆弱性

在本節中,我們討論DNN在兩個不同方面的脆弱性。1)對輸入操縱的脆弱性和2)對模型操縱的脆弱性。我們首先看一下對輸入信號的操縱:

4.2.1 對輸入進行對抗性處理

在提供DNN的情況下,人們發現很容易調整輸入信號,從而使分類系統完全失敗。當輸入信號的維度很大時,例如圖片,通常只需對輸入中的每個元素(即像素)進行不易察覺的微小調整,就足以欺騙系統。用同樣的技術來訓練DNN,通常是采用隨機梯度法,通過觀察梯度的符號,你可以很容易地找到每個元素應該朝哪個方向改變,以使分類器錯誤地選擇目標類別或僅僅是錯誤分類。只需幾行代碼,最好的圖像識別系統就會被欺騙,相信一張車輛的圖片是一只狗。下面的圖 1 顯示了操作前后的圖像以及操作前后類的可能性。

上述方法假設有對DNN的完全訪問權,即所謂的白盒攻擊。人們發現,即使是所謂的黑箱攻擊,即你只觀察到系統的輸入和輸出類型,也是可能的。在其中,作者采用從他們想要攻擊的黑盒系統中稀疏采樣所獲得的數據來訓練一個替代網絡。鑒于替代網絡,你可以使用上述的白盒攻擊方法來制作對抗性輸入。一個學習替代網絡的替代方法被提出來,在這個方法中,遺傳算法被用來創建導致系統錯誤分類的攻擊向量。同一作者甚至表明,通常只需修改圖像中的一個像素,盡管常常是可察覺的,就能實現成功的攻擊。

圖 1:從小型貨車到西伯利亞雪橇犬。 原始圖像和操縱(對抗性制作)圖像之間的絕對差異(放大 20 倍)顯示在右側。 對抗性示例(中心)是使用 Kurakin 的基本迭代方法(BIM)生成的。

4.2.2 利用預訓練 DNN 中的隱藏后門

當設計一個DNN,但只能獲得少量的訓練數據時,通常會使用預訓練的模型來達到良好的性能。這個概念被稱為遷移學習,一個常見的應用是采用在大量數據上訓練過的模型,根據具體問題替換和定制網絡中的最后幾層,然后在最后階段(有時甚至是整個系統)利用可用的訓練數據微調參數。目前已經有大量的預訓練模型可以從互聯網上下載。那么一個相關的問題是:"我們怎么知道那些上傳模型的人沒有壞心眼?"。作者在識別美國交通標志的模型中插入后門,就考慮了這種類型的漏洞。例如,一個貼紙被訓練為屬于停止標志以外的類別。然后他們表明,當使用后門(即在交通標志上放置一個貼紙)時,基于美國交通標志網絡的識別瑞典交通標志的系統會有負面的反應(大大損害了瑞典交通標志系統的分類準確性)。

4.2.3 防御方法

減少DNN對輸入信號操縱的脆弱性的一種方法是在模型的訓練過程中明確包括被操縱/對抗的例子。也就是說,除了原始訓練數據外,還產生了對抗性例子,并用于模型的訓練。

另一種方法是使用一個叫做防御蒸餾的概念。簡而言之,該方法試圖降低輸出信號只指出真實類別的要求,并迫使其他類別的概率為零。這分兩步完成。第一步是對DNN進行常規訓練。在第二步,將第一個神經元網絡的輸出(類別概率)用作新的類別標簽,并使用新的(軟)類別標簽訓練一個新的系統(具有相同的架構)。這已被證明可以減少漏洞,因為你沒有把DNN與訓練數據貼得太緊,并保留了一些合理的類間關系。

其他防御方法,例如特征壓縮技術,例如均值或中值濾波或非線性像素表示,例如單熱或溫度計編碼。

不幸的是,所描述的方法都不能完全解決漏洞問題,尤其是如果攻擊者對模型和防御方法有充分的了解的話。

4.3 數據

在軍事背景下開發基于ML的應用是具有挑戰性的,因為軍事組織、訓練設施、平臺、傳感器網絡、武器等的數據收集應用最初不是為ML目的設計的。因此,在這個領域,往往很難找到真實世界的、高質量的、足夠大的數據集,可以用來學習和深入理解的。在本節中,我們將探討即使在有限的訓練數據中也可以用來建立ML應用的技術。

4.3.1 遷移學習

遷移學習(也在第4.2.2節中提到)是一種技術,通常在數據集較小和計算資源有限時使用。這個想法是在開發針對其他類似任務的新模型時,重復使用通常由 DNN 表示的預訓練模型的參數。至少有兩種方法可用于DL應用中的遷移學習:

  • 重新學習輸出層:使用這種方法,預先訓練好的模型的最后一層被替換成新的輸出層,與新任務的預期輸出相匹配。在訓練過程中,只有新輸出層的權重被更新,其他的都是固定的。
  • 微調整個模型:這種方法類似于第一種方法,但在這種情況下,可能會更新整個 DNN 的權重。 這種方法通常需要更多的訓練數據。

事實證明,遷移學習也可以提高模型的泛化能力。然而,隨著源任務和目標任務之間距離的增加,遷移學習的積極作用往往會減少。

4.3.2 生成性對抗網絡

生成性對抗網絡(GANs)是由Goodfellow等人發明的,是一種生成模型,可用于半監督學習,其中將一小組標記的數據與一大組未標記的數據相結合以提高模型的性能。基本的GAN實現由兩個DNN組成,分別代表一個生成器和一個判別器。生成器被訓練成產生假數據,而判別器被訓練成將數據分辨為真實或虛假。當這兩個網絡同時被訓練時,一個網絡的改進也會導致另一個網絡的改進,直到最后達到一個平衡。在半監督學習中,生成器的主要目標是產生未標記的數據,用于提高最終模型的整體性能。除了半監督學習之外,GANs還被用于:

  • 重建:填補部分被遮擋的圖像或對象的空白部分。
  • 超分辨率:將圖像從低分辨率轉換為高分辨率。
  • 磁帶到圖像的轉換:將圖像從冬天轉換為夏天,從夜晚轉換為白天,等等。這項技術的一個軍事應用是可以將夜視圖像轉換為日光圖像。

4.3.3 建模和仿真

建模和仿真已被軍隊廣泛用于培訓、決策支持和研究等。因此,有很多經過長期驗證的模型,也有可能被用于生成ML應用的合成數據。例如,飛行模擬器可以用來生成置于不同環境中飛機的合成圖像。在這種情況下,標簽是自動的,因為在生成合成圖像之前,飛機的類型是已知的。然而,不足為奇的是,在將模型應用于真實世界的圖像時,使用合成圖像可能會導致性能不佳。目前正在探索的一種方法是采用GANs增強合成圖像,使其具有照片般的真實性。這種方法已經得到成功的應用。

5 結論

人工智能最近的突破正在逐漸達到可以用于軍事應用的地步。 該論文描述了在監視、水下魚雷戰和網絡安全中使用人工智能的一些可能性。 其他潛在應用包括使用半自動駕駛車輛和傳感器系統進行偵察、在具有長時間要求的防空系統中進行威脅評估、新興模式的情報分析、指揮和控制系統以及教育和培訓。 然而,人工智能的軍事應用需要考慮以下方面的挑戰:

  • 確保模型性能符合軍事要求的透明度。
  • 脆弱性可能會導致系統性能大幅度降低。
  • ML的訓練數據不足。

專注于人工智能的透明度、可解釋性和可解釋性問題的研究人員已經取得了許多進展。這些進展中的許多部分也都可能被用于軍事人工智能應用中。然而,需要進行更徹底的需求分析以了解如何利用這些研究成果。軍事需求在風險、數據質量、法律要求等方面與一般情況相比非常不同,有些類型的透明度甚至可能不適用。此外,還需要對如何利用社會科學研究來提高人工智能的可解釋性進行更多研究。未來的研究還應該包括如何充分利用在視覺分析研究領域中開發地豐富的可視化技術。

由于目前還沒有解決脆弱性問題的有效方案,因此在監測這一研究領域不斷尋找有希望的解決方案非常重要。然而,在這種解決方案出現之前,有必要盡量減少外部對模型和防御技術的訪問。否則,對手可能會試圖利用這些漏洞來為自己謀利。

最后,遷移學習使其有可能將預先訓練好的模型應用于訓練數據和計算資源都有限的軍事應用。GAN是另一種有很前途的技術,它能夠采用標記的和未標記的數據進行學習(半監督學習)。GAN也可以與仿真結合使用,以提高合成的訓練數據的真實性。

付費5元查看完整內容

深度學習作為當前人工智能領域的研究熱點之一,已經受到廣泛關注。借助于強大的特征表示和學習能力,深度學習日益成為軍事領域智能化發展的技術基礎。首先結合深度學習的最新發展,指出深度學習的快速發展得益于理論的突破、計算機運算能力的顯著提高和開源軟件的廣泛流行,著重梳理了目前主要的深度學習硬件平臺和編程框架,并總結了各自的特點和研究進展;然后對深度學習在目標識別、態勢感知、指揮決策等典型軍事領域的應用和存在的不足進行了總結;最后,分析了深度學習軍事應用面臨的挑戰,包括數據獲取困難、處理不確定不完備信息和多域信息能力不足、精確度和實時性較低、可解釋和可理解性不強等,并針對這些問題展望了未來可能的發展方向和趨勢。 深度學習為很多復雜問題的解決提供了新的思路$由于其具有強大的特征表示和學習能力$在以目 標識別與檢測,態勢感知,智能指揮決策等為代表的 軍事領域中取得了一系列應用成果$并日益成為軍事領域智能化發展的技術基礎與研究熱點。

1. 目標識別與檢測

雷達目標識別一直是軍事領域關注的重點,隨 著高分辨雷達技術的發展,目標的高分辨一維距離 像(high resolution range profile, HRRP)、合成孔徑 雷達(synthetic aperture radar,SAR)圖像等已經成 為軍事目標綜合識別的重要數據來源,傳統雷達目 標識別方法主要采用人工設計的特征提取算法提取 目標特征,目標識別的性能依賴于提取特征的好壞, 而采用深度學習方法則能自動學習目標數據的深層 次抽象特征,能夠進行更準確、更穩健的識別,從而受 到廣泛的關注。表1為當前主要的深度學習框架。 在 基 于 H R R P 的 雷 達 目 標 識 別 方 面 , B ( ) . F 等[⑸提出一種新的矯正自編碼器Corrective AE, 自 動 提 取 H R R P 抽 象 特 征 , 實 現 了 對 目 標 H R R P 的高效識別。P a n等[⑹采用t . S N E方法解決H R - RP目標識別中的訓練數據不均衡問題,利用判別式深層置信網絡提取訓練數據中與類別無關的全局 特征來提升小樣本條件下的H R R P分類性能。徐 彬等口力考慮HRRP樣本距離單元間的時序相關特 性,提出了采用雙向長短時記憶模型的HRRP目標 識別方法,提高了目標識別性能。文獻口8] 將5種 彈道中段目標HRRP轉化為0-1二值圖,并構建了 二維CNN對HRRP圖像進行分類,充分利用圖像 中蘊含的目標結構信息提升了分類效果,但將HRRP轉化為圖像增加了計算量。Xiang等[血在一維 CNN中引入通道注意力,同時利用改進的人工蜂群 算法對一維CNN進行剪枝,在保持對彈道中段目 標H R R P的高準確識別率前提下大幅降低了模型 的復雜度。

2 態勢感知

現代戰場態勢具有顯著的大數據特征,傳統方法已不能滿足現代復雜戰場態勢的感知需求,深度學習技術為研究戰場態勢感知提供了智能化技術手段,在對以往實戰數據,實兵對抗數據,靶場試 驗數據,兵棋推演數據等進行態勢標注的基礎上,將 其作為訓練數據,對深度學習模型進行訓練利用訓 練獲得的網絡模型可以實現對戰場態勢的理解。

3 指揮決策以 AlphaGo等為代表的人工智能 應用的成功,表明了深度學習技術在應對實時對抗, 不確定性推理等復雜動態場景問題的優秀能力深 度學習在軍事智能輔助決策領域的應用已經受到廣 泛的關注。

付費5元查看完整內容

在人工智能技術展現出洶涌澎湃發展趨勢的當下,建設以智能技術武裝的新型軍隊,打贏 以信息化智能化為特征的新型戰爭,成為當前世界主要軍事強國的優先發展目標。以“意志的屈 服”、“不戰而屈人之兵”為標志的“制智能權、制意識權”將成為未來軍事斗爭的最高級、最有效、最 具震懾力的軍事優勢。文中從軍事作戰特點和人工智能的優勢入手,分析軍事領域對人工智能的 需求。針對感知、指揮、打擊、互聯的作戰鏈條,提出人工智能技術在軍事領域的應用方向,探索如 何通過人工智能在軍事領域的應用“有效塑造態勢、管控危機、遏制戰爭、打贏戰爭”。

引言

隨著深度學習、機器視覺等核心技術的大發展 和大突破,人工智能迎來新一輪的發展熱潮,并邁入 “黃金時期”。如今,人工智能技術已經深入交通、 服務、醫療健康、教育、就業、公共安全與防護等民用 領域[1] ,代替“懶人”完成部分體力和腦力工作。當前,智能技術正不斷顛覆信息化時代下的軍 事理論、作戰規則和作戰方法,有力推進新軍事體制變革,逐漸改變未來戰爭的形態[2] 。美軍將人工智 能視為“改變游戲規則”的顛覆性技術,并已經在無 人作戰平臺、電子戰、輔助指揮決策等技術領域中對 人工智能技術進行嘗試和應用。 加快軍事智能化發展,提高基于網絡信息體系 的聯合作戰能力、全域作戰能力 [3] 。智能技術對我 們來說,既有挑戰也存在機遇。面臨新形勢下的威 脅態勢,面向新時期軍事作戰需求,我們要找準定 位、明確目標、奮勇攻關,有效應對內外環境變化帶 來的風險挑戰,努力抓住科技進步創造的發展機遇, 實現“彎道超車”。

軍事領域對人工智能的需求

2.1 軍事作戰特點

按照克勞塞維茨《戰爭論》的定義,戰爭無非是 擴大了的搏斗,是迫使敵人服從我們意志的暴力行 為[26] 。千百年來戰爭形態和手段及樣式雖歷經變 遷,但戰爭本質核心卻始終如一,這就是消滅敵人, 保存自己。軍事作戰特點主要包括以下三點。 1)非友好、非合作、不可控。戰爭的成敗可能 決定了對抗雙方的生死存亡,使得對抗雙方盡其所 能地欺騙對方、盡可能地隱瞞自己的真實意圖、盡可 能地利用對方所有可能漏洞,從而使得對抗雙方都 無法全面有效地掌握戰爭的真實狀態,導致戰場局 勢不可控。正如丘吉爾所說:“一旦開了第一槍或 引爆第一顆炸彈,政治領導人就失去了對戰爭的掌 控權,戰爭本身成為了主導者。” 2)不確定性大。作戰是敵我雙方持續對抗的 過程,然而,復雜戰場環境、指揮決策、對抗手段等多 種不確定性因素必然會產生作戰空間、作戰力量、作 戰規則、作戰流程等要素的不確定性。由此,要求指 揮員要善于未雨綢繆,周密制定計劃,創造有利于我 而不利于敵的戰機,能夠基于瞬息萬變的戰場情報 數據及時調整作戰行動。 3)作戰規律難以掌握。一方面,由于“戰爭迷 霧”的存在,在戰場環境下對作戰數據的獲取往往 是不完整的、不完備的、甚至是虛假的,使得軍事裝 備自身難以自己學習訓練,從而無法掌握作戰客觀 規律繼而變成軍隊可用裝備。另一方面,隨著各種 偵察探測手段引入現代戰爭中,各種信息充斥戰場, 數據的過剩、超載、盈余、膨脹使得很多有價值的信 息淹沒在數據海洋中,導致不可靠、不相關、模棱兩 可和互相矛盾的信息呈指數級的增加,進而增加判 斷的復雜性。伴隨一批新興技術理論的不斷突破和技術應用 范圍的持續擴大,多種新質武器的相繼問世,未來戰 爭將會是在陸、海、空、天、電、網上進行的全維戰爭, 是戰場信息處理能力、輔助決策能力、快速打擊能力 的比拼。未來戰爭空間多維、力量多元、樣式多樣、 節奏加快等突出趨勢,對戰場信息的接收與認知、對 戰場態勢的評估與預測、對作戰行動的快速應變等 能力要求將遠遠超出作戰人員的思維能力,必然需 要依靠具有超強計算、學習和理解能力的機器進行 威脅研判和作戰輔助決策。

2.2 人工智能的優勢

人工智能自誕生之日起即被賦予了一項崇高使 命,即代替人類完成繁重、危險和重復性工作。面對 這些工作,人工智能具有速度更快、精度更高以及抗 疲勞性更強等顯著優勢。隨著人工智能的發展,其 對軍事調度、戰場行動認知與決策的能力將逐漸超 越人類。 1)人工智能善于解決復雜信息認知問題。人 工智能技術能夠打破現有作戰規則,使得機器像人一樣對復雜問題進行認知,積累經驗,解決問題。通 過對戰場大數據的有效開發,提高指揮員對多個戰 場空間情報的發現和深度認知能力,利用數據挖掘 分析方法從海量多源異構信息中得到高價值軍事情 報信息,大幅度提高情報分析處理能力,從而能夠把 握戰場發展動向,預估敵我態勢變化,破除“戰場迷 霧”。 2)人工智能善于解決復雜狀態空間問題。人 工智能技術在繼承機器優勢的同時,具備針對復雜 任務進行高效率的信息搜索和優化處理能力,是解 決不確定性和復雜性的有力武器。圍棋在走法上有 10 170 種可能,比全宇宙的原子數 10 80 都要多,然而 相比于圍棋,戰爭要更加的復雜多變。戰爭具有更 強的戰場開放性、攻防隱蔽性、作戰多維化等特點。如今,人工智能已經攻破圍棋的堡壘,正在向復雜度 更高的“星際爭霸”游戲發起挑戰。 3)人工智能善于自我學習實現能力升級。人 工智能技術可以通過系統后臺進行無監督學習和機 器博弈,從而達到系統性能的自我提升和優化的目 的。以圍棋為例,AlphaGo 只花了幾個月的時間,學 習人類對弈的三千萬棋局,在通過海量的歷史棋譜 學習參悟人類棋藝的基礎之上,進行自我訓練,擊敗 了人類頂尖棋手。而 AlphaGo Zero 與 AlphaGo 有著 本質的不同,它不需要通過學習歷史棋譜從而掌握 人類的先驗知識,而僅靠了解圍棋對弈的基本規則, 通過自我博弈和自我進化,迅速提升棋藝,實現對 AlphaGo 的百戰百勝[27] 。可以預見,應用人工智能技術,能夠在很大程度 上提升作戰指揮活動的觀察、判斷、決策、行動等關 鍵過程的作戰能力。人工智能技術將成為軍事變革 的重要推手,必將催生新的戰爭樣式,推動戰爭形態 的加速轉變。

3 人工智能軍事應用方向

3.1 軍事智能技術體系框架

未來戰爭,從能力上我們希望具備更加透徹的 感知、更加高效的指揮、更加精確的打擊和更加自由 的互聯。由此帶來的眾多跨作戰空間裝備之間數據 互聯、任務協同及海量戰場異構數據實時處理等問 題必須由更加深入的智能才能得到有效的解決,繼 而對感知、指揮、打擊、互聯等作戰能力產生催化劑 的作用,形成一體化智能作戰鏈條,顛覆性提升體系 作戰效能。軍事智能技術體系框架如圖 1 所示,包括賦能 體系、軍事智能系統、作戰體系等三個方面。

圖 1 軍事智能技術體系框架 賦能體系:以機器學習、人機交互、計算機視覺 等人工智能算法為依托,形成面向軍事應用的人工 智能優化算法引擎,實現人工智能技術在軍事領域 的賦能。軍事智能系統:應用賦能技術,面向軍事作戰需 求,依托作為人工智能算法“倍增器” 的基礎支撐, 實現感知、指揮、打擊、互聯形成的 OODA 作戰鏈路 的智能化。作戰體系:在空中作戰、反導反臨作戰、太空對 抗、陸海作戰等行動中,作戰部隊利用軍事智能系 統,與人協同,提升作戰效能,形成對敵方的非對稱 優勢。

3.2 更加透徹的感知,實現信息優勢

在探測感知領域,主要可在目標信息獲取、戰場 數據分析等方面應用自然語言處理、元學習、隨機森 林等職能技術,實現信息優勢,如圖 2 所示。

1)應用于目標信息獲取。 綜合利用微波輻射、 可見光、多光譜、紅外、聲學、磁力等多種探測手段, 實現對戰場目標信息的高效準確采集和獲取;應用 多譜段-多體制協同探測、多源數據智能融合等技 術,提高對目標的多維特征提取,精確解算目標位 置,實現對目標屬性、類型、國別、身份、敵我等快速 準確識別,實現目標信息的所見即所得[28] 。美國防 部高級研究計劃局(DARPA) 2010 年啟動了“心靈 之眼”項目[29] ,旨在研發視覺智能系統,通過無人作 戰平臺觀察目標作戰信息,并為作戰人員及時提供 應對手段。該項目主要通過運用智能圖像處理和機 器視覺等技術,對視頻信息中物體的動作和行為進行辨別和分析,通過對物體動態行為信息的準確感 知,以實現復雜作戰環境中對潛在威脅進行識別和 認知。無獨有偶,美國防部于 2017 年成立了“算法 戰跨職能小組” [30] ,旨在解決美軍在中東地區對 I? SIS 進行反恐作戰過程中遇到的海量情報分析困難 問題。該項目通過運用深度學習、計算機視覺等技 術,利用數臺計算機代替數以千計的情報分析人員, 提高情報提取的效率和精度,以支撐更及時有效的 決策[31] 。

2)應用于戰場數據分析。 綜合利用大數據、機 器學習、數據挖掘等技術,尋找在復雜作戰過程中產 生的海量數據之間的內在關聯關系,快速高效分析 戰場作戰行動和態勢變化,將偵測到的戰斗力量分 布與活動和作戰環境、敵作戰意圖及機動性有機聯 系起來,分析并推理事件發生的原因,得到敵方兵力 結構和使用特點的估計,通過已知事件推測將來可 能發生的事件[32] 。DARPA 于 2011 年設立“洞悉” 項目[33] ,旨在研發一套情報分析系統,將操作員的 知識和推理能力融入到系統當中,從而提高快速應 對網絡威脅和非常規戰爭的能力。該項目主要運用 異構信息關聯、多源智能融合等技術,通過分析和綜 合多源傳感器探測信息和不同資源情報數據,輔助 增強情報分析人員的信息處理與共享能力。DAR? PA 于 2019 年設立了“以知識為導向的人工智能推 理模式”項目[34] ,旨在研發一套半自動化的人工智 能推理系統,將通過語言和常識推理得到的知識庫 應用于復雜現實事件的理解中,解決多源信息阻礙事 件理解的問題。該項目運用知識圖譜等技術,通過對 復雜事件內部組成元素和時間線進行推理和預測,快 速識別不同事件之間的關聯性,提升事件理解能力。

3. 3 更加高效的指揮,實現決策優勢

在指揮控制領域,主要可在作戰方案推演、遠程 指揮控制等方面應用平行仿真推演、腦機融合等智 能技術,實現決策優勢,如圖 3 所示。 1)應用于作戰方案推演。通過深度學習技術, 訓練智能體對戰場交戰規則、作戰指揮決策、事件認 知推理等知識進行學習和模擬,提升智能體認知的 智能性、實時性與科學性。在戰場態勢實時共享的 基礎上,對戰場數據進行智能化處理,通過平行仿真 推演作戰方案,形成對對手下一步可能的軍事行動 和戰場演進趨勢的智能預測,自動匹配最佳行動策 略[35] 。2007 年,DARPA 安排了名為“深綠”的系統 研發項目[36] ,旨在建造一套人工智能作戰輔助決策 系統。該系統利用平行仿真、動態博弈等技術,基于 戰場實時數據,可動態模擬戰場敵我雙方作戰行動, 并預測戰場態勢走向,幫助指揮官提前思考,縮短決 策時間。DARPA 于 2018 年啟動了 “ 指南針” 項 目[37] ,該項目主要通過利用大數據分析、博弈對抗 等方法對戰場數據進行分析,構建敵方作戰行動與 路徑模型,幫助作戰人員確定敵方真實作戰意圖,制 定并選取我方最有效的行動方案。

2)應用于智能化遠程指揮控制。應用“元宇 宙”概念,利用人工智能技術構建與真實戰場平行 的虛擬作戰空間,采用語音識別、手勢識別、腦機接 口等智能人機交互技術,使指揮員、作戰人員有沉浸 式的體驗,實現人與機器之間,指揮單元、精確打擊 武器與信息應用系統之間的無障礙溝通[38] 。2021 年 8 月,在美國海軍年度最大規模活動“海-空-天 博覽會”上[39] ,海軍信息戰系統司令部首次驗證了 “周邊環境智能談話接口”項目開發的能力,展示了 智能化、自然交互技術如何實現未來信息戰。該項 目旨在為海軍指揮控制引入下一代數字助手,通過 使用人工智能和機器學習來理解說話的人是誰、談 話的內容是什么,談話可被決策者當作一種獲取所 需信息的直接途徑,幫助決策者獲得及時的、合成后 的資訊。

3. 4 更加精確的打擊,實現力量優勢

在武器打擊領域,主要可在單武器平臺自主作 戰、作戰編組分布式殺傷等方面應用計算機視覺、多 智能體協同等智能技術, 實現力量優勢, 如圖 4 所示。

1)應用于單武器平臺自主作戰。 以人工智能 技術為核心,綜合多種嵌入人工智能算法的武器裝 備平臺為手段,在多重維度實時精確打擊,實現武器 的單體智能[40] 。美國戰斧導彈在攻擊目標過程中, 如果目標或任務發生變化,便根據指令在戰區上空 盤旋,然后自主搜索和重新選擇、確定合適的攻擊目 標。美國研制的“黃蜂” 導彈,裝有一套先進的探 測、控制設備,可實現目標偽裝設施的識別以及多任 務目標的智能化自主分配,從而達到最大的效費比 和命中精度。

2)應用于作戰編組分布式殺傷。 借鑒自然界 生物群體行為的智能集群與協同技術,通過去中心 化提高了系統抗毀傷性以及任務成功率;通過簡單 作戰單元間的信息高效交互提升系統的整體效應和 群體智能水平,從而最終實現復雜戰場條件下任務 的自主分解、作戰單元的自主協同、作戰方案的自主 規劃和作戰對象的自主打擊[41] 。DARPA 于 2014 年設立了“拒止環境中的協同作戰” 項目[42] ,旨在 研發一套自主協同作戰系統,實現一名操作人員對 多架無人機進行指揮。該項目通過先進算法和模塊 化軟件架構,解決無人機集群在復雜干擾條件下無 法完成作戰任務的問題,提升無人機集群完成任務 的能力。DARPA 于 2015 年設立了 “ 小精靈” 項 目[43] ,旨在建立一套可回收重復使用的無人機作戰 集群,實現一種穩定可靠、經濟實惠的作戰方式。該 項目通過運用一體化設計、自主協同規劃等技術,完 成戰前對戰場區域的大規模快速偵查和欺騙干擾等 作戰任務。

3. 5 更加自由的互聯,實現網絡優勢

在戰場互聯領域,主要可在戰場網絡韌性通聯、 網絡攻防等方面應用認知計算、博弈對抗等智能技 術,實現網絡優勢,如圖 5 所示。1)應用于戰場網絡韌性通聯。利用人工智能 技術敏捷感知網絡環境、靈活加載通信波形、自主管 控網絡資源,提升戰場通信網絡體系韌性。近年來, 為了不斷適應新的軍事戰略和作戰形勢,美軍一直 在探索如何在反介入/ 區域拒止作戰環境中確保靈 活、敏捷、彈性的有保障通信系統。美國空軍實驗室 與加拿大國防研發中心通信研發中心開展了“挑戰 與對抗性環境中有保障通信”項目研究[44] ,主要針 對未來作戰人員可能面臨的惡劣通信條件,特別是 在偏遠與服務欠缺條件下以及動態與對抗環境中, 通過開發新的概念與技術,實現靈活與自適應頻譜 接入,保證魯棒而可靠的通信能力。2017 年,DAR? PA 啟動了“無線電頻譜機器學習系統”項目[45] ,通 過人工智能理解無線電信號,改善推廣頻譜共享技 術,增強無線通信能力。2)應用于網絡攻防。以人工智能為武器,使惡 意攻擊行為可以自我學習,并根據目標防御體系的 差異自適應地“隨機應變”,通過群招潛在的漏洞達 到攻擊的目的。同時,采用人工智能技術可以改善 網絡安全現狀,能更快地識別已知或未知威脅并及 時響應。美國斯坦福大學和 Infinite 初創公司于 2017 年聯合推出了一型自主網絡攻擊系統,該系統 圖 5 網絡互聯+AI 技術的應用 的核心處理單元是一種定制的人工智能處理芯 片[46] 。該新型網絡攻擊系統能夠在特定的網絡中 運行,完成信息的自主采集、學習和攻擊程序的自主 編寫,并且可以對攻擊程序進行自適應動態調整,具 備較強的隱蔽性和破壞性。2018 年 DARPA 啟動了 “利用自主系統對抗網絡對手計劃” 項目[47] ,旨在 建立安全可靠的網絡代理,實現對僵尸網絡的有效

遏制。該項目通過開發定量框架和算法,完成對僵 尸網絡的精確識別、推斷存在的漏洞以及生成軟件 補丁,減少對系統的不良影響。

3. 6 更加堅實的支撐,實現賦能優勢

1)具有智慧的人工智能系統為軍事智能化提 供“新動能”。傳統機器學習方法需要在系統部署 前,利用數據集對系統進行訓練。一旦完成訓練智 能體所應對的場景和問題將被固化從而無法應對新 場景,而再次訓練效率低下且工作量大。在執行軍 事作戰行動時,需要人工智能系統能夠在任務中自 我學習和改進,將先前的技能和知識應用于新的情 況,以應對各類作戰場景[42] 。2017 年,DARPA 安 排了名為“終身學習機器” 的項目[48] ,通過利用目 標驅動感知進行持續學習,形成對新情景的自主適 應,改變當前智能體無法應對未訓練場景的情況。2)低功耗、強算力、易擴展的智能芯片為軍事 智能化提供“新基建”。作為人工智能技術的重要 物理基礎,當前主流人工智能芯片存在功耗大、內存 帶寬不足、框架固化等瓶頸。為更好支撐人工智能 的軍事領域應用,下一代人工智能芯片應具備低功 耗、強算力、易擴展等特點。2020 年,英偉達公布了 其用于超級計算任務的人工智能芯片[49] ,算力提升 20 倍以上。2020 年 10 月,英特爾宣布獲批一項與 美國軍方合作項目的第二階段合同[49] ,旨在幫助美 國軍方在國內生產更先進的人工智能芯片原型,這 種封裝技術能夠將來自不同供應商的“小芯片” 集 成到一個封裝中,從而實現把更多功能整合進一個 更小的成品中,同時降低其功耗.

付費5元查看完整內容

今日薦文的作者為中國電子科學研究院專家馬征宇,白陽。本篇節選自論文《機器人集群協同作戰關鍵技術研究》,發表于《中國電子科學研究院學報》第17卷第1期。

本文來源:學術plus 微信公眾號

摘 要:文中根據機器人集群的概念和特點,結合機器人集群在作戰使用中的軍事需求,梳理了世界各軍事強國在機器人集群領域的發展規劃和最新應用研究成果。通過對相關戰例的梳理分析,評估了機器人集群在未來作戰場景下發揮的主要作用,根據作戰需求,綜述了機器人集群協同作戰的關鍵技術體系,并對機器人集群在未來作戰使用中的發展趨勢進行了展望。

**關鍵詞:

**機器人集群;智能;協同

引言

機器人集群一般由異構、可互換的機器人單元組成,利用共識控制法則及有限通信能力產生涌現性的群體行為。在戰場上,機器人集群以具有一定感知、自主和行為能力的無人系統為主要作戰單元,可與其他兵力協同配合,形成獨立建制的作戰力量,進化出新的作戰模式,生成新的作戰能力。

早在20世紀60年代,機器人相關研究已經開始,美國斯坦福研究所于1969年就發布了世界上第一臺智能機器人。然而,機器人集群作為一個新興的研究領域,直到近5年才被研究者關注。 2014年,哈佛大學的科研人員在《Science》上發表的機器人集群論文被評為2014年的十大科學成就之一[1]。其使用足夠多低復雜度及低成本的機器人,通過攜帶紅外傳感器,實現與相鄰機器人的交互,表現出自適應變化外觀的群體智能行為。此后,國內外眾多學者在機器人集群方面開展了一系列關鍵技術研究,相關研究成果如圖1所示,相關研究內容涵蓋機器人集群的自組織行為[2]、路徑規劃[3]、編隊控制[4]、網絡通信[5]、信息融合[6]等方面。這些研究標志著機器人集群領域的飛速發展,也促進了機器人集群技術向未來軍事應用轉化,使機器人集群成為改變未來戰爭的關鍵性力量。

圖1 機器人集群關鍵技術研究代表性成果 1 機器人集群作戰特點 隨著人工智能、網絡信息、增材制造等領域科學技術的飛速發展,戰爭形態也正從信息化戰爭向智能化戰爭加速推進。未來戰爭與傳統戰爭相比,一方面更注重能力的跨越式提升以拉開非線性優勢差距;另一方面隨著新理念、新技術、新模態的引入,未來戰爭將呈現空間多維化、時間實時化、對象多元化、樣式豐富化等特點,在機器人集群作戰上具體表現為以下四點。 1.1 機器人集群可協同并行作戰,加快行動決策速度未來戰爭中,由于信息技術、網絡技術、先進平臺技術、精確打擊等技術的有力支撐,機器人集群在信息共享水平、機動能力、火力反應能力將大幅度提高,其指揮控制決策速度也大大加快,殺傷鏈的時間大幅縮短,將顯著加快機器人集群的作戰節奏。基于這一深刻變革,傳統作戰理念也受到顛覆,作戰群的作戰速度將不再受最慢的作戰單元制約,而是由最敏捷的單元決定。 1.2 機器人集群可快速模塊重組,提高部隊恢復能力 在未來消耗作戰中,由機器人集群代替有人作戰部隊,可大幅降低人員傷亡,控制作戰損失。模塊化構建的機器人單元基于通用接口進行分系統整合,該架構可在滿足多任務要求的同時降低成本,支持單體的批量化生產,并在戰場消耗中具備快速恢復能力。 1.3 機器人集群可動態調節編成,增強多任務靈活性機器人集群以功能簡單、成本較低的單元節點為載體,通過眾多異構機器人單元進行靈活編成,利用節點間通信交互進行信息共享,以優化的編組配置進行高效能作戰,提高機器人集群的多任務能力。 1.4 機器人集群可智能相互替代,提升體系作戰效能體系化作戰是未來作戰的主要模式,在網絡信息體系下,機器人集群的各單元、各編組間相互協同,可實現作戰效能倍增。機器人集群通過無中心化協作,在部分節點毀傷失效時,通過智能補位,消除失效點,增強體系魯棒性,提升體系作戰效能。在未來戰爭需求牽引下,機器人集群依據自身立體化、小型化、無人化、智能化特點,顯著加快了作戰節奏,提高了作戰單元的自主協同水平,形成了基于網絡信息體系的聯合作戰能力。

2 機器人集群軍事應用研究現狀目前,世界軍事強國正在組建機器人協同作戰體系,部分機器人集群已開始執行偵察和監視任務,替代士兵站崗放哨、排雷除爆。美國、俄羅斯、以色列等國家正通過頂層規劃和項目布局等推進機器人從單元到集群的關鍵技術和武器裝備發展。

2.1 美國 美軍在2004年僅有163個地面機器人,2007年增長為5000個,至少10款智能戰爭機器人在伊拉克和阿富汗“服役”。美軍無人系統發展正進入高效提升整個譜系能力、全面推進概念技術融合、逐步推動裝備更新拓展的新時期。

2017年3月,美國陸軍發布《機器人與自主系統戰略》,指出無人作戰系統發展的遠期目標(2030-2040年)不應局限于單個機器人各自為戰,而應實現多個機器人系統的組合作戰。2018年3月,美國海軍完成《海軍部無人系統戰略路線圖》;2018年8月,美國防部發布第5版無人系統綜合路線圖《2017-2042財年無人系統綜合路線圖》,明確指出無人系統的互操作性、自主性、網絡安全和人機合作是未來無人系統發展的關鍵技術。

**美軍已經多次將作戰機器人應用于實戰,比如北美奎尼提克公司研制的“模塊化先進武裝機器人系統”、福斯特-米勒公司研制的TALON作戰機器人、奎奈蒂克公司研制的MAARS地面無人作戰平臺等。**這些機器人除了可以攜帶槍械進行正面作戰之外,還具備戰場救死扶傷以及引爆炸藥的功能,兼具火力、救護、排爆的多功能特色,可以有效減少美軍士兵的戰場傷亡。在近期擊斃極端組織頭目巴格達迪的作戰行動中,美軍作戰機器人再次成功用于關鍵時刻爆發的黑夜室內槍戰,彌補特種部隊夜間射擊精準度低的劣勢。 2.2 俄羅斯 **近年來,俄軍實施大規模武器裝備現代化升級計劃。**2019年11月22日,俄羅斯總統普京表示,俄軍隊現代武器裝備占比已超過68%,未來這一占比將提升至70%并穩定維持在這一水平。研制能獨立完成戰場作戰任務的機器人,一直是俄軍方和研發機構的努力方向。俄羅斯將于2020年開始制訂《機器人部隊組建任務路線圖》,并準備在2025年前完成有關科學研究、試驗設計和組建機器人部隊等一系列計劃,然后將這一新型部隊納入俄軍管理體系。 據報道,**俄羅斯目前研制的作戰機器人將使用5種自動操作平臺,分別執行安保、運輸、加油等任務。****俄軍方和機器人研發機構今年以來對新研制的作戰機器人進行了協同配合演練,取得良好效果。**部分機器人已經被送至敘利亞以接受實戰檢驗,在圍攻拉塔基亞省754.5高地的極端勢力戰斗中,俄羅斯投入了4臺履帶式“平臺”M戰斗機器人和2臺輪式“阿爾戈”戰斗機器人及至少一架無人機。機器人集群的運用使俄敘聯軍僅僅20分鐘就取得了殲滅70名武裝分子,己方僅4人受傷的輝煌戰果。 2.3 以色列 **以色列在人工智能和機器人領域的技術實力被認為媲美“硅谷”。**憑借強大的科技實力,目前以色列已建成一支縱橫海陸空的“機器人軍團”,協助執行邊境巡邏、情報收集、作戰輔助和攻擊等多種任務,該軍團在以色列國防軍的歷次作戰行動中發揮了重要作用。以色列“機器人軍團”的主要機器人裝備型號為:UGV守護者無人戰車、USV“銀色馬林魚”多功能無人水面艇、以及以“蒼鷺”以代表的各型無人機等。

此外,以色列還正在加快組建士兵與機器人混成編隊的戰斗部隊,以使機器人戰士接到任務后依靠人工智能、大數據分析等技術,自動與人交流并分配工作。 3 機器人集群關鍵技術體系圍繞未來戰斗力生成的迫切需求,面向應用場景下的機器人集群效能動態釋放,以機器人單元的單體智能技術為基礎,以機器人間群體智能技術為關鍵,以匯聚認知決策能力的體系智能技術為導向,形成開放兼容、蓬勃發展的機器人集群關鍵技術體系。機器人集群關鍵技術體系涵蓋了決策層的體系技術,連接層的群體技術、以及節點層的單體技術。 3.1 體系智能技術 機器人集群要適應跨域、聯合作戰等復雜場景,作戰要素種類繁多,需要依托感知、認知、決策、控制以及人機融合等先進算法,打造機器人集群體系的效能匯聚能力,驅動作戰力量的動態組織,優化戰場資源配置,形成機器人集群體系智能技術架構。體系智能技術主要包括分布式作戰管理與優化技術、人機協作與融合技術、基于多種學習方法的策略生成技術。

3.1.1 分布式作戰管理與優化技術

未來戰爭的對抗模式強調體系與體系之間的對抗[11],多種異構跨域裝備形成的作戰體系戰斗力直接決定了軍隊的戰斗力強弱[12]。通過分布式協同處理架構[13],使規劃控制算法、態勢感知及人機交互技術集成于分布式作戰管理軟件中,將規劃與控制分散[14],保證機器人集群的通信和協調穩定性[15],使作戰編隊在復雜環境下也能夠高效執行任務。通過基于多智能體的體系作戰效能優化,可迅速尋找到作戰能力增長點,有望迅速提升機器人集群作戰效能。 3.1.2 人機協作與融合技術

人工智能技術尚不足以支撐其完全取代人完成所有任務[16],因此采用人機協作[17]方式可以發揮人與機器的不同特長,結合人與機器的智能,以做出更有效的戰場決策。人機協作與融合技術結合了機器智能可快速、低成本存儲、比較、檢索、排序的特點與人腦善于聯想、推理、分析、歸納的能力特點,實現智能的共同演進和優化。 3.1.3 基于多種學習方法的策略生成技術

決策是機器人集群智能化作戰中的關鍵性步驟,有望成為機器人集群作戰能力的倍增器,因此發展高度智能的機器人集群作戰策略生成技術迫在眉睫。針對復雜環境中的作戰任務要求,建立基于監督學習[18]、無監督學習[19]、增強學習[20]等方法的體系智能協同理論和分布式協同管理框架,探索協同控制策略生成機理[21],提升機器人集群體系在多變戰場態勢中的作戰能力。 3.2 群體智能技術 圍繞提升機器人集群分布式模塊化跨域協同能力的迫切需求,機器人集群全域協同作戰網絡關鍵技術研發要以“萬物互聯、機器互識、邊緣智能、安全可信”為基本方針,提升復雜強對抗環境中鏈路受限狀態下機器人集群不完全信息的態勢理解、抗干擾自適應傳輸、抗毀自組織網絡、邊緣快速協同決策、語義協同互操作與精確模糊控制能力為重點。群體智能技術體系主要包括大規模抗干擾彈性組網融合技術、協同感知技術、智能任務分配技術等。

****3.2.1 大規模抗干擾彈性組網融合技術

機器人集群的協同首先依賴可靠的大規模、抗干擾組網通信技術[22]。從早期單信道呼叫網到如今的數字移動通信網,研究者一直在尋找穩定高效的抗干擾無線通信系統,尤其是在復雜電磁環境及通信拒止條件下,進行通信頻道檢測、帶寬性能優化、自適應傳輸、智能故障診斷與修復就顯得尤為重要[23]。基于大規模彈性組網[24],機間相對定位[25],綜合抗強干擾[26]等技術基礎,解決蜂群無人機拒止環境作戰中通信保障、網絡無法互聯互通時節點的間態勢共享和協同信息交互、拒止環境下相對定位問題。 ****3.2.2 協同感知技術

戰場態勢信息的高效可靠獲取是突破“電磁迷霧”[27]并取得未來戰場制信息權的基礎和關鍵。研究基于多傳感器目標跟蹤的數據時空對準技術[28]、多傳感器數據融合中的數據預處理技術[29]、多傳感器數據融合并行處理技術[30]、信號參數隨機變化下的分布式檢測融合技術[31],開發面向多領域、多功能應用的多傳感器信息融合系統。構建機器人集群全維信息感知能力,以確保對戰場態勢立體實時監控,實現戰場環境及態勢對我方單向透明,將支持機器人集群有效塑造戰場態勢。 ****3.2.3 智能任務分配與優化技術

智能任務分配技術考慮集群數量、戰場環境、目標價值及單元能力約束等,通過優化將不同任務分配給機器人單元,使機器人集群完成預定的偵察、干擾、攻擊任務,提高作戰效能的技術。這一問題屬于NP難度問題,可通過運籌學進行建模[32],并使用時間序列方法[33]、博弈論方法[34]、遺傳算法[35]、粒子群算法[36]、蟻群算法[37]等進行資源分配,再運用整數規劃方法[38]、市場競拍機制算法[24]、自組織算法[39]等進行目標分配。 3.3 單體智能技術 機器人單體功能是通過機器人所搭載的各類感知和執行設備在其核心計算單元控制下完成的。為形成機器人集群的整體作戰能力,將從節點機器人模塊化可重構技術、智能仿生技術、自主控制技術等為重點進行軟硬件技術突破。 ****3.3.1 模塊化可重構技術

模塊化和可重構的設計理念使得機器人具備了固定形態機器人難以企及的靈活性、易維護性,極大地降低了系統的維護成本[40]。模塊化可重構技術包括模塊化電器系統建模技術[41]、一體化關節技術[42]、軟體序列自重構技術[43]、機器人編程技術[44]、傳感器模塊化技術、能源管理模塊化技術,開發快速設計仿真技術[45]等,通過突破先進機械制造技術,構建覆蓋多重作戰域的機器人集群裝備。 3.3.2 智能仿生技術

仿生技術是通過研究生物系統的結構和性質,為機器人設計提供新原理,并賦予機器人新能力。研究仿人形機器人的感知與控制技術、高性能仿生材料應用技術、視覺仿生探測技術[46]、聽覺仿生探測技術[47]、觸覺處理技術[58]、復雜環境下多信息獲取與融合技術[49],開發接近生物原型的智能仿生機器人本體結構[50],如開發水下機器魚[51]、壁面爬行機器人[52]、地面機器狗[53]、類人機器人[54]等本體結構。 ****3.3.3 自主控制技術

自主控制技術使機器人能夠自主判斷戰場環境,自主調整和控制單元行為,在通信中斷、指控受限的情況下完成任務。為使機器人單元具備自主控制能力,需研究基于計算機視覺的三維地圖構建技術[55]、室內定位技術[56]、自主導航技術[57]、目標跟蹤技術[58]、機器人及機械手臂自主控制技術[59]、機器人軌跡跟蹤控制技術[60],研究復雜環境下機器人的多功能自主控制技術[61]。 4 機器人集群未來發展趨勢 4.1 機器人集群將成為主體作戰裝備,顛覆作戰攻防模式 隨著人工智能技術的發展,機器人集群及其他群化智能無人裝備的數量將會迎來爆發性增長。因為機器人集群裝備的智能化水平高、任務靈活性強、機動靈活,其將迅速成為執行戰場任務的最佳選擇,甚至機器人集群的作戰效能將直接影響戰爭的勝負。由于機器人集群網絡化、智能化、無人化的特點,其會加快戰斗節奏,模糊前線/后方概念,并依據機器人集群執行命令堅決、低成本可犧牲等特點,形成新的制勝戰法。 4.2 機器人集群將成建制形成戰斗力,改變軍事力量編成 機器人集群可形成扁平化的指揮控制系統,并高效傳達、執行既定作戰命令,因此機器人集群有望單獨組建為特種部隊,執行關鍵性作戰任務。機器人集群的兵力配置可根據任務隨時調整,可成建制替代現有有人部隊,勝任連排級任務清單要求,使作戰人員決勝于千里之外。 4.3 機器人集群將進行跨域協同作戰,影響軍兵種作戰體系 機器人集群的單元節點在逐漸復雜化、多棲化,由最初的地面人形機器人、地面無人車、空中無人機、水面無人艇、水下潛航器單打獨斗,向跨域聯合立體作戰發展。機器人集群跨域協同作戰可全面提升全域作戰能力,這將改變各類軍兵種作戰分工,通過機器人集群的作戰運用促進兵種間的協同配合。 4.4 機器人集群將重塑后勤保障系統,擴大部隊的作戰范圍當前有人部隊的作戰能力往往受到后勤保障能力制約,例如伊拉克戰爭中美軍第四裝甲師的M1A2坦克由于續航里程只有400多千米,只能中途停止突擊,等待油料補給,嚴重制約了裝甲部隊的縱深打擊能力。運用機器人集群擔負后勤運輸任務,可解放戰斗兵力,提高后勤保障效率,以支持未來有人/無人作戰部隊的遠距離、持續作戰。 結 語 隨著機器人集群領域技術的跨越式發展,機器人集群已經逐步在全域聯合作戰體系中體現出巨大的應用潛力。世界軍事強國紛紛開展機器人集群的協同作戰項目,以推進相關技術在未來無人化、智能化戰爭中的應用,并形成了體系智能、群體智能、單體智能三層的機器人集群關鍵技術體系。該技術體系的整體突破將促進機器人集群的實戰化運用,有望形成一支立體化、特戰化、小型化、模塊化、智能化的快速反應作戰力量。

【參考文獻】 [1]RUBENSTEIN M,CORNEJO A, NAGPAL R. Programmable self-assembly in a thousand-robot swarm[J].Science, 2014, 345(6198):795-799. [2]BUDENSKE J, MURRAY L. Decentralized control methods forself-organizing collaborative robotic teams[J]. International Society forOptics and Photonics, 2018, 10651:106510J. [3]LAGOUDAKIS M G, MARKAKISE, KEMPE D. Auction-based multi-robot routing[J]. Robotics: Science and Systems,2005, 5:343-350. [4]BEAL J, CLEVELAND J,USBECK K. Self-stabilizing robot team formation with proto: IEEE self-adaptiveand self-organizing systems 2012 demo entry[C]//IEEE Sixth InternationalConference on Self-Adaptive and Self-Organizing Systems. Lyon: IEEE Press,2012:233-234. [5]LI M, LU K, ZHU H.Robot swarm communication networks: Architectures, protocols andapplications[C]//Third International Conference on Communications andNetworking. Hangzhou: IEEE Press, 2008:162-166. [6]STROUPE A W, MARTINM C, BALCH T. Distributed sensor fusion for object position estimation bymulti-robot systems[C]//IEEE International Conference on Robotics andAutomation. Seoul: IEEE Press, 2001, 2:1092-1098. [7]AYARI A, BOUAMAMA S.A new multiple robot path planning algorithm: dynamic distributed particleswarm optimization[J]. Robotics & Biomimetics, 2017, 4(1):8. [8]WEI H, LV Q, DUO N.Consensus algorithms based multi-robot formation control under noise and timedelay conditions[J]. Applied Sciences, 2019, 9(5): 1004. [9]MING L, LU K, HUA Z.Robot swarm communication networks: architectures, protocols, andapplications[C]//Third International Conference on Communications &Networking. Hangzhou: IEEE Press, 2008: 162-166. [10]BERLINGER F, GAUCIM, NAGPAL R. Implicit coordination for 3D underwater collective behaviors in afish-inspired robot swarm[J]. Science Robotics, 2021, 6(50): . [11]董良東,陳曉,曾興善. 武器裝備體系效能評估方法研究[J]. 兵工自動化, 2008, 27(2):30-31. [12]JOHNSON I R, MACKAY NJ. Lanchester models and the battle of Britain[J]. Naval Research Logistics,2008, 58(3):210-222. [13]王彤,李磊,蔣琪.美國DBM項目推進分布式指揮控制能力發展[J].戰術導彈技術, 2019 (1):25-32. [14]AZARM K, SCHMIDT G.Conflict-free motion of multiple mobile robots based on decentralized motion planningand negotiation[C]// Proceedings of International Conference on Robotics andAutomation. Albuquerque: IEEE Press, 1997: 3526-3533. [15]FUCHSEN R. Preparingthe next generation of IMA: A new technology for the scarlettprogram[C]//IEEE/AIAA 28th Digital Avionics Systems Conference. Orlando: IEEEPress, 2009: 5-8. [16]COPELAND B J,PROUDFOOT D. Artificial intelligence: History, foundations, and philosophicalissues[J]. Philosophy of Psychology & Cognitive Science, 2007,77(1):429-482. [17]CHAROENSEANG S, TONGGOEDT. Human-robot collaboration with augmented reality[J]. Communications inComputer & Information Science, 2011:93-97. [18]VOROBYEV G, VARDY A,BANZHAF W. Supervised learning in robotic swarms: from training samples toemergent behavior[M]. Berlin: Springer, 2014:435-448. [19]YUWONO M, SU S W,MOULTON B. Fast unsupervised learning method for rapid estimation of clustercentroids[C]//IEEE Congress on Evolutionary Computation. Brisbane: IEEE Press,2012:1-8. [20]IIMA H, KUROE Y.Swarm reinforcement learning method for a multi-robot formationproblem[C]//IEEE International Conference on Systems, Man, and Cybernetics.Manchester: IEEE Press, 2013: 2298-2303. [21]杭飛. 基于博弈論的多智能體協同控制算法[J]. 電腦與信息技術, 2014, 22(2):14-17. [22]CAO Y U, FUKUNAGA AS, KAHNG A B. Cooperative mobile robotics: Antecedents and directions[J].Autonomous Robots, 1997, 4(1): 7 27. [23]TSENG Y C, NI S Y,SHIH E Y. Adaptive approaches to relieving broadcast storms in a wirelessmultihop mobile Ad Hoc network[J]. IEEE Transactions on Computers, 2003, 52(5):545-557. [24]CHENG Q, YIN D, YANGJ. An auction-based multiple constraints task allocation algorithm formulti-UAV system[C]//2016 International Conference on Cybernetics, Robotics andControl (CRC). Hong Kong: IEEE Press, 2016: 1-5. [25]WANG L, DAI J, CHENGQ. Cooperative control of robotic swarm based on self-organized method andhuman swarm interaction[C]// 2018 WRC Symposium on Advanced Robotics andAutomation. [S.l.]: IEEE Press, 2018: 129-134. [26]施淼淼. 面向IDGPS機器人集群通信鏈路故障檢測與恢復[D]. 南京:南京理工大學, 2009. [27]廖方圓,周華吉,李京華,等.無人機群通信網絡態勢感知研究現狀與發展趨勢[J].航空兵器, 2019, 26(4):16-22. [28]張娟,徐德,張正濤,等.基于多路顯微視覺的微零件自動對準策略[J].機器人,2014,36(1):69-75. [29]雷旭升,白浪,洪曄,等.基于自適應遺傳算法的小型無人旋翼機系統辨識方法[J].機器人,2011,33(5):528-532. [30]沈悅明,陳啟軍.一種基于任務的機器人全局并行算法研究及實現[J].機器人,2003,25(6):495-500. [31]王文.面向機器人跟隨作業的目標人跟蹤[D]. 杭州:浙江大學,2018. [32]BRIAN P G, MAJA J M.A framework for studying multi-robot task allocation[C]//In Multi-RobotSystems: From Swarms to Intelligent Automata Conference. Los Angles: KluwerAcademic, 2003:15-26. [33]MEI Z, PENG Z, ZHANGX. Optimal dynamic weapon-target assignment based on receding horizon controlheuristic[C]//13th IEEE International Conference on Control & Automation.Ohrid: IEEE Press, 2017: 876-881. [34]BARDHAN R, BERA T,SUNDARAM S. A decentralized game theoretic approach for team formation and taskassignment by autonomous unmanned aerial vehicles[C]//2017 InternationalConference on Unmanned Aircraft Systems. Miami: IEEE Press, 2017: 432-437. [35]JIA Z, YU J, AI X.Cooperative multiple task assignment problem with stochastic velocities andtime windows for heterogeneous unmanned aerial vehicles using a Geneticalgorithm[J]. Aerospace Science and Technology, 2018, 76: 112-125. [36]ZHOU D, LI X, PAN Q.Multiobjective weapon-target assignment problem by two-stage evolutionarymulti-objective particle swarm optimization[C]//IEEE International Conferenceon Information and Automation. IEEE Press, 2016: 921-926. [37]LI Y, KOU Y, LI Z. Amodified pareto ant colony optimization approach to solve biobjectiveweapon-target assignment problem[J]. International Journal of Aerospace Engineering,2017:1746124. [38]RADMANESH M, KUMARM. Flight formation of UAVs in presence of moving obstacles using fast-dynamicmixed integer linear programming[J]. Aerospace Science and Technology, 2016,50: 149-160. [39]WANG L, DAI J, CHENGQ. Cooperative control of robotic swarm based on self-organized method andhuman swarm interaction[C]//WRC Symposium on Advanced Robotics and Automation.IEEE Press, 2018: 129-134. [40]DAI J S, ZOPPI M,KONG X. Advances in Reconfigurable Mechanisms and Robots I[M]. London: Springer,2012. [41]BORDIGNON M, SCHULTZU P, STOY K. Model-Based Kinematics Generation for Modular MechatronicToolkits[J]. ACM SIGPLAN Notices, 2010, 46(2): 157-166. [42]BOUMANS R, HEEMSKERKC. The European Robotic Arm for the International Space Station[J]. Roboticsand Autonomous Systems, 1998, 23(1): 17-27. [43]劉佳鵬,王江北,丁燁,等. 晶格型模塊化軟體機器人自重構序列[J]. 上海交通大學學報,2021,55(2):111-116. [44]DE ROSA M, GOLDSTEINS C, LEE P. Programming modular robots with locally distributedpredicates[C]//International Conference on Robotics and Automation, 2008:3156-3162. [45]溫寬昌.基于ROS的碼垛機器人運動仿真及軌跡規劃[D]. 哈爾濱:哈爾濱工業大學,2016. [46]王國彪,陳殿生,陳科位,等.仿生機器人研究現狀與發展趨勢[J].機械工程學報,2015,51(13):27-44. [47]KUNTZMAN M L,MICHAEL L, HALL N A. Sound source localization inspired by the ears of theormiaochracea[J]. Applied Physics Letters, 2014,105(3): 1-5. [48]HANNAFORD B, OKAMURAA M. Haptics[M]. Handbook of Robotics. Cham: Springer, 2016: 1063-1084. [49]王斐, 齊歡, 周星群,等. 基于多源信息融合的協作機器人演示編程及優化方法[J]. 機器人, 2018, 40(4): 551-559. [50]SCHILLING N,CARRIER D R.Function of theepaxial muscles in walking,trotting and galloping dogs: Implicationsfor the Evolution of Epaxial Muscle Function In Tetrapods[J]. Journal ofExperimental Biology, 2010, 213(9):490-502. [51]李宗剛,馬偉俊,葛立明,等.一種2自由度胸鰭推進仿生箱鲀機器魚轉彎特性研究[J].機器人,2016,38(5):593-602. [52]毛晨曦,沈煜年. 爪刺式飛行爬壁機器人的仿生機理與系統設計[J]. 機器人,2021,43(2):246-256. [53]劉冬琛,王軍政,汪首坤,等.一種基于并聯6自由度結構的電動輪足機器人[J].機器人,2019, 41(1):65-74. [54]龔道雄,何睿,于建均,等.一種氣動肌肉拮抗驅動機器人關節的類人運動控制方法[J].機器人,2019,41(6):803-812. [55]胡美玉,張云洲,秦操,等.基于深度卷積神經網絡的語義地圖構建[J].機器人,2019,41(4):452-463. [56]高云峰,周倫,呂明睿,等.自主移動機器人室內定位方法研究綜述[J].傳感器與微系統,2013,32(12):1-5. [57]孔令文,李鵬永,杜巧玲.基于模糊神經網絡的六足機器人自主導航閉環控制系統設計[J].機器人,2018(1):16-23. [58]蘇贇,王挺,姚辰,等.基于合作目標的無人機目標跟蹤方法[J].機器人,2019(4):3. [59]王明,黃攀峰,常海濤,等.基于機械臂耦合力矩評估的組合航天器姿態協調控制[J].機器人,2015,37(1):25-34. [60]鄒強,叢明,劉冬,等.基于生物認知的移動機器人路徑規劃方法[J].機器人,2018,40(6):894-902. [61]陳衛東,董勝龍,席裕庚.基于開放式多智能體結構的分布式自主機器人系統[J].機器人,2001,23(1):45-50. (全文完)

付費5元查看完整內容

人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。

付費5元查看完整內容
北京阿比特科技有限公司