?標題
On games and simulators as a platform for development of artificial intelligence for command and control
期刊
Journal of Defense Modeling and Simulation (JDMS)
美國國防建模與仿真學報
作者 Vinicius G. Goecks, Nicholas Waytowich, Derrik E. Asher, Song Jun Park, Mark Mittrick, John Richardson, Manuel Vindiola, Anne Logie, Mark Dennison, Theron Trout, Priya Narayanan, Alexander Kott
機構
美國陸軍研究實驗室
摘要
游戲和模擬器可以成為一個有價值的平臺,可以執行復雜的多智能體、多人、不完善的信息場景,與軍事應用有很大的相似之處:多個參與者管理資源并做出指揮資產的決策,以保護地圖的特定區域或中和敵方部隊。這些特征通過支持開發具有復雜基準的算法和快速迭代新想法的能力,而吸引了人工智能 (AI) 團體。人工智能算法在《星際爭霸II》等即時戰略游戲中的成功也引起了軍事研究界的關注,旨在探索類似技術在軍事對應場景中的應用。
本文旨在架起游戲與軍事應用之間的橋梁,討論了過去和當前游戲和模擬器以及人工智能算法如何適應模擬軍事任務,以及它們如何影響未來戰場方面所做的努力。
本文還研究了虛擬現實和視覺增強系統的進步如何在與游戲平臺及其軍事相似之處的人機界面中開辟新的可能性。
關鍵詞
人工智能、強化學習、兵棋推演、指揮控制、人機交互、未來戰場
現代多領域沖突日益復雜,使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解,以更快的速度和更低的成本比物理機動更易實現。其中,通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這將允許采用數據農場方法,從而創建和分析大量已玩游戲的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。
現代多域沖突日益復雜,使得對戰術和戰略的理解以及對適當行動方案的確定具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分,建模和仿真以比物理操作所能達到的更高速度和更低成本提供了新的洞察力。其中,通過計算機博弈進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,就預編程的條件計算機動作而言。如果博弈的一方可以用人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這便能夠使用數據農場方法創造并分析一個包含大量博弈的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了強大的能力。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。
在這項工作中,我們研究了人工智能系統,特別是基于神經網絡的蒙特卡羅樹搜索算法,以支持地面防空 (GBAD) 領域的規劃、培訓和決策。我們將人工智能應用于商業 (COTS) 兵棋推演“Command: Modern Operations(CMO)”,以探索復雜的決策空間,并生成新紅軍行動方案。這將挑戰藍軍作戰人員的預案,并促進新技術、戰術和概念的發展。
上述應用程序涉及兩個主要軟件組件。首先,需要有要模擬場景的規則和物理約束的模型(所謂的模擬器),其次,在模型所代表的沖突中控制一個或兩個參與者的 AI 算法。本節介紹了這兩個組件及其集成。在當前場景中,博弈的一方由 AI 智能體進行,而另一方則由游戲引擎本身通過預先編寫好的條件動作進行控制。具體來說,AI 控制攻擊的紅色戰斗機,而游戲引擎控制藍色防空炮組。
圖2-1: Command: Modern Operations兵棋推演平臺的用戶界面
圖2-2:Command: Modern Operations兵棋推演平臺回合制博弈模式
圖 4-1:經過訓練的紅色智能體在藍色防空系統范圍內的示例軌跡
北約SCI-341研討會的主要科學目標是概述有關自主系統群體 (AS) 中態勢感知 (SA) 問題的最新技術,并確定未來發展與北約行動的相關性。在廣泛的領域研究了態勢感知:太空、海洋、網絡、社交媒體、特大城市。
這項研討會的想法源于關于將自動化和基于人工智能的系統集成到無需人工直接監督即可運行的系統和集群系統。我們知道,就人類而言,良好的 SA 水平是成功執行任務的重要先決條件。因此,我們詢問自動化系統和群體是否也是如此,以及群體的新興使用如何影響人類 SA。
研討會期間提交了所有八篇常規論文,除論文外,美國空軍前首席科學家 Mica Endsley 博士發表了一篇主題演講。
演講分為三個部分:1)自主和態勢感知,2)人類作為一個循環系統,3)群體智能和態勢感知。第一場會議討論了用于機器人和自主系統建模和仿真的群體控制方法、氣象情報和合成環境。第二場會議討論了如何通過群體展示、異常檢測和可解釋的人工智能為人類操作員提供更好的 SA。第三場討論了通過群體任務分配的群體智能、使用合成環境的群體性能評估以及群體與群體之間的交互。
Session 1: 態勢感知與自主性——3篇論文
Session 2: 人在循環系統中——2篇論文
Session 3: 群體智能與態勢感知——3篇論文
A Comparison of Distributed and Centralized Control for Bearing Only Emitter Localization with Sensor Swarms(分布式和集中式控制在單方位輻射源定位和傳感器群定位中的比較)
傳感器群具有增強態勢感知的潛力。如果傳感器群中多個資產協同工作,則存在兩個挑戰:優化傳感器部署和同時最大限度地減少操作員的工作量。如果管理單個資產的傳感任務使操作員超負荷,傳感器需要自動調整其行為。如何實現控制結構有多種可能性。
本文提供了對路徑規劃的調查。要完成的任務是使用兩個僅承載傳感器的平臺定位多個目標。作者認為,“通過目標分配算法解決路徑規劃問題特別有趣,因為存在解決分布式系統上的線性分配問題的方法,僅通過動態通信圖連接”。作者比較了六種不同的控制策略:分布式樹搜索 (DTS)、分布式優化器 (DO)、分布式迭代計劃交換 (DIEP)、中央樹搜索 (CTS)、中央優化器 (CO) 和中央分配 (CA)。比較考慮了兩個方面:一個場景中的所有目標都被本地化的時間,以及必要的計算時間。
中央控制意味著評估所有傳感器/平臺承載傳感器的聯合動作空間,并將最佳動作分配給每個單獨的傳感器載體。這種方法需要強大的計算能力,因為必須解決高維問題。作者建議在本地為每個平臺規劃行動。通過這種分散的方法,可以實現多個傳感器的聯合任務的協調行為,其中每個平臺計算自己的控制向量并將其發送給其他平臺。重復此過程,直到解決方案收斂。分散的方法通常不能提供最佳的聯合解決方案。
在評估中,目標被認為是威脅;因此,平臺需要與當前目標估計保持威脅距離。此外,不同算法的規劃范圍(h 總動作數,I 步數,具有恒定控制輸入)是不同的(由作為首字母縮略詞后綴的數字表示,例如 DTS3)。下圖顯示了三種評估場景:角度和水平/垂直、Circle-4 和 Circle-8。使用了兩種不同的起始配置(相同和相反)。所有模擬都使用了 100 次蒙特卡羅運行。論文(Schily, H., Hoffmann, F., Charlish, A. A Comparison of Distributed and Centralized Control for Bearing Only Emitter Localization with Sensor Swarms. STO-MP-SCI-341)的第2章提供了詳細的評估設計。
結果如下。總體而言,CA3 顯示出可喜的結果:它在角度、水平/垂直、Circle-4 和 Circle-8-Same 場景中表現最好。對于 Circle-8-Opposite,“CA 算法很難找到最佳分配。這是因為平臺在決定是按順時還是逆時針訪問目標時并不相鄰。”對于這種情況,DIEP 和 CP3 表現最好。DIEP 的表現與具有相同時間范圍的中央規劃者相似。由于它需要較低的計算成本,因此它被認為是路徑中央規劃的有趣替代方案。對于每種方法,較長的規劃范圍對結果是有益的。
作者認為 CA 算法“似乎在集中式和分布式規劃方法之間實現了很好的折衷。在所進行的實驗中,它唯一的弱點是同時定位許多目標,這些目標相對于傳感器平臺的起點在各個方向上均勻分布(第 8 圈)。”
AI-Powered High Resolution Weather Intelligence Platform(AI驅動的高分辨率天氣智能平臺)
天氣對 UxV(無人駕駛車輛)的運營安全和效率有重大影響。風、湍流、極端溫度、濕度、閃電、云、結冰和降水只是許多局部天氣現象中的一小部分,這些現象決定了 UxV 在給定區域可以做什么或不可以做什么,我們對這些微觀現象的理解實時和預測對于任務成功至關重要。當考慮成群的 UxV 時,挑戰甚至更大,其中每輛車的態勢感知 (SA) 都嚴重依賴于另一輛車。在當今的戰場上,天氣的影響以及我們預測和應對天氣的能力,可以決定任務的成敗。
Tomorrow.io 由軍事飛行員創立,是世界上發展最快的氣象技術公司。在短短的時間內,Tomorrow.io 已成為軍事、航空和無人駕駛航空系統 (UAS) 行業的領先氣象解決方案,客戶包括主要航空公司、武裝部隊以及無人機和無人機行業的領導者。Tomorrow.io 的團隊由 100 多名科學家、工程師、產品和業務經理組成。憑借在數值天氣預報、人工智能和大規模并行計算以及航空、國防、產品開發和用戶體驗/用戶界面 (UX/UI) 方面的豐富經驗,Tomorrow.io 具有獨特的資質,可以實現范式轉變氣象行業。
大多數天氣預報在全球范圍內都存在同樣的運營差距。缺乏數據源,特別是在武裝部隊行動的偏遠地區,以及沒有雷達和氣象站的地區,以及這些地區公開可用模型的粗分辨率,是缺乏準確性和細節的主要原因提供的數據和預測。此外,原始的、不可操作的天氣信息的輸出使最終用戶(如 UxVs 操作員)的決策過程和 SA 支持變得更加困難。
Tomorrow.io 開發了一種整體方法來解決特定于 UxV 的天氣挑戰。相關的 Tomorrow.io 功能集成了新穎的傳感技術、全面而靈活的數據同化引擎、定制的建模框架、機器學習技術以及用于靈活交付數據和見解的現代云原生軟件架構的組合。
對于高質量的天氣預報,觀測(地面、空中、衛星)、模型(全球、大陸)和高性能(數值天氣預報、大規模并行計算)計算是必要的。在大量 UxV 運行的地區,氣象站或雷達站可能不可用,或者可能在相關空域上方進行采樣。此外,這些地區的天氣模型也可能不可用。該貢獻通過提出高分辨率天氣情報平臺解決了這個問題;下圖顯示了用戶界面。數據來自各種“傳統和非傳統傳感技術”。這些模型能夠攝取不同的數據源,包括 UxVs 傳感器。這樣做,可以提供“以亞公里空間分辨率實時飛行條件的完整圖片”以及高頻時間更新。在數據稀疏的地區,UxVs可以創建一個獨立的天氣觀測“網絡”。使用綜合定制大氣模型 (CBAM),可以預測長達 14 天。提議的系統為 UxVs 操作提供了幾個好處,包括快速更新、多傳感器 UxVs 天氣分析和高分辨率歷史基線分析和預測。UxVs 跟蹤和提取原位數據支持人類操作員進行實時決策。此外,從高分辨率數據中獲得的洞察力和警報可以在必須快速做出決策的情況下為操作員提供支持。開發和發布時間表計劃從 2019 年到 2025 年。
Synthetic Environment for Robotics and Autonomous Systems(機器人與自主系統的合成環境)
在未來的軍事作戰環境中使用機器人自主系統(RAS)和機器人群將成為現代戰爭的主要挑戰之一。自 2016 年以來,北約建模與仿真卓越中心 (M&S COE) 一直在開發用于概念和能力開發的機器人研究 (R2CD2) 項目,以分三個年度階段交付開放、可擴展、模塊化、基于標準的 M&S 工具原型架構,用于 RAS 和 Robotic Swarms 的實驗。具體來說,它側重于將 C2SIM 標準擴展到無人自主系統 (UAxS) 的實驗,以便在指揮與控制 (C2) 和仿真系統之間交換命令和報告。R2CD2 第二代架構實現了戰術網絡模擬和網絡效果功能,以支持軍事通用作戰圖片 (COP) 表示中公認的網絡圖片層的實驗和概念驗證,以擴展和改進 RAS 和集群態勢感知在戰術和操作層面。該實驗于 2020 年進行,通過多個互操作性標準證明了在三個不同位置的不同系統之間進行復雜交互的可行性。
該架構的最后一代,名為 R2CD2 EVO,引入了虛擬模擬、用于真實和模擬無人機系統 (UAS) 的真實地面控制站 (GCS) 和提供包括網絡層的 RAS/Swarm COP 的 C2 系統。該平臺使我們能夠研究、分析和對抗 RAS 系統和群體,根據任務任務和模擬系統的動態姿態,突出描述對來自建模傳感器的外部刺激作出反應的過程的行為。平臺數據設置場景是基于未來特大城市模型 (WISDOM) 實施的城市環境開發的,并將兵棋推演概念擴展到 RAS,充當訓練測試場,不僅用于在軍事期間使用 RAS 系統人員的標準培訓任務,也可作為能力發展的態度訓練算法。作為研究和開發活動的結果,R2CD2 EVO 被提議作為開發 RAS 合成環境的基石,以支持北約和各國在多域 UAxS 上的概念開發、實驗、培訓和演習活動。
Swarm View: Situation Awareness of Swarms in Battle Management Systems(群體視角:戰斗管理系統中群體態勢感知)
多架無人機(UAV)的使用意義重大。因此,人機交互及其交互設計變得越來越重要,特別是在戰場上的軍事偵察中。然而,無人機群規模的不斷擴大帶來了許多需要解決的挑戰,例如具有高動態性的復雜情況增加了對用戶的需求。
作者解決了人機交互的人體工程學顯示問題,重點關注戰斗管理系統中的集群。隨著無人機群規模的增加(例如,多達數千個戰術無人機),情況可能很快變得復雜和混亂。因此,需要仍然能夠為群體的所有者提供 SA 以避免信息過載的解決方案。
首先,該貢獻提供了文獻調查的結果。一方面,作者提取了單個人類操作員必須監控大群體時可能出現的挑戰:復雜的操作畫面、高動態、信息過載以及對用戶的需求不斷增加。另一方面,它們為符合人體工程學的顯示器設計提供了現有的指導方針。基于此,作者設計了四種不同的面向應用的原型布局,針對鼠標、鍵盤和觸摸輸入進行了優化:
基于領導者的呈現:群體分成團隊;可視化一個團隊的領導機器人。 基于群體的呈現(下圖):將整個群體作為一個單元;整個群體的可視化,單一機器人可分解。 基于區域的呈現:區域、POIs等的可視化;與環境的交互。 基于縮放的呈現:縮放級別而定的可視化;信息級別由用戶決定。 所有布局都包含六個主要組件,這些組件適用于各自的布局。地圖 (1),基于谷歌地圖 (2021) 是基礎并位于顯示中心。它提供縮放、小地圖、帶有附加信息的藍軍和紅軍、未知對象以及區域和興趣點 (POI) 選項等功能。區域管理 (2) 允許用戶創建例如操作區域 (AO) 或 POI。任務管理 (3) 包含一個時間表,其中包含所有計劃的、當前的和已完成的任務,并允許為群體或部分群體計劃新任務。狀態信息 + 直播 (4) 顯示集群或無人機的狀態。直播的顯示尺寸(來自選定的無人機或區域)是可變可調的。Red Force 信息 (5) 在單獨的列表中顯示未知和已知對象(除了地圖顯示)。輔助系統優先考慮支持用戶決策的傳入對象。對話框 (6) 顯示傳入的警報、警告和消息。 這四種布局將很快與德國陸軍偵察部隊的焦點小組進行評估。根據來自特定軍事角色和層級的反饋,將迭代調整布局。進一步的開發/實驗將確定 SA、用戶體驗和直觀性(實驗室和現場測試),并為交叉設計和群體交互用戶界面提供建議。
Anomaly detection and XAI concepts in swarm intelligence(群體智能中的異常檢測和XAI概念)
對于群體智能中的人類操作員來說,關鍵情況下的決策支持至關重要。自主系統共享的大量數據很容易使人類決策者不堪重負,因此需要支持以智能方式分析數據。為此,使用了用于評估情況和指示可疑行為或統計異常值的自主系統。這增強了他們的態勢感知能力并減少了工作量。因此,在這項工作中,我們強調為檢測監視任務中的異常而開發的數據融合服務,例如在海事領域,可以適應支持集群智能的運營商。此外,為了使人類操作員能夠理解群體的行為和數據融合服務的結果,引入了可解釋的人工智能 (XAI) 概念。通過為某些決策提供解釋,這使得自主系統的行為更容易被人類理解。
作者解決了由于自主系統共享大量數據而導致的信息過載問題。為了緩解這個問題,他們建議通過兩種智能數據分析方式來幫助人類操作員。第一種方法是自動異常檢測,這可能會加強人類操作員的 SA 并減少他們的工作量。第二種方法是可解釋的人工智能 (XAI) 概念;它們有可能使群體行為以及異常檢測結果更易于理解。
作者認為,控制一群無人機仍然具有挑戰性。一方面,(半自動化)群體代理“必須決定行動方案”;另一方面,人類操作員必須決定他們的行動,例如與群體互動。提出的建議力求改善人在循環中。考慮到海上監視的應用,使用非固定代理的動態方法具有幾個優點。首先,某些場景只能使用動態方法進行管理;其次,與固定監視傳感器相比,代理更便宜;第三,在多個地點靈活使用代理可以減少操作群體所需的人員數量。然而,情況評估仍然需要知情的操作員。
作者認為,在海洋領域用于船舶分析的異常檢測算法可能適用于引入以下場景的群體。“假設我們有一個群體來支持海上船只,這些船只不僅會收集它們自己的傳感器系統可用的數據,還會收集所有資產的數據。所有來源收集的信息都需要融合成一幅連貫的畫面。這不應僅限于 JDL 數據融合的第一級,而應包括更高級別的數據融合過程,以獲取有關附近所有對象的可用信息。” 數據驅動方法能夠應對這種情況。文獻提供了三種檢測位置和運動異常的方法:統計解釋為與正常行為相比的異常值;聚類分析聚類相似的軌跡和確切的路線;用于建模正常移動模式的深度學習方法。為了應對更復雜的場景,包括船舶周圍環境(基礎設施、地理、天氣等)在內的算法是必要的。在某些復雜異常的情況下,區分正常和異常行為需要基于規則、基于模糊、多智能體或基于概率圖形模型的算法。對于所有提到的算法類別,作者都指出了大量的示例算法。
一些算法是黑盒模型,因此,它們的解釋對于人類操作員來說是復雜的。XAI 概念可以幫助緩解這個問題。XAI 概念旨在“提供道德、隱私、信心、信任和安全”,并努力在“它已經做了什么、現在正在做什么以及接下來會發生什么”中明確決策。,從而提高了人工操作員的 SA。考慮到 XAI 模型,模型特定方法(僅限于某些數學模型)可以與模型無關(適用于任何類型的模型)方法區分開來。
在目前的貢獻中,重點是與模型無關的方法。考慮到這些,局部解釋方法(解釋整個模型的單個預測結果)可以與全局解釋方法(解釋整個模型的行為,例如以規則列表的形式)區分開來。此外,作者使用特征屬性、路徑屬性和關聯規則挖掘來區分方法。通過特征屬性,“用戶將能夠了解他們的網絡依賴于哪些特征”;方法示例是提供全局和局部可解釋性的 Shapley Additive Explanations (SHAP) 和指示“模型在進行預測時考慮的輸入特征” 的局部可解釋模型無關解釋 (LIME)。路徑集成梯度(PIG,使用局部解釋)等路徑屬性提供了對模型預測貢獻最大的特征,從而深入了解導致決策的推理。關聯規則挖掘(ARM)是另一種使用全局解釋的方法,發現大型數據集中特征之間的相關性和共現。ARM 方法使用簡單的 if-then 規則,因此被認為是最可解釋的預測模型。可伸縮貝葉斯規則列表 (SBRL)、基尼正則化 (GiniReg) 和規則正則化 (RuleReg) 技術被認為適用于監視任務。
作者認為,使用這樣的 XAI 概念,人類操作員(決策者)可以更好地理解、更好地控制和更好地與一群自主代理進行通信,尤其是在具有挑戰性的環境中。總而言之,將異常檢測和 XAI 概念這兩種方法應用于人類在環、用戶對群體智能的理解和信任可能會得到改善。
A New Swarm Collection Tasking Approach for Persistent Situational Awareness(一種基于群體集合任務的持續態勢感知方法)
涉及移動自組織傳感器代理的群技術應用越來越多,并且可擴展到多個軍事問題領域,例如戰術情報、監視、目標獲取和偵察 (ISTAR)。在 ISTAR,一組半自主傳感器協同完成收集任務和執行,以彌合信息需求和信息收集之間的差距,以保持持續的態勢感知。最先進的貢獻在很大程度上暴露了多維問題的復雜性。由于傳感器平臺資源容量和能量預算有限,它們通常采用特定的規定傳感器行為,導致過度保守的連接約束、有偏見的決策和/或融合解決方案結構。這些可能會任意傳達顯著的機會成本并對整體績效產生不利影響。
作者介紹了一種用于 ISTAR 中移動 ad hoc 代理(情報、監視、目標獲取和偵察)的群體收集任務的方法。目標是利用代理來增強持續的態勢感知,代理彌合信息需求和信息收集之間的差距。為此,半自主代理必須協同完成收集任務和執行。盡管板載處理能力和能量預算有限,但要實現這一目標是一項挑戰。
下圖(左)顯示了一個典型的收集任務上下文:“它定義了一個網格認知圖表示,反映了對特定感興趣區域的態勢感知,捕獲了關于單元占用和目標行為的先驗知識、信念和/或已知概率分布”。
所提出的群體收集任務分配方法提出了集中收集計劃,由群體領導者偶爾調解;然而,計劃的執行是分散的。簡而言之,“該方法結合了一種新的緊湊圖表示和一個合理的近似決策模型來執行傳感器代理路徑規劃優化,受周期性連接的影響,以實現信息共享、融合、態勢感知和動態重新分配/規劃”。
用于收集計劃的帶有反饋決策的新開環模型(下圖,右)可在后退的時間范圍內最大化收集價值。周期性群連接支持匯節點的觀測傳播、數據/信息融合、情況評估和重新規劃。向匯節點的周期性最大收集傳播考慮到能量約束。傳播集合的通信規劃/路由方案利用最小生成樹來最小化能量消耗。有關包括相關數據在內的詳細信息,請參閱論文第 3 章中的大量論文部分。
由于作者,所提出的方法擴展了群體的能力,以更好地滿足任務需求,并允許顯著擴展觀察區域。“如果使用精確的問題解決方法,新的問題表述也為解決方案最優性的可計算上限鋪平了道路”。
A Framework Based On Deep Learning Techniques For Multi-Drone ISR Missions Performance Evaluation In Different Synthetic Environments(不同合成環境下基于深度學習技術的多無人機ISR任務性能評估框架)
本研究旨在關注當今模擬器的合成環境如何與應用于視頻分析的神經網絡和深度學習協同作用,特別是使用多無人機/集群系統執行 ISR 任務。事實上,用于模擬和游戲的現代虛擬引擎已經達到了讓不那么專心的觀察者感到困惑的真實水平。因此,自發出現的問題是,即使是人工智能也可以被“欺騙”,從而改變無人機上的行為和決策,從而改變機隊的最終行動。也就是說,用更科學的術語來評估無人機搭載的自動學習系統(例如神經網絡)的特征類型和數量是否可以從合成圖像中提取并反映在具有顯著優勢的連續環境中。訓練過程的精細和/或昂貴的階段,例如數據集創建和運動前測試。事實上,能夠隨意對模擬世界中的元素進行建模,可以可靠地再現甚至在現實生活中無法再現的情況和場景(例如,用于檢測閃電或爆炸的網絡),從而允許創建根據現代深度學習方法,數據集大小一致,并減少了恢復這些圖像的物理時間,同時還考慮了機載計算能力和容量的限制。此外,在降維過程中,由于真實場景的離散化導致的次要細節是否可以在某些情況下充當數據集預處理中的主成分分析 (PCA) 過濾器,這是值得詢問的。
所提出的研究方法將是實驗性的,并將預見到應用的雙重方向。在第一階段,我們想了解在真實數據集上訓練的神經網絡在一架或多架無人機上如何在不同的合成環境中表現。將檢查三個不同的模擬器,即 VRForces、ROS Gazebo 和 VBS4,以了解圖形細節的增加將如何影響準確度和精確召回曲線。擬議論文中提出的研究涉及人工智能對象識別和跟蹤領域,特別關注定位問題,因此檢測特定類別的對象,如人和車輛。在我們研究的第二階段,網絡將準備好部署,考慮到可能準備使用 COTS 或定制自動駕駛儀的硬件,使用協作和智能機隊模擬 ISR 任務的真實場景的無人機。在這個階段,我們集中在一個名為 SWARM 的項目上:一個大型工業研發 Vitrociset 項目。它是一個啟用人工智能的指揮和控制 (C&C) 系統,能夠執行和審查異構無人機小型/微型協作機隊的 ISR 任務。SWARM 將用作所提出框架的測試平臺,在不同的合成環境中測試和評估多無人機 ISR 任務的深度學習技術。
下圖(左)顯示了仿真系統架構。實驗框架包含三個合成環境。對于 VBS4,實現了一個使用一個或多個無人機生成合成場景的插件。每架無人機都配備了能夠生成視頻流的虛擬攝像頭。對于 ROS Gazebo,“圖像是使用配備 IMU 和可通過文件配置并作為 C++ 插件實現的 Iris 無人機相機獲取的”。為 VR-Forces 環境實現了類似的插件。使用針孔模型對三種環境的場景視圖進行標準化,以實現相同的觀看特性。
單獨使用合成圖像可能會引入新的偏見。因此,作者應用經典的計算機視覺和圖像處理方法來識別在 VISDRONE 數據集(真實)圖像中檢測到的對象與在三個模擬器中識別的對象之間的差異。與真實數據相比,將人和車輛的輪廓提取為對象類顯示信息丟失。
評估場景使用城市環境,包括人、車輛、道路、房屋和植被。飛行計劃包括低速(1-3 m/s)、5-30 m 的地面高度和靜止的天氣條件。有效載荷視頻流的采集使用 30 fps 的幀速率。生成了三個版本的 TFRecords(標準張量流數據格式)(過濾應用于邊界框的區域:非、100 像素和 200 像素)。所有三個測試集都包含 6 個對象類別(人、汽車、貨車、卡車、公共汽車、電機)。
考慮了 11 個 DNN 模型,使用 Tensorflow 作為 AI 框架。大型數據集 COCO、KITTI 和 VISDRONE 被視為預訓練數據集。使用 Fastern RCNN Resnet(在 VISDRONE 數據集上預訓練)獲得了最好的結果。VBS4 擁有三種模擬環境中最好的圖形引擎,是最接近現實的一種(下圖右)。總體而言,合成環境被證明是在現實世界中訓練的神經網絡的良好測試平臺(最佳情況下準確率約為 80%)。
Interacting Swarm Sensing and Stabilization(交互群感知與穩定化)
最近,在生物學和物理學中研究的群體理論已被應用于機器人平臺,包括將群體應用于防御。雖然相關工作側重于單個群體行為,但這一貢獻將調查擴展到多個相互作用的群體及其產生的模式。作者提供了一種理論方法來研究具有非線性相互作用的兩個群體的碰撞。目的是預測在什么情況下兩個群體在兩個群體碰撞后可以結合形成一個新引擎(mill)。這個問題的背景是在某些軍事場景中需要重定向或捕獲一個群體。
下圖(左)顯示碰撞后的狀態取決于碰撞角度以及耦合強度。下圖(右)顯示了一個示例,其中兩個群體(最初處于植絨狀態)接近融合狀態。這種行為的原因是,“當兩個群體接近時,每個智能體開始感知智能體內部群體的力量,導致兩個群體圍繞彼此旋轉,同時保持接近恒定的群體間密度。隨著時間的推移,這兩個群體慢慢地放松到由來自兩者的均勻分布的智能體組成的充分混合的融合狀態”。
應用的分析方法依賴于這樣的假設,即在碰撞時,兩個群體在一個極限循環附近振蕩,每個群體圍繞另一個群體旋轉,同時保持近似恒定的密度。使用確定極限圓狀態穩定性的剛體近似,可以做出僅取決于物理群參數的預測。這為小碰撞角的臨界耦合提供了一個下限。對于對稱群體(具有相同的數量和物理參數),從分散到融合的過渡點類似于逃逸速度條件,其中臨界耦合與每個群體的平方速度成比例,與每個群體中的智能體數量成反比。
使用包含 5-8 個 Crazyflie 微型無人機的混合現實設置,在初步碰撞群實驗中證實了理論預測。實驗考慮了 8 個真實機器人 + 8 個模擬機器人、5 個真實機器人 + 45 個模擬機器人和 50 個模擬機器人的場景。對于所有情況,都觀察到固定融合。初步結果表明,我們可以根據選擇的物理參數讓一個群體捕獲另一個群體。此外,基于已知的參數和群體大小,它還應該是可預測的,當碰撞群體不會形成融合狀態時,即一個群體無法捕獲另一個群體。未來的工作將解決如何進入散射狀態或保持聚集狀態,以及將通信延遲或內部和外部噪聲效應的影響納入理論。
Wargaming in Professional Military Education: Challenges and Solutions
職業軍事教育中的兵棋推演:挑戰與解決方案
美國海軍陸戰隊埃里克·沃爾特斯(Eric M. Walters)上校(退役)
鑒于強調在專業軍事教育中使用兵棋推演,學校、作戰部隊和支持機構的教官——尤其是那些本身沒有經驗的兵棋推演者——如何去做呢?本文解釋了在經驗豐富專家的幫助下,為選定、修改或內部設計的嚴格兵棋式推演制定理想的學習成果的必要性。總結了最近的相關學術成果,它提供了促進協作對話的基本術語和概念,并就這種動態和沉浸式教學方法的常見但可避免的陷阱提供了建議。
對于那些認為兵棋推演不僅僅是一種娛樂消遣的人來說,商業兵棋推演曾經是——而且可以說仍然是——一種小眾愛好。在 20 世紀和 21 世紀初的歷史中,只有相對較小比例的軍人和學者經常進行所謂的嚴格式兵棋推演。過去,這一想法受到制度性的抵制,在職業軍事教育(PME)中使用一些人認為是兒童游戲的東西;雖然最近這種恥辱感有所減輕,但對于外行來說,兵棋推演的學習障礙仍然很高。兵棋推演可能很難學習,甚至更難戰勝有能力的對手。然而,我們已經到了 2021 年,軍事兵棋推演似乎正在 PME 學校、作戰部隊甚至支持機構中復活。海軍陸戰隊司令大衛 H. 伯杰將軍在他的指揮官規劃指南中,強調了在 PME 中練習軍事決策的必要性,這是教育兵棋推演的主要目的。但一個事實仍然存在。對于那些有興趣使用和設計兵棋推演來教授軍事判斷力的人來說,這種教學方法似乎很難有效實施。學術界的成功案例涉及作戰部隊中已經是兵棋推演者的教授、教官和海軍陸戰隊領導人。不是兵棋推演者但教軍事決策的人如何弄清楚要使用什么兵棋推演?如何使用它?各種可用游戲的優點和局限性是什么?整合兵棋推演和課程有哪些挑戰,如何克服這些挑戰?本文旨在幫助那些不熟悉兵棋推演的人定位,并就在教授決策中的軍事判斷時使用它們的經過驗證的最佳實踐提供建議。
1 教育者如何使用游戲來教學生?
1.1 了解戰術、作戰和戰略中力量、空間和時間之間的關系
?1.2 在兵棋推演中模擬現實“決策環境”以解決決策困境
?1.3 在兵棋推演環境中體驗摩擦、不確定性、流動性、無序和復雜性的交互動力學
1.4 鍛煉創造性和批判性思維:準備、參與和分析兵棋推演活動
2 哪種類型的兵棋推演最適合學習目標?
?2.1 角色扮演游戲 (RPG)
? ?2.2 研討會矩陣游戲
2.3 系統游戲
?2.4 紙牌游戲
3 哪種情況最適合使用——歷史情景還是假設情景?
4 兵棋推演教學——挑戰與解決方案
?4.1 克服設計偏見
?4.2 時間和復雜性的挑戰
?4.3 對教師要求的考慮
?4.4 兵棋推演支持單位教育和凝聚力
【引 言】
軍事領導人利用戰場情報和環境信息及時做出戰略和戰術決策,以推進他們的作戰目標,同時試圖否認對手的行動。基于計算機的兵棋推演模擬程序對戰場空間事件進行建模,以幫助決策制定,因此領導者可以從眾多選項中選擇一個更優化的選項,以有效地完成目標。
戰爭是一個充滿不確定性的領域,戰爭中的決策因素籠罩在各種不確定性的迷霧之中。因此,戰爭迷霧是軍事行動參與者所經歷的態勢感知的不確定性。其目標是定義霧的存在位置,并允許分析師在AFSIM等虛擬兵棋推演框架中操縱霧效果。
圖1. 信息環境:該圖展示了應用信息相關能力來實現影響力
這項研究探討了戰爭場景中不確定性的領域,以尋找霧源,這可能會阻礙決策過程,這些過程記錄在三篇提交的期刊文章中。
文章[1] “使用并行搜索算法導航敵方競爭區域(Navigating an Enemy Contested Area with a Parallel Search Algorithm)" 通過在地圖上找到敵方單位位置的配置來探索霧,這會導致并行搜索算法的最大加速。算法優于并行算法,這些結果表明敵方位置的霧可用于破壞搜索和任務分配過程。
文章[2] “AFSIM 中的戰爭霧效果建模(Modeling Fog of War Eects in AFSIM)”[2] 創建了霧識別和操作方法 (FIMM)將霧引入傳感器和通信,并開發霧分析工具 (FAT) 以將 FIMM 實施到用于驗證的高級仿真、集成和建模框架 (AFSIM)。傳感器和通信有助于指揮官感知戰場上的敵軍。霧會扭曲指揮官對形勢的感知,這會扭曲決策過程并導致任務失敗。
文章[3] “將霧分析工具應用于AFSIM 多域 CLASS 場景(Applying Fog Analysis Tool to AFSIM Multi-Domain CLASS scenarios)”利用 FAT 研究霧效應在多個作戰域中的影響,并使用趨勢來支持 FAT 在多域操作中有效且有用的想法FAT 在多個領域的有效性鞏固了這樣一種觀點,即識別和操縱傳感器和通信中的霧對于為軍事模擬分析人員提供選擇以改善兵棋推演中的決策是有效的。
【問題與動機】
軍事領導人必須考慮跨多個作戰領域的大量信息,以便及時做出決策并推進任務。模擬模型試圖真實地模擬戰爭場景以分析行動方案并選擇最佳路徑。在戰爭模擬中提供用于查看不確定性級別或霧的選項的方法可以進一步提高戰爭模擬的真實性。該方法需要對霧源的一般定義以及如何操縱源進行模擬分析。多域分析方法的實現驗證了該方法在查看對未來場景的影響方面的有效性。
問題源于需要為多域作戰的軍事領導人創建決策輔助工具。美國空軍正在研究一種直觀的傳感網格概念,該概念使用來自多個平臺的融合傳感器數據為決策者提供有關競爭環境的信息。傳感網格為戰略和戰術層面的領導者提供了獲得和保持對抗對手的決策優勢。網格假設傳感器收集信息并通過通信鏈路將其傳輸到集中處理實體。領導人希望盡可能準確地描述環境,因此霧源的識別以及霧如何影響決策過程允許軍事分析人員在處理信息并將數據發送給決策者時考慮霧。
決策代理與傳感網格概念相似,但代理提供決策能力,而不是為人類決策者提供決策輔助。在基于環境信息收集、處理和形成決策時,決策代理可以將霧合并到行動過程 (COA) 分析中。在 COA 中考慮霧可能會改變哪個選項被認為是最佳的。對多個域的霧的識別和操作允許一種更現實的方法來形成決策和決策輔助。
【研究路線圖】
以下路線圖提供了總體研究目標。
1. 識別兵棋推演場景中影響指揮官決策過程的不確定性來源。
2. 創建一種方法來識別和操縱兵棋推演中的不確定性,使用傳感器進行數據收集和數據傳輸通信。
3. 為現有兵棋推演模擬開發工具,以實施該方法并驗證其影響。
4. 分析多域場景,以驗證該工具在擾亂所有作戰域的決策過程中的有效性。
該路線圖側重于霧效應的識別和處理。并行搜索文章側重于尋找兵棋推演場景中的不確定性來源。介紹FIMM和FAT的論文針對的是第二項和第三項。上一篇文章提供了支持第四項的結果。本文介紹的每篇文章都以期刊格式顯示。
【結 論】
當決策者沒有關于環境的完整信息時,兵棋推演中的戰爭迷霧就會出現。霧源于對敵人、敵人意圖和敵軍缺乏了解。霧也可能來自自然環境和友軍的行為。例如,一個在整個地圖上搜索目標的單元可能在多次搜索后變得筋疲力盡。搜索目標的多個單元可能會劃分搜索時間。霧識別和操縱方法(FIMM)提供了一種在與傳感器和通信鏈路相關的兵棋推演中操縱霧效應的新方法。霧分析工具 (FAT) 在高級模擬、集成和建模框架 (AFSIM) 中提供了 FIMM 的實現。將霧引入傳感器和通信鏈路會影響指揮官從信息收集平臺接收的信息,并將其傳播到效應生成平臺。霧的引入和操縱可能會導致指揮官失敗。較高水平的霧效應往往會導致較高的故障率。在分析各種多域場景時也會出現這種趨勢。
【未來工作】
與順序算法相比,搜索算法的測試套件將收集更多結果來分析地圖配置如何影響并行算法的加速。測試套件需要地圖生成器來隨機排列地圖上的圖塊,同時保持假設有序。
FAT 是 AFSIM 分析人員為模擬運行更改不同級別的霧的便捷工具。但是,FAT 的使用是高度手動的。該過程可以轉換為測試套件,其中該工具自動采用 AFSIM 場景并找到傳感器對象和通信對象,以不同的霧級別和運行次數模擬每個對象,并提供有關成功/失敗的統計報告率。該測試套件可以消除尋找使用 FAT 的標準化方法的需要,并且可以對每個場景進行唯一處理。
將 FAT 集成到 Warlock 應用程序將允許實時分析霧效果。分析師將能夠實時更改霧效果值并查看它如何影響場景的成功。具有實時分析的 FAT 可用于細粒度的戰術策略測試。
【前 言】
什么是 JADC2?
聯合全域指揮與控制 (JADC2) 是美國國防部 (DOD) 的概念,旨在將來自所有軍事部門(空軍、陸軍、海軍陸戰隊、海軍和太空部隊)的傳感器連接到一個網絡中。傳統上,每個軍種都開發自己的戰術網絡,這與其他軍種不兼容(例如,陸軍網絡無法與海軍或空軍網絡連接)。通過 JADC2,國防部設想創建一個“物聯網”網絡,將眾多傳感器與武器系統連接起來,使用人工智能算法幫助改進決策。
美國國防部 (DOD)聯合全域指揮與控制 (JADC2) 戰略描述了迫切需要集中力量推動部門行動,以增強其的聯合部隊指揮官在所有作戰領域和整個電磁頻譜范圍內指揮聯合部隊所需的能力,以威懾、并在必要時在全球任何時間、任何地點擊敗任何對手。
JADC2 戰略為識別、組織和提供改進的聯合部隊指揮和控制 (C2) 能力提供了愿景和方法,并說明了對手已經關閉了其賴以取得作戰成功的許多能力和方法優勢。作為一種方法,JADC2 支持使用創新技術開發物資和非物資解決方案選項,同時愿意修改現有政策、權力、組織結構和作戰程序,從而為聯合部隊指揮官提供信息和決策優勢。
【總 結】 全球安全環境的迅速變化正在對美國軍隊以及聯合部隊獲取、維持和保護信息和決策優勢的能力提出重大的新挑戰。此外,必須預見未來的軍事行動將在退化和競爭的電磁頻譜環境中進行。這些挑戰需要部門一致和集中的努力,以現代化如何開發、實施和管理 C2 能力,以在所有作戰領域、跨梯隊以及與任務伙伴合作。
JADC2 為塑造未來聯合部隊 C2 能力提供了一種連貫的方法,旨在產生作戰能力,以便在所有領域和合作伙伴的所有戰爭級別和階段感知、理解和行動,在相關的速度。作為一種方法,JADC2 超越了任何單一的能力、平臺或系統。它提供了一個機會,可以加速實施所需的技術進步和聯合部隊進行 C2 的方式的理論變革。 JADC2 將使聯合部隊能夠使用越來越多的數據,采用自動化和人工智能,依靠安全和有彈性的基礎設施,并在對手的決策周期內采取行動。
這一戰略的成功實施需要整個國防部 (DoD) 的集中承諾。為此,JADC2 戰略闡明了“感知”、“理解”和“行動”三個指導 C2 功能,以及額外的五個持久工作 (LOE) 來組織和指導行動以提供物資和非物資JADC2 能力。 LOE 是: (1) 建立 JADC2 數據企業;(2)建立JADC2人類企業; (3)建立JADC2技術企業; (4) 將核 C2 和通信 (NC2/NC3) 與 JADC2 集成; (5) 使任務伙伴信息共享現代化。
該戰略得到 JADC2 戰略實施計劃的支持,該計劃確定了 JADC2 的最終狀態、關鍵目標和任務,并與已建立的部門當局、論壇和流程合作,以同步和簡化工作,以優先考慮、資源、開發、交付和維持JADC2 能力。現有的軍種和機構開發和采購流程通常會產生無法滿足全域 C2 作戰需求的特定域能力。 JADC2 方法將覆蓋這些現有流程,旨在促進從根本上改進的跨域聯合能力的發展。
該戰略提供了六項指導原則,以促進整個部門在提供物資和非物資 JADC2 改進方面的努力的一致性。這些原則是: (1) 在企業層面設計和擴展信息共享能力改進; (2) 聯合部隊 C2 改進采用分層安全功能; (3) JADC2 數據結構由高效、可演進和廣泛適用的通用數據標準和架構組成; (4) 聯合部隊 C2 必須在退化和競爭性電磁環境中具有彈性; (5) 部門開發和實施過程必須統一,以提供更有效的跨領域能力選擇; (6) 部門開發和實施過程必須以更快的速度執行。
JADC2 戰略的結論是,迫切需要使用企業范圍內的整體方法來實施物資和非物資 C2 能力,以確保聯合部隊指揮官在整個競爭過程中獲得和保持對抗全球對手的信息和決策優勢的能力。
當前軍事推演中合成角色的行為能力是有限的,因為它們通常是由基于規則和反應性計算模型生成的,具有最低限度的智能。這種計算模型不能適應反映角色的經驗,導致即使是通過昂貴和勞動密集型過程設計的最有效的行為模型也很脆弱。利用機器學習和合成實體的經驗并結合適當的先驗知識的、具備自適應能力的、基于觀察的行為模型,可以解決現有計算行為模型中的問題,從而在軍事訓練模擬中創造更好的訓練體驗。
南加州大學創新技術研究所介紹了一個框架,旨在創建自主的合成角色,這些角色能夠執行可信行為的連貫序列,同時在訓練模擬中了解人類受訓者及其需求。該框架匯集了三個相互補充的組成部分。第一個組件是基于Unity的仿真環境——快速集成和開發環境(RIDE)——支持One World Terraing(OWT)模型,能夠運行和支持機器學習實驗。第二個是Shiva,這是一個新穎的多智能體強化和模仿學習框架,可以與各種模擬環境接口,并且可以額外利用各種學習算法。最后一個組件是Sigma認知架構,它將通過符號和概率推理能力來增強行為模型。已經成功地創建了概念驗證行為模型,在現實中利用這一框架,作為將機器學習引入軍事模擬的重要一步。
論文全文:
今天介紹的是美國蘭德公司、耶魯大學聯合發表于The Journal of Defense Modeling and Simulation: Applications, Methodology, Technology(國防建模與仿真學報:應用、方法、技術)期刊的論文“Artificial intelligence for wargaming and modeling”。
摘要:
在本文中,討論了如何將人工智能 (AI) 用于與擁有大規模殺傷性武器和其他涉及太空、網絡空間和遠程精確度的高端能力的國家發生沖突的政治軍事建模、模擬和兵棋推演武器。人工智能應該幫助兵棋推演的參與者和模擬中的代理人了解在不確定性和錯誤印象下作戰的對手的可能觀點、看法和計算。人工智能的內容應該認識到升級的風險,導致沒有贏家的災難,但也有可能產生有意義的贏家和輸家的結果。我們討論了對設計和發展的影響使用多種類型的 AI 功能的模型、模擬和兵棋推演。我們還討論了使用模擬、歷史和早期兵棋推演的理論和探索性工作為兵棋推演決策輔助工具,無論有無人工智能。
關鍵詞:
人工智能,兵棋推演,建模與仿真,認知建模,決策,深度不確定性下的決策,海量場景生成,探索性分析與建模