本文提出了一個用于模擬軍事行動的高級實時戰略(RTS)游戲“指揮:現代作戰”(CMO)的強化學習(RL)框架。這是一款模擬軍事行動的高級實時戰略(RTS)游戲。CMO 挑戰玩家在戰術、戰役和戰略決策方面的駕馭能力,涉及多個單元的管理、有效的資源分配和并發行動分配。本研究的主要目標是利用 RL 的功能,實現軍事決策的自動化和增強。為實現這一目標,我們開發了一種具有獨特架構的參數化近端策略優化(PPO)智能體,專門用于應對 CMO 帶來的獨特挑戰。通過改編和擴展 AlphaStar 和 OpenAI Five 等該領域成果中的方法,該智能體展示了 RL 在軍事模擬中的潛力。我們的模型可以處理 CMO 中呈現的各種場景,標志著在將人工智能(AI)與軍事研究和實踐相結合方面邁出了重要一步。這項研究為今后探索將人工智能應用于國防和戰略分析奠定了基礎。
CMO 全面細致地模擬了二戰后至當代的空中、海上和地面軍事行動。游戲為應用真實世界的軍事戰略和戰術提供了一個復雜的平臺,并以大量歷史和現代軍事硬件和系統數據庫為基礎。模擬引擎能夠處理各種軍事交戰,從局部遭遇戰到大規模全球沖突。
如圖 1 所示,游戲的圖形用戶界面采用高分辨率衛星圖像和詳細地形圖渲染的全球綜合視圖,為游戲中的所有操作提供了基礎環境。玩家可以操作控制各種軍事單元,包括飛機、艦船、潛艇、地面部隊甚至戰略武器,在復雜的任務和場景中進行導航。
游戲中的每個單元都按照真實世界的規格進行了高保真建模,涵蓋了武器能力、燃料消耗、物理限制、傳感器功能和真實通信系統等方面,確保了高度精確的模擬。
CMO 配備了場景編輯器,允許玩家創建從歷史戰役到虛擬沖突的不同場景,為研究復雜的軍事行動提供了手段。這使得 CMO 不僅是一個娛樂平臺,也是軍事訓練和戰略分析的工具。
CMO 與 RL 智能體的整合建立在已有初步工作基礎之上。盡管有了這個起點,但在推進項目的過程中還是遇到了相當大的挑戰。有效設置應用程序接口(確保快速執行和有效訓練的關鍵步驟)的任務需要大量的工作。游戲的多面性為高級智能體提供了理想的試驗平臺,使我們的工作受益匪淺。
本節將介紹 PPO 智能體的神經網絡架構,該架構旨在扮演 CMO 中的任何場景。RL 智能體的簡化表示如圖 2 所示,展示了一個通過嵌入處理觀察結果的共享網絡。這一設計深受 OpenAI Five 和 AlphaStar 架構的影響。值得注意的是,鑒于其原始架構的復雜性和深度,復制或改編它們的模型遠非易事。
輸入結構分為三類。第一類由標量輸入組成,其中包括特定場景的信息,如當前時間、損失的單元數和失敗的聯系人數。與 AlphaStar 和 OpenAI Five 不同,我們的模型不包含基于像素的觀察結果。相反,我們將場景中的實體分為兩類:“單元”(己方單位)和 “接觸點”(敵方單位),如圖 3 所示,它們在游戲中通常被稱為 “單元 ”和 “接觸點”。
此外,還借鑒了 AlphaStar 的做法,采用變換器模型對實體類型的觀測結果進行編碼。然后,通過最大池化操作對這些實體編碼進行聚合,再與標量編碼器的輸出進行連接。如圖 3 所示,這些合并數據被輸入一個 LSTM 網絡。網絡的值函數由處理 LSTM 輸出的簡單 MLP 決定。
動作頭的結構更為復雜,由兩個主要部分組成:動作類型頭和動作參數頭。如圖 4 所示,行動選擇模塊的這一設計試圖在復雜性和功能性之間取得平衡,詳見第五節 B 部分。架構的關鍵修改之一是其管理CMO多單元控制動態的能力。傳統 RTS 游戲的重點可能是單個單元或較小的群組控制,而CMO則不同,它需要同時協調一方的多個單元,從而將問題提升為 MARL 挑戰。網絡的設計方式是通過變壓器來處理單元數量的變化。變壓器允許網絡根據環境中每個單元的情況需求動態調整其重點和資源分配。
PPO 智能體涉及的另一個方面是CMO固有的多行動選擇功能。在CMO中,當游戲暫停時,玩家可以為每個單元分配一組動作;例如,導航到指定位置、調整單元速度、向特定目標發射武器、激活雷達、關閉聲納。一旦恢復模擬,這些操作將同時執行。這種多行動選擇機制與傳統的 RTS 環境不同,傳統的 RTS 環境中的行動通常是順序執行或有并行執行限制。我們設計的智能體可以讓單元同時執行多個動作。為此,我們設計了智能體,使每個單元都能同時輸出多個動作。
這種架構不僅能滿足當前 CMO 游戲的要求,還提供了一個可擴展的框架,能夠適應更復雜的場景和未來的擴展。
本文研究的是軍事行動中動態作戰規劃的雙人零和隨機博弈模型。在每個階段,博弈者都要管理多個指揮官,這些指揮官要對具有開放控制線的目標下令采取軍事行動。當發生爭奪目標控制權的戰斗時,其隨機結果取決于其他目標控制權所提供的行動和有利支持。每個玩家的目標都是最大限度地增加他們所控制目標的累計數量,并根據其關鍵性進行加權。為了解決這個大規模隨機博弈,我們利用后勤和軍事行動指揮與控制結構,推導出其馬爾可夫完美均衡的屬性。我們證明了最優價值函數相對于部分有序狀態空間的等調性,這反過來又導致了狀態和行動空間的顯著縮小。我們還通過消除受支配的行動和研究每次迭代求解的矩陣博弈的純均衡來加速沙普利值迭代算法。我們在一個案例研究中展示了均衡結果的計算價值,該案例研究反映了具有地緣政治影響的代表性作戰級軍事戰役。我們的分析揭示了均衡狀態下博弈參數和動態之間復雜的相互作用,為戰役分析人員提供了新的軍事見解。
圖 6 戰役地理和目標。說明玩家 1 控制綜合防空系統(目標 1)的效果:控制目標 1 是成功實現空域 1(目標 2)的必要條件,同時也增加了成功奪取目標 5、6、7、10、11、15、16、19 和 20 的可能性。
在激烈競爭時期,軍事領導層對國家的安全起著不可或缺的作用。理想情況下,領導層可以繼續阻止對手將戰爭升級為動能戰爭(HQDA 2021);然而,為武裝沖突制定規劃至關重要。日益加劇的地緣政治動蕩表明,大國之間發生動武戰爭的可能性越來越大(Garamone 2022)。2022 年 2 月升級為公開武裝沖突的俄烏戰爭就是明證。在這種全球背景下,高級軍事領導層及其參謀人員必須繼續開展戰術、作戰和戰略層面的統一規劃,以支持國家安全目標(JCS 2020)。
作戰層面的戰爭將部隊的戰術運用與國家戰略目標聯系起來(JCS 2017)。在這一層面,聯合部隊指揮官領導各組成部分指揮官(如空中、陸地和海上)打擊沖突。一連串的行動和戰斗構成了一場軍事戰役(Lynes 等人,2014 年),戰略家、規劃人員和分析人員都會對其進行分析,為高級軍事領導層推薦作戰規劃并提出地緣政治見解(Mueller,2016 年;Shlapak & Johnson,2016 年;Flanagan 等人,2019 年;Mazarr 等人,2019 年)。
然而,分析軍事戰役的主要挑戰來自其內在的不確定性(Tecott & Halterman 2021),這種不確定性來自三個方面:對手的規劃、軍事行動的相互關聯性以及戰爭的動態流程。由于對手的規劃是未知的,在復雜的作戰環境中(JCS 2020),戰斗的結果也是不確定的。要在相互關聯的指揮官之間同步開展行動,就需要聯合規劃、溝通和協調,以統一行動(JCS 2017)。最后,軍事行動的動態流程導致了潛在戰役之間過渡的不確定性。例如,在第二次世界大戰期間,盟軍成功的 D-Day 入侵最終導致了 "市場花園行動"(Operation Market Garden),而美國和英國的挫折導致蘇聯軍隊首先到達柏林(普魯特,2019 年)。這種動態性要求必須考慮未來的不確定結果,以優化當前的決策。
現有的戰役分析方法包括兵棋推演和戰斗模擬(Turnitsa 等人,2022 年)。這些工具雖然有效,但并不考慮軍事戰役的不確定性或行為動態,而且需要大量的時間和資源。此外,為控制軍事目標而分配資源的博弈論模型并不考慮關鍵的戰役方面,包括軍事戰役的動態性、順序性、供應鏈要求或軍事指揮結構(Washburn,2014 年)。我們希望用一種更快的技術來增強當前的方法,這種技術可以擴展到對許多輸入進行評估,這就提出了我們的研究問題: 我們該如何設計動態軍事行動規劃,并為高層領導提供及時的評估和見解?
為了解決這一研究問題,我們在 Haywood(1954 年)的靜態博弈模型的基礎上,提出了一種新穎的雙人、貼現、零和、隨機博弈模型,用于軍事戰役中的動態作戰規劃。該模型的特點考慮到了關鍵的軍事特征,如多名指揮官的協調、對既定補給線的需求以及取決于對附近目標控制的戰斗結果的隨機性。
通過利用后勤和軍事行動指揮與控制結構,我們得出了博弈的馬爾可夫完美均衡所滿足的屬性。在符合實際的假設條件下,我們證明了最優價值函數相對于部分有序狀態空間的結果等調性(定理 1)。這一主要結果以及博弈論的論證使我們能夠確定可實現狀態的集合以及均衡狀態下政策剖面的屬性(命題 1)。這些特性大大縮小了狀態和行動空間,從而使我們能夠使用沙普利值迭代算法來解決這個大型博弈。
在只有一個指揮官的戰役特例中,我們進一步證明,在價值迭代算法的大多數狀態下求解的矩陣博弈都承認弱支配策略,甚至在指揮官管理單一目標軸時承認純均衡(命題 2)。這些結構性結果促使我們設計了一種加速價值迭代算法(算法 1-2),該算法可在使用線性規劃求解矩陣博弈之前搜索純均衡或消除弱支配行動。
然后,我們根據虛構的地緣政治場景設計了一個具有代表性的案例研究。我們分析并比較了博弈者在不同均衡狀態下的混合策略,并強調了一種復雜的行為,這種行為取決于目標的臨界度、目標之間的概率相互依賴關系以及博弈的動態性。我們還表明,戰略投資決策必須謹慎選擇時機,因為它們對博弈在不同初始狀態下的最優值有不同的影響。最后,我們的均衡結果允許我們使用我們的加速值迭代算法來求解所有考慮過的軍事戰役的隨機博弈,與經典的值迭代算法相比,該算法的運行時間縮短了 72%。我們的分析為軍事領導層提供了新穎的作戰見解。
本文其余部分安排如下:第 2 節簡要討論了軍事戰役分析和當前工具。然后回顧了與軍事領域相關的現有隨機博弈文獻。我們在第 3 節闡述了隨機博弈。然后,我們推導出均衡結果,并在第 4 節介紹我們的加速值迭代算法。在第 5 節中,我們介紹了計算結果和案例研究中的軍事見解。第 6 節是結束語和未來研究方向。最后,我們的結果的數學證明載于附錄 A。
圖 9 戰役初始狀態。聯盟(或對手)控制的目標為藍色(或紅色)。
軍事決策過程(MDMP)包括分析地形以確保任務成功的關鍵任務。然而,傳統的地形分析方法,如二維(2D)模擬地圖、PowerPoint 演示文稿和任務式指揮系統,資源密集、耗時長,而且會使決策者無所適從。因此,本研究側重于使用移動頭戴式增強現實(AR)顯示技術進行三維(3D)地形可視化,以應對這些挑戰。AR 技術可讓用戶觀察到疊加在物理環境上的虛擬物體,從而增強身臨其境的體驗。該工具允許用戶查看和操作三維地形,添加軍事資源的表示,檢查由此產生的配置,并參與 MDMP。可用性研究評估了界面的有效性、效率和用戶滿意度,重點是三維可視化任務、衍生地形信息提取以及在有爭議的潮濕空隙穿越場景中的部隊部署。結果表明,AR 地形可視化原型為決策者提供了更全面、更準確的信息,使任務規劃和執行取得了成功。這項研究凸顯了三維地形可視化和 AR 技術在改進 MDMP、讓決策者更好地了解環境并做出更明智決策方面的潛力。
本研究側重于利用增強現實(AR)技術來支持軍事決策過程(MDMP),這是任務規劃的一個重要方面。該工具可使用戶與描述地形的本地三維(3D)數據集進行交互,并允許使用一套 3D工具。因此,該工具具有增強決策過程和提高 MDMP 會議效率的潛力。
傳統上,美國陸軍在規劃任務時依賴于二維(2D)圖形信息。然而,獲取更詳細的地形信息需要大量的時間和資源,例如創建額外的二維圖形表示法。相比之下,如果地形已被捕獲并表示為三維數據集,工作人員就能獲得所有必要信息,從而參與 MDMP 并做出更明智的決策。
論文研究包括設計和開發一種增強現實(AR)可視化工具,該工具可與三維虛擬地形一起操作,并支持 MDMP,尤其強調濕間隙穿越(WGC)的任務規劃。本論文旨在通過提供虛擬地形的精確數據、允許使用三維工具和更好地做出決策,改善 MDMP 期間的人員協作。此外,這項研究還有助于理解在 MDMP 中促進小團隊合作所需的技術前提條件。
技術進步往往會超越其采用和融入現有系統和流程的速度,這是一種常見現象。例如,在軍事任務中使用 AR 和虛擬現實(VR)技術進行信息共享,可以顯著改善復雜多變行動的規劃和執行。然而,將這些技術納入現有的任務式指揮系統和程序可能具有挑戰性且耗時較長,這主要是由于軍事行動對安全性和可靠性的要求。此外,用戶可能會抵制引入他們不熟悉的新解決方案和技術。因此,盡管信息共享技術進展迅速,但其融入軍事部門的速度卻慢得多。因此,復雜多變的軍事行動仍在使用過時的協議進行規劃和執行,任務式指揮系統長期以來也只是略有改進。
美國陸軍在 MDMP 期間使用各種方法提取信息和分析地形。主要是陸軍的每個作戰職能部門使用二維地圖提取地形信息;參謀部門通過情報地形科請求獲得更詳細的信息。然后,參謀部門將從二維地圖上收集的信息和情報科提供的信息制作成 PowerPoint 演示文稿。指揮官利用這套演示文稿做出最終決定。然而,由于二維地圖的固有局限性及其表現形式(在 PowerPoint 幻燈片中展示靜態二維地圖),參謀部無法始終從地形中提取衍生信息,從而做出明智的決策。如果能以本地三維數據格式顯示地形,并使用一系列合適的三維工具,工作人員就能從地形中提取衍生信息,加強協作,并更好地理解共同行動圖(COP)。
增強現實技術在軍事領域并不新鮮,但在 MDMP 期間尚未得到廣泛應用。通過在 MDMP 期間使用 AR 可視化工具,工作人員可以獲得以前無法用于工作和協作的系統功能。通過 AR 顯示三維虛擬地形并與之互動,每個 WWF 都可以使用簡單的手勢在地形周圍導航,操作這些數據集,操縱和放大縮小地形,并提取決策所需的衍生信息。因此,WWF 可以通過對地形具體情況的透徹了解來證實他們的決策,并更好地闡明他們向指揮官推薦特定行動方案的原因。此外,因誤解二維數據集而可能產生的錯誤也會減少,甚至消除。
關注 WGC 是部署 AR 技術和使用 3D 數據表示的沃土,這是有充分理由的。對于美國陸軍人員來說,WGC 是最具挑戰性的聯合武器任務之一;由于需要投入大量資源和人力資本,這類任務的規劃非常復雜(美國陸軍聯合武器中心,2019 年)。美國陸軍中的六個 WFF 必須緊密配合,以確保 WGC 的安全進行。在 MDMP 開始時,美國陸軍的每個 WFF 都要聽取情報部門關于地形分析的簡報;這一階段稱為戰場情報準備(IPB)。IPB 代表了對部隊行動區(AO)內地形的高層次審視,并提供了有關地形預期的歷史數據(陸軍部總部,2019 年);他們的大部分決策都是基于二維地圖做出的。進行 IPB 后,WFF 根據情報科提供的信息制定行動方案 (COA)。然而,依賴二維地圖有許多固有的局限性。例如,無法從任何給定點查看地形(數據集沒有三維記錄),因此缺少富有成效的 MDMP 所需的豐富地形信息。因此,使用卓越的數據表示,最大限度地減少出錯的可能性,并投入時間有效地研究替代方案和決策,有可能為此類復雜的軍事行動帶來急需的改進和戰略優勢。
本論文探討以下研究問題:
1.有可能為聯合武器 MDMP 提供最有效支持的技術框架是什么?
2.AR 支持的 MDMP 工具能否通過提供有關地形分析的衍生信息來增強作戰職能部門對地形的理解?
3.AR 支持的 MDMP 工具能否有效協助資源管理?
4.AR 支持的 MDMP 工具能否有效協助軍事參謀人員在聯合作戰場景中開展協作?
本論文僅限于開發一種 AR 可視化工具和虛擬環境,以支持 "濕間隙穿越 "和提取 MDMP 期間每個 WWF 所需的地形衍生信息。此外,同一工具還可實現軍事參謀部門之間的人員協作和信息交流。
用于解決所有研究問題的方法包括以下步驟:
1.文獻綜述:進行文獻綜述,提供論文中使用的基本構造的背景信息。
2.任務分析:對當前開展 MDMP 的實踐進行分析,以跨越濕間隙。這包括但不限于詳細分析行動方案制定過程中不同作戰功能之間的報告和互動、當前地形可視化實踐以及團隊協作。
3.設計 AR 可視化工具: 為工具和用戶界面設計支持系統架構。此外,選擇一套支持用戶任務所需的三維對象和地形。
4.可用性研究:開展可用性研究,重點關注支持 AR 的 MDMP 工具的功能和性能。
5.數據分析:分析在可用性研究中收集的綜合數據集。
6.得出結論并提出未來工作建議。
第一章:導言。本章介紹研究空間的最關鍵要素:領域、問題、研究問題、范圍以及用于解決所有研究問題的方法。
第二章:背景和文獻綜述。本章討論美國陸軍如何開展 ADM 和 MDMP 以規劃軍事行動。本章還討論了 VR 和 AR 過去和當前的使用情況,以及在 MDMP 過程中軍事人員合作時 AR 的潛在用途。
第三章:任務分析: 當前 MDMP 實踐。本章分析了當前陸軍參謀人員在 MDMP 期間分析地形時使用的方法和工具,以及如何向指揮官推薦 COA。此外,本章還討論了向指揮官提供 2D 信息時存在的知識差距。
第四章:原型系統設計與實施。本章討論了 AR 可視化工具、系統架構、用戶界面和模擬環境的設計與開發。文中還描述了 WGC 場景和為可用性研究所需的虛擬環境而構建的 3D 模型。
第五章: 可用性研究。本章討論了使用 AR 可視化工具進行可用性研究的方法,包括制定完整的機構審查委員會文件。此外,文中還討論了虛擬環境、技術要求以及在可用性研究中收集的客觀和主觀數據集。最后,本章分析了可用性研究的結果。
第六章:結論和未來工作。本章概述了研究的要點,并對今后的工作提出了建議。
美國國防部在建模和仿真技術方面投入了大量資金,以提供有價值且具有成本效益的訓練和兵棋推演。然而,現有的兵棋推演平臺主要側重于動能效應和常規作戰。在此,介紹了開發的 "平原(Pineland)"兵棋推演平臺,旨在填補這一空白。該平臺提供了一個強大、用戶友好的解決方案,支持影響行動、非正規戰爭和其他超出常規動能行動范圍的行動的場景生成、管理和培訓受眾評估。作為其中的一部分,介紹了一個系統的概念背景和實施細節,該系統利用社會認同理論自動生成和 "白方小組"管理信息環境中兵棋推演行動的強大場景,包括詳細的人口、文化和政治數據及傳播。進一步討論了人工智能系統的實施,該系統能夠處理物理層、網絡層和認知層中的數千個角色,并配有用戶友好型編輯器和演示系統。最后,將討論該平臺如何彌補面向國防的兵棋推演平臺在影響力-作戰方面的不足,以及陸軍和海軍陸戰隊如何利用該項目加強對影響力專家、指揮官和技術研究人員的培訓。
美國國防部在建模、模擬和兵棋推演技術方面投入巨資,旨在以更低的成本為部隊提供更有效的訓練。然而,現有的兵棋推演平臺主要側重于動能效應和常規作戰;因此,影響力作戰和非正規戰爭的實踐者無法像傳統作戰部隊的同行那樣充分利用建模和仿真技術帶來的好處。
在此詳細介紹的 "平原 "戰爭游戲平臺旨在填補這一空白,并為旨在認知領域產生影響的行動的軍事實踐者提供可行的培訓工具。該平臺對陸軍和海軍陸戰隊尤為重要,因為這兩支部隊都在進行重大的兵力重新設計,著眼于威懾和戰略競爭。這樣一個平臺可以讓這兩個軍種的人員對心理作戰、民政任務和公共事務問題進行戰棋推演,而且成本效益高,幾乎不需要額外的人力,還能充分利用現有的軟件和硬件。
在研究方面,這項工作的核心問題--是否有可能在現有防御平臺允許的范圍之外,創建一個解決信息環境中作戰問題的兵棋推演平臺--在這里得到了肯定的回答。
從更廣泛的意義上講,該平臺的開發表明,利用陸軍或海軍陸戰隊的人員創建這樣一個量身定制的兵棋推演平臺是有可能的,而且開發本身在軟件和硬件方面的額外成本都很低,這有可能加強各軍種在訓練和教育中對增加兵棋推演的推動,并提高部隊在兵棋推演設計方面的熟練程度。另一個值得關注的發現是,開放源代碼、現成的游戲軟件現在已經可以提供為軍事應用開發可靠的戰爭游戲工具所需的顯示、輸入和網絡功能,從而為陸軍和海軍陸戰隊開發自己的戰爭游戲和模擬中心和能力節約成本。
Pineland 的一些關鍵技術特點彌補了這一差距,是國防部現有兵棋推演平臺的進步:
自動生成和 "白方"管理用于信息環境中兵棋推演行動的強大場景,包括詳細的人口、文化和政治數據。
實施一個人工智能(AI)系統,該系統能夠在物理和認知領域處理數千名行動者,并配有用戶友好型編輯器和演示層。
利用社會認同理論建立一個可擴展的模型,模擬知識、態度和行為在人群中的傳播。
整合與應用建議
為影響專家培訓提供 "白方"支持。Pineland 的明確目標是為陸軍心理作戰學校等課程提供用戶友好型情景管理工具。心理作戰培訓人員提出的具體需求在 Pineland 中得到了明確解決,包括自動建模信息傳播、生成合成互聯網流量,以及執行其他情景支持工作,否則教員將需要管理白板、地圖和電子表格,而不是對學生進行評估和指導。
軍種或聯合專業軍事教育。Pineland 的信息環境視角相對較高,易于培訓受眾和培訓人員使用,加上其零價格和有限的硬件要求,使其在向非專業受眾介紹信息環境中作戰的基本概念方面大有可為。海軍陸戰隊的 "指揮與參謀課程 "或陸軍的 "上尉職業課程 "等學校已經包含了信息環境下作戰模塊,作為更廣泛地接觸各種作戰功能和領域的一部分。
計算機科學及相關領域的技術技能培訓。由于 Pineland 采用了以可用性為中心的架構和開源軟件棧,因此該平臺為機器學習和基于智能體的人工智能方法的技能培訓提供了一個易于使用的基礎。用戶可以使用現有的基于 Python 的腳本環境和圖形實用工具系統,而不需要配置環境,也不需要構建或調整兵棋推演環境,就能嘗試基于智能體行為的算法。
本論文的目標是為已知封閉道路網絡中的戰術車輛提供目的地預測。這些戰術車輛以輪式野戰炮兵部隊為模型。美海軍研究生院(NPS)的建模虛擬環境與仿真(MOVES)研究所在一個虛構的場景中建模并生成數據。該場景包括典型野戰炮兵部隊在部署環境中會遇到的各種地點和事件。軍事組織由兩個營組成一個團,每個營有四個炮兵連,每個炮兵連有 11 輛車。每個炮兵連有四輛發射車、四輛裝填車、兩輛支援車和一輛指揮控制(C2)車。生成的數據在團、營、炮兵連和車輛一級進行記錄。本研究以炮兵連的移動模式為中心。每個場景都被分解成較小的行程,其中只有一個先前地點和未來目的地。模型擬合中的預測變量描述了每個炮兵連的各種位置屬性。響應變量是每次行程的目的地位置。
本論文主要研究兩個問題。
1.機器學習模型能否準確預測戰術車輛的未來目的地?
2.在戰術應用中,什么是足夠的預測準確度?
本論文只能使用 MOVES 研究所生成的數據。因此,存在一些限制。第一個限制是數據缺乏測量或傳感器誤差。在實際作戰環境中收集完美的數據是不現實的。第二個限制是,生成數據的大小足以適合我們的模型。在新的作戰場景中,數據可能稀少或不可用。
為了預測這些戰術部隊的未來目的地,我們使用了兩種機器學習的監督技術:隨機森林和神經網絡。為了客觀地比較這兩種模型,我們得出了兩個標準來判斷目的地預測的成功與否。每個模型都為行程中每分鐘間隔內的每個地點擬合了一個概率。第一個標準是一半以上的正確地點分配概率超過 80%。第二個標準是,在行程的最后三分鐘內,模型分配給正確目的地的概率是否超過 80%。一個模型必須同時滿足這兩個標準才算成功。在驗證集的所有行程中,隨機森林的成功率為 38.9%,而神經網絡的成功率為 43.2%。我們使用這兩個標準考慮了真實世界的場景。每個行程被縮減到只有最初的五分鐘。在真實情況下,決策者必須在敵人完成行動之前決定行動。在這種情況下,決策者在做出決定前有五分鐘的時間窗口。隨機森林的預測準確率為 19.1%,而神經網絡的預測準確率為 33.9%。這是時間受限情況下預測準確率的上限。隨著誤差和噪聲的引入,預測準確率可能會降低。
本論文通過使用完美數據設定了目的地預測的上限。基于我們的論文,未來的研究領域如下:進一步研究預測建模、處理在不規則時間間隔內收集的帶有測量誤差的數據、使用真實世界數據建模以及多域建模。第一個領域是通過進一步的預測建模來提高預測精度。第二個領域是引入與現實生活中數據收集和匯總困難相似的誤差項。戰場傳感器并不完美,存在局限性。第三個方面是利用實戰部署和訓練中的真實數據建模。最后一個領域是將我們的研究推廣到其他作戰領域:海上、海面下和空中。運動輪廓和運動行為在這些領域中都同樣重要。戰術層面的模型可以為戰略層面的決策提供參考。
美國戰略陸軍條令強調在多域環境中擊敗反區域介入和空中拒止(A2AD)系統。這些防空系統對友軍構成重大威脅,嚴重限制了聯合任務部隊的空中能力。為此,陸軍試圖了解自主無人機蜂群的組成如何影響聯合特遣部隊縱深打擊任務的成功。目標是通過評估自主無人機蜂群的有效性來加強陸軍的作戰行動。利用虛擬戰斗空間模擬器3(VBS3),模擬了不同無人機蜂群組成的俄羅斯防空資產。我們的分析表明,在我們的備選方案中,動能、干擾和誘餌三種無人機類型比例相等的無人機蜂群組合表現最佳。本文旨在說明我們的方法和相關結果。
美國陸軍越來越重視與同行對手保持技術優勢(國會研究服務,2022年)。美國陸軍未來司令部(AFC)正在進行自主無人機群的研發。為了支持陸軍未來司令部和我們的主要利益相關者--系統增強型小型單位(SESU),我們評估了各種自主無人機群的組成。我們的主要評估指標是無人機群在敵后執行后續縱深打擊任務(兩架F-22)的能力。為此,我們使用Virtual Battlespace 3軟件在現代戰場環境中對敵方防空資產進行了一系列隨機模擬。
在整個項目過程中,我們采用了系統設計流程來完成問題定義、解決方案設計和決策制定(Parnell和Driscoll,2010年)。解決方案實施階段不在本工作范圍之內。
為了解問題的范圍,通過一系列面對面訪談和針對每個利益相關者的調查進行了利益相關者分析。這些利益相關者包括項目發起人(MITRE)和陸軍未來司令部,以及其專注于增強無人機蜂群技術的下屬單位(SESU)。利益相關者分析表明,工作重點應放在不同的蜂群組成上,并評估其擊敗敵方防空資產的有效性--有效性由機會之窗(WOO,即實現后續深度打擊資產)標準來衡量。根據利益相關者調查,將敵方防空資產定義為任何車載防空武器(如俄羅斯的SA-19 "格里森")。
經利益相關方同意,制定了如下問題陳述和范圍:
問題陳述: 為了提高作戰效率,分析無人機群的組成對打開針對敵方防空系統的機會之窗(WOO)的影響。
問題范圍: 將模擬無人機群執行任務,打擊俄羅斯摩托化步槍旅理論上適當的防空資產。這些任務將利用具有以下能力的無人機群:誘餌、干擾和動能。
基線替代方案是由120架無人機組成的蜂群,其組成由利益相關方選定。這些無人機分10波發射,每波12架。每個波次由41%的動能無人機、17%的干擾無人機和42%的誘餌無人機組成。除了該基線備選方案外,我們還利用茲威基形態箱開發了另外12種備選方案,其規模(120、60、36)和蜂群組成(動能、誘餌或干擾的比例;或三者的優先級相同)各不相同。
除了利益相關方制定的任務成功/失敗標準(第2.1節)外,我們還利用利益相關方分析和對利益相關方進行的模擬演習的訪問來制定評估標準。這些評估標準衡量了針對理論上旅級規模的俄羅斯防空部隊的成功任務的有效性(圖2)。為了計算這些標準的權重,我們使用了等級加權法。然后,我們使用指數值建模來制定價值曲線。
本文提出了一個海軍作戰管理系統(CMS)架構,考慮到電子戰(EW)與人工智能(AI),以應對現代高超音速和低觀測能力的威脅,其中反應時間可能很短,需要自動化。它使用一個反制措施案例研究作為數據要求,拍賣傳感器任務,人工智能過程,以及認知復合感應的數據融合。該文件還強調了已經公布的關鍵認知電子戰能力,以證明該架構的合理性。該架構的方向是用高反應時間的自動化人工智能驅動的認知DM來取代人類決策者(DM)。
當把人工智能(AI)應用于電子戰(EW)時,它不僅要幫助決策者(DM)進行態勢感知(SA),還要滿足點、區域和區域防御以及反目標活動的需要。電磁波譜是密集的,有許多通信和雷達發射器。因此,挑戰在于如何將人工智能應用于能夠滿足管理部門需求的EW系統。因此,它必須能夠整理出感興趣的信號(SoI)[1],如部隊的信號和與指定任務無關的信號。這項工作的基礎是 "常規戰爭 "中的反導彈反應,以便與傳統的交戰進行更直接的比較。影響反艦導彈(ASM)成功的一些主要因素是雷達橫截面(RCS)、紅外橫截面(IRCS)、視覺和紫外線(UV)特征。因此,目標艦的特征是決定被動軟殺傷[2]反措施(也叫伎倆)性能的一個基本因素。然而,反坦克導彈也可以使用主動雷達尋的方式進行瞄準和跟蹤。因此,射頻(RF)和微波(MW)的截面特征是重要的,同時還有光輻射量子(或光子)、方位角和機動中的方位率,以及它們的戰術影響。因此,現代操作環境在處理電磁波譜方面存在挑戰,人工智能的自動化和自主性是解決這一挑戰的理想選擇。
本文描述了一個架構,其中包括用糠和干擾器進行軟殺傷;用導彈、火炮和火控系統進行硬殺傷;以及一個跟蹤目標并協調軟殺傷和硬殺傷反應的指揮和控制系統。本文僅限于假設反坦克導彈是使用射頻主動雷達尋的目標和跟蹤的海上滑行。因此,這項工作的中心是簽名管理、大型目標船的規避動作、船上被動型誘餌系統(如金屬箔片和反射器)的操作性能,涉及反坦克導彈的跟蹤方案和交戰環境,包括風速和風向。擊敗導彈威脅的一個基本因素是反應時間;隨著高超音速的出現,時間因素成為反應殺傷鏈的決定性因素。潛在導彈平臺的識別標準是最基本的;它們將允許更精確的SA,迅速讓DM消除發射平臺。鑒于反導鏈反應的時間很短,人的頭腦無法計算巨大的信息量,并在短時間內決定反應的類型,要么是硬殺傷,要么是軟殺傷,要么是兩者兼而有之;那么人工智能就成為反導系統中的基礎[3] [4]。因此,人類的DM理論不能用于遙遠的未來,因為它要求對形勢的分析速度、識別能力、對威脅的立即反應,以及在人類思維的指揮鏈中進行計算和決定,因此不能提供所需的反應時間。本文的最后部分介紹了幫助平臺保護速度的架構,朝著定義CMS中的設備連接方向發展,同時還介紹了一些已經發表的關鍵技術。
第1節是介紹、動機、方法和論文結構。第2節提供了一個常規條令性例子戰術和反擊方法,用于在架構中需要支持的硬殺和軟殺。同時,在第2節中,還介紹了軟殺傷反擊方法的主動、被動和綜合方法。此外,第3節是一個使用飛毛腿和機動性的交戰例子,展示了所需的關鍵數據。第4節介紹了所提出的AI/EW技術的架構。最后,第5節是結論。
人工智能應用于電子戰時,不僅要保證DM(決策者)的SA(態勢感知),而且還必須滿足點和區防御以及反目標活動的需要。電磁波譜因無線電和雷達發射器而加劇,一個挑戰是將人工智能應用于能夠滿足DM需求的EW系統,因此它必須能夠分出感興趣的信號,例如其海軍部隊的信號。另外,哪些信號對指定的任務沒有影響。
一個陸軍師的基本 "有機 "通信和電子設備,在一個典型的70公里乘45公里的地區作戰,是超過10,700個單獨的發射器。一個支持性的空中遠征部隊(AEF)會帶來另外1400個,而一個典型的海軍航母戰斗群會帶來另外2400個發射器[20]。比如說: 在沙漠盾牌/沙漠風暴中,六個陸軍師和一個海軍陸戰隊師都占據了相同的地理和電磁波譜空間,還有許多其他聯軍和指揮控制網絡[21]。鑒于這種信息密度,認知型EW也必須與人工智能概念和認知循環階段的相關挑戰相一致。
為幫助EW和AI的受眾,我們提供了一個AI和EW術語的表格,在表1中,這些術語有一些對應關系。
表1 等效AI和EW術語
電子戰被正式定義為三個部分:
在圖10中,Haigh和Andrusenko[15]提出了一個EW和AI的組合架構,它跨越了殺傷鏈階段,將AI的特征和分類輸入一個融合引擎,以建立一個意圖,這個意圖是由因果關系和異常檢測階段推斷出來的。
圖10 與EW功能相關的EW和AI能力[15]。
Haigh和Andrusenko的論文與EA之前的ES的數據融合觀點一致,同時保持EP。因此,人工智能方法被應用于特定發射器的分析、特征描述和分類,作為數據融合之前的模式匹配工作。然后,這些方法被用于異常檢測和因果關系搜索,以實現意圖識別。這是一個信息漏斗,在EA/EP方面,這些方法更多的是優化適應性,而不是智能,這貫穿于整個殺傷鏈,并應用于任務管理的決策援助和與電子戰令(EOB)和網絡管理有關的人為因素。不難看出,AI態勢評估、DM和機器學習(ML)能力與所有EW功能相關。每個認知型EW系統的第一步是電子支持(ES),以了解射頻頻譜。在人工智能界被稱為情況評估,ES確定誰在使用頻譜,他們在哪里和何時使用,以及是否有可以 "利用 "的模式。AI/ML技術可以使用特征估計、發射器特征和分類、數據融合、異常檢測和意圖識別。圖11顯示了任務前準備和任務后分析與任務中需求的重疊。
圖11 任務中、任務前和任務后的重疊部分
ES對環境進行分析,并創造出驅動決策者(DM)的觀測數據。日益復雜的情況將頻譜態勢感知(SSA)定義為 "收集有關頻譜使用的不同信息并處理這些信息以產生一個融合的頻譜圖"[15]。SSA收集、組織和處理EW所需的頻譜數據。SSA必須以近實時(NRT)的方式進行,以滿足任務中的決策者的需要,SSA必須結合各種支持技術,包括傳統的和認知的。然而,一個挑戰在于相關技術的整合和展示,其中只有少數是認知的,以減少脆性和處理新的發射器。人工智能和ML能力可以在每個層面上改善SSA,這是在其他相關SSA技術背景下對這些AI/ML技術的看法。一個完整的EW系統必須有多層面的SSA。未來的SSA系統可以用深度學習模型來生成潛在的特征,用經典的ML模型來進行任務中的更新,以及用混合模型來抵消有限的數據。此外,SSA不一定要完全依賴射頻數據: 它可以與非射頻數據融合,如視頻和靜態圖像、自由空間光學、或開源、戰術或作戰情報。跨越多個異質來源的分布式數據融合必須創建一個在空間、時間和頻率上都準確的連貫的戰地頻譜共同作戰圖。異常檢測、因果推理和意圖推理使作戰圖更加完整,以了解事件的影響并支持管理部門。
Rudd-Orthner等人[14]用圖12中的 "影響范圍 "概念[18]擴展了這一概念,并增加了一個 "保護洋蔥 "框架,以根據數據需要選擇對策。
圖12 影響范圍
他們指出,威脅武器系統有變得更加復雜的趨勢,這種復雜性的增加至少可以部分歸因于:戰術的演變、技術發展的速度和數字化的現代化,但也有一種趨勢,即隨著人類決策和反應時間的減少,威脅的作用也在擴大;隨著自主系統的效力和使用的增加,這種情況也許更加明顯。自主系統的崛起在所有領域都在發展: 陸地、空中、海上、太空和網絡。自主系統的規模各不相同,從無人值守的槍支系統到自主空中平臺。這些自主平臺運作的作用也在不斷擴大,因此在打擊它們時,可能需要在綜合防御輔助系統中匹配復雜性,作為打擊復雜威脅系統的戰略。這些復雜平臺的作用和能力的增加,可能導致單一平臺的作用不大,并為其他平臺提供 "保護投射 "的要求。與此相結合,利益相關者群體也更加多樣化,科學家/工程師、機組人員和任務生產程序員之間的溝通機制也是挑戰,這樣他們都可能做出有意義的貢獻,并與他們的利益相關者群體的價值互補,正如Rudd-Orthner等人所說。
圖12中的維恩圖顯示了數據可用性的 "影響范圍":保護平臺/部隊、威脅或武器系統和防御限制與反措施設計考慮相疊加。Rudd-Orthner等人指出,這些不同的反措施考慮加上不同的可用數據,可能對反措施戰術設計形成影響范圍。
Rudd-Orthner等人在[14]和[19]中應用了多視角威脅分析圖解技術,該技術基于判別器、操作視角、系統視角以及對策設計考慮和影響范圍的維恩圖,適用于保護的洋蔥。他們在維恩圖中描述了反措施的設計考慮,將反措施的設計意圖描繪成一種規范,而不是ECM干擾器技術設施。在這種情況下,反措施設計考慮表示戰術的反意圖。論文[14]和[19]還建立了一個保護洋蔥的概念,利用反措施設計的影響因素和組織成洋蔥層的數據源,將揭示的數據分層管理。其中這些層級建議的對策方法也是與該威脅殺傷鏈階段的威脅意圖直接相反的,使得它也是一個測量的反應和保護數據模型在所揭示的數據。表2顯示的是保護洋蔥的層級(第1層是最外層)和反措施設計考慮,影響范圍與威脅系統的殺傷鏈意圖的映射。表2提供了保護洋蔥的六個層次。
表2 保護洋蔥
洋蔥層/影響范圍/CM設計考慮因素 | 注釋 |
---|---|
第1層發現/受保護的平臺/減少的可探測性 | 對抗早期預警、空中搜索或地面控制攔截雷達的探測或行為,使被保護平臺脫穎而出。該戰術針對的是殺傷鏈的意圖,并不顯眼,是利用對自身平臺數據的了解。 |
第2層定位/受保護的平臺/降低可探測性 誘餌和欺騙 | 具有欺騙性和誘騙性的反目標獲取或高度查找雷達可用于降低信息或反擊某個范圍或高度。 |
第三層識別/保護平臺 武器系統/降低可探測性 誘餌和欺騙 分散注意力 拒絕破壞 | 用旨在造成混亂的措施來對抗識別,以延遲對你的分類或身份的評估,識別可以基于行為或使用特殊雷達模式,如NCI。 |
第4層跟蹤/保護平臺武器系統/降低可探測性 誘餌和欺騙性分散注意力 | 用干擾、分散注意力和拒絕的方式來對抗威脅,可以是目標獲取雷達或更高數據率的搜索模式,如窄掃描軌道,同時掃描模式。 |
第5層 交戰/防御限制 武器系統保護平臺/降低可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 破壞 | 使用所有可用的能力擊敗威脅,硬殺和軟殺取決于ROE,是傳統的平臺自我保護。可以使用破鎖和信號處理以及跟蹤目標的戰術。 |
第6層 處置和效應/防御性限制 武器系統保護平臺/減少可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 毀滅 | 使用所有可用的軟硬殺傷能力擊敗威脅,是傳統的平臺自我保護。可能使用破鎖和信號與跟蹤處理的目標戰術,并可能同時采用針對尋的器和雷達的技術。 |
認知型電子戰系統的設計必須提供態勢感知、決策和學習能力。一般來說,系統要求推動了一系列關于哪些問題和它可能需要回答的問題的決定。決策可能是反復的,要么是集中的,要么是隨部隊效應范圍分布的。他們將一個問題表示為規格,并受制于AI代理的拍賣。就我們如何定義和調整優化函數而言,利用領域的物理學與參與的進展可能會減少狀態和交易空間。問題來自于像干擾這樣的設計結果所需的緊迫性和缺失的數據。因此,選擇對策和感覺的C4L參數、'while'或'if'條款都是數據要求,可能形成問題對話鏈或問題樹,在殺傷鏈的不同處置路線中需要。因此,這些對話鏈或問題樹就像專家系統的規則庫格式。因此,所需的數據就以拍賣的方式給投標的傳感器。這樣一來,邏輯路線總是有目的性的結果,而DM和傳感器的使用也是如此。另外,隨機森林[22]可以減少熵,增加信息增益。
雖然具有高度的適應性,但先進的雷達和軟件定義無線電(SDR)架構通常依賴于定制的API,單獨暴露每個參數。這種方法不適合EW系統中的近實時認知控制,因為緊密的耦合意味著人工智能不能做出全局性的決定。組成模塊必須是高度模塊化和可組合的,以消除這一障礙。通用接口允許模塊暴露其參數和依賴關系,從而實現全局優化和跨多個處理器的計算負載平衡。通常,由RESM(雷達電子支持措施)攔截的發射物是通過發射物數據庫識別的。發射者被識別出來,并在本地認可的海上圖像(LRMP)中得到體現。當通過數據庫確認為一種威脅時,它可以接受DM的詢問和拍賣:
為此,我們需要一個中間代理,提供一個模塊化的結構組件,允許不同的技術提供不同的服務,并確保信息/控制的一致流動,與John Boyd的OODA循環[23]一致,但適用于數據處理和DM。
圖13 模塊化架構
軟件架構的一個例子是ADROIT。自適應動態無線電開源智能團隊(ADROIT):用中間代理認知控制SDR節點之間的協作。ADROIT項目正在建立一個開源的軟件定義的數據無線電,旨在由認知應用程序控制。模塊暴露了它的參數和它們的屬性(特別是讀/寫)。當一個模塊發生變化時(例如,增加一個新的參數),它只需揭示新的參數,并在一個發布-訂閱機制中公開參數(名稱、屬性),而不是為該新參數增加一個新的API函數;這也可以擴展為一個組播目的地,給后來仍需要定義的模塊。ADROIT用圖14所示的模塊實例化了中間代理。
圖14 ADROIT體系結構支持認知代理
處理不同的或變化的傳感器的一種可擴展的方式是,如果所有的設備可以減少不確定性或提供額外的數據來回答一個殺戮鏈階段的問題,就將它們定義為傳感器。因此,這些傳感器可以成為拍賣算法的參與者,以其回答問題的能力來競標。在不同的操作環境下,拍賣算法中的分數可以改變,因此,不同的傳感器選擇提供較低的可觀察性或與當前的ROE、受限的EMCON或當前的傳感器利用相一致。通過這種方式,形成了一個問答循環,完善了對情況的理解,同時在提問的基礎上做出增量決定,并使環境情況有利于他們的部隊使用保護洋蔥的一個版本。此外,同樣的拍賣優化可以與反措施一起執行,其概念是,如果一切都能影響當地的殺戮鏈決策或導致結論或問題發生在受害者身上,那么它就是一個影響者。由此可見,C4L提供了一種以標準形式指定反措施行動和傳感規格的方法;這些規格可以一起拍賣,以便在一個可適應的模型中獲得最佳效果和傳感,然后該模型將優化殺戮鏈的進展,為跟蹤的對手的殺戮鏈進展提供優勢。在圖15中,本文展示了EW系統如何在拍賣優化的基礎上與具有認知DM的作戰管理系統(CMS)集成。威脅的檢測/識別/鑒定/分類被轉移到不同的數據庫中,但這些過程和數據庫的不確定性導致了傳感器的重新任務。這些都是拍賣,根據傳感器解決情況的不確定性的能力來分配任務,并根據緊急程度來確定優先次序;這使用了從保護的角度預測威脅的殺傷鏈意圖。這些過程越可靠,立即識別和反應的概率就越高。為了進一步提高這一結果,管理部門必須考慮機器學習中的其他參數,以適應當地環境的傳感任務和對策效果的拍賣。
圖15 數據布局EWS與CMS集成
有些參數可能不為人所知,也可能沒有方法或傳感器來提供這些參數;因此,Rudd-Orthner等人[24]的專家系統的神經網絡形式作為數據庫的疊加,在這些情況下提供一個估計值。它還可以提供一個由貝葉斯網絡進一步引導的值,該網絡可以將從環境中收集的傳感器事實與來自其規則的知識結合起來,使其不容易被收集的事實所欺騙。此外,在圖16中,也是在人工智能的背景下,所提出的架構將EW系統與CMS結合起來。它通過一個反饋回路支持 "態勢感知",根據威脅殺傷鏈的位置重新安排傳感器的任務,以快速解決識別和確認的不確定性,更新跟蹤的準確性,并為CMS和EW系統資源提供戰術清單作為選擇。
圖16 ID標準交互模型
在圖16中,DM能力因此積極主動地利用感知能力直接處置威脅,并為反制措施/部署制定了時間表。這些反措施/部署應按照RuddOrthner等人的保護理念,利用推斷出的威脅的殺傷鏈位置階段,直接對抗威脅的意圖。因此,傳感要求可以在拍賣算法中與可供選擇的策略/反措施交錯安排。同樣,在威脅分析和處置的關鍵時刻,一些所需信息可能無法在DM中獲得,但可以使用RuddOrthner論文中提出的神經符號-AI專家系統方法的代數專家系統部分進行估計。可控的可觀察數據可能來自人工智能環境中的數學或認知學習發展過程。我們可以認為這些有助于識別目標的元素是可觀察的,這些元素在DM中是可控的。
圖17 CMS和EW CM系統中的威脅數據路徑
在圖17中,本文展示了一個威脅發射器從EW系統進入CMS部分的順序。從EW系統的庫或數據庫中識別截獲的發射器;該數據庫包含物理雷達特征: PRI、頻率、PW、振幅、掃描類型、掃描周期平臺等級和威脅名稱;采集類型的特征,ECCM,如原點干擾(HOJ)Chaffs辨別,紅外,雙導射頻和紅外。如果發射物未被識別為威脅,則在本地識別的海上圖像中直接代表發行者。如果被確認為威脅,它將遵循不同的路徑,如前所述。導彈的獲取和ECCM的類型在反應鏈中具有巨大的價值。如果它有HOJ能力,最好是通過C4L中捕獲的特定計算直接干預硬殺傷和誘餌發射;該選定的C4L規格是由保護的洋蔥頭選擇的,它與頻譜中的感應計劃一起安排。該規格將誘餌定位在C4L所確定的與發射船的一定距離和特定的β值。除了在CMS上表示威脅的到達方向外,EW系統還將C4L搜索數據和傳感規范發送到多功能雷達(MFR)和火控雷達(FCR)作為即時硬殺傷系統。本文在圖18中畫出了由人工智能支持的戰斗管理系統(CMS)的架構基礎。在標準環境塊中,還有四個相互關聯的組件:
1.傳感器管理,提供設備監視器(資源管理器)的管理,傳感器信息的收集和軌道管理;在這個塊中,所有的相關數據都匯聚到機載傳感器,如雷達、聲納、ESM雷達、通信ESM、導航輔助設備和氣象數據。在這個架構中,一個傳感器的任務和它的優先權來自于它的成熟度和殺傷鏈。在這方面,關于Rudd-Orthner等人,威脅意圖的成熟度被評估為使用保護洋蔥的反意圖對策,并嵌入到Haigh和Andrusenko的殺傷鏈階段,其中的整合是通過ADROIT架構的發布和訂閱機制,這允許快速和靈活的整合和擴展。
2.在架構的第二塊,有信息管理,其中本地軌道與來自鏈接網絡的軌道相關聯,根據識別標準識別目標的追蹤,管理技術決策輔助工具和信息,共享共同的操作畫面,該畫面中的不確定性和異常情況引起了傳感器的任務。
3.第三塊代表戰斗管理,它提供了對威脅的評估計劃和武器優先權的分配--演習的計算和艦隊內與戰斗有關的信息交流。
4.最后一個區塊是資產管理,使用C4L規范和序列,允許艦艇同時協調幾個進攻和確定的目標。
圖18 AI應用于CMS結構
在DM處理環境之外,人工智能也同樣適用于智能處理環境,類似的技術疊加數據庫和ML提取,走向專家系統規則捕獲[25]。在人工智能輔助的CMS中,數據流入信息管理數據融合,使計算機系統在沒有明確編程的情況下利用歷史數據進行預測或做出一些決定。機器學習使用從IMDF(信息管理數據融合)獲得的大量結構化和半結構化的數據,這樣機器學習模型就能產生準確的結果,或根據這些數據提供預測。
未來的戰場是一個將受到近鄰對手快速變化的技術能力嚴重影響的戰場。在這種環境下的成功將需要簡單易用的系統,它能適應各種情況,并能與其他部隊和系統整合。多域作戰指揮、控制、計算機、通信、作戰系統和情報(MDOC5i)旨在為海軍陸戰隊準備未來的戰場。由于傳統的機器學習技術存在某些缺點,MDOC5i使用矢量關系數據建模(VRDM),為海軍陸戰隊提供適合動態部署的系統。MDOC5i使用全球信息網絡架構(GINA)作為其VRDM平臺。這項研究使用GINA創建了一個無處不在的決策模型,可以根據美國海軍陸戰隊的場景進行配置。該研究實現了無處不在的模型,并通過一個網絡分析用例證明了其功能。這個決策模型將作為所有GINA實施的基礎模型。快速構建和調整基于場景的GINA模型并將這些模型整合到一個共同的框架中的能力將為海軍陸戰隊提供對抗未來對手的信息優勢。
圖. 超圖描繪了構成 GINA 決策模型的關鍵實體。這是圖 3.2 中描述的“決策者信息”部分的細分。影響力的三個主要領域是現實世界、網絡和網絡。本論文中的模型將僅包含網絡類別的一部分,特別是 XMPP 流量。這三個領域應被視為為大規模網絡診斷設計的決策模型的起點。
在最近的沖突中,美國能夠承擔對其敵人的技術優勢[1]。然而,由于美國已經將重點從反叛亂(COIN)行動轉移到與近距離對手的沖突上,這是一種不能再假設的奢侈。美國和國防部必須不斷尋求獲得并保持對近距離對手的技術優勢。所有軍種的指揮官都強調了這一點,包括司令部的規劃指南[2]。網絡戰場是一個日益復雜和快速發展的領域,在戰爭中從來沒有出現過像現在這樣的能力。目前的對手既有掌握該空間的愿望,也有掌握該空間的能力[1]。人機交互(HCI)將是在未來沖突中實現信息主導的關鍵。人機交互融合了計算機科學、認知科學和人因工程,以 "專注于技術的設計,特別是用戶和計算機之間的互動"[3]。我們必須掌握人機交互,以協助指揮官并保持對敵人的優勢
美國海軍陸戰隊(USMC)沒有很好的裝備來在網絡領域取得成功。美國海軍陸戰隊訓練和教育司令部(TECOM)已經將這一能力差距確定為一個主要的問題聲明:"海軍陸戰隊沒有接受過應對同行威脅的訓練,在這種情況下,我們不再享有數量或技術優勢的歷史優勢。為了在未來的戰場上取勝,我們必須提供一個學習框架,以發展適應性和決定性的海軍陸戰隊,并提供訓練環境,以產生能夠產生決定性效果的互操作單位"[4]。
信息技術的進步產生了一個以網絡為中心的應用框架[5],可以幫助縮小能力差距,使美國海軍陸戰隊保持對對手的網絡優勢。
在為滿足指揮官的指導并使美國海軍陸戰隊為網絡戰場做好準備而采取的舉措中,海軍陸戰隊已經建立了多域作戰指揮、控制、計算機、通信、作戰系統和情報(MDOC5i)。MDOC5i是一個基于陸軍網絡信息管理環境(ANIME)的系統,提供了一個以網絡為中心的因果動態數字孿生環境。利用基于實體的模擬,MDOC5i提供以網絡為中心的互操作性和決策模型,可以增強多域作戰(MDO)[6]。MDOC5i計劃 "提供基層開發的技術,使操作人員能夠'推斷和適應'不斷變化的戰斗空間的需求" [7]。MDOC5i確定了需要改進的三個問題領域:互操作性、信息處理和利用,以及文化轉變[7]。
隨著戰場的不斷發展,聯合解決方案將是獲得優勢的關鍵。這些互操作性的解決方案將依賴于網絡和通信能力。互操作性是指與整個服務的各種通信系統相關的所有設備之間的通信能力。因此,目前在互操作性方面的差距需要被彌補,以進行聯合行動。系統之間的互操作性還沒有通過一個標準化的通用方法來實現[7]。MDOC5i認為這個問題的根源在于,當前系統所使用的所有網絡都被認為是彼此獨立的領域,而不是一個統一的作戰指揮和控制(C2)系統[7]。
MDOC5i解決的下一個問題是信息處理和利用。這個問題指的是目前整個海軍陸戰隊沒有能力處理大量的信息。數據通常很豐富,而且隨著傳感器能力的增長,數據會越來越豐富,但很難分析所有的數據并從噪音中分出有用的數據。鋪天蓋地的數據如果不進行適當的分析,對決策過程是無用的,甚至是有害的。這個問題被具體描述為:"當前行動和數據收集的速度超過了我們處理、識別和獲取可操作情報的能力,以快速評估、調整和修改計劃和實時COA,從而優化部隊投射、殺傷力,并實現持久的超額配給"[7]。
為了提高處理越來越多的數據和跟上快速發展的戰場的能力,作戰人員需要關注人機互動。這種關系對于能夠在可操作的時間范圍內將大量的數據轉化為有用的信息,從而做出更好的決定至關重要。更好的人機交互可以幫助確保 "數據處理和決策的速度與行動的速度相稱" [7]。
解決的最后一個問題,即文化轉變,涉及美國防部需要調整其在數據整合和聯合行動方面的重點。雖然國防部致力于為作戰人員提供可操作的情報,但其方法是無效的和低效的[7]。此外,各個軍種制定了自己的就業方法和情報方式,這往往會導致聯合行動的無效性。為了在目前存在的動態戰場上作戰,各軍種必須共同努力,"使能力與任務、標準操作程序、訓練戰術和協議、采購和部署政策以及作戰部隊的整體文化相一致" [7]。
5月9日至5月13日,MDOC5i在海軍陸戰隊空地作戰中心(MCAGCC)二十九棕櫚島與第七海軍陸戰隊進行了演示。這次初步測試的目的是展示MDOC5i所帶來的增強的火力能力,并確定MDOC5i通過提供共同情報圖像(CIP)--共同作戰圖像(COP)和決策支持來增強整個海軍陸戰隊空地特遣部隊(MAGTF)的MDO的可行性。
在MCAGCC Twenty-Nine Palms進行的MDOC5i演習成功地描述了該系統的防火能力。MDOC5i系統使用最先進的掃描機制和瞄準系統,將標準裝備的區域射擊武器轉變為精確射擊武器平臺,能夠在幾乎沒有歸零的情況下有效地攻擊目標。雖然這本身就大大增加了海軍陸戰隊的殺傷力,但增強的火力能力僅僅是MDOC5i概念所提供的效用的開始。底層系統使用全球信息網絡架構(GINA),一個矢量關系數據建模(VRDM)平臺,以使所有通過網絡連接的單位都能獲得準確的COP和CIP。這在戰場上提供了一個優勢,因為所有單位都獲得了意識,并將能夠為共享系統提供輸入,從而產生最準確的CIP-COP。
這些投入可以用來幫助決策和影響有利于沖突空間競爭的活動。
這一過程的關鍵使能部分之一是GINA內的決策模型,它能使人采取行動。在二十九棵樹的演示中,海軍陸戰隊員被展示了使用標準武器系統對選定目標進行第一輪射擊的能力。選定的目標出現在通過網絡連接的所有信息顯示器上。為了實現目標定位,GINA模型接受目標的輸入并將信息傳遞給所有用戶。系統首先決定該目標是一個有效的目標還是一個重復的目標。它通過一個專門設計的決策模型來實現這一目標,該模型將確定的目標與其他繪圖的目標進行比較。如果新的目標在指定的距離內,程序會認為它是重復的。這可以防止信息過載,使指揮官對現有的威脅有最準確的描述,以便更好地決定如何使用武器系統來對付敵人的目標。因此,在這個特定的例子中,輸入的是確定的目標位置,決定的是該目標是合法的還是重復的,決定的標準是確定與其他已經繪制的目標的距離,結果是對威脅的準確描述,使海軍陸戰隊能夠最好地與敵人作戰。
在演示中,決策與識別目標有關,而影響的行動與射擊有關。然而,如前所述,增強射擊能力只是MDOC5i通過基于VRDM的GINA平臺所能提供的好處的開始。創建和采用為指揮官提供最新的CIP-COP并幫助決策的模型將對海軍陸戰隊和國防部(DOD)的所有方面都有用。按照目前的情況,每次實施新的模型時,都需要從頭開始創建新的決策模型。
海軍研究生院(NPS)論文的目的是在GINA平臺上使用VRDM建立一個不可知的決策模型。重點是該模型的普遍性,以便它可以很容易地被塑造為未來的情景。該決策模型擴展了無處不在的數據表概念,以包含關于數據的信息屬性,并允許通過基于屬性的真值表關系實現來自數據屬性和信息屬性(邏輯類型)的知識屬性。因此,模型將數據轉化為信息,然后從已知的真值(既定協議)中獲取狀態和規定過程的知識,然后模型執行相應的過程。這表明了該方法的普遍性,并使任何數據任務的數據轉化為行動。本論文驗證了使用基于模型的配置方法,該方法由數據、真值表和狀態的概念對象組成,可用于人在/在環的自動數據決定-行動,并可在知識管理圖框架內為任何任務進行管理。
建議的模型在通過分析可擴展消息和存在協議(XMPP)消息來確定網絡健康狀況的情況下進行測試。該模型的輸入是可擴展標記語言(XML)消息,旨在復制大規模戰術網絡的數據包捕獲(PCAP)中捕獲的XMPP消息。雖然網絡診斷分類本身很重要,并證明了功能,但主要的效用將在于決策模型的普遍性。因為該模型是不可知的,它可以很容易地被修改以適應一系列所需的場景。務實地說,它可以作為所有其他GINA實施的基礎模型,使海軍陸戰隊實現信息超配。
本論文的假設是,GINA將被證明是一個高效的平臺,在這個平臺上實現一個可以輕松配置的泛在決策模型,以應對多種情況。在這個假設的核心,主要目標是利用GINA架構成功地設計和實現一個無所不在的決策模型。這項任務已經完成,證明了主要假說的正確性。
本論文的問題包括。
1.無處不在的決策模型能否在GINA的界面中實現?
2.GINA是否為機器學習(ML)提供了一個可行的、可操作的替代方案,該模型是否達到了與傳統機器學習技術相同的效果?
3.該模型是否有切實的方面證明比傳統機器學習技術優越?
4.該模型和GINA平臺能否用于大規模網絡流量分析?
與假設一致,第一個問題是最重要的,并且被證明是正確的。所實施的決策模型應該能夠促進并推動未來的工作。其余的問題涉及模型的可擴展性和與傳統技術相比的性能。雖然這兩個概念都沒有直接解決,但該模型提供了肯定的機會來測試這些概念。
為了成功地理解決策模型的實施和它可以應用的規模,有必要了解所涉及的工具。其中一些應用在本論文中直接使用。其他的是在MDOC5i中使用的,對于理解這個模型如何推導到多種情況下是很有用的。這些工具也提供了很好的背景,對未來的工作有好處。
GINA 是一個基于云的、提供可執行建模環境的 VRDM 平臺,該平臺產生的模型能夠進行推理和適應[7], [8]。該架構通過其反思性的、可執行的、基于組件的、與平臺無關的和模型驅動的構造,提供先進的數據、信息和知識的互操作性[9]. 該平臺使用一種語義結構,使應用領域的用戶能夠理解組成的模型組件,并形成具有半知覺行為的系統,這對動態任務需求的適應性和可配置的靈活性至關重要。該創新平臺是松散耦合的,這意味著它可以通過配置創建模型,使用來自遺留系統、現有系統或未來系統的各種輸入[8],而不會破壞或重新編譯。由于概念性的信息對象構造可以臨時引入,并可能存在于任何領域,GINA提供了誘人的可能性,美國防部正在探索這種可能性[2]。
GINA技術由方法論、開發工具和可執行模型的部署平臺組成,可作為軟件程序使用。這些模型不需要被編譯,而是在元數據中定義并實時編譯。該平臺使用通過配置實現的行為、環境和因果的建模概念,以提供定義、操作和互操作性[10]。GINA可以通過其名稱的組成部分進一步理解。"全球 "指的是該平臺通過多層抽象包含了所有的數字表示。"信息 "指的是可以被建模和管理的靜態和動態數據以及互動關系。"網絡 "指的是可以通過模型和圖表顯示、參考和管理的所有互聯關系的數字表示。"架構 "意味著GINA是被使用的系統,專門用于制作行為、背景和因果關系的可執行模型[10]。
第二章將深入討論GINA的優點和特點。
Dark Stax是一個由ANIME開發和使用的工具,能夠以接近實時的速度創建復雜系統的數字孿生體。這些數字孿生體可以用來操作克隆的系統進行數據操作和決策分析。這種聯合有助于數據驅動的決策過程。這個工具能夠創建戰術網絡的克隆,并過濾PCAP數據,為網絡診斷模型創建輸入[10]。Dark Stax工具由Ad Hoc維護和運行。他們對該工具的掌握為首要的人工智能(AI)技術和VRDM技術的結合提供了巨大的效用。
StarUML是一個開源的軟件建模平臺,支持統一建模語言(UML)[11]。它被設計為支持簡明和敏捷的建模,并提供系統疊加的可視化描述[12]。本文使用UML圖來描述實現的VRDM模型的靜態和動態方面。UML并沒有捕捉到VRDM模型中包含的所有細節,但它確實捕捉到了最重要的信息,并提供了模型中連接的清晰疊加。
在這個項目中,它只被用于GINA模型的可視化和文檔化。然而,我們的意圖是使GINA能夠接受UML設計作為輸入。因此,一個系統可以用UML建模并輸入到GINA中,以放棄配置。
Cursor On Target(COT)"是一個互聯網協議和一個基于XML的機器對機器模式,可以被任何系統讀取和理解,使專有和開放源碼系統能夠相互通信"[13]。模擬器在GINA模型中被用來模擬XMPP流量。XMPP消息的樣本在一個文本文件中生成。然后,Cursor On Target Simulator(COTS)模擬器將文本文檔的內容作為XML輸入到GINA。這個XML是決策模型的輸入。
本文描述了一個反蜂群場景的作戰概念(ConOps),其中防御方使用蜂群無人機來防御攻擊的蜂群無人機。作戰概念是對一個系統的元素和其環境中的實體如何互動以實現其既定目標的高級概念描述。它已被證明是設計復雜技術系統的一個有用和綜合的要素。本文提出的反蜂群場景將為以下問題提供答案:如何部署兩個無人機群,如何將場景引入仿真系統,以及如何監測和監督其進展。通過使用反蜂群模擬器并與芬蘭國防軍的軍事專家進行討論和訪談,起草了反蜂群場景初步版本的作戰概念。
高度自主和智能的機器人群在軍事領域越來越受歡迎,因為群集系統可以比單一設備更有效和高效地執行許多種任務。蜂群機器人技術是一種旨在開發多機器人系統的技術方法,它以許多具有成本效益的機器人為基礎。在這里,我們介紹了反蜂群場景的作戰概念(ConOps)的開發,在這個場景中,防御方使用無人機群來防御一個目標,以抵御攻擊性無人機群。作戰概念是對一個系統的元素和其環境中的實體如何互動以實現其既定目標的高層次概念描述。它已被證明是設計復雜技術系統的一個有用的綜合要素。反蜂群場景的ConOps將提供以下問題的答案:如何部署兩個蜂群,如何將方案引入模擬系統,以及如何監測和監督其進展。
ConOps開發中的一項關鍵任務是為正在開發的系統定義主要的性能要求。我們進行了專家訪談,在此基礎上,我們起草了機器人車輛群和反群行動的主要要求,并與早期項目中確定的要求進行了比較。在本文中,我們還將概述對機器人群的高級控制概念,包括形勢評估、協調任務進展、報警處理以及提醒其他執法單位和載人車輛注意等任務。
本文的其余部分結構如下。首先,我們回顧了一些關于反蜂群的相關文獻。第二,我們在概念層面上定義了ConOps的含義,給出了一些機器人群的ConOps的例子,并介紹了一個早期的軍事領域的自主機器人群的ConOps。第三,我們介紹了我們的訪談結果,以及為反蜂群場景開發ConOps的目標和進展。
人工智能(AI)有可能給軍事行動的所有方面帶來重大破壞。這項研究開發了一個嚴肅游戲(SG)和評估方法,以提供參與破壞性人工智能技術所需的心態教育。該游戲名為 "Obsolescence",從人工智能和作戰當前和未來狀態的報告匯編中教授向國防部 (DoD) 推薦的戰略級概念。評估過時的教育價值的方法解決了常見的挑戰,如主觀報告、控制組、人口規模和衡量抽象或高水平的學習。游戲提議的教育價值采用前后測試的形式,與人工智能和戰略規劃領域的官方來源和專家建立的基線進行測試。評估包括基于自我報告的學習和測量參與者在游戲后對LO相關問題反應的變化這兩個指標。實驗發現,測量的學習效果和參與者自我報告的學習效果之間有很強的關聯性,這兩個指標都證實了Obsolescence實現了其教育目標。這項研究包括利用評估方法的必要步驟,并為Obsolescence和教育游戲評估領域的未來研究提出了建議。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。