摘要

兵棋模擬是一種決策工具，可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近，無人駕駛飛行器（UAVs）已經成為這些模擬中的一個相關元素，因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如，容許戰術編隊中的飛機損失，有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素，無人機在超視距（BVR）作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性，如射擊距離和位置，使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊，稱為line abreast，作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊，以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序，將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里，并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。

索引詞：優化方法，計算機模擬，無人駕駛飛行器（UAV），自主智能體，決策支持系統，計算智能。

I. 引言

兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲，用于分析作戰概念，訓練和準備指揮官和下屬，探索情景，并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用，為參與者提供了對決策過程和壓力管理的洞察力[1]。

最近，無人駕駛飛行器（UAVs）作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此，它們的有效性經常在兵棋中被測試和評估。

由于具有一些性能上的優勢，如增加敏捷性、增加過載耐久性和增加隱身能力，無人機已經逐漸發展起來，并在許多空中任務中取代了有人系統[3]。然而，由于戰斗的動態性質，在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中，無人機可以被遠程控制，但由于無人機飛行員對形勢的認識有限，它將在與有人平臺的對抗中處于劣勢。然而，這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外，使用無人機可以允許一些戰術編隊和戰略，而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的，例如允許中隊的飛機被擊落，如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距（BVR）作戰中的飛機戰術編隊的文章[5]表明，空戰戰術是用遺傳算法（GA）進行優化的候選方案。該實施方案采用分層概念，從小型常規作戰單位建立大型編隊戰術，并從兩架飛機的編隊開始，然后是四架飛機，最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區（WEZ）的高殺傷概率（Pkill）區域內一段特定時間，簡化的交戰模擬器就宣布傷亡。事實證明，所提出的方法的應用是有效的，它消除了團隊中所有沒有優化編隊的飛機，并為整個優化編隊的飛機團隊提供了生存空間。

Keshi等人[6]使用了與[5]相同的分層概念，從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法（SAGA）被用來優化編隊，使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化，提出的最優解表明SAGA比基本的GA更有效。最后，為了探索一個穩健的SAGA，對不同的馬爾科夫鏈進行了比較，事實證明自調整馬爾科夫電流更適合所提出的問題。

Junior等人[7]提出使用計算機模擬作為一種解決方案，以確定BVR空戰的最佳戰術，使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模，并改編了名為COMPASS的模擬優化算法，模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明，擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈，并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。

Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法，即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先，計算戰斗機的戰斗力，這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來，包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此，通過采用前景理論和綜合模糊評估來優化空戰訓練。最后，一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱，利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。

?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器（UCAVs）進行空戰的決策方法。首先，確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后，每個航空飛行器被分配到一個目標，以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法；因此，該方法在一個數字案例上進行了測試，并證明了其有效性。

Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃（CTAPPP）問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后，訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置，發射武器裝備。合作目標分配（CTAP）問題通過增強型粒子群優化（IPSO）、蟻群算法（ACA）和遺傳算法（GA）來解決，并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃（CPPP）問題，其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子，并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。

Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組（R和B）無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化（離散化），通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈，并被解決以獲得納什均衡。

Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發，因此也影響到最終的結果。例如，如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬，新的沖突可能會發生，直到模擬結束。因此，每個在交戰中幸存的無人機將能夠選擇一個新的目標，這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的：它們直接影響飛機之間的交戰結果。

在這項研究中，我們試圖解決文獻中發現的一些局限性，如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認，旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究，RED蜂群使用了空軍經常采用的戰術編隊，稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性，我們解決了新的問題，改變了RED蜂群每架飛機的位置，目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。

我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊，考慮與敵人相關的不確定性，如戰術編隊中的位置誤差和導彈發射距離。統一行為框架（UBF）被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度（DoFs）建模。

該程序將在接下來的章節中進一步討論。

付費5元查看完整內容

I. 引言

根據美國國防部長（SecDef）的說法，美國（US）軍隊近期的重點是將目前的 "能力現代化，以應對未來的先進威脅"，并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"（國防部，2021）。國防部長的重點可以通過美國國防部（DoD）有效調整其資源以應對不斷變化的威脅來實現（國防部，2021）。本論文支持國防部未來的首要任務，這些任務涉及使用自主無人駕駛作戰飛行器（AUCAVs）來壓制敵方防空（SEAD）和打擊任務。這些優先事項包括人工智能（AI）、偵察機能力、作戰司令部（COCOM）策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃（即基于模型的強化學習）算法，我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力，與國防部的主要倡議直接保持一致（國防部副部長（主計長）/首席財務官辦公室，2021）。這些資產的一個共同點是它們都對司令部的任務至關重要，并且可以與AUCAV打擊高價值目標的能力一起工作。

1.1 美國防部的舉措

AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標（TST）的位置進行偵察，使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標，包括地對空導彈（SAM），并使用精確武器成功完成空對地任務（Military Advantage, 2014）。AUCAVs對薩姆導彈可能沒有那么有效，可能會被它們擊落。然而，AUCAVs有能力對要求命名的興趣區（NAIs）或更適合其他軍事資產打擊的目標類型進行偵察，如F-35或B-52。

F-15EX是美國國防部批準的項目，與F-35不同，它不是隱形的，不能在敵后不被察覺。然而，空軍已經考慮將F-15EX與隱形戰斗機配對，并將這對戰斗機作為遠程空對空導彈發射平臺（Mizokami，2021）。盡管F-15EX也有能力進行空對地打擊，但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力，包括二十多枚空對空導彈或高超音速武器（Mizokami, 2021）。這種作戰能力是需要考慮的，因為將一架隱身飛機（如F-35）與一架不具備相同屬性的飛機（如F-15EX）配對，以完成時間敏感的目標打擊任務，作為AUCAV的目標確認能力的結果，可能會達到優越的性能。

在每個COCOM的責任區（AOR），指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅（例如，防空導彈炮臺），AUCAV可以滿足指揮官的要求。然而，這種假設忽略了一個現實，即敵人可能會施加障礙，嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區（NFZ）的情報信息，以達到避免威脅的目的。本論文討論的近似動態規劃（ADP）算法將探討未預見的NFZ或戰斗區（例如，由于防空導彈電池）如何影響AUCAV的目標選擇，以及AUCAV如何隨著時間的推移學會避免這些區域。

美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器（UCAV）進行了作戰測試和評估（OT&E）（Butler and Colarusso, 2002）。因此，本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統（JSTARS）傳送的飛行中目標更新（IFTU）信息單獨指向其目標（Butler and Colarusso, 2002）。已經完成的測試表明，使用負擔得起的移動水面目標攻擊系統（AMSTE）而不是JSTAR，使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討，但在本論文中不會詳細討論。

美國特種作戰司令部（USSOCOM）正在投資人工智能（AI）以加快分析速度（國防部副部長（主計長）/首席財務官辦公室，2021）。這篇論文的重點是建立一個人工智能算法，使戰斗指揮部，如USSOCOM，能夠及時有效地執行目標打擊，并對要求的國家情報機構進行偵察。除各司令部外，聯合情報支援部隊（JISE）和聯合特遣部隊（JTF）也依賴偵察機，這是因為他們在管理各種形式的偵察和監視敵人方面的作用，這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的（國防部，2018a）。如果目前的AUCAV路徑規劃AI算法得到改進，所有這三個適用的軍事組織都可以提供更多的情報信息，從而在目前的限制性資源（如燃料容量、彈藥或在戰區的時間）下，產生更多的目標打擊和NAI的圖像。

1.2 空軍關于目標選擇的學說

鎖定目標是一項指揮職能，需要指揮官的監督和參與，以確保正確執行（美國空軍部，2019年）。它不是某類專業或部門的專屬領域，如情報或行動，而是融合了許多學科的專業知識（美國空軍部，2019）。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合，探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說，以更好地理解空軍如何定義目標。根據聯合學說，目標是一個實體或物體，被視為可能的交戰或其他行動（國防部，2018b）。實體可以被描述為設施、個人、虛擬（非物質）事物、設備或組織（美國空軍部，2019）。

有兩類目標：故意的和動態的（美國空軍部，2019年）。當有足夠的時間將目標添加到空中任務單或其他計劃中時，故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標，但當發現或定位時，符合實現目標的特定標準。

本論文試圖確定AUCAV的最佳路線，以選擇故意和動態目標的組合。AUCAV進入戰斗空間時，有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間，AUCAV就會遇到新的目標請求（即動態目標到達），必須重新計算其最佳目標選擇路線，并考慮到新到達的目標。

需要特別考慮的兩個目標子集是敏感和時間敏感（Department of the United States Air Force, 2019）。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標（Department of Defense, 2018b）。敏感目標并不總是與附帶損害相關（美國空軍部，2019）。它們也可能包括那些超過國家一級交戰規則閾值的目標，或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響（美國空軍部，2019）。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集，因為它們是高度有利可圖的、轉瞬即逝的機會目標，或者它們對友軍構成（或即將構成）危險（國防部，2018b）。

這篇論文的重點是AUCAV對時間敏感的目標進行打擊，并對可能包括敏感目標的NAI進行偵察，同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程（MDP）模型框架解決具有隨機目標到達的無人駕駛飛機定向問題，同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析，同時避開障礙物（即防空導彈電池），并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后，采用CFA策略的ADP解決方法來優化AUCAV的目標路線，在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。

本論文的其余部分的結構是：第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品，第三章討論問題的制定框架和解決方法，第四章討論計算測試和結果，第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論，提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。

付費5元查看完整內容

AI與軍事 · 人與人工智能協作決策 · 人機交互 · 兵棋推演 · 人工智能 ·

2022 年 6 月 22 日

[付費5元查看完整內容]《人與人工智能協作決策在作戰任務規劃中的未來》美國陸軍作戰能力發展司令部-美國陸軍研究實驗室，2022最新論文（初譯版）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本研究由美國陸軍研究實驗室贊助，根據合作協議號W911NF-21-2-0227完成。

?在日益復雜的軍事行動環境中，下一代兵棋推演平臺可以減少風險，降低作戰成本，并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能（AI）兵棋推演方法，對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域：由人工智能引導的決策指導，高計算力下的決策過程，以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展，以滿足當今戰斗空間日益增長的規模和復雜性。

關鍵詞：決策、交互、兵棋推演、人工智能、增強/混合現實、可視化

1 引言

在傳統的兵棋推演中，指揮官利用一個共同的基于地圖的作戰地形，并在軍事決策過程（MDMP，方框1）中模擬各種因素的組合如何產生行動方案（COA）、可能的反擊行動、資源使用估計和預測結果（美國陸軍，1997年，2014年，2015年）。在幾天或幾周的時間里，MDMP過程導致了一套精煉的COAs，它對作戰環境做出了一定的假設，包括地形、天氣以及戰區資產的可用性和能力（即塑造支持主要作戰行動的活動）。

方框1. 軍事決策過程（MDMP）
MDMP是美國陸軍解決問題的理論方法，從接到任務開始，到生成作戰命令結束。MDMP被用作一種工具，幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識（美陸軍，1997年，2015年）。
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中，所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求，包括進行MDMP的可用時間量。確定進行任務分析所需的工具，并收集與任務和作戰區有關的文件。步驟2，執行任務分析，建立對任務的全面理解，包括關鍵的事實和假設，形成擬議的任務說明和任務分析簡報，為制定COA做準備。
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括：第3步，制定COA；第4步，COA分析（兵棋推演）；第5步，COA比較；第6步，COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性，如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演，它試圖在考慮到友軍力量和敵人能力的情況下，將行動的順序流程可視化，同時考慮到行動區域內平民的影響和要求（美陸軍，2014）。戰術模擬（兵棋推演）方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程，對作戰行動方案進行評估，然后根據需要進行修改，直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。
在一個具體的行動方案得到指揮部的批準后，MDMP的最后一步是制作行動指令，這是一份給下屬和鄰近單位的指令，旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作，并建立起對局勢的共同理解。

盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法，但這個過程有很多局限性，如時間密集、假設僵化、跨場景訓練的機會有限，以及將人工智能（AI）指導納入決策過程的機會很少。傳統上，一項任務的成功與指揮部執行MDMP的能力直接相關。然而，鑒于當今多域作戰（MDO）的復雜性增加（Feickert，2021年），有大量的任務指揮系統和流程，與行動相關的所有活動的整合和同步變得越來越困難，甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏，可能會導致不同步和不協調的行動，從而最終導致士兵的生命損失。

MDMP中沒有具體描述戰斗空間的可視化能力，但它顯然在決策過程中發揮著重要作用。最近，集成了先進可視化能力的新系統和新技術已經被開發出來，它們可以提高態勢感知，從而增強決策過程。美陸軍的例子包括Nett Warrior（Gilmore，2015），它使下馬戰士能夠直觀地看到附近的友軍和敵軍，同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士，但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺（BVI，前身為增強現實沙盤，ARES）是陸軍技術的另一個例子，它能夠為任務規劃提供分布式協作，具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力（Su等人，2021）。BVI架構的制定是為了拉入外部計算服務，如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI，包括用于加強決策支持的人工智能。

目前，MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架（APF）（Bailey，2017）開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具，在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展，為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平，但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。

提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊（OneSAF），為計算機生成的地面部隊提供建模和模擬能力（PEO_STRI, 2022）。OneSAF提供了半自動和全自動的軍事實體（即士兵、坦克、直升機和綜合單位）的建模，在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練，并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而，OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制，而且眾所周知，士兵需要大量的培訓來學習如何操作模擬，使用起來很困難（Ballanco，2019）。OneSAF的復雜功能并不適合開發人工智能能力，以實現快速和敏捷的戰士-機器決策。

除了MDMP和上面提到的陸軍平臺外，最近將人工智能納入決策過程的工作包括一些方法（Goecks等人，2021a），在模擬人類決策過程方面取得了一些成功。一般來說，人工智能在決策變量有限的問題上取得了一些成功，如資源分配（Surdu等人，1999）、飛行模擬器（Drubin，2020）和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力，以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策，以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。

以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域，并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口（WMI）的發展方向，重點是與決策有關的人-人工智能團隊的跨學科研究。

2 未來軍事決策過程所需的進步

軍事決策過程在支持MDO復雜決策方面的局限性，突出了在三個研究領域的改進需要。首先，有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃，也包括進一步改善人工智能決策過程的可解釋性和透明度（Chen等人，2018）。第二，有必要在戰略層面以及戰術邊緣，盡可能地將決策分析與高性能計算（HPC）的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間，同時整合和同步來自所有戰區領域的信息。最后，有必要利用先進的可視化技術，如混合現實技術，對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染，而是需要可視化不同領域的決策是如何相互作用的，并利用混合現實技術來提高理解的吞吐量，并產生平面顯示不可能的洞察力。

除了MDMP之外，其他更廣泛適用的支持戰斗性問題解決的軍事理論包括：DOTMLPF[例如，學說、組織、訓練、物資、領導、人員和設施；（美陸軍，2018年）]，這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架；以及METT-TC[例如，任務、敵人、地形和天氣、部隊、可用時間和民事考慮；（美陸軍，2019年）]，這是一個結構化框架，用于捕捉任務相關因素的狀態，以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景，構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示，在為人類和人工智能指揮開發復雜軍事決策空間的新表述時，研究進展和MDO相關理論相互借鑒、相互啟發、相互加強（美陸軍，2010）。

圖1. 新型作戰人員-機器交互（WMIs）和人工智能輔助決策所需的三個研究發展領域，以支持和加強基本的MDO理論[右下圖來源：Lebsack（2021）]。

2.1 人工智能導向的決策指導

需要新的人工智能支持的WMI，以利用人工智能決策方面正在取得的進展，并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步，也是將人工智能納入更成熟的戰斗空間平臺（即BVI、OneSAF）的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。

圖2. 兩個ARL人工智能測試平臺的例子。左邊：ARL Battlespace（Hare等人，2021）（ //github.com/USArmyResearchLab/ARL_Battlespace ）。右邊：ARL的Simple Yeho測試平臺。圖片由C. Hung制作。

人工智能測試平臺能夠開發出匯集所有領域信息的AI，并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺（Hare等人，2021年），它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則，在這種情況下，用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理，有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺，它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力，有多個基于地形的海拔高度、視線范圍、障礙物、樹葉（隱蔽）、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合，包括DOTMLPF和METT-TC，并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。

使用漸進式和可擴展的人工智能測試平臺，可以調查現有人工智能的幾個基本限制，特別是對于具有不確定性的復雜和適應性決策，以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜，因為其遞歸性質，其他智能體是模型的一部分（Goldman，1973；Grüning和Krueger，2021），需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域，適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作，新穎的WMI應該幫助作戰人員篩選復雜的信息，并幫助人工智能發現決策的隱含規則。下面，我們提供了關于人機協作如何有效的案例。

多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功（Silver等人，2017；Goecks等人，2021b；Haliem等人，2021）是基于對世界現有狀態有完整了解的游戲（即 "開放 "游戲），而兵棋推演平臺通常包括關于作戰環境的不完整（如星際爭霸）、不確定或欺騙性信息（Vinyals等人，2019）。不確定性也可能來自變化的物理學或其他環境規則，正如在《憤怒的小鳥》中所探索的那樣（Gamage等人，2021）。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性，知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況（Cassenti和Kaplan，2021）。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力，而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒（Lavine，2019），即由于信息有限而選擇錯誤的選項，這種情況并不罕見，因為人類在制定有效探索隱藏信息的策略時，采用啟發式方法進行有效的選擇和預測（Gardner，2019）。為了幫助發展人工智能的隱性知識和探索能力，新型的WMI需要有效地解釋和展示決策景觀，以使作戰人員能夠快速和自然地瀏覽可能的選擇，同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習（Lance等人，2020）。這種機會主義學習可以包括：例如，凝視跟蹤，以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法，以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習，這取決于任務相關的背景。

開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息，特別是空間和網絡，因為這些領域的信息具有不同的時空尺度（Gil等人，2018）。對于網絡，決策的規模和速度可能比人類處理和理解的能力更快，需要人類的輸入來指導半自動化的決策，以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景，即可以解釋一小部分最優和接近最優的決策策略（例如，圖3中的決策樹）。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計（Hare等人，2020），以使有效的博弈論決策能夠被共同開發和相互理解。

圖3. 在頂部，是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角，例如，顯示友軍（藍色）和敵軍（紅色）機載預警系統（AEWs）和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹，為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策，例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。

這些挑戰為有效的WMIs設計提供了參考。也就是說，我們需要有能力從不同的來源（包括從其他國家的決策輔助工具）提取信息，以及一個能夠承載整合這些信息的計算能力的架構，同時還要處理基礎的人工智能計算（用于學習和部署）。我們還需要共同開發一個界面和算法設計，以適時地利用人類和人工智能agent的優勢并減少其局限性。

2.2 高計算能力下的決策過程

在復雜的決策過程中，需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型，需要利用HPC資源來產生分析性的見解，并在決策背景下創建有用的表述。

實施HPC分析工作流程的一種方法是使用持久性服務框架（PSF）。PSF是一個最近可用的分布式虛擬化解決方案，它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問，而不像傳統的HPC環境，計算節點在特定的時間段內以批處理模式分配給用戶。此外，PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問（Su等人，2021）。

在一個PSF方法的例子中，一個模擬引擎連接到PSF，用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為，以及識別決策模式和戰略，以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上，并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。

使用PSF方法并利用HPC資源，可以實施人工智能輔助決策機制，利用大數據攝取和分析，同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景，從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。

2.3 決策空間的真實呈現

用圖形表示各級行動的軍事決策戰略需要新的可視化方法，這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境（Dennison等人，2020；Hung等人，2020；Raglin等人，2020）。戰斗空間的視覺表現應該在技術上盡可能準確和逼真，但又保持在人類可以理解和解釋的認知水平（Kase等人，2020；Larkin等人，2020；Hung等人，2021）。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步，成本降低，硬件的可靠性和實用性顯著提高，混合二維和三維可視化方法現在已經成為可能。

由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力，可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力（Su等人，2021）。當需要一個共享的戰斗空間表示時，可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式，以根據分布式指揮人員的輸入進行互動更新。

BVI（Garneau等人，2018）平臺表示地理空間地形信息和地圖圖像，允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器，BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序，包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備（例如，HoloLens 2、Oculus Quest）。

例如，圖3（頂部）顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景（Wikipedia, 2021）。與MDMP期間經常使用的傳統2D地圖顯示相比，戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖，在BVI的網絡戰術計劃器（WTP）中，將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化（美國防部，2014）。可以想象，地理空間視角，如BVI提供的視角，支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間（圖3，底部）搭配，組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合，可以提供必要的廣度，以協調物理行動與網絡和其他非空間領域的行動，跨越多個時間尺度，并具有快速適應變化的任務目標的靈活性。

3 人-人工智能團隊決策的交互技術展望

人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測，并能更好地處理復雜的決策，它們也必須利用人類的專業知識，學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反，人工智能的推理必須既抽象又能與兵棋推演環境相聯系，以實現透明和信任，同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力（Welchman等人，2005；Kamitani和Tong，2006；Kim等人，2014；Boyce等人，2019；Krokos等人，2019），如果設計得當，其交互將感覺自然，同時擴大顯示多個領域的信息的能力，同時使AI能夠適時地從用戶的決策中學習。

我們強調了三個關鍵的發展領域，即人工智能引導的決策指導，支持這種指導的計算基礎設施，以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想，以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘，以及更具體的兵棋推演問題，如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展，因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發，應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性，并為使用和故障排除提供清晰的文檔，以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞，同時提供靈活性和適應性，以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后，交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解，以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息，而是對世界進行預測和假設，以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外，人工智能決策輔助工具必須估計用戶的默契，使其能夠提供最相關的信息和最有希望的選擇，這些信息來自整個作戰領域。

結論

信息作戰和指揮與控制（C2）是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中，不僅要為動能作戰做準備，而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展，在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展，以及在人與人工智能協作決策和機會主義學習方面取得進展，以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力，以克服復雜的技術挑戰，創造新的決策原則、理論和理論方法，包括持續開發綜合測試平臺和技術，以實現政府、學術界和工業界的合作和協同發展。

付費5元查看完整內容

AI與軍事 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 · 論文 · 強化學習 · 機器學習 ·

2022 年 5 月 2 日

[付費5元查看完整內容]【AI+軍事】附論文《在戰術模擬環境中從基于規則的行為模型過渡到基于學習的行為模型：一個案例研究》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

由HAVELSAN公司開發的虛擬環境中的部隊（FIVE）模擬器軟件，利用各種虛擬戰爭設備（如武器、傳感器和通信工具等），以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前，管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而，FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導，因此是高度勞動密集型。此外，這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外，具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此，在這項研究中，我們通過強化學習技術和其他機器學習技術，即FIVE-ML項目，提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此，我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察，用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中，我們還發現，在強化學習之前，利用監督學習作為起點，可以大大減少訓練時間，并創造出更真實的行為模型。

引言

今天，培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的，原因包括空域法規、過高的成本和訓練中可能出現的風險，以及創造真實世界場景的復雜性，包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬，飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制，通常被命名為計算機生成的部隊（CGF）[1]，它們是代表空中、陸地或海上防御或攻擊系統的自主單位。

CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用（或每個場景）進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練，降低了訓練的質量。當需要新的場景時，需要專家來創建新的場景。此外，由于情景創建將使用經典的控制分支進行，在創建新情景的過程中，考慮所有的可能性往往是不可行的，即使是可能的，也是一項相當有挑戰性的任務。由于這些原因，人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界，以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。

在這項研究中，提出了向以人工智能為導向的行為建模過渡，而不是傳統的特定場景建模，以此來解決前面描述的問題。換句話說，虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先，他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后，它必須識別他的隊友和敵人，并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作，采取團隊行動。

為虛擬資產添加智能的機器學習的首選方法是強化學習（RL）[2]，其根本原因是：實體將采取的行動有延遲的后果。近年來，與傳統的控制方法相比，RL被認為是解決復雜和不可預測的控制問題的新方法，并在許多領域得到利用，如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念（即深度RL[10]）后，文獻中的研究得到了提升，如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。

為了這個目的，在這項研究中（即FIVE-ML），已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出，用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外，模仿學習[16]、[17]和RL的聯合實施也取得了成功，這加快了FIVE軟件的完整過渡過程。

可以預見，通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后，將設計一個新的系統，允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此，飛行員候選人將有機會針對智能實體發現的新策略來發展思路，而不是滿足于該領域的專家的知識和經驗。此外，從一個經過大量努力準備的場景機制，計算場景自動化機制將使整個過程自動化。

付費5元查看完整內容

AI與軍事 · 戰術 · 優化 · 論文 · 北約“面向復雜多域作戰的訓練和決策支持”研討會 ·

2022 年 4 月 17 日

[付費5元查看完整內容]【AI+軍事】附論文+PPT 《用于戰術分析、訓練和優化的深度自我優化人工智能》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

現代多領域沖突日益復雜，使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解，以更快的速度和更低的成本比物理機動更易實現。其中，通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而，傳統的人機交互非常耗時，并且僅限于預先設計的場景，例如，在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理，這將增加探索行動過程的多樣性，從而導致更強大和更全面的分析。如果AI同時扮演兩個角色，這將允許采用數據農場方法，從而創建和分析大量已玩游戲的數據庫。為此，我們采用了強化學習和搜索算法相結合的方法，這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略，從而避免對人類經驗和預測的依賴。在這篇文章中，我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰，這些系統目前或未來可能用于瑞士武裝部隊。

付費5元查看完整內容

AI與軍事 · 機器學習 · 決策支持 · 地理 · 論文 ·

2022 年 4 月 17 日

[付費5元查看完整內容]【AI+軍事】附論文+PPT 《機器學習在戰術決策支持中的地理空間分析》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

戰術軍事陸地行動嚴重依賴地形，因此在軍事決策過程中始終需要考慮地形。地形相關（地理空間）戰術信息產品，例如最佳路線或近場途徑通常由情報單元中的地形分析師確定，但也可以自動生成。這些產品可用于決策支持工具，以支持規劃過程。當在這些決策支持工具中使用機器學習時，這些產品還有助于對軍事單位的行為進行建模，這是通過機器學習找到表現良好的行動方案所需的。這項工作概述了地理空間產品，并將它們分類為基于層的體系結構，其中產品基于底層的產品。我們進一步規范了創建機器學習所需的戰術地形模型和戰術任務模型的步驟。基于兩個實際示例，我們演示了如何在提出的架構中生成地理空間產品，這些產品如何用于機器學習以進行戰術規劃，以及如何將學習到的行動和情報產品提供給規劃者以支持決策。

付費5元查看完整內容