訓練一名步兵軍官在軍事行動中選擇適當的排隊，傳統上需要投入大量的訓練資產。步兵訓練將受益于在普遍可用的平臺上進一步發展高容量的訓練。2018年，創建了一個基于計算機的模擬排編隊決策任務（PFDT），并利用認知與績效目標訓練干預模型（CAPTTIM）來確定哪些參與者達到了最佳決策以及何時發生。本研究在該工作的基礎上，在兩個流行的平臺上完善和測試PFDT。PFDT包括32個場景，每個場景隨機呈現四次，總共128次試驗。在這些場景中，有五個因素被操縱，一個中小企業確認了最佳、可接受和差的決策反應。基礎學院和海軍研究生院的27名學生在三種平臺中的一種完成了PFDT：平板電腦、虛擬現實（VR）或帶編隊的VR（為參與者提供在虛擬背景上描繪編隊的能力）。CAPTTIM表明，在達到最佳決策所需的試驗數量上不存在平臺效應。此外，參與者的經驗水平并不影響專家或新手在對方之前達到最佳決策。因此，PFDT是一個可行的軍事訓練模擬器，無論所使用的技術平臺或步兵訓練的數量如何。

付費5元查看完整內容

引言

A. 戰斗建模和戰爭

正確預測對手在戰爭中的戰略或戰術行為的愿望與人類進行這些戰爭的能力一樣古老[1]。在中國古代，像魏黑和圍棋這樣的游戲最初被用作加強軍事和政治領導人的戰略思維能力的方法。后來，羅馬人利用沙盤在戰役或戰斗前討論自己和敵人的可能行動。然而，直到19世紀初，普魯士人用他們的兵棋推演（Kriegsspiel）才開始利用具有嚴格規則的游戲來預測軍事交戰的可能結果。雖然這些兵棋推演在接下來的幾十年里在世界各地的許多武裝部隊中越來越受歡迎，但進行必要計算的能力有限，總是限制了這些基于棋盤的兵棋推演所能達到的復雜程度。此外，棋盤游戲的物理限制限制了設計者簡化行為和游戲元素，而不是努力追求真實。然而，計算能力的提高和用戶友好的圖形界面使設計者在20世紀末能夠以更高的復雜性來模擬兵棋推演的規則和游戲中的組件數量。此外，計算機的使用允許實施基于計算機的對手，在基于硬編碼規則的人工智能軟件的基礎上成功地與人類玩家進行比賽。

今天，基于計算機的兵棋推演，也被稱為建設性模擬[2]，已經成為整個國防部（DOD）的一個有用工具。它們使軍事領導人能夠進一步學習和發展他們在那些通常被認為成本太高或太危險而無法定期演練的領域的行動程序。領導人有能力在實際執行前針對多種紅色力量設計使用他們的部隊，使他們有機會在不承擔任何額外風險的情況下驗證他們的機動方案。在戰略層面上，大型單位的工作人員經常使用建設性的模擬作為訓練方法[3]，領導人可以在模擬環境中進行投入，但他們不參與確定場景的結果[2]。

B. 范圍和問題陳述

在基于計算機的兵棋推演中用來表現對抗行為的方法，需要由場景設計者通過腳本直接編碼，或者使用真人玩家進行所有紅軍的決策。這兩種方法都能提供足夠的分辨率來表現對抗性行為，但每種方法都有其缺點[4]。對于低級別的場景來說，直接對特定行為進行編碼可能是可行的，但隨著場景的擴大，單位的數量和可能的行動對于腳本的控制來說變得太有挑戰性，往往會導致不現實的行為[4]。對于大型場景，使用人類玩家作為紅色力量可能會提供更真實的結果，但額外的人力資源會造成后勤方面的壓力，而且整體的生產力也受限于單個玩家的知識和能力。

解決這個問題的一個可能的方法可能在于利用人工神經網絡。在計算機游戲領域，這種方法最近已被證明是相當成功的。例如，對于實時戰略游戲《星際爭霸II》，一個人工神經網絡被開發出來，打敗了99.8%經常參加在線比賽的玩家[5]。雖然在計算機游戲領域，人工神經網絡的利用最近取得了巨大的進展，但在軍事用途的兵棋推演領域，研究才剛剛開始。在最近的研究中，Boron[6]和Sun等人[7].已經表明，人工神經網絡適合解決簡單軍事兵棋推演場景中的挑戰。基于以前的工作，特別是Boron[6]的工作，本論文旨在提高所使用的軍事場景的復雜性。雖然Boron使用了簡單的多層感知器（MLP）神經網絡，但在處理己方和敵方單位的動態起始位置以及敵人的動態行為時，這種結構被證明是不合適的。此外，所使用的場景被限制在戰場上最多五個單位[6]。在本論文中，將建立一個支持卷積神經網絡（CNN）架構的訓練模擬，包括多個單位和地形類型以克服這些限制。此外，將在一個確定的場景中應用多智能體訓練，以測試這種方法是否可以成功地用于軍事建設性模擬領域。

付費5元查看完整內容

AI與軍事 · 軍事決策 · 仿真測試 · 美國海軍研究生院 ·

2023 年 5 月 12 日

[付費5元查看完整內容]《排級編隊任務中加速最佳軍事決策的測試仿真平臺》103頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

訓練一名步兵軍官在軍事行動中選擇合適的排陣型，傳統上需要大量的訓練資源。步兵訓練將受益于在普遍可用的平臺上進一步發展高容量的訓練。2018年，創建了一個基于計算機的模擬排級編隊決策任務（PFDT），并利用認知與績效目標訓練干預模型（CAPTTIM）來確定哪些參與者達到了最佳決策以及何時發生。本研究在該工作的基礎上，在兩個流行的平臺上完善和測試PFDT。PFDT包括32個場景，每個場景隨機呈現四次，總共128次試驗。在這些場景中，有五個因素被操縱，確認了最佳、可接受和差的決策反應。基礎學院和海軍研究生院的27名學生在三種平臺中的一種完成了PFDT：平板電腦、虛擬現實（VR）或帶編隊的VR（為參與者提供在虛擬背景上描繪編隊的能力）。CAPTTIM表明，在達到最佳決策所需的試驗數量上不存在平臺效應。此外，參與者的經驗水平并不影響專家或新手在對方之前達到最佳決策。因此，PFDT是一個可行的軍事訓練模擬器，無論所使用的技術平臺或步兵訓練的數量如何。

付費5元查看完整內容

AI與軍事 · 作戰方案（COA） · 兵棋推演 · 巴西國防部 ·

2023 年 3 月 9 日

[付費5元查看完整內容]《教育型作戰方案兵棋推演設計》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

“聯合規劃過程”是一份描述巴西武裝部隊使用準則的文件。軍隊也可以將這些準則用于教育目的，在和平時期培訓參謀人員。巴西國防部打算模擬軍事力量的運用，以加快決策周期，增加行動成功的機會。更好地規劃行動，更好地評估風險。作戰方案（COA）兵棋推演模擬了每個友軍的作戰方案與可能的敵軍作戰方案。然而，理論過程缺乏描述如何進行作戰方案推演的信息。因此，理論上的知識僅限于系統化的分析。COA兵棋推演一直是主觀的，并且依賴于隱性知識。這項工作的目的是提出一種實施COA兵棋推演的方法，以及構建COA兵棋推演的概念模型，以便能夠進一步使用計算機系統來支持其進行。兵棋推演的概念啟發了這個游戲的設計。兵棋推演被定義為合成環境中沖突的建模或模擬，涉及敵對勢力，玩家根據規則、程序和信息做出決策。將COA兵棋推演改進為一個教育性兵棋推演工具，可以模擬軍事計劃，支持玩家建立有效的戰略，支持教官分析玩家的決定和裁判交戰，并建立一個技術框架來收集決策數據，以便將來應用于知識管理和人工智能。

研究方法

設計科學（DS）的認識論范式是這項研究的基礎。DS專注于建立知識的過程，并產生與全球實踐和研究社區相關的結果（Johannesson & Perjons, 2014）。DS包括對設計一個新的人工或改進現有人工制品以解決一個問題或一類問題的項目的研究（Dresch等人，2015）。

設計科學研究（DSR）是我們用來計劃、執行和監督研究的策略。DS建議當目標是開發一個人工制品時，采用DSR來操作研究。基于問題的描述，DSR指導研究設計和評估工件，對一個給定的系統進行改變，并改造情況以實現改進（Dresch等人，2015）。DRS的步驟包括確定問題、定義需求和設計、開發、演示和評估人工制品。

數據收集為人工制品的設計提供了要求。由于單一方法不足以回答研究問題，我們采用了混合方法。文件（Johannesson & Perjons, 2014）是我們的第一個數據來源。我們搜索了其他國家和軍事組織的軍事理論中包含的明確知識。我們在這項工作中研究和引用的所有文件都是不保密的。我們使用的其他方法是觀察和訪談（Johannesson & Perjons, 2014）。我們還搜索了巴西軍官的隱性知識，以了解他們如何進行COA兵棋推演，特別是在教育活動中。

接下來，我們收集并分析了數據，以設計人工制品。我們應用基礎理論（Pandit, 1996）作為定性數據分析的方法。我們設計了一個進行COA兵棋推演的方法和一個概念模型，它描述了COA兵棋推演的結構。數據分析使我們能夠確定關于COA兵棋推演的概念、類別和主張（Pandit, 1996）。建議的人工制品提出了關于跨類別命題的假說。經過幾個周期的數據收集和分析，我們達到了每個工件的目標。在每個周期中，藝術品中提出的假設都由軍事計劃和戰爭游戲的專家進行評估。

以下各小節描述了我們在這項工作中所進行的活動，其中包括審查軍事文件，直接觀察總參謀部軍事學校的兩次訓練演習中的COA戰爭演習，以及采訪參加這些演習的軍官。

圖5:作戰方案兵棋推演概念框架

付費5元查看完整內容

AI與軍事 · 兵棋推演 ·

2023 年 3 月 7 日

[付費5元查看完整內容]《戰役級模擬支持的兵棋推演》30頁slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

分析型兵棋技術挑戰

兵棋準備
- 準備兵棋推演場景和人員配置的準備時間長
- 往往只有有限的部件重復使用
兵棋執行
- 對進行大多數游戲的人工支持功能進行大量投資
- 手動移動單位
- 為玩家生成情報和狀態報告信息
- 開展裁決活動，并記錄損耗結果
兵棋推演后
- 詳細的兵棋推演分析，沒有重復的機會或操作、情況和環境的修改是一個真正的挑戰。

聯合分析系統（JAS）——全球戰役模型

JAS是一個全球性的完全集成的 "單引擎 "模擬，包含了從計劃到裁決的許多內部子模型。

它以智能體為基礎，以事件為階梯，以數據為驅動，對大多數功能都是隨機的。

它是一個完整的多領域模型，具有平衡的空中、陸地、海上、太空和C4ISR，包括C2、EW、欺騙和網絡。此外，還完全集成了后勤和運輸、人類軟因素、TBM/TBMD和WMD。

付費5元查看完整內容

AI與軍事 · 兵棋推演 · 人工智能 · 強化學習 · 美國海軍研究生院 ·

2022 年 12 月 8 日

[付費5元查看完整內容]【AI+兵棋推演】《多智能體層次結構擴展強化學習》2022最新110頁論文，美海軍研究生院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能（AI）可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習（RL）在其他人類競技游戲中的成功應用，探討了將強化學習（RL）用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為，但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習（HRL）的可行性和可接受性，以支持將人工智能融入大型軍事兵棋推演。此外，本論文還通過探索智能體導致兵棋推演失敗的方式，研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中，對訓練封建多智能體層次結構（FMH）和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能，但它為未來的HRL研究提供了啟示。最后，美國防部提出了核查、驗證和認證程序，作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然，美國（U.S.）國防部（DOD）計劃將人工智能（AI）納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家；能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此，本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題，這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗，并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演，但它們都有一個共同的目標："獲得有效和有用的知識" [2]。這種劃分很重要，因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬（數字兵棋推演）來鍛煉他們的參謀過程，并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序（TTP）。對于大型的參謀部演習，對手可能會突破TTP的界限來挑戰參謀部（例如，表現得更有侵略性，但仍然依賴相同的TTP）。

2.用于分析的兵棋推演

兵棋推演可用于分析，即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型：作為行動方案（COA）分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中，雙方都要采用已知的理論和TTP，但 "在這些戰役中，創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中，雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底，組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演，如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的，也不是對現實的完全復制，但它們確實提供了一些沒有實戰就無法獲得的東西：對戰爭中決策的洞察力。當為訓練而進行戰爭演習時，組織正在學習良好的決策是什么樣子的（包括過程和最終結果）。當為分析而進行戰爭演習時，計劃者正在評估他們在計劃期間做出的決定，以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄，呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為，兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為，最終，兵棋推演將推動美國防部的規劃、計劃、預算和執行過程，這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源，包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會，通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務（使他們脫離正常的職能）或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度，并允許多個兵棋推演同時發生，從而實現更廣泛的分析。最后，智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性，使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中，以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境（STE）設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說，他們正在探索使用人工智能的一個子領域，即強化學習（RL）來進行連續規劃，以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體，可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功，如《星際爭霸II》[12]、《古人防御》（DotA）[13]和圍棋[14]，多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略（RTS）游戲最能代表兵棋推演。與兵棋推演類似，RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明，RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法，谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師，證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為，但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展，以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是，隨著兵棋推演中單位數量和類型的增加，信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標：速度、收斂和性能，同時保持在一組約束條件下：隨著項目規模的增加，成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習（HRL）的可擴展性。換句話說，任何可行的、可接受的人工智能集成到戰爭游戲中，隨著戰爭游戲中單位數量的增加，必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外，這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的，因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑，他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施，需要防止兵棋推演的病態，從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性？什么框架可以確保智能體的設計和應用正確，以滿足兵棋推演的目的？

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演，模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡（CNN）架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法，但本研究的重點是封建多智能體層次結構（FMH）。在FMH中，一個單一的R智能體（即經理），將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍，他們的對手被稱為紅軍，任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化，但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊（OPFOR）即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥，并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證（VV&A）框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現，當FMH智能體以分布式方式進行訓練時，FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時，FMH智能體的學習能力有所提高。然而，工人的不一致行動使經理無法制定最佳策略。此外，FMH的訓練要求超過了單個RL智能體的要求，這抑制了FMH擴展到大型軍事兵棋推演的能力。最后，本論文發現，將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則，基于模型的去太原的病癥會使兵棋推演的目標失效，并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體，對美國政府有直接好處。完全自主的兵棋推演智能體，能夠在多個層次上運作，需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具，協助規劃者快速評估不同的COA。此外，探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

AI與軍事 · 人工智能 · 作戰規劃 · 北約STO ·

2022 年 11 月 15 日

[付費5元查看完整內容]《人工智能在作戰規劃中的應用》北約科技組織18頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

許多軍事人工智能的研究和開發資金是針對短期內可以實現的戰術級系統的改進。在這里，人工智能（AI）的潛在好處往往受到感官輸入質量和機器解釋能力的限制。然而，為了充分理解人工智能在戰爭中的影響，有必要設想它在未來戰場上的應用，傳感器和輸入被優化為機器解釋。我們還必須嘗試理解人工智能在質量上和數量上與我們的有什么不同。本文介紹了綜合作戰規劃過程中自動化和機器自主決策的潛力。它認為，人工智能最重要的潛力可能是在戰役和戰略層面，而不是戰術層面。然后探討了更多機器參與高級軍事決策的影響，強調了其潛力和一些風險。人工智能在這些情況下的應用發展應該被描述為一場我們輸不起的軍備競賽，但我們必須以最大的謹慎來進行。

1 引言

目前，人工智能（AI）的民用發展大大超過了其在軍事方面的應用。盡管知道網絡將是一個重要的未來領域，但國防部門還沒有習慣于數字-物理混合世界，因此，國防部門與新的社會技術的顛覆性變化相對隔絕。在軍事上運用人工智能的努力往往集中在戰術應用上。然而，人工智能在這些領域的好處受到輸入傳感器的限制，它們被用來復制人類的行為，并在需要與物理環境互動的角色中使用。在作戰和戰略層面上，軍事總部的特點是信息的流入和流出。如今，這些產品無一例外都是完全數字化的。考慮到作戰計劃的過程，可以看出，即使在目前的技術水平下，其中有很大一部分可以可行地實現自動化。這種自動化的大部分并不構成可能被理解的最純粹意義上的人工智能，即 "擁有足夠的通用智能來全面替代人類的機器智力"。然而，軟件可以在特定任務中勝過人類的事實，再加上高級軍事決策過程被細分為此類特定任務的事實，使其成為比較人類和機器決策的優點、限制和能力的有用工具。這樣做，人類的能力似乎有可能被輕易取代。因此，追求軍事決策自動化的動機肯定是存在的。本文討論了部分自動化軍事決策的潛力和實用性，并想象了為這些目的無限制地發展人工智能可能帶來的一些風險和影響。

付費5元查看完整內容

AI與軍事 · 戰術決策游戲 · 軍事決策 · 美國海軍研究生院 · 美國海軍陸戰隊 ·

2022 年 11 月 3 日

[付費5元查看完整內容]《使用排戰術決策游戲 (TDG) 加速軍事決策的計算機模擬》2022最新92頁論文，美國海軍研究生院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美海軍陸戰隊長期以來一直使用戰術決策游戲（TDG）來訓練和評估領導和決策能力。使用紙筆或干擦板的陳舊過程需要一個主題專家在場，以評估和評價每個海軍陸戰隊員的演習計劃，并對他們的演習計劃提供即時反饋。這個過程很耗時，而且不允許海軍陸戰隊員進行必要的演練和集訓，以建立他們在各種情況下的直覺決策并獲得經驗。無論任務如何，海軍陸戰隊要求領導者在戰斗中取得成功，要做好準備，即使是在第一次遇到這種情況時也要采取行動。

基于計算機的TDG被設計為允許海軍陸戰隊員在時間有限的環境下，在未知的地形和不同的敵人情況下，通過連續的重復練習來獲得排級演習的經驗。這個系統使海軍陸戰隊員能夠獲得他們需要的重復訓練，以建立他們的決策技能，并補充教官指導的訓練。使用重復測量設計，數據表明，使用基于計算機的TDG縮短了海軍陸戰隊員的決策周期，并顯示出通過快速重復選擇正確機動路徑的準確性有所提高。

研究問題

研究問題1：通過計算機模擬訓練排級決策，能在多大程度上縮短從數據收集到決策的周期？
HA1: 有效的訓練將體現在參與者在規定的時間內為每個場景選擇可接受的決定（70%的分數），μ>0.70。
HA2：參與者在整個培訓迭代過程中，完成TDG的平均時間減少，?μtime < 0。
研究問題2：基于計算機的戰術決策游戲（TDG）在多大程度上是一種可用的戰術決策培訓設備？

付費5元查看完整內容

AI與軍事 · 兵棋推演 · 無人駕駛飛行器 · 無人機編隊 · 巴西航空技術學院 ·

2022 年 9 月 6 日

[付費5元查看完整內容]《兵棋中無人駕駛飛行器戰術編隊的優化》巴西航空技術學院等2022最新論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

兵棋模擬是一種決策工具，可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近，無人駕駛飛行器（UAVs）已經成為這些模擬中的一個相關元素，因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如，容許戰術編隊中的飛機損失，有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素，無人機在超視距（BVR）作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性，如射擊距離和位置，使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊，稱為line abreast，作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊，以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序，將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里，并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。

索引詞：優化方法，計算機模擬，無人駕駛飛行器（UAV），自主智能體，決策支持系統，計算智能。

I. 引言

兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲，用于分析作戰概念，訓練和準備指揮官和下屬，探索情景，并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用，為參與者提供了對決策過程和壓力管理的洞察力[1]。

最近，無人駕駛飛行器（UAVs）作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此，它們的有效性經常在兵棋中被測試和評估。

由于具有一些性能上的優勢，如增加敏捷性、增加過載耐久性和增加隱身能力，無人機已經逐漸發展起來，并在許多空中任務中取代了有人系統[3]。然而，由于戰斗的動態性質，在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中，無人機可以被遠程控制，但由于無人機飛行員對形勢的認識有限，它將在與有人平臺的對抗中處于劣勢。然而，這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外，使用無人機可以允許一些戰術編隊和戰略，而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的，例如允許中隊的飛機被擊落，如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距（BVR）作戰中的飛機戰術編隊的文章[5]表明，空戰戰術是用遺傳算法（GA）進行優化的候選方案。該實施方案采用分層概念，從小型常規作戰單位建立大型編隊戰術，并從兩架飛機的編隊開始，然后是四架飛機，最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區（WEZ）的高殺傷概率（Pkill）區域內一段特定時間，簡化的交戰模擬器就宣布傷亡。事實證明，所提出的方法的應用是有效的，它消除了團隊中所有沒有優化編隊的飛機，并為整個優化編隊的飛機團隊提供了生存空間。

Keshi等人[6]使用了與[5]相同的分層概念，從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法（SAGA）被用來優化編隊，使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化，提出的最優解表明SAGA比基本的GA更有效。最后，為了探索一個穩健的SAGA，對不同的馬爾科夫鏈進行了比較，事實證明自調整馬爾科夫電流更適合所提出的問題。

Junior等人[7]提出使用計算機模擬作為一種解決方案，以確定BVR空戰的最佳戰術，使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模，并改編了名為COMPASS的模擬優化算法，模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明，擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈，并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。

Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法，即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先，計算戰斗機的戰斗力，這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來，包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此，通過采用前景理論和綜合模糊評估來優化空戰訓練。最后，一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱，利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。

?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器（UCAVs）進行空戰的決策方法。首先，確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后，每個航空飛行器被分配到一個目標，以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法；因此，該方法在一個數字案例上進行了測試，并證明了其有效性。

Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃（CTAPPP）問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后，訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置，發射武器裝備。合作目標分配（CTAP）問題通過增強型粒子群優化（IPSO）、蟻群算法（ACA）和遺傳算法（GA）來解決，并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃（CPPP）問題，其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子，并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。

Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組（R和B）無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化（離散化），通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈，并被解決以獲得納什均衡。

Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發，因此也影響到最終的結果。例如，如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬，新的沖突可能會發生，直到模擬結束。因此，每個在交戰中幸存的無人機將能夠選擇一個新的目標，這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的：它們直接影響飛機之間的交戰結果。

在這項研究中，我們試圖解決文獻中發現的一些局限性，如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認，旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究，RED蜂群使用了空軍經常采用的戰術編隊，稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性，我們解決了新的問題，改變了RED蜂群每架飛機的位置，目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。

我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊，考慮與敵人相關的不確定性，如戰術編隊中的位置誤差和導彈發射距離。統一行為框架（UBF）被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度（DoFs）建模。

該程序將在接下來的章節中進一步討論。

付費5元查看完整內容

AI與軍事 · 軍事兵棋推演 · 強化學習 · 作戰實體行為 · 美國海軍陸戰隊 ·

2022 年 6 月 16 日

[付費5元查看完整內容]《在兵棋推演和模擬中應用強化學習開發作戰實體行為》美國海軍陸戰隊、海軍研究生院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能（AI）的進展，特別是深度強化學習（RL），已經產生了能夠達到或超過專業人類水平的系統。這項研究探索了RL訓練人工智能agent的能力，以實現小型戰術交戰中的最佳進攻行為。agent在一個簡單的、總體級別的軍事建設性模擬中接受了訓練，其行為得到了規模和經濟力量戰術原則的驗證。結果顯示，所應用的戰斗模型和RL算法對訓練性能的影響最大。此外，特定的超參數訓練也有助于行為的質量和類型。未來的工作將尋求在更大和更復雜的戰斗場景中驗證RL的性能。

付費5元查看完整內容