亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在這項研究中,提出了一種智能兵棋推演方法,以評估軍事行動方案在作戰成功和資產生存能力方面的有效性。擬議的應用是基于經典的軍事決策和規劃(MDMP)工作流程開發的,以便于在現實世界應用中實施。本研究的貢獻有三個方面:a)開發一個智能兵棋推演方法,以加速MDMP中的行動方案(COA)分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;以及c)為未來的系統開發一個高效的、基于可視化兵棋推演的MDMP框架,這些系統需要一個小型操作團隊來監督一個自動智能體網絡。為了評估系統的能力,執行了幾個交戰場景示例,并給出了結果。此外,研究了自動智能體的兵力組成問題,并提出了具有超參數調整結構的兵力組成算法。

引言

隨著無人系統在復雜任務中的作用越來越突出,包括情報、監視和偵察行動,最近的應用傾向于轉向異構的無人系統組合之間的合作,以執行這些行動并獲得高任務成功率[1]。為了完成復雜的任務,異質智能體之間的合作帶來了對多域作戰能力的需求,其中人工智能(AI)輔助的兵棋推演策略發揮了重要作用[2]。特定的目標,如使用人工智能來發現戰術,這可能會通過現有的軍事能力提高作戰效益,或可能為新的軍事能力提出有效的使用概念。人工智能決策最近集中在開放型游戲,即所有玩家都能看到所有的游戲狀態,或封閉游戲,即存在有限的兵棋靈活性。然而,在戰術和戰略層面上對決策策略進行建模需要有新的算法,這些算法可以在規則變化、不確定性、個人偏見和隨機性的動態環境中運行[3]。

戰術模擬是MDMP的一個重要組成部分,MDMP是軍隊制定作戰計劃、預測敵方部隊的反擊行動和評估擬議作戰計劃有效性的理論方法,因為它提供了一個安全和替代性的與武裝沖突有關的一些情況和決策動態的再現。雖然 "兵棋推演"一詞沒有統一的定義,但普遍接受的定義可以追溯到19世紀初。它被認為是通過任何手段,使用特定的規則、數據、方法和程序來模擬軍事行動[4]。因此,在進行MDMP的定義和重要性之前,必須對兵棋推演做出明確的說明。MDMP始于從上級總部收到的任務。然后,通過利用其他來源的情報進行任務分析。在下一步,處理指揮官的意圖、行動要求和可用資源,以制定行動方案(COA),包括任務組織計劃。在制定行動方案后,通過兵棋推演進行行動方案分析,重點是行動、反應、反擊和裁決過程,以重新確定行動方案和潛在決策點。

圖1 軍事決策過程總結。

在MDMP中,COA分析通常被稱為兵棋推演,它將COA的發展與COA的比較和批準聯系起來[5]。在比較步驟中,每一個COA都根據規定的標準進行評估,如簡單性、機動性、熱能、民用控制和規模性,這些標準在一個決策矩陣中被賦予了評估的權重。此外,從比較步驟中選出的COA應具有最小的風險、最大的安全性和靈活性。然后,根據COA的比較結果完成COA的審批過程,在最后一步,指令生成并與相關單元共享[6]。從總體上看,圖1給出了MDMP的整體流程。

在這項研究中,提出了開發情報、監視和偵察(ISR)和壓制敵人防空(SEAD)作戰計劃,這些計劃由上層人工智能和輔助的、分布式的決策策略支持,以評估生成的COA的成功概率、資產的生存能力和作戰效率。這個過程是在經典的MDMP方案的基礎上發展起來的,以便于在現實世界的應用中實施,它能夠在行動前或行動中提供快速評估和客觀比較COA。這個過程從接收來自MDMP第二步的任務分析結果開始。在COA開發步驟中,最初的任務分配過程是利用CBBA算法進行的,該算法能夠解決具有分布式的通信結構、異質集合和在線重新規劃要求的分配問題。在創建了幾個行動計劃(即COA)后,它們被輸入兵棋推演過程以評估其有效性。之后,這些行動方案在成功概率、生存能力和成本方面被相互比較,最有效的方案被送去審批步驟。圖2給出了重點框架的總體概況。

圖2 COA生成框架。

本研究的貢獻有三個方面:a)開發一種智能兵棋推演方法,以加速MDMP中的行動方案分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;c)為未來的系統開發一種有效的、可視化的和強大的基于兵棋推演的MDMP框架,這些系統需要一個小型的操作團隊來監督自動智能體網絡。本研究的其余部分結構如下:在第2節,將對文獻中的相關研究進行調查。第3節描述了問題陳述,第4節給出了針對該問題的解決方案所需的背景。在第5節中,將給出在創建這項工作時遵循的方法,第6節展示了模擬研究的結果。最后,第7節是文章結尾。

相關工作

兵棋推演模擬被用作不同領域的決策工具,從商業到軍事[8],從沖突場景到監視或危機演習,從軍事角度看搜索和救援任務[9] 。在Filho等人[10]中,使用兵棋推演的方法優化了無人機在超視距戰斗中的位置。考慮到兵棋推演中敵人的不確定性,研究了友軍蜂群團隊戰術編隊的有效性。Chen等人[11]提出了一個基于決策樹的城市暴雨情況下的緊急救援兵棋推演模型。在該模型中,雖然敵人的任務僅限于道路積水,但友軍團隊由試圖防止這種積水的應急車輛組成。Su等人提出了基于地理信息系統(GIS)的兵棋推演援助平臺,以防止臺灣地區的蓄水[12]。基于兵棋推演的策略的另一種使用方法是危機演習,Song等人指出,兵棋推演是一種有效的危機演習方式,成本低,方式方便[13]。

一個有效的兵棋推演策略取決于對下屬指揮官完成任務所需資產的準確和最佳分配/配置[7]。許多方法已經被開發出來,使智能體能夠根據已知行動的任務列表在他們之間分配任務。這些方法的主要思想是不僅要提高任務的有效性,而且要降低行動成本和風險。集中式任務分配,需要在智能體和中央服務器之間建立通信聯系,為整個團隊生成一個分配計劃。由于集中式系統能夠減少地面處理要求的負擔,它們能夠有效地使代理人更小、更便宜地建造。此外,據調查,在集中式任務分配系統中使用啟發式方法,如遺傳算法[14-16]和粒子群優化方法[17-19],在計算時間方面有更好的表現[20]。另一方面,由于集中式任務分配的結構,智能體和行動基地之間應保持持久的通信,以提供合作,這需要發送/接收操作更新。這種對通信系統的要求直接影響到智能體組的能力和穩健性。

與集中式應用相反,可以通過利用分布式方法來提高兵力組合的性能和穩健性,在這種方法中,需要智能體之間的通信來獲得對特定任務集的共識。這種類型的通信拓撲結構在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下增加了兵力組合的穩健性[21]。在這種情況下,文獻中已經研究了消除對中央基地的需要的分布式規劃方法。這些方法中的大多數都假設有完美的通信,并有一定的帶寬,以確保智能體在規劃前有相同的態勢感知。然而,這在現實世界的場景中很容易被違反,包括搜索和救援任務,在這些場景中,智能體的通信范圍有限或通信渠道的帶寬有限[22]。在態勢感知不一致的情況下,分散的任務分配算法可以通過利用基于共識的算法,如基于共識的捆綁算法(CBBA)來增強,以便收斂在一個一致的解決方案上[23-25]。不僅有可以集成到分布式框架中的共識算法,文獻中也有基于部分可觀察馬爾可夫決策過程(POMDP)的方法[26]。盡管共識算法保證了信息的收斂,即達成共識,但這可能需要大量的時間,并且經常需要傳輸大量的數據,這可能導致在低帶寬環境下的高延遲,并增加了為無人系統找到最佳任務分配解決方案的處理時間[27]。也有一些關于中間層次結構的報告,即混合結構,介于集中式和分布式結構之間,用于從兩種方法的優點中獲益[28]。

盡管有許多嘗試試圖解決無人駕駛異構飛行器的任務分配問題,而且前面提到的所有研究都考察了底層自動化(以規劃和控制算法的形式)分配異構無人駕駛飛行器(UxVs)網絡的能力,但在產生COA的MDMP中整合增強/高級人工智能生成的指導和輔助決策支持是至關重要的[29]。一些初步的嘗試,如國防高級研究計劃局(DARPA)的 "拒止環境中的協作行動"(CODE)計劃和 "分布式戰斗空間管理"(DBM)的廣泛機構公告(BAA),被提出來改善人類與自動化的協作和決策,通過執行一系列自動化和自主行動來協助戰斗管理者和飛行員[30]。然而,這種具有不同任務分配方法的框架可能是脆弱的,無法對突發事件做出反應。這樣的系統可以通過人類操作者帶來他們基于知識的推理和經驗來緩解[31]。

因此,很明顯,任務規劃者和平臺內的操作者框架都應該被仔細構建。模擬和分析這種框架的最重要的平臺之一是兵棋推演,它被用來執行關于未來部隊資產、軍事能力的決策,并為許多行動做準備。兵棋推演能夠以許多不同的方式執行,從研討會的兵棋推演,到手工棋盤游戲,再到復雜的計算機輔助兵棋推演[32],其中由計算機判斷交戰的后果[33]。

關于該主題的初步研究以來,智能兵棋推演對于促進軍事決策是否有價值一直受到質疑[34]。這些系統在決策過程中的作用也在四個主要學科下進行了討論,即傳感、態勢感知、計劃生成和學習[35, 36]。在這些討論之后,隨著人工智能學科的進步和技術的發展,據報道,將人工智能應用于軍隊的MDMP具有很大的潛力,可以支持指揮中心對競爭激烈和更加復雜的戰場進行規劃,因此Schwartz等人在輔助性人工智能架構中用遺傳算法(GA)來解決這個問題[37]。Boron等人將基于人工智能的兵棋推演整合到決策過程中,他們在不同的戰斗場景中使用強化學習(RL)來評估其算法的性能[38]。Xin等人考慮了以往研究中通常被忽略的不確定性,因此他們提出了一個名為混合智能多分支兵棋推演的解決方案,通過融合基于RL的人工智能方法和人類智能來考慮不確定性[39]。最近,Tarraf等人提出了一個兵棋推演框架,其中規則和交戰統計用于商業桌面兵棋推演,以實現遠程操作和完全自主的戰斗智能體和具有AI/ML支持的態勢感知的智能體[40]。Goecks等人討論了過去和現在關于游戲和模擬器以及人工智能算法如何被調整以模擬軍事任務的某些方面的努力,以及它們如何影響未來的戰場。此外,他們研究了虛擬現實(VR)和視覺增強(VA)系統的進展如何為游戲平臺的人機界面及其軍事提供新的前沿[41]。

基于共識的捆綁算法(CBBA)

在MDMP的步驟2中確定了問題、任務要求、假設和評估標準后,重要的是將藍隊的軍事單位分配給合適的紅隊任務。這是通過利用基于共識的捆綁算法(CBBA)[27]來完成的,該算法支持分布式的、異構的任務和動態環境。在本節中,將給出和描述CBBA算法的細節。

CBBA是一個去中心化的基于市場的協議,它為異質智能體網絡上的多智能體多任務分配問題提供了可證明的良好近似解決方案,并通過使用去中心化的通信方法來解決協調異質自主車輛的任務分配問題[27]。這種類型的通信拓撲結構消除了對中央基地的需求,并且在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下,它增加了任務組的穩健性。CBBA是由兩個階段交替進行的迭代組成的:第一階段是捆綁構建階段,其中每個車輛貪婪地生成一個有序的工作捆綁,第二階段是共識階段,其中相鄰的智能體之間通過本地通信找到并解決沖突的任務。圖3展示了CBBA的內部循環。

方法

A 仿真環境

為了創建可支持、可擴展和易修改的模塊化架構,我們決定將智能任務規劃器分成四個子組。引擎模塊包括主要的引擎腳本,它包含了關鍵的方法,如任務分配、尋路、戰略、交戰和其他一些重要的方法,以便在模擬過程中前進。引擎腳本中的任務分配方法使用基于共識的捆綁算法(CBBA),該算法也在引擎模塊中。環境模塊包括腳本中的世界對象,它給出了仿真環境的邊界,也是這個環境的網格表示,并附有任務、地形、敵人存在的費用。模型包含關于模擬過程中使用的代理和任務的必要信息。為了創建異質智能體,UAV、UGV、USV和近距離防空(CAD)智能體對象被單獨創建,團隊對象被創建用于設置敵方團隊并跟蹤團隊所做的動作。視圖模塊負責以視覺角度表示結果。圖4給出了智能任務規劃器的模塊結構概要。

B 生成殺傷力熱圖

在模擬環境中,殺傷力熱圖在空中、地面和海上層生成,以模擬特定區域內敵對力量的火力。這些熱圖是基于內核密度估計(KDE)算法生成的,該算法用于估計地圖上某一點相對于對面部隊位置的危險等級(即對面部隊的有效等級)。在這項研究中,假定軍事單位根據范圍的致命性分布被建模為夸特函數或埃帕尼科夫函數,如公式5所示。

其中d是軍事單位與地圖上指定點(即相關六邊形的中心)之間的距離。對于在d=0時的殺傷力計算,分布的最大值被縮放為1。 圖5中給出了空中、地面和海上層的熱圖生成結果示例。這里給出了a)地面層、b)海軍層和c)空中層的紅隊單位的殺傷力熱圖。在地面層,UAV、UGV、USV和CAD單位都是對藍軍的有效威脅,在給定的自由區域。在海軍層,USV是主要威脅,但UAV、UGV和CAD也是有效的。在空中層,乍一看,似乎對藍隊沒有威脅,因為紅隊的UAV、UGV和USV對藍隊的空軍沒有效果。然而,如果CAD資產存在于該地區,它將是對藍隊的關鍵威脅,結果將是致命的。

圖 5 紅隊在 a) 地面、b) 海軍和 c) 空中層的殺傷力熱圖。

圖 6 示例案例:地面層紅隊的殺傷力熱圖

圖6給出了模擬環境的另一個例子。為了便于可視化,沒有在環境中插入CAD單元。這里給出了地面層的無人機、UGV和USV的殺傷力熱圖。在這種情況下,與地面層的USV相比,UAV和UGV的殺傷力相對較高,因為USV的射程和效率有限。這可以通過利用表1中給出的軍事單位的效率表來直接模擬。該表提供了每種類型的資產對不同層的破壞效率的信息。

表1每種資產的損害效果表。

C 戰斗模型

戰斗模型對戰斗實體、它們的行為、活動和相互關系進行抽象和簡化,以回答與國防有關的研究問題。沒有一個通用的模型可以回答所有的問題,即使可以構建這樣的模型,它也會變得比現實更復雜,因為它不僅包括真實的系統,還包括想象中的系統。戰斗模型可以是隨機的,也可以是決定性的。直觀地說,一個隨機的模型假設關于某種情況的不確定或概率性的輸入,并對結果作出不確定的預測。一個確定性的模型準確地指出將會發生什么,就像沒有不確定性一樣。更正式地說,一個隨機模型需要用概率理論的術語來描述,而一個確定性的模型則不需要。

其中F, HP, L, PH, PD , PT, PW, PL分別是總火力、火力健康度、致命性、命中概率、探測概率、瞄準系統可靠性、武器可靠性和層效率。在這里,建立軍事單位的損傷矩陣也很重要,它決定了它們在交戰中對敵軍的有效性。在模擬環境中,損害矩陣被假定為表1中的內容。通過使用這些定義,每個資產的生存能力被建模為公式7和8中給出的。

其中Fk、Mk是相關團隊在時間k的火力和機動性。Fok是敵對部隊在時間k的火力。

D 評估指標和作戰評估

有效的評估包括定量(基于觀察)和定性(基于意見)指標。人的判斷是評估的組成部分。任何評估的一個關鍵方面是它對人類判斷的依賴程度,以及對直接觀察和數學嚴謹性的依賴程度。嚴密性解決了不可避免的偏見,而人的判斷將嚴密性和過程集中在往往是成功關鍵的無形因素上。口頭定義是直截了當的陳述,但為了以智能方式訓練整個系統,將這些句子表示為數學指標是關鍵。從口頭到數學指標定義的過渡是一個開放式的程序,它可以通過手動選擇的方式來捕捉最佳決策[42]。

為了評估紅隊和藍隊的機動性和火力能力,制定了幾個戰斗力評估指標,如公式9和10所給出。

作戰兵力組成

兵力的組成與CBBA的評分功能密切相關,具體如下。

這個函數給出了一個智能體在時間tj到達任務時從任務j中得到的分數。分數由兩部分組成,第一部分是任務的名義獎勵,Rj(aj),它是aj的函數,即分配給任務j的智能體指數,第二部分是折扣函數,它是任務j的到達時間的函數,tj。λ是一個折扣系數,用于解釋目標值隨時間的減少。這個系數包含在目標函數中,以更好地代表現實世界中的問題,即訪問目標的價值與訪問的時間成比例地減少[43]。

由于折扣系數改變了任務到達時間的影響,它需要根據世界的大小進行調整。因此,我們提出了以下結構,從圖7中可以看出,以克服選擇最佳折扣系數和兵力配置的問題。

圖7 基于λ搜索算法的兵力編碼器結構

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

“聯合規劃過程”是一份描述巴西武裝部隊使用準則的文件。軍隊也可以將這些準則用于教育目的,在和平時期培訓參謀人員。巴西國防部打算模擬軍事力量的運用,以加快決策周期,增加行動成功的機會。更好地規劃行動,更好地評估風險。作戰方案(COA)兵棋推演模擬了每個友軍的作戰方案與可能的敵軍作戰方案。然而,理論過程缺乏描述如何進行作戰方案推演的信息。因此,理論上的知識僅限于系統化的分析。COA兵棋推演一直是主觀的,并且依賴于隱性知識。這項工作的目的是提出一種實施COA兵棋推演的方法,以及構建COA兵棋推演的概念模型,以便能夠進一步使用計算機系統來支持其進行。兵棋推演的概念啟發了這個游戲的設計。兵棋推演被定義為合成環境中沖突的建模或模擬,涉及敵對勢力,玩家根據規則、程序和信息做出決策。將COA兵棋推演改進為一個教育性兵棋推演工具,可以模擬軍事計劃,支持玩家建立有效的戰略,支持教官分析玩家的決定和裁判交戰,并建立一個技術框架來收集決策數據,以便將來應用于知識管理和人工智能。

研究方法

設計科學(DS)的認識論范式是這項研究的基礎。DS專注于建立知識的過程,并產生與全球實踐和研究社區相關的結果(Johannesson & Perjons, 2014)。DS包括對設計一個新的人工或改進現有人工制品以解決一個問題或一類問題的項目的研究(Dresch等人,2015)。

設計科學研究(DSR)是我們用來計劃、執行和監督研究的策略。DS建議當目標是開發一個人工制品時,采用DSR來操作研究。基于問題的描述,DSR指導研究設計和評估工件,對一個給定的系統進行改變,并改造情況以實現改進(Dresch等人,2015)。DRS的步驟包括確定問題、定義需求和設計、開發、演示和評估人工制品。

數據收集為人工制品的設計提供了要求。由于單一方法不足以回答研究問題,我們采用了混合方法。文件(Johannesson & Perjons, 2014)是我們的第一個數據來源。我們搜索了其他國家和軍事組織的軍事理論中包含的明確知識。我們在這項工作中研究和引用的所有文件都是不保密的。我們使用的其他方法是觀察和訪談(Johannesson & Perjons, 2014)。我們還搜索了巴西軍官的隱性知識,以了解他們如何進行COA兵棋推演,特別是在教育活動中。

接下來,我們收集并分析了數據,以設計人工制品。我們應用基礎理論(Pandit, 1996)作為定性數據分析的方法。我們設計了一個進行COA兵棋推演的方法和一個概念模型,它描述了COA兵棋推演的結構。數據分析使我們能夠確定關于COA兵棋推演的概念、類別和主張(Pandit, 1996)。建議的人工制品提出了關于跨類別命題的假說。經過幾個周期的數據收集和分析,我們達到了每個工件的目標。在每個周期中,藝術品中提出的假設都由軍事計劃和戰爭游戲的專家進行評估。

以下各小節描述了我們在這項工作中所進行的活動,其中包括審查軍事文件,直接觀察總參謀部軍事學校的兩次訓練演習中的COA戰爭演習,以及采訪參加這些演習的軍官。

圖5:作戰方案兵棋推演概念框架

付費5元查看完整內容

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。

2.用于分析的兵棋推演

兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

  • 本研究由美國陸軍研究實驗室贊助,根據合作協議號W911NF-21-2-0227完成。

?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。

關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化

1 引言

在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。

方框1. 軍事決策過程(MDMP)
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。

盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。

MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。

目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。

提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。

除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。

以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。

2 未來軍事決策過程所需的進步

軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。

除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。

圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。

2.1 人工智能導向的決策指導

需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。

圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。

人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。

使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。

多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。

開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。

圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。

這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。

2.2 高計算能力下的決策過程

在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。

實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。

在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。

使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。

2.3 決策空間的真實呈現

用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。

由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。

BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。

例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。

3 人-人工智能團隊決策的交互技術展望

人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。

我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。

結論

信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。

付費5元查看完整內容

摘要

實時戰略游戲已經成為開發和分析人工智能(AI)和基于深度機器學習的競爭、攻擊者與防御者場景的算法的一個有吸引力的環境。基于計算機的實時戰略游戲和用于軍事訓練的戰爭游戲的特征之間的相似性也提供了一種手段,可以將基于人工智能的實時戰略游戲的結果和教訓過渡到幫助和告知作戰人員的決策能力。我們的論文研究了基于人工智能的實時戰略游戲和軍事決策中的戰略規劃之間的這種交集,這個領域被稱為對抗性人工智能。我們描述了在實時戰略游戲中開發有效的對抗性人工智能的問題和挑戰,我們最近組織了一次對抗性人工智能競賽,使用的是海洋環境中的模擬版奪旗游戲。我們討論了比賽的條目、結果和從競爭者的反饋中獲得的教訓,并為基于人工智能的、復雜的、對立的實時戰略游戲規定了未來的方向和公開的挑戰。

引言

近年來,人工智能(AI)已經成為用于軍事和民用領域的自動化系統背后的主要使能技術。自動化系統必須不斷與環境中的其他實體互動,包括人類、智能設備、計算機和其他人工智能。傳統上,基于人工智能的系統在設計時假定與它們互動的其他實體是良性的。換句話說,互動的實體不會故意做出對抗性的行為來打敗或顛覆人工智能。然而,在現實世界中,隨著基于人工智能的系統變得更加普遍,敵對行為者不斷想出新的方法來迷惑基于人工智能的系統,使其失敗并以不正確、不安全甚至危險的方式運行。我們的論文描述了正在進行的應對這些挑戰的努力,作為 "五眼"(FVEY)技術合作計劃(TTCP)人工智能戰略挑戰(AISC)的一部分,在一個被稱為對立人工智能(OAI)的技術領域。

OAI的目標是更好地理解來自不同利益相關者的基于人工智能的系統在以噪聲和低質量數據為特征的環境中相互作用時出現的問題,這些利益相關者的心態和目標是不一致的,可能是相反的。OAI支柱的一個主要方向是將OAI問題建模為一個防御者與攻擊者的游戲,并使用強化學習技術開發和分析不同的游戲策略。為了實現這一目標,我們正在使用一個名為Aquaticus奪旗(CTF)的多人游戲。游戲編程界面是用Python和OpenAI Gym編寫的,以便與強化學習算法輕松靈活地整合,通過分析可能的攻擊和防御策略空間,智能地學習游戲和贏得比賽。在本文中,我們描述了與開發有效的基于人工智能的技術有關的問題和挑戰,這些技術可以使玩家在OAI場景中獲得決定性的優勢,以及我們在組織首屆OAI Aquaticus CTF比賽中的經驗。最后,我們討論了從比賽中獲得的一些經驗,并確定了未來的方向,這些方向將使人工智能研究普遍化,并使其更適于過渡到戰場上的對立場景中的有效決策。

圖1. MOOS-IvP模擬器內的Aquaticus奪旗游戲截圖(左),以及MOOS-IvP模擬器界面疊加在真實海洋環境中的Aquaticus CTF游戲;每隊有4名玩家(右)
付費5元查看完整內容

摘要

現代多領域沖突日益復雜,使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解,以更快的速度和更低的成本比物理機動更易實現。其中,通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這將允許采用數據農場方法,從而創建和分析大量已玩游戲的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。

付費5元查看完整內容

摘要

現代多域沖突日益復雜,使得對戰術和戰略的理解以及對適當行動方案的確定具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分,建模和仿真以比物理操作所能達到的更高速度和更低成本提供了新的洞察力。其中,通過計算機博弈進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,就預編程的條件計算機動作而言。如果博弈的一方可以用人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這便能夠使用數據農場方法創造并分析一個包含大量博弈的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了強大的能力。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。

本文工作

在這項工作中,我們研究了人工智能系統,特別是基于神經網絡的蒙特卡羅樹搜索算法,以支持地面防空 (GBAD) 領域的規劃、培訓和決策。我們將人工智能應用于商業 (COTS) 兵棋推演“Command: Modern Operations(CMO)”,以探索復雜的決策空間,并生成新紅軍行動方案。這將挑戰藍軍作戰人員的預案,并促進新技術、戰術和概念的發展

方法

上述應用程序涉及兩個主要軟件組件。首先,需要有要模擬場景的規則和物理約束的模型(所謂的模擬器),其次,在模型所代表的沖突中控制一個或兩個參與者的 AI 算法。本節介紹了這兩個組件及其集成。在當前場景中,博弈的一方由 AI 智能體進行,而另一方則由游戲引擎本身通過預先編寫好的條件動作進行控制。具體來說,AI 控制攻擊的紅色戰斗機,而游戲引擎控制藍色防空炮組。

圖2-1: Command: Modern Operations兵棋推演平臺的用戶界面

圖2-2:Command: Modern Operations兵棋推演平臺回合制博弈模式

圖 4-1:經過訓練的紅色智能體在藍色防空系統范圍內的示例軌跡

付費5元查看完整內容

摘要

當代和新出現的安全威脅以及從最近的軍事行動中吸取的教訓已經證明,為了在傳統的物理領域(陸地、空中、海上、太空)實現作戰目標,確保在非物理領域的主導地位至關重要,即網絡空間、電磁環境(EME)和信息環境。因此,除了物理作戰領域之外,在非物理領域取得優勢的能力對于實現戰役的軍事和非軍事目標具有決定性意義。

作戰人員將面臨消除沖突,協作,同步和整合行動的挑戰,以實現并發揮協同效應以應對多種威脅,其中可能還包括來自每個作戰領域對手的武裝沖突閾值以下的行動,包括非物質的。

本文探討了作戰環境聯合情報準備 (JIPOE) 作為支持聯合作戰規劃、執行和評估的主要工具的作用和意義,從而有助于多域作戰 (MDO) 的同步和協調。在這方面,基于政治、軍事、經濟、信息、基礎設施-物理、時間(PMESII-PT)方法,不可能將對當代作戰環境(OE)的分析局限于物理領域及其與非物理領域的關系。相反,作者們相信,確定一種合適的方法來關注在非物理領域單獨或聯合進行的活動影響,它們在PMESII-PT所有領域的相互融合和實際操作領域的相關性,將大大有助于友軍識別和評估對手的重心(COG)、關鍵弱點、意圖和行動路線(COAs)的能力,包括各自的指標。JIPOE將為聯合部隊指揮官(JFC)提供OE的整體視圖,將與戰術層面密切合作、共享和開發,通過結合不同領域的能力,應該能夠壓倒對手的部隊。這種集中控制和分散執行的方法將有助于在作戰和戰術層面之間產生協同效應。

引言

未來的軍事行動將以物理和非物理層面的融合為特征,眾多不同的行為者將在其中運作。任何部隊都需要適應極其復雜的作戰環境和大量的作戰變量,需要適應性地使用一系列武器系統來產生致命和非致命的效果。因此,除了物理作戰領域(即陸地、空中、海上和太空),在非物理領域(網絡空間、EME、信息環境)取得優勢的能力將對實現戰役的軍事和非軍事目標具有決定性意義[1, p.280]。

OE是影響能力運用和影響指揮官決策的條件、環境和影響因素的綜合體[2, p.3]。了解OE的因素和條件不僅是所有計劃活動,特別是行動設計的關鍵前提,也是友軍保護和許多其他相關任務的關鍵前提[3, p.41]。

JIPOE代表了一種系統的方法,用于分析有關OE和對手的信息。它可以應用于全部的軍事行動。指揮官和參謀部在危機背景、根本原因和具體動態方面,對戰區形成共同的理解和整體的看法。它使指揮官能夠直觀地看到問題的程度,以及他們如何塑造和改變OE,使之成為他們的優勢,這將為他們的決策提供信息[2, p.3-5]。

JIPOE產品極大地促進了聯合(即作戰)層面的軍事行動的規劃和執行。現代軍隊,特別是北大西洋公約組織(NATO)內的軍隊,幾十年來在討論跨領域(陸、海、空)的協調行動時一直使用聯合這一術語。如今,由于全球安全環境的巨大變化以及俄羅斯和中國日益增長的野心,為了挑戰潛在的同行對手,需要采取多領域的方法。在傳統的戰爭門檻下,盟國及其合作伙伴已經受到了跨越物理和非物理領域的持續攻擊[4, p.2]。MDO一詞不同于聯合行動,因為它旨在關注跨越多個領域的行動,而不考慮服務的歸屬,不一定是由多個部門進行的行動[5,p.49]。

圖1:支持聯合行動的當前JIPOE流程的可視化。

圖2:提出支持MDO的JIPOE過程方案。

付費5元查看完整內容

【標 題】

Wargaming in Professional Military Education: Challenges and Solutions

職業軍事教育中的兵棋推演:挑戰與解決方案

【作 者】

美國海軍陸戰隊埃里克·沃爾特斯(Eric M. Walters)上校(退役)

【摘 要】

鑒于強調在專業軍事教育中使用兵棋推演,學校、作戰部隊和支持機構的教官——尤其是那些本身沒有經驗的兵棋推演者——如何去做呢?本文解釋了在經驗豐富專家的幫助下,為選定、修改或內部設計的嚴格兵棋式推演制定理想的學習成果的必要性。總結了最近的相關學術成果,它提供了促進協作對話的基本術語和概念,并就這種動態和沉浸式教學方法的常見但可避免的陷阱提供了建議。

【正 文】

對于那些認為兵棋推演不僅僅是一種娛樂消遣的人來說,商業兵棋推演曾經是——而且可以說仍然是——一種小眾愛好。在 20 世紀和 21 世紀初的歷史中,只有相對較小比例的軍人和學者經常進行所謂的嚴格式兵棋推演。過去,這一想法受到制度性的抵制,在職業軍事教育(PME)中使用一些人認為是兒童游戲的東西;雖然最近這種恥辱感有所減輕,但對于外行來說,兵棋推演的學習障礙仍然很高。兵棋推演可能很難學習,甚至更難戰勝有能力的對手。然而,我們已經到了 2021 年,軍事兵棋推演似乎正在 PME 學校、作戰部隊甚至支持機構中復活。海軍陸戰隊司令大衛 H. 伯杰將軍在他的指揮官規劃指南中,強調了在 PME 中練習軍事決策的必要性,這是教育兵棋推演的主要目的。但一個事實仍然存在。對于那些有興趣使用和設計兵棋推演來教授軍事判斷力的人來說,這種教學方法似乎很難有效實施。學術界的成功案例涉及作戰部隊中已經是兵棋推演者的教授、教官和海軍陸戰隊領導人。不是兵棋推演者但教軍事決策的人如何弄清楚要使用什么兵棋推演?如何使用它?各種可用游戲的優點和局限性是什么?整合兵棋推演和課程有哪些挑戰,如何克服這些挑戰?本文旨在幫助那些不熟悉兵棋推演的人定位,并就在教授決策中的軍事判斷時使用它們的經過驗證的最佳實踐提供建議。

提 綱

1 教育者如何使用游戲來教學生?
1.1 了解戰術、作戰和戰略中力量、空間和時間之間的關系
?1.2 在兵棋推演中模擬現實“決策環境”以解決決策困境
?1.3 在兵棋推演環境中體驗摩擦、不確定性、流動性、無序和復雜性的交互動力學
1.4 鍛煉創造性和批判性思維:準備、參與和分析兵棋推演活動

2 哪種類型的兵棋推演最適合學習目標?
?2.1 角色扮演游戲 (RPG)
? ?2.2 研討會矩陣游戲
2.3 系統游戲
?2.4 紙牌游戲

3 哪種情況最適合使用——歷史情景還是假設情景?

4 兵棋推演教學——挑戰與解決方案
?4.1 克服設計偏見
?4.2 時間和復雜性的挑戰
?4.3 對教師要求的考慮
?4.4 兵棋推演支持單位教育和凝聚力

付費5元查看完整內容
北京阿比特科技有限公司