本文介紹了在戰場數字孿生框架內使用貝葉斯優化(BO)、遺傳算法(GA)和強化學習(RL)等先進技術優化軍事行動的綜合方法。研究重點關注三個關鍵領域:防御作戰中的部隊部署、火力支援規劃和下屬單位的任務規劃。在部隊部署方面,BO 用于根據戰場指標優化營的部署,其中湯普森采樣獲取函數和周期核取得了優異的結果。在火力支援規劃中,采用了 GA 來最小化威脅水平和射擊時間,解決了資源有限條件下的資源受限項目調度問題(RCPSP)。最后,為任務規劃開發了一個 RL 模型,該模型結合了多智能體強化學習 (MARL)、圖注意網絡 (GAT) 和層次強化學習 (HRL)。通過模擬戰場場景,RL 模型展示了其生成戰術演習的有效性。這種方法使軍事決策者能夠在復雜環境中提高行動的適應性和效率。研究結果強調了這些優化技術在支持軍事指揮和控制系統實現戰術優勢方面的潛力。
戰場數字孿生是一個數字復制品,代表了真實戰場環境的組成部分和行為特征。它可以通過接收來自實際戰場的實時或接近實時的戰場、敵方和友軍單位信息,并將其動態反映到數字孿生中,從而對數字孿生模型進行評估和調整。換句話說,模型可以根據真實世界的數據不斷更新,以實現更具適應性的分析。這一概念與深綠的自適應執行相一致,后者也依賴于動態更新的信息。通過這種方式,可以向真實戰場系統提供改進的決策反饋,幫助用戶根據數字孿生模型做出更好的決策,而數字孿生模型是根據實際作戰數據更新的。
本節提出了 “基于戰場數字孿生的作戰行動選擇生成與分析 ”概念,通過各種技術方法,利用戰場數字孿生生成作戰行動選擇。然后對這些選項進行評估、效果比較,并推薦最合適的 COA 選項。基于戰場數字孿生的作戰行動選擇生成和分析的基本概念是,利用戰場數字孿生的預測模擬生成作戰行動選擇,同時考慮若干戰術因素(METT+TC:任務、敵人、地形和天氣、可用部隊和支持、可用時間和民用因素)。然后,可在數字孿生環境中對生成的作戰行動方案進行快速評估。圖 2 展示了這一流程的概念圖。生成和分析 COA 的四個關鍵輸入--威脅分析、相對戰斗力分析結果、戰場信息以及指揮官和參謀部的指導--假定來自其他分析軟件模塊和用戶輸入,從而完成智能決策支持系統。有關鏈接分析軟件模塊的更多信息,請參閱 Shim 等人(2023,2024)。
圖 2:基于戰場數字孿生系統的 COA 生成和分析概念。
可以按照圖 1 中概述的戰術規劃流程生成并詳細說明 COA 選項。然而,如前所述,規劃過程中的許多任務都需要人工干預,而人工智能技術的應用仍然有限。因此,我們將重點放在 COA 生成階段,在研究適用技術的同時,找出可以實現自動化和智能化的方面。本研究介紹了在 COA 生成過程中可實現自動化和智能化的三個概念:確定友軍部隊部署、規劃間接火力支援和規劃部隊戰術任務。友軍部隊部署是指部隊到達戰場后如何安排和使用,而部隊部署則是指如何將部隊轉移到指定的大致位置。我們將貝葉斯優化方法應用于友軍部署優化問題,作為 COA 方案生成的一部分。隨著人工智能技術的快速發展,許多研究都探索了基于最先進機器學習算法的全局優化方法。其中,使用高斯過程的貝葉斯優化法作為一種針對實驗成本較高的黑盒函數的全局優化方法受到了廣泛關注(Brochu,2010 年)。對于炮兵作戰,我們將火力支援調度問題歸結為一個項目調度問題,該問題力求在遵守資源限制的同時,最大限度地減少敵方總威脅和發射時間。將項目調度與資源管理相結合的任務被稱為資源約束項目調度問題(RCPSP)。最后,我們利用強化學習(RL)技術為下屬單位規劃戰術任務,以找到最優行動策略。強化學習已經證明,它是在動態和不確定環境中解決復雜決策問題的有效框架。特別是,我們利用多智能體強化學習(MARL)、分層強化學習(HRL)和圖注意網絡(GAT)的原理,為多個單位有效地學習任務及其相應參數,同時從每個智能體的角度考慮其重要性。
在使用所提出的方法生成一系列作戰行動(COA)選項后,將在戰場數字孿生系統中對這些選項進行模擬評估。然后對模擬結果進行評估,以推薦最合適的 COA 選項。在下一章中,將詳細解釋用于實現所建議的 COA 生成概念的技術方法,并提供全面的實驗評估結果,以突出所建議方法的有效性。
圖 8:強化學習的擬議架構。
本文探討了機器學習在自主無人戰斗飛行器(AUCAV)控制中的應用。特別是,本研究將深度強化學習方法應用于防御性空戰場景,在該場景中,AUCAV 機群保護軍事高價值資產 (HVA),該資產要么是靜止的(如在空軍基地防御場景中),要么是快速移動的(如在涉及護送貨運飛機或指揮控制飛機的場景中)。通過采用馬爾可夫決策過程、近似動態規劃算法和用于價值函數近似的深度神經網絡,一系列空戰管理場景、原始模擬環境和一系列設計的計算實驗為高質量決策策略的近似提供了支持。三項連續的研究探索了新型模型和相應的方法論,以提高數學模型的準確性,提高計算效率,或更準確地評估復雜問題的解決方案質量,在這些問題中,最優解決方案的計算難以實現。對政策有效性和特定政策行為的深入分析為戰術、技術和程序的完善提供了信息,并使能力評估更加準確和量化,從而為所有相關系統的需求開發和采購計劃提供支持。
圖 1. 假想的 GABMP 場景,描繪了穿越敵對領土的固定 HVA 任務路徑
第二章至第四章由三項連續研究組成,將防御性空戰管理數學模型作為一個連續決策問題加以制定和擴展。每一章都探討了一種新穎的方法論,以提高數學模型的準確性,提高數據效率,或更準確地評估復雜問題的解決方案質量,因為在復雜問題中,最優解決方案的計算難以進行。
第二章介紹了廣義空戰管理問題(GABMP)。由 AUCAV 組成的艦隊護送 HVA 穿過敵方領土,而敵方的攻擊模式會根據友軍和敵軍的相對位置在來源和強度上發生變化。鑒于大多數現實問題并不存在于靜態環境中,針對非靜態問題的強化學習是一個廣泛研究的課題。要解決這些問題,需要在特征工程方面投入大量精力,為學習算法提供足夠有用的狀態空間信息,以揭示復雜的系統動態。本章提出了上下文分解馬爾可夫決策過程(CDMDP),它是靜態子問題的集合,旨在利用值函數的線性組合來逼近非靜態問題的動態。一組設計好的計算實驗證明了 CDMDP 方法的有效性,表明復雜的非穩態學習問題可以通過一小組靜態子問題得到有效的近似,而且 CDMDP 解決方案與基線方法相比,無需額外的特征工程就能顯著提高解決方案的質量。如果研究人員懷疑復雜且持續變化的環境可以用少量靜態上下文來近似,那么 CDMDP 框架可能會節省大量計算資源,并產生更易于可視化和實施的決策策略。
第三章為強化學習問題中的經驗重放記憶緩沖區介紹了一種新穎的基于相似性的接納控制方法。通過只用足夠不相似的經驗更新緩沖區,可以提高學習算法的效率和速度,尤其是在連續狀態空間的情況下。該方法采用了廣義空戰管理問題的擴展版本,納入了導航航點和基于軌跡的殺傷概率模型,以增強真實感。此外,還設計了一系列計算實驗,研究基于神經網絡的近似策略迭代算法的結構。對比分析表明,使用包含前 50% 最獨特經驗的內存緩沖區,學習算法收斂到穩健決策策略的速度比單獨使用優先級經驗回放快 10%。這些發現凸顯了所提出的方法在復雜、連續的狀態空間中提高強化學習效率的潛力。
第四章研究了信息松弛技術在 GABMP 進一步擴展版本中用于近似求解質量上限的應用。信息松弛指的是放寬順序決策問題中的非預期性約束,這些約束要求決策者僅根據當前可用的信息采取行動。信息松弛采用了時間事件視野,為決策者提供了對問題環境中未來隨機不確定性結果的可調整訪問。以往的研究都是針對在確定性松弛條件下更容易求解的問題進行信息松弛研究,而本方法論則將該方法應用于連續空間中的連續時間問題,即使在確定性條件下也需要求解近似技術。對事件視界和其他問題特征進行多維敏感性分析,有助于量化戰術改變或能力修改對決策政策有效性的潛在改進。這種量化方法應用于現實世界的能力差距評估,客觀地增強了傳統的主觀分析,從而為決策提供指導,并為采購計劃制定更有效的要求。第五章總結了前述各項研究的結果。
此外,第五章還指出了每項研究的假設和局限性,并提出了未來研究的可能途徑。
利用神經網絡進行近似策略迭代
圖 12. 描繪航點和攔截軌跡的 GABMP 假設場景
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
在當今快速發展的軍事領域,推進人工智能(AI)以支持兵棋推演變得至關重要。盡管強化學習(RL)在開發智能體方面大有可為,但傳統的 RL 在處理作戰模擬固有的復雜性方面仍面臨局限。本文提出了一種綜合方法,包括有針對性的觀測抽象、多模型集成、混合人工智能框架和總體分層強化學習(HRL)框架。使用片斷線性空間衰減的局部觀測抽象簡化了強化學習問題,提高了計算效率,并顯示出優于傳統全局觀測方法的功效。多模型框架結合了各種人工智能方法,在優化性能的同時,還能使用多樣化、專業化的個體行為模型。混合人工智能框架將 RL 與腳本智能體協同作用,利用 RL 進行高級決策,利用腳本智能體執行低級任務,從而提高了適應性、可靠性和性能。HRL 架構和訓練框架將復雜問題分解為易于管理的子問題,與軍事決策結構保持一致。雖然最初的測試并未顯示出性能的提高,但獲得了改進未來迭代的見解。這項研究強調了人工智能在兵棋推演中的革命性潛力,并強調了在這一領域繼續開展研究的必要性。
正如 CeTAS 報告所詳述的那樣,利用人工智能支持兵棋推演的方法有很多。不過,本文將重點關注人工智能在創建智能體方面的應用,這些智能體能夠在現代作戰建模與仿真 M&S 中典型的龐大而復雜的狀態空間中做出理性決策。
然而,創建一個能夠在游戲中獲勝或超越人類表現的人工智能,僅僅是表明人工智能能夠為兵棋推演者、作戰規劃者和軍事領導人提供有意義的見解的開始。盡管如此,這些智能體是開發現代決策輔助和支持工具的基礎,與傳統工具相比,它們能為決策者提供更高的準確性、速度和敏捷性。當在多領域行動中與裝備了人工智能的對手作戰時,忽視這一步會帶來巨大風險。
人機協作的概念,在文獻中也被稱為人機協同,最初是由利克利德在 1960 年提出的,但是前國際象棋世界冠軍加里-卡斯帕羅夫(Garry Kasparov)在 1997 年被 IBM 的 “深藍 ”擊敗后,提出了 “半人馬國際象棋”(Centaur Chess)的概念--即人類在對弈過程中與計算機協作。盡管輸給了人工智能,但卡斯帕羅夫倡導的理念是,不要將人工智能視為一種威脅,而應將其視為一種工具,在與人類能力相結合的情況下,可以取得非凡的成就。
在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點》[48]一書中,卡斯帕羅夫強調了利用人類和機器不同優勢的重要性。他指出,計算機擅長暴力計算,每秒能分析數百萬個局面,并計算出最佳的短期戰術棋步,而人類則主要通過直覺,帶來更深層次的戰略理解、創造力和辨別棋步長期后果的能力[48]。卡斯帕羅夫認為,人類直覺與機器計算的結合往往會產生比頂尖特級大師或計算機單獨發揮更強的棋藝。他觀察到,在許多情況下,即使是計算機輔助下的低級棋手也能超越頂級特級大師。
卡斯帕羅夫還討論了人類在這種 “半人馬 ”伙伴關系中的角色是如何隨著國際象棋人工智能的改進而演變的。最初,人類專注于戰略,而計算機負責戰術。然而,隨著國際象棋人工智能的進步,人類越來越多地承擔起 “質量控制 ”的角色,確保計算機建議的棋步符合更廣泛的戰略目標。他推測,國際象棋的未來可能并不取決于人類與機器的對決,而是取決于使用何種界面的人機團隊能發揮出最佳水平。這種合作將機器的計算能力與人類提供上下文、理解和直覺的能力結合在一起,使雙方的水平都超過了各自的能力。
最后,開發智能體是充分利用人工智能進行兵棋推演的基礎,無論是作為對手部隊、智能隊友、戰術顧問、COA 生成器、COA 分析器、COA 利用器、未來部隊設計、戰斗裁決、場景規劃,還是僅僅為了深入了解潛在結果。雖然腳本化智能體迄今為止已被證明是有用的,并將繼續有用,但現代戰爭的復雜性和不可預測性需要新水平的適應性和學習能力,而這只有 ML 才能提供。通過將超級智能體融入戰斗模擬,相信兵棋推演最終可以從靜態和可預測發展到動態和有洞察力,從而反映真實世界行動的不確定性。
本章介紹了開發智能體的基本背景概念,如搜索方法、博弈論、腳本代理、強化學習和分層強化學習。這些核心要素對于全面理解后續章節的研究至關重要。
在本章中,重點是介紹和驗證一種新穎的方法,通過采用片斷線性空間衰減的局部觀測抽象,克服 RL 智能體在較大場景中面臨的狀態空間挑戰。本章的核心內容已被第 16 屆國際 MODSIM 世界大會接受發表。所介紹的方法通過將智能體的觀測結果抽象為更緊湊、更易于計算管理的形式,簡化了智能體的感知狀態空間,同時保留了關鍵的空間信息。該研究通過一系列實驗證明,在不同的場景復雜度下,具有片斷線性空間衰減的局部觀測抽象始終優于傳統的全局觀測方法。這表明,這些類型的觀測簡化可以為在復雜環境中擴展 RL 提供計算成本更低的卓越解決方案,而這一直是該領域的重大挑戰。這些發現有助于推進 RL 觀察抽象的研究,并說明此類技術有潛力促進 RL 在復雜真實世界環境中的更廣泛應用,特別是在軍事模擬和兵棋推演領域。
本章介紹并驗證了多模型框架,該框架利用腳本模型和強化學習(RL)模型的組合,根據游戲的當前狀態動態采用最佳模型來提高性能。本章的核心內容已接受在 2024 年 SPIE 國防與商業傳感會議上發表。
這種多模型框架顯著提高了性能,最全面的多模型(即包含最多單個行為模型的多模型)優于所有單個模型和較簡單的復合模型。這表明,即使是表現較差的單個模型也能在特定情況下做出積極貢獻,突出了模型庫中多樣性和專業化的價值。研究結果強調了多模型系統在增強軍事模擬等典型的復雜、動態環境中的決策能力方面的潛力,提倡戰略性地融合人工智能模型和技術,以克服訓練單一通用模型所固有的挑戰。
本章介紹并驗證了一種混合分層人工智能框架,該框架將 RL 代理與腳本代理整合在一起,以優化大型作戰模擬場景中的決策。傳統的腳本代理雖然具有可預測性和一致性,但由于其僵化性,在動態場景中往往會失敗。與此相反,RL 智能體雖然在大型模擬環境和不透明的決策制定過程中舉步維艱,但卻能提供適應性和從互動中學習的能力。
開發了一種新穎的方法,在這種方法中,分層結構采用腳本智能體進行常規、戰術級決策,采用 RL 智能體進行戰略、更高級決策。腳本模型的一致性和 RL 模型的適應性之間的協同作用大大提高了性能,在利用這兩種方法的優勢的同時似乎也減輕了它們的弱點。這種整合產生了一個更有效的人工智能系統,它可以應對軍事模擬中更廣泛的戰略和戰術挑戰。
本章是論文工作的頂點部分,概述了設計、開發以及將整個論文中討論的方法整合到新型 HRL 架構和訓練框架中的過程。通過將不同層次的觀測抽象和多模型方法整合到所提出的框架中,探索了這一 HRL 方法在復雜決策環境建模中的潛在優勢和局限性。通過評估這些技術對學習過程和決策效率的影響,與傳統的腳本和RL方法相比,旨在進一步了解構建和訓練HRL系統的動態和挑戰。
最后一章介紹了論文的核心研究成果。討論了研究的理論和實踐意義,強調了研究的優勢和局限性,概述了對人工智能和作戰 M&S 領域的貢獻,并回答了本章提出的研究問題。此外,還利用整個 HRL 實驗的結果來激勵和明確未來的工作。
圖 6.12. MOBA 智能體分層架構。分層架構由宏觀戰略和微觀操作組成。
指揮與控制(C2)規劃面臨著日益復雜的挑戰,例如相關數據的可用性越來越高,以及如何在可用的時間范圍內處理這些數據。通過了解 “紅隊”對 “藍隊”潛在行動方案(CoA)可能做出的反應,規劃人員可以利用人工智能(AI)賦能兵棋推演的洞察力做出更好的戰略決策。建模與仿真(M&S)工具與人工智能相結合,可以通過消耗和處理作戰畫面的觀測數據,快速預測紅方的行動方案(CoA)。我們介紹的 “紅隊反應”(RFR)是一種決策支持工具,它利用兵棋推演模擬器中的人工智能來尋找潛在的 “紅隊共同行動”。利用最先進的深度神經網絡(DNN)算法,包括近端策略優化(PPO)和好奇心學習(Curiosity Learning),并將其集成到多智能體強化學習(MARL)環境中,RFR 智能體可根據獎勵和行動選擇多樣性分別找到高性能和新型 CoA。在一個空中戰術場景中,紅方部隊與優勢藍方部隊進行了 17,587 次訓練,取得了 91% 的勝率。這一概念展示了人工智能在 C2 規劃中的有效應用、如何利用云計算有效地訓練智能體,以及如何將這一概念擴展到更大的問題中。
建立 Dstl 機器速度指揮與控制 (MSC2) 項目的目的是通過在所有環境、領域和指揮層級實現更快、更有效的指揮與控制 (C2) 流程,從而改變指揮與控制 (C2)。這與利用建模和仿真技術優勢促進北約國家國防相關能力發展、威脅緩解和安全態勢的目標是一致的。MSC2 項目下的這項工作旨在探索使用人工智能(AI)技術控制兵棋推演模擬中的智能體行為的潛力,以確定引入復雜行為的可行性,這些行為與真實環境中的行為類似。這項工作的主要貢獻在于概念性的 “人工智能助手 ”決策支持工具,它將有助于了解:1)可能對藍方部隊造成最大傷害的潛在敵對(紅方部隊)協同行動;2)可能的新型紅方部隊協同行動;3)可解釋性技術,以幫助了解人工智能生成的紅方部隊協同行動的有效性和新穎性。我們展示的結果表明,機器學習在這一領域的應用非常有效。
在這一場景中,紅方將協調由幾種不同級別、不同載荷的飛機組成的大型攻擊包,對藍軍重型裝甲部隊實施戰術空中攔截任務。藍軍在防空保護下向兩座關鍵橋梁推進,目的是奪取這兩座橋梁。要想獲勝,紅方必須在藍軍奪取關鍵橋梁之前對其實施攔截。表 2 列出了各部隊的組成,包括各部隊的彈藥容量。
RET 中模擬的所有平臺、武器和傳感器都是通用的,無意代表任何現實系統的性能。
圖 2 顯示了模擬中各單位的起始位置。圖中各單位周圍的圓圈表示各單位武器的最大水平射程。RET 中對目標射程的計算包括高度,因此模擬中的最大武器射程形成了一個圍繞單位的影響范圍,而不是一個二維圓圈。顯示的圓圈還突出了各單位傳感器的最大識別范圍。RET 中的傳感器有三個可信度級別。探測是可能的最低觀測級別,只能顯示物體的位置。識別可以分辨出設備類型。識別是最高級別的觀測,可顯示物體的隸屬關系和傷亡狀況。TAI 情景是在 200x100km 感興趣區域內從 12:00 到 13:00 的一小時時間窗口內以 10s 的時間步長進行模擬的。
本文通過對美國防部相關人員的深入訪談,以及對現有指南、標準和相關文獻的嚴格審查,提出了見解。本文重點關注數字建模、數據利用和數據驅動決策的關鍵方面,主要側重于美國陸軍地面車輛應用,以應對挑戰和機遇。數據驅動決策在很大程度上依賴于精確的數字孿生模型,這對地面車輛在預定環境中的準備工作至關重要,尤其是在北極車輛準備等具有挑戰性的環境中。因此,在現實應用和數字孿生之間建立協同關系至關重要。然而,美國陸軍在從原始設備制造商那里獲取全面的數字數據方面面臨著障礙,特別是對于較老的地面車輛平臺,因此必須通過逆向工程來彌補差距。挑戰源于缺乏標準化的數字數據實踐,這就需要建立一個有凝聚力的數字建模框架。為此,本文提出了一個智能前端框架。該框架優化和整合了國防應用和決策的數據管理。總之,本文強調了采用數字技術、優化和實現數據利用以及應對數據挑戰對提高國防部戰備和效能的重要意義。
圖 1. 系統工程中的迭代循環數字化過程
美國國防部(Department of Defense,DoD)正在進行的數字化轉型有可能徹底改變其從設計、后勤到運營和可持續性等各方面的運作。數字技術的整合有望大幅提高效率和效益。基于對國防部利益相關者的一系列訪談,本研究深入探討了這一數字化轉型過程中的挑戰和復雜性,主要側重于將數字模型匯總并納入更廣泛的系統級能力。雖然數字化工作取得了重大進展,但仍迫切需要一項具有凝聚力的戰略,以確保這些數字模型通過數字化(即數字化轉型)有效促進任務分析和優化。
研究方法圍繞兩個核心要素展開: (1) 與美國防部內的主要利益相關者進行深入討論;(2) 對現有指南、標準和相關文獻進行嚴格審查。對于 (1),通過與利益相關者的討論,作者利用了積極參與該主題的國防部人員所擁有的豐富知識和專業技能。他們的第一手觀點、經驗和建議為我們的研究奠定了重要基礎。對于 (2),我們的全面審查過程深入研究了該領域的既定最佳實踐、行業標準和最新進展。這種審查確保了我們的研究具有堅實的基礎和最新的信息,使我們能夠以現有的框架為基準來衡量我們的研究結果。我們的研究方法結合了國防部利益相關者的見解以及對指導方針和標準的審查,體現了一種全面的、數據驅動的方法,旨在提供可靠的、可操作的結果。
本論文通過測量成功和不太成功的戰術表現背后的參數,研究當代戰斗中有效的軍事戰術。因此,戰術知識能讓戰爭研究領域的從業人員、學者和科學家更好地了解戰斗結果。論文的目的是對現有理論進行檢驗,以創建一個新的理論,說明是什么影響了戰斗中的戰術結果,并對導致戰術勝利的原因做出解釋。勝利可以用影響戰斗成功的戰術要素來解釋。此外,與決斗失敗者相比,勝利的戰斗可以通過戰術家所掌握的一些技能得到部分解釋。此外,本論文還是一種批判性評估戰術能力的方法,可以確定什么是成功的戰術,以及理論如何與實踐經驗保持一致。隨著對誰以及戰術如何影響戰斗勝負的深入了解,我們有機會提高研究、分析和實踐戰爭的軍事和戰術領域的技能發展。論文由四篇獨立文章組成。這些文章將專業知識水平、態度、一般智力和個人決策風格等個人能力與勝利水平聯系起來。總結所有四篇文章可得出三大結論:(1) 當類似對手交戰時,當代機動戰包含可衡量的成功要素。(2) 遵循代表 "戰術最佳實踐 "的理想模型中的步驟的戰術人員會增加他們在決斗中獲勝的機會,尤其是在對手沒有同時遵循任何或較少步驟的情況下。(3) 個人決策風格影響戰斗中的戰術結果。這些結論對今后制定有效的戰術以及戰術專家檔案具有重要意義。
圖 1. 《沖突建模的形式》,倫敦國王學院戰爭研究系菲利普-薩賓教授所著。
本章從軍事人機協同(HMT)的角度出發,提出了分析、設計和評估國防技術的有意義人機控制(MHC)的方法。方法基于三個原則。首先,MHC 應被視為指導分析、設計和評估所有階段的核心目標。其次,MHC 影響社會技術系統的所有部分,包括人類、機器、人工智能、交互和環境。最后,移動健康中心應被視為一種跨越較長時期的屬性,既包括事先控制,也包括多方參與者的實時控制。為了描述實現 MHC 的宏觀設計方案,我們提出了各種團隊設計模式。此外,還介紹了一個案例研究,在該案例研究中,將其中一些方法應用于設想 HMT,讓機器人和士兵參與到軍事背景下的搜救任務中。
在前面的章節中,我們已經論證了多器官功能障礙是一種動態的復雜屬性,它具有社會技術、道德和時間維度。因此,設計 MHC 也是一個復雜的過程,不能用簡單的清單或瀑布式設計方法來體現。要在一個智能體團隊中實現并保持 MHC,需要在系統的分析、設計和評估等迭代階段進行仔細考慮。一些相關的考慮因素如下圖所示。
圖 1:HMT 中 MHC 的高級設計框架。
本論文對增強現實技術(AR)在軍事訓練中的潛在應用進行了調查。這項研究是在延雪平大學工程學院計算機科學與信息學系進行的。研究旨在開發一種人工智能,解決識別士兵的技術問題,并從該領域的資深人士那里收集有關 AR 在軍事訓練中的深入見解。
研究發現,雖然增強現實技術在加強軍事訓練方面大有可為,但其實施需要慎重考慮。它應該對用戶友好、不顯眼,并且能夠創建逼真的訓練場景。調查參與者的反應不一,這表明,雖然 AR 可能是比目前使用的傳統設備更好的解決方案,但也存在保留意見和需要應對的潛在挑戰。
這項研究對該行業具有重大意義,有可能啟動從傳統筆記本電腦向 Meta Quest Pro 頭戴式耳機等更高效設備的過渡。目前有關 Meta Quest Pro 在軍事訓練中的應用的研究還很有限,本研究旨在為其他人繼續研究計算機科學的這一領域奠定基礎。
還可以開展進一步的研究,以測試和評估 AR 頭顯在真實軍事訓練環境(如射擊場)中的擬議應用。這需要進行實地研究,讓軍官在實戰演習中使用 AR 頭戴式耳機,并對結果進行比較。
機器在21世紀的戰場上變得無處不在,現代軍隊必須接受人機協作(HMT),否則就有可能將軍事優勢拱手讓給有效利用人工智能(AI)和自主性的競爭對手。本報告調查了人工智能日益融入軍事行動的影響,尤其側重于了解美國國防部(DOD)采用 HMT 概念的參數、優勢和挑戰。
HMT的定義和組成部分
HMT 是指將人工智能和自主系統與人類決策者、分析師、操作員和看守人員一起使用。HMT 將智能人類和機器的能力結合在一起,共同實現軍事目標。HMT 的核心是一種包含四個同等重要要素的關系:
人: 為機器提供輸入、對機器進行測試并利用其輸出的操作員;
機器: 從人工智能和機器學習(ML)算法到無人機群,機器擁有一定程度的決定權,并支持特定的任務;以及
交互: 人類和機器為完成共同任務而進行交互的方式。
界面: 人類與機器互動的機制和顯示方式。
從 HMT 的三個軍事應用角度來看,作者得出以下結論。
HMT 具有改變戰爭和解決關鍵作戰挑戰的潛力: 人工智能和 HMT 有可能通過增強態勢感知、改進決策、擴大人類操作員的射程和殺傷力,以及在多領域作戰中獲得并保持優勢,從而改變沖突和非戰斗行動。HMT 還能提高后勤、維持和后臺管理等許多輔助功能的效率,降低這些流程的成本和時限,并將人類解放出來,在這些任務領域執行價值更高的任務。
美國防部須擴展其對 HMT 的定義:HMT 的定義應予以擴展,以包括人類與自主非乘員系統和人工智能體的交互廣度,包括那些沒有物理形態的系統(如決策支持軟件)。將定義擴展到人類與機器人之間的互動之外,可使國防部實現 HMT 的廣泛用例--從在高強度戰爭中使用致命武器系統和無人機群,到利用算法融合數據和實現信息領域的虛擬連接。
HMT 的開發和應用必須優先考慮以人為本的團隊合作: 人工智能的發展速度驚人,推動了機器能力的潛在飛躍,并對確保人工智能體的安全性、可靠性和可信度提出了更高要求。必須同樣重視培養人類操作員的能力、舒適度和信任度,以有效利用 HMT 的價值,確保人類始終處于人機團隊的中心位置。
美國防部須從概念走向實踐:人機協作作為一種概念,在國防部的某些部門正獲得越來越大的發展勢頭。然而,更多采用人工智能和 HMT 的倡導者強調,有必要將對話從概念轉向實際--將能力開發過渡到 HMT 能力的實時測試和使用,海軍通過第 59 特遣部隊進行的人工智能試驗就證明了這一點--以更好地闡明和展示 HMT 可帶來的作戰優勢。
圖 1:HMT 三層價值的高級描述。
增強態勢感知,加快決策制定(包括檢測模式和異常現象)
增加操作員和高價值平臺的操作范圍和生存能力
降低整個國防部活動的成本和時限,包括但不限于存在、威懾、作戰和消耗
注:這些價值已經在美國防部的某些部門得到承認和認可,盡管隨著與 HMT 相關的技術和概念的進步,這些價值可能會得到加強或擴大。資料來源 Tate Nurkin,圖片來自 Vecteezy 和大西洋理事會。
HMT 最常被狹義地設想為人類與一個到數百個或更多自主非乘員系統進行交互的過程。就其最基本的形式而言,這種對 HMT 的設想并不新鮮:人類與智能機器的合作已有數十年歷史--1997 年,超級計算機 "深藍 "在國際象棋比賽中擊敗世界冠軍加里-卡斯帕羅夫(Gary Kasparov)就是早期機器人才的縮影--軍方長期以來一直在測試各種概念,以推動這一關鍵能力的發展。然而,最近人工智能和機器人技術的發展速度令人印象深刻,促使人們越來越多地考慮這些技術所能帶來的新能力、效率和優勢。
忠誠僚機概念是 HMT 這種表現形式經常被引用的一個例子,在這個概念中,人類飛行員控制著一些相對廉價、模塊化、可隱蔽的自主無人駕駛航空系統(UAS)的任務分配和操作。這些僚機可在載人飛機前方飛行,執行一系列任務,包括電子攻擊或防御、情報、監視和偵察(ISR)或打擊,或作為誘餌吸引其他資產的火力,"點亮 "敵方防空系統。
不僅美國,大多數現代國家的軍隊都對 HMT 的這種表現形式越來越感興趣。除美國外,澳大利亞、中國、俄羅斯、英國、土耳其和印度都至少有一個積極的忠誠僚機發展計劃,而第六代戰斗機全球空中作戰計劃(英國、意大利、日本)、下一代空中主宰計劃(美國空軍和海軍)和未來空中作戰系統(德國、法國、西班牙)都涉及強調HMT和機-機協同的空中力量系統概念。
雙腿小隊支援系統是海軍陸戰隊作戰實驗室正在測試的實驗性技術。該系統經過編程,可跟隨操作員穿越地形,攜帶水和食物等重物。圖片來源:美國海軍陸戰隊
盡管這類 HMT 對新興軍事能力非常重要,并將繼續發揮重要作用,但對 HMT 的討論應包括人類與智能體(根據其環境、經驗和輸入進行學習并做出判斷)互動的全部范圍,包括與不具備實體形式的算法進行的絕大多數互動。Maven項目(Project Maven)就是一個例子,說明國防部和現在的國家地理空間情報局如何利用這類 HMT 從各種形式的媒體和收集到的情報中自主探測、標記和追蹤感興趣的物體或人類,從而使人類分析師和操作員能夠優先關注他們的重點領域。
除圖像分析和目標識別外,非物理形式的 HMT 還能支持一系列重要任務,如威脅探測、數據處理和分析。在速度、復雜性和可用數據顯著增加的作戰環境中,這對提高軍事效率至關重要。它們還能提高后勤和維持、培訓以及后臺行政任務的效率,從而降低成本并縮短執行時間。
通過將人工智能的處理能力和決策支持能力與人類的社會智能和判斷力相結合,并在某些情況下與具有不同自主程度的非乘員系統的兵力倍增效應相結合,HMT 可以為美國及其盟友和合作伙伴提供多層次的重疊優勢,包括圖 1 中列出的那些高級優勢。
作為 "加速采用人工智能和創建一支適合我們時代的兵力 "的更廣泛努力的一部分,國防部對 HMT 當前和未來多層次價值的認識有所提高。盡管如此,整個五角大樓在采用人工智能和 HMT 方面仍面臨一些長期挑戰。為了加速和深化 HMT 的采用,國防部必須致力于采用一種方法,將開發工作與私營部門的參與結合起來,為采購官員在整個國防企業中推廣 HMT 解決方案創造靈活性。這種方法必須輔以以下措施:
這些要素對于實現 HMT 在未來多領域戰斗中的價值和優勢至關重要。
表 1: 各 HMT 用例的優勢概述
反介入區域拒止 (A2/AD) 沖突:
感知和目標定位
存在、優先順序和威懾力
用于情報和規劃活動的大型語言模型:2023 年 3 月發布的 Chat GPT-4 引發了關于美國防部如何利用類似大型語言模型(LLM)工具支持情報活動的討論。可以理解的是,有人擔心 LLM 目前的復雜程度及其 "幻覺 "傾向--編造不正確的信息--會使廣泛使用或依賴這些工具為時過早,甚至適得其反。不過,使用 LLMs 進行試驗將有助于更好地了解這些工具在哪些方面以及如何實現增值,尤其是當它們變得更加可靠時。2023 年 4 月“石上戰爭”(War on the Rocks)詳細介紹了美國海軍陸戰隊高級作戰學院如何利用兵棋推演來探索 LLM 如何協助人類進行軍事規劃。這些系統被用來提供、連接和可視化不同層次的信息和分析--例如對區域經濟關系的戰略層面的理解,以及對特定國家動態的更有針對性的分析--然后規劃人員利用這些信息和分析來完善可能的行動方案,并更好地理解對手的體系。
HMT 為二十一世紀的軍隊提供了多項優勢。因此,國防部必須投入足夠的時間和資源,以應對上述采用方面的挑戰。要促進 HMT 的采用,就必須將新理念、新程序和新激勵措施結合起來,并加強目前正在進行的、前景看好的加速采用工作,特別是與以下領域相關的工作:
開發一種全事業范圍的 HMT 應用方法,該方法建立在設立首席數字和人工智能辦公室等中央機構的基礎上,并為其提供充足的資金和授權,以確保整個國防部在需求、能力、基礎設施和戰略開發以及采購和供應商參與方面相輔相成。
在復制現實世界作戰環境挑戰的環境中進行快速、迭代和積極的實驗,將有助于人類測試和了解 HMT 技術的突破點,從而促進技術的采用。不同程度的實驗還能建立人類對其人工智能隊友的信任,這是優化 HMT 價值所必需的。
通過改革融化 "冰凍的中間層",這些改革可提高對快速行動的激勵,調整國防部和國會的改革優先事項,并加強努力,以確保在整個企業而不是逐個軍種或逐個司令部采用 HMT。大西洋理事會國防創新采用委員會提出了幾項適用于獲取和采用 HMT 能力的具體建議。
在未來作戰環境中,作戰速度、可用數據量和威脅的復雜性都將大幅提高,闡明并展示 HMT 的多層次價值,以贏得對競爭對手和潛在對手的優勢。
繼續在機構和道德問題上發揮領導作用,優先考慮以合乎道德和負責任的方式開發和使用值得信賴的人工智能,并將人類--人類的判斷力--置于人機團隊的中心位置。美國政府和私營部門應重新審視和更新有關機構和倫理的指導方針,以反映當代技術發展趨勢和能力。
制定戰略信息,強調人機團隊的價值和安全性,供美國防部和國會利益相關者以及更廣泛的美國社會使用。
美國在人工智能方面的進步并非發生在真空中;如果五角大樓遲遲不大規模采用 HMT,就有可能將軍事優勢拱手讓給像中國這樣將人工智能視為安全要務的戰略競爭對手。機器和智能體在二十一世紀的戰場上無處不在,國防部有責任展示、交流和實現 HMT 對實現未來任務和國家目標的價值。
一名軍官將 XRS-150 X 射線發生器放在模擬墜落的無人駕駛航空系統前。圖片來源:美國空軍國民警衛隊
本報告重點討論了如何利用模擬或生成模型創建的合成數據來解決深度學習的數據挑戰。這些技術有很多優點:1)可以為現實世界中難以觀察到的罕見情況創建數據;2)數據可以在沒有錯誤的情況下被自動標記;3)數據的創建可以很少或沒有侵犯隱私和完整性。
合成數據可以通過數據增強等技術整合到深度學習過程中,或者在訓練前將合成數據與真實世界的數據混合。然而,本報告主要關注遷移學習技術的使用,即在解決一個問題時獲得的知識被遷移到更有效地解決另一個相關問題。
除了介紹合成數據的生成和轉移學習技術,本報告還介紹了實驗結果,這些結果對合成數據方法在飛行員行為克隆、車輛檢測和人臉驗證任務中的潛力提供了寶貴的見解。實驗的初步結果表明,軍事模擬器和生成模型可以用來支持深度學習應用。然而,性能往往受限于合成數據和真實世界數據之間的保真度差距。
深度學習(DL)是一種技術,它提高了在廣泛的現實世界應用中實現復雜任務自動化的能力。翻譯、轉錄、視頻監控、推薦系統和自動駕駛汽車都是基于DL的解決方案已經被開發和部署用于商業目的的例子。在軍事領域,DL有可能支持人類在所有領域和戰爭級別的決策,其應用包括自動目標識別、預測性維護和無人駕駛車輛的自動控制。
與其他機器學習(ML)技術類似,DL使用算法來從數據中提取知識。在這種情況下,知識被編碼在大容量的深度神經網絡(DNNs)中,這些網絡可能由數千、數百萬甚至數十億的可調整參數組成,這取決于所考慮的任務的復雜性。為了正確調整這些參數,學習算法需要大量的訓練數據。沒有這些數據,DNN將無法泛化,因此,當遇到以前未見過的數據時,它將不會有好的表現。
獲取DL的訓練數據是困難的。這在商業應用中是存在的,而在軍事領域更是如此。瓶頸之一是,學習算法通常需要經過人工標注的數據(即為每個輸入數據點提供一個正確的答案)。因此,即使在獲取大量輸入數據相對低成本的情況下,正確標記所有的數據也往往是高成本和費時的。例如,Cityscapes數據集中的5,000個樣本中,每個樣本平均需要1.5個小時來標注(整個數據集大約需要十個月)[1]。此外,由于標注是由人類來完成的,其結果可能是不正確的、有偏見的甚至是有成見的,這也會反映在訓練過的模型的行為上。
此外,訓練數據往往存在長尾分布的問題。也就是說,對于數量有限的普通案例,訓練數據相對容易獲得,但對于大量重要的邊緣案例,訓練數據本身就很難獲得。例如,考慮一個基于無人機的軍用車輛監視和跟蹤系統。在這種情況下,友好車輛的空中圖像相對容易獲得。車輛數據可以在不同的地點、高度、角度、天氣條件、環境等方面獲得。獲取代表合格敵方車隊的類似現實世界的數據集通常是不可能的,因為這種侵入性的情報行動會導致對手的行動。使用遵循長尾分布的數據集訓練的系統通常實用價值有限,因為它只能在條件理想時使用(即,輸入數據與常見情況相似)。當遇到代表邊緣案例的真實世界的數據時,該系統將不會有好的表現,也不能被依賴。
本報告的目的是介紹可用于解決軍事背景下有限訓練數據所帶來的一些挑戰的技術。具體來說,本報告重點討論如何將使用軍事模擬或生成模型創建的合成數據與微調、領域適應、多任務學習和元學習等遷移學習技術結合起來,以加速未來DL在軍事領域應用的開發和部署。
本報告的目標讀者是操作、獲取或開發AI/ML/DL技術,用于或嵌入軍事系統的人員。
本報告假定讀者具有關于ML和DL概念的基本知識,如監督學習、強化學習、損失函數、梯度下降和反向傳播。鼓勵缺乏此類知識的讀者在繼續閱讀本報告之前,先閱讀FOI-報告FOI-R-4849-SE[2]中的第二章。
第2章概述了在深度學習中可以用來生成和整合合成訓練數據的技術和方法。第3章概述了轉移學習技術,可以用來促進知識從一個任務到另一個任務的重用。在第4章中,對這些技術的一個子集進行了評估,并提供了深入了解合成數據方法潛力的實驗結果。第5章中提出了結論。
圖2.2: 一幅戰斗機的圖像(2.2a)通過添加噪聲(2.2b)、濾色器(2.2c)和模糊(2.2d),以及通過縮放(2.2e)和縮放后的旋轉(2.2f)得到增強。每幅圖像都附有所有像素的平均RGB值分布的相應圖表。雖然所有圖像在語義上是不變的,但分布的形狀卻有很大的不同。
圖4.7:從我們的訓練數據集中隨機選擇的合成圖像。對于每一對圖像,左邊顯示的是最初生成的臉,右邊顯示的是編輯過的臉。請注意,所有圖像都在臉部周圍進行了裁剪。