美國國防部(DoD)對利用人工智能(AI)增強具有作戰行為的軍事模擬越來越感興趣。本文探討了深度有限神經(DLN)搜索的應用--一種集成了卷積神經網絡(CNN)的博弈樹搜索技術,作為在特定方案下訓練的評估函數,以提高人工智能在生成戰斗行為方面的可擴展性和有效性。利用專為人工智能研究設計的軍事模擬平臺 Atlatl 進行了各種實驗,以評估 DLN 在不同場景下的性能。這些實驗包括測試訓練 DLN 的人工智能組合、評估其在多個對手面前的表現,以及探索環境規模和單位數量的變化。此外,研究還采用了 DeepMind 的 AlphaStar 所展示的聯盟訓練概念,以訓練人工智能模型,避免過度擬合并制定穩健的策略。研究結果表明,在基準場景下,DLN 優于現有的替代方案,但在擴展到更大、更復雜的環境方面仍存在挑戰。這些發現為人工智能驅動的軍事模擬的未來研究與開發提供了寶貴的見解,支持了美國陸軍作戰能力開發指揮分析中心(DEVCOM DAC)正在進行的工作。
本文分為五章。第 1 章概述了研究內容,包括論文的背景、動機、問題陳述、目標、意義、范圍和結構。第 2 章回顧了有關軍事模擬中的人工智能的現有文獻和研究,指出了當前知識中存在的差距,并討論了對抗樹搜索、DLN 和 Atlatl 框架等相關概念。第 3 章詳細介紹了進行實驗所使用的方法和程序。其中包括研究設計、數據收集方法和分析技術。第 4 章詳細介紹了實驗結果,提供了數據和結論。第 5 章對結果進行分析和解釋,與現有研究進行比較,討論其影響,解決論文中提出的研究問題,總結主要發現,討論對該領域的貢獻,并提出未來研究的方向。
圖 2.7. 顯示的是啟用人機交互后瀏覽器中出現的 Atlatl 場景示例。該場景顯示了多種不同的地形和單位類型,以及代表敵對勢力的紅色和藍色隊伍。
本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
本文探討了機器學習在自主無人戰斗飛行器(AUCAV)控制中的應用。特別是,本研究將深度強化學習方法應用于防御性空戰場景,在該場景中,AUCAV 機群保護軍事高價值資產 (HVA),該資產要么是靜止的(如在空軍基地防御場景中),要么是快速移動的(如在涉及護送貨運飛機或指揮控制飛機的場景中)。通過采用馬爾可夫決策過程、近似動態規劃算法和用于價值函數近似的深度神經網絡,一系列空戰管理場景、原始模擬環境和一系列設計的計算實驗為高質量決策策略的近似提供了支持。三項連續的研究探索了新型模型和相應的方法論,以提高數學模型的準確性,提高計算效率,或更準確地評估復雜問題的解決方案質量,在這些問題中,最優解決方案的計算難以實現。對政策有效性和特定政策行為的深入分析為戰術、技術和程序的完善提供了信息,并使能力評估更加準確和量化,從而為所有相關系統的需求開發和采購計劃提供支持。
圖 1. 假想的 GABMP 場景,描繪了穿越敵對領土的固定 HVA 任務路徑
第二章至第四章由三項連續研究組成,將防御性空戰管理數學模型作為一個連續決策問題加以制定和擴展。每一章都探討了一種新穎的方法論,以提高數學模型的準確性,提高數據效率,或更準確地評估復雜問題的解決方案質量,因為在復雜問題中,最優解決方案的計算難以進行。
第二章介紹了廣義空戰管理問題(GABMP)。由 AUCAV 組成的艦隊護送 HVA 穿過敵方領土,而敵方的攻擊模式會根據友軍和敵軍的相對位置在來源和強度上發生變化。鑒于大多數現實問題并不存在于靜態環境中,針對非靜態問題的強化學習是一個廣泛研究的課題。要解決這些問題,需要在特征工程方面投入大量精力,為學習算法提供足夠有用的狀態空間信息,以揭示復雜的系統動態。本章提出了上下文分解馬爾可夫決策過程(CDMDP),它是靜態子問題的集合,旨在利用值函數的線性組合來逼近非靜態問題的動態。一組設計好的計算實驗證明了 CDMDP 方法的有效性,表明復雜的非穩態學習問題可以通過一小組靜態子問題得到有效的近似,而且 CDMDP 解決方案與基線方法相比,無需額外的特征工程就能顯著提高解決方案的質量。如果研究人員懷疑復雜且持續變化的環境可以用少量靜態上下文來近似,那么 CDMDP 框架可能會節省大量計算資源,并產生更易于可視化和實施的決策策略。
第三章為強化學習問題中的經驗重放記憶緩沖區介紹了一種新穎的基于相似性的接納控制方法。通過只用足夠不相似的經驗更新緩沖區,可以提高學習算法的效率和速度,尤其是在連續狀態空間的情況下。該方法采用了廣義空戰管理問題的擴展版本,納入了導航航點和基于軌跡的殺傷概率模型,以增強真實感。此外,還設計了一系列計算實驗,研究基于神經網絡的近似策略迭代算法的結構。對比分析表明,使用包含前 50% 最獨特經驗的內存緩沖區,學習算法收斂到穩健決策策略的速度比單獨使用優先級經驗回放快 10%。這些發現凸顯了所提出的方法在復雜、連續的狀態空間中提高強化學習效率的潛力。
第四章研究了信息松弛技術在 GABMP 進一步擴展版本中用于近似求解質量上限的應用。信息松弛指的是放寬順序決策問題中的非預期性約束,這些約束要求決策者僅根據當前可用的信息采取行動。信息松弛采用了時間事件視野,為決策者提供了對問題環境中未來隨機不確定性結果的可調整訪問。以往的研究都是針對在確定性松弛條件下更容易求解的問題進行信息松弛研究,而本方法論則將該方法應用于連續空間中的連續時間問題,即使在確定性條件下也需要求解近似技術。對事件視界和其他問題特征進行多維敏感性分析,有助于量化戰術改變或能力修改對決策政策有效性的潛在改進。這種量化方法應用于現實世界的能力差距評估,客觀地增強了傳統的主觀分析,從而為決策提供指導,并為采購計劃制定更有效的要求。第五章總結了前述各項研究的結果。
此外,第五章還指出了每項研究的假設和局限性,并提出了未來研究的可能途徑。
利用神經網絡進行近似策略迭代
圖 12. 描繪航點和攔截軌跡的 GABMP 假設場景
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
美海軍陸戰隊缺乏準確訓練部隊在對抗性電磁頻譜(EMS)內作戰的基礎設施。本文通過開發和原型設計一種工具來解決這一問題,該工具可實時捕獲實時頻譜數據并將其集成到建設性模擬中,從而在訓練期間提供逼真的反饋。研究重點是利用實時、虛擬和建設性環境原則、開源軟件、軟件定義無線電、商用硬件和 Battlespace Simulations公司的現代空戰環境模擬創建一個原型系統。在分布式仿真工程和執行過程框架前三個步驟的指導下,本文詳細介紹了開發原型的系統方法。該原型通過軟件定義無線電捕捉實戰單元特征并將其集成到電子戰(EW)模擬中,從而創建了一個逼真的訓練環境。這種創新方法解決了重大的訓練難題,增強了訓練效果,使海軍陸戰隊能夠在模擬 EW 場景中進行有效訓練。研究的一個關鍵方面是驗證原型是否能夠利用實時 EMS 數據激發建設性的 EW 場景。這項研究為提高 EMS 訓練能力提供了一個基礎性解決方案,使部隊為未來以 EMS 為主導的沖突做好更充分的準備。
第一章概述了整篇論文的結構化信息流,詳細介紹了各章如何應對核心挑戰,以及在有爭議的 EMSE 中加強小單元訓練的解決方案。論文的編排旨在提供一個全面的理解,從背景開始,以基礎概念奠定基礎,通過概念模型的開發,詳細介紹最小可行產品(MVP)、訓練頻譜捕獲工具(TSCT)的創建,最后總結研究結果和未來工作建議。
第二章--背景。本章討論了 EMS 所面臨的挑戰和復雜性。它解釋了 EMS、EMSO、EW 以及小單元目前在有爭議的 EMS 中面臨的威脅。這些基礎性信息為后續章節奠定了基礎,探討了創建真實訓練場的主要障礙,這些訓練場可以復制未來有爭議的 EMS 環境。本章強調了小型單元了解并在有爭議的 EMS 環境中行動的關鍵需求,強調了開發訓練場以提高其在未來沖突中的殺傷力和生存能力的重要性。
第三章--通過 DSEEP 建立概念模型。本章圍繞 “分布式仿真工程與執行過程”(DSEEP)的前三個步驟,記錄了利用電子戰仿真和頻譜捕獲開發訓練場工具的過程。第 1 步-確定仿真環境目標包括論文的初步規劃,概述 EW 訓練中需要通過仿真解決的問題。第 2 步-進行概念分析,包括詳細設計和制定所需的仿真環境和工具要求,以支持目標的實現。步驟 3-設計仿真環境,重點是詳細規劃仿真系統和集成仿真環境。這種系統化的方法可確保訓練場的開發過程徹底有效。
第四章-訓練頻譜捕獲工具。本章詳細介紹了 “訓練頻譜捕獲工具 ”的流程和設計。它概述了利用模擬和實時注入這些模擬的方法,為準確構建逼真的實時 EW 場景奠定了基礎。通過將 TSCT 與 EW 模擬集成,本章展示了如何捕獲實時頻譜數據并用于激發建設性 EW 模擬。
第五章--結論與未來工作。本章對論文進行了總結,包括主要發現和應用經驗教訓的建議。它強調了 TSCT 在訓練場景中的潛在應用,并概述了對未來研究工作的建議。本章強調了繼續開發和測試的重要性,以完善 TSCT 并提高其在小分隊訓練中的實用性,確保海軍陸戰隊能夠更好地應對在有爭議的 EMS 中作戰的挑戰。
在當今快速發展的軍事領域,推進人工智能(AI)以支持兵棋推演變得至關重要。盡管強化學習(RL)在開發智能體方面大有可為,但傳統的 RL 在處理作戰模擬固有的復雜性方面仍面臨局限。本文提出了一種綜合方法,包括有針對性的觀測抽象、多模型集成、混合人工智能框架和總體分層強化學習(HRL)框架。使用片斷線性空間衰減的局部觀測抽象簡化了強化學習問題,提高了計算效率,并顯示出優于傳統全局觀測方法的功效。多模型框架結合了各種人工智能方法,在優化性能的同時,還能使用多樣化、專業化的個體行為模型。混合人工智能框架將 RL 與腳本智能體協同作用,利用 RL 進行高級決策,利用腳本智能體執行低級任務,從而提高了適應性、可靠性和性能。HRL 架構和訓練框架將復雜問題分解為易于管理的子問題,與軍事決策結構保持一致。雖然最初的測試并未顯示出性能的提高,但獲得了改進未來迭代的見解。這項研究強調了人工智能在兵棋推演中的革命性潛力,并強調了在這一領域繼續開展研究的必要性。
正如 CeTAS 報告所詳述的那樣,利用人工智能支持兵棋推演的方法有很多。不過,本文將重點關注人工智能在創建智能體方面的應用,這些智能體能夠在現代作戰建模與仿真 M&S 中典型的龐大而復雜的狀態空間中做出理性決策。
然而,創建一個能夠在游戲中獲勝或超越人類表現的人工智能,僅僅是表明人工智能能夠為兵棋推演者、作戰規劃者和軍事領導人提供有意義的見解的開始。盡管如此,這些智能體是開發現代決策輔助和支持工具的基礎,與傳統工具相比,它們能為決策者提供更高的準確性、速度和敏捷性。當在多領域行動中與裝備了人工智能的對手作戰時,忽視這一步會帶來巨大風險。
人機協作的概念,在文獻中也被稱為人機協同,最初是由利克利德在 1960 年提出的,但是前國際象棋世界冠軍加里-卡斯帕羅夫(Garry Kasparov)在 1997 年被 IBM 的 “深藍 ”擊敗后,提出了 “半人馬國際象棋”(Centaur Chess)的概念--即人類在對弈過程中與計算機協作。盡管輸給了人工智能,但卡斯帕羅夫倡導的理念是,不要將人工智能視為一種威脅,而應將其視為一種工具,在與人類能力相結合的情況下,可以取得非凡的成就。
在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點》[48]一書中,卡斯帕羅夫強調了利用人類和機器不同優勢的重要性。他指出,計算機擅長暴力計算,每秒能分析數百萬個局面,并計算出最佳的短期戰術棋步,而人類則主要通過直覺,帶來更深層次的戰略理解、創造力和辨別棋步長期后果的能力[48]。卡斯帕羅夫認為,人類直覺與機器計算的結合往往會產生比頂尖特級大師或計算機單獨發揮更強的棋藝。他觀察到,在許多情況下,即使是計算機輔助下的低級棋手也能超越頂級特級大師。
卡斯帕羅夫還討論了人類在這種 “半人馬 ”伙伴關系中的角色是如何隨著國際象棋人工智能的改進而演變的。最初,人類專注于戰略,而計算機負責戰術。然而,隨著國際象棋人工智能的進步,人類越來越多地承擔起 “質量控制 ”的角色,確保計算機建議的棋步符合更廣泛的戰略目標。他推測,國際象棋的未來可能并不取決于人類與機器的對決,而是取決于使用何種界面的人機團隊能發揮出最佳水平。這種合作將機器的計算能力與人類提供上下文、理解和直覺的能力結合在一起,使雙方的水平都超過了各自的能力。
最后,開發智能體是充分利用人工智能進行兵棋推演的基礎,無論是作為對手部隊、智能隊友、戰術顧問、COA 生成器、COA 分析器、COA 利用器、未來部隊設計、戰斗裁決、場景規劃,還是僅僅為了深入了解潛在結果。雖然腳本化智能體迄今為止已被證明是有用的,并將繼續有用,但現代戰爭的復雜性和不可預測性需要新水平的適應性和學習能力,而這只有 ML 才能提供。通過將超級智能體融入戰斗模擬,相信兵棋推演最終可以從靜態和可預測發展到動態和有洞察力,從而反映真實世界行動的不確定性。
本章介紹了開發智能體的基本背景概念,如搜索方法、博弈論、腳本代理、強化學習和分層強化學習。這些核心要素對于全面理解后續章節的研究至關重要。
在本章中,重點是介紹和驗證一種新穎的方法,通過采用片斷線性空間衰減的局部觀測抽象,克服 RL 智能體在較大場景中面臨的狀態空間挑戰。本章的核心內容已被第 16 屆國際 MODSIM 世界大會接受發表。所介紹的方法通過將智能體的觀測結果抽象為更緊湊、更易于計算管理的形式,簡化了智能體的感知狀態空間,同時保留了關鍵的空間信息。該研究通過一系列實驗證明,在不同的場景復雜度下,具有片斷線性空間衰減的局部觀測抽象始終優于傳統的全局觀測方法。這表明,這些類型的觀測簡化可以為在復雜環境中擴展 RL 提供計算成本更低的卓越解決方案,而這一直是該領域的重大挑戰。這些發現有助于推進 RL 觀察抽象的研究,并說明此類技術有潛力促進 RL 在復雜真實世界環境中的更廣泛應用,特別是在軍事模擬和兵棋推演領域。
本章介紹并驗證了多模型框架,該框架利用腳本模型和強化學習(RL)模型的組合,根據游戲的當前狀態動態采用最佳模型來提高性能。本章的核心內容已接受在 2024 年 SPIE 國防與商業傳感會議上發表。
這種多模型框架顯著提高了性能,最全面的多模型(即包含最多單個行為模型的多模型)優于所有單個模型和較簡單的復合模型。這表明,即使是表現較差的單個模型也能在特定情況下做出積極貢獻,突出了模型庫中多樣性和專業化的價值。研究結果強調了多模型系統在增強軍事模擬等典型的復雜、動態環境中的決策能力方面的潛力,提倡戰略性地融合人工智能模型和技術,以克服訓練單一通用模型所固有的挑戰。
本章介紹并驗證了一種混合分層人工智能框架,該框架將 RL 代理與腳本代理整合在一起,以優化大型作戰模擬場景中的決策。傳統的腳本代理雖然具有可預測性和一致性,但由于其僵化性,在動態場景中往往會失敗。與此相反,RL 智能體雖然在大型模擬環境和不透明的決策制定過程中舉步維艱,但卻能提供適應性和從互動中學習的能力。
開發了一種新穎的方法,在這種方法中,分層結構采用腳本智能體進行常規、戰術級決策,采用 RL 智能體進行戰略、更高級決策。腳本模型的一致性和 RL 模型的適應性之間的協同作用大大提高了性能,在利用這兩種方法的優勢的同時似乎也減輕了它們的弱點。這種整合產生了一個更有效的人工智能系統,它可以應對軍事模擬中更廣泛的戰略和戰術挑戰。
本章是論文工作的頂點部分,概述了設計、開發以及將整個論文中討論的方法整合到新型 HRL 架構和訓練框架中的過程。通過將不同層次的觀測抽象和多模型方法整合到所提出的框架中,探索了這一 HRL 方法在復雜決策環境建模中的潛在優勢和局限性。通過評估這些技術對學習過程和決策效率的影響,與傳統的腳本和RL方法相比,旨在進一步了解構建和訓練HRL系統的動態和挑戰。
最后一章介紹了論文的核心研究成果。討論了研究的理論和實踐意義,強調了研究的優勢和局限性,概述了對人工智能和作戰 M&S 領域的貢獻,并回答了本章提出的研究問題。此外,還利用整個 HRL 實驗的結果來激勵和明確未來的工作。
圖 6.12. MOBA 智能體分層架構。分層架構由宏觀戰略和微觀操作組成。
盡管技術取得了長足進步,但戰爭迷霧--戰場上的不確定性和不完整信息--仍對軍事行動構成挑戰。由于缺乏定量支持工具,在這種條件下進行有效決策仍然是一個關鍵問題。本文通過將軍事人工智能(AI)融入美海軍開發的六邊形戰場模擬環境(即 Atlatl 平臺)來彌補這一不足。研究重點是開發和評估各種人工智能算法,包括腳本人工智能、分層和非分層人工智能以及強化學習(RL)模型。這些模型利用概率分布來加強戰爭迷霧場景下的導航和戰略規劃。通過模擬多次戰斗迭代,人工智能模型在戰爭迷霧中定位和跟蹤敵方陣地的精確性和作戰效率方面表現出明顯的優勢,可幫助指揮官做出決策。此外,本研究獲得的見解不僅有助于完善戰爭迷霧場景中的行動方案(COA)決策,還可實際應用于反潛戰(ASW)和海上搜救(SAR)行動。本文強調了利用概率分布的人工智能支持決策的有效性。
美國國防部(DOD)開發了各種模型和模擬,供各分支和部門使用。表 1 列出了國防部內使用模擬和兵棋的組織名單。這些工具通過不同的方法為指揮官的決策過程提供支持。采用的方法包括定制開發的軟件;商業游戲的改編;研討會、系統和混合等各種形式的戰爭游戲;以及電子表格的使用。每種模擬都是針對特定情況設計的,并為其所針對的特定梯隊提供支持。因此,并非所有模擬都能實現定量戰爭迷霧(精確到足以用數字表示不確定性);有些模擬可能根本不包括戰爭迷霧,而有些模擬可能實現的戰爭迷霧過于寬泛。此外,即使實施了戰爭迷霧,由于需要大量啟發式干預,其為指揮決策提供定量支持的效果也可能有限。
解決 “戰爭迷霧 ”問題的研究已在游戲行業等多個商業領域展開,但在軍事領域的探索卻相對有限。因此,本研究旨在為最大限度地減少軍事領域的 “戰爭迷霧 ”做出重大貢獻,主要是幫助指揮官做出明智決策。此外,在應用人工智能、自動化作戰行動(COA)開發和評估方面,正如 “2035 年戰爭的特征研討會”(2020 年 11 月)所討論的那樣,本研究將為開發由機器支持的快速決策和人機協作做出貢獻(Taliaferro 等人,2021 年)。
為了拓寬視野,本文采用了 “戰爭迷霧 ”的概念來描述情報僅限于目標定位的狀態。這種情況與海軍反潛戰以及海上搜救行動中普遍存在的基礎條件極為相似。因此,這項研究可應用于具有類似條件的各種情況,包括海軍行動、反潛戰和海上失蹤人員搜索行動。
本論文分為五章。第一章介紹了研究的主要課題和總體范圍。第二章 “背景和文獻綜述 ”解釋了對本研究至關重要的概念,如模擬、戰爭游戲、認知行為人工智能和強化學習(RL)的基礎知識,以及如何在研究中應用這些概念。第三章 “方法論 ”詳細介紹了研究中使用的代碼結構、代碼實現以及所進行的實驗。隨后,第四章 “情景和結果 ”將重點介紹這些實驗的結果并討論其性能。第五章 “結論與未來工作 ”回顧了第四章的討論,總結了研究的主要發現,并概述了該領域未來研究的潛在方向。
將人工智能(AI)融入軍事作戰決策過程(MCDMP)已引起眾多國家和國際組織的關注。本論文探討了軍事決策的復雜領域,其特點往往是高風險情況和時間限制,這可能導致認知偏差和啟發式錯誤。在需要做出關鍵決策的流程中添加新技術,需要人類操作員做出某些調整和采取某些方法。鑒于所做決定的人道主義影響,人工智能的整合必須謹慎進行,解決潛在的阻礙因素,以確保負責任地使用這些技術。其中一些因素圍繞著人類與人工智能的合作,特別是對技術的接受程度,這可能會影響技術的使用和發展,正如文獻所指出的那樣。我們的研究將采用多方面的定性方法,結合學術文獻綜述、對具有人工智能知識的軍事科學專家的訪談以及對軍事人員的訪談,全面了解專家和軍事人員對人工智能作為決策支持系統(DSS)的印象。
這項研究提高了人們對認知結構在促進人類與人工智能合作中的重要性的認識,并揭示了軍事作戰決策者目前對使用人工智能技術輔助決策的看法。我們的目標是為正在進行的有關將人工智能作為決策支持系統整合到軍事行動中的挑戰和機遇的討論做出貢獻。我們將提供有助于在高風險環境中更明智、更有效地采用人工智能技術的見解。通過技術接受模型(TAM)和技術框架理論,我們揭示了感知、假設、期望和信任這些影響人工智能作為決策支持系統接受程度的因素。因此,通過負責任地使用人工智能工具,可以提高軍事作戰決策的有效性。
關鍵詞:軍事作戰決策過程(MCDMP)、人工智能(AI)、人-AI 合作、假設、期望、信任、認知、新技術接受、AI 應用中的挑戰、AI 在軍事中、AI 在決策中的應用
隨后的一章建立了理論框架,全面概述了將人工智能納入 MCDMP 的現狀,并討論了人工智能和軍事決策過程等相關概念。它還介紹了重要的技術接受模型、技術框架和TAM,并討論了與模型相關的概念:感知、假設、期望和信任。第三章詳細介紹了研究方法,包括定性方法、選擇標準以及數據收集和分析方法。其中包括半結構式訪談、數據分析技術、有效性和可靠性的衡量標準,以及倫理方面的考慮。第四章對收集到的數據進行分析和討論。我們將揭示和討論來自文獻和訪談的研究結果,從人工智能在 MCDMP 中的整合現狀入手,將研究結果分為以下幾類:(1)感知有用性;(2)感知易用性;(3)期望和假設;(4)信任和可信度。此外,我們還將回答研究問題。最后,第五章將對研究進行反思,總結主要發現、研究貢獻以及對進一步研究和行業行動的建議。
圖 3:軍事戰斗決策過程中人工智能整合程度的簡化模型
本文旨在分析人工智能(AI)在遠征先進基地作戰(EABO)中的應用,重點是作戰和后勤行動。使用 Atlatl 作為模擬引擎,在模擬待命部隊在兩棲環境中分布式作戰所面臨挑戰的場景中測試了多個智能體。測試了每種人工智能在軍事行動臨界值以下開展維持行動的能力,以及在越過臨界值時抵御兩棲攻擊的能力。就腳本智能體而言,事實證明,根據聯合作戰方法對行為進行調整可創造出生存能力更強的人工智能,同時保持其殺傷力水平。就建立在神經網絡基礎上的智能體而言,由于問題的規模和范圍,其性能受到了限制,可能需要進行更多的研究才能顯示出顯著的效果。這項研究是繼續開發 EABO 概念的探索工具,可為繼續完善操作概念提供反饋。
本文屬于建模、虛擬環境和模擬領域。具體來說,它分析了在作戰模型和模擬中使用人工智能(AI)來評估未來潛在沖突場景中的作戰概念。戰爭游戲和模擬為行動的發展提供了寶貴的反饋,檢驗了我們對特定場景下所面臨的環境和挑戰的理解。2019 年,美國(U.S. )海軍陸戰隊(USMC)發布了新的指南--指揮官規劃指南,將重點轉向圍繞中國在南太平洋帶來的挑戰而開展的防御工作,從而提出了遠征先進基地行動(EABO)的概念(Berger,2019 年)。隨著重點的轉移,有了一個新的機會,可以對我們的概念和想法進行兵棋推演,評估那些能提供最廣闊成功之路的概念和想法。
在軍事領域,兵棋推演的目的是對想法進行分析,找出行動方案的優缺點,進一步完善最終方案。通過在 EABO 兵棋中引入人工智能,可以對概念進行更深入的分析,從而在行動發展過程中獲得更精細的反饋。一旦捕捉到這些數據,對其進行研究就能進一步促進對 EABO 的探索,檢驗我們對過去和未來軍事模擬在同一領域的判斷,并提供信息,幫助圍繞 EABO 和其他目標行動繼續開發人工智能能力。具體來說,通過了解現有人工智能體在場景驅動模擬中的行為,我們可以評估和推斷人工智能可能如何應對更廣泛的模擬(圍繞一個主題場景提出類似的挑戰),以及如何改進人工智能以更好地在其中使用。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
人工智能(AI)是一個快速發展的領域,世界各地的政府和軍隊越來越多地將其納入其技術,以創造新的能力。人工智能有可能最終超越人類的智力能力,獲得超級智能。這篇論文研究了超級人工智能(ASI)的影響以及美國的對手如何利用它來獲得不對稱的戰略優勢。本文發現,人工智能在中期和可能的近期對未來的行動構成了極大的風險,并就美國防部應如何思考并將人工智能的威脅納入戰略規劃提出了建議。
人類最偉大的力量之一是我們利用工具的能力。縱觀歷史,工具使我們能夠提高執行任務的效率,使我們的知識專業化,并創造機會反復改進和創造更復雜的工具。機器的發明給了人類一套工具,可以完全取代人類的勞動,而不是放大它,并在勞動的速度和質量上遠遠超過人類。現在,人工智能(AI)的發展正在做同樣的思考。人工智能系統已經在前幾代人認為機器永遠無法完成的任務中超越了人類,例如:圖像和目標識別,復雜的棋類游戲,如國際象棋和明顯更復雜的圍棋,需要實時戰略思考的視頻游戲,讀唇語,甚至通過投資股票市場實現盈利。目前,人工智能的所有應用都是狹窄的,這意味著盡管它們在某項任務上可以超過人類的能力,但它們只能做它們被設計的那件特定的事情,而不是其他。然而,這種情況不會一直存在。
1993年,統計學家Vernor Vinge預測,人類將有能力創造出一種超人類的智能。他推測,這種創造將導致智能爆炸,因為超級智能在自身基礎上不斷改進,變得越來越聰明,將人類的能力遠遠甩在后面。這種能力將對人類生活的各個方面產生深遠的影響。正如人工智能和決策理論家Eliezer Yudkowsky所說的那樣。"沒有困難的問題,只有對某一智能水平來說是困難的問題。向上移動最小的一點[智力水平],一些問題會突然從'不可能'變成'明顯'。向上移動一個相當大的程度,所有的問題都會變得明顯。" 因此,超級智能將為世界舞臺上任何能夠開發和控制它的行為者提供不對稱的優勢。
自第二次世界大戰結束以來,美國一直是占主導地位的世界大國,能夠通過國家權力的四個工具:外交、信息、軍事和經濟來擴大其影響力和追求其利益。然而,歷史告訴我們,占主導地位的世界大國會因為軍事革命而非常意外和迅速地失去這種地位。西方歷史經歷了五次這樣的重大革命:現代民族國家的創建、大眾政治與戰爭的融合、工業革命、第一次世界大戰和核武器的出現。這些革命中的每一次都圍繞著為首先采用這些革命的人提供的不對稱優勢,這使得他們能夠獲得突出的地位,即使只是暫時的,直到其他人也出于需要而采用新的模式。超級智能的人工智能的出現有可能創造出下一次軍事革命,并使美國不再是世界上最大的國家。
默里和諾克斯指出,軍事革命就其性質而言是 "不可控的、不可預測的和不可預見的。"但這是一個觀點問題。納西姆-塔勒布將這些類型的事件稱為黑天鵝,并對其有三個標準:它們是罕見的,有極端的影響,并且是可追溯的。然而,他表明,某件事之所以成為黑天鵝,特別是因為沒有認真對待這種可能性,而不是沒有人想到它。舉例來說,如果有人在9-11事件之前就認為恐怖主義是一種合理的威脅,并要求在飛機艙門上加鎖,那么被劫持的飛機成為武器的黑天鵝事件就不會發生。推動這一變革的人甚至可能會因為他們的假設不正確而受到批評。如果沒有這個事件的發生,就沒有證據表明所實施的變革具有防止恐怖主義的預期效果。
對未來的正確預測在被認真對待時一般是不可能被驗證的,因為他們成功地防止了他們預測的結果。因此,被認為不值得適當考慮或規劃的想法成為決定性的。"看到一個事件的發生正是因為它不應該發生,這不是很奇怪嗎?" 如果美國希望在一個正在迅速發展并變得越來越復雜的世界舞臺上保持主導地位,它就必須對可能的和不可能的事情進行思考。正如參議院軍事委員會前參謀長克里斯蒂安-布羅斯在其《殺戮鏈》一書的結論中所說,"問題是想象力的失敗"。
技術正在以指數級的速度發展,并將在某一時刻導致下一次范式轉變和軍事革命。人工超級智能(ASI)有可能在國際行為者揮舞國家權力工具的能力方面創造不對稱優勢,并導致這樣一場軍事革命。從歷史上看,軍事革命的結果往往是,誰最先發揮新革命的不對稱優勢,誰就能推翻當時的世界霸主。下一次革命也會如此,美國可能會發現自己被剝奪了世界主導地位,除非它能預測并為即將到來的事情做好準備。僅僅為今天挑戰美國主導地位的差距尋求解決方案是不夠的,因為今天的問題在下一次范式轉變后將變得無關緊要。因此,如果下一次軍事革命以超級人工智能為中心,美國防部如何確定可能被利用的漏洞?
美國防部在超級智能方面的文獻有一個明顯的空白。這次探索的目的是填補文獻空白,確定這種技術所帶來的風險程度,并確定對手可能利用ASI攻擊美國的潛在漏洞。這將為國防界的決策者提供關于該主題的相關觀點,并告知在規劃和預測中應考慮該技術的程度。通過額外的研究,如果對手率先獲得ASI,可以減輕已確定的漏洞以防止其被利用。最終,本研究的目的是防止ASI軍事革命的出現成為一個黑天鵝事件,使美國失去其世界主導地位。
本論文試圖回答的主要研究問題是:對手如何利用ASI來取代美國作為世界主導力量的地位?為了回答這個問題并達到研究的目的,還需要回答幾個問題。 1.ASI有什么獨特的能力,使它能夠影響國家權力的信息和軍事要素? 2.對美國有敵意的行為者如何利用ASI的能力來實現作戰和戰略效果? 3.在信息和軍事領域有哪些弱點可以被擁有ASI的美國對手所利用?
作為對一項理論技術如何在未來作戰環境中使用的探索,必須對該未來環境的狀態做出若干假設。因為本論文的目的是確定脆弱性和評估風險,所以對該環境的假設是那些被認為有可能造成最大風險的假設。這些關鍵的假設在文獻回顧中都有更深入的闡述。
1.通用人工智能(AGI)將在2035年之前初步開發,并在2040年之前推進到人工智能。
2.美國的一個對手將是第一個開發AGI/ASI的人,并且該技術不會在他們的控制范圍之外被分享或擴散。
3.一個發達的人工智能是可控的,不具備獨立于其控制者的驅動力和動機,并作為其控制者意志的延伸而發揮作用。
4.2040年的作戰環境將如國家情報委員會2040年報告中描述的競爭性共存情景,主要特點是美國和中國之間的競爭。
雖然近年來國防界的成員們在文獻中充斥著關于人工智能的著作,但從國防的角度來看,關于超級智能主題的文獻存在著明顯的空白。雖然人工智能本身有可能在軍事和民用領域產生變革,但本研究將開始填補有關人工智能的未來及其創造軍事革命的潛力的知識空白。此外,這項研究還試圖確定潛在的弱點,這些弱點可能被控制人工智能的對手所利用,以廢止或取代美國作為世界主導力量的地位。這項研究的結果將為預測未來部隊需求的戰略計劃者提供洞察力。識別弱點是緩解的第一步;然而,還需要更多的研究來為識別的弱點找到解決方案。矛盾的是,本研究的真正意義只有在其預測沒有實現的情況下才能實現;也許表明它在防止所設想的負面情況的發生方面發揮了作用。