在當今快速發展的軍事領域,推進人工智能(AI)以支持兵棋推演變得至關重要。盡管強化學習(RL)在開發智能體方面大有可為,但傳統的 RL 在處理作戰模擬固有的復雜性方面仍面臨局限。本文提出了一種綜合方法,包括有針對性的觀測抽象、多模型集成、混合人工智能框架和總體分層強化學習(HRL)框架。使用片斷線性空間衰減的局部觀測抽象簡化了強化學習問題,提高了計算效率,并顯示出優于傳統全局觀測方法的功效。多模型框架結合了各種人工智能方法,在優化性能的同時,還能使用多樣化、專業化的個體行為模型。混合人工智能框架將 RL 與腳本智能體協同作用,利用 RL 進行高級決策,利用腳本智能體執行低級任務,從而提高了適應性、可靠性和性能。HRL 架構和訓練框架將復雜問題分解為易于管理的子問題,與軍事決策結構保持一致。雖然最初的測試并未顯示出性能的提高,但獲得了改進未來迭代的見解。這項研究強調了人工智能在兵棋推演中的革命性潛力,并強調了在這一領域繼續開展研究的必要性。
正如 CeTAS 報告所詳述的那樣,利用人工智能支持兵棋推演的方法有很多。不過,本文將重點關注人工智能在創建智能體方面的應用,這些智能體能夠在現代作戰建模與仿真 M&S 中典型的龐大而復雜的狀態空間中做出理性決策。
然而,創建一個能夠在游戲中獲勝或超越人類表現的人工智能,僅僅是表明人工智能能夠為兵棋推演者、作戰規劃者和軍事領導人提供有意義的見解的開始。盡管如此,這些智能體是開發現代決策輔助和支持工具的基礎,與傳統工具相比,它們能為決策者提供更高的準確性、速度和敏捷性。當在多領域行動中與裝備了人工智能的對手作戰時,忽視這一步會帶來巨大風險。
人機協作的概念,在文獻中也被稱為人機協同,最初是由利克利德在 1960 年提出的,但是前國際象棋世界冠軍加里-卡斯帕羅夫(Garry Kasparov)在 1997 年被 IBM 的 “深藍 ”擊敗后,提出了 “半人馬國際象棋”(Centaur Chess)的概念--即人類在對弈過程中與計算機協作。盡管輸給了人工智能,但卡斯帕羅夫倡導的理念是,不要將人工智能視為一種威脅,而應將其視為一種工具,在與人類能力相結合的情況下,可以取得非凡的成就。
在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點》[48]一書中,卡斯帕羅夫強調了利用人類和機器不同優勢的重要性。他指出,計算機擅長暴力計算,每秒能分析數百萬個局面,并計算出最佳的短期戰術棋步,而人類則主要通過直覺,帶來更深層次的戰略理解、創造力和辨別棋步長期后果的能力[48]。卡斯帕羅夫認為,人類直覺與機器計算的結合往往會產生比頂尖特級大師或計算機單獨發揮更強的棋藝。他觀察到,在許多情況下,即使是計算機輔助下的低級棋手也能超越頂級特級大師。
卡斯帕羅夫還討論了人類在這種 “半人馬 ”伙伴關系中的角色是如何隨著國際象棋人工智能的改進而演變的。最初,人類專注于戰略,而計算機負責戰術。然而,隨著國際象棋人工智能的進步,人類越來越多地承擔起 “質量控制 ”的角色,確保計算機建議的棋步符合更廣泛的戰略目標。他推測,國際象棋的未來可能并不取決于人類與機器的對決,而是取決于使用何種界面的人機團隊能發揮出最佳水平。這種合作將機器的計算能力與人類提供上下文、理解和直覺的能力結合在一起,使雙方的水平都超過了各自的能力。
最后,開發智能體是充分利用人工智能進行兵棋推演的基礎,無論是作為對手部隊、智能隊友、戰術顧問、COA 生成器、COA 分析器、COA 利用器、未來部隊設計、戰斗裁決、場景規劃,還是僅僅為了深入了解潛在結果。雖然腳本化智能體迄今為止已被證明是有用的,并將繼續有用,但現代戰爭的復雜性和不可預測性需要新水平的適應性和學習能力,而這只有 ML 才能提供。通過將超級智能體融入戰斗模擬,相信兵棋推演最終可以從靜態和可預測發展到動態和有洞察力,從而反映真實世界行動的不確定性。
本章介紹了開發智能體的基本背景概念,如搜索方法、博弈論、腳本代理、強化學習和分層強化學習。這些核心要素對于全面理解后續章節的研究至關重要。
在本章中,重點是介紹和驗證一種新穎的方法,通過采用片斷線性空間衰減的局部觀測抽象,克服 RL 智能體在較大場景中面臨的狀態空間挑戰。本章的核心內容已被第 16 屆國際 MODSIM 世界大會接受發表。所介紹的方法通過將智能體的觀測結果抽象為更緊湊、更易于計算管理的形式,簡化了智能體的感知狀態空間,同時保留了關鍵的空間信息。該研究通過一系列實驗證明,在不同的場景復雜度下,具有片斷線性空間衰減的局部觀測抽象始終優于傳統的全局觀測方法。這表明,這些類型的觀測簡化可以為在復雜環境中擴展 RL 提供計算成本更低的卓越解決方案,而這一直是該領域的重大挑戰。這些發現有助于推進 RL 觀察抽象的研究,并說明此類技術有潛力促進 RL 在復雜真實世界環境中的更廣泛應用,特別是在軍事模擬和兵棋推演領域。
本章介紹并驗證了多模型框架,該框架利用腳本模型和強化學習(RL)模型的組合,根據游戲的當前狀態動態采用最佳模型來提高性能。本章的核心內容已接受在 2024 年 SPIE 國防與商業傳感會議上發表。
這種多模型框架顯著提高了性能,最全面的多模型(即包含最多單個行為模型的多模型)優于所有單個模型和較簡單的復合模型。這表明,即使是表現較差的單個模型也能在特定情況下做出積極貢獻,突出了模型庫中多樣性和專業化的價值。研究結果強調了多模型系統在增強軍事模擬等典型的復雜、動態環境中的決策能力方面的潛力,提倡戰略性地融合人工智能模型和技術,以克服訓練單一通用模型所固有的挑戰。
本章介紹并驗證了一種混合分層人工智能框架,該框架將 RL 代理與腳本代理整合在一起,以優化大型作戰模擬場景中的決策。傳統的腳本代理雖然具有可預測性和一致性,但由于其僵化性,在動態場景中往往會失敗。與此相反,RL 智能體雖然在大型模擬環境和不透明的決策制定過程中舉步維艱,但卻能提供適應性和從互動中學習的能力。
開發了一種新穎的方法,在這種方法中,分層結構采用腳本智能體進行常規、戰術級決策,采用 RL 智能體進行戰略、更高級決策。腳本模型的一致性和 RL 模型的適應性之間的協同作用大大提高了性能,在利用這兩種方法的優勢的同時似乎也減輕了它們的弱點。這種整合產生了一個更有效的人工智能系統,它可以應對軍事模擬中更廣泛的戰略和戰術挑戰。
本章是論文工作的頂點部分,概述了設計、開發以及將整個論文中討論的方法整合到新型 HRL 架構和訓練框架中的過程。通過將不同層次的觀測抽象和多模型方法整合到所提出的框架中,探索了這一 HRL 方法在復雜決策環境建模中的潛在優勢和局限性。通過評估這些技術對學習過程和決策效率的影響,與傳統的腳本和RL方法相比,旨在進一步了解構建和訓練HRL系統的動態和挑戰。
最后一章介紹了論文的核心研究成果。討論了研究的理論和實踐意義,強調了研究的優勢和局限性,概述了對人工智能和作戰 M&S 領域的貢獻,并回答了本章提出的研究問題。此外,還利用整個 HRL 實驗的結果來激勵和明確未來的工作。
圖 6.12. MOBA 智能體分層架構。分層架構由宏觀戰略和微觀操作組成。
美國國防部(DoD)對利用人工智能(AI)增強具有作戰行為的軍事模擬越來越感興趣。本文探討了深度有限神經(DLN)搜索的應用--一種集成了卷積神經網絡(CNN)的博弈樹搜索技術,作為在特定方案下訓練的評估函數,以提高人工智能在生成戰斗行為方面的可擴展性和有效性。利用專為人工智能研究設計的軍事模擬平臺 Atlatl 進行了各種實驗,以評估 DLN 在不同場景下的性能。這些實驗包括測試訓練 DLN 的人工智能組合、評估其在多個對手面前的表現,以及探索環境規模和單位數量的變化。此外,研究還采用了 DeepMind 的 AlphaStar 所展示的聯盟訓練概念,以訓練人工智能模型,避免過度擬合并制定穩健的策略。研究結果表明,在基準場景下,DLN 優于現有的替代方案,但在擴展到更大、更復雜的環境方面仍存在挑戰。這些發現為人工智能驅動的軍事模擬的未來研究與開發提供了寶貴的見解,支持了美國陸軍作戰能力開發指揮分析中心(DEVCOM DAC)正在進行的工作。
本文分為五章。第 1 章概述了研究內容,包括論文的背景、動機、問題陳述、目標、意義、范圍和結構。第 2 章回顧了有關軍事模擬中的人工智能的現有文獻和研究,指出了當前知識中存在的差距,并討論了對抗樹搜索、DLN 和 Atlatl 框架等相關概念。第 3 章詳細介紹了進行實驗所使用的方法和程序。其中包括研究設計、數據收集方法和分析技術。第 4 章詳細介紹了實驗結果,提供了數據和結論。第 5 章對結果進行分析和解釋,與現有研究進行比較,討論其影響,解決論文中提出的研究問題,總結主要發現,討論對該領域的貢獻,并提出未來研究的方向。
圖 2.7. 顯示的是啟用人機交互后瀏覽器中出現的 Atlatl 場景示例。該場景顯示了多種不同的地形和單位類型,以及代表敵對勢力的紅色和藍色隊伍。
本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
美海軍陸戰隊缺乏準確訓練部隊在對抗性電磁頻譜(EMS)內作戰的基礎設施。本文通過開發和原型設計一種工具來解決這一問題,該工具可實時捕獲實時頻譜數據并將其集成到建設性模擬中,從而在訓練期間提供逼真的反饋。研究重點是利用實時、虛擬和建設性環境原則、開源軟件、軟件定義無線電、商用硬件和 Battlespace Simulations公司的現代空戰環境模擬創建一個原型系統。在分布式仿真工程和執行過程框架前三個步驟的指導下,本文詳細介紹了開發原型的系統方法。該原型通過軟件定義無線電捕捉實戰單元特征并將其集成到電子戰(EW)模擬中,從而創建了一個逼真的訓練環境。這種創新方法解決了重大的訓練難題,增強了訓練效果,使海軍陸戰隊能夠在模擬 EW 場景中進行有效訓練。研究的一個關鍵方面是驗證原型是否能夠利用實時 EMS 數據激發建設性的 EW 場景。這項研究為提高 EMS 訓練能力提供了一個基礎性解決方案,使部隊為未來以 EMS 為主導的沖突做好更充分的準備。
第一章概述了整篇論文的結構化信息流,詳細介紹了各章如何應對核心挑戰,以及在有爭議的 EMSE 中加強小單元訓練的解決方案。論文的編排旨在提供一個全面的理解,從背景開始,以基礎概念奠定基礎,通過概念模型的開發,詳細介紹最小可行產品(MVP)、訓練頻譜捕獲工具(TSCT)的創建,最后總結研究結果和未來工作建議。
第二章--背景。本章討論了 EMS 所面臨的挑戰和復雜性。它解釋了 EMS、EMSO、EW 以及小單元目前在有爭議的 EMS 中面臨的威脅。這些基礎性信息為后續章節奠定了基礎,探討了創建真實訓練場的主要障礙,這些訓練場可以復制未來有爭議的 EMS 環境。本章強調了小型單元了解并在有爭議的 EMS 環境中行動的關鍵需求,強調了開發訓練場以提高其在未來沖突中的殺傷力和生存能力的重要性。
第三章--通過 DSEEP 建立概念模型。本章圍繞 “分布式仿真工程與執行過程”(DSEEP)的前三個步驟,記錄了利用電子戰仿真和頻譜捕獲開發訓練場工具的過程。第 1 步-確定仿真環境目標包括論文的初步規劃,概述 EW 訓練中需要通過仿真解決的問題。第 2 步-進行概念分析,包括詳細設計和制定所需的仿真環境和工具要求,以支持目標的實現。步驟 3-設計仿真環境,重點是詳細規劃仿真系統和集成仿真環境。這種系統化的方法可確保訓練場的開發過程徹底有效。
第四章-訓練頻譜捕獲工具。本章詳細介紹了 “訓練頻譜捕獲工具 ”的流程和設計。它概述了利用模擬和實時注入這些模擬的方法,為準確構建逼真的實時 EW 場景奠定了基礎。通過將 TSCT 與 EW 模擬集成,本章展示了如何捕獲實時頻譜數據并用于激發建設性 EW 模擬。
第五章--結論與未來工作。本章對論文進行了總結,包括主要發現和應用經驗教訓的建議。它強調了 TSCT 在訓練場景中的潛在應用,并概述了對未來研究工作的建議。本章強調了繼續開發和測試的重要性,以完善 TSCT 并提高其在小分隊訓練中的實用性,確保海軍陸戰隊能夠更好地應對在有爭議的 EMS 中作戰的挑戰。
本文是研究指揮與控制(C2)未來表現形式的四篇系列論文中的第一篇。第一篇論文通過探討未來指揮與控制(C2)系統需要在其中運行的未來作戰環境,為后續研究設定了基線。具體來說,本文探討了復雜性的驅動因素、表現形式和影響,而此前的研究表明,復雜性很可能是這一環境的特征。為此,它討論了 C2 和復雜性等關鍵術語的定義;介紹了未來運行環境中復雜性的一些驅動因素,并討論了這些因素如何對 C2 系統和組織造成新的壓力;研究了分析和理解復雜性的可能方法;并概述了 2030 年代及以后可能產生的一些實際考慮因素。由于本文旨在為本系列的后續三篇論文提供資料,因此沒有全面涵蓋未來 C2 思考的所有方面,包括提出具體建議。
C2 沒有直截了當的定義,對于該術語在當代作戰環境中的范圍和相關性也存在爭議。對 C2 傳統定義的批判來自于對 21 世紀有效領導力構成要素的更廣泛質疑。在英國、美國和北約,最近出現了大量與 C2 相關的新術語,并將重點從聯合思維轉向多領域思維。我們的研究將 C2 定義為一個動態的、適應性強的社會技術系統,因此有必要考慮組織、技術和人力要素。
同樣,復雜性也沒有一個公認的定義。學術界對復雜性的研究日益增多,涉及多個科學學科,但缺乏統一的方法或理論框架。一個有用的出發點是區分簡單系統、復雜系統、復雜系統和復雜適應系統。文獻還描述了在這些條件下可能出現的所謂 "棘手"或 "超級棘手問題"。還可以對有限博弈和無限博弈進行重要區分--這是考慮作為復雜適應系統的國家間競爭時的一個有用視角。鑒于這些爭論,我們的研究避開了對復雜性的僵化定義,而是從其關鍵屬性的角度對這一現象進行了 DCDC 式的描述。
未來作戰環境的特征--以及國防 C2 系統和組織預計將執行的任務類型--具有很大的不確定性,因此任何預測都必須謹慎。盡管如此,文獻指出了各種政治、經濟、社會、技術、法律、環境和軍事(PESTLE-M)趨勢,預計這些趨勢將影響國際體系的演變,進而影響 2030 年及以后的國防行動。這些趨勢包括以下宏觀趨勢
最重要的是,沒有一個單一或主要的趨勢推動著變化或復雜性;相反,最令人擔憂的是多種因素的融合及其不可預測的相互作用。這種認識為進一步研究這些趨勢影響國際體系復雜性水平和特征的具體機制提供了基礎,從而為在這一領域開展工作的 C2 帶來了新的挑戰。
上述 PESTLE-M 趨勢為未來組織應對 C2 帶來了一系列困境和壓力,包括但不限于
此外,無論是理論家還是實踐者,在處理包含非線性動態的問題時,都缺乏有力的措施來衡量所做決定或采取的行動的有效性。因此,很難確切地說未來作戰環境中的復雜性是否在客觀上不斷增加(而不是以不同的形式出現),但對軍隊應處理的復雜任務的政治期望與當前 C2 方法的執行能力之間顯然存在巨大差距。當前的學術理論為決定如何在復雜環境中配置 C2 提供了一個方法工具包的初步輪廓和一些指導原則,但并沒有提供靈丹妙藥。該理論強調審議分析方法,即讓不同利益相關者參與共同設計、借鑒多學科和知識體系的見解,并在分析和決策過程中建立靈活性,以便根據反饋意見不斷迭代和改進的方法。
要應對復雜的自適應系統,就必須摒棄當前的線性 C2 流程和等級結構,盡管在處理非復雜任務和問題時,更傳統的方法可能仍然有用。在競爭激烈的世界中,英國既需要培養能夠對他人施加建設性影響的特性和能力(例如,將復雜性強加給對手的 C2),也需要培養能夠增強自身駕馭復雜性能力的特性和能力。
要影響敵對行動者的觀念、決策和行為,首先要深入了解其 C2 結構、流程和文化。根據這種了解,英國國防需要一套動能和非動能杠桿,對敵方的 C2 施加建設性影響,包括施加復雜性。除了敵對行動者,英國國防部還需要進一步了解如何對 PAG、盟友、合作伙伴、工業界、學術界、公民和對 C2 采取截然不同方法的其他人施加建設性影響。
在增強英國自身應對復雜性的能力方面,未來的 C2 系統和組織必須促進靈活性、復原力以及學習和適應能力等特性。整個決策周期都需要變革。例如,傳感器和通信技術的進步為獲取更多深度和廣度的數據提供了機會,包括有關復雜問題的數據。因此,提高認知能力對于理解所有這些數據至關重要,既要利用人類和機器的優勢,又要減少各自的缺點。要改變決策方法,還需要改變領導風格,以培養更善于駕馭復雜適應系統的決策者。在做出決策或計劃后,提高跨部門或跨層級的能力,在實施階段更好地整合活動或匯聚效應,對于抵消英國的局限性(如在質量方面)至關重要。
同樣,整合也不是萬全的;如果國防缺乏足夠深度的力量和能力,無法在充滿敵意的威脅環境中采取可信行動或維持高節奏行動,那么即使是最高效的指揮控制系統也無法在未來取得成功。此外,還需要采取防御措施以及恢復和失效模式,以阻止或減輕敵方破壞 C2 系統和組織的努力所造成的影響。鑒于所面臨的威脅,以及英國國防可能需要解決的不同形式的復雜問題,很可能會同時出現多種并行的 C2 模式,而不是單一的方法。應對復雜性意味著不斷學習、適應、創新和開放求變。因此,必須從一開始就將效果衡量標準、信號和變革機制納入計劃以及 C2 系統和組織,使其能夠隨著時間的推移不斷學習和調整,以應對各種情況。至關重要的是,未來 C2 系統和組織的設計只是挑戰的一部分--它們還必須得到更廣泛的國防企業緊急改革的支持,以確保獲得所需的使能因素(人員、技術等)。從 C2 的角度來看,這本身就是一個挑戰,因為改變這個企業--一個復雜的適應性系統--本身就是一個棘手的問題。
學術理論家和政府、軍事或工業從業人員對復雜性或復雜適應系統的理解并不全面,而這正是未來 C2 運行環境的特點。雖然文獻提供了處理復雜性的有用方法和工具,以及未來 C2 的一些初步設計考慮,但英國 C2(本身就是一個社會技術系統)的現代化和轉型將是一項高度復雜的工作。這意味著要與不斷發展的作戰環境、不斷變化的威脅和技術環境共同適應,從而進行迭代和不斷學習。因此,最緊迫的挑戰或許是,考慮到 C2 系統在未來面對復雜性時取得成功所需的轉型(技術、結構、流程、文化、教育等)的程度和性質,了解如何在一段時間內最好地引導這一過程。
自相矛盾的是,要克服實現以應對復雜性為目標的 C2 系統所面臨的障礙,可能需要英國國防部已經表現出其所尋求建立的系統的許多特征。面對這樣的循環邏輯,英國國防部可能需要某種外部沖擊來迫使其進行創造性的破壞,或者利用(或不顧)更傳統、線性的 C2 方法來啟動自身的激進改革努力,并隨著時間的推移,隨著變化的到來而進行調整。
本文提出了一個海軍作戰管理系統(CMS)架構,考慮到電子戰(EW)與人工智能(AI),以應對現代高超音速和低觀測能力的威脅,其中反應時間可能很短,需要自動化。它使用一個反制措施案例研究作為數據要求,拍賣傳感器任務,人工智能過程,以及認知復合感應的數據融合。該文件還強調了已經公布的關鍵認知電子戰能力,以證明該架構的合理性。該架構的方向是用高反應時間的自動化人工智能驅動的認知DM來取代人類決策者(DM)。
當把人工智能(AI)應用于電子戰(EW)時,它不僅要幫助決策者(DM)進行態勢感知(SA),還要滿足點、區域和區域防御以及反目標活動的需要。電磁波譜是密集的,有許多通信和雷達發射器。因此,挑戰在于如何將人工智能應用于能夠滿足管理部門需求的EW系統。因此,它必須能夠整理出感興趣的信號(SoI)[1],如部隊的信號和與指定任務無關的信號。這項工作的基礎是 "常規戰爭 "中的反導彈反應,以便與傳統的交戰進行更直接的比較。影響反艦導彈(ASM)成功的一些主要因素是雷達橫截面(RCS)、紅外橫截面(IRCS)、視覺和紫外線(UV)特征。因此,目標艦的特征是決定被動軟殺傷[2]反措施(也叫伎倆)性能的一個基本因素。然而,反坦克導彈也可以使用主動雷達尋的方式進行瞄準和跟蹤。因此,射頻(RF)和微波(MW)的截面特征是重要的,同時還有光輻射量子(或光子)、方位角和機動中的方位率,以及它們的戰術影響。因此,現代操作環境在處理電磁波譜方面存在挑戰,人工智能的自動化和自主性是解決這一挑戰的理想選擇。
本文描述了一個架構,其中包括用糠和干擾器進行軟殺傷;用導彈、火炮和火控系統進行硬殺傷;以及一個跟蹤目標并協調軟殺傷和硬殺傷反應的指揮和控制系統。本文僅限于假設反坦克導彈是使用射頻主動雷達尋的目標和跟蹤的海上滑行。因此,這項工作的中心是簽名管理、大型目標船的規避動作、船上被動型誘餌系統(如金屬箔片和反射器)的操作性能,涉及反坦克導彈的跟蹤方案和交戰環境,包括風速和風向。擊敗導彈威脅的一個基本因素是反應時間;隨著高超音速的出現,時間因素成為反應殺傷鏈的決定性因素。潛在導彈平臺的識別標準是最基本的;它們將允許更精確的SA,迅速讓DM消除發射平臺。鑒于反導鏈反應的時間很短,人的頭腦無法計算巨大的信息量,并在短時間內決定反應的類型,要么是硬殺傷,要么是軟殺傷,要么是兩者兼而有之;那么人工智能就成為反導系統中的基礎[3] [4]。因此,人類的DM理論不能用于遙遠的未來,因為它要求對形勢的分析速度、識別能力、對威脅的立即反應,以及在人類思維的指揮鏈中進行計算和決定,因此不能提供所需的反應時間。本文的最后部分介紹了幫助平臺保護速度的架構,朝著定義CMS中的設備連接方向發展,同時還介紹了一些已經發表的關鍵技術。
第1節是介紹、動機、方法和論文結構。第2節提供了一個常規條令性例子戰術和反擊方法,用于在架構中需要支持的硬殺和軟殺。同時,在第2節中,還介紹了軟殺傷反擊方法的主動、被動和綜合方法。此外,第3節是一個使用飛毛腿和機動性的交戰例子,展示了所需的關鍵數據。第4節介紹了所提出的AI/EW技術的架構。最后,第5節是結論。
人工智能應用于電子戰時,不僅要保證DM(決策者)的SA(態勢感知),而且還必須滿足點和區防御以及反目標活動的需要。電磁波譜因無線電和雷達發射器而加劇,一個挑戰是將人工智能應用于能夠滿足DM需求的EW系統,因此它必須能夠分出感興趣的信號,例如其海軍部隊的信號。另外,哪些信號對指定的任務沒有影響。
一個陸軍師的基本 "有機 "通信和電子設備,在一個典型的70公里乘45公里的地區作戰,是超過10,700個單獨的發射器。一個支持性的空中遠征部隊(AEF)會帶來另外1400個,而一個典型的海軍航母戰斗群會帶來另外2400個發射器[20]。比如說: 在沙漠盾牌/沙漠風暴中,六個陸軍師和一個海軍陸戰隊師都占據了相同的地理和電磁波譜空間,還有許多其他聯軍和指揮控制網絡[21]。鑒于這種信息密度,認知型EW也必須與人工智能概念和認知循環階段的相關挑戰相一致。
為幫助EW和AI的受眾,我們提供了一個AI和EW術語的表格,在表1中,這些術語有一些對應關系。
表1 等效AI和EW術語
電子戰被正式定義為三個部分:
在圖10中,Haigh和Andrusenko[15]提出了一個EW和AI的組合架構,它跨越了殺傷鏈階段,將AI的特征和分類輸入一個融合引擎,以建立一個意圖,這個意圖是由因果關系和異常檢測階段推斷出來的。
圖10 與EW功能相關的EW和AI能力[15]。
Haigh和Andrusenko的論文與EA之前的ES的數據融合觀點一致,同時保持EP。因此,人工智能方法被應用于特定發射器的分析、特征描述和分類,作為數據融合之前的模式匹配工作。然后,這些方法被用于異常檢測和因果關系搜索,以實現意圖識別。這是一個信息漏斗,在EA/EP方面,這些方法更多的是優化適應性,而不是智能,這貫穿于整個殺傷鏈,并應用于任務管理的決策援助和與電子戰令(EOB)和網絡管理有關的人為因素。不難看出,AI態勢評估、DM和機器學習(ML)能力與所有EW功能相關。每個認知型EW系統的第一步是電子支持(ES),以了解射頻頻譜。在人工智能界被稱為情況評估,ES確定誰在使用頻譜,他們在哪里和何時使用,以及是否有可以 "利用 "的模式。AI/ML技術可以使用特征估計、發射器特征和分類、數據融合、異常檢測和意圖識別。圖11顯示了任務前準備和任務后分析與任務中需求的重疊。
圖11 任務中、任務前和任務后的重疊部分
ES對環境進行分析,并創造出驅動決策者(DM)的觀測數據。日益復雜的情況將頻譜態勢感知(SSA)定義為 "收集有關頻譜使用的不同信息并處理這些信息以產生一個融合的頻譜圖"[15]。SSA收集、組織和處理EW所需的頻譜數據。SSA必須以近實時(NRT)的方式進行,以滿足任務中的決策者的需要,SSA必須結合各種支持技術,包括傳統的和認知的。然而,一個挑戰在于相關技術的整合和展示,其中只有少數是認知的,以減少脆性和處理新的發射器。人工智能和ML能力可以在每個層面上改善SSA,這是在其他相關SSA技術背景下對這些AI/ML技術的看法。一個完整的EW系統必須有多層面的SSA。未來的SSA系統可以用深度學習模型來生成潛在的特征,用經典的ML模型來進行任務中的更新,以及用混合模型來抵消有限的數據。此外,SSA不一定要完全依賴射頻數據: 它可以與非射頻數據融合,如視頻和靜態圖像、自由空間光學、或開源、戰術或作戰情報。跨越多個異質來源的分布式數據融合必須創建一個在空間、時間和頻率上都準確的連貫的戰地頻譜共同作戰圖。異常檢測、因果推理和意圖推理使作戰圖更加完整,以了解事件的影響并支持管理部門。
Rudd-Orthner等人[14]用圖12中的 "影響范圍 "概念[18]擴展了這一概念,并增加了一個 "保護洋蔥 "框架,以根據數據需要選擇對策。
圖12 影響范圍
他們指出,威脅武器系統有變得更加復雜的趨勢,這種復雜性的增加至少可以部分歸因于:戰術的演變、技術發展的速度和數字化的現代化,但也有一種趨勢,即隨著人類決策和反應時間的減少,威脅的作用也在擴大;隨著自主系統的效力和使用的增加,這種情況也許更加明顯。自主系統的崛起在所有領域都在發展: 陸地、空中、海上、太空和網絡。自主系統的規模各不相同,從無人值守的槍支系統到自主空中平臺。這些自主平臺運作的作用也在不斷擴大,因此在打擊它們時,可能需要在綜合防御輔助系統中匹配復雜性,作為打擊復雜威脅系統的戰略。這些復雜平臺的作用和能力的增加,可能導致單一平臺的作用不大,并為其他平臺提供 "保護投射 "的要求。與此相結合,利益相關者群體也更加多樣化,科學家/工程師、機組人員和任務生產程序員之間的溝通機制也是挑戰,這樣他們都可能做出有意義的貢獻,并與他們的利益相關者群體的價值互補,正如Rudd-Orthner等人所說。
圖12中的維恩圖顯示了數據可用性的 "影響范圍":保護平臺/部隊、威脅或武器系統和防御限制與反措施設計考慮相疊加。Rudd-Orthner等人指出,這些不同的反措施考慮加上不同的可用數據,可能對反措施戰術設計形成影響范圍。
Rudd-Orthner等人在[14]和[19]中應用了多視角威脅分析圖解技術,該技術基于判別器、操作視角、系統視角以及對策設計考慮和影響范圍的維恩圖,適用于保護的洋蔥。他們在維恩圖中描述了反措施的設計考慮,將反措施的設計意圖描繪成一種規范,而不是ECM干擾器技術設施。在這種情況下,反措施設計考慮表示戰術的反意圖。論文[14]和[19]還建立了一個保護洋蔥的概念,利用反措施設計的影響因素和組織成洋蔥層的數據源,將揭示的數據分層管理。其中這些層級建議的對策方法也是與該威脅殺傷鏈階段的威脅意圖直接相反的,使得它也是一個測量的反應和保護數據模型在所揭示的數據。表2顯示的是保護洋蔥的層級(第1層是最外層)和反措施設計考慮,影響范圍與威脅系統的殺傷鏈意圖的映射。表2提供了保護洋蔥的六個層次。
表2 保護洋蔥
洋蔥層/影響范圍/CM設計考慮因素 | 注釋 |
---|---|
第1層發現/受保護的平臺/減少的可探測性 | 對抗早期預警、空中搜索或地面控制攔截雷達的探測或行為,使被保護平臺脫穎而出。該戰術針對的是殺傷鏈的意圖,并不顯眼,是利用對自身平臺數據的了解。 |
第2層定位/受保護的平臺/降低可探測性 誘餌和欺騙 | 具有欺騙性和誘騙性的反目標獲取或高度查找雷達可用于降低信息或反擊某個范圍或高度。 |
第三層識別/保護平臺 武器系統/降低可探測性 誘餌和欺騙 分散注意力 拒絕破壞 | 用旨在造成混亂的措施來對抗識別,以延遲對你的分類或身份的評估,識別可以基于行為或使用特殊雷達模式,如NCI。 |
第4層跟蹤/保護平臺武器系統/降低可探測性 誘餌和欺騙性分散注意力 | 用干擾、分散注意力和拒絕的方式來對抗威脅,可以是目標獲取雷達或更高數據率的搜索模式,如窄掃描軌道,同時掃描模式。 |
第5層 交戰/防御限制 武器系統保護平臺/降低可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 破壞 | 使用所有可用的能力擊敗威脅,硬殺和軟殺取決于ROE,是傳統的平臺自我保護。可以使用破鎖和信號處理以及跟蹤目標的戰術。 |
第6層 處置和效應/防御性限制 武器系統保護平臺/減少可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 毀滅 | 使用所有可用的軟硬殺傷能力擊敗威脅,是傳統的平臺自我保護。可能使用破鎖和信號與跟蹤處理的目標戰術,并可能同時采用針對尋的器和雷達的技術。 |
認知型電子戰系統的設計必須提供態勢感知、決策和學習能力。一般來說,系統要求推動了一系列關于哪些問題和它可能需要回答的問題的決定。決策可能是反復的,要么是集中的,要么是隨部隊效應范圍分布的。他們將一個問題表示為規格,并受制于AI代理的拍賣。就我們如何定義和調整優化函數而言,利用領域的物理學與參與的進展可能會減少狀態和交易空間。問題來自于像干擾這樣的設計結果所需的緊迫性和缺失的數據。因此,選擇對策和感覺的C4L參數、'while'或'if'條款都是數據要求,可能形成問題對話鏈或問題樹,在殺傷鏈的不同處置路線中需要。因此,這些對話鏈或問題樹就像專家系統的規則庫格式。因此,所需的數據就以拍賣的方式給投標的傳感器。這樣一來,邏輯路線總是有目的性的結果,而DM和傳感器的使用也是如此。另外,隨機森林[22]可以減少熵,增加信息增益。
雖然具有高度的適應性,但先進的雷達和軟件定義無線電(SDR)架構通常依賴于定制的API,單獨暴露每個參數。這種方法不適合EW系統中的近實時認知控制,因為緊密的耦合意味著人工智能不能做出全局性的決定。組成模塊必須是高度模塊化和可組合的,以消除這一障礙。通用接口允許模塊暴露其參數和依賴關系,從而實現全局優化和跨多個處理器的計算負載平衡。通常,由RESM(雷達電子支持措施)攔截的發射物是通過發射物數據庫識別的。發射者被識別出來,并在本地認可的海上圖像(LRMP)中得到體現。當通過數據庫確認為一種威脅時,它可以接受DM的詢問和拍賣:
為此,我們需要一個中間代理,提供一個模塊化的結構組件,允許不同的技術提供不同的服務,并確保信息/控制的一致流動,與John Boyd的OODA循環[23]一致,但適用于數據處理和DM。
圖13 模塊化架構
軟件架構的一個例子是ADROIT。自適應動態無線電開源智能團隊(ADROIT):用中間代理認知控制SDR節點之間的協作。ADROIT項目正在建立一個開源的軟件定義的數據無線電,旨在由認知應用程序控制。模塊暴露了它的參數和它們的屬性(特別是讀/寫)。當一個模塊發生變化時(例如,增加一個新的參數),它只需揭示新的參數,并在一個發布-訂閱機制中公開參數(名稱、屬性),而不是為該新參數增加一個新的API函數;這也可以擴展為一個組播目的地,給后來仍需要定義的模塊。ADROIT用圖14所示的模塊實例化了中間代理。
圖14 ADROIT體系結構支持認知代理
處理不同的或變化的傳感器的一種可擴展的方式是,如果所有的設備可以減少不確定性或提供額外的數據來回答一個殺戮鏈階段的問題,就將它們定義為傳感器。因此,這些傳感器可以成為拍賣算法的參與者,以其回答問題的能力來競標。在不同的操作環境下,拍賣算法中的分數可以改變,因此,不同的傳感器選擇提供較低的可觀察性或與當前的ROE、受限的EMCON或當前的傳感器利用相一致。通過這種方式,形成了一個問答循環,完善了對情況的理解,同時在提問的基礎上做出增量決定,并使環境情況有利于他們的部隊使用保護洋蔥的一個版本。此外,同樣的拍賣優化可以與反措施一起執行,其概念是,如果一切都能影響當地的殺戮鏈決策或導致結論或問題發生在受害者身上,那么它就是一個影響者。由此可見,C4L提供了一種以標準形式指定反措施行動和傳感規格的方法;這些規格可以一起拍賣,以便在一個可適應的模型中獲得最佳效果和傳感,然后該模型將優化殺戮鏈的進展,為跟蹤的對手的殺戮鏈進展提供優勢。在圖15中,本文展示了EW系統如何在拍賣優化的基礎上與具有認知DM的作戰管理系統(CMS)集成。威脅的檢測/識別/鑒定/分類被轉移到不同的數據庫中,但這些過程和數據庫的不確定性導致了傳感器的重新任務。這些都是拍賣,根據傳感器解決情況的不確定性的能力來分配任務,并根據緊急程度來確定優先次序;這使用了從保護的角度預測威脅的殺傷鏈意圖。這些過程越可靠,立即識別和反應的概率就越高。為了進一步提高這一結果,管理部門必須考慮機器學習中的其他參數,以適應當地環境的傳感任務和對策效果的拍賣。
圖15 數據布局EWS與CMS集成
有些參數可能不為人所知,也可能沒有方法或傳感器來提供這些參數;因此,Rudd-Orthner等人[24]的專家系統的神經網絡形式作為數據庫的疊加,在這些情況下提供一個估計值。它還可以提供一個由貝葉斯網絡進一步引導的值,該網絡可以將從環境中收集的傳感器事實與來自其規則的知識結合起來,使其不容易被收集的事實所欺騙。此外,在圖16中,也是在人工智能的背景下,所提出的架構將EW系統與CMS結合起來。它通過一個反饋回路支持 "態勢感知",根據威脅殺傷鏈的位置重新安排傳感器的任務,以快速解決識別和確認的不確定性,更新跟蹤的準確性,并為CMS和EW系統資源提供戰術清單作為選擇。
圖16 ID標準交互模型
在圖16中,DM能力因此積極主動地利用感知能力直接處置威脅,并為反制措施/部署制定了時間表。這些反措施/部署應按照RuddOrthner等人的保護理念,利用推斷出的威脅的殺傷鏈位置階段,直接對抗威脅的意圖。因此,傳感要求可以在拍賣算法中與可供選擇的策略/反措施交錯安排。同樣,在威脅分析和處置的關鍵時刻,一些所需信息可能無法在DM中獲得,但可以使用RuddOrthner論文中提出的神經符號-AI專家系統方法的代數專家系統部分進行估計。可控的可觀察數據可能來自人工智能環境中的數學或認知學習發展過程。我們可以認為這些有助于識別目標的元素是可觀察的,這些元素在DM中是可控的。
圖17 CMS和EW CM系統中的威脅數據路徑
在圖17中,本文展示了一個威脅發射器從EW系統進入CMS部分的順序。從EW系統的庫或數據庫中識別截獲的發射器;該數據庫包含物理雷達特征: PRI、頻率、PW、振幅、掃描類型、掃描周期平臺等級和威脅名稱;采集類型的特征,ECCM,如原點干擾(HOJ)Chaffs辨別,紅外,雙導射頻和紅外。如果發射物未被識別為威脅,則在本地識別的海上圖像中直接代表發行者。如果被確認為威脅,它將遵循不同的路徑,如前所述。導彈的獲取和ECCM的類型在反應鏈中具有巨大的價值。如果它有HOJ能力,最好是通過C4L中捕獲的特定計算直接干預硬殺傷和誘餌發射;該選定的C4L規格是由保護的洋蔥頭選擇的,它與頻譜中的感應計劃一起安排。該規格將誘餌定位在C4L所確定的與發射船的一定距離和特定的β值。除了在CMS上表示威脅的到達方向外,EW系統還將C4L搜索數據和傳感規范發送到多功能雷達(MFR)和火控雷達(FCR)作為即時硬殺傷系統。本文在圖18中畫出了由人工智能支持的戰斗管理系統(CMS)的架構基礎。在標準環境塊中,還有四個相互關聯的組件:
1.傳感器管理,提供設備監視器(資源管理器)的管理,傳感器信息的收集和軌道管理;在這個塊中,所有的相關數據都匯聚到機載傳感器,如雷達、聲納、ESM雷達、通信ESM、導航輔助設備和氣象數據。在這個架構中,一個傳感器的任務和它的優先權來自于它的成熟度和殺傷鏈。在這方面,關于Rudd-Orthner等人,威脅意圖的成熟度被評估為使用保護洋蔥的反意圖對策,并嵌入到Haigh和Andrusenko的殺傷鏈階段,其中的整合是通過ADROIT架構的發布和訂閱機制,這允許快速和靈活的整合和擴展。
2.在架構的第二塊,有信息管理,其中本地軌道與來自鏈接網絡的軌道相關聯,根據識別標準識別目標的追蹤,管理技術決策輔助工具和信息,共享共同的操作畫面,該畫面中的不確定性和異常情況引起了傳感器的任務。
3.第三塊代表戰斗管理,它提供了對威脅的評估計劃和武器優先權的分配--演習的計算和艦隊內與戰斗有關的信息交流。
4.最后一個區塊是資產管理,使用C4L規范和序列,允許艦艇同時協調幾個進攻和確定的目標。
圖18 AI應用于CMS結構
在DM處理環境之外,人工智能也同樣適用于智能處理環境,類似的技術疊加數據庫和ML提取,走向專家系統規則捕獲[25]。在人工智能輔助的CMS中,數據流入信息管理數據融合,使計算機系統在沒有明確編程的情況下利用歷史數據進行預測或做出一些決定。機器學習使用從IMDF(信息管理數據融合)獲得的大量結構化和半結構化的數據,這樣機器學習模型就能產生準確的結果,或根據這些數據提供預測。
美國海軍部長以審慎的方式分布海軍兵力,以支持美國防部(DoD)的指導、政策和預算。目前的戰略、部署和分布(SLD)過程是勞動密集型的,時間密集型的,而且在考慮競爭性的替代計劃方面的敏捷性較差。SLD可以從人工智能的實施中受益。本文引入了一種相對較新的方法來解決這些問題,該方法最近來自于海軍研究辦公室資助的一個早期項目,該項目結合了機器學習、優化和兵棋推演的深度分析。這種方法被稱為LAILOW,它包含了利用人工智能學習、優化和兵棋推演(LAILOW)。在本文中,我們開發了一套獨立的偽數據,模仿了實際的、分類的數據,這樣就可以安全地進行實驗性游覽。我們展示了LAILOW為每一艘可能被移動的可用船只產生了一個類似于兵棋推演場景的分數。每艘船的分值都會增加,因為需要較少的資源(如較低的成本)來滿足SLD計劃的要求,將該船轉移到一個新的母港。這就產生了一個數學模型,能夠立即比較可能被選擇的競爭性或替代性船舶移動方案。我們設想一個更加綜合、一致和大規模的深度分析工作,利用與現有真實數據源相聯系的方法,更容易地對通過SLD過程考慮的平臺移動的潛在方案進行直接比較。由此產生的產品可以促進決策者學習、記錄和跟蹤每個SLD過程中復雜決策的原因,并確定部隊發展和部隊組建的潛在改進和效率。
圖1. 在共同進化兵棋推演模擬中查看LAILOW;ML算法(即SoarRL)被用來模擬雙方的玩家或效用函數。
本文詳細介紹了與研究問題和規定階段有關的方法。我們應用一個數學模型(即Leverage AI to Learn, Optimize, and Wargame[LAILOW]模型)來解決研究的深度分析問題。LAILOW源于ONR資助的一個項目,該項目專注于機器學習、優化和兵棋推演的深度分析,本質上是Leveraging AI,由以下步驟組成:
學習: D數據、數據挖掘、機器學習和預測算法被用來從歷史數據中學習關于什么和如何做出決定的模式。來自競爭需求的數據是指來自艦隊指揮官、國家領導人的游覽建議和要求,以及在不同安裝地點的各個功能區所做的評估數據。目前的人工程序主要是平衡單位搬家費用的預算和已知的需求。搬家費用是根據人力和基礎設施準備情況的永久換站(PCS)訂單制定的。這些數據以結構化數據庫和非結構化數據的形式存在,如PowerPoint幻燈片和.pdf文件。
優化: 來自學習的模式被表示為Soar強化學習(SoarRL)規則或AGI轉化器模型,用于優化未來的SLD計劃。一個SLD計劃包括每個設施、母港、基地、樞紐和岸上態勢位置(Fd)和人員(Fg)的海軍資產的完整增益或損失。考慮到眾多的組合,這種優化可能是令人難以承受的。相反,LAILOW使用集成的Soar-RL和協同進化算法,將總的SLD計劃映射到遠航建議、評估報告和其他假設分析中提到的各個單位。
兵棋推演:可能沒有或很少有關于新的作戰要求和能力的數據。這就促使了兵棋推演的模擬。一個SLD計劃可以包括狀態變量或問題(例如,未來的全球和戰區態勢、威脅特征),這些問題只能被觀察、感知,并且不能被改變。控制變量是解決方案(例如,一個SLD計劃)。LAILOW在狀態和控制變量之間設置了一個兵棋推演。問題和解決方案根據選擇、變異和交叉的進化原則共同演化。
如圖1所示,LAILOW框架可以被設定為一個由自我玩家和對手進行的多段兵棋推演。自我游戲者或防御者是SLD企業。對手或攻擊者是包括競爭性需求的環境。在應用LAILOW時,我們首先將過程分為狀態變量和決策變量,如下所示:
狀態變量: 這些變量和數據可以被感知、觀察和估計,但是,不能由自我角色決定或改變。它們是輸入變量,或自我游戲者必須考慮的問題。它們也被稱為SLD企業的測試或攻擊。
決策變量: 這些變量是使用優化算法來解決問題所需要的。在LAILOW中,決策變量的優化是通過整合Soar-RL和協同進化搜索和優化算法來實現的(Back, 1996; O'Reilly等人, 2020)。
對手(測試)和自己的玩家(解決方案)都像兵棋推演中一樣演化和競爭。LAILOW就像一個蒙特卡洛模擬,但由ML/AI學習的模式與優化算法指導。在兵棋推演中,對手產生大規模的假設測試,以挑戰自我玩家提出更好的解決方案,例如,SLD配置,以回答諸如 "如果我選擇一個不同的決定會發生什么?"的系統模擬問題。
每個 "學習、優化、兵棋推演"周期在每個階段和所有價值領域動態地迭代,其分析組件和算法詳見下文。
在LAILOW框架中,"學習 "部分通常采用有監督的ML算法,如分類、回歸和預測算法。例如,人們可以應用scikit-learn python中的各種最先進的監督ML算法,如邏輯回歸、決策樹、天真貝葉斯、隨機森林、k-近鄰和神經網絡。深度學習或AGI Transformers也可以放在這個類別中,輸入數據是多樣化的。一個AGI框架通常包含大規模的機器學習模型(例如,ChatGPT模型中的數十億個參數;OpenAI,2023),以從多模態數據中學習和識別模式。
監督的ML算法可用于學習潛在的SLD和偏離計劃的功能區的狀態變量和評估措施,如部署和執行的速度、質量和適用性,競爭性需求和約束的平衡(例如,避免不可接受的能力下降),以及Fd和Fg措施。
在LAILOW中,我們使用Soar-RL來分別學習自玩家和對手的兩個健身函數。在強化學習中,代理人根據其當前狀態和它從內部模型中估計的期望值,采取一個行動并產生一個新的狀態(Sutton & Barto, 2014)。它還通過修改其內部模型從環境的獎勵數據中學習。Soar-RL可以將基于規則的人工智能系統與許多其他能力,包括短期和長期記憶,進行可擴展的整合(Laird,2012)。Soar-RL在軍事應用中具有以下優勢,因為它
"學習 "組件也可以應用無監督的學習算法。自玩家執行無監督的機器學習算法,如k-means、原理成分分析(PCA)和詞匯鏈接分析(LLA; Zhao & Stevens, 2020; Zhao et al., 2016)來發現鏈接。
一個SLD過程需要進行what-if分析,因為這促使了兵棋推演的模擬。一個SLD計劃可以包括狀態變量或問題(例如,未來的全球和戰區態勢、威脅特征、處理這些威脅的艦隊需求),這些問題只能被觀察、感知,不能被改變。控制變量是解決方案(例如,一個SLD計劃)。LAILOW在狀態和控制變量之間設置了一個兵棋推演。問題和解決方案根據選擇、變異和交叉的進化原則共同演化。
SLD計劃和偏移模型的狀態和決策變量的數量可能非常大。協同進化算法可以模擬未來作戰要求、威脅和全球環境及未來能力的動態配置,以及兵棋推演模擬中的其他競爭因素。如圖1所示,競爭性協同進化算法用于解決生成對抗網絡(GANs;Goodfellow等人,2014;Arora等人,2017)所遇到的minmax-問題。玩家的對抗性交戰可以通過計算建模來實現。競爭性協同進化算法采取基于種群的方法來迭代對抗性交戰,可以探索不同的行為空間。用例測試(對抗性攻擊者群體)是主動或被動地阻撓問題解決方案(防御者)的有效性。協同進化算法被用來識別成功的、新穎的以及最有效的解決手段(防御者)來對抗各種測試(攻擊)。在這種競爭性游戲中,測試(攻擊者)和解決方案(防御者)的策略會導致對手之間的軍備競賽,雙方在追求沖突的目標時都在適應或進化。
一個基本的協同進化算法用錦標賽選擇和用于變異的方法(如交叉和變異)來進化兩個種群。一個種群包括測試(攻擊)和另一個解決方案(防御)。在每一代中,通過配對攻擊和防御形成交戰。這些種群以交替的步驟進行進化: 首先,測試種群被選擇、改變、更新并針對解決方案進行評估,然后解決方案的種群被選擇、改變、更新并針對測試進行評估。每個測試--解決方案對都被派往參與組件,其結果被用作每個組件的適配度的一部分。適應性是根據對手的交戰情況整體計算的。
每個SLD配置都有一個健身值,它與需要優化的措施有關,如部隊發展(Fd)和部隊生成(Fg)效率。來自 "學習 "的模式被用來優化未來的SLD計劃,其措施如下:
優化可能是壓倒性的。LAILOW使用綜合Soar-RL和協同進化算法,簡化了優化過程。
LAILOW已被用于DMO和EABO的兵棋推演(Zhao, 2021),發現海軍艦艇和海軍陸戰隊的維修和供應鏈的物流操作的脆弱性和彈性(Zhao & Mata, 2020),以及超視距打擊任務規劃(Zhao等,2020;Zhao & Nagy, 2020)。
人工智能(AI)是一個快速發展的領域,世界各地的政府和軍隊越來越多地將其納入其技術,以創造新的能力。人工智能有可能最終超越人類的智力能力,獲得超級智能。這篇論文研究了超級人工智能(ASI)的影響以及美國的對手如何利用它來獲得不對稱的戰略優勢。本文發現,人工智能在中期和可能的近期對未來的行動構成了極大的風險,并就美國防部應如何思考并將人工智能的威脅納入戰略規劃提出了建議。
人類最偉大的力量之一是我們利用工具的能力。縱觀歷史,工具使我們能夠提高執行任務的效率,使我們的知識專業化,并創造機會反復改進和創造更復雜的工具。機器的發明給了人類一套工具,可以完全取代人類的勞動,而不是放大它,并在勞動的速度和質量上遠遠超過人類。現在,人工智能(AI)的發展正在做同樣的思考。人工智能系統已經在前幾代人認為機器永遠無法完成的任務中超越了人類,例如:圖像和目標識別,復雜的棋類游戲,如國際象棋和明顯更復雜的圍棋,需要實時戰略思考的視頻游戲,讀唇語,甚至通過投資股票市場實現盈利。目前,人工智能的所有應用都是狹窄的,這意味著盡管它們在某項任務上可以超過人類的能力,但它們只能做它們被設計的那件特定的事情,而不是其他。然而,這種情況不會一直存在。
1993年,統計學家Vernor Vinge預測,人類將有能力創造出一種超人類的智能。他推測,這種創造將導致智能爆炸,因為超級智能在自身基礎上不斷改進,變得越來越聰明,將人類的能力遠遠甩在后面。這種能力將對人類生活的各個方面產生深遠的影響。正如人工智能和決策理論家Eliezer Yudkowsky所說的那樣。"沒有困難的問題,只有對某一智能水平來說是困難的問題。向上移動最小的一點[智力水平],一些問題會突然從'不可能'變成'明顯'。向上移動一個相當大的程度,所有的問題都會變得明顯。" 因此,超級智能將為世界舞臺上任何能夠開發和控制它的行為者提供不對稱的優勢。
自第二次世界大戰結束以來,美國一直是占主導地位的世界大國,能夠通過國家權力的四個工具:外交、信息、軍事和經濟來擴大其影響力和追求其利益。然而,歷史告訴我們,占主導地位的世界大國會因為軍事革命而非常意外和迅速地失去這種地位。西方歷史經歷了五次這樣的重大革命:現代民族國家的創建、大眾政治與戰爭的融合、工業革命、第一次世界大戰和核武器的出現。這些革命中的每一次都圍繞著為首先采用這些革命的人提供的不對稱優勢,這使得他們能夠獲得突出的地位,即使只是暫時的,直到其他人也出于需要而采用新的模式。超級智能的人工智能的出現有可能創造出下一次軍事革命,并使美國不再是世界上最大的國家。
默里和諾克斯指出,軍事革命就其性質而言是 "不可控的、不可預測的和不可預見的。"但這是一個觀點問題。納西姆-塔勒布將這些類型的事件稱為黑天鵝,并對其有三個標準:它們是罕見的,有極端的影響,并且是可追溯的。然而,他表明,某件事之所以成為黑天鵝,特別是因為沒有認真對待這種可能性,而不是沒有人想到它。舉例來說,如果有人在9-11事件之前就認為恐怖主義是一種合理的威脅,并要求在飛機艙門上加鎖,那么被劫持的飛機成為武器的黑天鵝事件就不會發生。推動這一變革的人甚至可能會因為他們的假設不正確而受到批評。如果沒有這個事件的發生,就沒有證據表明所實施的變革具有防止恐怖主義的預期效果。
對未來的正確預測在被認真對待時一般是不可能被驗證的,因為他們成功地防止了他們預測的結果。因此,被認為不值得適當考慮或規劃的想法成為決定性的。"看到一個事件的發生正是因為它不應該發生,這不是很奇怪嗎?" 如果美國希望在一個正在迅速發展并變得越來越復雜的世界舞臺上保持主導地位,它就必須對可能的和不可能的事情進行思考。正如參議院軍事委員會前參謀長克里斯蒂安-布羅斯在其《殺戮鏈》一書的結論中所說,"問題是想象力的失敗"。
技術正在以指數級的速度發展,并將在某一時刻導致下一次范式轉變和軍事革命。人工超級智能(ASI)有可能在國際行為者揮舞國家權力工具的能力方面創造不對稱優勢,并導致這樣一場軍事革命。從歷史上看,軍事革命的結果往往是,誰最先發揮新革命的不對稱優勢,誰就能推翻當時的世界霸主。下一次革命也會如此,美國可能會發現自己被剝奪了世界主導地位,除非它能預測并為即將到來的事情做好準備。僅僅為今天挑戰美國主導地位的差距尋求解決方案是不夠的,因為今天的問題在下一次范式轉變后將變得無關緊要。因此,如果下一次軍事革命以超級人工智能為中心,美國防部如何確定可能被利用的漏洞?
美國防部在超級智能方面的文獻有一個明顯的空白。這次探索的目的是填補文獻空白,確定這種技術所帶來的風險程度,并確定對手可能利用ASI攻擊美國的潛在漏洞。這將為國防界的決策者提供關于該主題的相關觀點,并告知在規劃和預測中應考慮該技術的程度。通過額外的研究,如果對手率先獲得ASI,可以減輕已確定的漏洞以防止其被利用。最終,本研究的目的是防止ASI軍事革命的出現成為一個黑天鵝事件,使美國失去其世界主導地位。
本論文試圖回答的主要研究問題是:對手如何利用ASI來取代美國作為世界主導力量的地位?為了回答這個問題并達到研究的目的,還需要回答幾個問題。 1.ASI有什么獨特的能力,使它能夠影響國家權力的信息和軍事要素? 2.對美國有敵意的行為者如何利用ASI的能力來實現作戰和戰略效果? 3.在信息和軍事領域有哪些弱點可以被擁有ASI的美國對手所利用?
作為對一項理論技術如何在未來作戰環境中使用的探索,必須對該未來環境的狀態做出若干假設。因為本論文的目的是確定脆弱性和評估風險,所以對該環境的假設是那些被認為有可能造成最大風險的假設。這些關鍵的假設在文獻回顧中都有更深入的闡述。
1.通用人工智能(AGI)將在2035年之前初步開發,并在2040年之前推進到人工智能。
2.美國的一個對手將是第一個開發AGI/ASI的人,并且該技術不會在他們的控制范圍之外被分享或擴散。
3.一個發達的人工智能是可控的,不具備獨立于其控制者的驅動力和動機,并作為其控制者意志的延伸而發揮作用。
4.2040年的作戰環境將如國家情報委員會2040年報告中描述的競爭性共存情景,主要特點是美國和中國之間的競爭。
雖然近年來國防界的成員們在文獻中充斥著關于人工智能的著作,但從國防的角度來看,關于超級智能主題的文獻存在著明顯的空白。雖然人工智能本身有可能在軍事和民用領域產生變革,但本研究將開始填補有關人工智能的未來及其創造軍事革命的潛力的知識空白。此外,這項研究還試圖確定潛在的弱點,這些弱點可能被控制人工智能的對手所利用,以廢止或取代美國作為世界主導力量的地位。這項研究的結果將為預測未來部隊需求的戰略計劃者提供洞察力。識別弱點是緩解的第一步;然而,還需要更多的研究來為識別的弱點找到解決方案。矛盾的是,本研究的真正意義只有在其預測沒有實現的情況下才能實現;也許表明它在防止所設想的負面情況的發生方面發揮了作用。
在本文中,我們討論了如何將人工智能(AI)用于政治-軍事建模、仿真和兵棋推演,針對與擁有大規模殺傷性武器和其他高端能力(包括太空、網絡空間和遠程精確武器)國家之間的沖突。人工智能應該幫助兵棋推演的參與者和仿真中的智能體,理解對手在不確定性和錯誤印象中行動的可能視角、感知和計算。人工智能應該認識到升級導致無贏家的災難的風險,也應該認識到產生有意義的贏家和輸家的結果可能性。我們將討論使用幾種類型的AI功能對建模、仿真和兵棋的設計和開發的影響。 我們在使用或沒有使用AI的情況下,根據理論和使用仿真、歷史和早期兵棋推演的探索工作,討論了基于兵棋推演的決策輔助。
在本文中,我們認為(1)建模、仿真和兵棋推演(MSG)是相關的調查方法,應該一起使用;(2)人工智能(AI)可以為每個方法做出貢獻;(3)兵棋推演中的AI應該由建模和仿真(M&S)提供信息,而M&S的AI應該由兵棋推演提供信息。我們概述了一種方法,為簡潔起見,重點是涉及擁有大規模毀滅性武器(WMD)和其他高端武器的國家的政治-軍事MSG。第2節提供了我們對MSG和分析如何相互聯系的看法。第3節通過討論20世紀80年代的系統來說明這一點是可行的。第4節指出今天的挑戰和機遇。第5節簡述了結構的各個方面。第6節強調了在開發人工智能模型和決策輔助工具方面的一些挑戰。第7節得出了結論。在本文中,我們用 "模型"來涵蓋從簡單的數學公式或邏輯表到復雜的計算模型的范圍;我們用"兵棋"來包括從小型的研討會練習(例如Day-After練習)到大型的多天、多團隊的兵棋推演。
MSG可以用于廣泛的功能,如表1所示。每種功能都可以由每個MSG元素來解決,盡管相對簡單的人類活動,如研討會兵棋和Day-After練習已被證明對后兩個主題具有獨特的價值。
通常形式的M&S和兵棋推演有不同的優勢和劣勢,如表2前三欄中的定型。M&S被認為是定量的、嚴格的和 "權威的",但由于未能反映人的因素而受到嚴重的限制。M&S的批評者走得更遠,認為M&S的 "嚴格 "轉化為產生的結果可能是精確的,但卻是錯誤的。在他們看來,兵棋推演糾正了M&S的缺點。M&S的倡導者則有不同的看法。
我們確實認識到并長期批評了正常建模的缺點。我們也從兵棋推演中受益匪淺,部分是通過與赫爾曼-卡恩(P.B.)、蘭德公司和安德魯-馬歇爾的長期合作,但兵棋推演的質量從浪費時間甚至起反作用到成為豐富的洞察力來源。雖然這種見解在沒有后續研究的情況下是不可信的,但來自建模的見解也是如此。
我們本文的一個論點是,這種刻板印象不一定是正確的,我們的愿望(不加掩飾的崇高)應該是表的最后一欄--"擁有一切",將建模、仿真和推演整合在一起。圖1顯示了一個相應的愿景。
這種理想化的活動隨著時間的推移,從研究、兵棋推演、軍事和外交經驗、人類歷史、人類學等方面開始(第1項),匯集關于某個領域(例如印度-太平洋地區的國際安全問題)的知識。這就是對棋盤、行動者、潛在戰略和規則書的定性。
兩項工作的進行是不同步的。如圖1的上半部分,兵棋推演在進行中,為某種目的而結構化。無論圖中的其他部分是否成功執行,這都可能獨立發生。同時,M&S以游戲結構化模擬的形式進行。隨著時間的推移,從M&S和兵棋推演中獲得的經驗被吸收,使用人工智能從M&S實驗中挖掘數據(第4項),以便為后續周期完善理論和數據(第5項)。在任何時候,根據問題定制的MSG都會解決現實世界的問題(第7項)。如同在淺灰色的氣泡中,人類團隊的決策輔助工具(項目6a)和智能體的啟發式規則(項目6b)被生成和更新。有些是直接構建的,但其他的是從分析實驗和兵棋推演中提煉出來的知識。有些智能體直接加入了人工智能,有些是間接的,有些則根本沒有。圖1鼓勵MSG活動之間的協調,盡管這種協調有時可能是非正式的,可能只是偶爾發生。
圖1的意圖可以在一個單一的組織中完成(例如,敏感的政府內工作)和/或在智囊團、實驗室、私營企業、學術界和政府中更開放的持續努力計劃中完成,就像圖2中的DARPA研究稱為社會行為建模實驗室(SBML)。在任何一種情況下,這種方法都會鼓勵多樣性、辯論和競爭。它也會鼓勵使用社區模塊來組成專門的MSG組件。這與專注于一個或幾個得天獨厚的單一模型形成鮮明對比。直截了當地說,這個愿景是革命性的。
圖1的愿景的一個靈感是20世紀80年代的蘭德公司戰略評估系統(RSAS)(附錄1指出了文件)。為了回應美國防部關于更好地利用兵棋推演進行戰略分析的要求,由卡爾-鮑爾領導的蘭德公司團隊提出了自動化兵棋推演,它將利用那個時代的人工智能、專家系統,但它將允許可互換的人工智能模型和人類團隊。這導致了一個多年的項目,我們中的一個人(P.K.D.)在1981年加入蘭德公司后領導這個項目。
該項目從深入設計開始,保留了可互換團隊和人工智能智能體的開創性想法,但也包括一個靈活的全球軍事模型;與人工智能有關的新概念,如替代的紅方和藍方智能體,每個都有彼此的模型;代表其他各方的綠方智能體,有簡單的參數化規則子模型;紅方和藍方智能體在做決定前做 "前瞻 "的能力;以及 "分析性戰爭計劃"--代表軍事指揮官的自適應插槽式腳本人工智能模型。該設計還預計:多情景分析,納入 "軟因素",如定性的戰斗力,以及人工智能模型的解釋能力。圖3勾勒出高級RSAS架構。整個80年代都在實施。蘭德公司將RSAS用于國防部的研究,例如,歐洲的常規平衡和常規軍備控制的建議,并將其出口到各政府機構和戰爭學院。聯合參謀部收到了RSAS,但事實證明連續性是不切實際的,因為一旦有適當才能的官員學會使用它,他們就會被提升到其他任務。
盡管RSAS在技術上取得了成功,但它在某些方面還是領先于時代。一方面,其創新的全球作戰模型被廣泛接受并用于分析和聯合兵棋推演。它成為聯合綜合作戰模型(JICM),在過去的30年中不斷發展,現在仍在使用。另一方面,RSAS的人工智能部分除了用于演示外,很少在蘭德公司之外使用。大多數指導RSAS工作的政府辦公室對政治層面的問題沒有興趣,如危機決策、戰爭路徑或升級。少數人有興趣,這導致了蘭德公司的研究,但在大多數情況下,他們的需求可以通過相對簡單的兵棋推演來解決,包括事后演習(Roger Molander,Peter Wilson)。此外,完整的RSAS是昂貴、復雜和苛刻的。更為普遍的是,隨著蘇聯的解體,美國防部對兵棋推演的興趣驟然下降。
幸運的是,事實證明有可能實現 "去粗取精":用人工智能智能體進行類似RSAS的模擬,可以通過非常簡單的模型和游戲獲得一些重要的見解,正如最近未發表的用對手的替代形象進行核戰爭的工作中所說明的。
RSAS在某種程度上納入了表2最后一欄的大部分想法,所以它顯示了可行性。也就是說,它可以作為某種存在的證明。然而,那是在冷戰時期,采用1980年代的技術。今天能做什么?
今天的國際安全挑戰遠遠超出了冷戰時期的范圍。它們呼喚著新的兵棋推演和新的M&S。新的挑戰包括以下內容。
現在的世界有多個決策中心,他們的行動是相互依賴的。從概念上講,這將我們置于n人博弈論的世界中。不幸的是,盡管諸如公地悲劇和食客困境等現象可以用n人博弈論的語言來描述,而且平均場理論有時也可以作為一種近似的方法來使用,但似乎n人博弈的復雜的解決方案概念還沒有被證明是非常有用的。由于種種原因,這種解決方案并沒有被廣泛采用。商學院的戰略課程很少使用這些技術,國防部的智囊團也很少將這些技術納入他們的M&S中。可能是現實世界的多極化太過復雜,難以建模,盡管在戰略穩定方面已經做出了一些努力。就像物理學中的三體問題一樣,n方系統的行為甚至可能是混亂的。我們還注意到,隨機混合策略在n人博弈中通常發揮的作用很小。同樣,在計算其他玩家的行動時,可能有很多內在的復雜性,以至于隨機化產生的一層額外的不確定性對我們理解未來的危機動態沒有什么貢獻。
與1980年代相比,有更多的國家擁有大規模殺傷性武器(即印度、巴基斯坦、朝鮮),甚至更多的國家擁有大規模破壞性武器。網絡作為一種戰略武器的加入,使問題進一步復雜化。在這里,人工智能可能有助于理解事件。作為一個例子,假設一支核力量受到攻擊,使其用于電子控制的電力系統癱瘓(由于分散和防御,這可能并不容易)。一支導彈部隊只能在短時間內依靠備用電力系統執行任務。大國肯定意識到自己和對手的這種脆弱性。在商業電力領域,人工智能對于在電力中斷后向需求節點快速重新分配電力資源變得非常重要,例如2021年發生在德克薩斯州的全州范圍內的冰凍溫度。
武器裝備的變化擴大了高端危機和沖突的維度,如遠程精確打擊和新形式的網絡戰、信息戰和太空戰。這意味著卡恩很久以前提出的44級升級階梯現在必須被更復雜的東西所取代,正如后面6.3節中所討論的。
一個推論被低估了,那就是現在的世界比以前更加成熟,可以進行有限的高端戰爭--盡管更熱衷于威懾理論的人有相反的斷言--其中可能存在有意義的贏家和輸家。在考慮俄羅斯入侵波羅的海國家、朝鮮入侵韓國等可能性時,這一點變得很明顯。出現的一些問題包括俄羅斯對 "升級-降級 "戰略(北約冷戰戰略的俄羅斯版本)的依賴,以及網絡戰爭和攻擊空間系統的前景。因此,觀察到更多國家部署跨洋范圍的精確打擊武器也是麻煩的。即使是曠日持久的“有限”戰略戰爭現在也可能發生,盡管如第6.3節所討論的那樣,升級很容易發生。
今天的美國安全伙伴有著不同的重要利益和看法。北約在整個冷戰期間表現出的非凡的團結,在現代危機或沖突中可能無法重現。在亞太地區,朝鮮和韓國、中國、日本、臺灣、印度和巴基斯坦之間的矛盾關系是危機中困難的預兆。所有這些國家都有通過使用太空、網絡空間或區域范圍內的精確武器進行升級的選擇。
這里的總體問題是,聯盟仍然非常重要,但今天的聯盟可能與冷戰時期緊繃的街區不同。我們可能正在進入一個類似于20世紀初的多極化階段。第一次世界大戰爆發的一個因素是,柏林認為倫敦不會與法國一起發動戰爭,在歐洲阻擊德國。這導致人們相信,戰爭將類似于1871年的普法戰爭--有限、短暫,而且沒有特別的破壞性。甚至法國在1914年8月之前也不確定英國是否會加入戰爭。這種對自己的盟友會做什么的計算,對穩定至關重要。這里的不確定性確實是一個具有巨大意義的戰略問題。
在考慮現代分析性兵棋推演的前景時,新的技術機會比比皆是。下面的章節列出了一些。
基于智能體的建模(ABM)已經取得了很大的進展,對生成性建模尤其重要,它提供了對現象如何展開的因果關系的理解。這種生成性建模是現代科學的革命性發展。與早期專家系統的智能體不同,今天的智能體在本質上通常是追求目標或提高地位的,這可能使它們更具有適應性。
當然,更普遍的人工智能研究比ABM要廣泛得多。它提供了無限的可能性,正如現代文本中所描述的那樣。我們在本文中沒有多加討論,但是在考慮M&S的未來,以及兵棋推演的決策輔助工具時,最好能有長篇大論的章節來論述有時被確認的每一種人工智能類型,即反應式機器、有限記憶的機器、有限自動機、有自己的思維理論的機器,以及有自我意識的機器。這在這里是不可能的,這一限制也許會被后來的作者所彌補。
聯網現在是現代生活的一個核心特征,人與人之間、組織與組織之間都有全球聯系。數據是無處不在的。這方面的一個方面是分布式兵棋推演和練習。另一個方面是在線游戲,甚至到了大規模并行娛樂游戲的程度,對這些游戲的研究可能產生國家安全方面的見解。這類游戲并不"嚴肅",但在其中觀察到的行為可能暗示了在更多的學術研究中無法認識到的可能性和傾向性。
現在,建立獨立有用的模型(即模塊)并根據手頭問題的需要組成更復雜的結構是有意義的。這種組合與國防部歷史上對標準化的大型綜合單體模型的偏愛形成鮮明對比。在不確定因素和分歧普遍存在的情況下,這種標準化的吸引力要小得多,比如在更高層次的M&S或兵棋推演中。模塊化設計允許帶著對被建模的東西的不同概念。這可以打開思路,這對預見性是很有用的,就像避免驚訝或準備適應一樣。也有可能將替代模型與數據進行常規比較,部分用于圖2中建議的常規更新。另外,模塊化開發有利于為一個特定的問題插入專業性,這是2000年中期國防部研討會上建模人員和分析人員社區推薦的方法。
今天,AI一詞通常被用來指機器學習(ML),這只是AI的一個版本。ML已經有了很大的進步,ML模型通常可以準確地擬合過去的數據,并找到其他未被認識到的關系。一篇評論描述了進展,但也指出了局限性--提出了有理論依據的ML版本,在面向未來的工作中會更加有效,并強調了所謂的對抗性人工智能,包括擊敗對手的深度學習算法的戰術。
規劃的概念和技術取得了根本性的進展,在深度不確定性下的決策(DMDU)的標題下討論。這從 "優化 "最佳估計假設的努力,轉向預期在廣泛的可能未來,也就是在許多不確定的假設中表現良好的戰略。在過去,解決不確定性問題往往是癱瘓的,而今天則不需要這樣。這些見解和方法在國防規劃和社會政策分析中有著悠久的歷史,應該被納入人工智能和決策輔助工具中。
設計"永遠在線"的系統,并不斷提高智能。從技術上講,大多數國防部的MSG都是人工智能界所謂的"轉型"。該模型或游戲有一個起點;它運行后會報告贏家和輸家。可以進行多次運行,并將結果匯總,以捕捉復雜動態中固有的差異。較新的人工智能模型的設計是不同的,它所模擬的系統是 "永遠在線的"。這被稱為反應式編程,與轉化式編程不同。這些系統永遠不會停止,并且不只是將輸入數據轉化為輸出數據。例子包括電梯系統和計算機操作系統。國防方面的例子包括網絡預警系統,導彈預警系統,或作戰中心。這些都不會"關閉"。防御系統正變得更加反應靈敏,所以必須用模型來表示它們。這一點在1980年代RSAS的更高級別的紅方和藍方智能體的設計中已經預見到了,它們會在事件發生后'醒來',并對局勢和選項進行新的評估,而不是繼續按照腳本行事。
在轉換型模型中,環境中的事件可能會觸發程序按順序采取某種行動。反應式模型則不同。程序在環境中同時做出改變。他們一起改變,或幾乎一起改變。國防工作的一個有趣的例子涉及自主武器。人類和機器決策之間的界限已經模糊了,因為在一個反應式系統中人和機器之間的互動可能是連續和交織的。反應式系統是美國、中國和俄羅斯國防投資的一個主旨。無人機群和網絡預警系統將如何在M&S和兵棋推演中得到體現?除非表述恰當,否則相關人工智能模型在模擬中的價值可能會適得其反。
然而,這僅僅是個開始。隨著機器擁有更好的記憶和利用它們所學到的東西,以及它們納入世界理論,包括對手的思想理論,人工智能將如何變化?一個令人擔憂的問題是,正如Yuna Wong及其同事所討論的那樣,對人工智能的更多使用將增加快速升級的前景。這方面的風險對于專注于最大化某些相對量化措施,而不是更多的絕對結果及其定性評價的人工智能來說尤其高。以冷戰時期的經驗為例,執著于誰會在全球核戰爭中以較高的核武器交換后比率 "贏得"的分析是危險的。幸運的是,決策者們明白,結果將是災難性的,沒有真正的勝利者。即使是1983年電影《兵棋》中的計算機約書亞也明智地得出結論:"核戰爭。一個奇怪的游戲。唯一的勝利之舉就是不玩。來一盤漂亮的國際象棋如何?無論約書亞體現的是什么人工智能,它都不只是關于如何通過數字贏得一場娛樂游戲的ML。
為現代分析性兵棋推演開發一個完整的架構超出了本文的范圍,但建議一些方向是可能的。圖4勾勒了一個頂層架構,表3則更詳細地提出了各種特征。圖4認識到,在考慮許多可能的危機和沖突時,需要深入關注至少三個主要的行為者,以解決當前時代的危機和沖突。一個例子可能是朝鮮、韓國、美國和中國。圖4還要求對軍事模擬采取模塊化方法。
如表3所示,1980年代RSAS的一些特征可能會延續到現代化的版本。然而,許多其他特征應該有很大不同。我們認為表3是討論的開端,而不是終點。
由于在我們的討論中,為大規模的場景生成、探索性分析和不確定性下的決策做準備是很突出的,因此需要強調兩個重要問題:
只有當模擬在結構上是有效的(即只有當模型本身是有效的),不同參數值的探索性分析才是有用的。
從探索性分析中得出的結論可能會有問題,當所研究的案例(情景)的可能性不一樣,它們的概率是相關的,但沒有很好的基礎來分配概率分布。
1、模型驗證
正如其他地方所討論的,模型的有效性和數據的有效性應該分別對描述、解釋、后預測、探索和預測進行定性。另外,必須根據特定的問題和背景來判斷它們。參數化方法有很長的路要走,但模型的不確定性常常被忽視,需要更多的關注,正如最近的一篇文章中所討論的那樣。攜帶目標和價值非常不同的對手模型只是這樣做的一個例子。
關于在不知道案件的相對概率的情況下如何使用探索性分析這個令人困擾的問題,我們建議探索性分析至少在表4中說明的目的上很可能有價值,這些目的都不需要概率。對于每一個例子,探索的目的是找到可能性(如脆弱性或機會),促使采取措施來防止它們,預測它們,或準備相關的適應措施。如果存在一個關鍵的漏洞,就應該修復它,無論它被利用的概率 "看起來 "是低還是高(如果它的概率被知道是很小的,那將是另外一回事)。
本節討論了在思考建模和兵棋推演的人工智能和決策輔助工具時出現的一些問題。首先討論了決策輔助功能。接下來討論了在設想使用人工智能的ML版本來利用大規模場景生成時的一個挑戰。最后一節討論了開發 "認知人工智能 "和相關決策輔助工具所涉及的基本挑戰之一。
如果我們根據我們所看到的對玩家的重要性,而不是對人工智能提供者的興奮點來詢問決策輔助工具的主要功能,那么一些關鍵的功能就會如表5所示。
從科幻小說中,我們可能期望現代游戲的決策輔助工具是高度計算機化的,并由人工智能以相對個性化的形式提供信息,就像艾薩克-阿西莫夫的機器人或電影《2001》中不那么邪惡的計算機哈爾9000。然而,作者迄今為止的經驗是,在游戲中 "幫助 "人類的努力往往被證明是適得其反的,阻礙了本質上人類的自由討論。事實上,這些努力有時會因為分散注意力而使玩家生氣。考慮到這一點,我們分別討論了實用的短期決策輔助工具和更具推測性的長期目標。
表6提供了我們對第一欄所示的簡單決策輔助工具的價值的主觀估計,從低到高。這些都不涉及人工智能。相反,最有價值的輔助工具是具有簡潔的檢查表、信息表或圖表的簡單視圖。評估區分了不同類型的游戲或演習,也區分了玩家之前是否接受過決策輔助工具訓練的游戲。這些評價是在蘭德公司與韓國國防分析研究所合作進行的一些兵棋推演實驗后制定的。
關于簡單決策輔助工具的另一個數據點是蘭德公司同事開發的(但尚未出版)的 "奇怪的游戲"。這是一個關于核使用的高效兵棋推演,玩家代表一個戰區指揮官,通過選擇適當的卡片來進行游戲。該游戲建立了決策輔助工具,包括目標類別和評估選擇何種目標的簡單線性算術。
作為近期決策輔助工具的最后一個例子,最近的一個原型研究采用了一種低技術的方法來進行人類演習,考慮如何在危機和沖突中影響對手。該方法涉及一種定性的方法,即不確定性敏感認知模型(UCM),如圖5所概述。這些機制都是定性的,通過真實或虛擬的白板和互動軟件進行展示和討論。它們包括因素樹、表示有限理性的Red替代模型、影響圖以及戰略明顯優缺點的表格比較。沒有一個涉及人工智能。很明顯,人工智能甚至不會有幫助。也許這是一個重要的洞察力,也許這反映了想象力的不足。現在讓我們來看看長期的情況。
從長遠來看,可能會有更多的東西,我們應該從科幻小說、電子娛樂游戲、甚至主要電視網絡對新出現的選舉結果的實時討論中尋找靈感。僅僅舉例說明在不遠的將來可能出現的功能,在每一個功能中,人工智能系統都會對查詢作出反應。
一個團隊口頭命令對 "成功之路 "進行探索性分析,包括是否有某一盟友的堅定合作。
一個小組詢問,鑒于最近發生的事件,對手的哪些替代模型仍然是可信的。人工智能報告反映了依賴于主觀可能性函數的貝葉斯式分析,這些函數已被更新以反映最近的歷史。
一個考慮有限升級的團隊詢問了潛在的反應。人工智能幫助器顯示了在以前的兵棋推演中觀察到的反應,玩家被認為很好地代表了實際的決策人。它還確定了在模擬中反應不好的條件(在下一節中討論),從而強調了條件的哪些方面需要特別注意以避免災難。
這些猜測是最低限度的,只是為了激發人們對人工智能如何在決策輔助方面發揮作用的更多創造性思維。這個領域是開放的,從某些類型的人工智能的名稱中可以看出,從反應型機器到具有有限記憶、內置心智理論和自我意識的機器,這個領域是開放的,甚至更加明顯。一些主要人物,如珀爾和麥肯錫,自信地預計后者將包括意識本身。然而,那是未來的事了。佩爾將目前的機器人描述為 "像鼻涕蟲一樣有意識"。也就是說,蜂群武器很快就會像鳥群、魚群和昆蟲一樣有 "意識"。
讓我們接下來談談涉及人工智能與M&S的一些棘手問題。它們涉及到哪些人工智能決策輔助工具是可行的。
如前所述,機器學習類人工智能(AI/ML)有可能通過挖掘大規模場景生成的結果來尋找洞察力。然而,成功取決于(1)模擬的質量和(2)用于搜索結果的方法。
大量場景生成的成果可能是有用的,也可能是反作用的,這取決于基礎模型是否足夠豐富,結構上是否符合探索的目的。在研究可能的高端危機時,如果基礎模型假設了完美的理性、認知、聯盟關系,并專注于例如核武器的交換后比率作為結果的衡量標準,那么一百萬種情景的數據庫有什么用呢?對于軍事技術目的,如部隊規劃,可能有價值,但對于威懾或預測實際沖突中的問題,甚至是嚴肅的精英兵棋推演,可能沒有價值。
模型建立者所面臨的挑戰的某些方面是眾所周知的,如認識到對決策者(性格、人格、健康)的替代概念的需要,認識到錯誤認知的可能性,以及允許卡尼曼和特沃斯基的前景理論和其他心理現象所描述的那種非理性決策。應對這些挑戰,至少可以說是困難重重,但至少挑戰是被認可的。
相比之下,軍事模擬和社會行為模擬的一個骯臟的小秘密是,工作場所的模型通常不會產生黑天鵝事件、不連續現象或各種突發現象,而這些現象是研究復雜適應性系統的核心要素,在現實世界和一些大型游戲中都會出現,比如20世紀50年代的 "精英 "高級冷戰兵棋推演。原因有很多,但通常是由于模型是 "腳本化的",而不是基于智能體的,或者--即使它們確實有智能體--沒有給智能體足夠的多樣性、自由度和激勵來產生現實的適應性行為,以及不允許有長尾分布的隨機性。在這些問題上做得更好,對社會行為模擬來說是一個巨大的挑戰,特別是對那些打算與現實兵棋推演相聯系的模擬來說。一些成分包含在復雜的兵棋推演中,因此人們可以觀察到,例如,聯盟的解體和新集團的建立,在團隊看來,這更符合他們的國家利益。今天的模擬通常不允許這樣做。從推測上看,我們認為至少有兩條路可以做得更好。如果可以預見感興趣的突發現象(比如上面的聯盟問題),那么就可以建立適當的對象,模擬可能會識別出何時引導它們出現或消失。但是,最重要的突發現象(包括一些在兵棋推演中出現的現象)可能無法被預期。盡管我們并不聲稱知道什么是必要的,但我們從過去的復雜性研究的經驗中觀察到,突發現象的產生往往是因為復雜的自下而上的互動、多樣性和隨機事件。然而,傳統的高層政治軍事模擬并不具備這些特征。它們的價值在很大程度上是由于它們代表了更高層次的實體和過程,大致與系統動力學的模型相類似。我們的結論是,在前進的過程中,重要的是開發多分辨率的模型系列和將它們相互聯系的方法。例如,一個更高分辨率的基于智能體的模型可能有適應性的智能體,用于所有卷入危機或沖突的國家。仿真實驗可能會發現(就像人類游戲一樣)上面提到的那種突發行為,例如聯盟的偶爾解散、側翼切換和新的便利聯盟的出現。這將是''洞察力'',然后可以導致在更高層次的模型中添加新的智能體,根據模擬中的情況激活或停用的智能體。然而,這將需要類似于最近一本關于社會行為建模的書中所討論的 "自我感知的模擬",特別是伊爾馬茲的那一章,他設想的計算可以監測自己的狀態,并在必要時改變自己的結構,還有一章是作者之間關于出現的辯論。
如果模擬足夠豐富,那么有意義的大規模場景生成是可能的。但然后呢?對模擬數據進行探索性分析的一個核心挑戰是了解如何評估不同情況的相對重要性。一種方法是分配主觀的概率分布,但哪里能找到能夠可靠地估計概率的專家,而不在前面加上諸如 "嗯,如果明天像過去一樣 "的評論。現實上,專家并不是預測或概率的好來源,Tetlock及其同事已經深入討論過了。
一種變通的方法是報告結果的頻率(以百分比計算),例如,好或壞。這可以通過全因子設計或使用蒙特卡洛抽樣來完成。不幸的是,存在著滑向討論"可能性"而不是百分比的趨勢,即使案例的可能性不一樣。另外,在MSG的背景下,這種類型的展示掩蓋了這樣一個現實,即行為者不斷尋找他們將獲得重大優勢的情景空間的模糊 "角落"。因此,在模擬中不經常觀察到的情況可能正是發展中的情況。
我們建議的方法是避開明確的概率分配,而是 "尋找問題"或 "尋找成功"。也就是說,當探索性分析產生的大量數據時,人們可能會尋求找到結果非常好、非常壞或其他的條件。這在關于穩健決策(RDM)和DMDU的文獻中被稱為情景發現。
更進一步,我們敦促人工智能以 "聚合片段"的形式得到提示,其動機來自理論、簡單模型和主題領域的專業知識。一個例子可能是 "沖突開始時的準備狀態"。對于戰略預警時間、戰術預警時間、領導層特征、先前的軍事準備狀態和動員率的巨大不同組合,其數值可能是相同的。也就是說,這個變量是許多微觀初始狀態的集合。另一個例子(假設有合適的智能體)可能是危機發生時的心理狀態,其值包括偏執狂、冷靜和理性以及自信的攻擊性。
鑒于足夠豐富的模擬和理論為人工智能在探索性分析中提供了提示,我們懷疑人工智能可以在識別 "完美風暴 "的情況等活動中完成大量工作--不是為了預測它們,而是為了注意要避免的條件,就像在簡單的兵棋推演中以低技術方式完成的那樣。
另一個ML應用可以從關于對手行動的大規模情報收集中為兵棋推演和M&S創建算法,例如那些潛艇或地面移動導彈。曾經需要幾個月或幾年的時間來收集和分析的東西,現在可能在很短的時間內就能得到,產生可用于兵棋推演或M&S的操作程序的算法。作為一個類比,考慮獲得關于駕駛安全的洞察力。今天最深刻的洞察力來自保險公司(Progressive, GEICO),它基于可下載的軟件,跟蹤個人操作者:他們的速度,左轉的數量,加速模式,等等。這些數據可以與信用評分和其他數據整合。其結果可以是個性化的保險費率。這樣的數據分析已經是今天的現實。應該有類似的軍事和MSG影響。當然,有一些必然是分類的,對于本文的政治軍事重點來說,其意義不如MSG的其他應用。
上面的討論集中在ML式的人工智能上,但所需要的豐富的模擬必須有智能體以更像人類的方式進行推理,這種東西可以被描述為認知型人工智能。在這一點上,決策邏輯使用的因素和推理與人類喜歡相信的東西相似,是他們實際行為的基礎。
1980年代RSAS的紅方和藍方智能體是早期的例子。他們利用廣泛接受的升級階梯結構來描述核危機和沖突中的情況、選擇和決策選擇。
今天,我們需要新一代的更高層次的決策模型,但不存在升級階梯的替代品。也許也不會找到替代品。當從兩方博弈到甚至三方博弈時,復雜性大大增加。一個替代的概念必然會更加復雜--更像是一個n維網格而不是一個階梯--因為升級可能不僅涉及核武器及其目標的數量,還涉及與網絡戰爭、太空戰爭和精確射擊的戰略使用有關的數量、強度和目標。
圖6簡單說明了這一概念,結合了幾個維度,以便人為地顯示只有三個維度的結果。它顯示了一個說明性的情景,開始是一場溫和的常規戰爭(第1項),但隨后依次過渡到嚴重的網絡攻擊(第2項),更廣泛地使用精確制導導彈(PGMs)(第3項),有限的核使用(如箭頭所示的核升級)(第4項),甚至更具破壞性的使用PGMs(如針對大壩和發電廠)。 例如,針對水壩和電網)(第5項),也許大規模殺傷性武器的水平略有提高(也許只是為了以牙還牙),以及全面核戰爭(第6項)。然而,今天,對于某種特定的攻擊會出現在某一軸線上,以及行為者是否會有相同的評估,并沒有共同的理解。不僅"客觀"的答案充其量是短暫的,認知很可能取決于路徑,取決于國家,并受到隨機影響。規劃的一個核心問題是核武近鄰國家之間的長期非核戰爭是否可信。由于常規戰爭和核戰爭的指揮和控制系統的糾纏,這些問題變得更加麻煩。似乎預測模型,無論是否基于人工智能,都不在考慮之列,盡管產生值得擔心的合理情況的模型應該在考慮之列。
對于那些尋求建立認知型人工智能模型以代表危機中的國家決策者的人來說,可能還會列出更多的挑戰,但我們希望我們的例子能吸引眼球。
本文的主要建議是推薦一個研究議程,將建模、模擬、游戲和分析視為相關的和相互交織的。在這樣一個綜合的觀點中,兵棋推演的人工智能將通過使用模型的分析來了解,這些模型包括包含了部分由兵棋推演提供的人工智能智能體。例如,這將導致具有類似于兵棋推演決策助手的人工智能智能體,以及更復雜的算法。它將導致基于兵棋推演的決策輔助工具,它將類似于將有理論依據的ML應用于由探索性分析產生的 "數據",這些探索性分析來自于利用決策智能體形式的AI的M&S。
關于人工智能本身,我們對今天的ML中常見的一些做法提出警告。我們注意到缺乏關于未來危機和沖突的可靠的信息性經驗數據。此外,我們強調,在決策輔助工具和模型中使用的智能體中,都需要解釋。這表明我們更傾向于由認知模型構成的人工智能,即使ML被用來填充和調整該結構。
最后,我們敦促對兵棋推演(包括小規模的活動,如事后演習)和模型所提出的問題要非常謹慎。模型、模擬、游戲和分析仍然是不完美的,有時甚至是明顯不完美的,但我們有可能很好地利用它們來解決許多問題,也就是說,提高決策的質量。預測可能性有很大的潛力;可靠的預測則沒有。
本報告重點討論了如何利用模擬或生成模型創建的合成數據來解決深度學習的數據挑戰。這些技術有很多優點:1)可以為現實世界中難以觀察到的罕見情況創建數據;2)數據可以在沒有錯誤的情況下被自動標記;3)數據的創建可以很少或沒有侵犯隱私和完整性。
合成數據可以通過數據增強等技術整合到深度學習過程中,或者在訓練前將合成數據與真實世界的數據混合。然而,本報告主要關注遷移學習技術的使用,即在解決一個問題時獲得的知識被遷移到更有效地解決另一個相關問題。
除了介紹合成數據的生成和轉移學習技術,本報告還介紹了實驗結果,這些結果對合成數據方法在飛行員行為克隆、車輛檢測和人臉驗證任務中的潛力提供了寶貴的見解。實驗的初步結果表明,軍事模擬器和生成模型可以用來支持深度學習應用。然而,性能往往受限于合成數據和真實世界數據之間的保真度差距。
深度學習(DL)是一種技術,它提高了在廣泛的現實世界應用中實現復雜任務自動化的能力。翻譯、轉錄、視頻監控、推薦系統和自動駕駛汽車都是基于DL的解決方案已經被開發和部署用于商業目的的例子。在軍事領域,DL有可能支持人類在所有領域和戰爭級別的決策,其應用包括自動目標識別、預測性維護和無人駕駛車輛的自動控制。
與其他機器學習(ML)技術類似,DL使用算法來從數據中提取知識。在這種情況下,知識被編碼在大容量的深度神經網絡(DNNs)中,這些網絡可能由數千、數百萬甚至數十億的可調整參數組成,這取決于所考慮的任務的復雜性。為了正確調整這些參數,學習算法需要大量的訓練數據。沒有這些數據,DNN將無法泛化,因此,當遇到以前未見過的數據時,它將不會有好的表現。
獲取DL的訓練數據是困難的。這在商業應用中是存在的,而在軍事領域更是如此。瓶頸之一是,學習算法通常需要經過人工標注的數據(即為每個輸入數據點提供一個正確的答案)。因此,即使在獲取大量輸入數據相對低成本的情況下,正確標記所有的數據也往往是高成本和費時的。例如,Cityscapes數據集中的5,000個樣本中,每個樣本平均需要1.5個小時來標注(整個數據集大約需要十個月)[1]。此外,由于標注是由人類來完成的,其結果可能是不正確的、有偏見的甚至是有成見的,這也會反映在訓練過的模型的行為上。
此外,訓練數據往往存在長尾分布的問題。也就是說,對于數量有限的普通案例,訓練數據相對容易獲得,但對于大量重要的邊緣案例,訓練數據本身就很難獲得。例如,考慮一個基于無人機的軍用車輛監視和跟蹤系統。在這種情況下,友好車輛的空中圖像相對容易獲得。車輛數據可以在不同的地點、高度、角度、天氣條件、環境等方面獲得。獲取代表合格敵方車隊的類似現實世界的數據集通常是不可能的,因為這種侵入性的情報行動會導致對手的行動。使用遵循長尾分布的數據集訓練的系統通常實用價值有限,因為它只能在條件理想時使用(即,輸入數據與常見情況相似)。當遇到代表邊緣案例的真實世界的數據時,該系統將不會有好的表現,也不能被依賴。
本報告的目的是介紹可用于解決軍事背景下有限訓練數據所帶來的一些挑戰的技術。具體來說,本報告重點討論如何將使用軍事模擬或生成模型創建的合成數據與微調、領域適應、多任務學習和元學習等遷移學習技術結合起來,以加速未來DL在軍事領域應用的開發和部署。
本報告的目標讀者是操作、獲取或開發AI/ML/DL技術,用于或嵌入軍事系統的人員。
本報告假定讀者具有關于ML和DL概念的基本知識,如監督學習、強化學習、損失函數、梯度下降和反向傳播。鼓勵缺乏此類知識的讀者在繼續閱讀本報告之前,先閱讀FOI-報告FOI-R-4849-SE[2]中的第二章。
第2章概述了在深度學習中可以用來生成和整合合成訓練數據的技術和方法。第3章概述了轉移學習技術,可以用來促進知識從一個任務到另一個任務的重用。在第4章中,對這些技術的一個子集進行了評估,并提供了深入了解合成數據方法潛力的實驗結果。第5章中提出了結論。
圖2.2: 一幅戰斗機的圖像(2.2a)通過添加噪聲(2.2b)、濾色器(2.2c)和模糊(2.2d),以及通過縮放(2.2e)和縮放后的旋轉(2.2f)得到增強。每幅圖像都附有所有像素的平均RGB值分布的相應圖表。雖然所有圖像在語義上是不變的,但分布的形狀卻有很大的不同。
圖4.7:從我們的訓練數據集中隨機選擇的合成圖像。對于每一對圖像,左邊顯示的是最初生成的臉,右邊顯示的是編輯過的臉。請注意,所有圖像都在臉部周圍進行了裁剪。