陸軍一直認為有必要將其決策建立在行之有效的作戰研究方法的基礎上,這些方法旨在為指揮部提供決策過程中的替代方案,從優化戰役到戰略評估和成本經濟學。戰斗傷亡是軍事行動研究的一個主題,它應用數學模型來量化勝利與失敗的概率。特別是,已經提出了不同的方法來模擬戰斗過程。然而,這些方法都不能為高層指揮提供足夠的決策支持。為了克服這種情況,本文提出了一個顛覆性的框架,它克服了傳統模型的大多數局限性,支持最高指揮層的決策:戰略層和戰役層,將確定戰斗力水平的衰減(通常稱為減員(損失))作為評估決策的機制。該框架采用自適應和預測控制工程方法,根據戰斗變化進行動態調整,同時考慮到對手的能力和演習以及產生的效果。此外,它還包括一個學習機制,以改進高不確定性條件下的決策。
蘭徹斯特(Lanchester)在戰斗動力學建模方面的開創性工作[1]啟發了對戰斗抽象發展的重要研究,以支持不確定條件下的軍事決策,追求如何在戰斗中取得優勢。長期以來,蘭徹斯特的原始模型及其不斷演化的擴展模型[2]一直主導著常規陸軍力量平衡的動態評估,被主要機構(如美國陸軍、國防部長辦公室等)用于評估各種問題(如評估戰區平衡[3, 4]、指導武器裝備選擇決策[5]等)。
然而,值得注意的是,蘭徹斯特模型有其重要的局限性,例如,它們只進行了過于簡單的單面處理,而沒有考慮對手的能力,并且不能用于分類交戰[6]。
另一個需要考慮的問題是決策程序所支持的抽象層次。軍事理論通常將指揮層次分為以下三個等級:
1.戰略層次從最抽象的角度研究沖突,從整體上考慮戰爭的最終結果。它涉及軍事力量的整體規劃、資源分配和組織。此外,它還確定并支持國家政策。
2.戰役層面涉及戰役和主要行動的設計、安排和執行。
3.戰術層面在戰場上實施戰役行動。
有趣的是,大多數決策方法,包括非蘭徹斯特的決策方法,都集中在戰術指揮層面[6,7]。換句話說,現有決策系統對作戰和戰略指揮層面的支持不足。
本文提出了一個創新框架,它克服了蘭徹斯特模型的大部分局限性,并支持最高指揮層的決策:戰略層和作戰層。我們的框架應用了自適應和預測控制工程方法,以動態適應戰斗中的變化,同時考慮到對手的能力和演習以及產生的效果。此外,它還包括一個學習機制,以改進高不確定性條件下的決策。
最后,本文報告了我們的框架在克里特島戰役、硫磺島戰役和庫爾斯克戰役中的實證評估。這本身就是一個相關的貢獻,因為大多數關于軍事決策的文獻都缺乏足夠的實驗驗證。特別是,大多數驗證都是按照非現實的假設[8]或依賴于簡單化的編造例子[9]的數學程序進行的。
本文的其余部分按以下順序組織。第2節描述了我們的框架工作,第3節報告了其經驗驗證。最后,第4節提供了一些結論性意見并討論了未來的挑戰。
在經典的蘭徹斯特模型之外,還有兩種主要的戰爭分析機制:(i)隨機模型和(ii)確定性模型,其中一 些是傳統的蘭徹斯特模型[10,11]。目前,智能代理等其他方法正獲得巨大發展[12,13]。這些新模型的目的是擴展能力[6,9]和減少以前方法的缺點[14,15]。然而,它們無法成為高層決策的適當基準。
本框架克服了蘭徹斯特原著的局限性,[16, 6]中對這些局限性進行了深入探討,將戰斗視為一個因果過程,該過程根據蘭徹斯特方程的動態變化和外部行動而演變。為此,我們的方法應用了[17]中介紹的自適應和預測控制理論,并結合了不確定性建模技術。我們的方法架構由一系列模塊組成,這些模塊協同工作,確保按照軍事理論協調一致地進行決策。特別是,一組順序階段觸發了適用戰略的定義、不同可能行動方案(COA)的評估和選擇,以及模型對行動演變的適應。
圖中x(t)和y(t)分別表示每一瞬間x部隊和y部隊的戰斗員數量,x(t+1)e和y(t+1)e表示下一瞬間的估計戰斗員數量。
圖1. 我們框架的架構設計。每個模塊都代表了軍事思維的機制,即:(i)評估戰斗事件,以確定應遵循的戰略并選擇完成任務的COA;(ii)確定執行任務所需的資源;最后(iii)適應結果。
實施需要邏輯過程能力,并應模擬從預測到行動的決策過程。在此背景下,我們制定并測試了新的框架(如果其在實際對抗中的應用在性能和一致性方面符合預期,則該框架將是穩健的)。
圖2 新框架中通過順序模型觸發選擇特定COA的主要因素。
圖2顯示了迭代觸發特定COA選擇的基本要素。預測模塊產生預測演變。自適應模塊根據輸出信號(實際情況)與預測信號之間的差異調整組成模塊的參數,并根據最后執行的COA進行適當更新。專家模塊通過調度模塊試圖改變預測模塊所定義的趨勢,從而根據戰斗需要改變行動路線。值得注意的是,設定點與完成任務有關,行動發展時間是操作時間,在最好的情況下,可用的沖突信息數據庫通常以天為單位表示。
如果海軍陸戰隊要與近似對手競爭,海軍陸戰隊必須將人工智能(AI)作為一種決策支持系統(DSS),以加快規劃-決策-執行(PDE)周期,從而在認知、時間和致命性方面取得優勢。
信息系統和監視技術正在改變戰爭的特點,使較小的部隊也能分布和影響較大的區域。但是,目前的指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)以及機器人和自主系統(RAS)都是人力密集型系統,會產生大量數據,海軍陸戰隊必須迅速利用這些數據來提供可操作的情報。由于遠征高級基地行動(EABO)要求部隊規模小、分布廣、復原力強,必須迅速做出明智決策,才能在各種不斷發展和演變的威脅面前生存下來,因此這就存在問題。
使用數據分析和機器學習的人工智能處理、利用和傳播信息的速度比人類更快。配備了人工智能 DSS 的 EAB 指揮官將以比對手更快的速度做出更明智的決策。然而,在實現這一目標之前,目前還存在著巨大的障礙。海軍陸戰隊必須為 EABO 制定一個人工智能支持概念,并將其納入海軍作戰概念中,充分確定人工智能工作的優先次序和資源,并為企業數據管理提供資源,以最大限度地利用數據分析和機器學習來發現數據庫中的知識(KDD)。此外,海軍陸戰隊必須利用美國陸軍的人工智能實驗和概念開發來實現多域作戰(MDO)。最后,海軍陸戰隊應確定當前可通過狹義人工智能加以改進的技術和作戰領域。
指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)以及機器人和自主系統(RAS)技術的普及正在改變戰爭的特點,使較小的部隊能夠分布和影響更大的區域。然而,作戰期間收集的數據正在迅速超越人類的認知能力。早在 2013 年,美國國防部就指出:"ISR 收集和......收集的數據急劇增加。我們繼續發現,我們收集的數據往往超出了我們的處理、利用和傳播能力。我們還認識到,就戰術層面的分析人員數量而言,PED 的資源需求可能永遠都不夠"。
如果能迅速加以利用,C4ISR/RAS 數據將為指揮官提供戰勝敵人的信息優勢。但是,從這些來源獲取及時、可操作的情報需要大量人力,而且必須通過人工手段對數據進行快速處理、利用和傳播(PED)才能發揮作用。如果遠征軍要通過 C4ISR 與近鄰競爭并獲得競爭優勢,這對海軍陸戰隊來說是個問題。這些豐富的信息可以加快計劃-決策-執行(PDE)周期,但如果不加以管理,就會使領導者被信息淹沒,猶豫不決。必須采取相應措施,利用新技術實現數據自動化和管理。如果海軍陸戰隊要與近似對手競爭,海軍陸戰隊必須將人工智能(AI)作為決策支持系統(DSS),以加快 PDE 周期,從而在認知、時間和致命性方面取得優勢。
本文旨在證明,利用人工智能技術可加快指揮官在其環境中的觀察、定位、決策和行動能力。本文承認,但并不打算解決射頻通信、信息系統和組織變革中出現的技術問題的重大障礙。本文分為四個不同的部分。第一部分重點討論不斷變化的安全環境和新興技術帶來的挑戰,以及這些挑戰將如何影響指揮官。第二部分討論技術解決方案、決策模型,以及人工智能作為 DSS 如何為 EAB 指揮官創造認知、時間和致命優勢。第三部分將在未來沖突中,在 EAB 指揮官很可能面臨的假想作戰場景中說明這種系統的優勢。最后一部分重點討論了實施過程中遇到的障礙,并對今后的工作提出了建議。
自 2001 年以來,海軍陸戰隊在 "持久自由行動"(OEF)、"伊拉克自由行動"(OIF)和最近的 "堅定決心行動"(OIR)中重點打擊暴力極端組織(VEO)和反叛亂戰爭。美國武裝部隊所處的是一個寬松的環境,有利于技術優勢、不受限制的通信線路和所有領域的行動自由。隨著 2018 年《國防戰略》(NDS)和海軍陸戰隊第 38 任司令官《司令官規劃指南》(CPG)的出臺,這種模式發生了變化,《司令官規劃指南》將大國競爭重新定為國家國防的首要任務,并將海軍陸戰隊重新定為支持艦隊行動的海軍遠征待命部隊。
為了支持這一新的戰略方向,海軍陸戰隊開發了 "先進遠征作戰"(EABO),作為在有爭議環境中的瀕海作戰(LOCE)和分布式海上作戰(DMO)的一種使能能力。EABO 為聯合部隊海上分隊指揮官或艦隊指揮官提供支持,在反介入區域拒止(A2/AD)環境中提供兩棲部隊,以獲取、維持和推進海軍利益,作為控制海洋的綜合海上縱深防御。然而,EABO 對部隊提出了一些必須考慮的具體挑戰。這些挑戰包括在所有領域與近似對手的競爭、對新興技術的依賴、人員與能力之間的權衡,以及地理距離和分布式行動帶來的復雜性。總的主題是如何通過在關鍵點上集成人工智能技術來克服這些挑戰,從而增強指揮官的 PDE 循環。
如果情報驅動軍事行動,那么海軍陸戰隊就會出現問題。如前所述,數據收集的速度超過了戰術層面的處理、利用和傳播(PED)過程。數據本身是無用的,必須經過組織和背景化處理才有價值。根據認知層次模型(圖 1),數據和信息對形成共同理解至關重要。聯合情報流程通過規劃和指導、收集、處理和利用、分析和制作、傳播和整合以及評估和反饋這六個階段來實現這一目標。C4ISR/RAS 的擴散擴大了收集范圍,但 PED 卻沒有相應增加。除非采取措施實現信息管理自動化,否則指揮官將面臨信息超載和決策癱瘓的風險。
信息超載是指由于一個人無法處理大量數據或信息而導致的決策困難。 羅伯特-S-巴倫(Robert S. Baron)1986 年關于 "分心-沖突理論"(Distraction-Conflict Theory)的開創性研究表明 執行復雜任務的決策者幾乎沒有多余的認知能力。由于中斷而縮小注意力,很可能會導致信息線索的丟失,其中一些可能與完成任務有關。在這種情況下,學習成績很可能會下降。隨著分心/干擾的數量或強度增加,決策者的認知能力會被超越,工作表現會更加惡化。除了減少可能關注的線索數量外,更嚴重的干擾/中斷還可能促使決策者使用啟發式方法、走捷徑或選擇滿足型決策,從而降低決策準確性。
鑒于 Baron 的結論,C4ISR/RAS 將降低而不是提高戰術指揮官的決策能力。筆者在擔任海軍陸戰隊作戰實驗室(MCWL)科技處地面戰斗部(GCE)處長期間進行的研究證實了這一結論。2013 年,海軍陸戰隊作戰實驗室 (MCWL) 開展了戰術網絡傳感器套件 (TNS2) 有限技術評估 (LTA)。一個海軍陸戰隊步槍連及其下屬排配備了空中和地面機器人、地面傳感器以及戰術機器人控制器(TRC)。戰術機器人控制器使一名操作員能夠在白天或黑夜,在視線范圍外同時控制多輛戰車進行 ISR。MCWL 將這種 ISR 形式命名為多維 ISR(圖 2)。LTA顯示,使用TNS2的排級指揮官在防御、進攻和巡邏時都能迅速發現威脅,但LTA也發現了兩個重大問題:1.在軟件和機器人能夠自主分析和關聯傳感器輸入之前,海軍陸戰隊員仍需收集和整理ISR數據;2.在中高作戰壓力下... 在中度到高度的作戰壓力下......操作人員會超負荷工作......無法探測和識別目標,并普遍喪失態勢感知能力。
海軍陸戰隊情報監視和偵察--企業(MCISR-E)正在通過海軍陸戰隊情報中心(MIC)、海軍陸戰隊情報活動(MCIA)與戰斗支援機構(CSA)和國家情報界(IC)連接,納入預測分析流程,以解決這些問題。通過海軍陸戰隊情報活動(MCIA),MCISRE 解決了全動態視頻(FMV)聯合 PED 支持問題,并于 2017 年成立了全動態視頻聯合 PED 小組,該小組具有全面運作能力,每周 7 天提供 12 小時支持,費用由 14 名分析員和 3 名特派團指揮官承擔。
雖然這是朝著正確方向邁出的一步,但由于人力需求量大,這可能證明是不夠的。EAB 指揮官必須依靠地理位置相隔遙遠的上級總部提供的、通過有爭議的電磁頻譜傳輸的情報成品。海軍陸戰隊司令部的 MIX 16(海軍陸戰隊空地特遣部隊綜合演習)實驗結果證實了這一結論: "未來戰爭將在具有挑戰性的電磁環境中進行,分布在各地的部隊......從上級總部 "伸手回來 "獲取日常情報援助的能力可能有限,而且無法依賴"。此外,在戰術和作戰層面增加更多的分析人員會導致循環報告,這只會加劇信息超載問題。
根據《EABO 手冊》,EAB 必須 "產生大規模的優點,而沒有集中的弱點"。美國陸軍在 2016 年進行的實驗表明,較小的單位有可能分布并影響較大的區域(圖 3)。有人無人協同作戰概念(MUMT)認為,采用縱深傳感器、縱深效應和支援行動的部隊可實現戰斗力并擴大其影響范圍。
然而,DO 和 EABO 是零和博弈。C4ISR 和 RAS 技術可以讓部隊分布得更遠,但實驗表明,規模經濟會喪失。增加兵力將增加所有領域的需求。正如皮涅羅在 2017 年的一篇研究論文中總結的那樣:"當部隊分散時,就會失去指揮與控制、情報和火力等輔助功能的效率。"在后勤方面也是如此。這種 "DO 困境 "可以用以下經過修訂的 "三重約束范式 "來表示(圖 4)。隨著部隊的分散,一個領域的整合將削弱另一個領域的能力。如果 EAB 指揮官能在不增加 EAB 占地面積的情況下提高能力,就能重新獲得規模經濟效益。智能技術整合可以解決這一問題。
人工智能展示了解決 PED 問題和 EABO/DO 困境的最大潛力,同時為指揮官提供了對抗性超配。據審計總署稱,"人工智能可用于從多個地點收集大量數據和信息,描述系統正常運行的特征,并檢測異常情況,其速度比人類快得多"。由聯合規劃流程(JPP)提供信息的人工智能系統可以產生更快、更明智的 PDE 循環。如果海軍陸戰隊想要實現 EABO,就不能僅僅依靠人類。相反,未來的關鍵在于如何利用人工智能來增強人類的決策能力。
研究表明,人類的決策并不完美,在復雜和緊張的情況下會迅速退化。人類的決策在很大程度上是憑直覺做出的,并在進化過程中不斷優化,通過使用判斷啟發法(偏差)來防止認知超載。偏差是快速決策的捷徑,它根據以往的經驗和知識做出假設。36 偏差是一種快速決策的捷徑,它根據以往的經驗和知識做出假設。雖然這些決策已經過優化,但并沒有參考因啟發式方法而被否定的大量數據。由于這些決策都是基于以往的經驗和現有的知識,人們在面對混亂的新情況時可能毫無準備。如前文所述,這對 EAB 指揮官來說是個問題。決策支持系統可以提供幫助。
決策支持系統可以是一個人用來提高決策質量的任何方法。海軍陸戰隊營長利用其參謀人員和聯合規劃流程 (JPP) 提供專家判斷來提高決策質量,而商業部門也越來越依賴于決策支持系統和人工智能來處理大量數據。在本文中,決策支持系統被定義為 "幫助用戶進行判斷和選擇活動的基于計算機的交互式系統",也被稱為基于知識的系統,因為 "它們試圖將領域知識形式化,使其適合于機械化推理"。大多數 DSS 都采用西蒙的有限理性理論(Theory of Bounded Rationality)來建模,該理論承認人類在信息、時間和決策認知方面的局限性。西蒙提出了一個四步模型(圖 5),包括:1.觀察現實的智能;2.制定和衡量標準和備選方案的設計;3.評估備選方案和建議行動的選擇;以及 4.根據信息采取行動的實施。4. 執行,根據信息采取行動,最后反饋到第一步。
指揮官決策的兩個關鍵要素是選擇活動和推理。選擇活動,也稱為選項意識,是指在某種情況下對不同行動方案或備選方案的認識。選擇意識為指揮官提供了通往解決方案的不同途徑。能夠自主分析海量數據的 DSS 可能會揭示出以前不知道的選項。推理是一種邏輯思維能力。通過構建決策過程,數據支持系統可以不帶偏見和感情色彩地對數據得出結論。一些研究表明,在現實環境中,簡單的線性決策模型甚至優于該領域的專家。
DSS 有不同的類型,而類型決定了其性能和對人類增強的效用。智能決策支持系統(IDSS)是與作戰行動最相關的系統,因為它使用人工智能技術和計算機技術來模擬人類決策,以解決實時復雜環境中的一系列問題。在本文中,它將被稱為人工智能決策支持系統或 AI-DSS。它由一個數據庫管理系統(DBMS)、一個模型庫管理系統(MBMS)、一個知識庫和一個用戶界面組成,前者用于存儲檢索和分析數據,后者用于獲取結構化和非結構化數據的決策模型。人工智能-決策支持系統結合了人類構建問題結構的能力,以及通過統計分析和人工智能技術來支持復雜決策的系統,從而壓縮了 PED 流程(圖 6)。
約翰-博伊德上校(美國空軍退役)被譽為機動作戰條令及其相應心理過程模型的主要作者之一。通過對實驗性戰斗機的研究,他認識到 "錯配有助于一個人的成功和生存,以及敏捷性和節奏之間的關系,以及如何利用它們使對手的感知現實與實際現實相背離"。為了解釋這些不匹配,他提出了一個 PDE 循環,后來被稱為 OODA(觀察、定向、決定和行動)循環(圖 7)。博伊德認為,誰能通過歸納或演繹推理更快地執行這一過程,誰就能獲勝。通過將人工智能融入 OODA 循環,EABO 指揮官可以獲得對敵決策優勢。正如伯杰司令在其規劃指南中所說:"在任何規模的沖突環境中,我們必須比對手更快地做出并執行有效的軍事決策。
更好的信息和選擇有助于做出更迅速、更明智的決策,同時減輕認知負擔。EAB 部隊將面臨超音速和潛在的高超音速武器,這將使他們幾乎沒有時間做出充分知情的決策。EAB 指揮官將被迫利用大量有人和無人傳感器平臺感知威脅,并迅速確定行動方案。
人工智能輔助 OODA 循環(圖 8)直觀地描述了 EAB 指揮官如何借助人工智能技術做出決策。它將博伊德的 OODA 循環作為指揮官 PDE 循環的基礎。這反映出指揮官是決策過程的中心,也是情報和決策支持的主要消費者。下一層是國家情報總監辦公室(ODNI)的六步情報循環,用于將數據處理成情報。下一層是西蒙的有界理性模型,用于描述 AIDSS 如何嵌套在 EAB 指揮官的決策框架中。最后,使用狹義人工智能增強的外部代理被疊加以代表物理工具(如 RAS、武器系統、AI-DSS 和圖形用戶界面 (GUI))。在關鍵點集成狹義人工智能,以實現傳感器操作和利用、數據和情報的 PED 以及武器使用的自動化,從而減少人力并壓縮 PDE 周期時間,為指揮官創造可利用的優勢窗口。
由于 EAB 指揮官將在一個簡樸、分散和資源有限的環境中工作,他必須重新獲得在這些方面失去的效率,以超越對手。AI-OODA 循環將按以下方式解決問題。在執行任務前,指揮官進行任務分析/人員規劃流程,以確定指揮官的關鍵信息需求(CCIR)(優先情報需求(PIR)/友軍情報需求(FFIR))以及與上級總部意圖相關的任務(作戰空間的情報準備(IPB)、行動區域、任務、約束/限制等)。
在步驟 1. 觀察階段,指揮官收集有關作戰環境、敵我態勢和友軍態勢的數據,以驗證 IPB 中的基準假設并更新態勢感知。為此,將利用國防部云服務和配備計算機視覺和機器學習技術的無人系統提供的多源情報,自主分析環境,查找 CCIR。這些系統在收集和識別 CCIR 時,可根據威脅程度和排放控制(EMCON)狀態采取兩種行動方案:1. 從云和/或邊緣 AI 平臺(AI-DSS)分發/縮減信息;2. 限制通信并返回基地進行開發。從這一過程中收集到的數據將反饋到第二階段--定向,以確定其意義和相關性。
在步驟 2. 在第 2 步 "定向"階段,指揮官要對收集到的大量數據進行意義分析,以便做出適當的決策。隨著數據池的不斷擴大,第一步的輸出結果必須由人工進行處理,這將耗費大量的時間和資源。如果處理不當,指揮官就有可能因信息過載而無法確定行動方案。研究表明,在面臨信息超載等人類認知極限時,人們會使用次優的應對策略,從而導致認知偏差。第二步是當前流程中的瓶頸,也是人工智能輔助決策支持系統(AI-DSS)緩解信息過載和縮短 PDE 周期的理想場所。
AI-DSS 的優勢在于它可以自主地以數字方式整合來自無限量來源的數據,包括多源情報、RAS、鄰近邊緣 AI 節點、開放源數據以及最終基于國防部云的服務,以生成決策輔助工具、預測性威脅預報或響應行動方案。通過監控這些來源,人工智能可利用 KDD 推斷出模式和意義,以探測敵方意圖,并在人工智能-OODA 循環的第 4 步中利用 F2T2EA(發現、修復、跟蹤、瞄準、交戰、評估)的殺傷鏈模型做出反應。與計算機網絡防御(CND)中使用的技術類似,EABO 部隊可以探測敵人的行動,將敵人的殺傷鏈指標與防御者的行動方針聯系起來,并識別出將敵人的個別行動與更廣泛的戰役聯系起來的模式,從而建立起陸基情報驅動的 SLOC(海上交通線)防御(IDSD),以控制當地海域。現在,他的情報系統已獲得最佳數據,并輔以人工智能生成的行動方案 (COA),為第 3 步 "決定 "做好準備。
在步驟 3. “決定”步驟中,指揮官現在可以決定采取何種行動方案來實現預期結果。AI-DSS 可以推薦 COA、確定成功概率并建議后續行動或對手行動。通過圖形用戶界面,她的決定可以在整個梯隊中傳達,并傳遞給 RAS 平臺,從而在分布式作戰空間中形成一個綜合的有人無人團隊。
在步驟 4.“ 行動”中,指揮官正在執行任務,并利用反饋機制為其下一個決策周期提供信息,該決策周期已通過綜合通信、火力和指揮控制網絡進行了溝通,以確定可用和適當的武器系統。人工智能 OODA 循環將循環往復地進行下去,直到指揮官達到預期的最終狀態或情況不再需要采取戰術行動。通過利用人工智能作為 DSS,指揮官實現了以下目標:
1.融合--在梯隊中快速、持續、準確地整合來自所有領域、電磁頻譜(EMS)和信息環境的內部和外部能力;
2.優化 - 在正確的時間,以最有效和最高效的方式,向正確的目標提供效果的能力;
3.同步--將態勢感知、火力(致命和非致命)和機動結合起來進行滲透和利用的能力;以及
4.感知和行動速度--在沖突的各個階段都能識別和直觀地看到導致領域優勢和/或挑戰的條件,并采取相應行動;
確信所有數據點都以不偏不倚的方式加權,且周期速度快于敵方。
本節將通過一個小故事來解釋人工智能-OODA 循環系統在未來沖突中如何運作,從而將前面討論的主題結合起來。本節旨在從概念上向讀者概述如何使用該系統、它能解決哪些挑戰以及它能創造哪些機遇。
有幾個問題不是本文的主題,但卻是接受和開發 AI-DSS 的重大障礙。將精力和資源集中在這些領域將激發行業解決方案,并協助海軍陸戰隊制定必要的政策、程序和戰術,以實現這一概念,并使海軍陸戰隊與國防部的人工智能戰略保持一致。
第一個問題是 EABO 的人工智能支持概念。如果對問題沒有清晰的認識,海軍陸戰隊就無法在技術、培訓和實驗方面進行適當的投資。一個可以考慮的途徑是與美國陸軍合作。2019 年 8 月,陸軍未來司令部發布了《2019 年未來研究計劃--人工智能在多域作戰(MDO)中的應用》。MDO 是聯合部隊的一個概念,海軍陸戰隊可以輕松嵌套在遠征梯隊中。這項研究通過戰爭游戲得到加強,概述了在 A2/AD 環境中建立人工智能能力的要求、優勢/劣勢和作戰案例。
第二個問題是海軍陸戰隊人工智能的資源配置。國防部人工智能戰略的美國海軍陸戰隊附件在 MCWL 設立了人工智能利益共同體(COI)和人工智能處,以確定人工智能工作的優先順序和同步性,并制定海軍陸戰隊人工智能戰略。這是一個良好的開端,但還不足以滿足人工智能運作所需的資源。海軍陸戰隊必須利用美國陸軍在多域作戰中開展的人工智能工作的范圍和規模,加速技術成熟、實驗和部隊發展。軍事、戰爭和后勤部人工智能有限技術評估應重點關注人工智能-DSS 如何能夠實現、改進或完全修改與 ISR-Strike、C2、維持和部隊保護相關的任務執行。2020 年有機會與陸軍人工智能任務組 (A-AITF) 就其 20 財年人工智能操作化研究計劃開展合作。
第三個問題是企業數據管理。國防部在匯集數據并將其組合成可用的形式方面舉步維艱。為了解決這個問題,國防部數字化現代化戰略要求提供企業云數據服務,也稱為聯合企業防御基礎設施(JEDI)。司令還認識到海軍陸戰隊在數據收集、管理和利用方面的不足,以促進更好的決策。機器要進行 KDD,必須有大量可用的數據集。海軍陸戰隊必須以人工智能-DSS 和其他深度學習技術能夠利用的方式構建其數據,以獲得業務收益。
第四個問題是對人工智能技術的信任。根據美國政府問責局的說法,人工智能正在接近第三次浪潮,但并非沒有嚴重障礙: "第三波人工智能的一個重要部分將是開發不僅能夠適應新情況,而且能夠向用戶解釋這些決策背后原因的人工智能系統"。目前的深度學習方法具有強大的分析能力,但有時會產生不尋常的結果。要讓指揮官信任并在軍事行動中使用 AI-DSS,就必須具備解釋人工智能如何得出答案的能力。可解釋的人工智能是國防部和商業部門共同關注的問題,而商業部門正在牽頭研究可能的解決方案。53 可解釋的人工智能是國防部和商業部門都關注的問題,而商業部門正在引領可能的解決方案研究。了解為什么會做出好的或壞的決策,會讓人對技術產生信任,這對軍事行動至關重要。
第五個問題是邊緣計算,即 "將計算能力下推到數據源,而不是依賴集中式計算解決方案"。這是必要的,因為電磁頻譜將受到爭奪,機器將無法依賴一致的通信和基于云的計算。數據網絡架構將需要重組,以便變得更加分散,并可抵御災難性損失,每個邊緣設備都應能夠與相鄰節點進行網狀連接和通信。在實踐中,數據連接將根據威脅環境從完全連接到拒絕連接的滑動范圍進行。這樣,AI-DSS 就能對本地收集的數據進行快速、實時的 PED,為 EAB 指揮官的決策周期提供支持。此外,國防部必須在戰術邊緣提供基于云的服務,并采用 5G 數據傳輸速率,以機器速度和低延遲充分利用人工智能和 RAS。同樣,這也是與美國陸軍在多域作戰方面的合作領域。
第六個問題是,這在以前已經嘗試過。2002 年,美國國防部高級研究計劃局(DARPA)創建了 PAL(個性化學習助手)計劃,作為一種認知計算系統,它可以通過學習來協助用戶完成任務,從而做出更有效的軍事決策。其主要目標之一是減少對大量人員的需求,從而使決策更加分散,不易受到攻擊。PAL 的一些功能包括將多源數據融合為單一饋送,這些功能已過渡到蘋果 Siri 個人助理和美國陸軍的未來指揮所 (CPOF) 計劃。筆者無法獲得有關 PAL 計劃局限性的詳細信息,但陸軍認識到遠征決策支持系統的必要性,目前正在精簡 CPOF。指揮所計算環境(CPCE)將多個環境整合為一個單一的用戶界面,整體重量從 1200 磅減至 300 磅,主要用于移動作戰。這是朝著正確方向邁出的一步,也是陸軍和海軍陸戰隊的潛在合作領域。
最后,MCWL 應研究在 RAS、計算機視覺、機器學習和數據分析方面的狹窄人工智能領域,這些領域可立即應用于減少指揮官的認知負荷。
當前的 C4ISR/RAS 是勞動密集型的,會產生大量數據,必須迅速加以利用,才能為海軍部隊提供可操作的情報。使用數據分析和機器學習的人工智能可以比人類更快地處理、利用和傳播信息。配備了人工智能信息系統的 EAB 指揮官將以比對手更快的速度做出更明智的決策。然而,在實現這一目標之前,目前還存在著巨大的障礙。展望未來,海軍陸戰隊必須制定一個與海軍作戰概念相匹配的海軍陸戰隊作戰概念,對人工智能工作進行充分的優先排序和資源配置,對企業數據管理進行資源配置,以最大限度地利用數據分析和機器學習來發現數據庫中的知識(KDD),并利用美國陸軍的人工智能實驗和概念開發來實現多域作戰(MDO)。此外,海軍陸戰隊應確定當前可通過狹義人工智能加以改進的技術和作戰領域。
海軍陸戰隊不能再依賴過時的決策支持系統和信息管理方法來進行戰術決策。隨著友軍和敵軍利用技術獲取戰術利益,指揮官的信息負荷將繼續增加。人工智能決策支持系統可以解決這個問題。軍事指揮與控制發展計劃》(MCDP 6)指出了這一點的必要性:"無論時代或技術如何發展,有效的指揮與控制都將歸結為人們利用信息做出明智的決定和行動....,衡量指揮與控制有效性的最終標準始終如一:它能否幫助我們比敵人更快、更有效地采取行動?
風險評估是復雜的,而且往往是有爭議的。它來自于危險呈現,它的特點是可能發生的不理想事件及其結果的不確定性。很少有像核戰爭和核恐怖主義這樣不受歡迎的結果。幾十年來,關于可能影響核戰爭和核恐怖主義風險的特定情況、政策和武器,已經寫了很多。這些問題的性質和用于評估的風險分析方法隨著時間的推移有了很大的變化。
認識到核戰爭和核恐怖主義帶來的風險,2020財年國防授權法案指示美國國防部與美國國家科學、工程和醫學研究院簽訂合同,進行一項研究,探討風險分析方法的性質及其在評估核戰爭和核恐怖主義風險中的應用。
本報告是該研究的第一階段,它討論了風險,探索了風險評估文獻,強調了風險評估方法的優點和缺點,并討論了一些公開的、支撐美國安全戰略的假設,這些都是在核戰爭和核恐怖主義的背景下進行的。研究的第二階段將擴大重點,包括分析風險分析中的假設和方法在美國安全戰略中可能發揮的作用。第二階段的研究將產生一份保密報告和一份非保密的摘要。表S-1詳細介紹了委員會的工作。
值得注意的是,該研究在其兩個階段的工作中都不包括進行風險分析。本報告也不會涉及當前的地緣政治事件,如俄羅斯2022年對烏克蘭的入侵,盡管這些事件說明了在國際沖突中了解核風險的重要性。
美國政府和國際社會已投入大量資源和時間,試圖了解和減少核戰爭和核恐怖主義的風險。美國戰略司令部的現任指揮官以及核裁軍運動者都斷言,核戰爭的風險仍然非常真實。對于核和放射性恐怖主義的風險,也有類似的說法。此外,隨著新技術和新對手的出現,這些風險正變得更加復雜。
為了確定與核恐怖主義和核戰爭有關的威脅和后果,分析人員在對核戰爭或核恐怖主義進行風險分析時將面臨許多挑戰。委員會確定了可能導致核戰爭的七類情況:預防性的、先發制人的、升級性的、催化性的、意外的、未經授權的和誤報的。委員會還確定了三類可能導致核恐怖主義的情況:簡易核裝置、放射性散布裝置或放射性暴露裝置,以及對核設施的破壞。這些類別的情景并不是相互排斥的,因為各類別之間也可能發生其他互動,例如意外和誤報情景之間。這些依賴性必須反映在任何風險評估中。委員會確定的情景類別在此作為例子,并不是全部;然而,分析人員必須包括他們能夠設想到的所有情景類別,以便風險結果不會被低估。對使用核武器造成的直接物理后果的估計,依賴于基于核物理學、過去的經驗、核試驗數據和其他可用信息的數學模型。關于核武器的一些物理影響(如對傷害和死亡的直接估計),人們已經知道了很多,盡管有些影響(如火災、現代城市環境的破壞、電磁脈沖影響和氣候影響,如核冬天)還不是很清楚或難以量化(弗蘭克爾等人,2015)。評估使用核武器的社會、心理和長期影響的方法在很大程度上依賴于人類應對其他災難性事件的行為的代用數據。使用這些方法的分析通常包含巨大的不確定性和強烈的相互依賴性。
委員會研究了與核戰爭和核恐怖主義有關的風險評估和分析的歷史,包括探討歷史上為了解核戰爭和核恐怖主義的風險所做的嘗試,以及在評估核戰爭和核恐怖主義的總體風險時所涉及的重要不確定性來源。來自歷史文獻的關鍵見解反映在本報告中,但一個明顯的差距是缺乏對核武器的物理影響不太了解的知識,以及對使用核武器的心理、社會和政治后果的評估和估計。
在做出各種決定時,風險信息可以成為決策者的重要投入,包括確定優先事項、制定新的政策或程序,以及分配資源或時間。在自然和工程系統中,特別是當統計數據可用且可靠時,基于事件樣本頻率的風險分析可以很容易產生對未來風險的估計。然而,正如美國國家科學院以前的研究報告所指出的,將傳統的風險方法用于核戰爭和核恐怖主義--直接證據有限;背景的不確定性很大;以及智能的、適應性強的對手(NASEM 2016;國家研究委員會2008,2011)--是一個重大挑戰。在許多假設中,對這種情況下的風險評估必須考慮到行為者的意圖和利益、他們的能力、他們可用的信息和情報,以及他們的適應性反應--所有這些都可能難以評估。
委員會認為,風險指的是四個關鍵問題:
1.會發生什么?具體而言,什么會出錯?
2.這些事件發生的可能性有多大?
3.如果這些事件發生,有什么潛在的后果?
4.這些事件可能發生的時間范圍是什么?
風險分析可以是一個強大的工具,用于澄清假設;對復雜的、相互關聯的因素進行結構化和系統化的思考;描述不確定性;并確定可能需要哪些進一步的證據或信息來為將要作出的決定提供信息。然而,使用風險分析方法來評估核戰爭和核恐怖主義的總體風險是困難的,原因有幾個。
除了本報告正文中詳述的具體結論(并在第8章中列出)外,委員會還得出了三個總體結論。
1.過去核戰爭和核恐怖主義的例子很少。因此,幾乎沒有什么直接的證據可以用來對兩者的概率進行經驗性的估計。
分析師們試圖通過應用不同的方法和使用多種信息來源來描述由此產生的不確定性,以補充這個有限的證據體系。同樣地,歷史記錄中包含了有限的核或放射性恐怖主義企圖的例子,對核恐怖主義風險的分析也常常借鑒這些例子。有限的直接證據所帶來的不確定性,由于人類的意圖、觀念和動機所發揮的重要作用而變得更加復雜。鑒于所涉及的重大不確定性和決策者可能采取的不同風險態度,整體風險分析的政策相關性并不明確。
雖然人們對核武器和放射性武器的物理后果有很多了解,但對其間接后果的了解并不充分。這包括社會、經濟、政治、基礎設施、氣候和心理方面的影響,這些影響受到這些武器的直接物理影響。
這些因素之間的動態相互作用是復雜的,對它們的分析方法也不太發達。關于這些影響的直接證據很少,這對評估國家或恐怖分子使用核武器的后果是一個挑戰。即使是廣島和長崎的轟炸也只提供了關于涉及現代核武器的沖突的可能性和后果的有限信息。
從專家那里獲得的信息往往是評估與核戰爭和核恐怖主義有關的一些風險的全部資料。分析師和決策者需要意識到這些信息的來源,意識到專家可能在分析中引入的偏見和限制,以及這些信息對風險結果的影響。盡管核戰爭和核恐怖主義的某些方面可能對充分應用這些方法構成挑戰,但可以從其他風險分析學科中借鑒專家征詢的最佳做法。
2.可能導致核戰爭和核恐怖主義的情況很多,涉及許多相互依賴的因素,對其風險的評估往往取決于許多專家和行為者的能力、價值觀、看法和意圖。
核戰爭和核恐怖主義的風險部分取決于威懾的有效性,它反映了所有相關方的能力、信念、動機、意圖、預期戰略和信息。在危機的陣痛中,信息的不可得性和不準確性可能會增加侵略者和防御者所面臨的風險。核戰爭和核恐怖主義情景的風險因有關國家或行為者的理由或發起原因、使用的武器類型和數量以及目標等許多其他高度相互依賴的因素而有所不同。由于存在大量的情景可能性,它們通常被歸類,并作為具有一些關鍵共同因素的情景類別進行分析。
評估核戰爭和核恐怖主義的總體風險涉及不同情景的可能性和后果的巨大不確定性。對這些不確定性的評估和溝通對管理這些風險所必需的政策決定至關重要。然而,風險分析的價值并不僅僅在于評估整體風險。風險分析可以為許多與核戰爭和核恐怖主義有關的較小規模的問題提供寶貴的意見。許多分析旨在確定各類情況的相對或比較風險(例如,核設施被破壞的風險與放射性暴露裝置的風險相比較;或確定與不同投資或設計變化相關的風險降低),或解決決策者面臨的具體問題,如:: 一個特定國家的核儲備的可靠性是什么?汽車邊境口岸的某一型號的探測器檢測到特定水平的輻射的概率是多少?哪些核設施應該被檢查,多久檢查一次?對于涉及重大不確定性和需要做出資源限制的決策的風險管理問題,評估與不同選項相關的風險變化有助于為決策提供信息。
分析師在風險分析中不可避免地要進行假設,包括對風險問題的定義和框架的假設;哪些模型可以有效使用;數據的可靠性;以及對手的能力、意圖和潛在行動。戰略假設可以幫助界定風險問題的界限。一些戰略假設涉及風險的性質或程度,風險驅動因素的影響,政策或行動是否增加或減少風險,美國面臨的威脅的性質和種類,以及最可能發生的情況。戰略假設還包括美國境外的核戰爭風險。
3.不同的風險評估方法或多或少適合于不同的情況和目標。
委員會確定了以下與分析這些風險有關的方法,并審議了這些方法的適用性和局限性:
正如風險分析中的結構、參數和假設可能會給風險分析的結果帶來色彩一樣,風險信息的評估、框架或呈現方式對該信息在決策中的理解和使用有很大影響。當產生風險分析結果的方法和假設是明確的,過程是可復制的,對分析過程的信任是建立的,結果是針對決策者所面臨的真正的問題或決定時,風險分析結果是最寶貴的。
風險信息可能是對決策的一種有價值的輸入,但它不會也不可能支配決策,因為決策還取決于偏好和風險態度。除了風險之外,還需要考慮其他因素,如法律、政治或預算的后果和限制。新興技術,如新的武器系統和人工智能的進步,正在迅速改變風險和威懾的格局。美國的核態勢隨著時間的推移而演變,考慮到了新的威脅、涉及不同美國對手的發展威懾戰略、技術進步、核軍備條約和不斷變化的地緣政治環境。美國對核恐怖主義風險的評估也同樣隨著時間的推移而變化,考慮到了新的威脅和新興技術。
隨著有關核戰爭和核恐怖主義決策的背景繼續演變,風險評估將繼續成為分析家和決策者的一個寶貴工具。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。
戰斗機飛行員通常使用模擬器來練習他們需要的戰術、技術和程序。訓練可能涉及計算機生成的力量,由預定的行為模型控制。這種行為模型通常是通過從有經驗的飛行員那里獲取知識而手工制作的,并且需要很長的時間來開發。盡管如此,這些行為模型由于其可預測性和缺乏適應性而通常是不夠的,教官必須花時間手動監測和控制這些力量的各個方面。然而,最近人工智能(Al)研究的進展已經開發出能夠產生智能代理的方法,在復雜的游戲(如圍棋和《星際爭霸II》)中擊敗人類專家玩家。
同樣,人們可以利用人工智能的方法來組成空戰的高級行為模型,使教官能夠更專注于飛行員的訓練進展,而不是手動控制他們的對手和隊友。這種智能行為必須表現得逼真,并遵循正確的軍事理論,以證明對飛行員訓練是有用的。實現這一目標的一個可能方法是通過模仿學習,這是一種機器學習(ML)類型,代理學習模仿專家飛行員提供的例子。
本報告總結了使用模仿學習技術優化空戰行為模型的工作。這些行為模型被表述為控制計算機生成的部隊的行為轉換網絡(BTN),由下一代威脅系統(NGTS)模擬,這是一個主要針對空域的軍事模擬應用。遺傳算法Neuroevolution of Augmenting Topologies (NEAT)的一個改編版本優化了BTNs,使其行為與飛行員行為的演示相似。與大多數ML方法一樣,NEAT需要許多連續的行為模擬來產生滿意的解決方案。NGTS不是為ML目的而設計的,因此圍繞NGTS開發了一個系統,該系統自動處理模擬和數據管理并控制優化過程。
進行了一組實驗,其中開發的ML系統對BTN進行了優化,以模仿三個簡單空戰場景中的例子行為。實驗表明,NEAT的改編版本(BTN-NEAT)產生的BTN能成功地模仿簡單的示范行為。然而,優化過程需要相當長的時間,計算時間長達44小時或模擬飛行時間為92天。緩慢的優化主要是受NGTS不能快速運行同時保持可靠的影響。這個可靠性問題是由NGTS缺乏時間管理造成的,它可以將代理人的狀態與模擬時間戳聯系起來。為了在更復雜的場景和演示中實現成功的行為優化,人們應該在高可靠性的前提下以比實時快得多的速度模擬行為。因此,我們認為NGTS并不適合于未來的ML工作。相反,需要一個為ML目的設計的輕量級空戰模擬,能夠快速可靠地運行。
戰斗機飛行員通過嚴格的訓練學習并保持他們的戰術技能。相當多的訓練是以模擬為基礎的,在訓練中,受訓者面對友軍和敵軍,他們的行為最好能加速訓練并建立起理想的能力。計算機生成的部隊(CGFs),是自主的、計算機控制的實體,被用來扮演這些友軍和敵軍的角色。理想情況下,在基于模擬的訓練中使用CGF應該提供一些好處,如增加飛行員的訓練可用性,減少訓練中對主題專家(SME)的需求。然而,手動模擬CGF的行為,使其對教學作用有足夠的代表性,這是很繁瑣的,而且已被證明具有挑戰性。因此,目前手工制作的行為模型往往是可預測的,不能適應新的情況或在軍事理論、戰術、技術和程序(TTP)方面表現得很真實。在基于模擬的空戰訓練中保持真實的體驗對于確保受訓者獲得必要的技能至關重要。然而,由于CGF的表現和行為被認為是不足的,中小企業往往在訓練中對CGF進行微觀管理,這是不幸的,因為中小企業的成本很高,他們的時間很寶貴,而且數量有限。
人工智能研究的最新進展已經開發出能夠產生智能代理的方法,在復雜的游戲中擊敗人類專家玩家,如圍棋[1]和星際爭霸II[2]。隨著這些進展,學習用于空戰的指導性和適應性代理行為已成為一個越來越受關注的研究領域。然而,為了發揮作用,飛行員模擬的對手和盟友的行為必須是真實的,并符合軍事理論,而不是,例如,試圖不惜一切代價贏得交戰。該研究領域的一些貢獻集中在強化學習方法上,并且已經顯示出一些有希望的結果。然而,即使仔細設計目標函數,強化學習代理也有可能學習到用于飛行員訓練的次優政策,這意味著他們的行為與根據既定理論和TTP所期望的不同。另一種方法是向ML算法提供專家示范,從中提取飛行員的具體知識,并將其納入代理人使用的行為模型。據我們所知,在空戰領域,很少或沒有先前的研究探討過這種方法。
本報告介紹了基于達爾文自然選擇原則的模仿學習算法被用來產生以行為轉換網絡(BTNs)表示的空戰行為模型。雖然BTNs已經出現在之前使用強化學習的空戰行為建模的相關工作中,但這項工作研究了BTNs是否適合模仿學習。下一代威脅系統(NGTS)被用來模擬BTNs,并進行了評估以考慮該模擬系統對機器學習(ML)的適用性。已經開發了一個ML系統,包括使用NGTS和選定的學習算法成功生產空中戰斗機代理所需的工具和方法。這個ML系統自動處理模擬和數據管理并控制學習算法。簡單的空戰場景被定義,并在使用該ML系統進行的一系列實驗中使用,在這些實驗中產生了反映示范飛行員行為的BTN。
為了限制這項工作的范圍,我們做了一些限定。開發的ML系統不是生產級的,而是一個概念驗證。因此,實驗中使用的場景和試點演示保持簡單。具體來說,這些都是一對一的場景,演示僅限于二維空間的運動。此外,行為演示是基于報告作者手工制作的BTN,而不是由專業飛行員制作的。
本報告是為從事軍事訓練和人工智能相關課題的研究人員準備的,最好具有空戰和行為建模的知識,其組織結構如下。第2章介紹了工作的背景,包括與空戰訓練和模擬有關的概念、人工智能理論和相關工作。第3章涵蓋了實驗中使用的選定的學習算法及其配置,而第4章介紹了構成ML系統的過程和工具。第5章和第6章通過定義空戰場景和行為演示來回顧實驗的設置和執行,并介紹了結果。第7章討論了這些結果,以及ML系統和NGTS的性能。第8章本報告的總結和對未來工作的思考。
圖5.2 第一個場景的總結: 逃亡。CGF從它們的初始位置向對方飛去。一旦藍色飛機進入紅色飛機的導彈射擊范圍內,紅色飛機就會轉身向相反方向逃離。
軍隊一直認為有必要將他們的決策建立在成熟的作戰研究方法之上,這些方法試圖在決策過程中為指揮部提供備選方案,對戰役到戰略進行評估。
戰斗傷亡是軍事運籌學的一個研究課題,它應用數學模型來量化勝利與損失的概率。特別是,已經提出了不同的方法來模擬戰斗的過程。然而,它們都沒有為高層指揮提供足夠的決策支持。為了克服這種情況,本論文提出了一個創新的框架,它克服了傳統模型的大部分局限性,并支持最高指揮層的決策:戰略和戰役層,借助于確定戰斗力水平的衰減,通常被稱為損耗(損失),作為評估決策的機制。該框架應用了適應性和預測性控制工程方法來動態調整以適應戰斗的變化,同時考慮到對手的能力和機動性以及產生的效果。此外,它還包括一個學習機制,以改善在高不確定性條件下的決策。
論文報告了對克里特島戰役、硫磺島戰役和庫爾斯克戰役這三場有影響力的二戰戰役框架的實證評估,這些戰役的戰斗類型主要是陸上的。從那時起,這種作戰模式基本上沒有改變。因此,收集到的實驗結果可以推斷到現今的陸地作戰。這本身就構成了一個相關的貢獻,因為大多數關于軍事決策的文獻都缺乏足夠的實驗驗證。
最后,本論文為從業者和研究人員提供了現有文獻的指導,確定了現有決策模型的優勢和劣勢,并為在決策中應用戰斗預測模型提供了參考背景。
這項研究將分析戰場決策模型的現狀,重點是了解應用了哪些類型的決策,這些決策是如何做出的,以及有哪些經驗證據支持這些決策,這將使人們深入了解當前方法的局限性,并能提出新的機制來克服這些局限性。在這個意義上,我們的研究將提出一種方法,以彌補陸地戰場上高層決策自動化的差距,即所謂的戰略和戰役軍事決策。擬議方法的有效性將由一套足夠廣泛的經驗證據來證明,所有這些證據必須具有代表性。
確定了以下目標:
消除蘭徹斯特經典著作的局限性和其他蘭徹斯特在陸地戰場上的影響。
為戰略和作戰軍事決策的自動化提供一個框架。
提供經驗性證據,表明該框架充分適合戰斗趨勢,并能選擇最合適的決策。
指導從業人員和研究人員了解現有決策模型的優勢和劣勢。
本研究旨在分析控制理論在蘭徹斯特戰斗決策模型中的應用表現,以追求陸軍領域的戰略和作戰決策方法。在此基礎上,考慮了以下研究問題(RQs)。
問題1:現有的決策系統對戰役和戰略層面的指揮是否有足夠的支持?
問題2:適應性和預測性控制結構能否有助于克服傳統作戰模式的局限性?
有兩種主要的戰斗分析機制可以替代經典的蘭徹斯特模型:(i)隨機模型和(ii)確定性模型,其中一些是拉切斯特的傳統,例如[KMPS17, JHC17a]。目前,其他方法,如智能代理,正在獲得巨大的發展勢頭,例如,[OT17, ADK17]。這些新模型旨在擴展能力,例如[Kre20, Cou19],并減少以前方法的缺點,例如[Duf17, KLM18]。然而,它們未能成為高層決策的適當基準。
建議的框架克服了蘭徹斯特原始工作的局限性,在[Eps85]中進行了深刻的討論,將戰斗視為一個因果過程,根據蘭徹斯特方程的動態變化和外部行動進行演變。為此,該方法應用了[SR95]中介紹的適應性和預測性控制理論,并結合了不確定性建模技術。該方法的結構包括一組合作工作的模塊,確保決策按照軍事理論連貫地進行。特別是,一組連續的階段觸發了適用戰略的定義、評估和選擇不同的可能COA,以及使模型適應行動的演變。每個區塊代表軍事思維的機制,見圖3.1,其中x(t)和y(t)定義了每個瞬間x部隊和y部隊的戰斗人員數量,x(t+1)e和y(t+1)e是對下一瞬間戰斗人員數量的估計。
實施需要有邏輯過程的能力,應該模擬從預測到行動的決策過程。在這種情況下,新的框架在第四章中被制定和測試(如果它在實際對抗中的應用在性能和一致性方面符合預期,它將是強大的)。
圖3.1:我們框架的架構設計。每個區塊都代表了軍事思維的機制,因此(i)評估將確定要遵循的戰略的戰斗事件,并選擇完成任務的COA,(ii)確定執行任務所需的資源,最后(iii)適應結果。
圖3.2:在新框架中通過順序模型觸發選擇特定COA的主要因素。
圖3.2開發了迭代觸發特定COA選擇的基本要素。預測塊產生預測演變。適應性模塊根據輸出信號(實際情況)與預測信號的差異調整組成模塊的參數,并適當地更新最后執行的COA。專家區塊試圖通過調度區塊修改預測區塊定義的趨勢,從而按照戰斗的需要改變行動路線。值得注意的是,設定點與完成任務有關,行動的發展時間是操作時間,在最好的情況下,有沖突信息的可用數據庫通常是以天為單位的時間演變。
圖3.3:縱軸標識了模型所體現的抽象程度,圓錐體的底圓代表現實或完全沒有抽象,隨著聚合水平的提高,定義指揮水平的變量逐漸抽象出作戰執行的細節。因此,在蘭徹斯特模型的應用水平與戰略-戰役聚合水平相一致,聚合模型涵蓋了戰斗最基本的執行機制,如個體沖突,執行水平受到武器裝備、位置、能見度、后勤等因素的影響。
特別是在克里特島和硫磺島戰役中,我們的驗證目標是根據當前的理論確定可能的最佳行動方案,并與1941年5月20日和1945年2月19日的實際戰役相比,確定它們對對手產生的影響;在庫爾斯克戰役中,我們的目標是通過適應性和預測性控制的動態調整,正確確定戰斗階段,圖4.1。
圖4.1: 實際應用的基本自適應預測控制方案。自適應控制機制使戰斗過程輸出和預測模型輸出之間的差異趨于零,突出了預測塊在每個采樣時間窗口在系統中發揮的雙重作用。
現代軍隊依靠電磁頻譜來運作。因此,通過干擾和定向能量攻擊電子和信息系統會降低現代對手的作戰系統。冷戰結束后,美國的對手在電子攻擊能力方面進行了投資,而美國陸軍則基本上放棄了自己的能力。意識到這一點,陸軍現在正投資于新舊電子武器以縮小差距,在陸軍試驗多域作戰概念時重新獲得電子攻擊能力。本專著的目的是回答這樣一個問題:"美國陸軍如何在MDO空間中利用電子攻擊?" 本專著提出,陸軍作戰部隊應將新興的干擾和定向能武器整合到一個作戰系統中,將物理、控制論和道德效應融合到對敵人的深度攻擊中。這一建議對條令、組織和領導者的發展有重大影響。作者的意圖是鼓勵陸軍領導人將環衛系統中的進攻行動視為當前和未來戰場上聯合武器作戰的關鍵。
無人機系統和傳統的干擾技術已經融合在一起,形成一種新的能力。正如前面的案例研究中提到的,俄羅斯已經在無人機上安裝了干擾器,作為其Leer3 EW系統的一部分。在美國,陸軍和空軍希望更深入地測試空中發射的多功能無人機群,這些無人機可以快速穿越戰場進入對手的支持區,以識別、破壞甚至摧毀高回報目標。陸軍作戰能力發展司令部的合同提案要求這些無人機配備ES傳感器和EA武器,能夠同時探測敵人的作戰秩序,進行干擾,并觀察火力任務。陸軍的建議表明,網絡化的EW無人機在近距離、縱深和支援領域都有作用。除了在更大的收集-火力架構中的整合,EW無人機群可以通過欺騙性的信號和特征支持作戰機動。雖然這一系統尚未投入實戰,但該提案表明,陸軍正在考慮將EA能力與不斷擴大的無人機群整合到一個更廣泛的作戰系統中。
反無人機干擾系統有效地發揮了機動短程防空(SHORAD)武器的作用,保護單位和關鍵節點免受觀察和攻擊。許多反無人機武器干擾或欺騙測向和通信系統,導致無人機墜毀或返航。理想情況下,反無人機EA系統可以與戰區的IADS相連接,能夠迅速解除空域的沖突,辨別敵我雙方。然而,在有爭議的EMS環境中與低空飛行的無人機交戰的被動性質將使蓄意的空域和EMS解沖突變得不可能,特別是對于裝備有便攜式變體的部隊。
定向能源武器的破壞潛力來自于隨著時間推移轉移到目標的能量。高能(HE)激光器的能量通常在千瓦到兆瓦之間。在低端,這些武器可以使傳感器失明。隨著能量的增加,它們可以降低敏感的電子元件,加熱設備和人員,使其不能再發揮其功能,并導致燃料或彈藥爆炸。 美國海軍在實施高能激光器方面處于領先地位,2014年在一艘水面艦艇上安裝了第一臺。它現在在許多艦艇上都有一系列的激光器,從光學 "炫目 "到150千瓦的光束。光學、發電和傳播方法的進步使得在海上、空中和太空以及陸地移動系統中使用高能激光成為現實。
陸基高爆激光系統可以發揮許多功能。在戰術層面上,高爆激光器可以抵御來襲的彈藥,使無人機失效,并壓制敵人的主動防護系統,作為動能射擊的補充。空軍安裝在卡車上的 "恢復基地拒絕的彈藥"(RADBO)系統使用高爆激光器在舒適的距離內引爆地雷。陸軍目前正在開發一種300千瓦的車載激光器,以防止火箭彈、火炮和迫擊炮的攻擊。在戰區和戰略層面,高爆激光器可能是對抗高超音速導彈的唯一有效手段。根據大氣條件和可用功率,地面高爆激光器可以瞄準敵方軌道上的衛星。
高爆激光器可以有效地作為動能武器的彈藥替代物。這也是有代價的:功率要求、交戰時在EMS中的信號增加,以及由于遠距離和跨域的影響而可能造成自相殘殺。高爆激光器還可能受到大氣條件的限制,盡管該領域的進展正在努力克服這一挑戰。
激光與物理環境中的元素的相互作用使DE有了非致命的用途。美國軍方在伊拉克和阿富汗的反叛亂行動的高峰期試驗了 "疼痛射線",作為其主動拒絕系統(ADS)的一部分。該系統是為控制人群而設計的,它將電轉化為毫米級的無線電波,加熱皮膚中的水,在幾秒鐘內產生難以忍受的熱感。對ADS的1.1萬次測試只導致了兩次受傷。另一種應用是用激光在人員附近產生等離子體球,然后用其他激光誘發物理效應,如幽靈般的聲音或周圍空氣中難以忍受的噪音。聯合非致命武器局正處于將激光誘導的等離子體效應武器用于加熱目標的皮膚,產生極其響亮或混亂的聲音,以及投射口頭命令的邊緣。
非致命的DE武器可用于固定地點的安全,可在安全和鞏固行動中使用,并可通過使人群遠離道路來提高流動性。然而,這些武器的新穎性可能會在信息環境中產生負面效應。斯坦利-麥克里斯特爾將軍在ADS部署后的幾周內就下令將其從阿富汗撤走,因為塔利班讓人們相信美國在對平民進行 "微波",使其患上癌癥和不孕癥。
高功率微波(HPM)武器旨在通過用電磁能量壓倒目標的電子裝置來拒絕、干擾、損害或摧毀它們。HPM是可擴展的,根據HPM投射的能量的多少來呈現所需的效果。在較低的范圍內,HPM激增的能量足以 "鎖定 "一個系統,拒絕其使用。在較高的功率范圍內,HPM會破壞集成電路。與干擾器不同,HPM可以在目標系統不工作的情況下實現其效果。反擊HPM需要對整個電子系統進行加固,因為激增的能量會通過暴露的電線、端口、天線和光學器件滲透進去。與高爆激光器不同,HPM是區域性武器。破壞性效果通常是在較近的范圍內產生的,而破壞性效果可以在較遠的距離上實現更大的面積。作為區域性武器,HPM在對付無人機群時特別有用,空軍已經部署了至少一種HPM武器來保護其地面設施免受無人機攻擊。2017年,波音公司和空軍成功測試了 "反電子高功率微波高級導彈項目"(CHAMP),這是一種巡航導彈,旨在用機載HPM摧毀計算機和電子設備。將這種技術應用于無人機系統或基于直升機的運載系統,為遠程HPM攻擊提供了另一個載體。
具有最大戰略潛力的HPM武器是非核電磁脈沖(EMP)。一旦美國研究人員認識到核爆炸伴隨著電磁能量的大規模激增,美國和蘇聯就開始研究用非核彈藥復制這種效果。雖然CHAMP使用機載電池來發射其HPM以達到局部效果,但EMP炸彈將爆炸能量轉移到磁場中,在整個作戰區域產生HPM效果。組件技術已經成熟到EMP炸彈或導彈是可行的地步。雖然國防部沒有公開其EMP研究,但在2017年,國防部向工業界征集一種 "彈藥投送的非動能效應",該效應能夠 "在不破壞與這些系統相關的硬件的情況下使對手的基本工業、民用和通信基礎設施失效"。該提案要求用標準的陸軍155毫米射彈來實現這一效果。96F 97 該提案所要求的能力指向某種火炮發射的EMP武器。由于C2系統和光電傳感器依賴于敏感和脆弱的電子器件,成功的EMP攻擊對對手的影響可能是決定性的。
博伊德斷言,戰斗人員必須有道德-心理-身體的和諧才能進行抵抗。要破壞這種和諧,需要將致命的、機動的和道德的努力結合起來。施耐德斷言,戰斗有三個領域:道德、控制論[心理]和身體。各個領域都會受到能力的影響,包括EA。結合這些觀點,我們得出了一種方法來理解新的電子攻擊能力如何在多領域作戰中被利用(見圖3)。考慮到案例研究,現在的任務是考慮我們如何將新興的EA系統與現有的能力相結合,在物理、控制論和道德領域產生影響,以支持致命的、機動的和道德的努力。
圖 3.“在作戰中應用電子攻擊的模型”。
電子武器特性的最重大變化是開發了能夠直接摧毀敵人系統和平臺的電子武器。HPM和HE激光系統有能力摧毀無人機和飛機。陸軍的高爆激光器目前集中在防空和反無人機任務上,但這些激光器瞄準地面上的敵方平臺只是時間問題。戰斗車輛上的主動保護系統,如以色列的 "戰利品 "系統的擴散,可能需要在用直接或間接火力攻擊這些平臺之前,通過干擾或DE武器對其進行抑制。為工兵部隊配備RADBO或類似的高爆激光系統,將使他們能夠迅速減少雷區,在行動中能夠更快地進行地面機動。
無人機群ES/EA干擾器,與間接或精確火炮協同作戰,形成了一種觀察-壓制-打擊的能力,有可能遠遠超出前線部隊的作戰范圍,支持偵察和反偵察任務。裝有高爆激光器的航空平臺將為陸軍提供其最遠距離的直接火力武器系統,能夠在距離目標數英里的地方升空進行瞄準射擊,然后落回地面。作為常規致命打擊的一部分,EMP炮彈將摧毀主動防護系統和反火力雷達的電路。
陸軍EA系統也將在物理領域支持MDO的其他服務。DE武器的效果上限可以延伸到太空,使其能夠與飛機交戰以支持空軍。消耗性的無人機干擾器可以激活敵方的EA系統,顯示其位置以便聯合瞄準。裝備有小型EMP裝置的特種作戰部隊可以使岸基雷達和導彈系統在沿海和海上行動中無法使用。陸軍高能激光器有可能通過從地面瞄準敵方衛星來支持太空部隊。
雖然美軍傳統上將EA集中在網絡領域,但現代EA武器為陸軍提供了沿著作戰區域的長度和寬度攻擊網絡決定性點的潛力。蜂群無人機可以將陸軍各師的干擾范圍擴大到遠遠超過空地作戰的30公里。ES系統可以提示高爆激光器來干擾(或炸毀)指揮節點的天線。HPM和EMP彈藥將使整個網絡無法使用,嚴重降低了指揮官在分布式部隊之間提供目的和方向的能力。成群的EA無人機和固定的誘餌可以模擬平臺和指揮節點的電子特征,欺騙敵人并模糊其電子監視工作。同樣的能力也可以用噪音淹沒EMS,在關鍵時刻隱藏關鍵系統的使用或機動。
無人機干擾器和高爆激光器可以壓制防空系統以支持空軍行動。電磁炮是在MDO中產生機動窗口的完美武器,因為它可以使不發光的防空雷達失效,而不會使載人的空中干擾機處于危險之中。地面干擾器可以破壞衛星和地面站之間的聯系,使太空部隊的資產騰出來用于其他行動。EA系統可以刺激敵方網絡,或創造可能有利于敵方網絡內部的網絡行動的缺口。針對網絡決定性點的EA的累積效應將使敵人無法對加速的致命打擊作出反應,也無法對進入脆弱地區的滲透性機動作出反擊。
陸軍可以在戰術、作戰和戰略層面上將現代EA技術用于對抗敵人的意志。在戰略層面上,EMP彈藥可以作為一種有效的威懾手段來對抗對手的行動。從多個載體--空中、太空、海上和陸地--發射的EMP提供了核交換之外的升級選擇。在作戰層面,一個模擬蜂窩網絡同時干擾真實網絡的系統,如俄羅斯的Leer 3,將幫助指揮官更有效地管理信息環境。對分散的部隊使用戰術電磁脈沖,從電子上切斷他們的總部和相鄰的編隊,將在紀律性不強的部隊中產生恐懼和威脅。激光誘導的等離子體效應可以在塑造行動中使用,作為致命的動能打擊或快速穿透機動的前奏,制造恐懼和焦慮。
正如俄羅斯人在烏克蘭所展示的那樣,操縱性電子攻擊是利用聯合網絡行動中獲得的情報的一種機制。我們的網絡戰士必須與EA和心理行動相結合,以收集情報,制作欺騙或信息,然后以無線方式投射到對手的網絡。
在21世紀初,美國軍隊專注于反叛亂行動,而俄羅斯等競爭對手則專注于常規軍事力量的現代化,威脅著美國的軍事主導地位。美國軍事能力差距的縮小,加上新興技術,如網絡空間、太空和電磁波譜,改變了戰爭的特點。美國陸軍的應對措施,即多域作戰(MOO),試圖利用融合的概念,快速而持續地整合所有軍事領域、電磁波譜和信息環境,以賦予軍事優勢。為了實現融合,美國陸軍必須與其他軍種進行聯合開發,制定軍種間協議,修改人員結構,并修改人事政策。后越南時代空地戰的發展和隨后的 "沙漠風暴行動 "提供了一個歷史案例研究,重點是為實現陸域和空域的融合而進行的組織變革。目前美國軍隊現代化的體制機制主要是在空地戰時期發展起來的,可能需要調整,以確保適應實現MDO融合。
隨著2015年國家安全戰略的發布,標志著美國正式將國家安全重點從過去14年的沖突中轉移。盡管在阿富汗和伊拉克的行動仍在進行,但該文件提到部署的部隊兵力從2009年的約18萬人減少到公布時的不到15000人。雖然仍然承認暴力極端主義組織的威脅,但美國開始將國家安全重點從全球反恐戰爭(GWOT)轉向大國競爭。這種轉變隨著2017年《國家安全戰略》和2021年《臨時國家安全戰略》的發布而加劇,該戰略特別指出俄羅斯等是挑戰美國實力、利益、安全和繁榮的國家。俄羅斯和其他國家競爭者專注于其部隊的現代化,而美國則專注于在伊拉克和阿富汗的反叛亂行動。這增加了競爭者的能力,并對美國的軍事主導地位構成了威脅。美國陸軍的多域作戰(MDO)概念是對美國陸軍領導層提出的安全問題的回應。它是美國陸軍理論、組織、訓練、物資解決方案、領導、人員、設施和政策(DOTMLPFP)現代化的核心重點,以保持對所有對手的競爭優勢。
MDO的一個核心主題給軍隊帶來了新的問題,即技術的出現和普及改變了戰爭的特征。互聯網的發展和全球日常生活的許多方面對這一現象的依賴引起了網絡空間的競爭,其影響可能會影響傳統的戰爭形式。對基于空間的能力的更多依賴和公認的空間軍事化,同樣代表了在以前的沖突或理論中沒有完全實現的戰爭轉變。能夠利用電磁波譜(EMS)的技術,雖然在整個20世紀都在使用,但在21世紀更加普遍,對戰爭的可能影響也更大。所有這些發展都是隨著信息時代的到來而出現的,增加了信息環境在影響戰爭行為和結果方面的重要性。
擺在作戰人員面前的問題是如何將這些新出現的能力與現有的和經過驗證的框架進行最佳整合。美國陸軍的答案是:"......在所有領域、電磁波譜和信息環境中快速和持續地整合能力,通過跨領域的協同作用優化效果,以戰勝敵人......" 為了完成這一任務,美國陸軍必須與其他軍種進行聯合開發,制定軍種間的協議,修改人員結構,并修改人事政策。海灣戰爭時期空地戰的發展代表了美國空軍和美國陸軍的成功整合,以實現其主要領域的融合,并在DOTMLPFP的各個類別中發生變化。對這一時期土地和領域整合的分析可以為未來網絡空間、空間、信息環境和環境管理系統的領域整合提供有益的見解。
MDO結構廣泛地使用了領域一詞,這一概念是理解融合的一個核心概念。MDO中使用的領域一詞符合聯合出版物(JP)3-0《聯合作戰》中描述的該術語的聯合用法。 聯合條令沒有明確定義領域;然而,它確實將領域的概念貫穿于理解作戰環境和如何組織聯合作戰的描述中。該術語并不意味著所有權或排他性,因為單一軍種可以在多個領域內運作。目前公認的聯合行動的物理領域有四個:陸地、空中、海上和太空。信息環境產生了第五個聯合領域,即網絡空間。
聯合條令并不承認信息環境是一個領域。然而,與四個物理領域和環境管理系統一起,聯合條令將其視為作戰環境的一個主要組成部分,并將其視為一種聯合功能。JP 3-0將信息環境定義為"......包括并聚集了眾多的社會、文化、認知、技術和物理屬性,它們作用于并影響知識、理解、信仰、世界觀,并最終影響個人、團體、系統、社區或組織的行動。" 網絡空間作為一個領域存在于信息環境中。電磁環境,即所有頻率的電磁輻射范圍,也是作戰環境的一個重要因素,但聯合條令并不承認它是一個獨立的領域。
將四個物理領域、網絡空間、信息環境和環境管理系統結合起來,就產生了MDO的融合概念。簡單地說,融合是美國陸軍編隊利用作戰環境的所有可能方面,在武裝沖突中創造對敵人的優勢,利用這種優勢,并取得勝利。部隊通過跨領域的協同作用實現融合,這是MDO理念的核心原則。這個術語也起源于聯合條令,被定義為 "在不同領域的能力的互補性,而不僅僅是相加,從而使每一種能力都能增強其他能力的有效性并彌補其他能力的脆弱性"。融合的產生是由于接受了美國將無法在近距離或同行沖突中享有未來領域的優勢,而是需要使用來自多個領域的協調效應來讓出優勢。
支撐這一分析的理論框架是作戰藝術,即 "在......技能、知識、經驗、創造力和判斷力的支持下,制定戰略、戰役和行動,通過整合目的、方式、手段和評估風險來組織和使用軍隊的認知方法"。MDO是一個作戰層面的構造,旨在為指揮官提供一種方法,通過協調使用所有可用資源,在競爭、危機或武裝沖突中取得戰術勝利。然而,除非在政治目標的背景下實現,否則這種勝利是沒有意義的。然而,將戰術結果與政治目標聯系起來,不屬于本研究的范疇,本研究的重點是戰爭的作戰和戰術層面。
MDO融合領域的新興性質和已發表作品的匱乏限制了這項研究。對后越南時代到今天的發展時期的研究限定了本項目的范圍。雖然在整個軍事史上還有其他領域融合的成功案例,但本研究沒有考慮這些案例。這種劃分也排除了海上、空中和陸地融合的成功案例,這些案例可能會產生比只考慮空中和陸地領域更多或相互矛盾的見解。本研究重點關注美國在空中和陸地融合方面的努力以及對美國陸軍MDO的影響,排除了其他國家的MDO概念發展案例和其他領域融合的歷史案例。最后,本研究主要分析了MDO融合的作戰和戰術影響,因為戰略分析不是MDO構建的重點。
這個項目接受了MDO的一般方法,將其作為一個有效的結構來處理后GWOT時代出現的近距離或同行競爭問題,并作為美國軍隊現代化的基礎。這種方法的一個固有的假設是,實現所有領域、信息環境和EMS的MDO融合會產生對對手的明顯優勢。鑒于持續增加總部組織的規模和復雜性的趨勢,如從2001財年到2012年,作戰指揮部人員增長了50%,增加人員的規模和復雜性可能會阻礙決策和組織適應。最后一個假設是,美國陸軍不能以目前現有的框架實現MDO的最佳融合,這意味著美國陸軍需要進行組織變革以充分實現現代作戰環境的好處。
這個項目采用了案例研究的方法,研究了空地戰發展背后的理由和事件,它的持續演變,以及這個過程在目前的服務和聯合DOTMLPFP類別中是如何體現的。這既代表了極端的情況,因為美國陸軍和美國空軍元素在作戰環境中的接近帶來了自相殘殺的危險,也代表了關鍵的情況,因為空陸一體化的發展可能適用于其他領域、信息環境和環境管理系統。這種分析也可能發現案例研究是務實的,揭示了一種有效的方法來實現與新的戰爭領域的銜接。本研究的一般格式是從文獻回顧,到方法概述,案例研究本身,分析和發現,最后是結論。
想象力和對物理原理不斷發展的理解是未來技術能力的唯一界限,當美國陸軍將自己轉變為一支能夠在多域作戰(MDO)中占主導地位的部隊時,技術在建立和保持對敵手的優勢方面的作用就會增加。美國的政府機構包含了一些組織,負責資助、研究、開發并在新技術增長時將其納入部隊。本專著描述了目前正在開發的能力,這些能力將作為下一代概念的基礎,目前只存在于科幻小說中,但現實中卻有可能實現。它概述了這些進展中的技術所提供的潛在機會,以及它們如何能夠融入所有領域的未來作戰環境。
隨著美國國防部(DoD)從大規模戰斗行動概念向多域作戰(MDO)和聯合全域作戰過渡,對跨領域技術整合的重視程度繼續提高。公共和私營部門的研究和開發組織已經從關注具體的能力轉向提供基本概念的創新,正如陸軍優先研究領域中所概述的那樣(見圖1)。雖然這些優先事項是陸軍特有的,但國防部的其他部門也在為技術創新投入大量資源。
圖 1. 美陸軍優先研究領域。美國陸軍,“2019 年陸軍現代化戰略:投資未來”。
2019年正式成立的美國太空部隊(USSF),在其預算撥款中包括89億美元用于發展天基系統技術。 作為領導將新技術納入空間領域當前和未來擬議戰爭概念的軍事機構,USSF占據了一個不斷發展以滿足作戰環境變化的角色。在短期內,其余領域的更多能力將依賴于空間領域的資產,并推動對技術能力和效率的要求呈指數級增長。美國防部或整個美國政府的任何作戰組織都沒有智力或財政能力來單獨管理這一巨大的任務。與私營企業的緊密合作提供了美國所需的優勢,以保持對其對手的相對優勢。
民用技術的軍事應用和軍用技術的民用應用通過連接兩個平行的研究軌道和匯集關鍵資源如突破、設施和資金來加速發展進程。美國的幾家私營公司已經有專門的部門與政府合作,使雙方受益。作為洛克希德-馬丁公司的一部分,臭鼬工廠負責開發標志性的軍用飛機,如F-117夜鷹和SR-71黑鳥,而雷神技術實驗室創造了愛國者導彈,至今仍是國家防空計劃的基石。私營企業和軍方官員之間的持續合作也改善了技術預測,使規劃者有能力建立起納入仍在開發管道中的概念的途徑,甚至在它們準備投入使用之前。
在本專著中,對未來軍事規劃者來說,最后也是最關鍵的難題是如何在中期和長期將預測能力整合到作戰方法中。等到概念經歷了研究、開發、測試、原型設計和規模生產的完整周期后再考慮其效果,會使美國部隊落后于曲線,并處于持續的反應狀態,特別是在與俄羅斯和中國這樣的全球技術大國競爭時。未來的鑄造過程必須是連續的和迭代的。適應性強的計劃,具有圍繞發展中的突然延遲或進展進行調整的靈活性,比依賴線性進展的概念保持優勢。將 "鞭打 "事件的可能性傳達給高級領導人和政治家,以緩和期望,并減少那些不熟悉技術的細微差別的人的摩擦。
美國國防機構如何利用并迅速整合技術進步,以在多域作戰框架內獲得并保持競爭優勢?
負責開發下一代全域聯合作戰概念的戰地級規劃人員需要采用一個反復的、持續的規劃過程,考慮到理論上可能的、但目前還沒有的、與所有領域相互依賴的技術,以集中資源分配和從目前到未來作戰環境的未來預測路徑。
本專著包括四個不同的研究和思考階段,大致遵循軍隊設計方法學的概念。因此,第一部分試圖了解創新技術的現狀,從而了解軌道和軌道外競爭的技術作戰環境。發展存在于整個美國戰爭機器從概念到原型生產的連續過程中,一些進步來自非軍事應用,如通信、金融和體育產業。第二,研究哪些非保密技術有待于相對迫切的實施。即使在起步階段,新概念的簡單應用也會在多領域的戰場上帶來作戰優勢,而來自真實世界的反饋和數據支持進一步的完善。
在已知的物理學和應用科學的限制下,對現在和可能的空間進行了略微緩和但雄心勃勃的介紹,為未來三十年設定了目標桿。計算能力、材料科學和效率的線性增長阻礙了這些崇高目標的實現。然而,如果能力的增長保持過去幾十年的指數增長(見圖2),本專著中所探討的所有概念都是可以掌握的。最后,本研究以一個簡短的未來戰爭的虛構場景作為結束,該場景展示了戰略和作戰能力在戰術領域的整合,加強了它們與未來戰士在MDO的五個現有領域以及未來可能存在的地外領域的相關性。該方案提出了一個可能的理論終結狀態,以在10到15年的規劃范圍內建立一個作戰方法。然而,這很可能只是物理學和想象力極限競賽中的一個快照。
圖2. 隨著時間的推移,技術能力呈指數增長。
本專著主要關注軌道和軌道外的競爭,包括對所探討的能力有重大影響的地面節點和系統。最終的勝利或失敗,即使是在未來的沖突中,也將極大地影響地面人口,即交戰國的公民。他們將掙扎著在戰爭的附帶影響下生存,同時也會受到氣候變化、人口過剩、食物和水匱乏的日益嚴重的影響。
現代戰術戰爭需要迅速而有效的決策和行動,以便在經常是高度動態和復雜的戰區保持競爭優勢。需要考慮的因素的數量因不確定性、事件的快速發展和人為錯誤的風險而放大。自動化、人工智能和博弈論方法的潛在應用可以為作戰人員提供認知支持。這項研究以自動兵棋推演輔助決策的形式探索了這些應用。該團隊為這個未來的系統開發了一個概念設計,并將其稱為兵棋推演實時人工智能輔助決策(WRAID)能力。
頂點項目的目標是探索自動化、人工智能和博弈論的應用,作為支持未來WRAID能力的方法。該團隊為WRAID能力開發了需求、概念設計和操作概念。該小組確定并探索了可能對未來實施WRAID能力構成障礙的挑戰性領域。該小組調查了與使用人工智能來支持戰爭決策有關的倫理挑戰和影響。
本報告首先對與WRAID能力相關的主題進行文獻回顧。文獻回顧從人工智能的回顧開始,提供了一個關于人工智能如何工作以及它能夠完成什么類型任務的概述。文獻綜述探討了人機協作的方法,以支持未來指揮官和人類用戶與WRAID系統之間的互動。需要翻譯指揮官的意圖,并讓WRAID將有意義的輸出傳達給指揮官,這需要一個強大的界面。審查包括傳統的兵棋推演,以研究目前的模擬兵棋推演是如何進行的,以便深入了解,未來的WRAID能力如何能夠實時復制兵棋推演的各個方面,并認為以前的兵棋推演可以為人工智能和機器學習(ML)算法的發展提供訓練數據。ML算法的訓練需要大量的代表性數據。文獻回顧研究了人類的認知負荷,以深入了解人類大腦的認知技能和上限;并確定人類思維的極限,以顯示人工智能可能提供的支持。文獻綜述中涉及的最后一個主題是,傳統的計劃和決策,以了解目前在軍事上如何制定戰術行動方案。
該小組進行了需求分析和利益相關者分析,探索WRAID能力如何支持作戰人員。該小組在需求分析的基礎上為WRAID系統開發了一套需求。這些要求被歸類為:硬件/軟件,人機界面,和道德規范。第一階段的分析結果包括 (1)戰爭的復雜性需要發展一種未來的WRAID能力,這種能力利用自動化方法,包括人工智能、ML和博弈論,(2)WRAID能力需要大量的計算能力和復雜的軟件算法,(3)實現未來WRAID系統的挑戰將是技術和道德的。
未來WRAID系統的概念設計是基于需求分析的。概念設計被記錄在一套系統模型中,包括背景圖、系統視圖、功能工作流程圖和操作視圖。該團隊開發了一個作戰場景,以支持對WRAID能力如何在作戰中使用。
在開發WRAID的過程中,預計會有一些路障。開發WRAID系統的技術是存在的,然而,研究小組發現數據挑戰、人工智能訓練、程序限制和當前系統工程的局限性將是需要解決的障礙。數據挑戰指的是獲得足夠的數據集的能力,這些數據集代表了訓練ML算法所需的真實世界的戰術行動和兵棋推演分析。程序性挑戰包括國防部實施網絡安全、機密數據、數據庫訪問和信息分配協議的能力。系統工程方面的障礙是需要新的方法來設計安全和可靠的人工智能系統,如WRAID能力。將需要SE方法來處理不可預見的故障模式,并在系統生命周期的早期確定根本原因。
對像WRAID能力這樣的人工智能系統的倫理考慮是系統發展的一個重要因素。開發系統以取代倫理學,將使系統更有可能被部署。有幾個有道德問題的自主武器系統被拉出來作為WRAID能力的道德對話的基礎。通過一個示例場景,對道德狀況進行定性分析,以了解在部署WRAID能力時可能出現的道德問題。倫理學在未來的技術中發揮著巨大的作用;從一開始就考慮到倫理學,建立技術是很重要的。
未來的重點需要放在繼續對想象中的WRAID系統采取正規的系統工程方法。WRAID系統需要一個強大的數據集,需要收集和注釋;收集的定性兵棋推演數據越多,WRAID系統的可行性和準確性就越高。與軍事部門的合作對于最大化WRAID的利益至關重要,例如情報和偵察組織。WRAID的模擬將是完善系統要求和創建現實模型的關鍵。關于如何使用WRAID的培訓和文檔應該同時開發,所以利益相關者,特別是指揮官已經準備好,知道如何使用這個新工具。未來的研究領域包括認知工程、基于正式模型的系統工程和人機協作。
隨著目前技術進步的速度和外國的目標,人工智能將在未來的沖突和戰爭中發揮作用。自上而下的指令將需要設計和實施WRAID能力:提供大量的資源,解決操作和文化變化,重組系統工程,并確保網絡安全和收購變化。實現未來的WRAID能力并不是一個微不足道的任務。然而,它對確保現在和未來的戰斗空間優勢至關重要。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。