技術進步與人工智能在軍事領域的加速滲透,凸顯出探索新型空優戰術的迫切需求。可消耗自主無人作戰飛行器(AUCAV)的部署為維持空戰優勢提供了潛在路徑。傳統空戰機動訓練依賴人類飛行員積累的實戰經驗,而定向能武器(DEW)等新型裝備則催生了尚未充分開發的戰術可能性。本研究借助仿真、集成與建模高級框架,探索強化學習(RL)技術在植入空戰視覺范圍內(WVR)機動決策問題的AUCAV智能體行為優化中的應用。研究將2v2 WVR空戰機動問題建模為馬爾可夫決策過程(MDP),其中友方AUCAV配備定向能武器并在六自由度(6DOF)環境中運作。核心方法論采用雙深度Q網絡強化學習算法,對兩架友方AUCAV進行集中式訓練。通過分階段學習策略:初期采用密集獎勵環境加速基礎訓練,后期切換至稀疏獎勵環境激發自適應與涌現行為,構建系統性訓練框架。研究設計典型實驗場景評估不同DEW配置下AUCAV作戰效能,為后續研究提供基準。通過對學習所得機動戰術的定性分析,以及DEW武器參數四因子全析因實驗的定量評估,驗證強化學習解決方案的有效性,并揭示其對未來武器概念開發的啟示價值。
本文結構如下:第二章綜述空戰機動問題、強化學習解決方案及仿真環境相關研究;第三章闡述2v2空戰機動問題建模方法,提出MDP形式化框架,并詳述機動戰術學習智能體的強化學習實現路徑;第四章展示學習機動戰術的定性分析結果,以及DEW武器參數四因子全析因實驗的定量研究成果;第五章總結研究成果,并提出未來研究方向的戰略考量與技術路線。
人工智能(AI)在現代國防領域已發揮關鍵作用,而數據日益成為戰略資產。用于雷達輻射信號檢測、識別與分類的信號處理技術亦不例外,但大型語言模型(LLMs)在電子情報(ELINT)領域更廣泛的適應性仍未被公開研究充分探索。面對復雜不兼容數據集、海量數據及信息過載的環境挑戰,本研究深入探究LLMs解決此類難題的可行性及實施路徑。我們提出具備結構化與非結構化數據整合能力的AI驅動型聊天機器人系統,其模塊化架構設計旨在提升透明度與可解釋性。該系統在合成數據集上接受評估,其架構與設計選擇基于該敏感領域特性設定的約束條件。單元測試結果顯示:提示分類準確率達97.8%,生成SQL查詢正確率達93.3%,較人工查詢顯著節約時間成本。系統還通過決策日志與過程溯源實現可解釋性與透明度。然而對話測試暴露出錯誤傳播、模糊輸入應對缺陷、模型能力及用戶熟練度依賴等局限。盡管多數問題可被解決,研究仍揭示系統可靠性與資源可用度的強關聯性,凸顯作戰環境中的機遇與風險。盡管模擬數據與通用假設存在局限,該原型系統證實在軍事情報環境廣泛應用LLMs具備技術可行性與應用潛力。
本文由六章節構成:第一章為緒論,第二章文獻綜述,第三章深入闡述雷達技術軍事應用、電子戰、電子情報、信號處理管線及LLMs等理論基礎,第四章介紹方法論,第五章呈現并討論實驗結果,第六章給出最終結論。
本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。
本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。
為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。
本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。
第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。
在現代戰斗中引入機器人與自主系統(RAS)似乎是不可避免的,其優勢顯而易見,如降低風險和擴展人員。本研究選擇了異構無人飛行器(UAVs)的持久偵察作為研究范圍,這也是比較突出的應用之一。盡管在開發先進硬件和算法方面做出了不懈努力,但在現實世界中仍缺乏實際應用。根本原因似乎是最先進的算法不足以應對軍事環境中的高動態性和不確定性。
目前,軍方使用基于意圖的指揮與控制(C2)來應對這些挑戰,因為它們與作戰有著內在的聯系。因此,將 C2 的通信原理轉換為適用于 RAS 的數學方法似乎大有可為,而基于意圖的協調就是這種轉換的結果。為了能夠應對高動態性和不確定性,提出了三項要求。首先,需要有靈活性,以便就地修改解決方案。其次,需要對不可靠的通信具有魯棒性;第三,需要可擴展性,以確保在更大的感興趣區(AOI)和更大的無人機團隊中也能保持性能。
單智能體偵察問題(SARP)和多智能體偵察問題(MARP)是訪問頻率和覆蓋水平方法的緊湊組合,用于持久偵察。根據多機器人系統(MRS)團隊合作和組織方面取得的進展,提出了一種協調方法。這種協調方法將 MARP 的 AOI 劃分為更小的不相交子集,這樣每個無人機就可以獨立解決不同的 SARP。這項研究的主要貢獻在于,這種協調方法基于意圖發揮作用,實現了所需的靈活性、魯棒性和可擴展性。為此,它構建了一個監督員層次結構,在重疊子集上執行分布式合作。該分布式問題使用新穎的復雜并發約束(CCB)來解決,CCB 是并發前向約束(ConcFB)的調整版本,適用于具有復雜局部問題的分布式約束優化問題(DCOP)。此外,在分支與價格的定價步驟基礎上,通過將列生成應用于重新制定的 MARP 版本,生成了一個下限來對所獲得的解決方案進行基準測試。
基于意圖的協調在面對 AOI 的擾動時表現出了靈活性。特別是當變化比較分散時,無需立即修改整個解決方案。此外,如果由于通信失敗而先發制人地終止合作,則可觀察到針對由此產生的次優子集的魯棒性。特別是對于層次結構中的較高層次,次優解決方案可以由較低層次的解決方案進行部分修正。最后,對于越來越大的問題實例,該方法的計算時間呈亞線性增長。因此,基于意圖的協調提供了一種令人興奮的方法,即使在更具挑戰性的環境中也能保持 RAS 的性能。
圖 1.1: 將多智能體偵察問題(MARP)的 “感興趣區域”(AOI)分割成更小的、互不關聯的單智能體偵察問題(SARP)的示例
從根本上說,假定持久偵察可以通過求解多智能體偵察問題(MARP)來實現最優化,但考慮到軍事環境的挑戰,這并非易事。盡管如此,為了獲得良好的解決方案,本論文嘗試將基于意圖的 C2 原則轉換為一種數學方法,命名為基于意圖的協調。這種協調方法旨在將 MARP 分割成更小的單智能體偵察問題(SARP),并分別求解。圖 1.1 顯示了無人機在不相交的 AOI 子集中聯合優化路徑和單獨優化路徑之間的差異。
圖 1.2:求解方法的總體描述。不是求解 MARP 達到最優,而是將 AOI 劃分為更小的子集,以便單獨求解更小的 SARP。使用基準方法對結果進行比較。
圖 1.2 顯示了總體結構。在給出 AOI 的情況下,基于意圖的協調為多個 SARP 創建子集。合并后的結果應類似于 MARP 的最優解,這可以使用特定的基準方法進行評估。因此,本論文的主要貢獻可以列舉如下:
強調在現實作戰環境中使用傳統求解方法執行各類偵察任務的基本問題(第 2 章)。
將 SARP 和 MARP 表述為緊湊模型,結合頻率和覆蓋水平方法用于持續偵察(第 3 章)。
為了生成嚴格的下限,使用列生成法對 MARP 進行了松弛的重構求解,其中包括頻繁求解初等最短路徑問題(ESPP)。由于 MARP 的結構,必須包括循環距離,以及其他一些針對具體問題的調整,以改進前向標注[3](第 4 章)。
通過描述基于意圖協調的分布式分層框架,解釋基于意圖的 C2 的轉換(第 5-2 節)。
實施模糊 C-Means(FCM)[4],并增加后處理插值方法,對相關扇區特征進行權衡聚類,以降低問題的復雜性并適應傳感器的異質性(第 5-3 節)。
制定一個任務分配問題,在智能體之間細分聚類,作為自上而下的啟發式來創建子集。任務分配包括任務效用度量和新穎的二次任務依賴性約束,以適應有限的能力(第 5-4 節)。該方案被擴展為適用于分布式分層框架的合作方案(第 5-5-2 節)。
為了解決分布式合作公式,對并發前向邊界(ConcFB)[5] 算法進行了調整,以適應復雜的局部問題,從而形成復雜并發邊界(CCB)(第 5-5-5 節)。
全面分析,包括參數和組件性能,以及針對軍事環境的具體定量評估。(第 6 章)。
目前空間對空間動能和非動能武器的發展正在改變外層空間軍事行為的性質。此外,在軌加油、在軌服務、組裝和制造能力所帶來的靈活性、機動性和可持續性,再加上軍用空間飛行器、獵殺者和巢狀玩偶衛星以及聚合定向能武器等新技術,使空間領域與更傳統的作戰領域發生了重新調整。雖然許多軍事系統的性質本質上是保密的,但從目前西方和敵方已經實施和正在開發的各種項目可以推斷,太空作戰模式正在發生轉變。因此,歐洲在空間的互操作性從未如此重要--但同樣重要的是,在法律責任模糊不清的情況下,在嚴厲的道德指南針指導下實現空間軍事化的能力。
2022 年 5 月通過的《歐盟安全與防務戰略指南》體現了 “歐盟對太空和防務的看法發生了范式轉變”(Fiott,2022 年,第 26 頁)。外太空作為人類最終的探索前沿,自誕生以來就一直是軍事占有的目標。與十年或二十年前相比,當今軍事格局的主要區別在于,現有技術已允許外層空間在更傳統的意義上軍事化。
本文將研究現代空間武器化的現狀,重點是空間對空間軍事系統。空間對空間技術的顯著發展正在重新定義空間軍事戰爭,促使其演變為一個 “作戰領域”。本文還將論證,新型天基能力的引入,即交會和近距作戰(RPO)以及可機動和可重復使用的具備作戰能力的軍用空間飛行器(MSVs)等武器系統,日益增強了空間軍事機動性和反應能力。因此,有觀點認為,太空軍事領域的性質正在演變為包括主動軍事基礎設施,而不是一般的被動基礎設施。在簡要回顧中國和俄羅斯的空間能力之后,文章還將介紹歐洲目前在定位、導航和授時(PNT)、空間通信、空間態勢感知(SSA)和導彈攔截、微型衛星等領域的項目,以及更相關的空間反應和響應能力。這些都表明了對敵對天基武器系統的關注,以及對攔截和減輕此類威脅的基礎設施的整合。盡管如此,結論是不可避免的:無論出于何種意圖和目的,空間現在都是一個戰場。
巡飛彈藥--能夠整合基于傳感器的分析,在目標上空盤旋、探測并爆炸的消耗性無人駕駛飛機--是現代戰場上一個日益突出的特征。現有研究探討了這些技術是否正在改變當代戰爭的特點,巡飛彈藥的擴散如何影響地區(和全球)安全動態,以及這對世界各國軍隊的兵力結構可能意味著什么。本報告以早先對防空系統的研究為基礎,重點有所不同。它結合有關自主武器系統(AWS)的討論,研究了全球巡飛彈藥的獲取和部署情況。更具體地說,本報告利用現有的公開資料,調查自 20 世紀 80 年代以來,在全球巡飛彈藥的開發、測試和使用過程中使用自主和自動化技術是否影響了人類控制武力使用的新標準。
大多數現有的巡飛彈藥都被宣傳為按照 “人在環內”的原則操作。這些平臺的操作人員被要求授權對系統指定的目標進行打擊,通過雙向數據鏈路和遠程地面控制站監控平臺的運行,并保留 “中止/波斷 ”能力,以便在戰場條件發生變化時停止打擊。由于是人而不是傳感器的輸入負責釋放力量,因此這類系統不能簡單地歸類為自主武器系統。這使許多巡飛彈藥有別于早期的以色列航空航天工業公司(IAI)的 “哈比 ”系統,后者旨在執行壓制敵方防空行動,通常被稱為自主武器系統。
盡管如此,全球獲取和操作巡飛彈藥的實踐清楚地凸顯了武器系統瞄準功能日益自主化的趨勢,以及這如何影響人類對武力使用的控制。自動或自主技術在巡飛彈藥中的集成,對人類對具體目標選擇決策的控制質量和形式提出了實際挑戰,并開創了先例。特別是,這一過程似乎已經降低了智能體在具體目標選擇決策中對某些武器所能行使的控制和態勢判斷的質量。某些類型的巡飛彈藥作為移動平臺,其地理和時間范圍不斷擴大,其所使用的基于傳感器的瞄準似乎已在何時何地對何人使用武力方面造成了更大的不可預測性。這可能會使人類對具體目標選擇決策的控制更有名無實。這也提出了與遵守各種法律和道德規范有關的問題。
本報告通篇強調了三個主要關切領域:
(1) 在何時何地使用武力以及智能體如何控制具體的目標選擇決策(即人為控制的情境和決策層面)方面存在更大的不確定性;
(2) 將巡飛彈藥用作殺傷人員武器和在居民區使用;
(3) 忽視與巡飛彈藥實戰相關的潛在不可預測、濫殺濫傷和大面積影響。
這些研究成果基于兩方面的分析:首先是一份新的開放源碼目錄,詳細介紹了全球范圍內至少有16個國家采購的24種不同巡飛彈藥中自動和自主功能的集成情況。其中包括(歷史上)與這些技術的發展密切相關的國家(如以色列、俄羅斯、美國、土耳其)的公司開發的巡飛彈藥,以及澳大利亞、波蘭、臺灣和英國等國的其他制造商開發的巡飛彈藥。同樣,目錄中還包括在近期沖突中使用的國際知名平臺,其中一些可能已經為讀者所熟悉。其中包括 AeroVironment Switchblade 300、IAI Harpy 和 STM Kargu-2 等。與早先對防空系統的研究一樣,在可能的范圍內,本目錄的目的也是為了擴展國際上關于現有武器系統的自主性如何改變人類控制瞄準決策的社會規范的討論。本目錄通過記錄這些系統中自動和自主技術的使用情況,而不是詳細介紹現有研究中已列出的技術設計特點。
其次,提供了深入的案例研究,詳細介紹了巡飛彈藥在最近三場沖突中的使用情況:利比亞內戰(2014-2020 年)、2020 年納戈爾諾-卡拉巴赫戰爭和烏克蘭戰爭(2022-)。通過這些案例研究,可以探索一系列沖突方使用巡飛彈藥的不同地點和模式。這些研究還使能夠得出對目前使用巡飛彈藥做法的三個主要關切領域:人類控制的態勢和決策方面存在更大的不確定性;將這些系統用作殺傷人員武器和在人口密集地區使用;以及潛在的濫殺濫傷和大面積影響。
作為制定新的保障措施的起點,不僅要保護而且要改進人類對具體目標選擇決策的控制質量和形式,向參與有關自主武器系統國際辯論的各方以及開發和使用巡飛彈藥的國家提出了一系列建議。這些建議的基礎是總體評估,即顯然迫切需要在一項具有法律約束力的國際條約中對武器中的自動和自主瞄準,包括巡飛彈藥中的自動和自主瞄準進行規范。建議與紅十字國際委員會(紅十字委員會)提出的建議有重疊之處。
特別是,對將巡飛彈藥作為一種自主武器使用的做法進行的分析強調了紅十字國際委員會所確定的軍事發展的潛在未來趨勢:隨著時間的推移,巡飛彈藥似乎已被用于瞄準人類和更多種類的軍事目標;這些系統是移動的,而不是固定在原地;而且它們已被 “用于平民面臨風險最大的城市”。
公開資料分析還有力地證明了數據的局限性,這從根本上影響了對操作巡飛彈藥時人為控制的精確質量的理解。除其他外,這凸顯了在這一領域提高透明度的必要性。
根據研究結果,本文敦促各國制定并通過具有法律約束力的武器系統自主性國際規則,將巡飛彈藥作為其中的一個類別。建議各國 - 在使用巡飛彈藥和其他集成了自動化、自主化和人工智能技術的武器時,確認、保留并加強目前由人類對具體目標選擇決定進行實時、直接評估和控制的標準,作為確保遵守法律和道德規范的防火墻。
對可使用自動、自主和人工智能技術識別、選擇、跟蹤和使用武力的巡飛彈藥等武器的作戰時間和地理區域進行控制。
禁止將機器學習和其他形式的不可預測人工智能算法整合到巡飛彈藥的瞄準功能中,因為這可能從根本上改變具體瞄準決策及其結果的可預測性、可解釋性和問責制。
對可使用自動、自主和人工智能技術識別、選擇、跟蹤和對目標施力的基于傳感器的武器(如巡飛彈藥)的運行環境類型進行控制。作為自主武器系統發揮作用的巡飛彈藥不應在人口密集地區使用。
禁止對使用自動、自主和人工智能技術進行瞄準的傳感武器使用某些目標配置文件。這應包括禁止在包括巡飛彈藥在內的武器系統中設計、測試和使用自主 “以人為目標”,并將此類武器的使用限制在 “本質上屬于軍事目標的物體”。
更積極地公布技術細節,說明在具體瞄準決定中操作巡飛彈藥時人為控制的質量。這應包括酌情分享有關巡飛彈藥操作人員所受訓練的程度和特點的詳細資料。
在視距(WVR)內進行空戰需要執行復雜的空中機動和快速的順序決策。如果加入額外的武器能力,這些決策的復雜性還會進一步增加。無人自主飛行器技術和武器能力的發展有助于克服人為限制帶來的障礙。事實證明,自主無人作戰飛行器(AUCAV)和定向能武器(DEWs)等先進武器能力在 WVR 空戰中至關重要。這就引出了一個問題--AUCAV 能否擁有適當的人工智能和武器能力,以改進高質量的空戰演習和戰術?為了研究這個問題,本文提出并解決了廣義空戰機動問題(ACMP),在這個問題中,通過建模來控制一架防御型 AUCAV,該 AUCAV 正在尋求與攻擊型敵機交戰。該模型利用每架飛機的 5 自由度點質量來跟蹤其狀態轉換,同時還跟蹤內部攜帶的火炮和 DEW 能力。由于該問題的維度較高,提出了一種近似動態規劃(ADP)方法,其中開發了一種近似策略迭代算法。這種 ADP 算法通過神經網絡回歸來實現高質量的戰斗機戰術和機動。計算實驗結果表明,在 3 個問題實例中,有 2 個實例的 ADP 策略優于所有 3 個基準策略。ADP 策略學會了同時使用內部攜帶的火炮和 DEW,這促進了 ACMP 中任一武器平臺的態勢效益理念。在 WVR-ACMP 中加入 DEW 功能可以體現前所未有的空戰戰術。
本研究的其余部分安排如下。第 2 節概述了與空氣動力學、定向能、1v1 ACMP、2v1 ACMP 和多智能體 RL 相關的現有研究。第 3 節闡述了 DEW MvN ACMP 的 MDP 模型,并介紹了我們確定高質量藍色 AUCAV 機動策略的 ADP 求解方法。第 4 節介紹了對所產生的機動策略與基準策略進行比較的一系列定量分析。最后,第 5 節對本文進行了總結,并提出了未來研究的幾個方向。
人工智能(AI)在塑造未來技術格局方面舉足輕重。多智能體強化學習(MARL)已成為一項重要的人工智能技術,可用于模擬各個領域的復雜動態,為高級戰略規劃和自主智能體之間的協調提供新的潛力。然而,由于缺乏可解釋性(可靠性、安全性、戰略驗證和人機交互的關鍵因素),它在敏感軍事環境中的實際應用受到限制。本文回顧了 MARL 在可解釋性方面的最新進展,并介紹了新的使用案例,強調了可解釋性對于研究智能體決策過程的不可或缺性。首先對現有技術進行了批判性評估,并將其與軍事戰略領域聯系起來,重點關注模擬空戰場景。然后,引入了新穎的信息論可解釋性描述符概念,以分析智能體的合作能力。通過研究,旨在強調精確理解人工智能決策的必要性,并使這些人工生成的戰術與人類的理解和戰略軍事理論相一致,從而提高人工智能系統的透明度和可靠性。通過闡明可解釋性在推進MARL用于作戰防御方面的至關重要性,該工作不僅支持了戰略規劃,還通過有見地和可理解的分析支持了對軍事人員的訓練。
深度 RL 涉及神經網絡在兵棋推演等復雜和真實世界環境中的決策。然而,由于難以解釋其結果,這些網絡經常被視為黑箱模型。可解釋強化學習(XRL)指的是解釋和理解強化學習模型決策過程的能力,讓人們深入了解在特定情況下采取某些行動的原因。XRL 面臨的挑戰包括與科學評估和操作可靠性相關的風險、缺乏普遍接受的評估指標,以及為復雜任務提供全面解釋的難度[3]。盡管存在這些挑戰,但在軍事行動中,采用有效的可解釋性方法來理解模型輸出對于診斷錯誤、提高模型性能和理解錯綜復雜的智能體行為尤為關鍵。這些方法在建立軍事人員之間的信任、確保安全關鍵任務的透明度以及促進遵守嚴格的操作和監管標準方面發揮著至關重要的作用。在復雜而敏感的軍事場景中,XRL 使指揮官和決策者能夠解釋和證明人工智能驅動的戰略和行動,從而做出更加明智和負責任的決策。此外,精確的可解釋性(即正確可靠的解釋)有助于更好地進行風險評估和管理,改善人類與智能體之間的協調,并支持將先進的人工智能系統集成到現有的軍事框架中,同時保持作戰的可靠性和有效性。空戰模擬涉及復雜的決策過程,智能體必須在瞬間做出決策以實現戰略目標。這些模擬通常涉及眾多因素,包括機動、瞄準、規避威脅、燃料管理以及與其他單元的協調。舉例來說,考慮以下場景:智能體檢測到敵軍導彈來襲。為了反擊,它迅速釋放照明彈并進行桶形翻滾,以迷惑導彈的熱傳感器并躲避敵方的瞄準。在這一場景中,對導彈的觀察是執行釋放照明彈和桶形翻滾動作的重要特征。
本文回顧了 MARL 在可解釋性方面的最新進展,并介紹了一些新穎的使用案例,這些案例突出了 MARL 在模擬空戰場景(圖 1-1)中分析智能體決策過程的關鍵作用。通過研究這些進展,我們強調了可解釋性在理解和改進智能體行為方面的重要性,尤其是在應用于軍事模擬等復雜環境時。我們的論文不僅僅是一份調查報告,它還探討了可解釋性如何加強戰略規劃、促進人類與人工智能的協作,以及確保人工智能在關鍵任務行動中做出的決策值得信賴。通過這些見解,我們旨在證明可解釋 MARL 在高風險場景的研究和實際部署中的緊迫性。
目前有多種結合 RL 和 MARL 的方法,用于訓練空戰場景中的智能體。這些方法不僅限于戰斗機的狗斗機動,還包括無人機群(UAV)和不同類型的飛機(異構智能體)。
小規模交戰中的空戰通常側重于通過 RL 控制飛機,以便在幾乎沒有還擊風險的情況下獲得對對手有利的位置。早期控制飛機的方法包括專家系統或帶有學習分類器的混合系統,而較新的方法則依賴于 RL。為了學習更強的 CoA,使用 RL 方法的模擬空戰方法依賴于更先進的技術,如深度 Q 網絡(DQN)、深度確定性策略梯度(DDPG)、課程學習方法或包含自我博弈的方法,即智能體與自身的副本進行博弈。
另一方面,更大規模的交戰側重于高層次的戰術決策或武器-目標分配,即 CoA 的規劃。在這種情況下,考慮到維度過程,MARL 方法通過利用單個智能體內部的對稱性,尤其適用。在這一領域,有一些使用多智能體 DDPG、分層 RL 或基于注意力的神經網絡的先進方法。我們之前的一項工作包括一個具有注意力機制的分層 MARL 模型,該模型使用近端策略優化(PPO)進行訓練。在我們的工作中,我們還考慮了異構智能體,這在文獻中似乎很少見。加入異構智能體會增加協調的復雜性,因為智能體可能不了解彼此的技能和能力。
現在回顧相關工作部分所回顧的 XRL 類別,隨后將它們與空戰場景的多智能體領域聯系起來,以強調理解人工智能戰術的益處和不可或缺性。前三種方法(策略簡化、獎勵分解和特征貢獻)屬于被動解釋類別。這類解釋側重于短時間范圍,根據即時行為提供反饋。例如,“飛機為什么發射導彈?”這樣的問題可以通過 “對手進入武器交戰區(WEZ)”這樣的即時激勵來回答。這些解釋往往側重于個人行為,而不是更廣泛的戰略考慮。相比之下,積極主動的解釋考慮的時間跨度更長,更適合解釋戰略決策。例如,它們可以解釋為什么在特定情況下,某些擁有特定技能的智能體被設置為防御模式,而其他智能體則采取攻擊性戰術。因果和層次 RL 模型可以提供這類解釋,為空戰中的長期戰略和協調演習提供見解。
在深度 RL 中,神經網絡被用作函數近似器來學習決策函數,可以是策略,也可以是 Q 函數,在我們的分析中,我們側重于前者。策略簡化指的是降低策略的復雜性,使其可以被人類解釋的過程。具體做法包括:以決策樹的形式學習策略,跟蹤每個決策步驟;將學習到的策略作為 “if-then ”規則集(如模糊規則);使用狀態抽象法將相似的狀態分組,降低狀態空間的維度;或使用高級的、人類可讀的編程語言來表示學習到的策略。這些方法的主要優點是簡單易用,因為這有利于產生解釋并增強對系統的信任。在動態相對簡單、智能體較少的環境中,即使是在不可預見(和簡單)的空戰場景中,這些方法也能充分推廣和擴展,以提取有意義的解釋。然而,在任務目標眾多、智能體技能各異的更復雜環境中,這種方法可能就不適用了,因為解釋往往是靜態的。這種方法的主要缺點是模型性能與可解釋性之間的權衡:隨著可解釋性水平的提高,模型的準確性往往會降低。在模擬空戰場景中,逼真度對產生有價值的見解至關重要,因此保持模型的高準確性非常重要。這通常需要復雜的模型,涉及精密的神經網絡、廣泛的超參數調整、先進的訓練算法和高度動態的環境。雖然策略簡化會限制策略表示的類型,從而影響整體性能,但它可以作為一個實用、高效的起點。簡化后的策略可以有效訓練和解釋空戰智能體的基本控制動作,為未來的迭代打下基礎,從而隨著場景復雜度的增加,在可解釋性和準確性之間取得平衡。
在視距(WVR)內進行空戰需要執行復雜的空中機動和快速的順序決策。如果加入額外的武器能力,這些決策的復雜性還會進一步增加。無人自主飛行器技術和武器能力的發展有助于克服人為限制帶來的障礙。事實證明,自主無人作戰飛行器(AUCAV)和定向能武器(DEW)等先進武器能力在 WVR 空戰中至關重要。這就引出了一個問題--AUCAV 能否擁有適當的人工智能和武器能力,以改進高質量的空戰演習和戰術?為了研究這個問題,我們提出并解決了廣義空戰機動問題(ACMP),在這個問題中,我們建立了一個模型,以控制正在尋求與攻擊敵機交戰的防御型 AUCAV。該模型利用每架飛機的 5 自由度點質量來跟蹤其狀態轉換,同時還跟蹤內部攜帶的火炮和 DEW 能力。由于該問題的維度較高,我們提出了一種近似動態編程(ADP)方法,其中我們開發了一種近似策略迭代算法。這種 ADP 算法通過神經網絡回歸來實現高質量的戰斗機戰術和機動。我們的計算實驗結果表明,在 3 個問題實例中,有 2 個實例的 ADP 策略優于所有 3 個基準策略。ADP 策略學會了同時使用內部攜帶的火炮和 DEW,這促進了 ACMP 中任一武器平臺的態勢效益理念。在 WVR-ACMP 中加入 DEW 功能可以體現前所未有的空戰戰術。
近年來,各國軍隊加強了整合無人駕駛技術的努力,以提高有人-無人駕駛編隊(MUM-T)的能力。由于一些國家的戰斗年齡人口正在減少,軍隊正在轉向容易獲得的、具有成本效益的和復雜的無人駕駛技術。MUM-T擁有巨大的潛力,不僅可以緩解軍隊的人力短缺,還可以提高作戰能力。這篇論文研究了MUM-T在前線的有效性,直至步兵小組支持城市地形的進攻行動。一個基于智能體的模擬被用來模擬有無無人駕駛地面車輛(UGV)支持一個步兵連的MUM-T作戰行動。對超過76,800次的模擬戰斗進行了分析。據觀察,MUM-T概念可以極大地提高戰斗力,通過增加敵人的傷亡來評估。還觀察到UGV的重裝時間、武器精度和自身的力量結構對步兵的殺傷力和生存能力有很大影響。這項分析的結論是,在小單位戰術層面實施MUM-T對提高整體作戰性能有很大潛力。未來,作戰模型可以被整合到未來的軍事演習中,這樣就可以對模擬的結果進行驗證和確認。
隨著復雜技術和創新的使用,戰爭正在日益演變。在全球人力短缺的推動下,各國正在轉向無人駕駛技術以緩解這種短缺并提供作戰能力。因此,通過采用載人-無人小組(MUM-T),利用無人技術來支持前線步兵的潛力很大。
本論文旨在探索MUM-T在進攻性城市場景中的有效性。論文討論、分析和研究了在城市環境中連級無人駕駛地面車輛(UGV)的戰術運用效果。指導這項研究的研究問題包括以下幾個方面:
主要問題:
1.有UGV或UGV支持的步兵小隊的致命性和生存能力如何?
2.在模擬場景中,MUM-T部隊的不同部隊結構的戰斗結果和分析是什么?
次要問題:
本論文使用基于智能體的模擬環境 "地圖感知非統一自動機"(MANA),通過建立一個模擬并對UGV的作戰方案進行分析,再加上影響城市地形中進攻性步兵部隊作戰效率的因素,來研究MUM-T。
該作戰模型包括兩組主要的作戰部隊,以美國陸軍的步兵作戰順序(ORBAT)為模型: (1)由裝備有UGV的友軍步兵連組成的藍方部隊;(2)由作為防御方的對手步兵排組成的紅方部隊。圖1顯示了模擬作戰行動的一個迭代的開始狀態。
圖1. MANA的一個模擬復制的初始狀態的截圖。
共創建了三個不同的實驗設計(DOE),以研究MUM-T能力和概念的關鍵戰斗特征和效果。衡量性能的重點是任務的有效性,重點是確定與殺傷力和生存能力相關的因素。作者對每個DOE采取了迭代的方法,將前一個DOE的一些發現和分析納入下一個DOE。第一個DOE著重于與基線步兵ORBAT相比,最初引入MUM-T的效果。第二個DOE重點關注不同的人力和部隊結構,以研究支持MUM-T的部隊規模的影響。最后一個DOE結合了前兩個DOE的各個方面,并創建了一個近乎正交和平衡的混合設計,以實現一個更全面和結論性的實驗來結束這篇論文。近80,000次模擬戰役,每次涵蓋超過8小時的戰斗,被運行和分析。
不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。
圖1 決策優勢理論。
決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。
決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。
信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。
信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。
信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。
決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。
增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。
控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。
雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。
本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:
建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。
建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。
建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。
建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。