多Agent系統研究關注的是相對簡單的Agent互動所產生的系統級行為。迄今為止,多Agent系統研究主要涉及同質Agent系統,其成員Agent在物理上和行為上都是相同的。具有不同物理或行為特征的異質Agent系統可能比同質團隊更有效地完成任務,通過相互補充的Agent類型之間的合作。在這篇文章中,我們比較了同質和異質團隊在聯合武器情況下的表現。聯合武器理論提出,異質力量的集體應用可以產生遠遠大于同質力量或個別武器的連續使用所取得的效果。實驗結果表明,聯合武器的戰術可以從簡單的Agent互動中產生。
多Agent系統研究領域試圖開發出開發單個Agent的方法和算法,以產生理想的系統行為。該領域已經產生了著名的算法,如粒子群優化(PSO)和蟻群優化(ACO),但主要集中在相同的、同質的Agent系統。最近的工作已經開始探索異質系統的潛力,或具有不同行為或物理形式的Agent系統。我們特別感興趣的是這種系統在發展和驗證聯合武器理論方面的應用。
聯合軍備的軍事理論將不同類型的軍備結合起來,以達到比同樣的軍備單獨或依次應用所能達到的效果更大(陸軍2019年)。它將互補的武器結合在一起,為了避免一種武器,敵人必須將自己暴露在另一種武器之下(軍團1997a)。因此,一支聯合武器部隊是異質的,因為它所包括的武器或制劑彼此不同。由于聯合武器部隊是一個異質的多Agent系統,對多Agent系統的研究可能會給聯合武器的軍事研究帶來成果。本文介紹了一組實驗,旨在探索聯合武器戰術在異質代理系統中的出現,即在行為或物理形式上不同的Agent。
實驗是在一個二維(2D)戰斗模擬中進行的,在這個模擬中,各Agent團隊為實現既定目標而競爭。遺傳算法被用來為每個場景演化出有效的團隊,并將每個演化出的團隊的行為與現有軍事學說中的聯合武器行為的定義進行比較。假設被證明是正確的,即聯合武器戰術可以從簡單的異質Agent的相互作用中產生。
這項工作的其余部分按主題分為幾個部分。第2節回顧了同質和異質多Agent系統的現有研究。第3節描述了實驗過程中使用的平臺和措施。第4節概述了測試場景,第5節討論了每個實驗的結果。第6節提供了結束語和對未來工作的建議。
多智能體系統在解決復雜和動態領域的問題方面顯示出巨大的潛力。這種系統由多個單獨的實體組成,稱為智能體。系統的整體行為是由其組成的智能體的許多相互作用產生的。大多數研究的系統由同質的智能體組成,它們擁有相同的行為或物理形式。然而,最近的工作表明,擁有不同行為或形式的異質智能體可以提高系統性能。這項研究考察了異質性對多智能體系統有效性的影響,并研究了多智能體系統在聯合武器戰中的應用,聯合武器戰同時應用異質單位類型來完成軍事目標。數百個形態上同質和異質的多Agent團隊被演化出來,并對其完成某些目標的能力進行評估。結果表明,沒有一個團隊配置在所有情況下都表現出色,在異質和同質配置之間轉換的能力對團隊的成功比任何配置的異質性更重要。結果進一步表明,美國海軍陸戰隊理論中描述的聯合武器戰術可以從簡單的、分散的智能體的互動中產生,表明該領域的未來研究可能被證明對聯合武器戰爭的軍事藝術有價值。
現代聯合武器理論要求同時應用多種武器類型,以達到大于其各部分之和的效果[1, 2]。復雜適應性系統(CASs)的研究人員對這句話很熟悉,它是一種涌現的語言,通過這種現象,一個相對簡單的智能體系統表現出復雜的總體行為,從而創造出 "小中見大 "的效果--大于其部分之和[3, 4, 5]。約翰-博伊德(John Boyd)的工作是基于當前的聯合軍備理論,他將武裝部隊視為由處于不同角色的自主單位組成的復雜網絡,并借鑒了CAS文獻來發展其戰爭理論[6]。對博伊德來說,每個軍事單位都填補了一個專門的利基,有助于整體的運作,因此,發展一支有效的聯合武器部隊是一個多智能體系統工程問題。在這樣的問題中,每個智能體必須被設計成通過與同伴的互動,在系統層面上幫助產生一些理想的特征。例如,戰斗的勝利是軍隊的一個理想特征,每個士兵的訓練和裝備都是針對贏得戰斗的整體任務。
聯合武器部隊具體來說是一個異質的多智能體系統。異質性一詞表示智能體之間在形態上、行為上或兩者上的差異。形態上的異質性指的是物理特性上的差異,而行為上的異質性指的是智能體對感知數據的行為方式上的差異。因此,形態上的異質性智能體就像坦克與飛機或警犬與警察一樣不同。行為上的異質性智能體不同,就像兩架相同的飛機在執行任務時可能扮演不同的角色,或者一個士兵可能在另一個士兵前進時提供火力掩護[3, 7]。
聯合武器戰爭的歷史提供了許多異質系統的例子,從古代的小兵、步兵和騎兵的聯合編隊到現代空軍的復合翼概念[8, 9]。現代計算機模擬和人工智能(AI)的研究提供了新的機會,通過建模和評估部隊的組成和戰術來推進聯合武器理論。最近的研究表明,智能體能夠在戰略游戲中產生新的戰術[10],協調多個物理和行為上不同的單位,在物理世界中執行協作任務[11],并在智能體的合作團隊中產生新的和多樣化的行為[12]。所有這些結果都與聯合武器理論有直接關系。這樣的研究既促進了軍事藝術的發展,也促進了人工智能和多智能體系統的研究。
假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。
1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?
2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?
假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。
1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?
2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?
3.給定一組形態不同的單元,多Agent系統能否在沒有明確的中央指令的情況下表現出協同的聯合武器行為?
問題一和問題二涉及到可以將多樣性引入到智能體群體中的方式。采用具有物理或形態差異的智能體是否有益?為了回答這些問題,本研究在各種不同的任務中測試并比較了行為上和形態上的異質團隊。第三個問題是評估多智能體系統參與聯合武器戰爭中的合作行為類型的潛力。
這項研究提出了幾個戰斗單位的異質團隊的模擬,并評估了形態和行為異質性對團隊有效性的影響。多個異質和同質團隊被生成并在四個場景中測試,每個場景都有不同的目標。隊伍根據其勝利率進行分級,并與所受傷害成反比。測試結果被用來確定最有效和最高效的團隊配置和行為。
最合適的團隊表現出合作戰術,包括側翼機動、偵察、多管齊下的攻擊和其他行為。這些戰術產生于每個團隊成員智能體的互動,并且經常結合不同的智能體形態或行為。這項研究表明,異質性對團隊適應性的影響因情況而異,最有效的團隊傾向于演化出異質性行為和形態來克服戰術挑戰,而且聯合武器戰術可以從簡單智能體的相互作用中出現。
這項研究提供了一個動態領域中同質和異質多智能體系統的比較。它支持國防部(DoD)發展自主武器系統的優先事項[13],并通過展示從簡單的智能體互動中出現的可識別的戰術行為,將多智能體系統理論應用于聯合武器的軍事藝術。提供了一個新的和可擴展的模擬器,用于未來對單體和多體系統的研究。
第二章提供了多智能體系統的相關背景和研究,并概述了該領域與聯合武器理論的關系。還提供了RoboCodePlus模擬器的描述。第三章描述了用于執行實驗的方法,概述了智能體架構、測試場景以及用于生成和進化單個團隊的遺傳算法。第四章分析了每個實驗的結果并得出結論,而第五章總結了所做的工作并為未來的工作提供了建議。
本報告著重于2025年混合部隊的任務工程過程。來自OPNAV N9I的最新任務強調了關注使用成本保守的無人系統的必要性。具體來說,重點放在近鄰的競爭對手大國以及在南海的反介入/區域拒止(A2/AD)情況下可能出現的問題。海軍水面作戰中心的任務工程方法被用來確定擬議的替代艦隊架構的具體事件,然后使用作戰模擬和優化模型進行分析。對目前的無人系統,特別是那些正在開發的高技術準備水平無人系統的性能特征和成本的研究進行了匯編。提議的無人系統架構是作為A2/AD問題的解決方案而開發的。然后,無人系統架構通過優化模型運行,以最大限度地提高系統性能,同時最小化成本。然后,架構優化的結果被輸入到建模和仿真中。然后比較每個架構的整體有效性,以找到最有效的解決方案。對結果進行了分析,以顯示預期的任務有效性和利用擬議解決方案的無人架構的擬議成本。最有效的架構包括搜索、反蜂群、運送和攻擊系統。
系統工程分析31組由美海軍作戰司令部戰爭整合處(OPNAV N9I)負責確定一個解決方案,以彌補與大國在2025年的預期能力差距(Boensel 2021)。該解決方案系統必須具有成本效益并能在2025年之前交付。SEA團隊利用任務工程過程來確定候選的未來艦隊架構來解決問題(工程副主任辦公室2020)。
到2025年,如何才能有效地對抗近鄰對手的反介入和區域拒止能力?
以具有成本效益的方式調整目前的能力,并創建一個未來的架構,以加強美國海軍的作戰能力,包括存在、欺騙、ISR以及在反介入和區域拒止環境中的防御和進攻能力。
利用任務工程流程,總體情景被設定在2025年的南海。大國已執行了其九段線的領土要求,并建立了一個反介入/區域拒止(A2/AD)區。大國不斷擴大的艦隊、對人造島嶼的使用、遠距離ASCMs以及對無人系統的擴大使用使美國的水面作戰艦艇處于高風險之中。總體任務是美國海軍DDG通過提高其殺傷力和生存能力,在A2/AD區域內進行FONOPS。在整個方案中,有三個小場景被開發出來。OTH ISR、目標選擇和交戰,威脅無人機蜂群,以及提供目標選擇的威脅無人機ISR資產。
衡量任務成功與否的總體標準是美國海軍部隊在近乎同行的反介入區域拒止環境中的作戰能力。有助于衡量成功的有效性的措施是DDG的生存能力和殺傷力的提高程度與解決方案系統的成本相結合。
為了分析擬議的系統解決方案(SoS)是否能達到既定的成功標準,設計了一個價值體系。利用通用的海軍任務列表,項目組確定了擬議的系統解決方案需要完成的三個二級任務,以完成任務(海軍部,2008)。
對三個選定任務下的后續任務進行了評估,以確定擬議系統需要完成的具體功能。通過這次審查,確定了候選無人系統需要完成的四項高級功能。這些功能是交付、搜索、通信中繼和打擊。為每項功能選擇了性能措施,以用于多屬性價值分析。
多屬性價值分析被用來比較完成四個功能中一個或多個功能的候選系統。一個系統的價值是根據每個性能指標對完成一個特定功能的重要性,給每個性能指標分配一個權重而得出的。權重從1到5不等,其中5表示最重要的MOP。計算MOP和權重的乘積,并將每個乘積相加,以獲得系統的價值。
為了確定可行的候選系統,項目組成員各自研究了一個不同的無人系統,并收集了每個候選系統的性能衡量標準。如果一個特定的無人系統的MOP值不知道,則推斷其值與一個類似的系統相同。如果不存在這樣的類似系統,則使用啟發式方法估計該值。對于每項功能,至少有一個系統符合技術成熟度,可考慮用于2025年的混合部隊。
為了實現所有四個功能,候選系統的組合被排列組合成16個系統簇。每個備選方案的系統價值和成本都被計算出來。系統價值的計算方法是將每個備選方案中的每個系統的價值相加。
為了產生用于比較的替代方案,該團隊使用整數線性規劃生成了架構。這是用Pyomo的優化功能完成的。線性規劃被創建、約束以更好地表示現實,并被解決以生成分別針對性能、預算和替代合約選項進行優化的替代架構。
現代導彈戰可以使用炮擊作戰模型進行評估。這個模型被用來計算每個小場景中的每個SoS備選方案的有效性。結果顯示了超視距ISR平臺的重要性,一個獨立的武器系統來對付敵人的無人機,目前IAMD作戰系統的有限防御能力,以及超視距搜索和瞄準能力。
“大國”和美國都擁有深入的綜合空中和導彈防御。為了證明這種互動,在微軟Excel中使用反二項式函數對不同的交戰進行了建模。每一個擬議的艦隊架構都被輸入到三個小插曲的戰斗模擬中。為了獲得隨機的結果,試驗的數量被設定為300次,每個概率都有一個可能的值范圍。該模型中的自變量可分為防御性或進攻性變量。防御性變量是每個單位的綜合防空和導彈防御武器的殺傷數量和殺傷概率。PLAN的進攻性變量是YJ-18 ASCM和Harpy無人機的命中數。美國海軍的進攻性變量是海上攻擊戰斧、ASCM和特定攻擊無人機的進攻性命中數量。
模擬的結果顯示了擊中敵方水面平臺或美國海軍水面部隊的數量。通過比較建議的系統與基線的命中率,可以得出變化的百分比。在我們的分析中,進攻和防御的有效性被平均加權,允許將進攻和防御百分比變化的高值相加,以計算出高低變化的總百分比。
基于智能體的建模和仿真(ABMS)被用來驗證每個設想的系統架構與所需的MOE。ABMS旨在通過對智能體之間的相互作用進行建模,來捕捉戰爭交戰的隨機性,但又很復雜。進行了蒙特卡洛分析,以收集每個系統性能的個體層面的數據。隨后的統計分析提供了一個途徑,以確定和量化每個擬議的系統架構所實現的改進。為此目的,指揮部:現代行動(CMO),是一個跨領域的現代兵棋推演計算機軟件,旨在模擬戰術到作戰水平的行動,被用作仿真引擎。CMO模擬的是基于規則的智能體,它們相互之間以及與環境之間的互動,包括感興趣的場景中的武器系統(Coyote, YJ-18, Chaff)和平臺(例如PLAN DDG, Luyang)。與多屬性價值分析方法相比,CMO允許對定量的系統MOP進行建模,并在模擬結果中觀察其相對差異。
電子表格戰斗模型模擬的第一個結果是解放軍DDG在三個不同的迭代中對美國海軍DDG的命中率,即只用YJ-18攻擊,只用哈比攻擊,以及YJ-18和哈比同時攻擊。同時使用YJ-18和Harpy的命中率被作為防御性MOE的基線值。接下來,兩種不同的防御性無人機系統被分別加入到作戰模型中。對只有哈比的攻擊和YJ-18與哈比的同時攻擊進行了重復模擬。每個系統的防御性百分比變化是用前面描述的公式計算的。
接下來的結果是美國海軍DDG在三次不同的迭代中擊中PLAN DDG的次數。模擬了僅用MST攻擊、僅用ASUW無人機攻擊以及MST和ASUW同時攻擊的結果。只用MST攻擊的命中率作為進攻性MOE的基線值。接下來,七個不同的運載系統被分別加入到作戰模型中。對僅有ASUW無人機攻擊和同時進行的MST和ASUW無人機攻擊進行了重復模擬。每個投送系統的進攻百分比變化被計算出來。
將同等權重的進攻和防守百分比變化相加,計算出高和低的總變化百分比。根據該模型,期望值是這樣的:在0.95的置信度下,增加SoS將使水面部隊的有效性增加一個介于高值和低值之間的百分比。
總的來說,從ABMS觀察到的性能與從電子表格模型觀察到的性能MOE相關。在所有提議的架構中,都觀察到了防御和進攻MOE的明顯改善。這是預料之中的,因為在DDG上增加任何防御性武器系統應該減少艦隊DDG的直接命中數量。同樣,增加一個具有增強OTH感知能力的進攻性武器系統會增加對目標直接作用的武器數量。
對防御性和進攻性MOE與每一方所消耗的平均武器數量的比率的進一步分析顯示,由于美國海軍DDG上增加了反群武器系統,防御性MOE得到了改善。這種增加被證明是對所有架構的一種有效的廣泛改進。三種提議的架構之間最明顯的差異來自于進攻性MOE(%),其中性能系統優于其他架構。與發射的武器總數相比,預計一個性能更好的系統會向目標發射更少的武器,同時造成更多的命中。
這項工作證明了低成本的無人駕駛威脅系統給傳統水面戰艦帶來的危險,這些系統可以在幾乎沒有警告的情況下進行協調和攻擊,并為船員提供很少的反應時間。為了避免強制增加對峙距離以提高生存能力,有必要使用增程傳感器系統和反無人機系統來彌補預期的能力差距并提供進入被拒絕區域的機會。為了使這些系統可行和安全,高帶寬的通信系統將是必需的。
為了滿足這些需求,建議的解決方案系統利用Dive-LD來運送Coyote無人機平臺。搜索和通信中繼將由兩個VBAT無人機平臺提供。這種平臺組合為每一美元的系統成本提供了最高的進攻和防御能力的提高。叢林狼 "無人機也將作為一個蜂群來防御威脅性無人機群和威脅性無人機ISR資產。增加解決方案系統的采購將提高艦隊的生存能力和殺傷力,并允許在其他艦隊優先領域進行額外投資。
建議通過為無人機平臺配備額外的無源傳感器來改進該系統,以利用電磁頻譜的所有部分,從而提高在所有天氣和戰斗條件下探測敵方威脅的能力。此外,擬議的解決方案系統可以擴展到許多其他領域和任務區,如港口防御和反對出口。
摘要:基于能力的規劃作為國防規劃的一種方法,是一個幾乎無限復雜的工程系統,有無數的節點和相互依賴的層次,受到國家和非國家的外交活動、信息、軍事和經濟行動的影響,產生次要和第三秩序的影響。基于能力的規劃的主要產出是實現預期最終狀態所需的一套能力要求。一種振興的定性技術使我們能夠深入了解軍隊中的非結構化和模糊的問題,這就是兵棋推演--其最簡單的形式就是手工戰爭演習。同時,人們一直在推動將計算機輔助引入這種兵棋推演,特別是支持裁判員的裁決,并更普遍地走向兵棋推演中人類因素的完全自動化。然而,兵棋推演中的計算機輔助不應該不計成本地被推向量化技術。一個問題的客觀復雜性往往不允許我們以必要的保真度來復制作戰環境,以獲得可信的實驗結果。本文討論了一個發現實驗,旨在驗證在計算機輔助兵棋推演中應用定性專家系統來開發能力要求的概念,以減少裁判員的偏見和與他們的決定相關的風險。這里的創新在于,在設計構成專家系統核心的能力發展理論模型時,應用了系統動力學建模和仿真范式。這種新的方法可以對不同的能力要求建議進行定性比較。此外,專家系統使我們能夠揭示預算削減對擬議的能力要求解決方案的影響,而公斷人以前在比較單個解決方案時,僅僅依靠自己的知識是無法闡明這種影響的。兵棋推演中的玩家驗證了所提出的概念,并提出了該研究可能向前發展的方式:即使用戶能夠定義他們自己的能力,而不是被預先定義的能力集所限制。
關鍵詞:計算機輔助兵棋推演;基于軍事能力的規劃;兵棋推演;能力要求;專家系統
通過數據處理收集信息并將其轉化為知識是決策中的一個重要方面[1,2]。當前復雜的環境,由于多維作戰、武器系統的多樣性、國家理論的差異、領導層的個性以及無處不在的信息而變得更加復雜,這就更加需要減少克勞塞維茨的戰爭 "摩擦"[3]。減輕這種摩擦的一種手段是通過增加定量分析來支持決策,同時又不失去決策過程中以人為核心的主要優勢。因此,在實現軍事信譽的同時,實現數學的嚴謹性以支持決策過程是一項持續的努力。創新來自于知識的發現[4]。因此,指揮官需要有能力研究和重新研究產生非結構化問題的復雜系統,以發現創新的方法,從而形成對對手的比較優勢[5]。
研究問題的定性和定量方法形成了兩個基本的方法系列,可以相互受益[6]。無論是定性還是定量,每種方法都包含了獲取問題信息的具體技術。本文主張在分析復雜系統時使用一種定性方法;軍事防御規劃;一種建立在使用專家系統來裁決兵棋推演的方法。
下一部分首先描述了作為研究主體的軍事防御計劃的現狀,其次闡述了作為研究的主要應用定性方法的兵棋推演。接下來是對應用于國防規劃或相關領域的定量方法的文獻的回顧,展示了其目前的局限性。
在一般的戰爭經驗中,各國已經認識到,為保護國家利益而提前做好準備是具有資源和時間效益的。國防規劃是這樣做的一種方式。20世紀60年代初,美國國防部在面臨尋找滿足美國政治指導的軍事力量結構的挑戰時,討論了這個領域的規劃[7]。同樣的目標也是北約主要機構之一--國防規劃委員會(DPC)的任務[8]。從[7,8]中我們可以得出結論,國防規劃的產出規定了對軍事力量的要求,以涵蓋各自國家或國際國防組織的政治野心。在《長期國防規劃手冊》中,我們發現了國防規劃的其他特點,特別是它的長期方向、戰略層面和多學科的特點[9]。Breitenbauch和Jakobsson,以及Stojkovic和Dahl強調了國防規劃的相同特點[10,11]。這使得國防規劃成為需要解決的最復雜的軍事非結構化問題。此外,不確定的作戰環境使國防規劃變得更加復雜[12]。
拋開冷戰時代,北約決定更多地參與危機應對行動,并重建其防御能力,以完成相應的軍事以及非軍事任務。這一轉變的實際結果體現在北約防御規劃進程(NDPP)中,這一進程的產出是一套能力要求,而不是所需部隊的清單[13]。這種方法被稱為基于能力的規劃(CBP)[14]。
盡管北約國家及其合作伙伴一直被鼓勵將他們的程序與NDPP同步,即以能力規劃而非武力規劃為導向,但仍有一些國家的國防規劃仍然主要集中在武力規劃上[15]。CBP國防規劃方法為其用戶提供了一個共享的規劃平臺,用于制定整個軍事和非軍事活動的必要工具要求。CBP與它的載體的通用能力一起工作,它為內部以及外部的商業或國有載體提供一個共同的平臺。此外,CBP比部隊規劃更有效地將國防規劃和行動規劃聯系起來。
北約將軍事能力定義為通過采用一套綜合的方面來創造效果的能力,這些方面可分為理論、組織、訓練、物資、領導力發展、人員、設施和互操作性[16]。欣格將軍事能力定義為在特定作戰環境中實現預期效果的能力[17]。在這項研究中,引入了一個能力的理論模型,描述了能力隨時間變化的特征。能力是由其范圍和效果來描述的,例如。"能夠在極端炎熱和寒冷的天氣條件下進行聯合和聯合遠征作戰和戰術部署,并能在大多數地形的惡劣條件下作戰"。
圖1是由Hodicky和Melichar提出的,描述了CBP過程的概述和它在國家層面上的階段性應用[18]。
圖1. 基于能力的規劃循環過程,由國家政治指導和戰略分析提供能力發展計劃開始[18]。
國家政治指導,與預測20年范圍內的政治和軍事氣候的戰略分析同時進行,啟動了國家方案編制過程,并在戰略層面形成了描述未來作戰環境的情景。選定的場景為兵棋推演提供了刺激,產生了涵蓋所有潛在威脅和國家政治野心的能力要求。在現有力量和所需能力之間進行比較,產生能力差距。能力發展計劃包含每個能力發展的里程碑,推動所有中長期軍事投資。能力發展評估通過反映能力發展中必要變化的最新政治指導,向中央政治局提供反饋。
Spiegeleire具體說明了基于能力的規劃的趨勢,明確闡述了在未來復雜的作戰環境中,需要對國防規劃過程有更多的洞察力[19]。
定性調查方法涉及開放式問題和個人定義或解釋,以描述或理解一個事件[20]。在軍事領域,一種能夠獲得洞察力的重振的定性技術是兵棋推演--其基本形式是手動兵棋推演。近年來,美國軍方和北約重新發現了兵棋推演,認為它是探索日益困難的問題的有效途徑[21]。此外,兵棋推演的使用不僅限于軍事領域,其使用和價值的例子存在于不同的領域[22],盡管它們超出了本文的范圍。
從歷史上看,兵棋推演是一種軍事上的主要工具。公元前5世紀,孫子將 "圍魏救趙 "作為理解孫子兵法概念的基本工具。然而,兵棋推演最重要的進步是由于喬治-海因里希-魯道夫-約翰-馮-賴斯維茨的努力,他在他的kriegsspiel[23]中開創了現實主義。
以下關于兵棋推演的定義使我們能夠制定其基本要素并幫助我們理解研究方法。
佩拉將兵棋推演定義為。"使用規則、數據和程序的戰爭模型或模擬,不涉及實際的軍事力量,其中事件的流程受到代表敵對雙方的玩家的影響,并反過來影響他們在這些事件過程中做出的決定[23]"。
北約(2015)將兵棋推演定義為。"通過任何手段,使用特定的規則、數據、方法和程序,對軍事行動進行的模擬[24]。
紅隊指南(2013)將兵棋推演定義為:"基于場景的戰爭模型。"一種基于場景的戰爭模型,其中的結果和事件的順序會影響到玩家的決定,并受到其影響[25]"。
即使這些定義強調了兵棋推演的不同要素,它們共同構成了軍事兵棋推演的基本要素。兵棋推演(WG)的場景是玩家的開場白。它是對場景的詳盡描述,它包含了關于行動區域的地緣政治信息,描述了政治、軍事、經濟、社會、信息和基礎設施(PMESII)因素。WG的作戰命令(ORBAT)包含自己部隊的能力及其特點。WG地圖和圖表創建了場景和玩家之間的界面。它是場景的一個額外的附加物,使玩家沉浸在作戰環境中。WG時鐘是游戲流程的驅動力。它應該反映目標和玩家的需要。WG的規則和數據為玩家的行動和決策過程創造了界限,并在游戲中由裁判員執行。WG玩家賦予了兵棋推演動態的品質。他們管理計劃和決策過程。通常情況下,有兩組選手--藍色和紅色。WG分析員研究兵棋推演的執行結果,制定論據以支持裁判員的決定,并提出分析性問題。WG公斷人對選手的執行計劃進行裁決。裁判員是兵棋推演中成功認知子階段的主要推動者。他負責制定單一兵棋推演周期執行過程中的成就、挫折和限制。關于軍事領域的兵棋推演要素和兵棋推演生命周期的進一步閱讀,請參考《兵棋推演手冊》[26]。關于游戲機制的詳細設計,并非專門針對軍事兵棋推演領域,請參考Adams和Dormans[27]。
上述關于WG的定義有一個共同點--使用建模和仿真(M&S)。每個工作組都需要以最大限度接近現實的方式復制作戰環境。建模過程創建了一個操作環境的模型,模型的行為在模擬中通過模型的及時執行而被仔細檢查。仿真刺激了玩家:兵棋推演環境首先迫使他們在兵棋推演計劃階段發揮他們的創造力,其次迫使他們在游戲的認知階段進行學習。
沒有一種單一的兵棋分類被兵棋推演界所接受。了解和實施國防實驗指南》根據模擬類型的形式對WG進行了分類[28]。《紅隊指南》手冊將兵棋推演分為兩個大家族[25]。第一個家族屬于決策支持領域,第二個家族屬于培訓/教育領域。Purnele將兵棋推演按其裁決方式進行分類:研討會(非裁決)、矩陣、專家和剛性[29]。推動這項研究的WG分類闡明了在模擬作戰環境中所代表的WG元素的自動化水平[21]。圖2描述了WG分類的基本理念,它將WG問題的客觀復雜程度(定義為問題/系統元素/對象的數量及其關系的函數)[30]、WG元素的自動化程度和WG中代表的人類行為的保真度放在一起。我們根據我們對操作的觀察創建了圖2。
手動WG(MWG)沒有任何計算機手段參與執行WG。人工環形模擬代表了人工WG,其中作戰環境、行動方案和效果都是由人類完全控制的。MWG分析代表復雜系統的非結構化問題,對人類行為的保真度很高,因為它不取代任何WG的人類元素。完全自動化的WG(FAWG)有所有的WG人類角色,如裁判員、球員和分析員完全自動化。帶有自動分析員的閉環模擬表示FAWG。FAWG中沒有人類干預,就作者所知,目前還沒有這樣的解決方案。如果使用最先進的人工智能技術來實現FAWG,它對人類行為的保真度會很低。計算機輔助WG(CAWG)將特定的WG人類行為元素自動化。隨著CAWG中更多的人類行為元素被自動化,人類行為的保真度就會下降。
圖2. 在定量和定性技術格局中的WG分類(手工WG、計算機輔助WG和全自動WG)[21]及其與WG問題的客觀復雜性水平、WG要素的自動化水平和WG中人類行為的保真度水平的關系
因此,MWG傾向于采用更多的定性技術來發現信息,運用高水平的創造力;相反,FAWG代表了一種定量的方式,通過假設測試來分析問題。通過降低復雜程度,我們能夠使用更多的定量方法來研究一個問題,反之亦然。
下面的例子描述了與國防規劃或相關軍事問題有關的定性和定量技術的現狀。
一些定量方法的例子旨在將資源分配給不同的武器,以便通過優化單一目標函數,如有效性或利潤,有效地消除來自敵對國家的威脅。Gu at al.通過最大化預期效益實現了一個武裝部隊結構的規劃模型[31]。H?kenstad at al.比較了一組選定國家的長期防御規劃系統,并得出結論,大多數國家的目標是提高自己的利潤[32]。Zhang等人提出了一個模型,根據給定的作戰要求,通過武器系統的組合使能力差距最小化[33]。Wan等人引入了約束性非線性優化問題--武器發展規劃是通過最小化敵人造成的威脅作為目標函數來解決的[34]。這些研究[31-34]的主要缺點是缺乏人類行為因素,因為它們沒有任何兵棋推演的形式。因此,它們在基于能力的防御規劃方法中的適用性和結果的可信度是值得懷疑的。此外,模型中的實體被簡化為適合優化任務的形式,因此,與現實相比,這些模型的分辨率非常低(例如,在[33]中,作戰環境被簡化為傳感器、決策、影響者和目標等節點,屬性有限)。
Zhuang等人認識到,兵棋推演結構的復雜性使得任何分析得出的解決方案都是不可能的[35]。在他們對叛亂行動的決策研究中,Zhuang等人試圖改進決策啟發式的發展。這一努力始于對六人工作組行為的研究。該小組將一個MWG研討會游戲轉變為CAWG,玩家和裁判員完全自動化。自動化是通過簡單的規則完成的,這些規則決定了玩家如何實施基于PMESII的選項:政治(P)、軍事(M)、經濟(E)、社會(S)、基礎設施(I1)和信息(I2)。該研究與FAWG很接近,盡管沒有分析員是自動化的。該研究的局限性在于,自動化選手只能使用團隊編程的那套啟發式方法,而且模擬的作戰環境沒有達到完整的防御規劃的復雜性--它以叛亂行動為中心,這主要與軍隊的作戰和戰略決策水平有關。
Hernandez等人結合之前的努力[35],將有自動裁判員的CAWG自動化,變成有自動裁判員和球員的CAWG,然后在CAWG的指定 "回合 "應用實驗和修改的決策啟發式方法[36]。該小組從實際的HITL CAWG中得出了他們最初的決策啟發式方法,并在操作社區內驗證了這些規則。該研究承認,啟發式方法需要適應情況的動態變化和參與的參與者。因此,作為階段性實驗的分階段決策啟發法被引入,它允許使用一套不同于原始兵棋推演的規則。在CAWG的每一回合中,都會創建一個新的起始決策點,玩家按照CAWG的起始點進行決策。這就為CAWG的每個回合創建了玩家的決策樹,然后對其進行編碼,并通過具體的實驗設計對CAWG進行考察。在CAWG中使用的模擬和平支援行動模型(PSOM)限制了研究。由于它是作為對戰略層面的社會經濟問題的回應而開發的,并且面向非常不對稱的行動,因此它涵蓋了國防規劃中合理的軍事行動的有限范圍。
Najgebauer等人提出了定量方法,旨在評價所需的能力,評估現有的能力,并確定能力差距,以反映為一個國家確定的情景。該研究的主要限制是驗證部分和可信的軍事行動的范圍。用于驗證的離散模擬工具只能驗證射擊、機動和移動等能力。雖然這種方法因此在目前的軍事模擬中在作戰層面得到了很好的實施,但其余的效果--特別是戰略層面的剖析--并沒有詳細說明,也無法進行驗證。此外,所提出的解決方案是基于閉環模擬,因此它屬于有自動選手和裁判的CAWG系列。在尋找能力需求方面缺少人的因素[37]。
聯合防御規劃分析和需求工具集(JDARTS)支持北約防御規劃過程。它由相互關聯的應用程序組成,通過北約防務規劃驅動防務規劃人員。兩個基本的應用程序,即國防規劃任務研究工具(D-MIST)和國防規劃能力分配邏輯計算器(D-CALC),構成了北約國防規劃的哲學方法。D-MIST開發并存儲任務類型,然后組成作戰方案。最底層的任務分解是以任務為導向的,它們共同創造了D-CALC的刺激物。D-CALC開發并運行產生能力要求的腳本。這些腳本可以接受任何輸入,復制已實施的北約學說[38]。這個解決方案是有限的,因為在內部它不包含任何模擬,以驗證所提出的能力要求與作戰場景的關系。這可以從外部進行,結果可以轉移到腳本中,然而,在實踐中,如果你的目標是以高水平的模擬保真來涵蓋所有可能的軍事行動方案,這是不可行的。通常只采用簡單的經驗法則或靜態模型,這意味著能力生命周期的動態方面不能以這種方式隱含反映。
如[39]所述,挪威已經接受了JDARTS,并為其國防規劃過程進行了修改。盡管如此,前面提到的缺點仍然存在。
其他國家的努力涉及啟動國防規劃項目,有一個明確的基于能力的規劃架構,由各種決策支持工具支持,如知識管理、能力工程支持、概念開發和實驗以及模擬[12]。這項研究描述了整體框架,但沒有介紹擬議的決策支持工具的復雜實施細節。
Bychenkov at al.提議實施一個量化的專家系統,同時將能力分成功能組[40]。該研究描述了基于一個被稱為 "參與 "的單一功能組的專家系統的設計。這個功能組在轉移到能力載體層面時,相對容易通過眾所周知的單位位置、彈藥或軍事行動效力的定量參數來描述。然而,其余的功能組,將其能力轉化為能力載體,以及量化參數都沒有描述。
通過這次審查,我們得出的結論是 (1) 定量技術盡管適用,但給作戰環境帶來了高度的簡化;(2) MWGs應得到其要素自動化的支持,以達到分析的嚴格性;(3) 目前采用定量技術的CAWGs不能在不損失可信度的情況下處理解決問題的高度客觀復雜性。
本文的主要貢獻是驗證了使用定性專家系統來支持CBP的CAWG中的裁決的概念,作為防御規劃的一個選定方法。這里的創新在于,在設計構成專家系統核心的能力發展理論模型時,應用了系統動力學建模和仿真范式。系統動力學方法有利于在管理復雜系統行為時的政策確定過程[41]。這種新方法能夠對不同的擬議能力要求集進行定性比較。
本文的組織結構如下。第2節闡述了問題陳述和研究限制。第3節描述了旨在證明CAWGs支持CBP概念的發現實驗的方法。第4節列出了研究結果和討論,然后是第5節的結論。
太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。
面對來自外部對手越來越復雜的攻擊,相互依賴的系統所有者必須明智地分配他們(通常是有限的)安全預算,以減少他們的網絡風險。然而,在對人類決策進行建模時,行為經濟學表明,人類始終偏離經典的決策模型。最值得注意的是,卡尼曼和特維斯基獲得2002年諾貝爾經濟學紀念獎的前景理論認為,人類以一種扭曲的方式感知收益、損失和可能性。雖然在經濟學和心理學方面有豐富的前景理論文獻,但現有的研究相互依存系統安全的工作大多沒有考慮到上述的偏見。
在這篇論文中,我們提出了新的數學行為安全博弈模型,用于研究由有向攻擊圖建模的相互依賴系統中的人類決策。我們表明,行為偏差導致了次優的資源分配模式。我們還通過決策和博弈論框架分析了保護具有異質性價值的多個孤立資產的結果,包括同時和序貫博弈。我們表明,與理性維權者相比,行為維權者過度投資于價值較高的資產。然后,我們提出了不同的基于學習的技術,并調整了兩種不同的基于稅收的機制,以引導行為決策者做出最佳的安全投資決策。特別是,我們展示了這種學習和機制在四個現實的相互依存系統中的結果。總的來說,我們的研究建立了嚴格的框架來分析大規模相互依賴的系統和由人類決策者管理的異質孤立的資產的安全,并對在這種情況下出現的安全漏洞提供了新的重要見解。
今天的網絡物理系統(CPS)正日益面臨著復雜對手的攻擊。這些系統的運營商必須明智地分配他們的(通常是有限的)安全預算,以減少他們管理的系統的安全風險。由于大規模系統由多個相互依賴的子系統組成,由不同的運營商管理,每個運營商負責保護自己的子系統,因此,這個資源分配問題變得更加復雜。這導致了在理解如何更好地保護這些系統方面的重要研究,戰略和博弈理論模型由于能夠系統地捕捉系統中各實體的決策而受到越來越多的關注[1]-[7]。特別是,在對防御者和攻擊者可用的策略和信息的各種假設下,這些設置已經被探討過了[8]-[10]。
之前的工作已經在決策論和博弈論的背景下考慮了這種安全決策問題[3], [11]。然而,大多數現有的工作都依賴于經典的決策模型,其中所有的防御者和攻擊者都被假設為做出完全理性的風險評估和安全決策[3], [12], [13]。另一方面,行為經濟學表明,人類始終偏離這些經典的決策模型。最值得注意的是,行為經濟學的研究表明,人類對收益、損失和概率的感知是傾斜的、非線性的[14]。特別是,人類通常對低概率的權重過高,對高概率的權重過低,這種權重函數呈反S形,如圖2.2所示。許多實證研究(例如,[14],[15])已經為這一類行為模型提供了證據。
這些效應與評估這類系統的安全性有關,在這些系統中,實施安全控制的決定不是純粹由自動算法做出的,而是通過人類的決策,盡管有威脅評估工具的幫助[16]-[18]。在大眾媒體[19]-[21]和學術期刊[22]、[23]中,有許多文章討論了安全決策中人的因素的普遍性,但沒有一篇文章闡明了認知偏差對整個系統安全的影響。
本論文通過研究上述人類行為決策偏差對安全資源分配問題的影響,在兩個主要的不同環境中彌補了上述差距。我們的第一個目標是探索大規模相互依存系統中的這種影響,在這些系統中,對手經常使用踏腳石攻擊,可以通過攻擊圖的概念來捕獲,攻擊圖代表了攻擊者在系統中到達目標的所有可能路徑[24]。第二個目標是利用決策和博弈論的設置,探索不同設置(包括防御者和攻擊者之間的同時和連續互動)中的行為決策,這些孤立的資產對防御者具有異質性的價值。
本論文的關鍵信息是:
通過在決策建模中加入非線性概率加權,我們可以預測行為決策偏差對網絡系統上安全資源分配的影響,并為減輕這種偏差的負面影響提供指導。
論文還提出了在個人層面(使用學習技術)和社會層面(使用機制設計)加強人類安全資源分配的指導技術,我們探討了理性決策者和行為決策者在這些指導技術結果上的差異。
接下來,我們將對上述環境和我們在各種環境中的貢獻進行概述。
在這項工作中,我們考慮了這樣一種情況:在相互依賴的系統的 "攻擊圖 "模型中,每個(人類)防御者對成功攻擊的概率有誤解。我們描述了這種誤解對每個防御者的安全投資的影響,其中每個防御者負責防御一個子網絡(即一組資產)。此外,每個防御者也可以投資于保護其他防御者的資產,這在攻擊者利用網絡路徑到達某些目標節點的相互依賴的系統中可能是有益的。在對每條邊的成功攻擊概率的適當假設下,我們建立了每個防御者的感知預期成本的凸性,并證明了這一類博弈中純策略納什均衡(PNE)的存在。
我們主要研究了具有這種行為偏差的用戶在孤立的情況下以及在博弈論的環境中行動時的安全投資。因此,我們發現了行為決策下安全投資的某些特征,而這些特征在先前工作中考慮的經典決策概念(即預期成本最小化)下是無法預測的[9]。特別是,我們表明,非線性概率加權會導致防御者的投資方式增加他們的資產對攻擊的脆弱性。此外,我們還說明了在系統中擁有混合防衛者(具有不同程度的概率加權偏見)的影響,并表明對概率的認識有偏差的防衛者的存在實際上會使系統中的非行為防衛者受益。然后,我們提出了一個新的指標,即行為無政府狀態的價格(PoBA),以反映行為決策者所做的均衡投資與集中式(非行為式)社會最優解決方案相比的低效率,并為PoBA提供了嚴格的界限。
與安全領域的戰略(或經濟)決策有關的開創性工作之一是[25],它考慮了一個保護單一節點的單一防御者,該節點的脆弱性可以通過對該節點的投資來降低。作者對防御者在這種情況下的投資進行了深入研究。這種關于防御者選擇投資以保護資產免受非戰略攻擊者攻擊的決策理論表述已被廣泛研究(例如見[9],[26]-[28]及其中的參考文獻)。然而,如上所述,在大多數這些工作中,防御者被建模為完全理性的決策者(也許有某種程度的風險規避[27]),他們選擇他們的行動來最大化他們的預期效用。
在這項工作中,我們將前景理論引入一個決策理論安全框架,該框架涉及一個保護具有異質性價值的多種資產的防御者。具體來說,我們考慮一個由許多資產組成的CPS,并假設防御者誤解了每個資產成功被破壞的概率。我們描述了這種誤解對防御者的安全投資的影響。特別是,我們表明,與正確感知攻擊概率的防御者相比,行為概率加權導致防御者將更多的投資轉向價值更高的資產。特別是,隨著防御者的行為越來越多,擁有正投資的節點數量也會減少。這種投資的轉變導致了行為防御者的(真實)預期損失的增加。
在這項工作中,我們考慮的是一個共有資源博弈的環境,其中資源發生故障的概率隨著資源總投資的減少而減少。該博弈中的參與者需要投資(受預算約束)以保護一組給定的節點免遭失敗。每個節點對每個玩家都有一定的價值,同時也有失敗的概率,這是玩家對該節點總投資的函數。在這種情況下,我們考慮行為概率加權(相對于失敗概率)對投資策略的影響;這種概率加權,即人類以非線性的方式對概率進行加權,已被行為經濟學家確認為人類決策的一個共同特征。我們研究了有多個(行為)參與者的博弈論設定,并表明該博弈中存在純策略納什均衡,并表明在所有均衡中每個節點上的總投資是唯一的。此外,我們表明,與玩家正確感知失敗概率的情況相比,反S型行為概率加權(玩家對低概率加權過高,對高概率加權過低)導致玩家將更多的投資轉移到高價值的節點,而對低價值的節點投資不足。特別是,隨著玩家的行為越來越多,擁有正投資的節點數量也會減少。另一方面,我們表明,在S型行為概率加權(玩家對低概率加權過低,對高概率加權過高)的情況下,有積極投資的節點數量增加。最后,我們量化了行為水平的異質性對PNE投資的影響,并比較了提高社會成本的不同可能的培訓政策。我們通過數字模擬來說明我們的理論結論。
與考慮非戰略攻擊者的防御者決策理論公式相比,博弈理論模型在防御者和攻擊者可用戰略的各種假設下進行了探索[3], [4], [9]。特別是,在[7]、[29]、[30]中研究了攻擊者對防御者的行動作出戰略反應的情景。對我們這里的工作特別感興趣的是論文[30],它考慮了一個連續的防御者-攻擊者框架,并顯示了每個參與者的最佳策略。同樣,現有工作的一個共同點是假設防守方和進攻方都是按照完全理性決策的經典模型行事。
在這項工作中,我們將前景理論引入到一個涉及一個防御者和一個攻擊者的連續博弈理論框架中。具體來說,我們考慮的情況是,(人類)防御者對每個地點的成功攻擊概率有誤解。我們描述了這種誤解對防御者的安全投資和攻擊者的決定的影響。與[31]-[33]不同的是,作者考慮了這種概率加權在某些特定類別的沒有戰略對手的相互依賴的安全博弈中的影響,我們考慮的情況是,防御者將她的投資放在最能保護她的站點上,考慮到戰略攻擊者選擇哪個站點被破壞以最大化防御者的預期損失。
我們首先展示了防御者(在行為概率加權下)的(感知的)最佳防御分配的唯一性。然后,我們描述了概率加權對防御者所做的投資決定的影響;特別是,我們表明,對概率的非線性感知會誘使防御者以增加其被攻擊時的損失的方式轉移其最佳投資。最后,我們引入了行為概率加權價格(PoBW)的概念,以量化行為防御者的投資對其真實預期損失的無效率。我們提供了PoBW的界限,并提供數字例子來說明上述現象。
一類特殊的涉及攻擊者和防御者的同時移動博弈(玩家必須同時選擇他們的策略,而不先觀察對方做了什么)已經在各種情況下被研究。例如,Colonel Blotto博弈[34]是一個有用的框架,用來模擬攻擊者和防御者之間在不同的潛在目標(即戰場)上分配一定數量的資源。具體來說,[35]提出了一個異質布洛托上校博弈的解決方案,該博弈具有不對稱的參與者(即具有不同的資源)和一些可能具有不同價值的戰場。雖然Colonel Blotto博弈通常涉及確定性的成功函數(在某個節點上投資較高的玩家贏得該節點),但其他工作研究了每個玩家的獲勝概率是每個玩家的投資的概率(和連續)函數的情況[7]。
在這些工作中,按照人類決策的經典博弈理論模型,防御者和攻擊者被認為是完全理性的決策者,他們選擇他們的行動來最大化他們的預期效用。很少有例外的情況,通過決策理論分析關注概率加權對單個防御者決策的影響(沒有戰略攻擊者)[33],關注多個防御者對網絡的投資(重點是了解網絡結構的作用)[31],或者關注單一目標環境下雙方的行為決策[36]。與這些工作不同的是,我們考慮的是在有多個目標的環境中,行為決策的影響,這些目標對參與者(即防御者和攻擊者)的價值不同。
在這項工作中,我們將前景理論引入涉及攻擊者和防御者的博弈論框架。具體來說,我們考慮一個由許多資產組成的CPS,并假設防御者誤解了每個資產的成功妥協的概率。我們首先建立了每個參與者(即攻擊者和防御者)的目標函數的凸性,并以此來證明行為多目標安全博弈的純策略納什均衡(PNE)的存在。然后,我們證明了該PNE在我們的博弈中的唯一性。然后,我們描述了(理性)玩家的最佳投資策略的特點。然后我們表明,防御者和攻擊者更多地投資于高價值資產(在適當的條件下)。隨后,我們通過數字模擬表明,對概率的非線性感知可以誘使防御者將更多的投資轉移到更有價值的資產上,從而可能增加他們的(真實)預期損失。
在前面的表述中,我們已經表明,與非行為決策相比,行為決策會導致次優的資源分配。在這項工作中,我們試圖引導行為決策人進行更好的安全投資。特別是,我們為相互依賴的系統設計了一種推理和安全投資決策技術。我們提出了不同的基于學習的技術,以指導行為決策者在兩種不同的情況下做出最佳的投資決策,每一種情況都代表著防御者是否了解對手的歷史(即在前幾輪選擇的攻擊路徑)。我們提出的技術增強了已實施的安全策略(在通過優化分配有限的安全資源來減少系統被破壞時的總損失方面)。我們的系統有用于單輪和多輪設置的組件。
我們對N = 145名參與者進行了一項人體研究,他們在兩個簡單的攻擊圖中選擇防御分配。然后,我們使用五個合成的攻擊圖來評估我們的系統,這些攻擊圖代表了現實的相互依賴的系統和通過它們的攻擊路徑。這些系統是DER.1[17],(由NESCOR建模),SCADA工業控制系統,使用ICS的NIST指南建模[12],IEEE 300總線智能電網[37],電子商務[13],和VOIP[13]。我們與之前的兩個帶有攻擊圖的最佳安全控制解決方案[16]、[38]做了一個基準比較,并與我們的評估相比,量化了損失的低估程度,其中防御者是行為的。在進行分析和獲得這些基于行為模型的結果時,我們解決了在相互依賴系統的安全方面的幾個特定領域的挑戰。這些挑戰包括用某些參數來增強攻擊圖,如邊對安全投資的敏感性、基線攻擊概率的估計以及我們公式中的防御機制類型。
確保相互依賴的系統安全的另一個目標是最小化所有保衛此類系統的利益相關者的社會成本。在這項工作中,我們考慮了兩種不同的基于稅收的機制,以引導行為決策者和自私的理性決策者在相互依存的安全博弈中做出最佳投資決定。這種機制使用貨幣支付/獎勵來激勵社會最優(SO)安全行為,即那些最小化所有防御者因安全攻擊而產生的成本總和。兩種基于稅收的機制是 "外部性 "機制[39]和Vickrey-Clark-Groves("VCG")機制[40]。這些機制通過激勵防御者分配其有限的安全資源以最小化系統的社會成本來加強已實施的安全政策。我們展示了一個基本結果,即不存在可靠的基于稅收的機制,可以激勵社會最優的投資狀況,同時保持弱平衡的預算(即中央監管機構不支付自費資金),適用于所有相互依賴的安全博弈實例。
我們在第8.7節中展示了我們的結果與安全經濟學文獻[40]、[41]中的先前結果之間的區別。我們的結果表明,與單體系統相比,在相互依賴的安全博弈中設計機制更具挑戰性。我們還展示了在我們的相互依賴的安全博弈框架中,行為偏差對兩個機制的結果的影響。特別是,我們表明,在這種稅收機制下,行為維護者與理性維護者相比會支付更多的稅收。然后,我們使用四個合成的攻擊圖來評估我們的發現,這些攻擊圖代表了現實的相互依賴的系統和通過它們的攻擊路徑。在進行分析時,我們修改了相互依存的安全博弈的機制公式(第8.5節),并將行為偏差納入我們的公式中(第8.2節)。
本論文在兩個主要環境中證明了行為偏差(來自前景理論)對安全決策的影響。首先,它提出了新的數學行為安全博弈模型,用于研究由有向攻擊圖建模的相互依賴系統中的人類決策,并表明行為偏差會導致攻擊圖邊上的次優資源分配模式。其次,它通過決策和博弈論框架,包括同時和順序博弈,分析了保護具有異質性評價的多個孤立資產的結果。它描述了在這種情況下風險誤解對安全投資的影響,并表明與理性防御者相比,行為防御者會過度投資于價值較高的資產。然后,它提供了不同的基于學習的技術,并調整了兩種不同的基于稅收的機制,以指導行為決策者在上述環境中加強他們的次優安全投資模式,并做出最佳安全投資決策。
本論文的其余部分組織如下。第二章介紹了對相互依賴系統中的行為決策的分析。第三章和第四章分別提供了在風險誤解下保護具有異質性估值的多個孤立資產的決策理論分析和博弈論分析。在第五章中,我們提出了在一個具有多個異質估值目標的CPS上,防御者和攻擊者之間的順序博弈設定。第六章展示了行為決策對同時進行的攻擊者-防御者博弈的影響。在第七章中,我們提出了兩種新的學習算法,以指導行為決策者進行更好的安全投資。在第八章中,我們為我們的相互依賴的安全博弈調整了兩種機制設計,以實現社會最優(使系統的社會成本最小化)。第九章是本論文的結論,并提供了下一步和未來的工作。
前沿作戰基地(FOB)防御是一項人力密集型任務,需要占用作戰任務的寶貴資源。雖然能力越來越強的無人駕駛飛行器(UAV)具備執行許多任務的能力,但目前的理論并沒有充分考慮將其納入。特別是,如果操作人員與飛行器的比例為一比一時,并沒有考慮提高無人機的自主性。本論文描述了使用先進機器人系統工程實驗室(ARSENL)蜂群系統開發和測試自主FOB防御能力。開發工作利用了基于任務的蜂群可組合性結構(MASC),以任務為中心、自上而下的方式開發復雜的蜂群行為。這種方法使我們能夠開發出一種基于理論的基地防御戰術,在這種戰術中,固定翼和四旋翼無人機的任意組合能夠自主分配并執行所有必要的FOB防御角色:周邊監視、關鍵區域搜索、接觸調查和威脅響應。該戰術在軟件模擬環境中進行了廣泛的測試,并在現場飛行演習中進行了演示。實驗結果將使用本研究過程中制定的有效性措施和性能措施進行討論。
2019年,美國海軍陸戰隊司令大衛-H-伯杰將軍發布了他的規劃指南,作為塑造未來四年的部隊的一種方式。他在其中指出:"我們今天做得很好,我們明天將需要做得更好,以保持我們的作戰優勢"[1]。這句話摘自海軍陸戰隊司令大衛-H-伯杰將軍的《2019年司令員規劃指南》(CPG),呼吁采取集中行動,以應對海軍陸戰隊在未來戰爭中預計將面臨的不斷變化的挑戰。在為海軍陸戰隊確定未來四年的優先事項和方向的CPG中的其他指導,呼吁建立一個 "適合偵察、監視和提供致命和非致命效果的強大的無人駕駛系統系列"[1]。伯杰將軍進一步呼吁利用新技術來支持遠征前沿基地作戰(EABO)。EABO將需要靈活的系統,既能進行有效的進攻行動,又能進行獨立和可持續的防御行動。簡而言之,實現EABO將需要最大限度地利用每個系統和海軍陸戰隊。
從本質上講,伯杰將軍正在呼吁改變無人駕駛飛行器的使用方式。通過使用大型的合作自主無人飛行器系統,或稱蜂群,將有助于實現這一目標。無人飛行器蜂群提供了在人力需求和后勤負擔增加最少的情況下成倍提高戰場能力的機會。正如伯杰將軍所提到的 "下一個戰場",海軍陸戰隊將必須利用各種技術,最大限度地利用自主性和每個作戰人員在戰場上的影響。
目前的無人系統使用理論是以很少或沒有自主性的系統為中心。另外,目前的系統依賴于單個飛行器的遠程駕駛;也就是說,每輛飛行器有一個操作員。部隊中缺乏自主系統,這在監視和直接行動的作戰能力方面造成了差距。此外,側重于一對一操作員-飛行器管理的無人系統理論要求操作員的數量與車輛的數量成線性比例。這對于 "下一個戰場 "來說是不夠的。相反,海軍陸戰隊將需要能夠讓操作員擺脫束縛或提高他們同時控制多個飛行器的能力系統[2]。
考慮到這些目標,美國海軍研究生院(NPS)的先進機器人系統工程實驗室(ARSENL)已經開發并演示了一個用于控制大型、自主、多飛行器的系統,該系統利用了分布式計算的優勢,并將駕駛的認知要求降到最低。ARSENL在現場實驗中證明了其系統的功效,在該實驗中,50個自主無人駕駛飛行器(UAV)被成功發射,同時由一個操作員控制,并安全回收[3]。
這項研究的主要目標是證明使用無人機蜂群來支持前沿作戰基地(FOB)的防御。特別是,這需要自主生成、分配和執行有效的、符合理論的基地防御所需的子任務。這部分研究的重點是開發基于狀態的監視、調查和威脅響應任務的描述;實施支持多飛行器任務分配的決策機制;以及任務執行期間的多飛行器控制。
輔助研究目標包括展示基于任務的蜂群可組合性結構(MASC)過程,以自上而下、以任務為中心的方式開發復雜的蜂群行為,探索自主蜂群控制和決策的分布式方法,以及實施一般的蜂群算法,并證明了對廣泛的潛在蜂群戰術有用。總的來說,這些目標是主要目標的一部分,是實現主要目標的手段。
基地防御戰術的制定始于對現有基地防御理論的審查。這一審查是確定該行為所要完成的基本任務和子任務的基礎。然后,我們審查了目前海軍陸戰隊使用無人機的理論,以確定這些系統在基地防御任務中的使用情況。
在確定了任務要求的特征后,我們為基地防御的整體任務制定了一個高層次的狀態圖。子任務級別的狀態圖等同于MASC層次結構中的角色。
ARSENL代碼庫中現有的算法和游戲以及在研究過程中開發的新算法和游戲被用來在ARSENL系統中實現子任務級的狀態圖。最后,根據高層次的狀態圖將這些游戲組合起來,完成基地防御戰術的實施。
在游戲和戰術開發之后,設計了基于理論的有效性措施(MOE)和性能措施(MOPs)。通過在循環軟件(SITL)模擬環境中的廣泛實驗,這些措施被用來評估基地防御戰術。在加利福尼亞州羅伯茨營進行的實戰飛行實驗中,也展示了該戰術和游戲。
最終,本研究成功地實現了其主要目標,并展示了一種包含周邊監視、關鍵區域搜索、接觸調查和威脅響應的基地防御戰術。此外,開發工作在很大程度上依賴于MASC層次結構,以此來制定任務要求,并將這些要求分解成可在ARSENL蜂群系統上實施的可管理任務。這一戰術在實戰飛行和模擬環境中進行了測試,并使用以任務為中心的MOP和MOE進行了評估。最后的結果是令人滿意的,在本研究過程中開發的戰術被評估為有效的概念證明。
本論文共分六章。第1章提供了這項研究的動機,描述了這個概念驗證所要彌補的能力差距,并提供了ARSENL的簡短背景和所追求的研究目標。
第2章討論了海軍陸戰隊和聯合出版物中描述的當前海軍陸戰隊后方作戰的理論。還概述了目前海軍陸戰隊內無人機的使用情況,并描述了目前各種系統所能達到的自主性水平。
第3章概述了以前自主系統基于行為的架構工作,ARSENL多車輛無人駕駛航空系統(UAS)和MASC層次結構。
第4章對基地防御戰術的整體設計以及高層戰術所依賴的游戲進行了基于狀態的描述。本章還詳細介紹了用于創建、測試和評估這一概念驗證的方法。在此過程中,重點是對每一戰術和戰術所針對的MOP和MOE進行評估。
第5章詳細介紹了所進行的實戰飛行和模擬實驗,并討論了與相關MOPs和MOEs有關的測試結果。
最后,第6章介紹了這個概念驗證的結論。本章還提供了與基地防御戰術本身以及更廣泛的自主蜂群能力和控制有關的未來工作建議。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
北約和各國迫切需要進行團結和聯合集體訓練,以確保任務準備就緒:目前和未來的行動是多國性質的,任務和系統慢慢變得更加復雜,需要詳細準備和迅速適應不斷變化的情況。由于可用資源少、訓練范圍有限、避免對手關注第五代戰術和系統能力的挑戰以及政治決策和部署之間準備時間有限,多國背景下的現場訓練和任務準備的機會減少了。模擬已經成為解決我們軍隊訓練需求的重要工具,各國正朝著通過分布式模擬(MTDS)能力采用國家任務訓練的方向發展。聯合部隊正在尋找實況和模擬訓練與演習之間的新平衡,以提供兩全其美的效果。
北約建模和仿真組(NMSG)的若干倡議為北約MTDS愿景和行動概念的發展貢獻了寶貴的投入(MSG-106 NETN, MSG-128 MTDS, MSG-169 LVC-T)。基于這些結果,當前/最近的NMSG活動(MSG-163北約標準演變、MSG-165 MTDS- ii、MSG-180 LVC-T)致力于為聯合和聯合作戰開發一個通用MTDS參考體系結構(MTDS RA)。最近完成的MTDS RA版本以構建模塊、互操作性標準和模式的形式定義了指導方針,用于實現和執行分布式模擬支持的綜合集體訓練和演習,獨立于應用領域(陸地、空中、海上)。此外,MSG-164 (M&S作為服務II)開發了一種技術參考體系結構(MSaaS TRA),其中包含用于實現所謂MSaaS能力的構建塊。這些構建模塊可以與MTDS RA相結合,以包括作為服務執行綜合集體訓練和演習的指導方針。
MTDS RA的當前版本提供了一個基線,以詳細說明和確定應進行進一步需求/技術開發的領域。未來更新的主題包括網絡作戰和影響、危機管理、實時系統集成、多域或混合作戰等。
聯合MTDS對北約和國家戰備至關重要。本文提供了MTDS RA的背景、目標和原則,以及實現持久的北約范圍內綜合性集體訓練能力的前進方向。聯合MTDS RA的維護和繼續發展將是幾個北約國家、伙伴國家和組織在NMSG主持下的合作努力。