戰斗行動建模是一項緊迫的科學和實踐任務,旨在為指揮官和總部提供決策的量化依據。
作者根據G-塔洛克的沖突函數(function of conflict),并考慮到戰斗(軍事)行動的規模,提出了戰斗和軍事行動中的勝利函數(function of victory)。通過足夠數量的軍事統計數據,對尺度參數進行了評估,并為戰術、戰役和戰略層面找到了其數值。研究了"進攻-防御"(?offensive – defense?)的博弈論模型,“進攻方”與“防御方”由一個或幾個部隊梯隊組成,在博弈論模型中各方解決當前和隨后的任務。在建模的第一階段,找到了當前任務的解決方案--突破(守住)防御點,在第二階段,找到了后續任務的解決方案--在防御縱深擊敗敵人(反攻和恢復防御)。在戰術層面上,利用納什均衡,根據三個標準為對抗性博弈中最接近的問題(雙方力量在防御點的分布)找到了解決方案:a)突破最弱的點,b)至少突破一個點,c)加權平均概率。研究表明,在其他條件相同的情況下,進攻方最好使用 "至少突破一個點 "的標準,可以確保突破防御點的最大概率。在對特定情況進行建模的第二階段(雙方在突破和守住防御點時以突破最弱點的標準為指導),根據兩個標準解決在戰術任務(梯隊)之間分配部隊和設施的問題:a)突破防御點的概率和在縱深防御中擊敗敵人的概率最大化,b)概率的最小值最大化(保證結果的標準)。感知是作戰行動的一個重要方面。考慮了反射性博弈(以復雜的相互認識為特征的博弈)和信息管理的幾個例子。它顯示了在什么條件下信息控制會增加參與者的回報,并找到了最佳信息控制。
【關鍵詞】數學模型、戰斗、進攻、防御、勝利函數、博弈論模型、反射性和信息控制
對部隊的控制是指揮官、總部和其他指揮和控制機構為保持部隊的戰備和戰斗力、為戰斗做準備并指導他們執行指定任務而進行的有目的的活動[Taktika, 1987]。部隊指揮與控制的兩個主要階段(戰備和執行戰斗行動)可以用一套模型表示,其分類見圖1。
圖1:戰斗行動分類模型
戰斗行動準備階段
戰斗行動執行階段
在準備階段,在一般情況下,戰斗行動的建模歸結為找到部隊的部署最佳方案(將部隊和設施部署到該地區,并分配),可對敵人造成最大可能的損害。建模的順序如下:
在第一階段,分析戰斗資產的戰術特征,并計算出在戰斗、戰役、行動中預期的編隊參數(單位、小型/大型單位)(可能有專家參與),能在道德和技術上對敵方編隊形成戰斗優勢[Buravlev, Tsyrendorzhiev, Brezgin, 2009; Dorokhov and Ishchuk, 2017] 。
在第二階段,選擇形成勝利函數的類型[Shumov, 2020]:指標型(Blotto上校博弈[Application, 1961])或概率型,在概率型情況下,基于比率(Yu. B. Germeier[Germeier, 1971],G. Tullock[Tullock, 1980]的函數),或基于力差(D. McFadden和D. Hirschleifen的模型[Jia, Skaperdas, Vaidya, 2013])。
在第三階段,建模通常包括設定博弈論任務 "進攻-防御",并為任務和點(區域、陣地)之間的部隊分配找到最佳方案。如果可能的話,在突破防線和深入防線的過程中,也要對進攻進行規劃(預測),并對誤導敵人的活動進行檢驗。
在最后階段,對模型進行驗證,檢查計算結果是否符合軍事藝術原則和作戰經驗(模型 "正確性"的標準是模擬結果是否符合軍事藝術原則[Osipov, 1915])。
戰斗行動執行(控制的第二階段)是在戰斗行動過程中使用模擬和其他模型以及具有不同自動化程度的決策支持系統進行的軍事游戲、演習和戰斗訓練中探討的[Novikov, 2012; Aggregated, 2000],不是本文的主題。
俄羅斯將軍米哈伊爾-帕夫洛維奇-奧西波夫(Mikhail Pavlovich Osipov)被認為是戰斗行動模擬的創始人。他在1915年發表在《軍事文集》(現在的《軍事思想》雜志)上的作品《戰斗人員數量對其失敗的影響》[Osipov, 1915]中,根據對19世紀和20世紀38次常備部隊戰斗結果的分析,闡述了一個戰斗動力學模型,找到了解決方案,并估算了模型參數。
Osipov-Lanchester模型[Osipov, 1915; Lanchester, 1916](平均動力學方法)的正式論證可以在[Wentzel, 1964]中找到。對抗性博弈理論的基本概念是由E.Borel[Borel, 1921]提出的。在俄羅斯和國外,作戰行動模型是在 "運籌學 "的科學學科框架內發展起來的(例如,見作品[Germeier, 1971; Krasnoshchekov, Petrov, 1983; Vasin, Morozov, 2003; Vasin, 2005; Vasin, Krasnoshchekov, Morozov, 2008; Morse and Kimball, 1951; Karlin, 1964; Wagner, 1972] )。經典的博弈論問題 "進攻-防御 "是由Yu. B. Germeier[Germeier, 1971]提出和解決的(作為O. Gross模型的修改),雙方在防御點之間分配有限資源。
D.A. Novikov的文章 "Hierarchical models of warfare(戰爭的分層模型)"[Novikov, 2012]中可以找到關于作戰行動建模的概述,其中考慮了蘭徹斯特模型、Blotto上校博弈(一種雙方同時獨立地在對象--戰場、同時競爭/拍賣、選民群體等之間分配資源的博弈),以及指標和概率類型的沖突函數。
主體根據關于基本參數的層次觀念做出決定,不可避免地,由于這樣或那樣的原因,觀念(反身現實)和客觀現實之間存在差異。控制科學中對反射性系統研究始于20世紀60年代[Lefevre, 1973],在過去的十年中,一套信息和戰略反射性數學模型已經被開發出來[Novikov, Chkhartishvili, 2012]。
本文的目的是在以下方向概括和闡述作戰行動模擬的結果[Korepanov, Novikov, 2011;Shumov, 2019;Shumov, Korepanov, 2020;Shumov, Korepanov,2021]:
首先,考慮到作戰單位的道德和技術特點、作戰行動的規模,對戰斗、戰役、行動中的勝利函數進行統計論證。
第二,開發博弈論的 "進攻-防御 "模型,其中進攻方解決兩個任務:第一階段任務(突破敵人的防御)和隨后的任務(摧毀敵人的儲備,在防御的深處奪取目標物)。請注意,在現有的博弈論模型中,只有第一個任務被形式化,也就是說,這種模型可以被稱為反擊模型,而不是進攻(防御)模型。
第三,考慮戰斗模型中雙方的態勢感知。
因此,下面考慮的戰斗模型的一個特點是在其中使用勝利函數,表示沖突的對立性質:第一方努力的增加以及第二方努力的減少,會提升第一方成功的機會[Hirshleifer, 2000]。這項工作的主要重點是分析勝利函數和解決任務和方向(物體、點)上資源最佳分配的博弈論問題。
“進攻-防御”博弈論模型是在格羅斯-格梅爾-瓦辛(Gross – Germeier – Vasin)"進攻-防御"模型的基礎上開發的[Karlin, 1964; Germeier, 1971; Vasin, Morozov, 2003],主要在突破防御點任務方面做了研究。戰斗(戰役、行動)中的勝利函數被用作戰斗技術的聚合函數。
假設雙方都參與了沖突(競爭、拍賣)。他們的努力(資源)將分別用x>0和y>0來表示。雙方努力的任何組合都被賦予成功(勝利)的概率--和
。以下各類勝利函數已被充分研究:
其中和
--非負的、嚴格遞增的函數。模型(2.1)最常見的函數形式是G. Tullock的模型:
其中--雙方的決定性參數,屬于基于努力比率的模型類別(結果取決于雙方的努力比率)。
潛在博弈中的學習和基于共識的分布式優化是這項工作的重點。對潛在博弈的分析是由博弈論設計激發的,它將多智能體系統中的優化問題轉化為模型化的潛在博弈中函數最大化問題。在不同的工程應用中,處理網絡系統越來越受歡迎,這支持了人們對基于分布式共識的優化的興趣。
本書研究了使系統中的多智能體收斂到某種最優狀態的算法。這些算法可以根據系統的信息結構進行分類。所考慮的程序的一個共同特點是,它們不要求智能體有記憶來遵循規定的規則。提出了一個適用于具有離散狀態和基于預言機信息的無記憶系統的一般學習動力學。提供了一些保證該算法的有效行為的設置。考慮了這種高效的一般學習程序的一個特殊類型,稱為Logit動力學。此外,異步和同步Logit動力學被擴展到具有連續行動的博弈情況。也討論了這種連續狀態動力學的收斂保證。此外,還開發了基于通信和收益的算法。它們被證明可以在連續行動潛力博弈建模的系統中學習局部最優。用來研究后一程序收斂特性的隨機近似技術也被應用于網絡系統中基于分布式共識的優化。在這種情況下,所提出的推和算法的隨機性允許系統擺脫次優臨界點,并收斂到目標函數的局部最小值,而目標函數不被假定為凸的。
美國防部(DOD)正在對其指揮軍事力量的方法進行現代化改造。國防部高級領導人已經表示,現有的指揮和控制架構不足以滿足2018年國防戰略(NDS)要求。全域聯合指揮與控制(JADC2)是國防部的概念,將所有軍種--空軍、陸軍、海軍陸戰隊、海軍和太空部隊的傳感器連接到一個網絡中。
DOD指出,用Uber共享服務來比喻其對JADC2的期望最終狀態。Uber結合了兩個不同的應用程序--一個是乘客,另一個是司機。使用各自的位置,Uber算法根據距離、旅行時間和乘客(以及其他變量)來確定最佳匹配。在JADC2的情況下,這種邏輯將找到攻擊特定目標的最佳武器平臺,或應對新出現威脅的最佳單位。為了使JADC2有效工作,DOD正在追求三種新的或新興的技術:自動化和人工智能、云環境和新的通信方法。
DOD的一些機構和組織參與了與JADC2相關的工作。下面的清單突出了與JADC2開發有關的部分組織和項目:
國防部首席信息官:第五代(5G)信息通信技術。
國防部長辦公室(研究與工程):全網絡化指揮、控制和通信(FNC3)。
國防高級研究計劃局:馬賽克戰爭。
空軍:高級戰斗管理系統(ABMS)。
陸軍:項目融合(Project Convergence)。
海軍:項目超配(Project Overmatch)
隨著國防部開發指揮和控制軍事力量的新方法,國會可能會考慮幾個潛在的問題:
國會如何在驗證需求或成本估算之前考慮JADC2的相關活動?
在沒有正式的計劃或預算申請的情況下,國防部為JADC2的預算是多少?
JADC2的支出重點是什么,是否有國防部可能沒有投資的舉措?
國防部如何確保每個軍種和盟國的通信系統之間的互操作性?
國防部應如何優先考慮其未來網絡中相互競爭的通信需求?
人工智能將在未來的指揮和控制決策系統中發揮什么作用?
為了滿足JADC2的要求,有哪些潛在的部隊結構變化是必要的?
國防部應如何管理與JADC2相關的工作?
全域聯合指揮與控制(JADC2)是美國國防部(DOD)的概念,即把所有軍種--空軍、陸軍、海軍陸戰隊、海軍和太空部隊的傳感器連接成一個網絡。傳統上,每個軍種都開發了自己的戰術網絡,與其他軍種的網絡不兼容(例如,陸軍網絡無法與海軍或空軍網絡連接)。通過JADC2,國防部設想建立一個 "物聯網"網絡,將眾多傳感器與武器系統連接起來,利用人工智能算法幫助改善決策。
DOD官員認為,未來的沖突可能需要領導人在幾小時、幾分鐘或可能幾秒鐘內做出決定,而目前分析作戰環境和發布命令的過程需要數天時間。國防戰略(NDS)委員會報告的非保密概要指出,目前的C2系統與潛在的同行競爭對手相比已經"惡化"。國會可能對JADC2概念感興趣,因為它正被用來制定許多高調的采購計劃,以及確定美國軍隊對潛在對手的有效性和競爭力。
圖 1. JADC2 的概念愿景
JADC2設想為聯合部隊提供一個類似云的環境,以共享情報、監視和偵察數據,在許多通信網絡中傳輸,從而實現更快的決策(見圖1)。JADC2打算通過收集來自眾多傳感器的數據,利用人工智能算法處理數據以識別目標,然后推薦最佳武器--包括動能和非動能武器(如網絡或電子武器)--來打擊目標,從而幫助指揮官做出更好的決策。
DOD指出,用Uber共享服務作為類比來描述其對JADC2的期望最終狀態。使用各自的位置,Uber算法根據距離、旅行時間和乘客(以及其他變量)來確定最佳匹配。然后,該應用程序為司機提供指示,讓他們按照指示將乘客送到目的地。Uber依靠蜂窩和Wi-Fi網絡來傳輸數據,以匹配乘客并提供駕駛指示。
一些分析家對JADC2采取了更加懷疑的態度。他們對JADC2的技術成熟度和可負擔性提出了疑問,以及是否有可能在一個致命的、充滿電子戰的環境中部署一個能夠安全可靠地連接傳感器和射手并支持指揮和控制的網絡。分析人士還詢問誰將擁有跨領域的決策權,因為傳統上,指揮權是在每個領域內而不是從整體戰役的角度下放的。
什么是指揮與控制?C2的維度和人工智能的影響 | |
---|---|
人們可以通過五個問題來看待指揮和控制:誰、什么、何時、何地和如何。傳統上,國會通過兩個不同但相關的問題來關注指揮與控制:權力("誰")與技術("如何")。 | |
國會傳統上關注的第一個問題反映了指揮官執行行動的權力。這一討論的重點是指揮系統,反映了負責組織、訓練和裝備美國部隊的軍種與有權在國外使用部隊的作戰司令部之間的差異。這個問題可以用一個問題來概括:"誰指揮部隊?" | |
第二個問題是使指揮官能夠做出這些決定并將其傳遞給戰場的技術方面。指揮、控制、通信(C3)、C3加計算機(C4)以及情報、監視和偵察(ISR)等術語進入了討論。指揮和控制的這一技術問題著眼于指揮官用于決策的數據(和收集方法)(即ISR是促成決策的數據),將數據轉化為信息的處理能力,以及使指揮官將其決策傳達給地理上分布的部隊系統。這種指揮和控制的技術方法可以概括為:"你如何指揮部隊?" | |
指揮和控制的其他動態回答了其他問題:哪些系統和單位被指揮(什么),時間方面(何時),以及地理方面(何處)。國會在歷史上對這些問題中的每一個都是在具體的,而不是一般的問題上表示了興趣。例如,國會沒有考慮一般用途的部隊,而是關注與核部隊和特種作戰相關的權力問題。與核和網絡戰的快速反應相關的指揮和控制問題,以及在有限的程度上與電磁頻譜戰相關的問題,這些都是及時性問題,引起國會關注的其他領域。 | |
關于 "何時",國會已表示對與核和網絡戰的快速反應有關的指揮和控制感興趣,并在有限的程度上對電磁頻譜戰感興趣。然而,對 "何時"的最大敏感度似乎更側重于戰術(例如,何時讓飛機進入目標,何時開始對建筑物進行攻擊);這些決定往往被授權給指揮官。最后,地理因素對指揮美軍提出了獨特的挑戰;只要行政部門和國會繼續支持全球國家安全戰略,地理決策在很大程度上代表了戰術問題,往往被授權給各個指揮官。 | |
圖2. 指揮與控制的維度和人工智能的影響 | |
圖2描述了這些問題是如何通過引入人工智能(AI)來優化各方面的結果。隨著編隊復雜性的增加--特別是為全域聯合作戰設計的編隊,控制這些部隊有可能超越人類的認知能力,并使用算法來幫助管理這些部隊。美國軍方表示,它打算讓人類參與整個決策過程,但隨著美國軍隊將更多的人工智能技術引入其決策機構,各方面的區別開始變得模糊不清。例如,"誰"和 "如何"開始變得相似,特別是當計算機或算法向指揮官提出建議時,他們可能不了解信息或產生建議的過程。 | |
人工智能還可以影響指揮和控制的其他方面,包括 "什么"、"什么時候 "和 "在哪里"。將 "什么 "和 "哪里 "這兩個要素結合起來,可以挑戰對手尋找和與美國部隊交戰的能力;這樣做也可以挑戰指揮官及其參謀部在沒有系統幫助管理復雜情況下保持對部隊的控制能力。從 "何時 "的角度來看,需要快速決策的行動,特別是電磁頻譜戰或網絡戰,可能超過人類的決策能力。這就提出了一個重要的問題,即指揮官能在多大程度上信任人工智能,以及人類作戰員需要理解人工智能系統為什么建議采取特定行動。 |
DOD目前使用戰斗空間的不同部分來執行C2--主要是沿著確定的軍事領域:空中、陸地、海上、太空和網絡空間。這種結構的存在是因為傳統的威脅來自單一系統,如飛機和坦克編隊。作為回應,軍方開發了高度復雜(但昂貴)的傳感器來監視戰斗空間,向集中式指揮中心(如空中作戰中心或陸軍指揮所)提供信息。E-3高級預警和指揮系統(AWACS)和E-8聯合監視目標攻擊雷達系統(JSTARS)等系統經過優化,為這些中央前哨的指揮官提供態勢感知,然后他們可以在那里指揮軍事力量。
2018年國防戰略(NDS)、審查它的 NDS 委員會和其他來源闡述的未來作戰環境描述了潛在對手如何發展復雜的反介入/區域拒止 (A2/AD) 能力(見圖 3)。這些能力包括電子戰、網絡武器、遠程導彈和先進的防空系統。 美國競爭對手將 A2/AD 能力作為對抗美國傳統軍事優勢(例如投射力量的能力)的一種手段,并提高他們贏得快速、決定性交戰的能力。
圖 3. A2/AD 環境的可視化
美國防部高級領導人已經表示,在未來的作戰環境中,獲取信息將是至關重要的。此外,這些領導人還表示,為了挑戰潛在的同等對手,需要采取多領域的方法(美國部隊將使用地面、空中、海上、太空和網絡力量來挑戰對手的目標計算)。因此,全領域聯合作戰的概念為指揮官提供了獲取信息的機會,可以利用突襲進行同步和連續的行動,并在所有領域快速和持續地整合能力,從而獲得物質和心理優勢以及對作戰環境的影響和控制。
空中陸戰概念設想將空軍和陸軍的努力結合在一起,在20世紀80年代對抗蘇聯,自該概念提出以來,技術上的進步使美國防部能夠繼續發展全領域聯合作戰的概念。這些技術進步包括增加了攻擊目標的方法(包括電子和網絡手段),相對低成本的傳感器的擴散,以及將這些傳感器的數據轉化為信息的處理能力的提高。維持對所有領域行動的控制所面臨的挑戰是,美國的軍事C2機構并不是為做出這些類型的決定而組織的,26而且正在使用的技術的復雜性和速度可能超過人類的認知能力。
指揮與控制是如何演變的? | |
---|---|
美軍傳統的指揮和控制概念源于德軍的 "任務型命令"(auftragstaktik)。認識到軍事行動中的混亂和 "戰爭迷霧 "是不可避免的,下級指揮官被委托半自主地行動以實現其指揮官的意圖(即任務的總體目標),而不是有預先規定的行動。情報來源和偵察的信息需要很長的時間,甚至可能需要幾天才能到達指揮官手中。為了保持對部隊的控制,指揮官們依靠無線電通訊和紙質信件。有限的信息量使得指揮官可以在兩個方面指揮部隊--使用單一的領域來應對對手的行動。 | |
在冷戰的高峰期,蘇軍給軍事力量提出了一個新的問題:如何對抗一支數量上占優勢的坦克部隊。為了應對這一威脅,陸軍和空軍提出了一種新穎的方法,通過開發新技術來確定增援地點,將空中和陸地力量結合起來。這一概念被稱為 "空地戰"。這種三維方法試圖利用情報、監視和偵察方面的優勢,"深入觀察",將火力集中打擊增援部隊(即 "深入打擊")。為了支持這種利用深度打擊來防止增援部隊的設想,美軍需要改進指揮所,以提高指揮部隊的決策速度,同時仍然保持遵循指揮官意圖的傳統。這種需要導致了新系統的開發,如JSTARS和ATACMS。這些系統使指揮官能夠更快地了解戰斗空間,并提高對敵軍直接開火的反應時間。 | |
在過去的20年里,中國和俄羅斯觀察了美國的戰爭方法,確定了挑戰美國優勢的不對稱方法。中國的軍事現代化尤其注重防止美國建立大量的戰斗力(限制后勤),增加高價值飛機(油輪、間諜飛機、指揮和控制飛機)的風險,并增加其海軍足跡(限制美國的海軍優勢)。為了應對這些新威脅,國防部最初提出了使用多域作戰的想法(后來過渡到全域作戰一詞)。國防部認為,使用一個或甚至兩個維度來攻擊對手是不夠的,因此挑戰對手的目標計算需要更復雜的編隊(額外維度)。國防部認為,不斷增加的復雜性,加上應對新興技術威脅的時間可能減少,需要新的方法來管理部隊。 | |
圖4. 指揮和控制的復雜性的變化 |
在國防部發展JADC2概念的過程中,有三類技術在這種指揮和控制軍事力量的方法中起著不可或缺的作用:自動化、云環境和通信。
許多DOD高級領導人已經明確表示,JADC2是一個概念(或許是一個愿景),而不是任何具體的計劃。在2021年1月的一篇文章中,聯合人工智能中心主任Michael Groen中將說:"JADC2不是一個IT(信息技術)系統,它是一個作戰系統。從歷史上看,你會有一個大型的國防項目,你會花數年時間來完善需求,你會收集大包大包的錢,然后你會去找國防承包商,花更多的時間來建造、測試,然后在多年后最終投入使用"。在這篇文章中,Groen中將描述了人工智能(AI)的作用,以及延伸到數據和數據結構的作用,使這些算法能夠為指揮官提供信息。根據Dennis Crall中將(聯合參謀部指揮、控制、通信和計算機/網絡首席信息官[JS J6]主任)的說法,人工智能和機器學習對于實現JADC2至關重要。Dennis Crall說道:"JADC2是關于將所有這些自動化....。它是關于利用傳感器豐富的環境--查看數據標準等事情;確保我們可以將這些信息轉移到一個我們可以正確處理的區域; 帶來了云;帶來了人工智能、預測分析;然后用一個能夠處理這些的網絡來支撐所有領域和合作伙伴。"
DOD表示,擁有多分類的云環境對于實現JADC2是必要的。DOD設想,用戶能夠根據他們的需要和信息要求,在不同的分類下訪問信息。在2021年6月的新聞發布會上,克拉爾中將說,"戰術邊緣 "的云能力是用于數據存儲和處理,實現人工智能算法。作為一個例子,空軍討論了其高級戰斗管理系統(ABMS)項目對云環境的需求--空軍部對JADC2的貢獻,這將在下文討論。根據空軍的預算說明,ABSM將需要一套云系統、應用程序(即軟件)和網絡(包括商業和政府擁有的),這將 "了解環境并應用由人工智能和機器學習輔助的先進算法"。
根據DOD的說法,開發JADC2將需要新的通信方法。DOD目前的通信網絡已經為中東地區的行動進行了優化。因此,DOD使用衛星作為與海外部隊通信的主要方法。這些系統面臨著延遲(時間延遲)問題,并且在設計上不能在有電子戰的情況下有效運行。這些舊的架構依賴于地球同步軌道上的衛星,這些衛星在地球上空大約22200英里(35800公里)處運行。新的應用,如人工智能,將有可能需要額外的數據速率,而目前的通信網絡可能無法支持--特別是當DOD增加傳感器的數量,以提供額外的數據來改進算法。自主系統的引入,如海軍的大型無人水面和海底航行器,以及陸軍對機器人飛行器越來越感興趣而產生的系統,可能需要安全的通信和短時延來維持對這些系統的控制。
聯合參謀部是負責制定全域聯合指揮與控制概念戰略的國防部組織。此外,還有一些正在進行的研究和努力與JADC2概念有關。每個軍事部門(陸軍、海軍、空軍)以及國防部機構,如國防高級研究計劃局(DARPA)和負責研究和工程的國防部副部長辦公室(OSD[R&E]),都在開發技術和概念。以下各節簡要介紹一些組織的工作。
國防部負責制定JADC2戰略的領導機構是聯合參謀部J6指揮、控制、通信和計算機/網絡局。JADC2戰略最初的設想是改善聯合部隊的互操作性(例如,確保無線電系統能夠相互通信),后來擴大了這一重點,制定了一種信息共享方法,通過為決策提供數據來實現聯合行動。除了制定戰略,J6還組織了一個JADC2跨職能小組,各軍種和國防部機構通過該小組協調他們的實驗和計劃。這與國防部數據戰略和國防部副部長創造數據優勢的努力相一致。該戰略確定了五條工作路線以實現JADC2框架:
1.數據組織
2.人力組織
3.技術組織
4.核指揮、控制和通信(NC3)
5.任務伙伴信息共享
在2021年6月4日的新聞發布會上,克拉爾中將表示國防部長奧斯汀已經批準了JADC2戰略。
根據R&E辦公室的說法,"FNC3確定、啟動和協調指揮、控制和通信關鍵使能技術的研究、開發和降低風險活動。這些活動將包括整個國防企業不同但相互關聯的努力,由FNC3在OUSD(R&E)的工作人員監督和同步進行。" FNC3的主要負責人邁克爾-扎特曼博士描述了FNC3的整體愿景,包括三個層次--物理層、網絡層和應用層--它們為開發指揮、控制和通信系統提供了一種量身定做的方法,與商業部門的最佳實踐相一致。物理層代表無線電和發射器本身,而網絡層則通過開發國防部優化的新興商業軟件定義網絡技術(如網絡切片)來管理應用對物理層的訪問。所有這三層都旨在提高互操作性和彈性(即防止網絡被干擾或中斷的能力),并為每個應用提供適當的服務質量。
根據扎特曼博士的說法,FNC3是JADC2的中長期技術愿景,而每個部門(在以下章節中概述)都有專注于發展近期采購戰略的引人注目的努力。例如,空軍部的先進戰斗管理計劃旨在通過關注成熟技術在未來三年內部署。OUSD R&E利用其投資組合中不太成熟的技術,包括由DARPA、國防創新部門、戰略能力辦公室、各部門和其他部門開發的技術,為實施JADC2提供長期的技術手段。
國防部提出,5G無線技術的商業進展提供了傳輸更多數據(通常稱為數據吞吐量)和更低延遲的能力。國防部認為,它需要這些能力來處理來自眾多傳感器(如衛星、飛機、船只、地面雷達)的更多數據,并在 "邊緣"(與無線電接收器在同一地點)處理這些信息。5G技術的另一個方面可以實現新的指揮和控制概念,即動態頻譜共享。隨著電磁頻譜變得更加擁擠,聯邦政府已經開始允許多個用戶在同一頻段上運行(稱為頻譜共享)。國防部首席信息官認為,頻譜共享技術允許通信系統在有干擾的情況下傳輸和接收數據。2020年9月,國防部CIO向工業界發出了一個信息請求,即如何對待動態頻譜共享。2021年1月21日,已經公布了67份對信息請求的回應。
馬賽克戰爭代表了一系列由DARPA贊助的項目,旨在利用人工智能將傳統上不被設計為互操作的系統和網絡相結合。從概念上講(見圖5),這些項目將能夠利用從衛星上收集的原始情報,并將這些數據轉化為傳遞給 "射手 "的目標信息--在這種情況下,網絡武器、電子干擾器、導彈、飛機或任何其他可能影響預期目標的武器。正如哈德遜研究所的分析家布萊恩-克拉克和丹-帕特所解釋的那樣,"馬賽克戰爭 "試圖將多種重疊的困境強加給敵軍,擾亂他們的行動,從而阻止他們及時到達目標。
圖5:DARPA的馬賽克戰愿景
DARPA的馬賽克計劃之一,稱為異質電子系統的技術集成工具鏈(STITCHES),已被用于空軍和陸軍的實驗。據DARPA稱,STITCHES是一種軟件,旨在通過自主創建允許低延遲和高吞吐量的軟件,快速整合任何領域的通信系統,而無需升級硬件或修改現有的系統軟件。根據空軍的一份新聞稿,該部門已在幾個高級戰斗管理系統的 "上線 "中測試了該技術,并已開始將該計劃從DARPA過渡到空軍部。
高級戰斗管理系統最初的設想是取代E-8聯合監視和目標攻擊雷達系統(JSTARS)。空軍在2019年將ABMS項目從開發飛機或雷達之類的東西過渡到 "數字網絡環境,連接所有領域和每個梯隊的作戰能力,以實現全球決策優勢。" 換句話說,空軍從建立一個支持指揮和決策的平臺(如E-8 JSTARS)轉向建立一個安全的、"類似云"的環境,利用人工智能和預測分析為指揮官提供近實時數據。根據空軍的說法,ABMS項目將沿著六條產品線開發能力:傳感器集成、數據、安全處理、連接、應用和效果集成。
空軍已經舉行了三次 "on-ramps"(空軍用來描述演示的術語),以展示其ABMS的方法。2019年12月舉行的第一次on-ramps,展示了該部門從F-22戰斗機使用的安全通信向陸軍和海軍系統傳輸數據的能力。第二次上線使陸軍榴彈炮能夠擊落一枚代用巡航導彈。此外,空軍向美國北方司令部提供了這種 "類似云 "的零信任平板電腦--一種不在設備上存儲敏感數據的安全功能,以協助其在2020年春季應對COVID大流行。
2020年11月,空軍部確定了首席架構師辦公室,負責評估架構上線和整合企業數字架構。同時,空軍確定空軍部快速能力辦公室為ABMS整合項目執行辦公室。快速能力辦公室的工作重點是快速向現場交付項目,它的參與可以被看作是將ABMS從實驗轉向系統開發。
根據陸軍的說法,"項目融合是陸軍圍繞一系列連續的、結構化的演示和實驗而組織的新的學習活動",旨在應對JADC2所帶來的挑戰。
1.確保陸軍擁有合適的人員和人才;
2.將當前的陸軍現代化工作與陸軍未來司令部的跨職能團隊聯系起來,并與陸軍現代化的六個優先事項保持一致;
3.擁有合適的指揮和控制,以應對節奏越來越快的威脅;
4.利用人工智能分析和分類信息,并在陸軍網絡中傳輸;
5.在 "最嚴峻的地形 "中測試能力。
項目融合2020在三個軍事設施中使用了大約750名士兵、平民和承包商,最終在亞利桑那州的尤馬試驗場進行了兩次現場頂點演習。在這次演習中,陸軍展示了幾種技術,包括人工智能、自主性和機器人技術,以測試新的方法來指揮和控制地理上分散的部隊。陸軍計劃將空軍和海軍的系統作為2021年項目融合的一部分,并打算在2022年項目融合中納入外國軍隊。這其中有3370萬美元用于運營和維護,以及7310萬美元用于研究、開發、測試和評估,由陸軍撥款。
項目超配是海軍為建立一個 "海軍作戰架構",將艦艇與陸軍和空軍資產聯系起來而做出的努力。2020年10月1日,海軍作戰部部長吉爾德伊上將責成一名二星上將領導海軍的"項目超配"工作。在他的備忘錄中,吉爾德伊上將指示 "項目超配"采取類似于海軍發展核動力和AEGIS系統的工程和開發方法。其主要目標是 "使海軍能夠在海上形成集群,從近處和遠處、每個軸線和每個領域提供同步的致命和非致命效果。具體來說,你[斯莫爾海軍司令]要開發網絡、基礎設施、數據架構工具和分析。" 在一個平行的努力中,吉爾德伊上將責成基爾比副上將(負責作戰要求和能力的海軍作戰部副部長)制定一項計劃,將無人系統,包括艦艇和飛機,納入海軍作戰架構。根據新聞聲明,海軍打算在2023年達到初始作戰能力(即有能力部署初始系統)。海軍在2022財政年度為 "項目超配 "申請了三個分類項目元素的資金。
在2021年6月舉行的2021年AFCEA西部會議上,吉爾德伊上將討論了項目超配目前的工作。在這次活動中,吉爾德伊表示,自2020年10月項目啟動以來,項目超配已經完成了三個螺旋式發展周期。吉爾德伊進一步解釋說:"我們實際上正在試驗一種方式,使我們基本上可以將任何網絡上的任何數據傳遞給作戰人員。這是一個軟件定義的通信系統,使我們能夠以一種前所未有的方式拆開我們所有的網絡"。根據新聞報道,吉爾德表示,他預計在2022年底或2023年初將 "項目超配"的測試規模擴大到一個航母打擊群。
以下各節討論了國會的潛在問題,包括需求和成本估算、互操作性挑戰、平衡通信能力、人工智能在決策中的角色,以及實施JADC2所需的潛在部隊結構變化。
美國防部已經為JADC2的相關工作申請了幾個財政年度的資金,特別是在概念的早期發展階段。國防部正在積極制定JADC2戰略,預計將在2021年春季發布。國會中的一些人對國防部沒有像傳統采購項目那樣提供成本估算或驗證需求表示關切。因此,各軍種委員會和撥款委員會已經減少了對這些工作,特別是ABMS和5G研究和開發的要求資金。2021財年國防授權法案(NDAA)要求國防部在2021年4月前為JADC2提出要求。
國防部還沒有正式公布關于JADC2的支出預算數據,該項目在各軍種和國防機構的一些項目中都有資金。根據聯合參謀部J6(JS J6)的說法,JADC2不是一個記錄項目,JS J6也不打算過渡到一個記錄項目。因此,除非國會要求國防部提供JADC2資金的詳細概述,否則國防部可能不太可能這樣做。
一些分析家推測了與JADC2有關的所有項目的年度成本。一位分析家估計,國防部在2022財政年度為與JADC2直接相關的項目編列了大約12億美元的預算。Govini估計,自2017財政年度以來,國防部在JADC2上花費了大約225億美元;這平均每年大約為45億美元。Govini的估計包括其他聯邦機構的資金--如國家航空和航天局(NASA)--以及國防部可能認為與JADC2無關的技術,因此可能高估了JADC2獲得的資金總額。
根據JS J6,有五條與JADC2相關的工作線:
1.數據組織
2.人力組織
3.技術組織
4.核指揮、控制和通信(NC3)
5.任務伙伴信息共享
以數據為中心的方法側重于國防部系統傳輸所需的數據類型和結構,創建一個共同的數據框架,為數據的發送和接收提供一個商定的標準。換句話說,數據的格式化、組織化和結構化的方式影響著數據從傳感器到決策者再到武器的高效和無縫傳輸。另一方面,網絡中心化和互操作性側重于通信標準,如無線電頻率、波形、通信加密等,以確保一個無線電能與另一個無線電通話。通過采用這種方法,JS J6專注于開發軟件應用,以改善指揮和控制。然而,該戰略可能缺少幾個方面,包括:
通信系統的硬件和軟件的功能,
網絡需要傳輸的數據量,
對手的行動對網絡的影響,
以及指揮和控制部隊的模塊化。
隨著國防部繼續改革其JADC2概念和要求,其他觀察家也注意到,在JADC2戰略中存在一些沒有被認定的領域,國防部應將其支出主要集中在研究和開發方面。一位觀察家認為,國防部應將其研發支出集中在改善網絡互操作性上。這種方法支持優先升級軍事通信系統,以便在整個聯合部隊中傳輸數據。它建議國防部在軟件和硬件方面投入更多資金,以提高所有類型的數據鏈路和網絡(例如,Link 16、多功能高級數據鏈路、態勢感知數據鏈路以及綜合海上網絡和事業服務)的互操作性。網絡互操作性方法的重點是,創建網絡是困難的;但是,利用軟件定義的網絡和通用電子設備(如類似的芯片架構)可以使每個軍種無縫共享信息。換句話說,這種方法更注重通信網絡的構建方式,而不是在這些網絡內發送數據的組織方式。軟件定義的無線電和網絡使無線電可以很容易地被編程,并因此更容易地相互通信。微電子(即物理硬件)最終定義了無線電的物理和軟件能力。
其他分析家認為,JADC2的支出應更多地集中在改變決策方式上。這一論點強調了通過利用人工智能(AI)實現決策過程自動化的必要性,正如國防高級研究計劃局(DARPA)的馬賽克戰爭概念所設想的。在這種方法中,優先利用人工智能系統的支出(如空軍的STiTCHES計劃),可以建立主要集中在需要傳輸的數據和數據結構的特設網絡。這一論點假設人工智能也可以分析情報、監視和偵察(ISR)數據,以確定人類可能錯過的趨勢,從而向軍事指揮官提出潛在的更好的建議。
其他觀察家認為,優先考慮如何使用和管理電磁波譜的決策對于支持JADC2至關重要。這些觀察家認為,像國防信息系統局的電磁戰管理計劃--旨在利用情報方法評估電磁波譜環境,然后自動決定如何使用頻譜來減輕對手的電子戰影響--對于實現全域指揮和控制是必要的。這些觀察家還認為,對手的電子戰效應將需要近乎即時地被緩解,因此需要一個強大的電磁環境部分(以及自動化),以便在對網絡的潛在攻擊中管理國防部網絡。
由于國防部設想使用JADC2來同時指揮多個領域的部隊,因此連接不同類型部隊的需求也在增加。國防部擁有并運營著許多通信系統,每個系統都使用不同的無線電頻率、標準和數據鏈,這些系統往往不能相互 "交談",因此需要一個網關將一種無線電協議 "翻譯 "成另一種協議。盟友和合作伙伴的加入增加了互操作性的挑戰。前國防部副部長邁克爾-格里芬在2020年3月向眾議院軍事委員會情報、新興威脅和能力小組委員會作證時,指出這個問題是繼續為FNC3進行OSD R&E努力的理由。
使國防部能夠共享來自不同部門和單位的信息的挑戰可以通過三種互操作性的方法來解決:
圖 6:E-11 戰場機載通信節點 (BACN)
新的通信設備。這種方法采用 "自上而下 "的方式(即由OSD或聯合參謀部確定解決方案,然后要求各軍種采用該方案)。使用與聯合戰術無線電系統(JTRS)開發類似的模式,這種方案將購買一個新的通信架構,重點是互操作性。例如,FNC3的努力似乎就是采用這種方法。盡管這種方法可以確保聯合部隊開發的通信系統可以無縫共享信息,而且可能是安全的,但它可能需要大量的投資,并可能遇到時間表的延誤。這種方法的另一個可能的缺點是,隨著系統的投入使用,它們可能對對手的技術不那么有效。
開發軟件來創建網絡。第三種方法是使用軟件,使用戶能夠創建自定義網絡。DARPA的 "馬賽克戰爭 "和ABMS計劃的某些方面就是這種方法的例子。與其他互操作性解決方案相比,這種方法更加模塊化,使為特定行動定制的單位和系統能夠相互通信。這種方法的一個主要風險是技術上的不成熟,特別是用于創建這些網絡的軟件。另一個風險涉及到與不同系統共享的信息量和分類,這些系統經過認證,具有不同的保密級別(例如,可釋放的秘密、不可釋放的秘密、最高機密)。
國防部和國會可以選擇這些方法中的一種或多種。一種特定的方法可能提供短期的好處,而國防部則追求一種長期的方法來解決互操作性的挑戰。
國防部為滿足JADC2的要求而開發通信網絡的方法包括三種相互競爭的能力:
數據吞吐量(即數據傳輸的速度)
延遲(即接收信息/數據的時間延遲)
彈性(在自然或故意中斷的情況下保持通信信號的能力)
軍事作戰新技術的興起,如人工智能、戰術數據鏈(如Link 16和多功能先進數據鏈[MADL])和對手的電子戰能力,為5G和FNC3等未來通信系統平衡這些能力帶來了明顯的挑戰。人工智能和信息戰可能需要大量的數據來實現預測分析,并讓指揮官對戰斗空間有一個準確的了解。與所有可用用戶共享數據的數據鏈并不一定需要高數據速率;然而,數據鏈確實需要低延遲,以確保傳感器能夠證明 "目標級數據",特別是對于像巡航導彈和飛機這樣快速移動的系統。最后,電子干擾器的擴散需要彈性(或抗干擾性能),以便在被主動干擾時保持通信。圖7說明了在開發新的波形時必須平衡這三個相互競爭的要求(無論該波形是為民用還是軍用而設計)。無線電信號能夠提供每一種能力;然而,優先考慮一種要求意味著其他兩種要求可能會受到影響,這可能會給決策者帶來兩難選擇,即在采購中優先考慮哪些能力。
圖7:平衡通信要求
隨著國防部對其通信系統的現代化改造,它可能會考慮技術特點和限制,以選擇在保護其網絡安全的同時推進任務目標的要求。例如,像5G這樣的技術可以提供高數據容量和低延遲,但目前還不清楚這些信號可能受到對手干擾的影響。另一方面,FNC3的設計似乎是為了提供具有高數據率的彈性;但是,由于它依賴于衛星,延遲將增加。
人工智能是實現JADC2的一個潛在的關鍵組成部分。隨著人工智能被引入軍事決策中,出現了幾個潛在的問題。首先,人工智能在決策中的作用應該達到什么程度?在使用致命武器時,人類的判斷力需要達到什么適當的水平?
第二,國防部如何確保用于人工智能算法協助決策的數據的安全性?盡管國防部把重點放在了數據結構上,但它沒有討論它計劃如何具體確保JADC2的數據有效性和安全性。錯誤的數據可能導致指揮官選擇損害任務目標的選項(如算法推薦可能浪費高價值彈藥的目標)。與此相關的是,國防部打算如何保護云環境中的這些數據,以防止對手操縱它們?這些安全計劃是否足以防止對手的操縱?
由于JADC2可能需要不同類型的部隊和武器系統,每個軍種都可能尋求改變其訓練、組織和裝備部隊的方式。例如,海軍陸戰隊在其部隊重新設計中宣布,它將取消它認為不符合國防戰略指導的部隊,并將資金重新投入到其他更適合未來作戰環境的項目中。
現役和預備役部隊的能力平衡是部隊結構調整的另一個方面。例如,陸軍在歷史上決定將后勤能力從現役部門轉移到預備役部門。因此,如果美國要開戰,陸軍大概需要啟動預備役部隊來實現行動。當國防部和各軍種準備迎接JADC2帶來的挑戰時,這些組織將如何選擇平衡現役和預備役部隊的能力和部隊結構?
聯合參謀部J6是國防部JADC2工作的主要協調者,每個軍種和一些國防部機構都在進行各種活動。國會中的一些人過去曾表示有興趣建立國防部范圍內的項目辦公室(如F-35聯合項目辦公室)來集中管理大規模的工作。國防部的研究和開發工作將隨著時間的推移而增加,因此,管理這些工作可能會變得更具挑戰性。國會在未來可能會尋求確定或建立一個負責項目管理、網絡架構開發和財務管理的組織。
聯合戰術無線電系統(JTRS)是一個通信項目,旨在通過在所有軍種中部署無線電設備來提高通信的互操作性。該計劃于20世紀90年代中期開始,最終于2011年被前國防部負責采購、技術和后勤的副部長弗蘭克-肯德爾取消。在他的理由中,肯德爾副部長指出,"由于當時技術不成熟,移動特設網絡和可擴展性的技術挑戰沒有得到很好的理解......從JTRS GMR[地面移動無線電]開發計劃中產生的產品不太可能在經濟上滿足各軍種的要求。" 在15年的開發工作中,國防部花費了大約150億美元,在終止時還需要130億美元。
JTRS計劃旨在用可在大部分無線電頻譜上運行的基于軟件的無線電取代軍隊使用的25至30個系列的無線電系統--其中許多系統不能相互通信。根據設想,JTRS將使各軍種與選定的盟國一起,通過各級指揮部的無線語音、視頻和數據通信,包括直接獲取來自機載和戰場傳感器的近實時信息,以 "無縫 "方式運作。被描述為 "軟件定義的無線電",JTRS的功能更像一臺計算機,而不是傳統的無線電;例如,它可以通過添加軟件而不是重新設計硬件來升級和修改,以便與其他通信系統一起運行--這是一個更昂貴和費時的過程。國防部聲稱,"在許多情況下,一個具有多種波形的JTRS無線電臺可以取代許多單獨的無線電臺,簡化了維護工作",而且由于JTRS是 "軟件可編程的,它們也將提供更長的功能壽命",這兩個特點都提供了潛在的長期成本節約。JTRS計劃最初被分成五個 "集群",每個集群都有一個特定的服務 "領導"(見表A-1),并由一個聯合項目辦公室管理整個架構。
注:外形尺寸無線電臺基本上是士兵攜帶的小型化無線電臺,以及重量和功率受限的無線電臺。
正如下文所討論的,JTRS在開發過程中遇到了一些困難。這些問題可能與未來的JADC2開發有關。
根據政府問責局(GAO) 2005年的一份報告: 為了實現寬帶網絡波形的全部功能,包括傳輸范圍,Cluster One無線電需要大量的內存和處理能力,這增加了無線電的尺寸、重量和功耗。增加的尺寸和重量是努力確保無線電中的電子部件不會因額外的內存和處理所需的電力而過熱的結果。到目前為止,該計劃還未能開發出符合尺寸、重量和功率要求的無線電,而且目前預計的傳輸范圍只有三公里--遠遠低于寬帶網絡波形所要求的10公里范圍....。Cluster One無線電的尺寸、重量和峰值功率消耗超過直升機平臺要求的80%之多。
由于無法滿足這些基本的設計和性能標準,人們擔心Cluster One可能無法按計劃容納更多的波形(計劃中Cluster One有4到8個存儲波形),而且它可能過于笨重,無法裝入重量和尺寸都受到嚴格限制的未來戰斗系統(FCS)載人地面車輛(MGVs)以及陸軍的直升機機群。一些觀察家擔心,為了滿足這些物理要求,陸軍將大大 "削弱 "第一組的性能規格。然而,根據陸軍的說法,它在減少Cluster One的重量和尺寸以及增加其傳輸范圍方面取得了進展;然而,將所有需要的波形納入Cluster One證明是困難的。據報道,Cluster Five無線電臺也遇到了類似的尺寸、重量和功率方面的困難;這些困難更加明顯,因為有些Cluster Five版本的重量不超過1磅。
JTRS的安全問題成為發展中的一個重要困難。據一位專家說,該計劃最大的問題之一是安全,"即加密,因為JTRS的加密是基于軟件的,因此容易受到黑客攻擊"。 計算機安全專家普遍認為,用于任何目的的軟件都是脆弱的,因為目前沒有一種計算機安全形式能提供絕對的安全或信息保證。據美國政府問責局稱,JTRS要求應用程序在多個安全級別上運行;為了滿足這一要求,開發人員不僅要考慮傳統的無線電安全措施,還要考慮計算機和網絡安全措施。此外,國家安全局(NSA)對JTRS與美國盟友的無線電系統接口的安全擔憂也帶來了發展上的挑戰。
一些分析家表示擔心,使JTRS與傳統無線電 "向后兼容 "的目標在技術上可能是不可行的。據報道,早期的計劃試圖通過交叉頻段來同步不兼容的傳統無線電信號,這被證明過于復雜。目前陸軍的努力集中在使用寬帶網絡波形來連接傳統的無線電頻率。一份報告指出,雖然寬帶網絡波形可以接收來自傳統無線電的信號,但傳統無線電不能接收來自JTRS的信號。為了糾正這種情況,陸軍考慮使用19種不同的波形來促進JTRS向遺留系統的傳輸。在JTRS無線電中加入如此多的不同波形會大大增加內存和處理能力的要求,這反過來又會增加JTRS的尺寸、重量和功率要求。
作者:John R. Hoehn,軍事能力和計劃分析師
博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時出現的現象。博弈描述了玩家之間的戰略互動,他們在利益的指引下,意識到自己的行動會影響到對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是面臨決策挑戰和機會的國家或聯盟。在這方面,"能力 "這一概念為優化國防資源分配所需的規劃 "游戲 "要素提供了維度和變量。本文開發的模型側重于在假設的能力上分配可用的國防資源,以實現對國家安全的最佳響應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
戰爭是一種代價高昂的經濟活動。博弈論提供了一些分析工具,旨在幫助人們更全面地理解決策者互動時發生的現象。博弈描述了參與者之間的戰略互動,他們以自己的利益為導向,并意識到他們的行動會影響對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織,甚至是需要做出決定的國家或聯盟。
為了描述一個理論博弈,我們需要明確四個基本要素:玩家、行動、報酬和信息。Rasmussen用PAPI的縮寫來指代這些要素[2]。
為了在博弈論的基礎上建立一個能夠描述最佳防御資源分配的模型,并確定規劃的 "游戲"要素,需要對 "防御能力 "有一個全面的概念性理解。
澳大利亞國防軍將 "防御能力 "定義為 "在指定的環境中,在指定的時間內達到預期的作戰效果,并在指定的時間內保持這種效果的能力"[3]。這包括多種投入的綜合效果,如:人員、組織、訓練、主要系統、物資。美國國防部將軍事能力定義為 "在規定的標準和條件下,通過執行一系列任務的手段和方法的組合,達到預期效果的能力"[CJCSI/M 3010系列]。它包括四個主要部分:部隊結構、現代化、戰備和可持續性。
這兩個定義都是圍繞著 "效果 "的概念。這使我們想到一個問題:"在有限的可用資源(如分配的國防預算)的壓力下,在設計了某些能力以應對某些威脅后,可以采取什么決定來最大化一般的安全效果?"
本文建立的模型側重于在假定的能力上分配可用的國防資源,以實現對國家安全的最佳反應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。
超屬性通常用于計算機安全中,以定義信息流策略和其他要求,這些要求對多個計算之間的關系進行推理。在本文中,我們研究了一類新的超屬性,其中單個計算路徑由多智能體系統中的智能體聯盟策略來選擇。我們介紹了 HyperATL*,這是計算樹邏輯的擴展,帶有路徑變量和策略量詞。我們的邏輯可以表達策略超屬性,例如并發系統中的調度程序具有避免信息泄漏的策略。 HyperATL? 對于指定異步超屬性特別有用,即在不同計算路徑上的執行速度取決于調度程序選擇的超屬性。與其他最近用于規范異步超屬性的邏輯不同,我們的邏輯是第一個允許對完整邏輯進行可判定模型檢查的邏輯。我們提出了一種基于交替自動機的 HyperATL? 模型檢查算法,并通過提供匹配的下界證明了我們的算法是漸近最優的。我們已經為 一部分HyperATL? 實現了一個原型模型檢查器,能夠檢查小型程序的各種安全屬性。
Edwin Ho 1, Arvind Rajagopalan 2, Alex Skvortsov 3, Sanjeev Arulampalam 3, Mahendra Piraveenan 1
1 悉尼大學工程學院
2 澳大利亞國防科技 (DST) 集團武器和作戰系統部
3 澳大利亞國防科技 (DST) 集團海事部
本文簡要回顧了使用博弈論對與國防應用相關的決策場景進行建模的文獻。博弈論已被證明是對智能體、實體和玩家的決策過程進行建模的非常有效的工具。它已被用于模擬不同領域的情景,如經濟學、進化生物學和計算機科學。在國防應用中,經常需要對敵對行動者的行動以及試圖躲避或超越對方的玩家進行建模和預測。對競爭者的行動如何影響對方的決策進行建模是博弈論的強項。在過去的幾十年里,有幾項研究應用博弈論的不同分支來模擬一系列與國防有關的情景。本文對這些嘗試進行了有條理的回顧,并從所模擬的戰爭類型、所使用的博弈類型以及所涉及的參與者方面對現有文獻進行了分類。經過仔細挑選,共討論和分類了29篇直接相關的論文。就所模擬的戰爭而言,我們認識到大多數在國防環境中應用博弈論的論文都涉及指揮和控制戰爭,并可進一步分為涉及(i)資源分配戰爭(ii)信息戰爭(iii)武器控制戰爭和(iv)對手監控戰爭的論文。我們還注意到,大多數論文都涉及傳感、跟蹤和大型傳感器網絡,所研究的問題與民用領域的傳感器網絡分析有類似之處。就所使用的游戲而言,我們將審查的論文分為使用非合作或合作游戲、同時或順序游戲、離散或連續游戲以及非零和或零和游戲的論文。同樣地,論文也被分為雙人、三人或多人游戲的論文。我們還探討了玩家的性質和每種情況下的報酬函數的構建。最后,我們還找出了文獻中的空白點,在這些空白點中,博弈論可以被有效地應用于迄今為止尚未用博弈論探索過的場景。所做的分析對博弈論在國防應用中的應用提供了一個簡明的總結,并強調了博弈論在所考慮的情況下的好處和局限性。
關鍵詞: 決策;博弈論;國防科學;地面戰;海戰;空戰;跟蹤;傳感
博弈論已經成為傳統的理論框架之一,用于模擬我們生活中許多方面的重要決策過程。在經濟學、社會科學、金融學、項目管理、計算機科學、公民學和流行病學中都可以找到著名的例子。自從約翰-馮-諾伊曼、約翰-納什等人的開創性工作以來,人們已經充分認識到,在兩方或多方(玩家)之間的復雜互動(游戲)背景下,存在一種最佳策略,可以通向可預測的結果(報酬)。在實際情況下,這種結果往往可以是定量的,可以進行算術運算(成本、感染人數、接種人數等),但往往也可以是定性的(如風險、準備程度、健康狀態等)。
博弈論和相關數學方法的應用最近在國防領域引起了越來越多的關注。這是由兩個驅動因素造成的。首先,博弈論提供了一個自然的框架,通過用量化的術語如報酬、成本、收益或損失、風險等將高層次的政策決定迅速轉化為最佳戰略。這為國防決策者創造了一個統一的平臺,以支持達成一個特定的決定。第二,它提供了一個嚴格的數學框架,用于按照預定的標準評估和優化許多方案。這種迅速的評估往往成為國防作戰背景下的關鍵成功因素,導致在時間壓力下的決策優勢。這也成為國防行動中各種人工智能(AI)能力發展和部署的關鍵步驟。
博弈論在國防領域的應用有著持續和多樣化的歷史,從實時軍事系統的設計(例如,應用于導彈攔截)到支持大型國防投資和收購的戰略決策。關于具體的理論方法和工具及其國防應用有大量的文獻。我們相信,對這些文獻的回顧對于處理作戰分析和數據驅動的決策支持的社區是有意義的。這也是本研究的主要動機。
博弈論通過對形勢的整體和定量分析,加強了軍事戰略和決策過程。對軍隊來說,可用于博弈論分析的潛在情景包括快速增長的自主智能系統的應用,博弈論提供了一個全面的數學框架,大大增強了使用這些系統的人的決策能力。由于其潛力,博弈論的研究正在蓬勃發展,在這個軍事研究領域的文獻中開始出現一些以上的論文。本評論旨在幫助研究人員利用博弈論的知識體系,為國防從業人員開發更智能、更安全的決策系統。鑒于此類研究仍處于萌芽階段,我們通過在現有軍事知識與博弈論提供的新生可能性之間建立聯系,使其成為軍事控制系統中更廣泛理解和考慮的框架。
為了了解博弈論在國防領域應用的最新情況,并分析在這種情況下使用的游戲類型,需要進行回顧。據我們所知,目前還缺乏這樣的回顧,它涵蓋了博弈論在各種軍事領域的不同應用。本文的目標是提出這樣的評論,使人們更好地了解博弈論可以成功應用的眾多國防問題。此外,對不同背景下使用的博弈類型的多維分類,將為研究人員提供在相關問題中應用博弈論的新方法的見解。最后,我們提出了文獻中的空缺,希望能引起更多的研究和開發新的博弈論方法來解決防御問題。
盡管不是太廣泛,但圍繞軍隊中的博弈論的文獻體系已經涵蓋了不同形式的交戰和戰斗的顯著部分。這些論文涵蓋了過去、現在和未來的情況:從潛在敵對情況下的預測策略到對幾千年前軍事對峙的事后分析評估。博弈論已經證明有能力在任何此類軍事場景中發揮作用。然而,快速的技術進步帶來了持續的軍事交戰新領域,其中每一個領域都擁有自己的復雜系統。所涉及的首要領域是追蹤系統(跨越所有領域)、空中戰斗、地面戰斗、國家安全問題、網絡戰爭和空間系統。值得注意的是,博弈論在海軍戰爭中的應用很少,對未來類似領域研究的探索將在后面的評論中討論。在這些領域中,有無數的新的和創新的系統的可能性:不同的代理人,不同的武器,不同的控制結構--這些都可以用博弈論分析來豐富。雖然海伍德(Haywood)和桑霍姆(Thunholm)關于軍事決策中使用的博弈論的論文涵蓋了幾種不同的博弈類型,但似乎還沒有一篇論文涉及到在高性能計算和復雜算法基礎上建立的軍事系統的新背景下,博弈論在各自領域的軍事應用。我們的目標是以這樣一種方式來介紹文獻,即解決博弈論在軍事控制系統中每個關鍵領域的所有功能。
這篇評論經過仔細挑選,詳細參考了總共29篇論文。它強調了每篇分析論文的范圍和效用,從基本的博弈論概念方面介紹了它:玩家、游戲類型、策略和其報酬函數的關鍵參數。它既是一個帶注釋的書目,也是一個理解和規劃該領域進一步研究的框架。它還將列出玩家在每個軍事決策場景中考慮的基本原則,以及這些原則如何影響軍事人員和系統在與敵對玩家競爭或與友好玩家合作時做出的決定。這將使大多數軍事場景有可能被視為游戲,至少可以為熟悉的軍事情況提供一個有趣的新視角。這里審查的29篇論文是由來自國防、學術界和工業界的具有相關背景的專家團隊從Scopus和Google Scholar中挑選出來的,他們可以提供不同的觀點,根據不同的經驗確定最相關的論文。只有用英語寫的論文才被考慮。雖然我們承認沒有進行詳盡的搜索,但據我們所知,這些論文涵蓋了我們在此討論的研究領域的一個重要和有代表性的部分,并充分展示了這一領域的趨勢、重疊和文獻的差距。因此,我們有信心,所提出的分析將在所分析的論文之間進行嚴格的比較,并強調每篇論文的優勢和劣勢,同時也強調利用博弈論來模擬軍事背景下的決策的總體利弊。
本文的其余部分結構如下。第2節將討論我們所回顧的論文所闡述的基本防御原則,并介紹博弈論的基本概念。第3節對文獻進行了調查和分析,并總結了每篇論文中的發現和關聯。第4節根據上一節的觀察,闡述了我們對文獻的多維度分類,同時也介紹了與所回顧的論文相關的引文和其他指標。第5節指出了文獻中的空白,并在此基礎上強調了未來在這一領域的研究機會,特別是在博弈論迄今尚未經常應用的國防研究領域,可以從博弈論的應用中獲益。第6節深入討論了研究結果的實用性和所提交的評論的總體情況。最后,第7節總結了我們的發現和分類,并提供了廣泛的結論。
幾個世紀以來,關于戰爭的意識形態、信仰和知識一直在影響著人類的知識和哲學。孫子、荷馬和馬基雅弗利的偉大作品不僅為軍事決策的本質奠定了知識基礎,而且還為社會學和社會心理學提供了洞察力。軍隊構成了許多文明的核心權力集團,對現有國家的影響力增長和新國家的誕生都很重要。軍隊實時處理沖突,計劃未來,并回顧過去的交戰情況--這些活動中的每一項都會對社會產生影響。因此,本評論有必要涉及多個物理領域的軍事沖突的許多方面,下面將總結每個領域需要做出的主要決定。然而,在所有這些領域中,目標的價值、資源的價值和目標的優先級通常是形成報酬函數和戰略的關鍵參數,而這些參數反過來又定義了我們在建模中使用的游戲。
在本節中,我們將討論國防科學和技術以及博弈論中的概念,這些概念對于理解和分析所提出的細分領域的文獻是必要的。首先,讓我們討論一下本評論中所考慮的國防和國家安全的廣泛領域。如表1所示,它們可以被總結出來。
表 1. 本次綜述中使用的分類系統
如表1所示,在這次審查中,重點主要是 "指揮與控制 "戰爭,在這種戰爭中,決策是至關重要的。然而,指揮與控制戰爭適用于傳統的戰爭領域,如陸戰、海戰和空戰,以及現代戰爭領域,如太空和網絡戰爭。在一個正交的層面上,指揮與控制戰還可以細分為資源分配戰(RAW)、信息戰(IW)、武器控制戰(WCW),以及對手監控戰(AMW)。由于這些概念在我們的文獻分類中被廣泛使用,讓我們先簡單介紹一下。
資源分配戰(RAW):為實現軍事目標而分配軍事資源。
信息戰(IW):操縱信息以實現軍事目標。
武器控制戰(WCW)。控制武器以實現軍事目標。
對方監控戰(AMW)。追蹤敵人的行為以實現軍事目標。
技術是戰爭的決定性力量,而技術對于陸戰來說并不像對于其他領域那樣勢在必行。影響陸戰的技術是相對靜態的,并盡可能避免人力資源的暴露。如今,身體層面的人際戰斗已經不那么普遍了,為更多地關注定位戰略讓路。將博弈論應用于地面戰爭的文獻包括一個強大的武器-目標分配論文庫(涉及現代背景下的武器控制戰和資源分配戰),以及涉及古代地面交戰和游擊戰的論文。在人命脆弱的地方,保護他們是這些游戲中最重要的因素,其次是保護地面資產。
鑒于海軍在全球范圍內投射力量的重要性,關于海戰的公開文獻令人驚訝地少之又少--無論是否應用博弈論。在處理目標追蹤的論文中經常會提到海戰,但關于海軍軍事戰略的討論卻僅限于過時的文獻或對赤裸裸的基本要素的討論。我們將回顧這方面的現有論文,并強調這是一個在文獻中存在相當大差距的領域。
在萊特兄弟發明飛機后不久,空戰就成為戰斗和軍事行動的一個關鍵因素。在一個很少受到障礙物或尺寸阻礙的戰斗媒介中,空戰的性質是快節奏的、直觀的和令人難以置信的險惡,有不可預測的交戰'規則'。在今天,與一個世紀前相比,需要考慮的因素要復雜得多,而且軍事力量在進行空戰時并不缺乏資源--包括人和機器。文獻顯示,由于這種豐富的武器庫,目標和用于交戰的資源的內在和潛在價值在空戰場景中特別重要。在評估作戰策略時,需要對沖突雙方的這些價值做出決定。因此,有幾篇論文討論了博弈論在空戰中的應用。
網絡安全是保護IT系統和網絡不被損壞/破壞/遭受信息盜竊。網絡戰涉及到信息和通信系統被故意攻擊以獲得軍事優勢的概念。盡管幾十年來,網絡安全一直是計算機科學的一個重要領域,但有關網絡戰的文獻卻比較少,而且在任何情況下,都與計算機科學中的博弈論在網絡安全相關領域的應用有很大的重疊。這篇評論介紹并分析了一些專門涉及網絡戰爭的論文。
雖然太空戰的概念已經存在了近一個世紀,但既沒有實際的執行,也沒有建立起一套太空戰的理論策略[31]。然而,這并沒有阻止軍隊追逐星星(字面和形象),并不可避免地導致博弈論的概念被用于太空戰的戰略思維。這目前主要限于衛星網絡,其中游戲的關鍵參數是優化整個網絡的電力使用和信號強度。這個領域仍然相當年輕,在太空的進一步軍事發展似乎是不可避免的,與此相應的處理博弈論在太空戰中的應用的文獻也將增長。
有幾篇論文論述了博弈論在國防領域的具體應用,但卻不能被歸類為分析某類戰爭的論文。在其中一些論文中,重點更多的是放在所使用的技術上:例如,目標追蹤。在另一些論文中,需要進行防御的敵對行為者的性質發生了變化:例如,針對國內恐怖主義威脅而非敵對軍事力量的國家安全行動。有幾篇論文討論了博弈論在這種情況下的應用。
目標追蹤系統。軍事上的目標追蹤是對移動目標的觀察,以及對其位置和動作的監視。這個領域的成功依賴于觀察指標和數據的準確性,以及所有收集到的信息的有效分配和處理。隨著智能目標的出現,軍隊也必須納入預測方法,以保持理想的跟蹤性能。在這方面審查的文獻涵蓋了從跟蹤攻擊導彈到戰區彈道導彈,以及跟蹤未知智能代理到敵機的主題。這一領域中形成博弈的關鍵考慮因素涉及目標是否 "智能"/能否采取規避行動,目標是否會有一個最佳軌跡,以及目標是否會有防御者。博弈論的目標跟蹤應用大多發生在空戰和海戰中,包括水下監視。
國家安全的應用。博弈論經常在國家安全和反恐相關領域找到應用。這包括預測和準備恐怖襲擊,以及保護關鍵人員和地標/其他潛在恐怖活動目標的資源分配方案。雖然潛在目標的價值和攻擊的可能性顯然是制約這一領域博弈回報函數的關鍵參數,但隨后的社會、經濟和政治影響在這一領域的博弈建模中同樣重要。很少有軍事沖突能像后方的沖突那樣被曝光,恐怖襲擊的后果及其對公眾情緒和對安全機構的信心的影響,在建立這一領域的回報函數模型時經常被考慮在內。
博弈論是對戰略決策的研究,最早是作為微觀經濟學的一個分支發展起來的。然而,后來它又被用于不同的研究領域,如進化生物學、社會學、心理學、政治學、項目管理、財務管理和計算機科學。博弈論之所以獲得如此廣泛的適用性,是因為不同學科中普遍存在戰略決策情景。博弈論提供了對特殊行為互動的洞察力,如動物群體內的合作互動、婚姻中的討價還價和交換或蘇格蘭鮭魚養殖者的激勵。一個游戲通常包括兩個或更多的參與者,一組可供這些參與者使用的策略,以及每個參與者相應的一組報酬值(也稱為效用值)(在雙人游戲的情況下通常以報酬矩陣的形式呈現)。
游戲中的純策略提供了玩家如何進行游戲的完整定義。
一個棋手的策略集是該棋手可用的純策略集。混合策略是純策略的組合,其中有一個特定的概率p(0≤p≤1)與這些純策略中的每一個相關聯。由于概率是連續的,所以一個棋手有無限多的混合策略可供選擇。完全混合策略是一種混合策略,在這種策略中,玩家對每個純策略都賦予了嚴格的正概率。因此,任何純策略實際上都是混合策略的退化情況,在這種情況下,選擇該特定策略的概率為1,而選擇其他每個策略的概率為0。
納什均衡的概念是博弈論的基礎。它是戰略博弈中的一種狀態(一組策略),就報酬而言,沒有任何一方有動機單方面偏離這種狀態。純策略和混合策略納什均衡都可以被定義。一個戰略博弈往往可以有一個以上的納什均衡。事實證明,每一個玩家數量有限的博弈中,每個玩家可以從有限多的純策略中進行選擇,至少有一個混合策略的納什均衡。
納什均衡的正式定義如下。假設 (S, f) 是一個有 n 個玩家的博弈,其中 Si 是給定玩家 i 的策略集。因此,由所有參與者的策略集組成的策略配置文件 S 將是,S=S1 × S2 × S3… × Sn。令 f(x)=(f1(x),…,fn(x)) 為策略集 x∈S 的支付函數。假設 xi 是參與者 i 的策略,x?i 是除參與者 i 之外的所有參與者的策略集。因此,當每個玩家 i∈1,…,n 選擇策略 xi 時,策略集 x=(x1,…,xn),給特定玩家的收益 fi(x),這取決于該玩家選擇的策略 (xi) 和其他玩家選擇的策略 (xi-i)。如果任何單個參與者的策略單方面偏差都不會為該特定參與者帶來更高的效用,則策略集 x?∈S 處于納什均衡。正式地說,x? 處于納什均衡當且僅當:
通常情況下,博弈被認為是為了玩家的自身利益而進行的,即使玩家進行合作,那也是因為在他們看來,合作是在這種情況下使玩家的個人收益最大化的最佳策略。在這樣的博弈中,合作行為即使出現,也是由自私的目標驅動的,而且是短暫的。這些博弈可以被稱為 "非合作性博弈"。這些博弈有時被稱為 "競爭性博弈",這是不準確的。非合作博弈論是分析這類博弈的博弈論的一個分支。另一方面,在合作博弈中,有時也被稱為聯盟式博弈,玩家形成聯盟或團體,有時是由于外部對合作行為的強制執行,如果出現競爭,則在這些聯盟之間發生。合作博弈使用合作博弈理論進行分析,該理論預測了哪些聯盟會形成,以及這些聯盟的回報率。合作博弈理論的重點是聯盟之間的剩余或利潤分享,即聯盟由于形成了聯盟而被保證了一定的報酬。通常,在一個系統中進行的合作博弈的結果相當于一個受限的優化過程的結果。
零和博弈是一類競爭性博弈,所有參與者的報酬總額為零。在雙人游戲中,這意味著一個玩家的報酬損失等于另一個玩家的報酬收益。因此,一個雙人零和游戲可以用一個只顯示一個玩家報酬的報酬矩陣來表示。零和博弈可以用最小最大定理來解決,該定理指出,在零和博弈中,有一組策略可以使每個玩家的最大損失最小(或最小報酬最大化)。這種解決方案有時被稱為 "純鞍點"。可以說,股票市場是一個零和游戲。相比之下,大多數有效的經濟交易都是非零和的,因為每一方都認為,它得到的東西(對它自己來說)比它分到的東西更有價值。
在完美信息博弈中,每個玩家都知道所有其他玩家先前行動的全部歷史,以及游戲的初始狀態。在不完全信息博弈中,一些或所有的棋手無法獲得關于其他棋手先前行動的全部信息。
同期博弈是一種正常形式的博弈或廣泛形式的博弈,在每一次迭代中,所有玩家都同時做出決定。因此,每個玩家被迫在不知道其他玩家(在該迭代中)所做決定的情況下做出決定。相反,順序博弈是一種廣泛形式的博弈,在這種博弈中,玩家按照某種預定的順序做出決定(或選擇策略)。例如,如果一方總是有特權提出第一個提議,而其他各方在此之后提出他們的提議或還價,那么談判過程就可以被模擬為一個順序博弈。在順序博弈中,至少有一些玩家在做出自己的決定之前可以觀察到其他玩家的至少一些行動(否則,博弈就變成了同時博弈,即使玩家的行動在時間上并不同時發生)。然而,并不是一定要讓某個棋手可以觀察到之前每個棋手的每一步棋。如果一個棋手可以觀察到每個前一個棋手的每一步棋,這樣的順序博弈就被稱為有 "完全信息"。否則,這個游戲就被稱為 "不完美信息"。
差分游戲通常是廣泛形式的游戲,但不是有離散的決策點,而是在一個連續的時間框架內進行建模。在這種博弈中,每個狀態變量都根據微分方程隨時間連續演化。這種博弈是模擬快速演變的防御場景的理想選擇,在這種情況下,每個參與者都會對某些參數進行自私的優化。例如,在導彈跟蹤問題中,追擊者和目標都試圖控制他們之間的距離,而追擊者不斷試圖最小化這個距離,目標則不斷試圖增加這個距離。在這種情況下,迭代的決策回合對于模擬每個參與者的連續運動和計算來說過于離散。差分游戲是模擬這種情景的理想選擇。
共同利益博弈是另一類非合作博弈,其中存在一個所有玩家都嚴格偏愛的行動方案,而不是其他所有方案。換句話說,在共同利益博弈中,玩家的利益是完全一致的。可以說,共同利益博弈是零和博弈的對立面,在零和博弈中,玩家的利益是完全對立的,所以一個玩家的財富增加必然導致其他人的財富集體減少。共同利益博弈最早是在冷戰政治的背景下被研究的,以了解和規定處理國際關系的策略。因此,把非合作博弈分為共同利益博弈和非共同利益博弈是有意義的,就像把它們分為零和博弈和非零和博弈一樣,因為這兩個概念(零和博弈和共同利益博弈)代表了非合作博弈的極端情況。
信號博弈是一種不完全信息博弈,其中一個玩家擁有完全信息,而另一個則沒有。擁有完全信息的一方(發送方S)通過信號向另一方(接收方R)傳遞信息,而另一方在推斷出隱藏在信息中的信息后將對這些信號采取行動。發送者S有幾種潛在的類型,其中確切的類型t在游戲中對接收者R來說是未知的,t決定了S的報酬,R只有一種類型,這種報酬對雙方都是已知的。
該游戲分為發送階段和行動階段。S將發送M={m1,m2,m3,...,mj}中的一個信息。R將收到該信息,并從A={a1,a2,a3,...,ak}集合中選擇一個行動作為回應。每個玩家收到的報酬由發送者的類型和信息的組合,以及接收者回應的行動所決定。信號游戲的一個例子是啤酒-蛋餅游戲[52],在這個游戲中,玩家B,即接收方,選擇是否與玩家A決斗。玩家A要么很兇,要么很懦弱,而玩家B只想與后者決斗。玩家A選擇喝啤酒或吃乳蛋餅作為早餐。雖然他們更喜歡吃乳蛋餅,但乳蛋餅發出的信息是吃乳蛋餅的人很懦弱的刻板印象。玩家B必須分析每個決定,決斗或不決斗,如何根據玩家A選擇的早餐給他們帶來更好的回報。
行為博弈論將經典博弈論與實驗經濟學和實驗心理學結合起來,并在此過程中放松了經典博弈論中許多不現實的簡化假設。它偏離了諸如完全理性、獨立公理和不考慮利他主義或公平作為人類決策的動機等簡化假設。我們將在這篇評論中表明,與行為博弈論有關的方法在模擬軍事場景方面至關重要,例如在信號博弈方面。
進化博弈論是博弈論在進化生物學領域的應用成果。進化博弈論中提出的一些關鍵問題包括:哪些種群/策略是穩定的?哪些策略可以在其他策略盛行的種群中 "入侵"(變得流行)?在迭代博弈的背景下,玩家如何應對其他玩家獲得或被認為獲得更好的回報?進化游戲通常被建模為迭代游戲,即一群玩家在一個混合良好或空間分布的環境中迭代地玩同一個游戲。
如果一個策略在盛行時有可能阻止任何突變的策略滲入其環境,那么它就可以被確定為進化穩定策略(ESS)。或者說,ESS是指如果一個種群在給定的環境中采用了這種策略,就不能被任何替代策略所入侵。因此,玩家從ESS轉向另一種策略是沒有好處的。因此,從本質上講,ESS確保了一個擴展的納什均衡。對于一個策略S1來說,要想成為對抗另一個 "入侵 "策略S2的ESS,需要滿足下面提到的兩個條件之一,即預期報酬E。
E(S1,S1)>E(S2,S1)。通過單方面改變策略到S2,該玩家將在與另一個堅持ESS S1的玩家的競爭中失利。
E(S1,S1)=E(S2,S1) & E(S1,S2)>E(S2,S2):一個棋手通過轉換到S2,在與另一個堅持ESS S1的棋手對弈時,既沒有收獲也沒有損失,但與已經 "轉換 "到S2的棋手對弈時,棋手最好還是選擇ESS S1。
如果滿足這兩個條件中的任何一個,新策略S2就沒有能力入侵現有策略S1,因此,S1對S2是一種ESS。進化游戲通常被建模為迭代游戲,即群體中的玩家迭代地玩同一個游戲。
需要指出的是,博弈論的其他幾個分支在上面的小節中沒有提到,也有幾個最新的進展沒有提到。博弈論被用于越來越多的不同場景和應用中。例如,博弈論被用來確定電信業中競爭者的市場份額,或沼氣廠的實施和建設。在一些應用中,矩陣博弈的報酬被構建為包含模糊元素,據說這使得建模的場景更加真實。同樣,量子博弈論是一個新興領域,它引入了疊加的初始狀態、初始狀態的量子糾纏和策略的疊加。這里不能總結所有這些進展。因此,本節只對那些在防御文獻中,特別是在我們評論的論文中經常使用的博弈論概念做了基本介紹。因此,對于不熟悉博弈論的讀者來說,以上各小節提出了一個基本的介紹。請看對所提出的概念的更詳細的處理。
在此背景下,我們現在回顧一下現有的涉及博弈論在國防科技領域應用的文獻。
如前所述,在模擬防御場景的游戲中,影響報酬矩陣的主要參數是目標的價值、資源的價值和目標的優先級。除此以外,國防應用中使用的游戲可以有很大的不同,我們將在下面看到。出于這個原因,本節是根據每篇論文所涉及的領域(戰爭類型)來安排的。如果一篇論文涵蓋了一個以上的領域,它將被列入最相關的小節/領域。然而,我們詳細分析了每篇論文所使用的游戲類型、報酬函數的結構方式、可用策略和均衡等。
在與陸戰有關的博弈論應用中,大多數研究都集中在防御性戰爭上,即軍隊決定如何最好地分配他們的地面防御來應對多種威脅。一些研究還關注歷史上的陸上沖突,并提供事后的博弈論分析,揭示了在歷史沖突中一些憑直覺做出的決定是如何具有理性和數學上的理由的。陸地戰爭可能導致非常嚴重的傷亡,因此了解如何最好地減少人員損失是陸地戰爭的一個關鍵組成部分(盡管不是唯一的目標)。很多時候,確定軍事資源的優先次序也是成功的根本,并經常在戰略決策中占據突出地位。此外,在涉及地面戰爭的情況下,經常需要評估對對手、其可能的戰術或地形的了解:可能需要打擊在某些地方插入的空降部隊,或者需要穿越不確定的領土。在每一種情況下,了解一支部隊在什么地方擁有不完善的信息將有助于該部隊做出合理的決定。
有幾篇論文使用博弈論來模擬當前和歷史背景下的陸地戰爭。Bier等人設計了一個博弈,將防御資源最好地分配給一組需要保護的地點/資源。然后,攻擊者必須決定他們如何選擇分割他們的力量來攻擊不同的目標。這個游戲被模擬成一個正常形式的雙人游戲。這個游戲的回報是絕對的,對一個地點i的攻擊要么成功,要么失敗,攻擊方獲得ai,防御方失去di。由于攻擊的命令是在攻擊前確認的,所以攻擊者必須使用一套純策略。這個游戲既可以同時進行,也可以依次進行。也就是說,游戲的進行取決于攻擊者在做出決定之前是否知道防御者如何分配他們的資源。這就導致了理想的策略是讓一些目標不受防御,并通過讓一些地區脆弱來加強關鍵地區的防御。
我們評論的下一篇論文是Gries等人的文章,它全面調查了博弈論原則在游擊戰/顛覆戰中的效用。他們建立的模型的重要因素是:破壞穩定的叛亂分子經常隨機攻擊,造成持續的威脅,必須有一個持續的緩解和檢測策略;戰爭的持續時間是需要考慮的,它將改變分配給目標和資產的價值;時間偏好在設置優先級方面起著關鍵作用,因為對價值的判斷決定了戰略決策,反過來決定成功或失敗。他們提出的博弈模型涉及一個連續的非合作博弈和一個同時的非合作博弈,在每一個博弈中,兩個參與者是游擊隊和政府。對于這些沖突,經濟和社會影響要比軍事損失和收益重要得多,因此在計算結果的價值方面發揮了更大的作用。
游戲特別模擬了每一方尋求與對方和平或沖突的時刻。在這些時刻,政府軍必須考慮每個選項的財務成本,而叛軍則要考慮交戰的優先順序,以及他們將為每個交戰提供哪一部分戰斗力。圖1展示了在破壞穩定的戰爭中從這些時刻出現的決策樹的例子,其中G代表政府的決策,R代表叛軍的決策。
圖 1. 破壞穩定戰博弈,其中突出顯示了政府和叛軍的決策點
Krisnamurthy等人研究了對無人值守地面傳感器網絡(UGSN)動態行為的博弈論控制,以獲取有關入侵者的信息。該網絡中的每個傳感器都能夠以特定的精度接收附近目標的范圍和方位的測量值,然后將其傳輸到本地中心進行數據融合。在這個框架中,雖然更多的傳感器測量值和更大的測量值傳輸量可能會導致更好的目標意識,但這也導致了對有限電池電量的更大消耗的不良影響。因此,應用博弈論的目標是使用一種雙時間尺度的分層方法,對目標意識、數據傳輸和能源消耗進行最佳權衡。
作者證明,傳感器的激活和傳輸調度問題可以分解為兩個耦合的分散算法。特別是,傳感器被視為非合作游戲中的參與者,并提出了一個自適應學習策略,以根據傳感器與感興趣的目標的接近程度來激活它們。這被證明是這個非合作博弈的相關均衡解。接下來,傳輸調度問題,即每個傳感器必須在每個時間點決定是傳輸數據和浪費電池電量,還是等待和增加延遲,被表述為具有懲罰性終端成本的馬爾科夫決策過程。這一表述的主要結果是表明,最佳傳輸策略具有閾值結構,然后用超模數的概念來證明。
有幾項研究用博弈論的棱鏡分析了主要發生在陸地上的歷史沖突。例如,Cotton和Liu描述了兩個中國古代的軍事傳說,并將其建模為信號游戲。在這兩個游戲中,傳說中的軍事領導人面對的是數量和力量都遠遠超過自己的軍隊的強大對手,但他們并沒有撤退,而是準備交戰,表現得就像在設下埋伏。他們的對手在信息不完善的情況下,只能從對手的行動中推斷出一些信息;由于被這些將軍的自信和名聲所嚇倒,對方的軍隊雖然在實際實力上占優,但卻選擇不交戰。通過勇敢而巧妙的虛張聲勢,兩位將軍都通過站在自己的立場上實現了對自己有利的平衡方案。他們通過在沒有直接溝通的情況下制造欺騙來做到這一點,這遵循了前面提到的Beer-Quiche信號游戲的模板。
科頓和劉描述的第一個游戲是 "100個騎士 "游戲。他們描述了這樣一段歷史:一百名漢族騎兵獨自旅行,遇到了一支人數達數千的匈奴部隊。他們可用的策略是撤退或交戰。如果他們撤退,而敵人參與進來,他們很可能會被擊垮和擊敗;如果他們參與進來,而敵人也參與進來,他們將在戰斗中被淘汰。對他們來說,最好的結果是以某種方式迫使敵人退卻。敵人不確定這些騎兵是否與更大的軍隊同行。他們看到騎兵的行動,決定不冒這個險,而是撤退。這種情況被轉化為一個雙人游戲,有兩種策略。如下圖2所示:
圖 2. 100 Horsemen 信號博弈
在圖 2中:
LG代表漢軍李廣將軍的決策點。
GenX代表了敵對匈奴勢力的決策點。
收益被列為(LG,GenX)
λ∈(0,1) 代表將軍的能力,
α 和 β 代表在撤退中喪生的漢族騎兵比例
w 是一個正參數
第二個游戲與第一個游戲非常相似。在這個游戲中,一個小城市由強大的諸葛亮將軍守衛。他得知一支巨大的敵對軍隊正在接近這座城市。他面臨著兩個選擇。他可以逃跑,之后他將脫離城市,并可能被逼近的軍隊追趕,或者他可以留下并保衛城市。如果他選擇后者,而軍隊參與進來,他很可能會失去他的生命、他的軍隊和這座城市。面對這種兩難的局面,他命令他的人躲在視線之外,使城市從外面看起來是空的。他爬上城中最重要的塔頂,演奏音樂。對方的將軍知道梁將軍的經驗和能力,懷疑將軍在空城的塔樓上采取這個不起眼的位置來伏擊他的軍隊,于是他們遠離城市以避免被伏擊。梁將軍在這里有效地發出了兩個信號。第一個是他的聲譽,這個信號包含了他的戰略和軍事力量。第二是他選擇留下來保衛城市。有了這兩點信息,再加上沒有其他關于梁將軍軍隊的下落或規模的信息,對方軍隊選擇了零損失的安全選擇,離開了。這段歷史被模擬成另一個雙人信號游戲,如下圖3所示:
圖 3. 空城信號博
在圖 3 中:
ZL代表諸葛亮將軍的決策點
收益被列為(ZL,反對軍)
λ∈(0,1) 代表將軍的能力,
c代表城市的價值
w 代表 ZL 的軍隊與對方軍隊匹配時的收益
y表示ZL的軍隊比對方軍隊弱時的損失,并且y>c,因為它包括失去城市
這兩段歷史都代表了面對近乎確定的失敗時做出的杰出軍事決策,實際上是將軍們對信號的細微差別有深刻理解的例子,并在戰略互動中做出理性決策,迫使他們取得有利于自己的結果。
令人驚訝的是,盡管海戰在人類歷史上比空戰要早很多,但直接和主要利用博弈論來研究海戰的論文卻相對罕見。萊文利用博弈論的概念研究了前幾個世紀的海戰的各個方面。在18和19世紀,當時的強國建造的戰艦都是沿著船舷放置大炮的。這意味著船只通常只能對其兩側進行攻擊。當以艦隊形式航行時,標準的做法是形成 "戰線",即一列聯軍軍艦沿某一方向航行,使其兩側面對敵人,也擺成一排。然后,兩支平行的對立艦隊可以用大量的大炮攻擊對方。戰線 "戰略被認為是一種納什式的平衡,因為兩支艦隊都不會從進行耙擊(當時的一種戰術,即攻擊艦會試圖駛過對手的船尾,將大炮集中在那里開火,而敵人由于船尾的大炮位置較少,只能做出最小的反應。攻擊艦會同時破壞對手的船尾和一些寬舷)。根據列文的說法,在一支艦隊中,耙網并不是首選,因為這意味著必須先在敵人前面航行,然后轉向它--當船只的速度大致相同,而且操縱困難時,這是個具有挑戰性的任務。由于兩支艦隊都不會從轉向敵人的過程中獲益,也不會領先,萊文得出結論,這種策略--形成一條戰線并與對方艦隊平行航行--是每支艦隊的最佳反應,因此代表了納什均衡。
萊文接著提到了一些戰役,在這些戰役中,英國艦隊偏離了上述策略,向法國和法國-西班牙艦隊正交航行。在萊文提到的第一場戰役中,這可能是沒有計劃的。在第二場戰役--1805年的特拉法爾加戰役中,它是經過精心設計的:英國艦隊分成兩個縱隊,每個縱隊都以正交方向駛向法西戰線,在撞開戰線并開始全面混戰之前,進行了大約45分鐘的猛烈攻擊。英國人繼續孤立了法西艦隊的中間部分,取得了決定性的勝利。萊文認為這兩場戰役都是他論點的反例。然而,在特拉法爾加戰役中,英國的戰略有可能是對法國和西班牙可能形成的正統戰線戰略的最佳回應。英國海軍上將納爾遜勛爵希望阻止法西艦隊逃跑--如果兩支艦隊形成平行戰線,他們就可以逃跑--從而減少他將自己的艦隊組成戰線所得到的回報。此外,他可能估計到法國和西班牙船只的炮擊能力較差,會降低炮擊的效果,從而減少他直接向法國-西班牙艦隊發起沖鋒所獲得的負面獎勵。在他看來,這可能使得非正統的選擇比正統的戰線更能應對法西可能的戰略。雖然萊文沒有明確地將當時海戰中的這些策略歸結為博弈論,但所采用的策略還是可以通過博弈論分析來證明:這是一個沒有正式研究博弈論的 "直覺 "應用的例子。
Maskery等人在2007年(a)研究了使用網絡支持的操作(NEOPS)框架部署反艦導彈的問題,在這個框架中,多艘艦艇進行通信和協調以防御導彈威脅。在這里,導彈威脅被模擬成一個離散的馬爾可夫過程,它們在一個固定的物理空間內的隨機位置出現,并遵從一些已知的目標動力學和制導規律向艦艇移動。裝備有反制措施(CM)如誘餌和電磁干擾信號的艦艇被模擬為瞬時隨機博弈的參與者,其中單個參與者的行動包括使用CM來最大化自己的安全,同時與其他基本上以實現相同目標為目的的參與者合作。這個博弈論問題的最優策略是一個相關的均衡策略,并被證明可以通過一個具有雙線性約束的優化問題來實現。這與tepmaskery2007decentralized提出的一個相關問題但沒有玩家協調的納什均衡解決方案形成對比。本文的一個值得注意的貢獻是,它還量化了實施NEOPS均衡策略所需的溝通量。本文強調了博弈論方法在分析現代戰爭中至關重要的網絡系統的最優策略方面的效用。
在[71]中,Maskery等人2007年(b)考慮了以網絡為中心的特遣部隊對反艦導彈的保護問題。這個模型中的決策者是配備了硬殺傷/軟殺傷武器(反制措施)的艦艇,這些艦艇也被認為是在博弈論環境下制定這個問題的參與者。這些平臺必須就反措施的最佳部署做出獨立的關鍵決定,同時他們也要為保護任務組成員的共同目標而努力。從本質上講,這是一個海軍環境中的分散導彈偏移問題,它被表述為一個瞬時隨機博弈,艦艇可以計算出一個處于納什均衡的聯合反措施政策。在這里,艦艇之間的博弈而不是與導彈的博弈。這種方法自然適合于分散的解決方案,在完全通信不可行的情況下可以實施。此外,這種提法導致問題被解釋為隨機的最短過去博弈,已知存在納什均衡的解決方案。Bachmann等人使用非合作的雙人零和博弈分析了雷達和干擾器之間的互動。在他們的方法中,雷達和干擾器被認為是目標相反的 "玩家":雷達試圖最大限度地提高探測目標的概率,而干擾器則試圖通過干擾雷達來最小化其探測。
Bachmann等人假設在存在瑞利分布雜波的情況下有一個Swerling II型目標,對于這個目標,在不同的干擾情況下,單元平均(CA)和順序統計(OS)CFAR處理器的某些效用函數被描述。這種博弈論的表述是通過優化這些效用函數來解決的,這些效用函數受到控制變量(策略)的約束,對于干擾者來說是干擾者的功率和干擾的空間范圍,而對于雷達來說,可用的策略包括閾值參數和參考窗口大小。由此產生的矩陣形式的博弈被用于解決雷達和干擾器的最佳策略,從中確定雷達和干擾器有效實現其各自目標的條件。
空戰通常是一種正常形式的游戲,在交戰前,根據對武器庫中不同元素的強度的假設和知識,對所利用的資源做出決定。例如,壓制敵方防空車(SEADs)對地對空防御和地對空導彈(SAMs)是有效的,但對戰斗機則沒有用。因此,當軍事人員決定在交戰中使用哪些資源時,他們需要權衡每種資源的價值,以及目標對沖突雙方的重要性。如果攻擊部隊對一個目標的重視程度遠遠超過其實際價值,那么他們增加的資源支出可能會對其整個軍事行動造成損害。在人類通常操作空中武器的情況下,他們各自的能力和技能,以及他們執行任務的可能性,都需要考慮。
關于用博弈論建模的空戰的文獻有限。漢密爾頓為博弈論在多種空戰情況下的應用提供了一個全面的指導。漢密爾頓建議使用博弈論來制定戰略,不僅要基于自己的軍事選擇,還要考慮對敵人行動的預期。博弈論說明了與敵人的不同互動,而不是簡單地考慮哪一方擁有優越的最大努力力量。如今,許多軍隊可以適應即時變化的情況,并根據這些新情況調整自己的行動。因此,漢密爾頓建議首先確定每一方可用的所有戰術選擇。如前所述,將博弈論用于軍事的最基本要素之一是了解每項資產到底有多少價值--詳細說明雙方的庫存和戰略可能性將最好地澄清所有戰略選擇。對于每個選項,漢密爾頓建議分配一個數值--有效性衡量(MoE)。關于效果衡量的決定是很重要的,因為準確的效果衡量將為戰略上的選擇提供基礎。不正確的MoEs會導致不正確的戰略決策,也許還會導致對決策錯誤的原因理解不足。這方面的一個例子(雖然不是在空戰的背景下)是越南戰爭,美國的早期戰略是最大限度地消滅越共士兵。由于越南北部的領導層并不十分重視他們的步兵,美國的戰略最終導致了戰爭的失敗。接下來,漢密爾頓建議計算沖突雙方戰略之間所有可能的相互作用的綜合價值。這將產生一個回報矩陣,從中可以得出每個玩家的最佳或主導戰略,然后得出一個均衡解。因此,在軍事領導人可能參與的任何交戰之前,他們對游戲的預期結果有一個成熟的想法。漢密爾頓在這些準則中加入了一個注意事項,即把軍事行動的長度作為一個整體來考慮。如果資源的替換成本低或數量多,那么可以分配給一次戰役或打擊攻擊的價值就可能很小。然而,根據整個戰役中這種小規模沖突的數量,這些資源可能會變得非常關鍵。
為了說明這些觀點,漢密爾頓將其應用于一個標準的海空導彈和時間關鍵目標的空戰游戲。在這場戰斗中,"藍方 "正試圖消除一些地面目標。為了做到這一點,他們使用了海空導彈。作為回應,'紅方'將發射防空導彈,而防空導彈則要努力避開。然而,在期待這種回應的同時,藍方也有攻擊機,它們可以防御海空導彈并反擊薩姆導彈,但無法攻擊目標。藍方的問題是:目標的價值是什么,應該為目標部署何種比例的海空導彈和攻擊機?同樣,對于紅隊來說:目標的價值是多少,如果有的話,應該發射多少枚防空導彈?漢密爾頓認為,紅方的最佳策略是只在交戰的一小部分時間內開火,這相當于:
最優藍色策略是將部分飛機分配為SEADs,等于:
在這里,
Pks 是 SAMS 摧毀 SEAD 的概率
PkA 是攻擊機摧毀 SAM 的概率
這種提法簡明扼要地預測了在每一種可能的飛機和導彈發射任務下交戰的可能結果。必須指出的是,在實踐中準確量化不同目標和資源的數值是非常困難的。
Garcia等人2019年研究了在海上海岸線上防御兩架敵機的問題,這兩架敵機的主要目標是入侵防御方飛機控制的領土。而防守方則試圖通過試圖在離邊界盡可能遠的地方連續攔截兩架敵機來防止這種情況。這是一個典型的追擊-逃亡場景,代表了機器人、控制和防御領域的許多重要問題。在本文中,Garcia等人將這一問題表述為零和差分博弈,即防御者/追擊者試圖在離被防御的海岸線盡可能遠的地方連續捕獲兩個攻擊者/入侵者,而攻擊者則合作并在他們被對抗之前使他們離邊界的總距離最小。然后,Garcia等人通過解決一組非線性方程,在這個一防二攻的追逃博弈中找到攻擊者和防守者的最優策略。本文討論的合作策略為能力較弱(也許是速度較慢)的代理人在執行任務時提供了一個重要的協調方法。
Garcia等人在2017年考慮了一個空戰場景,即被攻擊導彈攻擊的目標飛機利用防御導彈來保護自己,因為它試圖在防御者達到與攻擊導彈盡可能近的距離時逃離攻擊者。該游戲被稱為主動目標防御差分游戲(ATDDG)。在本文中,作者擴展了以前在這個三方問題上所做的工作,為ATDDG開發了一個閉式分析解決方案,其中防御者導彈如果進入一個半徑為rc>0的捕獲圈內,就可以擊敗攻擊者。此外,盡管攻擊者采用了未知的制導法,而不是假設它是比例導航(PN)或追求(P),本文所展示的閉式最佳狀態反饋解決方案應該是有效的。最后,作者提供了一套目標飛機的初始條件,在這些條件下,盡管攻擊導彈采用了未知的制導法,但如果目標防御者團隊發揮了最佳作用,其生存就會得到保證。
Deligiannis等人考慮了多輸入多輸出(MIMO)雷達網絡中存在多個干擾器時的競爭性功率分配問題。雷達網絡的主要目標是使雷達發射的總功率最小,同時對每個目標達到特定的探測標準。在這個問題上,雷達面對的是智能干擾器,這些干擾器可以觀察到雷達的發射功率,從而決定其干擾功率,以最大限度地干擾雷達。在這里,Deligiannis等人將這個功率分配問題視為一個非合作博弈,參與者是中央雷達控制器和干擾器,并使用凸優化技術解決這個問題。此外,他們還提供了這種情況下納什均衡的存在性和唯一性的證明,在這種情況下,沒有玩家可以通過改變其功率分配來進一步獲利。
同樣,He等人考慮了多態雷達網絡中的雷達對抗問題,其中研究了在存在智能干擾器的情況下聯合功率分配和波束成形的博弈論表述。該網絡中每個雷達的目標是滿足目標的預期探測性能,同時使其總發射功率最小化并減輕潛在的干擾。另一方面,干擾器的目標是調整自己的發射功率來干擾雷達,以保護目標不被發現。首先,He等人研究了功率分配博弈,每個參與者(雷達和干擾者)的策略集由各自的發射功率組成。然后,他們著手解決相應的優化問題,以計算出雷達和干擾者的最佳響應函數,并表明納什均衡的存在和唯一性。接下來,他們再次將有干擾者存在的聯合功率分配和波束成形器設計問題視為非合作博弈,并提出了一種功率分配和波束成形算法,該算法被證明可以收斂到其納什均衡點。
McEneaney等人研究了無人駕駛飛行器(UAVs)對地面目標和地對空導彈(SAM)系統等防御單位的指揮和控制問題。這項工作的動機來自于無人駕駛空中作業場景中對作業計劃和實時調度的要求。該問題被模擬為藍色玩家(無人機)和紅色玩家(包括薩姆導彈和地面目標)之間的隨機博弈。每一方都可能有一些目標:例如,藍方玩家可能試圖摧毀一個戰略目標,同時盡量減少對自己的損害。另一方面,紅色玩家可能試圖對無人機造成最大傷害,同時保護自己不受無人機的攻擊。
無人機的控制策略由一組離散變量組成,對應于要攻擊的具體目標或防空導彈,而防空導彈的控制策略是將其雷達 "打開 "或 "關閉"。請注意,當雷達 "打開 "時,防空導彈對藍方玩家造成傷害的概率會增加,而藍方玩家對防空導彈造成傷害的概率也會增加。這個隨機博弈的解決方案是通過動態編程得到的,并通過一些數字例子加以說明。這項工作的主要貢獻是分析了不完全信息下隨機博弈的風險敏感的控制方法。特別是,這種方法不僅可以處理由于隨機噪聲造成的噪聲觀測,還可以處理觀測中包含對抗性成分的情況。
Wei等人開發了一個用于多個無人駕駛戰斗飛行器(UCAVs)協同工作的任務決策系統。UCAVs的武器是空對空導彈。在論文中,由一架無人駕駛戰斗轟炸機和兩架UCAV組成的紅色UCAV小組試圖打擊一個藍色小組的地面目標。藍隊有自己的一套UCAVs,其目標是擊敗紅隊。一枚特定的導彈對其選擇的威脅的成功取決于攻擊者和威脅之間的距離、它們的相對速度和相對角度。該場景被表示為一個同步正常形式的博弈,團隊的策略與藍隊實體對紅隊實體的分配相對應,反之亦然。在本文中,紅隊或藍隊的回報是基于考慮特定分配的有效性,而這又取決于對立團隊分配分組之間的相對幾何。Dempster-Shafer(D-S)理論被應用,其中D-S組合公式被用來制定報酬。這些為每個策略計算的報酬,然后被放入雙矩陣中,即每個團隊都有一個,并使用線性編程優化方法解決。如果不存在最優的納什均衡,則采用混合策略的方法進行求解。然后,作者開發了一些具有不同幾何形狀的任務場景,并說明了其博弈論分配策略的使用。他們使用包含紅隊和藍隊相互靠近的實體幾何圖形的注釋圖來證明由他們的報酬公式確定的分配策略是令人滿意的。
Ma等人開發了一種博弈論方法,為在超視距(BVR)空戰對抗中相互交戰的多個無人駕駛飛行器(UAV)團隊生成一種合作占用決策方法。由于導彈技術的發展使遠程交戰成為可能,BVR作戰成為可能。在本文中,每一方的團隊首先決定其無人機實體的占用位置(笛卡爾空間中的立方體),然后為每個無人機團隊成員選擇目標。目標是讓每一方獲得最大的優勢,同時經歷盡可能小的威脅條件。零和同步雙矩陣博弈被應用于分析該問題。對于一個給定的無人機占有率,高度和距離的優勢公式,考慮到射程和武器的最低/最高性能標準,用于產生效用函數的報酬值。由于游戲的規模會隨著每隊占用方塊和無人機數量的增加而導致規模的爆炸(從而導致策略的爆炸),作者選擇了在早期作品中為解決大規模零和博弈問題而設計的Double Oracle(DO)算法,將其與Neighbourhood Search(NS)算法相結合,成為Double Oracle Neighbourhood Search(DO-NS)。通過模擬,作者說明,結果顯示DO-NS算法在計算時間和解決方案的質量方面優于DO算法。
Ba?p?nar, Bar??等人的工作重點是使用基于優化的控制和博弈論方法對兩個無人駕駛飛行器(UAVs)之間的空對空戰斗進行建模。在這項工作中,車輛運動用特定的變量表示,任何從一個航點到另一個航點的軌跡規劃都是通過確定滿足平坦輸出空間中的定義條件的平滑曲線來解決的。在確定之后,所有參與描述平滑曲線的變量都可以恢復到原始狀態/輸入空間。其影響是通過減少所需變量的數量來加快任何軌跡優化的解決。然后利用博弈論,兩個無人機之間的空中戰斗被模擬成一個使用最小值方法的零和游戲。也就是說,當對手采取最佳策略時,每一方都試圖使其收益最大化。這里,目標是讓每個無人機直接進入對方身后,并在一定范圍內滿足機載武器有效射程限制。
在[81]中,作者提供了與基于方位角和軸承角的目標追尾程度有關的成本函數,以及與對手在最佳射程的某個閾值內時產生最大得分有關的成本函數。這些成本函數相乘,形成總成本。成本函數被放入一個后退地平線控制方案中,在一個給定的前瞻時間段內,通過選擇控制措施確定的軌跡規劃被執行,在這個時間段內,雙方都使用相反的策略。每個玩家將其對手視為地平線內的可達集,并以此來選擇其控制的選擇,以使其報酬最大化。這個過程每隔幾個控制步驟就會重復一次。與該領域的大多數其他作品不同,作者使用了性能包絡內的全部控制輸入,而不是一個子集(例如,轉彎、保持哈丁、以特定角度左滾、immelman、分裂S或螺旋俯沖),從而指向為每個玩家的策略生成一個更優化的解決方案。文章提供了兩種模擬情況,第一種情況是任何一個無人機都沒有開始處于空中優勢地位,然后行使后退地平線成本函數優化,在最佳射擊范圍內與對手進行追尾。作者表明,在飛行過程中,應用控制時的速度、載荷系數和岸角都沒有違反界限,而且產生了可行的軌跡。在第二次模擬中,無人機最初處于追尾狀態,但不滿足射擊范圍內的標準。被追趕的對手通過應用成本函數進行機動逃跑,而追趕者繼續追趕。在交戰結束時,滿足了射擊范圍內的標準,目標在正前方,但處于一個次優的方面,這導致其逃脫。這些場景被用來證明所開發的控制策略的有效性,從而為兩個無人駕駛飛行器相互交戰提供自動選擇戰斗策略。
Casbeer等人,考慮了這樣一種情景:追擊無人駕駛飛行器目標的攻擊者導彈被兩個與目標結盟的實體發射的防御導彈所吸引,而這兩個實體與目標合作。它從典型的三方博弈情景中延伸出來,在這種情景中,只有一枚防衛導彈與目標合作的攻擊者交戰。作者在此將其稱為主動目標防御差異博弈(ATDDG)。除了計算擴展到ATDDG中的玩家的最佳策略外,本文還試圖確定當目標使用兩個防御者而不是一個防御者時,其脆弱性的降低程度。本文提出了一個受限的優化問題來解決這種情況。結果表明,目標通過選擇與任一防衛者合作,可以更成功地逃脫攻擊者。此外,兩個防御者的存在使攻擊者更容易被攔截。當兩個防御者的導彈處于良好的位置時,都可以攔截攻擊者。
Han等人提出了一個綜合防空和導彈防御(IADS)的問題,即配備攔截導彈(IM)的地對空導彈(SAM)電池與針對城市的攻擊者導彈(AM)交戰。該問題是一個簡化的具有完全信息的兩方零和博弈,有三個階段。這三個階段對應的是防守方為城市配置防空導彈,然后是攻擊方為城市配置導彈,最后是防守方為反擊攻擊方的導彈配置攔截導彈。這個問題的簡化假設是,在一個城市附近只分配一個防空導彈,每個地點只安裝一個。此外,針對每枚攻擊導彈發射的攔截導彈不超過一枚。此外,一個DM只能分配一個IM,每個SAM都有相同數量和類型的IM,而AM是相同的,并且是單發發射的。試圖用廣泛形式的博弈樹、α-β修剪和使用Double Oracle(DO)算法來解決需要保護的六城市網絡的三層博弈。DO算法是一種啟發式算法,不保證能找到次完美納什均衡(SPNE)。我們研究了每種算法達到次完美納什均衡的效率。對于博弈樹方法,得出的結論是,由于問題的組合性,戰略空間的大小被確定為增加到一個難以解決的大小。當應用α-β修剪時,與DO算法相比,本文確定確定SAM電池、AM和IM的數量在計算時間方面沒有很好的擴展。然而,在少數情況下,DO算法確實無法找到SPNE。盡管如此,作者還是更喜歡DO算法,因為它被證明不違反單調性(報酬的增加)和解決方案的質量趨勢(計算時間的非指數增長),即使當問題的規模從6個城市增加到55個城市。
涉及博弈論在網絡戰爭(不同于網絡安全)中的應用的論文很少。其中重要的是,Keith等人[84]考慮了一個多領域(網絡與防空相結合)的國防安全博弈問題。兩個玩家在一個零和的廣義博弈中相互交鋒,一個是防御者,代表一個配備了網絡戰保護的綜合防空系統(IADS),一個是攻擊者,能夠釋放空對地威脅(導彈、炸彈)以及網絡攻擊(針對IADS網絡)。這里,回報被選為預期的生命損失。防守方希望將其降至最低,而攻擊方則希望將其最大化。保護IADS的網絡安全游戲問題被嵌套在物理安全游戲問題中。玩家的行動對應于激活IADS/網絡安全響應節點的分配,對應于防御方的人口中心,以及攻擊方攻擊IADS/相關的網絡安全節點的分配。通過提供不完善的信息,游戲的真實性得到提高;也就是說,防御者和攻擊者并不完全了解節點的脆弱程度。此外,防御者只能概率性地感知節點的網絡攻擊,這意味著其對特定IADS的網絡防御團隊的分配也只是概率性地有效。對于攻擊者來說,它也可以在物理攻擊一個節點后確定其網絡攻擊的有效性。這項工作通過引入綜合領域、代理行動的多個時期以及使玩家能夠不斷地采取混合形式的策略,為推動安全游戲文獻的發展奠定了基礎。作者認為這是第一項在安全游戲中比較蒙特卡洛(MC)和基于折扣和穩健的反事實后悔最小化(CRM)方法的工作。最初,對于問題的小規模版本,以序列形式的線性程序的形式確定防御者的納什均衡(NE)。然后,問題被逐漸放大,以包括更多的人口中心來防御,直到一個上限。這里,引入了一種近似的CRM算法,以減少計算時間,同時盡可能地保留特定策略的最優性。當規模進一步擴大時,引入了折現的CRM,進一步減少了計算時間。
對問題和算法的參數空間進行了探索,以選擇最佳的調整參數,并從算法中提取最佳性能。通過引入有界理性,使參與者的理性受到限制,因此他們不一定做出最佳反應。他們只能管理近似的穩健的最佳響應動作。一個棋手的穩健最佳反應被定義為完全保守的NE策略和完全激進的最佳反應策略之間的妥協。它在棋手的策略中引入了弱點。對于一個棋手來說,他們的策略能夠利用對手的策略的能力被稱為利用。反之,他們的戰略對于對手的脆弱性被稱為可利用性。當運行所有引入的不同算法時,結果顯示納什均衡解是最安全的策略,因為所走的是不被利用的最佳棋步,然而,它并沒有為玩家產生最高的效用。性能圖顯示,穩健的線性程序產生了最高的平均效用和最高的可利用性比率,同時也消耗了最大的計算時間。數據偏向的CFR被認為提供了最好的權衡,它提供了一個高的平均效用,一個有利于開發的可利用性比率,同時以最低的計算時間運行。
在空間戰爭領域,人力資源和風險要少得多,因此重點是網絡力量和獨立自主代理人之間的互動,連接或其他。最終,這些方面的戰爭將以遠遠超出人類認知能力的速度和維度運作。由于交戰中決策的快速性和復雜性幾乎肯定會超出軍事人員的理解能力,博弈論將取代決策者作為整個軟件和控制系統的一部分,并將未來的技術注入到計算時考慮人類/社會因素。隨著對連接性和網絡化的更多關注,這些領域的成功關鍵依賴于有效的溝通渠道和整個系統的共同目標。在這一新興的研究領域,應用博弈論的論文往往關注衛星網絡。
Zhong等人設定了一個雄心勃勃的目標:優化整個衛星網絡的帶寬分配和傳輸功率。他們的研究以討價還價的博弈論為基礎,必須在網絡中的每一個點上實現對干擾約束、服務質量要求、信道條件以及衛星的發射和接收能力的妥協。干擾限制和帶寬限制是在討價還價游戲中需要協商的盈余,每個衛星使用不同的策略來提高其效用/資源份額。這使得復雜性迅速升級,該模型最重要的收獲是將一個問題映射到合作討價還價的游戲框架中。
同樣地,Qiao和Zhao詳細介紹了衛星網絡中節點的有限能量可用性的一些關鍵問題。他們的論文通過一個路由算法的博弈理論模型提供了一個解決方案,并利用它來尋找不均衡網絡流量的均衡解決方案。該模型定位了某些網絡熱點,這些熱點正在儲備大量的能量,并采取措施均勻地分配資源。這是在網絡中多個參與者之間進行討價還價/合作博弈的另一個案例。
由于目標跟蹤是一個成熟的研究領域,我們發現了一些應用博弈論跟蹤問題的論文。其中大多數都有重疊的戰爭領域,并沒有過多強調在某個特定領域的適用性。例如,Gu等人研究了使用傳感器網絡跟蹤移動目標的問題,該網絡由能夠提供一些與位置有關的目標測量的傳感器組成。每個傳感器節點都有一個觀察目標的傳感器和一個估計其狀態的處理器。雖然傳感器之間有一些通信,但這種能力是有限的,因為每個傳感器節點只能與它的鄰居通信。由于目標是一個能夠最小化其被對手探測到的智能代理,從而有可能增加跟蹤代理的跟蹤誤差,這使問題更加復雜。Gu等人在零和博弈的框架內解決了這個問題,并通過最小化跟蹤代理的估計誤差,開發了一個穩健的最小值過濾器。此外,為了處理傳感器節點有限的通信能力,他們提出了這種濾波器的分布式版本,每個節點只需要從其近鄰獲得當前測量和估計狀態的信息。然后,他們在一個有智能目標的模擬場景中展示了他們算法的性能,并表明雖然標準卡爾曼濾波器的誤差會發散,但考慮到對手的噪聲的最小化濾波器可以大大超過卡爾曼濾波器的性能。
Qilong等人同樣解決了跟蹤智能目標的問題,但他們模擬了一個場景,跟蹤者也在追擊,重點是保護目標。此外,目標可以向攻擊者/追蹤者發射防御性導彈。攻擊者對目標和防御性導彈都有一個視線。目標計劃讓跟蹤器慢慢拉近與目標之間的距離,同時進行機動,以了解攻擊者的反應。當攻擊者接近碰撞時,防御性導彈被釋放。然后,目標和導彈進行溝通,利用對攻擊者運動模式的了解,并遵守最佳線性制導法,以摧毀攻擊者。這被模擬為攻擊者、目標和防御性導彈之間的零和競爭游戲。然而,本文還關注了目標和防御性導彈之間的合作博弈,這是一個非零和博弈。對他們來說,報酬是通過最小化的失誤距離(理想情況下等于零--與攻擊者的碰撞),以及引導防御性導彈所需的控制努力來計算。
Faruqi討論了將微分博弈理論應用于導彈制導的一般問題。他們指出,導彈的軌跡遵循比例導航(PN),這是歸航導彈通常使用的制導法。這些系統的性能是由線性系統二次性能指數(LQPI)來衡量的。在微分博弈論方面,他們通過用一組微分方程表示導彈的導航和軌跡來模擬導彈制導問題。這個問題的一般形式是
在這里,
:是玩家i w.r.t 玩家 j 的相對狀態
:是我輸入的玩家
:是玩家j的輸入
F:是狀態系數矩陣
G:是玩家輸入系數矩陣
Q:是當前相對狀態的性能指數 (PI) 權重矩陣
S:是最終相對狀態的 PI 權重矩陣
Ri,Rj:輸入的 PI 權重矩陣
Faruqi 主要專注于兩人和三人博弈,而效用函數是基于導彈和目標之間的相對距離向量建模的。Faruqi 表明博弈論可以有效地用于現代導彈中涉及 PN 的導彈制導任務。
另一方面,埃弗斯利用博弈論分析了對戰區彈道導彈(TBMs)的防御。彈道導彈和核技術的擴散對軍事沖突有著重要的影響,失敗的代價可能導致整個城市的毀滅。由于它們的射程很遠,威力很大,盡管其有效載荷可以有很大的變化,但很難確定其發射位置。在對抗這種威脅時,防衛國確實有一個優勢,那就是通常有一個很長的飛行軌跡,通常分為三個階段,在這期間可以對TBM進行攔截。推進階段標志著發射和TBM上升的大部分時間。助推階段的結束標志著燒毀,之后TBM進入中段階段。這個階段是飛行時間最長的階段,為防御者提供了攔截TBM的最佳機會。在中段階段之后,TBM進入了重返大氣層的終結階段。這是防御者攔截導彈的最后機會。飛行路線如下圖4所示:
圖 4. 戰區彈道導彈的飛行路徑
導彈在合理延長的飛行時間內行駛了很遠的距離。然而,從它的實際地理位置來看,防衛的軍隊或國家只能在飛行的終止階段運用其資源來防御它,在這個階段風險要高得多,失敗的代價也最大。出于這個原因,埃弗斯提出了一種合作戰略,即防守國與周圍的國家結成聯盟,以便它們也能在TBM前往撞擊地點的早期階段嘗試攔截它。因此,游戲被分為兩個小游戲:第一個是合作性的多人游戲,為國家聯盟設計一套戰略,以便在TBM的整個飛行路徑中使用;第二個是防衛國和潛在盟友之間的討價還價和合作游戲。
擊落TBM的合作游戲的基礎是一種叫做 "射擊-觀察-射擊 "的策略。它依賴于一組N個國家使用一組策略--他們的攔截導彈--來攻擊目標,每個導彈都有自己的攔截概率Pi。當TBM飛行時,N國中的每個國家都會發射其導彈Mn來攔截TBM,然后看看它是否成功地消除了威脅。如果它失敗了,下一個國家的導彈Mn+1將被發射。然后,博弈的問題就被簡化為優化整套策略的攔截概率,從而使其具有阻止TBM的可行可能性。博弈論在這里是有用的,因為合作博弈論的原則提供了一個強大的數學框架,通過這個框架可以為一組合作的國家達成一個均衡的解決方案。
埃弗斯描述的第二個游戲是基于與其他國家的談判,以形成一個聯盟。對于這些其他國家來說,參與這個游戲是一種風險,因為它使他們成為攻擊部隊的另一個潛在目標。為了解決這個游戲,防衛國必須準確評估攔截器的成本節約,也就是說,通過防止TBM的影響可以獲得多少收益。隨著這些節省的費用成為合作國家可以分享的盈余,潛在的盟友就如何分享這些節省的費用進行談判,與他們所能提供的攔截資源成正比。
Shinar和Shima繼續研究追擊-規避游戲和彈道導彈防御的零和游戲,即一個高度機動的彈道導彈避開攔截導彈。更具體地說,它在博弈中加入了一個不完美的信息元素,即彈道導彈知道自己正受到反導彈的攻擊,但對其彈道或發射位置知之甚少。在這個游戲中,兩個玩家是彈道導彈和攔截者。如果彈道導彈使用純粹的策略,它很可能會被擊中,因為它要么(a)不能對它所知甚少的對手做出足夠快的反應,要么(b)會以可預測的方式移動,并允許以直接的彈道走向碰撞。因此,彈道導彈的最佳博弈方案是在混合策略中。
混合策略將在其飛行模式中納入隨機性,為一組純策略分配一個概率分布。這些純策略將基于基本的導航啟發法,這些啟發法很可能是攔截器已知的或容易發現的。通過應用少量快速和隨機的策略切換,彈道導彈可以最大限度地發揮其避免攔截的潛力,并將時間計算的復雜性強加給攔截者。
Bogdanovic等人從博弈論的角度研究了一個多目標跟蹤的目標選擇問題。這是多功能雷達網絡中的一個重要問題,因為它需要同時執行多種功能,如體積監視和火力控制,同時有效地管理可用的雷達資源以實現指定的目標。因此,實際上,他們在[92]中處理了一個雷達資源管理問題,并使用非合作博弈論方法來尋找這個問題的最優解。他們在一個框架中制定了這個問題,每個雷達都被認為是自主的;沒有中央控制引擎來通知雷達它們的最佳策略,雷達之間也沒有任何交流。首先,他們考慮了所有雷達對目標有共同利益的情況,對于這個問題,他們提出了一種基于最佳響應動力學的分布式算法來尋找納什均衡點。然后,這個問題被擴展到雷達之間的異質利益和部分目標可觀察性的更現實的情況。對于這種情況,他們采用了相關均衡的解決概念,并提出了一種基于遺憾匹配的高效分布式算法,該算法被證明可以達到與計算量更大的集中式方法相當的性能。
最后,Parras等人研究了一個追求-逃避博弈,涉及無人駕駛飛行器(UAVs)的抗干擾策略。該博弈在一個連續的時間框架內運行,因此是動態的,在微分博弈論的幫助下被解決。在某種程度上是上述工作的高潮,它結合了通信優化、傳感器規避和導航的元素。鑒于無人機需要強大的通信來控制和傳遞信息,這種依賴性使得無人機非常容易受到干擾攻擊。有多種策略來干擾和反干擾這些通信,這可以被認為是一個零和游戲,無人機必須試圖優化其通信能力。通常情況下,干擾者的定位和移動是不確定的,所以這個游戲是一個不完全信息差分游戲。對無人機來說,最重要的回報是避免因干擾而失去通信,它可以通過操縱來對干擾劑的距離進行近似,從而避免它們。
博弈論涉及的國土安全的關鍵部分是網絡安全、模擬恐怖主義威脅和國防合同。隨著計算機科學的許多應用,博弈論很適合用于網絡安全問題。博弈論結合了計算機科學嚴格的數學嚴謹性,以及更多的心理學和哲學元素,如攻擊者的動機和心態,以及網絡安全中人的脆弱性。恐怖主義建模也同樣受益于博弈論的心理學色彩,因為恐怖活動的許多影響是不容易量化的,包括社會、經濟和其他受恐怖威脅影響的領域,所有這些都可以在博弈論的背景下建模。最后,博弈論適合于承包和分包這樣的課題,因為它能有效地捕捉到自私的個人之間的互動,這已經被用來模擬國防承包商的行為。
Litti的論文簡要介紹了傳統的網絡安全啟發式方法如何能更精確地更新,以及博弈論如何能幫助網絡安全工程師設計策略來正確預測、緩解和處理受到威脅的網絡。他開發了一種定性的方法來評估網絡攻擊的潛在風險和成本。雖然是一篇相當短的論文,但它確實提供了一些博弈論在實踐中的網絡安全情境案例。例如,他建立了一個雙人零和博弈的模型來代表攻擊者和安全系統。各個節點都有自己的相互依賴性、脆弱性和安全資產,但通過合作,將攻擊者破壞系統的可能性降到最低。
Jhawar等人提供了一種更具體的博弈論方法,即攻防樹(ADTs),來模擬涉及網絡安全威脅的場景。在這里,ADTs被用來在一個配備了自動防御協議的系統上繪制潛在的攻擊和防御場景。該系統需要全面解決所有可能的漏洞,并產生適應網絡安全攻擊的積極演變情況的反應。目前,ADTs只提供前期的系統分析。擁有一個反應式的網絡安全策略是很重要的,因為攻擊者會不斷改變他們的攻擊策略來進行進攻,所以實時反應的時間可以使系統的防御成功和失敗之間產生差異。在Jhawar等人的文章中,他們建立了一個攻擊者和防御者的簡單游戲模型--黑客和安全網絡管理員。黑客試圖破壞系統的完整性,對于他們的每一步行動,管理員都會根據攻擊者的嘗試設計一個反應性的策略。這種方法最大的效用來自于將長的廣泛形式的游戲轉換為圖形布局的能力,以便于理解和交流。
岡薩雷斯清楚地概述了一個標準的攻守雙方的競爭游戲,然后利用基于實例的學習理論和行為博弈理論。前者將認知信息編譯成一種被稱為實例的表示。每個實例都有一個由情況、決定和效用三部分組成的結構--標準的游戲。然而,這種方法的關鍵是實例之間的互動。基于實例的學習理論利用每個實例的學習結果反饋到下一個實例的情況,希望能在以后的迭代中做出更好的決定。這明顯類似于機器學習中的強化學習技術。另一方面,行為博弈論涉及到設計一種策略,我們評估各種因素,對目標和資源進行更精確的長期評估,使效用分數更接近于反映現實生活的價值。再次,博弈論促進了網絡安全應用中社會信息的獲取,并評估了這將如何影響游戲中雙方的行為。其他關鍵因素包括玩家的動機因素,每個玩家的信息完整性,以及玩家和技術之間的技術限制和低效率。岡薩雷斯強調,在任何網絡安全模型中容納這些因素的重要性將有助于為網絡防御制定更現實和有用的政策。
網絡安全的一個常見用途是用于預防恐怖主義。Hausken等人用一些指導性的博弈論原則涵蓋了恐怖主義和自然災害的建模。恐怖主義和自然災害是通過用反恐怖主義、反災害和反所有災害的投資來進行防御。對這些事件發生的可能性進行預測,防御者必須對每項防御的投資額做出戰略決策。在這些情況的效用函數中需要考慮的成本包括恐怖分子的情報或自然災害的隨機性/環境控制;攻擊/災害的強度,以及恐怖分子和防御者之間對目標價值評估的差異。本分析中使用的博弈論方法抓住了防御者在打擊每個威脅時的努力。根據每個事件的可能性,結合每個防御系統的成本,防御者可以得出資金的最佳分配方案。
Kanturska等人提出了一個嚴格的檢查,即當不同地點的攻擊概率未知時,如何使用博弈論評估運輸網絡的可靠性。該方法傾向于使用最小化算法在多條路徑上分配風險,只要旅行成本相對于攻擊造成的潛在損失較小。這對于評估安全護送貴賓穿越城市的潛在風險很有用。博弈論在這種情況下很有幫助,因為它可以分析攻擊概率未知時的網絡可靠性。
Bier提出了基于博弈論的有用建議,用于政策見解和投資決策、保險單的保費等等。她的工作討論了最弱環節模型:一種將所有資源集中在防止最壞效用情況的策略。這在實踐中通常并不理想,她反而建議考慮用各種防御戰略來對沖這些投資,針對不同的潛在目標。本文考慮了恐怖分子/防御者的博弈,以及安全投資如何改變整個社區的攻擊者-防御者互動的景觀。這主要是通過其自身的范圍研究來完成的,其中一個關鍵的收獲是,恐怖主義緩解系統可以從博弈論中受益,因為它增加了一個額外的考慮,即恐怖分子對任何防御機制的反應。因此,博弈論與對所有系統進行風險和可靠性分析的整體方法相結合,可以對反恐戰略中的所有潛在風險和漏洞進行更全面的評估。
Cioaca研究的問題與前面提到的Bier等人的問題類似,但特別關注航空安全問題。該問題的總結是針對機場安全措施的成本和維持一個穩定而有彈性的防御系統的成本。關鍵的策略是:完全防止攻擊或威脅(通過取消對目標地點的所有訪問或限制航空公司的權限,如果他們沒有遵守規定的準則);管理攻擊的時間維度(攻擊的長度和隨后的恢復時間);了解所有直接和間接的損失(包括傷亡和相關的損害,如污染或感染,受損的二級安全措施,或聲譽/信號的影響);以及緩解、響應和恢復的成本。
該模型是圍繞幾個因素和參數建立的。首先也是最關鍵的是人員損失和物質損失。 H 指人員損失,D 指物質損失,
指分配給相關安全系統的預算。攻擊中最明顯和最直接的損失,這兩種損失在這種攻擊中是非常負面的回報,并且通常比任何防止它們的成本都要高。人員損失 H 難以用數值量化,因此在對資源劃分進行適當評估時,了解如何在不同人群和不同維度上最小化人員損失是該問題最困難的方面之一。物質損失 D 可以用貨幣量化,但這種損害的連續影響通常是造成重大損失的地方。這些損失可能導致基礎設施全面關閉、設施停止運轉、工人失業,甚至可能導致設施的緩慢衰退和完全關閉。這場比賽的第二個主要因素是分配給安全系統的預算
。組織和管理機構將只有一定數量的資源分配給安全系統 T。下一個因素是安全系統組件的數量,因為這將是預算的組成方式。這些組件中的每一個都被劃分為 n 個單獨的系統子組件之一。這些組件被劃分為多個目標
,并且這些目標中的每一個都被分配了一個被攻擊的概率
和一個值
。這可以正式表示為:
對于任何資源劃分系統,Ciaoca 主張建立衡量系統彈性的維度。這分為靜態彈性,資源的有效分配;動態彈性,沖擊后系統的恢復速度,包括長期投資流入。這兩種形式的彈性表示攻擊之前、期間和之后的系統強度。在博弈論方面,Ciaoca 的研究清晰地定義了一個博弈,并結合了無數復雜且相互關聯的參數,勾勒出一個有效且可計算的博弈模型。
我們討論的關于國家安全的最后一篇論文是由 Gardener 和 Moffat撰寫的。本文涵蓋了制定戰略以評估國防承包商及其履行合同義務的潛在績效/能力的概念。用博弈論的說法,這個問題可以用合作和背叛來表達。加德納和莫法特提出了量化方法,國防部可以通過這些方法更嚴格地評估合同和招標方案,從而明智地選擇承包商并保護他們的預算。Gardener 和 Moffat 進一步了解了國防采購項目不同招標階段項目管理的變更要求。他們關注的因素是樂觀的陰謀,由于對項目進度的不合理預期,項目逐漸失控——超過了預算限制和必要的最后期限。通常,這種“陰謀”是為了獲得短期收益,實際上會導致整體損失。所玩的投標博弈不再是關于項目的成功,而更多地是關于利潤資本化,并可能進一步退化為相關國防部與整個承包商行業對抗的兩人博弈。
一些論文在防御環境中使用博弈論,但不能輕易歸類為上述任何類型,或者它們與混合戰有關。例如,Zhang和Meherjerdi研究如何在不同的通信框架中使用博弈論方法來使用和控制多組無人駕駛車輛。將單個無人駕駛車輛的任務分配給多個無人駕駛車輛會產生更有效的任務分配和性能。將勞動力從一輛強大的單一車輛分離到幾輛較小的車輛提供了靈活性、適應性和改進的容錯能力。這種網絡的用途是監視、探索、衛星集群、結合無人駕駛水下航行器 (UUV) 和潛艇、飛機和無人駕駛飛行器 (UAV) 以及協作機器人偵察。從這個列表中可以明顯看出,該策略非常強大,因為它能夠跨多個域組合資源。
同樣,可以注意到,搜索是一種“捉迷藏”游戲,在軍事應用中有著悠久的歷史。該理論是由 Koopman率先在軍事背景下(尋找逃跑目標)提出的,隨后由 Stone 等人的開發,應用包括潛艇狩獵、探雷、救援行動、第一響應者的風險以及危險源的定位。該框架提供了最優的先驗給定檢測模型、目標運動和搜索成本的搜索計劃。搜索成本可能包括搜索時間、逃生概率(對于目標)、暴露風險(對于搜索者)、信息熵或態勢感知(目標位置概率圖)。搜索器可以是移動平臺(UAV、UUV、巡邏艇、直升機、機器人、人),目標可以是靜態的、可移動的、盲目的、無聲的或發射的。在這種情況下,經常使用同時定位和映射(SLAM)算法。這一利基市場的新研究方向(受一些生物學應用的啟發)采用了信息趨向的思想,或基于從環境中提取的信息(熵)增益(零星測量、禁區、搜索者之間的通信)實時控制搜索者的移動。博弈論的原理可以應用在可以建模為“捉迷藏”游戲的環境中。
在上一節中,很明顯,許多論文在多個領域都有適用性,并且使用了無數類型的博弈并為一系列玩家建模。因此,必須以有原則的方式對已審查的論文進行分類。為此,我們使用第 2 節表 1中已經介紹的分類方案。
特別是,可以根據 (1) 戰爭的領域或類型 (2) 論文中使用的一種或多種博弈類型,以及 (3) 論文中建模的玩家的性質對所審查的論文進行分類。該領域可以大致分為傳統(T)或現代(M),更具體地說,可以分為陸戰、海戰、空戰、網絡戰和太空戰。根據博弈是非合作的還是合作的、順序的還是同時的、離散的還是連續的、零和還是非零和,所使用的博弈類型也可以有一個復雜的分類。最后,博弈可以是兩人、三人或多人(多于三人)博弈。所有這些都在表 1中進行了簡要介紹。
在表2中,我們提供了基于上述分類方案的所有評論論文的不言自明、詳盡的分類。
表2.使用表 1 對國防博弈論應用領域的論文進行分類。此處描述的共有 29 篇論文被分類。
我們現在考慮的問題是,在這些論文中,哪些論文引起了研究界的最大興趣,或者導致了后續或相關工作的開展。衡量這種影響的一個通常使用的指標是引文數,雖然這個指標顯然偏向于早期的論文。盡管如此,在表3中,我們展示了所考慮的 29 篇論文的 Google Scholar 引用數。哪些論文被引用次數最多,讀者不言而喻,我們不再贅述。然而,我們強調,引用次數并不是衡量影響力的唯一指標,也不一定是衡量一篇論文在研究領域的影響力的最有效方法。但是,它是一個現成的衡量標準,可以傳達有用的信息。
表3. 已審查論文的 Google Scholar 引用數。谷歌學術引文數據于 2021 年 12 月 18 日訪問。
表3還顯示了每篇論文的原籍國,其定義是出現在相應作者的第一署名中的國家。可以看出,這些論文是由來自美國、英國、澳大利亞、中國、荷蘭、加拿大、以色列、印度、德國、西班牙和羅馬尼亞的研究人員撰寫的。看來,美國、歐洲(尤其是西歐)和中國對在國防科學中應用博弈論有主要興趣,同時我們承認,可能有幾篇用英語以外的語言撰寫的論文,我們沒有考慮。
為了了解在上述分類中描述的不同領域之間是否存在充分的思想交流,我們考慮了在29篇評審論文中,有多少論文引用了同一組的其他論文。表4列出了根據谷歌學術的引用情況。令人驚訝的是,沒有一篇論文被其他被審查的論文引用兩次以上,而且大多數論文根本沒有被這組論文中的其他論文引用。盡管這組論文的總體引用次數是健康的--根據表3,被審閱的論文平均被引用34.97次,而且有幾篇論文被引用超過50次。然而,這些引用大多來自與國防科技有關的論文,這些論文使用各種方法和工具來解決類似的問題,顯然,在國防應用中使用博弈論的研究人員之間幾乎沒有交叉交流。因此,除了我們在下面介紹的文獻中的 "空白 "表明了潛在的研究機會外,還應該強調的是,應該提高對該領域類似工作的認識,這將可能導致在某一特定領域產生的想法被重新用于其他領域和與國防有關的其他應用。
表4. 根據谷歌學術,審閱過的論文中的引用情況。谷歌學術的引用數據是在2021年12月18日訪問的。從該表可以看出,在該領域中相互引用對方的工作是極其罕見的。
審查的論文表明,博弈論可以提供一個統一的框架來分析代理在防御環境中的決策行為。在本節中,我們將簡要討論迄今為止尚未應用博弈論但如果在未來應用將做出有用貢獻的一系列潛在防御場景。
國防高級研究計劃局(DARPA)最近對 "馬賽克戰爭 "的調查就是博弈論未來潛在應用的一個例子。這個想法是在操作多個無人駕駛飛行器的背景下被提到的,并建議在一個'馬賽克'網絡中擁有許多較小的具有成本效益的資源相互連接,這樣,如果幾個單位被摧毀,網絡的整體完整性仍然存在,就像馬賽克即使被移除幾塊瓷磚也能保持其圖像。我們的目標是,這樣一個具有不同能力的龐大資源陣列將能夠以其完整性和復雜性壓倒敵人。它利用并發性的原則來解決由數百萬個傳感器和執行器組成的系統中錯綜復雜的連接問題。這些系統又必須處理系統間的通信。如果成功實施,這樣一個系統的系統可以為軍事戰略家提供一個壓倒性的強大的武器裝備和資源網絡,它可以憑借其動態的規模和復雜性擊敗對手。這種將軍火庫的不同部分結合在一起的方法使每個部分的利益最大化,并重新引入了對資源消耗性的關注,而不是專注于幾件高價值的武器裝備。這反過來又為戰略建立了彈性和適應性,擺脫了重量級的、單一重點的攻擊方法。由于有大量成本較低的資源需要合作以獲得最佳結果,這種情況在一個層面上可以被模擬成多人合作游戲,而與對手的爭斗可以被模擬成多人非合作游戲。可以注意到,"馬賽克戰爭 "的概念本質上類似于更普遍的基于代理人的建模概念,它已經被用于幾個不同的背景,從無齡航空器設計到傳染病動態建模,博弈論已經在其中一些背景下成功使用。
在海戰的背景下,博弈論可以卓有成效地應用的另一個領域是海軍的易損性。在分析海軍的易感性時,海軍艦艇要考慮其環境、運動模式和潛在的對手傳感器,以計算其在秘密移動時被發現的風險。這樣的應用與國防科學中通常研究的跟蹤問題有重疊之處,正如顧氏所解釋的,它描述了使用傳感器網絡的跟蹤。如前所述,這種情況可以被建模為一個雙人非合作性差分博弈,而探測是每個參與者的主要回報參數。
事實上,地基跟蹤問題也可以從博弈論的應用中受益,而到目前為止,這一領域的論文還很少。地面追蹤問題既可能出現在地面軍事應用中(這里歸類為陸戰),也可能出現在國內安全和反恐應用中(這里歸類為國家安全應用),其中安全機構在整個社會中追蹤個人行動的能力--包括他們的位置、社會網絡和動機--是一種關鍵能力。后一種情況可以被模擬為追擊和躲避的雙人游戲,或者也許只是追擊和偵察,目的是不向目標透露追擊的情況,而目標將試圖識別追擊。在這種情況下,從秘密跟蹤中獲得的預測性信息量將是回報。 賽博戰建模是博弈論可以應用的另一個領域,同樣,正如前面相關部分所述,除了主要來自計算機科學領域的論文之外,很少有論文涉及這一領域網絡安全。Kim等人[124] 描述了所有軍事行動不可或缺的網絡戰場景,并強調了物聯網 (IoT) 和腦機接口等新技術范式所發揮的關鍵作用。防御專家越來越需要預測和先發制敵的網絡戰策略。使用新穎的技術接口對涉及網絡戰場景的決策制定進行建模是博弈論可以發揮重要作用的領域。
如上所述,根據表 4 ,在所呈現的文獻中,似乎很少有交叉、思想交流,甚至對其他類似作品的認識,也可能被認為是一個“空白” 。因此,在國防應用中使用博弈論的研究人員之間加強合作是可取的,這將使博弈論方法在多個戰爭領域的重用。
這里有必要討論一下,除了總結現狀和確定文獻中的差距之外,像這樣的評論如何為該領域增加價值。我們注意到,在選定的論文集中,從一篇論文到另一篇論文的引用很少。雖然很難說出其中的原因,但可以看到大多數研究都集中在特定的戰爭領域,如陸戰、海戰或空戰,并試圖解決特定戰爭領域的具體問題。因此,專注于不同戰爭領域的論文不一定被認為是另一篇在國防背景下應用博弈論的論文,而是屬于不同戰爭領域的論文,因此沒有被關注。然而很明顯,這樣的方法可能會導致錯失機會,因為往往沒有考慮到同一套博弈論工具還可以在哪里得到類似的應用。像這樣的一篇評論文章將在一定程度上糾正這個問題。此外,我們可以看到,報酬函數的定義往往是僵化和狹隘的,是基于傳統上被認為是某一類型戰爭的重要參數。例如,陸地戰爭的重點是盡量減少傷亡,而國家安全應用的重點是提高公眾信心。然而,在大多數類型的戰爭中,有一系列的因素促成了最終的回報,從傷亡和軍事資產的損失到公眾信心、間接經濟成本、機會成本、盟國的成本以及政治和戰略考慮。這篇評論文章通過對幾個戰爭領域的報酬結構的廣泛概述,可能會刺激在每個使用博弈論的戰爭領域建立更全面的報酬函數模型。此外,從一般意義上講,這篇評論將有助于強調與國防有關的決策是一個有條不紊的理性過程,可以進行結構化分析,而不是像過去國防界某些部門所認為的那樣是一個直觀的過程[125]。同時,所提出的分析將有助于避免一方面的微觀管理和另一方面的沖動決策[126],而不是鼓勵國防應用中的量化決策過程。
特別是,在作戰和戰術決策過程之外,所提出的評論還具有管理和社會意義。
博弈論的應用對一個國家的國防力量非常有用,不僅在戰術和作戰方面,而且在和平時期的國防資產的戰略管理方面也是如此。例如,出于威懾和作戰準備的目的,軍事資源的戰略布局,如戰艦、潛艇和戰斗機,可以被視為一個合作博弈,或者相當于一個優化問題,可以通過線性編程或非線性編程來解決。同樣,關于戰略軍事設施,如基地、簡易機場、港口,甚至公路和鐵路[127,128]的安置和建設的決策,也可以通過使用合作博弈論對相關情景進行建模來幫助。另一個可以應用博弈論的管理決策過程是后備軍事人員的管理,包括何時征召后備人員。因此,博弈論不僅對做出作戰決策的軍事人員有用,而且對必須做出國防相關決策(包括在和平時期)的文職管理人員和政治家也有用,因為這些決策可能會產生長期的影響。
在國防場景中應用博弈論的社會效益主要來自國家安全的觀點。公眾對國土安全的看法是國防考慮的一個重要部分,對國防開支有相當大的影響。國防和執法部門的決策者在做出國防開支決策時,不僅需要考慮實際的風險和威脅,還需要考慮感知的風險,以及受其影響的因素,如保險費用、對旅游業的影響、信用評級機構的評級、投資者對一個國家的投資意愿、安全措施的實際和感知成本等等。博弈論可以成為一個非常有用的工具,用來模擬這樣一套復雜的因素和參數,以及不同情況下產生的整體回報。反過來說,這種決定一旦做出,顯然會影響國家安全,并反過來影響公眾對國家安全的信心和看法。因此,對風險的感知和國家安全的支出相互影響,博弈論所提供的工具集對于模擬這樣一個復雜的反饋回路非常有用。顯然,公眾的情緒和對事件的看法在戰時情景下也很重要,在戰爭的各個領域做出的決定都會影響公眾的看法,這反過來可能會影響沖突的軌跡。因此,博弈論在國防場景中的應用具有明顯的社會意義。
同樣重要的是,本評論增加了新的見解,對理解指揮和控制戰爭很有幫助。其中一個見解是,智能代理之間的合作和敵對競爭并不像它們乍看起來那么根本不同:事實上,在某種意義上,它們都可以用同一個框架(博弈論)來表示,并且都涉及一些智能參與者、戰略和回報。不同的是,敵對的競爭由非合作博弈論表示,其中一個玩家的報酬增加往往導致另一個玩家的損失(零和博弈是這種情況的一個特例)。另一方面,合作是由合作博弈論來代表的,在這里我們對聯盟進行建模,有時還討論 "公共利益 "的概念。當一個敵對的玩家有可能變成盟友或反之亦然時,這樣的洞察力特別有用。另一個見解是,將防御場景作為游戲來建模的主要困難不是來自于確定可能的戰略或參與者,而是來自于量化的回報。很多時候,我們審查過的論文在量化回報時做了一些假設、簡化和估計,可以設想,這些過程引入的累積錯誤可能已經嚴重改變了游戲的結果,從而使建模變得無效。因此,許多論文在應用博弈論時面臨的主要挑戰是如何準確或合理地模擬報酬。除非像我們在這里所做的那樣,對博弈論的幾個防御性應用進行廣泛的回顧,否則無法獲得這樣的見解,而這些見解對于塑造該領域未來的研究方向非常重要。
博弈論已被證明是一種通用且強大的工具,可用于深入了解許多領域的智能體和參與者的決策過程。在這篇評論文章中,我們詳細闡述了博弈論可以應用于國防科學技術的幾種場景,并簡要回顧了該方向的現有研究。我們根據所研究的戰爭類型、使用的博弈類型和玩家的性質,對 29 篇評論論文進行了廣泛的分類。基于所做的觀察,我們確定了文獻中的空白,即博弈論迄今尚未被廣泛運用,但在未來有很大的潛力被富有成效地運用;我們還討論了博弈論的國防應用在未來可能擴展的方向。
基于領域的分類是采用的主要分類模式,在此背景下,我們將審查的論文分為陸地、空中、海洋、網絡和空間領域。我們還考慮了主要與跟蹤和國家安全有關的論文。對于所考慮的每篇論文,都定義了參與者的數量和角色以及博弈類型,并在可能的情況下討論了策略和收益函數。這項工作的目的是確定最常分析的領域以及經常使用的博弈類型,并利用這些知識來確定文獻中的差距,在國防背景下的各個領域和戰爭類型中相互交流意見。
希望這次審查能產生幾個積極的結果。我們發現了文獻中的空白,并指出博弈論提供的工具集在分析某些戰爭模式時并未得到充分利用。例如,我們指出,使用博弈論分析的海戰論文相對較少。我們還注意到,可以通過應用博弈論來分析新興的戰爭模式,例如馬賽克戰。因此,本次審查可能會導致更多的博弈論方法來模擬這種戰爭模式。此外,我們強調了該領域內的引文網絡非常稀疏:也就是說,在國防應用中使用博弈論的各種研究人員之間的思想交流是很少見的。這篇綜述可能會成為該領域研究者之間合作和相互交流的催化劑。然而,最重要的是,這篇評論旨在向迄今為止尚未使用博弈論的國防科學家強調博弈論在國防應用中的效用,因此將為國防科學家引入一套新的工具,他們可以將其應用于他們的研究.
隨著世界應對和平與穩定面臨的新挑戰,人類的未來取決于我們和平解決問題的能力。雖然這是一個崇高的目標,但權力的投射絕對比實際的武裝沖突要好,后者在許多層面上都會付出很高的代價,博弈論確實可以在決定一些可能發生的“軟沖突”中發揮作用在未來幾年和幾十年里。隨著未來幾年對國防戰略和能力的關注可能會增加,博弈論可以作為一種額外的工具,國防科學家可以在許多抽象層次上使用它來解決部署、感知、跟蹤和資源分配問題。
這項研究是由澳大利亞國防科學技術集團資助的。
略
強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。
強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:
論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。
第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。
第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。
第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。
總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。