在這篇論文中,我們研究了博弈論在確定各種基礎設施保護策略的應用。博弈模型是在防御者和對手之間進行的。防御者尋求最小化對基礎設施網絡的損害,而對手的目標則是最大化。本論文分為兩部分。在第一部分,我們考慮資源分配博弈模型,在第二部分,我們研究巡邏和搜索博弈。
在資源分配博弈領域,我們解決了文獻中現有的一些限制。其中一個限制是,這些模型大多假設博弈的參數是確定的,或者遵循一個已知的分布。而在現實中,博弈的某些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。為此,我們研究了目標估值不確定情況下的一次性安全博弈。我們提出了一個模型,在這個模型中,雙方都使用一種穩健的方法來應對目標估值的不確定性。我們表明這個模型的納什均衡是門檻型的,并開發了封閉式的解決方案來描述均衡點的特征。然后,我們將我們的模型應用于向美國10個城市地區分配安全資金的真實案例。
另一個限制是缺乏解決分層決策的模型。保護基礎設施及其用戶免受蓄意攻擊,需要在組織結構中做出戰略和運行決策。盡管通常是分開分析的,但這些決策是相互影響的。為了解決這個問題,我們開發了一個兩階段的博弈模型。在第一階段,玩家做出投資決策,在第二階段,他們決定保衛/攻擊哪些網站。我們區分了在第二階段出現的兩種類型的博弈。最大損害博弈和滲透/騷擾博弈。我們證明,在預算約束下,這個博弈的解決方案是唯一的。事實上,當第二階段的博弈是滲透/騷擾類型時,投資-防御博弈有一個獨特的閉式解,這是非常直觀的。結果顯示,增加對一個目標地點的防御投資會降低防御和攻擊該目標的概率。然而,攻擊投資的增加會增加防守和攻擊該目標的概率。同樣,防御者(攻擊者)投資效率的提高會導致防御者和攻擊者的投資減少(增加)。我們還將提出的模型應用于一個真實的案例。真實數據的結果表明,攻擊者從失敗的攻擊中得到的懲罰是決定防御者的投資和防御概率的最佳分布的重要因素。防御者的第二階段防御決策是對第一階段投資決策的補充。也就是說,在得到很少或零投資的目標地點中,最重要的一個地點在第二階段以相對高的防御概率被覆蓋。此外,隨著攻擊者預算的增加,防御投資從不太重要的站點轉移到更重要的站點。
我們還研究了資源分配模型中的總體性保護選項。總體保護指的是同時保護多個目標的選項,例如,應急響應、邊境安全和情報。大多數帶有總體保護的防御性資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,這可能并不現實,例如,應急反應投資可能只覆蓋某個區域。為了解決這個問題,我們開發了一個新的資源分配模型,以適應針對故意攻擊的通用總體保護。該模型還考慮了多種自然災害類型。我們表明,我們提出的模型是一個凸優化問題,因此可以在多項式時間內求解到最佳狀態。此外,整個國家層面的資源分配問題可以被分解成更小的城市層面的子問題,從而產生一個更有效的算法。數字實驗證明了所提方法的性能。
巡邏和搜索博弈通常是在一個圖上進行的,玩家在一個時間范圍內做出決策。在巡邏博弈中,防御者控制一組巡邏者并指揮他們在圖上行走,以盡量減少對手的攻擊損失,而對手則選擇一個目標和攻擊時間。為了成功地摧毀一個目標地點,對手需要一些準備時間而不被巡邏者打斷。大多數巡邏博弈模型都假設站點的價值是相同的,或者說它們不會隨時間變化。然而,這并不是一個現實的假設。特別是在軟目標的情況下,這些值可能對應于一個地點的占用水平,因此,這樣的值可能是不同的,并可能隨時間變化。我們提出了具有隨時間變化的節點值和基于節點的攻擊時間的新模型。我們使用列生成、列和行生成等算法數值地解決這些模型。我們將這些算法應用于美國一個主要城市的城市鐵路網的真實案例。結果顯示了所提出的解決方法的效率。他們還證明了額外的巡邏員的回報率是遞減的。
在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,使目標函數得到優化。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。我們表明,在某些條件下,該博弈有一個封閉式的納什均衡。對于一般情況,我們開發了一種基于列和行生成的算法。我們表明搜索者的子問題是NP-hard的,并提出了一個分支和價格算法來解決它。我們還提出了一個用于Hider子問題的多項式時間算法。數值實驗研究了該方法的性能,并揭示了對該博弈特性的洞察力。
恐怖襲擊是對國民經濟和生活質量的一個嚴重關切。每年都有成千上萬的人因為這些襲擊而喪生或受傷或被綁架。2015年,全世界共發生11774起恐怖襲擊事件,造成28300多人死亡,35300多人受傷。此外,有超過12,100人被綁架或劫持為人質[22]。恐怖主義的持續威脅帶來的心理影響也是相當大的。這類事件在社會上造成了恐懼、驚慌、焦慮和苦惱。
保護關鍵基礎設施不受恐怖主義侵害是國土安全的首要任務之一[104]。對關鍵基礎設施的物理保護可以防止成功實施高影響力的恐怖襲擊。此外,對針對關鍵基礎設施的恐怖襲擊作出即時反應,可以防止與此類襲擊相關的連帶效應。
這些原因以及在過去幾十年中發生的許多引人注目的恐怖襲擊,突出了此類基礎設施的安全建模和分析是一個主要的研究議程。通過評估與基礎設施內每個站點相關的風險、緩解計劃以及設計保護戰略和響應政策,可以大大減少攻擊的后果。基礎設施安全最近成為研究人員越來越感興趣的主題。人們提出了不同的方法來模擬安全問題中的戰略互動,這些方法包括系統分析[115]、數學建模[51]、概率風險分析[33, 39, 73, 100, 115, 116],以及對抗性風險分析[123]。然而,由于恐怖分子的攻擊可能是戰略性的,對這種攻擊的博弈論分析會產生更真實的結果。因此,最近的研究集中在開發博弈論模型來捕捉恐怖主義風險,并將結果應用于加強安全措施。其中一個模型ARMOR[112, 113, 114, 118]已被部署在洛杉磯國際機場(LAX)以加強機場的安全。
這項研究的重點是博弈論的應用,為各種基礎設施尋找最佳保護策略,以抵御蓄意攻擊。這項工作可以分為兩部分:資源分配模型,以及巡邏和搜索博弈模型。
為防止蓄意攻擊而進行的資源分配通常是昂貴的,決定如何分配資源以保護關鍵基礎設施是一個困難的問題。許多因素會影響這種分配政策,例如,在實踐中,公平在確定防御分配方面起著重要作用[129]。此外,創造一種平衡以保護不同類型的威脅(例如,生物攻擊與炸彈攻擊,或恐怖主義與非恐怖主義預防活動之間)是另一個因素。其中一些因素已經在靜態安全博弈的文獻中得到了解決。然而,仍然有一些限制。例如,大多數基礎設施安全博弈假設博弈的參數是確定的或遵循一個已知的分布。而在現實中,博弈的一些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。在這項研究中,我們建立了具有和不具有私人信息的不完全信息基礎設施安全博弈的穩健無分布模型。此外,決策的層次性在文獻中經常被忽略。然而,分配資源以保護關鍵的基礎設施涉及到組織結構中不同層次的決策:戰略和運行決策。這些決策相互影響,需要同時進行研究。在這項研究中,我們開發了兩階段的博弈模型來解決這個問題。此外,大多數現有的帶有總體保護選項的資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,在現實中,可能有許多總體保護方案,而每個方案可能只覆蓋一個子集的目標。為了解決這個問題,我們開發了一個新的資源分配模型,該模型具有通用的總體保護選項。我們還開發了高效的分解算法來尋找最佳的資源分配。
巡邏和搜索博弈通常是在一個圖形上進行的,玩家在一個時間范圍內做出決定。設計巡邏隊來保護開放的大眾運輸系統和其他軟目標帶來了獨特的挑戰,這些挑戰在巡邏博弈的文獻中還沒有被解決。其中一個挑戰是這些系統內人群規模的動態性質。因為對手的主要目標是造成人員傷亡,所以節點的價值取決于居住在這些節點的人數。這些數字隨著時間的推移而變化,恐怖分子往往根據這些變化來確定他們的攻擊時間[68]。其他挑戰包括處理多個攻擊者,適應人力資源的限制,以及開發有效的方法來設計一般網絡的巡邏。我們通過開發具有動態變化的節點值、基于節點的攻擊時間、多個巡邏員和多個攻擊者的新模型來應對這些挑戰。為了有效地解決這些模型,我們開發了先進的解決算法,如列生成,以及列和行生成。在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,從而使目標函數得到優化。大多數搜索博弈模型都假定隱藏地點是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。
本研究考慮的主要問題是確定針對故意破壞(如恐怖襲擊)的最佳保護策略。因為對手的決策也是有策略的,所以對這些問題的博弈論分析會產生更現實的結果。本研究中考慮的博弈模型是在防御者(她)和對手(他)之間進行的。防御者想要最小化對基礎設施網絡的損害,而對手則想要最大化。這些模型可以分為兩類:資源分配博弈,以及巡邏和搜索博弈。在資源分配模型中,有一個N個目標的集合。每個目標i都有一個Ci的值。防守方決定防守哪個目標,而對抗方決定攻擊哪個目標。如果雙方都選擇相同的目標i,那么以δi的概率,攻擊將被檢測并挫敗。這個概率被稱為檢測概率。以下矩陣的(i, j)部分顯示了如果防御者選擇目標i,而對手選擇目標j的預期損害。注意,這個矩陣對應于對手的報酬矩陣,對手試圖使預期損害最大化。
我們的目標是在各種條件下,如博弈參數的不確定性和私人信息的存在,以閉合形式描述納什均衡(NE)的特征。
我們在這篇論文中討論的另一個問題是決策的層次性。保護基礎設施及其用戶不受破壞,需要在一個組織的層次結構中做出戰略和運行決策(見圖1.1)。戰略決策是具有長期影響的長期決策。例如,對目標站點進行 "加固"[17]以減少攻擊的成功概率的投資決策被歸類為戰略決策。這包括對新技術的投資,以加強網站的安全性。另一方面,運行決策是與日常運作有關的短期決策,如巡邏、分配第一反應者和安排車輛檢查站。請注意,"戰略 "這個詞也可以用來描述參與者。在這種情況下,"戰略玩家 "指的是一個理性的玩家,其目標是最大化回報。因此,在本論文中,"戰略決策 "是指具有長期影響的長期決策,"戰略參與者 "是指以報酬最大化為目標的理性參與者。大多數研究只關注純粹的戰略決策[63, 107]或純粹的運行決策[16, 35, 36, 38]。然而,這些決策是相互影響的。例如,在某一區域安裝閉路電視攝像機可能會使該區域的巡邏變得不必要。或者將金屬探測器和安檢系統分配給目標地點,可能會影響到這些目標中巡邏隊的最佳調度。此外,投資一項新技術以加強某個目標地點的安全,可能會降低其目標的吸引力,影響保衛該目標的最佳概率。因此,在同一個模型中考慮戰略和行動決策會產生一個更全面的分析。
圖1.1: 戰略決策與運行決策
我們研究了在考慮到人為和自然災害的資源分配模型中總體保護方案的影響。總體保護方案是指可以同時保護多個目標的替代方案。例如,對邊境安全和情報工作的投資有望保護多個目標免受恐怖主義的威脅。這一領域現有文獻的局限性在于,大多數現有的模型只考慮了保護所有目標的單一總體性保護方案。然而,這可能不是對現實的準確表述。例如,對邊境安全的投資可以分為不同的入境點,每一個入境點預計都會使離該特定入境點較近的地區受益。為此,一個新的資源分配模型,容納多個保護目標子集的總體保護措施,將導致一個更現實的分析。
本研究中調查的巡邏博弈G是一個由防御者和對手在連接圖Q = (N , E)上進行的零和博弈,節點集為N,邊集為E,時間跨度為T。防御者控制著一組安全人員(巡邏者)S,并指示他們在圖上行走,以盡量減少來自對手的攻擊的損害。而敵方控制著一組攻擊者A,并為每個攻擊者選擇一個節點和一個攻擊時間。為了成功地摧毀一個目標站點,攻擊者需要在目標上有一定數量的時間單位,不被任何巡邏者打斷。巡邏博弈文獻中的大多數論文都假設對手選擇一個目標進行攻擊,目標值在一段時間內是固定的,有些甚至假設所有目標是不可區分的,即它們都有相同的價值。然而,在許多現實情況下,情況并非如此。例如,在一個交通設施中,每個地點的人數、占用水平可以被認為是該地點的價值。此外,占用水平可能隨時間變化,預計在高峰期,占用水平會比正常時間高。因此,一個具有隨時間變化的節點價值、特定節點的攻擊時間、多個巡邏者和多個攻擊者的巡邏博弈模型將導致與現實更加一致的結果。
本研究中考慮的搜索博弈是在搜索者和隱藏者之間進行的。搜索者控制一組S個搜索隊,隱藏者控制一組H個要隱藏的對象。博弈是在一個完整的圖Q = (N , E)上進行的,其中N = {0, 1, 2, . ,N}是圖中節點的集合,E = {(i, j) : i, j∈N, i 6 = j}是邊的集合。文獻中的大多數搜索博弈模型都假設藏身之處是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏身之處相互區分開來,其目標是優化加權搜索時間。例如,在某些攻擊中(生物或化學),傷亡率取決于人口密度、環境條件等因素。因此,不同的地點可能有不同的傷亡率,而整體的損失將與暴露時間和傷亡率成正比。另一個例子是通過通信渠道檢測竊聽者的問題[37]。不同的信道可能有不同的傳輸能力,對網絡的破壞率將與檢測時間和信道的容量成正比。此外,藏匿地點可能分散在大片區域,搜索可能涉及多個搜索小組。為此,一個新的搜索博弈,容納了不同地點的不同權重,將導致一個更現實的分析。
在這項研究中,提出了新的博弈論模型,以解決資源分配博弈、巡邏和搜索博弈領域中的一些現有差距。在資源分配博弈領域,主要貢獻是:擴展現有模型以處理分層決策;引入廣義的總體保護方案;用穩健的方法解決參數的不確定性;開發適合于更有效算法的新模型。在巡邏和搜索博弈領域,我們的主要貢獻是:納入了與時間相關的節點值,以及多個巡邏者和多個攻擊點;并引入新的和更有效的算法來解決博弈論模型。
在接下來的章節中,我們將介紹我們的主要貢獻,如下所述。
1.我們開發了一種穩健的方法來應對安全博弈中的參數不確定性,并在第二章提供了閉合形式的NE策略。
2.為了解決防范蓄意攻擊的決策的層次性問題,在第三章中,我們引入了一個兩階段的投資-防御博弈模型,并推導出某些條件下的閉合形式的NE策略。這個模型抓住了戰略投資決策和運行攻擊/防御決策的綜合效應。
3.在第四章中,我們提出了一個新的資源分配模型,用于保護資產免受人為和自然災害的影響,并具有廣義的總體保護。這個模型被證明導致了一個可分解的凸優化問題,因此可以被有效解決。
4.在第五章和第六章中,我們介紹了新的巡邏博弈模型,該模型具有與時間相關的節點值,基于節點的攻擊時間,多個巡邏者和多個攻擊點;并開發了高效的解決方法,基于列生成,以及列和行生成來解決現實的大小問題。
5.我們在第七章中介紹了一個新的搜索博弈模型,該模型具有不同的節點權重、多個搜索隊、多個隱藏對象和分散的隱藏地點;并在第七章中介紹了基于列和行生成的高效求解方法,以解決現實的大小模型。
6.我們在第八章中提出了本研究的結論并討論了未來的研究思路
本論文提出的問題是:"我們能否設計出既有效又高效的審計策略來防御現代信息系統中的數據濫用?"。
幾十年來,計算和存儲技術的不斷進步一直激勵著人類和我們日常生活的數字化。這種現象深刻地改變了信息交流、決策、以及人們思考和創新的方式。由于對提高信息交流效率和保證信息準確性和完整性的卓越能力的共同信念,許多現代信息系統已經出現,通過收集、存儲和處理人類產生的數據為人類社會提供關鍵服務。電子病歷(EHR)系統是這些重大創新之一(見圖1.1a的例子),它能帶來許多好處,包括臨床人員和病人之間的有效溝通[1, 2],通過隨時訪問提高護理效率[3],以及減少醫療錯誤[4, 5]。金融管理信息系統(見圖1.1b為例)是另一個顯著的模式,它能實現可靠的交易服務、高效的財富管理和持續的服務提供[6]。這些系統不僅加快了人類活動的步伐,而且還重塑了日常生活的性質。
(a) Epic EHR系統的一個示例界面,顯示一個假的病人。
(b) Mifos銀行系統的一個示例界面,顯示一個假的客戶。
圖1.1: 激發本論文研究的具體領域,也是直接影響本論文研究的具體領域。
同時,不幸的是,由于這些關鍵任務的信息系統在促進人類社會方面發揮的重要作用,以及它們所擁有的數據的巨大價值,攻擊從未缺席[7, 8, 9]。雖然攻擊會導致一系列的后果,從中斷信息系統的持續運行到破壞數據的完整性,但它們的最終目標往往匯聚到對個人隱私的侵犯。2015年,美國最大的醫療保險供應商之一Anthem的醫療數據泄露事件創造了美國歷史上數據泄露的新紀錄[10],通過對其數據服務器的犯罪黑客攻擊,影響了超過7880萬人。2017年,在針對頂級信用報告機構Equifax的攻擊中,約1.45億美國人的個人身份數據被泄露[11]。盡管大量守護安全和隱私的人工和自動篩查策略(或組合)被不斷開發和部署,但針對信息系統及其所持有的敏感數據的成功攻擊不斷登上頭條。因此,人們普遍認識到,沒有一個系統是不受攻擊的,也沒有一個系統是不受損害的,尤其是面對那些不斷適應、不斷發展、不斷改進其方式以破壞保護措施和掩蓋其真實目的的攻擊。
一個廣泛使用的防御信息系統中數據濫用的解決方案是創建并分析系統審計日志[12, 13, 14, 15]。這個簡單的想法已經被實踐了很久,并被用來支持信息系統管理的多個目標[16, 17, 18, 19],包括在系統安全和數據隱私方面的合規性和問責制[20, 21, 22, 23]。審計日志的結構可以是異質的,但是它們通常按照 "誰在什么時間點進行了什么活動,導致了什么系統狀態 "的思路來記錄系統的事件細節[20, 21, 24]。這種機制很有價值,因為它使管理員能夠對可疑事件進行回顧性調查,這樣,在被審計時,真正的攻擊可以在造成更大損失之前被識別和阻止。更進一步的是,為了審計方便,可疑事件通常根據其特征被映射到預定義的語義類型中,每個類型都對應著不同的惡意情況[25, 26]。這些語義類型可以有多種形式,并擅長于篩選不同的威脅。例如,基于規則的機制可以很容易地挑出存儲在系統中的非常重要的人(VIP)的記錄的訪問活動,而機器學習檢測模型可以準確地找出顯示出異常系統訪問模式的惡意賬戶。然后,檢測到的可疑事件及其相應的類型會作為警報提交給系統管理員(或審計師)進行審計,這為提前制定有效的審計策略增加了復雜性。
然而,由于審計師在現實世界領域中可能面臨的幾個明顯的挑戰,審計在實踐中是非同小可的。首先,通常的情況是,審計工作量大大超出了審計的可用資源(例如,安全管理員或隱私官員的時間)[27, 28, 29]。第二,由于缺乏精確定義惡意行為的能力,導致假陽性率很高,使得審計效率低下[30, 31, 32]。第三,人類攻擊者通常根據他們的知識和對系統運行的觀察采取戰略性的行動,以減少被審計師發現的概率,這使得固定的審計模式變得脆弱[33, 34, 35]。例如,攻擊者可以通過操縱他們的攻擊行為,輕易地繞過基于警報類型重要性的審計策略或訓練有素的機器學習異常點檢測工具。第四,與需要保護的目標固定為防御者和攻擊者的先驗知識的情況相比(如機場航站樓巡邏),數據濫用審計中需要調查的對象(即警報)在一個審計周期(如一天)開始之前是未知的。
從本質上講,數據濫用審計是一項尋求將有限的調查資源分配給對抗性環境中的大量警報的任務。不幸的是,幾乎所有以前的作品在推導其策略時都未能基于審計的這一基本特征進行開發。然而,本論文將審計師和攻擊者之間的互動建模為領導者-追隨者博弈,即審計師(防御者)首先承諾采取隨機審計策略,然后攻擊者根據其觀察結果以某種目標或類型的攻擊作為回應,同時試圖將被發現的可能性降到最低。事實上,這種建模架構下的審計方案通過戰略隨機化將不確定性納入空間,并沿著現實的激勵機制擴大參與者的利益最大化,與其他方案相比,表現出固有的優勢。沿著這個建模方向,在本論文中,我們探討了各種智能審計機制設計可以實現的潛力,以提高防御的效率,甚至對數據泄露的威懾。
圖1.2總結了本論文的高層次目標和相關的具體博弈建模策略。基本上,本論文從兩個不同的角度考慮設計審計機制:離線優先和在線信號(或在線警告)。在這里,我們用離線和在線這兩個詞來表示在實時數據訪問過程中,審計人員和數據用戶之間是否通過任何審計機制進行互動。特別是,我們通過回答審計師和攻擊者之間的對抗性環境的兩個問題來展開調查。1)是否有可能以一種智能的方式對警報進行優先排序,從而使審計師能夠從這種隨機的順序中獲得最大的利益,以及2)審計機制能否以一種實時的方式運作,從而使正在發起攻擊的攻擊者在成功之前被阻止。第一個觀點源于這樣的觀察:在實踐中,系統管理員或隱私官員傾向于關注極少數符合他們最大利益的警報類型的調查(或者等同于,在他們的重要性排名中最重要的警報類型)。因此,由于預算的限制,其余的很少被觸及,這為攻擊者提供了免費的午餐。除了完全脫機進行審計外,第二個觀點是探索將參與者之間的信息交流實時化(例如,當用戶請求敏感數據時),以影響攻擊者的策略選擇,甚至阻止攻擊者。雖然我們的貢獻可以應用于一般的信息服務,但在這篇論文中,我們依靠一個有代表性的用例--EHR的濫用審計來使我們的調查有一個背景,即醫療機構(HCO)的雇員(或EHR用戶)可以通過非法訪問濫用病人的數據并侵犯病人的隱私。
更具體地說,為了回答第一個問題(對應于圖1.2中的目標1),我們通過同時考慮兩個維度,建立了一個新穎的博弈論審計框架原型。1)如何確定被觸發的警報的優先順序;2)為每個警報類型分配多少預算(例如,人力資本或貨幣預算)的上限是什么。在這個博弈中,審計師就警報類型的順序和確定的預算分配策略選擇一個隨機的審計政策,而潛在的攻擊者選擇他們的記錄(如EHR)來實施攻擊作為他們的回應。我們表明,即使是該問題的高度限制版本也是NP-Hard。盡管如此,我們提出了一系列解決這些問題的算法方法,這些方法利用線性編程和列生成的組合,計算出一個近乎最優的隨機策略,以確定警報類別的優先次序。使用一個合成的數據集,在這個數據集上得出精確的解決方案是可行的,我們首先證明了我們的方法在接近最優解決方案方面的有效性,并在效率上有了極大的提高。然后,我們用1)范德比爾特大學醫療中心(VUMC)超過1.5個月的審計日志來測試整個框架的有效性,這是美國一個主要的學術醫療中心,我們分配了一個可信的回報結構,明確表示攻擊者被抓或不被抓時玩家的收益和損失;2)一個公開的信用卡應用數據集。一組廣泛的實驗結果表明,我們的方法總是優于最先進的審計策略(忽略了博弈論),無論組織的預算如何。這項調查提供了強有力的證據,證明博弈論輔助的審計可以通過在對抗性環境中優化策略選擇而有利于審計師。這已經作為同行評議的會議論文[36]和期刊論文[37]發表。
圖1.2:本論文的三個主要部分的圖形總結。
第二個研究問題旨在將對抗性建模的好處擴展到實時。具體來說,我們開發了一個概念--在線信號,并將其納入審計博弈。在高層次上,在線信號的功能如下:每當一個可疑的事件開始時(例如,請求訪問病人的記錄,系統配置文件等),系統可以實時警告提出請求的用戶(例如,通過一個有一定概率優化的彈出窗口)"這個事件可能被審計"。然后,用戶可以選擇停止(如果他們是內部人員,從而被阻止)或繼續進行當前的行動。然后,在一段時間后,這些收到信號的事件的一個子集被審計。因此,通過信號傳遞實現威懾力的最大化將我們引向一個在線優化問題,我們必須確定:1)是否應該發出警告;2)該事件被審計的可能性。
作為本論文的第二個研究目標(如圖1.2所示),我們將這個審計問題原型化和形式化為信號審計博弈(SAG),作為初始步驟,我們對審計者和攻擊者之間的互動,以及被部署時的可用性成本(即阻止正常系統用戶的現象)進行建模。我們將審計師的最優方案稱為在線斯塔克伯格信號政策(OSSP),并在理論上證明,OSSP永遠不會比在沒有信號的博弈中取得的最優方案差。我們用來自VUMC的1000萬份EHR訪問事件--包含26000多份警報--進行了一系列實驗,以說明SAG的潛力和其與現有方法相比的優勢的一致性。這已作為同行評議的會議論文發表[38]。
雖然基于信號的在線審計利用了審計師的信息優勢,有可能勝過非信號策略,但由于幾個關鍵的缺陷,SAG在實踐中表現不佳。首先,SAG假設所有攻擊者都有相同的目標,因此他們對攻擊目標的偏好是相同的。他們的偏好由攻擊被抓住或沒有被抓住時雙方的獎勵和懲罰來表示。然而,在現實中,攻擊者破壞系統或敏感數據的動機有很大不同。例如,一個HCO的員工出于好奇偷看了一個VIP的EHR,可能比一個在黑市上出售相同記錄(然后實施身份盜竊)的員工更不需要擔心。第二,按照安全博弈建模的標準假設,SAG假設攻擊者總是以無誤的效用最大化的理性行事。然而,這是一個不合理的強勢假設,因為現實世界的攻擊者可能沒有時間、精力或知識來進行準確的效用計算來選擇策略。而且經驗表明,面對現實世界的攻擊者,博弈建模中的這種假設會給審計師帶來過大的損失[39],因為審計師可以對那些他們認為攻擊者不可能攻擊的目標保護不足。
本論文的第三個目的(如圖1.2所示)是通過解決它們的上述缺陷使在線信令審計機制變得穩健。我們引入了一個新的審計框架,我們稱之為魯棒貝葉斯SAG。首先,我們通過對SAG進行貝葉斯式的擴展,在審計環境中對多個攻擊者類型進行建模,其中審計者在選擇其審計策略時考慮了參與者的回報和偏好的不確定性。然后,由此產生的問題可以通過一個緊湊的表述來解決。第二,為了模擬現實世界中攻擊者的不完全理性,我們探索了穩健優化中的兩種不同類型的方法。1)約束攻擊者的策略選擇與他們的最優策略的最壞情況下的偏差,以及2)約束攻擊者的偏差對審計師損失的影響。我們將每種類型的約束納入實時解決穩健貝葉斯SAG的算法中,并為每種約束建立了相應的解決概念。我們研究了這些解決方案的理論屬性以及它們之間的關系。令人驚訝的是,這兩種算法,雖然視角完全不同,但在某些情況下可以導致等價,并表現出魯棒性的一致性。為了評估穩健貝葉斯SAG的性能,我們構建了兩個環境。1)與VUMC超過1000萬次真實EHR訪問的審計日志相關的真實環境(與目標2中的評估數據集相同);2)從真實數據中得到的模擬控制環境,這使我們能夠模擬攻擊者關于其理性程度的行為。我們特別評估了我們的解決方案和最先進的審計方法在不同條件下的預期效用,以證明新的審計解決方案的價值和其可擴展性。這已經提交給一個會議進行審查。
本論文的其余部分組織如下。第二章調查了相關工作。之后,我們通過將相應的問題形式化為特定的博弈論模型,推導出它們的解決方案,然后使用真實和模擬的數據集進行評估,對上述每個目標進行擴展。具體來說,在第三章中,我們將預警優先級的博弈形式化,并推導出其解決算法,以改善離線數據濫用審計。在第四章中,我們介紹了在線信號的概念,以及由此產生的模型-SAG,然后是解決方案的理論屬性和性能評估。第五章提出了考慮到多種攻擊者類型和他們在選擇策略時的不完全理性的SAG的強大框架。在第六章中,我們總結了我們的貢獻并討論了未來的工作,從而結束了論文。
自從十年前發現針對機器學習模型的對抗性攻擊以來,對抗性機器學習的研究已經迅速演變為一場永恒的戰爭,捍衛者尋求提高ML模型對對抗性攻擊的魯棒性,而對手則尋求開發能夠削弱或擊敗這些防御的更好攻擊。然而,這個領域幾乎沒有得到ML從業者的支持,他們既不關心這些攻擊對他們在現實世界中的系統的影響,也不愿意犧牲他們模型的準確性來追求對這些攻擊的魯棒性。
在本文中,我們旨在設計和實現Ares,這是一個對抗性ML的評估框架,允許研究人員在一個現實的兵棋推演環境中探索攻擊和防衛。Ares將攻擊者和防御者之間的沖突設定為強化學習環境中目標相反的兩個Agent。這允許引入系統級的評估指標,如失敗的時間和評估復雜的策略,如移動目標防御。我們提供了我們初步探索的結果,涉及一個白盒攻擊者對一個經過對抗性訓練的防御者。
人工智能系統的大規模采用,促使人們重新審視人工智能算法的可靠性、隱私性和安全性。在安全性方面,人們很早就發現,基于圖像的人工智能算法很容易受到一類對抗性規避攻擊[1],[2]。在這種攻擊中,對手會引入人眼無法察覺的少量噪聲,以便在推理過程中可靠地誘發錯誤分類。自其發現以來,大量的研究提出了許多經驗性的防御策略,如改造模型的輸入[3],修改神經網絡結構[4],以及在另一個訓練數據集上訓練網絡[5]。盡管有大量的工作,無論是開發新的對抗性攻擊還是提出新的防御措施,包括強大的物理世界攻擊[6],對抗性威脅模型對ML從業者來說仍然沒有動力。在一項小型的行業調查中,Kumar等人[7]發現,雖然大多數被調查的組織都知道對抗性樣本,但他們說 "對抗性ML是未來的",并且缺乏研究和緩解這種攻擊的工具。
我們認為,有兩個關鍵問題阻礙了人們接受對抗性規避攻擊作為一種威脅:(1)大多數先前的工作所使用的非激勵性威脅模型;(2)缺乏評估復雜的對抗性攻擊者和防御者互動的工具。遵循Kerckhoffs原則,對抗性攻擊和防御的研究主要采用白盒威脅模型,即對網絡和防御參數的完全了解。在這種視角下,許多提議的防御措施被證明是無效的,因為擁有完美知識的攻擊者可以適應防御[8]。然而,這樣一個強大的威脅模型只能由具有內部訪問AI算法和訓練數據的攻擊者復制。在真實的部署場景中,一個組織主要關注的是其人工智能系統對外部攻擊者的安全性。
盡管沒有認識到對抗性ML是一種威脅,但對抗性攻擊庫已經興起,使ML從業者能夠研究目前最先進的攻擊和防御算法。一些例子包括多倫多大學的CleverHans[9],麻省理工學院的魯棒性包[10],圖賓根大學的Foolbox[11],以及IBM的對抗性魯棒性工具箱(ART)[12]。每個庫都定義了一個統一的框架,從業者可以通過它來評估使用自己的人工智能系統的攻擊或防御的有效性。不幸的是,這種評估在本質上是有限的,因為評估的威脅模型受到攻擊算法的限制。此外,攻擊者和防御者都被認為是靜態的。他們不會根據對方的行動來修改自己的行為,因此,報告的有效性是誤導性的,不能轉化為現實世界中的有意義的有效性概念。
在本文中,我們描述了一個新的評估框架--Ares,它將對抗性攻擊場景表現為攻擊者和防御者之間復雜的、動態的互動。我們將攻擊者和防御者之間的沖突作為強化學習(RL)環境中的兩個獨立Agent來探索,其目標是對立的,為對抗性ML評估創造了一個更豐富、更真實的環境。通過利用這種RL環境,我們能夠將攻擊者或防御者的策略(RL策略)調整為靜態的、隨機的、甚至是可學習的。Ares還允許調查白盒和黑盒威脅模型,從先前評估的局限性中汲取靈感。
作為其首次亮相,我們使用Ares重新審查了白盒場景下的集合/移動目標防御(MTD)框架的安全性,并強調了這種設置的脆弱性。使用自然訓練和對抗性訓練模型的不同組合,Ares評估發現,一般來說,攻擊者總是獲勝,對抗性訓練只能稍微延遲攻擊者的成功。正如之前的工作所討論的,攻擊者的成功主要是由于對抗性例子的可轉移性[2]。我們通過Ares的視角對這一現象進行了更深入的調查,發現網絡之間共享的損失梯度,無論訓練方法或模型架構如何,都是罪魁禍首。然后,我們討論了如何根據這一發現改進MTD,以及我們下一步如何通過Ares在黑盒威脅模型中評估MTD和其他先前的工作。
在本文中,我們做出了以下貢獻:
我們開發了Ares,一個基于RL的對抗性ML的評估框架,允許研究人員在系統層面上探索攻擊/防御策略。
利用Ares,我們重新審查了白盒威脅模型下的集合/移動目標防御策略,并表明這種失敗的根本原因是由于網絡之間的共享損失梯度。
Ares框架在// github.com/Ethos-lab/ares上公開提供,我們將繼續開發更多的功能和改進。
無人駕駛飛行器(UAV)已經成為整個航空航天應用中突出的飛機設計,包括商業、民用和軍用。由于無人機與有人駕駛飛機相比具有獨特的能力,因此在一些任務和應用中,無人機是首選。這篇論文的目的是更好地理解應用于無人機的飛機生存能力的概念和建模。傳統上,生存能力作為一個領域,主要是在有人駕駛的飛機和單機的背景下定義和考慮生存能力。隨著在多無人機作戰場景中的重要性不斷增加,了解單個無人機和無人機群的飛機生存能力變得越來越重要。
這項研究工作被分為三個研究問題,確定了在生存能力建模、驗證和無人機飛機設計方面的貢獻。
研究問題1試圖證明無人機生存能力參數化模型的可行性。其結果是一個無人機生存能力模型和模擬,它說明了無人機生存能力中的關鍵權衡。生存能力對無人機設計特性(速度、翼面積、阻力和升力系數)的影響被量化,具體采用詳細的致命包絡模擬方法。
研究問題2旨在驗證和確認無人機的生存能力模擬,提供生存能力模擬結果預測能力的證據。通過與以前的建模工作進行比較,通過征求專家意見,以及通過參數變異性和敏感性分析,提出驗證和確認的證據。
最后,研究問題3試圖將模擬結果應用于多無人機戰術評估和單機設計。結果說明了通過無人機設計可以實現的改進能力,包括裝甲(通過1000公斤的裝甲實現25%的生存能力改進),速度增加(巡航速度增加100英里/小時實現14%的殺傷力下降),以及其他相關設計變量。結果還表明,多無人機戰術可以提高無人機在戰斗中的生存能力。忠誠的僚機戰術被模擬為將C-130J(相當于無人機)的生存能力從19.8%提高到40.0%。其他單一的無人機戰術,如燃料傾倒、后燃器等,也在同一框架下評估其相對有效性。
本論文通過提出一種飛機生存能力評估方法,將生存能力與現代無人機應用、新出現的威脅、多無人機戰術和無人機設計聯系起來,回答了上述研究問題。考慮并模擬了飛機在遇到現代無人機對抗措施時的生存能力。對無人機的性能指標進行了建模和模擬,以描述對提高飛機生存能力敏感的飛機設計參數。通過從現代多無人機戰術角度評估飛機的生存能力,本研究試圖為無人機設計師提供更完整的生存能力衍生設計標準的視野。
自主機器人團隊組成中的異質性什么時候是有益的,什么時候是有害的?我們在一個最小可行的模型中研究并回答了這個問題,該模型研究了異質速度在周界防御問題中的作用,其中防御者共享一個總的速度分配預案。我們考慮了兩種不同的問題背景,并制定了基于動態規劃和局部互動規則的策略。我們對這兩種方法進行了理論分析,并使用模擬方法對我們的結果進行了廣泛的驗證。有趣的是,我們的結果表明,異質團隊的生存能力取決于防御者可用的信息量。此外,我們的結果表明了一個普遍性屬性:在廣泛的問題參數范圍內,防守方的最佳速度比率幾乎保持不變。
關鍵詞:周界防御,異質多機器人團隊,動態規劃
機器人系統的一項日益重要的任務是保衛一個地區免受外部因素的影響,這些因素構成了不同程度的威脅。這方面的例子包括保衛機場,防止無人機入侵[6],保衛野生動物棲息地,防止偷獵者侵入[1],撲滅和防止人類或自然活動造成的破壞性野火蔓延[8],以及軍事應用[13]。
一般來說,周界防御問題的解決方案是為一組限制在某一區域周界的智能體尋找策略,這些智能體受托保衛該區域不受試圖突破該區域周界的入侵者侵害[16]。
與同質化的機器人團隊相比,具有不同能力的機器人團隊(異質化團隊)有其獨特的優勢和挑戰。為不同的智能體配備不同的能力可以形成協同效應,在這種情況下,異質系統勝過由相同智能體組成的同質系統。因此,在過去十年中,機器人界對定義、探索和量化不同機器人應用中的異質性產生了極大的興趣[19,14,11,7,12,10]。
本文研究了多機器人團隊中異質性對周界防御問題的影響。我們提出了兩種最優策略,在不同的假設條件下有效。第一個策略是基于動態規劃(DP)[2]。當防御者能夠預測來襲攻擊的位置時,它是最優的,但受到維度詛咒的影響,因此相關計算成本相對較高。第二種策略是基于局部互動規則的,當防御者沒有關于來襲攻擊的信息時是最佳的。這種策略可以以在線方式高效計算,但沒有提供對攻擊位置的任何先驗知識。
我們證明了兩種策略的最優性并分析了它們的時間復雜性。這些算法在模擬中得到了廣泛的驗證。我們的數值實驗是二維的,但大多數理論結果對任何維度都有效。這包括無人機應用中的三維周界,以及作為任意維度狀態空間中約束集產生的更高維度的周界。
我們的結果表明,異質性在防守方能夠獲得有關來襲攻擊信息的情況下是有益的,而在防守方沒有攻擊信息的情況下是有害的。此外,我們顯示了一個普遍性的屬性,即在兩個防御者的情況下,防御者的最佳速度比率幾乎保持不變。
相關工作:周界防御問題是追擊-規避問題的一個變體,在文獻中已經被廣泛地研究。Issacs的開創性工作描述了微分博弈的方法,以得出一個追求者一個規避者博弈的均衡策略[4]。不同研究人員為解決涉及多個追擊者和規避者的追擊規避博弈各種變體做了大量的工作[20,21,3]。這些論文包含了從追擊者方面、從規避者方面或兩者來看待追擊-逃避博弈的工作。維度的詛咒對解決涉及多個追擊者和規避者的問題構成了相當大的挑戰。本文提出的周界防御問題是Isaacs[4]首次提出的目標守衛問題的一個變體。在目標守衛問題的設定中,一個智能體的任務是對抗一個敵對智能體以守衛一個目標區域。對周界防御問題的研究還處于初級階段。Shishika和Kumar的綜述文章[16]描述了最近關于多機器人周界防御問題的工作[15,5,18,17]。與這些工作中考慮的問題不同,我們考慮的是一類周界防御問題,其中攻擊者的數量遠遠大于防御者的數量。
本文的其余部分組織如下。第2節包含了我們的符號和問題陳述。第3節和第4節分別詳細介紹了我們在非限定和單位時間范圍內的理論結果。第5節討論了模擬結果。
圖1:三個防守者面對三個攻擊者,每個防守者的單位時間可達集顯示。請注意,第三個維度是時間;如果攻擊代表一個物理物體,它是從圓圈外的某個地方接近的,但我們只關心它將在哪里和什么時候擊中周界。在這個例子中,防守者不允許離開周界,所以可達集的大小隨著速度的增加而線性增加(直到它覆蓋整個周界)。
提供了一個(非常)簡短的博弈論介紹。編寫了這些筆記以提供對博弈論一些基礎知識的快速訪問;主要是為那些,假設熟悉博弈論但并不要求它作為先決條件的課程的學生提供幫助。當然,這里討論的材料只是眾所周知的冰山一角,還有很多資料可以提供更完整的主題處理。在這里,介紹了一些最基本的概念,并提供了足夠的討論。
執行非合作博弈論分析的基本要素是(1)根據參與者可用的行動及其作為行動的函數的回報來構建情境,以及(2)使用各種均衡概念來進行描述性或規定性預測。在構建分析框架時,一些問題變得很重要。首先,球員是誰?他們可能是人、公司、組織、政府、族群等等。其次,他們可以采取哪些行動?應列出玩家可能采取的可能影響任何玩家收益的所有行動。第三,互動的時機是什么?行動是同時采取的還是順序采取的?交互是否重復?比賽的順序也很重要。在另一個玩家之后移動可以讓玩家 i 知道其他玩家做了什么;它還可能使玩家 i 在失去時間或采取某些行動的能力方面處于不利地位。不同的玩家在采取行動時有什么信息?第四,互動對不同參與者的回報是什么?確定收益涉及估計所有參與者每組潛在選擇的成本和收益。在許多情況下,估計某些玩家(例如您自己)的收益可能比其他人更容易,并且可能不清楚其他玩家是否也在進行戰略思考。這種考慮表明要仔細注意敏感性分析。
一旦我們確定了情況,我們就可以從不同參與者的角度來分析哪些行動對他們來說是最佳的。我們可以使用各種標準。
Edwin Ho 1, Arvind Rajagopalan 2, Alex Skvortsov 3, Sanjeev Arulampalam 3, Mahendra Piraveenan 1
1 悉尼大學工程學院
2 澳大利亞國防科技 (DST) 集團武器和作戰系統部
3 澳大利亞國防科技 (DST) 集團海事部
本文簡要回顧了使用博弈論對與國防應用相關的決策場景進行建模的文獻。博弈論已被證明是對智能體、實體和玩家的決策過程進行建模的非常有效的工具。它已被用于模擬不同領域的情景,如經濟學、進化生物學和計算機科學。在國防應用中,經常需要對敵對行動者的行動以及試圖躲避或超越對方的玩家進行建模和預測。對競爭者的行動如何影響對方的決策進行建模是博弈論的強項。在過去的幾十年里,有幾項研究應用博弈論的不同分支來模擬一系列與國防有關的情景。本文對這些嘗試進行了有條理的回顧,并從所模擬的戰爭類型、所使用的博弈類型以及所涉及的參與者方面對現有文獻進行了分類。經過仔細挑選,共討論和分類了29篇直接相關的論文。就所模擬的戰爭而言,我們認識到大多數在國防環境中應用博弈論的論文都涉及指揮和控制戰爭,并可進一步分為涉及(i)資源分配戰爭(ii)信息戰爭(iii)武器控制戰爭和(iv)對手監控戰爭的論文。我們還注意到,大多數論文都涉及傳感、跟蹤和大型傳感器網絡,所研究的問題與民用領域的傳感器網絡分析有類似之處。就所使用的游戲而言,我們將審查的論文分為使用非合作或合作游戲、同時或順序游戲、離散或連續游戲以及非零和或零和游戲的論文。同樣地,論文也被分為雙人、三人或多人游戲的論文。我們還探討了玩家的性質和每種情況下的報酬函數的構建。最后,我們還找出了文獻中的空白點,在這些空白點中,博弈論可以被有效地應用于迄今為止尚未用博弈論探索過的場景。所做的分析對博弈論在國防應用中的應用提供了一個簡明的總結,并強調了博弈論在所考慮的情況下的好處和局限性。
關鍵詞: 決策;博弈論;國防科學;地面戰;海戰;空戰;跟蹤;傳感
博弈論已經成為傳統的理論框架之一,用于模擬我們生活中許多方面的重要決策過程。在經濟學、社會科學、金融學、項目管理、計算機科學、公民學和流行病學中都可以找到著名的例子。自從約翰-馮-諾伊曼、約翰-納什等人的開創性工作以來,人們已經充分認識到,在兩方或多方(玩家)之間的復雜互動(游戲)背景下,存在一種最佳策略,可以通向可預測的結果(報酬)。在實際情況下,這種結果往往可以是定量的,可以進行算術運算(成本、感染人數、接種人數等),但往往也可以是定性的(如風險、準備程度、健康狀態等)。
博弈論和相關數學方法的應用最近在國防領域引起了越來越多的關注。這是由兩個驅動因素造成的。首先,博弈論提供了一個自然的框架,通過用量化的術語如報酬、成本、收益或損失、風險等將高層次的政策決定迅速轉化為最佳戰略。這為國防決策者創造了一個統一的平臺,以支持達成一個特定的決定。第二,它提供了一個嚴格的數學框架,用于按照預定的標準評估和優化許多方案。這種迅速的評估往往成為國防作戰背景下的關鍵成功因素,導致在時間壓力下的決策優勢。這也成為國防行動中各種人工智能(AI)能力發展和部署的關鍵步驟。
博弈論在國防領域的應用有著持續和多樣化的歷史,從實時軍事系統的設計(例如,應用于導彈攔截)到支持大型國防投資和收購的戰略決策。關于具體的理論方法和工具及其國防應用有大量的文獻。我們相信,對這些文獻的回顧對于處理作戰分析和數據驅動的決策支持的社區是有意義的。這也是本研究的主要動機。
博弈論通過對形勢的整體和定量分析,加強了軍事戰略和決策過程。對軍隊來說,可用于博弈論分析的潛在情景包括快速增長的自主智能系統的應用,博弈論提供了一個全面的數學框架,大大增強了使用這些系統的人的決策能力。由于其潛力,博弈論的研究正在蓬勃發展,在這個軍事研究領域的文獻中開始出現一些以上的論文。本評論旨在幫助研究人員利用博弈論的知識體系,為國防從業人員開發更智能、更安全的決策系統。鑒于此類研究仍處于萌芽階段,我們通過在現有軍事知識與博弈論提供的新生可能性之間建立聯系,使其成為軍事控制系統中更廣泛理解和考慮的框架。
為了了解博弈論在國防領域應用的最新情況,并分析在這種情況下使用的游戲類型,需要進行回顧。據我們所知,目前還缺乏這樣的回顧,它涵蓋了博弈論在各種軍事領域的不同應用。本文的目標是提出這樣的評論,使人們更好地了解博弈論可以成功應用的眾多國防問題。此外,對不同背景下使用的博弈類型的多維分類,將為研究人員提供在相關問題中應用博弈論的新方法的見解。最后,我們提出了文獻中的空缺,希望能引起更多的研究和開發新的博弈論方法來解決防御問題。
盡管不是太廣泛,但圍繞軍隊中的博弈論的文獻體系已經涵蓋了不同形式的交戰和戰斗的顯著部分。這些論文涵蓋了過去、現在和未來的情況:從潛在敵對情況下的預測策略到對幾千年前軍事對峙的事后分析評估。博弈論已經證明有能力在任何此類軍事場景中發揮作用。然而,快速的技術進步帶來了持續的軍事交戰新領域,其中每一個領域都擁有自己的復雜系統。所涉及的首要領域是追蹤系統(跨越所有領域)、空中戰斗、地面戰斗、國家安全問題、網絡戰爭和空間系統。值得注意的是,博弈論在海軍戰爭中的應用很少,對未來類似領域研究的探索將在后面的評論中討論。在這些領域中,有無數的新的和創新的系統的可能性:不同的代理人,不同的武器,不同的控制結構--這些都可以用博弈論分析來豐富。雖然海伍德(Haywood)和桑霍姆(Thunholm)關于軍事決策中使用的博弈論的論文涵蓋了幾種不同的博弈類型,但似乎還沒有一篇論文涉及到在高性能計算和復雜算法基礎上建立的軍事系統的新背景下,博弈論在各自領域的軍事應用。我們的目標是以這樣一種方式來介紹文獻,即解決博弈論在軍事控制系統中每個關鍵領域的所有功能。
這篇評論經過仔細挑選,詳細參考了總共29篇論文。它強調了每篇分析論文的范圍和效用,從基本的博弈論概念方面介紹了它:玩家、游戲類型、策略和其報酬函數的關鍵參數。它既是一個帶注釋的書目,也是一個理解和規劃該領域進一步研究的框架。它還將列出玩家在每個軍事決策場景中考慮的基本原則,以及這些原則如何影響軍事人員和系統在與敵對玩家競爭或與友好玩家合作時做出的決定。這將使大多數軍事場景有可能被視為游戲,至少可以為熟悉的軍事情況提供一個有趣的新視角。這里審查的29篇論文是由來自國防、學術界和工業界的具有相關背景的專家團隊從Scopus和Google Scholar中挑選出來的,他們可以提供不同的觀點,根據不同的經驗確定最相關的論文。只有用英語寫的論文才被考慮。雖然我們承認沒有進行詳盡的搜索,但據我們所知,這些論文涵蓋了我們在此討論的研究領域的一個重要和有代表性的部分,并充分展示了這一領域的趨勢、重疊和文獻的差距。因此,我們有信心,所提出的分析將在所分析的論文之間進行嚴格的比較,并強調每篇論文的優勢和劣勢,同時也強調利用博弈論來模擬軍事背景下的決策的總體利弊。
本文的其余部分結構如下。第2節將討論我們所回顧的論文所闡述的基本防御原則,并介紹博弈論的基本概念。第3節對文獻進行了調查和分析,并總結了每篇論文中的發現和關聯。第4節根據上一節的觀察,闡述了我們對文獻的多維度分類,同時也介紹了與所回顧的論文相關的引文和其他指標。第5節指出了文獻中的空白,并在此基礎上強調了未來在這一領域的研究機會,特別是在博弈論迄今尚未經常應用的國防研究領域,可以從博弈論的應用中獲益。第6節深入討論了研究結果的實用性和所提交的評論的總體情況。最后,第7節總結了我們的發現和分類,并提供了廣泛的結論。
幾個世紀以來,關于戰爭的意識形態、信仰和知識一直在影響著人類的知識和哲學。孫子、荷馬和馬基雅弗利的偉大作品不僅為軍事決策的本質奠定了知識基礎,而且還為社會學和社會心理學提供了洞察力。軍隊構成了許多文明的核心權力集團,對現有國家的影響力增長和新國家的誕生都很重要。軍隊實時處理沖突,計劃未來,并回顧過去的交戰情況--這些活動中的每一項都會對社會產生影響。因此,本評論有必要涉及多個物理領域的軍事沖突的許多方面,下面將總結每個領域需要做出的主要決定。然而,在所有這些領域中,目標的價值、資源的價值和目標的優先級通常是形成報酬函數和戰略的關鍵參數,而這些參數反過來又定義了我們在建模中使用的游戲。
在本節中,我們將討論國防科學和技術以及博弈論中的概念,這些概念對于理解和分析所提出的細分領域的文獻是必要的。首先,讓我們討論一下本評論中所考慮的國防和國家安全的廣泛領域。如表1所示,它們可以被總結出來。
表 1. 本次綜述中使用的分類系統
如表1所示,在這次審查中,重點主要是 "指揮與控制 "戰爭,在這種戰爭中,決策是至關重要的。然而,指揮與控制戰爭適用于傳統的戰爭領域,如陸戰、海戰和空戰,以及現代戰爭領域,如太空和網絡戰爭。在一個正交的層面上,指揮與控制戰還可以細分為資源分配戰(RAW)、信息戰(IW)、武器控制戰(WCW),以及對手監控戰(AMW)。由于這些概念在我們的文獻分類中被廣泛使用,讓我們先簡單介紹一下。
資源分配戰(RAW):為實現軍事目標而分配軍事資源。
信息戰(IW):操縱信息以實現軍事目標。
武器控制戰(WCW)。控制武器以實現軍事目標。
對方監控戰(AMW)。追蹤敵人的行為以實現軍事目標。
技術是戰爭的決定性力量,而技術對于陸戰來說并不像對于其他領域那樣勢在必行。影響陸戰的技術是相對靜態的,并盡可能避免人力資源的暴露。如今,身體層面的人際戰斗已經不那么普遍了,為更多地關注定位戰略讓路。將博弈論應用于地面戰爭的文獻包括一個強大的武器-目標分配論文庫(涉及現代背景下的武器控制戰和資源分配戰),以及涉及古代地面交戰和游擊戰的論文。在人命脆弱的地方,保護他們是這些游戲中最重要的因素,其次是保護地面資產。
鑒于海軍在全球范圍內投射力量的重要性,關于海戰的公開文獻令人驚訝地少之又少--無論是否應用博弈論。在處理目標追蹤的論文中經常會提到海戰,但關于海軍軍事戰略的討論卻僅限于過時的文獻或對赤裸裸的基本要素的討論。我們將回顧這方面的現有論文,并強調這是一個在文獻中存在相當大差距的領域。
在萊特兄弟發明飛機后不久,空戰就成為戰斗和軍事行動的一個關鍵因素。在一個很少受到障礙物或尺寸阻礙的戰斗媒介中,空戰的性質是快節奏的、直觀的和令人難以置信的險惡,有不可預測的交戰'規則'。在今天,與一個世紀前相比,需要考慮的因素要復雜得多,而且軍事力量在進行空戰時并不缺乏資源--包括人和機器。文獻顯示,由于這種豐富的武器庫,目標和用于交戰的資源的內在和潛在價值在空戰場景中特別重要。在評估作戰策略時,需要對沖突雙方的這些價值做出決定。因此,有幾篇論文討論了博弈論在空戰中的應用。
網絡安全是保護IT系統和網絡不被損壞/破壞/遭受信息盜竊。網絡戰涉及到信息和通信系統被故意攻擊以獲得軍事優勢的概念。盡管幾十年來,網絡安全一直是計算機科學的一個重要領域,但有關網絡戰的文獻卻比較少,而且在任何情況下,都與計算機科學中的博弈論在網絡安全相關領域的應用有很大的重疊。這篇評論介紹并分析了一些專門涉及網絡戰爭的論文。
雖然太空戰的概念已經存在了近一個世紀,但既沒有實際的執行,也沒有建立起一套太空戰的理論策略[31]。然而,這并沒有阻止軍隊追逐星星(字面和形象),并不可避免地導致博弈論的概念被用于太空戰的戰略思維。這目前主要限于衛星網絡,其中游戲的關鍵參數是優化整個網絡的電力使用和信號強度。這個領域仍然相當年輕,在太空的進一步軍事發展似乎是不可避免的,與此相應的處理博弈論在太空戰中的應用的文獻也將增長。
有幾篇論文論述了博弈論在國防領域的具體應用,但卻不能被歸類為分析某類戰爭的論文。在其中一些論文中,重點更多的是放在所使用的技術上:例如,目標追蹤。在另一些論文中,需要進行防御的敵對行為者的性質發生了變化:例如,針對國內恐怖主義威脅而非敵對軍事力量的國家安全行動。有幾篇論文討論了博弈論在這種情況下的應用。
目標追蹤系統。軍事上的目標追蹤是對移動目標的觀察,以及對其位置和動作的監視。這個領域的成功依賴于觀察指標和數據的準確性,以及所有收集到的信息的有效分配和處理。隨著智能目標的出現,軍隊也必須納入預測方法,以保持理想的跟蹤性能。在這方面審查的文獻涵蓋了從跟蹤攻擊導彈到戰區彈道導彈,以及跟蹤未知智能代理到敵機的主題。這一領域中形成博弈的關鍵考慮因素涉及目標是否 "智能"/能否采取規避行動,目標是否會有一個最佳軌跡,以及目標是否會有防御者。博弈論的目標跟蹤應用大多發生在空戰和海戰中,包括水下監視。
國家安全的應用。博弈論經常在國家安全和反恐相關領域找到應用。這包括預測和準備恐怖襲擊,以及保護關鍵人員和地標/其他潛在恐怖活動目標的資源分配方案。雖然潛在目標的價值和攻擊的可能性顯然是制約這一領域博弈回報函數的關鍵參數,但隨后的社會、經濟和政治影響在這一領域的博弈建模中同樣重要。很少有軍事沖突能像后方的沖突那樣被曝光,恐怖襲擊的后果及其對公眾情緒和對安全機構的信心的影響,在建立這一領域的回報函數模型時經常被考慮在內。
博弈論是對戰略決策的研究,最早是作為微觀經濟學的一個分支發展起來的。然而,后來它又被用于不同的研究領域,如進化生物學、社會學、心理學、政治學、項目管理、財務管理和計算機科學。博弈論之所以獲得如此廣泛的適用性,是因為不同學科中普遍存在戰略決策情景。博弈論提供了對特殊行為互動的洞察力,如動物群體內的合作互動、婚姻中的討價還價和交換或蘇格蘭鮭魚養殖者的激勵。一個游戲通常包括兩個或更多的參與者,一組可供這些參與者使用的策略,以及每個參與者相應的一組報酬值(也稱為效用值)(在雙人游戲的情況下通常以報酬矩陣的形式呈現)。
游戲中的純策略提供了玩家如何進行游戲的完整定義。
一個棋手的策略集是該棋手可用的純策略集。混合策略是純策略的組合,其中有一個特定的概率p(0≤p≤1)與這些純策略中的每一個相關聯。由于概率是連續的,所以一個棋手有無限多的混合策略可供選擇。完全混合策略是一種混合策略,在這種策略中,玩家對每個純策略都賦予了嚴格的正概率。因此,任何純策略實際上都是混合策略的退化情況,在這種情況下,選擇該特定策略的概率為1,而選擇其他每個策略的概率為0。
納什均衡的概念是博弈論的基礎。它是戰略博弈中的一種狀態(一組策略),就報酬而言,沒有任何一方有動機單方面偏離這種狀態。純策略和混合策略納什均衡都可以被定義。一個戰略博弈往往可以有一個以上的納什均衡。事實證明,每一個玩家數量有限的博弈中,每個玩家可以從有限多的純策略中進行選擇,至少有一個混合策略的納什均衡。
納什均衡的正式定義如下。假設 (S, f) 是一個有 n 個玩家的博弈,其中 Si 是給定玩家 i 的策略集。因此,由所有參與者的策略集組成的策略配置文件 S 將是,S=S1 × S2 × S3… × Sn。令 f(x)=(f1(x),…,fn(x)) 為策略集 x∈S 的支付函數。假設 xi 是參與者 i 的策略,x?i 是除參與者 i 之外的所有參與者的策略集。因此,當每個玩家 i∈1,…,n 選擇策略 xi 時,策略集 x=(x1,…,xn),給特定玩家的收益 fi(x),這取決于該玩家選擇的策略 (xi) 和其他玩家選擇的策略 (xi-i)。如果任何單個參與者的策略單方面偏差都不會為該特定參與者帶來更高的效用,則策略集 x?∈S 處于納什均衡。正式地說,x? 處于納什均衡當且僅當:
通常情況下,博弈被認為是為了玩家的自身利益而進行的,即使玩家進行合作,那也是因為在他們看來,合作是在這種情況下使玩家的個人收益最大化的最佳策略。在這樣的博弈中,合作行為即使出現,也是由自私的目標驅動的,而且是短暫的。這些博弈可以被稱為 "非合作性博弈"。這些博弈有時被稱為 "競爭性博弈",這是不準確的。非合作博弈論是分析這類博弈的博弈論的一個分支。另一方面,在合作博弈中,有時也被稱為聯盟式博弈,玩家形成聯盟或團體,有時是由于外部對合作行為的強制執行,如果出現競爭,則在這些聯盟之間發生。合作博弈使用合作博弈理論進行分析,該理論預測了哪些聯盟會形成,以及這些聯盟的回報率。合作博弈理論的重點是聯盟之間的剩余或利潤分享,即聯盟由于形成了聯盟而被保證了一定的報酬。通常,在一個系統中進行的合作博弈的結果相當于一個受限的優化過程的結果。
零和博弈是一類競爭性博弈,所有參與者的報酬總額為零。在雙人游戲中,這意味著一個玩家的報酬損失等于另一個玩家的報酬收益。因此,一個雙人零和游戲可以用一個只顯示一個玩家報酬的報酬矩陣來表示。零和博弈可以用最小最大定理來解決,該定理指出,在零和博弈中,有一組策略可以使每個玩家的最大損失最小(或最小報酬最大化)。這種解決方案有時被稱為 "純鞍點"。可以說,股票市場是一個零和游戲。相比之下,大多數有效的經濟交易都是非零和的,因為每一方都認為,它得到的東西(對它自己來說)比它分到的東西更有價值。
在完美信息博弈中,每個玩家都知道所有其他玩家先前行動的全部歷史,以及游戲的初始狀態。在不完全信息博弈中,一些或所有的棋手無法獲得關于其他棋手先前行動的全部信息。
同期博弈是一種正常形式的博弈或廣泛形式的博弈,在每一次迭代中,所有玩家都同時做出決定。因此,每個玩家被迫在不知道其他玩家(在該迭代中)所做決定的情況下做出決定。相反,順序博弈是一種廣泛形式的博弈,在這種博弈中,玩家按照某種預定的順序做出決定(或選擇策略)。例如,如果一方總是有特權提出第一個提議,而其他各方在此之后提出他們的提議或還價,那么談判過程就可以被模擬為一個順序博弈。在順序博弈中,至少有一些玩家在做出自己的決定之前可以觀察到其他玩家的至少一些行動(否則,博弈就變成了同時博弈,即使玩家的行動在時間上并不同時發生)。然而,并不是一定要讓某個棋手可以觀察到之前每個棋手的每一步棋。如果一個棋手可以觀察到每個前一個棋手的每一步棋,這樣的順序博弈就被稱為有 "完全信息"。否則,這個游戲就被稱為 "不完美信息"。
差分游戲通常是廣泛形式的游戲,但不是有離散的決策點,而是在一個連續的時間框架內進行建模。在這種博弈中,每個狀態變量都根據微分方程隨時間連續演化。這種博弈是模擬快速演變的防御場景的理想選擇,在這種情況下,每個參與者都會對某些參數進行自私的優化。例如,在導彈跟蹤問題中,追擊者和目標都試圖控制他們之間的距離,而追擊者不斷試圖最小化這個距離,目標則不斷試圖增加這個距離。在這種情況下,迭代的決策回合對于模擬每個參與者的連續運動和計算來說過于離散。差分游戲是模擬這種情景的理想選擇。
共同利益博弈是另一類非合作博弈,其中存在一個所有玩家都嚴格偏愛的行動方案,而不是其他所有方案。換句話說,在共同利益博弈中,玩家的利益是完全一致的。可以說,共同利益博弈是零和博弈的對立面,在零和博弈中,玩家的利益是完全對立的,所以一個玩家的財富增加必然導致其他人的財富集體減少。共同利益博弈最早是在冷戰政治的背景下被研究的,以了解和規定處理國際關系的策略。因此,把非合作博弈分為共同利益博弈和非共同利益博弈是有意義的,就像把它們分為零和博弈和非零和博弈一樣,因為這兩個概念(零和博弈和共同利益博弈)代表了非合作博弈的極端情況。
信號博弈是一種不完全信息博弈,其中一個玩家擁有完全信息,而另一個則沒有。擁有完全信息的一方(發送方S)通過信號向另一方(接收方R)傳遞信息,而另一方在推斷出隱藏在信息中的信息后將對這些信號采取行動。發送者S有幾種潛在的類型,其中確切的類型t在游戲中對接收者R來說是未知的,t決定了S的報酬,R只有一種類型,這種報酬對雙方都是已知的。
該游戲分為發送階段和行動階段。S將發送M={m1,m2,m3,...,mj}中的一個信息。R將收到該信息,并從A={a1,a2,a3,...,ak}集合中選擇一個行動作為回應。每個玩家收到的報酬由發送者的類型和信息的組合,以及接收者回應的行動所決定。信號游戲的一個例子是啤酒-蛋餅游戲[52],在這個游戲中,玩家B,即接收方,選擇是否與玩家A決斗。玩家A要么很兇,要么很懦弱,而玩家B只想與后者決斗。玩家A選擇喝啤酒或吃乳蛋餅作為早餐。雖然他們更喜歡吃乳蛋餅,但乳蛋餅發出的信息是吃乳蛋餅的人很懦弱的刻板印象。玩家B必須分析每個決定,決斗或不決斗,如何根據玩家A選擇的早餐給他們帶來更好的回報。
行為博弈論將經典博弈論與實驗經濟學和實驗心理學結合起來,并在此過程中放松了經典博弈論中許多不現實的簡化假設。它偏離了諸如完全理性、獨立公理和不考慮利他主義或公平作為人類決策的動機等簡化假設。我們將在這篇評論中表明,與行為博弈論有關的方法在模擬軍事場景方面至關重要,例如在信號博弈方面。
進化博弈論是博弈論在進化生物學領域的應用成果。進化博弈論中提出的一些關鍵問題包括:哪些種群/策略是穩定的?哪些策略可以在其他策略盛行的種群中 "入侵"(變得流行)?在迭代博弈的背景下,玩家如何應對其他玩家獲得或被認為獲得更好的回報?進化游戲通常被建模為迭代游戲,即一群玩家在一個混合良好或空間分布的環境中迭代地玩同一個游戲。
如果一個策略在盛行時有可能阻止任何突變的策略滲入其環境,那么它就可以被確定為進化穩定策略(ESS)。或者說,ESS是指如果一個種群在給定的環境中采用了這種策略,就不能被任何替代策略所入侵。因此,玩家從ESS轉向另一種策略是沒有好處的。因此,從本質上講,ESS確保了一個擴展的納什均衡。對于一個策略S1來說,要想成為對抗另一個 "入侵 "策略S2的ESS,需要滿足下面提到的兩個條件之一,即預期報酬E。
E(S1,S1)>E(S2,S1)。通過單方面改變策略到S2,該玩家將在與另一個堅持ESS S1的玩家的競爭中失利。
E(S1,S1)=E(S2,S1) & E(S1,S2)>E(S2,S2):一個棋手通過轉換到S2,在與另一個堅持ESS S1的棋手對弈時,既沒有收獲也沒有損失,但與已經 "轉換 "到S2的棋手對弈時,棋手最好還是選擇ESS S1。
如果滿足這兩個條件中的任何一個,新策略S2就沒有能力入侵現有策略S1,因此,S1對S2是一種ESS。進化游戲通常被建模為迭代游戲,即群體中的玩家迭代地玩同一個游戲。
需要指出的是,博弈論的其他幾個分支在上面的小節中沒有提到,也有幾個最新的進展沒有提到。博弈論被用于越來越多的不同場景和應用中。例如,博弈論被用來確定電信業中競爭者的市場份額,或沼氣廠的實施和建設。在一些應用中,矩陣博弈的報酬被構建為包含模糊元素,據說這使得建模的場景更加真實。同樣,量子博弈論是一個新興領域,它引入了疊加的初始狀態、初始狀態的量子糾纏和策略的疊加。這里不能總結所有這些進展。因此,本節只對那些在防御文獻中,特別是在我們評論的論文中經常使用的博弈論概念做了基本介紹。因此,對于不熟悉博弈論的讀者來說,以上各小節提出了一個基本的介紹。請看對所提出的概念的更詳細的處理。
在此背景下,我們現在回顧一下現有的涉及博弈論在國防科技領域應用的文獻。
如前所述,在模擬防御場景的游戲中,影響報酬矩陣的主要參數是目標的價值、資源的價值和目標的優先級。除此以外,國防應用中使用的游戲可以有很大的不同,我們將在下面看到。出于這個原因,本節是根據每篇論文所涉及的領域(戰爭類型)來安排的。如果一篇論文涵蓋了一個以上的領域,它將被列入最相關的小節/領域。然而,我們詳細分析了每篇論文所使用的游戲類型、報酬函數的結構方式、可用策略和均衡等。
在與陸戰有關的博弈論應用中,大多數研究都集中在防御性戰爭上,即軍隊決定如何最好地分配他們的地面防御來應對多種威脅。一些研究還關注歷史上的陸上沖突,并提供事后的博弈論分析,揭示了在歷史沖突中一些憑直覺做出的決定是如何具有理性和數學上的理由的。陸地戰爭可能導致非常嚴重的傷亡,因此了解如何最好地減少人員損失是陸地戰爭的一個關鍵組成部分(盡管不是唯一的目標)。很多時候,確定軍事資源的優先次序也是成功的根本,并經常在戰略決策中占據突出地位。此外,在涉及地面戰爭的情況下,經常需要評估對對手、其可能的戰術或地形的了解:可能需要打擊在某些地方插入的空降部隊,或者需要穿越不確定的領土。在每一種情況下,了解一支部隊在什么地方擁有不完善的信息將有助于該部隊做出合理的決定。
有幾篇論文使用博弈論來模擬當前和歷史背景下的陸地戰爭。Bier等人設計了一個博弈,將防御資源最好地分配給一組需要保護的地點/資源。然后,攻擊者必須決定他們如何選擇分割他們的力量來攻擊不同的目標。這個游戲被模擬成一個正常形式的雙人游戲。這個游戲的回報是絕對的,對一個地點i的攻擊要么成功,要么失敗,攻擊方獲得ai,防御方失去di。由于攻擊的命令是在攻擊前確認的,所以攻擊者必須使用一套純策略。這個游戲既可以同時進行,也可以依次進行。也就是說,游戲的進行取決于攻擊者在做出決定之前是否知道防御者如何分配他們的資源。這就導致了理想的策略是讓一些目標不受防御,并通過讓一些地區脆弱來加強關鍵地區的防御。
我們評論的下一篇論文是Gries等人的文章,它全面調查了博弈論原則在游擊戰/顛覆戰中的效用。他們建立的模型的重要因素是:破壞穩定的叛亂分子經常隨機攻擊,造成持續的威脅,必須有一個持續的緩解和檢測策略;戰爭的持續時間是需要考慮的,它將改變分配給目標和資產的價值;時間偏好在設置優先級方面起著關鍵作用,因為對價值的判斷決定了戰略決策,反過來決定成功或失敗。他們提出的博弈模型涉及一個連續的非合作博弈和一個同時的非合作博弈,在每一個博弈中,兩個參與者是游擊隊和政府。對于這些沖突,經濟和社會影響要比軍事損失和收益重要得多,因此在計算結果的價值方面發揮了更大的作用。
游戲特別模擬了每一方尋求與對方和平或沖突的時刻。在這些時刻,政府軍必須考慮每個選項的財務成本,而叛軍則要考慮交戰的優先順序,以及他們將為每個交戰提供哪一部分戰斗力。圖1展示了在破壞穩定的戰爭中從這些時刻出現的決策樹的例子,其中G代表政府的決策,R代表叛軍的決策。
圖 1. 破壞穩定戰博弈,其中突出顯示了政府和叛軍的決策點
Krisnamurthy等人研究了對無人值守地面傳感器網絡(UGSN)動態行為的博弈論控制,以獲取有關入侵者的信息。該網絡中的每個傳感器都能夠以特定的精度接收附近目標的范圍和方位的測量值,然后將其傳輸到本地中心進行數據融合。在這個框架中,雖然更多的傳感器測量值和更大的測量值傳輸量可能會導致更好的目標意識,但這也導致了對有限電池電量的更大消耗的不良影響。因此,應用博弈論的目標是使用一種雙時間尺度的分層方法,對目標意識、數據傳輸和能源消耗進行最佳權衡。
作者證明,傳感器的激活和傳輸調度問題可以分解為兩個耦合的分散算法。特別是,傳感器被視為非合作游戲中的參與者,并提出了一個自適應學習策略,以根據傳感器與感興趣的目標的接近程度來激活它們。這被證明是這個非合作博弈的相關均衡解。接下來,傳輸調度問題,即每個傳感器必須在每個時間點決定是傳輸數據和浪費電池電量,還是等待和增加延遲,被表述為具有懲罰性終端成本的馬爾科夫決策過程。這一表述的主要結果是表明,最佳傳輸策略具有閾值結構,然后用超模數的概念來證明。
有幾項研究用博弈論的棱鏡分析了主要發生在陸地上的歷史沖突。例如,Cotton和Liu描述了兩個中國古代的軍事傳說,并將其建模為信號游戲。在這兩個游戲中,傳說中的軍事領導人面對的是數量和力量都遠遠超過自己的軍隊的強大對手,但他們并沒有撤退,而是準備交戰,表現得就像在設下埋伏。他們的對手在信息不完善的情況下,只能從對手的行動中推斷出一些信息;由于被這些將軍的自信和名聲所嚇倒,對方的軍隊雖然在實際實力上占優,但卻選擇不交戰。通過勇敢而巧妙的虛張聲勢,兩位將軍都通過站在自己的立場上實現了對自己有利的平衡方案。他們通過在沒有直接溝通的情況下制造欺騙來做到這一點,這遵循了前面提到的Beer-Quiche信號游戲的模板。
科頓和劉描述的第一個游戲是 "100個騎士 "游戲。他們描述了這樣一段歷史:一百名漢族騎兵獨自旅行,遇到了一支人數達數千的匈奴部隊。他們可用的策略是撤退或交戰。如果他們撤退,而敵人參與進來,他們很可能會被擊垮和擊敗;如果他們參與進來,而敵人也參與進來,他們將在戰斗中被淘汰。對他們來說,最好的結果是以某種方式迫使敵人退卻。敵人不確定這些騎兵是否與更大的軍隊同行。他們看到騎兵的行動,決定不冒這個險,而是撤退。這種情況被轉化為一個雙人游戲,有兩種策略。如下圖2所示:
圖 2. 100 Horsemen 信號博弈
在圖 2中:
LG代表漢軍李廣將軍的決策點。
GenX代表了敵對匈奴勢力的決策點。
收益被列為(LG,GenX)
λ∈(0,1) 代表將軍的能力,
α 和 β 代表在撤退中喪生的漢族騎兵比例
w 是一個正參數
第二個游戲與第一個游戲非常相似。在這個游戲中,一個小城市由強大的諸葛亮將軍守衛。他得知一支巨大的敵對軍隊正在接近這座城市。他面臨著兩個選擇。他可以逃跑,之后他將脫離城市,并可能被逼近的軍隊追趕,或者他可以留下并保衛城市。如果他選擇后者,而軍隊參與進來,他很可能會失去他的生命、他的軍隊和這座城市。面對這種兩難的局面,他命令他的人躲在視線之外,使城市從外面看起來是空的。他爬上城中最重要的塔頂,演奏音樂。對方的將軍知道梁將軍的經驗和能力,懷疑將軍在空城的塔樓上采取這個不起眼的位置來伏擊他的軍隊,于是他們遠離城市以避免被伏擊。梁將軍在這里有效地發出了兩個信號。第一個是他的聲譽,這個信號包含了他的戰略和軍事力量。第二是他選擇留下來保衛城市。有了這兩點信息,再加上沒有其他關于梁將軍軍隊的下落或規模的信息,對方軍隊選擇了零損失的安全選擇,離開了。這段歷史被模擬成另一個雙人信號游戲,如下圖3所示:
圖 3. 空城信號博
在圖 3 中:
ZL代表諸葛亮將軍的決策點
收益被列為(ZL,反對軍)
λ∈(0,1) 代表將軍的能力,
c代表城市的價值
w 代表 ZL 的軍隊與對方軍隊匹配時的收益
y表示ZL的軍隊比對方軍隊弱時的損失,并且y>c,因為它包括失去城市
這兩段歷史都代表了面對近乎確定的失敗時做出的杰出軍事決策,實際上是將軍們對信號的細微差別有深刻理解的例子,并在戰略互動中做出理性決策,迫使他們取得有利于自己的結果。
令人驚訝的是,盡管海戰在人類歷史上比空戰要早很多,但直接和主要利用博弈論來研究海戰的論文卻相對罕見。萊文利用博弈論的概念研究了前幾個世紀的海戰的各個方面。在18和19世紀,當時的強國建造的戰艦都是沿著船舷放置大炮的。這意味著船只通常只能對其兩側進行攻擊。當以艦隊形式航行時,標準的做法是形成 "戰線",即一列聯軍軍艦沿某一方向航行,使其兩側面對敵人,也擺成一排。然后,兩支平行的對立艦隊可以用大量的大炮攻擊對方。戰線 "戰略被認為是一種納什式的平衡,因為兩支艦隊都不會從進行耙擊(當時的一種戰術,即攻擊艦會試圖駛過對手的船尾,將大炮集中在那里開火,而敵人由于船尾的大炮位置較少,只能做出最小的反應。攻擊艦會同時破壞對手的船尾和一些寬舷)。根據列文的說法,在一支艦隊中,耙網并不是首選,因為這意味著必須先在敵人前面航行,然后轉向它--當船只的速度大致相同,而且操縱困難時,這是個具有挑戰性的任務。由于兩支艦隊都不會從轉向敵人的過程中獲益,也不會領先,萊文得出結論,這種策略--形成一條戰線并與對方艦隊平行航行--是每支艦隊的最佳反應,因此代表了納什均衡。
萊文接著提到了一些戰役,在這些戰役中,英國艦隊偏離了上述策略,向法國和法國-西班牙艦隊正交航行。在萊文提到的第一場戰役中,這可能是沒有計劃的。在第二場戰役--1805年的特拉法爾加戰役中,它是經過精心設計的:英國艦隊分成兩個縱隊,每個縱隊都以正交方向駛向法西戰線,在撞開戰線并開始全面混戰之前,進行了大約45分鐘的猛烈攻擊。英國人繼續孤立了法西艦隊的中間部分,取得了決定性的勝利。萊文認為這兩場戰役都是他論點的反例。然而,在特拉法爾加戰役中,英國的戰略有可能是對法國和西班牙可能形成的正統戰線戰略的最佳回應。英國海軍上將納爾遜勛爵希望阻止法西艦隊逃跑--如果兩支艦隊形成平行戰線,他們就可以逃跑--從而減少他將自己的艦隊組成戰線所得到的回報。此外,他可能估計到法國和西班牙船只的炮擊能力較差,會降低炮擊的效果,從而減少他直接向法國-西班牙艦隊發起沖鋒所獲得的負面獎勵。在他看來,這可能使得非正統的選擇比正統的戰線更能應對法西可能的戰略。雖然萊文沒有明確地將當時海戰中的這些策略歸結為博弈論,但所采用的策略還是可以通過博弈論分析來證明:這是一個沒有正式研究博弈論的 "直覺 "應用的例子。
Maskery等人在2007年(a)研究了使用網絡支持的操作(NEOPS)框架部署反艦導彈的問題,在這個框架中,多艘艦艇進行通信和協調以防御導彈威脅。在這里,導彈威脅被模擬成一個離散的馬爾可夫過程,它們在一個固定的物理空間內的隨機位置出現,并遵從一些已知的目標動力學和制導規律向艦艇移動。裝備有反制措施(CM)如誘餌和電磁干擾信號的艦艇被模擬為瞬時隨機博弈的參與者,其中單個參與者的行動包括使用CM來最大化自己的安全,同時與其他基本上以實現相同目標為目的的參與者合作。這個博弈論問題的最優策略是一個相關的均衡策略,并被證明可以通過一個具有雙線性約束的優化問題來實現。這與tepmaskery2007decentralized提出的一個相關問題但沒有玩家協調的納什均衡解決方案形成對比。本文的一個值得注意的貢獻是,它還量化了實施NEOPS均衡策略所需的溝通量。本文強調了博弈論方法在分析現代戰爭中至關重要的網絡系統的最優策略方面的效用。
在[71]中,Maskery等人2007年(b)考慮了以網絡為中心的特遣部隊對反艦導彈的保護問題。這個模型中的決策者是配備了硬殺傷/軟殺傷武器(反制措施)的艦艇,這些艦艇也被認為是在博弈論環境下制定這個問題的參與者。這些平臺必須就反措施的最佳部署做出獨立的關鍵決定,同時他們也要為保護任務組成員的共同目標而努力。從本質上講,這是一個海軍環境中的分散導彈偏移問題,它被表述為一個瞬時隨機博弈,艦艇可以計算出一個處于納什均衡的聯合反措施政策。在這里,艦艇之間的博弈而不是與導彈的博弈。這種方法自然適合于分散的解決方案,在完全通信不可行的情況下可以實施。此外,這種提法導致問題被解釋為隨機的最短過去博弈,已知存在納什均衡的解決方案。Bachmann等人使用非合作的雙人零和博弈分析了雷達和干擾器之間的互動。在他們的方法中,雷達和干擾器被認為是目標相反的 "玩家":雷達試圖最大限度地提高探測目標的概率,而干擾器則試圖通過干擾雷達來最小化其探測。
Bachmann等人假設在存在瑞利分布雜波的情況下有一個Swerling II型目標,對于這個目標,在不同的干擾情況下,單元平均(CA)和順序統計(OS)CFAR處理器的某些效用函數被描述。這種博弈論的表述是通過優化這些效用函數來解決的,這些效用函數受到控制變量(策略)的約束,對于干擾者來說是干擾者的功率和干擾的空間范圍,而對于雷達來說,可用的策略包括閾值參數和參考窗口大小。由此產生的矩陣形式的博弈被用于解決雷達和干擾器的最佳策略,從中確定雷達和干擾器有效實現其各自目標的條件。
空戰通常是一種正常形式的游戲,在交戰前,根據對武器庫中不同元素的強度的假設和知識,對所利用的資源做出決定。例如,壓制敵方防空車(SEADs)對地對空防御和地對空導彈(SAMs)是有效的,但對戰斗機則沒有用。因此,當軍事人員決定在交戰中使用哪些資源時,他們需要權衡每種資源的價值,以及目標對沖突雙方的重要性。如果攻擊部隊對一個目標的重視程度遠遠超過其實際價值,那么他們增加的資源支出可能會對其整個軍事行動造成損害。在人類通常操作空中武器的情況下,他們各自的能力和技能,以及他們執行任務的可能性,都需要考慮。
關于用博弈論建模的空戰的文獻有限。漢密爾頓為博弈論在多種空戰情況下的應用提供了一個全面的指導。漢密爾頓建議使用博弈論來制定戰略,不僅要基于自己的軍事選擇,還要考慮對敵人行動的預期。博弈論說明了與敵人的不同互動,而不是簡單地考慮哪一方擁有優越的最大努力力量。如今,許多軍隊可以適應即時變化的情況,并根據這些新情況調整自己的行動。因此,漢密爾頓建議首先確定每一方可用的所有戰術選擇。如前所述,將博弈論用于軍事的最基本要素之一是了解每項資產到底有多少價值--詳細說明雙方的庫存和戰略可能性將最好地澄清所有戰略選擇。對于每個選項,漢密爾頓建議分配一個數值--有效性衡量(MoE)。關于效果衡量的決定是很重要的,因為準確的效果衡量將為戰略上的選擇提供基礎。不正確的MoEs會導致不正確的戰略決策,也許還會導致對決策錯誤的原因理解不足。這方面的一個例子(雖然不是在空戰的背景下)是越南戰爭,美國的早期戰略是最大限度地消滅越共士兵。由于越南北部的領導層并不十分重視他們的步兵,美國的戰略最終導致了戰爭的失敗。接下來,漢密爾頓建議計算沖突雙方戰略之間所有可能的相互作用的綜合價值。這將產生一個回報矩陣,從中可以得出每個玩家的最佳或主導戰略,然后得出一個均衡解。因此,在軍事領導人可能參與的任何交戰之前,他們對游戲的預期結果有一個成熟的想法。漢密爾頓在這些準則中加入了一個注意事項,即把軍事行動的長度作為一個整體來考慮。如果資源的替換成本低或數量多,那么可以分配給一次戰役或打擊攻擊的價值就可能很小。然而,根據整個戰役中這種小規模沖突的數量,這些資源可能會變得非常關鍵。
為了說明這些觀點,漢密爾頓將其應用于一個標準的海空導彈和時間關鍵目標的空戰游戲。在這場戰斗中,"藍方 "正試圖消除一些地面目標。為了做到這一點,他們使用了海空導彈。作為回應,'紅方'將發射防空導彈,而防空導彈則要努力避開。然而,在期待這種回應的同時,藍方也有攻擊機,它們可以防御海空導彈并反擊薩姆導彈,但無法攻擊目標。藍方的問題是:目標的價值是什么,應該為目標部署何種比例的海空導彈和攻擊機?同樣,對于紅隊來說:目標的價值是多少,如果有的話,應該發射多少枚防空導彈?漢密爾頓認為,紅方的最佳策略是只在交戰的一小部分時間內開火,這相當于:
最優藍色策略是將部分飛機分配為SEADs,等于:
在這里,
Pks 是 SAMS 摧毀 SEAD 的概率
PkA 是攻擊機摧毀 SAM 的概率
這種提法簡明扼要地預測了在每一種可能的飛機和導彈發射任務下交戰的可能結果。必須指出的是,在實踐中準確量化不同目標和資源的數值是非常困難的。
Garcia等人2019年研究了在海上海岸線上防御兩架敵機的問題,這兩架敵機的主要目標是入侵防御方飛機控制的領土。而防守方則試圖通過試圖在離邊界盡可能遠的地方連續攔截兩架敵機來防止這種情況。這是一個典型的追擊-逃亡場景,代表了機器人、控制和防御領域的許多重要問題。在本文中,Garcia等人將這一問題表述為零和差分博弈,即防御者/追擊者試圖在離被防御的海岸線盡可能遠的地方連續捕獲兩個攻擊者/入侵者,而攻擊者則合作并在他們被對抗之前使他們離邊界的總距離最小。然后,Garcia等人通過解決一組非線性方程,在這個一防二攻的追逃博弈中找到攻擊者和防守者的最優策略。本文討論的合作策略為能力較弱(也許是速度較慢)的代理人在執行任務時提供了一個重要的協調方法。
Garcia等人在2017年考慮了一個空戰場景,即被攻擊導彈攻擊的目標飛機利用防御導彈來保護自己,因為它試圖在防御者達到與攻擊導彈盡可能近的距離時逃離攻擊者。該游戲被稱為主動目標防御差分游戲(ATDDG)。在本文中,作者擴展了以前在這個三方問題上所做的工作,為ATDDG開發了一個閉式分析解決方案,其中防御者導彈如果進入一個半徑為rc>0的捕獲圈內,就可以擊敗攻擊者。此外,盡管攻擊者采用了未知的制導法,而不是假設它是比例導航(PN)或追求(P),本文所展示的閉式最佳狀態反饋解決方案應該是有效的。最后,作者提供了一套目標飛機的初始條件,在這些條件下,盡管攻擊導彈采用了未知的制導法,但如果目標防御者團隊發揮了最佳作用,其生存就會得到保證。
Deligiannis等人考慮了多輸入多輸出(MIMO)雷達網絡中存在多個干擾器時的競爭性功率分配問題。雷達網絡的主要目標是使雷達發射的總功率最小,同時對每個目標達到特定的探測標準。在這個問題上,雷達面對的是智能干擾器,這些干擾器可以觀察到雷達的發射功率,從而決定其干擾功率,以最大限度地干擾雷達。在這里,Deligiannis等人將這個功率分配問題視為一個非合作博弈,參與者是中央雷達控制器和干擾器,并使用凸優化技術解決這個問題。此外,他們還提供了這種情況下納什均衡的存在性和唯一性的證明,在這種情況下,沒有玩家可以通過改變其功率分配來進一步獲利。
同樣,He等人考慮了多態雷達網絡中的雷達對抗問題,其中研究了在存在智能干擾器的情況下聯合功率分配和波束成形的博弈論表述。該網絡中每個雷達的目標是滿足目標的預期探測性能,同時使其總發射功率最小化并減輕潛在的干擾。另一方面,干擾器的目標是調整自己的發射功率來干擾雷達,以保護目標不被發現。首先,He等人研究了功率分配博弈,每個參與者(雷達和干擾者)的策略集由各自的發射功率組成。然后,他們著手解決相應的優化問題,以計算出雷達和干擾者的最佳響應函數,并表明納什均衡的存在和唯一性。接下來,他們再次將有干擾者存在的聯合功率分配和波束成形器設計問題視為非合作博弈,并提出了一種功率分配和波束成形算法,該算法被證明可以收斂到其納什均衡點。
McEneaney等人研究了無人駕駛飛行器(UAVs)對地面目標和地對空導彈(SAM)系統等防御單位的指揮和控制問題。這項工作的動機來自于無人駕駛空中作業場景中對作業計劃和實時調度的要求。該問題被模擬為藍色玩家(無人機)和紅色玩家(包括薩姆導彈和地面目標)之間的隨機博弈。每一方都可能有一些目標:例如,藍方玩家可能試圖摧毀一個戰略目標,同時盡量減少對自己的損害。另一方面,紅色玩家可能試圖對無人機造成最大傷害,同時保護自己不受無人機的攻擊。
無人機的控制策略由一組離散變量組成,對應于要攻擊的具體目標或防空導彈,而防空導彈的控制策略是將其雷達 "打開 "或 "關閉"。請注意,當雷達 "打開 "時,防空導彈對藍方玩家造成傷害的概率會增加,而藍方玩家對防空導彈造成傷害的概率也會增加。這個隨機博弈的解決方案是通過動態編程得到的,并通過一些數字例子加以說明。這項工作的主要貢獻是分析了不完全信息下隨機博弈的風險敏感的控制方法。特別是,這種方法不僅可以處理由于隨機噪聲造成的噪聲觀測,還可以處理觀測中包含對抗性成分的情況。
Wei等人開發了一個用于多個無人駕駛戰斗飛行器(UCAVs)協同工作的任務決策系統。UCAVs的武器是空對空導彈。在論文中,由一架無人駕駛戰斗轟炸機和兩架UCAV組成的紅色UCAV小組試圖打擊一個藍色小組的地面目標。藍隊有自己的一套UCAVs,其目標是擊敗紅隊。一枚特定的導彈對其選擇的威脅的成功取決于攻擊者和威脅之間的距離、它們的相對速度和相對角度。該場景被表示為一個同步正常形式的博弈,團隊的策略與藍隊實體對紅隊實體的分配相對應,反之亦然。在本文中,紅隊或藍隊的回報是基于考慮特定分配的有效性,而這又取決于對立團隊分配分組之間的相對幾何。Dempster-Shafer(D-S)理論被應用,其中D-S組合公式被用來制定報酬。這些為每個策略計算的報酬,然后被放入雙矩陣中,即每個團隊都有一個,并使用線性編程優化方法解決。如果不存在最優的納什均衡,則采用混合策略的方法進行求解。然后,作者開發了一些具有不同幾何形狀的任務場景,并說明了其博弈論分配策略的使用。他們使用包含紅隊和藍隊相互靠近的實體幾何圖形的注釋圖來證明由他們的報酬公式確定的分配策略是令人滿意的。
Ma等人開發了一種博弈論方法,為在超視距(BVR)空戰對抗中相互交戰的多個無人駕駛飛行器(UAV)團隊生成一種合作占用決策方法。由于導彈技術的發展使遠程交戰成為可能,BVR作戰成為可能。在本文中,每一方的團隊首先決定其無人機實體的占用位置(笛卡爾空間中的立方體),然后為每個無人機團隊成員選擇目標。目標是讓每一方獲得最大的優勢,同時經歷盡可能小的威脅條件。零和同步雙矩陣博弈被應用于分析該問題。對于一個給定的無人機占有率,高度和距離的優勢公式,考慮到射程和武器的最低/最高性能標準,用于產生效用函數的報酬值。由于游戲的規模會隨著每隊占用方塊和無人機數量的增加而導致規模的爆炸(從而導致策略的爆炸),作者選擇了在早期作品中為解決大規模零和博弈問題而設計的Double Oracle(DO)算法,將其與Neighbourhood Search(NS)算法相結合,成為Double Oracle Neighbourhood Search(DO-NS)。通過模擬,作者說明,結果顯示DO-NS算法在計算時間和解決方案的質量方面優于DO算法。
Ba?p?nar, Bar??等人的工作重點是使用基于優化的控制和博弈論方法對兩個無人駕駛飛行器(UAVs)之間的空對空戰斗進行建模。在這項工作中,車輛運動用特定的變量表示,任何從一個航點到另一個航點的軌跡規劃都是通過確定滿足平坦輸出空間中的定義條件的平滑曲線來解決的。在確定之后,所有參與描述平滑曲線的變量都可以恢復到原始狀態/輸入空間。其影響是通過減少所需變量的數量來加快任何軌跡優化的解決。然后利用博弈論,兩個無人機之間的空中戰斗被模擬成一個使用最小值方法的零和游戲。也就是說,當對手采取最佳策略時,每一方都試圖使其收益最大化。這里,目標是讓每個無人機直接進入對方身后,并在一定范圍內滿足機載武器有效射程限制。
在[81]中,作者提供了與基于方位角和軸承角的目標追尾程度有關的成本函數,以及與對手在最佳射程的某個閾值內時產生最大得分有關的成本函數。這些成本函數相乘,形成總成本。成本函數被放入一個后退地平線控制方案中,在一個給定的前瞻時間段內,通過選擇控制措施確定的軌跡規劃被執行,在這個時間段內,雙方都使用相反的策略。每個玩家將其對手視為地平線內的可達集,并以此來選擇其控制的選擇,以使其報酬最大化。這個過程每隔幾個控制步驟就會重復一次。與該領域的大多數其他作品不同,作者使用了性能包絡內的全部控制輸入,而不是一個子集(例如,轉彎、保持哈丁、以特定角度左滾、immelman、分裂S或螺旋俯沖),從而指向為每個玩家的策略生成一個更優化的解決方案。文章提供了兩種模擬情況,第一種情況是任何一個無人機都沒有開始處于空中優勢地位,然后行使后退地平線成本函數優化,在最佳射擊范圍內與對手進行追尾。作者表明,在飛行過程中,應用控制時的速度、載荷系數和岸角都沒有違反界限,而且產生了可行的軌跡。在第二次模擬中,無人機最初處于追尾狀態,但不滿足射擊范圍內的標準。被追趕的對手通過應用成本函數進行機動逃跑,而追趕者繼續追趕。在交戰結束時,滿足了射擊范圍內的標準,目標在正前方,但處于一個次優的方面,這導致其逃脫。這些場景被用來證明所開發的控制策略的有效性,從而為兩個無人駕駛飛行器相互交戰提供自動選擇戰斗策略。
Casbeer等人,考慮了這樣一種情景:追擊無人駕駛飛行器目標的攻擊者導彈被兩個與目標結盟的實體發射的防御導彈所吸引,而這兩個實體與目標合作。它從典型的三方博弈情景中延伸出來,在這種情景中,只有一枚防衛導彈與目標合作的攻擊者交戰。作者在此將其稱為主動目標防御差異博弈(ATDDG)。除了計算擴展到ATDDG中的玩家的最佳策略外,本文還試圖確定當目標使用兩個防御者而不是一個防御者時,其脆弱性的降低程度。本文提出了一個受限的優化問題來解決這種情況。結果表明,目標通過選擇與任一防衛者合作,可以更成功地逃脫攻擊者。此外,兩個防御者的存在使攻擊者更容易被攔截。當兩個防御者的導彈處于良好的位置時,都可以攔截攻擊者。
Han等人提出了一個綜合防空和導彈防御(IADS)的問題,即配備攔截導彈(IM)的地對空導彈(SAM)電池與針對城市的攻擊者導彈(AM)交戰。該問題是一個簡化的具有完全信息的兩方零和博弈,有三個階段。這三個階段對應的是防守方為城市配置防空導彈,然后是攻擊方為城市配置導彈,最后是防守方為反擊攻擊方的導彈配置攔截導彈。這個問題的簡化假設是,在一個城市附近只分配一個防空導彈,每個地點只安裝一個。此外,針對每枚攻擊導彈發射的攔截導彈不超過一枚。此外,一個DM只能分配一個IM,每個SAM都有相同數量和類型的IM,而AM是相同的,并且是單發發射的。試圖用廣泛形式的博弈樹、α-β修剪和使用Double Oracle(DO)算法來解決需要保護的六城市網絡的三層博弈。DO算法是一種啟發式算法,不保證能找到次完美納什均衡(SPNE)。我們研究了每種算法達到次完美納什均衡的效率。對于博弈樹方法,得出的結論是,由于問題的組合性,戰略空間的大小被確定為增加到一個難以解決的大小。當應用α-β修剪時,與DO算法相比,本文確定確定SAM電池、AM和IM的數量在計算時間方面沒有很好的擴展。然而,在少數情況下,DO算法確實無法找到SPNE。盡管如此,作者還是更喜歡DO算法,因為它被證明不違反單調性(報酬的增加)和解決方案的質量趨勢(計算時間的非指數增長),即使當問題的規模從6個城市增加到55個城市。
涉及博弈論在網絡戰爭(不同于網絡安全)中的應用的論文很少。其中重要的是,Keith等人[84]考慮了一個多領域(網絡與防空相結合)的國防安全博弈問題。兩個玩家在一個零和的廣義博弈中相互交鋒,一個是防御者,代表一個配備了網絡戰保護的綜合防空系統(IADS),一個是攻擊者,能夠釋放空對地威脅(導彈、炸彈)以及網絡攻擊(針對IADS網絡)。這里,回報被選為預期的生命損失。防守方希望將其降至最低,而攻擊方則希望將其最大化。保護IADS的網絡安全游戲問題被嵌套在物理安全游戲問題中。玩家的行動對應于激活IADS/網絡安全響應節點的分配,對應于防御方的人口中心,以及攻擊方攻擊IADS/相關的網絡安全節點的分配。通過提供不完善的信息,游戲的真實性得到提高;也就是說,防御者和攻擊者并不完全了解節點的脆弱程度。此外,防御者只能概率性地感知節點的網絡攻擊,這意味著其對特定IADS的網絡防御團隊的分配也只是概率性地有效。對于攻擊者來說,它也可以在物理攻擊一個節點后確定其網絡攻擊的有效性。這項工作通過引入綜合領域、代理行動的多個時期以及使玩家能夠不斷地采取混合形式的策略,為推動安全游戲文獻的發展奠定了基礎。作者認為這是第一項在安全游戲中比較蒙特卡洛(MC)和基于折扣和穩健的反事實后悔最小化(CRM)方法的工作。最初,對于問題的小規模版本,以序列形式的線性程序的形式確定防御者的納什均衡(NE)。然后,問題被逐漸放大,以包括更多的人口中心來防御,直到一個上限。這里,引入了一種近似的CRM算法,以減少計算時間,同時盡可能地保留特定策略的最優性。當規模進一步擴大時,引入了折現的CRM,進一步減少了計算時間。
對問題和算法的參數空間進行了探索,以選擇最佳的調整參數,并從算法中提取最佳性能。通過引入有界理性,使參與者的理性受到限制,因此他們不一定做出最佳反應。他們只能管理近似的穩健的最佳響應動作。一個棋手的穩健最佳反應被定義為完全保守的NE策略和完全激進的最佳反應策略之間的妥協。它在棋手的策略中引入了弱點。對于一個棋手來說,他們的策略能夠利用對手的策略的能力被稱為利用。反之,他們的戰略對于對手的脆弱性被稱為可利用性。當運行所有引入的不同算法時,結果顯示納什均衡解是最安全的策略,因為所走的是不被利用的最佳棋步,然而,它并沒有為玩家產生最高的效用。性能圖顯示,穩健的線性程序產生了最高的平均效用和最高的可利用性比率,同時也消耗了最大的計算時間。數據偏向的CFR被認為提供了最好的權衡,它提供了一個高的平均效用,一個有利于開發的可利用性比率,同時以最低的計算時間運行。
在空間戰爭領域,人力資源和風險要少得多,因此重點是網絡力量和獨立自主代理人之間的互動,連接或其他。最終,這些方面的戰爭將以遠遠超出人類認知能力的速度和維度運作。由于交戰中決策的快速性和復雜性幾乎肯定會超出軍事人員的理解能力,博弈論將取代決策者作為整個軟件和控制系統的一部分,并將未來的技術注入到計算時考慮人類/社會因素。隨著對連接性和網絡化的更多關注,這些領域的成功關鍵依賴于有效的溝通渠道和整個系統的共同目標。在這一新興的研究領域,應用博弈論的論文往往關注衛星網絡。
Zhong等人設定了一個雄心勃勃的目標:優化整個衛星網絡的帶寬分配和傳輸功率。他們的研究以討價還價的博弈論為基礎,必須在網絡中的每一個點上實現對干擾約束、服務質量要求、信道條件以及衛星的發射和接收能力的妥協。干擾限制和帶寬限制是在討價還價游戲中需要協商的盈余,每個衛星使用不同的策略來提高其效用/資源份額。這使得復雜性迅速升級,該模型最重要的收獲是將一個問題映射到合作討價還價的游戲框架中。
同樣地,Qiao和Zhao詳細介紹了衛星網絡中節點的有限能量可用性的一些關鍵問題。他們的論文通過一個路由算法的博弈理論模型提供了一個解決方案,并利用它來尋找不均衡網絡流量的均衡解決方案。該模型定位了某些網絡熱點,這些熱點正在儲備大量的能量,并采取措施均勻地分配資源。這是在網絡中多個參與者之間進行討價還價/合作博弈的另一個案例。
由于目標跟蹤是一個成熟的研究領域,我們發現了一些應用博弈論跟蹤問題的論文。其中大多數都有重疊的戰爭領域,并沒有過多強調在某個特定領域的適用性。例如,Gu等人研究了使用傳感器網絡跟蹤移動目標的問題,該網絡由能夠提供一些與位置有關的目標測量的傳感器組成。每個傳感器節點都有一個觀察目標的傳感器和一個估計其狀態的處理器。雖然傳感器之間有一些通信,但這種能力是有限的,因為每個傳感器節點只能與它的鄰居通信。由于目標是一個能夠最小化其被對手探測到的智能代理,從而有可能增加跟蹤代理的跟蹤誤差,這使問題更加復雜。Gu等人在零和博弈的框架內解決了這個問題,并通過最小化跟蹤代理的估計誤差,開發了一個穩健的最小值過濾器。此外,為了處理傳感器節點有限的通信能力,他們提出了這種濾波器的分布式版本,每個節點只需要從其近鄰獲得當前測量和估計狀態的信息。然后,他們在一個有智能目標的模擬場景中展示了他們算法的性能,并表明雖然標準卡爾曼濾波器的誤差會發散,但考慮到對手的噪聲的最小化濾波器可以大大超過卡爾曼濾波器的性能。
Qilong等人同樣解決了跟蹤智能目標的問題,但他們模擬了一個場景,跟蹤者也在追擊,重點是保護目標。此外,目標可以向攻擊者/追蹤者發射防御性導彈。攻擊者對目標和防御性導彈都有一個視線。目標計劃讓跟蹤器慢慢拉近與目標之間的距離,同時進行機動,以了解攻擊者的反應。當攻擊者接近碰撞時,防御性導彈被釋放。然后,目標和導彈進行溝通,利用對攻擊者運動模式的了解,并遵守最佳線性制導法,以摧毀攻擊者。這被模擬為攻擊者、目標和防御性導彈之間的零和競爭游戲。然而,本文還關注了目標和防御性導彈之間的合作博弈,這是一個非零和博弈。對他們來說,報酬是通過最小化的失誤距離(理想情況下等于零--與攻擊者的碰撞),以及引導防御性導彈所需的控制努力來計算。
Faruqi討論了將微分博弈理論應用于導彈制導的一般問題。他們指出,導彈的軌跡遵循比例導航(PN),這是歸航導彈通常使用的制導法。這些系統的性能是由線性系統二次性能指數(LQPI)來衡量的。在微分博弈論方面,他們通過用一組微分方程表示導彈的導航和軌跡來模擬導彈制導問題。這個問題的一般形式是
在這里,
:是玩家i w.r.t 玩家 j 的相對狀態
:是我輸入的玩家
:是玩家j的輸入
F:是狀態系數矩陣
G:是玩家輸入系數矩陣
Q:是當前相對狀態的性能指數 (PI) 權重矩陣
S:是最終相對狀態的 PI 權重矩陣
Ri,Rj:輸入的 PI 權重矩陣
Faruqi 主要專注于兩人和三人博弈,而效用函數是基于導彈和目標之間的相對距離向量建模的。Faruqi 表明博弈論可以有效地用于現代導彈中涉及 PN 的導彈制導任務。
另一方面,埃弗斯利用博弈論分析了對戰區彈道導彈(TBMs)的防御。彈道導彈和核技術的擴散對軍事沖突有著重要的影響,失敗的代價可能導致整個城市的毀滅。由于它們的射程很遠,威力很大,盡管其有效載荷可以有很大的變化,但很難確定其發射位置。在對抗這種威脅時,防衛國確實有一個優勢,那就是通常有一個很長的飛行軌跡,通常分為三個階段,在這期間可以對TBM進行攔截。推進階段標志著發射和TBM上升的大部分時間。助推階段的結束標志著燒毀,之后TBM進入中段階段。這個階段是飛行時間最長的階段,為防御者提供了攔截TBM的最佳機會。在中段階段之后,TBM進入了重返大氣層的終結階段。這是防御者攔截導彈的最后機會。飛行路線如下圖4所示:
圖 4. 戰區彈道導彈的飛行路徑
導彈在合理延長的飛行時間內行駛了很遠的距離。然而,從它的實際地理位置來看,防衛的軍隊或國家只能在飛行的終止階段運用其資源來防御它,在這個階段風險要高得多,失敗的代價也最大。出于這個原因,埃弗斯提出了一種合作戰略,即防守國與周圍的國家結成聯盟,以便它們也能在TBM前往撞擊地點的早期階段嘗試攔截它。因此,游戲被分為兩個小游戲:第一個是合作性的多人游戲,為國家聯盟設計一套戰略,以便在TBM的整個飛行路徑中使用;第二個是防衛國和潛在盟友之間的討價還價和合作游戲。
擊落TBM的合作游戲的基礎是一種叫做 "射擊-觀察-射擊 "的策略。它依賴于一組N個國家使用一組策略--他們的攔截導彈--來攻擊目標,每個導彈都有自己的攔截概率Pi。當TBM飛行時,N國中的每個國家都會發射其導彈Mn來攔截TBM,然后看看它是否成功地消除了威脅。如果它失敗了,下一個國家的導彈Mn+1將被發射。然后,博弈的問題就被簡化為優化整套策略的攔截概率,從而使其具有阻止TBM的可行可能性。博弈論在這里是有用的,因為合作博弈論的原則提供了一個強大的數學框架,通過這個框架可以為一組合作的國家達成一個均衡的解決方案。
埃弗斯描述的第二個游戲是基于與其他國家的談判,以形成一個聯盟。對于這些其他國家來說,參與這個游戲是一種風險,因為它使他們成為攻擊部隊的另一個潛在目標。為了解決這個游戲,防衛國必須準確評估攔截器的成本節約,也就是說,通過防止TBM的影響可以獲得多少收益。隨著這些節省的費用成為合作國家可以分享的盈余,潛在的盟友就如何分享這些節省的費用進行談判,與他們所能提供的攔截資源成正比。
Shinar和Shima繼續研究追擊-規避游戲和彈道導彈防御的零和游戲,即一個高度機動的彈道導彈避開攔截導彈。更具體地說,它在博弈中加入了一個不完美的信息元素,即彈道導彈知道自己正受到反導彈的攻擊,但對其彈道或發射位置知之甚少。在這個游戲中,兩個玩家是彈道導彈和攔截者。如果彈道導彈使用純粹的策略,它很可能會被擊中,因為它要么(a)不能對它所知甚少的對手做出足夠快的反應,要么(b)會以可預測的方式移動,并允許以直接的彈道走向碰撞。因此,彈道導彈的最佳博弈方案是在混合策略中。
混合策略將在其飛行模式中納入隨機性,為一組純策略分配一個概率分布。這些純策略將基于基本的導航啟發法,這些啟發法很可能是攔截器已知的或容易發現的。通過應用少量快速和隨機的策略切換,彈道導彈可以最大限度地發揮其避免攔截的潛力,并將時間計算的復雜性強加給攔截者。
Bogdanovic等人從博弈論的角度研究了一個多目標跟蹤的目標選擇問題。這是多功能雷達網絡中的一個重要問題,因為它需要同時執行多種功能,如體積監視和火力控制,同時有效地管理可用的雷達資源以實現指定的目標。因此,實際上,他們在[92]中處理了一個雷達資源管理問題,并使用非合作博弈論方法來尋找這個問題的最優解。他們在一個框架中制定了這個問題,每個雷達都被認為是自主的;沒有中央控制引擎來通知雷達它們的最佳策略,雷達之間也沒有任何交流。首先,他們考慮了所有雷達對目標有共同利益的情況,對于這個問題,他們提出了一種基于最佳響應動力學的分布式算法來尋找納什均衡點。然后,這個問題被擴展到雷達之間的異質利益和部分目標可觀察性的更現實的情況。對于這種情況,他們采用了相關均衡的解決概念,并提出了一種基于遺憾匹配的高效分布式算法,該算法被證明可以達到與計算量更大的集中式方法相當的性能。
最后,Parras等人研究了一個追求-逃避博弈,涉及無人駕駛飛行器(UAVs)的抗干擾策略。該博弈在一個連續的時間框架內運行,因此是動態的,在微分博弈論的幫助下被解決。在某種程度上是上述工作的高潮,它結合了通信優化、傳感器規避和導航的元素。鑒于無人機需要強大的通信來控制和傳遞信息,這種依賴性使得無人機非常容易受到干擾攻擊。有多種策略來干擾和反干擾這些通信,這可以被認為是一個零和游戲,無人機必須試圖優化其通信能力。通常情況下,干擾者的定位和移動是不確定的,所以這個游戲是一個不完全信息差分游戲。對無人機來說,最重要的回報是避免因干擾而失去通信,它可以通過操縱來對干擾劑的距離進行近似,從而避免它們。
博弈論涉及的國土安全的關鍵部分是網絡安全、模擬恐怖主義威脅和國防合同。隨著計算機科學的許多應用,博弈論很適合用于網絡安全問題。博弈論結合了計算機科學嚴格的數學嚴謹性,以及更多的心理學和哲學元素,如攻擊者的動機和心態,以及網絡安全中人的脆弱性。恐怖主義建模也同樣受益于博弈論的心理學色彩,因為恐怖活動的許多影響是不容易量化的,包括社會、經濟和其他受恐怖威脅影響的領域,所有這些都可以在博弈論的背景下建模。最后,博弈論適合于承包和分包這樣的課題,因為它能有效地捕捉到自私的個人之間的互動,這已經被用來模擬國防承包商的行為。
Litti的論文簡要介紹了傳統的網絡安全啟發式方法如何能更精確地更新,以及博弈論如何能幫助網絡安全工程師設計策略來正確預測、緩解和處理受到威脅的網絡。他開發了一種定性的方法來評估網絡攻擊的潛在風險和成本。雖然是一篇相當短的論文,但它確實提供了一些博弈論在實踐中的網絡安全情境案例。例如,他建立了一個雙人零和博弈的模型來代表攻擊者和安全系統。各個節點都有自己的相互依賴性、脆弱性和安全資產,但通過合作,將攻擊者破壞系統的可能性降到最低。
Jhawar等人提供了一種更具體的博弈論方法,即攻防樹(ADTs),來模擬涉及網絡安全威脅的場景。在這里,ADTs被用來在一個配備了自動防御協議的系統上繪制潛在的攻擊和防御場景。該系統需要全面解決所有可能的漏洞,并產生適應網絡安全攻擊的積極演變情況的反應。目前,ADTs只提供前期的系統分析。擁有一個反應式的網絡安全策略是很重要的,因為攻擊者會不斷改變他們的攻擊策略來進行進攻,所以實時反應的時間可以使系統的防御成功和失敗之間產生差異。在Jhawar等人的文章中,他們建立了一個攻擊者和防御者的簡單游戲模型--黑客和安全網絡管理員。黑客試圖破壞系統的完整性,對于他們的每一步行動,管理員都會根據攻擊者的嘗試設計一個反應性的策略。這種方法最大的效用來自于將長的廣泛形式的游戲轉換為圖形布局的能力,以便于理解和交流。
岡薩雷斯清楚地概述了一個標準的攻守雙方的競爭游戲,然后利用基于實例的學習理論和行為博弈理論。前者將認知信息編譯成一種被稱為實例的表示。每個實例都有一個由情況、決定和效用三部分組成的結構--標準的游戲。然而,這種方法的關鍵是實例之間的互動。基于實例的學習理論利用每個實例的學習結果反饋到下一個實例的情況,希望能在以后的迭代中做出更好的決定。這明顯類似于機器學習中的強化學習技術。另一方面,行為博弈論涉及到設計一種策略,我們評估各種因素,對目標和資源進行更精確的長期評估,使效用分數更接近于反映現實生活的價值。再次,博弈論促進了網絡安全應用中社會信息的獲取,并評估了這將如何影響游戲中雙方的行為。其他關鍵因素包括玩家的動機因素,每個玩家的信息完整性,以及玩家和技術之間的技術限制和低效率。岡薩雷斯強調,在任何網絡安全模型中容納這些因素的重要性將有助于為網絡防御制定更現實和有用的政策。
網絡安全的一個常見用途是用于預防恐怖主義。Hausken等人用一些指導性的博弈論原則涵蓋了恐怖主義和自然災害的建模。恐怖主義和自然災害是通過用反恐怖主義、反災害和反所有災害的投資來進行防御。對這些事件發生的可能性進行預測,防御者必須對每項防御的投資額做出戰略決策。在這些情況的效用函數中需要考慮的成本包括恐怖分子的情報或自然災害的隨機性/環境控制;攻擊/災害的強度,以及恐怖分子和防御者之間對目標價值評估的差異。本分析中使用的博弈論方法抓住了防御者在打擊每個威脅時的努力。根據每個事件的可能性,結合每個防御系統的成本,防御者可以得出資金的最佳分配方案。
Kanturska等人提出了一個嚴格的檢查,即當不同地點的攻擊概率未知時,如何使用博弈論評估運輸網絡的可靠性。該方法傾向于使用最小化算法在多條路徑上分配風險,只要旅行成本相對于攻擊造成的潛在損失較小。這對于評估安全護送貴賓穿越城市的潛在風險很有用。博弈論在這種情況下很有幫助,因為它可以分析攻擊概率未知時的網絡可靠性。
Bier提出了基于博弈論的有用建議,用于政策見解和投資決策、保險單的保費等等。她的工作討論了最弱環節模型:一種將所有資源集中在防止最壞效用情況的策略。這在實踐中通常并不理想,她反而建議考慮用各種防御戰略來對沖這些投資,針對不同的潛在目標。本文考慮了恐怖分子/防御者的博弈,以及安全投資如何改變整個社區的攻擊者-防御者互動的景觀。這主要是通過其自身的范圍研究來完成的,其中一個關鍵的收獲是,恐怖主義緩解系統可以從博弈論中受益,因為它增加了一個額外的考慮,即恐怖分子對任何防御機制的反應。因此,博弈論與對所有系統進行風險和可靠性分析的整體方法相結合,可以對反恐戰略中的所有潛在風險和漏洞進行更全面的評估。
Cioaca研究的問題與前面提到的Bier等人的問題類似,但特別關注航空安全問題。該問題的總結是針對機場安全措施的成本和維持一個穩定而有彈性的防御系統的成本。關鍵的策略是:完全防止攻擊或威脅(通過取消對目標地點的所有訪問或限制航空公司的權限,如果他們沒有遵守規定的準則);管理攻擊的時間維度(攻擊的長度和隨后的恢復時間);了解所有直接和間接的損失(包括傷亡和相關的損害,如污染或感染,受損的二級安全措施,或聲譽/信號的影響);以及緩解、響應和恢復的成本。
該模型是圍繞幾個因素和參數建立的。首先也是最關鍵的是人員損失和物質損失。 H 指人員損失,D 指物質損失,
指分配給相關安全系統的預算。攻擊中最明顯和最直接的損失,這兩種損失在這種攻擊中是非常負面的回報,并且通常比任何防止它們的成本都要高。人員損失 H 難以用數值量化,因此在對資源劃分進行適當評估時,了解如何在不同人群和不同維度上最小化人員損失是該問題最困難的方面之一。物質損失 D 可以用貨幣量化,但這種損害的連續影響通常是造成重大損失的地方。這些損失可能導致基礎設施全面關閉、設施停止運轉、工人失業,甚至可能導致設施的緩慢衰退和完全關閉。這場比賽的第二個主要因素是分配給安全系統的預算
。組織和管理機構將只有一定數量的資源分配給安全系統 T。下一個因素是安全系統組件的數量,因為這將是預算的組成方式。這些組件中的每一個都被劃分為 n 個單獨的系統子組件之一。這些組件被劃分為多個目標
,并且這些目標中的每一個都被分配了一個被攻擊的概率
和一個值
。這可以正式表示為:
對于任何資源劃分系統,Ciaoca 主張建立衡量系統彈性的維度。這分為靜態彈性,資源的有效分配;動態彈性,沖擊后系統的恢復速度,包括長期投資流入。這兩種形式的彈性表示攻擊之前、期間和之后的系統強度。在博弈論方面,Ciaoca 的研究清晰地定義了一個博弈,并結合了無數復雜且相互關聯的參數,勾勒出一個有效且可計算的博弈模型。
我們討論的關于國家安全的最后一篇論文是由 Gardener 和 Moffat撰寫的。本文涵蓋了制定戰略以評估國防承包商及其履行合同義務的潛在績效/能力的概念。用博弈論的說法,這個問題可以用合作和背叛來表達。加德納和莫法特提出了量化方法,國防部可以通過這些方法更嚴格地評估合同和招標方案,從而明智地選擇承包商并保護他們的預算。Gardener 和 Moffat 進一步了解了國防采購項目不同招標階段項目管理的變更要求。他們關注的因素是樂觀的陰謀,由于對項目進度的不合理預期,項目逐漸失控——超過了預算限制和必要的最后期限。通常,這種“陰謀”是為了獲得短期收益,實際上會導致整體損失。所玩的投標博弈不再是關于項目的成功,而更多地是關于利潤資本化,并可能進一步退化為相關國防部與整個承包商行業對抗的兩人博弈。
一些論文在防御環境中使用博弈論,但不能輕易歸類為上述任何類型,或者它們與混合戰有關。例如,Zhang和Meherjerdi研究如何在不同的通信框架中使用博弈論方法來使用和控制多組無人駕駛車輛。將單個無人駕駛車輛的任務分配給多個無人駕駛車輛會產生更有效的任務分配和性能。將勞動力從一輛強大的單一車輛分離到幾輛較小的車輛提供了靈活性、適應性和改進的容錯能力。這種網絡的用途是監視、探索、衛星集群、結合無人駕駛水下航行器 (UUV) 和潛艇、飛機和無人駕駛飛行器 (UAV) 以及協作機器人偵察。從這個列表中可以明顯看出,該策略非常強大,因為它能夠跨多個域組合資源。
同樣,可以注意到,搜索是一種“捉迷藏”游戲,在軍事應用中有著悠久的歷史。該理論是由 Koopman率先在軍事背景下(尋找逃跑目標)提出的,隨后由 Stone 等人的開發,應用包括潛艇狩獵、探雷、救援行動、第一響應者的風險以及危險源的定位。該框架提供了最優的先驗給定檢測模型、目標運動和搜索成本的搜索計劃。搜索成本可能包括搜索時間、逃生概率(對于目標)、暴露風險(對于搜索者)、信息熵或態勢感知(目標位置概率圖)。搜索器可以是移動平臺(UAV、UUV、巡邏艇、直升機、機器人、人),目標可以是靜態的、可移動的、盲目的、無聲的或發射的。在這種情況下,經常使用同時定位和映射(SLAM)算法。這一利基市場的新研究方向(受一些生物學應用的啟發)采用了信息趨向的思想,或基于從環境中提取的信息(熵)增益(零星測量、禁區、搜索者之間的通信)實時控制搜索者的移動。博弈論的原理可以應用在可以建模為“捉迷藏”游戲的環境中。
在上一節中,很明顯,許多論文在多個領域都有適用性,并且使用了無數類型的博弈并為一系列玩家建模。因此,必須以有原則的方式對已審查的論文進行分類。為此,我們使用第 2 節表 1中已經介紹的分類方案。
特別是,可以根據 (1) 戰爭的領域或類型 (2) 論文中使用的一種或多種博弈類型,以及 (3) 論文中建模的玩家的性質對所審查的論文進行分類。該領域可以大致分為傳統(T)或現代(M),更具體地說,可以分為陸戰、海戰、空戰、網絡戰和太空戰。根據博弈是非合作的還是合作的、順序的還是同時的、離散的還是連續的、零和還是非零和,所使用的博弈類型也可以有一個復雜的分類。最后,博弈可以是兩人、三人或多人(多于三人)博弈。所有這些都在表 1中進行了簡要介紹。
在表2中,我們提供了基于上述分類方案的所有評論論文的不言自明、詳盡的分類。
表2.使用表 1 對國防博弈論應用領域的論文進行分類。此處描述的共有 29 篇論文被分類。
我們現在考慮的問題是,在這些論文中,哪些論文引起了研究界的最大興趣,或者導致了后續或相關工作的開展。衡量這種影響的一個通常使用的指標是引文數,雖然這個指標顯然偏向于早期的論文。盡管如此,在表3中,我們展示了所考慮的 29 篇論文的 Google Scholar 引用數。哪些論文被引用次數最多,讀者不言而喻,我們不再贅述。然而,我們強調,引用次數并不是衡量影響力的唯一指標,也不一定是衡量一篇論文在研究領域的影響力的最有效方法。但是,它是一個現成的衡量標準,可以傳達有用的信息。
表3. 已審查論文的 Google Scholar 引用數。谷歌學術引文數據于 2021 年 12 月 18 日訪問。
表3還顯示了每篇論文的原籍國,其定義是出現在相應作者的第一署名中的國家。可以看出,這些論文是由來自美國、英國、澳大利亞、中國、荷蘭、加拿大、以色列、印度、德國、西班牙和羅馬尼亞的研究人員撰寫的。看來,美國、歐洲(尤其是西歐)和中國對在國防科學中應用博弈論有主要興趣,同時我們承認,可能有幾篇用英語以外的語言撰寫的論文,我們沒有考慮。
為了了解在上述分類中描述的不同領域之間是否存在充分的思想交流,我們考慮了在29篇評審論文中,有多少論文引用了同一組的其他論文。表4列出了根據谷歌學術的引用情況。令人驚訝的是,沒有一篇論文被其他被審查的論文引用兩次以上,而且大多數論文根本沒有被這組論文中的其他論文引用。盡管這組論文的總體引用次數是健康的--根據表3,被審閱的論文平均被引用34.97次,而且有幾篇論文被引用超過50次。然而,這些引用大多來自與國防科技有關的論文,這些論文使用各種方法和工具來解決類似的問題,顯然,在國防應用中使用博弈論的研究人員之間幾乎沒有交叉交流。因此,除了我們在下面介紹的文獻中的 "空白 "表明了潛在的研究機會外,還應該強調的是,應該提高對該領域類似工作的認識,這將可能導致在某一特定領域產生的想法被重新用于其他領域和與國防有關的其他應用。
表4. 根據谷歌學術,審閱過的論文中的引用情況。谷歌學術的引用數據是在2021年12月18日訪問的。從該表可以看出,在該領域中相互引用對方的工作是極其罕見的。
審查的論文表明,博弈論可以提供一個統一的框架來分析代理在防御環境中的決策行為。在本節中,我們將簡要討論迄今為止尚未應用博弈論但如果在未來應用將做出有用貢獻的一系列潛在防御場景。
國防高級研究計劃局(DARPA)最近對 "馬賽克戰爭 "的調查就是博弈論未來潛在應用的一個例子。這個想法是在操作多個無人駕駛飛行器的背景下被提到的,并建議在一個'馬賽克'網絡中擁有許多較小的具有成本效益的資源相互連接,這樣,如果幾個單位被摧毀,網絡的整體完整性仍然存在,就像馬賽克即使被移除幾塊瓷磚也能保持其圖像。我們的目標是,這樣一個具有不同能力的龐大資源陣列將能夠以其完整性和復雜性壓倒敵人。它利用并發性的原則來解決由數百萬個傳感器和執行器組成的系統中錯綜復雜的連接問題。這些系統又必須處理系統間的通信。如果成功實施,這樣一個系統的系統可以為軍事戰略家提供一個壓倒性的強大的武器裝備和資源網絡,它可以憑借其動態的規模和復雜性擊敗對手。這種將軍火庫的不同部分結合在一起的方法使每個部分的利益最大化,并重新引入了對資源消耗性的關注,而不是專注于幾件高價值的武器裝備。這反過來又為戰略建立了彈性和適應性,擺脫了重量級的、單一重點的攻擊方法。由于有大量成本較低的資源需要合作以獲得最佳結果,這種情況在一個層面上可以被模擬成多人合作游戲,而與對手的爭斗可以被模擬成多人非合作游戲。可以注意到,"馬賽克戰爭 "的概念本質上類似于更普遍的基于代理人的建模概念,它已經被用于幾個不同的背景,從無齡航空器設計到傳染病動態建模,博弈論已經在其中一些背景下成功使用。
在海戰的背景下,博弈論可以卓有成效地應用的另一個領域是海軍的易損性。在分析海軍的易感性時,海軍艦艇要考慮其環境、運動模式和潛在的對手傳感器,以計算其在秘密移動時被發現的風險。這樣的應用與國防科學中通常研究的跟蹤問題有重疊之處,正如顧氏所解釋的,它描述了使用傳感器網絡的跟蹤。如前所述,這種情況可以被建模為一個雙人非合作性差分博弈,而探測是每個參與者的主要回報參數。
事實上,地基跟蹤問題也可以從博弈論的應用中受益,而到目前為止,這一領域的論文還很少。地面追蹤問題既可能出現在地面軍事應用中(這里歸類為陸戰),也可能出現在國內安全和反恐應用中(這里歸類為國家安全應用),其中安全機構在整個社會中追蹤個人行動的能力--包括他們的位置、社會網絡和動機--是一種關鍵能力。后一種情況可以被模擬為追擊和躲避的雙人游戲,或者也許只是追擊和偵察,目的是不向目標透露追擊的情況,而目標將試圖識別追擊。在這種情況下,從秘密跟蹤中獲得的預測性信息量將是回報。 賽博戰建模是博弈論可以應用的另一個領域,同樣,正如前面相關部分所述,除了主要來自計算機科學領域的論文之外,很少有論文涉及這一領域網絡安全。Kim等人[124] 描述了所有軍事行動不可或缺的網絡戰場景,并強調了物聯網 (IoT) 和腦機接口等新技術范式所發揮的關鍵作用。防御專家越來越需要預測和先發制敵的網絡戰策略。使用新穎的技術接口對涉及網絡戰場景的決策制定進行建模是博弈論可以發揮重要作用的領域。
如上所述,根據表 4 ,在所呈現的文獻中,似乎很少有交叉、思想交流,甚至對其他類似作品的認識,也可能被認為是一個“空白” 。因此,在國防應用中使用博弈論的研究人員之間加強合作是可取的,這將使博弈論方法在多個戰爭領域的重用。
這里有必要討論一下,除了總結現狀和確定文獻中的差距之外,像這樣的評論如何為該領域增加價值。我們注意到,在選定的論文集中,從一篇論文到另一篇論文的引用很少。雖然很難說出其中的原因,但可以看到大多數研究都集中在特定的戰爭領域,如陸戰、海戰或空戰,并試圖解決特定戰爭領域的具體問題。因此,專注于不同戰爭領域的論文不一定被認為是另一篇在國防背景下應用博弈論的論文,而是屬于不同戰爭領域的論文,因此沒有被關注。然而很明顯,這樣的方法可能會導致錯失機會,因為往往沒有考慮到同一套博弈論工具還可以在哪里得到類似的應用。像這樣的一篇評論文章將在一定程度上糾正這個問題。此外,我們可以看到,報酬函數的定義往往是僵化和狹隘的,是基于傳統上被認為是某一類型戰爭的重要參數。例如,陸地戰爭的重點是盡量減少傷亡,而國家安全應用的重點是提高公眾信心。然而,在大多數類型的戰爭中,有一系列的因素促成了最終的回報,從傷亡和軍事資產的損失到公眾信心、間接經濟成本、機會成本、盟國的成本以及政治和戰略考慮。這篇評論文章通過對幾個戰爭領域的報酬結構的廣泛概述,可能會刺激在每個使用博弈論的戰爭領域建立更全面的報酬函數模型。此外,從一般意義上講,這篇評論將有助于強調與國防有關的決策是一個有條不紊的理性過程,可以進行結構化分析,而不是像過去國防界某些部門所認為的那樣是一個直觀的過程[125]。同時,所提出的分析將有助于避免一方面的微觀管理和另一方面的沖動決策[126],而不是鼓勵國防應用中的量化決策過程。
特別是,在作戰和戰術決策過程之外,所提出的評論還具有管理和社會意義。
博弈論的應用對一個國家的國防力量非常有用,不僅在戰術和作戰方面,而且在和平時期的國防資產的戰略管理方面也是如此。例如,出于威懾和作戰準備的目的,軍事資源的戰略布局,如戰艦、潛艇和戰斗機,可以被視為一個合作博弈,或者相當于一個優化問題,可以通過線性編程或非線性編程來解決。同樣,關于戰略軍事設施,如基地、簡易機場、港口,甚至公路和鐵路[127,128]的安置和建設的決策,也可以通過使用合作博弈論對相關情景進行建模來幫助。另一個可以應用博弈論的管理決策過程是后備軍事人員的管理,包括何時征召后備人員。因此,博弈論不僅對做出作戰決策的軍事人員有用,而且對必須做出國防相關決策(包括在和平時期)的文職管理人員和政治家也有用,因為這些決策可能會產生長期的影響。
在國防場景中應用博弈論的社會效益主要來自國家安全的觀點。公眾對國土安全的看法是國防考慮的一個重要部分,對國防開支有相當大的影響。國防和執法部門的決策者在做出國防開支決策時,不僅需要考慮實際的風險和威脅,還需要考慮感知的風險,以及受其影響的因素,如保險費用、對旅游業的影響、信用評級機構的評級、投資者對一個國家的投資意愿、安全措施的實際和感知成本等等。博弈論可以成為一個非常有用的工具,用來模擬這樣一套復雜的因素和參數,以及不同情況下產生的整體回報。反過來說,這種決定一旦做出,顯然會影響國家安全,并反過來影響公眾對國家安全的信心和看法。因此,對風險的感知和國家安全的支出相互影響,博弈論所提供的工具集對于模擬這樣一個復雜的反饋回路非常有用。顯然,公眾的情緒和對事件的看法在戰時情景下也很重要,在戰爭的各個領域做出的決定都會影響公眾的看法,這反過來可能會影響沖突的軌跡。因此,博弈論在國防場景中的應用具有明顯的社會意義。
同樣重要的是,本評論增加了新的見解,對理解指揮和控制戰爭很有幫助。其中一個見解是,智能代理之間的合作和敵對競爭并不像它們乍看起來那么根本不同:事實上,在某種意義上,它們都可以用同一個框架(博弈論)來表示,并且都涉及一些智能參與者、戰略和回報。不同的是,敵對的競爭由非合作博弈論表示,其中一個玩家的報酬增加往往導致另一個玩家的損失(零和博弈是這種情況的一個特例)。另一方面,合作是由合作博弈論來代表的,在這里我們對聯盟進行建模,有時還討論 "公共利益 "的概念。當一個敵對的玩家有可能變成盟友或反之亦然時,這樣的洞察力特別有用。另一個見解是,將防御場景作為游戲來建模的主要困難不是來自于確定可能的戰略或參與者,而是來自于量化的回報。很多時候,我們審查過的論文在量化回報時做了一些假設、簡化和估計,可以設想,這些過程引入的累積錯誤可能已經嚴重改變了游戲的結果,從而使建模變得無效。因此,許多論文在應用博弈論時面臨的主要挑戰是如何準確或合理地模擬報酬。除非像我們在這里所做的那樣,對博弈論的幾個防御性應用進行廣泛的回顧,否則無法獲得這樣的見解,而這些見解對于塑造該領域未來的研究方向非常重要。
博弈論已被證明是一種通用且強大的工具,可用于深入了解許多領域的智能體和參與者的決策過程。在這篇評論文章中,我們詳細闡述了博弈論可以應用于國防科學技術的幾種場景,并簡要回顧了該方向的現有研究。我們根據所研究的戰爭類型、使用的博弈類型和玩家的性質,對 29 篇評論論文進行了廣泛的分類。基于所做的觀察,我們確定了文獻中的空白,即博弈論迄今尚未被廣泛運用,但在未來有很大的潛力被富有成效地運用;我們還討論了博弈論的國防應用在未來可能擴展的方向。
基于領域的分類是采用的主要分類模式,在此背景下,我們將審查的論文分為陸地、空中、海洋、網絡和空間領域。我們還考慮了主要與跟蹤和國家安全有關的論文。對于所考慮的每篇論文,都定義了參與者的數量和角色以及博弈類型,并在可能的情況下討論了策略和收益函數。這項工作的目的是確定最常分析的領域以及經常使用的博弈類型,并利用這些知識來確定文獻中的差距,在國防背景下的各個領域和戰爭類型中相互交流意見。
希望這次審查能產生幾個積極的結果。我們發現了文獻中的空白,并指出博弈論提供的工具集在分析某些戰爭模式時并未得到充分利用。例如,我們指出,使用博弈論分析的海戰論文相對較少。我們還注意到,可以通過應用博弈論來分析新興的戰爭模式,例如馬賽克戰。因此,本次審查可能會導致更多的博弈論方法來模擬這種戰爭模式。此外,我們強調了該領域內的引文網絡非常稀疏:也就是說,在國防應用中使用博弈論的各種研究人員之間的思想交流是很少見的。這篇綜述可能會成為該領域研究者之間合作和相互交流的催化劑。然而,最重要的是,這篇評論旨在向迄今為止尚未使用博弈論的國防科學家強調博弈論在國防應用中的效用,因此將為國防科學家引入一套新的工具,他們可以將其應用于他們的研究.
隨著世界應對和平與穩定面臨的新挑戰,人類的未來取決于我們和平解決問題的能力。雖然這是一個崇高的目標,但權力的投射絕對比實際的武裝沖突要好,后者在許多層面上都會付出很高的代價,博弈論確實可以在決定一些可能發生的“軟沖突”中發揮作用在未來幾年和幾十年里。隨著未來幾年對國防戰略和能力的關注可能會增加,博弈論可以作為一種額外的工具,國防科學家可以在許多抽象層次上使用它來解決部署、感知、跟蹤和資源分配問題。
這項研究是由澳大利亞國防科學技術集團資助的。
略
我們并不是生活在真空中!我們與環境中的其他主體互動以做出理性的決定。例如,選擇從你的公寓到校園的最快或最簡單的路線,在eBay拍賣中選擇最合適的出價,決定是否在雙人撲克游戲中認輸,或在石頭剪刀布游戲中選擇獲勝的一步棋。在所有這些例子中,我們在做決策時必須與其他代理交互。特別是,我們的最佳策略取決于環境中其他代理的行為(例如,選擇的路線取決于使用這些路線的其他人的數量,如果我的對手選擇剪刀,我就選擇石頭)。在給定的環境中,面對其他戰略主體時,我們如何做出理性的決策?最好的策略是什么?博弈論幫助我們回答這些問題。
博弈論是一種數學工具,它允許我們對特定環境下的利己主義和理性行為者的戰略互動進行推理。該結構提供了一組框架,描述了在這樣一個戰略代理人的環境下的理性結果。雖然博弈論領域起源于經濟文獻,但計算機科學家在過去幾十年里從建模和計算的角度對這一領域做出了重大貢獻(這導致了計算博弈論)。此外,許多博弈論應用在現實世界中(例如,分配警力到洛杉磯國際機場的檢查站,分配巡邏人員來保護非洲的野生動物,預測美國參議員的投票行為)。
觀眾將會學習到: (1) 引入基本的博弈論決策工具,建模和理解自利和戰略代理的戰略互動; (2) 了解建模工具的解決方案概念,以及如何使用它們來預測agent的決策行為; (3) 介紹了計算方面的計算這些解的概念; (4 )接觸了博弈論在安全和社會科學領域的一些主要應用。 此外,如果時間允許,講座將涵蓋更高級的主題,包括解決復雜策略空間的博弈,博弈中的學習,完全信息的動態博弈,不完全信息的靜態博弈,不完全信息的動態博弈。