在存在智能對手的情況下,博弈論模型(如安全博弈)已被證明是減輕保護和安全協議中可利用漏洞風險的有效工具,因為它們模擬了對手和防御者之間的戰略互動,并允許防御者在面對這種對手時計劃使用稀缺或有限的資源。然而,標準的安全博弈模型在允許防御者執行的規劃類型方面具有有限的表現力,因為它們只關注一組固定的安全資源的部署和分配。這忽略了兩個非常重要的規劃問題,它們涉及安全系統的戰略設計和部署的資源,以及安全協議的可用性和實施。當這些問題出現在現實世界的系統中時,如果不以一種原則性的方式來處理,安全協議的效用和效率就會出現重大損失。
為了解決這些局限性,在這篇論文中,我為安全博弈的規劃問題引入了一個新的層次結構,將問題分為三個層次的規劃(i)戰略規劃,考慮長期的規劃期限,以及與游戲設計有關的決策,這些決策限制了可能的防御者策略;(ii)戰術規劃,考慮較短的期限,處理資源的部署,以及在戰略層面的限制下選擇防御者策略;(iii)行動規劃,處理在現實世界中的策略實施。
首先,以戰略規劃為重點,我討論了選擇一組資源和時間表類型的設計問題。我引入了一個新的基本問題,即資源團隊和戰術的同步優化(SORT),它模擬了戰略和戰術規劃的耦合問題,在選擇資源類型方面對游戲設計進行了優化,并對它們在現場的實際部署進行了優化。我提供了有效解決SORT問題的算法,該算法使用優化問題的分層放松來計算這些戰略層面的投資決策。我表明,這種更具表現力的模型使防御者能夠進行更精細的決策,從而在效用上獲得巨大的收益。其次,在資源異質性的安全博弈的相關性和艱巨性的激勵下,我還通過提供一個計算異質資源的適應性策略的框架來解決戰術規劃方面的挑戰。最后,我研究了行動規劃的問題,這在安全博弈的文獻中從未被正式研究過。我提出了一個可操作策略的新解決方案概念,它隨機選擇一個最優選擇的純策略子集,其基數由防御者選擇。我展示了計算這種可操作策略的難度,并提供了一種用于計算可操作的最佳均衡的算法。
在所有這些問題中,我的動力來自于現實世界的挑戰,以及開發可在現實世界中使用的解決方法。因此,許多工作都是與Panthera、WWF和其他非政府組織(NGO)合作,幫助保護國家公園和野生動物免受森林砍伐和偷獵,以及與TSA合作,保護我們的機場等關鍵基礎設施免受恐怖襲擊。正因為如此,在處理這三個層次的規劃時,我開發的解決方案不僅是新穎的、學術上有趣的,而且是可部署的、對現實世界有影響的。
面對來自外部對手越來越復雜的攻擊,相互依賴的系統所有者必須明智地分配他們(通常是有限的)安全預算,以減少他們的網絡風險。然而,在對人類決策進行建模時,行為經濟學表明,人類始終偏離經典的決策模型。最值得注意的是,卡尼曼和特維斯基獲得2002年諾貝爾經濟學紀念獎的前景理論認為,人類以一種扭曲的方式感知收益、損失和可能性。雖然在經濟學和心理學方面有豐富的前景理論文獻,但現有的研究相互依存系統安全的工作大多沒有考慮到上述的偏見。
在這篇論文中,我們提出了新的數學行為安全博弈模型,用于研究由有向攻擊圖建模的相互依賴系統中的人類決策。我們表明,行為偏差導致了次優的資源分配模式。我們還通過決策和博弈論框架分析了保護具有異質性價值的多個孤立資產的結果,包括同時和序貫博弈。我們表明,與理性維權者相比,行為維權者過度投資于價值較高的資產。然后,我們提出了不同的基于學習的技術,并調整了兩種不同的基于稅收的機制,以引導行為決策者做出最佳的安全投資決策。特別是,我們展示了這種學習和機制在四個現實的相互依存系統中的結果。總的來說,我們的研究建立了嚴格的框架來分析大規模相互依賴的系統和由人類決策者管理的異質孤立的資產的安全,并對在這種情況下出現的安全漏洞提供了新的重要見解。
今天的網絡物理系統(CPS)正日益面臨著復雜對手的攻擊。這些系統的運營商必須明智地分配他們的(通常是有限的)安全預算,以減少他們管理的系統的安全風險。由于大規模系統由多個相互依賴的子系統組成,由不同的運營商管理,每個運營商負責保護自己的子系統,因此,這個資源分配問題變得更加復雜。這導致了在理解如何更好地保護這些系統方面的重要研究,戰略和博弈理論模型由于能夠系統地捕捉系統中各實體的決策而受到越來越多的關注[1]-[7]。特別是,在對防御者和攻擊者可用的策略和信息的各種假設下,這些設置已經被探討過了[8]-[10]。
之前的工作已經在決策論和博弈論的背景下考慮了這種安全決策問題[3], [11]。然而,大多數現有的工作都依賴于經典的決策模型,其中所有的防御者和攻擊者都被假設為做出完全理性的風險評估和安全決策[3], [12], [13]。另一方面,行為經濟學表明,人類始終偏離這些經典的決策模型。最值得注意的是,行為經濟學的研究表明,人類對收益、損失和概率的感知是傾斜的、非線性的[14]。特別是,人類通常對低概率的權重過高,對高概率的權重過低,這種權重函數呈反S形,如圖2.2所示。許多實證研究(例如,[14],[15])已經為這一類行為模型提供了證據。
這些效應與評估這類系統的安全性有關,在這些系統中,實施安全控制的決定不是純粹由自動算法做出的,而是通過人類的決策,盡管有威脅評估工具的幫助[16]-[18]。在大眾媒體[19]-[21]和學術期刊[22]、[23]中,有許多文章討論了安全決策中人的因素的普遍性,但沒有一篇文章闡明了認知偏差對整個系統安全的影響。
本論文通過研究上述人類行為決策偏差對安全資源分配問題的影響,在兩個主要的不同環境中彌補了上述差距。我們的第一個目標是探索大規模相互依存系統中的這種影響,在這些系統中,對手經常使用踏腳石攻擊,可以通過攻擊圖的概念來捕獲,攻擊圖代表了攻擊者在系統中到達目標的所有可能路徑[24]。第二個目標是利用決策和博弈論的設置,探索不同設置(包括防御者和攻擊者之間的同時和連續互動)中的行為決策,這些孤立的資產對防御者具有異質性的價值。
本論文的關鍵信息是:
通過在決策建模中加入非線性概率加權,我們可以預測行為決策偏差對網絡系統上安全資源分配的影響,并為減輕這種偏差的負面影響提供指導。
論文還提出了在個人層面(使用學習技術)和社會層面(使用機制設計)加強人類安全資源分配的指導技術,我們探討了理性決策者和行為決策者在這些指導技術結果上的差異。
接下來,我們將對上述環境和我們在各種環境中的貢獻進行概述。
在這項工作中,我們考慮了這樣一種情況:在相互依賴的系統的 "攻擊圖 "模型中,每個(人類)防御者對成功攻擊的概率有誤解。我們描述了這種誤解對每個防御者的安全投資的影響,其中每個防御者負責防御一個子網絡(即一組資產)。此外,每個防御者也可以投資于保護其他防御者的資產,這在攻擊者利用網絡路徑到達某些目標節點的相互依賴的系統中可能是有益的。在對每條邊的成功攻擊概率的適當假設下,我們建立了每個防御者的感知預期成本的凸性,并證明了這一類博弈中純策略納什均衡(PNE)的存在。
我們主要研究了具有這種行為偏差的用戶在孤立的情況下以及在博弈論的環境中行動時的安全投資。因此,我們發現了行為決策下安全投資的某些特征,而這些特征在先前工作中考慮的經典決策概念(即預期成本最小化)下是無法預測的[9]。特別是,我們表明,非線性概率加權會導致防御者的投資方式增加他們的資產對攻擊的脆弱性。此外,我們還說明了在系統中擁有混合防衛者(具有不同程度的概率加權偏見)的影響,并表明對概率的認識有偏差的防衛者的存在實際上會使系統中的非行為防衛者受益。然后,我們提出了一個新的指標,即行為無政府狀態的價格(PoBA),以反映行為決策者所做的均衡投資與集中式(非行為式)社會最優解決方案相比的低效率,并為PoBA提供了嚴格的界限。
與安全領域的戰略(或經濟)決策有關的開創性工作之一是[25],它考慮了一個保護單一節點的單一防御者,該節點的脆弱性可以通過對該節點的投資來降低。作者對防御者在這種情況下的投資進行了深入研究。這種關于防御者選擇投資以保護資產免受非戰略攻擊者攻擊的決策理論表述已被廣泛研究(例如見[9],[26]-[28]及其中的參考文獻)。然而,如上所述,在大多數這些工作中,防御者被建模為完全理性的決策者(也許有某種程度的風險規避[27]),他們選擇他們的行動來最大化他們的預期效用。
在這項工作中,我們將前景理論引入一個決策理論安全框架,該框架涉及一個保護具有異質性價值的多種資產的防御者。具體來說,我們考慮一個由許多資產組成的CPS,并假設防御者誤解了每個資產成功被破壞的概率。我們描述了這種誤解對防御者的安全投資的影響。特別是,我們表明,與正確感知攻擊概率的防御者相比,行為概率加權導致防御者將更多的投資轉向價值更高的資產。特別是,隨著防御者的行為越來越多,擁有正投資的節點數量也會減少。這種投資的轉變導致了行為防御者的(真實)預期損失的增加。
在這項工作中,我們考慮的是一個共有資源博弈的環境,其中資源發生故障的概率隨著資源總投資的減少而減少。該博弈中的參與者需要投資(受預算約束)以保護一組給定的節點免遭失敗。每個節點對每個玩家都有一定的價值,同時也有失敗的概率,這是玩家對該節點總投資的函數。在這種情況下,我們考慮行為概率加權(相對于失敗概率)對投資策略的影響;這種概率加權,即人類以非線性的方式對概率進行加權,已被行為經濟學家確認為人類決策的一個共同特征。我們研究了有多個(行為)參與者的博弈論設定,并表明該博弈中存在純策略納什均衡,并表明在所有均衡中每個節點上的總投資是唯一的。此外,我們表明,與玩家正確感知失敗概率的情況相比,反S型行為概率加權(玩家對低概率加權過高,對高概率加權過低)導致玩家將更多的投資轉移到高價值的節點,而對低價值的節點投資不足。特別是,隨著玩家的行為越來越多,擁有正投資的節點數量也會減少。另一方面,我們表明,在S型行為概率加權(玩家對低概率加權過低,對高概率加權過高)的情況下,有積極投資的節點數量增加。最后,我們量化了行為水平的異質性對PNE投資的影響,并比較了提高社會成本的不同可能的培訓政策。我們通過數字模擬來說明我們的理論結論。
與考慮非戰略攻擊者的防御者決策理論公式相比,博弈理論模型在防御者和攻擊者可用戰略的各種假設下進行了探索[3], [4], [9]。特別是,在[7]、[29]、[30]中研究了攻擊者對防御者的行動作出戰略反應的情景。對我們這里的工作特別感興趣的是論文[30],它考慮了一個連續的防御者-攻擊者框架,并顯示了每個參與者的最佳策略。同樣,現有工作的一個共同點是假設防守方和進攻方都是按照完全理性決策的經典模型行事。
在這項工作中,我們將前景理論引入到一個涉及一個防御者和一個攻擊者的連續博弈理論框架中。具體來說,我們考慮的情況是,(人類)防御者對每個地點的成功攻擊概率有誤解。我們描述了這種誤解對防御者的安全投資和攻擊者的決定的影響。與[31]-[33]不同的是,作者考慮了這種概率加權在某些特定類別的沒有戰略對手的相互依賴的安全博弈中的影響,我們考慮的情況是,防御者將她的投資放在最能保護她的站點上,考慮到戰略攻擊者選擇哪個站點被破壞以最大化防御者的預期損失。
我們首先展示了防御者(在行為概率加權下)的(感知的)最佳防御分配的唯一性。然后,我們描述了概率加權對防御者所做的投資決定的影響;特別是,我們表明,對概率的非線性感知會誘使防御者以增加其被攻擊時的損失的方式轉移其最佳投資。最后,我們引入了行為概率加權價格(PoBW)的概念,以量化行為防御者的投資對其真實預期損失的無效率。我們提供了PoBW的界限,并提供數字例子來說明上述現象。
一類特殊的涉及攻擊者和防御者的同時移動博弈(玩家必須同時選擇他們的策略,而不先觀察對方做了什么)已經在各種情況下被研究。例如,Colonel Blotto博弈[34]是一個有用的框架,用來模擬攻擊者和防御者之間在不同的潛在目標(即戰場)上分配一定數量的資源。具體來說,[35]提出了一個異質布洛托上校博弈的解決方案,該博弈具有不對稱的參與者(即具有不同的資源)和一些可能具有不同價值的戰場。雖然Colonel Blotto博弈通常涉及確定性的成功函數(在某個節點上投資較高的玩家贏得該節點),但其他工作研究了每個玩家的獲勝概率是每個玩家的投資的概率(和連續)函數的情況[7]。
在這些工作中,按照人類決策的經典博弈理論模型,防御者和攻擊者被認為是完全理性的決策者,他們選擇他們的行動來最大化他們的預期效用。很少有例外的情況,通過決策理論分析關注概率加權對單個防御者決策的影響(沒有戰略攻擊者)[33],關注多個防御者對網絡的投資(重點是了解網絡結構的作用)[31],或者關注單一目標環境下雙方的行為決策[36]。與這些工作不同的是,我們考慮的是在有多個目標的環境中,行為決策的影響,這些目標對參與者(即防御者和攻擊者)的價值不同。
在這項工作中,我們將前景理論引入涉及攻擊者和防御者的博弈論框架。具體來說,我們考慮一個由許多資產組成的CPS,并假設防御者誤解了每個資產的成功妥協的概率。我們首先建立了每個參與者(即攻擊者和防御者)的目標函數的凸性,并以此來證明行為多目標安全博弈的純策略納什均衡(PNE)的存在。然后,我們證明了該PNE在我們的博弈中的唯一性。然后,我們描述了(理性)玩家的最佳投資策略的特點。然后我們表明,防御者和攻擊者更多地投資于高價值資產(在適當的條件下)。隨后,我們通過數字模擬表明,對概率的非線性感知可以誘使防御者將更多的投資轉移到更有價值的資產上,從而可能增加他們的(真實)預期損失。
在前面的表述中,我們已經表明,與非行為決策相比,行為決策會導致次優的資源分配。在這項工作中,我們試圖引導行為決策人進行更好的安全投資。特別是,我們為相互依賴的系統設計了一種推理和安全投資決策技術。我們提出了不同的基于學習的技術,以指導行為決策者在兩種不同的情況下做出最佳的投資決策,每一種情況都代表著防御者是否了解對手的歷史(即在前幾輪選擇的攻擊路徑)。我們提出的技術增強了已實施的安全策略(在通過優化分配有限的安全資源來減少系統被破壞時的總損失方面)。我們的系統有用于單輪和多輪設置的組件。
我們對N = 145名參與者進行了一項人體研究,他們在兩個簡單的攻擊圖中選擇防御分配。然后,我們使用五個合成的攻擊圖來評估我們的系統,這些攻擊圖代表了現實的相互依賴的系統和通過它們的攻擊路徑。這些系統是DER.1[17],(由NESCOR建模),SCADA工業控制系統,使用ICS的NIST指南建模[12],IEEE 300總線智能電網[37],電子商務[13],和VOIP[13]。我們與之前的兩個帶有攻擊圖的最佳安全控制解決方案[16]、[38]做了一個基準比較,并與我們的評估相比,量化了損失的低估程度,其中防御者是行為的。在進行分析和獲得這些基于行為模型的結果時,我們解決了在相互依賴系統的安全方面的幾個特定領域的挑戰。這些挑戰包括用某些參數來增強攻擊圖,如邊對安全投資的敏感性、基線攻擊概率的估計以及我們公式中的防御機制類型。
確保相互依賴的系統安全的另一個目標是最小化所有保衛此類系統的利益相關者的社會成本。在這項工作中,我們考慮了兩種不同的基于稅收的機制,以引導行為決策者和自私的理性決策者在相互依存的安全博弈中做出最佳投資決定。這種機制使用貨幣支付/獎勵來激勵社會最優(SO)安全行為,即那些最小化所有防御者因安全攻擊而產生的成本總和。兩種基于稅收的機制是 "外部性 "機制[39]和Vickrey-Clark-Groves("VCG")機制[40]。這些機制通過激勵防御者分配其有限的安全資源以最小化系統的社會成本來加強已實施的安全政策。我們展示了一個基本結果,即不存在可靠的基于稅收的機制,可以激勵社會最優的投資狀況,同時保持弱平衡的預算(即中央監管機構不支付自費資金),適用于所有相互依賴的安全博弈實例。
我們在第8.7節中展示了我們的結果與安全經濟學文獻[40]、[41]中的先前結果之間的區別。我們的結果表明,與單體系統相比,在相互依賴的安全博弈中設計機制更具挑戰性。我們還展示了在我們的相互依賴的安全博弈框架中,行為偏差對兩個機制的結果的影響。特別是,我們表明,在這種稅收機制下,行為維護者與理性維護者相比會支付更多的稅收。然后,我們使用四個合成的攻擊圖來評估我們的發現,這些攻擊圖代表了現實的相互依賴的系統和通過它們的攻擊路徑。在進行分析時,我們修改了相互依存的安全博弈的機制公式(第8.5節),并將行為偏差納入我們的公式中(第8.2節)。
本論文在兩個主要環境中證明了行為偏差(來自前景理論)對安全決策的影響。首先,它提出了新的數學行為安全博弈模型,用于研究由有向攻擊圖建模的相互依賴系統中的人類決策,并表明行為偏差會導致攻擊圖邊上的次優資源分配模式。其次,它通過決策和博弈論框架,包括同時和順序博弈,分析了保護具有異質性評價的多個孤立資產的結果。它描述了在這種情況下風險誤解對安全投資的影響,并表明與理性防御者相比,行為防御者會過度投資于價值較高的資產。然后,它提供了不同的基于學習的技術,并調整了兩種不同的基于稅收的機制,以指導行為決策者在上述環境中加強他們的次優安全投資模式,并做出最佳安全投資決策。
本論文的其余部分組織如下。第二章介紹了對相互依賴系統中的行為決策的分析。第三章和第四章分別提供了在風險誤解下保護具有異質性估值的多個孤立資產的決策理論分析和博弈論分析。在第五章中,我們提出了在一個具有多個異質估值目標的CPS上,防御者和攻擊者之間的順序博弈設定。第六章展示了行為決策對同時進行的攻擊者-防御者博弈的影響。在第七章中,我們提出了兩種新的學習算法,以指導行為決策者進行更好的安全投資。在第八章中,我們為我們的相互依賴的安全博弈調整了兩種機制設計,以實現社會最優(使系統的社會成本最小化)。第九章是本論文的結論,并提供了下一步和未來的工作。
在這篇論文中,我們研究了博弈論在確定各種基礎設施保護策略的應用。博弈模型是在防御者和對手之間進行的。防御者尋求最小化對基礎設施網絡的損害,而對手的目標則是最大化。本論文分為兩部分。在第一部分,我們考慮資源分配博弈模型,在第二部分,我們研究巡邏和搜索博弈。
在資源分配博弈領域,我們解決了文獻中現有的一些限制。其中一個限制是,這些模型大多假設博弈的參數是確定的,或者遵循一個已知的分布。而在現實中,博弈的某些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。為此,我們研究了目標估值不確定情況下的一次性安全博弈。我們提出了一個模型,在這個模型中,雙方都使用一種穩健的方法來應對目標估值的不確定性。我們表明這個模型的納什均衡是門檻型的,并開發了封閉式的解決方案來描述均衡點的特征。然后,我們將我們的模型應用于向美國10個城市地區分配安全資金的真實案例。
另一個限制是缺乏解決分層決策的模型。保護基礎設施及其用戶免受蓄意攻擊,需要在組織結構中做出戰略和運行決策。盡管通常是分開分析的,但這些決策是相互影響的。為了解決這個問題,我們開發了一個兩階段的博弈模型。在第一階段,玩家做出投資決策,在第二階段,他們決定保衛/攻擊哪些網站。我們區分了在第二階段出現的兩種類型的博弈。最大損害博弈和滲透/騷擾博弈。我們證明,在預算約束下,這個博弈的解決方案是唯一的。事實上,當第二階段的博弈是滲透/騷擾類型時,投資-防御博弈有一個獨特的閉式解,這是非常直觀的。結果顯示,增加對一個目標地點的防御投資會降低防御和攻擊該目標的概率。然而,攻擊投資的增加會增加防守和攻擊該目標的概率。同樣,防御者(攻擊者)投資效率的提高會導致防御者和攻擊者的投資減少(增加)。我們還將提出的模型應用于一個真實的案例。真實數據的結果表明,攻擊者從失敗的攻擊中得到的懲罰是決定防御者的投資和防御概率的最佳分布的重要因素。防御者的第二階段防御決策是對第一階段投資決策的補充。也就是說,在得到很少或零投資的目標地點中,最重要的一個地點在第二階段以相對高的防御概率被覆蓋。此外,隨著攻擊者預算的增加,防御投資從不太重要的站點轉移到更重要的站點。
我們還研究了資源分配模型中的總體性保護選項。總體保護指的是同時保護多個目標的選項,例如,應急響應、邊境安全和情報。大多數帶有總體保護的防御性資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,這可能并不現實,例如,應急反應投資可能只覆蓋某個區域。為了解決這個問題,我們開發了一個新的資源分配模型,以適應針對故意攻擊的通用總體保護。該模型還考慮了多種自然災害類型。我們表明,我們提出的模型是一個凸優化問題,因此可以在多項式時間內求解到最佳狀態。此外,整個國家層面的資源分配問題可以被分解成更小的城市層面的子問題,從而產生一個更有效的算法。數字實驗證明了所提方法的性能。
巡邏和搜索博弈通常是在一個圖上進行的,玩家在一個時間范圍內做出決策。在巡邏博弈中,防御者控制一組巡邏者并指揮他們在圖上行走,以盡量減少對手的攻擊損失,而對手則選擇一個目標和攻擊時間。為了成功地摧毀一個目標地點,對手需要一些準備時間而不被巡邏者打斷。大多數巡邏博弈模型都假設站點的價值是相同的,或者說它們不會隨時間變化。然而,這并不是一個現實的假設。特別是在軟目標的情況下,這些值可能對應于一個地點的占用水平,因此,這樣的值可能是不同的,并可能隨時間變化。我們提出了具有隨時間變化的節點值和基于節點的攻擊時間的新模型。我們使用列生成、列和行生成等算法數值地解決這些模型。我們將這些算法應用于美國一個主要城市的城市鐵路網的真實案例。結果顯示了所提出的解決方法的效率。他們還證明了額外的巡邏員的回報率是遞減的。
在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,使目標函數得到優化。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。我們表明,在某些條件下,該博弈有一個封閉式的納什均衡。對于一般情況,我們開發了一種基于列和行生成的算法。我們表明搜索者的子問題是NP-hard的,并提出了一個分支和價格算法來解決它。我們還提出了一個用于Hider子問題的多項式時間算法。數值實驗研究了該方法的性能,并揭示了對該博弈特性的洞察力。
恐怖襲擊是對國民經濟和生活質量的一個嚴重關切。每年都有成千上萬的人因為這些襲擊而喪生或受傷或被綁架。2015年,全世界共發生11774起恐怖襲擊事件,造成28300多人死亡,35300多人受傷。此外,有超過12,100人被綁架或劫持為人質[22]。恐怖主義的持續威脅帶來的心理影響也是相當大的。這類事件在社會上造成了恐懼、驚慌、焦慮和苦惱。
保護關鍵基礎設施不受恐怖主義侵害是國土安全的首要任務之一[104]。對關鍵基礎設施的物理保護可以防止成功實施高影響力的恐怖襲擊。此外,對針對關鍵基礎設施的恐怖襲擊作出即時反應,可以防止與此類襲擊相關的連帶效應。
這些原因以及在過去幾十年中發生的許多引人注目的恐怖襲擊,突出了此類基礎設施的安全建模和分析是一個主要的研究議程。通過評估與基礎設施內每個站點相關的風險、緩解計劃以及設計保護戰略和響應政策,可以大大減少攻擊的后果。基礎設施安全最近成為研究人員越來越感興趣的主題。人們提出了不同的方法來模擬安全問題中的戰略互動,這些方法包括系統分析[115]、數學建模[51]、概率風險分析[33, 39, 73, 100, 115, 116],以及對抗性風險分析[123]。然而,由于恐怖分子的攻擊可能是戰略性的,對這種攻擊的博弈論分析會產生更真實的結果。因此,最近的研究集中在開發博弈論模型來捕捉恐怖主義風險,并將結果應用于加強安全措施。其中一個模型ARMOR[112, 113, 114, 118]已被部署在洛杉磯國際機場(LAX)以加強機場的安全。
這項研究的重點是博弈論的應用,為各種基礎設施尋找最佳保護策略,以抵御蓄意攻擊。這項工作可以分為兩部分:資源分配模型,以及巡邏和搜索博弈模型。
為防止蓄意攻擊而進行的資源分配通常是昂貴的,決定如何分配資源以保護關鍵基礎設施是一個困難的問題。許多因素會影響這種分配政策,例如,在實踐中,公平在確定防御分配方面起著重要作用[129]。此外,創造一種平衡以保護不同類型的威脅(例如,生物攻擊與炸彈攻擊,或恐怖主義與非恐怖主義預防活動之間)是另一個因素。其中一些因素已經在靜態安全博弈的文獻中得到了解決。然而,仍然有一些限制。例如,大多數基礎設施安全博弈假設博弈的參數是確定的或遵循一個已知的分布。而在現實中,博弈的一些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。在這項研究中,我們建立了具有和不具有私人信息的不完全信息基礎設施安全博弈的穩健無分布模型。此外,決策的層次性在文獻中經常被忽略。然而,分配資源以保護關鍵的基礎設施涉及到組織結構中不同層次的決策:戰略和運行決策。這些決策相互影響,需要同時進行研究。在這項研究中,我們開發了兩階段的博弈模型來解決這個問題。此外,大多數現有的帶有總體保護選項的資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,在現實中,可能有許多總體保護方案,而每個方案可能只覆蓋一個子集的目標。為了解決這個問題,我們開發了一個新的資源分配模型,該模型具有通用的總體保護選項。我們還開發了高效的分解算法來尋找最佳的資源分配。
巡邏和搜索博弈通常是在一個圖形上進行的,玩家在一個時間范圍內做出決定。設計巡邏隊來保護開放的大眾運輸系統和其他軟目標帶來了獨特的挑戰,這些挑戰在巡邏博弈的文獻中還沒有被解決。其中一個挑戰是這些系統內人群規模的動態性質。因為對手的主要目標是造成人員傷亡,所以節點的價值取決于居住在這些節點的人數。這些數字隨著時間的推移而變化,恐怖分子往往根據這些變化來確定他們的攻擊時間[68]。其他挑戰包括處理多個攻擊者,適應人力資源的限制,以及開發有效的方法來設計一般網絡的巡邏。我們通過開發具有動態變化的節點值、基于節點的攻擊時間、多個巡邏員和多個攻擊者的新模型來應對這些挑戰。為了有效地解決這些模型,我們開發了先進的解決算法,如列生成,以及列和行生成。在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,從而使目標函數得到優化。大多數搜索博弈模型都假定隱藏地點是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。
本研究考慮的主要問題是確定針對故意破壞(如恐怖襲擊)的最佳保護策略。因為對手的決策也是有策略的,所以對這些問題的博弈論分析會產生更現實的結果。本研究中考慮的博弈模型是在防御者(她)和對手(他)之間進行的。防御者想要最小化對基礎設施網絡的損害,而對手則想要最大化。這些模型可以分為兩類:資源分配博弈,以及巡邏和搜索博弈。在資源分配模型中,有一個N個目標的集合。每個目標i都有一個Ci的值。防守方決定防守哪個目標,而對抗方決定攻擊哪個目標。如果雙方都選擇相同的目標i,那么以δi的概率,攻擊將被檢測并挫敗。這個概率被稱為檢測概率。以下矩陣的(i, j)部分顯示了如果防御者選擇目標i,而對手選擇目標j的預期損害。注意,這個矩陣對應于對手的報酬矩陣,對手試圖使預期損害最大化。
我們的目標是在各種條件下,如博弈參數的不確定性和私人信息的存在,以閉合形式描述納什均衡(NE)的特征。
我們在這篇論文中討論的另一個問題是決策的層次性。保護基礎設施及其用戶不受破壞,需要在一個組織的層次結構中做出戰略和運行決策(見圖1.1)。戰略決策是具有長期影響的長期決策。例如,對目標站點進行 "加固"[17]以減少攻擊的成功概率的投資決策被歸類為戰略決策。這包括對新技術的投資,以加強網站的安全性。另一方面,運行決策是與日常運作有關的短期決策,如巡邏、分配第一反應者和安排車輛檢查站。請注意,"戰略 "這個詞也可以用來描述參與者。在這種情況下,"戰略玩家 "指的是一個理性的玩家,其目標是最大化回報。因此,在本論文中,"戰略決策 "是指具有長期影響的長期決策,"戰略參與者 "是指以報酬最大化為目標的理性參與者。大多數研究只關注純粹的戰略決策[63, 107]或純粹的運行決策[16, 35, 36, 38]。然而,這些決策是相互影響的。例如,在某一區域安裝閉路電視攝像機可能會使該區域的巡邏變得不必要。或者將金屬探測器和安檢系統分配給目標地點,可能會影響到這些目標中巡邏隊的最佳調度。此外,投資一項新技術以加強某個目標地點的安全,可能會降低其目標的吸引力,影響保衛該目標的最佳概率。因此,在同一個模型中考慮戰略和行動決策會產生一個更全面的分析。
圖1.1: 戰略決策與運行決策
我們研究了在考慮到人為和自然災害的資源分配模型中總體保護方案的影響。總體保護方案是指可以同時保護多個目標的替代方案。例如,對邊境安全和情報工作的投資有望保護多個目標免受恐怖主義的威脅。這一領域現有文獻的局限性在于,大多數現有的模型只考慮了保護所有目標的單一總體性保護方案。然而,這可能不是對現實的準確表述。例如,對邊境安全的投資可以分為不同的入境點,每一個入境點預計都會使離該特定入境點較近的地區受益。為此,一個新的資源分配模型,容納多個保護目標子集的總體保護措施,將導致一個更現實的分析。
本研究中調查的巡邏博弈G是一個由防御者和對手在連接圖Q = (N , E)上進行的零和博弈,節點集為N,邊集為E,時間跨度為T。防御者控制著一組安全人員(巡邏者)S,并指示他們在圖上行走,以盡量減少來自對手的攻擊的損害。而敵方控制著一組攻擊者A,并為每個攻擊者選擇一個節點和一個攻擊時間。為了成功地摧毀一個目標站點,攻擊者需要在目標上有一定數量的時間單位,不被任何巡邏者打斷。巡邏博弈文獻中的大多數論文都假設對手選擇一個目標進行攻擊,目標值在一段時間內是固定的,有些甚至假設所有目標是不可區分的,即它們都有相同的價值。然而,在許多現實情況下,情況并非如此。例如,在一個交通設施中,每個地點的人數、占用水平可以被認為是該地點的價值。此外,占用水平可能隨時間變化,預計在高峰期,占用水平會比正常時間高。因此,一個具有隨時間變化的節點價值、特定節點的攻擊時間、多個巡邏者和多個攻擊者的巡邏博弈模型將導致與現實更加一致的結果。
本研究中考慮的搜索博弈是在搜索者和隱藏者之間進行的。搜索者控制一組S個搜索隊,隱藏者控制一組H個要隱藏的對象。博弈是在一個完整的圖Q = (N , E)上進行的,其中N = {0, 1, 2, . ,N}是圖中節點的集合,E = {(i, j) : i, j∈N, i 6 = j}是邊的集合。文獻中的大多數搜索博弈模型都假設藏身之處是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏身之處相互區分開來,其目標是優化加權搜索時間。例如,在某些攻擊中(生物或化學),傷亡率取決于人口密度、環境條件等因素。因此,不同的地點可能有不同的傷亡率,而整體的損失將與暴露時間和傷亡率成正比。另一個例子是通過通信渠道檢測竊聽者的問題[37]。不同的信道可能有不同的傳輸能力,對網絡的破壞率將與檢測時間和信道的容量成正比。此外,藏匿地點可能分散在大片區域,搜索可能涉及多個搜索小組。為此,一個新的搜索博弈,容納了不同地點的不同權重,將導致一個更現實的分析。
在這項研究中,提出了新的博弈論模型,以解決資源分配博弈、巡邏和搜索博弈領域中的一些現有差距。在資源分配博弈領域,主要貢獻是:擴展現有模型以處理分層決策;引入廣義的總體保護方案;用穩健的方法解決參數的不確定性;開發適合于更有效算法的新模型。在巡邏和搜索博弈領域,我們的主要貢獻是:納入了與時間相關的節點值,以及多個巡邏者和多個攻擊點;并引入新的和更有效的算法來解決博弈論模型。
在接下來的章節中,我們將介紹我們的主要貢獻,如下所述。
1.我們開發了一種穩健的方法來應對安全博弈中的參數不確定性,并在第二章提供了閉合形式的NE策略。
2.為了解決防范蓄意攻擊的決策的層次性問題,在第三章中,我們引入了一個兩階段的投資-防御博弈模型,并推導出某些條件下的閉合形式的NE策略。這個模型抓住了戰略投資決策和運行攻擊/防御決策的綜合效應。
3.在第四章中,我們提出了一個新的資源分配模型,用于保護資產免受人為和自然災害的影響,并具有廣義的總體保護。這個模型被證明導致了一個可分解的凸優化問題,因此可以被有效解決。
4.在第五章和第六章中,我們介紹了新的巡邏博弈模型,該模型具有與時間相關的節點值,基于節點的攻擊時間,多個巡邏者和多個攻擊點;并開發了高效的解決方法,基于列生成,以及列和行生成來解決現實的大小問題。
5.我們在第七章中介紹了一個新的搜索博弈模型,該模型具有不同的節點權重、多個搜索隊、多個隱藏對象和分散的隱藏地點;并在第七章中介紹了基于列和行生成的高效求解方法,以解決現實的大小模型。
6.我們在第八章中提出了本研究的結論并討論了未來的研究思路
小型無人駕駛飛機系統(sUAS)的指數式增長為美國防部帶來了新的風險。技術趨勢正極大地改變著小型無人機系統的合法應用,同時也使它們成為國家行為者、非國家行為者和犯罪分子手中日益強大的武器。如果被疏忽或魯莽的操作者控制,小型無人機系統也可能對美國防部在空中、陸地和海洋領域的行動構成危害。越來越多的 sUAS 將與美國防部飛機共享天空,此外美國對手可能在美國防部設施上空運行,在此環境下美國防部必須保護和保衛人員、設施和資產。
為了應對這一挑戰,美國防部最初強調部署和使用政府和商業建造的物資,以解決無人機系統帶來的直接風險;然而,這導致了許多非整合的、多余的解決方案。雖然最初的方法解決了近期的需求,但它也帶來了挑戰,使美國防部跟上不斷變化問題的能力變得復雜。為了應對這些挑戰,美國防部需要一個全局性的戰略來應對無人機系統的危害和威脅。
2019年11月,美國防部長指定陸軍部長(SECARMY)為國防部反小型無人機系統(C-sUAS,無人機1、2、3組)的執行機構(EA)。作為執行機構,SECARMY建立了C-sUAS聯合辦公室(JCO),該辦公室將領導、同步和指導C-sUAS活動,以促進整個部門的統一努力。
美國防部的C-sUAS戰略提供了一個框架,以解決國土、東道國和應急地點的sUAS從危險到威脅的全過程。國防部的利益相關者將合作實現三個戰略目標:(1)通過創新和合作加強聯合部隊,以保護國土、東道國和應急地點的國防部人員、資產和設施;(2)開發物資和非物資解決方案,以促進國防部任務的安全和可靠執行,并剝奪對手阻礙實現目標的能力;以及(3)建立和擴大美國與盟友和合作伙伴的關系,保護其在國內外的利益。
美國防部將通過重點關注三個方面的工作來實現這些目標:準備好部隊;保衛部隊;和建立團隊。為了準備好部隊,國防部將最大限度地提高現有的C-sUAS能力,并使用基于風險的方法來指導高效和快速地開發一套物質和非物質解決方案,以滿足新的需求。為了保衛部隊,國防部將協調以DOTMLPF-P考慮為基礎的聯合能力的交付,并同步發展作戰概念和理論。最后,作為全球首選的軍事伙伴,國防部將通過利用其現有的關系來建設團隊,建立新的伙伴關系,并擴大信息共享,以應對新的挑戰。
通過實施這一戰略,美國防部將成功地應對在美國本土、東道國和應急地點出現的無人機系統威脅所帶來的挑戰。在這些不同操作環境中的指揮官將擁有他們需要的解決方案,以保護國防部人員、設施、資產和任務免受當前和未來的無人機系統威脅。
可解釋的人工智能(XAI)提供了克服這一問題的手段,它基于有關深度學習(DL)算法結果的額外補充信息。雖然完全透明對于復雜的DL算法來說仍然是不可行的,但解釋有助于用戶在關鍵情況下對AI信息產品進行判斷。應該指出的是,XAI是透明度、因果關系、可信度、信心、公平、信心和隱私等方面的總稱。因此,基本的方法論是多方面的。一種已經流行的方法是局部可解釋模型-預知解釋(LIME)方法,因為它可以很好地應用于各種應用中的不同模型。在本文中,LIME算法是在戰略運營的決策建議背景下進行研究的。在簡單介紹了其概念后,介紹了文獻中的應用。然后,一個戰略博弈的場景被認為是軍事戰爭的替代環境。一個基于DL的國際象棋人工智能被做成 "可解釋的",以評估信息對人類決定者的價值。得出了與戰略混合行動有關的結論,這反映了所提出的方法的局限性。
根據設想,未來戰略戰爭的決策將在很大程度上受到基于人工智能(AI)方法的信息產品的影響。特別是混合作戰,是在一個高維和變異的環境中進行的,在這種環境中,對潛在的威脅和機會的評估是人類操作者難以掌握的,戰略規劃必須納入異質的、多功能的和高容量的數據源。因此,基于人工智能方法的算法產生的分類、預測和建議在這種復雜的場景中變得越來越重要。在過去的幾年里,人工智能的方法已經獲得了巨大的發展,有大量的創新和令人尊敬的成果,可以從大型數據集中獲得更高層次的信息。然而,深度學習(DL)方法的一個主要缺點是其固有的黑箱屬性,即由于計算模型的復雜性,其結果是不透明的。例如,后者可能有數百個層和數百萬個參數,這些參數是在訓練階段通過算法發現和優化的。因此,即使結果是準確的,用戶也沒有機會理解它或掌握輸入數據的因果部分。這反過來又會影響到用戶對輔助設備的信任,在兩個方向上都是如此。這個問題在某些民事應用中起著次要的作用,例如語音識別,它經常被應用于與設備的互動,因為除了體面的失望之外沒有潛在的風險。對于其他非常具體的任務,如手寫字符識別,DL算法的性能超出了人類的平均水平,這意味著失敗的可能性很小,因此關于因果關系的問題可能成為附屬品。然而,在許多軍事應用中,當涉及到與人工智能的互動時,人類的信任是一個關鍵問題,因為錯誤的決定可能會產生嚴重的后果,而用戶始終要負責任。這實際上是兩方面的。一方面,操作者往往需要了解人工智能產品的背景,特別是如果這些產品與他或她自己的本能相悖。另一方面,不可理解的技術會對算法信息產品產生偏見,因為很難確定在哪些條件下它會失敗。因此,適當的信任程度可能很難計算。
可解釋的人工智能(XAI)是向黑盒人工智能模型的用戶提供 "透明度"、"可解釋性 "或 "可解釋性 "的方法的集合。這些術語幾乎沒有一個共同的定義,但許多出版物提到了:
XAI不能完全 "解釋 "DL模型,然而,它為工程師或操作員提供了更好地理解特定AI產品背后的因果關系的手段。而且很多時候,這可以幫助看到,從合理的因果關系鏈暗示算法決策或預測的意義上來說,該模型是否是合理的(或不是)。因此,XAI可以成為人工智能模型工程的一個重要工具,用于安全方面的驗證,甚至用于認證過程,以及為操作員提供額外的信息,以支持明智的決策。
雖然關于XAI的大多數文獻都集中在圖像識別的方法上,但這些結果很難轉化為基于特定挑戰性競爭形勢的戰術和戰略決策領域。在本文中,我們研究了人工智能模型在棋盤評估中的可解釋性。對更復雜的軍事戰略模擬的一些影響進行了討論。
本文的結構如下。在下一節中,簡要介紹了選定的XAI方法。然后,這些方法之一(LIME)被應用于棋盤評估問題,以證明在支持信息方面的解釋的質量。在最后一節,得出了結論,并討論了對更復雜的戰爭博弈和模擬的概括。
戰術軍事陸地行動嚴重依賴地形,因此在軍事決策過程中始終需要考慮地形。地形相關(地理空間)戰術信息產品,例如最佳路線或近場途徑通常由情報單元中的地形分析師確定,但也可以自動生成。這些產品可用于決策支持工具,以支持規劃過程。當在這些決策支持工具中使用機器學習時,這些產品還有助于對軍事單位的行為進行建模,這是通過機器學習找到表現良好的行動方案所需的。這項工作概述了地理空間產品,并將它們分類為基于層的體系結構,其中產品基于底層的產品。我們進一步規范了創建機器學習所需的戰術地形模型和戰術任務模型的步驟。基于兩個實際示例,我們演示了如何在提出的架構中生成地理空間產品,這些產品如何用于機器學習以進行戰術規劃,以及如何將學習到的行動和情報產品提供給規劃者以支持決策。
美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。
本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。
在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。
RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰
獲取大型復雜系統的過程通常以成本和進度超支為特征。為了研究這個問題的原因,我們可以在幾個不同的時間尺度上查看一個復雜系統的獲取。在更精細的時間尺度上,人們可能會研究采購過程的不同階段,從整個系統工程過程的復雜細節到設計團隊之間的溝通,再到各個設計師如何解決問題。在最大的時間尺度上,人們可以將采購過程視為一系列行動,即招標、投標和拍賣、合同以及最終構建和部署系統,而無需解決每個步驟中出現的細節。
在這項工作中,我們研究了多個尺度的采集過程。第一,我們為構建和部署階段的系統工程開發了一個博弈論模型。我們將系統和子系統工程師之間的交互建模為委托代理問題。我們開發了一個一次性的系統工程過程,并獲得了最能激勵子系統工程師最大化預期系統級效用的最佳傳遞函數。委托代理模型的核心是將代理的努力映射到系統的性能(質量)的質量函數。因此,我們通過將設計過程建模為順序決策問題來構建隨機質量函數。其次,我們開發和評估了一個收購過程模型,該模型解釋了各方的戰略行為。我們根據政府資助的項目來構建我們的模型,并假設以下步驟。首先,政府發布招標書。然后,私營公司在投標過程中提出他們的建議,中標者與政府簽訂合同。合同描述了系統要求和滿足這些要求的相應貨幣交易。獲勝公司致力于提供滿足要求的系統。這可以假設為政府與投標公司的博弈。我們研究了收購過程中的不同參數如何影響投標人的行為,從而影響政府的效用。使用強化學習,我們尋求學習該博弈中相關參與者的最優策略。特別是,我們研究如何要求,成本加成和激勵型合約等類型、投標人數量、問題復雜性等都會影響采購程序。此外,我們研究了私營公司的投標策略以及合同類型如何影響他們的戰略行為。
我們并不是生活在真空中!我們與環境中的其他主體互動以做出理性的決定。例如,選擇從你的公寓到校園的最快或最簡單的路線,在eBay拍賣中選擇最合適的出價,決定是否在雙人撲克游戲中認輸,或在石頭剪刀布游戲中選擇獲勝的一步棋。在所有這些例子中,我們在做決策時必須與其他代理交互。特別是,我們的最佳策略取決于環境中其他代理的行為(例如,選擇的路線取決于使用這些路線的其他人的數量,如果我的對手選擇剪刀,我就選擇石頭)。在給定的環境中,面對其他戰略主體時,我們如何做出理性的決策?最好的策略是什么?博弈論幫助我們回答這些問題。
博弈論是一種數學工具,它允許我們對特定環境下的利己主義和理性行為者的戰略互動進行推理。該結構提供了一組框架,描述了在這樣一個戰略代理人的環境下的理性結果。雖然博弈論領域起源于經濟文獻,但計算機科學家在過去幾十年里從建模和計算的角度對這一領域做出了重大貢獻(這導致了計算博弈論)。此外,許多博弈論應用在現實世界中(例如,分配警力到洛杉磯國際機場的檢查站,分配巡邏人員來保護非洲的野生動物,預測美國參議員的投票行為)。
觀眾將會學習到: (1) 引入基本的博弈論決策工具,建模和理解自利和戰略代理的戰略互動; (2) 了解建模工具的解決方案概念,以及如何使用它們來預測agent的決策行為; (3) 介紹了計算方面的計算這些解的概念; (4 )接觸了博弈論在安全和社會科學領域的一些主要應用。 此外,如果時間允許,講座將涵蓋更高級的主題,包括解決復雜策略空間的博弈,博弈中的學習,完全信息的動態博弈,不完全信息的靜態博弈,不完全信息的動態博弈。