到目前為止,博弈論已經在各個領域形成了大量應用,包括經濟學、工業、法學和人工智能,其中每個玩家只關心自己的利益,以非合作或合作的方式,但對其他玩家沒有明顯惡意。然而,在很多實際應用中,如撲克、國際象棋、追逃、緝毒、海岸警衛隊、網絡安全和國防等,玩家往往有明顯的敵對立場,即每個玩家的自私行為不可避免地或有意地對其他玩家造成損失或破壞。按照這一思路,本文從一系列角度對對抗性博弈中廣泛采用的三種主要博弈模型,即零和范式和廣泛形式博弈、斯塔爾伯格博弈(安全)博弈、零和微分博弈進行了系統的調查,包括博弈模型的基本知識、(近似)均衡概念、問題分類、研究前沿、(近似)最優策略尋求技術、流行算法和實際應用。最后,還討論了相關對抗性博弈的未來研究方向。
索引詞:對抗博弈,零和博弈,斯塔爾伯格博弈,微分博弈,納什均衡。
自John von Neumann, John Nash等人的開創性工作[1]-[3]以來,博弈論一直是一個強大而傳統的范式,用于模擬一群玩家之間復雜而智能的互動,并改善自私的玩家的決策。迄今為止,它已經在各種領域發現了廣泛的現實應用,包括經濟學、生物學、金融學、計算機科學、政治學等等,其中每個參與者只關心自己的利益[4]-[6]。即使在60年代的冷戰期間,它也發揮了極其重要的作用,并被許多國家的國防機構采用,如美國的安全控制機構[7]。
圖1. 一個具有同時或連續行動、完全或不完全信息、對稱或不對稱信息的對抗博弈的一般框架,其中三角形表示玩家,存在m個團隊,在團隊內部,團隊成員以合作方式進行博弈,而團隊之間的博弈是對抗性的,通常是零和,即 為所有策略,下標ij代表第i隊中的第j個玩家,其策略和效用函數分別表示為
和
。而
是除第i隊中第j名球員外的所有球員的策略情況。
對抗性博弈是一類特別重要的博弈模型,博弈者故意與對方競爭,同時實現自己的效用最大化。迄今為止,對抗性博弈已經成為眾多現實應用中塑造高效決策的正統框架,如撲克、國際象棋、追逃、緝毒、海岸警衛、網絡安全和國防等。例如,在德州撲克中,它一直是由AAAI等國際知名會議舉辦的測試研究人員提出的博弈論和人工智能(AI)算法的主要比賽之一,多個玩家相互競爭,通過尋求復雜的策略技術來贏得比賽[8]。一般來說,對抗性博弈具有以下幾個主要特點:1)在有限的計算資源和/或樣本的情況下,高效快速的算法設計很難;2)許多實際問題的信息不完善,也就是說,有些信息對一個或多個玩家是私有的,但對其他玩家是隱藏的,如撲克牌游戲。3)大型模型,包括大型行動空間和信息集,例如,道路網絡安全問題中的對手空間是1018的數量級[9];4)眾多現實生活應用中的不完全信息,即一個或多個智能體不知道正在進行什么游戲(如 g., 在這種情況下,正在進行的游戲一般用玩家的不確定性來表示,如具有不確定參數的不確定報酬函數;5)可能的動態特征,即所進行的游戲有時是時間變化的,而不是靜態的,例如,一個偷獵者在野生動物公園里可能有不同的偷獵策略,因為環境隨季節而變化。值得指出的是,這里的不完全信息與不完全信息是截然不同的,正如一些研究者所區分的那樣,盡管它們在一些文獻中被互換使用。此外,其他可能的特征包括有界理性,玩家可能不完全理性,比如恐怖分子任意隨機的獨狼式攻擊。然而,值得注意的是,并不是所有的對抗性博弈都具有不完美和/或不完全的信息,例如,圍棋游戲既有完美的信息,也有完全的信息,因為它有明確的游戲規則,所有棋子的位置對雙方來說在任何時候都是可見的,也有對手的行動,著名的人工智能agent,如AlphaGo和AlphaZero[10]-[12]已經很好地解決了這個問題。
由于競爭特征在大量現實世界的應用中無處不在,直到現在,對抗性博弈已經得到了廣泛的研究[13]-[18]。例如,作者在[13]中對2018年Stackelberg安全博弈(SSG)的技術進展進行了廣泛的調查,作者在[14]中回顧了一些主要的基于反事實后悔最小化(CFR)方法的不完美信息的廣泛形式博弈的納什均衡(NE)計算算法。作者在[15]中回顧了博弈論和優化算法的結合使用,并對該領域的研究進行了新的分類,作者在[16]中回顧了分布式在線優化,從隱私保護機制角度的聯合優化,以及從兩個方面的合作/非合作游戲,即, 作者在[17]中從問題分類、性能指標、最先進的性能結果和未來潛在的研究方向的角度,調查了分布式在線學習的最新進展,包括分布式在線優化和在線游戲。此外,考慮到博弈論在國防中的重要性,[18]、[19]對博弈論在國防中的應用進行了一些回顧,[20]對基于博弈論和機器學習(ML)方法的防御性欺騙進行了調查。盡管如此,仍然缺乏從基本模型知識、均衡概念、最優策略尋求技術、研究前沿和流行算法等角度對對抗性博弈的徹底概述。
在上述事實的激勵下,本調查旨在從多個維度對對抗性博弈進行系統回顧,包括對抗性博弈中經常采用的三種主要模型(即零和范式和廣泛形式博弈、Stackelberg(安全)博弈和零和差分博弈)的模型、(近似)最優策略概念(即:NE、相關均衡、coarsecorrelated均衡、強Stackelberg均衡、teammaxmin均衡以及相應的近似概念),(近似)最優策略計算技術(如CFR方法、AI方法),最先進的結果、流行的算法、潛在的應用以及有希望的未來研究方向。據我們所知,本綜述報告是第一個關于對抗性博弈的系統性概述,一般來說,它為上述調查報告提供了一個正交和補充的部分,這可能有助于相關領域的研究人員和從業人員。請注意,這三種博弈模型并不相互排斥,但對于同一博弈,從不同的角度看,可能會有重疊。例如,Stackelberg博弈和差分博弈也可以是零點博弈,等等。此外,實際上還存在其他借助于對抗性博弈的模型,如貝葉斯博弈、馬爾科夫博弈(或隨機博弈)、信號博弈、行為博弈論和進化博弈論。然而,我們并不打算在這次調查中回顧所有這些模型,因為它們中的每一個都具有獨立的意義,并且在現有的各種材料中相當豐富。
本調查的結構安排如下。第二節介紹了詳細的博弈模型和解決方案的概念,第三節回顧了現有的主要文獻和最先進的結果,第四節闡述了一些流行的算法,第五節介紹了一系列的應用,第六節討論了有前途的未來研究方向,最后在第七節得出結論。
對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。
引言
人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。
1 多智能體博弈對抗
近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。
1.1 多智能體模型
在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。
當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。
1.2 非平穩問題
多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。
2 對手建模
合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。
**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。
在存在智能對手的情況下,博弈論模型(如安全博弈)已被證明是減輕保護和安全協議中可利用漏洞風險的有效工具,因為它們模擬了對手和防御者之間的戰略互動,并允許防御者在面對這種對手時計劃使用稀缺或有限的資源。然而,標準的安全博弈模型在允許防御者執行的規劃類型方面具有有限的表現力,因為它們只關注一組固定的安全資源的部署和分配。這忽略了兩個非常重要的規劃問題,它們涉及安全系統的戰略設計和部署的資源,以及安全協議的可用性和實施。當這些問題出現在現實世界的系統中時,如果不以一種原則性的方式來處理,安全協議的效用和效率就會出現重大損失。
為了解決這些局限性,在這篇論文中,我為安全博弈的規劃問題引入了一個新的層次結構,將問題分為三個層次的規劃(i)戰略規劃,考慮長期的規劃期限,以及與游戲設計有關的決策,這些決策限制了可能的防御者策略;(ii)戰術規劃,考慮較短的期限,處理資源的部署,以及在戰略層面的限制下選擇防御者策略;(iii)行動規劃,處理在現實世界中的策略實施。
首先,以戰略規劃為重點,我討論了選擇一組資源和時間表類型的設計問題。我引入了一個新的基本問題,即資源團隊和戰術的同步優化(SORT),它模擬了戰略和戰術規劃的耦合問題,在選擇資源類型方面對游戲設計進行了優化,并對它們在現場的實際部署進行了優化。我提供了有效解決SORT問題的算法,該算法使用優化問題的分層放松來計算這些戰略層面的投資決策。我表明,這種更具表現力的模型使防御者能夠進行更精細的決策,從而在效用上獲得巨大的收益。其次,在資源異質性的安全博弈的相關性和艱巨性的激勵下,我還通過提供一個計算異質資源的適應性策略的框架來解決戰術規劃方面的挑戰。最后,我研究了行動規劃的問題,這在安全博弈的文獻中從未被正式研究過。我提出了一個可操作策略的新解決方案概念,它隨機選擇一個最優選擇的純策略子集,其基數由防御者選擇。我展示了計算這種可操作策略的難度,并提供了一種用于計算可操作的最佳均衡的算法。
在所有這些問題中,我的動力來自于現實世界的挑戰,以及開發可在現實世界中使用的解決方法。因此,許多工作都是與Panthera、WWF和其他非政府組織(NGO)合作,幫助保護國家公園和野生動物免受森林砍伐和偷獵,以及與TSA合作,保護我們的機場等關鍵基礎設施免受恐怖襲擊。正因為如此,在處理這三個層次的規劃時,我開發的解決方案不僅是新穎的、學術上有趣的,而且是可部署的、對現實世界有影響的。
近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
1 引言
人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.
人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.
為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.
然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。
2 發展歷史
自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).
1.1 路線一:博弈論結合專家系統
在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.
1.2 路線二:博弈論結合學習方法
路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.
近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.
3 人機對抗中的博弈學習方法內涵
人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.
4 人機對抗中的博弈學習研究框架
通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).
5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:
6 總結與展望
人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.
繼AlphaGO系列的巨大成功之后,2019年是一個蓬勃發展的一年,見證了多智能體強化學習(MARL)技術的重大進展。MARL對應于多智能體系統中多個智能體同時學習的學習問題。這是一個具有悠久歷史的跨學科領域,包括博弈論、機器學習、隨機控制、心理學和優化。盡管MARL在解決現實世界的游戲方面取得了相當大的經驗上的成功,但文獻中缺乏一個完整的概述來闡述現代MARL方法的博弈理論基礎,并總結最近的進展。事實上,現有的大多數綜述都是過時的,沒有完全涵蓋2010年以來的最新發展。在這項工作中,我們提供了一個關于MARL的專著,包括基本原理和研究前沿的最新發展。本綜述分為兩部分。從§1到§4,我們介紹了MARL的完備的基礎知識,包括問題公式、基本解決方案和現有的挑戰。具體地說,我們通過兩個具有代表性的框架,即隨機博弈和廣義博弈,以及可以處理的不同博弈變體,來呈現MARL公式。這一部分的目的是使讀者,即使是那些相關背景很少的人,掌握MARL研究的關鍵思想。從§5到§9,我們概述了MARL算法的最新發展。從MARL方法的新分類開始,我們對以前的研究論文進行了調研。在后面的章節中,我們將重點介紹MARL研究中的幾個現代主題,包括Q函數分解、多智能體軟學習、網絡化多智能體MDP、隨機潛在博弈、零和連續博弈、在線MDP、回合制隨機博弈、策略空間響應oracle、一般和博弈中的近似方法、以及具有無限個體的游戲中的平均場類型學習。在每個主題中,我們都選擇了最基礎和最先進的算法。我們調研的目的是從博弈理論的角度對當前最先進的MARL技術提供一個完備的評估。我們希望這項工作能夠為即將進入這個快速發展的領域的新研究人員和現有的領域專家提供一個跳板,他們希望獲得一個全景視圖,并根據最近的進展確定新的方向。
//openreview.net/forum?id=ORgCYmo0os
機器學習可以看作是將數據轉換為知識的過程(Shalev-Shwartz & Ben-David, 2014)。學習算法的輸入是訓練數據(例如,含有貓的圖像),輸出是一些知識(例如,關于如何在圖像中檢測貓的規則)。這些知識通常表示為能夠執行某些任務的計算機(例如,自動貓探測器)。在過去的十年中,一種特殊的機器學習技術——深度學習(LeCun et al., 2015)取得了長足的進步。深度學習的一個重要體現的是不同種類的深層神經網絡(DNNs)(Schmidhuber, 2015),可以找到分離表示(Bengio, 2009)在高維數據, 這使得軟件訓練本身執行新任務而不是僅僅依賴于程序員手工設計規則。通過使用DNNs,計算機視覺(Krizhevsky et al., 2012)和自然語言處理(Brown et al., 2020; Devlin et al., 2018)是取得了顯著的進展。
現代人工智能應用正在從純粹的特征識別(例如,在圖像中檢測一只貓)轉變為決策(安全通過交通十字路口),其中不可避免地會發生多個智能體之間的交互。因此,每個智能體都必須采取戰略性的行為。此外,這個問題變得更具挑戰性,因為當前的決定會影響未來的結果。
除了從現有數據進行特征識別,現代人工智能應用通常需要計算機程序根據所獲得的知識做出決策(見圖1)。為了說明決策的關鍵組成部分,讓我們考慮現實世界中控制汽車安全通過十字路口的例子。在每一個時間步,機器人汽車都可以通過轉向、加速和制動來移動。目標是安全駛出十字路口并到達目的地(可以選擇直走或左轉/右轉入另一條車道)。因此,除了能夠檢測對象,如交通信號燈、車道標記,和其他汽車(通過將數據轉化為知識),我們的目標是找到一個能控制汽車的方向盤政策做出一系列演習達到目標(決策基于獲得的知識)。在這樣的決策環境中,還會出現兩個額外的挑戰:
首先,在決策過程中,在每一個時間步,機器人小車不僅要考慮當前行動的即時價值,還要考慮當前行動在未來的后果。例如,在開車通過一個十字路口的情況下,如果策略選擇在過程的開始轉向一個“安全”的方向,這將是有害的,如果它最終會導致隨后的車禍。
其次,為了正確安全地做出每一個決定,汽車還必須考慮到其他汽車的行為,并采取相應的行動。例如,人類駕駛員通常會提前預測其他車輛的移動,然后采取戰略性的應對措施(比如給迎面駛來的車輛讓路,或者加速駛入另一條車道)。
對適應性決策框架的需求,以及處理多個交互學習者的復雜性,導致了多智能體學習的發展。Multi-agent RL解決的是在一個共享的隨機環境中運行多個智能agent的順序決策問題,每個智能agent的目標是通過與環境和其他agent的交互來最大化其長期回報。多智能體強化學習是在多智能體系統和資源學習的基礎上建立起來的。在下一節中,我們將簡要概述(單agent) RL及其近幾十年的研究進展。
**RL是機器學習的一個子領域,其中代理學習如何在與環境的交互過程中基于試錯過程的最佳行為。與以帶標簽的數據作為輸入的監督學習(例如帶有貓標簽的圖像)不同,RL是面向目標的:它構建了一個學習模型,學習通過試錯改進來實現最優的長期目標,學習者沒有帶標簽的數據來獲取知識。“強化”一詞指的是學習機制,因為導致滿意結果的行動在學習者的行為集合中得到了強化。
歷史上,RL機制最初是在研究貓在謎盒中的行為的基礎上發展起來的(Thorndike, 1898)。Minsky(1954)在他的博士論文中首次提出了RL的計算模型,并將他得到的模擬機器命名為隨機神經模擬強化計算器。幾年后,他首先提出了動態規劃(Bellman, 1952)和RL (Minsky, 1961)之間的聯系。在1972年,Klopf(1972)將試錯學習過程與心理學中發現的時間差異(TD)學習結合起來。在為更大的系統擴展RL時,TD學習很快成為不可或缺的。Watkins & Dayan(1992)在動態規劃和TD學習的基礎上,使用馬爾可夫決策過程(MDP)為今天的RL奠定了基礎,并提出了著名的Q-learning方法作為求解器。作為一種動態規劃方法,原來的Q-learning過程繼承了Bellman (Bellman, 1952)的“維數災難”(curse of dimensional維數災難),當狀態變量數量較大時,極大地限制了它的應用。為了克服這一瓶頸,Bertsekas & Tsitsiklis(1996)提出了基于神經網絡的近似動態規劃方法。最近,來自DeepMind的Mnih等人(2015)通過引入深度q -學習(DQN)架構取得了重大突破,該架構利用了DNN對近似動態規劃方法的表示能力。DQN已經在49款Atari游戲中展示了人類水平的表現。從那時起,深度RL技術在機器學習/人工智能中變得普遍,并引起了研究社區的大量關注。
RL源于對動物行為的理解,動物使用試錯法來強化有益的行為,然后更頻繁地執行這些行為。在其發展過程中,計算RL整合了諸如最佳控制理論和其他心理學發現等思想,這些思想有助于模仿人類做出決策的方式,從而使決策任務的長期收益最大化。因此,RL方法自然可以用來訓練計算機程序(代理),使其在某些任務上達到與人類相當的性能水平。RL方法對人類玩家的最早成功可以追溯到西洋雙陸棋(Tesauro, 1995)。最近,應用RL解決順序決策問題的進展標志著AlphaGo系列的顯著成功(Silver et al., 2016;2017;2018年),一名自學的RL智能體,擊敗了圍棋游戲的頂級專業玩家,這款游戲的搜索空間(10761種可能的游戲)甚至比宇宙中的原子數量還要多。
AlphaGo系列的成功標志著單agent決策過程的成熟。2019年是MARL技術蓬勃發展的一年;在解決極具挑戰性的多人實戰策略電子游戲和多人不完全信息撲克游戲方面取得了顯著進展。
事實上,大多數成功的RL應用,如游戲GO2、機器人控制(Kober et al., 2013)和自動駕駛(Shalev-Shwartz et al., 2016),自然涉及多個人工智能智能體的參與,這探索了MARL領域。正如我們所預期的,單agent RL方法取得的重大進展——以2016年GO的成功為標志——預示著未來幾年多agent RL技術的突破。
2019年是MARL發展的繁榮之年,在過去人們認為不可能通過人工智能解決的極具挑戰性的多智能體任務上取得了一系列突破。盡管如此,MARL領域取得的進展,盡管令人矚目,但在某種程度上已經被AlphaGo之前的成功所掩蓋(Chalmers, 2020)。AlphaGo系列有可能(Silver et al., 2016;2017;2018年)已經在很大程度上滿足了人們對RL方法有效性的期望,因此對該領域的進一步發展缺乏興趣。MARL的進展在學術界引起的反響相對溫和。在本節中,我們將重點介紹幾項工作,我們認為這些工作非常重要,并且可能深刻影響MARL技術的未來發展。
單代理MDP(左)和多代理MDP(右)示意圖
MARL的一個熱門測試平臺是星際爭霸2 (Vinyals等人,2017年),這是一款擁有自己職業聯賽的多人即時策略電腦游戲。在這個博弈中,每個參與人關于博弈狀態的信息都是有限的,而且搜索空間的維度比圍棋大了幾個數量級(每一步有1026種可能的選擇)。《星際爭霸2》中有效的RL方法的設計曾一度被認為是人工智能的一個長期挑戰(Vinyals等人,2017)。然而,AlphaStar在2019年實現了突破(Vinyals et al., 2019b),它已經展示了特級大師水平的技能,排名超過人類玩家的99.8%。
MARL的另一個著名的基于視頻游戲的測試平臺是Dota2,這是一個由兩支隊伍玩的零和游戲,每支隊伍由5名玩家組成。從每個agent的角度來看,除了不完全信息的難度(類似于星際爭霸2),Dota2更具挑戰性,在這個意義上,團隊成員之間的合作和與對手的競爭都必須考慮。OpenAI Five人工智能系統(Pachocki et al., 2018)在一場公開的電子競技比賽中擊敗了世界冠軍,在Dota2中展現了超人的表現。除了星際爭霸2和Dota2, Jaderberg等人(2019)和Baker等人(2019a)分別在抓旗和捉迷藏游戲中表現出了人類水平的表現。雖然游戲本身不如星際爭霸2或Dota2復雜,但對于人工智能agent來說,掌握戰術仍然不是一件容易的事情,所以agent令人印象深刻的表現再次證明了MARL的有效性。有趣的是,兩位作者都報告了由他們提出的MARL方法引發的緊急行為,人類可以理解,并以物理理論為基礎。
MARL最后一個值得一提的成就是它在撲克游戲《Texas hold ' em》中的應用,這是一種多玩家廣泛形式的游戲,玩家可以獲得不完整的信息。Heads-up(即兩個玩家)無限持有的游戲中有超過6 × 10161種信息狀態。直到最近,游戲中才出現了突破性的成就,這多虧了MARL。兩個獨立的程序,DeepStack (Morav?ík等人,2017)和Libratus (Brown & Sandholm, 2018),能夠擊敗專業的人類玩家。最近,Libratus被升級為Pluribus (Brown & Sandholm, 2019年),并表現出非凡的表現,在無限制設置中贏得了5名精英人類專業人士的100多萬美元。為了更深入地理解RL和MARL,需要對概念進行數學表示法和解構。在下一節中,我們將提供這些概念的數學公式,從單代理RL開始,逐步發展到多代理RL方法。
**單agent RL通過試錯,RL agent試圖找到最優策略,使其長期回報最大化。該過程由馬爾可夫決策過程制定。
多智能體RL在多智能體場景中,很像在單智能體場景中,每個智能體仍然試圖通過試錯過程來解決順序決策問題。不同之處在于,環境狀態的演化以及每個agent收到的獎勵函數現在都是由所有agent的聯合行動決定的(見圖3)。因此,agent不僅需要考慮環境,還需要與其他學習agent進行交互。一個涉及多個主體的決策過程通常通過隨機對策(Shapley, 1953)來建模,也被稱為馬爾可夫對策(Littman, 1994)。
與單agent RL相比,多agent RL是一個更適合現實世界AI應用的通用框架。然而,由于多個agent同時學習的存在,除了單agent RL中已經存在的方法外,MARL方法提出了更多的理論挑戰。與通常有兩個代理的經典MARL設置相比,解決多代理RL問題更具挑戰性。事實上,1 組合復雜性,2 多維學習目標和3 非平穩性問題都導致大多數MARL算法能夠解決只有4個參與者的博弈,特別是兩方零和博弈。
Edwin Ho 1, Arvind Rajagopalan 2, Alex Skvortsov 3, Sanjeev Arulampalam 3, Mahendra Piraveenan 1
1 悉尼大學工程學院
2 澳大利亞國防科技 (DST) 集團武器和作戰系統部
3 澳大利亞國防科技 (DST) 集團海事部
本文簡要回顧了使用博弈論對與國防應用相關的決策場景進行建模的文獻。博弈論已被證明是對智能體、實體和玩家的決策過程進行建模的非常有效的工具。它已被用于模擬不同領域的情景,如經濟學、進化生物學和計算機科學。在國防應用中,經常需要對敵對行動者的行動以及試圖躲避或超越對方的玩家進行建模和預測。對競爭者的行動如何影響對方的決策進行建模是博弈論的強項。在過去的幾十年里,有幾項研究應用博弈論的不同分支來模擬一系列與國防有關的情景。本文對這些嘗試進行了有條理的回顧,并從所模擬的戰爭類型、所使用的博弈類型以及所涉及的參與者方面對現有文獻進行了分類。經過仔細挑選,共討論和分類了29篇直接相關的論文。就所模擬的戰爭而言,我們認識到大多數在國防環境中應用博弈論的論文都涉及指揮和控制戰爭,并可進一步分為涉及(i)資源分配戰爭(ii)信息戰爭(iii)武器控制戰爭和(iv)對手監控戰爭的論文。我們還注意到,大多數論文都涉及傳感、跟蹤和大型傳感器網絡,所研究的問題與民用領域的傳感器網絡分析有類似之處。就所使用的游戲而言,我們將審查的論文分為使用非合作或合作游戲、同時或順序游戲、離散或連續游戲以及非零和或零和游戲的論文。同樣地,論文也被分為雙人、三人或多人游戲的論文。我們還探討了玩家的性質和每種情況下的報酬函數的構建。最后,我們還找出了文獻中的空白點,在這些空白點中,博弈論可以被有效地應用于迄今為止尚未用博弈論探索過的場景。所做的分析對博弈論在國防應用中的應用提供了一個簡明的總結,并強調了博弈論在所考慮的情況下的好處和局限性。
關鍵詞: 決策;博弈論;國防科學;地面戰;海戰;空戰;跟蹤;傳感
博弈論已經成為傳統的理論框架之一,用于模擬我們生活中許多方面的重要決策過程。在經濟學、社會科學、金融學、項目管理、計算機科學、公民學和流行病學中都可以找到著名的例子。自從約翰-馮-諾伊曼、約翰-納什等人的開創性工作以來,人們已經充分認識到,在兩方或多方(玩家)之間的復雜互動(游戲)背景下,存在一種最佳策略,可以通向可預測的結果(報酬)。在實際情況下,這種結果往往可以是定量的,可以進行算術運算(成本、感染人數、接種人數等),但往往也可以是定性的(如風險、準備程度、健康狀態等)。
博弈論和相關數學方法的應用最近在國防領域引起了越來越多的關注。這是由兩個驅動因素造成的。首先,博弈論提供了一個自然的框架,通過用量化的術語如報酬、成本、收益或損失、風險等將高層次的政策決定迅速轉化為最佳戰略。這為國防決策者創造了一個統一的平臺,以支持達成一個特定的決定。第二,它提供了一個嚴格的數學框架,用于按照預定的標準評估和優化許多方案。這種迅速的評估往往成為國防作戰背景下的關鍵成功因素,導致在時間壓力下的決策優勢。這也成為國防行動中各種人工智能(AI)能力發展和部署的關鍵步驟。
博弈論在國防領域的應用有著持續和多樣化的歷史,從實時軍事系統的設計(例如,應用于導彈攔截)到支持大型國防投資和收購的戰略決策。關于具體的理論方法和工具及其國防應用有大量的文獻。我們相信,對這些文獻的回顧對于處理作戰分析和數據驅動的決策支持的社區是有意義的。這也是本研究的主要動機。
博弈論通過對形勢的整體和定量分析,加強了軍事戰略和決策過程。對軍隊來說,可用于博弈論分析的潛在情景包括快速增長的自主智能系統的應用,博弈論提供了一個全面的數學框架,大大增強了使用這些系統的人的決策能力。由于其潛力,博弈論的研究正在蓬勃發展,在這個軍事研究領域的文獻中開始出現一些以上的論文。本評論旨在幫助研究人員利用博弈論的知識體系,為國防從業人員開發更智能、更安全的決策系統。鑒于此類研究仍處于萌芽階段,我們通過在現有軍事知識與博弈論提供的新生可能性之間建立聯系,使其成為軍事控制系統中更廣泛理解和考慮的框架。
為了了解博弈論在國防領域應用的最新情況,并分析在這種情況下使用的游戲類型,需要進行回顧。據我們所知,目前還缺乏這樣的回顧,它涵蓋了博弈論在各種軍事領域的不同應用。本文的目標是提出這樣的評論,使人們更好地了解博弈論可以成功應用的眾多國防問題。此外,對不同背景下使用的博弈類型的多維分類,將為研究人員提供在相關問題中應用博弈論的新方法的見解。最后,我們提出了文獻中的空缺,希望能引起更多的研究和開發新的博弈論方法來解決防御問題。
盡管不是太廣泛,但圍繞軍隊中的博弈論的文獻體系已經涵蓋了不同形式的交戰和戰斗的顯著部分。這些論文涵蓋了過去、現在和未來的情況:從潛在敵對情況下的預測策略到對幾千年前軍事對峙的事后分析評估。博弈論已經證明有能力在任何此類軍事場景中發揮作用。然而,快速的技術進步帶來了持續的軍事交戰新領域,其中每一個領域都擁有自己的復雜系統。所涉及的首要領域是追蹤系統(跨越所有領域)、空中戰斗、地面戰斗、國家安全問題、網絡戰爭和空間系統。值得注意的是,博弈論在海軍戰爭中的應用很少,對未來類似領域研究的探索將在后面的評論中討論。在這些領域中,有無數的新的和創新的系統的可能性:不同的代理人,不同的武器,不同的控制結構--這些都可以用博弈論分析來豐富。雖然海伍德(Haywood)和桑霍姆(Thunholm)關于軍事決策中使用的博弈論的論文涵蓋了幾種不同的博弈類型,但似乎還沒有一篇論文涉及到在高性能計算和復雜算法基礎上建立的軍事系統的新背景下,博弈論在各自領域的軍事應用。我們的目標是以這樣一種方式來介紹文獻,即解決博弈論在軍事控制系統中每個關鍵領域的所有功能。
這篇評論經過仔細挑選,詳細參考了總共29篇論文。它強調了每篇分析論文的范圍和效用,從基本的博弈論概念方面介紹了它:玩家、游戲類型、策略和其報酬函數的關鍵參數。它既是一個帶注釋的書目,也是一個理解和規劃該領域進一步研究的框架。它還將列出玩家在每個軍事決策場景中考慮的基本原則,以及這些原則如何影響軍事人員和系統在與敵對玩家競爭或與友好玩家合作時做出的決定。這將使大多數軍事場景有可能被視為游戲,至少可以為熟悉的軍事情況提供一個有趣的新視角。這里審查的29篇論文是由來自國防、學術界和工業界的具有相關背景的專家團隊從Scopus和Google Scholar中挑選出來的,他們可以提供不同的觀點,根據不同的經驗確定最相關的論文。只有用英語寫的論文才被考慮。雖然我們承認沒有進行詳盡的搜索,但據我們所知,這些論文涵蓋了我們在此討論的研究領域的一個重要和有代表性的部分,并充分展示了這一領域的趨勢、重疊和文獻的差距。因此,我們有信心,所提出的分析將在所分析的論文之間進行嚴格的比較,并強調每篇論文的優勢和劣勢,同時也強調利用博弈論來模擬軍事背景下的決策的總體利弊。
本文的其余部分結構如下。第2節將討論我們所回顧的論文所闡述的基本防御原則,并介紹博弈論的基本概念。第3節對文獻進行了調查和分析,并總結了每篇論文中的發現和關聯。第4節根據上一節的觀察,闡述了我們對文獻的多維度分類,同時也介紹了與所回顧的論文相關的引文和其他指標。第5節指出了文獻中的空白,并在此基礎上強調了未來在這一領域的研究機會,特別是在博弈論迄今尚未經常應用的國防研究領域,可以從博弈論的應用中獲益。第6節深入討論了研究結果的實用性和所提交的評論的總體情況。最后,第7節總結了我們的發現和分類,并提供了廣泛的結論。
幾個世紀以來,關于戰爭的意識形態、信仰和知識一直在影響著人類的知識和哲學。孫子、荷馬和馬基雅弗利的偉大作品不僅為軍事決策的本質奠定了知識基礎,而且還為社會學和社會心理學提供了洞察力。軍隊構成了許多文明的核心權力集團,對現有國家的影響力增長和新國家的誕生都很重要。軍隊實時處理沖突,計劃未來,并回顧過去的交戰情況--這些活動中的每一項都會對社會產生影響。因此,本評論有必要涉及多個物理領域的軍事沖突的許多方面,下面將總結每個領域需要做出的主要決定。然而,在所有這些領域中,目標的價值、資源的價值和目標的優先級通常是形成報酬函數和戰略的關鍵參數,而這些參數反過來又定義了我們在建模中使用的游戲。
在本節中,我們將討論國防科學和技術以及博弈論中的概念,這些概念對于理解和分析所提出的細分領域的文獻是必要的。首先,讓我們討論一下本評論中所考慮的國防和國家安全的廣泛領域。如表1所示,它們可以被總結出來。
表 1. 本次綜述中使用的分類系統
如表1所示,在這次審查中,重點主要是 "指揮與控制 "戰爭,在這種戰爭中,決策是至關重要的。然而,指揮與控制戰爭適用于傳統的戰爭領域,如陸戰、海戰和空戰,以及現代戰爭領域,如太空和網絡戰爭。在一個正交的層面上,指揮與控制戰還可以細分為資源分配戰(RAW)、信息戰(IW)、武器控制戰(WCW),以及對手監控戰(AMW)。由于這些概念在我們的文獻分類中被廣泛使用,讓我們先簡單介紹一下。
資源分配戰(RAW):為實現軍事目標而分配軍事資源。
信息戰(IW):操縱信息以實現軍事目標。
武器控制戰(WCW)。控制武器以實現軍事目標。
對方監控戰(AMW)。追蹤敵人的行為以實現軍事目標。
技術是戰爭的決定性力量,而技術對于陸戰來說并不像對于其他領域那樣勢在必行。影響陸戰的技術是相對靜態的,并盡可能避免人力資源的暴露。如今,身體層面的人際戰斗已經不那么普遍了,為更多地關注定位戰略讓路。將博弈論應用于地面戰爭的文獻包括一個強大的武器-目標分配論文庫(涉及現代背景下的武器控制戰和資源分配戰),以及涉及古代地面交戰和游擊戰的論文。在人命脆弱的地方,保護他們是這些游戲中最重要的因素,其次是保護地面資產。
鑒于海軍在全球范圍內投射力量的重要性,關于海戰的公開文獻令人驚訝地少之又少--無論是否應用博弈論。在處理目標追蹤的論文中經常會提到海戰,但關于海軍軍事戰略的討論卻僅限于過時的文獻或對赤裸裸的基本要素的討論。我們將回顧這方面的現有論文,并強調這是一個在文獻中存在相當大差距的領域。
在萊特兄弟發明飛機后不久,空戰就成為戰斗和軍事行動的一個關鍵因素。在一個很少受到障礙物或尺寸阻礙的戰斗媒介中,空戰的性質是快節奏的、直觀的和令人難以置信的險惡,有不可預測的交戰'規則'。在今天,與一個世紀前相比,需要考慮的因素要復雜得多,而且軍事力量在進行空戰時并不缺乏資源--包括人和機器。文獻顯示,由于這種豐富的武器庫,目標和用于交戰的資源的內在和潛在價值在空戰場景中特別重要。在評估作戰策略時,需要對沖突雙方的這些價值做出決定。因此,有幾篇論文討論了博弈論在空戰中的應用。
網絡安全是保護IT系統和網絡不被損壞/破壞/遭受信息盜竊。網絡戰涉及到信息和通信系統被故意攻擊以獲得軍事優勢的概念。盡管幾十年來,網絡安全一直是計算機科學的一個重要領域,但有關網絡戰的文獻卻比較少,而且在任何情況下,都與計算機科學中的博弈論在網絡安全相關領域的應用有很大的重疊。這篇評論介紹并分析了一些專門涉及網絡戰爭的論文。
雖然太空戰的概念已經存在了近一個世紀,但既沒有實際的執行,也沒有建立起一套太空戰的理論策略[31]。然而,這并沒有阻止軍隊追逐星星(字面和形象),并不可避免地導致博弈論的概念被用于太空戰的戰略思維。這目前主要限于衛星網絡,其中游戲的關鍵參數是優化整個網絡的電力使用和信號強度。這個領域仍然相當年輕,在太空的進一步軍事發展似乎是不可避免的,與此相應的處理博弈論在太空戰中的應用的文獻也將增長。
有幾篇論文論述了博弈論在國防領域的具體應用,但卻不能被歸類為分析某類戰爭的論文。在其中一些論文中,重點更多的是放在所使用的技術上:例如,目標追蹤。在另一些論文中,需要進行防御的敵對行為者的性質發生了變化:例如,針對國內恐怖主義威脅而非敵對軍事力量的國家安全行動。有幾篇論文討論了博弈論在這種情況下的應用。
目標追蹤系統。軍事上的目標追蹤是對移動目標的觀察,以及對其位置和動作的監視。這個領域的成功依賴于觀察指標和數據的準確性,以及所有收集到的信息的有效分配和處理。隨著智能目標的出現,軍隊也必須納入預測方法,以保持理想的跟蹤性能。在這方面審查的文獻涵蓋了從跟蹤攻擊導彈到戰區彈道導彈,以及跟蹤未知智能代理到敵機的主題。這一領域中形成博弈的關鍵考慮因素涉及目標是否 "智能"/能否采取規避行動,目標是否會有一個最佳軌跡,以及目標是否會有防御者。博弈論的目標跟蹤應用大多發生在空戰和海戰中,包括水下監視。
國家安全的應用。博弈論經常在國家安全和反恐相關領域找到應用。這包括預測和準備恐怖襲擊,以及保護關鍵人員和地標/其他潛在恐怖活動目標的資源分配方案。雖然潛在目標的價值和攻擊的可能性顯然是制約這一領域博弈回報函數的關鍵參數,但隨后的社會、經濟和政治影響在這一領域的博弈建模中同樣重要。很少有軍事沖突能像后方的沖突那樣被曝光,恐怖襲擊的后果及其對公眾情緒和對安全機構的信心的影響,在建立這一領域的回報函數模型時經常被考慮在內。
博弈論是對戰略決策的研究,最早是作為微觀經濟學的一個分支發展起來的。然而,后來它又被用于不同的研究領域,如進化生物學、社會學、心理學、政治學、項目管理、財務管理和計算機科學。博弈論之所以獲得如此廣泛的適用性,是因為不同學科中普遍存在戰略決策情景。博弈論提供了對特殊行為互動的洞察力,如動物群體內的合作互動、婚姻中的討價還價和交換或蘇格蘭鮭魚養殖者的激勵。一個游戲通常包括兩個或更多的參與者,一組可供這些參與者使用的策略,以及每個參與者相應的一組報酬值(也稱為效用值)(在雙人游戲的情況下通常以報酬矩陣的形式呈現)。
游戲中的純策略提供了玩家如何進行游戲的完整定義。
一個棋手的策略集是該棋手可用的純策略集。混合策略是純策略的組合,其中有一個特定的概率p(0≤p≤1)與這些純策略中的每一個相關聯。由于概率是連續的,所以一個棋手有無限多的混合策略可供選擇。完全混合策略是一種混合策略,在這種策略中,玩家對每個純策略都賦予了嚴格的正概率。因此,任何純策略實際上都是混合策略的退化情況,在這種情況下,選擇該特定策略的概率為1,而選擇其他每個策略的概率為0。
納什均衡的概念是博弈論的基礎。它是戰略博弈中的一種狀態(一組策略),就報酬而言,沒有任何一方有動機單方面偏離這種狀態。純策略和混合策略納什均衡都可以被定義。一個戰略博弈往往可以有一個以上的納什均衡。事實證明,每一個玩家數量有限的博弈中,每個玩家可以從有限多的純策略中進行選擇,至少有一個混合策略的納什均衡。
納什均衡的正式定義如下。假設 (S, f) 是一個有 n 個玩家的博弈,其中 Si 是給定玩家 i 的策略集。因此,由所有參與者的策略集組成的策略配置文件 S 將是,S=S1 × S2 × S3… × Sn。令 f(x)=(f1(x),…,fn(x)) 為策略集 x∈S 的支付函數。假設 xi 是參與者 i 的策略,x?i 是除參與者 i 之外的所有參與者的策略集。因此,當每個玩家 i∈1,…,n 選擇策略 xi 時,策略集 x=(x1,…,xn),給特定玩家的收益 fi(x),這取決于該玩家選擇的策略 (xi) 和其他玩家選擇的策略 (xi-i)。如果任何單個參與者的策略單方面偏差都不會為該特定參與者帶來更高的效用,則策略集 x?∈S 處于納什均衡。正式地說,x? 處于納什均衡當且僅當:
通常情況下,博弈被認為是為了玩家的自身利益而進行的,即使玩家進行合作,那也是因為在他們看來,合作是在這種情況下使玩家的個人收益最大化的最佳策略。在這樣的博弈中,合作行為即使出現,也是由自私的目標驅動的,而且是短暫的。這些博弈可以被稱為 "非合作性博弈"。這些博弈有時被稱為 "競爭性博弈",這是不準確的。非合作博弈論是分析這類博弈的博弈論的一個分支。另一方面,在合作博弈中,有時也被稱為聯盟式博弈,玩家形成聯盟或團體,有時是由于外部對合作行為的強制執行,如果出現競爭,則在這些聯盟之間發生。合作博弈使用合作博弈理論進行分析,該理論預測了哪些聯盟會形成,以及這些聯盟的回報率。合作博弈理論的重點是聯盟之間的剩余或利潤分享,即聯盟由于形成了聯盟而被保證了一定的報酬。通常,在一個系統中進行的合作博弈的結果相當于一個受限的優化過程的結果。
零和博弈是一類競爭性博弈,所有參與者的報酬總額為零。在雙人游戲中,這意味著一個玩家的報酬損失等于另一個玩家的報酬收益。因此,一個雙人零和游戲可以用一個只顯示一個玩家報酬的報酬矩陣來表示。零和博弈可以用最小最大定理來解決,該定理指出,在零和博弈中,有一組策略可以使每個玩家的最大損失最小(或最小報酬最大化)。這種解決方案有時被稱為 "純鞍點"。可以說,股票市場是一個零和游戲。相比之下,大多數有效的經濟交易都是非零和的,因為每一方都認為,它得到的東西(對它自己來說)比它分到的東西更有價值。
在完美信息博弈中,每個玩家都知道所有其他玩家先前行動的全部歷史,以及游戲的初始狀態。在不完全信息博弈中,一些或所有的棋手無法獲得關于其他棋手先前行動的全部信息。
同期博弈是一種正常形式的博弈或廣泛形式的博弈,在每一次迭代中,所有玩家都同時做出決定。因此,每個玩家被迫在不知道其他玩家(在該迭代中)所做決定的情況下做出決定。相反,順序博弈是一種廣泛形式的博弈,在這種博弈中,玩家按照某種預定的順序做出決定(或選擇策略)。例如,如果一方總是有特權提出第一個提議,而其他各方在此之后提出他們的提議或還價,那么談判過程就可以被模擬為一個順序博弈。在順序博弈中,至少有一些玩家在做出自己的決定之前可以觀察到其他玩家的至少一些行動(否則,博弈就變成了同時博弈,即使玩家的行動在時間上并不同時發生)。然而,并不是一定要讓某個棋手可以觀察到之前每個棋手的每一步棋。如果一個棋手可以觀察到每個前一個棋手的每一步棋,這樣的順序博弈就被稱為有 "完全信息"。否則,這個游戲就被稱為 "不完美信息"。
差分游戲通常是廣泛形式的游戲,但不是有離散的決策點,而是在一個連續的時間框架內進行建模。在這種博弈中,每個狀態變量都根據微分方程隨時間連續演化。這種博弈是模擬快速演變的防御場景的理想選擇,在這種情況下,每個參與者都會對某些參數進行自私的優化。例如,在導彈跟蹤問題中,追擊者和目標都試圖控制他們之間的距離,而追擊者不斷試圖最小化這個距離,目標則不斷試圖增加這個距離。在這種情況下,迭代的決策回合對于模擬每個參與者的連續運動和計算來說過于離散。差分游戲是模擬這種情景的理想選擇。
共同利益博弈是另一類非合作博弈,其中存在一個所有玩家都嚴格偏愛的行動方案,而不是其他所有方案。換句話說,在共同利益博弈中,玩家的利益是完全一致的。可以說,共同利益博弈是零和博弈的對立面,在零和博弈中,玩家的利益是完全對立的,所以一個玩家的財富增加必然導致其他人的財富集體減少。共同利益博弈最早是在冷戰政治的背景下被研究的,以了解和規定處理國際關系的策略。因此,把非合作博弈分為共同利益博弈和非共同利益博弈是有意義的,就像把它們分為零和博弈和非零和博弈一樣,因為這兩個概念(零和博弈和共同利益博弈)代表了非合作博弈的極端情況。
信號博弈是一種不完全信息博弈,其中一個玩家擁有完全信息,而另一個則沒有。擁有完全信息的一方(發送方S)通過信號向另一方(接收方R)傳遞信息,而另一方在推斷出隱藏在信息中的信息后將對這些信號采取行動。發送者S有幾種潛在的類型,其中確切的類型t在游戲中對接收者R來說是未知的,t決定了S的報酬,R只有一種類型,這種報酬對雙方都是已知的。
該游戲分為發送階段和行動階段。S將發送M={m1,m2,m3,...,mj}中的一個信息。R將收到該信息,并從A={a1,a2,a3,...,ak}集合中選擇一個行動作為回應。每個玩家收到的報酬由發送者的類型和信息的組合,以及接收者回應的行動所決定。信號游戲的一個例子是啤酒-蛋餅游戲[52],在這個游戲中,玩家B,即接收方,選擇是否與玩家A決斗。玩家A要么很兇,要么很懦弱,而玩家B只想與后者決斗。玩家A選擇喝啤酒或吃乳蛋餅作為早餐。雖然他們更喜歡吃乳蛋餅,但乳蛋餅發出的信息是吃乳蛋餅的人很懦弱的刻板印象。玩家B必須分析每個決定,決斗或不決斗,如何根據玩家A選擇的早餐給他們帶來更好的回報。
行為博弈論將經典博弈論與實驗經濟學和實驗心理學結合起來,并在此過程中放松了經典博弈論中許多不現實的簡化假設。它偏離了諸如完全理性、獨立公理和不考慮利他主義或公平作為人類決策的動機等簡化假設。我們將在這篇評論中表明,與行為博弈論有關的方法在模擬軍事場景方面至關重要,例如在信號博弈方面。
進化博弈論是博弈論在進化生物學領域的應用成果。進化博弈論中提出的一些關鍵問題包括:哪些種群/策略是穩定的?哪些策略可以在其他策略盛行的種群中 "入侵"(變得流行)?在迭代博弈的背景下,玩家如何應對其他玩家獲得或被認為獲得更好的回報?進化游戲通常被建模為迭代游戲,即一群玩家在一個混合良好或空間分布的環境中迭代地玩同一個游戲。
如果一個策略在盛行時有可能阻止任何突變的策略滲入其環境,那么它就可以被確定為進化穩定策略(ESS)。或者說,ESS是指如果一個種群在給定的環境中采用了這種策略,就不能被任何替代策略所入侵。因此,玩家從ESS轉向另一種策略是沒有好處的。因此,從本質上講,ESS確保了一個擴展的納什均衡。對于一個策略S1來說,要想成為對抗另一個 "入侵 "策略S2的ESS,需要滿足下面提到的兩個條件之一,即預期報酬E。
E(S1,S1)>E(S2,S1)。通過單方面改變策略到S2,該玩家將在與另一個堅持ESS S1的玩家的競爭中失利。
E(S1,S1)=E(S2,S1) & E(S1,S2)>E(S2,S2):一個棋手通過轉換到S2,在與另一個堅持ESS S1的棋手對弈時,既沒有收獲也沒有損失,但與已經 "轉換 "到S2的棋手對弈時,棋手最好還是選擇ESS S1。
如果滿足這兩個條件中的任何一個,新策略S2就沒有能力入侵現有策略S1,因此,S1對S2是一種ESS。進化游戲通常被建模為迭代游戲,即群體中的玩家迭代地玩同一個游戲。
需要指出的是,博弈論的其他幾個分支在上面的小節中沒有提到,也有幾個最新的進展沒有提到。博弈論被用于越來越多的不同場景和應用中。例如,博弈論被用來確定電信業中競爭者的市場份額,或沼氣廠的實施和建設。在一些應用中,矩陣博弈的報酬被構建為包含模糊元素,據說這使得建模的場景更加真實。同樣,量子博弈論是一個新興領域,它引入了疊加的初始狀態、初始狀態的量子糾纏和策略的疊加。這里不能總結所有這些進展。因此,本節只對那些在防御文獻中,特別是在我們評論的論文中經常使用的博弈論概念做了基本介紹。因此,對于不熟悉博弈論的讀者來說,以上各小節提出了一個基本的介紹。請看對所提出的概念的更詳細的處理。
在此背景下,我們現在回顧一下現有的涉及博弈論在國防科技領域應用的文獻。
如前所述,在模擬防御場景的游戲中,影響報酬矩陣的主要參數是目標的價值、資源的價值和目標的優先級。除此以外,國防應用中使用的游戲可以有很大的不同,我們將在下面看到。出于這個原因,本節是根據每篇論文所涉及的領域(戰爭類型)來安排的。如果一篇論文涵蓋了一個以上的領域,它將被列入最相關的小節/領域。然而,我們詳細分析了每篇論文所使用的游戲類型、報酬函數的結構方式、可用策略和均衡等。
在與陸戰有關的博弈論應用中,大多數研究都集中在防御性戰爭上,即軍隊決定如何最好地分配他們的地面防御來應對多種威脅。一些研究還關注歷史上的陸上沖突,并提供事后的博弈論分析,揭示了在歷史沖突中一些憑直覺做出的決定是如何具有理性和數學上的理由的。陸地戰爭可能導致非常嚴重的傷亡,因此了解如何最好地減少人員損失是陸地戰爭的一個關鍵組成部分(盡管不是唯一的目標)。很多時候,確定軍事資源的優先次序也是成功的根本,并經常在戰略決策中占據突出地位。此外,在涉及地面戰爭的情況下,經常需要評估對對手、其可能的戰術或地形的了解:可能需要打擊在某些地方插入的空降部隊,或者需要穿越不確定的領土。在每一種情況下,了解一支部隊在什么地方擁有不完善的信息將有助于該部隊做出合理的決定。
有幾篇論文使用博弈論來模擬當前和歷史背景下的陸地戰爭。Bier等人設計了一個博弈,將防御資源最好地分配給一組需要保護的地點/資源。然后,攻擊者必須決定他們如何選擇分割他們的力量來攻擊不同的目標。這個游戲被模擬成一個正常形式的雙人游戲。這個游戲的回報是絕對的,對一個地點i的攻擊要么成功,要么失敗,攻擊方獲得ai,防御方失去di。由于攻擊的命令是在攻擊前確認的,所以攻擊者必須使用一套純策略。這個游戲既可以同時進行,也可以依次進行。也就是說,游戲的進行取決于攻擊者在做出決定之前是否知道防御者如何分配他們的資源。這就導致了理想的策略是讓一些目標不受防御,并通過讓一些地區脆弱來加強關鍵地區的防御。
我們評論的下一篇論文是Gries等人的文章,它全面調查了博弈論原則在游擊戰/顛覆戰中的效用。他們建立的模型的重要因素是:破壞穩定的叛亂分子經常隨機攻擊,造成持續的威脅,必須有一個持續的緩解和檢測策略;戰爭的持續時間是需要考慮的,它將改變分配給目標和資產的價值;時間偏好在設置優先級方面起著關鍵作用,因為對價值的判斷決定了戰略決策,反過來決定成功或失敗。他們提出的博弈模型涉及一個連續的非合作博弈和一個同時的非合作博弈,在每一個博弈中,兩個參與者是游擊隊和政府。對于這些沖突,經濟和社會影響要比軍事損失和收益重要得多,因此在計算結果的價值方面發揮了更大的作用。
游戲特別模擬了每一方尋求與對方和平或沖突的時刻。在這些時刻,政府軍必須考慮每個選項的財務成本,而叛軍則要考慮交戰的優先順序,以及他們將為每個交戰提供哪一部分戰斗力。圖1展示了在破壞穩定的戰爭中從這些時刻出現的決策樹的例子,其中G代表政府的決策,R代表叛軍的決策。
圖 1. 破壞穩定戰博弈,其中突出顯示了政府和叛軍的決策點
Krisnamurthy等人研究了對無人值守地面傳感器網絡(UGSN)動態行為的博弈論控制,以獲取有關入侵者的信息。該網絡中的每個傳感器都能夠以特定的精度接收附近目標的范圍和方位的測量值,然后將其傳輸到本地中心進行數據融合。在這個框架中,雖然更多的傳感器測量值和更大的測量值傳輸量可能會導致更好的目標意識,但這也導致了對有限電池電量的更大消耗的不良影響。因此,應用博弈論的目標是使用一種雙時間尺度的分層方法,對目標意識、數據傳輸和能源消耗進行最佳權衡。
作者證明,傳感器的激活和傳輸調度問題可以分解為兩個耦合的分散算法。特別是,傳感器被視為非合作游戲中的參與者,并提出了一個自適應學習策略,以根據傳感器與感興趣的目標的接近程度來激活它們。這被證明是這個非合作博弈的相關均衡解。接下來,傳輸調度問題,即每個傳感器必須在每個時間點決定是傳輸數據和浪費電池電量,還是等待和增加延遲,被表述為具有懲罰性終端成本的馬爾科夫決策過程。這一表述的主要結果是表明,最佳傳輸策略具有閾值結構,然后用超模數的概念來證明。
有幾項研究用博弈論的棱鏡分析了主要發生在陸地上的歷史沖突。例如,Cotton和Liu描述了兩個中國古代的軍事傳說,并將其建模為信號游戲。在這兩個游戲中,傳說中的軍事領導人面對的是數量和力量都遠遠超過自己的軍隊的強大對手,但他們并沒有撤退,而是準備交戰,表現得就像在設下埋伏。他們的對手在信息不完善的情況下,只能從對手的行動中推斷出一些信息;由于被這些將軍的自信和名聲所嚇倒,對方的軍隊雖然在實際實力上占優,但卻選擇不交戰。通過勇敢而巧妙的虛張聲勢,兩位將軍都通過站在自己的立場上實現了對自己有利的平衡方案。他們通過在沒有直接溝通的情況下制造欺騙來做到這一點,這遵循了前面提到的Beer-Quiche信號游戲的模板。
科頓和劉描述的第一個游戲是 "100個騎士 "游戲。他們描述了這樣一段歷史:一百名漢族騎兵獨自旅行,遇到了一支人數達數千的匈奴部隊。他們可用的策略是撤退或交戰。如果他們撤退,而敵人參與進來,他們很可能會被擊垮和擊敗;如果他們參與進來,而敵人也參與進來,他們將在戰斗中被淘汰。對他們來說,最好的結果是以某種方式迫使敵人退卻。敵人不確定這些騎兵是否與更大的軍隊同行。他們看到騎兵的行動,決定不冒這個險,而是撤退。這種情況被轉化為一個雙人游戲,有兩種策略。如下圖2所示:
圖 2. 100 Horsemen 信號博弈
在圖 2中:
LG代表漢軍李廣將軍的決策點。
GenX代表了敵對匈奴勢力的決策點。
收益被列為(LG,GenX)
λ∈(0,1) 代表將軍的能力,
α 和 β 代表在撤退中喪生的漢族騎兵比例
w 是一個正參數
第二個游戲與第一個游戲非常相似。在這個游戲中,一個小城市由強大的諸葛亮將軍守衛。他得知一支巨大的敵對軍隊正在接近這座城市。他面臨著兩個選擇。他可以逃跑,之后他將脫離城市,并可能被逼近的軍隊追趕,或者他可以留下并保衛城市。如果他選擇后者,而軍隊參與進來,他很可能會失去他的生命、他的軍隊和這座城市。面對這種兩難的局面,他命令他的人躲在視線之外,使城市從外面看起來是空的。他爬上城中最重要的塔頂,演奏音樂。對方的將軍知道梁將軍的經驗和能力,懷疑將軍在空城的塔樓上采取這個不起眼的位置來伏擊他的軍隊,于是他們遠離城市以避免被伏擊。梁將軍在這里有效地發出了兩個信號。第一個是他的聲譽,這個信號包含了他的戰略和軍事力量。第二是他選擇留下來保衛城市。有了這兩點信息,再加上沒有其他關于梁將軍軍隊的下落或規模的信息,對方軍隊選擇了零損失的安全選擇,離開了。這段歷史被模擬成另一個雙人信號游戲,如下圖3所示:
圖 3. 空城信號博
在圖 3 中:
ZL代表諸葛亮將軍的決策點
收益被列為(ZL,反對軍)
λ∈(0,1) 代表將軍的能力,
c代表城市的價值
w 代表 ZL 的軍隊與對方軍隊匹配時的收益
y表示ZL的軍隊比對方軍隊弱時的損失,并且y>c,因為它包括失去城市
這兩段歷史都代表了面對近乎確定的失敗時做出的杰出軍事決策,實際上是將軍們對信號的細微差別有深刻理解的例子,并在戰略互動中做出理性決策,迫使他們取得有利于自己的結果。
令人驚訝的是,盡管海戰在人類歷史上比空戰要早很多,但直接和主要利用博弈論來研究海戰的論文卻相對罕見。萊文利用博弈論的概念研究了前幾個世紀的海戰的各個方面。在18和19世紀,當時的強國建造的戰艦都是沿著船舷放置大炮的。這意味著船只通常只能對其兩側進行攻擊。當以艦隊形式航行時,標準的做法是形成 "戰線",即一列聯軍軍艦沿某一方向航行,使其兩側面對敵人,也擺成一排。然后,兩支平行的對立艦隊可以用大量的大炮攻擊對方。戰線 "戰略被認為是一種納什式的平衡,因為兩支艦隊都不會從進行耙擊(當時的一種戰術,即攻擊艦會試圖駛過對手的船尾,將大炮集中在那里開火,而敵人由于船尾的大炮位置較少,只能做出最小的反應。攻擊艦會同時破壞對手的船尾和一些寬舷)。根據列文的說法,在一支艦隊中,耙網并不是首選,因為這意味著必須先在敵人前面航行,然后轉向它--當船只的速度大致相同,而且操縱困難時,這是個具有挑戰性的任務。由于兩支艦隊都不會從轉向敵人的過程中獲益,也不會領先,萊文得出結論,這種策略--形成一條戰線并與對方艦隊平行航行--是每支艦隊的最佳反應,因此代表了納什均衡。
萊文接著提到了一些戰役,在這些戰役中,英國艦隊偏離了上述策略,向法國和法國-西班牙艦隊正交航行。在萊文提到的第一場戰役中,這可能是沒有計劃的。在第二場戰役--1805年的特拉法爾加戰役中,它是經過精心設計的:英國艦隊分成兩個縱隊,每個縱隊都以正交方向駛向法西戰線,在撞開戰線并開始全面混戰之前,進行了大約45分鐘的猛烈攻擊。英國人繼續孤立了法西艦隊的中間部分,取得了決定性的勝利。萊文認為這兩場戰役都是他論點的反例。然而,在特拉法爾加戰役中,英國的戰略有可能是對法國和西班牙可能形成的正統戰線戰略的最佳回應。英國海軍上將納爾遜勛爵希望阻止法西艦隊逃跑--如果兩支艦隊形成平行戰線,他們就可以逃跑--從而減少他將自己的艦隊組成戰線所得到的回報。此外,他可能估計到法國和西班牙船只的炮擊能力較差,會降低炮擊的效果,從而減少他直接向法國-西班牙艦隊發起沖鋒所獲得的負面獎勵。在他看來,這可能使得非正統的選擇比正統的戰線更能應對法西可能的戰略。雖然萊文沒有明確地將當時海戰中的這些策略歸結為博弈論,但所采用的策略還是可以通過博弈論分析來證明:這是一個沒有正式研究博弈論的 "直覺 "應用的例子。
Maskery等人在2007年(a)研究了使用網絡支持的操作(NEOPS)框架部署反艦導彈的問題,在這個框架中,多艘艦艇進行通信和協調以防御導彈威脅。在這里,導彈威脅被模擬成一個離散的馬爾可夫過程,它們在一個固定的物理空間內的隨機位置出現,并遵從一些已知的目標動力學和制導規律向艦艇移動。裝備有反制措施(CM)如誘餌和電磁干擾信號的艦艇被模擬為瞬時隨機博弈的參與者,其中單個參與者的行動包括使用CM來最大化自己的安全,同時與其他基本上以實現相同目標為目的的參與者合作。這個博弈論問題的最優策略是一個相關的均衡策略,并被證明可以通過一個具有雙線性約束的優化問題來實現。這與tepmaskery2007decentralized提出的一個相關問題但沒有玩家協調的納什均衡解決方案形成對比。本文的一個值得注意的貢獻是,它還量化了實施NEOPS均衡策略所需的溝通量。本文強調了博弈論方法在分析現代戰爭中至關重要的網絡系統的最優策略方面的效用。
在[71]中,Maskery等人2007年(b)考慮了以網絡為中心的特遣部隊對反艦導彈的保護問題。這個模型中的決策者是配備了硬殺傷/軟殺傷武器(反制措施)的艦艇,這些艦艇也被認為是在博弈論環境下制定這個問題的參與者。這些平臺必須就反措施的最佳部署做出獨立的關鍵決定,同時他們也要為保護任務組成員的共同目標而努力。從本質上講,這是一個海軍環境中的分散導彈偏移問題,它被表述為一個瞬時隨機博弈,艦艇可以計算出一個處于納什均衡的聯合反措施政策。在這里,艦艇之間的博弈而不是與導彈的博弈。這種方法自然適合于分散的解決方案,在完全通信不可行的情況下可以實施。此外,這種提法導致問題被解釋為隨機的最短過去博弈,已知存在納什均衡的解決方案。Bachmann等人使用非合作的雙人零和博弈分析了雷達和干擾器之間的互動。在他們的方法中,雷達和干擾器被認為是目標相反的 "玩家":雷達試圖最大限度地提高探測目標的概率,而干擾器則試圖通過干擾雷達來最小化其探測。
Bachmann等人假設在存在瑞利分布雜波的情況下有一個Swerling II型目標,對于這個目標,在不同的干擾情況下,單元平均(CA)和順序統計(OS)CFAR處理器的某些效用函數被描述。這種博弈論的表述是通過優化這些效用函數來解決的,這些效用函數受到控制變量(策略)的約束,對于干擾者來說是干擾者的功率和干擾的空間范圍,而對于雷達來說,可用的策略包括閾值參數和參考窗口大小。由此產生的矩陣形式的博弈被用于解決雷達和干擾器的最佳策略,從中確定雷達和干擾器有效實現其各自目標的條件。
空戰通常是一種正常形式的游戲,在交戰前,根據對武器庫中不同元素的強度的假設和知識,對所利用的資源做出決定。例如,壓制敵方防空車(SEADs)對地對空防御和地對空導彈(SAMs)是有效的,但對戰斗機則沒有用。因此,當軍事人員決定在交戰中使用哪些資源時,他們需要權衡每種資源的價值,以及目標對沖突雙方的重要性。如果攻擊部隊對一個目標的重視程度遠遠超過其實際價值,那么他們增加的資源支出可能會對其整個軍事行動造成損害。在人類通常操作空中武器的情況下,他們各自的能力和技能,以及他們執行任務的可能性,都需要考慮。
關于用博弈論建模的空戰的文獻有限。漢密爾頓為博弈論在多種空戰情況下的應用提供了一個全面的指導。漢密爾頓建議使用博弈論來制定戰略,不僅要基于自己的軍事選擇,還要考慮對敵人行動的預期。博弈論說明了與敵人的不同互動,而不是簡單地考慮哪一方擁有優越的最大努力力量。如今,許多軍隊可以適應即時變化的情況,并根據這些新情況調整自己的行動。因此,漢密爾頓建議首先確定每一方可用的所有戰術選擇。如前所述,將博弈論用于軍事的最基本要素之一是了解每項資產到底有多少價值--詳細說明雙方的庫存和戰略可能性將最好地澄清所有戰略選擇。對于每個選項,漢密爾頓建議分配一個數值--有效性衡量(MoE)。關于效果衡量的決定是很重要的,因為準確的效果衡量將為戰略上的選擇提供基礎。不正確的MoEs會導致不正確的戰略決策,也許還會導致對決策錯誤的原因理解不足。這方面的一個例子(雖然不是在空戰的背景下)是越南戰爭,美國的早期戰略是最大限度地消滅越共士兵。由于越南北部的領導層并不十分重視他們的步兵,美國的戰略最終導致了戰爭的失敗。接下來,漢密爾頓建議計算沖突雙方戰略之間所有可能的相互作用的綜合價值。這將產生一個回報矩陣,從中可以得出每個玩家的最佳或主導戰略,然后得出一個均衡解。因此,在軍事領導人可能參與的任何交戰之前,他們對游戲的預期結果有一個成熟的想法。漢密爾頓在這些準則中加入了一個注意事項,即把軍事行動的長度作為一個整體來考慮。如果資源的替換成本低或數量多,那么可以分配給一次戰役或打擊攻擊的價值就可能很小。然而,根據整個戰役中這種小規模沖突的數量,這些資源可能會變得非常關鍵。
為了說明這些觀點,漢密爾頓將其應用于一個標準的海空導彈和時間關鍵目標的空戰游戲。在這場戰斗中,"藍方 "正試圖消除一些地面目標。為了做到這一點,他們使用了海空導彈。作為回應,'紅方'將發射防空導彈,而防空導彈則要努力避開。然而,在期待這種回應的同時,藍方也有攻擊機,它們可以防御海空導彈并反擊薩姆導彈,但無法攻擊目標。藍方的問題是:目標的價值是什么,應該為目標部署何種比例的海空導彈和攻擊機?同樣,對于紅隊來說:目標的價值是多少,如果有的話,應該發射多少枚防空導彈?漢密爾頓認為,紅方的最佳策略是只在交戰的一小部分時間內開火,這相當于:
最優藍色策略是將部分飛機分配為SEADs,等于:
在這里,
Pks 是 SAMS 摧毀 SEAD 的概率
PkA 是攻擊機摧毀 SAM 的概率
這種提法簡明扼要地預測了在每一種可能的飛機和導彈發射任務下交戰的可能結果。必須指出的是,在實踐中準確量化不同目標和資源的數值是非常困難的。
Garcia等人2019年研究了在海上海岸線上防御兩架敵機的問題,這兩架敵機的主要目標是入侵防御方飛機控制的領土。而防守方則試圖通過試圖在離邊界盡可能遠的地方連續攔截兩架敵機來防止這種情況。這是一個典型的追擊-逃亡場景,代表了機器人、控制和防御領域的許多重要問題。在本文中,Garcia等人將這一問題表述為零和差分博弈,即防御者/追擊者試圖在離被防御的海岸線盡可能遠的地方連續捕獲兩個攻擊者/入侵者,而攻擊者則合作并在他們被對抗之前使他們離邊界的總距離最小。然后,Garcia等人通過解決一組非線性方程,在這個一防二攻的追逃博弈中找到攻擊者和防守者的最優策略。本文討論的合作策略為能力較弱(也許是速度較慢)的代理人在執行任務時提供了一個重要的協調方法。
Garcia等人在2017年考慮了一個空戰場景,即被攻擊導彈攻擊的目標飛機利用防御導彈來保護自己,因為它試圖在防御者達到與攻擊導彈盡可能近的距離時逃離攻擊者。該游戲被稱為主動目標防御差分游戲(ATDDG)。在本文中,作者擴展了以前在這個三方問題上所做的工作,為ATDDG開發了一個閉式分析解決方案,其中防御者導彈如果進入一個半徑為rc>0的捕獲圈內,就可以擊敗攻擊者。此外,盡管攻擊者采用了未知的制導法,而不是假設它是比例導航(PN)或追求(P),本文所展示的閉式最佳狀態反饋解決方案應該是有效的。最后,作者提供了一套目標飛機的初始條件,在這些條件下,盡管攻擊導彈采用了未知的制導法,但如果目標防御者團隊發揮了最佳作用,其生存就會得到保證。
Deligiannis等人考慮了多輸入多輸出(MIMO)雷達網絡中存在多個干擾器時的競爭性功率分配問題。雷達網絡的主要目標是使雷達發射的總功率最小,同時對每個目標達到特定的探測標準。在這個問題上,雷達面對的是智能干擾器,這些干擾器可以觀察到雷達的發射功率,從而決定其干擾功率,以最大限度地干擾雷達。在這里,Deligiannis等人將這個功率分配問題視為一個非合作博弈,參與者是中央雷達控制器和干擾器,并使用凸優化技術解決這個問題。此外,他們還提供了這種情況下納什均衡的存在性和唯一性的證明,在這種情況下,沒有玩家可以通過改變其功率分配來進一步獲利。
同樣,He等人考慮了多態雷達網絡中的雷達對抗問題,其中研究了在存在智能干擾器的情況下聯合功率分配和波束成形的博弈論表述。該網絡中每個雷達的目標是滿足目標的預期探測性能,同時使其總發射功率最小化并減輕潛在的干擾。另一方面,干擾器的目標是調整自己的發射功率來干擾雷達,以保護目標不被發現。首先,He等人研究了功率分配博弈,每個參與者(雷達和干擾者)的策略集由各自的發射功率組成。然后,他們著手解決相應的優化問題,以計算出雷達和干擾者的最佳響應函數,并表明納什均衡的存在和唯一性。接下來,他們再次將有干擾者存在的聯合功率分配和波束成形器設計問題視為非合作博弈,并提出了一種功率分配和波束成形算法,該算法被證明可以收斂到其納什均衡點。
McEneaney等人研究了無人駕駛飛行器(UAVs)對地面目標和地對空導彈(SAM)系統等防御單位的指揮和控制問題。這項工作的動機來自于無人駕駛空中作業場景中對作業計劃和實時調度的要求。該問題被模擬為藍色玩家(無人機)和紅色玩家(包括薩姆導彈和地面目標)之間的隨機博弈。每一方都可能有一些目標:例如,藍方玩家可能試圖摧毀一個戰略目標,同時盡量減少對自己的損害。另一方面,紅色玩家可能試圖對無人機造成最大傷害,同時保護自己不受無人機的攻擊。
無人機的控制策略由一組離散變量組成,對應于要攻擊的具體目標或防空導彈,而防空導彈的控制策略是將其雷達 "打開 "或 "關閉"。請注意,當雷達 "打開 "時,防空導彈對藍方玩家造成傷害的概率會增加,而藍方玩家對防空導彈造成傷害的概率也會增加。這個隨機博弈的解決方案是通過動態編程得到的,并通過一些數字例子加以說明。這項工作的主要貢獻是分析了不完全信息下隨機博弈的風險敏感的控制方法。特別是,這種方法不僅可以處理由于隨機噪聲造成的噪聲觀測,還可以處理觀測中包含對抗性成分的情況。
Wei等人開發了一個用于多個無人駕駛戰斗飛行器(UCAVs)協同工作的任務決策系統。UCAVs的武器是空對空導彈。在論文中,由一架無人駕駛戰斗轟炸機和兩架UCAV組成的紅色UCAV小組試圖打擊一個藍色小組的地面目標。藍隊有自己的一套UCAVs,其目標是擊敗紅隊。一枚特定的導彈對其選擇的威脅的成功取決于攻擊者和威脅之間的距離、它們的相對速度和相對角度。該場景被表示為一個同步正常形式的博弈,團隊的策略與藍隊實體對紅隊實體的分配相對應,反之亦然。在本文中,紅隊或藍隊的回報是基于考慮特定分配的有效性,而這又取決于對立團隊分配分組之間的相對幾何。Dempster-Shafer(D-S)理論被應用,其中D-S組合公式被用來制定報酬。這些為每個策略計算的報酬,然后被放入雙矩陣中,即每個團隊都有一個,并使用線性編程優化方法解決。如果不存在最優的納什均衡,則采用混合策略的方法進行求解。然后,作者開發了一些具有不同幾何形狀的任務場景,并說明了其博弈論分配策略的使用。他們使用包含紅隊和藍隊相互靠近的實體幾何圖形的注釋圖來證明由他們的報酬公式確定的分配策略是令人滿意的。
Ma等人開發了一種博弈論方法,為在超視距(BVR)空戰對抗中相互交戰的多個無人駕駛飛行器(UAV)團隊生成一種合作占用決策方法。由于導彈技術的發展使遠程交戰成為可能,BVR作戰成為可能。在本文中,每一方的團隊首先決定其無人機實體的占用位置(笛卡爾空間中的立方體),然后為每個無人機團隊成員選擇目標。目標是讓每一方獲得最大的優勢,同時經歷盡可能小的威脅條件。零和同步雙矩陣博弈被應用于分析該問題。對于一個給定的無人機占有率,高度和距離的優勢公式,考慮到射程和武器的最低/最高性能標準,用于產生效用函數的報酬值。由于游戲的規模會隨著每隊占用方塊和無人機數量的增加而導致規模的爆炸(從而導致策略的爆炸),作者選擇了在早期作品中為解決大規模零和博弈問題而設計的Double Oracle(DO)算法,將其與Neighbourhood Search(NS)算法相結合,成為Double Oracle Neighbourhood Search(DO-NS)。通過模擬,作者說明,結果顯示DO-NS算法在計算時間和解決方案的質量方面優于DO算法。
Ba?p?nar, Bar??等人的工作重點是使用基于優化的控制和博弈論方法對兩個無人駕駛飛行器(UAVs)之間的空對空戰斗進行建模。在這項工作中,車輛運動用特定的變量表示,任何從一個航點到另一個航點的軌跡規劃都是通過確定滿足平坦輸出空間中的定義條件的平滑曲線來解決的。在確定之后,所有參與描述平滑曲線的變量都可以恢復到原始狀態/輸入空間。其影響是通過減少所需變量的數量來加快任何軌跡優化的解決。然后利用博弈論,兩個無人機之間的空中戰斗被模擬成一個使用最小值方法的零和游戲。也就是說,當對手采取最佳策略時,每一方都試圖使其收益最大化。這里,目標是讓每個無人機直接進入對方身后,并在一定范圍內滿足機載武器有效射程限制。
在[81]中,作者提供了與基于方位角和軸承角的目標追尾程度有關的成本函數,以及與對手在最佳射程的某個閾值內時產生最大得分有關的成本函數。這些成本函數相乘,形成總成本。成本函數被放入一個后退地平線控制方案中,在一個給定的前瞻時間段內,通過選擇控制措施確定的軌跡規劃被執行,在這個時間段內,雙方都使用相反的策略。每個玩家將其對手視為地平線內的可達集,并以此來選擇其控制的選擇,以使其報酬最大化。這個過程每隔幾個控制步驟就會重復一次。與該領域的大多數其他作品不同,作者使用了性能包絡內的全部控制輸入,而不是一個子集(例如,轉彎、保持哈丁、以特定角度左滾、immelman、分裂S或螺旋俯沖),從而指向為每個玩家的策略生成一個更優化的解決方案。文章提供了兩種模擬情況,第一種情況是任何一個無人機都沒有開始處于空中優勢地位,然后行使后退地平線成本函數優化,在最佳射擊范圍內與對手進行追尾。作者表明,在飛行過程中,應用控制時的速度、載荷系數和岸角都沒有違反界限,而且產生了可行的軌跡。在第二次模擬中,無人機最初處于追尾狀態,但不滿足射擊范圍內的標準。被追趕的對手通過應用成本函數進行機動逃跑,而追趕者繼續追趕。在交戰結束時,滿足了射擊范圍內的標準,目標在正前方,但處于一個次優的方面,這導致其逃脫。這些場景被用來證明所開發的控制策略的有效性,從而為兩個無人駕駛飛行器相互交戰提供自動選擇戰斗策略。
Casbeer等人,考慮了這樣一種情景:追擊無人駕駛飛行器目標的攻擊者導彈被兩個與目標結盟的實體發射的防御導彈所吸引,而這兩個實體與目標合作。它從典型的三方博弈情景中延伸出來,在這種情景中,只有一枚防衛導彈與目標合作的攻擊者交戰。作者在此將其稱為主動目標防御差異博弈(ATDDG)。除了計算擴展到ATDDG中的玩家的最佳策略外,本文還試圖確定當目標使用兩個防御者而不是一個防御者時,其脆弱性的降低程度。本文提出了一個受限的優化問題來解決這種情況。結果表明,目標通過選擇與任一防衛者合作,可以更成功地逃脫攻擊者。此外,兩個防御者的存在使攻擊者更容易被攔截。當兩個防御者的導彈處于良好的位置時,都可以攔截攻擊者。
Han等人提出了一個綜合防空和導彈防御(IADS)的問題,即配備攔截導彈(IM)的地對空導彈(SAM)電池與針對城市的攻擊者導彈(AM)交戰。該問題是一個簡化的具有完全信息的兩方零和博弈,有三個階段。這三個階段對應的是防守方為城市配置防空導彈,然后是攻擊方為城市配置導彈,最后是防守方為反擊攻擊方的導彈配置攔截導彈。這個問題的簡化假設是,在一個城市附近只分配一個防空導彈,每個地點只安裝一個。此外,針對每枚攻擊導彈發射的攔截導彈不超過一枚。此外,一個DM只能分配一個IM,每個SAM都有相同數量和類型的IM,而AM是相同的,并且是單發發射的。試圖用廣泛形式的博弈樹、α-β修剪和使用Double Oracle(DO)算法來解決需要保護的六城市網絡的三層博弈。DO算法是一種啟發式算法,不保證能找到次完美納什均衡(SPNE)。我們研究了每種算法達到次完美納什均衡的效率。對于博弈樹方法,得出的結論是,由于問題的組合性,戰略空間的大小被確定為增加到一個難以解決的大小。當應用α-β修剪時,與DO算法相比,本文確定確定SAM電池、AM和IM的數量在計算時間方面沒有很好的擴展。然而,在少數情況下,DO算法確實無法找到SPNE。盡管如此,作者還是更喜歡DO算法,因為它被證明不違反單調性(報酬的增加)和解決方案的質量趨勢(計算時間的非指數增長),即使當問題的規模從6個城市增加到55個城市。
涉及博弈論在網絡戰爭(不同于網絡安全)中的應用的論文很少。其中重要的是,Keith等人[84]考慮了一個多領域(網絡與防空相結合)的國防安全博弈問題。兩個玩家在一個零和的廣義博弈中相互交鋒,一個是防御者,代表一個配備了網絡戰保護的綜合防空系統(IADS),一個是攻擊者,能夠釋放空對地威脅(導彈、炸彈)以及網絡攻擊(針對IADS網絡)。這里,回報被選為預期的生命損失。防守方希望將其降至最低,而攻擊方則希望將其最大化。保護IADS的網絡安全游戲問題被嵌套在物理安全游戲問題中。玩家的行動對應于激活IADS/網絡安全響應節點的分配,對應于防御方的人口中心,以及攻擊方攻擊IADS/相關的網絡安全節點的分配。通過提供不完善的信息,游戲的真實性得到提高;也就是說,防御者和攻擊者并不完全了解節點的脆弱程度。此外,防御者只能概率性地感知節點的網絡攻擊,這意味著其對特定IADS的網絡防御團隊的分配也只是概率性地有效。對于攻擊者來說,它也可以在物理攻擊一個節點后確定其網絡攻擊的有效性。這項工作通過引入綜合領域、代理行動的多個時期以及使玩家能夠不斷地采取混合形式的策略,為推動安全游戲文獻的發展奠定了基礎。作者認為這是第一項在安全游戲中比較蒙特卡洛(MC)和基于折扣和穩健的反事實后悔最小化(CRM)方法的工作。最初,對于問題的小規模版本,以序列形式的線性程序的形式確定防御者的納什均衡(NE)。然后,問題被逐漸放大,以包括更多的人口中心來防御,直到一個上限。這里,引入了一種近似的CRM算法,以減少計算時間,同時盡可能地保留特定策略的最優性。當規模進一步擴大時,引入了折現的CRM,進一步減少了計算時間。
對問題和算法的參數空間進行了探索,以選擇最佳的調整參數,并從算法中提取最佳性能。通過引入有界理性,使參與者的理性受到限制,因此他們不一定做出最佳反應。他們只能管理近似的穩健的最佳響應動作。一個棋手的穩健最佳反應被定義為完全保守的NE策略和完全激進的最佳反應策略之間的妥協。它在棋手的策略中引入了弱點。對于一個棋手來說,他們的策略能夠利用對手的策略的能力被稱為利用。反之,他們的戰略對于對手的脆弱性被稱為可利用性。當運行所有引入的不同算法時,結果顯示納什均衡解是最安全的策略,因為所走的是不被利用的最佳棋步,然而,它并沒有為玩家產生最高的效用。性能圖顯示,穩健的線性程序產生了最高的平均效用和最高的可利用性比率,同時也消耗了最大的計算時間。數據偏向的CFR被認為提供了最好的權衡,它提供了一個高的平均效用,一個有利于開發的可利用性比率,同時以最低的計算時間運行。
在空間戰爭領域,人力資源和風險要少得多,因此重點是網絡力量和獨立自主代理人之間的互動,連接或其他。最終,這些方面的戰爭將以遠遠超出人類認知能力的速度和維度運作。由于交戰中決策的快速性和復雜性幾乎肯定會超出軍事人員的理解能力,博弈論將取代決策者作為整個軟件和控制系統的一部分,并將未來的技術注入到計算時考慮人類/社會因素。隨著對連接性和網絡化的更多關注,這些領域的成功關鍵依賴于有效的溝通渠道和整個系統的共同目標。在這一新興的研究領域,應用博弈論的論文往往關注衛星網絡。
Zhong等人設定了一個雄心勃勃的目標:優化整個衛星網絡的帶寬分配和傳輸功率。他們的研究以討價還價的博弈論為基礎,必須在網絡中的每一個點上實現對干擾約束、服務質量要求、信道條件以及衛星的發射和接收能力的妥協。干擾限制和帶寬限制是在討價還價游戲中需要協商的盈余,每個衛星使用不同的策略來提高其效用/資源份額。這使得復雜性迅速升級,該模型最重要的收獲是將一個問題映射到合作討價還價的游戲框架中。
同樣地,Qiao和Zhao詳細介紹了衛星網絡中節點的有限能量可用性的一些關鍵問題。他們的論文通過一個路由算法的博弈理論模型提供了一個解決方案,并利用它來尋找不均衡網絡流量的均衡解決方案。該模型定位了某些網絡熱點,這些熱點正在儲備大量的能量,并采取措施均勻地分配資源。這是在網絡中多個參與者之間進行討價還價/合作博弈的另一個案例。
由于目標跟蹤是一個成熟的研究領域,我們發現了一些應用博弈論跟蹤問題的論文。其中大多數都有重疊的戰爭領域,并沒有過多強調在某個特定領域的適用性。例如,Gu等人研究了使用傳感器網絡跟蹤移動目標的問題,該網絡由能夠提供一些與位置有關的目標測量的傳感器組成。每個傳感器節點都有一個觀察目標的傳感器和一個估計其狀態的處理器。雖然傳感器之間有一些通信,但這種能力是有限的,因為每個傳感器節點只能與它的鄰居通信。由于目標是一個能夠最小化其被對手探測到的智能代理,從而有可能增加跟蹤代理的跟蹤誤差,這使問題更加復雜。Gu等人在零和博弈的框架內解決了這個問題,并通過最小化跟蹤代理的估計誤差,開發了一個穩健的最小值過濾器。此外,為了處理傳感器節點有限的通信能力,他們提出了這種濾波器的分布式版本,每個節點只需要從其近鄰獲得當前測量和估計狀態的信息。然后,他們在一個有智能目標的模擬場景中展示了他們算法的性能,并表明雖然標準卡爾曼濾波器的誤差會發散,但考慮到對手的噪聲的最小化濾波器可以大大超過卡爾曼濾波器的性能。
Qilong等人同樣解決了跟蹤智能目標的問題,但他們模擬了一個場景,跟蹤者也在追擊,重點是保護目標。此外,目標可以向攻擊者/追蹤者發射防御性導彈。攻擊者對目標和防御性導彈都有一個視線。目標計劃讓跟蹤器慢慢拉近與目標之間的距離,同時進行機動,以了解攻擊者的反應。當攻擊者接近碰撞時,防御性導彈被釋放。然后,目標和導彈進行溝通,利用對攻擊者運動模式的了解,并遵守最佳線性制導法,以摧毀攻擊者。這被模擬為攻擊者、目標和防御性導彈之間的零和競爭游戲。然而,本文還關注了目標和防御性導彈之間的合作博弈,這是一個非零和博弈。對他們來說,報酬是通過最小化的失誤距離(理想情況下等于零--與攻擊者的碰撞),以及引導防御性導彈所需的控制努力來計算。
Faruqi討論了將微分博弈理論應用于導彈制導的一般問題。他們指出,導彈的軌跡遵循比例導航(PN),這是歸航導彈通常使用的制導法。這些系統的性能是由線性系統二次性能指數(LQPI)來衡量的。在微分博弈論方面,他們通過用一組微分方程表示導彈的導航和軌跡來模擬導彈制導問題。這個問題的一般形式是
在這里,
:是玩家i w.r.t 玩家 j 的相對狀態
:是我輸入的玩家
:是玩家j的輸入
F:是狀態系數矩陣
G:是玩家輸入系數矩陣
Q:是當前相對狀態的性能指數 (PI) 權重矩陣
S:是最終相對狀態的 PI 權重矩陣
Ri,Rj:輸入的 PI 權重矩陣
Faruqi 主要專注于兩人和三人博弈,而效用函數是基于導彈和目標之間的相對距離向量建模的。Faruqi 表明博弈論可以有效地用于現代導彈中涉及 PN 的導彈制導任務。
另一方面,埃弗斯利用博弈論分析了對戰區彈道導彈(TBMs)的防御。彈道導彈和核技術的擴散對軍事沖突有著重要的影響,失敗的代價可能導致整個城市的毀滅。由于它們的射程很遠,威力很大,盡管其有效載荷可以有很大的變化,但很難確定其發射位置。在對抗這種威脅時,防衛國確實有一個優勢,那就是通常有一個很長的飛行軌跡,通常分為三個階段,在這期間可以對TBM進行攔截。推進階段標志著發射和TBM上升的大部分時間。助推階段的結束標志著燒毀,之后TBM進入中段階段。這個階段是飛行時間最長的階段,為防御者提供了攔截TBM的最佳機會。在中段階段之后,TBM進入了重返大氣層的終結階段。這是防御者攔截導彈的最后機會。飛行路線如下圖4所示:
圖 4. 戰區彈道導彈的飛行路徑
導彈在合理延長的飛行時間內行駛了很遠的距離。然而,從它的實際地理位置來看,防衛的軍隊或國家只能在飛行的終止階段運用其資源來防御它,在這個階段風險要高得多,失敗的代價也最大。出于這個原因,埃弗斯提出了一種合作戰略,即防守國與周圍的國家結成聯盟,以便它們也能在TBM前往撞擊地點的早期階段嘗試攔截它。因此,游戲被分為兩個小游戲:第一個是合作性的多人游戲,為國家聯盟設計一套戰略,以便在TBM的整個飛行路徑中使用;第二個是防衛國和潛在盟友之間的討價還價和合作游戲。
擊落TBM的合作游戲的基礎是一種叫做 "射擊-觀察-射擊 "的策略。它依賴于一組N個國家使用一組策略--他們的攔截導彈--來攻擊目標,每個導彈都有自己的攔截概率Pi。當TBM飛行時,N國中的每個國家都會發射其導彈Mn來攔截TBM,然后看看它是否成功地消除了威脅。如果它失敗了,下一個國家的導彈Mn+1將被發射。然后,博弈的問題就被簡化為優化整套策略的攔截概率,從而使其具有阻止TBM的可行可能性。博弈論在這里是有用的,因為合作博弈論的原則提供了一個強大的數學框架,通過這個框架可以為一組合作的國家達成一個均衡的解決方案。
埃弗斯描述的第二個游戲是基于與其他國家的談判,以形成一個聯盟。對于這些其他國家來說,參與這個游戲是一種風險,因為它使他們成為攻擊部隊的另一個潛在目標。為了解決這個游戲,防衛國必須準確評估攔截器的成本節約,也就是說,通過防止TBM的影響可以獲得多少收益。隨著這些節省的費用成為合作國家可以分享的盈余,潛在的盟友就如何分享這些節省的費用進行談判,與他們所能提供的攔截資源成正比。
Shinar和Shima繼續研究追擊-規避游戲和彈道導彈防御的零和游戲,即一個高度機動的彈道導彈避開攔截導彈。更具體地說,它在博弈中加入了一個不完美的信息元素,即彈道導彈知道自己正受到反導彈的攻擊,但對其彈道或發射位置知之甚少。在這個游戲中,兩個玩家是彈道導彈和攔截者。如果彈道導彈使用純粹的策略,它很可能會被擊中,因為它要么(a)不能對它所知甚少的對手做出足夠快的反應,要么(b)會以可預測的方式移動,并允許以直接的彈道走向碰撞。因此,彈道導彈的最佳博弈方案是在混合策略中。
混合策略將在其飛行模式中納入隨機性,為一組純策略分配一個概率分布。這些純策略將基于基本的導航啟發法,這些啟發法很可能是攔截器已知的或容易發現的。通過應用少量快速和隨機的策略切換,彈道導彈可以最大限度地發揮其避免攔截的潛力,并將時間計算的復雜性強加給攔截者。
Bogdanovic等人從博弈論的角度研究了一個多目標跟蹤的目標選擇問題。這是多功能雷達網絡中的一個重要問題,因為它需要同時執行多種功能,如體積監視和火力控制,同時有效地管理可用的雷達資源以實現指定的目標。因此,實際上,他們在[92]中處理了一個雷達資源管理問題,并使用非合作博弈論方法來尋找這個問題的最優解。他們在一個框架中制定了這個問題,每個雷達都被認為是自主的;沒有中央控制引擎來通知雷達它們的最佳策略,雷達之間也沒有任何交流。首先,他們考慮了所有雷達對目標有共同利益的情況,對于這個問題,他們提出了一種基于最佳響應動力學的分布式算法來尋找納什均衡點。然后,這個問題被擴展到雷達之間的異質利益和部分目標可觀察性的更現實的情況。對于這種情況,他們采用了相關均衡的解決概念,并提出了一種基于遺憾匹配的高效分布式算法,該算法被證明可以達到與計算量更大的集中式方法相當的性能。
最后,Parras等人研究了一個追求-逃避博弈,涉及無人駕駛飛行器(UAVs)的抗干擾策略。該博弈在一個連續的時間框架內運行,因此是動態的,在微分博弈論的幫助下被解決。在某種程度上是上述工作的高潮,它結合了通信優化、傳感器規避和導航的元素。鑒于無人機需要強大的通信來控制和傳遞信息,這種依賴性使得無人機非常容易受到干擾攻擊。有多種策略來干擾和反干擾這些通信,這可以被認為是一個零和游戲,無人機必須試圖優化其通信能力。通常情況下,干擾者的定位和移動是不確定的,所以這個游戲是一個不完全信息差分游戲。對無人機來說,最重要的回報是避免因干擾而失去通信,它可以通過操縱來對干擾劑的距離進行近似,從而避免它們。
博弈論涉及的國土安全的關鍵部分是網絡安全、模擬恐怖主義威脅和國防合同。隨著計算機科學的許多應用,博弈論很適合用于網絡安全問題。博弈論結合了計算機科學嚴格的數學嚴謹性,以及更多的心理學和哲學元素,如攻擊者的動機和心態,以及網絡安全中人的脆弱性。恐怖主義建模也同樣受益于博弈論的心理學色彩,因為恐怖活動的許多影響是不容易量化的,包括社會、經濟和其他受恐怖威脅影響的領域,所有這些都可以在博弈論的背景下建模。最后,博弈論適合于承包和分包這樣的課題,因為它能有效地捕捉到自私的個人之間的互動,這已經被用來模擬國防承包商的行為。
Litti的論文簡要介紹了傳統的網絡安全啟發式方法如何能更精確地更新,以及博弈論如何能幫助網絡安全工程師設計策略來正確預測、緩解和處理受到威脅的網絡。他開發了一種定性的方法來評估網絡攻擊的潛在風險和成本。雖然是一篇相當短的論文,但它確實提供了一些博弈論在實踐中的網絡安全情境案例。例如,他建立了一個雙人零和博弈的模型來代表攻擊者和安全系統。各個節點都有自己的相互依賴性、脆弱性和安全資產,但通過合作,將攻擊者破壞系統的可能性降到最低。
Jhawar等人提供了一種更具體的博弈論方法,即攻防樹(ADTs),來模擬涉及網絡安全威脅的場景。在這里,ADTs被用來在一個配備了自動防御協議的系統上繪制潛在的攻擊和防御場景。該系統需要全面解決所有可能的漏洞,并產生適應網絡安全攻擊的積極演變情況的反應。目前,ADTs只提供前期的系統分析。擁有一個反應式的網絡安全策略是很重要的,因為攻擊者會不斷改變他們的攻擊策略來進行進攻,所以實時反應的時間可以使系統的防御成功和失敗之間產生差異。在Jhawar等人的文章中,他們建立了一個攻擊者和防御者的簡單游戲模型--黑客和安全網絡管理員。黑客試圖破壞系統的完整性,對于他們的每一步行動,管理員都會根據攻擊者的嘗試設計一個反應性的策略。這種方法最大的效用來自于將長的廣泛形式的游戲轉換為圖形布局的能力,以便于理解和交流。
岡薩雷斯清楚地概述了一個標準的攻守雙方的競爭游戲,然后利用基于實例的學習理論和行為博弈理論。前者將認知信息編譯成一種被稱為實例的表示。每個實例都有一個由情況、決定和效用三部分組成的結構--標準的游戲。然而,這種方法的關鍵是實例之間的互動。基于實例的學習理論利用每個實例的學習結果反饋到下一個實例的情況,希望能在以后的迭代中做出更好的決定。這明顯類似于機器學習中的強化學習技術。另一方面,行為博弈論涉及到設計一種策略,我們評估各種因素,對目標和資源進行更精確的長期評估,使效用分數更接近于反映現實生活的價值。再次,博弈論促進了網絡安全應用中社會信息的獲取,并評估了這將如何影響游戲中雙方的行為。其他關鍵因素包括玩家的動機因素,每個玩家的信息完整性,以及玩家和技術之間的技術限制和低效率。岡薩雷斯強調,在任何網絡安全模型中容納這些因素的重要性將有助于為網絡防御制定更現實和有用的政策。
網絡安全的一個常見用途是用于預防恐怖主義。Hausken等人用一些指導性的博弈論原則涵蓋了恐怖主義和自然災害的建模。恐怖主義和自然災害是通過用反恐怖主義、反災害和反所有災害的投資來進行防御。對這些事件發生的可能性進行預測,防御者必須對每項防御的投資額做出戰略決策。在這些情況的效用函數中需要考慮的成本包括恐怖分子的情報或自然災害的隨機性/環境控制;攻擊/災害的強度,以及恐怖分子和防御者之間對目標價值評估的差異。本分析中使用的博弈論方法抓住了防御者在打擊每個威脅時的努力。根據每個事件的可能性,結合每個防御系統的成本,防御者可以得出資金的最佳分配方案。
Kanturska等人提出了一個嚴格的檢查,即當不同地點的攻擊概率未知時,如何使用博弈論評估運輸網絡的可靠性。該方法傾向于使用最小化算法在多條路徑上分配風險,只要旅行成本相對于攻擊造成的潛在損失較小。這對于評估安全護送貴賓穿越城市的潛在風險很有用。博弈論在這種情況下很有幫助,因為它可以分析攻擊概率未知時的網絡可靠性。
Bier提出了基于博弈論的有用建議,用于政策見解和投資決策、保險單的保費等等。她的工作討論了最弱環節模型:一種將所有資源集中在防止最壞效用情況的策略。這在實踐中通常并不理想,她反而建議考慮用各種防御戰略來對沖這些投資,針對不同的潛在目標。本文考慮了恐怖分子/防御者的博弈,以及安全投資如何改變整個社區的攻擊者-防御者互動的景觀。這主要是通過其自身的范圍研究來完成的,其中一個關鍵的收獲是,恐怖主義緩解系統可以從博弈論中受益,因為它增加了一個額外的考慮,即恐怖分子對任何防御機制的反應。因此,博弈論與對所有系統進行風險和可靠性分析的整體方法相結合,可以對反恐戰略中的所有潛在風險和漏洞進行更全面的評估。
Cioaca研究的問題與前面提到的Bier等人的問題類似,但特別關注航空安全問題。該問題的總結是針對機場安全措施的成本和維持一個穩定而有彈性的防御系統的成本。關鍵的策略是:完全防止攻擊或威脅(通過取消對目標地點的所有訪問或限制航空公司的權限,如果他們沒有遵守規定的準則);管理攻擊的時間維度(攻擊的長度和隨后的恢復時間);了解所有直接和間接的損失(包括傷亡和相關的損害,如污染或感染,受損的二級安全措施,或聲譽/信號的影響);以及緩解、響應和恢復的成本。
該模型是圍繞幾個因素和參數建立的。首先也是最關鍵的是人員損失和物質損失。 H 指人員損失,D 指物質損失,
指分配給相關安全系統的預算。攻擊中最明顯和最直接的損失,這兩種損失在這種攻擊中是非常負面的回報,并且通常比任何防止它們的成本都要高。人員損失 H 難以用數值量化,因此在對資源劃分進行適當評估時,了解如何在不同人群和不同維度上最小化人員損失是該問題最困難的方面之一。物質損失 D 可以用貨幣量化,但這種損害的連續影響通常是造成重大損失的地方。這些損失可能導致基礎設施全面關閉、設施停止運轉、工人失業,甚至可能導致設施的緩慢衰退和完全關閉。這場比賽的第二個主要因素是分配給安全系統的預算
。組織和管理機構將只有一定數量的資源分配給安全系統 T。下一個因素是安全系統組件的數量,因為這將是預算的組成方式。這些組件中的每一個都被劃分為 n 個單獨的系統子組件之一。這些組件被劃分為多個目標
,并且這些目標中的每一個都被分配了一個被攻擊的概率
和一個值
。這可以正式表示為:
對于任何資源劃分系統,Ciaoca 主張建立衡量系統彈性的維度。這分為靜態彈性,資源的有效分配;動態彈性,沖擊后系統的恢復速度,包括長期投資流入。這兩種形式的彈性表示攻擊之前、期間和之后的系統強度。在博弈論方面,Ciaoca 的研究清晰地定義了一個博弈,并結合了無數復雜且相互關聯的參數,勾勒出一個有效且可計算的博弈模型。
我們討論的關于國家安全的最后一篇論文是由 Gardener 和 Moffat撰寫的。本文涵蓋了制定戰略以評估國防承包商及其履行合同義務的潛在績效/能力的概念。用博弈論的說法,這個問題可以用合作和背叛來表達。加德納和莫法特提出了量化方法,國防部可以通過這些方法更嚴格地評估合同和招標方案,從而明智地選擇承包商并保護他們的預算。Gardener 和 Moffat 進一步了解了國防采購項目不同招標階段項目管理的變更要求。他們關注的因素是樂觀的陰謀,由于對項目進度的不合理預期,項目逐漸失控——超過了預算限制和必要的最后期限。通常,這種“陰謀”是為了獲得短期收益,實際上會導致整體損失。所玩的投標博弈不再是關于項目的成功,而更多地是關于利潤資本化,并可能進一步退化為相關國防部與整個承包商行業對抗的兩人博弈。
一些論文在防御環境中使用博弈論,但不能輕易歸類為上述任何類型,或者它們與混合戰有關。例如,Zhang和Meherjerdi研究如何在不同的通信框架中使用博弈論方法來使用和控制多組無人駕駛車輛。將單個無人駕駛車輛的任務分配給多個無人駕駛車輛會產生更有效的任務分配和性能。將勞動力從一輛強大的單一車輛分離到幾輛較小的車輛提供了靈活性、適應性和改進的容錯能力。這種網絡的用途是監視、探索、衛星集群、結合無人駕駛水下航行器 (UUV) 和潛艇、飛機和無人駕駛飛行器 (UAV) 以及協作機器人偵察。從這個列表中可以明顯看出,該策略非常強大,因為它能夠跨多個域組合資源。
同樣,可以注意到,搜索是一種“捉迷藏”游戲,在軍事應用中有著悠久的歷史。該理論是由 Koopman率先在軍事背景下(尋找逃跑目標)提出的,隨后由 Stone 等人的開發,應用包括潛艇狩獵、探雷、救援行動、第一響應者的風險以及危險源的定位。該框架提供了最優的先驗給定檢測模型、目標運動和搜索成本的搜索計劃。搜索成本可能包括搜索時間、逃生概率(對于目標)、暴露風險(對于搜索者)、信息熵或態勢感知(目標位置概率圖)。搜索器可以是移動平臺(UAV、UUV、巡邏艇、直升機、機器人、人),目標可以是靜態的、可移動的、盲目的、無聲的或發射的。在這種情況下,經常使用同時定位和映射(SLAM)算法。這一利基市場的新研究方向(受一些生物學應用的啟發)采用了信息趨向的思想,或基于從環境中提取的信息(熵)增益(零星測量、禁區、搜索者之間的通信)實時控制搜索者的移動。博弈論的原理可以應用在可以建模為“捉迷藏”游戲的環境中。
在上一節中,很明顯,許多論文在多個領域都有適用性,并且使用了無數類型的博弈并為一系列玩家建模。因此,必須以有原則的方式對已審查的論文進行分類。為此,我們使用第 2 節表 1中已經介紹的分類方案。
特別是,可以根據 (1) 戰爭的領域或類型 (2) 論文中使用的一種或多種博弈類型,以及 (3) 論文中建模的玩家的性質對所審查的論文進行分類。該領域可以大致分為傳統(T)或現代(M),更具體地說,可以分為陸戰、海戰、空戰、網絡戰和太空戰。根據博弈是非合作的還是合作的、順序的還是同時的、離散的還是連續的、零和還是非零和,所使用的博弈類型也可以有一個復雜的分類。最后,博弈可以是兩人、三人或多人(多于三人)博弈。所有這些都在表 1中進行了簡要介紹。
在表2中,我們提供了基于上述分類方案的所有評論論文的不言自明、詳盡的分類。
表2.使用表 1 對國防博弈論應用領域的論文進行分類。此處描述的共有 29 篇論文被分類。
我們現在考慮的問題是,在這些論文中,哪些論文引起了研究界的最大興趣,或者導致了后續或相關工作的開展。衡量這種影響的一個通常使用的指標是引文數,雖然這個指標顯然偏向于早期的論文。盡管如此,在表3中,我們展示了所考慮的 29 篇論文的 Google Scholar 引用數。哪些論文被引用次數最多,讀者不言而喻,我們不再贅述。然而,我們強調,引用次數并不是衡量影響力的唯一指標,也不一定是衡量一篇論文在研究領域的影響力的最有效方法。但是,它是一個現成的衡量標準,可以傳達有用的信息。
表3. 已審查論文的 Google Scholar 引用數。谷歌學術引文數據于 2021 年 12 月 18 日訪問。
表3還顯示了每篇論文的原籍國,其定義是出現在相應作者的第一署名中的國家。可以看出,這些論文是由來自美國、英國、澳大利亞、中國、荷蘭、加拿大、以色列、印度、德國、西班牙和羅馬尼亞的研究人員撰寫的。看來,美國、歐洲(尤其是西歐)和中國對在國防科學中應用博弈論有主要興趣,同時我們承認,可能有幾篇用英語以外的語言撰寫的論文,我們沒有考慮。
為了了解在上述分類中描述的不同領域之間是否存在充分的思想交流,我們考慮了在29篇評審論文中,有多少論文引用了同一組的其他論文。表4列出了根據谷歌學術的引用情況。令人驚訝的是,沒有一篇論文被其他被審查的論文引用兩次以上,而且大多數論文根本沒有被這組論文中的其他論文引用。盡管這組論文的總體引用次數是健康的--根據表3,被審閱的論文平均被引用34.97次,而且有幾篇論文被引用超過50次。然而,這些引用大多來自與國防科技有關的論文,這些論文使用各種方法和工具來解決類似的問題,顯然,在國防應用中使用博弈論的研究人員之間幾乎沒有交叉交流。因此,除了我們在下面介紹的文獻中的 "空白 "表明了潛在的研究機會外,還應該強調的是,應該提高對該領域類似工作的認識,這將可能導致在某一特定領域產生的想法被重新用于其他領域和與國防有關的其他應用。
表4. 根據谷歌學術,審閱過的論文中的引用情況。谷歌學術的引用數據是在2021年12月18日訪問的。從該表可以看出,在該領域中相互引用對方的工作是極其罕見的。
審查的論文表明,博弈論可以提供一個統一的框架來分析代理在防御環境中的決策行為。在本節中,我們將簡要討論迄今為止尚未應用博弈論但如果在未來應用將做出有用貢獻的一系列潛在防御場景。
國防高級研究計劃局(DARPA)最近對 "馬賽克戰爭 "的調查就是博弈論未來潛在應用的一個例子。這個想法是在操作多個無人駕駛飛行器的背景下被提到的,并建議在一個'馬賽克'網絡中擁有許多較小的具有成本效益的資源相互連接,這樣,如果幾個單位被摧毀,網絡的整體完整性仍然存在,就像馬賽克即使被移除幾塊瓷磚也能保持其圖像。我們的目標是,這樣一個具有不同能力的龐大資源陣列將能夠以其完整性和復雜性壓倒敵人。它利用并發性的原則來解決由數百萬個傳感器和執行器組成的系統中錯綜復雜的連接問題。這些系統又必須處理系統間的通信。如果成功實施,這樣一個系統的系統可以為軍事戰略家提供一個壓倒性的強大的武器裝備和資源網絡,它可以憑借其動態的規模和復雜性擊敗對手。這種將軍火庫的不同部分結合在一起的方法使每個部分的利益最大化,并重新引入了對資源消耗性的關注,而不是專注于幾件高價值的武器裝備。這反過來又為戰略建立了彈性和適應性,擺脫了重量級的、單一重點的攻擊方法。由于有大量成本較低的資源需要合作以獲得最佳結果,這種情況在一個層面上可以被模擬成多人合作游戲,而與對手的爭斗可以被模擬成多人非合作游戲。可以注意到,"馬賽克戰爭 "的概念本質上類似于更普遍的基于代理人的建模概念,它已經被用于幾個不同的背景,從無齡航空器設計到傳染病動態建模,博弈論已經在其中一些背景下成功使用。
在海戰的背景下,博弈論可以卓有成效地應用的另一個領域是海軍的易損性。在分析海軍的易感性時,海軍艦艇要考慮其環境、運動模式和潛在的對手傳感器,以計算其在秘密移動時被發現的風險。這樣的應用與國防科學中通常研究的跟蹤問題有重疊之處,正如顧氏所解釋的,它描述了使用傳感器網絡的跟蹤。如前所述,這種情況可以被建模為一個雙人非合作性差分博弈,而探測是每個參與者的主要回報參數。
事實上,地基跟蹤問題也可以從博弈論的應用中受益,而到目前為止,這一領域的論文還很少。地面追蹤問題既可能出現在地面軍事應用中(這里歸類為陸戰),也可能出現在國內安全和反恐應用中(這里歸類為國家安全應用),其中安全機構在整個社會中追蹤個人行動的能力--包括他們的位置、社會網絡和動機--是一種關鍵能力。后一種情況可以被模擬為追擊和躲避的雙人游戲,或者也許只是追擊和偵察,目的是不向目標透露追擊的情況,而目標將試圖識別追擊。在這種情況下,從秘密跟蹤中獲得的預測性信息量將是回報。 賽博戰建模是博弈論可以應用的另一個領域,同樣,正如前面相關部分所述,除了主要來自計算機科學領域的論文之外,很少有論文涉及這一領域網絡安全。Kim等人[124] 描述了所有軍事行動不可或缺的網絡戰場景,并強調了物聯網 (IoT) 和腦機接口等新技術范式所發揮的關鍵作用。防御專家越來越需要預測和先發制敵的網絡戰策略。使用新穎的技術接口對涉及網絡戰場景的決策制定進行建模是博弈論可以發揮重要作用的領域。
如上所述,根據表 4 ,在所呈現的文獻中,似乎很少有交叉、思想交流,甚至對其他類似作品的認識,也可能被認為是一個“空白” 。因此,在國防應用中使用博弈論的研究人員之間加強合作是可取的,這將使博弈論方法在多個戰爭領域的重用。
這里有必要討論一下,除了總結現狀和確定文獻中的差距之外,像這樣的評論如何為該領域增加價值。我們注意到,在選定的論文集中,從一篇論文到另一篇論文的引用很少。雖然很難說出其中的原因,但可以看到大多數研究都集中在特定的戰爭領域,如陸戰、海戰或空戰,并試圖解決特定戰爭領域的具體問題。因此,專注于不同戰爭領域的論文不一定被認為是另一篇在國防背景下應用博弈論的論文,而是屬于不同戰爭領域的論文,因此沒有被關注。然而很明顯,這樣的方法可能會導致錯失機會,因為往往沒有考慮到同一套博弈論工具還可以在哪里得到類似的應用。像這樣的一篇評論文章將在一定程度上糾正這個問題。此外,我們可以看到,報酬函數的定義往往是僵化和狹隘的,是基于傳統上被認為是某一類型戰爭的重要參數。例如,陸地戰爭的重點是盡量減少傷亡,而國家安全應用的重點是提高公眾信心。然而,在大多數類型的戰爭中,有一系列的因素促成了最終的回報,從傷亡和軍事資產的損失到公眾信心、間接經濟成本、機會成本、盟國的成本以及政治和戰略考慮。這篇評論文章通過對幾個戰爭領域的報酬結構的廣泛概述,可能會刺激在每個使用博弈論的戰爭領域建立更全面的報酬函數模型。此外,從一般意義上講,這篇評論將有助于強調與國防有關的決策是一個有條不紊的理性過程,可以進行結構化分析,而不是像過去國防界某些部門所認為的那樣是一個直觀的過程[125]。同時,所提出的分析將有助于避免一方面的微觀管理和另一方面的沖動決策[126],而不是鼓勵國防應用中的量化決策過程。
特別是,在作戰和戰術決策過程之外,所提出的評論還具有管理和社會意義。
博弈論的應用對一個國家的國防力量非常有用,不僅在戰術和作戰方面,而且在和平時期的國防資產的戰略管理方面也是如此。例如,出于威懾和作戰準備的目的,軍事資源的戰略布局,如戰艦、潛艇和戰斗機,可以被視為一個合作博弈,或者相當于一個優化問題,可以通過線性編程或非線性編程來解決。同樣,關于戰略軍事設施,如基地、簡易機場、港口,甚至公路和鐵路[127,128]的安置和建設的決策,也可以通過使用合作博弈論對相關情景進行建模來幫助。另一個可以應用博弈論的管理決策過程是后備軍事人員的管理,包括何時征召后備人員。因此,博弈論不僅對做出作戰決策的軍事人員有用,而且對必須做出國防相關決策(包括在和平時期)的文職管理人員和政治家也有用,因為這些決策可能會產生長期的影響。
在國防場景中應用博弈論的社會效益主要來自國家安全的觀點。公眾對國土安全的看法是國防考慮的一個重要部分,對國防開支有相當大的影響。國防和執法部門的決策者在做出國防開支決策時,不僅需要考慮實際的風險和威脅,還需要考慮感知的風險,以及受其影響的因素,如保險費用、對旅游業的影響、信用評級機構的評級、投資者對一個國家的投資意愿、安全措施的實際和感知成本等等。博弈論可以成為一個非常有用的工具,用來模擬這樣一套復雜的因素和參數,以及不同情況下產生的整體回報。反過來說,這種決定一旦做出,顯然會影響國家安全,并反過來影響公眾對國家安全的信心和看法。因此,對風險的感知和國家安全的支出相互影響,博弈論所提供的工具集對于模擬這樣一個復雜的反饋回路非常有用。顯然,公眾的情緒和對事件的看法在戰時情景下也很重要,在戰爭的各個領域做出的決定都會影響公眾的看法,這反過來可能會影響沖突的軌跡。因此,博弈論在國防場景中的應用具有明顯的社會意義。
同樣重要的是,本評論增加了新的見解,對理解指揮和控制戰爭很有幫助。其中一個見解是,智能代理之間的合作和敵對競爭并不像它們乍看起來那么根本不同:事實上,在某種意義上,它們都可以用同一個框架(博弈論)來表示,并且都涉及一些智能參與者、戰略和回報。不同的是,敵對的競爭由非合作博弈論表示,其中一個玩家的報酬增加往往導致另一個玩家的損失(零和博弈是這種情況的一個特例)。另一方面,合作是由合作博弈論來代表的,在這里我們對聯盟進行建模,有時還討論 "公共利益 "的概念。當一個敵對的玩家有可能變成盟友或反之亦然時,這樣的洞察力特別有用。另一個見解是,將防御場景作為游戲來建模的主要困難不是來自于確定可能的戰略或參與者,而是來自于量化的回報。很多時候,我們審查過的論文在量化回報時做了一些假設、簡化和估計,可以設想,這些過程引入的累積錯誤可能已經嚴重改變了游戲的結果,從而使建模變得無效。因此,許多論文在應用博弈論時面臨的主要挑戰是如何準確或合理地模擬報酬。除非像我們在這里所做的那樣,對博弈論的幾個防御性應用進行廣泛的回顧,否則無法獲得這樣的見解,而這些見解對于塑造該領域未來的研究方向非常重要。
博弈論已被證明是一種通用且強大的工具,可用于深入了解許多領域的智能體和參與者的決策過程。在這篇評論文章中,我們詳細闡述了博弈論可以應用于國防科學技術的幾種場景,并簡要回顧了該方向的現有研究。我們根據所研究的戰爭類型、使用的博弈類型和玩家的性質,對 29 篇評論論文進行了廣泛的分類。基于所做的觀察,我們確定了文獻中的空白,即博弈論迄今尚未被廣泛運用,但在未來有很大的潛力被富有成效地運用;我們還討論了博弈論的國防應用在未來可能擴展的方向。
基于領域的分類是采用的主要分類模式,在此背景下,我們將審查的論文分為陸地、空中、海洋、網絡和空間領域。我們還考慮了主要與跟蹤和國家安全有關的論文。對于所考慮的每篇論文,都定義了參與者的數量和角色以及博弈類型,并在可能的情況下討論了策略和收益函數。這項工作的目的是確定最常分析的領域以及經常使用的博弈類型,并利用這些知識來確定文獻中的差距,在國防背景下的各個領域和戰爭類型中相互交流意見。
希望這次審查能產生幾個積極的結果。我們發現了文獻中的空白,并指出博弈論提供的工具集在分析某些戰爭模式時并未得到充分利用。例如,我們指出,使用博弈論分析的海戰論文相對較少。我們還注意到,可以通過應用博弈論來分析新興的戰爭模式,例如馬賽克戰。因此,本次審查可能會導致更多的博弈論方法來模擬這種戰爭模式。此外,我們強調了該領域內的引文網絡非常稀疏:也就是說,在國防應用中使用博弈論的各種研究人員之間的思想交流是很少見的。這篇綜述可能會成為該領域研究者之間合作和相互交流的催化劑。然而,最重要的是,這篇評論旨在向迄今為止尚未使用博弈論的國防科學家強調博弈論在國防應用中的效用,因此將為國防科學家引入一套新的工具,他們可以將其應用于他們的研究.
隨著世界應對和平與穩定面臨的新挑戰,人類的未來取決于我們和平解決問題的能力。雖然這是一個崇高的目標,但權力的投射絕對比實際的武裝沖突要好,后者在許多層面上都會付出很高的代價,博弈論確實可以在決定一些可能發生的“軟沖突”中發揮作用在未來幾年和幾十年里。隨著未來幾年對國防戰略和能力的關注可能會增加,博弈論可以作為一種額外的工具,國防科學家可以在許多抽象層次上使用它來解決部署、感知、跟蹤和資源分配問題。
這項研究是由澳大利亞國防科學技術集團資助的。
略
我們并不是生活在真空中!我們與環境中的其他主體互動以做出理性的決定。例如,選擇從你的公寓到校園的最快或最簡單的路線,在eBay拍賣中選擇最合適的出價,決定是否在雙人撲克游戲中認輸,或在石頭剪刀布游戲中選擇獲勝的一步棋。在所有這些例子中,我們在做決策時必須與其他代理交互。特別是,我們的最佳策略取決于環境中其他代理的行為(例如,選擇的路線取決于使用這些路線的其他人的數量,如果我的對手選擇剪刀,我就選擇石頭)。在給定的環境中,面對其他戰略主體時,我們如何做出理性的決策?最好的策略是什么?博弈論幫助我們回答這些問題。
博弈論是一種數學工具,它允許我們對特定環境下的利己主義和理性行為者的戰略互動進行推理。該結構提供了一組框架,描述了在這樣一個戰略代理人的環境下的理性結果。雖然博弈論領域起源于經濟文獻,但計算機科學家在過去幾十年里從建模和計算的角度對這一領域做出了重大貢獻(這導致了計算博弈論)。此外,許多博弈論應用在現實世界中(例如,分配警力到洛杉磯國際機場的檢查站,分配巡邏人員來保護非洲的野生動物,預測美國參議員的投票行為)。
觀眾將會學習到: (1) 引入基本的博弈論決策工具,建模和理解自利和戰略代理的戰略互動; (2) 了解建模工具的解決方案概念,以及如何使用它們來預測agent的決策行為; (3) 介紹了計算方面的計算這些解的概念; (4 )接觸了博弈論在安全和社會科學領域的一些主要應用。 此外,如果時間允許,講座將涵蓋更高級的主題,包括解決復雜策略空間的博弈,博弈中的學習,完全信息的動態博弈,不完全信息的靜態博弈,不完全信息的動態博弈。