亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自從十年前發現針對機器學習模型的對抗性攻擊以來,對抗性機器學習的研究已經迅速演變為一場永恒的戰爭,捍衛者尋求提高ML模型對對抗性攻擊的魯棒性,而對手則尋求開發能夠削弱或擊敗這些防御的更好攻擊。然而,這個領域幾乎沒有得到ML從業者的支持,他們既不關心這些攻擊對他們在現實世界中的系統的影響,也不愿意犧牲他們模型的準確性來追求對這些攻擊的魯棒性。

在本文中,我們旨在設計和實現Ares,這是一個對抗性ML的評估框架,允許研究人員在一個現實的兵棋推演環境中探索攻擊和防衛。Ares將攻擊者和防御者之間的沖突設定為強化學習環境中目標相反的兩個Agent。這允許引入系統級的評估指標,如失敗的時間和評估復雜的策略,如移動目標防御。我們提供了我們初步探索的結果,涉及一個白盒攻擊者對一個經過對抗性訓練的防御者

I. 前言

人工智能系統的大規模采用,促使人們重新審視人工智能算法的可靠性、隱私性和安全性。在安全性方面,人們很早就發現,基于圖像的人工智能算法很容易受到一類對抗性規避攻擊[1],[2]。在這種攻擊中,對手會引入人眼無法察覺的少量噪聲,以便在推理過程中可靠地誘發錯誤分類。自其發現以來,大量的研究提出了許多經驗性的防御策略,如改造模型的輸入[3],修改神經網絡結構[4],以及在另一個訓練數據集上訓練網絡[5]。盡管有大量的工作,無論是開發新的對抗性攻擊還是提出新的防御措施,包括強大的物理世界攻擊[6],對抗性威脅模型對ML從業者來說仍然沒有動力。在一項小型的行業調查中,Kumar等人[7]發現,雖然大多數被調查的組織都知道對抗性樣本,但他們說 "對抗性ML是未來的",并且缺乏研究和緩解這種攻擊的工具。

我們認為,有兩個關鍵問題阻礙了人們接受對抗性規避攻擊作為一種威脅:(1)大多數先前的工作所使用的非激勵性威脅模型;(2)缺乏評估復雜的對抗性攻擊者和防御者互動的工具。遵循Kerckhoffs原則,對抗性攻擊和防御的研究主要采用白盒威脅模型,即對網絡和防御參數的完全了解。在這種視角下,許多提議的防御措施被證明是無效的,因為擁有完美知識的攻擊者可以適應防御[8]。然而,這樣一個強大的威脅模型只能由具有內部訪問AI算法和訓練數據的攻擊者復制。在真實的部署場景中,一個組織主要關注的是其人工智能系統對外部攻擊者的安全性。

盡管沒有認識到對抗性ML是一種威脅,但對抗性攻擊庫已經興起,使ML從業者能夠研究目前最先進的攻擊和防御算法。一些例子包括多倫多大學的CleverHans[9],麻省理工學院的魯棒性包[10],圖賓根大學的Foolbox[11],以及IBM的對抗性魯棒性工具箱(ART)[12]。每個庫都定義了一個統一的框架,從業者可以通過它來評估使用自己的人工智能系統的攻擊或防御的有效性。不幸的是,這種評估在本質上是有限的,因為評估的威脅模型受到攻擊算法的限制。此外,攻擊者和防御者都被認為是靜態的。他們不會根據對方的行動來修改自己的行為,因此,報告的有效性是誤導性的,不能轉化為現實世界中的有意義的有效性概念。

在本文中,我們描述了一個新的評估框架--Ares,它將對抗性攻擊場景表現為攻擊者和防御者之間復雜的、動態的互動。我們將攻擊者和防御者之間的沖突作為強化學習(RL)環境中的兩個獨立Agent來探索,其目標是對立的,為對抗性ML評估創造了一個更豐富、更真實的環境。通過利用這種RL環境,我們能夠將攻擊者或防御者的策略(RL策略)調整為靜態的、隨機的、甚至是可學習的。Ares還允許調查白盒和黑盒威脅模型,從先前評估的局限性中汲取靈感。

作為其首次亮相,我們使用Ares重新審查了白盒場景下的集合/移動目標防御(MTD)框架的安全性,并強調了這種設置的脆弱性。使用自然訓練和對抗性訓練模型的不同組合,Ares評估發現,一般來說,攻擊者總是獲勝,對抗性訓練只能稍微延遲攻擊者的成功。正如之前的工作所討論的,攻擊者的成功主要是由于對抗性例子的可轉移性[2]。我們通過Ares的視角對這一現象進行了更深入的調查,發現網絡之間共享的損失梯度,無論訓練方法或模型架構如何,都是罪魁禍首。然后,我們討論了如何根據這一發現改進MTD,以及我們下一步如何通過Ares在黑盒威脅模型中評估MTD和其他先前的工作。

在本文中,我們做出了以下貢獻:

  • 我們開發了Ares,一個基于RL的對抗性ML的評估框架,允許研究人員在系統層面上探索攻擊/防御策略。

  • 利用Ares,我們重新審查了白盒威脅模型下的集合/移動目標防御策略,并表明這種失敗的根本原因是由于網絡之間的共享損失梯度。

Ares框架在// github.com/Ethos-lab/ares上公開提供,我們將繼續開發更多的功能和改進。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

摘要

本文是挪威國防大學學院更廣泛的研究和開發項目的一部分,該項目旨在探索各種兵棋推演和軍事演習的效用和潛力。這篇文章旨在激發對兵棋的使用和問題進行討論,并激發產生新的和更好的建議。因此,本文包含意見和學術思考。本文討論了兵棋推演、其多種不同類型、它們的實際用途,以及在使用兵棋以產生有用結果時出現的一些危險或陷阱。本文的目的是促進辯論,而不是給出任何明確的結論。

簡介

"兵棋推演"這個詞對不同的人意味著許多不同的含義。在某些情況下,存在著截然不同的解釋,從與軍事決策過程(MDMP;見CALL,2015)中的特定階段有關的極其狹窄的定義,到記者和大部分公眾傾向于將戰爭之外的所有軍事努力,包括現場訓練和計算機模擬,視為兵棋推演。這個詞有許多不同的使用方式,并帶有許多情感成見,這取決于相關人員的經歷。問題的一部分在于"'兵棋推演'沒有單一的、普遍接受的定義"(英國國防部,2020)。

即使是那些在專業基礎上參與兵棋推演的人,也很難接受現有的眾多定義,這些定義在定性技術和對更多分析性產出的定量要求之間可能有所不同。對于是否應該包括計算機模擬,或者 "兵棋推演"是否僅指人工技術,也存在分歧。有些人甚至不認可寫成 "war gaming"或"wargaming"。

與許多軍官一樣,我不關心學術定義的細枝末節,而更關心與我所承擔的任務有關的特定技術的有效性。我認為,任何 "兵棋推演"的定義都只能與兵棋推演所支持的具體任務和目的相關,而不是任何全面的概括。我還認為,試圖給"兵棋推演"下一個萬能的定義,不僅是徒勞的,而且實際上對更廣泛地采用這種技術來解決國防需求是有害的。因此,針對本文目的,我將以最廣泛的定義來使用 "兵棋推演",包括所有涉及人類決策者的教育、培訓和分析目的,但不包括實際戰斗。

兵棋推演

兵棋推演是一種決策技術,它提供了結構化的、但在智力上是自由的、可以避免失敗的環境,以幫助探索什么是有效的(勝利/成功),什么是無效的(損失/失敗),通常成本比較低。兵棋推演是一個對抗性挑戰和創造性的過程,以結構化的形式提供,通常有裁判或裁決。兵棋推演是由玩家決策驅動的動態事件。除了敵對的行動者,它們還應該包括所有抵制計劃的 "反對 "因素。兵棋推演的核心是:

  • 玩家。

  • 他們做出的決策。

  • 他們創造的敘事。

  • 他們的共同經歷;以及

  • 他們所獲得的教訓"。(英國國防部, 2020)

兵棋推演涵蓋了廣泛的方法和技術,旨在優化其與目標相關的產出,從那些旨在利用想象力、創造力和原創思維的方法和技術,到那些旨在支持軍事決策過程的方法和技術,以及那些旨在產生定量數據以支持采購和部隊開發的方法和技術。

作者的經驗

由于這是一篇以實踐為導向的文章,關注的是兵棋推演在現實生活中的實際應用,以支持特定的任務和目的,因此也許值得花一些時間來闡述我自己作為一個兵棋玩家的實踐以及我過去在軍隊中舉辦訓練活動的經驗。我是1979年在桑德赫斯特皇家軍事學院開始接觸兵棋推演的,當時是在帕迪-格里菲斯(已故)的指導下,他是一位軍事歷史學家、兵棋家和多產的軍事歷史和戰術作者。在接下來的幾年里,我參與并幫助組織了許多大規模的兵棋推演活動,這些活動都是利用桑赫斯特的設施,由帕迪-格里菲斯和其他人負責。

兵棋推演的目的

有幾個不同的,往往是重疊的,你可能希望進行兵棋推演的原因。根據30年的經驗,我提供了一個主要原因的簡短清單,如下:

  • 了解系統能力。

  • 有效地了解態勢。

  • 教育。

  • 訓練。

  • 當前部隊戰略或戰術。

  • 未來部隊發展(包括作為采購過程的一部分)。

  • 軍事決策過程的一部分。

  • 了解團隊。

  • 預測可能的未來。

  • 了解系統能力。

2015年,我應邀在中國長沙的國防科技大學講授仿真和建模。作為一系列講座的一部分,我被邀請向軍校學生演示一個簡單的 "自由兵棋(free-kriegsspiel)"(一種很少或沒有書面規則的兵棋,裁決是基于一個高級裁判的經驗,而不是復雜的規則和程序)。這是在大學體育館進行的,由模擬學生充當裁判員(之前接受過技術培訓),同時進行25場10人的同一游戲。

我觀察到,中國學生傾向于尋找 "答案",而不是探索學習或自己思考,所以當一個學生質疑為什么有人會進行兵棋推演時,我選擇指導他們玩游戲,然后告訴我他們認為游戲的目的是什么。

在比賽中,關于戰術的討論非常少(以至于一個玩家在得知有炮火支援時,建議連續轟炸敵人的陣地,直到敵人死亡)。大部分的問題和討論都與武器的能力和效果有關。有人向我提問,如 "某個武器系統的有效射程是多少?",我回答說,作為解放軍的軍官,他們應該知道這些信息。這導致了許多討論、信息共享和對軍事手冊的研究。會議結束時,學生們一致認為,與死記硬背相比,這是一種非常高效和有效的信息教學方式。大多數人還同意,這顯然是進行這樣一個兵棋推演的主要原因。我并不反對。

高效的態勢理解

與上述見解相聯系的是,約翰-康普頓博士3在2018年的 "連接美國 "專業兵棋推演會議上討論說,兵棋推演是向參與者介紹軍事態勢的一種極其高效和有效的方式。這是因為信息的呈現方式與它所處的環境直接相關,而且,由于它通常是通過發現學習的過程獲得的,所以它往往更容易在解決問題時發揮作用(Alfieri等人,2011)。這與我在英國常設聯合部隊總部工作時,在俄羅斯吞并克里米亞后,就波羅的海局勢進行的兵棋推演的經驗相吻合。

最終,我為總部的辦公人員就波羅的海局勢進行了四小時的矩陣游戲。游戲結束后,大家一致認為,游戲使參與者迅速掌握了不同的要素和關于當前局勢的重要背景。一位玩家說:"我現在知道了我所知道的,并理解了我不知道的,以及我需要研究的東西。一位J2的工作人員對此提出質疑,他指出這些信息已經以電子郵件簡報的形式提供,并指著一疊至少300毫米高的紙質打印件。大多數工作人員的回答是 "太長了--沒看"。

教育

兵棋推演在教育中特別有效,正如上面提到的發現學習的背景。"我聽了就忘,我看了就記,我做了就懂"(Seok,2011)。然而,與所有基于游戲的學習一樣,也有一些注意事項,那就是需要仔細管理,所選擇的游戲類型應該是有重點的,并且與預期的學習結果相關(以及在現有的時間內可以實現)。也有很好的證據表明,試圖讓不熟悉或不習慣這種方法的教師強制使用基于游戲的學習,可能弊大于利(Whitney等人,2014)。

將游戲用于教育目的需要考慮的其他因素是,游戲不一定要玩到最后(避免得出 "我輸了,所以游戲不好 "或 "我贏了,所以游戲好 "的結論--這兩種結論對教育理解都是有害的),以及游戲不一定要完美地表現現實--游戲的簡易性和學生的參與性更為重要。事實上,如果游戲是不完美的,教員邀請學生就如何改進游戲提出建議,可以產生比游戲本身更多的洞察力和智能對話。因此,在一節基于游戲的學習之后,進行適當的匯報是非常重要的,以確保游戲與要達到的學習結果相聯系。

培訓

兵棋推演可以在培訓中發揮作用,因為兵棋推演往往比其他培訓方法更容易獲得,更容易接觸,而且成本更低(允許有更多的機會進行練習--刻意練習比天賦更重要;見Ericsson等人,1993)。就像上面的評論一樣,游戲是在一個特定的環境中進行的,這有助于信息的保留,并有助于理解游戲中描述的情況。

然而,與教育游戲不同的是,特別重要的是,游戲機制和裁決要根據對現實世界表現的期望進行驗證,以防止對游戲的價值失去信心或從體驗游戲中獲得錯誤的教訓。

當前部隊戰略或戰術

2019年,駐扎在蘇格蘭愛丁堡的3號步兵營(一個輕型步兵營)的指揮官要求我協助開展一些戰斗小組級別的兵棋推演。該部隊將從輕步兵重新定位,成為一個機械化營,配備輕型裝甲的偵察車、支援車和運兵車。其目的是為了獲得一些洞察力和理解,以適應裝備這些車輛所需的戰術和程序的變化。

很快就可以看出,作為在阿富汗使用的 "緊急行動需求 "而購買的車輛,完全不適合機械化營所期望的更廣泛的作用。當把它放在一個特定的兵棋推演場景中,試圖在不同的地形中使用不同的車輛,并對付另一種更常規的敵軍時,很明顯,如果按照最初的設想使用這些車輛,會有很大的缺點。用于偵察的車輛雖然裝甲較輕,但缺乏對乘員的保護,特別容易受到炮彈碎片和敵人裝備的大炮的偵察。運兵車雖然在阿富汗的地形上對簡易爆炸裝置有很好的防護作用,但完全不適合在另一種地形上越野行駛。

事實上,所有這些因素都被暴露出來,在場景的操作背景下,在所有相關的利益相關者在場的情況下一起工作,這使得什么可能有效,什么不可能有效變得很明顯。這導致了對如何改變戰術以減少這些風險,或對部隊可以承擔的任務和角色進行限制的清晰理解。

未來部隊的發展

當考慮將未來部隊的發展作為兵棋推演的目的之一時,這分為兩個主要領域:兵棋推演作為分析過程的一部分,以確定未來采購的數量和性能;以及兵棋推演,以確定這些新能力在特定場景下的最佳應用。前者最有可能由研究機構進行,后者則由軍事單位和編隊進行。

應該注意的是,在用于分析目的的兵棋推演中,游戲規則、數據和程序必須盡可能準確,以確保游戲產生的數據同樣準確;游戲的簡易性和玩家的參與是次要的(與教育戰爭游戲相反)。

軍事決策過程的一部分

可以說,兵棋推演是軍事決策過程中最關鍵的部分之一,因為它將指揮官的計劃從概念變成了細節,并使部隊的戰斗力同步于行動。這通常是軍事人員最熟悉的戰爭演習類型,也是由于對如何正確執行戰爭演習的誤解,以及缺乏分配給這一職能的時間和專業知識而通常做得不好的類型(CALL, 2020)。

戰術演練應該被用來評估作戰方案(COA)完成任務的潛力,以應對不同對手COA的預見性反擊,以及識別和糾正不足之處。然而,真正的價值在于它能夠允許指揮官和參謀部將行動的開展可視化,并深入了解對手的能力和行動,以及作戰環境的狀況(AJP-5,2019)。

基本要素是在作戰的背景下了解計劃,以及敵人可能采取的作戰方針。

了解團隊

托馬斯-謝林是美國經濟學家,馬里蘭大學學院公園公共政策學院的外交政策、國家安全、核戰略和軍備控制教授。他因 "通過博弈論分析提高了我們對沖突和合作的理解 "而被授予2005年諾貝爾經濟科學紀念獎。他還根據自己在戰略層面上的博弈經驗,在美國和俄羅斯之間建立了核熱線(Miller, 2021, pp.176-191)。

在蘭德公司的論文《27年后的危機兵棋推演》(Levine et al., 1991)中,Schelling寫道:"最大的好處是他們(參與者)與一些他們將來可能有機會合作或依賴的人變得親密無間,或者至少是隨意地熟悉起來。" 這被明確為兵棋推演的一個重要副產品,以及我所說的場景理解和系統能力。

預測可能的未來

"兵棋推演不是預測性的。兵棋推演說明了可能的結果,所以有可能從兵棋推演的一次運行中發現錯誤的教訓。兵棋推演可以說明某些事情是合理的,但不能明確地預測它是可能的。(英國國防部, 2020) "

許多作者,包括支持使用兵棋推演的作者和批評兵棋推演方法的作者,都對兵棋推演的預測能力提出了可怕的警告。人們總是對兵棋推演的失敗提出批評,從未能預測1899-1902年布爾戰爭的心理或經濟方面的決定性因素(Caffrey,2019),到商業兵棋推演 "遙遠的平原"(關于阿富汗戰爭)的設計者無法預測2021年8月阿富汗軍隊出現災難性崩潰的可能性(BGG,2021)。

如果兵棋推演在過去的122年里都不能預測未來,盡管有些作者聲稱它們可以(Dupuy, 1985),那么它們在這個領域有什么用處呢?

答案在于它們能夠在關鍵的利益相關者在場的情況下,暴露出一個計劃的多面性,同時面對克勞塞維茨式的摩擦(Watts,2004)和敵人行動所能帶來的所有對抗性因素。這種方法,如果執行得當,有一種獨特的能力,可以暴露任何未來計劃的弱點,排除那些根本行不通的行動和意圖,并完善可能結果的未來錐(Voros, 2017),突出預測的、合理的和可能的未來,并允許更好地理解與之相關的風險。

兵棋推演可能無法預測實際的未來,但它們善于排除那些根本行不通的未來計劃,并允許更好地理解在執行一項行動時可能發生的一系列結果。

兵棋推演的誤用

在簡要討論了你可能希望進行兵棋推演的一些原因之后,重要的是要介紹一下為專業目的進行兵棋推演所涉及的陷阱和危險。

然而,在開始之前,有必要參考一下關于這個特定主題的開創性工作:"兵棋推演的病癥"(Weuve, et al, 2004)一文。我所做的任何評論只是反映了對我所進行的兵棋推演影響最大的問題,由于我在職業生涯的后半段是一名 "教育者",這影響了我的思維,也意味著在兵棋推演的某些領域(訓練和分析),我的經驗比較有限。

幻想游戲

以色列軍方堅定地認為,任何具有虛構背景的訓練活動,包含專門為該活動創建的數據,不僅是一種浪費,而且浪費了對真實世界的理解和洞察的機會 - 他們是絕對正確的。你永遠不應該使用假的場景。

除非你必須這樣做。

在某些情況下,對運行有關真實潛在敵人的游戲存在政治敏感性。大多數情況下,這些都是誤導,實際上對活動的價值有害。在真實的潛在情況下進行游戲的行為不僅本身非常有價值,而且如果消息傳到反對派那里,那就更好了,因為這將產生威懾作用。更不用說,如果一般公眾認為我們是在 "瞎編",他們會認為我們不認真對待這種情況,是瘋了。畢竟,20世紀20年代的 "紅色戰爭計劃 "是美國針對英國和加拿大的一套真實的計劃方案,是由一個剛剛在歐洲作為英國的盟友之一打了一場大仗的國家設計的(Major, 1998, pp.12-15)。

如果你被迫擁有一個虛構的場景,基本上有三種選擇:從頭開始生成場景,增加一個額外的國家,以及改變名稱。

從頭開始構建場景是最糟糕的選擇。所需的工作是巨大的,根據游戲的層級,你可能需要創建整個大陸、國家和其他社會政治集團。你可能需要繪制地圖,以及關于友軍和敵軍作戰命令的深層背景數據,這可能是非常耗時的。

添加一個額外的國家是一個稍好的選擇,因為地緣政治環境是真實的世界,但在危機地區插入了一兩個虛構的國家。這減少了準備工作的負擔,通常允許使用真實的地形(重新劃定一些邊界),并有一個可否認的外衣。

改變名稱是最好的選擇。它允許所有相關人員使用現實世界的情況,并將變化降到最低,而我們決定費盡心思改變名稱的事實表明,我們不希望冒犯他人,同時顯然允許在真實的地緣政治情況下進行訓練。然而,不要搞錯了--"僅僅改變名稱 "本身就可能是一項巨大的努力。我曾參與過一次軍團級的演習,我們要使用西德的地理環境,我們只是把它重新命名為 "紅土"。準備工作已經到了高級階段,當參加演習的德國師級人員震驚地發現,只有國名改變了,但城鎮、地區或河流的名稱都沒有改變。例如,將下薩克森州作為 "敵人的領土",這在政治上被認為是不可接受的,而且,由于計算機模擬無法在現有的時間內進行修改,因此不得不完全重寫設定,使用英國的地理環境,因為這是當時唯一存在的替代模擬地形。

人們經常表示擔心,如果使用真實世界的數據,場景將不得不成為機密;增加的費用和努力是一個數量級的。有幾件事情需要考慮:

  • 用真實的數據進行訓練是更好、更現實的。它將吸引在現實生活中處理情況的個人更高水平的參與,并提供一個機會在事件中檢查數據的有效性和背后的假設。在大多數情況下,在高分類的情況下,實際需要的數據非常少,但額外的成本可能非常高。

  • 根本不需要使用分類數據。完全可以使用通常用于 "訓練 "或公共領域的數據,以較低的分類來設計事件,將其設置在現實世界中。與從完全 "編造 "的數據中得出的那種教訓相比,認為這可能會產生 "錯誤的教訓 "的論點顯然是可笑的。

在過去,這不是一個問題,因為人們普遍認為戰爭與和平之間有一條分界線。這意味著,與手頭的軍事任務相比,對地緣政治局勢、當地政治或宗教的詳細了解被置于次要地位。然而,在當前的不對稱威脅環境中,這種復雜性變得極為重要,因此,為了解決這個問題,場景模擬變得越來越復雜了。

問了錯誤的問題

當一位高級軍官說他希望通過一個特定的兵棋推演來 "證明我們需要更多的[某種]導彈 "時,我實際上也在場。他沒有按照兵棋推演的原意使用兵棋,而是為了研究一個問題,以收集有助于為辯論提供信息的見解,他已經決定了答案,只是想通過兵棋推演來證實他的偏見。

這種行為比你想象的要多,不一定像上面的例子那樣明目張膽地發生,但在減少兵棋推演的范圍時,表面上是出于預算或編程的原因,所以被審查的場景被迫處理如此少的替代方案,結果是預先注定的。

英國皇家海軍進行了一次兵棋推演,研究格陵蘭島、冰島和英國之間的差距,這是大西洋北部的一個區域,在這三個陸地之間形成了一個海軍扼制點。其目的是確定是否可以有效地發現俄羅斯北方艦隊的潛艇運動進入北大西洋。一些憤世嫉俗的分析家認為,這場戰爭的目的是為了 "證明 "皇家海軍沒有足夠的潛艇來發揮效力。他們感到驚訝的是,這個假設在游戲開始時就被假定了,而實際的問題是調查如果這種情況被證明是真的,最具有成本效益的替代方案。

最后,顯然需要更多的潛艇才能有效地對付更現代化的俄羅斯潛艇,但除了試圖采購更昂貴的潛艇外,還有一些具有成本效益的替代方案:衛星監視、與盟國加強合作以及海上空中巡邏。當然,海軍兵棋準備建議為皇家空軍海上航空隊提供額外的資金,這一事實在分析上,特別是在政治上都是令人信服的,并且保證了結果被廣泛分享和采取行動。一個提出正確問題的例子。

重要的不是兵棋推演確定了某一系統或戰略存在嚴重的不足,而是玩家做了什么來克服這一不足,以及這是否能夠成功。

太大的問題

兵棋推演,至少以我在英國的經驗來看,一般是例外,而不是常態。因此,當安排了適當數量的高級領導人參加的兵棋推演時,它們往往會受到 "膨脹 "的影響,目的和目標變得越來越雄心勃勃,以證明有這么多的高級決策者參加。在這種情況下,活動中不可避免地增加了其他內容,在活動中插入了審查其他場景和問題的機會,以充分利用參與的人才。

這必然會扭曲活動,將重點從最初的問題上移開,并有可能稀釋結論,從而使它們在更廣泛的戰后報告中丟失,這些報告中充滿了對大多數人來說不感興趣或不相關的信息。

額外的元素也將有助于固定活動方案,分散對原意的注意力,減少那些高級人員花時間 "深入研究 "的靈活性,以進一步研究與他們的同行產生的任何特殊見解。相反,他們往往被從一個點引導到另一個點,缺乏參與或時間來產生有用的投入。

當一場兵棋推演成為 "大事件",有許多高級決策者參加時,它也可能吸引媒體的注意,因此游戲的結果將受到明顯的關注。這意味著要避免被認為是失敗或缺點的尷尬,而且游戲不可避免地被傾斜,以產生一個 "成功的結果"(就外部第三方而言),而不考慮最初的目的。

在這種情況下,游戲不再是一個兵棋,而是通過計劃獲得成功的行動,只有微不足道的 "學習 "才能證明事后的活動。

更多的計算機和更多的數據

如果我們考慮在最廣泛的意義上使用兵棋推演,我們需要理解許多人為了產生一個 "更準確 "的結果而希望涉及計算機模擬,也許還有人工智能(AI)。這是錯誤地認為 "更多的數據 "和 "更多的計算能力 "可以在某種程度上,本身就可以提高準確性。

使用模擬和人工智能協助軍事指揮官決策的機會是令人興奮的:使用計算機模擬未來的沖突局勢,然后 "通過人工智能運行它們",以制定最佳行動方案、部隊組合和實現成功的時間。請注意,在這種情況下,人工智能的軍事概念包括在一個基于云的分布式架構中查看多個同時進行的行動方案,以并行地完成許多這些過程(庫克,2020年)。它可能不是嚴格意義上的人工智能,但任何先進的技術計算架構都傾向于被概括為這個標題--軍事指揮官實際上只對產出的實際效用感興趣,而不是對術語的學術定義。

然而,這種方法有一些問題,主要是在兩個方面:基礎模型的準確性;以及優化的危險,導致可預測性和脆弱性。

人工智能系統采用規則來優化其行為,以尋求優勢。這種方法的優勢在于它的有效性。這種方法的缺點也是它有效。我們必須非常小心,確保我們為人工智能定義參數,以產生我們想要的行為(例如,最佳攻擊路線可能在國家邊界之外,所以我們需要確保我們在執行計劃時不會入侵鄰國)。人工智能可以產生不同的行動方案,只要他們的規則適合任務,在封閉的模擬環境中。這必須由人類嚴格控制,以確保不僅規則適合情況,而且人工智能不會通過利用系統中的錯誤來作弊(Benson,2020)。

雖然許多這些系統或多或少都是聚集在一起的,所以必須對性能進行近似,但它們是用來訓練的,這意味著它們足夠準確,有軍事用途;對于Box(1979)來說,"所有的模型都是錯的,有些是有用的"。

危險的是,如果我們可以做這種分析,我們的敵人也可以,讓他們預測我們的行動方案。在尋求具有決定性優勢的武器系統時,這樣的系統變得昂貴,減少了用于替代方案的資源,并且需要很長時間才能投入使用。敵人在得知這樣一個系統后,可以花時間來打敗這個系統。而當他們這樣做的時候,就沒有什么可以反對他們了。韋恩-休斯教授警告說:"海上戰爭中的殺戮往往是用海軍的第二好的武器完成的。如果在未來的某個沖突中,雙方都反擊了對方的首要武器,那么海軍將不得不問:我們的下一個最佳武器是什么?" (Rielage, 2017)。如果人工智能生成的可預測性已經導致了一個單一的武器系統或最佳方法,而它被打敗了,可能就沒有什么替代品了。

優化的系統也是脆弱的,特別是在面對突發事件時。這一點在COVID-19大流行病早期的衛生紙交付的供應鏈失敗中得到了明確的證明(Wieczner, 2020)。特別是軍事行動,需要對突發事件有強大的抵抗力。

然而,許多這樣的實驗未能解決的是關于情報和局勢數據準確性的一些隱性和顯性假設。正如在科索沃的空襲行動中所證明的那樣,塞族人能夠用相對粗糙的技術騙過美國的情報分析員(施密特,1999年),而且在堅實的地面、泥濘的斜坡和耕地上的相對 "前進"(即前進速度)很少被量化,所以假設是危險的。

然而,所有的軍事規劃都是在不完善的信息基礎上進行的。假設人類對人工智能的建議有所節制,那么當人類和人工智能合作以利于決策時,有可能導致更好的結果(an den Bosch & Bronkhorst, 2018),或至少排除更愚蠢的選擇。

因此,人工智能,在一些注意事項和人類的支持下,可以使其發揮作用 - 但代價是什么?人工智能的歷史是一個炒作和預期失敗的故事,被Floridi(2020)稱為 "人工智能的冬天"。其他技術(現有的統計方法、人工兵棋推演、競爭性假設的分析)已被證明是同樣有效的,而成本和精力卻只有一小部分(Makridakis等人,2018),而且不容易出現人工智能衍生結果有時會產生的嚴重錯誤(Yampolskiy,2016;Osoba和Welser,2017)。

英國防部傾向于希望在最昂貴和效率最低的領域使用人工智能--而不是后勤支持和光學識別這些低垂的果實(國防采購機構認為在正常競爭下會自動交付)。相反,他們追求的是最昂貴和最令人興奮的獎品:常規部隊的行動過程評估(Kerbusch等人,2018)。

兵棋推演應該是小型的定期活動,其范圍靈活,產出集中,能夠從最廣泛的角度考慮問題。只有從這樣的活動中才能產生洞察力。

正如偉大的F.W.蘭徹斯特所說。"提供有用見解的簡單模型比那些與現實世界如此接近的模型更受歡迎,因為他們想要解開的謎團在模型中重復出現,而且仍然是謎團"(Fletcher, 1995)。

對兵棋推演缺乏了解

然而,到目前為止,對兵棋推演最大的誤用僅僅是因為許多人(包括許多高級決策者)根本不了解兵棋推演這一技術,或者認為他們自己對兵棋推演的狹義解釋是正確的,而所有其他的解釋都或多或少地存在缺陷。

這并不局限于國防領域的普通民眾。職業兵棋手們自己也對兵棋的定義爭論不休,在那些認為分析性兵棋的定量科學是唯一有效的方法的人和那些喜歡 "更廣泛的兵棋"的定性藝術而不是 "狹隘的"(和 "狹隘的")替代品的人之間存在著明確的分裂。

造成這種情況的原因是,幾乎在所有情況下,兵棋推演都是由自學成才的少數人進行的,由他們個人的職業發展提供信息,缺乏正規專業教育所能提供的更廣闊的視野。這并不是說兵棋推演課程不存在,但總的來說,這些課程是其環境的產物,因此其產出偏向于其贊助商的要求。舉個例子,MORS7兵棋證書(正如你所期望的那樣)在很大程度上偏向于分析的一端。

為了有效,兵棋推演需要來自指揮系統的正式支持。它需要一個冠軍(一個高級領導人,承擔起確保每個參與者都致力于該技術的最終成功的重任),需要有人負責確保兵棋推演在每個級別都得到理解并定期進行,從計劃分區攻擊的初級士兵到軍隊的最高級別,如英國國務卿的網絡評估和挑戰辦公室(SONAC;見Elefteriu,2020)。

需要在軍事學校和學院開設正式的教育課程,教授全方位的兵棋推演,而且兵棋推演應該被強制規定為任何課程或單位和編隊的年度培訓周期的一部分。只有這樣,才能培養出新一代有適當資格和經驗的人,以取代 "有天賦的業余愛好者",他們在大多數軍隊中構成了大部分的兵棋推演專家。

不過,無論怎樣強調都不為過的是,不能把應該進行兵棋推演的授權與應該玩某種游戲或游戲類型的授權混為一談。

正如弗朗茨-哈爾德將軍(Generaloberst Franz Halder)在談到20世紀30年代和40年代的德國軍隊兵棋推演時所說:

"軍事文獻包括關于兵棋推演的非官方手冊。為了避免哪怕是最輕微的軍團化跡象,并在戰爭游戲的應用和發展中保持充分的自由,官方沒有發布任何形式的正式指令。(霍夫曼, 1952)"

結語

在這篇文章中,我試圖確定兵棋推演的多種多樣的用途,強調游戲類型之間的差異,所有這些游戲都是為了一個特定的目的。沒有哪種游戲適合所有人--用于教育、培訓和分析的游戲之間的差異是非常重要的,而且經常被忽略。

我還從我的經驗出發,介紹了一些在運行兵棋推演時可能出現的錯誤和危險(并指出了關于這個問題的開創性工作)。為了避免其中最重要的危險,并確保它作為一種使軍隊更加有效的技術而獲得成功和發展,兵棋推演需要得到指揮系統的支持,并且必須成為軍事學校和學院課程的一個重要組成部分。

付費5元查看完整內容

摘要

我們介紹了四場兵棋推演,旨在提高我們分析挪威軍事行動中聯盟方面的能力。我們討論了目標、配置和經驗教訓。實踐證明,兵棋推演對于發現我們在特定類型的軍事行動和系統方面的知識差距非常有幫助,并指出了場景組合的不足之處。它們還強調了更普遍的方法論,如明確說明基本前提的重要性。我們認為,兵棋是評估知識、挑戰當前觀點和改進分析方法的有用工具。

關鍵詞:兵棋推演、軍事行動、作戰研究、場景肥西、國防規劃

引言

評估一個人的知識是很困難的。心理學警告我們一些現象,比如鄧寧-克魯格效應,描述那些缺乏知識或能力的人缺乏洞察力的現象。但是,即使人們認識到知識不足的可能性,識別錯誤概念和知識差距或缺失信息的問題仍然存在。最自然的做法是向其他專家尋求建議和意見。然而,自我評估的方法仍然是有價值的,原因有很多,包括以下幾點:

  • 主題可能非常復雜,難以確定所需的所有專業領域。

  • 要回答的問題需要對分析過程的具體細節非常熟悉,外部專家不容易得到全貌。

  • 至少目前還沒有相關的專家。

  • 該主題是保密的,限制了可能的資訊庫。

此外,一般來說,在尋求外部幫助之前,最好能盡可能多地整理出錯誤。

挪威國防研究機構(FFI)提供分析,以支持長期的戰略防御發展和聯合總部的作戰規劃。我們使用基于場景和能力的方法來描述未來的軍事防御要求,并評估擬議的防御計劃是否能滿足相關的威脅。我們不斷地尋求改進我們的方法,并重新審視以前的論點和結論。

在本文中,我們分享了利用一系列兵棋作為工具來評估和開發我們對挪威軍事行動聯盟方面的知識經驗,這對分析工作特別重要。雖然我們很清楚,這一層面在以前的分析中沒有得到應有的重視,但我們發現很難確切地知道不足是什么。出于上述所有原因,我們發現在邀請專家參與之前進行自我評估至關重要。

利用兵棋推演,發現了我們對軍事系統和行動的知識不足之處,并暴露了以前想當然的錯誤觀念和有問題的結論。我們現在正在擴大我們的場景組合,以涵蓋以前被忽視的情況。我們還改進了展示我們分析結果的方式。特別是,我們更清楚地認識到明確基本前提的重要性,以及對我們可以從分析性兵棋推演中得出的結果有一個清醒的估計。作為一個副產品,我們也大大提高了我們進行動態兵棋推演的能力,這在以后的分析中會有較大益處。

這并不是試圖推動兵棋的科學發展。我們寫這篇文章的目的是為了激勵同行們欣賞兵棋推演的潛力,將其作為一種工具來發現他們不知道的東西。這一系列的兵棋推演是在2022年2月俄羅斯入侵烏克蘭之前進行的。

基于能力防御分析中的場景和聯盟

本文描述的活動涉及我們為挪威軍事和政治防務領導提供分析支持的工作。這項工作的主要困難來源是其固有的不確定性。在合理的時間范圍內,相關的威脅是什么?沖突將如何發展?未來的軍事系統是否會有預期的表現?通過使用場景組合作為可能的部隊結構和防御概念的試驗場,我們可以探索這種不確定性。我們利用這些情景來確定未來防御的能力需求,并為其他作戰分析提供背景。

除了國家軍事和民防能力外,北約成員資格和我們與盟國的雙邊關系是挪威國防和安全戰略的基石。挪威武裝部隊的最佳發展取決于對未來盟國在挪威和挪威附近可能采取的行動性質的洞察。然而,我們的分析傳統上是基于描述對挪威的直接攻擊的情景,并且在大多數情況下關注的是挪威武裝部隊在沒有主要盟國支持的情況下或在其參與之前應該執行的任務。因此,在過去幾年中,重新審視國防分析的聯盟方面是很重要的。

我們還注意到,我們的情景分析在本質上有一種靜態的傾向。這對于已經使用了幾年的情景來說尤其如此:隨著時間的推移,分析家們傾向于把以前的結論視為理所當然。本文介紹的活動是我們努力的一部分,目的是振興我們運行更多動態戰爭游戲的能力,作為桌面地圖討論的替代。這暴露了我們以前分析中的薄弱論點和結論,有助于結果的驗證。

通過這一系列旨在研究盟軍可能的行動路線的戰爭游戲,我們實現了一個雙重目標。我們發現并填補了我們在挪威國防的聯盟方面的許多知識空白,同時我們也大大改進了我們的戰爭游戲技術。

不同種類的戰爭演習是我們分析的一個重要工具。它們提供了定性和指示性的答案,而我們使用其他形式的建模和仿真來獲得定量的結果。這些方法可以結合起來,反復使用,形成一個綜合分析和實驗運動計劃。

關于兵棋推演

兵棋從根本上說是一種溝通行為--專家之間的結構化對話。根據Pournelle(2017)的說法,進行兵棋推演有三個目的:知識創造、知識轉移和娛樂。正如英國國防部的《兵棋推演手冊》(DCDC,2017)所指出的那樣,雖然兵棋可能會使從業者在超出其設計目的的方面獲益,但建議將兵棋推演指向一個特定的目的。Pournelle區分了兩類適合創造知識的游戲。它們是探索游戲和分析游戲。探索游戲通常用于解決非結構化的問題,而分析游戲則適用于更多的結構化問題(Pournelle, 2017)。在我們的系列中,我們同時應用了探索性和分析性的兵棋推演。

盡管 "兵棋推演"這個術語被廣泛使用,但并沒有一個共同認可的定義。我們可以在文獻中找到不同的定義;例如,Perla(1990)將兵棋推演定義為 "不涉及實際部隊行動的戰爭模型或模擬,其中事件的過程影響并受代表敵對雙方的玩家在這些事件過程中做出的決定影響"。美國海軍戰爭學院(USNWC,2020)將兵棋推演的基本組成部分確定為 "人們在競爭或沖突的背景下(與自己、其他人或環境)做出決策",而英國國防部的《兵棋推演手冊》(DCDC,2017)將兵棋推演描述為一種決策技術,使用 "基于場景的戰爭模型,其中事件的結果和順序影響到玩家的決策,并受到其影響"。

這些定義的共同點是,兵棋推演是關于不同角色競爭的沖突情況,對戰略和作戰方案(CoA)做出決策,以實現目標,并對其他玩家的決策做出回應。兵棋推演適合讓參與者沉浸在一個由場景描述的環境中,在那里他們會面臨各種不可避免的挑戰(Perla,1990;DCDC,2017),它們具有動態的性質,形成事件進程或路線,這取決于參與行動者的決策。

兵棋可以按照它們的全面性和嚴格性進行分類。在本文中,我們區分了三種主要類型的兵棋:研討會游戲、矩陣游戲和Kriegsspiel。這與Pournelle(2017)討論的兵棋風格相一致。

研討會游戲 研討會游戲是人們在一個共同的背景/場景下進行的討論。通常情況下: 他們有一個自由的形式。它們是探索性的。他們有開放的信息。研討會游戲對于支持創造力和探索特別有用。裁決通常不那么嚴格,但足以推動事件的發展進程。裁決可以由裁判員進行,也可以由玩家之間達成共識。
矩陣游戲 矩陣游戲比研討會游戲有更強的角色扮演功能,通常使用更正式的裁決規則。在一個典型的矩陣游戲中,不同的角色將制定和提出他們喜歡的CoA,并為其提供支持性論據。其他角色將試圖提出反駁的論點。裁決由裁判員進行,他們評估論點的利弊,并決定CoA的成功概率。結果是由擲骰子決定的。矩陣游戲適合于在一個場景背景下探索不同的事件進程.
Kriegsspiel Kriegsspiel是更正式的兵棋,與研討會和矩陣游戲相比,它的細節和嚴格程度有所提高。它們通常對沖突有一個更真實的表述,有更詳細的場景和環境表述。

為了決定最適合于分析的游戲形式,應該考慮信息要求、所需的詳細程度、以及準備和游戲執行的時間和資源等因素。不同類型的兵棋適合于支持分析過程的不同階段(Malerud & Fridheim, 2021)。不太正式的(探索)游戲,如研討會和矩陣游戲,特別適合于支持分析的初始階段--例如,問題的結構化和對不同決策選擇的探索。如果需要深入研究更多的細節,更正式和結構化的兵棋在后期階段會很有用。

我們是如何做到的

在開始我們的游戲系列之前,我們考慮了上面討論的不同類型的兵棋,并得出結論,我們需要從游戲1開始,這是一個不太正式的游戲,以提高我們對在挪威境內或附近的盟軍行動背景下的主題理解,并獲得關于如何設計以下游戲的想法。因此,游戲1可以被看作是對真正游戲的測試。在我們的游戲2-4中,我們對目標和分析要求有了更好的理解,并改進了我們的兵棋推演技術。因此,我們很自然地收緊了游戲格式,并以更明確的矩陣游戲的設置來進行這最后三場游戲。在下面的描述中,我們將指出第一場游戲的設置與后來的游戲的不同之處。

在實踐中,我們遵循英國國防部《兵棋推演手冊》(DCDC,2017)中描述的兵棋推演過程或周期,以確保游戲適合目的,并利用新的知識和經驗教訓來完善新游戲的設計。在這個過程中,我們還考慮了各種限制因素,如參與者、可用時間和預算。這個過程將在下文中詳細描述。

目標

如上所述,我們的兵棋推演的首要目標是探索盟軍的行動如何在挪威和大西洋北部地區進行,并找出錯誤的觀念和缺乏的知識。我們的觀點是,我們對盟軍在挪威境內或附近的行動可能是什么樣子的認識不足,而且為了分析挪威的防御能力,我們需要提高我們對這種行動的認識。但究竟什么是我們不了解的,甚至哪些領域和主題是我們應該追求的,都不清楚。

因此,我們從一個非常松散的游戲1開始,通過這個游戲,我們旨在確定我們可以在后續游戲和分析中研究的問題。隨著我們進行一系列兵棋推演,增加了知識,提高了進行兵棋推演的技術能力,使我們能夠把注意力更多地放在行動者作戰方案的細節和現實上。因此,游戲2-4更直接地關注于研究紅方和藍方在相關場景中可能的作戰方案。

要求

在我們開始開發系列游戲之前,我們確定了一些限制和要求。

關于設置:

  • 執行游戲(包括向玩家介紹情況)的可用時間為一天。

  • 參與者不一定是軍事或政治專家。

  • 應該有裁判員裁決。

  • 游戲應該考慮到行動者之間的動態關系。

  • 我們應該能夠在最小的技術支持下運行游戲。

關于內容:

  • 由此產生的CoA應該涉及軍事戰斗。

  • 盟軍被迫參與到沖突中來。

  • 紅藍雙方在團隊規模和背景方面不應過于不平衡。

游戲設置

游戲中的每個角色都由一個小組來扮演。白方小組由一名主持人和一到兩名記錄員組成。這個小組還充當裁判員。

在游戲開始前,向玩家們介紹了以下內容:

  • 對局勢的總體描述進行總結的場景,在整個游戲2-4中大致相同,而游戲1開始于當地沖突的后期階段。

  • 戰略前提(這部分在游戲1中不夠精確,見下文)。

  • 對現有部隊結構的描述(作戰順序)。

  • 一組政治/軍事目標或玩家在游戲中要達到的目標。雖然這些目標是松散的現實的,但它們是有目的的沖突,以便玩家在追求解決方案時訴諸暴力(在游戲1中,玩家可以自由地追求他們為自己制定的任何目標)。

作為游戲2-4的起點,各小組的任務是制定一個簡化的行動設計,并根據他們的目標確定他們的首選最終狀態。這由白方小組收集并用于分析。每個游戲在7-8小時的時間范圍內包括三到五個回合。

各輪游戲

在游戲1中,各小組被要求決定一系列的行動和步驟,這些行動和步驟在全體會議上口頭提出,并在包括白方小組在內的所有參與者中討論。每次全體會議后,白方小組根據他們對事件進程的主觀意見和想法對沖突進行裁決。

在第2-4輪游戲中,玩家的任務是寫下他們的行動或舉動,并解釋為什么會成功,這符合矩陣游戲方法。在這次分組討論中,各小組被允許使用"外交手段 "進行互動。這些行動和舉動通過電子郵件發送給白方小組,然后在全體會議上按照預定的順序提出。支持和反對這些行動成功的論點在全體會議上提出并討論。戰斗行動員的動作需要裁決,并在全體會議結束時寫下來供白方小組評估。白方小組裁判員確定了可能的結果及其概率。然后通過擲骰子對結果進行裁決。每次全體會議后,主持人都會更新一張大的態勢圖,并提交給各小組。

角色

由于兵棋推演的目的是探索在挪威境內或附近的盟軍行動,我們需要代表挪威、挪威的盟軍和俄羅斯的角色或行動者,作為未來可能對挪威造成威脅的一個相關例子。

所扮演的角色是挪威、美國、北約(不包括挪威和美國)、戰略級俄羅斯、俄羅斯北方艦隊,以及瑞典和芬蘭的組合。在第一場游戲中,俄羅斯只代表一個角色,而瑞典和芬蘭則沒有代表(見下文)。北方艦隊是一個獨立的角色,因為他們并不被迫聽從戰略級俄羅斯的命令。我們使用了兩個俄羅斯角色,試圖平衡對立雙方。見圖1。

分析

在游戲期間,我們收集了選手的意見,記錄了裁決,并討論了由此產生的CoA。作為總結的一部分,收集了經驗教訓并確定了知識差距(見下文)。每場比賽都有一份單獨的報告。

場景以及游戲如何展開

在我們的游戲中,我們使用了不同的場景,其中沖突起源于世界的其他地方,并橫向升級到高北地區。在游戲1中,對場景和角色的目標進行了松散的描述。游戲者開始時的情況是,俄羅斯試圖保護他們的第二打擊能力--位于科拉的彈道核潛艇--并攻擊挪威領土,以便在他們的防御位置上創造更多的深度。由于定義松散的場景和缺乏關于基本前提的信息,這個游戲很難玩。比起盟軍的行動,我們更了解我們在設計戰爭游戲方面的不足。我們將在下面討論在這樣的游戲中正確定義基本前提的重要性。游戲1的主要目的是確定需要進一步調查的問題和議題;從這個意義上說,這個游戲是成功的。

在游戲2-4中,我們使用了一個俄羅斯和北約在黑海地區進行戰斗行動的場景。俄羅斯正在尋求減少土耳其對敘利亞的壓力,沖突可能會橫向升級到波羅的海地區和北部高地。這些游戲有明確的目標和相關角色的戰斗命令,以及關于使用核武器、瑞典和芬蘭的立場和其他參數的基本前提。

在這些游戲中,人們反復觀察到,玩家的行動很少引發軍事戰斗行動。由于我們的目標是關注盟軍在高緯度地區沖突中的軍事作戰方案和能力需求,這是一個問題。沖突雙方的玩家都動員起來,把部隊移到北方的潛在沖突地區附近,但有幾個玩家試圖避免在該地區發生全面戰爭。

為了引發沖突,白方通過不同方式引入潛艇事件進行干預。在其中兩場比賽中,一方的 "流氓 "潛艇在另一方的大本營附近被發現,這使沖突按主持人的意愿升級。在第四場比賽中,場景從一開始就稍有改變,有一艘失蹤的潛艇,并修改了目標,試圖引發一場沖突。有點令人驚訝的是,這把游戲變成了一個危機管理游戲,所謂的敵人為了找到潛艇而合作。同時,雙方都調動了自己的力量,為可能的升級做準備。

在游戲中,挪威的陸地領土只在很小的程度上受到影響。用于向其他地區投射力量的空軍和海軍基地是個例外,這些基地受到了遠程精確武器的攻擊。另一方面,該地區的島嶼是有吸引力的目標,兩個主要政黨的陸軍在兩個不同的游戲中分別控制了冰島和斯瓦爾巴群島。無論如何,大部分活動是在海上進行的,包括海面以下和海面以上,有海上和空中力量。除此之外,雙方都強調在網絡領域的攻擊,并對對方后方的后勤和基礎設施進行破壞。雖然我們對可能的行動方案有了一些想法,但在量化能力需求方面,我們仍有很長的路要走。然而,我們已經發現并隨后填補了一些知識空白,并且更接近于讓正確的主題專家參與進來,并接近于我們改進對聯盟相關能力需求分析的最終目標。

同樣重要的是要意識到,我們只是從非常多的作戰方案中扮演了幾個樣本,而且我們顯然不能用我們的觀察來預測真實場景會如何發展(見下文)。請注意,這種預測并不是我們進行場景分析的目的;我們的最終目標是確定對場景變化具有穩健性的能力需求。

關于開展兵棋推演的一些經驗教訓

清楚地傳達游戲的目的和目標是很重要的,而我們在讓玩家與我們的意圖保持一致方面做了很多努力。這可能是因為一些參與者沒有軍事行動的場景分析經驗,但有危機管理游戲的經驗。一些參與者試圖避免升級和使用軍事力量,盡管這是白宮明確表示的意圖。

關于這個問題,我們在作戰和戰略層面的混合游戲中并沒有幫助。這種混合的好處是,主要在戰略層面思考的玩家有軍事行動工具可以使用。這讓選手們對這兩個層面都有了有益的了解。問題是,游戲參與者的任務是實現政治性的目標,同時被期望采用相當詳細的作戰順序。目標和手段之間的矛盾可能使白軍更難實現他們的意圖。許多玩家對作戰順序所提供的詳細程度感到不舒服。在某種程度上,詳細的作戰順序也將人們的注意力引向了詳細的戰術層面,玩家可以更多地考慮整體的CoA。由于總的意圖是學習軍事行動方案,玩家的目標可以用軍事行動術語而不是政治層面來給出。

在兵棋推演系列的過程中,我們學到了很多關于如何引入場景,以使玩家適當地參與到場景中。然而,即使是在第四場比賽,即該系列的最后一場,事件也出現了意想不到的轉折,因為白方小組引入了本應是沖突的觸發器,使游戲變成了合作式的搜救游戲。對于如何介紹這個場景,以使玩家與白方小組的意圖保持一致,我們沒有任何方法,只知道要注意這些困難。

改善長期防御分析中的聯盟因素

在我們對挪威長期防御規劃過程的支持中,我們使用了通過形態分析開發的場景組合。通過我們上面描述的兵棋類別,我們可以改進我們的方法--從對定義場景組合的參數和組合的更好理解到確定場景中的作戰方案和能力需求。我們既發現了可能的新參數組合,也發現了已經定義的參數組合中缺失的場景。

例如,在我們的系列兵棋推演中研究的大國之間的沖突類型中,挪威和挪威的國防可能對大局沒有什么影響。然而,這樣的場景對挪威部隊的發展會有重要影響。我們從游戲中得到的經驗是,我們需要開發更多的場景,使挪威卷入這種并非由任何對挪威領土或挪威部隊的攻擊所引發的、我們的聯盟與對手之間的沖突。我們現在已經開發了一些技術,將這類場景納入我們的場景組合中。

我們發現的另一個重要問題是,場景中的時間線難以確定。聯盟需要多長時間才能到達?他們將到達哪里?以及用什么力量?對于挪威武裝部隊的能力需求,不同的答案可能會導致非常不同的結論。這一點可以通過敏感性分析來探討,在新的或現有的情況下,改變一些關于時間、地理和部隊的參數。

基本前提的重要性

在第一場游戲中,我們想確定在方法論開發和分析工作中必須解決的盟軍行動的各個方面。基本問題很簡單:"關于盟軍行動,我們不知道的是什么?" 這導致我們以一種非常松散的 "看看發生了什么 "的方法來進行游戲,這導致了關于參數將影響盟軍在北方的行動的方式討論。場景中有許多隱藏的條件,我們預計這些條件是明確的或不重要的,但結果卻是模糊的和至關重要的。由于存在未定義的戰略因素,玩家們無法確定最佳作戰方案。因此,主要結果是對基本前提的重要性有了更好的理解。

在第一場比賽中,缺少基本前提的一個例子是瑞典和芬蘭的角色和態度。進入瑞典和芬蘭的領土和領空將大大增加盟軍的選擇,但這將取決于瑞典和芬蘭的合作。沒有代表這些國家的玩家,我們也沒有確定他們在劇情中的位置。這一疏忽可能是由于白宮的一個隱含假設,即這些國家將站在挪威及其盟國一邊。然而,在現實世界的未來局勢中,他們的立場將取決于他們對嚴重卷入一場他們可以避免的沖突的恐懼,以及他們如何重視與挪威和挪威盟友的良好關系。

因此,在第一場游戲之后,我們建立了一個戰略因素清單,我們需要在接下來的游戲中明確這些因素。這些因素包括每個參與者的明確目標、技術因素、公眾輿論以及當地游戲場外的事件(特別是玩家是否需要在其他場域的沖突中平衡其軍事努力)。

非明確的基本前提的問題比兵棋推演的背景要普遍得多。當決策者評估有關他們選擇的現有信息時,他們依賴于陳述的清晰性和透明度。行動員有責任知道并傳達結論和建議所依據的假設。這表明了它們的有效性。決策者的責任是判斷這些方案是否對基本假設的變化有足夠的把握。這是一種風險判斷。

全面記錄所有的基本假設是不可行的。有一些假設是非常確定的,以至于把它們繪制成圖表是沒有意義的。也會有一些不太確定的假設,在這些假設中,失敗的后果不足以證明需要付出的努力。我們必須確定那些有影響的、很可能會失敗的假設。

我們永遠不可能知道是否還有一些我們尚未明確的重要假設。但對這一問題的關注應能提高分析的深度和適用性。

因此,我們看到,第一場比賽的經驗告訴我們,在分析中要更小心地避免隱含前提。我們認為,這對任何參與武裝部隊發展的人來說都是重要的一課,從國防教育課程畢業的軍官應該習慣性地以關注基本假設的方式來迎接任何分析。此外,我們認為,兵棋推演的形式,即玩家被迫根據現有的信息來選擇他們的行動,暴露并強調了這種關注的重要性。

確定知識差距

正如導言中所討論的,無論是個人還是團體,都很難評估自己的知識。盡管一個人可能認為自己了解盟軍的軍事行動,但當他的知識受到考驗時,錯誤的觀念和缺乏的信息會浮現出來。在安全的兵棋推演環境中發現這些知識差距,比在聯合總部尖銳的計劃情況下發現這些差距,或者在基于錯誤建議的決策產生不良結果時發現這些差距要好。

在我們的兵棋推演系列中,一個重要的例子是,參與者,其中大部分是民間分析家,并沒有真正理解涉及航空母艦和航母編隊的行動。我們的分析員通常研究挪威軍隊,對他們來說,航空母艦的能力有點異乎尋常。然而,正如我們的游戲所顯示的,如果我們想了解挪威部隊可能參與的未來盟軍行動,盟軍將這種能力部署到我們的地區作為當地情景的一部分是一種可能性,我們需要考慮到這一點。

另一個在兵棋推演中更明顯知識差距的例子是,從敵人手中奪回土地的行動性質將涉及兩棲攻擊。此外,多種技術性質的未知因素也影響了我們的兵棋推演。這方面的例子包括不同類型飛機的作戰范圍,以及導彈攻擊以地基防空系統防御的空軍基地的效果。

這種知識差距有兩種情況。一方面,有一些導致我們從外部來源尋求更多的信息。它們與 "X是如何工作的 "這一問題有關。在這種情況下,X可能是一個軍事系統(例如一個航空母艦群),也可能是一個一般的作戰概念,如兩棲作戰。另一方面,有一些知識差距導致我們以諸如建模或模擬更詳細的小插曲式子場景的形式進行進一步分析。

在我們的系列兵棋推演中,我們利用每場游戲的觀察結果,建立了進一步調查的議題清單,直到下一場游戲。我們通過查閱文獻和創建簡單的事實表來解決其中一些問題。對于一些概念性的議題,我們在下一次游戲前舉行了簡報會,由我們小組中指定的事實核查員,或邀請的專家來進行。此外,我們還確定了一些戰術小故事,我們計劃對其進行更詳細的研究,以改進我們基于能力的分析。

了解自己的洞察力的局限性是很重要的。對于軍官來說,一個尖銳的計劃情況可能會包含與以前的行動和演習不同的因素。我們已經看到,我們的兵棋推演成為識別我們知識差距的工具,否則這些差距可能會被忽視。這導致了知識的發展,使我們的工作有了更堅實的基礎。當然,一個人不可能填補所有的知識空白--但兵棋推演作為一種評估自己知識的方法,應該引起官員們的興趣。

了解不確定性

根據定義,基于場景的分析與不確定性有關。從一些確定的初始條件出發,情況的發展可能會有巨大的變化。像我們在這里討論的那些兵棋推演,每次只能探究其中的一種延續。因此,兵棋推演的結果只代表一個樣本結果。更嚴格的結果,如果可以得到的話,需要隨機模擬和仔細建模。

基于兵棋推演的信息的有效性可能會被高估,除非清楚地了解游戲中的作戰方案在多大程度上代表了可能的情況。從兵棋推演中過度歸納的危險很大;觀察到的結果可能在很大程度上取決于玩家的任意選擇、隨機裁決或玩家的個性和偏好。在我們的游戲中,我們確實觀察到某些玩家更愿意進行先發制人的進攻,而其他玩家則更注意不要升級。由于游戲之間的隊伍被洗牌,這對事件的進程產生了重大影響。

由于兵棋推演可以揭示出在真實情況下應該避免的風險和其他弱點,因此它們可能更適合于發現事情不應該發生的方式,而不是它們會如何發生。

提供決策支持的分析人員必須意識到這些問題--但決策者也有必要認識到這些問題。有了從這種兵棋推演中獲得的第一手經驗,人們可能就不太相信兵棋推演可以為真實情況的發展提供明確的答案。

參與帶來理解和信心

支持國防事務決策的分析工作往往非常復雜。這樣的工作必然涉及到許多人,其中沒有一個人對整個主題有深入的了解。首先,參與者必須對自己的責任領域有深刻的了解。然后,他們需要充分了解他們的同事的情況,以便相信結果,并理解其對自己工作的影響。

國防分析中的兵棋推演的一個優點是,它是一種讓人們參與其中的方式。因此,需要注意的是,雖然主題知識,特別是軍官的主題知識,在FFI的工作中至關重要,但可能很難有效地獲得這些知識。主題專家(SMEs)和分析員必須有一個共同的參考框架,以便相互理解。兵棋推演提供了一個集中討論的舞臺,在這里,適當的背景和規則是被迫的。

我們的兵棋推演提供了一個機會,作為一個由作戰分析員、軍官、安全政策專家和技術專家組成的小組,共同探討各種場景。兵棋推演的形式為討論提供了一個共同的參考框架,并幫助我們理解整個分析拼圖,而不僅僅是我們自己的碎片。

基于場景的分析經常受到那些沒有參與分析過程的人的懷疑。兵棋推演提供了一個讓利益相關者和結果使用者參與的舞臺,幫助他們信任和理解游戲中產生的分析結果。作為一個積極的參與者,他們將更好地理解結果的影響和局限。

結語

一系列兵棋推演讓我們學到了很多關于如何改進我們對聯合總部的長期防御計劃和作戰計劃的分析支持。我們利用兵棋推演發現了我們對軍事系統和行動的知識不足之處,并揭露了以前想當然的錯誤觀念和結論。我們也已經能夠改善我們的場景組合應對對軍事威脅環境。此外,我們現在更好地理解了如何描述決定基于場景分析結果有效性的一些因素。

雖然我們還沒有修訂未來的能力要求,但我們現在能夠更好地邀請外部專家和利益相關者參與兵棋推演,為導致修訂要求的分析活動作出貢獻。因此,整個內部系列可以被看作是測試更有影響的游戲的一種方式。

兵棋推演不僅僅是讓有知識的人參與進來和探索場景中的可能性的絕佳方式。它是了解計劃中風險和弱點的好工具。但應該注意的是,我們所使用的這種形式的矩陣游戲不一定適合于預測或獲得關于場景如何發展的確定信息:自由度實在太多。對于分析人員和依賴分析支持的決策者來說,理解這些限制是很重要的。

特別是,我們認為,在使用基于場景進行分析的官員需要接受培訓,以識別基本假設和結果的有效性是否得到充分的描述。對兵棋推演的親身體驗可以讓人更好地理解這一重要性。

兵棋推演提供了一個通過實驗學習的機會,探索可能性,發現知識的差距和局限性,挑戰當前的觀點,并理解不確定性。

付費5元查看完整內容

防御性欺騙是一種很有前途的網絡防御方法。通過防御性欺騙,防御者可以預測攻擊者的行動;它可以誤導或引誘攻擊者,或隱藏真正的資源。盡管防御性欺騙在研究界越來越受歡迎,但對其關鍵組成部分、基本原理以及在各種問題設置中的權衡還沒有系統的調查。這篇調查報告的重點是以博弈論和機器學習為中心的防御性欺騙研究,因為這些是在防御性欺騙中廣泛采用的人工智能方法的突出系列。本文提出了先前工作中的見解、教訓和限制。最后,本文概述了一些研究方向,以解決當前防御性欺騙研究中的主要差距

索引詞--防御性欺騙,機器學習,博弈論

I. 引言

A. 動機

傳統的安全機制,如訪問控制和入侵檢測,有助于處理外部和內部的威脅,但不足以抵御攻擊者顛覆控制或提出新的攻擊。欺騙是一種獨特的防線,旨在挫敗潛在的攻擊者。欺騙的關鍵思想是操縱攻擊者的信念,誤導他們的決策,誘使他們采取次優的行動。自從網絡安全研究界意識到利用防御性欺騙的核心思想的好處后,就有了開發智能防御性欺騙技術的不小努力。

文獻中指出,開發防御性欺騙技術有兩個主要的有前途的方向。首先,攻擊者和防御者的策略通常是基于博弈論方法建模的,其中防御者采取防御性欺騙策略,目的是為攻擊者制造騙局或誤導他們選擇不那么理想或糟糕的策略。其次,基于機器學習(ML)的防御性欺騙技術已經被提出來,以創建誘餌物體或假信息,模仿真實的物體或信息來誤導或引誘攻擊者。

網絡安全文獻[1]已經認識到結合GT和ML的協同優勢,例如使用博弈論防御對抗性機器學習攻擊[2,3]或生成對抗性模型來創造欺騙性對象[1]。然而,很少有工作探索GT和ML之間的協同作用來制定各種網絡安全問題。特別是,由于玩家對對手行為的有效學習對于他們相信對手的類型或下一步行動的準確性至關重要,因此使用ML為玩家形成他們的信念,有助于在特定環境下產生最佳博弈。此外,在開發防御性欺騙技術時,基于ML的方法可以提供更好的攻擊者預測或基于大量的可用數據創建欺騙性對象的高相似度。然而,它們可能無法在不確定的情況下提供有效的戰略解決方案,而這一點在博弈論方法中已經得到了很好的探索。因此,這篇調查報告的動機是為了促進未來的研究,采取混合防御性欺騙方法,可以利用GT和ML。

為了區分我們的論文與現有調查論文的主要貢獻,我們討論了現有的關于防御性欺騙技術的調查論文,并在下一節中闡明了我們的論文與它們之間的差異。

B. 與現有調查的比較

一些研究對防御性欺騙技術進行了調查[4, 5, 6, 7, 8]。

Almeshekah和Spafford[8]介紹了在網絡安全防御領域是如何考慮防御性欺騙的。具體來說,作者討論了考慮防御性欺騙技術的以下三句話:計劃、實施和整合,以及監測和評估。特別是,本文從影響攻擊者的感知方面討論了規劃欺騙的模型,這可以誤導防御者實現系統的安全目標。然而,這篇調查報告對建模和整合防御性欺騙的貢獻是有限的,它只針對一組有限的攻擊者。此外,這項工作沒有考慮到在實施防御性欺騙技術時應該考慮的各種網絡環境。

Rowe和Rrushi[7]將防御性欺騙技術分為冒充、延遲、假貨、偽裝、假借口和社會工程等方面。他們不僅介紹了欺騙技術的背景,還探討了防御性欺騙的可探測性和有效性的計算。然而,他們對博弈論防御性欺騙的調查是有限的,缺乏對最先進技術的討論。

表一 我們的調查報告與現有的防御性欺騙調查的比較

Han等人[6]調查了基于四個標準的防御性欺騙技術,包括欺騙的目標、單元、層和部署。他們調查了用于防御性欺騙技術的理論模型,以及欺騙元素的生成、放置、部署和監控。Han等人討論了各種欺騙技術之間的權衡,這些技術是部署在網絡、系統、應用還是數據層。然而,他們對博弈論欺騙的討論并不全面。

Pawlick等人[5]對已用于網絡安全和隱私的防御性欺騙分類法和博弈論防御性欺騙技術進行了廣泛的調查。作者討論了主要的六種不同類型的欺騙類別:擾亂、移動目標防御、混淆、混合、蜜X和攻擊者參與。他們的論文調查了2008-2018年發表的24篇論文,并定義了相關的分類標準,以發展他們自己的博弈論防御性欺騙技術的分類。這項工作很有意思,將移動目標防御和混淆作為防御性欺騙下的子類別。本文討論了用于開發防御性欺騙技術的常見博弈論方法,如Stackelberg、Nash和信號博弈理論。然而,本文對現有博弈論防御技術的調查和分析僅限于博弈論分析,沒有考慮現實的網絡環境,在這種環境下,基于ML的防御性欺騙技術或這兩者的結合(即博弈論和ML)可能會提供更有用的見解和有前途的研究方向。

最近,Lu等人[4]對由三個階段組成的防御性欺騙過程進行了簡要調查:欺騙的計劃,欺騙的實施和部署,以及欺騙的監測和評估。作者討論了基于信息異化以隱藏真實信息和信息模擬以關注攻擊者的欺騙技術。這項工作簡要地討論了博弈論的防御性欺騙,主要集中在討論當前研究的挑戰和限制。然而,只包括了一小部分文獻的內容。此外,本文沒有討論基于ML的防御性欺騙方法。

一些調查論文主要集中在針對某類攻擊的防御性欺騙技術或特定的欺騙技術。Carroll和Grosu[9]研究了欺騙對計算機網絡的攻擊者和防御者之間的博弈理論互動的影響。他們研究了信令博弈和相關的納什均衡。然而,這項調查只關注蜜罐技術,而對欺騙的博弈論分析僅限于研究信號博弈中攻擊者和防御者之間的相互作用。Virvilis等人[10]調查了可用于緩解高級持續性威脅(APTs)的部分防御性欺騙技術。

在表一中,我們總結了我們的調查論文的主要貢獻,與現有的五篇調查論文[4, 5, 6, 7, 8]相比,基于幾個關鍵標準。

C. 主要貢獻

在本文中,我們做出了以下主要貢獻

  1. 我們提供了一個新的分類方案,從概念性欺騙類別、對象的存在(即物理或虛擬)、應用欺騙后的預期效果、最終目標(即用于資產保護或攻擊檢測)和積極性(即主動或被動或兩者)等方面來描述防御性欺騙技術。這提供了對每種欺騙技術的深入理解,以及對如何應用它來支持系統的安全目標的見解。

  2. 我們討論了防御性欺騙技術的關鍵設計原則,包括欺騙什么--攻擊者,何時欺騙,以及如何欺騙。此外,基于防御性欺騙技術的關鍵屬性,我們確定了利用博弈論和ML算法開發防御性欺騙技術時的主要好處和注意事項。

  3. 我們討論了基于博弈論和ML的防御性欺騙技術的類型以及優點和缺點。此外,使用我們在第二節介紹的分類方案,我們討論了博弈論和ML算法。

4)我們還調查了現有的博弈論和基于ML的防御性欺騙技術所能處理的攻擊。因此,我們討論了文獻中的防御性欺騙技術或多或少考慮了哪些攻擊。

5)我們調查了防御性欺騙技術主要是如何處理不同網絡環境下的應用領域的挑戰,并討論了所部署的博弈論或基于ML的防御性欺騙技術的優點和缺點。

6)我們研究了在博弈論或基于ML的防御性欺騙技術中或多或少使用了哪些類型的指標和實驗測試平臺來證明其有效性和效率。

7)我們廣泛地討論了從本工作中調查的防御性欺騙技術中獲得的教訓和見解以及觀察到的限制。基于這些見解和局限性,我們為博弈論和基于ML的防御性欺騙研究提出了有希望的未來方向。

請注意,本文的范圍主要集中在調查博弈論(GT)或基于ML的防御性欺騙技術,并討論從這個廣泛的調查中得到的見解、限制或教訓。因此,一些沒有使用博弈論方法或ML的防御性欺騙技術被排除在本調查報告之外。

D. 研究問題

我們在本文中討論了以下研究問題

RQ 特征:防御性欺騙有哪些關鍵特征將其與其他防御性技術區分開來?

RQ 衡量標準:在衡量現有的基于博弈論或ML的防御性欺騙技術的有效性和效率方面,或多或少地使用了哪些指標?

RQ 原則:哪些關鍵設計原則有助于最大化防御性欺騙技術的有效性和效率?

RQ GT:當使用博弈論(GT)設計防御性欺騙技術時,有哪些關鍵設計特征?

RQ ML:當使用ML開發防御性欺騙技術時,有哪些關鍵的設計特點?

RQ 應用:不同的防御性欺騙技術應該如何應用于不同的應用領域?我們在第九節A中回答了這些問題。

E. 論文的結構

本文的其余部分結構如下。

  • 第二節提供了欺騙的概念和與防御性欺騙相關的分類標準。

  • 第三節討論了設計防御性欺騙技術的關鍵原則。此外,本節還闡明了與其他實現相同防御目標的防御技術相比,防御性欺騙技術的主要特色。

  • 第四節解釋了使用博弈論防御性欺騙的關鍵組成部分,并調查了現有的博弈論防御性欺騙技術,以及對其優點和缺點的討論。

  • 第五節討論了利用ML技術來開發防御性欺騙技術的關鍵部分。此外,本節廣泛調查了現有的基于ML的防御性欺騙技術,并討論了它們的優點和缺點。

  • 第六節描述了現有博弈論和基于ML的防御性欺騙技術所對抗的攻擊類型。

  • 第八節介紹了使用博弈論和ML來衡量現有防御性欺騙技術的有效性和效率的指標。此外,本節還調查了用于驗證本工作中調查的那些現有防御性欺騙技術的評估測試平臺。

  • 第七節討論了如何為不同的應用領域開發基于博弈論或ML的防御性欺騙技術,如企業網絡、網絡物理系統(CPS)、基于云的網絡、物聯網(IoT)、軟件定義的網絡(SDN)和無線網絡。

  • 第九節總結了通過回答I-D節中提出的關鍵研究問題所獲得的見解和經驗。此外,本節還討論了從這項工作中調查的防御性欺騙技術中發現的局限性,并提出了有希望的未來研究方向。

付費5元查看完整內容

摘要

在未來部隊結構的發展和評估過程中,兵棋推演是深入了解其優勢和劣勢的一項關鍵活動。十多年來,挪威國防研究機構(FFI)在不同程度的計算機支持下,開發支持挪威軍隊進行能力規劃的兵棋。在此期間,這些已經從可被描述為計算機輔助的兵棋發展為更逼真的仿真支持的兵棋。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程--特別是監測對方部隊的規劃過程。例如,研究特定的結構元素在多大程度上阻止了對方部隊采取某些行動,這一點很重要。在這篇文章中,我們描述了我們開發的仿真支持的兵棋推演方法,其中包括一個準備階段;一個執行階段,含有一個聯合行動規劃過程;以及一個分析階段。此外,我們還討論了我們能夠從兵棋推演中提取什么類型的數據和結果,并提出了一套我們發現的關于如何成功進行仿真支持兵棋的最佳實踐。

關鍵詞:兵棋推演;建模與仿真;實驗;國防結構;能力分析;國防規劃

1 引言

在發展和評估未來的部隊結構時,兵棋推演是深入了解和更好地理解部隊結構的優勢和劣勢的關鍵活動。今天,基于計算機的仿真系統使我們能夠創造出高度復制真實世界物理特性的合成環境。此外,人工智能(AI)和行為模型的進步給我們提供了更真實的計算機生成部隊(CGF),可以高度逼真地執行戰斗演習和低級戰術。兵棋可以從這些進展中受益。然而,在指揮系統的較高層次上,人工智能還不能與人類決策者相提并論,在兵棋中規劃和實施仿真行動需要人類官員的參與。

十多年來,挪威國防研究機構(FFI)一直支持挪威軍隊在不同程度的計算機支持下開發能力規劃的兵棋。在此期間,這些已經從可被描述為計算機輔助的兵棋發展為更逼真的仿真支持的兵棋。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程,特別是監測對方部隊的規劃過程。例如,研究特定的結構要素在多大程度上阻止了對方部隊采取某些行動--或者換句話說,正在推演的概念有怎樣的戰爭預防或維護和平效果,這一點很重要。

能力規劃過程和高調的兵棋總是會涉及或吸引利益者--例如高級軍官、政治家、官僚和國防工業領導人--的利益沖突。一般來說,參與的利益者有可能想把兵棋框定在一個有利于他們利益的背景下(Evensen等人,2019)。重要的是要意識到這個問題,而且關鍵是要避免兵棋成為利益者利益的戰場。本文所描述的方法和最佳實踐試圖通過使用基于計算機裁決的仿真,以及通過提高對元游戲的認識,或對兵棋所有階段的沖突,從準備到執行,再到分析和報告,來減少這個問題。

本文的組織結構如下。首先,我們簡要地描述了這項工作的背景。接下來,我們描述了我們開發的仿真支持的兵棋推演方法,其中包括準備階段;執行階段,包括聯合行動規劃過程;以及分析階段。之后,我們討論了我們能夠從兵棋推演中提取的數據和結果類型。最后,我們提出了一套我們發現的關于如何成功進行仿真支持的兵棋推演的最佳實踐。

2 背景

雖然各種形式的兵棋推演已經在FFI進行了數十年,但當FFI的研究人員開始合作研究單個仿真支持的系統評估方案時,首次出現了實施仿真支持的部隊結構評估的想法(Martinussen等人,2008)。

2010年,FFI首次將使用半自動部隊(SAF)的互動式旅級仿真系統作為兵棋推演的基礎。在 "未來陸軍 "項目中,通過一系列計算機輔助的兵棋推演,對五種基本不同的陸軍結構的性能進行了評估(霍夫等人,2012;霍夫等人,2013)。其目的是根據這些結構的相對性能進行排名。此外,兵棋推演揭示了被評估結構中固有的一些優勢和劣勢。雖然我們使用的仿真工具相當簡單,但它對于跟蹤部隊的運動和計算決斗和間接火力攻擊的結果很有用。

在此之后,FFI支持挪威陸軍進行了幾次仿真支持的能力規劃系列兵棋推演。這些兵棋推演是雙面的(藍方/友方和紅方/敵方),封閉的(可用信息有限),在戰術和戰役層面進行。

玩家總數在10到100人之間,兵棋推演的時間從一天到兩周不等。圖1顯示的是2014年FFI的一次仿真支持的兵棋推演會議的照片。

圖1 2014年FFI的仿真支持的兵棋推演會議。

自2010年以來,我們的兵棋推演逐漸從計算機輔助的兵棋推演(使用非常簡單的仿真模型),向使用更詳細和更真實的仿真模型的兵棋推演演變。此外,為了更密切地了解部隊結構的威懾效果(這在實際游戲中可能無法觀察到),我們的重點也轉向了更恰當地復制規劃過程,特別是監測紅方部隊的規劃過程。圖2說明了我們兵棋推演的演變過程。

圖2 我們的兵棋推演的演變過程。

使用基于計算機的仿真來支持兵棋推演的價值首先在于有一個系統來自動跟蹤部隊,計算其傳感器的探測情況,并評估決斗情況和間接火力攻擊的結果。此外,基于計算機的仿真非常適用于通過在地面實況上添加過濾器來真實地表現不確定性和戰爭迷霧。

3 仿真支持的兵棋推演方法

戰術仿真是開發、測試和分析新的部隊結構的一個重要工具。通過兵棋推演,可以深入了解一個部隊結構對特定場景的適合程度,并揭示該結構的優勢和劣勢。然而,擁有一個好的執行計劃對于成功地進行兵棋推演實驗和從活動中獲得有用的數據是至關重要的。在本節中,我們將介紹我們的仿真支持的兵棋推演方法,該方法是通過我們在過去10年中對兵棋推演實驗的規劃、執行和分析的經驗發展而來的。我們還將討論兵棋推演的背景,以及規劃和組織兵棋推演活動的過程,這可以被視為一種元游戲。

一般來說,有幾本關于兵棋推演的書和指南可以參考(Perla,1990;Appleget等人,2020;Burns,2015;英國國防部[UK MoD],2017)。本節描述的方法是專門為支持未來部隊結構發展的分析性兵棋推演而定制的。通常情況下,我們使用這種方法來評估和比較不同部隊結構備選方案的性能,這些方案可能在物資和裝備的構成、戰術組織或作戰概念方面有所不同。

我們的兵棋推演實驗方法包括三個主要階段:

1.準備階段

2.規劃和執行階段

3.分析階段

這些階段將在下文中詳細描述。圖3說明了它們之間的關系,其中規劃過程和兵棋推演的執行階段構成了實驗的核心。

圖3 兵棋推演實驗的方法說明。

3.1 兵棋的背景

小國在發展兵力結構以威懾擁有更多兵力要素的敵人時面臨著兩難境地。敵人可能會觀察到防御結構中的變化,并可能在運用軍事力量時從集合中選擇其他更合適的元素。例如,如果小國的部隊結構是專業化的,為了對付預期的敵人行動方案(COA),敵人可能會從庫中選擇完全不同的東西,敵人的COA可能會發生巨大變化。

對所有國家來說,發展部隊結構是一個緩慢而公開的過程。從現有的、龐大的部隊要素庫中選擇部隊并創造新的行動方案是一個快速和隱蔽的過程。對于一個小國來說,在這種情況下實現威懾似乎是一項不可能完成的任務,但我們已經在幾個案例中觀察到,對部隊結構的低成本改變是如何對敵人的COA選擇產生巨大影響的(Daltveit等人,2016;Daltveit等人,2017;Haande等人,2017)。1988年為圣戰者引入手持防空導彈后,蘇聯在阿富汗的戰術發生了變化(Grau, 1996),這就是我們在兵棋推演中看到的紅方(對手)小組規劃過程中產生影響的一個很好示例。據觀察,存在感和姿態也有威懾作用。此外,社會、景觀和氣候也影響了紅方的規劃過程。這一切都歸結于敵方在規劃和制定作戰行動期間的風險評估。

為了研究部隊結構變化的威懾作用,有必要讓分析人員在兵棋推演前觀察紅方的規劃過程,而不僅僅是在仿真戰斗中。阻止敵人進攻是任何部隊結構發展的意圖,而觀察威懾效果的唯一方法是在敵人的規劃期間。

在決策理論中,風險是一個必須考慮的因素,以便能夠做出理性的選擇。馮-諾伊曼-摩根斯坦(vNM)決策理論的基礎是行為者通過考慮給定概率和結果的彩票來評估選擇(von Neumann & Morgenstern, 1944)。風險因素也需要存在于規劃過程中。如果一方的規劃過程被參與兵棋推演的其他任何一方知道,那么一部分風險因素就會消失。這將使規劃過程減少到只是評估一個已知的敵人COA,而不是評估一系列可能的COA及其概率。因此,重要的是,場景定義不能限制敵人的規劃過程,所有的規劃過程都要受到監控--特別是敵人的規劃過程。

3.1.1 元游戲

盡管兵棋推演在最終開始時有規則,但在選擇兵棋的類型和周圍環境的過程中,并沒有明確的規則。因此,策劃和組織一場兵棋推演活動的過程可以被看作是一種元游戲--一種可以在對抗分析的規則中進行分析的游戲(Curry & Young, 2018)。例如,聯合層面的兵棋推演將包括傳統上的資金競爭對手的參與者。來自空軍、海軍和陸軍的參與者,在涉及到應該如何制定場景、應該對未來技術做出什么樣的假設、應該如何評估戰斗效果等方面,可能有不同的利益。每個領域內的分支也是如此。因此,存在著一種危險,即元游戲對部隊結構分析結果的影響可能比實際兵棋推演的影響更大。元游戲并不局限于兵棋的執行。分析和事后的報告也會受到與準備期間相同類型的沖突影響。在圖4中,存在于核心方法論之外的元游戲層就說明了這一點。

圖4 圍繞兵棋推演實驗方法的元游戲圖解。

能力規劃過程總是會涉及或吸引利益沖突的利益者,國防規劃和兵棋推演包含許多利益者爭奪地盤的例子(Evensen等人,2019;Perla,1990)。這在兵棋推演的準備階段尤其明顯。應對這種情況的一個可能的方法是,適當地將擁有發明改變部隊結構的權力角色與擁有評估和接受改變的權力角色分開。當這些角色沒有被分開時,利益者會試圖影響什么是兵棋的目標,以及使用什么類型或風格的兵棋。在最壞的情況下,我們可能會有有限數量的利益者提出新的部隊結構,然后讓同樣的利益者通過基于場景的討論來驗證他們自己的想法是否良好。如果被評估的是利益者所珍視的想法,這就特別容易出問題。

聯合需求監督委員會(JROC)是一個很好的例子,該機構以健全的決策結構處理地盤戰(參謀長聯席會議主席[CJCS],2018)。美國軍方將思想的發明者與審查其有用性的權力進行分開,這完全符合孟德斯鳩的分權原則。在挪威進行國防規劃和兵棋推演的方式,在許多情況下,人們會發現行為者既產生了對未來部隊結構的想法,又通過參與基于場景的討論來評估相同的結構。基于場景的討論如果不包括專門的紅方小組,就不是兵棋推演。引入 "紅方小組 "成員,以及對方的自由和無阻礙的規劃,消除了一些濫用權力的可能性。沒有對提議的部隊結構進行適當兵棋推演的一個特殊結果是,建議采用次優化的部隊結構來打擊固定的假設敵方作戰行動。由于沒有對這種部隊結構進行適當的推演,結構改革的支持者成功地擊敗了他們喜歡的敵人COA,但卻沒有挑戰他們自己的想法。

3.2 準備階段

準備階段包括在兵棋推演執行階段開始前需要做的一切。最重要的準備工作是:

  • 建立對兵棋推演實驗目標的共同理解。

  • 確定總體方案,包括外部條件、假設和限制。

  • 選擇一個或多個仿真系統,并對仿真模型進行校準。

  • 確定藍方(友軍)和紅方(敵軍)的作戰順序(OOB)。

3.3 規劃和執行階段

規劃和執行階段包括兩個獨立的活動:(1)雙方的聯合行動規劃過程,以及(2)仿真支持的兵棋推演。

3.3.1 聯合行動規劃過程

在這項活動中,由軍事主題專家(SME)和軍官組成的藍方和紅方小組,根據總體方案和受控的情報信息流,分別制定他們的初步行動計劃。根據偏好,這些計劃不是整體方案的一部分,雙方都可以自由制定自己的計劃。這也意味著,對立雙方制定的計劃對另一方來說仍然是未知的。

原則上,聯合行動規劃過程可以按照與現實中基本相同的方式進行,不做任何簡化。這是一項應該與仿真支持的兵棋推演一樣優先考慮的活動,在人員配置方面也是如此。

在規劃過程中,參與者必須討論不同的選擇,并根據所感知的對方部隊結構的優勢和劣勢來制定一個COA。觀察雙方的規劃過程并揭示決定COA的根本原因,可以提供有關部隊結構的寶貴信息,而這些信息在執行兵棋推演本身時可能無法觀察到威懾效果。

3.3.2 仿真支持的兵棋

兵棋推演本身是作為仿真支持的兩方(藍方和紅方)兵棋推演進行的,其中行動是在一個具有SAF的建設性仿真系統中仿真的。在博弈論中,這種類型的兵棋推演可以被歸類為非合作性的、不對稱的、不完全信息的連續博弈。

兵棋的參與者是兩組對立的玩家和一個公斷人或裁決人的小組。重要的是要記住,一個兵棋的好壞取決于它的玩家。玩家是軍事主題專家和軍官。要想有一個平衡的兵棋,關鍵是不要忽視紅色單元。如果做得好,這種類型的兵棋,由適應性強且思維不受限制的對手主導,往往會變得高度動態、對抗性和競爭性。

對于分析性兵棋推演來說,現實的仿真對于加強結果的有效性和可信度非常重要。軍事行動,尤其是陸軍行動,本質上是復雜的,對這種行動的仿真,要有足夠的真實性,是非常具有挑戰性的(Evensen & Bentsen, 2016)。此外,仿真系統可能包含錯誤,人類操作員可能會犯一些在現實生活中不會犯的錯誤。因此,重要的是要有經驗豐富的裁判員來監控仿真,并在必要時對結果進行適當的人工調整。

在某種程度上,在仿真支持的兵棋中,元游戲也會發揮作用。曾經有這樣的例子,利益者將有能力的官員從兵棋推演中撤出,只是用不太熟練的人員取代他們,很可能是為了降低利益者不希望成功的兵棋可信度。其他的例子是公斷人與參觀兵棋的更高等級利益者的干預作斗爭。歷史上有很多類似的例子(Perla,1990),挪威也不例外(Evensen等人,2019)。這里所描述的清晰的方法,意在抵制以往兵棋推演實驗的一些缺陷。

3.4 分析階段

除了從仿真支持的兵棋本身的執行中收集的觀察和數據外,分析還基于規劃過程中的觀察和數據。

在規劃過程中,密切監測和記錄討論情況是很重要的。由于國防軍的主要目的--至少在挪威是這樣--是為了防止戰爭,因此在規劃過程中的考慮可能是整個兵棋中最重要的結果。只有當敵人在兵棋開始前考慮到這些因素時,才能觀察到部隊結構和態勢的預防特性。在規劃階段,通常會考慮幾個備選的作戰行動和機動性。其中許多被放棄,有些被保留,原因各異,必須記錄下來。為什么紅方決定某個行動方案不可行,可能是由于某些結構要素或來自藍方的預期策略。如果紅方由于藍方的OOB要素而不得不放棄一個計劃,那么這些要素已經證明了對藍方的價值--即使這些要素在接下來的仿真行動中最終沒有對紅方部隊造成任何直接傷害。

在仿真支持的兵棋中可能會記錄大量的數據。很容易把各種結構元素的損失交換率等數據看得很重。在實際的兵棋推演中,也許更應該注意的是雙方指揮官的決定。如果其中一方出現了機會,這是為什么?該方是如何利用這樣的機會的?是否有什么方法可以讓他們考慮利用這個機會,但不知為何卻無法利用或執行?如果有,為什么?為了收集這樣的信息,指揮官們公開討論他們的選擇是很重要的。重要的不僅僅是告知積極選擇的原因;往往可能同樣重要的是為什么沒有做出其他選擇。

確定部隊結構的主要優勢和劣勢及其利用是分析階段的一個重要部分。考察雙方在規劃階段和推演階段的考慮,是做到這一點的最好方法。這不是一門精確的科學,因為這種數據具有定性的性質。通過觀察參與者的考慮和決策,比單純看哪些武器系統摧毀了哪些敵人的系統,可以更好地確定使用某種COA的關鍵因素,或者是允許敵人有更好選擇的缺失能力。分析階段的結果是對測試的部隊結構進行評估。

分析階段也可能會在商定的兵棋推演方法范圍之外發生爭吵。甚至在事件發生后的報告撰寫中也可能受到影響,當角色沒有被很好地分開,利益者被允許過度地影響這個過程時。

4 兵棋的輸出數據和結果

一般來說,我們努力從兵棋推演環節中獲取盡可能多的數據。根據用于支持兵棋推演的仿真系統,可以記錄各種輸出數據。例如,通常可以記錄各個單位移動了多遠,他們使用了多少彈藥和燃料,以及其他后勤數據。通常,殺傷力矩陣--基本上是顯示一方的哪些單位殺死了另一方的哪些單位的矩陣--也會被記錄。其他許多定量數據也可以被記錄下來。除此以外,還有定性的數據。如前所述,這包括對規劃過程的觀察,以及與參與規劃過程的參與者的討論。此外,它還包括對兵棋推演期間所做決策的觀察,以及在兵棋推演期間或之后與玩家的討論。

人們往往傾向于把大量的注意力放在定量數據上,如殺傷力矩陣,而對定性數據的關注可能較少。定量數據更容易分析,而且通常被認為比定性數據(如隊員的決策和考慮)更客觀。但重要的是要記住,定量數據取決于雙方玩家的決策,以及對模型的輸入數據。玩家認為各種單位應該如何運用,對殺傷力矩陣有相當大的影響。因此,盡管這些數據是定量的,但它們并不比定性數據更客觀。

諸如殺傷力矩陣這樣的數據也忽略了重要的信息。雖然人們可以看到哪些部隊殺死了哪些敵方部隊,但卻失去了原因;其他部隊雖然沒有直接摧毀敵方部隊,但卻可能在為其他部隊創造有效條件方面起到了關鍵作用。雖然某些部隊可能只消滅了很少的敵人,但他們在戰場上的存在可能對阻止敵人進行某些行動至關重要。例如,雖然近距離防空可能不直接負責消滅敵人的直升機,但它可能阻止了敵人像其他情況下那樣積極地使用直升機。因此,在分析一個兵棋時,對于只看殺傷力矩陣這樣的量化數據應該謹慎。必須考慮到整體情況。

理想情況下,在比較不同的部隊結構時,應該對每個部隊結構進行幾次推演,并允許敵人在每次戰役中改變其行為。自己的部隊應該找到在特定情況下使用其結構的 "最佳 "方式,而敵人應該找到反擊這一策略的 "最佳 "方式。只有這樣,人們才能真正比較不同部隊結構的兵棋推演結果,并得出哪種部隊結構最適合給定場景的結論。然后,當然,確實有廣泛的潛在場景需要考慮。因此,雖然這也許是應該進行兵力結構比較的方式,但在這方面,時間和資源通常對大量的兵棋推演是不夠的。

所有模型都有局限性。它們可能是為某一特定目的而設計的,并適合于此,但不太適合于其他事情。在考慮哪些問題可以通過兵棋推演來回答,哪些問題應該用其他工具來調查時,必須記住這一點。從兵棋推演中到底可以推導出什么,將取決于所使用的模型--但一般來說,應該把重點放在實驗所要回答的那些問題上。如果在實驗中出現了其他的結果,就應該對其有效性進行檢查,而且這些結果往往需要在專門為調查這些新出現的問題而設計的實驗中進行評估。

兵棋推演是比較兩個(或更多)部隊結構在特定情況下的表現的一個重要工具。然而,兵棋推演并不能對任何給定的部隊結構的有效性給出任何精確的衡量,但適合于確定主要的優勢和劣勢。與具體單位有關的參數的效果,如它們的火力和裝甲,應在單獨的研究中進一步考察。這些因素雖然很重要,但它們的層次太細,無法通過我們這里討論的兵棋類型來研究它們對結果的影響。彼得-佩拉強調,"兵棋只是研究和學習國防問題所需的工具之一"(佩拉,1990,第11頁)。其他工具應被用來補充兵棋和研究這些因素的重要性。

兵棋推演通常是實質性的活動,涉及大量的人,并需要大量的時間。因此,我們通常被限制在有限的數量上--通常對于我們所分析的每個部隊結構只有一個。重要的是要記住,一個單一的兵棋推演的結果只是:特定情況下的一個可能的結果。雙方玩家可以采取不同的做法,事件的發展也可能不同。細微的變化可能會影響到對整體結果至關重要事件的結果。

5 仿真支持兵棋的最佳實踐

在本節中,我們將列出我們發現的進行仿真支持的分析性兵棋的最佳做法,以評估部隊結構。我們發現的一些最佳實踐與處理元游戲的需要有關,或者與兵棋的沖突有關。這些最佳實踐的用處可能僅限于其他尚未將發明權與測試部隊結構的權力分開的小國。其他的最佳實踐來自于提供仿真支持和取代基于場景的討論以發展防御結構的需要。

5.1 確定明確的目標

在準備階段,必須盡早明確兵棋推演實驗的目的,這將是實驗設計的基礎。

5.2 使用為兵棋推演定制的仿真系統

擁有一個帶有SAF的交互式仿真系統,對玩家來說易于操作,并且需要相對較少的操作人員,這就減少了進行仿真支持的兵棋推演所需的資源,從而也降低了門檻。

5.3 組建一個好的紅方小組

一個好的紅方小組是發現自己的部隊結構、計劃和程序中弱點的關鍵。紅色小組的成員也應該對預期對手的理論有很好的了解。我們觀察到,一個好的紅色小組能迅速地阻止我們自己的規劃人員對可能的敵人行動進行集體思考的傾向。

5.4 允許對方部隊適應

自己部隊結構的變化也必須允許對方部隊結構的變化。部隊結構的改變是一個緩慢的過程,肯定會被預期的對手觀察到。

5.5 復制規劃過程

盡可能地復制現實生活中的規劃過程。

5.6 觀察規劃過程

觀察規劃過程,以便更全面地了解部隊結構的優勢和劣勢。為了記錄藍軍部隊結構的威懾效果,觀察對方部隊的規劃過程尤為重要。據觀察,自己的部隊結構中的幾個要素對對方部隊的行動有威懾作用,存在和姿態也是如此。此外,我們還觀察到,社會、地形和氣候也會影響對方部隊的規劃。

5.7 提供空間和時間

在部隊相互靠近的情況下開始一場兵棋推演,可能會使它變成一場簡單的消耗戰。發展良好的兵棋推演,在提供了空間和時間的情況下,就像武術比賽中的對手互相周旋,評估對方的弱點,并尋找攻擊的機會。評估避免遭遇的能力可能與評估戰斗的能力一樣重要。

5.8 允許不確定性

建立對正在發生的事情的了解需要時間,是領導軍事行動的一個自然組成部分。只有當不確定性得到適當體現時,部隊結構中某些要素的真正價值才會顯現。例如,存在的力量的影響可能是巨大的。當戰術形勢不是所有人都能看到的,而且戰斗的結果被認為是非決定性的,以至于現實是隨機的,那么不確定性就得到了最好的體現

5.9 演習 VS. 實驗

讓參與者為兵棋推演的目的做好準備。當使用指揮和參謀訓練器作為支持兵棋推演的仿真系統時,一些參與者傾向于按照程序行事,就好像這是一場演習。如果兵棋推演的目的是探索新的部隊結構要素、作戰行動或戰術、技術和程序(TTPs),則需要鼓勵參與者在執行任務時發揮創造性。

5.10 讓不參與兵棋推演的高級官員遠離戰場

讓與兵棋推演無關的人員遠離它,特別是高級軍官,是很重要的。在人在回路(HITL)仿真中,人類玩家是整個仿真的一部分,來訪的高級軍官(或其他人)將對人類玩家的互動方式和他們如何進行規劃產生影響。限制來訪人員也減少了外部影響結果的機會(Hoppe, 2017)。

6 摘要和結論

十多年來,FFI支持挪威陸軍為能力規劃開發仿真支持的兵棋。本文介紹了我們進行仿真支持的兵棋推演的方法,并提供了一套進行仿真支持的兵棋推演的最佳實踐。該方法和最佳實踐特別針對分析性兵棋以支持能力規劃。

該方法由準備階段、規劃和執行階段以及分析階段組成。在過去的10年中,該方法通過使用更詳細和更現實的仿真模型,以及在仿真行動前復制和監測規劃過程,以更深入地了解測試的部隊結構的威懾效果,而逐漸發展起來。

我們進行仿真支持的兵棋推演的最佳做法包括:為兵棋推演實驗確定一個明確的目標,使用一個便于玩家操作的仿真系統,擁有一個良好的紅方小組,不受太多限制,提供空間和時間,使戰爭不會立即開始,并提供一個不確定性和信息收集的現實表現。最后,為了更全面地了解一個部隊結構的優勢和劣勢,分析小組必須同時觀察規劃過程和兵棋推演本身。

將擁有發明部隊結構變化的權力角色和擁有測試、評估和接受這種變化的權力角色正式分開,將解決我們在國防規劃中看到的許多問題。我們已經發現,組織兵棋推演活動的過程可以被看作是一個元游戲。當用建模、仿真和分析來支持兵棋推演時,元游戲被看作是發生在各個層面的東西,其中一些我們可能沒有任何影響力。希望這篇文章能有助于提高對這些挑戰的認識,并能對我們能影響的那部分元游戲提供一些調整。

付費5元查看完整內容

學位論文摘要

在這篇論文中,我們研究了博弈論在確定各種基礎設施保護策略的應用。博弈模型是在防御者和對手之間進行的。防御者尋求最小化對基礎設施網絡的損害,而對手的目標則是最大化。本論文分為兩部分。在第一部分,我們考慮資源分配博弈模型,在第二部分,我們研究巡邏和搜索博弈。

在資源分配博弈領域,我們解決了文獻中現有的一些限制。其中一個限制是,這些模型大多假設博弈的參數是確定的,或者遵循一個已知的分布。而在現實中,博弈的某些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。為此,我們研究了目標估值不確定情況下的一次性安全博弈。我們提出了一個模型,在這個模型中,雙方都使用一種穩健的方法來應對目標估值的不確定性。我們表明這個模型的納什均衡是門檻型的,并開發了封閉式的解決方案來描述均衡點的特征。然后,我們將我們的模型應用于向美國10個城市地區分配安全資金的真實案例。

另一個限制是缺乏解決分層決策的模型。保護基礎設施及其用戶免受蓄意攻擊,需要在組織結構中做出戰略和運行決策。盡管通常是分開分析的,但這些決策是相互影響的。為了解決這個問題,我們開發了一個兩階段的博弈模型。在第一階段,玩家做出投資決策,在第二階段,他們決定保衛/攻擊哪些網站。我們區分了在第二階段出現的兩種類型的博弈。最大損害博弈和滲透/騷擾博弈。我們證明,在預算約束下,這個博弈的解決方案是唯一的。事實上,當第二階段的博弈是滲透/騷擾類型時,投資-防御博弈有一個獨特的閉式解,這是非常直觀的。結果顯示,增加對一個目標地點的防御投資會降低防御和攻擊該目標的概率。然而,攻擊投資的增加會增加防守和攻擊該目標的概率。同樣,防御者(攻擊者)投資效率的提高會導致防御者和攻擊者的投資減少(增加)。我們還將提出的模型應用于一個真實的案例。真實數據的結果表明,攻擊者從失敗的攻擊中得到的懲罰是決定防御者的投資和防御概率的最佳分布的重要因素。防御者的第二階段防御決策是對第一階段投資決策的補充。也就是說,在得到很少或零投資的目標地點中,最重要的一個地點在第二階段以相對高的防御概率被覆蓋。此外,隨著攻擊者預算的增加,防御投資從不太重要的站點轉移到更重要的站點。

我們還研究了資源分配模型中的總體性保護選項。總體保護指的是同時保護多個目標的選項,例如,應急響應、邊境安全和情報。大多數帶有總體保護的防御性資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,這可能并不現實,例如,應急反應投資可能只覆蓋某個區域。為了解決這個問題,我們開發了一個新的資源分配模型,以適應針對故意攻擊的通用總體保護。該模型還考慮了多種自然災害類型。我們表明,我們提出的模型是一個凸優化問題,因此可以在多項式時間內求解到最佳狀態。此外,整個國家層面的資源分配問題可以被分解成更小的城市層面的子問題,從而產生一個更有效的算法。數字實驗證明了所提方法的性能。

巡邏和搜索博弈通常是在一個圖上進行的,玩家在一個時間范圍內做出決策。在巡邏博弈中,防御者控制一組巡邏者并指揮他們在圖上行走,以盡量減少對手的攻擊損失,而對手則選擇一個目標和攻擊時間。為了成功地摧毀一個目標地點,對手需要一些準備時間而不被巡邏者打斷。大多數巡邏博弈模型都假設站點的價值是相同的,或者說它們不會隨時間變化。然而,這并不是一個現實的假設。特別是在軟目標的情況下,這些值可能對應于一個地點的占用水平,因此,這樣的值可能是不同的,并可能隨時間變化。我們提出了具有隨時間變化的節點值和基于節點的攻擊時間的新模型。我們使用列生成、列和行生成等算法數值地解決這些模型。我們將這些算法應用于美國一個主要城市的城市鐵路網的真實案例。結果顯示了所提出的解決方法的效率。他們還證明了額外的巡邏員的回報率是遞減的。

在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,使目標函數得到優化。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。我們表明,在某些條件下,該博弈有一個封閉式的納什均衡。對于一般情況,我們開發了一種基于列和行生成的算法。我們表明搜索者的子問題是NP-hard的,并提出了一個分支和價格算法來解決它。我們還提出了一個用于Hider子問題的多項式時間算法。數值實驗研究了該方法的性能,并揭示了對該博弈特性的洞察力。

第一章 簡介

恐怖襲擊是對國民經濟和生活質量的一個嚴重關切。每年都有成千上萬的人因為這些襲擊而喪生或受傷或被綁架。2015年,全世界共發生11774起恐怖襲擊事件,造成28300多人死亡,35300多人受傷。此外,有超過12,100人被綁架或劫持為人質[22]。恐怖主義的持續威脅帶來的心理影響也是相當大的。這類事件在社會上造成了恐懼、驚慌、焦慮和苦惱。

保護關鍵基礎設施不受恐怖主義侵害是國土安全的首要任務之一[104]。對關鍵基礎設施的物理保護可以防止成功實施高影響力的恐怖襲擊。此外,對針對關鍵基礎設施的恐怖襲擊作出即時反應,可以防止與此類襲擊相關的連帶效應。

這些原因以及在過去幾十年中發生的許多引人注目的恐怖襲擊,突出了此類基礎設施的安全建模和分析是一個主要的研究議程。通過評估與基礎設施內每個站點相關的風險、緩解計劃以及設計保護戰略和響應政策,可以大大減少攻擊的后果。基礎設施安全最近成為研究人員越來越感興趣的主題。人們提出了不同的方法來模擬安全問題中的戰略互動,這些方法包括系統分析[115]、數學建模[51]、概率風險分析[33, 39, 73, 100, 115, 116],以及對抗性風險分析[123]。然而,由于恐怖分子的攻擊可能是戰略性的,對這種攻擊的博弈論分析會產生更真實的結果。因此,最近的研究集中在開發博弈論模型來捕捉恐怖主義風險,并將結果應用于加強安全措施。其中一個模型ARMOR[112, 113, 114, 118]已被部署在洛杉磯國際機場(LAX)以加強機場的安全。

這項研究的重點是博弈論的應用,為各種基礎設施尋找最佳保護策略,以抵御蓄意攻擊。這項工作可以分為兩部分:資源分配模型,以及巡邏和搜索博弈模型。

為防止蓄意攻擊而進行的資源分配通常是昂貴的,決定如何分配資源以保護關鍵基礎設施是一個困難的問題。許多因素會影響這種分配政策,例如,在實踐中,公平在確定防御分配方面起著重要作用[129]。此外,創造一種平衡以保護不同類型的威脅(例如,生物攻擊與炸彈攻擊,或恐怖主義與非恐怖主義預防活動之間)是另一個因素。其中一些因素已經在靜態安全博弈的文獻中得到了解決。然而,仍然有一些限制。例如,大多數基礎設施安全博弈假設博弈的參數是確定的或遵循一個已知的分布。而在現實中,博弈的一些參數可能是不確定的,沒有已知的分布,或者關于它們的分布信息可能是不可靠的。在這項研究中,我們建立了具有和不具有私人信息的不完全信息基礎設施安全博弈的穩健無分布模型。此外,決策的層次性在文獻中經常被忽略。然而,分配資源以保護關鍵的基礎設施涉及到組織結構中不同層次的決策:戰略和運行決策。這些決策相互影響,需要同時進行研究。在這項研究中,我們開發了兩階段的博弈模型來解決這個問題。此外,大多數現有的帶有總體保護選項的資源分配模型都假定只有一個總體保護選項可以保護所有目標。然而,在現實中,可能有許多總體保護方案,而每個方案可能只覆蓋一個子集的目標。為了解決這個問題,我們開發了一個新的資源分配模型,該模型具有通用的總體保護選項。我們還開發了高效的分解算法來尋找最佳的資源分配。

巡邏和搜索博弈通常是在一個圖形上進行的,玩家在一個時間范圍內做出決定。設計巡邏隊來保護開放的大眾運輸系統和其他軟目標帶來了獨特的挑戰,這些挑戰在巡邏博弈的文獻中還沒有被解決。其中一個挑戰是這些系統內人群規模的動態性質。因為對手的主要目標是造成人員傷亡,所以節點的價值取決于居住在這些節點的人數。這些數字隨著時間的推移而變化,恐怖分子往往根據這些變化來確定他們的攻擊時間[68]。其他挑戰包括處理多個攻擊者,適應人力資源的限制,以及開發有效的方法來設計一般網絡的巡邏。我們通過開發具有動態變化的節點值、基于節點的攻擊時間、多個巡邏員和多個攻擊者的新模型來應對這些挑戰。為了有效地解決這些模型,我們開發了先進的解決算法,如列生成,以及列和行生成。在搜索博弈中,一個隱藏者將一組物體隱藏在一組潛在的隱藏地點。搜索者控制一組搜索隊,指揮他們在網絡上行走,找到隱藏的物體,從而使目標函數得到優化。大多數搜索博弈模型都假定隱藏地點是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏匿地點相互區分開來,目標是優化加權搜索時間。為了解決這個問題,我們引入了一個新的離散搜索博弈,并考慮到了不同地點的權重。

1.1 問題陳述和研究動機

本研究考慮的主要問題是確定針對故意破壞(如恐怖襲擊)的最佳保護策略。因為對手的決策也是有策略的,所以對這些問題的博弈論分析會產生更現實的結果。本研究中考慮的博弈模型是在防御者(她)和對手(他)之間進行的。防御者想要最小化對基礎設施網絡的損害,而對手則想要最大化。這些模型可以分為兩類:資源分配博弈,以及巡邏和搜索博弈。在資源分配模型中,有一個N個目標的集合。每個目標i都有一個Ci的值。防守方決定防守哪個目標,而對抗方決定攻擊哪個目標。如果雙方都選擇相同的目標i,那么以δi的概率,攻擊將被檢測并挫敗。這個概率被稱為檢測概率。以下矩陣的(i, j)部分顯示了如果防御者選擇目標i,而對手選擇目標j的預期損害。注意,這個矩陣對應于對手的報酬矩陣,對手試圖使預期損害最大化。

我們的目標是在各種條件下,如博弈參數的不確定性和私人信息的存在,以閉合形式描述納什均衡(NE)的特征。

我們在這篇論文中討論的另一個問題是決策的層次性。保護基礎設施及其用戶不受破壞,需要在一個組織的層次結構中做出戰略和運行決策(見圖1.1)。戰略決策是具有長期影響的長期決策。例如,對目標站點進行 "加固"[17]以減少攻擊的成功概率的投資決策被歸類為戰略決策。這包括對新技術的投資,以加強網站的安全性。另一方面,運行決策是與日常運作有關的短期決策,如巡邏、分配第一反應者和安排車輛檢查站。請注意,"戰略 "這個詞也可以用來描述參與者。在這種情況下,"戰略玩家 "指的是一個理性的玩家,其目標是最大化回報。因此,在本論文中,"戰略決策 "是指具有長期影響的長期決策,"戰略參與者 "是指以報酬最大化為目標的理性參與者。大多數研究只關注純粹的戰略決策[63, 107]或純粹的運行決策[16, 35, 36, 38]。然而,這些決策是相互影響的。例如,在某一區域安裝閉路電視攝像機可能會使該區域的巡邏變得不必要。或者將金屬探測器和安檢系統分配給目標地點,可能會影響到這些目標中巡邏隊的最佳調度。此外,投資一項新技術以加強某個目標地點的安全,可能會降低其目標的吸引力,影響保衛該目標的最佳概率。因此,在同一個模型中考慮戰略和行動決策會產生一個更全面的分析。

圖1.1: 戰略決策與運行決策

我們研究了在考慮到人為和自然災害的資源分配模型中總體保護方案的影響。總體保護方案是指可以同時保護多個目標的替代方案。例如,對邊境安全和情報工作的投資有望保護多個目標免受恐怖主義的威脅。這一領域現有文獻的局限性在于,大多數現有的模型只考慮了保護所有目標的單一總體性保護方案。然而,這可能不是對現實的準確表述。例如,對邊境安全的投資可以分為不同的入境點,每一個入境點預計都會使離該特定入境點較近的地區受益。為此,一個新的資源分配模型,容納多個保護目標子集的總體保護措施,將導致一個更現實的分析。

本研究中調查的巡邏博弈G是一個由防御者和對手在連接圖Q = (N , E)上進行的零和博弈,節點集為N,邊集為E,時間跨度為T。防御者控制著一組安全人員(巡邏者)S,并指示他們在圖上行走,以盡量減少來自對手的攻擊的損害。而敵方控制著一組攻擊者A,并為每個攻擊者選擇一個節點和一個攻擊時間。為了成功地摧毀一個目標站點,攻擊者需要在目標上有一定數量的時間單位,不被任何巡邏者打斷。巡邏博弈文獻中的大多數論文都假設對手選擇一個目標進行攻擊,目標值在一段時間內是固定的,有些甚至假設所有目標是不可區分的,即它們都有相同的價值。然而,在許多現實情況下,情況并非如此。例如,在一個交通設施中,每個地點的人數、占用水平可以被認為是該地點的價值。此外,占用水平可能隨時間變化,預計在高峰期,占用水平會比正常時間高。因此,一個具有隨時間變化的節點價值、特定節點的攻擊時間、多個巡邏者和多個攻擊者的巡邏博弈模型將導致與現實更加一致的結果。

本研究中考慮的搜索博弈是在搜索者和隱藏者之間進行的。搜索者控制一組S個搜索隊,隱藏者控制一組H個要隱藏的對象。博弈是在一個完整的圖Q = (N , E)上進行的,其中N = {0, 1, 2, . ,N}是圖中節點的集合,E = {(i, j) : i, j∈N, i 6 = j}是邊的集合。文獻中的大多數搜索博弈模型都假設藏身之處是相同的,玩家的目標是優化搜索時間。然而,在某些情況下,玩家可能會將藏身之處相互區分開來,其目標是優化加權搜索時間。例如,在某些攻擊中(生物或化學),傷亡率取決于人口密度、環境條件等因素。因此,不同的地點可能有不同的傷亡率,而整體的損失將與暴露時間和傷亡率成正比。另一個例子是通過通信渠道檢測竊聽者的問題[37]。不同的信道可能有不同的傳輸能力,對網絡的破壞率將與檢測時間和信道的容量成正比。此外,藏匿地點可能分散在大片區域,搜索可能涉及多個搜索小組。為此,一個新的搜索博弈,容納了不同地點的不同權重,將導致一個更現實的分析。

1.2 研究貢獻

在這項研究中,提出了新的博弈論模型,以解決資源分配博弈、巡邏和搜索博弈領域中的一些現有差距。在資源分配博弈領域,主要貢獻是:擴展現有模型以處理分層決策;引入廣義的總體保護方案;用穩健的方法解決參數的不確定性;開發適合于更有效算法的新模型。在巡邏和搜索博弈領域,我們的主要貢獻是:納入了與時間相關的節點值,以及多個巡邏者和多個攻擊點;并引入新的和更有效的算法來解決博弈論模型。

在接下來的章節中,我們將介紹我們的主要貢獻,如下所述。

1.我們開發了一種穩健的方法來應對安全博弈中的參數不確定性,并在第二章提供了閉合形式的NE策略。

2.為了解決防范蓄意攻擊的決策的層次性問題,在第三章中,我們引入了一個兩階段的投資-防御博弈模型,并推導出某些條件下的閉合形式的NE策略。這個模型抓住了戰略投資決策和運行攻擊/防御決策的綜合效應。

3.在第四章中,我們提出了一個新的資源分配模型,用于保護資產免受人為和自然災害的影響,并具有廣義的總體保護。這個模型被證明導致了一個可分解的凸優化問題,因此可以被有效解決。

4.在第五章和第六章中,我們介紹了新的巡邏博弈模型,該模型具有與時間相關的節點值,基于節點的攻擊時間,多個巡邏者和多個攻擊點;并開發了高效的解決方法,基于列生成,以及列和行生成來解決現實的大小問題。

5.我們在第七章中介紹了一個新的搜索博弈模型,該模型具有不同的節點權重、多個搜索隊、多個隱藏對象和分散的隱藏地點;并在第七章中介紹了基于列和行生成的高效求解方法,以解決現實的大小模型。

6.我們在第八章中提出了本研究的結論并討論了未來的研究思路

付費5元查看完整內容

1 簡介

深度學習技術在計算機視覺領域的快速發展,促進了基于人工智能(AI)應用的廣泛傳播。分析不同種類的圖像和來自異質傳感器數據的能力使這項技術在軍事和國防應用中特別有趣。然而,這些機器學習技術并不是為了與智能對手競爭而設計的;因此,使它們如此有趣的特性也代表了它們在這一類應用中的最大弱點。更確切地說,輸入數據的一個小擾動就足以損害機器學習算法的準確性,并使其容易受到對手的操縱--因此被稱為對抗性機器學習。

對抗性攻擊對人工智能和機器人技術的穩定性和安全性構成了切實的威脅。這種攻擊的確切條件對人類來說通常是相當不直觀的,所以很難預測何時何地可能發生攻擊。此外,即使我們能估計出對手攻擊的可能性,人工智能系統的確切反應也很難預測,從而導致進一步的意外,以及更不穩定、更不安全的軍事交戰和互動。盡管有這個內在的弱點,軍事工業中的對抗性機器學習話題在一段時間內仍然被低估。這里要說明的是,機器學習需要在本質上更加強大,以便在有智能和適應性強的對手的情況下好好利用它。

2 人工智能系統是脆弱的

在很長一段時間里,機器學習研究人員的唯一關注點是提高機器學習系統的性能(真陽性率/敏感度、準確性等)。如今,這些系統缺乏穩健性的問題已不容忽視;許多系統已被證明非常容易受到蓄意的對抗性攻擊和/或操縱。這一事實使它們不適合現實世界的應用,特別是關鍵任務的應用。

一個對抗性的例子是,攻擊者故意設計了一個機器學習模型的輸入,以導致該模型犯錯。一般來說,攻擊者可能無法接觸到被攻擊的機器學習系統的架構,這被稱為黑盒攻擊。攻擊者可以利用 "可轉移性 "的概念近似于白盒攻擊,這意味著旨在迷惑某個機器學習模型的輸入可以在不同的模型中觸發類似的行為。

最近針對這些系統的對抗性攻擊的演示強調了對抗性行為對穩定性影響的普遍關注,無論是孤立的還是互動的。

也許最廣泛討論的攻擊案例涉及圖像分類算法,這些算法被欺騙成 "看到 "噪聲中的圖像,即隨機產生的不對應于任何圖像的白噪聲被檢測為圖像,或者很容易被像素級的變化所欺騙,因此它們將一輛校車分類為鴕鳥,例如。同樣,如果游戲結構或規則稍有改變,而人類不會受到影響,那么表現優于人類的游戲系統(如國際象棋或AlphaGo)就會突然失敗。在普通條件下運行良好的自動駕駛汽車,只要貼上幾張膠帶,就會被誘導轉向錯誤的車道或加速通過停車標志。

3 人工智能在軍事上的應用

許多北約國家利用人工智能和機器學習來改善和簡化軍事行動和其他國家安全舉措。關于情報收集,人工智能技術已經被納入在伊拉克和敘利亞的軍事行動中,其中計算機視覺算法被用來檢測人和感興趣的物體。軍事后勤是這一領域的另一個重點領域。美國空軍使用人工智能來跟蹤其飛機何時需要維護,美國陸軍使用IBM的人工智能軟件 "沃森 "來預測維護和分析運輸請求。人工智能的國防應用還延伸到半自主和自主車輛,包括戰斗機、無人機或無人駕駛飛行器(UAV)、地面車輛和船舶。

人們認為對抗性攻擊在日常生活中相對罕見,因為針對圖像分類算法的 "隨機噪音 "實際上遠非隨機。不幸的是,對于國防或安全技術來說,這幾乎是不可能的。這些系統將不可避免地被部署在對方有時間、精力和能力來開發和構建正是這些類型的對抗性攻擊的環境中。人工智能和機器人技術對于部署在敵人控制或敵人爭奪的地區特別有吸引力,因為這些環境對于我們的人類士兵來說是最危險的環境,在很大程度上是因為對方對環境有最大的控制。

在意識到人工智能發展和應用的技術領先的重要性后,北約于2020年在多國能力發展運動(MCDC)下啟動了人工智能、自動化和機器人技術的軍事用途(MUAAR)項目。該項目的范圍是開發概念和能力,以應對開展聯合聯盟行動的挑戰,并對其進行評估。項目的目標是評估可能受益于人工智能、自動化和機器人技術的當前和未來的軍事任務和功能。它還考慮了效率和成本節約方面的回報。

在國防應用中,對抗性地操縱機器學習分類器所帶來的危險的例子很多,嚴重程度各不相同。例如,致命的自主武器系統(LAWS)可能會將友軍戰車誤認為是敵軍戰車。同樣,一個爆炸裝置或一架敵方戰斗機可能會被錯誤地識別為一塊石頭或一只鳥。另一方面,知道人工智能垃圾郵件過濾器跟蹤某些單詞、短語和字數進行排除,攻擊者可以通過使用可接受的單詞、短語和字數來操縱算法,從而進入收件人的收件箱,進一步增加基于電子郵件的網絡攻擊的可能性。

4 結論

綜上所述,人工智能支持的系統可能會因為對抗性攻擊而失敗,這些攻擊是故意設計來欺騙或愚弄算法以使其犯錯的。這種攻擊可以針對分類器的算法(白盒攻擊),也可以通過訪問輸入來針對輸出(黑盒攻擊)。這些例子表明,即使是簡單的系統也能以意想不到的方式被愚弄,有時還可能造成嚴重后果。隨著對抗性學習在網絡安全領域的廣泛應用,從惡意軟件檢測到說話人識別到網絡物理系統再到許多其他的如深度造假、生成網絡等,隨著北約增加對自動化、人工智能和自主代理領域的資助和部署,現在是時候讓這個問題占據中心位置了。在將這些系統部署到關鍵任務的情況下之前,需要對這些系統的穩健性有高度的認識。

已經提出了許多建議,以減輕軍事環境中對抗性機器學習的危險影響。在這種情況下,讓人類參與其中或在其中發揮作用是至關重要的。當有人類和人工智能合作時,人們可以識別對抗性攻擊,并引導系統采取適當的行為。另一個技術建議是對抗性訓練,這涉及給機器學習算法提供一組潛在的擾動。在計算機視覺算法的情況下,這將包括顯示那些戰略性放置的貼紙的停車標志的圖像,或包括那些輕微圖像改變的校車的圖像。這樣一來,盡管有攻擊者的操縱,算法仍然可以正確識別其環境中的現象。

鑒于一般的機器學習,特別是對抗性機器學習,仍然是相對較新的現象,對兩者的研究仍在不斷涌現。隨著新的攻擊技術和防御對策的實施,北約軍隊在關鍵任務的行動中采用新的人工智能系統時需要謹慎行事。由于其他國家,特別是中國和俄羅斯,正在為軍事目的對人工智能進行大量投資,包括在引起有關國際規范和人權問題的應用中,北約保持其戰略地位以在未來戰場上獲勝仍然是最重要的。

作者

Elie Alhajjar博士是美國陸軍網絡研究所的高級研究科學家,同時也是紐約州西點軍校數學科學系的副教授,他在那里教授和指導各學科的學員。在來到西點軍校之前,Alhajjar博士曾在馬里蘭州蓋瑟斯堡的國家標準與技術研究所(NIST)從事研究。他的工作得到了美國國家科學基金會、美國國立衛生研究院、美國國家安全局和ARL的資助,最近他被任命為院長的研究人員。他的研究興趣包括數學建模、機器學習和網絡分析。他曾在北美、歐洲和亞洲的國際會議上展示他的研究工作。他是一個狂熱的科學政策倡導者,曾獲得民用服務成就獎章、美國國家科學基金會可信CI開放科學網絡安全獎學金、Day One技術政策獎學金和SIAM科學政策獎學金。他擁有喬治-梅森大學的理學碩士和數學博士學位,以及圣母大學的碩士和學士學位。

付費5元查看完整內容

摘要

盡管在特定案例中為決策辯護的論據一直是人工智能和法律的核心,但隨著黑盒機器學習方法的流行,它最近已成為一個緊迫的問題。在本文中,我們回顧了人工智能和法律領域對法律論證的理解,并指出了機器學習方法可以為法律論證做出貢獻的最合適的方式。我們確定了一些必須探索的關鍵問題,以便為合法的 ML 系統提供可接受的解釋。這提供了我們當前研究項目的背景和方向。

付費5元查看完整內容

摘要

可解釋的人工智能(XAI)提供了克服這一問題的手段,它基于有關深度學習(DL)算法結果的額外補充信息。雖然完全透明對于復雜的DL算法來說仍然是不可行的,但解釋有助于用戶在關鍵情況下對AI信息產品進行判斷。應該指出的是,XAI是透明度、因果關系、可信度、信心、公平、信心和隱私等方面的總稱。因此,基本的方法論是多方面的。一種已經流行的方法是局部可解釋模型-預知解釋(LIME)方法,因為它可以很好地應用于各種應用中的不同模型。在本文中,LIME算法是在戰略運營的決策建議背景下進行研究的。在簡單介紹了其概念后,介紹了文獻中的應用。然后,一個戰略博弈的場景被認為是軍事戰爭的替代環境。一個基于DL的國際象棋人工智能被做成 "可解釋的",以評估信息對人類決定者的價值。得出了與戰略混合行動有關的結論,這反映了所提出的方法的局限性。

引言

根據設想,未來戰略戰爭的決策將在很大程度上受到基于人工智能(AI)方法的信息產品的影響。特別是混合作戰,是在一個高維和變異的環境中進行的,在這種環境中,對潛在的威脅和機會的評估是人類操作者難以掌握的,戰略規劃必須納入異質的、多功能的和高容量的數據源。因此,基于人工智能方法的算法產生的分類、預測和建議在這種復雜的場景中變得越來越重要。在過去的幾年里,人工智能的方法已經獲得了巨大的發展,有大量的創新和令人尊敬的成果,可以從大型數據集中獲得更高層次的信息。然而,深度學習(DL)方法的一個主要缺點是其固有的黑箱屬性,即由于計算模型的復雜性,其結果是不透明的。例如,后者可能有數百個層和數百萬個參數,這些參數是在訓練階段通過算法發現和優化的。因此,即使結果是準確的,用戶也沒有機會理解它或掌握輸入數據的因果部分。這反過來又會影響到用戶對輔助設備的信任,在兩個方向上都是如此。這個問題在某些民事應用中起著次要的作用,例如語音識別,它經常被應用于與設備的互動,因為除了體面的失望之外沒有潛在的風險。對于其他非常具體的任務,如手寫字符識別,DL算法的性能超出了人類的平均水平,這意味著失敗的可能性很小,因此關于因果關系的問題可能成為附屬品。然而,在許多軍事應用中,當涉及到與人工智能的互動時,人類的信任是一個關鍵問題,因為錯誤的決定可能會產生嚴重的后果,而用戶始終要負責任。這實際上是兩方面的。一方面,操作者往往需要了解人工智能產品的背景,特別是如果這些產品與他或她自己的本能相悖。另一方面,不可理解的技術會對算法信息產品產生偏見,因為很難確定在哪些條件下它會失敗。因此,適當的信任程度可能很難計算。

可解釋的人工智能(XAI)是向黑盒人工智能模型的用戶提供 "透明度"、"可解釋性 "或 "可解釋性 "的方法的集合。這些術語幾乎沒有一個共同的定義,但許多出版物提到了:

  • 透明度是指人類跟蹤和理解模型創建過程的可能理解程度。這就是從數據中提取信息,轉化為推理參數的表現形式。DL前饋網絡由于其基于大數據集的迭代學習過程和錯誤向各層的遞歸傳播而缺乏這一特性。
  • 可解釋性是指對模型本身的理解程度,即從輸入數據到預測結果的信息流可以被理解。由于涉及的參數數量和層的層次結構,這對標準網絡來說是不可行的。
  • 可解釋性是指對特定預測結果進行解釋的可能性程度。也就是說,用戶可以看到與輸入數據的一致性,在某種程度上可以看到是否存在因果關系。

XAI不能完全 "解釋 "DL模型,然而,它為工程師或操作員提供了更好地理解特定AI產品背后的因果關系的手段。而且很多時候,這可以幫助看到,從合理的因果關系鏈暗示算法決策或預測的意義上來說,該模型是否是合理的(或不是)。因此,XAI可以成為人工智能模型工程的一個重要工具,用于安全方面的驗證,甚至用于認證過程,以及為操作員提供額外的信息,以支持明智的決策。

雖然關于XAI的大多數文獻都集中在圖像識別的方法上,但這些結果很難轉化為基于特定挑戰性競爭形勢的戰術和戰略決策領域。在本文中,我們研究了人工智能模型在棋盤評估中的可解釋性。對更復雜的軍事戰略模擬的一些影響進行了討論。

本文的結構如下。在下一節中,簡要介紹了選定的XAI方法。然后,這些方法之一(LIME)被應用于棋盤評估問題,以證明在支持信息方面的解釋的質量。在最后一節,得出了結論,并討論了對更復雜的戰爭博弈和模擬的概括。

付費5元查看完整內容

作者

Erik Lin-Greenberg:麻省理工學院
Reid B.C. Pauly:布朗大學
Jacquelyn G. Schneider:斯坦福大學

摘 要

政治科學家越來越多地將兵棋推演融入他們的研究。通過部署原創游戲或利用檔案兵棋材料,研究人員可以研究難以觀察證據的罕見事件或主題。然而,學者們對如何將這種新的方法論應用于政治科學研究幾乎沒有相關指導。本文評估了政治科學家如何將兵棋推演作為一種學術探究的方法,并著手建立國際關系中兵棋推演的研究議程。我們首先將兵棋推演與其他方法論區分開來,并強調它們的生態有效性。然后,我們繪制了研究人員如何構建和運行自己的游戲或從檔案兵棋推演中提取理論開發和測試的圖表。在此過程中,我們解釋了研究人員在使用兵棋推演進行研究時如何解決招募、偏見、有效性和普遍性問題,并確定評估兵棋推演作為調查工具的潛在好處和缺陷的方法。我們認為,兵棋推演為政治科學家研究國際關系子領域內外的決策過程提供了獨特的機會。

關鍵詞

兵棋推演,博弈,方法論,檔案,實驗,網絡,新興技術,核擴散

圖 兵棋推演開發指導框架

1 背 景

人類行為和決策是國際關系 (IR) 中最持久難題的核心。然而,有關決策的數據很難獲得,特別是涉及罕見事件以及與安全和外交決策相關的精英決策者。近年來,兵棋推演作為一種產生和獲得這些行為洞察力的方式重新燃起(Bartels,2020 年;Colbert 等人,2017 年;Dorn 等人,2020 年;Hirst,2020 年;Jensen 和 Valeriano , 2019 ; Pauly, 2018 ; Reddie 等人, 2018 ; Schneider, 2017)[1]。作為政策制定者的領地,國際關系學者開始利用歷史兵棋推演中的檔案數據,并運用自己的兵棋推演來測試決策和沖突動態的理論。總之,這個嶄露頭角的學術問題使用兵棋推演來探索支撐外交政策決策的機制和邏輯。

關于此問題快速增長的研究興趣是三個因素的產物。首先,冷戰時期國防兵棋推演的解密為學者們提供了新的和獨特的檔案材料,以更好地了解有關核使用和沖突升級等主題的歷史決策。其次,在過去的二十年中,政治科學家越來越多地轉向綜合數據生成過程,例如調查和實驗室實驗(Hyde,2015 年)。這種行為轉向強調了實驗設計,政治科學家在他們自己的游戲中應用了這種設計。第三,政治科學家對理論背后的微觀基礎越來越感興趣(Kertzer,2017)。通過闡明決策過程,兵棋推演為研究人員提供了一種新的方法論工具,用于探索和測試 IR 理論所依賴的機制,可能比其他研究方法提供更深入的見解。

兵棋推演可能為學者們提供了一種很有前途的工具,可以以創造性的方式回答問題,但在該領域采用兵棋推演方法或數據之前,我們需要更好地了解博弈對政治科學的承諾和陷阱。兵棋推演與其他研究方法有何不同?兵棋推演可以產生哪些類型的見解和數據,學者如何最好地利用它們進行研究?研究人員在設計自己的游戲時應該考慮什么?將兵棋推演作為 IR 研究的一種方法應該解決哪些方法問題?

本文繪制并評估了政治科學家如何將兵棋推演作為一種學術探究的方法,并著手制定 IR 兵棋推演的研究議程。我們探索研究人員現場兵棋推演的發展以及使用檔案兵棋推演材料來產生對決策的見解。我們考慮了博弈對理論開發和測試的效用;檢查偏見、有效性和普遍性問題;并描述博弈如何闡明支撐核心 IR 理論的微觀基礎。

文章分五個部分進行。首先,我們定義兵棋推演并確定不同的博弈類型。其次,我們回顧了一系列關于兵棋推演價值的主張,這些主張將其與其他政治科學研究方法區分開來。第三,我們討論了研究人員如何以社會科學規則為指導,評估設計選擇的成本和收益。第四,我們描述了檔案中出現的歷史兵棋推演材料,如何最好地使用這些文獻證據,并確定歷史兵棋推演可以教給我們哪些關于研究人員現場兵棋推演的最佳實踐。最后,我們概述了兵棋推演研究議程,探索兵棋推演如何補充其他研究方法,為正在進行的辯論做出貢獻,并提出具體問題,以幫助研究人員更好地理解可以從兵棋推演中得出的推論

2 什么是兵棋推演?

兵棋推演的使用可以追溯到幾千年前,古羅馬、早期伊拉克和中國都有兵棋推演的證據(Caffrey,2019 年)。隨著普魯士開發的Kriegspiel棋盤游戲,兵棋推演在現代戰爭行為中發揮了核心作用,這是一種模擬戰斗訓練軍官的棋盤游戲(Schuurman,2019年;Wilson,1968年)。一個世紀后,美國在第一次世界大戰和第二次世界大戰期間將兵棋推演用于軍事規劃,成為海軍在太平洋地區取得成功的關鍵部分(Lillard,2016年)。在冷戰期間,美軍再次轉向兵棋推演來了解核革命的影響(Pauly, 2018;Schelling, 1987)。柏林墻倒塌后,美國的國防兵棋推演仍在繼續,旨在測試有關戰爭和援助采購決策的新想法(Krepinevich和Watts,2015年)。

盡管發展歷史悠久,但并不清楚什么是“兵棋推演”(Sepinsky,2021年)。雖然兵棋推演是為了準備戰斗而出現的,但它們的用途超出了對戰爭的研究。政府使用游戲來模擬自然災害和評估經濟合作(Abbasi等,2012;Smith和Bell,1992);商業顧問使用兵棋推演來測試新的商業戰略(Oriesek和Shwarz,2008年);學者應用游戲來研究人類行為如何影響各種社會和政治現象(Banks等人,1968年;Camerer,2011 年;Fiorina 和 Plott,1978 年)。例如,Thomas Schelling 關于強制的工作在很大程度上受到他設計的國防部兵棋推演的啟發(Schelling,1987 年),而 Schelling 的同時代人使用模擬來探索沖突和核使用(Bloomfield 和 Whaley,1965 年;Brody,1963 年;Hermann,1967年)。此后,學者們使用游戲中嵌入實驗來測試對沖突引發的解釋(Johnson等人,2006 年;McDermott 等人,2008 年)以及國內政治討價還價(Hamman等人,2011 年;Huckfeldt等人,2014年)。最近,政治科學家使用兵棋推演來研究數據稀少的現象,例如新興技術對IR的影響(Jensen and Banks, 2018; Jensen and Valeriano, 2019; Lin-Greenberg, 2020; Pauly, 2018; Reddie et al., 2018; Schneider, 2017; Schneider et al., 2021)。

雖然通常被稱為“模擬”或“演習”,但兵棋推演不同于計算機模擬戰斗、以實際軍隊為特色的實地演習或有組織的頭腦風暴會議。此外,大多數傳統兵棋推演也不是旨在研究因果關系的實驗室實驗。相反,兵棋推演是具有四個特征的交互式事件:人類玩家、沉浸在場景中、受規則約束以及受基于結果的驅動

首先,兵棋推演涉及人類玩家。正如Perla (1990 : 164) 解釋的那樣,“兵棋推演是人類互動的練習。它的長處是探索人類決策的作用和潛在影響” 。這種人類特征使得兵棋推演成為因變量或假設因果機制與人類行為有關的研究的理想選擇。事實上,博弈可以幫助闡明微觀基礎,或源自個體人類行為的較低層次的機制,它們是許多學術理論的基礎(Kertzer,2017年)。兵棋推演的人為因素將它們與計算機模擬或計量經濟學“博弈”區分開來,其中模型模擬假定人類行為。

其次,兵棋推演將人類參與者置于模擬現實世界決策的場景中(Pettyjohn,2019年)。現實的表示和環境的整合產生了兵棋推演場景的厚度,并將它們與越來越多地用于 IR 研究的實驗室和調查實驗區分開來。這些模擬的決策環境,類似于參與者經常體驗的環境,可以誘導玩家的行為方式與他們在相似的現實世界環境中的行為密切相關[2]。兵棋推演設計師必須仔細平衡抽象,這使游戲更容易執行,現實主義是兵棋獨有的,并可能最終增加游戲發現的穩健性。

第三,兵棋推演具有規定人類玩家如何與場景互動的規則。規則可能是嚴格的,其中玩家有一組有限的動作,或者允許自由博弈,玩家幾乎沒有限制。這些規則可以塑造玩家的行為和結果,最終影響觀察者從博弈中得出的結論。因此,規則會產生復雜的設計權衡。例如,免費游戲會使復制變得困難,而僵化游戲更有可能不自然地限制結果。盡管規則是博弈與許多模擬、模型和實驗共有的特征,但兵棋推演(尤其是具有多個動作、玩家或團隊的兵棋推演)通常使用更復雜的規則來管理團隊如何互動,同時允許更廣泛的行為選擇,因此,導致結果差異更大。

兵棋推演區別于大多數其他國際關系研究方法的第四個特征是其基于結果的產出的經驗性質。正如巴特爾斯所說,兵棋推演必須讓人類玩家“沉浸在基于一組隱含或明確規則的競爭環境中,應對其行為的潛在后果”(Bartels,2020)。這些后果,例如“輸掉”一場兵棋推演或在前一輪做出的決定會影響下一輪,被認為會激勵參與者更深入地考慮他們的決定。在更常見的研究方法中,例如調查實驗,參與者通常不會面對真實或模擬的后果。兵棋推演,在他們最好的情況下,超越了玩家的“游戲”結果,以感受和內化他們行為后果。最后一個特征的成功與游戲設計師在前三個特征之間進行權衡有關,包括使用正確的玩家、創建適當的場景和建立有用的規則。

總之,兵棋推演是互動場景,讓人類玩家沉浸其中,他們根據給定的規則做出決定,并對他們的選擇的后果做出反應。這四個特征的變化導致了各種看起來截然不同的“兵棋推演”。例如,兵棋推演包括棋盤游戲、少數玩家參與的戰術桌面演習,以及數百名參與者參與的政治軍事游戲。它們可以面對面、虛擬或使用某種混合組合進行,并具有不同的規則(表1)。學者們需要了解這些博弈特征如何影響可以從博弈中得出的關于 IR 理論和決策的結論;我們將在后續部分中探討。

表1 博弈的特征

3 為什么需要兵棋推演?

上面我們概述了兵棋推演是什么,但為什么研究人員會選擇兵棋推演而不是其他方法或數據源?下面,我們確定了關于兵棋推演作為研究決策的研究工具有用性的四個命題:(1)兵棋推演比其他方法更能讓研究對象身臨其境,(2)經常玩兵棋推演的精英參與者使得比其他方法更接近實際決策者,(3)參與者之間的交互更好地代表了現實世界的決策,以及(4)兵棋推演向玩家展示了他們自己決策的后果。總之,這些命題表明,使用和分析兵棋推演的主要價值不是生成關于結果的新的或更好的數據,而是理解導致這些結果的行為和選擇。兵棋推演不能預測沖突或危機中會發生什么,但它們可以告訴我們為什么以及如何發生一種結果或另一種結果。雖然在從業者社區中被廣泛接受(Bartels, 2020; Oberholtzer et al., 2019; Perla, 1990; Perla and McGrady, 2011; Wong et al., 2019),但這些關于兵棋推演作為研究工具的價值的假設大多未經檢驗。我們在本節中列出它們,以開始概述關于兵棋推演與其他方法和檔案數據源的獨特作用的前瞻性研究議程。在結論中,我們評估了研究人員如何研究這些命題,并描述了學者可能使用兵棋推演解決的問題類型。

總體而言,這四個命題中的每一個都提高了兵棋推演作為一種研究方法的生態有效性。生態效度(心理學研究中的一個常見概念),關注測試條件下的行為反映現實世界行為的程度。換句話說,更生態有效的研究設計應該對實際行為提供更可靠的見解。為了獲得高生態效度,心理學家關注三個關鍵維度。首先,測試環境應該包括在自然環境中發生的特征——例如時間限制和干擾——而不是表現出精簡實驗室設置的更加不切實際的性質。二、刺激——例如信息注入——在模擬環境中應該與現實世界的刺激相似。第三,參與者在測試中可以做出的行為反應和行為應該代表他們在現實世界中可以做出的行為。來自過于不切實際或涉及不自然刺激和行為反應的環境的測試信息可能會限制從研究中得出結論(Gouvier等,2014年)。

在兵棋推演中實現高生態有效性需要模擬條件,以反映真正的政策制定者在實際危機中必須應對的壓力、激勵和信息環境的類型。然后,這些條件允許參與者提出類似于他們在現實世界中提出的解決方案。如果兵棋推演具有較高的生態效度,學者們應該能夠利用兵棋推演真實地模擬和研究外交政策決策過程。事實上,生態有效性使其他領域的專業人士能夠將博弈和模擬用于培訓目的。例如,使用準確的現實世界參數進行編程的飛行模擬器具有很高的生態有效性,并且是一種更便宜、更容易、更安全的方式來訓練飛行員并了解他們的決策[3]。雖然跨學科的文獻繼續對其定義進行辯論(Baumeister 和 Vohs,2007;Brunswik,1947:276;Schmuckler,2001),但我們認為生態效度是外部效度的關鍵要素——研究結果在研究背景之外的普遍性(Findley等人,2020年)[4]。

3.1 命題 1:兵棋推演比其他方法更具沉浸感,因此在生態上更有效

作為兵棋推演專家Perla 和 McGrady (2011: 113) 斷言:兵棋推演“吸引玩家參與并構建他們的故事;他們確實將玩家置于故事之中。” 這是兵棋推演優于其他不復制真實世界決策環境的方法的論據。就生態效度的維度而言,沉浸式旨在提供一個有效刺激的有效測試環境。理想情況下,玩家沉浸在其中,以至于他們暫時忘記或忽略了他們正在被研究的事實,而是關心他們在兵棋推演中的進展。因此,兵棋推演尋求創造沉浸式環境,在這種環境中,參與者不扮演游戲玩家的角色,而是內化他們過去和未來對類似現實生活場景的反應。從歷史上看,兵棋推演反映了政府參與者的真實經歷。在古巴導彈危機期間,一位曾參與過托馬斯·謝林兵棋推演的國防官員表示,“這場危機確實證明了Schelling的兵棋推演是多么逼真”,一位同事對此回應說,“不”,兵棋推演“證明了這場古巴危機是多么不切實際”(Schelling and Ferguson, 1988: 10)。

當然,兵棋推演可能會被剝奪細節并失去其身臨其境的品質,但隨后該活動是否仍可被視為兵棋推演就成了問題。例如,調查實驗優先考慮內部有效性和控制,但往往缺乏這種沉浸式互動或實際決策設置的應激源(Barabas和Jerit,2010 年)。相比之下,通常持續數小時或數天并具有大量細節的博弈,可以通過提供逼真的場景、創造參與者可以與另一個團隊贏或輸的條件以及允許參與者之間的擴展互動來引起參與者的支持。投入時間和精力參與其中的玩家,可能會比不那么投入的研究對象更好地理解場景并更關心其結果。因此,他們可能會更周到地對給定的場景做出反應。此外,兵棋推演通常要求玩家在信息過多(或過少)、時間限制和情感負擔的情況下做出決策,從而產生了 McDermott (2002) 所說的“實驗現實主義”。事實上,學者們發現“綜合體驗”向研究對象展示身臨其境的小說或視頻,會觸發類似于現實世界決策的認知過程(Daniel 和 Musgrave,2017;Miller,2020)。最后,兵棋推演超越了許多調查實驗,要求參與者扮演決策者的角色并回答我會做什么,而不是我會支持其他人做什么?[5]

3.2 命題 2:更具代表性的樣本使兵棋推演更具生態有效性

兵棋推演可能比其他研究方法提供更多的見解,僅僅是因為它們傳統上招募了包括決策者和軍官在內的專家參與者。學者們通常認為,當研究樣本反映感興趣的人群時,研究提供了最有用的見解(Dietrich 等人,2021;Hyde,2015;McDermott,2002)。然而,國際關系學者越來越多地轉向更大的在線和學生便利樣本進行實證研究。雖然這種方法允許進行可重復的統計分析,從而克服因果推理的基本問題并能夠研究公眾偏好,但如果受試者不能代表實際的政策制定者,便利樣本可能會產生對政府決策的有限見解(Dietrich 等人,2021 年);Oberholtzer 等人,2019 年)。

相比之下,精英兵棋推演的特點通常與便利樣本相反——參與者被故意招募是因為他們的實質性知識或他們在現實世界決策中的經驗。這種招募策略可以產生高度真實的樣本。然而,即使是這些現實的樣本也可能包括顯著影響決策的經驗和世界觀的變化。例如,奧巴馬政府的國家安全專家在做決定時會考慮與特朗普政府的國家安全專家相同的因素嗎?因此,這些精英研究對象的代表性可能會提高兵棋推演的生態有效性,但是——如果只招募有限數量的參與者來玩少量的兵棋——研究人員仍然需要清楚地解釋從研究結果中得出的推論的局限性。

即使精英參與者的數量很少并且有針對性的招募,精英兵棋推演參與者的獨特性仍然可以提供重要的分析見解。例如,參與者在游戲中的審議可能會揭示精英在做決定時強調或不強調的因素。例如,規范或道德對于沖突決策有多重要?參與者將哪些國際政治信念帶入決策?他們在做決定時是否討論過心智模型、歷史類比或其他啟發式方法?由于精英參與者在玩研究人員和政府贊助的游戲時可以利用他們的實質性知識和專業知識,因此這些游戲的見解對于 IR 理論測試可能比非專家玩的游戲更有用。

3.3 命題 3:兵棋推演中的群體互動比收集個人偏好的實驗或調查更能代表現實世界的決策

大多數兵棋推演和其他合成數據生成過程之間的一個顯著區別是群體在決策中的作用。兵棋推演本質上是多玩家的努力,而大多數調查實驗和許多實驗室實驗都收集個體參與者的反應。最終在兵棋推演期間形成決策的團隊內部和團隊之間的玩家互動非常重要,因為現實世界的外交政策決策很少由一個人做出(Kerr 和 Tindale,2004 年;Mintz 和 Wayne,2016 年;Saunders,2017 年)。大多數兵棋推演中的組級交互提供了一個獨特的機會來研究決策如何展開,并通過比其他研究方法更好地模擬實際決策過程和行為反應來潛在地提高生態有效性。情緒、狂妄自大、溝通不暢、地位、聲譽、多樣性、性別、經驗和鷹派等因素會影響兵棋推演期間的團隊動態和決策,讓研究人員有機會探索這些重要(但難以收集)的變量如何影響外圍策略 ( Wang et al., 2020)。兵棋推演討論還可以揭示團隊如何根據團隊成員的性格或特征進行自我排序以及分配或推遲決策責任。事實上,一位在 1960 年兵棋推演中的精明報告員指出,政策重量級人物沃爾特·羅斯托(Walt Rostow)在美國隊“做了大約 75% 的談話”((Bloomfield,1960 年)。相比之下,調查和許多實驗往往忽視群體動態,并通過衡量個人層面的偏好來概括外交政策決策。

3.4 命題 4:兵棋推演向玩家展示后果,創建關于結果和決策的更生態有效的數據

博弈可能更有可能反映現實世界的決策,因為它們要求玩家做出響應或導致基于結果的輸出的選擇[6]。兵棋推演的這種體驗品質,要求玩家在模擬挑戰之后調整策略,超越了對迭代后果或未來陰影的擔憂。反對派將政治-軍事信號作為“感受對方可能接受或拒絕的過程”(Schelling 和Ferguson, 1988: 1)所做的遠不止決定如何在實驗室中分配一美元。事實上,這些決策邏輯可能類似于 Hayward Alker 所描述的參與囚徒困境游戲的玩家的“內心獨白”,揭示了人類如何解釋自己和他人的行為(Alker,1985 年)。

首先,兵棋推演通常允許玩家“贏”或“輸”,至少相對于其他參與者而言。正如一位兵棋推演實踐者所說,“兵棋推演是一種人類活動。當人們在游戲中輸球時,他們會感到失落。當他們獲勝時,他們會很興奮”(McGrady,2019)。在這里,結果的引入再次以可以塑造行為反應的方式提供了一個更生態有效的測試環境。其次,這個命題斷言,這種失落或興奮感的強度隨著研究對象在他們的策略上投入的努力而增加。將一群人長時間放在一起可以通過將玩家更多地投入到游戲中來增加這些后果的顯著性,而不是通過在線、電話或郵件進行的調查實驗。因此,游戲允許研究人員檢查參與者為獲勝而采取的權衡、選擇和風險。

這四個命題表明,兵棋推演為研究人員提供了在現實世界數據有限的情況下進行決策的寶貴見解。至關重要的是,兵棋推演的價值不在于確定結果,而在于闡明決策者如何得出這些結果。盡管兵棋推演本質上是對現實的模擬,但我們相信其身臨其境的性質、群體互動、后果以及精英樣本的使用比其他研究方法更準確地模擬了現實世界的決策環境,從而提高了研究結果相對于其他方法的生態有效性。任何單獨的游戲設計都可能會強調某些主張而削弱其他主張——例如,片面的博弈可能會犧牲一些競爭精神,同時賦予群體互動特權——但兵棋推演保留了每個命題的一些價值。在接下來的部分中,我們將繪制出學者如何使用原始兵棋推演和使用檔案兵棋推演數據進行研究,并確定在設計游戲和分析游戲數據時如何駕馭這四個命題。

4 學者生成的兵棋推演

學者生成的兵棋推演最適用于回答有關人類決策的問題,無論是關于罕見事件還是難以獲得真實世界數據的主題。因此,使用學者生成游戲的現有研究傾向于回答有關新興技術和核武器的問題(Jensen and Valeriano, 2019; Lin-Greenberg, 2020; Reddie et al., 2018; Schechter et al., 2021; Schneider, 2017; Schneider et al., 2021)。然而,兵棋推演也可用于研究一系列國際關系主題,包括外交政策決策中的群體動態、決策中規范的強度、條約承諾在武力使用決策中的作用、軍事力量的發展和效用、經濟制裁、對威懾戰略相對有效性的看法以及危機信號的準確性。

在本節中,我們整合了來自專業兵棋推演和政治科學研究設計的最佳實踐,為學者們開發自己的兵棋推演提供了一個指導框架。在此過程中,我們概述了生態有效性、內部有效性和實施可行性之間的權衡。圖1總結了我們的主要設計建議。

圖1 游戲設計建議

4.1 游戲設計與迭代

兵棋推演開發的第一步是確定研究問題是否可以通過觀察或實驗設計得到最好的回答。觀察性游戲通常是獨立的事件,既不操縱玩家也不操縱他們面臨的場景。一個單一的觀察游戲通常會在定義的場景中揭示可能的結果,使這種類型的游戲最適合探索一般決策過程或產生假設[7]。相比之下,實驗性游戲通過改變感興趣的關鍵因素(例如有關場景的細節)來測試假設,從而創建“治療”和“控制”游戲,使研究人員能夠研究特定變量如何影響決策[8]。

游戲的類型通常會影響所需的迭代次數。實驗設計的游戲可能需要比觀察設計游戲更多的迭代,以評估實驗操作是否會導致決策趨勢。研究人員越來越多地部署數十到數百個實驗性游戲迭代(Jensen 和 Valeriano,2019年;Reddie等人,2018年;Schechter等人,2021年;Schneider 等人,2021年),以識別游戲中的趨勢并幫助確保發現不會偶然的結果。

4.2 參與者

對于觀察性和實驗性兵棋推演來說,比迭代更重要的是玩家選擇。在選擇樣本時,學者們應該問兩個問題:(1)我的研究問題是關于特定實體的決策還是關于人類決策?(2) 玩家將代表誰?

如果研究問題是關于特定實體做出的決策,那么在理想情況下,現實世界的決策者會在兵棋推演中“玩”自己。這樣的構造將是最生態有效的。然而,由于高級官員甚至很少有時間參加政府贊助的高調游戲,因此實踐者兵棋推演往往依賴于代理人,包括前政策制定者或在職的下級官員,他們具有足夠的主題和組織專業知識。一些研究人員參與的游戲依賴于這種類型的樣本,吸引了來自軍方、私營部門和政府的玩家(Lin-Greenberg, 2020; Schneider, 2017; Schneider et al., 2021)。研究人員還縮短了游戲時間或部署虛擬游戲,以減輕精英參與者的負擔。無論精英招募方法如何,研究人員都需要確定他們樣本的人口統計學或意識形態特征是否會限制從調查結果中得出的結論。例如,一個主要由幾十年前在政府任職的參與者組成的團隊的行為可能與最近任職的官員不同。

或者,如果研究問題是關于更一般的決策或人類行為——例如人類如何響應不同的信號或威脅——研究人員可能能夠證明招募更容易獲得的便利樣本是合理的(Goldblum 等人,2019年)。事實上,越來越多的研究表明,便利樣本的偏好通常與更具代表性或精英樣本的偏好相似(Berinsky 等人,2012 年;Kertzer,2020 年)。理想情況下,研究人員應盡可能招募更能代表感興趣的目標人群的樣本。然而,考慮到精英招募的兩大挑戰(Dietrich 等人,2021 年;Kertzer 和 Renshon,2022 年) 以及即使在精英人群中的重要變化,研究人員也不應該依賴“精英”作為參與者選擇的充分特征。相反,研究人員應該識別精英樣本和便利樣本中可能影響兵棋推演行為的特征,并研究數據以了解這些特征在兵棋推演中的影響。

研究人員面臨的一項特殊招募挑戰是在兵棋推演中尋找代表外圍決策者的參與者,這些兵棋以特定的盟軍或敵對行動者為特色。理想情況下,這些參與者應該對他們被要求代表的人物有深入的知識。這有助于確保他們在兵棋推演中的行動保持在行動者可能實際做出的合理決定的范圍內。然而,即使是專家也可能將他們自己的參考框架鏡像到外圍人物(Jervis,1976)。為了降低這種風險,研究人員可以嘗試招募實際上來自他們被要求代表的州的參與者。由于這并不總是可能的,從業者的游戲通常依賴于地區專家,包括學者和外交官。或者,兵棋推演設計師可以為扮演外圍人物的非區域專家提供詳細的賽前準備材料,甚至是一本規則書,說明外圍人物可能遵循的合理策略或原則。誠然,高手并不具備應對國外危機行為的水晶球,但這不是游戲的目的。設計師應該追求現實主義,而不是預測。在分析數據時,研究人員必須承認這些招聘挑戰可能如何影響參與者的行為。

參與者的數量受玩家在游戲中所代表的人的影響,因此也受團隊構建方式的影響。這種選擇應該根據研究問題是關注群體做出的決定還是特定個人的角色來決定。例如,在某些游戲中,研究問題詢問組織或團體的角色——例如軍事指揮部的互動——因此需要足夠多的玩家來模仿這些組織的功能。在其他情況下,玩家代表特定的角色——例如總統或內閣部長——或更抽象的職位不明確“官員”。在決定如何設計這些團隊以及是否分配特定角色時,研究人員應考慮研究問題如何影響玩家在游戲中做出的決策類型(Bartels 等人,2013 年:42-46)。例如,研究對核攻擊的反應的游戲可能需要代表多個機構的玩家,而不僅僅是國防機構。

游戲設計也會影響樣本量。例如,具有多種治療游戲的實驗性游戲通常比不太復雜的游戲需要更多的參與者。同樣,具有多面性或模擬詳細組織過程的游戲通常比單面或高度抽象的游戲需要更多的玩家。對于理想的參與者人數沒有硬性規定,但游戲應該包括足夠的參與者,以允許將兵棋推演與其他研究方法區分開來的互動。

4.3 規則:動作(moves)、隊數(sides)、裁決(adjudication)

研究人員接下來必須制定他們的游戲結構規則——有多少步數、多少邊(即團隊)以及游戲將包括多少裁決?首先,為了確定游戲需要多少輪(即動作),學者們應該詢問他們是對一次性決策(例如,反擊或不反擊的選擇)感興趣,還是對多個決策的結果感興趣(例如,長期危機或權力轉移)。額外的回合可以通過引入切實的結果來增強現實性,但也會削弱對混淆因素的控制,特別是在以多次并行迭代為特色的實驗游戲中。

研究人員還必須確定隊數(即多少團隊參加游戲)。單方面的游戲可能足以回答不取決于其他參與者的即時反應的問題——例如,我對恐怖襲擊的即時反應是什么?這些游戲需要較少的參與者和較簡單的裁決過程。相比之下,對于取決于對方反應的研究問題,例如策略對威懾的有效性,學者們應該考慮一個半邊的游戲,其中對方的行動由游戲裁判員編寫,或者兩個/涉及多隊玩家的多方比賽。這些提供了更大的活力,并允許研究人員探索演員之間的互動。然而,隊數越多,研究人員在多個游戲迭代之間的控制就越少。

大多數具有不止一個動作的游戲都需要游戲組織者的裁決。這種對回合之間結果的“裁判”會影響后續回合的展開。在具有多個游戲迭代的項目中,這可能會在游戲之間引入差異,從而導致游戲不再具有直接可比性。在某些情況下,跨博弈差異可能對研究人員有用——例如,研究危機早期階段的變化如何產生不同的下游效應。然而,這些差異可能會引入混雜因素,從而難以隔離第一輪之后引入的額外操作的影響。

學者們可以根據他們的研究目標從一系列裁決技術中汲取經驗。對比較大量游戲感興趣的研究人員可能會使用公式化的判斷——比如概率表或隨機生成的結果。這種方法允許跨游戲的標準化規則;但是,它會降低真實感。希望最大限度地提高玩家參與度的學者可以選擇免費游戲裁決,專家根據主題知識確定結果。這可能會為玩家創造一個更有活力的游戲,支持生態有效性,但可能會引入裁判者的偏見,使得難以在多個游戲中復制裁判,并增加現場比賽所需的裁判員數量。免費游戲還增加了隨機性,這會降低游戲多次迭代的可比性。

4.4 場景設計

與調查和實驗室實驗一樣,研究人員必須在他們的場景設計中平衡控制和現實主義,以構建一個實用但生態有效的測試環境。在決定提供多少有關場景和環境的信息時,通常需要在抽象和細節之間進行權衡。兵棋推演必須足夠逼真以捕捉現實世界決策的要素并在生態上有效,同時又足夠簡單以回答研究問題(Mutz,2011:65)。例如,參與者應該獲得多少關于危機前導的背景信息?參與者可以獲得多少關于對方團隊的能力和意圖的信息?

一個關鍵的設計選擇是是否在場景中列出實際的國家(Dafoe等人,2018年)。一方面,識別真實的狀態可能會創造一個更現實的場景,進而影響決策。但這種現實主義可能會導致政策制定者避免參與軍事演習,因為他們擔心泄露機密信息。或者,參與者可能會對這些國家產生偏見。另一方面,使用虛構的或不知名的國家可能會增加國家安全從業人員的參與,但限制了從發現中得出的推論。

一般來說,學者們應該傾向于針對特定案例的研究問題(例如美國如何應對伊朗贊助的網絡攻擊)的現實主義和具體性,并為適用于廣泛案例的更廣泛問題做出更抽象的場景選擇。例如,網絡攻擊與傳統攻擊的看法不同。可以肯定的是,相對于提供更多上下文細節的場景,過于抽象的小插曲可能會導致參與者做出可能削弱研究人員控制的假設。Brutger等人最近的研究表明,抽象和細節之間的權衡可能被夸大了,研究人員應該在設計兵棋推演場景時認識到這些問題。

4.5 數據收集和分析:捕獲動機(motivations)、交互(interactions)和決策(decisions)

最后,研究人員還必須制定一種策略來收集和分析兵棋推演期間產生的數據。兵棋推演數據可以分為兩種類型:結果型和協商型。結果數據識別玩家在游戲中做出的決策,通常在動作、響應計劃或其他正式數據輸入中捕獲。結果數據通常比記錄參與者交互的審議數據更容易收集。然而,如果沒有經過深思熟慮的數據,結果數據是不完整的。深思熟慮的數據揭示了決策的方式和原因,這可以幫助研究人員探索理論的微觀基礎。可以追溯豐富的審議數據,以了解想法是如何提出的、玩家如何反應以及團隊如何做出決策。結果數據和審議數據結合起來,可以解釋現象如何和為什么發生,反之,更多的概率評估可能發生的事情,這是許多實驗IR研究的共同特征。

在理想情況下,研究人員會逐字記錄所有參與者的互動和決定。在他們的在線兵棋推演中,Goldblum 等人(2019 年)通過數字化捕獲玩家決策和參與者之間的聊天消息來實現這一目標。研究人員還可以通過視頻或音頻記錄兵棋推演來捕捉參與者的語氣和肢體語言。然而,數字收集并不總是可行的。參與者可能不同意錄音,兵棋推演經常在禁止使用電子設備的環境中進行,環境噪音和串擾可能使錄音變得困難。因此,研究人員經常依靠研究助理來記錄審議并手動記錄團隊決策,這是從業者游戲中常見的過程。

然而,人類收集數據是一個固有的偏見過程。由于他們的背景,或者由于討論的速度,記錄者會寫下某些觀察結果并省略其他觀察結果(Emerson et al., 2011: 13)。此外,數據收集可能會產生霍桑效應,其中參與者會因為被觀察而改變他們的行為(Wickstr?m 和 Bendix,2000)。為了降低這些風險,研究人員可以指派多名研究助理來觀察每場比賽,允許進行三角測量,同時盡量讓記錄員不引人注目。為了準確捕捉游戲結果,研究人員可以指示參與者提交確定最終決定的表格。這些表格還可能要求參與者列出他們考慮的選項,并簡要解釋他們為什么選擇他們所做的行動,生成關于參與者對自己決策過程的看法的書面數據。最后,研究人員可以在團隊或個人層面進行賽后采訪或調查,以獲取有關指導決策的邏輯信息。為了衡量生態效度并改進未來的游戲,這些訪談和調查可能還會要求參與者描述兵棋推演如何模擬真實世界的決策環境。

在設計和分析兵棋推演時,研究人員必須確定分析單元。單元通常應位于與所研究假設相同的分析水平(Gerring,2012: 90–91)。如果被測試的理論與個人層面的信念或行為有關(例如關于內化規范),研究人員可能會使用兵棋推演者作為分析單元。這允許在游戲分析中評估玩家的背景或從屬關系如何影響他的行為。同樣,使用兵棋推演來研究群體動力學理論的項目可能會將團隊視為一個分析單元,從而使研究人員能夠解釋群體在將個人信念與團隊行為聯系起來方面的中介作用。然而,如果該理論更廣泛地涉及國家安全決策,研究人員可能會考慮使用博弈作為分析單元。一些研究,尤其是那些涉及多個游戲迭代的研究,可能包括多個分析單元,這些分析單元既可以進行內部比較,也可以進行交叉比較。

4.6 游戲設計過程圖解

在實踐中如何運作?為了演示兵棋推演設計過程,我們將介紹研究人員如何設計和部署國際危機兵棋推演系列(Schechter 等人,2021 年)。研究人員從一個研究問題開始:“網絡行動如何影響核穩定性?” 具體來說,他們想評估競爭對手的核指揮、控制和通信網絡(主要自變量)中的網絡漏洞和漏洞利用是否會影響使用武力的決策(因變量)。基于研究漏洞和漏洞利用的變化是否會影響決策的愿望,研究人員決定使用實驗方法。研究人員在“控制”和“治療”游戲中改變了漏洞和利用的可用性。

為了生成樣本,研究人員最初尋求外交政策、網絡和核政策方面的精英專業知識,但后來擴大了他們的人口,包括學生和便利樣本,以探索不同類型的專業知識和人口統計變量如何影響決策。在規則方面,研究人員選擇了一個相對簡單的游戲玩法結構,一招一式。這種簡單的結構允許團隊跳過裁決。正如研究人員解釋的那樣,“ICWG 優先考慮內部有效性和控制,但也試圖隨著時間的推移使用大量且異質的樣本進行迭代,以創建可概括的發現”(Schechter 等人,2021:6)。

最后,研究人員收集了定量和定性數據進行分析。游戲期間完成的響應計劃“移動表”捕獲了群體決策,而調查收集了數據以了解單個玩家的動機和對游戲中所采取行動的解釋。正如研究人員詳述的那樣:盡管響應計劃是由團隊集體制定的,但個別參與者可能對危機有不同的看法或對最佳行動方案的信念。這些調查旨在捕捉這些看法和信念。此外,該調查試圖捕捉群體動態如何影響響應計劃的完成(Schechter 等人,2021年)。

在設計他們的游戲時,研究人員做出了幾個明確的權衡。為了增加他們在三年內進行的迭代之間的游戲總數和控制游戲,研究人員做出的選擇可能會降低真實感和沉浸感。例如,使用單方游戲而不是多方游戲增加了游戲迭代的次數,但以現實主義為代價。同樣,使用單步游戲而不是多步游戲有助于增強控制力,但可能會限制研究人員探索更復雜的升級問題的能力。此說明的目的不是確定一組選擇是對還是錯,而是幫助未來的學者慎重思考兵棋推演中固有的權衡取舍。在下面的章節中,我們將評估與分析兵棋推演產生的數據相關的最佳實踐和挑戰。

5 兵棋推演檔案數據

除了開發自己的游戲外,學者們還可以使用歷史游戲中的數據。在 1950 年代后期,兩位研究人員所做的正是我們在本文中討論的內容:麻省理工學院 (MIT) 政治學家Lincoln Bloomfield和哈佛經濟學家 Thomas Schelling 著手設計社會科學兵棋推演 ( Bloomfield, 1984 : 784–785)。然而,當 1961年參謀長聯席會議創建了兵棋推演辦公室并引進了Schelling和Bloomfield的方法時,這些創新又回到了政府分類的混亂之下(Bloomfield,1963年)。

這些數據越來越多地可供 IR 研究人員使用(Pauly,2018;Emery,2021)。今天,可以在總統圖書館、中央情報局的 CREST 檔案館、美國在線解密文件、蘭德公司和麻省理工學院檔案館找到美國早期兵棋推演的解密記錄。這些數據來自高級決策者參與社會科學家兵棋推演的黃金時代,對于政治學理論檢驗來說已經成熟。由政府機構、智囊團、非政府組織和學者運營的最新游戲的數據也經常公開,包括由蘭德公司、海軍戰爭學院、海軍研究生院、哈佛貝爾弗中心發布的數據,并且越來越多地出現在定期復制材料中(Pauly, 2018; Schneider, 2017)。

無論是冷戰還是現代游戲——學者們應該如何使用檔案游戲數據來思考其比較優勢、內部、生態和外部有效性以及偏見?關于設計和分析未來游戲的最佳實踐,過去的游戲可以教給我們什么?

5.1 分析存檔游戲數據

與兵棋推演設計一樣,學者的研究問題將為他們的檔案游戲選擇提供信息。在某些情況下,研究人員可能會尋求解釋特定的歷史政策或危機決定,生成假設以針對歷史記錄進行測試(Levine等人,1991),或生成歷史反事實。在其他情況下,學者可能會尋求檢驗理論。

試圖了解特定歷史決策的學者可以使用兵棋推演來研究對政策過程的投入、決策者考慮的突發事件或機構如何游說。學者們應該更加關注從業人員兵棋推演的一個關鍵原因是,許多政策制定者使用兵棋推演為規劃和決策提供信息。因此,游戲選擇將與進行游戲的歷史背景相關聯。例如,了解約翰遜政府領導下的核政策或決策將受益于他的政府成員所玩的游戲。相比之下,如果研究人員對沖突或危機的一項新技術的影響感興趣,玩家的政治立場可能不那么重要,但玩家的專業知識可能仍然很重要。

如果研究問題涉及更普遍的國家行為模式——例如威懾何時起作用、領導人何時升級或危機如何失控——選擇特定的檔案兵棋推演記錄就類似于定性案例選擇。開放式的政治軍事兵棋推演,其中玩家對一系列治國之道工具擁有自由裁量權,可能更適合回答有關戰爭原因和后果及其限制的問題或測試理論。玩家在戰場上進行戰術行動的作戰兵棋推演可能更適合測試關于戰爭行為的安全研究理論。然而,學者們必須確保他們選擇的游戲確實考慮到了興趣的變化,因為有些兵棋推演可能會排除某些玩家的行動。例如,使用存檔游戲來研究核升級問題的研究人員應該確保,他們從中抽取的游戲不會禁止使用核武器。

學者們還必須確保檔案中呈現的數據類型有助于解決他們的研究問題。例如,如果學者們有興趣解析理論的微觀基礎機制,那么某些具有良好審議數據的歷史兵棋推演是最合適的。與大型游戲甚至現實世界事件的記錄相比,小型精英兵棋通常提供非常精細的定性證據,證明玩家選擇背后的動機和邏輯。許多冷戰兵棋推演數據甚至記錄了賽后舉行的私人討論的記錄。這些參與者的反思提供了在現實世界事件之后通常無法獲得的證據。

在極少數情況下,研究人員可能會在檔案中找到旨在提出與他們自己類似研究問題的游戲。即便如此,由于兵棋推演仍然是對現實的模擬,研究人員在分析發現時必須謹慎行事。例如,玩家是否將基于結果的輸出視為對現實世界的準確表示,還是將其視為限制生態有效性的“游戲主義”?參與者是否認為她是在為贏得比賽或解決危機而競爭,可以通過對理論發展和測試產生有意義的影響的方式塑造她的行為。因此,在可能的情況下,對理論測試和機制感興趣的研究人員應收集多個檔案兵棋推演進行跨游戲分析,以揭示行為模式,盡管各個游戲在設計、背景或玩家之間存在顯著差異。

不同兵棋推演收集、報告和總結審議數據的方式各不相同,研究人員對設計選擇了解得越多越好。研究人員必須適應幾種常見的偏見。就像采訪、日記或回憶錄一樣,兵棋推演檔案記錄并不代表對事件的完整和公正的描述。相反,這些數據提供了很好的證據,必須對這些證據進行評估和三角化。為了做到這一點,學者們應該認識到原始和處理過的戰局數據之間的區別。原始數據包括游戲行動或結果的定量和定性核算,玩家討論的文字記錄,或玩家體驗的調查或訪談。原始的戰局數據比處理過的數據更不容易受到系統偏差的影響,但也會受到完整性的影響(Bartels,2020:23-25)。

與原始數據相比,處理后的數據呈現出更完整的兵棋推演畫面。已處理的數據包括游戲設計者或管理員記錄游戲設計、玩家行為、結果、結論和政策建議的游戲摘要或報告。由于其完整性,研究人員起初可能更喜歡處理過的數據。然而,處理后的數據比原始數據更有可能表現出一些關鍵的偏差。游戲報告通常是高度政治化的文件,反映了行政人員的官僚動機,這對學者事后可能不透明。事實上,追蹤誰被告知(或沒有被告知)兵棋推演結果已被證明是過程追蹤者的有效數據(Pauly,2020)。例如,Greenstein和Burke (1990[1989]: 576)發現越南兵棋推演的悲觀結論從未在1960年代提交給美國總統辦公室。

這種偏見源于許多從業者游戲由機構“贊助”,這些機構使用游戲報告來驗證現有的記錄或理論計劃或證明預算和權限的合理性。例如,空軍贊助的兵棋推演得出的結論是國會應該為更多的轟炸機買單也就不足為奇了。另一方面,經過處理的數據對研究人員仍然很有價值,因為它們可以揭示有關兵棋設計的決策:場景、裁決和主題,以及原始設計者試圖學習的內容。此外,贊助商造成的偏見為學者們提供了一個機會,可以就外交政策制定中的組織和官僚競爭的政治問題提出研究問題。

其他兵棋推演的偏見可能不是其設計或贊助,而是其玩家。研究人員必須努力了解主機和玩家之間的關系。有些人可能會引入嚴重的霍桑觀察者效應,從而破壞測試環境的生態有效性。例如,考慮海軍研究生院與印度和巴基斯坦玩家進行的危機游戲(Khan et al., 2016)。乍一看,這些模擬似乎是研究南亞升級的絕佳機會。然而,在美國東道主在場的情況下,比賽有可能變得表演性強,每個地區的核大國都不是為了勝利而努力,而是將對方視為不負責任的。因此,雖然一些游戲服務于召集和教育決策者的重要目的,但尋求檢驗理論的研究人員需要了解玩家激勵和潛在的觀察者偏見。

最后,無論是原始的還是經過處理的,許多檔案兵棋推演數據都存在解密過濾器遺漏的偏差。這個問題并不是兵棋推演所獨有的,解密偏差對兵棋推演記錄的影響并不比類似的定性來源(例如在案例研究分析中經常使用的機密會議紀要、政策審查和情報評估)更嚴重(盡管國防組織經常選擇解密兵棋推演支持他們的預算或組織優先事項)。如果玩家在私人或匿名分類錄音中更公開地講話,分類也可以提高數據質量。盡管如此,如果對兵棋推演的興趣結果影響其解密,這對學者來說是一個問題。美國兵棋記錄,即使是“藍”(美國)隊“輸掉”的那些,也可以解密,但它們在 1970 年代以后的檔案中的可用性很少。參與兵棋推演研究議程的學者必須繼續提交 FOIA 和強制解密審查文件請求。

6 兵棋推演研究議程

長期以來,國家安全從業人員一直依靠兵棋推演來制定政策。通過從現有的游戲中汲取經驗或運用自己的游戲,研究人員還可以使用游戲來測試 IR 理論——尤其是探索決策背后的微觀基礎和機制。作為一種學術探究的工具,兵棋推演有可能比其他常用方法更好地逼近現實世界決策的混亂程度,并對人類決策產生更深入的見解。研究人員可能會將兵棋推演作為獨立的研究設計,或將其納入混合方法研究設計,兵棋推演有助于彌補其他研究方法的不足。兵棋推演的核心是通過讓學者深入了解為什么會形成某些看法或做出決定,從而強調過程而不是結果。

兵棋推演為研究人員提供了一個機會來分析玩家審議中的證據,例如,來自團隊內部關于對手信號和意圖感知的對話。這可以產生關于人類如何理解他們的角色、他人的角色或解釋決策的意義和背景的見解。兵棋推演構建的社會環境還允許研究人員探索性別、身份、等級和經驗等特征如何影響團隊內部和團隊之間的互動。兵棋推演期間的互動可以揭示決策背后的機制,幫助學者研究大量實質性主題。事實上,國際關系中的許多核心概念,如威懾、危機信號和發動戰爭,都是基于決策者的決策和互動。因此,從兵棋推演中獲得的見解可以幫助研究人員以超越只關注結果變化的實證測試的方式來解讀理論。

除了使用兵棋推演對國際關系理論進行實質性研究外,學者們還可以研究政策兵棋推演對現實世界的影響。例如,未來的研究可以檢查決策者是否以及何時從政府部署的游戲中學習。五角大樓在 1960 年代的 SIGMA 兵棋推演系列以高級決策者為特色,并預言了越南的困境(McDermott, 2002; Pauly, 2018),但其結果在外交決策過程中被擱置了??。這種對兵棋推演課程的忽視有多普遍?相反,選擇性解密的兵棋推演在美國最近的公共預算和武器采購討論中發揮了巨大作用,立法者甚至呼吁更多兵棋推演來為決策提供信息(Gallagher,2020)。兵棋推演如何與組織政治互動?兵棋推演的政治化與其他影響預算或政策選擇的政治嘗試有何相似之處?研究人員可能會將檔案兵棋推演報告與過程追蹤和精英訪談相結合來研究這些問題。

然而,為了有效地將兵棋推演用于實質性 IR 研究,學者們還必須檢查兵棋推演設計和執行的各種元素是否以及如何影響其整體有效性(內部、外部和生態)以及可以從游戲中得出結論。為此,學者們可能會更深入地研究我們在本文中提出的四個命題。這將有助于學者們更好地利用兵棋推演作為其他研究方法的補充

首先,未來的項目可能會研究兵棋推演的沉浸性是否會產生不同于非沉浸性方法的行為。例如,受試者在參與兵棋推演時是否使用與完成調查時不同的決策邏輯或調用相同的啟發式方法?這對兵棋推演結果的生態和外部有效性意味著什么?而且,這能告訴我們學者們可以使用兵棋推演解決的問題類型嗎?

為此,研究人員可以求助于檔案游戲數據來研究沉浸感的影響。對 1958 年至 1964 年間在麻省理工學院舉行的政治軍事兵棋推演中的 77 名參與者進行的一項調查發現,64.9% 的參與者報告了“極端”或“強烈”程度的情感參與。Schelling 回憶說,參與者“虛擬地”進行了兵棋推演,很難在“沒有開始看起來真實或可能是真實的場景”的情況下花費這么多小時(美國國防部,1966 年,D3)。但是,雖然這些游戲可能創造了身臨其境和逼真的環境,但一些玩家也報告了表現出攻擊性的傾向(Barringer 和 Whaley,1965:440)。

如果沉浸在兵棋推演中可以提高生態有效性,我們可能會期望看到玩家在游戲中的行為與現實世界危機決策的記錄平行。檔案兵棋推演提供了幾個示例——越南、古巴、柏林危機——其中參與者在游戲中的行為與實際危機相似。如果沒有這樣的歷史驗證,研究人員可能會在幾天、幾周或幾年后詢問精英參與者,他們的兵棋推演經驗是否影響了他們在現實世界中的決策。

有一些證據表明,在玩家離開游戲環境后,他們會受到這種影響。在上述麻省理工學院的同一項調查中,56% 的“參與政策規劃、制定或實施”的玩家可以回憶起他們的兵棋推演經驗在他們的工作中具有實際價值。雖然當代數據較少,但一些參與者回憶起深遠的影響。例如,Condoleezza Rice報告說,作為國家安全顧問,她于 2001 年 9 月 11 日考慮將美國的軍事警報通知莫斯科,并向朋友和敵人解釋“美國沒有被斬首”,這是基于她的誤解和冷戰危機模擬期間的升級(Rice 和 Zegart,2018: 178)。同樣,前國防部副部長Robert Work和負責情報的國防部副部長Michael Vickers講述了網絡評估辦公室在 1990 年代和 2000 年代初期設計的一系列未來兵棋推演在制定戰略和武器采購方面發揮的關鍵作用(Krepinevich 和 Watts,2015 年)。

除了分析檔案數據之外,研究人員還可以設計和實施混合方法項目,其中包括在平行研究中與替代方法一起進行的兵棋推演。這將使研究人員能夠評估沉浸感如何影響參與者的行為和決策。最近開展了平行調查實驗和兵棋推演來解決相同研究問題的項目提供了一個有用的起點(Reddie 等人,2018 年)。例如Schneider等人(2021),發現沉浸在虛擬兵棋推演中的參與者比提供相同場景和預備閱讀材料的調查實驗受訪者對兵棋推演的理解要高得多。事實上,97.5% 的兵棋推演參與者正確回答了一個場景理解問題,而調查實驗受訪者的這一比例僅為 73%。其他研究也可能通過改變兵棋推演的結構和設置來更系統地探索沉浸感。例如,研究人員可以改變兵棋推演的時長(例如幾小時與幾天)或進行兵棋推演的物理環境,并評估決策過程或結果是否發生變化。

其次,更多的研究可以幫助學者們更好地理解在兵棋推演中專家和非專家的行為是否不同,以及如何不同。這一研究方向將直接促成關于現代實證 IR 研究中不同類型樣本效用的方法論辯論。一方面,一些學者認為,使用具有高度代表性但規模較小的專家樣本來進行較少的兵棋推演會限制研究結果的推廣程度(Reddie 等人,2018 年)。他們認為,玩多個游戲迭代的大樣本(通常是方便的)允許進行統計分析,從而克服普遍性問題并實現復制。然而,其他學者和從業者認為,便利樣本限制了游戲的結論(Oberholtzer et al., 2019)。具體而言,非專家可能缺乏做出現實決策所需的技術或政策知識,這些決策反映了現實世界中可能出現的決策。使用其他研究方法的政治科學家長期以來一直在爭論便利樣本是否足以代表更具代表性的專家樣本(Dietrich 等人,2021 年;Hyde,2015 年)。一些研究發現便利樣本和精英樣本的行為存在差異(Mintz et al., 2006 ; Pauly, 2018),而另一些研究發現精英和非精英偏好之間存在一致性(Kertzer, 2020)。

同樣,來自檔案游戲的見解提供了探索我們的第二個命題是否會影響我們從兵棋推演中學到東西的機會。驚人的“精英”使一些檔案兵棋成為很好的比較點。例如,謝林指揮了參謀長聯席會議主席、陸軍參謀長和司法部長參與的兵棋推演(Schelling和Ferguson,1988)。這些游戲可以與五角大樓嘉賓(包括名人、記者和企業高管)玩的其他檔案游戲進行比較。有興趣參與關于研究樣本的方法論辯論的研究人員可能會考慮部署兵棋推演,將專家玩的兵棋推演中的決策過程與非專家玩的相同博弈中的決策過程進行比較。

第三,未來的研究可能會通過探索群體互動是否以及如何影響兵棋推演期間的決策和行為來促進對群體動力學的研究。如果兵棋推演在生態上是有效的,那么從兵棋推演中汲取的教訓應該適用于實際的決策環境。例如,參與者是否擔心隊友會根據他們的言行來評判他們?團體是否更有可能減輕或放大個人風險傾向?團隊組成如何影響團隊動態?來自研究人員現場游戲和檔案游戲的成績單通常包括玩家相互證明他們的選擇。這些數據可以用來分析與等級、順從、戰斗、情感或性別決策相關的語言,研究人員可以探索不同的團隊組成如何影響給定游戲的多次迭代動態。

近期將兵棋推演與交互性較低的合成數據生成過程一起進行的項目為此類未來研究提供了起點(Reddie 等人,2018 年)。Lin-Greenberg (2020),發現兵棋推演團隊的決策在參與者之間的審議過程中經常發生變化。在某些情況下,參與者在與隊友討論問題后會改變立場。或者,持有特定觀點的參與者可能只是人數超過團隊的其他成員,并服從多數立場。因此,兵棋推演審議的動態性質提供了優于互動較少的研究方法的優勢,后者通常只在特定時間捕捉個人層面的偏好,使研究人員對想法如何發展和演變的了解較少。

第四,學者們應該評估基于結果的輸出是否以及如何影響兵棋推演中的行為和決策。兵棋推演專家難以區分準確反映現實世界決策的后果和可能限制從游戲中得出的結論的“游戲主義”。玩家在游戲中是否會比在實際危機中承擔更大的風險?參與者是誠實行事,還是采取行動支持雇主的機構利益?關于激勵和獎勵是否會影響模擬和實驗期間的行為的類似爭論仍未解決(Andersen 等人,2011 年;Karag?zoglu 和 Urhan,2017 年)。為了解決這些問題,研究人員可能會轉向檔案游戲,看看精英們在兵棋推演中是否承擔了與現實世界危機中類似的風險。或者,研究人員可以評估參與者的行為是否會隨著多個兵棋推演的利害關系而變化。

將兵棋推演用于 IR 學術研究仍處于復興的早期階段,但我們相信這種方法對于尋求了解如何制定外交政策和國家安全決策的研究人員具有巨大的潛力。隨著學者們探索兵棋推演作為一種探究工具的好處和局限性,我們看到兵棋推演研究令人興奮的可能性,有助于解決其他難以解決的理論和政策問題。

7 致謝

作者感謝 Valentin Bolotnyy、Amber Boydstun、Cole Bunzel、Peter Dombrowski 和 Rose McDermott 對草稿的有益評論,以及 2020 年美國政治學協會會議、喬治城大學兵棋推演協會、倫敦國王學院、海軍的研討會參與者戰爭學院和麻省理工學院,尤其是 Richard Samuels、Eric Heginbotham、Stacie Pettyjohn、Ellie Bartels 和 Andrew Reddie。Andrew Ortendahl 提供了出色的研究協助。

付費5元查看完整內容

美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。

本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。

在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。

研究問題

  • 當代 ML 智能體能否被訓練以有效地展示智能任務規劃行為,而不需要數十億可能情況組合的訓練數據?
  • 機器智能體能否學習使用攻擊機、干擾機和誘餌飛機的組合來對抗地對空導彈 (SAM) 的策略?干擾機需要離地空導彈足夠近才能影響它們,但又要保持足夠遠,以免它們被擊落。誘餌需要在正確的時間分散 SAM 對前鋒的注意力。
  • 是否可以建立足夠泛化的表示來捕捉規劃問題的豐富性?吸取的經驗教訓能否概括威脅位置、類型和數量的變化?

主要發現

RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰

  • 純 RL 算法效率低下,容易出現學習崩潰。
  • 近端策略優化是最近朝著解決學習崩潰問題的正確方向邁出的一步:它具有內置約束,可防止網絡參數在每次迭代中發生太大變化。
  • 機器學習智能體能夠學習合作策略。在模擬中,攻擊機與 SAM 上的干擾或誘餌效應協同作用。
  • 經過訓練的算法應該能夠相當容易地處理任務參數(資產的數量和位置)的變化。
  • 很少有關于成功和不成功任務的真實數據。與用于訓練當代 ML 系統的大量數據相比,很少有真正的任務是針對防空飛行的,而且幾乎所有任務都取得了成功。
  • 對于涉及使用大型模擬代替大型數據集的分析,所需的計算負擔將繼續是一個重大挑戰。針對現實威脅(數十個 SAM)訓練現實能力集(數十個平臺)所需的計算能力和時間的擴展仍不清楚。
  • 建立對人工智能算法的信任將需要更詳盡的測試以及算法可驗證性、安全性和邊界保證方面的根本性進步。

建議

  • 未來關于自動化任務規劃的工作應該集中在開發強大的多智能體算法上。RL 問題中的獎勵函數可以以意想不到的方式徹底改變 AI 行為。在設計此類功能時必須小心謹慎,以準確捕捉風險和意圖。
  • 盡管模擬環境在數據稀缺問題中至關重要,但應調整模擬以平衡速度(較低的計算要求)與準確性(現實世界的可轉移性)。
付費5元查看完整內容
北京阿比特科技有限公司