摘要

幾十年來，政治科學家和國家層面的軍方政策制定者一直在戰略層面使用博弈論，但對其在作戰層面的使用幾乎沒有評論。傳統上，三個主要挑戰阻礙了規劃人員和分析人員在作戰層面使用博弈論，即復雜的作戰環境、參與者的動態交互以及大多數陸軍參謀人員不具備使用復雜數學技能。

這本專著表明，這些挑戰是可以克服的，博弈論可以在規劃過程中提供新穎的見解。美陸軍參謀部規劃人員可以在作戰層面有效地使用基本博弈論和簡單的數學來了解作戰環境、了解行動者及其動機，并在軍事決策過程中比較行動方案。本專著展示了如何避免高級博弈論用于解決理論問題的繁瑣數學程序，而是專注于使用基本博弈論在規劃過程中提供價值。它通過回顧博弈論在戰略層面的應用、教授基本博弈論和涵蓋一些基本博弈概念來展示博弈論的實用性。然后，它考察了一場歷史性的行動，以展示博弈論的使用將如何達到另一個推薦行動方案和結果，也許會改變歷史進程。最后，它通過將博弈論應用于軍事決策過程、任務分析和行動制定過程的兩個步驟的練習，提供了使用博弈論的指南。

引言

幾十年來，戰略規劃者和政策制定者在戰略層面有效地應用了博弈論，但軍事從業者往往不在作戰層面使用它。當約翰·馮·諾依曼和奧斯卡·摩根斯坦在 1940 年代初在蘭德公司工作期間發展博弈論時，他們尋求一種數學方法來為沖突領域，特別是經濟沖突提供解決方案。他們于 1944 年發表了開創性的著作《博弈論與經濟行為》

博弈論允許通過將場景建模為簡化的博弈來分析決策。博弈論試圖定義參與者、策略——或可供他們選擇的選項——以及博弈結果的預期回報。它試圖澄清由于參與者的選擇而導致的不確定性。它的主要用途是它認識到結果是通過多個參與者的互動共同決定的，而不僅僅是一個人自己決定的結果，它允許分析對手可能會做什么。由于這些原因，政策制定者和戰略家使用博弈論來理解戰略問題，例如核對手、貿易慣例、內戰解決和裁軍以及缺乏國際合作，從而制定政策建議以幫助解決這些問題

作戰層面的規劃者是否可以有效地應用博弈論仍然是一個懸而未決的問題。在作戰層面使用博弈論的批評者強調了動態交互的復雜性。他們指出，培訓軍官了解博弈論的基本概念并將操作層面問題的復雜性提煉成基本博弈需要大量時間。

本專著認為博弈論提供了一個有價值的框架，最適用于在軍事決策過程的任務分析和行動發展步驟過程中理解環境中的參與者。博弈論旨在提供對情況的理解。這需要了解參與者及其潛在計劃或戰略動機。博弈論提供了一種理性的方法來研究行動者如何制定他們的策略和他們的動機基礎。由此，指揮官和參謀人員可以獲得理解，然后疊加其他因素，包括行動方案和潛在結果。它提供了一種合理而直接的方法來簡化復雜的問題。因此，博弈論為作戰規劃者提供了另一種工具，可用于了解作戰環境。

本專著重點介紹博弈論在戰略層面的歷史應用、當前的規劃過程學說和相關框架，以回答作戰規劃者能否在作戰層面有效地使用博弈論。這本專著主要通過囚徒困境分析博弈論在戰略層面的應用，將其應用于冷戰、國際貿易和價格戰期間的降價。 1777 年的新澤西戰役為應用博弈論和理解喬治華盛頓將軍和查爾斯康沃利斯將軍之間的競爭環境提供了一個歷史例子。最后，它演示了如何以及在何處將博弈論工具實施到美國陸軍當前使用的規劃過程中。所使用的博弈論是一種基本的應用方法，而不是過于復雜和無用的高級學術博弈論。簡單的博弈可以使復雜的操作情況變得清晰。該研究回顧了陸軍規劃學說，以專注于了解作戰環境和問題。任務分析旨在了解環境中的參與者以及他們之間沖突的根源。這 3 項研究的重點是深入了解對抗性和中立的參與者、激勵措施、潛在的行動方案和回報。該專著追溯了博弈論的戰略應用和作戰應用之間的差異，以了解哪些要素是一致的，同時說明了差異。最后，它將討論如何克服實施中的潛在挑戰。

博弈論在軍事決策過程中的應用

規劃人員可以在軍事決策過程中使用博弈論工具，特別是在任務分析期間，以不同的視角理解作戰環境和行動發展過程，以檢查未發現的假設。博弈論工具不是替代軍事決策過程中現有的步驟和工具，而是對其進行補充。戰地手冊 6-0 解釋說，指揮官和參謀人員使用任務分析來更好地了解作戰環境和部隊面臨的問題。接下來，規劃人員使用任務分析來制定假設以填補知識空白。最后，考慮到博弈論理解競爭的本質，任務分析也有助于理解友軍和敵軍如何互動。行動方案制定過程提供了一種客觀的方式來看待多個潛在計劃。在上面的歷史例子中，華盛頓將軍和康沃利斯將軍需要了解他們的潛在行動以及他們認為 30 名敵方指揮官可能會做什么。在某種程度上，歷史例子中的將軍們可以在他們的行動發展過程中使用博弈論來檢查他們的假設。開發從敘述性或定性評估開始，然后轉向帶有每個計劃的加權分數的可量化評估。博弈論允許另一種觀點來評估潛在的計劃。以下思想實驗提供了一個示例，說明工作人員如何在任務規劃期間使用一些博弈論工具。

演習如下：美國討論在一個靠近對手的友好國家增加軍事存在，這旨在阻止對手入侵友好國家。軍團工作人員了解國家決策者關于在一個地區增加軍事存在的辯論。此外，他們知道如果國家領導層追求升級，軍團是升級的一個因素。工作人員致力于了解作戰環境并了解國家層面的優先事項和激勵措施，以便他們可以就選項提出更高的建議并為預期的行動方案做好準備。其次，他們努力了解敵人的動機和行動計劃。敵人還面臨著增加其在該地區的軍事存在或維持現狀的前景。兩國都擁有核武器，都不想進行全面戰爭。最后，兩個大國都可以遷移的地區的人口不希望被外國勢力占領。國家決策者面臨的戰略決策具有操作層面的影響。

如上所述，任務分析提供了對情況和問題的理解。在任務分析過程中，工作人員開始對行動者的動機和動機有所了解。戰場情報準備是任務分析的關鍵步驟。參謀人員對友軍和敵軍如何在環境中相互作用做出假設。由此，工作人員開發了每個參與者在即將到來的操作中可以使用的潛在選項。此外，情報準備步驟確定了指揮官和參謀人員的知識差距。這些差距導致了獲取信息的情報需求的發展。正如文獻回顧中所述，人們根據他們擁有的信息做出決策，并預測競爭對手的行為。這些步驟不會取代或否定軍事決策過程的任何步驟，它們只是關于如何以及在何處實施博弈論工具的建議。

鑒于這種情況，參謀人員開始制定敵人的行動方案。當應用于博弈矩陣時，這些行動方案成為敵人的策略。敵人可以用他們的一個師或軍將該地區軍事化，也可以選擇不軍事化。是否軍事化的選擇為敵人創造了兩種不同的戰略。第二步著眼于每個策略的結果。如果雙方都軍事化，那么他們將面臨戰爭。如果雙方都沒有軍事化，那么他們就維持現狀。如果一個國家軍事化而另一個國家不軍事化，那么軍事化的國家就會在沒有爭議的環境中這樣做。表11顯示了這種情況的結果。

表11：定性結果

第三步要求參謀人員查看敵人的動機，然后對他們的選擇進行定性分析。敵人想在美國不決定將該地區軍事化的情況下將該地區軍事化。這為他們創造了一個無可爭議的環境。其次，他們既不看重自己也不看重美國將該地區軍事化，這是現狀。第三個可取的結果是美國軍事化，而敵人沒有，這意味著美國擁有無可爭議的軍事化。最后，如果美國也進行軍事化，敵人不想升級為戰爭，也不想將該地區軍事化。工作人員現在可以根據偏好對敵人的行動路線進行排序。作戰和情報人員可以利用收集資產并制定收集計劃，以確定有關敵人計劃的任何指標，例如在該地區集結部隊。信息收集計劃有助于回答信息需求并協助進行有效規劃。

工作人員現在進入行動開發過程。生成選項步驟概述了指揮官和參謀人員可用的選項。工作人員制定了可以切實擊敗敵人行動方案的選項，然后確定它們的優先級。工作人員還產生了兩個廣泛的選項。他們可以軍事化，也可以不軍事化。由于每個參與者的策略，工作人員現在可以對他們的行動方案進行排序。指揮官和參謀更愿意維持現狀。如果美國采取行動將該地區軍事化，它可能會擾亂地方、國家政府和民眾。因此，美國對該地區的軍事化和一個不軍事化的敵人是次要的選擇。這種選擇意味著美國擁有無可爭議的軍事化，但正如所述，當地政府感到不安。第三，排名是美國不軍事化，但敵人軍事化，給了他們無可爭議的優勢。最后，美國不希望發生戰爭，如果美國和敵人都進行軍事化，就會發生戰爭。

接下來，工作人員將博弈發展為矩陣或戰略形式。首先，他們進行定性分析，說明每次交戰的可能結果，見表 12。然后參謀人員從每個指揮官的角度對結果進行排序，以生成定量分析和回報，如表 13 所示。該表顯示了回報敵方第一，美國第二。使用倒序排列，最低數字的收益表示排后的選項，數字越大，表示首選的選項。每個戰斗人員都是近鄰，因此參謀人員認為交戰將有利于主動一方。

表12 ：定性分析

表13：定量結果

這兩種的價值在于員工進行分析以掌握對潛在未來結果的理解。它提供了一個簡潔的可交付產品，參謀計劃人員可以在一張紙上將其交給指揮官或參謀長，以供將來參考或思考，因為指揮官和參謀人員開始在軍事決策過程的未來步驟中權衡選項。這種分析為員工提供了一個思考他們正在做什么以及他們的計劃可能產生什么結果。這是舍恩所說的實踐中反思的一個例子。正如他所說，它允許人們在執行任務時思考他們正在做什么，然后塑造他們所做的事情。

下一步要求參謀人員將可用選項縮小到只有指揮官可用的可信選項。參謀部尋找指揮官永遠不會使用任何主導策略。敵方指揮官沒有任何主導策略，并且兩種策略都可供他使用。但美國永遠不會在博弈中選擇軍事化，因為無論敵人選擇什么，不軍事化都會主導博弈。表 14 以粗體突出顯示哪個選項在美國占主導地位。例如，如果敵人決定軍事化，如果它決定軍事化，美國將獲得 1 的回報，否則將獲得 2 的回報。因此，在這種情況下，美國會選擇不進行軍事化。同樣，如果敵人不軍事化，那么如果它軍事化，美國將獲得三倍的回報，如果它不軍事化，美國將獲得四倍的回報，美國將再次選擇不進行軍事化。因此，工作人員將其排除在外。

表14：以粗體突出顯示的美國的收益

既然參謀人員了解美國沒有軍事化的動機，它就可以看看敵人可能會采取什么行動作為回應。敵人知道美國不想軍事化，并尋求使其結果最大化。因此，敵人選擇軍事化，因為這比不軍事化帶來更好的回報。這達到了納什均衡，即敵人軍事化并獲得四分之二的回報，而美國不軍事化并獲得三分之二的回報。表 15 顯示了圈出的所得納什均衡。

表15：軍事化為主

但現實生活中的情況并不總是一致的。一方通常首先采取行動，迫使另一方做出決定。在上述情況下，美國正在努力應對將該地區軍事化的決定。然后他們的決定迫使敵人做出決定。下一步著眼于在順序移動游戲中情況如何展開，以及納什均衡在決策分析中是否發生變化。順序博弈見表 16。該表首先顯示了敵人的收益，其次是美國的收益。

表16：順序多次博弈

參與者對每個結果的選擇和回報保持不變。唯一的區別是美國先行動，敵人必須做出反應。工作人員必須使用子博弈分析來分析這個博弈及其結果。敵人有第二步，因此分析從他們的預期步驟開始。這兩個參與者都知道，如果美國選擇軍事化，敵人將選擇不軍事化，因為兩個人的回報比一個人要好。如果美國選擇不軍事化，敵人會想要軍事化，因為四比三好。鑒于美國的選擇，上面的表 16 通過圈出每個敵人的首選選擇來表明這種行為。既然美國知道敵人會根據美國的選擇做出哪些選擇，他們就會在兩者之間做出選擇。美國選擇軍事化，知道敵人不會軍事化，從而為美國帶來三倍的回報。美國軍事化總比不軍事化并獲得兩個回報要好，因為知道敵人會選擇軍事化。因此，納什均衡變成了美國軍事化和敵人不軍事化，敵方兩分，美國三分，見表 17。

表17：納什均衡

序列博弈導致的納什均衡與同步博弈不同，為什么？每場比賽都會導致一方軍事化，而另一方不軍事化。在同步博弈中，敵人通過軍事化獲得了最有利的回報，美國知道這一點，因此選擇不軍事化。然而，在順序博弈中，美國先決勝負。如果他們不軍事化，他們將獲得最高的回報，而敵人也選擇不軍事化。兩國都不會軍事化，因為如果美國不軍事化，敵人就有動機進行軍事化。美國意識到這一點，因此認為他們的下一個最佳選擇是軍事化，因為它知道敵人不會軍事化，因為這會迫使兩個參與者之間發生戰爭。這個游戲提供了一個先發優勢的例子。如果敵人先選擇，他們也會有軍事化的動機

序列多次博弈反映了更現實的情況。但是運行這兩種類型的博弈為工作人員了解動機和潛在行動提供了分析價值。工作人員可以看到排序操作如何改變結果。如上所述，使用這種方法的價值在于分析。工作人員可以按照矩陣形式對每個結果進行簡要說明。然后他們可以看到他們的選擇之一不是一個可行的選擇。然后，他們查看了定量評估并確定可以使用平衡結果。所進行的定性分析重申了 Thomas Schelling 的觀點，即博弈論的數學并不總能解決沖突，不應過度依賴數學。而是對問題的思考增加了價值。

結論

博弈論提供了一種分析工具來看待競爭情況。它使分析師能夠了解潛在的行動計劃、激勵措施以及回報或結果。此外，它可以突出信息差距和需要進一步理解的領域。在 20 世紀中葉，戰略層面的規劃者用它來更好地了解美國和蘇聯之間在使用核武器和原子戰方面的競爭。國防部以外的分析師使用它來了解競爭公司之間的貿易爭端和降價。

在作戰層面，博弈論允許對潛在計劃、激勵和結果進行相同類型的分析和理解。這本專著審視了博弈論的歷史并探索了基本的博弈論，確立了博弈論在分析沖突情況方面的有用性。文獻回顧揭示了博弈論的優勢和劣勢，這為如何最好地利用它以最大限度地發揮其潛力提供了信息。檢查諸如核局勢和國際貿易等戰略層面的決策為以前的努力如何有效地應用博弈論提供了背景。博弈論在特倫頓和普林斯頓的美國獨立戰爭中的應用與指揮官們所追求的不同，展示了使用博弈論如何提供獨特的見解，這對于像康沃利斯這樣經驗豐富的將軍來說并不明顯。最后，該專著展示了軍團級別的參謀人員如何使用博弈論來理解戰略級別的決策如何影響作戰級別的行動，比較了同步博弈和序列博弈的實用性。最后一部分提供了一個基本框架，工作人員可以通過將博弈論應用于任務分析和行動開發過程來解決操作問題。

博弈論的使用不僅限于軍事決策過程。博弈論非常適合國防部和美國陸軍目前使用的現有規劃流程。規劃人員可以在聯合作戰設計過程和陸軍設計方法中使用博弈論工具。具體來說，在聯合設計期間，博弈論工具最適合理解戰略指導和理解作戰環境。在軍隊設計期間，它最適合構建作戰環境和理解問題。博弈論是參謀人員或計劃團隊的工具包中的另一個有用工具。當通過軍事決策過程或設計過程應用時，博弈論分析與其他工具很好地結合在一起，可以更好地了解作戰環境。

付費5元查看完整內容

混合作戰定義

同步使用針對所有社會職能中的特定漏洞而定制的多種權力工具，以實現協同效應。混合作戰入侵者將尋求利用目標國家的弱點。每一個混合戰爭入侵者可能有獨特的能力，可用于打擊目標國家。戰爭的“奇襲”原則可能是混合攻擊成功的最大因素。

為什么兵棋推演是一個好的工具關于混合作戰分析？

數學模型的價值值得懷疑:有什么數據可以量化威懾或恢復力?
如果對手的潛在破壞性行動沒有發生，是否阻止了它?怎么知道?
混合戰爭通常會尋求攻擊多個方面，例如:關鍵基礎設施、民眾情緒、經濟；
混合攻擊將要求人類識別攻擊的本質，文職領導人（來自公共和私營部門）和潛在的軍事領導之間的協調與合作可能對減輕攻擊的影響是必要的。

付費5元查看完整內容

AI與軍事 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 · 聯合情報準備 · 論文 · 捷克國防大學 ·

2022 年 4 月 6 日

[付費5元查看完整內容]捷克國防大學《作戰環境聯合情報準備在支持未來軍事行動中的作用》最新論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

當代和新出現的安全威脅以及從最近的軍事行動中吸取的教訓已經證明，為了在傳統的物理領域（陸地、空中、海上、太空）實現作戰目標，確保在非物理領域的主導地位至關重要，即網絡空間、電磁環境（EME）和信息環境。因此，除了物理作戰領域之外，在非物理領域取得優勢的能力對于實現戰役的軍事和非軍事目標具有決定性意義。

作戰人員將面臨消除沖突，協作，同步和整合行動的挑戰，以實現并發揮協同效應以應對多種威脅，其中可能還包括來自每個作戰領域對手的武裝沖突閾值以下的行動，包括非物質的。

本文探討了作戰環境聯合情報準備 (JIPOE) 作為支持聯合作戰規劃、執行和評估的主要工具的作用和意義，從而有助于多域作戰 (MDO) 的同步和協調。在這方面，基于政治、軍事、經濟、信息、基礎設施-物理、時間(PMESII-PT)方法，不可能將對當代作戰環境(OE)的分析局限于物理領域及其與非物理領域的關系。相反，作者們相信，確定一種合適的方法來關注在非物理領域單獨或聯合進行的活動影響，它們在PMESII-PT所有領域的相互融合和實際操作領域的相關性，將大大有助于友軍識別和評估對手的重心(COG)、關鍵弱點、意圖和行動路線(COAs)的能力，包括各自的指標。JIPOE將為聯合部隊指揮官(JFC)提供OE的整體視圖，將與戰術層面密切合作、共享和開發，通過結合不同領域的能力，應該能夠壓倒對手的部隊。這種集中控制和分散執行的方法將有助于在作戰和戰術層面之間產生協同效應。

引言

未來的軍事行動將以物理和非物理層面的融合為特征，眾多不同的行為者將在其中運作。任何部隊都需要適應極其復雜的作戰環境和大量的作戰變量，需要適應性地使用一系列武器系統來產生致命和非致命的效果。因此，除了物理作戰領域（即陸地、空中、海上和太空），在非物理領域（網絡空間、EME、信息環境）取得優勢的能力將對實現戰役的軍事和非軍事目標具有決定性意義[1, p.280]。

OE是影響能力運用和影響指揮官決策的條件、環境和影響因素的綜合體[2, p.3]。了解OE的因素和條件不僅是所有計劃活動，特別是行動設計的關鍵前提，也是友軍保護和許多其他相關任務的關鍵前提[3, p.41]。

JIPOE代表了一種系統的方法，用于分析有關OE和對手的信息。它可以應用于全部的軍事行動。指揮官和參謀部在危機背景、根本原因和具體動態方面，對戰區形成共同的理解和整體的看法。它使指揮官能夠直觀地看到問題的程度，以及他們如何塑造和改變OE，使之成為他們的優勢，這將為他們的決策提供信息[2, p.3-5]。

JIPOE產品極大地促進了聯合（即作戰）層面的軍事行動的規劃和執行。現代軍隊，特別是北大西洋公約組織（NATO）內的軍隊，幾十年來在討論跨領域（陸、海、空）的協調行動時一直使用聯合這一術語。如今，由于全球安全環境的巨大變化以及俄羅斯和中國日益增長的野心，為了挑戰潛在的同行對手，需要采取多領域的方法。在傳統的戰爭門檻下，盟國及其合作伙伴已經受到了跨越物理和非物理領域的持續攻擊[4, p.2]。MDO一詞不同于聯合行動，因為它旨在關注跨越多個領域的行動，而不考慮服務的歸屬，不一定是由多個部門進行的行動[5，p.49]。

圖1:支持聯合行動的當前JIPOE流程的可視化。

圖2:提出支持MDO的JIPOE過程方案。

付費5元查看完整內容

AI與軍事 · 兵棋推演教育 · 美國海軍陸戰隊 · 論文 · 兵棋推演 ·

2022 年 3 月 29 日

[付費5元查看完整內容]paper速讀：美國海軍陸戰隊《職業軍事教育中的兵棋推演：挑戰與解決方案》35頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【標題】

Wargaming in Professional Military Education: Challenges and Solutions

職業軍事教育中的兵棋推演：挑戰與解決方案

【作者】

美國海軍陸戰隊埃里克·沃爾特斯（Eric M. Walters）上校（退役）

【摘要】

鑒于強調在專業軍事教育中使用兵棋推演，學校、作戰部隊和支持機構的教官——尤其是那些本身沒有經驗的兵棋推演者——如何去做呢？本文解釋了在經驗豐富專家的幫助下，為選定、修改或內部設計的嚴格兵棋式推演制定理想的學習成果的必要性。總結了最近的相關學術成果，它提供了促進協作對話的基本術語和概念，并就這種動態和沉浸式教學方法的常見但可避免的陷阱提供了建議。

【正文】

對于那些認為兵棋推演不僅僅是一種娛樂消遣的人來說，商業兵棋推演曾經是——而且可以說仍然是——一種小眾愛好。在 20 世紀和 21 世紀初的歷史中，只有相對較小比例的軍人和學者經常進行所謂的嚴格式兵棋推演。過去，這一想法受到制度性的抵制，在職業軍事教育（PME）中使用一些人認為是兒童游戲的東西；雖然最近這種恥辱感有所減輕，但對于外行來說，兵棋推演的學習障礙仍然很高。兵棋推演可能很難學習，甚至更難戰勝有能力的對手。然而，我們已經到了 2021 年，軍事兵棋推演似乎正在 PME 學校、作戰部隊甚至支持機構中復活。海軍陸戰隊司令大衛 H. 伯杰將軍在他的指揮官規劃指南中，強調了在 PME 中練習軍事決策的必要性，這是教育兵棋推演的主要目的。但一個事實仍然存在。對于那些有興趣使用和設計兵棋推演來教授軍事判斷力的人來說，這種教學方法似乎很難有效實施。學術界的成功案例涉及作戰部隊中已經是兵棋推演者的教授、教官和海軍陸戰隊領導人。不是兵棋推演者但教軍事決策的人如何弄清楚要使用什么兵棋推演？如何使用它？各種可用游戲的優點和局限性是什么？整合兵棋推演和課程有哪些挑戰，如何克服這些挑戰？本文旨在幫助那些不熟悉兵棋推演的人定位，并就在教授決策中的軍事判斷時使用它們的經過驗證的最佳實踐提供建議。

提綱

1 教育者如何使用游戲來教學生？
1.1 了解戰術、作戰和戰略中力量、空間和時間之間的關系
?1.2 在兵棋推演中模擬現實“決策環境”以解決決策困境
?1.3 在兵棋推演環境中體驗摩擦、不確定性、流動性、無序和復雜性的交互動力學
1.4 鍛煉創造性和批判性思維：準備、參與和分析兵棋推演活動

2 哪種類型的兵棋推演最適合學習目標？
?2.1 角色扮演游戲 (RPG)
? ?2.2 研討會矩陣游戲
2.3 系統游戲
?2.4 紙牌游戲

3 哪種情況最適合使用——歷史情景還是假設情景？

4 兵棋推演教學——挑戰與解決方案
?4.1 克服設計偏見
?4.2 時間和復雜性的挑戰
?4.3 對教師要求的考慮
?4.4 兵棋推演支持單位教育和凝聚力

付費5元查看完整內容

AI與軍事 · 軍事情報 · 美國陸軍 · 書籍 ·

2022 年 3 月 25 日

[付費5元查看完整內容]美國陸軍情報分析手冊，新版174頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國陸軍總部發布新版“ ATP 2-33.4 Intelligence Analysis: January 2020”

情報分析是情報的核心。它是包括計劃在內的許多參謀活動的基礎，并貫穿整個美國陸軍。除其他結果外，分析有助于指揮官和其他決策者可視化作戰環境 (OE)、組織部隊和控制行動以實現其目標的能力。要了解情報分析的作用，情報專業人員必須了解情報分析與其他參謀流程的對應關系，尤其是軍事決策過程和信息收集。

ATP 2-33.4 向包括指揮官、參謀和領導人在內的廣大受眾提供有關情報人員如何進行分析以支持陸軍行動的基本信息。它描述了情報分析過程和具體的分析技術以及情報人員，特別是全源分析師在所有情報學科中進行情報分析的信息。此外，ATP 2-33.4 描述了情報分析如何促進指揮官的決策制定和對復雜環境的理解。ATP 2-33.4 的主要受眾是進行情報分析的初級到中級情報分析員。本出版物為指揮官、參謀人員和其他高級軍事人員提供情報分析的基本信息。

付費5元查看完整內容

AI與軍事 · 博弈論 · 博弈論國防應用 · 綜述論文 · 悉尼大學 (University of Sydney) ·

2022 年 3 月 22 日

[付費5元查看完整內容]《博弈論在國防中的應用》悉尼大學與澳大利亞國防科技2022最新40頁pdf綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【作者】

Edwin Ho 1, Arvind Rajagopalan 2, Alex Skvortsov 3, Sanjeev Arulampalam 3, Mahendra Piraveenan 1

1 悉尼大學工程學院

2 澳大利亞國防科技 (DST) 集團武器和作戰系統部

3 澳大利亞國防科技 (DST) 集團海事部

【摘要】

本文簡要回顧了使用博弈論對與國防應用相關的決策場景進行建模的文獻。博弈論已被證明是對智能體、實體和玩家的決策過程進行建模的非常有效的工具。它已被用于模擬不同領域的情景，如經濟學、進化生物學和計算機科學。在國防應用中，經常需要對敵對行動者的行動以及試圖躲避或超越對方的玩家進行建模和預測。對競爭者的行動如何影響對方的決策進行建模是博弈論的強項。在過去的幾十年里，有幾項研究應用博弈論的不同分支來模擬一系列與國防有關的情景。本文對這些嘗試進行了有條理的回顧，并從所模擬的戰爭類型、所使用的博弈類型以及所涉及的參與者方面對現有文獻進行了分類。經過仔細挑選，共討論和分類了29篇直接相關的論文。就所模擬的戰爭而言，我們認識到大多數在國防環境中應用博弈論的論文都涉及指揮和控制戰爭，并可進一步分為涉及（i）資源分配戰爭（ii）信息戰爭（iii）武器控制戰爭和（iv）對手監控戰爭的論文。我們還注意到，大多數論文都涉及傳感、跟蹤和大型傳感器網絡，所研究的問題與民用領域的傳感器網絡分析有類似之處。就所使用的游戲而言，我們將審查的論文分為使用非合作或合作游戲、同時或順序游戲、離散或連續游戲以及非零和或零和游戲的論文。同樣地，論文也被分為雙人、三人或多人游戲的論文。我們還探討了玩家的性質和每種情況下的報酬函數的構建。最后，我們還找出了文獻中的空白點，在這些空白點中，博弈論可以被有效地應用于迄今為止尚未用博弈論探索過的場景。所做的分析對博弈論在國防應用中的應用提供了一個簡明的總結，并強調了博弈論在所考慮的情況下的好處和局限性。

關鍵詞：決策；博弈論；國防科學；地面戰；海戰；空戰；跟蹤；傳感

1. 引言

博弈論已經成為傳統的理論框架之一，用于模擬我們生活中許多方面的重要決策過程。在經濟學、社會科學、金融學、項目管理、計算機科學、公民學和流行病學中都可以找到著名的例子。自從約翰-馮-諾伊曼、約翰-納什等人的開創性工作以來，人們已經充分認識到，在兩方或多方（玩家）之間的復雜互動（游戲）背景下，存在一種最佳策略，可以通向可預測的結果（報酬）。在實際情況下，這種結果往往可以是定量的，可以進行算術運算（成本、感染人數、接種人數等），但往往也可以是定性的（如風險、準備程度、健康狀態等）。

博弈論和相關數學方法的應用最近在國防領域引起了越來越多的關注。這是由兩個驅動因素造成的。首先，博弈論提供了一個自然的框架，通過用量化的術語如報酬、成本、收益或損失、風險等將高層次的政策決定迅速轉化為最佳戰略。這為國防決策者創造了一個統一的平臺，以支持達成一個特定的決定。第二，它提供了一個嚴格的數學框架，用于按照預定的標準評估和優化許多方案。這種迅速的評估往往成為國防作戰背景下的關鍵成功因素，導致在時間壓力下的決策優勢。這也成為國防行動中各種人工智能（AI）能力發展和部署的關鍵步驟。

博弈論在國防領域的應用有著持續和多樣化的歷史，從實時軍事系統的設計（例如，應用于導彈攔截）到支持大型國防投資和收購的戰略決策。關于具體的理論方法和工具及其國防應用有大量的文獻。我們相信，對這些文獻的回顧對于處理作戰分析和數據驅動的決策支持的社區是有意義的。這也是本研究的主要動機。

博弈論通過對形勢的整體和定量分析，加強了軍事戰略和決策過程。對軍隊來說，可用于博弈論分析的潛在情景包括快速增長的自主智能系統的應用，博弈論提供了一個全面的數學框架，大大增強了使用這些系統的人的決策能力。由于其潛力，博弈論的研究正在蓬勃發展，在這個軍事研究領域的文獻中開始出現一些以上的論文。本評論旨在幫助研究人員利用博弈論的知識體系，為國防從業人員開發更智能、更安全的決策系統。鑒于此類研究仍處于萌芽階段，我們通過在現有軍事知識與博弈論提供的新生可能性之間建立聯系，使其成為軍事控制系統中更廣泛理解和考慮的框架。

為了了解博弈論在國防領域應用的最新情況，并分析在這種情況下使用的游戲類型，需要進行回顧。據我們所知，目前還缺乏這樣的回顧，它涵蓋了博弈論在各種軍事領域的不同應用。本文的目標是提出這樣的評論，使人們更好地了解博弈論可以成功應用的眾多國防問題。此外，對不同背景下使用的博弈類型的多維分類，將為研究人員提供在相關問題中應用博弈論的新方法的見解。最后，我們提出了文獻中的空缺，希望能引起更多的研究和開發新的博弈論方法來解決防御問題。

盡管不是太廣泛，但圍繞軍隊中的博弈論的文獻體系已經涵蓋了不同形式的交戰和戰斗的顯著部分。這些論文涵蓋了過去、現在和未來的情況：從潛在敵對情況下的預測策略到對幾千年前軍事對峙的事后分析評估。博弈論已經證明有能力在任何此類軍事場景中發揮作用。然而，快速的技術進步帶來了持續的軍事交戰新領域，其中每一個領域都擁有自己的復雜系統。所涉及的首要領域是追蹤系統（跨越所有領域）、空中戰斗、地面戰斗、國家安全問題、網絡戰爭和空間系統。值得注意的是，博弈論在海軍戰爭中的應用很少，對未來類似領域研究的探索將在后面的評論中討論。在這些領域中，有無數的新的和創新的系統的可能性：不同的代理人，不同的武器，不同的控制結構--這些都可以用博弈論分析來豐富。雖然海伍德（Haywood）和桑霍姆（Thunholm）關于軍事決策中使用的博弈論的論文涵蓋了幾種不同的博弈類型，但似乎還沒有一篇論文涉及到在高性能計算和復雜算法基礎上建立的軍事系統的新背景下，博弈論在各自領域的軍事應用。我們的目標是以這樣一種方式來介紹文獻，即解決博弈論在軍事控制系統中每個關鍵領域的所有功能。

這篇評論經過仔細挑選，詳細參考了總共29篇論文。它強調了每篇分析論文的范圍和效用，從基本的博弈論概念方面介紹了它：玩家、游戲類型、策略和其報酬函數的關鍵參數。它既是一個帶注釋的書目，也是一個理解和規劃該領域進一步研究的框架。它還將列出玩家在每個軍事決策場景中考慮的基本原則，以及這些原則如何影響軍事人員和系統在與敵對玩家競爭或與友好玩家合作時做出的決定。這將使大多數軍事場景有可能被視為游戲，至少可以為熟悉的軍事情況提供一個有趣的新視角。這里審查的29篇論文是由來自國防、學術界和工業界的具有相關背景的專家團隊從Scopus和Google Scholar中挑選出來的，他們可以提供不同的觀點，根據不同的經驗確定最相關的論文。只有用英語寫的論文才被考慮。雖然我們承認沒有進行詳盡的搜索，但據我們所知，這些論文涵蓋了我們在此討論的研究領域的一個重要和有代表性的部分，并充分展示了這一領域的趨勢、重疊和文獻的差距。因此，我們有信心，所提出的分析將在所分析的論文之間進行嚴格的比較，并強調每篇論文的優勢和劣勢，同時也強調利用博弈論來模擬軍事背景下的決策的總體利弊。

本文的其余部分結構如下。第2節將討論我們所回顧的論文所闡述的基本防御原則，并介紹博弈論的基本概念。第3節對文獻進行了調查和分析，并總結了每篇論文中的發現和關聯。第4節根據上一節的觀察，闡述了我們對文獻的多維度分類，同時也介紹了與所回顧的論文相關的引文和其他指標。第5節指出了文獻中的空白，并在此基礎上強調了未來在這一領域的研究機會，特別是在博弈論迄今尚未經常應用的國防研究領域，可以從博弈論的應用中獲益。第6節深入討論了研究結果的實用性和所提交的評論的總體情況。最后，第7節總結了我們的發現和分類，并提供了廣泛的結論。

2. 背景

幾個世紀以來，關于戰爭的意識形態、信仰和知識一直在影響著人類的知識和哲學。孫子、荷馬和馬基雅弗利的偉大作品不僅為軍事決策的本質奠定了知識基礎，而且還為社會學和社會心理學提供了洞察力。軍隊構成了許多文明的核心權力集團，對現有國家的影響力增長和新國家的誕生都很重要。軍隊實時處理沖突，計劃未來，并回顧過去的交戰情況--這些活動中的每一項都會對社會產生影響。因此，本評論有必要涉及多個物理領域的軍事沖突的許多方面，下面將總結每個領域需要做出的主要決定。然而，在所有這些領域中，目標的價值、資源的價值和目標的優先級通常是形成報酬函數和戰略的關鍵參數，而這些參數反過來又定義了我們在建模中使用的游戲。

在本節中，我們將討論國防科學和技術以及博弈論中的概念，這些概念對于理解和分析所提出的細分領域的文獻是必要的。首先，讓我們討論一下本評論中所考慮的國防和國家安全的廣泛領域。如表1所示，它們可以被總結出來。

表 1. 本次綜述中使用的分類系統

如表1所示，在這次審查中，重點主要是 "指揮與控制 "戰爭，在這種戰爭中，決策是至關重要的。然而，指揮與控制戰爭適用于傳統的戰爭領域，如陸戰、海戰和空戰，以及現代戰爭領域，如太空和網絡戰爭。在一個正交的層面上，指揮與控制戰還可以細分為資源分配戰（RAW）、信息戰（IW）、武器控制戰（WCW），以及對手監控戰（AMW）。由于這些概念在我們的文獻分類中被廣泛使用，讓我們先簡單介紹一下。

2.1 戰爭類型

資源分配戰（RAW）：為實現軍事目標而分配軍事資源。

信息戰（IW）：操縱信息以實現軍事目標。

武器控制戰（WCW）。控制武器以實現軍事目標。

對方監控戰（AMW）。追蹤敵人的行為以實現軍事目標。

2.2 戰爭領域

2.2.1 陸地戰爭

技術是戰爭的決定性力量，而技術對于陸戰來說并不像對于其他領域那樣勢在必行。影響陸戰的技術是相對靜態的，并盡可能避免人力資源的暴露。如今，身體層面的人際戰斗已經不那么普遍了，為更多地關注定位戰略讓路。將博弈論應用于地面戰爭的文獻包括一個強大的武器-目標分配論文庫（涉及現代背景下的武器控制戰和資源分配戰），以及涉及古代地面交戰和游擊戰的論文。在人命脆弱的地方，保護他們是這些游戲中最重要的因素，其次是保護地面資產。

2.2.2 海上（海軍）戰爭

鑒于海軍在全球范圍內投射力量的重要性，關于海戰的公開文獻令人驚訝地少之又少--無論是否應用博弈論。在處理目標追蹤的論文中經常會提到海戰，但關于海軍軍事戰略的討論卻僅限于過時的文獻或對赤裸裸的基本要素的討論。我們將回顧這方面的現有論文，并強調這是一個在文獻中存在相當大差距的領域。

2.2.3 空中戰爭

在萊特兄弟發明飛機后不久，空戰就成為戰斗和軍事行動的一個關鍵因素。在一個很少受到障礙物或尺寸阻礙的戰斗媒介中，空戰的性質是快節奏的、直觀的和令人難以置信的險惡，有不可預測的交戰'規則'。在今天，與一個世紀前相比，需要考慮的因素要復雜得多，而且軍事力量在進行空戰時并不缺乏資源--包括人和機器。文獻顯示，由于這種豐富的武器庫，目標和用于交戰的資源的內在和潛在價值在空戰場景中特別重要。在評估作戰策略時，需要對沖突雙方的這些價值做出決定。因此，有幾篇論文討論了博弈論在空戰中的應用。

2.2.4 網絡戰

網絡安全是保護IT系統和網絡不被損壞/破壞/遭受信息盜竊。網絡戰涉及到信息和通信系統被故意攻擊以獲得軍事優勢的概念。盡管幾十年來，網絡安全一直是計算機科學的一個重要領域，但有關網絡戰的文獻卻比較少，而且在任何情況下，都與計算機科學中的博弈論在網絡安全相關領域的應用有很大的重疊。這篇評論介紹并分析了一些專門涉及網絡戰爭的論文。

2.2.5 太空戰

雖然太空戰的概念已經存在了近一個世紀，但既沒有實際的執行，也沒有建立起一套太空戰的理論策略[31]。然而，這并沒有阻止軍隊追逐星星（字面和形象），并不可避免地導致博弈論的概念被用于太空戰的戰略思維。這目前主要限于衛星網絡，其中游戲的關鍵參數是優化整個網絡的電力使用和信號強度。這個領域仍然相當年輕，在太空的進一步軍事發展似乎是不可避免的，與此相應的處理博弈論在太空戰中的應用的文獻也將增長。

2.2.6 混合/其他戰爭

有幾篇論文論述了博弈論在國防領域的具體應用，但卻不能被歸類為分析某類戰爭的論文。在其中一些論文中，重點更多的是放在所使用的技術上：例如，目標追蹤。在另一些論文中，需要進行防御的敵對行為者的性質發生了變化：例如，針對國內恐怖主義威脅而非敵對軍事力量的國家安全行動。有幾篇論文討論了博弈論在這種情況下的應用。

目標追蹤系統。軍事上的目標追蹤是對移動目標的觀察，以及對其位置和動作的監視。這個領域的成功依賴于觀察指標和數據的準確性，以及所有收集到的信息的有效分配和處理。隨著智能目標的出現，軍隊也必須納入預測方法，以保持理想的跟蹤性能。在這方面審查的文獻涵蓋了從跟蹤攻擊導彈到戰區彈道導彈，以及跟蹤未知智能代理到敵機的主題。這一領域中形成博弈的關鍵考慮因素涉及目標是否 "智能"/能否采取規避行動，目標是否會有一個最佳軌跡，以及目標是否會有防御者。博弈論的目標跟蹤應用大多發生在空戰和海戰中，包括水下監視。

國家安全的應用。博弈論經常在國家安全和反恐相關領域找到應用。這包括預測和準備恐怖襲擊，以及保護關鍵人員和地標/其他潛在恐怖活動目標的資源分配方案。雖然潛在目標的價值和攻擊的可能性顯然是制約這一領域博弈回報函數的關鍵參數，但隨后的社會、經濟和政治影響在這一領域的博弈建模中同樣重要。很少有軍事沖突能像后方的沖突那樣被曝光，恐怖襲擊的后果及其對公眾情緒和對安全機構的信心的影響，在建立這一領域的回報函數模型時經常被考慮在內。

2.3 博弈論

博弈論是對戰略決策的研究，最早是作為微觀經濟學的一個分支發展起來的。然而，后來它又被用于不同的研究領域，如進化生物學、社會學、心理學、政治學、項目管理、財務管理和計算機科學。博弈論之所以獲得如此廣泛的適用性，是因為不同學科中普遍存在戰略決策情景。博弈論提供了對特殊行為互動的洞察力，如動物群體內的合作互動、婚姻中的討價還價和交換或蘇格蘭鮭魚養殖者的激勵。一個游戲通常包括兩個或更多的參與者，一組可供這些參與者使用的策略，以及每個參與者相應的一組報酬值（也稱為效用值）（在雙人游戲的情況下通常以報酬矩陣的形式呈現）。

2.3.1 純粹策略與混合策略

游戲中的純策略提供了玩家如何進行游戲的完整定義。

一個棋手的策略集是該棋手可用的純策略集。混合策略是純策略的組合，其中有一個特定的概率p（0≤p≤1）與這些純策略中的每一個相關聯。由于概率是連續的，所以一個棋手有無限多的混合策略可供選擇。完全混合策略是一種混合策略，在這種策略中，玩家對每個純策略都賦予了嚴格的正概率。因此，任何純策略實際上都是混合策略的退化情況，在這種情況下，選擇該特定策略的概率為1，而選擇其他每個策略的概率為0。

2.3.2 納什均衡

納什均衡的概念是博弈論的基礎。它是戰略博弈中的一種狀態（一組策略），就報酬而言，沒有任何一方有動機單方面偏離這種狀態。純策略和混合策略納什均衡都可以被定義。一個戰略博弈往往可以有一個以上的納什均衡。事實證明，每一個玩家數量有限的博弈中，每個玩家可以從有限多的純策略中進行選擇，至少有一個混合策略的納什均衡。

納什均衡的正式定義如下。假設 (S, f) 是一個有 n 個玩家的博弈，其中 Si 是給定玩家 i 的策略集。因此，由所有參與者的策略集組成的策略配置文件 S 將是，S=S1 × S2 × S3… × Sn。令 f(x)=(f1(x),…,fn(x)) 為策略集 x∈S 的支付函數。假設 xi 是參與者 i 的策略，x?i 是除參與者 i 之外的所有參與者的策略集。因此，當每個玩家 i∈1,…,n 選擇策略 xi 時，策略集 x=(x1,…,xn)，給特定玩家的收益 fi(x)，這取決于該玩家選擇的策略 (xi) 和其他玩家選擇的策略 (xi-i)。如果任何單個參與者的策略單方面偏差都不會為該特定參與者帶來更高的效用，則策略集 x?∈S 處于納什均衡。正式地說，x? 處于納什均衡當且僅當：

2.3.3 非合作性博弈和合作性博弈

通常情況下，博弈被認為是為了玩家的自身利益而進行的，即使玩家進行合作，那也是因為在他們看來，合作是在這種情況下使玩家的個人收益最大化的最佳策略。在這樣的博弈中，合作行為即使出現，也是由自私的目標驅動的，而且是短暫的。這些博弈可以被稱為 "非合作性博弈"。這些博弈有時被稱為 "競爭性博弈"，這是不準確的。非合作博弈論是分析這類博弈的博弈論的一個分支。另一方面，在合作博弈中，有時也被稱為聯盟式博弈，玩家形成聯盟或團體，有時是由于外部對合作行為的強制執行，如果出現競爭，則在這些聯盟之間發生。合作博弈使用合作博弈理論進行分析，該理論預測了哪些聯盟會形成，以及這些聯盟的回報率。合作博弈理論的重點是聯盟之間的剩余或利潤分享，即聯盟由于形成了聯盟而被保證了一定的報酬。通常，在一個系統中進行的合作博弈的結果相當于一個受限的優化過程的結果。

2.3.4 零和博弈

零和博弈是一類競爭性博弈，所有參與者的報酬總額為零。在雙人游戲中，這意味著一個玩家的報酬損失等于另一個玩家的報酬收益。因此，一個雙人零和游戲可以用一個只顯示一個玩家報酬的報酬矩陣來表示。零和博弈可以用最小最大定理來解決，該定理指出，在零和博弈中，有一組策略可以使每個玩家的最大損失最小（或最小報酬最大化）。這種解決方案有時被稱為 "純鞍點"。可以說，股票市場是一個零和游戲。相比之下，大多數有效的經濟交易都是非零和的，因為每一方都認為，它得到的東西（對它自己來說）比它分到的東西更有價值。

2.3.5 完美與不完美的信息博弈

在完美信息博弈中，每個玩家都知道所有其他玩家先前行動的全部歷史，以及游戲的初始狀態。在不完全信息博弈中，一些或所有的棋手無法獲得關于其他棋手先前行動的全部信息。

2.3.6 同期博弈和順序博弈

同期博弈是一種正常形式的博弈或廣泛形式的博弈，在每一次迭代中，所有玩家都同時做出決定。因此，每個玩家被迫在不知道其他玩家（在該迭代中）所做決定的情況下做出決定。相反，順序博弈是一種廣泛形式的博弈，在這種博弈中，玩家按照某種預定的順序做出決定（或選擇策略）。例如，如果一方總是有特權提出第一個提議，而其他各方在此之后提出他們的提議或還價，那么談判過程就可以被模擬為一個順序博弈。在順序博弈中，至少有一些玩家在做出自己的決定之前可以觀察到其他玩家的至少一些行動（否則，博弈就變成了同時博弈，即使玩家的行動在時間上并不同時發生）。然而，并不是一定要讓某個棋手可以觀察到之前每個棋手的每一步棋。如果一個棋手可以觀察到每個前一個棋手的每一步棋，這樣的順序博弈就被稱為有 "完全信息"。否則，這個游戲就被稱為 "不完美信息"。

2.3.7 差分博弈

差分游戲通常是廣泛形式的游戲，但不是有離散的決策點，而是在一個連續的時間框架內進行建模。在這種博弈中，每個狀態變量都根據微分方程隨時間連續演化。這種博弈是模擬快速演變的防御場景的理想選擇，在這種情況下，每個參與者都會對某些參數進行自私的優化。例如，在導彈跟蹤問題中，追擊者和目標都試圖控制他們之間的距離，而追擊者不斷試圖最小化這個距離，目標則不斷試圖增加這個距離。在這種情況下，迭代的決策回合對于模擬每個參與者的連續運動和計算來說過于離散。差分游戲是模擬這種情景的理想選擇。

2.3.8 共同利益博弈

共同利益博弈是另一類非合作博弈，其中存在一個所有玩家都嚴格偏愛的行動方案，而不是其他所有方案。換句話說，在共同利益博弈中，玩家的利益是完全一致的。可以說，共同利益博弈是零和博弈的對立面，在零和博弈中，玩家的利益是完全對立的，所以一個玩家的財富增加必然導致其他人的財富集體減少。共同利益博弈最早是在冷戰政治的背景下被研究的，以了解和規定處理國際關系的策略。因此，把非合作博弈分為共同利益博弈和非共同利益博弈是有意義的，就像把它們分為零和博弈和非零和博弈一樣，因為這兩個概念（零和博弈和共同利益博弈）代表了非合作博弈的極端情況。

2.3.9 信號博弈

信號博弈是一種不完全信息博弈，其中一個玩家擁有完全信息，而另一個則沒有。擁有完全信息的一方（發送方S）通過信號向另一方（接收方R）傳遞信息，而另一方在推斷出隱藏在信息中的信息后將對這些信號采取行動。發送者S有幾種潛在的類型，其中確切的類型t在游戲中對接收者R來說是未知的，t決定了S的報酬，R只有一種類型，這種報酬對雙方都是已知的。

該游戲分為發送階段和行動階段。S將發送M={m1,m2,m3,...,mj}中的一個信息。R將收到該信息，并從A={a1,a2,a3,...,ak}集合中選擇一個行動作為回應。每個玩家收到的報酬由發送者的類型和信息的組合，以及接收者回應的行動所決定。信號游戲的一個例子是啤酒-蛋餅游戲[52]，在這個游戲中，玩家B，即接收方，選擇是否與玩家A決斗。玩家A要么很兇，要么很懦弱，而玩家B只想與后者決斗。玩家A選擇喝啤酒或吃乳蛋餅作為早餐。雖然他們更喜歡吃乳蛋餅，但乳蛋餅發出的信息是吃乳蛋餅的人很懦弱的刻板印象。玩家B必須分析每個決定，決斗或不決斗，如何根據玩家A選擇的早餐給他們帶來更好的回報。

2.3.10 行為博弈論

行為博弈論將經典博弈論與實驗經濟學和實驗心理學結合起來，并在此過程中放松了經典博弈論中許多不現實的簡化假設。它偏離了諸如完全理性、獨立公理和不考慮利他主義或公平作為人類決策的動機等簡化假設。我們將在這篇評論中表明，與行為博弈論有關的方法在模擬軍事場景方面至關重要，例如在信號博弈方面。

2.3.11 進化博弈論

進化博弈論是博弈論在進化生物學領域的應用成果。進化博弈論中提出的一些關鍵問題包括：哪些種群/策略是穩定的？哪些策略可以在其他策略盛行的種群中 "入侵"（變得流行）？在迭代博弈的背景下，玩家如何應對其他玩家獲得或被認為獲得更好的回報？進化游戲通常被建模為迭代游戲，即一群玩家在一個混合良好或空間分布的環境中迭代地玩同一個游戲。

如果一個策略在盛行時有可能阻止任何突變的策略滲入其環境，那么它就可以被確定為進化穩定策略（ESS）。或者說，ESS是指如果一個種群在給定的環境中采用了這種策略，就不能被任何替代策略所入侵。因此，玩家從ESS轉向另一種策略是沒有好處的。因此，從本質上講，ESS確保了一個擴展的納什均衡。對于一個策略S1來說，要想成為對抗另一個 "入侵 "策略S2的ESS，需要滿足下面提到的兩個條件之一，即預期報酬E。

E（S1，S1）>E（S2，S1）。通過單方面改變策略到S2，該玩家將在與另一個堅持ESS S1的玩家的競爭中失利。

E(S1,S1)=E(S2,S1) & E(S1,S2)>E(S2,S2)：一個棋手通過轉換到S2，在與另一個堅持ESS S1的棋手對弈時，既沒有收獲也沒有損失，但與已經 "轉換 "到S2的棋手對弈時，棋手最好還是選擇ESS S1。

如果滿足這兩個條件中的任何一個，新策略S2就沒有能力入侵現有策略S1，因此，S1對S2是一種ESS。進化游戲通常被建模為迭代游戲，即群體中的玩家迭代地玩同一個游戲。

2.3.12 博弈論的其他最新進展

需要指出的是，博弈論的其他幾個分支在上面的小節中沒有提到，也有幾個最新的進展沒有提到。博弈論被用于越來越多的不同場景和應用中。例如，博弈論被用來確定電信業中競爭者的市場份額，或沼氣廠的實施和建設。在一些應用中，矩陣博弈的報酬被構建為包含模糊元素，據說這使得建模的場景更加真實。同樣，量子博弈論是一個新興領域，它引入了疊加的初始狀態、初始狀態的量子糾纏和策略的疊加。這里不能總結所有這些進展。因此，本節只對那些在防御文獻中，特別是在我們評論的論文中經常使用的博弈論概念做了基本介紹。因此，對于不熟悉博弈論的讀者來說，以上各小節提出了一個基本的介紹。請看對所提出的概念的更詳細的處理。

在此背景下，我們現在回顧一下現有的涉及博弈論在國防科技領域應用的文獻。

3. 博弈論在國防科技中的應用

如前所述，在模擬防御場景的游戲中，影響報酬矩陣的主要參數是目標的價值、資源的價值和目標的優先級。除此以外，國防應用中使用的游戲可以有很大的不同，我們將在下面看到。出于這個原因，本節是根據每篇論文所涉及的領域（戰爭類型）來安排的。如果一篇論文涵蓋了一個以上的領域，它將被列入最相關的小節/領域。然而，我們詳細分析了每篇論文所使用的游戲類型、報酬函數的結構方式、可用策略和均衡等。

3.1 研究陸戰的論文

在與陸戰有關的博弈論應用中，大多數研究都集中在防御性戰爭上，即軍隊決定如何最好地分配他們的地面防御來應對多種威脅。一些研究還關注歷史上的陸上沖突，并提供事后的博弈論分析，揭示了在歷史沖突中一些憑直覺做出的決定是如何具有理性和數學上的理由的。陸地戰爭可能導致非常嚴重的傷亡，因此了解如何最好地減少人員損失是陸地戰爭的一個關鍵組成部分（盡管不是唯一的目標）。很多時候，確定軍事資源的優先次序也是成功的根本，并經常在戰略決策中占據突出地位。此外，在涉及地面戰爭的情況下，經常需要評估對對手、其可能的戰術或地形的了解：可能需要打擊在某些地方插入的空降部隊，或者需要穿越不確定的領土。在每一種情況下，了解一支部隊在什么地方擁有不完善的信息將有助于該部隊做出合理的決定。

有幾篇論文使用博弈論來模擬當前和歷史背景下的陸地戰爭。Bier等人設計了一個博弈，將防御資源最好地分配給一組需要保護的地點/資源。然后，攻擊者必須決定他們如何選擇分割他們的力量來攻擊不同的目標。這個游戲被模擬成一個正常形式的雙人游戲。這個游戲的回報是絕對的，對一個地點i的攻擊要么成功，要么失敗，攻擊方獲得ai，防御方失去di。由于攻擊的命令是在攻擊前確認的，所以攻擊者必須使用一套純策略。這個游戲既可以同時進行，也可以依次進行。也就是說，游戲的進行取決于攻擊者在做出決定之前是否知道防御者如何分配他們的資源。這就導致了理想的策略是讓一些目標不受防御，并通過讓一些地區脆弱來加強關鍵地區的防御。

我們評論的下一篇論文是Gries等人的文章，它全面調查了博弈論原則在游擊戰/顛覆戰中的效用。他們建立的模型的重要因素是：破壞穩定的叛亂分子經常隨機攻擊，造成持續的威脅，必須有一個持續的緩解和檢測策略；戰爭的持續時間是需要考慮的，它將改變分配給目標和資產的價值；時間偏好在設置優先級方面起著關鍵作用，因為對價值的判斷決定了戰略決策，反過來決定成功或失敗。他們提出的博弈模型涉及一個連續的非合作博弈和一個同時的非合作博弈，在每一個博弈中，兩個參與者是游擊隊和政府。對于這些沖突，經濟和社會影響要比軍事損失和收益重要得多，因此在計算結果的價值方面發揮了更大的作用。

游戲特別模擬了每一方尋求與對方和平或沖突的時刻。在這些時刻，政府軍必須考慮每個選項的財務成本，而叛軍則要考慮交戰的優先順序，以及他們將為每個交戰提供哪一部分戰斗力。圖1展示了在破壞穩定的戰爭中從這些時刻出現的決策樹的例子，其中G代表政府的決策，R代表叛軍的決策。

圖 1. 破壞穩定戰博弈，其中突出顯示了政府和叛軍的決策點

Krisnamurthy等人研究了對無人值守地面傳感器網絡（UGSN）動態行為的博弈論控制，以獲取有關入侵者的信息。該網絡中的每個傳感器都能夠以特定的精度接收附近目標的范圍和方位的測量值，然后將其傳輸到本地中心進行數據融合。在這個框架中，雖然更多的傳感器測量值和更大的測量值傳輸量可能會導致更好的目標意識，但這也導致了對有限電池電量的更大消耗的不良影響。因此，應用博弈論的目標是使用一種雙時間尺度的分層方法，對目標意識、數據傳輸和能源消耗進行最佳權衡。

作者證明，傳感器的激活和傳輸調度問題可以分解為兩個耦合的分散算法。特別是，傳感器被視為非合作游戲中的參與者，并提出了一個自適應學習策略，以根據傳感器與感興趣的目標的接近程度來激活它們。這被證明是這個非合作博弈的相關均衡解。接下來，傳輸調度問題，即每個傳感器必須在每個時間點決定是傳輸數據和浪費電池電量，還是等待和增加延遲，被表述為具有懲罰性終端成本的馬爾科夫決策過程。這一表述的主要結果是表明，最佳傳輸策略具有閾值結構，然后用超模數的概念來證明。

有幾項研究用博弈論的棱鏡分析了主要發生在陸地上的歷史沖突。例如，Cotton和Liu描述了兩個中國古代的軍事傳說，并將其建模為信號游戲。在這兩個游戲中，傳說中的軍事領導人面對的是數量和力量都遠遠超過自己的軍隊的強大對手，但他們并沒有撤退，而是準備交戰，表現得就像在設下埋伏。他們的對手在信息不完善的情況下，只能從對手的行動中推斷出一些信息；由于被這些將軍的自信和名聲所嚇倒，對方的軍隊雖然在實際實力上占優，但卻選擇不交戰。通過勇敢而巧妙的虛張聲勢，兩位將軍都通過站在自己的立場上實現了對自己有利的平衡方案。他們通過在沒有直接溝通的情況下制造欺騙來做到這一點，這遵循了前面提到的Beer-Quiche信號游戲的模板。

科頓和劉描述的第一個游戲是 "100個騎士 "游戲。他們描述了這樣一段歷史：一百名漢族騎兵獨自旅行，遇到了一支人數達數千的匈奴部隊。他們可用的策略是撤退或交戰。如果他們撤退，而敵人參與進來，他們很可能會被擊垮和擊敗；如果他們參與進來，而敵人也參與進來，他們將在戰斗中被淘汰。對他們來說，最好的結果是以某種方式迫使敵人退卻。敵人不確定這些騎兵是否與更大的軍隊同行。他們看到騎兵的行動，決定不冒這個險，而是撤退。這種情況被轉化為一個雙人游戲，有兩種策略。如下圖2所示:

圖 2. 100 Horsemen 信號博弈

在圖 2中：

LG代表漢軍李廣將軍的決策點。

GenX代表了敵對匈奴勢力的決策點。

收益被列為（LG，GenX）

λ∈(0,1) 代表將軍的能力，

α 和 β 代表在撤退中喪生的漢族騎兵比例

w 是一個正參數

第二個游戲與第一個游戲非常相似。在這個游戲中，一個小城市由強大的諸葛亮將軍守衛。他得知一支巨大的敵對軍隊正在接近這座城市。他面臨著兩個選擇。他可以逃跑，之后他將脫離城市，并可能被逼近的軍隊追趕，或者他可以留下并保衛城市。如果他選擇后者，而軍隊參與進來，他很可能會失去他的生命、他的軍隊和這座城市。面對這種兩難的局面，他命令他的人躲在視線之外，使城市從外面看起來是空的。他爬上城中最重要的塔頂，演奏音樂。對方的將軍知道梁將軍的經驗和能力，懷疑將軍在空城的塔樓上采取這個不起眼的位置來伏擊他的軍隊，于是他們遠離城市以避免被伏擊。梁將軍在這里有效地發出了兩個信號。第一個是他的聲譽，這個信號包含了他的戰略和軍事力量。第二是他選擇留下來保衛城市。有了這兩點信息，再加上沒有其他關于梁將軍軍隊的下落或規模的信息，對方軍隊選擇了零損失的安全選擇，離開了。這段歷史被模擬成另一個雙人信號游戲，如下圖3所示:

圖 3. 空城信號博

在圖 3 中：

ZL代表諸葛亮將軍的決策點

收益被列為（ZL，反對軍）

λ∈(0,1) 代表將軍的能力，

c代表城市的價值

w 代表 ZL 的軍隊與對方軍隊匹配時的收益

y表示ZL的軍隊比對方軍隊弱時的損失，并且y>c,因為它包括失去城市

這兩段歷史都代表了面對近乎確定的失敗時做出的杰出軍事決策，實際上是將軍們對信號的細微差別有深刻理解的例子，并在戰略互動中做出理性決策，迫使他們取得有利于自己的結果。

3.2 研究海戰的論文

令人驚訝的是，盡管海戰在人類歷史上比空戰要早很多，但直接和主要利用博弈論來研究海戰的論文卻相對罕見。萊文利用博弈論的概念研究了前幾個世紀的海戰的各個方面。在18和19世紀，當時的強國建造的戰艦都是沿著船舷放置大炮的。這意味著船只通常只能對其兩側進行攻擊。當以艦隊形式航行時，標準的做法是形成 "戰線"，即一列聯軍軍艦沿某一方向航行，使其兩側面對敵人，也擺成一排。然后，兩支平行的對立艦隊可以用大量的大炮攻擊對方。戰線 "戰略被認為是一種納什式的平衡，因為兩支艦隊都不會從進行耙擊（當時的一種戰術，即攻擊艦會試圖駛過對手的船尾，將大炮集中在那里開火，而敵人由于船尾的大炮位置較少，只能做出最小的反應。攻擊艦會同時破壞對手的船尾和一些寬舷）。根據列文的說法，在一支艦隊中，耙網并不是首選，因為這意味著必須先在敵人前面航行，然后轉向它--當船只的速度大致相同，而且操縱困難時，這是個具有挑戰性的任務。由于兩支艦隊都不會從轉向敵人的過程中獲益，也不會領先，萊文得出結論，這種策略--形成一條戰線并與對方艦隊平行航行--是每支艦隊的最佳反應，因此代表了納什均衡。

萊文接著提到了一些戰役，在這些戰役中，英國艦隊偏離了上述策略，向法國和法國-西班牙艦隊正交航行。在萊文提到的第一場戰役中，這可能是沒有計劃的。在第二場戰役--1805年的特拉法爾加戰役中，它是經過精心設計的：英國艦隊分成兩個縱隊，每個縱隊都以正交方向駛向法西戰線，在撞開戰線并開始全面混戰之前，進行了大約45分鐘的猛烈攻擊。英國人繼續孤立了法西艦隊的中間部分，取得了決定性的勝利。萊文認為這兩場戰役都是他論點的反例。然而，在特拉法爾加戰役中，英國的戰略有可能是對法國和西班牙可能形成的正統戰線戰略的最佳回應。英國海軍上將納爾遜勛爵希望阻止法西艦隊逃跑--如果兩支艦隊形成平行戰線，他們就可以逃跑--從而減少他將自己的艦隊組成戰線所得到的回報。此外，他可能估計到法國和西班牙船只的炮擊能力較差，會降低炮擊的效果，從而減少他直接向法國-西班牙艦隊發起沖鋒所獲得的負面獎勵。在他看來，這可能使得非正統的選擇比正統的戰線更能應對法西可能的戰略。雖然萊文沒有明確地將當時海戰中的這些策略歸結為博弈論，但所采用的策略還是可以通過博弈論分析來證明：這是一個沒有正式研究博弈論的 "直覺 "應用的例子。

Maskery等人在2007年(a)研究了使用網絡支持的操作(NEOPS)框架部署反艦導彈的問題，在這個框架中，多艘艦艇進行通信和協調以防御導彈威脅。在這里，導彈威脅被模擬成一個離散的馬爾可夫過程，它們在一個固定的物理空間內的隨機位置出現，并遵從一些已知的目標動力學和制導規律向艦艇移動。裝備有反制措施（CM）如誘餌和電磁干擾信號的艦艇被模擬為瞬時隨機博弈的參與者，其中單個參與者的行動包括使用CM來最大化自己的安全，同時與其他基本上以實現相同目標為目的的參與者合作。這個博弈論問題的最優策略是一個相關的均衡策略，并被證明可以通過一個具有雙線性約束的優化問題來實現。這與tepmaskery2007decentralized提出的一個相關問題但沒有玩家協調的納什均衡解決方案形成對比。本文的一個值得注意的貢獻是，它還量化了實施NEOPS均衡策略所需的溝通量。本文強調了博弈論方法在分析現代戰爭中至關重要的網絡系統的最優策略方面的效用。

在[71]中，Maskery等人2007年（b）考慮了以網絡為中心的特遣部隊對反艦導彈的保護問題。這個模型中的決策者是配備了硬殺傷/軟殺傷武器（反制措施）的艦艇，這些艦艇也被認為是在博弈論環境下制定這個問題的參與者。這些平臺必須就反措施的最佳部署做出獨立的關鍵決定，同時他們也要為保護任務組成員的共同目標而努力。從本質上講，這是一個海軍環境中的分散導彈偏移問題，它被表述為一個瞬時隨機博弈，艦艇可以計算出一個處于納什均衡的聯合反措施政策。在這里，艦艇之間的博弈而不是與導彈的博弈。這種方法自然適合于分散的解決方案，在完全通信不可行的情況下可以實施。此外，這種提法導致問題被解釋為隨機的最短過去博弈，已知存在納什均衡的解決方案。Bachmann等人使用非合作的雙人零和博弈分析了雷達和干擾器之間的互動。在他們的方法中，雷達和干擾器被認為是目標相反的 "玩家"：雷達試圖最大限度地提高探測目標的概率，而干擾器則試圖通過干擾雷達來最小化其探測。

Bachmann等人假設在存在瑞利分布雜波的情況下有一個Swerling II型目標，對于這個目標，在不同的干擾情況下，單元平均（CA）和順序統計（OS）CFAR處理器的某些效用函數被描述。這種博弈論的表述是通過優化這些效用函數來解決的，這些效用函數受到控制變量（策略）的約束，對于干擾者來說是干擾者的功率和干擾的空間范圍，而對于雷達來說，可用的策略包括閾值參數和參考窗口大小。由此產生的矩陣形式的博弈被用于解決雷達和干擾器的最佳策略，從中確定雷達和干擾器有效實現其各自目標的條件。

3.3 研究空戰的文件

空戰通常是一種正常形式的游戲，在交戰前，根據對武器庫中不同元素的強度的假設和知識，對所利用的資源做出決定。例如，壓制敵方防空車（SEADs）對地對空防御和地對空導彈（SAMs）是有效的，但對戰斗機則沒有用。因此，當軍事人員決定在交戰中使用哪些資源時，他們需要權衡每種資源的價值，以及目標對沖突雙方的重要性。如果攻擊部隊對一個目標的重視程度遠遠超過其實際價值，那么他們增加的資源支出可能會對其整個軍事行動造成損害。在人類通常操作空中武器的情況下，他們各自的能力和技能，以及他們執行任務的可能性，都需要考慮。

關于用博弈論建模的空戰的文獻有限。漢密爾頓為博弈論在多種空戰情況下的應用提供了一個全面的指導。漢密爾頓建議使用博弈論來制定戰略，不僅要基于自己的軍事選擇，還要考慮對敵人行動的預期。博弈論說明了與敵人的不同互動，而不是簡單地考慮哪一方擁有優越的最大努力力量。如今，許多軍隊可以適應即時變化的情況，并根據這些新情況調整自己的行動。因此，漢密爾頓建議首先確定每一方可用的所有戰術選擇。如前所述，將博弈論用于軍事的最基本要素之一是了解每項資產到底有多少價值--詳細說明雙方的庫存和戰略可能性將最好地澄清所有戰略選擇。對于每個選項，漢密爾頓建議分配一個數值--有效性衡量（MoE）。關于效果衡量的決定是很重要的，因為準確的效果衡量將為戰略上的選擇提供基礎。不正確的MoEs會導致不正確的戰略決策，也許還會導致對決策錯誤的原因理解不足。這方面的一個例子（雖然不是在空戰的背景下）是越南戰爭，美國的早期戰略是最大限度地消滅越共士兵。由于越南北部的領導層并不十分重視他們的步兵，美國的戰略最終導致了戰爭的失敗。接下來，漢密爾頓建議計算沖突雙方戰略之間所有可能的相互作用的綜合價值。這將產生一個回報矩陣，從中可以得出每個玩家的最佳或主導戰略，然后得出一個均衡解。因此，在軍事領導人可能參與的任何交戰之前，他們對游戲的預期結果有一個成熟的想法。漢密爾頓在這些準則中加入了一個注意事項，即把軍事行動的長度作為一個整體來考慮。如果資源的替換成本低或數量多，那么可以分配給一次戰役或打擊攻擊的價值就可能很小。然而，根據整個戰役中這種小規模沖突的數量，這些資源可能會變得非常關鍵。

為了說明這些觀點，漢密爾頓將其應用于一個標準的海空導彈和時間關鍵目標的空戰游戲。在這場戰斗中，"藍方 "正試圖消除一些地面目標。為了做到這一點，他們使用了海空導彈。作為回應，'紅方'將發射防空導彈，而防空導彈則要努力避開。然而，在期待這種回應的同時，藍方也有攻擊機，它們可以防御海空導彈并反擊薩姆導彈，但無法攻擊目標。藍方的問題是：目標的價值是什么，應該為目標部署何種比例的海空導彈和攻擊機？同樣，對于紅隊來說：目標的價值是多少，如果有的話，應該發射多少枚防空導彈？漢密爾頓認為，紅方的最佳策略是只在交戰的一小部分時間內開火，這相當于：

最優藍色策略是將部分飛機分配為SEADs，等于：

在這里，

Pks 是 SAMS 摧毀 SEAD 的概率

PkA 是攻擊機摧毀 SAM 的概率

這種提法簡明扼要地預測了在每一種可能的飛機和導彈發射任務下交戰的可能結果。必須指出的是，在實踐中準確量化不同目標和資源的數值是非常困難的。

Garcia等人2019年研究了在海上海岸線上防御兩架敵機的問題，這兩架敵機的主要目標是入侵防御方飛機控制的領土。而防守方則試圖通過試圖在離邊界盡可能遠的地方連續攔截兩架敵機來防止這種情況。這是一個典型的追擊-逃亡場景，代表了機器人、控制和防御領域的許多重要問題。在本文中，Garcia等人將這一問題表述為零和差分博弈，即防御者/追擊者試圖在離被防御的海岸線盡可能遠的地方連續捕獲兩個攻擊者/入侵者，而攻擊者則合作并在他們被對抗之前使他們離邊界的總距離最小。然后，Garcia等人通過解決一組非線性方程，在這個一防二攻的追逃博弈中找到攻擊者和防守者的最優策略。本文討論的合作策略為能力較弱（也許是速度較慢）的代理人在執行任務時提供了一個重要的協調方法。

Garcia等人在2017年考慮了一個空戰場景，即被攻擊導彈攻擊的目標飛機利用防御導彈來保護自己，因為它試圖在防御者達到與攻擊導彈盡可能近的距離時逃離攻擊者。該游戲被稱為主動目標防御差分游戲（ATDDG）。在本文中，作者擴展了以前在這個三方問題上所做的工作，為ATDDG開發了一個閉式分析解決方案，其中防御者導彈如果進入一個半徑為rc>0的捕獲圈內，就可以擊敗攻擊者。此外，盡管攻擊者采用了未知的制導法，而不是假設它是比例導航（PN）或追求（P），本文所展示的閉式最佳狀態反饋解決方案應該是有效的。最后，作者提供了一套目標飛機的初始條件，在這些條件下，盡管攻擊導彈采用了未知的制導法，但如果目標防御者團隊發揮了最佳作用，其生存就會得到保證。

Deligiannis等人考慮了多輸入多輸出（MIMO）雷達網絡中存在多個干擾器時的競爭性功率分配問題。雷達網絡的主要目標是使雷達發射的總功率最小，同時對每個目標達到特定的探測標準。在這個問題上，雷達面對的是智能干擾器，這些干擾器可以觀察到雷達的發射功率，從而決定其干擾功率，以最大限度地干擾雷達。在這里，Deligiannis等人將這個功率分配問題視為一個非合作博弈，參與者是中央雷達控制器和干擾器，并使用凸優化技術解決這個問題。此外，他們還提供了這種情況下納什均衡的存在性和唯一性的證明，在這種情況下，沒有玩家可以通過改變其功率分配來進一步獲利。

同樣，He等人考慮了多態雷達網絡中的雷達對抗問題，其中研究了在存在智能干擾器的情況下聯合功率分配和波束成形的博弈論表述。該網絡中每個雷達的目標是滿足目標的預期探測性能，同時使其總發射功率最小化并減輕潛在的干擾。另一方面，干擾器的目標是調整自己的發射功率來干擾雷達，以保護目標不被發現。首先，He等人研究了功率分配博弈，每個參與者（雷達和干擾者）的策略集由各自的發射功率組成。然后，他們著手解決相應的優化問題，以計算出雷達和干擾者的最佳響應函數，并表明納什均衡的存在和唯一性。接下來，他們再次將有干擾者存在的聯合功率分配和波束成形器設計問題視為非合作博弈，并提出了一種功率分配和波束成形算法，該算法被證明可以收斂到其納什均衡點。

McEneaney等人研究了無人駕駛飛行器（UAVs）對地面目標和地對空導彈（SAM）系統等防御單位的指揮和控制問題。這項工作的動機來自于無人駕駛空中作業場景中對作業計劃和實時調度的要求。該問題被模擬為藍色玩家（無人機）和紅色玩家（包括薩姆導彈和地面目標）之間的隨機博弈。每一方都可能有一些目標：例如，藍方玩家可能試圖摧毀一個戰略目標，同時盡量減少對自己的損害。另一方面，紅色玩家可能試圖對無人機造成最大傷害，同時保護自己不受無人機的攻擊。

無人機的控制策略由一組離散變量組成，對應于要攻擊的具體目標或防空導彈，而防空導彈的控制策略是將其雷達 "打開 "或 "關閉"。請注意，當雷達 "打開 "時，防空導彈對藍方玩家造成傷害的概率會增加，而藍方玩家對防空導彈造成傷害的概率也會增加。這個隨機博弈的解決方案是通過動態編程得到的，并通過一些數字例子加以說明。這項工作的主要貢獻是分析了不完全信息下隨機博弈的風險敏感的控制方法。特別是，這種方法不僅可以處理由于隨機噪聲造成的噪聲觀測，還可以處理觀測中包含對抗性成分的情況。

Wei等人開發了一個用于多個無人駕駛戰斗飛行器（UCAVs）協同工作的任務決策系統。UCAVs的武器是空對空導彈。在論文中，由一架無人駕駛戰斗轟炸機和兩架UCAV組成的紅色UCAV小組試圖打擊一個藍色小組的地面目標。藍隊有自己的一套UCAVs，其目標是擊敗紅隊。一枚特定的導彈對其選擇的威脅的成功取決于攻擊者和威脅之間的距離、它們的相對速度和相對角度。該場景被表示為一個同步正常形式的博弈，團隊的策略與藍隊實體對紅隊實體的分配相對應，反之亦然。在本文中，紅隊或藍隊的回報是基于考慮特定分配的有效性，而這又取決于對立團隊分配分組之間的相對幾何。Dempster-Shafer（D-S）理論被應用，其中D-S組合公式被用來制定報酬。這些為每個策略計算的報酬，然后被放入雙矩陣中，即每個團隊都有一個，并使用線性編程優化方法解決。如果不存在最優的納什均衡，則采用混合策略的方法進行求解。然后，作者開發了一些具有不同幾何形狀的任務場景，并說明了其博弈論分配策略的使用。他們使用包含紅隊和藍隊相互靠近的實體幾何圖形的注釋圖來證明由他們的報酬公式確定的分配策略是令人滿意的。

Ma等人開發了一種博弈論方法，為在超視距（BVR）空戰對抗中相互交戰的多個無人駕駛飛行器（UAV）團隊生成一種合作占用決策方法。由于導彈技術的發展使遠程交戰成為可能，BVR作戰成為可能。在本文中，每一方的團隊首先決定其無人機實體的占用位置（笛卡爾空間中的立方體），然后為每個無人機團隊成員選擇目標。目標是讓每一方獲得最大的優勢，同時經歷盡可能小的威脅條件。零和同步雙矩陣博弈被應用于分析該問題。對于一個給定的無人機占有率，高度和距離的優勢公式，考慮到射程和武器的最低/最高性能標準，用于產生效用函數的報酬值。由于游戲的規模會隨著每隊占用方塊和無人機數量的增加而導致規模的爆炸（從而導致策略的爆炸），作者選擇了在早期作品中為解決大規模零和博弈問題而設計的Double Oracle（DO）算法，將其與Neighbourhood Search（NS）算法相結合，成為Double Oracle Neighbourhood Search（DO-NS）。通過模擬，作者說明，結果顯示DO-NS算法在計算時間和解決方案的質量方面優于DO算法。

Ba?p?nar, Bar??等人的工作重點是使用基于優化的控制和博弈論方法對兩個無人駕駛飛行器（UAVs）之間的空對空戰斗進行建模。在這項工作中，車輛運動用特定的變量表示，任何從一個航點到另一個航點的軌跡規劃都是通過確定滿足平坦輸出空間中的定義條件的平滑曲線來解決的。在確定之后，所有參與描述平滑曲線的變量都可以恢復到原始狀態/輸入空間。其影響是通過減少所需變量的數量來加快任何軌跡優化的解決。然后利用博弈論，兩個無人機之間的空中戰斗被模擬成一個使用最小值方法的零和游戲。也就是說，當對手采取最佳策略時，每一方都試圖使其收益最大化。這里，目標是讓每個無人機直接進入對方身后，并在一定范圍內滿足機載武器有效射程限制。

在[81]中，作者提供了與基于方位角和軸承角的目標追尾程度有關的成本函數，以及與對手在最佳射程的某個閾值內時產生最大得分有關的成本函數。這些成本函數相乘，形成總成本。成本函數被放入一個后退地平線控制方案中，在一個給定的前瞻時間段內，通過選擇控制措施確定的軌跡規劃被執行，在這個時間段內，雙方都使用相反的策略。每個玩家將其對手視為地平線內的可達集，并以此來選擇其控制的選擇，以使其報酬最大化。這個過程每隔幾個控制步驟就會重復一次。與該領域的大多數其他作品不同，作者使用了性能包絡內的全部控制輸入，而不是一個子集（例如，轉彎、保持哈丁、以特定角度左滾、immelman、分裂S或螺旋俯沖），從而指向為每個玩家的策略生成一個更優化的解決方案。文章提供了兩種模擬情況，第一種情況是任何一個無人機都沒有開始處于空中優勢地位，然后行使后退地平線成本函數優化，在最佳射擊范圍內與對手進行追尾。作者表明，在飛行過程中，應用控制時的速度、載荷系數和岸角都沒有違反界限，而且產生了可行的軌跡。在第二次模擬中，無人機最初處于追尾狀態，但不滿足射擊范圍內的標準。被追趕的對手通過應用成本函數進行機動逃跑，而追趕者繼續追趕。在交戰結束時，滿足了射擊范圍內的標準，目標在正前方，但處于一個次優的方面，這導致其逃脫。這些場景被用來證明所開發的控制策略的有效性，從而為兩個無人駕駛飛行器相互交戰提供自動選擇戰斗策略。

Casbeer等人，考慮了這樣一種情景：追擊無人駕駛飛行器目標的攻擊者導彈被兩個與目標結盟的實體發射的防御導彈所吸引，而這兩個實體與目標合作。它從典型的三方博弈情景中延伸出來，在這種情景中，只有一枚防衛導彈與目標合作的攻擊者交戰。作者在此將其稱為主動目標防御差異博弈（ATDDG）。除了計算擴展到ATDDG中的玩家的最佳策略外，本文還試圖確定當目標使用兩個防御者而不是一個防御者時，其脆弱性的降低程度。本文提出了一個受限的優化問題來解決這種情況。結果表明，目標通過選擇與任一防衛者合作，可以更成功地逃脫攻擊者。此外，兩個防御者的存在使攻擊者更容易被攔截。當兩個防御者的導彈處于良好的位置時，都可以攔截攻擊者。

Han等人提出了一個綜合防空和導彈防御（IADS）的問題，即配備攔截導彈（IM）的地對空導彈（SAM）電池與針對城市的攻擊者導彈（AM）交戰。該問題是一個簡化的具有完全信息的兩方零和博弈，有三個階段。這三個階段對應的是防守方為城市配置防空導彈，然后是攻擊方為城市配置導彈，最后是防守方為反擊攻擊方的導彈配置攔截導彈。這個問題的簡化假設是，在一個城市附近只分配一個防空導彈，每個地點只安裝一個。此外，針對每枚攻擊導彈發射的攔截導彈不超過一枚。此外，一個DM只能分配一個IM，每個SAM都有相同數量和類型的IM，而AM是相同的，并且是單發發射的。試圖用廣泛形式的博弈樹、α-β修剪和使用Double Oracle（DO）算法來解決需要保護的六城市網絡的三層博弈。DO算法是一種啟發式算法，不保證能找到次完美納什均衡（SPNE）。我們研究了每種算法達到次完美納什均衡的效率。對于博弈樹方法，得出的結論是，由于問題的組合性，戰略空間的大小被確定為增加到一個難以解決的大小。當應用α-β修剪時，與DO算法相比，本文確定確定SAM電池、AM和IM的數量在計算時間方面沒有很好的擴展。然而，在少數情況下，DO算法確實無法找到SPNE。盡管如此，作者還是更喜歡DO算法，因為它被證明不違反單調性（報酬的增加）和解決方案的質量趨勢（計算時間的非指數增長），即使當問題的規模從6個城市增加到55個城市。

3.4 研究網絡戰爭的論文

涉及博弈論在網絡戰爭（不同于網絡安全）中的應用的論文很少。其中重要的是，Keith等人[84]考慮了一個多領域（網絡與防空相結合）的國防安全博弈問題。兩個玩家在一個零和的廣義博弈中相互交鋒，一個是防御者，代表一個配備了網絡戰保護的綜合防空系統（IADS），一個是攻擊者，能夠釋放空對地威脅（導彈、炸彈）以及網絡攻擊（針對IADS網絡）。這里，回報被選為預期的生命損失。防守方希望將其降至最低，而攻擊方則希望將其最大化。保護IADS的網絡安全游戲問題被嵌套在物理安全游戲問題中。玩家的行動對應于激活IADS/網絡安全響應節點的分配，對應于防御方的人口中心，以及攻擊方攻擊IADS/相關的網絡安全節點的分配。通過提供不完善的信息，游戲的真實性得到提高；也就是說，防御者和攻擊者并不完全了解節點的脆弱程度。此外，防御者只能概率性地感知節點的網絡攻擊，這意味著其對特定IADS的網絡防御團隊的分配也只是概率性地有效。對于攻擊者來說，它也可以在物理攻擊一個節點后確定其網絡攻擊的有效性。這項工作通過引入綜合領域、代理行動的多個時期以及使玩家能夠不斷地采取混合形式的策略，為推動安全游戲文獻的發展奠定了基礎。作者認為這是第一項在安全游戲中比較蒙特卡洛（MC）和基于折扣和穩健的反事實后悔最小化（CRM）方法的工作。最初，對于問題的小規模版本，以序列形式的線性程序的形式確定防御者的納什均衡（NE）。然后，問題被逐漸放大，以包括更多的人口中心來防御，直到一個上限。這里，引入了一種近似的CRM算法，以減少計算時間，同時盡可能地保留特定策略的最優性。當規模進一步擴大時，引入了折現的CRM，進一步減少了計算時間。

對問題和算法的參數空間進行了探索，以選擇最佳的調整參數，并從算法中提取最佳性能。通過引入有界理性，使參與者的理性受到限制，因此他們不一定做出最佳反應。他們只能管理近似的穩健的最佳響應動作。一個棋手的穩健最佳反應被定義為完全保守的NE策略和完全激進的最佳反應策略之間的妥協。它在棋手的策略中引入了弱點。對于一個棋手來說，他們的策略能夠利用對手的策略的能力被稱為利用。反之，他們的戰略對于對手的脆弱性被稱為可利用性。當運行所有引入的不同算法時，結果顯示納什均衡解是最安全的策略，因為所走的是不被利用的最佳棋步，然而，它并沒有為玩家產生最高的效用。性能圖顯示，穩健的線性程序產生了最高的平均效用和最高的可利用性比率，同時也消耗了最大的計算時間。數據偏向的CFR被認為提供了最好的權衡，它提供了一個高的平均效用，一個有利于開發的可利用性比率，同時以最低的計算時間運行。

3.5 研究太空戰的論文

在空間戰爭領域，人力資源和風險要少得多，因此重點是網絡力量和獨立自主代理人之間的互動，連接或其他。最終，這些方面的戰爭將以遠遠超出人類認知能力的速度和維度運作。由于交戰中決策的快速性和復雜性幾乎肯定會超出軍事人員的理解能力，博弈論將取代決策者作為整個軟件和控制系統的一部分，并將未來的技術注入到計算時考慮人類/社會因素。隨著對連接性和網絡化的更多關注，這些領域的成功關鍵依賴于有效的溝通渠道和整個系統的共同目標。在這一新興的研究領域，應用博弈論的論文往往關注衛星網絡。

Zhong等人設定了一個雄心勃勃的目標：優化整個衛星網絡的帶寬分配和傳輸功率。他們的研究以討價還價的博弈論為基礎，必須在網絡中的每一個點上實現對干擾約束、服務質量要求、信道條件以及衛星的發射和接收能力的妥協。干擾限制和帶寬限制是在討價還價游戲中需要協商的盈余，每個衛星使用不同的策略來提高其效用/資源份額。這使得復雜性迅速升級，該模型最重要的收獲是將一個問題映射到合作討價還價的游戲框架中。

同樣地，Qiao和Zhao詳細介紹了衛星網絡中節點的有限能量可用性的一些關鍵問題。他們的論文通過一個路由算法的博弈理論模型提供了一個解決方案，并利用它來尋找不均衡網絡流量的均衡解決方案。該模型定位了某些網絡熱點，這些熱點正在儲備大量的能量，并采取措施均勻地分配資源。這是在網絡中多個參與者之間進行討價還價/合作博弈的另一個案例。

3.6 研究目標跟蹤的論文

由于目標跟蹤是一個成熟的研究領域，我們發現了一些應用博弈論跟蹤問題的論文。其中大多數都有重疊的戰爭領域，并沒有過多強調在某個特定領域的適用性。例如，Gu等人研究了使用傳感器網絡跟蹤移動目標的問題，該網絡由能夠提供一些與位置有關的目標測量的傳感器組成。每個傳感器節點都有一個觀察目標的傳感器和一個估計其狀態的處理器。雖然傳感器之間有一些通信，但這種能力是有限的，因為每個傳感器節點只能與它的鄰居通信。由于目標是一個能夠最小化其被對手探測到的智能代理，從而有可能增加跟蹤代理的跟蹤誤差，這使問題更加復雜。Gu等人在零和博弈的框架內解決了這個問題，并通過最小化跟蹤代理的估計誤差，開發了一個穩健的最小值過濾器。此外，為了處理傳感器節點有限的通信能力，他們提出了這種濾波器的分布式版本，每個節點只需要從其近鄰獲得當前測量和估計狀態的信息。然后，他們在一個有智能目標的模擬場景中展示了他們算法的性能，并表明雖然標準卡爾曼濾波器的誤差會發散，但考慮到對手的噪聲的最小化濾波器可以大大超過卡爾曼濾波器的性能。

Qilong等人同樣解決了跟蹤智能目標的問題，但他們模擬了一個場景，跟蹤者也在追擊，重點是保護目標。此外，目標可以向攻擊者/追蹤者發射防御性導彈。攻擊者對目標和防御性導彈都有一個視線。目標計劃讓跟蹤器慢慢拉近與目標之間的距離，同時進行機動，以了解攻擊者的反應。當攻擊者接近碰撞時，防御性導彈被釋放。然后，目標和導彈進行溝通，利用對攻擊者運動模式的了解，并遵守最佳線性制導法，以摧毀攻擊者。這被模擬為攻擊者、目標和防御性導彈之間的零和競爭游戲。然而，本文還關注了目標和防御性導彈之間的合作博弈，這是一個非零和博弈。對他們來說，報酬是通過最小化的失誤距離（理想情況下等于零--與攻擊者的碰撞），以及引導防御性導彈所需的控制努力來計算。

Faruqi討論了將微分博弈理論應用于導彈制導的一般問題。他們指出，導彈的軌跡遵循比例導航（PN），這是歸航導彈通常使用的制導法。這些系統的性能是由線性系統二次性能指數（LQPI）來衡量的。在微分博弈論方面，他們通過用一組微分方程表示導彈的導航和軌跡來模擬導彈制導問題。這個問題的一般形式是

在這里，

：是玩家i w.r.t 玩家 j 的相對狀態

：是我輸入的玩家

：是玩家j的輸入

F：是狀態系數矩陣

G：是玩家輸入系數矩陣

Q：是當前相對狀態的性能指數 (PI) 權重矩陣

S：是最終相對狀態的 PI 權重矩陣

Ri,Rj：輸入的 PI 權重矩陣

Faruqi 主要專注于兩人和三人博弈，而效用函數是基于導彈和目標之間的相對距離向量建模的。Faruqi 表明博弈論可以有效地用于現代導彈中涉及 PN 的導彈制導任務。

另一方面，埃弗斯利用博弈論分析了對戰區彈道導彈（TBMs）的防御。彈道導彈和核技術的擴散對軍事沖突有著重要的影響，失敗的代價可能導致整個城市的毀滅。由于它們的射程很遠，威力很大，盡管其有效載荷可以有很大的變化，但很難確定其發射位置。在對抗這種威脅時，防衛國確實有一個優勢，那就是通常有一個很長的飛行軌跡，通常分為三個階段，在這期間可以對TBM進行攔截。推進階段標志著發射和TBM上升的大部分時間。助推階段的結束標志著燒毀，之后TBM進入中段階段。這個階段是飛行時間最長的階段，為防御者提供了攔截TBM的最佳機會。在中段階段之后，TBM進入了重返大氣層的終結階段。這是防御者攔截導彈的最后機會。飛行路線如下圖4所示：

圖 4. 戰區彈道導彈的飛行路徑

導彈在合理延長的飛行時間內行駛了很遠的距離。然而，從它的實際地理位置來看，防衛的軍隊或國家只能在飛行的終止階段運用其資源來防御它，在這個階段風險要高得多，失敗的代價也最大。出于這個原因，埃弗斯提出了一種合作戰略，即防守國與周圍的國家結成聯盟，以便它們也能在TBM前往撞擊地點的早期階段嘗試攔截它。因此，游戲被分為兩個小游戲：第一個是合作性的多人游戲，為國家聯盟設計一套戰略，以便在TBM的整個飛行路徑中使用；第二個是防衛國和潛在盟友之間的討價還價和合作游戲。

擊落TBM的合作游戲的基礎是一種叫做 "射擊-觀察-射擊 "的策略。它依賴于一組N個國家使用一組策略--他們的攔截導彈--來攻擊目標，每個導彈都有自己的攔截概率Pi。當TBM飛行時，N國中的每個國家都會發射其導彈Mn來攔截TBM，然后看看它是否成功地消除了威脅。如果它失敗了，下一個國家的導彈Mn+1將被發射。然后，博弈的問題就被簡化為優化整套策略的攔截概率，從而使其具有阻止TBM的可行可能性。博弈論在這里是有用的，因為合作博弈論的原則提供了一個強大的數學框架，通過這個框架可以為一組合作的國家達成一個均衡的解決方案。

埃弗斯描述的第二個游戲是基于與其他國家的談判，以形成一個聯盟。對于這些其他國家來說，參與這個游戲是一種風險，因為它使他們成為攻擊部隊的另一個潛在目標。為了解決這個游戲，防衛國必須準確評估攔截器的成本節約，也就是說，通過防止TBM的影響可以獲得多少收益。隨著這些節省的費用成為合作國家可以分享的盈余，潛在的盟友就如何分享這些節省的費用進行談判，與他們所能提供的攔截資源成正比。

Shinar和Shima繼續研究追擊-規避游戲和彈道導彈防御的零和游戲，即一個高度機動的彈道導彈避開攔截導彈。更具體地說，它在博弈中加入了一個不完美的信息元素，即彈道導彈知道自己正受到反導彈的攻擊，但對其彈道或發射位置知之甚少。在這個游戲中，兩個玩家是彈道導彈和攔截者。如果彈道導彈使用純粹的策略，它很可能會被擊中，因為它要么（a）不能對它所知甚少的對手做出足夠快的反應，要么（b）會以可預測的方式移動，并允許以直接的彈道走向碰撞。因此，彈道導彈的最佳博弈方案是在混合策略中。

混合策略將在其飛行模式中納入隨機性，為一組純策略分配一個概率分布。這些純策略將基于基本的導航啟發法，這些啟發法很可能是攔截器已知的或容易發現的。通過應用少量快速和隨機的策略切換，彈道導彈可以最大限度地發揮其避免攔截的潛力，并將時間計算的復雜性強加給攔截者。

Bogdanovic等人從博弈論的角度研究了一個多目標跟蹤的目標選擇問題。這是多功能雷達網絡中的一個重要問題，因為它需要同時執行多種功能，如體積監視和火力控制，同時有效地管理可用的雷達資源以實現指定的目標。因此，實際上，他們在[92]中處理了一個雷達資源管理問題，并使用非合作博弈論方法來尋找這個問題的最優解。他們在一個框架中制定了這個問題，每個雷達都被認為是自主的；沒有中央控制引擎來通知雷達它們的最佳策略，雷達之間也沒有任何交流。首先，他們考慮了所有雷達對目標有共同利益的情況，對于這個問題，他們提出了一種基于最佳響應動力學的分布式算法來尋找納什均衡點。然后，這個問題被擴展到雷達之間的異質利益和部分目標可觀察性的更現實的情況。對于這種情況，他們采用了相關均衡的解決概念，并提出了一種基于遺憾匹配的高效分布式算法，該算法被證明可以達到與計算量更大的集中式方法相當的性能。

最后，Parras等人研究了一個追求-逃避博弈，涉及無人駕駛飛行器（UAVs）的抗干擾策略。該博弈在一個連續的時間框架內運行，因此是動態的，在微分博弈論的幫助下被解決。在某種程度上是上述工作的高潮，它結合了通信優化、傳感器規避和導航的元素。鑒于無人機需要強大的通信來控制和傳遞信息，這種依賴性使得無人機非常容易受到干擾攻擊。有多種策略來干擾和反干擾這些通信，這可以被認為是一個零和游戲，無人機必須試圖優化其通信能力。通常情況下，干擾者的定位和移動是不確定的，所以這個游戲是一個不完全信息差分游戲。對無人機來說，最重要的回報是避免因干擾而失去通信，它可以通過操縱來對干擾劑的距離進行近似，從而避免它們。

3.7 涉及國家安全的論文

博弈論涉及的國土安全的關鍵部分是網絡安全、模擬恐怖主義威脅和國防合同。隨著計算機科學的許多應用，博弈論很適合用于網絡安全問題。博弈論結合了計算機科學嚴格的數學嚴謹性，以及更多的心理學和哲學元素，如攻擊者的動機和心態，以及網絡安全中人的脆弱性。恐怖主義建模也同樣受益于博弈論的心理學色彩，因為恐怖活動的許多影響是不容易量化的，包括社會、經濟和其他受恐怖威脅影響的領域，所有這些都可以在博弈論的背景下建模。最后，博弈論適合于承包和分包這樣的課題，因為它能有效地捕捉到自私的個人之間的互動，這已經被用來模擬國防承包商的行為。

Litti的論文簡要介紹了傳統的網絡安全啟發式方法如何能更精確地更新，以及博弈論如何能幫助網絡安全工程師設計策略來正確預測、緩解和處理受到威脅的網絡。他開發了一種定性的方法來評估網絡攻擊的潛在風險和成本。雖然是一篇相當短的論文，但它確實提供了一些博弈論在實踐中的網絡安全情境案例。例如，他建立了一個雙人零和博弈的模型來代表攻擊者和安全系統。各個節點都有自己的相互依賴性、脆弱性和安全資產，但通過合作，將攻擊者破壞系統的可能性降到最低。

Jhawar等人提供了一種更具體的博弈論方法，即攻防樹（ADTs），來模擬涉及網絡安全威脅的場景。在這里，ADTs被用來在一個配備了自動防御協議的系統上繪制潛在的攻擊和防御場景。該系統需要全面解決所有可能的漏洞，并產生適應網絡安全攻擊的積極演變情況的反應。目前，ADTs只提供前期的系統分析。擁有一個反應式的網絡安全策略是很重要的，因為攻擊者會不斷改變他們的攻擊策略來進行進攻，所以實時反應的時間可以使系統的防御成功和失敗之間產生差異。在Jhawar等人的文章中，他們建立了一個攻擊者和防御者的簡單游戲模型--黑客和安全網絡管理員。黑客試圖破壞系統的完整性，對于他們的每一步行動，管理員都會根據攻擊者的嘗試設計一個反應性的策略。這種方法最大的效用來自于將長的廣泛形式的游戲轉換為圖形布局的能力，以便于理解和交流。

岡薩雷斯清楚地概述了一個標準的攻守雙方的競爭游戲，然后利用基于實例的學習理論和行為博弈理論。前者將認知信息編譯成一種被稱為實例的表示。每個實例都有一個由情況、決定和效用三部分組成的結構--標準的游戲。然而，這種方法的關鍵是實例之間的互動。基于實例的學習理論利用每個實例的學習結果反饋到下一個實例的情況，希望能在以后的迭代中做出更好的決定。這明顯類似于機器學習中的強化學習技術。另一方面，行為博弈論涉及到設計一種策略，我們評估各種因素，對目標和資源進行更精確的長期評估，使效用分數更接近于反映現實生活的價值。再次，博弈論促進了網絡安全應用中社會信息的獲取，并評估了這將如何影響游戲中雙方的行為。其他關鍵因素包括玩家的動機因素，每個玩家的信息完整性，以及玩家和技術之間的技術限制和低效率。岡薩雷斯強調，在任何網絡安全模型中容納這些因素的重要性將有助于為網絡防御制定更現實和有用的政策。

網絡安全的一個常見用途是用于預防恐怖主義。Hausken等人用一些指導性的博弈論原則涵蓋了恐怖主義和自然災害的建模。恐怖主義和自然災害是通過用反恐怖主義、反災害和反所有災害的投資來進行防御。對這些事件發生的可能性進行預測，防御者必須對每項防御的投資額做出戰略決策。在這些情況的效用函數中需要考慮的成本包括恐怖分子的情報或自然災害的隨機性/環境控制；攻擊/災害的強度，以及恐怖分子和防御者之間對目標價值評估的差異。本分析中使用的博弈論方法抓住了防御者在打擊每個威脅時的努力。根據每個事件的可能性，結合每個防御系統的成本，防御者可以得出資金的最佳分配方案。

Kanturska等人提出了一個嚴格的檢查，即當不同地點的攻擊概率未知時，如何使用博弈論評估運輸網絡的可靠性。該方法傾向于使用最小化算法在多條路徑上分配風險，只要旅行成本相對于攻擊造成的潛在損失較小。這對于評估安全護送貴賓穿越城市的潛在風險很有用。博弈論在這種情況下很有幫助，因為它可以分析攻擊概率未知時的網絡可靠性。

Bier提出了基于博弈論的有用建議，用于政策見解和投資決策、保險單的保費等等。她的工作討論了最弱環節模型：一種將所有資源集中在防止最壞效用情況的策略。這在實踐中通常并不理想，她反而建議考慮用各種防御戰略來對沖這些投資，針對不同的潛在目標。本文考慮了恐怖分子/防御者的博弈，以及安全投資如何改變整個社區的攻擊者-防御者互動的景觀。這主要是通過其自身的范圍研究來完成的，其中一個關鍵的收獲是，恐怖主義緩解系統可以從博弈論中受益，因為它增加了一個額外的考慮，即恐怖分子對任何防御機制的反應。因此，博弈論與對所有系統進行風險和可靠性分析的整體方法相結合，可以對反恐戰略中的所有潛在風險和漏洞進行更全面的評估。

Cioaca研究的問題與前面提到的Bier等人的問題類似，但特別關注航空安全問題。該問題的總結是針對機場安全措施的成本和維持一個穩定而有彈性的防御系統的成本。關鍵的策略是：完全防止攻擊或威脅（通過取消對目標地點的所有訪問或限制航空公司的權限，如果他們沒有遵守規定的準則）；管理攻擊的時間維度（攻擊的長度和隨后的恢復時間）；了解所有直接和間接的損失（包括傷亡和相關的損害，如污染或感染，受損的二級安全措施，或聲譽/信號的影響）；以及緩解、響應和恢復的成本。

該模型是圍繞幾個因素和參數建立的。首先也是最關鍵的是人員損失和物質損失。 H 指人員損失，D 指物質損失，指分配給相關安全系統的預算。攻擊中最明顯和最直接的損失，這兩種損失在這種攻擊中是非常負面的回報，并且通常比任何防止它們的成本都要高。人員損失 H 難以用數值量化，因此在對資源劃分進行適當評估時，了解如何在不同人群和不同維度上最小化人員損失是該問題最困難的方面之一。物質損失 D 可以用貨幣量化，但這種損害的連續影響通常是造成重大損失的地方。這些損失可能導致基礎設施全面關閉、設施停止運轉、工人失業，甚至可能導致設施的緩慢衰退和完全關閉。這場比賽的第二個主要因素是分配給安全系統的預算。組織和管理機構將只有一定數量的資源分配給安全系統 T。下一個因素是安全系統組件的數量，因為這將是預算的組成方式。這些組件中的每一個都被劃分為 n 個單獨的系統子組件之一。這些組件被劃分為多個目標，并且這些目標中的每一個都被分配了一個被攻擊的概率和一個值。這可以正式表示為：

對于任何資源劃分系統，Ciaoca 主張建立衡量系統彈性的維度。這分為靜態彈性，資源的有效分配；動態彈性，沖擊后系統的恢復速度，包括長期投資流入。這兩種形式的彈性表示攻擊之前、期間和之后的系統強度。在博弈論方面，Ciaoca 的研究清晰地定義了一個博弈，并結合了無數復雜且相互關聯的參數，勾勒出一個有效且可計算的博弈模型。

我們討論的關于國家安全的最后一篇論文是由 Gardener 和 Moffat撰寫的。本文涵蓋了制定戰略以評估國防承包商及其履行合同義務的潛在績效/能力的概念。用博弈論的說法，這個問題可以用合作和背叛來表達。加德納和莫法特提出了量化方法，國防部可以通過這些方法更嚴格地評估合同和招標方案，從而明智地選擇承包商并保護他們的預算。Gardener 和 Moffat 進一步了解了國防采購項目不同招標階段項目管理的變更要求。他們關注的因素是樂觀的陰謀，由于對項目進度的不合理預期，項目逐漸失控——超過了預算限制和必要的最后期限。通常，這種“陰謀”是為了獲得短期收益，實際上會導致整體損失。所玩的投標博弈不再是關于項目的成功，而更多地是關于利潤資本化，并可能進一步退化為相關國防部與整個承包商行業對抗的兩人博弈。

3.8 研究其他/混合戰爭的論文

一些論文在防御環境中使用博弈論，但不能輕易歸類為上述任何類型，或者它們與混合戰有關。例如，Zhang和Meherjerdi研究如何在不同的通信框架中使用博弈論方法來使用和控制多組無人駕駛車輛。將單個無人駕駛車輛的任務分配給多個無人駕駛車輛會產生更有效的任務分配和性能。將勞動力從一輛強大的單一車輛分離到幾輛較小的車輛提供了靈活性、適應性和改進的容錯能力。這種網絡的用途是監視、探索、衛星集群、結合無人駕駛水下航行器 (UUV) 和潛艇、飛機和無人駕駛飛行器 (UAV) 以及協作機器人偵察。從這個列表中可以明顯看出，該策略非常強大，因為它能夠跨多個域組合資源。

同樣，可以注意到，搜索是一種“捉迷藏”游戲，在軍事應用中有著悠久的歷史。該理論是由 Koopman率先在軍事背景下（尋找逃跑目標）提出的，隨后由 Stone 等人的開發，應用包括潛艇狩獵、探雷、救援行動、第一響應者的風險以及危險源的定位。該框架提供了最優的先驗給定檢測模型、目標運動和搜索成本的搜索計劃。搜索成本可能包括搜索時間、逃生概率（對于目標）、暴露風險（對于搜索者）、信息熵或態勢感知（目標位置概率圖）。搜索器可以是移動平臺（UAV、UUV、巡邏艇、直升機、機器人、人），目標可以是靜態的、可移動的、盲目的、無聲的或發射的。在這種情況下，經常使用同時定位和映射（SLAM）算法。這一利基市場的新研究方向（受一些生物學應用的啟發）采用了信息趨向的思想，或基于從環境中提取的信息（熵）增益（零星測量、禁區、搜索者之間的通信）實時控制搜索者的移動。博弈論的原理可以應用在可以建模為“捉迷藏”游戲的環境中。

4. 分類及影響

4.1 論文分類

在上一節中，很明顯，許多論文在多個領域都有適用性，并且使用了無數類型的博弈并為一系列玩家建模。因此，必須以有原則的方式對已審查的論文進行分類。為此，我們使用第 2 節表 1中已經介紹的分類方案。

特別是，可以根據 (1) 戰爭的領域或類型 (2) 論文中使用的一種或多種博弈類型，以及 (3) 論文中建模的玩家的性質對所審查的論文進行分類。該領域可以大致分為傳統（T）或現代（M），更具體地說，可以分為陸戰、海戰、空戰、網絡戰和太空戰。根據博弈是非合作的還是合作的、順序的還是同時的、離散的還是連續的、零和還是非零和，所使用的博弈類型也可以有一個復雜的分類。最后，博弈可以是兩人、三人或多人（多于三人）博弈。所有這些都在表 1中進行了簡要介紹。

在表2中，我們提供了基于上述分類方案的所有評論論文的不言自明、詳盡的分類。

表2.使用表 1 對國防博弈論應用領域的論文進行分類。此處描述的共有 29 篇論文被分類。

4.2 審查論文的影響相關指標

我們現在考慮的問題是，在這些論文中，哪些論文引起了研究界的最大興趣，或者導致了后續或相關工作的開展。衡量這種影響的一個通常使用的指標是引文數，雖然這個指標顯然偏向于早期的論文。盡管如此，在表3中，我們展示了所考慮的 29 篇論文的 Google Scholar 引用數。哪些論文被引用次數最多，讀者不言而喻，我們不再贅述。然而，我們強調，引用次數并不是衡量影響力的唯一指標，也不一定是衡量一篇論文在研究領域的影響力的最有效方法。但是，它是一個現成的衡量標準，可以傳達有用的信息。

表3. 已審查論文的 Google Scholar 引用數。谷歌學術引文數據于 2021 年 12 月 18 日訪問。

表3還顯示了每篇論文的原籍國，其定義是出現在相應作者的第一署名中的國家。可以看出，這些論文是由來自美國、英國、澳大利亞、中國、荷蘭、加拿大、以色列、印度、德國、西班牙和羅馬尼亞的研究人員撰寫的。看來，美國、歐洲（尤其是西歐）和中國對在國防科學中應用博弈論有主要興趣，同時我們承認，可能有幾篇用英語以外的語言撰寫的論文，我們沒有考慮。

為了了解在上述分類中描述的不同領域之間是否存在充分的思想交流，我們考慮了在29篇評審論文中，有多少論文引用了同一組的其他論文。表4列出了根據谷歌學術的引用情況。令人驚訝的是，沒有一篇論文被其他被審查的論文引用兩次以上，而且大多數論文根本沒有被這組論文中的其他論文引用。盡管這組論文的總體引用次數是健康的--根據表3，被審閱的論文平均被引用34.97次，而且有幾篇論文被引用超過50次。然而，這些引用大多來自與國防科技有關的論文，這些論文使用各種方法和工具來解決類似的問題，顯然，在國防應用中使用博弈論的研究人員之間幾乎沒有交叉交流。因此，除了我們在下面介紹的文獻中的 "空白 "表明了潛在的研究機會外，還應該強調的是，應該提高對該領域類似工作的認識，這將可能導致在某一特定領域產生的想法被重新用于其他領域和與國防有關的其他應用。

表4. 根據谷歌學術，審閱過的論文中的引用情況。谷歌學術的引用數據是在2021年12月18日訪問的。從該表可以看出，在該領域中相互引用對方的工作是極其罕見的。

5. 進一步研究的機會

審查的論文表明，博弈論可以提供一個統一的框架來分析代理在防御環境中的決策行為。在本節中，我們將簡要討論迄今為止尚未應用博弈論但如果在未來應用將做出有用貢獻的一系列潛在防御場景。

國防高級研究計劃局（DARPA）最近對 "馬賽克戰爭 "的調查就是博弈論未來潛在應用的一個例子。這個想法是在操作多個無人駕駛飛行器的背景下被提到的，并建議在一個'馬賽克'網絡中擁有許多較小的具有成本效益的資源相互連接，這樣，如果幾個單位被摧毀，網絡的整體完整性仍然存在，就像馬賽克即使被移除幾塊瓷磚也能保持其圖像。我們的目標是，這樣一個具有不同能力的龐大資源陣列將能夠以其完整性和復雜性壓倒敵人。它利用并發性的原則來解決由數百萬個傳感器和執行器組成的系統中錯綜復雜的連接問題。這些系統又必須處理系統間的通信。如果成功實施，這樣一個系統的系統可以為軍事戰略家提供一個壓倒性的強大的武器裝備和資源網絡，它可以憑借其動態的規模和復雜性擊敗對手。這種將軍火庫的不同部分結合在一起的方法使每個部分的利益最大化，并重新引入了對資源消耗性的關注，而不是專注于幾件高價值的武器裝備。這反過來又為戰略建立了彈性和適應性，擺脫了重量級的、單一重點的攻擊方法。由于有大量成本較低的資源需要合作以獲得最佳結果，這種情況在一個層面上可以被模擬成多人合作游戲，而與對手的爭斗可以被模擬成多人非合作游戲。可以注意到，"馬賽克戰爭 "的概念本質上類似于更普遍的基于代理人的建模概念，它已經被用于幾個不同的背景，從無齡航空器設計到傳染病動態建模，博弈論已經在其中一些背景下成功使用。

在海戰的背景下，博弈論可以卓有成效地應用的另一個領域是海軍的易損性。在分析海軍的易感性時，海軍艦艇要考慮其環境、運動模式和潛在的對手傳感器，以計算其在秘密移動時被發現的風險。這樣的應用與國防科學中通常研究的跟蹤問題有重疊之處，正如顧氏所解釋的，它描述了使用傳感器網絡的跟蹤。如前所述，這種情況可以被建模為一個雙人非合作性差分博弈，而探測是每個參與者的主要回報參數。

事實上，地基跟蹤問題也可以從博弈論的應用中受益，而到目前為止，這一領域的論文還很少。地面追蹤問題既可能出現在地面軍事應用中（這里歸類為陸戰），也可能出現在國內安全和反恐應用中（這里歸類為國家安全應用），其中安全機構在整個社會中追蹤個人行動的能力--包括他們的位置、社會網絡和動機--是一種關鍵能力。后一種情況可以被模擬為追擊和躲避的雙人游戲，或者也許只是追擊和偵察，目的是不向目標透露追擊的情況，而目標將試圖識別追擊。在這種情況下，從秘密跟蹤中獲得的預測性信息量將是回報。賽博戰建模是博弈論可以應用的另一個領域，同樣，正如前面相關部分所述，除了主要來自計算機科學領域的論文之外，很少有論文涉及這一領域網絡安全。Kim等人[124] 描述了所有軍事行動不可或缺的網絡戰場景，并強調了物聯網 (IoT) 和腦機接口等新技術范式所發揮的關鍵作用。防御專家越來越需要預測和先發制敵的網絡戰策略。使用新穎的技術接口對涉及網絡戰場景的決策制定進行建模是博弈論可以發揮重要作用的領域。

如上所述，根據表 4 ，在所呈現的文獻中，似乎很少有交叉、思想交流，甚至對其他類似作品的認識，也可能被認為是一個“空白” 。因此，在國防應用中使用博弈論的研究人員之間加強合作是可取的，這將使博弈論方法在多個戰爭領域的重用。

6. 討論

這里有必要討論一下，除了總結現狀和確定文獻中的差距之外，像這樣的評論如何為該領域增加價值。我們注意到，在選定的論文集中，從一篇論文到另一篇論文的引用很少。雖然很難說出其中的原因，但可以看到大多數研究都集中在特定的戰爭領域，如陸戰、海戰或空戰，并試圖解決特定戰爭領域的具體問題。因此，專注于不同戰爭領域的論文不一定被認為是另一篇在國防背景下應用博弈論的論文，而是屬于不同戰爭領域的論文，因此沒有被關注。然而很明顯，這樣的方法可能會導致錯失機會，因為往往沒有考慮到同一套博弈論工具還可以在哪里得到類似的應用。像這樣的一篇評論文章將在一定程度上糾正這個問題。此外，我們可以看到，報酬函數的定義往往是僵化和狹隘的，是基于傳統上被認為是某一類型戰爭的重要參數。例如，陸地戰爭的重點是盡量減少傷亡，而國家安全應用的重點是提高公眾信心。然而，在大多數類型的戰爭中，有一系列的因素促成了最終的回報，從傷亡和軍事資產的損失到公眾信心、間接經濟成本、機會成本、盟國的成本以及政治和戰略考慮。這篇評論文章通過對幾個戰爭領域的報酬結構的廣泛概述，可能會刺激在每個使用博弈論的戰爭領域建立更全面的報酬函數模型。此外，從一般意義上講，這篇評論將有助于強調與國防有關的決策是一個有條不紊的理性過程，可以進行結構化分析，而不是像過去國防界某些部門所認為的那樣是一個直觀的過程[125]。同時，所提出的分析將有助于避免一方面的微觀管理和另一方面的沖動決策[126]，而不是鼓勵國防應用中的量化決策過程。

特別是，在作戰和戰術決策過程之外，所提出的評論還具有管理和社會意義。

6.1 管理影響

博弈論的應用對一個國家的國防力量非常有用，不僅在戰術和作戰方面，而且在和平時期的國防資產的戰略管理方面也是如此。例如，出于威懾和作戰準備的目的，軍事資源的戰略布局，如戰艦、潛艇和戰斗機，可以被視為一個合作博弈，或者相當于一個優化問題，可以通過線性編程或非線性編程來解決。同樣，關于戰略軍事設施，如基地、簡易機場、港口，甚至公路和鐵路[127,128]的安置和建設的決策，也可以通過使用合作博弈論對相關情景進行建模來幫助。另一個可以應用博弈論的管理決策過程是后備軍事人員的管理，包括何時征召后備人員。因此，博弈論不僅對做出作戰決策的軍事人員有用，而且對必須做出國防相關決策（包括在和平時期）的文職管理人員和政治家也有用，因為這些決策可能會產生長期的影響。

6.2 社會影響

在國防場景中應用博弈論的社會效益主要來自國家安全的觀點。公眾對國土安全的看法是國防考慮的一個重要部分，對國防開支有相當大的影響。國防和執法部門的決策者在做出國防開支決策時，不僅需要考慮實際的風險和威脅，還需要考慮感知的風險，以及受其影響的因素，如保險費用、對旅游業的影響、信用評級機構的評級、投資者對一個國家的投資意愿、安全措施的實際和感知成本等等。博弈論可以成為一個非常有用的工具，用來模擬這樣一套復雜的因素和參數，以及不同情況下產生的整體回報。反過來說，這種決定一旦做出，顯然會影響國家安全，并反過來影響公眾對國家安全的信心和看法。因此，對風險的感知和國家安全的支出相互影響，博弈論所提供的工具集對于模擬這樣一個復雜的反饋回路非常有用。顯然，公眾的情緒和對事件的看法在戰時情景下也很重要，在戰爭的各個領域做出的決定都會影響公眾的看法，這反過來可能會影響沖突的軌跡。因此，博弈論在國防場景中的應用具有明顯的社會意義。

同樣重要的是，本評論增加了新的見解，對理解指揮和控制戰爭很有幫助。其中一個見解是，智能代理之間的合作和敵對競爭并不像它們乍看起來那么根本不同：事實上，在某種意義上，它們都可以用同一個框架（博弈論）來表示，并且都涉及一些智能參與者、戰略和回報。不同的是，敵對的競爭由非合作博弈論表示，其中一個玩家的報酬增加往往導致另一個玩家的損失（零和博弈是這種情況的一個特例）。另一方面，合作是由合作博弈論來代表的，在這里我們對聯盟進行建模，有時還討論 "公共利益 "的概念。當一個敵對的玩家有可能變成盟友或反之亦然時，這樣的洞察力特別有用。另一個見解是，將防御場景作為游戲來建模的主要困難不是來自于確定可能的戰略或參與者，而是來自于量化的回報。很多時候，我們審查過的論文在量化回報時做了一些假設、簡化和估計，可以設想，這些過程引入的累積錯誤可能已經嚴重改變了游戲的結果，從而使建模變得無效。因此，許多論文在應用博弈論時面臨的主要挑戰是如何準確或合理地模擬報酬。除非像我們在這里所做的那樣，對博弈論的幾個防御性應用進行廣泛的回顧，否則無法獲得這樣的見解，而這些見解對于塑造該領域未來的研究方向非常重要。

7. 結論

博弈論已被證明是一種通用且強大的工具，可用于深入了解許多領域的智能體和參與者的決策過程。在這篇評論文章中，我們詳細闡述了博弈論可以應用于國防科學技術的幾種場景，并簡要回顧了該方向的現有研究。我們根據所研究的戰爭類型、使用的博弈類型和玩家的性質，對 29 篇評論論文進行了廣泛的分類。基于所做的觀察，我們確定了文獻中的空白，即博弈論迄今尚未被廣泛運用，但在未來有很大的潛力被富有成效地運用；我們還討論了博弈論的國防應用在未來可能擴展的方向。

基于領域的分類是采用的主要分類模式，在此背景下，我們將審查的論文分為陸地、空中、海洋、網絡和空間領域。我們還考慮了主要與跟蹤和國家安全有關的論文。對于所考慮的每篇論文，都定義了參與者的數量和角色以及博弈類型，并在可能的情況下討論了策略和收益函數。這項工作的目的是確定最常分析的領域以及經常使用的博弈類型，并利用這些知識來確定文獻中的差距，在國防背景下的各個領域和戰爭類型中相互交流意見。

希望這次審查能產生幾個積極的結果。我們發現了文獻中的空白，并指出博弈論提供的工具集在分析某些戰爭模式時并未得到充分利用。例如，我們指出，使用博弈論分析的海戰論文相對較少。我們還注意到，可以通過應用博弈論來分析新興的戰爭模式，例如馬賽克戰。因此，本次審查可能會導致更多的博弈論方法來模擬這種戰爭模式。此外，我們強調了該領域內的引文網絡非常稀疏：也就是說，在國防應用中使用博弈論的各種研究人員之間的思想交流是很少見的。這篇綜述可能會成為該領域研究者之間合作和相互交流的催化劑。然而，最重要的是，這篇評論旨在向迄今為止尚未使用博弈論的國防科學家強調博弈論在國防應用中的效用，因此將為國防科學家引入一套新的工具，他們可以將其應用于他們的研究.

隨著世界應對和平與穩定面臨的新挑戰，人類的未來取決于我們和平解決問題的能力。雖然這是一個崇高的目標，但權力的投射絕對比實際的武裝沖突要好，后者在許多層面上都會付出很高的代價，博弈論確實可以在決定一些可能發生的“軟沖突”中發揮作用在未來幾年和幾十年里。隨著未來幾年對國防戰略和能力的關注可能會增加，博弈論可以作為一種額外的工具，國防科學家可以在許多抽象層次上使用它來解決部署、感知、跟蹤和資源分配問題。

資金

這項研究是由澳大利亞國防科學技術集團資助的。

參考文獻

略

付費5元查看完整內容

AI與軍事 · 元宇宙 (Metaverse) · 軍事任務規劃 · 美國陸軍 · 報告 ·

2022 年 3 月 20 日

[付費5元查看完整內容]元宇宙+軍事？美國陸軍 “創建用于任務規劃的元宇宙模型”

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

當前的流程和網絡限制迫使軍隊員工在物理上聚集在一起進行操作。Metaverse 提供了一種潛在的解決方案，可以在通過分發操作使指揮所更易于生存的同時啟用操作

共同的操作畫面

“我需要理解”也許是任務指揮技術背后的主要驅動力。制定和維護共同作戰圖的基本概念是增強態勢感知，實現態勢理解并促進所有梯隊的共同理解。通過連接數字系統以在 2D 和 3D 地圖上顯示信息或通過在紙質地圖上手動跟蹤友軍和敵方信息的復雜應用程序編程接口執行，該過程在過去 30 年中沒有太大發展。這項工作需要大型、繁瑣的指揮所，配備集中的人員和技術，以執行作戰過程并最終生成通用的作戰畫面，指揮官和參謀人員可以利用該畫面做出最及時、最準確的決策。不幸的是，隨著運營變得越來越復雜，數據越來越多，各單位一直在努力有效地進行信息和知識管理。指揮所的規模和范圍已經擴大以滿足需要。人員數量的增加和對網絡的依賴使今天的指揮所容易受到敵人的攻擊，沒有足夠的機動性和生存能力。元宇宙提供了一種潛在的解決方案，可以使操作過程成為可能，同時通過分布操作固有地使指揮所更具生存能力，以及減少物理和電磁足跡。

在元宇宙中與我會面：在未來，士兵們可以“進入”虛擬環境，在執行任務之前進行任務規劃。盡管“軍事虛擬世界”仍然只是一個概念，但整個美國陸軍的研究人員和科學家正在探索潛在的應用

什么是元宇宙？

由尼爾斯蒂芬森在他 1992 年的小說“Snow Crash” 中創造為了描述用戶在虛擬空間中交互的在線世界，元宇宙已經通過大型多人在線游戲和虛擬世界（如 Second Life、Roblox 或 Minecraft）變得熟悉。正如移動設備在過去 10 年中改變了互聯網的消費方式一樣，新一代技術——在這種情況下是虛擬和增強現實耳機——正在為我們如何消費內容提供新的視角。這些頭顯不再受平面屏幕的限制，讓用戶能夠感知在物理世界之上或代替物理世界呈現的 3D 對象和媒體并與之交互。隨著大流行驅動的遠程工作加速，這一概念變得更加流行。Facebook 甚至將其未來寄托在這一轉變上。

風險基金合伙人和受人尊敬的商業作家馬修·鮑爾（ Matthew Ball ）將元宇宙最徹底的探索之一寫成了一個由九部分組成的博客系列。Ball 的入門書著重于元宇宙的八個方面：

硬件：用于訪問、交互或開發元宇宙的物理技術和設備的銷售和支持。這包括但不限于面向消費者的硬件（例如 VR 耳機、手機和觸覺手套）以及企業硬件（例如用于操作或創建虛擬或基于 AR 的環境的硬件，例如工業相機、投影和跟蹤系統以及掃描傳感器）。此類別不包括特定于計算的硬件，例如 GPU 芯片和服務器，以及特定于網絡的硬件，例如光纖電纜或無線芯片組。

網絡：由骨干提供商、網絡、交換中心和在它們之間路由的服務以及管理“最后一英里”數據給消費者的服務提供持久、實時的連接、高帶寬和分散的數據傳輸。

計算：支持元宇宙的計算能力的啟用和供應，支持物理計算、渲染、數據協調和同步、人工智能、投影、動作捕捉和翻譯等多樣化和高要求的功能。

虛擬平臺：沉浸式數字和通常是 3D 模擬、環境和世界的開發和運營，用戶和企業可以在其中探索、創造、社交和參與各種體驗（例如賽車、繪畫、上課，聽音樂），從事經濟活動。這些業務與傳統在線體驗和多人視頻游戲的區別在于，存在一個由開發人員和內容創建者組成的大型生態系統，這些生態系統在底層平臺上生成大部分內容和/或收集大部分收入。

交換工具和標準：工具、協議、格式、服務和引擎，它們充當互操作性的實際或事實上的標準，并支持元宇宙的創建、操作和持續改進。這些標準支持渲染、物理和 AI 等活動，以及資產格式及其從體驗到體驗的導入/導出、前向兼容性管理和更新、工具和創作活動以及信息管理。

支付：支持數字支付流程、平臺和運營，包括法定入口（一種數字貨幣兌換形式）到純數字貨幣和金融服務，包括比特幣和以太幣等加密貨幣以及其他區塊鏈技術。

元宇宙內容、服務和資產：與用戶數據和身份相關的數字資產（例如虛擬商品和貨幣）的設計/創建、銷售、轉售、存儲、安全保護和財務管理。這包含所有“建立在”元宇宙之上和/或“服務于”元宇宙的所有業務和服務，并且沒有被平臺所有者垂直整合到虛擬平臺中，包括專門為元宇宙構建的、獨立于虛擬界的內容平臺。

用戶行為：消費者和商業行為（包括花費和投資、時間和注意力、決策和能力）的可觀察變化，這些變化要么與元宇宙直接相關，要么以其他方式促成或反映其原則和理念。這些行為在最初出現時幾乎總是看起來像“趨勢”（或者，更貶義地，“時尚”），但后來顯示出持久的全球社會意義。

他討論了每個領域的進展，以及充分啟用和采用元宇宙作為移動互聯網繼任者的方法。

從虛擬到現實：隨著大型指揮所分解其物理足跡并依賴數字環境，諸如元宇宙之類的概念可以幫助參謀人員對現實世界的行動進行規劃

聯網

帶寬是當今戰場上的稀缺資源，需要技術突破才能完全啟用虛擬世界。然而，許多戰術場景可以受益于不是特別密集的信息，因此需要較少的帶寬來傳輸，例如地理空間位置、單位狀態摘要、當前目標等。此外，更密集的信息，例如用于訓練輔助目標識別算法的作戰區域3D 地形模型或未知敵方車輛的視頻，無需通過網絡實時發送。這將要求陸軍利用云服務，云服務不僅能高效地移動和處理信息，而且由情報部門控制，這些情報部門了解客戶請求或可能請求的數據和服務的信息價值。

關乎生死的一個關鍵問題是信息延遲。友方單位位置的潛在變化可能會導致整個元宇宙的決策瀑布式變化，并改變任務狀態的視角。為了做出更好的決策，陸軍必須創建一個超高效的網絡，只傳輸正確的相關信息。這種實時信息更新的概念是在虛擬世界中沉浸式硬件的關鍵組成部分，因為“數字孿生”士兵的表示和動作必須在連接到其共享空間的所有其他設備上同步。與商業世界不同，元宇宙戰場涉及戰斗人員試圖摧毀對手的網絡。

微軟飛行模擬器

流行的 Microsoft Flight Simulator 視頻游戲系列包括地球的“數字孿生”，結合地圖和衛星圖像，可以對天氣和空中交通、建筑物甚至樹木實時渲染。這是一個巨大的模型，對于戰術邊緣的受限帶寬來說是不切實際的，但是這個模型和其他類似的模型可以允許在更高的、云連接的梯隊或在本站上對車輛和武器效果進行超現實建模。NVIDIA 的 Omniverse等世界構建工具包有助于渲染新對象，其中包括材質、紋理和運動構建塊。甚至這些基于世界的模型的低分辨率版本也可用于概念演練或任務演練，無論單位是否位于同一地點。

想象一下：今天使用的沉浸式硬件幾乎完全掩蓋了用戶對現實世界的看法；最終，顯示器將需要在現實之上渲染內容或用合成內容替換所有內容之間進行動態調整。（由任務指揮戰斗實驗室提供）

虛擬平臺

整合軍用數字訓練、戰斗和企業級系統的精簡平臺不足以實現元宇宙。元宇宙要求士兵的數字存在超越不同的訓練平臺，并無縫集成到其他作戰工具中。這些工具還必須使用戶能夠從不同的角度與戰場數據進行交互，無論是在傳統的 2D 顯示器上還是從沉浸式共享虛擬空間。這將需要能夠使來自現實世界或模擬的數據在各種顯示媒體上無縫呈現的架構，無論它們是如何部署的。商業游戲世界一直在適應這一挑戰，支持在不同類型的硬件（如 PC 和游戲機）之間交叉玩同一游戲。

雖然化身的出現對我們的士兵來說可能不是那么優先，但數字資產可以以其他方式使用，這可能是有用的--例如，包括在一個人的身份系統偏好或自定義語言模型中，即使在用戶登錄一個新系統時也可以幫助人機合作。此外，一些游戲使一部分用戶能夠戴著虛擬現實設備從神一樣的俯視角度進行游戲，而其他玩家則化身為化身，從地面上以第一人稱觀看世界。像這樣的游戲概念似乎很適合在不同的梯隊中使用這種能力，在那里不同類型的數據和互動是必要的。

從戰術的角度來看，陸軍必須建立具有共同視野和感受的系統，無論系統是的佩戴方式或交互方式如何。士兵應該能夠以相同的配置文件使用他們的頭戴式顯示器、他們的手持系統和他們的桌面系統，并在這些系統間能夠以相同的角色輕松地切換。

硬件

Android Tactical Assault Kit (ATAK)等系統是一款裝在堅固外殼中的手持平板電腦或手機，可為作戰人員提供其作戰環境的數字化視角。ATAK 可以可視化 2D 和 3D 地圖，以及一系列圖形控制措施來表示友軍和敵軍的位置。雖然不像民用領域的消費類智能手機那樣無處不在，但這些設備代表了將物理和數字領域融合到一個手持套件中的首次嘗試之一。

然而，增強現實系統中的當前硬件限制了全息內容的視野質量。虛擬現實頭戴式顯示器提供高質量的視覺效果，但代價是幾乎完全遮擋了用戶對自然世界的看法。雖然陸軍開始評估在指揮所等不太致命的環境中使用虛擬現實，但沉浸式硬件的未來最終將融合到一個頭戴式顯示器中，該顯示器可以在現實之上的渲染內容或替換所有內容之間動態調整合成內容。這對于在未來的戰場環境中完全實現元宇宙是必要的。

結論

盡管推動了未來的發展，但我們也必須承認目前的技術仍然面臨著局限性--例如，訪問問題、延遲。這些問題不會因為升級到元宇宙而得到解決，必須隨著元宇宙的發展而得到解決。在規劃、準備、執行和評估行動方面轉向元宇宙模式，將使分散的工作人員能夠在一個協作的虛擬節點內更有效地同步作戰功能，這將與現有的實體指揮所相媲美。臨時會議可以超越簡單的電話和視頻會議，允許用戶占據一個包含所有相關數據的虛擬規劃空間來做出決定：一個顯示友軍和敵軍位置、情報產品、相對戰斗力、維持估計等的交互式三維共同作戰圖。

與人工智能一樣，元宇宙技術為解決戰場上的問題帶來了一套新的工具，包括當前和預期的問題。也像人工智能一樣，如果沒有標準和基礎設施來啟用這些工具，其結果將是零碎的和令人沮喪的。重要的是，陸軍要向前傾斜并認識到新技術的潛力，不僅因為它們在物資方面帶來了什么，而且還因為它們對我們未來的戰斗方式的影響。

付費5元查看完整內容

AI與軍事 · 機器人和自主系統 · 海牙戰略研究中心 · 項目 · 論文 ·

2022 年 3 月 17 日

[付費5元查看完整內容]【AI+軍事】204頁PDF《軍事背景下的機器人和自主系統（RAS）》，RAS Project介紹

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

?世界各地的軍隊正在根據戰爭的發展開發、集成和使用機器人和自主系統 (RAS)。需要進一步思考這一過程在荷蘭境內發生的條件以及可能產生的挑戰和影響。HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。

在兩年的時間里，該項目產生了五篇公共研究論文，涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。這些研究論文涵蓋了軍事適用性、倫理考慮、法律論述、合作要求以及 RAS 在軍事環境中的實施。所有論文都合并在此報告中，包括簡要總結分析的綜合報告和一系列六份情況說明書。研究方法側重于獲取從業人員、研究人員、倫理學家、法律專家、行業專業人士、技術人員、民間社會組織、軍事人員和國防界其他成員的專業知識。這樣做不僅能夠收集對主題的多方面理解，而且還能將這些利益相關者獨特地聯系在一起，并促進他們之間具有挑戰性的討論。在項目過程中，與不同的咨詢委員會成員舉行了五次會議，指導了研究軌跡，并為其立場文件和研究論文草稿提供了寶貴的意見。還收集了來自 200 多名利益相關者的專業知識，參加了六場專家會議，其中涉及各種方法，包括基于場景的討論、設計會議、

次要目標是為公眾辯論提供信息，并在抵制流行的“殺手機器人”觀念的軍事背景下就 RAS 進行更細致的對話。為此，舉辦了關于 RAS 的道德困境的公開研討會，與 BNR Nieuwsradio 合作發布了五個 De Strateeg 播客，組織了會議和圓桌會議，并于 2021 年 2 月發布了一部 18 分鐘的紀錄片。

引言

2019 年 12 月，普京在俄羅斯國防部董事會會議上發表講話時表示，“機器人系統和無人機正在被嚴格引入并用于戰斗訓練，這極大地提高了武裝部隊的能力。”幾個月后，俄羅斯國防部宣布了一項價值約 420 萬歐元的封閉招標，旨在“研究為新一代人工智能軍事系統創建神經網絡開發、訓練和實施的實驗模型”。雖然中國在公開場合遠沒有那么自夸，但他們的軍事優勢戰略是由人工智能和自動化的發展引領的，這導致一些分析人士認為，解放軍的目標是通過系統沖突和高度智能化的戰爭來主導。

這些觀點意味著一個更大的現象。世界各地的軍隊正在根據戰爭的第四次演變開發、整合和使用機器人和自主系統，需要進一步思考在荷蘭境內進行這一過程的條件以及可能出現的挑戰和影響作為結果。

HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。在兩年的時間里，該項目產生了五篇公共研究論文，涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。該綜合將這些主題聯系在一起，并展示了該項目最相關的發現。下面總結了 HCSS 研究對道德要求、法律話語、合作伙伴合作、實施和概念開發和實驗的觀察，然后是關于 RAS 的軍事適用性的初級部分。

RAS的軍事適用性

機器人和自主系統 (RAS) 在軍事環境中提供了大量、重要且影響深遠的機會。為了觀察這些系統在這種情況下的適用方式并評估它們的效用，需要解決一些定義和概念：

1 自主性：人類賦予系統執行給定任務的獨立程度。根據系統自身的態勢感知（綜合感知、感知、分析）、規劃和決策，實現分配任務是自治的條件或質量。自主性是指一系列自動化，其中可以針對特定任務、風險水平和人機協作程度定制獨立決策。自主級別可以包括遠程控制（非自主）、操作員協助、部分自動化、條件自動化、高度自動化或完全自動化。

2 機器人：能夠通過直接的人工控制、計算機控制或兩者兼而有之來執行一組動作的動力機器。它至少由平臺、軟件和電源組成

3 機器人和自主系統 (RAS)：RAS 是學術界和科學技術 (S&T) 社區公認的術語，強調這些系統的物理（機器人）和認知（自主）方面。RAS 是一個框架，用于描述具有機器人元素和自主元素的系統。值得注意的是，RAS 的每個連續部分都涵蓋了廣泛的范圍。“系統”部分指的是廣泛（在我們的例子中為軍事）應用領域的各種物理系統。在計算機或網絡上運行的自動化軟件系統，包括“機器人”，即無需人工干預即可執行命令的軟件，不符合 RAS 的條件，因為它們缺少物理組件。“機器人”部分，指的是系統的物理布局，認為系統是無人或無人居住的。所有其他物理方面（大小、形式，無論是飛行、漂浮還是滾動等）都保持打開狀態。

4 致命自主武器系統 (LAWS)：一種武器，在沒有人為干預的情況下，根據人為部署武器的決定，在沒有人為干預的情況下選擇和攻擊符合某些預定義標準的目標，因為攻擊一旦發動，人為干預就無法阻止。

5 有意義的人類控制（MHC）：MHC 包括（至少）以下三個要素：（1）人們就武器的使用做出知情、有意識的決定；(2) 人們被充分告知，以確保在他們對目標、武器和使用武器的背景所了解的范圍內，使用武力符合國際法；(3) 所討論的武器是在現實的操作環境中設計和測試的，并且相關人員已經接受了足夠的培訓，以便以負責任的方式使用武器。MHC 是一個復雜的概念，在許多情況下，上述描述并不是決定性的。荷蘭官方的立場是，“所有武器，包括自主武器，都必須保持在有意義的人類控制之下。”

“殺手機器人”的言論已將公眾對軍事環境中機器人和自主系統的看法縮小為完全關于高度或完全自主系統使用致命武力的觀點。實際上，RAS 可應用于眾多軍事功能和任務，每個功能具有不同程度的自主性（見下圖）。機器人和自主系統的廣泛軍事適用性產生了無數和巨大的機會。未來幾年的挑戰是充分利用這些機會，發揮軍事優勢的潛力，同時降低所帶來的風險。

在這些功能中實施 RAS 會帶來重大挑戰，但也預示著軍隊將面臨更有效、更高效和更敏捷的新機遇。可以根據這些類別評估 RAS 繼續改進/再改進國防領域的潛力。

速度。在促進快速決策和威脅優先級排序的人工智能的幫助下，RAS 已經能夠超越人類的反應時間并縮短 OODA（觀察、定位、決定、行動）循環。

可靠性。將任務委派給機器需要高度的信任，但到目前為止，RAS 還不能證明在所有軍事應用領域都有足夠的可靠性。然而，我們對這些系統的信心將會增加，因為它們證明了它們在執行特定任務時的可靠性和有效性。

準確性。人工智能系統的面部圖像識別和感官能力已經超過了人類的表現水平，盡管無人系統比人類操作員更精確的說法受到廣泛爭議。

大規模效應。由于射程和耐力的增加，RAS 有能力增強對戰場的覆蓋范圍并壓倒對手。這種潛力的最好例子是“蜂擁而至”。

可達性。RAS 極大地增強了監視、情報、偵察和武器系統的可用存在點。

穩健性。在短期內，由于惡劣的天氣和任務的變化等意外條件，RAS 將比人類更容易失敗。這種脆弱性延伸到虛擬域：由于連接丟失、黑客攻擊和其他干擾可能導致系統無法運行。

安全。RAS 可以執行“枯燥、危險和骯臟”的任務，以便人類可以專注于更專業的任務并遠離火線。

成本。盡管最先進技術的獨家使用權將保留給最富有的玩家，但現在被認為是高度先進的系統的成本將在未來 20 年內下降，從而變得更加普及。

維護。考慮到系統的復雜性和涉及的多個（外部）合作伙伴，更新和升級 RAS 軟件和硬件可能會更加困難。

時間效率。RAS 可以 24/7 全天候高標準執行乏味且重復性的監控任務，無需休息，高效解決后勤規劃，快速超越人工多任務處理的極限。

靈活性。盡管 RAS 目前在執行特定任務方面表現出色，但在可預見的未來，人類仍將是最靈活的。隨著開發人員繼續創新當前系統，這種動態可能會發生變化。

適應性。RAS 具有高度自適應性，并且隨著時間的推移在系統生命周期（擴展、擴展、升級等）期間易于重新配置，以便跟上動態環境中出現的新要求。

外部合法性。因此，軍方與 RAS 的接觸必須在他們（可能）提供的先進能力與其所服務的社會的價值觀和規范之間取得平衡。

內部合法性。RAS 的信任和組織規范化將隨著時間的推移而得到加強。隨著對系統的理解、可預測性和熟悉度的提高，它們在組織內的合法性將得到鞏固。

許多國家認識到這種潛力并意識到需要在瞬息萬變的國際舞臺上具有軍事競爭力，因此將 RAS 用作其武裝部隊的一部分（圖 2）。然而，盡管有明顯的機會，但在軍事環境中實施 RAS 并非易事。許多實際和理論挑戰阻礙了實施過程，需要政策制定者、創新者、研究人員、國防界和民間社會成員之間的討論，在許多情況下，這些挑戰考驗著我們賴以監管、開發、獲取、整合和使用其他軍事技術。為了分析這些挑戰，重要的是確定 RAS 系統生命周期的三個階段：開發、集成和使用（圖 3）。下一節總結了在 HCSS RAS 項目期間探索和分析的理論考慮（道德和法律）和實際考慮（私營部門合作和概念試驗與開發）。