軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。
兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。
軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。
1.訓練用的兵棋推演
最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。
2.用于分析的兵棋推演
兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。
3.實驗性的兵棋推演
在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。
4.兵棋推演的好處
盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。
這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。
人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。
美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。
基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。
雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。
問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。
除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。
這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?
本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。
雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。
兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。
本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。
本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。
本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。
這篇論文試圖研究能夠改善復雜軍事戰術環境中決策的人工智能(AI)技術。戰術環境在威脅、事件的節奏、突發或意外事件的因素、戰斗空間意識的限制以及潛在的致命后果方面可能變得非常復雜。這種類型的環境對戰術作戰人員來說是一個極具挑戰性的決策空間。戰術決策任務在識別決策選項、權衡眾多選項的相對價值、計算選項的預測成功率以及在極短的時間內執行這些任務方面迅速超越了人類的認知能力。海軍已經確定需要開發自動戰斗管理輔助工具(ABMA)來支持人類決策者。這個概念是讓ABMA處理大量的數據來發展戰斗空間知識和意識,并確定戰爭資源和行動方案的優先次序。人工智能方法的最新發展表明,它有望成為ABMAs支持戰術決策的重要推動者。本論文研究人工智能的方法,目的是確定在戰術決策領域的具體應用。
本論文分為五章。第一章概述了本課題的背景,描述了本論文所探討的問題,本論文的目的,以及研究的方法和范圍。第二章對論文中討論的定義和概念進行了全面的背景回顧,包括自動戰斗管理輔助工具、決策復雜性和人工智能及自主系統的概念。第三章描述了用于協調數據采集和理解檢索數據要求的研究方法。第四章提供了分析的結果,并探討了從分析結果中得出的潛在好處和局限。本論文的最后一章包含最后的結論和對未來工作的建議。
水下監視技術是在冷戰時期出現的。這項技術在解密并被學術界追捧后才有了眾多的進步。海事領域的一個進步是開發了無人潛航器(UUVs),它有能力提高作戰能力,同時減少對人類生命的風險。盡管這項技術后來已經商業化,但海軍對它的接受程度有限。它所取得的有限進展主要是由開發商和資助他們的政府推動的。然而,由于這項技術為軍隊提供了許多好處,它需要盡早被納入海軍。這基本上意味著,為了使海軍的使用/應用獲得更大的接受度,將這項技術整合到海軍中是至關重要的。反過來,這需要回答許多疑問,了解事實,以便對該技術及其潛力產生更大的信心。因此,我們討論了其中一些有助于解決知識差距的問題,以促進未來UUV技術在海軍中的接受和應用。雖然試圖提供全面的答案,但這些答案并不被認為是完整的,而只是一個辯論的出發點。就目前而言,技術是存在的;然而,正是由于缺乏想象力,才使其不能被使用。
多智能體系統在解決復雜和動態領域的問題方面顯示出巨大的潛力。這種系統由多個單獨的實體組成,稱為智能體。系統的整體行為是由其組成的智能體的許多相互作用產生的。大多數研究的系統由同質的智能體組成,它們擁有相同的行為或物理形式。然而,最近的工作表明,擁有不同行為或形式的異質智能體可以提高系統性能。這項研究考察了異質性對多智能體系統有效性的影響,并研究了多智能體系統在聯合武器戰中的應用,聯合武器戰同時應用異質單位類型來完成軍事目標。數百個形態上同質和異質的多Agent團隊被演化出來,并對其完成某些目標的能力進行評估。結果表明,沒有一個團隊配置在所有情況下都表現出色,在異質和同質配置之間轉換的能力對團隊的成功比任何配置的異質性更重要。結果進一步表明,美國海軍陸戰隊理論中描述的聯合武器戰術可以從簡單的、分散的智能體的互動中產生,表明該領域的未來研究可能被證明對聯合武器戰爭的軍事藝術有價值。
現代聯合武器理論要求同時應用多種武器類型,以達到大于其各部分之和的效果[1, 2]。復雜適應性系統(CASs)的研究人員對這句話很熟悉,它是一種涌現的語言,通過這種現象,一個相對簡單的智能體系統表現出復雜的總體行為,從而創造出 "小中見大 "的效果--大于其部分之和[3, 4, 5]。約翰-博伊德(John Boyd)的工作是基于當前的聯合軍備理論,他將武裝部隊視為由處于不同角色的自主單位組成的復雜網絡,并借鑒了CAS文獻來發展其戰爭理論[6]。對博伊德來說,每個軍事單位都填補了一個專門的利基,有助于整體的運作,因此,發展一支有效的聯合武器部隊是一個多智能體系統工程問題。在這樣的問題中,每個智能體必須被設計成通過與同伴的互動,在系統層面上幫助產生一些理想的特征。例如,戰斗的勝利是軍隊的一個理想特征,每個士兵的訓練和裝備都是針對贏得戰斗的整體任務。
聯合武器部隊具體來說是一個異質的多智能體系統。異質性一詞表示智能體之間在形態上、行為上或兩者上的差異。形態上的異質性指的是物理特性上的差異,而行為上的異質性指的是智能體對感知數據的行為方式上的差異。因此,形態上的異質性智能體就像坦克與飛機或警犬與警察一樣不同。行為上的異質性智能體不同,就像兩架相同的飛機在執行任務時可能扮演不同的角色,或者一個士兵可能在另一個士兵前進時提供火力掩護[3, 7]。
聯合武器戰爭的歷史提供了許多異質系統的例子,從古代的小兵、步兵和騎兵的聯合編隊到現代空軍的復合翼概念[8, 9]。現代計算機模擬和人工智能(AI)的研究提供了新的機會,通過建模和評估部隊的組成和戰術來推進聯合武器理論。最近的研究表明,智能體能夠在戰略游戲中產生新的戰術[10],協調多個物理和行為上不同的單位,在物理世界中執行協作任務[11],并在智能體的合作團隊中產生新的和多樣化的行為[12]。所有這些結果都與聯合武器理論有直接關系。這樣的研究既促進了軍事藝術的發展,也促進了人工智能和多智能體系統的研究。
假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。
1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?
2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?
假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。
1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?
2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?
3.給定一組形態不同的單元,多Agent系統能否在沒有明確的中央指令的情況下表現出協同的聯合武器行為?
問題一和問題二涉及到可以將多樣性引入到智能體群體中的方式。采用具有物理或形態差異的智能體是否有益?為了回答這些問題,本研究在各種不同的任務中測試并比較了行為上和形態上的異質團隊。第三個問題是評估多智能體系統參與聯合武器戰爭中的合作行為類型的潛力。
這項研究提出了幾個戰斗單位的異質團隊的模擬,并評估了形態和行為異質性對團隊有效性的影響。多個異質和同質團隊被生成并在四個場景中測試,每個場景都有不同的目標。隊伍根據其勝利率進行分級,并與所受傷害成反比。測試結果被用來確定最有效和最高效的團隊配置和行為。
最合適的團隊表現出合作戰術,包括側翼機動、偵察、多管齊下的攻擊和其他行為。這些戰術產生于每個團隊成員智能體的互動,并且經常結合不同的智能體形態或行為。這項研究表明,異質性對團隊適應性的影響因情況而異,最有效的團隊傾向于演化出異質性行為和形態來克服戰術挑戰,而且聯合武器戰術可以從簡單智能體的相互作用中出現。
這項研究提供了一個動態領域中同質和異質多智能體系統的比較。它支持國防部(DoD)發展自主武器系統的優先事項[13],并通過展示從簡單的智能體互動中出現的可識別的戰術行為,將多智能體系統理論應用于聯合武器的軍事藝術。提供了一個新的和可擴展的模擬器,用于未來對單體和多體系統的研究。
第二章提供了多智能體系統的相關背景和研究,并概述了該領域與聯合武器理論的關系。還提供了RoboCodePlus模擬器的描述。第三章描述了用于執行實驗的方法,概述了智能體架構、測試場景以及用于生成和進化單個團隊的遺傳算法。第四章分析了每個實驗的結果并得出結論,而第五章總結了所做的工作并為未來的工作提供了建議。
現代戰術戰爭越來越復雜,需要更快和更有效的決策。為了支持這些快速決策,有人提出使用自動決策輔助工具作為解決方案(Johnson 2019, 63)。鑒于現代戰場的復雜性質,決策輔助工具需要大量的數據。為了支持決策輔助工具的發展,機器學習代表了一種支持有效決策輔助工具的潛在方法。這項研究的目標是進行實驗,探索應用機器學習來幫助作戰人員進行復雜的激光武器系統與無人機群的交戰決策。為了實現這一目標,研究了激光武器系統和無人機威脅,并選擇了一個仿真程序來生成可用于訓練機器學習算法的交戰數據。
這篇論文研究了威脅交戰方法,確定了有效操作激光武器系統必須考慮的決策因素,以及人工智能和機器學習在支持決策方面的應用。對無人駕駛飛行器或無人機的威脅進行了基礎研究,以確定風險并支持交戰方法的發展。該基礎研究支持選擇場景并將其編入兵棋和仿真軟件Swarm Commander Tactics,該軟件用于模擬戰斗。這項研究進行了一項實驗,通過建模和仿真交戰場景來開發機器學習算法的概念驗證,以收集訓練數據并使用這些數據來訓練機器學習算法。訓練算法的目的是為了確定使用模擬艦載激光武器時的生存能力和成功的交戰方法。在生成模擬交戰數據后,使用模擬交戰測試了多種機器學習技術,以確定機器學習預測是否能夠支持基于模擬數據的自動決策輔助。這項研究研究了機器學習的算法方法以及開發和訓練機器學習系統的過程。
總的來說,對多種機器學習技術進行了評估,以支持在模擬交戰中預測成功的無人機交戰方法,發現最適合的是樹狀分類技術。實驗證明了機器學習在這個問題領域的應用,通過建模和模擬,機器學習算法訓練是成功的。最終機器學習算法預測的結果,在預測基于敵人類型、數量和激光武器系統攻擊方法的交戰結果時,總體準確率為96%;假陽性預測,即算法預測的勝利是失敗的,為2.1%。這些結果表明,一個復雜的戰斗空間模擬軟件可以用來準確地訓練預測性機器學習算法。
這項研究表明,將兵棋模擬與機器學習算法相結合,為支持復雜的決策和交戰提供了一種機制,由激光武器系統來對付敵人的無人機群。通過實施訓練有素的機器學習算法,可以分析具有異質無人機群的復雜戰斗空間,從而選擇適當的交戰技術,從而優化目標交戰的生存能力和有效性。這篇論文的主要研究目標是探索機器學習方法在識別和支持模擬艦載激光武器系統的有效目標選擇和交戰方法方面的功效。這項研究是生成決策輔助工具的一個組成部分,以支持無人機群與激光武器系統的交戰。現代戰斗空間的復雜性質需要決策輔助工具來減少作戰人員的認知負擔。
現代戰術戰爭需要迅速而有效的決策和行動,以便在經常是高度動態和復雜的戰區保持競爭優勢。需要考慮的因素的數量因不確定性、事件的快速發展和人為錯誤的風險而放大。自動化、人工智能和博弈論方法的潛在應用可以為作戰人員提供認知支持。這項研究以自動兵棋推演輔助決策的形式探索了這些應用。該團隊為這個未來的系統開發了一個概念設計,并將其稱為兵棋推演實時人工智能輔助決策(WRAID)能力。
頂點項目的目標是探索自動化、人工智能和博弈論的應用,作為支持未來WRAID能力的方法。該團隊為WRAID能力開發了需求、概念設計和操作概念。該小組確定并探索了可能對未來實施WRAID能力構成障礙的挑戰性領域。該小組調查了與使用人工智能來支持戰爭決策有關的倫理挑戰和影響。
本報告首先對與WRAID能力相關的主題進行文獻回顧。文獻回顧從人工智能的回顧開始,提供了一個關于人工智能如何工作以及它能夠完成什么類型任務的概述。文獻綜述探討了人機協作的方法,以支持未來指揮官和人類用戶與WRAID系統之間的互動。需要翻譯指揮官的意圖,并讓WRAID將有意義的輸出傳達給指揮官,這需要一個強大的界面。審查包括傳統的兵棋推演,以研究目前的模擬兵棋推演是如何進行的,以便深入了解,未來的WRAID能力如何能夠實時復制兵棋推演的各個方面,并認為以前的兵棋推演可以為人工智能和機器學習(ML)算法的發展提供訓練數據。ML算法的訓練需要大量的代表性數據。文獻回顧研究了人類的認知負荷,以深入了解人類大腦的認知技能和上限;并確定人類思維的極限,以顯示人工智能可能提供的支持。文獻綜述中涉及的最后一個主題是,傳統的計劃和決策,以了解目前在軍事上如何制定戰術行動方案。
該小組進行了需求分析和利益相關者分析,探索WRAID能力如何支持作戰人員。該小組在需求分析的基礎上為WRAID系統開發了一套需求。這些要求被歸類為:硬件/軟件,人機界面,和道德規范。第一階段的分析結果包括 (1)戰爭的復雜性需要發展一種未來的WRAID能力,這種能力利用自動化方法,包括人工智能、ML和博弈論,(2)WRAID能力需要大量的計算能力和復雜的軟件算法,(3)實現未來WRAID系統的挑戰將是技術和道德的。
未來WRAID系統的概念設計是基于需求分析的。概念設計被記錄在一套系統模型中,包括背景圖、系統視圖、功能工作流程圖和操作視圖。該團隊開發了一個作戰場景,以支持對WRAID能力如何在作戰中使用。
在開發WRAID的過程中,預計會有一些路障。開發WRAID系統的技術是存在的,然而,研究小組發現數據挑戰、人工智能訓練、程序限制和當前系統工程的局限性將是需要解決的障礙。數據挑戰指的是獲得足夠的數據集的能力,這些數據集代表了訓練ML算法所需的真實世界的戰術行動和兵棋推演分析。程序性挑戰包括國防部實施網絡安全、機密數據、數據庫訪問和信息分配協議的能力。系統工程方面的障礙是需要新的方法來設計安全和可靠的人工智能系統,如WRAID能力。將需要SE方法來處理不可預見的故障模式,并在系統生命周期的早期確定根本原因。
對像WRAID能力這樣的人工智能系統的倫理考慮是系統發展的一個重要因素。開發系統以取代倫理學,將使系統更有可能被部署。有幾個有道德問題的自主武器系統被拉出來作為WRAID能力的道德對話的基礎。通過一個示例場景,對道德狀況進行定性分析,以了解在部署WRAID能力時可能出現的道德問題。倫理學在未來的技術中發揮著巨大的作用;從一開始就考慮到倫理學,建立技術是很重要的。
未來的重點需要放在繼續對想象中的WRAID系統采取正規的系統工程方法。WRAID系統需要一個強大的數據集,需要收集和注釋;收集的定性兵棋推演數據越多,WRAID系統的可行性和準確性就越高。與軍事部門的合作對于最大化WRAID的利益至關重要,例如情報和偵察組織。WRAID的模擬將是完善系統要求和創建現實模型的關鍵。關于如何使用WRAID的培訓和文檔應該同時開發,所以利益相關者,特別是指揮官已經準備好,知道如何使用這個新工具。未來的研究領域包括認知工程、基于正式模型的系統工程和人機協作。
隨著目前技術進步的速度和外國的目標,人工智能將在未來的沖突和戰爭中發揮作用。自上而下的指令將需要設計和實施WRAID能力:提供大量的資源,解決操作和文化變化,重組系統工程,并確保網絡安全和收購變化。實現未來的WRAID能力并不是一個微不足道的任務。然而,它對確保現在和未來的戰斗空間優勢至關重要。
人工智能(AI)的進展,特別是深度強化學習(RL),已經產生了能夠達到或超過專業人類水平的系統。這項研究探索了RL訓練人工智能agent的能力,以實現小型戰術交戰中的最佳進攻行為。agent在一個簡單的、總體級別的軍事建設性模擬中接受了訓練,其行為得到了規模和經濟力量戰術原則的驗證。結果顯示,所應用的戰斗模型和RL算法對訓練性能的影響最大。此外,特定的超參數訓練也有助于行為的質量和類型。未來的工作將尋求在更大和更復雜的戰斗場景中驗證RL的性能。
幾十年來,政治科學家和國家層面的軍方政策制定者一直在戰略層面使用博弈論,但對其在作戰層面的使用幾乎沒有評論。傳統上,三個主要挑戰阻礙了規劃人員和分析人員在作戰層面使用博弈論,即復雜的作戰環境、參與者的動態交互以及大多數陸軍參謀人員不具備使用復雜數學技能。
這本專著表明,這些挑戰是可以克服的,博弈論可以在規劃過程中提供新穎的見解。美陸軍參謀部規劃人員可以在作戰層面有效地使用基本博弈論和簡單的數學來了解作戰環境、了解行動者及其動機,并在軍事決策過程中比較行動方案。本專著展示了如何避免高級博弈論用于解決理論問題的繁瑣數學程序,而是專注于使用基本博弈論在規劃過程中提供價值。它通過回顧博弈論在戰略層面的應用、教授基本博弈論和涵蓋一些基本博弈概念來展示博弈論的實用性。然后,它考察了一場歷史性的行動,以展示博弈論的使用將如何達到另一個推薦行動方案和結果,也許會改變歷史進程。最后,它通過將博弈論應用于軍事決策過程、任務分析和行動制定過程的兩個步驟的練習,提供了使用博弈論的指南。
幾十年來,戰略規劃者和政策制定者在戰略層面有效地應用了博弈論,但軍事從業者往往不在作戰層面使用它。當約翰·馮·諾依曼和奧斯卡·摩根斯坦在 1940 年代初在蘭德公司工作期間發展博弈論時,他們尋求一種數學方法來為沖突領域,特別是經濟沖突提供解決方案。他們于 1944 年發表了開創性的著作《博弈論與經濟行為》
博弈論允許通過將場景建模為簡化的博弈來分析決策。博弈論試圖定義參與者、策略——或可供他們選擇的選項——以及博弈結果的預期回報。它試圖澄清由于參與者的選擇而導致的不確定性。它的主要用途是它認識到結果是通過多個參與者的互動共同決定的,而不僅僅是一個人自己決定的結果,它允許分析對手可能會做什么。由于這些原因,政策制定者和戰略家使用博弈論來理解戰略問題,例如核對手、貿易慣例、內戰解決和裁軍以及缺乏國際合作,從而制定政策建議以幫助解決這些問題
作戰層面的規劃者是否可以有效地應用博弈論仍然是一個懸而未決的問題。在作戰層面使用博弈論的批評者強調了動態交互的復雜性。他們指出,培訓軍官了解博弈論的基本概念并將操作層面問題的復雜性提煉成基本博弈需要大量時間。
本專著認為博弈論提供了一個有價值的框架,最適用于在軍事決策過程的任務分析和行動發展步驟過程中理解環境中的參與者。博弈論旨在提供對情況的理解。這需要了解參與者及其潛在計劃或戰略動機。博弈論提供了一種理性的方法來研究行動者如何制定他們的策略和他們的動機基礎。由此,指揮官和參謀人員可以獲得理解,然后疊加其他因素,包括行動方案和潛在結果。它提供了一種合理而直接的方法來簡化復雜的問題。因此,博弈論為作戰規劃者提供了另一種工具,可用于了解作戰環境。
本專著重點介紹博弈論在戰略層面的歷史應用、當前的規劃過程學說和相關框架,以回答作戰規劃者能否在作戰層面有效地使用博弈論。這本專著主要通過囚徒困境分析博弈論在戰略層面的應用,將其應用于冷戰、國際貿易和價格戰期間的降價。 1777 年的新澤西戰役為應用博弈論和理解喬治華盛頓將軍和查爾斯康沃利斯將軍之間的競爭環境提供了一個歷史例子。最后,它演示了如何以及在何處將博弈論工具實施到美國陸軍當前使用的規劃過程中。所使用的博弈論是一種基本的應用方法,而不是過于復雜和無用的高級學術博弈論。簡單的博弈可以使復雜的操作情況變得清晰。該研究回顧了陸軍規劃學說,以專注于了解作戰環境和問題。任務分析旨在了解環境中的參與者以及他們之間沖突的根源。這 3 項研究的重點是深入了解對抗性和中立的參與者、激勵措施、潛在的行動方案和回報。該專著追溯了博弈論的戰略應用和作戰應用之間的差異,以了解哪些要素是一致的,同時說明了差異。最后,它將討論如何克服實施中的潛在挑戰。
規劃人員可以在軍事決策過程中使用博弈論工具,特別是在任務分析期間,以不同的視角理解作戰環境和行動發展過程,以檢查未發現的假設。博弈論工具不是替代軍事決策過程中現有的步驟和工具,而是對其進行補充。戰地手冊 6-0 解釋說,指揮官和參謀人員使用任務分析來更好地了解作戰環境和部隊面臨的問題。接下來,規劃人員使用任務分析來制定假設以填補知識空白。最后,考慮到博弈論理解競爭的本質,任務分析也有助于理解友軍和敵軍如何互動。行動方案制定過程提供了一種客觀的方式來看待多個潛在計劃。在上面的歷史例子中,華盛頓將軍和康沃利斯將軍需要了解他們的潛在行動以及他們認為 30 名敵方指揮官可能會做什么。在某種程度上,歷史例子中的將軍們可以在他們的行動發展過程中使用博弈論來檢查他們的假設。開發從敘述性或定性評估開始,然后轉向帶有每個計劃的加權分數的可量化評估。博弈論允許另一種觀點來評估潛在的計劃。以下思想實驗提供了一個示例,說明工作人員如何在任務規劃期間使用一些博弈論工具。
演習如下:美國討論在一個靠近對手的友好國家增加軍事存在,這旨在阻止對手入侵友好國家。軍團工作人員了解國家決策者關于在一個地區增加軍事存在的辯論。此外,他們知道如果國家領導層追求升級,軍團是升級的一個因素。工作人員致力于了解作戰環境并了解國家層面的優先事項和激勵措施,以便他們可以就選項提出更高的建議并為預期的行動方案做好準備。其次,他們努力了解敵人的動機和行動計劃。敵人還面臨著增加其在該地區的軍事存在或維持現狀的前景。兩國都擁有核武器,都不想進行全面戰爭。最后,兩個大國都可以遷移的地區的人口不希望被外國勢力占領。國家決策者面臨的戰略決策具有操作層面的影響。
如上所述,任務分析提供了對情況和問題的理解。在任務分析過程中,工作人員開始對行動者的動機和動機有所了解。戰場情報準備是任務分析的關鍵步驟。參謀人員對友軍和敵軍如何在環境中相互作用做出假設。由此,工作人員開發了每個參與者在即將到來的操作中可以使用的潛在選項。此外,情報準備步驟確定了指揮官和參謀人員的知識差距。這些差距導致了獲取信息的情報需求的發展。正如文獻回顧中所述,人們根據他們擁有的信息做出決策,并預測競爭對手的行為。這些步驟不會取代或否定軍事決策過程的任何步驟,它們只是關于如何以及在何處實施博弈論工具的建議。
鑒于這種情況,參謀人員開始制定敵人的行動方案。當應用于博弈矩陣時,這些行動方案成為敵人的策略。敵人可以用他們的一個師或軍將該地區軍事化,也可以選擇不軍事化。是否軍事化的選擇為敵人創造了兩種不同的戰略。第二步著眼于每個策略的結果。如果雙方都軍事化,那么他們將面臨戰爭。如果雙方都沒有軍事化,那么他們就維持現狀。如果一個國家軍事化而另一個國家不軍事化,那么軍事化的國家就會在沒有爭議的環境中這樣做。表11顯示了這種情況的結果。
表11:定性結果
第三步要求參謀人員查看敵人的動機,然后對他們的選擇進行定性分析。敵人想在美國不決定將該地區軍事化的情況下將該地區軍事化。這為他們創造了一個無可爭議的環境。其次,他們既不看重自己也不看重美國將該地區軍事化,這是現狀。第三個可取的結果是美國軍事化,而敵人沒有,這意味著美國擁有無可爭議的軍事化。最后,如果美國也進行軍事化,敵人不想升級為戰爭,也不想將該地區軍事化。工作人員現在可以根據偏好對敵人的行動路線進行排序。作戰和情報人員可以利用收集資產并制定收集計劃,以確定有關敵人計劃的任何指標,例如在該地區集結部隊。信息收集計劃有助于回答信息需求并協助進行有效規劃。
工作人員現在進入行動開發過程。生成選項步驟概述了指揮官和參謀人員可用的選項。工作人員制定了可以切實擊敗敵人行動方案的選項,然后確定它們的優先級。工作人員還產生了兩個廣泛的選項。他們可以軍事化,也可以不軍事化。由于每個參與者的策略,工作人員現在可以對他們的行動方案進行排序。指揮官和參謀更愿意維持現狀。如果美國采取行動將該地區軍事化,它可能會擾亂地方、國家政府和民眾。因此,美國對該地區的軍事化和一個不軍事化的敵人是次要的選擇。這種選擇意味著美國擁有無可爭議的軍事化,但正如所述,當地政府感到不安。第三,排名是美國不軍事化,但敵人軍事化,給了他們無可爭議的優勢。最后,美國不希望發生戰爭,如果美國和敵人都進行軍事化,就會發生戰爭。
接下來,工作人員將博弈發展為矩陣或戰略形式。首先,他們進行定性分析,說明每次交戰的可能結果,見表 12。然后參謀人員從每個指揮官的角度對結果進行排序,以生成定量分析和回報,如表 13 所示。該表顯示了回報敵方第一,美國第二。使用倒序排列,最低數字的收益表示排后的選項,數字越大,表示首選的選項。每個戰斗人員都是近鄰,因此參謀人員認為交戰將有利于主動一方。
表12 :定性分析
表13:定量結果
這兩種的價值在于員工進行分析以掌握對潛在未來結果的理解。它提供了一個簡潔的可交付產品,參謀計劃人員可以在一張紙上將其交給指揮官或參謀長,以供將來參考或思考,因為指揮官和參謀人員開始在軍事決策過程的未來步驟中權衡選項。這種分析為員工提供了一個思考他們正在做什么以及他們的計劃可能產生什么結果。這是舍恩所說的實踐中反思的一個例子。正如他所說,它允許人們在執行任務時思考他們正在做什么,然后塑造他們所做的事情。
下一步要求參謀人員將可用選項縮小到只有指揮官可用的可信選項。參謀部尋找指揮官永遠不會使用任何主導策略。敵方指揮官沒有任何主導策略,并且兩種策略都可供他使用。但美國永遠不會在博弈中選擇軍事化,因為無論敵人選擇什么,不軍事化都會主導博弈。表 14 以粗體突出顯示哪個選項在美國占主導地位。例如,如果敵人決定軍事化,如果它決定軍事化,美國將獲得 1 的回報,否則將獲得 2 的回報。因此,在這種情況下,美國會選擇不進行軍事化。同樣,如果敵人不軍事化,那么如果它軍事化,美國將獲得三倍的回報,如果它不軍事化,美國將獲得四倍的回報,美國將再次選擇不進行軍事化。因此,工作人員將其排除在外。
表14:以粗體突出顯示的美國的收益
既然參謀人員了解美國沒有軍事化的動機,它就可以看看敵人可能會采取什么行動作為回應。敵人知道美國不想軍事化,并尋求使其結果最大化。因此,敵人選擇軍事化,因為這比不軍事化帶來更好的回報。這達到了納什均衡,即敵人軍事化并獲得四分之二的回報,而美國不軍事化并獲得三分之二的回報。表 15 顯示了圈出的所得納什均衡。
表15:軍事化為主
但現實生活中的情況并不總是一致的。一方通常首先采取行動,迫使另一方做出決定。在上述情況下,美國正在努力應對將該地區軍事化的決定。然后他們的決定迫使敵人做出決定。下一步著眼于在順序移動游戲中情況如何展開,以及納什均衡在決策分析中是否發生變化。順序博弈見表 16。該表首先顯示了敵人的收益,其次是美國的收益。
表16:順序多次博弈
參與者對每個結果的選擇和回報保持不變。唯一的區別是美國先行動,敵人必須做出反應。工作人員必須使用子博弈分析來分析這個博弈及其結果。敵人有第二步,因此分析從他們的預期步驟開始。這兩個參與者都知道,如果美國選擇軍事化,敵人將選擇不軍事化,因為兩個人的回報比一個人要好。如果美國選擇不軍事化,敵人會想要軍事化,因為四比三好。鑒于美國的選擇,上面的表 16 通過圈出每個敵人的首選選擇來表明這種行為。既然美國知道敵人會根據美國的選擇做出哪些選擇,他們就會在兩者之間做出選擇。美國選擇軍事化,知道敵人不會軍事化,從而為美國帶來三倍的回報。美國軍事化總比不軍事化并獲得兩個回報要好,因為知道敵人會選擇軍事化。因此,納什均衡變成了美國軍事化和敵人不軍事化,敵方兩分,美國三分,見表 17。
表17:納什均衡
序列博弈導致的納什均衡與同步博弈不同,為什么?每場比賽都會導致一方軍事化,而另一方不軍事化。在同步博弈中,敵人通過軍事化獲得了最有利的回報,美國知道這一點,因此選擇不軍事化。然而,在順序博弈中,美國先決勝負。如果他們不軍事化,他們將獲得最高的回報,而敵人也選擇不軍事化。兩國都不會軍事化,因為如果美國不軍事化,敵人就有動機進行軍事化。美國意識到這一點,因此認為他們的下一個最佳選擇是軍事化,因為它知道敵人不會軍事化,因為這會迫使兩個參與者之間發生戰爭。這個游戲提供了一個先發優勢的例子。如果敵人先選擇,他們也會有軍事化的動機
序列多次博弈反映了更現實的情況。但是運行這兩種類型的博弈為工作人員了解動機和潛在行動提供了分析價值。工作人員可以看到排序操作如何改變結果。如上所述,使用這種方法的價值在于分析。工作人員可以按照矩陣形式對每個結果進行簡要說明。然后他們可以看到他們的選擇之一不是一個可行的選擇。然后,他們查看了定量評估并確定可以使用平衡結果。所進行的定性分析重申了 Thomas Schelling 的觀點,即博弈論的數學并不總能解決沖突,不應過度依賴數學。而是對問題的思考增加了價值。
博弈論提供了一種分析工具來看待競爭情況。它使分析師能夠了解潛在的行動計劃、激勵措施以及回報或結果。此外,它可以突出信息差距和需要進一步理解的領域。在 20 世紀中葉,戰略層面的規劃者用它來更好地了解美國和蘇聯之間在使用核武器和原子戰方面的競爭。國防部以外的分析師使用它來了解競爭公司之間的貿易爭端和降價。
在作戰層面,博弈論允許對潛在計劃、激勵和結果進行相同類型的分析和理解。這本專著審視了博弈論的歷史并探索了基本的博弈論,確立了博弈論在分析沖突情況方面的有用性。文獻回顧揭示了博弈論的優勢和劣勢,這為如何最好地利用它以最大限度地發揮其潛力提供了信息。檢查諸如核局勢和國際貿易等戰略層面的決策為以前的努力如何有效地應用博弈論提供了背景。博弈論在特倫頓和普林斯頓的美國獨立戰爭中的應用與指揮官們所追求的不同,展示了使用博弈論如何提供獨特的見解,這對于像康沃利斯這樣經驗豐富的將軍來說并不明顯。最后,該專著展示了軍團級別的參謀人員如何使用博弈論來理解戰略級別的決策如何影響作戰級別的行動,比較了同步博弈和序列博弈的實用性。最后一部分提供了一個基本框架,工作人員可以通過將博弈論應用于任務分析和行動開發過程來解決操作問題。
博弈論的使用不僅限于軍事決策過程。博弈論非常適合國防部和美國陸軍目前使用的現有規劃流程。規劃人員可以在聯合作戰設計過程和陸軍設計方法中使用博弈論工具。具體來說,在聯合設計期間,博弈論工具最適合理解戰略指導和理解作戰環境。在軍隊設計期間,它最適合構建作戰環境和理解問題。博弈論是參謀人員或計劃團隊的工具包中的另一個有用工具。當通過軍事決策過程或設計過程應用時,博弈論分析與其他工具很好地結合在一起,可以更好地了解作戰環境。
Wargaming in Professional Military Education: Challenges and Solutions
職業軍事教育中的兵棋推演:挑戰與解決方案
美國海軍陸戰隊埃里克·沃爾特斯(Eric M. Walters)上校(退役)
鑒于強調在專業軍事教育中使用兵棋推演,學校、作戰部隊和支持機構的教官——尤其是那些本身沒有經驗的兵棋推演者——如何去做呢?本文解釋了在經驗豐富專家的幫助下,為選定、修改或內部設計的嚴格兵棋式推演制定理想的學習成果的必要性。總結了最近的相關學術成果,它提供了促進協作對話的基本術語和概念,并就這種動態和沉浸式教學方法的常見但可避免的陷阱提供了建議。
對于那些認為兵棋推演不僅僅是一種娛樂消遣的人來說,商業兵棋推演曾經是——而且可以說仍然是——一種小眾愛好。在 20 世紀和 21 世紀初的歷史中,只有相對較小比例的軍人和學者經常進行所謂的嚴格式兵棋推演。過去,這一想法受到制度性的抵制,在職業軍事教育(PME)中使用一些人認為是兒童游戲的東西;雖然最近這種恥辱感有所減輕,但對于外行來說,兵棋推演的學習障礙仍然很高。兵棋推演可能很難學習,甚至更難戰勝有能力的對手。然而,我們已經到了 2021 年,軍事兵棋推演似乎正在 PME 學校、作戰部隊甚至支持機構中復活。海軍陸戰隊司令大衛 H. 伯杰將軍在他的指揮官規劃指南中,強調了在 PME 中練習軍事決策的必要性,這是教育兵棋推演的主要目的。但一個事實仍然存在。對于那些有興趣使用和設計兵棋推演來教授軍事判斷力的人來說,這種教學方法似乎很難有效實施。學術界的成功案例涉及作戰部隊中已經是兵棋推演者的教授、教官和海軍陸戰隊領導人。不是兵棋推演者但教軍事決策的人如何弄清楚要使用什么兵棋推演?如何使用它?各種可用游戲的優點和局限性是什么?整合兵棋推演和課程有哪些挑戰,如何克服這些挑戰?本文旨在幫助那些不熟悉兵棋推演的人定位,并就在教授決策中的軍事判斷時使用它們的經過驗證的最佳實踐提供建議。
1 教育者如何使用游戲來教學生?
1.1 了解戰術、作戰和戰略中力量、空間和時間之間的關系
?1.2 在兵棋推演中模擬現實“決策環境”以解決決策困境
?1.3 在兵棋推演環境中體驗摩擦、不確定性、流動性、無序和復雜性的交互動力學
1.4 鍛煉創造性和批判性思維:準備、參與和分析兵棋推演活動
2 哪種類型的兵棋推演最適合學習目標?
?2.1 角色扮演游戲 (RPG)
? ?2.2 研討會矩陣游戲
2.3 系統游戲
?2.4 紙牌游戲
3 哪種情況最適合使用——歷史情景還是假設情景?
4 兵棋推演教學——挑戰與解決方案
?4.1 克服設計偏見
?4.2 時間和復雜性的挑戰
?4.3 對教師要求的考慮
?4.4 兵棋推演支持單位教育和凝聚力