機器人和自主系統(RAS)涉及多個學科的豐富整合,如控制工程和機器人學、機械工程、電子和軟件工程。RAS的確認和驗證需要對傳統的測試技術進行非簡單的擴展,以處理其多學科的性質。特別是,對于軟件測試界的研究人員和從業人員來說,將現有的軟件測試技術擴展到RAS是一個挑戰,這導致了大量關于提出和評估不同技術和過程的文獻。這些豐富的文獻需要進行二次研究,為這一領域提供一個結構,并確定現有結果的相對優勢和劣勢。本文通過對RAS測試進行結構化的文獻調查來解決這一問題。
早期有許多關于相關主題的調查;在第2節對相關工作和調查進行了深入的比較。然而,簡單地說,其中一些調查有不同的或更有限的范圍,例如,考慮機器學習組件[79],形式化規范和驗證技術[139]或驅動數據集[109],或不旨在提供該領域的結構概述,以回答特定受眾的具體問題[20]。據我們所知,這是第一個系統的二次研究,涵蓋了測試RAS的結果的廣度(關于其他具有不同焦點的研究,見相關工作部分),此外,提供了對這些結果的分析,目的是描述技術的類型,過程和分析其適用性的證據(在工具和案例研究的類型方面)。
范圍包括涉及測試機器人和自主系統的新成果(包括技術、過程、工具和其應用)。把這種新的結果稱為 "干預",遵循二次研究的傳統,以及最近測試領域的系統回顧[3]。在我們的術語中,干預是 "為使測試適應特定環境、解決測試問題、診斷測試或改進測試而實施的行為(如使用一種技術或流程改變)"[68]。我們的調查范圍包括幾種驗證和核查技術,包括物理測試、基于模型的測試、運行時監控、形式化驗證和模型檢查。
受眾是軟件和系統工程的研究人員和從業人員。因此,我們從兩個角度進行分析:
(1) 研究人員:確定測試RAS研究領域的優勢和差距,特別是關于傳統的軟件測試分類法,是否存在軟件測試分類法沒有涵蓋的新挑戰
(2) 從業人員:鑒于環境和可用資源,確定具有適用性證據的干預措施。
我們在本文的其余部分提供了RAS的精確定義,以便推導出嚴格的納入和排除標準。但簡而言之,為了使我們的干預措施對目標受眾有用,我們把范圍限制在那些干預措施上,即
(1) 在其方法論中涉及測試集成在RAS中的計算機系統(而不是僅僅物理、機械或控制部分);這是因為我們的目標受眾是軟件和系統工程的研究人員和從業人員。
(2) 有一些關于RAS的適用性、效率或有效性的證據;這是由我們的范圍(RAS的測試、驗證和確認)以及我們為研究人員和從業人員提供優勢(或劣勢)證據的目標所決定的
(3) 考慮到系統級的確認和驗證,不關注此類系統的特定單元或組件(例如,特定類型的學習或規劃算法或此類系統的物理或機械部分的測試),這是由于RAS固有的多學科性和任何系統級測試RAS需要適應它。
接下來,定義了一些研究問題,這些問題有助于對兩組受眾的現有干預措施進行結構化和分析。
如上所述,我們想回顧和分析那些適用于RAS的測試、確認和驗證的干預措施;特別是,我們強調那些考慮到RAS中的計算機系統及其與物理環境和人類用戶的交互的干預措施。在本節的其余部分以及本文的其余部分,我們用測試這個詞來指代各種測試、確認和驗證技術。
一個結構化的測試、確認和驗證方法通常由模型引導,描述被測試系統的結構或行為。模型的類型往往決定了可以應用的分析類型,因此,對技術的適用性和有效性有著深遠的影響。然而,并不是所有包含的干預措施都是基于模型的(甚至與測試用例有關),因為我們也考慮其他形式的驗證,如運行時監控。此外,用于評估被測系統和干預措施本身的有效性、效率和覆蓋率的指標都是決定干預措施適用性的主要因素,因此,構成了我們研究問題的主要部分。最后,為評估該技術而進行的案例研究是適用性的一個主要證據來源。基于這些觀察,我們的研究問題具體如下。
(1) 用于測試RAS的模型類型有哪些?
我們將 "模型 "一詞寬泛地解釋為任何信息源或領域抽象,用于結構或引導測試過程或評估測試結果。這有助于我們理解和決定在測試RAS時常用或需要的抽象類型。他們幫助研究人員和從業人員確定可以使用當前測試干預措施解決的RAS的類型/方面,以及為了使這些干預措施適用而需要提供的信息類型。它還指出了目前的干預措施所沒有涵蓋的RAS的各個方面。根據上述目標,我們分析了兩種類型的模型:針對被測系統或其環境的模型,與描述其質量屬性的模型。
(2) 哪些效率、效果和覆蓋率措施被引入或用于評估RAS測試干預措施?
效率是指一項干預措施為實現其目標所需的時間和資源。有效性指的是測試干預所恢復的故障類型和數量,覆蓋率指的是用于決定測試干預的充分性和停止標準的任何措施。回答這兩個問題也為研究人員和從業人員提供了現有技術、流程和工具的強度和適用性的現有證據。
(3) 在這個領域,有哪些干預措施得到了(公開的)工具的支持?
工具支持是在實踐中應用測試干預措施以及在研究背景下將其與其他干預措施整合的關鍵推動因素。我們通過提供每種干預措施可用和所需的工具信息來分析有關這個研究問題的文獻;我們把第一類工具,即那些為支持特定干預措施而開發的工具稱為效果工具,以及那些效果工具發揮作用所使用和需要的工具。第二類,稱為背景工具,提供關于特定干預措施在其背景下自動化所需的進一步信息。我們還報告了有關許可證的信息,如果可以的話,以促進決策。
(4) 哪些干預措施有證據表明適用于大規模和工業系統?
我們從審查的干預措施中收集案例研究方面的證據,并將其分為小規模、基準和工業案例研究。
本文的其余部分結構如下。在第2節,回顧了相關的工作,重點是關于相關主題的二次研究(文獻調查和評論)。在第3節中,定義了本文的范圍,并解釋了這個結構化回顧的背景。報告了核心成果集,作為搜索的種子,以形成這項研究。在第4節中,回顧了用于系統回顧的方法;這包括描述搜索和選擇策略,開發用于編碼結果的分類法,我們的數據提取和綜合方法。在第5節,介紹了編碼結果,并對其進行分析以回答我們的研究問題。在第6節中,對分析進行了反思,并為我們的目標受眾,即研究人員和從業人員提供了具體的建議。在第7節中,總結了本文并提出了一些未來研究的方向。
本文總結了關于自主軍事系統的測試、評估、驗證和確認(TEV&V)的挑戰和建議的部分文獻。本文獻綜述僅用于提供信息,并不提出任何建議。
對文獻的綜合分析確定了以下幾類TEV&V挑戰:
1.自主系統的復雜性產生的問題。
2.當前采購系統的結構所帶來的挑戰。
3.缺少測試的方法、工具和基礎設施。
4.新的安全和保障問題。
5.在政策、標準和衡量標準方面缺乏共識。
6.圍繞如何將人類融入這些系統的操作和測試的問題。
關于如何測試自主軍事系統的建議可以分為五大類:
1.使用某些程序來編寫需求,或設計和開發系統。
2.進行有針對性的投資,以開發方法或工具,改善我們的測試基礎設施,或提高我們勞動力的人工智能技能組合。
3.使用特定的擬議測試框架。
4.采用新的方法來實現系統安全或網絡安全。
5.采用具體的建議政策、標準或衡量標準。
在過去的十年中,計算和機器學習的進步導致了工業、民用和學術應用中人工智能(AI)能力的激增(例如,Gil & Selman,2019;Narla, Kuprel, Sarin, Novoa, & Ko, 2018;Silver等人,2016;Templeton,2019)。由人工智能促成的系統往往在某種意義上表現得很自主:它們可能會接管傳統上由人類做出的決定,或者在較少的監督下執行任務。然而,與武裝沖突期間的錯誤決定相比,一個真空機器人、一個高頻股票交易系統,甚至一輛自主汽車做出錯誤的選擇是可以通過糾正措施相對恢復的。軍事系統將面臨與民用系統相同的大部分挑戰,但更多地是在結構化程度較低的環境中運作,所需的反應時間較短,而且是在對手積極尋求利用錯誤的情況下。人工智能和自主軍事系統將需要強有力的測試,以保證不理想的結果,如自相殘殺、附帶損害和糟糕的任務表現是不太可能的,并且在可接受的風險參數范圍內。
為了自信地投入使用自主軍事系統(AMS),必須相信它們會對設計時可預見的問題和它們必須適應的不可預見的情況做出適當的決定。簡而言之,這些系統必須是熟練的、靈活的和值得信賴的。 當AMS要在狹義的情況下運行時(例如,要求一個 "智能"地雷在一天中的特定時間內施加特定的壓力時爆炸),要保證系統的行為符合要求就容易多了。它能遇到的相關不同情況的數量和它的行為反應(即其決策的狀態空間)都是有限的。擴大這個狀態空間會使保證更加困難。例如,一個自主的基地防御系統旨在根據目前的ROE用適當的武力來應對任何可能的威脅,預計會遇到更多的情況,包括設計的和不可預見的。要在這種情況下適當地運作,需要更多的靈活性,這反過來又要求系統更加熟練,允許它運作的人類更加信任。這些需求的相互作用是這些系統的許多T&E困難的一個核心驅動因素。
人工智能技術為美國防部(DoD)內的采購項目的測試和評估過程帶來了一系列的挑戰。首先,這些系統純粹的技術復雜性和新穎性可能難以駕馭。此外,美國防部的采購流程是在假設的基礎上進行優化的,而自主權可能不再成立(Tate & Sparrow, 2018)。例如,將承包商、開發和操作測試分開,假設我們有離散的、相對線性的開發階段,導致系統的 "生產代表 "版本。對于AMS來說,這可能不是真的,特別是如果它們在整個生命周期中繼續學習。此外,在我們擁有一個系統之前就寫需求,是假設我們事先了解它將如何被使用。因為AMS的熟練度、靈活性和可信度會隨著時間的推移而發展,并會影響人類如何使用或與系統互動,所以與標準系統相比,作戰概念(CONOPS)和戰術、技術和程序(TTPs)將需要與系統共同開發,其程度更高(Haugh, Sparrow, & Tate, 2018; Hill & Thompson, 2016; Porter, McAnally, Bieber, & Wojton, 2020; Zacharias, 2019b)。
然而,即使美國防部的采購流程被更新,美國防部員工用于測試和評估(T&E)的具體方法、工具和基礎設施將無法保證系統的性能達到預期。開發和設計工作包含了測試,通過內部儀器建立可測試性;提高軟件的透明度、可追溯性或可解釋性;對培訓和其他數據進行良好的管理和驗證,可以改善開發過程,同時也為測試和評估鋪平道路,但它們沒有被普遍采用。此外,能夠幫助項目克服所有這些挑戰的政策和標準要么缺乏,要么不存在。
自主性的定義繁雜眾多,有些定義對美國防部來說不如其他定義有用。許多定義包含了獨立、不受外部控制或監督、或與其他實體分離的概念(例如,牛津英語詞典,2020年)。然而,假設任何參與者將在沒有控制或監督的情況下運作,甚至是人類作戰人員,這與美國防部的政策和指揮與控制(C2)的思想相悖。不希望自主系統擁有選擇行動路線的完全自由,而是在其分配的任務中擁有一些受約束的自由。
與作戰人員一樣,可能希望與自主系統有一個C2或智能體關系。希望:1. 明確具體任務和/或整體任務的目標或目的,可能還有這些目標的更大原因,如指揮官的意圖(即做什么和為什么)。2.明確與任務相關的約束,如交戰規則(ROE,即不能做什么)。3. 不指定使用的方法或對每一種情況給出明確的應急措施,如對對手的反應做出反應(即如何完成任務)。
一個系統是否被授權為一項任務做出這些 "如何 "的決定,是本文將區分自主系統和非自主系統的方法。
在 "是什么"、"不是什么 "和 "為什么 "的限制下,為 "如何 "做出有用的、理想的選擇,假定了某種程度的智能。因為這些是機器,這就意味著存在某種程度的人工智能。需要人工智能來實現對非瑣碎任務的有用的自主性,這可能解釋了為什么人工智能和自主性經常被混為一談。在本文件中,我們將自主性稱為系統在其操作環境中的行為,而人工智能則是與該環境進行有意義的互動的 "內在 "促成因素。
這篇論文試圖研究能夠改善復雜軍事戰術環境中決策的人工智能(AI)技術。戰術環境在威脅、事件的節奏、突發或意外事件的因素、戰斗空間意識的限制以及潛在的致命后果方面可能變得非常復雜。這種類型的環境對戰術作戰人員來說是一個極具挑戰性的決策空間。戰術決策任務在識別決策選項、權衡眾多選項的相對價值、計算選項的預測成功率以及在極短的時間內執行這些任務方面迅速超越了人類的認知能力。海軍已經確定需要開發自動戰斗管理輔助工具(ABMA)來支持人類決策者。這個概念是讓ABMA處理大量的數據來發展戰斗空間知識和意識,并確定戰爭資源和行動方案的優先次序。人工智能方法的最新發展表明,它有望成為ABMAs支持戰術決策的重要推動者。本論文研究人工智能的方法,目的是確定在戰術決策領域的具體應用。
本論文分為五章。第一章概述了本課題的背景,描述了本論文所探討的問題,本論文的目的,以及研究的方法和范圍。第二章對論文中討論的定義和概念進行了全面的背景回顧,包括自動戰斗管理輔助工具、決策復雜性和人工智能及自主系統的概念。第三章描述了用于協調數據采集和理解檢索數據要求的研究方法。第四章提供了分析的結果,并探討了從分析結果中得出的潛在好處和局限。本論文的最后一章包含最后的結論和對未來工作的建議。
在本文中,我們討論了如何將人工智能(AI)用于政治-軍事建模、仿真和兵棋推演,針對與擁有大規模殺傷性武器和其他高端能力(包括太空、網絡空間和遠程精確武器)國家之間的沖突。人工智能應該幫助兵棋推演的參與者和仿真中的智能體,理解對手在不確定性和錯誤印象中行動的可能視角、感知和計算。人工智能應該認識到升級導致無贏家的災難的風險,也應該認識到產生有意義的贏家和輸家的結果可能性。我們將討論使用幾種類型的AI功能對建模、仿真和兵棋的設計和開發的影響。 我們在使用或沒有使用AI的情況下,根據理論和使用仿真、歷史和早期兵棋推演的探索工作,討論了基于兵棋推演的決策輔助。
在本文中,我們認為(1)建模、仿真和兵棋推演(MSG)是相關的調查方法,應該一起使用;(2)人工智能(AI)可以為每個方法做出貢獻;(3)兵棋推演中的AI應該由建模和仿真(M&S)提供信息,而M&S的AI應該由兵棋推演提供信息。我們概述了一種方法,為簡潔起見,重點是涉及擁有大規模毀滅性武器(WMD)和其他高端武器的國家的政治-軍事MSG。第2節提供了我們對MSG和分析如何相互聯系的看法。第3節通過討論20世紀80年代的系統來說明這一點是可行的。第4節指出今天的挑戰和機遇。第5節簡述了結構的各個方面。第6節強調了在開發人工智能模型和決策輔助工具方面的一些挑戰。第7節得出了結論。在本文中,我們用 "模型"來涵蓋從簡單的數學公式或邏輯表到復雜的計算模型的范圍;我們用"兵棋"來包括從小型的研討會練習(例如Day-After練習)到大型的多天、多團隊的兵棋推演。
MSG可以用于廣泛的功能,如表1所示。每種功能都可以由每個MSG元素來解決,盡管相對簡單的人類活動,如研討會兵棋和Day-After練習已被證明對后兩個主題具有獨特的價值。
通常形式的M&S和兵棋推演有不同的優勢和劣勢,如表2前三欄中的定型。M&S被認為是定量的、嚴格的和 "權威的",但由于未能反映人的因素而受到嚴重的限制。M&S的批評者走得更遠,認為M&S的 "嚴格 "轉化為產生的結果可能是精確的,但卻是錯誤的。在他們看來,兵棋推演糾正了M&S的缺點。M&S的倡導者則有不同的看法。
我們確實認識到并長期批評了正常建模的缺點。我們也從兵棋推演中受益匪淺,部分是通過與赫爾曼-卡恩(P.B.)、蘭德公司和安德魯-馬歇爾的長期合作,但兵棋推演的質量從浪費時間甚至起反作用到成為豐富的洞察力來源。雖然這種見解在沒有后續研究的情況下是不可信的,但來自建模的見解也是如此。
我們本文的一個論點是,這種刻板印象不一定是正確的,我們的愿望(不加掩飾的崇高)應該是表的最后一欄--"擁有一切",將建模、仿真和推演整合在一起。圖1顯示了一個相應的愿景。
這種理想化的活動隨著時間的推移,從研究、兵棋推演、軍事和外交經驗、人類歷史、人類學等方面開始(第1項),匯集關于某個領域(例如印度-太平洋地區的國際安全問題)的知識。這就是對棋盤、行動者、潛在戰略和規則書的定性。
兩項工作的進行是不同步的。如圖1的上半部分,兵棋推演在進行中,為某種目的而結構化。無論圖中的其他部分是否成功執行,這都可能獨立發生。同時,M&S以游戲結構化模擬的形式進行。隨著時間的推移,從M&S和兵棋推演中獲得的經驗被吸收,使用人工智能從M&S實驗中挖掘數據(第4項),以便為后續周期完善理論和數據(第5項)。在任何時候,根據問題定制的MSG都會解決現實世界的問題(第7項)。如同在淺灰色的氣泡中,人類團隊的決策輔助工具(項目6a)和智能體的啟發式規則(項目6b)被生成和更新。有些是直接構建的,但其他的是從分析實驗和兵棋推演中提煉出來的知識。有些智能體直接加入了人工智能,有些是間接的,有些則根本沒有。圖1鼓勵MSG活動之間的協調,盡管這種協調有時可能是非正式的,可能只是偶爾發生。
圖1的意圖可以在一個單一的組織中完成(例如,敏感的政府內工作)和/或在智囊團、實驗室、私營企業、學術界和政府中更開放的持續努力計劃中完成,就像圖2中的DARPA研究稱為社會行為建模實驗室(SBML)。在任何一種情況下,這種方法都會鼓勵多樣性、辯論和競爭。它也會鼓勵使用社區模塊來組成專門的MSG組件。這與專注于一個或幾個得天獨厚的單一模型形成鮮明對比。直截了當地說,這個愿景是革命性的。
圖1的愿景的一個靈感是20世紀80年代的蘭德公司戰略評估系統(RSAS)(附錄1指出了文件)。為了回應美國防部關于更好地利用兵棋推演進行戰略分析的要求,由卡爾-鮑爾領導的蘭德公司團隊提出了自動化兵棋推演,它將利用那個時代的人工智能、專家系統,但它將允許可互換的人工智能模型和人類團隊。這導致了一個多年的項目,我們中的一個人(P.K.D.)在1981年加入蘭德公司后領導這個項目。
該項目從深入設計開始,保留了可互換團隊和人工智能智能體的開創性想法,但也包括一個靈活的全球軍事模型;與人工智能有關的新概念,如替代的紅方和藍方智能體,每個都有彼此的模型;代表其他各方的綠方智能體,有簡單的參數化規則子模型;紅方和藍方智能體在做決定前做 "前瞻 "的能力;以及 "分析性戰爭計劃"--代表軍事指揮官的自適應插槽式腳本人工智能模型。該設計還預計:多情景分析,納入 "軟因素",如定性的戰斗力,以及人工智能模型的解釋能力。圖3勾勒出高級RSAS架構。整個80年代都在實施。蘭德公司將RSAS用于國防部的研究,例如,歐洲的常規平衡和常規軍備控制的建議,并將其出口到各政府機構和戰爭學院。聯合參謀部收到了RSAS,但事實證明連續性是不切實際的,因為一旦有適當才能的官員學會使用它,他們就會被提升到其他任務。
盡管RSAS在技術上取得了成功,但它在某些方面還是領先于時代。一方面,其創新的全球作戰模型被廣泛接受并用于分析和聯合兵棋推演。它成為聯合綜合作戰模型(JICM),在過去的30年中不斷發展,現在仍在使用。另一方面,RSAS的人工智能部分除了用于演示外,很少在蘭德公司之外使用。大多數指導RSAS工作的政府辦公室對政治層面的問題沒有興趣,如危機決策、戰爭路徑或升級。少數人有興趣,這導致了蘭德公司的研究,但在大多數情況下,他們的需求可以通過相對簡單的兵棋推演來解決,包括事后演習(Roger Molander,Peter Wilson)。此外,完整的RSAS是昂貴、復雜和苛刻的。更為普遍的是,隨著蘇聯的解體,美國防部對兵棋推演的興趣驟然下降。
幸運的是,事實證明有可能實現 "去粗取精":用人工智能智能體進行類似RSAS的模擬,可以通過非常簡單的模型和游戲獲得一些重要的見解,正如最近未發表的用對手的替代形象進行核戰爭的工作中所說明的。
RSAS在某種程度上納入了表2最后一欄的大部分想法,所以它顯示了可行性。也就是說,它可以作為某種存在的證明。然而,那是在冷戰時期,采用1980年代的技術。今天能做什么?
今天的國際安全挑戰遠遠超出了冷戰時期的范圍。它們呼喚著新的兵棋推演和新的M&S。新的挑戰包括以下內容。
現在的世界有多個決策中心,他們的行動是相互依賴的。從概念上講,這將我們置于n人博弈論的世界中。不幸的是,盡管諸如公地悲劇和食客困境等現象可以用n人博弈論的語言來描述,而且平均場理論有時也可以作為一種近似的方法來使用,但似乎n人博弈的復雜的解決方案概念還沒有被證明是非常有用的。由于種種原因,這種解決方案并沒有被廣泛采用。商學院的戰略課程很少使用這些技術,國防部的智囊團也很少將這些技術納入他們的M&S中。可能是現實世界的多極化太過復雜,難以建模,盡管在戰略穩定方面已經做出了一些努力。就像物理學中的三體問題一樣,n方系統的行為甚至可能是混亂的。我們還注意到,隨機混合策略在n人博弈中通常發揮的作用很小。同樣,在計算其他玩家的行動時,可能有很多內在的復雜性,以至于隨機化產生的一層額外的不確定性對我們理解未來的危機動態沒有什么貢獻。
與1980年代相比,有更多的國家擁有大規模殺傷性武器(即印度、巴基斯坦、朝鮮),甚至更多的國家擁有大規模破壞性武器。網絡作為一種戰略武器的加入,使問題進一步復雜化。在這里,人工智能可能有助于理解事件。作為一個例子,假設一支核力量受到攻擊,使其用于電子控制的電力系統癱瘓(由于分散和防御,這可能并不容易)。一支導彈部隊只能在短時間內依靠備用電力系統執行任務。大國肯定意識到自己和對手的這種脆弱性。在商業電力領域,人工智能對于在電力中斷后向需求節點快速重新分配電力資源變得非常重要,例如2021年發生在德克薩斯州的全州范圍內的冰凍溫度。
武器裝備的變化擴大了高端危機和沖突的維度,如遠程精確打擊和新形式的網絡戰、信息戰和太空戰。這意味著卡恩很久以前提出的44級升級階梯現在必須被更復雜的東西所取代,正如后面6.3節中所討論的。
一個推論被低估了,那就是現在的世界比以前更加成熟,可以進行有限的高端戰爭--盡管更熱衷于威懾理論的人有相反的斷言--其中可能存在有意義的贏家和輸家。在考慮俄羅斯入侵波羅的海國家、朝鮮入侵韓國等可能性時,這一點變得很明顯。出現的一些問題包括俄羅斯對 "升級-降級 "戰略(北約冷戰戰略的俄羅斯版本)的依賴,以及網絡戰爭和攻擊空間系統的前景。因此,觀察到更多國家部署跨洋范圍的精確打擊武器也是麻煩的。即使是曠日持久的“有限”戰略戰爭現在也可能發生,盡管如第6.3節所討論的那樣,升級很容易發生。
今天的美國安全伙伴有著不同的重要利益和看法。北約在整個冷戰期間表現出的非凡的團結,在現代危機或沖突中可能無法重現。在亞太地區,朝鮮和韓國、中國、日本、臺灣、印度和巴基斯坦之間的矛盾關系是危機中困難的預兆。所有這些國家都有通過使用太空、網絡空間或區域范圍內的精確武器進行升級的選擇。
這里的總體問題是,聯盟仍然非常重要,但今天的聯盟可能與冷戰時期緊繃的街區不同。我們可能正在進入一個類似于20世紀初的多極化階段。第一次世界大戰爆發的一個因素是,柏林認為倫敦不會與法國一起發動戰爭,在歐洲阻擊德國。這導致人們相信,戰爭將類似于1871年的普法戰爭--有限、短暫,而且沒有特別的破壞性。甚至法國在1914年8月之前也不確定英國是否會加入戰爭。這種對自己的盟友會做什么的計算,對穩定至關重要。這里的不確定性確實是一個具有巨大意義的戰略問題。
在考慮現代分析性兵棋推演的前景時,新的技術機會比比皆是。下面的章節列出了一些。
基于智能體的建模(ABM)已經取得了很大的進展,對生成性建模尤其重要,它提供了對現象如何展開的因果關系的理解。這種生成性建模是現代科學的革命性發展。與早期專家系統的智能體不同,今天的智能體在本質上通常是追求目標或提高地位的,這可能使它們更具有適應性。
當然,更普遍的人工智能研究比ABM要廣泛得多。它提供了無限的可能性,正如現代文本中所描述的那樣。我們在本文中沒有多加討論,但是在考慮M&S的未來,以及兵棋推演的決策輔助工具時,最好能有長篇大論的章節來論述有時被確認的每一種人工智能類型,即反應式機器、有限記憶的機器、有限自動機、有自己的思維理論的機器,以及有自我意識的機器。這在這里是不可能的,這一限制也許會被后來的作者所彌補。
聯網現在是現代生活的一個核心特征,人與人之間、組織與組織之間都有全球聯系。數據是無處不在的。這方面的一個方面是分布式兵棋推演和練習。另一個方面是在線游戲,甚至到了大規模并行娛樂游戲的程度,對這些游戲的研究可能產生國家安全方面的見解。這類游戲并不"嚴肅",但在其中觀察到的行為可能暗示了在更多的學術研究中無法認識到的可能性和傾向性。
現在,建立獨立有用的模型(即模塊)并根據手頭問題的需要組成更復雜的結構是有意義的。這種組合與國防部歷史上對標準化的大型綜合單體模型的偏愛形成鮮明對比。在不確定因素和分歧普遍存在的情況下,這種標準化的吸引力要小得多,比如在更高層次的M&S或兵棋推演中。模塊化設計允許帶著對被建模的東西的不同概念。這可以打開思路,這對預見性是很有用的,就像避免驚訝或準備適應一樣。也有可能將替代模型與數據進行常規比較,部分用于圖2中建議的常規更新。另外,模塊化開發有利于為一個特定的問題插入專業性,這是2000年中期國防部研討會上建模人員和分析人員社區推薦的方法。
今天,AI一詞通常被用來指機器學習(ML),這只是AI的一個版本。ML已經有了很大的進步,ML模型通常可以準確地擬合過去的數據,并找到其他未被認識到的關系。一篇評論描述了進展,但也指出了局限性--提出了有理論依據的ML版本,在面向未來的工作中會更加有效,并強調了所謂的對抗性人工智能,包括擊敗對手的深度學習算法的戰術。
規劃的概念和技術取得了根本性的進展,在深度不確定性下的決策(DMDU)的標題下討論。這從 "優化 "最佳估計假設的努力,轉向預期在廣泛的可能未來,也就是在許多不確定的假設中表現良好的戰略。在過去,解決不確定性問題往往是癱瘓的,而今天則不需要這樣。這些見解和方法在國防規劃和社會政策分析中有著悠久的歷史,應該被納入人工智能和決策輔助工具中。
設計"永遠在線"的系統,并不斷提高智能。從技術上講,大多數國防部的MSG都是人工智能界所謂的"轉型"。該模型或游戲有一個起點;它運行后會報告贏家和輸家。可以進行多次運行,并將結果匯總,以捕捉復雜動態中固有的差異。較新的人工智能模型的設計是不同的,它所模擬的系統是 "永遠在線的"。這被稱為反應式編程,與轉化式編程不同。這些系統永遠不會停止,并且不只是將輸入數據轉化為輸出數據。例子包括電梯系統和計算機操作系統。國防方面的例子包括網絡預警系統,導彈預警系統,或作戰中心。這些都不會"關閉"。防御系統正變得更加反應靈敏,所以必須用模型來表示它們。這一點在1980年代RSAS的更高級別的紅方和藍方智能體的設計中已經預見到了,它們會在事件發生后'醒來',并對局勢和選項進行新的評估,而不是繼續按照腳本行事。
在轉換型模型中,環境中的事件可能會觸發程序按順序采取某種行動。反應式模型則不同。程序在環境中同時做出改變。他們一起改變,或幾乎一起改變。國防工作的一個有趣的例子涉及自主武器。人類和機器決策之間的界限已經模糊了,因為在一個反應式系統中人和機器之間的互動可能是連續和交織的。反應式系統是美國、中國和俄羅斯國防投資的一個主旨。無人機群和網絡預警系統將如何在M&S和兵棋推演中得到體現?除非表述恰當,否則相關人工智能模型在模擬中的價值可能會適得其反。
然而,這僅僅是個開始。隨著機器擁有更好的記憶和利用它們所學到的東西,以及它們納入世界理論,包括對手的思想理論,人工智能將如何變化?一個令人擔憂的問題是,正如Yuna Wong及其同事所討論的那樣,對人工智能的更多使用將增加快速升級的前景。這方面的風險對于專注于最大化某些相對量化措施,而不是更多的絕對結果及其定性評價的人工智能來說尤其高。以冷戰時期的經驗為例,執著于誰會在全球核戰爭中以較高的核武器交換后比率 "贏得"的分析是危險的。幸運的是,決策者們明白,結果將是災難性的,沒有真正的勝利者。即使是1983年電影《兵棋》中的計算機約書亞也明智地得出結論:"核戰爭。一個奇怪的游戲。唯一的勝利之舉就是不玩。來一盤漂亮的國際象棋如何?無論約書亞體現的是什么人工智能,它都不只是關于如何通過數字贏得一場娛樂游戲的ML。
為現代分析性兵棋推演開發一個完整的架構超出了本文的范圍,但建議一些方向是可能的。圖4勾勒了一個頂層架構,表3則更詳細地提出了各種特征。圖4認識到,在考慮許多可能的危機和沖突時,需要深入關注至少三個主要的行為者,以解決當前時代的危機和沖突。一個例子可能是朝鮮、韓國、美國和中國。圖4還要求對軍事模擬采取模塊化方法。
如表3所示,1980年代RSAS的一些特征可能會延續到現代化的版本。然而,許多其他特征應該有很大不同。我們認為表3是討論的開端,而不是終點。
由于在我們的討論中,為大規模的場景生成、探索性分析和不確定性下的決策做準備是很突出的,因此需要強調兩個重要問題:
只有當模擬在結構上是有效的(即只有當模型本身是有效的),不同參數值的探索性分析才是有用的。
從探索性分析中得出的結論可能會有問題,當所研究的案例(情景)的可能性不一樣,它們的概率是相關的,但沒有很好的基礎來分配概率分布。
1、模型驗證
正如其他地方所討論的,模型的有效性和數據的有效性應該分別對描述、解釋、后預測、探索和預測進行定性。另外,必須根據特定的問題和背景來判斷它們。參數化方法有很長的路要走,但模型的不確定性常常被忽視,需要更多的關注,正如最近的一篇文章中所討論的那樣。攜帶目標和價值非常不同的對手模型只是這樣做的一個例子。
關于在不知道案件的相對概率的情況下如何使用探索性分析這個令人困擾的問題,我們建議探索性分析至少在表4中說明的目的上很可能有價值,這些目的都不需要概率。對于每一個例子,探索的目的是找到可能性(如脆弱性或機會),促使采取措施來防止它們,預測它們,或準備相關的適應措施。如果存在一個關鍵的漏洞,就應該修復它,無論它被利用的概率 "看起來 "是低還是高(如果它的概率被知道是很小的,那將是另外一回事)。
本節討論了在思考建模和兵棋推演的人工智能和決策輔助工具時出現的一些問題。首先討論了決策輔助功能。接下來討論了在設想使用人工智能的ML版本來利用大規模場景生成時的一個挑戰。最后一節討論了開發 "認知人工智能 "和相關決策輔助工具所涉及的基本挑戰之一。
如果我們根據我們所看到的對玩家的重要性,而不是對人工智能提供者的興奮點來詢問決策輔助工具的主要功能,那么一些關鍵的功能就會如表5所示。
從科幻小說中,我們可能期望現代游戲的決策輔助工具是高度計算機化的,并由人工智能以相對個性化的形式提供信息,就像艾薩克-阿西莫夫的機器人或電影《2001》中不那么邪惡的計算機哈爾9000。然而,作者迄今為止的經驗是,在游戲中 "幫助 "人類的努力往往被證明是適得其反的,阻礙了本質上人類的自由討論。事實上,這些努力有時會因為分散注意力而使玩家生氣。考慮到這一點,我們分別討論了實用的短期決策輔助工具和更具推測性的長期目標。
表6提供了我們對第一欄所示的簡單決策輔助工具的價值的主觀估計,從低到高。這些都不涉及人工智能。相反,最有價值的輔助工具是具有簡潔的檢查表、信息表或圖表的簡單視圖。評估區分了不同類型的游戲或演習,也區分了玩家之前是否接受過決策輔助工具訓練的游戲。這些評價是在蘭德公司與韓國國防分析研究所合作進行的一些兵棋推演實驗后制定的。
關于簡單決策輔助工具的另一個數據點是蘭德公司同事開發的(但尚未出版)的 "奇怪的游戲"。這是一個關于核使用的高效兵棋推演,玩家代表一個戰區指揮官,通過選擇適當的卡片來進行游戲。該游戲建立了決策輔助工具,包括目標類別和評估選擇何種目標的簡單線性算術。
作為近期決策輔助工具的最后一個例子,最近的一個原型研究采用了一種低技術的方法來進行人類演習,考慮如何在危機和沖突中影響對手。該方法涉及一種定性的方法,即不確定性敏感認知模型(UCM),如圖5所概述。這些機制都是定性的,通過真實或虛擬的白板和互動軟件進行展示和討論。它們包括因素樹、表示有限理性的Red替代模型、影響圖以及戰略明顯優缺點的表格比較。沒有一個涉及人工智能。很明顯,人工智能甚至不會有幫助。也許這是一個重要的洞察力,也許這反映了想象力的不足。現在讓我們來看看長期的情況。
從長遠來看,可能會有更多的東西,我們應該從科幻小說、電子娛樂游戲、甚至主要電視網絡對新出現的選舉結果的實時討論中尋找靈感。僅僅舉例說明在不遠的將來可能出現的功能,在每一個功能中,人工智能系統都會對查詢作出反應。
一個團隊口頭命令對 "成功之路 "進行探索性分析,包括是否有某一盟友的堅定合作。
一個小組詢問,鑒于最近發生的事件,對手的哪些替代模型仍然是可信的。人工智能報告反映了依賴于主觀可能性函數的貝葉斯式分析,這些函數已被更新以反映最近的歷史。
一個考慮有限升級的團隊詢問了潛在的反應。人工智能幫助器顯示了在以前的兵棋推演中觀察到的反應,玩家被認為很好地代表了實際的決策人。它還確定了在模擬中反應不好的條件(在下一節中討論),從而強調了條件的哪些方面需要特別注意以避免災難。
這些猜測是最低限度的,只是為了激發人們對人工智能如何在決策輔助方面發揮作用的更多創造性思維。這個領域是開放的,從某些類型的人工智能的名稱中可以看出,從反應型機器到具有有限記憶、內置心智理論和自我意識的機器,這個領域是開放的,甚至更加明顯。一些主要人物,如珀爾和麥肯錫,自信地預計后者將包括意識本身。然而,那是未來的事了。佩爾將目前的機器人描述為 "像鼻涕蟲一樣有意識"。也就是說,蜂群武器很快就會像鳥群、魚群和昆蟲一樣有 "意識"。
讓我們接下來談談涉及人工智能與M&S的一些棘手問題。它們涉及到哪些人工智能決策輔助工具是可行的。
如前所述,機器學習類人工智能(AI/ML)有可能通過挖掘大規模場景生成的結果來尋找洞察力。然而,成功取決于(1)模擬的質量和(2)用于搜索結果的方法。
大量場景生成的成果可能是有用的,也可能是反作用的,這取決于基礎模型是否足夠豐富,結構上是否符合探索的目的。在研究可能的高端危機時,如果基礎模型假設了完美的理性、認知、聯盟關系,并專注于例如核武器的交換后比率作為結果的衡量標準,那么一百萬種情景的數據庫有什么用呢?對于軍事技術目的,如部隊規劃,可能有價值,但對于威懾或預測實際沖突中的問題,甚至是嚴肅的精英兵棋推演,可能沒有價值。
模型建立者所面臨的挑戰的某些方面是眾所周知的,如認識到對決策者(性格、人格、健康)的替代概念的需要,認識到錯誤認知的可能性,以及允許卡尼曼和特沃斯基的前景理論和其他心理現象所描述的那種非理性決策。應對這些挑戰,至少可以說是困難重重,但至少挑戰是被認可的。
相比之下,軍事模擬和社會行為模擬的一個骯臟的小秘密是,工作場所的模型通常不會產生黑天鵝事件、不連續現象或各種突發現象,而這些現象是研究復雜適應性系統的核心要素,在現實世界和一些大型游戲中都會出現,比如20世紀50年代的 "精英 "高級冷戰兵棋推演。原因有很多,但通常是由于模型是 "腳本化的",而不是基于智能體的,或者--即使它們確實有智能體--沒有給智能體足夠的多樣性、自由度和激勵來產生現實的適應性行為,以及不允許有長尾分布的隨機性。在這些問題上做得更好,對社會行為模擬來說是一個巨大的挑戰,特別是對那些打算與現實兵棋推演相聯系的模擬來說。一些成分包含在復雜的兵棋推演中,因此人們可以觀察到,例如,聯盟的解體和新集團的建立,在團隊看來,這更符合他們的國家利益。今天的模擬通常不允許這樣做。從推測上看,我們認為至少有兩條路可以做得更好。如果可以預見感興趣的突發現象(比如上面的聯盟問題),那么就可以建立適當的對象,模擬可能會識別出何時引導它們出現或消失。但是,最重要的突發現象(包括一些在兵棋推演中出現的現象)可能無法被預期。盡管我們并不聲稱知道什么是必要的,但我們從過去的復雜性研究的經驗中觀察到,突發現象的產生往往是因為復雜的自下而上的互動、多樣性和隨機事件。然而,傳統的高層政治軍事模擬并不具備這些特征。它們的價值在很大程度上是由于它們代表了更高層次的實體和過程,大致與系統動力學的模型相類似。我們的結論是,在前進的過程中,重要的是開發多分辨率的模型系列和將它們相互聯系的方法。例如,一個更高分辨率的基于智能體的模型可能有適應性的智能體,用于所有卷入危機或沖突的國家。仿真實驗可能會發現(就像人類游戲一樣)上面提到的那種突發行為,例如聯盟的偶爾解散、側翼切換和新的便利聯盟的出現。這將是''洞察力'',然后可以導致在更高層次的模型中添加新的智能體,根據模擬中的情況激活或停用的智能體。然而,這將需要類似于最近一本關于社會行為建模的書中所討論的 "自我感知的模擬",特別是伊爾馬茲的那一章,他設想的計算可以監測自己的狀態,并在必要時改變自己的結構,還有一章是作者之間關于出現的辯論。
如果模擬足夠豐富,那么有意義的大規模場景生成是可能的。但然后呢?對模擬數據進行探索性分析的一個核心挑戰是了解如何評估不同情況的相對重要性。一種方法是分配主觀的概率分布,但哪里能找到能夠可靠地估計概率的專家,而不在前面加上諸如 "嗯,如果明天像過去一樣 "的評論。現實上,專家并不是預測或概率的好來源,Tetlock及其同事已經深入討論過了。
一種變通的方法是報告結果的頻率(以百分比計算),例如,好或壞。這可以通過全因子設計或使用蒙特卡洛抽樣來完成。不幸的是,存在著滑向討論"可能性"而不是百分比的趨勢,即使案例的可能性不一樣。另外,在MSG的背景下,這種類型的展示掩蓋了這樣一個現實,即行為者不斷尋找他們將獲得重大優勢的情景空間的模糊 "角落"。因此,在模擬中不經常觀察到的情況可能正是發展中的情況。
我們建議的方法是避開明確的概率分配,而是 "尋找問題"或 "尋找成功"。也就是說,當探索性分析產生的大量數據時,人們可能會尋求找到結果非常好、非常壞或其他的條件。這在關于穩健決策(RDM)和DMDU的文獻中被稱為情景發現。
更進一步,我們敦促人工智能以 "聚合片段"的形式得到提示,其動機來自理論、簡單模型和主題領域的專業知識。一個例子可能是 "沖突開始時的準備狀態"。對于戰略預警時間、戰術預警時間、領導層特征、先前的軍事準備狀態和動員率的巨大不同組合,其數值可能是相同的。也就是說,這個變量是許多微觀初始狀態的集合。另一個例子(假設有合適的智能體)可能是危機發生時的心理狀態,其值包括偏執狂、冷靜和理性以及自信的攻擊性。
鑒于足夠豐富的模擬和理論為人工智能在探索性分析中提供了提示,我們懷疑人工智能可以在識別 "完美風暴 "的情況等活動中完成大量工作--不是為了預測它們,而是為了注意要避免的條件,就像在簡單的兵棋推演中以低技術方式完成的那樣。
另一個ML應用可以從關于對手行動的大規模情報收集中為兵棋推演和M&S創建算法,例如那些潛艇或地面移動導彈。曾經需要幾個月或幾年的時間來收集和分析的東西,現在可能在很短的時間內就能得到,產生可用于兵棋推演或M&S的操作程序的算法。作為一個類比,考慮獲得關于駕駛安全的洞察力。今天最深刻的洞察力來自保險公司(Progressive, GEICO),它基于可下載的軟件,跟蹤個人操作者:他們的速度,左轉的數量,加速模式,等等。這些數據可以與信用評分和其他數據整合。其結果可以是個性化的保險費率。這樣的數據分析已經是今天的現實。應該有類似的軍事和MSG影響。當然,有一些必然是分類的,對于本文的政治軍事重點來說,其意義不如MSG的其他應用。
上面的討論集中在ML式的人工智能上,但所需要的豐富的模擬必須有智能體以更像人類的方式進行推理,這種東西可以被描述為認知型人工智能。在這一點上,決策邏輯使用的因素和推理與人類喜歡相信的東西相似,是他們實際行為的基礎。
1980年代RSAS的紅方和藍方智能體是早期的例子。他們利用廣泛接受的升級階梯結構來描述核危機和沖突中的情況、選擇和決策選擇。
今天,我們需要新一代的更高層次的決策模型,但不存在升級階梯的替代品。也許也不會找到替代品。當從兩方博弈到甚至三方博弈時,復雜性大大增加。一個替代的概念必然會更加復雜--更像是一個n維網格而不是一個階梯--因為升級可能不僅涉及核武器及其目標的數量,還涉及與網絡戰爭、太空戰爭和精確射擊的戰略使用有關的數量、強度和目標。
圖6簡單說明了這一概念,結合了幾個維度,以便人為地顯示只有三個維度的結果。它顯示了一個說明性的情景,開始是一場溫和的常規戰爭(第1項),但隨后依次過渡到嚴重的網絡攻擊(第2項),更廣泛地使用精確制導導彈(PGMs)(第3項),有限的核使用(如箭頭所示的核升級)(第4項),甚至更具破壞性的使用PGMs(如針對大壩和發電廠)。 例如,針對水壩和電網)(第5項),也許大規模殺傷性武器的水平略有提高(也許只是為了以牙還牙),以及全面核戰爭(第6項)。然而,今天,對于某種特定的攻擊會出現在某一軸線上,以及行為者是否會有相同的評估,并沒有共同的理解。不僅"客觀"的答案充其量是短暫的,認知很可能取決于路徑,取決于國家,并受到隨機影響。規劃的一個核心問題是核武近鄰國家之間的長期非核戰爭是否可信。由于常規戰爭和核戰爭的指揮和控制系統的糾纏,這些問題變得更加麻煩。似乎預測模型,無論是否基于人工智能,都不在考慮之列,盡管產生值得擔心的合理情況的模型應該在考慮之列。
對于那些尋求建立認知型人工智能模型以代表危機中的國家決策者的人來說,可能還會列出更多的挑戰,但我們希望我們的例子能吸引眼球。
本文的主要建議是推薦一個研究議程,將建模、模擬、游戲和分析視為相關的和相互交織的。在這樣一個綜合的觀點中,兵棋推演的人工智能將通過使用模型的分析來了解,這些模型包括包含了部分由兵棋推演提供的人工智能智能體。例如,這將導致具有類似于兵棋推演決策助手的人工智能智能體,以及更復雜的算法。它將導致基于兵棋推演的決策輔助工具,它將類似于將有理論依據的ML應用于由探索性分析產生的 "數據",這些探索性分析來自于利用決策智能體形式的AI的M&S。
關于人工智能本身,我們對今天的ML中常見的一些做法提出警告。我們注意到缺乏關于未來危機和沖突的可靠的信息性經驗數據。此外,我們強調,在決策輔助工具和模型中使用的智能體中,都需要解釋。這表明我們更傾向于由認知模型構成的人工智能,即使ML被用來填充和調整該結構。
最后,我們敦促對兵棋推演(包括小規模的活動,如事后演習)和模型所提出的問題要非常謹慎。模型、模擬、游戲和分析仍然是不完美的,有時甚至是明顯不完美的,但我們有可能很好地利用它們來解決許多問題,也就是說,提高決策的質量。預測可能性有很大的潛力;可靠的預測則沒有。
近年來,針對工業生態系統的高級持續性威脅(APT)的復雜性急劇增加。這使得開發超越傳統解決方案的高級安全服務成為必須,輿論動力學(Opinion Dynamics)就是其中之一。這種新穎的方法提出了一個多智能體協作框架,允許跟蹤APT的整個生命周期。在本文中,我們介紹了TI&TO,這是一個攻擊者和防御者之間的雙人博弈,代表了一個現實的場景,雙方都在爭奪現代工業結構中的資源控制權。通過使用博弈論來驗證這種技術,我們證明,在大多數情況下,輿論動力學包括有效的第一項措施,以阻止和減少APT對基礎設施的影響。為了實現這一目標,攻擊者和防御者的模型都被標準化,并應用了一個公平的評分系統,后者用不同的策略和網絡配置運行了幾個模擬測試案例。
世界各地的公司面對的網絡安全攻擊數量明顯增長,導致了巨大的經濟損失[2]。當涉及到關鍵的基礎設施(即核電站、電網、運輸和制造系統)時,這種情況變得更加嚴重,其工業控制系統必須在所有條件下保持工作。在這里,我們處理的是SCADA(監督控制和數據采集)系統,幾十年來一直在與外部網絡隔離的情況下工作;反過來,如今它們正越來越多地整合新技術,如物聯網(IoT)或云計算,在削減成本的同時外包各種服務。因此,需要做出更大的努力來跟上這種進步,以應對這些系統可能帶來的最新的攻擊載體和可利用的漏洞。
近年來最關鍵的問題之一是高級持續性威脅(APTs),這是一種復雜的攻擊,特別是針對目標基礎設施,由一個資源豐富的組織實施。它們的特點是利用零日漏洞(零時差攻擊),采用隱蔽技術,使威脅在受害者網絡中長期無法被發現。Stuxnet是第一個報道的這種性質的威脅[6],但許多其他的威脅在之后被發現,通常是在攻擊完全執行后的幾個月[7]。在網絡安全方面,只是提出了一些機制來從整體上解決這個問題,超越了傳統的機制(如防火墻、入侵防御系統(IPS)、入侵檢測系統(IDS)、防病毒),這些機制只代表了在第一階段對APT的準時保護[21]。
在這些新穎的機制中,輿論動力學(Opinion Dynamics)[15]包括一個多智能體協作系統,通過分布式異常關聯,使攻擊的整個生命周期都可以被追蹤。在本文中,我們提出了一個理論但現實的方案,以證明該方法在不同類型的攻擊模式下的有效性,使用結構可控性領域[8]和博弈論[14]支持的概念。為了這個目標,我們開發了TI&TO,這是一個雙人博弈,攻擊者和防御者為控制現代工業結構中的資源而競爭。兩個玩家都有自己的動作和相關的分數,分別根據APT和基于Opinion Dynamics的檢測系統的行為。這個博弈最終在不同的模擬中運行,旨在展示算法的能力,同時也建議將該技術與其他防御方案結合起來進行最佳配置。因此,我們可以把我們的貢獻總結為:
本文的其余部分組織如下。第2節介紹了 "輿論動力學"的概念,并強調了應用博弈論來檢測網絡攻擊的建議。在第3節中,定義了博弈,包括規則以及攻擊和防御模型。然后,進行了幾次模擬,并在第4節進行了討論。最后,在第5節中提出了結論和未來的工作。
人力資本和人力資源系統(如人員選擇、培訓)是一個組織適應變化能力的重要因素。然而,這些過程也必須保持對變化的響應,以保持高效和有效。在本報告中,我們探討了人事選拔領域內的主題,以確定該領域目前的趨勢、挑戰和發展。我們重點關注在當今國防背景下具有重要意義的三個具體領域:誠信、在線/計算機化測試、多樣性。
鑒于每個主題領域的廣泛性,在本研究工作組內,由對某一特定主題感興趣的參與國分成了三個組。每個組根據對各自組織的當前需求、挑戰或要求的理解,確定并概述了小組所要探討的具體領域。本報告的不同部分記錄了每個主題的成果。
在誠信方面,本報告深入介紹了軍隊誠信測試的歷史;研究了各參與國誠信測試實踐和研究的現狀;總結了商業誠信測試和新出現的誠信評估方法;并為軍事人員選拔中的誠信評估提供了一個定義軍隊誠信的框架。
在在線/計算機化測試方面,本報告研究了參與國的選拔測試實踐,此外還探討了社會心理因素、測試安全挑戰、在線測試管理的選擇,以及技術實施可能帶來的人員選拔的好處。
在多樣性方面,本報告探討了多樣性的概念;概述了人員選拔實踐中的公平性和包容性的考慮;并探討了國防內部的神經多樣性倡議。
所有三個主題(即誠信、在線/計算機化測試和多樣性)都與國防背景特別相關。挑選具有誠信行為傾向的個人對軍事人員選拔實踐非常重要,因為公眾的信心和信任對武裝部隊的有效性至關重要。為了確保在招募頂尖人才方面的競爭優勢,軍事人員甄選測試實踐還必須吸引精通技術的勞動力市場,同時體現公平和包容性原則,因為這些市場在人口(如種族)和非人口(如語言)因素方面變得越來越異質化。總之,本報告借鑒了當前的實踐和研究狀況,以提高對軍事人員選拔中值得考慮的議題的認識并提供指導。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。
作者領導了一項跨學科的基準測試工作:決策分析、運籌學、風險建模、管理科學、沖突和戰斗模擬以及物流和供應鏈模擬。實踐者們自愿描述他們的做法并向其他人學習。雖然不同的實踐者群體對局部實踐達成了共識,但群體之間的互動卻很少。
以前的出版物描述了從基準測試中突出最佳實踐。我們發現了兩個差距:一個是令人不安的高比例的不良實踐,另一個是缺乏執行層面的風險評估。高管們往往缺乏時間或技術背景來對提供給他們的分析結果進行風險評估。
本文為高管們提供了一種新的、簡單的風險評估方法。六個非技術性的問題解決了在基準測試中看到的大部分風險。該方法是基于一個建立在國際基準工作基礎上的檢查表。作者還對具體的風險進行了研究,包括因對分析的依賴程度增加而產生的法律風險。在這些風險中,有一些與人工智能有關的獨特問題。
識別風險的工作表明危險來自幾個方面,并產生了一個不需要深入的建模、仿真和分析(MS&A)知識的風險檢查表。本文介紹了該清單,以及支持該清單的一些更深入的MS&A原則。這對管理人員和從業人員都很有用。
該研究得到了一些專業協會、行業團體和非營利性教育協會的支持,包括國際服務/行業培訓、模擬和教育會議(I/ITSEC)、石油工程師協會、電氣和電子工程師協會和概率管理。
我們之前已經發表了(Roemerman等人)研究的本質和我們的數據收集。回顧一下,在2014年和2015年,作者提出了一個跨領域的基準研究。作為在多個領域工作的從業者,我們注意到一些領域的 "正常 "仿真和建模實踐在其他領域是未知的。我們向幾個組織提出了一個多領域的研究。普遍來說,反饋是積極的,但沒有人愿意領導這項工作。
最終,我們決定自己進行,并開始招募幫助。我們得到了許多我們曾經接觸過的組織的幫助,還有一些組織也加入了我們的行列:
總的來說,這些組織有大約200,000名會員(不包括這兩家公司,他們的雇員可能是我們所接觸的協會的會員)。其中,我們估計只有不到10%的會員是建模、仿真和分析(MS&A)的積極從業者。在這些會員中,我們估計大約有2100人看到了我們的調查和采訪邀請。
除了與這些大型團體合作外,我們最初以40多個個人為目標,因為他們的組織聲譽或他們個人的卓越聲譽而參與我們的數據收集。我們點名征集這些目標,事實證明他們是一個豐富的信息來源。最后,我們接觸了來自65個組織的126名個人,涉及許多領域(見圖1)。
在過去的兩年中,海牙戰略研究中心(HCSS) 在軍事背景下對機器人和自主系統 (RAS) 進行了研究,涉及多個方面和困境。在這篇關于 RAS 實施的論文中,其希望激發思考并激發讀者反思 RAS 的未來使用,為 2035 年提出適合“Operationeel Kader voor het Landoptreden”的建議(并將這些建議與預見的“2035 年防御”)并考慮到 2045 年實施 RAS 的建議。
展望未來的理由是雙重的。首先,必須在 RAS 的開發和實施早期解決重大問題。許多技術仍處于起步階段,同樣,我們對 RAS 的政治、戰略、戰術和運營應用的理解也處于早期階段。第二個原因源于人們傾向于在短期內高估技術的成熟度,而在長期內低估技術發展的速度。因此,通過使用短期和長期的時間范圍,創造了開箱即用的思考空間,同時提供了計劃一個看似合理但尚未準備好的未來的機會。
本文評估了在武裝部隊尤其是陸軍中實施 RAS 的一些相關要素。它提出了有關概念和條令的制定、如何組織對 RAS 的指揮和控制以及這些變化對人員(包括他們的培訓)、后勤、基礎設施、組織流程和領導力的影響的問題。在此背景下,本文就必須制定哪些發展路線或政策、應制定的時間框架以及這些政策的先決條件提出建議。
基于 HCSS 在整個為期兩年的項目中進行的研究,即軍事背景下的機器人和自主系統,就與實施 RAS 相關的幾個困境和問題進行了詳細說明。在該項目期間,已就操作應用、道德困境、法律方面、協作以及概念開發和實驗 (CD&E) 編寫了論文。
RAS實施過程中的困境和相關問題
作為本文的第一步,通過預期的合理情景和分析的簡短陳述或出發點構建未來前景。該場景位于 2045 年。選擇將場景分解為個體故事片段是為了使其盡可能具體,并確保它對不同的觀眾具有相關性和可理解性。所有片段中都集成了在兩年研究期間確定的困境或問題。在場景部分(以及隨后的整篇論文)中,引入了新術語,例如“wolfpack”、“fleet”和“line”來描述軍事指揮級別。這使我們能夠脫離關于指揮級別的傳統思維。
所進行分析的第二步是構建未來的 RAS 單元。從研究論文中獲得的關于 RAS 的軍事適用性的見解被考慮在內,然后推斷為一組合理的未來系統。為了建造未來的 RAS 單位,這些系統被組合成一個與當今戰斗旅稍有相似的單位。
第三步描述了四個發展路線,詳細解釋了在武裝部隊中實施 RAS 所需的條件。此時,HCSS 使用嚴肅的游戲工具進行了專家會議,以收集進一步的見解并驗證我們的想法。
?世界各地的軍隊正在根據戰爭的發展開發、集成和使用機器人和自主系統 (RAS)。需要進一步思考這一過程在荷蘭境內發生的條件以及可能產生的挑戰和影響。HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。
在兩年的時間里,該項目產生了五篇公共研究論文,涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。這些研究論文涵蓋了軍事適用性、倫理考慮、法律論述、合作要求以及 RAS 在軍事環境中的實施。所有論文都合并在此報告中,包括簡要總結分析的綜合報告和一系列六份情況說明書。 研究方法側重于獲取從業人員、研究人員、倫理學家、法律專家、行業專業人士、技術人員、民間社會組織、軍事人員和國防界其他成員的專業知識。這樣做不僅能夠收集對主題的多方面理解,而且還能將這些利益相關者獨特地聯系在一起,并促進他們之間具有挑戰性的討論。在項目過程中,與不同的咨詢委員會成員舉行了五次會議,指導了研究軌跡,并為其立場文件和研究論文草稿提供了寶貴的意見。還收集了來自 200 多名利益相關者的專業知識,參加了六場專家會議,其中涉及各種方法,包括基于場景的討論、設計會議、
次要目標是為公眾辯論提供信息,并在抵制流行的“殺手機器人”觀念的軍事背景下就 RAS 進行更細致的對話。為此,舉辦了關于 RAS 的道德困境的公開研討會,與 BNR Nieuwsradio 合作發布了五個 De Strateeg 播客,組織了會議和圓桌會議,并于 2021 年 2 月發布了一部 18 分鐘的紀錄片。
引 言
2019 年 12 月,普京在俄羅斯國防部董事會會議上發表講話時表示,“機器人系統和無人機正在被嚴格引入并用于戰斗訓練,這極大地提高了武裝部隊的能力。”幾個月后,俄羅斯國防部宣布了一項價值約 420 萬歐元的封閉招標,旨在“研究為新一代人工智能軍事系統創建神經網絡開發、訓練和實施的實驗模型”。雖然中國在公開場合遠沒有那么自夸,但他們的軍事優勢戰略是由人工智能和自動化的發展引領的,這導致一些分析人士認為,解放軍的目標是通過系統沖突和高度智能化的戰爭來主導。
這些觀點意味著一個更大的現象。世界各地的軍隊正在根據戰爭的第四次演變開發、整合和使用機器人和自主系統,需要進一步思考在荷蘭境內進行這一過程的條件以及可能出現的挑戰和影響作為結果。
HCSS 項目“軍事背景下的 RAS”試圖為這一討論做出貢獻。在兩年的時間里,該項目產生了五篇公共研究論文,涵蓋了與在軍事背景下實施 RAS 相關的一系列主題。該綜合將這些主題聯系在一起,并展示了該項目最相關的發現。下面總結了 HCSS 研究對道德要求、法律話語、合作伙伴合作、實施和概念開發和實驗的觀察,然后是關于 RAS 的軍事適用性的初級部分。
RAS的軍事適用性
機器人和自主系統 (RAS) 在軍事環境中提供了大量、重要且影響深遠的機會。為了觀察這些系統在這種情況下的適用方式并評估它們的效用,需要解決一些定義和概念:
1 自主性:人類賦予系統執行給定任務的獨立程度。根據系統自身的態勢感知(綜合感知、感知、分析)、規劃和決策,實現分配任務是自治的條件或質量。自主性是指一系列自動化,其中可以針對特定任務、風險水平和人機協作程度定制獨立決策。自主級別可以包括遠程控制(非自主)、操作員協助、部分自動化、條件自動化、高度自動化或完全自動化。
2 機器人:能夠通過直接的人工控制、計算機控制或兩者兼而有之來執行一組動作的動力機器。它至少由平臺、軟件和電源組成
3 機器人和自主系統 (RAS):RAS 是學術界和科學技術 (S&T) 社區公認的術語,強調這些系統的物理(機器人)和認知(自主)方面。RAS 是一個框架,用于描述具有機器人元素和自主元素的系統。值得注意的是,RAS 的每個連續部分都涵蓋了廣泛的范圍。“系統”部分指的是廣泛(在我們的例子中為軍事)應用領域的各種物理系統。在計算機或網絡上運行的自動化軟件系統,包括“機器人”,即無需人工干預即可執行命令的軟件,不符合 RAS 的條件,因為它們缺少物理組件。“機器人”部分,指的是系統的物理布局,認為系統是無人或無人居住的。所有其他物理方面(大小、形式,無論是飛行、漂浮還是滾動等)都保持打開狀態。
4 致命自主武器系統 (LAWS):一種武器,在沒有人為干預的情況下,根據人為部署武器的決定,在沒有人為干預的情況下選擇和攻擊符合某些預定義標準的目標,因為攻擊一旦發動,人為干預就無法阻止。
5 有意義的人類控制(MHC):MHC 包括(至少)以下三個要素:(1)人們就武器的使用做出知情、有意識的決定;(2) 人們被充分告知,以確保在他們對目標、武器和使用武器的背景所了解的范圍內,使用武力符合國際法;(3) 所討論的武器是在現實的操作環境中設計和測試的,并且相關人員已經接受了足夠的培訓,以便以負責任的方式使用武器。MHC 是一個復雜的概念,在許多情況下,上述描述并不是決定性的。荷蘭官方的立場是,“所有武器,包括自主武器,都必須保持在有意義的人類控制之下。”
“殺手機器人”的言論已將公眾對軍事環境中機器人和自主系統的看法縮小為完全關于高度或完全自主系統使用致命武力的觀點。實際上,RAS 可應用于眾多軍事功能和任務,每個功能具有不同程度的自主性(見下圖)。機器人和自主系統的廣泛軍事適用性產生了無數和巨大的機會。未來幾年的挑戰是充分利用這些機會,發揮軍事優勢的潛力,同時降低所帶來的風險。
在這些功能中實施 RAS 會帶來重大挑戰,但也預示著軍隊將面臨更有效、更高效和更敏捷的新機遇。可以根據這些類別評估 RAS 繼續改進/再改進國防領域的潛力。
速度。在促進快速決策和威脅優先級排序的人工智能的幫助下,RAS 已經能夠超越人類的反應時間并縮短 OODA(觀察、定位、決定、行動)循環。
可靠性。將任務委派給機器需要高度的信任,但到目前為止,RAS 還不能證明在所有軍事應用領域都有足夠的可靠性。然而,我們對這些系統的信心將會增加,因為它們證明了它們在執行特定任務時的可靠性和有效性。
準確性。人工智能系統的面部圖像識別和感官能力已經超過了人類的表現水平,盡管無人系統比人類操作員更精確的說法受到廣泛爭議。
大規模效應。由于射程和耐力的增加,RAS 有能力增強對戰場的覆蓋范圍并壓倒對手。這種潛力的最好例子是“蜂擁而至”。
可達性。RAS 極大地增強了監視、情報、偵察和武器系統的可用存在點。
穩健性。在短期內,由于惡劣的天氣和任務的變化等意外條件,RAS 將比人類更容易失敗。這種脆弱性延伸到虛擬域:由于連接丟失、黑客攻擊和其他干擾可能導致系統無法運行。
安全。RAS 可以執行“枯燥、危險和骯臟”的任務,以便人類可以專注于更專業的任務并遠離火線。
成本。盡管最先進技術的獨家使用權將保留給最富有的玩家,但現在被認為是高度先進的系統的成本將在未來 20 年內下降,從而變得更加普及。
維護。考慮到系統的復雜性和涉及的多個(外部)合作伙伴,更新和升級 RAS 軟件和硬件可能會更加困難。
時間效率。RAS 可以 24/7 全天候高標準執行乏味且重復性的監控任務,無需休息,高效解決后勤規劃,快速超越人工多任務處理的極限。
靈活性。盡管 RAS 目前在執行特定任務方面表現出色,但在可預見的未來,人類仍將是最靈活的。隨著開發人員繼續創新當前系統,這種動態可能會發生變化。
適應性。RAS 具有高度自適應性,并且隨著時間的推移在系統生命周期(擴展、擴展、升級等)期間易于重新配置,以便跟上動態環境中出現的新要求。
外部合法性。因此,軍方與 RAS 的接觸必須在他們(可能)提供的先進能力與其所服務的社會的價值觀和規范之間取得平衡。
內部合法性。RAS 的信任和組織規范化將隨著時間的推移而得到加強。隨著對系統的理解、可預測性和熟悉度的提高,它們在組織內的合法性將得到鞏固。
許多國家認識到這種潛力并意識到需要在瞬息萬變的國際舞臺上具有軍事競爭力,因此將 RAS 用作其武裝部隊的一部分(圖 2)。然而,盡管有明顯的機會,但在軍事環境中實施 RAS 并非易事。許多實際和理論挑戰阻礙了實施過程,需要政策制定者、創新者、研究人員、國防界和民間社會成員之間的討論,在許多情況下,這些挑戰考驗著我們賴以監管、開發、獲取、整合和使用其他軍事技術。為了分析這些挑戰,重要的是確定 RAS 系統生命周期的三個階段:開發、集成和使用(圖 3)。下一節總結了在 HCSS RAS 項目期間探索和分析的理論考慮(道德和法律)和實際考慮(私營部門合作和概念試驗與開發)。
RAS的開發是一個硬件和軟件設計和生產的動態過程,在后期根據系統測試、集成、監控和使用的結果不斷地重新審視。RAS的設計和開發需要國防部門和私營部門之間更深入的互動與合作。因此,私營部門在塑造 RAS 生命周期的發展階段和解決與該階段相關的理論和實踐考慮方面發揮著關鍵作用。
這一階段涉及 RAS 的組織嵌入,由此與系統開發者/生產者的關系發生變化,新的參與者(例如實際的軍事最終用戶)出現或獲得更主導的角色。在這個階段,“交接”變化的性質引發了關于不同參與者角色的新問題。
在作戰環境中使用 RAS 會影響軍隊的工作方式、與誰合作以及在什么條件下工作。這是因為相關系統的更大自主性促使操作員和指揮官以“更高的抽象層次”與系統進行交互。除了部署之外,這個階段還包括RAS的維護和服務。
結 論
機器人和自主系統代表了軍事領域的轉變。它們提供了顯著的軍事能力,以擴大軍事行動的質量、范圍、效率和安全性,并正在改變我們現在和未來對抗沖突的方式。RAS 功能正在實施,不僅是荷蘭武裝部隊,還有我們的潛在對手。技術、運營、法律和道德問題,以及這種新興技術的潛在擴散是復雜且相對較新的。
隨著新發展的出現和在運營使用過程中獲得經驗,我們概念化、設計、建造和運營 RAS 的方式將需要反復重新考慮。這也意味著需要不斷的知識開發、概念開發和實驗。為了充分了解 RAS 的潛力及其作為軍事工具箱中重要戰略工具的要求,必須在操作環境中進行實際測試。
要讓行業充分參與這些市場,在這個快速發展的領域中共同開發和共同試驗需要不同的思維方式。在產品完全成熟并且操作使用表明它們被充分理解和可預測之前,RAS 將需要通過短周期創新過程進行不斷調整。
在軍事背景下開發和實施 RAS 將需要持續關注、創造性的大局思維以及與利益相關者(包括政策制定者、學者、倫理學家、律師、行業專業人士、技術人員、民間社會和國防界)的強大合作網絡。