荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。
傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。
本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。
戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。
然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。
1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。
2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。
3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。
4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。
到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。
本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。
產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。
由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。
驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。
出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。
有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。
在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。
圖1:情況意識的認知模型:概述
另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。
機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。
強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。
強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。
強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。
在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。
1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。
2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。
對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。
人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。
進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。
由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。
圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。
為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。
多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。
Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。
傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。
為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。
圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。
本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。
認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。
這里提出的主要架構的目標有三個方面:
將智能CGF模型與戰術戰斗機模擬脫鉤。
促進人類行為模型與上述模擬的連接過程。
使得智能CGF模型能夠在不同的客戶端進行分配。
這三個特點共同促成了對混合方法的追求。
在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:
實施混合模型,其中認知建模和ML相結合,以及
根據具體的學習目標或能力來調整智能機器人的行為。
MSG-189專家團隊(ST)活動的基本原理建立在評估如何結合和集成新興顛覆性技術的需要之上,這些技術正在改變我們工作和生活的方式,并且融入促進了M&S技術和相關仿真系統的發展。
作為北約STO NMSG研究目標的一部分,仿真系統的新架構和先進功能一直被研究和定義。僅舉幾個例子:MSaaS(建模和仿真服務)和MTDS(任務訓練分布式仿真)的定義及實施為新一代最先進的仿真系統鋪平了道路。
此外,近年來,北約STO小組和相關工作組一直在解決最先進技術的問題和演變:人工智能(AI)、機器學習(ML)、大量異質信息的管理和分析(大數據)、通過沉浸式設備(AR、VR、XR)實現真實世界和合成世界的互動、無線技術(5G)以及通過云計算和面向服務的架構提供服務的新方法。
因此,NMSG旨在研究這些研究領域之間的協同作用,以概述這些新興和顛覆性技術對下一代仿真系統的特點和潛在影響。
定義一個包含上述所有概念的仿真系統無疑具有挑戰性,因此,工作組只把注意力集中在某些方面進行探索:
必須強調的是,該框架所產生的參考架構的主要基礎是長期存在的、非常重要的NMSG活動,如MSaaS和MTDS。MSG-189 ST活動建立在這些參考文獻的基礎上,以尋找新的和創新的解決方案,可以加強對M&S這樣的關鍵技術的使用。一個 "安全 "的設計概念,密切關注基礎設施對網絡威脅的高彈性(設計安全)也是一個需要滿足的具體要求。
由此產生的MSG-189生態系統不僅可以作為一個培訓工具,而且首先可以作為一個有效的支持,用于確定最佳的CoA,然后在 "實際 "行動中實施,或在隨后的規劃階段和確定要執行的行動細節(作戰指令的管理)。
MSG-189 ST的最后一項建議是成立一個后續工作組(RTG),該工作組從該小組所做的工作中得到啟發,可以定義一定數量的用例,以驗證所做的選擇,并證明系統的參考架構和所列技術的有效性。
近年來,所謂的 "顛覆性技術 "發展迅速,如人工智能(AI)、機器學習(ML)、大量數據的管理和處理(數據科學和大數據分析-BD)以及沉浸式技術(VR / AR / MR / XR)。
北約STO內部的各個小組/團體已經研究了這些新技術提供的可能性;特別是,NMSG工作組對研究新的架構和仿真系統的服務非常感興趣,這些系統將用于軍事訓練和決策領域的未來應用。北約MSG-189專家小組(ST)已經接受了這一挑戰,并進行了一項研究,以確定這樣一個仿真框架。
首先,讓我們看一下要追求的目標,這些目標最初列在技術活動建議TAP[1]中,然后列在One Pager文件[2]中:
定義一個模擬系統,使所有上述概念以整體的方式存在,這個想法當然具有挑戰性,而且在許多方面,超出了專家組的目標(和可能性)。
因此,工作組的首要任務是以更精確的方式確定工作范圍,并指出工作組研究活動的領域。這方面最重要的成果是定義一個 "參考架構",在此基礎上建立MSG-189生態系統(后來經常被簡單地稱為系統)。這是一個抽象的架構形式,為未來的具體解決方案架構(項目架構)提供了一個模板解決方案。
必須強調的是,該框架的參考架構的主要基礎是長期存在且非常重要的NMSG活動,如MSaaS(建模與仿真服務)和MTDS(任務訓練分布式仿真)。MSG-189 ST活動將在這些參考文獻的基礎上,尋找新的和創新的解決方案,以加強對M&S這樣的關鍵技術的使用。
一個 "安全 "的設計概念,密切關注基礎設施對網絡威脅的高彈性(設計安全),也被指出是一個需要滿足的具體要求。出于這個原因,這些信息已經在這第一章中提出。
特別是,本章介紹了軍事訓練和決策的概念,強調了這種系統必須考慮到的網絡安全方面的重要性,然后定義了MSG-189 ST活動的利益量。對所指出的問題的深入研究以及將其納入參考架構將是以下各章的主題。
本章的第一部分致力于識別和描述與培訓有關的問題,旨在為所有在軍事組織中工作的專業人員提供必要和關鍵的活動,并支持指揮官、其工作人員和參與任務的人員的決策過程。
本章概述的另一個主題與網絡安全有關:將定義與安全有關架構的要求限定方面;所提供的信息必須是框架設計的基礎,并滲透到其所有功能中(設計安全)。
在本章的最后部分,描述了研究的興趣領域,定義了該領域的維度(行動、專業知識和生命周期),并對每個維度指出和描述了需要考慮的層次。
最后,我們定義了MSG-189 ST的研究活動將在其中進行的興趣范圍。
軍事訓練對不同的人是明確的但又非常不同的。在軍事單位指揮官的層面上,它意味著鍛煉戰場上的部隊或海上的水手,使他們作為一個綜合、協調的單位運作。在軍事人員管理者的層面上,它意味著對包括廚師、馴犬員、坦克炮塔技術員、雷達技術員和戰斗機飛行員在內的所有職業專業的個人進行準備和認證。在主要軍事系統的開發者和提供者層面,它意味著在模擬器或系統本身上進行演習。對所有相關人員來說,它意味著讓來自平民社會的個人準備好作為專業軍事人員執行任務。
軍事訓練與其他形式的訓練不同,它強調的是紀律、臨場準備和集體訓練[3]。
從中世紀的奎因時代開始,無疑在此之前,仿真在進行軍事訓練和評估個人、船員、團隊和單位執行軍事行動的準備情況方面一直很突出。今天,仿真對于參加野外演習的疲憊不堪的士兵來說非常熟悉,對于在我們的戰爭學院里操縱計算機生成的部隊(CGF)橫掃廣闊的電子平原的指揮官來說也是如此。它得到了各種設備的支持,從塑料模型到筆記本電腦,再到比它們所模擬的飛機更昂貴的全動飛機模擬器[3]。
模型、仿真器和仿真之間的一些粗略區分是有用的[3]:
模型提供了輸入和輸出的基本表示。它們是控制和決定模擬器和仿真對用戶反應的引擎。
仿真器是設備。它們旨在向學生表現自然界中可能遇到的其他設備或現象,并被用來產生對自然界的模擬。
仿真是仿真器及其基礎模型的產物。因此,仿真是一組模型和/或模擬器,代表一個系統或一個環境的運行或特征。
隨著技術的發展,只要技術的價值能夠證明比目前的方法有改進,如成本、安全或速度,軍隊也會隨之采用。它必須不斷地具有前瞻性、創新性和積極性,既要了解戰爭是如何演變的,又要調整訓練以應對這些挑戰。
什么是訓練?
訓練是任何組織的基本活動之一;特別是,它一直是所有時代的軍隊所開展的行動取得成功的決定性因素之一。
擁有訓練有素的軍事人員對于能夠在現代戰爭的復雜情況下開展行動至關重要,這些情況需要反應技能和分析能力,只有受過訓練的人才能具備這些能力。
訓練的類型數不勝數,從特定主題的個人理論訓練到涉及數千人和車輛的大型戰區演習,在時間和空間上復雜而銜接的行動。
因此,世界上所有的軍隊在訓練中投入巨大的資源并不是巧合。訓練技術和程序的演變必須不可避免地跟隨威脅的演變,同時也要跟隨新作戰概念的發展。軍事資源訓練水平的不斷更新產生了著名的格言:"邊訓練邊戰斗,邊戰斗邊訓練"。
美國軍方將訓練定義為 "為獲得和保持完成特定任務所需的知識、技能、能力和態度(KSAAs)而進行的教學和應用練習"[4]。
一般來說,軍事訓練分為兩大類:個人和集體。個人訓練正是旨在發展個人技能的訓練。集體訓練的目的是將受過訓練的個人整合成一個有凝聚力的有效團隊,不管這個團隊是四人的坦克車組還是5000人的航空母艦船員。
訓練的規模可以小到為一個四人小組上一小時的如何包扎傷口的課,大到包括來自各軍種的數萬名人員和單位的多周聯合演習。訓練的主要領域是:機構領域,包括各軍種的各種正規學校;行動領域,包括在部隊和艦艇上的訓練,無論是在原地、部署地還是航行中。
另一種類型的培訓是自我發展:它由個人進行,以解決他們在自己的學習中看到的差距,(從更廣泛的角度來看)可以被視為一種教育[4]。
仿真是培訓的基礎,構成了培訓的本質;以培訓為導向的仿真環境允許以安全、高效、經濟的方式培訓人員,并隨著時間的推移保持培訓水平,即使是發生概率極低的事件。因此,即使是模擬環境,也必須跟隨(有時是預測)技術和理論的演變,以最好地完成其任務。
決策的定義和描述有很多,但基本上它是一個認知過程,通過這個過程從一系列合理的、潛在的選項中做出一些選擇。當然,目標是要從現有的備選方案中挑選出 "最佳 "方案。
決策中典型的復雜因素是不確定性;也就是說,備選方案的許多方面以及每個預期方案的確切結果可能是未知的、不明確的或不可預測的[5]。
從歷史上看,一個單位的成功與工作人員執行軍事決策過程的能力直接相關。鑒于當今作戰環境的復雜性增加,以及大量的任務指揮系統和程序,與作戰有關的所有活動的整合和同步越來越困難[6]。
自19世紀末以來,軍事參謀程序一直在演變,試圖定義一個達成決策的共同過程。雖然理論成功地提供了一個指導決策過程的系統,但它幾乎沒有解決在評估和選擇潛在行動方案中固有的不確定性。使情況更加復雜的是,今天人們幾乎可以無限地獲得大量的信息,這些信息可能需要也可能不需要應用于特定的決策情況。因此,雖然看起來信息越多越好,但事實上,擁有太多的數據會增加認知負擔,并可能導致忽略其他與當前特定情況更相關的信息。軍事情報分析過程面臨的挑戰是通過向指揮官提供及時、相關、可靠的信息來加強軍事決策[5]。
在下文中,我們描述了關于決策過程的不同理論,并展示了關于這些理論如何在軍事領域應用的兩個觀點。
關于決策過程的理論
描述了可以支持的關于(軍事)決策的相關理論。
理論方法 [7]
人們可以把這個領域的許多模式分為兩大潮流和方法。
安全方面的問題應該從最初的設計階段就開始計劃和解決,因為一旦部署和實施,甚至剛剛開始,要解決安全問題(考慮所有的觀點和方面)就會困難得多。
此外,由于系統架構可能是基于分布式和分散的模式--面向服務的系統(即MSaaS),其執行將在分布式計算資源上提供,基于網絡/云中心環境--網絡安全方面必須得到仔細考慮。
在實施分布式模擬系統時,有許多問題需要考慮,包括但不限于網絡、端點安全、認證和訪問控制等主題。傳統的網絡安全要求和最佳實踐為確保數據的保密性、完整性和可用性而采取的措施提供了指導。僅列舉一些例子。
應該對訪問進行管理,以確保只有經過授權的客戶才能訪問或操作數據,管理權限應該最小化,管理賬戶應該只在需要時使用。
應定期檢查用于限制誰可以訪問服務器和保護傳輸信息的認證和加密技術,以確定必要的安全要求。
適當的安全管理實踐對于操作和維護一個安全的環境至關重要:安全實踐包括識別信息系統資產和制定、記錄和實施有助于確保系統資源的保密性、完整性和可用性的政策、標準、程序和指南。
為了確保系統和支持整個基礎設施的安全,以下做法是網絡安全 "按原樣 "實施的標準參考(例子):
總之,應通過配置、保護和分析日志文件和配置,經常備份關鍵信息,建立和遵循從破壞中恢復的程序,及時測試和應用補丁,并定期測試安全,來持續維護基礎設施的安全。
此外,由于日益增長的技術創新和可用的計算資源和算法,還將有更多的網絡安全方面需要考慮。
這個活動提案的精神恰恰在于提供一個環境,它是一個生態系統的一部分,跟隨用戶從他/她的職業生涯的開始到最大經驗的階段,而不需要不斷地 "學習"(新的和不同的)系統。這種學習的努力往往與IT工具的真正目標相反,它應該促進工作經驗。此外,如果你是一個有經驗的用戶,你仍然可以訪問較低層次的信息(例如,能夠刷新、修改、獲得特定資產的技術信息,等等)。
本報告分為:
一系列因素(射程空間減少、空域限制、武器系統可用性、缺乏目標模擬能力、敵對能力監測)正在推動北約向分布式合成訓練過渡。為了幫助實現這一轉變,北約科技組織(STO)成立了MSG-165任務組,負責為聯合和聯盟空中行動通過分布式仿真(MTDS)執行任務訓練。
MTDS能力的發展并不局限于MSG-165的工作;事實上,它是北約的智能防御計劃之一,由美國贊助,因此在各個層面都有很好的知名度,但仍然未能取得必要的進展。雖然仍有一些挑戰,但該小組迄今為止所開展的工作已經為北約現有的其他合成訓練問題提供了解決方案。這些都體現在文件中,包括:
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
建立MTDS能力驗證演習,稱為 "斯巴達勇士20-9"(SW 20-9)。SW20-9是對以前“斯巴達勇士”方案的修改,是一個由美國空軍-非洲作戰中心(UAWC)協調的多邊參與機會,通過北約機密級別的聯合戰斗實驗室(CFBL)網絡為聯盟伙伴提供持續的連接,進行日常的、以聯盟為中心的、由單位領導的訓練。
制定MSG-165關于如何利用MTDS來支持北約空中作戰訓練的設想。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
本文將強調在建立一個共同的北約聯合MTDS環境方面所取得的成就。
Arjan Lemmers是英國皇家海軍陸戰隊的高級項目經理。他是北約MSG-165任務組MTDS的聯合主席,在國際分布式任務訓練計劃方面有長期經驗。Arjan也是機載嵌入式訓練系統和LVC互操作性方面的專家。Arjan領導著這個領域的幾個研發項目,并且是幾個國際社區中這些主題的主要參與者。
Clark Swindell是美國空軍作戰中心(UAWC)的建模和仿真主管。他在通過聯合模擬提供分布式訓練方面有豐富的經驗,是NMSG-165的美國國家負責人。克拉克的經驗主要集中在大規模演習,使用聯合模擬,如JLVC,JLCCTC和BLCSE,這些都是使用分布式仿真和玩家的位置,以及整合LVC互操作性和合成環境。
Richard Hemmings是亨廷頓-英格爾斯工業公司(HII)的承包商,是美國空軍作戰中心(UAWC)的LVC集成和開發負責人。最初,他在UAWC作為操作主題專家(SME)和多國LVC演習的項目官員工作,后來他被調到 "未來計劃 "工作,負責整合和開發。作為專家加入北約MSG-165任務組,理查德幫助領導UAWC的工作,主持驗證演習。
北約和各國都需要進行聯合的集體訓練,以確保任務準備就緒。一系列的因素(射程空間的減少、空域的限制、武器系統的可用性、目標模擬能力的缺乏、敵對能力的監測)促使北約向分布式合成訓練過渡。為了幫助實現這一轉變,北約科技組織(STO)成立了MSG-165任務組,負責為聯合和聯盟空中行動通過分布式仿真(MTDS)執行任務訓練的增量實施。
本文將強調在建立一個共同的北約聯合MTDS環境方面取得的成就。它首先解釋了北約MTDS能力的背景,以及之前為實現這一能力所做的努力。然后,它提出了訓練目標,并描述了實現這一即將到來的重要訓練能力的步驟。隨后是MTDS原則的定義,為多個利益相關者的觀點提供要求和標準。這促成了MTDS參考架構,它提供了一個符合上述架構原則的通用和可重復使用的描述。在下一部分中,考慮了為聯盟集體訓練部署MTDS跨域安全解決方案時應考慮的安全問題。本文最后對斯巴達勇士20-9演習進行了展望,該演習被用作北約MTDS能力的驗證演習。
合成能力已經成為滿足北約軍事力量作戰訓練需求的一個重要工具。新的系統和平臺正變得越來越復雜,需要更多的準備時間來使用。技術能力的提高和成本的降低,再加上環境限制的增加和對實戰活動的敵對(電子)監控能力的提高,使得合成訓練的使用更具吸引力。因此,通過分布式仿真任務訓練(MTDS)實現的集體訓練(CT)對北約和成員國的準備工作變得越來越重要。許多成員國正朝著更多地使用先進的模擬進行任務訓練和采用國家MTDS能力的方向發展,但北約目前還沒有一個集體的MTDS能力來利用這些發展進行聯盟CT。
過去,北約在這一領域采取了一些舉措,從2000年開始進行了關于MTDS的SAS-013研究(NATO RTO SAS-013, 2004)。這項研究確定了參與國的空勤人員任務訓練的做法和局限性,并確定了先進的分布式仿真是否能加強北約飛行員和空勤人員的訓練。它提出了未來的方向,將促進北約空勤人員培訓和任務演練的分布式仿真能力的發展。這在2004年的培訓示范演習First WAVE中得到了推進,即 "虛擬環境中的第一個作戰人員聯盟"(NATO RTO SAS-034,(2007)。第一次波浪演習沒有遇到不可克服的技術障礙,并證實MTDS可以提供一個重要的新能力來滿足北約的任務培訓需求。MTDS工作組建議,北約和聯合國應認可MTDS的潛力,并共同努力將MTDS推進到作戰能力。第一波倡議的后續是北約SMART(2007年)、北約現場、虛擬、建設性(LVC)(2010年)項目,以及2011-2012年北約工業咨詢小組(NIAG)關于空中聯合任務訓練的分布式仿真研究小組(NIAG SG 162,2012)。這些研究為北約MTDS行動概念(CONOPS)的發展提供了越來越清晰的思路。然而,沒有一項研究提供了持久的MTDS能力,目的是支持作戰人員為未來行動實現任務準備。鑒于演習預算的減少,可用于實戰演習的資產的減少,以及現實模擬復雜威脅環境的難度的增加,北約缺少一種具有成本效益的手段來提高未來聯合作戰的集體行動準備能力。
北約建模與仿真小組(NMSG)的任務是 "開發和利用建模與仿真(M&S),使聯盟及其合作伙伴受益"。上述考慮是NMSG在2013年啟動MSG-128任務組 "通過分布式作戰逐步實施北約任務訓練"(NATO STO MSG-128, 2018)的動機。MSG-128研究已經驗證了連接異構作戰訓練模擬器的技術可行性,以便為多國空中任務演習提供真正的訓練價值。它已經起草了MTDS參考架構,為多國訓練演習提供了一個初步的基線,即使在促進MTDS演習就業方面仍有許多差距。多國MTDS演習的成熟將是一個漫長的過程。MSG-128小組建議,為達到這一成熟度,有以下幾個努力的軸心(Lemmers和Faye等人,2017):
在小型/中型演習的操作成熟度方面取得進展,為上述確定的差距提供技術解決方案。
繼續在作戰演習環境中驗證這些解決方案,并將這些解決方案整合到MTDS最佳實踐文件中。
將MTDS演習的可擴展性擴展到大型和聯合演習,包括空軍、海軍和陸軍之間的空域互操作性,以及包括聯合情報、監視和偵察(JISR)。這一行動將是LVC發展和MTDS在多國聯盟演習中使用的一個助推器。
MSG-128在2018年被后續任務組MSG-165 "通過分布式仿真為聯合和聯盟空中行動逐步實施任務訓練 "所接替,該任務組將持續到2021年初。其目標是為北約持久的MTDS環境建立基本要素,并通過初步的操作測試和評估來驗證這些要素。MTDS能力的發展并不局限于MSG-165的工作;事實上,它是北約的智能防御計劃之一,由美國贊助,因此在各個層面都有很好的可見度,但可悲的是仍然未能取得必要的進展。雖然仍有一些挑戰,但該小組迄今為止所開展的工作已經為北約現有的其他合成訓練問題提供了解決方案。這些都體現在文件中,包括
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
建立空中MTDS能力驗證演習,稱為 "斯巴達勇士20-9"(SW 20-9)。SW20-9是由美國空軍非洲作戰中心(UAWC)協調的一個多邊參與機會,為聯盟伙伴提供北約機密級別的聯合戰斗實驗室(CFBL)網絡的持續連接,以進行日常的、以聯盟為重點的、單位領導的訓練。
制定MSG-165關于如何利用MTDS來支持北約空中作戰訓練的設想。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
為了提供最大的價值和效率,北約MTDS必須關注現有訓練安排中沒有涉及的領域。因此,它不尋求復制通過現有國家或北約活動提供的訓練,而是提供額外的聯盟合成訓練能力。北約有能力提供作戰航空部門指揮能力的合成集體訓練(CT)。然而,它還沒有能力對空中指揮部(ACC)以下的戰術能力進行綜合訓練。在合成提供 "從輪子到輪子 "的空中活動方面的這一差距,是北約MTDS提供訓練的主要重點。然而,為了實現端到端的合成訓練,任何未來的系統都應該能夠連接到現有的北約合成訓練能力,特別是支持(NATO STO MSG-165, 2019):
合成傳播和執行空軍司令部(ACC)訓練衍生的空中任務指令(ATO)、空域控制指令(ACO)和特別指令(SPINS)。
ACC執行階段的訓練,將合成訓練的任務與ACC戰術人員聯系起來,支持其動態訓練。
空中訓練的要求可以分成三個日益復雜和具有挑戰性的層次,如圖1所示,并在下文中描述:
第1級:個人能力,涵蓋人員的個人訓練和貨幣,安全地發揮作用。
第2級:戰術團隊訓練,訓練分隊的 "基石",為個人和隊員的作戰戰術和程序做準備。
第3級:戰術集體訓練,為復雜的空中行動提供訓練,需要多種空中能力和單位來完成一個行動任務。
在這三個級別中,1級和2級培訓將仍然是國家的責任。然而,3級戰術集體訓練是北約MTDS的關鍵多國要求;這源于許多國家難以實現這一級別的現實訓練所需的密度和能力范圍。盡管如此,在北約MTDS剩余能力允許的情況下,作為次要的優先事項,MTDS將用于2級訓練,作為提高這種訓練的真實性和復雜性的一種手段。
圖1:空中訓練的級別
為確保任何未來的MTDS能力能夠滿足必要的作戰訓練和演練要求,必須確定MTDS將提供的作戰訓練類型。因此,通過與MSG-165行動小組代表協商,制定了北約聯盟反恐目標(CCTO)(NATO STO MSG-165,2019)。這項工作提供了50個CCTVO。這些CCTVO被分組,以提供MTDS解決方案必須能夠支持的廣泛任務集,并幫助未來的培訓設計。以下任務集被確定。攻擊、進攻性反空、防御性反空、空中C2、空中機動性、空中情報監視和偵察、戰斗支援、空地一體化和空海一體化。
在第1級和第2級活動中的個人和構件訓練中,重點是確保機組人員能夠在駕駛艙內采取必要的行動來有效地打擊他們的平臺。然而,在第三級培訓中,雖然正確的機組人員行動仍然很重要,但概念上的重點卻發生了微妙的變化。第三級培訓必須提供培訓機會,以確保在通常大型和復雜的編隊中,控制人員和機組人員之間發生正確、及時的C2互動,如圖2所示。
圖2:將在CT環境中復制的操作互動
與1級和2級培訓相比,3級培訓的重點發生了微妙的變化,允許更加關注合成培訓的交付。因此,雖然大型實戰演習仍然是實現訓練真實性、建立信心和戰略信息的重要手段,但北約空中訓練的更大比例可以在合成環境中常規實施。這一假設已經在MSG-165行動小組中進行了討論和測試,主要的結論是,對于3級多國訓練,對于任務集,超過50%的訓練可以以合成方式進行。
北約MTDS能力旨在將國家或北約的模擬資產整合到一個分布式的合成集體訓練環境中,這些資產通過一個共同的模擬基礎設施連接。仿真資產一般通過網關或門戶連接到該基礎設施。合成訓練環境的一致性也是參與集體合成訓練和演習的模擬資產的互操作性的關鍵。含有合成環境數據的數據庫的制作可能是整個M&S成本的重要組成部分,這意味著應該促進重復使用。仿真資產提供者通常使用相同的高級流程來生成他們的環境數據產品,但詳細的數據生成流程因生產商或集成商的不同而略有不同。這些差異使數據重用變得復雜,并危及目標應用的最終互操作性。
為了實現MTDS的合成集體訓練環境,能夠快速響應新的訓練需求,需要為訓練環境的開發和工程制定共同的流程和技術協議。由于技術協議通常是在每次演習中制定的,因此仍然缺少一個具有相關工程流程和技術協議的共同認可的模擬基礎設施。這就是MTDS參考架構(RA)發揮作用的地方(van den Berg, Huiskamp, et al., 2019)。該參考架構以構件、互操作性標準和模式的形式概述了MTDS的要求,用于實現和執行由分布式仿真支持的合成集體訓練和演習,與應用領域(陸地、空中、海上)無關。MTDS RA的重點是合成集體訓練和演習,因此將包括具有MTDS特定功能和接口的構件和模式。由于RA是在北約范圍內開發的,它也將利用北約的模擬互操作性標準。
用于特定訓練或演習活動(如 "斯巴達勇士 "演習系列)的模擬環境架構被稱為解決方案架構。由于MTDS的RA為合成集體訓練環境提供了一個 "模板解決方案",因此解決方案架構中使用的許多元素的要求原則上應來自RA。但是,可能還需要進行一些改進,以滿足特定事件的要求。這可能包括選擇仿真協議和特定的中間件解決方案(DIS、HLA)、網關組件、跨域解決方案、數據記錄工具,以及代表合成物理環境(SPE)的協議和格式。參考數據交換模型是通過RA提供的,但解決方案架構仍然需要就這些參考數據交換模型中的哪些具體部分將在具體事件中使用達成協議。
通常情況下,各套原則形成一個層次結構,即架構原則將被企業原則所告知、闡述和約束。架構原則定義了使用和部署資源和資產的基本一般規則和準則。它們反映了企業各要素之間的某種程度的共識,并形成了做出未來決策的基礎。在MSG-165中,為MTDS定義了10個主要的架構原則。下面將討論這些原則。
1.支持北約行動的合成集體訓練和任務演練 MTDS工作的主要預期應用是在北約范圍內的合成集體訓練。應為單一服務和聯合行動開發一個共同的技術和程序解決方案。就技術要求而言,任務演練被認為與任務訓練密切相關。
2.啟用(混合的)現場、虛擬和建設性資產 MTDS應(在未來)支持(混合的)現場、虛擬和建設性的模擬玩家。聯合行動和聯合行動的集體訓練需要有許多模擬實體的復雜訓練場景。訓練對象通常會在實戰、虛擬和混合的LVC環境下進行訓練。解決方案應支持LVC的混合集成。
3.提供靈活性和發展能力 許多國家已經使用模擬系統進行訓練。然而,這些現有的系統在技術上往往是非常不同的。MTDS RA應定義一個框架,該框架在技術上是先進的,沒有限制性(例如,可擴展新的模擬資產),并且不會不必要地阻礙訓練(例如,帶寬,穩健性)。應定義門戶或網關,以允許在MTDS中整合遺留系統,并允許MTDS所需的靈活性。
4.使用開放標準 北約提倡使用開放標準,因為它促進了成本效益的互操作性。開放標準可以被所有各方自由使用。對私人方(如供應商)的使用沒有任何限制。
5.遵守北約政策和標準 MTDS應遵守北約關于M&S互操作性和標準的政策和協議。偏離這一原則需要說明理由,包括對合適的北約標準的評估和與替代解決方案的比較。
6.支持在北約保密級別或最高級別使用 MTDS應支持北約行動的合成訓練和任務演練。系統、理論和任務執行的保密方面需要得到保護。應就系統、網絡、場地和能夠接觸上述內容的人員的實施和認證達成協議。
7.在一次演習中支持多個安全域或飛地 應就屬于不同飛地的系統、網絡、場地和人員之間的信息交流的實施和認證達成協議,可能通過使用CDS解決方案。每個國家和北約之間的CDS解決方案的認證將由每個國家承擔。
8.提供有代表性的訓練環境 MTDS應提供一個有代表性的集體訓練環境,以支持演習中所有參與者的公平競爭(或公平戰斗)。仿真系統性能的差異不應導致某些參與者獲得不現實的(不)優勢。
9.解決多個利益相關者的觀點 MTDS使用RA來提供對特定MTDS解決方案設計的通用和可重復使用的描述。RA是以架構構件的形式來描述的,對這些構件的解決方案有要求和適用標準。為了實施MTDS,將涉及不同的利益相關者。這些構件應該為不同利益相關者的觀點提供指導。
10.通過聯網模擬器為北約和國家的集體培訓提供具有成本效益的培訓解決方案,不得對用戶以及各中心及其工作人員施加不可接受的限制,因為這些限制不值得花費時間,也不能被行動上的好處所抵消。
MTDS原則為多個利益相關者的觀點提供了要求和標準。MTDS RA提供了一個符合上述架構原則的通用和可重復使用的描述。它使用了架構積木(ABB)和架構模式(AP)的概念來定義應用和服務的框架,使國家訓練系統能夠被整合到一個分布式的合成集體訓練環境中。圖3提供了該框架中主要ABB的概述。
圖3:MTDS框架的應用和服務
圖3中的應用是面向用戶的能力,與稱為服務的后端能力互動。例如,圖中顯示--在解決方案層面--將有一個或幾個用于場景準備的應用程序;這些軟件組件與后端服務實現(如威脅生成服務)互動,向這些服務提供模擬場景數據。框架應用和服務的一個子集(門戶服務、面向消息的中間件服務、威脅和跟蹤生成服務以及合成自然環境(SNE)服務)在(van den Berg, Huiskamp, et al., 2019)中有更詳細的討論。
北約國家有必要在北約MTDS演習中整合和操作其國家或主權機密模擬資產,以實現其共同的空中集體訓練目標。同時,北約國家希望保護這些最敏感或最機密的資產、其基礎數據和信息,防止因加入這種北約MTDS演習而受到(網絡)安全威脅。在不同國家敏感度、信任度或安全分類級別的模擬資產之間實現安全連接和互操作性,對于成功實施北約MTDS能力和演習至關重要。
M&S跨域安全(CDS)服務旨在滿足這一要求,使北約國家能夠通過共同共享的北約MTDS模擬主干,對位于其國家安全領域的模擬資產進行安全互操作。在這種情況下,安全域被定義為在一致的安全政策下運行的模擬資產,并由一個組織、國家和/或安全認證機構(SAA)擁有。安全政策定義了關鍵要素,如安全分類、可釋放性、利益共同體和任何其他對模擬資產中包含和處理的實際軍事系統和理論的數據和信息的特殊處理注意事項。
在這里,M&S CDS被定義為一個由安全強化服務組成的系統,該服務是為減輕在不同安全領域運行的模擬資產之間傳輸模擬數據的特定安全風險而定制的。這樣的M&S CDS可以被看作是一種網關環境的形式。與普遍應用的M&S(網絡)網關不同,M&S CDS提供了廣泛的安全控制,以提供全面的模擬數據過濾和深度防御,具有更高的保障水平。M&S CDS服務是保護整個北約MTDS基礎設施及其組成的模擬資產免受所有形式的安全威脅所需的整個安全措施的一個專門部分。除其他外,這包括:模擬資產和設施的物理和網絡邊界保護裝置,模擬資產或設施與網絡連接的物理安全,模擬資產和監測之間的加密通信保護,人員安全許可和意識培訓。這些常見的安全措施對于MTDS演習的安全執行也應到位。
理論上,可以設想許多通用的應用拓撲結構,其中部署M&S CDS解決方案,以確保在多個安全域之間進行受控和安全的模擬數據交換。然而,在實踐中,這種拓撲結構的實施必須符合具體的使用案例和威脅環境所施加的跨域安全要求和限制。這意味著分布式仿真環境的跨域安全不僅僅是孤立地關注M&S CDS設備(如數據節點、防護裝置或信息交換網關)。只有當每個連接的安全域內的模擬資產和網段滿足某些可信的安全政策、實踐和要求,并且其相關的安全風險被充分理解和接受時,才能保證整個分布式仿真環境的適當安全水平(反之亦然)。因此,在北約MTDS用戶背景和威脅環境下,在為聯盟集體訓練部署M&S CDS解決方案時,應考慮以下安全因素。
1.最重要的是,每個北約國家需要保持對其國家擁有的模擬數據和信息的完全控制,以及在MTDS訓練演習之前、期間和之后如何共享這些數據和信息。這意味著每個國家將始終通過本國擁有的CDS設備將其機密模擬資產與北約MTDS模擬主干連接起來,這些設備受本國的SAA和安全政策的約束。
2.所有將參加北約MTDS演習的北約國家都使用私營軍事網絡北約聯盟戰斗實驗室網絡(CFBLNet)作為共同的網絡基礎設施,以連接他們的機密模擬資產和其他相關的培訓應用,直至北約機密級別。這意味著參與的北約國家有一個共同的協議,在每個國家對這些資產或應用的安全等級執行方面相互信任,在此基礎上,他們可以通過這個網絡連接、共享數據和信息。因此,目前,從這個北約CFBL網絡到較低信任安全域的級聯連接對任何北約國家來說都是非常不可取的,甚至是不可接受的。
3.北約MTDS將部署符合北約STANAG和標準的仿真互操作性中間件服務(如HLA、DIS和TENA),以便在一個統一的分布式仿真環境中對國家仿真資產進行互操作,用于集體任務訓練和演習。目前,這些中間件標準通過一個共同的共享數據空間和模擬信息交換數據模型來交換模擬數據,而這并不提供任何安全措施。這意味著,任何國家只要能進入北約CFBL網絡,并被允許用正確的加密密鑰加入特定的MTDS演習,也可以直接訪問參與模擬資產之間交換的所有模擬數據。因此,這個集體模擬數據集是MTDS演習中所有參與國(即安全領域)的 "共享秘密"。
4.M&S CDS部署拓撲結構過于復雜,將使每個國家安全領域內的機密模擬資產的安全保障和操作復雜化,并可能增加攻擊面、轉換數據流渠道的風險以及與較低信任環境的級聯連接。這意味著過于復雜的部署拓撲結構可能會在整個MTDS演習準備、執行和匯報階段給北約國家帶來額外的成本和準備時間。因此,CDS的部署拓撲結構應該在滿足國家安全和培訓要求的前提下,設計得盡可能的簡單。
圖4描述了在北約MTDS演習中部署M&S CDS的參考拓撲,該拓撲是根據前面提到的安全考慮因素確定的(Roza,等人,2020)。
圖4:北約MTDS CDS部署的參考拓撲結構
該參考拓撲結構反映了這樣一種典型情況:參與北約聯盟級分布式仿真環境的仿真資產由不同的國家擁有,因此屬于受不同SAA管轄的安全領域。為了確保每個國家完全控制其國家擁有的機密模擬數據,以及如何與其他國家共享這些數據,每個國家通常應使用自己的CDS設備。在這里,每個國家的CDS首先將自己的主權機密模擬數據集轉換并映射成可釋放的數據集,然后根據商定的集體模擬信息交換模式將其發布到集體共享的模擬數據集中。這種共享數據受到共同商定的安全措施的集體保護,如數據加密,以確保通過第三方網絡基礎設施進行保密信息交流,并對每個國家的參與模擬設施采取安全措施,以獲得加入北約MTDS聯盟級演習的權限。反之,國家擁有的CDS設備可以保護單個或聯合的國家機密模擬資產免受來自北約CFBL網絡的網絡攻擊,包括因訂閱共享數據空間的數據而導致的未經授權的模擬數據入侵。
從UAWC的演習選項中選擇,"斯巴達勇士 "活動是通過分布式仿真進行的多國、以空中為重點的訓練。這次演習將在北約的CFBL網絡上進行,在四天的時間里使用每個國家的模擬或仿真器通過DIS和HLA進行連接。UAWC模擬/環境生成器將提供整體的合成環境、安全語音、聊天功能和紅色部隊來填充該領域。
為了建立支持大規模演習所需的行動區域,UAWC雇用了其他模擬中心的專家,包括空戰訓練中心(英國皇家空軍瓦丁頓空軍基地)、北約預警系統ASCOT控制員(北約蓋倫基興航空站)和萊昂納多公司(意大利)。此外,計劃中的參與包括法國空軍(FAF)、意大利空軍(ItAF)、北約預警系統、英國皇家空軍(UK)、加拿大皇家空軍(RCAF)、荷蘭皇家空軍(RNLAF)、西班牙空軍(SpAF)、美國空軍(USAF)和美國陸軍(USA)。因此,它還將通過采用嵌入盟軍控制和報告中心(CRC)和北約預警機的美國陸軍防空炮火控制官(ADAFCO)來實現聯合和北約的互操作性訓練。為了繼續提供互操作性的機會,演習還將通過北約預警機E-3、建設性的E-8 JSTARS和皇家空軍RC-135 "鉚釘 "聯合模擬器支持情報監視偵察(ISR)的 "鐵三角"。這種ISR融合能力模擬了關鍵的現實世界ISR整合,以提高跨平臺和機構的決策技能。這項培訓還將在盟軍CRC和聯合戰術空中管制員(JTAC)之間執行美國空軍支援行動中心(ASOC)的連接。最后,為了支持這項工作,將有多架反空和攻擊飛機,包括建設性的和有人駕駛的模擬器,通過故意瞄準(DT)、打擊協調和偵察(SCAR)以及近距離空中支援(CAS)來支持協調打擊。
由于有機會進行驗證演習,目前建立的基礎設施和系統得到了利用。由此產生的系統和網絡提供了探索規定的RA和CDS配置的混合機會。因此,支持演習的數據被記錄下來,用于進一步的參考架構測試和比較,這使得演習規劃者能夠專注于實現MTDS CONEMP(NATO STO MSG-165, 2019)中概述的聯盟集體訓練目標(CCTO)。通過在整個演習責任區(AOR)創造3級訓練機會,集中精力實現盡可能多的CCTVO,演習策劃者能夠將50個CCTVO中的37個作為計劃目標(NATO STO MSG- 165,2019)。
參照上圖2,不同的任務和飛機類型之間的相互作用有助于建立3級訓練的復雜性。為了開始建立所需的部隊互動過程,規劃者希望建立一個能夠支持現有參與者所需復雜性的戰斗空間。隨著四(4)個指揮和控制(C2)元素的使用,結構化的通道被分配給每個C2元素。有了這些通道,就需要控制戰斗機的進攻/防御行動,以及確保空中加油保持所需的CAPs的支持要求。這種最初的集體行動將戰斗機及其加油機與控制它們的C2機構聯系起來,以滿足聯合空中作戰司令部(CAOC)在規劃文件中制定的規定的區域防空計劃(AADP)。這種看似簡單的互動現在發生在四(4)個不同的元素之間,可以想象是在四(4)個不同的地點。對于 "斯巴達勇士 "20-9,意大利空軍(ItAF)的歐洲戰斗機在作為C2機構的北約預警機控制的航道上與作為建設性實體的UAWC控制的加油機之間的互動現在將3個不同的單位聯系在一起,以實現一個相對良性的集體訓練目標,AAR.02--在同一地點進行空對空加油。同樣地,一個集體可以通過綜合空中行動(COMAO)完成一個更復雜的舉措,以實現進攻性反空(OCA)目標OCA.01(護航),OCA.02(戰斗空中掃蕩)和SEAD.01(壓制敵人防空)。為了建立這個集體目標,規劃人員利用C2機構在機會窗口期間將屬于COMAO包的飛機組織到他們的集結點,然后提供空中掩護(護送),假設達到CAOC的規劃文件規定的可接受的風險水平(ALR)。這個目標給C2機構帶來了決策,他們有能力從以前的打擊中辨別出ALR(防空設施是否被充分壓制?)、COMAO包的狀態、護航OCA組的狀態以建立空中控制,然后是打擊發生后的戰斗損傷評估(BDA)信息。這些集體行動現在占了多個地點的多個小組,處理融合的情報(敵方防空狀態),以及打擊前和打擊后的有效信息交流。
對于MTDS事件的規劃者來說,場景的復雜性不應掩蓋手頭任務的復雜性。在這種情況下,規劃文件根據ALR定義了限制,并建立了已知的時間事件來創建這些打擊窗口。這就創造了機會,或缺乏機會,基于提供給決策者的輸入--在這種情況下,接受培訓的C2機構。對于演習策劃者來說,所需的CCTVO成為驅動特定場景的焦點。通過創建這些決策點,在多個平臺上收集相關信息,所有這些平臺都在為已知的事件進行協調,從而實現了集體訓練點。在更大的事件中,實現這些功能的機會可能會在細節和機會的海洋中消失,以引起更大的力量反應。然而,正是通過保持任務的簡單性來控制信息的流程和流動,才可以在不影響訓練對象或創造支持環境的白軍元素的情況下常規地實現CCTO。
最后,為了改變行動區的任務,特定的任務集在整個行動區被輪換使用。這種輪換使不同的C2機構能夠在四個演習日的每一天改變他們的重點。當一些機構負責支持CAS時,其他機構則負責協調COMAO包、SCAR資產或動態目標事件。此外,戰斗的性質在四天的演習中也有所改變。通過不保持時間線(演習第1天=第100天,演習第2天=第101天,等等),計劃者可以用較小的每日投入進一步構建演習事件。在這個例子中,演習日以10天為單位向前移動。這樣,雙方的補給都可以完成,但更重要的是,戰爭的基調可以得到調整。對于SW20-9來說,10天的增量提供了創造紅方部隊推進日、藍方部隊推進日、停火(以及隨后重新陷入戰爭)日和僵局日的機會。這些都會在對事件的整體解釋中產生色調和變化,從可能的叛逃者到自相殘殺的擔憂,都需要加以考慮。這些變化為所有玩家提供了一系列的事件和任務集,以解釋和建立他們的行動方案,從而增加集體的訓練機會。
北約內部MTDS能力的發展并不限于MSG-165的工作。MSG-180工作組努力在海洋領域建立MTDS能力(名為LVC-T)(NATO STO MSG-169. 2019)。此外,這兩個小組的工作與MSG-164建模與仿真服務(MSaaS)有關(NATO STO MSG-164. 2018)。MTDS也是北約的智能防御倡議之一,由美國贊助,因此在各個層面都有很好的知名度,但遺憾的是仍然未能取得必要的進展。為了幫助這個問題,我們打算通過將海洋領域納入MTDS倡議,將智能防御的努力結合起來。雖然仍有一些挑戰,但迄今為止所開展的工作已經為其他現有的北約合成訓練問題提供了解決方案。這些問題包括:
分析未來的空中訓練需求,從而重新確認多國MTDS活動的好處。
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
制定MSG 165的愿景,即如何利用MTDS來支持北約空中業務培訓。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
為了支持北約聯合MTDS的發展,我們提出了以下建議:
發展北約綜合演習要求,從北約贊助的年度MTDS演習開始。這將有助于提高整個北約對MTDS能力和好處的認識,并有助于為MTDS的培訓制定必要的優先次序。
正式確定聯盟對未來多國合成訓練的期望。我們相信,這將帶來巨大的好處,并提供必要的自上而下的方向和指導,以幫助推動MTDS能力的發展,這是一個初步要素。
本文介紹的工作是由以下北約國家和組織在MSG-165任務組中合作完成的。比利時、加拿大、法國、德國、意大利、荷蘭、挪威、西班牙、土耳其、英國、美國、歐洲航空集團(EAG)、北約工業咨詢集團(NIAG)和北約空中作戰卓越中心。所以這項工作的功勞應該歸功于這個MSG-165任務小組的所有參與者。本文的作者是MSG-165的聯合主席,并代表整個小組的作用。
近年來,"蜂群 "和 "構建蜂群"是無機組系統界最普遍的流行語之一,不僅包括航空器,還包括陸地、海洋、水面以及水下的無人系統。然而,什么是蜂群,或者它需要擁有哪些基本能力,還沒有正式定義。北約的無機組飛行器社區最近開始為上述術語制定定義,以最終正式確定各自的術語供官方使用,但由于不同社區對什么是蜂群有不同的解釋和觀點,很快就陷入了困境。因此,以空中為中心的定義可能不太適合于其他領域。
本文旨在概述挑戰,并在討論未來 "蜂群 "的定義及其在無人飛行器背景下的相關術語提供思考素材。
每個術語的定義都需要滿足一個目的;否則,它就沒有意義,也不需要被定義。例如,遙控飛機(RPA)被定義為 "由經過培訓和認證的飛行員控制的無人駕駛飛機[......],其標準與有人駕駛飛機的飛行員相同。"因此,使用RPA一詞表明操作飛機需有一定程度的飛行員資格要求。以同樣的方式,需要同意該定義是為哪些條件和目的服務的,即在哪些情況下需要它。
定義 "蜂群 "所面臨的挑戰是,適用的用途差別很大,一種用途的定義參數可能與另一種用途不相關。為了概述這一挑戰,下面介紹了一些例子。
作業用途。使用蜂群來實現軍事效果是基于需要解決的軍事問題。只有當蜂群功能與其他解決方案相比能帶來軍事利益時才會被采用。所期望的效果在本質上將符合能力要求的定義,因此,需在采購者的法律框架內。實戰化蜂群技術并按照適用的國家和聯盟立法、交戰規則以及戰術、技術和程序進行操作,可能需要一個定義,該定義提供了關于軍事能力、遠程操作模式、指揮和控制手段以及人類互動程度的說明。
開發者用途。需要充分了解潛在的蜂群功能,以便從開發者的角度確定軍事使用的好處。開發蜂群技術和實現蜂群行為的正確執行可能需要復雜的自主性和人工智能應用水平,使人類能夠將蜂群作為一個整體進行操作,但不需要(甚至不允許)控制任何單獨的蜂群實體。因此,這種用途的定義可能集中在自主性水平、其在硬件和軟件中的技術實現以及蜂群功能在其系統中的適應性。
反蜂群用途。在觀察和防御蜂群時,自主性水平或指揮和控制手段并不那么重要。從這個角度來看,實體的數量、它們的觀察行為以及它們假定的蜂群能力是最相關的問題,因此也是決定性的因素,不管蜂群實體是人工控制還是自主操作。識別一個較大的實體群是否有資格成為蜂群的挑戰隨著展示的蜂群行為的復雜性而增加。
在其他情況下,"蜂群 "一詞的定義可能需要偏離或替代,以達到其目的。為了解決這個難題,有兩個選擇。首先,為每一種用途制定多個定義,其次,找到一個可以服務于所有(或至少是大多數)用途的共同標準。由于多種定義有可能在不同的用戶群體之間造成混淆和誤解,因此第二種選擇更受歡迎。每個用戶群體以后可以將其具體要求作為子類別術語附加到一般定義中,類似于RPA,它是 "非螺旋槳飛機 "這一總體定義下的一個子類別。
這就給我們帶來了一個挑戰,即為總體的蜂群定義確定一個共同標準。通過觀察蜂群,特別是其行為,可以發現共同點,不管它是由空中、陸地還是海上的無人系統組成,也不管蜂群的行為是實際執行的還是只是被感知的。因此,一個總體的定義應該從蜂群的外部外觀和視覺感知開始,而不是關注其內部運作。后者可以用子類術語來涵蓋和區分。
在開源研究中,有許多關于蜂群行為的定義,但它們主要描述的是同一個概念,通常將蜂群智能作為一個前提條件。例如:
"蜂群是大量個體組織成協調運動的現象。僅僅利用環境中他們所掌握的信息,他們就能聚集在一起,集體移動或向一個共同的方向遷移"。
"蜂群智能是對分散的、自組織的系統的研究,這些系統能夠以協調的方式快速移動"。
"在蜂群機器人學中,多個機器人通過形成類似于在自然系統中觀察到的有利結構和行為來集體解決問題,如蜜蜂群、鳥群或魚群"。
"蜂群智能源于動物的自然蜂群行為,可以定義為相同大小的動物表現出的集體行為,聚集在一起解決對其生存至關重要的問題。蜂群智能可以被定義為簡單代理群體的新興集體智能"。
上述所有定義的共同點是形成蜂群的個體的 "協調運動"。集體智能也被提到是實現這種行為的關鍵因素;然而,觀察者將無法確定蜂群的協調運動是基于集體智能還是通過其他控制手段。因此,在總體定義中,集體智能是一個需要考慮的次要屬性,需要由后續術語來涵蓋。值得注意的是,未來的技術,包括人工智能和機器學習應用,可能使觀察者能夠確定一大群實體是否擁有可能造成更大威脅的額外蜂群功能。因此,"集體智能"或類似的可識別的蜂群功能可能被納入定義中。
【值得注意的是,"多個蜂群元素 "原則上意味著,任何數量大于1的單位,如果從事蜂群行為以提高整體單位的集體能力,都可以被視為一個蜂群。由于沒有專門的系統,識別蜂群行為幾乎是不可能的,因此,除非另有證明,否則最好將看似一起行動的多個實體視為一個蜂群。更高的數量會放大蜂群行為的好處。另外,各個實體不需要完全相同,只需要兼容,作為蜂群的一部分解決軍事問題。】
根據上述定義推斷,蜂群的另一個關鍵要素是參與的實體數量,但沒有明確規定最低數量。是否有一個閾值需要跨越,以脫離傳統的分組方案,如中隊、航班,從而有資格成為蜂群?同樣,我們有幾個選擇:
1.將任何由兩個或更多元素組成的編隊都歸為蜂群。
2.將蜂群定義為超過特定數量的單個元素的群體,其數量高于上述傳統分組。
3.避免任何具體化,將這一細節再次留給后續的分類學層次。
為了避免限制性太強,并允許有子類別,建議采用最后一種方案。術語"多個蜂群實體"很好地表達了建議的 "非特定性",并將在文章后面為此而使用。
上述可觀察到的特征,即 "協調運動 "和 "多個蜂群元素",并不意味著各個蜂群實體之間有最小或最大的距離。已經有了采用廣泛分布的無機組的飛行器來轉播無線電通信或向偏遠地區提供互聯網連接的概念。單個航空器之間的距離可能是數百公里,以提供大面積的覆蓋。即使在較小的規模上,蜂群實體也可以在僅幾百米的距離內以協調的方式運作,以觀察一個地區或攻擊具有多個影響點的較大目標。如果不能對群體(或蜂群)進行整體調查,那么這些實體是否遵循預先確定的和不協調的模式或執行協調行動,對觀察者來說可能仍然是隱蔽的。因此,蜂群的空間分布不是一個總體定義的限定因素,而且會不必要地限制其應用,盡管這些特征可能在反蜂群活動中發揮作用,并在隨后的術語中加以定義。
在談論蜂群技術時,人們廣泛討論了不同的自主性水平和相應的人類互動水平。例如,自主性水平越高,在實際任務中對人類投入的要求就越低。顯示出一套完整的蜂群行為的蜂群很可能處于自主性等級的高端,將人類互動的必要性降到最低。也可以假設這種人類互動適用于整個蜂群,以控制總體的蜂群功能,而不是單個的蜂群實體。然而,在觀察由單個空中、陸地、地面或地下飛行器組成的蜂群時,很難確定其自主性和人類互動水平,因此對于總體 "蜂群 "的定義而言,這不是一個相關因素。為了不限制定義的適用性,這些特征應該用一個子術語來描述,如 "智能蜂群"、"自主蜂群 "或類似的措辭,因為它們肯定在研究和開發、蜂群就業方面具有適用性,而且可能用于法律目的。
人們通常認為,組成一個蜂群可以增強或產生單個系統無法實現的能力。蜂群可以被認為是一個系統簇,它可以執行預先設計的功能并提供一個或多個(軍事)效果。這些效果要么直接受益于蜂群行為,要么間接受益于單個系統能力的組成,作為一個組合的蜂群功能。這種好處需要從能力要求、作業和防御的角度清楚地理解,并且可以與其他軍事用途的定義聯系起來。一般來說,蜂群行為是任何蜂群能力的基礎。然而,蜂群能力可能因使用的系統類型而有很大的不同,而且與蜂群行為相比,不能觀察到,只能在執行前假設。因此,能力聲明被認為不適合作為總體定義,還應該由下屬術語涵蓋。
一個定義取決于蜂群的預期用途。由于蜂群應用提供了各種用途,本文建議從一個總體定義開始,并在下屬術語中涵蓋各個使用屬性。
以下是一個總體定義建議,涵蓋并支持所有軍事領域及其各自的無機組人員系統,隨后對定義的每個術語進行了解釋。
形成。這應表明蜂群元素之間的空間相關性,同時有意不進一步描述其具體組織。這就為各個蜂群元素之間的各種距離和空間安排留出了分類的空間。
多個。蜂群可能由少數甚至數百個元素組成,但至少要超過一個。不具體的術語 "多個 "允許該定義適用于所有類型的蜂群,無論其參與元素如何。定義一個具體的數字對于任何下屬的術語來說也將是困難的。可以對小型蜂群中的 "可計算的數量 "和大型或大規模蜂群中的 "不可計算的數量 "進行區分,這可能有助于區分人類或技術系統被接近的實體所淹沒時的威脅。
實體。它包括所有類別的無人系統,包括空中、陸地、地面和地下系統。如果計算機程序或衛星系統的協調行動是北約未來的選擇,這個術語也可以適用于網絡和空間領域。可以考慮使用從屬的術語,例如,無人駕駛飛機系統群(UASSw)或無人駕駛地面車輛群(USVSw)。
顯示協調的行為。蜂群的內部運作和技術機制可能有所不同,對于某些用途,定義甚至可能不需要審查這些內部特征。本文所確定的共同點是蜂群的行為,包括可以觀察到的協調動作和行動。故意不說明這些協調行動是如何實現的。實現蜂群功能的技術手段可以用隨后的術語來表達,如 "自主蜂群 "或 "智能蜂群"。
朝著一個目標前進。這是為軍事背景服務的,因為可以假設蜂群總是指向一個目標,以實現其特定的任務目標,從簡單的現場調查、情報、監視和偵察,到打擊或自殺任務。這可能與軍事背景以外的情況無關,可以不提。
【蜂群是由多個實體組成的,它們朝著一個目標表現出協調一致的行為。】
為 "蜂群 "找到一個一致的定義是一個困難的挑戰,因為在所有的軍事領域和民事應用中都有很多用途。要在北約內部實現對蜂群定義的廣泛接受,唯一的解決辦法是確定所有蜂群特征的共同點,將定義減少到最低限度,并將專門用途的具體細節留給下級術語。
安德烈-海德爾,中校是一名炮兵軍官,在指揮與控制和作戰計劃方面有超過15年的經驗。他是JAPCC的無人駕駛飛機系統主題專家,已有十多年的經驗,并代表JAPCC參加北約聯合能力小組的無人駕駛飛機系統和北約反無人駕駛飛機系統工作組。他撰寫了關于無人機系統和C-UAS的操作和法律問題的多項研究、書籍和文章。
安德烈亞斯-施密特,中校于1993年加入德國空軍。在軍官學校學習后,他在慕尼黑的德國武裝部隊大學學習計算機科學。自1998年以來,他在地基防空方面建立了廣泛的背景,特別是愛國者武器系統。他開始擔任戰術控制官,隨后在不同的 "愛國者 "部隊中擔任偵察官、炮臺執行官和炮臺指揮官。此外,他曾兩次不連續地被派往德克薩斯州的布萊斯堡。在這之間,他曾在前空軍師擔任A3C的任務。目前,他是JAPCC的綜合防空和導彈防御/彈道導彈防御中小企業。
摘要--基于模擬的訓練有可能大幅提高空戰領域的訓練價值。然而,合成對手必須由高質量的行為模型控制,以表現出類似人類的行為。手工建立這種模型被認為是一項非常具有挑戰性的任務。在這項工作中,我們研究了如何利用多智能體深度強化學習來構建空戰模擬中合成飛行員的行為模型。我們在兩個空戰場景中對一些方法進行了實證評估,并證明課程學習是處理空戰領域高維狀態空間的一種有前途的方法,多目標學習可以產生具有不同特征的合成智能體,這可以刺激人類飛行員的訓練。
索引詞:基于智能體的建模,智能體,機器學習,多智能體系統
只使用真實的飛機進行空戰訓練是很困難的,因為飛行的成本很高,空域的規定,以及代表對方部隊使用的平臺的有限可用性。取而代之的是,可以用合成的、計算機控制的實體來代替一些人類角色。這可以降低訓練成本,減少對人類訓練提供者的依賴(見圖1),并提高訓練價值[1]。理想情況下,受訓飛行員的對手應該都是合成實體,這樣就不需要角色扮演者和真實飛機來支持訓練。然而,為了達到較高的訓練價值,合成對手必須由高質量的行為模型控制,并表現出類似人類的行為。手工建立這樣的模型被認為是一項非常具有挑戰性的任務[2], [3]。
圖1. 空戰訓練系統的用戶。通過構建更智能的合成智能體,可以減少對人類訓練提供者的需求。
近年來,強化學習算法的性能得到了迅速提高。通過將強化學習與深度學習相結合,在復雜的控制任務[4]-[6]、經典的棋盤游戲[7]-[9]以及具有挑戰性的實時、多人計算機游戲[10],[11]中取得令人印象深刻的結果成為可能。這使我們相信,強化學習也可以成為構建空戰模擬中合成智能體行為模型的一個可行的選擇。有了這種方法,訓練系統的用戶就不需要明確地對智能體的行為進行編程,而是可以簡單地指定他們所需的目標和特征。然而,目前還沒有很多研究來評估空戰領域中最新的多智能體學習方法的性能。
在這項工作中,我們研究了如何在空戰模擬中使用多智能體深度強化學習來學習協調。在空戰領域,多個智能體的協調是很重要的,因為飛行員從來不會單獨飛行。我們的貢獻可以總結為以下幾點:
首先,我們討論了用于訓練飛行員的空戰模擬領域的強化學習算法的用例、設計原則和挑戰
其次,我們使用高保真模擬引擎,對有助于實現所確定的用例的方法進行了廣泛的實證評估。
具體來說,我們研究了空戰模擬場景中學習算法的兩個挑戰。1)用稀疏的獎勵學習,以及2)創建具有可調整行為的智能體。我們的實驗表明,在空戰的高維狀態空間中,課程學習可以促進稀疏獎勵的學習,而多目標學習可以產生具有不同行為特征的智能體,這可以刺激飛行員的訓練。
軍事決策在不同的領域--陸地、海洋、空中、太空和網絡--以及不同的組織層面--戰略、作戰、戰術和技術上發揮著關鍵作用。建模和仿真被認為是支持軍事決策的一個重要工具,例如,生成和評估潛在的行動方案。為了成功地應用和接受這些技術,人們需要考慮到整個決策 "系統",包括決策過程和做出決策的指揮官或操作員。
人工智能技術可以以各種方式改善這個決策系統。例如,人工智能技術被用來從(大)數據流中提取觀察結果,自動建立(物理/人類/信息)地形模型,產生對未來事件和行動方案的預測,分析這些預測,向人類決策者解釋結果,并建立人類決策者的用戶模型。
對于所有這些應用,人工智能技術可以在不同的情況下被使用,并且已經開始被使用,因此有不同的要求。在本文中,我們概述了人工智能技術和模擬在決策"系統"中的不同作用,目的是在我們的社區中促進對人工智能的綜合看法,并為用于軍事決策的各種人工智能研發奠定基礎。
軍事決策有多種形式。它發生在不同的領域--陸地、海洋、空中、太空、網絡--以及不同的組織層次[7]。例如,在戰略層面上,決策是否以及何時在一個特定的作戰區域內開始一項軍事任務。在作戰層面上,聯合部隊指揮官決定為某項行動分配哪些軍事要素,并指定在具體行動中尋求的預期效果。在戰術層面上,例如,海上任務組的反空戰指揮官決定由哪艘護衛艦來應對來襲的威脅。最后,在技術層面上,要決定在什么范圍內使用什么武器來消滅對手。
建模和仿真被認為是支持這些現場決策過程的一個重要工具(例如,見[3]的清單)。它提供了一種理解復雜環境和評估潛在行動方案有效性的手段,而不必使用現場測試。因此,借助于建模和模擬可以更安全、更便宜、更快速,而且可以更容易地測試不同的操作方式。此外,對于戰場上的軍事行動來說,廣泛地試驗軍事行動應該如何進行,甚至可能在道德上不負責任。因為,在指揮官可以決定不繼續按照同樣的戰術行動之前,就已經產生了意想不到的效果。
現代建模和仿真經常得到人工智能(AI)技術的支持。例如,用于仿真單個節點、組織和社會行為模型(見一些背景資料[13][4]),以獲得對對手合理和可能行為的洞察力。在這種行為洞察力的基礎上,可以為許多決策層面的軍事行動設計提供智能分析和決策支持。此外,人工智能技術被用來構建這些模型,與這些模型互動,并迅速分析大量的模擬結果數據。這里的技術進步非常多,例如,使用機器學習來構建更真實的行為模型[11],改善人機協作[5],對大量的模擬數據進行理解[10]。然而,人工智能技術只有在對決策者有用的情況下才能也應該被用于軍事決策。這意味著,只有在決策質量提高或決策過程變得更容易的情況下,才應將人工智能技術(在建模和仿真中)整合起來。
成功應用和接受用于決策支持的模擬仿真--可能建立在人工智能技術之上--取決于與主要軍事決策過程的互動和不斷學習([1])。決策者和分析員應該知道如何提出正確的輸入問題,以便通過建模和仿真來回答。然后,這些問題應該通過建模和仿真研究轉化為正確的輸出答案。因此,在各種互補的人工智能技術的支持下,應該對軍事決策過程和軍事模擬之間的互動有一個廣泛、全面的看法,并服從不同的功能要求。在本文中,我們概述了由人工智能技術支持的軍事仿真在決策"系統"中的不同作用,目的是在我們的社區內促進對人工智能的綜合看法,并為軍事決策的各種人工智能研發奠定基礎。
如引言所述,決策發生在不同的領域和不同的組織層面。在這里,我們提出了一個決策系統的示意圖,以提供一個關于如何通過仿真來支持決策的一般見解。這一觀點(圖1)來自于對多個決策過程的分析,如聯合定位[5]、作戰計劃[7]、海上反空戰[1],并與著名的OODA環[8]相結合。該觀點中的元素解釋如下。
圖1:由建模和仿真支持的軍事決策周期的系統觀點。
觀察:OODA循環的第一步是觀察,從廣義上講,就是觀察現實世界中正在發展和出現的事件和情況。觀察包括,例如,來自傳感器的(原始)數據,包括我們自己的眼睛和耳朵,以及來自報告、報紙和社會媒體的符號數據。還收集了來自高層指揮和控制實體的指導意見。這些數據由分析員處理,對鏡頭中的個體進行命名,計算某些Twitter標簽的出現次數,驗證某個事件是否真的發生,等等。根據[9],這可以被稱為情境意識的第一級:對當前情況下的元素的感知。
世界模型:在OODA環的觀察步驟中,已經開始了構建世界模型的過程,無論是隱性的還是顯性的。符合軍事決策觀點的世界模型的另一個名稱是共同行動圖。所有相關的概念都在世界模型中得到體現,包括不確定因素和假設。請注意,世界模型可以被仿真,即個體、平臺、團體或社會的行為可以隨著時間的推移而被預測,即使是在用戶的頭腦中隱含完成。
定位:在OODA循環的第二步,分析者使用他的專業知識,對觀察結果進行推理,形成假設,例如對手的意圖。通過這樣做,實現了對真實世界的深入理解[12],這反映在世界模型中(仍然是顯性或隱性的)。在態勢感知方面,這被稱為第2級(對當前形勢的理解)和態勢感知能力第3級(對未來狀態的預測)。在任何時候,推理的結果可能是世界模型結構是不充分的,例如,現實世界的一個方面被認為是不相關的,但最后發現是相關的。因此,世界模型需要被更新。
決定:決策者,可能是與分析員相同的人,將根據對現實世界的理解,考慮如何采取行動的選項。世界模型的預測能力被用來演繹各種情景,讓人了解什么是理想的行動方案,什么不是,或者讓人了解空間和/或時間上的關鍵點,這樣就可以對這些關鍵點給予額外考慮。當然,如果世界模型是隱含的,這都是決策者的精神努力。此外,對于感興趣的現實世界系統的預測行為,可以得出的結論的精確性和/或確定性有很大不同:從精確的路線,到可能的戰略和理論的廣泛指示。
行動:在OODA-環的這一步,行動被執行。這些行動發生在真實世界中,然后一個新的OODA-環開始觀察是否需要重新考慮已經做出的決定。另一個行動可以是向 "較低層次"的決策過程下達命令,例如,讓下屬單位計劃和執行他們所得到的任務。這就是不同組織層次的決策過程的互動方式。還要注意的是,盡管每個組織層面的世界模型都與真實世界相聯系,但這些世界模型的結構(即被認為是相關的)可能是不同的。
從概念上講,在上述的決策過程中引入模擬(實際上首先是建模的巨大努力)是很直接的。在第一步和第二步中,建立了世界相關部分的模型,在以后的時間里,它被用來評估許多不同的情景,分析由此產生的結果,并根據其結論做出決定。正如后面將顯示的那樣,人工智能技術的作用與建模和模擬的使用有很大關系。
雖然從概念上來說,納入仿真模擬和人工智能技術是很簡單的,但為了給行動提供真正的附加值,它需要被嵌入到具體的決策過程中。而每個決策過程都是不同的,有不同的時間限制,不同的行動者,在不同的操作環境中。這將對開發使用的解決方案,包括人工智能技術,提出不同的功能要求。此外,根據具體的作戰決策環境,應用人工智能技術的附加值(或缺乏附加值)將是不同的。在下一節中,我們將對一個具體的案例進行進一步的探索,盡管肯定不是詳盡的努力,以允許對這種系統在這個過程中可能具有的不同角色進行更通用的識別。
本節提供了一個關于如何利用仿真和人工智能技術來支持作戰層面上的(蓄意)聯合目標定位決策的案例研究。對于每個想法,都有以下描述:被加強的行為者(決策者)和/或產品,人工智能如何提供支持,以及使用這種形式的支持的附加值是什么。請注意,這個案例研究的目的是為了更好地了解人工智能技術應用的廣度,因此,目標不是完全涵蓋所有的可能性,也不是過于詳細。這種類型的案例研究已經確保了可以得出初步的功能要求,人工智能技術和智能建模與仿真應該應用于此。
圖2顯示了北約盟國聯合出版物3.9中的聯合瞄準決策周期,其中強調了五個想法。
圖2--來自北約盟國聯合出版物3.9的聯合目標定位周期,JFC=聯合部隊指揮官,JTCB=聯合瞄準協調委員會,JTL=聯合瞄準清單,TNL=目標
想法1--基于AI的目標系統分析的所有來源分析。第一個想法是支持目標小組的成員在聯合目標定位周期的第二階段參與目標系統分析,進行目標開發。例如,假設從第一階段開始,就打算通過瞄準對手的石油生產來擾亂其資金能力。在第二階段,分析人員將研究石油生產的目標系統,以確定油井、煉油廠、管道、重要的道路,也許還有相關的關鍵人物,等等,基于他們擁有的所有來源(圖像、信號情報、人類情報,等等)。
人工智能技術可以協助人類分析員建立 "目標系統模型",即通過采用模式識別算法來處理大量的所有來源的信息,通過使用推理算法將信息碎片組合成一個結構化和連貫的整體。分析傳入信息的算法可能--經過增量的人工智能驅動的創新--也能夠識別尚未反映在目標系統模型中的新概念,然后可以自動添加到模型中。另一種可能性是創建一個 "虛擬分析師"(見圖3),通過不斷挑戰假設、假說和人類偏見來協助人類分析師,這需要額外的用戶建模和可解釋的AI技術。
圖3:人類和虛擬分析員,一起解釋數據,推理信息和知識,以建立一個目標系統模型。
這個想法的潛在附加值首先體現在完整性上,更多的目標可以呈現給人類分析員--它仍然可以為交叉檢查的目的做最后一步的目標審查。因為所有來源的情報都被整合到目標識別決策中,所以可以得出更具體的目標信息。識別算法經過訓練后,與基于人眼從數據中識別目標時相比,可以更快更及時地進行識別。最后,該算法可以明確地轉向識別不同類型的目標,這些目標可能并不都在人類分析員的經驗或觀察能力范圍內。
想法2--通過算法識別來自目標系統分析的優先目標。第二個想法是支持從一個給定的目標系統分析中識別優先目標。這有助于目標支持小組成員得出一個聯合的優先目標清單,該清單是在聯合目標定位周期的第二階段,即目標開發階段制定的。人工智能技術的支持始于將目標系統分析(如果還沒有的話)轉化為計算機可理解的形式,該形式由功能關系連接的實體組成,并由目標任務的目標支持。然后,在相關的時間范圍內計算直接或間接瞄準不同實體所產生的效用(例如,效果和效果的持續時間)。
然后,最終結果可以由人類分析員檢查,該分析員可能會重新引導算法的某些部分,以確保最終結果選擇的優先目標盡可能地滿足和平衡任務目標。另一種可能性是,分析表明,對目標系統的某些部分還沒有足夠的了解,無法做出某種決定,然后發出新的情報請求,以減少這種不確定性。
在這種情況下,使用人工智能技術的附加價值首先體現在通過完整地確定優先事項,包括最大限度地實現任務目標,同時最大限度地減少負面問題,從而更好更快地確定優先次序。這種全面的分析可能會導致原始的目標選擇,在這種情況下,會發現反直覺但非常有效的目標。目標優先級的可追溯性增加了,因為目標選擇問題的算法規范以及積極和消極的相關功能迫使決策者在激發他們的偏好時完全明確。
想法3--能力和優先目標的自動映射。與目標開發(第二階段)密切相關的是第三階段的能力分析。第三個想法是協助,仍然支持目標支持小組的成員,找到最適當的(致命和非致命)能力的最佳同步組合,可以應用于產生所需的物理和心理效果。使用模擬和人工智能技術來自動生成和播放高水平和低水平的行動方案,可以獲得對計劃的優勢、機會、弱點和威脅的深刻理解。當然,只有在與人類分析員和決策者密切合作的情況下,建立這樣的理解才是有用的,這就需要有人類意識的 "虛擬分析員 "技術。
想法4--計算機輔助的穩健和適應性部隊規劃和分配。在聯合定位的第四階段,能力分析的結果被整合到進一步的行動考慮中,推動聯合部隊指揮官對目標的最終批準。仿真和人工智能優化技術可用于尋找稀缺資源對目標或其他任務的最佳分配。什么被認為是 "最好的 "可以是不同的,例如,爭取最大的效果、安全、穩健、靈活,或這些和更多因素的任何組合。這可能會提供原始的規劃和分配方案,從人類分析者的角度來看,這些方案部分是反直覺的,但卻富有成效。智能優化算法可以幫助確定時間和/或空間上值得監測的關鍵點。而且,如果可以實時跟蹤進展,在事件或機會實際發生之前就可以立即生成重新分配方案,在時間緊迫的情況下減少決策時間。
想法5--自動評估軍事行動績效措施。在聯合定位的最后階段,收集和分析數據和信息,以確定計劃的行動在多大程度上得到執行(績效的衡量),以及達到預期的效果(效果的衡量)。因為這種類型的分析與其他階段的分析基本相似(即需要觀察和理解),所以在這里采用的模擬和人工智能技術可以被重復使用。例如,"目標系統模型"可以用來事先確定哪些措施或措施的組合最能說明性能和/或成功,也許還要考慮到其他因素,如效果的可測量性和延遲性。這些見解可用于指導例如戰斗損失評估工作。算法可以自動產生多種假設,當數據/信息可用時,"虛擬分析師"可以協助對這些假設和信息進行推理,幫助人類分析師以結構化的方式更好地解釋復雜的情況。
在本節中,我們將討論人工智能技術在軍事決策中可以發揮的作用,并將這些作用與前面介紹的軍事決策系統聯系起來。這些作用是由上面的案例研究綜合而成的。不同的作用是沿著兩個層次結構的,從上到下:在 "過程"層面,不同但連貫的步驟/階段被執行;在 "個體"層面,人類(或團隊)負責執行決策過程的特定步驟。
在整個決策過程的層面上,有多個步驟可以區分。在前面介紹的決策系統觀點中,這些步驟是觀察、定位、決定和行動。在聯合定位案例研究中,這些對應于六個階段,由不同的人在不同的時間執行。在這個層面上,我們為人工智能技術定義了四個功能角色,以支持決策過程。
感知:這個角色中的人工智能技術,主要以模式識別的形式,幫助處理大量的數據,如在圖像中尋找人,檢測數據流中的異常情況等。
態勢理解:這個角色的功能是實現對當前或假設的作戰環境的理解[12],從而描述所有相關實體、它們之間的關系以及不可觀察的屬性,如它們的野心和目標。例如,對關于最近敵對活動的現有信息進行推理,結合關于他們的理論的一般知識,可以用來產生關于他們最可能的意圖的假設。
計劃生成:在這個角色中,人工智能技術,例如搜索和優化,被用來生成旨在達到(或避免)某種目標情況的計劃、策略和行動方案。處理元標準,如計劃的穩健性或情況的實用性也是這個作用的一部分。顯然,在許多情況下,不確定性是行動環境所固有的,因此不能被忽視。盡管如此,對當前形勢的理解越好,預測能力就越強。
學習:扮演這一角色的人工智能技術被用來更新有關作戰環境的知識。例如,在某個時間點,人們可能會發現一個被認為是正確的關于敵人理論的假設不再有效了。為了能夠保持正確的理解,這種新知識應該反映在所有其他決策步驟中。
在單個節點層面上,決策過程的單一步驟被執行,通常由一個或一組人類分析員和/或決策者負責。無論這一步需要什么,人工智能技術都可以在不同的合作角色中被使用,以支持人類。
專家系統支持:在這個角色中,支持的形式就像一個經典的專家系統,以知識和優化結果的形式向人類決策者或分析員提供建議。重要的考慮因素是,例如,如何以人類能夠接受的方式向其提供建議。對可解釋人工智能的研究可能是一個方向。
虛擬團隊成員:在這個角色中,人工智能技術被用來在人類和支持系統之間創造一種更平等的互動關系,積極為一個共同的目標工作。例如,虛擬團隊成員可以通過提出問題使假設明確化或挑戰偏見來幫助做出決定的(認知)過程。人類-人工智能的研究可能是一個追求的方向。
自主決策:決策過程中的其他步驟的互動,專家系統和虛擬團隊成員支持的考慮同樣有效。例如,在其他決策中的人類需要能夠推斷出一個自主系統。
圖4顯示了在軍事決策系統視圖中繪制的人工智能的七個角色。當使用模擬和人工智能來支持決策過程時,應該始終考慮這些不同的角色是如何互動的,無論是在過程層面還是在個人層面。例如,在聯合目標定位的過程層面上,第二階段包括定位(目標系統分析)和決定(為達到預期效果而瞄準什么)。第三階段也包括定位(自身能力)和決定(如何實現預期效果)。這些階段共享相同的世界模型,在這個過程中引入人工智能支持將推動這些步驟的合并,這不是不可想象的。在個體層面上,例如再次考慮第2階段,分析員可以得到綜合態勢理解、規劃生成和學習技術的支持,以及虛擬團隊成員和專家系統支持技術的任何組合。
圖4:由建模和仿真支持的軍事決策周期的系統視圖,其中人工智能技術的功能(黃色)和協作(綠色)作用被描繪出來。
在本文的第一部分,我們介紹了軍事決策的系統觀點,主要基于OODA循環,其中我們介紹了世界模型,作為向整個決策周期提供建模和仿真支持的核心手段。接下來,從我們的聯合目標定位案例研究中,我們推斷出人工智能可以為軍事決策做出貢獻的七個功能性和協作性角色。這些角色對應于決策步驟,或者對應于如何向負責該過程步驟的人提供支持。最后,我們將這些人工智能角色整合到決策系統視圖中。
本文的目標是為我們社區內人工智能的綜合觀點做出貢獻,并為軍事決策的人工智能各種研發奠定基礎。在開發支持軍事決策的模擬和人工智能時,我們建議同時考慮過程層面和單個節點層面。在過程層面上,通過使用建模和仿真可以獲得好處。在單個節點層面上,為人類分析員和決策者提供實際支持,人工智能技術可以通過不同的角色組合對此作出貢獻。鑒于決策過程的各個步驟都是不同的,并且提出了不同的要求,履行這些不同角色的人工智能技術需要作為一個整體來開發。
我們相信,隨著對這一主題的更多研究,軍事決策的速度和質量都可以得到改善。然而,非常重要的是,要持續關注特定的未來人工智能應用的附加值,以及研究這些應用可能對,例如,負責該過程的人的所需技能,甚至該過程本身的影響。最后需要的是一個系統,它的存在是因為它可以建立,而不是有人幫助。對于這一點,應該更普遍地回答如何限定然后量化應用人工智能進行具體軍事決策應用的附加價值的問題。這樣的見解反過來又會成為關于人工智能用于軍事決策的集體技術路線圖的寶貴基礎。
[1] Bloemen, A., Kerbusch, P., van der Wiel, W., Coalition Force Engagement Coordination, TNO Report TNO-2013-R12117, 2015.
[2] Connable B, Perry W, Doll A, et al. Modeling, Simulation, and Operations Analysis in Afghanistan and Iraq. Santa Monica, CA: RAND, 2014.
[3] Davis P., Kulick J., Egner M. Implications of Modern Decision Science for Military Decision-Support Systems. Santa Monica, CA: RAND, 2005.
[4] Kunc, M., Malpass, J., White, L.(2016). Behavioral Operational Research, Theory, Methodology and Practice. Palgrave Macmillan, London.
[5] Langley, P., Meadows, B., Sridharan, M., Choi, D. (2017). Explainable Agency for Intelligent Autonomous Systems. Proceedings of the Twenty-Ninth AAAI Conference on Innovative Applications (IAAI-17).
[6] NATO Allied Joint Doctrine For Joint Targeting AJP 3.9(B), 2015.
[7] NATO Allied Command Operations. Comprehensive Operations Planning Directive Interim V2.0.
[8] “OODA loop.” Wikipedia, The Free Encyclopedia. 10 Mar. 2018.//en.wikipedia.org/wiki/OODA_loop
[9] “Situation Awareness.” Wikipedia, The Free Encyclopedia. 17 Mar. 2018.
[10] Smit, S., Veldhuis, G., Ferdinandus,G., et al. KaV Advanced Visual Analytics, TNO Report DHWELSS-, 2016.
[11] Toubman, A., Poppinga, G., Roessingh, J. (2015). Modeling CGF Behaviour with Machine Learning Techniques: Requirements and Future Directions. Proceedings of Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2015.
[12] “Understanding.” Wikipedia, The Free Encyclopedia. 18 Apr. 2018.
[13] Zacharias, G., MacMillan, J., van Hemel, S. (2008). Behavioral modeling and simulation: From individuals to societies. National Research Council, National Academies Press.
本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎。
【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據
在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。
這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。
新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。
在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。
第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。
對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。
通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。
第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。
為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。
在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。
當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。
根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上。
就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。
第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。
在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。
在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。
當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。
創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。
一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。
移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。
圖1:一名士兵在MCTC中訓練[35]
我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。
圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。
記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。
提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。
在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。
圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。
圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:
1.Boxer進入射擊位置所需的時間。
2.在步兵開始移動之前,Boxer提供壓制火力的時間。
3.步兵移動到建筑物所需的時間。
4.步兵到達建筑物和Boxer出發之間的時間間隔。
5.清理建筑物并從步驟1重新開始所需的時間。
在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。
從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。
圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。
Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。
圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)
對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。
表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。
圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)
本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。
模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。
除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。
模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。
手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。
模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。
前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。
由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。
我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。
周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。
在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。
作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。
圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。
圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。
我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。
因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。
表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。
表2:預測士兵下一個狀態的量化
為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。
圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。
通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。
我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。
本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。
我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。
在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。
這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。
低速、慢速和小型 (LSS) 飛行平臺的普及給國防和安全機構帶來了新的快速增長的威脅。因此,必須設計防御系統以應對此類威脅。現代作戰準備基于在高保真模擬器上進行的適當人員培訓。本報告的目的是考慮到各種商用 LSS 飛行器,并從不同的角度定義 LSS 模型,以便模型可用于LSS 系統相關的分析和設計方面,及用于抵制LSS系統(包括探測和中和)、作戰訓練。在北約成員國之間提升 LSS 能力并將 LSS 擴展到現有分類的能力被認為是有用和有益的。
【報告概要】
在安全受到威脅的背景下考慮小型無人機系統 (sUAS)(通常稱為無人機)時,從物理和動態的角度進行建模和仿真遇到了一些獨特的挑戰和機遇。
無人機的參數化定義包括以下幾類:
描述無人機飛行動力學的分析模型在數學上應該是合理的,因為任務能力在很大程度上取決于車輛配置和行為。
考慮到剛體在空間中的運動動力學需要一個固定在剛體本身的參考系來進行合適的力學描述,并做出一些假設(例如,剛體模型、靜止大氣和無擾動、對稱機身和作用力在重心處),可以為 sUAV 的飛行動力學開發牛頓-歐拉方程。
在檢測 sUAS 時,必須考慮幾個現象,例如可見波范圍內外的反射、射頻、聲學以及相關技術,如被動和主動成像和檢測。
由于需要多個傳感器檢測 sUAS,因此有必要考慮識別的參數以便針對不同類型的檢測器對特征進行建模。此外,對多個傳感器的依賴還需要在信息融合和集成學習方面取得進步,以確保從完整的態勢感知中獲得可操作的情報。
無人機可探測性專家會議表明了對雷達特征以及不同無人機、雷達和場景的聲學特征進行建模的可能性,以補充實驗數據并幫助開發跟蹤、分類和態勢感知算法。此外,雷達場景模擬的適用性及其在目標建模和特征提取中的潛在用途已得到證實。
然而,由于市場上無人機的復雜性和可變性以及它們的不斷增強,就其物理和動態特性對無人機簽名進行清晰的建模似乎并不容易。
sUAS 特性的復雜性和可變性使得很難完成定義適合在仿真系統中使用的模型的任務。這是由于無人機本身的幾個參數,以及考慮到無人機的所有機動能力和特性所需的飛行動力學方程的復雜性。
此外,sUAS 特性的復雜性和可變性不允許定義用于評估相關特征的參數模型。
圖1 無人機類別與其他類別/參數的關系(part 1)
圖2 無人機類別與其他類別/參數的關系(part 2)
圖3 參考坐標系
【報告目錄】