訓練一名步兵軍官在軍事行動中選擇合適的排陣型,傳統上需要大量的訓練資源。步兵訓練將受益于在普遍可用的平臺上進一步發展高容量的訓練。2018年,創建了一個基于計算機的模擬排級編隊決策任務(PFDT),并利用認知與績效目標訓練干預模型(CAPTTIM)來確定哪些參與者達到了最佳決策以及何時發生。本研究在該工作的基礎上,在兩個流行的平臺上完善和測試PFDT。PFDT包括32個場景,每個場景隨機呈現四次,總共128次試驗。在這些場景中,有五個因素被操縱,確認了最佳、可接受和差的決策反應。基礎學院和海軍研究生院的27名學生在三種平臺中的一種完成了PFDT:平板電腦、虛擬現實(VR)或帶編隊的VR(為參與者提供在虛擬背景上描繪編隊的能力)。CAPTTIM表明,在達到最佳決策所需的試驗數量上不存在平臺效應。此外,參與者的經驗水平并不影響專家或新手在對方之前達到最佳決策。因此,PFDT是一個可行的軍事訓練模擬器,無論所使用的技術平臺或步兵訓練的數量如何。
這個項目利用RL的一些最新進展來開發實時戰略游戲的規劃器,特別是MicroRTS來代替Stratagem計劃的兵棋。PI實驗室的這些進展之一被稱為強化學習作為預演(RLaR)。在此之前,RLaR只在玩具基準任務中進行了評估,以確定其在減少樣本復雜性方面的功效。這個項目為行為者-評論者架構開發了RLaR,并首次將其應用于具有不完整信息的復雜領域,如MicroRTS。本項目中應用的另一項技術源于最近在復雜的《星際爭霸II》游戲中多智能體學習的成功,特別是多階段訓練的架構,在訓練穩健策略的中間階段發展聯盟和聯盟開拓者策略。
我們針對MicroPhantom--最近MicroRTS比賽的亞軍--對RLaR進行了訓練,結果表明它能夠對這個對手進行有效的計劃,但使用的樣本比相關基線少。另外,我們使用4個階段的訓練方案在自我博弈中訓練RLaR,并針對MentalSeal(冠軍程序)和MicroPhantom評估了訓練后的策略。雖然該策略在面對MicroPhantom時再次顯示出良好的性能,但它在面對MentalSeal時卻沒有表現得很好。根據先前的初步發現,針對MentalSeal的訓練是非常緩慢的,我們推測需要大量的訓練時間,而不是我們在這個項目的延長期內能夠投入到這個步驟中的。
在和平時期,軍事績效評估的重點是戰備狀態。這篇論文的重點是應用運籌學的工具來告知和優化戰略設計決策以及與軍事準備有關的行動決策。特別是,我們使用各種優化技術來確定如何加強裝備和人員準備,并量化人員準備和領導人發展之間的重要權衡。
第二章關注直升機維修調度,其動機是美國防部對部件健康的預測分析的投資。開發了一個索引式的決策策略,將基于信號的搶先維修部件與整個多部件系統的經常性基于時間的預防性維修任務相結合。研究結果強調,產生部件健康信號的預測模型必須有極低的假陽性率,在用例設置中為5%或更低,否則搶先維修決策政策實際上會損害設備的準備狀態。
第三章對職業道路設計政策對人員準備狀態的影響進行了建模。為了培養未來任務的領導者,軍隊實施了職業道路設計政策,限制了個人任務的順序和時間。過于嚴格的政策會損害人員的準備狀態,即使整個系統有足夠的人員來完成每個任務。開發了一個混合整數線性規劃公式和一個受列生成啟發的算法,以確定職業道路設計政策的具體變化,從而提高戰備狀態。對于一個特定的美國陸軍軍官職業領域,展示了職業道路設計政策的一個小變化如何能提供9%的人員準備度的提高。
第四章考慮了美國陸軍最近更新的派任程序,其中包括為每年成千上萬的軍官轉到新工作崗位的匹配市場。當可用的工作崗位多于軍官時,人事經理會評估人員的準備情況,以決定哪些工作崗位進入市場,然后通過延遲接受算法來決定分配,以使申請人的滿意度最大化。我們開發了一個混合整數公式,將這些決策結合起來,可以用來生成人員準備度和申請人滿意度之間的帕累托前沿。然后,開發了一種可行的解決方法,使用局部搜索算法找到一個近似的帕累托前沿。使用了美國陸軍2020年分配市場的數據,以表明2%的準備度下降如何為軍官分配滿意度的提高提供了10-20%的空間。
訓練一名步兵軍官在軍事行動中選擇適當的排隊,傳統上需要投入大量的訓練資產。步兵訓練將受益于在普遍可用的平臺上進一步發展高容量的訓練。2018年,創建了一個基于計算機的模擬排隊編隊決策任務(PFDT),并利用認知與績效目標訓練干預模型(CAPTTIM)來確定哪些參與者達到了最佳決策以及何時發生。本研究在該工作的基礎上,在兩個流行的平臺上完善和測試PFDT。PFDT包括32個場景,每個場景隨機呈現四次,總共128次試驗。在這些場景中,有五個因素被操縱,一個中小企業確認了最佳、可接受和差的決策反應。基礎學院和海軍研究生院的27名學生在三種平臺中的一種完成了PFDT:平板電腦、虛擬現實(VR)或帶編隊的VR(為參與者提供在虛擬背景上描繪編隊的能力)。CAPTTIM表明,在達到最佳決策所需的試驗數量上不存在平臺效應。此外,參與者的經驗水平并不影響專家或新手在對方之前達到最佳決策。因此,PFDT是一個可行的軍事訓練模擬器,無論所使用的技術平臺或步兵訓練的數量如何。
訓練一名步兵軍官在軍事行動中選擇適當的排隊,傳統上需要投入大量的訓練資產。步兵訓練將受益于在普遍可用的平臺上進一步發展高容量的訓練。2018年,創建了一個基于計算機的模擬排編隊決策任務(PFDT),并利用認知與績效目標訓練干預模型(CAPTTIM)來確定哪些參與者達到了最佳決策以及何時發生。本研究在該工作的基礎上,在兩個流行的平臺上完善和測試PFDT。PFDT包括32個場景,每個場景隨機呈現四次,總共128次試驗。在這些場景中,有五個因素被操縱,一個中小企業確認了最佳、可接受和差的決策反應。基礎學院和海軍研究生院的27名學生在三種平臺中的一種完成了PFDT:平板電腦、虛擬現實(VR)或帶編隊的VR(為參與者提供在虛擬背景上描繪編隊的能力)。CAPTTIM表明,在達到最佳決策所需的試驗數量上不存在平臺效應。此外,參與者的經驗水平并不影響專家或新手在對方之前達到最佳決策。因此,PFDT是一個可行的軍事訓練模擬器,無論所使用的技術平臺或步兵訓練的數量如何。
自主和半自主系統在一個系統的框架內運行,利用其自身的感知、認知、分析和執行行動的能力來實現其目標。無人系統對美國國防部(DoD)的采購程序提出了重大挑戰,該程序是為開發和部署人在環型能力而建立的。本論文的目的是對通過軍事采購程序開發半自主和自主系統的挑戰進行分析,以確定增加項目成功的可能性所需的最佳做法和趨勢。
分析的第二個目標是比較和對比具有自主能力的系統的測試和評估方法。測試和評估過程的目的是使決策者能夠管理技術風險,并在做出實戰決定之前評估能力的強大和成熟程度。自主系統需要嚴格的測試/制造策略,對大多數項目來說,這將導致成本超支和進度違反。此外,試圖跟上快速變化的技術步伐超過了美國防部使用尖端技術的成熟系統的能力。
圖12。DoDI 5000.02自適應采購框架。
隨著海軍特種作戰從過去20年的反恐行動轉向有爭議環境中的同行競爭,他們需要地面部隊指揮官(GFC)為減輕認知過載、運用綜合效應和平衡戰略任務風險做好準備。如果地面部隊指揮官的培訓能夠以合格的理論標準為基礎,那么就可以通過系統化的培訓管道來減少任務的剩余風險和部隊的風險,這可以通過整合目前可用的虛擬現實技術來增加、啟用和加強。GFC崗位傳統上是一個批判性思維、決策和應急管理的角色。隨著戰場的發展,GFC將有比過去更多的資產需要控制,更多的突發事件需要計劃。這項研究評估了當前的GFC培訓和虛擬現實生態系統。海軍特戰界應采用地面部隊指揮官的虛擬現實訓練器,因為它將使GFC在零威脅的環境下進行反復訓練。
由于現行訓練準則的限制,海軍特種作戰社區的地面部隊指揮官沒有充分發揮他們的潛力。初級軍官為成為一名地面部隊指揮官總共接受了八周的正式培訓:六周在初級軍官培訓課程,兩周在地面部隊指揮官課程。初級軍官被期望成功地計劃和執行現實世界的行動,同時只完成極少的現實訓練場景。海軍特戰部隊的士兵至少屬于許多類別中的一種;他們是突破者、聯合終端攻擊控制者、狙擊手、偵察負責人或通信專家。這些專業中的每一個都有正式的訓練和持續演習,可以持續八個星期。訓練也是年復一年地進行,而地面部隊指揮官通常只經過一次正式訓練。想象一下,在未來,海軍特種作戰初級軍官準備在明天的戰爭中帶領各排對抗同行的競爭對手。挑戰將是巨大的,因為地面部隊指揮官沒有足夠的專門訓練時間來完善成為有效的戰斗領導人所需的技能。
本頂點研究主要關注以下內容。海軍特種作戰部如何能更好地準備和訓練其地面部隊指揮官,同時整合不斷進步的虛擬現實技術?通過海軍研究生院國防分析系和計算機科學系的共同努力,這項研究開始在一個合成環境中設計場景,初級軍官最終將能夠使用這些場景作為現有地面部隊指揮官培訓的補充。
虛擬現實在軍隊中并不是一個新概念;不同軍種都在某種程度上使用虛擬現實來加強訓練。海軍特種作戰部甚至有一個虛擬現實系統,是其JTACs的一個記錄項目。該記錄項目證明了特種作戰司令部致力于虛擬現實技術的采用,以確保其操作人員得到最好的培訓質量。這項研究不是為了創造一種新的虛擬現實技術,而是為了了解虛擬現實生態系統,然后為海軍特種作戰找到一種合適的采用方法。虛擬現實生態系統正在成倍增長,正因為如此,倫理和道德正在成為其開發者和使用者中更受歡迎的話題。隨著虛擬現實技術越來越容易被終端用戶使用,在短期內需要進行更多關于虛擬現實技術對個人行為的長期影響的研究。
地面部隊指揮官虛擬現實訓練器并不打算取代現有的培訓或正式課程。它只是作為一種補充。評價是,沒有足夠的專門時間讓初級軍官在成為地面部隊指揮官方面得到有意義的重復訓練。如果虛擬現實訓練器要對海軍特種作戰指揮部產生積極的影響,初級軍官的訓練就需要修改。建議在初級軍官培訓課程中初步實施這項技術,而不是干擾正在準備進行單位級別訓練和部署的海軍特種作戰排。初級軍官在這一階段的訓練中處于學生狀態,還沒有被引入深入的任務規劃或復雜的決策練習。向學生介紹虛擬現實訓練器將提供充足的時間來測試硬件和軟件,然后再將其用于更嚴峻的情況。
在海軍特戰基礎訓練司令部和海軍研究生院的模擬虛擬環境和模擬實驗室之間建立一個反饋回路,將使未來的場景發展和持續的伙伴關系成為可能。對未來研究和發展的建議包括以下內容:海軍研究生院的Bucklew小組和海軍特種作戰基本訓練司令部之間繼續合作,與工業界合作以加快合成環境訓練場景的創建,以及對特種作戰部隊的虛擬現實訓練的有效性進行正式評估。
美海軍陸戰隊長期以來一直使用戰術決策游戲(TDG)來訓練和評估領導和決策能力。使用紙筆或干擦板的陳舊過程需要一個主題專家在場,以評估和評價每個海軍陸戰隊員的演習計劃,并對他們的演習計劃提供即時反饋。這個過程很耗時,而且不允許海軍陸戰隊員進行必要的演練和集訓,以建立他們在各種情況下的直覺決策并獲得經驗。無論任務如何,海軍陸戰隊要求領導者在戰斗中取得成功,要做好準備,即使是在第一次遇到這種情況時也要采取行動。
基于計算機的TDG被設計為允許海軍陸戰隊員在時間有限的環境下,在未知的地形和不同的敵人情況下,通過連續的重復練習來獲得排級演習的經驗。這個系統使海軍陸戰隊員能夠獲得他們需要的重復訓練,以建立他們的決策技能,并補充教官指導的訓練。使用重復測量設計,數據表明,使用基于計算機的TDG縮短了海軍陸戰隊員的決策周期,并顯示出通過快速重復選擇正確機動路徑的準確性有所提高。
研究問題1:通過計算機模擬訓練排級決策,能在多大程度上縮短從數據收集到決策的周期?
HA1: 有效的訓練將體現在參與者在規定的時間內為每個場景選擇可接受的決定(70%的分數),μ>0.70。
HA2:參與者在整個培訓迭代過程中,完成TDG的平均時間減少,?μtime < 0。
研究問題2:基于計算機的戰術決策游戲(TDG)在多大程度上是一種可用的戰術決策培訓設備?
一系列因素(射程空間減少、空域限制、武器系統可用性、缺乏目標模擬能力、敵對能力監測)正在推動北約向分布式合成訓練過渡。為了幫助實現這一轉變,北約科技組織(STO)成立了MSG-165任務組,負責為聯合和聯盟空中行動通過分布式仿真(MTDS)執行任務訓練。
MTDS能力的發展并不局限于MSG-165的工作;事實上,它是北約的智能防御計劃之一,由美國贊助,因此在各個層面都有很好的知名度,但仍然未能取得必要的進展。雖然仍有一些挑戰,但該小組迄今為止所開展的工作已經為北約現有的其他合成訓練問題提供了解決方案。這些都體現在文件中,包括:
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
建立MTDS能力驗證演習,稱為 "斯巴達勇士20-9"(SW 20-9)。SW20-9是對以前“斯巴達勇士”方案的修改,是一個由美國空軍-非洲作戰中心(UAWC)協調的多邊參與機會,通過北約機密級別的聯合戰斗實驗室(CFBL)網絡為聯盟伙伴提供持續的連接,進行日常的、以聯盟為中心的、由單位領導的訓練。
制定MSG-165關于如何利用MTDS來支持北約空中作戰訓練的設想。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
本文將強調在建立一個共同的北約聯合MTDS環境方面所取得的成就。
Arjan Lemmers是英國皇家海軍陸戰隊的高級項目經理。他是北約MSG-165任務組MTDS的聯合主席,在國際分布式任務訓練計劃方面有長期經驗。Arjan也是機載嵌入式訓練系統和LVC互操作性方面的專家。Arjan領導著這個領域的幾個研發項目,并且是幾個國際社區中這些主題的主要參與者。
Clark Swindell是美國空軍作戰中心(UAWC)的建模和仿真主管。他在通過聯合模擬提供分布式訓練方面有豐富的經驗,是NMSG-165的美國國家負責人。克拉克的經驗主要集中在大規模演習,使用聯合模擬,如JLVC,JLCCTC和BLCSE,這些都是使用分布式仿真和玩家的位置,以及整合LVC互操作性和合成環境。
Richard Hemmings是亨廷頓-英格爾斯工業公司(HII)的承包商,是美國空軍作戰中心(UAWC)的LVC集成和開發負責人。最初,他在UAWC作為操作主題專家(SME)和多國LVC演習的項目官員工作,后來他被調到 "未來計劃 "工作,負責整合和開發。作為專家加入北約MSG-165任務組,理查德幫助領導UAWC的工作,主持驗證演習。
北約和各國都需要進行聯合的集體訓練,以確保任務準備就緒。一系列的因素(射程空間的減少、空域的限制、武器系統的可用性、目標模擬能力的缺乏、敵對能力的監測)促使北約向分布式合成訓練過渡。為了幫助實現這一轉變,北約科技組織(STO)成立了MSG-165任務組,負責為聯合和聯盟空中行動通過分布式仿真(MTDS)執行任務訓練的增量實施。
本文將強調在建立一個共同的北約聯合MTDS環境方面取得的成就。它首先解釋了北約MTDS能力的背景,以及之前為實現這一能力所做的努力。然后,它提出了訓練目標,并描述了實現這一即將到來的重要訓練能力的步驟。隨后是MTDS原則的定義,為多個利益相關者的觀點提供要求和標準。這促成了MTDS參考架構,它提供了一個符合上述架構原則的通用和可重復使用的描述。在下一部分中,考慮了為聯盟集體訓練部署MTDS跨域安全解決方案時應考慮的安全問題。本文最后對斯巴達勇士20-9演習進行了展望,該演習被用作北約MTDS能力的驗證演習。
合成能力已經成為滿足北約軍事力量作戰訓練需求的一個重要工具。新的系統和平臺正變得越來越復雜,需要更多的準備時間來使用。技術能力的提高和成本的降低,再加上環境限制的增加和對實戰活動的敵對(電子)監控能力的提高,使得合成訓練的使用更具吸引力。因此,通過分布式仿真任務訓練(MTDS)實現的集體訓練(CT)對北約和成員國的準備工作變得越來越重要。許多成員國正朝著更多地使用先進的模擬進行任務訓練和采用國家MTDS能力的方向發展,但北約目前還沒有一個集體的MTDS能力來利用這些發展進行聯盟CT。
過去,北約在這一領域采取了一些舉措,從2000年開始進行了關于MTDS的SAS-013研究(NATO RTO SAS-013, 2004)。這項研究確定了參與國的空勤人員任務訓練的做法和局限性,并確定了先進的分布式仿真是否能加強北約飛行員和空勤人員的訓練。它提出了未來的方向,將促進北約空勤人員培訓和任務演練的分布式仿真能力的發展。這在2004年的培訓示范演習First WAVE中得到了推進,即 "虛擬環境中的第一個作戰人員聯盟"(NATO RTO SAS-034,(2007)。第一次波浪演習沒有遇到不可克服的技術障礙,并證實MTDS可以提供一個重要的新能力來滿足北約的任務培訓需求。MTDS工作組建議,北約和聯合國應認可MTDS的潛力,并共同努力將MTDS推進到作戰能力。第一波倡議的后續是北約SMART(2007年)、北約現場、虛擬、建設性(LVC)(2010年)項目,以及2011-2012年北約工業咨詢小組(NIAG)關于空中聯合任務訓練的分布式仿真研究小組(NIAG SG 162,2012)。這些研究為北約MTDS行動概念(CONOPS)的發展提供了越來越清晰的思路。然而,沒有一項研究提供了持久的MTDS能力,目的是支持作戰人員為未來行動實現任務準備。鑒于演習預算的減少,可用于實戰演習的資產的減少,以及現實模擬復雜威脅環境的難度的增加,北約缺少一種具有成本效益的手段來提高未來聯合作戰的集體行動準備能力。
北約建模與仿真小組(NMSG)的任務是 "開發和利用建模與仿真(M&S),使聯盟及其合作伙伴受益"。上述考慮是NMSG在2013年啟動MSG-128任務組 "通過分布式作戰逐步實施北約任務訓練"(NATO STO MSG-128, 2018)的動機。MSG-128研究已經驗證了連接異構作戰訓練模擬器的技術可行性,以便為多國空中任務演習提供真正的訓練價值。它已經起草了MTDS參考架構,為多國訓練演習提供了一個初步的基線,即使在促進MTDS演習就業方面仍有許多差距。多國MTDS演習的成熟將是一個漫長的過程。MSG-128小組建議,為達到這一成熟度,有以下幾個努力的軸心(Lemmers和Faye等人,2017):
在小型/中型演習的操作成熟度方面取得進展,為上述確定的差距提供技術解決方案。
繼續在作戰演習環境中驗證這些解決方案,并將這些解決方案整合到MTDS最佳實踐文件中。
將MTDS演習的可擴展性擴展到大型和聯合演習,包括空軍、海軍和陸軍之間的空域互操作性,以及包括聯合情報、監視和偵察(JISR)。這一行動將是LVC發展和MTDS在多國聯盟演習中使用的一個助推器。
MSG-128在2018年被后續任務組MSG-165 "通過分布式仿真為聯合和聯盟空中行動逐步實施任務訓練 "所接替,該任務組將持續到2021年初。其目標是為北約持久的MTDS環境建立基本要素,并通過初步的操作測試和評估來驗證這些要素。MTDS能力的發展并不局限于MSG-165的工作;事實上,它是北約的智能防御計劃之一,由美國贊助,因此在各個層面都有很好的可見度,但可悲的是仍然未能取得必要的進展。雖然仍有一些挑戰,但該小組迄今為止所開展的工作已經為北約現有的其他合成訓練問題提供了解決方案。這些都體現在文件中,包括
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
建立空中MTDS能力驗證演習,稱為 "斯巴達勇士20-9"(SW 20-9)。SW20-9是由美國空軍非洲作戰中心(UAWC)協調的一個多邊參與機會,為聯盟伙伴提供北約機密級別的聯合戰斗實驗室(CFBL)網絡的持續連接,以進行日常的、以聯盟為重點的、單位領導的訓練。
制定MSG-165關于如何利用MTDS來支持北約空中作戰訓練的設想。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
為了提供最大的價值和效率,北約MTDS必須關注現有訓練安排中沒有涉及的領域。因此,它不尋求復制通過現有國家或北約活動提供的訓練,而是提供額外的聯盟合成訓練能力。北約有能力提供作戰航空部門指揮能力的合成集體訓練(CT)。然而,它還沒有能力對空中指揮部(ACC)以下的戰術能力進行綜合訓練。在合成提供 "從輪子到輪子 "的空中活動方面的這一差距,是北約MTDS提供訓練的主要重點。然而,為了實現端到端的合成訓練,任何未來的系統都應該能夠連接到現有的北約合成訓練能力,特別是支持(NATO STO MSG-165, 2019):
合成傳播和執行空軍司令部(ACC)訓練衍生的空中任務指令(ATO)、空域控制指令(ACO)和特別指令(SPINS)。
ACC執行階段的訓練,將合成訓練的任務與ACC戰術人員聯系起來,支持其動態訓練。
空中訓練的要求可以分成三個日益復雜和具有挑戰性的層次,如圖1所示,并在下文中描述:
第1級:個人能力,涵蓋人員的個人訓練和貨幣,安全地發揮作用。
第2級:戰術團隊訓練,訓練分隊的 "基石",為個人和隊員的作戰戰術和程序做準備。
第3級:戰術集體訓練,為復雜的空中行動提供訓練,需要多種空中能力和單位來完成一個行動任務。
在這三個級別中,1級和2級培訓將仍然是國家的責任。然而,3級戰術集體訓練是北約MTDS的關鍵多國要求;這源于許多國家難以實現這一級別的現實訓練所需的密度和能力范圍。盡管如此,在北約MTDS剩余能力允許的情況下,作為次要的優先事項,MTDS將用于2級訓練,作為提高這種訓練的真實性和復雜性的一種手段。
圖1:空中訓練的級別
為確保任何未來的MTDS能力能夠滿足必要的作戰訓練和演練要求,必須確定MTDS將提供的作戰訓練類型。因此,通過與MSG-165行動小組代表協商,制定了北約聯盟反恐目標(CCTO)(NATO STO MSG-165,2019)。這項工作提供了50個CCTVO。這些CCTVO被分組,以提供MTDS解決方案必須能夠支持的廣泛任務集,并幫助未來的培訓設計。以下任務集被確定。攻擊、進攻性反空、防御性反空、空中C2、空中機動性、空中情報監視和偵察、戰斗支援、空地一體化和空海一體化。
在第1級和第2級活動中的個人和構件訓練中,重點是確保機組人員能夠在駕駛艙內采取必要的行動來有效地打擊他們的平臺。然而,在第三級培訓中,雖然正確的機組人員行動仍然很重要,但概念上的重點卻發生了微妙的變化。第三級培訓必須提供培訓機會,以確保在通常大型和復雜的編隊中,控制人員和機組人員之間發生正確、及時的C2互動,如圖2所示。
圖2:將在CT環境中復制的操作互動
與1級和2級培訓相比,3級培訓的重點發生了微妙的變化,允許更加關注合成培訓的交付。因此,雖然大型實戰演習仍然是實現訓練真實性、建立信心和戰略信息的重要手段,但北約空中訓練的更大比例可以在合成環境中常規實施。這一假設已經在MSG-165行動小組中進行了討論和測試,主要的結論是,對于3級多國訓練,對于任務集,超過50%的訓練可以以合成方式進行。
北約MTDS能力旨在將國家或北約的模擬資產整合到一個分布式的合成集體訓練環境中,這些資產通過一個共同的模擬基礎設施連接。仿真資產一般通過網關或門戶連接到該基礎設施。合成訓練環境的一致性也是參與集體合成訓練和演習的模擬資產的互操作性的關鍵。含有合成環境數據的數據庫的制作可能是整個M&S成本的重要組成部分,這意味著應該促進重復使用。仿真資產提供者通常使用相同的高級流程來生成他們的環境數據產品,但詳細的數據生成流程因生產商或集成商的不同而略有不同。這些差異使數據重用變得復雜,并危及目標應用的最終互操作性。
為了實現MTDS的合成集體訓練環境,能夠快速響應新的訓練需求,需要為訓練環境的開發和工程制定共同的流程和技術協議。由于技術協議通常是在每次演習中制定的,因此仍然缺少一個具有相關工程流程和技術協議的共同認可的模擬基礎設施。這就是MTDS參考架構(RA)發揮作用的地方(van den Berg, Huiskamp, et al., 2019)。該參考架構以構件、互操作性標準和模式的形式概述了MTDS的要求,用于實現和執行由分布式仿真支持的合成集體訓練和演習,與應用領域(陸地、空中、海上)無關。MTDS RA的重點是合成集體訓練和演習,因此將包括具有MTDS特定功能和接口的構件和模式。由于RA是在北約范圍內開發的,它也將利用北約的模擬互操作性標準。
用于特定訓練或演習活動(如 "斯巴達勇士 "演習系列)的模擬環境架構被稱為解決方案架構。由于MTDS的RA為合成集體訓練環境提供了一個 "模板解決方案",因此解決方案架構中使用的許多元素的要求原則上應來自RA。但是,可能還需要進行一些改進,以滿足特定事件的要求。這可能包括選擇仿真協議和特定的中間件解決方案(DIS、HLA)、網關組件、跨域解決方案、數據記錄工具,以及代表合成物理環境(SPE)的協議和格式。參考數據交換模型是通過RA提供的,但解決方案架構仍然需要就這些參考數據交換模型中的哪些具體部分將在具體事件中使用達成協議。
通常情況下,各套原則形成一個層次結構,即架構原則將被企業原則所告知、闡述和約束。架構原則定義了使用和部署資源和資產的基本一般規則和準則。它們反映了企業各要素之間的某種程度的共識,并形成了做出未來決策的基礎。在MSG-165中,為MTDS定義了10個主要的架構原則。下面將討論這些原則。
1.支持北約行動的合成集體訓練和任務演練 MTDS工作的主要預期應用是在北約范圍內的合成集體訓練。應為單一服務和聯合行動開發一個共同的技術和程序解決方案。就技術要求而言,任務演練被認為與任務訓練密切相關。
2.啟用(混合的)現場、虛擬和建設性資產 MTDS應(在未來)支持(混合的)現場、虛擬和建設性的模擬玩家。聯合行動和聯合行動的集體訓練需要有許多模擬實體的復雜訓練場景。訓練對象通常會在實戰、虛擬和混合的LVC環境下進行訓練。解決方案應支持LVC的混合集成。
3.提供靈活性和發展能力 許多國家已經使用模擬系統進行訓練。然而,這些現有的系統在技術上往往是非常不同的。MTDS RA應定義一個框架,該框架在技術上是先進的,沒有限制性(例如,可擴展新的模擬資產),并且不會不必要地阻礙訓練(例如,帶寬,穩健性)。應定義門戶或網關,以允許在MTDS中整合遺留系統,并允許MTDS所需的靈活性。
4.使用開放標準 北約提倡使用開放標準,因為它促進了成本效益的互操作性。開放標準可以被所有各方自由使用。對私人方(如供應商)的使用沒有任何限制。
5.遵守北約政策和標準 MTDS應遵守北約關于M&S互操作性和標準的政策和協議。偏離這一原則需要說明理由,包括對合適的北約標準的評估和與替代解決方案的比較。
6.支持在北約保密級別或最高級別使用 MTDS應支持北約行動的合成訓練和任務演練。系統、理論和任務執行的保密方面需要得到保護。應就系統、網絡、場地和能夠接觸上述內容的人員的實施和認證達成協議。
7.在一次演習中支持多個安全域或飛地 應就屬于不同飛地的系統、網絡、場地和人員之間的信息交流的實施和認證達成協議,可能通過使用CDS解決方案。每個國家和北約之間的CDS解決方案的認證將由每個國家承擔。
8.提供有代表性的訓練環境 MTDS應提供一個有代表性的集體訓練環境,以支持演習中所有參與者的公平競爭(或公平戰斗)。仿真系統性能的差異不應導致某些參與者獲得不現實的(不)優勢。
9.解決多個利益相關者的觀點 MTDS使用RA來提供對特定MTDS解決方案設計的通用和可重復使用的描述。RA是以架構構件的形式來描述的,對這些構件的解決方案有要求和適用標準。為了實施MTDS,將涉及不同的利益相關者。這些構件應該為不同利益相關者的觀點提供指導。
10.通過聯網模擬器為北約和國家的集體培訓提供具有成本效益的培訓解決方案,不得對用戶以及各中心及其工作人員施加不可接受的限制,因為這些限制不值得花費時間,也不能被行動上的好處所抵消。
MTDS原則為多個利益相關者的觀點提供了要求和標準。MTDS RA提供了一個符合上述架構原則的通用和可重復使用的描述。它使用了架構積木(ABB)和架構模式(AP)的概念來定義應用和服務的框架,使國家訓練系統能夠被整合到一個分布式的合成集體訓練環境中。圖3提供了該框架中主要ABB的概述。
圖3:MTDS框架的應用和服務
圖3中的應用是面向用戶的能力,與稱為服務的后端能力互動。例如,圖中顯示--在解決方案層面--將有一個或幾個用于場景準備的應用程序;這些軟件組件與后端服務實現(如威脅生成服務)互動,向這些服務提供模擬場景數據。框架應用和服務的一個子集(門戶服務、面向消息的中間件服務、威脅和跟蹤生成服務以及合成自然環境(SNE)服務)在(van den Berg, Huiskamp, et al., 2019)中有更詳細的討論。
北約國家有必要在北約MTDS演習中整合和操作其國家或主權機密模擬資產,以實現其共同的空中集體訓練目標。同時,北約國家希望保護這些最敏感或最機密的資產、其基礎數據和信息,防止因加入這種北約MTDS演習而受到(網絡)安全威脅。在不同國家敏感度、信任度或安全分類級別的模擬資產之間實現安全連接和互操作性,對于成功實施北約MTDS能力和演習至關重要。
M&S跨域安全(CDS)服務旨在滿足這一要求,使北約國家能夠通過共同共享的北約MTDS模擬主干,對位于其國家安全領域的模擬資產進行安全互操作。在這種情況下,安全域被定義為在一致的安全政策下運行的模擬資產,并由一個組織、國家和/或安全認證機構(SAA)擁有。安全政策定義了關鍵要素,如安全分類、可釋放性、利益共同體和任何其他對模擬資產中包含和處理的實際軍事系統和理論的數據和信息的特殊處理注意事項。
在這里,M&S CDS被定義為一個由安全強化服務組成的系統,該服務是為減輕在不同安全領域運行的模擬資產之間傳輸模擬數據的特定安全風險而定制的。這樣的M&S CDS可以被看作是一種網關環境的形式。與普遍應用的M&S(網絡)網關不同,M&S CDS提供了廣泛的安全控制,以提供全面的模擬數據過濾和深度防御,具有更高的保障水平。M&S CDS服務是保護整個北約MTDS基礎設施及其組成的模擬資產免受所有形式的安全威脅所需的整個安全措施的一個專門部分。除其他外,這包括:模擬資產和設施的物理和網絡邊界保護裝置,模擬資產或設施與網絡連接的物理安全,模擬資產和監測之間的加密通信保護,人員安全許可和意識培訓。這些常見的安全措施對于MTDS演習的安全執行也應到位。
理論上,可以設想許多通用的應用拓撲結構,其中部署M&S CDS解決方案,以確保在多個安全域之間進行受控和安全的模擬數據交換。然而,在實踐中,這種拓撲結構的實施必須符合具體的使用案例和威脅環境所施加的跨域安全要求和限制。這意味著分布式仿真環境的跨域安全不僅僅是孤立地關注M&S CDS設備(如數據節點、防護裝置或信息交換網關)。只有當每個連接的安全域內的模擬資產和網段滿足某些可信的安全政策、實踐和要求,并且其相關的安全風險被充分理解和接受時,才能保證整個分布式仿真環境的適當安全水平(反之亦然)。因此,在北約MTDS用戶背景和威脅環境下,在為聯盟集體訓練部署M&S CDS解決方案時,應考慮以下安全因素。
1.最重要的是,每個北約國家需要保持對其國家擁有的模擬數據和信息的完全控制,以及在MTDS訓練演習之前、期間和之后如何共享這些數據和信息。這意味著每個國家將始終通過本國擁有的CDS設備將其機密模擬資產與北約MTDS模擬主干連接起來,這些設備受本國的SAA和安全政策的約束。
2.所有將參加北約MTDS演習的北約國家都使用私營軍事網絡北約聯盟戰斗實驗室網絡(CFBLNet)作為共同的網絡基礎設施,以連接他們的機密模擬資產和其他相關的培訓應用,直至北約機密級別。這意味著參與的北約國家有一個共同的協議,在每個國家對這些資產或應用的安全等級執行方面相互信任,在此基礎上,他們可以通過這個網絡連接、共享數據和信息。因此,目前,從這個北約CFBL網絡到較低信任安全域的級聯連接對任何北約國家來說都是非常不可取的,甚至是不可接受的。
3.北約MTDS將部署符合北約STANAG和標準的仿真互操作性中間件服務(如HLA、DIS和TENA),以便在一個統一的分布式仿真環境中對國家仿真資產進行互操作,用于集體任務訓練和演習。目前,這些中間件標準通過一個共同的共享數據空間和模擬信息交換數據模型來交換模擬數據,而這并不提供任何安全措施。這意味著,任何國家只要能進入北約CFBL網絡,并被允許用正確的加密密鑰加入特定的MTDS演習,也可以直接訪問參與模擬資產之間交換的所有模擬數據。因此,這個集體模擬數據集是MTDS演習中所有參與國(即安全領域)的 "共享秘密"。
4.M&S CDS部署拓撲結構過于復雜,將使每個國家安全領域內的機密模擬資產的安全保障和操作復雜化,并可能增加攻擊面、轉換數據流渠道的風險以及與較低信任環境的級聯連接。這意味著過于復雜的部署拓撲結構可能會在整個MTDS演習準備、執行和匯報階段給北約國家帶來額外的成本和準備時間。因此,CDS的部署拓撲結構應該在滿足國家安全和培訓要求的前提下,設計得盡可能的簡單。
圖4描述了在北約MTDS演習中部署M&S CDS的參考拓撲,該拓撲是根據前面提到的安全考慮因素確定的(Roza,等人,2020)。
圖4:北約MTDS CDS部署的參考拓撲結構
該參考拓撲結構反映了這樣一種典型情況:參與北約聯盟級分布式仿真環境的仿真資產由不同的國家擁有,因此屬于受不同SAA管轄的安全領域。為了確保每個國家完全控制其國家擁有的機密模擬數據,以及如何與其他國家共享這些數據,每個國家通常應使用自己的CDS設備。在這里,每個國家的CDS首先將自己的主權機密模擬數據集轉換并映射成可釋放的數據集,然后根據商定的集體模擬信息交換模式將其發布到集體共享的模擬數據集中。這種共享數據受到共同商定的安全措施的集體保護,如數據加密,以確保通過第三方網絡基礎設施進行保密信息交流,并對每個國家的參與模擬設施采取安全措施,以獲得加入北約MTDS聯盟級演習的權限。反之,國家擁有的CDS設備可以保護單個或聯合的國家機密模擬資產免受來自北約CFBL網絡的網絡攻擊,包括因訂閱共享數據空間的數據而導致的未經授權的模擬數據入侵。
從UAWC的演習選項中選擇,"斯巴達勇士 "活動是通過分布式仿真進行的多國、以空中為重點的訓練。這次演習將在北約的CFBL網絡上進行,在四天的時間里使用每個國家的模擬或仿真器通過DIS和HLA進行連接。UAWC模擬/環境生成器將提供整體的合成環境、安全語音、聊天功能和紅色部隊來填充該領域。
為了建立支持大規模演習所需的行動區域,UAWC雇用了其他模擬中心的專家,包括空戰訓練中心(英國皇家空軍瓦丁頓空軍基地)、北約預警系統ASCOT控制員(北約蓋倫基興航空站)和萊昂納多公司(意大利)。此外,計劃中的參與包括法國空軍(FAF)、意大利空軍(ItAF)、北約預警系統、英國皇家空軍(UK)、加拿大皇家空軍(RCAF)、荷蘭皇家空軍(RNLAF)、西班牙空軍(SpAF)、美國空軍(USAF)和美國陸軍(USA)。因此,它還將通過采用嵌入盟軍控制和報告中心(CRC)和北約預警機的美國陸軍防空炮火控制官(ADAFCO)來實現聯合和北約的互操作性訓練。為了繼續提供互操作性的機會,演習還將通過北約預警機E-3、建設性的E-8 JSTARS和皇家空軍RC-135 "鉚釘 "聯合模擬器支持情報監視偵察(ISR)的 "鐵三角"。這種ISR融合能力模擬了關鍵的現實世界ISR整合,以提高跨平臺和機構的決策技能。這項培訓還將在盟軍CRC和聯合戰術空中管制員(JTAC)之間執行美國空軍支援行動中心(ASOC)的連接。最后,為了支持這項工作,將有多架反空和攻擊飛機,包括建設性的和有人駕駛的模擬器,通過故意瞄準(DT)、打擊協調和偵察(SCAR)以及近距離空中支援(CAS)來支持協調打擊。
由于有機會進行驗證演習,目前建立的基礎設施和系統得到了利用。由此產生的系統和網絡提供了探索規定的RA和CDS配置的混合機會。因此,支持演習的數據被記錄下來,用于進一步的參考架構測試和比較,這使得演習規劃者能夠專注于實現MTDS CONEMP(NATO STO MSG-165, 2019)中概述的聯盟集體訓練目標(CCTO)。通過在整個演習責任區(AOR)創造3級訓練機會,集中精力實現盡可能多的CCTVO,演習策劃者能夠將50個CCTVO中的37個作為計劃目標(NATO STO MSG- 165,2019)。
參照上圖2,不同的任務和飛機類型之間的相互作用有助于建立3級訓練的復雜性。為了開始建立所需的部隊互動過程,規劃者希望建立一個能夠支持現有參與者所需復雜性的戰斗空間。隨著四(4)個指揮和控制(C2)元素的使用,結構化的通道被分配給每個C2元素。有了這些通道,就需要控制戰斗機的進攻/防御行動,以及確保空中加油保持所需的CAPs的支持要求。這種最初的集體行動將戰斗機及其加油機與控制它們的C2機構聯系起來,以滿足聯合空中作戰司令部(CAOC)在規劃文件中制定的規定的區域防空計劃(AADP)。這種看似簡單的互動現在發生在四(4)個不同的元素之間,可以想象是在四(4)個不同的地點。對于 "斯巴達勇士 "20-9,意大利空軍(ItAF)的歐洲戰斗機在作為C2機構的北約預警機控制的航道上與作為建設性實體的UAWC控制的加油機之間的互動現在將3個不同的單位聯系在一起,以實現一個相對良性的集體訓練目標,AAR.02--在同一地點進行空對空加油。同樣地,一個集體可以通過綜合空中行動(COMAO)完成一個更復雜的舉措,以實現進攻性反空(OCA)目標OCA.01(護航),OCA.02(戰斗空中掃蕩)和SEAD.01(壓制敵人防空)。為了建立這個集體目標,規劃人員利用C2機構在機會窗口期間將屬于COMAO包的飛機組織到他們的集結點,然后提供空中掩護(護送),假設達到CAOC的規劃文件規定的可接受的風險水平(ALR)。這個目標給C2機構帶來了決策,他們有能力從以前的打擊中辨別出ALR(防空設施是否被充分壓制?)、COMAO包的狀態、護航OCA組的狀態以建立空中控制,然后是打擊發生后的戰斗損傷評估(BDA)信息。這些集體行動現在占了多個地點的多個小組,處理融合的情報(敵方防空狀態),以及打擊前和打擊后的有效信息交流。
對于MTDS事件的規劃者來說,場景的復雜性不應掩蓋手頭任務的復雜性。在這種情況下,規劃文件根據ALR定義了限制,并建立了已知的時間事件來創建這些打擊窗口。這就創造了機會,或缺乏機會,基于提供給決策者的輸入--在這種情況下,接受培訓的C2機構。對于演習策劃者來說,所需的CCTVO成為驅動特定場景的焦點。通過創建這些決策點,在多個平臺上收集相關信息,所有這些平臺都在為已知的事件進行協調,從而實現了集體訓練點。在更大的事件中,實現這些功能的機會可能會在細節和機會的海洋中消失,以引起更大的力量反應。然而,正是通過保持任務的簡單性來控制信息的流程和流動,才可以在不影響訓練對象或創造支持環境的白軍元素的情況下常規地實現CCTO。
最后,為了改變行動區的任務,特定的任務集在整個行動區被輪換使用。這種輪換使不同的C2機構能夠在四個演習日的每一天改變他們的重點。當一些機構負責支持CAS時,其他機構則負責協調COMAO包、SCAR資產或動態目標事件。此外,戰斗的性質在四天的演習中也有所改變。通過不保持時間線(演習第1天=第100天,演習第2天=第101天,等等),計劃者可以用較小的每日投入進一步構建演習事件。在這個例子中,演習日以10天為單位向前移動。這樣,雙方的補給都可以完成,但更重要的是,戰爭的基調可以得到調整。對于SW20-9來說,10天的增量提供了創造紅方部隊推進日、藍方部隊推進日、停火(以及隨后重新陷入戰爭)日和僵局日的機會。這些都會在對事件的整體解釋中產生色調和變化,從可能的叛逃者到自相殘殺的擔憂,都需要加以考慮。這些變化為所有玩家提供了一系列的事件和任務集,以解釋和建立他們的行動方案,從而增加集體的訓練機會。
北約內部MTDS能力的發展并不限于MSG-165的工作。MSG-180工作組努力在海洋領域建立MTDS能力(名為LVC-T)(NATO STO MSG-169. 2019)。此外,這兩個小組的工作與MSG-164建模與仿真服務(MSaaS)有關(NATO STO MSG-164. 2018)。MTDS也是北約的智能防御倡議之一,由美國贊助,因此在各個層面都有很好的知名度,但遺憾的是仍然未能取得必要的進展。為了幫助這個問題,我們打算通過將海洋領域納入MTDS倡議,將智能防御的努力結合起來。雖然仍有一些挑戰,但迄今為止所開展的工作已經為其他現有的北約合成訓練問題提供了解決方案。這些問題包括:
分析未來的空中訓練需求,從而重新確認多國MTDS活動的好處。
建立共同的空中訓練目標,幫助確定聯盟的訓練要求,幫助調整適當的訓練媒體。
制定參考架構原則,為聯合MTDS能力的使用提供基礎。
制定MSG 165的愿景,即如何利用MTDS來支持北約空中業務培訓。在開發這個愿景時采用的方法顯示了更廣泛的效用,并有可能用于幫助其他部門確定他們自己的未來培訓愿景。
為了支持北約聯合MTDS的發展,我們提出了以下建議:
發展北約綜合演習要求,從北約贊助的年度MTDS演習開始。這將有助于提高整個北約對MTDS能力和好處的認識,并有助于為MTDS的培訓制定必要的優先次序。
正式確定聯盟對未來多國合成訓練的期望。我們相信,這將帶來巨大的好處,并提供必要的自上而下的方向和指導,以幫助推動MTDS能力的發展,這是一個初步要素。
本文介紹的工作是由以下北約國家和組織在MSG-165任務組中合作完成的。比利時、加拿大、法國、德國、意大利、荷蘭、挪威、西班牙、土耳其、英國、美國、歐洲航空集團(EAG)、北約工業咨詢集團(NIAG)和北約空中作戰卓越中心。所以這項工作的功勞應該歸功于這個MSG-165任務小組的所有參與者。本文的作者是MSG-165的聯合主席,并代表整個小組的作用。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。
傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。
本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。
戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。
然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。
1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。
2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。
3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。
4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。
到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。
本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。
產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。
由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。
驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。
出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。
有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。
在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。
圖1:情況意識的認知模型:概述
另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。
機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。
強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。
強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。
強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。
在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。
1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。
2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。
對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。
人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。
進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。
由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。
圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。
為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。
多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。
Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。
傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。
為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。
圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。
本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。
認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。
這里提出的主要架構的目標有三個方面:
將智能CGF模型與戰術戰斗機模擬脫鉤。
促進人類行為模型與上述模擬的連接過程。
使得智能CGF模型能夠在不同的客戶端進行分配。
這三個特點共同促成了對混合方法的追求。
在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:
實施混合模型,其中認知建模和ML相結合,以及
根據具體的學習目標或能力來調整智能機器人的行為。