目前,使用蒙特卡洛方法對導航系統進行分析可能很慢,而且計算成本很高。協方差分析是一種可以及時返回交易空間分析結果的工具,而且計算費用低廉。協方差分析工具大多是臨時性的或在專有接口內。這對導航領域來說尤其如此,因為大多數協方差分析的論文都是處理單一場景,并為所述場景編寫一個臨時的模擬器[1, 2]。
這項研究的目的是在一個新的模塊化和可插拔的導航框架庫--導航工具包中創建一個協方差分析工具。導航工具包是一個政府參考庫,可以與被稱為pntOS的模塊化和可插拔的傳感器融合架構一起開箱使用。在模塊化和可插拔的導航軟件包內創建一個協方差分析工具,將使研究人員能夠快速獲得交易空間分析結果,并使用與實際傳感器融合所使用的基本相同的代碼輕松進行自己的協方差分析模擬。研究人員將能夠利用導航工具包中預裝的大量的傳感器模型、算法和過濾器。
通過分析兩個不同的導航場景,解釋了這個協方差工具的創建。對這些不同的導航方案的結果進行了探討,以確定傳感器組合背后的好處和缺點。一個新的多普勒激光雷達速度傳感器首先用一組簡短的、四百秒的模擬飛行數據進行評估,以證明協方差工具的功能,并同時展示新傳感器的能力。最后的評估是使用3小時的飛行數據進行的。該方案將多普勒激光雷達速度傳感器與高靈敏度標量磁強計配對,以了解這兩種傳感器的組合如何改善導航解決方案。
這項工作從第二章開始,在第二章中介紹了用于創建協方差分析工具的軟件套件的背景。第二章還將描述我們將在未來的章節中使用協方差分析工具分析的用例。接下來的第三章和第四章是單獨的論文,介紹了協方差分析工具的兩個不同的使用案例。第三章在2021年的國家航空航天和電子會議(NAECON)上發表[11]。下一章,即第四章將之前的多普勒激光雷達速度傳感器與MagNav傳感器結合在一起,展示了兩個傳感器在組合導航方案中可以創建的解決方案,并將提交給《導航學會雜志》。最后,第五章總結了研究結果和工具的創建,然后以未來可能的工作作為結束。
美國政府面臨著保持作為世界上空間物體編目數據提供者的步伐挑戰。用非傳統的傳感器來增強能力,是一種快速和低成本的改進。然而,巨大的交易空間和未開發的系統性能要求給成功的資本化帶來了挑戰。本文旨在通過一個多學科的研究,更好地定義和評估增強功能的效用。
假設的望遠鏡架構在不同的時間里被建模和模擬,然后在啟發式算法中使用多目標優化對性能措施和約束進行評估。決策分析和帕累托優化確定了一套高性能的架構,同時保留了決策者設計的靈活性。
建議將容量、覆蓋率和未觀察到的最大時間作為關鍵性能指標。在1017個架構中,共有187個被確定為最佳表現者。總共有29%的傳感器被發現在80%以上的頂級架構中。其他考慮因素進一步將交易空間減少到19個最佳選擇,這些選擇為每個空間物體平均收集49-51個觀測數據,平均最大未觀測時間為595-630分鐘,提供地球同步軌道帶的冗余覆蓋。這意味著與模擬的僅有政府的基線結構相比,能力和覆蓋面增加了三倍,未觀察到的最大時間減少了2小時(16%)。
這項研究利用基于物理學的模型和現代分析技術,驗證了增強型網絡概念的效用。它客觀地回應了要求改進編目工作的政策,而不是僅僅依靠專家得出的點解決方案。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋人工智能(XAI)系統,自主無人機向山區的野外部隊運送物資。任務風險隨地形、飛行決定和任務目標而變化。這些任務由人類加人工智能團隊參與,用戶決定兩架人工智能控制的無人機中哪一架更適合執行任務。這篇文章報告了該項目的技術方法和發現,并反思了復雜的組合問題對用戶、機器學習、用戶研究和XAI系統的使用環境所帶來的挑戰。COGLE創建了多種模式的解釋。敘述性的 "What"解釋比較了每架無人機在任務中的表現,以及基于使用反事實實驗確定無人機能力的 "Why"。可視化的 "Where"解釋突出了地圖上的風險,以幫助用戶解釋飛行計劃。研究的一個分支是研究這些解釋是否有助于用戶預測無人機的性能。在這個分支中,一個模型歸納的用戶研究顯示,決策后的解釋在教用戶自己確定哪架無人機更適合執行任務方面只有很小的作用。隨后的思考表明,用決策前的解釋來支持人類加人工智能的決策是一個更好的背景,可以從組合任務的解釋中受益。
COGLE(COmmon Ground Learning and Explanation)是一個可解釋的人工智能(XAI)系統,用于自主無人機向山區的野戰部隊運送物資。COGLE中的任務是在一個模擬的世界中進行的,其中有山區和森林環境、水體和結構。圖1顯示了一個任務地圖和人工智能控制的無人機的飛行計劃。黃色的棒狀圖顯示了徒步旅行者的位置。彎曲的箭頭顯示了無人機的飛行計劃。地圖下面的時間線顯示了無人機沿其飛行計劃的高度。地圖上的符號表示物體。尖尖的符號是太高的山,無法飛過。曲線頂的符號是低矮和高大的山麓。綠色區域是草地。樹木形狀的符號代表森林。
最初,我們使用ArduPilot SITL1,它可以高保真地模擬低空飛行器的動作。ArduPilot的詳細模擬所需的計算資源被證明是不方便的,對于任務的戰略規劃來說是不必要的。低空飛行控制在商業自動駕駛飛機和業余無人機中被廣泛實施。為了專注于任務規劃,我們開發了一個精度較低的模擬模型("ArduPilot Light"),在一個回合制的網格世界中,有五級高度和八個獨特方向。我們在ArduPilot SITL的API上模擬了ArduPilot Light的兼容編程接口(API)。圖2說明了COGLE的模擬網格世界的粗粒度,用于任務規劃。
圖 1 共同地面學習和解釋 (COgLE) 域中任務的示例地圖
圖 2 來自 COGLE 飛行學校的插圖展示了具有五個離散高度的模型以及當包裹從不同高度墜落時墜落區的擴大范圍
當無人機與處于同一高度或更高的障礙物飛得太近時,它們就會有墜毀的危險。如果無人機在森林、高山麓或水面上釋放其包裹,那么其包裹可能被損壞。包裹可能無法降落在河流、樹木或高山腳下。無人機飛得越高,其包裹在傘降過程中可能漂移得越遠。一個人工智能飛行員可能會在任務的開始、中間或結束時承擔風險。飛行員在任務中的早期決定會以微妙的方式與后來的決定產生互動。例如,在飛行計劃的早期,關于如何避開障礙物的選擇可能會導致在很晚的時候無法安全地接近選定的地點來投放包裹。
使用COGLE的早期版本,我們對用戶進行了自我解釋的研究,正如Gary Klein, Robert Hoffman, 和Shane Mueller等人所描述的。這樣的研究可以為參與者提供一個關于他們自己想要和使用的解釋種類的視角。用于無人機的人工智能飛行員是基于我們早期的深度強化學習者(RL)。他們在非常簡單的任務中表現出奇怪和次優的循環行為。研究參與者引用了無人機行為的觀察模式,指的是推斷的目標、效用和無人機的偏好。
在研究過程中,當被要求做出預測時,參與者經常的回答是 "我不知道"。研究參與者在自我解釋方面很有創意("它怕水!"),但他們沒有可靠的依據來確定他們的解釋是否正確。事實證明,我們早期的人工智能控制的無人機的奇怪行為是由于他們有限的訓練造成的。
認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。
CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。
這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。
第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。
鑒于對手軍事能力的威脅和擴散的增加,這項研究試圖開發合理準確和可計算的模型,以最佳方式操縱航空器攔截巡航導彈攻擊。該研究利用數學編程對問題進行建模,并以代表(時間)差分方程系統的約束條件為依據。研究首先比較了六個模型,這些模型對速度和加速度約束有不同的表述,同時分析了靜止目標的情況。多航空器、多固定目標交戰問題與箱體約束條件(MAMSTEP-BC)模型產生了卓越的整體性能,并通過替代數學編程模型的增強進行了進一步分析,以便在利用有效的機動序列方面創建可行的飛行輪廓。最后,對MAMSTEP-BC模型進行了修改,以操縱飛機來對付移動目標。
在優化交戰所需時間時,該模型被證明對多架航空器和多個目標有效。MAMSTEP-BC通過考慮航空器和飛行員的局限性,能夠保持高水平的顆粒度,同時設法為靜止和移動的目標快速生成最佳解決方案。
本論文的其余部分組織如下。第二章討論了與國防、飛行器路由問題和涉及差分方程的數學編程公式有關的文獻,以操縱或路由實體。下面的研究分三個不同階段進行。第三章介紹了第一階段所研究的工作,該階段開發并測試了操縱多架航空器來對付靜止目標的替代模型。在第四章中提出,第二階段的研究探討了替代的數學編程模型的增強,以創建研究第一階段的可行的飛行輪廓。在第五章中,介紹了第三階段研究的工作,其中開發和測試了一個最終模型,以操縱多架航空器來對付移動目標。第六章以工作的主要成果對論文進行了總結,并介紹了未來關于時空網絡路由模型主題的可能研究途徑。
未來的系統開發包括指揮和控制(C2)技術,以支持空戰管理人員(ABM)和戰斗機飛行員,因為他們支持在一個更大的系統系統中使用自主無人機系統(UAS)的復雜任務。在復雜的、不斷發展的和動態的環境中,人類作戰員有效地觀察、定位、決定和行動的能力是必不可少的。然而,在ABM和飛行員之間的UAS監管變化過程中,作戰者的表現可能會下降,這大大增加了作戰者的認知工作量,超過了以往任務中通常看到的工作量。不幸的是,C2技術的發展往往把重點放在自動化和硬件上,使人類作戰員的參與度不足,不利于人與自動化的互動。目前,數字工程和基于模型的系統工程(MBSE)工具正在迅速被系統開發、整合和管理所采用,以支持整合這些系統所需的復雜開發工作。目前的研究在MBSE工具中整合了人的考慮,以分析開發過程中人與自動化的合作。該方法支持在建模的任務模擬中用一對專門的活動圖表示自動化輔助和人類作戰者,稱為任務行為者圖和OODA2活動圖,允許分析作戰過程中的錯誤和瓶頸。這種方法說明有可能減少作戰員的認知工作量,改善作戰員的決策,提高系統性能,同時減少系統重新設計的時間。
美國國防部(DOD)使用漏洞評估工具來確定其許多網絡系統的必要補丁,以減輕網絡空間的威脅和利用。如果一個組織錯過了一個補丁,或者一個補丁不能及時應用,例如,為了最大限度地減少網絡停機時間,那么測量和識別這種未緩解的漏洞的影響就會被卸載到紅色團隊或滲透測試服務。這些服務大多集中在最初的利用上,沒有實現利用后行動的更大安全影響,而且是一種稀缺資源,無法應用于國防部的所有系統。這種開發后服務的差距導致了對進攻性網絡空間行動(OCO)的易感性增加。本論文在最初由海軍研究生院開發的網絡自動化紅色小組工具(CARTT)的自動化初始開發模型的基礎上,為OCO開發和實施自動化后開發。實施后開發自動化減少了紅色小組和滲透測試人員的工作量,提供了對被利用的漏洞的影響的必要洞察力。彌補這些弱點將使國防部網絡空間系統的可用性、保密性和完整性得到提高。
1.第二章:背景
第二章詳細介紹了CO中后開發的重要性,并通過分類法解釋了后開發的影響。它還研究了現有的后開發框架和工具,它們試圖將后開發自動化。本章還強調了其他工具和框架的不足之處,并討論了本研究如何在以前的工作基礎上進行改進。
2.第三章:設計
第三章介紹了CARTT是如何擴展到包括自動后開發的。這項研究利用了CARTT客戶-服務器架構的集中化和模塊化來擴展后開發行動。本章還詳細討論了發現、持續、特權升級和橫向移動等后剝削行動。
3.第四章:實施
第四章介紹了CARTT中實現的代碼、腳本和工作流程,以實現自動化的后剝削。它詳細描述了Metasploit框架(MSF)資源腳本的重要性,以及CARTT服務器、CARTT客戶端界面和CARTT操作員角色之間的通信。
4.第五章。結論和未來工作
第五章對所進行的研究進行了總結,并討論了研究的結論。它還提供了未來工作的建議,以進一步擴大CARTT的可用性和能力。
現代戰術戰爭越來越復雜,需要更快和更有效的決策。為了支持這些快速決策,有人提出使用自動決策輔助工具作為解決方案(Johnson 2019, 63)。鑒于現代戰場的復雜性質,決策輔助工具需要大量的數據。為了支持決策輔助工具的發展,機器學習代表了一種支持有效決策輔助工具的潛在方法。這項研究的目標是進行實驗,探索應用機器學習來幫助作戰人員進行復雜的激光武器系統與無人機群的交戰決策。為了實現這一目標,研究了激光武器系統和無人機威脅,并選擇了一個仿真程序來生成可用于訓練機器學習算法的交戰數據。
這篇論文研究了威脅交戰方法,確定了有效操作激光武器系統必須考慮的決策因素,以及人工智能和機器學習在支持決策方面的應用。對無人駕駛飛行器或無人機的威脅進行了基礎研究,以確定風險并支持交戰方法的發展。該基礎研究支持選擇場景并將其編入兵棋和仿真軟件Swarm Commander Tactics,該軟件用于模擬戰斗。這項研究進行了一項實驗,通過建模和仿真交戰場景來開發機器學習算法的概念驗證,以收集訓練數據并使用這些數據來訓練機器學習算法。訓練算法的目的是為了確定使用模擬艦載激光武器時的生存能力和成功的交戰方法。在生成模擬交戰數據后,使用模擬交戰測試了多種機器學習技術,以確定機器學習預測是否能夠支持基于模擬數據的自動決策輔助。這項研究研究了機器學習的算法方法以及開發和訓練機器學習系統的過程。
總的來說,對多種機器學習技術進行了評估,以支持在模擬交戰中預測成功的無人機交戰方法,發現最適合的是樹狀分類技術。實驗證明了機器學習在這個問題領域的應用,通過建模和模擬,機器學習算法訓練是成功的。最終機器學習算法預測的結果,在預測基于敵人類型、數量和激光武器系統攻擊方法的交戰結果時,總體準確率為96%;假陽性預測,即算法預測的勝利是失敗的,為2.1%。這些結果表明,一個復雜的戰斗空間模擬軟件可以用來準確地訓練預測性機器學習算法。
這項研究表明,將兵棋模擬與機器學習算法相結合,為支持復雜的決策和交戰提供了一種機制,由激光武器系統來對付敵人的無人機群。通過實施訓練有素的機器學習算法,可以分析具有異質無人機群的復雜戰斗空間,從而選擇適當的交戰技術,從而優化目標交戰的生存能力和有效性。這篇論文的主要研究目標是探索機器學習方法在識別和支持模擬艦載激光武器系統的有效目標選擇和交戰方法方面的功效。這項研究是生成決策輔助工具的一個組成部分,以支持無人機群與激光武器系統的交戰。現代戰斗空間的復雜性質需要決策輔助工具來減少作戰人員的認知負擔。
浮動航天器模擬器(FSS)是模仿衛星在空間運動的機器人載體。使用FSS可以在地球上對制導、導航和控制算法進行實驗驗證,然后再將其應用于空間,因為空間的錯誤是災難性的。此外,FSS是空間系統工程課程中大學生的一個重要研究和教育工具。然而,目前使用的所有FSS都是定制開發和昂貴的項目。本論文涵蓋了用于教學和研究目的的新型浮動航天器模擬器的開發、組裝和測試過程,該模擬器被命名為MyDAS,代表微型動態自主航天器模擬器。通過介紹MyDAS,一個小型的、簡單的和低成本的FSS,使FSS在大學和中學階段的研究和教育中得到更廣泛的利用。討論了MyDAS的不同推進配置及其相應的運動方程。對于一個特定的配置,選擇并測試了現成的氣動和電子組件。一個模塊化和標準化的3D打印框架將所有部件固定在一起,形成一個最終的剛性載體。最后,MyDAS在各種實驗中被測試,完成了全部的硬件功能。
本論文進行小型化和簡化的浮動航天器模擬器(FSS)工作。本章簡要介紹了這項工作的動機和目標,以及本論文的結構。
未來空間任務中的航天器需要靈活、自主的制導、導航和控制(GNC)算法,如對接、接近或清除碎片的操縱[1], [2], [3]。用硬件在回路中驗證GNC算法的一種方法是使用FSS,而無需將測試對象送入太空。盡管不向太空發射任何東西而大大降低了成本,但目前的FSS仍然需要大量的經濟和費時的工作來建造和操作,這只有專門的機構或公司才可能做到。除此之外,目前的FSS都是獨特的設計,沒有標準化。引入一種新的、負擔得起的、小而簡單的FSS可以使本科生甚至高中生以及業余用戶能夠使用FSS工作。提供這種機會可以增加為未來空間任務創造更好的GNC算法的成功機會。
先前工作提出了一個更便宜、更小、更簡單的FSS的概念[4],稱為MyDAS,代表微型動態自主航天器模擬器。提出了初步的計算機輔助設計(CAD)模型、材料清單、氣動圖、接線圖、兩種浮動配置和三種推進配置。本論文的目的是建立一個MyDAS的物理工作實例。為此,所有定制設計的部件應與購買的現成部件一起制造和組裝。所有的功能部件應先單獨測試,然后再組合。最終的裝置必須能夠使用壓縮空氣供應漂浮和推動自己。如果可能的話,在不使用推進系統的空氣的情況下,漂浮時間應超過5分鐘。此外,推進系統必須由機載計算機和機載電池控制。該裝置的硬件和軟件應是開源的,以使其可重復使用。作為其中的一部分,將提出一個成本估算。在未來的工作中,希望MyDAS能被積極用于驗證和改進GNC算法。
如上所述,本論文是基于以前的工作,其中介紹了關于FSS的理論基礎和技術現狀[4]。理論基礎和技術現狀同樣適用于本論文,這就是為什么它們在本文件中沒有明確重復。在第2章運動方程中,以前工作中的簡化運動方程被指定用于其中一個推進配置。第3章氣動系統討論了MyDAS的氣動系統。第4章電子學中解釋了MyDAS的電路以及所有的電子元件。第5章框架設計的主要內容是構建和制造一個定制的、3D打印的框架,該框架將所有的部件固定在一起。第6章設置和測試描述了在組裝MyDAS的過程中對單個和組合部件的若干測試。在第7章實驗中,全功能的FSS被用在一個花崗巖試驗臺上,以證明其功能,以及描述某些推進方面的特征。最后一章的結論是對工作的總結以及對未來工作的建議。復制MyDAS的基本信息,如技術圖紙、材料清單和Python列表,可以在附錄中找到。此外,該代碼與CAD文件和更多不能打印在紙上的數據一起在網上提供。
軍事決策在不同的領域--陸地、海洋、空中、太空和網絡--以及不同的組織層面--戰略、作戰、戰術和技術上發揮著關鍵作用。建模和仿真被認為是支持軍事決策的一個重要工具,例如,生成和評估潛在的行動方案。為了成功地應用和接受這些技術,人們需要考慮到整個決策 "系統",包括決策過程和做出決策的指揮官或操作員。
人工智能技術可以以各種方式改善這個決策系統。例如,人工智能技術被用來從(大)數據流中提取觀察結果,自動建立(物理/人類/信息)地形模型,產生對未來事件和行動方案的預測,分析這些預測,向人類決策者解釋結果,并建立人類決策者的用戶模型。
對于所有這些應用,人工智能技術可以在不同的情況下被使用,并且已經開始被使用,因此有不同的要求。在本文中,我們概述了人工智能技術和模擬在決策"系統"中的不同作用,目的是在我們的社區中促進對人工智能的綜合看法,并為用于軍事決策的各種人工智能研發奠定基礎。
軍事決策有多種形式。它發生在不同的領域--陸地、海洋、空中、太空、網絡--以及不同的組織層次[7]。例如,在戰略層面上,決策是否以及何時在一個特定的作戰區域內開始一項軍事任務。在作戰層面上,聯合部隊指揮官決定為某項行動分配哪些軍事要素,并指定在具體行動中尋求的預期效果。在戰術層面上,例如,海上任務組的反空戰指揮官決定由哪艘護衛艦來應對來襲的威脅。最后,在技術層面上,要決定在什么范圍內使用什么武器來消滅對手。
建模和仿真被認為是支持這些現場決策過程的一個重要工具(例如,見[3]的清單)。它提供了一種理解復雜環境和評估潛在行動方案有效性的手段,而不必使用現場測試。因此,借助于建模和模擬可以更安全、更便宜、更快速,而且可以更容易地測試不同的操作方式。此外,對于戰場上的軍事行動來說,廣泛地試驗軍事行動應該如何進行,甚至可能在道德上不負責任。因為,在指揮官可以決定不繼續按照同樣的戰術行動之前,就已經產生了意想不到的效果。
現代建模和仿真經常得到人工智能(AI)技術的支持。例如,用于仿真單個節點、組織和社會行為模型(見一些背景資料[13][4]),以獲得對對手合理和可能行為的洞察力。在這種行為洞察力的基礎上,可以為許多決策層面的軍事行動設計提供智能分析和決策支持。此外,人工智能技術被用來構建這些模型,與這些模型互動,并迅速分析大量的模擬結果數據。這里的技術進步非常多,例如,使用機器學習來構建更真實的行為模型[11],改善人機協作[5],對大量的模擬數據進行理解[10]。然而,人工智能技術只有在對決策者有用的情況下才能也應該被用于軍事決策。這意味著,只有在決策質量提高或決策過程變得更容易的情況下,才應將人工智能技術(在建模和仿真中)整合起來。
成功應用和接受用于決策支持的模擬仿真--可能建立在人工智能技術之上--取決于與主要軍事決策過程的互動和不斷學習([1])。決策者和分析員應該知道如何提出正確的輸入問題,以便通過建模和仿真來回答。然后,這些問題應該通過建模和仿真研究轉化為正確的輸出答案。因此,在各種互補的人工智能技術的支持下,應該對軍事決策過程和軍事模擬之間的互動有一個廣泛、全面的看法,并服從不同的功能要求。在本文中,我們概述了由人工智能技術支持的軍事仿真在決策"系統"中的不同作用,目的是在我們的社區內促進對人工智能的綜合看法,并為軍事決策的各種人工智能研發奠定基礎。
如引言所述,決策發生在不同的領域和不同的組織層面。在這里,我們提出了一個決策系統的示意圖,以提供一個關于如何通過仿真來支持決策的一般見解。這一觀點(圖1)來自于對多個決策過程的分析,如聯合定位[5]、作戰計劃[7]、海上反空戰[1],并與著名的OODA環[8]相結合。該觀點中的元素解釋如下。
圖1:由建模和仿真支持的軍事決策周期的系統觀點。
觀察:OODA循環的第一步是觀察,從廣義上講,就是觀察現實世界中正在發展和出現的事件和情況。觀察包括,例如,來自傳感器的(原始)數據,包括我們自己的眼睛和耳朵,以及來自報告、報紙和社會媒體的符號數據。還收集了來自高層指揮和控制實體的指導意見。這些數據由分析員處理,對鏡頭中的個體進行命名,計算某些Twitter標簽的出現次數,驗證某個事件是否真的發生,等等。根據[9],這可以被稱為情境意識的第一級:對當前情況下的元素的感知。
世界模型:在OODA環的觀察步驟中,已經開始了構建世界模型的過程,無論是隱性的還是顯性的。符合軍事決策觀點的世界模型的另一個名稱是共同行動圖。所有相關的概念都在世界模型中得到體現,包括不確定因素和假設。請注意,世界模型可以被仿真,即個體、平臺、團體或社會的行為可以隨著時間的推移而被預測,即使是在用戶的頭腦中隱含完成。
定位:在OODA循環的第二步,分析者使用他的專業知識,對觀察結果進行推理,形成假設,例如對手的意圖。通過這樣做,實現了對真實世界的深入理解[12],這反映在世界模型中(仍然是顯性或隱性的)。在態勢感知方面,這被稱為第2級(對當前形勢的理解)和態勢感知能力第3級(對未來狀態的預測)。在任何時候,推理的結果可能是世界模型結構是不充分的,例如,現實世界的一個方面被認為是不相關的,但最后發現是相關的。因此,世界模型需要被更新。
決定:決策者,可能是與分析員相同的人,將根據對現實世界的理解,考慮如何采取行動的選項。世界模型的預測能力被用來演繹各種情景,讓人了解什么是理想的行動方案,什么不是,或者讓人了解空間和/或時間上的關鍵點,這樣就可以對這些關鍵點給予額外考慮。當然,如果世界模型是隱含的,這都是決策者的精神努力。此外,對于感興趣的現實世界系統的預測行為,可以得出的結論的精確性和/或確定性有很大不同:從精確的路線,到可能的戰略和理論的廣泛指示。
行動:在OODA-環的這一步,行動被執行。這些行動發生在真實世界中,然后一個新的OODA-環開始觀察是否需要重新考慮已經做出的決定。另一個行動可以是向 "較低層次"的決策過程下達命令,例如,讓下屬單位計劃和執行他們所得到的任務。這就是不同組織層次的決策過程的互動方式。還要注意的是,盡管每個組織層面的世界模型都與真實世界相聯系,但這些世界模型的結構(即被認為是相關的)可能是不同的。
從概念上講,在上述的決策過程中引入模擬(實際上首先是建模的巨大努力)是很直接的。在第一步和第二步中,建立了世界相關部分的模型,在以后的時間里,它被用來評估許多不同的情景,分析由此產生的結果,并根據其結論做出決定。正如后面將顯示的那樣,人工智能技術的作用與建模和模擬的使用有很大關系。
雖然從概念上來說,納入仿真模擬和人工智能技術是很簡單的,但為了給行動提供真正的附加值,它需要被嵌入到具體的決策過程中。而每個決策過程都是不同的,有不同的時間限制,不同的行動者,在不同的操作環境中。這將對開發使用的解決方案,包括人工智能技術,提出不同的功能要求。此外,根據具體的作戰決策環境,應用人工智能技術的附加值(或缺乏附加值)將是不同的。在下一節中,我們將對一個具體的案例進行進一步的探索,盡管肯定不是詳盡的努力,以允許對這種系統在這個過程中可能具有的不同角色進行更通用的識別。
本節提供了一個關于如何利用仿真和人工智能技術來支持作戰層面上的(蓄意)聯合目標定位決策的案例研究。對于每個想法,都有以下描述:被加強的行為者(決策者)和/或產品,人工智能如何提供支持,以及使用這種形式的支持的附加值是什么。請注意,這個案例研究的目的是為了更好地了解人工智能技術應用的廣度,因此,目標不是完全涵蓋所有的可能性,也不是過于詳細。這種類型的案例研究已經確保了可以得出初步的功能要求,人工智能技術和智能建模與仿真應該應用于此。
圖2顯示了北約盟國聯合出版物3.9中的聯合瞄準決策周期,其中強調了五個想法。
圖2--來自北約盟國聯合出版物3.9的聯合目標定位周期,JFC=聯合部隊指揮官,JTCB=聯合瞄準協調委員會,JTL=聯合瞄準清單,TNL=目標
想法1--基于AI的目標系統分析的所有來源分析。第一個想法是支持目標小組的成員在聯合目標定位周期的第二階段參與目標系統分析,進行目標開發。例如,假設從第一階段開始,就打算通過瞄準對手的石油生產來擾亂其資金能力。在第二階段,分析人員將研究石油生產的目標系統,以確定油井、煉油廠、管道、重要的道路,也許還有相關的關鍵人物,等等,基于他們擁有的所有來源(圖像、信號情報、人類情報,等等)。
人工智能技術可以協助人類分析員建立 "目標系統模型",即通過采用模式識別算法來處理大量的所有來源的信息,通過使用推理算法將信息碎片組合成一個結構化和連貫的整體。分析傳入信息的算法可能--經過增量的人工智能驅動的創新--也能夠識別尚未反映在目標系統模型中的新概念,然后可以自動添加到模型中。另一種可能性是創建一個 "虛擬分析師"(見圖3),通過不斷挑戰假設、假說和人類偏見來協助人類分析師,這需要額外的用戶建模和可解釋的AI技術。
圖3:人類和虛擬分析員,一起解釋數據,推理信息和知識,以建立一個目標系統模型。
這個想法的潛在附加值首先體現在完整性上,更多的目標可以呈現給人類分析員--它仍然可以為交叉檢查的目的做最后一步的目標審查。因為所有來源的情報都被整合到目標識別決策中,所以可以得出更具體的目標信息。識別算法經過訓練后,與基于人眼從數據中識別目標時相比,可以更快更及時地進行識別。最后,該算法可以明確地轉向識別不同類型的目標,這些目標可能并不都在人類分析員的經驗或觀察能力范圍內。
想法2--通過算法識別來自目標系統分析的優先目標。第二個想法是支持從一個給定的目標系統分析中識別優先目標。這有助于目標支持小組成員得出一個聯合的優先目標清單,該清單是在聯合目標定位周期的第二階段,即目標開發階段制定的。人工智能技術的支持始于將目標系統分析(如果還沒有的話)轉化為計算機可理解的形式,該形式由功能關系連接的實體組成,并由目標任務的目標支持。然后,在相關的時間范圍內計算直接或間接瞄準不同實體所產生的效用(例如,效果和效果的持續時間)。
然后,最終結果可以由人類分析員檢查,該分析員可能會重新引導算法的某些部分,以確保最終結果選擇的優先目標盡可能地滿足和平衡任務目標。另一種可能性是,分析表明,對目標系統的某些部分還沒有足夠的了解,無法做出某種決定,然后發出新的情報請求,以減少這種不確定性。
在這種情況下,使用人工智能技術的附加價值首先體現在通過完整地確定優先事項,包括最大限度地實現任務目標,同時最大限度地減少負面問題,從而更好更快地確定優先次序。這種全面的分析可能會導致原始的目標選擇,在這種情況下,會發現反直覺但非常有效的目標。目標優先級的可追溯性增加了,因為目標選擇問題的算法規范以及積極和消極的相關功能迫使決策者在激發他們的偏好時完全明確。
想法3--能力和優先目標的自動映射。與目標開發(第二階段)密切相關的是第三階段的能力分析。第三個想法是協助,仍然支持目標支持小組的成員,找到最適當的(致命和非致命)能力的最佳同步組合,可以應用于產生所需的物理和心理效果。使用模擬和人工智能技術來自動生成和播放高水平和低水平的行動方案,可以獲得對計劃的優勢、機會、弱點和威脅的深刻理解。當然,只有在與人類分析員和決策者密切合作的情況下,建立這樣的理解才是有用的,這就需要有人類意識的 "虛擬分析員 "技術。
想法4--計算機輔助的穩健和適應性部隊規劃和分配。在聯合定位的第四階段,能力分析的結果被整合到進一步的行動考慮中,推動聯合部隊指揮官對目標的最終批準。仿真和人工智能優化技術可用于尋找稀缺資源對目標或其他任務的最佳分配。什么被認為是 "最好的 "可以是不同的,例如,爭取最大的效果、安全、穩健、靈活,或這些和更多因素的任何組合。這可能會提供原始的規劃和分配方案,從人類分析者的角度來看,這些方案部分是反直覺的,但卻富有成效。智能優化算法可以幫助確定時間和/或空間上值得監測的關鍵點。而且,如果可以實時跟蹤進展,在事件或機會實際發生之前就可以立即生成重新分配方案,在時間緊迫的情況下減少決策時間。
想法5--自動評估軍事行動績效措施。在聯合定位的最后階段,收集和分析數據和信息,以確定計劃的行動在多大程度上得到執行(績效的衡量),以及達到預期的效果(效果的衡量)。因為這種類型的分析與其他階段的分析基本相似(即需要觀察和理解),所以在這里采用的模擬和人工智能技術可以被重復使用。例如,"目標系統模型"可以用來事先確定哪些措施或措施的組合最能說明性能和/或成功,也許還要考慮到其他因素,如效果的可測量性和延遲性。這些見解可用于指導例如戰斗損失評估工作。算法可以自動產生多種假設,當數據/信息可用時,"虛擬分析師"可以協助對這些假設和信息進行推理,幫助人類分析師以結構化的方式更好地解釋復雜的情況。
在本節中,我們將討論人工智能技術在軍事決策中可以發揮的作用,并將這些作用與前面介紹的軍事決策系統聯系起來。這些作用是由上面的案例研究綜合而成的。不同的作用是沿著兩個層次結構的,從上到下:在 "過程"層面,不同但連貫的步驟/階段被執行;在 "個體"層面,人類(或團隊)負責執行決策過程的特定步驟。
在整個決策過程的層面上,有多個步驟可以區分。在前面介紹的決策系統觀點中,這些步驟是觀察、定位、決定和行動。在聯合定位案例研究中,這些對應于六個階段,由不同的人在不同的時間執行。在這個層面上,我們為人工智能技術定義了四個功能角色,以支持決策過程。
感知:這個角色中的人工智能技術,主要以模式識別的形式,幫助處理大量的數據,如在圖像中尋找人,檢測數據流中的異常情況等。
態勢理解:這個角色的功能是實現對當前或假設的作戰環境的理解[12],從而描述所有相關實體、它們之間的關系以及不可觀察的屬性,如它們的野心和目標。例如,對關于最近敵對活動的現有信息進行推理,結合關于他們的理論的一般知識,可以用來產生關于他們最可能的意圖的假設。
計劃生成:在這個角色中,人工智能技術,例如搜索和優化,被用來生成旨在達到(或避免)某種目標情況的計劃、策略和行動方案。處理元標準,如計劃的穩健性或情況的實用性也是這個作用的一部分。顯然,在許多情況下,不確定性是行動環境所固有的,因此不能被忽視。盡管如此,對當前形勢的理解越好,預測能力就越強。
學習:扮演這一角色的人工智能技術被用來更新有關作戰環境的知識。例如,在某個時間點,人們可能會發現一個被認為是正確的關于敵人理論的假設不再有效了。為了能夠保持正確的理解,這種新知識應該反映在所有其他決策步驟中。
在單個節點層面上,決策過程的單一步驟被執行,通常由一個或一組人類分析員和/或決策者負責。無論這一步需要什么,人工智能技術都可以在不同的合作角色中被使用,以支持人類。
專家系統支持:在這個角色中,支持的形式就像一個經典的專家系統,以知識和優化結果的形式向人類決策者或分析員提供建議。重要的考慮因素是,例如,如何以人類能夠接受的方式向其提供建議。對可解釋人工智能的研究可能是一個方向。
虛擬團隊成員:在這個角色中,人工智能技術被用來在人類和支持系統之間創造一種更平等的互動關系,積極為一個共同的目標工作。例如,虛擬團隊成員可以通過提出問題使假設明確化或挑戰偏見來幫助做出決定的(認知)過程。人類-人工智能的研究可能是一個追求的方向。
自主決策:決策過程中的其他步驟的互動,專家系統和虛擬團隊成員支持的考慮同樣有效。例如,在其他決策中的人類需要能夠推斷出一個自主系統。
圖4顯示了在軍事決策系統視圖中繪制的人工智能的七個角色。當使用模擬和人工智能來支持決策過程時,應該始終考慮這些不同的角色是如何互動的,無論是在過程層面還是在個人層面。例如,在聯合目標定位的過程層面上,第二階段包括定位(目標系統分析)和決定(為達到預期效果而瞄準什么)。第三階段也包括定位(自身能力)和決定(如何實現預期效果)。這些階段共享相同的世界模型,在這個過程中引入人工智能支持將推動這些步驟的合并,這不是不可想象的。在個體層面上,例如再次考慮第2階段,分析員可以得到綜合態勢理解、規劃生成和學習技術的支持,以及虛擬團隊成員和專家系統支持技術的任何組合。
圖4:由建模和仿真支持的軍事決策周期的系統視圖,其中人工智能技術的功能(黃色)和協作(綠色)作用被描繪出來。
在本文的第一部分,我們介紹了軍事決策的系統觀點,主要基于OODA循環,其中我們介紹了世界模型,作為向整個決策周期提供建模和仿真支持的核心手段。接下來,從我們的聯合目標定位案例研究中,我們推斷出人工智能可以為軍事決策做出貢獻的七個功能性和協作性角色。這些角色對應于決策步驟,或者對應于如何向負責該過程步驟的人提供支持。最后,我們將這些人工智能角色整合到決策系統視圖中。
本文的目標是為我們社區內人工智能的綜合觀點做出貢獻,并為軍事決策的人工智能各種研發奠定基礎。在開發支持軍事決策的模擬和人工智能時,我們建議同時考慮過程層面和單個節點層面。在過程層面上,通過使用建模和仿真可以獲得好處。在單個節點層面上,為人類分析員和決策者提供實際支持,人工智能技術可以通過不同的角色組合對此作出貢獻。鑒于決策過程的各個步驟都是不同的,并且提出了不同的要求,履行這些不同角色的人工智能技術需要作為一個整體來開發。
我們相信,隨著對這一主題的更多研究,軍事決策的速度和質量都可以得到改善。然而,非常重要的是,要持續關注特定的未來人工智能應用的附加值,以及研究這些應用可能對,例如,負責該過程的人的所需技能,甚至該過程本身的影響。最后需要的是一個系統,它的存在是因為它可以建立,而不是有人幫助。對于這一點,應該更普遍地回答如何限定然后量化應用人工智能進行具體軍事決策應用的附加價值的問題。這樣的見解反過來又會成為關于人工智能用于軍事決策的集體技術路線圖的寶貴基礎。
[1] Bloemen, A., Kerbusch, P., van der Wiel, W., Coalition Force Engagement Coordination, TNO Report TNO-2013-R12117, 2015.
[2] Connable B, Perry W, Doll A, et al. Modeling, Simulation, and Operations Analysis in Afghanistan and Iraq. Santa Monica, CA: RAND, 2014.
[3] Davis P., Kulick J., Egner M. Implications of Modern Decision Science for Military Decision-Support Systems. Santa Monica, CA: RAND, 2005.
[4] Kunc, M., Malpass, J., White, L.(2016). Behavioral Operational Research, Theory, Methodology and Practice. Palgrave Macmillan, London.
[5] Langley, P., Meadows, B., Sridharan, M., Choi, D. (2017). Explainable Agency for Intelligent Autonomous Systems. Proceedings of the Twenty-Ninth AAAI Conference on Innovative Applications (IAAI-17).
[6] NATO Allied Joint Doctrine For Joint Targeting AJP 3.9(B), 2015.
[7] NATO Allied Command Operations. Comprehensive Operations Planning Directive Interim V2.0.
[8] “OODA loop.” Wikipedia, The Free Encyclopedia. 10 Mar. 2018.//en.wikipedia.org/wiki/OODA_loop
[9] “Situation Awareness.” Wikipedia, The Free Encyclopedia. 17 Mar. 2018.
[10] Smit, S., Veldhuis, G., Ferdinandus,G., et al. KaV Advanced Visual Analytics, TNO Report DHWELSS-, 2016.
[11] Toubman, A., Poppinga, G., Roessingh, J. (2015). Modeling CGF Behaviour with Machine Learning Techniques: Requirements and Future Directions. Proceedings of Interservice/Industry Training, Simulation, and Education Conference (I/ITSEC) 2015.
[12] “Understanding.” Wikipedia, The Free Encyclopedia. 18 Apr. 2018.
[13] Zacharias, G., MacMillan, J., van Hemel, S. (2008). Behavioral modeling and simulation: From individuals to societies. National Research Council, National Academies Press.
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構