這個項目利用RL的一些最新進展來開發實時戰略游戲的規劃器,特別是MicroRTS來代替Stratagem計劃的兵棋。PI實驗室的這些進展之一被稱為強化學習作為預演(RLaR)。在此之前,RLaR只在玩具基準任務中進行了評估,以確定其在減少樣本復雜性方面的功效。這個項目為行為者-評論者架構開發了RLaR,并首次將其應用于具有不完整信息的復雜領域,如MicroRTS。本項目中應用的另一項技術源于最近在復雜的《星際爭霸II》游戲中多智能體學習的成功,特別是多階段訓練的架構,在訓練穩健策略的中間階段發展聯盟和聯盟開拓者策略。
我們針對MicroPhantom--最近MicroRTS比賽的亞軍--對RLaR進行了訓練,結果表明它能夠對這個對手進行有效的計劃,但使用的樣本比相關基線少。另外,我們使用4個階段的訓練方案在自我博弈中訓練RLaR,并針對MentalSeal(冠軍程序)和MicroPhantom評估了訓練后的策略。雖然該策略在面對MicroPhantom時再次顯示出良好的性能,但它在面對MentalSeal時卻沒有表現得很好。根據先前的初步發現,針對MentalSeal的訓練是非常緩慢的,我們推測需要大量的訓練時間,而不是我們在這個項目的延長期內能夠投入到這個步驟中的。
FAST項目(基于智能體的系統基礎技術)是一項為期三年的研究和開發工作,與位于紐約州羅馬的空軍研究實驗室簽訂合同。該項目從一開始就由美國海軍贊助,在項目的后期,美國空軍也做出了額外的貢獻。
該項目的主題是探索新的建模方法和基于模型的軟件生產技術,以提高所開發軟件的質量,同時縮短開發時間,提高設計的可重復使用性。在模型驅動的軟件和系統開發,以及海軍的任務工程有很大的相似性。傳統上,這兩個過程都是以自下而上的方式開發,而自上而下的方法則更有針對性和前景。這種自上而下的方法的最初步驟必須是一個概念模型,概述基于一組給定事實達到預期目標所需的所有(概念)決策。對于任務工程來說,這個決策建模器有助于確定所有需要做出的關鍵決策,以及相應的任務,以便規劃和執行一個成功的任務。對于軟件或系統工程師來說,決策建模器概述了設計中的系統的關鍵語義和相應結構。雖然存在對系統工程的建模支持,在某種程度上也存在對軟件工程的建模支持,但沒有任何工具支持將決策建模器作為系統或軟件設計模型的一個完全集成部分來建立。因此,由于其根源在于系統建模語言(SysML),任務工程也缺乏決策建模能力。
我們通過為統一建模語言(UML)建模工具MagicDraw(又名Cameo)開發決策建模器能力,作為一個可加載的插件,與商業上可用的插件,如SysML、UAF等兼容,縮小了這一差距。決策建模器實現了決策模型和符號OMG標準所定義的決策需求圖的增強型變體,但在其他方面偏離了OMG標準,以提供更復雜的決策表達建模、決策仿真能力,以及與SysML(v1.x)的無縫集成能力。為了在更大的仿真場景中進行協作,我們為MagicDraw開發了第二個插件(名為SimCom),允許決策建模器的仿真能力與外部仿真系統(如高級仿真、集成和建模框架(AFSIM))之間進行實時協作。SimCom插件實現了一個受 "高級架構"(HLA)仿真協議啟發的輕量級協議。我們用決策建模器和AFSIM之間的協作場景展示了這種能力。
雖然決策建模器的工作使我們偏離了開發時間和空間(4D)、基于模式建模方法的最初計劃,但我們的深入合作和對SysML v2的貢獻,在很大程度上彌補了這一點,提交給OMG。SysML v2已經達到了與我們最初計劃的相似的4D特征。在SysML v2環境下重建決策建模器將是一項有趣和有益的任務。除了參與SysML v2的工作,該項目還在其他幾個OMG標準的開發中起到了主導作用。
許多建模方法包括隱含或嵌入的決策制定。這些建模案例有流程圖、活動圖、業務流程模型等等。決策建模作為一門專門的學科是比較新的。對象管理小組創建了決策建模和符號(DMN)規范,最初是為了使BPMN1業務流程模型中的決策更加明顯,并支持更詳細的決策過程。這段歷史的缺點是,DMN現在與BPMN的關系非常緊密,尤其是在元模型層面。因此,DMN,不能直接與UML或SysML集成。為了使DMN風格的決策建模與UML和SysML模型協作,特別是使現有的UML建模工具能夠進行DMN風格的決策建模,必須創建一個決策建模UML配置文件,與DMN元模型密切相關。
決策建模器的開發和目標部署平臺是MagicDraw 19.0 SP4版本。MagicDraw(也被稱為Cameo)是一個UML建模工具,由No Magic公司開發和銷售。No Magic最近被Dassault Systèmes收購,Dassault Systèmes將繼續進一步開發和銷售這個工具,可能會用不同的名字。
MagicDraw是一個用Java實現的UML建模工具。它支持并使用一個插件架構來擴展其建模能力,涵蓋其他基于UML的建模語言和方法,如SysML、UAF和其他。一個OpenAPI工具箱可以用來支持自定義插件的開發。
圖 2 - MagicDraw(又名 Cameo)環境中的決策建模器
決策建模器和SimCom通信引擎是由FAST項目為MagicDraw開發的兩個定制插件。SimCom插件沒有任何先決條件,而決策建模器插件的功能需要SysML和Alf插件的存在。由于UAF是基于SysML的,決策建模器也可以用于基于UAF的企業模型。決策建模器和SimCom插件的安裝程序都與MagicDraw資源管理器一致。
雖然在整個FAST項目中開發的技術是朝著符合相關標準的方向做出的最大努力,像OMG規范的元對象設施(MOF)、統一建模語言(UML)、系統工程建模語言(SysML)等;或者像世界網絡聯盟(W3C)開發的網絡本體語言(OWL)、資源描述符框架(RDF)或其他,但我們自己也大力參與了新標準的開發,即在對象管理小組內。
雖然標準的制定是繁瑣的工作,但它的回報是許多好處。某一主題的標準化要求它處于該主題發展的第一線。這項工作通常是在研究實驗室或高級開發部門的隱蔽處進行的。然后,標準化要求開發人員開放并與世界各地同行討論該主題,這在所有案例中都是有益的。
在FAST項目期間,我們參與了對象管理小組的幾個標準化任務。所有這些任務都是在FAST項目之前的某個時間開始的,但這些任務的持續工作和討論為FAST項目提供了重要的投入和科學效益。我們所參與的任務是: MOF到RDF的轉換,元模型擴展設施,系統工程建模語言第二版,智能體和事件元模型,以及不確定性建模的精確語義學。另見本文件后面的標準化活動一章,以及項目技術報告(CDRL A010)中的相應章節。
決策模型由兩類元素組成:主動和被動元素。
主動元素是決策元素,它在模型執行過程中影響模型結果的整體結果(最高目標值)。根據OMG DMN規范,這些主動元素被定義: Decision、DecisionService和BusinessKnowledgeModel。
被動元素不包含任何決策邏輯,因此不直接影響模型的結果。它們可能需要協助連續的活躍元素之間的信息流,或者注釋決策模型。OMG DMN規范定義了以下兩個被動元素: InputData和KnowledgeSource。
我們決策模型的所有元素,無論是主動還是被動,都有相同的基本結構:它們將接受一個到多個輸入,稱為 "輸入事實",并產生一個單一的輸出,稱為 "結果事實"。所有的事實都可以是單值或復值,在這種情況下,它們是單值的結構。
聯合全域指揮與控制(JADC2)是一項長期的工作,旨在連接跨太空、空中、陸地、海洋和網絡領域的軍事資產。美國防部打算讓JADC2分析所有這些領域的作戰數據,使決策者能夠更有效地確定、執行和監測行動。
美國防部正處于開發JADC2的早期階段,并發布了初步指南,包括一項概述廣泛目標的戰略。然而,國防部還沒有確定細節,如哪些現有系統將有助于JADC2,以及未來需要開發哪些能力。一份眾議院報告指示國防部報告整個JADC2工作的范圍、成本和時間表。目前,國防部正處于確定這些內容的早期階段。
2020年4月,美國政府問責局報告了空軍對JADC2的貢獻--先進戰斗管理系統(ABMS)--并建議空軍制定采購和規劃文件。自那時起,空軍已經采取了措施,并確定了兩項ABMS工作:
2022年6月,空軍成立了一個公司聯盟,協助制定網絡要求,稱為ABMS數字基礎設施,以實現ABMS工作。此外,在2022年9月,空軍為ABMS建立了一個新的領導結構。雖然這些都是發展ABMS的積極步驟,但空軍迄今尚未交付任何能力,并正在確定未來的能力和交付時間。
為了保持對對手的競爭優勢,美國防部(DOD)的軍事指揮官需要一個實時的、完整的戰斗空間圖,以便他們能夠迅速做出明智的決定,指導行動,并監督行動的執行。歷史上,當國防部和軍事部門獲得武器系統時,他們通常優先考慮單個系統的能力,而不是連接性、數據互操作性和各系統的功能兼容性。國防部認識到,其系統現在需要在更復雜的戰斗環境中運行,并需要更多的連接性。國防部打算讓全域聯合指揮與控制(JADC2)來解決這些問題,利用數字環境來分析所有領域的作戰數據,使決策者能夠更有效地確定、執行和監控行動。
先進戰斗管理系統(ABMS)是空軍對JADC2的貢獻。它旨在建立一個數據網絡以連接空軍和太空部隊的傳感器、系統和武器。2020年4月,美國政府問責局發現,空軍在沒有商業案例的關鍵要素的情況下開始了ABMS的開發,如為預算要求提供成本估算。
伴隨著H.R.4350號法案的一份眾議院軍事委員會報告包括了一項由GAO對ABMS進行審查的規定。此外,眾議院戰術空軍和陸軍小組委員會要求GAO對ABMS進行審查,以及它將如何促進國防部為JADC2制定更廣泛的目標。本報告討論了(1)空軍為ABMS能力制定計劃的程度,以及(2)國防部對JADC2的定義。
為了評估空軍在多大程度上制定了ABMS能力計劃,審查了ABMS采購計劃文件,以確定空軍確定了哪些能力,以及開發這些能力的成本和時間表。這些文件包括計劃簡介、采購戰略、需求文件、成本評估和合同文件。GAO還審查了空軍向國會工作人員提供的ABMS狀況簡報。GAO利用美國政府問責局確定的采購領先做法分析了這些文件,以確定空軍計劃是否涉及商業案例的關鍵要素。這些要素包括確定的要求、獲得成熟技術的計劃、成本估算和可承受性分析。
GAO還將這些文件與國防部的采購指南進行了比較,如適應性采購框架主要能力采購途徑和軟件采購途徑,以確定空軍計劃是否包括采購規劃的關鍵組成部分。GAO還確定了空軍為解決美國政府問責局先前關于ABMS的工作中的公開建議所采取的步驟,其中包括開發商業案例的關鍵要素的建議。此外,GAO審查了ABMS合同,以確定空軍計劃如何利用承包商來幫助滿足ABMS的要求。此外,GAO采訪了空軍ABMS的領導和官員,以了解目前ABMS的工作以及空軍計劃如何確定和優先考慮未來的ABMS工作。GAO還討論了空軍辦公室在規劃和執行ABMS工作中的作用和責任。
為了評估美國防部對JADC2的定義程度,審查了關鍵政策、規劃文件、實施指南、信息文件和概述簡報,包括機密和非機密文件。審查了這些文件以確定JADC2的目標、JADC2的管理結構、JADC2官員的角色和職責以及國防部領導層對如何實施JADC2目標的指導。還審查了與每個軍事部門對JADC2工作的貢獻有關的文件,包括空軍的ABMS、海軍部的Overmatch項目和陸軍的Convergence項目。盡管獲得了信息以獲得對 "聚合項目 "和 "超配項目 "的總體了解,但鑒于重點是國防部如何定義JADC2,所以沒有詳細評估這些努力。此外,采訪了JADC2的領導層以及來自國防部長辦公室和聯合參謀部的官員,他們代表了JADC2七個工作組中的四個。討論了國防部在執行JADC2目標方面的進展,潛在的挑戰,以及為應對這些挑戰所采取的措施。此外,采訪了空軍、空軍、海軍、海軍陸戰隊和陸軍的官員,以確定每個軍事部門目前為實現JADC2目標所做的努力,并討論國防部領導層如何為實施JADC2提供指導。
在2021年10月至2023年1月按照公認的政府審計準則進行了這次績效審計。這些標準要求計劃和實施審計,以獲得充分、適當的證據,為基于審計目標的調查結果和結論提供合理依據。所獲得的證據為基于審計目標的審計結果和結論提供了合理的依據。
這項研究是根據W/001/TOR合同的任務13為加拿大國防研究與發展(DRDC)多倫多研究中心(TRC)進行的,以支持DRDC在先進平臺和武器(APW)戰略重點領域(SFA)的建模和仿真(M&S)能力。目前的研究考察了與便攜式防空系統(MANPADS)有關的人為因素問題。
在DRDC提供的文件基礎上,進行了開源文獻搜索,以確定文獻審查的相關出版物。為匯編和評估制定了一個數據收集框架。根據文獻對便攜式防空系統和人類問題的關注程度,選擇了一套精煉的文獻(N=21)。研究小組審查并總結了這些文獻。審查涉及到與肩扛式導彈的使用概念、系統、訓練方法、測試和評估(T&E)、自動化、生物力學、目標跟蹤和人體性能模型有關的人為因素的作用。在該領域確定了一些人因工程(HFE)的知識差距。
基于這些發現,建議在DRDC的模擬環境中執行一組小型的未來研究課題。此外,還概述了在DRDC模擬環境中推進研究和/或采用原型工具的下一步建議。這些研究課題領域列在下面,需要進行驗證,以確保與DRDC的優先事項相一致。
人體測量分析--根據MIL-STD-1472H標準,開發一個準確的人體性能數據庫,代表全部的人體尺寸范圍(即第5-95百分位)。
環境服裝和防護設備--調查與寒冷天氣服裝相關的人體性能以及穿戴防護設備對準確性的影響,并確定肩扛式導彈是否可以在寒冷天氣環境下合理使用。
與目標交戰序列(TES)相關的操作訓練程序--對操作程序進行訓練和練習,以確保在電池冷卻裝置(BCU)的電池壽命內完成目標獲取和交戰。
地形--小組長選擇最佳位置攻擊空中威脅,確保為小組提供足夠的保護。
任務長度--長期任務對人的表現的影響,這些任務是在緊張的條件下進行的,需要在攜帶貨物時快速移動;以及
視覺搜索模式--調查小范圍和大范圍內的最佳搜索模式(水平、垂直)。
本報告詳細介紹了用于評估強化學習 RL 算法的系統、測試環境和結果,以確定它們在沒有外部傳感器幫助的情況下降低慣性導航系統 INS 位置誤差漂移率的能力。創建了一個定制RL 環境來訓練 RL 算法,以校正來自 INS 的原始慣性測量值,使得位置在被全球導航衛星系統 GNSS 校正后更接近 INS 位置。當 GNSS 輔助被移除時,RL 系統將繼續校正慣性測量,因為它在 GNSS 輔助被移除之前接受過訓練。 RL 系統中使用了多種 RL 算法,并根據其校正慣性測量的能力評估了它們的性能,以允許更準確的位置解決方案減少位置誤差。還評估了算法對計算機資源的使用和實時操作的能力。本報告中描述的數據收集和評估表明,RL 系統可以幫助減少 INS 的位置誤差,而無需借助 GNSS 等外部傳感器。它還表明,某些 RL 算法比其他算法更適合此類系統。最后,這項研究確定了兩種 RL 算法,它們將繼續用于與這項工作相關的進一步測試。
通過強化訓練改善漂移--慣性傳感器(DIRT-I)項目的主要目標是通過使用強化學習(RL)或訓練,在沒有全球導航衛星系統(GNSS)的情況下延長慣性傳感器的保持時間。在本文件中,GNSS和GPS(全球定位系統)這兩個縮寫詞可以互換使用。其基本概念是用一個由GNSS輔助的慣性傳感器來訓練RL系統。這將允許RL系統在被GNSS輔助校正之前和之后學習慣性數據。一旦它被充分訓練,GNSS輔助將被禁用,以模擬一個GNSS否認的環境,RL系統將提供對慣性數據的修正。然后,該慣性數據將被用來為用戶提供一個位置解決方案。我們的想法是,RL系統將查看所有可能導致慣性傳感器漂移的誤差源的總和,并對它們進行修正,以便在沒有GNSS的情況下提供一個精確的位置解決方案,這比沒有RL系統的情況下通常是可能的。這個概念如圖1所示。
由于RL系統是在慣性傳感器上進行訓練的,它在每次訓練中都會創建自己的傳感器及其噪聲源的模型。這意味著RL系統可以與各種慣性傳感器一起使用。由于誤差源都是混在一起的,所以不管它們是線性還是非線性的,也不管它們是平臺還是用戶特定的噪聲源。換句話說,一個慣性傳感器可能有一些內置的東西來糾正會對性能產生不利影響的溫度變化,但制造商對傳感器將要使用的平臺一無所知,所以沒有辦法糾正來自任何特定平臺的誤差源。這就是RL系統將能夠提高性能的地方。在DIRT-I項目的第一年,重點是一個地面車輛和一個慣性導航系統(INS)。
數字航空準備技術引擎(DARTE)為美海軍FA-18機隊提供前所未有的預測戰備能力。DARTE專注于發現與預測兩個關鍵戰備指標有關的可操作的見解:有任務能力(MC)的飛機數量和飛行時間。最近DARTE的努力集中在改進方面,包括采用前沿的人工智能(AI)和深度學習技術,如時間模式注意機制增強的長短期記憶(LSTMA)網絡,超深度組合以提高性能,以及改進不確定性估計和穩健性。超深度集合和注意力機制已被證明在工業和學術界提供了最先進的結果。此外,其改進的不確定性估計為決策者提供了更高的信心水平,使其能夠做出更好、更聰明的決策。
美海軍航空的 "戰備"概念依賴于三個關鍵方面:人員配備、訓練和裝備。"人員配備"是指現有的人力,包括入伍的維修人員和飛行員。人員配備還包括維修人員的經驗水平和專業。"訓練"指的是飛行員的訓練程度和執行的飛行時間的數量。最后,"裝備"指的是必要的飛機、物資等。即使沒有嚴格的定義,也可以立即看出,損害這三個關鍵因素中的任何一個都會導致一個中隊的準備程度下降。在海軍航空界,有兩個關鍵指標被用來衡量一個中隊的準備情況:有任務能力的飛機和飛行小時的執行。具體來說,有任務能力的飛機是指達到或超過最低要求的飛機,可以運行并完成一項任務。
自1999年引進以來,海軍FA-18超級大黃蜂的總數幾乎呈線性增長,在撰寫本報告時,目前的數量已接近600架[1]。超級大黃蜂有兩個變種--單座E型和雙座F型。此外,海軍仍然使用一些老式的FA-18單座C型變種大黃蜂。FA-18戰斗機在任何時候都可以處于幾種準備狀態之一:不具備供應任務能力(NMCS),不具備維修任務能力(NMCM),部分任務能力(PMC),或完全任務能力(FMC)。理想情況下,有任務能力的飛機數量將與飛機總數成線性比例,但事實并非如此。圖1顯示了庫存的FA-18飛機的數量和按年份劃分的MC飛機的數量。在20世紀90年代末和21世紀初,MC飛機和庫存之間的關系符合預期,但在2007年附近出現了明顯的偏差,MC飛機的數量趨于平穩。這是有據可查的,改善戰備狀態正日益成為領導層的重點[4]。
雖然準確監測和預測戰備狀態的能力極其重要,但這個過程非同小可。預測能力使中隊和決策者有時間和能力重新分配資源,調整人員配置水平,并在問題發生之前做出更明智的決定。通過建立機器學習模型來預測戰備狀態,而不是憑直覺和人的洞察力,也有可能發現對中隊行動的非直覺性的見解。
數字航空戰備技術引擎(DARTE)的目標是預測FA18中隊的戰備情況,以月度MC和季度飛行小時執行情況來衡量[6]。此外,DARTE提供了在一個中隊經過一個季度時監測準備情況的能力。這是通過兩個步驟完成的。首先,創建一個深度學習模型來預測每個中隊每月的平均任務能力飛機數量。然后,這個模型被擴展并作為第二個機器學習模型的輸入,預測一個中隊在一個季度內的飛行小時執行情況。此外,還有一個可解釋的人工智能(XAI)引擎[7]和統計人員配置模型[8],伴隨著MC模型。DARTE的架構如圖2所示。
庫存中的總噴氣機數量幾乎呈線性增長,而 2007 年 MC 噴氣機的數量趨于平穩[5]。
圖 1. FA-18 噴氣式飛機的年數。
圖 2.DARTE 架構。
本文的重點是改進DARTE的基礎模型--深度學習模型,預測海軍FA-18中隊提前三個月擁有的任務能力飛機的數量。這個模型影響著DARTE的其他部分,因此,MC模型的準確性、理解性和穩健性至關重要。
本文的結構如下。第2節回顧了所使用的數據集及其調節和轉換,第3節討論了基礎MC模型的創建和結果,第4節顯示了最終模型的結果,第5節回顧了結論并討論了未來工作。
無人機系統和下一代戰車(NGCV)集成的重點是由美國國防部航空航天教育、研究和創新中心團隊推動的,以支持美國陸軍士兵的項目合作。通過與克里斯-克羅寧格和巴勃羅-古茲曼的雙周互動,與美國陸軍作戰能力發展中心陸軍研究實驗室合作,提出了創造一個盒子的想法,這個盒子可以作為無人機的存儲和平臺,讓無人機降落、起飛,并在航行中得到保護。這項工作的最初目標是開發一個高效和有效的移動無人機平臺原型,供士兵們在戰場上最終使用。計劃是對無人機停留在盒子的蓋子(平臺)上的方法進行多次測試,在盒子里時提供額外保護。
北約的 "動態信使 "行動實驗演習,計劃于2022年9月進行(DYMS-22),研究海上無人系統在行動中的作用。為了減少海上演習的局限性,并進一步探索MUS的好處,一個基于使用建模和仿真(M&S)的合成環境支持沉浸式兵棋推演。這種方法延續了該團隊的長期研究目標;通過融合人類、技術和數據來支持決策。
該合成環境由三個主要元素組成。一個北約架構框架(NAF)儀表板,一個全面的海事模擬器聯盟和一套互動的數據分析工具。它們結合在一起,使玩家能夠測試新興技術,并在一個安全的環境中擴展演習插曲。
在兵棋推演中,基于網絡的NAF儀表板為玩家討論和選擇MUS技術和插曲的擴展提供了便利。通過使用海上模擬器聯盟,玩家在生成代表性數據集以填充DYMS-22關鍵性能指標(KPI)的同時,對選定的小插曲進行可視化。利用數據分析工具,玩家詳細調查他們的選擇對關鍵績效指標的影響。
與模塊化、適應性和沉浸式合成環境的互動使DYMS-22參與者能夠在一系列迭代的兵棋推演回合中確定MUS技術的局限性和優勢。
浮動航天器模擬器(FSS)是模仿衛星在空間運動的機器人載體。使用FSS可以在地球上對制導、導航和控制算法進行實驗驗證,然后再將其應用于空間,因為空間的錯誤是災難性的。此外,FSS是空間系統工程課程中大學生的一個重要研究和教育工具。然而,目前使用的所有FSS都是定制開發和昂貴的項目。本論文涵蓋了用于教學和研究目的的新型浮動航天器模擬器的開發、組裝和測試過程,該模擬器被命名為MyDAS,代表微型動態自主航天器模擬器。通過介紹MyDAS,一個小型的、簡單的和低成本的FSS,使FSS在大學和中學階段的研究和教育中得到更廣泛的利用。討論了MyDAS的不同推進配置及其相應的運動方程。對于一個特定的配置,選擇并測試了現成的氣動和電子組件。一個模塊化和標準化的3D打印框架將所有部件固定在一起,形成一個最終的剛性載體。最后,MyDAS在各種實驗中被測試,完成了全部的硬件功能。
本論文進行小型化和簡化的浮動航天器模擬器(FSS)工作。本章簡要介紹了這項工作的動機和目標,以及本論文的結構。
未來空間任務中的航天器需要靈活、自主的制導、導航和控制(GNC)算法,如對接、接近或清除碎片的操縱[1], [2], [3]。用硬件在回路中驗證GNC算法的一種方法是使用FSS,而無需將測試對象送入太空。盡管不向太空發射任何東西而大大降低了成本,但目前的FSS仍然需要大量的經濟和費時的工作來建造和操作,這只有專門的機構或公司才可能做到。除此之外,目前的FSS都是獨特的設計,沒有標準化。引入一種新的、負擔得起的、小而簡單的FSS可以使本科生甚至高中生以及業余用戶能夠使用FSS工作。提供這種機會可以增加為未來空間任務創造更好的GNC算法的成功機會。
先前工作提出了一個更便宜、更小、更簡單的FSS的概念[4],稱為MyDAS,代表微型動態自主航天器模擬器。提出了初步的計算機輔助設計(CAD)模型、材料清單、氣動圖、接線圖、兩種浮動配置和三種推進配置。本論文的目的是建立一個MyDAS的物理工作實例。為此,所有定制設計的部件應與購買的現成部件一起制造和組裝。所有的功能部件應先單獨測試,然后再組合。最終的裝置必須能夠使用壓縮空氣供應漂浮和推動自己。如果可能的話,在不使用推進系統的空氣的情況下,漂浮時間應超過5分鐘。此外,推進系統必須由機載計算機和機載電池控制。該裝置的硬件和軟件應是開源的,以使其可重復使用。作為其中的一部分,將提出一個成本估算。在未來的工作中,希望MyDAS能被積極用于驗證和改進GNC算法。
如上所述,本論文是基于以前的工作,其中介紹了關于FSS的理論基礎和技術現狀[4]。理論基礎和技術現狀同樣適用于本論文,這就是為什么它們在本文件中沒有明確重復。在第2章運動方程中,以前工作中的簡化運動方程被指定用于其中一個推進配置。第3章氣動系統討論了MyDAS的氣動系統。第4章電子學中解釋了MyDAS的電路以及所有的電子元件。第5章框架設計的主要內容是構建和制造一個定制的、3D打印的框架,該框架將所有的部件固定在一起。第6章設置和測試描述了在組裝MyDAS的過程中對單個和組合部件的若干測試。在第7章實驗中,全功能的FSS被用在一個花崗巖試驗臺上,以證明其功能,以及描述某些推進方面的特征。最后一章的結論是對工作的總結以及對未來工作的建議。復制MyDAS的基本信息,如技術圖紙、材料清單和Python列表,可以在附錄中找到。此外,該代碼與CAD文件和更多不能打印在紙上的數據一起在網上提供。
為了支持未來的多域作戰分析,美國DEVCOM分析中心(DAC)正在探索如何在陸軍的作戰模擬中體現天基情報、監視和偵察(ISR)資產的貢獻。DAC正在使用基于能力的戰術分析庫和模擬框架(FRACTALS)作為方法開發的試驗基礎。用于預測衛星軌道路徑簡化一般擾動的4種算法已經被納入FRACTALS。本報告的重點是來自商業衛星群的圖像產品,其分辨率為1米或更低。報告介紹了預測分辨率與傳感器特性、傾斜范圍(包括地球曲率)和觀察角度的關系的方法。還討論了在不同分辨率下可以感知的例子。
在2021年建模與仿真(M&S)論壇期間,空間情報、監視和偵察(ISR)建模被確定為當前/近期的建模差距。美國陸軍作戰能力發展司令部(DEVCOM)分析中心(DAC)提交了一份陸軍M&S企業能力差距白皮書(Harclerode, 2021),描述了幫助填補這一差距的行動方案。陸軍建模和仿真辦公室已經資助DAC開發方法,以代表商業、國家和軍事空間和低地球軌道資產的性能及其對聯合作戰的影響,并在基于能力的戰術分析庫和模擬框架(FRACTALS)內進行測試實施。
FRACTALS是DAC開發的一個仿真框架,它提供了通用的結構 "構件",用于模擬、仿真和評估ISR系統在戰術級任務和工作中的性能。FRACTALS作為DAC開發的各種ISR性能方法的測試平臺,將文件或數據被納入部隊的模擬中。FRACTALS還作為DAC的一個分析工具,在戰術環境中對ISR系統進行性能分析比較。
這項工作需要在一定程度上體現衛星飛行器(高度、軌跡和運動學)、傳感器有效載荷(光電[EO]、紅外、合成孔徑雷達和信號情報)、網絡、控制系統、地面站(時間線、通信、處理、利用和傳播)、終端用戶以及連接它們的過程和行為。本報告描述了DAC為支持這一工作所做的一些基礎工作,重點是可見光波段相機圖像。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構