隨著現代系統日益復雜,傳統的測試方法已顯不足。用于驗證這類大型復雜系統軟件的測試文檔套件可能變得臃腫而不清晰,導致執行時間極長,測試程序混亂而難以管理。此外,這些系統的復雜性也會阻礙對復雜系統概念和行為的快速理解,而這正是跟上現代測試工作要求的必要組成部分。
測試與評估(T&E)領域存在優化和創新的機會,自動測試框架和迭代測試方法的出現就是證明。基于模型的系統工程(MBSE)等相關概念的定向擴展和應用將帶來更多機遇。本論文記錄了在應用于實際項目時加強測試與評估領域的三種方法的開發和實施情況。首先,系統的開發方法從瀑布式(Waterfall)過渡到了敏捷式(Agile),從而在創建新功能時提供了一種反應更快的方法。其次,開發了測試自動化框架(TAF),實現了測試程序的自動執行。第三,使用系統建模語言(SysML)創建了一種測試文檔方法,采用了 MBSE 的概念,使測試程序的規劃和分析標準化。
本論文提供了將這三個概念應用于機載電子戰管理系統(EWMS)開發過程的結果,該系統與機載和機外系統連接,接收和處理威脅環境,為飛行員或機組人員提供保護飛機的響應解決方案。該系統是一個傳統的長期航空航天項目的代表,在其生命周期內不斷升級。在為期兩年的時間里,這一新流程產生了一系列定性和定量結果,包括提高了測試文檔套件的質量和組織性,縮短了執行測試程序的最短時間,能夠更早地識別缺陷,并提高了被測系統的整體質量。在應用這些概念的過程中,我們還汲取了許多經驗教訓。項目開發方法的轉型、測試方法的現代化以及新測試文檔系統的引入可能會為系統開發帶來顯著的效益,但這些類型的流程變革必須與項目需求進行權衡。本論文詳細介紹了在一個示例項目中為提高測試與評估流程的有效性所做的努力,并以此作為在類似系統中實施的框架。
測試是系統或產品開發生命周期的重要組成部分。適當的驗證和確認工作有助于確保產品按預期開發并滿足客戶需求。美國國家航空航天局(NASA)估計,測試工作占大型航空航天項目軟件開發總成本的 75% 至 88%。如下圖 1 所示,高度復雜的系統需要極其龐大的源代碼基線(例如,截至 2012 年,F-35 戰斗機和支持軟件的源代碼行數(SLOC)總計超過 2400 萬行),這就需要大量的測試工作來進行適當的驗證。
此外,現代軟件工程實踐通常不支持確保軟件質量所需的回歸測試管理。隨著現代系統的復雜性不斷增加,以及對網絡安全等系統開發相對較新方面的關注,傳統的測試方法需要優化和創新。
截至 2007 年,"來自行業的數據顯示,在過去 40 年中,各種系統和應用軟件的規模呈指數增長"。這種指數式增長直接影響到用于測試這些系統的程序的規模和復雜性。此外,隨著產品的成熟和長期使用,為產品開發的測試套件的規模也會大幅增加。通常情況下,這種增長會產生大量的測試程序,隨著時間的推移,這些測試程序會不斷演變,從而形成一個測試套件,在某些方面,它本身就可以被視為一個產品。這種測試套件的演變可能是由多個測試工程師共同完成的,這可能會造成風格不一致,并增加一層復雜性。這種高度的復雜性可能會產生各種與測試相關的問題:
如果不加以糾正,這些問題可能會在以下方面影響整個開發流程:
在過去幾年中,測試工程工作量大幅增加。這與提高生產力和效率的目標一起,制定了以下目標:
提高測試程序套件的可維護性
小型系統的測試程序可能不足 100 頁,而大型系統的測試程序可能長達數百至數千頁。
一些測試程序變得臃腫和混亂,導致出錯時需要花費更多的調查時間。
提高需求與測試程序之間的可追溯性
不同系統的需求映射并不總是一致的。
根據程序的歷史和客戶需求,有些系統沒有需求跟蹤,而有些系統則有測試步驟的需求跟蹤。
減少小版本和大版本的測試執行時間
對于較簡單或較非正式的系統(即次要系統),正式測試執行時間平均為幾天到幾周。
對于最復雜的系統(即主要系統),正式測試執行時間(模擬運行和正式驗收)可長達 18 周或更長。
引入測試自動化
歷史上,所有測試都是手動執行的。
在過去幾年中,研究人員一直在帶頭努力實現測試自動化。
縮短測試工程師培訓時間
因此,研究人員一直在研究將敏捷開發流程、自動測試和系統工程方法結合應用到測試與評估(T&E)領域,作為解決上述某些因素的潛在方案。
本文所述的研究試圖解決前面討論的問題。解決方案通過三項措施來實現:
1.向敏捷開發流程轉變
2.實施測試自動化
3.融入基于模型的系統工程(MBSE)概念
過渡到敏捷流程會改變產品開發的方式,但也會帶來一些好處,如提高整體產品質量、增加項目可見性和降低風險。此外,加入持續集成(CI)等 DevOps 概念還能通過簡化流程提高部署速度。具體到本論文,敏捷過渡的重點是對測試工程師的系統訪問、團隊生產力、工程師培訓時間以及需求重要性的影響。
測試自動化通常是指將測試程序從手動流程(即測試工程師實際完成程序中的步驟并記錄結果)過渡到自動化流程(即測試工程師開發腳本,執行測試程序中的操作并自動記錄結果),但測試自動化的好處遠不止機器以最快速度執行測試程序所帶來的好處。這些益處將在后面的章節中進一步討論,其中包括增強測試工件的組織性、提高產品測試和產品本身的質量、縮短測試執行時間,以及為優化整個產品開發流程創造更多機會。
將 MBSE 概念和技術融入測試與評估領域,可以加深對系統的理解,提供系統功能和組件的映射方法,以及提高回歸測試效率的目標策略。為測試目的創建的系統模型有可能在以下方面得到有效利用:
從聲納數據集中對未爆彈藥(UXO)和地雷等水下物體進行分類是一個難題。使這些物體分類復雜化的因素包括:操作和環境條件的變化,存在空間變化的雜波,目標形狀、組成、方向和埋藏條件的變化。此外,在各種背景條件下收集大量具有代表性的真實數據進行訓練和測試非常困難,在很多情況下也不切實際。在本論文中,我們以之前的研究成果[1]為基礎,其中基于稀疏重構的分類模型是在合成生成的聲納數據集上進行訓練,從而在真實數據集上進行分類。雖然這項早期工作有助于解決水下獵雷問題所固有的數據貧乏問題,但在這項工作中,我們改變了方向,將重點放在對此類模型的調整上。特別是,我們將研究如何調整基于稀疏重構的分類器(SRC)的線性和核化形式,使其在終身學習環境中發揮作用,以便在環境參數不斷變化的情況下執行分類,同時不影響在以前遇到的環境中的性能。
在這篇論文中,試圖解決幾個關鍵問題,以便設計出穩健的分類器,用于在終身學習環境下從低頻聲納中對未爆炸彈藥和彈藥進行分類。這些問題包括 (1) 有哪些最可行的機制可使無人潛航器在不犧牲舊環境性能的情況下,積累并將新的標記或未標記數據納入其目標識別系統?(2) 有哪些最可行的機制可使水下自動跟蹤系統在不同環境條件下提取類標簽?(3) 基于壓縮傳感的目標識別方法(如帶增量字典的改進型 MSC)與流行的替代方法(如多任務學習方法)相比,有哪些優勢、不足和主要區別? (4) 如何擴展[1,2]中的改進型 MSC 框架,以便以高效的方式實現內核化解決方案?
在這項工作中,我們提出了幾種新算法,以解決壓縮傳感系統的內核化問題,并將這些系統過渡到高效的增量學習,而不依賴于所有訓練樣本的全內核矩陣。通過對稀疏重構分類器進行內核化,可以將樣本的稀疏表示和非線性嵌入的優勢結合起來。本論文提出的新算法包括:一種增量線性化內核嵌入(LKE),它利用 Nystrom 近似[3-5]對嵌入空間進行有用的幾何解釋;一種更新增長內核矩陣特征分解的新算法,它利用快速箭頭矩陣特征分解;以及一種針對 Mary 識別任務優化自定義內核函數的方法。這項工作要解決的一個主要技術問題涉及匹配子空間分類器(MSC)[2, 6]是否能成功地進行核化并轉換成自適應形式,以便在終身學習環境中使用。
全面測試增量核化 MSC 并將其應用于使用低頻聲納的彈藥分類是這項工作的另一個主要目標。為此,我們測試了一個假設,即從各種物體的聲納反向散射中提取的聲學顏色(AC)數據[2,7,8]中捕獲的非線性映射光譜特征顯示了獨特的特征,與標準特征相比,這些特征在不同類別的被探測物體之間提供了更優越的分辨能力。在這篇論文中,我們介紹了使用核化 MSC 的三種變體進行分類的新結果,包括使用均勻和脊平均分數(RLS)采樣的增量線性化核嵌入(LKE)MSC,以及 [2] 中改進的 MSC 線性版本的增量版本。這些分類系統應用于真實聲納數據集(即 TREX13 和 PondEX09-10),以測試分類器的泛化能力,這些分類器的基線訓練是在由快速射線模型(FRM)(也稱為目標環境響應模型(TIER)[8, 9])生成的合成(即模型生成)聲納數據集上進行的。在增量情況下,當進入一個新的運行環境時,利用數量非常有限的標記樣本來增強信號模型。
本文介紹的方法迄今已提供了極具前景的結果,在 TREX13 和 PondEX09-10 中,基于 LKE 的增量 MSC 系統在每次決策使用七個方面(AC 特征)時,PCC = 94.6%,PF A = 5.4%,PCC = 99.3%,PF A = 0.7%。
圖 2.4:使用 LSAS 模型生成的非未爆炸物體聲學顏色圖與 TREX 數據對比。
長期以來,軍事采購項目一直飽受詬病,因為能力略有提高所需的開發成本卻呈指數級增長。為應對這一趨勢,最有前景的改革努力之一是開放式系統架構計劃,該計劃采用模塊化設計原則和商業接口標準,以此降低系統升級的成本和復雜性。雖然概念上很簡單,但實踐證明這一努力在實踐中卻異常困難。造成這種困難的主要原因是,開放式系統在開發的早期階段以額外的成本和風險換取日后注入技術的選擇權,但這種選擇權所帶來的好處本身就是不確定的。因此,實際實施需要一個決策支持框架,以確定這些不確定的未來收益何時值得當前承擔的成本和風險,但有大量證據表明,現有的設計方法不足以滿足這一需求。
本研究的目標是開發一個受軍事采購啟發的架構建模與評估框架,通過提供一種方法來衡量與開放系統相關的預期成本、效益和風險,從而解決這一差距。這項工作基于三個假設:(1) 未來技術注入的目的是跟上作戰需求的不確定性發展;(2) 成功的設計必須證明如何利用未來的升級來滿足這些需求;(3) 隨著新信息的不斷涌現,項目經理可以靈活調整之前的決策。有鑒于此,本方法學提出了一種新技術,將運行需求編碼為能力路線圖,而非傳統設計方法中使用的 "最壞情況 "標量值。然后,對現有的技術預測技術進行了新的調整,以此來確定如何利用未來的技術改進來有效地滿足路線圖中表達的需求,并提出了一種新的性能測量方法來量化替代性更新策略的相對價值。最后,受實物期權領域方法的啟發,將一系列決策支持啟發式方法與自動搜索程序相結合,以確定有助于靈活決策的策略,從而對沖不確定性。
然后,將所提出的方法應用于一個空中情報、監視和偵察平臺的示例場景,該平臺有可能在未來增量中升級其傳感器套件。該場景的能力路線圖改編自美國國防部信息主導團隊進行的真實世界貿易研究,預測模型則是通過評估過去十年中商業圖像處理技術的發展而開發的。本研究探討的具體問題是,應如何安排未來技術注入的時機和選擇,以最大程度地滿足成本、性能和風險方面的備選偏好。此外,這項研究還表明,就本研究中開發的性能指標而言,開放式系統架構和集成式系統架構之間的相對優勢和劣勢可以在成本效益框架的背景下進行展示,該框架目前被采購專業人員用于管理復雜的設計決策。本實驗的結論是,所提出的方法可以客觀地識別影響任意開放式系統設計問題的無數因素,并將其匯總到一個單一、直觀的可視化中。由于現有方法不具備這種能力,這就為所提出的方法是一種更優越的方法這一論點提供了相當大的支持。
軍用飛機推進系統是噴氣發動機設計中最具挑戰性的領域之一: 在受飛機空氣動力學影響極大的多變環境中工作時,這些發動機應在不影響可靠性和運行成本的前提下,以盡可能小的體積提供大的推力輸出。此外,軍用飛機運行的多學科性質經常會引入相互矛盾的性能目標,很難將其納入發動機設計中。所有這些因素再加上發動機開發成本非常高,因此有必要在設計階段的早期進行適當的選擇,以確保開發過程的成功和新發動機概念的可行性。
盡管該領域的研究數量巨大,但也許是由于所涉及數據的敏感性,迄今為止發表的研究都集中在相當具體的主題上,而沒有涉及完整的多學科飛機推進系統集成問題。為此,需要結合不同研究領域的內容和貢獻,建立新的綜合方法。
本項目研究開發一種新方法,將發動機初步設計與飛機運行要求相互聯系起來。在此范圍內,構建了通用軍用機身的表示方法,并將其與發動機性能模型和仿真工具相結合,以研究推進系統對飛機任務性能和生存能力的影響。更具體地說,該項目在軍用飛機推進系統集成領域的貢獻主要集中在三個方面:
新的軍用飛機表示法,模擬飛機與推進系統之間相互作用的關鍵方面: 飛機空氣動力學、機身/推進系統空氣動力學干擾、紅外和噪聲特征。該模型計算要求低,適合用于大規模參數研究和軌跡優化案例。
基于模擬的新技術,用于估計爬升性能和評估飛機/發動機配置在現實任務場景中的任務能力。所開發方法的創新點包括爬升軌跡問題的多目標表述、高度-機械跟蹤技術、能量-機動性(E-M)技術的擴展,允許同時優化飛機軌跡和發動機計劃,以及為軍用飛機引入最小噪音和紅外軌跡。
考慮到飛機的紅外特征和飛機/導彈的運動性能,量化推進系統對飛機生存能力的影響。這是通過將飛機紅外模型與導彈對飛機和飛機對飛機的運動模擬相結合來實現的,這些模擬用于測量飛機易受攻擊的程度,以及飛機自身攻擊機動目標的能力。
上述方法是利用已公布的數據開發和驗證的,并在一系列測試案例中用于研究飛機的性能趨勢,在這些案例中,不同的推進系統設計在各種模擬任務中的有效性得到了評估。結果成功證明了所開發的方法能夠量化飛機性能與發動機設計之間的關系,為理解采用不同推進系統配置所產生的性能權衡提供了基礎,從而最大限度地提高動力裝置設計過程的效率。
現在,模擬被更頻繁地用于對現實世界或擬議系統進行實驗,以了解系統行為或評估改進策略。隨著時間的推移,大型企業越來越需要開發精密復雜的系統來與同行業競爭。而且,這些企業之間的聯系越來越緊密,就像一個網絡化的企業。這就進一步提高了開發能與其他企業互聯的越來越復雜的模擬的要求。在這方面,分布式仿真已廣泛應用于軍事領域,但在其他領域并沒有得到普及。這背后的原因是,在分布式仿真之間建立通信協議需要專業技術知識。科研行業一直在努力縮小這一差距,其中最重要的工作是制定高級架構(HLA)標準,為分布式仿真模型之間提供通用通信協議。
建模與仿真(M&S)行業也為開發人員提供了大量有關獨立仿真建模的文獻。在這種情況下,概念建模的重點是模型的準確性和效率,而不是互操作性。本研究也對此進行了詳細討論。直到最近,從業人員也一直在努力尋找對底層技術的支持。但隨著標準運行時基礎設施(RTI)和仿真開發平臺支持的引入,這一差距已經縮小。
HLA 標準承諾解決分布式仿真模型之間的互操作性問題,但只能提供語法層面的標準指南。因此,仿真互操作性標準組織(SISO)繼續開展研究,確定了從業人員在語義層面面臨的互操作性問題,并起草了一份互操作性問題清單。然而,已發布的 SISO-STD-006-2010 標準只指出了問題,卻沒有提供語義解決方案。
本研究的主要貢獻是提出了分布式仿真互操作性(DSI)框架,為《商用現成仿真包互操作性參考模型》(SISO-STD-006-2010)中列出的互操作性問題確定了語義解決方案。本研究建議將這些互操作性語義解決方案納入 HLA 對象建模模板規范。這樣做將有助于行業從業人員實現 HLA 的互操作性承諾,并使分布式仿真模型更具可重用性和可組合性。
本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域:
在現實世界應用中部署的人工智能(AI)系統通常是在封閉的模擬環境中進行研究和開發的,在這種環境中,所有變量都是可控的,模擬器或基準數據集都是已知的。從這些模擬器、測試平臺和基準數據集過渡到更加開放的領域,給人工智能系統帶來了巨大的挑戰,包括領域復雜性的顯著增加和現實世界中新奇事物的加入;開放世界環境中包含了大量人工智能系統訓練集中沒有的分布外元素。在此,提出了一條通往通用的、與領域無關的領域復雜性水平測量方法的道路。我們將領域復雜性分為兩個方面:內在和外在。領域內在復雜性是指在沒有任何人工智能體在該領域執行任務的情況下自身存在的復雜性。這是領域復雜性中與智能體無關的一個方面。域外復雜性則與智能體和任務相關。內在和外在要素結合在一起,就構成了領域的整體復雜性。我們從與領域無關的角度來確定定義和影響領域復雜性水平的要素。
當人工智能系統從一個測試平臺或環境過渡到另一個測試平臺或環境時,當人工智能系統在開放世界任務中面對分布外數據時,當人工智能系統在開放世界領域中瀏覽快速擴展的解決方案和搜索空間時,與領域無關的復雜性度量方法可以對人工智能系統面臨的困難進行量化預測。
圖 3:狀態轉換圖的一個簡單示例。圖中的節點表示可能出現的狀態,連接節點的邊表示狀態之間的轉換動作。在本例中,狀態定義由五個布爾特征組成。在初始狀態下,所有特征都設置為 false(白色)。操作通過將所選特征翻轉為真(橙色)來影響狀態,并且在每個狀態下只有某些操作是可能的。其中一種狀態被突出顯示為當前任務的目標狀態。可能的狀態相對較少,每個狀態下最多有兩種可能的操作,圖中有多條交叉路徑通向目標狀態。該領域和任務的復雜度較低。
本研究由 DARPA 和美陸軍研究辦公室 (ARO) 根據多項合同/協議贊助,包括 W911NF2020010、W911NF2020003 和 W911NF-20-2-0004。
戰斗機飛行員通常使用模擬器來練習他們需要的戰術、技術和程序。訓練可能涉及計算機生成的力量,由預定的行為模型控制。這種行為模型通常是通過從有經驗的飛行員那里獲取知識而手工制作的,并且需要很長的時間來開發。盡管如此,這些行為模型由于其可預測性和缺乏適應性而通常是不夠的,教官必須花時間手動監測和控制這些力量的各個方面。然而,最近人工智能(Al)研究的進展已經開發出能夠產生智能代理的方法,在復雜的游戲(如圍棋和《星際爭霸II》)中擊敗人類專家玩家。
同樣,人們可以利用人工智能的方法來組成空戰的高級行為模型,使教官能夠更專注于飛行員的訓練進展,而不是手動控制他們的對手和隊友。這種智能行為必須表現得逼真,并遵循正確的軍事理論,以證明對飛行員訓練是有用的。實現這一目標的一個可能方法是通過模仿學習,這是一種機器學習(ML)類型,代理學習模仿專家飛行員提供的例子。
本報告總結了使用模仿學習技術優化空戰行為模型的工作。這些行為模型被表述為控制計算機生成的部隊的行為轉換網絡(BTN),由下一代威脅系統(NGTS)模擬,這是一個主要針對空域的軍事模擬應用。遺傳算法Neuroevolution of Augmenting Topologies (NEAT)的一個改編版本優化了BTNs,使其行為與飛行員行為的演示相似。與大多數ML方法一樣,NEAT需要許多連續的行為模擬來產生滿意的解決方案。NGTS不是為ML目的而設計的,因此圍繞NGTS開發了一個系統,該系統自動處理模擬和數據管理并控制優化過程。
進行了一組實驗,其中開發的ML系統對BTN進行了優化,以模仿三個簡單空戰場景中的例子行為。實驗表明,NEAT的改編版本(BTN-NEAT)產生的BTN能成功地模仿簡單的示范行為。然而,優化過程需要相當長的時間,計算時間長達44小時或模擬飛行時間為92天。緩慢的優化主要是受NGTS不能快速運行同時保持可靠的影響。這個可靠性問題是由NGTS缺乏時間管理造成的,它可以將代理人的狀態與模擬時間戳聯系起來。為了在更復雜的場景和演示中實現成功的行為優化,人們應該在高可靠性的前提下以比實時快得多的速度模擬行為。因此,我們認為NGTS并不適合于未來的ML工作。相反,需要一個為ML目的設計的輕量級空戰模擬,能夠快速可靠地運行。
戰斗機飛行員通過嚴格的訓練學習并保持他們的戰術技能。相當多的訓練是以模擬為基礎的,在訓練中,受訓者面對友軍和敵軍,他們的行為最好能加速訓練并建立起理想的能力。計算機生成的部隊(CGFs),是自主的、計算機控制的實體,被用來扮演這些友軍和敵軍的角色。理想情況下,在基于模擬的訓練中使用CGF應該提供一些好處,如增加飛行員的訓練可用性,減少訓練中對主題專家(SME)的需求。然而,手動模擬CGF的行為,使其對教學作用有足夠的代表性,這是很繁瑣的,而且已被證明具有挑戰性。因此,目前手工制作的行為模型往往是可預測的,不能適應新的情況或在軍事理論、戰術、技術和程序(TTP)方面表現得很真實。在基于模擬的空戰訓練中保持真實的體驗對于確保受訓者獲得必要的技能至關重要。然而,由于CGF的表現和行為被認為是不足的,中小企業往往在訓練中對CGF進行微觀管理,這是不幸的,因為中小企業的成本很高,他們的時間很寶貴,而且數量有限。
人工智能研究的最新進展已經開發出能夠產生智能代理的方法,在復雜的游戲中擊敗人類專家玩家,如圍棋[1]和星際爭霸II[2]。隨著這些進展,學習用于空戰的指導性和適應性代理行為已成為一個越來越受關注的研究領域。然而,為了發揮作用,飛行員模擬的對手和盟友的行為必須是真實的,并符合軍事理論,而不是,例如,試圖不惜一切代價贏得交戰。該研究領域的一些貢獻集中在強化學習方法上,并且已經顯示出一些有希望的結果。然而,即使仔細設計目標函數,強化學習代理也有可能學習到用于飛行員訓練的次優政策,這意味著他們的行為與根據既定理論和TTP所期望的不同。另一種方法是向ML算法提供專家示范,從中提取飛行員的具體知識,并將其納入代理人使用的行為模型。據我們所知,在空戰領域,很少或沒有先前的研究探討過這種方法。
本報告介紹了基于達爾文自然選擇原則的模仿學習算法被用來產生以行為轉換網絡(BTNs)表示的空戰行為模型。雖然BTNs已經出現在之前使用強化學習的空戰行為建模的相關工作中,但這項工作研究了BTNs是否適合模仿學習。下一代威脅系統(NGTS)被用來模擬BTNs,并進行了評估以考慮該模擬系統對機器學習(ML)的適用性。已經開發了一個ML系統,包括使用NGTS和選定的學習算法成功生產空中戰斗機代理所需的工具和方法。這個ML系統自動處理模擬和數據管理并控制學習算法。簡單的空戰場景被定義,并在使用該ML系統進行的一系列實驗中使用,在這些實驗中產生了反映示范飛行員行為的BTN。
為了限制這項工作的范圍,我們做了一些限定。開發的ML系統不是生產級的,而是一個概念驗證。因此,實驗中使用的場景和試點演示保持簡單。具體來說,這些都是一對一的場景,演示僅限于二維空間的運動。此外,行為演示是基于報告作者手工制作的BTN,而不是由專業飛行員制作的。
本報告是為從事軍事訓練和人工智能相關課題的研究人員準備的,最好具有空戰和行為建模的知識,其組織結構如下。第2章介紹了工作的背景,包括與空戰訓練和模擬有關的概念、人工智能理論和相關工作。第3章涵蓋了實驗中使用的選定的學習算法及其配置,而第4章介紹了構成ML系統的過程和工具。第5章和第6章通過定義空戰場景和行為演示來回顧實驗的設置和執行,并介紹了結果。第7章討論了這些結果,以及ML系統和NGTS的性能。第8章本報告的總結和對未來工作的思考。
圖5.2 第一個場景的總結: 逃亡。CGF從它們的初始位置向對方飛去。一旦藍色飛機進入紅色飛機的導彈射擊范圍內,紅色飛機就會轉身向相反方向逃離。
利用AI智能體的一個關鍵因素是它們對新事物的穩健性。AI智能體包括經過設計或訓練的模型。設計型模型包括環境中那些被工程師認為是重要的知識。學習型模型通過訓練數據建立的聯系來形成環境各個方面的嵌入。然而,在操作過程中,豐富的環境很可能會出現訓練集中沒有的挑戰,沒有在工程模型中考慮到。更糟糕的是,對抗性環境會被對手改變。美國國防部高級研究計劃局(DARPA)的一項計劃旨在發展必要的科學,以開發和評估對新事物具有魯棒性的智能體。人工智能在關鍵任務環境中發揮設想的作用之前,將需要這種能力。
作為DARPA人工智能科學和開放世界新事物學習(SAIL-ON)的一部分,我們正在將可能的軍事領域新事物類型映射到一個獨立于領域的本體上,作為新事物理論的一部分來開發。從數學和本體論的角度來描述可能的新穎性空間,將使我們能夠在相關的軍事環境中對來自DARPA SAIL-ON項目的智能體設計進行實驗。利用在實驗室實驗中使用的相同技術,我們將能夠測量智能體檢測、描述和適應新事物的能力。
軍隊不斷遇到新奇的概念。特別是在面對對手時,他們被迫解決這些新奇的問題,而決策的時間往往很少。例如,1999年,北約部隊在科索沃戰爭期間對塞爾維亞進行了一次空中轟炸,稱為 "盟軍行動"。這被證明是北約盟國的一次學習經歷,因為在整個行動中遇到了多個新奇事件。首先,塞爾維亞軍隊比預期的更加堅定,裝備也更好。第二,塞爾維亞人嚴重依賴地對空導彈(SAM)和高射炮(AAA),這就要求盟軍飛得比預期的要高,使目標定位具有挑戰性。第三,塞爾維亞人意外地使用了帶有雷達發射控制的導彈。所有這些新事物都需要盟軍在當下有效地解決,同時還要克服其他困難,如不規則的天氣和地形(Lambeth, 2001)。能夠在軍事領域內定義和描述新事物是DARPA SAIL-ON項目的一個目標。
目前的人工智能(AI)系統擅長于范圍狹窄的封閉世界的任務,如玩棋盤游戲(Silver,2017)和加強圖像分類。然而,眾所周知,這些人工智能系統在面對分散的輸入時很困難(Langely,2020),當它們在不受控制和不可預見的條件下進行測試時,它們的性能會嚴重下降(Chao,2020),而這正是軍事作戰人員普遍面臨的。對于人工智能系統和人類在軍事領域的合作,人工智能系統需要能夠檢測、描述和適應作戰人員操作的開放世界環境中的新情況。
為了進一步說明這一點,我們將提到一個名為 "零號方案 "的模擬戰術場景,其中一架藍色部隊的戰斗機(由AI智能體控制),根據各種傳感器數據幫助其做出決定,任務是摧毀紅方敵人的彈藥儲存地,同時躲避附近兩支紅方敵軍的地對空導彈(SAM)發射器。在創新前的情況下,薩母導彈射程保持不變,AI智能體理可以成功地執行任務,而不會讓戰斗機被擊落。然而,當考慮到技術的快速發展時,假設薩母的導彈射程永遠保持不變是一個明顯的疏忽。在創新后的開放世界場景中,薩姆導彈的射程增加,超過了藍方戰斗機之前所習慣的范圍,導致智能體在執行任務前被擊落。
零號方案場景中的AI智能體沒有重新規劃路線以避免被擊落,而是根本沒有意識到發生了新奇的情況,它繼續派出更多的資產去執行任務,結果卻被摧毀。在一個理想的場景中,AI智能體被創建為意識到新奇事物的可能性,一個更強大的智能體反而可以學習檢測、描述和適應現實世界的新奇事物。
為了創造豐富的新奇事物,模擬真實世界的不確定性和混亂性,我們引入了統計分布。并非每一個新事物都會有一個適當的統計分布。例如,在零號方案中,如果其中一個薩母被改為誘餌,這將是一個靜態的新事物,不包括任何變化。另一方面,我們可以通過為誘餌薩姆的運作方式增加更多的參數來增加這種新穎性的復雜性。這只是想說,統計分布對于增加豐富性和幫助模擬真實世界是很有用的,但對于引入新奇性卻不是必須的。
新奇性往往涉及連續變量的參數變化。例如,在零號方案中,導彈射程、導彈速度、紅/藍方生存能力和可用彈頭數量都是定量變量。
我們可以用統計分布來模擬這些新變量。對于連續變量,我們要使用正態分布或均勻分布。當然,均勻分布的好處是有嚴格的最小和最大參數值,以避免重疊或潛在的不可能值。具體到SAIL-ON,每個新奇的執行者通常會將新奇性進一步細分為簡單、中等和困難。因此,同一個新奇事物會有三個不同的版本。
讓我們用定義為R的導彈射程作為一個例子。我們將使用一個具有正態分布的模型,其平均值為μ,標準差為σ。
我們可以創建三個分布,分別為簡單(RE)、中等(RM)和困難(RH),定義為:
在圖1中作了圖表。我們可以在這些分布中的每一個范圍內對新穎的導彈進行采樣,這取決于難度水平。此外,三個難度級別將進一步幫助我們測試智能體對同一新奇事物的不同變化進行定性、檢測和適應的能力。此外,智能體對三種難度級別的新奇事物的反應方法可能有很大的不同,并提供關于智能體如何處理不同情況的進一步信息。
圖1:導彈射程的新奇性分布
SAIL-ON執行者有各種方法來定義新穎性。有些人可能會使用上述的分布,通常使用均勻分布或離散均勻分布,這有助于避免易、中、難三個級別之間的重疊。另一些人可能對一些新奇的事物使用靜態數字。以導彈射程為例,有些人可能會簡單地選擇????=50????,????=55??,以及??=60????。目前,我們正在使用靜態數字開始我們的測試。接下來,我們計劃向統計學方法發展,以建立一個更豐富、更真實的開放世界中的新奇事物模型。請注意,這種統計分布方法將需要大量的樣本集,以收集足夠的數據來創建關于智能體性能的準確指標。
導彈射程的例子是針對一個特定的連續、定量的變量。然而,每個新事物都會有自己的分布分配給它們。有時,正態分布或均勻分布不會是最適合的。對于二進制變量,如存活率,我們可以使用伯努利分布。對于罕見事件,如傳感器故障,我們可以使用泊松分布。
本研究提出了一種方法,用于訓練和驗證數據驅動的、參數化的、多保真的減序模型,能夠預測具有不連續特征的高維空氣熱流場。在設計新概念時,設計者往往缺乏進行傳統概念設計所需的歷史數據,因此必須依賴基于物理學的模型和模擬工具的數據。然而,現實的計算預算往往限制了可用于訓練預測模型的高保真樣本的數量。在這些情況下,多保真方法已被確定為提高模型準確性的關鍵推動力,因為它們能夠利用來自高保真和低保真來源的訓練數據,這使設計者能夠使用大量廉價的低保真樣本來補充訓練數據并提高采樣分辨率。這項研究制定了一種方法,利用Procrustes流形排列,用線性和非線性投影方法進行多保真模型的減序。然后將這些方法應用于陸軍海軍的Finner射彈,以在學科和系統層面上描述這種方法。據觀察,所提出的模型階次還原能夠準確地捕捉表面分布。當部署在一個耦合軌跡模型中時,減序模型能夠在模擬中取代全序CFD,同時與全序解決方案保持密切一致。所提出的方法也優于傳統的空氣動力學數據庫查詢表,同時保持可控的計算成本。
降序建模是一種廣泛的方法,它尋求確定高維數據集的低維表征,盡可能準確地捕捉原始數據中觀察到的相關行為(Maaten, et al., 2009)。降維(DR)算法通常用于減少原始模型的自由度數量,以獲得一些低維表示,被稱為潛空間,它保留了原始數據集的一些質量,如觀察到的協方差或成對距離(Xiao, et al., 2017)。然后,原始的高維訓練數據被投射到這個低維的潛空間中,以便在進行預測時可以識別和利用數據的主導特征。ROM可以分為侵入式和非侵入式,前者意味著它們必須與分析的管理方程對接,并且經常需要修改源代碼(Lucia & Beran,2003),后者意味著它們只使用輸入和輸出數據進行訓練(Chen,2012)。由于現代高超音速系統的高度多學科性,設計者在早期設計階段使用 "黑盒"分析代碼是很常見的。出于這個原因,非侵入式ROM通常是航空航天應用的首選(Rajaram, et al., 2020)(Xiao, et al., 2017)。
文獻中已經開發了許多非侵入式的ROM技術,每個技術都有不同的假設,即如何最好地識別和描述訓練集的基本行為(Maaten, 等,2009)。線性方法,如主成分分析(PCA)(Tropea, et al., 2007),可能是最常用的技術,并已在航空航天應用中成功使用了幾十年(Iuliano & Quagliarella, 2013)(Jolliffe, 1986)(Lumley, 1967)。利用非線性降維(DR)的ROM,如基于歧義學習的ROM(Franz, et al., 2014),最近被使用,因為它們能夠比線性對應技術更有效地捕捉不連續的流動特征,如沖擊(Decker, et al., 2021)。
為了使前面討論的方法適用于CFD解決方案,必須以相同的網格尺寸、節點連接和基礎物理模型拍攝快照。Manifold Alignment(MA)被認為是增強這些單保真ROM技術的關鍵因素,因此它們可以利用多保真來源的數據(Wang & Mahadevan,2009)(Wang & Mahadevan,2008)。這使得在訓練預測模型時,只要每個數據集的基礎系統是相關的,就可以同時利用來自不一致配方的數據集(Perron, et al., 2020)。特別是,Procrustes MA已被證明在構建多保真ROM方面表現良好,因為它能夠利用來自不一致來源的數據,而不需要修改原始訓練集(Perron, et al., 2020)。(Decker, et al., 2021)開發了MA在CFD ROM中應用的數學公式。
圖2:使用Procrustes分析的流形對齊的概念說明。
這種方法的結果是遵循圖3所示結構的場代理。在這些模型中,DR被用來識別捕捉每個數據集的基本行為的潛在空間。通過減少每個保真度級別的數據得到的潛空間使用MA進行融合。在實踐中,這個潛空間具有足夠低的維度,多保真插值或回歸技術(如CoKriging(Han等人,2012))可以用來預測未見設計點的潛空間坐標。有了這些預測的潛空間坐標,就可以通過一個叫做Back-mapping(Franz, et al., 2014)(Decker, et al., 2021)的過程構建高維領域的預測。
圖3:多保真ROM結構的說明。
一旦空氣動力學的ROMs被訓練出來,它們就可以被部署在一個耦合的分析框架中以評估它們的性能。在這項研究中,進行了滑行軌跡分析。高超音速飛行器的軌跡對高水平的性能目標有重大影響,并推動了其他幾個學科的關鍵邊界條件。任務優化是必要的,以確定特定飛行器的最佳性能。由于這些原因,滑行軌跡分析是一個有用的測試案例,以評估所提出的方法的實用性。
文獻中已經開發了許多方法來解決高超音速滑翔軌跡。工程中感興趣的問題往往過于復雜,無法用變分法分析解決,因此需要數值方法(Rao,2009)。已經開發了一系列被稱為直接方法的數值方法,這些方法將軌跡離散化,并使用一個稱為轉錄的過程將最優控制問題轉換為非線性編程(NLP)問題,可以通過直接優化解決(Rao,2009)(Ross & Fahroo,2002)。在直接方法家族中,有兩類主要的解決方法:射擊法和同位法。射擊法通過顯式積分治理方程來傳播軌跡,而配位法通過將治理方程視為離散域內每一點的平等約束來隱式執行治理方程(Von Stryk & Bulirsch,1992)。射擊法對參數化簡單的問題表現良好,并允許使用高階數值積分方案,而配位法由于現代NLP求解器的魯棒性和利用數值稀疏性的能力,被認為對更復雜的問題效果良好(Rao,2009)。出于這個原因,本研究中使用了直接配位來進行軌跡分析。
為了解決這些問題,軌跡分析是用Dymos(Falck, et al., 2021)實現的。Dymos建立在OpenMDAO(Gray, et al., 2010)的基礎上,利用偽光譜配位技術來進行優化。問題使用IPOPT算法(Wachter, 2002)解決,該算法在pyOptSparse框架(Perez, et al., 2012)中實現(Wu, et al., 2020)。
在這項研究中,運動方程是針對球形、非旋轉地球上的二維飛行路徑而實現的:
創新產品的要求正在迅速發展,反映了許多工程學科的技術進步。這種變化的加速性伴隨著產品性能、復雜性和成本的增長。為了滿足新出現的需求,需要更快的設計過程來:徹底和準確地探索更大的設計空間,利用潛在的復雜的物理相互作用來獲得性能上的好處,并避免有害的相互作用,這些相互作用可能會通過后期的缺陷發現而大大增加產品成本[1]。現在,在開發過程的早期,通過在更高的層次上耦合更多的學科來獲得設計上的好處。但是,沒有一個數學框架來確定哪些學科、耦合水平或保真度水平是需要的,以捕獲對特定系統設計最關鍵的物理學,在哪里收集設計空間數據是最好的,或者如何在有限的計算資源下做出最佳的設計決策。目前,這些決定完全是基于工程經驗的。這種方法對于那些與以前的設計相似的系統來說效果還不錯,但對于獨特和創新的車輛和技術來說可能會失敗。
在這方面,多學科設計優化(MDO)的長期挑戰之一是在需要時有效地提高建模delity,以捕捉制約或實現特定產品概念的關鍵物理。當物理學沒有得到充分的建模或解決時,在整個設計空間中依靠低延性模型進行分析可能會導致設計不可行,或明顯的次優。在優化過程中,簡單地用更高的fdelity模型替換這些模型往往不是一個實用的策略,因為這些信息量更大的技術會帶來更高的計算成本。多效性方法提供了一個概念框架,通過明智地使用有限的高效性分析,同時利用低效性模型提供的信息來有效地優化產品。在這里,多目標方法被認為是屬于一個更大的方法類別,它協調一組信息源以加速計算任務。這些信息源使用計算方法(即數學描述和隨之而來的數值分析)和/或非計算方法(如物理實驗、分析解決方案和專家分析)來量化系統響應。
盡管已經開發了相當多的多重保真度方法,但它們的能力仍在討論之中,其潛力仍未得到充分開發[2], [3]。這促使人們對可以支持這些方法的比較和嚴格評估的基準問題感興趣。Beran等人[1]提議將用例和測試問題分為三類。L1問題,具有精確解的計算便宜的分析函數;L2問題,簡化的工程應用問題,可以用減少的計算費用執行;L3問題,更復雜的工程用例,通常包括多物理場耦合。北約AVT-331研究任務組 "軍用車輛系統級設計的目標驅動、多變量方法",一直在進行協調活動,以收集和研究這三類問題的基準。本文提供了L1基準的概述,這些基準是分析性問題,與實際工程問題沒有明確的相似性,但支持跨領域的調查。文獻中提出了大量的L1基準問題,大多是與新型的多重保真度方法的介紹相結合的[4]-[23]。然而,目前還沒有一個全面的計算效率高的基準框架。
這項工作的目的是提出和討論一套具體制定和選擇的分析基準問題,以強調測試和評估廣泛的多德爾法的能力。該框架旨在提供一套標準問題、推薦的實驗設置和性能評估指標,以支持對不同計算方法的嚴格測試和比較。基準的選擇是為了體現在基于模擬的優化問題中經常遇到的數學特征和行為,這些特征和行為會對成功搜索和識別現實世界工程應用中的最優解提出挑戰。這些挑戰包括 (i) 解決維度詛咒[24]和與多維度方法相關的可擴展性;(ii) 處理目標函數的局部、多模態和不連續行為;以及(iii) 處理目標函數中可能存在的噪聲。基準的設計和選擇是為了簡單的實現,同時允許分離和研究不同的數學特征,以獲得關于不同的多德爾法的建模、設計和優化的性能的洞察力。所選的測試集包括:Forrester函數(連續和不連續)、Rosenbrock函數、Rastrigin函數(移位和旋轉)、Heterogeneous函數、一個耦合的彈簧-質量系統和Pacioreck函數(受噪聲影響)。
這套分析性L1基準的設計是為了評估多fdelity方法在面對所有這些數學特征時的弱點和優勢。本文還介紹了計算和比較這些方法的全局和優化精度的指標。全局精度指標提供了一個衡量近似最高fdelity函數的能力,也被認為是地面真實信息源。優化精度是一個以目標為導向的指標,衡量方法在搜索和找到全局最優時的效率和效果。
本文的其余部分組織如下。第2節說明了各個基準問題,包括它們的公式和它們的顯著數學特征。第3節介紹了關于建立基準實驗的建議,以便對各種方法進行公平和有意義的比較。第4節討論了不同的指標和標準,以評估和比較多重性建模和優化策略的性能。最后,第5節討論了結語。