本研究提出一種針對動態武器目標分配(DWTA)問題的強化學習(RL)框架,該組合優化問題具有軍事應用背景。動態武器目標分配是靜態武器目標分配問題(WTA)的擴展,通過引入時間相關要素以模擬戰爭的動態特性。傳統WTA解決方法包括簡化模型、精確算法和啟發式方法,但這些方法面臨可擴展性與計算復雜性挑戰。本研究提出包含時間階段的DWTA數學模型,支持多階段戰略規劃。該模型被構建為帶有約束條件的非線性整數規劃問題,確保武器分配方案在時間維度上的可行性。為應對大規模DWTA的計算挑戰,論文采用深度強化學習(DRL)算法——特別是深度Q網絡(DQN)與行動者-評論家(AC)算法——來學習高效的武器分配策略。所提出的強化學習框架通過多種問題場景驗證,證明其能在合理推理時間內提供可行解決方案,適用于時效性要求高的應用場景。結果顯示,強化學習方法在約束編程精確算法的對比中表現更優,且隨著問題規模擴大優勢愈發顯著,凸顯了其在DWTA問題中實際應用的潛力。
武器目標分配(WTA)屬于組合優化問題(COP),其目標是通過戰略性分配武器至目標以最大化對敵毀傷效果。隨著新型武器系統的發展及其使用復雜性的提升,WTA的重要性日益凸顯,凸顯出對高效算法管理多樣化武器的迫切需求(Kline等人,2019a)。然而,Lloyd與Witsenhausen(1986)證明WTA問題屬于NP完全問題,表明不存在已知的多項式時間算法。這一復雜性導致計算量隨問題規模擴大或條件復雜化而急劇增加。
WTA問題可分為靜態與動態兩類。動態武器目標分配(DWTA)考慮武器使用的時間依賴性(Kline等人,2019a),而靜態武器目標分配(SWTA)被視為原始WTA問題,也是DWTA在時間階段數為一時的一種特例。本研究通過引入多時間階段擴展原始WTA問題,形成DWTA框架。這一改進使得可用資產可被戰略性地分配,從而隨時間推移達成理想的終局狀態。它反映了戰場場景中決策的動態性——每次交戰的成果將影響后續決策。有效的武器-目標分配規劃需適應這種動態環境。具體而言,必須考慮武器的可用性限制,因為并非所有武器均可無限使用,它們可能需要在下次交戰前補充彈藥、人員或燃料。
因此,本研究中提出的DWTA模型包含每次武器分配后的準備時間。該方法通過強調周密規劃與資源管理優化決策流程,確保武器分配在考慮后續交戰需求的前提下實現高效配置。
本研究采用強化學習(RL)解決DWTA問題。自Bello等人(2016)提出以來,RL已成為應對組合優化問題的前沿方法。與監督學習不同,RL無需標記數據進行訓練,而是通過基于獎勵的學習機制實現優化,這使其特別適用于組合優化問題。具體而言,本文對比了采用深度強化學習(DRL)算法的模型。DRL在缺乏真實數據或獲取成本高昂的大規模組合優化問題中表現優異,因其可利用神經網絡等近似函數并從獎勵信號中學習。DRL模型可通過學習參數高效解決問題,無需從零開始求解每個問題。此外,由于學習基于仿真器生成的獎勵,DRL能適應問題條件變化而無需重構數學模型。
本研究實施了兩類代表性DRL方法:深度Q網絡(DQN)與行動者-評論家(AC)算法。DQN是基于價值的算法,旨在近似特定狀態下采取行動的預期獎勵,通過最大化該價值學習最優行動策略。相比之下,AC算法結合了基于策略與基于價值的方法,通過"行動者"直接學習特定狀態下的最優行動,而"評論家"評估行動者決策的有效性。本研究通過對比同一DWTA場景下采用相同訓練方法的DQN與AC算法性能,旨在分析不同算法的結果差異。該方法有助于深入理解各類DRL算法在不同DWTA配置下的表現差異。
論文后續結構安排如下:第二章綜述前人研究并闡明本研究與前人工作的差異;第三章定義DWTA框架;第四章闡述方法論;第五章展示實驗方法與結果;第六章為全文結論。
美國國防部致力于推行基于模型的系統工程(MBSE)以加速并優化復雜系統的采辦流程,但尚未提供關于如何全面實施MBSE的指導方針。這催生了以下研究機遇:選取國防部通用流程,基于現有文獻構建MBSE方法論,按該方法生成模型,記錄建模成本,并通過訪談模型接收方評估其投資價值。本研究針對聯合前沿指揮控制(C2)能力評估(CBA)報告的差距分析與特征描述階段,開發了包含12個步驟的方法論。研究識別出13個數據組:系統資源、條件、問題陳述、能力、聯合能力領域、度量、度量屬性、三類任務以及三種滿足關系。建模總耗時149.6小時,其中69.8小時用于數據結構與本體構建,79.8小時用于具體實例建模。軟件工具、培訓與人工總成本略低于20,000美元。利益相關者訪談表明,模型在可追溯性、迭代便利性與重用性方面的效益遠超構建成本。未來研究方向包括:調整分析技術、將建模工作擴展至CBA流程其他環節,以及與任務工程模型集成。
世界正變得日益復雜且高度互聯。這一趨勢的直接結果是,無論公共部門還是私營機構,獲取競爭優勢的難度都在持續增加。系統工程(Systems Engineering, SE)學科通過幫助工程師思考如何實現期望的涌現行為并減少非預期后果,為解決這一挑戰提供了方法論支撐。傳統系統工程實踐還通過系統化分析設計決策的影響,有效管控項目成本超支與進度延誤風險。
近年來,計算機算力的提升催生了IBM Rhapsody、Catia Magic系統之系統架構師等數字化系統工程建模工具。此類概念建模工具通過強制邏輯一致性、術語標準化及關系圖可視化等優勢(Henderson與Salado,2021;Maurandy等,2012),以傳統文檔無法實現的方式賦能系統工程師。將此類工具與建模方法學及語言相結合的應用實踐,即基于模型的系統工程(Model-Based Systems Engineering, MBSE)(Delligatti,2013)。MBSE實踐者普遍認可其在可追溯性、完整性與信息可訪問性方面的顯著提升,以及返工、錯誤與成本的顯著降低(Campo等,2023;Henderson與Salado,2021)。
美國國防部(DoD)正致力于構建基礎設施、流程與培訓資源以支持采辦專業人員獲取MBSE效益。此類使能活動的投入對組織能否成功實施MBSE并實現生產力躍升至關重要,但高成本特性使得預算分配策略尚不明晰。這引出一個關鍵實踐問題:國防部是否應在系統完成設計階段進入維護期后推進MBSE轉型?
本研究通過選取國防部戰術空中控制小組(TACP)現代化項目作為案例,在其開展能力評估(CBA)過程中探索上述問題。該項目辦公室需評估現有資源能否滿足未來作戰需求,本研究將重點分析MBSE如何支持這一進程。
當前,美國防部已將戰略重心從中東反恐作戰轉向應對南太平洋地區同等級/近同等級對手的沖突。這一轉型迫使眾多進入里程碑C后的項目重新評估其武器系統是否適配國防部未來需求。許多系統已進入運維階段且原始設計針對不同任務場景,國防部要求項目辦公室實施調整以支撐動態任務需求。
除任務轉型外,國防部正推進數字工程范式變革。眾多工程師致力于開發跨企業適用的流程體系。MBSE的新興特性為研究提供了廣闊空間——許多國防部流程尚未制定MBSE實施指南,為實踐者留有探索余地。本研究聚焦任務轉型與數字工程轉型的交匯點,探究如何優化MBSE在能力評估中的支持作用。
本研究通過四項來源的內容分析構建能力評估(CBA)建模方法論:CBA流程、任務工程流程、能力組合管理(CPM)以及系統建模語言(SysML)的權威教材。研究者隨后應用該方法論為"聯合前沿C2能力評估"具體用例創建模型,并跟蹤建模工作所需的資源投入。最后通過訪談評估模型對CBA流程的影響,嘗試歸納該CBA模型的優勢與不足。
在現代戰斗中引入機器人與自主系統(RAS)似乎是不可避免的,其優勢顯而易見,如降低風險和擴展人員。本研究選擇了異構無人飛行器(UAVs)的持久偵察作為研究范圍,這也是比較突出的應用之一。盡管在開發先進硬件和算法方面做出了不懈努力,但在現實世界中仍缺乏實際應用。根本原因似乎是最先進的算法不足以應對軍事環境中的高動態性和不確定性。
目前,軍方使用基于意圖的指揮與控制(C2)來應對這些挑戰,因為它們與作戰有著內在的聯系。因此,將 C2 的通信原理轉換為適用于 RAS 的數學方法似乎大有可為,而基于意圖的協調就是這種轉換的結果。為了能夠應對高動態性和不確定性,提出了三項要求。首先,需要有靈活性,以便就地修改解決方案。其次,需要對不可靠的通信具有魯棒性;第三,需要可擴展性,以確保在更大的感興趣區(AOI)和更大的無人機團隊中也能保持性能。
單智能體偵察問題(SARP)和多智能體偵察問題(MARP)是訪問頻率和覆蓋水平方法的緊湊組合,用于持久偵察。根據多機器人系統(MRS)團隊合作和組織方面取得的進展,提出了一種協調方法。這種協調方法將 MARP 的 AOI 劃分為更小的不相交子集,這樣每個無人機就可以獨立解決不同的 SARP。這項研究的主要貢獻在于,這種協調方法基于意圖發揮作用,實現了所需的靈活性、魯棒性和可擴展性。為此,它構建了一個監督員層次結構,在重疊子集上執行分布式合作。該分布式問題使用新穎的復雜并發約束(CCB)來解決,CCB 是并發前向約束(ConcFB)的調整版本,適用于具有復雜局部問題的分布式約束優化問題(DCOP)。此外,在分支與價格的定價步驟基礎上,通過將列生成應用于重新制定的 MARP 版本,生成了一個下限來對所獲得的解決方案進行基準測試。
基于意圖的協調在面對 AOI 的擾動時表現出了靈活性。特別是當變化比較分散時,無需立即修改整個解決方案。此外,如果由于通信失敗而先發制人地終止合作,則可觀察到針對由此產生的次優子集的魯棒性。特別是對于層次結構中的較高層次,次優解決方案可以由較低層次的解決方案進行部分修正。最后,對于越來越大的問題實例,該方法的計算時間呈亞線性增長。因此,基于意圖的協調提供了一種令人興奮的方法,即使在更具挑戰性的環境中也能保持 RAS 的性能。
圖 1.1: 將多智能體偵察問題(MARP)的 “感興趣區域”(AOI)分割成更小的、互不關聯的單智能體偵察問題(SARP)的示例
從根本上說,假定持久偵察可以通過求解多智能體偵察問題(MARP)來實現最優化,但考慮到軍事環境的挑戰,這并非易事。盡管如此,為了獲得良好的解決方案,本論文嘗試將基于意圖的 C2 原則轉換為一種數學方法,命名為基于意圖的協調。這種協調方法旨在將 MARP 分割成更小的單智能體偵察問題(SARP),并分別求解。圖 1.1 顯示了無人機在不相交的 AOI 子集中聯合優化路徑和單獨優化路徑之間的差異。
圖 1.2:求解方法的總體描述。不是求解 MARP 達到最優,而是將 AOI 劃分為更小的子集,以便單獨求解更小的 SARP。使用基準方法對結果進行比較。
圖 1.2 顯示了總體結構。在給出 AOI 的情況下,基于意圖的協調為多個 SARP 創建子集。合并后的結果應類似于 MARP 的最優解,這可以使用特定的基準方法進行評估。因此,本論文的主要貢獻可以列舉如下:
強調在現實作戰環境中使用傳統求解方法執行各類偵察任務的基本問題(第 2 章)。
將 SARP 和 MARP 表述為緊湊模型,結合頻率和覆蓋水平方法用于持續偵察(第 3 章)。
為了生成嚴格的下限,使用列生成法對 MARP 進行了松弛的重構求解,其中包括頻繁求解初等最短路徑問題(ESPP)。由于 MARP 的結構,必須包括循環距離,以及其他一些針對具體問題的調整,以改進前向標注[3](第 4 章)。
通過描述基于意圖協調的分布式分層框架,解釋基于意圖的 C2 的轉換(第 5-2 節)。
實施模糊 C-Means(FCM)[4],并增加后處理插值方法,對相關扇區特征進行權衡聚類,以降低問題的復雜性并適應傳感器的異質性(第 5-3 節)。
制定一個任務分配問題,在智能體之間細分聚類,作為自上而下的啟發式來創建子集。任務分配包括任務效用度量和新穎的二次任務依賴性約束,以適應有限的能力(第 5-4 節)。該方案被擴展為適用于分布式分層框架的合作方案(第 5-5-2 節)。
為了解決分布式合作公式,對并發前向邊界(ConcFB)[5] 算法進行了調整,以適應復雜的局部問題,從而形成復雜并發邊界(CCB)(第 5-5-5 節)。
全面分析,包括參數和組件性能,以及針對軍事環境的具體定量評估。(第 6 章)。
在建立國家間軍事聯盟模型時,學者們會做出簡化假設。然而,大多數人都認識到這些經常被引用的假設過于簡單。本論文利用監督和非監督機器學習的發展來評估這些假設的有效性,并研究它們如何影響對聯盟政治的理解。本文發現的一系列發現有助于更好地理解聯盟的原因和后果。
研究的第一個假設認為,當國家面臨共同的外部安全威脅時,它們會結成聯盟,匯聚軍事實力,以增強自身安全,確保自身生存。外交史和安全研究領域的許多人批評了這一廣為接受的 “能力聚合模型”,指出各國結盟的動機多種多樣。在三篇文章中的第一篇中,介紹了一種無監督機器學習算法,旨在檢測縱向網絡中行為體如何形成關系的變化。這樣,就能在第二篇文章中評估各國結盟的不同動機。研究發現,國家結成聯盟是為了實現能力聚合之外的外交政策目標,包括鞏固非安全關系和追求國內改革。
學者們在建立聯盟與沖突之間關系的模型時會引用第二個假設,即常規假設聯盟的形成與盟國之一受到攻擊的概率無關。這與能力聚合模型(Capability Aggregation Model)的預期形成了鮮明對比,后者表明外部威脅和盟國對侵略者攻擊的預期會影響結盟的決定。在最后一篇文章中,我研究了這一假設以及聯盟與沖突之間的因果關系。具體來說,使用監督機器學習和廣義聯合回歸模型(GJRMs)將沖突因果路徑上的聯盟內生化。結果質疑了對聯盟與沖突關系的傳統理解,即聯盟既不會阻止沖突,也不會引發沖突。
自我-時間指數隨機圖模型(ego-TERGM)是一種有限混合模型,它試圖檢測更廣泛的縱向網絡中每個自我網絡組成的異質性。其方法是根據一組 TERGM 參數的相似性將每個 egonetwork 分配到一個群組中。這是通過使用基于混合模型的 TERGM 參數有限聚類的無監督潛類模型來實現的。換句話說,ego-TERGM 試圖根據每個縱向自我網絡(TERGM 模型參數)的相似性,將縱向網絡(自我)中的一組節點聚類到預先確定的時間不變類(簇)中。
快速準確地識別附近的飛機對美國海軍艦艇的安全有效運行至關重要。現代技術和計算機輔助決策工具為過時的戰斗識別方法提供了替代方案。通過將 Soar 認知架構的強化學習功能與戰斗識別技術相結合,本論文探索了兩者合作的潛力。在開發出 Soar 與戰斗識別方法之間的基本接口后,本論文分析了所開發的 Soar 代理對既定真理的整體正確性,以確定系統的學習水平。雖然這項初步研究的范圍有限,但其結果有利于戰斗識別的大幅現代化。除了建立概念驗證外,這些發現還有助于未來的研究,以開發出一個強大的系統,能夠模仿和/或輔助人類操作員的決策能力。雖然這項研究的重點是基于海上的海軍應用,但研究結果也可擴展到整個國防部門的實施。
戰術決策者可獲得的海量信息會讓戰術行動官(TAO)或任務指揮官(MC)等單個操作人員應接不暇。在作戰環境中,戰術行動官或任務指揮官必須快速正確地識別和分類未知飛機(海軍作戰部長 [CNO],2012 年)。隨著未知飛機數量的增加,傳感器數據和決策信息的數量也相應增加。通過嘗試確定一種有助于 TAO/MC 決策過程的程序,有可能提高操作員的效率,從而通過減少飛機在戰斗識別(CID)方面未分類的時間來提高作戰環境的內在安全性。通過強化學習(RL)解決方案,Soar: 認知架構可促進 CID,并最終模擬 TAO/MC 的認知過程。
本論文是解決 TAO/MC 決策者可能遇到的 CID 操作員任務超負荷問題的關鍵一步,它通過有效(準確)的 RL 確定了模擬 CID 過程的計算機輔助決策工具。通過評估 RL 對簡化的 CID 規則集的影響,可以評估 Soar 認知架構,將其作為一個合理的框架納入 TAO/MC 職責。最終,評估 RL 功能是否足以成為在特定行動領域內準確模擬 CID TAO/MC 認知功能的工具集,對于在擴展研究之前證明這一概念的可行性至關重要。研究 RL 的潛在益處可以重塑 CID 的標準操作程序和 TAO/MC 的主要職責。
結合 CID 評估 RL 算法是研究確定合作系統可行性的關鍵一步。本論文將利用 SOAR 認知架構和基本的 CID 矩陣,嘗試回答以下研究問題: “在 SOAR 認知架構下,CID 的強化學習是否有效?
對上述研究問題的評估將通過開發和分析兩個以結果為導向的假設來實現。
假設 Ia. 將強化學習/獎勵價值納入戰斗識別功能將降低或不改變所提供的建議行動/識別的有效性。
假設 Ib. 將強化學習/獎勵價值納入戰斗識別功能將提高所建議行動/識別的有效性。
本文介紹了一種新的 L-V-C 模擬框架,用于開發空戰戰術、技術和程序(TTP),從而推進了實戰(L)、虛擬(V)和建構(C)模擬方法。在該框架中,戰術、技術和程序(TTP)是在獨立的 C、V 和 L 模擬階段反復開發的。這樣既能利用每類模擬的優勢,又能避免純 LVC 模擬的挑戰。C 階段在不考慮人機交互(HMI)的情況下,根據飛機的存活概率(Ps)和擊落概率(Pk)提供最佳 TTP。在 V 階段,通過評估 Pk 和 Ps 的適用性,以及有關飛行員態勢感知、心理工作量和 TTP 堅持性的人機交互措施,對最佳 TTP 進行修改。在 L 階段,使用真實飛機來評估所開發的 TTP 是否能在真實環境中實現可接受的 Pk、Ps 和 HMI 測量。該框架的迭代性質使 V 階段或 L 階段能夠揭示 TTP 的缺陷,并將不完善的 TTP 返回 C 階段或 V 階段進行修訂。本文是兩部分研究的第一部分。第二部分展示了該框架在作戰使用的 C- 和 Vs 模擬器以及真實的 F/A-18C 飛機和飛行員中的應用。
關鍵詞:空戰、人為因素、人機交互、實時-虛擬-建構、心理工作量、性能、模擬、態勢感知、測試與評估
本文是兩部分研究的第一部分。在第 1 部分中,介紹了用于 TTP T&E 的實時-建設性-虛擬(L-V-C)模擬評估框架。在第 2部分中,使用實際使用的 C 和 V 模擬器以及真實的 F/A18C 飛機和合格的戰斗機飛行員演示了該 L-V-C 框架的使用。與 LVC 模擬不同,L-V-C 框架并不試圖混合不同的模擬類別,因此避免了 LVC 模擬所面臨的挑戰。建議的框架由獨立的 C、V 和 L 階段組成,在這些階段中,TTP 在給定的空戰場景中反復發展。在 C 階段,不考慮 TTP 的定性規則,但使用 C 仿真來確定 TTP 定量規則的 MP 最佳值。在 V 階段,采用這些最優定量規則,并改進定性規則的口頭描述,直到使用 Pk 和 Ps 衡量的 HMP 輸出足夠,且 NP、SA 和 MWL 分數可接受為止。這樣,在模擬環境中就得到了由定量規則的 MP 最佳值和定性規則的 HMP 最佳描述組成的 HMP 最佳規則。最后,使用這些 HMP 最佳規則對 TTP 進行 L 階段的 L 模擬評估。如果 HMP 最佳規則在現實生活中的使用能產生適當的 HMP 輸出,且 NP、SA 和 MWL 分數可以接受,則 HMP 最佳規則可用于實際操作。換句話說,根據 Pk 和 Ps 得出的運行 HMP 最佳規則可確保實現飛行的主要目標,同時在實際環境中 NP、SA 和 MWL 仍可接受。這樣,即使最終使用任務的要求和復雜程度超過了 TTP T&E 期間的要求和復雜程度,也能在人類能力和限制方面保持理想的安全系數。
L-V-C 模擬框架的一大優勢在于其迭代性。也就是說,如果需要修改定性規則,可以在 L 階段或 V 階段之后重復 V 階段。或者,如果需要修改定量規則,TTP 可以從 V- 或 L 階段返回 C 階段。在 L 階段和 V 階段,HMP 輸出,特別是 SA、NP 和 MWL 分數,為檢測 TTP 可能存在的缺陷和確定如何改進 TTP 提供了強有力的工具。此外,如果需要,TTP T&E 需要反復進行 C 仿真,V 階段和 L 階段的這些分數還可用于生成修改后的優化標準和 C 階段應用的約束條件。最終的 TTP 在 MWL、NP、SA 和最終的 HMP 輸出之間實現了很好的平衡,這反映了飛行的主要目標。
圖 2 顯示了由 C、V 和 L 三個階段組成的 L-V-C 模擬框架。在使用該框架之前,必須根據 TTP T&E 的總體目標,定義初始 TTP 及其使用場景。情景描述了所涉及的友機和敵機及其主要目標。TTP 是一種描述友機如何在特定場景中以最佳方式實現其目標的方法。TTP 通常以相對于敵方飛機的時間表的形式向飛行員簡要介紹。場景中使用的飛機和系統均以 C- 和 V- 模擬建模。這些模型必然是對現實的不完全抽象。不過,這并不會對 L-V-C 框架構成重大挑戰,因為 TTP T&E 的 L 階段是使用真實飛機和系統進行的。初始 TTP 的定量規則值和定性規則描述均基于現有的最佳假設和實踐。L-V-C 模擬框架用于確定部分或全部規則的作戰 HMP 最佳值或描述。它可用于確定整個飛行、一個要素或單個飛行員的運行 HMP 最佳規則。
武器目標分配(WTA)是一個組合優化問題,其中一組武器必須有選擇地攻擊一組目標,以最小化目標的預期生存值。在分布式形式下,它也是自主多智能體機器人學中的一個重要問題。在本研究中,我們探索了一種改進的武器目標分配問題的分布式方法,在該問題中,武器必須達到指定的殺死每個目標的概率。本文提出了三種新的成本函數,在智能體與目標比率較低的情況下,這些函數誘導的行為可能優于經典成本函數誘導的行為。以機載自主武器為例,在模擬同質和異質交戰場景時探討了這些成本函數的性能。模擬結果表明,在代理與目標比率較低的情況下,有效使用武器尤為重要,而所提出的成本函數可實現指定的預期行為。
此外,還考慮了多目標版本的 WTA 問題,其中任務分配的質量既取決于分配給每個目標的武器的總效果,也取決于智能體到達目標的相對時間。在現實世界中,任務規劃者希望對每個目標實施出其不意的攻擊,這種時間限制可能非常重要。本文提出的第四個成本函數將武器的有效性和時間指標結合為一個綜合成本。在武器與目標的接近速度被限制在一定范圍內的情況下,這種綜合成本允許在分配決策過程中加入到達時間限制。通過理論分析和仿真演示了這種新成本函數的性能。結果表明,所提出的成本函數在閉合速度限制下平衡了優化有效性和到達時間考慮的雙重目標,而且用戶定義的調整參數可用于調整有序到達和實現預期殺傷概率雙重目標的優先級。
戰爭室效應模型(WREM)及其配套的態勢控制系統是根據決策者個性提出的優化組織支持決策的概念。PEN 人格模型、情感注入模型、弗魯姆-耶頓模型、情境強度和耶克斯-多德森定律的概念和部件為 WREM 作為一個概念模型的建立提供了理論基礎。兩個實驗支持在假設的決策情景中確定性能差異的關鍵來源。其中第一個實驗有力地支持了將 WREM 的核心個性和情境因素作為重要差異來源的觀點。第二個實驗總體上證實了 WREM 核心因素的重要性,并進一步表明,性能變異的主要來源是個性和態勢因素之間的關鍵交互作用。這直接支持了 WREM 作為參數模型的條件驗證。通過響應面分析和模型優化,確定了作為態勢控制系統的個性匹配優化方案。對該系統的隨機模擬表明,在 WREM 個性因素的考察范圍內,決策性能都有顯著提高。通過在經濟學理論和模型中實際而全面地考慮個性和態勢因素,WREM 推進了我們對這些因素之間的動態交互作用及其對決策過程中認知表現的累積效應的基本理解。本研究最后建議將 WREM 作為進一步基礎研究和應用研究的主題,并提出了在工業中實施和應用 WREM 的概念草案。
在整個開發和完善過程中,WREM 為選擇研究目標和實驗方法提供了重點,這些目標和方法是支持整個研究工作所必需的。以下各節將討論該模型的適用性、構成以及為實現該模型而開展的研究的局限性。
WREM 是一個參數模型,代表了與人、情境、喚醒、情感和績效相關的既有模型和理論的整合,為判斷和決策的可變性提供了新的見解。該模型估計了人格和情境因素(即 “作戰室效應”)對決策者認知表現的動態交互影響。通過與之配套的情境控制系統,WREM 可以根據決策者的個性優化決策質量。
適用于 WREM 的決策環境包括:
上述條件被視為正式組織決策過程的標志。對于那些不符合上述條件的情況,世界資源研究所的適用性可能會更加有限。
WREM 由 15 個變量組成,決策有效性是因變量。六個自變量被確定為核心因素,并通過實驗進行多層次測試。另外三個自變量被確定為控制因素,在單一層面上進行測試。另外五個變量作為理論因素,沒有在本研究中進行測試。上圖描述了 WREM:
因變量:
獨立變量 :
其他中介變量:
由于實際決策事件并未被規劃為實驗平臺,所選的理論因素被排除在外,因為在實驗刺激的眾多因素中,有效地體現這些因素是不切實際的。其他因素只包含在控制水平上,因為擔心如果完全不體現這些因素,可能會在實驗反應中引起不必要的變異。在排除這些因素的情況下,假定這些因素對決策質量產生隨機影響。如果在控制設置中包含了這些因素,則假定如果在多個層面上對其進行研究,其效果將與其他權威文獻預測的效果基本一致。
數字工程和數字設計是美國空軍(USAF)的一個新興重點領域,尤其是在現代復雜系統中的應用。高復雜性系統的一個例子是優先進行廣域搜索和多視角目標確認的網絡合作自主彈藥群(NCAM)。首先,本研究討論了在基于模型的系統工程(MBSE)工具中建立行為模型的方法。然后,本研究介紹了 NCAM 在兩個環境中的并行建模工作:Cameo 系統建模器中的 MBSE 模型和高級仿真、集成和建模框架(AFSIM)中的基于物理的模型。環境中的每個數字模型都能為設計過程中的利益相關者帶來不同的好處,因此模型必須呈現一致且平行的信息。因此,這項研究還提出了在模型之間轉換設計信息的自動化方法。總之,這對協同工作的模型通過系統認知和數字場景模擬了解自主流程,從而與決策當局建立信任。
本論文為有限時間范圍內的魯棒性分析和綜合提供了理論和計算工具。這項工作的動機之一是對導彈攔截系統性能進行可靠評估,這也將有助于此類系統的穩健設計。典型的性能指標具有無限時間范圍的性質,以穩定性為中心,并依賴于頻域概念,如增益/相位裕度。對于在有限時間范圍內運行的系統(如許多發射場景),這些指標可能不夠充分。相反,本論文側重于時域指標,例如,在考慮干擾、模型不確定性/可變性和初始條件的影響的同時,對系統在視界最后時間的狀態進行約束。建議的方法是沿軌跡對動力學進行數值線性化,以獲得線性時變(LTV)系統。然后在線性化系統上進行分析或綜合,該系統可捕捉到標稱軌跡周圍的一階擾動。與原始非線性模型相比,這種方法犧牲了一些精度,但卻能使用線性系統工具。建議的最壞情況 LTV 分析還提供了具體的不良干擾和不確定參數,可在高保真非線性仿真中進一步研究。
導彈防御: 威脅環境正在以許多前所未有的方式迅速演變,這主要是由于現有導彈能力的增強和無人駕駛飛行器的更加靈活。任何導彈防御系統的首要目標都是保護國土、文明和戰略資產(如航空母艦)。這些復雜的工程系統必須探測、跟蹤和攔截來襲的威脅導彈,在它們到達各自目標之前將其摧毀。目前,最常見的方法之一是使用攔截導彈,通過與威脅導彈碰撞(即命中摧毀)或在其附近爆炸(即定向破片)使其失效。
目前的局限性: 單一攔截器與威脅交戰的性能可能會因多種因素而下降,包括外部干擾(如陣風)、未建模的靈活動態、傳感器噪聲、跟蹤不準確、致動器飽和、威脅的規避機動等。這對單個攔截器系統的精度造成了極大的影響。因此,需要發射多個攔截器來提高成功的可能性。然而,這并不總是可行的;例如,一艘小型海軍艦艇可能只有有限的艦載導彈資源。替代方法包括反火箭、火炮和迫擊炮(C-RAM)系統或 CIWS 雷達控制速射炮,發射多發炮彈,直到成功識別并摧毀威脅。當同時受到多個威脅的攻擊時,這種防御能力很容易被壓垮。有些威脅導彈具有很強的機動性,可使用多種誘餌和反制手段,因此很難被攔截。此外,如果不能在短時間內做出反應,可能會造成災難性后果。總之,目前的多層導彈防御系統嚴重缺乏性能保證。
目標:這項研究的主要目標是開發理論和計算工具,用于對在有限時間范圍內運行的系統進行魯棒性分析。重點是快速可靠地計算適當的魯棒性指標,以確定最壞情況下的性能。這種分析可用于補充現有的蒙特卡洛方法,以便在設計迭代的早期發現邊緣情況,或確定二元結果(如任務成功或在最壞情況下失敗)。
挑戰: 總體而言,由于存在許多不確定性、干擾和參數變化,最壞情況分析問題是非線性和非凸的。目前還沒有任何數值上可靠的工具可用于此類分析。即使存在這樣的工具,其適用范圍也很可能有限,因為它們要么計算速度很慢,無法保證收斂,要么只適用于學術范例。例如,考慮在 F-16 飛機上應用非線性動力算法進行最壞情況軌跡分析[8]。這種算法不僅缺乏收斂性保證,而且計算速度很慢。得出最壞情況下的參數和陣風組合所需的時間(4 到 4.5 小時)與蒙特卡洛模擬所需的時間大致相同。
方法: 方法主要是沿標稱軌跡對系統的動態進行數值線性化,并評估由此產生的線性時變(LTV)系統的穩健性。這種線性化系統只捕捉標稱軌跡周圍的一階擾動。我們利用系統的線性特性,通過解決凸優化問題,為 LTV 性能提供正式保證。然而,這需要犧牲原始不確定非線性系統的精度(即以精度換取計算效益)。這種近似分析只需要一次非線性模擬,速度明顯更快。擬議的有限視界線性化分析還提供了最壞情況下的性能證明(如特定的 "壞 "干擾、參數等),可在非線性模擬中進一步分析。
本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域: