武器目標分配(WTA)是一個組合優化問題,其中一組武器必須有選擇地攻擊一組目標,以最小化目標的預期生存值。在分布式形式下,它也是自主多智能體機器人學中的一個重要問題。在本研究中,我們探索了一種改進的武器目標分配問題的分布式方法,在該問題中,武器必須達到指定的殺死每個目標的概率。本文提出了三種新的成本函數,在智能體與目標比率較低的情況下,這些函數誘導的行為可能優于經典成本函數誘導的行為。以機載自主武器為例,在模擬同質和異質交戰場景時探討了這些成本函數的性能。模擬結果表明,在代理與目標比率較低的情況下,有效使用武器尤為重要,而所提出的成本函數可實現指定的預期行為。
此外,還考慮了多目標版本的 WTA 問題,其中任務分配的質量既取決于分配給每個目標的武器的總效果,也取決于智能體到達目標的相對時間。在現實世界中,任務規劃者希望對每個目標實施出其不意的攻擊,這種時間限制可能非常重要。本文提出的第四個成本函數將武器的有效性和時間指標結合為一個綜合成本。在武器與目標的接近速度被限制在一定范圍內的情況下,這種綜合成本允許在分配決策過程中加入到達時間限制。通過理論分析和仿真演示了這種新成本函數的性能。結果表明,所提出的成本函數在閉合速度限制下平衡了優化有效性和到達時間考慮的雙重目標,而且用戶定義的調整參數可用于調整有序到達和實現預期殺傷概率雙重目標的優先級。
本文介紹了一種新的 L-V-C 模擬框架,用于開發空戰戰術、技術和程序(TTP),從而推進了實戰(L)、虛擬(V)和建構(C)模擬方法。在該框架中,戰術、技術和程序(TTP)是在獨立的 C、V 和 L 模擬階段反復開發的。這樣既能利用每類模擬的優勢,又能避免純 LVC 模擬的挑戰。C 階段在不考慮人機交互(HMI)的情況下,根據飛機的存活概率(Ps)和擊落概率(Pk)提供最佳 TTP。在 V 階段,通過評估 Pk 和 Ps 的適用性,以及有關飛行員態勢感知、心理工作量和 TTP 堅持性的人機交互措施,對最佳 TTP 進行修改。在 L 階段,使用真實飛機來評估所開發的 TTP 是否能在真實環境中實現可接受的 Pk、Ps 和 HMI 測量。該框架的迭代性質使 V 階段或 L 階段能夠揭示 TTP 的缺陷,并將不完善的 TTP 返回 C 階段或 V 階段進行修訂。本文是兩部分研究的第一部分。第二部分展示了該框架在作戰使用的 C- 和 Vs 模擬器以及真實的 F/A-18C 飛機和飛行員中的應用。
關鍵詞:空戰、人為因素、人機交互、實時-虛擬-建構、心理工作量、性能、模擬、態勢感知、測試與評估
本文是兩部分研究的第一部分。在第 1 部分中,介紹了用于 TTP T&E 的實時-建設性-虛擬(L-V-C)模擬評估框架。在第 2部分中,使用實際使用的 C 和 V 模擬器以及真實的 F/A18C 飛機和合格的戰斗機飛行員演示了該 L-V-C 框架的使用。與 LVC 模擬不同,L-V-C 框架并不試圖混合不同的模擬類別,因此避免了 LVC 模擬所面臨的挑戰。建議的框架由獨立的 C、V 和 L 階段組成,在這些階段中,TTP 在給定的空戰場景中反復發展。在 C 階段,不考慮 TTP 的定性規則,但使用 C 仿真來確定 TTP 定量規則的 MP 最佳值。在 V 階段,采用這些最優定量規則,并改進定性規則的口頭描述,直到使用 Pk 和 Ps 衡量的 HMP 輸出足夠,且 NP、SA 和 MWL 分數可接受為止。這樣,在模擬環境中就得到了由定量規則的 MP 最佳值和定性規則的 HMP 最佳描述組成的 HMP 最佳規則。最后,使用這些 HMP 最佳規則對 TTP 進行 L 階段的 L 模擬評估。如果 HMP 最佳規則在現實生活中的使用能產生適當的 HMP 輸出,且 NP、SA 和 MWL 分數可以接受,則 HMP 最佳規則可用于實際操作。換句話說,根據 Pk 和 Ps 得出的運行 HMP 最佳規則可確保實現飛行的主要目標,同時在實際環境中 NP、SA 和 MWL 仍可接受。這樣,即使最終使用任務的要求和復雜程度超過了 TTP T&E 期間的要求和復雜程度,也能在人類能力和限制方面保持理想的安全系數。
L-V-C 模擬框架的一大優勢在于其迭代性。也就是說,如果需要修改定性規則,可以在 L 階段或 V 階段之后重復 V 階段。或者,如果需要修改定量規則,TTP 可以從 V- 或 L 階段返回 C 階段。在 L 階段和 V 階段,HMP 輸出,特別是 SA、NP 和 MWL 分數,為檢測 TTP 可能存在的缺陷和確定如何改進 TTP 提供了強有力的工具。此外,如果需要,TTP T&E 需要反復進行 C 仿真,V 階段和 L 階段的這些分數還可用于生成修改后的優化標準和 C 階段應用的約束條件。最終的 TTP 在 MWL、NP、SA 和最終的 HMP 輸出之間實現了很好的平衡,這反映了飛行的主要目標。
圖 2 顯示了由 C、V 和 L 三個階段組成的 L-V-C 模擬框架。在使用該框架之前,必須根據 TTP T&E 的總體目標,定義初始 TTP 及其使用場景。情景描述了所涉及的友機和敵機及其主要目標。TTP 是一種描述友機如何在特定場景中以最佳方式實現其目標的方法。TTP 通常以相對于敵方飛機的時間表的形式向飛行員簡要介紹。場景中使用的飛機和系統均以 C- 和 V- 模擬建模。這些模型必然是對現實的不完全抽象。不過,這并不會對 L-V-C 框架構成重大挑戰,因為 TTP T&E 的 L 階段是使用真實飛機和系統進行的。初始 TTP 的定量規則值和定性規則描述均基于現有的最佳假設和實踐。L-V-C 模擬框架用于確定部分或全部規則的作戰 HMP 最佳值或描述。它可用于確定整個飛行、一個要素或單個飛行員的運行 HMP 最佳規則。
分布廣泛的現代通信網絡為無源雷達系統提供了共享頻譜的絕佳機會,而發射器選擇是其中的一個主要考慮因素。本研究介紹了發射器選擇問題空間,它由三個合成孔徑雷達(SAR)處理域組成,即數據采集域、圖像域和任務性能域。這些域之間的定量聯系對于在數據收集域和/或圖像域中提出滿足任務性能域中給定任務要求的最佳發射器選擇問題至關重要。本研究考察了合成孔徑雷達處理域的屬性,以制定數據采集域和圖像域的性能指標,并根據探測性能在任務性能域對其結果進行評估。研究結果表明,可以在數據采集域和圖像域中提出并解決等效的優化問題,從而實現快速高效的優化,同時滿足任務性能域中給出的任務要求。
圖 2. 合成孔徑雷達處理鏈的數據采集、圖像和任務性能領域。
大量的現代通信系統增加了對有限射頻(RF)頻譜的需求,造成頻譜擁塞問題[1, 2]。因此,在多個系統之間建立頻譜共享機制的想法已經浮出水面,利用現有地面發射器(發射機)網絡的無源雷達系統也得到了積極開發[3, 4]。其中,無源合成孔徑雷達(SAR)技術由于能夠不受天氣和日光限制地生成高分辨率圖像,在民用和軍用領域的應用興趣也顯著增加[5, 6]。此外,近年來,利用機會信號的雙穩態雷達技術也得到了顯著發展。
雷達可生成各種數據產品,包括合成孔徑雷達圖像和目標軌跡。產品的質量取決于雷達采集參數,如帶寬、方位分集和信號雜波加噪聲比(SCNR)。通常,雷達硬件將針對特定任務產品(合成孔徑雷達、地面移動目標指示(GMTI)等)進行設計和廣泛測試,以達到輸出質量的最低要求。任務規劃(飛行路徑、運行參數等)會進一步調整硬件設計,以實現所需的性能。然而,對于無源雷達,只有接收機的設計受雷達工程師的控制。軟件可調硬件為實時更新任務規劃提供了靈活性,但還需要指標和算法來驅動這些更新。此外,對于無源雷達來說,選擇最佳發射器是一項重大挑戰,因此制定評估選擇結果的性能標準至關重要。因此,本研究的目標是定義合成孔徑雷達處理域并制定合成孔徑雷達性能標準,以便為無源雙穩態和多靜態合成孔徑雷達制定發射器選擇問題,從而在確保任務成功的同時實現快速高效的優化。
圖 1. 帶有三個發射器(TX)和一個接收器(RX)的被動合成孔徑雷達系統的成像場景。發射和接收信號分別表示為 s(t) 和 r(t),β 為雙穩態角。
圖 1 描述的是一種無源合成孔徑雷達應用場景,包括地面發射器和機載接收器,但這項研究也適用于其他幾何形狀和數量的接收器。近年來,有關無源雷達系統評估標準的研究一直在積極開展。例如,通過估算地形和大氣條件對發射信號的傳播損耗,開發了一種傳播模型來預測合成孔徑雷達的性能[7]。此外,還計算了相干 Cram′er-Rao 下限(CRLB)來表示目標參數估計誤差,并將其應用于發射器選擇的性能驅動優化算法中[8、9、10]。對于多靜態合成孔徑雷達,已開發出一種多目標優化框架,可根據合成孔徑雷達性能標準(如信噪比、側膜水平、分辨率和對比度)選擇一組最佳發射器[11]。其他研究人員已經證明了制定通用圖像質量方程(GIQE)的概念,以預測合成孔徑雷達圖像的國家圖像可解釋性分級表(NIIRS)[12, 13],但對于雙靜態和多靜態合成孔徑雷達還沒有這樣的方程。多靜態雷達比單靜態或雙靜態雷達更有優勢,因為它可以提供空間多樣性,從而提高整體圖像質量,增強目標特征,進而提高目標探測能力[14]。然而,多靜態雷達信號處理更為復雜,發射器分布不均和/或測量不準確會降低圖像質量[15]。
多靜態雷達任務規劃是一種新的范例,它將許多不同的參數和眾所周知的雷達概念以新的方式結合在一起,但人們對這些新的方式還沒有很好的理解或分析。與多個發射器和多個接收器相關的大量參數導致了高維空間的雷達設計問題。此外,由于各種雷達參數之間的相互影響,優化很難量化。如前所述,本研究探討了無源合成孔徑雷達發射器選擇問題空間,討論了制定發射器選擇優化問題時需要考慮的重要因素,并解決了提出的優化問題。
本研究的重點是理解、定義和量化三個合成孔徑雷達領域(即數據收集、圖像和任務性能領域)之間的關系,以便在實現給定任務要求的同時高效選擇發射器(見圖 2)。第三章和第四章將討論擬議的發射器選擇框架,該框架在數據收集域和圖像域中選擇一個或一組發射器,其選擇結果在任務性能域中進行評估,以檢查所選雙穩態對之間的關系及其在實現探測等任務要求方面的性能。
為此,針對被動雙穩態和多靜態合成孔徑雷達提出了發射器選擇和飛行路徑規劃的優化問題(OPs)。
與任何優化問題一樣,必須對上一節中列出的擬議業務方案中的 “最佳 ”進行定義。第三章和第四章詳細介紹了性能標準和目標函數的制定,這些標準和函數構成了一個優化問題,用于選擇最佳發射器。圖 2 描述了合成孔徑雷達處理的一般數據采集、信號和圖像處理、圖像分析和任務性能評估鏈。如前所述,在本研究中,性能標準是在數據采集和圖像域中定義的,然后在任務性能域中對選擇結果進行評估。最終目的是滿足任務目標,例如目標探測或識別性能。因此,我們可以從最大限度地提高任務成功率的角度來表述優化問題,例如通過探測概率與誤報概率或識別正確率來衡量。然而,先驗的任務評估通常并不可行,因此分辨率和對比度等圖像指標通常被用作任務性能指標的替代指標[11, 12, 16, 17]。以往的工作關注基于特定合成孔徑雷達域參數的發射器選擇問題。文獻[8、9、18]考慮了目標定位的發射器選擇問題。在 [8, 9] 中,CRLB 被用作表示目標定位誤差的性能指標,而在 [18] 中,目標定位熵被用作傳感器選擇的目標函數。在 [10] 中,作者使用雙穩態幾何圖形來選擇 在 [10] 中,作者根據模糊函數和 CRLB 之間的關系,利用雙穩態幾何選擇多靜態雷達的最佳發射器-接收器對。文獻[11]為發射器選擇框架定義了多靜態合成孔徑雷達性能標準,如信噪比、側膜水平、分辨率和對比度。
通常情況下,以往的研究使用一個域(數據采集域或圖像域)的參數(如采集幾何形狀、信噪比、分辨率和對比度)來解決發射器選擇問題,并假定其結果可優化任務性能域的性能。從質量上講,假定圖像的改進將導致任務性能的提高。同樣,數據收集標準(如 SCNR 和圖 2 中列出的其他示例)的改進也會導致圖像質量的提高。不過,要理解數據收集、圖像和任務性能領域之間的關系,還需要定量聯系。雖然文獻(如文獻 [19])中有一些雙穩態定義,但多穩態測量方法還不常見。例如,眾所周知,雙靜態分辨率是雙靜態角度的函數,但多靜態分辨率的通用定義尚未被廣泛接受(盡管文獻[11]中提出了一個定義)。因此,需要進一步分析,從數據采集和圖像域參數的角度量化多靜態合成孔徑雷達任務的性能。這樣,任務規劃的優化問題就可以迎刃而解了。
與飛行前的任務規劃方法相比,飛行中的實時優化需要更快的解決方案。將優化問題推向圖 2 的數據采集(左)端,可減少信號和圖像處理量,從而加快優化速度。因此,需要在合成孔徑雷達領域之間建立定量聯系,以便通過優化數據收集標準來優化任務性能。為此,本研究使用多目標函數提出了數據采集和圖像域中發射器選擇的優化問題。然后在任務性能域對選擇結果進行評估,將選定的雙穩態對與實現特定任務要求(如探測)的性能聯系起來。目標函數由數據采集參數(如帶寬、功率和幾何形狀)和圖像質量指標(如分辨率和對比度)構成。然后,采用固定閾值檢測器和恒定誤報率(CFAR)檢測器來評估由所選雙穩態對形成的合成孔徑雷達圖像的性能。
本論文旨在提出并解決無源雷達網絡中的最佳發射器選擇問題,以生成性能最佳的合成孔徑雷達圖像,為無源雙穩態和多靜態合成孔徑雷達技術領域的最新技術做出以下重要貢獻。
定義了合成孔徑雷達數據處理域,包括數據采集域、圖像域和任務性能域,并提供了這些域之間的量化關系。
通過推導 SCNR 和對比度 IQM 測量之間的定量關系,顯示數據收集域和圖像域之間的聯系。
通過展示分辨率和目標定位精度參數之間的相關性,顯示數據收集/圖像領域與任務性能領域之間的聯系。
通過評估數據收集和圖像域中基于探測概率(任務性能域的衡量標準)的發射器選擇結果,研究三個域之間的關系。
提供了對無源雷達網絡中最佳發射器選擇問題空間的基本理解。
針對無源雙靜態和多靜態合成孔徑雷達配置,提出并解決發射器選擇的多目標優化問題。
提供了一個基于性能的發射器選擇框架,該框架可根據作戰任務需求進行自適應調整。
根據合成孔徑雷達性能指標開發歸一化和加權目標函數,以便在數據采集域進行飛行中實時發射器選擇。
根據 SCNR 和對比度 IQM 關系,將數據采集域目標函數最大化的優化問題轉化為圖像域等效目標函數最小化的最大化問題。
通過檢測評估雙靜態和多靜態合成孔徑雷達圖像的任務性能。
為合成孔徑雷達圖像實施固定閾值和 CFAR 探測器,考慮合成孔徑雷達系統對雜波圖像像素功率的成像效應。
開發一種統計程序來實施檢測器,以評估選定的最佳發射器在雙穩態和多靜態合成孔徑雷達圖像中的性能。
對雙穩態和多靜態合成孔徑雷達配置進行性能比較,并為選擇合成孔徑雷達配置提供定量措施,以便有效選擇最佳發射器。
圖 3. 概括數據收集、圖像和任務性能領域之間關系的雙靜態案例圖。
圖 3 描述了雙臂合成孔徑雷達的數據采集、圖像和任務性能領域之間基于性能指標的關系,第三章將對此進行討論。在圖 3 中,帶寬和 SCNR0、分辨率和對比度、定位誤差和探測概率 (PD) 分別指數據采集、圖像和任務性能域的性能指標。本研究特別表明,檢測概率(任務性能域)是 SCNR0(數據采集域)的函數。如圖 3 所示,SCNR0(數據收集域指標)的增加意味著 PD(任務性能域指標)的增加。SCNR0 和帶寬可以快速有效地選擇發射器,而無需經過更復雜、更耗時的成像和任務分析過程。
美軍在戰術層面的組織、能力和授權方面存在差距,無法在信息環境(OIE)中開展行動。本論文通過分析和應用從空地一體化中汲取的經驗教訓,確定了潛在的解決方案:空地一體化是戰爭的一個層面,曾是可與現代信息、網絡和太空相媲美的新概念。空地一體化從第一次世界大戰中的戰略偵察發展到現代攻擊直升機、手動發射的殺手級無人機和戰術聯合終端攻擊控制員(JTACs)。如今,聯合終端攻擊控制員為地面指揮官提供了一名處于戰術邊緣的空地一體化專家,該專家裝備有致命和非致命能力,其權限因地點和行動類型而異。JTAC 的資格得到了整個聯合部隊和北約的認可,并最大限度地減少了地面單元所需的飛行員數量。本論文認為,建立一個與 JTAC 相當的信息、網絡和空間管制員可使聯合部隊更有效地開展戰術 OIE。這種多域終端效應控制員(MDTEC)將獲得聯合認證、資格和指定,就信息環境向地面指揮官提供建議,使用戰術信息工具,并利用聯合信息、網絡和空間資產創造效應。
本文認為,仿照聯合終端攻擊控制員(JTAC)建立 "多域終端效果控制員(MDTEC)"模型,將使戰術部隊能夠更有效地實施 OIE。MDTEC 將作為戰場戰術邊緣的 OIE 使用專家,為地面指揮官提供建議,規劃信息效果,操作信息能力,并向作戰和國家級 OIE 部隊請求效果。模擬 JTAC 計劃的認證、資格和指定方面,將創建整個聯合部隊和北大西洋公約組織 (NATO) 標準化的 MDTEC,使 MDTEC 和 OIE 部隊之間具有一定程度的信任和互操作性。
MDTEC 的能力和權限也可參照 JTAC 的模式。為 MDTEC 配備自主信息能力將使地面部隊能夠識別信息目標,傳遞準確的位置信息,并實施有限的 OIE 效果。MDTEC 應能隨時操作這些設備,而無需上級指揮部的批準。將任何進一步 OIE 行動的授權保留在較高級別,可為協調和目標審查留出更多時間,而將授權推向較低級別則可加快行動節奏。不過,MDTEC 將接受培訓并配備裝備,以識別敵方目標,并在獲得適當級別指揮官批準后開展 OIE 行動。
武器-目標分配問題是組合優化中的一個經典任務分配問題,其目標是將一定數量的工人(武器)分配給一定數量的任務(目標)。解決這一問題的經典方法通常使用集中式規劃器,這會導致單點故障,而且往往無法在條件發生變化時進行實時重新規劃。本文介紹了一種由武器執行分布式自主任務規劃的新方法,其中每個武器負責對決策變量的不同子集進行優化。本文介紹了相關成本函數和約束條件的連續凸松弛,并開發了一種分布式基元-二元優化算法,該算法即使在異步計算和通信的情況下也能保證收斂速度。這種方法在實踐中具有若干優勢,因為它對異步具有魯棒性,對時變場景具有彈性,這些優勢在使用模擬和物理商用現成地面機器人作為武器代理的實驗中得到了展示,實驗表明,這些機器人能在通信間歇和武器意外損耗(丟失)的情況下成功計算其任務。
自 1958 年首次提出[1]以來,武器-目標分配(WTA)問題一直是組合優化和更廣泛的運籌學領域中研究得很透徹的問題[2-5]。給定一組已知概率有效性的武器和一組已知價值的目標,WTA 問題尋求以最小化所有幸存目標交戰后期望值的方式將每種武器分配給一個目標。這個問題顯然適用于軍事規劃人員,但也被用于許多其他資源分配問題,如應急管理 [6] 和廣告 [7](與之相似)。自 1986 年以來,WTA 問題一直被認為是 NP-完全問題[8],因此成為研究復雜度更低的啟發式優化算法的沃土[9-11]。雖然 WTA 問題的一般結構可以有很多變化,如部分信息 WTA [12],包含目標、武器和反武器的多層問題 [13],包含目標識別、驗證和交戰的多任務實現 [14],或順序交戰 WTA [15,16],但本文將側重于擴展經典問題的表述。關于 WTA 問題的精確方法和啟發式方法的概述,讀者可參閱 [17]。WTA 的最初形式是準靜態的,即目標及其值在整個交戰過程中不會改變,武器的屬性也不會改變。最初的解決方案(以及之后的許多解決方案)也是集中式的,即由一個規劃者計算所有武器分配。
雖然集中規劃可能非常適合某些情況,例如非自主空對地彈藥,但現代和未來的彈藥有能力自主規劃和行動,這意味著不需要集中規劃。事實上,這可能無法充分發揮單個武器的決策能力。此外,集中式預規劃在靜態條件下可能會很有效,但如果出現意外變化,如武器損耗(飛行過程中丟失),通常需要重新規劃,而重新規劃可能會因計算負擔而耗費大量時間。重新規劃也很難進行集中協調,因為當武器已經部署完畢且分布較遠時,很難與它們進行溝通和協調。有算法表明,在某些集中式和分布式方法都可行的情況下,分布式方法的性能明顯更好[18]。雖然 WTA 問題很容易以集中的方式指定,但現代自主應用越來越多地發生在未知、非結構化和有爭議的環境中,所有這些都表明,使用集中式規劃器要么不可行,要么不可取,因為它會造成單點故障,無法對不斷變化的條件做出快速反應。
特別是,所謂的 "開火即忘 "方法無法實現動態變化的武器分配,這就不允許武器在部署過程中改變方向,也不允許武器對其他武器實現目標的成敗做出反應。鑒于 WTA 規劃是概率性的,這種缺乏反應能力的情況可能會導致使用的武器數量超過需要。例如,假設在規劃時為一個目標分配了幾種武器,以達到預期的成功概率。前一、兩種武器可能會在運行時摧毀目標,但由于缺乏重新規劃,其他武器將按計劃繼續攻擊已被摧毀的目標。同樣,如果預計武器會損耗,那么可能會分配五種武器同時到達一個目標,而實際上只需要兩種武器就能到達目標以實現任務目標。如果在運行初期沒有武器損耗,那么重新分配多一種武器可能會有好處,但 "發射后即忘 "的方法不具備這種能力。無法即時重新規劃還意味著,武器無法根據分配給其他優先級更高的目標的武器的損耗情況(如事故或敵方反制措施造成的損耗)來修改其任務分配,所有這些也都可能導致不良結果。避免這種低效率的方法之一是設計一種在線算法,通過重新分配武器對不斷變化的條件做出反應,但標準的集中式方法在現實條件下無法做到這一點。
近年來,控制理論[19]、優化[20]和其他領域[21]對分布式決策系統產生了濃厚的興趣。分布式系統的優勢在于,它不需要一個集中的協調者來讓每個智能體采取行動。相反,智能體利用點對點的互動進行決策。有多種方法將 WTA 問題納入分散式框架,如進化算法 [22]、博弈論公式 [23]、并行模擬退火 [20]、蟻群算法 [24]、啟發式方法 [25]、嵌套分區 [26]、混合整數線性規劃 [27] 和拍賣算法 [28]。此外,分布式方法還用于自主武器系統的其他組成部分,如同時攔截目標[29]和避免碰撞[30],這表明分布式任務分配算法可納入整體控制框架。雖然針對特定類別的問題 [38] 或有限的異步模型 [39] 開發了用于受限優化問題的分布式算法,但許多異步算法僅適用于無約束問題的表述 [40, 41]。因此,我們需要一種易于分發的 WTA 問題表述,以及一種能夠容忍異步并解決更一般形式的受限優化問題的算法。
鑒于分布式方法的優勢,本文為 WTA 問題開發了一種分布式求解器,該求解器消除了對中央協調器的任何依賴,并提供了根據武器損耗情況即時重新規劃的能力。本文的貢獻包括:a) 對經典 WTA 問題進行了連續凸松弛;b) 開發了一種分布式算法,可容忍任意大的有界延遲;c) 推導了明確的收斂率,約束了與松弛問題解的距離;d) 演示了模擬和硬件環境下的結果。具體來說,本文的優勢在于明確考慮了智能體之間異步通信和計算所固有的實際挑戰。首先,本文提出了經典 WTA 問題的連續凸松弛,從而可以使用凸優化技術來解決該問題。然后,針對松弛后的約束凸優化問題開發了一種分布式算法。該算法是一種一階分布式的原始-對偶算法,所有原始通信和計算都允許異步進行,而對偶更新則需要偶爾進行一些協調。與所有智能體更新所有決策變量的基于平均法的現有方法[31-37]不同,該算法解決的是不等式約束的問題,并采用基于塊的更新法[31, 42-44],其中每個原始變量和每個對偶變量只由一個智能體更新。據我們所知,該類方法中唯一允許異步的現有方法是兩位作者的早期工作 [45, 46]。本文對這項工作進行了擴展,消除了收斂過程中的持續誤差,并適應了目標函數不具有對角主導赫西矩陣的問題(如本文推導的問題)。收斂率的推導約束了該算法到松弛問題拉格朗日鞍點的距離,而該點提供了原始問題的解決方案。實驗中使用了商用現成(COTS)地面機器人和模擬地面機器人作為武器代理。結果表明,無論是在靜態條件下,還是在武器根據武器損耗情況通過更新損耗發生前計算出的最優或次優分配而進行實時重新規劃的情況下,該算法都取得了成功。
本文結構如下。第二節是經典 WTA 問題表述的初步介紹。第三節是經典 WTA 問題表述的連續凸松弛推導。第四節介紹分布式算法并推導收斂率。最后,第六節是結論,并提出了未來研究的可能方向。
圖 5 均質場景中武器和目標的初始位置。灰色虛線表示最終的武器-目標分配。
數字工程和數字設計是美國空軍(USAF)的一個新興重點領域,尤其是在現代復雜系統中的應用。高復雜性系統的一個例子是優先進行廣域搜索和多視角目標確認的網絡合作自主彈藥群(NCAM)。首先,本研究討論了在基于模型的系統工程(MBSE)工具中建立行為模型的方法。然后,本研究介紹了 NCAM 在兩個環境中的并行建模工作:Cameo 系統建模器中的 MBSE 模型和高級仿真、集成和建模框架(AFSIM)中的基于物理的模型。環境中的每個數字模型都能為設計過程中的利益相關者帶來不同的好處,因此模型必須呈現一致且平行的信息。因此,這項研究還提出了在模型之間轉換設計信息的自動化方法。總之,這對協同工作的模型通過系統認知和數字場景模擬了解自主流程,從而與決策當局建立信任。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
本論文為有限時間范圍內的魯棒性分析和綜合提供了理論和計算工具。這項工作的動機之一是對導彈攔截系統性能進行可靠評估,這也將有助于此類系統的穩健設計。典型的性能指標具有無限時間范圍的性質,以穩定性為中心,并依賴于頻域概念,如增益/相位裕度。對于在有限時間范圍內運行的系統(如許多發射場景),這些指標可能不夠充分。相反,本論文側重于時域指標,例如,在考慮干擾、模型不確定性/可變性和初始條件的影響的同時,對系統在視界最后時間的狀態進行約束。建議的方法是沿軌跡對動力學進行數值線性化,以獲得線性時變(LTV)系統。然后在線性化系統上進行分析或綜合,該系統可捕捉到標稱軌跡周圍的一階擾動。與原始非線性模型相比,這種方法犧牲了一些精度,但卻能使用線性系統工具。建議的最壞情況 LTV 分析還提供了具體的不良干擾和不確定參數,可在高保真非線性仿真中進一步研究。
導彈防御: 威脅環境正在以許多前所未有的方式迅速演變,這主要是由于現有導彈能力的增強和無人駕駛飛行器的更加靈活。任何導彈防御系統的首要目標都是保護國土、文明和戰略資產(如航空母艦)。這些復雜的工程系統必須探測、跟蹤和攔截來襲的威脅導彈,在它們到達各自目標之前將其摧毀。目前,最常見的方法之一是使用攔截導彈,通過與威脅導彈碰撞(即命中摧毀)或在其附近爆炸(即定向破片)使其失效。
目前的局限性: 單一攔截器與威脅交戰的性能可能會因多種因素而下降,包括外部干擾(如陣風)、未建模的靈活動態、傳感器噪聲、跟蹤不準確、致動器飽和、威脅的規避機動等。這對單個攔截器系統的精度造成了極大的影響。因此,需要發射多個攔截器來提高成功的可能性。然而,這并不總是可行的;例如,一艘小型海軍艦艇可能只有有限的艦載導彈資源。替代方法包括反火箭、火炮和迫擊炮(C-RAM)系統或 CIWS 雷達控制速射炮,發射多發炮彈,直到成功識別并摧毀威脅。當同時受到多個威脅的攻擊時,這種防御能力很容易被壓垮。有些威脅導彈具有很強的機動性,可使用多種誘餌和反制手段,因此很難被攔截。此外,如果不能在短時間內做出反應,可能會造成災難性后果。總之,目前的多層導彈防御系統嚴重缺乏性能保證。
目標:這項研究的主要目標是開發理論和計算工具,用于對在有限時間范圍內運行的系統進行魯棒性分析。重點是快速可靠地計算適當的魯棒性指標,以確定最壞情況下的性能。這種分析可用于補充現有的蒙特卡洛方法,以便在設計迭代的早期發現邊緣情況,或確定二元結果(如任務成功或在最壞情況下失敗)。
挑戰: 總體而言,由于存在許多不確定性、干擾和參數變化,最壞情況分析問題是非線性和非凸的。目前還沒有任何數值上可靠的工具可用于此類分析。即使存在這樣的工具,其適用范圍也很可能有限,因為它們要么計算速度很慢,無法保證收斂,要么只適用于學術范例。例如,考慮在 F-16 飛機上應用非線性動力算法進行最壞情況軌跡分析[8]。這種算法不僅缺乏收斂性保證,而且計算速度很慢。得出最壞情況下的參數和陣風組合所需的時間(4 到 4.5 小時)與蒙特卡洛模擬所需的時間大致相同。
方法: 方法主要是沿標稱軌跡對系統的動態進行數值線性化,并評估由此產生的線性時變(LTV)系統的穩健性。這種線性化系統只捕捉標稱軌跡周圍的一階擾動。我們利用系統的線性特性,通過解決凸優化問題,為 LTV 性能提供正式保證。然而,這需要犧牲原始不確定非線性系統的精度(即以精度換取計算效益)。這種近似分析只需要一次非線性模擬,速度明顯更快。擬議的有限視界線性化分析還提供了最壞情況下的性能證明(如特定的 "壞 "干擾、參數等),可在非線性模擬中進一步分析。
通過與被稱為計算機生成兵力(CGF)的虛擬對手進行訓練,受訓戰斗機飛行員可以積累空戰行動所需的經驗,而其成本僅為使用真實飛機訓練的一小部分。但實際上,計算機生成兵力的種類并不豐富。這主要是由于缺乏 CGF 的行為模型。在本論文中,我們研究了空戰訓練模擬中 CGF 的行為模型在多大程度上可以通過使用機器學習自動生成。空戰領域非常復雜,在該領域內運行的機器學習方法必須適合該領域帶來的挑戰。我們的研究表明,動態腳本算法極大地促進了空戰行為模型的自動生成,同時又具有足夠的靈活性,可以根據挑戰的需要進行調整。然而,確保新生成行為模型的有效性仍是未來研究的一個關注點。
人工智能(ai)領域可以為行為建模過程提供一種替代方法,并通過糾正上一節中提到的兩種后果來提高模擬訓練的效果。這種替代方法是通過機器學習生成行為模型。機器學習程序在各種任務中的表現都優于人類,例如信用卡欺詐檢測、云計算資源分配,以及玩撲克和圍棋等游戲。對于此類任務,機器學習程序能夠通過以下三種特性的結合產生創造性的解決方案:(1)計算速度;(2)精確的約束滿足能力;(3)巧妙的學習算法。利用這三個特性并將其應用于行為模型的開發,我們就能獲得以下能力:(1) 以更快的速度開發行為模型;(2) 開發出比目前更多變化的行為模型。因此,使用機器學習程序開發行為模型有可能消除當前行為建模過程對訓練效果造成的兩種影響。
不過,在將機器學習應用于空戰模擬之前,我們必須先考慮空戰領域。空戰領域十分復雜,在這一領域內運行的機器學習方法必須適合該領域帶來的挑戰。五項挑戰:(a) 形成團隊合作,(b) 對 cgf 行為進行計算評估,(c) 有效重用已獲得的知識,(d) 驗證生成的行為模型,以及 (e) 生成可訪問的行為模型。這五大挑戰并非空戰領域所獨有。但是,這些挑戰需要適合該領域的解決方案。
研究問題 1:能在多大程度上生成能產生團隊協調的空戰行為模型?
動態腳本使用獎勵函數來評估使用生成的行為模型的空戰 cgf 所顯示的行為。獎勵函數產生的獎勵用于調整新生成的行為模型,以尋找最佳模型。如前所述(見挑戰 b),空戰行為評估存在兩個問題。在文獻中,這兩個問題分別被稱為獎勵稀疏和獎勵不穩定(見第 4 章)。不過,文獻中提出的空戰行為獎勵函數并不總是考慮到這兩個問題。然而,這樣做可能會產生更理想的行為模型。這就引出了第二個研究問題。
研究問題 2:能在多大程度上改進空戰 cgf 的獎勵功能?
動態腳本將 cgf 在整個學習過程中積累的知識以權重值的形式存儲在規則庫中的規則上。每條規則的權重值表示該規則相對于規則庫中其他規則的重要性。就重復使用而言,在一個空戰場景中構建的知識也有可能在另一個空戰場景中得到有效應用。我們將知識重用置于遷移學習的背景下,即讓一個 cgf 在一個場景中學習,然后將其知識遷移到一個新的、未見過的場景中。這就引出了第三個研究問題。
研究問題 3:使用動態腳本構建的知識在多大程度上可以在不同場景下的 cgf 之間成功轉移?
我們的目標是將生成的行為模型用于模擬訓練。驗證模型是實現有效使用模型的重要一步。行為建模過程中的第 4 步說明了驗證的重要性。然而,由于行為模型驗證沒有放之四海而皆準的解決方案,我們首先必須確定驗證的正確方法。這就引出了第四個研究問題。
研究問題 4:我們應該如何驗證機器生成的空戰行為模型以用于模擬訓練?研究問題 4 的答案就是驗證程序。通過該程序,我們可以確定我們在研究中生成的行為模型的有效性。所選擇的研究方法引出了第五個研究問題。
研究問題 5:通過動態腳本生成的空戰行為模型在多大程度上可用于模擬訓練?
回答了這五個研究問題,我們就能回答問題陳述。
在第 1 章中,我們介紹了問題陳述和五個研究問題。此外,還介紹了解決研究問題的研究方法。
在第 2 章中,我們提供了有關四個主題的文獻背景信息(另見第 1.1 節): (1) 行為建模過程的詳細步驟;(2) 在模擬訓練中使用機器學習的潛在好處和缺點;(3) 過去使用機器學習生成空戰行為模型的方法;(4) 動態腳本及其在空戰模擬中的適用性。
在第 3 章中,我們介紹了團隊協調的三種方法:(1) 默契;(2) 中心;(3) 體面。我們通過實驗研究團隊協調方法的益處,然后回答研究問題 1。
在第 4 章中,我們將深入研究動態腳本編寫過程的一個特定部分,即獎勵功能。我們將展示三種不同獎勵函數的使用如何影響我們的 cgfs 的行為,然后回答研究問題 2。
在第 5 章中,我們研究了 cgf 在某種空戰場景中積累的知識在多大程度上可以成功轉移到不同空戰場景中的 cgf 上,然后回答了研究問題 3。
在第 6 章中,我們設計了一個驗證程序,通過該程序可以驗證為空戰 cgf 生成的行為模型。此外,我們還介紹了 atacc,然后回答了研究問題 4。
在第 7 章中,我們將驗證程序應用于戰斗機 4 艦模擬器中新生成的行為模型,然后回答研究問題 5。
在第 8 章中,我們將對五個研究問題的答案進行總結,從而結束本論文。最后,基于這些答案,我們提出了問題陳述的答案。之后,我們將對未來的工作提出兩點建議。
本文的主要重點是開發一種低成本、魯棒性和高效的合作定位解決方案,以幫助無人自主飛行器在全球定位系統缺失或性能下降的條件下進行導航。
首先,推導出固定翼無人機(UAV)和多旋翼無人機的完全可觀測性條件。創建了一個相對位置測量圖(RPMG),圖中的節點是車輛或已知特征(地標),它們之間的邊代表測量結果。利用圖論和線性代數概念,得出了可觀測矩陣最大秩的條件,并建立了可觀測矩陣秩與系統中可用測量值之間的關系。該分析條件的缺點之一是必須在所有時間時刻保持一個連通的 RPMG。因此,我們提出了一種離散時間可觀測性條件,即一個時間間隔內的 RPMG 的聯合必須是相連的。
接下來,將討論無人飛行器 (UV) 緊密協調和控制的一個基本問題。在各種應用中,飛行器的慣性位置并不重要。在這種情況下,車輛之間的相對姿態和方位對開發控制器非常有用。眾所周知,擴展卡爾曼濾波器(EKF)的性能非常出色,前提是它的初始化接近真實位置并能接收到測量結果。對于沒有任何全球定位系統(GPS)測量數據或網絡延遲嚴重(需要重新初始化濾波器)的長距離行駛車輛,已知先驗信息的假設是無效的。為了規避這些問題,我們開發了一種多假設卡爾曼濾波器(MHEKF),該濾波器在初始化過程中沒有先驗信息,這意味著相關的不確定性非常大。
最后,解決了地面車輛的分布式合作定位問題。集中式合作定位需要大量計算。我們開發了一種分布式合作定位算法,使組內的每輛車都能估計自己的慣性狀態。該算法是為自主地面車輛開發的,在仿真中僅使用測距數據。
圖 1.1:合作定位的相對位置測量圖,其中塔作為地標(已知興趣點),不同的 UV 相互合作。
本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域: