武器-目標分配(WTA)問題旨在將一組武器分配給若干資產(目標),從而使幸存目標的期望值最小。WTA 問題是一個非線性組合優化問題,已知具有 NP 難度。本文應用了幾種現有技術來線性化 WTA 問題。其中一種線性化技術(Camm 等人,2002 年)通過凸片斷線性函數逼近 WTA 問題的非線性項,并為 WTA 問題提供啟發式解決方案。不過,從計算角度來看,這種近似問題相對容易解決,即使對于大規模問題實例也是如此。O'Hanley 等人(2013 年)提出的另一種方法將 WTA 問題精確線性化,但代價是要加入大量額外的變量和約束條件,這使得許多大規模問題實例變得難以解決。受這些現有求解方法計算實驗結果的啟發,我們開發了一種專門的新精確求解方法,即分支-調整法。所提出的求解方法涉及 WTA 目標函數的緊湊片線性凸下逼近,并能精確求解 WTA 問題。該算法建立在任何現有的分支-切割或分支-約束算法之上,可以使用最先進的混合整數線性規劃求解器提供的工具來實現。數值實驗證明,所提出的專門算法能夠處理多達 1,500 件武器和 1,000 個目標的超大規模問題實例,并能在兩個小時的計算運行時間內獲得最優性差距高達 2.0% 的解決方案。
武器與資產(目標)的最佳位置問題被稱為 "武器-目標分配(WTA)"問題,是一個與國防作戰研究特別相關的問題。該問題屬于非線性分配問題的一個大家族,由其他各種問題組成,如設施定位問題(Camm 等人,2002 年;O'Hanley 等人,2013 年)、媒體分配問題(Cetin 和 Esen,2006 年)和輻射處理問題(Esen 等人,2008 年)。這意味著,在一個應用領域中開發和使用的現有解決方法可應用于該系列中的其他問題。
WTA 問題可追溯到 20 世紀 50 年代末,此后一直被廣泛研究。在 Merrill Flood 于 1957 年 3 月 13-15 日在普林斯頓大學線性規劃會議上對該問題進行非正式描述后,Manne(1958 年)正式提出了該問題。曼恩在論文中指出,在所有可用武器都相同的假設條件下,可以設計出該問題的線性規劃方案。不久之后,小登布羅德等人(1959 年)開發了一種算法,通過將武器依次分配給生存概率邊際遞減最大的目標,對曼恩提出的問題進行了最優分配。這種算法被稱為最大邊際收益算法。戴伊(1966 年)對問題的維度和復雜性進行了進一步研究,通過將分配問題分解為較小的目標選擇問題,為解決較大的目標選擇問題提供了信息,從而大大降低了問題的維度。
到 20 世紀 60 年代末,Matlin(1970 年)對這一問題及其變體的文獻進行了全面回顧,對各種模型假設的復雜性進行了分類。作為補充,Eckler 和 Burr(1972 年)以及 Murphey(2000 年)進一步詳細介紹了其變體,并描述了 WTA 的進攻和防御形式,以及如何將所有武器的單一分配(稱為靜態 WTA)擴展到動態 WTA,即在幾個離散的時間點進行分配。Chang 等人(1987 年)提出了一種算法,用于獲得大規模武器目標分配問題的近似最優解。假設每個目標最多只能分配到一種武器,那么就可以得到整個問題的近最優分配。Wacholder (1989 年)對基于神經網絡的靜態 WTA 算法進行了模擬,結果證明,該算法的收斂結果非常接近全局最優解。
Metler 等人(1990 年)提出了一套求解算法,使用啟發式算法將問題分解為兩個階段的子問題分別求解。隨后,Ahuja 等人(2007 年)提出了幾種下界方案作為構造啟發式算法,并通過大規模鄰域搜索加以改進。針對 WTA 問題還提出了其他各種啟發式求解算法,參見 Sonuc 等人(2017 年)及其中的參考文獻。最近,Lu 和 Chen(2021)提出了一種基于列生成思想的 WTA 問題精確解算法。關于武器目標分配模型和求解算法的全面綜述可參見 Kline 等人(2019)。
文獻中對 WTA 問題有多種表述,每種表述都有細微的修改和不同的假設。Matlin (1970 年)對各種 WTA 問題進行了全面評述,他在評述中表達了簡化完整模型的必要性。他還解釋了假設如何決定模型之間的差異。他將問題分為四個子模型:武器系統、目標綜合體、交戰和損傷模型。在每個子模型中,都有不同的假設。
武器系統子模型描述了可用的武器類型是單一還是多種。它還定義了是否所有武器都能到達每個目標,以及武器的傷害是確定性的還是概率性的。目標綜合體以目標類型為特征。類型取決于單一武器能否攻擊目標,以及目標的值或權重。例如,目標可能具有相等或不相等的值,也可能按優先級排序。傷害子模型決定傷害是部分傷害還是整體傷害(確定性傷害還是概率性傷害)。當目標值可能部分累積時,就會出現部分損害。當可以觀察到目標在攻擊后要么存活要么被摧毀的狀態時,就會使用全面損壞假設。交戰子模型定義了武器摧毀目標的概率。該概率取決于武器和目標,以及防御系統,即可能攔截指定武器攻擊的系統。
WTA 問題可以在防御或進攻環境下提出。對于防御性問題的表述,可以考慮資產受到攻擊的情況。需要用防御武器攔截進攻性武器,從而保護資產。在這種情況下,目標可能是通過將防御武器分配給攻擊資產的導彈,最大限度地降低資產的預期損失。這里假設每種防御武器都有特定的可靠性,即成功攔截攻擊武器的概率。同樣,未被攔截的武器也可能以某種其他概率摧毀資產。顯然,在這個問題的最簡單例子中,防御者可以先觀察哪些資產受到攻擊,并找出相應資產的生存概率,然后再將防御武器分配給進攻武器。這樣,防御者就能更有把握地保存最有價值的資產。這個問題的變種包括不知道哪些資產正在受到攻擊或不知道未攔截武器將造成的預期破壞的情況。
對于進攻型問題,可以考慮將一系列不同類型的可用武器發射到某些目標上。假定提供了每個目標的數值以及用每種類型的單一武器摧毀每個目標的概率。然后,我們的目標是確定將哪些武器分配給哪些目標,從而在不超出可用武器數量的情況下,使預期造成的破壞最大化。這就是本文所要解決的問題。該問題的一個變種可能包括關于統一武器的假設,即假設所有可用武器都是相同的。正如小 denBroeder 等人(1959 年)所證明的那樣,這一假設簡化了求解過程。另一種更現實的模型可能會為每種武器引入適當的射程,這樣并非所有武器都能擊中所有目標。
在上述防御和進攻問題的表述中,隱含的意思是它們是靜態的。考慮到概率,如果首先觀測到資產或目標的價值,然后再分配武器以優化目標,那么問題就是靜態的。因此,只需解決單一時間段內的單一分配問題。但在動態 WTA 問題中,分配是在多個時間段內進行的(Murphey,2000 年)。這種問題的一個例子是 "射擊-觀察-射擊 "戰略,在分配了全部可用武器的一個子集后,可以在分配剩余武器之前觀察其影響。這樣,攻擊者就可以觀察目標是否在第一次攻擊中幸存下來,并為幸存的優先目標分配新的武器,同時對任何不準確的射擊進行調整。
本文在以下方面對文獻有所貢獻。鑒于 WTA 問題是一個非線性整數優化問題,本文簡要介紹了如何應用現有的幾種方法將該問題線性化,并比較了它們的優缺點。最重要的是,本文進一步開發了一種專門的精確算法,僅使用非線性目標函數的緊湊凸下逼近來解決 WTA 問題。該算法的主要創新思想是使用 WTA 目標函數的緊湊片面線性下近似值來尋找下界和引導分支,同時在分支-約束框架中求助于非線性 WTA 目標的精確值來進行約束。因此,只需在現任節點上對目標函數進行簡單的手動調整,就能在任何分支與邊界算法的基礎上構建該算法。因此,該算法更準確的名稱應該是 "分支-調整-約束",為簡潔起見,我們將其簡化為 "分支-調整"。所提出的求解方法可以使用最先進的混合整數線性優化軟件來實現,并能處理非常大規模的 WTA 問題實例。當它不能在規定的時間內將問題實例求解到最優時,它提供了一個非常合理的最優保證,即在獲得的最佳解上有一個很小的最優差距。據報道,Lu 和 Chen(2021 年)的求解方法可處理多達 400 種武器和 400 個目標的問題實例,與之相比,我們實驗中提出的算法可在幾分鐘的計算機時間內將多達 400 種武器和 800 個目標的實例求解到最優,并在兩小時的計算機時間內將更大的實例求解到差距很小的次最優。此外,所提出的求解方法具有通用性,可成功應用于 WTA 以外的其他應用領域。
本文的組織結構如下。第 2 節將 WTA 定義為非線性優化問題,第 3 節和第 4 節介紹了該問題的兩種線性化方法,第 5 節提出了一種混合線性化方法,該方法融合了現有的兩種線性化方法。最后,第 6 節介紹了一種解決 WTA 問題的新精確算法,第 7 節展示了解決 WTA 問題實例的所有計算實驗結果。第 8 節為結論。
武器-目標分配問題是組合優化中的一個經典任務分配問題,其目標是將一定數量的工人(武器)分配給一定數量的任務(目標)。解決這一問題的經典方法通常使用集中式規劃器,這會導致單點故障,而且往往無法在條件發生變化時進行實時重新規劃。本文介紹了一種由武器執行分布式自主任務規劃的新方法,其中每個武器負責對決策變量的不同子集進行優化。本文介紹了相關成本函數和約束條件的連續凸松弛,并開發了一種分布式基元-二元優化算法,該算法即使在異步計算和通信的情況下也能保證收斂速度。這種方法在實踐中具有若干優勢,因為它對異步具有魯棒性,對時變場景具有彈性,這些優勢在使用模擬和物理商用現成地面機器人作為武器代理的實驗中得到了展示,實驗表明,這些機器人能在通信間歇和武器意外損耗(丟失)的情況下成功計算其任務。
自 1958 年首次提出[1]以來,武器-目標分配(WTA)問題一直是組合優化和更廣泛的運籌學領域中研究得很透徹的問題[2-5]。給定一組已知概率有效性的武器和一組已知價值的目標,WTA 問題尋求以最小化所有幸存目標交戰后期望值的方式將每種武器分配給一個目標。這個問題顯然適用于軍事規劃人員,但也被用于許多其他資源分配問題,如應急管理 [6] 和廣告 [7](與之相似)。自 1986 年以來,WTA 問題一直被認為是 NP-完全問題[8],因此成為研究復雜度更低的啟發式優化算法的沃土[9-11]。雖然 WTA 問題的一般結構可以有很多變化,如部分信息 WTA [12],包含目標、武器和反武器的多層問題 [13],包含目標識別、驗證和交戰的多任務實現 [14],或順序交戰 WTA [15,16],但本文將側重于擴展經典問題的表述。關于 WTA 問題的精確方法和啟發式方法的概述,讀者可參閱 [17]。WTA 的最初形式是準靜態的,即目標及其值在整個交戰過程中不會改變,武器的屬性也不會改變。最初的解決方案(以及之后的許多解決方案)也是集中式的,即由一個規劃者計算所有武器分配。
雖然集中規劃可能非常適合某些情況,例如非自主空對地彈藥,但現代和未來的彈藥有能力自主規劃和行動,這意味著不需要集中規劃。事實上,這可能無法充分發揮單個武器的決策能力。此外,集中式預規劃在靜態條件下可能會很有效,但如果出現意外變化,如武器損耗(飛行過程中丟失),通常需要重新規劃,而重新規劃可能會因計算負擔而耗費大量時間。重新規劃也很難進行集中協調,因為當武器已經部署完畢且分布較遠時,很難與它們進行溝通和協調。有算法表明,在某些集中式和分布式方法都可行的情況下,分布式方法的性能明顯更好[18]。雖然 WTA 問題很容易以集中的方式指定,但現代自主應用越來越多地發生在未知、非結構化和有爭議的環境中,所有這些都表明,使用集中式規劃器要么不可行,要么不可取,因為它會造成單點故障,無法對不斷變化的條件做出快速反應。
特別是,所謂的 "開火即忘 "方法無法實現動態變化的武器分配,這就不允許武器在部署過程中改變方向,也不允許武器對其他武器實現目標的成敗做出反應。鑒于 WTA 規劃是概率性的,這種缺乏反應能力的情況可能會導致使用的武器數量超過需要。例如,假設在規劃時為一個目標分配了幾種武器,以達到預期的成功概率。前一、兩種武器可能會在運行時摧毀目標,但由于缺乏重新規劃,其他武器將按計劃繼續攻擊已被摧毀的目標。同樣,如果預計武器會損耗,那么可能會分配五種武器同時到達一個目標,而實際上只需要兩種武器就能到達目標以實現任務目標。如果在運行初期沒有武器損耗,那么重新分配多一種武器可能會有好處,但 "發射后即忘 "的方法不具備這種能力。無法即時重新規劃還意味著,武器無法根據分配給其他優先級更高的目標的武器的損耗情況(如事故或敵方反制措施造成的損耗)來修改其任務分配,所有這些也都可能導致不良結果。避免這種低效率的方法之一是設計一種在線算法,通過重新分配武器對不斷變化的條件做出反應,但標準的集中式方法在現實條件下無法做到這一點。
近年來,控制理論[19]、優化[20]和其他領域[21]對分布式決策系統產生了濃厚的興趣。分布式系統的優勢在于,它不需要一個集中的協調者來讓每個智能體采取行動。相反,智能體利用點對點的互動進行決策。有多種方法將 WTA 問題納入分散式框架,如進化算法 [22]、博弈論公式 [23]、并行模擬退火 [20]、蟻群算法 [24]、啟發式方法 [25]、嵌套分區 [26]、混合整數線性規劃 [27] 和拍賣算法 [28]。此外,分布式方法還用于自主武器系統的其他組成部分,如同時攔截目標[29]和避免碰撞[30],這表明分布式任務分配算法可納入整體控制框架。雖然針對特定類別的問題 [38] 或有限的異步模型 [39] 開發了用于受限優化問題的分布式算法,但許多異步算法僅適用于無約束問題的表述 [40, 41]。因此,我們需要一種易于分發的 WTA 問題表述,以及一種能夠容忍異步并解決更一般形式的受限優化問題的算法。
鑒于分布式方法的優勢,本文為 WTA 問題開發了一種分布式求解器,該求解器消除了對中央協調器的任何依賴,并提供了根據武器損耗情況即時重新規劃的能力。本文的貢獻包括:a) 對經典 WTA 問題進行了連續凸松弛;b) 開發了一種分布式算法,可容忍任意大的有界延遲;c) 推導了明確的收斂率,約束了與松弛問題解的距離;d) 演示了模擬和硬件環境下的結果。具體來說,本文的優勢在于明確考慮了智能體之間異步通信和計算所固有的實際挑戰。首先,本文提出了經典 WTA 問題的連續凸松弛,從而可以使用凸優化技術來解決該問題。然后,針對松弛后的約束凸優化問題開發了一種分布式算法。該算法是一種一階分布式的原始-對偶算法,所有原始通信和計算都允許異步進行,而對偶更新則需要偶爾進行一些協調。與所有智能體更新所有決策變量的基于平均法的現有方法[31-37]不同,該算法解決的是不等式約束的問題,并采用基于塊的更新法[31, 42-44],其中每個原始變量和每個對偶變量只由一個智能體更新。據我們所知,該類方法中唯一允許異步的現有方法是兩位作者的早期工作 [45, 46]。本文對這項工作進行了擴展,消除了收斂過程中的持續誤差,并適應了目標函數不具有對角主導赫西矩陣的問題(如本文推導的問題)。收斂率的推導約束了該算法到松弛問題拉格朗日鞍點的距離,而該點提供了原始問題的解決方案。實驗中使用了商用現成(COTS)地面機器人和模擬地面機器人作為武器代理。結果表明,無論是在靜態條件下,還是在武器根據武器損耗情況通過更新損耗發生前計算出的最優或次優分配而進行實時重新規劃的情況下,該算法都取得了成功。
本文結構如下。第二節是經典 WTA 問題表述的初步介紹。第三節是經典 WTA 問題表述的連續凸松弛推導。第四節介紹分布式算法并推導收斂率。最后,第六節是結論,并提出了未來研究的可能方向。
圖 5 均質場景中武器和目標的初始位置。灰色虛線表示最終的武器-目標分配。
本研究為基于人工智能的復雜作戰系統的運行和開發建立了 MUM-T 概念和分類系統。分析了該系統的核心方面:自主性、互操作性和程序級別。人工智能 MUM-T 可提高有人駕駛系統的生存能力、擴大其作戰范圍并提高戰斗力。利用美國和英國正在建造的人工智能 MUM-T 綜合作戰系統的數據,分析了技術挑戰和項目水平。目前,MUM-T 處于有人駕駛平臺和無人駕駛飛行器平臺復合運行的水平。從中長期來看,無人地面飛行器、無人水面飛行器和無人水下飛行器等異構平臺之間的互操作通信是可能的。根據人工智能 MUM-T 系統之間互操作性的通用架構和標準協議的發展水平,MUM-T 可以從 "1 到 N "的概念發展到從 "N 到 N "的各種操作概念組合。本研究與現有研究的不同之處在于,MUM-T 系統中體現了第四次工業革命的核心技術,如人工智能、自動駕駛和數據互操作性。此外,通過在現有的無人系統分類法中體現人工智能和自主性,建立了人工智能支持的自主 MUM-T 操作和設施分類系統,并在此基礎上對級別和程序進行了分析。
本研究確立了有人無人協同作戰(MUM-T)的概念,目的是操作、開發和利用智能聯合作戰系統。此外,它還分析了互操作性、自主性、挑戰和計劃水平。人工智能支持的自主無人 MUM-T 提高了有人系統的生存能力,擴大了作戰范圍,并顯著提高了作戰效率。與以往不同的是,MUM-T 的概念正隨著人工智能的發展而不斷擴展,互操作性和自主性也在相應提高。美國和北大西洋公約組織(NATO)國家提出了未來防御領域的挑戰,并在無人系統(UMS)和 MUMT 層面開展了解決這些挑戰的計劃。本研究分析了自主 MUM-T 聯合作戰系統的運行和使用所面臨的技術挑戰和計劃水平,并介紹了基本要素技術。研究方法基于現有定義和第四次工業革命建立了 MUM-T 概念。并利用北約、美國和英國的數據分析了互操作性、自主性、挑戰以及技術和利用方面的計劃水平。
圖 2 基于 NIST 和北約分類標準的人工智能自主 MUM-T 系統分析
美國防部(DoD)對 MUM-T 的定義各不相同。美國 陸軍無人機系統卓越中心(UAUCE)將有人駕駛平臺和無人機視為單一系統。有人系統和無人系統(如機器人、傳感器、無人飛行器和作戰人員)的集成增強了態勢感知、殺傷力和生存能力[1]。國防部將這種關系視為執行共同任務的綜合團隊,美國陸軍航空卓越中心(UAACE)將其定義為同時操作士兵、無人機和無人地面飛行器(UGV),以提高對態勢的了解和生存能力[2]。它采用了標準化的系統架構和通信協議,使來自傳感器的精確圖像數據能夠在整個部隊中共享。目前,它在國防領域的應用最為廣泛。陸軍航空動力局(AFDD 2015)將其定義為:為每個系統提供特殊功能,使現有有人平臺和無人資產能夠合作完成同一任務。這是一種規避風險的方法,通過從空中、陸地和海上無人系統向有人資產傳輸實時信息,提高單兵作戰人員的態勢感知能力[3]。圖 1 是戰場上 MUM-T 系統的層次示意圖。
在世界經濟論壇(WEF)議程的第四次工業革命(Fourth IR)之后,數字化(I2D2)作為一項核心技術被提出。這些技術在未來科學中具有自主、分析、通信和邊緣計算的特點。該技術的特征組合構成了自主系統和智能體(智能+分布式)、擴展領域(互聯+分布式)、作戰網絡(互聯+數字化)、精確作戰領域(智能+數字化)。智能人工智能將改變戰爭的格局,而數字數據的可用性將使分布式和互聯(自主)系統能夠進行分析、適應和響應。這些變化反過來又可能通過預測分析支持更好的決策。
北約(2020 年)以第四次工業革命的核心技術特征及其組合為導向,構建復雜的作戰系統[4-6]。美國國防發展機構(ADD 2018)認為,MUM-T 復雜系統是一種無人作戰系統,可以補充或替代作戰人員的能力,以最大限度地提高作戰效率,最大限度地減少戰場情況下的人員傷亡。它被定義為以一種復雜的方式操作包括戰斗人員在內的有人作戰系統的作戰系統[7]。考慮到美國國防部(2010)、北約(2020)和 ADD(2018)的定義,人工智能支持的自主 MUM-T 復雜作戰系統(以下簡稱 "自主 MUM-T")和 OODA 循環如表 1 所示[1,5,7]。本研究所指的 MUM-T 復合作戰系統通過聯合指揮與控制,在空中、地面、海上、太空、網絡和戰爭等所有領域提供觀察、分析和控制,可通過整合/連接所有軍事力量的有人和無人系統進行操作。它被定義為 "根據決策和行動執行聯合行動的作戰系統"。
圖 3 北約 STANAG LOI 5 和自主邊緣計算 MUM-T 互操作水平設計
在給定時間內可分析的選項數量限制了對行動方案 (COA) 的考慮。計算機在這一過程中提供了幫助,提高了計算能力,相當于分析了更多的行動方案。然而,每個行動方案的詳細程度和需要時的計算能力限制了這一過程。確定方案的顯著特征--即驅動每個 COA 之間的差異和影響的特征--可以抽象為更直接的形式,從而更容易進行比較,并以更少的資源實現更快的優化。在時間和計算資源有限的軍事行動中,提高 COA 的效率至關重要。本文回顧了與 COA 開發和比較相關的摘要技術文獻,并考慮了這些技術在軍事行動條件下的適用性。
在機器人、決策理論規劃和博弈論等不同領域,決策和規劃面臨的主要挑戰是處理大量詳細信息所涉及的高計算復雜性和大量內存需求。這種復雜性使計算資源緊張,決策速度減慢,在實時和動態環境中往往不切實際。例如,在機器人技術中,處理和存儲大量環境數據的需求會阻礙機器人系統的效率和適應性[1]。同樣,在決策理論規劃中,納入不確定性和計算效用會增加復雜性,從而使尋找最優或接近最優解決方案的工作變得計算密集[2],[3]。在博弈論中,由于需要考慮的可能性和結果的規模巨大,在詳細、復雜的博弈中尋找均衡點可能會令人生畏[4]。問題的關鍵在于如何在管理這種復雜性的同時做出明智、知情的決策。在軍事行動環境中,戰斗的速度是時間的限制,而設備的機動性和有限的云訪問限制了處理能力的可用性,這使得摘要成為輔助決策的寶貴工具。摘要不僅可以在資源有限的情況下考慮行動方案 (COA),還可以考慮更多可能的行動。
摘要是對特定問題或情景進行概括的過程,通常是通過消除與問題邏輯無關的細節來實現[5]。Cheng 舉了一個文字問題的例子:“如果有人給了你一塊餅干,然后又給了你一塊餅干,你可能有兩塊,但也可能吃了一塊”[5]。讀者要解決的問題是 “1 ”和 “1 ”的加法;現實世界中可能發生的事情,比如有人可能吃掉了你的一部分,都與此無關。從情景中摘要出邏輯,就消除了這種模糊性 [5]。對于軍事 COA 這樣的真實情況,摘要的過程就是將細節縮減為與分析和比較相關的特征。
本文將根據下文第 1 節所述情況,分三個階段介紹這一挑戰。第 2 節回顧了摘要技術;第 3 節討論了這些技術在軍事 COA 中的適用性;第 4 節介紹了未來的工作,包括一般規劃摘要以及如何將其應用于軍事決策環境。
摘要的本質是精簡和簡化復雜的過程,通過聚焦于最相關的信息,使決策更加有效。這對于機器人、決策理論規劃和博弈論等數據和可能性錯綜復雜的領域至關重要。這些領域采用的摘要方法和算法多種多樣,每一種都是針對特定的挑戰和目標量身定制的。
每種方法和算法對于將復雜信息提煉成更易于管理和操作的形式都至關重要。專注于關鍵要素和模式可顯著提高各自領域決策過程的效率和效果。下文將按照開發或提出的時間順序,進一步詳細討論每種技術。需要注意的是,這些技術并不相互排斥--它們往往建立在先前技術的基礎上,或側重于規劃的不同方面(例如,馬爾可夫決策過程中的摘要狀態空間就是決策理論規劃的一種完善)。
在第 2 節描述的技術中,有幾種似乎有望在 MDMP 框架內提高軍事行動目標規劃和評估的效率。例如,分層解決問題法適合軍事梯隊的分層組織結構,在這種結構中,下級梯隊在更細的層次上執行上級梯隊的意圖。高層梯隊的計劃應更加摘要,以便將意圖轉化為下層梯隊的行動[32]。Bennett 等人[33]確定了從 “目標、目的和限制 ”到 “物質對象的外觀、位置和配置 ”的摘要層次。博伊德的 “沖突模式”[6]在特定的實施層次上似乎是通用的,盡管每場戰爭的參與者和目標可能不同,每種情況下的車輛、裝備和武器也可能不同。層級對規劃的 “嵌套 ”性質也至關重要,因為規劃是逐級進行的。高層的控制范圍更廣,能對總體戰略問題(如長期影響)做出反應。相比之下,下層則更關注陸軍公理:“射擊、移動和溝通”。
考慮到軍事行動中相互競爭的目標(包括實現軍事目標、在特定時間內完成目標、保護生命和資源以及更廣泛的外交目標),以及不可控情景中固有的不確定性,決策理論規劃是一種有價值的技術。Aberdeen 等人[24]建議使用馬爾可夫決策過程來模擬計劃情景,包括一個有限的狀態空間(如行動區域)、一組有限的行動(COA)、一個初始狀態(位置、可用資源)、一組終端狀態(任務目標)以及每個 COA 實現任務目標的概率。雖然這最初只是一個簡單的模型,但這些狀態的詳細程度可以更詳細或更抽象。
博弈論摘要[4]可模擬對立雙方(如友軍與敵軍)之間的互動。這可用于決策理論規劃,以詳細說明考慮到對方部隊可能采取的反擊行動的作戰行動方案的成功概率。在 MDMP 第 2 步的任務分析過程中,可通過戰場情報準備工作獲得有關對方部隊的信息。
COA 評估標準也是在第 2 步中制定的,它定義了每個 COA 的參數(如預期友軍傷亡、不確定性、戰術風險)。COA 的摘要必須包括驅動這些評分的行動,例如 ? 什么行動會造成友軍傷亡?是否有替代行動? ? 哪些信息不確定?是否有行動可以核實該信息? ? 什么行動會產生戰術風險?哪些行動可以降低風險?
對評估標準無實質性影響的計劃細節可以摘要化(即縮減維度)。重大行動及其替代方案可以優化作戰行動,以滿足評估標準的客觀值。
這項工作研究了在任務式指揮設備中嵌入模擬器的實用性和有效性。其目標是僅使用戰區作戰計劃作為模擬輸入,向操作員隱藏所有模擬器細節,使其無需學習新工具。本文討論了一種原型功能,該功能可根據 SitaWare 中生成的作戰計劃以及嵌入式無頭 MTWS 和 OneSAF 模擬器的模擬結果,生成行動方案(COA)分析。在輸入作戰計劃后,指揮官選擇要執行的模擬運行次數,并按下按鈕啟動模擬,模擬在后臺的運行速度比實時運行更快。模擬運行完成后,指揮官可通過圖形和圖表查看結果,對多次運行進行比較。預計未來的能力將允許指揮官模擬任何梯隊和命令,用于訓練和兵棋推演。
事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。
本文為太空域感知資源分配(SDARA)問題提出了一個新的目標函數,并介紹了一種新的算法來最大化這一新的目標函數。該 SDARA 問題旨在最大限度地增加所看到的目標總數,同時最大限度地降低資源成本。為此,目標主要由地球同步軌道帶中的物體組成,而觀測者則由地球同步軌道、低地球軌道和地面光學傳感器組成。假定這些傳感器是異構的,并具有不同的相關任務成本。
被稱為 "分塊貪婪 "算法的新算法能在可控時間內提供該目標函數的近似區域最大值。分塊貪婪算法是武器目標分配算法和貪婪算法的混合體。該算法將被證明優于用于解決 SDARA 問題的普通算法。
指揮與控制(C2)活動涉及國防、應急響應、警務和危機管理等多個領域。這些領域的問題通常具有復雜性,即種類繁多。根據控制論,控制器(C2 系統)的多樣性必須等于或超過作戰環境中受控系統的多樣性。足以控制特定系統的多樣性程度被定義為必要多樣性。
本文旨在將外部和內部多樣性可操作化,縮小高層抽象描述與具體解決方案之間的差距,以便在設計 C2 系統時提出切實可行的建議。C2 系統由方法、技術、人員和組織構成。在這項工作中,我們將重點放在人員和組織方面。我們特別關注人員組成部分中的能力變量。我們根據以往對多樣性等方面的研究,討論了在開展 C2 活動以應對復雜性時,能力變量的哪些方面可能最為重要。
然而,大量的 C2 研究也表明,快速決策對于應對來自對手的問題非常重要。我們詳細闡述了高度內部多樣性的潛在代價,即由于團隊溝通需求的增加,它可能會延遲 C2 團隊的決策。最后,我們介紹了一種調查方法,其中包括模擬外部復雜性,要求由具有不同能力(內部多樣性)的 C2 團隊進行動態決策。
圖 1. 任務響應系統由 C2 系統和執行系統(圖中最右邊的灰色實體)組成。C2 系統由三級指揮系統組成,而三級指揮系統又包括通信、數據提供、定向和規劃等遞歸的通用活動[7,第3頁]。
在本文中,我們將首先對作戰環境或工作空間進行總體描述,包括其特征和與這些特征相關的典型需求。特征和潛在問題之間的多樣性將被稱為外部多樣性。
我們對 C2 的看法是系統性的,這意味著任務響應系統由 C2- 系統和執行系統組成(見圖 1)。我們對 C2 的定義是 C2 是為實現目標而努力解決(軍事)問題的人類活動或系統。C2 過程產生的關鍵產品是指揮和協調[7]。
C2 方法空間可視為對真實 C2 系統關鍵方面的抽象或理論描述。C2 方法空間由三個相互依存的維度構成:a) 信息分配;b) 互動模式;c) 決策權分配[8]。表示具體 C2 系統的一種方法是列出其組成部分:方法、組織、人員和技術[7,第 14 頁]。C2 方法空間的維度與 C2 系統中的組織、方法和技術類別之間存在聯系。每個類別內部的潛在多樣性以及這些類別之間的組合影響著整個 C2 系統控制的潛在多樣性。
然而,在 C2-方法空間中,人員部分并不明顯。我們選擇將工作重點放在人員部分,主要有兩個原因。首先,它可能是 C2 研究中對 C2 系統研究最少的部分。但最近一個值得注意的例外是 Valaker 等人[9]。其次,在我們看來,它是 C2 系統中最具影響力的因素,這主要是因為 C2 與決策密切相關。盡管人工智能(AI)有了長足的發展,但決策仍主要是人類的活動。
當然,人員部分還可以進一步細分為幾個不同的子部分,如個人的人口特征(如性別、年齡、種族)和功能或任務相關的多樣性方面(如知識、技能和專業知識/能力)。在本文中,我們將主要討論能力因素,更具體地說是任務/使命能力[10,第 105-182 頁]。因此,在描述 C2 系統內部多樣性時,能力因素將是我們的主要關注點。
因此,在本文中,我們開發了一種方法,用于更精確地研究多樣性與速度之間的平衡性質及其如何影響性能。歷史事件清楚地表明,如果任務響應系統沒有足夠或必要的多樣性,其代價可能是災難性的。一個著名的例子是 1415 年的阿金庫爾戰役,當時法國裝甲騎士對英國長弓手發動騎兵攻擊,但被有效阻止。這場戰役的結果對法軍來說是一場災難,標志著騎士時代的終結[18]。博伊德(Boyd)提供的經驗中描述了一個速度不夠(關于瞬時機動)的典型例子,在朝鮮戰爭中,由于瞬時機動速度出眾,美國 F-86 戰斗機對俄羅斯米格-15 的殺傷率達到了 10:1[19,第 41 頁]。
本文提出了一種基于古代戰爭策略的新型元啟發式優化算法。所提出的戰爭策略優化(WSO)基于戰爭期間陸軍部隊的戰略移動。戰爭策略被模擬為一個優化過程,其中每個士兵都朝著最優值動態移動。所提出的算法模擬了兩種流行的戰爭策略,即攻擊和防御策略。士兵在戰場上的位置會根據所實施的戰略進行更新。為了提高算法的收斂性和魯棒性,引入了一種新的權重更新機制和一種弱士兵遷移策略。所提出的戰爭策略算法實現了探索階段和開發階段的良好平衡。介紹了該算法的詳細數學模型。在 50 個基準函數和四個工程問題上測試了所提算法的有效性。該算法的性能與十種流行的元啟發式算法進行了比較。各種優化問題的實驗結果證明了所提算法的優越性。
古代王國擁有一支軍隊,以抵御其他王朝的進攻。王國的陸軍由步兵、戰車、大象等各種力量組成。在戰爭中,每個王國都會設計一種被稱為 "Vyuha "的戰略來攻擊對方的陸軍,以取得戰斗的勝利,從而確立自己的霸主地位。Vyuha 是戰爭中用于征服對方王國的各種陸軍部隊的模式或排列[69]。為了確保自己的陸軍達到預定目標,實現目標,皇帝和各單元的指揮官會按照特定的模式協調部隊。戰爭戰略是根據任務的目標、威脅、困難和前景制定的。戰爭戰略是一個持續的動態過程,在這個過程中,武裝力量只需協調并與對手作戰。隨著戰爭的進展,這種戰略可以適應不斷變化的條件。國王和指揮官的位置對陸軍士兵的位置有著持續的影響。國王和陸軍指揮官戰車頂部的旗幟代表他們的位置,所有士兵都能觀察到。團隊中的士兵接受訓練,根據鼓聲或其他樂器的聲音來制定策略。當一名軍事指揮官死亡時,戰略就會發生變化,其他每名指揮官都必須學會如何重建和繼續戰爭戰略的建立。國王的目標是征服對方的國王/首領,而陸軍士兵的主要目標則是攻擊對方隊伍,并在軍銜上取得進步。
戰爭戰略的各個步驟如下:
A. 隨機攻擊
在戰場上,陸軍部隊以戰略方式隨機分布在整個戰場上,攻擊對面的軍隊。軍隊中攻擊力最強的人員被視為陸軍首領或指揮官。國王是各軍團長的領導者。
B. 攻擊戰略
該戰略的主要目標是攻擊對方。國王帶頭并指導陸軍部隊。陸軍部隊找出對手的薄弱位置(有希望的搜索空間)并繼續進攻。國王和指揮官乘坐兩輛不同的戰車,戰車頂端插有戰略旗幟。士兵根據國王和指揮官的位置動態改變自己的位置。如果士兵成功提高攻擊力(體能值),他的軍銜就會提高。隨著士兵的晉升,他將成為其他人的好榜樣。但是,如果新的位置不適合作戰,士兵就會回到原來的位置。戰爭初期,陸軍部隊向四面八方移動,大步流星地改變自己的位置。
C. 鼓聲信號
國王會根據戰場上的局勢動態地改變戰略。因此,一群士兵會有節奏地擊鼓。士兵們會根據鼓聲的節奏改變策略,調整位置。
D. 防御戰略
這一戰略的主要目標是在不輸掉戰斗的情況下保護國王。指揮官或陸軍首領帶頭,利用陸軍部隊形成像鎖鏈一樣的包圍圈,將國王團團圍住。因此,每個士兵都會根據附近士兵的位置和國王的位置改變位置。陸軍部隊在戰爭中會嘗試探索大面積的戰場(搜索空間)。為了迷惑對方軍隊,陸軍會不時動態改變策略。
E. 薄弱士兵的替換/轉移
在戰斗中,戰斗技能最低的士兵或受傷的士兵可以與敵軍士兵同等對待。由于他的表現不佳,陸軍的威信完全受到威脅(算法效率)。戰爭中死亡的士兵很少,這可能會影響戰爭的結果。在此,陸軍有兩種選擇。一是用新兵替換受傷/體弱的士兵。第二個選擇是重新安置體弱的士兵。因此,他將受到所有其他士兵的引導(所有士兵的平均位置)和隔絕,以保護他,從而保持陸軍的士氣,使其在戰爭中獲勝的幾率很高。
F. 對方的陷阱
對方陸軍會根據自身的能力采用各種策略,迫使前軍向錯誤的方向移動或到達錯誤的目標(局部最優)。
在空戰中,斗狗提出了錯綜復雜的挑戰,需要同時了解戰略機動和敏捷戰斗機的空中動態。在本文中,我們介紹了一種新穎的長短時間融合變換器 TempFuser,該變換器旨在學習空中斗狗中的戰術和敏捷飛行動作。我們的方法采用兩種不同的基于 LSTM 的輸入嵌入來編碼長期稀疏和短期密集狀態表征。通過變壓器編碼器對這些嵌入進行整合,我們的模型捕捉到了戰斗機的戰術和靈活性,使其能夠生成端到端的飛行指令,從而確保優勢位置并超越對手。在高保真飛行模擬器中與各種類型的對手飛機進行廣泛訓練后,我們的模型成功地學會了執行復雜的戰斗機機動動作,性能始終優于幾個基線模型。值得注意的是,我們的模型即使在面對具有超強規格的對手時,也能表現出類似人類的戰略機動能力,而這一切都無需依賴明確的先驗知識。此外,它還在極具挑戰性的超音速和低空環境中表現出強大的追擊性能。演示視頻請訪問 //sites.google.com/view/tempfuser。
圖 8:評估結果。(A): 針對對手的歸一化傷害率的學習曲線。(B): 與對手交戰的結果(左:F-15E,中:F-16,右:蘇-27)。圖中顯示了本機(藍色)和對手(紅色)從開始到獲勝時刻的三維飛行和水平投影軌跡。(C): 與高規格飛機(蘇-30)對抗時學習到的機外戰術機動的量化結果。(D): 與 F/A-18A 對手進行近音速對抗的量化結果。所有駕駛艙和外部視圖均由 Tacview [36] 可視化。
空對空作戰是操縱戰斗機智能體到達瞄準對手位置的戰術藝術。它也被稱為 "斗狗",因為在大多數情況下,每架戰斗機都會在短距離戰斗中追擊對方的機尾。
要想成功地進行斗狗,智能體需要從長期和短期角度出發,將態勢感知、戰略規劃和機動性能結合起來。
首先,智能體要通過了解對手的長期軌跡來規劃自己的戰術位置。天真地追逐對手的近期位置可能會帶來暫時的優勢,但最終會使自己在日后處于弱勢地位。因此,智能體應不斷評估對手的長期操縱,對其行動做出反應,并對自己進行戰略定位,以獲得對對手的優勢。
其次,智能體需要具備從短期動力學角度理解飛機敏捷機動性的能力。現代戰斗機具有很高的機動性,能夠迅速改變方向和速度,從而使交戰情況迅速發生變化。因此,為了在與對手的交戰中保持優勢地位,智能體應及時從動態角度把握對手的敏捷動作和自身的潛在機動。
長短期時態融合變換器(或稱 TempFuser)是一種網絡架構,專為空中激戰中的策略模型而設計。該架構使用基于 LSTM 的輸入嵌入和變換器編碼器。它處理兩種類型的狀態軌跡:代表機動級狀態轉換的長期時間軌跡和表示動態級狀態轉換的短期時間軌跡。每種軌跡都使用基于 LSTM 的管道進行嵌入,然后通過變換器編碼器進行整合。隨后,使用多層感知器(MLP)模塊和高斯策略架構將編碼器輸出轉換為飛行指令。
在數字戰斗模擬器(DCS)中使用深度強化學習(DRL)解決空中狗斗問題,DCS 被認為是最真實、最逼真的戰斗機模擬環境之一。DCS 提供了一個獨特的平臺,可以配置各種高質量的飛機和空中場景。我們將斗犬問題表述為一個強化學習框架,并設計了一個可以學習戰略性斗犬演習的獎勵函數。
我們用各種對手飛機(如 F-15E、F-16、F/A-18A 和 Su-27)對我們的網絡進行了廣泛的訓練和驗證。結果表明,TempFuser 能夠以端到端的方式學習具有挑戰性的飛行動作,并在性能上優于各種對手飛機,包括那些具有卓越規格的飛機。此外,它還在低空和 1 馬赫以上的高速飛行場景中表現出強大的追擊性能。
在tempfuser為基礎的空中斗狗在DCS模擬器的快照。
不同類型的飛機為對手:F- 15e, F/A-18A, F-16,蘇-30,蘇-27。
圖:與F-15E交戰
圖:飛行軌跡與水平投影
圖:與F-16交戰
圖:飛行軌跡與水平投影
圖:與蘇-27交戰
圖:飛行軌跡與水平投影
圖:對蘇-30對手的定量結果
圖:對F/A-18A對手的定量結果
美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。
關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)
根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。
AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。
F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。
在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。
美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。
美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。
鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。
有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。
本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。
需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。
這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。
本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。