無人作戰飛機(unmanned combat aerial vehicle,UCAV)在進行空戰自主機動決策時,面臨大規模計算,易受敵方不確定性操縱的影響。針對這一問題,提出了一種基于深度強化學習算法的無人作戰飛機空戰自主機動決策模型。利用該算法,無人作戰飛機可以在空戰中自主地進行機動決策以獲得優勢地位。首先,基于飛機控制系統,利用MATLAB/Simulink仿真平臺搭建了六自由度無人作戰飛機模型,選取適當的空戰動作作為機動輸出。在此基礎上,設計了無人作戰飛機空戰自主機動的決策模型,通過敵我雙方的相對運動構建作戰評估模型,分析了導彈攻擊區的范圍,將相應的優勢函數作為深度強化學習的評判依據。之后,對無人作戰飛機進行了由易到難的分階段訓練,并通過對深度Q網絡的研究分析了最優機動控制指令。從而無人作戰飛機可以在不同的態勢情況下選擇相應的機動動作,獨立評估戰場態勢,做出戰術決策,以達到提高作戰效能的目的。仿真結果表明,該方法能使無人作戰飛機在空戰中自主的選擇戰術動作,快速達到優勢地位,極大地提高了無人作戰飛機的作戰效率。 目前無人作戰飛機(unmanned combat aerial vehicle, UCAV)被廣泛應用于軍事領域[1],UCAV在過去主要從事戰場監視、吸引火力和通信中繼等任務,隨著武器裝備的傳感器、計算機及通信等技術的發展,性能不斷提升,未來的UCAV將逐步升級成為可以執行空中對抗、對地火力壓制和參與制空權的奪取等作戰任務的主要作戰裝備之一。盡管UCAV的性能提升很大,但大多數的任務都離不開人工干預,控制人員通過基站在地面對UCAV進行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰能力已經成為空軍發展的必然趨勢,裝備了無人作戰決策系統的UCAV將逐步取代飛行員的位置,以達到減少成本,提高戰斗力的作用。在近距離格斗的階段,UCAV應根據當前的空戰態勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機的機會并保護自己[2]。
在空戰條件下,飛機模型本身為非線性同時目標的飛行軌跡是不確定的,這些都將給UCAV的機動決策帶來許多不便,因此良好的機動決策是UCAV自主空戰的一個重要環節,自動機動決策要求UCAV能在不同的空戰環境下自動生成飛行控制指令。常規的機動決策控制方法包括最優化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統、神經網絡方法以及強化學習方法等。文獻[3]將空戰視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰情況,并自適應調整機動決策因素的權重,使目標函數更加合理,保證了無人戰斗機的優越性。文獻[4]設計了一個基于遺傳學習系統的飛機機動決策模型,通過對機動的過程加以優化來解決空戰環境未知情況下的空戰決策問題,可以在不同的空戰環境中產生相應的戰術動作,但該方法的參數設計存在主觀性,不能靈活應用。文獻[5]利用統計學原理研究UCAV的空戰機動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應用于在線決策。文獻[6]將可微態勢函數應用于UCAV微分對策中,可以快速反應空戰環境,但由于實時計算的局限性很難解決復雜的模型。文獻[7]采用博弈論對UCAV空戰決策進行建模,對不同的空戰環境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優等問題,導致UCAV的響應變慢,并不適用于當今的戰場環境。
基于人工智能的方法包括神經網絡法、專家系統法以及強化學習算法。文獻[8]采用了專家系統法,通過預測雙方的態勢和運動狀態生成相應的機動指令控制UCAV飛行,但不足之處在于規則庫的構建較為復雜,通用性差。文獻[9]采用了自適應神經網絡技術設計PID控制器,對高機動目標具有較強的跟蹤精度,但神經網絡方法需要大量的空戰樣本,存在學習樣本不足的問題。與以上兩種方法相比,強化學習算法是一種智能體與環境之間不斷試錯交互從而進行學習的行為,智能體根據環境得到的反饋優化自己的策略,再根據策略行動,最終達到最優策略。由于強化學習的過程通常不考慮訓練樣本,僅通過環境反饋得到的獎勵對動作進行優化,可以提高了學習的效率,是一種可行的方法[10]。文獻[11]將空戰時的狀態空間模糊化、歸一化作為強化學習算法的輸入,并將基本的空戰動作作為強化學習的輸出,使得UCAV不斷與環境交互從而實現空戰的優勢地位。在此基礎上,文獻[12-13]將神經網絡與強化學習相結合,提高了算法的運算效率,但這些文章都沒有考慮飛機的姿態變化。
本文提出了一種深度強化學習(deep reinforcement learning, DRL)算法來解決UCAV自主機動決策作戰的問題,并在MATLAB/Simulink環境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當的空戰動作作為UCAV的機動輸出,建立空戰優勢函數并設計UCAV空戰機動決策模型。通過強化學習方法可以減少人為操縱的復雜性,保證計算結果的優越性,提高UCAV的作戰能力,而神經網絡可以提升實時決策能力。最后通過仿真將該方法應用于UCAV機動作戰決策中,證明了其有效性和可行性。
為提升無人機在復雜空戰場景中的存活率, 基于公開無人機空戰博弈仿真平臺, 使用強化學習方法生成機動策略, 以深度雙Q網絡(double deep Q-network, DDQN)和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法為基礎, 提出單元狀態序列(unit state sequence, USS), 并采用門控循環單元(gated recurrent unit, GRU)融合USS中的態勢特征, 增加復雜空戰場景下的狀態特征識別能力和算法收斂能力。實驗結果表明, 智能體在面對采用標準比例導引算法的導彈攻擊時, 取得了98%的規避導彈存活率, 使無人機在多發導彈同時攻擊的復雜場景中, 也能夠取得88%的存活率, 對比傳統的簡單機動模式, 無人機的存活率大幅提高。
現代空戰環境錯綜復雜, 空空導彈和機載雷達性能不斷提升, 超視距空戰已經在現代空戰中占據主導地位[1], 空空導彈也早已成為打擊空中單位的主要武器。無人機作為空中戰場的理想作戰目標之一, 被普遍運用到軍事領域當中[2]。利用無人機可持續大機動的飛行特點, 采取高效的機動策略以提高無人機對導彈的規避、逃逸成功率, 對提升無人機的空戰生存能力而言至關重要[3]。
無人機規避空空導彈問題一直都是空戰的研究熱點。王懷威等[4]采用蒙特卡羅方法驗證了無人機實施常規盤旋機動規避導彈的效果。Imado等[5]利用微分對策法研究導彈與無人機差速博弈的問題。另外, 還有諸多針對導彈的規避方式[6-10]、規避效能評估[11-13]以及無人機最優或次優規避策略解析解[14-16]等方面的研究。以上方法依賴于完備的空戰對戰模型以求解在單枚導彈打擊情況下的最優機動策略, 當導彈數量變化時, 模型很難理解, 而且建立空戰對戰模型本身就是一個非常復雜的過程, 需要使用大量微分函數結合積分函數,才能表征無人機與導彈狀態屬性的轉移規律。
深度強化學習(deep reinforcement learning, DRL)算法在馬爾可夫決策過程(Markov decision process, MDP)基礎上, 采用端到端學習方式, 以態勢信息為輸入, 直接利用神經網絡獲取輸出, 控制智能體作出決策, 被廣泛應用于自動化控制當中[17-22]。范鑫磊等[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[24]應用于無人機規避導彈訓練, 在簡易模型下對固定態勢攻擊的空空導彈進行仿真驗證。宋宏川等[25]針對導彈制導規則設計成型獎勵, 用DDPG算法訓練無人機規避正面來襲的導彈, 對比典型規避策略, 訓練出了僅次于置尾下降機動的逃逸策略。
上述研究表明, 無人機能夠通過特定的機動方式來規避空空導彈的打擊, 而深度強化學習算法可以訓練出自動規避空空導彈的智能體。總體而言, 以往研究大多基于單枚導彈打擊場景。但是在超視距空戰中, 多枚導彈從不同方向鎖定無人機并發動協同攻擊的情況屢見不鮮。在這種情形下, DRL算法會存在狀態空間維度大, 狀態信息維度不斷變化, 神經網絡輸入維度難以固定, 算法收斂性能差等問題。
針對以上問題, 本文提出一種基于單元狀態序列(unit state sequence, USS)的強化學習算法(reinforcement learning method based on USS, SSRL)。在該算法中,首先,將導彈和無人機進行一對一的特征編碼,形成特征單元; 其次,根據距離優先級對所有編碼后的特征單元進行排序, 組合成一個USS; 然后,使用門控循環單元(gated recurrent unit, GRU)對USS中的特征單元進行特征融合, 提取其中的隱藏特征信息; 最后,將隱藏特征信息看作該時刻的狀態信息,并將信息傳入強化學習算法的神經網絡。將該算法分別應用于深度雙Q網絡(double deep Q-network, DDQN)[26]和DDPG算法上, 在公開無人機空戰博弈仿真平臺上進行訓練。仿真結果表明, 由SSRL算法訓練的智能體能夠學到連續規避機動策略, 控制無人機進行規避導彈機動, 增加導彈脫靶量, 提升無人機連續規避導彈的成功率。
對使用無人駕駛飛行器(UAV),即無人機,在不同的應用中,如包裹遞送、交通監測、搜索和救援行動以及軍事戰斗交戰,有越來越多的需求。在所有這些應用中,無人機被用來自主導航環境--沒有人的互動,執行特定的任務和避免障礙。自主的無人機導航通常是通過強化學習(RL)完成的,智能體作為一個領域的專家,在避開障礙物的同時導航環境。了解導航環境和算法限制在選擇適當的RL算法以有效解決導航問題中起著至關重要的作用。因此,本研究首先確定了主要的無人機導航任務并討論了導航框架和仿真軟件。接下來,根據環境、算法特點、能力和在不同無人機導航問題中的應用,對RL算法進行了分類和討論,這將有助于從業人員和研究人員為他們的無人機導航用例選擇合適的RL算法。此外,確定的差距和機會將推動無人機導航研究。
自主系統(AS)是能夠在沒有人類干擾的情況下執行所需任務的系統,如機器人在沒有人類參與的情況下執行任務、自動駕駛汽車和無人機送貨。自主系統正在侵入不同的領域,以使操作更加有效,并減少人為因素產生的成本和風險。
無人駕駛航空器(UAV)是一種沒有人類飛行員的飛機,主要被稱為無人機。自主無人機由于其多樣化的應用而受到越來越多的關注,如向客戶交付包裹、應對交通事故以滿足傷員的醫療需求、追蹤軍事目標、協助搜索和救援行動,以及許多其他應用。
通常情況下,無人機配備有攝像頭和其他傳感器,可以收集周圍環境的信息,使無人機能夠自主地導航該環境。無人機導航訓練通常是在虛擬的三維環境中進行的,因為無人機的計算資源和電源有限,而且由于墜毀而更換無人機部件可能很昂貴。
不同的強化學習(RL)算法被用來訓練無人機自主導航的環境。強化學習可以解決各種問題,在這些問題中,代理人就像該領域的人類專家一樣。代理人通過處理環境的狀態與環境互動,用行動作出回應,并獲得獎勵。無人機相機和傳感器從環境中捕捉信息,用于表示狀態。代理人處理捕捉到的狀態并輸出一個行動,決定無人機的運動方向或控制螺旋槳的推力,如圖1所示。
圖1:使用深度強化智能體的無人機訓練
研究界對不同的無人機導航問題進行了回顧,如視覺無人機導航[1, 2]、無人機植群[3]和路徑規劃[4]。然而,據作者所知,目前還沒有與RL在無人機導航中的應用有關的調查。因此,本文旨在對各種RL算法在不同無人機自主導航問題上的應用進行全面系統的回顧。這項調查有以下貢獻:
本文的其余部分組織如下: 第2節介紹了系統回顧過程,第3節介紹了RL,第4節全面回顧了各種RL算法和技術在無人機自主導航中的應用,第5節討論了無人機導航框架和仿真軟件,第6節對RL算法進行分類并討論了最突出的算法,第7節解釋了RL算法的選擇過程,第8節指出了挑戰和研究機會。最后,第9節對本文進行了總結。
針對典型海空協同作戰中指揮控制技術對時效性、準確性和跨域融合能力的高要求, 提出了一種先驗知識啟發的雙層強化學習框架. 通過研究先驗知識啟發的獎勵塑造方式, 提取作戰子任務設計狀態聚合方法, 從而把具體狀態映射到抽象狀態; 基于抽象狀態使用馬爾科夫決策過程(Markov decision process, MDP)理論進行建模, 使用強化學習算法求解該模型; 使用最終求解出的抽象狀態價值函數進行基于勢能的獎勵塑造. 以上流程與下層具體MDP 過程并行求解, 從而搭建了一個雙層強化學習算法框架.基于全國兵棋推演大賽的兵棋推演平臺進行了實驗, 在狀態空間、動作空間、獎勵函數等方面細化算法. 指出了先驗知識代表從上而下的任務式指揮方式, 而多智能體強化學習在某些結構上符合自下而上的事件式指揮方式. 兩種方式結合, 使得該算法控制下的作戰單元學習到協同作戰戰術, 面對復雜環境具有更好的魯棒性. 經過仿真實驗, 該算法控制的紅方智能體對抗規則智能體控制的藍方可以獲得70 %的勝率.海空協同作戰是高技術戰爭條件下最為典型的 作戰樣式之一[1] , 其作戰空間包含海、空、天、電磁等領 域, 具有典型的跨域作戰特征. 海空協同作戰面臨戰場態勢復雜快變、信息不完 全、不同域之間戰術協同困難、決策時效性要求高等 問題[2] , 需要指揮員從跨域的視角審視問題, 將不同領 域的能力予以互補, 對指揮控制技術提出了更高的要 求[3-4] . 傳統的指揮控制理論具有局限性[5] , 較多考慮同 一領域力量的疊加性利用, 缺乏跨域視角[6] . 近年來, 以 多智能體強化學習(multi-agent-reinforcement-learning, MARL)為代表的智能決策技術發展迅速, 在星際 爭霸[7]、足球[8]比賽等大型實時策略類游戲應用中甚至 能夠擊敗人類頂尖玩家, 該技術在解決多智能體對抗 博弈問題領域中具有顯著優勢, 為研究海空協同作戰 的指揮控制技術開辟了新的技術路線. 綜上所述, 研究多智能體強化學習技術在海空協 同作戰的指揮決策中的應用, 有助于輔助指揮官制定 戰略戰術, 推動新型指揮控制技術的研究.
首先介紹典型多智能體強化學習算法(monotonic value function factorisation for deep multi-agent reinforcement learning, QMIX)的研究現狀, Tabish 等研究 者提出的 QMIX 算法[9]采用分布式決策、集中式訓練 的方法, 在理論上可以較好地適應海空協同作戰的特 點. 作戰編成中的各個作戰單元可以根據局部觀測進 行決策, 同時在全局信息和獎勵分解的幫助下兼顧全 局最優策略. 但是在實際應用中, 海空協同作戰往往 比較復雜, 存在獎勵稀疏的問題, 單純的 QMIX 算法 存在探索效率不高 [10] , 魯棒性較差的問題, 這會導致 算法最后無法學習到較好的協作策略. 為提升 QMIX 算法性能, 本文將目光投向了專家 先驗知識[11] . 在海空協同作戰中, 往往存在許多與作 戰相關的高階先驗知識[12] , 子任務是其中最重要也是 最常見的一種. 指揮員通過對作戰階段的劃分, 在時 間上把復雜的總作戰任務分解成多個子任務, 通過從 上而下的任務式指揮方式, 指導作戰集群完成一系列 子任務, 最終實現總作戰任務. 如何使用子任務相關的先驗知識提高 QMIX 算 法的性能, 成為了本文的關鍵研究問題之一. 為有效使用子任務相關的先驗知識, 首先研究先 驗知識與強化學習算法的結合方式, 在強化學習中, 先驗知識可以是一種偏好, 或是一種目標狀態. 為了 將先驗知識嵌入到算法中, 偏好可以用智能體在選擇 不同動作的概率分布表示[13]; 目標狀態可以用相應的 獎勵進行表示. 這些先驗知識發生在強化學習訓練以 前, 由人類根據以往的實踐經驗或是主觀想法設定. Takato 等研究者將獎勵函數的自動塑造方法與 狀態聚合方法結合, 提出了使用在線獎勵塑造加速單 智能體強化學習訓練的方法[14] . 但是該方法使用的狀 態聚合由志愿者人工指定, 且沒有驗證在多智能體強 化學習中的可行性.
針對上述研究背景與研究問題, 本文提出了一種 戰術先驗知識啟發的多智能體雙層強化學習算法. 根 據人類先驗知識, 把 MARL 問題的總任務分解成一 系列的子任務, 設計狀態聚合方法, 構建了狀態聚合 函數, 把具體狀態映射到抽象狀態. 接著基于抽象狀 態對抽象 MDP 進行建模[15] , 使用強化學習算法求解該 模型. 最后使用求解出的抽象狀態價值函數進行基于 勢能的獎勵塑造. 以上流程與下層具體 MDP 并行求 解, 從而搭建了一個雙層強化學習算法框架, 使得獎 勵稠密化, 加速下層 MDP 的求解. 為驗證算法效果, 本文基于海空協同作戰這一任務背景進行了仿真實 驗. 實驗結果表明, 使用戰術先驗知識啟發的多智能 體雙層強化學習算法能夠指揮智能體團體實現總體 作戰意圖, 學習到協同作戰的策略. 與此同時, 各智能 體仍可以根據自身觀察和全局信息作出獨立決策, 具 有較好的魯棒性, 符合作戰要素融合化和去中心化的 特點.
軍隊一直認為有必要將他們的決策建立在成熟的作戰研究方法之上,這些方法試圖在決策過程中為指揮部提供備選方案,對戰役到戰略進行評估。
戰斗傷亡是軍事運籌學的一個研究課題,它應用數學模型來量化勝利與損失的概率。特別是,已經提出了不同的方法來模擬戰斗的過程。然而,它們都沒有為高層指揮提供足夠的決策支持。為了克服這種情況,本論文提出了一個創新的框架,它克服了傳統模型的大部分局限性,并支持最高指揮層的決策:戰略和戰役層,借助于確定戰斗力水平的衰減,通常被稱為損耗(損失),作為評估決策的機制。該框架應用了適應性和預測性控制工程方法來動態調整以適應戰斗的變化,同時考慮到對手的能力和機動性以及產生的效果。此外,它還包括一個學習機制,以改善在高不確定性條件下的決策。
論文報告了對克里特島戰役、硫磺島戰役和庫爾斯克戰役這三場有影響力的二戰戰役框架的實證評估,這些戰役的戰斗類型主要是陸上的。從那時起,這種作戰模式基本上沒有改變。因此,收集到的實驗結果可以推斷到現今的陸地作戰。這本身就構成了一個相關的貢獻,因為大多數關于軍事決策的文獻都缺乏足夠的實驗驗證。
最后,本論文為從業者和研究人員提供了現有文獻的指導,確定了現有決策模型的優勢和劣勢,并為在決策中應用戰斗預測模型提供了參考背景。
這項研究將分析戰場決策模型的現狀,重點是了解應用了哪些類型的決策,這些決策是如何做出的,以及有哪些經驗證據支持這些決策,這將使人們深入了解當前方法的局限性,并能提出新的機制來克服這些局限性。在這個意義上,我們的研究將提出一種方法,以彌補陸地戰場上高層決策自動化的差距,即所謂的戰略和戰役軍事決策。擬議方法的有效性將由一套足夠廣泛的經驗證據來證明,所有這些證據必須具有代表性。
確定了以下目標:
消除蘭徹斯特經典著作的局限性和其他蘭徹斯特在陸地戰場上的影響。
為戰略和作戰軍事決策的自動化提供一個框架。
提供經驗性證據,表明該框架充分適合戰斗趨勢,并能選擇最合適的決策。
指導從業人員和研究人員了解現有決策模型的優勢和劣勢。
本研究旨在分析控制理論在蘭徹斯特戰斗決策模型中的應用表現,以追求陸軍領域的戰略和作戰決策方法。在此基礎上,考慮了以下研究問題(RQs)。
問題1:現有的決策系統對戰役和戰略層面的指揮是否有足夠的支持?
問題2:適應性和預測性控制結構能否有助于克服傳統作戰模式的局限性?
有兩種主要的戰斗分析機制可以替代經典的蘭徹斯特模型:(i)隨機模型和(ii)確定性模型,其中一些是拉切斯特的傳統,例如[KMPS17, JHC17a]。目前,其他方法,如智能代理,正在獲得巨大的發展勢頭,例如,[OT17, ADK17]。這些新模型旨在擴展能力,例如[Kre20, Cou19],并減少以前方法的缺點,例如[Duf17, KLM18]。然而,它們未能成為高層決策的適當基準。
建議的框架克服了蘭徹斯特原始工作的局限性,在[Eps85]中進行了深刻的討論,將戰斗視為一個因果過程,根據蘭徹斯特方程的動態變化和外部行動進行演變。為此,該方法應用了[SR95]中介紹的適應性和預測性控制理論,并結合了不確定性建模技術。該方法的結構包括一組合作工作的模塊,確保決策按照軍事理論連貫地進行。特別是,一組連續的階段觸發了適用戰略的定義、評估和選擇不同的可能COA,以及使模型適應行動的演變。每個區塊代表軍事思維的機制,見圖3.1,其中x(t)和y(t)定義了每個瞬間x部隊和y部隊的戰斗人員數量,x(t+1)e和y(t+1)e是對下一瞬間戰斗人員數量的估計。
實施需要有邏輯過程的能力,應該模擬從預測到行動的決策過程。在這種情況下,新的框架在第四章中被制定和測試(如果它在實際對抗中的應用在性能和一致性方面符合預期,它將是強大的)。
圖3.1:我們框架的架構設計。每個區塊都代表了軍事思維的機制,因此(i)評估將確定要遵循的戰略的戰斗事件,并選擇完成任務的COA,(ii)確定執行任務所需的資源,最后(iii)適應結果。
圖3.2:在新框架中通過順序模型觸發選擇特定COA的主要因素。
圖3.2開發了迭代觸發特定COA選擇的基本要素。預測塊產生預測演變。適應性模塊根據輸出信號(實際情況)與預測信號的差異調整組成模塊的參數,并適當地更新最后執行的COA。專家區塊試圖通過調度區塊修改預測區塊定義的趨勢,從而按照戰斗的需要改變行動路線。值得注意的是,設定點與完成任務有關,行動的發展時間是操作時間,在最好的情況下,有沖突信息的可用數據庫通常是以天為單位的時間演變。
圖3.3:縱軸標識了模型所體現的抽象程度,圓錐體的底圓代表現實或完全沒有抽象,隨著聚合水平的提高,定義指揮水平的變量逐漸抽象出作戰執行的細節。因此,在蘭徹斯特模型的應用水平與戰略-戰役聚合水平相一致,聚合模型涵蓋了戰斗最基本的執行機制,如個體沖突,執行水平受到武器裝備、位置、能見度、后勤等因素的影響。
特別是在克里特島和硫磺島戰役中,我們的驗證目標是根據當前的理論確定可能的最佳行動方案,并與1941年5月20日和1945年2月19日的實際戰役相比,確定它們對對手產生的影響;在庫爾斯克戰役中,我們的目標是通過適應性和預測性控制的動態調整,正確確定戰斗階段,圖4.1。
圖4.1: 實際應用的基本自適應預測控制方案。自適應控制機制使戰斗過程輸出和預測模型輸出之間的差異趨于零,突出了預測塊在每個采樣時間窗口在系統中發揮的雙重作用。
條令體現了基本原則,軍事力量據此指導其行動以支持國家目標。它是一套精心制定的、經過官方批準或集體批準的權威性思想,為解決軍事問題建立了一個共同的參考框架。然而,要成為一個有效的指南,條令的挑戰是要同時關注過去,適用于現在,并面向未來;所有這些都是平等的。
美國空軍必須預見一個新的現實;在這個現實中,決策優勢、機動自由和行動自由受到越來越多的挑戰。為了在整個競爭過程中進行威懾、競爭和取勝,空軍人員必須推進能夠在高度競爭的環境中開展行動的解決方案。總的來說,聯合部隊應對這一挑戰的方法被概括為聯合全域作戰(JADO)。與聯合全域指揮和控制(JADC2)一起,JADO為聯合部隊指揮官(JFC)提供了整合、同步和解除沖突的手段,以實現所有領域的效果的融合,從而實現作戰優勢。
AFDP-1《空軍》支持這一工作,將任務指揮作為空軍指揮和控制(C2)的理念。盡管取得了進步,但對手可能會保留拒止或降低通信能力。所有梯隊的決策者必須有能力在與高層脫節的情況下發展理解、作出決定和匯集效果。任務指揮部將集中指揮、分布式控制和分布式執行作為戰術邊緣所需的反應能力、靈活性和主動性的基礎,并確保能力繼續發揮作用,即使在信息被削弱或被拒絕。
AFDP 3-52《空域控制》,雖然牢牢扎根于過去,但也必須著眼于未來;在需要時進行調整,以確保在未來的挑戰中繼續發揮作用和功效。空域管制提供能力和程序,通過促進安全、高效和靈活地使用空域來提高行動效率。過去有效的東西,在未來也會有效;但不是以同樣的方式! 飛行員必須接受培訓,以分布式的方式對所有領域的效果進行深思熟慮的規劃,并在分布式環境中與決策者隔離時執行任務。各級飛行員必須能夠自如地根據指揮官的意圖和任務指揮的原則進行決策和操作。
盡管沒有完全適應上述的挑戰,但這一條令代表了根據迄今為止的證據所認為的真實情況。隨著繼續向更有能力的未來部隊邁進,關鍵是要繼續發展條令,確保有一個永久的基礎來滿足國家的安全挑戰。縱觀歷史,具有創新精神的飛行員已經調整了技術并開發了就業方法,以應對國家所面臨的挑戰。
不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。
圖1 決策優勢理論。
決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。
決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。
信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。
信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。
信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。
決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。
增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。
控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。
雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。
本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:
建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。
建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。
建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。
建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。
以下定義摘自美國陸軍訓練與條令司令部:
多域作戰(MDO)描述了美國陸軍作為聯合部隊[陸軍、海軍、空軍、海軍陸戰隊和太空部隊]的一部分,如何在競爭和武裝沖突中對抗和擊敗能夠在所有領域[空中、陸地、海上、太空和網絡空間]與美國抗衡的近鄰對手。該概念描述了美國地面部隊作為聯合和多國團隊的一部分,如何在2025-2050年的時間框架內威懾對手并擊敗能力強大的近鄰對手。
MDO為指揮官提供了許多選擇,以執行同時和連續的行動,利用出其不意以及快速和持續地整合所有領域的能力,給對手帶來多種困境,以獲得物質和心理上的優勢以及對作戰環境的影響和控制。
滲透敵方的反介入和區域拒止(A2/AD)系統(分層和綜合遠程精確打擊系統、沿岸反艦能力、防空系統、遠程火炮和火箭系統),使美軍能夠進行戰略和作戰機動。
破壞--擾亂、降低或摧毀A2/AD系統,使美軍能夠進行作戰和戰術機動。
利用由此產生的機動自由,通過擊敗所有領域的敵軍來實現作戰和戰略目標。
重新競爭--鞏固各領域的成果,迫使其以對美國和盟國有利的條件恢復競爭。
戰爭的速度和決策的速度可以說從來沒有像今天這樣快過,而且明天可能也會這樣。
在陸、海、空、天,甚至網絡領域運作的資產的密切協調,以促進ISR活動和對敵對目標的殺傷鏈,需要精確性,以及在各種平臺上 "蓄勢殺傷 "的能力。
系統的通用性可以減少后勤的負擔,簡化培訓和維護,并有助于確保各平臺的性能一致、可靠。
基于成熟技術的解決方案能夠迅速投入使用,并為作戰人員增加更多的靈活性和選擇,是一種力量的倍增劑。
在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。
在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。
空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。
戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。
在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。
最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。
多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。
這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。
本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。
這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。
本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。
圖 3 RL 智能體及其與戰爭環境交互的總體概述。
圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。
美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。
關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)
根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。
AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。
F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。
在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。
美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。
美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。
鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。
有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。
本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。
需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。
這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。
本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。