隨著技術快速發展,空中交互模式日益復雜,智能空戰已成為多智能體系統領域前沿研究方向。在此背景下,大規模空戰場景的動態性與不確定性帶來顯著挑戰,包括可擴展性問題、計算復雜性及多智能體協同決策難題。為解決這些問題,我們提出一種基于圖結構與零階優化的多智能體強化學習(MADRL)新型自主空戰決策方法——GraphZeroPPO算法。該方法創新性地將GraphSAGE圖網絡與零階優化融入MADRL框架,通過圖結構適應多智能體系統高動態與高維特性,利用高效采樣策略實現導彈發射快速決策,同時借助零階優化有效探索全局最優解。最后,我們展示了在1v1與8v8空戰場景下的仿真實驗及對比結果。研究表明,該方法能有效適應大規模空戰環境,同時實現高勝率與快速決策性能。
全球對無人機、射頻模塊及個人通信設備的反制需求日益增長。掃頻干擾器已被證實對多類目標具有普適性干擾效能。隨著技術進步,干擾設備需同步演進以適應新型威脅并滿足附加約束條件,包括提升能效、壓縮帶寬占用及實現并行友好通信。為此,本文提出新型掃頻干擾信號體系,并將信號參數化過程建模為優化問題。通過真實硬件實驗平臺,評估了多類目標在選定干擾信號下的干擾效能,采用定制優化算法指導評估流程并開展算法性能對比。聚焦最優算法進行超參數調優研究,基于實測數據運用響應面法(RSM)解析特定目標受擾時的參數關聯機制。最終證實本實驗方法可作為通用框架,用于優化針對任意目標的多樣化干擾信號。
針對惡意射頻通信的電子對抗需求顯著增長,威脅涵蓋無人機、商用射頻模塊、個人移動電臺及軍用通信領域。射頻干擾器因其非侵入特性成為首選對抗裝備,廣泛應用于要員保護、重大活動安保、車隊護航、關鍵基礎設施防護及電子戰領域。干擾設備通過發射特定信號引發電磁干擾,使目標通信失效。現有文獻提出多種干擾策略:主動式(阻塞/掃頻/單音信號發射)與響應式(基于協議層)干擾方案已在[1]中對比驗證。掃頻信號在多場景展現顯著效能[2]。近期研究聚焦通過調整掃頻參數或信號結構優化掃頻策略:如[3]探究不同掃頻周期對LoRa模塊的影響;[4]分析無人機跳頻系統(FHSS)的命中率與掃頻參數設置;[5]對比無人機反制中掃頻參數的競爭方案;[6]提出噪聲調頻與掃頻復合信號以增強對多調制模式的干擾效果;[7]則對比梳狀組合掃頻與掃頻-噪聲復合方案。
上述研究可歸納為掃頻信號優化的兩大核心挑戰:針對特定場景尋找最優掃頻參數配置;將基礎掃頻升級為復雜信號結構。針對第一項挑戰,我們沿用既往研究[8]的抽象模型,將掃頻參數調優過程建模為干擾效能最大化優化問題,采用多種優化算法求解并在真實硬件平臺驗證。對比確定性搜索、隨機搜索、遺傳算法、粒子群優化及貝葉斯優化等主流方法的性能表現。實驗硬件涵蓋射頻模塊與無人機兩類典型目標,運用響應面法(RSM)量化干擾信號對設備的抑制效果。
針對第二項挑戰,通過引入間隙、頻移、重復及帶寬變換等機制改造基礎掃頻結構,在滿足可選邊界條件(如降低功耗、提升干擾效能、實現并行友好通信)前提下優化信號設計。基于第一項挑戰獲得的算法性能認知,選取高級掃頻信號代表案例在實驗平臺驗證。隨著復雜掃頻信號自由度增加,實驗評估耗時顯著增長。為提升效率,需對優化算法進行專項改進與超參數調優以減少評估步數。
本文核心貢獻如下:? 分析掃頻干擾信號在多參數集下對選定目標的抑制效果并記錄響應面 ? 提出擴展經典掃頻信號的新型復雜干擾信號架構(具備更高自由度) ? 對比主流優化算法在干擾效能最大化任務中的性能表現 ? 提出算法改進方案與適配超參數以降低時間成本。
全文結構:第二章闡述優化問題框架及掃頻信號改進方案;第三章介紹對比算法實現與超參數設置;第四章基于實驗測量展開研究;第五章呈現響應面、算法性能對比及超參數調優結果;第六章總結研究成果。
為破解軍事智能裝備預測性維護中智能化與網絡化程度低、物理模型構建困難等問題,本研究針對人工智能技術在軍事智能裝備中的應用框架、關鍵技術及保障決策方法展開探索。通過將預測性健康管理(PHM)系統架構融入軍事智能裝備健康管理體系,充分發揮人工智能全域通信、泛在感知與自主學習等核心能力,實現軍事智能裝備健康管理的數據驅動化、智能化和網絡化轉型。本研究成果可為復雜戰場環境下軍事智能裝備保障提供參考路徑,有效降低運維成本,持續提升保障效能。
本文重點研究人工智能技術(AIT)在機電控制系統(MECS)中的應用:首先闡釋AIT基礎理論與概念框架,繼而開發現代化AIT核心技術,結合我國現代企業機電控制系統現狀剖析現存瓶頸,最終探究AIT與機械系統的融合路徑,重點討論其在機械電子孔口子系統與電氣控制系統集成中的實踐應用。
"軍事智能裝備"泛指具備預測、感知、分析、推理、決策及控制能力的裝備體系。其在裝備數控化基礎上演進為更高級形態,可顯著提升生產效能與制造精度。其發展關鍵技術涵蓋缺陷檢測與健康維護技術(如高端數控機床、工業機器人),而故障預測與健康管理(PHM)技術正成為未來保障體系的核心方向。隨著軍事智能裝備復雜度提升,構建部件或系統的精確數學模型愈發困難。利用裝備全生命周期多節點歷史數據進行建模,相較物理分析模型更有利于實現PHM功能。鑒于軍事智能裝備向信息化、智能化、網絡化演進,其維護流程也需同步實現網絡協同與智能決策。本研究聚焦PHM與人工智能的融合應用,著力提升軍事裝備智能保障的決策水平、力量編成、方法革新及效能增益,為PHM智能化與網絡化維護模式的落地實施提供支撐。
高端技術的廣泛運用正在深刻改變制勝機理。信息力已超越火力成為戰爭勝負的決定性要素,控制取代摧毀成為壓制對手的首選手段。作戰體系中集群單元的影響力超越傳統集中兵力效果,催生出三大新型作戰樣式:基于集群協同的"新型智能作戰"(亦稱分布式協同戰)、基于多域集群的"集群攻防戰"、以及創新理論體系衍生的"電磁全維戰",三者共同構成未來智能化戰爭的基本形態。
本文闡述圖像處理技術在軍事領域的應用方案。展示數字圖像分析在軍事安全防御中的多元應用場景,重點探討地球地圖與合成孔徑雷達(SAR)數據中的目標檢測、武器識別、關鍵軍事據點/物體/目標的偵測與分割技術。此外,基于數學離散算法自主開發專用軟件,實現SAR數據中物體、區域、地形區域乃至軍事目標的智能檢測。通過數學建模實現圖像分割,并完成計算機軟件自主開發實現圖像分割功能。該技術使軍事指揮員可分析可視化戰場態勢,評估圖像中具體目標的威脅等級。軍事管理部門可據此制定安防策略與防御戰術決策。
本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。
本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。
為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。
本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。
第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。
在當今安全格局中,未經授權無人機在禁航空域的擴散已成為重大威脅。這些無人機構成從潛在監視與間諜活動到物理攻擊等惡性行為的多樣化風險。因此,開發高效反無人機激光系統愈發重要。本研究聚焦三大目標:建立內部可靠性模型、識別關鍵組件、探究影響反無人機系統可靠性的因素。通過分析關鍵組件可靠性及系統參數對整體可靠性的影響,旨在提升反無人機激光系統的綜合性能與效能。為此,采用可靠性框圖(RBD)方法計算反無人機系統中激光子系統的可靠性。同時開展組件級可靠性全面評估,識別系統薄弱環節,從而實現針對性改進與優化。為捕捉系統失效行為的真實場景,采用不同分布模型計算系統可靠性,確保深入理解其多工況下的運行可靠性。最終獲取反無人機激光系統的能量值與命中概率,以有效應對環境挑戰。
無人機已迅速融入現代社會生活,在多個領域獲得廣泛應用。盡管最初主要與軍事行動相關,無人機當前在民用領域發揮關鍵作用。其應用場景涵蓋娛樂(航拍攝影)、地質學(地圖繪制、勘測)、交通(流量監測)、安防(搜救、人群監控、救災)、物流(包裹投遞)、農業(作物監測、噴灑)及通信(應急基礎設施)等多元化領域。這些創新應用標志著社會向更高自主性轉型的重要進程,無人機正深刻改變日常生活的各個方面。
在當今安全格局中,禁航空域內非法無人機活動構成的威脅與日俱增。此類無人機可被用于監視、間諜活動甚至物理攻擊等惡意行為。為有效應對此類威脅,開發強健的反無人機激光系統勢在必行。圖1展示了激光反無人機系統的典型配置。
反無人機激光系統作為關鍵安防技術,旨在檢測、追蹤并反制禁航空域內的非法無人機。通過先進檢測機制、精確追蹤能力與有效反制手段,此類系統致力于保護敏感區域免受惡意無人機的潛在威脅。激光武器憑借其光速響應、精準光束定位與單次打擊成本效益[19],正成為應對無人機威脅升級的有效解決方案。為分析激光對無人機引擎的打擊效能,文獻[16]研究了目標對激光的脆弱性綜合評估方法。Ball在文獻[24]中指出,評估目標對激光的脆弱性類似于評估非爆炸性穿透物撞擊目標時造成的損傷機制,盡管未明確闡述具體評估方法。
本文開發了一種基于人工智能的戰斗機智能體,通過定制化Pygame模擬環境實現多目標任務求解。該智能體采用深度強化學習(DRL)算法,核心功能包括環境高效導航、目標點抵達、選擇性接敵/避敵。研究通過獎勵函數平衡多目標優化,結合超參數調優提升學習效率,實現超過80%的任務完成率。為增強決策透明度,采用事實-反事實對比分析方法:通過比較智能體實際選擇動作(事實動作)與替代動作(反事實動作)的獎勵差異,揭示其決策邏輯。本研究表明DRL與可解釋AI(XAI)在多目標問題求解中的協同潛力。
近年來,AI技術快速發展,已在多個領域展現變革性力量。從1997年國際象棋超越人類,到攻克復雜圍棋博弈,AI逐步實現高風險戰略任務的自主執行。強化學習(RL)作為AI子領域,通過試錯機制使智能體自主探索有效行動策略,擺脫了對人類專家數據的依賴。
在戰機導航與作戰領域,已有研究存在以下局限:仿真模型聚焦空戰場景模擬,缺乏DRL算法設計與獎勵函數優化;雖涉及強化學習,但未通過事實-反事實分析實現決策可解釋性,且未闡明智能體效率提升機制;飛行員訓練系統側重訓練場景構建,其獎勵機制局限于訓練目標導向,未實現效率與資源管理的復雜平衡;采用簡單獎勵函數(如擊落目標/規避墜毀),難以支持長短期決策權衡的精細化學習
本研究針對上述缺陷進行系統性改進,主要貢獻包括:
研究分為以下幾個主要部分:首先,開發了一個定制的模擬環境。接下來,使用雙深度 q 學習(DDQN)算法訓練戰斗機智能體做出戰略交戰決策。然后,重點優化任務資源,并通過事實和反事實情景解釋智能體的決策過程。通過解決優先級排序、自適應行為和風險評估等挑戰,這項研究旨在推動復雜多目標場景下智能自主系統的發展,最終增強人工智能在高風險環境中的作用。
低分辨率遙感影像中的精確航空器識別是航空領域尤其是戰斗識別中一項極具挑戰性的關鍵任務。本研究提出一種創新、可擴展且基于人工智能的解決方案,旨在解決已知機型與新型/未知機型協同精準識別這一核心難題。傳統方法(人類專家主導的作戰識別與圖像分類)在新型類別識別方面存在顯著局限。本方法通過相似性學習技術,實現對廣泛軍用與民用航空器特征的深度解析,結合度量學習實現機型身份辨識,并利用監督式小樣本學習完成機型分類。針對低分辨率遙感數據稀缺的挑戰,本研究設計了一種端到端框架:通過全監督方式訓練通用嵌入模型,自適應軍事航空器識別的多樣性與復雜性需求。與既有航空器圖像分類方法相比,本研究方案在機型分類(F1分數達0.861)與新型類別二分識別(F1分數達0.936)方面均展現顯著優勢。該方法有效應對遙感數據固有挑戰,為數據集質量設定了新標桿。該研究為領域專家開辟了新路徑,展現了區分多類型航空器的獨特能力,為實時航空器識別提供了更魯棒、領域自適應的技術潛力。
圖 1. 從左到右的流程圖顯示:a) 傳統的 CID,b) 圖像分類和 c) 智能已知和新飛機識別(INNAR),以找到已知和新類別
本文在飛機識別和戰斗識別方面做出了以下重大貢獻:
引入了一種新方法來自動實現 CID。
引入了一個新的、更好的數據集版本--MTARSI-INNAR,在識別 MTARSI 數據集中的錯誤并執行有領域專家參與的嚴格數據清理過程后,推進了自動 CID 開發和評估。
提出的 INNAR 是一種創新方法,可高精度區分已知(友)類和新(敵)類,以增強 CID 的適應性。它利用最先進的卷積網絡和相似性學習,通過圖像三元組構建穩健且可通用的特征表示。
驗證了圖像分類在原始高噪聲 MTARSI 數據集上做出了非常高準確率的虛假承諾,并提出將飛機識別和戰斗識別轉移到相似性和少數鏡頭學習上。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。
在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。
人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。
圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。