本文開發了一種基于人工智能的戰斗機智能體,通過定制化Pygame模擬環境實現多目標任務求解。該智能體采用深度強化學習(DRL)算法,核心功能包括環境高效導航、目標點抵達、選擇性接敵/避敵。研究通過獎勵函數平衡多目標優化,結合超參數調優提升學習效率,實現超過80%的任務完成率。為增強決策透明度,采用事實-反事實對比分析方法:通過比較智能體實際選擇動作(事實動作)與替代動作(反事實動作)的獎勵差異,揭示其決策邏輯。本研究表明DRL與可解釋AI(XAI)在多目標問題求解中的協同潛力。
近年來,AI技術快速發展,已在多個領域展現變革性力量。從1997年國際象棋超越人類,到攻克復雜圍棋博弈,AI逐步實現高風險戰略任務的自主執行。強化學習(RL)作為AI子領域,通過試錯機制使智能體自主探索有效行動策略,擺脫了對人類專家數據的依賴。
在戰機導航與作戰領域,已有研究存在以下局限:仿真模型聚焦空戰場景模擬,缺乏DRL算法設計與獎勵函數優化;雖涉及強化學習,但未通過事實-反事實分析實現決策可解釋性,且未闡明智能體效率提升機制;飛行員訓練系統側重訓練場景構建,其獎勵機制局限于訓練目標導向,未實現效率與資源管理的復雜平衡;采用簡單獎勵函數(如擊落目標/規避墜毀),難以支持長短期決策權衡的精細化學習
本研究針對上述缺陷進行系統性改進,主要貢獻包括:
研究分為以下幾個主要部分:首先,開發了一個定制的模擬環境。接下來,使用雙深度 q 學習(DDQN)算法訓練戰斗機智能體做出戰略交戰決策。然后,重點優化任務資源,并通過事實和反事實情景解釋智能體的決策過程。通過解決優先級排序、自適應行為和風險評估等挑戰,這項研究旨在推動復雜多目標場景下智能自主系統的發展,最終增強人工智能在高風險環境中的作用。
為破解軍事智能裝備預測性維護中智能化與網絡化程度低、物理模型構建困難等問題,本研究針對人工智能技術在軍事智能裝備中的應用框架、關鍵技術及保障決策方法展開探索。通過將預測性健康管理(PHM)系統架構融入軍事智能裝備健康管理體系,充分發揮人工智能全域通信、泛在感知與自主學習等核心能力,實現軍事智能裝備健康管理的數據驅動化、智能化和網絡化轉型。本研究成果可為復雜戰場環境下軍事智能裝備保障提供參考路徑,有效降低運維成本,持續提升保障效能。
本文重點研究人工智能技術(AIT)在機電控制系統(MECS)中的應用:首先闡釋AIT基礎理論與概念框架,繼而開發現代化AIT核心技術,結合我國現代企業機電控制系統現狀剖析現存瓶頸,最終探究AIT與機械系統的融合路徑,重點討論其在機械電子孔口子系統與電氣控制系統集成中的實踐應用。
"軍事智能裝備"泛指具備預測、感知、分析、推理、決策及控制能力的裝備體系。其在裝備數控化基礎上演進為更高級形態,可顯著提升生產效能與制造精度。其發展關鍵技術涵蓋缺陷檢測與健康維護技術(如高端數控機床、工業機器人),而故障預測與健康管理(PHM)技術正成為未來保障體系的核心方向。隨著軍事智能裝備復雜度提升,構建部件或系統的精確數學模型愈發困難。利用裝備全生命周期多節點歷史數據進行建模,相較物理分析模型更有利于實現PHM功能。鑒于軍事智能裝備向信息化、智能化、網絡化演進,其維護流程也需同步實現網絡協同與智能決策。本研究聚焦PHM與人工智能的融合應用,著力提升軍事裝備智能保障的決策水平、力量編成、方法革新及效能增益,為PHM智能化與網絡化維護模式的落地實施提供支撐。
高端技術的廣泛運用正在深刻改變制勝機理。信息力已超越火力成為戰爭勝負的決定性要素,控制取代摧毀成為壓制對手的首選手段。作戰體系中集群單元的影響力超越傳統集中兵力效果,催生出三大新型作戰樣式:基于集群協同的"新型智能作戰"(亦稱分布式協同戰)、基于多域集群的"集群攻防戰"、以及創新理論體系衍生的"電磁全維戰",三者共同構成未來智能化戰爭的基本形態。
本文闡述圖像處理技術在軍事領域的應用方案。展示數字圖像分析在軍事安全防御中的多元應用場景,重點探討地球地圖與合成孔徑雷達(SAR)數據中的目標檢測、武器識別、關鍵軍事據點/物體/目標的偵測與分割技術。此外,基于數學離散算法自主開發專用軟件,實現SAR數據中物體、區域、地形區域乃至軍事目標的智能檢測。通過數學建模實現圖像分割,并完成計算機軟件自主開發實現圖像分割功能。該技術使軍事指揮員可分析可視化戰場態勢,評估圖像中具體目標的威脅等級。軍事管理部門可據此制定安防策略與防御戰術決策。
本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。
本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。
為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。
本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。
第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。
隨著技術快速發展,空中交互模式日益復雜,智能空戰已成為多智能體系統領域前沿研究方向。在此背景下,大規模空戰場景的動態性與不確定性帶來顯著挑戰,包括可擴展性問題、計算復雜性及多智能體協同決策難題。為解決這些問題,我們提出一種基于圖結構與零階優化的多智能體強化學習(MADRL)新型自主空戰決策方法——GraphZeroPPO算法。該方法創新性地將GraphSAGE圖網絡與零階優化融入MADRL框架,通過圖結構適應多智能體系統高動態與高維特性,利用高效采樣策略實現導彈發射快速決策,同時借助零階優化有效探索全局最優解。最后,我們展示了在1v1與8v8空戰場景下的仿真實驗及對比結果。研究表明,該方法能有效適應大規模空戰環境,同時實現高勝率與快速決策性能。
低分辨率遙感影像中的精確航空器識別是航空領域尤其是戰斗識別中一項極具挑戰性的關鍵任務。本研究提出一種創新、可擴展且基于人工智能的解決方案,旨在解決已知機型與新型/未知機型協同精準識別這一核心難題。傳統方法(人類專家主導的作戰識別與圖像分類)在新型類別識別方面存在顯著局限。本方法通過相似性學習技術,實現對廣泛軍用與民用航空器特征的深度解析,結合度量學習實現機型身份辨識,并利用監督式小樣本學習完成機型分類。針對低分辨率遙感數據稀缺的挑戰,本研究設計了一種端到端框架:通過全監督方式訓練通用嵌入模型,自適應軍事航空器識別的多樣性與復雜性需求。與既有航空器圖像分類方法相比,本研究方案在機型分類(F1分數達0.861)與新型類別二分識別(F1分數達0.936)方面均展現顯著優勢。該方法有效應對遙感數據固有挑戰,為數據集質量設定了新標桿。該研究為領域專家開辟了新路徑,展現了區分多類型航空器的獨特能力,為實時航空器識別提供了更魯棒、領域自適應的技術潛力。
圖 1. 從左到右的流程圖顯示:a) 傳統的 CID,b) 圖像分類和 c) 智能已知和新飛機識別(INNAR),以找到已知和新類別
本文在飛機識別和戰斗識別方面做出了以下重大貢獻:
引入了一種新方法來自動實現 CID。
引入了一個新的、更好的數據集版本--MTARSI-INNAR,在識別 MTARSI 數據集中的錯誤并執行有領域專家參與的嚴格數據清理過程后,推進了自動 CID 開發和評估。
提出的 INNAR 是一種創新方法,可高精度區分已知(友)類和新(敵)類,以增強 CID 的適應性。它利用最先進的卷積網絡和相似性學習,通過圖像三元組構建穩健且可通用的特征表示。
驗證了圖像分類在原始高噪聲 MTARSI 數據集上做出了非常高準確率的虛假承諾,并提出將飛機識別和戰斗識別轉移到相似性和少數鏡頭學習上。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。
在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。
無人機已成為現代戰爭中不可或缺的一部分,其向更大自主性的演進是不可避免的。本研究探討了軍用無人機向智能化、最小程度依賴人類方向發展的軌跡,并詳細介紹了必要的技術進步。我們模擬了無人機偵察行動,以確定和分析新出現的挑戰。本研究深入探討了對提高無人機智能至關重要的各種技術,重點是基于物體檢測的強化學習,并提供了實際實施案例來說明這些進步。我們的研究結果證實了增強軍用無人機智能的巨大潛力,為更自主、更有效的作戰解決方案鋪平了道路。
圖 3 智能無人機偵察場景和應用技術。
在最近的沖突中,如俄羅斯入侵烏克蘭和亞美尼亞-阿塞拜疆戰爭,無人機被認為是不可或缺的力量。目前,大多數可用于作戰的無人機都是遙控的。雖然無人機在一定程度上實現了自動化,但由于技術和道德問題,仍需要操作人員。從戰術角度看,無人機的最大優勢是 "低成本 "和 "大規模部署"。然而,這兩個優勢只有在無人機無需操作人員即可控制時,也就是無人機智能化時才能發揮作用。
自主無人機本身并不是一個新概念,因為人們已經進行了廣泛的研究。例如,我們生活在一個無人機用于送貨和搜救任務的時代 [1]、[2]、[3]。然而,民用智能無人機技術能否直接用于軍事目的呢?我們的答案是'不能',因為軍用無人機的操作在以下情況下與民用無人機有明顯區別。首先,軍用環境比民用環境更加復雜。想想特斯拉在未鋪設路面的道路上自動駕駛時,駕駛員必須干預的頻率有多高。軍事行動并不發生在 "鋪設良好的道路上"。此外,軍事行動涉及在任意地點分配任務。其次,伴隨軍事行動而來的是敵人無數次的反擊。這些反作用包括主動和被動拒絕,主動拒絕包括試圖攔截,被動拒絕包括隱藏和欺騙。這些敵方活動增加了問題的復雜性。第三,由于軍事的特殊性和安全性,缺乏與軍事行動相關的數據。例如,缺乏坦克和運輸機發射器(TEL)的鳥瞰數據,而這些都是物體探測的常用目標。第四,軍用智能無人機執行任務時需要考慮安全和道德問題。智能無人機在執行任務時如果缺乏穩定性,就會產生不可預測的行為,導致人員濫傷和任務失敗。從倫理角度考慮,即使無人機的整體操作實現了智能化,也需要有最終攻擊決策由人類做出的概念。換句話說,關鍵的考慮因素不應該是無人機是否能自主做出攻擊決定,而是無人機如何提供信息,協助人類做出攻擊的最終決定。這些倫理問題與人類的責任和機器的作用有關。
鑒于這些軍事方面的考慮,對自主軍用無人機和民用無人機的研究應以不同的理念推進。有關軍用智能無人機的研究正在積極進行中,但與民用研究不同的是,大部分研究都沒有進入公共領域。因此,本研究有以下目標。
首先,考慮到軍事行動的特殊性,本研究探討了智能軍用無人機的概念。
其次,我們對該領域出現的各種問題進行案例研究,從工程師的角度看待這些問題,并討論從案例研究中得出的直覺。
圖 1. 智能無人機在民用領域的工程研究
軍用無人機根據其使用目的分為偵察、攻擊、欺騙、電子戰和作為目標等類別 [38],[39]。在本案例研究中,我們重點關注偵察無人機的智能化。案例研究中的無人機以韓國 "Poongsan "公司的無人機為模型。根據應用模塊的不同,該模型可以執行多種任務。不過,本研究使用的是配備偵察模塊的無人機。模塊包括攝像頭、LRF、GNSS 等傳感器和系統。在規范假設方面,假定無人機能夠配備物體檢測和強化學習神經網絡。
圖 4. 用于訓練 YOLOv4 微型目標檢測模型的跟蹤車輛圖像。
圖 12. 根據 Unity 中的情景驗證技術應用
在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
本文探討了在實際戰場場景中增強態勢感知的聯合通信和傳感技術。特別是,提出了一種空中可重構智能表面(ARIS)輔助綜合傳感與通信(ISAC)系統,該系統由單個接入點(AP)、ARIS、多個用戶和一個傳感目標組成。通過深度強化學習(DRL),在信號干擾比(SINR)約束條件下聯合優化了接入點的發射波束成形、RIS 相移和 ARIS 的軌跡。數值結果表明,通過抑制自干擾和雜波回波信號或優化 RIS 相移,所提出的技術優于傳統的基準方案。
隨著設備種類的增加,戰場環境變得更加復雜多變,對先進無線傳感與通信技術的需求也在不斷增加。最近,綜合傳感與通信(ISAC)被認為是未來使用毫米波(mmWave)等高頻段無線網絡的一項有前途的技術[1]。特別是,由于雷達傳感和無線通信共享相同的頻譜和硬件設施,ISAC 有可能提高戰場上的整體作戰效率[2]。
ISAC 下行鏈路系統的整體流程一般是由接入點(AP)向用戶發射 ISAC 信號,并處理目標反射的回波信號。然而,由于鏈路的主要視距(LoS)信道特性,軍事場景中的 ISAC 無法避免被各種障礙物(如山脈)阻擋的問題,并隨著通信距離的增加而造成嚴重的路徑損耗[3]。為了克服 LoS 信道的物理限制,可重構智能表面(RIS)作為一種關鍵技術應運而生,它通過調整相移來重新配置信號傳播,從而擴大目標探測和通信范圍[4],[5]。作者在文獻[5]中提出了 RIS 輔助單目標多用戶 ISAC 系統中的聯合發射和接收波束成形技術。然而,在接入點和地面節點之間部署地面 RIS 在動態戰場環境中提供足夠的服務質量(QoS)方面存在局限性。另一方面,將 RIS 安裝在無人飛行器(UAV)上的空中 RIS(ARIS)可利用移動性在動態戰場環境中提供更有效的感知和通信性能[6]。文獻[7]考慮了由 ARIS 輔助的 ISAC 系統,以重新配置傳播環境,靈活對抗惡意干擾。
之前的研究[6]、[7]中針對傳感或通信網絡的 ARIS 系統的解決方案大多是通過凸優化提供的,無法快速應用于戰場場景。深度強化學習(DRL)方法因其在通過深度神經網絡與環境交互的同時制定策略的優勢,已被積極采用,作為傳統優化方法的替代方案。在 DRL 算法中,眾所周知,深度確定性策略梯度(DDPG)在連續行動空間(如 ARIS 軌跡)中收斂和運行良好[8]。文獻[9]的作者提出了一種基于 DRL 的 ARIS 軌跡設計,用于與車輛進行通信和定位。然而,從實際角度來看,當 AP 工作在全雙工模式時,自干擾問題 [10] 不可忽視,而且還需要一種抑制雜波回波信號的方法 [3]。
這項工作的重點是軍事場景中基于 DRL 的 ARIS 輔助 ISAC 系統,其中多天線 AP 為地面用戶提供服務并探測目標。我們的目標是通過聯合優化發射波束成形、RIS 相移和 ARIS 軌跡,使目標定位的 Cramer-Rao 約束(CRB)[11] 最小化。此外,為了應對自干擾和雜波回波信號帶來的挑戰,我們采用了一種基于無效空間投影(NSP)的接收波束成形方案[12]來抑制這些信號。為了應對所提問題的非凸性,我們提出了一種基于 DDPG 的算法,在與環境交互的同時尋找最優策略。通過模擬驗證,所提出的方法優于其他基準方法,如固定 RIS 相移或不應用基于 NSP 的接收波束成形方案。
本文的其余部分安排如下: 第二節介紹系統模型,包括 ARIS 輔助 ISAC 系統的信道、通信和雷達傳感模型。第三節介紹了所提出的基于 DRL 的算法,該算法旨在最小化整個系統的 CRB。第四節展示了數值結果,第五節為本文的結論。