空戰是一個復雜多變的領域,人類飛行員面臨著嚴峻的挑戰。整合人工智能,特別是強化學習(RL),有可能徹底改變空戰行動的有效性。通過利用 RL 技術,自主智能體可以根據不斷變化的戰場條件制定新戰術。在這項研究中,使用先進的 RL 技術訓練了空戰智能體,同時考慮到了不同的初始作戰幾何形狀和相對位置。結果表明,空戰幾何形狀的變化對智能體的能力有顯著影響。為了評估其能力和應變能力,對具有對稱戰斗幾何形狀的相同智能體進行了檢查。任何與預期對稱結果的偏差都會被檢測到,這可能意味著在訓練探索階段遇到了挑戰。在這一框架內對不同的代理進行比較時,它們在特定空戰場景中的優勢就會凸顯出來,從而為加強更多智能代理的開發提供有價值的信息。
圖 7. 根據敵方和空戰幾何圖形選擇智能體的整體視圖
人工智能(AI)在航空航天領域的應用取得了重大進展,尤其是在安全關鍵型系統中,可解釋性和安全性至關重要。隨著無人戰斗飛行器(UCAV)的發展,空戰已成為需要人工智能集成的突出領域之一。
已有多個項目致力于推動這些自主系統(AS)的發展,其中包括 DARPA AlphaDogFight Trial [1]。在這個項目中,人工智能體的任務是在模擬的可視范圍內(WVR)與對方進行斗狗。最終參賽隊與人類飛行員進行了角逐,結果人工智能獲勝。競技團隊是利用深度強化學習(DRL)方法來訓練和發現新穎穩健的空戰戰術。
文獻中對使用 RL 生成空戰戰術進行了廣泛研究。值得注意的是,[2]的一項研究探索了使用深度確定性策略梯度(DDPG)訓練 RL 智能體,結果在視距內(WVR)作戰中大大提高了性能。另一項研究[3]深入研究了多智能體強化學習(MARL),以模擬涉及多架飛機的復雜合作空戰策略,展示了 RL 在復雜場景中的潛力。[4] 采用分層強化學習(HRL)將空戰任務分解為易于管理的子任務,從而簡化了訓練和決策過程。[5]研究了基于模型的 RL 在空戰智能體訓練過程中加速收斂和提高采樣效率的功效,有助于在動態環境中發揮卓越性能。最后,[6] 應用了先進的深度強化技術--近端策略優化(PPO)和軟行為批判(SAC),并比較了它們的性能。
在文獻中,多種 RL 方法都顯示出了優于其他方法的性能。然而,還沒有研究關注如何分析和比較 RL 智能體在所有搜索空間(包括不同方向和距離組合)中不同空戰幾何條件下的勝任能力和魯棒性。
本文提出了一種新穎的分析工具,旨在管理所有訓練參數和獎勵,從而能夠執行智能體對智能體場景進行綜合分析。我們采用最先進的 RL 方法,在不同的初始空戰幾何條件下訓練空戰智能體,如不同的相對位置和方向,使自己的飛機處于優勢、中立或劣勢位置。事實證明,相對空戰幾何形狀的差異是影響智能體能力和魯棒性的主要因素。我們通過啟動具有對稱作戰幾何形狀的相同人工智能代理來測試空戰代理的穩健性,并發現了與對稱結果預期的偏差,這可能表明訓練的探索階段存在問題。我們的分析工具還測試了智能體的泛化能力以及在遇到訓練外情況時的偏離趨勢。此外,在這一框架內對不同代理進行的比較表明了每個智能體在特定空戰場景中的優越性,為開發更智能的空戰代理庫提供了有價值的信息。最終,我們提出的分析工具通過提高空戰場景中的可解釋性、安全性和性能,推動了航空航天領域人工智能的發展。
本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。
在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。
無人機已成為現代戰爭中不可或缺的一部分,其向更大自主性的演進是不可避免的。本研究探討了軍用無人機向智能化、最小程度依賴人類方向發展的軌跡,并詳細介紹了必要的技術進步。我們模擬了無人機偵察行動,以確定和分析新出現的挑戰。本研究深入探討了對提高無人機智能至關重要的各種技術,重點是基于物體檢測的強化學習,并提供了實際實施案例來說明這些進步。我們的研究結果證實了增強軍用無人機智能的巨大潛力,為更自主、更有效的作戰解決方案鋪平了道路。
圖 3 智能無人機偵察場景和應用技術。
在最近的沖突中,如俄羅斯入侵烏克蘭和亞美尼亞-阿塞拜疆戰爭,無人機被認為是不可或缺的力量。目前,大多數可用于作戰的無人機都是遙控的。雖然無人機在一定程度上實現了自動化,但由于技術和道德問題,仍需要操作人員。從戰術角度看,無人機的最大優勢是 "低成本 "和 "大規模部署"。然而,這兩個優勢只有在無人機無需操作人員即可控制時,也就是無人機智能化時才能發揮作用。
自主無人機本身并不是一個新概念,因為人們已經進行了廣泛的研究。例如,我們生活在一個無人機用于送貨和搜救任務的時代 [1]、[2]、[3]。然而,民用智能無人機技術能否直接用于軍事目的呢?我們的答案是'不能',因為軍用無人機的操作在以下情況下與民用無人機有明顯區別。首先,軍用環境比民用環境更加復雜。想想特斯拉在未鋪設路面的道路上自動駕駛時,駕駛員必須干預的頻率有多高。軍事行動并不發生在 "鋪設良好的道路上"。此外,軍事行動涉及在任意地點分配任務。其次,伴隨軍事行動而來的是敵人無數次的反擊。這些反作用包括主動和被動拒絕,主動拒絕包括試圖攔截,被動拒絕包括隱藏和欺騙。這些敵方活動增加了問題的復雜性。第三,由于軍事的特殊性和安全性,缺乏與軍事行動相關的數據。例如,缺乏坦克和運輸機發射器(TEL)的鳥瞰數據,而這些都是物體探測的常用目標。第四,軍用智能無人機執行任務時需要考慮安全和道德問題。智能無人機在執行任務時如果缺乏穩定性,就會產生不可預測的行為,導致人員濫傷和任務失敗。從倫理角度考慮,即使無人機的整體操作實現了智能化,也需要有最終攻擊決策由人類做出的概念。換句話說,關鍵的考慮因素不應該是無人機是否能自主做出攻擊決定,而是無人機如何提供信息,協助人類做出攻擊的最終決定。這些倫理問題與人類的責任和機器的作用有關。
鑒于這些軍事方面的考慮,對自主軍用無人機和民用無人機的研究應以不同的理念推進。有關軍用智能無人機的研究正在積極進行中,但與民用研究不同的是,大部分研究都沒有進入公共領域。因此,本研究有以下目標。
首先,考慮到軍事行動的特殊性,本研究探討了智能軍用無人機的概念。
其次,我們對該領域出現的各種問題進行案例研究,從工程師的角度看待這些問題,并討論從案例研究中得出的直覺。
圖 1. 智能無人機在民用領域的工程研究
軍用無人機根據其使用目的分為偵察、攻擊、欺騙、電子戰和作為目標等類別 [38],[39]。在本案例研究中,我們重點關注偵察無人機的智能化。案例研究中的無人機以韓國 "Poongsan "公司的無人機為模型。根據應用模塊的不同,該模型可以執行多種任務。不過,本研究使用的是配備偵察模塊的無人機。模塊包括攝像頭、LRF、GNSS 等傳感器和系統。在規范假設方面,假定無人機能夠配備物體檢測和強化學習神經網絡。
圖 4. 用于訓練 YOLOv4 微型目標檢測模型的跟蹤車輛圖像。
圖 12. 根據 Unity 中的情景驗證技術應用
本研究為基于人工智能的復雜作戰系統的運行和開發建立了 MUM-T 概念和分類系統。分析了該系統的核心方面:自主性、互操作性和程序級別。人工智能 MUM-T 可提高有人駕駛系統的生存能力、擴大其作戰范圍并提高戰斗力。利用美國和英國正在建造的人工智能 MUM-T 綜合作戰系統的數據,分析了技術挑戰和項目水平。目前,MUM-T 處于有人駕駛平臺和無人駕駛飛行器平臺復合運行的水平。從中長期來看,無人地面飛行器、無人水面飛行器和無人水下飛行器等異構平臺之間的互操作通信是可能的。根據人工智能 MUM-T 系統之間互操作性的通用架構和標準協議的發展水平,MUM-T 可以從 "1 到 N "的概念發展到從 "N 到 N "的各種操作概念組合。本研究與現有研究的不同之處在于,MUM-T 系統中體現了第四次工業革命的核心技術,如人工智能、自動駕駛和數據互操作性。此外,通過在現有的無人系統分類法中體現人工智能和自主性,建立了人工智能支持的自主 MUM-T 操作和設施分類系統,并在此基礎上對級別和程序進行了分析。
本研究確立了有人無人協同作戰(MUM-T)的概念,目的是操作、開發和利用智能聯合作戰系統。此外,它還分析了互操作性、自主性、挑戰和計劃水平。人工智能支持的自主無人 MUM-T 提高了有人系統的生存能力,擴大了作戰范圍,并顯著提高了作戰效率。與以往不同的是,MUM-T 的概念正隨著人工智能的發展而不斷擴展,互操作性和自主性也在相應提高。美國和北大西洋公約組織(NATO)國家提出了未來防御領域的挑戰,并在無人系統(UMS)和 MUMT 層面開展了解決這些挑戰的計劃。本研究分析了自主 MUM-T 聯合作戰系統的運行和使用所面臨的技術挑戰和計劃水平,并介紹了基本要素技術。研究方法基于現有定義和第四次工業革命建立了 MUM-T 概念。并利用北約、美國和英國的數據分析了互操作性、自主性、挑戰以及技術和利用方面的計劃水平。
圖 2 基于 NIST 和北約分類標準的人工智能自主 MUM-T 系統分析
美國防部(DoD)對 MUM-T 的定義各不相同。美國 陸軍無人機系統卓越中心(UAUCE)將有人駕駛平臺和無人機視為單一系統。有人系統和無人系統(如機器人、傳感器、無人飛行器和作戰人員)的集成增強了態勢感知、殺傷力和生存能力[1]。國防部將這種關系視為執行共同任務的綜合團隊,美國陸軍航空卓越中心(UAACE)將其定義為同時操作士兵、無人機和無人地面飛行器(UGV),以提高對態勢的了解和生存能力[2]。它采用了標準化的系統架構和通信協議,使來自傳感器的精確圖像數據能夠在整個部隊中共享。目前,它在國防領域的應用最為廣泛。陸軍航空動力局(AFDD 2015)將其定義為:為每個系統提供特殊功能,使現有有人平臺和無人資產能夠合作完成同一任務。這是一種規避風險的方法,通過從空中、陸地和海上無人系統向有人資產傳輸實時信息,提高單兵作戰人員的態勢感知能力[3]。圖 1 是戰場上 MUM-T 系統的層次示意圖。
在世界經濟論壇(WEF)議程的第四次工業革命(Fourth IR)之后,數字化(I2D2)作為一項核心技術被提出。這些技術在未來科學中具有自主、分析、通信和邊緣計算的特點。該技術的特征組合構成了自主系統和智能體(智能+分布式)、擴展領域(互聯+分布式)、作戰網絡(互聯+數字化)、精確作戰領域(智能+數字化)。智能人工智能將改變戰爭的格局,而數字數據的可用性將使分布式和互聯(自主)系統能夠進行分析、適應和響應。這些變化反過來又可能通過預測分析支持更好的決策。
北約(2020 年)以第四次工業革命的核心技術特征及其組合為導向,構建復雜的作戰系統[4-6]。美國國防發展機構(ADD 2018)認為,MUM-T 復雜系統是一種無人作戰系統,可以補充或替代作戰人員的能力,以最大限度地提高作戰效率,最大限度地減少戰場情況下的人員傷亡。它被定義為以一種復雜的方式操作包括戰斗人員在內的有人作戰系統的作戰系統[7]。考慮到美國國防部(2010)、北約(2020)和 ADD(2018)的定義,人工智能支持的自主 MUM-T 復雜作戰系統(以下簡稱 "自主 MUM-T")和 OODA 循環如表 1 所示[1,5,7]。本研究所指的 MUM-T 復合作戰系統通過聯合指揮與控制,在空中、地面、海上、太空、網絡和戰爭等所有領域提供觀察、分析和控制,可通過整合/連接所有軍事力量的有人和無人系統進行操作。它被定義為 "根據決策和行動執行聯合行動的作戰系統"。
圖 3 北約 STANAG LOI 5 和自主邊緣計算 MUM-T 互操作水平設計
本文設計并驗證了一種用于高效開發多機器人海洋任務的新型模擬器。為了加快合作行為的開發,該模擬器以中等高保真度模擬機器人的工作條件,運行速度明顯快于實時速度,包括聲學通信、動態環境數據和大型世界中的高分辨率測深。該模擬器的實時系數(RTF)超過 100,這一點已通過強大的持續集成套件進行了測試,并被用于開發多機器人現場實驗。
圖 1: (a) 多車模擬。(b) 在蒙特雷灣從 R/V Paragon 上實地部署的 LRAUV
圖 4:熱掩體任務階段。部署完成后,救生飛行器(RV)開始向漂移的采樣飛行器(SV)進行三階段歸航:在中途制導過程中到達 GPS 航點后,RV 切換到聲學終端歸航階段,速度很快,然后在距離減小到 r1 時減速。一旦距離達到 r2,就會發生雙向聲學握手,RV 命令 SV 浮出水面,SV 則確認命令并浮出水面。在 "完成 "階段,RV 開始采樣。
自主機器人是現代海洋勘探的主流。與傳統的船舶作業相比,機器人收集的現場測量數據尺度更大、精度更高、成本更低。此外,與單個自主潛水器(AUV)相比,長時間部署的多機器人系統能更有效地收集更大規模的數據[1], [2], [3]。然而,復雜的水下多機器人系統需要在模擬和現場進行嚴格驗證才能可靠運行。
開發長時間的多潛航器任務具有挑戰性,因為許多故障模式可能會危及為期一周或一個月的部署的成功。水下平臺必須在通信受限、電力緊張和定位不確定的情況下可靠運行。故障可能導致昂貴的有效載荷和數據丟失。多個智能體的故障點越多,風險就越大。仿真技術發揮著關鍵作用,它允許在高風險部署前對代碼進行測試。然而,現有的模擬器速度太慢,或者不支持多車輛。
我們設計了一個模擬堆棧 LRAUV Sim,用于開發復雜的多無人飛行器任務。該模擬器可以擴展到任意螺旋槳驅動的水下航行器,但目前模擬的是長距離自主水下航行器(LRAUV),這是一種細長型 AUV,在現實世界中經常由兩個機構部署。LRAUV Sim 擴展了新的 Gazebo 模擬器[4],并以我們認為比以前的模擬器更快的速度模擬了流體力學、聲學通信和海洋傳感器,同時允許從用戶提供的標量場可視化科學數據。LRAUV Sim 為野外機器人技術提供了一種開發模式,可以快速模擬多個動作序列,以測試復雜系統中的故障情況和任務邏輯。
雖然任務開發仍需要真實世界的驗證,但快速模擬各種場景的能力可讓從業人員在現場集中時間對任務進行微調,以考慮到模擬中未完全建模的因素,如微妙的流體力學行為以及傳感器和執行器特性,而不是在現場發現任務邏輯或控制流中的軟件錯誤。
我們通過持續集成(CI)測試驗證了模擬器,并從模擬到成功的現場試驗,開發了一種復雜的行為,以維持多機器人團隊的觀測。在這一行為中,一個自動潛航器利用聲學定位和通信技術精確地替換另一個自動潛航器,使被替換的潛航器能夠重新充電或重新調度:這是一種與海洋研究人員相關的監測技術。
貢獻如下
多機器人快于實時(FTRT)海洋模擬,具有我們所知的最快 RTF
基于堅實理論基礎的流體力學驗證的連續控制器集成
物理模擬時間步長與黑盒控制器迭代同步
在現實世界中演示模擬加速任務開發和驗證
模擬器內可視化大規模密集數據,包括動態插值科學數據和高分辨率真實世界水深測量數據
軟件貢獻被接受為通用模擬器(新的 Gazebo [4])的本地內置功能
在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
本文探討了在實際戰場場景中增強態勢感知的聯合通信和傳感技術。特別是,提出了一種空中可重構智能表面(ARIS)輔助綜合傳感與通信(ISAC)系統,該系統由單個接入點(AP)、ARIS、多個用戶和一個傳感目標組成。通過深度強化學習(DRL),在信號干擾比(SINR)約束條件下聯合優化了接入點的發射波束成形、RIS 相移和 ARIS 的軌跡。數值結果表明,通過抑制自干擾和雜波回波信號或優化 RIS 相移,所提出的技術優于傳統的基準方案。
隨著設備種類的增加,戰場環境變得更加復雜多變,對先進無線傳感與通信技術的需求也在不斷增加。最近,綜合傳感與通信(ISAC)被認為是未來使用毫米波(mmWave)等高頻段無線網絡的一項有前途的技術[1]。特別是,由于雷達傳感和無線通信共享相同的頻譜和硬件設施,ISAC 有可能提高戰場上的整體作戰效率[2]。
ISAC 下行鏈路系統的整體流程一般是由接入點(AP)向用戶發射 ISAC 信號,并處理目標反射的回波信號。然而,由于鏈路的主要視距(LoS)信道特性,軍事場景中的 ISAC 無法避免被各種障礙物(如山脈)阻擋的問題,并隨著通信距離的增加而造成嚴重的路徑損耗[3]。為了克服 LoS 信道的物理限制,可重構智能表面(RIS)作為一種關鍵技術應運而生,它通過調整相移來重新配置信號傳播,從而擴大目標探測和通信范圍[4],[5]。作者在文獻[5]中提出了 RIS 輔助單目標多用戶 ISAC 系統中的聯合發射和接收波束成形技術。然而,在接入點和地面節點之間部署地面 RIS 在動態戰場環境中提供足夠的服務質量(QoS)方面存在局限性。另一方面,將 RIS 安裝在無人飛行器(UAV)上的空中 RIS(ARIS)可利用移動性在動態戰場環境中提供更有效的感知和通信性能[6]。文獻[7]考慮了由 ARIS 輔助的 ISAC 系統,以重新配置傳播環境,靈活對抗惡意干擾。
之前的研究[6]、[7]中針對傳感或通信網絡的 ARIS 系統的解決方案大多是通過凸優化提供的,無法快速應用于戰場場景。深度強化學習(DRL)方法因其在通過深度神經網絡與環境交互的同時制定策略的優勢,已被積極采用,作為傳統優化方法的替代方案。在 DRL 算法中,眾所周知,深度確定性策略梯度(DDPG)在連續行動空間(如 ARIS 軌跡)中收斂和運行良好[8]。文獻[9]的作者提出了一種基于 DRL 的 ARIS 軌跡設計,用于與車輛進行通信和定位。然而,從實際角度來看,當 AP 工作在全雙工模式時,自干擾問題 [10] 不可忽視,而且還需要一種抑制雜波回波信號的方法 [3]。
這項工作的重點是軍事場景中基于 DRL 的 ARIS 輔助 ISAC 系統,其中多天線 AP 為地面用戶提供服務并探測目標。我們的目標是通過聯合優化發射波束成形、RIS 相移和 ARIS 軌跡,使目標定位的 Cramer-Rao 約束(CRB)[11] 最小化。此外,為了應對自干擾和雜波回波信號帶來的挑戰,我們采用了一種基于無效空間投影(NSP)的接收波束成形方案[12]來抑制這些信號。為了應對所提問題的非凸性,我們提出了一種基于 DDPG 的算法,在與環境交互的同時尋找最優策略。通過模擬驗證,所提出的方法優于其他基準方法,如固定 RIS 相移或不應用基于 NSP 的接收波束成形方案。
本文的其余部分安排如下: 第二節介紹系統模型,包括 ARIS 輔助 ISAC 系統的信道、通信和雷達傳感模型。第三節介紹了所提出的基于 DRL 的算法,該算法旨在最小化整個系統的 CRB。第四節展示了數值結果,第五節為本文的結論。
本文報告了在使用基于遺傳學的機器學習過程和戰斗模擬發現新型戰斗機機動系統方面的經驗。實際上,這一應用中的遺傳學習系統正在取代測試平臺,從經驗中發現復雜的動作。這項工作的目標與許多其他研究不同,因為創新和發現新穎性本身就是有價值的。這使得目標和技術的細節與其他基于遺傳學的機器學習研究有所不同。
本文討論了應用的細節、動機以及所采用技術的細節。介紹了一個玩家適應固定策略對手的系統和兩個玩家共同適應的系統的結果。論文還討論了這項工作在其他自適應行為應用中的普遍意義。
本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。
集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。
該架構的主要組成部分如下:
戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。
戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。
3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。
因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。
我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。
在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。
為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。
每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。
在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。
圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。