配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。
在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。
空戰是一個復雜多變的領域,人類飛行員面臨著嚴峻的挑戰。整合人工智能,特別是強化學習(RL),有可能徹底改變空戰行動的有效性。通過利用 RL 技術,自主智能體可以根據不斷變化的戰場條件制定新戰術。在這項研究中,使用先進的 RL 技術訓練了空戰智能體,同時考慮到了不同的初始作戰幾何形狀和相對位置。結果表明,空戰幾何形狀的變化對智能體的能力有顯著影響。為了評估其能力和應變能力,對具有對稱戰斗幾何形狀的相同智能體進行了檢查。任何與預期對稱結果的偏差都會被檢測到,這可能意味著在訓練探索階段遇到了挑戰。在這一框架內對不同的代理進行比較時,它們在特定空戰場景中的優勢就會凸顯出來,從而為加強更多智能代理的開發提供有價值的信息。
圖 7. 根據敵方和空戰幾何圖形選擇智能體的整體視圖
人工智能(AI)在航空航天領域的應用取得了重大進展,尤其是在安全關鍵型系統中,可解釋性和安全性至關重要。隨著無人戰斗飛行器(UCAV)的發展,空戰已成為需要人工智能集成的突出領域之一。
已有多個項目致力于推動這些自主系統(AS)的發展,其中包括 DARPA AlphaDogFight Trial [1]。在這個項目中,人工智能體的任務是在模擬的可視范圍內(WVR)與對方進行斗狗。最終參賽隊與人類飛行員進行了角逐,結果人工智能獲勝。競技團隊是利用深度強化學習(DRL)方法來訓練和發現新穎穩健的空戰戰術。
文獻中對使用 RL 生成空戰戰術進行了廣泛研究。值得注意的是,[2]的一項研究探索了使用深度確定性策略梯度(DDPG)訓練 RL 智能體,結果在視距內(WVR)作戰中大大提高了性能。另一項研究[3]深入研究了多智能體強化學習(MARL),以模擬涉及多架飛機的復雜合作空戰策略,展示了 RL 在復雜場景中的潛力。[4] 采用分層強化學習(HRL)將空戰任務分解為易于管理的子任務,從而簡化了訓練和決策過程。[5]研究了基于模型的 RL 在空戰智能體訓練過程中加速收斂和提高采樣效率的功效,有助于在動態環境中發揮卓越性能。最后,[6] 應用了先進的深度強化技術--近端策略優化(PPO)和軟行為批判(SAC),并比較了它們的性能。
在文獻中,多種 RL 方法都顯示出了優于其他方法的性能。然而,還沒有研究關注如何分析和比較 RL 智能體在所有搜索空間(包括不同方向和距離組合)中不同空戰幾何條件下的勝任能力和魯棒性。
本文提出了一種新穎的分析工具,旨在管理所有訓練參數和獎勵,從而能夠執行智能體對智能體場景進行綜合分析。我們采用最先進的 RL 方法,在不同的初始空戰幾何條件下訓練空戰智能體,如不同的相對位置和方向,使自己的飛機處于優勢、中立或劣勢位置。事實證明,相對空戰幾何形狀的差異是影響智能體能力和魯棒性的主要因素。我們通過啟動具有對稱作戰幾何形狀的相同人工智能代理來測試空戰代理的穩健性,并發現了與對稱結果預期的偏差,這可能表明訓練的探索階段存在問題。我們的分析工具還測試了智能體的泛化能力以及在遇到訓練外情況時的偏離趨勢。此外,在這一框架內對不同代理進行的比較表明了每個智能體在特定空戰場景中的優越性,為開發更智能的空戰代理庫提供了有價值的信息。最終,我們提出的分析工具通過提高空戰場景中的可解釋性、安全性和性能,推動了航空航天領域人工智能的發展。
本研究為基于人工智能的復雜作戰系統的運行和開發建立了 MUM-T 概念和分類系統。分析了該系統的核心方面:自主性、互操作性和程序級別。人工智能 MUM-T 可提高有人駕駛系統的生存能力、擴大其作戰范圍并提高戰斗力。利用美國和英國正在建造的人工智能 MUM-T 綜合作戰系統的數據,分析了技術挑戰和項目水平。目前,MUM-T 處于有人駕駛平臺和無人駕駛飛行器平臺復合運行的水平。從中長期來看,無人地面飛行器、無人水面飛行器和無人水下飛行器等異構平臺之間的互操作通信是可能的。根據人工智能 MUM-T 系統之間互操作性的通用架構和標準協議的發展水平,MUM-T 可以從 "1 到 N "的概念發展到從 "N 到 N "的各種操作概念組合。本研究與現有研究的不同之處在于,MUM-T 系統中體現了第四次工業革命的核心技術,如人工智能、自動駕駛和數據互操作性。此外,通過在現有的無人系統分類法中體現人工智能和自主性,建立了人工智能支持的自主 MUM-T 操作和設施分類系統,并在此基礎上對級別和程序進行了分析。
本研究確立了有人無人協同作戰(MUM-T)的概念,目的是操作、開發和利用智能聯合作戰系統。此外,它還分析了互操作性、自主性、挑戰和計劃水平。人工智能支持的自主無人 MUM-T 提高了有人系統的生存能力,擴大了作戰范圍,并顯著提高了作戰效率。與以往不同的是,MUM-T 的概念正隨著人工智能的發展而不斷擴展,互操作性和自主性也在相應提高。美國和北大西洋公約組織(NATO)國家提出了未來防御領域的挑戰,并在無人系統(UMS)和 MUMT 層面開展了解決這些挑戰的計劃。本研究分析了自主 MUM-T 聯合作戰系統的運行和使用所面臨的技術挑戰和計劃水平,并介紹了基本要素技術。研究方法基于現有定義和第四次工業革命建立了 MUM-T 概念。并利用北約、美國和英國的數據分析了互操作性、自主性、挑戰以及技術和利用方面的計劃水平。
圖 2 基于 NIST 和北約分類標準的人工智能自主 MUM-T 系統分析
美國防部(DoD)對 MUM-T 的定義各不相同。美國 陸軍無人機系統卓越中心(UAUCE)將有人駕駛平臺和無人機視為單一系統。有人系統和無人系統(如機器人、傳感器、無人飛行器和作戰人員)的集成增強了態勢感知、殺傷力和生存能力[1]。國防部將這種關系視為執行共同任務的綜合團隊,美國陸軍航空卓越中心(UAACE)將其定義為同時操作士兵、無人機和無人地面飛行器(UGV),以提高對態勢的了解和生存能力[2]。它采用了標準化的系統架構和通信協議,使來自傳感器的精確圖像數據能夠在整個部隊中共享。目前,它在國防領域的應用最為廣泛。陸軍航空動力局(AFDD 2015)將其定義為:為每個系統提供特殊功能,使現有有人平臺和無人資產能夠合作完成同一任務。這是一種規避風險的方法,通過從空中、陸地和海上無人系統向有人資產傳輸實時信息,提高單兵作戰人員的態勢感知能力[3]。圖 1 是戰場上 MUM-T 系統的層次示意圖。
在世界經濟論壇(WEF)議程的第四次工業革命(Fourth IR)之后,數字化(I2D2)作為一項核心技術被提出。這些技術在未來科學中具有自主、分析、通信和邊緣計算的特點。該技術的特征組合構成了自主系統和智能體(智能+分布式)、擴展領域(互聯+分布式)、作戰網絡(互聯+數字化)、精確作戰領域(智能+數字化)。智能人工智能將改變戰爭的格局,而數字數據的可用性將使分布式和互聯(自主)系統能夠進行分析、適應和響應。這些變化反過來又可能通過預測分析支持更好的決策。
北約(2020 年)以第四次工業革命的核心技術特征及其組合為導向,構建復雜的作戰系統[4-6]。美國國防發展機構(ADD 2018)認為,MUM-T 復雜系統是一種無人作戰系統,可以補充或替代作戰人員的能力,以最大限度地提高作戰效率,最大限度地減少戰場情況下的人員傷亡。它被定義為以一種復雜的方式操作包括戰斗人員在內的有人作戰系統的作戰系統[7]。考慮到美國國防部(2010)、北約(2020)和 ADD(2018)的定義,人工智能支持的自主 MUM-T 復雜作戰系統(以下簡稱 "自主 MUM-T")和 OODA 循環如表 1 所示[1,5,7]。本研究所指的 MUM-T 復合作戰系統通過聯合指揮與控制,在空中、地面、海上、太空、網絡和戰爭等所有領域提供觀察、分析和控制,可通過整合/連接所有軍事力量的有人和無人系統進行操作。它被定義為 "根據決策和行動執行聯合行動的作戰系統"。
圖 3 北約 STANAG LOI 5 和自主邊緣計算 MUM-T 互操作水平設計
在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
本文探討了在實際戰場場景中增強態勢感知的聯合通信和傳感技術。特別是,提出了一種空中可重構智能表面(ARIS)輔助綜合傳感與通信(ISAC)系統,該系統由單個接入點(AP)、ARIS、多個用戶和一個傳感目標組成。通過深度強化學習(DRL),在信號干擾比(SINR)約束條件下聯合優化了接入點的發射波束成形、RIS 相移和 ARIS 的軌跡。數值結果表明,通過抑制自干擾和雜波回波信號或優化 RIS 相移,所提出的技術優于傳統的基準方案。
隨著設備種類的增加,戰場環境變得更加復雜多變,對先進無線傳感與通信技術的需求也在不斷增加。最近,綜合傳感與通信(ISAC)被認為是未來使用毫米波(mmWave)等高頻段無線網絡的一項有前途的技術[1]。特別是,由于雷達傳感和無線通信共享相同的頻譜和硬件設施,ISAC 有可能提高戰場上的整體作戰效率[2]。
ISAC 下行鏈路系統的整體流程一般是由接入點(AP)向用戶發射 ISAC 信號,并處理目標反射的回波信號。然而,由于鏈路的主要視距(LoS)信道特性,軍事場景中的 ISAC 無法避免被各種障礙物(如山脈)阻擋的問題,并隨著通信距離的增加而造成嚴重的路徑損耗[3]。為了克服 LoS 信道的物理限制,可重構智能表面(RIS)作為一種關鍵技術應運而生,它通過調整相移來重新配置信號傳播,從而擴大目標探測和通信范圍[4],[5]。作者在文獻[5]中提出了 RIS 輔助單目標多用戶 ISAC 系統中的聯合發射和接收波束成形技術。然而,在接入點和地面節點之間部署地面 RIS 在動態戰場環境中提供足夠的服務質量(QoS)方面存在局限性。另一方面,將 RIS 安裝在無人飛行器(UAV)上的空中 RIS(ARIS)可利用移動性在動態戰場環境中提供更有效的感知和通信性能[6]。文獻[7]考慮了由 ARIS 輔助的 ISAC 系統,以重新配置傳播環境,靈活對抗惡意干擾。
之前的研究[6]、[7]中針對傳感或通信網絡的 ARIS 系統的解決方案大多是通過凸優化提供的,無法快速應用于戰場場景。深度強化學習(DRL)方法因其在通過深度神經網絡與環境交互的同時制定策略的優勢,已被積極采用,作為傳統優化方法的替代方案。在 DRL 算法中,眾所周知,深度確定性策略梯度(DDPG)在連續行動空間(如 ARIS 軌跡)中收斂和運行良好[8]。文獻[9]的作者提出了一種基于 DRL 的 ARIS 軌跡設計,用于與車輛進行通信和定位。然而,從實際角度來看,當 AP 工作在全雙工模式時,自干擾問題 [10] 不可忽視,而且還需要一種抑制雜波回波信號的方法 [3]。
這項工作的重點是軍事場景中基于 DRL 的 ARIS 輔助 ISAC 系統,其中多天線 AP 為地面用戶提供服務并探測目標。我們的目標是通過聯合優化發射波束成形、RIS 相移和 ARIS 軌跡,使目標定位的 Cramer-Rao 約束(CRB)[11] 最小化。此外,為了應對自干擾和雜波回波信號帶來的挑戰,我們采用了一種基于無效空間投影(NSP)的接收波束成形方案[12]來抑制這些信號。為了應對所提問題的非凸性,我們提出了一種基于 DDPG 的算法,在與環境交互的同時尋找最優策略。通過模擬驗證,所提出的方法優于其他基準方法,如固定 RIS 相移或不應用基于 NSP 的接收波束成形方案。
本文的其余部分安排如下: 第二節介紹系統模型,包括 ARIS 輔助 ISAC 系統的信道、通信和雷達傳感模型。第三節介紹了所提出的基于 DRL 的算法,該算法旨在最小化整個系統的 CRB。第四節展示了數值結果,第五節為本文的結論。
利用人工智能實現認知優勢的目的是從海量數據中提取相關信息,以建立軍事和非軍事態勢感知。對視覺信息進行可靠而及時的解讀是獲得這種優勢的有利因素。隨著大規模、多模態深度學習模型(如對比語言-圖像預訓練(CLIP))的興起,一種有前途的神經網絡正在出現,以執行此類視覺識別任務。這種網絡能夠通過一次性應用光學字符識別(OCR)、面部識別或對象分類從視覺輸入中提取知識,而無需進行顯式微調。通過選擇針對圖像中搜索對象的特定文本提示,CLIP 可以實現這種 "零樣本"功能。
本文將研究 CLIP 如何用于識別軍事領域的車輛,并利用從烏克蘭-俄羅斯戰爭中吸取的經驗教訓。為了進行分析,創建了一個新的數據集,其中包含有軍用和民用車輛的圖像,但也有沒有車輛的圖像。首先,我們搜索適當的查詢,利用單個搜索結果,然后組合多個提示。其次,探討這種方法是否可用于從基于監控攝像頭和智能手機的視頻流中識別軍用車輛。在圖像數據集上表明,經過深思熟慮的提示工程,CLIP 模型能夠以較高的精確度和召回率識別軍用車輛。視頻數據集的性能取決于物體大小和視頻質量。有了這種方法,盟軍和敵方都可以系統地分析大量視頻和圖像數據,而無需耗時的數據收集和訓練。
CLIP 是目前最好的零樣本模型之一。Radford 等人[10] 開發了一種全新的方法,利用簡單的對比預訓練目標來學習盡可能多的概念。CLIP 在 4 億個圖像-文本對上進行了預訓練。不過,該數據集尚未公開,因此不知道有關訓練數據的詳細信息。圖像由圖像編碼器嵌入,文本由單獨的文本編碼器嵌入。目標是使用對稱交叉熵損失來減少嵌入的距離,如圖 1(左)所示。余弦相似度被用作距離度量。基于這一簡單的預訓練目標,CLIP 可以在沒有監督注釋的情況下學習一般概念,因此具有很強的零誤差能力。ResNet [2] 及各種改進 [13], [14] 和 Vision Transformer [15] 被用作圖像編碼器,Transformer 架構 [16] 被用于文本嵌入。Radford 等人提供了其 CLIP 模型的九種不同配置。在我們的分析中,我們使用了 ViT-B/16,這是一個中等規模的模型,圖像編碼器和文本編碼器分別有 8620 萬和 3780 萬個參數。為了防止過擬合,通常會使用一些數據增強,但由于預訓練數據集的大小,這些增強可以忽略不計,只進行簡單的裁剪。預訓練數據集并不公開,因此在訓練過程中與軍事相關的數據量不得而知。在推理過程中,使用不同的提示(T1、...、TN)對搜索到的類別進行編碼,然后根據文本向量與圖像向量(I1)之間的距離確定類別,如圖 1 所示。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
為計算機生成兵力(CGF)創建行為模型是一項具有挑戰性且耗時的任務,通常需要具備復雜人工智能算法編程方面的專業知識。因此,對于了解應用領域和培訓目標的主題專家來說,很難建立相關的場景并使培訓系統與培訓需求保持同步。近年來,機器學習作為一種為合成智能體建立高級決策模型的方法,已顯示出良好的前景。這類智能體已經能夠在撲克、圍棋和星際爭霸等復雜游戲中擊敗人類冠軍。我們有理由相信,軍事模擬領域也有可能取得類似的成就。然而,為了有效地應用這些技術,必須獲得正確的工具,并了解算法的能力和局限性。
本文討論了深度強化學習的高效應用,這是一種機器學習技術,可讓合成智能體學習如何通過與環境互動來實現目標。我們首先概述了現有的深度強化學習開源框架,以及最新算法的參考實現庫。然后,我們舉例說明如何利用這些資源為旨在支持戰斗機飛行員培訓的計算機生成兵力軟件構建強化學習環境。最后,基于我們在所介紹環境中進行的探索性實驗,我們討論了在空戰訓練系統領域應用強化學習技術的機遇和挑戰,目的是為計算機生成的兵力有效構建高質量的行為模型。
在實驗中,將強化學習環境構建為實現 OpenAI Gym 接口的 Python 模塊,因為許多現有的強化學習算法實現都支持該接口。環境的結構如圖 2 所示。環境的大部分功能都在 EnvironmentCore 類中實現。該類通過 SimulationInterface 與本地或遠程計算機上運行的仿真進程通信,在仿真中的實體和控制它們的強化學習智能體之間傳輸觀察結果和操作。SimulationInterface 還用于在計算機生成兵力軟件中加載模擬場景。
模擬與環境模塊之間的通信是通過 ZeroMQ 實現的,ZeroMQ 是一個開源、輕量級的消息傳遞中間件,可綁定多種編程語言,包括 C++ 和 Python。ZeroMQ 可以輕松實現幾種流行的消息傳遞模式,如請求-回復、發布-訂閱和推-拉。ZeroMQ使用谷歌協議緩沖區(Google protocol buffers)來指定消息,這是一種語言中立、平臺中立的結構化數據序列化機制。使用簡單的協議語言創建消息規范,然后將其編譯成各種編程語言(包括 C++ 和 Python)的源代碼。
要配置特定的環境,需要使用一些委托對象:
在空戰模擬領域的深度強化學習實驗中,我們發現了一些挑戰,這些挑戰通常不存在于許多強化學習的簡單基準環境中。狀態和行動空間的維度高且復雜,使得智能體難以學習重要的狀態特征和合適的決策策略。例如,在許多場景中,由于傳感器的限制或電子戰的影響,環境只能被部分觀測到。此外,在大多數場景中,智能體不會單獨行動,而是必須與盟友合作,同時與敵人競爭,以達到目標。為了處理長期和短期目標,可能需要在不同的時間尺度上進行決策。代表最重要目標的獎勵通常是延遲的、稀疏的,例如,如果智能體取得了勝利,就會在情景結束時給予獎勵,這樣就很難將功勞歸于正確的行動。此外,根據訓練需要,智能體的目標也有可能在不同的模擬運行中有所不同。例如,我們可能需要調整模擬的難度,以適應受訓者的熟練程度。最后,由于運行高保真模擬的計算成本很高,因此盡可能提高學習過程的樣本效率非常重要。在下面的章節中,我們將討論一些可以用來應對這些挑戰的技術。
本文提出了一種名為 "自適應蜂群智能體"(ASI)的新范例,在這種范例中,異構設備(或 "智能體")參與協作 "蜂群 "計算,以實現穩健的自適應實時操作。自適應群集智能是受自然界某些系統的協作和分散行為啟發而產生的一種范式,可應用于物聯網、移動計算和分布式系統等領域的各種場景。例如,網絡安全、聯網/自動駕駛汽車和其他類型的無人駕駛車輛,如 "智能 "無人機群。這絕不是一份詳盡無遺的清單,但卻說明了可以從這一范例中獲益的眾多不同領域。本文介紹了在未來聯網/自動駕駛車輛中進行合作傳感器融合的具體人工智能案例研究,該案例構成了由 IBM 主導的 DARPA DSSoC 計劃下的 "認知異構系統的高效可編程性"(EPOCHS)項目的驅動應用。鑒于 EPOCHS 的規模,我們將重點關注項目的一個具體部分:用于多車輛傳感器融合的 EPOCHS 參考應用 (ERA)。我們展示了 x86 系統上的特性分析結果,從而得出了有關 ERA 性能特征和實時需求的初步結論。本文簡要介紹了 EPOCHS 的路線圖和未來工作。
圖 4:作為 DARPA 贊助的 EPOCHS 項目的一部分,互聯/自動駕駛車輛中基于蜂群的傳感器融合。
近來,物聯網(IoT)技術為農業、工業和醫學等許多學科提供了后勤服務。因此,它已成為最重要的科研領域之一。將物聯網應用于軍事領域有許多挑戰,如容錯和 QoS。本文將物聯網技術應用于軍事領域,創建軍事物聯網(IoMT)系統。本文提出了上述 IoMT 系統的架構。該架構由四個主要層組成: 通信層、信息層、應用層和決策支持層。這些層為 IoMT 物聯網提供了容錯覆蓋通信系統。此外,它還采用了過濾、壓縮、抽象和數據優先級隊列系統等數據縮減方法,以保證傳輸數據的 QoS。此外,它還采用了決策支持技術和物聯網應用統一思想。最后,為了評估 IoMT 系統,使用網絡仿真軟件包 NS3 構建了一個密集的仿真環境。仿真結果證明,所提出的 IoMT 系統在性能指標、丟包率、端到端延遲、吞吐量、能耗比和數據減少率等方面均優于傳統的軍事系統。
IoMT 系統由一組在戰場上應組織良好的軍事設備組成。無人機、作戰基地、艦艇、坦克、士兵和飛機等這些物品應在一個有凝聚力的網絡中進行通信。在 IoMT 網絡中,態勢感知、響應時間和風險評估都會得到提高。此外,IoMT 環境應涉及對普適計算、普適管理、普適傳感和普適通信的全面認識。此外,IoMT 可能會導致傳感器等網絡事物產生超大規模的數據。此外,這類網絡所需的計算量非常大,而這些計算的結果應能實時準確地實現。因此,IoMT 系統架構應考慮上述注意事項。
因此,建議的體系結構由四層組成: 通信層、信息層、應用層和決策支持層(見圖 1)。通信層關注的是事物如何在一個大網絡中相互通信。信息層涉及軍事數據的收集、管理和分析。應用層包括控制不同通信軍事系統的應用程序。最后,決策支持層負責決策支持系統,幫助戰爭管理者做出準確、實時的決策。下文將對每一層進行深入討論。
IoMT 系統可視為物聯網的一個特殊例子。因此,IoMT 環境與物聯網環境有些相似,只是在事物類型、通信方式等方面略有不同。根據這一理念,IoMT 環境可定義為一組使用互聯網相互通信的不同網絡。這些網絡應包括軍事任務中的主動和被動事物。IoMT 系統中應構建的主要網絡包括無線傳感器(WSN)、射頻識別(RFID)、移動特設(MANET)、衛星和高空平臺(HAP)網絡。由于 WSN 在許多軍事問題中的重要性,它被納入了 IoMT 系統。WSN 通過快速收集和提供危險數據來協助戰爭行動。然后,將這些數據發送給最合適的人員,以便實時做出正確決策。因此,除了協調自身的軍事活動外,WSN 的主要目標是監測和跟蹤敵方士兵和其他敵方事物的動向。傳感器可以遠距離分布,覆蓋大片區域。這些傳感器通過控制其行為的基站進行通信。由于 RFID 網絡在軍事領域的重要性,它在 IoMT 環境中得到了體現。軍隊中最重要的問題之一就是大部分物品都要貼上標簽。在戰場上使用 RFID 可以為士兵、貨物、小型武器、飛機、射彈、導彈等提供一個具有監控功能的跟蹤系統。例如,定期掃描每個人的醫療情況和效率是戰爭中一個非常重要的問題。城域網在 IoMT 系統中的表現也是一個重要問題,因為它可以用來促進士兵、武器、車輛等的通信。城域網在軍事上有許多特別的應用,如安裝在飛機和地面站之間的網絡或船舶之間的網絡。每種特設網絡的要求都取決于軍事任務的類型。此外,在軍事應用中使用的特設設備都配備了路由場景,可以利用最佳路由路徑自動轉發數據。物聯網依賴互聯網技術來促進通信,這是一個普遍的邏輯。遺憾的是,某些作戰地點可能沒有互聯網技術。因此,尋找替代通信技術非常重要。這就是在覆蓋目標中使用 HAP 網絡的原因。軍用物資分布面積大,因此必須以可靠的方式進行覆蓋,以保證通信效率。HAP 網絡可作為互聯網之外的第二種通信策略選擇。HAP 網絡的高度有限,因此容易成為敵方的攻擊目標,其故障概率可能很高。如果 HAP 網絡出現故障,通信系統將面臨很大問題,可能會影響軍事任務的執行。因此,應構建一個衛星網絡來覆蓋故障的 HAP 網絡,并覆蓋 HAP 網絡或互聯網可能無法覆蓋的軍事事物(見圖 2)。不同網絡之間的通信難題只需使用報頭恢復技術即可解決。在這種技術中,每個網絡之間都應添加一個翻譯器,用目的節點的報頭封裝每個數據包。新的報頭使數據包可以被理解;這可以通過系統路由器來實現(見圖 3)。
圖2: 通信網絡(該圖部分摘自[23])
圖3: 報頭轉換過程
這一層非常重要,因為它代表著 IoMT 系統架構的核心。射頻識別(RFID)、傳感器等軍用設備收集的信息應以安全、珍貴、實時的方式進行傳輸、存儲和分析。這一層的首要功能是在信息處理后對收集到的信息進行組織和存儲。IoMT 系統數據的處理被認為是一個具有挑戰性的問題,因為在短時間內可以收集到 TB 級的數據。因此,應在不影響質量的前提下盡量減少這些數據。此外,IoMT 的特殊要求(如實時決策)也不容忽視。在 IoMT 系統架構中,數據處理包括四個步驟: 優先化、過濾、壓縮和抽象。下面將對優先級排序過程進行說明。數據過濾、數據壓縮和數據抽象技術在第 4.1 小節中說明。
確定優先級的步驟包括處理不同優先級的數據。對于戰爭管理者(即軍隊將領)來說,收集到的每項數據都有一定的重要程度。因此,應將數據分為若干優先級,以便在 IoMT 系統饑餓的情況下優先處理和發送高優先級的數據。隊列系統就是用來實現這一優先級劃分步驟的。由于 IoMT 系統數據分類數量龐大,因此采用了六隊列系統。因此,IoMT 系統數據將被分為六個不同的類別。第一類代表最重要的 IoMT 系統數據;第二類代表不太重要的數據,依此類推。分類過程將動態完成,因此每個類別中的數據可能會根據戰爭任務的性質發生變化。為切實實現這一步,下一代路由器應具備對 IoMT 系統數據進行分類的能力。圖 4 說明了優先級排序過程。
圖4: 數據分類過程的簡單視圖
IoMT 系統架構中的應用層包括管理、監視等戰爭任務中使用的異構應用。該層應使用一個通用應用程序管理這些應用程序的功能,同時不影響其效率。這些應用程序的統一過程應基于通信數據(信息交換)來實現。在數據通信中,一個應用系統的輸出數據可能是另一個應用系統的輸入數據。因此,確定戰爭應用程序的輸入數據和輸出數據被認為是這一層最重要的目標之一。例如,飛機或發射器的火箭發射應用的輸入需要衛星監控應用的輸出數據,而衛星監控應用可能需要 WSN 應用的數據。信息層和應用層之間的通信非常重要,因為作為輸入和輸出的數據應首先在信息層處理。因此,在設計用于管理軍事應用程序的通用應用程序時,應首先確定每個應用程序的輸入和輸出數據。然后,應確定數據處理的時間(硬、實或軟)。例如,在戰斗停止期間,某個目標的坐標突然發生變化,三個應用程序應實時交互,以完成任務并擊中新位置上的目標。這些相互作用的應用程序構成了 WSN、戰爭管理以及執行任務的飛機機艙。還應確定應用特殊應用程序的優先順序。例如,在敵方多次攻擊特定目標的情況下,防御應用程序將優先啟動。
根據上述討論,一般管理應用程序應有一個專門的數據庫。該數據庫存儲有關單個軍事應用程序的動態變化數據。這些數據與以下主題有關: 輸入和輸出、單個應用程序之間的數據流方向、硬時間軍事情況、實時軍事情況、軟時間軍事情況以及每個應用程序的優先級。這些優先級應根據戰爭形勢來確定。根據綜合管理 IoMT 應用程序的性質,IoMT 系統數據庫的設計可以是分布式的,也可以是集中式的。在分布式數據庫中,應注意數據庫服務器之間交互的復雜性,特別是在需要硬時間或實時交互的事件中(見圖 6)。 、
戰爭中最重要的問題之一是決策過程。在技術戰爭中,決策應具備準確性、實時性、清晰性、安全性和快速分發等諸多規格。所有這些指標都應與信息層收集的數據相關。雖然信息與軍事決策之間關系密切,但所提出的 IoMT 系統架構在信息層和決策支持層之間還有一個中間層,即應用層。短時間內收集到的大量 TB 信息需要進行分析、過濾、優先排序和壓縮。這些過程已經在信息層中完成。但是,信息層沒有能力確定信息在應用層之間的移動方向(即信息的正常順序)。這種信息順序意味著,每個數據段都應指向一個合適的應用程序,以便實現互補和平衡。這些信息將用于決策過程。例如,假設戰爭管理者有一個目標,要求以特定的安排和特定的順序處理信息,直到軍事偵察之旅取得一定的結果。該目標的完成將通過步兵和防空來實現。因此,應用層和決策支持層之間的聯系將對高精度規格的決策產生良好的影響,這將在關鍵的戰爭事件中發揮作用。
簡單地說,本文概述的決策支持流程包括五個步驟: 事件權重、解決方案識別、選擇一種解決方案、行動和輸出評估(見圖 7)。戰爭管理者可根據自身經驗水平提取事件權重。一旦對事件有了充分了解,就該確定解決方案了。在準備決策時,有許多不同的備選方案。因此,確定可用行動的范圍非常重要。接下來,應選擇備選方案,并確定每個備選方案的風險。然后,就該采取行動了。應確定實施計劃,并提供實施所選解決方案所需的資源。應預先確定執行時間,然后開始執行。最后,應對選定解決方案的執行結果進行評估。請注意,有許多決策支持系統在經過實際測試(如 [24,25])后,可在 IoMT 中實施。
決策支持層可能面臨三大挑戰。第一個挑戰是數據過多或不足。這意味著決策支持層的輸出會延遲或不準確,這可能會造成災難,因為在大多數戰爭時期都需要實時決策。第二個挑戰是問題識別錯誤。在大多數戰爭任務中,圍繞一項決策會有許多問題。然而,有時卻無法確認這些問題的真實性。第三個挑戰是對結果過于自信。即使決策過程得到了準確執行,實際產出也可能與預期產出不完全一致。應用層將通過確定決策構建所需的準確信息、對問題的準確定義以及輸出調整來應對這些挑戰。因此,決策支持層將使用應用層的輸出。因此,在擬議的 IoMT 架構中,這些層之間的分離是一個需要考慮的重要問題。
首先,應構建一個軍事模擬環境,以測試所提議的 IoMT 架構的性能。網絡模擬器 3(NS3)是最廣泛使用的網絡模擬軟件包之一,將用于實現這一目標。軍事模擬環境由五種不同類型的網絡組成,其中包括分布在大片區域的大量節點。這五種網絡分別是 WSN、RFID、MANET、HAP 和衛星網絡。這些網絡是根據戰場需求確定的。文獻[26]中的仿真用于評估所提出的 IoMT 架構。在 WSN 仿真中,成千上萬的傳感器分布并部署在戰爭環境中。一個或多個基站將這些傳感器相互連接起來,并從中收集信息。在突發事件中,傳感器能夠向基站發送陷阱信息。然后,如果情況緊急,需要迅速做出決定,基站將直接把信息發送給執行者,如戰士、管理人員等。不過,在正常情況下,基站會將收集到的信息(詳細信息或摘要)重新發送給負責決策的管理人員。基站應該是智能的,并通過編程來實現這一目標。為了在 IoMT 中準確呈現 WSN,傳感器應具有不同的傳輸范圍。對于 RFID,美國軍方在第二次海灣戰爭中使用了最佳方案[27]。每個士兵身上都應貼有一個 RFID 標簽,以便在戰場上進行追蹤。此外,商業貨運和航空托盤等戰爭工具也應貼上 RFID 標簽,以便了解坦克和計劃等關鍵工具的最新狀態。此外,為了挽救士兵的生命,建議的模擬系統考慮了專門用于戰爭的移動醫院,并應配備 RFID 技術。此外,還利用 RFID 技術觀察軍隊的小型庫存物品,以實現更嚴格的庫存控制。對于城域網仿真,它包含戰場對象(如車輛、士兵和信息提供者)之間的臨時通信。在某些軍事情況下,很難通過數據采集中心傳遞或發送信息。因此,城域網仿真的一個考慮因素就是在數據傳輸中使用這種網絡。文獻[28]中所述的架構用于 HAP 和衛星網絡的通信。互聯網仿真使用了 [29] 中介紹的路由算法和 [30] 中介紹的物聯網混合組播架構。多媒體傳輸使用[31],但傳統軍事系統的模擬則使用[32,33]中所述的準則。
在信息層模擬中,將隨機、動態地創建 IoMT 數據。然后,這些數據將被分類并進入隊列,每個隊列將作為一個數據類別。動態數據的創建取決于存儲在特殊數據庫中的戰爭任務。本模擬場景中使用了 [34] 中所述的壓縮技術和數據過濾技術來減少數據,這是信息層的主要目標之一。應用層模擬也取決于戰爭任務,其中包括許多模擬網絡場景。每個網絡應用程序的輸入和輸出數據都在模擬文件中預先確定。網絡應用程序與綜合管理應用程序之間的通信是通過信息傳輸實現的。文獻[35]中的仿真用于決策支持層。戰爭任務的部分建模和仿真來自文獻[36],仿真中使用的武器的一般規格來自文獻[37]。圖 8 顯示了擬議的 IoMT 系統模擬環境的全貌。