本文介紹了在定制的 Pygame 仿真環境中開發的基于人工智能(AI)的戰斗機智能體,旨在通過深度強化學習(DRL)解決多目標任務。噴氣式戰斗機的主要目標包括高效地在環境中導航、到達目標以及選擇性地與敵人交戰或躲避敵人。獎勵函數平衡了這些目標,而優化的超參數則提高了學習效率。結果顯示,任務完成率超過 80%,證明了決策的有效性。為了提高透明度,通過比較實際選擇的行動(事實行動)和替代行動(反事實行動)的獎勵,對噴氣機的行動選擇進行了分析,從而深入了解了決策原理。這項研究說明了 DRL 在利用可解釋的人工智能解決多目標問題方面的潛力。
在定制模擬環境中開發了一個可解釋的深度強化學習智能體,以透明決策的方式解決復雜的多目標任務。
圖 1(左)表示智能體最初階段的表現(綠色三角形:智能體,紅色三角形:敵人,藍色圓圈:目標),圖 2(中)表示智能體學習 640 次后的表現,圖 3(右)表示智能體完全了解環境后的表現
復雜的獎勵功能設計: 開發了一種全面的獎勵功能,可平衡多種相互競爭的目標,如效率和資源管理。該功能整合了推動有效學習的各種因素,鼓勵智能體優化任務完成和可用資源的使用。
在定制模擬環境中實施 DRL 智能體: 在一個定制的 Pygame 模擬環境中構建并訓練了一個基于 DRL 的智能體,以解決一個具有多重目標的復雜問題--導航環境、擊中指定目標以及適當地避開或與敵人交戰。該智能體在超過 80% 的試驗中成功完成了任務,展示了在各種場景下的強大決策能力。
全面的學習曲線分析: 對智能體的學習軌跡進行了詳細分析,展示了從最初的表現不佳到任務完成效率提高的過程。該分析突出了智能體如何隨著時間的推移完善其策略,有助于加深對 DRL 學習過程的理解。
推進多目標問題的可解釋人工智能: 該項目證明 DRL 能夠有效解決復雜的多目標問題。從獎勵函數和決策分析中獲得的見解有助于更廣泛地理解和改進人工智能驅動過程中的可解釋性。
通過事實和反事實分析實現可解釋性: 通過研究事實和反事實行動與獎勵,該項目提高了智能體決策過程的透明度。這種分析提供了重要的洞察力,讓用戶了解為什么會選擇某些行動而不是其他行動,從而理解特定決策背后的原因,尤其是在需要快速反應的復雜場景中。
多無人機空戰是一項涉及多個自主無人機的復雜任務,是航空航天和人工智能領域不斷發展的一個領域。本文旨在通過協作策略提高對抗性能。以往的方法主要是將行動空間離散為預定義的行動,從而限制了無人機的機動性和復雜的策略實施。還有一些方法將問題簡化為 1V1 戰斗,忽略了多個無人機之間的合作動態。為了應對六自由度空間固有的高維挑戰并改善合作,我們提出了一個分層框架,利用領導者-追隨者多智能體近端策略優化(LFMAPPO)策略。具體來說,該框架分為三個層次。頂層對環境進行宏觀評估,并指導執行策略。中間層確定所需行動的角度。底層為高維行動空間生成精確的行動指令。此外,通過領導者-追隨者策略分配不同角色來優化狀態值函數,以訓練頂層策略,追隨者估計領導者的效用,促進智能體之間的有效合作。此外,結合無人機態勢的目標選擇器可評估目標的威脅程度。最后,模擬實驗驗證了提出的方法的有效性。
這項研究探索了人類數字孿生(HDT)概念的應用,通過預測和評估飛行員的表現來提高航空安全。HDT 利用生理測量數據和個人特征對飛行員行為進行動態呈現。這里使用的人工智能(AI)框架包括兩個子系統:預測性能的預測 AI 和評估安全系數的策略 AI。預測人工智能使用時態融合變換器(TFT)來生成準確的預測結果,而策略人工智能則使用分層高斯過程(GP)來評估飛行安全。新數據被不斷用于完善數字人工智能系統,提高模型的準確性,減少誤差范圍的估計。數字人工智能系統的洞察力還可用于培訓飛行員,找出影響飛行性能的關鍵因素,從而有助于改進決策和航空安全。通過提供數據驅動的見解,這項研究可以解決管理飛行安全和確保任務成功方面的關鍵軍事挑戰。
數據是在美國陸軍飛行員在 UH-60 模擬器中完成三個不同的飛行任務時收集的,每個任務持續約 10 分鐘,總共約 30 分鐘的飛行時間。在每次任務期間,都會連續記錄飛行性能數據和生理數據。這些數據包括腦電圖(EEG)和心電圖(ECG),它們代表了人體系統的生理、感知和認知屬性。年齡、飛行經驗和情緒狀態等個體特征會影響決策和反應時間,從而對飛行員的表現產生重大影響(例如,O'Hare & Wiggins, 2011, [3])。因此,還收集了人口統計學信息和長期精神狀態(如抑郁),以捕捉這些個體特征。因此,數據的組合提供了人類系統更全面的信息,使模型能夠預測動態飛行性能,作為人類系統行為結果的指標。在本研究中,動態性能被定義為飛機相對于地面的高度。這一選擇基于對高度分布的觀察,即飛行員通常會避開較低的高度,而選擇更安全、更高的高度。這種一致性強調了高度是衡量不同場景和不同個體飛行性能的可靠指標。
人工智能系統旨在預測和評估人類飛行員的動態飛行性能。通過早期識別潛在的安全風險,數字系統可提供及時的信息,供自動化系統使用,以提高飛行員的安全性,防止不安全狀況升級。為實現這些目標,建議的框架包括兩個子人工智能系統:預測動態飛行性能的預測人工智能和建立和評估可接受安全系數的政策人工智能。這種雙系統方法使數字系統不僅能準確預測動態飛行性能,還能有效評估其安全性。通過這樣做,它可以確保預測有用,并支持飛行員適應不斷變化的飛行條件。之所以需要兩個不同的系統,是因為對動態飛行性能的預測和評估有著根本不同的要求。準確的預報需要詳細考慮生理和神經生理措施以及個體差異,如飛行員的飛行經驗或長期精神狀態(如抑郁),以確保準確的預報。相反,評估安全系數則需要更廣泛的方法。政策人工智能從單次飛行中提取飛行員共有的一般原則,使系統能夠有效地將這些概括性見解應用于新情況,并確保在各種情況下進行穩健的安全評估。預測的特殊性和安全評估的通用性之間的這種平衡,強調了在數字空間中采用兩種互補的人工智能系統的合理性。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
多維數據挖掘(MDDF)利用機器學習(ML)技術實現數據挖掘自動化,從而在高度復雜的多規模、多領域和多層次混合戰爭行動中更快更好地做出決策。這在支持行動規劃時具有重要作用,可在執行任何行動之前快速制定和評估多個行動方案(CoA)。與現有技術相比,使用 MDDF 使決策者能夠更快地探索問題空間并確定多個最佳解決方案。
北約科技組織在沙箱環境中將 MDDF 應用于一個示例性的戰略戰役和戰術混合作戰行動資源分配問題,考慮了局部最優解和全局最優解之間的平衡。我們在聯軍戰士互操作性演習(CWIX)中測試了在聯合任務網絡作戰環境中實施 MDDF 的技術可行性。
通過 MDDF,旨在證明有可能將探索多尺度行動(多域作戰和目標保真度建模)的 ML 技術結合起來,并通過在戰術層面選擇正確的資源分配方案來優化戰略/行動層面的目標。本文介紹了一種基于 ML 的助手,它能夠自動執行 MDDF 實驗和優化任務,在 2024 年的 CWIX 期間對其進行了詳細檢查。
圖 1:數據挖掘決策過程分為四個主要步驟,由兩個迭代循環相互連接: 實驗定義循環和多運行執行循環。MDDF 允許對后者進行自動化和優化。
本研究論文介紹了軍用無人機系統盒(The NeuronDrone-Box)中用于攻擊或防御決策的全自主人工智能:硬件、算法和一種新型專用軍用無人機或無人機。第一部分介紹了軍用無人機系統盒(The NeuronDrone-Box)中的攻擊或防御決策全自主人工智能,以適應任何無人機的主控系統。第二部分是使用混沌理論和經濟地理學的算法。第三部分介紹了被稱為 "黑色噩夢 V.7" 的開創性原型機。黑色噩夢 V.7 無人機投彈手擁有一系列與眾不同的功能和應用,本技術報告將對此進行詳細介紹。首先,主張在軍用無人機系統箱(The NeuronDrone-Box)中實施全自主人工智能攻防決策,以控制與全自主人工智能攻防決策軍用無人機系統箱(The NeuronDrone-Box)相連的多副翼系統(MAS)和多導彈系統(MM-System)。
這項工作研究了在任務式指揮設備中嵌入模擬器的實用性和有效性。其目標是僅使用戰區作戰計劃作為模擬輸入,向操作員隱藏所有模擬器細節,使其無需學習新工具。本文討論了一種原型功能,該功能可根據 SitaWare 中生成的作戰計劃以及嵌入式無頭 MTWS 和 OneSAF 模擬器的模擬結果,生成行動方案(COA)分析。在輸入作戰計劃后,指揮官選擇要執行的模擬運行次數,并按下按鈕啟動模擬,模擬在后臺的運行速度比實時運行更快。模擬運行完成后,指揮官可通過圖形和圖表查看結果,對多次運行進行比較。預計未來的能力將允許指揮官模擬任何梯隊和命令,用于訓練和兵棋推演。
事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
本研究提出了一個基于 MOOS-IvP 中間件的自主水下航行器控制算法構建框架。側掃聲納傳感器(SSS)通常用于生成聲納圖像,在圖像中可以識別類似地雷的物體。這里實施的基站社區可維護 SSS 的覆蓋置信度地圖,并為用戶提供二維和三維模擬以及實施高級控制方案的能力。開發可分三個階段進行: 1) 最簡配置,僅使用必要的應用程序來開發和測試外環控制;2) 包含模擬硬件的配置;3) 包含實際硬件的配置,該配置應從第 2 階段平滑、輕松地擴展而來。這樣做的好處是使用方便、開發速度更快、減少硬件測試和成本。
圖 1. 自動潛航器路徑及其側視聲納覆蓋的相應區域示例。
在擬議的 MAS 框架中,每個 AUV 和基站分別有一個獨立的社區。每個群落上都運行著幾個應用程序,其中一些包含在 MOOS-IvP 發行版中,另一些則由作者自行開發。
在擬議框架中,有三種可能的配置:1) 加速開發高級控制和規劃策略的簡約配置;2) 在最底層用變量替代實際傳感器和執行器數據的模擬配置[12];3) 實際硬件實施。
圖 6. 配置 1:2 個自動潛航器群落和 1 個基站群落,應用極少。
圖 8. 配置 2:硬件模擬包括所有傳感器和致動器應用。
這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。