多無人機空戰是一項涉及多個自主無人機的復雜任務,是航空航天和人工智能領域不斷發展的一個領域。本文旨在通過協作策略提高對抗性能。以往的方法主要是將行動空間離散為預定義的行動,從而限制了無人機的機動性和復雜的策略實施。還有一些方法將問題簡化為 1V1 戰斗,忽略了多個無人機之間的合作動態。為了應對六自由度空間固有的高維挑戰并改善合作,我們提出了一個分層框架,利用領導者-追隨者多智能體近端策略優化(LFMAPPO)策略。具體來說,該框架分為三個層次。頂層對環境進行宏觀評估,并指導執行策略。中間層確定所需行動的角度。底層為高維行動空間生成精確的行動指令。此外,通過領導者-追隨者策略分配不同角色來優化狀態值函數,以訓練頂層策略,追隨者估計領導者的效用,促進智能體之間的有效合作。此外,結合無人機態勢的目標選擇器可評估目標的威脅程度。最后,模擬實驗驗證了提出的方法的有效性。
低分辨率遙感影像中的精確航空器識別是航空領域尤其是戰斗識別中一項極具挑戰性的關鍵任務。本研究提出一種創新、可擴展且基于人工智能的解決方案,旨在解決已知機型與新型/未知機型協同精準識別這一核心難題。傳統方法(人類專家主導的作戰識別與圖像分類)在新型類別識別方面存在顯著局限。本方法通過相似性學習技術,實現對廣泛軍用與民用航空器特征的深度解析,結合度量學習實現機型身份辨識,并利用監督式小樣本學習完成機型分類。針對低分辨率遙感數據稀缺的挑戰,本研究設計了一種端到端框架:通過全監督方式訓練通用嵌入模型,自適應軍事航空器識別的多樣性與復雜性需求。與既有航空器圖像分類方法相比,本研究方案在機型分類(F1分數達0.861)與新型類別二分識別(F1分數達0.936)方面均展現顯著優勢。該方法有效應對遙感數據固有挑戰,為數據集質量設定了新標桿。該研究為領域專家開辟了新路徑,展現了區分多類型航空器的獨特能力,為實時航空器識別提供了更魯棒、領域自適應的技術潛力。
圖 1. 從左到右的流程圖顯示:a) 傳統的 CID,b) 圖像分類和 c) 智能已知和新飛機識別(INNAR),以找到已知和新類別
本文在飛機識別和戰斗識別方面做出了以下重大貢獻:
引入了一種新方法來自動實現 CID。
引入了一個新的、更好的數據集版本--MTARSI-INNAR,在識別 MTARSI 數據集中的錯誤并執行有領域專家參與的嚴格數據清理過程后,推進了自動 CID 開發和評估。
提出的 INNAR 是一種創新方法,可高精度區分已知(友)類和新(敵)類,以增強 CID 的適應性。它利用最先進的卷積網絡和相似性學習,通過圖像三元組構建穩健且可通用的特征表示。
驗證了圖像分類在原始高噪聲 MTARSI 數據集上做出了非常高準確率的虛假承諾,并提出將飛機識別和戰斗識別轉移到相似性和少數鏡頭學習上。
本文介紹了在定制的 Pygame 仿真環境中開發的基于人工智能(AI)的戰斗機智能體,旨在通過深度強化學習(DRL)解決多目標任務。噴氣式戰斗機的主要目標包括高效地在環境中導航、到達目標以及選擇性地與敵人交戰或躲避敵人。獎勵函數平衡了這些目標,而優化的超參數則提高了學習效率。結果顯示,任務完成率超過 80%,證明了決策的有效性。為了提高透明度,通過比較實際選擇的行動(事實行動)和替代行動(反事實行動)的獎勵,對噴氣機的行動選擇進行了分析,從而深入了解了決策原理。這項研究說明了 DRL 在利用可解釋的人工智能解決多目標問題方面的潛力。
在定制模擬環境中開發了一個可解釋的深度強化學習智能體,以透明決策的方式解決復雜的多目標任務。
圖 1(左)表示智能體最初階段的表現(綠色三角形:智能體,紅色三角形:敵人,藍色圓圈:目標),圖 2(中)表示智能體學習 640 次后的表現,圖 3(右)表示智能體完全了解環境后的表現
復雜的獎勵功能設計: 開發了一種全面的獎勵功能,可平衡多種相互競爭的目標,如效率和資源管理。該功能整合了推動有效學習的各種因素,鼓勵智能體優化任務完成和可用資源的使用。
在定制模擬環境中實施 DRL 智能體: 在一個定制的 Pygame 模擬環境中構建并訓練了一個基于 DRL 的智能體,以解決一個具有多重目標的復雜問題--導航環境、擊中指定目標以及適當地避開或與敵人交戰。該智能體在超過 80% 的試驗中成功完成了任務,展示了在各種場景下的強大決策能力。
全面的學習曲線分析: 對智能體的學習軌跡進行了詳細分析,展示了從最初的表現不佳到任務完成效率提高的過程。該分析突出了智能體如何隨著時間的推移完善其策略,有助于加深對 DRL 學習過程的理解。
推進多目標問題的可解釋人工智能: 該項目證明 DRL 能夠有效解決復雜的多目標問題。從獎勵函數和決策分析中獲得的見解有助于更廣泛地理解和改進人工智能驅動過程中的可解釋性。
通過事實和反事實分析實現可解釋性: 通過研究事實和反事實行動與獎勵,該項目提高了智能體決策過程的透明度。這種分析提供了重要的洞察力,讓用戶了解為什么會選擇某些行動而不是其他行動,從而理解特定決策背后的原因,尤其是在需要快速反應的復雜場景中。
合成數據生成已成為人工智能應用中應對數據稀缺、隱私問題和資源優化等相關挑戰的重要方法。本文探討了合成數據生成方法的最新進展,重點關注生成學習、遷移學習和建模技術。生成學習使用機器學習模型來復制現實世界數據中的統計模式。同時,遷移學習允許在相關任務中進行知識遷移,從而減少數據稀缺帶來的影響。建模技術,如基于統計和機器學習的方法,可創建與真實數據分布密切相關的合成數據。本文探討了各種方法和案例研究及其在不同應用領域的意義,重點是軍事領域。此外,基準分析表明了生成對抗網絡和變異自動編碼器在合成數據生成任務中的有效性。考慮到遷移學習策略的優缺點和應用領域,對遷移學習策略進行了評估。評估了生成合成場景的建模技術。論文最后討論了合成數據生成對加強軍事領域決策支持的重要性。
人工智能是當今世界最重要的話題之一。人工智能(AI)是指開發能夠執行通常需要人類智能才能完成的任務的計算機系統。這些任務包括理解自然語言、識別模式、從經驗中學習和做出決策。有了人工智能,機器可以分析大量數據、識別趨勢并做出預測,從而改進決策、提高生產率并增強用戶體驗。開發人工智能成本高昂,而且需要專業技術知識,因此導致技術熟練的專業人員短缺。人工智能系統還可能延續訓練數據中存在的偏見,從而限制其公平性。人工智能的關鍵要求之一是真實世界的數據集。盡管與技術進步相關的數據集數量龐大且不斷增長,但主要挑戰之一是數據質量低且稀缺,尤其是在軍事領域。要應對這一挑戰,需要解決兩個重要問題:儉約型人工智能和合成數據。
儉約型人工智能是一種技術,旨在利用較少的數據和計算資源實現人工智能模型的魯棒性。它涉及用有限的資源訓練人工智能系統,重點是輸入節儉和學習節儉。其目標是在使用較少數據和優化學習過程的同時實現預測質量。在某些領域,如軍事領域,出于安全原因,可能無法隨時獲得完整的數據庫。在這種情況下,節儉的人工智能就變得至關重要。為了克服缺乏數據的問題,研究人員和工程師們正在探索不同的方法。其中一種方法是所謂的 “遷移學習”,即使用已經從足夠數據集中學習過的現有人工智能系統。另一種技術是數據生成,即利用虛擬環境生成與真實環境條件非常相似的數據。數據增強是另一種方法,涉及通過對現有數據進行轉換或修改來生成新數據。將數據生成和數據擴增結合起來,可以獲得更全面、更多樣的數據集。
數據具有重要價值,但質量至關重要。隨著企業和研究人員對數據的依賴程度越來越高,對高質量數據和隱私的需求也變得越來越重要。由人工生成的信息組成的合成數據正在成為應對這些挑戰的強大解決方案。合成數據通常比真實數據質量更高。此外,還應實施隱私保護措施,防止關鍵信息泄露。在軍事領域,由于行動的動態性和高風險,數據收集具有挑戰性。然而,由于所涉及數據的敏感性,隱私問題在軍事領域非常普遍。合成數據生成被證明是一種有價值的創新解決方案。雖然合成數據是一個令人信服的概念,但其生成卻要求精確。它必須是可信的,并符合原始數據的基本分布。因此,負責生成合成數據的算法必須表現出魯棒性,并有效捕捉真實數據中固有的模式。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
蜂群無人機有可能徹底改變和重新定義戰爭的本質,其主要用途在于壓倒敵人的防御和實施精確空襲。本文認為,利用 “灰狼”(Canis Lupus Grey Wolf)智能是協調無人機群行動的有力策略。在本文中,每架無人機都代表了狼的角色;首領無人機代表了蜂群的領導者,它領導狼群并負責做出關鍵決策。Beta 無人機與 alpha 無人機合作,共同制定決策并確保集體保護。德爾塔無人機的任務是保護敵方領土和保護群體免受潛在威脅,而處于最低等級的歐米茄無人機則盡職盡責地聽從同伴的領導。仿真結果表明,與 “粒子群優化(PSO)”方案相比,基于 GWO 的擬議攻擊模型方法性能更好。
基于 GWO 的認知蜂群無人機攻擊模型的目標如下: 1)設計并實現一個可擴展、高效的智能蜂群無人機框架,該框架可容納多架無人機協同工作;2)開發一個全面的攻擊模型,包括目標搜索、接近和包圍目標、獵殺和攻擊目標;3)通過測試攻擊模型的整體性能來驗證結果,以確保在沒有人工干預的情況下以最小的收斂延遲進行精確攻擊。
A. 蜂群無人機網絡體系結構
蜂群無人機網絡架構涉及多架無人機與地面控制系統(GCS)的協作與協調,以實現共同目標。無人機配備有傳感器、攝像頭、全球定位系統、機載控制單元和通信設備,可以感知環境、與環境互動并相互通信。這可用于導航、救援、救災和監視等任務。特設(FANET)蜂群架構不依賴任何預先存在的基礎設施。相反,無人機之間直接使用點對點網絡技術進行通信。如圖 1 所示,這種架構通常用于在較短距離內運行的較小蜂群。
通過通信網絡,無人機可以相互交換信息,也可以與 GCS 交換信息。這可以通過射頻(RF)、蜂窩通信等多種技術實現。GCS 是一個中央計算機系統,用于監控無人機群。它可以單獨向無人機群的領導者或集體向所有無人機發出指令,并匯總無人機的遙測數據,以協調它們的活動。
B. 基于 GWO 的無人機群層次結構
GWO 是一種功能強大、用途廣泛的戰略算法,可用于改進無人機群的分類和管理,以用于國防應用中的攻擊模型。GWO 還可用于根據無人機群的行為(攻擊性或非攻擊性)及其辨別意圖對其進行分類。例如,GWO 可用于將蜂群無人機的領導者和追隨者劃分為用于攻擊模型的無人機。這些信息可用于制定戰略,如搜索、追逐、攻擊獵物以及針對潛在反擊的防御措施。圖 2 顯示了基于灰狼的蜂群無人機等級制度,灰狼屬于犬科動物,遵循嚴格的社會支配等級制度。在最高層,蜂群的首領(指揮官)被稱為α無人機。α無人機是強大的無人機(如 Rustom-II、Netra、MQ-9 “死神”),主要負責決定狩獵、群的定位、執行任務的時間等。它們是主導者,因為它們的命令必須得到蜂群中其他無人機的遵守。阿爾法無人機在航程、續航時間和有效載荷能力之間保持著良好的平衡。第二級是 “β ”無人機(如 “拉克希亞”、MQ-1C “灰鷹 ”和 “蒼鷺”)。貝塔無人機是指揮型無人機,幫助首領進行決策和其他群組活動。如果首領無人機在攻擊中被敵人消滅,貝塔無人機可能是首領的最佳人選。貝塔無人機尊重首領的命令,在整個族群中強化首領的命令,并向首領提供反饋。貝塔無人機是中空長航時無人機。
下一級無人機是三角洲'δ'(如 AURA、Ghatak、Wing Loong、Bayraktar TB2),它們在行動中必須向 beta 和 alpha 報告。三角洲無人機是蟲群中的下屬無人機,在蟲群中扮演著多種角色,它們是偵察無人機、哨兵保護者和獵手。這些無人機負責守衛領地的邊界,并在出現任何危險時向族群發出警告。如果需要攻擊目標,德爾塔無人機有能力取代貝塔無人機的位置。德爾塔無人機有能力攻擊和摧毀敵方目標,如狙擊手或車輛。級別最低的是歐米茄 “Ω ”無人機(如獵豹、迦樓羅、烏鴉、瞬眼、黑蜂),它們經驗較少,是年輕人。它們學得很快,順從的天性可以緩解緊張局勢,保持蜂群和諧。歐米茄無人機可能會協助收集資源的活動,如偵察潛在的獵物,不過在它們成熟之前,它們可能不會在實際狩獵中發揮核心作用。它們是族群的下一代,代表著族群的延續。這些無人機能夠捕捉高分辨率圖像并提供實時視頻畫面。在蜂群無人機中部署這種層次結構的主要目標是,通過模擬受灰狼行為啟發的合作攻擊,高效率、高效益地找到優化問題的最佳全局解決方案。
C. 基于 GWO 的蜂群無人機攻擊策略
蜂群無人機的狩獵智能受 GWO 的影響,以團隊合作和協調的群組編隊為基礎,采用伏擊戰術進行追逐,最后發動攻擊。蜂群行為可能會因具體情況、環境因素和獵物類型的不同而變化。所提出的算法主要是將獵物建模為不采用規避機動行為的靜止目標。圖 3 顯示了基于 GWO 的蜂群無人機攻擊目標模型的分層結構。擬議方案的操作順序如下: 搜索、追逐和接近目標;包圍和騷擾目標,直到其停止移動;獵殺和攻擊目標。
D. 計算模型
介紹描述搜索、包圍、狩獵和攻擊目標的計算模型。
無人機已成為現代戰爭中不可或缺的一部分,其向更大自主性的演進是不可避免的。本研究探討了軍用無人機向智能化、最小程度依賴人類方向發展的軌跡,并詳細介紹了必要的技術進步。我們模擬了無人機偵察行動,以確定和分析新出現的挑戰。本研究深入探討了對提高無人機智能至關重要的各種技術,重點是基于物體檢測的強化學習,并提供了實際實施案例來說明這些進步。我們的研究結果證實了增強軍用無人機智能的巨大潛力,為更自主、更有效的作戰解決方案鋪平了道路。
圖 3 智能無人機偵察場景和應用技術。
在最近的沖突中,如俄羅斯入侵烏克蘭和亞美尼亞-阿塞拜疆戰爭,無人機被認為是不可或缺的力量。目前,大多數可用于作戰的無人機都是遙控的。雖然無人機在一定程度上實現了自動化,但由于技術和道德問題,仍需要操作人員。從戰術角度看,無人機的最大優勢是 "低成本 "和 "大規模部署"。然而,這兩個優勢只有在無人機無需操作人員即可控制時,也就是無人機智能化時才能發揮作用。
自主無人機本身并不是一個新概念,因為人們已經進行了廣泛的研究。例如,我們生活在一個無人機用于送貨和搜救任務的時代 [1]、[2]、[3]。然而,民用智能無人機技術能否直接用于軍事目的呢?我們的答案是'不能',因為軍用無人機的操作在以下情況下與民用無人機有明顯區別。首先,軍用環境比民用環境更加復雜。想想特斯拉在未鋪設路面的道路上自動駕駛時,駕駛員必須干預的頻率有多高。軍事行動并不發生在 "鋪設良好的道路上"。此外,軍事行動涉及在任意地點分配任務。其次,伴隨軍事行動而來的是敵人無數次的反擊。這些反作用包括主動和被動拒絕,主動拒絕包括試圖攔截,被動拒絕包括隱藏和欺騙。這些敵方活動增加了問題的復雜性。第三,由于軍事的特殊性和安全性,缺乏與軍事行動相關的數據。例如,缺乏坦克和運輸機發射器(TEL)的鳥瞰數據,而這些都是物體探測的常用目標。第四,軍用智能無人機執行任務時需要考慮安全和道德問題。智能無人機在執行任務時如果缺乏穩定性,就會產生不可預測的行為,導致人員濫傷和任務失敗。從倫理角度考慮,即使無人機的整體操作實現了智能化,也需要有最終攻擊決策由人類做出的概念。換句話說,關鍵的考慮因素不應該是無人機是否能自主做出攻擊決定,而是無人機如何提供信息,協助人類做出攻擊的最終決定。這些倫理問題與人類的責任和機器的作用有關。
鑒于這些軍事方面的考慮,對自主軍用無人機和民用無人機的研究應以不同的理念推進。有關軍用智能無人機的研究正在積極進行中,但與民用研究不同的是,大部分研究都沒有進入公共領域。因此,本研究有以下目標。
首先,考慮到軍事行動的特殊性,本研究探討了智能軍用無人機的概念。
其次,我們對該領域出現的各種問題進行案例研究,從工程師的角度看待這些問題,并討論從案例研究中得出的直覺。
圖 1. 智能無人機在民用領域的工程研究
軍用無人機根據其使用目的分為偵察、攻擊、欺騙、電子戰和作為目標等類別 [38],[39]。在本案例研究中,我們重點關注偵察無人機的智能化。案例研究中的無人機以韓國 "Poongsan "公司的無人機為模型。根據應用模塊的不同,該模型可以執行多種任務。不過,本研究使用的是配備偵察模塊的無人機。模塊包括攝像頭、LRF、GNSS 等傳感器和系統。在規范假設方面,假定無人機能夠配備物體檢測和強化學習神經網絡。
圖 4. 用于訓練 YOLOv4 微型目標檢測模型的跟蹤車輛圖像。
圖 12. 根據 Unity 中的情景驗證技術應用
本論文利用強化學習(RL)來解決空戰機動模擬中的動態對抗博弈問題。空戰機動模擬是運籌學領域常見的一種順序決策問題,傳統上依賴于智能體編程方法,需要將大量領域知識手動編碼到模擬環境中。這些方法適用于確定現有戰術在不同模擬場景中的有效性。然而,為了最大限度地發揮新技術(如自動駕駛飛機)的優勢,需要發現新的戰術。作為解決連續決策問題的成熟技術,RL 有可能發現這些新戰術。
本論文探討了四種 RL 方法--表式、深度、離散到深度和多目標--作為在空戰機動模擬中發現新行為的機制。它實現并測試了每種方法的幾種方法,并從學習時間、基準和比較性能以及實現復雜性等方面對這些方法進行了比較。除了評估現有方法對空戰機動這一特定任務的實用性外,本論文還提出并研究了兩種新型方法,即離散到深度監督策略學習(D2D-SPL)和離散到深度監督 Q 值學習(D2D-SQL),這兩種方法可以更廣泛地應用。D2D-SPL 和 D2D-SQL 以更接近表格方法的成本提供了深度 RL 的通用性。
本文有助于以下研究領域:
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
應用人工智能模擬空對空作戰場景正引起越來越多的關注。迄今為止,高維狀態和行動空間、高度復雜的情況信息(如不完全信息和過濾信息、隨機性、對任務目標的不完全了解)以及非線性飛行動態對準確的空戰決策構成了巨大挑戰。當涉及多個異構代理時,這些挑戰會更加嚴峻。我們為具有多個異構代理的空對空作戰提出了一個分層多代理強化學習框架。在我們的框架中,決策過程分為兩個抽象階段,異構的低級策略控制單個單位的行動,而高級指揮官策略則根據總體任務目標下達宏觀命令。低層次政策是為精確控制部隊作戰而訓練的。它們的訓練是按照學習課程安排的,其中包括日益復雜的訓練場景和基于聯賽的自我比賽。根據預先訓練好的低級策略,對指揮官策略進行任務目標訓練。經驗驗證證明了我們設計方案的優勢。
人工智能驅動的軟件飛行員有可能實現美國空軍對負擔得起的戰術空中力量能力的追求;然而,對啟用空戰自主算法的數據的基礎性要求并沒有得到充分理解。
本文討論了空軍戰術空中力量數據管理的挑戰,承認反對數據對協同作戰飛機(CCA)實戰的重要性的論點,并確定了四個具體原因,即資助和實施一個深思熟慮的數據管理計劃對加速CCA的成功開發和實戰至關重要。這個米切爾論壇的初稿的目的是提供清晰度,并邀請大家討論訓練CCA算法的戰斗所需的數據集,因為美國空軍尋求履行其 "隨時隨地飛行、戰斗和贏得......空中力量 "的使命。
該論壇介紹了來自美國和全球各地航空航天專家的創新概念和發人深省的見解。