在 2023 年 10 月于荷蘭舉行的 “弗里斯蘭旗幟 ”大型演習中,由虛擬戰斗機和建設性實體組成的合成環境被整合到演習中,以增強場景效果。虛擬飛行模擬器與實戰環境的整合是通過超高頻無線電和實用戰術數據鏈路完成的。本文介紹了用于實現集成的技術架構、互操作性和數據協議,并討論了該方法的瓶頸和潛力。此外,還探討了為實現(空中)培訓目的而對實時和虛擬資產進行更標準化整合的潛在改進和要求。
“弗里斯蘭旗幟”演習是每年在荷蘭舉行一次的 LSE 演習。該演習由荷蘭皇家空軍在呂伐登空軍基地主辦,向伙伴國開放北海上空歐洲最大的訓練區域之一,為期兩周。FF'23 的總體目標是在國際背景下進行合作訓練。演習場景要求規劃、協調和執行比一般日常訓練演習規模更大的任務。參加者來自鄰國和海外國家,帶來了各種第四代和第五代戰斗機,既有藍軍也有紅軍。任務包括防御性和進攻性變體,涉及空對空和空對地交戰組合。荷蘭皇家海軍、直升機中隊(攻擊和運輸)和特種部隊(SOF)也參與了多領域任務。LVC 試驗的具體目的是在實戰演習中注入虛擬和建設性實體,以增強場景效果。在訓練中,其作用是通過增加需要現場飛行員協調和溝通的參與者來增加任務的復雜性。簡而言之,虛擬實體的加入豐富了場景,增加了場景的培訓價值。它是對典型實戰演習的補充,因此模擬器飛行員的培訓相對于實戰飛行員的培訓是次要的。
圖 2.4. LVC 實驗的解決方案架構。虛線框表示相關功能,通常部署在相同的硬件或網絡上。藍色和紅色方框表示與特定部隊相關的能力。黃色表示 UHF 實時無線電網絡的存在。灰色表示提供通信功能(語音、數據、轉換)的硬件組件或獨立軟件工具。
多無人機空戰是一項涉及多個自主無人機的復雜任務,是航空航天和人工智能領域不斷發展的一個領域。本文旨在通過協作策略提高對抗性能。以往的方法主要是將行動空間離散為預定義的行動,從而限制了無人機的機動性和復雜的策略實施。還有一些方法將問題簡化為 1V1 戰斗,忽略了多個無人機之間的合作動態。為了應對六自由度空間固有的高維挑戰并改善合作,我們提出了一個分層框架,利用領導者-追隨者多智能體近端策略優化(LFMAPPO)策略。具體來說,該框架分為三個層次。頂層對環境進行宏觀評估,并指導執行策略。中間層確定所需行動的角度。底層為高維行動空間生成精確的行動指令。此外,通過領導者-追隨者策略分配不同角色來優化狀態值函數,以訓練頂層策略,追隨者估計領導者的效用,促進智能體之間的有效合作。此外,結合無人機態勢的目標選擇器可評估目標的威脅程度。最后,模擬實驗驗證了提出的方法的有效性。
合成數據生成已成為人工智能應用中應對數據稀缺、隱私問題和資源優化等相關挑戰的重要方法。本文探討了合成數據生成方法的最新進展,重點關注生成學習、遷移學習和建模技術。生成學習使用機器學習模型來復制現實世界數據中的統計模式。同時,遷移學習允許在相關任務中進行知識遷移,從而減少數據稀缺帶來的影響。建模技術,如基于統計和機器學習的方法,可創建與真實數據分布密切相關的合成數據。本文探討了各種方法和案例研究及其在不同應用領域的意義,重點是軍事領域。此外,基準分析表明了生成對抗網絡和變異自動編碼器在合成數據生成任務中的有效性。考慮到遷移學習策略的優缺點和應用領域,對遷移學習策略進行了評估。評估了生成合成場景的建模技術。論文最后討論了合成數據生成對加強軍事領域決策支持的重要性。
人工智能是當今世界最重要的話題之一。人工智能(AI)是指開發能夠執行通常需要人類智能才能完成的任務的計算機系統。這些任務包括理解自然語言、識別模式、從經驗中學習和做出決策。有了人工智能,機器可以分析大量數據、識別趨勢并做出預測,從而改進決策、提高生產率并增強用戶體驗。開發人工智能成本高昂,而且需要專業技術知識,因此導致技術熟練的專業人員短缺。人工智能系統還可能延續訓練數據中存在的偏見,從而限制其公平性。人工智能的關鍵要求之一是真實世界的數據集。盡管與技術進步相關的數據集數量龐大且不斷增長,但主要挑戰之一是數據質量低且稀缺,尤其是在軍事領域。要應對這一挑戰,需要解決兩個重要問題:儉約型人工智能和合成數據。
儉約型人工智能是一種技術,旨在利用較少的數據和計算資源實現人工智能模型的魯棒性。它涉及用有限的資源訓練人工智能系統,重點是輸入節儉和學習節儉。其目標是在使用較少數據和優化學習過程的同時實現預測質量。在某些領域,如軍事領域,出于安全原因,可能無法隨時獲得完整的數據庫。在這種情況下,節儉的人工智能就變得至關重要。為了克服缺乏數據的問題,研究人員和工程師們正在探索不同的方法。其中一種方法是所謂的 “遷移學習”,即使用已經從足夠數據集中學習過的現有人工智能系統。另一種技術是數據生成,即利用虛擬環境生成與真實環境條件非常相似的數據。數據增強是另一種方法,涉及通過對現有數據進行轉換或修改來生成新數據。將數據生成和數據擴增結合起來,可以獲得更全面、更多樣的數據集。
數據具有重要價值,但質量至關重要。隨著企業和研究人員對數據的依賴程度越來越高,對高質量數據和隱私的需求也變得越來越重要。由人工生成的信息組成的合成數據正在成為應對這些挑戰的強大解決方案。合成數據通常比真實數據質量更高。此外,還應實施隱私保護措施,防止關鍵信息泄露。在軍事領域,由于行動的動態性和高風險,數據收集具有挑戰性。然而,由于所涉及數據的敏感性,隱私問題在軍事領域非常普遍。合成數據生成被證明是一種有價值的創新解決方案。雖然合成數據是一個令人信服的概念,但其生成卻要求精確。它必須是可信的,并符合原始數據的基本分布。因此,負責生成合成數據的算法必須表現出魯棒性,并有效捕捉真實數據中固有的模式。
隨著無人機與社會越來越緊密地聯系在一起,更多未經培訓的用戶需要具備操作無人機的能力。要實現這一目標,就必須開發人工智能能力,協助人類操作員控制無人機系統和處理傳感器數據,從而減少對操作員進行大量培訓的需要。本文介紹了 HADRON 項目,該項目旨在開發和測試多種新型技術,以實現對無人機群的人性化控制。該項目分為三個主要部分。第一部分是整合各種技術,實現對無人機的直觀控制,重點關注新手或缺乏經驗的飛行員和操作員。第二部分的重點是開發一個多無人機系統,該系統將由一個指揮和控制站控制,其中一名專家飛行員可以監督多架無人機的操作。項目的第三部分將側重于減少人類操作員的認知負荷,無論他們是新手還是專家飛行員。為此,將開發人工智能工具,協助無人機操作員進行半自動實時數據處理。
HADRON 項目考慮了三個級別的自主性。第一級側重于新手用戶,即使是相當簡單的操作也需要高度輔助,例如通過使用直觀的無人機控制技術。下一個層次涉及專業飛行員,旨在使他們能夠從中央站控制多架無人機系統。最后一個層次旨在通過引入人工智能工具來自動處理實時數據,從而大幅降低操作員的認知負荷。本文介紹了 HADRON 項目的定義,該項目將開發和測試不同的新型技術,以明確哪些技術對未來的無人機駕駛有用。本文介紹了系統架構,并討論了所使用的不同技術的選擇。
圖 1. 描繪了一名下馬士兵使用語音命令操作無人機的情景。無人機探測到目標后會通過語音通知操作員,以便操作員當場做出決定。
鑒于確定的能力差距,確定了三個主題:第一個主題將為未經培訓的用戶開發人性化的無人機控制;第二個主題將為專家用戶開發無人機的多智能體控制;最后,第三個主題將通過開發半自動數據解讀算法來輔助前兩個主題。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
本文介紹了海軍戰斗管理系統(CMS)的架構,該系統考慮了電子戰(EW)與人工智能(AI),以應對現代高超音速和低可觀測性威脅的戰斗環境,在這種環境下,反應時間可能很短,需要自動化。它使用一個反制案例研究作為數據需求,通過拍賣傳感器任務分配、人工智能流程和數據融合實現認知復合傳感。論文還強調了已發布的關鍵認知電子戰能力,以證明該架構的合理性。該架構的目標是用高反應時間的自動化人工智能認知決策器(DM)取代人類決策者。
在電子戰(EW)中應用人工智能(AI)時,它不僅要有助于決策者(DM)的態勢感知(SA),還要滿足點、面、區防御以及反目標活動的需要。電磁頻譜非常密集,有許多通信和雷達發射器。因此,將人工智能應用于能夠滿足 DM 需求的預警系統是一項挑戰。因此,它必須能夠分揀出感興趣的信號(SoI),如部隊信號和與指定任務無關的信號。這項工作的基礎是 “常規戰爭 ”中的反導反應,以便與傳統交戰進行更直接的比較。影響反艦導彈(ASM)成功與否的一些主要因素包括雷達截面(RCS)、紅外截面(IRCS)、視覺和紫外線(UV)特征。因此,目標艦艇的特征是決定被動軟殺傷反導措施(也稱為伎倆)性能的重要因素。不過,反艦導彈也可以使用主動雷達尋的來瞄準和跟蹤。因此,射頻(RF)和微波(MW)的截面特征以及光學輻射量子(或光子)、縱橫角和機動中的縱橫率都非常重要,并對其產生戰術影響。因此,現代作戰環境在處理電磁頻譜方面面臨挑戰,而人工智能自動化和自主化是應對這一挑戰的理想方式。
本文描述了一種結構,其中包括使用箔條和干擾器的軟殺傷;使用導彈、火炮和火控系統的硬殺傷;以及用于跟蹤目標并協調軟殺傷和硬殺傷反應的指揮控制系統。本文僅限于假設反艦導彈在海上滑行時使用射頻主動雷達尋的進行瞄準和跟蹤。因此,這項工作的重點是信號管理、大型目標艦艇的規避機動、艦載被動型誘餌系統(如箔條和反射器)在反艦導彈跟蹤方案和交戰環境(包括風速和風向)方面的作戰性能。擊敗導彈威脅的一個基本因素是反應時間;隨著高超音速時代的到來,時間因素成為反應殺傷鏈的決定性因素。潛在導彈平臺的識別標準至關重要;它們將使精確打擊成為可能,并迅速讓反導系統消除發射平臺的威脅。由于反導彈連鎖反應的時間很短,人腦無法在短時間內計算大量信息并決定反應的類型,要么硬殺傷,要么軟殺傷,要么兩者兼而有之。因此,人類 DM 條令理論無法在遙遠的未來背景下使用,因為它要求對情況的分析速度、識別速度、對威脅的即時反應速度,以及在人類頭腦的指揮鏈中進行計算和決策,因此無法提供所需的反應時間。本文的最后一部分介紹了有助于加快平臺保護速度的體系結構,以定義 CMS 中的設備連接,以及一些已公布的關鍵技術。
第 1 節是引言、動機、方法和論文結構。第 2 節提供了需要架構支持的硬殺傷和軟殺傷的常規條令示例戰術和反制方法。第 2 節還介紹了軟殺傷反制方法的主動、被動和組合方法。此外,第 3 節是一個使用箔條和機動的交戰實例,展示了所需的關鍵數據。第 4 節介紹了所提出的人工智能/預警技術架構。最后,第 5 節是結論。
本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。
在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。
本文解釋了計算機輔助軍事實驗的方法和過程。介紹了可從計算機輔助軍事實驗中獲益的軍事流程,并詳細闡述了每個流程的最佳實踐。最后,簡要討論了新出現的概念及其對軍事實驗要求的潛在影響,并對教程進行了總結。在教程中,現場演示了地緣戰略展望發展、防御規劃、作戰計劃分析、計算機輔助軍事實驗設計和實施。
當代許多沖突都處于灰色地帶,或者說是混合沖突。對社會的威脅來自多個方面。盡管它們可能是由不同的行為者發起的,但其影響會不斷累積,并造成不像過去那樣直觀的最終狀態。因此,我們所處的環境具有波動性、復雜性、不確定性和模糊性(VUCA)的特點。要應對混合威脅,就必須及時、協調和全面地使用各種手段,并采用創新和適應性概念。預測、設計、整合和規劃都需要新的工具和方法。因此,概念開發和實驗已成為戰略級軍事總部的一項關鍵職能。
環境的波動性、復雜性、不確定性和模糊性(VUCA)特點增加了對大數據處理、建模、仿真和其他計算機輔助軍事實驗手段的需求。戰略總部可以開展計算機輔助實驗,用于地緣戰略前瞻、全領域概念和條令開發、能力設計和集成、先期和響應規劃。請注意,我們傾向于使用 "全域 "一詞,而不是 "聯合",后者意味著陸地、空中和海上的任何組合。太空和網絡空間已作為新領域加入(Cayirci 等人,2017 年)。
教程包括以下七個部分:
第2節首先介紹了所有領域的軍事轉型流程以及它們之間的聯系。然后,解釋軍事實驗活動中每個階段的流程和產出。我們還確定了支持軍事實驗各階段的建模與仿真工具和方法。
第 3 節是關于計算機輔助軍事實驗以開發地緣戰略前瞻,這通常是所有領域戰爭開發的第一步。我們定義了地緣戰略行動者的狀態向量和工具,并舉例說明了量化這些向量和工具的分析模型。博弈論方法可用于地緣戰略展望的開發。聽眾將深入了解國家矢量(即政治、軍事、經濟、社會、信息、基礎設施)和工具(即外交、信息、軍事、經濟、金融、情報和執法)的建模。他們還將學習如何利用博弈論進行戰略展望。
第 4 節是關于國防規劃的建模和模擬支持。戰略遠見是未來情景和突發事件的基礎。聽眾將學習如何將情景(包括情景中的交戰方)轉移到軍事建設性模擬系統中,并利用模擬計算情景的最佳能力要求,同時滿足政治層面提出的約束和限制。
第 5 節重點介紹如何對新概念或新條令進行建模和仿真驗證。概念和條令可能涉及各種主題。因此,它們之間的性質可能會有很大不同,新概念和新條令的實驗需要豐富的工具集和靈活的思維方式。本節將解釋模擬的類型及其在概念測試中的應用動態。
第 6 節重點介紹組織和程序。能力包包括條令、組織、培訓、物資、人員、領導力、設施和互操作性。兵棋推演通常用于了解軍事組織和程序動態。因此,我們也簡要介紹了兵棋推演方法。
第 7節介紹利用軍事構造模擬系統進行計算機輔助實驗的方法。聽眾可以了解如何設計和運行計算機輔助軍事實驗。介紹了用于作戰計劃軍事實驗的計算機仿真工具實例。我們闡述了讀取作戰計劃并將其傳輸到軍事構造模擬系統的動態過程。解釋了設計實驗、執行實驗、收集數據和分析收集到的數據所面臨的挑戰,以及應對這些挑戰的最佳做法。
第 8 節討論了軍界倡導的新概念及其對軍事仿真工具集的具體影響,以及在訓練、演習、兵棋推演和實驗中的應用,并對本教程進行了總結。
圖3 概念開發背景下的軍事實驗活動流程
軍事實驗活動(MEC)是一項實證研究,旨在深入了解和認識防御計劃、條令、作戰計劃或軍事能力包(MCP)的作戰概念(CONOPS)。請注意,軍事能力包由條令、組織、訓練、物資、人員、領導、設施、互操作性組成,因此,軍事能力包 CONOPS 的 MEC 可能包括測試條令、設施、組織等的實驗。MEC 是一系列相關的實驗,用于探索和完善有關細化 CONOPS 草案的知識。如圖 3 所示,MEC 過程(MECP)分為四個階段:規范、計劃、實施和報告。此外,MEC 框架中的每個實驗都有三個子階段:規劃、實施和報告。MEC 中的每次試驗都是精心策劃和認真執行的一系列測試,通過在受控環境中操縱選定的相關因素,對選定的性能指標進行觀察和測量,以確定或跟蹤原因和影響。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
近年來,槍支暴力事件急劇增加。目前,大多數安防系統都依賴于人工對大廳和大廳進行持續監控。隨著機器學習,特別是深度學習技術的發展,未來的閉路電視(CCTV)和安防系統應該能夠檢測威脅,并在需要時根據檢測結果采取行動。本文介紹了一種使用深度學習和圖像處理技術進行實時武器檢測的安防系統架構。該系統依靠處理視頻饋送,通過定期捕捉視頻饋送中的圖像來檢測攜帶不同類型武器的人員。這些圖像被輸入一個卷積神經網絡(CNN)。然后,CNN 會判斷圖像是否包含威脅。如果是威脅,它就會通過移動應用程序向保安人員發出警報,并向他們發送有關情況的圖像。經過測試,該系統的測試準確率達到 92.5%。此外,它還能在 1.6 秒內完成檢測。
人工智能在空戰領域正變得越來越重要。目前,大多數空戰研究都假定所有飛機信息都是已知的。但在實際應用中,由于現實限制和傳感器誤差,一些飛機信息,如位置、姿態、速度等,可能是不正確的,或者是不可能獲得的。在本文中,我們提出了一種基于深度強化學習的框架,用于開發一種能夠在信息不足的部分可觀測馬爾可夫決策過程(POMDP)條件下執行可視范圍(WVR)內空對空作戰的模型。為了穩健地應對這種情況,我們使用了遞歸神經網絡,并應用了軟評價器(SAC)算法,以有效應對現實限制和傳感器誤差。此外,為了提高學習效率和效果,我們還應用了課程學習技術來限制狀態空間的探索范圍。最后,模擬和實驗結果表明,所提出的技術能夠在嘈雜的環境中處理傳感器限制和誤差引起的實際問題,同時還能高效地減少學習的訓練時間。
圖 2 顯示了本研究提出的空戰模型學習框架概覽,該框架由矢量化空戰模擬環境和包括重放緩沖器在內的循環 SAC 模塊組成。環境中有兩個動態模型:己方和目標。它們分別從 SAC 模塊的角色和基于規則的行為模型中獲得動作 at 和 atarget,并輸出飛機狀態 sownship 和 starget。模擬器根據這些狀態生成獎勵 rt 和觀測值 ot,同時考慮到配置的傳感器特性。軌跡(ot、at、rt)被存儲在重放緩沖區中,固定長度的軌跡序列將被采樣用于批判。