自動化與人工智能領域的能力持續拓展,正推動人機交互模式創新——軍事領域尤需如此。為充分釋放技術紅利,亟需研究哪些任務可由自動化系統輔助乃至完全替代。在遠程偵察場景中,我們構想操作員通過自動化輔助同時完成平臺運動控制與目標觀測分類的雙重職能。為此構建實驗環境:遠程操作員借助含自動語音識別(ASR)系統與視線追蹤器的多模態界面操控無人地面車輛,同時通過屏幕光標選定標記目標并利用ASR進行語音分類。基于此原型系統,我們與領域專家展開交互模式研討。
自動化與人工智能正日益深度賦能人類作業。例如汽車產業中車道保持輔助系統已成為主流技術,為特定場景下的半自動駕駛奠定基礎;AI聊天機器人則快速進化至可實現人機自然對話。將這些能力遷移至軍事領域,將深刻變革現有作戰職能配置。傳統遠程偵察場景通常需至少配備平臺操作員與分析員:以RQ-4全球鷹無人機為例,其任務需多人協同完成平臺運動控制、光電系統操作及圖像判讀分類;而德軍"烏鴉"小型履帶式地面偵察平臺雖可由單人操控,卻缺乏目標標記與屏幕交互功能。人工智能的引入有望將平臺操控與目標分類職能融合為單一角色,即便不合并職能也能顯著降低操作員認知負荷,延長高效作業時間并減少失誤率。
因此本研究旨在開發新型交互方法:既支持操作員同步執行多任務,又大幅減輕其工作負荷以提升效能。通過整合視線、語音及觸覺等多模態輸入,探索在輸入控制指令時同步處理視覺數據的方案,力求建立高效精準的自然交互范式。但需在兩大關鍵要素間尋求平衡:既要保障充分信息供給以維持態勢感知,又要避免信息過載與交互選項冗余引發的認知超載[1]。
軍事應用場景對操作員提出嚴苛要求:結果需具備極高精度與魯棒性,作業環境常伴隨高噪聲、高壓強等高負荷狀態。這為技術賦能創造機遇——通過智能化支持減輕人員負擔。軍事用例的明確邊界利于定制化技術服務開發,但需注意:操作員的惡劣作業環境往往同樣制約技術性能。例如噪聲干擾、麥克風狀態波動及應激性語音變異等,均使作為智能用戶界面(UI)組件的自動語音識別(ASR)面臨嚴峻挑戰。為確保ASR魯棒性,模型需針對具體用例、使用環境乃至特定使用者進行定制化訓練,這意味著需構建按需生成定制化解決方案的體系而非通用模型[2]。
本研究致力于開發多模態"無感化"[3-5]智能用戶界面,通過有效支持操作員提升任務執行效能。現提出針對機器人平臺遠程操控與目標分類場景的具體實施方案。全文結構如下:第二、三章詳述語音-視線-觸覺交互模式的整合路徑及首版原型系統實現;第四章簡述基于領域專家的初步原型評估;第五章闡明軍事應用啟示,并提出后續研究與實踐轉化建議。
自主系統的復雜性與部署范圍正日益提升,從先進工業機器人到智能城市基礎設施,這迫切需要軟件工程范式的根本性轉變。這些系統不僅要求高度適應性,還需具備嚴格的安全性與透明決策能力。本文提出一種統一的軟件智能框架,通過無縫集成神經程序合成(NPS)、量子安全運維(QSD)與可解釋人工智能(XAI)來滿足這些多維需求。該框架借助NPS實現AI驅動的代碼生成,通過QSD強化軟件生命周期以應對新興量子威脅,并利用XAI確保關鍵自主操作中可解釋且可信的決策過程。我們對各領域最新進展進行全面文獻綜述,詳細分析其各自挑戰與協同潛力。所提出的架構將這些組件統一為從規范到代碼生成、安全部署及運行時適應的連續管道。通過一個假設的智慧城市基礎設施場景,闡明了該融合框架的實際應用與優勢,展示其快速代碼適配能力、后量子安全性以及對自主行為提供人類可理解解釋的特性。我們進一步討論此類集成固有的技術挑戰,包括穩健的評估策略,以及在敏感環境中部署AI生成、量子安全系統所涉及的深遠倫理、運營與安全影響。本研究為發展適應性、穩健性及可信賴自主系統所必需的新興多學科領域奠定基礎。
自主系統在各大關鍵領域(從制造業先進機器人到智能城市基礎設施)日益增長的復雜性與廣泛部署,迫切需要軟件工程范式的深刻演進。這些系統必須在動態且不可預測的環境中以前所未有的適應性、安全性與可信度水平運行。傳統軟件開發方法難以跟上運營需求的快速演變及新興威脅的步伐,尤其在人類干預有限或響應時間至關重要的場景中。當前自主系統發展的挑戰源于三個核心領域:對實時軟件適配的需求、量子計算對經典密碼學構成的存在性威脅,以及AI驅動決策中透明性與人類信任的必要性。程序員常常難以為所有可預見場景快速編寫和更新代碼,而神經程序合成(NPS)旨在通過AI自動生成或修復代碼來解決該問題。同時,量子計算機的出現可能破解廣泛使用的公鑰密碼系統,從而危及從開發到部署的軟件生命周期各階段。這需要集成量子安全運維(QSD)以構建彈性安全管道。最后,隨著AI組件日益控制自主系統中的關鍵決策,許多模型固有的“黑箱”特性削弱了人類信任。可解釋人工智能(XAI)通過生成人類操作者可理解且可審計的推理模型,旨在彌合這一差距,確保信任與問責。本文認為NPS、QSD與XAI并非孤立學科,而是相互依存的支柱,當緊密集成時,可構成下一代自主系統的協同框架。例如,NPS生成的AI代碼應能通過XAI技術進行驗證與調試,再通過QSD管道安全部署。同樣,量子安全管道可保證XAI生成的模型及其解釋不被強大對手篡改。這些領域的融合有望提升自主平臺的敏捷性、安全性與可信度。
本文的貢獻是多方面的:
? 對神經程序合成、量子安全運維與可解釋人工智能的最新學術與行業研究進行廣泛回顧,聚焦其各自進展、挑戰及融合潛力。
? 提出一種新穎的軟件智能框架架構,將這三個關鍵組件統一為用于自主系統開發與運營的連續智能管道。
? 詳細闡述該融合框架內的模塊、工作流與交互,通過一個涉及自主資源管理的假設智慧城市場景說明其實際應用。
? 分析實施此類集成框架固有的技術挑戰,包括正確性、可擴展性、安全開銷、可解釋性與復雜性權衡、人機交互及集成復雜性等問題。
? 概述必要的嚴格評估策略與性能指標,以評估所提出框架的有效性、可信度及倫理合規性。
? 討論在敏感環境中部署AI生成、量子安全系統所涉及的更廣泛倫理、運營與安全影響。本工作為開發適應性、穩健性及可信賴自主系統所必需的新興多學科領域奠定基礎。
本文強調知識圖譜在強化軍事偵察的智能信息系統中的重要作用,著重分析知識圖譜的推理能力價值,并探討開源工具在知識圖譜開發維護中的角色。為此,本文首先剖析不同開源知識圖譜工具提供的推理支持,探索如何利用現有軟件推理器增強知識圖譜功能。這為知識圖譜實踐者提供寶貴指南——洞察可用資源、推理支持及構建綜合知識圖譜的策略。其次,本文提供有效框架幫助用戶根據軍事偵察特定需求篩選和比較最適配工具。
圖1:情報周期內的知識工程流程。傳統情報周期通常由需求模塊起始的四個組件構成。新增的"處理"模塊通常作為分析模塊的子流程。此處將其視為獨立模塊,旨在突顯周期內兩個底層流程:一級數據處理與融合階段,二級高級情報生成階段。
軍事情報依賴收集處理偵察行動中獲取的海量異構數據,以消除情報知識缺口并支撐指揮官決策。多源信息的必要互聯通過提供作戰環境實時精準數據,對指揮控制(C2)智能信息系統(IIS)形成關鍵支撐。在"情報周期"(涵蓋任務分配、收集、處理、分析與分發流程)中,分析師需處理描述指揮官信息需求的優先/特定情報需求(PIRs/SIRs)。簡言之,指揮官需掌握敵軍戰力等信息以制定應對決策,而分析師通過解析偵察數據提供情報支持。數據通常經多技術手段采集,呈現多樣化格式(如圖像、書面報告、無線電訊號等)。當部隊無法獨立滿足情報需求時,需向上級或友鄰單位申請支援。所有采集數據與反饋信息必須有效整合。知識圖譜(KG)作為結構化多關系圖式知識表征——捕捉實體(如人員、載具、地點)及其關聯信息,為組織存儲檢索此類信息提供高效方法。知識圖譜可視為實體語義網絡、屬性及關系的符號化表征,其優勢在于明確定義的語義與推理能力:可檢測矛盾或通過領域知識豐富信息。具備推理能力的知識圖譜支持復雜作戰環境決策,類似指揮控制與情報知識信息系統的決策場景。
知識圖譜通過組織海量互連數據,構建軍事戰略行動相關信息的結構化表征。這種結構化知識促進精細化情境感知推理,從離散數據源提取可操作洞察。隨著系統演進,高級推理機制的整合進一步優化決策流程——基于知識圖譜實體間復雜關系推演潛在結果。本質上,指揮控制與情報智能信息系統融合知識圖譜及推理能力,不僅優化信息檢索與解讀,更為戰略領導者提供駕馭信息化現代戰爭復雜性的高階工具。相較于易產生幻覺的大語言模型(LLM),知識圖譜通常包含已驗證事實。目前LLM仍難從文本提取邏輯關聯:若模型訓練包含"A是B"句式,其無法自然推導"B是A"逆命題(此現象稱"逆轉詛咒")。LLM另一局限在于僅通過單次海量文本訓練且缺乏持續更新。解決方案之一是情境學習,如采用檢索增強生成(RAG)框架。知識圖譜及其嵌入表征亦可作為情境學習源,例如在基于最新信息構建問答系統的RAG流程中。
在軍事等敏感領域決策時,決策者終不可依賴直覺。因決策關乎人命,其必須基于有效事實可追溯、可解釋。知識圖譜及其推理能力相較LLM兼具二者特性,故LLM目前無法替代知識圖譜。構建知識圖譜面臨多維挑戰:需以有意義方式結構化信息以表征應用領域相關實體關系。成功創建維護知識圖譜主要依賴本體編輯器與推理器兩大工具:編輯器用于開發本體(定義特定知識領域核心概念、屬性及關系的概念框架);推理器基于既有事實推導新知識,用于深化洞察或檢驗知識圖譜信息一致性。
構建穩健本體需理解RDFS/OWL等本體語言與形式化標準。理想本體編輯器應配備圖形界面以隱藏形式化復雜性,使本體學家(專攻本體設計與實施的專家)聚焦核心術語與關系的明確定義。此過程通常為迭代協作式。開源工具在普及知識圖譜中發揮重要作用,歐盟委員會亦倡導使用促進知識圖譜開發維護的開源方案。開源工具具多重優勢:規避供應商鎖定、低成本可及性等。故本研究僅考量輔助知識圖譜構建維護的開源軟件。但并非所有開源編輯器或推理器均提供同等推理支持(知識圖譜核心能力)。因此,本文通過評估各類公開編輯器與推理器的推理能力,揭示此關鍵維度。
本文通過梳理現有開源工具為知識圖譜實踐者提供指南。重點聚焦推理能力及開源編輯器對其支持程度,同時介紹部分開源推理器及其與現有編輯器的協同使用方案。這涉及評估編輯器與推理引擎的兼容性,以通過自動推理提升知識圖譜構建質量精度。全文結構如下:第二章論述相關工作;第三、四章開展開源本體編輯器與推理器的比較評估;第五章探索構建全功能知識圖譜平臺;第六章總結全文。
本報告展示了為美陸軍2024年機動支援與防護集成實驗(MSPIX)演示準備的模擬研究成果。本研究旨在開發并測試一套面向復雜環境的自主導航系統,通過先進算法使機器人實現障礙物規避與安全高效路徑規劃。報告詳述了自主導航系統的開發與測試方法,包括利用仿真評估性能,并通過模擬測試結果凸顯該導航方案的有效性。
本報告響應《美陸軍多域情報:2021-2022財年科技重點領域》(陸軍副參謀長辦公室,2020年)設定的研究方向。具體而言,本研究契合“戰爭將以超高速和大規模形式進行,由機器人及自主系統(RAS)、機器學習(ML)和人工智能(AI)等技術主導,這些技術已廣泛可用、集成封裝并具備即用性”(第5頁)的論述。通過引入虛擬邊界、多航點設置及暫停導航堆棧功能,本系統達成構建更高效自主解決方案的目標。
本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。
本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。
為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。
本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。
第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。
配備先進傳感器的無人平臺的集成有望提高對態勢的感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。本文展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,本文貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖 1:(左)虎爪情景中的狀態示例。(右圖)每個智能體的感知(本地觀察)和它們之間的通信聯系。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同行動圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將他們的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單位的狀態(包括位置)。
利用深度強化學習(DRL)技術,在一系列不同的模擬場景、初始部隊配置和對手行動中,對 COP 和智能體策略進行端到端聯合訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多代理環境中進行。在 SC2 中模擬的多個藍方與紅方的場景中,我們通過經驗觀察到了該方法的有效性。具體來說,我們在具有挑戰性和現實性的 TigerClaw 情景(圖 1)中測試和評估了我們的方法,該情景由發展司令部陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,我們的方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍減弱、通信能力減弱、GPS 被拒絕以及場景變化的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,并推進了自適應和彈性 C2 領域的發展。其貢獻如下:
圖 3:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。我們使用 QMIX作為 COP 集成的 MARL 方法示例。
本文探討了如何在軍隊中開發和訓練強大的自主網絡防御(ACD)智能體。本文提出了一種架構,將多智能體強化學習(MARL)、大型語言模型(LLM)和基于規則的系統組成的混合人工智能模型集成到分布在網絡設備上的藍色和紅色智能體團隊中。其主要目標是實現監控、檢測和緩解等關鍵網絡安全任務的自動化,從而增強網絡安全專業人員保護關鍵軍事基礎設施的能力。該架構設計用于在以分段云和軟件定義控制器為特征的現代網絡環境中運行,從而促進 ACD 智能體和其他網絡安全工具的部署。智能體團隊在自動網絡操作 (ACO) gym中進行了評估,該gym模擬了北約受保護的核心網絡,可對自主智能體進行可重復的培訓和測試。本文最后探討了在訓練 ACD 智能體理過程中遇到的主要挑戰,尤其關注訓練階段的數據安全性和人工智能模型的穩健性。
圖 1:四個網絡位置(A-D)容納五個藍色智能體(1-5)的情景。
本文探討了為自主網絡防御(ACD)智能體訓練混合人工智能(AI)模型時所面臨的挑戰和機遇,尤其是在戰術邊緣環境中。這些挑戰源于此類環境所特有的獨特、不可預測和資源受限的設置。北約研究任務組 IST-162 和 IST-196 的工作重點是 “軍事系統的網絡監控和檢測”[1]、[2] 和 “虛擬化網絡中的網絡安全”。虛擬化網絡中的網絡安全"[3] 至 [5],本研究旨在利用混合人工智能框架推進 ACD 智能體的設計和功能,以確保整個聯盟網絡的穩健網絡安全。多智能體強化(MARL)、大型語言模型(LLM)和基于規則的系統的采用構成了我們 ACD 架構的核心,增強了智能體在戰術邊緣環境中普遍存在的斷開、間歇、有限(DIL)帶寬條件下有效執行自主網絡防御任務的能力。這些條件要求系統具有彈性,能在網絡和資源嚴重變化的情況下保持高性能水平,這對傳統的網絡安全系統來說是一個重大挑戰。例如,將深度強化學習(DRL)與生成式人工智能相結合,有利于開發能夠進行復雜決策和自適應學習的智能體,提高其在動態網絡環境中應對復雜網絡威脅的能力[3]。此外,本文還討論了如何將 ACD 智能體集成到模擬的北約啟發的受保護核心網絡環境中,并在此環境中針對一系列網絡威脅對其進行評估。智能體利用人工智能技術的戰略組合,自動執行監控、檢測和緩解等關鍵防御行動,支持對關鍵軍事和民用網絡基礎設施的持續保護。
本文的貢獻如下: 第一,在一個集成了 MARL、LLM 和基于規則的系統的代理層次結構中使用代理智能體范例的方法論,以增強自主網絡防御能力。第二,討論在戰術邊緣環境中為 ACD 智能體訓練混合人工智能模型的挑戰和機遇。第三,定義一套評估指標,用于衡量 ACD 代理在數據和訓練保護方面的性能。本文的組織結構如下: 第二節回顧了相關文獻并解釋了研究原理。第三節詳細介紹了使 ACD 智能體適應戰術邊緣環境的方法。第四節介紹了我們的實證評估結果。最后,第 V 節總結了本研究的意義并概述了未來的研究方向。
深度學習是人工智能的一個子類別,在自動識別水下傳感器數據中的各種目標方面具有巨大潛力。這項工作的目標是支持未來使用深度學習的水下戰爭領域目標自動識別系統的發展,首先要展示什么是可能的,其次要讓研究人員深入了解如何通過建議和經驗教訓來構建這種定制系統。目標受眾是水下戰爭領域的研究人員,他們或是深度學習的新手,或是水下傳感器數據的新手。深度學習的基礎知識可以從許多在線課程中獲得。本參考文檔重點介紹如何應用這些工具識別目標,該領域不同于機器視覺和自然語言處理的常規應用。這些水下戰爭自動目標識別系統處理的不是標準圖像或文本,而是來自聲學傳感器的數據。這些小型定制神經網絡不是下載標準的現成網絡,利用充足的計算資源從大型訓練數據集中學習,而是設計用于從相對較小的訓練數據集中學習,而且往往受到硬件的計算限制。這項工作概述了定制神經網絡在各種水下戰爭自動目標識別任務中的應用,包括側視聲納中的類雷物體、寬帶聲納散射數據中的未爆彈藥、被動聲學數據中的水面艦艇以及主動聲納中的水下目標。此外,還分享了關于高效神經網絡設計和使用來自水下傳感器的小型訓練數據集的建議。
先進的自動目標識別系統可以快速自動分析傳入的傳感器數據,并對感興趣的目標進行探測、分類和定位,從而提高水下作戰能力。這有助于減少從獵雷到被動聲學監測、魚雷防御和反潛戰等各種應用中操作員的工作量。深度學習是在遠程和無人平臺上進行水下作戰自動目標識別應用的一種特別有前途的方法。越來越多的研究人員希望獲得相關建議,因此編寫了本文檔,以鼓勵和支持深度學習技術在未來自動目標識別系統開發中的應用,從而提高水下作戰領域的防御能力。
配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。
在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:
實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
本文介紹了在戰場數字孿生框架內使用貝葉斯優化(BO)、遺傳算法(GA)和強化學習(RL)等先進技術優化軍事行動的綜合方法。研究重點關注三個關鍵領域:防御作戰中的部隊部署、火力支援規劃和下屬單位的任務規劃。在部隊部署方面,BO 用于根據戰場指標優化營的部署,其中湯普森采樣獲取函數和周期核取得了優異的結果。在火力支援規劃中,采用了 GA 來最小化威脅水平和射擊時間,解決了資源有限條件下的資源受限項目調度問題(RCPSP)。最后,為任務規劃開發了一個 RL 模型,該模型結合了多智能體強化學習 (MARL)、圖注意網絡 (GAT) 和層次強化學習 (HRL)。通過模擬戰場場景,RL 模型展示了其生成戰術演習的有效性。這種方法使軍事決策者能夠在復雜環境中提高行動的適應性和效率。研究結果強調了這些優化技術在支持軍事指揮和控制系統實現戰術優勢方面的潛力。
戰場數字孿生是一個數字復制品,代表了真實戰場環境的組成部分和行為特征。它可以通過接收來自實際戰場的實時或接近實時的戰場、敵方和友軍單位信息,并將其動態反映到數字孿生中,從而對數字孿生模型進行評估和調整。換句話說,模型可以根據真實世界的數據不斷更新,以實現更具適應性的分析。這一概念與深綠的自適應執行相一致,后者也依賴于動態更新的信息。通過這種方式,可以向真實戰場系統提供改進的決策反饋,幫助用戶根據數字孿生模型做出更好的決策,而數字孿生模型是根據實際作戰數據更新的。
本節提出了 “基于戰場數字孿生的作戰行動選擇生成與分析 ”概念,通過各種技術方法,利用戰場數字孿生生成作戰行動選擇。然后對這些選項進行評估、效果比較,并推薦最合適的 COA 選項。基于戰場數字孿生的作戰行動選擇生成和分析的基本概念是,利用戰場數字孿生的預測模擬生成作戰行動選擇,同時考慮若干戰術因素(METT+TC:任務、敵人、地形和天氣、可用部隊和支持、可用時間和民用因素)。然后,可在數字孿生環境中對生成的作戰行動方案進行快速評估。圖 2 展示了這一流程的概念圖。生成和分析 COA 的四個關鍵輸入--威脅分析、相對戰斗力分析結果、戰場信息以及指揮官和參謀部的指導--假定來自其他分析軟件模塊和用戶輸入,從而完成智能決策支持系統。有關鏈接分析軟件模塊的更多信息,請參閱 Shim 等人(2023,2024)。
圖 2:基于戰場數字孿生系統的 COA 生成和分析概念。
可以按照圖 1 中概述的戰術規劃流程生成并詳細說明 COA 選項。然而,如前所述,規劃過程中的許多任務都需要人工干預,而人工智能技術的應用仍然有限。因此,我們將重點放在 COA 生成階段,在研究適用技術的同時,找出可以實現自動化和智能化的方面。本研究介紹了在 COA 生成過程中可實現自動化和智能化的三個概念:確定友軍部隊部署、規劃間接火力支援和規劃部隊戰術任務。友軍部隊部署是指部隊到達戰場后如何安排和使用,而部隊部署則是指如何將部隊轉移到指定的大致位置。我們將貝葉斯優化方法應用于友軍部署優化問題,作為 COA 方案生成的一部分。隨著人工智能技術的快速發展,許多研究都探索了基于最先進機器學習算法的全局優化方法。其中,使用高斯過程的貝葉斯優化法作為一種針對實驗成本較高的黑盒函數的全局優化方法受到了廣泛關注(Brochu,2010 年)。對于炮兵作戰,我們將火力支援調度問題歸結為一個項目調度問題,該問題力求在遵守資源限制的同時,最大限度地減少敵方總威脅和發射時間。將項目調度與資源管理相結合的任務被稱為資源約束項目調度問題(RCPSP)。最后,我們利用強化學習(RL)技術為下屬單位規劃戰術任務,以找到最優行動策略。強化學習已經證明,它是在動態和不確定環境中解決復雜決策問題的有效框架。特別是,我們利用多智能體強化學習(MARL)、分層強化學習(HRL)和圖注意網絡(GAT)的原理,為多個單位有效地學習任務及其相應參數,同時從每個智能體的角度考慮其重要性。
在使用所提出的方法生成一系列作戰行動(COA)選項后,將在戰場數字孿生系統中對這些選項進行模擬評估。然后對模擬結果進行評估,以推薦最合適的 COA 選項。在下一章中,將詳細解釋用于實現所建議的 COA 生成概念的技術方法,并提供全面的實驗評估結果,以突出所建議方法的有效性。
圖 8:強化學習的擬議架構。