亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文介紹Tunnel——一個面向高性能飛機的簡易開源強化學習訓練環境。該環境將F-16的3D非線性飛行動力學模型集成至OpenAI的Gymnasium Python包,包含邊界條件、目標、對手與傳感能力等基礎要素(可根據作戰需求調整),為任務規劃者提供快速應對動態環境、傳感器升級與對抗對手的自主空戰訓練手段。研究人員可通過該環境獲取作戰相關的飛機物理特性。Tunnel代碼庫簡潔,熟悉Gymnasium或具備Python基礎者皆可操作。本文展示為期一周的權衡研究案例,涵蓋多種訓練方法、觀測空間與威脅呈現模式,促進研究人員與任務規劃者的協作(可轉化為國家軍事優勢)。隨著戰爭日益依賴自動化,軟件敏捷性將決定決策優勢。在此背景下,空軍人員需配備適應對手變化的工具。傳統空戰模擬器中,研究人員掌握觀測定制、動作設計、任務設置與訓練方法需耗時數月,而Tunnel可將此過程縮短至數日。

六十余年來,美空軍首次面臨制空權能力風險[1]。為此,"協同作戰飛機"(CCA)正被設計為具備空戰史上前所未有的自主性[2]。當前技術標桿為"可變飛行穩定性測試飛機"(VISTA)——可由AI代理控制的F-16。盡管能實施實機空戰,但該獨特設計所需資金與時間阻礙了千架級CCA部署計劃。此外,VISTA未集成真實傳感器、對抗環境、非合作對手及空戰外任務。國家亟需能快速驗證各類空戰場景下自主系統能力與局限的方法。本文提出的Tunnel強化學習環境由研究者開發,支持簡易修改以呈現多樣化觀測、動作、任務與訓練方法。目前高性能航空領域自主性評估流程緩慢,近期VISTA試飛主要支持DARPA"空戰演進"(ACE)項目[3]。團隊需經歷"軟件在環仿真→硬件在環仿真→實飛前建模"的嚴格流程。2022年,美國空軍-麻省理工學院AI加速器(DAF-MIT AIA)組建團隊參與DARPA ACE,成功在六個月內訓練新型"液態時間常數網絡"[4]算法實現自主實飛(快于需數年的ACE常規流程)。但團隊常因時間限制犧牲算法探索空間,且試飛流程固化了觀測、動作、任務與訓練方法。若未妥善應對,隨著自主系統需處理真實傳感器、多樣化任務環境與非合作對手,此類流程限制將加劇。未來數年,空戰自主系統需在更復雜環境中運行,DARPA ACE經驗將推進DARPA"AI增強"(AIR)項目與空軍"毒蛇實驗性下一代作戰模型"(VENOM)計劃。AIR計劃研究多智能體自主空戰(含部分可觀測性、概念漂移與不確定性)[5];VENOM擬用作戰配置的F-16作為高性能機載試驗平臺[6],旨在通過作戰傳感器數據構建智能體觀測。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

多目標追蹤(MOT)旨在維持視頻幀間物體身份的一致性。實戰環境中,移動無人機采集的低幀率視頻因目標外觀與位置快速變化,其物體關聯任務極具復雜性。云視頻流傳輸與壓縮算法導致的圖像劣化更使挑戰加劇。本文闡述如何通過單幀標注的實例關聯學習突破這些瓶頸:場景全局特征為低幀率實例關聯提供關鍵上下文,使解決方案對干擾物及檢測間隙具備強魯棒性;同時證明該追蹤方法在降低輸入圖像分辨率與潛在表征尺寸以加速推理時,仍能保持高關聯質量。最后,基于公開數據源構建軍事車輛標注基準數據集。本研究成果最初發布于2025年5月13-14日在葡萄牙奧埃拉什舉行的北約科技組織研討會(ICMCIS),該會議由信息系統技術委員會(IST-209-RSY)主辦。

無人機成本大幅降低與效能提升促使戰場無人機密度激增,其產生的高質量監控視頻數據規模史無前例。通過輪換部署多架偵察無人機,可實現對戰線及戰術縱深的持續視頻監控。這極大增強戰場態勢感知能力,并為高效殺傷鏈的初始環節奠定基礎。實時偵察信號的激增帶來新挑戰:如何將原始情報數據快速有效轉化為可行動情報項。單純依賴人工操作員監控多路視頻流識別軍事目標,易導致效率下降與敵情漏判——這在作戰情境中后果嚴重。

基于實時無人機視頻流的軍事目標自動識別技術,成為應對海量監控數據的有效可擴展方案。以目標檢測為核心的方法能緩解從視頻流提取關鍵信號的負擔,充當情報官的數據處理"輔助駕駛"。然而,單幀目標檢測常無法生成可行動情報項。高效戰場監控需聚焦特定軍事目標——這是純檢測技術無法解決的任務。多目標追蹤(MOT)與目標檢測結合,構成視頻軍事目標識別的完整解決方案。

在實時視頻流(尤其云端環境)實施神經網絡監控與目標獲取需消耗巨量計算資源。盡管原始視頻源通常以高幀率采集(≥30幀/秒),逐幀分析既資源密集又易致延遲。因此系統通常僅解碼處理部分幀序列。在此約束下,低幀率(約5幀/秒)多目標追蹤技術對區分特定目標、可靠濾除干擾物(誤報目標)具有關鍵價值。

付費5元查看完整內容

本文旨在建立無人機探測、追蹤與識別系統的標準化測試框架。此套標準化評估體系將促進對反無人機系統性能的深度認知。鑒于無人機威脅態勢日益嚴峻,且當前缺乏統一的系統評估政策應對風險管控,該框架建設迫在眉睫。本方法論于歐盟“內部安全基金警務部門”(Internal Security Fund Police)資助的“勇氣項目”(COURAGEOUS)框架內開發。標準化測試架構基于系列用戶定制場景構建,涵蓋各類實戰環境。現階段標準場景側重民用安防終端用戶,但該框架采用開放式架構設計,支持模塊化擴展標準場景體系,賦予用戶便捷添加新場景的能力。各場景均配套明確的作戰需求與功能性指標要求。基于此,本文提出綜合測試方法學,實現不同反無人機系統的公平定性與定量比較。該標準測試體系聚焦反無人機系統的定性定量評估,已通過三輪用戶腳本化驗證測試實現效能驗證。

本文組織結構??

本文章節安排如下:為厘清問題本質,第3章解析無人機系統(UAS)關聯事故案例并評估現役反無人機能力缺口;第4章探究當前反無人機作戰的技術與方法體系,深化現狀認知。基于前述研究基礎,第5章提出10項標準化反無人機應用場景,該場景框架將作為全流程標準化工作的指導準則。第6章詳述各標準場景的風險分析流程。通過平行工作路徑并結合終端用戶研討,第7章提出反無人機覆蓋的作戰需求體系,同步制定系列系統性能要求與量化指標。綜合上述成果,第8章構建反無人機系統評估方法論。該方案在希臘、比利時及西班牙開展的三次大規模試驗中完成驗證(詳見第9章)。第10章作為總結,通過實證結果研討指出現存研究缺口,并規劃未來研究方向。

反無人機技術體系??

反無人機領域的新技術研發已成為普遍研究方向。歐盟H2020-ALFA、H2020-ALADDIN及H2020-SafeShore項目代表典型范例,均針對特定應用場景開發無人機探測系統。構建高效探測系統普遍面臨兩大核心挑戰:首先,無論采用何種傳感技術,無人機平臺普遍具備極小反射截面與探測基線——具體表現為采用公共無線電頻段、有效距離內聲學特征微弱、可見光/紅外信號強度低、雷達反射截面微小等特性;其次,因多數無人機與鳥類特征相似,誤報率控制成為顯著技術瓶頸。雷達探測、聲學偵測、可見光識別、紅外識別(含熱成像與短波)、無線電頻譜感知、激光雷達等多種傳感方案可用于應對無人機探測難題。然而因實際工況的復雜性,現行主流解決方案普遍融合多類傳感技術,并結合源自計算機視覺的傳統檢測追蹤算法,最終實現多傳感器協同追蹤。??執法機構操作規范整合??同為關鍵考量要素。此背景下,SkyFall與DroneWise項目具有重要實踐意義:通過評估多類反無人機系統,將最優系統集成至執法機構培訓體系,并提供系列終端用戶導向措施以強化應對無人機恐怖襲擊的能力。

反無人機系統標準化測試??

在反無人機系統標準化測試方法開發領域,既往已取得多項進展。核心矛盾在于:評估無人機探測系統性能的標準化測試技術存在兩項對立需求。因系統通常依賴復雜數據融合與傳感器數據處理,需嚴格規范測試環境以識別性能邊界,此第一需求要求受控環境下的可重復測試。然而無人機探測系統需滿足全天候全時域作戰需求,故第二需求要求評估其在復雜環境下的實戰效能,二者存在根本性矛盾。標準化測試方法必須審慎平衡這兩類需求,目標是建立同時滿足開發者定量統計驗證與終端用戶定性實戰驗證的評估體系。

在機器人領域,美國國家標準與技術研究院(NIST)曾提出此類定性與定量驗證方案。基于NIST成果,首次提出驗證方法論并完成驗證。該方案于2017至2018年在SafeShore項目框架下首次應用于反無人機標準化測試。同期美國能源部核安全管理局也在本土開展反無人機測試評估方法論研究。雖未最終成為標準,但其定義的技術路線涵蓋測試方法、性能度量、測試無人機類型、關鍵變量及數據分析規范,為可靠評估反無人機技術奠定基礎。

標準缺失問題在2020年左右顯現:隨著多款反無人機系統上市,終端用戶愈發難以甄別性能差異。執法機構與政府部門在關鍵基礎設施保護場景開展多項測試,但此類試驗成本高昂且結果難以跨場景遷移。

該挑戰推動國際組織開展多項標準化工作。歐洲民航設備組織(EUROCAE)WG-115工作組積極推進標準建設:ED-286標準提供管制空域反無人機操作的"作戰服務與環境定義"(OSED),ED-322標準設定非合作無人機探測系統的"系統性能與互操作性要求"。這些聚焦機場環境的成果在歐洲與美國的緊密協調下推進——美國聯邦航空管理局(FAA)設立SC-238特別委員會制定反無人機技術綜合評估指南。EUROCAE與FAA協同確保反無人機系統在保持有效探測能力的同時安全融入現有航空體系。

北約是反無人機測試標準化的關鍵力量,其反無人機工作組聚焦:(i)建立技術共同體;(ii)政策、理念、條令及戰術規程;(iii)標準化建設;(iv)研發與作戰活動。年度"技術互操作性演習"(TIE)即為促進多系統互操作性的典范[31]。

德國標準化學會(DIN)正制定DIN 5452-9(專注無人機探測)及配套符合性測試規程。英國國家保護安全局(NPSA)同步開發"反無人機測試評估標準",旨在構建結構化性能評估框架。國際標準化組織(ISO)通過ISO/CD 16746[33](終端用戶設備部署指南)與ISO/CD 16747(制造商合規解決方案指引)推動全球標準統一。

上述行動體現國際社會對標準化測試的共識,但國別法規差異與作戰需求分歧仍存挑戰。"勇氣項目"制定的技術協議18150(CWA 18150)致力于整合各國成果,在確保與國際新標兼容前提下,為采購機構與安全主體提供透明可復現的技術評估框架。

現行反無人機框架綜述??

反無人機領域在商軍兩用無人機激增的推動下取得顯著進展。本節概述現役探測、追蹤與識別(DTI)技術及其在反無人機系統中的組合應用。

  1. 探測-追蹤-識別(DTI)技術體系??

本研究初始收集260套反無人機系統數據,經數據詳實度與適用性篩選后保留144套系統樣本。這些解決方案融合多種DTI技術,圖3展示技術分布格局,其中主流方法包括:

  • ??微波雷達??:55%系統采用,通過主動發射無線電波探測目標。核心優勢包括:全天候作戰能力(晝夜無休)、中強度惡劣天氣維持功能(暴雨/霧/雪環境下性能可能衰減)、可同步提供目標距離/徑向速度/高度數據(部分構型)、結合機械或電子掃描天線陣實現廣域監控。主要局限在于:低頻雷達對小截面微型無人機探測困難;高頻雷達在大氣衰減下探測距離銳減;易受電磁干擾(含蓄意干擾);主動發射特性易暴露自身位置。

  • ??可見光攝像機??:47%系統采用,多作為輔助傳感手段支持威脅識別或操作員視覺確認。其高空間分辨率特性(配合適用光學器件)支持遠距離小目標識別,被動傳感模式利于隱蔽作戰。但效能高度依賴環境光照——夜間或濃云條件下需人工補光(犧牲隱蔽性);霧霾/雨雪等環境因素顯著降低探測概率與識別精度。

  • ??熱成像儀??:35%系統集成,基于目標紅外特征實施探測。優勢體現在:全黑暗環境有效監控;通過電機/電池等熱源特征識別目標;對煙霧/偽裝等視覺遮蔽抗性強。局限包括:暴雨/濃霧/高溫環境削弱熱對比度;空間分辨率低于可見光設備;長距探測模式視場角收窄,需多傳感器協同保障覆蓋。

  • ??頻率監測設備??:64%系統配置,通過截獲分析無人機與控制臺射頻信號實現探測。優勢特性有:非視距探測能力(射頻可穿透部分障礙物);通過射頻指紋/遙測解碼識別機型狀態;被動探測不暴露自身。核心制約為:僅能監測主動發射信號的無人機(預編程自主飛行目標無效);射頻飽和的城區環境誤報率高且定位困難。

  • ??聲學傳感器??:10%系統采用,通過捕捉螺旋槳聲紋特征實施識別。優勢在于:不受電磁頻譜制約;非視距短距探測能力;設備緊湊利于機動部署。但存在嚴重缺陷:環境噪聲(風噪/車流/工業設備)易掩蓋目標特征;理想條件下有效探測距離不足300米,難以滿足早期預警需求。

  • ??紅外傳感器與激光雷達??:分別占2%與4%。紅外傳感器(本文指非熱成像類的簡易設備)通過監測場景紅外輻射變化探測目標,優勢是冷背景下熱目標識別能力,常作為高精度系統觸發裝置;局限為無成像功能(僅支持探測)、易受雨霧干擾。激光雷達基于激光測距實現三維環境建模,優勢體現在:復雜環境精準定位(降低誤報)、中短距場景解析能力強;制約因素包括:主動發射易暴露、雨雪霧導致信號衰減、人眼安全標準限制功率(影響作用距離)。

這些技術的流行表明了多傳感器融合的趨勢,以提高可靠性和魯棒性。用于檢測和跟蹤的傳感器融合領域,特別是在反無人機應用中,正在通過基于人工智能的方法和對經典技術的增強而迅速發展。目標是增加系統的健壯性,減少誤報,并在不同的環境條件下提供持續的操作能力。目前影響該領域的關鍵算法方法包括:

  • ??探測追蹤數據融合算法新動向??。反無人機領域的傳感器融合技術正通過人工智能方法與經典算法優化實現高速演進,核心目標為增強系統穩健性、降低誤報率并保障多變環境下的持續作戰能力。當前主導該領域的關鍵算法如下:

  • ????人工智能增強型多傳感器融合??。新一代反無人機系統(C-UAS)日益采用AI增強的傳感器融合方案:通過機器學習模型整合雷達、光電/紅外攝像機、聲學陣列、射頻探測器等多源異構傳感器數據。基于神經網絡(CNN處理圖像輸入,RNN及變換器處理時序數據)的融合算法實現探測追蹤信息的協同優化。此類方法通過多模態數據集訓練模型以識別復雜威脅模式,補償傳感器固有缺陷,并實現概率化威脅分類。AI技術可動態調整傳感器權重系數,有效應對氣象/地形等環境變量導致的數據缺失或異常。

  • ????卡爾曼濾波器及其現代演進??。卡爾曼濾波器及其擴展型(EKF/UKF)仍是移動目標追蹤的基礎。反無人機系統借此融合雷達、光電/紅外及射頻輸入,精確測算無人機位態信息。最新趨勢包含:基于傳感器可靠性指標在線調整過程/測量噪聲協方差的"自適應卡爾曼濾波器",以及依據無人機行為切換懸停/機動/俯沖等運動模型的"交互多模型濾波器"。

  • ????貝葉斯數據融合??。貝葉斯網絡與粒子濾波器通過概率分布建模管理不確定性,在接收新傳感器觀測值時持續更新狀態概率。現代粒子濾波器整合多假設追蹤技術應對多目標及模糊觀測場景,顯著降低誤識別率。貝葉斯融合還能整合沖突傳感器輸出,實現非二元化的柔性決策。

  • ????證據融合的鄧普斯特-謝弗理論??。鄧普斯特-謝弗證據理論在異構傳感器融合中日益普及,其顯性建模傳感器間的不確定性及沖突。該方法提供置信區間(非單點估值),增強不確定情境下的決策可靠性,尤其在射頻拒止/視覺降級等傳感器可靠性動態波動的環境中具突出價值。

  • ????圖譜化拓撲融合??。新興方法將多傳感器輸出轉化為圖譜節點關系,利用圖神經網絡(GNN)或拓撲數據分析建立連續追蹤路徑與檢測關聯性。該技術在傳統算法失效的場景(如蜂群無人機、建筑遮蔽頻繁的城市場景)展現顯著優勢,有效應對目標遮擋與傳感器信號中斷。

  1. 反無人機解決方案的技術組合??

現代反無人機系統常集成多種探測技術以提升發現概率與追蹤精度。圖4展示不同技術組合的占比分布,具體構成如下:

  • ??單一技術系統??:53%的反無人機解決方案僅依賴一種探測方法,主要為頻率監測或雷達探測。
  • ??雙技術系統??:9%的方案融合兩種技術(如雷達與可見光攝像機組合)。
  • ??三技術系統??:15%的方案整合三種獨立技術以強化多模態探測能力。
  • ??四技術及以上系統??:23%的方案采用四種以上技術,典型組合包含雷達、攝像機、射頻監測及其他傳感器。

多技術系統趨勢凸顯對魯棒數據融合方法的迫切需求,以有效降低誤報與漏檢率。

完成目標探測識別后,可部署下列壓制手段:

  • ??電子對抗??:射頻干擾、信號欺騙及協議操控以切斷通信或接管目標;
  • 動能方案??:需即刻消除威脅時部署網捕系統、攔截無人機或高能激光武器;
  • ??定向能系統??:微波/激光武器通過非接觸方式癱瘓無人機電子系統或結構。
  1. 反無人機技術選型的挑戰與考量??

反無人機系統選型需綜合評估以下要素:

  • ????探測范圍??:技術效能受制于距離與環境約束;
  • ????抗氣候能力??:雷達與頻率監測比光學/紅外系統更耐惡劣氣候;
  • ????誤報控制??:聲學傳感器與頻率監測易受環境噪聲或射頻干擾影響;
  • ????部署可行性??:移動平臺、車載系統與固定設施需差異化運維方案;
  • ????現役系統兼容??:多數方案需對接現有安防框架的軟硬件組件;
  • ????法規限制??:國家及國際法規制約特定探測壓制技術的運用;
  • ????作戰環境??:城區射頻擁塞與障礙物增大探測難度,開闊地帶更具優勢;
  • ????無人機技術演進??:自主飛行、加密通信及低可觀測設計的普及持續推動反制技術升級。

當前反無人機技術格局呈現無人機能力與反制方案的持續軍備競賽。人工智能、傳感器融合及自主對抗技術的突破將對反無人機體系韌性升級產生決定性影響。

付費5元查看完整內容

本研究提出分層多智能體強化學習框架,用于分析異構智能體參與的仿真空戰場景,旨在通過預設模擬識別促成任務成功的有效行動方案(CoA),從而低成本、低風險探索現實防務場景。在此背景下應用深度強化學習面臨特定挑戰,包括復雜飛行動力學、多智能體系統狀態與動作空間指數級擴展,以及實時單元控制與前瞻規劃融合能力。為解決這些問題,決策過程被分解為雙層抽象:底層策略控制單個單元,高層指揮官策略發布與總體任務目標匹配的宏觀指令。該分層結構通過利用智能體策略對稱性及控制與指揮任務分離,顯著優化訓練流程。底層策略通過漸進復雜度的課程學習訓練單兵作戰控制能力,高層指揮官則在預訓練控制策略基礎上學習任務目標分配。實證驗證證實了該框架的優越性。

本研究探索深度強化學習(RL)作為低成本、低風險空戰場景模擬分析方法的可行性。RL在各類環境中展現的行動方案發現能力構成研究動機,涵蓋棋類博弈[1]、街機游戲實時控制[2]以及現代兵棋推演[3]等融合控制與戰略決策的場景。空戰場景中應用RL存在多重挑戰:仿真場景結構特性(如單元復雜飛行動力學、聯合狀態動作空間規模)、規劃深度、隨機性與信息不完備性等。戰略博弈與防務場景的決策樹(即潛在行動方案集合)規模遠超常規搜索能力邊界。此外,現實作戰需同步協調單元機動與戰略布局及全局任務規劃,整合部隊層級實時控制與指揮官層級任務規劃的聯合訓練極具挑戰性,因二者對系統需求、算法架構及訓練配置存在本質差異。

為應對挑戰并復現現實防務行動,本研究構建分層多智能體強化學習(MARL)框架分析異構智能體空戰仿真場景。該方法將決策過程解耦為雙層結構:底層策略負責單元實時控制,高層策略依據全局任務目標生成宏觀指令。底層策略通過預設場景(如攻擊/規避)訓練,場景目標由指令標識符標記。為增強魯棒性與學習效率,采用漸進復雜度場景課程學習與聯盟自博弈機制。高層策略學習基于動態任務目標為下屬智能體分配合適標識符。戰略規劃權責上移至高層指揮官,底層執行單元自主完成控制任務。該架構通過底層策略對稱性利用與信息流定向傳輸,大幅簡化策略訓練過程,并實現控制與指揮的清晰分離,支持任務定制化訓練方案。

本研究核心貢獻包括:(1)開發輕量化環境平臺,快速模擬智能體核心動力學與交互行為。通過固定飛行高度將運動約束至2D空間,仍能精確捕捉智能體交互與機動特征。(2)采用課程學習虛構自博弈機制,通過漸進復雜度提升作戰效能。(3)設計集成注意力機制、循環單元與參數共享的神經網絡架構,聯合訓練底層控制策略與高層指揮官策略。(4)針對深度學習系統黑箱特性與科學評估風險,通過分層組件解析實現決策可解釋性。

第2節綜述前沿進展并闡明本研究對現有文獻的拓展;第3節介紹飛行器模擬器基礎特性與MARL原理;第4節闡述空戰對抗場景及訓練流程;第5節呈現實驗結果;第6節討論結論與未來研究方向。

付費5元查看完整內容

配備先進傳感器的無人平臺的集成有望提高對態勢的感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。本文展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,本文貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖 1:(左)虎爪情景中的狀態示例。(右圖)每個智能體的感知(本地觀察)和它們之間的通信聯系。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同行動圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將他們的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單位的狀態(包括位置)。

利用深度強化學習(DRL)技術,在一系列不同的模擬場景、初始部隊配置和對手行動中,對 COP 和智能體策略進行端到端聯合訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多代理環境中進行。在 SC2 中模擬的多個藍方與紅方的場景中,我們通過經驗觀察到了該方法的有效性。具體來說,我們在具有挑戰性和現實性的 TigerClaw 情景(圖 1)中測試和評估了我們的方法,該情景由發展司令部陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,我們的方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍減弱、通信能力減弱、GPS 被拒絕以及場景變化的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,并推進了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

圖 3:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。我們使用 QMIX作為 COP 集成的 MARL 方法示例。

付費5元查看完整內容

本文探討了如何在軍隊中開發和訓練強大的自主網絡防御(ACD)智能體。本文提出了一種架構,將多智能體強化學習(MARL)、大型語言模型(LLM)和基于規則的系統組成的混合人工智能模型集成到分布在網絡設備上的藍色和紅色智能體團隊中。其主要目標是實現監控、檢測和緩解等關鍵網絡安全任務的自動化,從而增強網絡安全專業人員保護關鍵軍事基礎設施的能力。該架構設計用于在以分段云和軟件定義控制器為特征的現代網絡環境中運行,從而促進 ACD 智能體和其他網絡安全工具的部署。智能體團隊在自動網絡操作 (ACO) gym中進行了評估,該gym模擬了北約受保護的核心網絡,可對自主智能體進行可重復的培訓和測試。本文最后探討了在訓練 ACD 智能體理過程中遇到的主要挑戰,尤其關注訓練階段的數據安全性和人工智能模型的穩健性。

圖 1:四個網絡位置(A-D)容納五個藍色智能體(1-5)的情景。

本文探討了為自主網絡防御(ACD)智能體訓練混合人工智能(AI)模型時所面臨的挑戰和機遇,尤其是在戰術邊緣環境中。這些挑戰源于此類環境所特有的獨特、不可預測和資源受限的設置。北約研究任務組 IST-162 和 IST-196 的工作重點是 “軍事系統的網絡監控和檢測”[1]、[2] 和 “虛擬化網絡中的網絡安全”。虛擬化網絡中的網絡安全"[3] 至 [5],本研究旨在利用混合人工智能框架推進 ACD 智能體的設計和功能,以確保整個聯盟網絡的穩健網絡安全。多智能體強化(MARL)、大型語言模型(LLM)和基于規則的系統的采用構成了我們 ACD 架構的核心,增強了智能體在戰術邊緣環境中普遍存在的斷開、間歇、有限(DIL)帶寬條件下有效執行自主網絡防御任務的能力。這些條件要求系統具有彈性,能在網絡和資源嚴重變化的情況下保持高性能水平,這對傳統的網絡安全系統來說是一個重大挑戰。例如,將深度強化學習(DRL)與生成式人工智能相結合,有利于開發能夠進行復雜決策和自適應學習的智能體,提高其在動態網絡環境中應對復雜網絡威脅的能力[3]。此外,本文還討論了如何將 ACD 智能體集成到模擬的北約啟發的受保護核心網絡環境中,并在此環境中針對一系列網絡威脅對其進行評估。智能體利用人工智能技術的戰略組合,自動執行監控、檢測和緩解等關鍵防御行動,支持對關鍵軍事和民用網絡基礎設施的持續保護。

本文的貢獻如下: 第一,在一個集成了 MARL、LLM 和基于規則的系統的代理層次結構中使用代理智能體范例的方法論,以增強自主網絡防御能力。第二,討論在戰術邊緣環境中為 ACD 智能體訓練混合人工智能模型的挑戰和機遇。第三,定義一套評估指標,用于衡量 ACD 代理在數據和訓練保護方面的性能。本文的組織結構如下: 第二節回顧了相關文獻并解釋了研究原理。第三節詳細介紹了使 ACD 智能體適應戰術邊緣環境的方法。第四節介紹了我們的實證評估結果。最后,第 V 節總結了本研究的意義并概述了未來的研究方向。

付費5元查看完整內容

本文報告了一項正在進行的調查,該調查比較了大型語言模型(LLM)在為現實的紅隊代理生成滲透測試腳本方面的性能。目標是在自動化網絡操作環境中開發人類級別的對手(紅隊代理),并通過儀器訓練藍隊代理團隊。定義了五種方法,用于構建生成 Metasploit 腳本的提示,以利用常見漏洞暴露(CVE)中描述的漏洞。使用三種 LLM(即 GPT-4o、WhiteRabbitNeo 和 Mistral-7b)對這些方法進行了測試。GPT-4o 被用作比較研究的基線。結果表明,GPT-4o 在所有實驗中都優于其他 LLM。不過,結果還表明,由于參數數量較少,Mistral-7b 可以進行微調,以達到可接受的性能,同時在執行過程中消耗更少的計算和內存資源: Mistral-7b 的參數數量為 70 億個,而 GPT-4o 的參數數量為 1.76 萬億個。

索引詞條-大型語言模型、滲透測試、自主攻擊代理、聯盟網絡

最近的文獻表明,大型語言模型(LLMs)可以自動執行人類級別的滲透測試任務,并且性能良好[1]-[4]。這些 ndings 促使本研究使用 LLMs 創建可自動執行網絡攻擊的真實紅隊代理。我們的目標是將紅隊代理部署到自動網絡操作 (ACO) 健身房中,以訓練強大的藍隊代理,讓它們以團隊的形式保衛軍事聯盟網絡 [5]-[7]。我們首先假設,可以使用 LLM 生成滲透測試腳本,利用 Metasploit 模塊[8]利用常見漏洞和暴露(CVE)中描述的已知漏洞。

然而,帶有大量參數的 LLMs 需要大量的處理能力和內存,從而增加了運行成本和對環境的影響。對較小的 LLM 進行微調可以為特定任務實現類似的性能,從而降低  財務成本和環境影響。微調和量化方法的最新進展徹底改變了 LLM 的性能和功能,使更大的模型也能在消費級個人電腦圖形處理器(GPU)上訓練和高效運行。

因此,本文定義了一種對生成 Metasploit 腳本的 LLM 進行比較評估的方法。我們選擇了三種參數數量不同的 LLM,即 GPT-4o(封閉源代碼,超過一萬億個參數)、WhiteRabbitNeo(330 億個參數)和 Mistral-7b(70 億個參數)。GPT-4o 是比較的基準,因為它是本次調查時的前沿模型[9]、[10]。WhiteRabbitNeo 是專為網絡安全領域定制的 LLama-33B 微調版本,可通過其專門網站使用 [11],[12]。最后,2023 年 9 月發布的模型 Mistral-7b [13] 是本次比較的低端基線。盡管 Mistral-7b 的尺寸較小,但它在自然語言理解和生成任務中的強勁性能卻備受關注[14]。特別是,由于采用了參數效率高的技術(如低秩自適應(Low-Rank Adaptation,LoRA)[15]),Mistral-7b 易于微調,因此開發人員可以使用消費級 GPU 高效地調整 Mistral-7b。簡而言之,本文的主要貢獻在于

簡而言之,本文的主要貢獻是

  • 定義使用 Metasploit 框架生成滲透測試腳本的五種提示方法。
  • 設計并實現一個用于人在環提示校準的網絡應用程序。
  • 三種 LLM 的性能比較分析: GPT4o、WhiteRabbitNeo-33b 和 Mistral-7b。

本文其余部分安排如下。第二節討論了也使用微調 LLMs 進行自主網絡防御/反擊的相關研究,以及本次調查的動機。第三節介紹了生成 Metasploit 腳本的實驗,并討論了紅隊代理架構的主要功能模塊,以及用于評估的人工在環管道。第四部分討論了在五種不同提示方法下使用三種不同 LLM 觀察到的定量結果。最后,第五節總結了本文并列舉了未來的工作。

付費5元查看完整內容

本文探討了機器學習在自主無人戰斗飛行器(AUCAV)控制中的應用。特別是,本研究將深度強化學習方法應用于防御性空戰場景,在該場景中,AUCAV 機群保護軍事高價值資產 (HVA),該資產要么是靜止的(如在空軍基地防御場景中),要么是快速移動的(如在涉及護送貨運飛機或指揮控制飛機的場景中)。通過采用馬爾可夫決策過程、近似動態規劃算法和用于價值函數近似的深度神經網絡,一系列空戰管理場景、原始模擬環境和一系列設計的計算實驗為高質量決策策略的近似提供了支持。三項連續的研究探索了新型模型和相應的方法論,以提高數學模型的準確性,提高計算效率,或更準確地評估復雜問題的解決方案質量,在這些問題中,最優解決方案的計算難以實現。對政策有效性和特定政策行為的深入分析為戰術、技術和程序的完善提供了信息,并使能力評估更加準確和量化,從而為所有相關系統的需求開發和采購計劃提供支持。

圖 1. 假想的 GABMP 場景,描繪了穿越敵對領土的固定 HVA 任務路徑

第二章至第四章由三項連續研究組成,將防御性空戰管理數學模型作為一個連續決策問題加以制定和擴展。每一章都探討了一種新穎的方法論,以提高數學模型的準確性,提高數據效率,或更準確地評估復雜問題的解決方案質量,因為在復雜問題中,最優解決方案的計算難以進行。

第二章介紹了廣義空戰管理問題(GABMP)。由 AUCAV 組成的艦隊護送 HVA 穿過敵方領土,而敵方的攻擊模式會根據友軍和敵軍的相對位置在來源和強度上發生變化。鑒于大多數現實問題并不存在于靜態環境中,針對非靜態問題的強化學習是一個廣泛研究的課題。要解決這些問題,需要在特征工程方面投入大量精力,為學習算法提供足夠有用的狀態空間信息,以揭示復雜的系統動態。本章提出了上下文分解馬爾可夫決策過程(CDMDP),它是靜態子問題的集合,旨在利用值函數的線性組合來逼近非靜態問題的動態。一組設計好的計算實驗證明了 CDMDP 方法的有效性,表明復雜的非穩態學習問題可以通過一小組靜態子問題得到有效的近似,而且 CDMDP 解決方案與基線方法相比,無需額外的特征工程就能顯著提高解決方案的質量。如果研究人員懷疑復雜且持續變化的環境可以用少量靜態上下文來近似,那么 CDMDP 框架可能會節省大量計算資源,并產生更易于可視化和實施的決策策略。

第三章為強化學習問題中的經驗重放記憶緩沖區介紹了一種新穎的基于相似性的接納控制方法。通過只用足夠不相似的經驗更新緩沖區,可以提高學習算法的效率和速度,尤其是在連續狀態空間的情況下。該方法采用了廣義空戰管理問題的擴展版本,納入了導航航點和基于軌跡的殺傷概率模型,以增強真實感。此外,還設計了一系列計算實驗,研究基于神經網絡的近似策略迭代算法的結構。對比分析表明,使用包含前 50% 最獨特經驗的內存緩沖區,學習算法收斂到穩健決策策略的速度比單獨使用優先級經驗回放快 10%。這些發現凸顯了所提出的方法在復雜、連續的狀態空間中提高強化學習效率的潛力。

第四章研究了信息松弛技術在 GABMP 進一步擴展版本中用于近似求解質量上限的應用。信息松弛指的是放寬順序決策問題中的非預期性約束,這些約束要求決策者僅根據當前可用的信息采取行動。信息松弛采用了時間事件視野,為決策者提供了對問題環境中未來隨機不確定性結果的可調整訪問。以往的研究都是針對在確定性松弛條件下更容易求解的問題進行信息松弛研究,而本方法論則將該方法應用于連續空間中的連續時間問題,即使在確定性條件下也需要求解近似技術。對事件視界和其他問題特征進行多維敏感性分析,有助于量化戰術改變或能力修改對決策政策有效性的潛在改進。這種量化方法應用于現實世界的能力差距評估,客觀地增強了傳統的主觀分析,從而為決策提供指導,并為采購計劃制定更有效的要求。第五章總結了前述各項研究的結果。

此外,第五章還指出了每項研究的假設和局限性,并提出了未來研究的可能途徑。

利用神經網絡進行近似策略迭代

圖 12. 描繪航點和攔截軌跡的 GABMP 假設場景

付費5元查看完整內容

本文提出了一個用于模擬軍事行動的高級實時戰略(RTS)游戲“指揮:現代作戰”(CMO)的強化學習(RL)框架。這是一款模擬軍事行動的高級實時戰略(RTS)游戲。CMO 挑戰玩家在戰術、戰役和戰略決策方面的駕馭能力,涉及多個單元的管理、有效的資源分配和并發行動分配。本研究的主要目標是利用 RL 的功能,實現軍事決策的自動化和增強。為實現這一目標,我們開發了一種具有獨特架構的參數化近端策略優化(PPO)智能體,專門用于應對 CMO 帶來的獨特挑戰。通過改編和擴展 AlphaStar 和 OpenAI Five 等該領域成果中的方法,該智能體展示了 RL 在軍事模擬中的潛力。我們的模型可以處理 CMO 中呈現的各種場景,標志著在將人工智能(AI)與軍事研究和實踐相結合方面邁出了重要一步。這項研究為今后探索將人工智能應用于國防和戰略分析奠定了基礎。

“指揮:現代作戰”(CMO)

CMO 全面細致地模擬了二戰后至當代的空中、海上和地面軍事行動。游戲為應用真實世界的軍事戰略和戰術提供了一個復雜的平臺,并以大量歷史和現代軍事硬件和系統數據庫為基礎。模擬引擎能夠處理各種軍事交戰,從局部遭遇戰到大規模全球沖突。

如圖 1 所示,游戲的圖形用戶界面采用高分辨率衛星圖像和詳細地形圖渲染的全球綜合視圖,為游戲中的所有操作提供了基礎環境。玩家可以操作控制各種軍事單元,包括飛機、艦船、潛艇、地面部隊甚至戰略武器,在復雜的任務和場景中進行導航。

游戲中的每個單元都按照真實世界的規格進行了高保真建模,涵蓋了武器能力、燃料消耗、物理限制、傳感器功能和真實通信系統等方面,確保了高度精確的模擬。

CMO 配備了場景編輯器,允許玩家創建從歷史戰役到虛擬沖突的不同場景,為研究復雜的軍事行動提供了手段。這使得 CMO 不僅是一個娛樂平臺,也是軍事訓練和戰略分析的工具。

CMO 與 RL 智能體的整合建立在已有初步工作基礎之上。盡管有了這個起點,但在推進項目的過程中還是遇到了相當大的挑戰。有效設置應用程序接口(確保快速執行和有效訓練的關鍵步驟)的任務需要大量的工作。游戲的多面性為高級智能體提供了理想的試驗平臺,使我們的工作受益匪淺。

框架

本節將介紹 PPO 智能體的神經網絡架構,該架構旨在扮演 CMO 中的任何場景。RL 智能體的簡化表示如圖 2 所示,展示了一個通過嵌入處理觀察結果的共享網絡。這一設計深受 OpenAI Five 和 AlphaStar 架構的影響。值得注意的是,鑒于其原始架構的復雜性和深度,復制或改編它們的模型遠非易事。

輸入結構分為三類。第一類由標量輸入組成,其中包括特定場景的信息,如當前時間、損失的單元數和失敗的聯系人數。與 AlphaStar 和 OpenAI Five 不同,我們的模型不包含基于像素的觀察結果。相反,我們將場景中的實體分為兩類:“單元”(己方單位)和 “接觸點”(敵方單位),如圖 3 所示,它們在游戲中通常被稱為 “單元 ”和 “接觸點”。

此外,還借鑒了 AlphaStar 的做法,采用變換器模型對實體類型的觀測結果進行編碼。然后,通過最大池化操作對這些實體編碼進行聚合,再與標量編碼器的輸出進行連接。如圖 3 所示,這些合并數據被輸入一個 LSTM 網絡。網絡的值函數由處理 LSTM 輸出的簡單 MLP 決定。

動作頭的結構更為復雜,由兩個主要部分組成:動作類型頭和動作參數頭。如圖 4 所示,行動選擇模塊的這一設計試圖在復雜性和功能性之間取得平衡,詳見第五節 B 部分。架構的關鍵修改之一是其管理CMO多單元控制動態的能力。傳統 RTS 游戲的重點可能是單個單元或較小的群組控制,而CMO則不同,它需要同時協調一方的多個單元,從而將問題提升為 MARL 挑戰。網絡的設計方式是通過變壓器來處理單元數量的變化。變壓器允許網絡根據環境中每個單元的情況需求動態調整其重點和資源分配。

PPO 智能體涉及的另一個方面是CMO固有的多行動選擇功能。在CMO中,當游戲暫停時,玩家可以為每個單元分配一組動作;例如,導航到指定位置、調整單元速度、向特定目標發射武器、激活雷達、關閉聲納。一旦恢復模擬,這些操作將同時執行。這種多行動選擇機制與傳統的 RTS 環境不同,傳統的 RTS 環境中的行動通常是順序執行或有并行執行限制。我們設計的智能體可以讓單元同時執行多個動作。為此,我們設計了智能體,使每個單元都能同時輸出多個動作。

這種架構不僅能滿足當前 CMO 游戲的要求,還提供了一個可擴展的框架,能夠適應更復雜的場景和未來的擴展。

付費5元查看完整內容

本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。

方法

集中式任務規劃架構

集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。

該架構的主要組成部分如下:

  1. 戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。

  2. 戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。

3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。

  1. 指揮官: 最后,智能體的決策將交由指揮官執行。智能體決定的行動將作為指令傳遞給實際的無人機,從而實現移動、目標探測和攻擊等具體任務。

因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。

強化學習環境的構建

我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。

在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。

為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。

每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。

在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。

付費5元查看完整內容

本文提出了一個海軍作戰管理系統(CMS)架構,考慮到電子戰(EW)與人工智能(AI),以應對現代高超音速和低觀測能力的威脅,其中反應時間可能很短,需要自動化。它使用一個反制措施案例研究作為數據要求,拍賣傳感器任務,人工智能過程,以及認知復合感應的數據融合。該文件還強調了已經公布的關鍵認知電子戰能力,以證明該架構的合理性。該架構的方向是用高反應時間的自動化人工智能驅動的認知DM來取代人類決策者(DM)。

引言

當把人工智能(AI)應用于電子戰(EW)時,它不僅要幫助決策者(DM)進行態勢感知(SA),還要滿足點、區域和區域防御以及反目標活動的需要。電磁波譜是密集的,有許多通信和雷達發射器。因此,挑戰在于如何將人工智能應用于能夠滿足管理部門需求的EW系統。因此,它必須能夠整理出感興趣的信號(SoI)[1],如部隊的信號和與指定任務無關的信號。這項工作的基礎是 "常規戰爭 "中的反導彈反應,以便與傳統的交戰進行更直接的比較。影響反艦導彈(ASM)成功的一些主要因素是雷達橫截面(RCS)、紅外橫截面(IRCS)、視覺和紫外線(UV)特征。因此,目標艦的特征是決定被動軟殺傷[2]反措施(也叫伎倆)性能的一個基本因素。然而,反坦克導彈也可以使用主動雷達尋的方式進行瞄準和跟蹤。因此,射頻(RF)和微波(MW)的截面特征是重要的,同時還有光輻射量子(或光子)、方位角和機動中的方位率,以及它們的戰術影響。因此,現代操作環境在處理電磁波譜方面存在挑戰,人工智能的自動化和自主性是解決這一挑戰的理想選擇。

A. 動機、方法和限制

本文描述了一個架構,其中包括用糠和干擾器進行軟殺傷;用導彈、火炮和火控系統進行硬殺傷;以及一個跟蹤目標并協調軟殺傷和硬殺傷反應的指揮和控制系統。本文僅限于假設反坦克導彈是使用射頻主動雷達尋的目標和跟蹤的海上滑行。因此,這項工作的中心是簽名管理、大型目標船的規避動作、船上被動型誘餌系統(如金屬箔片和反射器)的操作性能,涉及反坦克導彈的跟蹤方案和交戰環境,包括風速和風向。擊敗導彈威脅的一個基本因素是反應時間;隨著高超音速的出現,時間因素成為反應殺傷鏈的決定性因素。潛在導彈平臺的識別標準是最基本的;它們將允許更精確的SA,迅速讓DM消除發射平臺。鑒于反導鏈反應的時間很短,人的頭腦無法計算巨大的信息量,并在短時間內決定反應的類型,要么是硬殺傷,要么是軟殺傷,要么是兩者兼而有之;那么人工智能就成為反導系統中的基礎[3] [4]。因此,人類的DM理論不能用于遙遠的未來,因為它要求對形勢的分析速度、識別能力、對威脅的立即反應,以及在人類思維的指揮鏈中進行計算和決定,因此不能提供所需的反應時間。本文的最后部分介紹了幫助平臺保護速度的架構,朝著定義CMS中的設備連接方向發展,同時還介紹了一些已經發表的關鍵技術。

B. 論文的結構

第1節是介紹、動機、方法和論文結構。第2節提供了一個常規條令性例子戰術和反擊方法,用于在架構中需要支持的硬殺和軟殺。同時,在第2節中,還介紹了軟殺傷反擊方法的主動、被動和綜合方法。此外,第3節是一個使用飛毛腿和機動性的交戰例子,展示了所需的關鍵數據。第4節介紹了所提出的AI/EW技術的架構。最后,第5節是結論。

AI/EW技術的架構

人工智能應用于電子戰時,不僅要保證DM(決策者)的SA(態勢感知),而且還必須滿足點和區防御以及反目標活動的需要。電磁波譜因無線電和雷達發射器而加劇,一個挑戰是將人工智能應用于能夠滿足DM需求的EW系統,因此它必須能夠分出感興趣的信號,例如其海軍部隊的信號。另外,哪些信號對指定的任務沒有影響。

一個陸軍師的基本 "有機 "通信和電子設備,在一個典型的70公里乘45公里的地區作戰,是超過10,700個單獨的發射器。一個支持性的空中遠征部隊(AEF)會帶來另外1400個,而一個典型的海軍航母戰斗群會帶來另外2400個發射器[20]。比如說: 在沙漠盾牌/沙漠風暴中,六個陸軍師和一個海軍陸戰隊師都占據了相同的地理和電磁波譜空間,還有許多其他聯軍和指揮控制網絡[21]。鑒于這種信息密度,認知型EW也必須與人工智能概念和認知循環階段的相關挑戰相一致。

A. EW活動和AI對應的術語

為幫助EW和AI的受眾,我們提供了一個AI和EW術語的表格,在表1中,這些術語有一些對應關系。

表1 等效AI和EW術語

B. EW核心概念

電子戰被正式定義為三個部分:

  • ES(電子支持):了解誰在使用頻譜,出于什么目的。使用寬窄帶探測和攔截過程,它定位、識別、辨認、轉錄、分析可能的意圖,并評估致命性、敵對性和忠誠度。現代形式包括多層次的情報產品,如網絡電磁活動(CEMA),從地理到人物網絡。
  • EA(電子攻擊):利用頻譜,以EW效應爭奪該頻譜對自己的優勢。
  • EP(電子保護):是為保護和抵制干擾等攻擊而采取的行動。反干擾也可能包括抵抗ES、EA和CEMA產品的措施。

C. 查找、定位、追蹤、瞄準、攻擊、評估

在圖10中,Haigh和Andrusenko[15]提出了一個EW和AI的組合架構,它跨越了殺傷鏈階段,將AI的特征和分類輸入一個融合引擎,以建立一個意圖,這個意圖是由因果關系和異常檢測階段推斷出來的。

圖10 與EW功能相關的EW和AI能力[15]。

Haigh和Andrusenko的論文與EA之前的ES的數據融合觀點一致,同時保持EP。因此,人工智能方法被應用于特定發射器的分析、特征描述和分類,作為數據融合之前的模式匹配工作。然后,這些方法被用于異常檢測和因果關系搜索,以實現意圖識別。這是一個信息漏斗,在EA/EP方面,這些方法更多的是優化適應性,而不是智能,這貫穿于整個殺傷鏈,并應用于任務管理的決策援助和與電子戰令(EOB)和網絡管理有關的人為因素。不難看出,AI態勢評估、DM和機器學習(ML)能力與所有EW功能相關。每個認知型EW系統的第一步是電子支持(ES),以了解射頻頻譜。在人工智能界被稱為情況評估,ES確定誰在使用頻譜,他們在哪里和何時使用,以及是否有可以 "利用 "的模式。AI/ML技術可以使用特征估計、發射器特征和分類、數據融合、異常檢測和意圖識別。圖11顯示了任務前準備和任務后分析與任務中需求的重疊。

圖11 任務中、任務前和任務后的重疊部分

ES對環境進行分析,并創造出驅動決策者(DM)的觀測數據。日益復雜的情況將頻譜態勢感知(SSA)定義為 "收集有關頻譜使用的不同信息并處理這些信息以產生一個融合的頻譜圖"[15]。SSA收集、組織和處理EW所需的頻譜數據。SSA必須以近實時(NRT)的方式進行,以滿足任務中的決策者的需要,SSA必須結合各種支持技術,包括傳統的和認知的。然而,一個挑戰在于相關技術的整合和展示,其中只有少數是認知的,以減少脆性和處理新的發射器。人工智能和ML能力可以在每個層面上改善SSA,這是在其他相關SSA技術背景下對這些AI/ML技術的看法。一個完整的EW系統必須有多層面的SSA。未來的SSA系統可以用深度學習模型來生成潛在的特征,用經典的ML模型來進行任務中的更新,以及用混合模型來抵消有限的數據。此外,SSA不一定要完全依賴射頻數據: 它可以與非射頻數據融合,如視頻和靜態圖像、自由空間光學、或開源、戰術或作戰情報。跨越多個異質來源的分布式數據融合必須創建一個在空間、時間和頻率上都準確的連貫的戰地頻譜共同作戰圖。異常檢測、因果推理和意圖推理使作戰圖更加完整,以了解事件的影響并支持管理部門。

D. 影響范圍

Rudd-Orthner等人[14]用圖12中的 "影響范圍 "概念[18]擴展了這一概念,并增加了一個 "保護洋蔥 "框架,以根據數據需要選擇對策。

圖12 影響范圍

他們指出,威脅武器系統有變得更加復雜的趨勢,這種復雜性的增加至少可以部分歸因于:戰術的演變、技術發展的速度和數字化的現代化,但也有一種趨勢,即隨著人類決策和反應時間的減少,威脅的作用也在擴大;隨著自主系統的效力和使用的增加,這種情況也許更加明顯。自主系統的崛起在所有領域都在發展: 陸地、空中、海上、太空和網絡。自主系統的規模各不相同,從無人值守的槍支系統到自主空中平臺。這些自主平臺運作的作用也在不斷擴大,因此在打擊它們時,可能需要在綜合防御輔助系統中匹配復雜性,作為打擊復雜威脅系統的戰略。這些復雜平臺的作用和能力的增加,可能導致單一平臺的作用不大,并為其他平臺提供 "保護投射 "的要求。與此相結合,利益相關者群體也更加多樣化,科學家/工程師、機組人員和任務生產程序員之間的溝通機制也是挑戰,這樣他們都可能做出有意義的貢獻,并與他們的利益相關者群體的價值互補,正如Rudd-Orthner等人所說。

E. 拒止、降級、擾亂、欺騙、毀壞

圖12中的維恩圖顯示了數據可用性的 "影響范圍":保護平臺/部隊、威脅或武器系統和防御限制與反措施設計考慮相疊加。Rudd-Orthner等人指出,這些不同的反措施考慮加上不同的可用數據,可能對反措施戰術設計形成影響范圍。

F. 保護洋蔥的映射

Rudd-Orthner等人在[14]和[19]中應用了多視角威脅分析圖解技術,該技術基于判別器、操作視角、系統視角以及對策設計考慮和影響范圍的維恩圖,適用于保護的洋蔥。他們在維恩圖中描述了反措施的設計考慮,將反措施的設計意圖描繪成一種規范,而不是ECM干擾器技術設施。在這種情況下,反措施設計考慮表示戰術的反意圖。論文[14]和[19]還建立了一個保護洋蔥的概念,利用反措施設計的影響因素和組織成洋蔥層的數據源,將揭示的數據分層管理。其中這些層級建議的對策方法也是與該威脅殺傷鏈階段的威脅意圖直接相反的,使得它也是一個測量的反應和保護數據模型在所揭示的數據。表2顯示的是保護洋蔥的層級(第1層是最外層)和反措施設計考慮,影響范圍與威脅系統的殺傷鏈意圖的映射。表2提供了保護洋蔥的六個層次。

表2 保護洋蔥

洋蔥層/影響范圍/CM設計考慮因素 注釋
第1層發現/受保護的平臺/減少的可探測性 對抗早期預警、空中搜索或地面控制攔截雷達的探測或行為,使被保護平臺脫穎而出。該戰術針對的是殺傷鏈的意圖,并不顯眼,是利用對自身平臺數據的了解。
第2層定位/受保護的平臺/降低可探測性 誘餌和欺騙 具有欺騙性和誘騙性的反目標獲取或高度查找雷達可用于降低信息或反擊某個范圍或高度。
第三層識別/保護平臺 武器系統/降低可探測性 誘餌和欺騙 分散注意力 拒絕破壞 用旨在造成混亂的措施來對抗識別,以延遲對你的分類或身份的評估,識別可以基于行為或使用特殊雷達模式,如NCI。
第4層跟蹤/保護平臺武器系統/降低可探測性 誘餌和欺騙性分散注意力 用干擾、分散注意力和拒絕的方式來對抗威脅,可以是目標獲取雷達或更高數據率的搜索模式,如窄掃描軌道,同時掃描模式。
第5層 交戰/防御限制 武器系統保護平臺/降低可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 破壞 使用所有可用的能力擊敗威脅,硬殺和軟殺取決于ROE,是傳統的平臺自我保護。可以使用破鎖和信號處理以及跟蹤目標的戰術。
第6層 處置和效應/防御性限制 武器系統保護平臺/減少可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 毀滅 使用所有可用的軟硬殺傷能力擊敗威脅,是傳統的平臺自我保護。可能使用破鎖和信號與跟蹤處理的目標戰術,并可能同時采用針對尋的器和雷達的技術。

G. 認知電子戰系統

認知型電子戰系統的設計必須提供態勢感知、決策和學習能力。一般來說,系統要求推動了一系列關于哪些問題和它可能需要回答的問題的決定。決策可能是反復的,要么是集中的,要么是隨部隊效應范圍分布的。他們將一個問題表示為規格,并受制于AI代理的拍賣。就我們如何定義和調整優化函數而言,利用領域的物理學與參與的進展可能會減少狀態和交易空間。問題來自于像干擾這樣的設計結果所需的緊迫性和缺失的數據。因此,選擇對策和感覺的C4L參數、'while'或'if'條款都是數據要求,可能形成問題對話鏈或問題樹,在殺傷鏈的不同處置路線中需要。因此,這些對話鏈或問題樹就像專家系統的規則庫格式。因此,所需的數據就以拍賣的方式給投標的傳感器。這樣一來,邏輯路線總是有目的性的結果,而DM和傳感器的使用也是如此。另外,隨機森林[22]可以減少熵,增加信息增益。

雖然具有高度的適應性,但先進的雷達和軟件定義無線電(SDR)架構通常依賴于定制的API,單獨暴露每個參數。這種方法不適合EW系統中的近實時認知控制,因為緊密的耦合意味著人工智能不能做出全局性的決定。組成模塊必須是高度模塊化和可組合的,以消除這一障礙。通用接口允許模塊暴露其參數和依賴關系,從而實現全局優化和跨多個處理器的計算負載平衡。通常,由RESM(雷達電子支持措施)攔截的發射物是通過發射物數據庫識別的。發射者被識別出來,并在本地認可的海上圖像(LRMP)中得到體現。當通過數據庫確認為一種威脅時,它可以接受DM的詢問和拍賣:

  • RECM C4L反措施規范可能需要威脅、獲取類型、速度、仰視距離和威脅的各種電子反措施(ECCMs)邏輯;
  • DLS(誘餌發射系統)可能需要C4L數據并計算出發射角度和時間;
  • CMS可能會要求C4L說明采取的最佳路線(避免武器系統的盲弧)。

為此,我們需要一個中間代理,提供一個模塊化的結構組件,允許不同的技術提供不同的服務,并確保信息/控制的一致流動,與John Boyd的OODA循環[23]一致,但適用于數據處理和DM。

圖13 模塊化架構

軟件架構的一個例子是ADROIT。自適應動態無線電開源智能團隊(ADROIT):用中間代理認知控制SDR節點之間的協作。ADROIT項目正在建立一個開源的軟件定義的數據無線電,旨在由認知應用程序控制。模塊暴露了它的參數和它們的屬性(特別是讀/寫)。當一個模塊發生變化時(例如,增加一個新的參數),它只需揭示新的參數,并在一個發布-訂閱機制中公開參數(名稱、屬性),而不是為該新參數增加一個新的API函數;這也可以擴展為一個組播目的地,給后來仍需要定義的模塊。ADROIT用圖14所示的模塊實例化了中間代理。

圖14 ADROIT體系結構支持認知代理

處理不同的或變化的傳感器的一種可擴展的方式是,如果所有的設備可以減少不確定性或提供額外的數據來回答一個殺戮鏈階段的問題,就將它們定義為傳感器。因此,這些傳感器可以成為拍賣算法的參與者,以其回答問題的能力來競標。在不同的操作環境下,拍賣算法中的分數可以改變,因此,不同的傳感器選擇提供較低的可觀察性或與當前的ROE、受限的EMCON或當前的傳感器利用相一致。通過這種方式,形成了一個問答循環,完善了對情況的理解,同時在提問的基礎上做出增量決定,并使環境情況有利于他們的部隊使用保護洋蔥的一個版本。此外,同樣的拍賣優化可以與反措施一起執行,其概念是,如果一切都能影響當地的殺戮鏈決策或導致結論或問題發生在受害者身上,那么它就是一個影響者。由此可見,C4L提供了一種以標準形式指定反措施行動和傳感規格的方法;這些規格可以一起拍賣,以便在一個可適應的模型中獲得最佳效果和傳感,然后該模型將優化殺戮鏈的進展,為跟蹤的對手的殺戮鏈進展提供優勢。在圖15中,本文展示了EW系統如何在拍賣優化的基礎上與具有認知DM的作戰管理系統(CMS)集成。威脅的檢測/識別/鑒定/分類被轉移到不同的數據庫中,但這些過程和數據庫的不確定性導致了傳感器的重新任務。這些都是拍賣,根據傳感器解決情況的不確定性的能力來分配任務,并根據緊急程度來確定優先次序;這使用了從保護的角度預測威脅的殺傷鏈意圖。這些過程越可靠,立即識別和反應的概率就越高。為了進一步提高這一結果,管理部門必須考慮機器學習中的其他參數,以適應當地環境的傳感任務和對策效果的拍賣。

圖15 數據布局EWS與CMS集成

有些參數可能不為人所知,也可能沒有方法或傳感器來提供這些參數;因此,Rudd-Orthner等人[24]的專家系統的神經網絡形式作為數據庫的疊加,在這些情況下提供一個估計值。它還可以提供一個由貝葉斯網絡進一步引導的值,該網絡可以將從環境中收集的傳感器事實與來自其規則的知識結合起來,使其不容易被收集的事實所欺騙。此外,在圖16中,也是在人工智能的背景下,所提出的架構將EW系統與CMS結合起來。它通過一個反饋回路支持 "態勢感知",根據威脅殺傷鏈的位置重新安排傳感器的任務,以快速解決識別和確認的不確定性,更新跟蹤的準確性,并為CMS和EW系統資源提供戰術清單作為選擇。

圖16 ID標準交互模型

在圖16中,DM能力因此積極主動地利用感知能力直接處置威脅,并為反制措施/部署制定了時間表。這些反措施/部署應按照RuddOrthner等人的保護理念,利用推斷出的威脅的殺傷鏈位置階段,直接對抗威脅的意圖。因此,傳感要求可以在拍賣算法中與可供選擇的策略/反措施交錯安排。同樣,在威脅分析和處置的關鍵時刻,一些所需信息可能無法在DM中獲得,但可以使用RuddOrthner論文中提出的神經符號-AI專家系統方法的代數專家系統部分進行估計。可控的可觀察數據可能來自人工智能環境中的數學或認知學習發展過程。我們可以認為這些有助于識別目標的元素是可觀察的,這些元素在DM中是可控的。

圖17 CMS和EW CM系統中的威脅數據路徑

在圖17中,本文展示了一個威脅發射器從EW系統進入CMS部分的順序。從EW系統的庫或數據庫中識別截獲的發射器;該數據庫包含物理雷達特征: PRI、頻率、PW、振幅、掃描類型、掃描周期平臺等級和威脅名稱;采集類型的特征,ECCM,如原點干擾(HOJ)Chaffs辨別,紅外,雙導射頻和紅外。如果發射物未被識別為威脅,則在本地識別的海上圖像中直接代表發行者。如果被確認為威脅,它將遵循不同的路徑,如前所述。導彈的獲取和ECCM的類型在反應鏈中具有巨大的價值。如果它有HOJ能力,最好是通過C4L中捕獲的特定計算直接干預硬殺傷和誘餌發射;該選定的C4L規格是由保護的洋蔥頭選擇的,它與頻譜中的感應計劃一起安排。該規格將誘餌定位在C4L所確定的與發射船的一定距離和特定的β值。除了在CMS上表示威脅的到達方向外,EW系統還將C4L搜索數據和傳感規范發送到多功能雷達(MFR)和火控雷達(FCR)作為即時硬殺傷系統。本文在圖18中畫出了由人工智能支持的戰斗管理系統(CMS)的架構基礎。在標準環境塊中,還有四個相互關聯的組件:

1.傳感器管理,提供設備監視器(資源管理器)的管理,傳感器信息的收集和軌道管理;在這個塊中,所有的相關數據都匯聚到機載傳感器,如雷達、聲納、ESM雷達、通信ESM、導航輔助設備和氣象數據。在這個架構中,一個傳感器的任務和它的優先權來自于它的成熟度和殺傷鏈。在這方面,關于Rudd-Orthner等人,威脅意圖的成熟度被評估為使用保護洋蔥的反意圖對策,并嵌入到Haigh和Andrusenko的殺傷鏈階段,其中的整合是通過ADROIT架構的發布和訂閱機制,這允許快速和靈活的整合和擴展。

2.在架構的第二塊,有信息管理,其中本地軌道與來自鏈接網絡的軌道相關聯,根據識別標準識別目標的追蹤,管理技術決策輔助工具和信息,共享共同的操作畫面,該畫面中的不確定性和異常情況引起了傳感器的任務。

3.第三塊代表戰斗管理,它提供了對威脅的評估計劃和武器優先權的分配--演習的計算和艦隊內與戰斗有關的信息交流。

4.最后一個區塊是資產管理,使用C4L規范和序列,允許艦艇同時協調幾個進攻和確定的目標。

圖18 AI應用于CMS結構

在DM處理環境之外,人工智能也同樣適用于智能處理環境,類似的技術疊加數據庫和ML提取,走向專家系統規則捕獲[25]。在人工智能輔助的CMS中,數據流入信息管理數據融合,使計算機系統在沒有明確編程的情況下利用歷史數據進行預測或做出一些決定。機器學習使用從IMDF(信息管理數據融合)獲得的大量結構化和半結構化的數據,這樣機器學習模型就能產生準確的結果,或根據這些數據提供預測。

付費5元查看完整內容
北京阿比特科技有限公司