亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(RL)是提升國防安保行業無人機與機器人系統效能最具前瞻性的方法之一。本文在異常檢測(AD)系統中探討了強化學習作為模型選擇標準(MSC)方法的潛力及其相關問題。強化學習算法使此類系統能夠適應環境互動并從中學習,從而優化對復雜動態威脅的響應。通過這種方式,系統可引入具備更優決策流程的新狀態,提升作戰行動效能,同時讓強化學習驅動的系統既能學習新場景,又能在實時環境下執行精細防御行動。因此,強化學習在國防領域的重要性可概括為改變威脅識別方式、威脅響應方式乃至防御策略構想方式的革新潛力。整合強化學習的自治系統能夠在不可預測環境中運轉,精準評估威脅,并幾乎完全無需人工干預執行防御措施。這種多功能性在現代戰爭中至關重要,因為應對數年前未知威脅的首選方案正是此類系統。然而,將強化學習融入自主防御系統仍面臨重大挑戰:強化學習算法在多樣化關鍵場景中的穩定性與準確性提升、自主決策的法律與現實影響、以及學習算法遭受對抗性操縱可能引發的威脅。此外,此類系統必須在國際國內標準框架下開發部署,以滿足特定要求并建立應用公信力。本文通過案例研究與理論分析,深入探索這些戰略應用與議題,全面闡述強化學習提升自主防御功能的技術路徑,同時剖析相關重大難題,旨在論證強化學習具有定義國防技術發展軌跡的潛力,可在威脅不斷升級的背景下增強國家安全體系。

強化學習(RL)是機器學習最重要的分支領域之一,專注于智能體在當前情境下為實現最高累積獎勵而進行的決策行為(Sutton, R. S., & Barto, A. G. 2018)。這種方法尤其適用于無法用規則描述的環境——例如劇烈變化的戰場態勢,或其它無法通過明確定義規則調控行為的場景;因此該類技術可成功應用于軍用自主控制系統(如無人機與機器人)。自控系統作為現代戰術戰略的核心要素,因其能最大限度減少人員直接參戰從而降低傷亡風險,現已成為提升作戰效能的關鍵。其中,無人飛行器(UAV)、無人地面載具(UGV)及機器人系統可執行從純偵察監視到作戰打擊的多樣化任務。

強化學習的整合已帶來革命性變革,各系統能基于歷史經驗學習并實時決策,尤其在不可預測或敵對環境中效果顯著。強化學習在自主防御系統中的典型應用體現于無人機與機器人平臺:這些平臺通過自主作戰實現在多樣化條件下機動并獨立響應威脅。強化學習算法使系統無需針對所有突發狀況單獨編程,即可優化運動軌跡決策、目標識別及威脅規避策略。例如,自主無人機可被設定任務目標以穿越復雜環境、識別追蹤目標,并協同其他無人機達成整體作戰使命。強化學習通過增強戰場機器人系統決策能力,使其能執行拆彈排爆、地雷探測乃至危險區域人員搜救等任務。基于持續行動結果學習機制,這些機器人的實戰效能不斷增強(Chen, X., & Liu, B. 2020)。從國家戰略防御視角看,強化學習在自治防御系統的應用高度敏感。美國國防高級研究計劃局(DARPA 2021)指出,強化學習通過提升不同自治系統效能助力軍隊獲得競爭優勢。軍事領域的強化學習應用推動了全自主系統發展,大幅降低人工干預需求并優化軍事資產配置。然而,強化學習融入自主防御系統仍存在亟待突破的瓶頸:除倫理沖突與自主系統軍事行動法律地位問題外,責任歸屬與決策透明性難題,以及意外沖突升級風險(Smith, R. J., & Jones, A. M. 2019)均可能危及強化學習防御系統的穩定性。

自主防御系統

在定義自主防御系統時,此類技術被闡釋為通過最小必要輸入和指令進行操作或控制,并融合算法、人工智能及機器學習以實現實時決策執行(McLean, A. 2023)。這些系統由無人飛行器、機器人系統及人工智能自主載具等技術集合構成;其中部分系統用于監視、偵察、任務獲取和作戰目的,幾乎無需人工操作員指揮。若缺乏對自主防御系統作用的理解,則難以充分認知現代戰爭形態(Smith, J. 2024)。其主要優勢包括:首先,提升作戰效率;其次,減少人力介入;第三,實現力量集約化;最后,構成戰略核威懾屏障。無人機可在戰場上空保持較長效滯空時間,這對規劃決策至關重要。這使得數十至數百名操作員即可控制數百上千臺機器人資產,從而在不擴編兵力的前提下提升軍事編隊整體作戰效能(Brown, P. 2024)。然而在所有深度強化學習(DRL)技術中,強化學習(RL)因其能助力達成該目標而更適用于全自主防御系統。強化學習是一種將訓練行為與決策融合的學習機制,模型通過獎勵目標選擇與懲罰不良特征來構建實踐體系。總體而言,強化學習可應用于目標識別追蹤、隨機環境學習能力培養,以及開發防御型自由機動自主系統(AS)的新型任務規劃方法。毋庸置疑,自主防御系統在軍事領域屬新興事物且具備顯著優勢:高強度持續作戰能力、規避人員傷亡風險及高效預警能力。強化學習的融合更提升了系統適應性,使其成為當代戰爭中至關重要的戰略工具(Turner, M. 2024)。

動態對抗環境中的強化學習

強化學習(RL)是應對動態環境的強大工具,因其能在該類環境中學習最優策略。系統可隨環境變化優化策略,使智能體在不可預測環境中有效運作。在機器人領域,強化學習已用于開發能適應地形變化或障礙物的機器人系統,從而提升操作效率。模型驅動強化學習、元強化學習等方法可訓練智能體實時學習更新環境變化的能力。在防御戰略中,強化學習必須應對動態環境、突發威脅及其他對抗行為。因此需采用對抗訓練、多智能體強化學習(MARL)等方法。此類系統能在短時間內識別消除網絡威脅,增強關鍵資產防護效能。值得注意的是,強化學習在非防御領域(如金融算法交易、自動駕駛)的成功應用,提供了可轉化至防御場景的實踐經驗——例如應對市場管理信息系統(MIS)的交易策略生成。強化學習在高風險不可控環境中的成功案例,有力佐證了其在防御領域更廣闊的應用前景。

基于強化學習的防御系統架構

1.傳感器、執行器與決策模塊的強化學習算法集成

強化學習(RL)驅動的防御系統架構通常包含若干核心組件:傳感器、執行器及機器人決策單元。傳感器負責采集環境態勢數據,這對強化學習至關重要。例如在自主無人機中,攝像頭、激光雷達(LiDAR)與雷達等傳感器將實時數據傳輸至強化學習算法以供決策(Ranjan等,2020)。執行器作為模型物理執行單元,負責實現強化學習模型的決策輸出,例如調整無人機航跡或觸發防御機制(Bhatnagar等,2022)。前文所述決策模塊包含強化學習算法,其接收傳感器數據并根據習得策略生成行動指令。這些組件必須實現無縫互操作,以確保數據流暢交換與行動及時執行(Gao等,2023)。該架構需精心設計以應對防御場景的耦合性與不確定性,這使得接口設計與集成成為剛性需求(Mousavi等,2021)。

圖:RL驅動防御系統的組成和流程示意圖

2.仿真環境在強化學習模型訓練中的作用

仿真環境對防御系統強化學習模型訓練具有關鍵價值。它們提供基于合成數據的訓練環境,使算法在實戰部署前獲得充分訓練。通過模擬特定作戰環境與威脅態勢,強化學習模型可在規避實彈測試風險的前提下實現能力提升(Lillicrap等,2015)。真實場景模擬是強化學習算法高效訓練的另一要素,因其能復現復雜動態的現實環境(Tamar等,2016)。此外,仿真支持迭代優化——訓練模型根據仿真評估的性能數據進行持續修正(Schulman等,2017)。此類高擬真仿真環境率先驗證強化學習在動態對抗環境中的效能,并有助于解決模型實戰部署前的潛在問題(Baker等,2019)。

3.實戰部署挑戰與軟硬件協同設計考量

強化學習在防御系統部署中面臨的主要現實問題包括:核心挑戰在于仿真訓練模型轉實戰部署時的性能落差。仿真環境與現實條件的差異可能導致實戰表現不佳甚至完全失效(Tachet等,2020)。這要求采用軟硬件協同設計策略——即針對特定系統同步設計處理器/傳感器等硬件資源與強化學習模型等軟件組件(Xia等,2019)。此外,強化學習算法在物理系統的實時性實現及不可控因素處理亦存重大難點(Kahn等,2017)。設計過程必須權衡關鍵因素:機載硬件的日常算力限制,以及確保強化學習模型在可靠性與響應時間方面滿足嚴苛條件(Sutton & Barto,2018)。

強化學習在自主防御系統的戰略應用

強化學習(RL)正成為提升軍用無人機作戰效能的前沿技術。基于強化學習的方法可優化任務期間無人機航跡規劃與傳感器控制,有效規避危險態勢(Gao, Y.等,2021)。此類學習機制確能增強無人機環境適應能力,從而提升情報收集效率。在目標接戰、任務分配與追蹤領域,強化學習算法顯著提高無人機戰場目標定位與高精度追蹤能力。自適應導航是強化學習在無人機的另一重點應用方向,通過訓練無人機在擁擠敵對地形中的機動策略,實現實時決策并提升作戰區域生存幾率。協同強化學習技術已應用于無人機集群通信支持,使集群能夠協同達成任務目標(Kuwata, Y.等,2019)。該技術在搜救行動、廣域空中監視及突擊作戰中效果顯著。強化學習在自主地面載具的控制應用,則實現復雜地形的路徑點規劃、后勤最優補給路線決策及戰場態勢自適應(Liu X等,2020)。機器人應用中,強化學習在拆彈排爆與救援任務中發揮關鍵作用——機器人通過歷史處置經驗學習,顯著提升爆炸物處理精度與效率(Kalashnikov, D.等,2018)。多智能體強化學習對地面自主作戰單元的協同防御至關重要:多類型機器人系統可協同工作、交換信息并同步行動節奏以高效應對威脅。水下無人機及海軍防御系統中,強化學習算法用于在廣闊模糊水域探索最優作戰路徑與策略。海洋極端環境下,強化學習驅動系統可改進路徑規劃、威脅識別及規避策略。此類系統能適應海洋環境的非線性特征、水文動態及敵對潛艇/水雷等風險因素。海軍對抗期間需持續強化聲納等海洋探測器與強化學習的融合應用(Ma, H.等,2022)。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文闡述圖像處理技術在軍事領域的應用方案。展示數字圖像分析在軍事安全防御中的多元應用場景,重點探討地球地圖與合成孔徑雷達(SAR)數據中的目標檢測、武器識別、關鍵軍事據點/物體/目標的偵測與分割技術。此外,基于數學離散算法自主開發專用軟件,實現SAR數據中物體、區域、地形區域乃至軍事目標的智能檢測。通過數學建模實現圖像分割,并完成計算機軟件自主開發實現圖像分割功能。該技術使軍事指揮員可分析可視化戰場態勢,評估圖像中具體目標的威脅等級。軍事管理部門可據此制定安防策略與防御戰術決策。

付費5元查看完整內容

戰場物聯網(IoBT)的發展為增強態勢感知創造了新機遇。為提升IoBT在關鍵決策中的態勢感知潛力,需將設備數據轉化為用戶端可讀信息對象,并按需提供訪問。為此,提出利用自然語言處理(NLP)技術查詢數據庫并返回自然語言響應的工作流程。該方案采用適配邊緣設備的“大型語言模型”(LLMs)執行NLP任務,并選用特別適用于IoBT動態連接網絡的“圖數據庫”架構。本系統運用LLMs實現雙重功能:將自然語言問題映射為Cypher數據庫查詢語句,同時將數據庫輸出總結為自然語言反饋。在代表美國陸軍多用途傳感區(MSA)公開數據的數據庫上評估多款中型LLMs的表現,觀察到Llama 3.1(80億參數)在所有指標上均優于其他模型。最關鍵的是,本方案通過兩步處理機制放松了對生成Cypher查詢與真值代碼“精確匹配”(EM)的要求,實現了19.4%的準確率提升。該工作流程為在邊緣設備部署LLMs奠定了基礎,支持通過自然語言交互獲取關鍵決策信息對象。

當前針對物聯網(連接溫度傳感器至移動設備的互聯網絡)的研究日益增多。海量設備產生巨量數據集,需要強大存儲、處理與分析能力。由此衍生的洞察可增強環境“態勢感知”并優化決策[1]。軍事環境中實時數據處理與分析至關重要,尤其在IoBT網絡存在間歇性連接時——此時“邊緣設備”通過本地處理數據突破云計算限制[2]。LLMs在其它領域的顯著優勢在于能從龐大數據集提煉有效信息[2]–[4],并能根據自然語言問題生成特定代碼輸出[5],這對將自然語言提示轉化為數據庫查詢具有重要意義。本研究旨在確立LLMs在設備端處理IoBT生成數據的性能邊界:首先選用“圖數據庫”構建模擬IoBT結構(其動態節點管理能力優于SQL數據庫),圖數據庫支持網絡動態更新,高效處理深度互聯的“多關系數據”,其可擴展性確保查詢僅針對相關圖段執行(而SQL數據庫會因數據量增長導致“連接操作”性能下降),且更有效處理層級數據關系。

在多種圖數據庫中,本研究聚焦Neo4j數據庫及其Cypher查詢語言[6]。“Cypher查詢語言”(CQL)是專為圖結構設計的成熟查詢語言。現有研究主要集中于利用LLMs實現自然語言到Cypher代碼的映射[7]–[11],當前多數LLMs均具備CQL處理能力。本工作核心目標是構建人機數據庫交互界面:1)自然語言問題轉為數據庫查詢 2)將數據庫輸出與原始問題結合生成自然語言響應。該系統設想將實時IoBT數據存入設備或鄰近網絡數據庫,作戰人員可直接用自然語言查詢。LLMs先將問題轉譯為Cypher查詢語句,返回結果再與原始問題融合生成最終響應,為非專業用戶提供高效IoBT數據訪問通道。

第二步使用LLM放松了Cypher生成的“精確匹配”要求——當Cypher查詢正確提取核心信息及輔助數據時,即使形式不完全匹配,數據庫響應仍包含正確答案所需內容。第二階段的LLM可從響應中提煉有效信息回答用戶問題。本研究探索適用于戰場設備端的輕量化前沿模型,實現在無云端支持條件下提供免數據庫知識的自然語言接口。

核心貢獻包括:
? 設計、實施并評估面向設備端計算的動態數據庫自然語言查詢流程
? 測試LLMs生成Cypher代碼提取數據的能力
? 驗證LLMs將數據庫響應重構為自然語言句子的性能
? 建立LLMs與圖數據庫交互的評估框架

本方案僅需提供數據庫模式及單條查詢示例即可驅動小模型生成Cypher語句,并采用“零樣本模式”評估方案以契合IoBT場景的嚴苛資源限制(如設備功耗約束)。

圖:數據庫自然語言交互工作流。

付費5元查看完整內容

本文介紹了EdgeAgentX,一個集成了聯邦學習(FL)、多智能體強化學習(MARL)和對抗防御機制的新穎框架,專為軍事通信網絡量身定制。如綜合仿真所示,EdgeAgentX顯著改善了自主決策能力,降低了延遲,提高了吞吐量,并能穩健地抵御對抗性干擾。

在現代軍事通信網絡中,邊緣計算和自主人工智能對于在對抗環境中實現實時、彈性運行變得至關重要。戰術邊緣常面臨連接被拒絕、中斷、間歇且受限的狀況,這意味著前線部隊必須在最小化依賴中心化基礎設施的情況下運作。這要求在邊緣具備能夠本地決策的自主智能體。“自主人工智能”指的是賦予自主決策能力的人工智能系統——本質上就是相互連接的人工智能體,可以在無需持續人工監督的情況下動態運行。在邊緣環境中,此類自主人工智能可以改變游戲規則,使作戰人員的設備、無人機和傳感器能夠在運行中協作和適應。

邊緣計算將計算和智能推向更靠近數據源的位置,減少了對遙遠數據中心的依賴。這帶來了延遲降低、可靠性提高,即使云鏈接中斷也能持續運作。對于關鍵任務的軍事應用——從自主無人機群到實時戰術決策輔助——即使毫秒級的延遲或短暫的通信中斷也可能造成干擾。美國國防部強調,“戰術邊緣必須具備彈性……能在無人監督時自主執行任務,并能適應變化。”這凸顯了能夠在動態、對抗條件下獨立學習和行動的邊緣人工智能體的重要性。

然而,在邊緣實現復雜人工智能面臨挑戰。單個邊緣設備的數據和計算能力有限,因此需要聯邦學習(FL)方法在眾多分布式節點上協作訓練魯棒的人工智能模型。聯邦學習允許多方(如士兵設備、車輛或基站)聯合學習一個共享模型,而無需共享原始敏感數據,從而保護作戰安全性。同時,軍事網絡中的決策問題天然涉及多個智能體(如多個無線電或自主單位)的交互——這種場景非常適合多智能體強化學習(MARL)。通過在智能體之間交換信息或經驗,可以大大加速學習,策略也能更好地處理龐大的狀態/動作空間。特別是,像MADDPG(多智能體深度確定性策略梯度)這樣的多智能體深度強化學習算法,通過中心化訓練和去中心化執行實現智能體間的協調學習,能在復雜環境中產生更穩定和最優的行為。最后,對抗者的存在意味著對抗性人工智能防御至關重要。對手可能試圖投毒模型、干擾通信或用欺騙性輸入誤導人工智能。需要魯棒的智能體訓練和安全聚合機制來確保人工智能體在受攻擊時仍然可靠有效。

EdgeAgentX——通過引入一個新穎的三層框架來滿足這些需求,該框架集成了聯邦學習、多智能體強化學習和對抗防御,用于軍事網絡中的邊緣人工智能。總之,本文的貢獻如下:

? 提出了EdgeAgentX,一種三層架構,將大規模聯邦學習與設備端智能體智能相結合。該設計使邊緣設備網絡能夠協作學習改進通信性能(吞吐量、時延)的策略,而無需進行中心化數據池化。 ? 在框架中整合了多智能體深度強化學習方法(MADDPG),促進異構智能體(如無線電、無人機、傳感器)之間的有效學習和協調。MADDPG的中心化訓練/去中心化執行范式使智能體能夠學習超越獨立學習基線的聯合策略。 ? 開發并集成了對抗性人工智能防御機制以強化該框架。這些機制包括魯棒的聯邦聚合(以減輕模型投毒)、智能體級對抗訓練(以抵御輸入擾動或干擾)和安全通信協議。這確保了學習到的策略即使在存在惡意行為者或嘈雜環境的情況下也能保持穩定可靠。 ? 在一個模擬的軍事通信場景中對EdgeAgentX進行了全面的實驗評估。評估了關鍵指標,如端到端時延、網絡吞吐量和學習收斂時間。結果表明,EdgeAgentX優于基線方法(獨立強化學習、中心化訓練以及無MARL的標準聯邦學習)——實現了更低的延遲、更高的吞吐量和更快的收斂速度。我們還展示了該框架對抗對抗性干擾的韌性,在模擬攻擊條件下性能下降最小。

本文其余部分組織如下。第二節詳細描述了提出的EdgeAgentX框架及其三層架構。第三節定義了系統模型和算法方法,包括多智能體環境和學習算法。第四節介紹了我們的實驗評估,將EdgeAgentX與基線方法進行比較并討論了結果。最后,第五節總結了論文并概述了未來工作的方向。

圖1. EdgeAgentX的概念架構展示了三層設計——聯邦學習協調層(全局層)、多智能體強化學習層(分布式邊緣智能層)和對抗防御層(安全與魯棒層)。

付費5元查看完整內容

隨著技術快速發展,空中交互模式日益復雜,智能空戰已成為多智能體系統領域前沿研究方向。在此背景下,大規模空戰場景的動態性與不確定性帶來顯著挑戰,包括可擴展性問題、計算復雜性及多智能體協同決策難題。為解決這些問題,我們提出一種基于圖結構與零階優化的多智能體強化學習(MADRL)新型自主空戰決策方法——GraphZeroPPO算法。該方法創新性地將GraphSAGE圖網絡與零階優化融入MADRL框架,通過圖結構適應多智能體系統高動態與高維特性,利用高效采樣策略實現導彈發射快速決策,同時借助零階優化有效探索全局最優解。最后,我們展示了在1v1與8v8空戰場景下的仿真實驗及對比結果。研究表明,該方法能有效適應大規模空戰環境,同時實現高勝率與快速決策性能。

付費5元查看完整內容

人工智能在軍事領域的應用已有數十年歷史,但隨著大型語言模型(LLM)能力激增,這些系統極有可能在現代戰爭中發揮更大作用。既往研究表明,LLM在兵棋推演模擬中傾向于支持沖突升級,暴露出軍事化人工智能潛在的危險邏輯缺陷。基于這些研究,我們測試了不確定性、思維鏈提示與溫度參數如何影響LLM建議采取激進行動的傾向。與先前結論不同,我們發現測試模型普遍優先選擇外交手段而非沖突升級。然而,研究同時揭示:時間與情報的不確定性、以及思維鏈提示機制,往往會導致更具攻擊性的行動建議。這些發現表明,特定威脅條件下采用基于LLM的決策支持系統可能更具安全性。

付費5元查看完整內容

合成數據生成已成為人工智能應用中應對數據稀缺、隱私問題和資源優化等相關挑戰的重要方法。本文探討了合成數據生成方法的最新進展,重點關注生成學習、遷移學習和建模技術。生成學習使用機器學習模型來復制現實世界數據中的統計模式。同時,遷移學習允許在相關任務中進行知識遷移,從而減少數據稀缺帶來的影響。建模技術,如基于統計和機器學習的方法,可創建與真實數據分布密切相關的合成數據。本文探討了各種方法和案例研究及其在不同應用領域的意義,重點是軍事領域。此外,基準分析表明了生成對抗網絡和變異自動編碼器在合成數據生成任務中的有效性。考慮到遷移學習策略的優缺點和應用領域,對遷移學習策略進行了評估。評估了生成合成場景的建模技術。論文最后討論了合成數據生成對加強軍事領域決策支持的重要性。

人工智能是當今世界最重要的話題之一。人工智能(AI)是指開發能夠執行通常需要人類智能才能完成的任務的計算機系統。這些任務包括理解自然語言、識別模式、從經驗中學習和做出決策。有了人工智能,機器可以分析大量數據、識別趨勢并做出預測,從而改進決策、提高生產率并增強用戶體驗。開發人工智能成本高昂,而且需要專業技術知識,因此導致技術熟練的專業人員短缺。人工智能系統還可能延續訓練數據中存在的偏見,從而限制其公平性。人工智能的關鍵要求之一是真實世界的數據集。盡管與技術進步相關的數據集數量龐大且不斷增長,但主要挑戰之一是數據質量低且稀缺,尤其是在軍事領域。要應對這一挑戰,需要解決兩個重要問題:儉約型人工智能和合成數據。

儉約型人工智能是一種技術,旨在利用較少的數據和計算資源實現人工智能模型的魯棒性。它涉及用有限的資源訓練人工智能系統,重點是輸入節儉和學習節儉。其目標是在使用較少數據和優化學習過程的同時實現預測質量。在某些領域,如軍事領域,出于安全原因,可能無法隨時獲得完整的數據庫。在這種情況下,節儉的人工智能就變得至關重要。為了克服缺乏數據的問題,研究人員和工程師們正在探索不同的方法。其中一種方法是所謂的 “遷移學習”,即使用已經從足夠數據集中學習過的現有人工智能系統。另一種技術是數據生成,即利用虛擬環境生成與真實環境條件非常相似的數據。數據增強是另一種方法,涉及通過對現有數據進行轉換或修改來生成新數據。將數據生成和數據擴增結合起來,可以獲得更全面、更多樣的數據集。

數據具有重要價值,但質量至關重要。隨著企業和研究人員對數據的依賴程度越來越高,對高質量數據和隱私的需求也變得越來越重要。由人工生成的信息組成的合成數據正在成為應對這些挑戰的強大解決方案。合成數據通常比真實數據質量更高。此外,還應實施隱私保護措施,防止關鍵信息泄露。在軍事領域,由于行動的動態性和高風險,數據收集具有挑戰性。然而,由于所涉及數據的敏感性,隱私問題在軍事領域非常普遍。合成數據生成被證明是一種有價值的創新解決方案。雖然合成數據是一個令人信服的概念,但其生成卻要求精確。它必須是可信的,并符合原始數據的基本分布。因此,負責生成合成數據的算法必須表現出魯棒性,并有效捕捉真實數據中固有的模式。

付費5元查看完整內容

配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。

在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。

  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。

  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

付費5元查看完整內容

本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。

在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。

付費5元查看完整內容

本文介紹了一種通過整合領域知識和基于注意力的策略機制來增強多智能體強化學習(MARL)的替代方法。方法側重于將特定領域的專業知識融入學習過程,從而簡化協作行為的開發。這種方法旨在通過使智能體專注于復雜任務的重要方面,從而優化學習曲線,降低與 MARL 相關的復雜性和學習開銷。在我們的模型中,注意力機制的利用起到了關鍵作用。它可以有效處理動態上下文數據和智能體之間細微的互動,從而做出更精細的決策。在斯坦福智能系統實驗室(SISL)“追逐 ”和 “多粒子環境”(MPE)“簡單擴展 ”等標準 MARL 場景中的應用表明,我們的方法既能提高學習效率,又能提高協作行為的有效性。結果表明,我們基于注意力的方法可以在行動層面整合特定領域的知識,是提高 MARL 訓練過程效率的可行方法。

付費5元查看完整內容

我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。

付費5元查看完整內容
北京阿比特科技有限公司