亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文闡述圖像處理技術在軍事領域的應用方案。展示數字圖像分析在軍事安全防御中的多元應用場景,重點探討地球地圖與合成孔徑雷達(SAR)數據中的目標檢測、武器識別、關鍵軍事據點/物體/目標的偵測與分割技術。此外,基于數學離散算法自主開發專用軟件,實現SAR數據中物體、區域、地形區域乃至軍事目標的智能檢測。通過數學建模實現圖像分割,并完成計算機軟件自主開發實現圖像分割功能。該技術使軍事指揮員可分析可視化戰場態勢,評估圖像中具體目標的威脅等級。軍事管理部門可據此制定安防策略與防御戰術決策。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

為破解軍事智能裝備預測性維護中智能化與網絡化程度低、物理模型構建困難等問題,本研究針對人工智能技術在軍事智能裝備中的應用框架、關鍵技術及保障決策方法展開探索。通過將預測性健康管理(PHM)系統架構融入軍事智能裝備健康管理體系,充分發揮人工智能全域通信、泛在感知與自主學習等核心能力,實現軍事智能裝備健康管理的數據驅動化、智能化和網絡化轉型。本研究成果可為復雜戰場環境下軍事智能裝備保障提供參考路徑,有效降低運維成本,持續提升保障效能。

本文重點研究人工智能技術(AIT)在機電控制系統(MECS)中的應用:首先闡釋AIT基礎理論與概念框架,繼而開發現代化AIT核心技術,結合我國現代企業機電控制系統現狀剖析現存瓶頸,最終探究AIT與機械系統的融合路徑,重點討論其在機械電子孔口子系統與電氣控制系統集成中的實踐應用。

"軍事智能裝備"泛指具備預測、感知、分析、推理、決策及控制能力的裝備體系。其在裝備數控化基礎上演進為更高級形態,可顯著提升生產效能與制造精度。其發展關鍵技術涵蓋缺陷檢測與健康維護技術(如高端數控機床、工業機器人),而故障預測與健康管理(PHM)技術正成為未來保障體系的核心方向。隨著軍事智能裝備復雜度提升,構建部件或系統的精確數學模型愈發困難。利用裝備全生命周期多節點歷史數據進行建模,相較物理分析模型更有利于實現PHM功能。鑒于軍事智能裝備向信息化、智能化、網絡化演進,其維護流程也需同步實現網絡協同與智能決策。本研究聚焦PHM與人工智能的融合應用,著力提升軍事裝備智能保障的決策水平、力量編成、方法革新及效能增益,為PHM智能化與網絡化維護模式的落地實施提供支撐。

未來智能化作戰形態演變

高端技術的廣泛運用正在深刻改變制勝機理。信息力已超越火力成為戰爭勝負的決定性要素,控制取代摧毀成為壓制對手的首選手段。作戰體系中集群單元的影響力超越傳統集中兵力效果,催生出三大新型作戰樣式:基于集群協同的"新型智能作戰"(亦稱分布式協同戰)、基于多域集群的"集群攻防戰"、以及創新理論體系衍生的"電磁全維戰",三者共同構成未來智能化戰爭的基本形態。

付費5元查看完整內容

強化學習(RL)是提升國防安保行業無人機與機器人系統效能最具前瞻性的方法之一。本文在異常檢測(AD)系統中探討了強化學習作為模型選擇標準(MSC)方法的潛力及其相關問題。強化學習算法使此類系統能夠適應環境互動并從中學習,從而優化對復雜動態威脅的響應。通過這種方式,系統可引入具備更優決策流程的新狀態,提升作戰行動效能,同時讓強化學習驅動的系統既能學習新場景,又能在實時環境下執行精細防御行動。因此,強化學習在國防領域的重要性可概括為改變威脅識別方式、威脅響應方式乃至防御策略構想方式的革新潛力。整合強化學習的自治系統能夠在不可預測環境中運轉,精準評估威脅,并幾乎完全無需人工干預執行防御措施。這種多功能性在現代戰爭中至關重要,因為應對數年前未知威脅的首選方案正是此類系統。然而,將強化學習融入自主防御系統仍面臨重大挑戰:強化學習算法在多樣化關鍵場景中的穩定性與準確性提升、自主決策的法律與現實影響、以及學習算法遭受對抗性操縱可能引發的威脅。此外,此類系統必須在國際國內標準框架下開發部署,以滿足特定要求并建立應用公信力。本文通過案例研究與理論分析,深入探索這些戰略應用與議題,全面闡述強化學習提升自主防御功能的技術路徑,同時剖析相關重大難題,旨在論證強化學習具有定義國防技術發展軌跡的潛力,可在威脅不斷升級的背景下增強國家安全體系。

強化學習(RL)是機器學習最重要的分支領域之一,專注于智能體在當前情境下為實現最高累積獎勵而進行的決策行為(Sutton, R. S., & Barto, A. G. 2018)。這種方法尤其適用于無法用規則描述的環境——例如劇烈變化的戰場態勢,或其它無法通過明確定義規則調控行為的場景;因此該類技術可成功應用于軍用自主控制系統(如無人機與機器人)。自控系統作為現代戰術戰略的核心要素,因其能最大限度減少人員直接參戰從而降低傷亡風險,現已成為提升作戰效能的關鍵。其中,無人飛行器(UAV)、無人地面載具(UGV)及機器人系統可執行從純偵察監視到作戰打擊的多樣化任務。

強化學習的整合已帶來革命性變革,各系統能基于歷史經驗學習并實時決策,尤其在不可預測或敵對環境中效果顯著。強化學習在自主防御系統中的典型應用體現于無人機與機器人平臺:這些平臺通過自主作戰實現在多樣化條件下機動并獨立響應威脅。強化學習算法使系統無需針對所有突發狀況單獨編程,即可優化運動軌跡決策、目標識別及威脅規避策略。例如,自主無人機可被設定任務目標以穿越復雜環境、識別追蹤目標,并協同其他無人機達成整體作戰使命。強化學習通過增強戰場機器人系統決策能力,使其能執行拆彈排爆、地雷探測乃至危險區域人員搜救等任務。基于持續行動結果學習機制,這些機器人的實戰效能不斷增強(Chen, X., & Liu, B. 2020)。從國家戰略防御視角看,強化學習在自治防御系統的應用高度敏感。美國國防高級研究計劃局(DARPA 2021)指出,強化學習通過提升不同自治系統效能助力軍隊獲得競爭優勢。軍事領域的強化學習應用推動了全自主系統發展,大幅降低人工干預需求并優化軍事資產配置。然而,強化學習融入自主防御系統仍存在亟待突破的瓶頸:除倫理沖突與自主系統軍事行動法律地位問題外,責任歸屬與決策透明性難題,以及意外沖突升級風險(Smith, R. J., & Jones, A. M. 2019)均可能危及強化學習防御系統的穩定性。

自主防御系統

在定義自主防御系統時,此類技術被闡釋為通過最小必要輸入和指令進行操作或控制,并融合算法、人工智能及機器學習以實現實時決策執行(McLean, A. 2023)。這些系統由無人飛行器、機器人系統及人工智能自主載具等技術集合構成;其中部分系統用于監視、偵察、任務獲取和作戰目的,幾乎無需人工操作員指揮。若缺乏對自主防御系統作用的理解,則難以充分認知現代戰爭形態(Smith, J. 2024)。其主要優勢包括:首先,提升作戰效率;其次,減少人力介入;第三,實現力量集約化;最后,構成戰略核威懾屏障。無人機可在戰場上空保持較長效滯空時間,這對規劃決策至關重要。這使得數十至數百名操作員即可控制數百上千臺機器人資產,從而在不擴編兵力的前提下提升軍事編隊整體作戰效能(Brown, P. 2024)。然而在所有深度強化學習(DRL)技術中,強化學習(RL)因其能助力達成該目標而更適用于全自主防御系統。強化學習是一種將訓練行為與決策融合的學習機制,模型通過獎勵目標選擇與懲罰不良特征來構建實踐體系。總體而言,強化學習可應用于目標識別追蹤、隨機環境學習能力培養,以及開發防御型自由機動自主系統(AS)的新型任務規劃方法。毋庸置疑,自主防御系統在軍事領域屬新興事物且具備顯著優勢:高強度持續作戰能力、規避人員傷亡風險及高效預警能力。強化學習的融合更提升了系統適應性,使其成為當代戰爭中至關重要的戰略工具(Turner, M. 2024)。

動態對抗環境中的強化學習

強化學習(RL)是應對動態環境的強大工具,因其能在該類環境中學習最優策略。系統可隨環境變化優化策略,使智能體在不可預測環境中有效運作。在機器人領域,強化學習已用于開發能適應地形變化或障礙物的機器人系統,從而提升操作效率。模型驅動強化學習、元強化學習等方法可訓練智能體實時學習更新環境變化的能力。在防御戰略中,強化學習必須應對動態環境、突發威脅及其他對抗行為。因此需采用對抗訓練、多智能體強化學習(MARL)等方法。此類系統能在短時間內識別消除網絡威脅,增強關鍵資產防護效能。值得注意的是,強化學習在非防御領域(如金融算法交易、自動駕駛)的成功應用,提供了可轉化至防御場景的實踐經驗——例如應對市場管理信息系統(MIS)的交易策略生成。強化學習在高風險不可控環境中的成功案例,有力佐證了其在防御領域更廣闊的應用前景。

基于強化學習的防御系統架構

1.傳感器、執行器與決策模塊的強化學習算法集成

強化學習(RL)驅動的防御系統架構通常包含若干核心組件:傳感器、執行器及機器人決策單元。傳感器負責采集環境態勢數據,這對強化學習至關重要。例如在自主無人機中,攝像頭、激光雷達(LiDAR)與雷達等傳感器將實時數據傳輸至強化學習算法以供決策(Ranjan等,2020)。執行器作為模型物理執行單元,負責實現強化學習模型的決策輸出,例如調整無人機航跡或觸發防御機制(Bhatnagar等,2022)。前文所述決策模塊包含強化學習算法,其接收傳感器數據并根據習得策略生成行動指令。這些組件必須實現無縫互操作,以確保數據流暢交換與行動及時執行(Gao等,2023)。該架構需精心設計以應對防御場景的耦合性與不確定性,這使得接口設計與集成成為剛性需求(Mousavi等,2021)。

圖:RL驅動防御系統的組成和流程示意圖

2.仿真環境在強化學習模型訓練中的作用

仿真環境對防御系統強化學習模型訓練具有關鍵價值。它們提供基于合成數據的訓練環境,使算法在實戰部署前獲得充分訓練。通過模擬特定作戰環境與威脅態勢,強化學習模型可在規避實彈測試風險的前提下實現能力提升(Lillicrap等,2015)。真實場景模擬是強化學習算法高效訓練的另一要素,因其能復現復雜動態的現實環境(Tamar等,2016)。此外,仿真支持迭代優化——訓練模型根據仿真評估的性能數據進行持續修正(Schulman等,2017)。此類高擬真仿真環境率先驗證強化學習在動態對抗環境中的效能,并有助于解決模型實戰部署前的潛在問題(Baker等,2019)。

3.實戰部署挑戰與軟硬件協同設計考量

強化學習在防御系統部署中面臨的主要現實問題包括:核心挑戰在于仿真訓練模型轉實戰部署時的性能落差。仿真環境與現實條件的差異可能導致實戰表現不佳甚至完全失效(Tachet等,2020)。這要求采用軟硬件協同設計策略——即針對特定系統同步設計處理器/傳感器等硬件資源與強化學習模型等軟件組件(Xia等,2019)。此外,強化學習算法在物理系統的實時性實現及不可控因素處理亦存重大難點(Kahn等,2017)。設計過程必須權衡關鍵因素:機載硬件的日常算力限制,以及確保強化學習模型在可靠性與響應時間方面滿足嚴苛條件(Sutton & Barto,2018)。

強化學習在自主防御系統的戰略應用

強化學習(RL)正成為提升軍用無人機作戰效能的前沿技術。基于強化學習的方法可優化任務期間無人機航跡規劃與傳感器控制,有效規避危險態勢(Gao, Y.等,2021)。此類學習機制確能增強無人機環境適應能力,從而提升情報收集效率。在目標接戰、任務分配與追蹤領域,強化學習算法顯著提高無人機戰場目標定位與高精度追蹤能力。自適應導航是強化學習在無人機的另一重點應用方向,通過訓練無人機在擁擠敵對地形中的機動策略,實現實時決策并提升作戰區域生存幾率。協同強化學習技術已應用于無人機集群通信支持,使集群能夠協同達成任務目標(Kuwata, Y.等,2019)。該技術在搜救行動、廣域空中監視及突擊作戰中效果顯著。強化學習在自主地面載具的控制應用,則實現復雜地形的路徑點規劃、后勤最優補給路線決策及戰場態勢自適應(Liu X等,2020)。機器人應用中,強化學習在拆彈排爆與救援任務中發揮關鍵作用——機器人通過歷史處置經驗學習,顯著提升爆炸物處理精度與效率(Kalashnikov, D.等,2018)。多智能體強化學習對地面自主作戰單元的協同防御至關重要:多類型機器人系統可協同工作、交換信息并同步行動節奏以高效應對威脅。水下無人機及海軍防御系統中,強化學習算法用于在廣闊模糊水域探索最優作戰路徑與策略。海洋極端環境下,強化學習驅動系統可改進路徑規劃、威脅識別及規避策略。此類系統能適應海洋環境的非線性特征、水文動態及敵對潛艇/水雷等風險因素。海軍對抗期間需持續強化聲納等海洋探測器與強化學習的融合應用(Ma, H.等,2022)。

付費5元查看完整內容

將人工智能技術應用于軍事系統引發重大風險,主要源于國際人道法遵約要求與戰場可靠性能考量。基于風險的監管路徑能依據系統類型特質的風險性質與嚴重度定制緩釋措施,避免過度阻礙技術發展與應用。本文提出五級風險分層框架,采用定性模型評估不同軍事系統風險,其參數體系反映核心關切維度;進而主張建立差異化風險緩釋機制,探討可納入的緩釋措施類型。該路徑還通過兩種方式促進AI軍事系統監管國際共識:首先將龐雜風險解構為簡明集合以聚焦討論;其次推動負責任國家通過自我監管確保可靠性能,為爭議問題建立共同基礎。

當前國際社會普遍認同:人工智能(AI)技術應用于各類系統的風險重大,須妥善應對。近年多邊機構在制定AI全球標準方面取得顯著進展,涵蓋技術標準與負責任AI的倫理政策維度(Kerry等,2021)。2018年七國集團(G7)同意建立"全球人工智能伙伴關系"(GPAI),該多邊倡議致力于探索AI發展的監管挑戰與機遇。公私機構亦涌現大量宣言與框架指導負責任AI發展,其中許多已從原則聲明演進為完整政策框架。軍事領域,2019年聯合國(UN)確立致命性自主武器系統(LAWS)新興技術使用指導原則(聯合國裁軍事務廳,2019);2020年2月美國防部通過《AI倫理原則》(美國防部,2020),然其未必專門針對軍事系統。值得注意的是,歐盟對AI應用監管已采用風險分級路徑。

原則雖是政策制定實施的起點,仍需細化機制指導落地。對軍事系統采用風險分級監管,有望成為從緩釋原則轉向政策實踐的有效路徑。因各類軍事系統風險差異顯著,統一緩釋策略將導致三重困境:對高風險系統失之過寬,對低風險系統矯枉過正,阻礙對人類有益的軍事技術發展。風險分級路徑則可規避這些缺陷。

本文首先剖析AI技術特性如何引致系統潛在問題,比較民用與軍事系統風險分級路徑的演化原則;聚焦軍事系統,探討其核心AI風險關切;主要貢獻在于提出"風險分級體系",勾勒軍事AI系統風險緩釋的實施框架。該體系通過精細化緩釋路徑促進軍事AI責任領域的國際外交:聚焦關鍵議題推動爭議問題早期共識。本文還論證:在AI軍事系統全生命周期實施風險緩釋措施并非零和博弈,純粹基于提升作戰效能的考量亦構成采納這些措施的充分理由。

付費5元查看完整內容

當前假新聞已成為全球性嚴峻挑戰,社交媒體快速傳播錯誤信息的能力加劇了這一問題。本文提出基于大語言模型(LLM)能力的新型特征計算流程構建方法,應對假新聞檢測的緊迫挑戰。核心目標在于優化可疑文本屬性轉化為分類適用數值向量的過程,從而填補系統整合語言線索與深度上下文嵌入的研究空白。在英語(FakeNewsNet)和烏克蘭語(真假新聞)數據集上的實驗表明:該方法以88.5%(英語)和86.7%(烏克蘭語)準確率超越四個基線模型。關鍵發現顯示:將復述比率、情感比率等數值指標與LLM嵌入結合,可提升欺詐文章檢測召回率,較標準技術平均提高2-3個百分點。這些結果表明所提特征計算流程在保持模型決策透明度的同時顯著提升檢測精度。研究最終強調:系統化設計的數值特征對LLM嵌入的補充至關重要,為構建更可靠、適應性強且可解釋的假新聞檢測系統指明路徑。

假新聞——偽裝成可信新聞的虛假或誤導性內容——在數字時代已發展為全球性重大威脅[1,2]。超過36億社交媒體用戶使未經核實信息突破傳統編輯監管快速傳播,加速虛假敘事擴散[2]。2016年美國總統大選[3]與2019年印度大選[4]等事件印證了錯誤信息影響輿論的速度。例如新冠疫情期間,關于病毒及疫苗的有害謠言在網絡蔓延,削弱公共衛生信息公信力。研究表明假新聞比真實新聞傳播更快更廣[5],可能加劇社會極化、侵蝕主流媒體信任[6]甚至煽動暴力[7,8]。過去十年研究者聚焦機器學習(ML)與自然語言處理(NLP)方法實現大規模虛假信息識別[9]。早期嘗試將假新聞檢測形式化為二分類問題——僅通過文本分析區分真假新聞[2]。傳統方法采用樸素貝葉斯、支持向量機(SVM)或隨機森林等算法,結合n元語法或專業詞典等特征工程,有時取得較好效果[10]。然而假新聞制造者適應偽裝能力意味著捕捉深層語義線索仍是開放挑戰[7,11,12]。

深度神經網絡(特別是卷積神經網絡CNN與長短期記憶網絡LSTM)被提出用于自動學習潛在文本表征。盡管LSTM在某些基準任務中準確率超99%[10],但綜合實驗證實:除非融入更豐富上下文理解,高度復雜或領域特定的假新聞仍能規避這些模型[7,8]。同時詞嵌入技術(如TF-IDF、Word2Vec和FastText)通過將單詞映射為稠密向量改進了詞袋模型[13]。盡管能捕獲語義關系,這些靜態嵌入仍難以應對多義詞與語境變化[1]。基于Transformer的模型開創了上下文嵌入新范式:雙向Transformer編碼器(BERT)[14]可捕捉微妙語言線索,尤其在領域特定任務微調后。研究證實BERT在包括虛假信息檢測的多個NLP任務中顯著超越傳統基線[15]。但在實際假新聞場景(尤其多語言環境)部署BERT仍受限于領域數據匱乏與資源開銷[16]。

大語言模型(LLM)如OpenAI的GPT-4[17]與Meta的LLaMA[18]的興起,為利用海量預訓練語料獲取高級文本表征提供機遇。初步研究表明LLM嵌入能識別小模型無法察覺的微妙虛假信息線索[19]。然而高計算需求與LLM決策解釋難題仍未解決[20,21]。對此可解釋人工智能(XAI)領域研究提出將深度學習預測能力與可解釋機制結合以闡明分類結果[22]。但多數文本分類XAI方法仍難將內在特征映射為終端用戶可理解的文本線索。基于這些挑戰,本研究引入新型特征計算流程構建方法,借鑒可解釋LLM流程的洞見:將檢測分解為合成可疑特征→數值化計算特征→構建魯棒模型→生成透明結論的鏈式任務。

本研究目標是通過整合LLM驅動的特征提取選擇框架與闡明特征重要性的可解釋策略,增強假新聞檢測能力。旨在證明該流程能提升多語言文本數據的準確性與可解釋性。主要貢獻如下:
? 受可解釋AI研究啟發,提出假新聞檢測特征計算流程構建方法
? 在傳統LLM對比(TF-IDF/Word2Vec/BERT)基礎上,新增使用大語言模型計算解釋特征的顯式步驟,彌合原始嵌入與透明決策的鴻溝
 ? 在雙數據集驗證LLM驅動特征實現最高精度(英語88.5%/烏克蘭語86.7%),并闡釋框架如何揭示文本被判定虛假的原因

本文結構如下:第2章精煉相關工作,闡明方法如何融合現有特征提取技術與可解釋性;第3章詳述新提出的任務分解架構、數據流及特征計算優化機制;第4章報告實驗結果(含現有方法定量對比);第5章探討優勢缺陷與開放性問題;第6章展望未來(聚焦數值結果、現存挑戰及研究方向)。

圖1:本方案整體工作流程
融合基于LLM的嵌入表示、數值化特征計算及最終專家結論模板。圖示闡明本方法的四大核心任務:
(i) 特征合成 → (ii) 特征計算流程構建 → (iii) 機器學習模型建立 → (iv) 專家結論模板生成
展示原始文本與衍生特征在各階段的流向。

付費5元查看完整內容

隨著技術快速發展,空中交互模式日益復雜,智能空戰已成為多智能體系統領域前沿研究方向。在此背景下,大規模空戰場景的動態性與不確定性帶來顯著挑戰,包括可擴展性問題、計算復雜性及多智能體協同決策難題。為解決這些問題,我們提出一種基于圖結構與零階優化的多智能體強化學習(MADRL)新型自主空戰決策方法——GraphZeroPPO算法。該方法創新性地將GraphSAGE圖網絡與零階優化融入MADRL框架,通過圖結構適應多智能體系統高動態與高維特性,利用高效采樣策略實現導彈發射快速決策,同時借助零階優化有效探索全局最優解。最后,我們展示了在1v1與8v8空戰場景下的仿真實驗及對比結果。研究表明,該方法能有效適應大規模空戰環境,同時實現高勝率與快速決策性能。

付費5元查看完整內容

本文開發了一種基于人工智能的戰斗機智能體,通過定制化Pygame模擬環境實現多目標任務求解。該智能體采用深度強化學習(DRL)算法,核心功能包括環境高效導航、目標點抵達、選擇性接敵/避敵。研究通過獎勵函數平衡多目標優化,結合超參數調優提升學習效率,實現超過80%的任務完成率。為增強決策透明度,采用事實-反事實對比分析方法:通過比較智能體實際選擇動作(事實動作)與替代動作(反事實動作)的獎勵差異,揭示其決策邏輯。本研究表明DRL與可解釋AI(XAI)在多目標問題求解中的協同潛力。

近年來,AI技術快速發展,已在多個領域展現變革性力量。從1997年國際象棋超越人類,到攻克復雜圍棋博弈,AI逐步實現高風險戰略任務的自主執行。強化學習(RL)作為AI子領域,通過試錯機制使智能體自主探索有效行動策略,擺脫了對人類專家數據的依賴。

在戰機導航與作戰領域,已有研究存在以下局限:仿真模型聚焦空戰場景模擬,缺乏DRL算法設計與獎勵函數優化;雖涉及強化學習,但未通過事實-反事實分析實現決策可解釋性,且未闡明智能體效率提升機制;飛行員訓練系統側重訓練場景構建,其獎勵機制局限于訓練目標導向,未實現效率與資源管理的復雜平衡;采用簡單獎勵函數(如擊落目標/規避墜毀),難以支持長短期決策權衡的精細化學習

本研究針對上述缺陷進行系統性改進,主要貢獻包括:

  1. 多目標平衡獎勵框架:融合效率優化、資源管理與智能決策的復合獎勵機制
  2. 可解釋性增強方法:通過事實-反事實對比分析,提升智能體決策透明度與邏輯可溯性

研究分為以下幾個主要部分:首先,開發了一個定制的模擬環境。接下來,使用雙深度 q 學習(DDQN)算法訓練戰斗機智能體做出戰略交戰決策。然后,重點優化任務資源,并通過事實和反事實情景解釋智能體的決策過程。通過解決優先級排序、自適應行為和風險評估等挑戰,這項研究旨在推動復雜多目標場景下智能自主系統的發展,最終增強人工智能在高風險環境中的作用。

付費5元查看完整內容

配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。

在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。

  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。

  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

付費5元查看完整內容

物聯網的迅猛發展有可能對人類的多個領域產生影響,作戰領域就是其中之一。本文強調了物聯網在現代戰場場景中的應用前景,分析了物聯網在增強態勢感知、提供信息優勢和通過綜合分析補充決策支持系統方面的作用。在肯定技術優勢的同時,本文還探討了物聯網在軍事應用中的安全和倫理問題。

物聯網向戰場物聯網過渡

長期以來,國防領域一直是眾多新興技術的源泉。獲得戰場優勢一直是探索和嘗試激進想法的驅動因素。第一次海灣戰爭后,時任美國海軍作戰司令的威廉-歐文斯上將在美國國家安全研究所發表的一篇研究文章中提出了 “系統簇”這一概念,從而使這種想法開始成形。他闡述了數據和網絡改變作戰的方式。這一觀點轉化為 “網絡中心戰”概念,它是三個領域的融合,即物理領域(進行演習并從傳感器獲取數據)、信息領域(傳輸和存檔數據)和認知領域(處理和分析數據)。在這一概念提出二十多年后的今天,世界各地的軍事領導人和國防專家都對這一概念的實施持樂觀態度,這主要是由于物聯網技術的成熟。烏克蘭地面部隊廣泛使用標槍反坦克導彈和 “彈簧刀 ”隱形導彈來挑戰強大的俄羅斯裝甲部隊,這就是物聯網技術在戰區成功應用的例證。

物聯網技術不應被視為 “另一種獨特的利基技術”,相反,它涵蓋了許多此類技術。因此,將物聯網技術理解為一種理念更為恰當和合理。它是多種智能化、網絡化和動態構建的設備和技術融合的結果,可以在物理和虛擬空間產生效果。IoBT 的目標是管理復雜、智能的系統之系統,普遍安裝智能傳感器和執行器,以自適應學習過程為動力,實現軍隊的戰略和戰術目標。IoBT 網格通過各種有線或無線傳感器節點實現功能,所有這些節點都是網狀的。由地面預警和無人機傳感器、自主武器、智能士兵和最先進的指揮所組成的網絡可協調行動。它可以發揮收集情報和實施動能打擊的雙重作用。它可以將士兵從執行環節中剝離出來,讓他們處于最高級別的監督地位,從而使武器能夠高度自主地分配和攻擊目標。它還能加快行動節奏,消除戰爭迷霧。

圖 1:國防戰術邊緣物聯網的目標場景

戰場物聯網應用案例

物聯網在軍事領域的應用潛力巨大,其在戰術戰斗領域的應用似乎更勝一籌,有望帶來豐厚的紅利。在以網絡為中心的作戰場景中,物聯網可無縫、有效地整合戰場指揮官所掌握的所有可用資源,幫助其做出明智決策。下面簡要介紹一些可能的應用領域。

  • C4ISR。部署在各種平臺上的物聯網傳感器集成網絡可在有爭議和脅迫的環境中提供更好的態勢感知。地面和空中傳感器、監視衛星以及實地士兵的組合必然會收集到各種數據。這些信息可在一個平臺上進行過濾、處理、核對、確證和保存,該平臺可調節指揮鏈上下的關鍵數據傳輸,從而實現更好的戰場協調、指揮和控制。

  • 武器控制系統。目前正在探索利用傳感器網絡、機器學習和先進的人工智能分析技術實現自主武器系統和火力控制的可能性。這種傳感器射手網格可以提供精確的目標火力投送,并對攻擊做出完全自動化的實時響應。

  • 作戰物流。利用智能傳感器、RFID 標簽和 M2M 通信,可以輕松實現有效的車隊管理和高效的貨物跟蹤。邊緣物聯網設備可增強對軍械、關鍵物資、口糧和服裝的實時跟蹤和供應。在監控消費模式的同時,還可以根據固有的優先級和必要性來推動物資供應模式的實施,從而大大提高行動效率。

  • 人員管理。可穿戴物聯網傳感器可嵌入戰斗人員的個人裝備,如小武器、頭盔、服裝、背包等,實現無處不在的身體活動跟蹤和作戰數據收集。利用情境感知數據實時推斷和跟蹤士兵在行動中的健康參數和心理狀態,可提供重要的洞察力,有助于采取預防性措施以保護部隊。

  • 訓練。物聯網還可用于加強訓練和戰爭游戲體驗。IoBT 概念可融入軍事訓練,為未來行動提供更加真實、適應性更強和更有效的準備。可穿戴傳感器可用于跟蹤正在接受訓練的士兵的生理和認知狀態,從而提供量身定制的反饋和個人優化。

  • 管理。管理戰區的電力需求仍然是一個被低估的領域,但隨著戰場上電子設備的引入越來越多,電力和能源管理將給未來行動的規劃和執行帶來嚴峻挑戰。采用預測算法和實時物聯網數據可以大大節省軍方的能源消耗,并有助于了解使用模式。

  • 智能監控。先進的視聽和地震傳感器以及視覺人工智能和模式識別技術可促進智能監視和監測網的建立,該網不僅可覆蓋地面,還可覆蓋海洋環境。物聯網解決方案使感知和預測生態條件成為可能,從而隨時掌握大范圍內的海上作業情況。

  • 協作與人群感應。戰術資源的流動性和機動性給現代戰場帶來了一系列獨特的通信挑戰。協作傳感是指在移動設備之間傳播傳感器數據的過程,通常使用可靠的短程通信。物聯網節點可利用閑置傳感器來滿足自身的傳感需求。通過將傳感器與任務分配相匹配,可為任何臨時 ISR 任務提供便利。因此,作戰指揮官可支配的可用傳感和通信資源可得到最佳利用。

付費5元查看完整內容

本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。

在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。

付費5元查看完整內容

為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。

RELEGS:針對復雜作戰情況的強化學習

為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。

標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。

為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。

為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。

一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。

視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。

動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。

除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。

付費5元查看完整內容
北京阿比特科技有限公司