亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文探討了機器學習在自主無人戰斗飛行器(AUCAV)控制中的應用。特別是,本研究將深度強化學習方法應用于防御性空戰場景,在該場景中,AUCAV 機群保護軍事高價值資產 (HVA),該資產要么是靜止的(如在空軍基地防御場景中),要么是快速移動的(如在涉及護送貨運飛機或指揮控制飛機的場景中)。通過采用馬爾可夫決策過程、近似動態規劃算法和用于價值函數近似的深度神經網絡,一系列空戰管理場景、原始模擬環境和一系列設計的計算實驗為高質量決策策略的近似提供了支持。三項連續的研究探索了新型模型和相應的方法論,以提高數學模型的準確性,提高計算效率,或更準確地評估復雜問題的解決方案質量,在這些問題中,最優解決方案的計算難以實現。對政策有效性和特定政策行為的深入分析為戰術、技術和程序的完善提供了信息,并使能力評估更加準確和量化,從而為所有相關系統的需求開發和采購計劃提供支持。

圖 1. 假想的 GABMP 場景,描繪了穿越敵對領土的固定 HVA 任務路徑

第二章至第四章由三項連續研究組成,將防御性空戰管理數學模型作為一個連續決策問題加以制定和擴展。每一章都探討了一種新穎的方法論,以提高數學模型的準確性,提高數據效率,或更準確地評估復雜問題的解決方案質量,因為在復雜問題中,最優解決方案的計算難以進行。

第二章介紹了廣義空戰管理問題(GABMP)。由 AUCAV 組成的艦隊護送 HVA 穿過敵方領土,而敵方的攻擊模式會根據友軍和敵軍的相對位置在來源和強度上發生變化。鑒于大多數現實問題并不存在于靜態環境中,針對非靜態問題的強化學習是一個廣泛研究的課題。要解決這些問題,需要在特征工程方面投入大量精力,為學習算法提供足夠有用的狀態空間信息,以揭示復雜的系統動態。本章提出了上下文分解馬爾可夫決策過程(CDMDP),它是靜態子問題的集合,旨在利用值函數的線性組合來逼近非靜態問題的動態。一組設計好的計算實驗證明了 CDMDP 方法的有效性,表明復雜的非穩態學習問題可以通過一小組靜態子問題得到有效的近似,而且 CDMDP 解決方案與基線方法相比,無需額外的特征工程就能顯著提高解決方案的質量。如果研究人員懷疑復雜且持續變化的環境可以用少量靜態上下文來近似,那么 CDMDP 框架可能會節省大量計算資源,并產生更易于可視化和實施的決策策略。

第三章為強化學習問題中的經驗重放記憶緩沖區介紹了一種新穎的基于相似性的接納控制方法。通過只用足夠不相似的經驗更新緩沖區,可以提高學習算法的效率和速度,尤其是在連續狀態空間的情況下。該方法采用了廣義空戰管理問題的擴展版本,納入了導航航點和基于軌跡的殺傷概率模型,以增強真實感。此外,還設計了一系列計算實驗,研究基于神經網絡的近似策略迭代算法的結構。對比分析表明,使用包含前 50% 最獨特經驗的內存緩沖區,學習算法收斂到穩健決策策略的速度比單獨使用優先級經驗回放快 10%。這些發現凸顯了所提出的方法在復雜、連續的狀態空間中提高強化學習效率的潛力。

第四章研究了信息松弛技術在 GABMP 進一步擴展版本中用于近似求解質量上限的應用。信息松弛指的是放寬順序決策問題中的非預期性約束,這些約束要求決策者僅根據當前可用的信息采取行動。信息松弛采用了時間事件視野,為決策者提供了對問題環境中未來隨機不確定性結果的可調整訪問。以往的研究都是針對在確定性松弛條件下更容易求解的問題進行信息松弛研究,而本方法論則將該方法應用于連續空間中的連續時間問題,即使在確定性條件下也需要求解近似技術。對事件視界和其他問題特征進行多維敏感性分析,有助于量化戰術改變或能力修改對決策政策有效性的潛在改進。這種量化方法應用于現實世界的能力差距評估,客觀地增強了傳統的主觀分析,從而為決策提供指導,并為采購計劃制定更有效的要求。第五章總結了前述各項研究的結果。

此外,第五章還指出了每項研究的假設和局限性,并提出了未來研究的可能途徑。

利用神經網絡進行近似策略迭代

圖 12. 描繪航點和攔截軌跡的 GABMP 假設場景

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

美國國防部(DoD)對利用人工智能(AI)增強具有作戰行為的軍事模擬越來越感興趣。本文探討了深度有限神經(DLN)搜索的應用--一種集成了卷積神經網絡(CNN)的博弈樹搜索技術,作為在特定方案下訓練的評估函數,以提高人工智能在生成戰斗行為方面的可擴展性和有效性。利用專為人工智能研究設計的軍事模擬平臺 Atlatl 進行了各種實驗,以評估 DLN 在不同場景下的性能。這些實驗包括測試訓練 DLN 的人工智能組合、評估其在多個對手面前的表現,以及探索環境規模和單位數量的變化。此外,研究還采用了 DeepMind 的 AlphaStar 所展示的聯盟訓練概念,以訓練人工智能模型,避免過度擬合并制定穩健的策略。研究結果表明,在基準場景下,DLN 優于現有的替代方案,但在擴展到更大、更復雜的環境方面仍存在挑戰。這些發現為人工智能驅動的軍事模擬的未來研究與開發提供了寶貴的見解,支持了美國陸軍作戰能力開發指揮分析中心(DEVCOM DAC)正在進行的工作。

本文分為五章。第 1 章概述了研究內容,包括論文的背景、動機、問題陳述、目標、意義、范圍和結構。第 2 章回顧了有關軍事模擬中的人工智能的現有文獻和研究,指出了當前知識中存在的差距,并討論了對抗樹搜索、DLN 和 Atlatl 框架等相關概念。第 3 章詳細介紹了進行實驗所使用的方法和程序。其中包括研究設計、數據收集方法和分析技術。第 4 章詳細介紹了實驗結果,提供了數據和結論。第 5 章對結果進行分析和解釋,與現有研究進行比較,討論其影響,解決論文中提出的研究問題,總結主要發現,討論對該領域的貢獻,并提出未來研究的方向。

圖 2.7. 顯示的是啟用人機交互后瀏覽器中出現的 Atlatl 場景示例。該場景顯示了多種不同的地形和單位類型,以及代表敵對勢力的紅色和藍色隊伍。

付費5元查看完整內容

本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。

第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。

付費5元查看完整內容

本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。

付費5元查看完整內容

本文介紹了在戰場數字孿生框架內使用貝葉斯優化(BO)、遺傳算法(GA)和強化學習(RL)等先進技術優化軍事行動的綜合方法。研究重點關注三個關鍵領域:防御作戰中的部隊部署、火力支援規劃和下屬單位的任務規劃。在部隊部署方面,BO 用于根據戰場指標優化營的部署,其中湯普森采樣獲取函數和周期核取得了優異的結果。在火力支援規劃中,采用了 GA 來最小化威脅水平和射擊時間,解決了資源有限條件下的資源受限項目調度問題(RCPSP)。最后,為任務規劃開發了一個 RL 模型,該模型結合了多智能體強化學習 (MARL)、圖注意網絡 (GAT) 和層次強化學習 (HRL)。通過模擬戰場場景,RL 模型展示了其生成戰術演習的有效性。這種方法使軍事決策者能夠在復雜環境中提高行動的適應性和效率。研究結果強調了這些優化技術在支持軍事指揮和控制系統實現戰術優勢方面的潛力。

基于戰場數字孿生的 COA 生成概念

戰場數字孿生是一個數字復制品,代表了真實戰場環境的組成部分和行為特征。它可以通過接收來自實際戰場的實時或接近實時的戰場、敵方和友軍單位信息,并將其動態反映到數字孿生中,從而對數字孿生模型進行評估和調整。換句話說,模型可以根據真實世界的數據不斷更新,以實現更具適應性的分析。這一概念與深綠的自適應執行相一致,后者也依賴于動態更新的信息。通過這種方式,可以向真實戰場系統提供改進的決策反饋,幫助用戶根據數字孿生模型做出更好的決策,而數字孿生模型是根據實際作戰數據更新的。

本節提出了 “基于戰場數字孿生的作戰行動選擇生成與分析 ”概念,通過各種技術方法,利用戰場數字孿生生成作戰行動選擇。然后對這些選項進行評估、效果比較,并推薦最合適的 COA 選項。基于戰場數字孿生的作戰行動選擇生成和分析的基本概念是,利用戰場數字孿生的預測模擬生成作戰行動選擇,同時考慮若干戰術因素(METT+TC:任務、敵人、地形和天氣、可用部隊和支持、可用時間和民用因素)。然后,可在數字孿生環境中對生成的作戰行動方案進行快速評估。圖 2 展示了這一流程的概念圖。生成和分析 COA 的四個關鍵輸入--威脅分析、相對戰斗力分析結果、戰場信息以及指揮官和參謀部的指導--假定來自其他分析軟件模塊和用戶輸入,從而完成智能決策支持系統。有關鏈接分析軟件模塊的更多信息,請參閱 Shim 等人(2023,2024)。

圖 2:基于戰場數字孿生系統的 COA 生成和分析概念。

可以按照圖 1 中概述的戰術規劃流程生成并詳細說明 COA 選項。然而,如前所述,規劃過程中的許多任務都需要人工干預,而人工智能技術的應用仍然有限。因此,我們將重點放在 COA 生成階段,在研究適用技術的同時,找出可以實現自動化和智能化的方面。本研究介紹了在 COA 生成過程中可實現自動化和智能化的三個概念:確定友軍部隊部署、規劃間接火力支援和規劃部隊戰術任務。友軍部隊部署是指部隊到達戰場后如何安排和使用,而部隊部署則是指如何將部隊轉移到指定的大致位置。我們將貝葉斯優化方法應用于友軍部署優化問題,作為 COA 方案生成的一部分。隨著人工智能技術的快速發展,許多研究都探索了基于最先進機器學習算法的全局優化方法。其中,使用高斯過程的貝葉斯優化法作為一種針對實驗成本較高的黑盒函數的全局優化方法受到了廣泛關注(Brochu,2010 年)。對于炮兵作戰,我們將火力支援調度問題歸結為一個項目調度問題,該問題力求在遵守資源限制的同時,最大限度地減少敵方總威脅和發射時間。將項目調度與資源管理相結合的任務被稱為資源約束項目調度問題(RCPSP)。最后,我們利用強化學習(RL)技術為下屬單位規劃戰術任務,以找到最優行動策略。強化學習已經證明,它是在動態和不確定環境中解決復雜決策問題的有效框架。特別是,我們利用多智能體強化學習(MARL)、分層強化學習(HRL)和圖注意網絡(GAT)的原理,為多個單位有效地學習任務及其相應參數,同時從每個智能體的角度考慮其重要性。

在使用所提出的方法生成一系列作戰行動(COA)選項后,將在戰場數字孿生系統中對這些選項進行模擬評估。然后對模擬結果進行評估,以推薦最合適的 COA 選項。在下一章中,將詳細解釋用于實現所建議的 COA 生成概念的技術方法,并提供全面的實驗評估結果,以突出所建議方法的有效性。

圖 8:強化學習的擬議架構。

付費5元查看完整內容

將人工智能(AI)融入軍事作戰決策過程(MCDMP)已引起眾多國家和國際組織的關注。本論文探討了軍事決策的復雜領域,其特點往往是高風險情況和時間限制,這可能導致認知偏差和啟發式錯誤。在需要做出關鍵決策的流程中添加新技術,需要人類操作員做出某些調整和采取某些方法。鑒于所做決定的人道主義影響,人工智能的整合必須謹慎進行,解決潛在的阻礙因素,以確保負責任地使用這些技術。其中一些因素圍繞著人類與人工智能的合作,特別是對技術的接受程度,這可能會影響技術的使用和發展,正如文獻所指出的那樣。我們的研究將采用多方面的定性方法,結合學術文獻綜述、對具有人工智能知識的軍事科學專家的訪談以及對軍事人員的訪談,全面了解專家和軍事人員對人工智能作為決策支持系統(DSS)的印象。

這項研究提高了人們對認知結構在促進人類與人工智能合作中的重要性的認識,并揭示了軍事作戰決策者目前對使用人工智能技術輔助決策的看法。我們的目標是為正在進行的有關將人工智能作為決策支持系統整合到軍事行動中的挑戰和機遇的討論做出貢獻。我們將提供有助于在高風險環境中更明智、更有效地采用人工智能技術的見解。通過技術接受模型(TAM)和技術框架理論,我們揭示了感知、假設、期望和信任這些影響人工智能作為決策支持系統接受程度的因素。因此,通過負責任地使用人工智能工具,可以提高軍事作戰決策的有效性。

關鍵詞:軍事作戰決策過程(MCDMP)、人工智能(AI)、人-AI 合作、假設、期望、信任、認知、新技術接受、AI 應用中的挑戰、AI 在軍事中、AI 在決策中的應用

提綱

隨后的一章建立了理論框架,全面概述了將人工智能納入 MCDMP 的現狀,并討論了人工智能和軍事決策過程等相關概念。它還介紹了重要的技術接受模型、技術框架和TAM,并討論了與模型相關的概念:感知、假設、期望和信任。第三章詳細介紹了研究方法,包括定性方法、選擇標準以及數據收集和分析方法。其中包括半結構式訪談、數據分析技術、有效性和可靠性的衡量標準,以及倫理方面的考慮。第四章對收集到的數據進行分析和討論。我們將揭示和討論來自文獻和訪談的研究結果,從人工智能在 MCDMP 中的整合現狀入手,將研究結果分為以下幾類:(1)感知有用性;(2)感知易用性;(3)期望和假設;(4)信任和可信度。此外,我們還將回答研究問題。最后,第五章將對研究進行反思,總結主要發現、研究貢獻以及對進一步研究和行業行動的建議。

圖 3:軍事戰斗決策過程中人工智能整合程度的簡化模型

付費5元查看完整內容

本文旨在分析人工智能(AI)在遠征先進基地作戰(EABO)中的應用,重點是作戰和后勤行動。使用 Atlatl 作為模擬引擎,在模擬待命部隊在兩棲環境中分布式作戰所面臨挑戰的場景中測試了多個智能體。測試了每種人工智能在軍事行動臨界值以下開展維持行動的能力,以及在越過臨界值時抵御兩棲攻擊的能力。就腳本智能體而言,事實證明,根據聯合作戰方法對行為進行調整可創造出生存能力更強的人工智能,同時保持其殺傷力水平。就建立在神經網絡基礎上的智能體而言,由于問題的規模和范圍,其性能受到了限制,可能需要進行更多的研究才能顯示出顯著的效果。這項研究是繼續開發 EABO 概念的探索工具,可為繼續完善操作概念提供反饋。

本文屬于建模、虛擬環境和模擬領域。具體來說,它分析了在作戰模型和模擬中使用人工智能(AI)來評估未來潛在沖突場景中的作戰概念。戰爭游戲和模擬為行動的發展提供了寶貴的反饋,檢驗了我們對特定場景下所面臨的環境和挑戰的理解。2019 年,美國(U.S. )海軍陸戰隊(USMC)發布了新的指南--指揮官規劃指南,將重點轉向圍繞中國在南太平洋帶來的挑戰而開展的防御工作,從而提出了遠征先進基地行動(EABO)的概念(Berger,2019 年)。隨著重點的轉移,有了一個新的機會,可以對我們的概念和想法進行兵棋推演,評估那些能提供最廣闊成功之路的概念和想法。

在軍事領域,兵棋推演的目的是對想法進行分析,找出行動方案的優缺點,進一步完善最終方案。通過在 EABO 兵棋中引入人工智能,可以對概念進行更深入的分析,從而在行動發展過程中獲得更精細的反饋。一旦捕捉到這些數據,對其進行研究就能進一步促進對 EABO 的探索,檢驗我們對過去和未來軍事模擬在同一領域的判斷,并提供信息,幫助圍繞 EABO 和其他目標行動繼續開發人工智能能力。具體來說,通過了解現有人工智能體在場景驅動模擬中的行為,我們可以評估和推斷人工智能可能如何應對更廣泛的模擬(圍繞一個主題場景提出類似的挑戰),以及如何改進人工智能以更好地在其中使用。

付費5元查看完整內容

本文是研究指揮與控制(C2)未來表現形式的四篇系列論文中的第一篇。第一篇論文通過探討未來指揮與控制(C2)系統需要在其中運行的未來作戰環境,為后續研究設定了基線。具體來說,本文探討了復雜性的驅動因素、表現形式和影響,而此前的研究表明,復雜性很可能是這一環境的特征。為此,它討論了 C2 和復雜性等關鍵術語的定義;介紹了未來運行環境中復雜性的一些驅動因素,并討論了這些因素如何對 C2 系統和組織造成新的壓力;研究了分析和理解復雜性的可能方法;并概述了 2030 年代及以后可能產生的一些實際考慮因素。由于本文旨在為本系列的后續三篇論文提供資料,因此沒有全面涵蓋未來 C2 思考的所有方面,包括提出具體建議。

研究問題

  • 根據當前的全球社會和技術趨勢進行預測,國防和合作伙伴可能面臨的持續競爭和多領域作戰的作戰環境的性質是什么?
  • 基于這種對未來的預測,未來的 C2 系統和組織將面臨怎樣的復雜性;即復雜性的可能來源是什么?
  • 考慮到未來作戰環境的這一特點,未來的 C2 系統和組織需要具備哪些條件?
  • 未來的 C2 系統和組織需要什么樣的新能力和特性才能有效應對這些需求?

有爭議的定義

C2 沒有直截了當的定義,對于該術語在當代作戰環境中的范圍和相關性也存在爭議。對 C2 傳統定義的批判來自于對 21 世紀有效領導力構成要素的更廣泛質疑。在英國、美國和北約,最近出現了大量與 C2 相關的新術語,并將重點從聯合思維轉向多領域思維。我們的研究將 C2 定義為一個動態的、適應性強的社會技術系統,因此有必要考慮組織、技術和人力要素。

同樣,復雜性也沒有一個公認的定義。學術界對復雜性的研究日益增多,涉及多個科學學科,但缺乏統一的方法或理論框架。一個有用的出發點是區分簡單系統、復雜系統、復雜系統和復雜適應系統。文獻還描述了在這些條件下可能出現的所謂 "棘手"或 "超級棘手問題"。還可以對有限博弈和無限博弈進行重要區分--這是考慮作為復雜適應系統的國家間競爭時的一個有用視角。鑒于這些爭論,我們的研究避開了對復雜性的僵化定義,而是從其關鍵屬性的角度對這一現象進行了 DCDC 式的描述。

復雜性的預計驅動因素

未來作戰環境的特征--以及國防 C2 系統和組織預計將執行的任務類型--具有很大的不確定性,因此任何預測都必須謹慎。盡管如此,文獻指出了各種政治、經濟、社會、技術、法律、環境和軍事(PESTLE-M)趨勢,預計這些趨勢將影響國際體系的演變,進而影響 2030 年及以后的國防行動。這些趨勢包括以下宏觀趨勢

  • 日益增強的互聯性、多極化和全球競爭
  • 不斷變化的氣候的影響
  • 技術變革和數字化的影響
  • 傳統和新穎領域的模糊化
  • 國際準則和價值觀的轉變。

最重要的是,沒有一個單一或主要的趨勢推動著變化或復雜性;相反,最令人擔憂的是多種因素的融合及其不可預測的相互作用。這種認識為進一步研究這些趨勢影響國際體系復雜性水平和特征的具體機制提供了基礎,從而為在這一領域開展工作的 C2 帶來了新的挑戰。

復雜性的表現

上述 PESTLE-M 趨勢為未來組織應對 C2 帶來了一系列困境和壓力,包括但不限于

  • 不確定性
  • 模糊性
  • 多義性
  • 信息超載
  • 認知偏差
  • 面對瞬息萬變的事件,決策癱瘓或節奏不足
  • 難以確保決策(包括人工智能)或信任決策所依據的數據、邏輯和假設
  • 難以調動所有必要的權力杠桿,或協調參與制定和執行特定戰略或行動計劃的大量不同參與者(如跨政府合作伙伴、行業、國際盟友、公民)。

此外,無論是理論家還是實踐者,在處理包含非線性動態的問題時,都缺乏有力的措施來衡量所做決定或采取的行動的有效性。因此,很難確切地說未來作戰環境中的復雜性是否在客觀上不斷增加(而不是以不同的形式出現),但對軍隊應處理的復雜任務的政治期望與當前 C2 方法的執行能力之間顯然存在巨大差距。當前的學術理論為決定如何在復雜環境中配置 C2 提供了一個方法工具包的初步輪廓和一些指導原則,但并沒有提供靈丹妙藥。該理論強調審議分析方法,即讓不同利益相關者參與共同設計、借鑒多學科和知識體系的見解,并在分析和決策過程中建立靈活性,以便根據反饋意見不斷迭代和改進的方法。

未來 C2 的實際考慮因素

要應對復雜的自適應系統,就必須摒棄當前的線性 C2 流程和等級結構,盡管在處理非復雜任務和問題時,更傳統的方法可能仍然有用。在競爭激烈的世界中,英國既需要培養能夠對他人施加建設性影響的特性和能力(例如,將復雜性強加給對手的 C2),也需要培養能夠增強自身駕馭復雜性能力的特性和能力。

要影響敵對行動者的觀念、決策和行為,首先要深入了解其 C2 結構、流程和文化。根據這種了解,英國國防需要一套動能和非動能杠桿,對敵方的 C2 施加建設性影響,包括施加復雜性。除了敵對行動者,英國國防部還需要進一步了解如何對 PAG、盟友、合作伙伴、工業界、學術界、公民和對 C2 采取截然不同方法的其他人施加建設性影響。

在增強英國自身應對復雜性的能力方面,未來的 C2 系統和組織必須促進靈活性、復原力以及學習和適應能力等特性。整個決策周期都需要變革。例如,傳感器和通信技術的進步為獲取更多深度和廣度的數據提供了機會,包括有關復雜問題的數據。因此,提高認知能力對于理解所有這些數據至關重要,既要利用人類和機器的優勢,又要減少各自的缺點。要改變決策方法,還需要改變領導風格,以培養更善于駕馭復雜適應系統的決策者。在做出決策或計劃后,提高跨部門或跨層級的能力,在實施階段更好地整合活動或匯聚效應,對于抵消英國的局限性(如在質量方面)至關重要。

同樣,整合也不是萬全的;如果國防缺乏足夠深度的力量和能力,無法在充滿敵意的威脅環境中采取可信行動或維持高節奏行動,那么即使是最高效的指揮控制系統也無法在未來取得成功。此外,還需要采取防御措施以及恢復和失效模式,以阻止或減輕敵方破壞 C2 系統和組織的努力所造成的影響。鑒于所面臨的威脅,以及英國國防可能需要解決的不同形式的復雜問題,很可能會同時出現多種并行的 C2 模式,而不是單一的方法。應對復雜性意味著不斷學習、適應、創新和開放求變。因此,必須從一開始就將效果衡量標準、信號和變革機制納入計劃以及 C2 系統和組織,使其能夠隨著時間的推移不斷學習和調整,以應對各種情況。至關重要的是,未來 C2 系統和組織的設計只是挑戰的一部分--它們還必須得到更廣泛的國防企業緊急改革的支持,以確保獲得所需的使能因素(人員、技術等)。從 C2 的角度來看,這本身就是一個挑戰,因為改變這個企業--一個復雜的適應性系統--本身就是一個棘手的問題。

結論和下一步行動

學術理論家和政府、軍事或工業從業人員對復雜性或復雜適應系統的理解并不全面,而這正是未來 C2 運行環境的特點。雖然文獻提供了處理復雜性的有用方法和工具,以及未來 C2 的一些初步設計考慮,但英國 C2(本身就是一個社會技術系統)的現代化和轉型將是一項高度復雜的工作。這意味著要與不斷發展的作戰環境、不斷變化的威脅和技術環境共同適應,從而進行迭代和不斷學習。因此,最緊迫的挑戰或許是,考慮到 C2 系統在未來面對復雜性時取得成功所需的轉型(技術、結構、流程、文化、教育等)的程度和性質,了解如何在一段時間內最好地引導這一過程。

自相矛盾的是,要克服實現以應對復雜性為目標的 C2 系統所面臨的障礙,可能需要英國國防部已經表現出其所尋求建立的系統的許多特征。面對這樣的循環邏輯,英國國防部可能需要某種外部沖擊來迫使其進行創造性的破壞,或者利用(或不顧)更傳統、線性的 C2 方法來啟動自身的激進改革努力,并隨著時間的推移,隨著變化的到來而進行調整。

付費5元查看完整內容

本研究探討了無人駕駛飛行器(UAV)與有人駕駛飛機合作進行集中任務規劃的發展情況。我們采用經過近端策略優化(PPO)訓練的單一智能體來模擬敵方防空壓制(SEAD)場景。我們的目標是掌握最佳任務策略。我們的模型在各種環境條件下進行了測試,在 100 次測試中,消除敵方防御的成功率達到 78%。我們的模型所取得的巨大成功強調了它在未來戰爭場景中的應用潛力,代表了空戰和強化學習應用領域的重大進展。

方法

集中式任務規劃架構

集中式任務規劃架構是指一種先進的技術架構,能夠在復雜多變的作戰場景中高效協調和管理無人機。該架構從各種信息來源收集數據,實時評估局勢,并規劃和執行最佳戰略,以最大限度地提高整個任務的成功潛力。

該架構的主要組成部分如下:

  1. 戰斗信息管理: 該組件持續監控當前的戰斗態勢并跟蹤信息,以提供實時戰場情報。信息來源多種多樣,包括各種傳感器、傳感器網絡和人工觀察,從而能夠深入了解動態復雜的作戰環境。這相當于強化學習中收集環境信息的過程,為有效的學習過程提供了第一步。

  2. 戰斗狀態(觀察): 在這一階段,戰場信息被提供給智能體。在戰場上收集到的各種信息會被實時處理,并傳遞給強化學習智能體。這樣,智能體就能通過綜合戰場態勢感知了解當前形勢,預測未來的可能性,并決定下一步行動。

3)任務規劃器(智能體): 作為中心的核心要素,這個基于強化學習的智能體根據傳入的實時作戰態勢數據做出最優行動。這一決策過程由一個預訓練的強化學習模型執行,該模型學習如何在復雜環境中實現任務目標。

  1. 指揮官: 最后,智能體的決策將交由指揮官執行。智能體決定的行動將作為指令傳遞給實際的無人機,從而實現移動、目標探測和攻擊等具體任務。

因此,集中任務規劃架構實現了從各種信息源收集和處理數據、規劃和調整無人機行動以適應實時戰場條件的戰略。這就實現了實時戰略決策和快速反應,提高了整體作戰效率和生存能力。

強化學習環境的構建

我們為 MUM-T 問題開發了一個量身定制的強化學習環境。在這個環境中,我們部署了一架戰斗機無人機、一個干擾器和一個防空導彈系統,每個系統都有預定義的攻擊范圍和干擾距離。任務的主要目標是協同參與干擾行動,使目標防空導彈系統失效,隨后通過操縱戰斗機無人機將其消滅。任務的成功完成取決于是否到達指定的目標點。

在無人機任務規劃的背景下,我們為 MUM-T 構建了一個定制的強化學習環境。在 MUM-T 環境中,我們部署了一架戰斗機無人機、一個干擾器和防空導彈系統,每個系統都有明確的攻擊范圍和干擾距離。任務的最終目標是與干擾機進行合作干擾,使防空導彈無法攻擊,隨后通過操縱戰斗機無人機摧毀防空導彈。當無人機到達最終目的地(稱為 "目標點")時,即成功完成任務。

為了開發環境,我們使用了 Gym 庫,這是一個用于強化學習環境的開源框架。無人飛行器可以移動的空間用二維網格表示。由于無人機的航向和速度等低層次控制方面的問題假定由 AFRL ACL 5 級自主處理,因此集中式任務規劃框架側重于負責規劃任務相關值(即航點和任務點)的高層次控制,這些值基于多架無人機的信息和戰場狀態。為促進學習過程,我們將任務空間離散化為 30x30 的網格,共由 900 個單元組成。

每個無人機的行動空間被定義為離散的多行動空間,使每個智能體能夠獨立選擇行動。戰斗機無人機和干擾機有五種可能的行動:向左、向右、向上、向下和攻擊。行動空間的離散化簡化了學習和控制[圖 5、6]。

在每個時間步長內,智能體根據其選擇的行動在網格環境中移動。我們施加了邊界條件(懲罰),以防止無人機在網格邊界外移動。此外,我們還通過檢測碰撞并分配相應的懲罰來處理戰斗機和干擾機之間的潛在碰撞。為了解決無人飛行器之間的協作問題,我們為智能體之間的特定功能和互動建立了模型。當干擾機進行干擾時,如果薩母不在攻擊范圍內,則會產生懲罰。但是,如果防空導彈在攻擊范圍內,干擾成功則會獲得獎勵,使防空導彈無法使用。戰斗機總共有五次攻擊機會,攻擊失敗(當防空導彈不在攻擊范圍內時)會導致失去一次攻擊機會并受到懲罰。另一方面,如果防空導彈在規定的攻擊范圍內,防空導彈就會失效,并獲得獎勵。重要的是,如果戰斗機沒有進行干擾,則無法攻擊,因為戰斗機的攻擊范圍小于干擾距離。

付費5元查看完整內容

本文通過機器學習方法提出了一種雷達任務選擇的主動方法,并將其設計在雷達調度流程之前,以提高雷達資源管理過程中的性能和效率。該方法由兩個過程組成:任務選擇過程和任務調度過程,其中任務選擇過程利用強化學習能力來探索和確定每個雷達任務的隱藏重要性。在雷達任務不堪重負的情況下(即雷達調度器超負荷工作),將主動選擇重要性較高的任務,直到任務執行的時間窗口被占滿,剩余的任務將被放棄。這樣就能保證保留潛在的最重要任務,從而有效減少后續調度過程中的總時間消耗,同時使任務調度的全局成本最小化。本文對所提出的方法進行了數值評估,并將任務丟棄率和調度成本分別與單獨使用最早開始時間(EST)、最早截止時間(ED)和隨機偏移開始時間EST(RSST-EST)調度算法進行了比較。結果表明,與EST、ED和RSST-EST相比,本科學報告中提出的方法分別將任務丟棄率降低了7.9%、6.9%和4.2%,還將調度成本降低了7.8倍(EST為7.8倍)、7.5倍(ED為7.5倍)和2.6倍(RSST-EST為2.6倍)。使用我們的計算環境,即使在超負荷的情況下,擬議方法所消耗的時間也小于 25 毫秒。因此,它被認為是提高雷達資源管理性能的一種高效實用的解決方案。

雷達資源管理(RRM)對于優化作為飛機、艦船和陸地平臺主要傳感器的現代相控陣雷達的性能至關重要。報告》討論了雷達資源管理,包括任務選擇和任務調度。該課題對國防科技(S&T)非常重要,因為它與現代相控陣雷達的大多數應用相關。它對當前的海軍雷達項目尤為重要,該項目探索了雷達波束控制的人工智能(AI)/機器學習(ML)方法。所提出的算法有可能升級未來的艦船雷達,從而做出更好的決策并提高性能。

付費5元查看完整內容

本論文提出開發一種彈性機器學習算法,可對海軍圖像進行分類,以便在廣闊的沿海地區開展監視、搜索和探測行動。然而,現實世界的數據集可能會受到標簽噪聲的影響,標簽噪聲可能是通過隨機的不準確性或蓄意的對抗性攻擊引入的,這兩種情況都會對機器學習模型的準確性產生負面影響。我們的創新方法采用 洛克菲勒風險最小化(RRM)來對抗標簽噪聲污染。與依賴廣泛清理數據集的現有方法不同,我們的兩步流程包括調整神經網絡權重和操縱數據點標稱概率,以有效隔離潛在的數據損壞。這項技術減少了對細致數據清理的依賴,從而提高了數據處理的效率和時間效益。為了驗證所提模型的有效性和可靠性,我們在海軍環境數據集上應用了多種參數配置的 RRM,并評估了其與傳統方法相比的分類準確性。通過利用所提出的模型,我們旨在增強艦船探測模型的魯棒性,為改進自動海上監視系統的新型可靠工具鋪平道路。

藍色亞馬遜管理系統

機器學習(ML)發展迅速,使機器能夠根據數據分析做出決策。計算機視覺(CV)是這一領域的一個專業部門,它使用先進的算法來解釋視覺信息,通過創造創新機會來改變汽車、醫療、安全和軍事等行業。在軍事領域,這些工具已被證明在改進決策、態勢感知、監視能力、支持行動以及促進在復雜環境中有效使用自主系統等方面大有裨益。

我們的研究主要集中在將 CV 原理應用于海軍領域,特別是解決二元分類問題,以顯示船只的存在與否。這構成了更廣泛的監視工具的重要組成部分,并采用了一種名為 "Rockafellian 風險最小化"(RRM)[1] 的新策略。RRM 方法旨在應對海上監控等復雜多變環境中固有的數據集標簽損壞所帶來的挑戰。我們方法的核心是交替方向啟發式(ADH),這是一種雙管齊下的策略,可依次優化不同的變量集。這種兩步迭代的過程可調整神經網絡權重并操縱數據點概率,從而有效隔離潛在的數據損壞。其結果是建立了一個更強大、更準確的海上監視和探測系統,從而增強了海軍行動中的決策和態勢感知能力。

我們的評估使用了兩個不同的數據集,即空中客車船舶探測(AIRBUS)[2] 和海事衛星圖像(MASATI)[3]。為了測試我們方法的魯棒性,我們逐步提高了這些數據集的標簽損壞水平,并觀察了這對模型性能的影響。

我們的研究在 ADH 流程中采用了兩種策略:w-優化和 u-優化。在 w 優化階段,我們試用了兩種不同的神經網絡(NN)優化器 Adam [4] 和 Stochastic Gradient Descent (SGD) [5, Section 3G],以調整神經網絡權重。u優化階段包括實施 ADH-LP(線性規劃)或 ADH-SUB(子梯度)算法,以修改每個數據點的概率,并有效隔離潛在的數據損壞。

ADH-LP 利用線性規劃進行計算優化,可提供全局最優解,但需要更多處理時間。另一方面,ADH-SUB 采用更快的子梯度方法,更適合較大的數據集或有限的計算資源。主要目的不是通過架構調整來提高性能,而是展示 RRM 方法如何提供優于傳統 ERM 方法的優勢,特別是在處理數據損壞和提高模型性能方面。

無論使用何種數據集(MASATI 或 AIRBUS),我們的研究采用 RRM 方法訓練 NN 始終優于或匹配 ERM 方法。RRM下的ADHLP和ADH-SUB算法在保持高性能水平的同時,對數據損壞表現出了顯著的適應能力,其中ADH-LP一直表現優異。總之,我們的研究結果表明,RRM 是一種穩健而有彈性的方法,可用于處理一定程度的數據損壞。

總之,我們利用 RRM 的創新方法為減少對標簽正確數據的依賴提供了一種有前途的解決方案,從而能夠開發出更強大的船舶檢測模型。這項研究在改進船舶自動檢測和整體海事安全方面邁出了一大步。通過有效處理數據損壞和測試創新方法,我們提高了海事監控系統有效監控沿海和劃界海域的能力。

付費5元查看完整內容
北京阿比特科技有限公司