亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

無人作戰飛行器(UCAV)是一種無人飛行器,用于情報、監視、目標獲取和偵察,并攜帶飛機軍械,如導彈、反坦克導彈和/或炸彈的硬點,用于無人機打擊。這些無人機通常由人類實時控制,具有不同程度的自主性。與無人監視和偵察飛行器不同,UCAVs同時用于無人機打擊和戰場情報。無人駕駛戰斗飛行器(UCAV)的推進技術與UCAV的飛行性能有很大關系,這已經成為航空業最重要的發展方向之一。需要指出的是,UCAVs有三種推進系統,分別是燃油、油電混合和純電動。本文介紹并討論了這三類推進系統的分類、工作原理、特點和關鍵技術。它有助于建立UCAV推進系統的發展框架,并提供電動推進UCAV的基本信息。此外,還討論了電動推進UCAVs的未來技術和發展,包括高功率密度電機、轉換器、電源。在不久的將來,電力推進系統將被廣泛用于UCAVs。高功率密度系統將成為電動UCAVs的發展趨勢。因此,這篇評論文章對UCAVs的推進系統提供了全面的看法和多種比較。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

無人集群系統是近年來國內外軍事領域的研究重點, 正在推動無人作戰樣式由 “單平臺遙控作戰” 向海陸空協作的 “智能群體作戰” 轉變. 綜述了近年來國內外在無人集群系統方面的最新研究進展, 包括軍事、國防和學術領域在無人系統自主 協同技術方面的探索和實踐, 闡述了無人集群系統相關的關鍵技術, 包括多 Agent 系統自主協同、多 Agent 系統態勢共識、未 知系統動力學、群體智能理論與技術、機器學習方法、行為決策方法以及實驗場景模擬等, 分析了不同關鍵技術的技術特征、 面臨挑戰和發展趨勢.

2018 年美國國防部頒布《國防部人工智能戰略 摘要》, 強調人工智能技術在軍事領域的應用, 并于 同年發布了無人集群系統并行作戰場景[1]. 2017 年 至今美國戰略和預算評估中心連續發布針對中俄兩 國的馬賽克式集群作戰等顛覆性作戰模式, 打造全 球范圍內的武器系統協同作戰[2] . 我國國務院在 2017 年提出《新一代人工智能發 展規劃》, 倡導人工智能領域的軍民融合, 以加快國 防技術的成果轉化, 并為指揮決策、軍事論證和國防 科研提供有力支撐[3] . 其中, 以群體智能為核心技術 的無人集群系統自主協同作戰是未來戰爭重要樣式, 美軍已經啟動高度自主智能化集群武器裝備的研究. 我軍也在積極探索利用人工智能算法提高無人系統 的智能化水平, 以取得戰爭主動權. 進一步看, 現代 戰爭中戰場環境瞬息萬變, 僅僅通過單系統的協作 不可能完全掌握戰場環境和態勢, 海、陸、空多類智 能系統的協同感知、聯合攻擊必將成為未來戰爭的 作戰模式. 2020 年 1 月, 中國科學院發布的《2019 年 人工智能發展白皮書》中, 將” 群體智能技術” 列為 了 8 大人工智能關鍵技術之一[4] . 同時, 無人裝備具 有低成本、小型化、功能單一、組網靈活等特性, 使 得無人裝備集群作戰通過數量優勢來打擊敵人. 在 網絡環境下, 這類由異質、異智系統 (智能體) 通過 彼此之間的信息交互構成的多維異構無人集群系統, 看作是異構智能群體系統, 即多智能體 (Agent) 系統. 其中, Agent 是對外界的刺激作出適當反應的實體, 不是被動的接受消息和控制. 展望未來, 誰懂得如何最好地使用無人集群智 能系統, 誰就有望在戰爭中取得巨大優勢.

付費5元查看完整內容

目的 對軍事領域中人機協作的應用現狀和理論現狀進行歸納與分析,指出未來的發展趨勢,旨 在為人機協作軍事系統的技術發展和設計研究提供理論方向。方法 以無人機系統、無人車系統、無人 艇系統的實際應用場景為代表,分析人機協作的軍事應用現狀;剖析軍事背景下國內外人機協作任務分 配、人機交互方式、人機交互界面設計、人機協作效能評估的研究進展;綜合前人的研究現狀對未來的 研究發展趨勢進行總結。結論 根據國內外研究的現狀、熱點與趨勢可知,人機協作的任務分配需綜合 考慮人員行為和任務時序等因素,以提高人機協作效率,探尋更優的分配模式;多模態智能交互將成為 未來人與無人集群交互的主流形態,多通道結合的信息交流將改變操作員與指控系統互動的方式,實現 人與無人集群的高效交互;態勢認知是未來智能戰場面臨的挑戰,人機協作為智能態勢認知領域的研究 奠定了基礎。

隨著戰場信息化趨勢的發展,現代化戰場的整體 規模不斷擴大,戰場要素也愈加復雜,涉及多目標任 務和多資源的體系化作戰成為了主要的戰爭形態。人 機協作是指發生在人和自動化之間的協同交互,通常 被稱作 Human-Agent Teaming 或者 Human-Automation Collaboration[1]。在軍事層面,龐大的有人/無人協同 系統會參與到信息化戰場的協同作業中,復雜的操作 任務和作戰資源需要作戰體系具備規劃任務和自主 完成目標的能力[2]。因此,在復雜多變的戰場環境下, 自主規劃系統及監督指揮人員的協同作業顯得至關 重要[3]。人機協同作戰一直是軍事領域的研究熱點, 是指將無人系統與有人系統進行有機融合,基于共享 任務或信息的形式完成共同目標,這是智能化戰爭中 具有代表性的作戰方式之一[4]。基于對相關領域的研 究及應用資料的調查,美軍于 2003 年的伊拉克戰爭 中首次實現了有人/無人機協同作戰,通過有人機指 揮“MQ-1 捕食者”無人機發射導彈,實現作戰目標 物的發射打擊任務[5]。當前,國內外對無人機領域的 人機協作應用研究愈加廣泛。為實現資源的最大化利 用,通常采用單一操作員監督多個無人機的作戰模 式,但這種方式往往會增加人機系統的總體操作負 荷[6]。例如,美國在 2018 年的“拒止環境下無人機 協同作戰 CODE”項目中采用單一操作員控制多架無 人機的模式,執行偵察、打擊等作戰任務[7]。隨著未 來作戰化的趨勢向協同一體化的方向發展,在操作者 層面和武器平臺層面,實現資源的合理利用及充分配 置是人機協同作業的重要目標。 隨著人工智能、大數據等技術的發展,智能計算 等高新技術廣泛應用于軍事領域中的指揮控制系統、 無人作戰系統及輔助決策系統等自動化系統[8]。上述 系統注重人工智能技術的應用,突破了戰場環境下人 類生理疲勞等方面的限制,通過與人類合作來執行作 戰任務,形成人機協同作戰系統。人機協同作戰主要 有以下三種類型:第一種是智能化無人系統指引有人 系統實施作戰;第二種是智能化無人系統輔助有人系 統實施作戰;第三種是智能化無人系統掩護有人系統 實施作戰[4]。在人機協作系統中,智能系統運行速度 快,適用于執行規范化的繁雜任務,而人擔任監督規 劃的角色,通常在指定或突發階段,與智能系統聯合 完成協同作業[3]。然而,值得注意的是,雖然當前的 自動化系統能夠在一定程度上實現智能化任務,但是 在態勢感知及知識理解等方面仍存在固化思維,難以 完全替代人類[9]。例如,在指揮控制系統中,人類可 以發揮態勢感知的能力優勢,分析敵方的作戰意圖, 合理地分配作戰任務。而自動化系統主要是程序化的 定量感知,對動態的戰場環境感知的靈活度較低[10]。 總體來說,智能化作戰系統距離全自主性仍有較大差 距,需要和操作人員聯合完成作戰任務。 綜上所述,人和智能系統相互配合、執行任務, 可以發揮各自的優勢,提高作戰效率。人機協作過程 涉及任務分配、人機交互、效能評估等諸多方面,只 有實現各層面的高效融合和技術突破,才能達到理想 的協同作戰效果。然而,在動態、大規模的作戰環境 下,受限于智能技術的發展程度及未知的戰場態勢等 因素,人機協同技術仍處于探索階段,有許多工程技 術方面的難題需要解決,比如如何實現合理的協同任 務分配、如何實現靈活的人機交互等問題。因此,現 階段的研究重點是探究如何將人的經驗知識與機器智 能高效融合,最大化地發揮人機協同作戰系統的效能。

付費5元查看完整內容

無人作戰飛機(unmanned combat aerial vehicle,UCAV)在進行空戰自主機動決策時,面臨大規模計算,易受敵方不確定性操縱的影響。針對這一問題,提出了一種基于深度強化學習算法的無人作戰飛機空戰自主機動決策模型。利用該算法,無人作戰飛機可以在空戰中自主地進行機動決策以獲得優勢地位。首先,基于飛機控制系統,利用MATLAB/Simulink仿真平臺搭建了六自由度無人作戰飛機模型,選取適當的空戰動作作為機動輸出。在此基礎上,設計了無人作戰飛機空戰自主機動的決策模型,通過敵我雙方的相對運動構建作戰評估模型,分析了導彈攻擊區的范圍,將相應的優勢函數作為深度強化學習的評判依據。之后,對無人作戰飛機進行了由易到難的分階段訓練,并通過對深度Q網絡的研究分析了最優機動控制指令。從而無人作戰飛機可以在不同的態勢情況下選擇相應的機動動作,獨立評估戰場態勢,做出戰術決策,以達到提高作戰效能的目的。仿真結果表明,該方法能使無人作戰飛機在空戰中自主的選擇戰術動作,快速達到優勢地位,極大地提高了無人作戰飛機的作戰效率。 目前無人作戰飛機(unmanned combat aerial vehicle, UCAV)被廣泛應用于軍事領域[1],UCAV在過去主要從事戰場監視、吸引火力和通信中繼等任務,隨著武器裝備的傳感器、計算機及通信等技術的發展,性能不斷提升,未來的UCAV將逐步升級成為可以執行空中對抗、對地火力壓制和參與制空權的奪取等作戰任務的主要作戰裝備之一。盡管UCAV的性能提升很大,但大多數的任務都離不開人工干預,控制人員通過基站在地面對UCAV進行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰能力已經成為空軍發展的必然趨勢,裝備了無人作戰決策系統的UCAV將逐步取代飛行員的位置,以達到減少成本,提高戰斗力的作用。在近距離格斗的階段,UCAV應根據當前的空戰態勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機的機會并保護自己[2]。

在空戰條件下,飛機模型本身為非線性同時目標的飛行軌跡是不確定的,這些都將給UCAV的機動決策帶來許多不便,因此良好的機動決策是UCAV自主空戰的一個重要環節,自動機動決策要求UCAV能在不同的空戰環境下自動生成飛行控制指令。常規的機動決策控制方法包括最優化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統、神經網絡方法以及強化學習方法等。文獻[3]將空戰視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰情況,并自適應調整機動決策因素的權重,使目標函數更加合理,保證了無人戰斗機的優越性。文獻[4]設計了一個基于遺傳學習系統的飛機機動決策模型,通過對機動的過程加以優化來解決空戰環境未知情況下的空戰決策問題,可以在不同的空戰環境中產生相應的戰術動作,但該方法的參數設計存在主觀性,不能靈活應用。文獻[5]利用統計學原理研究UCAV的空戰機動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應用于在線決策。文獻[6]將可微態勢函數應用于UCAV微分對策中,可以快速反應空戰環境,但由于實時計算的局限性很難解決復雜的模型。文獻[7]采用博弈論對UCAV空戰決策進行建模,對不同的空戰環境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優等問題,導致UCAV的響應變慢,并不適用于當今的戰場環境。

基于人工智能的方法包括神經網絡法、專家系統法以及強化學習算法。文獻[8]采用了專家系統法,通過預測雙方的態勢和運動狀態生成相應的機動指令控制UCAV飛行,但不足之處在于規則庫的構建較為復雜,通用性差。文獻[9]采用了自適應神經網絡技術設計PID控制器,對高機動目標具有較強的跟蹤精度,但神經網絡方法需要大量的空戰樣本,存在學習樣本不足的問題。與以上兩種方法相比,強化學習算法是一種智能體與環境之間不斷試錯交互從而進行學習的行為,智能體根據環境得到的反饋優化自己的策略,再根據策略行動,最終達到最優策略。由于強化學習的過程通常不考慮訓練樣本,僅通過環境反饋得到的獎勵對動作進行優化,可以提高了學習的效率,是一種可行的方法[10]。文獻[11]將空戰時的狀態空間模糊化、歸一化作為強化學習算法的輸入,并將基本的空戰動作作為強化學習的輸出,使得UCAV不斷與環境交互從而實現空戰的優勢地位。在此基礎上,文獻[12-13]將神經網絡與強化學習相結合,提高了算法的運算效率,但這些文章都沒有考慮飛機的姿態變化。

本文提出了一種深度強化學習(deep reinforcement learning, DRL)算法來解決UCAV自主機動決策作戰的問題,并在MATLAB/Simulink環境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當的空戰動作作為UCAV的機動輸出,建立空戰優勢函數并設計UCAV空戰機動決策模型。通過強化學習方法可以減少人為操縱的復雜性,保證計算結果的優越性,提高UCAV的作戰能力,而神經網絡可以提升實時決策能力。最后通過仿真將該方法應用于UCAV機動作戰決策中,證明了其有效性和可行性。

付費5元查看完整內容

在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。

引言

在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。

空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。

戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。

在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。

最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。

多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。

這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。

本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。

這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。

本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。

圖 3 RL 智能體及其與戰爭環境交互的總體概述。

圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。

付費5元查看完整內容

美國海軍部長

托馬斯-W-哈克: 海軍部長(代理)

美國海軍部正在有目的地進行創新和適應新技術,為未來建立一支更具殺傷力和分布式的海軍部隊。為了在一個大國競爭的時代進行競爭并取得勝利,海軍部致力于在先進的自主性、強大的網絡和無人系統方面進行投資,以創造真正的人機一體化團隊,在整個艦隊中無處不在。

這些持續的投資將產生新的能力,遠遠超出獨立的平臺或以人為本的系統的有效性。它們將通過為每一個水手和海軍陸戰隊員提供不對稱的優勢來改變海戰。

美國海軍和海軍陸戰隊現在已經邁出了下一步,調整無人系統愿景,以執行分布式海上作戰(DMO)和有爭議環境中的瀕海作戰(LOCE)。為了確保成功,海軍和海軍陸戰隊正在將需求、資源和采購政策緊密結合起來,以便更快地開發、建造、整合和部署有效的無人系統

美國海軍部的無人駕駛作戰規劃橫跨整個理論、組織、培訓、物資解決方案、領導和教育、人員、設施和政策的構建。這份文件提供了運動計劃的總體框架,并得到了更高等級的詳細實施計劃的支持。它們共同勾勒出一個具體的戰略,其根基是對當今每個領域的現實評估。前進的道路需要一個整體的方法來開發和部署無人系統,確保個別技術可以在一個更廣泛的網絡化作戰系統架構中運行,并得到正確的人員、政策、作戰概念和其他推動因素的支持。

整個海軍企業致力于為美國和每一個水手和海軍陸戰隊員提供人機協作所提供的戰略和戰術優勢,以保證所有人的海洋自由。

美國海軍水手和公務員水手從美國海軍 "赫歇爾 "號上發射一個無人水面飛行器(USV)從USNS赫歇爾 伍迪-威廉姆斯,2019年9月14日。

美國海軍作戰部部長

M. M. GILDAY:美國海軍作戰部長海軍上將

隨著海軍適應日益復雜的安全環境,必須了解未來的部隊在日常競爭和高端戰斗中都需要什么。

無人系統(UxS)已經并將繼續在未來的分布式海上作戰(DMO)中發揮關鍵作用,而且顯然需要部署負擔得起的、致命的、可擴展的和連接的能力。這就是為什么海軍正在擴大和發展一系列無人駕駛飛行器(UAV)、無人駕駛水下航行器(UUV)和無人駕駛水面艦艇(USV),當把重點轉向以更分散的方式運作的小型平臺時,它們將發揮關鍵作用。

一個混合艦隊對于海軍滿足新出現的安全問題來說是必要的。需要平臺在所有領域的多軸上同時提供致命和非致命的效果。UxS將為未來艦隊提供額外的能力--在空中、在水面上和在水下。

該活動計劃將作為實現無人系統作為海軍作戰團隊的一個組成部分的未來的全面戰略。它將是一份活的、反復的文件,闡明愿景,即通過加快技術、流程和伙伴關系中的關鍵使能因素,建立一支更加準備就緒、致命和有能力的艦隊。

注意到過去的缺點,因此其方法是深思熟慮的,但有一種緊迫感。將解決理論、組織、訓練、物資、領導和教育、人事、設施和政策(DOTmLPF-P)的各個方面,確定并消除能力差距,并努力創建和維護未來的海軍部隊。

MQ-25 T1,左翼下有空中加油站,在坡道上。

海軍陸戰隊司令員的致辭

大衛-H-貝格爾:美國海軍陸戰隊將軍 海軍陸戰隊司令員

美國、盟國和敵方部隊獲得無人駕駛技術的速度要求有一個愿景和路線圖來最大化這種能力。海軍陸戰隊需要無人駕駛的空中、水面和地面系統來充分利用固有的遠征性質和能力。與海軍伙伴合作,將提供一個聯合部隊的海上組成部分指揮部,在居住的獨特海域支持聯合部隊。當在惡劣的條件下以小隊形式在前方作戰時,最大限度地利用無人系統為盟友和對手創造巨大的效果的能力是未來成功的一個關鍵因素。

該戰役計劃作為海軍陸戰隊的一個起點,使其了解到無人系統在不久的將來必須而且將具有更大的重要性。諸如一半的航空機隊在近期到中期內實現無人駕駛,或者大部分的遠征后勤在近期到中期內實現無人駕駛的概念不應該讓任何人感到害怕。相反,這些想法應該點燃海軍陸戰隊的創造性和狡猾的天性,以便前沿部署部隊對聯合部隊更加致命和有用。

大衛-H-貝格爾和海軍作戰司令部(CNO)一起,致力于為海軍陸戰隊的無人駕駛系統制定一個審慎但積極的前進路線。這份文件提供了初步的愿景,并取決于與海軍陸戰隊艦隊、艦友、聯合部隊、國會、盟友和工業界的反復討論。大衛-H-貝格爾希望海軍陸戰隊能接受這種未來的戰爭,并將其轉化為他們在戰場上的優勢;從日常競爭到大規模作戰行動。

一架VBAT垂直起降(VTOL)無人機系統準備在飛行甲板上降落。準備在海軍艦艇的飛行甲板上著陸。一艘海軍艦艇的飛行甲板上。

美國海軍作戰架構

無人系統通過解除對有人系統的限制來提供實現任務結果的能力。僅靠搭建平臺是無法實現任務成果的。為了在無人空間提供整體解決方案,DON 將更加關注開發成功擴展投資經驗所需的推動力。其中一些關鍵推動因素包括:網絡、控制系統、基礎設施、接口、人工智能和數據。海軍和海軍陸戰隊正在設計和實施一個全面的作戰架構來支持 DMO。這種架構將為單位、作戰群和艦隊提供準確、及時、分析的信息。

付費5元查看完整內容

指揮、控制、通信和情報(C3I)系統越來越多地被用于民用和軍用中的關鍵領域,以實現信息優勢、高效率作戰和更好的態勢感知。與面對大量網絡攻擊的傳統系統不同,C3I戰術行動的敏感性質使其網絡安全成為一個關鍵問題。例如,在軍事戰場上篡改或截獲機密信息不僅會破壞C3I的運作,而且還會造成不可逆轉的后果,如人員的傷亡和任務的失敗。因此,C3I系統已經成為網絡對抗的一個焦點。此外,技術的進步和C3I系統的現代化大大增加了C3I系統遭受網絡攻擊的潛在風險。因此,網絡中的敵對方使用高度復雜的攻擊載體來利用C3I系統的安全漏洞。盡管網絡安全對 C3I 系統的重要性日益增加,但現有文獻缺乏對 C3I 系統安全知識體系進行系統化的全面回顧。因此,在本文中,我們收集、分析和整合了關于C3I系統網絡安全的最新進展。特別是,本文已經確定了C3I系統的安全漏洞、攻擊載體和對策/防御措施。此外,我們的調查使我們能夠:(i)提出安全漏洞、攻擊載體和反措施的分類法;(ii)將攻擊載體與安全漏洞和對策相互關聯;(iii)提出未來的研究方向,以推進C3I系統網絡安全的最新進展。

【關鍵詞】:指揮;控制;通信;情報;計算機;監視;偵察;C3I;C4I;C4ISR;網絡安全;網絡攻擊;漏洞;對策

1 介紹

指揮、控制、通信和情報(C3I)系統是數據收集傳感器、智能計算機和異構通信網絡的整合,該系統在指揮官的監督下被授權收集、存儲、分析和傳遞戰術領域的信息。由于新的智能(如人工智能(AI)技術)和認知的敏捷性,C3I系統使組織能夠在行動中獲得并保持信息優勢、作戰效能、增加態勢感知、實時決策支持、快速溝通以及加強異構C3I單位之間的協作。此外,C3I指揮系統確保嚴格遵守組織的命令鏈,從而防止C3I單位在戰術行動中違反知情行動方針。因此,C3I系統越來越多地被用于民用和軍用中的敏感領域,如搜救任務、醫療、交通、消防、戰場、機場以及許多其他應用,在這些領域中,及時的數據傳輸和計劃執行是首要關注的目標。例如,英國政府利用C3I系統對COVID-19造成的醫療緊急情況做出了有效反應。

為了說明C3I系統在戰術行動中的意義,圖1顯示了C3I系統在軍事和民用領域的兩個應用場景--(a)戰場和(b)救援任務。在戰場場景中,C3I指揮系統和C3I控制系統分別通過不同的傳感器設備(如四旋翼飛機和近距離傳感器)收集戰術數據(例如,敵方士兵的位置和活動)。控制系統在C3I情報單位的幫助下處理原始數據,并向指揮系統提供分類信息。因此,C3I指揮系統通過協調多個軍事部隊,如士兵、直升機和裝甲坦克,執行所需的行動計劃,以實現任務目標。C3I通信系統,如衛星鏈路和其他技術(如4G/5G和射頻鏈路),使移動C3I單位(如直升機和四旋翼飛機)能夠在戰術行動中有效協作。使用類似的方法,但目標不同,在圖示的救援任務場景中,C3I指揮系統指揮救生員和救援船去拯救溺水者。在這兩種情況下,C3I系統通過在戰術行動中收集和處理敏感數據來產生所需的情報,從而實現信息優勢、作戰效能和態勢感知。

圖1. C3I系統在(a)軍事行動和(b)救援任務中的應用演示。

如圖所示,C3I系統被用于敏感領域,如軍事任務和搜救場景。所謂敏感領域,我們指的是行動出錯的后果是相當有害的領域。例如,在軍事行動中,向飛機提供錯誤的目標位置以進行炮擊,會導致嚴重的意外損失,包括人命傷亡和基礎設施的破壞。C3I應用領域的敏感性質使其網絡安全成為一個關鍵問題。例如,考慮到圖1(a)所示的軍事行動,如果近距離傳感器因為對手的攻擊而被破壞,C3I系統就會收集虛假的數據并相應地產生錯誤的指令,從而導致任務失敗。歷史事件也表明,C3I系統的網絡安全漏洞會導致重大的軍事失利。例如,恩尼格瑪機器(C3I通信系統的一部分)被破壞是二戰中德軍損失敗的主要原因之一。同樣,同樣,由維基解密于 2010 年發布的 C3I 基礎設施中托管的阿富汗戰爭文件泄露事件是軍事歷史上最大的數據泄露事件之一。這次未經授權的披露包含大約91,000份有關阿富汗戰爭的美國機密軍事記錄。華盛頓郵報》在2019年報道了另一起網絡安全違規事件,當時美國正式對伊朗的C3I軍事裝置發動了網絡攻擊。這些網絡攻擊損害了控制導彈和火箭發射器的C3I系統。在 C3I 民用領域應用方面,對洛杉磯醫院和舊金山公共交通的勒索軟件攻擊不僅擾亂了他們的 C3I 運營,還導致未經授權的敏感信息泄露。因此,大量針對C3I系統的網絡攻擊已經成為C3I系統網絡安全的一個嚴重問題。

鑒于戰術行動的復雜性在不斷增加(如國防部C3I現代化戰略),當代C3I系統已經開始利用現代技術的先進功能,如區塊鏈和云計算),以滿足戰術環境中快速響應、可靠性和業務保障等嚴格的操作要求。在當代C3I系統中融入最先進的技術,增加了復雜的網絡攻擊的潛在風險,如高級持續性威脅(APTs)。網絡威脅的可能存在于任何C3I系統組件中,如數據庫、網絡服務器和通信網絡。當對手利用系統的漏洞,造成未經授權的信息泄露、篡改和敏感信息不可用等不良后果,以及金錢和名譽損失時,對C3I系統的網絡攻擊就被認為是成功的。此外,使用最先進的技術來執行網絡攻擊,加劇了對C3I系統的不利影響。

網絡攻擊的影響越來越大,強調了設計、開發和采用適當的安全措施來保護C3I系統的必要性。因此,安全專家、系統設計者和開發者采用防御性策略,也就是廣義上的對策,以確保C3I系統免受網絡攻擊。例如,美國、英國等國家和北大西洋公約組織(NATO)等組織提出了北約架構框架(NAF)、英國國防部體系架構框架(MoDAF)、美國國防部體系架構框架(DoDAF)等架構框架,以加強C3I相關戰術系統的網絡安全。此外,還有為C3I領域開發最先進的技術服務,適應大數據、物聯網、5G通信等新興技術,以及建立網絡防御系統等措施。在目前有關C3I系統網絡安全的背景下也值得注意。除了應對措施外,明確經常被網絡敵對方利用的常見漏洞也很重要。同樣重要的是確定對手利用這些漏洞的攻擊載體。這種對漏洞和攻擊載體的探索有助于研究人員和安全專家為保護C3I系統的安全而開發所需的安全保障/對策。

圖2. 為調查C3I系統的網絡安全而確定的主題

雖然研究人員已經提出了一些對策,并明確了C3I系統的漏洞和攻擊載體,但據我們所知,目前還沒有一項調查/審查研究,旨在調查現有文獻,以系統化C3I系統的網絡安全知識體系。為了填補這一空白,我們的研究系統地收集、分析和整合了關于C3I系統網絡安全的最新進展。在調差有關這一主題的文獻時,我們只考慮了2000年以后發表的經同行評議的研究,以提供關于C3I系統網絡安全的最現代和有效的見解。根據我們對所調查的研究中提取的數據的分析,我們將本文分為三個主題(即安全漏洞、攻擊載體和對策),如圖2所示。為了對C3I系統進行深入的網絡安全分析,我們將每個主題分為兩個子主題。例如,我們描述了文獻中確定的每個安全漏洞,和如何利用安全漏洞的細節及其有害的后果。同樣地,我們報告了攻擊載體的執行情況以及它們對C3I系統的不利影響。通過對這些主題的分析和報告,我們確定了它們之間的關系以及從業人員和研究人員的未來研究領域。

我們的貢獻:綜上所述,我們的調查有以下貢獻。

  • 本文對文獻中發現的C3I系統的安全漏洞進行了全面分析。細致地描述每一個安全漏洞如何被利用的細節和對C3I系統的利用后果。對已確定的安全漏洞根據C3I系統組件以創新的方法進行分類。
  • 本文對適用于C3I系統的攻擊載體進行了高水平的調查。每個攻擊載體都被仔細研究,重點是其執行方法和對C3I系統的不利影響。我們根據C3I系統的組成部分(即指揮、控制、通信和情報)對攻擊載體進行了分類。
  • 本文對文獻中報道的保護C3I系統網絡空間的對策進行了總體分析。描述了每種對策的方法和好處。根據C3I系統的開發和運行階段進行對已確定的對策進行了分類。此外,對每個類別進行了批判性的調查,提出了其好處和局限性。
  • 本文對C3I系統的安全漏洞、攻擊載體和對策行了綜合分析。不僅詳盡的分析了攻擊載體與安全漏洞以及對策之間的獨特關系,而且還確定了未來的研究方向,以推進C3I系統網絡安全的最新進展。

值得一提的是,我們在這次調研中分析了C3I系統及其衍生系統的網絡安全問題。這些衍生系統包括指揮、控制、通信、計算機和情報(C4I)系統;指揮、控制、通信、計算機、網絡和情報(C5I)系統;指揮、控制、通信、計算機、情報、監視和偵察(C4ISR);以及許多其他組合(例如,C5ISR和C6ISR)。然而,為了方便讀者,我們在本文中使用C3I系統這一術語來指代C3I及其所有其他的衍生系統。

2 對C3I系統的回顧

本節提供了C3I系統的概述,以幫助理解后續章節中報告的結果。特別地是,我們描述了C3I系統的組成部分和它們在戰術行動中的功能。一個C3I系統主要由四個部分組成:指揮系統、控制系統、通信網絡和情報單位。這些C3I組件相互配合運行,以執行關鍵的民事和軍事行動。在戰術行動開始時,C3I指揮和控制系統都分別通過不同的數據源(如傳感器、現場指揮員和在戰術環境中運作的C3I系統)收集戰術信息,如圖3所示。

控制系統:C3I控制系統對收到的戰術信息進行處理,以生成實現C3I任務目標所需的行動計劃。為此,C3I控制系統采用了數據計算機(如單板計算機)、數據控制器(如PLC和SCADA)以及存儲設備(如固態驅動器)。從戰術領域收集的原始數據主要通過以下三個步驟進行處理。第一步:通過從收到的信息中提取其相關特征來估計戰術情況。第2步:將估計的情況與期望的任務結果進行比較,以產生可能的行動計劃。第3步:根據戰略資源的可用性和要求(如業務質量、成本和功率),從可能的選項中選擇一個最佳行動計劃。最后,C3I控制系統與相應的C3I指揮系統共享最佳行動計劃,以便進行驗證和實施。值得注意的是,C3I情報單元為控制系統的活動提供了便利,這一點將在本節后面介紹。

指揮系統:戰術數據源通過C3I網絡接口、生態接口和安卓應用等C3I指揮系統向C3I指揮員提供態勢感知(如戰術單位的地理位置和移動)。C3I指揮員首先分析C3I控制系統的共享態勢感知和最佳行動計劃,為實現既定目標準備一個針對對手的有效策略。然后,他們通過指揮界面向在戰術環境中運行的現場指揮官和自主系統發出指令,實施最終確定的行動計劃。C3I指揮界面確保了戰術行動中嚴格的命令鏈,這可以防止網絡敵對方未經授權使用機密信息。

圖3. 每個C3I系統的組成部分在戰術行動中的作用

通信系統:C3I 通信系統支持在戰術環境中收集、處理和傳播數據期間 C3I 組件和戰術數據源之間的所有內部和內部通信。為此,C3I 通信系統連接廣泛分布的、移動的和異構的 C3I 資產(例如,傳感器、自主 C3I 系統和地面當局)以進行數據傳輸和整體通信。為了整合異構 C3I 資產,C3I 通信網絡由多功能和多樣化的數據傳輸鏈路組成,包括地面視距(例如 Link-16 和甚高頻)、地面超視距(例如聯合戰術無線電系統和合作參與能力數據分發系統)和衛星(例如窄帶和寬帶)通信設施。此外,MANET、RF 鏈路、4G/5G 和 SATCOM 等其他數據傳輸協議和技術也用于 C3I 網絡。對于異構資產之間的數據轉換,C3I 通信系統采用有效的數據交換模型(例如,JC3IEDM 和 MIEM)來增強 C3I 作戰期間異構戰術資產之間的互操作性和聯盟。

情報單位:C3I情報部門協助C3I系統進行數據處理和有效決策。不同的人工智能工具,如機器學習(ML)和深度學習(DL)模型,被用來在C3I行動中引入智能。例如,報告中提到的基于ML的降維算法,被用來從C3I數據源收到的原始信息中提取相關特征,以估計一個新出現的戰術形勢。同樣,報告中提到的基于人工智能的優化方法被用來選擇一個最佳的行動計劃。C3I情報能力不僅提高了對局勢的認識和作戰效率,而且還為C3I指揮官提供了有效決策的認知敏捷性。

3 安全漏洞

本節報告了與C3I系統的安全漏洞這一主題有關的調查結果。一般來說,安全漏洞是指系統中的任何弱點、故障或問題,攻擊者可以利用這些漏洞來傷害系統或其用戶。基于這個定義,我們確定了13個安全漏洞,分別表示為V1、V2、V3、...。V13. 我們根據相關的C3I系統組件(即指揮、控制、通信和情報)對確定的漏洞進行了分類。由于一些漏洞(如V1和V8)與多個C3I組件有關,我們在每個組件下解釋了這些漏洞的變體。此外,對于每個漏洞,我們都提供了常見漏洞和暴露(CVE)數據庫的例子,考慮到它們與C3I系統的相關性和適用性。圖4和圖5分別說明了安全漏洞和攻擊載體的總體分類,以及漏洞及其提取的研究。

圖4. 與C3I系統的指揮、控制、通信和情報部分相關的安全漏洞和攻擊載體

3.1 C3I指揮系統的漏洞

記錄和監控不足(V1):C3I指揮系統應該配備持續的監測方法,如入侵檢測,以實現實時的未經授權的訪問識別和預防。然而,系統架構,如面向服務的架構(SOA)并不包括內置的入侵檢測和持續監控機制,因為基于SOA的系統通常用于企業應用。因此,基于SOA的C3I系統既不能實時識別入侵者,也不能長期識別受損的系統。此外,考慮到諸如OpenPegasus通用信息模型(CIM)服務器等機制可用于監測C3I系統的硬件性能和健康狀況,它可以包含這個安全漏洞,因為OpenPegasus 2.7 CIM沒有記錄失敗的登錄嘗試(CVE-2008-4315)。通過利用這個漏洞,對手可以執行許多攻擊,未經授權地訪問C3I系統,而不被發現或通知有關當局。

不安全的會話管理(V2):許多基于網絡的C3I指揮系統使用會話來存儲用戶信息,包括服務器端存儲的會話ID,能夠唯一地識別每個用戶和他們的授權操作。如果在設計用戶認證機制時沒有采取安全措施,如加密性強的會話ID和安全的會話終止策略,就會使攻擊者從服務器中檢索到會話數據,并在未經授權的情況下進入C3I指揮系統,破壞或影響C3I系統中遵循的嚴格的命令鏈。例如,當C3I系統采用Infinispan等NoSQL數據庫軟件時,由于Infinispan-9.4.14缺乏適當的會話固定保護(CVE-2019-10158),C3I系統會受到這個漏洞的影響。

缺少功能級訪問控制(V3):與任何其他系統類似,C3I指揮系統也有多個具有不同訪問權限的用戶。例如,系統管理員比普通用戶(如數據操作員)有更高的權限,他們通過專門的管理界面來利用這些權限。當系統的設計不正確,不能提供功能級別的訪問控制(即對每個功能進行嚴格的用戶授權)時,具有低訪問權限的用戶可以提升他們的權限,執行未經批準的操作。例如,當C3I系統利用服務管理軟件(如IBM Jazz)時,用戶可以通過利用這一漏洞(CVE-2019-4194)訪問和刪除C3I系統中的受限數據和資源。

基于角色的不安全訪問控制(V4):正如V3所解釋的,C3I指揮系統需要管理具有多種角色和訪問權限的用戶。基于角色的訪問控制(RBAC)是一種廣泛使用的訪問控制方法,每個用戶都有一個定義的用戶角色,并有一組允許的行動。雖然RBAC系統可以促進對C3I指揮系統功能和數據的基于角色的訪問控制,但配置錯誤的RBAC系統(例如,用戶角色和其相關功能之間的映射不準確)會使關鍵任務數據被攻擊者操縱和刪除。例如,由Oracle Solaries 11.1操作系統驅動的C3I系統受此漏洞影響,允許本地用戶進行限制其用戶角色的操作(CVE-2013-5875)。

開放式重定向(V5):在基于網絡的C3I指揮系統中,用戶依靠統一資源定位器(URL)在內部和外部C3I系統之間導航。因此,確保這些網絡鏈接經過驗證并只指向安全的C3I系統和域是至關重要的。例如,當C3I系統用戶利用基于網絡的Cisco Webex會議進行在線會議時,遠程攻擊者可以發送惡意的URL,并通過將其重定向到不安全的網頁來竊取C3I系統的用戶憑證,因為該軟件沒有嚴格驗證用戶給出的URL(CVE-2021-1310)。在這種情況下,攻擊者可以竊取C3I管理員的憑證,并使用收到的憑證來冒充管理員并執行對C3I系統的攻擊。

不安全的直接對象引用(IODR)(V6):與V5類似,IODR漏洞也與基于網絡的C3I指揮系統的不安全訪問控制有關。在網絡開發中,使用對象的名稱或鍵來動態填充網頁是很常見的。因此,如果C3I指揮系統不驗證用戶訪問駐留在C3I系統中的數據的請求,那么對手就可以通過注入受限的內部對象引用來操縱合法的請求,從而在水平和垂直方向上提升他們的權限。例如,當C3I系統使用LogonBox Nervepoint Access Manager進行用戶認證和身份管理時,攻擊者可以利用IODR漏洞,未經授權地檢索C3I系統的用戶詳細信息(CVE-2019-6716)。

不安全的配置存儲(V7):一個典型的C3I指揮系統由多個服務器組成,這些服務器被配置為各種功能,如網絡服務、電子郵件服務器和文件傳輸服務。一個服務器的配置存儲管理著所有已實施的安全方法、方法和技術的設置細節。服務器的錯誤配置和向未經授權的第三方披露訪問細節會導致不安全的配置存儲。攻擊者如果獲得了對指揮系統配置存儲的訪問權,就可以禁用已實施的安全機制,使C3I系統容易受到許多網絡攻擊。例如,當C3I系統配備了應用管理軟件,如ManageEngine應用管理器時,惡意的認證用戶可以利用這一漏洞來提升他們的權限。因此,這些對手可以完全控制整個C3I系統(CVE-2019-19475)。

使用COTS組件(V8):許多C3I系統利用商業現成(COTS)組件來減少開發成本和時間。然而,由于測試和審查程序不充分,這些軟件組件中可能包含一些安全漏洞。即使是經過測試的軟件組件,有些也沒有對已知的漏洞進行修補。需要注意的是,當C3I系統采用這些與開源代碼庫相關的第三方軟件時,攻擊者可以通過對C3I系統發起攻擊來利用漏洞。例如,當C3I認證系統采用有漏洞的第三方JSON網絡令牌庫(CVE-2021-41106)時,C3I指揮系統面臨著未經授權訪問關鍵任務數據的威脅。

3.2 C3I控制系統的漏洞

使用COTS組件(V8):與第3.1節--V8類似,C3I控制系統可能會因為使用受損的第三方軟件進行安全關鍵數據處理、存儲、監控和可視化等任務而變得容易受到網絡攻擊。因此,當C3I控制系統配備了來自惡意供應商的軟件,而沒有進行充分的安全測試以加快開發過程時,這些系統可能包含后門和預先安裝的惡意軟件。例如,當C3I系統配備了用于存儲關鍵任務數據的IBM InfoSphere服務器時,攻擊者可以通過利用這些服務器固有的不安全的第三方域訪問漏洞(CVE-2021-29875)竊取這些數據。

圖5. 已確認的C3I系統安全漏洞及其來源/參考文獻

不安全的數據存儲(V9):C3I控制系統存儲不同類型的數據,包括關鍵的安全信息,以通過提高態勢感知和戰術決策支持來加快C3I的運作。因此,在C3I系統中,靜態數據的安全是至關重要的。由于許多原因,如硬件和軟件故障、用戶的疏忽和對手的攻擊,C3I系統中可能發生數據丟失。例如,當C3I系統數據存儲在Couchbase服務器中時,攻擊者可以訪問這些數據,因為這些Couchbase服務器以純文本方式存儲安全關鍵數據(CVE-2021-42763)。

3.3 C3I通信系統的漏洞(機翻開始)

記錄和監控不足(V1):與第3.1節-V1類似,C3I通信系統也應該配備持續的日志和監控機制,以檢測來自被攻擊的C3I節點的惡意流量。例如,當C3I通信系統利用配備JUNOS操作系統的網絡設備時,由于該系統缺乏適當的資源分配和監控方法,攻擊者可以向這些設備發送惡意流量,使其無法用于合法的C3I數據通信(CVE-2021-31368)。

不安全的會話管理(V2):C3I通信系統促進了廣泛的C3I節點之間的高效和安全的數據通信。例如,來自無人機的戰場數據必須傳輸到C3I控制單元進行進一步處理,來自指揮系統的命令必須與軍事部隊進行溝通,以采取必要的行動。開放系統互連(OSI)模型中的會話層負責創建、同步和終止設備間的通信通道。因此,會話層中需要SSL/TLS證書等安全方法,以實現合法的C3I節點之間的安全通信。然而,這些安全措施的謬誤實施使得對手能夠使C3I通信網絡無法用于關鍵數據通信,導致任務失敗(CVE-2021-40117)。

不安全的配置存儲(V7):與第3.1節--V7類似,C3I系統必須采用安全配置管理系統,如思科火力管理中心(FMC)來實施和維護C3I通信系統的安全機制。然而,由于FMC系統以純文本形式存儲用戶數據,經過驗證的本地攻擊者可以檢索這些細節,并通過冒充系統管理員來禁用C3I通信網絡實施的安全防御措施(CVE-2021-1126)。

使用COTS組件(V8):與第3.1節--V8類似,C3I通信系統也會因為使用被破壞的COTS設備(如路由器和交換機)和網絡管理工具(如Wireshark和SolarWinds)而變得脆弱。例如,由于網絡監控和管理軟件SolarWinds的漏洞,九個美國聯邦機構已經被攻破,攻擊者已經獲得了這些系統的數據和電子郵件(CVE-2021-35212)[174]。同樣地,任何使用SolarWinds第三方軟件的C3I系統都擁有未經授權訪問C3I關鍵任務數據的威脅。

不安全的OpenSSL軟件(V10):OpenSSL是一個加密軟件,用于C3I網絡系統,支持C3I網絡系統和用戶之間的安全通信。它通過 "心跳 "信息確保在通信鏈路的另一端有一個活躍的接收器。由于OpenSSL軟件沒有實現嚴格的 "心跳 "消息驗證機制,攻擊者可以利用這些消息來訪問服務器的隨機存取存儲器(RAM)。因此,攻擊者可以利用這個漏洞,從C3I系統服務器RAM中未經授權地檢索C3I關鍵任務信息和其他安全相關數據,如證書(CVE-2014-0160)。

使用公共通信網絡(V11):一些C3I系統使用公共網絡,如互聯網進行數據通信,以盡量減少成本。由于公共網絡默認缺乏嚴格的安全措施(如安全的虛擬專用網絡(VPN)),傳輸的數據容易受到與未經授權的訪問和數據操縱有關的對抗性攻擊。例如,當C3I組件通過沒有安全VPN通道的公共網絡進行通信時,攻擊者可以查看和篡改傳輸的數據,導致C3I運行受到影響。然而,即使使用VPN通道也不能保證通過公共通信通道傳輸的數據的保密性和完整性,因為一些VPN軟件在設計上沒有足夠的安全機制(例如,不安全的輸入驗證 - CVE-2021-1519)。

未加密的無線通信鏈接(V12):C3I系統依賴于無線通信網絡,主要是由于動員單位使用有線技術的成本和不現實。與有線通信技術相比,無線鏈路容易受到更多的攻擊,因為收發器對無線信號的傳播范圍和方向控制有限。與V3一樣,當C3I的無線網絡在設計上沒有采取必要的安全措施,如物理層加密,對手可以實施大量的攻擊,使C3I系統之間的通信鏈路失效,降低C3I行動的整體態勢感知。例如,當C3I通信系統利用具有內部數據加密過程錯誤的無線設備(如Broadcom WiFi客戶端設備--CVE-2019-15126)時,C3I關鍵任務數據可以被攻擊者解密,導致數據保密性被破壞。

無線通信鏈接斷裂(V13):如V12所述,C3I系統高度依賴于無線通信技術,以確保地理上分布廣泛的C3I資產之間的連接。然而,由于C3I資產在惡劣條件下的過度移動,無線通信鏈接經常受到影響。例如,當一個合法節點由于無線鏈路斷裂而斷開連接時,攻擊者可以通過加入被斷開連接的合法節點來滲透到C3I系統中(CVE-2020-24586)。因此,攻擊者可以在合法節點由于缺乏通信和降低態勢感知而變得脆弱的情況下進入C3I系統。

3.4 C3I情報單位的漏洞

記錄和監控不足(V1):雖然第3.1節從C3I指揮系統缺乏入侵檢測和持續監測機制的角度解釋了漏洞V1,但在這里,我們主要關注與C3I系統中基于AI/ML的監測和記錄方法的應用和安全性有關的兩個方面。首先,我們強調C3I系統采用的基于AI/ML的方法在入侵檢測方法方面的不足。例如,機器學習分類器,如K-近鄰(K-NN)、支持向量機(SVM)和人工神經網絡(ANN)已經被廣泛用于利用安全事件日志的異常檢測。因此,C3I智能單元可以納入這些機制來檢測入侵者,并隨后實施預防方法來阻止攻擊者進入C3I系統。如果不納入這些智能入侵檢測方法,將允許入侵者通過破壞系統的完整性來訪問和執行對C3I系統的惡意攻擊。其次,我們強調在C3I情報單位持續監測AI/ML模型的性能(如準確性)的必要性。AI/ML模型受到數據和模型漂移的影響,導致不準確的推斷。例如,當C3I系統采用為其他領域訓練的AI/ML模型進行入侵檢測時,由于數據漂移,這些模型的準確性會大大降低。因此,C3I系統中采用的人工智能/ML模型必須被持續監測、測試和驗證,以確保這些模型提供準確的結果。

使用COTS組件(V7):與第3.1節--V7類似,當C3I情報單位采用不安全的第三方人工智能/ML模型和框架,從原始數據(如傳感器數據)中生成知識(如態勢感知)時,這些單位可能變得容易受到網絡攻擊。例如,戰術C3I系統可以采用TensorFlow深度學習(DL)框架與卷積神經網絡(CNN),從衛星圖像中識別敵方領土。然而,當TensorFlow框架與NumPy包一起使用時,擁有拒絕服務(DoS)的威脅,NumPy包在AI/ML模型開發中通常被利用(CVE-2017-12852)。因此,當這些不安全的AI/ML包被用于C3I情報單位時,攻擊者可以利用這一漏洞使情報單位不可用或不響應,影響C3I的運作并導致任務失敗。

4 攻擊載體

本節報告與主題2(針對C3I系統的攻擊載體)有關的發現。攻擊載體是指攻擊者利用C3I系統中的漏洞所使用的方法。我們通過現有文獻確定了19個針對C3I系統網絡安全的攻擊向量(圖6)。我們用A1、A2、A3、......、A19表示這19個攻擊向量,以方便在本文中引用。類似于C3I系統的漏洞(第3節),我們根據攻擊向量對C3I系統組件的適用性對其進行分類,如圖4所示。由于篡改攻擊(A6)和惡意軟件(A7)可以在任何C3I系統組件上執行,我們同時報告了每個C3I組件的攻擊向量。在下文中,我們將描述攻擊向量及其對相應C3I系統組件的執行(子主題1)和影響(子主題2)細節。

4.1 C3I指揮系統的攻擊載體

蠻力攻擊(A1):蠻力攻擊是用來獲得對C3I指揮界面的未經授權的訪問。黑客使用不同的入侵機制,如試錯法和會話ID的利用,以獲得C3I指揮官的秘密信息(如加密密鑰和登錄憑證)。因此,入侵者不僅可以獲得實時的態勢感知,還可以通過被入侵的C3I指揮界面進行惡意活動(例如,生成欺詐性指令)。

內部攻擊(A2):內部人員指的是擁有合法訪問C3I指揮系統的惡意C3I系統操作員。當內部人員在使用C3I指揮界面時故意或錯誤地忽略了安全協議,就會執行內部攻擊。這種行為會導致敏感信息的泄露和戰術行動的終止。由于內部人員的合法訪問權限,在C3I指揮系統中檢測或防止內部攻擊是很麻煩的。

跨站腳本(A3):跨站腳本(XSS)是一種攻擊媒介,用于攻擊基于網絡的C3I命令界面,即在C3I命令界面的輸出中注入惡意腳本。當C3I指揮官訪問一個被破壞的界面時,一個已安裝的惡意腳本被激活,這使得入侵者能夠從C3I指揮系統中竊取敏感信息(例如,用戶活動)。會話劫持和用戶冒充是XSS的結果。

SQL注入(A4):結構化查詢語言(SQL)是一種代碼,用于通過基于網絡的C3I命令界面從C3I存儲設施獲取敏感信息。當入侵者注入一個惡意的SQL查詢來訪問C3I數據庫時,就會發生SQL注入。因此,入侵者會滲出、破壞或操縱存儲在C3I數據庫中的敏感信息。例如,羅馬尼亞黑客在2010年對美國軍隊網站實施了一次SQL注入攻擊。正如DARKReading5所報道的那樣,黑客成功地進入了包含軍隊人員敏感信息的75個數據庫。

跨站請求偽造(A5):網絡對手通過C3I指揮界面創建欺詐性的HTTP鏈接來進行惡意活動。如果一個經過認證的C3I指揮官點擊了欺騙性的鏈接,相應的惡意行為就會被執行。由于易受攻擊的網絡界面無法區分合法請求和授權用戶發送的偽造請求,因此這種指揮界面很難檢測到偽造的請求。跨站請求偽造使攻擊者能夠通過C3I指揮界面在戰術領域執行惡意命令。

圖6. 確定的C3I系統攻擊載體及其來源/參考資料

篡改攻擊(A6):篡改攻擊,在報告中,當入侵者進行惡意活動,操縱通過C3I命令接口傳達的戰術信息時,就會執行篡改攻擊。例如,網絡參數篡改攻擊通過使用POST請求來篡改用戶的證書、操作命令和通過C3I網絡接口傳達的信息。因此,C3I指揮官無法實施所需的行動計劃,這可能導致C3I任務的失敗。

惡意軟件(A7):惡意軟件是用來滲透到C3I系統的惡意活動,如未經授權的訪問、數據修改和滲出。惡意軟件通常通過惡意電子郵件、偷渡下載和C3I指揮系統的外部可移動設備傳播。因此,惡意軟件限制了授權用戶訪問C3I接口,為黑客提供了對C3I接口的遠程訪問,并竊取了有關指揮行動的敏感信息。

拒付攻擊(A8):當入侵者修改C3I指令操作中執行的活動記錄時,就會發生拒認攻擊。通過使用不同的惡意策略(例如,日志注入攻擊),攻擊者會改變C3I指揮官所采取的行動的存儲信息,或者破壞他們自己在C3I行動中的惡意活動的日志。因此,損壞的日志文件使人對指揮行動的有效性產生懷疑,并在C3I的命令鏈中造成混亂。

4.2 C3I控制系統的攻擊載體

篡改攻擊(A6):第4.1節所述的篡改攻擊,也被用來修改和編造C3I控制單元的數據計算和存儲系統中的戰術信息。入侵者進行惡意活動,如破壞數據庫配置和在程序可執行中注入惡意代碼,以操縱C3I控制系統的敏感信息。因此,C3I控制系統會錯誤地估計戰術情況,并為指揮系統生成偽造的行動計劃。

惡意軟件(A7):與C3I指揮系統(第4.1節)類似,惡意軟件也對C3I控制系統有害。使用第三方軟件、不安全的通信連接和脆弱的操作系統[48]是在數據計算機和存儲設備中注入惡意軟件的常見方式。因此,惡意軟件會造成數據操縱、滲出和控制系統活動的中斷,從而扭曲了實現C3I戰術目標所需的行動計劃生成過程。例如,Stuxnet惡意軟件破壞了伊朗核電站使用的計算機輔助控制系統(如SCADA)以及其他30,000個IP地址的運作。

檢查時間到使用時間(A9):C3I控制系統在制定實現任務目標的行動計劃之前,要檢查戰略資源(如作戰設備和人力資源)的可用性。當入侵者在可用資源的檢查和使用時間之間進行惡意活動(如惡意代碼注入和資源消耗)以使檢查操作的結果無效時,就會執行檢查時間到使用時間的攻擊[117]。因此,C3I控制系統用不可用/被破壞的資源準備一個行動方案,在C3I操作中執行非預期的行動。

4.3 C3I通信系統的攻擊載體

欺騙攻擊(A10):網絡攻擊者冒充合法的C3I節點與C3I網絡連接,以執行惡意活動(例如,竊取戰術信息和插入惡意軟件)。不同的攻擊載體,如IP欺騙、ARP欺騙、DNS欺騙和MAC欺騙,被用來通過不同的通信層竊取合法C3I節點的身份。例如,開源軟件,如Kismet和Ethereal,被用來獲取或改變一個C3I系統的有效MAC地址。另一種形式的欺騙攻擊是GPS欺騙,攻擊者通過使用商業化的現成產品產生偽造的GPS信號,向戰術環境中的C3I節點提供偽造的位置、導航和時間信息。

竊聽(A11):竊聽,也被稱為中間人攻擊,是一種被動的攻擊載體,攻擊者通過這種方式秘密地監聽兩個C3I節點之間的通信。開源網絡監控和數據包嗅探工具,如Wireshark和Tcpdump,被用來竊聽C3I的通信鏈接。竊聽攻擊的結果是未經授權披露戰術信息。例如,在第二次世界大戰期間,英國人通過被破壞的英格瑪機器竊聽了德國的軍事通信,這是德國軍隊失敗的主要原因之一。

淹沒式攻擊(A12):當攻擊者向目標C3I節點發送大量的流量,以破壞其在戰術環境中對其他C3I節點的服務時,就會實施泛濫攻擊。大流量,如SYN泛濫和PING泛濫,會消耗目標C3I節點附近的服務器的可用帶寬。因此,來自其他C3I節點的合法數據包無法從受影響的服務器上傳輸。因此,目標C3I節點會從C3I通信網絡中斷開連接。

干擾攻擊(A13):干擾攻擊使C3I系統對C3I通信網絡中的其他C3I節點不可用。黑客采用不同的干擾策略,如持續干擾和欺騙性干擾,使C3I通信系統中與目標C3I節點相關的數據傳輸鏈接失效。因此,受影響的C3I系統的服務,與被禁用的通道相連,對其他C3I戰術節點來說是不可用的。 黑洞攻擊(A14):在戰術性城域網中,為數據傳輸尋找最短路徑的路由發現過程是必要的和不可避免的。黑客在路由發現過程中,通過發送虛假的路由回復信息,即惡意節點擁有所需的最短路徑,來利用這一城域網特征。因此,源C3I節點通過惡意節點建立了一條通往目的地C3I節點的數據傳輸路線,這導致了通信中斷和敏感信息的泄露。

趕路攻擊(A15):當攻擊者節點在戰術性城域網的路由發現過程中收到一個路由請求(RREQ)時,就會執行急速攻擊。攻擊者節點在任何其他C3I節點在網絡中轉發相同的RREQ數據包之前,立即將RREQ數據包發送到所有C3I節點。這樣一來,所有其他的C3I節點都認為來自合法的C3I節點的RREQ是重復的,所以他們拒絕合法的RREQ。因此,攻擊者節點總是包括在數據傳輸路線中,這可能會導致戰術性城域網中的拒絕服務和竊聽(A11)。

蟲洞攻擊(A16):當至少有兩個攻擊者節點在戰術性城域網的戰略位置上定位時,就會發生蟲洞攻擊。在路由發現過程中,攻擊者節點在彼此之間進行RREQ數據包的加密。當目的地節點收到通過隧道傳輸的RREQ數據包時,目的地節點發現惡意路線是網絡中最短的路線,并丟棄從其他合法C3I節點收到的所有其他RREQ數據包。這樣一來,攻擊者節點就成了C3I戰術性城域網中數據傳輸路線的一部分。蟲洞攻擊可能導致C3I領域的數據篡改(A6)、中間人攻擊(A11)和數據外泄。

重放攻擊(A17):中報告的重放攻擊,分三個步驟進行。第一步:通過使用網絡監控工具監控C3I通信鏈路。第2步:截獲敏感信息,如登錄憑證和C3I行動計劃細節。第3步:重放截獲的數據包,欺騙接收的C3I節點。因此,合法的C3I節點認為攻擊者節點是真實的C3I節點,這導致了C3I系統中敏感信息的未經授權的泄露。

路由攻擊(A18):路由攻擊是在C3I通信網絡的路由協議上執行的,以破壞戰術環境中的C3I服務[45, 61, 85, 125, 136, 178]。網絡對手使用不同的惡意戰術,如路由表溢出[175]和路由表中毒[160],對C3I通信系統實施路由攻擊。結果,C3I系統無法與其他合法的C3I節點進行連接,這使得他們的服務在C3I網絡中無法使用。

缺乏同步性攻擊(A19):廣泛分布的C3I系統之間的時間同步是通過使用不同的協議(如參考廣播同步、定時同步協議和泛濫的時間同步)來確保執行協作的C3I操作。然而,這些時間同步協議的設計并不安全。因此,黑客會破壞這些協議,在分布式C3I環境中分享偽造的時間信息,這就造成C3I節點之間缺乏時間同步。因此,不同步的C3I節點對時間關鍵的C3I行動的操作協調產生了不利的干擾。

蠻力攻擊(A1):網絡認證機制,如Kerberos和WPA/WPA2,被用來保護戰術環境中的C3I通信系統。這些認證機制需要用戶憑證(即用戶名和密碼),以允許授權用戶訪問網絡資源。網絡對手使用最先進的暴力攻擊工具(如Reaver6和Fern-Wifi-Cracker7)來猜測授權用戶的證書,以便與C3I網絡連接。因此,對手可以竊聽和攔截通過C3I通信鏈路傳輸的敏感信息。

篡改攻擊(A6):入侵者修改和編造通過C3I通信鏈路傳輸的敏感信息。為此,攻擊者首先通過使用不同的攻擊機制(如黑洞攻擊(A14)和欺騙攻擊(A10))滲透到C3I網絡,然后,他們或者修改傳輸中的數據包,或者將自己的惡意數據注入到傳輸的敏感數據中。結果,被篡改的信息扭曲了態勢感知、C3I作戰活動和決策過程。

惡意軟件(A7):不安全的通信鏈路有利于惡意軟件在C3I戰術環境中從一個系統傳播到另一個系統。通過這種方式,黑客創建了一個由受損的C3I系統組成的網絡,稱為僵尸網絡,以在C3I網絡中進行惡意活動。例如,僵尸網絡通過對目標C3I系統進行淹沒式攻擊(A12)來執行分布式拒絕服務攻擊,破壞其C3I通信服務。因此,受影響的C3I系統無法與C3I網絡中的其他合法系統進行通信,從而破壞了C3I的戰術運作。

4.4 C3I情報單元的攻擊載體

篡改攻擊(A6):除了其他C3I組件外,篡改攻擊也會在C3I情報單元上執行。例如,數據中毒攻擊是一種對抗性攻擊,它將惡意樣本添加到ML/DL模型的訓練數據集中,在數據處理過程中操縱C3I情報作業。結果,受感染的ML/DL模型會誤解C3I的戰術情況,并相應地編制一個偽造的行動計劃,最終損害C3I指揮系統的決策過程。

惡意軟件(A7):為了檢測C3I系統中的惡意軟件,安全專家用預期的惡意軟件樣本訓練ML/DL模型(例如MalConv)。然而,先進的對手會對惡意軟件進行修改,如改變頭域和指令序列,以逃避C3I系統中惡意軟件檢測的ML/DL模型。這些逃避性的惡意軟件變體被稱為對抗性的惡意軟件二進制,它們成功地滲透到C3I系統中進行惡意活動,如第4.1節所述,而不被ML/DL模型檢測到。

5 對策

本節報告了與主題3有關的調查結果,即為確保C3I系統安全而提出的對策。反措施是指用于保護C3I系統的保障措施或防御措施。我們從審查過的論文中提取了40項對策。與安全漏洞和攻擊矢量不同,反措施并不直接與C3I系統的組成部分相聯系。因此,我們將提取的反措施分為兩大類:開發和運行。開發類的對策是在C3I系統的開發過程中利用技術(如安全需求分析和安全設計模式/戰術)來幫助構建安全的C3I系統。與此相反,操作類的對策旨在確保C3I系統在運行中的安全。在圖7中,C1、C2等是指本文中使用的對策的標識符,用來指代各自的對策。

圖7. 確定的對策及其各自的類別

5.1 發展

如第2節所述,C3I系統收集、處理、存儲和傳輸關鍵數據,以支持敵對環境下的戰術行動。因此,在開發C3I系統時,必須將C3I系統的安全性視為一個重要的質量屬性。換句話說,安全問題不能作為事后的考慮,而是需要在開發過程的一開始就加以考慮。如圖7所示,我們將開發類的對策分為以下三類。此外,我們還報告了每個類別的好處和限制。

5.1.1 安全需求分析

在設計/實施一個C3I系統之前,重要的是要分析、指定和理解C3I系統的安全要求,并考慮到其運行環境。這樣的分析和理解有助于C3I系統的設計者納入相應的安全措施,以解決指定的安全要求。因此,研究人員報告了開發安全C3I系統的安全要求(C1至C6)。

OZTURK等人(C1)建議使用數字證書、數字簽名、防火墻和智能卡來保證戰術信息安全。此外,安全設計模式也被建議用于開發安全的C3I系統。同樣,Li等人(C2)建議使用擴頻、專線、即時/定向射頻通信和跳頻方法來避免截獲不同C3I組件和戰術數據源(如傳感器)之間的通信信號。該研究還建議使用偽裝技術和設備(例如,反雷達和反紅外線裝置),特別是在指揮系統中,以防止敵人的偵察。此外,Bingman(C3)提出了幾項指導方針,重點是在有爭議的C3I網絡空間環境中保護關鍵信息。所提出的準則解決了包括但不限于信息優先級、風險評估、安全基礎設施和商業網絡等挑戰。C4)中的作者描述了C3I系統中數據安全的安全工程和信息安全原則(例如,ISO/IEC 17799和AS/NZS 4360)。對于加拿大的C3I網絡操作,Bernier等人報告了各種建議(C5),以解決網絡環境的動態性質和不明確的邊界的挑戰。例如,作者建議在C3I行動中,將計算機網絡攻擊、防御和開發行動相互結合起來,以獲得其網絡空間的整體情況。關于北約聯合任務網絡的挑戰,Lopes等人(C6)研究了使用三種技術(即軟件定義的網絡、網絡安全功能和網絡功能虛擬化)來實現安全策略評估的自動化,并在C3I系統的不同組件之間實現安全信息交換功能。

5.1.2 安全的架構支持

在這一節中,我們將描述C7到C15的對策,這些對策主要是在架構/設計層面上保障C3I系統的安全。所回顧的研究在設計C3I系統時使用了不同類型的架構風格。這些風格包括面向服務的架構、基于云的架構、基于區塊鏈的架構,以及為C3I系統明確設計的安全架構。

面向服務的C3I架構:C3I系統由異質組件(如決策支持系統、性能監測工具和信號處理控制器)組成,這些組件在地理上是分散的,并通過不同的通信機制(如4G/5G和Wi-Fi)連接。因此,面向服務的架構(SOA)通常被認為很適合設計戰術C3I系統。除了增強安全性外,SOA還有助于C3I系統在這些異構的系統組件之間實現互操作性、可擴展性和平臺獨立性。盡管有這些優點,研究人員已經發現了阻礙SOA成功納入C3I系統設計的安全限制,并提出了各種措施來克服這些挑戰。Gkioulos和Wolthusen以及Rigolin和Wolthusen提出了安全策略建模的方法(C7),用于設計基于SOA的安全戰術系統。作者利用帶有描述性邏輯的網絡本體語言來設計和實現這些安全策略。隨后,Gkioulos等人提出并驗證了一個框架(C8),用于設計基于SOA的安全C3I系統。他們聲稱,除了安全之外,所提出的框架還提供了動態變化的網絡條件下的配置靈活性,增強了性能并改善了信息流。

基于云的C3I架構:采用云計算技術提供了許多好處,如方便訪問、降低成本、部署靈活、低維護和C3I系統的及時性。然而,云計算也引入了安全問題,如數據保密性的破壞和安全配置的錯誤。因此,將云技術納入C3I系統需要更加關注C3I系統的安全設計。Jahoon等人提出了一個安全架構(C9),由三層(即虛擬化、物理和操作)組成,具有不同的功能,以確保整個系統的安全。所提出的架構是建立在他們的研究結果之上的,例如需要服務器虛擬化安全(如管理程序和公共服務器安全)來設計基于云的安全C3I系統。此外,Abdullah等人還指出,用戶責任管理、準確的系統配置和不間斷的服務維護是必須納入基于云的C3I系統中的一些安全必要條件。

基于區塊鏈的C3I架構:區塊鏈技術為C3I系統提供了許多優勢,包括任務關鍵數據的安全存儲、傳輸和處理。因此,研究人員利用區塊鏈技術來設計和實現安全的C3I系統。Akter等人提出了一種基于區塊鏈的分布式智能合約方法,用于安全C3I數據傳輸(C10)。通過模擬研究,作者驗證了基于區塊鏈的方法與實時排隊和基于排隊理論的傳統方法相比,在安全信息傳輸方面是有效的。在一項類似的研究中,Akter等人實施了一個區塊鏈輔助的加密點對點(P2P)網絡,用于C3I節點之間的安全數據通信。在這種方法中,研究人員使用中央云服務器來存儲合法的節點ID及其公鑰,以方便本地邊緣服務器識別入侵者。從可信機構(C11)之間的數據共享角度來看,Razali等人提出了一種基于智能合約的方法,支持合法用戶之間的智能數據管理(即生成、編輯、查看和存儲)和傳播。該方法對分布式和去中心化數據庫的使用為來自不同來源(如傳感器、人類和網絡)的數據提供了更高的保密性和可用性。

C3I系統的其他安全架構:在這里,我們詳細介紹了為保護C3I系統安全而提出的新的架構的對策。例如,考慮到對安全通信的架構支持(C12),Jin-long等人提出了一個基于網關-代理方法的多聯邦架構,促進聯邦間和聯邦內的安全數據傳輸。他們通過一個雙代理機制擴展了他們的方法,以避免通信開銷問題。同樣,Alghamdi等人提出了一個以網絡為中心的架構,用于安全C3I系統的互操作通信機制。為了進一步提高C3I通信網絡的安全性,該架構配備了多個防火墻和入侵者檢測系統。對于C3I系統的敏感數據安全(C13),Guturu提出了一個基于AND-OR復制算法的分布式數據庫管理架構。作者聲稱,與2相和3相提交方法相比,所提出的架構通過高故障耐力和對攻擊的復原力提高了C3I系統的數據存儲安全性。在另一種方法中,Seungjin Baek和Young-Gab Kim提出了一個專注于C3I系統中大數據安全的四層安全架構。這四層(即應用、大數據平臺、數據和基礎設施)為C3I系統的數據生成、數據處理和數據使用過程提供了安全性。我們還確定了幾項對策,重點是保障C3I系統整體架構的安全。從保護下一代C3I系統(C14)的角度來看,Perkinson介紹了下一代C3I系統網絡安全的整體方法,包括四個主要階段:檢測、關聯、可視化和響應。作者根據一項試點研究的經驗教訓,討論了未來C3I系統設計中必須考慮的關鍵發現(例如,自動化在決策過程中的重要性)。在另一項研究中,Theron和Kott設想未來的C3I系統應配備自主網絡防御(ACyD)方法,以對抗自主智能惡意軟件(AIM)攻擊。他們認為自主智能網絡防御代理(AICAs)是未來C3I系統應配備的一種可能的安全機制,以抵御AIM攻擊。為了開發下一代C3I系統的通用網絡理論,Ormrod和Turnbull調查了現有的多國網絡理論(如美國、英國、澳大利亞和加拿大),并提出了一個嵌套領域模型。作者表示,所提出的模型為未來的C3I網絡行動提供了一個靈活和完善的概念框架。

關于開發安全架構的支持性技術(C15),Alghamdi等人建議,威脅建模技術可以應用于確定與C3I系統相關的安全要求、脆弱性和威脅。他們強調了通過采用自上而下的威脅建模方法在C3I系統架構層面嵌入安全的必要性。此外,Alghamdi等人還展示了一種系統化的方法來捕捉威脅,并在考慮C3I系統整體架構的情況下制定安全防御措施。研究人員利用保證案例法和索賠論據證據工具,分別對安全架構進行建模和可視化。同樣,Biagini和Corona利用建模和模擬即服務(MSaaS)范式來認識和展示可以納入反無人駕駛系統的工具,考慮到未來C3I系統的安全。

5.1.3 攻擊影響分析

攻擊影響分析是指對C3I系統上的攻擊載體的不利影響的研究。攻擊影響分析有助于預測攻擊矢量可能產生的后果,也可以突出C3I系統設計中的安全漏洞。下面的對策,C16到C21,介紹了C3I系統中攻擊影響分析的不同方法。

Fang等人評估了C3I系統的兩類網絡影響(即系統結構受損效應和結構效率降低效應)。作者提出了數學建模和仿真研究(C16),通過不同的統計參數,如連接率和信息效率來評估攻擊影響。同樣,金鋒等人(C17)利用信息流參數,如情報、指揮和控制以及協作信息流參數,計算了C3I系統的結構效應(即受損效應和回退效應)。Bernier等人專注于指標驅動的網絡影響分析,提出了一個指標框架(C18)來評估C3I系統中網絡行動的影響。研究人員主要考慮了三個指標(即部隊有效性、指揮控制有效性和性能的衡量標準)以及美國國防部框架和目標-問題-指標范式來評估C3I系統的網絡影響。

由于仿真研究為分析攻擊對C3I系統的影響提供了成本、時間和功率的有效途徑,研究人員已經進行了仿真研究,以調查網絡對C3I系統的影響。例如,Mursia等人(C19)在EXata/Cyber模擬器中創建的C3I城域網環境中執行了三種攻擊矢量(即竊聽(A11)、洪水攻擊(A12)和干擾攻擊(A13))。研究人員從網絡參數方面分析了網絡影響:吞吐量、延時和抖動。同樣地,Morton等人進行了一項模擬研究(C20),以執行軍事網絡行動。作者報告了網絡攻擊的幾個不利影響,如未經授權的使用、攔截和C3I系統的退化。另一種模擬方法,稱為網絡模擬地形(C21),是基于本體網絡表示法,用于模擬計算機網絡(如C3I網絡)的網絡資產和系統。作者在模擬計算機網絡操作中調查了心臟出血漏洞(V11)的影響。

5.2 行動對策

作戰對策是指為保護戰術行動中的C3I系統而提出的安全機制。現有的文獻報道了用于保護C3I操作安全的入侵檢測機制、密碼技術和訪問控制方法。在下文中,我們將描述所提出的對策,以及它們的好處和限制。

5.2.1 入侵檢測

入侵檢測機制的目的是檢測對C3I系統的網絡攻擊。當涉及到網絡安全時,時間是一個關鍵因素。越早發現攻擊,攻擊就越早被控制/緩解。根據研究,及時發現攻擊可以使攻擊的成功率降低97%。然而,通信網絡的噪音和有限的資源損害了入侵檢測機制的有效性,這導致了在時間關鍵的C3I行動中產生假警報和通信開銷。戰術領域,如災害管理和救援行動,由于其敏感的性質,不能忍受C3I行動中的這種異常情況。因此,研究人員提出了以下有效的入侵檢測方法,即C22至C26,以確保迅速檢測C3I戰術系統中的入侵。

Shaneman等人提出了一種具有成本效益的機制,稱為內在光纖監測(C22),用于檢測C3I網絡中用于數據傳輸的光纜的入侵。研究人員通過實驗證明,內在光纖監測器在檢測C3I系統中的惡意活動(如篡改攻擊(A6))時,既不會干擾C3I網絡資源(如帶寬),也不會產生錯誤警報。為了早期檢測入侵行為,Manes等人提出了一個攻擊管理框架(C23),該框架將網絡漏洞模型(即漏洞分析)與攻擊模型(即攻擊樹)相結合,以檢測C3I網絡中多階段攻擊載體的早期跡象。所提出的架構也有利于C3I網絡中入侵者活動的可視化,這有助于安全專家實時準備針對網絡對手的行動方案。

為了發現戰術性城域網中入侵者的惡意活動,[145]中提出了一個基于多實例多標簽學習協議的輕量級C3I監控系統(C24),與看門狗計劃和數字簽名等現有解決方案相比,該系統在C3I網絡中造成的計算和通信開銷較少。關于基于SOA的C3I系統的安全性,Jorma和Jan[86]開發了一個由四種設計模式(即鏈接列表、沙盒、事件總線和監視器)支撐的入侵者檢測系統架構(C25)。所提出的架構使用主動和被動監測技術,如檢測和報警規則,用于檢測基于SOA的C3I系統中的入侵者。Kwon等人[100]提出的另一個機制,提出了一個基于Wiener濾波器、MIRtoolbox和ML模型(即支持向量機)的基于人工智能的C3I設備識別器(C26)。所提出的機制被用于數字取證,以檢測C3I數據庫存儲數據中的惡意活動(例如,數據刪除和修改)。

5.2.2 密碼學

密碼學是一個對敏感信息進行編碼和解碼的過程。考慮到C3I戰術行動的關鍵性(第1節),密碼學已經被用于C3I系統,以防止敏感信息的未經授權的泄露。為此,加密功能和它們各自的加密密鑰被用來加密和解密C3I系統之間存儲和傳輸的戰術信息。C27到C34的加密機制主要集中在戰術環境中的加密密鑰管理,以確保C3I系統中實時數據傳輸和存儲的安全。

密碼鑰匙管理是指戰術C3I系統中密碼鑰匙的生成、交換、存儲、刪除和替換過程。一般來說,加密密鑰管理方案在計算和網絡資源使用方面都很昂貴,這導致了C3I戰術操作中的通信開銷和延遲。因此,現有文獻提出了在C3I系統中管理加密密鑰的有效方法。例如,Kang等人(C27)使用對稱密鑰算法,根據C3I系統中安全風險的嚴重程度生成不同長度的加密密鑰。所提出的機制在戰術領域同時提供了C3I系統的安全性和最佳QoS。Chudzikiewicz等人專注于能源效率,引入了一種安全的密鑰管理機制(C28),其中中心節點使用量子隨機數發生器生成加密密鑰,并通過C3I節點之間的安全會話管理在C3I網絡中分發。研究中提出的另一個密鑰管理流程(C29)使用HenLogRandom Key Generator來生成安全密鑰,在C3I系統中使用的衛星圖像的加密過程中提供了高度的混亂和擴散。此外,Furtak等人提出了一種基于對稱密鑰密碼學的時間和內存高效的密鑰管理方法(C30),以確保C3I網絡的網絡接入層的安全。作者還提出了一種非對稱加密方法(C31),該方法更具有時間效率,用于C3I系統的密鑰管理和安全數據傳輸。為了保證加密密鑰分配過程的安全,Matt等人提出了一種C3I節點之間的非交互式基于身份的密鑰共享方案(C32)。所提出的機制在C3I系統中生成和共享加密密鑰時消耗的計算能力和網絡資源(如帶寬)較少。

除了上述的密鑰管理解決方案外,最先進的技術還報道了在戰術環境中保護敏感數據的數據加密技術。例如,Romero-Mariona等人推出了一個名為CEALICIAN(C33)的加密設備,該設備使用NSA-Suite B加密算法,以高數據率實時加密或解密敏感信息。CEALICIAN著重于更少的功耗和外形尺寸,以解決C3I系統的尺寸、重量和功率要求。此外,Abdullah等人(C34)對C3I系統的三種數據加密方法(即高級加密標準,Ron Rivest、Adi Shamir和Leonard Adleman,以及量子加密)進行了定性評估。根據他們的研究結果和C3I系統的關鍵性,得出的結論是,與其他被考察的加密方法相比,高級加密標準更適合于C3I系統。

5.2.3 訪問控制

訪問控制是指允許授權用戶(如現場指揮官和決策者)訪問C3I系統的安全機制。正如第2節所述,C3I系統遵循嚴格的命令鏈。有多個具有不同訪問權限的用戶來執行C3I操作。因此,訪問控制機制 對C3I系統來說是必要的。由于戰術任務的成功、生命和財產在很大程度上取決于訪問控制機制。[117],C3I系統應該采用可靠、靈活和高效的訪問控制方法來防止 在戰術領域的未經授權的訪問。因此,研究人員專注于開發有效的訪問控制機制。C35至C40,用于戰術C3I系統。

Zachary提出了一種基于單向累加器的去中心化方法(C35),用于認證分布式C3I網絡中的合法節點。所提出的機制在動態C3I網絡中安全地管理所有C3I節點的節點成員名單,同時利用較少的計算和網絡資源(如功率和帶寬)。同樣,為了防止C3I系統中的未授權訪問,還提出了一種具有成本效益和功率效率的技術,稱為數字超聲波傳感器網絡技術(C36)。數字超聲波技術優于現有的替代技術,如紅外線、藍牙和超寬頻等。為了確保C3I系統中橫向和縱向命令鏈的訪問控制,Jarmakiewicz等人提出了基于XACML和WEB服務的多級安全和多個獨立級安全機制(C37)。提出的機制在授權合法用戶操作C3I系統方面具有時間效率。同樣,Maule提出了一個多級安全框架,稱為多層本體安全模型(C38),通過使用不同的授權級別來保護軍事信息系統數據。論文中報告的另一個多層模型(C39)被用來在C3I系統中實現認證、授權和問責。多層方法提供了一個路線圖,用于管理基于操作要求的綜合服務(如SOA架構)中的訪問。為了在C3I指揮層次中進行有效的訪問控制,Maschino比較了集中式和分散式C3I系統中基于角色的訪問控制(RBAC)機制的不同組合(即集中式和分散式)(C40)。因此,作者推薦了一種混合RBAC機制,以確保C3I系統中基于角色的認證。

6 討論

在本節中,我們分析了第3、4和5節中報告的研究結果。基于我們的分析,我們在攻擊載體、漏洞和對策之間建立了一種獨特的關系。此外,我們提出了未來的研究方向,以指導研究人員和從業人員推進C3I系統的網絡安全文獻。

6.1 將C3I攻擊載體映射到漏洞上

雖然第3節和第4節分別描述了各個安全漏洞和攻擊載體,但它們沒有顯示任何關聯或關系(即一個特定的攻擊載體如何利用C3I系統的漏洞)。因此,為了支持從業人員和開發人員建立安全的C3I系統,我們闡述了C3I系統的安全漏洞和攻擊向量之間的映射關系。我們的映射是基于從通用攻擊模式列舉和分類(CAPEC)和通用弱點列舉(CWE)數據庫中提取的數據。CAPEC提供了一個用于利用已知漏洞的攻擊向量的字典。另一方面,CWE規定了已知的硬件和軟件漏洞的清單。

如圖8所示,我們首先將確定的C3I攻擊向量與CAPEC攻擊進行映射,并提取其相關的CWE號碼。然后,我們將相應的CWEs與從調查研究中提取的C3I安全漏洞進行映射。例如,首先,我們根據調查研究和CAPEC數據庫中提供的信息,分別將蠻力攻擊(A1)映射到CAPEC-112:蠻力攻擊。其次,CWE-521:薄弱的密碼要求被確定為上述CAPEC攻擊的對應CWE。第三,我們將這個CWE與不安全的配置存儲(V7)聯系起來,因為使用弱密碼是導致不安全的配置存儲的根本原因之一。由于我們確定的所有攻擊向量和漏洞在CAPEC和CWE中并不存在,我們參考了外部資源(例如白皮書和博客),通過確定已確定的漏洞和攻擊向量之間的其他可能聯系,使這種映射更加全面。例如,我們將洪水攻擊(A12)與記錄和監控不足(V1)漏洞進行了映射,因為缺乏網絡流量監控,攻擊者可以用大量的惡意數據淹沒C3I節點,阻礙合法C3I節點之間的通信。

圖8. 繪制C3I攻擊媒介和漏洞的方法。CAPEC(通用攻擊模式列舉和分類和CWE(常見弱點列舉)

如圖9所示,一個漏洞可以被多個攻擊利用(例如,漏洞V1可以被攻擊向量A1、A2、A8和A12利用),一個攻擊向量可以利用多個漏洞(例如,攻擊向量A1可以利用漏洞V1、V2、V6和V7)。因此,它反映了在設計安全防御措施之前,有必要采用調查機制,如威脅建模,以確定漏洞和攻擊載體之間所有可能的關聯。例如,為了防止C3I系統中蠻力攻擊(A1)的執行,開發人員不僅要考慮實施密碼學上強大的用戶憑證存儲,而且還要納入足夠的入侵檢測和預防機制。如圖9所示,使用COTS組件是可以被所有確定的攻擊載體利用的。這是因為在C3I系統中使用脆弱的COTS組件會使系統暴露在幾個攻擊向量之下,因為這些第三方組件可能包含有意的(如后門)或無意的(如測試不足)安全缺陷。因此,它強調在將這些組件集成到C3I系統之前進行嚴格的安全和質量測試。此外,我們建議,在C3I系統開發過程的設計階段,必須將這種測試和質量檢查作為一個強制性程序納入其中。惡意軟件可以通過不同的滲透方式(如通過網絡和從互聯網下載),直接和間接地利用漏洞,這種方式有很多。因此,在這個映射中,我們認為惡意軟件可以利用所有報告的C3I漏洞。例如,惡意軟件可以利用V7:不安全的數據存儲,訪問C3I系統的安全關鍵數據。另一方面,惡意軟件可以利用V1: 記錄和監控不足的漏洞,窺探C3I的運作。因此,我們強調在C3I系統中采用惡意軟件檢測方法(如AI/ML和模式挖掘)的要求。

圖9. 已確定的C3I攻擊載體和漏洞之間的映射關系

6.2 將C3I攻擊媒介映射到對策上

正如上一小節所討論的,現有文獻沒有報告攻擊載體、漏洞和對策之間的明確關系。因此,與攻擊-漏洞映射類似,我們將攻擊向量映射到反措施,以證明哪些反措施可以保護C3I系統免受哪些攻擊向量的影響。這種關系積累了針對某個攻擊向量的可能對策,這有利于研究人員和從業人員確定針對某個攻擊向量的解決方案。由于攻擊向量和反措施可以通過多種方式聯系在一起,我們專注于在它們之間建立一種明顯的關系。為此,我們開發了一個兩步法來收集已報告和未報告的獨特的攻擊-反措施關系。在第一步中,我們直接從現有文獻中確定了攻擊載體和反措施之間的關系。例如,論文中報道的可變加密密鑰長度(C27)提供了對蠻力攻擊(A1)的保護。同樣,基于人工智能的C3I設備識別器(C26)可以檢測C3I數據庫中的敏感數據操作(A6)。在第二步,我們徹底分析了攻擊載體和反措施,以確定它們之間的關系。例如,CEALICIAN(C33)對通過C3I通信鏈路傳輸的敏感信息進行加密和解密,這阻礙了竊聽攻擊(A11)。同樣,非交互式密鑰共享方案(C32)減輕了數據傳輸過程中的篡改攻擊(A6)的機會。因此,我們將C33和C32分別映射到A11和A6。通過這種方式,我們通過兩步法在攻擊載體和對策之間建立了明顯的關系。圖10顯示了攻擊向量與相應對策的映射關系。

圖10. C3I攻擊向量和對策之間的映射。C1至C21適用于開發階段,C22至C40適用于C3I系統的運行階段。

我們觀察到,有關C3I系統開發階段的對策(即C1到C21)為保護C3I系統免受大多數(如果不是全部)攻擊媒介的影響提供了整體建議。例如,設計安全的C3I通信系統(C12),如果嚴格執行,可以防止幾個攻擊向量,如A6、A7、A10、A11、A12、A13、A14、A15、A16、A17和A18。同樣,基于區塊鏈的設計模式(即C10和C11)不僅可以防止針對C3I通信鏈路的攻擊載體(即A10和A11),還可以防止C3I系統中的拒付攻擊(A8)。因此,如圖10所示,與開發類別相關的對策(即C1至C21)提供了針對大多數攻擊載體的解決方案。然而,采用C3I系統的組織由于其有限的專業知識、財政和技術資源,無法一下子廣泛地實施安全措施。因此,我們強調,在開發C3I系統時,需要優先考慮安全措施。為此,我們主張研究人員和從業人員應該首先分析C3I系統的操作和環境條件,然后在開發C3I系統的過程中實施相應的臨時性對策。

關于行動對策(C22至C40),我們觀察到在C3I系統中提供入侵檢測、密碼學和訪問控制能力的安全工具之間缺乏互操作性。例如,檢測對策基于AI的C3I設備識別器(C26)只檢測到篡改攻擊A6的執行,但是,為了防止A6,需要實施預防性對策非交互式密鑰共享機制(C32)。相反,在沒有檢測性對策(如C22至C26)的情況下,預防性對策(如C27至C40)需要更多時間來阻礙攻擊載體的執行。因此,我們斷言,研究人員應制定新的防御機制,不僅要能整合安全工具,而且要有足夠的靈活性,以適應新的安全工具,在時間緊迫的C3I系統中有效地檢測和預防攻擊載體。

6.3 未來的研究領域

基于第3、4、5節的研究結果,我們提出了以下未來的研究方向,以推進C3I系統網絡安全的最新進展。

6.3.1 C3I系統的安全SOA適應性

正如第2節中所討論的,C3I系統是多個異構系統的整合。因此,在設計大規模的C3I系統時,傳統的單體結構并不是一個可行的選擇。在采用適合的架構模式的必要性的驅使下,研究人員已經考慮用SOA來設計C3I系統(例如,可部署的聯合C3I系統)。然而,基于SOA的系統存在各種安全漏洞和攻擊載體,在采用C3I系統這樣的安全關鍵戰術系統時,帶來了許多安全挑戰。例如,SOA在設計上缺乏持續監控和入侵檢測機制。因此,基于SOA的C3I系統容易受到許多攻擊載體的影響(例如,暴力攻擊(A1),內部攻擊(A2)和抵賴攻擊(A8))。因此,考慮到當代為解決SOA適應C3I系統的安全挑戰所做的努力(第5.1.2節),很明顯,SOA安全適應C3I系統是一個即將到來的研究領域。因此,我們斷言,必須嚴格考慮基于SOA的C3I系統的網絡安全問題,并將新的安全措施植入這些系統的設計和實施中。此外,我們還注意到,對基于SOA的C3I領域的研究需要全面的評估工作,包括對真實世界的實施進行實驗,因為現有的一些研究只限于概念性的解決方案。

6.3.2 輕量級安全措施

C3I系統通常在資源受限的環境中運行。因此,C3I系統是按照一定的帶寬、能量和內存規格來設計的。這意味著C3I系統的每個組件都需要在有限的資源下運行。這對于C3I系統中的安全措施(如入侵檢測、加密機制和訪問控制)也是如此。如果安全措施為了保證C3I系統的安全而消耗了更多的計算能力、機載存儲或網絡資源,這將導致影響C3I系統的戰略運作。盡管研究人員已經提出了單獨考慮功率、內存、計算資源[88]和網絡資源效率的資源效率解決方案,但我們觀察到缺乏類似于CEALICIAN(C33)的整體和最佳安全措施,該措施不僅提供了功率效率,而且在加密和解密敏感信息時還考慮了C3I系統的大小和重量要求。因此,我們斷言,研究人員應該專注于開發輕量級的安全措施,考慮輕量級網絡安全的大多數(如果不是全部)參數。

6.3.3 基于云的安全C3I架構

盡管云計算通常是一種廣泛使用的技術,但將其納入C3I領域是相當新的。正如第5.1.2節所討論的,云計算為提高戰術領域C3I系統的效率和可操作性提供了許多好處(例如,降低成本、方便訪問和部署靈活性)。考慮到這些優勢,美國已經為其國防和公共部門開發了基于云的C3I系統,韓國也正在將其國防基礎設施轉向基于云的系統。然而,云計算與C3I系統的整合擁有許多安全挑戰(如數據的保密性、完整性和服務器的可視化),正如中所報道的。例如,在公共云的情況下,數據的保密性可能會被破壞,因為多個用戶共享同一個基礎設施。同樣,PaaS和IaaS等云服務模式允許用戶安裝自己的軟件;這種特權會破壞敏感數據的完整性。我們在調查的文章中只發現了一個設計基于云的安全C3I系統的嘗試。由于C3I系統的網絡安全和效率不能被認為是正交的,因此,我們斷言,研究人員需要專注于解決開發基于云的C3I系統中的安全挑戰,以同時提高C3I系統的效率和網絡安全。

6.3.4 區塊鏈用于保障C3I基礎設施的安全

區塊鏈技術提供了嚴格的認證,在整個C3I戰術領域安全地分配存儲設施和計算資源,這避免了C3I系統出現單點故障的機會。然而,我們發現,與物聯網和經濟系統等其他領域相比,將區塊鏈技術納入C3I系統的研究興趣明顯不足。審查的研究中提出的方法僅限于戰術C3I系統中的安全數據傳輸和數據共享。因此,很明顯,區塊鏈技術在C3I領域是相對較新的。考慮到區塊鏈在戰術領域的重要性,我們斷言,研究人員應探索新的方向,將區塊鏈技術納入C3I系統的網絡安全。

6.3.5 AI/ML用于C3I系統的網絡安全

將人工智能/ML用于網絡安全的探索越來越多。例如,與基于簽名的入侵檢測相比,基于ML的入侵檢測被廣泛研究。同樣,AI/ML方法被用于檢測數據滲透和自動化網絡事件的響應過程。然而,我們發現很少有證據(只有3篇論文)支持使用AI/ML來加強C3I系統的網絡安全。例如,Kwon等人利用監督學習將C3I移動設備劃分為可信和不可信的類別。同樣,在調查的論文中,我們發現作者使用多實例多標簽學習模型來檢測C3I系統的入侵企圖。此外,Kott等人提出了一個基于智能代理技術(即自主智能網絡防御代理)的初始參考架構,以確保C3I系統的安全。由于我們只發現了三篇利用AI/ML來保護C3I系統的論文,我們認為在利用AI/ML來保護C3I安全方面還有進一步探索的空間。在這方面,我們認為研究人員應該探索使用人工智能/ML來進行深度數據包檢查、異常檢測、APT檢測,以及檢測C3I系統的數據滲透企圖。

6.3.6 需要嚴格和全面的評估

我們調查了所調查的文章中應用的評估方法,發現36.67%的研究沒有評估他們提出的安全機制(圖11)。此外,25%的研究僅通過假設場景進行了評估。因此,很明顯,超過61%的研究沒有在他們的研究中遵循系統和嚴格的評估過程。在所調查的論文中,有5%、16.67%和15%的研究是通過原型設計、模擬和實驗室實驗進行評估的。圖12展示了這些評估方法中使用的硬件和軟件工具。值得注意的是,只有一項研究在真實世界環境中進行了評估。因此,由于缺乏嚴格的評估,它引起了人們對現有文獻的可靠性的重大關注。此外,C3I領域的高度技術性和關鍵性也加劇了這種擔憂。正如第2節所討論的,C3I系統由多個異質子系統組成,其中一些被部署在惡劣的環境中。因此,一些實際問題,如敵對條件造成的節點物理破壞、軟件組件受損、硬件組件隨著時間的推移而退化,以及自然災害(如洪水、火災、風暴),都對C3I系統的性能、安全和保障產生了重大影響。因此,我們主張保護C3I系統的對策應通過系統的評估方法在現實世界中進行評估,以加強所得出的研究結果的可信度。

圖11. 評價方法

圖12. 用于C3I系統的軟件和硬件工具的安全評估

7 結論

由于使用C3I系統的戰術領域(如軍事和救援任務)的嚴重重要性,C3I系統的網絡安全已經成為一個嚴重的問題。因此,我們收集、研究和綜合了關于C3I系統網絡安全的文獻。基于我們的研究,我們對13個安全漏洞、19個攻擊載體和40個被認為對C3I系統的網絡安全很重要的對策進行了嚴格的分析和分類。此外,我們對研究結果進行了分析,其中包括 (i) 攻擊載體和安全漏洞的相互關系;(ii) 攻擊載體和對策的相互關系;以及(iii) 確定未來的研究方向,以推進C3I系統的安全領域。

這項調查為研究人員和從業人員提供了若干好處。特別是對研究人員來說,我們的調查為進一步探索和加強C3I系統的網絡安全提出了幾個未來研究方向。例如,C3I系統的SOA適應性在保證C3I系統的網絡空間安全方面引入了許多挑戰(例如,缺乏持續監控)。同樣,將云計算納入C3I系統也帶來了許多關于敏感數據保密性和完整性的安全問題。對于從業人員來說,將攻擊載體與反措施進行映射,使C3I系統的操作人員能夠確定針對攻擊載體的準確反措施。同樣,在設計C3I系統時,需要對反措施進行優先排序,這有助于系統工程師在開發C3I系統時實施最佳反措施。我們希望本調查報告的結果能夠為研究人員和從業人員提供新的維度和靈感,以推動他們在C3I系統安全方面的研究和開發工作。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

隨著互聯網和信息計算的飛速發展,衍生了海量數據,我們已經進入信息爆炸的時代。網絡中各種信息量的指數型增長導致用戶想要從大量信息中找到自己需要的信息變得越來越困難,信息過載問題日益突出。推薦系統在緩解信息過載問題中起著非常重要的作用,該方法通過研究用戶的興趣偏好進行個性化計算,由系統發現用戶興趣進而引導用戶發現自己的信息需求。目前,推薦系統已經成為產業界和學術界關注、研究的熱點問題,應用領域十分廣泛。在電子商務、會話推薦、文章推薦、智慧醫療等多個領域都有所應用。傳統的推薦算法主要包括基于內容的推薦、協同過濾推薦以及混合推薦。其中,協同過濾推薦是推薦系統中應用最廣泛最成功的技術之一。該方法利用用戶或物品間的相似度以及歷史行為數據對目標用戶進行推薦,因此存在用戶冷啟動和項目冷啟動問題。此外,隨著信息量的急劇增長,傳統協同過濾推薦系統面對數據的快速增長會遇到嚴重的數據稀疏性問題以及可擴展性問題。為了緩解甚至解決這些問題,推薦系統研究人員進行了大量的工作。近年來,為了提高推薦效果、提升用戶滿意度,學者們開始關注推薦系統的多樣性問題以及可解釋性等問題。由于深度學習方法可以通過發現數據中用戶和項目之間的非線性關系從而學習一個有效的特征表示,因此越來越受到推薦系統研究人員的關注。目前的工作主要是利用評分數據、社交網絡信息以及其他領域信息等輔助信息,結合深度學習、數據挖掘等技術提高推薦效果、提升用戶滿意度。對此,本文首先對推薦系統以及傳統推薦算法進行概述,然后重點介紹協同過濾推薦算法的相關工作。包括協同過濾推薦算法的任務、評價指標、常用數據集以及學者們在解決協同過濾算法存在的問題時所做的工作以及努力。最后提出未來的幾個可研究方向。

//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20210502&flag=1

付費5元查看完整內容
北京阿比特科技有限公司