可采取多樣化反混合威脅措施以防御低于常規軍事閾值的敵對行動。然而因混合威脅的模糊性、跨域性及反制措施如何影響對手行為的不確定性,這些措施的成效尚不明晰。本文提出通過貝葉斯網絡(概率建模技術)構建模型,模擬反制措施對混合威脅行為的影響。該模型綜合權衡反制成本、威懾對手執行混合威脅的能力及減輕威脅影響的潛力。基于半合成場景運行1000次變體模擬,推演攻擊方A與防御方B圍繞關鍵基礎設施網絡攻擊的戰略互動,評估五類反混合威脅措施的有效性。反制措施涵蓋強化韌性、剝奪對手執行混合威脅能力至以懲罰威脅實施威懾等范疇。分析聚焦評估反混合威脅措施的整體特性,旨在歸納措施普適有效性而非孤立歸因。同時探討政策關聯性并規劃未來研究方向。
圖1:反混合威脅建模的貝葉斯網絡架構。深藍色背景層標注確定性變量集合,灰藍色層表示概率性變量集合。黑色箭頭顯示概率性關聯關系,灰色箭頭顯示確定性關聯關系。
技術發展加速、經濟深度融合及社會數字化重構了當代國家間競爭,為修正主義國家提供在武裝沖突閾值下追求戰略目標的新型工具。在歐洲,"混合威脅"被廣泛定義為"協調同步運用暴力與非暴力手段"的行為——通常難以探測歸因,旨在武器化民主進程并施加影響力。盡管常被混用,"混合沖突"概念有別于美國學者所述的"灰色地帶"戰略:后者指準持續性國家間沖突的特殊狀態,即利用法律外衣掩蓋侵略行動以脅迫對手達成有限目標,其操作低于探測歸因閾值。但二者均指代沖突閾值下的侵略行為,包括信息心理戰、政治外交脅迫、經濟壓制、進攻性網絡行動及利用代理人顛覆對手。
當前各國致力制定反混合政策以提升韌性并對抗手施加成本,從而威懾此類行為。然相較于常規與核領域的公開侵略行為,混合行動因不透明與跨域特性構成獨特挑戰,其威懾防御難度顯著。傳統威懾通過"剝奪對手達成目標能力"(拒止威懾)或"威脅行動后施加代價"(懲罰威懾)來"阻止國家采取非期望行動"。常規與核威懾理論公認"認知"是威懾成功關鍵——對手須感知"行動潛在代價超過收益"。有效威懾需滿足明確性、相稱性與可信度:明確性要求清晰傳達防御方響應措施;相稱性指威懾手段與防御目標的匹配度;可信度則植根于威懾方應對外部侵略的能力與意愿。
經典威懾的適用條件在混合威脅背景下嚴重受限。首先,灰色地帶侵略行為非單純軍事對抗,而是軍事與非軍事、公開與隱蔽操作的復雜混合,涉及經濟脅迫、虛假信息戰、進攻性網絡行動乃至武裝團體部署。其次,混合威脅引發兩大緊迫問題:灰色地帶活動持續發生且常難溯源特定對手,致使威懾實施愈發復雜。
傳統領域內的懲罰與拒止策略雖具部分適用性,卻不足以應對灰色地帶復雜互動。傳統威懾策略需進化為復合型跨域策略——除成本威脅與收益剝奪外,更需融合對敵方的保證激勵措施(assurance)、推動國際合作與規范構建(norms)、利用經濟與系統性相互依賴(entanglement)以影響對手行為。鑒于灰色地帶持續緊張狀態,威懾努力應具"累積性":防御方需將反混合策略視為"長期過程——單次違規不意味失敗,而需通過協同努力塑造對手行為"。此背景下,學者建議采用更廣泛的"勸止"(dissuasion)策略應對混合威脅。勸止被理解為涵蓋懲罰與拒止響應的統領性戰略,通過政治、外交和經濟關系杠桿實施高級反制措施。因此,灰色地帶勸止對手需戰略部署外交-信息-軍事-經濟金融-情報-執法(DIMEFIL)全譜系國家力量工具,同時管控升級動態與潛在報復風險。
然而實踐中,制定成功跨域響應的原則、指標或指南尚未達成共識,比例失衡與行為模糊風險始終存在。因威懾與勸止植根于認知,反混合策略有效性取決于對手真實動機與核心利益認知——包括其進攻傾向及需保護的脆弱點。但決策者常缺乏關鍵信息:對手在灰色地帶的戰略目標、驅動低于戰爭閾值行動的決策機制與收益計算模型、以及反混合政策如何影響威脅行為(尤其因大量混合威脅發生于探測溯源閾值之下)。故評估現實反混合政策效能極為困難。
部分學者嘗試用博弈論模擬混合威脅動態以克服信息匱乏;另一些則將稀缺數據源融入貝葉斯建模技術以優化領域知識。本文基于后者提出貝葉斯網絡建模法——將反混合政策深層不確定性(如威脅探測、溯源及跨域效應)建模為概率關系。模型設定攻擊方A與防御方B兩類國家行為體:防御方面臨混合攻擊并通過反制措施實施勸止。攻擊方A執行混合攻擊的決心受防御方B既有反制措施影響。執行攻擊的決策及其潛在破壞均以概率建模,分別考量威懾關聯的認知心理維度及混合威脅影響的不確定性。混合行動潛在破壞與反制成本共同構成防御方B的收益矩陣,最優反制措施通過最大化預期收益值計算得出。
為驗證模型,設計網絡威脅場景進行仿真推演(見附錄A)。進攻性網絡行動是武裝沖突閾值下混合威脅的典型代表——因網絡空間技術/物理/邏輯層特性及網絡技術日常生活滲透,近年網絡攻擊愈發普遍。從伊朗"震網"(2009)、沙特"沙蒙"(2012)到全球60余國"諾佩提亞"(2017),網絡攻擊可造成重大物理破壞。基于此,本研究綜合現實惡意網絡行動案例設計合理網絡攻擊場景。解析網絡攻擊響應時,聚焦域內響應(網絡空間措施)與域外響應(執法、規范構建、公共外交及經濟制裁等)。通過累積性威懾視角,部分反混合措施旨在減輕敵對網絡攻擊破壞,另一些則通過提高成本收益比勸止侵略行為。
為此征詢政策專家意見并梳理文獻,量化評估各反制措施的成本、減損能力與威懾效能。這些變量以概率分布形式呈現,以兼容文獻分歧、專家差異及混合威脅不可預測性。通過整合文獻綜述與專家洞見,設計總計1000組獨立實驗。實驗結果生成反混合措施排序,用以評估不同場景下措施效能,并回答核心研究問題:
? 在1)措施勸止攻擊效能 2)措施減損攻擊影響效能均存不確定性的前提下,反混合威脅措施的哪些特性最有效助力防御方B應對攻擊方A對關鍵基礎設施的網絡威脅?
本文結構如下:第二章介紹建模方法,闡述如何將文獻與專家見解轉化為概率分布輸入模型;第三章詳述混合威脅場景及關聯跨域反制措施;第四章解析實驗結果;第五章反思研究發現的政策關聯性并指明未來研究方向。
自主系統的復雜性與部署范圍正日益提升,從先進工業機器人到智能城市基礎設施,這迫切需要軟件工程范式的根本性轉變。這些系統不僅要求高度適應性,還需具備嚴格的安全性與透明決策能力。本文提出一種統一的軟件智能框架,通過無縫集成神經程序合成(NPS)、量子安全運維(QSD)與可解釋人工智能(XAI)來滿足這些多維需求。該框架借助NPS實現AI驅動的代碼生成,通過QSD強化軟件生命周期以應對新興量子威脅,并利用XAI確保關鍵自主操作中可解釋且可信的決策過程。我們對各領域最新進展進行全面文獻綜述,詳細分析其各自挑戰與協同潛力。所提出的架構將這些組件統一為從規范到代碼生成、安全部署及運行時適應的連續管道。通過一個假設的智慧城市基礎設施場景,闡明了該融合框架的實際應用與優勢,展示其快速代碼適配能力、后量子安全性以及對自主行為提供人類可理解解釋的特性。我們進一步討論此類集成固有的技術挑戰,包括穩健的評估策略,以及在敏感環境中部署AI生成、量子安全系統所涉及的深遠倫理、運營與安全影響。本研究為發展適應性、穩健性及可信賴自主系統所必需的新興多學科領域奠定基礎。
自主系統在各大關鍵領域(從制造業先進機器人到智能城市基礎設施)日益增長的復雜性與廣泛部署,迫切需要軟件工程范式的深刻演進。這些系統必須在動態且不可預測的環境中以前所未有的適應性、安全性與可信度水平運行。傳統軟件開發方法難以跟上運營需求的快速演變及新興威脅的步伐,尤其在人類干預有限或響應時間至關重要的場景中。當前自主系統發展的挑戰源于三個核心領域:對實時軟件適配的需求、量子計算對經典密碼學構成的存在性威脅,以及AI驅動決策中透明性與人類信任的必要性。程序員常常難以為所有可預見場景快速編寫和更新代碼,而神經程序合成(NPS)旨在通過AI自動生成或修復代碼來解決該問題。同時,量子計算機的出現可能破解廣泛使用的公鑰密碼系統,從而危及從開發到部署的軟件生命周期各階段。這需要集成量子安全運維(QSD)以構建彈性安全管道。最后,隨著AI組件日益控制自主系統中的關鍵決策,許多模型固有的“黑箱”特性削弱了人類信任。可解釋人工智能(XAI)通過生成人類操作者可理解且可審計的推理模型,旨在彌合這一差距,確保信任與問責。本文認為NPS、QSD與XAI并非孤立學科,而是相互依存的支柱,當緊密集成時,可構成下一代自主系統的協同框架。例如,NPS生成的AI代碼應能通過XAI技術進行驗證與調試,再通過QSD管道安全部署。同樣,量子安全管道可保證XAI生成的模型及其解釋不被強大對手篡改。這些領域的融合有望提升自主平臺的敏捷性、安全性與可信度。
本文的貢獻是多方面的:
? 對神經程序合成、量子安全運維與可解釋人工智能的最新學術與行業研究進行廣泛回顧,聚焦其各自進展、挑戰及融合潛力。
? 提出一種新穎的軟件智能框架架構,將這三個關鍵組件統一為用于自主系統開發與運營的連續智能管道。
? 詳細闡述該融合框架內的模塊、工作流與交互,通過一個涉及自主資源管理的假設智慧城市場景說明其實際應用。
? 分析實施此類集成框架固有的技術挑戰,包括正確性、可擴展性、安全開銷、可解釋性與復雜性權衡、人機交互及集成復雜性等問題。
? 概述必要的嚴格評估策略與性能指標,以評估所提出框架的有效性、可信度及倫理合規性。
? 討論在敏感環境中部署AI生成、量子安全系統所涉及的更廣泛倫理、運營與安全影響。本工作為開發適應性、穩健性及可信賴自主系統所必需的新興多學科領域奠定基礎。
本文強調知識圖譜在強化軍事偵察的智能信息系統中的重要作用,著重分析知識圖譜的推理能力價值,并探討開源工具在知識圖譜開發維護中的角色。為此,本文首先剖析不同開源知識圖譜工具提供的推理支持,探索如何利用現有軟件推理器增強知識圖譜功能。這為知識圖譜實踐者提供寶貴指南——洞察可用資源、推理支持及構建綜合知識圖譜的策略。其次,本文提供有效框架幫助用戶根據軍事偵察特定需求篩選和比較最適配工具。
圖1:情報周期內的知識工程流程。傳統情報周期通常由需求模塊起始的四個組件構成。新增的"處理"模塊通常作為分析模塊的子流程。此處將其視為獨立模塊,旨在突顯周期內兩個底層流程:一級數據處理與融合階段,二級高級情報生成階段。
軍事情報依賴收集處理偵察行動中獲取的海量異構數據,以消除情報知識缺口并支撐指揮官決策。多源信息的必要互聯通過提供作戰環境實時精準數據,對指揮控制(C2)智能信息系統(IIS)形成關鍵支撐。在"情報周期"(涵蓋任務分配、收集、處理、分析與分發流程)中,分析師需處理描述指揮官信息需求的優先/特定情報需求(PIRs/SIRs)。簡言之,指揮官需掌握敵軍戰力等信息以制定應對決策,而分析師通過解析偵察數據提供情報支持。數據通常經多技術手段采集,呈現多樣化格式(如圖像、書面報告、無線電訊號等)。當部隊無法獨立滿足情報需求時,需向上級或友鄰單位申請支援。所有采集數據與反饋信息必須有效整合。知識圖譜(KG)作為結構化多關系圖式知識表征——捕捉實體(如人員、載具、地點)及其關聯信息,為組織存儲檢索此類信息提供高效方法。知識圖譜可視為實體語義網絡、屬性及關系的符號化表征,其優勢在于明確定義的語義與推理能力:可檢測矛盾或通過領域知識豐富信息。具備推理能力的知識圖譜支持復雜作戰環境決策,類似指揮控制與情報知識信息系統的決策場景。
知識圖譜通過組織海量互連數據,構建軍事戰略行動相關信息的結構化表征。這種結構化知識促進精細化情境感知推理,從離散數據源提取可操作洞察。隨著系統演進,高級推理機制的整合進一步優化決策流程——基于知識圖譜實體間復雜關系推演潛在結果。本質上,指揮控制與情報智能信息系統融合知識圖譜及推理能力,不僅優化信息檢索與解讀,更為戰略領導者提供駕馭信息化現代戰爭復雜性的高階工具。相較于易產生幻覺的大語言模型(LLM),知識圖譜通常包含已驗證事實。目前LLM仍難從文本提取邏輯關聯:若模型訓練包含"A是B"句式,其無法自然推導"B是A"逆命題(此現象稱"逆轉詛咒")。LLM另一局限在于僅通過單次海量文本訓練且缺乏持續更新。解決方案之一是情境學習,如采用檢索增強生成(RAG)框架。知識圖譜及其嵌入表征亦可作為情境學習源,例如在基于最新信息構建問答系統的RAG流程中。
在軍事等敏感領域決策時,決策者終不可依賴直覺。因決策關乎人命,其必須基于有效事實可追溯、可解釋。知識圖譜及其推理能力相較LLM兼具二者特性,故LLM目前無法替代知識圖譜。構建知識圖譜面臨多維挑戰:需以有意義方式結構化信息以表征應用領域相關實體關系。成功創建維護知識圖譜主要依賴本體編輯器與推理器兩大工具:編輯器用于開發本體(定義特定知識領域核心概念、屬性及關系的概念框架);推理器基于既有事實推導新知識,用于深化洞察或檢驗知識圖譜信息一致性。
構建穩健本體需理解RDFS/OWL等本體語言與形式化標準。理想本體編輯器應配備圖形界面以隱藏形式化復雜性,使本體學家(專攻本體設計與實施的專家)聚焦核心術語與關系的明確定義。此過程通常為迭代協作式。開源工具在普及知識圖譜中發揮重要作用,歐盟委員會亦倡導使用促進知識圖譜開發維護的開源方案。開源工具具多重優勢:規避供應商鎖定、低成本可及性等。故本研究僅考量輔助知識圖譜構建維護的開源軟件。但并非所有開源編輯器或推理器均提供同等推理支持(知識圖譜核心能力)。因此,本文通過評估各類公開編輯器與推理器的推理能力,揭示此關鍵維度。
本文通過梳理現有開源工具為知識圖譜實踐者提供指南。重點聚焦推理能力及開源編輯器對其支持程度,同時介紹部分開源推理器及其與現有編輯器的協同使用方案。這涉及評估編輯器與推理引擎的兼容性,以通過自動推理提升知識圖譜構建質量精度。全文結構如下:第二章論述相關工作;第三、四章開展開源本體編輯器與推理器的比較評估;第五章探索構建全功能知識圖譜平臺;第六章總結全文。
態勢感知(SA)是通過感知、理解與預測環境要素的連續過程,構成復雜系統的重要組件。環境信息接收具有持續性與多模態特性,人工智能技術通過將SA目標拆解為數據融合、表征、分類及預測等任務,提供更高效穩健的支撐。本文系統綜述應用于各類環境與場景中構建、增強及評估SA的AI與多模態方法,重點聚焦感知完整性與持續性提升。研究表明人工智能與多模態方法的融合顯著增強了復雜系統的感知與理解能力,但在未來態勢預測與多模態信息有效融合方面仍存研究缺口。本文總結AI與多模態技術實現SA的應用案例與實踐經驗,并提出未來展望與挑戰,包括更全面的預測能力、更強的可解釋性及更先進的視覺信息處理技術。
圖1所示。基于人工智能和多模態技術的態勢感知系統概述。
當今社會的技術發展要求對計算機及通信網絡實施有效防護,并實現網絡攻擊的快速精準檢測。本文探討如何應用機器學習(ML)算法強化網絡安全防護措施,重點聚焦勒索軟件檢測領域。據此,提出系列ML專屬方法——包括分類算法(隨機森林、支持向量機)、異常檢測(K均值聚類、自編碼器)與神經網絡(卷積神經網絡、循環神經網絡),并解析如何優化運用這些技術甄別各類應用的異常活動。同時,本文亦探究支撐ML模型的基礎設施所面臨的安全風險。
當前影響人類的威脅可分為五大領域:陸域、水域、空域、天域及網絡空間。但極端主義、輿論極化乃至虛假信息亦可能引發嚴峻社會問題。各領域均構成現代國家及組織實施防御與戰略安全布局的獨立維度。前四類威脅與網絡威脅的核心差異在于:前者受自然法則約束,而后者根植于人為因素。然而這些領域深度互嵌且頻繁交疊,例如網絡攻擊可干擾海空通信并影響導航系統,而衛星在涉及無人機導引或空中監視的地面行動中亦發揮關鍵作用。
在此具有虛擬屬性的新現實中,新型網絡威脅持續涌現,亟需縝密管控與追蹤。技術迭代速度加劇了基礎設施所有者(IT部門)與負責網絡安全防護、控制流程的安全團隊之間的割裂。根據曼迪昂特(Mandiant)最新安全效能報告:
? 53%的網絡攻擊未被上報
? 68%的勒索攻擊未被上報
? 91%的攻擊未觸發任何警報
? 1.23億高科技安全解決方案覆蓋9億用戶及11個行業
日益增多的實體正遭受多維度網絡攻擊,而網絡安全的核心使命正是保護信息資產并防范未授權訪問。
在此背景下,人工智能(AI)與量子計算技術通過增強實時數據分析處理能力,成為虛擬環境安全轉型的支柱。AI發展引發用戶群體分化:依賴AI實現流程自動化者,與通過保障數據質量及精確性優化模型者。這種動態要求采取雙軌策略——既要提升AI應用效能,亦須強化倫理矯正與監控機制。下文各章節將分別探討:
本文探討了在軍事網絡安全方法中應用生成式人工智能(Generative AI)所帶來的倫理和對抗影響。生成式人工智能已在眾多民用應用中展示于威脅模擬和威脅防御領域。盡管如此,其在軍事應用中存在重要的倫理考量,原因在于生成式人工智能可能被濫用。針對軍事系統的網絡威脅正變得比以往更加復雜,我們希望為該領域的研究體系增添數據,以幫助彌合在理解軍事環境中生成式人工智能風險方面所識別的知識差距。目標: 本文旨在探討圍繞生成式人工智能軍事應用的倫理困境,包括責任歸屬、自主性和濫用問題。本文審查了與生成式人工智能相關的對抗性風險,包括敵對行為體的操縱或其他利用。目標是提出考量倫理困境的措施,同時改進防御能力。方法: 方法論將評估倫理風險,如與人工智能系統相關的自主性、武器化和偏見問題。它將通過建議采用對抗性訓練策略、混合人工智能系統以及針對被對抗性操縱的人工智能生成威脅的穩健防御機制來確定對抗性風險。它還將為軍事網絡安全提出倫理框架和責任模型。結果: 本文提供了在傳統網絡環境和智能網絡環境下軍事網絡安全系統的性能比較評估。重要研究結果證明,生成式人工智能有可能提高檢測準確性,尤其是響應時間。但它也引入了新的風險,如對抗性操縱。實驗結果說明了對抗性訓練如何增強模型的魯棒性、減少漏洞,并提供更強的針對對抗性威脅的防御能力。結論: 與傳統方法相比,生成式人工智能在軍事網絡安全中具有相當可觀的益處,特別是在提升檢測性能、響應時間和適應性方面。如圖所示,人工智能增強系統的優勢使惡意軟件檢測準確率提高了15%,從80%上升到95%,釣魚郵件檢測準確率也提升了15%,從78%上升到93%。對新威脅的快速反應能力也很關鍵,響應時間縮短了60%,從5分鐘減至2分鐘,這在軍事環境中至關重要,快速響應將能最大限度減少影響。此外,人工智能系統顯示出將誤報率從10%降低到4%(這非常優秀)以及將漏報率從18%降低到5%的能力(這也很優秀),這很大程度上基于人工智能系統識別真實威脅樣貌的能力以及識別真實威脅的能力。
在過去的幾年中,由于人工智能(AI)和機器學習技術的發展,網絡安全經歷了根本性的轉變。作為人工智能的一個子類別,生成式人工智能,包括生成對抗網絡(GANs)和變分自編碼器(VAEs),正被迅速用于生成網絡威脅模擬以提供更好的防御。盡管這些人工智能模型在民用網絡安全應用中所展現的巨大效用已得到證明,但它們在軍事環境中的使用會產生額外的困境和變數。鑒于軍事領域的風險高得多,甚至在實施生成式人工智能之前,對其能力和風險獲得更深入的理解至關重要。將生成式人工智能用于軍事網絡安全工具存在諸多優勢。最顯著的好處在于,生成式人工智能能夠針對當前系統的極限,提供逼真、復雜且先進的網絡攻擊模擬。盡管在軍事網絡領域提出了無數解決方案(如復雜的關鍵基礎設施和武器系統),軍事網絡仍必須應對日益復雜的網絡攻擊,包括高級持續性威脅(APTs)、零日漏洞利用和定制攻擊。生成式人工智能模型可以生成基于情景的自適應攻擊,包括多態惡意軟件、相關釣魚郵件和自適應入侵模式,這可以匯總應對惡意網絡事件的最佳實踐。生成式人工智能也將允許檢測和/或響應系統的測試。最后,這些用于模擬的先進能力本身也帶來了必須加以考慮的顯著倫理/對抗風險。
生成式人工智能的軍事應用存在著嚴峻的倫理挑戰。首先是自主性問題。監督和管理對于人工智能的能力及其相應的自主決策至關重要。在軍事行動中由自主人工智能系統做出的決策可能產生嚴重后果,無論是沖突升級還是未知的損害。這要求現有系統配備監督機制,以確保對人工智能決策的責任追究或自主性,其決策范圍涵蓋從軍事到民用領域。第二個倫理挑戰是武器化。隨著生成式人工智能模型的改進,對手最終也會利用生成式人工智能來武器化新的網絡攻擊或發動人工智能支持的進攻策略。因此,我們必須確保強大的工具在國際法管轄的范圍內以符合倫理的方式使用。此外,人工智能系統中的偏見不容忽視。包括使用生成式人工智能在內的機器學習模型,都可能易受訓練數據中存在的偏見影響。如果這些偏見未被識別,它們必然會影響或玷污決策過程,導致負面的、武斷的或歧視性的結果,尤其是在風險巨大的軍事應用中。存在偏見的AI系統可能導致基于含有偏見的數據錯誤識別威脅或未能識別威脅行為,這會危及軍事系統的安全。
在軍事網絡應用中,生成式人工智能的應用既帶來對抗性風險,也涉及倫理考量。雖然人工智能提高了對事件的檢測和響應速度,但對手可以利用人工智能中的缺陷。網絡攻擊者可以添加對抗樣本并篡改人工智能的訓練數據,導致人工智能錯誤分類威脅或根本未能識別惡意活動。這是一個嚴重問題,特別是在涉及人員生命且生命損失風險以軍事防御規模來衡量的情況下。對抗性人工智能模型甚至可能能夠通過發動一次產生幻影的攻擊來偽造網絡攻擊,使其響應系統不堪重負,或者操縱軍事網絡安全系統陷入另一種、有效的對抗性系統復雜化。本文針對在軍事網絡安全中使用生成式人工智能所涉及的倫理和對抗性問題進行了論述。最終,本文將在后文探討減輕這些擔憂的方法,例如通過對抗性訓練、混合人工智能系統和責任歸屬機制。這項工作的最終目的是確保在恪守倫理原則、公平性和安全性的前提下,軍事領域對生成式人工智能的利用能夠增強網絡安全態勢。本文還將考慮如何在現實世界軍事行動動態多變的背景下,持續研究和評估這些模型對新興網絡威脅的抵御能力。
現實世界中諸多問題需進行序列決策,其中每個決策的結果具有概率性與不確定性,且后續行動的可選性受先前行動結果制約。生成適應不確定性、全局最優且隨狀態空間擴展仍可擴展的策略至關重要。本文提出生成最優決策樹(規定不同結果場景下的應執行動作,同時最大化策略期望收益),結合動態規劃與混合整數線性優化方法,利用問題特定信息剪除狀態空間中無收益貢獻的子集,使方案適用于大規模有限狀態空間問題。實驗證明所提方法能以線性時間復雜度(相對于探索狀態數量)找到全局最優決策樹。
序列決策是兵棋推演、醫療與網絡作戰等領域的核心問題。在此類場景中,智能體采取行動達成目標,但每項行動的產出具有離散性、概率性與不確定性,導致面對多可能未來時難以確定最優行動。此外,可用行動存在復雜條件依賴性(制約策略可能性),同時需考慮遠期收益。本文開發了一種方法,用于定義適應不同行動結果的最優決策序列,并以決策樹形式呈現。
盡管決策樹是機器學習中成熟模型,但其傳統用途為預測——預測型決策樹(DT)的每個分叉對應已知數據特征的組合(其對應結果未知)。而在行動方案(CoA)生成場景中,決策樹的應用轉向策略生成,允許基于先前行動的不確定結果定義最優行動序列。如圖1所示:CoA樹的每個節點代表系統狀態并規定一項行動,其執行結果引發狀態變遷(通過行動結果的概率性分支轉移至子節點,可觸發新行動)。樹終止于葉節點(行動預算耗盡、狀態不允許新行動或目標達成獲取收益)。
圖1:含二元分叉的最優決策樹示例(各節點為帶行動指令的狀態)
本研究核心貢獻為生成全局最優決策樹的算法與優化模型。這些決策樹在最大化策略期望收益的同時,兼顧行動與結果間的復雜依賴關系。通過動態規劃(DP)與混合整數優化(MIO)結合,利用問題特定信息剪除狀態空間無效子集,使方法可擴展至大規模狀態空間問題。雖非首個提出通過部分行動剪枝縮減狀態空間的研究(如Pinto與Fern 2014年工作),但本方法在最終決策模型中不犧牲全局最優性。通過示例驗證方法有效性,并在隨機生成測試案例中展示計算效率——尤其值得注意的是,本方法能以線性時間復雜度(相對于探索狀態數)找到最優決策樹。
所提框架可生成符合以下特征問題的全局最優決策樹:
如第3節示例所示,行動間依賴關系可通過行動與結果的邏輯關系集進行數學與圖形化表達。
本文探討了如何在軍隊中開發和訓練強大的自主網絡防御(ACD)智能體。本文提出了一種架構,將多智能體強化學習(MARL)、大型語言模型(LLM)和基于規則的系統組成的混合人工智能模型集成到分布在網絡設備上的藍色和紅色智能體團隊中。其主要目標是實現監控、檢測和緩解等關鍵網絡安全任務的自動化,從而增強網絡安全專業人員保護關鍵軍事基礎設施的能力。該架構設計用于在以分段云和軟件定義控制器為特征的現代網絡環境中運行,從而促進 ACD 智能體和其他網絡安全工具的部署。智能體團隊在自動網絡操作 (ACO) gym中進行了評估,該gym模擬了北約受保護的核心網絡,可對自主智能體進行可重復的培訓和測試。本文最后探討了在訓練 ACD 智能體理過程中遇到的主要挑戰,尤其關注訓練階段的數據安全性和人工智能模型的穩健性。
圖 1:四個網絡位置(A-D)容納五個藍色智能體(1-5)的情景。
本文探討了為自主網絡防御(ACD)智能體訓練混合人工智能(AI)模型時所面臨的挑戰和機遇,尤其是在戰術邊緣環境中。這些挑戰源于此類環境所特有的獨特、不可預測和資源受限的設置。北約研究任務組 IST-162 和 IST-196 的工作重點是 “軍事系統的網絡監控和檢測”[1]、[2] 和 “虛擬化網絡中的網絡安全”。虛擬化網絡中的網絡安全"[3] 至 [5],本研究旨在利用混合人工智能框架推進 ACD 智能體的設計和功能,以確保整個聯盟網絡的穩健網絡安全。多智能體強化(MARL)、大型語言模型(LLM)和基于規則的系統的采用構成了我們 ACD 架構的核心,增強了智能體在戰術邊緣環境中普遍存在的斷開、間歇、有限(DIL)帶寬條件下有效執行自主網絡防御任務的能力。這些條件要求系統具有彈性,能在網絡和資源嚴重變化的情況下保持高性能水平,這對傳統的網絡安全系統來說是一個重大挑戰。例如,將深度強化學習(DRL)與生成式人工智能相結合,有利于開發能夠進行復雜決策和自適應學習的智能體,提高其在動態網絡環境中應對復雜網絡威脅的能力[3]。此外,本文還討論了如何將 ACD 智能體集成到模擬的北約啟發的受保護核心網絡環境中,并在此環境中針對一系列網絡威脅對其進行評估。智能體利用人工智能技術的戰略組合,自動執行監控、檢測和緩解等關鍵防御行動,支持對關鍵軍事和民用網絡基礎設施的持續保護。
本文的貢獻如下: 第一,在一個集成了 MARL、LLM 和基于規則的系統的代理層次結構中使用代理智能體范例的方法論,以增強自主網絡防御能力。第二,討論在戰術邊緣環境中為 ACD 智能體訓練混合人工智能模型的挑戰和機遇。第三,定義一套評估指標,用于衡量 ACD 代理在數據和訓練保護方面的性能。本文的組織結構如下: 第二節回顧了相關文獻并解釋了研究原理。第三節詳細介紹了使 ACD 智能體適應戰術邊緣環境的方法。第四節介紹了我們的實證評估結果。最后,第 V 節總結了本研究的意義并概述了未來的研究方向。
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
本文介紹了在戰場數字孿生框架內使用貝葉斯優化(BO)、遺傳算法(GA)和強化學習(RL)等先進技術優化軍事行動的綜合方法。研究重點關注三個關鍵領域:防御作戰中的部隊部署、火力支援規劃和下屬單位的任務規劃。在部隊部署方面,BO 用于根據戰場指標優化營的部署,其中湯普森采樣獲取函數和周期核取得了優異的結果。在火力支援規劃中,采用了 GA 來最小化威脅水平和射擊時間,解決了資源有限條件下的資源受限項目調度問題(RCPSP)。最后,為任務規劃開發了一個 RL 模型,該模型結合了多智能體強化學習 (MARL)、圖注意網絡 (GAT) 和層次強化學習 (HRL)。通過模擬戰場場景,RL 模型展示了其生成戰術演習的有效性。這種方法使軍事決策者能夠在復雜環境中提高行動的適應性和效率。研究結果強調了這些優化技術在支持軍事指揮和控制系統實現戰術優勢方面的潛力。
戰場數字孿生是一個數字復制品,代表了真實戰場環境的組成部分和行為特征。它可以通過接收來自實際戰場的實時或接近實時的戰場、敵方和友軍單位信息,并將其動態反映到數字孿生中,從而對數字孿生模型進行評估和調整。換句話說,模型可以根據真實世界的數據不斷更新,以實現更具適應性的分析。這一概念與深綠的自適應執行相一致,后者也依賴于動態更新的信息。通過這種方式,可以向真實戰場系統提供改進的決策反饋,幫助用戶根據數字孿生模型做出更好的決策,而數字孿生模型是根據實際作戰數據更新的。
本節提出了 “基于戰場數字孿生的作戰行動選擇生成與分析 ”概念,通過各種技術方法,利用戰場數字孿生生成作戰行動選擇。然后對這些選項進行評估、效果比較,并推薦最合適的 COA 選項。基于戰場數字孿生的作戰行動選擇生成和分析的基本概念是,利用戰場數字孿生的預測模擬生成作戰行動選擇,同時考慮若干戰術因素(METT+TC:任務、敵人、地形和天氣、可用部隊和支持、可用時間和民用因素)。然后,可在數字孿生環境中對生成的作戰行動方案進行快速評估。圖 2 展示了這一流程的概念圖。生成和分析 COA 的四個關鍵輸入--威脅分析、相對戰斗力分析結果、戰場信息以及指揮官和參謀部的指導--假定來自其他分析軟件模塊和用戶輸入,從而完成智能決策支持系統。有關鏈接分析軟件模塊的更多信息,請參閱 Shim 等人(2023,2024)。
圖 2:基于戰場數字孿生系統的 COA 生成和分析概念。
可以按照圖 1 中概述的戰術規劃流程生成并詳細說明 COA 選項。然而,如前所述,規劃過程中的許多任務都需要人工干預,而人工智能技術的應用仍然有限。因此,我們將重點放在 COA 生成階段,在研究適用技術的同時,找出可以實現自動化和智能化的方面。本研究介紹了在 COA 生成過程中可實現自動化和智能化的三個概念:確定友軍部隊部署、規劃間接火力支援和規劃部隊戰術任務。友軍部隊部署是指部隊到達戰場后如何安排和使用,而部隊部署則是指如何將部隊轉移到指定的大致位置。我們將貝葉斯優化方法應用于友軍部署優化問題,作為 COA 方案生成的一部分。隨著人工智能技術的快速發展,許多研究都探索了基于最先進機器學習算法的全局優化方法。其中,使用高斯過程的貝葉斯優化法作為一種針對實驗成本較高的黑盒函數的全局優化方法受到了廣泛關注(Brochu,2010 年)。對于炮兵作戰,我們將火力支援調度問題歸結為一個項目調度問題,該問題力求在遵守資源限制的同時,最大限度地減少敵方總威脅和發射時間。將項目調度與資源管理相結合的任務被稱為資源約束項目調度問題(RCPSP)。最后,我們利用強化學習(RL)技術為下屬單位規劃戰術任務,以找到最優行動策略。強化學習已經證明,它是在動態和不確定環境中解決復雜決策問題的有效框架。特別是,我們利用多智能體強化學習(MARL)、分層強化學習(HRL)和圖注意網絡(GAT)的原理,為多個單位有效地學習任務及其相應參數,同時從每個智能體的角度考慮其重要性。
在使用所提出的方法生成一系列作戰行動(COA)選項后,將在戰場數字孿生系統中對這些選項進行模擬評估。然后對模擬結果進行評估,以推薦最合適的 COA 選項。在下一章中,將詳細解釋用于實現所建議的 COA 生成概念的技術方法,并提供全面的實驗評估結果,以突出所建議方法的有效性。
圖 8:強化學習的擬議架構。
本文介紹了一個案例研究,說明為汽車減震器開發可靠、穩健、準確的數字孿生系統所面臨的挑戰。具體來說,該數字孿生系統的作用是估計儲氣室中當前的氣體壓力,并將其與預期壓力進行比較。研究定量證明,傳感器和算法的設計選擇對系統的準確性有重大影響,而這種影響與數字孿生系統的硬件成本不成正比。經評估的傳感器套件成本很高,總成本從 297 澳元到 4292 澳元不等,成本相差 14 倍。研究表明,使用龐大而昂貴的傳感器套件并不一定會相應地提高系統的精確度。數字孿生結構中使用的算法和傳感器對系統精度有顯著影響,RMSE 從 3.83 Bar 到 0.85 Bar 不等,精度相差四倍。數字孿生方法在精確度方面有顯著優勢,僅使用最精確傳感器的方法的有效誤差值為 2.27,而全數字孿生方法的有效誤差值為 0.84。成本最低的系統最大限度地利用了貝葉斯方法和物理建模,產生的估計值僅次于最精確的系統,均方根誤差為 1.4 Bar,是最精確系統的 165%,這對任務仍然有效,但成本僅為后者的 7%。這表明,通過利用混合架構中的算法開發,可以顯著提高性能,并大大減少數據集的大小和神經網絡組件的訓練時間。
圖 1:測功機測試裝置和儀器圖 注:圖片中的減震器并非測試設備。