認知戰(CogWar)作為新興概念,已在北約國家與伙伴國引發激烈競爭。其發展主要依托技術進步、人工智能(AI)及社會科學新知識的驅動。此類行動可快速觸達目標受眾的特性,要求必須及時識別攻擊以實施有效應對。若未采用尖端AI算法、集成學習方法及大語言模型(LLMs),指標與預警(I&W)解決方案將無法與認知戰行動抗衡。AI賦能的I&W解決方案潛在問題在于透明度不足與調優缺失。目前,北約技術團隊(負責研究網絡空間認知戰指標與預警)正開發一套框架,用于識別認知攻擊與認知戰行動的可量化指標(和/或LLM驅動指標),以供未來軟件解決方案使用。該框架通過已知輸入保持系統透明度。此外,盡管LLM尚無法創造新知識,但研究人員與從業者可利用此框架預判認知戰未來應用方向,并主動更新相關I&W軟件。
北約技術團隊采用現有形態分析法構建認知戰相關場景,進而識別潛在指標。情報研究領域的大量文獻涉及I&W與預警系統,這些成果將被整合以開發基于場景的認知戰指標統一框架。該框架為持續訓練與更新AI賦能解決方案(用于識別敵方認知戰行動)邁出關鍵一步。
圖:CogWar指標與預警識別框架
人工智能(AI)正迅速改變軍事領域并深刻影響國際和平與安全。"負責任軍事域人工智能峰會"(REAIM)及《負責任軍事應用人工智能與自主系統政治宣言》等倡議雖非普適性進程,但顯著提升了國際社會對軍事AI應用的關注度。這些倡議尤其推動討論超越致命性自主武器系統(LAWS),成功凸顯AI的多維影響,從而促成更廣泛的國際政策參與。基于這些倡議激發的政治動能,聯合國大會2024年12月通過的79/239號決議進一步拓展了圍繞軍事AI的國際對話,為成員國、國際和區域組織以及多利益攸關方社群提供了共商機遇與風險的平臺。聯合國裁軍研究所(UNIDIR)長年致力于引導相關討論:通過開展研究、推動多邊對話、提供政策洞見,深刻闡釋AI對國際和平安全的變革潛力。
國際社會當前可塑造AI在軍事領域的應用方式,將負責任AI原則置于核心。核心挑戰在于"軍事域"定義的復雜性——國家與地區依其獨特安全環境、現實條件及操作實踐存在不同解讀:部分國家將軍事職能擴展至國內安全任務(如治安、邊境管控、打擊有組織犯罪、關鍵基礎設施防護及災害人道救援);其他國家則采用嚴格定義,將軍事功能限于戰場交戰。這些差異非但不應成為障礙,反而為多邊討論提供重要背景。國際治理框架須保持靈活包容,承認并適應多樣化的國家與區域安全視角。
在軍事域的多元操作場景中,AI作為力量倍增器賦能多項軍事任務,涵蓋指揮控制(C2)、情報信息、高級自主系統、后勤保障、訓練模擬及組織支持功能。在C2領域,AI提升決策速度與質量,輔助指揮官快速分析戰場態勢;通過整合詳細相稱性原則等法律評估,增強國際人道法(IHL)遵循能力。AI驅動的情報工具高速分析海量數據,優化態勢感知與威脅探測。在后勤領域,AI優化供應鏈與預測性維護,提升戰備水平。AI還支持無人機、網絡安全、認知戰與信息行動中的高級自主性。訓練模擬通過AI創建個性化高擬真合成環境而獲益。簡言之,若負責任地開發部署使用,AI可提升作戰效能、降低風險與傷害。然而軍事AI融合亦帶來顯著風險與挑戰——涵蓋技術、安全、法律、政策及倫理維度。
技術層面,軍事AI系統面臨數據質量、可用性及固有偏見問題,可能導致不可預測且具潛在危害的后果(包括違反國際法)。AI系統的"黑箱"特性,加之其自適應能力與高度環境依賴性,使可信度評估復雜化,有時甚至阻礙對涉嫌違反IHL行為的有效調查。網絡安全漏洞也使AI系統易受對抗攻擊,需采取嚴格防護措施。
安全挑戰包括誤判與意外升級風險,尤其通過AI賦能的快速決策流程及自主系統,可能導致升級式響應。AI軍備競賽的可能性加劇國際與區域緊張,或引發類似歷史軍備競賽的破壞性后果。AI技術向非國家行為體擴散進一步復雜化威脅格局,亟需軍事AI系統的強健全生命周期管理。此外,AI生成虛假信息通過削弱信息可信度威脅社會穩定性,并直接影響軍事行動。
法律挑戰聚焦確保遵守國際法(尤指IHL與國際人權法)。關鍵辯論涉及AI驅動行動的責任歸屬問題(包括國家與個人責任),特別是致命決策領域。各國對現有法律框架是否充分或需制定專門新規存在分歧。超越國際法范疇,倫理考量強調在關鍵決策中保留人類判斷力,防止社會偏見滲入AI系統——后者要求增強AI開發的多元包容性。彌合政府、學界與私營部門間的鴻溝雖具挑戰性,但對有效治理至關重要。
應對這些挑戰需制定涵蓋多邊、區域及國家層級的綜合路線圖。多邊層面,建立聯合國主導的常設對話平臺至關重要,該平臺將系統探討軍事AI對國際和平安全的廣泛影響。其可基于現有國際AI原則框架(如聯合國教科文組織建議或《全球數字契約》中的安全可靠AI承諾),進一步細化軍事領域適用方案。此外,應借助聯合國平臺制定務實"建立信任措施"(CBMs),引領包容性多利益攸關方參與,實施通過透明度、合作與可預測性增強全球安全的能力建設項目。
區域層面,現有組織框架可用于制定契合本地安全語境的CBMs與指南。跨區域對話促進經驗互鑒,打破信息壁壘,納入多元視角以推動全球協調響應。國家層面,各國應制定詳述愿景、優先級與治理框架的綜合AI戰略,確保遵循國際規范與倫理標準。強健治理架構(如專屬AI指導委員會與倫理委員會)配合迭代式法律審查,將增強問責制與安全性。透明化溝通與明確定責規程進一步支持負責任AI實施。高標準數據治理、全生命周期管理方法、嚴格培訓計劃及更新的軍事操作指南共同構成國家層面措施,確保AI在軍事領域的負責任融合。
綜上所述,AI融入軍事領域為國際和平安全帶來重大機遇與復雜挑戰。通過前瞻性治理、包容對話及情景適配框架,各國可駕馭AI戰略優勢并管控風險。承認定義與操作語境的多樣性,協同多邊、區域與國家行動,將為負責任軍事AI治理奠定堅實基礎。
信息戰(IW)已隨時間推移演變為獨立作戰模式,這源于技術持續演進及社會各層面與組織內部海量目標的暴露。信息戰因其自適應特性和無國界特征,能夠在未越境開火的前提下發動戰爭,使問題本質復雜化。最具殺傷力的"聯合作戰"或"多域作戰"(MDO)同樣未能免受信息戰影響,其在戰斗各階段均受沖擊。信息戰拓展灰色地帶范圍的能力與不對稱威脅疊加,顯著加劇政治及軍事體系的決策困局——通過利用社會結構性弱點瓦解聯軍凝聚力,削弱國家作戰能力。聯軍高度依賴傳感器、指揮控制(C2)體系要素、通信及網絡頻譜執行任務,致使其更易在戰爭迷霧中遭受信息戰無形打擊。然而,竭力實施信息戰協同調控以守護己方弱點,可數倍提升聯軍作戰效能:既能減少作戰兵力需求,又可降低戰爭成本,實現"零傷亡"或"低代價"勝利。本文強調核心論斷:"唯有用信息戰方可制衡信息戰"——若能在完全技術優勢下運用該戰法并防護自身弱點,將倍增聯合作戰能力以確保戰略勝利。此外,本文詳析信息戰與聯合作戰本質,最終聚焦信息戰的影響機制及反制措施,尤其結合印度軍隊當前提升聯合作戰能力的進程,探討本土化應對方案。
戰場透明性增強、動能與非動能作戰手段迭代,加之非國家行為體威脅與不對稱戰爭風險,致使現代戰場復雜性激增,傳統戰法亟需技術與條令革新。盡管技術進步提升全域作戰節奏與殺傷力,但武裝力量無縫協同生成最大作戰效能仍不可或缺——唯有在時空維度協同運用國家武裝力量要素,方能以更低成本實現決定性速勝。
聯合作戰作為一種軍事學說,優先強調各軍兵種在統一指揮下整合達成目標。該理念注重跨軍種協同、互操作性與行動同步,以最大化作戰效能,亦可稱為"體系作戰"——要求整合所有能力實現行動統一,其協同效應可催生最大化作戰能力。故聯合作戰實踐者須重視軍兵種協作及非軍事機構在軍事規劃中的價值。
戰爭本質雖不變,但實施方式持續演進。作戰原則須貫穿規劃與執行全程。聯合戰役中的力量平衡及作戰效果,與實踐者時刻守護聯合作戰原則的能力直接相關。然而聯軍對指揮控制(C2)、傳感器、數據與兵力協同的重度依賴,也為信息戰破壞作戰原則、時空維度擊敗聯軍提供可乘之機。為增強聯合作戰韌性及殺傷力,亟需解析信息戰對作戰原則的影響機制。信息戰對核心聯合作戰原則的正負向影響如下:
? 機動性
信息戰通過增強情報收集速度與戰場透明性(BFT),縮短"觀察-調整-決策-行動"(OODA)循環周期,規避無效兵力投送,提升決策與部隊機動效率。反之,信息泄露與敵方欺騙亦將削弱聯軍機動性,遲滯作戰節奏。
? 節約兵力
信息戰提供低成本打擊選項:可在敵時空矩陣任意節點攻擊海量目標,實現零傷亡作戰,從而保存兵力用于關鍵方向,貫徹兵力節約原則。
? 統一指揮
統一指揮旨在確保各目標均由責任指揮官統一協調。信息戰攻防要素既可用于維護指揮統一,亦可瓦解該原則。
? 突然性
突然性指在敵無防備時空節點實施快速打擊,加速作戰節奏并制造敵方崩潰契機。該原則因戰場透明性提升與信息欺騙能力增強而受到顯著削弱。
? 克制用兵
克制原則強調僅使用必要兵力達成目標。信息戰通過降低兵力需求貫徹此原則,減少附帶損傷。
? 合法性
國際國內層面的法理正當性認知,可通過信息戰工具進行輿論引導以維護或破壞。
? 互操作性
作戰力量與裝備的互操作性是聯合作戰協同基礎,依賴無縫通信與實時數據共享——信息戰既可防護亦可破壞該體系。
? 統一行動
達成目標區域最大作戰效能需三軍力量整合,確保兵力在時空與目標維度高度統一。信息戰攻防能力既能促成兵力適時集結,亦可遲滯兵力投送,導致聯軍遭分割殲滅。
? 指揮控制(C2)
作為聯合作戰神經中樞,指揮控制賦予任務執行方向性與靈活性,捕捉瞬時戰機提升作戰節奏——該體系可被信息戰組件徹底瓦解或強化防護。
信息戰對聯合作戰具雙向影響:既可助推任務成功,亦能引發災難性后果。聯軍能力可因信息戰增強或削弱,其效果取決于沖突雙方技術閾值、可用目標及現有/潛在社會斷層線。規劃與實施多域作戰或聯合行動時,上述原則不容忽視——違背將導致整個戰役不可持續。因此,聯合作戰實踐者須全力守護原則體系免遭負面沖擊,同時精準打擊敵弱點以達成速勝。
擴展現實(XR)是涵蓋三大相似技術的統稱:(1)虛擬現實(VR)、(2)增強現實(AR)及(3)混合現實(MR)。盡管XR領域自1960年代末便在美國國防部(DoD)啟動研發,近年仍持續取得重大突破。這項變革性技術已在國防部門體系內產生顯著影響,并具備在未來數年內革新防務領域的巨大潛力。
本報告剖析XR技術現狀,探討其在美國防部維修訓練中的應用,同時展示XR領域核心機構的最新科技成果,輔以學術期刊與科研報告數據。通過分析技術優勢與挑戰,報告闡釋VR、AR與MR如何通過節約成本、提升效率、降低風險賦能防務訓練體系。隨著XR領域的最新進展,國防部將獲得利用技術能力強化訓練體系與維修流程的機遇。
研發人員開發頭戴顯示裝置原型機以輔助軍事機修人員執行裝甲車輛維護任務。該設備通過提供文本、標簽等可視化指引引導用戶完成復雜操作流程。為驗證裝置效能,研究人員在機修人員使用該設備作業時開展專項研究,發現使用原型機人員操作效率顯著提升,機修人員評價該技術"在執行測試任務序列時兼具直觀性與滿意度"。此案例僅是擴展現實(XR)融入現有維修流程以提升效能的范例之一。作為新興技術,XR在國防部各機構具有廣泛適用場景。XR已被公認為變革性力量,能重塑用戶與物理/數字元素的交互方式。隨著技術成熟度提升,XR軟件將在國防部作業體系中日益關鍵,尤其在維修訓練領域。本報告概述XR技術現狀,研判其在維修訓練領域的當前及未來應用價值,并聚焦國防部特定需求,梳理XR維修訓練領域核心機構的現狀。
網絡安全與信息系統信息分析中心研究發現,XR可優化維修流程以提升教學效率、降低成本、節省時間并減少風險。該技術通過實時可視化輔助向用戶推送關鍵任務信息以強化訓練成效,同時支持個性化學習模塊,為人員定制專屬培訓體驗以提升戰備能力。AR技術使現場技術人員能實時獲取遠程專家支持,在執行復雜維修程序時獲得視覺引導或通訊協助。XR技術已為國防部維修訓練催生創新型解決方案,為多領域作戰帶來全新工具。
盡管XR在訓練與維修領域優勢顯著,仍存在亟待突破的瓶頸。該技術普遍存在長期佩戴頭顯導致身體不適的問題,可能引發頭痛、頸部酸痛、視覺疲勞、眩暈及倦怠等健康風險。XR應用應僅以便捷方式在用戶視野內展示必要信息,避免信息過載。開發者尚未完美實現用戶界面的平視顯示功能。另一顯著挑戰在于裝備與零件狀態的視覺檢測——要使算法在真實場景中精準識別細微特征,高效圖像處理算法必須實現近乎零誤差的精確性與可靠性。在團隊協作或請求訓練/維修支持時,系統運行時間與網絡連通性亦可能成為制約因素。當前高保真XR頭顯單價成本高達數千美元,價格門檻突出。海軍研究實驗室作為國防部內首個測試XR設備效能的機構,著力探索其強化訓練項目的路徑。該實驗室攻克了XR硬件在圖形處理、深度感知及便攜性等方面的難題,其中可穿戴設備的亮度與對比度調節能力尤為關鍵——工程師需確保顯示器在戶外強光環境下仍能提供清晰視覺,同時避免光線直射用戶眼部造成眩光。XR系統交互設計聚焦用戶界面直觀性,例如士兵使用AR系統時低頭注視腳部即可在視野內調取地圖進行路徑規劃。
軍用無人機已成為現代戰爭的標志性裝備,其在烏克蘭戰場造成的傷亡遠超其他武器。偵察、打擊、后勤及海軍作戰領域的廣泛應用,使國家與非國家行為體日益依賴無人系統。歐盟(EU)將無人機研發與反制列為優先事項,通過歐洲防務基金和永久結構性合作(Permanent Structured Cooperation)提供資金并協調研發。歐盟領導人承諾加強防務產業,對無人機生產、創新與互操作性進行重大投資,同時促進軍民兩用技術協同,解決戰略依賴問題并與北約開展合作。歐洲防務局正通過聯合項目及創新中心推進無人機技術發展。
無人機在俄烏戰爭中已成為主導力量,其數量達歷史頂峰。2024年5月烏軍方高層表示:"無人機造成的雙方傷亡超過任何武器"。年初烏設定百萬架年產量目標后,現已提升至400萬架;俄據稱正同步增產。現役超百種無人機涵蓋從民用改裝機到近20米寬的大型軍用機,承擔偵察、精準打擊、武器制導、誘餌投放、通訊中繼及物資運輸等任務。兩國通過自研、民用改裝或盟友渠道獲取無人機。在有人戰機受防空壓制及烏軍彈藥短缺背景下,無人機對維持防御至關重要。除空基系統外,烏軍部署海軍無人機打擊俄黑海艦隊并擊沉多艘艦艇,現正致力組建專業無人艦艇編隊。陸基無人機雖技術較初級,仍用于運輸、偵察及有限攻擊。
無人機不僅盛行于烏克蘭戰場,更已成為全球沖突的普遍特征:在加沙、以色列、黎巴嫩戰事,也門、蘇丹、敘利亞、緬甸內戰,以及紅海國際船只襲擊事件中均發揮關鍵作用。中東與非洲非國家團體對無人機的使用也持續擴展。此趨勢被部分觀點視為戰爭形態的重大變革,亦有觀點認為屬于軍事技術的自然演進。
截至2023年,全球商用無人機(UAS)市場規模約達229.8億美元,預計2030年將強勁增長至571.6億美元。農業、物流、傳媒及醫療等領域需求激增推動市場擴張。軍用無人機市場2022年估值132億美元,預計2032年將達277億美元。
歐盟正依托堅實基礎,有望在未來無人機戰爭中占據領導地位。行業報告顯示:截至2022年全球超40%無人機企業分布于歐洲。烏克蘭與土耳其已成為歐洲領先的無人機生產國。但歐盟安全研究所(EUISS)專家指出,烏需更多資金擴大產能并獲取先進無線電發射器、傳感器等關鍵部件,方能釋放產業潛力。
由拉脫維亞與烏克蘭發起的"國際無人機聯盟"于2024年2月成立。該聯盟由17國組成(按字母排序):澳大利亞、加拿大、捷克、丹麥、愛沙尼亞、法國、德國、意大利、立陶宛、盧森堡、荷蘭、新西蘭、挪威、波蘭、瑞典以及拉脫維亞與英國(后兩國任協調員)。過去一年聯盟聯合基金籌集1.76億歐元,伙伴國援助總額超20億歐元,資金用于采購無人機及支持創新研發以增強烏軍戰力。已完成兩次國際招標:首批選定5家供應商半年內向烏交付3萬架FPV無人機;第二批聚焦先進FPV無人機與攔截無人機,近20家烏制造商首次參與競標。聯盟另在拉脫維亞設立無人機試驗場。2025年3月,荷蘭宣布投資5億歐元啟動大規模無人機項目,旨在強化烏克蘭抗俄防御能力,該資金系荷政府20億歐元援烏計劃組成部分。
當前歐盟軍隊尚未建立俄烏規模的武裝無人機庫。盡管部分成員國部署少量大型高成本中空長航時(MALE)無人機(類似"反恐戰爭"機型),其在強對抗環境中的效能有限。且沒有歐盟軍隊儲備足夠"可消耗式無人機"與"巡飛彈藥"來維持烏克蘭戰場級別的高強度消耗戰。近十年來歐盟國家雖擁有多元作戰需求,卻集中于設計高端MALE無人機。與此同時,技術進步使小型戰術無人機載荷能力顯著提升——已足以支持地面部隊打擊任務,該趨勢近十年持續加速,但歐盟國家對此變革認知與響應遲緩。分析師指出:各國對"歐洲無人機"(Eurodrone)項目的過度關注,已然阻礙戰術無人機機隊的擴編與現代化進程。
鑒于歐洲共同的作戰需求與軍工體系專業積淀,集中投資一至兩款通用戰術無人機本應是更高效策略。但主要軍費支出國卻選擇國內自研或現貨采購,進一步加劇市場割裂與非歐盟供應商依賴。近期出現若干重大進展:西班牙2023年批準4.95億歐元SIRTAP戰術無人機投資計劃(分8年執行:2023-2031)。由空客制造的該機型具備20小時滯空時間、6000米實用升限、750公斤起飛重量及150公斤載荷——性能參數與萊昂納多FALCO EVO相當(注:該機型中東地區有部署,但無歐洲軍隊列裝)。
希臘為應對土耳其無人機技術進步,在持續引進以色列等國外系統同時著力提升自研能力。2022年9月,希臘航空航天工業集團聯合三所高校推出具備強大監視偵察功能的多用途兩用垂直起降(VTOL)無人機"Archytas";2023年1月又宣布啟動模塊化戰斗無人機"Grypas"研發,其載荷能力顯著提升。原型機預計2025年問世,希臘將作為啟動用戶(其他歐洲國家可能跟進)。預算限制或緊急需求則使部分歐盟國家轉向采購非歐盟現成無人機:例如波蘭2021年率先引進土耳其"旗手-TB2"(注:俄全面入侵初期烏軍曾大量使用),首購4架后另與通用原子公司簽訂MQ-9"死神"租賃協議。
歐洲正掀起以無人機與人工智能為核心的國防科技熱潮。慕尼黑初創公司Helsing專注AI軍事化應用,其開發的HX-2智能打擊無人機旨在強化戰場決策能力,2024年7月獲4.5億歐元融資。該公司已向烏軍交付4000架HF-1無人機,新簽6000架HX-2訂單。HX-2系AI驅動的X翼構型精確打擊無人機,作戰半徑100公里,具備電子對抗與干擾環境作戰能力,可實施人控集群作戰。同處慕尼黑的Quantum Systems專攻電動垂直起降雙用小型無人機,2024年9月獲3640萬歐元融資(加上2023年10月6360萬歐元,總額超1億歐元)。其無人機遠程性能優異,軍民場景適用性強。2024年4月在烏設立首座工廠后,計劃2025年實現產能翻番,當前在烏生產"向量"偵察無人機并建立研發中心及維護基地。
在軍事研發領域,美軍“聯合全域指揮控制系統(JADC2)”的“任務規劃與執行”需求明確,而利用AI輔助聯合規劃以處理數據支撐人類決策,是此類系統效能提升的核心。然而,還需設計“人類數據解讀機制”以優化協同任務的同步與執行。本研究旨在通過“緊急醫療服務場景”評估互依性任務管理候選方案。研究證實,采用“時間線顯示”界面處理“依賴關系問題”的準確率更高,僅在“狀態問題”類型上其精度未顯著優于其他顯示模式。這表明“時間線顯示”界面設計基于“基爾戈爾的時序區間邏輯關系可視化方法”具有顯著有效性。
團隊效能研究數十年來始終是軍事領域的核心議題。軍方資助或主導的研究揭示了團隊績效的本質特征,完善了績效測量與評估方法,并深化了對團隊構成與組建機制的理解。然而,近期技術進步與近鄰對手能力的躍升正顛覆作戰范式。未來戰爭中,“多梯隊殺傷鏈”——由分散式系統集群與操作員構成——將成為制勝關鍵。這一新范式為軍方帶來一系列獨特的協同挑戰。能否有效閉合對敵殺傷鏈并保持優勢,將完全取決于分布式多域團隊在“人-人”及“人-自主系統”協作、以及快速適應動態戰局方面的能力。
美國國防部計劃通過“聯合全域指揮控制(JADC2)”倡議應對軍事格局演變。JADC2是一項戰略作戰概念,旨在將陸軍、海軍、空軍、海軍陸戰隊及太空軍的傳感器、打擊單元與通信設備——最終包括盟國系統——整合為“網絡之網絡”。JADC2的成功高度依賴從多元數據源快速采集海量信息。盡管人工智能(AI)與機器學習(ML)可高效輔助數據處理與分析,人類仍是關鍵資產——尤其在數據解讀與分布式團隊跨域協同效應生成環節。《空軍條令文件3-99》(2021年)指出,“聯合全域作戰(CJADO)”的作戰效能需通過“動能與非動能能力在正確時空點的同步釋放”實現。例如,2023年“護身軍刀”演習中,參演部隊利用非動能效應在反介入/區域拒止環境中為動能打擊開辟時間窗口。為確保此類效應同步,《空軍條令文件3-99》強調每個分布式作戰單元必須理解總體計劃、自身角色及與其他單元的互依支持關系。本研究目標即開發可視化作戰單元互依關系的界面以促進效應同步。
基于前人關于互依性定義與可視化設計的研究,本文改造“智能多無人載具自適應協同/控制技術規劃平臺(IMPACT)”,使其展示任務時序與互依關系。IMPACT整合自主技術、直覺界面與決策支持工具,支持操作員在基地防御、應急響應等任務中指揮多作戰單元。其任務管理界面通過解析聊天文本數據識別任務指令,若判定與操作員相關,則將任務添加至任務管理器并附詳細參數與“快速反應清單”推薦行動。盡管前期研究已探討不同分布式團隊結構利用任務管理器執行聯合指令的效能,但未涉及任務時序與互依關系的表征。為填補此空白,本研究批判性評估現有設計并開發新界面,以可視化任務歸屬、互依性、時序及狀態信息。
經研究確認,任務管理界面需呈現四大核心要素。首先為任務歸屬——明確團隊中任務責任人對協同至關重要,該信息應易于訪問。其次為時序數據,包括任務計劃啟動/結束時間及持續時間。在JADC2任務中,“任務機會窗口”亦屬關鍵,需確保任務在可接受風險或與階段性資源/預協調行動配合下完成,因此所有任務均納入“最早可啟動時間”與“最晚需完成時間”構成的窗口期。第三為任務依賴關系,其中“任務順序約束”是最基礎形式,需標識任務相對其他任務而非單純依時間執行的關聯性。識別出三類基本順序約束:1) 父任務啟動是子任務啟動的前提;2) 父任務完成是子任務完成的前提;3) 父任務完成是子任務啟動的前提。所有依賴關系均存在“父任務”與“子任務”,后者依賴于前者形成方向性關聯。最后為任務狀態,設計中包含“規劃中”“執行中”“已完成”三種狀態。此外,研究認定需考慮“警報機制”,其觸發邏輯基于任務窗口期與依賴關系,分為兩級警報:在JADC2等復雜環境中,若任務無法在窗口期內完成需調整,界面將觸發“紅色警報”;任何因依賴關系受該警報影響的任務則觸發“黃色警告”。這四大要素被融入現有及創新設計理念,產出兩組數據同源但設計異質的界面供實驗對比研究。
盡管軍事革命相關論述或存過度炒作之嫌,但人工智能(AI)與自主技術改變戰爭形態的潛力正逐年增長。各國正部署可半自主導向目標的無人機,而AI正提升全球軍事目標鎖定流程效率。此類系統的風險真實且嚴峻——無論源自單體系統或系統集群,化解風險方能充分釋放技術潛能。國防部在載人系統安全研發部署方面經驗豐富,但AI與自主技術帶來新挑戰。作者前期報告曾探討AI與自主系統的新穎性,聚焦其對國防部門測試與評估(T&E)體系的持續及預期影響。AI單體系統特殊性構成挑戰,系統間交互亦然。本報告聚焦自主系統集群(無論是否AI驅動)引入的新漏洞(單體測試中或不存在)。自主平臺間沖突潛力顯著,其互操作性需求亟需跨軍種協同努力。鑒于美國與對手技術研發競速,當前正是為聯合部隊建立技術導向動態框架之機,確保美軍保持整體作戰能力。
本研究結論適用于AI與自主系統全生命周期(含研發及測試評估):
? 研發階段:涉及系統設計與工程技術要素
? 測試評估:涵蓋虛擬/實裝測試的實踐與政策要素
實現系統間真正互操作性需從開發早期至維護階段的全鏈條參與(概念設計者、項目經理至工程師均需介入)。各軍種應任命或授權領導層確保AI與自主系統研發符合作戰概念中的互操作性要求。鑒于作戰概念預設系統在共享環境中的協同能力,領導層應避免研發孤島化,強化預期互操作系統項目間協作。
國防部門應探索制定確保系統互操作性的行為標準(匹配操作員訓練及戰術、技術、程序的標準化程度)。現行技術標準側重接口等要素(機器通信方式),自主系統需建立類人操作員規程的行為標準以實現協調。此類標準應超越通信協議等底層要求,涵蓋共享環境中的預期交互方式(如機動與火力沖突自動化解)。
測試主管部門應協同制定實施T&E政策以確保自主系統兼容性。各軍種需在系統研發早期關注互操作性問題(建立作戰概念中共現項目的關聯),而認證后續互操作性(如本框架所述)屬T&E部門職責。T&E部門應運用通用建模與仿真(M&S)工具強化互操作性(輔以實裝測試)。標準提供顯性互操作路徑,而無需直接協調的M&S資源共享可驅動系統兼容性研發。
戰爭的特點已從冷戰后期發展起來的精確打擊和隱形制度演變為針對對手決策的行動和技術。這種轉變有多種形式,如灰色地帶行動、混合戰爭、“小綠人”以及薩拉米漸進行動和戰術。認知戰代表了各國軍事行動方式演變的頂峰,并對僅靠傳統的動能作戰是否有必要實現侵略者的目標提出了質疑。
認知戰具有高度破壞性,威脅著民主體制和主權,很可能改變戰爭的性質,或許也會改變分析家對沖突的理解。腦科學、數據和計算技術以及基于算法的注意力模型的進步匯聚在一起,從根本上改變了全球戰略環境,擴大了外國對手利用認知操縱的攻擊面。迄今為止,美國決策者對認知戰的診斷和反應遲緩,這不僅是因為認知戰的新穎性,也許還因為公眾一直處于認知操縱的持續狀態之下,使人們的認知能力受到削弱。
本報告以安德魯-F-克雷皮內維奇在《勝利的起源》一書中的分析為基礎,強調世界正面臨軍事事務的轉變。美國的精確打擊優勢已經削弱,人工智能、量子計算和合成生物學等顛覆性技術正在重塑戰爭態勢。俄羅斯等大國正在與美軍較量,并在某些情況下實現了對美軍的超越,其野心是重塑全球秩序。
認知戰爭的出現--通過操縱認知來破壞社會文化、經濟、政治和軍事系統的穩定--對美國及其盟國構成了獨特的威脅。這種戰爭不同于信息戰,它旨在影響人們的思想、情感和行為,改變從個人到群體的認知空間。認知戰的關鍵要素包括戰術和戰略運用、對人們思維方式的操控、對腦科學和數據的依賴以及采用多種交戰模式的能力。使用基于算法的計算宣傳以及創造自我維持的反饋和放大循環的能力是其重要特征。
美國國防部(DoD)以及北大西洋公約組織(NATO)和其他盟國已經認識到戰爭性質的變化以及無法應對相關挑戰的影響。由于對手破壞或摧毀了各種聯系和網絡連接,作戰行動將變得支離破碎、互不銜接,并最終失去效力。也許最嚴峻的是,隨著認知戰能力的出現和成熟,對手可以通過所謂的信息對抗來脅迫社會,軍隊可能會發現自己與對手的行動無關。美國及其盟國很可能會發現自己在戰場上被包抄,要么無效,要么無法應對,因為對手可以深入到整個國內人口中。盡管存在這種危險,美國及其盟國的軍隊和國家安全政策制定者仍未組織機構和基礎設施來檢測、跟蹤和打擊對手針對美國公眾發動的認知戰活動。此外,也沒有制定必要的作戰概念和要求,以運用自己的認知戰能力來支持其安全需求。
要了解認知戰的影響,并將防御措施付諸實施以支持國家安全決策,需要構建一個心理框架,說明認知戰是如何出現并作用于人類的。構建這一框架的第一步是構建本體論--一個組織知識的正式系統。美國國家科學、工程和醫學研究院(NASEM)將本體定義為一種正式的知識組織系統,是理解復雜關系的共同概念化和框架。在這方面,美國國家科學、工程和醫學研究院(NASEM)2022 年發布的《行為科學中的本體論》報告具有重要的參考價值。報告強調了本體論在行為科學中的重要意義,這種意義延伸到了競爭和沖突環境中。
用例這一源自軟件工程的概念可以幫助讀者設計本體。在本報告中,用例是說明個人如何與系統互動以實現目標的敘述性場景。工程師圍繞五個參數構建用例:參與者、背景、資源、預期結果和利益相關者。在認知空間的競爭和沖突背景下,該模型對本體要素進行了識別和分類。
以下提出的工具維度為理解認知戰爭的多面性提供了一個綜合框架:
這些工具維度是構建本體論的基礎,本體論對認知戰爭的不同方面進行了系統分類和組織。本體包括類、屬性、屬性和層次等元素,為認知領域提供了結構化的理解。它承認這些方面具有雙重用途,既代表威脅,也代表機遇。它還強調了技術威脅與認知威脅之間的重疊。
擬議的認知戰本體論為理解和應對認知威脅提供了一個工具。通過對認知戰爭的不同方面進行分類和相互關聯,它有助于識別弱點、制定對策和評估機遇。它為國家安全決策者提供了針對認知空間的可操作戰略和作戰概念。隨著認知戰的發展,不斷完善、融入現有安全協議以及各領域專家之間的合作應能增強本體的能力。認知戰的倫理和法律層面、隱私問題和國際合作也需要關注。
認知戰本體論由神經科學、技術和影響的力量塑造而成,是駕馭這一復雜而不斷發展的課題的重要工具。通過研究、適應性和前瞻性思維方法,可以在認知戰定義的時代確保其認知空間的安全。
圖 1. 認知戰戰役概念圖
無線電隱蔽通信涉及發送不易被第三方觀察者發現或截獲的信號。目前有多種低檢測概率(LPD)策略,如擴頻(SS)、碼分多址(CDMA)和混沌 CDMA。機器學習(ML)為實現 LPD 提供了一種新策略。具體來說,隨著包括生成對抗網絡(GANs)在內的深度學習(DL)技術的最新進展,我們假設 ML 可用于開發難以與自然噪聲區分開來的編碼方案--自然噪聲既存在于射頻環境中,也表現在無線電接收機的電子電路中。
最早記錄在案的隱形無線電通信形式是 SS 技術,即通過偽隨機選擇的信道傳輸部分信號,這樣竊聽者可能對任何單個頻段的信息知之甚少。CDMA 是這一策略的現代替代方案,可產生低于噪聲底限(即信噪比 [SNR] 低于 0 dB)的信號。除非竊聽者知道要尋找的代碼(如用于手機的商業標準 CDMA),否則他們可能無法識別射頻背景中是否存在人工信號。混沌生成的芯片序列或長序列偽隨機生成的密鑰可以進一步防止竊聽者識別射頻活動。多年來,人們還提出了其他 LPD 通信方法,包括不精確的同相/正交相位 (I/Q) 星群和多天線。此外,還分析了在信道條件下通信的隱蔽性和內容豐富程度的問題。
GANs 是 ML 領域相對較新的發展,它允許模型合成與訓練集相似的真實數據。GANs 還可用于生成能夠騙過同時訓練的判別器的數據。在本報告中,我們探討了是否有可能生成一種既能冒充隨機高斯白噪聲(GWN),又能向知情接收者準確傳達英文文本序列的代碼。我們訓練了一個判別神經網絡模型,以區分偽隨機高斯白噪聲和編碼信息。我們還同時訓練編碼器和解碼器網絡,以便在純文本信息和 8 位類噪聲代碼之間進行轉換,這大致相當于典型的低成本軟件定義無線電的 I/Q 輸入和輸出精度。
我們在此不討論隱身無線通信中的一個基本挑戰,即在傳輸頻段中存在可探測到的多余能量。但我們知道,信噪比遠低于 0 dB 也能用于信息通信,這在全球導航衛星系統 (GNSS) 和 CDMA 應用中都能看到。
事實證明,采用基于生物識別技術的安全措施對北約國家極為重要,特別是在聯合行動區(JOA)。在為基地招聘當地人員時,可以使用生物識別技術來篩選雇員,或者識別參與使用簡易爆炸裝置(IED)的罪犯,這促使一些北約國家建立生物識別數據庫和生物識別觀察名單(BEWLs)。北約本身已經實施了北約自動生物識別系統(NABIS),該系統是由新興安全挑戰司(ESCD)管理的防御恐怖主義工作計劃(DAT POW)的一部分。盡管它對北約國家以及間接地對一些非軍事實體(如國家執法機構)具有潛在的高價值,但一般來說,除了合作協議,北約軍事部隊獲得的生物識別數據不能共享。這主要是由于法律和憲法的限制,但也有與互操作性有關的技術問題。SAS-135研究任務組(RTG)的主要目標是確定這些障礙并推廣北約生物識別標準(STANAG 4715)。STANAG 4715在北約之外可能沒有足夠的知名度,它的采用可以促進軍用和非軍用實體之間的合作。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。