現代軍隊依靠電磁頻譜來運作。因此,通過干擾和定向能量攻擊電子和信息系統會降低現代對手的作戰系統。冷戰結束后,美國的對手在電子攻擊能力方面進行了投資,而美國陸軍則基本上放棄了自己的能力。意識到這一點,陸軍現在正投資于新舊電子武器以縮小差距,在陸軍試驗多域作戰概念時重新獲得電子攻擊能力。本專著的目的是回答這樣一個問題:"美國陸軍如何在MDO空間中利用電子攻擊?" 本專著提出,陸軍作戰部隊應將新興的干擾和定向能武器整合到一個作戰系統中,將物理、控制論和道德效應融合到對敵人的深度攻擊中。這一建議對條令、組織和領導者的發展有重大影響。作者的意圖是鼓勵陸軍領導人將環衛系統中的進攻行動視為當前和未來戰場上聯合武器作戰的關鍵。
無人機系統和傳統的干擾技術已經融合在一起,形成一種新的能力。正如前面的案例研究中提到的,俄羅斯已經在無人機上安裝了干擾器,作為其Leer3 EW系統的一部分。在美國,陸軍和空軍希望更深入地測試空中發射的多功能無人機群,這些無人機可以快速穿越戰場進入對手的支持區,以識別、破壞甚至摧毀高回報目標。陸軍作戰能力發展司令部的合同提案要求這些無人機配備ES傳感器和EA武器,能夠同時探測敵人的作戰秩序,進行干擾,并觀察火力任務。陸軍的建議表明,網絡化的EW無人機在近距離、縱深和支援領域都有作用。除了在更大的收集-火力架構中的整合,EW無人機群可以通過欺騙性的信號和特征支持作戰機動。雖然這一系統尚未投入實戰,但該提案表明,陸軍正在考慮將EA能力與不斷擴大的無人機群整合到一個更廣泛的作戰系統中。
反無人機干擾系統有效地發揮了機動短程防空(SHORAD)武器的作用,保護單位和關鍵節點免受觀察和攻擊。許多反無人機武器干擾或欺騙測向和通信系統,導致無人機墜毀或返航。理想情況下,反無人機EA系統可以與戰區的IADS相連接,能夠迅速解除空域的沖突,辨別敵我雙方。然而,在有爭議的EMS環境中與低空飛行的無人機交戰的被動性質將使蓄意的空域和EMS解沖突變得不可能,特別是對于裝備有便攜式變體的部隊。
定向能源武器的破壞潛力來自于隨著時間推移轉移到目標的能量。高能(HE)激光器的能量通常在千瓦到兆瓦之間。在低端,這些武器可以使傳感器失明。隨著能量的增加,它們可以降低敏感的電子元件,加熱設備和人員,使其不能再發揮其功能,并導致燃料或彈藥爆炸。 美國海軍在實施高能激光器方面處于領先地位,2014年在一艘水面艦艇上安裝了第一臺。它現在在許多艦艇上都有一系列的激光器,從光學 "炫目 "到150千瓦的光束。光學、發電和傳播方法的進步使得在海上、空中和太空以及陸地移動系統中使用高能激光成為現實。
陸基高爆激光系統可以發揮許多功能。在戰術層面上,高爆激光器可以抵御來襲的彈藥,使無人機失效,并壓制敵人的主動防護系統,作為動能射擊的補充。空軍安裝在卡車上的 "恢復基地拒絕的彈藥"(RADBO)系統使用高爆激光器在舒適的距離內引爆地雷。陸軍目前正在開發一種300千瓦的車載激光器,以防止火箭彈、火炮和迫擊炮的攻擊。在戰區和戰略層面,高爆激光器可能是對抗高超音速導彈的唯一有效手段。根據大氣條件和可用功率,地面高爆激光器可以瞄準敵方軌道上的衛星。
高爆激光器可以有效地作為動能武器的彈藥替代物。這也是有代價的:功率要求、交戰時在EMS中的信號增加,以及由于遠距離和跨域的影響而可能造成自相殘殺。高爆激光器還可能受到大氣條件的限制,盡管該領域的進展正在努力克服這一挑戰。
激光與物理環境中的元素的相互作用使DE有了非致命的用途。美國軍方在伊拉克和阿富汗的反叛亂行動的高峰期試驗了 "疼痛射線",作為其主動拒絕系統(ADS)的一部分。該系統是為控制人群而設計的,它將電轉化為毫米級的無線電波,加熱皮膚中的水,在幾秒鐘內產生難以忍受的熱感。對ADS的1.1萬次測試只導致了兩次受傷。另一種應用是用激光在人員附近產生等離子體球,然后用其他激光誘發物理效應,如幽靈般的聲音或周圍空氣中難以忍受的噪音。聯合非致命武器局正處于將激光誘導的等離子體效應武器用于加熱目標的皮膚,產生極其響亮或混亂的聲音,以及投射口頭命令的邊緣。
非致命的DE武器可用于固定地點的安全,可在安全和鞏固行動中使用,并可通過使人群遠離道路來提高流動性。然而,這些武器的新穎性可能會在信息環境中產生負面效應。斯坦利-麥克里斯特爾將軍在ADS部署后的幾周內就下令將其從阿富汗撤走,因為塔利班讓人們相信美國在對平民進行 "微波",使其患上癌癥和不孕癥。
高功率微波(HPM)武器旨在通過用電磁能量壓倒目標的電子裝置來拒絕、干擾、損害或摧毀它們。HPM是可擴展的,根據HPM投射的能量的多少來呈現所需的效果。在較低的范圍內,HPM激增的能量足以 "鎖定 "一個系統,拒絕其使用。在較高的功率范圍內,HPM會破壞集成電路。與干擾器不同,HPM可以在目標系統不工作的情況下實現其效果。反擊HPM需要對整個電子系統進行加固,因為激增的能量會通過暴露的電線、端口、天線和光學器件滲透進去。與高爆激光器不同,HPM是區域性武器。破壞性效果通常是在較近的范圍內產生的,而破壞性效果可以在較遠的距離上實現更大的面積。作為區域性武器,HPM在對付無人機群時特別有用,空軍已經部署了至少一種HPM武器來保護其地面設施免受無人機攻擊。2017年,波音公司和空軍成功測試了 "反電子高功率微波高級導彈項目"(CHAMP),這是一種巡航導彈,旨在用機載HPM摧毀計算機和電子設備。將這種技術應用于無人機系統或基于直升機的運載系統,為遠程HPM攻擊提供了另一個載體。
具有最大戰略潛力的HPM武器是非核電磁脈沖(EMP)。一旦美國研究人員認識到核爆炸伴隨著電磁能量的大規模激增,美國和蘇聯就開始研究用非核彈藥復制這種效果。雖然CHAMP使用機載電池來發射其HPM以達到局部效果,但EMP炸彈將爆炸能量轉移到磁場中,在整個作戰區域產生HPM效果。組件技術已經成熟到EMP炸彈或導彈是可行的地步。雖然國防部沒有公開其EMP研究,但在2017年,國防部向工業界征集一種 "彈藥投送的非動能效應",該效應能夠 "在不破壞與這些系統相關的硬件的情況下使對手的基本工業、民用和通信基礎設施失效"。該提案要求用標準的陸軍155毫米射彈來實現這一效果。96F 97 該提案所要求的能力指向某種火炮發射的EMP武器。由于C2系統和光電傳感器依賴于敏感和脆弱的電子器件,成功的EMP攻擊對對手的影響可能是決定性的。
博伊德斷言,戰斗人員必須有道德-心理-身體的和諧才能進行抵抗。要破壞這種和諧,需要將致命的、機動的和道德的努力結合起來。施耐德斷言,戰斗有三個領域:道德、控制論[心理]和身體。各個領域都會受到能力的影響,包括EA。結合這些觀點,我們得出了一種方法來理解新的電子攻擊能力如何在多領域作戰中被利用(見圖3)。考慮到案例研究,現在的任務是考慮我們如何將新興的EA系統與現有的能力相結合,在物理、控制論和道德領域產生影響,以支持致命的、機動的和道德的努力。
圖 3.“在作戰中應用電子攻擊的模型”。
電子武器特性的最重大變化是開發了能夠直接摧毀敵人系統和平臺的電子武器。HPM和HE激光系統有能力摧毀無人機和飛機。陸軍的高爆激光器目前集中在防空和反無人機任務上,但這些激光器瞄準地面上的敵方平臺只是時間問題。戰斗車輛上的主動保護系統,如以色列的 "戰利品 "系統的擴散,可能需要在用直接或間接火力攻擊這些平臺之前,通過干擾或DE武器對其進行抑制。為工兵部隊配備RADBO或類似的高爆激光系統,將使他們能夠迅速減少雷區,在行動中能夠更快地進行地面機動。
無人機群ES/EA干擾器,與間接或精確火炮協同作戰,形成了一種觀察-壓制-打擊的能力,有可能遠遠超出前線部隊的作戰范圍,支持偵察和反偵察任務。裝有高爆激光器的航空平臺將為陸軍提供其最遠距離的直接火力武器系統,能夠在距離目標數英里的地方升空進行瞄準射擊,然后落回地面。作為常規致命打擊的一部分,EMP炮彈將摧毀主動防護系統和反火力雷達的電路。
陸軍EA系統也將在物理領域支持MDO的其他服務。DE武器的效果上限可以延伸到太空,使其能夠與飛機交戰以支持空軍。消耗性的無人機干擾器可以激活敵方的EA系統,顯示其位置以便聯合瞄準。裝備有小型EMP裝置的特種作戰部隊可以使岸基雷達和導彈系統在沿海和海上行動中無法使用。陸軍高能激光器有可能通過從地面瞄準敵方衛星來支持太空部隊。
雖然美軍傳統上將EA集中在網絡領域,但現代EA武器為陸軍提供了沿著作戰區域的長度和寬度攻擊網絡決定性點的潛力。蜂群無人機可以將陸軍各師的干擾范圍擴大到遠遠超過空地作戰的30公里。ES系統可以提示高爆激光器來干擾(或炸毀)指揮節點的天線。HPM和EMP彈藥將使整個網絡無法使用,嚴重降低了指揮官在分布式部隊之間提供目的和方向的能力。成群的EA無人機和固定的誘餌可以模擬平臺和指揮節點的電子特征,欺騙敵人并模糊其電子監視工作。同樣的能力也可以用噪音淹沒EMS,在關鍵時刻隱藏關鍵系統的使用或機動。
無人機干擾器和高爆激光器可以壓制防空系統以支持空軍行動。電磁炮是在MDO中產生機動窗口的完美武器,因為它可以使不發光的防空雷達失效,而不會使載人的空中干擾機處于危險之中。地面干擾器可以破壞衛星和地面站之間的聯系,使太空部隊的資產騰出來用于其他行動。EA系統可以刺激敵方網絡,或創造可能有利于敵方網絡內部的網絡行動的缺口。針對網絡決定性點的EA的累積效應將使敵人無法對加速的致命打擊作出反應,也無法對進入脆弱地區的滲透性機動作出反擊。
陸軍可以在戰術、作戰和戰略層面上將現代EA技術用于對抗敵人的意志。在戰略層面上,EMP彈藥可以作為一種有效的威懾手段來對抗對手的行動。從多個載體--空中、太空、海上和陸地--發射的EMP提供了核交換之外的升級選擇。在作戰層面,一個模擬蜂窩網絡同時干擾真實網絡的系統,如俄羅斯的Leer 3,將幫助指揮官更有效地管理信息環境。對分散的部隊使用戰術電磁脈沖,從電子上切斷他們的總部和相鄰的編隊,將在紀律性不強的部隊中產生恐懼和威脅。激光誘導的等離子體效應可以在塑造行動中使用,作為致命的動能打擊或快速穿透機動的前奏,制造恐懼和焦慮。
正如俄羅斯人在烏克蘭所展示的那樣,操縱性電子攻擊是利用聯合網絡行動中獲得的情報的一種機制。我們的網絡戰士必須與EA和心理行動相結合,以收集情報,制作欺騙或信息,然后以無線方式投射到對手的網絡。
美國陸軍在2035年面臨的作戰問題將從根本上不同于它以前所面臨的問題。美國陸軍目前的平臺和條令理論仍在優化的傳統挑戰,通過用精確遠程火力、固定翼空中攔截和旋轉翼攻擊空中的深度打擊來打破蘇聯第二梯隊的突擊力量而解決問題。今天,更多的是在2035年,美國新興的大國競爭者提出了一個完全不同的挑戰。通過威脅美國進入戰區和拒止為決定性反擊提供所需的集結區,美國的對手已經削弱了美國首選的、遠征性的戰爭方式。這種反介入/區域拒止(A2/AD)的方法阻礙了對快速、有限的侵略作出有效反應的能力,這使得盟友和合作伙伴容易受到廣泛的威脅和顛覆活動的影響。A2/AD的核心是一個防御良好的、冗余的、基本隱藏的傳感器和射手網絡,可以定位、瞄準和打擊進入戰區和在戰區內集結的友軍。 為了應對這一挑戰,美國陸軍將采用一種新的方法來尋找和打擊對手A2/AD綜合體的關鍵部分,以確保2035年的行動自由。
在2035年找到對手A2/AD網絡的關鍵節點需要顛覆傳統的偵查邏輯。雖然騎兵中隊和軍團可以有效地爭取關于前進中的敵人梯隊的信息,但找到A2/AD綜合體的關鍵部件是一個完全不同的問題。當友軍有條不紊地用火力和機動手段尋找一個基本靜止且偽裝良好的對手時,未來的陸軍可以通過利用多領域的軍事欺騙手段,激起對手揭開其A2/AD系統核心的遠程傳感器和打擊資產的面具。特別是,這種對對手的瞄準和打擊綜合體的刺激必須考慮到如何在人工智能(AI)的指導下進行決策。在不久的將來,美國的對手可能會利用這種自動化系統將廣泛的信息融合到供人類決策的目標定位建議中。通過觸發對手的高價值資產的過早啟動和部署,試圖尋找、固定和打擊美國的幽靈目標,多領域軍事欺騙可以成為在未來戰場上尋找和摧毀敵人的綜合努力的核心。
關于多領域軍事欺騙是在2035年的戰場上找到美國對手的核心論點分三部分展開。首先是關于今天的軍事欺騙的簡要條令理論背景。第二,更全面地討論了對手A2/AD系統的可能演變,重點是人工智能對目標定位的支持的優勢和潛在弱點。第三是陸軍應該考慮的一系列建議,以便在2035年最好地運用多領域欺騙手段來發現敵人,以大國導向的野戰軍作為這些活動的整合者。
軍事欺騙的條令和歷史背景已經確立。廣義上講,軍事欺騙活動 "是為了使對手采取有利于指揮官目標的行動或不行動而規劃和執行的"。 在刺激敵方A2/AD系統的具體背景下,這涉及到放大誘餌單位的特征,并不斷用模擬的特征取代真實單位的特征,從而使敵方超負荷地出現大量的假情報。 這種產生大量假陽性的方法--事實上沒有目標的印象--與傳統的偽裝概念形成鮮明對比,后者試圖通過掩蓋友軍的特征來創造沒有目標的假象。欺騙工作成功的核心是其多領域的特點;在一個傳感器日益廣泛、復雜和多樣的時代,只欺騙一種類型的傳感器對能夠迅速融合多種信息來源的對手來說作用不大。克里斯托弗-賴因提出的 "多領域欺騙","需要在各作戰領域之間進行密切和仔細的協調,以確保一個領域的失誤不會使其他領域的努力付諸東流。"
要準確了解對手的A2/AD架構,需要整合通過各種手段收集的信息。過度依賴單一的方法,如截獲的電子通信或高空圖像,可能導致理解上無法彌補的差距。長期以來,美國在其戰場態勢方面一直是無與倫比的,但其大國競爭對手正在迅速獲得優勢。首先,傳感器的復雜性、保真度、可負擔性和多樣性的提高使得收集軍事相關信息變得更加容易和便宜。然而,將這些信息轉化為理解需要第二步工作。而即將到來的自動化可能被證明是革命性的。機器學習有望將原始信息迅速而準確地融合到可操作的目標定位建議中,這將使未來戰場上的隱藏和生存任務大大復雜化。
低成本、現成的平臺和傳感器(如無人機和高分辨率相機)以及近乎實時的開源信息(如社交媒體帖子和商業化的衛星圖像)的廣泛發展,改變了可用信息的規模和保真度,以及能夠獲得這些信息的國際行為者的數量。在過去的幾十年里,這些傳感器已經廣泛擴散,以前只有主要大國才能使用。這一趨勢沒有減弱的跡象;隨著探測手段變得更便宜、更可靠,并且能夠收集高質量的信息,美國在過去幾十年里享有的信息優勢將進一步削弱。
提高信息收集手段的多樣性和質量解決了部分挑戰。剩余部分挑戰——融合多個來源的信息以描繪一個目標的全面畫像——是一項更具挑戰性的任務。目前,這是一個勞動密集型的過程,涉及到跨職能的分析師團隊,他們辛苦地研究由越來越高分辨率傳感器捕獲的大量數據。根據一項估計,"僅分析未來20年內產生的所有全球圖像就需要800萬人"。然而,機器學習的進步可能會大大改善和加速收集信息的融合。機器學習分類器,它 "接受一個輸入樣本并將其識別為幾個輸出類別之一",特別適合于融合和目標定位。 在人工智能支持A2/AD目標的背景下,輸入樣本將是通過一系列傳感器收集的數據,而輸出類別將是對目標的分類。一個經過適當訓練的機器學習算法,在獲得廣泛的準確數據后,將能夠在繁雜數據中找到相關目標,并準確地對目標進行分類,從而大大加快和改善迄今為止費力的信息融合過程。
與美國在傳感器方面的優勢不斷減少一樣,美國將不會壟斷這些自動融合技術。到2035年,美國的對手將有可能利用機器學習技術來融合從廣泛的傳感器中收集的信息,以鎖定他們的A2/AD武器。這將對友軍如何隱蔽自己提出了一系列新的挑戰。大量收集友軍的各種特征可能會使友軍以單維方式偽裝的工作化為泡影。例如,最大限度地減少電磁輻射可能對敵方產生微不足道的影響,因為敵方仍然可以探測到一個單位的熱信號、民用合約或社交媒體特征。從更普遍的角度來看,針對高度敏感的多領域傳感器系統制造一個有凝聚力的假陰性幾乎是不可能的--對手將探測到一些東西,而訓練有素的人工智能將能夠從探測到的東西中推斷出目標的準確情況。
雖然令人生畏,但美國對手的信息收集和融合技術的這種潛在變革為友軍在2035年的戰場上找到敵人提供了機會。如果連貫地進行,新穎的多領域軍事欺騙可以扭曲對手的算法,利用機器學習產生的建議和人類決策者之間的組織和程序上的緊張關系。這種欺騙本身并不是目的;為了澄清不確定的和相互矛盾的目標決策信息,對手將被迫通過使用越來越積極的手段來暴露其A2/AD架構,發出信號。欺騙對手暴露其A2/AD架構的關鍵節點是在2035年找到隱藏敵軍的核心。
機器學習并非不受欺騙。與人類可以將模糊的證據放在上下文中的現有程序相比,機器學習更依賴于容易量化的數據作為輸入。專注于檢測特定的、可測量的電磁、聲學、熱學、引力、視覺、振動、地理標記的社交媒體或計算機輔助文本分析數據的傳感器必須干凈地輸入機器學習算法。這種算法又是通過在類似的特征和已知的目標特征之間形成關聯來訓練的。它的準確性取決于其訓練數據集的豐富性,其中的真陽性和有效的相關協變量構成了調整和更新算法的基礎。在軍事背景下,真正的陽性是目標實際案例,而相關的協變量是所有領域中可測量的全部特征。目前,多領域信息的融合是通過軍事參謀部的人力密集型單元進行的;機器學習為這種同樣的過程提供了快速、自動的機會,并通過識別可能躲避人類認知的關聯模式。通過軍事欺騙行動故意混淆視聽,使真正的目標看起來模糊不清,可能會破壞這種學習過程,誘使人工智能的A2/AD系統在錯誤的地方尋找錯誤的特征。或者,正如Edward Geist和Marjory Blumenthal所說,友軍可以使用 "戰爭迷霧機器 "來混淆對手的傳感器和相關的機器學習過程。
這種對可量化數據流的依賴,為機器學習驅動的目標算法提供了支持,這也會在對手的組織中打開一個關鍵的漏洞:它以犧牲人類的專業知識和直覺為代價,使整個系統容易受到多領域欺騙。在過去的幾十年里,人工智能的發展停滯不前,不平衡,到處都是這樣的例子:看起來很聰明的機器,當遇到超出其訓練范圍的現實挑戰時,完全被打懵了。與傳統的編程系統相比,沒有一個工程師團隊可以輕松地調整代碼,以更好地支持系統中的人類決策者,而是一個黑盒,輸出是由通過訓練數據迭代形成的神經網絡中的加權鏈接隱藏層產生的。這種對機器如何學習的不明確可能會在人工智能增強的人類決策系統中造成摩擦。在現實世界失敗之前,機器學習算法假定的全知全能可能會降低人類決策的相對價值,造成這樣的困境:當最需要機器學習系統時,它最不被信任,而由人類驅動的替代方案在地位和能力上卻萎縮了。
欺騙對手的機器學習驅動的目標定位系統可以欺騙對手,使其要么激活高信號傳感器,要么打擊假象目標。在未來的陸地沖突中,這開啟了一個重要的機會之窗,可以對敵人的傳感器、指揮和控制節點以及武器平臺的 "殺傷鏈 "進行友好的聯合反炮擊。多領域軍事欺騙給未來戰爭帶來的是欺騙機器的潛力--迷惑人工智能增強的對手的目標鏈,并通過這種欺騙,暴露其偵察和打擊資產。
圖:新技術將把來自多種來源的電磁信號轉換成數字數據,并以前所未有的速度進行處理,以增強作戰人員看穿敵人欺騙措施的能力,從而在現代戰場上識別和消除威脅。技術進步也將極大地提升友軍通過改進電子戰措施欺騙敵人情報收集工作的能力。(插圖由美國國防部高級研究計劃局提供)
發展和部署有效使用多領域軍事欺騙所需的組織、條令、訓練和裝備,需要采取審慎和協調的方法。本節概述了能夠利用多域欺騙手段在2035年找到敵人的部隊的四個具體考慮。首先,一個綜合的多域欺騙態勢的組成部分必須是靈活和可調整的,以保持對學習型對手的持續欺騙效果。第二,多領域全譜系欺騙不能在危機中開始,而必須以武裝沖突門檻以下的競爭期間設定的基線條件為基礎。第三,由于陸地行動極有可能涉及與美國地面部隊并肩作戰的盟友和伙伴,多域欺騙將通過將他們納入整個戰區計劃而得到加強。最后,多域欺騙不能被看作是目的本身,而是促使對手錯誤行動的手段。通過刺激敵人的A2/AD殺傷鏈來追蹤假象編隊,多域欺騙可以刺激并因此暴露其網絡的關鍵組件。
發展多域欺騙的第一個考慮因素是軍事欺騙的互動、競爭和演化動態。成功的欺騙取決于對手對友軍信號的看法和解釋,也取決于編隊產生的輻射信號。除了產生可信假象的技術層面外,還有一個關鍵的組織因素,它以美國對手的軍事文化為基礎:可能欺騙美國人的東西可能不會欺騙對手,可能對一個競爭對手有效的方法可能會被另一個競爭對手打折扣。欺騙工作必須隨著對手的偏見、能力和學說的發展而不斷調整。
第二,沖突危機中的成功欺騙必須建立在和平時期的基礎上。在武裝沖突門檻以下的持續競爭應包括刻意努力監測、掩蓋和模擬友軍陸地部隊的全部特征。這樣做的目的有兩個:第一,全面 "看清自己";第二,影響美國對手在和平時期對友軍建立的訓練數據集,以訓練其人工智能瞄準系統。為了實現這些目標,和平時期的友軍編隊行動必須由負責建立一個單位的特征和排放的綜合檔案的小組進行徹底監測。這種概況將是對手的A2/AD傳感器可以檢測和利用的基線。這些小組將在模擬戰術交戰和部署到現實生活中的前沿地點時監測友軍。從這些在和平時期輪流部署和演習的競爭中收集的數據中,可以描繪出一幅關于陸地編隊如何在對手的全部傳感器面前出現的全面的、全譜系的畫面。
和平時期編入目錄友軍的全面特征可以以兩種不同的方式使用。首先是通過最大限度地減少真實編隊的信息散發來掩蓋它們的足跡。與 "邊戰斗邊訓練 "的傳統智慧相反,為掩蓋部隊足跡而采取的許多步驟只應在現實世界的危機中采取。在和平時期的競爭中定期演練這些步驟,可以讓對手了解到一個單位的位置和部署的其他 "信息",而這些信息在沖突中更難(或不可能)掩蓋。例如,在輪換部署期間最大限度地減少一個單位的電磁足跡可能會促使對手更密切地尋找其他不那么容易隱藏的特征,作為友軍的關鍵指標。
除了告知如何在危機中最好地掩蓋友軍的真實位置外,友軍的綜合特征也可以作為一種欺騙技術進行復制。這種特征不僅包括友軍編隊的軍事裝備,還包括部署這樣一支部隊所產生的社會媒體和商業合同的外泄。能夠模擬完整作戰編隊特征的友軍欺騙單位可以充當 "蜜罐",將注意力從實際編隊上引開,愚弄對手以暴露其A2/AD殺傷鏈的關鍵部分。
第三,陸地領域的未來戰爭幾乎可以保證是在聯盟背景下進行的。為了最大限度地提高多域軍事欺騙的戰術有效性,應該以類似于美國地面部隊的方式來測量和模仿盟國和伙伴國陸地編隊的特征。在戰區層面,這包括涉及卸貨港、戰略部隊樞紐和其他使友軍能夠涌入作戰區關鍵基礎設施的軍事欺騙行動。由于這些設施往往靠近人口中心,并且通常具有民事和軍事雙重功能,因此必須特別考慮盟國對軍事欺騙活動的關注和限制。必須劃定明確的界限,加強某些設施和人員(如醫院、宗教場所、醫務人員)的保護地位,并與美國盟友溝通,以避免人們認為這些努力會違反《武裝沖突法》。
最后,這種多領域軍事欺騙工作的首要目的是在未來的戰場上找到敵人。正是在向對手展示一個不可抗拒但虛假的目標時,多領域軍事欺騙才有利于找到敵人。通過模擬有利可圖但虛幻的目標,刺激敵人的傳感器和射手綜合系統,可以暴露出他們殺傷鏈中的高價值、高生存能力的資產。有效的欺騙可以觸發對手的全部傳感器--偵察隊、電子攻擊系統、衛星、無人駕駛飛行器、地面監視雷達和網絡資產的啟動,以尋找一個目標。敵人的A2/AD武器,如戰區彈道導彈、遠程火炮和特種部隊同樣會從安全、偽裝的地點部署,以打擊他們認為是實際的友軍集結地。預測到這種啟動,與多域軍事欺騙計劃同步的友軍情報、監視和偵察系統可以預測、感知并利用這種公開的、積極的敵人活動。與其對A2/AD系統的加固和偽裝部件進行無效和昂貴的搜索,多域軍事欺騙可以欺騙我們未來的對手,使其過早地暴露自己。
實施這些建議需要詳細了解一個大國競爭者,其能力水平,以及在武裝沖突門檻以下的競爭期間的姿態,以保持和調節持久的欺騙運動。在陸軍目前的結構中,這項任務很可能落在軍團和陸軍服務部門的指揮部之間。在陸軍適應大國競爭的過程中,本文的最后一個建議是,一個專注于與特定對手競爭的野戰軍應該成為多領域軍事欺騙行動的倡導者和整合者。與陸軍軍種司令部的全戰區責任不同,與和平時期以特定對手為目標的軍團相比,野戰軍最適合設計和實施持久的、有凝聚力的、有針對性的軍事欺騙活動。通過這種欺騙,陸軍可以迫使其對手對陰影進行盲目的打擊,使其A2/AD架構的關鍵部分被發現、破壞,并最終被擊敗。
斯蒂芬-皮克納中校,博士,美國陸軍,陸軍戰略家(FA59),高級戰略政策和規劃項目的畢業生。他擁有美國軍事學院的學士學位,哈佛大學肯尼迪政府學院的MPA學位,以及喬治敦大學的博士學位。他最近的任務是在土耳其的伊茲密爾擔任北約盟軍陸軍司令部的副G5(計劃)。
目前的美國軍事平臺,其中許多可以追溯到幾十年前,不足以對抗對手不斷發展的人工智能和機器學習技術創新。美國空軍的空戰管理系統應對了這一挑戰,提供了多領域的數據能力,以數字方式連接所有領域的聯合部隊。
今天的對手正在發展利用人工智能和機器學習作為力量倍增器的能力,使美國長期存在的軍事能力失去效力。 要實現空中優勢,首先要實現決策優勢。一個完全實現的先進作戰管理系統(ABMS)是美國空軍聯合全域指揮與控制(JADC2)概念的組成部分,它將提供多域安全處理和數據管理、連接和應用,以同步傳感器、火力和網絡,使聯合部隊在每個領域都有數字連接。
讓人驚訝的是,在21世紀,這個擁有地球上最昂貴和最多產軍事力量的國家,仍然依靠PowerPoint幻燈片和電話對國土面臨的潛在威脅進行實時分析。但美國發現自己處于這種情況。如果一架俄羅斯轟炸機的潛在威脅出現在預警雷達瞄準鏡上,來自北美航空航天防御司令部(NORAD)各部門的人員可能需要12分鐘以上的時間來協調信息,只用最相關的數據建立一個幻燈片演示,并將其提交給主管官員,以確定是否真的存在威脅。
由于缺乏在共同環境中協作的工具,參謀人員無法融合必要的數據,以向國家指揮機構提出反應建議,直到最后提交給負責作戰層的上校。
自冷戰結束后,實現空中優勢一直是美國軍事戰術的基石。但在今天的世界上,對手正在發展利用人工智能和機器學習作為力量倍增器的能力,美國軍隊是否擁有最強大的力量或最精確和強大的武器已經不再重要。勝過對手的思維(或用網絡術語說,勝過對手的程序)的能力成為新的目標;一個國家的軍隊如果不首先實現決策優勢,就無法實現空中優勢。
美國空軍已經在ABMS項目上開發了數年,該項目將解決這些問題,使指揮官能夠迅速接收來自多個來源的融合數據。五角大樓責成空軍開發聯合部隊所需的能力,以便在傳統的優勢領域之外運作,努力在整個競爭中獲得并保持決策優勢。 2020年3月,為集中該部門的創新努力而成立的空軍作戰整合能力指揮官邁克爾-范蒂尼少將將決策優勢描述為 "收集、解釋和使用所需的信息,以阻止或贏得未來的沖突。" 他強調,成功將 默認屬于"在所有領域中聯系最緊密的一方:空中、陸地、海上、太空和網絡空間。"
ABMS不只是一個設計平臺。它有時被描述為網絡簇,有時被描述為系統簇;這是一個新的“軍事物聯網”,空軍部的第一位首席架構師稱之為“一個可以統治一切的架構”。
ABMS的目標是取代信息到達一個中心樞紐的單一路徑,例如在NORAD的例子中,每個系統和操作員使用相同的共享數據的環境。一個完全實現的ABMS將允許提供多領域的安全處理和數據管理、連接和應用,以同步傳感器、火力和網絡,為聯合部隊 "將正確的傳感器連接到正確的射手",該部隊將在每個領域進行數字連接以獲得即時態勢。這一概念誕生于部隊中一個反復出現的問題--更換幾十年前的飛機。
E-8C聯合監視和目標攻擊雷達系統(JSTARS)飛機是在20世紀80年代設計的,并在1991年首次投入使用,當時正值它最初被設計用來支持的冷戰即將結束。該平臺提供空中地面監視、戰斗管理以及指揮和控制能力,而且美國空軍在30年后仍在飛行16架該飛機。因此,在佐治亞州的羅賓斯空軍基地,這些部隊連續在中東地區部署了18年,是美國空軍歷史上第二時間長的部署。
2014年,五角大樓資助了JSTARS替代者的研究,國防工業從2015年起開始設計和測試新平臺。但空軍領導層意識到,由老化的JSTARS和E-3機載預警和控制系統(AWACS)平臺提供的單一的空中和空間作戰中心,對于未來沖突的速度、復雜性和殺傷力來說,總體上沒有得到優化。這些 "幾十年前的平臺 "不能可靠地利用21世紀的技術,而且 "支持未來C2的結構要么不存在,要么需要成熟 "才能完全有效。
此外,低密度/高需求的E-8C JSTARS和E-3 AWACS飛機是已知的單一故障點。它們是主要目標,無法在同行競爭者的戰斗空間中長期運作,因為復雜的反介入/區域封鎖能力,如電子戰、網絡武器、遠程導彈和先進的防空系統,正在開發之中。
與此同時,美國軍方開始重新思考其聯合作戰的方法。2016年,美國防部長指示了一個名為 "空陸作戰2.0 "的新作戰概念,這是對冷戰理論的更新,將更加注重空中、陸地、海上、太空和網絡空間作戰。這種方法很快被稱為美國陸軍的多域作戰和空軍的多域C2。
美國空軍高級將領開始考慮為傳統飛機和新飛機(有人和無人)配備新興技術、通信設備和傳感器,以執行以前分配給單一JSTARS平臺的地面監視任務。為了使這個系統有效,它需要處理大量的數據,包括來自美國盟友和合作伙伴的信息。因此,在2018年,用于替代JSTARS的資金被完全轉用于空軍新的多域C2項目,該項目將支持一個被稱為JADC2的美國防部工作。
2020年9月,空軍助理部長(采購、技術和后勤)指出:"令人遺憾的是,人們進入我們的服務,在他們的個人生活中幾乎與所有的東西相連,而他們來到軍隊工作,他們幾乎什么都沒有連接。"這一意見強調了軍隊在納入數字增強措施時如何落后于民用部門。美國防部的巨額合同生產的設備被設計成可以維持數十年,而很少考慮到升級或與其他部門的系統甚至自己內部的系統互聯。例如,空軍珍貴的第五代飛機平臺,F-22和F-35,是用不同的通信網絡建造的,不兼容,因此需要第三個平臺(如ABMS機載邊緣節點)來分享兩者之間的數據。
該部領導層意識到技術變化如此之快,未來戰斗的成功將歸功于擁有一體化、網絡化部隊的組織,它們可以共享最多的信息。因此,在2021年,美國防部制定了一項戰略,使指揮官能夠迅速了解戰斗空間,比敵人更快地指揮部隊,并通過任何必要的領域提供效果。這一概念被命名為聯合全域指揮與控制。
JADC2的概念是作為一個美國防部的保護傘。聯合參謀部制定政策、理論、要求和數據的共同標準。同時,各軍種開發適用的技術,空軍部正在通過ABMS進行開發。陸軍和海軍的JADC2項目分別稱為 "融合項目 "和 "超配項目",各軍種正處于協調其工作的早期階段。2021年,參謀長聯席會議首席信息官指出,新的JADC2方法將 "為我們在指揮和控制領域的努力帶來秩序,以便以相關的速度感知、理解和行動"。
盡管存在挑戰,美國防部長勞埃德-奧斯汀宣布他打算將JADC2作為他的首要任務之一,同時認識到將盟國和合作伙伴帶入這個新領域對于阻止競爭對手是最重要的。因此,數據的互操作性以及數據的復制和分發是JADC2的關鍵屬性。此外,這些數據的完整性和安全性對于在各部門、盟國和合作伙伴之間建立信任是必要的。
聯合全域指揮與控制可能是一個難以把握的概念,因為這個術語并不完全基于硬件或軟件解決方案,而是"'虛無縹緲的術語'",如 "冗余、彈性架構和'相關速度'的信息。"建立JADC2是為了著眼于可能的領域,為現在而建設,同時關注新興技術及其與未來能力的輕松整合。但首先,它必須克服三個主要障礙。
首先,集中式C2架構目前在發生高強度沖突的情況下沒有足夠的彈性,而C2節點將成為第一個目標。簡單地將JSTARS和AWACS飛機與這些節點進行交易,使它們成為美國裝甲中最有吸引力和最脆弱的缺口。因此,分布式網絡操作將是JADC2的一個關鍵重心。
第二,為了使系統的處理速度足以對來自各個領域的數據進行 "感知、理解和行動",美國軍方必須嚴重依賴未經證實且尚未完全信任的人工智能和機器學習概念。建立一個系統的用戶界面和輸入是比較容易的;工業基地幾十年來一直在做這個。但現在軍隊需要一個系統,自動收集這些數據,并為人工智能提供信息,以做出最佳決策。此外,指揮官必須信任推薦的數據和決定(對于那些在數字革命之前出生的人來說,這是一個相當大的范式轉變)。
第三,各個軍種的規模和庫存范圍是如此廣泛(例如,陸軍以其地面部隊而聞名,也有船只、機載電子戰和情報、監視和偵察資產),以至于每個軍種都已經習慣于在其他領域幾乎獨立運作。在所有這些平臺上改裝設備以便與其他軍種進行通信可能成本過高。與此相反,較小的盟國軍隊除了聯合工作別無選擇。例如,法國軍隊已經創建了技術解決方案,如Scorpion和Connect@ero,以便在各部門之間進行本地通信。
雖然聯合參謀部確立了JADC2的整體概念,但空軍未來局編寫了服務支持概念。空軍部的ABMS跨職能團隊領導了一個能力發展活動,通過這個活動,作戰人員可以發現最新的ABMS工具和概念。此外,每三個月進行一次測試旗幟演習(包括橙旗、綠寶石旗和黑旗),以測試新發布能力的生存能力和殺傷力。這些演習強調了新武器和戰術在多域環境中的相關性。
一個可操作的ABMS的最終狀態是一個由流程和系統組成的指揮和控制結構,它壓縮了決策周期,使各領域的效果趨于一致,并使整個地球的綜合行動成為可能。速度是關鍵。但是,即使空軍各單位都在努力實現ABMS,仍然存在一些挑戰。
中國產生大量的數據;事實上,這是他們的權力工具之一。為了競爭,ABMS必須依靠以網絡為中心而不是以平臺為中心的架構,做到靈活、快速和不可預測。現有的、傳統的系統,如JSTARS,將如何處理這些TB級的信息?隨著技術的改進,傳感器、設備和操作人員會因數據過飽和而導致延遲問題。美國空軍80%的飛機是第四代或更老的飛機;用現代指揮和控制系統對它們進行改造可能成本太高。挑戰在于使舊平臺能夠與第五代和第六代飛機通信。人們不能在唱片機上播放iTunes音樂文件,或試圖將Commodore 64連接到互聯網上。
當美國在未來的戰爭中,它將依靠其盟國和合作伙伴。依靠這些國家軍隊的能力是美國的力量倍增器,也是美國對其競爭對手的決定性優勢,但過度分類和其他限制性政策是共享數據的巨大障礙。然而,美國軍方決心利用技術提高盟國和合作伙伴之間的可及性和數據共享,以聯盟作戰中心的通用工作站的形式融合該網絡的網絡。目標是讓軟件或人工智能,使用設定的規則,適當地與需要它的聯盟伙伴分享信息。
為了將戰略意圖轉化為現實,盟國和伙伴行業必須并肩工作,讓組件(如黑盒)相互對話,或讓飛機系統解密和使用其他飛機產生的數據。一個更大的挑戰是確保ABMS將與北約正在開發的聯合任務網絡完全兼容,以簡化和規范30個成員國之間的通信。
法國和美國空軍一直合作者,可以做一些只有少數人才能做到的事情。為下一場戰斗連接傳感器的能力需要在今天開始,以便下一代戰斗機和系統能夠在一個新的數字架構中順利運行。
最近的演習,如2021年5月在Mont-de-Marsan舉行的三國大西洋三叉戟演習,表明即使陣風戰斗機和F-35可以一起工作,但由于技術和分類問題,它們仍然不能完全合作。空軍與 "陣風 "街區F4相關的持續合作表明,法國的資產與F-35之間有更好的整合和密切的未來,F-35被設想為未來ABMS的四分衛:這種參與者可以通過對場上情況的最佳觀察來增強隊友的能力。
盡管有這些和其他令人鼓舞的跡象,這個項目仍然存在許多外部挑戰。此外,空軍部還必須克服許多內部障礙以按時交付ABMS。除了與外國伙伴共享信息的困難之外,美國空軍還沒有解決與其他軍種溝通的問題,每個軍種都有自己的本土通信系統。空軍在是讓現有設備和政策發揮作用,還是從零開始,從頭建立一個系統,將實施時間推遲幾十年之間,這讓空軍很糾結。由此產生的兩難局面只能通過在兩種選擇之間取得平衡來解決。
實施將是有代價的。美國軍方將如何說服其控制軍事資金的文職領導,使其相信這個新的ABMS項目是重要的(在所有其他 "重要 "的事情之上)?國會并沒有告訴美國防部要推行JADC2,而是把錢袋子關得緊緊的。眾議院關于2021財年國防撥款法案的報告批評了空軍的ABMS請求,指出該計劃的弱點包括 "沒有確定的要求、采購戰略或成本估算,以及空軍總設計師和其他參與執行ABMS計劃的辦公室的職責定義不明確"。
2021年,美國空軍將ABMS的領導權移交給一個新的、基于五角大樓的跨職能團隊,并將項目責任轉移到空軍部的快速能力辦公室。向國會傳達該部的結構變化和優先權的轉移對于保持該計劃的資金是至關重要的。
就服務本身而言,空軍如何平衡ABMS與所有其他必須做的要求,如支付下一個戰略核轟炸機(B-21)、額外的F-35戰斗機、哨兵洲際彈道導彈和第六代飛機?到目前為止,ABMS的支持度最高。盡管所有的項目都在競爭同樣的資金(包括高超音速和無人機群),核現代化和ABMS是參謀長的兩個最優先事項。此外,空軍部長弗蘭克-肯德爾將ABMS列為他需要重新監督的七個項目之一,以 "提高空軍作為一個機構運作的能力"。
當小查爾斯-布朗將軍成為美國空軍第21任參謀長時,他的行軍命令是 "加速變革或失敗"。當該軍種與國會爭奪它不再需要的舊系統時,它同時正在努力推進ABMS的聯合協同。"為了贏得這場有爭議的高端戰斗......我們需要加快我們今天的關鍵技術的應用。我們不能減緩我們在ABMS上的勢頭。我們的作戰人員和指揮官必須以互聯網的速度作戰才能獲勝"。
這場數字革命將改變美國及其盟國和合作伙伴的游戲規則。正如早期測試所證明的那樣,ABMS將提供必要的決策優勢,通過為指揮官提供一個清晰、強大和即時的共同作戰圖景,來贏得未來的高速交戰。"我們所展示的......是作戰指揮部首次在相同的數據云架構中,對部隊的姿態做出決定......在幾秒鐘而不是幾天內就能看到結果。"
不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。
圖1 決策優勢理論。
決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。
決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。
信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。
信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。
信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。
決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。
增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。
控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。
雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。
本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:
建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。
建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。
建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。
建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。
美國防部第5100.01號指令要求美陸軍 "進行空中和導彈防御,以支持聯合戰役并協助實現空中優勢"。FM3-01描述了美陸軍專門的AMD部門--ADA對AMD行動的計劃、協調和執行的貢獻,以支持大規模作戰行動中的聯合和陸軍部隊。
防空和導彈防御是直接(主動和被動)的防御行動,以摧毀、消除或降低敵對的空中和彈道導彈對友軍和資產的威脅(JP 3-01)。它包括在陸地、空中、海上以及網絡空間和太空中可能采取的行動。反彈道導彈行動是擊敗空中和導彈威脅的防衛性反空結構的一個關鍵因素。在整個防空框架內,AMD行動通常與其他進攻性和防御性的防空任務相結合。雖然本手冊涉及進攻性反空和被動反空的各個方面,但它側重于主動反空戰術和程序。
FM3-01涉及到今天的作戰環境,它所設想的對美陸軍和聯合部隊的威脅是這些部隊在25年內沒有遇到過的。在這種環境下,反坦克部隊必須適應并準備在一個高度競爭的空域中進行大規模作戰行動。FM3-01為反坦克部隊提供了一個應對未來沖突的理論方法,解釋了反坦克部隊的梯隊如何為陸軍的四個戰略角色做出貢獻:塑造作戰環境、預防沖突、進行大規模地面作戰和鞏固成果。
這個FM3-01版本是以ADA梯隊為單位組織的,而不像以前的版本是以ADA系統的角度來介紹。它介紹了從陸軍航空和導彈防御司令部(AAMDC)到防空空域管理(ADAM)單元的ADA梯隊的作用、功能、基本原則和就業宗旨。它進一步描述了ADA梯隊在當前或近期行動中的AMD部隊行動和交戰行動,并討論了這些行動的持續挑戰。
這個版本引入并定義了新的AMD術語。它還定義了在其他AMD理論出版物中反復使用但從未定義的舊術語。
FM3-01由12章組成:
第1章提供了美陸軍AMD的概述。它介紹了一個新的ADA角色聲明,并確定了五個關鍵的ADA基本能力。它介紹了AMD的基本原則和就業宗旨。它總結了支持聯合和統一陸地行動的ADA行動。第1章重新介紹了短程防空(SHORAD),這是保護機動部隊的一個關鍵因素。本章最后討論了ADA士兵和領導人的培訓。本章中提出了大量的定義和術語的擴展解釋,以方便理解適用于所有ADA梯隊的AMD行動和語言。
第2章從AMD的角度討論了美陸軍行動過程。AMD部隊行動一般包括支持空中和導彈威脅的交戰所需的計劃和準備行動。AMD交戰行動包括執行和評估交戰的所有行動。
第3章涉及作戰環境,重點是空中和導彈威脅,從火箭、火炮、迫擊炮到洲際和潛射彈道導彈,以及它們的通用能力。它還涉及美國部隊可能面臨的來自太空和網絡空間威脅的挑戰。
第4章描述了任務指揮以及與陸軍AMD相關的指揮與控制(C2)。它通過AMD的視角討論了任務指揮的原則。它還介紹了適用的權力和C2要素,以及在進行交戰時的駐地。
第5章至第10章分別討論了AMD作戰框架以及基礎原則和宗旨在ADA梯隊中的應用,從AAMDC到機動旅編隊的ADAM單元。每一章都介紹了各自梯隊的角色和能力、組成和行動--在C2、部隊行動、交戰行動和維持行動方面。
第11章描述了非AMD陸軍部隊對執行AMD行動的貢獻。它總結了C2、計劃和使用以及與空中和火箭彈、大炮和迫擊炮(RAM)威脅有關的交戰考慮。它介紹了關于機動部隊 "毒刺 "小組的使用的理論和行動信息。
第12章概述了ADA數據和通信架構以及美陸軍、聯合和多國AMD要素之間的聯系。
附錄A和B分別介紹了美陸軍AMD戰略組織和系統以及ADA系統(那些通常支持作戰和戰術層面的系統)。
根據目前的理論變化,FM3-01的某些術語被添加、修改或廢除。這些術語的清單在第9頁的引言表1和2中提出。詞匯表包含了所定義的術語。
第x頁的引言圖-1說明了FM3-01的邏輯圖。第x頁的引言圖-2說明了ADA理論出版物的層次結構。
本專著的目的是從防空歷史和空中力量穿透這些防御的工作中提煉出教訓。它從第一次世界大戰、第二次世界大戰、越南、"沙漠風暴 "以及俄羅斯和中國的現代發展中確定了六條經驗。這六條經驗為空軍和地面部隊在未來進行壓制敵方防空(SEAD)和滲透行動的努力提供參考。本專著探討了聯合部隊應如何對待SEAD任務的問題,以及來自陸地領域的部隊是否應在穿透地基防空系統方面發揮更重要的作用。
T.R. Fehrenbach提醒我們注意戰爭的一個持久特征。無論我們的技術變得多么復雜和先進,武裝沖突仍然需要士兵參與。空中力量理論家認為,在未來的戰爭中,人類可能不再需要近距離的暴力對抗,僅靠空中手段就能達到目的。雖然純粹的空戰仍然是一個遙遠的想象,但地面部隊將繼續奮勇向前,與泥濘中的人們一起奪取目標。本專論并不是說空中力量是不必要的;相反,它是至關重要的。空軍的覆蓋面和影響力已經與地面機動密不可分,在最近的戰爭中,空軍已經成為軍隊進攻的必要先導。然而,空中優勢作為地面進展的先決條件的模式可能不再成立了。移動式和便攜式防空系統的擴散,加上危害地面部隊的遠程打擊能力,無論其位置如何,都可能迫使地面作戰先于其空中補充。
本專著討論了聯合部隊在未來應如何進行壓制敵方防空(SEAD)。它考慮了攻擊性空軍和地面防御者之間的斗爭。具體來說,它討論了防空系統的進步已經發展到了美國空軍無法繼續承擔壓制和穿透它們的主要份額的程度。在未來,美國陸軍可能不得不對綜合防空系統(IADS)進行第一輪打擊,為美國空軍開始空中優勢的戰斗打開大門。
海上防空對于地面部隊的機動自由至關重要。在減少對手的防空資產之前,敵人的空軍可以隨意攻擊機動編隊。自從20世紀初早期的飛行者從飛機上投下第一件武器以來,空中力量對現代機動作戰一直是至關重要的。空中和地面防御系統已經發展到這樣的程度,即一支軍隊如果不首先擊敗其競爭對手的空軍就進行攻擊是不可想象的。迅速而徹底地擊敗伊拉克的防空系統并隨后摧毀其空軍,對于聯軍在 "沙漠風暴 "行動中的快速機動和壓倒性勝利至關重要。 以美國空軍為先導,然后是地面機動的SEAD模式是如此強大,以至于美國和北約的競爭對手注意到并進行了調整。今天的綜合防空系統(IADS)是高度網絡化的,相互支持的,并且是分層深入的。 這些防御網絡,再加上遠程彈藥的出現,造成了一個多層面的問題。國際防空系統迷惑了敵方空軍為其地面部隊建立機動空間的能力,同時遠程火力也使這些攻擊部隊受到威脅。先進的IADS與遠程彈藥的雙重困境,要求我們考慮我們目前的SEAD方法是否足夠。
所提出的假設是,聯合部隊應該作為一個密切協調的地面和空中團隊進行未來的SEAD。美國陸軍應該為反應靈敏、強大和機動的防空和導彈防御系統、遠程精確火力、地面發射的反輻射制導導彈(ARGM)和游動彈藥提供資源。
所采用的方法是對SEAD的歷史、理論和學說的研究。它考慮了SEAD從第一次世界大戰到現在的歷史。反擊空中和導彈威脅(聯合出版物3-01)將SEAD歸類為主要的進攻性反空(OCA)任務。其目的是 "通過破壞性或擾亂性的手段使敵方的地表防空系統失效、摧毀或暫時退化。" 美國部隊發展SEAD是為了應對日益復雜和有效的地基防空系統,它與防空的進步有效地共同發展。本專著中的防空歷史有五個主要部分。第一部分討論了第一次世界大戰中的空中力量發展,以及早期空軍能力的提高如何為地面機動提供了機會。一戰中對空襲的反應導致了二戰期間為防止滲透而對空中武裝進行牽制的武器的產生。二戰的戰斗人員完善了一戰中創造的技術,為進攻的空軍和地面的防御者開發了更致命的瞄準系統和改進的彈藥。在越南戰爭期間,越南人民軍(PAVN)采用了密集的防空武器組合,這需要美國裝備和訓練專門的飛機來壓制北越的防御;這是SEAD能力的第一個例子。接下來,該專著回顧了美國在 "沙漠風暴 "行動中對空地戰的運用,以顯示SEAD的有效性,以及它如何為其他世界大國進一步調整以對抗FM100-5中的理論提供了基礎。 第五章考慮了俄羅斯新一代戰爭(RNGW)、中國遠程導彈以及防空武器的擴散以防止滲透。作者將SEAD理論和學說的演變與歷史實例結合起來,說明空軍與IADS之間的競爭是如何發展到今天的高精尖系統的。最后,該專著提出了一個地面部分未來在對抗現代IADS的戰斗中的貢獻模式。
聯合部隊如何進行未來的海空防務行動,對于各軍種在面對未來的國際防空系統時如何整合和合作至關重要。現代國際防空系統對未來的空中行動,以及暗示的地面行動構成了一個重大障礙。國家和非國家行為者對地對空武器的使用加劇了國際防空系統的瓦解問題。它極大地提高了進行海空導彈和滲透敵占區所需的戰斗力水平。阿富汗圣戰者組織在蘇聯-阿富汗戰爭中使用 "毒刺 "導彈,以及最近在烏克蘭上空擊落馬來西亞航空公司MH17航班,都是這些系統的擴散已經超出既定軍隊嚴格使用的例子。在未來的戰爭中,雙方都可能面臨一個連續的國際防空系統和非正規部隊采用的未聯網的防空。聯合部隊必須開發多種方案來擊敗這些系統,并擴大他們的方法,以最大限度地提高靈活性,使空中和地面部隊能夠對由國際防空系統和獨立的地對空武器防御的對手構成眾多威脅。
在面對同行競爭對手的遠程精確火力威脅時,已經提出了很多關于重新加強西方空中優勢的新作戰概念。大多數專家主張采用更加綜合的軍隊方法,以高節奏的方式將多種軍事困境強加給對手。基于網絡協作的有人和無人資產將重新獲得戰斗力和機動能力。這樣一來,對手將被迫根據不確定的選擇做出決策,從而危及其行動結果。這樣一種新模式涉及多域作戰(MDO)概念。
多域作戰可以被描述為在一個領域內利用來自所有領域的傳感器和效應器產生軍事效果的能力,以及將指揮和控制(C2)下方給盡可能低的級別。倡導平臺整合和C2鏈中的輔助性,構成了重新加強部隊靈活性、復原力和反應力的基線。戰區的聯合部隊指揮官(JFC)將作為MDO的協調者。他們將有能力在戰術指揮官之間分配傳感器和效應器以執行專門的任務,在所有領域之間同步效果,并根據需要將任務的控制權下放到戰術邊緣。
這可以通過一個被稱為多域作戰云(MDCC)的包容信息技術和通信(IT & COM)的生態系統實現,形成一個由跨域的可操作傳感器、效應器和C2節點組成的作戰網絡。利用北約的C3分類法,MDCC將提供一種手段,以實現和加強北約國家和合作伙伴的互操作性,從而提高作戰效率。
下文將通過2040年的一個虛構的作戰場景來說明整合和輔助的原則,并強調其在作戰角度和MDCC功能要求方面的結果。
虛構的作戰場景從"空軍保護"開始,在一個國家對其少數種族進行了令人無法接受的突襲之后,隨后轉變為空中前沿基地作戰(A2BO)。聯合國(UN)授權北約進行一場軍事行動。北約部隊包括一個擁有新一代戰斗機(NGFs)和遠程航母(RCs)的下一代武器系統(NGWS)中隊,一些增強型傳統戰斗機,一個C2機載平臺,加上光學、雷達和通信衛星群,油罐車,網絡資產和地面特種部隊。一個帶有兩棲部隊的航母戰斗群也加入了該作戰區。
關于空軍保護,目標是防止任何空襲和對少數民族聚集地的騷擾進行反擊。在這個階段,聯合部隊司令部決定將空軍指定為受援部分,受援部分是特種部隊和海軍。因此,聯合部隊空軍部分指揮官(JFACC)負責戰術層面上所有空中平臺的指揮。
為了應對襲擊,JFACC需要一個由多領域傳感器輸入(空中、陸地、太空和網絡)建立的完全認可的畫面。探測特定社交網絡上的公眾騷動,結合特種部隊和天基資產的實時情報監視偵察(ISR),就可以從NGWS在動亂地區上空迅速展示武力。此外,任何支援該國家并呼吁對少數種族實施暴力的社交網絡都將受到網絡反擊,使其無法運作。
在行動的這一階段,MDCC是基于共享的開放式IT和COM架構,將所有可用的傳感器互聯起來形成包容性的助推器。它正在提供一個由實時ISR收集和過去情報融合形成的共同畫面。這樣一來,MDCC提供了一個高水平的態勢感知能力,以便根據JFC的指令,從JFACC到未來作戰航空系統(FCAS)任務指揮官層面,可以適當地開發和提出軍事行動選擇。
該突襲國家向少數種族聚集地發射了幾枚地對地中程導彈,造成了人員傷亡,局勢迅速惡化。此外,該國家啟動了他們所有的綜合防空系統(IADS),特別是遠程導彈。根據新的聯合國決議,北約立即決定改變其軍事態勢。聯盟下令破壞該國家的綜合防空系統,同時確保北約的戰略主動權,以便在以后需要時進行兩棲攻擊。
總體目標是堅定地應對襲擊,同時保持對升級態勢的控制。JFC收到來自戰略層面的指令,進行空中前沿基地作戰(A2BO),以消除該國家的空軍基地,阻礙其奪取少數種族聚集地控制權的 "既成事實"戰略。這些A2BO的目的是擴大空軍的行動選擇,同時減輕所有航空資產在脆弱作戰基地的風險。A2BO還必須提供更大的靈活性和超越該國家行動的能力。在戰斗附近,分散的空中作業點(AOL)可能有助于空中打擊,但也將有助于對方反介入空中阻斷(A2/AD)。
在從JFC分配額外的資產后,JFACC現在負責用地面、海基NGWS和來自防御與干預護衛艦(FDI)的巡航導彈對該國家空軍基地進行交戰。然而,根據局勢演變和對航母戰斗群可能出現的突發威脅,JFC在JFACC和聯合部隊海上組成部分指揮官(JFMCC)之間保持NGWS和FDI的反應性和動態重新分配。因此,JFMCC在與JFC立即同步后,將能夠向JFACC提出實時空中任務指令(ATO)或空域控制指令(ACO)的變更要求。
因此,這些由北約領導的持久前線空軍必須能夠使用彈性的、低特征的、低維護的、大量的有人和無人駕駛航空資產進行防御性和進攻性反空作戰。其目的是通過建立更加分散的、有彈性的和難以定位的AOL,形成針對A2/AD能力的效果,而不存在力量集中的相關脆弱性。這支部隊包括NGFs、各種RCs(包括傳感器和效應器)、增強型傳統戰斗機和空中戰術運輸機,作為戰區內武器、無人平臺、燃料和后勤支持的運輸工具,所有這些都通過動態利益共同體運作。根據AOL和NGF之間的通信狀態,特定的 "多域戰術功能 "將被委托給駕駛艙,以允許FCAS任務指揮官承擔 "動態目標 "和 "時間敏感ISR "的控制權。由于戰區的延伸,NGF加上衛星群將從擴展的態勢感知中受益,并在需要時承擔更廣泛的控制責任,與C2機載平臺上的 "前線控制小組 "已經承擔的責任并列。
將A2BO與JFACC和JFMCC的網絡結合起來,可以在MDCC內實現 "網絡可選系統"。這種 "網絡可選系統 "在可用時利用 "集中式網絡",并在與上級當局隔絕時在戰術邊緣的可用平臺中形成 "機會網絡"。在這里,MDCC是這種復雜MDO的助推器。一方面,MDCC整合了從JFC到戰術指揮官的所有決策過程(從計劃到評估再到執行),包括部隊分配和效果同步,為跨領域的動態支持/支援框架鋪平了道路。另一方面,它提供了所有指揮官之間的輔助性,允許在盡可能低的級別上授權C2,如AOL和NGF。
在成功的A2BO之后,北約希望利用這一情況,并指揮開展兩棲行動,以充分保障少數種族的安全。在這次行動中,JFMCC被指定為被支持的司令部,空軍和特種部隊則是被支持的司令部。所有平臺都有可能在海軍的授權下用于兩棲作戰。MDCC將使JFMCC能夠將所有領域的傳感器和平臺整合到大型海軍計劃演習艦隊中,并在需要時將C2授權給最佳海軍平臺指揮官。
這個虛構的場景說明了通過所有決策過程進行整合和輔助的必要性。這樣做有助于形成一個可靠的技術環境,以高作戰節奏產生全球戰斗力,整合所有領域的機動性,而不存在力量集中的弱點,并因此給對手帶來多種困境。這種技術環境是由MDCC提供的,它可以被描述為一個 "定制網絡系統",包括從后方到邊緣的所有可用平臺。因此,如前所述,MDCC是動態分配部隊和分配C2的MDO助推器。
作為新技術的設計者和提供者,工業界隨時準備支持武裝部隊塑造MDO作為一種新的作戰模式。考慮到利害關系,兩者之間強有力的伙伴關系對于確保徹底掌握需求和設計MDCC而不過早選擇某些技術方案至關重要,因為這將阻礙未來的MDO。在作戰概念和技術解決方案方面,這一旅程仍處于早期階段。只有攜手合作才能應對未來的挑戰。
Brigadier General準將(退役)(法國空軍)1987年畢業于法國空軍學院,2003年畢業于美國空戰學院。他有3000個飛行小時(美洲虎、幻影2000D),執行過122次戰爭任務,并作為總部官員擁有C2專業知識。他于2021年加入空中客車公司,擔任FCAS多領域行動的高級運營顧問。
Thomas Vin?otte上校(退役)(法國空軍)于1987年畢業于法國空軍戰斗機飛行員,2003年畢業于戰爭學院。他有超過3300個飛行小時(美洲虎、幻影F1CR、幻影2000 RDI和幻影2000-5),執行了83次戰爭任務,包括一次彈射,并作為總部官員擁有C2專業知識。他于2019年加入空中客車公司,擔任FCAS高級運營顧問。
Laurent le Quement于1996年畢業于阿斯頓大學。在2010年加入空中客車公司的發射器部門之前,他曾在汽車和轉型咨詢部門工作。在2018年成為FCAS的營銷主管之前,他在業務發展和創新方面擔任過許多職位
戰爭的特點正在發生根本性的變化,這些變化對空中力量的影響尤其深遠。多域整合為空中力量和越來越多的空間力量在未來幾年內的一系列轉變做好了準備,這些轉變不僅與技術有關,而且與空軍組織和進行規劃和行動的戰略和作戰概念有關。
迫在眉睫的、不可避免的多域作戰似乎是空中力量的一個明顯的邏輯演變,它可能會引發這樣的問題:為什么我們沒有更早地沿著這些思路思考和發展作戰概念?畢竟,對優化、作戰協同和武力經濟的尋求在空中力量中是持久的。可以說,多年來,空軍及其相關部門事實上已經嘗試以某種方式或形式在多域背景下運作。然而,在整個部隊甚至整個戰區范圍內,為多域作戰(MDO)提出的早期作戰概念(CONCOPS),在多域作戰空間產生作戰協同和效果的努力是前所未有的。
諸如聯合全域指揮與控制(JADC2)這樣的結構闡述了一個作戰云賦能的未來戰爭,其中任務指揮和戰斗空間管理被有效地隱含在整個戰斗部隊中,觀察-定向-決定-行動(OODA)環路被加速到邊緣計算的速度。傳感器和通信網絡決定了空軍承擔幾乎所有傳統任務的功能能力。數據和數據流將變得比空軍傳統上對機動自由的依賴更加重要,并且有效地成為其戰略推動者。空軍力量將越來越多地與網絡而非平臺、數據而非武器系統有關。
任務的成功和失敗一直是由指揮官和作戰人員可用的態勢感知水平決定的。在新興的作戰模式中,空軍以近乎實時的速度收集、處理和利用數據的能力有效地使數據成為最大的工具和最令人垂涎的武器。收集、處理、匯總、分析、融合和傳播大量的數據、信息和知識將需要像未來有爭議的戰場上的事件速度一樣快。目前正在進行的戰爭數字化將導致在未來幾年內將 "大數據"廣泛用于作戰過程。空間領域將在實現全球范圍內連續的、有保障的和安全的通信方面發揮顯著的作用,除了更傳統的遠程監視用途外,它還被用作這種通信的運輸層。
對信息主導地位的追求將以新的和不確定的方式在物理、電磁和虛擬世界中擴展競爭的連續性。隨著空軍對帶有嵌入式人工智能(AI)工具和應用的作戰云的使用,新的風險、脆弱性和故障點將被引入。本出版物收集了來自世界各地領先的思想家的文章和見解,對多域整合和空中力量的信息優勢框架和概念的一些最相關問題提供了深入的觀點。這里的觀點和討論反映了當前對各種戰略、指揮和作戰層面的思考,讀者會發現這些思考對他們更廣泛的理解很有幫助。
這里介紹的專家展望本身既不樂觀也不悲觀,正如我們所期望的那樣,所確認的是各種新技術促成的 "飛躍"機會正在地平線上形成,但其有效利用帶來了復雜和破壞性的新挑戰。在強調其中一些關鍵的挑戰和更好地理解這些挑戰的必要性的同時,正如通常的情況一樣,沒有快速的解決辦法或現成的解決方案。然而,有令人信服的理由認為,今天所預見的眾多挑戰似乎在理論上和技術上是可以克服的,有些甚至在未來幾年內就可以克服。在未來存在的許多不確定因素中,可以肯定的是,空中力量將被徹底重新定義。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
今天的軍事行動中使用的防御系統并沒有為現代技術所能發動的攻擊做好準備。使用無人機、電子戰和其他手段造成的破壞在最近的交戰中被證明是非常致命的,如敘利亞、亞美尼亞和烏克蘭。有現成的技術以及其他需要額外研究和開發的技術,可以幫助保護北約部隊免受這些威脅。為了做好現代戰場的準備,北約部隊必須改變他們的訓練和裝備,否則將面臨巨大的減員風險。本文將探討混合戰場的威脅,并就如何更新戰術以防范這些威脅提出建議。隨著我們的部隊重新將重點從反叛亂行動轉向同行競爭者,我們的訓練和行動也需要發展。僅僅塵封冷戰時期的野戰手冊和恢復訓練中心的高強度場景對于混合戰場是不夠的。建議的變革可以而且應該迅速實施,以擊敗這些現有和新出現的威脅。
隨著新威脅的出現,現代戰場正在繼續演變,產生了被稱為 "混合戰爭"的情況。在諸如敘利亞、沙特阿拉伯、亞美尼亞和烏克蘭的沖突中,武器正在被引入或以新的方式使用。無人機正在集體或單獨進行攻擊,作為彈藥投送系統或飛行炸彈[1]-[3]。電子戰正經歷著信號干擾和定位系統(PLS)欺騙的重新崛起[4], [5]。隨著僵尸網絡傳播錯誤信息和針對關鍵基礎設施的網絡攻擊,信息戰正變得越來越突出[6]。鑒于這些威脅,北約部隊必須重新思考他們的防御措施,以保護他們的戰斗力并保持他們的機動自由。
目前的軍事實戰手冊充滿了為昨天的戰場設計的技術和戰術。偽裝設計主要是為了將部隊隱藏起來,不被人看到。戰術障礙物主要集中在對載人地面車輛和人員進行渠化、轉向或阻擋。信息傳播停留在傳單和擴音器廣播等舊媒體上。在這些舊戰術的基礎上,再加上二十年的戰場優勢,使得部隊對控制其電磁輻射不以為然。同行競爭者和等級較低的對手都準備使用往往具有不對稱優勢的技術,而且成本相對較低。如果我們不調整我們的防御措施以適應這些新的威脅,那么我們目前的軍事優勢就會消失殆盡。
為了保護我們的部隊,我們必須專注于最大的威脅。第一次世界大戰前,在頭頂上挖掘戰斗陣地的做法并不常見,因為大炮并不是后來的傷亡制造者。在這種情況下,戰術的演變是為了應對威脅。據報道,在烏克蘭和亞美尼亞-阿塞拜疆的戰斗編隊被無人機部隊迅速摧毀,這表明我們最大的威脅之一是瞄準系統。因此,偽裝戰術需要不斷發展,以對抗基于人工智能(AI)的瞄準系統。保護我們的部隊還可能涉及建立定位、導航和定時(PNT)防御系統,以逃避PNT制導的彈藥。工程方面的努力可能會轉移到建造側重于空中和地面無人機的障礙物上。需要作出新的努力來減少電磁輻射,以保護其不受測向資產和干擾系統的干擾。最后,信息戰將需要通過防止泄露情報和欺騙在線數據挖掘系統得出不正確的結論來關注行動安全和欺騙。在下面的章節中,我們將對各種技術進行研究,以提出保護我們部隊所需的潛在行動。