在不確定性下進行的決策序列出現在各種環境中,包括交通、通信網絡、金融、國防等。為序列決策問題找到最優決策策略的經典方法是動態規劃;然而,由于維度詛咒和建模詛咒,它的用處有限,因此許多現實世界的應用需要另一種方法。在運籌學中,過去的 25 年中,使用近似動態規劃 (ADP)(在許多學科中被稱為強化學習)來解決這些類型的問題越來越受歡迎。通過這些努力,成功部署了 ADP 生成的卡車運輸行業駕駛員調度、機車規劃和管理以及制造中高價值備件管理的決策策略。在本文中,我們首次回顧了 ADP 在國防背景下的應用,特別關注那些為軍事或文職領導層提供決策支持的應用。本文的主要貢獻是雙重的。首先,我們回顧了 18 個決策支持應用程序,涵蓋了部隊發展、生成和使用的范圍,它們使用基于 ADP 的策略,并針對每個應用重點介紹了其 ADP 算法的設計、評估和取得的結果。其次,基于所確定的趨勢和差距,我們討論了與將 ADP 應用于國防決策支持問題相關的五個主題:所研究的問題類別;評估 ADP 生成策略的最佳實踐;與當前實施的策略相比,設計漸進式策略與徹底改進策略的優勢;情景變化時策略的穩健性,例如從高強度沖突到低強度沖突的轉變;以及尚未在國防中研究的,可能從 ADP 中受益的順序決策問題。
關鍵詞:序列決策問題、馬爾可夫決策過程、近似動態規劃、強化學習、軍事
許多決策不是孤立地做出的;觀察到以前不確定的新信息;鑒于這些新信息,將做出進一步的決策;更多新信息到來;等等。這些類型的決策被恰當地描述為順序決策問題、不確定性下的順序決策或多??階段決策問題,其特點是決策對未來獲得的回報或產生的成本、未來決策的可行性以及在某些情況下的外生時間對決策的影響[1],[2],[3]。本質上,“今天的決策影響明天,明天的決策影響下一天”[2, p.1],如果不考慮決策之間的關系,那么所取得的結果可能既沒有效率也沒有效果。
自20世紀50年代以來,人們就知道這種順序決策可以被建模為馬爾科夫決策過程(MDP),它由五個部分組成:一組候選行動;選擇行動后得到的獎勵;做出決策的歷時;狀態,即選擇行動、確定獎勵和告知系統如何演變所需的信息;以及定義系統如何從一個狀態過渡到下一個狀態的過渡概率[4]。給定一個MDP,目標是找到一個決策策略--"一個規則(或函數),根據現有的信息確定一個決策"[3,p.221],也被稱為應急規劃、規劃或戰略[2,p.22]--作出的決策使得系統在給定的標準下表現最佳。尋找最優決策策略的經典方法是通過動態規劃(DP)解決貝爾曼的最優方程[5]。在國防背景下,DP已被應用于確定各種連續決策問題的決策策略,包括艦隊維護和修理[6]、基本訓練安排[7]、研究和開發項目選擇[8]、軍事人員的去留決策[9]以及醫療后勤資產調度[10]。
盡管DP為解決順序決策問題提供了一個巧妙的框架,但它在許多現實世界的應用中的作用有限,這一點早已得到認可。這是由于維度的詛咒[5]--"隨著變量(或維度)數量的增加,問題的難度異常快速增長"[11]--以及建模的詛咒,即需要一個明確的模型來說明系統如何從一個狀態過渡到下一個狀態[12]。雖然今天的計算機可以解決有數百萬個狀態的順序決策問題[13],但許多問題仍然太大,無法通過經典的DP方法有效解決。此外,通常的情況是,狀態之間的過渡概率根本不知道。具有這些特征的順序決策問題貫穿于整個國防領域,跨越了軍力發展、生成和使用的范圍。比如說:
在軍力發展中,關于能力投資的決策可能多達數百項,通常在業務規劃周期內的固定時間進行,并且每年重復。決策者必須考慮所選擇的投資的短期和長期影響,以及未選擇的投資,同時考慮到未來軍事合同的不確定性,聯盟和對手能力的變化,國防特定通脹,等等。
在軍力組建中,決定招募多少名軍人和軍士,以滿足各種軍事職業的要求,同時尊重國家的授權力度,并考慮到各種不確定因素,包括每年的退休、晉升、自然減員等等;
在軍力雇傭范圍內,在大規模疏散行動中決策,如重大海難期間,將哪些人裝上直升機,同時考慮到包括天氣變化、個人健康、直升機故障等不確定因素。
由于這些挑戰,在這些類型的問題中,通常不可能找到一個最優的決策策略,需要采用其他的方法,重點是找到一個好的或接近最優的策略。第一個方法是由Bellman和Dreyfus[14]提出的,在接下來的幾十年里,包括運籌學、控制論和計算機科學在內的各個領域都發展了更多的方法,詳細的討論和相關的參考文獻列表見Powell[15]。此外,數學規劃領域,特別是隨機規劃,已經開發了復雜的算法來解決高維決策和狀態向量的問題,這在現實世界的順序決策問題中經常看到[16]。
在運籌學中,這些方法以各種名義被開發出來;尤其是神經動態規劃、自適應動態規劃和近似動態規劃(ADP)。如圖1所示,這些方法在過去的25年里越來越受歡迎,從1995年到2021年4月9日,共發表了2286篇文章,年發表率從一篇文章增長到每年近250篇。最近,ADP--"一種在模擬中做出智能決策的方法"[17,p.205],其中 "產生的策略不是最優的,所以研究的挑戰是表明我們可以獲得在不同情況下穩健的高質量決策策略"[18,p.3]--已經成為更常用的術語[3]。作者們最近也開始使用強化學習這個標簽,最近出版的《強化學習和最優控制》一書[19]和即將出版的《強化學習和隨機優化:隨機決策的統一框架》一書[20]就是證明。值得注意的是,ADP生成的決策策略已經成功部署到工業領域,包括卡車行業的司機調度策略[21],[22],[23], 機車規劃和管理[24],[25], 以及制造業內高價值備件的管理[26]。
圖1. 1995年至2021年4月9日期間每年發表的ADP相關文章的數量。
在這篇文章中,我們首次回顧了ADP在國防背景下的應用。特別是,我們專注于軍事運籌學領域的同行評議文獻;也就是 "應用定量分析技術為軍事[或民事]決策提供信息"[27]。本文的主要貢獻有兩個方面。首先,我們回顧了18個決策支持應用,這些應用跨越了部隊發展、生成和使用的范圍,使用了基于ADP的策略,并為每個應用強調了其ADP算法是如何設計、評估和取得的結果。其次,基于所發現的趨勢和差距,我們討論了與將ADP應用于國防決策支持問題有關的五個主題:所研究的問題類別;評估ADP生成策略的最佳做法;與目前實行的策略相比,設計策略是漸進式的,而不是完全徹底的;隨著情景的變化,策略的穩健性,如沖突中從高強度到低強度的轉變;我們還建議提出國防內部可能受益于ADP生成策略的其他順序決策問題。
本文的其余部分組織如下。第2節提供了相關的背景信息。第3節介紹了進行此次審查的方法。第4節和第5節是審查的主要內容。第4節回顧了18個已確定的ADP在國防領域的決策支持應用,第5節介紹了與在國防領域應用ADP相關的五個主題。最后,第6節給出了總結性意見。
在本節中,我們介紹了通過上述文獻搜索確定的18篇基于應用的文章的摘要。表2列出了每項研究,其應用領域,以及所實施的ADP策略和算法的特征。所列的特征主要集中在第2.3節中討論的那些特征,即:
決策策略的類型--短視CFA、PFA、VFA、DLA或混合。
價值函數近似策略--查詢表、參數化或非參數化。
價值函數模型--層次聚合、線性結構、NN等。
算法策略-狹義搜索、數學規劃、隨機規劃、AVI、API。
更新價值函數模型參數的方法--時差學習、LSTD、LSPE、SVR,等等;
步長--常數、廣義調和、多項式等。
對于所列出的一些文章,沒有提供足夠的信息來確定作者是如何處理某些特征的。在這種情況下,該特征被列為未說明。此外,有些文章中的某些特征并不適用。在這種情況下,該特征被列為不適用。下面給出了進一步的細節。研究報告分為三類--軍力發展、軍力組建、軍力使用,然后按時間順序排列。
表2. 1995-2021年期間ADP在軍事作戰研究中的應用。文章按橫線分為三組:部隊發展(上組)、軍力組建(中組)和軍力使用(下組)。
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構
今天,人們普遍認為,信息就是力量,雖然這個眾所周知的公理看起來很老套,但近年來,聯合部隊在信息戰(IW,information warfare)環境中經歷了快速變化。軍事資產被賦予聯合部隊或其組成部門,在網絡空間領域的新興工具和作戰云概念的支持下,越來越多連接在部隊范圍或部門間產生。在幾乎任何人都可以進入的信息環境中,實現主導地位目標,在一個跨越物理世界和虛擬世界的新興超級連接現實中面臨新的復雜挑戰。聯合部隊在進攻和防守方面都沒有單獨的責任或權力,這種二分法在新出現的作戰環境中尤為突出,在這種情況下,越來越多的行為者和參與者變得越來越明顯。因此,在聯合和分布式跨域作戰中,未來的網絡攻擊方法將需要從根本上改變和重新調整,以響應聯合部隊作戰空間性質和范圍的根本變化。
聯合部隊調整系統、網絡和作戰方法以在未來的競爭環境中實現優勢,需要對諸如 "信息環境 "和 "信息戰 "本身等分類法所推斷的內容進行重新概念化。即使在今天,我們也應該問自己,什么是IW,它與聯合部隊的傳統軍事行動和活動有何不同,以及它將如何影響全域指揮和控制結構?在為未來建立一支靈活而有彈性的戰斗部隊(包括網絡空間領域)的更廣泛努力中,網絡攻擊的定位是什么?這些都是令人困惑的問題,必須考慮 "權力"的重要因素是如何因信息革命而發生變化的。重新思考當今世界的大戰略是理解聯合部隊必須在理論、規劃和行動方面調整其未來方法的關鍵。越來越多的人以新的和新穎的方式測試和使用IW,聯合部隊使用IW的頻率和復雜性也越來越高,且這種情況只會加快。
信息中蘊含著巨大的力量,雖然 "傳統 "的軍事方法強調并尋找 "新 "的IW效果,但這些可能并不反映聯合部隊的最佳解決方案,也不能提供必要的優勢,因為網絡空間與計劃和作戰周期的融合正在進行中。IW的范圍、性質和特點已經擴大,然而IW在戰術、技術和程序(TTPs)以及大戰略本身的層面上仍然是一個模糊不清、定義不明的概念。信息革命導致了新的組織和行為者的形成,以及商業甚至非國家行為者在聯合部隊 "虛擬 "作戰領域中的重要性日益增加。因此,越來越多的人需要把這些在信息環境和網絡空間范圍內活躍的、最終影響到聯合部隊如何成功執行任務的、日益增長的、不同的利益相關者和行為者集合起來。
變得更有活力和反應能力的目標將要求聯合部隊在其互動和影響或被影響的信息環境中,產生一個更 "真實 "的IW威脅和風險的戰略和行動畫面。安全模式從軍事主導的格局轉移到一個新的格局,這個格局更加分散,跨越了更大深度和廣度的利益相關者和合作伙伴,這說明了在戰略和作戰層面上,網絡攻擊具有不連貫性。要真正理解戰略和作戰環境中正在發生的變化,關鍵是要理解近年來國家權力結構中發生的巨大變化。具有諷刺意味的是,很少有一個正式的政府部門或機構或作戰單位只關注信息力量,負責控制和分配這種權力。然而現實情況是,信息力量被稀釋在一系列的機構和組織中。
隨著聯合部隊向跨領域綜合作戰能力的轉變,這些能力本質上是由信息領域促成的,而信息領域從本質上講是一個不透明的領域,模糊了物理世界和虛擬世界,因此越來越需要在與空戰或陸戰相同的水平上認識IW。
試圖現在聲稱或圍繞什么是信息力量的要素設定界限,對聯合部隊和類似的其他部隊來說,都將是徒勞的。這有令人信服的理由,即處理分類學和組織關系,以及無法為IW任務設定明確的界線和資金。針對越來越多的政府和軍事機構的任務,只會阻礙一個連貫的、綜合的國家信息主導戰略的發展,在這個戰略中,整個軍隊,特別是聯合部隊是多個組成部分中的一個。在過去,聯合部隊或其組成部分的作戰C2僅由 "他們 "各自的指揮部負責,他們有自己的通信系統,但現在情況不一定如此。例如,問一下,誰在戰略層面上控制著信息力量和信息資源?如果不是聯合部隊,那么聯合部隊怎么可能成為IW的關鍵C2機構?
如果反擊敵對勢力的行動是海陸空部隊的任務,那么影響 "他們 "行動的網絡攻擊的性質和范圍已經擴大,他們今天將如何處理這些任務?戰斗網絡的設計是可靠的、有彈性的和嚴格的,在某些情況下,它們是唯一的通信手段,但在多領域背景下,敵對勢力為了破壞、降低或延遲今天的行動,還可以在許多方面進行網絡攻擊,例如物流和供應鏈。隨著聯合部隊向綜合跨域作戰能力的轉變,這些能力本質上是由信息領域促成的,而信息領域的性質是不透明的,模糊了物理世界和虛擬世界,因此越來越需要在與空戰或陸戰相同的水平上認識IW。
這一點尤其正確,因為大多數聯合部隊的行動預計將發生在高度競爭和分布式的環境中,在這種環境中,IW將是競爭空間的一個固有特征。然而,隨著預算的限制,威脅的增加,以及更多的行為者出現在這些空間中,聯合部隊的指揮官發現他們處于一個關鍵的決策點。聯合部隊將需要產生新的方法、手段和目的來快速處理大量的信息,并與更多的合作伙伴、客戶和這些信息資源和數據庫的消費者一起這樣做。作為綜合布線的一部分,信息管理、連接和流動將成為核心任務要素,聯合部隊將需要向一個更加綜合和相互依存的現實轉變,以便將信息領域新的關鍵作戰要素和層次納入其規劃和作戰周期。
IW的范圍、性質和特點已經擴大,但在戰術、技術和程序(TTPs)以及大戰略本身的層面上,IW仍然是一個模糊不清、定義不明的概念。
對于聯合部隊來說,解決其重點是否應該更多放在進攻性或防御性IW上的問題將是至關重要的。許多人同意,聯合部隊應該發展并保持進攻性和防御性IW能力的平衡,但前者有更多的限制。最終,聯合部隊將需要通過明確其未來的IW目標、能力和目的的范圍來解決這些問題,考慮長期的戰略需求,但要理解什么是對其在短期內有效執行作戰任務而絕對必要的戰術。
信息戰活動將越來越多地使用或依賴商業網絡,或以重要方式與商業網絡互動。這些網絡和工具將阻礙聯合部隊利用傳統的電子戰工具和網絡戰行動。作戰規劃者將需要在IW方面與全新的參與者、網絡、系統和其他因素進行斗爭。聯合部隊將不再在真空中規劃任務,而是越來越需要了解、意識到并與更多的機構和商業行為者進行行動協調。這將是一個非常復雜的挑戰,需要制定必要的合作框架,以允許聯合部隊與情報機構、第三方后勤供應商、聯盟伙伴的各種部隊元素等進行有效的協調和信息流動。
我們可以從很多方面來考慮影響IW未來方向的因素。首先,IW是否存在真正的作戰要素?如果有,誰擁有它,它的控制和影響范圍是什么?任何聯合部隊的IW戰略都不應該只是國家權力工具的一個子集,而應該與之完全融合,跨越所有領域,包括陸地、海洋、空中和太空。隨著聯合部隊學會更無縫地同步效果,對信息環境的支配將成為其整體成功的關鍵。IW將需要從規劃開始就嵌入到所有的活動中,而不是在最后才 "添加 "或孤立地規劃。聯合部隊將需要研究它打算產生什么效果,然后為此選擇適當的武器或行動。從理論上講,真正的跨領域的全方位瞄準應該提供一種可供選擇的動能效果,甚至是純粹的信息效果,作為備選方案。
這將如何影響聯合作戰環境中的C2,以及在認識到信息戰的發展現實、范圍和需求以及所需能力的情況下連接作戰力量的目標是至關重要的。要問的硬問題是:"我們到底在什么方面不能控制?在IW方面,我們到底不能控制什么?在這里,我們需要考慮外國和國內團體網絡行動日益增長的作用和重要性,以及網絡攻擊實際上是一個轉型的概念而不是一個固定的概念。IW不能被孤立,需要分布在安全和情報架構的所有元素中,聯合部隊與之互動并共同運作。新的分類法再次證明了這種方法的必要性。例如,與其把活動稱為IW,為什么不把它們僅僅標為行動?將信息作為力量要素或武器使用并不新鮮,盡管它是聯合部隊指揮官武庫中相對較新的工具,但如果戰場準備得當,這也是一種需要使用的武器,就像其他工具一樣。
信息時代不僅承諾在傳感器和射手、有人駕駛和無人駕駛車輛之間實現超級連接,而且在更廣泛的范圍內,包括后勤、情報和平民本身,因此,在向前發展的過程中,聯合部隊在IW環境的能力規劃方面應該遇到什么?聯合部隊在多領域或全領域作戰中實現信息優勢的目標,將需要在網絡武器中使用復雜的新方法和工具,來作為更廣泛的信息資源和信息力量生態系統的一部分。聯合部隊進行的網絡攻擊將需要與合作伙伴進行更密切的協調,例如,開展欺騙和網絡行動,甚至與假新聞和宣傳活動。
像勒索軟件這樣的威脅將在一端延伸到供應鏈伙伴,另一端延伸到有意識形態動機的非國家行為者。這種將信息環境分成越來越小的子群體的做法,為試圖在完全真空的情況下發展網絡武器創造了巨大的挑戰,對于聯合部隊和一個國家擁有的其他力量工具來說也是如此。事實證明,并且將在未來幾年內繼續強調,IW對于聯合部隊作戰和C2的有效性至關重要,尤其是在作戰云支持的環境中。未來軍事力量的部署和使用將要求聯合部隊的規劃者和作戰者更多地了解情況,更多地進行合作,更多地依賴信息環境中的合作伙伴,如果他們要超越傳統的 "內部 "方法并產生最佳的IW效果解決方案。
作者
埃德溫-"利"-阿米斯蒂德(Edwin “Leigh” Armistead)博士是一名美國退役海軍軍官,他撰寫了關于信息作戰(IO)的博士論文,并撰寫/編輯了關于這一重要主題的三本書。2006年,他參與建立了國際網絡戰爭與安全會議(ICCWS),//www.academic-conferences.org/conferences/iccws/ ,這個年度活動為該領域的學者、研究人員和從業人員提供了一個網絡平臺和論壇,以討論、探索和發展信息戰爭與安全的理論和實踐方面。他還是第9.10工作組(ICT在和平與戰爭中的應用)的副主席和《信息戰雜志》(JIW)的主編--這是美國唯一的雙盲、同行評審的信息戰(IW)學術雜志。
在加拿大國防研究與發展部(DRDC)05da聯合情報收集和分析能力(JICAC)項目下,本科學報告提出了創新貢獻,為作戰提供先進的情報收集任務支持,作為情報需求管理和收集管理(IRM/CM)能力的一部分。它報告了新型收集任務優化工具的設計,旨在支持收集管理人員處理復雜任務和支持收集資產設施。它總結了新的研究和開發情報收集概念和自動決策支持/規劃能力,以支持/建議收集經理有效和高效的資源分配。以多衛星收集調度用例問題為重點,簡要報告了導致快速、自動和優化收集任務的新技術解決方案概念,提供服務水平的改善和增強及時的態勢感知。從人工智能和運籌學中借用的基本概念,目的是在各種任務、機會、資源能力、時間和成本約束下實現收集價值最大化。報告總結了技術成果,描述了新的快速、自動和優化的收集任務解決方案和原型推薦器,以安排真實/虛擬的多衛星星座。它應對了一些缺陷和挑戰,如短視(以單一任務為重點)或臨時性的情報收集任務分配方法,不適合集中式/分布式的開放和閉環資源管理方法或框架,以確保靜態/動態規劃或處理約束的多樣性/差異性和不確定性管理。本報告還旨在向加拿大軍隊情報指揮部(CFINTCOM)、空間總督(DG SPACE)、加拿大聯合行動指揮部(CJOC)和主要的軍事聯合情報、監視和偵察(JISR)利益相關者提供信息。
本科學報告提出了適用于天基情報、監視和偵察的多衛星情報收集調度問題的新型收集任務技術概念和技術發現。這項工作與雷達衛星星座任務(RCM)項目的后續舉措和加拿大軍隊(CF)在北極和北方的持久性聯合情報、監視和偵察方面的一些優先事項相吻合,以便及時提出增強情報收集任務的解決方案和工具。它提出了新的科學和技術方法,為低密度、高需求的可部署收集資產提供近乎最佳的情報收集。
針對適當的情報、監視和偵察(ISR)應用領域的具有成本效益的天基情報收集任務,對發展適當的國防情報需求管理和收集管理(IRM/CM)能力至關重要。因此,收集管理,特別是收集任務分配,對于保持加拿大領土、空中和海上領域的準確、及時和持久的態勢感知至關重要。典型的收集管理要求包括在資源有限的情況下進行適應性和響應性收集(CFINTCOM);收集任務分配;規劃執行;傳感器組合優化;支持聯合ISR(JISR)資產的動態執行新任務(CJOC);實時收集規劃以及有效的傳感器提示(DG SPACE),等等。最終的目的是有效地彌補信息需求和信息收集之間的差距,最佳的資源管理主要是由人員短缺、有限的收集任務自動化、成本效益、資源限制和低密度高需求的收集資產(衛星)在一個時間限制的不確定環境中的發展。通過多衛星收集調度問題(m-SatCSP)開展北極情報和監視的基于空間的圖像情報(IMINT),代表了一個典型的相關使用案例。
為處理情報收集任務的缺陷和挑戰而提出的解決方案[1]有很多。最近關于收集任務,特別是多衛星圖像采集調度的公開文獻,在 "多異質衛星任務的收集規劃和調度:調查、優化問題和數學規劃公式"[2]和 "QUEST--多衛星調度問題的新二次決策模型,計算機與運籌學"[3]。以下是對擬議方法的主要局限性的簡要總結。讀者可以參考后面的出版物[2],[3]以了解更明確的細節。基于低密度高需求的集合資產為前提,一般的問題在計算上是困難的。大多數研究貢獻主要限于同質衛星和單一星座情景,主要處理簡單的觀測點目標("點 "區域)任務,并提出新的任務聚類和預處理策略以減輕計算復雜性。已呈現的工作大多忽略了大面積覆蓋的復雜性、及復雜的任務結構、聯合價值任務構成、觀測結果和成像機會質量的不確定性以及常見的操作約束。這些制約因素包括最小任務覆蓋閾值、相互任務排斥、任務優先級和成像成本。目前的采集資產任務分配方案大多提供基于短視啟發式的策略,以規劃或分配采集器任務。在實踐中,最好的資源往往是短視推薦或局部選擇,以完成一個特定的任務,而忽略了其他約束條件(例如,為其他采集請求服務的時間窗口和成像機會)、追求的全局目標和持續進行的部分規劃解決方案質量。因此,ISR資源分配和動態重新分配是臨時性的,因為它們是以單一任務為中心的,而不是采用更全面的任務觀,關注整體任務,更好地利用替代機會,更有效地滿足整體收集要求。擬議的基本收集任務的部分解決方案沒有提供一個健全的資源管理框架,以確保適應性動態規劃或處理約束的多重性/多樣性和不確定性管理。它們也未能展示有價值的分布式規劃和融合的協同作用或整合,同時對支持可重構的傳感器網絡提出很少的指導。一方面,減少感知或高級信息融合與資源分配(RA)任務之間的差距,另一方面,規劃(任務分配)和執行(收集)監測之間的差距,仍然難以實現。
這項工作提出了新的研究和發展情報收集概念和自動決策支持/規劃能力,以支持/建議收集人員有效和高效的資源分配。它旨在開發自動咨詢調度組件和概念驗證原型,以實現有效的收集任務分配。以多衛星圖像采集(IMINT)調度為重點,介紹了導致快速、自動和優化采集任務的新技術解決方案概念,改善提供的服務水平,并增強及時的態勢感知。所設想的問題包括許多新的附加功能和完善的元素,這些元素在公開的文獻中主要是被忽視或忽略的。假設在低密度、高需求的收集資產條件下的m-SatCSP,新的特征包括收集資產的多樣性和敏捷性、任務抽象化、更多的包容性目標和更多的約束多樣性。重新審視的表述涉及抽象的情報收集任務,將單一目標區域(點)的重點明確地包括在大面積覆蓋范圍內,同時考慮多個或虛擬的異質衛星星座,脫離了傳統的同質情景。新的空間和時間依賴性,反映更現實的任務復雜性,放松相互獨立和可分離的假設。它抓住了成像質量、部分任務執行和成功概率等概念,擺脫了對有序行動執行或確定性結果的不現實的假設。該方法還重新審視了任務優先級利用的概念。因此,優先權被用作沖突解決機制,而不是基于優先權的有偏見的短視策略,強加任意的任務部分排序來管理高復雜性需求。設想的問題目標是要捕捉到超越通常區域覆蓋范圍特定任務的性能措施,引入收集質量,考慮到探測成功率、跟蹤質量和識別的不確定性,以提高收集的信息價值。基于最近提出的一個問題陳述,即m-SatCSP的背景[3],將情報請求映射到收集資產成像機會,以實現收集價值最大化,這項工作簡要地擴展了標準確定性問題決策模型,使用常規的混合整數二次規劃優化問題表述[5]。針對基于空間的ISR應用領域,新的優化模型降低了計算復雜性,使得在某些情況下利用精確的問題解決方法成為可能,同時提供了對最優解的約束。在公開文獻中大量報道的傳統特征約束的基礎上,推廣的模型引入了額外的規范,如合適的任務覆蓋閾值、可選的任務互斥、任務優先級、聯合值任務組成、成像/服務時間窗口,以及單個和平均軌道的熱約束。報告了在集中式和分布式決策背景下各種靜態和動態情景下的主要貢獻和創新之處。簡要介紹了為支持收集任務而明確開發的創新模型、求解器和概念驗證原型(推薦器)。
本科學報告總結了技術成果,描述了新的快速、自動和優化的收集任務(改善服務水平,增強態勢感知)解決方案和原型推薦器,為規劃多衛星真實/虛擬星座。它還旨在向CFINTCOM、DG SPACE和CJOC軍事組織通報主要發現,并確定最有希望的收集管理性能要求、技術和工具,容易對正在進行的主要軍事舉措產生潛在影響。這項工作是在2015年12月至2020年3月的DRDC聯合部隊發展(JFD)05da聯合情報收集和分析能力(JICAC)項目下進行的。
本報告概述如下。第2節簡要介紹了m-SatCSP問題陳述。它描述了問題的基本特征,并強調了開環和閉環設定以及集中式和分布式的決策背景。第3節和第4節分別總結了各自的開環(靜態)和閉環(動態)建議的貢獻。簡要介紹和討論了所開發的概念、模型特征、算法或求解器以及主要結果。第5節介紹了在JICAC下明確開發的概念驗證集合任務原型,以檢驗靜態/動態問題。第6節總結了核心貢獻、發現及其潛在影響。最后,在第7節中提出了建議。提出了一些進一步的技術解決方案開發和未來工作擴展的方向。
未來的不確定性、復雜的軍事系統的相互依賴性和裝備軍隊的昂貴的公共投資,使國防投資優先次序(DIP)成為任何國家最難做出的決定之一。它們的難度和重要性促使SAS-134號文件對文獻進行調查并制定指導,以幫助各國做出最有可能實現預期國家成果的DIP決策。在文獻的基礎上,我們編制了一份關于國家DIP實踐的105項調查問卷,涉及投資規劃的時間框架和過程、投資目標和偏好的發展、用于分析的運籌學(OR)方法、成本類別和資源限制的處理、以及投資互動和風險的處理。根據13個國家的答復,該調查發現運籌學方法的使用是有限的,而且方法也有很大差異。大多數國家認為資金是一個堅實的制約因素,一些國家建立了運營預算模型,但沒有其他成本類別。DIP設計的多樣性表明,程序性指導不如指導性原則有用,我們從文獻中提供了決策質量結構,以便各國在認識到需要時評估和推進自己的決策過程。
SAS-134研究任務組"將戰略投資和撤資與國防成果聯系起來 "的啟動是為了從文獻和對當前國際慣例的調查中確定在計劃投資組合(PIP)中確定國防投資優先次序的最佳做法的實質性指導。對一些相關文獻的調查為制定和解釋國家間國防投資優先次序(DIP)的做法提供了依據。在第2.0節中,我們介紹了最相關的文獻和相應的見解,然后介紹我們解釋調查結果的結構。在第3.0節中,我們描述了調查的發展和執行,并在第4.1-4.6節中總結了調查結果,然后在第5.0節中簡要總結。
威懾是一種說服形式,旨在操縱潛在攻擊者的成本收益分析,并說服他們對防御者采取行動的成本超過其潛在收益(Brantly,2018;Wilner,2017)。通過懼怕后果來防止(目標)做出不受歡迎的行為(美國(美國)國防部(DoD),2008 年;Taipale,2010 年)。威懾與強制不同,它側重于使用事前行動進行預防。在未來可能升級的威脅下,強制力使用權力迫使對手事后采取所需的行動(Brantly,2018 年)。
通常使用兩種類型的威懾:懲罰威懾和否認威懾。懲罰威懾取決于對潛在攻擊者進行報復的威脅。這種以牙還牙或等效的報復策略增加了攻擊者的感知成本。拒絕威懾向潛在挑戰者發出信號,表明他們將不會成功。這種不可穿透性策略會從攻擊者的感知利益中減去。
在物理世界中,威懾旨在阻止針對有形資產的特定行動。在這個領域,最常見的懲罰威懾形式是使用核武器。這些武器本質上是對潛在挑戰者的生存威脅(Brodie 等,1946;Brantly,2018)。一場全面核戰爭可能會受到威脅,但從未為實現合理的政治目標而戰(弗里德曼,2004 年;布蘭特利,2018 年)。拒絕威懾可能包括加強對關鍵基礎設施的防御,以拒絕攻擊者的訪問。例如,可以通過安裝更多的安全機制和更高的墻壁來嚴密地保護目標。
在網絡領域,威懾比物理領域更復雜。數字攻擊超越了地理和政治界限。它們通常是高度動態的,人類感官難以察覺(Moisan 和 Gonzalez,2017;Sokri,2019b)。網絡攻擊可能導致信息資產的攔截、降級、修改、中斷、制造或未經授權的使用。信息資產可以基于物理(例如硬件)或邏輯(例如軟件)(Sokri,2019a)。
網絡攻擊可以分為兩大類:有針對性的攻擊和機會攻擊。有針對性的攻擊需要付出很大的努力,并且有可能對防御者造成重大損害。拒絕服務和信息竊取是典型的針對性攻擊。相比之下,機會主義攻擊具有多個中間目標,需要的工作量很小,而且往往造成的破壞較小。病毒和垃圾郵件是典型的機會性攻擊。
網絡威懾中最具挑戰性的問題是歸因困境(Wilner,2017)。確定攻擊的責任人可能非常困難且耗時。因此,數字空間中任何懲罰威懾的可信度將取決于責任歸屬。 (格拉澤,2011 年;布蘭特利,2018 年)。由于拒絕威懾不需要識別潛在的攻擊者,它可以用來減輕這種依賴(Bordelon,2016)。
當給定威脅遇到信息系統中的漏洞時,就會出現網絡風險。在這種情況下,威脅是意外事件的潛在原因,而漏洞是信息系統中的弱點(Sokri,2019a;Zhang,2012;Bowen 等人,2006)。為了最大限度地降低針對信息資產的數字風險,防御者應至少了解兩個要素:(1)成功攻擊的概率和(2)相應的潛在損失(Brantly,2018;Glaser,2011;Schneidewind,2011;Branagan, 2012)。
為了保護他們的信息資產免受攻擊性網絡攻擊,政策制定者越來越傾向于通過拒絕進行威懾(Taipale,2010 年)。通過拒絕進行數字威懾的一個關鍵決策變量是防御者在安全方面的投資水平。為了保護潛在目標,防御者可以通過投資信息安全來降低攻擊成功的可能性。例如,投資可能會降低目標公司的脆弱性。
本文的目的是展示如何使用具有披露機制的順序博弈,在網絡空間中制定作為防御策略的拒絕威懾。它顯示了博弈論對網絡威懾的適用性。該論文通過使用更直觀的成功攻擊概率,提供新的威懾博弈公式來擴展現有模型。它還結合了隨機模擬和博弈論方法來處理輸入數據中的不確定性。例如,模擬可以通過將模型變量和參數的靜態值更改為統計分布來合并模型變量和參數的不確定性。
考慮在兩個對抗智能體之間進行的順序安全博弈:防御者 D(領導者)和戰略攻擊者 A(跟隨者)。防御者預測攻擊者的反應,確定并可靠地傳達安全投資以保護信息系統。例如,防御者可以公開發布他在 (1) 檢測和預防技術(如防病毒軟件、防火墻和入侵檢測系統 (IDS) 等)和 (2) 物理監控和檢查程序方面的投資水平(Sokri,2019b)。稅務機構通常通過披露其審計策略來阻止逃稅(Cavusoglu 等,2008 年)。
攻擊者觀察防御者的決定,并以一定程度的攻擊意愿做出反應。真正的攻擊意愿是潛在的,因此無法直接觀察到。它被建模為攻擊者為破壞系統而付出的預期努力。攻擊者的努力對應于網絡殺傷鏈的第一個活動(Mihai et al., 2014)。這些活動特別包括(但不限于): 1. 偵察——收集系統信息的過程, 2. 武器化——分析收集的數據以選擇適當的攻擊技術的過程,以及 3. 交付——過程將武器傳輸到目標系統。
在此介紹之后,下面的第 2 節對將證券投資作為威懾因素的文獻進行了全面回顧。第三節,建立網絡空間威懾的新博弈論模型。第 4 節,計算 Stackelberg 均衡。第 5 節對主要結果進行了正式討論。第 6 節指出了一些結論性意見。
達爾豪西大學大數據分析研究所、加拿大國防研究與發展研究所 (DRDC) – 大西洋研究中心和加拿大通用動力任務系統 (GDMS-C) 成功向加拿大自然科學與工程研究委員會 (NSERC) 提出申請, 促成了一個為期三年的資助項目,名為自動監控海軍信息空間 (AMNIS)。 AMNIS 啟動會議于 2020 年 10 月 14 日舉行,眾多教授、國防科學家和 GDMS-C 技術人員參加了會議。會議確定了三個組織的多項行動。與 DRDC 和 GDMS-C 相關的一項行動是需要與任務相關的情景來幫助指導預期的研究。因此,DRDC 率先描述了一個具有代表性的海陸情景,這將使研究人員能夠更好地了解與 AMNIS 相關的潛在研究途徑。開發的場景涉及由加拿大皇家海軍 (RCN) 和加拿大陸軍 (CA) 執行的加拿大人道主義任務。任務是向最近遭受自然災害襲擊的國家分發食品和醫療用品。敵對勢力也試圖竊取物資。該場景描述了通過更好的處理技術和決策來改進信息流、共享和使用的需求。該方案旨在引發進一步的討論并幫助鞏固 AMNIS 參與者的研究主題。
AMNIS 項目將推動國防界在機器學習、深度學習、人工智能、可視化的許多方面、弱勢網絡上的信息共享、基于場景的決策以及人類績效建模和團隊合作方面的知識。這里描述的海洋/陸地情景旨在激發支持這些主題的研究途徑。
2021年3月,美國哈德遜研究所國防概念與技術中心發布研究報告《實施以決策為中心的戰爭:提升指揮與控制以獲得選擇優勢》,提出以決策為中心的戰爭將使美軍做出更快、更有效的決策,從而賦予美軍更大的競爭優勢。
自冷戰結束以來,美國國防部(DoD)針對來自主要對手(如中國、俄羅斯和朝鮮等)的巨大軍事沖突發展了相應理論和能力。這些最壞的情況是為了確保美軍也能應對“較少的情況”。然而,這種方法偏重于為大規模、高強度軍事沖突設計的概念和系統,美國的智能對手不太可能向美軍挑起對抗,而國防部可以在力量投射或精確打擊等任務中發揮其優勢。
美國的對手在過去十年中已經發展出了抵消美國軍事優勢的方法,如中國和俄羅斯的灰色地帶或混合行動,這些方法以較低的成本和升級——盡管比傳統的軍事作戰時間更長——獲得目標。因此,國防部應修訂其規劃,提高新方案的優先級,這些方案以不同于戰區范圍內高強度作戰的方式給美軍施加壓力,如通過延長時間、不同程度的升級和規模,以及使用代理和準軍事力量。
中國的“系統破壞戰”概念和俄羅斯軍方的“新一代戰爭”概念是針對美國及其盟友的新方法的代表。雖然它們的制勝理論和方法大相徑庭,但這兩種概念都有一個共同點,即把信息和決策作為未來沖突的主戰場。它們從電子和物理上直接攻擊對手的戰斗網絡,以降低其獲取準確信息的能力,同時引入虛假信息,削弱對手的定向能力。同時,軍事和準軍事力量將通過孤立或攻擊目標的方式向對手提出難題,以中和對手的戰斗潛力,控制沖突的升級。
美國海軍如何重新平衡實施 "馬賽克戰 "部隊的例子
以決策為中心的概念,如系統破壞戰和新一代戰爭,很可能成為未來沖突的重要形式,甚至是主要形式。在冷戰后期,美軍革命性的精確打擊戰方式利用了當時的通信數據鏈、隱身和制導武器等新技術。同樣,以決策為中心的戰爭可能是軍事上利用人工智能(AI)和自主系統的最有效方式,這些技術可以說是當今最突出的技術。
以決策為中心的戰爭的一個例子是國防高級研究計劃局(DARPA)的馬賽克戰爭概念。馬賽克戰爭概念的中心思想是,由人類指揮指導的、具有人工智能功能的機器控制的分列式有人和自主單位可以利用它們的適應性和明顯的復雜性來延遲或阻止對手實現目標,同時破壞敵人的重心以排除進一步的侵略。這種方法與機動戰一致,不同于第二次世界大戰期間盟軍采用的基于損耗的戰略,也不同于冷戰后美軍在科索沃、伊拉克和利比亞沖突中采用的戰略。雖然馬賽克戰爭采用損耗作為給敵人制造困境的一部分,但其實現成功的主要機制是拒絕、拖延或破壞對手的行動,而不是削弱對手的軍事實力,使其無法再有效作戰。因此,馬賽克戰爭非常適合作為現狀軍事大國(如美國)尋求遏制侵略的概念。
在近期兵棋推演中,馬賽克部隊與傳統軍事部隊在任務完成情況的比較
馬賽克戰爭提出了一種部隊設計和指揮控制(C2)程序,與今天的美軍相比,它將使美軍能夠執行更多、更多樣化的行動方案(COA)。馬賽克部隊的分解結構和使用人類指揮與機器控制,將使對手的決策復雜化,縮小其選擇范圍,并施加一系列可能無法解決的困境。通過增加美軍指揮官的選擇權,減少敵方的選擇權,馬賽克戰法將尋求獲得“選擇權優勢”,使美軍能夠做出更快、更有效的決策。
選擇性戰略與以預測為中心的規劃方法形成鮮明對比,在這種規劃方法中,選擇最有可能導致成功的作戰行動方案并迅速實施,通過將與未選擇的作戰行動方案相關的系統和兵力要素分配給其他任務來提高效率。在以預測為中心的模式中,資源的早期承諾必然會限制指揮官今后的選擇空間。
與今天的美軍相比,馬賽克部隊的設計和C2過程可以在選擇權競爭中提供更大的優勢,因為隨著對抗或競爭的進展,可以緩解由于損失或敵方態勢感知的改善而導致的選擇權減少的自然趨勢。例如,“馬賽克”部隊可以更容易地隱藏具有反ISR能力的平臺或編隊,并在以后暴露出來,以實現新的選擇;利用數量更多、規模更小、成本更低的增援部隊;或依靠決策支持工具,允許繼續使用與高級指揮官物理或電子隔離的部隊。
圖:以網絡為中心的戰役空間架構與基于情境的戰役空間架構的特點比較
一支馬賽克部隊也將比今天的美軍更有能力進行縮小對手選擇范圍的行動。通過同時發起許多行動并加速其決策,一支使用人類指揮和機器控制的分布式部隊可以給對手造成足夠的困境,從而排除與作戰相關的數量的《作戰協議》。此外,馬賽克部隊還可以利用諸如分配、佯攻和探測等欺騙技術以及反ISR系統來補充其更大的規模和決策速度,這些技術可以使對手相信某些選擇不可行或不可能成功。
雖然國防部的C3結構,如混合和聯合全域指揮和控制(CJADC2)開始納入決策支持工具,為特派團整合效應鏈,但其目前和近期的實例旨在支持有效的火力投送,而不是持續的可選性。此外,與CJADC2相關的C2和通信(C3)舉措,如高級戰役管理系統(ABMS),需要提前確定架構和組件系統。因此,CJADC2在其能夠提供的可選性方面將受到固有的限制。
圖:C2實施方法的比較
第一步是壓縮空間的表征,重點放在時間的表征上。以一個作戰人員在短時間內的行動為例,在這個例子中,一個作戰人員的任務是收集指定地點的圖像。這在操作上是不現實的情況,只是用一個簡單的案例來說明這個概念。
在C3組合中,國防部已經在通信復原力方面進行了大量投資。因此,大部分新的努力和資源應該應用于C2能力。盡管美國軍方投資于所謂的C2系統,但這些項目主要是操作中心和軟件堆棧,作為在部隊中傳遞數據、信息、命令或權限的基體。盡管對管理部隊來說是必要的,但目前國防部的C2系統——將C2看作是連接——并不是決策支持系統,后者將C2看作是一個過程。
圖:在馬賽克C2方法中采用OODA循環
用于以決策為中心的戰爭的C3能力需要做的不僅僅是實現連接。例如,C2工具將需要生成能創造和維持可選擇性的COA,以提高適應性,并將復雜性強加給對手。為了幫助初級領導人執行任務指揮,C2工具還需要了解哪些單位在通信中,他們在潛在的COAs中的作用,并配置網絡以確保所需單位與適當的指揮官保持一致。為了評估這些要求和以決策為中心的C3的其他要求,本研究采用了多種視角,如下所述。
圖:以預測為中心和以決策為中心的選擇空間隨時間變化的比較
網絡視角:要實現可選擇性和實施以決策為中心的戰爭,就需要有能力使C2結構與現有通信保持一致,而不是試圖建立一個在面對敵方協同干擾和物理攻擊時仍能生存的網絡。這些需求導致了一種混合架構,這種架構將網絡方式與分層方式結合起來,可以被定性為 "異構"。這種拓撲結構將使指揮權與合格的人類操作者占據的節點中具有最高程度的節點相一致。
解決問題的視角:與從頭開始處理每個新情況相比,使用類比推理的問題解決過程可以更迅速地評估潛在的備選方案,由此產生的決策空間的增加可以使指揮官將限制其備選方案的作戰行動協議推遲到最后一刻。此外,如果使用人工智能支持的算法在沒有監督的情況下建立COA,對手可以通過佯攻和探測來影響算法的學習,使系統認為COA是成功的,如果不是對手的行動,實際上會失敗。
圖:來自DARPA PROTEUS計劃的分析和用戶界面,AI輔助規劃
時間視角:可選性的概念適用于多個時間尺度,從戰略到工業能力發展和部隊的戰術行動。C3架構的能力應該有助于擴大每個時間尺度上的努力所帶來的決策空間,而不是僅僅在任務期間。
組織視角:國防部的C3架構不是在真空中存在的。各組織的人員必須通過戰略、工業、作戰和戰術時空的流程來運用這些架構。可選性是在以決策為中心的戰爭中獲得優勢的關鍵,但如果僅僅是派出一支更分散的部隊和使用它的工具,如果這支部隊的使用方式很狹窄,為每個單獨的行動提供最高的成功概率,那么只能稍微增加美軍的復雜性和適應性。需要決策組織和程序,盡可能長時間地擴大指揮官的選擇空間。
今天的戰斗指揮官(CCDR)參謀部缺乏組織和程序,無法為即將到來的任務以各種不同的配置組合部隊。為了能夠在任務時間內組成部隊,國防部可以采用類似于將計算機程序編譯成可執行代碼的方法。軟件指令是用較高層次的計算機語言編寫的,但在軟件被計算機處理器執行之前,需要將其轉換成二進制形式。這種方法將從決策支持系統的COA開始,然后組合適當的單位來支持行動。雖然部隊構成主要是以硬件為中心,但也需要在技術棧的信息層和網絡層進行部隊包的軟件構成。
圖:從人工構成到決策中心戰的任務整合浪潮
美軍將需要采用新的部隊設計和C2流程,以實現以決策為中心的戰爭,但如果不與工具和組織結合起來,以充分利用使用人類指揮和機器控制的更分散的部隊中可能存在的可選性,這些努力將付諸東流。
目前國防部通過CJADC2和相關的作戰概念努力使美軍向更分散的組織和更分散的能力發展,這是實現更以決策為中心的軍事行動方法的重要一步。高級戰斗管理系統(ABMS)和DARPA的幾個項目正在開發C2工具和流程,這些工具和流程將增加指揮官使用這些更分布式部隊的可選性。國防部的部隊設計變革或C3舉措將需要更進一步,以便美軍在面對已經躍升到以決策為中心的戰爭并擁有主場優勢的同行對手時保持可選擇性優勢。
也許更重要的是,將需要新的組織和程序,使CCDR能夠在戰區組成和整合分散的部隊,并改變國防部定義需求和發展新能力的方式。如果不對國防部的需求和部隊發展程序進行重大改革,美軍就有可能在爭奪決策優勢的競爭中落后于對手,從而威脅到其保護美國利益和盟友免受大國侵略的能力。
(參考來源:軍事文摘作者:張傳良)
當代和新出現的安全威脅以及從最近的軍事行動中吸取的教訓已經證明,為了在傳統的物理領域(陸地、空中、海上、太空)實現作戰目標,確保在非物理領域的主導地位至關重要,即網絡空間、電磁環境(EME)和信息環境。因此,除了物理作戰領域之外,在非物理領域取得優勢的能力對于實現戰役的軍事和非軍事目標具有決定性意義。
作戰人員將面臨消除沖突,協作,同步和整合行動的挑戰,以實現并發揮協同效應以應對多種威脅,其中可能還包括來自每個作戰領域對手的武裝沖突閾值以下的行動,包括非物質的。
本文探討了作戰環境聯合情報準備 (JIPOE) 作為支持聯合作戰規劃、執行和評估的主要工具的作用和意義,從而有助于多域作戰 (MDO) 的同步和協調。在這方面,基于政治、軍事、經濟、信息、基礎設施-物理、時間(PMESII-PT)方法,不可能將對當代作戰環境(OE)的分析局限于物理領域及其與非物理領域的關系。相反,作者們相信,確定一種合適的方法來關注在非物理領域單獨或聯合進行的活動影響,它們在PMESII-PT所有領域的相互融合和實際操作領域的相關性,將大大有助于友軍識別和評估對手的重心(COG)、關鍵弱點、意圖和行動路線(COAs)的能力,包括各自的指標。JIPOE將為聯合部隊指揮官(JFC)提供OE的整體視圖,將與戰術層面密切合作、共享和開發,通過結合不同領域的能力,應該能夠壓倒對手的部隊。這種集中控制和分散執行的方法將有助于在作戰和戰術層面之間產生協同效應。
未來的軍事行動將以物理和非物理層面的融合為特征,眾多不同的行為者將在其中運作。任何部隊都需要適應極其復雜的作戰環境和大量的作戰變量,需要適應性地使用一系列武器系統來產生致命和非致命的效果。因此,除了物理作戰領域(即陸地、空中、海上和太空),在非物理領域(網絡空間、EME、信息環境)取得優勢的能力將對實現戰役的軍事和非軍事目標具有決定性意義[1, p.280]。
OE是影響能力運用和影響指揮官決策的條件、環境和影響因素的綜合體[2, p.3]。了解OE的因素和條件不僅是所有計劃活動,特別是行動設計的關鍵前提,也是友軍保護和許多其他相關任務的關鍵前提[3, p.41]。
JIPOE代表了一種系統的方法,用于分析有關OE和對手的信息。它可以應用于全部的軍事行動。指揮官和參謀部在危機背景、根本原因和具體動態方面,對戰區形成共同的理解和整體的看法。它使指揮官能夠直觀地看到問題的程度,以及他們如何塑造和改變OE,使之成為他們的優勢,這將為他們的決策提供信息[2, p.3-5]。
JIPOE產品極大地促進了聯合(即作戰)層面的軍事行動的規劃和執行。現代軍隊,特別是北大西洋公約組織(NATO)內的軍隊,幾十年來在討論跨領域(陸、海、空)的協調行動時一直使用聯合這一術語。如今,由于全球安全環境的巨大變化以及俄羅斯和中國日益增長的野心,為了挑戰潛在的同行對手,需要采取多領域的方法。在傳統的戰爭門檻下,盟國及其合作伙伴已經受到了跨越物理和非物理領域的持續攻擊[4, p.2]。MDO一詞不同于聯合行動,因為它旨在關注跨越多個領域的行動,而不考慮服務的歸屬,不一定是由多個部門進行的行動[5,p.49]。
圖1:支持聯合行動的當前JIPOE流程的可視化。
圖2:提出支持MDO的JIPOE過程方案。