認知或完全自適應雷達(FAR)是一個受生物系統啟發的研究領域,其重點是開發一個能夠自主適應其特性的雷達系統,以實現各種不同的任務,如改進環境感知和光譜靈活性。FAR框架在一個軟件定義的雷達(SDR)系統和模擬感知行動周期(PAC)的環境中實現了一個動態反饋回路(感知、學習、適應)。FAR框架在SDRs上的實現依賴于基于求解器的優化技術,用于其行動選擇。然而,隨著優化復雜性的增加,對解決方案收斂的時間產生了嚴重影響,這限制了實時實驗。此外,許多 "認知雷達 "缺乏記憶組件,導致對類似/熟悉的感知進行重復的優化程序。
利用現有的FAR框架模型,在神經網絡的啟發下進行了完善。通過使用神經網絡、機器學習的一個子集和其他機器學習的概念,對應用于單一目標跟蹤的FAR框架基于求解器的優化組件進行了替換。靜態前饋神經網絡和動態神經網絡在模擬和實驗環境中被訓練和實施。神經網絡和基于求解器的優化方法之間的性能比較表明,基于靜態神經網絡的方法具有更快的運行時間,這導致了更多的感知,有時通過較低的資源消耗獲得更好的性能。還對靜態前饋神經網絡、動態遞歸神經網絡和求解器的模擬結果進行了比較。這些比較進一步支持了神經網絡能夠通過納入學習為認知雷達提供記憶組件的概念,從而走向真正的認知雷達。還進行了額外的研究,以進一步顯示神經網絡在雷達快速生成波形的應用中的優勢。
FAR框架也從單目標跟蹤FAR框架擴展到多目標跟蹤。FAR框架的多目標實現顯示了自適應雷達技術在多目標環境中的優勢,由于場景中存在的目標數量增加以及需要解決所有目標,復雜性也隨之增加。由于多目標環境,對現有的成本函數和探測/跟蹤框架進行了改進和補充。實驗和模擬結果證明了FAR框架的好處,它使一個穩健的自適應算法能夠在多目標環境下改善跟蹤和有效的資源管理。
除此之外,分層完全自適應雷達(HFAR)框架也被應用于需要執行多個任務系統的資源分配問題。分層完全自適應雷達的任務靈活性(HFAR-TF)/自主決策(ADM)工作將HFAR框架應用于一個需要參與平衡多項任務的系統:目標跟蹤、分類和目標意圖辨別("朋友"、"可能的敵人 "和 "敵人")。
本博士論文的目標是將這些目標結合起來,形成一個建立改進當前認知雷達系統的方法的基礎。這是通過融合機器學習概念和完全自適應雷達理論來實現的,以實現真正的認知雷達的實時操作,同時也將自適應雷達概念推進到新的應用中。
現代雷達系統的發展促進了軟件定義雷達(SDR)系統能夠實現動態反饋回路行為,與傳統雷達不同。傳統雷達的前饋性質依賴于感知環境的假設特性,產生固定的參數設置,以保證預定的信號干擾加噪聲比(SINR)或雷達任務性能。然而,動態/變化的環境會導致任務性能下降或系統資源的管理不善。缺乏對雷達前端特性的自適應控制會導致雷達后端的信號處理工作增加,嚴重依賴雷達操作員或根據最壞情況設置靜態的雷達系統參數。
完全自適應雷達(FAR)框架旨在利用現代SDR系統實現的傳感器參數多樣性,允許自主適應雷達波形特征,以實現更好的環境感知和雷達任務性能。FAR框架的自主性質也轉向將雷達操作員的角色轉變為咨詢角色,以及減少用于目標信息提取的額外信號處理負擔。
FAR框架通過試圖模仿動物和人類中存在的認知的神經科學概念來實現自主適應。正如[2,3,4,5]所討論的,認知過程必須包括五個主要元素:感知、注意和分析(智能)、行動和記憶。在[6]中,Haykin討論了傳統主動雷達、FAR和認知雷達之間的區別。 雖然FAR能夠通過反饋鏈路將接收機感知的環境與發射機的波形探測聯系起來,實現對環境的更好感知,但由于缺乏 "真正"學習所需的長期記憶,它的智能受到限制。
為了在認知雷達處理中進行優化,經常使用非線性函數。這些非線性函數在優化塊中實現,可以通過非線性約束目標函數的最小化進行雷達參數選擇和更新。對于FAR框架,這種 "執行優化"是在一個 "執行處理器塊 "中實現的,它試圖在服務質量(QoS)方法中平衡捕捉雷達系統基于任務的性能(性能成本)和傳感器資源消耗(測量成本)的成本函數。
在FAR框架中,執行優化被視為最關鍵的組成部分。在FAR框架中,通過結合注意力和分析,利用目標狀態的跟蹤和過去觀察的先驗知識(記憶)來選擇最佳參數指數選擇,執行處理器實現了"有限學習"。由于執行處理器中調用的傳感器參數選擇的性質,雷達波形參數被映射到雷達任務和目標性能上,給定的是先驗知識。此外,由于這種基于優化的適應性,隨著優化的復雜性增加,解決收斂的時間也在增加,因此限制了實時能力。
在概念上與FAR相似,機器學習是人工智能下的一個研究領域,它研究人類如何獲得知識,或學習,并在機器中表示這些概念。機器學習的一個子課題是神經網絡,通過它們的能力來模擬和實現學習過程,關聯、模式識別和關系建模都是神經網絡的有效任務,它可以用來提供對系統處理的較低影響,并通過識別/記憶開始學習。
學習被證明是認知系統中的一個關鍵組成部分,導致人們相信學習是認知雷達的一個主要組成部分。在[5]中,學習被定義為使用過去的信息來提高一個人的局部成功度。 然而,為了充分地從記憶和行動中學習,實時能力和性能必須是可行的。正如前面所討論的,由于用于行動選擇的優化,可以看出,隨著問題的復雜性增加,優化的計算成本也在增加。高計算成本和缺乏記憶對實現 "正式 "認知系統構成挑戰。
在FAR和認知雷達研究領域已經取得了許多進展:然而,大多數集中在缺乏長期記憶和聯想的自適應系統上。同樣,在基于神經網絡和機器學習的雷達研究方面也取得了許多進展,但大多數集中在基于分類和圖像識別的問題上。 本博士研究將著重于展示包括基于回歸的神經網絡如何通過降低對系統處理的影響來改善FAR的現有性能,并通過包括更強的記憶概念和將其擴展到展示學習來幫助認知雷達任務的執行,從而促成開發一個 "真正 "的認知系統。
這里討論的工作對認知雷達領域的貢獻如下:
通過用前饋神經網絡取代執行處理器中的優化組件,以降低對系統處理的影響并整合其固有的識別/記憶組件,開發了一個神經網絡啟發的FAR框架,即基于神經網絡控制的全適應雷達(FAR-NN)。
收集了不同參數適應情況下的模擬和實時實驗結果,并對局部解算器的實施和神經網絡進行了比較,結果表明靜態前饋神經網絡能夠實現較低的測量成本、更快的優化時間和類似的執行成本性能。
通過在每個傳感器感知行動周期(PAC)的 "執行處理器 "中模擬傳感器參數選擇,在分層全自適應雷達(HFAR)框架中實施靜態前饋神經網絡,以降低由于執行多個優化而對系統處理的影響。
通過對傳感器參數選擇的模擬,在FAR框架中實施了一個動態長短期記憶遞歸神經網絡(LSTM-RNN),將基于狀態的對不斷變化的環境的適應性和更強的記憶概念納入神經網絡激勵的FAR框架的優化部分,FAR-NN。
開發了一個LSTM-RNN,用于在動態頻譜擁擠的環境中生成低延遲、接近最佳的雷達頻率缺口波形。
將LSTM-RNN與現有的專門解算器 "減少誤差算法"(ERA)進行比較,其波形生成的仿真結果表明,網絡和算法的波形設計結果相似,LSTM-RNN生成波形的時間減少。
將現有的全適應雷達單目標跟蹤(FAR-STT)框架擴展到全適應雷達多目標跟蹤(FAR-MTT)的實現中,修改了目標函數和擴大了多目標環境的Fisher信息矩陣/Cramer Rao Bound度量。
收集了模擬和實驗結果,以證明將完全自適應雷達方法應用于多個目標跟蹤的好處,即能夠實現目標分離并保持單個目標的跟蹤,同時消耗較少的測量資源。
為一個需要執行多種任務[例如:目標跟蹤、分類和目標意圖辨別(朋友、可能的敵人和敵人)并自主分配雷達資源的雷達系統開發一個HFAR框架。
收集的模擬結果表明,通過使用自適應波形參數與固定參數集,將完全自適應的雷達方法應用于一個從事多種任務的系統的好處。
突出了使用完全自適應雷達概念的模擬和實驗演示,以證明認知雷達概念的可行實現。
本論文的其余部分組織如下。
第二章討論了基礎雷達、全自適應雷達、優化、神經網絡和統計學等與論文中提出的工作相關的背景。
第三章對認知雷達和神經網絡領域的類似工作進行了調查。
第四章討論了本工作中使用的全自適應雷達建模和模擬(FARMS)環境和算法,以及用于驗證模擬結果和實驗集合的實驗測試平臺的簡要概述。
第五章討論了神經網絡啟發的FAR框架的實現,以及與以前FAR和HFAR實現中使用的局部求解器的比較結果。
第六章回顧了一種用于快速生成缺口波形的神經網絡方法,并與現有的專門求解器進行了比較。
第七章討論了將FAR框架擴展到多目標環境中。模擬和實驗結果都被收集起來,以證明自適應雷達在多目標跟蹤環境中的優勢。
第八章討論了全適應性雷達的發展,即多功能雷達系統的問題,其中HFAR框架被應用于需要參與平衡多種任務的雷達系統:目標跟蹤、分類和目標意圖的辨別(朋友、可能的敵人或敵人)。
第九章總結了論文的結果,并給出了基于這項工作的未來研究領域。
附錄A介紹了FAR框架中使用的局部求解器與全局求解器程序的可靠性的進一步細節。
附錄B介紹了第七章介紹的FAR-MTT工作中使用的Fisher信息矩陣推導和預白化推導的進一步細節。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
現代數字雷達在其波形、雷達參數設置和傳輸方案方面提供了前所未有的靈活性,以支持多種雷達系統目標,包括目標探測、跟蹤、分類和其他功能。這種靈活性為提高系統性能提供了潛力,但需要一個閉環感知和響應方法來實現這種潛力。完全自適應雷達(FAR),也被稱為認知雷達,是模仿認知的感知-行動周期(PAC),以這種閉環方式適應雷達傳感器。在這項工作中,我們將FAR概念應用于雷達資源分配(RRA)問題,以決定如何將有限的雷達資源如時間、帶寬和天線波束寬度分配給多個相互競爭的雷達系統任務,并決定每個任務的傳輸參數,使雷達資源得到有效利用,系統性能得到優化。
已經提出了一些感知-行動的RRA方法。這一領域的最新工作被稱為認知雷達資源管理,而較早的相關工作則被稱為簡單的傳感器管理或資源分配。這些算法依賴于兩個基本步驟。首先,它們以概率方式捕獲(感知)監視區域的狀態。其次,他們使用這種概率描述,通過確定哪些行動有望實現效用最大化來選擇未來的傳感行動。
任何RRA算法的一個關鍵挑戰是平衡目標探測、跟蹤、分類和其他雷達任務的多個競爭性目標。這一點通過優化步驟中用于選擇下一步雷達行動的目標函數來解決。目標函數也被稱為收益、標準、價值或成本函數。因此,以適合優化的數學形式闡明系統目標,對完全自適應雷達資源分配(FARRA)系統的運行至關重要。隨著可用于適應的參數數量和雷達系統任務數量的增加,這變得越來越困難。這種優化有兩種基本方法:任務驅動和信息驅動。
在任務驅動的方法中,為每個任務指定性能服務質量(QoS)要求,如探測目標的預期時間或跟蹤的均方根誤差(RMSE),并通過加權各種任務的效用來構建一個綜合目標函數。這樣做的好處是能夠分別控制任務性能,并確定任務的相對重要性。然而,它需要用戶有大量的領域知識和判斷力,以指定任務要求和傳感器成本,并構建成本/效用函數和加權,以結合不同的任務性能指標。
在信息驅動的方法中,一個全局信息測量被優化。常見的信息測量包括熵、相互信息(MI)、Kullback-Leibler分歧(KLD)和Renyi(alpha)分歧。信息指標隱含地平衡了一個雷達可能獲得的不同類型的信息。這具有為所有任務提供共同的衡量標準(信息流)的理想特性,但沒有明確優化諸如RMSE等任務標準。因此,信息理論的衡量標準可能很難被終端用戶理解并歸結為具體的操作目標。此外,如果沒有額外的特別加權,它們不允許單獨控制任務,并可能產生以犧牲其他任務為代價而過度強調某些任務的解決方案,或者選擇在用戶偏好判斷下只提供邊際收益的傳感器行動。
在這項工作中,我們考慮一個雷達系統對多個目標進行同步跟蹤和分類。基于隨機優化的FAR框架[28],為我們的PAC提供了結構。我們開發并比較了用于分配系統資源和設置雷達傳輸參數的任務和信息驅動的FARRA算法,并在模擬機載雷達場景和俄亥俄州立大學的認知雷達工程工作區(CREW)實驗室測試平臺上說明其性能。這項工作結合并擴展了我們以前在傳感器管理[8-14]和FAR[18, 21, 27, 29-31]的工作。初步版本發表于[32]。結果表明,任務和信息驅動的算法具有相似的性能,但選擇不同的行動來實現其解決方案。我們表明,任務和信息驅動的算法實際上是基于共同的信息理論量,所以它們之間的區別在于所使用的指標的粒度和指標的加權程度。
本章的組織結構如下。在第10.2節中,我們提供了FAR框架的概述,在第10.3節中,我們通過為這個問題指定FAR框架的組成部分來開發多目標多任務FARRA系統模型。在第10.4節中,我們描述了組成FARRA PAC的感知和執行處理器,包括我們采用的任務和基于信息的目標函數。在第10.5節中,我們提供了比較優化方法的機載雷達仿真結果,在第10.6節中,我們展示了CREW測試平臺的結果。最后,第10.7節介紹了這項工作的結論。
單個PAC的FAR框架是在[18, 27]中開發的,在此總結一下。圖10.1是一個系統框圖。PAC由感知處理器和執行處理器組成。PAC通過硬件傳感器與外部環境互動,通過感知處理器和執行處理器與雷達系統互動。感知處理器接收來自硬件傳感器的數據,并將其處理為對環境的感知。該感知被傳遞給雷達系統以完成系統目標,并傳遞給執行處理器以決定下一步行動。執行處理器接收來自感知處理器的感知以及來自雷達系統的要求,并解決一個優化問題以決定下一個傳感器的行動。執行處理器通知硬件傳感器下一次觀察的設置,傳感器收集下一組數據,然后循環往復。
圖10.1: 單一PAC FAR框架
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。
Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構
今天,人們普遍認為,信息就是力量,雖然這個眾所周知的公理看起來很老套,但近年來,聯合部隊在信息戰(IW,information warfare)環境中經歷了快速變化。軍事資產被賦予聯合部隊或其組成部門,在網絡空間領域的新興工具和作戰云概念的支持下,越來越多連接在部隊范圍或部門間產生。在幾乎任何人都可以進入的信息環境中,實現主導地位目標,在一個跨越物理世界和虛擬世界的新興超級連接現實中面臨新的復雜挑戰。聯合部隊在進攻和防守方面都沒有單獨的責任或權力,這種二分法在新出現的作戰環境中尤為突出,在這種情況下,越來越多的行為者和參與者變得越來越明顯。因此,在聯合和分布式跨域作戰中,未來的網絡攻擊方法將需要從根本上改變和重新調整,以響應聯合部隊作戰空間性質和范圍的根本變化。
聯合部隊調整系統、網絡和作戰方法以在未來的競爭環境中實現優勢,需要對諸如 "信息環境 "和 "信息戰 "本身等分類法所推斷的內容進行重新概念化。即使在今天,我們也應該問自己,什么是IW,它與聯合部隊的傳統軍事行動和活動有何不同,以及它將如何影響全域指揮和控制結構?在為未來建立一支靈活而有彈性的戰斗部隊(包括網絡空間領域)的更廣泛努力中,網絡攻擊的定位是什么?這些都是令人困惑的問題,必須考慮 "權力"的重要因素是如何因信息革命而發生變化的。重新思考當今世界的大戰略是理解聯合部隊必須在理論、規劃和行動方面調整其未來方法的關鍵。越來越多的人以新的和新穎的方式測試和使用IW,聯合部隊使用IW的頻率和復雜性也越來越高,且這種情況只會加快。
信息中蘊含著巨大的力量,雖然 "傳統 "的軍事方法強調并尋找 "新 "的IW效果,但這些可能并不反映聯合部隊的最佳解決方案,也不能提供必要的優勢,因為網絡空間與計劃和作戰周期的融合正在進行中。IW的范圍、性質和特點已經擴大,然而IW在戰術、技術和程序(TTPs)以及大戰略本身的層面上仍然是一個模糊不清、定義不明的概念。信息革命導致了新的組織和行為者的形成,以及商業甚至非國家行為者在聯合部隊 "虛擬 "作戰領域中的重要性日益增加。因此,越來越多的人需要把這些在信息環境和網絡空間范圍內活躍的、最終影響到聯合部隊如何成功執行任務的、日益增長的、不同的利益相關者和行為者集合起來。
變得更有活力和反應能力的目標將要求聯合部隊在其互動和影響或被影響的信息環境中,產生一個更 "真實 "的IW威脅和風險的戰略和行動畫面。安全模式從軍事主導的格局轉移到一個新的格局,這個格局更加分散,跨越了更大深度和廣度的利益相關者和合作伙伴,這說明了在戰略和作戰層面上,網絡攻擊具有不連貫性。要真正理解戰略和作戰環境中正在發生的變化,關鍵是要理解近年來國家權力結構中發生的巨大變化。具有諷刺意味的是,很少有一個正式的政府部門或機構或作戰單位只關注信息力量,負責控制和分配這種權力。然而現實情況是,信息力量被稀釋在一系列的機構和組織中。
隨著聯合部隊向跨領域綜合作戰能力的轉變,這些能力本質上是由信息領域促成的,而信息領域從本質上講是一個不透明的領域,模糊了物理世界和虛擬世界,因此越來越需要在與空戰或陸戰相同的水平上認識IW。
試圖現在聲稱或圍繞什么是信息力量的要素設定界限,對聯合部隊和類似的其他部隊來說,都將是徒勞的。這有令人信服的理由,即處理分類學和組織關系,以及無法為IW任務設定明確的界線和資金。針對越來越多的政府和軍事機構的任務,只會阻礙一個連貫的、綜合的國家信息主導戰略的發展,在這個戰略中,整個軍隊,特別是聯合部隊是多個組成部分中的一個。在過去,聯合部隊或其組成部分的作戰C2僅由 "他們 "各自的指揮部負責,他們有自己的通信系統,但現在情況不一定如此。例如,問一下,誰在戰略層面上控制著信息力量和信息資源?如果不是聯合部隊,那么聯合部隊怎么可能成為IW的關鍵C2機構?
如果反擊敵對勢力的行動是海陸空部隊的任務,那么影響 "他們 "行動的網絡攻擊的性質和范圍已經擴大,他們今天將如何處理這些任務?戰斗網絡的設計是可靠的、有彈性的和嚴格的,在某些情況下,它們是唯一的通信手段,但在多領域背景下,敵對勢力為了破壞、降低或延遲今天的行動,還可以在許多方面進行網絡攻擊,例如物流和供應鏈。隨著聯合部隊向綜合跨域作戰能力的轉變,這些能力本質上是由信息領域促成的,而信息領域的性質是不透明的,模糊了物理世界和虛擬世界,因此越來越需要在與空戰或陸戰相同的水平上認識IW。
這一點尤其正確,因為大多數聯合部隊的行動預計將發生在高度競爭和分布式的環境中,在這種環境中,IW將是競爭空間的一個固有特征。然而,隨著預算的限制,威脅的增加,以及更多的行為者出現在這些空間中,聯合部隊的指揮官發現他們處于一個關鍵的決策點。聯合部隊將需要產生新的方法、手段和目的來快速處理大量的信息,并與更多的合作伙伴、客戶和這些信息資源和數據庫的消費者一起這樣做。作為綜合布線的一部分,信息管理、連接和流動將成為核心任務要素,聯合部隊將需要向一個更加綜合和相互依存的現實轉變,以便將信息領域新的關鍵作戰要素和層次納入其規劃和作戰周期。
IW的范圍、性質和特點已經擴大,但在戰術、技術和程序(TTPs)以及大戰略本身的層面上,IW仍然是一個模糊不清、定義不明的概念。
對于聯合部隊來說,解決其重點是否應該更多放在進攻性或防御性IW上的問題將是至關重要的。許多人同意,聯合部隊應該發展并保持進攻性和防御性IW能力的平衡,但前者有更多的限制。最終,聯合部隊將需要通過明確其未來的IW目標、能力和目的的范圍來解決這些問題,考慮長期的戰略需求,但要理解什么是對其在短期內有效執行作戰任務而絕對必要的戰術。
信息戰活動將越來越多地使用或依賴商業網絡,或以重要方式與商業網絡互動。這些網絡和工具將阻礙聯合部隊利用傳統的電子戰工具和網絡戰行動。作戰規劃者將需要在IW方面與全新的參與者、網絡、系統和其他因素進行斗爭。聯合部隊將不再在真空中規劃任務,而是越來越需要了解、意識到并與更多的機構和商業行為者進行行動協調。這將是一個非常復雜的挑戰,需要制定必要的合作框架,以允許聯合部隊與情報機構、第三方后勤供應商、聯盟伙伴的各種部隊元素等進行有效的協調和信息流動。
我們可以從很多方面來考慮影響IW未來方向的因素。首先,IW是否存在真正的作戰要素?如果有,誰擁有它,它的控制和影響范圍是什么?任何聯合部隊的IW戰略都不應該只是國家權力工具的一個子集,而應該與之完全融合,跨越所有領域,包括陸地、海洋、空中和太空。隨著聯合部隊學會更無縫地同步效果,對信息環境的支配將成為其整體成功的關鍵。IW將需要從規劃開始就嵌入到所有的活動中,而不是在最后才 "添加 "或孤立地規劃。聯合部隊將需要研究它打算產生什么效果,然后為此選擇適當的武器或行動。從理論上講,真正的跨領域的全方位瞄準應該提供一種可供選擇的動能效果,甚至是純粹的信息效果,作為備選方案。
這將如何影響聯合作戰環境中的C2,以及在認識到信息戰的發展現實、范圍和需求以及所需能力的情況下連接作戰力量的目標是至關重要的。要問的硬問題是:"我們到底在什么方面不能控制?在IW方面,我們到底不能控制什么?在這里,我們需要考慮外國和國內團體網絡行動日益增長的作用和重要性,以及網絡攻擊實際上是一個轉型的概念而不是一個固定的概念。IW不能被孤立,需要分布在安全和情報架構的所有元素中,聯合部隊與之互動并共同運作。新的分類法再次證明了這種方法的必要性。例如,與其把活動稱為IW,為什么不把它們僅僅標為行動?將信息作為力量要素或武器使用并不新鮮,盡管它是聯合部隊指揮官武庫中相對較新的工具,但如果戰場準備得當,這也是一種需要使用的武器,就像其他工具一樣。
信息時代不僅承諾在傳感器和射手、有人駕駛和無人駕駛車輛之間實現超級連接,而且在更廣泛的范圍內,包括后勤、情報和平民本身,因此,在向前發展的過程中,聯合部隊在IW環境的能力規劃方面應該遇到什么?聯合部隊在多領域或全領域作戰中實現信息優勢的目標,將需要在網絡武器中使用復雜的新方法和工具,來作為更廣泛的信息資源和信息力量生態系統的一部分。聯合部隊進行的網絡攻擊將需要與合作伙伴進行更密切的協調,例如,開展欺騙和網絡行動,甚至與假新聞和宣傳活動。
像勒索軟件這樣的威脅將在一端延伸到供應鏈伙伴,另一端延伸到有意識形態動機的非國家行為者。這種將信息環境分成越來越小的子群體的做法,為試圖在完全真空的情況下發展網絡武器創造了巨大的挑戰,對于聯合部隊和一個國家擁有的其他力量工具來說也是如此。事實證明,并且將在未來幾年內繼續強調,IW對于聯合部隊作戰和C2的有效性至關重要,尤其是在作戰云支持的環境中。未來軍事力量的部署和使用將要求聯合部隊的規劃者和作戰者更多地了解情況,更多地進行合作,更多地依賴信息環境中的合作伙伴,如果他們要超越傳統的 "內部 "方法并產生最佳的IW效果解決方案。
作者
埃德溫-"利"-阿米斯蒂德(Edwin “Leigh” Armistead)博士是一名美國退役海軍軍官,他撰寫了關于信息作戰(IO)的博士論文,并撰寫/編輯了關于這一重要主題的三本書。2006年,他參與建立了國際網絡戰爭與安全會議(ICCWS),//www.academic-conferences.org/conferences/iccws/ ,這個年度活動為該領域的學者、研究人員和從業人員提供了一個網絡平臺和論壇,以討論、探索和發展信息戰爭與安全的理論和實踐方面。他還是第9.10工作組(ICT在和平與戰爭中的應用)的副主席和《信息戰雜志》(JIW)的主編--這是美國唯一的雙盲、同行評審的信息戰(IW)學術雜志。
美國參謀長聯席會議主席(CJCS)最近就美軍新的聯合作戰概念(JWC)以及相關的新的全域聯合指揮與控制(JADC2)框架對其實現的重要性向國會作證。具體而言,他在2021年6月23日向美國眾議院表示:
JWC的基礎是全域作戰概念。這是美軍在優化協同效應過程中的下一步發展,這種協同效應是通過在空中、太空、海上、陸地和電磁波譜等所有領域的綜合行動而產生的。這一過程始于1986年戈德華特-尼科爾斯法案的通過,該法案旨在提高美國武裝部隊進行聯合(軍種間)和集成(聯盟間)作戰的能力。如果發展和實施得當,JWC將產生比今天的 "聯合"作戰更決定性、更強大的戰斗結果,在許多情況下,"聯合"作戰只是涉及軍種之間的沖突和整合。為了實現這一目標,美國國防部(DOD)需要認真地將理論轉化為現實。這意味著要采取漸進但具體的步驟來實現JADC2的目標,而不是在實施之前等待一個完整的解決方案。JADC2將需要大量的時間來設計,因為它涉及到現有概念、能力和服務觀點的巨大轉換。然而,為了加速這些工作可以通過快速改進當前的指揮和控制模式來完成。具體來說,現在是時候超越大型的、集中的、靜態的C2設施,轉向移動的、分布式的C2,有能力處理與區域空天聯合行動中心(CAOC)相同的信息量和多樣性。
由于它尋求所有領域的協同作用,包括來自不同領域的能力的互補性,而不僅僅是相加,JADC2的目標是尋求相互依賴,以提高有效性,并彌補每個領域的脆弱性。所期望的軍事效果將越來越多地由共享信息和相互授權的系統互動來產生。JADC2的愿景是通過數字連接的 "膠水"將資產結合起來,成為一個 "武器系統",在整個作戰區域內進行分解、分布式作戰,而不是在每個領域中建立一套互不相干的、單一的作戰系統。這將需要把每個平臺作為傳感器和 "效應器 "來對待。它將需要一個新的戰斗指揮架構和指揮與控制范式,以實現自動連接,就像今天的移動電話技術一樣。它還將需要安全、可靠和無縫地傳輸數據,而不需要人的互動。
實現JADC2的總體目標,并將其與實現自我形成、自我修復的綜合體所需的整合程度結合起來,將需要做出巨大的努力,而且并不容易。每個軍種和每個作戰司令部都將參與其中。它將需要克服組織、文化、訓練、采購和政策方面的幾個主要障礙。它將需要連接、決策和快速響應,需要有彈性的網絡和尚未達到的軍種和盟國之間的共享能力。
這些是眾多的、多方面的挑戰,我們的軍隊、軍種和作戰指揮部都在解決這些問題。然而,由于其復雜性,要實現一體化、相互依存、自我形成、自我修復的全域聯合和集成作戰的最終愿景還需要很多年,甚至幾十年。然而,我們所面臨的威脅正在增長,并需要今天的解決方案。因此,現在是時候對JADC2中那些現在就可以改變的要素采取行動,以應對我們今天面臨的威脅和挑戰。
每個軍種和作戰指揮部都有成熟的指揮和控制概念、設施和程序,這些在過去的沖突中證明是可行的。然而,目前存在的各種C2架構都需要進行廣泛的修改,以便在出現的現代威脅面前生存,更不用說運行。
【越來越多的信息獲取需要對指揮和控制進行重組,以促進對易逝目標的快速采取行動,并利用我們的技術能力。信息綜合和執行權力必須轉移到盡可能低的級別,而高級指揮官和參謀人員必須約束自己,以保持適當的作戰層級。】
在所有領域的成功行動的一個核心前提是對航空航天環境的控制。一旦建立,它將促進所有其他聯合和集成部隊的行動和移動自由--沒有它,有效的聯合或集成作戰是不可能的。因此,對航空航天作戰的有效指揮和控制是必須優先考慮的關鍵部分。
我們指揮與控制(C2)空中和太空部隊的能力受到三個主要因素的影響:威脅、技術和信息速度。自美國空軍的空天作戰中心(AOC)--AN/USQ-163 "獵鷹 "的設計、建立和運行以來,這三個領域的變化是巨大的,并在繼續加速。因此,現在是時候確定我們是否可以通過發展目前的作戰概念、組織和采購流程來實現現代化,或者我們必須尋求對這些影響目前戰區空天控制系統的每個要素進行根本性的改變。在提供答案之前,讓我們簡單看一下影響我們有效指揮和控制航空航天作戰能力的每一個趨勢。
今天,當試圖在A2/AD環境中作戰時,同行的威脅使目前的C2手段處于不可接受的風險之中。30多年來,我們基本上一直在享受C2優勢,在航空航天領域不受競爭的影響。這些日子已經過去了。軍事競爭對手已經以前所未有的規模完成了現代化。他們已經迅速縮小了與美國、盟國和友好國家軍隊在包括飛機、航天器、導彈、武器、網絡、指揮和控制、干擾器、電子戰、數據鏈接和其他廣泛能力方面的差距。潛在的對手也研究了美國的戰爭方式,與其面對我們(美國)的戰斗力,不如讓我們(美國)遠離他們。他們已經采用并正在擴散反介入和區域拒止(A2/AD)能力,旨在拒絕美國及其盟友的行動自由。減輕這些A2/AD能力帶來了巨大的挑戰,促使我們在更大的風險和遠離潛在沖突地區的情況下行動。
A2/AD能力以三種方式威脅著我們指揮和控制空天作戰的能力。近距離的對手可以使用動能和非動能武器,從我們的天基資產中拒絕我們(美國)的通信和情報、監視和偵察(ISR),從而孤立我們(美國)的部隊并蒙蔽我們(美國)的視野。網絡攻擊正變得越來越復雜,可以破壞我們完善的空中和太空聯合作戰中心的運作。精確的遠程巡航導彈和彈道導彈現在威脅著這些大型、固定和脆弱的設施。作為產生戰略、計劃和空天資產任務指令的工廠,建設空天聯合作戰中心已經成為一個極其有利可圖的目標。
新技術正在促成新的能力,以優化C2機制,達到預期效果。我們需要超越傳統文化對新技術的限制來思考。例如,下一代飛機在傳統術語中可能仍被標記為戰斗機、轟炸機、空運機等,但由于傳感器、處理能力、武器、能源生產和其他能力的微型化,在技術上它們有能力執行多種任務。它們實際上是飛行的 "傳感器效應器",可以形成由冗余節點和多殺傷路徑組成的高度彈性網絡的基礎,以盡量減少目前高度集中和有限的C2節點(如CAOC)的關鍵系統價值,這些節點敵人可以輕易地將其作為目標。
【JADC2將需要很多時間來設計,因為它涉及到對現有概念、能力和服務觀點的巨大轉變。然而,加速這些工作可以通過快速改進當前的指揮和控制模式來完成。】
這將需要領先的網絡能力、有保障的通信,以及解決我們的數據帶寬挑戰的不同方法。例如,為了解決來自先進傳感器的爆炸性數據增長,與其建造更大的管道來傳輸收集的數據,不如現在提高處理能力,使得機載數據的處理成為可能,并且只對用戶感興趣的內容進行分發。這種方法顛覆了我們今天處理情報、監視和偵察的方式。
快速的信息交流在戰斗的前沿尤其重要,因為實際數據的價值往往是短暫的,并隨著時間和環境的推移而減少。開發一種技術方法,在不同的用戶之間、在多個分類和盟國及伙伴國之間自動和快速地分享信息,將是創建未來部隊的一個關鍵。
古老的格言,"速度就是生命",不再僅僅是指飛行--它也是指快速發展的軟件工具,用于戰斗和勝利。我們必須跳出歷史上刻在我們集體心靈中的組織結構的思維。以網絡為中心的、相互依賴的、功能整合的作戰是未來軍事成功的關鍵。
電信、傳感器、數據存儲和處理能力方面的重大進步每天都在出現。因此,瞄準周期已經從幾周到幾天發展到幾分鐘,從多架、專門和獨立的飛機發展到一架飛機在幾分鐘內 "發現、修復和完成 "的能力。越來越多的信息獲取需要對指揮和控制層次進行重組,以促進對易逝目標的快速介入,并利用我們的技術能力。信息綜合和執行權力必須轉移到盡可能低的級別,而高級指揮官和參謀人員必須約束自己,以保持適當的戰爭水平。
要超越大型的、集中的、靜態的指揮和控制設施,轉向移動的、分布式的C2,并有能力處理與今天的區域性聯合空天作戰中心相同的信息量和多樣性,將需要重新評估該部門如何處理信息流。這種未來能力的兩個最重要的方面將是通過它所提供的同步 "控制 "實現 "指揮 "的蛻變。
"指揮的藝術"將實現梅特卡夫定律的網絡價值(梅特卡夫定律指出,電信網絡的價值與系統連接用戶數量的平方成正比),而控制的科學將繼續應用摩爾定律的擴展技術來擴展人類能力。
我們現在正處在一個威脅、技術和信息速度要求改變指揮和控制空天部隊的既定架構的關口。所有軍種都已認識到這一點,并已開始行動,為各自的領域制定新的作戰概念。面臨的挑戰是如何確保每個軍種的作戰概念都被整合到一個統一的聯合全域指揮和控制架構中。
該作戰云的開發理念是建立一個情報、監視和偵察、打擊、機動和維持綜合體,利用信息時代的技術進行高度互聯的分布式作戰,它將迎來一個完全不同的戰爭架構。JADC2的根本基礎是將準確的、高質量的信息下放到最低的信息節點,以達到預期的效果,而不考慮服務、領域或平臺。
美國空軍實現這一目標的方法是努力設計和開發一個先進的戰斗管理系統(ABMS)。ABMS的要素已經被定義,但它們還沒有發展成一個可執行的指揮和控制架構。要達到JADC2和ABMS所期望的最終狀態,即以安全、可靠和強大的方式在整個戰斗空間進行無處不在的無縫信息共享,將需要多年時間。鑒于重大威脅的快速演變和當前C2設施的脆弱性,軍方必須現在就修改當前的空天部隊的指揮和控制結構。
需要一個新的架構來支持一個作戰概念,以實現最近被納入美國空軍理論的集中式指揮、分布式控制和分布式執行的C2范式。建立一個新的作戰指揮架構不需要技術上的突破,因為已經存在的技術可以應對分布式指揮和控制功能的直接挑戰,使其不能通過對幾個關鍵的C2節點的打擊而被消除。
美國空軍一直在開發一個支持其新理論的作戰概念,即敏捷作戰部署(ACE)。敏捷作戰行動是一個概念,它在短時間內將部隊和資產分散到多個分離的地點,以使對手的計劃變得復雜。有了適當的C2系統,ACE可以從許多可防御、可持續和可轉移的地點將對手的目標置于危險之中。應用這一概念的細節取決于使用的戰場,但從根本上說,想法是一樣的,指揮和控制是這一概念成功的根本。
空天聯合作戰中心將仍然是在不太嚴重的地區沖突期間進行C2操作的可行手段。然而,為了實現JADC2的目標,該部門將必須向戰斗空間邊緣的作戰人員提供信息,而不依賴于傳統的聯合空天作戰中心模式,即數百人圍繞著獨立的任務區組織起來的小部門。
因此,該部門必須迅速超越我們今天所依賴的大型集中式聯合空天作戰中心結構,發展為一套更加靈活和分布式的流程和指揮與控制結構。同時,這個新架構必須能夠適應空戰管理系統和JADC2的發展。但鑒于這些項目的緩慢發展,我們不能等待開始改變空天部隊的C2架構。
這個新架構有許多選擇:建立加固的空天聯合作戰中心,并將功能遠程分配給指定的單位;將目前納入空天聯合作戰中心的規劃功能分配到多個地點,并在它們之間共享所產生的規劃;通過轉移與連接水平相對應的執行權力,建立基于作戰單位和其各自指揮要素之間連接程度退化的執行過程和程序。
無論選擇什么樣的發展方式,有一點是肯定的,美國空軍必須做出堅定的努力來分配必要的指揮和控制功能,以確保在有爭議的環境中有效使用空天部隊,而且這種努力必須現在就開始。
JADC2的根本基礎是將準確的、具有決策質量的信息下推到最低的信息節點,以達到預期的效果,而不考慮服務、領域或平臺。
David A. Deptula,美國空軍中將(退役),是弗吉尼亞州阿靈頓的米切爾航空航天研究院院長,也是美國空軍學院的高級軍事學者。他是1991年 "沙漠風暴 "行動空襲的主要策劃者;1990年代末伊拉克上空禁飛區行動的指揮官;2001年阿富汗上空空襲行動的指揮官;兩次擔任聯合特遣部隊指揮官;并擔任2005年南亞海嘯救援行動的空中指揮官。他是一名戰斗機飛行員,擁有超過3000個飛行小時--400個戰斗小時--包括F-15戰斗機的多個指揮任務。他曾擔任空軍第一個情報、監視和偵察(ISR)三星級主管,在那里他改造了美國的軍事ISR和無人機事務。
為了實現JADC2的目標,美國空軍必須在戰斗空間的邊緣向作戰人員提供信息。空軍必須迅速發展,超越今天的大型集中式空天聯合作戰中心,數百人圍繞著獨立的任務區,形成一個更加靈活和分分布式流程和指揮控制架構。這個新架構必須適應空戰管理系統和JADC2的發展。但鑒于這些項目的緩慢發展,空軍不能等待改變空天部隊的指揮和控制架構。
2021年中期,參謀長聯席會議(CJCS)主席Mark A. Milley將軍在國會作證時談到了美軍新的聯合作戰概念(joint warfighting concept,JWC)以及相關的聯合全域指揮與控制(JADC2)框架實現的重要性。Mark A. Milley將軍說道:JWC是一項長期的工作,旨在為針對未來威脅的聯合作戰(joint operations)制定一個全面的方法,并為未來的部隊設計和發展提供指導。JWC輔助概念描述了關鍵的作戰功能,火力、后勤、C2和信息優勢。聯合全域指揮與控制(JADC2)框架使得JWC和輔助概念的整體發展和實現成為可能。
聯合作戰概念的根本基礎是全域作戰概念。這一概念是美軍在優化協同效應的過程中的下一步發展,這種協同效應是通過在空中、太空、海上、陸地和電磁波譜等領域的綜合作戰而產生的。這一歷程始于1986年通過的Goldwater-Nichols國防部重組法案,該法案旨在提高武裝部隊進行聯合(軍種間)和合成(聯盟間)作戰的能力。
如果開發和實施得當,聯合作戰概念(JWC)將產生一套遠比今天的聯合作戰(joint operations)更具決定性、更強大的戰斗結果,在許多情況下,聯合作戰只是涉及服務部門的沖突而非整合。為了實現聯合作戰概念,國防部需要認真對待將理論變為現實。這意味著要采取漸進但具體的步驟來實現JADC2的目標,而不是等待一個完整的解決方案來實施這一概念。
聯合全域指揮與控制(JADC2)將需要很多時間來設計,因為它涉及到對現有概念、能力和服務觀點的巨大轉換。但是,這些努力可以通過當前指揮和控制(C2)范式的快速演變而加速進行。具體來說,現在是時候超越大型的、集中的、靜態的指揮和控制設施,轉向移動的、分布式的指揮和控制,有能力處理與區域性聯合空天作戰中心相同的信息量和多樣性。
由于它通過接受不同領域能力的互補性而非僅僅是相加來尋求全領域的協同作用,JADC2的目標是實現相互依賴,以提高有效性并彌補每個領域的單獨脆弱性。預期的軍事效果將越來越多地由共享信息和相互授權的系統互動來產生。
JADC2的愿景是通過數字連接將資產結合起來,成為一個能夠在整個作戰區域進行分解、分布式作戰的武器系統,而不是在每個領域都有一套互不相干的、單一的作戰系統。這一努力將需要把每一個平臺作為傳感器和效應器來對待。它將需要一個新的戰斗指揮架構和C2范式,能夠自動連接,就像今天的手機技術一樣。這個架構還需要安全、可靠和無縫地傳輸數據,而不需要人的互動。
實現JADC2的總體目標,使其具有自我形成、自我修復的綜合體所需的整合程度,這將是困難的,需要付出巨大的努力。每個軍種和作戰司令部都將參與其中。組織、文化、培訓、采購和政策方面的幾個主要障礙將需要被克服。這一努力將需要連接、決策和快速反應。它將需要有彈性的網絡,以及各軍種、盟國和合作伙伴之間尚未達到的共享程度。
即使是現在,各軍種、作戰司令部以及我們的盟友和合作伙伴也正在解決這些眾多的和多方面的挑戰。但由于其復雜性,要想實現一體化、相互依存、自我形成、自我修復的全域聯合和合成作戰的最終愿景,還需要很多年,甚至幾十年。然而,我們所面臨的日益增長的威脅需要今天的解決方案。因此,現在是時候解決JADC2中那些現在可以改變以應對這些挑戰的要素了。
每個軍種和作戰司令部都有完善的作戰指揮和控制概念、設施和程序,在過去的沖突中證明是可行的。然而,目前存在的各種指揮和控制架構都需要進行廣泛的修改,以便在新出現的威脅下生存,更不用說作戰。
在所有領域的成功作戰的一個先決條件是對空天環境的控制。一旦建立起來,這種控制有利于所有其他聯合和合成部隊的作戰和移動自由--沒有它,有效的聯合和合成作戰是不可能的。因此,確保有效指揮和控制空天作戰的關鍵功能必須是一個優先事項。
指揮和控制空天部隊的能力受到三個主要因素的影響:威脅、技術和信息的速度。自從美國空軍的空天作戰中心--AN/USQ-163 Falconer--的設計、建立和運行以來,這三個領域的變化是巨大的,并繼續加速。
因此,現在是提出問題的時候了,空軍能否通過發展我們目前的作戰概念、組織和采購流程來實現現代化的成功,或者該部門必須尋求對這些影響目前戰區空天控制系統的每個要素進行根本性的改變?在提供答案之前,讓我們簡單看看影響我們有效指揮和控制空天作戰動能力的每個趨勢。
今天,當美國軍隊試圖在反介入/區域封鎖(A2/AD)環境中作戰時,同行的威脅對目前的指揮和控制手段構成了不可接受的風險。30多年來,美國空軍指揮和控制基本上一直處于停滯,在空天領域不受競爭的影響。然而這些日子已經過去了。
軍事競爭對手已經以前所未有的規模完成了現代化。他們已經迅速縮小了與美國、盟國和友好國家軍隊在包括飛機、航天器、導彈、武器、網絡、指揮和控制、干擾器、電子戰、數據鏈接等廣泛能力方面的差距。
潛在的對手也研究了美國的戰爭方式,并確定與其面對我們的戰斗力,不如讓我們遠離他們。他們已經采用并正在擴散A2/AD能力,旨在拒絕美國及其盟國和合作伙伴的行動自由。減輕這些能力帶來了巨大的挑戰,促使我們在更大的風險和遠離潛在沖突地區的情況下行動。反介入/區域封鎖能力以多種方式威脅著該部門指揮和控制空天作戰的能力。近鄰的對手可以使用動能和非動能武器來拒絕我們的通信和來自天基資產的情報、監視和偵察,從而孤立我們的部隊并蒙蔽我們的視野。
網絡攻擊正變得越來越復雜,并能破壞完善的空天聯合作戰中心的運作。精確的遠程巡航導彈和彈道導彈現在威脅著這些大型、固定和脆弱的設施。作為產生戰略、計劃和空天資產任務指令的工廠,空天聯合作戰中心已經成為一個極其有利可圖的目標。
新技術正在促成新的能力,優化指揮和控制機制以達到預期效果。服務部門需要超越傳統文化對新技術的限制。例如,下一代飛機可能仍然被貼上傳統術語的標簽,如戰斗機、轟炸機和空運機,但由于傳感器、處理能力、武器、能源生產和其他能力的小型化,在技術上它們有能力執行多種任務。它們是飛行的 "傳感器效應器",可以形成高度彈性的冗余節點網絡和多殺傷路徑的基礎,以最大限度地減少目前高度集中和有限的指揮和控制節點的關鍵系統價值,如聯合空天作戰中心,敵人可以很容易地瞄準。
這將需要領先的網絡能力、有保障的通信,以及解決我們的數據帶寬挑戰的不同方法。例如,為了解決來自先進傳感器的爆炸性數據增長,與其建造更大的管道來傳輸收集的數據,不如現在提高處理能力,使得機載數據的處理成為可能,并且只對用戶感興趣的內容進行分發。這種方法顛覆了我們今天處理情報、監視和偵察的方式。
快速的信息交流在戰斗的前沿尤其重要,因為實際數據的價值往往是短暫的,并隨著時間和環境的推移而減少。開發一種技術方法,在不同的用戶之間、在多個分類和盟國及伙伴國之間自動和快速地分享信息,將是創建未來部隊的一個關鍵。
古老的格言,"速度就是生命",不再僅僅是指飛行--它也是指快速發展的軟件工具,用于戰斗和勝利。我們必須跳出歷史上刻在我們集體心靈中的組織結構的思維。以網絡為中心的、相互依賴的、功能整合的作戰是未來軍事成功的關鍵。
電信、傳感器、數據存儲和處理能力方面的重大進步每天都在出現。因此,瞄準周期已經從幾周到幾天發展到幾分鐘,從多架、專門和獨立的飛機發展到一架飛機在幾分鐘內 "發現、修復和完成 "的能力。越來越多的信息獲取需要對指揮和控制層次進行重組,以促進對易逝目標的快速介入,并利用我們的技術能力。信息綜合和執行權力必須轉移到盡可能低的級別,而高級指揮官和參謀人員必須約束自己,以保持適當的戰爭水平。
要超越大型的、集中的、靜態的指揮和控制設施,轉向移動的、分布式的C2,并有能力處理與今天的區域性聯合空天作戰中心相同的信息量和多樣性,將需要重新評估該部門如何處理信息流。這種未來能力的兩個最重要的方面將是通過它所提供的同步 "控制 "實現 "指揮 "的蛻變。
"指揮的藝術"將實現梅特卡夫定律的網絡價值(梅特卡夫定律指出,電信網絡的價值與系統連接用戶數量的平方成正比),而控制的科學將繼續應用摩爾定律的擴展技術來擴展人類能力。
我們現在正處在一個威脅、技術和信息速度要求改變指揮和控制空天部隊的既定架構的關口。所有軍種都已認識到這一點,并已開始行動,為各自的領域制定新的作戰概念。面臨的挑戰是如何確保每個軍種的作戰概念都被整合到一個統一的聯合全域指揮和控制架構中。
該作戰云的開發理念是建立一個情報、監視和偵察、打擊、機動和維持綜合體,利用信息時代的技術進行高度互聯的分布式作戰,它將迎來一個完全不同的戰爭架構。JADC2的根本基礎是將準確的、高質量的信息下放到最低的信息節點,以達到預期的效果,而不考慮服務、領域或平臺。
美國空軍實現這一目標的方法是努力設計和開發一個先進的戰斗管理系統(ABMS)。ABMS的要素已經被定義,但它們還沒有發展成一個可執行的指揮和控制架構。要達到JADC2和ABMS所期望的最終狀態,即以安全、可靠和強大的方式在整個戰斗空間進行無處不在的無縫信息共享,將需要多年時間。鑒于重大威脅的快速演變和當前C2設施的脆弱性,軍方必須現在就修改當前的空天部隊的指揮和控制結構。
需要一個新的架構來支持一個作戰概念,以實現最近被納入美國空軍理論的集中式指揮、分布式控制和分布式執行的C2范式。建立一個新的作戰指揮架構不需要技術上的突破,因為已經存在的技術可以應對分布式指揮和控制功能的直接挑戰,使其不能通過對幾個關鍵的C2節點的打擊而被消除。
美國空軍一直在開發一個支持其新理論的作戰概念,即敏捷作戰部署(ACE)。敏捷作戰行動是一個概念,它在短時間內將部隊和資產分散到多個分離的地點,以使對手的計劃變得復雜。有了適當的C2系統,ACE可以從許多可防御、可持續和可轉移的地點將對手的目標置于危險之中。應用這一概念的細節取決于使用的戰場,但從根本上說,想法是一樣的,指揮和控制是這一概念成功的根本。
空天聯合作戰中心將仍然是在不太嚴重的地區沖突期間進行C2操作的可行手段。然而,為了實現JADC2的目標,該部門將必須向戰斗空間邊緣的作戰人員提供信息,而不依賴于傳統的聯合空天作戰中心模式,即數百人圍繞著獨立的任務區組織起來的小部門。
因此,該部門必須迅速超越我們今天所依賴的大型集中式聯合空天作戰中心結構,發展為一套更加靈活和分布式的流程和指揮與控制結構。同時,這個新架構必須能夠適應空戰管理系統和JADC2的發展。但鑒于這些項目的緩慢發展,我們不能等待開始改變空天部隊的C2架構。
這個新架構有許多選擇:建立加固的空天聯合作戰中心,并將功能遠程分配給指定的單位;將目前納入空天聯合作戰中心的規劃功能分配到多個地點,并在它們之間共享所產生的規劃;通過轉移與連接水平相對應的執行權力,建立基于作戰單位和其各自指揮要素之間連接程度退化的執行過程和程序。
無論選擇什么樣的發展方式,有一點是肯定的,美國空軍必須做出堅定的努力來分配必要的指揮和控制功能,以確保在有爭議的環境中有效使用空天部隊,而且這種努力必須現在就開始。
作者:Deptula中將是美國空軍學院米切爾空天研究中心的院長和高級軍事學者。