強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中，訓練是在一個簡單的總體層面上進行的，模擬能夠實現確定性和隨機性的戰斗模型，神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說，神經網絡能夠學習到理想的行為，其中作戰模型和強化學習算法對性能的影響最為顯著。此外，在集結是最佳戰術的情況下，訓練時間和學習率被確定為最重要的訓練超參數。然而，當武力的經濟性是理想的時候，折扣系數是唯一有重大影響的超參數。綜上所述，本論文得出結論，強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段，它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究，以充分了解強化學習的能力和局限性。

付費5元查看完整內容

1 引言

美國陸軍現代化激增是由對手在多個領域（如陸地、海洋、空中、網絡、電磁和空間）對美國構成的威脅所推動的，這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行，人工智能（AI）將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程（TTPs）。這些機器人將聚集在一起，形成智能多Agent團隊，與人類士兵有效協作，完成任務。

美國陸軍作戰能力發展司令部（DEVCOM）陸軍研究實驗室（ARL）的基本研究計劃（ERPs）構建了開發和實施智能多Agent系統（MAS）的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案，這些問題匯聚在一起，指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性（AIMM）和新興超限技術（EOT）是ERP的例子，明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃，并通過戰場上的自主機動（AIMM）和保護（EOT）向士兵提供支持。本報告重點關注需要進行的自主協作，以使多智能體系統（即人類、智能體或人類和智能體混合）在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步，重點是超越我們目前的能力，以有效地對付同等裝備的對手（同行或接近同行）的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動（OODA-Loop）。雖然新的努力促進了對多智能體范式中情報的一般理解，但目前對情報的解釋并不明確。最近的文獻表明，基于強化學習（RL）的方法可能為實現這種技術進步提供了一條可行的途徑，本文介紹的一系列工作就是證明。

在本報告中，介紹了RL領域的貢獻，以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作，以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外，協作的戰略機動可以通過各種RL方法學習，以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作，我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展（如alphago）促進了更復雜的多智能體強化學習（MARL）算法在現實世界應用。此外，近年來也有一些框架來實現多智能體協作。這些努力加在一起，可以為開發和實施多機器人協作提供一條道路，以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中，對近年來突出的RL方法進行了分類和概述，并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說，本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外，對選定的RL方法類別進行了分類，以深入了解戰略機動的潛在實施，并考慮到情報、監視、目標獲取和偵察（ISTAR）任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說，戰略機動可以解釋為一組智能體協調他們的行動，通過戰勝對手來實現一個共同的目標。破壞，是戰略機動的一個特例，可以表示為對對手協作戰略機動的抑制。因此，戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方，他們處于動態的斗爭中，通過限制、抑制或以其他方式破壞對手的協調或戰術，并強加自己的協作戰術來獲得對對方的優勢。

在本節中，提供了一個對抗性的交戰場景，其核心是使用選定的遠程資產，這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例，描述了與所述多域作戰（MDO）情景相關的選定資產和部隊的軍事符號學。根據MDO理論，在武裝沖突中，對手的遠程反介入和區域拒止（A2AD）火力系統可以被用來拒絕友軍在戰區的機動自由（見圖1）。這是通過將情報、監視和偵察（ISR）資產與致命性和非致命性火力相結合來實現的，以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產（如部隊和裝備）的傳統集結地（見圖2）。對手有能力在友軍后方深處識別和攻擊目標，導致這些實體在地理上與戰術支持區和近距離區分離，這有效地提高了友軍的損耗率，即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離，敵對勢力可以利用這種友軍孤立無援的情況，將其消滅。

圖1 友軍（BLUEFOR，左）和敵軍（OPFOR，右）部隊的資產和資源。在所描述的MDO情景中，假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍（OPFOR）使用遠程導彈和火箭炮干擾或破壞友軍（BLUEFOR）戰略支援區的維持行動，這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略，BLUEFOR執行反擊任務，以摧毀位于深火區的OPFOR遠程火力系統（藍色箭頭）。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術，它打破了對手的隊形和節奏。

圖3 壓制（S）或解除（N）敵方遠程火力系統和ISR資產，使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人，并使機動指揮官有能力利用他們的成功，迅速將部隊轉移到深度機動區，摧毀（D）脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定"，可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃（即對峙），以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰（即穿透和瓦解A2AD系統以利用機動自由）。在這里，我們只關注友軍（BLUEFOR）野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分，這可能需要在未來的戰斗中使用自主MAS。此外，據推測，圖1中友軍（BLUEFOR）和敵軍（OPFOR）的所有符號都將包含自主化的編隊（例如，機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產）。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示，敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視（未顯示）接收有針對性的情報，在狹窄的時間窗口內打擊高價值目標（即多管火箭系統[MLRS]），以減少對手的位置調整。除了監視之外，還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中，MARL可以通過利用敵軍理論和敵軍行動中的局部觀察，戰略性地照亮和跟蹤敵軍目標的位置。此外，經過MARL訓練的具有自主能力的編隊，結合高度機動和分散的空中和地面火力，可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP，進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅，戰略和作戰支援部隊能夠向前方的作戰部隊推進（機動）（見圖2）。

敵軍利用ISR資產識別作戰支援區的友軍資產，并從作戰縱深火力區用遠程火力系統（即多管火箭炮）攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力，這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外，這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論，為了消除對峙，友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制（C2）節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口，可以被機動指揮官所利用。在這種覆蓋下，友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區，近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊（即MAS），利用MARL訓練的策略來利用對手的TTP（來自理論）、本地觀察和ISR收集的信息。如圖2所示，聯合部隊將協調其ISR和遠程精確火力的能力，為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下，擁有自主能力的前線部隊可以在近距離和縱深地區進行協調，以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊（OPFOR），使遠程火力系統容易受到地面攻擊（瓦解），如圖2所示。

聯合火力（即友軍或BLUEFOR）壓制或消滅對手的遠程火力系統，使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊（見圖3）。然后，友軍機動部隊利用這一優勢，在深度機動區（見圖3中的D區）摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出，并在深層機動區域建立一個新的戰線。這個過程不斷重復，直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外，鑒于目前正在積極研究開發和部署這種自主系統，預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景；然而，在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試，或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中，我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講，RL是機器學習（ML）的一個分支，它超越了從數據中建立精確的預測，通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式，但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習（或訓練），最終確定在當前情況下（即該智能體在環境中的狀態），哪一個是智能體要選擇的最佳行動。例如，RL智能體可以與環境互動，產生與獎勵掛鉤的經驗，這將形成學習的策略（即一系列的狀態-行動對）。然而，在后面的章節中強調，目前的RL方法可能還不夠成熟，無法克服與人類類似的適應性相關的挑戰，以便在新情況或環境中進行智能決策。盡管RL算法有其缺點，但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中，協作通常是定義不清的，而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中，開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性，以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件，而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下，最佳行為可能是可取的，但如果任務以某種不可預見的方式發生了變化，一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此，未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分，描述了與開發戰略機動MAS有關的一些挑戰，其中時間尺度、能力和局部目標可能有很大的不同（例如，MDO），但需要某種程度的協作。此外，假設更大程度的靈活協作可以促進任務執行的改進（例如，更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成）。

隨著環境在動態戰場上的變化，敵對雙方（至少）可能需要重復規劃和預測，以便1）跟上，或2）領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外，如果學習智能體建立了一個關于對手協作行動的適當模型，然后采取行動破壞這種協作，也可以實現這一目標。

在一個理想的情況下，一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力（獲得新的能力或失去以前的能力）、團隊組成（例如，改變合作者）和局部目標的變化。然而，大多數最先進的（sota）方法受到經驗的限制（正如許多RL方法的情況一樣）。此外，在大多數模擬中，團隊的能力和組成通常是固定的，不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此，在選擇一種算法來指導旨在產生戰略機動的MAS的行為時，必須考慮新的或動態的事件、行為、資產和實體。

總之，目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1）數據要求，由于情況的新穎性，數據是有限的，數據集不足以產生準確的預測，或者數據以某種方式被污染（例如，嘈雜、臟亂或對手的改變），2）有限的計算資源，以及3）算法不能泛化到訓練期間遇到的情況之外（例如，不同的目標、改變的能力或修改的團隊組成），導致狹隘或脆弱的MAS解決方案。

在下一節中，我們將更詳細地討論RL的缺點，以闡明如何克服這些問題，為軍事防御MDO環境提供解決方案。為此，我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力，這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一，特別是因為這種任務可能需要大量的智能體來完成一個目標。此外，軍事任務可能涉及多個子任務，每個子任務都有自己的子目標，從而進一步復雜化了場景。在MDO中，預計一個子目標由無數復雜的戰略演習組成，這需要MAS的快速計算，以及使用最小計算資源（如在戰術邊緣計算）的最佳（或至少足夠）戰略。因此，一個可擴展的RL算法必須考慮到：1）環境和任務的復雜性；2）智能體（伙伴和對手）的數量，以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性（即智能體的狀態和行動空間的大小）可以指環境的狀態空間中可用的狀態數量，以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中，在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體（例如，擴展到MAS），其中狀態空間被放大以考慮到額外的智能體，而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的，因為連續的領域會使表格無法維持，而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源（如過多的計算機內存）來包含所有的狀態，在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反，一個解決方案是使用非參數函數近似器（例如，權重為參數的深度神經網絡）來近似整個狀態空間的值。然而，函數近似器必須是可微分的，這樣就可以計算出一個梯度，以提供參數調整的方向。

有兩種方法來訓練值函數近似器：1）增量方法和2）批量方法。增量方法使用隨機梯度，在梯度方向上調整近似器的參數，使估計值和目標值之間的誤差最小。然而，增量方法的樣本效率不高，因此不具備可擴展性。相比之下，批量處理方法從一組經驗中保存數據，并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處，即結果是已知的（例如，數據被標記），計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡（DQN）玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功，但如果不考慮額外智能體的加入（即非平穩性或部分可觀察性），單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比，策略學習方法依靠策略梯度（PG）的計算來明確優化策略，而不是間接依靠價值函數。與函數近似方法相比，PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效（即在復雜環境中可擴展）。在蒙特卡洛（MC）策略梯度（例如REINFORCE算法）中，實際回報（選擇行動）與一個分數函數相乘，以計算梯度。該梯度被用于策略調整（通過改變參數值）以找到最大的回報行動。MC策略梯度具有高方差，收斂速度慢，因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中，PG方程被修改為使用價值函數的近似值，而不是使用真實的行動-價值函數乘以分數（如REINFORCE算法）。這表明行為者按照評論者所指向的方向調整策略，以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法（即MC、時差-TD（0）和TD（λ））來完成。為了減少策略梯度的差異，可以使用一個優勢函數。優勢函數告訴我們，與一般的狀態值函數相比，一個行動比另一個行動（Q值）好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error，它是優勢函數的無偏樣本，評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是，MC（高方差）和TD方法可以與行為人一起使用，隨著時間的推移（即收集的經驗）修改策略。

由于MDO涉及軍事任務，RL算法必須有能力與許多其他智能體協調，以實現最佳的戰略機動，因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間（即許多智能體）和多領域環境的大量觀察能力。在接下來的章節中，我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法，其中狀態行動空間可以是連續的或離散的。在這一節中，討論了無模型算法的優勢和劣勢，以及它們如何與戰略機動相一致，從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡（DQN）

深度Q網絡（DQN）是一種單一的RL智能體算法，它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡，從高維輸入（連續圖像）中學習。

DQN算法是一種有效的樣本方法，因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大，可以使用相同的超參數進行訓練，玩六種不同的Atari游戲，其中智能體在其中三個游戲中的表現比人類專家更好。

然而，DQN的一個缺點是，在理論上不能保證訓練好的神經網絡實現穩定的Q值預測（即在不同的獨立模型中，訓練好的策略可能會有很大的差異）。

鑒于DQN本質上是一個單一的RL智能體模型，它應該不足以在MDO中進行戰略機動。在MDO中，多智能體RL算法可能更適合，因為智能體在執行時間內典型的分散化，允許智能體彼此獨立運作。此外，DQN的原始實現只利用了四個觀察序列來學習Q值，這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上，這是DQN在評估的三個Atari游戲（即Q*bert、Seaquest和Space Invaders）中與人類相比表現不好的主要原因。然而，存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體，它學習了一個Q網絡的集合，以提高采樣效率，并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法，以解決大的行動空間。帶有記憶類型的DQN（即循環神經網絡）也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境，這種方法就特別有用。另外，分布式DQN返回一個分布信息，可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途，但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術，而這是MDO中戰略機動的需要。此外，DQN在大多數情況下計算量太大，無法用于軍事相關環境。最后，DQN算法方法對未見過的例子（例如，伙伴的新行為或環境中出現的實體/障礙）缺乏足夠的適應性。

4.2 深度確定性策略梯度（DDPG）

在現實世界中，大多數常規任務涉及連續狀態和行動空間。然而，DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度（DDPG）方法。DDPG通過結合價值函數近似和確定性策略梯度（DPG），推進了DQN方法的進展。DDPG利用行為批判的方法，可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務（如車桿、靈巧的操縱、腿部運動或汽車駕駛）。

另一種使用深度神經網絡的方法是信任區域策略優化（TRPO）。這種方法直接構建一個隨機策略，而不需要演員-評論者模型（不要與環境模型混淆，這將使其成為一種基于模型的方法）。與TRPO類似，引導式策略搜索（GPS）不需要角色評論模型，而是使用軌跡引導的監督式策略學習以及一些額外的技術（例如，減少視覺特征的維度，在網絡的第一層增加機器人配置動態的信息）。因此，GPS的數據效率很高，如果需要的話，可以改編成DDPG。另一方面，PILCO首先學習一個概率模型，然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率；然而，它的計算量很大。此外，D4PG對DDPG算法提出了一些改進：分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級，以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看，DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法（即獨立學習者）。因此，DDPG算法不便于在多智能體場景中進行協作。因此，使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外，DDPG不具備處理基于角色的多目標任務的能力，而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度（MADDPG）

RL智能體互動對于戰略機動的人工智能系統至關重要，不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題，多智能體深度確定性策略梯度（MADDPG）算法擴展了一個演員評論家方法，這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練，并在測試期間部署分散的演員。一個評論者（每個智能體都有一個）接收每個智能體的策略，這允許開發具有潛在不同獎勵功能的依賴性策略（例如，MADDPG允許訓練具有相反獎勵功能的對抗性團隊）。相反，演員（即策略網絡）在訓練和測試期間只擁有本地知識。演員（通過訓練）在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是，對Q函數的輸入隨著環境中智能體數量的增加而增加（不可擴展）。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除，可能需要進行再訓練。在戰略機動中，智能體可能需要定期轉換角色或改變能力，這對MADDPG適應軍事領域構成了重大挑戰。此外，頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷，使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用，希望有一個強大的對手或智能體模型，以便使作戰時間最大化（即有足夠的時間來執行戰略機動）。

為解決其可擴展性問題，對MADDPG的一個潛在修改是形成智能體集群，為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下，可以推遲重新訓練的需要，因為從理論上講，一個智能體集群將有一套處理動態情況的可變能力。此外，這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而，問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務，并使最優分組策略的退化程度最小？

雖然MADDPG可以形成一組異質的多智能體策略，能夠完成不同的任務，但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加，策略梯度的方差會呈指數級增長。因此，這種方法不太適合MDO中的戰略機動，在這種情況下，必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法，該算法計算鄰近智能體Q值的均值估計，當智能體之間的鄰近互動變得復雜時，可能導致高誤差率。此外，進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合，使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功，可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是，反事實多智能體（COMA）方法對所有智能體使用一個集中的評論家，但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性，但它可能導致一套同質的策略，在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似，Minmax多智能體DDPG（M3DDPG）比MADDPG的原始版本增加了一項改進，允許智能體制定更穩健的策略來對抗對手（即具有對立獎勵結構的競爭游戲）。然而，M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法，有時需要利用常見的技術來操作輸入或輸出，如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中，離散的策略組件被用來計算連續的行動。從另一個角度來看，多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制，然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法，但這些算法方法沒有用連續信息進行訓練，這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的，其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值，而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體，仍需進行再訓練。然而，與MADDPG相比，它更具有可擴展性，因為單個Q值僅從局部觀察中學習，避免了通過學習因子化的Qtot來學習聯合行動值。但是，當有超過40個智能體時，這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性，已經提出了基于角色的算法RODE，其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動，RODE算法是非常有前途的，因為各組智能體可以被分配到不同的角色，其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為（對于盟友或甚至敵人）。然后，該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制，該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用，這可能會在未來的工作中進行研究。即使RODE是非常可擴展的，我們也不清楚當新的智能體將被添加到環境中時如何調整它；需要學習一個集中的策略以實現最佳協作。

與RODE算法相比，一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略，實驗表明它能夠擴展到1000多個智能體。如前所述，可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多，狀態空間越大。RODE是有限的，因為它使用一個集中的策略，當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法（即共享一個中央經驗重放緩沖器），其執行是分布式的（即每個智能體根據其本地觀察做出自己的控制決定），而不是來自中央控制器。由于這種分布式的方案，當智能體被添加或從系統中移除時，團隊不受影響，繼續執行他們的策略。

在可擴展性方面，訓練大型MAS（即許多智能體）是很困難的，而且已經表明，即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題，該方法允許在較小的智能體集合上訓練策略（例如，在目標追蹤場景中，四個智能體追蹤四個目標），并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整（即用1000個智能體測試和評估）。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化：它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看，這種提法是戰略機動的理想選擇，因為現場的智能體可能會在原地丟失或獲得，可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素，包括科技進步，美國的對手正在變得更加先進。在未來的MAS自主戰爭中，協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中，我們討論了一些最突出的RL算法，以發現訓練MAS的可行候選策略，這些MAS可以有效地進行戰略機動，從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法，并對最突出的RL算法進行了概述。研究發現，由于訓練和測試因素的不同，大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案，AIMM和EOT ERPs特別促成了研究，可以為協作的自主MAS提供一個路徑，可以克服與1）環境，2）對手戰術和能力，3）自身能力（即，獲得新的能力，失去以前的能力，或能力被改變），4）團隊組成（例如，增加、刪除或交換隊友），5）戰略團隊定位、進入、導航（機動）以支持部隊并壓倒對手，以及6）任務目標。最近，AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法，并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性，此外還評估了利用一系列集中訓練技術的新算法方法。

此外，還需要進行更多的調查，以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下，將完全自主的MAS送入高風險情況（即預期因果率高的情況）是可取的；然而，由于目前的技術限制，僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此，在未來的工作中，將進行研究以確定一套強有力的交戰方案。最后，這項工作將導致自主MAS的最終整合，以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

AI與軍事 · 軍事兵棋推演 · 強化學習 · 作戰實體行為 · 美國海軍陸戰隊 ·

2022 年 6 月 16 日

[付費5元查看完整內容]《在兵棋推演和模擬中應用強化學習開發作戰實體行為》美國海軍陸戰隊、海軍研究生院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能（AI）的進展，特別是深度強化學習（RL），已經產生了能夠達到或超過專業人類水平的系統。這項研究探索了RL訓練人工智能agent的能力，以實現小型戰術交戰中的最佳進攻行為。agent在一個簡單的、總體級別的軍事建設性模擬中接受了訓練，其行為得到了規模和經濟力量戰術原則的驗證。結果顯示，所應用的戰斗模型和RL算法對訓練性能的影響最大。此外，特定的超參數訓練也有助于行為的質量和類型。未來的工作將尋求在更大和更復雜的戰斗場景中驗證RL的性能。

付費5元查看完整內容

AI與軍事 · 指揮與控制 · 新南威爾士大學 (UNSW) · 論文 ·

2022 年 5 月 18 日

[付費5元查看完整內容]《敏捷、抗脆弱、以人工智能為基礎的指揮和控制》萬字長文，中文版，新南威爾士大學

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能（AI）正迅速融入軍事指揮與控制（C2）系統，成為許多國防部隊的戰略重點。人工智能的成功實施有希望預示著通過自動化實現C2靈活性的重大飛躍。然而，需要對人工智能在可預見的未來所能實現的目標設定現實的期望。本文認為，人工智能可能會導致脆弱性陷阱，即把C2功能委托給人工智能會增加C2的脆弱性，導致災難性的戰略失敗。這就要求在C2中建立一個新的人工智能框架以避免這種陷阱。我們將論證，"抗脆弱性 "和敏捷性應該構成人工智能C2系統的核心設計原則。這種雙重性被稱為敏捷、抗脆弱、人工智能驅動的指揮和控制（A3IC2）。一個A3IC2系統通過C2決策周期中的反饋過度補償，不斷提高其在面對沖擊和意外時的表現能力。一個A3IC2系統不僅能夠在復雜的作戰環境中生存，還能茁壯成長，從戰爭中不可避免的沖擊和波動中獲益。

I 引言

許多人認為，將人工智能（AI）納入軍事指揮和控制（C2）是建立軍事力量競爭優勢的一個關鍵因素[1],[2],[3]。人們對人工智能在戰場上能夠實現的目標抱有很高的期望，有些人宣稱它是下一場"軍事事務革命"[4]。人工智能有望在C2中實現復雜功能自動化，從而導致"戰場奇點"的概念，即決策周期自動化帶來的行動速度的增加導致人類的認知無法跟上機器做出決定的速度[3]。在這種對未來戰場的展望中，人被認為是C2系統中的一個薄弱環節[5]。

本文認為，人工智能的整合可能會對尋求機器速度決策的C2系統性能產生意想不到的后果；從戰略上講，一個已經達到 "戰場奇點"的系統在根本上是脆弱的。人工智能的快速發展及其對C2系統明顯的革命性/顛覆性影響在很大程度上是由對戰爭期間對對手的 "響應"程度的關注所引導的，而不是對這種技術可能對C2系統性能的整體影響。文獻中提出了兩個假設：第一，假設人工智能將通過優化系統的各個部分來進一步實現提高敏捷性的目標；第二，由于復雜的人工智能能夠在戰時做出決定，甚至在戰略層面做出決定，未來人工智能支持的C2系統將在盡可能少的人力投入下得到改善[6],[7]。這兩個假設都是錯誤的，因為人工智能帶來了獨特的特性，可能會增加C2系統的脆弱性。

傳統上，C2系統被認為受益于一種戰略，該戰略側重于在復雜的競爭環境中最大限度地提高敏捷性[8],[9],[10],[11]。David Alberts用 "敏捷C2"的概念體現了這一戰略，該概念指出，為了使C2系統有效，它必須能夠在復雜的環境中成功應對、利用和實現變化。C2的有效性是通過系統要素的相互作用來實現的，如適應性、響應性、靈活性、多功能性、創新性和復原力[8]。然而，對"敏捷C2"模式的接受使大多數軍事C2理論和文獻將人工智能技術作為提高C2決策單獨響應性的手段[1],[2],[7],[3],[5]，而對C2系統需要響應性以滿足戰略利益這一單純的事實則關注較少。問題的核心就在這里，提高響應能力的人工智能是否能夠做到這一點，同時了解決策對跨多個領域的戰略和大戰略目標的影響。我們認為，盡管人工智能很先進，但由于人工智能系統容易受到具有戰略后果的黑天鵝事件的影響，在作戰環境中的預測從根本上來說是脆弱的[4]。人工智能的優化特性，加上人類責任的減少，可能成為阻礙C2敏捷性的 "脆弱 "方法。

為了否定上述可能導致人工智能C2系統脆弱性的一些問題，需要一個新的設計原則，以增強系統從波動中自我改善的能力，即所謂的 "抗脆弱性"[12],[13]。適當設計的人工智能可以通過在系統級存儲器中積累適當的遭遇和學習經驗來實現抗脆弱系統的發展，但它也可能鼓勵C2決策周期的過度優化。這可能會導致系統無法識別和解釋突發事件，但仍然快速推薦決策，導致負面風險的升級。因此，人工智能的整合支持了一種新模式的發展，擴展了敏捷C2的概念，并包含了抗脆弱性。這將被稱為 "敏捷、抗脆弱、人工智能驅動的指揮與控制"（A3IC2），它是敏捷C2、抗脆弱理論和人工智能用于C2的綜合體，建立在Boyd、Brehmer和Alberts[14],[8]所開發的模型之上。

為了探討A3IC2，本文的結構如下。第二節介紹了文獻回顧，將A3IC2概念與之前的其他概念區分開來。然后在第三節中介紹了人工智能導致脆弱性，接著在第四節中論證了抗脆弱性將使人工智能在C2系統中得到有效利用的原因。第五節討論了擬議的A3IC2功能模型，然后在第六節得出結論。

II 文獻回顧

A. 指揮與控制

就本文而言，軍事C2的定義是負責適當分配部隊以實現軍事目標的戰區級職能。軍事學說將其廣泛定義為 "對所分配的部隊行使權力和進行合法指揮的過程和手段"[1],[2],[15]。這有別于其他被描述為戰術層面的C2系統，如單個車輛或小單位的C2。

軍事C2與戰略決策是密不可分的。它包括一個等級組織，指揮官的意圖來自他們所保衛的國家戰略目標，為下屬的決策和行動提供方向[14]。C2的最高優先事項之一是保持對環境的態勢感知，并以軍事行動做出適當的響應（或不響應），以實現戰略目標。C2不僅要有效地進行作戰，而且還必須知道何時從非作戰行動（OOTW）過渡到作戰[16]，反之亦然。因此，軍事C2的適當抽象（或模型）需要承認沖突的全部范圍；從作戰到非作戰行動[15]。它必須考慮到C2系統所處的 "作戰環境 "的動態復雜性；從戰術到戰略層面以及它在大戰略層面產生的影響。簡而言之，有效的C2不僅僅是能夠贏得戰斗，它還必須知道什么時候挑起戰斗是一種相稱的響應[2],[15],[16]。此外，它需要了解其行動對大戰略層面的影響；也就是整個政府的目標。

C2，作為一個系統，在一個非線性和復雜的環境中運作。它被歸類為 "社會技術"系統，是技術和 "社會 "或人類元素的混合體，它們相互作用，并與更廣泛的復雜環境相互作用[17]。一個C2系統表現出動態的、突發的行為，有許多意外的或不可預知的后果。這不僅是因為這些系統依靠人類來理解復雜的環境并制定解決問題的計劃，而且因為它也是一個技術系統，態勢感知依賴于數字系統和傳感器來傳遞信息，而這些信息可能無法準確地代表作戰環境[9],[17],[10],[4]。C2系統必須完成的任務或目標完全取決于未預料到的現實世界的事件，如戰爭、環境災難和其他雜項OTW。這發生在多個領域（物理的和非物理的），并且都是在分歧的作用下。從系統思維的角度來看，C2作戰環境是真正 "超復雜"的[18],[16]。

因此，軍事C2有一個非常困難的任務，即它必須在一個復雜的環境中做出具有重要意義的決策，并保證有幾乎不可能預測或逆轉的二階和三階戰略效應[19],[4]。長期以來，軍事戰略家們一直理解這一點，并在傳統上通過心理模型或啟發式方法來管理，以指導如何理解和應對戰爭的復雜性。這些心智模式現在被固化在戰略研究學科和現代軍事理論中[4]。C2是在戰爭中取得戰略成功的一個重要手段，它被定義為 "確定一種方法，使敵人的組織因無助或混亂而崩潰"[16]。與指導這一結果相關的心智模式（必然）是高度抽象的，反映了對復雜性的理解；戰略與其說是一門科學，不如說是一種藝術。Clausewitz和他的 "分歧"概念，描述了在這種復雜性中操作的困難，它習慣于破壞所有精心策劃的計劃，導致了 "戰爭中一切都很簡單，但最簡單的事情卻很困難 "的看法[20]。自Clausewitz以來，由于信息理論、人工智能、系統思維和控制論方面的重大進展，戰略的啟發式方法已經取得了進展。關于戰爭的心智模式繼續從技術中發展，但戰爭的核心性質卻沒有發展。它在政治中的基礎要求它是一種與人的因素密不可分的活動[4],[15]。將這些心智模式轉化為指導人工智能的具體指標，是一項非同尋常的、可能不可行的任務。這些心智模型的工作原理是對背景、指揮官的意圖以及一個決定可能產生的大戰略后果的整體理解。

科學、技術和信息理論對戰略和C2概念產生了重大影響[21]。John Boyd上校，作為控制論和戰略的學者，在這兩個學科的基礎上，創造了戰略研究領域中最有影響力的功能模型之一--觀察（Observe）-調整（Orient）-決定（Decide）-行動（Act）（OODA）環。OODA環路是一個詳細描述 "贏與輸 "理論的模型，大致描述了一個人如何管理競爭環境和生存[21]。對于一個有效和可生存的C2，Boyd認為，一個系統必須能夠比敵人更快地適應其環境。調整（Orient）的步驟代表了在觀察、分析和心理模型的基礎上做出 "正確的決定"，但如果雙方對手的其他條件相同，誰能更快地循環到每個步驟，誰就能獲勝[21]。因此，推動沖突的速度超過對手反應速度的C2系統，將造成'致命的不穩定'，從而取得勝利[4]。正是從OODA循環理論的發展中，系統思維C2文獻繼續研究什么是一個卓越的C2系統；這是一個結合了系統思維方法和戰略研究的多學科領域[14],[19],[21]。文獻中有一個廣泛的共識，即戰爭的復雜性要求C2系統必須是動態的或敏捷的，允許人們既取得勝利又避免系統失敗[8],[10],[11],[9],[21],[4]。

然而，盡管OODA環路作為一種輸贏理論是合理的，但它并不是在C2系統中實施敏捷性的充分模型，因為它忽略了特定的功能，如 "指揮概念、規劃、放行準則或系統延遲"，導致模型過度強調速度為目的[14],[9],[19]。為了將OODA環作為C2的一個更好的模型，Brehmer開發了動態OODA環（DOODA環）。Brehmer認為，需要具體的細節，如整個決策過程中的延遲，以使該模型在C2背景下具有足夠的描述性[14]。因此，在圖1中看到的DOODA循環允許指揮官和工作人員實際了解C2過程的每個功能。它通過明確每個C2功能，說明了為了提高敏捷性和決策性需要實現什么[14]。出于這個原因，DOODA循環模型將被用作本文后面的A3IC2功能模型的基礎。

從上面的討論中，有一個概念是明確的：C2及其性能的測量與系統運行的戰略背景是不可分割的。C2系統內的動態變化不是在真空中發生的；C2系統的最終結果是控制的影響，或在指揮軍事力量的超復雜環境中做出有效決定的能力，以便生存和獲勝。如果一個高度復雜、高效、響應迅速的人工智能C2系統無法追蹤作戰環境的復雜性、產生的影響以及它們在大戰略層面的后果，那么C2系統將無法在高強度戰爭的動蕩下生存。

圖1. 動態OODA環[14]

B. C2系統定義

在文獻中，對C2系統類型的描述是有問題的，導致與敏捷性、適應性、穩健性和復原力的定義有很大的重疊，這取決于情況或背景[11],[22],[8]。然而，有兩個廣泛的基本生存方法被描述，所有C2系統類型至少有一個方面是相同的：

1）保持形式的力量（在不改變的情況下，在波動中生存的能力）。

2）改變形式以保持力量（通過改變在波動中能生存的能力）。

這兩種生存方法都可以根據情況而有效；因此，一個有用的C2功能模型必須包括這兩種方法。C2文獻大致了解這一點，并試圖在功能模型中結合各種定義來調和兩種方法[11]。"敏捷C2"的概念將彈性和穩健性納入其定義中，背離了人們對敏捷性的通常理解，即僅僅意味著改變形式的 "迅速"。Alberts將敏捷C2定義為 "成功影響、應對或利用環境變化的能力"[8]。這一定義有實現這一目的所需的六個方面[8],[23]：響應性、靈活性、適應性、多變性/穩健性、創新性和復原力/彈性。

所有這些要素的融合有望最大限度地減少與不利影響相關的事件的概率，并最大限度地增加提供機會的事件的概率。如果事件真的發生，這些要素也會努力使成本最小化或收益最大化[8]。需要強調的是，單一目標的優化并不等同于敏捷性；相反，它反映了響應能力高于靈活性和彈性的不平衡。當一個系統的優化依賴于單一目標時，它不一定是高效的，即使這個單一目標是預先確定的不同目標的加權和。然而，我們承認，優化是一個數學概念，可以被調整以實現任何目標。如果目的是平衡響應性、速度、靈活性和彈性，多目標優化是優化理論的一個分支，可以用數學方法處理這個問題，同時優化相互沖突的目標。

敏捷C2的目標是將不利影響最小化，將機會最大化，這與Nassim Taleb的 "凸"系統的想法相似；對波動的有益響應，也就是所謂的抗脆弱性[12]。敏捷性和抗脆弱性有很多相似之處。敏捷性和抗脆弱性都有一個共同的風險觀，即既要減少黑天鵝事件（災難性的、低概率的事件）的負面影響，又要避免在組織內低估其可能性的自滿情緒[8],[12]。其他的相似之處還體現在所列舉的組織如果要成為一個抗脆弱組織應該避免的特性，比如限制使用單目標優化、專業化、預測、標準化和微觀管理[24],[12],[8]。

與敏捷C2一樣，抗脆弱組織關注的是將行動自由（靈活性）最大化的策略和結構。它不鼓勵優化、缺乏多樣性、不容忍風險，關鍵是不切實際的簡化現實模型[8], [24]。然而，抗脆弱性和敏捷C2之間的關鍵區別是 "為了學習和過度補償的目的，有目的地在系統中實施誘導性的小壓力 "或 "非單調性" [25],[26],[12]。這是抗脆弱系統和敏捷或彈性系統之間的關鍵變量。抗脆弱系統積極尋求在其自身系統內注入波動性，以暴露脆弱性。這兩個概念之間的差異是互補的，它將被論證，當兩者結合起來時，可以為人工智能C2系統產生一個強大的功能模型。

C. 抗脆弱性與C2

抗脆弱性是一種系統特性或特征，它不僅能使系統對突如其來的沖擊和壓力具有魯棒性和彈性，而且還能從這些壓力中學習，在下次遇到這些壓力時改進自己[12],[27]。抗脆弱性是脆弱性的反面，因為穩健性和彈性的定義都不'意味著從沖擊中獲得力量'[16],[12]。Taleb指出，抗脆弱性系統'有一種機制，它通過利用而不是遭受隨機事件、不可預測的沖擊、壓力和波動來不斷自我再生'[12]。由此可見，"如果沒有反饋和記憶的機制，抗脆弱性是不可能的"[27]。因此，為了使一個系統走向抗脆弱的系統動力學，它必須能夠從對其系統的沖擊中學習（反饋），并從這種記憶中改善其運作（定向）。必須強調的是，這種反饋可以是內部的，并且是自我產生的，使用內部設計的性能和效果的衡量標準，同時使用內部模擬的外部環境進行情景的角色扮演。作為一個概念，抗脆弱性有以下五個維度[12],[28],[25]：

從沖擊和傷害中學習的能力：系統有能力從它收到的反饋中儲存其記憶和經驗。

2）利用過度補償進行系統改進：一旦收到反饋，系統就會自我改進，涵蓋未來管理類似沖擊的要求。

冗余：由于過度補償沖擊的結果，系統將開發多層次的冗余機制。

4）凸性和選擇性（"杠鈴戰略"）：該系統將以一種使潛在收益最大化但使潛在損失最小化的方式構建自己。換句話說，該系統將是穩健的，但準備運用收益函數。

5）小規模的實驗：承擔風險，以便在犧牲小故障的情況下獲得顯著的性能收益。對系統誘導小的壓力源，以確保非單調性。

將敏捷系統與抗脆弱系統區分開來的三個特征是：注重過度補償，有目的的誘發系統壓力，以及來自波動的記憶/反饋。抗脆弱的系統會改進自己，不僅能夠補償未來類似的壓力，而且能夠補償比所經歷的更嚴酷的沖擊[12]。因此，波動性是非常可取的，因為它允許系統收集信息，并通過從盡可能廣泛的輸入中學習來保護自己的未來。這就產生了對系統進行過度補償適應所需的數據，以管理沖擊。事實上，一個抗脆弱的系統將有目的地嘗試 "風險管理的實驗"，以創造過度補償所需的波動性。Taleb明確指出，這包括來自黑天鵝的風險；那些具有高度不可能性和極端影響的事件[25],[28],[8]。黑天鵝對于抗脆弱系統來說具有很高的價值，因為它可以獲得加強系統的稀有信息，只要它們最初是可以生存的[12]，因此，復原力和穩健性很重要。抗脆弱系統的設計是為了盡可能地抵御作為本體論現實的混沌，在復雜環境中無法消除或預測[28],[12]。

Alberts[8]討論了敏捷性的概念模型，"環境空間"代表系統的性能水平，取決于各種外部和內部變化。從敏捷C2的角度來看，一個抗脆弱的系統會探索環境空間，以便從盡可能多的生成環境中了解盡可能多的 "可接受的性能區域"。波動性和反饋允許這種探索。有效地使用反饋/記憶，并通過波動性實驗，以便過度補償，從而使敏捷C2系統通過探索越來越多地了解其 "自我模型"，通過更多的 "實體可以識別和成功應對的各種情況 "來提高其敏捷性[8] 。此外，該系統對環境、可預期沖擊的背景以及形成環境壓力源的環境約束有了更好的理解。經驗教訓可以采取幾種形式，如經過驗證的作業環境模型、代表環境的人工智能數學函數，以及其他人類/機器產生的數據存儲。這些信息將隨著每次沖擊產生的新信息而更新，使C2系統能夠隨著時間的推移而提高效力。

現在，我們應該清楚，抗脆弱系統并不排除敏捷性作為系統內的一個有利特征；抗脆弱是一個額外的特征--而不是一個替代品[12],[29]。在Taleb對抗脆弱的定義中，Taleb將敏捷性與脆弱性、復原力和抗脆弱從同一范圍中分割出來。為了使A3IC2結構清晰，我們將繼續這樣做。在圖2中看到的是敏捷性和抗脆弱性的覆蓋范圍。兩者的定義分為 "從波動中生存的系統 "和 "系統為生存而進行改進的能力"。這很好地概括了上述系統動力學文獻中的定義[26]。例如，如果沒有系統恢復或適應的能力，就不可能有彈性，也不可能在受到沖擊后恢復到正常水平的性能。不變性也是脆弱的，因為所有系統的功能都來自于無常性；沒有變化，系統最終會失敗[30]。敏捷性是抗脆弱性的助推器，因為對反饋的有效過度補償需要一個敏捷的組織；反之亦然，敏捷的C2需要過度補償來主動創新，并從操作環境的變化中建立復原力。

圖2. 敏捷和抗脆弱范圍[8],[12]。

與彈性和穩健的系統相比，敏捷性與抗脆弱性相結合的好處是對沖擊的響應要好得多[22]。Taleb指出，脆弱性在數學上被定義為 "對有害壓力的加速敏感性：這種反應被繪制成一條凹形曲線，在數學上最終導致隨機事件帶來的傷害多于收益"。一個脆弱的系統將在極端的波動下崩潰，因為它沒有否定凹形響應的屬性。由此可見，抗脆弱性的動力學產生了 "凸型響應，導致更多的利益而不是傷害"[12]。因此，一個有彈性或堅固的系統處于脆弱和抗脆弱之間的中間位置。一個穩健的或有彈性的系統既不會從波動中得到什么，也不會失去什么。抗脆弱性有一些元素，使它不僅能在沖擊后恢復正常功能，而且能從壓力源中學習，以便進行過度補償。因此，要獲得一個抗脆弱和敏捷的C2系統，需要具備表1中所列的以下要素。

從表一中可以看出，這種組合能夠發揮兩種方法的優勢。最下面的三行是抗脆弱性要素，前三行是敏捷C2要素，而中間一行是兩者的必需要素。尋求創新的解決方案以消除脆弱性和提高敏捷性是兩者都需要的過度補償。記憶/反饋、可選擇性和對創新能力的補充，是將敏捷C2與A3IC2分開的新元素。一個C2系統如何實際發展這些元素，需要人工智能、混沌工程和具體組織戰略的交集；這是下一節的主題。

表1. A3ic2系統的要素[8],[12],[26],[22] 。

III. 人工智能和抗脆弱的C2系統工程

在C2系統中實施抗脆弱性需要利用和積累有關系統性能的反饋；最容易實現的是將數據收集作為在系統中保留記憶和學習的永久方法。這允許創建抗脆弱的反饋回路，使其能夠使用過度補償[26],[22]。Jones [31] 將抗脆弱機器描述為一種能夠適應意外環境的機器，因為它的腳本隨著時間的推移在決策、采取行動和觀察結果的過程中變得更加復雜。這種機器必須從它的環境中學習，并適應那些 "在設計時沒有預想過的 "變化[31]。換句話說，要做到真正的抗脆弱，系統所面臨的情景必須是新的，但也要熟悉到可以從以前的經驗中概括或抽象出來，創造出新的知識。機器通過與環境或感知數據的互動，從其經驗中更新其內部狀態的這一過程被稱為 "機器學習"（ML），是人工智能的一個分支。因此，這項技術是在系統內實現抗脆弱動態的基礎[31]。

文獻中對人工智能的定義還沒有達成共識，但為了本文的目的，人工智能被定義為 "為計算機提供認知技能和能力的算法，用于感知和決策"[32]。建立人工智能系統的方法各不相同。傳統的方法是通過 "專家系統 "或 "手工制作的知識"，即通過人工編碼并咨詢專家來創建算法[33],[34]。然而，由于模型是手工更新的，這些系統對于不斷變化的環境來說通常是非常脆弱的。ML提供了一種更新系統知識的替代方法，可以從系統直接接收的數據中獲得，也可以通過與環境的互動獲得。先進的ML模型，如深度學習，依賴于大型數據集和專門的算法來學習結構化（表格）和非結構化（圖片、文件）數據中的特定模式；允許創建一個系統的復雜數學表示/模型。這種模型可用于對新數據進行預測，或在以前未見過的情況下采取行動。由于從環境本身的觀察中收集到的數據集的多維模式，人工智能模型在面對復雜的環境時可以表現得更加準確[33]。人工智能有望減少人類決策的許多限制，如注意力集中、有限的記憶、回憶和信息處理[35]。

ML方法試圖在功能上接近空間內的高維拓撲結構[4]。數據源系統通過傳感器提供拓撲結構，而ML算法試圖通過訓練學習這個拓撲結構，然后驗證其性能（即準確性）。當一個新的數據點被提交給受過訓練的人工智能時，它就會被放在這個相同的配置空間中，根據算法形成的近似值，它將對新的數據點進行預測。作為一個例子，圖3是一個ML分類算法的低維結果。它有四個標簽，代表對敵人當前行為的預測，每個標簽都是由人工智能設計師根據以前對數據的理解而指定的。當收到一個新的數據點并在這個狀態空間內進行評估時，該數據點可能被分配到最接近的群組。如果與數據點的歐幾里得距離最接近紅色集群，那么人工智能就會輸出一個 "可能的攻擊 "作為預測，可能會有一個從與紅點的距離與其他集群的距離相比得出的可能性。

圖3. 高度簡化的狀態空間與由ML聚類算法形成的拓撲結構

因此，人工智能是敏捷C2系統的一個有利工具，從根本上可以還原為形成這些適應性的復雜數學函數來模擬一個動態和變化環境的效用。有人認為，這些模型將為大多數C2任務提供比人類更高的精確度，并且盡管超復雜，也能提供快速和值得信賴的自動化[5],[1],[2]。通過精確和適應性的數學函數來取代OODA環路中的每個階段，可以實現卓越的感知和學習，并延伸到快速和卓越的決策[3],[36],[4],[7],[6]。下面將討論這樣做所帶來的風險。

A.脆弱性風險

人工智能伴隨著新形式的風險，需要加以管理。對C2系統影響最大的現象是戰爭的爆發。如果錯過了常規國家間沖突的爆發（一個非常罕見的事件），可能會導致災難性的突然襲擊。事實上，對手將積極尋求一種策略，對C2系統產生盡可能大的沖擊[16]。在這種情況下產生的問題是，通過人工智能算法實現C2決策自動化的好處是否值得承擔災難性失敗的風險？如果準備在人工智能預測有99%的信心，而1%的機會可能導致不可逆轉的戰略后果的情況下，自動做出提供致命武力（或不提供）的決定，那么C2的性能是否得到全面改善？對于C2來說，戰略決策失誤的后果可能是如此的極端，以至于會導致其自身的毀滅，這就需要一個抗脆弱的戰略，作為對抗黑天鵝事件的必要條件。

99%置信度的人工智能預測之所以會導致失敗，是因為在面對動態復雜系統時，人工智能會受到所謂的 "柏拉圖式折疊 "的困擾。柏拉圖式折疊描述了這樣一種情況：復雜環境的模型 "拓撲結構 "或 "狀態空間 "由于 "為了隱藏復雜性 "而省略細節，本質上是錯誤的，或者說是脆弱的[12],[29],[34],[4]。當復雜性被不明智地隱藏時，人工智能所操作的抽象水平比它應該操作的適當抽象水平更簡單。其結果是人工智能狀態空間中沒有體現的突發現象，或者無法區分需要不同決策的不同環境。這些變量可能是隱藏的強化反饋回路，可能導致黑天鵝現象，往往會產生災難性的影響[12],[13],[22],[37],[4]。這給C2操作環境中的自動決策帶來了風險。更糟糕的是，即使人工智能模型正在從環境中學習，如果它不能 "跟上 "拓撲結構的變化，隨著時間的推移發展出更多的隱藏變量，它也會變得很脆弱[29],[38]。忽視或低估這種不確定性影響的模型，作為他們試圖模仿的復雜環境的本體事實，將產生越來越多的脆弱程度，與模型失敗的后果一致[12],[28],[4]。

快速更新一個模型，以防止與人工智能對 "開放 "和復雜系統的理解有關的 "漂移"。Florio[38]認為，通過定期的訓練更新和足夠的獨特數據進行訓練，一個非常復雜的模型/函數可以隨著時間的推移保持對非線性系統的接近。這種方法通常被稱為 "ML管道 "或ML開發過程[33]，是一種循環技術，其中一個ML模型正在運行并預測環境，而另一個正在被訓練。環境的變化只會導致新的數據供算法自我更新，改善C2系統的模型庫，以便在其活動適應環境時加以利用。模型的更新和替換速度將對模型準確反映復雜環境的保真度產生相應的影響[38]。

然而，模型快速更新并不能解決決策型人工智能的柏拉圖式折疊問題。一個ML模型可以快速更新一個持續不準確的模型，并且完全沒有意識到數據的退化[4]。人工智能可以迅速形成一個C2系統，對它所訓練的事件具有優化和卓越的決策，其代價是對尚未發生或被系統感知的事件具有脆弱性[4]。然而，如上所述，C2系統認為其最優先的正是這些尚未發生的罕見事件。

人工智能支持的C2的系統故障點是，由于作戰環境的拓撲結構和表征拓撲結構之間的不匹配，人工智能模型做出的快速決定有助于控制的崩潰，導致無助或混亂[4],[16]。作為一個例子，Wallace[4]討論了最近股票市場的 "閃電崩盤"（黑天鵝），認為它類似于C2系統中脆弱的人工智能應該產生的結果。這些崩潰的發生是由于自動化交易算法過于迅速而無法進行人工干預，其根本原因非常復雜，至今仍不為人知。對于C2來說，相當于兩個具有高度自主的人工智能決策的對立軍隊，導致了高強度戰爭的閃電式崩潰；所有這些都來自于以毫秒為單位的穩定性喪失[4]。

B.C2SIM和AI

針對人工智能遺漏罕見與災難性事件的風險，提議的解決方案是通過使用合成（人工構建）數據。合成數據是唯一現實的方法，使ML算法能夠從C2系統高度關注的現象數據中進行訓練，例如C2系統被設計為有效決策的未來常規高強度戰爭[39],[7],[5]。未來的戰爭沒有數據，而過去的戰爭是否有用也是可以爭論的。合成數據的生成過程分為三類[40]。

1）人工開發，通過手工建立的數據集進行策劃。

2）自動調整真實輸入，產生類似的輸入，幫助算法學習更廣泛的規則。

3）通過建模和模擬（M&S）以及仿真自動進行。

使用哪種程序完全取決于人工智能的目的和它試圖進行預測的環境稀缺性。如果人工智能要取代指揮官的決策能力，那么極有可能需要將人工創建的來自情報的數據與戰場模擬模型相結合，來訓練一個人工智能系統。這種方法將C2SIM和人工智能等概念整合在一起，可能使用強化學習算法[5],[41]。

然而，這種方法仍然存在風險。創建一個高度詳細的操作環境模型不僅很難驗證，而且很可能產生欺騙性的結果，因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。

然而，這種方法仍然存在風險。創建一個高度詳細的作戰環境模型不僅很難驗證，而且很可能產生欺騙性的結果，因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。Davis[37]將此描述為 "場景空間 "的減少，意味著人工智能被訓練的選項或靈活性變得狹窄。一個在C2系統中為指揮官制定行動方案的人工智能系統，如果針對特定場景進行了優化，那么作為一個反應式系統，它在高度特定的場景空間中只會有可靠的表現。對模型內變量之間的因果關系或非因果關系的假設，將不可避免地導致脆弱性[37]。

另一方面，一個高度抽象的模型，為一個"戰略層面"的推薦系統而忽略了作戰環境的大部分細節，有其自身的問題。合成數據的使用將與創造它的軍事文化密不可分。對敵人以及他們將如何進行下一場戰爭的假設，將被固化在人工智能所訓練的數據中[4]。如果敵人決定 "改變游戲規則"，在戰略層面采取人工智能從未接受過的不對稱行動，任何新的敵人戰略或戰術都不會在發生之初就被準確預測[41]。相反，它們會被預測為完全不同的東西。在戰略層面上，比如戰區，與預測敵人行為相關的變量會有很長的統計 "尾巴"，而在人工智能模型中卻沒有體現[4]。這可能會產生嚴重的戰略后果，導致系統不適合戰爭的 "深度不確定性 "或波動性[37],[41]。Zhang[41]指出，將人工智能'用于涉及戰略決策的應用，比如那些模擬甚至沒有物理學作為依托的應用，現實世界和模擬之間的對應關系可能非常小，以至于經過訓練的算法實際上是無用的'。由此可見，人工智能要想保持有用，就必須從對應于C2函數的數據中進行訓練，而C2函數是充分人為復雜的，而不是天生自然復雜的。顯然，為了使人工智能的使用不成為脆弱的風險，需要在對人工智能的信任、預測失敗的風險以及特定人工智能給C2功能帶來的響應能力的好處之間取得平衡。

圖4. 人工智能集成和增長的限制

與人工智能支持的C2系統相關的脆弱性風險，反映了上文圖4中顯示的增長限制的原型。決策性能通過復雜功能的自動化得到改善，從而提高了C2的響應能力。然而，人工智能整合到更復雜的功能（如決策），導致更多的風險被轉移到人工智能模型的準確性和與操作環境相比的差異。這可能會導致低概率但高后果的災難性事件的預測失敗。人工智能取代的需求和判斷來理解復雜環境的功能越多，系統就會變得越脆弱。黑天鵝事件在數學上是不可預測的，對系統也是有影響的。因此，C2系統暴露在重大沖擊下的風險越大，它就越有可能最終遭受災難性的失敗[12],[13],[42],[22]。

IV. 從AI的脆弱性到抗脆弱性

將人工智能整合到敏捷C2系統而不增加脆弱性的方法將需要仔細考慮上文表一中討論的抗脆弱性要素。具體來說，C2系統將需要確保對來自作戰環境的沖擊作出凸形響應。這可以通過兩種方法實現：

1）將人工智能的功能分配到C2系統中，使災難性故障的風險最小化，但使系統的收益最大化。

2）使用實驗來發現系統的脆弱性，產生創新和混沌；這使得過度補償和人工智能模型的不一致。

A. 功能分配

一個AI使能系統需要在其作為敏捷性工具與其存在的脆弱性風險（如果AI不能在復雜環境的極端波動下執行）之間取得平衡。人工智能并不適合所有的決策任務[43],[32],[36]。一個抗脆弱系統將需要特定的邊界，將在戰略/作戰層面上將具有黑天鵝高風險的C2決策功能與其他可以自動化的低風險復雜C2功能分開。明確說明人工智能在C2系統中負責哪些任務，對于避免脆弱性和整體上有利于系統至關重要。

由于C2系統是社會技術性的，那些為C2功能分配使用人工智能的人需要確保對人的替換不會對系統的性能產生風險。Abbass[32]，討論了在這樣的系統中分配人工智能的幾種方法。一種 "靜態分配"，即在C2系統中賦予人工智能的功能并不改變，可能不適合動態環境。具體的C2功能的需求將根據情況發生變化，特別是考慮到戰爭中對響應能力的需求，這可能需要快速變換功能分配[36]。例如，針對來襲的大規模超音速導彈防御場景將更傾向于速度而不是戰略環境。在這種情況下，什么都不做的后果是如此之大，以至于錯誤的風險可能值得AI完全控制。另一方面，批準超音速攻擊的決定將需要比速度更多的決策背景。因此，一種適應性的方法，或自動分配邏輯（AAL）是必要的[32]。

在戰略決策層面，關鍵事件邏輯最適合于評估脆弱性與自動化的好處。根據對響應能力的需求重要性，以及失敗的后果有多高或多低，C2功能將需要有人類或AI控制的適應性邏輯。圖5展示了一個與C2任務大類相關的潛在后果的例子，從感知到戰區級決策。

圖5. AI使能C2的脆弱性范圍

對于專注于感知型人工智能的系統來說，風險較低，因為來自人類決策者的數據適用于額外的背景[36]。感知型人工智能很可能需要多個專門的算法模塊來解析特定類別的數據，如視頻資料、圖片、文件和其他[33]。因此，這也是一個魯棒的算法系統，如果其中一個算法模塊不能感知關鍵信息，那么這個算法系統其他算法模塊也能捕捉到此信息。當然，風險仍然存在，這將需要通過理解決策中的 "風險轉移 "已經傳遞給人工智能系統的輸入和感知能力來進行評估[32]。

然而，如上所述，人工智能決策與戰爭期間高失敗風險相關聯。失敗的影響將取決于人工智能是支持戰術層面、戰役層面還是戰略層面；與戰略層面的單一失敗相比，戰術層面的單一失敗后果較小；不過，人們必須考慮到從戰術層面到戰略層面可能產生連帶效應。對于抗脆弱系統，Taleb[12]指出，人們應該避免依賴具有高度后果性輸出的系統，因為許多較小的、后果性較小的系統是不太脆弱的。當然，即使戰略層面的人工智能決策者的風險是通過人在環結構來管理的，由于建議依靠人工智能感知器，以及預測對人類決策者的額外影響，風險仍然存在。例如，如果C2系統使用受信任的非人類智能合作者（NIC）來推薦戰略層面的決策，可能會導致軍事指揮官在獲得99%的人工智能預測的情況下增加風險。這是因為NIC會表現得像一個預測者，有證據表明，這可能會增加決策者的風險承擔[12],[44],[45],[16]。

一旦確定了失敗的后果，就需要為每個場景分配適應性人工智能。這是一個 "指揮概念 "的C2功能；在為特定場景分配適應性人工智能功能時，需要考慮指揮官的意圖和國家的戰略目標。這些場景可以通過傳統的兵棋推演方法進行開發和測試，但也可以從創新和混沌生成的抗脆弱性過程中產生。適應性人工智能將需要持續測試脆弱性，以防止凹形響應；這是下一節的主題。

B. 創新和混沌的產生

為了將人工智能作為一種敏捷和抗脆弱的工具，反饋/記憶、小規模實驗和過度補償等元素需要在一個人工智能支持的C2系統結構中結合起來。這可以通過有目的地在系統中注入波動性來實現，并延伸到支持特定C2流程的人工智能功能。通過使用波動性，人工智能系統將發展出一個更廣泛/抽象的決策空間，增加其對更多種類沖擊的通用性。

對于合成數據的生成，可以將一致程度的波動和混沌應用于人工智能所訓練的數據。例如，可以在人工智能系統上測試極端情況，而不僅僅是預期的極端情況。C2組織內的 "混沌小組 "可以嘗試使用極端或極不可能的情況，來暴露人工智能模型的預測失敗。通過暴露失敗，人工智能開發團隊可以確定失敗發生的原因，探索人工智能采取什么行動會更好，然后嘗試重新訓練模型以增加其變異性，以處理未來類似的極端情況。因此，這個過程通過與外界復雜環境相比對自身的理解，加強了系統的能力[12]。這有可能也是由人工智能場景生成器實現的，主要目的是對開發導致人工智能C2系統失敗的場景進行獎勵。無論具體的方法是什么，目的是讓系統的壓力和失敗允許C2系統內的創新能力和發現發生，從而導致過度補償。

這些沖擊不僅僅是對人工智能本身的要求，也是對C2系統整體的要求。應該尋求一種分層的方法，作為一種穩健性的形式[12]。這樣做的一種方法可以在計算紅隊和混沌工程實踐中找到。計算紅隊[46]提供了人工智能所需的計算構件，以設計壓力源來挑戰自己和它所處的環境，并發展新的模型和戰術。類似地，混沌工程通過對計算機網絡或系統中的特定元素注入壓力或故意失敗的實驗來防止組織內部的脆弱性[30]。混沌工程的目的是確保C2 IT系統的所有功能的 "可用性"，盡管環境中存在波動。對抗脆弱C2的用處是顯而易見的，因為其混沌工程實驗允許產生作戰環境效應，如網絡攻擊，作為極端波動的輸入。C2信息技術和通信網絡被視為一個單一的復雜系統，通過觀察其在真實世界的輸入或誘發故障后的行為，可以更好地理解它[30]。

將混沌工程、計算紅隊和人工智能結合起來，可以實現復雜的故障狀態生成，以實現抗脆弱性，但C2系統要有能力從自我造成的壓力中學習，以實現過度補償，需要組織文化上的巨大變化。在圖6中看到的是A3IC2系統的系統。在C2組織內建立這樣一個系統，需要改變組織的心智模式、組織規劃、C2結構，以及改變對人類操作人員的培訓方式，以支持抗脆弱的C2系統。A3IC2應該只關注C2操作的系統；作為一個抗脆弱系統成功進行C2的過程。對于一個C2組織來說，作為一個社會技術系統，它需要采取一種整體的方法，結構、系統、流程和文化都具有抗脆弱的特性，以便在壓力和沖擊下生存[25]。

圖6. 抗脆弱C2作為一個體系系統

V. 敏捷抗脆弱的指揮和控制（A3IC2）

通過將抗脆弱性概念與Boyd、Brehmer和Alberts[14]、[21]、[8]開發的功能C2模型相結合，可以開發出一個通過抗脆弱性動態提高C2系統有效性的新框架。這在下面的圖7中可以看到，說明了圖1中傳統C2運行周期與A3IC2結構之間的區別。

圖7描述了由Brehmer創建的相同的DOODA環路，并增加了對所實施的模型的積累的反饋。模型的建立作為系統的方法，在操作過程中從與復雜環境的互動中學習。從所做的決定、計劃、感覺活動和軍事行動的結果中得到的反饋的綜合，都為AI模型/功能提供了背景。開發的模型取決于具體的C2系統。對于一個空中機動/后勤C2單位來說，模型將反映諸如優先權、飛機選擇、選擇的路線和貨物驗證細節等決定。對于一個人工智能C2推薦系統的COA開發，反饋將代表變量，如敵人的位置，藍色的位置，單位的數量，以及許多其他。這些模型是在日常行動中通過與C2決策支持系統的互動和/或通過C2SIM建立的。

圖7. 抗脆弱的動態OODA循環

如上所述，"混沌生成 "功能是迫使系統從反饋中學到的東西進行過度補償的方法。它同時適用于社會技術系統中的人和機器。混沌生成是C2 "紅隊"，它有目的地給系統施加壓力，以加強決策周期，提高敏捷性，減少脆弱性。對于人工智能支持的C2系統，混沌生成器包括基于先前經驗的合成數據生成過程，但對其進行修改以加強系統。因此，人工智能將在具有超出先前經驗的更多極端變量的任務中得到訓練和改進；導致過度補償。這些模型在性質上可能是極端的，并應盡可能多地覆蓋可能性空間。如果環境發生重大變化，或出現黑天鵝，可能性空間只會增加，允許系統改進并產生進一步的模型。C2系統的波動性越大，產生的模型就越多，以進行補償。

以前的討論假定，模型和數據需要提前建立，并預期未來結果。最近的趨勢是引入了形成、重新塑造和校準的模型。影子機器的概念[46]有一個專門的控制邏輯，隨著背景的展開學習模型。然而，這些概念假設來自實際環境的實時數據輸入，以持續測量偏差并進行相應的調整。這種方法仍然存在挑戰。關于自我的數據可能比關于敵人的數據多出幾個數量級。這種可供人工智能即時學習模型的數據不平衡，在人工智能界有其自身的挑戰。

VI. 結論

將人工智能整合到C2中，只有通過對其效果的整體理解來實施，才能提高系統的性能。如果一個由人工智能支持的C2功能有可能導致它所保衛的國家戰略目標無法實現，那么就需要認真考慮該人工智能的功效問題。當C2功能被分配給人工智能以避免脆弱性時，那么反饋和過度補償的使用有可能促進對系統波動的凸形響應。使用有目的的混沌生成將有助于C2系統能夠了解其自身的弱點，以便改進。使用A3IC2作為人工智能支持的C2戰略，可以確保人工智能仍然是建立一個抗脆弱系統的工具。最大限度地減少災難性失敗的可能性，同時最大限度地利用系統的好處，這將有助于在極端動蕩的戰爭中生存和制勝。

雖然本文的重點是人工智能所面臨的風險，但當新形勢展開時，人類指揮官仍將面臨類似的問題，特別是當軍事歷史的教訓可能阻礙他們對這些新形勢的思考能力時。如果敵人依靠人工智能產生接近光速的效果，未來的沖突場景將更具挑戰性。這就需要人類-人工智能的人機協作，利用各自的優勢，過度補償各自的弱點，以相關的速度產生效果。

付費5元查看完整內容

AI與軍事 · 軍事作戰 · 近似動態規劃 · 加拿大國防研究與發展部-運籌學與分析中心 · 加拿大聯合作戰司令部 ·

2022 年 5 月 17 日

[付費5元查看完整內容]《軍事作戰研究中的近似動態規劃（強化學習）應用綜述》加拿大國防研究與發展部、加拿大聯合作戰司令部

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在不確定性下進行的決策序列出現在各種環境中，包括交通、通信網絡、金融、國防等。為序列決策問題找到最優決策策略的經典方法是動態規劃；然而，由于維度詛咒和建模詛咒，它的用處有限，因此許多現實世界的應用需要另一種方法。在運籌學中，過去的 25 年中，使用近似動態規劃 (ADP)（在許多學科中被稱為強化學習）來解決這些類型的問題越來越受歡迎。通過這些努力，成功部署了 ADP 生成的卡車運輸行業駕駛員調度、機車規劃和管理以及制造中高價值備件管理的決策策略。在本文中，我們首次回顧了 ADP 在國防背景下的應用，特別關注那些為軍事或文職領導層提供決策支持的應用。本文的主要貢獻是雙重的。首先，我們回顧了 18 個決策支持應用程序，涵蓋了部隊發展、生成和使用的范圍，它們使用基于 ADP 的策略，并針對每個應用重點介紹了其 ADP 算法的設計、評估和取得的結果。其次，基于所確定的趨勢和差距，我們討論了與將 ADP 應用于國防決策支持問題相關的五個主題：所研究的問題類別；評估 ADP 生成策略的最佳實踐；與當前實施的策略相比，設計漸進式策略與徹底改進策略的優勢；情景變化時策略的穩健性，例如從高強度沖突到低強度沖突的轉變；以及尚未在國防中研究的，可能從 ADP 中受益的順序決策問題。

關鍵詞：序列決策問題、馬爾可夫決策過程、近似動態規劃、強化學習、軍事

1 引言

許多決策不是孤立地做出的；觀察到以前不確定的新信息；鑒于這些新信息，將做出進一步的決策；更多新信息到來；等等。這些類型的決策被恰當地描述為順序決策問題、不確定性下的順序決策或多??階段決策問題，其特點是決策對未來獲得的回報或產生的成本、未來決策的可行性以及在某些情況下的外生時間對決策的影響[1],[2],[3]。本質上，“今天的決策影響明天，明天的決策影響下一天”[2, p.1]，如果不考慮決策之間的關系，那么所取得的結果可能既沒有效率也沒有效果。

自20世紀50年代以來，人們就知道這種順序決策可以被建模為馬爾科夫決策過程（MDP），它由五個部分組成：一組候選行動；選擇行動后得到的獎勵；做出決策的歷時；狀態，即選擇行動、確定獎勵和告知系統如何演變所需的信息；以及定義系統如何從一個狀態過渡到下一個狀態的過渡概率[4]。給定一個MDP，目標是找到一個決策策略--"一個規則（或函數），根據現有的信息確定一個決策"[3,p.221]，也被稱為應急規劃、規劃或戰略[2,p.22]--作出的決策使得系統在給定的標準下表現最佳。尋找最優決策策略的經典方法是通過動態規劃（DP）解決貝爾曼的最優方程[5]。在國防背景下，DP已被應用于確定各種連續決策問題的決策策略，包括艦隊維護和修理[6]、基本訓練安排[7]、研究和開發項目選擇[8]、軍事人員的去留決策[9]以及醫療后勤資產調度[10]。

盡管DP為解決順序決策問題提供了一個巧妙的框架，但它在許多現實世界的應用中的作用有限，這一點早已得到認可。這是由于維度的詛咒[5]--"隨著變量（或維度）數量的增加，問題的難度異常快速增長"[11]--以及建模的詛咒，即需要一個明確的模型來說明系統如何從一個狀態過渡到下一個狀態[12]。雖然今天的計算機可以解決有數百萬個狀態的順序決策問題[13]，但許多問題仍然太大，無法通過經典的DP方法有效解決。此外，通常的情況是，狀態之間的過渡概率根本不知道。具有這些特征的順序決策問題貫穿于整個國防領域，跨越了軍力發展、生成和使用的范圍。比如說：

在軍力發展中，關于能力投資的決策可能多達數百項，通常在業務規劃周期內的固定時間進行，并且每年重復。決策者必須考慮所選擇的投資的短期和長期影響，以及未選擇的投資，同時考慮到未來軍事合同的不確定性，聯盟和對手能力的變化，國防特定通脹，等等。
在軍力組建中，決定招募多少名軍人和軍士，以滿足各種軍事職業的要求，同時尊重國家的授權力度，并考慮到各種不確定因素，包括每年的退休、晉升、自然減員等等；
在軍力雇傭范圍內，在大規模疏散行動中決策，如重大海難期間，將哪些人裝上直升機，同時考慮到包括天氣變化、個人健康、直升機故障等不確定因素。

由于這些挑戰，在這些類型的問題中，通常不可能找到一個最優的決策策略，需要采用其他的方法，重點是找到一個好的或接近最優的策略。第一個方法是由Bellman和Dreyfus[14]提出的，在接下來的幾十年里，包括運籌學、控制論和計算機科學在內的各個領域都發展了更多的方法，詳細的討論和相關的參考文獻列表見Powell[15]。此外，數學規劃領域，特別是隨機規劃，已經開發了復雜的算法來解決高維決策和狀態向量的問題，這在現實世界的順序決策問題中經常看到[16]。

在運籌學中，這些方法以各種名義被開發出來；尤其是神經動態規劃、自適應動態規劃和近似動態規劃（ADP）。如圖1所示，這些方法在過去的25年里越來越受歡迎，從1995年到2021年4月9日，共發表了2286篇文章，年發表率從一篇文章增長到每年近250篇。最近，ADP--"一種在模擬中做出智能決策的方法"[17,p.205]，其中 "產生的策略不是最優的，所以研究的挑戰是表明我們可以獲得在不同情況下穩健的高質量決策策略"[18,p.3]--已經成為更常用的術語[3]。作者們最近也開始使用強化學習這個標簽，最近出版的《強化學習和最優控制》一書[19]和即將出版的《強化學習和隨機優化：隨機決策的統一框架》一書[20]就是證明。值得注意的是，ADP生成的決策策略已經成功部署到工業領域，包括卡車行業的司機調度策略[21],[22],[23], 機車規劃和管理[24],[25], 以及制造業內高價值備件的管理[26]。

圖1. 1995年至2021年4月9日期間每年發表的ADP相關文章的數量。

在這篇文章中，我們首次回顧了ADP在國防背景下的應用。特別是，我們專注于軍事運籌學領域的同行評議文獻；也就是 "應用定量分析技術為軍事[或民事]決策提供信息"[27]。本文的主要貢獻有兩個方面。首先，我們回顧了18個決策支持應用，這些應用跨越了部隊發展、生成和使用的范圍，使用了基于ADP的策略，并為每個應用強調了其ADP算法是如何設計、評估和取得的結果。其次，基于所發現的趨勢和差距，我們討論了與將ADP應用于國防決策支持問題有關的五個主題：所研究的問題類別；評估ADP生成策略的最佳做法；與目前實行的策略相比，設計策略是漸進式的，而不是完全徹底的；隨著情景的變化，策略的穩健性，如沖突中從高強度到低強度的轉變；我們還建議提出國防內部可能受益于ADP生成策略的其他順序決策問題。

本文的其余部分組織如下。第2節提供了相關的背景信息。第3節介紹了進行此次審查的方法。第4節和第5節是審查的主要內容。第4節回顧了18個已確定的ADP在國防領域的決策支持應用，第5節介紹了與在國防領域應用ADP相關的五個主題。最后，第6節給出了總結性意見。

4. 近似動態規劃 (ADP)在軍事作戰研究中的應用

在本節中，我們介紹了通過上述文獻搜索確定的18篇基于應用的文章的摘要。表2列出了每項研究，其應用領域，以及所實施的ADP策略和算法的特征。所列的特征主要集中在第2.3節中討論的那些特征，即：

決策策略的類型--短視CFA、PFA、VFA、DLA或混合。
價值函數近似策略--查詢表、參數化或非參數化。
價值函數模型--層次聚合、線性結構、NN等。
算法策略-狹義搜索、數學規劃、隨機規劃、AVI、API。
更新價值函數模型參數的方法--時差學習、LSTD、LSPE、SVR，等等；
步長--常數、廣義調和、多項式等。

對于所列出的一些文章，沒有提供足夠的信息來確定作者是如何處理某些特征的。在這種情況下，該特征被列為未說明。此外，有些文章中的某些特征并不適用。在這種情況下，該特征被列為不適用。下面給出了進一步的細節。研究報告分為三類--軍力發展、軍力組建、軍力使用，然后按時間順序排列。

表2. 1995-2021年期間ADP在軍事作戰研究中的應用。文章按橫線分為三組：部隊發展（上組）、軍力組建（中組）和軍力使用（下組）。

付費5元查看完整內容

AI與軍事 · 博弈論 · 國防資源管理 · 論文 ·

2022 年 5 月 6 日

[付費5元查看完整內容]使用博弈論進行國防資源分配管理

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

博弈論提供了一些分析工具，旨在幫助人們更全面地理解決策者互動時出現的現象。博弈描述了玩家之間的戰略互動，他們在利益的指引下，意識到自己的行動會影響到對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織，甚至是面臨決策挑戰和機會的國家或聯盟。在這方面，"能力 "這一概念為優化國防資源分配所需的規劃 "游戲 "要素提供了維度和變量。本文開發的模型側重于在假設的能力上分配可用的國防資源，以實現對國家安全的最佳響應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。

引言

戰爭是一種代價高昂的經濟活動。博弈論提供了一些分析工具，旨在幫助人們更全面地理解決策者互動時發生的現象。博弈描述了參與者之間的戰略互動，他們以自己的利益為導向，并意識到他們的行動會影響對方。所有博弈論模型中的基本實體是玩家。博弈者可以被理解為一個人、一群人或任何類型的組織，甚至是需要做出決定的國家或聯盟。

為了描述一個理論博弈，我們需要明確四個基本要素：玩家、行動、報酬和信息。Rasmussen用PAPI的縮寫來指代這些要素[2]。

為了在博弈論的基礎上建立一個能夠描述最佳防御資源分配的模型，并確定規劃的 "游戲"要素，需要對 "防御能力 "有一個全面的概念性理解。

澳大利亞國防軍將 "防御能力 "定義為 "在指定的環境中，在指定的時間內達到預期的作戰效果，并在指定的時間內保持這種效果的能力"[3]。這包括多種投入的綜合效果，如：人員、組織、訓練、主要系統、物資。美國國防部將軍事能力定義為 "在規定的標準和條件下，通過執行一系列任務的手段和方法的組合，達到預期效果的能力"[CJCSI/M 3010系列]。它包括四個主要部分：部隊結構、現代化、戰備和可持續性。

這兩個定義都是圍繞著 "效果 "的概念。這使我們想到一個問題："在有限的可用資源（如分配的國防預算）的壓力下，在設計了某些能力以應對某些威脅后，可以采取什么決定來最大化一般的安全效果？"

本文建立的模型側重于在假定的能力上分配可用的國防資源，以實現對國家安全的最佳反應。參與國防資源管理的戰略決策者與國家安全威脅之間的競爭是一種博弈。

付費5元查看完整內容

AI與軍事 · 戰術 · 優化 · 論文 · 北約“面向復雜多域作戰的訓練和決策支持”研討會 ·

2022 年 4 月 17 日

[付費5元查看完整內容]【AI+軍事】附論文+PPT 《用于戰術分析、訓練和優化的深度自我優化人工智能》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

現代多領域沖突日益復雜，使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解，以更快的速度和更低的成本比物理機動更易實現。其中，通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而，傳統的人機交互非常耗時，并且僅限于預先設計的場景，例如，在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理，這將增加探索行動過程的多樣性，從而導致更強大和更全面的分析。如果AI同時扮演兩個角色，這將允許采用數據農場方法，從而創建和分析大量已玩游戲的數據庫。為此，我們采用了強化學習和搜索算法相結合的方法，這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略，從而避免對人類經驗和預測的依賴。在這篇文章中，我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰，這些系統目前或未來可能用于瑞士武裝部隊。

付費5元查看完整內容

AI與軍事 · 兵棋推演 · 報告 · 美國海軍研究生院 · 第15屆北約運籌學與分析（OR&A）研討會：新興和顛覆性技術 ·

2022 年 4 月 7 日

[付費5元查看完整內容]【AI+軍事】14頁ppt為講解《混合作戰兵棋推演》概念，美國海軍研究生院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

混合作戰定義

同步使用針對所有社會職能中的特定漏洞而定制的多種權力工具，以實現協同效應。混合作戰入侵者將尋求利用目標國家的弱點。每一個混合戰爭入侵者可能有獨特的能力，可用于打擊目標國家。戰爭的“奇襲”原則可能是混合攻擊成功的最大因素。

為什么兵棋推演是一個好的工具關于混合作戰分析？

數學模型的價值值得懷疑:有什么數據可以量化威懾或恢復力?
如果對手的潛在破壞性行動沒有發生，是否阻止了它?怎么知道?
混合戰爭通常會尋求攻擊多個方面，例如:關鍵基礎設施、民眾情緒、經濟；
混合攻擊將要求人類識別攻擊的本質，文職領導人（來自公共和私營部門）和潛在的軍事領導之間的協調與合作可能對減輕攻擊的影響是必要的。

付費5元查看完整內容

AI與軍事 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 · 聯合情報準備 · 論文 · 捷克國防大學 ·

2022 年 4 月 6 日

[付費5元查看完整內容]捷克國防大學《作戰環境聯合情報準備在支持未來軍事行動中的作用》最新論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

當代和新出現的安全威脅以及從最近的軍事行動中吸取的教訓已經證明，為了在傳統的物理領域（陸地、空中、海上、太空）實現作戰目標，確保在非物理領域的主導地位至關重要，即網絡空間、電磁環境（EME）和信息環境。因此，除了物理作戰領域之外，在非物理領域取得優勢的能力對于實現戰役的軍事和非軍事目標具有決定性意義。

作戰人員將面臨消除沖突，協作，同步和整合行動的挑戰，以實現并發揮協同效應以應對多種威脅，其中可能還包括來自每個作戰領域對手的武裝沖突閾值以下的行動，包括非物質的。

本文探討了作戰環境聯合情報準備 (JIPOE) 作為支持聯合作戰規劃、執行和評估的主要工具的作用和意義，從而有助于多域作戰 (MDO) 的同步和協調。在這方面，基于政治、軍事、經濟、信息、基礎設施-物理、時間(PMESII-PT)方法，不可能將對當代作戰環境(OE)的分析局限于物理領域及其與非物理領域的關系。相反，作者們相信，確定一種合適的方法來關注在非物理領域單獨或聯合進行的活動影響，它們在PMESII-PT所有領域的相互融合和實際操作領域的相關性，將大大有助于友軍識別和評估對手的重心(COG)、關鍵弱點、意圖和行動路線(COAs)的能力，包括各自的指標。JIPOE將為聯合部隊指揮官(JFC)提供OE的整體視圖，將與戰術層面密切合作、共享和開發，通過結合不同領域的能力，應該能夠壓倒對手的部隊。這種集中控制和分散執行的方法將有助于在作戰和戰術層面之間產生協同效應。

引言

未來的軍事行動將以物理和非物理層面的融合為特征，眾多不同的行為者將在其中運作。任何部隊都需要適應極其復雜的作戰環境和大量的作戰變量，需要適應性地使用一系列武器系統來產生致命和非致命的效果。因此，除了物理作戰領域（即陸地、空中、海上和太空），在非物理領域（網絡空間、EME、信息環境）取得優勢的能力將對實現戰役的軍事和非軍事目標具有決定性意義[1, p.280]。

OE是影響能力運用和影響指揮官決策的條件、環境和影響因素的綜合體[2, p.3]。了解OE的因素和條件不僅是所有計劃活動，特別是行動設計的關鍵前提，也是友軍保護和許多其他相關任務的關鍵前提[3, p.41]。

JIPOE代表了一種系統的方法，用于分析有關OE和對手的信息。它可以應用于全部的軍事行動。指揮官和參謀部在危機背景、根本原因和具體動態方面，對戰區形成共同的理解和整體的看法。它使指揮官能夠直觀地看到問題的程度，以及他們如何塑造和改變OE，使之成為他們的優勢，這將為他們的決策提供信息[2, p.3-5]。

JIPOE產品極大地促進了聯合（即作戰）層面的軍事行動的規劃和執行。現代軍隊，特別是北大西洋公約組織（NATO）內的軍隊，幾十年來在討論跨領域（陸、海、空）的協調行動時一直使用聯合這一術語。如今，由于全球安全環境的巨大變化以及俄羅斯和中國日益增長的野心，為了挑戰潛在的同行對手，需要采取多領域的方法。在傳統的戰爭門檻下，盟國及其合作伙伴已經受到了跨越物理和非物理領域的持續攻擊[4, p.2]。MDO一詞不同于聯合行動，因為它旨在關注跨越多個領域的行動，而不考慮服務的歸屬，不一定是由多個部門進行的行動[5，p.49]。

圖1:支持聯合行動的當前JIPOE流程的可視化。

圖2:提出支持MDO的JIPOE過程方案。

付費5元查看完整內容

AI與軍事 · 強化學習 · 戰術網絡 · 多智能體的場景生成 · 德國弗勞恩霍夫研究所 ·

2022 年 4 月 5 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源，從而提高用戶感知的整體態勢感知。用于優化應用程序的規則，描述其合適跨層策略（啟發式）的規范仍然是一項具有挑戰性的任務。

我們之前介紹了一種學習環境架構，旨在訓練分散的強化學習 (RL) 智能體，這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景，因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景，從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體，它在博弈環境中模擬軍事單位。

在本文中，我們展示了這個戰術模型，實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體，通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡，因此我們提出了基于近端策略優化 [2] 的智能體，以適應協作多智能體通信網絡問題。此外，該博弈的最終軌跡用于在 DIL 設置中訓練智能體。

圖4-1:戰術模型的高層架構