本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。該文件說明了陸軍需要如何適應和發展以在未來作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則--校準部隊結構、多域編隊和融合--這使得敵人的反介入和區域拒止系統能夠被瓦解,并使軍隊能夠利用短暫的優勢窗口。這是一個取決于在時間、空間和目的上持續同步能力的概念,以實現跨領域的協同作用,并創造一個可利用的優勢窗口。聯合部隊目前通過"域聯合解決方案的階段性同步"來實施能力融合,這并不支持在針對未來同行威脅的競爭和利用的重復循環中快速和持續地整合多個領域的能力。因此,關鍵是要考慮什么能力可以讓軍事領導人克服這些技術和人類認知的局限性。一個可能的解決方案是將人工智能融入作戰管理過程。
本專著重點說明了將人工智能融入作戰管理過程以促進多域作戰融合的必要性。通過分析多域作戰的融合差距、人工智能的發展以及當前的指揮和控制系統,該研究旨在說明多域作戰中能力持續融合的復雜性迅速超過了人類的認知能力。此外,由于美國的對手正在大量投資于人工智能和自主性,將人工智能融合到作戰管理過程中的問題不是在戰場上取得優勢的問題。相反,問題在于如何擁有競爭性臨時可利用的優勢窗口的能力。
簡而言之,速度在兩個不同的方面很重要。首先,自主性可以提高決策速度,使美國能夠在對手的行動周期內采取有效措施。其次,如果美國要維持軍事優勢,作戰能力向自主性的持續快速轉變至關重要。— DSB 自主性報告,2016 年
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。這份文件說明了陸軍預計它需要如何適應和發展,以在未來的作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則——經過校準的部隊結構、多域編隊和融合——這使得敵方反介入和區域拒止 (A2AD) 系統能夠被瓦解,并允許軍隊利用短暫的優勢窗口。這一概念取決于指揮官在時間、空間和目的上不斷同步的能力,以實現跨域協同并創造可利用的優勢處境。
目前,聯合部隊正在通過“域聯合解決方案的階段性同步”來融合能力,這一過程不支持在針對未來對等威脅的競爭和利用的循環中快速和持續地整合多個領域的能力。軍方領導人承認這一缺點和任務的復雜性,因此引入了需要開發新的軍事技術來填補關鍵空白的融合考慮。基于這些差距,未來的指揮和控制系統需要為所有梯隊的指揮官提供戰斗空間內所有聯合單位的完整共同作戰圖,并有能力快速傳輸偵察和目標數據,以通過動能和非動能手段攻擊擬議的目標。
然而,敵人在自主性和人工智能 (AI) 方面的發展極大地壓縮了時間窗口。由于時間窗口短,協調融合工作的任務很快超出了人類的能力。其他因素,例如彈藥優化和能力重置時間的需要,進一步增加了任務的復雜性。因此,至關重要的是要考慮軍事領導人需要具備哪些能力來克服這些技術和人類認知限制。一種可能的解決方案是將人工智能集成到作戰管理過程中。因此,多域作戰融合所帶來的挑戰提出了一個關鍵問題:美國陸軍是否需要一個人工智能引導的作戰管理系統,以便在多域作戰中成功地融合能力,對抗一個有能力使用自主和人工智能引導能力的同行競爭對手?
我們尋求獲得優勢的方式是在決定性的空間優化所有領域,以影響滲透。— 美國陸軍能力整合中心主任埃里克-韋斯利中尉
武裝競爭的一種現象是技術創新的武器化。從軍事角度來看,這是一個關鍵的進步,可以讓一個國家的戰斗力量在戰場上保持競爭優勢。為了推動能力發展,軍方領導人引入了未來的作戰概念。這些概念是預測軍隊需要如何訓練、裝備和組織自身以競爭和戰勝新興威脅的文件。目前,美國陸軍正在進行重大改革。此次重組將使軍隊轉向大規模作戰行動,并調整部隊以滿足國家安全戰略 (NSS)、嵌套式國防戰略 (NDS) 和國家軍事戰略 (NMS) 中概述的需求。這種變化代表了軍隊的范式轉變。在將近兩個十年的時間里,這主要集中在平叛上。對于美國陸軍來說,這項工作驗證了歷史不會重演,但卻是會押韻的格言。主要是因為當前未來作戰概念“MDO 2028”的引入促使轉型讓人想起過去的重組周期。一個相關的例子是 20世紀80年代中期引入空地一體戰學說引發的重組。
空地之戰是美國陸軍在冷戰高峰期對俄羅斯威脅的回應。它于 1986 年出版,提出了一個依賴于陸地和空中能力有效同步的作戰框架。在技術進步的推動下,復雜性不斷增加,導致 "事件的節奏加快",這是基本的前提。該文件的一個關鍵組成部分是引入了反映戰爭不斷發展的新術語。其中一個新術語是綜合戰斗——集中使用所有能力來擊敗敵人——它依賴于獲得和保持態勢感知的能力。基于對新興技術可以在戰場上提供優勢的認識,空地戰指導正在迅速發展的計算機技術集成。1986年美國防部向國會提交的年度報告中提出了所需的創新努力。聯合戰術融合計劃 (JTFP) 和聯合監視和目標獲取系統 (JSTAS) 是隨后出現的系統。這兩個系統都旨在為指揮官提供從各種來源收集信息并指導采用聯合動力努力追擊地面目標的能力。開發這些系統的必要性表明了兩個事實。首先,這些系統顯示了技術和戰爭之間的整體關系。第二,這些系統強調了軍事領導人承認,從現在開始,在戰場上有效同步軍事能力所需的速度和復雜性超過了人類的認知能力。目前的多域作戰概念將這一認識帶到了未來。
認識到美軍的競爭優勢正在減弱,麥克馬斯特中將(退役)和當時的國防部副部長羅伯特-O-沃克呼吁開發空地戰2.0。時任訓練與條令司令部司令的大衛-G-帕金斯將軍(退役)響應號召,推出了多域作戰。然而,在2016年美國陸軍年會和博覽會期間,帕金斯將軍(退役)指出,這個概念不是對空地戰或全譜作戰的改造,而是描述了一種革命性的戰爭方法。多域作戰被稱為革命性的一個關鍵原因是,它要求軍事力量的運作方式發生轉變。新的作戰方式的基本驅動力是科學和技術的快速發展,以及需要在競爭、失敗、利用和再競爭的連續循環中與所有領域的同行威脅進行競爭。
在中國和俄羅斯等大國競爭的推動下,2017 年的美國國家安全戰略 (NSS)指示軍隊需要擁有同時在多個領域與競爭對手競爭的能力。要建立跨域對抗敵人的能力,需要發展“新的作戰概念和能力,以在不保證在空中、海上、陸地、太空和網絡空間領域的主導地位的情況下取得勝利”。來自聯合推動者的可靠和及時的跨領域支持是成功競爭的關鍵要求和隱含任務。由此產生的域相互依賴意味著“一個域中缺乏訪問可能會在一個或多個域中產生級聯效應”。因此,美國空軍多域作戰戰略計劃助理教授賈里德·唐納利博士預測,未來的戰爭將在一個快速而復雜的多域連續體中進行,不依賴于一系列作戰條件的連續設置但需要跨多個域的能力永久同步。因此,了解不同域中存在的能力以及如何利用每種能力來獲得暫時的優勢是多域作戰成功的基礎。
在 NSS 和 NDS 的指導下,美國訓練和條令司令部 (TRADOC) 于 2018 年初推出了 TRADOC 手冊 525-3-1,即“美國陸軍多域作戰2028”。這是一個概念,作為前 TRADOC 總司令Stephen J. Townsend 強調,承認敵人有能力在多層次的對峙中提出挑戰并與美軍抗衡,其目的是“在時間、空間和功能上將美軍和其盟友分開,以擊敗我們。”
該概念提出戰爭演變的一個原因是,它將多個領域的能力互動形象化,這超越了在不同領域內的機動性或擁有實現跨領域效果的能力。相反,這個概念承認,技術進步改變了領域之間的相互關系和跨領域連接的速度。MDO 2028將這些變化納入了該概念的多域作戰原則--校準的部隊結構、多域編隊和融合--這使得敵方的反介入和反侵略系統被瓦解,并使軍事力量能夠創造短暫的優勢窗口。它們結合在一起,為指揮官在時間、空間和目的上匯聚能力創造了條件,以實現跨領域的協同,并創造一個可利用的優勢地位。此外,多域融合是一個可以通過整合人工智能引導系統來優化和加速的過程。
我們必須習慣這樣一個激進的想法,即我們人類將只是智能生物之一。— Alexander Kott,美國陸軍研究實驗室網絡科學部主管
人工智能是技術系統執行此前需要人類智能才能執行的任務的能力。這些任務包括觀察和識別模式、通過觀察學習、預測事件或采取行動的能力。中國是美國的主要競爭對手之一,認識到人工智能可以使戰場對稱性向他們的優勢傾斜。中國在人工智能引導軍事能力(包括自主武器系統)發展方面的大量投資證明了此觀點。為了在武裝沖突中保持相對優勢地位,美國需要發展將人工智能與決策過程聯系起來的反擊能力。當前的美國人工智能計劃主要集中在模式識別上,由于計算能力的快速增長,模式識別可以分析越來越多的數據以創建信息。
多域作戰是需要收集和分析大量數據以觀察和評估作戰環境發展。目前人工智能在軍事上的應用主要集中在后勤運輸和數據分析的支持上。然而,聯合人工智能中心和白宮人工智能特別委員會的成立,都標志著人工智能將擴展到國防部的其他領域。例如,美國陸軍未來司令部目前正在開展多項計劃,分析人工智能如何提高指揮官獲得態勢感知和做出明智決策的能力。一個重點領域是發展能力,以提高美軍同步效果和減輕日常認知任務的速度。強調開發人員和潛在的最終用戶之間的迭代合作,為該部門開發人工智能指導系統創造了條件,該系統可以 "產生并幫助指揮官探索新的選擇",并使他們能夠專注于選擇有利的作戰方案,使部隊和任務的風險最小化。
關于將人工智能納入作戰管理過程,關鍵是要區分將人類置于環中或環上的系統。根據機器人和自主系統的聯合概念,自主的定義是 "自動化的范圍,其中獨立決策可以為特定的任務、風險水平和人機合作的程度量身定做"。范圍本身包含了不同程度的自主性。在由TRADOC和佐治亞理工學院主辦的2017年瘋狂科學家會議上,專家們介紹了三種程度的自主性--完全自主、受監督的自主和自主基線。 一個完全自主的系統獨立于人類的實時干預,在人類不參與的情況下運行。在有監督的自主系統中,人類保持著實時干預和影響決策的能力,因此仍然處于循環之中。自主基線是目前各種現有系統中存在的自主性。在軍事應用中,這種自主性存在于人類監督的武器中,如愛國者和宙斯盾導彈系統,或AH-64D阿帕奇攻擊直升機長弓火控雷達,它獨立地 "搜索、探測、定位、分類和優先處理陸地、空中和水中的多個移動和靜止目標。"
Mitre公司的Richard Potember將機器學習視為 "人工智能的基礎",其重點是系統在無監督下學習的能力,并創建深度神經網絡,以支持決策和機器人應用。自主性和人工智能的整合是一個過程,不經意間將導致 "我們以前電氣化的一切,現在將'認知化'"。 支持將人工智能引導的作戰管理系統納入多域作戰的一個關鍵技術發展趨勢是,自主性和學習逐漸從感知轉向決策。這樣一來,人工智能可以減輕多域作戰中固有的復雜性。一個固有的復雜性是整合能力和做出跨越多個領域的決策能力,不是在幾分鐘或幾小時內,而是幾秒鐘內,如果需要的話。因此,將人工智能整合到決策和同步過程中,平衡有利于美國的觀察-定向-決定-行動周期。
在戰略層面,人工智能引導的系統可以影響推動不同領域的升級和降級的決策。在作戰層面,通用人工智能可以建立態勢感知和同步效果。為了支持多個領域的能力融合,人工智能 "處理來自在多個領域運作的各種平臺的大量信息 ",直接促進了MDO戰爭的兩個基本方面:速度和范圍。人工智能支持比敵人更快、更遠的打擊能力。這種能力能夠實時分析動態戰場,為快速打擊創造條件,將美國“友軍”的風險降到最低。美國國防科學委員會2016年的一項研究,提出人工智能系統能夠在一個動能瞄準周期內整合多種作戰管理、指揮與控制、通信和情報能力的觀點。此外,委員會評估說,這些人工智能引導的系統的累積效應可以在整個多域融合周期內改變戰斗的運行和戰略動態。
AI 即將上戰場,這不是是否會出現的問題,而是何時和誰的問題。— 美國陸軍未來司令部司令約翰·默里將軍
在武裝沖突中,美國的競爭對手旨在整合他們的A2AD系統以建立分層對峙區。其目的是剝奪美軍聯合部隊在時間和空間上同步作戰的能力。俄羅斯的S-400 Triumf是美國部隊在大規模戰斗中可能面臨的系統代表。S-400是一種移動式地對空導彈系統,擁有對付從無人機到終端彈道導彈的各種武器系統的能力。該雷達可在600公里范圍內跟蹤目標,并具有100公里的交戰范圍。該系統提供的關鍵技術進步之一是傳感器到操作手的全自動循環,使該系統能夠同時跟蹤和打擊多達80個目標。這是支持MDO 2028假設的一個例子,即美軍在大規模對抗同行威脅的敵對行動開始時,不能假設自己在任何領域擁有優勢。為了在競爭、滲透、分解和利用的連續循環中攻破敵人的防御系統,美國陸軍的多域作戰框架引入了多域作戰的三個原則--校準的部隊態勢、多域編隊和融合。
校準的部隊態勢是指能夠迅速適應和改變作戰環境的部隊和能力組合。其目的是找出潛在的弱點或在戰場上創造不對稱性,以建立一個可利用的局部優勢窗口。前方存在的部隊支持在整個軍事行動范圍內快速升級,以滲透和瓦解敵人的系統。這些部隊被安排具有任務指揮、火力、情報收集、維持、信息活動和特種作戰能力。遠征部隊具有在需要時進行聯合強行進入行動的能力,并為后續部隊創造了條件。這些部隊通過空中和海上部署,可在幾天或幾周內完成。
多域編隊的重點是使較低的梯隊能夠對近距離的威脅進行進攻和防御行動。支持多域編隊的三種能力是進行獨立機動的能力、采用跨域火力的能力和最大限度地發揮人的潛力。為了支持在有爭議的領域內達到軍事目的,MDO 2028認識到軍團、師和旅梯隊的單位需要獨立行動,不受上級總部資源優先級的限制。因此,他們需要擁有有機的后勤、機動、火力、醫療和通信網絡,使部隊能夠在預先確定的時間內獨立作戰。作戰概念目前的框架要求這些梯隊 "在通信線路高度競爭的情況下,仍能維持數天的進攻行動。"維持進攻的能力是由指揮官采用跨域火力的能力來驅動的。
跨域火力是指在暫時脫離上級總部火力支援的情況下,對火力能力進行整合,并具有冗余性。這個過程包括直接和間接火力單位、保護能力和電子戰裝置,以及 "多光譜融合彈藥,以及網絡空間、空間和信息相關能力"。為了加強在復雜和快速發展的多域作戰環境中的決策過程,需要開發 "由人工智能和高速數據處理支持的人機交互"。 校準部隊態勢和創建多域編隊都是為了實現本文所認為的多域作戰的一個關鍵組成部分--融合。
MDO 2028將融合定義為 "在所有領域、電磁頻譜和信息環境中快速和持續地整合能力,通過跨領域的協同作用,優化效果以超越敵人"。盡管它可能看起來像目前聯合能力的整合和同步延伸,但這個概念與目前應用的聯合能力有很大不同。這主要是因為它不是在時間和空間上按順序消除沖突的過程,而是由目標周期和任務分配命令指導和限制。相反,它是在窗口期中對所有領域的效果進行持續的同步化,在空間和時間上都有很大差異。要在一個同行競爭的環境中競爭,需要有能力通過跨域的協同作用創造暫時的領域超越。這種協同作用集中在決定性的空間。決定性空間是時間和空間上的一個物理的、虛擬的和認知的位置,它使美國部隊能夠獲得一個可利用的明顯優勢位置。此外,由于軍事單位期望同時對抗多種威脅,多域融合要求在所有領域的競爭連續體中同時進行系統分解和中立化。
快速指揮和控制為指揮官通過跨域協同和分層選擇,實現融合創造了條件。因此,軍事指揮官在任何特定時間點擁有對戰斗空間內運作的所有聯合力量的整體態勢感知是融合的一個關鍵組成部分。MDO 2028確定了兩項要求,即必須開發技術先進的指揮和控制系統并將其整合到多域編隊中以促進這一進程。第一個是需要 "每個梯隊的指揮官和參謀人員都能得到所有領域的戰斗可視化呈現并且指揮",并迅速調整能力以實現融合。第二是有能力迅速協調聯合能力的匯合,以對付敵人的特定弱點。
指揮官在目的和時間上實現融合能力的關鍵是五個融合要素的同步化--準備時間、計劃和執行時間、持續時間、重置時間和周期時間。對這些要素的考慮使指揮官能夠計算出從啟動開始達到效果所需的時間,以及為新一輪的重新競爭重置能力所需的時間。在這個框架內收斂多種能力的過程因不同的能力使用率而進一步復雜化。雖然周期率提出了一個無限的使用序列,但使用率代表了一個與 "彈藥和消耗性虛擬武器 "相聯系的不斷減少的單位。 由于后勤是有爭議的,可預測的補給沒有保證,指揮官在多域融合中面臨著額外的挑戰。這個挑戰就是優化現有彈藥的使用,并使彈藥的使用與聯合能力的協調相一致。
目前可用彈藥的數量限制和無法建立庫存可能會導致未來大規模作戰行動中后勤儲備嚴重不足。為了延長軍隊的續航能力,特別是在跨越軍事爭端地區的交通線作戰時,需要對各種系統的武器狀況進行持續評估。在動能范圍內對所有聯合平臺進行 "優化和排序射擊 "變得至關重要。這種優化和排序過程,同樣迅速超過了人類決策者的認知能力,并提出了一個技術作戰管理系統的缺陷,該缺陷會對聯合能力的有效融合產生不利影響。
美國陸軍在多域戰斗空間中實現作戰敏捷性的核心是能夠從不斷增長的綜合數據集中創造理解,同時保持 "卓越的決策速度"。戰場上永遠存在著未知情況和沖突,但減少觀察環境變化和相應調整部隊方向所需的時間,可以提高決策和行動速度。提高對聯合部隊在各個領域內的所處位置的認識,相對于敵人和他們的作戰和戰術計劃,對于加速較低層次的機動是必要的。此外,短暫的機會窗口要求未來的作戰管理系統迅速將傳感器與射手相匹配。
在美國陸軍的現代化框架內,新興技術需要為兩個關鍵的技術和組織上的不足提供一個解決方案。首先是保持對作戰區域內所有聯合軍事單位完全態勢感知的能力。第二是迅速建立從傳感器到射手的冗余回路能力,其中包括所有可用的聯合單位并考慮到能力的不同再生周期。這是一項任務,根據需要處理的數據量,當聯合軍事單位在有爭議的戰場上競爭時,需要持續同步,這很快就會超過人類的認知能力。將人工智能融入作戰管理過程可以減輕這種人類的局限性。
我們的投資重點之一是網絡,這并非巧合……因此我們有能力將這種目標快速傳達給另一個領域。— 美國陸軍未來司令部司令約翰·默里將軍
實現多域融合的最關鍵步驟之一是開發聯合指揮和控制(C2)系統,將整個戰斗空間的能力縱向和橫向聯系起來。2017年,SYSTEMATIC公司獲得了設計美國陸軍新型作戰管理系統 SitaWare 的合同。美國陸軍戰術任務指揮部負責人 Shane Taylor 中校稱該系統是“一種開箱即用的解決方案,用于跨梯隊同步任務指揮數據,這為陸軍遷移到通用架構的目標提供了一個跨越式發展的機會。”該系統提供的一些進步包括簡化指揮所 C2、改進與聯合和聯盟伙伴的互操作性以及標準作戰功能融合框架。該系統的另一個關鍵功能是能夠快速擴展大量數據并以提高指揮官態勢感知的方式呈現。
在美國陸軍的作戰環境中,SitaWare 是一個指揮后計算環境組件,有望消除信息和情報孤島,并可集成為通用作戰平臺。 SYSTEMATIC公司承認未來的作戰需要情報、后勤和作戰系統的快速同步。因此,當前系統旨在分析大型數據集并在直觀的用戶界面上顯示相關信息。因此,它可以實時建立指揮官的態勢感知并提高他們的決策速度。此外,系統軟件符合各種民用和軍用互操作性標準,這使得系統更容易與其他聯合和聯盟平臺連接。
為了在各梯隊之間嵌套系統,SitaWare的用戶界面應用程序和顯示器可根據操作環境的要求進行定制。縱向信息共享確保所有梯隊之間共享共同數據。為了提供戰術層面上的態勢理解,該系統具有對輕型、輪式和裝甲編隊的美國“友軍”跟蹤能力。該系統的另一個關鍵特征是綜合指揮層。這一功能使指揮官能夠根據作戰環境的變化,迅速傳播對原始命令的更新和修改。然而,SitaWare的設計并不是為了指導效果。因此,它不能充分加快傳感器到射手的周期,不能提高指揮官在有爭議的環境中有效地匯聚聯合能力,以對抗擁有自主和人工智能支持的武器平臺的同行威脅。
在解決未來多域作戰要求的另一項努力中,美國陸軍啟動了一個內部項目,旨在 "增加物理目標、數據收集、數據分析和自主決策在戰場物聯網中的整合。"該項目專門用于填補美國陸軍領導人評估的商業生產技術沒有充分解決的差距。弗吉尼亞理工大學的專家預測,項目的主要挑戰之一是 "處理許多復雜的變量 "的能力,這影響了結合從博弈論到分布式學習等方面的能力。這些挑戰由于以下事實而被放大:美國陸軍目前的技術開發工作側重于能力的實戰化,很少考慮整合軟件和硬件,使這些系統能夠與各種聯合能力溝通。
該項目的重點是將人工智能引導的系統置于回路中,為指揮官提供在戰斗空間的各種傳感器平臺上收集的大量數據的綜合分析。通過收集相關傳感器系統的數據,分析敵人的能力分布,并將其與可用的美國“友軍”武器系統進行比較,該系統提供關于如何最有效地實現效果的建議。為了使這一過程有效運作,指揮官必須放棄相當程度的控制權,因為他們允許系統 "為如何發動戰爭選擇最合適的戰略"。盡管有這種擔憂,陸軍下一代戰車跨功能小組的副主任凱文-麥凱納里承認,人工智能在多域作戰中是必不可少的,因為它提供了可將目前九十六小時的師級目標定位周期 "減少到九十六秒 "的能力。總的來說,"四分衛項目 "是幫助指揮官 "準確了解戰場上的情況,然后根據可用的和其他因素選擇最合適的戰略。"該倡議是能夠在時間有限的決策空間中有效地融合能力邁出的重要一步,因為它將人工智能的作用提升到數據可視化工具之外,使其成為戰斗戰略工具。
對人工智能在作戰管理過程中的可靠性的擔憂可以通過云架構和深度學習系統的快速發展來緩解。與人類互動類似,在人工智能和自主系統發動的戰爭中建立信任需要時間。中校Wisham,"四分衛"項目的負責人之一,指出這需要一個深思熟慮的策略來證明系統是可靠和有效的,由于很難或不可能追蹤到神經網絡的決策路徑,這就很復雜。 然而,Nvidia公司的機器人研究員Dieter Fox預測,這是一個有解決方案的問題,因為研究人員繼續開發分析神經網絡和機器學習過程的新程序,在未來可以解決這一問題。要分析網絡和學習過程是人工智能的一個關鍵方面,因為它允許開發人員在一個設定的決策框架內約束自主學習系統。另一個認識到發展人工智能啟用能力重要性的部門是美國空軍。
由于確定需要開發多域 C2 系統,美國空軍打算用“衛星、有人機和無人機上不同傳感器的全新網絡”取代其傳統的聯合監視目標攻擊雷達系統。這種新能力的名稱是先進作戰管理系統(ABMS)。盡管項目當前的重點是連接美國空軍單位,但其最終目標是開發“未來作戰的數字神經系統”。美國空軍準將、美國空軍聯合部隊整合總監戴維·熊城(David Kumashiro)表明,他們的方法集中在這樣一種觀念上,即如果“你不遵循開放系統架構的標準,你就會發現自己在場邊,與戰斗無關。” ABMS結構建立在現有的基于云的目標定位助手之上,旨在有效跟蹤目標和飛機。通過擴展這一概念,美國空軍規劃人員希望專注于網絡機器對機器的交互。該項目的指導思想是開發可以“像樂高積木一樣拼在一起”的系統,以快速輕松地連接聯合能力。
總體而言,將人工智能整合到作戰管理過程中的需求是由一種認識驅動的,即在作戰領域將美國軍事部門聯系起來對于保持競爭性軍事優勢是必要的。如果不走人工智能整合的道路,就有可能對美軍在未來的戰斗中擊敗近似競爭對手的能力產生不利影響。以下兩個場景說明了在軍團和師級的多域作戰中,人工智能引導的作戰管理系統如何影響戰場上的動態。
長期規劃使軍方能夠集中研究和開發工作,并指導人員配備、訓練和裝備決策。這個過程的核心是制定評估發展中威脅的概念。 MDO 2028 是一個包含假設和預測以推動軍事戰略的文件示例。聯合出版物 5-0“聯合規劃”,將假設定義為“關于當前態勢或事件未來進程的假設,在缺乏事實的情況下假設被認為是真實”,這對于推進規劃過程至關重要。為了提供一個將軍事能力和需求與預期的未來作戰環境聯系起來的背景框架,軍事規劃人員創建情境以增加理解。這一過程使各級軍事領導人能夠“接觸可能的未知情況,并且吸收理解它”,并提出解決方案。因此,情景模擬是作為創建承認技術發展可行框架的一種方式。然而,重要的是不要將情景與具體預測混為一談,而應將其視為擴展可能性領域并根據預期的技術發展識別未來機會的工具。此外,重要的是要認識到情景構建的一個潛在因素是不確定性。為了展現不確定性和復雜性,同時保持情景“介于預測和推測之間”,需要整合歷史和當前信息,識別行為模式,以及“構建 關于未來的連貫敘事。”其他重要的考慮因素是場景需要與可信的現實生活條件保持一致。
布加勒斯特國防大學國防與安全研究中心的研究員 Marius Potirnich 創建了特定軍事情景分類。他提出的兩個類別是戰略情景和演習情景。戰略情景是出現最廣泛的類別,考慮了在整個軍事行動中可能發生和使用的軍事事件和能力。演習場景嵌套在戰略場景框架內,并進一步細分為真實和虛構。真實場景使用現有軍事能力,在現有作戰環境的約束下,分析現實世界任務集中的情況。虛構環境評估軍事能力的現狀以及預期的未來能力,并將它們置于基于已發布的軍事行動概念和現代化框架的預期威脅環境中進行預測。
本專著介紹了兩個虛構的場景,以說明在未來的多域作戰中集成人工智能引導作戰管理系統的潛在影響。所有場景都基于與對手(如中國)發生沖突的環境。第一個場景以軍梯隊為背景,重點關注空中和海上動能打擊的融合,以及“支持軍區機動計劃或代表下屬梯隊”的網絡空間活動。第二個場景設置在師梯隊,側重于聯合能力的融合和需要分析和傳播的“大量情報的定制”。對手的A2AD和軍事創新努力以及美國陸軍的 MDO 2028 和當前的現代化舉措被用作背景情景。場景是嵌套的,最后評估了美國陸軍是否能將人工智能納入其作戰管理流程,以便在當前的MDO 2028現代化框架下有效地融合多域作戰能力,以及如果該部門不能這樣做的潛在風險。
這本專著的框架是美國陸軍的多域作戰概念。重點不是討論人工智能在戰場上的法律和道德以及考慮人工智能產生在兩個方面產生的后果。相反,它旨在評估人工智能如何幫助在日益復雜的作戰環境中實現多域元素的融合。由于人工智能領域的快速變化和發展,評估是在概念層面進行的,沒有深入探討人工智能在戰爭戰術和作戰層面的廣闊應用前景。對算法是否可以指導能力融合的評估是基于當前的發展,以及機器學習、量子計算和自主機器對機器組合領域的預期進行的。該專著所介紹的和用作基礎的所有信息都完全來自于已被批準公開發布的渠道。因此,有可能存在與本專著的假設相矛盾的機密文件。
在2035年。根據“一個中國”的政策,中國軍隊已經開始收復臺灣,并開始阻止美國海軍進入中國南海。為了捍衛自己的利益,中國軍隊的導彈防御力量處于高度戒備狀態。綜合性的反介入和反侵略網絡得到了中遠程導彈、各種反飛行器和防空武器以及各種中遠程情報收集和監視能力的支持。中國的《新一代人工智能發展規劃》在過去15年中指導了軍事技術的發展。在 2017 年的介紹中,中國領導層宣稱“人工智能已成為國際競爭的新焦點。人工智能是一項引領未來的戰略技術; ……發展人工智能作為增強國家競爭力和保護國家安全的重大戰略。”因此,中國每年投資超過 150 億美元用于“智能技術”的發展,重點是人工智能引導的自主能力。中國的人工智能整合上付出不僅僅在軍用機器人領域,還包括自主軍事決策。基于人工智能在推理、作戰指揮和決策的潛力,中國領先的國防公司負責人,認為“在未來的智能戰爭中,人工智能系統將就像人類的大腦一樣”。因此,美國軍方面對的是一支具有在機器對機器團隊的前沿運作能力的中國部隊。
自主偵察無人機、攻擊機和導彈發射器整合到一個由人工智能引導的傳感器到射手網絡中。這些發展成倍地加快了戰斗的速度。對手的系統可以同時跟蹤和打擊數百個目標,并在需要時快速重新接觸和重新分配單位。為了競爭和滲透對手多余的防御結構,需要美軍快速、持續地匯聚能力,以“滲透和瓦解”A2AD 保護傘。這些行動能夠建立臨時的優勢窗口,軍和師梯隊可以利用這些優勢機動進入戰術支援區和近距離區域。在這些區域內,軍以下的梯隊可以集中他們的有機能力對抗敵人。這反過來又使軍團能夠在不斷的滲透和整合的循環中重新競爭和整合能力,為下級梯隊部隊的利用創造條件。
為了應對對手的現代化努力,美國陸軍在國家安全戰略、人工智能指令和多域作戰理念指導下,對機器-機器團隊聯動進行了大量投資。因此,美國的軍事能力包括一系列可以感知、協調效果以及指揮和控制的自主學習的作戰網絡系統。單個自主機器人和無人機系統,以及更大的無人駕駛飛機、海軍和導彈投送系統,都在該框架內作為自主節點運行。美國私營公司在量子計算領域的重大進展為美國軍隊提供了處理速度和響應時間方面的競爭優勢。這提供了一個戰機,使美國“友軍”能夠比對手更快地觀察、定位、決定和行動。但是,由于技術的進步,John Boyd 的 OODA 循環不再以分鐘為單位執行,而是以秒或毫秒為單位。這些新出現的威脅導致美國越來越多地將人從循環中移除,這使得聯合部隊能夠“以比對手更快、更有效的節奏作戰”。然而,受到有關在戰爭中使用自主制導系統和人工智能的道德法規的限制,美國軍方仍然將人類置于決策循環中。其結果是在指揮和控制層面有效整合了人機協作,允許指揮官在連續競爭期間從一系列進攻行動中選擇進攻方案,同時依靠自主的人工智能引導行動進行保護。
美國陸軍的關鍵指揮控制系統是由人工智能引導的作戰管理系統。它是美軍戰場網絡的樞紐。該系統從作戰環境中的所有聯合傳感器收集數據,并不斷從戰區和國家收集數據的單位中提取和推送數據,以構建共同的作戰圖景。這使系統能夠分析敵方和美國“友軍”在戰場上的位置。由于該系統是自主學習的,它會不斷評估敵人的行動和能力。同時,它對美國“友軍”能力及其狀態有完整的認識,包括各種系統的再生時間、彈藥消耗率和補給狀態。因此,該系統可以識別敵人的弱點和威脅,并執行一個連續的評估周期,以預測美國“友軍”聯合能力如何融合以在戰場上創造暫時的優勢。此外,作戰管理器還計算彈藥優化、能力調配和能力的使用,以達到預期的效果,同時最大限度地減少附帶損害和對部隊的風險。
在戰場網絡內,該系統與所有領域的聯合能力相聯系。各種作戰管理系統本身是橫向和縱向連接的,這使它們能夠跨多個域快速執行任務和重新分配任務,而不會失去實現各自目標的能力。與所有的傳感器和射手相連,允許系統控制傳感器到射擊者的連接,并分配最好的武器系統來實現動能和非動能效果。在保護作用中,作戰管理系統完全自主運行控制消除敵人對美國“友軍”和指定保護區的威脅。由于連續的進攻性競爭的融合能力必須嵌套在更高的總體目標中,作戰管理系統將人置于進攻行動的循環中。該系統分析了美國“友軍”能力通過在不同梯隊的聯合能力融合所能達到的各種效果。
多域框架將美國陸軍部隊視為遠征部隊。這個梯隊的關鍵作用之一是擊敗和消滅遠程和中程系統。因此,他們是在其控制范圍內各師的輔助力量。為了與同級別的威脅相抗衡,關鍵是要整合能力,以對抗對手的防空、遠程地面火力和反艦導彈。此外,在需要時,軍團總部負責指揮和控制在其作戰區域內運行的多域聯合能力。融合動能聯合火力的主要目標是摧毀敵人的中程武器系統,以促進師和旅單位的自由機動。最后,軍團負責同步國家、戰區和內部單位的情報收集工作。網絡空間能力本質上集成在融合工作中,包括國家和戰區級單位。總體意圖是對融合工作進行分層,以提供多種選擇并創建各種跨域協同能力變化。
在競爭周期內,軍團的重點是對敵方防御系統的滲透和瓦解。對對手A2AD保護傘的滲透,包括瓦解敵人的遠程火力系統。這包括使雷達和關鍵指揮和控制節點失效,這可能比破壞運載系統產生的影響更大。滲透的另一個方面是對手地面部隊機動的較量,以及在暫時優勢窗口期間與美國“友軍”從作戰和戰略距離機動的同步。
在師級,部隊的重點是分解和利用。在沖突開始時,他們可以作為前沿存在或遠征部隊。該師的主要作用是為下級部隊在近距離區域機動和對抗創造條件。該師的主要職責是“航空、火力、電子戰、機動 支援和多旅機動以獲得優勢位置。”關鍵是摧毀或消滅對手的中程火力單位。在這個梯隊,該師有能力將有機單位與上級司令部同步,并整合分配的空軍和海軍能力。與擁有自主和人工智能引導系統的相同競爭者相比,兩個梯隊的成功都受到他們進行多域同步的能力和能力自主水平的影響。
美國陸軍第 18 空降兵團總部位于作戰支援區。該組織的主要作用在戰場上創造條件,使其控制下的各師和增援部隊可以利用這些條件進入近距離機動區域。進攻行動以四個目標為中心--消滅對手的遠程防空單位,瓦解對手的中程火力能力,限制對手的地面部隊速度,以及創造 "通過分配資源、安排師的機動順序并將其與縱深結合起來,在較低層次上實現匯合。" 雖然近距離和縱深機動區的距離超過1500公里,但盟軍一直處于中程彈道導彈的動能目標和網絡及太空領域內的非動能目標的威脅之下。
為了保護,美國第 18 陸軍空降兵團的 AI 作戰管理系統不斷連接到國家和戰區的情報收集單位以收集情報。一旦發現對手的威脅,作戰管理系統就會自動與戰區和國家傳感器協調,以確定威脅,并促進傳感器的交接,確保收集情報的完整性,同時減少不必要的情報冗余。同時,它識別出跨所有領域的多個交付平臺,以構建一個強大的殺傷鏈,盡管可能丟失主要聯系,但該殺傷鏈可在時間受限的環境中執行。
空間傳感器為系統提供有關敵人遠程和中程火力能力的各個組成部分配置信息并且能持續更新。與此同時,作戰管理系統將海軍驅逐艦識別為最有可能成功摧毀來襲導彈的單位。同時,該系統識別出可以對威脅做出反應的其他美國“友軍”單位,并根據其當前對整體作戰環境的評估對其進行優先級排序。系統基于其算法考慮的一些因素是:強制風險、成功概率、彈藥狀態、能力重置時間和附帶損害。
對于保護工作,作戰管理系統以人在環結構中運行。這意味著軍團的作戰中心可以觀察事態發展,并在緊急情況下進行干預,但該過程是為作戰管理系統自主運行而設計的。對手威脅的程度以及他們可以運行的速度推動了對自主運行的需要。一旦檢測到來襲導彈,作戰管理系統就會在幾秒鐘內執行概述的序列以摧毀對手的威脅。這個循環實時并持續運轉,以應對新出現的威脅。三個方面使得智能引導的作戰管理系統在國防領域的自主運行方面變得至關重要。首先,能夠在幾秒鐘內關閉射手到傳感器的鏈接,以應對以高超音速單位的威脅。其次,建立強大和冗余殺傷鏈的能力,可以快速整合備用和應急能力。第三,在優化使用有限且難以再補給的資源的同時指導保護工作的能力。在保護行動的同時,該系統分析作戰環境以檢測進攻行動的機會。
對于進攻行動,作戰管理系統以人在回路中的模式運作。美國政府關于人工智能和自主武器的道德使用政策,以及公眾對使用人工智能引導的自主武器系統的看法,是決定將人類留在決策鏈中的基礎。美國陸軍的“四分衛項目”為構建當前的作戰管理系統提供了框架。與保護工作類似,作戰管理系統不斷從外部和有機傳感器中提取數據。然后,它評估聯合能力如何融合以暫時禁用對手的部分防御傘,并允許下屬單位推進并將其有機單位帶入射程。
由于聯合單位在在時間和空間上的協調需要在幾秒鐘內執行和同步,因此需要作戰管理系統不斷分析作戰環境。在此過程中,它重組了 OODA 循環概念的部分內容,以獲得以秒或毫秒為單位的自主對手決策周期的能力。該系統通過持續觀察戰場空間并同時分析美國“友軍”的行動來應對威脅,而不是觀察后再確定方向來實現這一目的。然后,該系統會產生一系列可用的選項來進行攻擊性打擊。在軍團的行動中心內,選項顯示在交互式顯示器上,允許具有適當釋放權限的個人決定采取何種行動。通過不斷分析和重新配置可能的傳感器到射擊者的回路,該系統創建了一個決策空間,可以減輕將人置于回路中對抗嚴重依賴自主能力的對手缺點。在作戰中心的相關權力機構確認以對手單位為目標后,作戰管理系統通過在時間和空間上同步依賴的效果,將來自各種選定的聯合推動者的能力融合起來。
在這種情況下,在發射美國“友軍”導彈之前,作戰管理系統會協調進攻性網絡行動,威脅信號淹沒對手雷達,這增加了導彈成功穿透敵人的反介入和區域封鎖傘的機會。一旦產生網絡效應,作戰管理系統就會指揮導彈的發射并觀察對手的反應,以在必要時重新發射另一枚導彈,并檢測更多額外的目標。導彈找到目標并摧毀它。一旦傳感器確認影響,作戰管理系統就會向與現有信息作戰工作線相一致的媒體傳播消息。同時,作戰管理系統會重新計算美國“友軍”運載平臺的彈藥可用性和回收率。這些數據用于優化未來打擊的彈藥使用,并為保障部隊建立補給優先順序清單。
隨著美國“友軍”的推進和軍團塑造縱深機動區和作戰縱深火力區,這一過程不斷重復。美國陸軍師利用暫時的優勢窗口和機動自由來推進并將對手帶入其有機武器系統的有效射程內。這為近距離和縱深機動區域的對抗創造了條件,從而改變了戰場邊界并重新啟動了競爭循環。
在美國陸軍第18空降團創造條件后,第3步兵師陣地機動進入附近區域,擊敗對手地面部隊。該地區是第一次軍事編隊爭奪“控制物理空間以支持戰役” 目標,在與對手近距離作戰。由于美國“友軍”地面部隊預計將在這個爭端空間進行獨立機動,因此擁有比對手更快的能力匯合對于推動節奏并保持主動權至關重要。地面機動部隊的目標是在臨時優勢窗口期間協調機動,以“擊敗敵軍、破壞敵方能力、物理控制空間以及保護民眾”。附近地區的對手依賴于由自主情報、監視和偵察 (ISR) 打擊系統、綜合防空系統和地面聯合兵種編隊組成的互聯網絡。將人工智能整合到決策周期中,大大加快了對手的行動節奏。為了獲得優勢地位,需要不斷中斷對手的能力,最好是在他們的指揮、控制和傳感器節點。
隨著第 3 步兵師部隊的機動,作戰管理系統不斷收集和比較數據,以構建一個共同的作戰圖,說明美國“友軍”和敵軍的組成和部署。根據數據,系統開始分析對手的防御網絡,以識別對手的傳感器、ISR 平臺和信息流。在此階段,地面部隊分散作戰,作戰管理系統側重于迫使對手暴露其能力的欺騙措施。一旦對手暴露了他們的系統,作戰管理系統就會將國家和戰區單位收集的偵察數據與鄰近單位情報和偵察能力收集的數據同步。然后它與相鄰單位和上級司令部的作戰管理系統協調,以消除交戰沖突。此操作可確保多個跨梯隊單位不繼續攻擊同一目標。
一旦上級司令部的作戰管理系統將權力下達給第 3 步兵師,該師的作戰管理系統就會掃描整個組織的能力,以建立一個成功可能性最大的傳感器與射手的連接。如果系統無法建立連接,或成功概率低于預定閾值,系統會將目標推回上級總部系統,以擴大可繼續攻克目標的可用聯合單位陣列并提高成功概率成功。當威脅單位可以用有機單位追擊時,師作戰管理系統會確認美國“友軍”的部署以清理地面,分析各種武器系統的彈藥狀態,并分配給確定的投送平臺。一旦傳感器周期完成,作戰管理系統就會向選定的武器系統發出信號以進行交戰。
釋放彈藥后,作戰系統會立即更新彈藥供應狀態,重置再生周期,向后勤作戰支援部隊發送補給請求,并跟蹤威脅直至其銷毀。這是一個需要幾秒鐘的循環,并且在滲透和分解過程中反復發生。隨著師部隊的推進,作戰管理系統在支持美國的各種媒體平臺上推送信息作戰信息。每一次積極的參與都伴隨著針對該地區人口統計的信息傳遞工作。隨著行動的進展,該系統不斷評估對手的信息活動并提出建議的反信息,使美國“友軍”在信息頻譜中保持主動權。
當美國“友軍”繼續在對手的反介入和區域拒止保護傘內展開對抗時,作戰管理系統會反復識別對手傳感器并建立冗余殺傷鏈來擊敗對手地面部隊。每次消滅對手ISR 傳感器時,系統都會評估破壞對敵方與美國“友軍”編隊交戰能力的影響。機動部隊利用隨后建立的臨時非覆蓋區域來推進其建制單位。同時,作戰管理系統重新啟動網絡、空間和無人機傳感器的融合以檢測新目標,并融合能力以建立一個新的臨時窗口期,可用于推進機動師地面部隊。
這些活動在幾秒鐘內發生,并且事件發生的速度遠遠超過人類的認知周期。隨著行動的進展,作戰管理系統的自主學習算法繼續分析和識別對手行為中的模式。因此,該系統可以實現與對手地面部隊及其防御努力的持續競爭循環。
美國對手整合和融合自主性和人工智能的意愿推動了美軍發展和使用對抗能力的需求。這些進展提出了在面臨對等威脅時快速連續執行多域融合的需求。由于跨多個領域融合能力需要分析大量信息,因此該過程將人為主導的同步過程推到了敵人的決策周期之外。此外,多域融合涉及建立冗余殺傷鏈。通過消除沖突建立一個單一的傳感器到射手銜接鏈是不夠的。相反,融合需要在必要時識別和使用可以繼續攻擊目標或提供保護工作的冗余能力。由于存在優勢窗口的時間框架不斷縮短,建立快速同步聯合能力的冗余殺傷鏈是一項關鍵且需要同步完成的工作。
總體而言,未來的作戰管理系統必須在聯合平臺上進行橫向和縱向鏈接,以滿足多域作戰需求,并具備秒級或毫秒級的協同作戰能力。此外,為了融合能力,人工智能引導的作戰管理系統可以在爭端地區補給環境縮小對抗中彈藥優化的能力差距。該系統通過持續評估最佳目標-彈藥組合并避免不必要地消耗彈藥以及過度殺傷來實現這一目標。不幸的是,目前開發指揮和控制平臺的方法主要是沿著服務的孤島進行的,這將減緩建立在未來作戰中融合能力所需技術框架的能力。
人工智能和自主性對作戰節奏的影響支持羅伯特·萊昂哈德的說法,即“時間越來越成為戰爭的關鍵維度。”人工智能與自主能力的結合使軍隊能夠大幅增加活動發生的頻率,進而推動序列的節奏并縮短機會之窗。當人工智能在沒有人的情況下在觀察決策-行動循環中引導自主系統時,這種關系會進一步加速。時間,以及比對手更快地觀察和行動的能力,成為執行匯合的關鍵因素,使美國“友軍”能夠獲得暫時的優勢位置。
自從計算機網絡、戰術數據鏈和衛星通信的普及以來,美國還沒有遇到過對手。目前在量子技術、人工智能和自主性領域的努力對美國各軍種在其各自的統治范圍內獨立運作的能力提出了挑戰。因此,正如美國陸軍的多域作戰 2028 概念所預期的那樣,在戰場上創造臨時可利用優勢的能力依賴于跨多個域融合聯合能力。目前,這一過程主要由協調小組執行,其主要任務是通過 "域聯合解決方案的階段性同步"來匯聚能力。然而,與同行競爭者進行融合的復雜性,其人工智能引導和自主武器系統將決策和同步循環縮短到幾分鐘或幾秒鐘,這需要開發新技術。 MDO 2028的設計師承認這一缺陷,以及任務的復雜性,并列出了融合的考慮,要求開發新的軍事技術來填補這一關鍵的空白。
因此,未來的 C2 系統需要為所有梯隊的指揮官提供盡可能接近完整的戰場空間內所有聯合單位的通用作戰圖。此外,這些系統需要快速傳輸偵察和目標數據,以使用動能和非動能手段繼續攻擊目標。然而,即使未來的C2系統能夠為指揮官和他們的參謀人員提供數據,使他們能夠在多個領域融合能力,但與在快速轉瞬即逝的機會窗口內任務相關的大量信息融合很快就超過了人類的認知能力。此外,其他因素,如彈藥優化要求和不同的能力再生窗口,進一步增加了在多域作戰中融合能力的復雜性。
目前為應對新出現的威脅所做的努力表明,美國各軍種在開發和部署國防部范圍內的能力方面仍然進展緩慢。美國軍隊正處于重組過程中,這為創建專注于打仗的系統提供了機會,而打仗需要嵌套和連接的C2系統,以促進快速交接和整合聯合使能器。如果現在不建立這些能力,將導致發展出一支名副其實的“多域部隊”,因為軍隊將不再具備2028發展目標所設想的那樣融合能力,而是退回到既定的解沖突和同步過程,這種程序太慢,效率太低,無法保持競爭力。
正如本文所說明的那樣,面對擁有人工智能引導和自主武器系統的同行威脅,保持競爭力的唯一途徑是發展類似的能力,在幾秒鐘內建立并執行冗余的傳感器到射手的連接。將人工智能整合到作戰管理過程中不是一個保持領域優勢的問題,而是確保美國軍隊能夠在對抗、利用和再對抗的連續循環中創造短暫的優勢窗口,這種對抗在所有作戰領域中以秒計。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。
關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化
在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。
方框1. 軍事決策過程(MDMP) | |
---|---|
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。 | |
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。 | |
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。 | |
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。 |
盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。
提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。
除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。
以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。
軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。
除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。
圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。
需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。
圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。
人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。
使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。
圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。
這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。
在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。
BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。
人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。
隨著美國為大國競爭而重組其軍隊,戰場的有效性將取決于美軍是否有能力超越其近似競爭對手的決策周期。速度是關鍵--軍隊如何快速從其傳感器中收集數據,分析數據,辨別重要信息,將其發送給相關作戰人員并作出最佳反應。一支日益一體化和互操作性的部隊,對共同作戰環境有共同理解,對于軍隊完成能力融合至關重要。
美國防部聯合作戰概念(JWC)描述了全域作戰,并設想了一個聯合殺傷網,它可以通過全域聯合指揮和控制(JADC2)的支持概念,快速有效地將任何傳感器與任何投射能力聯系起來,這就是融合的原則。實現融合要求各軍種之間專注聚焦,確定優先次序并進行協同。美國陸軍將在JADC2中發揮核心作用,因為它為作戰和戰術網絡的發展提供信息;為JWC提供后勤骨干;并在一系列與各部門、機構和國際合作伙伴的合作實驗中測試融合。
議題:隨著美國軍隊為大國競爭而進行的轉型,戰場效率將在很大程度上取決于其超越同行競爭對手決策周期的能力。
聚焦范圍:描述了陸軍和聯合實施JADC2的情況。
觀點:
在2020年以后,美國軍隊必須具有戰略上的敏捷性、反應性和致命性。中國和俄羅斯正在大力投資,以減輕美國在陸地、空中、海上、太空和網絡空間各個領域的能力。
在有可能限制聯合部隊戰略部署和使用其部隊能力的情況下,需要一個現代化的指揮和控制(C2)機構,能夠迅速匯集美國及其盟國的所有能力,以威懾,并在必要時擊敗近鄰和其他競爭對手。
目前的C2項目使用的是幾十年前的平臺,"沒有針對未來沖突的速度、復雜性和殺傷力進行優化"。目前的平臺各軍種不能有效地利用或發送數據、命令給其他軍種,而且它們的結構不能支持實現未來的C2。2018年國防戰略(NDS)強調了C2系統現代化的重要性,指出在退化的環境中未來的戰斗將以速度、更多的自主權和分布式的單位獲勝。
美國防部領導層設想了一個在戰場上沒有界限的未來,圍繞著一個統一的C2系統,其中一個多領域的方法--參與和整合地面、空中、海上、網絡和空間作戰--對于挑戰一個近似的對手是必要的。JWC是一個關鍵的概念,并且正在推動未來的研發和采購,同時也在整合作戰指揮部的審查和服務計劃。因此,該概念的發展是國防部的一個優先事項。
圖:全域聯合指揮與控制(JADC2)通過實時終端用戶報告和協作規劃,協同多個數據源,在國防支持民事當局行動期間,準確地在聯合特遣部隊民事支持(JTF-CS,美軍機構) 可能需要的地方提供支持能力。
注1:聯合作戰概念的四個支持性概念
美國防部JADC2戰略于2021年5月由國防部長勞埃德-奧斯汀批準,闡明了國防部實施JADC2的方法;它將JADC2描述為感知、探測和行動的作戰能力,從而提高從沖突到競爭以及所有領域的互操作性和決策速度。JADC2是一個以數據為中心的持續C2能力框架,它支持JWC,并使聯合部隊能夠迅速匯集有助于威懾的效果,并通過決策優勢使任務取得成功。
JADC2指的是所有聯合C2的實施,包括:
由于速度和規模在未來的戰斗中至關重要,JADC2將建立一個網狀網絡,實時將各部門的數據帶入一個 "可共享的數據湖",將來自所有領域--陸地、空中、海上、太空和網絡空間的傳感器連接起來。利用人工智能軟件、數據庫、處理器和算法,它將把偵察信息轉化為可識別的和優先的目標,比人類分析員更快。目標數據將被發送到處于最佳位置的單位/能力,無論是動能、網絡、電子戰(EW)還是信息作戰(IO)。
JADC2及其網狀網絡可以被看作是一個安全的戰斗互聯網,軍事應用程序在上面進行連接,從所有可用的來源搜尋數據,以迅速將最佳的 "投射 "或 "效應器 "與目標聯系起來。JADC2可以提供無處不在的數據,不同的人類和機械數據可以根據需要使用。歸根結底,JADC2不是一個特定的平臺;它是獲取數據并有效連接。
圖:聯合參謀部的JADC2作戰規劃實驗,允許陸軍、海軍、空軍和海軍陸戰隊的節點共享實時的信息,以實現傳感器與投射的聯系,并將其顯示在一個共同的作戰畫面上(美軍聯合現代化司令部)。
所有軍種都同意需要將JADC2作為一項組織戰略。2020年,陸軍和空軍簽署了一項協議,在2022財政年度(FY22)之前分享數據并制定共同的數據和接口標準;在多次實驗中,他們在這方面取得了成功。此外,陸軍、海軍和空軍在2021年初簽署了一項合作協議,以測試、整合和分享數據開發,以實現JADC2。
陸軍現代化戰略描述了陸軍將如何作戰,用什么作戰以及如何組織起來支持聯合部隊。陸軍致力于發展作戰網絡、技術和概念,通過一系列名為 "項目融合"(PC)的演示和實驗來實現超額匹配并為聯合部隊提供信息。這是一場持續的學習運動,旨在迅速 "融合"所有領域(陸地、空中、海上、太空和網絡空間)的效果,并塑造陸軍的新興理論、組織、訓練、能力、研究和發展以及后勤。
通過實驗和學習,"項目融合"有助于確保軍隊在適當的地方擁有適當的人員、適當的系統、適當的能力,以支持聯合戰斗。——陸軍參謀長詹姆斯-麥康威爾將軍
PC由五個核心要素組成:
每項實驗都通過新的架構、編隊和來自陸軍八個CFT的授權來融合現代化舉措,并深化陸軍現代化舉措的整合。這些努力正在加速2018年國防戰略中概述的現代化戰略,該戰略設想未來的戰斗將在退化的環境中以擁有速度、自主性和分布式能力的單位獲勝。
表:陸軍未來司令部項目融合戰略20-22財年
在亞利桑那州尤馬的 "項目融合2020"(PC20)持續了幾個月,展示了人工智能和機器人技術,包括兩次實彈演示。該實驗由士兵、平民、科學家和工程師設計,在最低作戰水平上測試了融合,以挑戰戰術邊緣的決策過程。其中一項測試使用衛星和無人駕駛航空系統:同時感知空中和地面目標;迅速將數據傳遞給平臺,以打擊目標;并在十幾秒內決定性地摧毀該目標。
圖:2021年10月19日,在亞利桑那州尤馬試驗場,被分配到第82空降師的美國陸軍一等兵丹尼爾-坎達爾斯使用戰術機器人控制器來控制遠征模塊化自主車輛,為 "項目融合"做準備。在2021年項目融合期間,士兵們試驗使用該車輛進行半自主偵察和再補給(美國陸軍中士馬里塔-施瓦布攝)。
對實現JADC2能力的另一個貢獻是陸軍繼續倡導將其從聯合(joint)擴展到 "結合(combined)"--CJADC2--因為任何網絡都需要包括盟友和合作伙伴。陸軍在亞洲和歐洲有著深厚的軍隊間關系,應該站在這種重要努力的最前沿。認識到這一點,陸軍21/22財政年度的PC戰略將參與范圍擴大到了結合伙伴和盟友,增加了指揮層級并使之多樣化,并推動了現代化概念和技術的極限。
注2:項目融合(Project Convergence):項目融合是聯合部隊對速度、射程和決策主導權的實驗,以實現超額完成任務,并為聯合作戰概念和全域聯合指揮與控制提供信息。作為一場學習運動,它利用一系列聯合的、多領域的交戰來整合人工智能、機器人技術和自主性,以提高戰場態勢感知,將傳感器與投射連接起來,并加快決策的時間線。因為誰能最先看到、了解并采取行動,誰就能獲勝。
注3:項目融合的五個核心要素
JADC2要求國防部和陸軍進行轉型,特別是在數據管理和共享、網絡支持能力、人工智能在決策周期中的作用以及為實現這些變化而對部隊結構進行調整。陸軍現代化戰略及其現代化優先事項是持續轉型的框架,以使陸軍能夠在多個領域進行部署與聚合效應。
注4:軍隊現代化的優先事項六大任務
一個用于C2的綜合戰斗管理系統需要在數據共享和標準化數據共享接口方面進行通信;然而,許多遺留系統包含數據共享障礙。2021年初,各軍種之間開始認真工作,制定數據標準以連接他們的JADC2項目,并通過 "發現、理解和與所有領域、梯隊和安全級別的合作伙伴交換數據 "來克服這些障礙。
陸軍的網絡CFT正在試驗網絡的現代化,以實現聯合接口、彈性和能力。它的重點是加強地面領域的數據和網絡傳輸能力,連接人工智能和機器學習(AI/ML),開發戰術云和邊緣計算。
國防部正在制定和實施一套初步的實驗和原型設計的核心原則,以統一國家安全事業。聯合部隊已經確定了幾個原型能力,通過將真實世界的威脅數據納入響應計算,在即將舉行的演習中進行測試。陸軍聯合現代化司令部建立了聯合系統集成實驗室(JSIL)--一個使用持久性環境場景的實驗網絡,允許各軍種、工業界和盟友通過幾個網絡測試數據共享能力。這將有助于對JADC2戰略進行可靠的評估。
由美國太空發展局管理的低地球軌道(LEO)衛星將整合各軍種的戰術網絡,以創建一個網狀網絡的傳輸層。計劃于2022年部署的近30顆衛星將提供一種 "作戰人員沉浸 "能力,其中傳感器、投射和戰術網絡可以與戰術通信連接。PC22將利用這些衛星,開發低地軌道能力。
人工智能國家安全委員會報告稱,國防部有必要在2025年前采用、實施人工智能并為其提供資源。人工智能/ML--陸軍的一個優先研究領域--對于在聯合、全域作戰中實現聯合戰場管理系統至關重要。人工智能的進步提高了對新出現的威脅的反應速度和敏捷性,使指揮官和工作人員能夠將精力集中在加速、優化決策上。
建設網絡安全基礎設施是陸軍網絡計劃的一個關鍵方面,它將為統一的網絡帶來速度、訪問和安全。在平衡這些要求的同時,美國網絡司令部正在與行業伙伴密切合作,擴大用于在國防部、情報界和商業網絡之間傳遞數據的安全共享工具,而不存在被破壞的風險。
圖:作為 "項目融合2020"的一部分,飛馬系列戰術自主系統的一部分在尤馬試驗場進行測試。飛馬系統有能力為無人駕駛航空系統(UAS)、地面行駛履帶式車輛,提供監視能力或創建一個地區的豐富詳細的三維地圖。
決策主導權--在技術和融合的作用下更快地做出更好的決策的能力--將使美國軍隊從其對手中脫穎而出。JADC2有助于實現信息主導權,并促進快速融合,實現速度關鍵優勢,這是未來AI/ML競爭的基礎。
目前,每個軍種都在其各自領域內管理C2的復雜性。隨著戰爭的特點變得越來越復雜,聯合部隊必須同時有效地整合五個領域。這需要新的C2方法。JADC2是建立一支能夠完成國防戰略目標的聯合部隊的基礎。國會的支持、持續的資助和軍種間的合作對于成功實施JWC和JADC2至關重要。
陸軍在實現這一聯合網絡的技術、創新和實驗方面處于領先地位。它的PC學習運動已經證明了它有能力使用新興技術和創新概念來實現軍種間和跨域的融合。陸軍的未來司令部、CFTs、作戰能力發展司令部和軟件工廠正在結合士兵的經驗、工業界的資源和科學家的專業知識來發展和提供未來的戰斗力量。通過實驗和聯合協作,陸軍正在使JADC2成為現實,從而增強戰略競爭中的威懾力和沖突中的超強戰斗力。
美國陸軍協會是一個非營利性的教育和專業發展協會,為美國的全部軍隊、士兵、陸軍文職人員和他們的家屬、行業伙伴以及強大國防的支持者服務。美國陸軍協會為陸軍提供聲音,支持士兵。
機器學習是現代戰爭系統的關鍵組成部分。本文探討了人工智能的 7 個關鍵軍事應用。
機器學習已成為現代戰爭的重要組成部分,也是我(Nicholas Abell)作為陸軍退伍軍人和數據科學家的主要興趣點。與傳統系統相比,配備人工智能/機器學習的軍事系統能夠更有效地處理大量數據。此外,人工智能由于其固有的計算和決策能力,提高了作戰系統的自我控制、自我調節和自我驅動能力。
人工智能/機器學習幾乎被部署在所有軍事應用中,軍事研究機構增加研發資金有望進一步推動人工智能驅動系統在軍事領域的應用。
例如,美國國防部 (DoD) 的國防高級研究計劃局 (DARPA) 正在資助一種機器人潛艇系統的開發,該系統預計將用于從探測水下水雷到參與反潛行動的各種應用。此外,美國國防部在 2017 財年在人工智能、大數據和云計算方面的總體支出為 74 億美元。預計到 2025 年,軍事 ML 解決方案的市場規模將達到 190 億美元。
以下是機器學習將在未來幾年證明其重要性的七種主要軍事應用。
來自全球不同國家的國防軍隊正在將人工智能嵌入陸地、海軍、空中和太空平臺上使用的武器和其他系統中。
在基于這些平臺的系統中使用人工智能,可以開發出更少依賴人工輸入的高效作戰系統。它還增加了協同作用,提高了作戰系統的性能,同時需要更少的維護。人工智能還有望使自主和高速武器能夠進行協作攻擊。
軍事系統通常容易受到網絡攻擊,這可能導致機密軍事信息丟失和軍事系統損壞。然而,配備人工智能的系統可以自主保護網絡、計算機、程序和數據免受任何未經授權的訪問。
此外,支持人工智能的網絡安全系統可以記錄網絡攻擊的模式,并開發反擊工具來應對它們。
人工智能有望在軍事后勤和運輸中發揮關鍵作用。貨物、彈藥、武器和部隊的有效運輸是成功軍事行動的重要組成部分。
將人工智能與軍事運輸相結合可以降低運輸成本并減少人力工作負荷。它還使軍用艦隊能夠輕松檢測異常并快速預測組件故障。最近,美國陸軍與 IBM 合作,使用其 Watson 人工智能平臺來幫助預先識別 Stryker 戰車的維護問題。
正在開發人工智能技術以提高復雜戰斗環境中目標識別的準確性。這些技術使國防軍隊能夠通過分析報告、文檔、新聞提要和其他形式的非結構化信息來深入了解潛在的作戰領域。此外,目標識別系統中的人工智能提高了這些系統識別目標位置的能力。
支持人工智能的目標識別系統能力包括基于概率的敵人行為預測、天氣和環境條件匯總、潛在供應線瓶頸或漏洞的預測和標記、任務方法評估以及建議的緩解策略。機器學習還用于從獲得的數據中學習、跟蹤和發現目標。
例如,DARPA 的競爭環境中的目標識別和適應 (TRACE) 計劃使用機器學習技術在合成孔徑雷達 (SAR) 圖像的幫助下自動定位和識別目標。
在戰區,人工智能可以與機器人手術系統 (RSS) 和機器人地面平臺 (RGP) 集成,以提供遠程手術支持和疏散活動。美國尤其參與了 RSS、RGP 和其他各種用于戰場醫療保健的系統開發。在困難條件下,配備人工智能的系統可以挖掘士兵的病歷并協助進行復雜的診斷。
例如,IBM 的 Watson 研究團隊與美國退伍軍人管理局合作開發了一種稱為電子病歷分析器 (EMRA) 的臨床推理原型。這項初步技術旨在使用機器學習技術來處理患者的電子病歷,并自動識別和排列他們最嚴重的健康問題。
模擬與訓練是一個多學科領域,它將系統工程、軟件工程和計算機科學結合起來構建計算機模型,使士兵熟悉在軍事行動中部署的各種作戰系統。美國正在越來越多地投資于模擬和訓練應用。
美國海軍和陸軍都在進行戰爭分析,啟動了幾個傳感器模擬程序項目。美國海軍已經招募了 Leidos、SAIC、AECOM 和 Orbital ATK 等公司來支持他們的計劃,而美國陸軍的計劃得到了包括 SAIC、CACI、Torch Technologies 和 Millennium Engineering 在內的公司的支持。
威脅監控和態勢感知在很大程度上依賴于情報、監視和偵察 (ISR) 工作。ISR 行動用于獲取和處理信息以支持一系列軍事活動。
用于執行 ISR 任務的無人系統既可以遠程操作,也可以按照預先定義的路線發送。為這些系統配備人工智能有助于防御人員進行威脅監控,從而提高他們的態勢感知能力。
具有集成 AI 的無人駕駛飛行器 (UAV) - 也稱為無人機 - 可以巡邏邊境地區,識別潛在威脅,并將有關這些威脅的信息傳輸給響應團隊。因此,使用無人機可以加強軍事基地的安全,并提高軍事人員在戰斗中或偏遠地區的安全性和效率。
人工智能在軍事技術硬件和軟件的大規模采用,向我們展示了現代戰爭中令人難以置信和可怕的范式轉變。毫不奇怪,世界上最大的軍隊比其他任何事情都更加關注這項技術,而這場技術競賽的獲勝者可能會比美國在研制原子彈后擁有更多的全球影響力。 (作者:Nicholas Abell,美國陸軍退伍軍人)
美國國防部(DOD)報告稱,人工智能(AI)是一項革命性的技術,有望改變未來的戰場和美國面臨的威脅的速度。人工智能能力將使機器能夠執行通常需要人類智能的任務,如得出結論和做出預測此外,人工智能機器可以以人類操作員無法企及的速度操縱和改變戰術。由于AI具有廣泛用途的潛力,國防部將其指定為頂級現代化領域,并投入大量精力和資金開發和獲取AI工具和能力,以支持作戰人員。在2022財年,國防部為科學和技術項目申請了147億美元,以及8.74億美元用于直接支持其人工智能努力。根據國防部2018年的人工智能戰略,未能將人工智能能力納入武器系統可能會阻礙戰士保護我們的國家抵御近同行對手的能力其他國家正在這一領域進行大量投資,這可能會削弱美國的軍事技術和作戰優勢。
美國國防部(DOD)正在積極追求人工智能(AI)能力。人工智能指的是旨在復制一系列人類功能,并不斷在分配的任務上做得更好的計算機系統。GAO之前確定了三種AI類型,如下圖所示。
國防部認識到開發和使用人工智能不同于傳統軟件。傳統軟件的編程是根據靜態指令執行任務,而人工智能的編程則是學習如何改進給定的任務。這需要大量的數據集、計算能力和持續監控,以確保功能按預期執行。支持國防部作戰任務的大部分人工智能能力仍在開發中。這些能力主要集中在分析情報,增強武器系統平臺,如不需要人工操作的飛機和艦船,并在戰場上提供建議(如將部隊轉移到哪里)。
當獲取依賴于復雜軟件的新能力時,國防部一直面臨著挑戰,例如長時間的獲取過程和熟練工人的短缺。GAO發現,它繼續面臨這些挑戰,同時還面臨人工智能特有的其他挑戰,包括有可用的數據來訓練人工智能。例如,人工智能探測對手的潛艇需要收集各種潛艇的圖像,并標記它們,這樣人工智能就可以學會自己識別。國防部還面臨著將訓練有素的人工智能集成到非為其設計的現有武器系統中的困難,以及在其人員中建立對人工智能的信任。國防部發起了一系列努力,如為人工智能和人工智能特定培訓建立一個跨服務的數字平臺,以應對這些挑戰,并支持其對人工智能的追求,但現在評估有效性還為時過早