本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。
同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。
本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。
美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。
2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。
在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。
在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。
簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。
美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。
隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。
到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。
DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。
ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。
作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。
在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:
DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?
我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?
在人工智能支持的C2系統中,人類的干預有什么影響?
該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。
作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。
圖1 C2基礎設施概述
虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。
圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。
星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。
作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。
圖3 《星際爭霸II》中的虎爪地圖
虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。
我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。
圖4 《星際爭霸II》編輯器中的初始虎爪地圖
在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。
距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。
圖5 修改后的《星際爭霸II》編輯地圖
最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。
為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。
首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。
表1 虎爪部隊與《星際爭霸II》部隊的映射關系
為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。
修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。
圖6 使用MILSTD2525符號的星際爭霸II
獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。
我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。
為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。
圖7 《星際爭霸II》中的區域和目標
觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。
事件。啟動觸發器(例如,一個單位進入一個區域)。
變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。
條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。
行動。事件的結果或成果(例如,單位獲得積分)。
圖8 《星際爭霸II》中虎爪場景的觸發實例
作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。
OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。
強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。
對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。
圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架
DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。
同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。
利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。
我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。
在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。
圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。
圖10 《星際爭霸II》的狀態輸入處理
表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵
A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。
圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。
我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。
我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。
圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。
為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。
政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。
觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。
表3 OpSim模擬的觀察空間、行動空間和獎賞
訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。
圖13 主題專家和人工智能指揮員之間的實體損失比較
圖14 一次推廣的開始和結束的快照
作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。
初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。
美國陸軍未來與概念中心 未來戰爭部主任 克里斯-羅杰斯上校
歷史上的戰爭包含了大量改變戰爭性質的工具和技術的例子。自最初研究多域作戰(MDO)以來,美國陸軍發現人工智能是一種新興技術,有可能改變戰爭的特點,也許也會改變戰爭的性質。使用人工智能(AI)解決方案來緩解軍事問題是過去兩年未來戰爭研究、檢查和學習的一個反復出現的主題。作為2019年未來研究計劃的一部分,我們與陸軍、聯合、多國、學術和科技組織合作,探索和了解人工智能對多軍種的影響,并為未來的研究和發展制定一個操作框架。
多域作戰的人工智能運作最終報告提供了采用人工智能的組織框架,以幫助陸軍和聯合部隊更好地定義所需的能力以及相關的數據和網絡架構,以實現多域能力部隊。描述聯合部隊如何采用人工智能解決方案,為了解人工智能在時間和空間上對多域作戰的影響提供了一個操作說明。本報告確定并解決了與人工智能相關的好處、機會和挑戰,為進一步分析提供了基礎。諸如人工智能等新興技術使陸軍不僅可以改進當前的戰術、技術和程序,而且可以創造新的運用和融合能力的方法。
該報告支持美國陸軍人工智能任務組,該組織負責制定陸軍的人工智能戰略和政策。本文通過描述部隊如何在整個MDO框架內采用人工智能解決方案和相關技術,啟動了陸軍的人工智能運用工作。這份報告使概念發展團體能夠修改陸軍功能概念和戰場發展計劃。它為能力發展團體提供了作戰視角和部隊在確定所需能力時必須考慮的技術影響。此外,該報告還為作戰概念文件或基于能力的評估提供了開發情景或小插曲的基礎。該文件為科學和技術界提供了行動背景,以便為人工智能研究、開發、建模和模擬提供信息和指導。最后,它支持制定一個在未來使用人工智能的全面愿景,以告知陸軍現代化的努力,這將創造有能力的MDO部隊,準備好與任何對手作戰并取得勝利。
人工智能(AI)是未來聯合部隊實現多域作戰(MDO)全部潛力的基礎。人工智能系統提供了跨越領域、電磁頻譜和信息環境戰勝對手的能力。在競爭中使用這些系統使聯合部隊能夠近乎實時地了解作戰環境,從而更好地運用能力來擊敗旨在破壞區域穩定的威脅行動,阻止暴力升級,并將被拒絕的空間變成有爭議的空間。在從競爭到武裝沖突的過渡中,人工智能的機動、火力以及情報、監視和偵察能力為聯合部隊提供了拒絕敵人奪取優勢地位的能力。改進的維持能力與攻擊敵人的反介入/空中拒止網絡的能力相結合,為美國部隊提供了奪取作戰、戰略和戰術優勢位置的能力。通過由人工智能支持的多領域聯合行動圖(MDCOP)增加了解,使美國部隊有能力協調多領域的效果以創造優勢窗口。
制定人工智能的作戰概念使陸軍能夠更好地理解這些技術對戰爭的性質和特征的潛在影響。描述陸軍如何在未來的作戰環境中使用人工智能,有助于說明其對戰爭的暴力、互動和基本的政治性質的影響,以及戰爭不斷演變的特點。本文提供了一些小插曲(附錄A),說明了人工智能的組織運用,為美國陸軍RAS總體概念、作戰和組織概念、基于編隊的作戰概念以及系統或單個系統的運用概念的潛在發展提供信息。
人工智能的運作影響到未來部隊將如何運作,如何針對對手開展行動,以及指揮官如何利用軍事藝術和科學,運用部隊能力來實現預期效果和目標。在2019年未來研究計劃(FSP19)期間,人工智能工作線(LoE)確定了與實施人工智能支持的多領域解決方案有關的以下問題:
數據管理--AI/ML應用程序依賴于對策劃的數據的訪問,以便發揮作用。陸軍必須培養一種以數據為中心的文化,以標準化的格式和協議有效地生成、存儲和訪問數據。人才管理的努力必須側重于發展、培訓和保留一支精通數據的員工隊伍。這可以通過以下方式實現:
在整個部門培養一種以數據為中心的文化
投資于整個員工隊伍的數據科學培訓
簡化數據訪問
設計和實施協議,以確保數據的可發現、可訪問、可共享和可互操作性
功能分解--狹義的人工智能本質上是有限的,構建算法的數據科學家需要精確的問題定義,準確確定聯合部隊的要求。
可解釋人工智能--人工智能支持的系統需要有能力解釋決策/建議和所采取的行動背后的邏輯。這種解釋 "為什么"的能力是人類對人工智能智能體的信任基礎。
邊緣計算/人工智能--未來的作戰環境與有爭議的電磁頻譜預期要求有能力向前處理極其龐大的數據集,以及能夠自主行動的人工智能平臺。
利用商業部門--美國防部實驗室繼續在人工智能/ML發展方面取得重大進展,特別是與聯邦資助的研究和發展中心合作。商業部門繼續探索和擴大可能適用于軍事應用的工作。
作為FSP19的一部分,人工智能LoE開發了五個小插曲和一個概念草圖(見附錄A),以協助人工智能和機器學習的運作。這些小插曲說明了聯合部隊如何利用人工智能/ML來解決多領域行動所需的關鍵能力。MDCOP概念將依靠幾個有限內存的人工智能來建立和維護描繪整個戰場的藍、紅、綠活動。一個反應式機器人工智能將為特定的指揮官和總部定制MDCOP。合作傳感、維持、攻擊和瞄準的小插曲依靠反應式機器人工智能來優化傳感器覆蓋、維持吞吐量、攻擊順序和射手選擇。
未來部隊需要人工智能來充分實現多領域作戰的潛力。人工智能支持的系統使未來部隊能夠進行信息收集和分析,以便在時間有限和信息競爭的環境中增加對形勢的了解。這種能力使快速、知情和合理的決策成為可能。人工智能的決策支持代理將減輕作戰人員的認知工作量并提高整體效率。由人工智能支持的無人系統將探測、識別和穿透高風險區域,以提高開展行動和保護部隊、人口和資源的能力。人工智能使MDO在與近似對手的沖突規模下實現了作戰速度的要求。
戰斗機的時代已經過去。這話是埃隆-馬斯克在2020年空戰研討會上描述未來空戰時說的。這產生了巨大影響力。
馬斯克的立場似乎得到了美國國防部高級研究計劃局(DARPA)Alphadogfight(ADT)演示的支持。在ADT期間,幾個人工智能(AI)項目在一場斗狗比賽中相互對決。獲勝的人工智能隨后與人類戰斗機飛行員進行了面對面的較量。雖然DARPA聲稱比賽的目的是開發支持人類飛行員的人機共生的人工智能程序,但結果對飛行員本人來說不可能更糟。人類在與機器的每一次交戰中都輸了,而且比人工智能以前的機器對手輸得更快。
同樣值得考慮的是,在超視距情況下——在這種情況下,距離的計算、對飛機相對位置的了解、相對高度、速度和武器都必須在非常高的速度下完成——結果會如何。考慮到空對空戰術的復雜性以及欺騙和電子戰在其實施中的突出作用,結果可能會更加令人震驚。
盡管如此,許多飛機制造商仍在繼續開發有人駕駛的作戰飛機。即使是成本驅動的商業航空部門也不太可能取代人類飛行員。此外,盡管西方第五代戰斗機都是單座飛機,即使是出于訓練目的,雙座設計也回到了桌面上。最近,中國第五代殲-20戰斗機采用雙座配置,蘇霍伊公司正在考慮其蘇-75 "Checkmate"的雙座版本。回歸雙座設計背后的原因仍然不透明,但鑒于目前空中行動的復雜性和對更復雜的多域作戰(MDO)的預期,下一代戰斗機可能受益于武器系統官(WSO)。
另外,DARPA的空戰進化(ACE)計劃設想了一個中間地帶,人類飛行員信任人工智能來控制飛機,而他們需要人類來指揮任務,如決定交戰策略、選擇和優先考慮目標,以及確定最佳武器或效果。
未來幾乎肯定會包括馬斯克所宣稱的、DARPA所預期的人工智能優勢,但它們應該伴隨還是取代人類飛行員?許多挑戰依然存在。本文將強調最重要的挑戰。
支持人工智能的最常見的機器學習方法是強化學習(RL),它使計算機算法能夠從過去的事件中自我學習。機器使用一個獎勵系統來區分成功和不成功的動作,它可以在沒有指導的情況下快速進行,不需要人類的互動。同時,人類也可以指出錯誤,幫助強化未來的課程,讓機器尋求成功。
獎勵函數設計是另一種機器學習技術,通過給交易分配相對價值來加速學習結果,從而補充RL。這個概念激勵人工智能通過利用它已經學到的關于其先前選擇的 "價值 "的東西,而進入到一個更高的獎勵狀態。這種評估使人工智能能夠在探索一系列行動以追求更高的獎勵時進行風險與獎勵計算。目標是在探索了所有可能的解決方案和獎勵之后,達到一個良好的平衡。
一個可能加速學習過程的額外優勢是,人工智能系統可以建立在其他人工智能系統的經驗上,使用額外的機器在所需的網絡內進行訓練,而無需人類參與,并將獲得的知識轉移到目標機器上。幾個模擬器,每個都應用不同的戰術,可以極大地加快學習過程。
然而,機器學習不應該被看作是萬能的。它仍然高度依賴于軟件設計、算法和數據選擇。納入機器學習技術內的不完整或有毒的信息會導致學習過程中出現重大缺陷或錯誤。因此,人工智能可能做出無效或危險的決策。
盡管現在的趨勢是,只有在ACE計劃顯示人工智能飛得更好的情況下,人工智能才會幫助飛行員,但在真正的戰斗機上,這兩種選擇將如何合并?
一種選擇是,飛機由人類飛行員控制,只由人工智能提供建議,至少在機器識別出關鍵風險并評估出它能比人類更快或更好地做出反應之前。人類飛行員應該始終保留對這一決定的控制權,還是應該授權人工智能在沒有預先授權的情況下進行控制,以確保任務成功或飛機生存?同樣地,飛行員是否應該在知道他的反應時間意味著失去可能影響定位或射擊機會的關鍵秒數的情況下,采取所有武器使用行動?
此外,在飛機機動能力的極端情況下不會有失去意識的風險,這是人工智能相對于人類飛行員所具有的誘人優勢之一。雖然預計人工智能可以納入飛行員的健康狀況數據,但獲得對敵優勢的唯一方法可能是犧牲飛行員的意識。在飛行員沒有意識的情況下,人工智能應該自主地使用武器嗎?
此外,由于戰斗機傳統上是以雙機或四機編隊的形式運行,關于人類與人工智能控制的決定將影響到單個飛機和整個機隊。需要考慮人工智能控制的飛機如何與其他編隊的機組人員進行交流,以及是否通過數據鏈、語音或兩者進行。鑒于飛行中的一些(而不是所有)飛機有可能在人工智能的控制下--而且有可能是無意識的飛行員--整個編隊的控制權應該下放給人工智能,還是應該轉移給任何有意識的飛行員?
一個更直接的選擇是將人工智能限制在一個輔助角色,在準確的時刻提供適當的信息,以避免飽和,也許,在特殊情況下,如生存需要時,就像現有的線控系統在超過攻擊角限制或在某些失控的情況下對飛機進行指揮。
到今天為止,由于其相當復雜,最可能的演變是人工智能只是幫助飛行員。然而,隨著技術的快速發展,我們當然不應該回避人工智能的支持,尤其是知道潛在的對手會廣泛地使用它。
許多作者都寫過關于機器人自主和人工智能控制的武器系統的道德和倫理問題,并探討了我們是否應該允許機器對人類做出生死決定。從倫理上評估的一個特殊案例是,人工智能凌駕于人類飛行員的控制之上。一些人認為,一個充分發展的人工智能將對其決定和后果負責,并承擔法律責任。相反,其他人認為至少有一個人必須保留責任和法律責任。如果人工智能控制的飛機出現錯誤,導致人類生命的損失,誰將負責?可以認為是人類飛行員,即使他可能沒有機會干預或取消行動,甚至是程序員,但最有可能的是,下令執行任務的指揮官將是負責的一方。
來自情報的數據將為人工智能的學習過程提供基礎。預計人工智能將處理飛機、其飛行成員以及可能更廣泛的云聯網系統的所有可用傳感器數據。在實時的情況下,這將支持單個飛機的決策優勢,并在測試和評估活動中提出和評估戰術的重要能力。然而,正如單靠數據不等于準確的情報,單靠數據也不會創造新的戰術。人類的判斷會解釋數據,推斷對手的能力和戰術,創造測試環境,并評估結果。這些人類選擇的準確性將不可避免地影響人工智能衍生的戰術,就像在傳統戰術開發中一樣。在這里,應該利用人工智能運行大量模擬集的能力來提供廣泛的潛在選擇,以應對不可預見的對手能力和戰術。
當我們想到戰斗機中的人工智能與人類的共生關系時,不可避免地會想到R2D2、天行者盧克和《星球大戰》中的X-Wing戰斗機。然而,在真正的戰斗機中,人工智能將在哪里?它是在飛機上還是在云中?云端的人工智能會克服通信延遲,在斗狗中獲得對人類的優勢嗎?將人工智能或飛行員移位意味著應盡量減少風險,要知道通信方面的優勢永遠不是絕對的,也不是永久的。
為了設定預期,應該注意到ADT使用了一個計算機機架和服務器來處理由人類駕駛的戰斗機提供的實時數據。這樣的計算能力和啟用的數據優勢目前無法納入戰斗機中。
在ADT競賽中,人類飛行員使用高保真的虛擬現實系統來視覺追蹤人工智能駕駛的對手飛機。然而,由于比賽中使用的數字智能模型缺乏傳感器,人工智能收到的所有對手數據都是直接輸入的,減輕了感應和解釋等更復雜的任務。使用關于對手飛行參數的準確數據給機器帶來了巨大的優勢。在實際戰斗中,這種數據不容易獲得,而且即使收集到也不一定準確。人類飛行員必須推斷出對手的參數,使解釋和決策變得復雜。人工智能agent將不得不做同樣的事情。
為此,人工智能將需要的不僅僅是飛行員可用的信息(包括雷達、警告接收器、紅外傳感器和數據鏈),以 "感受"和保持對形勢的認識。人工智能將需要一套類似于自動駕駛汽車中的視覺傳感器,以實現與人類飛行員目前所完成的同等的視覺觀察。雖然預計人工智能在解釋適當集成的傳感器方面會更快--這本身就是一個不小的成就--但人工智能對需要 "感覺或直覺 "的非預期或異常情況的反應如何,還有待觀察。這將在ACE計劃的最后一步進行評估,即兩架戰斗機之間的真正交戰,一架由人類駕駛,另一架由人工智能駕駛。
未來的戰斗機,特別是那些設想與人工智能駕駛的無人機/僚機一起使用并在MDO環境下運行的戰斗機,將經歷急劇增加飛行員工作量。人工智能必須在管理這種工作量方面發揮一些作用。
然而,考慮到各種可能性,很難想象人類作為人工智能駕駛的飛機上的乘客來管理空戰,而人工智能自主地操縱飛機進入射擊位置,然后將武器的控制權移交給飛行員或在沒有人類授權的情況下發射導彈。更容易設想的是,飛行員在人工智能的支持下駕駛飛機,以提高戰術信息的準確性和及時性,并提供威脅診斷、警告和可能的防御性機動,如使用反措施或其他戰術選擇。
雖然有理由認為,人工智能與人類的合作將不如對手使用不受約束的人工智能所能做到的,但人工智能是否能在未來的整個場景中取代人類飛行員,還有待觀察。盡管如此,預計人工智能與人類的合作將為未來的戰斗機提供一個更有彈性和有效的方法,但只有當優化的人工智能與人類的共生關系被優先考慮并實現時。
誠然,未來的戰斗機作戰行動將不斷發展,埃隆-馬斯克關于載人戰斗機時代結束的預言性警告與事實相去甚遠。
拉斐爾-伊卡索,中校于1993年加入位于圣哈維爾的西班牙空軍學院。他于1997年完成了基礎飛行員培訓,并于1998年在第23聯隊完成了戰斗機武器課程。1998年至2007年,他在薩拉戈薩空軍基地第15戰斗機聯隊的151SQN中駕駛EF-18戰斗機。2007年被分配到巴達霍斯第23聯隊的戰斗機武器學校擔任教官飛行員。2009年回到第15聯隊,在152SQN和153改裝SQN擔任EF-18教官。2008年他被晉升為少校,2009年被分配到空軍學院的學術部門,擔任飛行教官以及國防大學的教師。2013年至2016年,他在北約總部空軍司令部拉姆施泰因的評估部門(TACEVAL)擔任飛行部隊項目官員和評估員。在馬德里的武裝部隊聯合參謀課程結束后,2017年他被提升為中校,并被派往托雷洪空軍基地的西班牙空戰司令部A7科(訓練、演習和評估)擔任參謀,之后被派往聯合空軍能力中心。在此期間,他參加了阿維亞諾空軍基地的幾次部署,在巴爾干半島上空飛行。他擁有聯合參謀課程和地緣政治和國際關系的碩士學位等。他已經在C-101、F-5和EF-18上飛行了2700多個小時。
大數據、人工智能和機器學習代表了當今最前沿的一些技術,并可能成為未來幾十年甚至更久的主導技術。大多數專家都認為,人工智能的發展將比1879年電力發明以來的任何技術都更能改變我們的生活,這一點通常被稱為人工智能或簡稱AI。
可悲的是,在人工智能和無人系統(或用老話說的 "機器人")的編隊協作問題上,熱度遠遠高于光度,其中大部分是由大眾媒體推動的。普通大眾被不斷喂食關于 "壞"機器人的書籍和電影(例如《世界大戰》、《終結者》),甚至是關于 "好"機器人叛變的書籍和電影(例如《2001:太空漫游》和《機器之家》),普遍擔心今天的機器人--使用人工智能的無人駕駛機器--將以我們在2021年只能模糊感知的方式來主宰我們的生活。
當涉及到人工智能的軍事應用時,這些擔憂就會變得異常強烈。許多人表示擔心,美國軍方可能會失去對其無人系統的控制,特別是其武裝的無人系統。這些擔心已經表現在許多方面,最明顯的是谷歌停止了美國國防部的算法戰爭跨功能團隊的工作,也就是所謂的Maven項目。這尤其令人擔憂,因為Maven項目與武裝無人系統毫無關系。
在許多國家,關于人工智能的軍事用途的對話已經變得尖銳,并阻礙了人工智能在美國軍事武器系統中的有效插入。當人工智能、自主性、無人駕駛和武裝在同一個句子中使用時,這些擔憂被放大了。同時,美國的同行競爭者,中國和俄羅斯,認識到了人工智能在控制他們自己的社會以及其他社會方面的價值,并且正在投資數千億于人工智能,其中大部分是為了給他們的軍隊提供一個與美國軍隊不對稱的優勢。
此外,也許更重要的是,由于今天的戰爭速度往往超過了人腦做出正確決定的能力,美國軍隊需要大數據、人工智能和機器學習,以使其作戰人員在戰斗中獲得優勢,特別是在決策領域。美國軍隊--以及其他國家的軍隊--曾發生過決策者在正確的時間沒有得到正確的信息,來支持時間緊迫的作戰決策而導致悲劇發生的一些情況。
重要的是要注意到,做出這些次優決策的軍事人員在手頭的工具下做了他們能做的最好工作。發生的情況是,戰爭的速度往往超過了人腦做出正確決策的能力。事實上,正如美國陸軍研究實驗室首席科學家亞歷山大-科特博士在一次指揮和控制會議上所說:"人類的認知帶寬將成為戰場上最嚴重的制約因素。"
直到最近,將強化決策提高到新水平的技術根本不存在。今天,它確實存在,而且利用大數據、人工智能和機器學習能夠為作戰人員提供的東西,很可能導致海戰的下一個突破,特別是在決策領域。海軍太平洋信息戰系統中心與海軍研發界、工業界和學術界的合作伙伴一起,正在領導各種努力,以確保美國作戰人員有能力以更少的人和更少的錯誤做出更好的決策。
21世紀在世界秩序、地緣政治和戰爭方式方面迎來了巨大的變化。正如美國國家情報委員會的頂點出版物《全球趨勢:進步的悖論》所說:
《全球趨勢:進步的悖論》指出,未來五年,國家內部和國家之間的緊張局勢將不斷加劇。全球增長將放緩,就像日益復雜的全球挑戰即將到來一樣。范圍越來越廣的國家、組織和有能力的個人將塑造地緣政治。無論好壞,新出現的全球格局正在結束冷戰后美國占主導地位的時代。以公眾期望的方式進行國際合作和治理將變得更加困難。Covid-19危機放大了這些困難,暴露了國際合作的極限。擁有否決權的人處處威脅要阻止合作,而信息回音室效應將強化無數相互競爭的現實,破壞對世界事件的共同理解。因此,未來幾年發生沖突的幾率將比近期任何時候都要高。
這一評估在美國國家情報局局長的《世界范圍內的威脅評估》中得到了再次確認,其中部分內容指出。"隨著大國和地區侵略者利用復雜的全球趨勢,同時適應美國外交政策的新優先事項,各國之間的競爭將在未來幾年內增加。國家間沖突的風險,包括大國之間的沖突,比冷戰結束以來的任何時候都要高。"雖然現在評估Covid-19大流行病的全面影響還為時過早,但初步跡象表明,這場危機加劇了美國與其同行競爭對手之間的緊張關系。
2021年,美國仍然在世界各地參與活動。國家安全戰略涉及對美國安全和繁榮的廣泛威脅。這些威脅包括從中國和俄羅斯這樣的高端同行競爭對手,到朝鮮和伊朗,以及以伊黎伊斯蘭國為代表的恐怖主義的持續威脅。在里根國防論壇上的國家安全戰略預演中,當時的國家安全顧問麥克馬斯特將軍強調了這些威脅,并再次確認了前政府的 "4+1戰略",將俄羅斯、中國、伊朗和朝鮮這四個國家以及 "+1"--恐怖分子,尤其是ISIL--列為美國今天必須應對的緊迫威脅。
國際安全范式的這一巨大變化的程度怎么強調都不過分。引起這一新焦點的原因并不神秘,那就是與中國和俄羅斯的大國競爭。事實上,《國家安全戰略》提出了保護美國人民和維護他們的生活方式、促進繁榮、通過實力維護和平以及提升美國在世界上的影響力的戰略愿景。值得注意的是,這個新的、發達的戰略代表了與以前版本的巨大轉變,以前的版本側重于安全、繁榮和國際秩序這三大支柱,都是一些沒有什么具體內容的理想。這個新的國家安全戰略強化了美國對中國和俄羅斯的立場,拋棄了 "朋友 "和 "伙伴 "的字眼,取而代之的是 "修正主義國家 "和 "競爭對手"。
《國防戰略》進一步發展了《國家安全戰略》中提出的主題,更直接地處理了對美國安全和繁榮的威脅。這份文件指出,美國面臨的核心挑戰是被《國家安全戰略》歸類為修正主義大國的長期戰略競爭的重新出現。它指出,越來越明顯的是,中國和俄羅斯想要塑造一個符合其“獨裁”模式的世界--獲得對其他國家的經濟、外交和安全決定的否決權。《國防戰略》發表后不久,美國防部高級官員從詞典中刪除了 "4+1戰略 "一詞,現在以 "2+3戰略 "的方式談論,以承認俄羅斯和中國構成的生存威脅。美國防部領導人已經公開表示,"中國是第一,俄羅斯是第二"。此外,他們還說,俄羅斯仍然是我們最大的近期安全挑戰,而中國是我們最大的長期挑戰。
這份國防戰略繼續說:"與中國和俄羅斯的長期戰略競爭是國防部的主要優先事項,需要增加和持續的投資,因為它們今天對美國的安全和繁榮構成了巨大的威脅,而且這些威脅在未來可能會增加。"
國會研究服務處的一份文件《向國會提交的關于大國競爭和國防的報告》中描述了這種急劇變化的戰略格局。以下是這份報告對今天的戰略環境的描述:
國際關系的后冷戰時代--始于20世紀90年代初,有時被稱為單極時刻(美國是單極大國)--在2006-2008年顯示出消退的初步跡象,到2014年已經讓位于與中國和俄羅斯重新開始的大國競爭以及這兩個國家和其他國家對二戰以來美國主導的國際秩序要素的挑戰,這是一種根本性的不同情況。
在奧巴馬政府2015年6月的《國家軍事戰略》中,大國競爭的恢復與其他考慮因素一起被承認,并被置于特朗普政府2017年12月的《國家安全戰略》(NSS)和2018年1月的《國防戰略》(NDS)的中心位置。2017年12月的NSS和2018年1月的NDS正式調整了美國國家安全戰略和美國國防戰略的方向,明確將主要精力放在與中國和俄羅斯的大國競爭上。國防部(DOD)官員隨后將對抗中國的軍事能力確定為國防部的首要任務。
國會研究處隨后的一份報告《國防初探:地理、戰略和部隊設計》強調了將美國的戰略重點轉向這兩個歐亞大國的重要性,指出:
以下是《紐約時報》的一篇社論如何看待美國面臨的長期挑戰問題。"冠狀病毒可能幾乎改變了一切,但它并沒有改變這一點。美國面臨的全球挑戰還在繼續,美國的對手在測試極限,看看他們能在最小的反擊下取得什么成果。"
雖然通常留給更高級別的文件,但美國海軍的《維持海上優勢的設計2.0》也強調了這種同行(而且明顯不再是 "近鄰")競爭的首要重要性,指出:"中國和俄羅斯正在部署其國家力量的所有要素以實現其全球“野心”......中國和俄羅斯試圖以對自己更有利的條件重新定義整個國際體系的規范"。
邁克爾-吉爾德伊上將在就任美國海軍作戰部長后的指示中,強調了這種對高端作戰的需求,以及與美國海軍陸戰隊整合的重要性,在他的FRAGO 01/2019中指出:"我們將確保作戰能力和致命部隊的整體性,使分布式海上作戰、遠征先進基地作戰和有爭議環境中的瀕海作戰效益最大化。"
雖然是聯合部隊集體為國家作戰,但海軍部隊在應對大國競爭方面的重要性在一份題為《海上安全和大國競爭》的報告中得到強調。《維護以美國為首的國際秩序》,其中部分內容指出:
這并不是說海軍比美國其他軍種更重要,也不是說像一些海軍專家所建議的那樣,海軍應該在有限的國防預算中獲得更大的份額,而是說大國競爭的前線是,而且可能繼續是廣闊的歐亞大陸的沿海地區。南中國海的持續摩擦只是大國競爭中的一個爭論點,還有很多其他爭論點。
美國在2020年12月發布的新海洋戰略《海上優勢》毫不含糊地將海上事務置于這一大國競爭的最前沿,其中部分內容指出:
自我們上次在2015年發布《21世紀海權合作戰略》以來,安全環境發生了巨大的變化。一些國家正在爭奪關鍵地區的權力平衡,并試圖破壞現有的世界秩序。我們的對手的重大技術發展和積極的軍事現代化正在侵蝕我們的軍事優勢。遠程精確導彈的擴散意味著美國不能再假定在沖突時可以不受限制地進入世界海洋。
自21世紀初以來,我們的三個海務部門一直在警惕地注視著中國日益增長的海軍力量和俄羅斯聯邦日益增長的侵略行為。我們部署在全球的海軍部隊每天都與中國和俄羅斯的軍艦和飛機互動。我們親眼目睹了他們越來越復雜和越來越有侵略性的行為。中國代表著最緊迫的、長期的戰略威脅。
《國防戰略》高度關注技術,并指出,如果不利用先進的技術來支持我們的作戰人員,美國將無法實現它所尋求的安全和繁榮,并指出:
安全環境也受到快速的技術進步和戰爭性質變化的影響。開發新技術的動力是無情的,以較低的準入門檻擴大到更多的行為者,并以加速的速度發展。新技術包括先進的計算、大數據分析、人工智能、自主性、機器人、定向能、高超音速和生物技術--正是這些技術確保我們能夠打贏未來的戰爭。
新的商業技術將改變社會,并最終改變戰爭的性質。許多技術發展將來自于商業部門,這意味著國家競爭者和非國家行為者也將有機會獲得這些技術,這一事實有可能侵蝕我們國家已經習慣的傳統的超強對抗。保持技術優勢將需要改變行業文化、投資來源和保護整個國家安全創新基地。
《全球趨勢》中強調的發展。《全球趨勢:進步的悖論》以及《國家安全戰略》和《國防戰略》中強調的發展,在美國軍方的未來展望出版物《2035年聯合行動環境》(又稱JOE)中得到了呼應。《聯合作戰環境》的副標題是 "有爭議和無序世界中的聯合部隊",它著眼于20年后,研究未來將如何影響作戰和聯合部隊。《聯合作戰環境》強調,即使在伊拉克和阿富汗的沖突逐漸結束時,美國軍隊在本十年的剩余時間和以后將面臨越來越大的壓力。
《2035年聯合行動環境》有一節專門討論技術。報告的作者解釋了這樣處理技術問題的理由:
聯合部隊將面臨一個主要由加速的技術變革定義的未來技術環境。在過去的20年里,美國對高技術戰爭的做法鼓勵了對手發展非對稱、非常規、不規則和混合的方法。敵人將繼續創新,應用不同的高低技術組合來挫敗美國的利益和軍事力量。
到2035年,美國將面對一系列尋求在一些關鍵領域實現技術平等的競爭對手。累積的結果將是這樣一種情況,用前國防部副部長羅伯特-沃克的話說,"我們的部隊面臨著非常現實的可能性,即到達未來的一個戰區,發現自己面臨著一個先進的、破壞性的技術庫,這可能會使我們以前的技術優勢被推翻--我們的武裝部隊不再擁有無爭議的戰區準入或不受約束的行動自由。"
很明顯,美國情報界和美國軍方都認識到,世界秩序的變化速度與技術生態系統的快速變化如出一轍。此外,在美國政府的最高層,人們承認美國曾經享有的技術優勢已經被削弱,美國軍隊不能再以純粹的技術優勢來支配其對手了。事實上,一些寫軍事和技術的專家已經預示了這種認識。
軍事歷史學家馬克斯-布特(Max Boot)在他的暢銷書《全新的戰爭》(War Made New)中指出:"我的觀點是,技術設定了可能的參數;它創造了軍事革命的潛力。"他用歷史實例支持他的論點,說明技術驅動的 "軍事革命 "如何改變了戰爭并改變了歷史的進程。重要的是,布特指出了技術的重要性,它使那些迅速創新和運用新軍事技術的國家獲得了戰爭勝利的優勢。
美國軍隊已經接受了技術變革的浪潮,這構成了戰爭方式的真正革命。隨著全球技術變革的步伐加快,美國特別善于運用新技術來應對威脅。正如布魯斯-伯科維茨在《戰爭的新面貌》中指出的那樣:
雖然所引用的兩本書都是十多年前的舊書,但它們關于技術的論述在美國軍隊接受新工具的方式上仍然是正確的。但正如《2035年聯合作戰環境》以及其他高級別政府、情報界和軍事出版物所指出的,雖然美軍一直善于采用新技術用于軍事用途,但這一過程一直處于壓力之下。有許多因素阻礙了新技術在美國軍隊中的應用,包括這些部隊在過去20年中所面臨的高操作節奏、預算壓力和持續的扣押幽靈,以及往往是笨重的軍事采購系統。盡管有這些壓力,各軍種已經找到了接受新技術的方法,這些技術有望使平衡重新向美國的優勢傾斜。
今天,美國軍隊采用的創新技術中增長最迅速的領域之一涉及無人駕駛系統。在過去的幾十年里,美軍使用的無人駕駛飛行器(UAVs)已經從寥寥無幾增加到1萬多架,而無人駕駛地面車輛(UGVs)的使用已經從零爆炸到12000多架。無人水面飛行器(USV)和無人水下飛行器(UUV)的使用也在增長,因為USV和UUV被證明在廣泛的軍事應用中越來越有用。軍事無人系統(UxS)的擴大使用已經在創造十年前不存在的戰略、作戰和戰術的可能性。
武裝無人系統的擴大使用不僅改變了現代戰爭的面貌,而且還改變了戰斗行動的決策過程。事實上,有人認為,無人機戰爭的興起正在改變我們對 "戰爭 "本身的概念和定義。這些系統在伊拉克和阿富汗的沖突中被廣泛使用,并且隨著美國的戰略重點轉向印度-亞洲-太平洋地區以及這一戰略所要求的高端戰爭,這些系統將繼續具有同樣的相關性,甚至更加重要。無人系統,尤其是它們的效用,不是作為獨立的實體,而是作為被稱為 "人-機-隊 "的作戰伙伴,是美國 "第三抵消戰略 "的一個基本原則。
美國防部已經啟動了 "第三次抵消戰略",以確保美國保持對潛在對手的軍事優勢。"抵消"戰略是一種軍事競爭的方法,它試圖以不對稱的方式彌補不利的地位。與其在潛在對手也可能擁有巨大實力的領域進行正面競爭,抵消戰略試圖通過引入新的作戰概念和技術,將競爭的軸心轉向美國具有顯著和可持續優勢的領域。
美國在冷戰期間成功地推行了兩種不同的抵消戰略。這些戰略使美國能夠 "抵消"蘇聯在常規部隊中的數量優勢,而不需要在前沿部署的部隊中進行巨大的投資,因為這需要以士兵對士兵、以坦克對坦克的方式提供超額補償。這些抵消戰略依賴于技術、作戰方法和組織結構的根本創新,以彌補蘇聯在時間、空間和部隊規模上的優勢。
這些抵消戰略中的第一個發生在20世紀50年代,當時艾森豪威爾總統試圖通過利用美國的核優勢來克服華沙條約組織的數量優勢,引入戰場核武器--從而將競爭的軸心從常規部隊數量轉移到美國擁有不對稱優勢的領域。這種方法提供了穩定性并為威懾提供了基礎。
第二種抵消戰略產生于20世紀70年代末和80年代初,因為人們認識到蘇聯已經實現了核均勢。第二個抵消戰略試圖通過追求一種新的聯合行動方式來創造一種持久的優勢,即利用常規精確武器、支持實時精確瞄準的實時遠程ISR(情報、監視、偵察)傳感器能力以及允許這些能力在整個戰斗空間同步執行的聯合戰斗網絡的綜合效應。
幸運的是,構成 "第二次抵消戰略 "的軍事技術從未在與蘇聯的正面交鋒中得到檢驗。然而,在 "沙漠風暴 "行動中,這些技術被部署在一支由蘇聯訓練和裝備的軍隊面前。如前所述,正如《戰爭的新面孔》所描述的那樣,伊拉克的失敗是徹底的,代表了現代戰爭中最一邊倒的運動之一。顯然,美國的潛在敵人注意到技術在這場勝利中發揮的關鍵作用。
在20世紀80年代初引入第二套抵消戰略時,美國是唯一擁有知識和能力來開發、部署和成功執行情報、監視和偵察能力、天基系統以及支持這種方法的精確武器的國家。今天,像俄羅斯和中國這樣的競爭對手(以及這些國家向其擴散先進能力的國家)正在追求和部署先進的武器和能力,這些武器和能力展示了許多與傳統上為美國優勢提供高科技基礎的技術力量,如精確制導彈藥。在俄羅斯在敘利亞的力量投射行動中,可以看到美國技術能力與潛在競爭對手之間的這種日益對稱性。
國際安全環境中出現的越來越多的均勢,使得美國必須開始考慮各種技術、系統概念、軍事組織和作戰概念的組合,這些技術、系統概念、軍事組織和作戰概念可能會改變競爭的性質,使美國比潛在對手更有優勢。這一系列的能力為第三個抵消戰略提供了基礎。如同以前的抵消戰略一樣,第三個抵消戰略尋求在預算有限的環境下,通過確定美國獨特的力量和能力所帶來的不對稱優勢,保持并擴大美國的技術和作戰競爭優勢。第三套抵消戰略確保美國的常規威懾態勢在未來仍像今天一樣強大,并為將這一優勢擴展到未來創造條件。
在解釋《第三次抵消戰略》的技術要素時,當時的國防部副部長羅伯特-沃克強調了無人系統、人工智能、機器學習和自動駕駛方面新興能力的重要性。他指出,這些技術為聯合部隊提供了巨大的優勢,使未來的部隊能夠開發和操作先進的聯合、協作的人機戰斗網絡,在太空、空中、海上、海底、地面和網絡領域同步作戰。人工智能將使聯合作戰網絡的自主性達到新的水平--決策權的有限授權,從而為人機協作和作戰團隊帶來全新的機會。
無人系統、人工智能和機器學習等技術在第三個抵消戰略中,特別是在該戰略的長期研究和發展計劃(LRRDP)中的突出地位很難被夸大。
也就是說,該戰略有一個強有力的組成部分,強調在使用具有日益復雜的人工智能和機器學習能力的無人系統時,要讓人類處于循環之中。事實上,人機協作是現存的 "第三抵消戰略 "文件以及國防部高級官員的演講和訪談中所強調的一個必要條件。雖然深入研究 "第三抵消戰略 "技術主旨的全部細節超出了本文的范圍,但重要的是要注意,該戰略的主要技術路線集中在人機協作和戰斗團隊的概念上。這一概念的五個基本組成部分是:
自主深度學習系統,它將利用機器學習,在人類反應時間太慢的領域 "以光速 "運作,例如網絡攻擊、電子戰攻擊或大型導彈突襲攻擊。
人機協作,這將使機器能夠幫助人類更快地做出更好的決定。工部長列舉了F-35聯合攻擊戰斗機和海軍綜合火控反航(NIFC-CA)作為這些概念的例子。
輔助人類作戰,這將專注于人和機器可以一起行動的方式,通過可穿戴電子設備、外骨骼和戰斗應用等工具,在各種可能的緊急情況下協助作戰人員。
先進的人機作戰團隊,將側重于人類與無人系統合作作戰;其中一個例子是海軍的P-8 "海神 "與MQ-4C "海神 "的作戰。展望未來,團隊合作的下一個層次將研究蜂群戰術和合作自主。
網絡支持的、網絡硬化的自主武器,將有彈性地在電子戰和網絡環境中運行。目前的一個例子包括戰術戰斧Block IX,其目標可以在飛行中更新。
知識淵博的外部觀察家參考了《第三次抵消戰略》,并強調了無人駕駛系統在實現美國戰略目標方面的重要性。前歐洲盟軍最高司令官詹姆斯-斯塔夫里迪斯(James Stavridis)上將在其發表在《外交政策》上的文章《新三體》中指出,無人系統是這個新三體的三大支柱之一,他指出:"新三體的第二個能力是無人駕駛車輛和傳感器。三合會的這一分支不僅包括空中攻擊無人機,還包括空中、地面和海洋表面的無人監視車......這種系統有一個明顯的優勢,即不需要所有最昂貴的部件:人。"
美國陸軍的一份報告描述了在2014年首次闡述的第三次抵消戰略,而且遠在美國開始稱中國和俄羅斯為同行競爭對手之前,該戰略必須在21世紀的第三個十年中變形和改變:
蘇聯軍隊在數量上的優勢促成了前兩個抵消戰略。隨著美國軍事技術進步的應用已經擴散到近似的對手,它已經有效地重新平衡了戰場。為確保第三次抵消戰略的成功實施,國防部與美國政府必須就我們試圖抵消的東西以及如何平衡這些優先事項以對付處于巨大不同區域和能力的對手達成一致。
第三抵消戰略的運用將恢復美國的力量投射能力,通過可靠的拒絕和懲罰威脅來加強常規威懾力,并作為長期競爭的一部分對潛在的對手施加代價。平衡或擊敗對手能力的能力需要資源,為確保有效運用該戰略,我們必須解決我們試圖抵消的問題。
鑒于第三個抵消戰略的強烈技術重點,在美國尋求在本十年及以后實施這一戰略時,這一戰略的表現將由聯合部隊放置在戰場上的軍事平臺、系統、傳感器和武器所代表。同樣明顯的是,美國各軍種--特別是美國海軍--已經表示希望將無人系統作為其部隊結構中一個日益重要的部分投入戰場。
在國會作證時,前國防部長邁克爾-埃斯珀回答了一個問題:"美國防部技術現代化的首要任務是什么?"他指出,"對我來說,是人工智能。我認為人工智能將可能改變戰爭的特征,我相信誰先掌握了它,誰就會在戰場上主宰很多很多年。這是一個根本性的游戲改變者。我們必須先到達那里。"
美國軍方有許多理由主動利用大數據、人工智能和機器學習來使其武器系統變得更好。也許最令人信服的理由是,我們的潛在對手--特別是我們的同行競爭對手--正在積極地這樣做。一個古老的觀點是軍事術語,"敵人有投票權"。在這種情況下,俄羅斯正在用盧布投票,中國正在用人民幣投票。
這些國家正在對這些技術進行巨大投資。雖然這兩個國家出于國內原因進行這些投資,但他們正在有意和有條不紊地將這些技術盡可能快地插入他們的軍事系統,以便創造一個與美國軍隊不對稱的優勢。鑒于俄羅斯和中國注重保密,這些舉動似乎有悖常理,但這兩個國家都沒有試圖對這些目標保密。
在一次被廣泛宣傳的講話中,俄羅斯總統弗拉基米爾-普京這樣說。"人工智能是未來,不僅是俄羅斯的,而且是全人類的。它帶來了巨大的機遇,但也有難以預測的威脅。誰成為這個領域的領導者,誰就會成為世界的統治者。"
很明顯,其他 "大國 "將人工智能的發展視為一場競賽,并將從中利用競爭性軍事應用。
從美國的角度來看,以及從一些美國盟國的角度來看,這場競賽在很大程度上是,盡管不完全是,軍事競爭的一個方面。美國和盟國對一個或多個潛在對手在人工智能發展中領先的可能性表示擔憂。第三套抵消戰略被設想為一種在人工智能等新技術的軍事競爭中保持領先的方法。
軍事大國競爭的歷史表明,人工智能競爭,本質上是一場軍備競賽,是一種自然發展。然而,比技術跨越更令人擔憂的是,美國的軍事對手--所有某種形式的專制政權--可能不會像以前那樣致力于維持 "人在回路中 "的方法,將人工智能納入軍事事務。這在目前俄羅斯的軍事人工智能發展中似乎尤其如此。
俄羅斯、中國和美國這三個主要軍事大國都認識到,大數據、人工智能和機器學習有可能應用于軍事能力。在政府參與人工智能研究、他們愿意在人工智能發展中承擔的風險、他們將在多大程度上讓位于人工智能系統的自主權以及他們尋求的直接應用方面,這三者的近期目標都有所不同。
鑒于潛在對手將大數據、人工智能和機器學習植入其軍事武器系統的程度,美國軍方非常有必要采取同樣的措施,以確保這些國家不會獲得不對稱的優勢。也就是說,美國軍方的重點必須是證明人工智能武器系統將 "首先不造成傷害"。因此,將人工智能插入軍事系統不是一個 "非此即彼 "的問題,而是一個 "多少?"的問題。換句話說,美國軍方必須專注于在正確的時間和地點應用適量的人工智能。
正如我們前面所指出的,美國防部已經接受了第三套抵消戰略,試圖為美國提供對同行和其他對手的不對稱優勢。雖然這一戰略有許多方面,但其中一個支柱涉及技術,而這一支柱在很大程度上取決于大數據、人工智能和機器學習來獲得這一優勢。作為這一技術重點的一個子集,人機合作被認為是利用人工智能的無人系統獲得軍事優勢的一種方式。
在軍事系統中找到這種恰到好處的自主權平衡所需的能力必須利用許多仍在出現的技術。軍方知道它想實現什么,但往往不知道它需要什么技術或甚至能力,以使系統在自主性和人際互動之間達到適當的平衡。這種探索的一個關鍵因素是,不要擔心機器本身擁有什么屬性--速度、耐力和其他屬性,而是要關注機器內部的東西。美國國防科學委員會的報告《自主性在國防部系統中的作用》是這樣說的:
關于將人工智能植入軍事系統的一些爭議源于術語的不精確。幫助澄清這種模糊性的方法之一是確保在使用自主性一詞時,它指的是人和機器之間的關系。在一段時間內執行某項功能,然后停止并等待人類的輸入,然后再繼續,這樣的機器通常被稱為半自主或有人類在環。可以完全依靠自己的力量完成某項功能的機器,但有一個人在監督,并能夠在機器出現故障或失靈時進行干預,通常被稱為人類監督下的自主或人類在環。能夠完全獨立完成某項功能而人類無法干預的機器通常被稱為完全自主或人類不參與的機器。
這表明,我們需要重新調整關于自主武器的一些辯論,以更準確地區分增加武器的自主性和自主武器。在這個意義上,自主性不是指機器的智能,而是指它與人類控制器的關系。對于相對較少的無人系統將用武器與敵人作戰,這種平衡是至關重要的。在發射武器之前,無人平臺需要向操作者--必須有一個操作者在其中--提供一個關于發射決定可能帶來的利弊的決策矩陣。
可以說,即使是一些在美國軍事人工智能領域工作的人,對于將人工智能插入美國軍事武器系統也會有一些矛盾。也許解決這個問題的最好方法是考慮二戰中最知名的照片之一。這張照片由美國信號部隊的約翰-摩爾中尉拍攝,描述了德懷特-艾森豪威爾將軍在1944年6月5日,即入侵諾曼底的前一天與第101空降師的士兵交談。在此之前,艾森豪威爾已經聽取了空軍元帥利-馬洛里的匯報,101師是入侵期間將遭受80%傷亡的兩支部隊之一。
那些研究無人系統對軍事行動的影響的人--特別是那些大力提倡無人系統的人--看了這張照片,可以設想艾森豪威爾將軍不是與美國空降兵對話,而是與他將派往戰場的機器人對話。那些害怕無人系統的人可能會想象美國空降兵就像照片中描述的那樣,但他們會設想一個機器人來指揮這些士兵,而不是艾森豪威爾將軍--顯然這是一個站不住腳的情況。但是,那些深思熟慮地考慮人工智能無人系統對軍事行動的影響的人,會設想艾森豪威爾將軍向一隊美國空降兵講話,與他們的機器人伙伴站在一起。顯然,需要做更多的工作來充分解決人機合作對今天的軍隊意味著什么。
但這種利用大數據、人工智能和機器學習的普遍愿望未能解決一個關鍵問題,即我們希望這些技術能夠幫助作戰人員執行哪些具體任務。問題的根源可能是美國軍方沒有能力將作戰人員的需求轉化為大數據、人工智能和機器學習所帶來的技術解決方案。除非或直到這樣做,否則這些技術不太可能被充分利用來支持美國的作戰人員。
作為上個世紀最具代表性的電影之一,斯坦利-庫布里克的《2001:太空漫游》將機器人(當時的無人駕駛車輛)的自主性問題作為其中心主題。看過這部電影的人很少能忘記這樣一個場景:宇航員大衛-鮑曼和弗蘭克-普爾考慮斷開HAL(啟發式編程的算法計算機)的認知電路,因為他似乎錯誤地報告了航天器的通信天線中存在故障。他們試圖隱瞞他們所說的話,但不知道HAL能讀懂他們的嘴唇。面對斷線的前景,HAL決定殺死宇航員,以保護并繼續其程序化的指令。
雖然今天很少有人擔心21世紀的HAL會背叛它的主人,但在使用日益自主的無人系統方面所涉及的問題是復雜的、具有挑戰性和有爭議的。庫布里克1968年的電影是有先見之明的。半個多世紀后,雖然我們接受了無人系統其他方面的改進,如推進力、有效載荷、隱身性、速度、耐力和其他屬性,但我們仍在處理多少自主權是足夠的,多少可能是太多的問題。這可以說是我們在未來十年內需要解決的有關軍事無人系統的最重要問題。
這些正在進行的辯論已經催生了一個山寨的書籍產業,試圖解決人工智能、自主性和無人系統的問題,特別是武裝的軍事無人系統。諸如《為戰爭而生》(Wired for War)、《遙控殺人》(Killing by Remote Control)等書。無人駕駛軍隊的倫理;無人駕駛。無人機、數據和完美戰爭的幻覺;反思無人機戰爭;無主之軍。自主武器與戰爭的未來》和《無人機下的國家》只是試圖以深思熟慮的方式解決這一復雜問題的書籍中的一個例子。
無人系統將變得更加自主,與它們感知環境和適應環境的能力成正比。這種能力使無人系統能夠實現更高的決策速度,并使友軍能夠在對手的OODA(觀察、定向、決定和行動)環路內行動。隨著環境或任務的變化,感知和適應的能力將使無人系統能夠找到實現其任務的最佳解決方案,而無需依賴人類操作員的持續監督、輸入和決策。然而,雖然我們需要無人系統在敵人的OODA環內運作,但我們是否準備好讓它們在沒有我們的決策下運作--在我們的OODA環內運作?
《經濟學人》雜志的一篇文章《道德與機器》以這種方式討論了自主權和人在回路中的問題:
隨著機器變得越來越聰明,越來越普遍,自主機器最終必然會在不可預測的情況下做出生死攸關的決定,從而承擔--或者至少看起來承擔--道德機構。目前,武器系統有人類操作員 "在環",但隨著它們越來越復雜,將有可能轉為 "在環 "操作,由機器自主執行命令。
隨著這種情況的發生,它們將面臨著倫理上的困境。一架無人機是否應該向已知目標藏身的房屋開火,而該房屋可能還藏有平民?無人駕駛汽車是否應該轉彎以避開行人,如果這意味著撞上其他車輛或危及車內人員?參與災難恢復的機器人是否應該告訴人們正在發生的真相,如果這有可能引起恐慌?
這些問題導致了 "機器倫理"領域的出現,其目的是讓機器有能力做出適當的選擇--換句話說--分辨是非。工程師、倫理學家、律師和政策制定者之間需要更多的合作,如果讓他們自己來決定,他們都會制定出非常不同的規則。
在《紐約時報》的一篇題為 "智能無人機 "的專欄文章中,比爾-凱勒這樣描述無人系統的自主權問題:
如果你覺得使用遙控戰士無人機令人不安,想象一下,殺死一個可疑敵人的決定不是由遠處控制室的操作員做出的,而是由機器本身做出的。想象一下,一個空中機器人研究下面的景觀,識別出敵對活動,計算出附帶損害的風險最小,然后,在沒有人類參與的情況下,扣動扳機。
歡迎來到戰爭的未來。當美國人在爭論總統是否有權下令用無人機進行暗殺時,強大的動力--科學、軍事和商業--正在推動我們走向將同樣的致命權力讓給軟件的那一天。
最近,雖然看起來有些反常,但對自主機器和人工智能的擔憂也來自于在開發這些技術能力方面最為突出的行業。《紐約時報》的一篇文章,題為 "機器人霸主?也許不是",引用了電影《機器之家》的導演亞歷克斯-加蘭(Alex Garland)的話,他談到了人工智能,并引用了幾個科技行業領導人的話。
美國防部正在把人類對無人系統的控制問題作為第一要務來處理,并發布了政策指示,以確保人類確實保持在OODA循環中。時任美國防部副部長阿什頓-卡特(Ashton Carter)的一項指令發布了以下指導:
這些指令和討論是--而且應該是--政策制定者、軍事領導人、工業界、學術界和科技界之間對話的一部分,因為明天的自主系統的設計和運作是經過深思熟慮的。正如當時的國防部副部長羅伯特-沃克在新美國安全中心國防論壇上發言時指出的那樣,"我們堅信,人類應該是唯一能夠決定何時使用致命武力的人。但當你受到攻擊時,特別是在機器的速度下,我們希望有一臺機器可以保護我們"。
發布政策聲明是一回事,但實際設計自主系統來執行預期的計劃又是另一回事。從政策的角度來看,這是一個關鍵點,因為盡管人們可以選擇把各種層次的決策權交給自主機器,但卻不能逃避對由此產生的行動的責任。在高度自主的系統中,系統對操作者來說變得不透明,這些操作者經常會問一些問題,如:。它在做什么?它為什么要這樣做?它接下來要做什么?如果被問到這些問題,很難看到操作者如何能履行對自主系統行動的責任。
由于這些原因,美國政府,特別是美國軍方要向美國公眾證明它不會失去對機器人的控制,其門檻是異常高的。許多人表示擔心,美國軍方可能會失去對其無人系統的控制,特別是其武裝的無人系統。這些擔心已經表現在許多方面,最明顯的是谷歌停止了國防部算法戰爭跨職能團隊的工作,也就是所謂的Maven項目。這尤其令人擔憂,因為Maven項目與武裝無人系統無關。
在美國最高級別的政策和戰略文件中,無人系統被作為聯合部隊未來作戰方式的一個重要部分。最近的《四年期國防審查》(QDR)指出:"延續1990年代末開始的趨勢,美軍將增加對無人系統的使用和整合。" 在QDR的其他地方,無人駕駛系統被確定為。"保持我們投射力量的能力"。重要的是,《QDR》強調無人系統是國防部致力于創新和適應的一個關鍵部分。
美國國防部對無人系統的愿景是將這些系統納入聯合部隊。由于無人系統被所有軍種使用,國防部發布了一個路線圖,為軍隊使用無人系統提供一個總體愿景。在新的路線圖發布后不久,《海軍內部》雜志發表的一篇文章指出:"國防部新的30年無人系統計劃--四年來第一次更新路線圖--旨在為快速發展的無人系統技術領域制定一個三十年的指南。"最近的路線圖,即2017-2042財年無人系統綜合路線圖,特別指出需要加強無人系統的自主性,指出。
2017-2042財年無人系統綜合路線圖接著列出了四個感興趣的基礎領域,將加速無人系統的整合。這些領域包括:
互操作性。互操作性在歷史上一直是,并將繼續是無人系統集成和運行的主要推動力。載人和無人系統已經越來越多地將其能力協同起來,重點關注使用開放和通用架構的關鍵需求。一個強大的互操作性基礎提供了一個結構,將使未來的作戰取得進展。
自主性。自主性和機器人技術的進步有可能徹底改變作戰概念,成為一個重要的力量倍增器。自主性將大大提高載人和無人系統的效率和效力,為國防部提供戰略優勢。
網絡安全。無人系統操作通常依賴于網絡連接和有效的頻譜訪問。必須解決網絡漏洞,以防止破壞或操縱。
人機協作。如果說互操作性奠定了基礎,那么人機協作則是最終目標。人類力量和機器之間的協作將實現革命性的合作,機器將被視為重要的隊友。
報告接著討論了機器人和無人系統的聯合概念(JCRAS),它為這些系統在未來戰爭場景中的應用提供了一個愿景,直到2035年。JCRAS與之前討論的2035年聯合行動環境直接保持一致,指出了機器人和自主系統(RAS)給聯合部隊帶來的八個關鍵屬性:
學習能力。未來的RAS將通過與環境、人類的互動以及訪問網絡資源來學習。
更強的態勢感知。未來的RAS將通過收集、處理和優先處理來自先進傳感器網絡的信息來增強意識,這將為作戰人員將數據轉換成知識。這將使復雜、擁擠的戰斗空間中的行動更加有效。
實現更高的性能。與載人和可選擇的載人系統不同,RAS沒有人類生理上的限制(如疲勞)。這允許在單一平臺上延長射程和徘徊時間,進行持久監視,并對傳感器和有效載荷進行全新組合。
提高效率和效益。能力更強的RAS將能夠在軍事行動范圍內執行更多的聯合任務,如戰區內空運、地雷行動、打擊大規模殺傷性武器、供應和維持,同時提高部隊的效率和效力。
提供更大的靈活性。未來的RAS系統將可以通過交換模塊硬件和/或下載新的軟件來快速重新配置,從而賦予新的能力。未來的RAS多任務功能將使聯合部隊能夠快速適應,以滿足不同或不斷變化的任務要求。
通過以機器速度運行來提高節奏。RAS以不斷增加的機器速度 "思考"。RAS可以融合來自網絡ISR傳感器的數據,機動到一個有利的位置,并比對手的人類和RAS更快采取行動。先進的數據分析、實時處理和替代性決策框架將使指揮官能夠比對手更快地做出決定和采取行動。
提供產生大規模的潛力。目前聯合部隊的載人庫存是基于相對較少的高能力、復雜和昂貴的武器裝備,無法迅速再生。RAS提供了使用大量廉價系統以產生大規模的機會。
啟用分布式和分散式行動。敵方的技術將以更高的精度和范圍瞄準美國部隊,使傳統部隊面臨更大的風險。使用RAS進行分布式和/或分散式作戰將提高未來作戰環境中的能力。
正如《質量發展報告》和《無人系統綜合路線圖》都指出的那樣,在美軍面臨具有強大防御能力的同行競爭者的那些地區,無人系統是特別重要的資產。聯合行動準入概念認為,"無人系統,可以在目標區域內徘徊以提供情報收集或火力",是一種關鍵能力,在對手擁有大量防御設施,可以限制美國和聯軍進入的地區,這種能力特別有價值。 此外,無人系統是在西太平洋等高威脅地區執行美國 "空海作戰概念"(現更名為 "全球公域準入和機動聯合概念",簡稱JAM-GC)的一個關鍵組成部分,在這些地區,對手的防御系統對有人駕駛飛機和水面平臺構成了不可接受的高風險。
海軍部已經為海軍和海軍陸戰隊的無人系統開發制定了雄心勃勃的目標。在一份備忘錄中,負責研究、開發和采購的海軍助理部長James Geurts閣下強調了無人駕駛系統的重要性,他在求職信中指出:
這份詳細的備忘錄繼續指出:"無人駕駛和自主技術正在改變各國開展軍事行動的方式......無人駕駛和自主系統的使用將改變我們的戰斗方式。" 美國防部的無人系統愿景隨后引出了無人系統戰略和計劃,最后引出了一系列高級無人系統目標:
通過載人、無人和自主能力的綜合團隊實現空中優勢。
通過擴大我們的海底星座的全球范圍來實現海底優勢。
通過載人和無人自主能力的綜合團隊,實現地面優勢。
吸收我們未來的地面戰斗力。
實行多領域的無人駕駛和自主系統。
實現無人駕駛的大規模。
通過整合無人駕駛和自主系統,實現持久的供應、支持和維持。
實現全面的無人操作能力和先進的自主性和機器學習。
這八個高層次目標中的每一個都有一個段落來支持,該段落提供了關于總體目標所需的更多細節,以及海軍部打算采取的步驟來實現這些預期結果。備忘錄接著詳細介紹了近期的促進因素和塑造努力,然后在結論中指出。"增加無人駕駛和自主系統的作戰使用,有望為我們的海軍部隊釋放出一種革命性的能力。"
最近,海軍部公布了期待已久的《無人駕駛作戰框架》。該文件旨在協調整個部門的無人系統工作,列出了雄心勃勃的目標,旨在幫助使無人系統成為海軍平臺庫存中越來越重要的一部分。該框架有五個目標。
在海軍和聯合行動的全部范圍內推進有人-無人的團隊效應。
建立一個數字基礎設施,快速和大規模地整合和采用無人駕駛能力。
激勵無人駕駛系統的快速增量開發和測試周期。
分解共同的問題,一次解決,并跨平臺和領域擴展解決方案。
為無人駕駛貢獻(平臺、系統、子系統)創造一個以能力為中心的方法。
盡管如此,這份38頁的報告確實為海軍部打算如何將無人駕駛系統引入艦隊和緬因州部隊提供了一個組織動力和指南。
大多數人都熟悉兒童寓言故事《金發姑娘和三只熊》。當金發女郎品嘗三碗粥時,她發現一碗太熱,一碗太冷,還有一碗恰到好處。當美國防部和各軍種尋求實現自主性和人類互動的最佳平衡--平衡這兩種經常對立的力量并使其 "恰到好處"--在一開始就將這種能力設計到未來的無人系統中,而不是試圖在事后將其固定下來,這可能是唯一可持續的前進道路。如果我們不能做到這一點,幾乎不可避免的是,對我們的武裝無人系統將具有 "HAL"式的力量并超出我們的控制的擔憂將破壞這些重要作戰伙伴的承諾。
在用于軍事用途的無人系統中建立適當程度的自主性的一個關鍵是要記住一句老話:"你站在哪里取決于你坐在哪里。" 用戶和設計無人系統的人經常從不同的--通常是明顯不同的--觀點來對待他們試圖完成的任務。海軍研究咨詢委員會的一份報告指出,在設計具有適當程度的自主性的無人系統時,必須調和四個不同的觀點:
用戶觀點。我可以給這個平臺一個任務,并相信它能在沒有持續關注的情況下完成它嗎?它能識別和處理意外事件或模糊的任務嗎?
機器人學觀點。我能否建立一個實用的機器人,在正確的時間做正確的事情?我可以動態地控制、導航、執行和測量我的機器人嗎?它能管理和融合數據嗎?
機器學習觀點。我的機器能解釋復雜的傳感器嗎?它能理解口頭語言,解釋手勢,或識別人或物嗎?
認知的觀點。我的機器能不能復制人類智能的元素,如認知、推理和推理?
隨著美國軍方出于各種原因增加對無人系統的依賴,它最好在某個時候決定該平臺是否足夠好,也就是說,它具有執行任務所需的速度、耐力和其他物理屬性。一旦確定了這一點,那么正如國防科學委員會報告所建議的那樣,軟件開發的艱苦工作必須成為優先考慮的因素。
利用大數據、人工智能和機器學習的普遍愿望未能解決一個關鍵問題,即我們希望這些技術能夠幫助作戰人員執行哪些具體任務。問題的根源可能是美國軍方缺乏將作戰人員的需求轉化為建議由大數據、人工智能和機器學習實現的技術解決方案的能力。作為前美國海軍軍官和艦艇指揮官,我們思考這個問題的方式讓我們很自然地想到海軍的例子。
開始解決這個問題的一個方法是思考海上的指揮官需要什么信息。無論是1812年8月艾薩克-赫爾艦長試圖帶著憲法號對蓋瑞爾號采取行動,還是今天的航母打擊群指揮官考慮將他的艦艇帶入一個可能有爭議的地區,指揮官需要三個主要東西來幫助他做出最佳決定。
他或她需要知道部隊前方的情況,需要將這些信息傳達給旗艦,并需要做出明智的決定。雖然今天的海軍指揮官擁有豐富的資產來幫助實現這些目標,但現在大數據、人工智能和機器學習可以幫助彌補一些差距。
一個打擊小組的指揮官擁有許多資產,可以展望部隊未來,以評估戰術形勢。他可能使用MQ-4C “海衛一”無人機系統來執行這種偵察任務。今天,"海衛一"操作人員會收到MQ-4C看到的流媒體視頻。但這需要他連續幾個小時盯著這段視頻(海衛一的續航時間為30小時),看到的主要是空曠的海洋空間。
利用大數據、人工智能和機器學習,MQ-4C可以被訓練成只發送它遇到的每艘船的視頻,從而大大壓縮了人類的工作量。更進一步,"海衛一"可以對每一次接觸進行機載分析,以標明其可能的興趣。例如,如果一艘船在航道上運行,已向海事當局提交了航行計劃,并提供了AIS(自動識別系統)信號,那么它很可能只值得操作者注意,“海衛一”將相應地標記它。然而,如果它不符合這些標準(例如,該船突然改變航線,離開了航道,或者沒有AIS信號),操作人員將被提醒。隨著這項技術的不斷發展,“海衛一”或其他無人機系統最終可能會配備分類算法,有可能導致自動識別目標。
一旦“海衛一”處理了這些信息,大數據、人工智能和機器學習可以幫助確定如何與旗艦溝通。在今天有爭議的電子戰環境中,不同的通信路徑具有不同程度的脆弱性。在 “海衛一”號發射之前,指揮官可以確定可接受的通信截獲風險水平,以及泄露打擊群存在的風險。
掌握了這個指揮官的意圖,并利用大數據、人工智能和機器學習,"海衛一"可以評估電子環境,從多個通信路徑中進行選擇,并確定哪條路徑提供最小的攔截漏洞。鑒于 "海衛一"號的尺寸和增長潛力,它甚至可以攜帶一個較小的無人機,并將其發射回部隊,以傳遞這種監視信息。
在旗艦上,指揮官必須了解他的傳感器所收集的數據,然后做出一些時間關鍵性的決定。他應該繼續前進,等待,還是撤退?他應該在前面偵察,還是在另一個方向?他是否應該調用其他部隊,或者他的有機資產是否足以成功地完成任務而不會給他的部隊帶來不必要的風險?
這就是大數據、人工智能和機器學習可以做出重要貢獻,幫助指揮官做出關鍵決策的地方。
如果指揮官選擇勇往直前,強制進行交戰,大數據、人工智能和機器學習可以做到今天的初級戰術決策輔助工具無法做到的事情--提供一系列選擇,并評估每個選擇的利弊。重要的是,這些技術并不--也不應該--做出決定,而是為指揮官提供足夠的、經過精心策劃的信息,以便他能比對手更快地做出最佳決定。
對于致命的軍事無人系統來說,在授權無人作戰伙伴發射武器之前,操作者必須知道什么,或者像經常發生的那樣,建議上級當局授權采取致命行動,這個標準更高。例如,考慮軍事操作人員管理一系列正在進行的無人駕駛航空系統飛行的情況,他們一直在觀察一個恐怖分子,并等待上級當局授權使用從該無人駕駛航空系統發射的空對地導彈來消除威脅。
利用大數據、人工智能和機器學習,操作者可以訓練無人駕駛航空系統預測上級主管部門在授權發射前會問什么問題,即使不能提供點解決方案,至少也可以提供百分比概率或信心水平的問題,例如。這個人是預定目標的信心水平是多少?這種信心是基于什么?是面部識別、聲音識別、行為模式、與某些人的聯系、與已知家庭成員的接近或與已知同伙的接近?對家庭成員、已知同伙或未知人員造成附帶損害的可能性是什么?等待與現在出擊的潛在影響是什么?
這些考慮只是操作者必須訓練其配備致命武器的無人系統處理的問題的一個子集。用大數據、人工智能和機器學習來增強這些系統,并利用它們在敵人和我們的決策圈內運作的能力,遠不是把致命的權力讓給無人系統,而是使這些系統能夠在戰斗的壓力下把人類操作員從不得不做出實時的、往往是即時的決定中解放出來。從一開始就將這種能力設計到無人系統中,最終將使它們成為其軍事操作者的有效伙伴。
這使我們回到了美國防部副部長羅伯特-沃克提出的一些擔憂。他指出,當敵人以 "機器速度 "攻擊我們時,我們需要利用機器來幫助保護我們。建立具有強大的大數據、人工智能和機器學習水平的無人系統,能夠與操作人員合作進行這項工作,才能最終確保我們建造的無人系統充分發揮其潛力,幫助我們的作戰人員在戰斗中獲勝。
有令人信服的證據表明,美國,特別是美國軍隊,必須在利用大數據、人工智能和機器學習方面超過我們的同行競爭對手。人工智能國家安全委員會在其2019年的臨時報告中明確分析了人工智能將如何成為游戲規則的改變者。"人工智能將塑造權力的未來。"2020年,《未來國防工作組報告》這樣提出將大數據、人工智能和機器學習插入美國軍事武器系統的必要性:
我們通過使用無人機系統的例子討論了插入大數據、人工智能和機器學習的影響,在這種情況下,MQ-4C “海衛一”,因為當插入這些技術的問題出現時,這是大多數人想到的戰爭領域。但還有一個領域,大數據、人工智能和機器學習可以在戰爭中產生更大的影響,那就是決策領域。
伊恩-托爾在其獲獎的美國海軍誕生和成熟的歷史《六艘護衛艦》中,不僅記錄了海軍的早期發展,還記錄了它在多場戰爭中的掙扎。67很少有人在讀完這本書后,會對1775年至1815年間海軍和國家的生存是如何的近在眼前。
雖然我們很容易被托爾的敘述所吸引,像讀小說一樣快速閱讀這段歷史,但至關重要的是,不要錯過決策在海軍的勝利和失敗中的重要性。從在哪里建造這些護衛艦,到選擇它們的活動區域,到它們要打哪場戰役和避免哪場戰役,以及其他一系列的決定,主要是使國家能夠在那危險的幾十年中生存下來的正確決定。
雖然今天美國海軍的平臺和武器與迪凱特、普雷布爾、班布里奇、赫爾、佩里、勞倫斯等艦長的海軍沒有任何相似之處,但今天的艦長仍然必須做出他們的前輩所做的那種生死攸關的決定。大不相同的是今天的決策速度。像憲法號、星座號和其他早期護衛艦的艦長往往有幾個小時甚至幾天的時間來做出關鍵的選擇,而今天的艦長必須在幾分鐘甚至幾秒鐘內做出決定。
軍事史上不乏這樣的例子:做出更好決定的指揮官獲得了勝利,即使他們的對手擁有地理或物質優勢,這些事件在此無需重述。值得注意的是,在過去的幾個世紀里,各級領導人有幾個小時,甚至幾天的時間來做出關鍵決定。但到了上個世紀中期,戰爭的變化極大地壓縮了決策周期。
在朝鮮戰爭期間,俄羅斯的米格-15戰斗機和美國的F-86 "佩刀 "戰斗機為爭奪制空權展開了激烈的戰斗。空軍上校約翰-博伊德(John Boyd)為了找到一種減輕美國戰斗損失的方法,創造了我們今天所知的OODA循環。OODA是指:觀察、定向、決定和行動。
博伊德的概念是,勝利的關鍵是創造一個比對手更快地做出適當決定的環境。博伊德的構思最初是一種在空對空作戰中獲得成功的理論,是根據他的能量-機動性理論和他對米格-15戰斗機和北美F-86佩刀戰斗機在朝鮮的空對空作戰的觀察而發展出來的。哈利-希拉克--F-16戰斗機的總設計師在談到OODA理論時說:"時間是主導參數。在最短的時間內完成OODA循環的飛行員占了上風,因為他的對手在應對已經發生變化的情況時被抓住了。"
即使是非軍事觀察員也清楚,空對空作戰可以說是壓力最大的軍事行動之一。但是,軍事領導人越來越意識到,壓力--尤其是無法處理信息--導致軍事操作人員開始出現自己的OODA環,并做出次優的決定。
在壓力下做出關鍵軍事決策的挑戰在1965年的電影《貝德福德事件》中進入流行文化。這部電影松散地基于美國海軍艦艇和蘇聯潛艇之間的一些冷戰事件,其情節線圍繞著美國驅逐艦貝德福德號(DLG 113)和一艘蘇聯潛艇之間的貓捉老鼠游戲。
貝德福德號的船員在長達數日的潛艇搜尋中變得越來越疲憊。隨著尋找蘇聯對手的緊迫性加劇,貝德福德號的船長無視他的船員在壓力下萎靡不振的警告,提高了他的要求,甚至碾壓了柴油潛艇的呼吸器。當有人問船長他是否會對他的對手開第一槍時,他回答說他不會,但 "如果他開一槍,我就開一槍"。一個疲憊的少尉把他的船長的話誤認為是 "開一槍 "的命令,于是發射了一枚反潛火箭,摧毀了潛艇,但在它發射一枚核武魚雷之前,潛艇就被消滅了。
雖然是虛構的,但《貝德福德事件》對55年后的一個真實世界的事件卻有可怕的預見。雖然對2020年1月伊朗革命衛隊擊落一架烏克蘭噴氣式客機的全面調查需要幾個月,甚至幾年的時間,但今天已知的是,在戰斗的壓力下,伊朗剛剛向美國軍隊發射了一連串彈道導彈,該國對美國的反擊保持高度警惕。
在伊朗情報或軍事指揮系統的某個地方,發出了巡航導彈來襲的警告。負責一個防空導彈組的軍官試圖聯系他的上級指揮中心,以獲得開火的授權。可悲的是,他無法接通,帶著不完整的信息,他發射了兩枚防空導彈,176人死亡。
這些事件--一個是虛構的,一個是非常真實的--有一個共同點:人類被迫在信息不充分或錯誤的情況下做出關鍵決定。在《貝德福德事件》中,它是人類之間相隔幾英尺的空氣間隙。在烏克蘭飛機被擊落的案例中,是無法溝通,以及對威脅的錯誤認知。
很容易將上述事件視為難以置信的虛構或不如美國軍隊的決定,但這將是一個悲劇性的錯誤。美軍人員做出錯誤決定導致生命損失的引人注目的事件已經困擾了美國軍隊四十多年。
1987年5月,美國海軍斯塔克號(FFG 31)在兩伊戰爭的禁區邊界附近巡邏。由于錯誤地認為交戰雙方都不會以美國軍艦為目標,當斯塔克號試圖與來襲的飛機進行溝通時,艦長一開始并沒有感到震驚。伊拉克的 "幻影 "噴氣機發射了兩枚 "飛魚 "導彈,造成37名美國人死亡,近二十人受傷。
1988年7月,懷著對斯塔克號艦長未能采取行動保護他的艦艇的回憶,在兩伊戰爭仍然激烈的情況下,當他的艦艇被伊朗炮艇圍攻時,文森斯號(CG49)的艦長錯誤地認為,一架接近的飛機正在接近并以攻擊姿態下降。他發射了一枚SM- 2ER導彈,擊落了伊朗航空公司655號航班,機上290人全部死亡。
1994年4月,兩架美國空軍F-15 "攻擊鷹 "在伊拉克上空擊落兩架美國陸軍UH-60 "黑鷹 "直升機,認為它們是伊拉克的米-24 "雌鹿 "直升機,機上26名軍人和平民全部死亡。空軍AWACS控制飛機和 "攻擊鷹 "之間的誤傳,以及自動識別敵我系統的故障,是造成這場悲劇的近因。
2001年2月,在瓦胡島以南10英里處,在為VIP平民游客進行的演示中,美國海軍格林維爾號核潛艇(SSN 772)進行了一次緊急壓載打擊機動,并在日本漁船愛媛丸號下浮出水面。船上的三十五人中有九人死亡。
2017年6月,美國海軍菲茨杰拉德號(DDG 62)與集裝箱船MV ACX Crystal相撞。她的七名船員被殺,其他幾人受傷。僅僅三個月后,美國海軍約翰-S-麥凱恩號(DDG 56)與懸掛利比里亞國旗的油輪Alnic MC相撞。她的10名船員在這次事故中死亡。
雖然所有這些悲慘的事故背后有多種原因,最明顯的是涉及美國海軍菲茨杰拉德號和美國海軍約翰-S-麥凱恩號的致命碰撞,但很明顯,在每個案例中,都有可用的數據,如果使用得當,可能會打破安全專家所說的 "事故鏈",并防止悲劇的發生。
值得注意的是,做出這些次優決策的軍方人員是在手頭的工具下做了他們能做的最好工作。發生的情況是,戰爭的速度往往超過了人腦做出正確決定的能力。事實上,正如美國陸軍研究實驗室的首席科學家亞歷山大-科特博士在一次指揮和控制會議上所說,"人類的認知帶寬將成為戰場上最嚴重的制約因素"。
美國空軍技術地平線報告這樣描述這一挑戰:"盡管今天人類在許多任務上仍然比機器更有能力,但人類的自然能力正變得與技術提供或要求的巨大數據量、處理能力和決策速度越來越不匹配。更緊密的人機耦合和增強人的表現將成為可能和必要。"由于這些原因和其他原因,海軍需要大數據、人工智能和機器學習,以使其作戰人員在戰斗中獲得優勢。
對于我們今天使用技術的人來說,這一挑戰應該不足為奇。正如任何擁有智能手機的人在打開機器后不久就知道的那樣,獲得足夠的數據很少是個問題。有時讓人不知所措的是對大量的數據進行分類,并試圖只挑出當下必要的數據。從戰爭的角度來看,這意味著系統只向決策者提供經過精心策劃的信息,以幫助他或她做出更好的決定,而且往往是在戰斗的壓力下。
每年春天在海軍戰爭學院舉行的當前戰略論壇是美國海軍的年度會議,討論和評估海軍對國家和國際安全的貢獻。雖然每個論壇都有其亮點,但2017年的活動可能會被人們記住,因為海軍作戰部長在會上用手說話。沒錯,約翰-理查森上將,一個核潛艇兵--而不是一個戰斗機飛行員--用他的手說話,把聽眾帶回了70多年前發明的航空戰術。
CNO將時鐘撥回到20世紀50年代的空軍上校約翰-博伊德和OODA循環。理查森上將用OODA環路來討論美國海軍正在使用的各種新技術。他指出,海軍已經在博伊德分類法中的觀察和行動部分進行了大量投資。他指出,在大數據、機器學習和人工智能等新興技術出現之前,我們對OODA環路中的 "觀察和決定 "部分無能為力,但今天我們可以。
這正是CNO在他的講話中使用博伊德的OODA循環的原因。他解釋說,今天的海軍作戰人員有大量的--甚至是壓倒性的--數據需要處理。他們需要大數據、人工智能和機器學習來整理這些數據,只呈現那些有助于決策者和扣動扳機者更快做出更好決策的信息。不難看出,這種將數據轉化為戰術上有用的信息的努力對作戰的所有方面都很重要,而不僅僅是戰斗機戰術。
現在可能是時候在美國海軍幾十年來幫助作戰人員做出更好決策的努力基礎上再接再厲了。海軍在利用技術幫助作戰人員在緊張的情況下以更少的人和更少的錯誤更快地做出更好的決定方面一直走在前列。在20世紀80年代,海軍研究辦公室啟動了一項計劃,研究作戰人員如何在高度緊張的情況下做出更好的決定。這項計劃被稱為TADMUS(壓力下的戰術決策),它利用認知科學在了解決策者如何做出決策方面取得了新的突破。這導致了海軍太平洋信息戰中心的科學家和工程師設計了幾個原型(多模式觀察站、知識墻和其他),并進行了測試,在幫助決策者實現改進決策方面取得了令人鼓舞的成果。
TADMUS與類似的海軍項目一樣,就其本身而言是好的。但正如理查德森上將在其當前戰略論壇的發言中所指出的,直到最近,將強化決策提升到新水平的技術還不存在。今天,它確實存在,而且利用大數據、人工智能和機器學習能夠為作戰人員提供的東西,很可能導致海戰的下一個突破,特別是在決策領域。海軍太平洋信息戰中心與通過海軍研發界、工業界和學術界的合作伙伴一起,正在領導各種努力,以確保美國作戰人員有能力以更少的人和更少的錯誤做出更好的決定。
在美國戰略和軍事指導的最高層,大數據、人工智能和機器學習被認為對為美國軍隊提供作戰優勢極為重要。而且,那些負責將這些技術整合到美國軍事平臺、系統、傳感器和武器的人越來越多地將決策確定為這些技術可以增加最大價值的一個重要領域。
在AFCEA/海軍研究所 "西部 "會議上的講話中,海軍預算主任迪特里希-庫爾曼少將這樣提出了海軍如何能夠最好地利用大數據、人工智能和機器學習的問題。"我們如何利用人工智能,不是為了生產殺人的自主平臺,而是為了讓指揮官在戰斗中獲得優勢?"的確,美國海軍--進而是美國軍隊--想要利用大數據、機器學習和人工智能的本質,不是在沒有人類監督的情況下向遠方發射終結者般的無人系統,而是幫助操作員做出更快、更明智的決定。
軍事作戰人員將始終處于循環之中,并將得到大數據、機器學習和人工智能的協助。軍方希望通過這些尖端技術--無論是應用于無人系統還是戰爭的其他方面--來實現的是進入對手的OODA循環。負責研究、開發和采購的海軍助理部長詹姆斯-格茨閣下在一次軍事工業會議上這樣說:"如果一支部隊能夠利用人工智能讓決策者比對手更快地做出決定,那么它每次都會贏。"
在海軍戰爭學院的一次演講中,美國防部聯合人工智能中心主任杰克-沙納漢中將這樣說。"人工智能對美國國防最有價值的貢獻將是它如何幫助人類做出更好、更快、更精確的決定,特別是在高后果的行動中。"
很明顯,美國國防部已經認識到,淹沒在數據海洋中的作戰人員無法做出有效的決策,并試圖利用人工智能和機器學習等技術來幫助整理數據,只呈現在激烈戰斗中有用的信息。
沙納漢將軍在戰爭學院的講話中談到了利用大數據、人工智能和機器學習幫助作戰人員做出更好決策的機會和挑戰,他指出:"在思考、書寫和談論人工智能與實踐之間存在著鴻溝。卷起袖子,投入到人工智能項目中,這是無可替代的。
最近,國防部聯合人工智能中心的新主任邁克爾-格羅恩中將這樣強調了決策:
在20世紀的戰爭中,衡量軍事優勢的單位是坦克、艦艇或飛機,以及 "勝過槍炮和棍棒 "對手的能力。在21世紀的戰爭中,軍事領導人只有幾分鐘甚至幾秒鐘的時間來做出關鍵的決定,超越對手的思維能力將決定勝利和失敗的區別。
當美國軍方及其國防工業伙伴在21世紀的第三個十年中制定他們的研發投資決策時,早就應該關注一個長期被忽視的領域--我們的軍事決策者的思想,并確保他們能夠做出更好的決定,比他們的對手更快和更少的錯誤。
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。該文件說明了陸軍需要如何適應和發展以在未來作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則--校準部隊結構、多域編隊和融合--這使得敵人的反介入和區域拒止系統能夠被瓦解,并使軍隊能夠利用短暫的優勢窗口。這是一個取決于在時間、空間和目的上持續同步能力的概念,以實現跨領域的協同作用,并創造一個可利用的優勢窗口。聯合部隊目前通過"域聯合解決方案的階段性同步"來實施能力融合,這并不支持在針對未來同行威脅的競爭和利用的重復循環中快速和持續地整合多個領域的能力。因此,關鍵是要考慮什么能力可以讓軍事領導人克服這些技術和人類認知的局限性。一個可能的解決方案是將人工智能融入作戰管理過程。
本專著重點說明了將人工智能融入作戰管理過程以促進多域作戰融合的必要性。通過分析多域作戰的融合差距、人工智能的發展以及當前的指揮和控制系統,該研究旨在說明多域作戰中能力持續融合的復雜性迅速超過了人類的認知能力。此外,由于美國的對手正在大量投資于人工智能和自主性,將人工智能融合到作戰管理過程中的問題不是在戰場上取得優勢的問題。相反,問題在于如何擁有競爭性臨時可利用的優勢窗口的能力。
簡而言之,速度在兩個不同的方面很重要。首先,自主性可以提高決策速度,使美國能夠在對手的行動周期內采取有效措施。其次,如果美國要維持軍事優勢,作戰能力向自主性的持續快速轉變至關重要。— DSB 自主性報告,2016 年
《美國陸軍多域作戰2028》(MDO 2028)是陸軍的未來作戰概念。這份文件說明了陸軍預計它需要如何適應和發展,以在未來的作戰中保持競爭性軍事優勢。該概念的關鍵組成部分是多域作戰的原則——經過校準的部隊結構、多域編隊和融合——這使得敵方反介入和區域拒止 (A2AD) 系統能夠被瓦解,并允許軍隊利用短暫的優勢窗口。這一概念取決于指揮官在時間、空間和目的上不斷同步的能力,以實現跨域協同并創造可利用的優勢處境。
目前,聯合部隊正在通過“域聯合解決方案的階段性同步”來融合能力,這一過程不支持在針對未來對等威脅的競爭和利用的循環中快速和持續地整合多個領域的能力。軍方領導人承認這一缺點和任務的復雜性,因此引入了需要開發新的軍事技術來填補關鍵空白的融合考慮。基于這些差距,未來的指揮和控制系統需要為所有梯隊的指揮官提供戰斗空間內所有聯合單位的完整共同作戰圖,并有能力快速傳輸偵察和目標數據,以通過動能和非動能手段攻擊擬議的目標。
然而,敵人在自主性和人工智能 (AI) 方面的發展極大地壓縮了時間窗口。由于時間窗口短,協調融合工作的任務很快超出了人類的能力。其他因素,例如彈藥優化和能力重置時間的需要,進一步增加了任務的復雜性。因此,至關重要的是要考慮軍事領導人需要具備哪些能力來克服這些技術和人類認知限制。一種可能的解決方案是將人工智能集成到作戰管理過程中。因此,多域作戰融合所帶來的挑戰提出了一個關鍵問題:美國陸軍是否需要一個人工智能引導的作戰管理系統,以便在多域作戰中成功地融合能力,對抗一個有能力使用自主和人工智能引導能力的同行競爭對手?
我們尋求獲得優勢的方式是在決定性的空間優化所有領域,以影響滲透。— 美國陸軍能力整合中心主任埃里克-韋斯利中尉
武裝競爭的一種現象是技術創新的武器化。從軍事角度來看,這是一個關鍵的進步,可以讓一個國家的戰斗力量在戰場上保持競爭優勢。為了推動能力發展,軍方領導人引入了未來的作戰概念。這些概念是預測軍隊需要如何訓練、裝備和組織自身以競爭和戰勝新興威脅的文件。目前,美國陸軍正在進行重大改革。此次重組將使軍隊轉向大規模作戰行動,并調整部隊以滿足國家安全戰略 (NSS)、嵌套式國防戰略 (NDS) 和國家軍事戰略 (NMS) 中概述的需求。這種變化代表了軍隊的范式轉變。在將近兩個十年的時間里,這主要集中在平叛上。對于美國陸軍來說,這項工作驗證了歷史不會重演,但卻是會押韻的格言。主要是因為當前未來作戰概念“MDO 2028”的引入促使轉型讓人想起過去的重組周期。一個相關的例子是 20世紀80年代中期引入空地一體戰學說引發的重組。
空地之戰是美國陸軍在冷戰高峰期對俄羅斯威脅的回應。它于 1986 年出版,提出了一個依賴于陸地和空中能力有效同步的作戰框架。在技術進步的推動下,復雜性不斷增加,導致 "事件的節奏加快",這是基本的前提。該文件的一個關鍵組成部分是引入了反映戰爭不斷發展的新術語。其中一個新術語是綜合戰斗——集中使用所有能力來擊敗敵人——它依賴于獲得和保持態勢感知的能力。基于對新興技術可以在戰場上提供優勢的認識,空地戰指導正在迅速發展的計算機技術集成。1986年美國防部向國會提交的年度報告中提出了所需的創新努力。聯合戰術融合計劃 (JTFP) 和聯合監視和目標獲取系統 (JSTAS) 是隨后出現的系統。這兩個系統都旨在為指揮官提供從各種來源收集信息并指導采用聯合動力努力追擊地面目標的能力。開發這些系統的必要性表明了兩個事實。首先,這些系統顯示了技術和戰爭之間的整體關系。第二,這些系統強調了軍事領導人承認,從現在開始,在戰場上有效同步軍事能力所需的速度和復雜性超過了人類的認知能力。目前的多域作戰概念將這一認識帶到了未來。
認識到美軍的競爭優勢正在減弱,麥克馬斯特中將(退役)和當時的國防部副部長羅伯特-O-沃克呼吁開發空地戰2.0。時任訓練與條令司令部司令的大衛-G-帕金斯將軍(退役)響應號召,推出了多域作戰。然而,在2016年美國陸軍年會和博覽會期間,帕金斯將軍(退役)指出,這個概念不是對空地戰或全譜作戰的改造,而是描述了一種革命性的戰爭方法。多域作戰被稱為革命性的一個關鍵原因是,它要求軍事力量的運作方式發生轉變。新的作戰方式的基本驅動力是科學和技術的快速發展,以及需要在競爭、失敗、利用和再競爭的連續循環中與所有領域的同行威脅進行競爭。
在中國和俄羅斯等大國競爭的推動下,2017 年的美國國家安全戰略 (NSS)指示軍隊需要擁有同時在多個領域與競爭對手競爭的能力。要建立跨域對抗敵人的能力,需要發展“新的作戰概念和能力,以在不保證在空中、海上、陸地、太空和網絡空間領域的主導地位的情況下取得勝利”。來自聯合推動者的可靠和及時的跨領域支持是成功競爭的關鍵要求和隱含任務。由此產生的域相互依賴意味著“一個域中缺乏訪問可能會在一個或多個域中產生級聯效應”。因此,美國空軍多域作戰戰略計劃助理教授賈里德·唐納利博士預測,未來的戰爭將在一個快速而復雜的多域連續體中進行,不依賴于一系列作戰條件的連續設置但需要跨多個域的能力永久同步。因此,了解不同域中存在的能力以及如何利用每種能力來獲得暫時的優勢是多域作戰成功的基礎。
在 NSS 和 NDS 的指導下,美國訓練和條令司令部 (TRADOC) 于 2018 年初推出了 TRADOC 手冊 525-3-1,即“美國陸軍多域作戰2028”。這是一個概念,作為前 TRADOC 總司令Stephen J. Townsend 強調,承認敵人有能力在多層次的對峙中提出挑戰并與美軍抗衡,其目的是“在時間、空間和功能上將美軍和其盟友分開,以擊敗我們。”
該概念提出戰爭演變的一個原因是,它將多個領域的能力互動形象化,這超越了在不同領域內的機動性或擁有實現跨領域效果的能力。相反,這個概念承認,技術進步改變了領域之間的相互關系和跨領域連接的速度。MDO 2028將這些變化納入了該概念的多域作戰原則--校準的部隊結構、多域編隊和融合--這使得敵方的反介入和反侵略系統被瓦解,并使軍事力量能夠創造短暫的優勢窗口。它們結合在一起,為指揮官在時間、空間和目的上匯聚能力創造了條件,以實現跨領域的協同,并創造一個可利用的優勢地位。此外,多域融合是一個可以通過整合人工智能引導系統來優化和加速的過程。
我們必須習慣這樣一個激進的想法,即我們人類將只是智能生物之一。— Alexander Kott,美國陸軍研究實驗室網絡科學部主管
人工智能是技術系統執行此前需要人類智能才能執行的任務的能力。這些任務包括觀察和識別模式、通過觀察學習、預測事件或采取行動的能力。中國是美國的主要競爭對手之一,認識到人工智能可以使戰場對稱性向他們的優勢傾斜。中國在人工智能引導軍事能力(包括自主武器系統)發展方面的大量投資證明了此觀點。為了在武裝沖突中保持相對優勢地位,美國需要發展將人工智能與決策過程聯系起來的反擊能力。當前的美國人工智能計劃主要集中在模式識別上,由于計算能力的快速增長,模式識別可以分析越來越多的數據以創建信息。
多域作戰是需要收集和分析大量數據以觀察和評估作戰環境發展。目前人工智能在軍事上的應用主要集中在后勤運輸和數據分析的支持上。然而,聯合人工智能中心和白宮人工智能特別委員會的成立,都標志著人工智能將擴展到國防部的其他領域。例如,美國陸軍未來司令部目前正在開展多項計劃,分析人工智能如何提高指揮官獲得態勢感知和做出明智決策的能力。一個重點領域是發展能力,以提高美軍同步效果和減輕日常認知任務的速度。強調開發人員和潛在的最終用戶之間的迭代合作,為該部門開發人工智能指導系統創造了條件,該系統可以 "產生并幫助指揮官探索新的選擇",并使他們能夠專注于選擇有利的作戰方案,使部隊和任務的風險最小化。
關于將人工智能納入作戰管理過程,關鍵是要區分將人類置于環中或環上的系統。根據機器人和自主系統的聯合概念,自主的定義是 "自動化的范圍,其中獨立決策可以為特定的任務、風險水平和人機合作的程度量身定做"。范圍本身包含了不同程度的自主性。在由TRADOC和佐治亞理工學院主辦的2017年瘋狂科學家會議上,專家們介紹了三種程度的自主性--完全自主、受監督的自主和自主基線。 一個完全自主的系統獨立于人類的實時干預,在人類不參與的情況下運行。在有監督的自主系統中,人類保持著實時干預和影響決策的能力,因此仍然處于循環之中。自主基線是目前各種現有系統中存在的自主性。在軍事應用中,這種自主性存在于人類監督的武器中,如愛國者和宙斯盾導彈系統,或AH-64D阿帕奇攻擊直升機長弓火控雷達,它獨立地 "搜索、探測、定位、分類和優先處理陸地、空中和水中的多個移動和靜止目標。"
Mitre公司的Richard Potember將機器學習視為 "人工智能的基礎",其重點是系統在無監督下學習的能力,并創建深度神經網絡,以支持決策和機器人應用。自主性和人工智能的整合是一個過程,不經意間將導致 "我們以前電氣化的一切,現在將'認知化'"。 支持將人工智能引導的作戰管理系統納入多域作戰的一個關鍵技術發展趨勢是,自主性和學習逐漸從感知轉向決策。這樣一來,人工智能可以減輕多域作戰中固有的復雜性。一個固有的復雜性是整合能力和做出跨越多個領域的決策能力,不是在幾分鐘或幾小時內,而是幾秒鐘內,如果需要的話。因此,將人工智能整合到決策和同步過程中,平衡有利于美國的觀察-定向-決定-行動周期。
在戰略層面,人工智能引導的系統可以影響推動不同領域的升級和降級的決策。在作戰層面,通用人工智能可以建立態勢感知和同步效果。為了支持多個領域的能力融合,人工智能 "處理來自在多個領域運作的各種平臺的大量信息 ",直接促進了MDO戰爭的兩個基本方面:速度和范圍。人工智能支持比敵人更快、更遠的打擊能力。這種能力能夠實時分析動態戰場,為快速打擊創造條件,將美國“友軍”的風險降到最低。美國國防科學委員會2016年的一項研究,提出人工智能系統能夠在一個動能瞄準周期內整合多種作戰管理、指揮與控制、通信和情報能力的觀點。此外,委員會評估說,這些人工智能引導的系統的累積效應可以在整個多域融合周期內改變戰斗的運行和戰略動態。
AI 即將上戰場,這不是是否會出現的問題,而是何時和誰的問題。— 美國陸軍未來司令部司令約翰·默里將軍
在武裝沖突中,美國的競爭對手旨在整合他們的A2AD系統以建立分層對峙區。其目的是剝奪美軍聯合部隊在時間和空間上同步作戰的能力。俄羅斯的S-400 Triumf是美國部隊在大規模戰斗中可能面臨的系統代表。S-400是一種移動式地對空導彈系統,擁有對付從無人機到終端彈道導彈的各種武器系統的能力。該雷達可在600公里范圍內跟蹤目標,并具有100公里的交戰范圍。該系統提供的關鍵技術進步之一是傳感器到操作手的全自動循環,使該系統能夠同時跟蹤和打擊多達80個目標。這是支持MDO 2028假設的一個例子,即美軍在大規模對抗同行威脅的敵對行動開始時,不能假設自己在任何領域擁有優勢。為了在競爭、滲透、分解和利用的連續循環中攻破敵人的防御系統,美國陸軍的多域作戰框架引入了多域作戰的三個原則--校準的部隊態勢、多域編隊和融合。
校準的部隊態勢是指能夠迅速適應和改變作戰環境的部隊和能力組合。其目的是找出潛在的弱點或在戰場上創造不對稱性,以建立一個可利用的局部優勢窗口。前方存在的部隊支持在整個軍事行動范圍內快速升級,以滲透和瓦解敵人的系統。這些部隊被安排具有任務指揮、火力、情報收集、維持、信息活動和特種作戰能力。遠征部隊具有在需要時進行聯合強行進入行動的能力,并為后續部隊創造了條件。這些部隊通過空中和海上部署,可在幾天或幾周內完成。
多域編隊的重點是使較低的梯隊能夠對近距離的威脅進行進攻和防御行動。支持多域編隊的三種能力是進行獨立機動的能力、采用跨域火力的能力和最大限度地發揮人的潛力。為了支持在有爭議的領域內達到軍事目的,MDO 2028認識到軍團、師和旅梯隊的單位需要獨立行動,不受上級總部資源優先級的限制。因此,他們需要擁有有機的后勤、機動、火力、醫療和通信網絡,使部隊能夠在預先確定的時間內獨立作戰。作戰概念目前的框架要求這些梯隊 "在通信線路高度競爭的情況下,仍能維持數天的進攻行動。"維持進攻的能力是由指揮官采用跨域火力的能力來驅動的。
跨域火力是指在暫時脫離上級總部火力支援的情況下,對火力能力進行整合,并具有冗余性。這個過程包括直接和間接火力單位、保護能力和電子戰裝置,以及 "多光譜融合彈藥,以及網絡空間、空間和信息相關能力"。為了加強在復雜和快速發展的多域作戰環境中的決策過程,需要開發 "由人工智能和高速數據處理支持的人機交互"。 校準部隊態勢和創建多域編隊都是為了實現本文所認為的多域作戰的一個關鍵組成部分--融合。
MDO 2028將融合定義為 "在所有領域、電磁頻譜和信息環境中快速和持續地整合能力,通過跨領域的協同作用,優化效果以超越敵人"。盡管它可能看起來像目前聯合能力的整合和同步延伸,但這個概念與目前應用的聯合能力有很大不同。這主要是因為它不是在時間和空間上按順序消除沖突的過程,而是由目標周期和任務分配命令指導和限制。相反,它是在窗口期中對所有領域的效果進行持續的同步化,在空間和時間上都有很大差異。要在一個同行競爭的環境中競爭,需要有能力通過跨域的協同作用創造暫時的領域超越。這種協同作用集中在決定性的空間。決定性空間是時間和空間上的一個物理的、虛擬的和認知的位置,它使美國部隊能夠獲得一個可利用的明顯優勢位置。此外,由于軍事單位期望同時對抗多種威脅,多域融合要求在所有領域的競爭連續體中同時進行系統分解和中立化。
快速指揮和控制為指揮官通過跨域協同和分層選擇,實現融合創造了條件。因此,軍事指揮官在任何特定時間點擁有對戰斗空間內運作的所有聯合力量的整體態勢感知是融合的一個關鍵組成部分。MDO 2028確定了兩項要求,即必須開發技術先進的指揮和控制系統并將其整合到多域編隊中以促進這一進程。第一個是需要 "每個梯隊的指揮官和參謀人員都能得到所有領域的戰斗可視化呈現并且指揮",并迅速調整能力以實現融合。第二是有能力迅速協調聯合能力的匯合,以對付敵人的特定弱點。
指揮官在目的和時間上實現融合能力的關鍵是五個融合要素的同步化--準備時間、計劃和執行時間、持續時間、重置時間和周期時間。對這些要素的考慮使指揮官能夠計算出從啟動開始達到效果所需的時間,以及為新一輪的重新競爭重置能力所需的時間。在這個框架內收斂多種能力的過程因不同的能力使用率而進一步復雜化。雖然周期率提出了一個無限的使用序列,但使用率代表了一個與 "彈藥和消耗性虛擬武器 "相聯系的不斷減少的單位。 由于后勤是有爭議的,可預測的補給沒有保證,指揮官在多域融合中面臨著額外的挑戰。這個挑戰就是優化現有彈藥的使用,并使彈藥的使用與聯合能力的協調相一致。
目前可用彈藥的數量限制和無法建立庫存可能會導致未來大規模作戰行動中后勤儲備嚴重不足。為了延長軍隊的續航能力,特別是在跨越軍事爭端地區的交通線作戰時,需要對各種系統的武器狀況進行持續評估。在動能范圍內對所有聯合平臺進行 "優化和排序射擊 "變得至關重要。這種優化和排序過程,同樣迅速超過了人類決策者的認知能力,并提出了一個技術作戰管理系統的缺陷,該缺陷會對聯合能力的有效融合產生不利影響。
美國陸軍在多域戰斗空間中實現作戰敏捷性的核心是能夠從不斷增長的綜合數據集中創造理解,同時保持 "卓越的決策速度"。戰場上永遠存在著未知情況和沖突,但減少觀察環境變化和相應調整部隊方向所需的時間,可以提高決策和行動速度。提高對聯合部隊在各個領域內的所處位置的認識,相對于敵人和他們的作戰和戰術計劃,對于加速較低層次的機動是必要的。此外,短暫的機會窗口要求未來的作戰管理系統迅速將傳感器與射手相匹配。
在美國陸軍的現代化框架內,新興技術需要為兩個關鍵的技術和組織上的不足提供一個解決方案。首先是保持對作戰區域內所有聯合軍事單位完全態勢感知的能力。第二是迅速建立從傳感器到射手的冗余回路能力,其中包括所有可用的聯合單位并考慮到能力的不同再生周期。這是一項任務,根據需要處理的數據量,當聯合軍事單位在有爭議的戰場上競爭時,需要持續同步,這很快就會超過人類的認知能力。將人工智能融入作戰管理過程可以減輕這種人類的局限性。
我們的投資重點之一是網絡,這并非巧合……因此我們有能力將這種目標快速傳達給另一個領域。— 美國陸軍未來司令部司令約翰·默里將軍
實現多域融合的最關鍵步驟之一是開發聯合指揮和控制(C2)系統,將整個戰斗空間的能力縱向和橫向聯系起來。2017年,SYSTEMATIC公司獲得了設計美國陸軍新型作戰管理系統 SitaWare 的合同。美國陸軍戰術任務指揮部負責人 Shane Taylor 中校稱該系統是“一種開箱即用的解決方案,用于跨梯隊同步任務指揮數據,這為陸軍遷移到通用架構的目標提供了一個跨越式發展的機會。”該系統提供的一些進步包括簡化指揮所 C2、改進與聯合和聯盟伙伴的互操作性以及標準作戰功能融合框架。該系統的另一個關鍵功能是能夠快速擴展大量數據并以提高指揮官態勢感知的方式呈現。
在美國陸軍的作戰環境中,SitaWare 是一個指揮后計算環境組件,有望消除信息和情報孤島,并可集成為通用作戰平臺。 SYSTEMATIC公司承認未來的作戰需要情報、后勤和作戰系統的快速同步。因此,當前系統旨在分析大型數據集并在直觀的用戶界面上顯示相關信息。因此,它可以實時建立指揮官的態勢感知并提高他們的決策速度。此外,系統軟件符合各種民用和軍用互操作性標準,這使得系統更容易與其他聯合和聯盟平臺連接。
為了在各梯隊之間嵌套系統,SitaWare的用戶界面應用程序和顯示器可根據操作環境的要求進行定制。縱向信息共享確保所有梯隊之間共享共同數據。為了提供戰術層面上的態勢理解,該系統具有對輕型、輪式和裝甲編隊的美國“友軍”跟蹤能力。該系統的另一個關鍵特征是綜合指揮層。這一功能使指揮官能夠根據作戰環境的變化,迅速傳播對原始命令的更新和修改。然而,SitaWare的設計并不是為了指導效果。因此,它不能充分加快傳感器到射手的周期,不能提高指揮官在有爭議的環境中有效地匯聚聯合能力,以對抗擁有自主和人工智能支持的武器平臺的同行威脅。
在解決未來多域作戰要求的另一項努力中,美國陸軍啟動了一個內部項目,旨在 "增加物理目標、數據收集、數據分析和自主決策在戰場物聯網中的整合。"該項目專門用于填補美國陸軍領導人評估的商業生產技術沒有充分解決的差距。弗吉尼亞理工大學的專家預測,項目的主要挑戰之一是 "處理許多復雜的變量 "的能力,這影響了結合從博弈論到分布式學習等方面的能力。這些挑戰由于以下事實而被放大:美國陸軍目前的技術開發工作側重于能力的實戰化,很少考慮整合軟件和硬件,使這些系統能夠與各種聯合能力溝通。
該項目的重點是將人工智能引導的系統置于回路中,為指揮官提供在戰斗空間的各種傳感器平臺上收集的大量數據的綜合分析。通過收集相關傳感器系統的數據,分析敵人的能力分布,并將其與可用的美國“友軍”武器系統進行比較,該系統提供關于如何最有效地實現效果的建議。為了使這一過程有效運作,指揮官必須放棄相當程度的控制權,因為他們允許系統 "為如何發動戰爭選擇最合適的戰略"。盡管有這種擔憂,陸軍下一代戰車跨功能小組的副主任凱文-麥凱納里承認,人工智能在多域作戰中是必不可少的,因為它提供了可將目前九十六小時的師級目標定位周期 "減少到九十六秒 "的能力。總的來說,"四分衛項目 "是幫助指揮官 "準確了解戰場上的情況,然后根據可用的和其他因素選擇最合適的戰略。"該倡議是能夠在時間有限的決策空間中有效地融合能力邁出的重要一步,因為它將人工智能的作用提升到數據可視化工具之外,使其成為戰斗戰略工具。
對人工智能在作戰管理過程中的可靠性的擔憂可以通過云架構和深度學習系統的快速發展來緩解。與人類互動類似,在人工智能和自主系統發動的戰爭中建立信任需要時間。中校Wisham,"四分衛"項目的負責人之一,指出這需要一個深思熟慮的策略來證明系統是可靠和有效的,由于很難或不可能追蹤到神經網絡的決策路徑,這就很復雜。 然而,Nvidia公司的機器人研究員Dieter Fox預測,這是一個有解決方案的問題,因為研究人員繼續開發分析神經網絡和機器學習過程的新程序,在未來可以解決這一問題。要分析網絡和學習過程是人工智能的一個關鍵方面,因為它允許開發人員在一個設定的決策框架內約束自主學習系統。另一個認識到發展人工智能啟用能力重要性的部門是美國空軍。
由于確定需要開發多域 C2 系統,美國空軍打算用“衛星、有人機和無人機上不同傳感器的全新網絡”取代其傳統的聯合監視目標攻擊雷達系統。這種新能力的名稱是先進作戰管理系統(ABMS)。盡管項目當前的重點是連接美國空軍單位,但其最終目標是開發“未來作戰的數字神經系統”。美國空軍準將、美國空軍聯合部隊整合總監戴維·熊城(David Kumashiro)表明,他們的方法集中在這樣一種觀念上,即如果“你不遵循開放系統架構的標準,你就會發現自己在場邊,與戰斗無關。” ABMS結構建立在現有的基于云的目標定位助手之上,旨在有效跟蹤目標和飛機。通過擴展這一概念,美國空軍規劃人員希望專注于網絡機器對機器的交互。該項目的指導思想是開發可以“像樂高積木一樣拼在一起”的系統,以快速輕松地連接聯合能力。
總體而言,將人工智能整合到作戰管理過程中的需求是由一種認識驅動的,即在作戰領域將美國軍事部門聯系起來對于保持競爭性軍事優勢是必要的。如果不走人工智能整合的道路,就有可能對美軍在未來的戰斗中擊敗近似競爭對手的能力產生不利影響。以下兩個場景說明了在軍團和師級的多域作戰中,人工智能引導的作戰管理系統如何影響戰場上的動態。
長期規劃使軍方能夠集中研究和開發工作,并指導人員配備、訓練和裝備決策。這個過程的核心是制定評估發展中威脅的概念。 MDO 2028 是一個包含假設和預測以推動軍事戰略的文件示例。聯合出版物 5-0“聯合規劃”,將假設定義為“關于當前態勢或事件未來進程的假設,在缺乏事實的情況下假設被認為是真實”,這對于推進規劃過程至關重要。為了提供一個將軍事能力和需求與預期的未來作戰環境聯系起來的背景框架,軍事規劃人員創建情境以增加理解。這一過程使各級軍事領導人能夠“接觸可能的未知情況,并且吸收理解它”,并提出解決方案。因此,情景模擬是作為創建承認技術發展可行框架的一種方式。然而,重要的是不要將情景與具體預測混為一談,而應將其視為擴展可能性領域并根據預期的技術發展識別未來機會的工具。此外,重要的是要認識到情景構建的一個潛在因素是不確定性。為了展現不確定性和復雜性,同時保持情景“介于預測和推測之間”,需要整合歷史和當前信息,識別行為模式,以及“構建 關于未來的連貫敘事。”其他重要的考慮因素是場景需要與可信的現實生活條件保持一致。
布加勒斯特國防大學國防與安全研究中心的研究員 Marius Potirnich 創建了特定軍事情景分類。他提出的兩個類別是戰略情景和演習情景。戰略情景是出現最廣泛的類別,考慮了在整個軍事行動中可能發生和使用的軍事事件和能力。演習場景嵌套在戰略場景框架內,并進一步細分為真實和虛構。真實場景使用現有軍事能力,在現有作戰環境的約束下,分析現實世界任務集中的情況。虛構環境評估軍事能力的現狀以及預期的未來能力,并將它們置于基于已發布的軍事行動概念和現代化框架的預期威脅環境中進行預測。
本專著介紹了兩個虛構的場景,以說明在未來的多域作戰中集成人工智能引導作戰管理系統的潛在影響。所有場景都基于與對手(如中國)發生沖突的環境。第一個場景以軍梯隊為背景,重點關注空中和海上動能打擊的融合,以及“支持軍區機動計劃或代表下屬梯隊”的網絡空間活動。第二個場景設置在師梯隊,側重于聯合能力的融合和需要分析和傳播的“大量情報的定制”。對手的A2AD和軍事創新努力以及美國陸軍的 MDO 2028 和當前的現代化舉措被用作背景情景。場景是嵌套的,最后評估了美國陸軍是否能將人工智能納入其作戰管理流程,以便在當前的MDO 2028現代化框架下有效地融合多域作戰能力,以及如果該部門不能這樣做的潛在風險。
這本專著的框架是美國陸軍的多域作戰概念。重點不是討論人工智能在戰場上的法律和道德以及考慮人工智能產生在兩個方面產生的后果。相反,它旨在評估人工智能如何幫助在日益復雜的作戰環境中實現多域元素的融合。由于人工智能領域的快速變化和發展,評估是在概念層面進行的,沒有深入探討人工智能在戰爭戰術和作戰層面的廣闊應用前景。對算法是否可以指導能力融合的評估是基于當前的發展,以及機器學習、量子計算和自主機器對機器組合領域的預期進行的。該專著所介紹的和用作基礎的所有信息都完全來自于已被批準公開發布的渠道。因此,有可能存在與本專著的假設相矛盾的機密文件。
在2035年。根據“一個中國”的政策,中國軍隊已經開始收復臺灣,并開始阻止美國海軍進入中國南海。為了捍衛自己的利益,中國軍隊的導彈防御力量處于高度戒備狀態。綜合性的反介入和反侵略網絡得到了中遠程導彈、各種反飛行器和防空武器以及各種中遠程情報收集和監視能力的支持。中國的《新一代人工智能發展規劃》在過去15年中指導了軍事技術的發展。在 2017 年的介紹中,中國領導層宣稱“人工智能已成為國際競爭的新焦點。人工智能是一項引領未來的戰略技術; ……發展人工智能作為增強國家競爭力和保護國家安全的重大戰略。”因此,中國每年投資超過 150 億美元用于“智能技術”的發展,重點是人工智能引導的自主能力。中國的人工智能整合上付出不僅僅在軍用機器人領域,還包括自主軍事決策。基于人工智能在推理、作戰指揮和決策的潛力,中國領先的國防公司負責人,認為“在未來的智能戰爭中,人工智能系統將就像人類的大腦一樣”。因此,美國軍方面對的是一支具有在機器對機器團隊的前沿運作能力的中國部隊。
自主偵察無人機、攻擊機和導彈發射器整合到一個由人工智能引導的傳感器到射手網絡中。這些發展成倍地加快了戰斗的速度。對手的系統可以同時跟蹤和打擊數百個目標,并在需要時快速重新接觸和重新分配單位。為了競爭和滲透對手多余的防御結構,需要美軍快速、持續地匯聚能力,以“滲透和瓦解”A2AD 保護傘。這些行動能夠建立臨時的優勢窗口,軍和師梯隊可以利用這些優勢機動進入戰術支援區和近距離區域。在這些區域內,軍以下的梯隊可以集中他們的有機能力對抗敵人。這反過來又使軍團能夠在不斷的滲透和整合的循環中重新競爭和整合能力,為下級梯隊部隊的利用創造條件。
為了應對對手的現代化努力,美國陸軍在國家安全戰略、人工智能指令和多域作戰理念指導下,對機器-機器團隊聯動進行了大量投資。因此,美國的軍事能力包括一系列可以感知、協調效果以及指揮和控制的自主學習的作戰網絡系統。單個自主機器人和無人機系統,以及更大的無人駕駛飛機、海軍和導彈投送系統,都在該框架內作為自主節點運行。美國私營公司在量子計算領域的重大進展為美國軍隊提供了處理速度和響應時間方面的競爭優勢。這提供了一個戰機,使美國“友軍”能夠比對手更快地觀察、定位、決定和行動。但是,由于技術的進步,John Boyd 的 OODA 循環不再以分鐘為單位執行,而是以秒或毫秒為單位。這些新出現的威脅導致美國越來越多地將人從循環中移除,這使得聯合部隊能夠“以比對手更快、更有效的節奏作戰”。然而,受到有關在戰爭中使用自主制導系統和人工智能的道德法規的限制,美國軍方仍然將人類置于決策循環中。其結果是在指揮和控制層面有效整合了人機協作,允許指揮官在連續競爭期間從一系列進攻行動中選擇進攻方案,同時依靠自主的人工智能引導行動進行保護。
美國陸軍的關鍵指揮控制系統是由人工智能引導的作戰管理系統。它是美軍戰場網絡的樞紐。該系統從作戰環境中的所有聯合傳感器收集數據,并不斷從戰區和國家收集數據的單位中提取和推送數據,以構建共同的作戰圖景。這使系統能夠分析敵方和美國“友軍”在戰場上的位置。由于該系統是自主學習的,它會不斷評估敵人的行動和能力。同時,它對美國“友軍”能力及其狀態有完整的認識,包括各種系統的再生時間、彈藥消耗率和補給狀態。因此,該系統可以識別敵人的弱點和威脅,并執行一個連續的評估周期,以預測美國“友軍”聯合能力如何融合以在戰場上創造暫時的優勢。此外,作戰管理器還計算彈藥優化、能力調配和能力的使用,以達到預期的效果,同時最大限度地減少附帶損害和對部隊的風險。
在戰場網絡內,該系統與所有領域的聯合能力相聯系。各種作戰管理系統本身是橫向和縱向連接的,這使它們能夠跨多個域快速執行任務和重新分配任務,而不會失去實現各自目標的能力。與所有的傳感器和射手相連,允許系統控制傳感器到射擊者的連接,并分配最好的武器系統來實現動能和非動能效果。在保護作用中,作戰管理系統完全自主運行控制消除敵人對美國“友軍”和指定保護區的威脅。由于連續的進攻性競爭的融合能力必須嵌套在更高的總體目標中,作戰管理系統將人置于進攻行動的循環中。該系統分析了美國“友軍”能力通過在不同梯隊的聯合能力融合所能達到的各種效果。
多域框架將美國陸軍部隊視為遠征部隊。這個梯隊的關鍵作用之一是擊敗和消滅遠程和中程系統。因此,他們是在其控制范圍內各師的輔助力量。為了與同級別的威脅相抗衡,關鍵是要整合能力,以對抗對手的防空、遠程地面火力和反艦導彈。此外,在需要時,軍團總部負責指揮和控制在其作戰區域內運行的多域聯合能力。融合動能聯合火力的主要目標是摧毀敵人的中程武器系統,以促進師和旅單位的自由機動。最后,軍團負責同步國家、戰區和內部單位的情報收集工作。網絡空間能力本質上集成在融合工作中,包括國家和戰區級單位。總體意圖是對融合工作進行分層,以提供多種選擇并創建各種跨域協同能力變化。
在競爭周期內,軍團的重點是對敵方防御系統的滲透和瓦解。對對手A2AD保護傘的滲透,包括瓦解敵人的遠程火力系統。這包括使雷達和關鍵指揮和控制節點失效,這可能比破壞運載系統產生的影響更大。滲透的另一個方面是對手地面部隊機動的較量,以及在暫時優勢窗口期間與美國“友軍”從作戰和戰略距離機動的同步。
在師級,部隊的重點是分解和利用。在沖突開始時,他們可以作為前沿存在或遠征部隊。該師的主要作用是為下級部隊在近距離區域機動和對抗創造條件。該師的主要職責是“航空、火力、電子戰、機動 支援和多旅機動以獲得優勢位置。”關鍵是摧毀或消滅對手的中程火力單位。在這個梯隊,該師有能力將有機單位與上級司令部同步,并整合分配的空軍和海軍能力。與擁有自主和人工智能引導系統的相同競爭者相比,兩個梯隊的成功都受到他們進行多域同步的能力和能力自主水平的影響。
美國陸軍第 18 空降兵團總部位于作戰支援區。該組織的主要作用在戰場上創造條件,使其控制下的各師和增援部隊可以利用這些條件進入近距離機動區域。進攻行動以四個目標為中心--消滅對手的遠程防空單位,瓦解對手的中程火力能力,限制對手的地面部隊速度,以及創造 "通過分配資源、安排師的機動順序并將其與縱深結合起來,在較低層次上實現匯合。" 雖然近距離和縱深機動區的距離超過1500公里,但盟軍一直處于中程彈道導彈的動能目標和網絡及太空領域內的非動能目標的威脅之下。
為了保護,美國第 18 陸軍空降兵團的 AI 作戰管理系統不斷連接到國家和戰區的情報收集單位以收集情報。一旦發現對手的威脅,作戰管理系統就會自動與戰區和國家傳感器協調,以確定威脅,并促進傳感器的交接,確保收集情報的完整性,同時減少不必要的情報冗余。同時,它識別出跨所有領域的多個交付平臺,以構建一個強大的殺傷鏈,盡管可能丟失主要聯系,但該殺傷鏈可在時間受限的環境中執行。
空間傳感器為系統提供有關敵人遠程和中程火力能力的各個組成部分配置信息并且能持續更新。與此同時,作戰管理系統將海軍驅逐艦識別為最有可能成功摧毀來襲導彈的單位。同時,該系統識別出可以對威脅做出反應的其他美國“友軍”單位,并根據其當前對整體作戰環境的評估對其進行優先級排序。系統基于其算法考慮的一些因素是:強制風險、成功概率、彈藥狀態、能力重置時間和附帶損害。
對于保護工作,作戰管理系統以人在環結構中運行。這意味著軍團的作戰中心可以觀察事態發展,并在緊急情況下進行干預,但該過程是為作戰管理系統自主運行而設計的。對手威脅的程度以及他們可以運行的速度推動了對自主運行的需要。一旦檢測到來襲導彈,作戰管理系統就會在幾秒鐘內執行概述的序列以摧毀對手的威脅。這個循環實時并持續運轉,以應對新出現的威脅。三個方面使得智能引導的作戰管理系統在國防領域的自主運行方面變得至關重要。首先,能夠在幾秒鐘內關閉射手到傳感器的鏈接,以應對以高超音速單位的威脅。其次,建立強大和冗余殺傷鏈的能力,可以快速整合備用和應急能力。第三,在優化使用有限且難以再補給的資源的同時指導保護工作的能力。在保護行動的同時,該系統分析作戰環境以檢測進攻行動的機會。
對于進攻行動,作戰管理系統以人在回路中的模式運作。美國政府關于人工智能和自主武器的道德使用政策,以及公眾對使用人工智能引導的自主武器系統的看法,是決定將人類留在決策鏈中的基礎。美國陸軍的“四分衛項目”為構建當前的作戰管理系統提供了框架。與保護工作類似,作戰管理系統不斷從外部和有機傳感器中提取數據。然后,它評估聯合能力如何融合以暫時禁用對手的部分防御傘,并允許下屬單位推進并將其有機單位帶入射程。
由于聯合單位在在時間和空間上的協調需要在幾秒鐘內執行和同步,因此需要作戰管理系統不斷分析作戰環境。在此過程中,它重組了 OODA 循環概念的部分內容,以獲得以秒或毫秒為單位的自主對手決策周期的能力。該系統通過持續觀察戰場空間并同時分析美國“友軍”的行動來應對威脅,而不是觀察后再確定方向來實現這一目的。然后,該系統會產生一系列可用的選項來進行攻擊性打擊。在軍團的行動中心內,選項顯示在交互式顯示器上,允許具有適當釋放權限的個人決定采取何種行動。通過不斷分析和重新配置可能的傳感器到射擊者的回路,該系統創建了一個決策空間,可以減輕將人置于回路中對抗嚴重依賴自主能力的對手缺點。在作戰中心的相關權力機構確認以對手單位為目標后,作戰管理系統通過在時間和空間上同步依賴的效果,將來自各種選定的聯合推動者的能力融合起來。
在這種情況下,在發射美國“友軍”導彈之前,作戰管理系統會協調進攻性網絡行動,威脅信號淹沒對手雷達,這增加了導彈成功穿透敵人的反介入和區域封鎖傘的機會。一旦產生網絡效應,作戰管理系統就會指揮導彈的發射并觀察對手的反應,以在必要時重新發射另一枚導彈,并檢測更多額外的目標。導彈找到目標并摧毀它。一旦傳感器確認影響,作戰管理系統就會向與現有信息作戰工作線相一致的媒體傳播消息。同時,作戰管理系統會重新計算美國“友軍”運載平臺的彈藥可用性和回收率。這些數據用于優化未來打擊的彈藥使用,并為保障部隊建立補給優先順序清單。
隨著美國“友軍”的推進和軍團塑造縱深機動區和作戰縱深火力區,這一過程不斷重復。美國陸軍師利用暫時的優勢窗口和機動自由來推進并將對手帶入其有機武器系統的有效射程內。這為近距離和縱深機動區域的對抗創造了條件,從而改變了戰場邊界并重新啟動了競爭循環。
在美國陸軍第18空降團創造條件后,第3步兵師陣地機動進入附近區域,擊敗對手地面部隊。該地區是第一次軍事編隊爭奪“控制物理空間以支持戰役” 目標,在與對手近距離作戰。由于美國“友軍”地面部隊預計將在這個爭端空間進行獨立機動,因此擁有比對手更快的能力匯合對于推動節奏并保持主動權至關重要。地面機動部隊的目標是在臨時優勢窗口期間協調機動,以“擊敗敵軍、破壞敵方能力、物理控制空間以及保護民眾”。附近地區的對手依賴于由自主情報、監視和偵察 (ISR) 打擊系統、綜合防空系統和地面聯合兵種編隊組成的互聯網絡。將人工智能整合到決策周期中,大大加快了對手的行動節奏。為了獲得優勢地位,需要不斷中斷對手的能力,最好是在他們的指揮、控制和傳感器節點。
隨著第 3 步兵師部隊的機動,作戰管理系統不斷收集和比較數據,以構建一個共同的作戰圖,說明美國“友軍”和敵軍的組成和部署。根據數據,系統開始分析對手的防御網絡,以識別對手的傳感器、ISR 平臺和信息流。在此階段,地面部隊分散作戰,作戰管理系統側重于迫使對手暴露其能力的欺騙措施。一旦對手暴露了他們的系統,作戰管理系統就會將國家和戰區單位收集的偵察數據與鄰近單位情報和偵察能力收集的數據同步。然后它與相鄰單位和上級司令部的作戰管理系統協調,以消除交戰沖突。此操作可確保多個跨梯隊單位不繼續攻擊同一目標。
一旦上級司令部的作戰管理系統將權力下達給第 3 步兵師,該師的作戰管理系統就會掃描整個組織的能力,以建立一個成功可能性最大的傳感器與射手的連接。如果系統無法建立連接,或成功概率低于預定閾值,系統會將目標推回上級總部系統,以擴大可繼續攻克目標的可用聯合單位陣列并提高成功概率成功。當威脅單位可以用有機單位追擊時,師作戰管理系統會確認美國“友軍”的部署以清理地面,分析各種武器系統的彈藥狀態,并分配給確定的投送平臺。一旦傳感器周期完成,作戰管理系統就會向選定的武器系統發出信號以進行交戰。
釋放彈藥后,作戰系統會立即更新彈藥供應狀態,重置再生周期,向后勤作戰支援部隊發送補給請求,并跟蹤威脅直至其銷毀。這是一個需要幾秒鐘的循環,并且在滲透和分解過程中反復發生。隨著師部隊的推進,作戰管理系統在支持美國的各種媒體平臺上推送信息作戰信息。每一次積極的參與都伴隨著針對該地區人口統計的信息傳遞工作。隨著行動的進展,該系統不斷評估對手的信息活動并提出建議的反信息,使美國“友軍”在信息頻譜中保持主動權。
當美國“友軍”繼續在對手的反介入和區域拒止保護傘內展開對抗時,作戰管理系統會反復識別對手傳感器并建立冗余殺傷鏈來擊敗對手地面部隊。每次消滅對手ISR 傳感器時,系統都會評估破壞對敵方與美國“友軍”編隊交戰能力的影響。機動部隊利用隨后建立的臨時非覆蓋區域來推進其建制單位。同時,作戰管理系統重新啟動網絡、空間和無人機傳感器的融合以檢測新目標,并融合能力以建立一個新的臨時窗口期,可用于推進機動師地面部隊。
這些活動在幾秒鐘內發生,并且事件發生的速度遠遠超過人類的認知周期。隨著行動的進展,作戰管理系統的自主學習算法繼續分析和識別對手行為中的模式。因此,該系統可以實現與對手地面部隊及其防御努力的持續競爭循環。
美國對手整合和融合自主性和人工智能的意愿推動了美軍發展和使用對抗能力的需求。這些進展提出了在面臨對等威脅時快速連續執行多域融合的需求。由于跨多個領域融合能力需要分析大量信息,因此該過程將人為主導的同步過程推到了敵人的決策周期之外。此外,多域融合涉及建立冗余殺傷鏈。通過消除沖突建立一個單一的傳感器到射手銜接鏈是不夠的。相反,融合需要在必要時識別和使用可以繼續攻擊目標或提供保護工作的冗余能力。由于存在優勢窗口的時間框架不斷縮短,建立快速同步聯合能力的冗余殺傷鏈是一項關鍵且需要同步完成的工作。
總體而言,未來的作戰管理系統必須在聯合平臺上進行橫向和縱向鏈接,以滿足多域作戰需求,并具備秒級或毫秒級的協同作戰能力。此外,為了融合能力,人工智能引導的作戰管理系統可以在爭端地區補給環境縮小對抗中彈藥優化的能力差距。該系統通過持續評估最佳目標-彈藥組合并避免不必要地消耗彈藥以及過度殺傷來實現這一目標。不幸的是,目前開發指揮和控制平臺的方法主要是沿著服務的孤島進行的,這將減緩建立在未來作戰中融合能力所需技術框架的能力。
人工智能和自主性對作戰節奏的影響支持羅伯特·萊昂哈德的說法,即“時間越來越成為戰爭的關鍵維度。”人工智能與自主能力的結合使軍隊能夠大幅增加活動發生的頻率,進而推動序列的節奏并縮短機會之窗。當人工智能在沒有人的情況下在觀察決策-行動循環中引導自主系統時,這種關系會進一步加速。時間,以及比對手更快地觀察和行動的能力,成為執行匯合的關鍵因素,使美國“友軍”能夠獲得暫時的優勢位置。
自從計算機網絡、戰術數據鏈和衛星通信的普及以來,美國還沒有遇到過對手。目前在量子技術、人工智能和自主性領域的努力對美國各軍種在其各自的統治范圍內獨立運作的能力提出了挑戰。因此,正如美國陸軍的多域作戰 2028 概念所預期的那樣,在戰場上創造臨時可利用優勢的能力依賴于跨多個域融合聯合能力。目前,這一過程主要由協調小組執行,其主要任務是通過 "域聯合解決方案的階段性同步"來匯聚能力。然而,與同行競爭者進行融合的復雜性,其人工智能引導和自主武器系統將決策和同步循環縮短到幾分鐘或幾秒鐘,這需要開發新技術。 MDO 2028的設計師承認這一缺陷,以及任務的復雜性,并列出了融合的考慮,要求開發新的軍事技術來填補這一關鍵的空白。
因此,未來的 C2 系統需要為所有梯隊的指揮官提供盡可能接近完整的戰場空間內所有聯合單位的通用作戰圖。此外,這些系統需要快速傳輸偵察和目標數據,以使用動能和非動能手段繼續攻擊目標。然而,即使未來的C2系統能夠為指揮官和他們的參謀人員提供數據,使他們能夠在多個領域融合能力,但與在快速轉瞬即逝的機會窗口內任務相關的大量信息融合很快就超過了人類的認知能力。此外,其他因素,如彈藥優化要求和不同的能力再生窗口,進一步增加了在多域作戰中融合能力的復雜性。
目前為應對新出現的威脅所做的努力表明,美國各軍種在開發和部署國防部范圍內的能力方面仍然進展緩慢。美國軍隊正處于重組過程中,這為創建專注于打仗的系統提供了機會,而打仗需要嵌套和連接的C2系統,以促進快速交接和整合聯合使能器。如果現在不建立這些能力,將導致發展出一支名副其實的“多域部隊”,因為軍隊將不再具備2028發展目標所設想的那樣融合能力,而是退回到既定的解沖突和同步過程,這種程序太慢,效率太低,無法保持競爭力。
正如本文所說明的那樣,面對擁有人工智能引導和自主武器系統的同行威脅,保持競爭力的唯一途徑是發展類似的能力,在幾秒鐘內建立并執行冗余的傳感器到射手的連接。將人工智能整合到作戰管理過程中不是一個保持領域優勢的問題,而是確保美國軍隊能夠在對抗、利用和再對抗的連續循環中創造短暫的優勢窗口,這種對抗在所有作戰領域中以秒計。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
我們的同行競爭者,利用科學、技術和信息環境的新興趨勢,已經投資于挑戰美國和重塑全球秩序的戰略和能力。他們采用創新的方法來挑戰美國和盟國在所有領域、電磁波譜和信息環境中的利益。他們經常尋求通過在武裝沖突門檻以下采取模糊的行動來實現其目標。在武裝沖突中,武器技術、傳感器、通信和信息處理方面的進步使這些對手能夠形成對峙能力,以在時間、空間和功能上將聯合部隊分開。為了應對這些挑戰,履行美國陸軍在保護國家和確保其重要利益方面的陸軍職責,陸軍正在調整其組織、訓練、教育、人員和裝備的方式,以應對這些圍繞多域作戰(MDO)概念的未來威脅。
陸軍的情報工作本質上是多領域的,因為它從多個領域收集情報,而且可以接觸到合作伙伴,彌補陸軍信息收集能力的不足。在競爭中,陸軍情報能力作為掌握作戰環境和了解威脅能力和脆弱性的一個關鍵因素。在整個競爭過程中,陸軍情報部門為每個梯隊的指揮官和參謀人員提供所需的態勢感知,以便在所有領域、電磁頻譜和信息環境中可視化和指揮戰斗,并在決策空間匯集內外部能力。
這個概念描述了關鍵的挑戰、解決方案和所需的支持能力,以使陸軍情報部門能夠在整個競爭過程中支持MDO,以完成戰役目標并保護美國國家利益。它是陸軍情報部隊、組織和能力現代化活動的基礎。這個概念還確定了對其他支持和輔助功能的影響。它將為其他概念的發展、實驗、能力發展活動和其他未來的部隊現代化努力提供信息,以實現MDO AimPoint部隊。
陸軍未來司令部的情報概念為陸軍情報部隊的現代化活動提供了一個規劃,以支持陸軍2035年的MDO AimPoint部隊在整個競爭過程中與同行競爭對手進行多域作戰。它提供了支持2035年以后MDO AimPoint部隊的見解。這個概念是對2017年美國陸軍情報功能概念中概述想法的修改:情報作為一個單位在所有領域的運作,有廣泛的合作伙伴投入。這個概念擴展了這些想法,以解決陸軍在進行大規模作戰行動中的頭號差距:支持遠距離精確射擊的深度傳感。領導陸軍情報現代化的舉措是組織上的變化,以提供旅級戰斗隊以上梯隊的能力,以及支持深層探測問題的四個物資解決方案。
支持MDO AimPoint Force 2035的組織變化使戰區陸軍、軍團和師級指揮官能夠以遠程精確火力和其他效果塑造深度機動和火力區域。在戰區層面,軍事情報旅的能力得到提高,新的多域特遣部隊擁有軍事情報能力。遠征軍的軍事情報旅被重新利用和組織,以支持軍團和師的指揮官,而不是最大限度地向下支持旅級戰斗隊。
支持MDO AimPoint Force 2035的物資變化,即將所有的傳感器、所有的火力、所有的指揮和控制節點與適當的局面融合在一起,對威脅進行近乎實時的瞄準定位。多域傳感系統提供了一個未來的空中情報、監視和偵察系統系列,從非常低的高度到低地球軌道,它支持戰術和作戰層面的目標定位,促進遠距離地對地射擊。地面層系統整合了選定的信號情報、電子戰和網絡空間能力,使指揮官能夠在網絡空間和電磁頻譜中競爭并獲勝。戰術情報定位接入節點利用空間、高空、空中和地面傳感器,直接向火力系統提供目標,并為支持指揮和控制的目標定位和形勢理解提供多學科情報支持。最后,通過分布式共同地面系統,陸軍提高了情報周期的速度、精度和準確性。
伴隨著這些舉措的是士兵培訓和人才管理方法,旨在最大限度地提高對目標定位和決策的情報支持。從2028年MDO AimPoint部隊開始,陸軍情報部門將繼續改進軍事情報隊伍,以支持2035年及以后的MDO AimPoint部隊。
這一概念確定了陸軍情報部門將如何轉型,以支持陸軍和聯合部隊在整個競爭過程中與同行競爭者抗衡。
圖1 邏輯圖
?標題
On games and simulators as a platform for development of artificial intelligence for command and control
期刊
Journal of Defense Modeling and Simulation (JDMS)
美國國防建模與仿真學報
作者 Vinicius G. Goecks, Nicholas Waytowich, Derrik E. Asher, Song Jun Park, Mark Mittrick, John Richardson, Manuel Vindiola, Anne Logie, Mark Dennison, Theron Trout, Priya Narayanan, Alexander Kott
機構
美國陸軍研究實驗室
摘要
游戲和模擬器可以成為一個有價值的平臺,可以執行復雜的多智能體、多人、不完善的信息場景,與軍事應用有很大的相似之處:多個參與者管理資源并做出指揮資產的決策,以保護地圖的特定區域或中和敵方部隊。這些特征通過支持開發具有復雜基準的算法和快速迭代新想法的能力,而吸引了人工智能 (AI) 團體。人工智能算法在《星際爭霸II》等即時戰略游戲中的成功也引起了軍事研究界的關注,旨在探索類似技術在軍事對應場景中的應用。
本文旨在架起游戲與軍事應用之間的橋梁,討論了過去和當前游戲和模擬器以及人工智能算法如何適應模擬軍事任務,以及它們如何影響未來戰場方面所做的努力。
本文還研究了虛擬現實和視覺增強系統的進步如何在與游戲平臺及其軍事相似之處的人機界面中開辟新的可能性。
關鍵詞
人工智能、強化學習、兵棋推演、指揮控制、人機交互、未來戰場