現代硬件系統依靠狀態估計器(如卡爾曼濾波器)來監測關鍵變量以進行反饋和性能監測。硬件系統的性能可以用卡方故障檢測測試來監測。以前的工作表明,卡爾曼濾波器很容易受到虛假數據注入攻擊。在虛假數據注入攻擊中,故意在傳感器測量數據中加入噪聲和/或偏差,以誤導卡爾曼濾波器,而這種誤導方式不會被卡方測試所發現。本論文提出了一種欺騙卡爾曼濾波器的方法,其中攻擊數據是用強化學習產生的。研究表明,強化學習可以用來訓練一個智能體,通過注入虛假數據來操縱卡爾曼濾波的輸出,而不被卡方檢驗所發現。這一結果表明,機器學習可以被用來成功地進行網絡物理攻擊,而行為者不需要對支配目標系統運行的數學有深入的了解和認識。這一結果對現實世界有重大影響,因為現代智能電網、飛機、汽車和航天器控制系統都是網絡物理系統,它們依靠可信的傳感器數據來安全和可靠地運行。針對這些系統中的任何一個的機器學習衍生的虛假數據注入攻擊都可能導致未被發現的、可能是災難性的故障。
第1章概述了所進行的研究,描述了卡爾曼濾波、chi-squared測試和網絡物理系統之間的關系。第2章提供了關于卡爾曼濾波器chi-squared故障檢測和本研究中使用的RL方法的支持信息。第3章描述了用于建立CPS模型的方法,詳細描述了RL算法,并涵蓋了對算法功能的測試和驗證。第4章介紹了研究的結果。第5章詳細介紹了結論和未來的研究領域和適用性。
軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。
兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。
軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。
1.訓練用的兵棋推演
最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。
2.用于分析的兵棋推演
兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。
3.實驗性的兵棋推演
在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。
4.兵棋推演的好處
盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。
這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。
人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。
美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。
基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。
雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。
問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。
除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。
這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?
本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。
雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。
兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。
本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。
本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。
本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。
完全依靠自主系統的技術在推動海底領域的環境研究方面發揮了重要作用。無人潛水器(UUV),如美海軍研究生院的UUV研究平臺,在推進用于研究目的的自主系統的技術水平方面發揮了作用。使用自主系統進行研究正變得越來越流行,因為自主系統可以將人類從重復性的任務中解脫出來,并減少受傷的風險。此外,UUVs可以以相對較低的成本大量制造。此外,由于計算和電池技術的進步,UUVs可以在沒有人類干預的情況下承擔更多的擴展任務。
UUV的重要部分之一是控制系統。UUV控制系統的配置可能會根據車輛的有效載荷或環境因素(如鹽度)而改變。控制系統負責實現和保持在目標路徑上的穩定飛行。PID控制器在UUV上被廣泛實施,盡管其使用伴隨著調整控制器的巨大成本。由于兩個主要問題,陡峭的成本并不能提供穩健或智能解決方案的好處。
第一個問題是,PID控制器依賴于復雜的動態系統模型來控制UUV。動態系統模型有簡化的假設,使控制問題得到有效解決。當假設不成立時,PID控制器可以提供次優的控制,甚至會出現完全失去控制的情況。第二個問題是,PID控制器并不智能,不能自主學習。PID控制器需要多名工程師和其他人員花數天時間收集和分析數據來調整控制器。調整PID控制器是一項手動任務,會帶來人為錯誤的機會。
在使用深度強化學習方法進行自主車輛控制系統方面,有很多正在進行的研究,并且已經顯示出有希望的結果[1,2]。深度強化學習控制器已被證明優于執行路徑跟蹤任務的UUV的PID控制器[3]。此外,與PID控制器相比,基于深度強化學習的控制器已被證明能夠為無人駕駛飛行器(UAVs)提供卓越的姿態控制[4-5]。雖然這個例子不是專門針對UUV的,但這個來自空中領域的概念可以轉化到海底領域。
一些最流行的深度強化學習算法被用于自主車輛控制系統的開發,包括近似策略優化(PPO)[6]和深度確定策略梯度(DDPG)[7]算法。本研究將重點關注DDPG算法。DDPG算法是一種角色批判型的深度強化學習算法。Actor-Critic算法同時學習策略和價值函數。Actor-Critic算法的概念是:策略函數(演員)根據當前狀態決定系統的行動,而價值函數(批評家)則對行動進行批評。在深度強化學習中,政策和價值函數是由DNNs近似的,在本研究中具體是多層感知器(MLPs)。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
在利用降低精度來提高強化學習的計算效率方面,目前的研究很有限。[11]的作者展示了如何使用量化技術來提高深度強化學習的系統性能。文獻[12]的作者展示了一種具有6種方法的策略,以提高軟行為批評者(SAC)算法低精度訓練的數值穩定性。雖然正在進行的研究集中在基準強化學習問題上,但這一概念在科學應用上相對來說還沒有被開發出來,比如使用深度強化學習代理對UUV進行連續控制。
本研究將證明在混合精度和損失比例的情況下,訓練DDPG代理對UUV的連續控制不會影響控制系統的性能,同時在兩個方面使解決方案的計算效率更高。首先,我們將比較用固定和混合數值精度訓練的DDPG代理的性能與1自由度速度控制問題的PID控制器的性能。我們將研究用固定和混合精度訓練DDPG代理的訓練步驟時間。其次,本研究將研究DNN大小和批量大小的閾值,在此閾值下,用混合精度訓練DDPG代理的好處超過了計算成本。
本文的其余部分結構如下。問題表述部分將提供關于DDPG算法、NPSUUV動力學、PID控制和混合數值精度的簡要背景。實驗分析部分將描述本研究中運行的數值實驗的設置和結果。最后,在結論和未來工作部分將描述整體工作和未來計劃的工作。
本文介紹了自主地面車輛(AGV)在越野和惡劣環境條件下進行障礙物探測和規避(ODOA)的綜合研究結果。這項研究包括對AGV在雨、灰塵和可變形地形等挑戰性條件下運行的真實和模擬測試。在模擬中實現了一種分析環境對車輛每個子系統(感知、規劃、控制)的影響的新方法,并用于評估規劃和感知算法的多種選擇。這項工作是在公開可用的自主性堆棧上進行的最完整和最系統的測試活動,并將促進AGV在未來工作中的測試策略的發展。這項工作的主要貢獻是為越野AGV開發了一個免費和開源的自主軟件堆棧,一種對AGV系統進行定量評估的方法,并將模擬和物理測試結合到一個綜合測試方法中。這項工作展示了如何利用模擬來測量在物理測試中無法測量的AGV性能的各個方面,使人們對自主堆棧的功能有更多的了解。
雖然自動駕駛或自動駕駛車輛的能力越來越強,近年來也得到了廣泛的研究[Peterson和Glancy,2018],但很少有人試圖系統地量化來自灰塵、雨水和軟土等來源的環境誘發的錯誤對這些車輛性能的影響。雖然這些車輛在這些環境條件下的掙扎已被很好地記錄下來,從質量上看[Stock, 2018],但對這些影響的定量評估相對較少。
過去在定量誤差測量方面的工作傾向于直接關注傳感器數據或整體系統級性能。例如,已經有一些研究量化了雨或雪等現象對激光雷達傳感器性能的影響[Rasshofer等人,2011]。同樣,也有一些關于灰塵對激光雷達影響的實驗室研究[Goodin e t al., 2013]。系統級的分析集中在平均速度或行駛距離等高級指標上[Durst等人,2017]。
雖然傳感器層面或系統層面的誤差研究有價值,但也需要了解誤差如何通過自主子系統鏈傳播。在雨天條件下運行的激光雷達傳感器的錯誤是如何影響目標云、從目標云得出的導航圖以及通過這些地圖計劃的行動的?是否有一種雨量可以使生成的路徑和地圖不受明顯影響,以及在什么情況下,誤差會開始在計劃的行程中顯現?回答這些問題對于自動駕駛汽車向消費者市場過渡至關重要。
從系統上測量環境引起的傳感器誤差和系統級性能之間的關系的主要困難是難以控制環境誤差的因素。涉及這些因素的物理測試在后勤上是困難的,而且對投入的變量不確定。在灰塵、雨水或軟土等條件下進行可重復的、受控的實驗是不現實的,也是昂貴的。相比之下,基于物理學的模擬提供了一種方法來系統地研究這些現象對自主車輛性能的影響[Goodin等人,2017]。為了解決這些局限性,本研究開發了一種方法,使用仿真,研究錯誤通過AGV的子系統傳播。這些測試通過與真實車輛在硬土和軟土上的物理測試進行比較來驗證。
在接下來的章節中,對該領域的相關工作進行了回顧(第2節),然后在第3節對這項多年研究的方法和途徑進行了總結。接下來,詳細介紹了這項工作中研究的車輛平臺、傳感器和自主性(第4節)。第5節介紹了密西西比州立大學自主車輛模擬器(MAVS),它是這項工作的一個關鍵推動因素。第6節介紹了本工作所研究的測試場景和指標,第7節展示和討論了實驗結果。第8節提出了一些最后的結論。
這項工作的一個目標是利用模擬來測量系統級性能指標與規劃和感知算法的子系統級指標的相關性。通過定義系統級和子系統級的指標,并使用模擬器來測量完美的基本事實,可以定量地測量錯誤在系統中的傳播。此外,通過比較多種感知和規劃算法,有可能區分出對自主系統的一般性影響和對某些傳感器和算法的特殊影響。
為了進行基于場景的測試,選擇了障礙物探測和規避(ODOA)測試作為本工作中測試的基線能力。ODOA是任何自主或半自主系統的一項關鍵能力[Oroko和Nyakoe, 2012]。由于這項工作的重點是研究廣義的自主系統,所以選擇了直線ODOA,因為它的簡單性和對幾乎所有自主系統的適用性。
本文的研究分三個階段進行。在第一階段,最初的自主架構被設計、建造,并在模擬中與MAVS進行測試。使用ROS[Quigley等人,2009]對算法和模擬進行了整合。在規劃和控制算法保持不變的情況下,對三種不同的感知算法進行了模擬研究。第一階段還為系統級性能和子系統級性能制定了適當的性能指標。性能指標將在第6.1.2節進一步詳細討論。
項目的第二階段集中在路徑規劃上。感知和控制保持不變,并對三種不同的規劃算法進行了研究。第1階段的指標也被用于第2階段。與第一階段一樣,第二階段完全在模擬中完成。
最后,在第三階段,第1-2階段在模擬中開發的自主性堆棧在一個真實的機器人車輛上實施。使用前幾個階段開發的相同的測試場景和指標,自主機器人在真實世界的實驗和MAVS的模擬實驗中都進行了測試。在真實世界的實驗中,自主性堆棧得到了完善,該實驗是在硬土和軟土上進行的。第三階段提供了對軟土對A GV性能的影響的洞察力,并作為對第一和第二階段進行的模擬實驗的驗證工作。
確保信息和武器系統免受網絡威脅是美國國防部及其盟國合作伙伴的一個重要目標。了解這些系統在現實操作條件下的端到端性能,包括網絡干擾,對于實現任務目標至關重要。在不利的操作條件下,識別和減輕操作性能的不足,可以為我們的防御能力提供重要價值,并直接拯救生命。
作為一個說明性的例子,我們考慮聯合全域指揮與控制(JADC2)系統。JADC2從根本上依靠通信和網絡來包含、提取和傳播時間敏感的、與任務相關的信息,以決定性地贏得對敵方部隊的勝利。未來的沖突很可能涉及到試圖破壞對JADC2通信和高度復雜的武器系統的可靠運行至關重要的信息系統。破壞已經是潛在對手部隊的一種能力,并將蔓延到與他們結盟的次要威脅。JADC2綜合網絡和動能戰場的復雜性要求訓練、分析、測試和評估部門充分考慮到網絡操作退化和/或利用網絡漏洞對整體任務結果的潛在影響。這促使人們對工具、技術和方法進行大量的持續研究和開發,以評估一般軍事系統,特別是作戰系統的網絡復原力。
戰斗系統之間的復雜性和相互依賴性以及它們之間的聯系使目前的彈性分析方法變得復雜。例如,假設故障是隨機的硬件故障,那么與網絡中的單點故障相關的風險可以通過冗余的組件來緩解。然而,一個未被緩解的網絡漏洞也可能導致冗余組件出現相同的故障。即使組件本身沒有漏洞,成功干擾數據交換時間的攻擊,例如通過加載數據總線,也可能導致作戰系統性能下降。同樣,通過延遲的、間歇性連接的、低帶寬的環境建立通信聯系,可能需要使用多跳來轉發信息,這增加了對中間人攻擊的敏感性。
還有一種情況是,武器系統的網絡漏洞不一定是任務漏洞,因為利用該漏洞可能會也可能不會影響實現任務目標所需的整體系統能力。為了保證任務免受網絡威脅,武器系統的網絡彈性必須在現實的戰術環境中進行評估,以便:
使用虛擬機(VM)的傳統網絡演習是網絡系統的最高保真表現,因為它們不僅虛擬了通信協議,還虛擬了操作系統和應用程序,因此,在這些模塊中發現了漏洞。因此,網絡范圍經常被用于網絡攻擊和防御評估和培訓。然而,虛擬機往往需要大量的硬件足跡來模擬大型網絡,并需要大量的時間和人力來配置特定實驗的范圍。這種類型的網絡范圍受到以下額外的限制:
在本文的其余部分,我們從以任務為中心的角度研究了使用網絡數字孿生體來提高軍事(戰斗)系統的網絡彈性。網絡數字孿生依靠高保真模擬和仿真來對物理系統進行建模,并在可移植性、可擴展性、對無線網絡和通信進行建模的能力以及支持整個產品開發周期的網絡分析方面提供好處。我們還提出了一組用例,說明數字孿生在不同系統的網絡彈性評估中發揮的作用。
我們認為,將基于虛擬機的網絡范圍與網絡數字孿生體相結合的網絡框架,可以為調查各種戰術系統的網絡復原力和脆弱性提供一個理想的平臺。
圖 3. 連接兵棋模擬器和網絡數字孿生。
圖 4. 使用網絡數字孿生進行網絡分析。
網絡空間是支持戰場物聯網(IoBT)的數字通信網絡,是以防御為中心的傳感器、計算機、執行器和人類以數字方式連接的模式。一個安全的IoBT基礎設施有助于在分布式子系統中實時實施觀察、定位、決定、行動(OODA)循環。網絡犯罪分子和戰略對手的成功黑客行為表明,像IoBT這樣的網絡系統并不安全。三條工作路線展示了一條通往更強大的IoBT的道路。首先,收集了企業網絡流量的基線數據集,并通過生成方法對其進行建模,允許生成真實的、合成的網絡數據。接下來,通過算法制作了網絡數據包的對抗性例子,以欺騙網絡入侵檢測系統,同時保持數據包的功能。最后,提出了一個框架,使用元學習來結合各種薄弱模型的預測能力。這導致了一個元模型在數據包的整體準確性和對抗性實例檢測率方面優于所有基線分類器。國防戰略強調網絡安全是保衛國土和在信息時代保持軍事優勢的必要條件。這項研究提供了學術觀點和應用技術,以推進美國防部在信息時代的網絡安全態勢。
圖 22. 對抗性樣本的生成和測試的4個步驟
圖23. 元學習框架通過智能地結合每個基礎模型的預測能力來加強對對抗性攻擊。對抗性訓練的分類器是通過5.3所述的增強數據集進行訓練。
美國國防部(DoD)預計,未來的戰爭將主要在網絡領域進行,對手包括戰略競爭對手和非國家行為者。由于美國從未打過一場全面的網絡戰爭,因此對 "路線規則"并不十分了解[6]。敵人有可能通過已知和未知的威脅載體來攻擊美國的利益。這些攻擊的影響可能是非動能性的,即對信息系統的未獲許可的訪問或控制,或者是動能性的,即攻擊導致物理資產的破壞、基礎設施的損害或死亡。許多遺留的網絡物理系統在建造時沒有預見到網絡漏洞[7]。隨著戰場物聯網的發展,包括更多的這些系統,潛在的網絡威脅暴露也在增加。想象一下,當士兵的可穿戴設備在戰斗中因網絡攻擊而發生故障時,會出現怎樣的混亂。至關重要的是,我們要在對手利用這些缺點之前,用新技術解決我們軍隊的網絡安全問題。生成式機器學習和元學習是新興領域,可能為網絡安全研究中一些長期存在的障礙提供解決方案。
入侵檢測系統(IDS)是一種阻止和防御網絡攻擊的方法[7]。不幸的是,IDS需要大量的數據集進行訓練[2]。有機的網絡攻擊數據,帶有標記的條目,是出了名的稀缺。NSL-KDD[8]試圖糾正被廣泛引用的KDD-CUP基準數據集的問題,然而,即使是改進的版本也是過時的,而且范圍有限。
生成式機器學習是人工智能的一個領域,有可能以新的方式解決未解決的問題。諸如馬爾科夫鏈蒙特卡洛、自動編碼器和生成對抗網絡(GANS)和自動編碼器的方法被用來估計未知的概率分布函數。對多樣化和現實的生成數據的應用是很迫切的,特別是對網絡。生成方法提供了一個分析和綜合網絡數據的途徑,而生成方法與元學習的結合提供了一個防止某些網絡攻擊的機會。
本章的其余部分介紹了三個促進美國網絡系統安全的研究課題。第2章提供了一個相關主題的總體文獻回顧,以及一個精心挑選的可能對讀者特別有價值的來源的快速參考表。第3至5章提供了與貢獻1、2和3相對應的已完成的研究手稿。以前發表的研究是第六章,最后總結了研究的主要發現以及它們對現代防御的影響。附錄提供了不適合于主文件的額外信息。附錄A是元學習NIDS的相關研究,不適合于所述貢獻。附錄B是一個參考的AFIT論文表。附錄C包括支持貢獻1的數據表格。
本論文提出了三個研究課題以支持軍隊安全態勢的現代化。雖然每個課題都可以獨立進行,但本論文采取了連續的方法,早期研究的結果增強了后來的工作。本論文的總體目標是證明在建立一個對對抗性攻擊具有強大抵抗力的入侵檢測系統方面取得了重大進展。
貢獻1:生成真實的合成網絡數據。
第一個研究目標是對現代網絡數據的概率分布進行建模,并從基線分布中生成額外的、現實的數據。預定的生成模型可以是明確的,以概率分布函數的形式,或隱含的,如GAN。生成方法將在第2.2節討論。無論怎樣,模型生成的現實數據必須證明與基線數據的分布相匹配。與第4.2節中NSL-KDD[8]、KDD-CUP[9]、UNSW-NB15[10]等其他基準數據集不同,生成的數據必須能夠代表現代政府系統中的網絡流量,包括授權和惡意行為者的例子,而且比例適當。惡意流量必須是現代網絡攻擊的代表,并反映原始分布中未觀察到的例子。一個可能的策略是通過在敵對環境中收集的真實網絡數據或在現實的高保真模擬中收集的數據來訓練一個生成模型。然后,基線數據可以用來訓練一個生成模型,能夠從與基線相同的分布中創建新的、現實的例子。
特別是,生成模型應該強調對模式崩潰的復原力,并且應該對變量之間的宏觀層面的關聯性進行建模。如果成功,現實生成的網絡數據將被用作創建對抗性例子的起點。擴大的、生成的數據集比小的真實數據集更受歡迎,因為它展示了生成方法的可行性,以克服新型網絡攻擊中的數據不足。隨著網絡日志數據中新現象的發現,它們將被復制到更大的數量,有利于創建對抗性例子和強大的IDS。如果生成方法不能產生現實的數據,那么目標二可以使用數量更多的基線數據來實現,而這些數據的獲取是昂貴和費力的。為了支持貢獻1,已經提交并接受了兩篇存檔的同行評審論文。《網絡領域生成方法的挑戰和機遇》已被《2021年冬季模擬會議論文集》接受,《為訓練和評估網絡入侵檢測系統的機器學習分類器生成現實的網絡數據》已提交給《應用專家系統》。這兩項工作都是由Marc Chal′e(主要作者)撰寫的,委員會成員為支持學位論文研究做出了貢獻。支持貢獻1的工作在第三章和附錄C中介紹。
貢獻2:生成對抗性樣本。
第2個研究目標是產生能夠躲避現代IDS的對抗性樣本。對抗性樣本必須使用新的技術來創建,包括適用的生成方法。對抗性樣本必須超越諸如[11]的工作,強制執行網絡數據的不可變方面[12],并實現端到端的攻擊。解決這一挑戰可能會增加最先進的網絡攻擊對當前IDS的有效性,但一旦這些技術被確定,它們就可以在強大的IDS中得到解決。盡管最近在計算機視覺領域創造對抗性攻擊方面取得了進展,但在網絡領域產生對抗性攻擊是特別具有挑戰性的[12]。為了使被擾亂的互聯網協議(IP)數據包能夠促進端到端的網絡攻擊,數據包必須保持其專門的數據結構以及執行時的原始功能。雖然圖像可以不受限制地被擾動,并產生一個有效的圖像文件,但在互聯網上傳輸的IP數據包在擾動過程中會被破壞,導致無效的端到端攻擊。盡管最初對網絡領域的對抗性攻擊的研究[11] [13] [14]集中在擾亂網絡數據的特征向量上,但更困難的任務是擾亂網絡數據包的實際有效載荷,同時保持其原始功能[13] [15] [12]。或者,可以生成一個對抗性的特征向量,然后反向設計成一個能躲避IDS的功能性IP數據包。在努力實現端到端黑盒攻擊的過程中,我們必須證明對抗性例子可以被限制在網絡領域的標準內。這一目標在提交給《計算機與工業工程》的期刊文章《基于約束優化的網絡入侵檢測系統轉移攻擊的對抗性實例生成》中實現。 這項工作是由Marc Chal′e(主要作者)撰寫的,委員會成員為支持論文研究做出了貢獻。支持貢獻2的工作在第四章和附錄D中介紹。
貢獻3:展示一個強大的入侵檢測系統。
入侵檢測系統在保護網絡系統數據的保密性、完整性和可用性方面發揮著重要作用,但它們存在根本性的缺陷。幾種流行的基于規則的IDS對惡意軟件的檢測率在實踐中是驚人的低。一項研究發現,Zeek使用其基于規則的警報系統只檢測到52%的惡意軟件攻擊[16]。這種乏善可陳的表現可能促使了機器學習入侵檢測系統的最新發展。雖然近年來IDS的能力有所提高,但對手也在不斷創新他們的方法。此外,自2005年以來,美國報告的入侵事件的比率一直在增加。大多數IDS漏洞被認為是規避攻擊的結果,其中IP數據包被修改為看似無害,但實際上是有害的[17]。在現代,諸如[11]這樣的規避攻擊使用啟發式方法來擾亂IP數據包的特征,騙過IDS。
因此,最終的研究目標是利用GML和元學習等技術,提高基于機器學習的IDS的分類性能和魯棒性,如[2]。通過分類性能,我們特別指出了召回率(檢測率)和準確率的指標。穩健性是指算法對來自于與訓練所用的例子不同的分布的例子有很好的概括傾向[18];它是當今網絡環境中模型的一個越來越重要的特征。
雖然貢獻2暴露了基于ML的IDS的安全漏洞,但貢獻3提供了一個解決方案。這一研究目標在MADFACTS中實現。MADFACTS: Meta-learning Augmented Defense For Adversarial Cyber Techniques是一篇已完成的長篇文章,正等待提交給《計算機與安全》、《未來互聯網》或《優化通訊》等刊物。這項工作是由Marc Chal′e(主要作者)撰寫的,委員會成員為支持論文研究做出了貢獻。支持貢獻3的工作將在第四章介紹。
影響。
上述研究目標對物聯網的網絡防御和整個國家安全有協同的影響。貢獻1旨在解決網絡領域長期缺乏標記的高質量訓練數據的問題。貢獻2提供了一個技術優勢,以對抗那些希望開發針對物聯網的新型對抗性攻擊的網絡犯罪分子和對手。貢獻1和貢獻2的成功加強了貢獻3的工作,其中一個強大的IDS擊敗了對手的例子。這些成就符合軍事戰略的更大愿景,即在所有領域(包括網絡、空間、陸地、空中和海上)實現機動性自由。加強整個IoBT的網絡安全對于指揮官在現代跨域戰爭中造成預期的影響是必不可少的,因為指揮、控制、情報和識別是決策的骨干,而且越來越數字化了。這項研究提供了一條有希望的途徑,以提高對抗不斷變化的攻擊威脅的穩健性。
人工智能(AI)方法能否檢測出軍用全球定位系統(GPS)基礎設施上的欺騙行為?利用人工智能和機器學習(ML)工具,展示了對美國防部高級GPS接收器(DAGR)欺騙行為的成功檢測。利用系統工程原理,對問題空間進行了分析,包括進行文獻審查以確定人工智能的技術水平。這一探索的結果揭示了應用于解決這一問題的新穎解決方案。在早期階段,考慮了各種系統設計,然后確定了一個同時包含實時和模擬的GPS信息流量的系統。將基于模型的系統工程(MBSE)原則整合到設計概念中,以映射系統層次和互動。Humphreys等人(2008)將GPS欺騙威脅定義為三種技術,即簡單攻擊、中級攻擊和復雜攻擊。簡單的攻擊建立在使用商業GPS信號模擬器、放大器和天線向目標GPS接收器廣播信號的概念上。中級欺騙攻擊是利用基于接收機的欺騙器,向目標接收器的天線產生欺騙信號。復雜的欺騙攻擊是三種方法中最復雜的,有能力改變每個天線發射的載波和碼相輸出,同時控制發射天線之間的相對碼/載波相位(Humphreys等人,2008)。由于成功的GPS欺騙攻擊會影響到時間、頻率和空間領域,所開發的系統至少必須考慮這些參數。設計概念采用了識別數據集中非明顯和非瑣碎關系的要求。
該系統的設計采用了雙管齊下的方法;1)開發一個硬件系統,在GPS基礎設施上注入欺騙信號;2)開發一個軟件應用程序,以檢測欺騙的注入。該硬件系統包括一個用于創建欺騙場景的GNSS模擬器、一個便于輸入實時和模擬信息流的射頻(RF)分離器、一個DAGR和各種數據收集工具。系統操作遵循簡單的欺騙攻擊技術來執行公開欺騙攻擊。公開欺騙的一個特點是 "干擾-欺騙 "策略。Chapman(2017,1)將公開欺騙攻擊描述為 "偽造的GPS信號只是以明顯高于真實衛星信號的功率水平進行廣播"。在公開欺騙中,對手增加欺騙信號的功率,以壓倒合法的GPS信號饋送。我們成功地將公開欺騙技術應用于工程系統,并收集數據進行分析。該數據集構成了人工智能開發工具的基礎,包括國家海洋電子協會0183(NMEA 0183)和接口控制文件-GPS 153(ICD GPS153)信息流。雖然NMEA 0183標準定義了用于商業用途的GPS信息,但ICD 153標準是用于設計和實施軍事平臺上使用的信息。在這項研究中,我們同時使用了NMEA 0183和ICD 153信息標準的信息。
在數據集上應用主成分分析(PCA)等數據縮減工具,發現參數的相關性導致數據集的方差約為94%。第一個主成分PC1解釋了這些方差。對人工智能工具的研究確定了無監督和有監督學習工具的適用性。無監督學習對識別數據集內的特征很有效,而有監督學習方法則適用于有已知目標的數據集。使用聚類方法,如k-means,我們清楚地識別了在信號上應用欺騙所形成的聚類。聚類作為一種視覺工具是有效的。無監督學習模型有效地識別了由欺騙情況形成的聚類。欺騙行為對數據結構的影響在與應用欺騙信號前后形成的聚類不同的聚類中顯示出來。我們發現了數據參數中的特殊性和以前未被發現的關聯性,這對研究有啟發性。
利用數據挖掘和數據分析工具,我們再次對數據集進行了處理,以應用標記的參數,并訓練一個監督模型來對欺騙行為進行分類。我們對數據集進行了處理,并使用幾個監督學習模型檢查結果。我們在標記的數據集上執行了這些模型,其中85%的數據用于訓練,15%的數據保留給測試,同時使用交叉驗證。對模型應用交叉驗證,就不需要對數據集進行驗證分割。隨機森林和邏輯回歸模型的結果顯示,在訓練集和測試集上都有100%的真陽性率,進一步證明了人工智能模型可以檢測GPS用戶基礎設施上的欺騙行為。
使用一套通常適用于ML、數據科學和統計問題的性能指標來評估監督學習模型的有效性。模型的訓練呈現出優秀的結果,所有模型的召回率和精確度都很完美。召回率是一個重要的指標,用于評估一個工具在檢測惡意活動方面的效果,如對DAGR的欺騙企圖。這項研究的結果表明,如果有適當的工具和權限,對手可以有效地欺騙軍用GPS設備。我們在整個論文中開發和展示的工具表明,人工智能方法可以檢測到對軍用GPS基礎設施的欺騙性攻擊。
現代戰術戰爭需要迅速而有效的決策和行動,以便在經常是高度動態和復雜的戰區保持競爭優勢。需要考慮的因素的數量因不確定性、事件的快速發展和人為錯誤的風險而放大。自動化、人工智能和博弈論方法的潛在應用可以為作戰人員提供認知支持。這項研究以自動兵棋推演輔助決策的形式探索了這些應用。該團隊為這個未來的系統開發了一個概念設計,并將其稱為兵棋推演實時人工智能輔助決策(WRAID)能力。
頂點項目的目標是探索自動化、人工智能和博弈論的應用,作為支持未來WRAID能力的方法。該團隊為WRAID能力開發了需求、概念設計和操作概念。該小組確定并探索了可能對未來實施WRAID能力構成障礙的挑戰性領域。該小組調查了與使用人工智能來支持戰爭決策有關的倫理挑戰和影響。
本報告首先對與WRAID能力相關的主題進行文獻回顧。文獻回顧從人工智能的回顧開始,提供了一個關于人工智能如何工作以及它能夠完成什么類型任務的概述。文獻綜述探討了人機協作的方法,以支持未來指揮官和人類用戶與WRAID系統之間的互動。需要翻譯指揮官的意圖,并讓WRAID將有意義的輸出傳達給指揮官,這需要一個強大的界面。審查包括傳統的兵棋推演,以研究目前的模擬兵棋推演是如何進行的,以便深入了解,未來的WRAID能力如何能夠實時復制兵棋推演的各個方面,并認為以前的兵棋推演可以為人工智能和機器學習(ML)算法的發展提供訓練數據。ML算法的訓練需要大量的代表性數據。文獻回顧研究了人類的認知負荷,以深入了解人類大腦的認知技能和上限;并確定人類思維的極限,以顯示人工智能可能提供的支持。文獻綜述中涉及的最后一個主題是,傳統的計劃和決策,以了解目前在軍事上如何制定戰術行動方案。
該小組進行了需求分析和利益相關者分析,探索WRAID能力如何支持作戰人員。該小組在需求分析的基礎上為WRAID系統開發了一套需求。這些要求被歸類為:硬件/軟件,人機界面,和道德規范。第一階段的分析結果包括 (1)戰爭的復雜性需要發展一種未來的WRAID能力,這種能力利用自動化方法,包括人工智能、ML和博弈論,(2)WRAID能力需要大量的計算能力和復雜的軟件算法,(3)實現未來WRAID系統的挑戰將是技術和道德的。
未來WRAID系統的概念設計是基于需求分析的。概念設計被記錄在一套系統模型中,包括背景圖、系統視圖、功能工作流程圖和操作視圖。該團隊開發了一個作戰場景,以支持對WRAID能力如何在作戰中使用。
在開發WRAID的過程中,預計會有一些路障。開發WRAID系統的技術是存在的,然而,研究小組發現數據挑戰、人工智能訓練、程序限制和當前系統工程的局限性將是需要解決的障礙。數據挑戰指的是獲得足夠的數據集的能力,這些數據集代表了訓練ML算法所需的真實世界的戰術行動和兵棋推演分析。程序性挑戰包括國防部實施網絡安全、機密數據、數據庫訪問和信息分配協議的能力。系統工程方面的障礙是需要新的方法來設計安全和可靠的人工智能系統,如WRAID能力。將需要SE方法來處理不可預見的故障模式,并在系統生命周期的早期確定根本原因。
對像WRAID能力這樣的人工智能系統的倫理考慮是系統發展的一個重要因素。開發系統以取代倫理學,將使系統更有可能被部署。有幾個有道德問題的自主武器系統被拉出來作為WRAID能力的道德對話的基礎。通過一個示例場景,對道德狀況進行定性分析,以了解在部署WRAID能力時可能出現的道德問題。倫理學在未來的技術中發揮著巨大的作用;從一開始就考慮到倫理學,建立技術是很重要的。
未來的重點需要放在繼續對想象中的WRAID系統采取正規的系統工程方法。WRAID系統需要一個強大的數據集,需要收集和注釋;收集的定性兵棋推演數據越多,WRAID系統的可行性和準確性就越高。與軍事部門的合作對于最大化WRAID的利益至關重要,例如情報和偵察組織。WRAID的模擬將是完善系統要求和創建現實模型的關鍵。關于如何使用WRAID的培訓和文檔應該同時開發,所以利益相關者,特別是指揮官已經準備好,知道如何使用這個新工具。未來的研究領域包括認知工程、基于正式模型的系統工程和人機協作。
隨著目前技術進步的速度和外國的目標,人工智能將在未來的沖突和戰爭中發揮作用。自上而下的指令將需要設計和實施WRAID能力:提供大量的資源,解決操作和文化變化,重組系統工程,并確保網絡安全和收購變化。實現未來的WRAID能力并不是一個微不足道的任務。然而,它對確保現在和未來的戰斗空間優勢至關重要。
在高度競爭的空域中,反空防行動對人的生命和稀缺物質資源構成了巨大的風險,因此希望減少人員遭受生命損失的風險。因此,在爭奪空中優勢的過程中,用一群低成本的無人駕駛系統取代人類駕駛的空中平臺是一個備受關注的領域。然而,目前還沒有關于蜂群作戰的理論或戰術的最佳實踐。這篇論文記錄了在認知智能體的控制下,利用強化學習方法,為無人駕駛飛行器發現反空防衛戰術而進行的系統性框架研究。傳統上,反空防衛任務的有效性是通過使用具有高數量、低雷達截面、高速度、低高度和/或電子攻擊組合的武器來實現。在沒有任何這些力量倍增器的情況下,可以利用合作性的蜂群戰術來實現任務的有效性。與其他更有約束性的基于規則的游戲相比,這一領域呈現出高度復雜的狀態-行動空間,在這些游戲中,人工智能agent已經成功地學習了游戲策略。本研究采取的方法是開發高度語義化的觀察和行動功能,將認知agent行為功能與游戲環境對接,通過重復游戲進行訓練。對認知agent的觀察和行動功能的各種設計進行了開發和分析,開發的框架被用來促進agent的強化學習以及評估任務的有效性。所提出的框架被證明能夠產生高效的認知agent,學習支持蜂群的戰術行為,使任務效率最大化,并利用傳統的優化,而非認知agent無法做到這一點。
本章介紹了空中優勢、防空的概念,并討論了現代空軍用來擊敗現代防空網絡的傳統和現代方法。然后闡述了研究的主要假設,接著討論了本論文其他部分的組織。
美國空軍(USAF)的主要任務目標是實現空中優勢,作為所有其他聯合戰斗行動的先導[1]。美國聯合部隊將空中優勢定義為[2] :
在被防衛的空域實現空中優勢所產生的沖突對人員的生命帶來了巨大的風險,以及昂貴的物質資源損失的風險。
壓制(SEAD)或摧毀(DEAD)敵方防空是進攻性反空作戰,試圖通過破壞性(DEAD)或干擾性(SEAD)手段,使敵方地表防空系統失效、被摧毀或暫時退化,以使聯合部隊能夠無爭議地進入受控空域。除了針對AD的傳感器和武器外,DEAD任務通常還針對高價值的固定地點的地面資產,如[2] 。
1)機場和作戰基地
a) 飛機
b) 跑道
c) 空中交通管制
d) 機庫
e) 燃料儲存
f) 庇護所和人員設施
g) 維修設施
a) 預警(EW)系統
b) 情報收集系統
c) 通信基礎設施
a) 發射設施
b) 儲存設施
a) 發電和配電
b) 鐵路和鐵路終端
c) 港口和海運碼頭
敵方的防空系統對試圖在有爭議的空域,對實現空中優勢的空降部隊提出了實質性的挑戰。敵方綜合防空系統(IADS)的防衛性反空任務是摧毀、破壞或抵消空中和導彈攻擊、情報、監視和偵察收集,或其他未經授權的對防衛空域的滲透。現代IADS已經變得越來越復雜,在組織、復雜性和操作程序方面可以有很大的不同。現代地對空導彈(SAM)系統在射程和能力方面都得到了極大的提高,并對美國部隊構成了嚴重的威脅。遠程薩姆導彈通常部署在高價值資產附近,以提供點防御覆蓋,同時也有效地拒絕進入廣泛的空域。
反坦克元素的分布、分層和相互連接的性質允許采取深度防御戰略,允許進行多次交戰以增加成功的概率。許多對手采用集中的AD活動的C2,而其他對手可能采用分散的系統,其中多個節點有必要的冗余來指揮部分或整個IADS。數據基礎設施包括無線電、固定電話(電纜/光纖)、微波、蜂窩電話、衛星和互聯網系統[2]。
圖1.1顯示了一個概念性的IADS布局,其中幾個遠程防空導彈(LRS)站點被部署在兩個高價值的受保護資產(PA)的前方,以形成一個受保護的正面。LRS站點由兩個預警雷達和指揮、控制和通信(C3)站點支持,這些站點提供了對防御空域的綜合態勢感知。此外,每個PA都有一個LRS站點,提供點狀防御。圖中的橙色楔形代表了每個LRS的武器交戰區(WEZ)。
圖1.1: 國際防空系統的概念布局
顯然,本例中的防空系統是為了防御預計來自保護前線東南部某處的攻擊而布置的。
成功壓制敵方的防空系統可以通過多種方式實現。干擾通信系統和傳感器可以提供短期的局部壓制,如果足夠的話,或者作為一種臨時措施來實現所需的高階間接效果。破壞C3或EW資源,或迫使敵方反坦克部隊自主行動,有時可以充分降低對友軍的威脅程度,以獲得所需的空中優勢水平。然而,通常情況下,如果一個反坦克基地的自主行動能力繼續對友軍構成重大威脅,那么它本身就必須成為摧毀目標[3]。
鑒于IADS的相互聯系和分層性質,DEAD任務需要一個作戰概念(CONOPS),以解決在整個有爭議的空域的不同點上具有不同能力的防御性武器。很少有單一的故障點可供利用。事實上,IADS的設計是隨著AD元件由于破壞、性能下降或彈藥耗盡而被關閉而優雅地退化。事實上,反坦克部隊包含先進的技術武器和為防御性反空襲任務而優化的傳感器,并由各級C2的人類決策來支持,這意味著反空襲任務可以以相當難以預測的方式展開。這些因素,再加上人命的高風險和稀缺的物質資源,使得在實現空中優勢的沖突中,減少友軍人員和高成本空中平臺面臨的損耗風險是可取的。因此,在爭奪空中優勢的競賽中,最好是用低成本的無人系統取代人類操作昂貴的載人空中平臺[4] 。
與傳統的機載打擊包相比,無人機群呈現出一系列獨特的特征,使其能夠以不同的方式執行DEAD任務。首先,如果蜂群是由大量的單位組成,它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大:雖然打擊包中單個有人平臺的損失可能會導致人的生命損失,但它也經常導致嚴重的損害。首先,如果蜂群由大量的單位組成,它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大:雖然打擊包中單個載人平臺的損失可能導致人命損失,但它也經常導致任務結果受到嚴重影響。一個無人機群可以通過替換角色、調整戰術和調整目標來適應單個單位的損失。此外,由于蜂群的性質,由大量單位組成的蜂群更能適應不斷變化的條件:可用于執行行動的單位數量越多,可用于實現有利解決方案的自由變量數量就越多。
然而,由大量無人機組成的蜂群將很難由人類操作員協調和控制,除非每個人都由人類操作員單獨遠程駕駛。即使如此,操作者可用的數據的延遲和質量可能不足以完全實現最佳的合作行為,以支持動態DEAD任務。將人類飛行員與遠程控制的無人機裝置聯系起來,大大增加了該裝置的成本,因此也增加了整個任務的成本。一個(半)自主的蜂群的一大優勢是,生產和運營成本可能遠遠低于遙控無人機蜂群。因此,至少在某種程度上,無人機群將從某種類型的自主行為中大大受益。
蜂群中的每個無人機都有可能根據自己從環境中觀察到的信息以及蜂群中其他成員與它共享的信息,執行自主行動。為無人機群自主性開發行為算法的問題,很自然地被歸入多Agent學習領域,特別是合作多Agent學習。文獻中已經考慮了幾種技術來實現合作式多代理學習:團隊學習、混合團隊學習和并發學習[5]。基于代理的建模(ABM)是一種通過模擬相互作用的代理來理解系統的一般方法。
無人機群應用于DEAD任務問題的復雜、動態性質,肯定會導致多Agent系統中眾所周知的 "涌現的復雜性 "現象。這指的是這樣一個概念:隨著大量的Agent相互作用,特別是沖突雙方的Agent,每個團隊的聯合行為都會令人吃驚[5]。本研究沒有將其視為消極的副作用,而是表明這種現象導致了蜂群Agent行為的新穎性和信息量,特別是由于在DEAD任務領域中還沒有關于無人機蜂群作戰CONOPS的理論或戰術最佳實踐。
除去隱身、電子攻擊、遠距離武器和嚴重不對稱的數量等昂貴的特征,無人機群能夠用來對付IADS的主要武器是它能夠在整個有爭議的空域中動態地擺出其各種成分,采用的戰術主要是調節攻擊時機、節奏和幾何表現。
本研究的假設是,通過使用ABM,可以通過機器學習(ML)發現無人機群代理行為的新型合作行為,產生一種認知Agent,即
1)在DEAD領域展示任務有效性(ME)。
2)等同于或超過由更多單位組成的 "啞巴"群體的有效性,例如一大排常規巡航導彈的有效性
3)對人類控制的對抗性IADS有效
一旦發現無人機群Agent的行為,顯示出對由算法控制的Agent組成的IADS成功執行DEAD任務,將通過實時戰略游戲(RTSG)對人類控制的IADS測試相同的蜂群Agent。這將允許對潛在的微妙的蜂群Agent策略進行定性,并評估蜂群Agent適應不同和變化的IADS防御策略的能力。
對行為學習的ABM的一個重要批評是,行為的學習是使用不能代表現實世界效果的模擬,也就是說,如果模擬環境走了太多的捷徑或做了簡化或不正確的假設,那么學到的行為就不會有現實世界的意義[6]。本研究的一個目標是在無人機DEAD領域開發適用于現實世界的CONOPS,因此對這一批評意見相當重視。為了克服這一潛在的缺陷,ABM學習的模擬環境將采取RTSG的形式。這為無人機群學習行為的結果提供了一個重要的檢查,原因有幾個。
1)基于物理學的DEAD任務模擬具有很高的保真度
a)無人機飛行動力學、飛行持久性、對各種目標的殺傷概率
b)AD傳感器探測、跟蹤、測量分辨率、信息共享
c)AD導彈攔截器飛行動力學、對無人機的殺傷概率
實時戰略格式強制執行人類決策的及時性,這是問題領域的一個關鍵特征。
每個游戲環節都會捕獲非常豐富的狀態數據集
RTSG的性質也帶來了各種挑戰,例如取消了傳統的回合制游戲。這意味著代理人的決策必須實時發生,從一組不斷變化的環境輸入數據中工作。
本論文分為13章和5個附錄。
第2章討論了任務有效性的概念,以及預測空中飛行器對由先進防空網絡防御的一組地面目標進行大規模突襲結果的分析方法。
第3章描述了為進行這項研究而采取的基于agent的模擬方法。
第4章記錄了用于訓練認知群agent的方法,描述了環境、agent和實體的模擬,并討論了有關基于agent的機器學習和游戲方法的現有文獻。
第5章描述了用于在強化學習過程中提供獎勵的目標函數的設計背景和發展。
第6章描述了用于蜂群單元的運動學模型。
第7章描述了用于防空傳感器和武器的物理學模型。
第8章描述了基本的非認知性蜂群agent的設計,這些agent被用來了解針對各種防空agent的基線任務有效性。
第9章描述了基本防空agent邏輯的設計,這些agent是認知蜂群agent在游戲訓練課程中競爭的對手。
第10章記錄了通過蒙特卡洛分析編制的基本非認知型蜂群agent的統計任務有效性。
第11章記錄了本研究中探索的各種實驗性認知蜂群agent的設計。
第12章記錄了對選定的認知蜂群agent學到的高效戰術的分析和評估。
第13章是論文的結論,總結了主要和次要的發現,并提出了繼續這項工作可能關注的領域。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。