本文提出了一個海軍作戰管理系統(CMS)架構,考慮到電子戰(EW)與人工智能(AI),以應對現代高超音速和低觀測能力的威脅,其中反應時間可能很短,需要自動化。它使用一個反制措施案例研究作為數據要求,拍賣傳感器任務,人工智能過程,以及認知復合感應的數據融合。該文件還強調了已經公布的關鍵認知電子戰能力,以證明該架構的合理性。該架構的方向是用高反應時間的自動化人工智能驅動的認知DM來取代人類決策者(DM)。
當把人工智能(AI)應用于電子戰(EW)時,它不僅要幫助決策者(DM)進行態勢感知(SA),還要滿足點、區域和區域防御以及反目標活動的需要。電磁波譜是密集的,有許多通信和雷達發射器。因此,挑戰在于如何將人工智能應用于能夠滿足管理部門需求的EW系統。因此,它必須能夠整理出感興趣的信號(SoI)[1],如部隊的信號和與指定任務無關的信號。這項工作的基礎是 "常規戰爭 "中的反導彈反應,以便與傳統的交戰進行更直接的比較。影響反艦導彈(ASM)成功的一些主要因素是雷達橫截面(RCS)、紅外橫截面(IRCS)、視覺和紫外線(UV)特征。因此,目標艦的特征是決定被動軟殺傷[2]反措施(也叫伎倆)性能的一個基本因素。然而,反坦克導彈也可以使用主動雷達尋的方式進行瞄準和跟蹤。因此,射頻(RF)和微波(MW)的截面特征是重要的,同時還有光輻射量子(或光子)、方位角和機動中的方位率,以及它們的戰術影響。因此,現代操作環境在處理電磁波譜方面存在挑戰,人工智能的自動化和自主性是解決這一挑戰的理想選擇。
本文描述了一個架構,其中包括用糠和干擾器進行軟殺傷;用導彈、火炮和火控系統進行硬殺傷;以及一個跟蹤目標并協調軟殺傷和硬殺傷反應的指揮和控制系統。本文僅限于假設反坦克導彈是使用射頻主動雷達尋的目標和跟蹤的海上滑行。因此,這項工作的中心是簽名管理、大型目標船的規避動作、船上被動型誘餌系統(如金屬箔片和反射器)的操作性能,涉及反坦克導彈的跟蹤方案和交戰環境,包括風速和風向。擊敗導彈威脅的一個基本因素是反應時間;隨著高超音速的出現,時間因素成為反應殺傷鏈的決定性因素。潛在導彈平臺的識別標準是最基本的;它們將允許更精確的SA,迅速讓DM消除發射平臺。鑒于反導鏈反應的時間很短,人的頭腦無法計算巨大的信息量,并在短時間內決定反應的類型,要么是硬殺傷,要么是軟殺傷,要么是兩者兼而有之;那么人工智能就成為反導系統中的基礎[3] [4]。因此,人類的DM理論不能用于遙遠的未來,因為它要求對形勢的分析速度、識別能力、對威脅的立即反應,以及在人類思維的指揮鏈中進行計算和決定,因此不能提供所需的反應時間。本文的最后部分介紹了幫助平臺保護速度的架構,朝著定義CMS中的設備連接方向發展,同時還介紹了一些已經發表的關鍵技術。
第1節是介紹、動機、方法和論文結構。第2節提供了一個常規條令性例子戰術和反擊方法,用于在架構中需要支持的硬殺和軟殺。同時,在第2節中,還介紹了軟殺傷反擊方法的主動、被動和綜合方法。此外,第3節是一個使用飛毛腿和機動性的交戰例子,展示了所需的關鍵數據。第4節介紹了所提出的AI/EW技術的架構。最后,第5節是結論。
人工智能應用于電子戰時,不僅要保證DM(決策者)的SA(態勢感知),而且還必須滿足點和區防御以及反目標活動的需要。電磁波譜因無線電和雷達發射器而加劇,一個挑戰是將人工智能應用于能夠滿足DM需求的EW系統,因此它必須能夠分出感興趣的信號,例如其海軍部隊的信號。另外,哪些信號對指定的任務沒有影響。
一個陸軍師的基本 "有機 "通信和電子設備,在一個典型的70公里乘45公里的地區作戰,是超過10,700個單獨的發射器。一個支持性的空中遠征部隊(AEF)會帶來另外1400個,而一個典型的海軍航母戰斗群會帶來另外2400個發射器[20]。比如說: 在沙漠盾牌/沙漠風暴中,六個陸軍師和一個海軍陸戰隊師都占據了相同的地理和電磁波譜空間,還有許多其他聯軍和指揮控制網絡[21]。鑒于這種信息密度,認知型EW也必須與人工智能概念和認知循環階段的相關挑戰相一致。
為幫助EW和AI的受眾,我們提供了一個AI和EW術語的表格,在表1中,這些術語有一些對應關系。
表1 等效AI和EW術語
電子戰被正式定義為三個部分:
在圖10中,Haigh和Andrusenko[15]提出了一個EW和AI的組合架構,它跨越了殺傷鏈階段,將AI的特征和分類輸入一個融合引擎,以建立一個意圖,這個意圖是由因果關系和異常檢測階段推斷出來的。
圖10 與EW功能相關的EW和AI能力[15]。
Haigh和Andrusenko的論文與EA之前的ES的數據融合觀點一致,同時保持EP。因此,人工智能方法被應用于特定發射器的分析、特征描述和分類,作為數據融合之前的模式匹配工作。然后,這些方法被用于異常檢測和因果關系搜索,以實現意圖識別。這是一個信息漏斗,在EA/EP方面,這些方法更多的是優化適應性,而不是智能,這貫穿于整個殺傷鏈,并應用于任務管理的決策援助和與電子戰令(EOB)和網絡管理有關的人為因素。不難看出,AI態勢評估、DM和機器學習(ML)能力與所有EW功能相關。每個認知型EW系統的第一步是電子支持(ES),以了解射頻頻譜。在人工智能界被稱為情況評估,ES確定誰在使用頻譜,他們在哪里和何時使用,以及是否有可以 "利用 "的模式。AI/ML技術可以使用特征估計、發射器特征和分類、數據融合、異常檢測和意圖識別。圖11顯示了任務前準備和任務后分析與任務中需求的重疊。
圖11 任務中、任務前和任務后的重疊部分
ES對環境進行分析,并創造出驅動決策者(DM)的觀測數據。日益復雜的情況將頻譜態勢感知(SSA)定義為 "收集有關頻譜使用的不同信息并處理這些信息以產生一個融合的頻譜圖"[15]。SSA收集、組織和處理EW所需的頻譜數據。SSA必須以近實時(NRT)的方式進行,以滿足任務中的決策者的需要,SSA必須結合各種支持技術,包括傳統的和認知的。然而,一個挑戰在于相關技術的整合和展示,其中只有少數是認知的,以減少脆性和處理新的發射器。人工智能和ML能力可以在每個層面上改善SSA,這是在其他相關SSA技術背景下對這些AI/ML技術的看法。一個完整的EW系統必須有多層面的SSA。未來的SSA系統可以用深度學習模型來生成潛在的特征,用經典的ML模型來進行任務中的更新,以及用混合模型來抵消有限的數據。此外,SSA不一定要完全依賴射頻數據: 它可以與非射頻數據融合,如視頻和靜態圖像、自由空間光學、或開源、戰術或作戰情報。跨越多個異質來源的分布式數據融合必須創建一個在空間、時間和頻率上都準確的連貫的戰地頻譜共同作戰圖。異常檢測、因果推理和意圖推理使作戰圖更加完整,以了解事件的影響并支持管理部門。
Rudd-Orthner等人[14]用圖12中的 "影響范圍 "概念[18]擴展了這一概念,并增加了一個 "保護洋蔥 "框架,以根據數據需要選擇對策。
圖12 影響范圍
他們指出,威脅武器系統有變得更加復雜的趨勢,這種復雜性的增加至少可以部分歸因于:戰術的演變、技術發展的速度和數字化的現代化,但也有一種趨勢,即隨著人類決策和反應時間的減少,威脅的作用也在擴大;隨著自主系統的效力和使用的增加,這種情況也許更加明顯。自主系統的崛起在所有領域都在發展: 陸地、空中、海上、太空和網絡。自主系統的規模各不相同,從無人值守的槍支系統到自主空中平臺。這些自主平臺運作的作用也在不斷擴大,因此在打擊它們時,可能需要在綜合防御輔助系統中匹配復雜性,作為打擊復雜威脅系統的戰略。這些復雜平臺的作用和能力的增加,可能導致單一平臺的作用不大,并為其他平臺提供 "保護投射 "的要求。與此相結合,利益相關者群體也更加多樣化,科學家/工程師、機組人員和任務生產程序員之間的溝通機制也是挑戰,這樣他們都可能做出有意義的貢獻,并與他們的利益相關者群體的價值互補,正如Rudd-Orthner等人所說。
圖12中的維恩圖顯示了數據可用性的 "影響范圍":保護平臺/部隊、威脅或武器系統和防御限制與反措施設計考慮相疊加。Rudd-Orthner等人指出,這些不同的反措施考慮加上不同的可用數據,可能對反措施戰術設計形成影響范圍。
Rudd-Orthner等人在[14]和[19]中應用了多視角威脅分析圖解技術,該技術基于判別器、操作視角、系統視角以及對策設計考慮和影響范圍的維恩圖,適用于保護的洋蔥。他們在維恩圖中描述了反措施的設計考慮,將反措施的設計意圖描繪成一種規范,而不是ECM干擾器技術設施。在這種情況下,反措施設計考慮表示戰術的反意圖。論文[14]和[19]還建立了一個保護洋蔥的概念,利用反措施設計的影響因素和組織成洋蔥層的數據源,將揭示的數據分層管理。其中這些層級建議的對策方法也是與該威脅殺傷鏈階段的威脅意圖直接相反的,使得它也是一個測量的反應和保護數據模型在所揭示的數據。表2顯示的是保護洋蔥的層級(第1層是最外層)和反措施設計考慮,影響范圍與威脅系統的殺傷鏈意圖的映射。表2提供了保護洋蔥的六個層次。
表2 保護洋蔥
洋蔥層/影響范圍/CM設計考慮因素 | 注釋 |
---|---|
第1層發現/受保護的平臺/減少的可探測性 | 對抗早期預警、空中搜索或地面控制攔截雷達的探測或行為,使被保護平臺脫穎而出。該戰術針對的是殺傷鏈的意圖,并不顯眼,是利用對自身平臺數據的了解。 |
第2層定位/受保護的平臺/降低可探測性 誘餌和欺騙 | 具有欺騙性和誘騙性的反目標獲取或高度查找雷達可用于降低信息或反擊某個范圍或高度。 |
第三層識別/保護平臺 武器系統/降低可探測性 誘餌和欺騙 分散注意力 拒絕破壞 | 用旨在造成混亂的措施來對抗識別,以延遲對你的分類或身份的評估,識別可以基于行為或使用特殊雷達模式,如NCI。 |
第4層跟蹤/保護平臺武器系統/降低可探測性 誘餌和欺騙性分散注意力 | 用干擾、分散注意力和拒絕的方式來對抗威脅,可以是目標獲取雷達或更高數據率的搜索模式,如窄掃描軌道,同時掃描模式。 |
第5層 交戰/防御限制 武器系統保護平臺/降低可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 破壞 | 使用所有可用的能力擊敗威脅,硬殺和軟殺取決于ROE,是傳統的平臺自我保護。可以使用破鎖和信號處理以及跟蹤目標的戰術。 |
第6層 處置和效應/防御性限制 武器系統保護平臺/減少可探測性 誘餌和欺騙 分散注意力 拒絕 破壞 毀滅 | 使用所有可用的軟硬殺傷能力擊敗威脅,是傳統的平臺自我保護。可能使用破鎖和信號與跟蹤處理的目標戰術,并可能同時采用針對尋的器和雷達的技術。 |
認知型電子戰系統的設計必須提供態勢感知、決策和學習能力。一般來說,系統要求推動了一系列關于哪些問題和它可能需要回答的問題的決定。決策可能是反復的,要么是集中的,要么是隨部隊效應范圍分布的。他們將一個問題表示為規格,并受制于AI代理的拍賣。就我們如何定義和調整優化函數而言,利用領域的物理學與參與的進展可能會減少狀態和交易空間。問題來自于像干擾這樣的設計結果所需的緊迫性和缺失的數據。因此,選擇對策和感覺的C4L參數、'while'或'if'條款都是數據要求,可能形成問題對話鏈或問題樹,在殺傷鏈的不同處置路線中需要。因此,這些對話鏈或問題樹就像專家系統的規則庫格式。因此,所需的數據就以拍賣的方式給投標的傳感器。這樣一來,邏輯路線總是有目的性的結果,而DM和傳感器的使用也是如此。另外,隨機森林[22]可以減少熵,增加信息增益。
雖然具有高度的適應性,但先進的雷達和軟件定義無線電(SDR)架構通常依賴于定制的API,單獨暴露每個參數。這種方法不適合EW系統中的近實時認知控制,因為緊密的耦合意味著人工智能不能做出全局性的決定。組成模塊必須是高度模塊化和可組合的,以消除這一障礙。通用接口允許模塊暴露其參數和依賴關系,從而實現全局優化和跨多個處理器的計算負載平衡。通常,由RESM(雷達電子支持措施)攔截的發射物是通過發射物數據庫識別的。發射者被識別出來,并在本地認可的海上圖像(LRMP)中得到體現。當通過數據庫確認為一種威脅時,它可以接受DM的詢問和拍賣:
為此,我們需要一個中間代理,提供一個模塊化的結構組件,允許不同的技術提供不同的服務,并確保信息/控制的一致流動,與John Boyd的OODA循環[23]一致,但適用于數據處理和DM。
圖13 模塊化架構
軟件架構的一個例子是ADROIT。自適應動態無線電開源智能團隊(ADROIT):用中間代理認知控制SDR節點之間的協作。ADROIT項目正在建立一個開源的軟件定義的數據無線電,旨在由認知應用程序控制。模塊暴露了它的參數和它們的屬性(特別是讀/寫)。當一個模塊發生變化時(例如,增加一個新的參數),它只需揭示新的參數,并在一個發布-訂閱機制中公開參數(名稱、屬性),而不是為該新參數增加一個新的API函數;這也可以擴展為一個組播目的地,給后來仍需要定義的模塊。ADROIT用圖14所示的模塊實例化了中間代理。
圖14 ADROIT體系結構支持認知代理
處理不同的或變化的傳感器的一種可擴展的方式是,如果所有的設備可以減少不確定性或提供額外的數據來回答一個殺戮鏈階段的問題,就將它們定義為傳感器。因此,這些傳感器可以成為拍賣算法的參與者,以其回答問題的能力來競標。在不同的操作環境下,拍賣算法中的分數可以改變,因此,不同的傳感器選擇提供較低的可觀察性或與當前的ROE、受限的EMCON或當前的傳感器利用相一致。通過這種方式,形成了一個問答循環,完善了對情況的理解,同時在提問的基礎上做出增量決定,并使環境情況有利于他們的部隊使用保護洋蔥的一個版本。此外,同樣的拍賣優化可以與反措施一起執行,其概念是,如果一切都能影響當地的殺戮鏈決策或導致結論或問題發生在受害者身上,那么它就是一個影響者。由此可見,C4L提供了一種以標準形式指定反措施行動和傳感規格的方法;這些規格可以一起拍賣,以便在一個可適應的模型中獲得最佳效果和傳感,然后該模型將優化殺戮鏈的進展,為跟蹤的對手的殺戮鏈進展提供優勢。在圖15中,本文展示了EW系統如何在拍賣優化的基礎上與具有認知DM的作戰管理系統(CMS)集成。威脅的檢測/識別/鑒定/分類被轉移到不同的數據庫中,但這些過程和數據庫的不確定性導致了傳感器的重新任務。這些都是拍賣,根據傳感器解決情況的不確定性的能力來分配任務,并根據緊急程度來確定優先次序;這使用了從保護的角度預測威脅的殺傷鏈意圖。這些過程越可靠,立即識別和反應的概率就越高。為了進一步提高這一結果,管理部門必須考慮機器學習中的其他參數,以適應當地環境的傳感任務和對策效果的拍賣。
圖15 數據布局EWS與CMS集成
有些參數可能不為人所知,也可能沒有方法或傳感器來提供這些參數;因此,Rudd-Orthner等人[24]的專家系統的神經網絡形式作為數據庫的疊加,在這些情況下提供一個估計值。它還可以提供一個由貝葉斯網絡進一步引導的值,該網絡可以將從環境中收集的傳感器事實與來自其規則的知識結合起來,使其不容易被收集的事實所欺騙。此外,在圖16中,也是在人工智能的背景下,所提出的架構將EW系統與CMS結合起來。它通過一個反饋回路支持 "態勢感知",根據威脅殺傷鏈的位置重新安排傳感器的任務,以快速解決識別和確認的不確定性,更新跟蹤的準確性,并為CMS和EW系統資源提供戰術清單作為選擇。
圖16 ID標準交互模型
在圖16中,DM能力因此積極主動地利用感知能力直接處置威脅,并為反制措施/部署制定了時間表。這些反措施/部署應按照RuddOrthner等人的保護理念,利用推斷出的威脅的殺傷鏈位置階段,直接對抗威脅的意圖。因此,傳感要求可以在拍賣算法中與可供選擇的策略/反措施交錯安排。同樣,在威脅分析和處置的關鍵時刻,一些所需信息可能無法在DM中獲得,但可以使用RuddOrthner論文中提出的神經符號-AI專家系統方法的代數專家系統部分進行估計。可控的可觀察數據可能來自人工智能環境中的數學或認知學習發展過程。我們可以認為這些有助于識別目標的元素是可觀察的,這些元素在DM中是可控的。
圖17 CMS和EW CM系統中的威脅數據路徑
在圖17中,本文展示了一個威脅發射器從EW系統進入CMS部分的順序。從EW系統的庫或數據庫中識別截獲的發射器;該數據庫包含物理雷達特征: PRI、頻率、PW、振幅、掃描類型、掃描周期平臺等級和威脅名稱;采集類型的特征,ECCM,如原點干擾(HOJ)Chaffs辨別,紅外,雙導射頻和紅外。如果發射物未被識別為威脅,則在本地識別的海上圖像中直接代表發行者。如果被確認為威脅,它將遵循不同的路徑,如前所述。導彈的獲取和ECCM的類型在反應鏈中具有巨大的價值。如果它有HOJ能力,最好是通過C4L中捕獲的特定計算直接干預硬殺傷和誘餌發射;該選定的C4L規格是由保護的洋蔥頭選擇的,它與頻譜中的感應計劃一起安排。該規格將誘餌定位在C4L所確定的與發射船的一定距離和特定的β值。除了在CMS上表示威脅的到達方向外,EW系統還將C4L搜索數據和傳感規范發送到多功能雷達(MFR)和火控雷達(FCR)作為即時硬殺傷系統。本文在圖18中畫出了由人工智能支持的戰斗管理系統(CMS)的架構基礎。在標準環境塊中,還有四個相互關聯的組件:
1.傳感器管理,提供設備監視器(資源管理器)的管理,傳感器信息的收集和軌道管理;在這個塊中,所有的相關數據都匯聚到機載傳感器,如雷達、聲納、ESM雷達、通信ESM、導航輔助設備和氣象數據。在這個架構中,一個傳感器的任務和它的優先權來自于它的成熟度和殺傷鏈。在這方面,關于Rudd-Orthner等人,威脅意圖的成熟度被評估為使用保護洋蔥的反意圖對策,并嵌入到Haigh和Andrusenko的殺傷鏈階段,其中的整合是通過ADROIT架構的發布和訂閱機制,這允許快速和靈活的整合和擴展。
2.在架構的第二塊,有信息管理,其中本地軌道與來自鏈接網絡的軌道相關聯,根據識別標準識別目標的追蹤,管理技術決策輔助工具和信息,共享共同的操作畫面,該畫面中的不確定性和異常情況引起了傳感器的任務。
3.第三塊代表戰斗管理,它提供了對威脅的評估計劃和武器優先權的分配--演習的計算和艦隊內與戰斗有關的信息交流。
4.最后一個區塊是資產管理,使用C4L規范和序列,允許艦艇同時協調幾個進攻和確定的目標。
圖18 AI應用于CMS結構
在DM處理環境之外,人工智能也同樣適用于智能處理環境,類似的技術疊加數據庫和ML提取,走向專家系統規則捕獲[25]。在人工智能輔助的CMS中,數據流入信息管理數據融合,使計算機系統在沒有明確編程的情況下利用歷史數據進行預測或做出一些決定。機器學習使用從IMDF(信息管理數據融合)獲得的大量結構化和半結構化的數據,這樣機器學習模型就能產生準確的結果,或根據這些數據提供預測。
未來涉及全域聯合指揮與控制(JADC2)的沖突將需要在多域(空間/空中/地面/海上)殺傷鏈中對傳感、C2和目標資產進行整合和控制,并由自主、數據融合和人工智能等技術實現。為了支持關于在何處以及如何應用這些技術的決策,BAE系統公司開發了一個系統數字試驗臺,以實現對與基于模型的系統工程(MBSE)工具相結合的多領域系統的任務級分析。它提供了高保真性能分析模擬所缺乏的任務靈活性,同時允許納入高級算法能力(如自主性、AI/ML),這在高水平的活動模擬或行動分析工具中是不可能的。該測試平臺利用美國空軍仿真、集成和建模高級框架(AFSIM)以及波西米亞互動的VBS4游戲引擎來模擬場景。信息管理框架使用通過VBS4模擬SDK提取的信息來模擬傳感器、效應器和C2信息處理以及通過殺傷鏈的信息流。仿真套件符合DIS/HLA標準,允許納入其他仿真以進一步提高逼真度,還提供了一個信息傳遞網關,允許以標準的C2和信息傳遞格式(如OMS/UCI)交換信息。至關重要的是,信息管理層也允許靈活地納入技術,以實現信息管理的自動化并增強C2過程。在本文中,我們描述了JADC2所帶來的挑戰,以及系統分析對先進算法技術應用的極端重要性。我們討論了系統數字試驗臺的原理和結構、所采用的技術以及系統分析的方法。我們將介紹評估這些技術對改善任務級指標的系統貢獻的結果,如延遲、可擴展性和殺傷鏈反應的穩健性。
聯合全域作戰是美國(US)國防部(DoD)的聯合作戰概念,其目標是將所有軍種和領域(空間、空中、海上、陸地、網絡和電磁頻譜)的能力統一起來,以更有效、高效和快速地應對先進技術威脅。JADO包括全域聯合指揮與控制(JADC2)[1],它將使所有軍種和所有級別的作戰人員能夠利用所有可用的信息 "感知、判斷、行動"。為了實現這一愿景,來自各自領域的部隊必須作為一個協同小組行動,獲得相同的數據和協調其目標的能力。美國部隊在有限的演習和具體的行動中顯示出有能力協調各部門和各領域的行動以實現目標,但目前這些行動需要廣泛的高級協調。未來的沖突將要求這種協調以 "速度和規模 "發生,即足夠快的速度來應對快速出現或變化的威脅,并同時針對數百或數千的目標。
雖然這個問題有很多因素,而且必須在從戰術到戰略的各個層面加以解決,但JADO/JADC2的基本挑戰可以概括為傳感器到射手的殺傷鏈,[2]也被稱為 "戰斗網絡"。[3] 我們所說的 "殺傷鏈 "是指一個系統鏈,它接收和處理有關單個威脅的信息("感知"),分享和解釋信息以評估完整的威脅情況及其潛在影響("感知"),并計劃和執行針對威脅的效果("行動")。值得注意的是,效果可能包括綜合使用傳統的動能武器來摧毀或破壞敵方資產,干擾等電磁干擾來破壞敵方傳感器或通信,網絡行動來破壞敵方信息系統,或者在某些情況下,信息行動來欺騙或誤導敵方人員。這里介紹的工作并不直接涉及信息作戰或網絡作戰,但正如我們在第4節討論的那樣,它有可能擴展到這些領域。
人工智能、機器學習和其他先進的算法技術在JADO和JADC2[4]中發揮著關鍵的使能作用。"感知、判斷和行動 "都涉及到在非常快速的時間尺度上處理大量的數據,需要在殺傷鏈的多個點上進行算法處理,以達到與擁有龐大、裝備精良和敏捷的軍事力量的對手發生沖突所需的速度和規模。此外,根據預先確定的要求設計并使用傳統技術驗證的傳統算法無法解決涉及適應性威脅的沖突情況。在下面的小節中,我們提出了三個代表美軍在JADO中所面臨的挑戰的概念性場景,說明了能夠在速度和規模上實現殺傷鏈的先進算法。雖然有許多方法可以對這些算法進行分類,但為了評估它們在JADO殺傷鏈中的效用,考慮將它們按 "感覺"、"判斷"和 "行動 "進行細分是有意義的。重要的是要注意,在幾乎所有情況下,人類作戰人員將保持 "循環",監督算法組件的運行,在某些情況下,"循環 "中,在交戰前需要人類確認目標身份。
需要指出的另一個關鍵點是,"感知、判斷、行動 "的結構,與美國和其他軍隊普遍使用的相關 "觀察、定向、決定、行動"(OODA)結構一樣,代表了一個決策循環,在兩個方面具有內在的層次性。首先,不同級別的指揮部將在更高級別指揮部的決策循環的時間周期內進行他們的決策循環嵌套。對于這里的例子來說,更重要的是,循環中的 "Make Sense "或 "Orient "元素往往需要采取行動來增進理解或收集更多信息。一個常見的例子是重新定位一個傳感器平臺或改變一個傳感器的配置。這反過來又需要一個二階決策/行動循環來為 "感知 "功能服務。我們在下面的三個方案中看到了這樣的例子,我們把這些步驟看作是 判斷"的元素。我們已經在第2節中描述的系統數字試驗臺中實現了所有三個場景,我們在第3節中介紹了第一個場景的系統分析的初步結果。
在這種情況下,由一艘航空母艦和多艘導彈驅逐艦組成的友軍航母打擊群(CSG),在敵方海岸附近的國際水域作戰。CSG包括專用的空戰管理(ABM)飛機,如美國海軍的E-2D鷹眼,以及一翼的戰斗機,如F/A-18或F-35。CSG還得到一架高空長航時(HALE)飛機的支持,該飛機能夠在受威脅地區上空長時間運行,并能有限地接觸到威脅的防空系統。CSG受到敵方轟炸機的威脅,能夠發射巡航導彈,破壞或摧毀CSG的資產,并由戰斗機護送保護。下面的圖1強調了由先進算法實現的幾種一般能力,下面將討論這些能力,使CSG能夠 "感知(SENSE)"、"判斷(MAKE SENSE)"和 "行動(ACT)",以迅速和自信地關閉殺傷鏈。
SENSE:傳感器資源管理(SRM)使用自主控制算法,可能由基于ML的技術實現,動態管理和控制平臺傳感器的配置,以優化傳感器處理,確保在具有挑戰性的環境中探測和識別威脅。在有大量目標的情況下,或者在物理或電磁環境影響傳感器處理的情況下,如雷達傳感器受到干擾的情況下,主動SRM可以大大改善探測和識別威脅的能力。
MAKE SENSE:自動化團隊共同作戰圖(COP)編隊在車輛之間共享信息,并將來自多個來源的信息進行關聯和融合,以產生所有車輛的共同圖像。這確保了所有車輛的決策,包括人工和自動決策,都在相同的信息下進行。團隊COP的形成包括兩個獨立的算法元素。首先,信息傳播算法必須決定在團隊成員之間分享什么信息。這一點很關鍵,因為在沖突環境中,干擾和干涉將限制共享信息的能力,因此,殺傷鏈的每個元素必須根據信息在整個團隊中形成一致的COP的價值,選擇并優先考慮與同伴共享的信息。其次,每個殺傷鏈元素的傳感器融合[5]算法將來自本地傳感器源和其他團隊成員的信息進行關聯和融合,以確保每個平臺 "看到 "相同數量的威脅,并對每個威脅應用相同的識別器。
MAKE SENSE:傳感器重新定位算法為機載傳感器,包括反彈道導彈和戰斗機推薦更新的路線,以提供更快速的目標定位和識別的細化。這些 "自動路由 "算法利用傳感器、平臺和威脅的已知特征來優化觀察角度或感應基線。如上所述,傳感器平臺的這種重新定位是一種 "ACT"形式,但由于它是為改進COP服務的,所以我們認為它是 "MAKE SENSE"的步驟。
ACT:武器選擇和任務分配算法審查威脅、任務目標和可用的資產,并推薦可供交戰的威脅,同時分配資產和武器。經人類批準,他們向武器提供任務,并監督武器的飛行和交戰。在這種情況下,交戰決定包括確定哪些敵機需要交戰--在這種情況下只需要交戰轟炸機以確保對CSG的保護,以及哪種友好資產應該進行交戰--在這種情況下是導彈驅逐艦。在更復雜的情況下,武器選擇和任務分配算法可能需要在多個不同的指揮結構中進行調解,以找到合適的資產,通常使用 "拍賣 "技術,其中每個潛在的交戰能力提供者對交戰進行 "出價"。[6]
圖1. 在DCA場景中,先進的算法協助人類作戰人員感知:優化傳感器性能以探測、定位和識別威脅;感知:分享信息和定位資產以確保整個團隊有一個一致的 "共同作戰圖"(COP);以及行動:選擇和分配適當的武器來對付即將到來的威脅。
美國陸軍正在為未來的空中/地面行動開發一個概念,涉及部署一系列空中發射效應(ALE)系統[9],這些無人機系統(UAS)可以從較大的有人或無人飛機上發射,例如陸軍用于戰場情報、監視和偵察(ISR)的灰鷹UAS。ALE以小組形式運作,不受人類控制,執行一系列的偵察和攻擊任務,以支持陸軍的空中和地面行動。ALE小組執行這些任務的能力的核心是使用基于人工智能的算法來認識和了解情況,評估和分配ALE任務的目標,以及團隊行動或集群來完成共享任務。
圖2所示的許多功能與空/海場景中的功能相似,但由于系統的性質和任務,面臨著獨特的挑戰:
ALE系統的目的是在陸軍航空兵目前運作的近地面空間內運作。陸軍航空兵在沖突情況下的生存取決于避免被敵軍發現和瞄準,這就促使其盡可能地靠近地形作戰。由于地形的遮擋和視角的迥異,近地面作戰增加了整個ALE小組觀察信息的差異。
ALE系統的目的是在戰斗的前緣作戰,那里的電磁環境最有可能是有爭議的,導致可靠地和大量地交換信息的能力有限。低概率攔截(LPI)通信也更有可能被地形和其他障礙物打斷,進一步降低了可靠地分享信息的能力。
這些因素既意味著ALE小組必須采用不依賴于每個平臺上相同信息的算法,以有效地聯合執行任務。
圖2. 美國陸軍空中發射效應(ALE)飛機與較大的有人和無人直升機合作,執行偵察和打擊任務。
美國正在開發使用遠程超視距雷達(OTHR)的概念,用于預警和提示防御系統,以保護美國大陸免受巡航導彈等威脅。在導彈防御方案中(圖3),東北部的地面指揮和控制(C2)站由馬薩諸塞州和弗吉尼亞州海岸的地面雷達(TR)以及位于加利福尼亞州安大略省和北卡羅來納州的OTHR支持。C2站還得到了該地區的天基紅外監視(SBIRS)衛星的支持。在這個場景中,一架敵方轟炸機正在北大西洋上空飛行,并部署了兩枚高超音速巡航導彈。同時,一艘潛艇就在近海浮出水面,并發射了兩枚標準巡航導彈。這四枚導彈中的每一枚都被協調起來,瞄準一個陸地目標。地面站能夠根據從SBIRS衛星上收到的線索,為其TR和OTHR傳感器分配任務。地面站收到的所有數據都被處理成一個集中的共同軌跡圖(CTP),以便更快做出決定。如果一個來襲的威脅接近東海岸,并被SBIRs、OTHR和本地TRs感應到,那么在它通過每個傳感器的視場(FOV)時,可以保持威脅的存在,從而能夠更快地識別和響應。當CTP實現了對來襲目標的識別和信任時,地面站就能發射攔截器,在來襲威脅到達預定目標前將其消滅。
圖3. 美國陸軍空中發射效應(ALE)飛機與較大的有人和無人直升機合作,執行偵察和打擊任務。
這一場景涉及與其他設想類似的傳感器管理、數據融合和威脅應對能力,但值得注意的是,它提出了一個分層傳感架構,其中不同類型和不同能力的多個傳感器以互補的方式被采用。這種分層傳感架構的想法是許多現代防御概念的核心,但需要進行復雜的分析,以確定最佳的架構(傳感器的類型、傳感器的安排以及每種類型的數量和能力)來應對一系列威脅。
雖然人工智能、機器學習或自主性的算法可以為復雜的系統中的系統(如JADO殺傷鏈)的運行增加重要價值,但其應用需要充分了解使用這些算法的好處、成本和風險。我們的工作是以這樣的評估為前提的:為了優化這些算法在此類應用中的應用,有必要進行三種相互關聯的分析: 系統分析、任務分析和信息流分析。每種分析都對我們正在建立的系統數字試驗臺的建模和分析能力提出了一些獨特的要求(第2節)。
我們的觀察是對建模和仿真工作的補充,這些工作討論了不同層次的仿真,反映在網絡安全和信息系統信息分析中心(CSAIC)最近發表的一篇文章中[10]。這項工作討論了四個層次的模擬,具有不同的復雜程度和時間尺度。這些模擬水平與我們的分析水平相吻合,如表1所示。
表1. 我們建議的分析水平與建模和仿真界討論的仿真水平一致。
系統簇分析評估系統簇的結構--構成系統的元素,它們的相互聯系,以及信息處理能力在該結構中的位置。系統分析要求對這些物理和信息流要素進行明確的建模,并要求能夠輕易地改變這些要素,例如探索不同的連接架構或能力放置的策略。例如,在導彈防御方案中,探測和擊敗來襲威脅的總體能力是單個傳感器性能和基于所有傳感器信息的C2能力的復雜功能,定義最佳架構需要對所有這些要素進行建模。
任務分析是根據任務級別的指標來評估系統的性能。我們的工作參考了新興的任務工程學科,如國防部在2020年向公眾發布的任務工程指南[11]。我們的工作反映了任務工程的兩個核心要素: 行動概念(CONOPS)分析和任務級指標。
作戰概念分析反映了系統元素在任務中的不同作用。例如,在空中/地面場景中,我們必須模擬這樣一個事實,即交戰決策需要人類戰士的批準,因此與交戰決策有關的信息流必須始終包括有人駕駛的地面平臺。
任務級指標要求評估整體任務的有效性,而不是單個平臺的有效性或性能。例如,在導彈防御方案中,我們可能希望了解增加地面雷達的范圍或精度的相對好處。雖然在局部層面上,這肯定會增加TRs探測目標的范圍,但雷達是分層傳感結構的一部分,這意味著單個雷達性能的變化可能不會對任務結果產生相應的變化。我們的測試平臺必須能夠對一系列不同的能力及其相互依賴性進行建模,并計算整體任務的有效性,如實現目標的時間,而不是簡單地評估局部性能。
信息內容分析評估存在于系統的每個元素的信息,以及它們之間的信息流,以評估系統的能力的性能。信息內容分析在高級算法的分析中特別重要,因為這些算法對其可用的信息有強烈的依賴性。算法的發展、完善和評估取決于以高保真度對驅動不同平臺信息的因素進行建模,因為這些因素很可能與任務執行相關聯,而這是不容易從信息交流的簡單統計或參數建模中預測到的。
例如,在空中/地面方案中,算法不是集中和同步執行的,而是將在ALE團隊的所有平臺上運行不同的數據,并且在可能無法可靠交換信息的條件下運行。因此,團隊的行為,以及整個團隊的有效性,將嚴重依賴于團隊之間的信息差異,因為對戰斗空間的觀察不同,團隊成員之間交流信息的能力不完整。為了評估先進算法對ALE任務的價值,我們必須對每個節點所產生的信息(如來自傳感器或機載導航系統)、節點間交換的信息以及算法執行所產生的信息進行明確建模。
了解全域作戰的任務有效性歷來都是通過桌面模擬,最近則是基于計算機的模擬。戰役級和任務級模擬器(如OneSAF、STORM等)對作戰計劃(OPLANS)和行動方案(COA)進行多對多的情景分析,以研究、分析和訓練決策者。在大多數基于計算機的戰役模擬器中,有兩種主要方法來管理封閉性(即為玩家引入戰爭迷霧)以及行動事件結果:
1)傳感器的簡單邏輯決定了對手實體和狀態的可觀察性,包括對一個實體存在的知識、該實體的數量或這些實體所處的行動/狀態的估計。
2)基于啟發式的概率估計,以確定事件的可能結果(包括探測、擊中和殺死的概率)。
雖然這些工具和方法已被成功地用于進行兵棋推演、分析戰略和培訓決策者,但它們有兩個基本的限制。首先,基于啟發式的評估在調整和估計系統性能方面的能力有限(例如,可以實施射程、速度和殺傷力的改變來研究效果,但更復雜的系統增強,如數據融合和自主性,不能用啟發式數據來評估)。其次,這些多對多的模擬估計了實體或實體組層面的有效性,不能估計像鑲嵌式戰爭[12]和JADC2這樣的概念的性能或有效性。相反,我們需要的能力是能夠對平臺、傳感器和效應器進行足夠保真的建模,以便在系統層面對性能進行量化評估,根據這些模型模擬處理、共享和行動,并且能夠擴展到戰役級別的規模。
JADO框架采用了真正的基于模型的系統工程(MBSE)方法,將基于物理的模擬和標準的SysML建模與一個共同的數據層相結合,以支持數字模型分析。該框架既能實現靜態的、可追蹤的系統工程,將數據元素(需求和規格)跨數字模型連接起來,也能實現動態的、可執行的系統分析。對于靜態評估,在方案開始時使用腳本直接鏈接數據,因此,架構和要求的變化會驅動對平臺/傳感器/武器模型的更新,這些模型是由其他組件模擬的。例如,改變SysML中的需求參數(如平臺的最大速度或傳感器的精度)將導致這些組件中的模型更新,直接影響其模擬性能,以評估該變化對任務有效性的貢獻。對于動態評估,測試平臺使用谷歌協議緩沖區(protobuf)格式來表示測試平臺內部的數據。Protobuf是一種快速和簡單的標準格式,允許快速擴展以適應額外的數據字段或消息類型。測試平臺利用Apache的ActiveMQ和Kafka作為消息代理,以發布和訂閱(pub/sub)的架構在測試平臺上移動數據。該架構通過使用API直接從Cameo SysML事件序列塊發送和接收消息而被整合到Cameo系統建模器中。這種方法允許代表系統功能的動態可執行架構在實時模擬中發揮直接作用,這些模擬延伸到物理虛擬模擬以及數據層。額外的軟件系統、應用程序或模擬器可以通過軟件和應用程序的墊片插入架構中。這種數據架構允許在需要時迅速增加額外的模擬器,在可用時整合數字模型,并促進實時數據共享,而不是使用不同組件對復雜的系統進行建模的傳統的、離線的串行分析。這種MBSE方法還有一個好處,就是能夠在架構內的相關位置(平臺或任務系統)應用和交易先進的算法(如數據融合、自動路由AI)操作模擬數據。
如圖4所示,該測試平臺有四個主要的組件分組: 1)模擬主干,實時連接各種平臺/傳感器模擬器,為場景中的平臺建模;2)Cameo系統建模器,為系統的靜態和動態表示定義SysML表示;3)數據/網絡層,允許表示戰術數據和模擬通信,以促進實體之間的數據移動;4)算法層,整合和交易實時AI算法(如數據融合、自動傳感器任務、自動路由等),優化系統的性能。
仿真骨干網利用IEEE標準的分布式交互仿真(DIS)協議來連接測試平臺內的多個實時仿真器。當系統評估需要系統加速時,則采用自定義的比實時更快的(FTRT)協議。仿真管理器用于處理每個仿真器之間的場景和數據同步,以及與系統其他部分的同步。目前,AFRL的AFSIM和Bohemia Interactive Simulations Virtual Battlespace 4 (VBS4)被用來模擬海陸空平臺的組合,所有這些平臺都能在VBS4的基于游戲的三維渲染引擎中得到可視化。此外,我們對這些模擬器進行了擴展,允許基于物理學的傳感器建模(包括雷達、ESM、EO/IR),以實時生成真實的傳感器報告,作為場景的藍色可觀察狀態(一個部分可觀察的游戲問題)。
采用Cameo系統建模器,使用SysML建模語言提供場景內關鍵部件的系統級表示。使用這種基于模型的系統工程(MBSE)方法,我們實現了兩件事。首先,通過可追蹤的系統工程,對系統組件屬性/要求的更新對仿真空間內的平臺/傳感器性能有直接影響。例如,調整對平臺的要求,使其飛行速度提高2倍,或使傳感器看得更遠2倍,對仿真空間內的這些能力產生直接影響。
Vignette指標是通過Elastic的堆棧(Elasticsearch、Logstash和Kibana)生成和顯示的,它提供了一堆工具和庫來存儲數據,對其進行搜索,并將其可視化。度量儀表盤可用于實時和取證的目的:運行中的Kibana儀表盤顯示隨著運行的進展而更新的度量,取證儀表盤用于比較多個運行的性能。
當Vignettes運行時,場景的狀態在基于NASA WorldWind的C2顯示器中被可視化。該用戶界面主要顯示 "任務層 "的細節,即實體實際認為他們看到的東西,這取決于正在使用的模型,可能與 "現實 "有出入。這使得人們能夠更深入地了解不同實體所看到的東西,并根據他們所掌握的信息來考慮。
第二,復雜、關鍵的系統可以使用事件序列圖進行動態建模,以模擬需要自動或半自動決策的系統內的延遲和不確定性。例如,我們對 "宙斯盾 "武器系統進行建模,以動態地執行接收遠程交戰跟蹤請求的系統行為,通過決定使用可用的、有能力的導彈系統來起訴該目標。
圖4. JADO測試平臺組件和架構在任務、系統/子系統和算法層面的仿真橋接
對于數據層,我們實現了谷歌Protobuf模式,以表示戰術戰斗管理指揮和控制(BMC2)信息(例如,軌道更新、任務請求、傳感器報告),并通過消息排隊服務將該信息路由到訂閱各種消息類型的組件。然后,我們整合了NRL的可擴展移動特設網絡仿真器(EMANE)框架來模擬場景內各節點之間的網絡,使用仿真集成和建模高級框架(AFSIM)和VBS4實時更新來模擬節點位置/移動,同時在EMANE內定義天線性能和網絡模型。這種技術使我們能夠準確地模擬節點在場景中發送/接收信息的吞吐量和延遲效應(包括干擾考慮)。
在算法層,我們創建了人工智能組件,這些組件可以作為自主處理能力附加在場景內的平臺/系統上,利用先進的人工智能技術來交換系統和系統的性能。其中一個組件是之前提到的CONSENSUS能力,我們在不同的節點內實施數據融合工程師,然后采用InfoBroker來優化整個EMANE網絡模擬的信息流。
美國海軍部長以審慎的方式分布海軍兵力,以支持美國防部(DoD)的指導、政策和預算。目前的戰略、部署和分布(SLD)過程是勞動密集型的,時間密集型的,而且在考慮競爭性的替代計劃方面的敏捷性較差。SLD可以從人工智能的實施中受益。本文引入了一種相對較新的方法來解決這些問題,該方法最近來自于海軍研究辦公室資助的一個早期項目,該項目結合了機器學習、優化和兵棋推演的深度分析。這種方法被稱為LAILOW,它包含了利用人工智能學習、優化和兵棋推演(LAILOW)。在本文中,我們開發了一套獨立的偽數據,模仿了實際的、分類的數據,這樣就可以安全地進行實驗性游覽。我們展示了LAILOW為每一艘可能被移動的可用船只產生了一個類似于兵棋推演場景的分數。每艘船的分值都會增加,因為需要較少的資源(如較低的成本)來滿足SLD計劃的要求,將該船轉移到一個新的母港。這就產生了一個數學模型,能夠立即比較可能被選擇的競爭性或替代性船舶移動方案。我們設想一個更加綜合、一致和大規模的深度分析工作,利用與現有真實數據源相聯系的方法,更容易地對通過SLD過程考慮的平臺移動的潛在方案進行直接比較。由此產生的產品可以促進決策者學習、記錄和跟蹤每個SLD過程中復雜決策的原因,并確定部隊發展和部隊組建的潛在改進和效率。
圖1. 在共同進化兵棋推演模擬中查看LAILOW;ML算法(即SoarRL)被用來模擬雙方的玩家或效用函數。
本文詳細介紹了與研究問題和規定階段有關的方法。我們應用一個數學模型(即Leverage AI to Learn, Optimize, and Wargame[LAILOW]模型)來解決研究的深度分析問題。LAILOW源于ONR資助的一個項目,該項目專注于機器學習、優化和兵棋推演的深度分析,本質上是Leveraging AI,由以下步驟組成:
學習: D數據、數據挖掘、機器學習和預測算法被用來從歷史數據中學習關于什么和如何做出決定的模式。來自競爭需求的數據是指來自艦隊指揮官、國家領導人的游覽建議和要求,以及在不同安裝地點的各個功能區所做的評估數據。目前的人工程序主要是平衡單位搬家費用的預算和已知的需求。搬家費用是根據人力和基礎設施準備情況的永久換站(PCS)訂單制定的。這些數據以結構化數據庫和非結構化數據的形式存在,如PowerPoint幻燈片和.pdf文件。
優化: 來自學習的模式被表示為Soar強化學習(SoarRL)規則或AGI轉化器模型,用于優化未來的SLD計劃。一個SLD計劃包括每個設施、母港、基地、樞紐和岸上態勢位置(Fd)和人員(Fg)的海軍資產的完整增益或損失。考慮到眾多的組合,這種優化可能是令人難以承受的。相反,LAILOW使用集成的Soar-RL和協同進化算法,將總的SLD計劃映射到遠航建議、評估報告和其他假設分析中提到的各個單位。
兵棋推演:可能沒有或很少有關于新的作戰要求和能力的數據。這就促使了兵棋推演的模擬。一個SLD計劃可以包括狀態變量或問題(例如,未來的全球和戰區態勢、威脅特征),這些問題只能被觀察、感知,并且不能被改變。控制變量是解決方案(例如,一個SLD計劃)。LAILOW在狀態和控制變量之間設置了一個兵棋推演。問題和解決方案根據選擇、變異和交叉的進化原則共同演化。
如圖1所示,LAILOW框架可以被設定為一個由自我玩家和對手進行的多段兵棋推演。自我游戲者或防御者是SLD企業。對手或攻擊者是包括競爭性需求的環境。在應用LAILOW時,我們首先將過程分為狀態變量和決策變量,如下所示:
狀態變量: 這些變量和數據可以被感知、觀察和估計,但是,不能由自我角色決定或改變。它們是輸入變量,或自我游戲者必須考慮的問題。它們也被稱為SLD企業的測試或攻擊。
決策變量: 這些變量是使用優化算法來解決問題所需要的。在LAILOW中,決策變量的優化是通過整合Soar-RL和協同進化搜索和優化算法來實現的(Back, 1996; O'Reilly等人, 2020)。
對手(測試)和自己的玩家(解決方案)都像兵棋推演中一樣演化和競爭。LAILOW就像一個蒙特卡洛模擬,但由ML/AI學習的模式與優化算法指導。在兵棋推演中,對手產生大規模的假設測試,以挑戰自我玩家提出更好的解決方案,例如,SLD配置,以回答諸如 "如果我選擇一個不同的決定會發生什么?"的系統模擬問題。
每個 "學習、優化、兵棋推演"周期在每個階段和所有價值領域動態地迭代,其分析組件和算法詳見下文。
在LAILOW框架中,"學習 "部分通常采用有監督的ML算法,如分類、回歸和預測算法。例如,人們可以應用scikit-learn python中的各種最先進的監督ML算法,如邏輯回歸、決策樹、天真貝葉斯、隨機森林、k-近鄰和神經網絡。深度學習或AGI Transformers也可以放在這個類別中,輸入數據是多樣化的。一個AGI框架通常包含大規模的機器學習模型(例如,ChatGPT模型中的數十億個參數;OpenAI,2023),以從多模態數據中學習和識別模式。
監督的ML算法可用于學習潛在的SLD和偏離計劃的功能區的狀態變量和評估措施,如部署和執行的速度、質量和適用性,競爭性需求和約束的平衡(例如,避免不可接受的能力下降),以及Fd和Fg措施。
在LAILOW中,我們使用Soar-RL來分別學習自玩家和對手的兩個健身函數。在強化學習中,代理人根據其當前狀態和它從內部模型中估計的期望值,采取一個行動并產生一個新的狀態(Sutton & Barto, 2014)。它還通過修改其內部模型從環境的獎勵數據中學習。Soar-RL可以將基于規則的人工智能系統與許多其他能力,包括短期和長期記憶,進行可擴展的整合(Laird,2012)。Soar-RL在軍事應用中具有以下優勢,因為它
"學習 "組件也可以應用無監督的學習算法。自玩家執行無監督的機器學習算法,如k-means、原理成分分析(PCA)和詞匯鏈接分析(LLA; Zhao & Stevens, 2020; Zhao et al., 2016)來發現鏈接。
一個SLD過程需要進行what-if分析,因為這促使了兵棋推演的模擬。一個SLD計劃可以包括狀態變量或問題(例如,未來的全球和戰區態勢、威脅特征、處理這些威脅的艦隊需求),這些問題只能被觀察、感知,不能被改變。控制變量是解決方案(例如,一個SLD計劃)。LAILOW在狀態和控制變量之間設置了一個兵棋推演。問題和解決方案根據選擇、變異和交叉的進化原則共同演化。
SLD計劃和偏移模型的狀態和決策變量的數量可能非常大。協同進化算法可以模擬未來作戰要求、威脅和全球環境及未來能力的動態配置,以及兵棋推演模擬中的其他競爭因素。如圖1所示,競爭性協同進化算法用于解決生成對抗網絡(GANs;Goodfellow等人,2014;Arora等人,2017)所遇到的minmax-問題。玩家的對抗性交戰可以通過計算建模來實現。競爭性協同進化算法采取基于種群的方法來迭代對抗性交戰,可以探索不同的行為空間。用例測試(對抗性攻擊者群體)是主動或被動地阻撓問題解決方案(防御者)的有效性。協同進化算法被用來識別成功的、新穎的以及最有效的解決手段(防御者)來對抗各種測試(攻擊)。在這種競爭性游戲中,測試(攻擊者)和解決方案(防御者)的策略會導致對手之間的軍備競賽,雙方在追求沖突的目標時都在適應或進化。
一個基本的協同進化算法用錦標賽選擇和用于變異的方法(如交叉和變異)來進化兩個種群。一個種群包括測試(攻擊)和另一個解決方案(防御)。在每一代中,通過配對攻擊和防御形成交戰。這些種群以交替的步驟進行進化: 首先,測試種群被選擇、改變、更新并針對解決方案進行評估,然后解決方案的種群被選擇、改變、更新并針對測試進行評估。每個測試--解決方案對都被派往參與組件,其結果被用作每個組件的適配度的一部分。適應性是根據對手的交戰情況整體計算的。
每個SLD配置都有一個健身值,它與需要優化的措施有關,如部隊發展(Fd)和部隊生成(Fg)效率。來自 "學習 "的模式被用來優化未來的SLD計劃,其措施如下:
優化可能是壓倒性的。LAILOW使用綜合Soar-RL和協同進化算法,簡化了優化過程。
LAILOW已被用于DMO和EABO的兵棋推演(Zhao, 2021),發現海軍艦艇和海軍陸戰隊的維修和供應鏈的物流操作的脆弱性和彈性(Zhao & Mata, 2020),以及超視距打擊任務規劃(Zhao等,2020;Zhao & Nagy, 2020)。
合成孔徑雷達(SAR)圖像中基于人類的目標檢測是復雜的、技術性的、費力的、緩慢的,但時間很關鍵,是機器學習(ML)的完美應用。訓練一個用于目標檢測的ML網絡需要非常大的圖像數據集,這些數據集中嵌入了準確和精確標記的目標。不幸的是,不存在這樣的SAR數據集。因此,本文提出一種方法,通過結合兩個現有的數據集來合成寬視場(FOV)SAR圖像: SAMPLE,由真實和合成的單物體芯片組成,以及MSTAR雜波,由真實的寬視場SAR圖像組成。合成目標使用基于閾值的分割從SAMPLE中提取,然后再與MSTAR雜波中的斑塊進行α-混合。為了驗證新的合成方法,使用一個簡單的卷積神經網絡(CNN)創建了單個物體芯片并進行了分類;針對測量的SAMPLE子集進行測試。還開發了一種新穎的技術來研究深層的訓練活動。擬議的數據增強技術使測量的SAR圖像分類的準確性增加了17%。這一改進表明,來自分割和混合的任何殘余偽影都不會對ML產生負面影響,這對于未來在廣域SAR合成中的使用是很有希望的。
"在MSTAR數據收集期間拍攝的M1的EO圖像(a,c)和同一車輛的真實CAD模型(b,d)從兩個角度進行了比較。請注意,即使是小的細節,如火炮的位置、艙門和車輛側面的電纜,在兩張圖像之間也很一致。提供CAD模型的顏色是為了識別零件組裝,并不表示任何影響電磁模擬的具體屬性" [10]。
"SAMPLE數據集中每個飛行器的一個圖像的例子。測量的MSTAR圖像在最上面一行,相應的合成圖像在最下面一行....,我們看到諸如陰影、方向和相對回波幅度等細節都很一致"[10]。
在這項研究中,提出了一種智能兵棋推演方法,以評估軍事行動方案在作戰成功和資產生存能力方面的有效性。擬議的應用是基于經典的軍事決策和規劃(MDMP)工作流程開發的,以便于在現實世界應用中實施。本研究的貢獻有三個方面:a)開發一個智能兵棋推演方法,以加速MDMP中的行動方案(COA)分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;以及c)為未來的系統開發一個高效的、基于可視化兵棋推演的MDMP框架,這些系統需要一個小型操作團隊來監督一個自動智能體網絡。為了評估系統的能力,執行了幾個交戰場景示例,并給出了結果。此外,研究了自動智能體的兵力組成問題,并提出了具有超參數調整結構的兵力組成算法。
隨著無人系統在復雜任務中的作用越來越突出,包括情報、監視和偵察行動,最近的應用傾向于轉向異構的無人系統組合之間的合作,以執行這些行動并獲得高任務成功率[1]。為了完成復雜的任務,異質智能體之間的合作帶來了對多域作戰能力的需求,其中人工智能(AI)輔助的兵棋推演策略發揮了重要作用[2]。特定的目標,如使用人工智能來發現戰術,這可能會通過現有的軍事能力提高作戰效益,或可能為新的軍事能力提出有效的使用概念。人工智能決策最近集中在開放型游戲,即所有玩家都能看到所有的游戲狀態,或封閉游戲,即存在有限的兵棋靈活性。然而,在戰術和戰略層面上對決策策略進行建模需要有新的算法,這些算法可以在規則變化、不確定性、個人偏見和隨機性的動態環境中運行[3]。
戰術模擬是MDMP的一個重要組成部分,MDMP是軍隊制定作戰計劃、預測敵方部隊的反擊行動和評估擬議作戰計劃有效性的理論方法,因為它提供了一個安全和替代性的與武裝沖突有關的一些情況和決策動態的再現。雖然 "兵棋推演"一詞沒有統一的定義,但普遍接受的定義可以追溯到19世紀初。它被認為是通過任何手段,使用特定的規則、數據、方法和程序來模擬軍事行動[4]。因此,在進行MDMP的定義和重要性之前,必須對兵棋推演做出明確的說明。MDMP始于從上級總部收到的任務。然后,通過利用其他來源的情報進行任務分析。在下一步,處理指揮官的意圖、行動要求和可用資源,以制定行動方案(COA),包括任務組織計劃。在制定行動方案后,通過兵棋推演進行行動方案分析,重點是行動、反應、反擊和裁決過程,以重新確定行動方案和潛在決策點。
圖1 軍事決策過程總結。
在MDMP中,COA分析通常被稱為兵棋推演,它將COA的發展與COA的比較和批準聯系起來[5]。在比較步驟中,每一個COA都根據規定的標準進行評估,如簡單性、機動性、熱能、民用控制和規模性,這些標準在一個決策矩陣中被賦予了評估的權重。此外,從比較步驟中選出的COA應具有最小的風險、最大的安全性和靈活性。然后,根據COA的比較結果完成COA的審批過程,在最后一步,指令生成并與相關單元共享[6]。從總體上看,圖1給出了MDMP的整體流程。
在這項研究中,提出了開發情報、監視和偵察(ISR)和壓制敵人防空(SEAD)作戰計劃,這些計劃由上層人工智能和輔助的、分布式的決策策略支持,以評估生成的COA的成功概率、資產的生存能力和作戰效率。這個過程是在經典的MDMP方案的基礎上發展起來的,以便于在現實世界的應用中實施,它能夠在行動前或行動中提供快速評估和客觀比較COA。這個過程從接收來自MDMP第二步的任務分析結果開始。在COA開發步驟中,最初的任務分配過程是利用CBBA算法進行的,該算法能夠解決具有分布式的通信結構、異質集合和在線重新規劃要求的分配問題。在創建了幾個行動計劃(即COA)后,它們被輸入兵棋推演過程以評估其有效性。之后,這些行動方案在成功概率、生存能力和成本方面被相互比較,最有效的方案被送去審批步驟。圖2給出了重點框架的總體概況。
圖2 COA生成框架。
本研究的貢獻有三個方面:a)開發一種智能兵棋推演方法,以加速MDMP中的行動方案分析步驟,從而為軍事行動創造更多的候選COA;b)產生針對對面部隊的有效戰術,以提高作戰成功率;c)為未來的系統開發一種有效的、可視化的和強大的基于兵棋推演的MDMP框架,這些系統需要一個小型的操作團隊來監督自動智能體網絡。本研究的其余部分結構如下:在第2節,將對文獻中的相關研究進行調查。第3節描述了問題陳述,第4節給出了針對該問題的解決方案所需的背景。在第5節中,將給出在創建這項工作時遵循的方法,第6節展示了模擬研究的結果。最后,第7節是文章結尾。
兵棋推演模擬被用作不同領域的決策工具,從商業到軍事[8],從沖突場景到監視或危機演習,從軍事角度看搜索和救援任務[9] 。在Filho等人[10]中,使用兵棋推演的方法優化了無人機在超視距戰斗中的位置。考慮到兵棋推演中敵人的不確定性,研究了友軍蜂群團隊戰術編隊的有效性。Chen等人[11]提出了一個基于決策樹的城市暴雨情況下的緊急救援兵棋推演模型。在該模型中,雖然敵人的任務僅限于道路積水,但友軍團隊由試圖防止這種積水的應急車輛組成。Su等人提出了基于地理信息系統(GIS)的兵棋推演援助平臺,以防止臺灣地區的蓄水[12]。基于兵棋推演的策略的另一種使用方法是危機演習,Song等人指出,兵棋推演是一種有效的危機演習方式,成本低,方式方便[13]。
一個有效的兵棋推演策略取決于對下屬指揮官完成任務所需資產的準確和最佳分配/配置[7]。許多方法已經被開發出來,使智能體能夠根據已知行動的任務列表在他們之間分配任務。這些方法的主要思想是不僅要提高任務的有效性,而且要降低行動成本和風險。集中式任務分配,需要在智能體和中央服務器之間建立通信聯系,為整個團隊生成一個分配計劃。由于集中式系統能夠減少地面處理要求的負擔,它們能夠有效地使代理人更小、更便宜地建造。此外,據調查,在集中式任務分配系統中使用啟發式方法,如遺傳算法[14-16]和粒子群優化方法[17-19],在計算時間方面有更好的表現[20]。另一方面,由于集中式任務分配的結構,智能體和行動基地之間應保持持久的通信,以提供合作,這需要發送/接收操作更新。這種對通信系統的要求直接影響到智能體組的能力和穩健性。
與集中式應用相反,可以通過利用分布式方法來提高兵力組合的性能和穩健性,在這種方法中,需要智能體之間的通信來獲得對特定任務集的共識。這種類型的通信拓撲結構在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下增加了兵力組合的穩健性[21]。在這種情況下,文獻中已經研究了消除對中央基地的需要的分布式規劃方法。這些方法中的大多數都假設有完美的通信,并有一定的帶寬,以確保智能體在規劃前有相同的態勢感知。然而,這在現實世界的場景中很容易被違反,包括搜索和救援任務,在這些場景中,智能體的通信范圍有限或通信渠道的帶寬有限[22]。在態勢感知不一致的情況下,分散的任務分配算法可以通過利用基于共識的算法,如基于共識的捆綁算法(CBBA)來增強,以便收斂在一個一致的解決方案上[23-25]。不僅有可以集成到分布式框架中的共識算法,文獻中也有基于部分可觀察馬爾可夫決策過程(POMDP)的方法[26]。盡管共識算法保證了信息的收斂,即達成共識,但這可能需要大量的時間,并且經常需要傳輸大量的數據,這可能導致在低帶寬環境下的高延遲,并增加了為無人系統找到最佳任務分配解決方案的處理時間[27]。也有一些關于中間層次結構的報告,即混合結構,介于集中式和分布式結構之間,用于從兩種方法的優點中獲益[28]。
盡管有許多嘗試試圖解決無人駕駛異構飛行器的任務分配問題,而且前面提到的所有研究都考察了底層自動化(以規劃和控制算法的形式)分配異構無人駕駛飛行器(UxVs)網絡的能力,但在產生COA的MDMP中整合增強/高級人工智能生成的指導和輔助決策支持是至關重要的[29]。一些初步的嘗試,如國防高級研究計劃局(DARPA)的 "拒止環境中的協作行動"(CODE)計劃和 "分布式戰斗空間管理"(DBM)的廣泛機構公告(BAA),被提出來改善人類與自動化的協作和決策,通過執行一系列自動化和自主行動來協助戰斗管理者和飛行員[30]。然而,這種具有不同任務分配方法的框架可能是脆弱的,無法對突發事件做出反應。這樣的系統可以通過人類操作者帶來他們基于知識的推理和經驗來緩解[31]。
因此,很明顯,任務規劃者和平臺內的操作者框架都應該被仔細構建。模擬和分析這種框架的最重要的平臺之一是兵棋推演,它被用來執行關于未來部隊資產、軍事能力的決策,并為許多行動做準備。兵棋推演能夠以許多不同的方式執行,從研討會的兵棋推演,到手工棋盤游戲,再到復雜的計算機輔助兵棋推演[32],其中由計算機判斷交戰的后果[33]。
關于該主題的初步研究以來,智能兵棋推演對于促進軍事決策是否有價值一直受到質疑[34]。這些系統在決策過程中的作用也在四個主要學科下進行了討論,即傳感、態勢感知、計劃生成和學習[35, 36]。在這些討論之后,隨著人工智能學科的進步和技術的發展,據報道,將人工智能應用于軍隊的MDMP具有很大的潛力,可以支持指揮中心對競爭激烈和更加復雜的戰場進行規劃,因此Schwartz等人在輔助性人工智能架構中用遺傳算法(GA)來解決這個問題[37]。Boron等人將基于人工智能的兵棋推演整合到決策過程中,他們在不同的戰斗場景中使用強化學習(RL)來評估其算法的性能[38]。Xin等人考慮了以往研究中通常被忽略的不確定性,因此他們提出了一個名為混合智能多分支兵棋推演的解決方案,通過融合基于RL的人工智能方法和人類智能來考慮不確定性[39]。最近,Tarraf等人提出了一個兵棋推演框架,其中規則和交戰統計用于商業桌面兵棋推演,以實現遠程操作和完全自主的戰斗智能體和具有AI/ML支持的態勢感知的智能體[40]。Goecks等人討論了過去和現在關于游戲和模擬器以及人工智能算法如何被調整以模擬軍事任務的某些方面的努力,以及它們如何影響未來的戰場。此外,他們研究了虛擬現實(VR)和視覺增強(VA)系統的進展如何為游戲平臺的人機界面及其軍事提供新的前沿[41]。
在MDMP的步驟2中確定了問題、任務要求、假設和評估標準后,重要的是將藍隊的軍事單位分配給合適的紅隊任務。這是通過利用基于共識的捆綁算法(CBBA)[27]來完成的,該算法支持分布式的、異構的任務和動態環境。在本節中,將給出和描述CBBA算法的細節。
CBBA是一個去中心化的基于市場的協議,它為異質智能體網絡上的多智能體多任務分配問題提供了可證明的良好近似解決方案,并通過使用去中心化的通信方法來解決協調異質自主車輛的任務分配問題[27]。這種類型的通信拓撲結構消除了對中央基地的需求,并且在智能體損失、通信損失和任務列表的實時更新(即添加和刪除任務)的情況下,它增加了任務組的穩健性。CBBA是由兩個階段交替進行的迭代組成的:第一階段是捆綁構建階段,其中每個車輛貪婪地生成一個有序的工作捆綁,第二階段是共識階段,其中相鄰的智能體之間通過本地通信找到并解決沖突的任務。圖3展示了CBBA的內部循環。
為了創建可支持、可擴展和易修改的模塊化架構,我們決定將智能任務規劃器分成四個子組。引擎模塊包括主要的引擎腳本,它包含了關鍵的方法,如任務分配、尋路、戰略、交戰和其他一些重要的方法,以便在模擬過程中前進。引擎腳本中的任務分配方法使用基于共識的捆綁算法(CBBA),該算法也在引擎模塊中。環境模塊包括腳本中的世界對象,它給出了仿真環境的邊界,也是這個環境的網格表示,并附有任務、地形、敵人存在的費用。模型包含關于模擬過程中使用的代理和任務的必要信息。為了創建異質智能體,UAV、UGV、USV和近距離防空(CAD)智能體對象被單獨創建,團隊對象被創建用于設置敵方團隊并跟蹤團隊所做的動作。視圖模塊負責以視覺角度表示結果。圖4給出了智能任務規劃器的模塊結構概要。
在模擬環境中,殺傷力熱圖在空中、地面和海上層生成,以模擬特定區域內敵對力量的火力。這些熱圖是基于內核密度估計(KDE)算法生成的,該算法用于估計地圖上某一點相對于對面部隊位置的危險等級(即對面部隊的有效等級)。在這項研究中,假定軍事單位根據范圍的致命性分布被建模為夸特函數或埃帕尼科夫函數,如公式5所示。
其中d是軍事單位與地圖上指定點(即相關六邊形的中心)之間的距離。對于在d=0時的殺傷力計算,分布的最大值被縮放為1。 圖5中給出了空中、地面和海上層的熱圖生成結果示例。這里給出了a)地面層、b)海軍層和c)空中層的紅隊單位的殺傷力熱圖。在地面層,UAV、UGV、USV和CAD單位都是對藍軍的有效威脅,在給定的自由區域。在海軍層,USV是主要威脅,但UAV、UGV和CAD也是有效的。在空中層,乍一看,似乎對藍隊沒有威脅,因為紅隊的UAV、UGV和USV對藍隊的空軍沒有效果。然而,如果CAD資產存在于該地區,它將是對藍隊的關鍵威脅,結果將是致命的。
圖 5 紅隊在 a) 地面、b) 海軍和 c) 空中層的殺傷力熱圖。
圖 6 示例案例:地面層紅隊的殺傷力熱圖
圖6給出了模擬環境的另一個例子。為了便于可視化,沒有在環境中插入CAD單元。這里給出了地面層的無人機、UGV和USV的殺傷力熱圖。在這種情況下,與地面層的USV相比,UAV和UGV的殺傷力相對較高,因為USV的射程和效率有限。這可以通過利用表1中給出的軍事單位的效率表來直接模擬。該表提供了每種類型的資產對不同層的破壞效率的信息。
表1每種資產的損害效果表。
戰斗模型對戰斗實體、它們的行為、活動和相互關系進行抽象和簡化,以回答與國防有關的研究問題。沒有一個通用的模型可以回答所有的問題,即使可以構建這樣的模型,它也會變得比現實更復雜,因為它不僅包括真實的系統,還包括想象中的系統。戰斗模型可以是隨機的,也可以是決定性的。直觀地說,一個隨機的模型假設關于某種情況的不確定或概率性的輸入,并對結果作出不確定的預測。一個確定性的模型準確地指出將會發生什么,就像沒有不確定性一樣。更正式地說,一個隨機模型需要用概率理論的術語來描述,而一個確定性的模型則不需要。
其中F, HP, L, PH, PD , PT, PW, PL分別是總火力、火力健康度、致命性、命中概率、探測概率、瞄準系統可靠性、武器可靠性和層效率。在這里,建立軍事單位的損傷矩陣也很重要,它決定了它們在交戰中對敵軍的有效性。在模擬環境中,損害矩陣被假定為表1中的內容。通過使用這些定義,每個資產的生存能力被建模為公式7和8中給出的。
其中Fk、Mk是相關團隊在時間k的火力和機動性。Fok是敵對部隊在時間k的火力。
有效的評估包括定量(基于觀察)和定性(基于意見)指標。人的判斷是評估的組成部分。任何評估的一個關鍵方面是它對人類判斷的依賴程度,以及對直接觀察和數學嚴謹性的依賴程度。嚴密性解決了不可避免的偏見,而人的判斷將嚴密性和過程集中在往往是成功關鍵的無形因素上。口頭定義是直截了當的陳述,但為了以智能方式訓練整個系統,將這些句子表示為數學指標是關鍵。從口頭到數學指標定義的過渡是一個開放式的程序,它可以通過手動選擇的方式來捕捉最佳決策[42]。
為了評估紅隊和藍隊的機動性和火力能力,制定了幾個戰斗力評估指標,如公式9和10所給出。
兵力的組成與CBBA的評分功能密切相關,具體如下。
這個函數給出了一個智能體在時間tj到達任務時從任務j中得到的分數。分數由兩部分組成,第一部分是任務的名義獎勵,Rj(aj),它是aj的函數,即分配給任務j的智能體指數,第二部分是折扣函數,它是任務j的到達時間的函數,tj。λ是一個折扣系數,用于解釋目標值隨時間的減少。這個系數包含在目標函數中,以更好地代表現實世界中的問題,即訪問目標的價值與訪問的時間成比例地減少[43]。
由于折扣系數改變了任務到達時間的影響,它需要根據世界的大小進行調整。因此,我們提出了以下結構,從圖7中可以看出,以克服選擇最佳折扣系數和兵力配置的問題。
圖7 基于λ搜索算法的兵力編碼器結構
在DARPA終身學習機器(L2M)項目下,我們探索了一種自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。然后,這些開發的算法通過模塊化框架整合在一起,產生了一個同時支持分類和強化學習任務的L2M系統。
我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比,對于該基準的Condensed和Dispersed場景,我們的結果顯示我們的系統有能力大大加快學習速度,平均前向遷移率為4.18和3.55,平均樣本效率為1.32和1.15。除了效率之外,我們的系統還顯示出比單任務專家更有效的性能,相對性能比為1.04和1.03,正向遷移比為1.12和1.04。
我們還通過使用Matterport 3D的機器人尋寶游戲,將這個L2M系統應用于綜合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示,與單任務專家相比,我們的系統學習分類任務的速度和準確性大約是他們的兩倍,顯示出平均相對性能為2.21,平均樣本效率為1.71,同時完全緩解了災難性遺忘。對于該領域的強化學習設置,我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率,這表明我們的終身學習智能體能夠學習新的任務,同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力,其平均前向遷移率為3.11。然而,經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統,我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言,我們的項目產生了110多篇科學出版物,展示了我們的工作和成果,從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子,我們的項目開發了最先進的使用占位預測的視覺導航,贏得了2020年人居署PointNav挑戰賽,并在2022年ICRA會議期間,在觀眾面前展示了服務機器人的實時終身學習的現場演示。
本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目,涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。
我們的項目探索了自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。
在第一階段,我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。
在第二階段,我們開發了一個綜合的、模塊化的框架,將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中,每個方面最有前途的算法被選為該系統中的模塊。然后,我們將這個L2M系統(1)應用于約翰霍普金斯應用物理實驗室(APL)的MiniGrid終身學習基準;(2)通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段,我們還繼續開發了第一階段的個別算法,并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時,我們就把它們過渡到L2M系統的模塊中。
由于這個項目包含了大量的算法(詳見附錄A),本報告將在第3.1節中首先關注綜合的L2M系統,展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后,我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的,首先探討綜合L2M系統在APL MiniGrid(第4.2節)和我們對具身智能體的Scavenger Hunt(第4.3節)的應用中的評價,然后探討本項目下開發的單個算法的評價(第4.4-4.5節)。
我們的工作產生了一些主要的貢獻,在本節中有所描述。為方便起見,我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的,我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度,以及它們對我們應用的必要性。
一個綜合的終身學習框架。 我們開發了一個模塊化的終身學習系統,在現實的服務機器人環境中支持分類和強化學習(RL)任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合,我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊,可以與核心分類和RL管道相結合,包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用,我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。
用于終身深度學習的去卷積因子化CNN(DF-CNN)。在非深度多任務和終身學習方面的現有工作表明,使用模型參數空間的因子化表示進行轉移是成功的,允許更靈活地構建任務模型。受此啟發,我們介紹了一種在卷積神經網絡(CNN)中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5],使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明,DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能,抵抗災難性的遺忘,并表現出反向轉移,從隨后的經驗中改善先前學到的任務,而無需重新訓練。與單任務學習者相比,DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進,擊敗了其他多任務和終身學習基線。
終身策略梯度:無遺忘的快速訓練(LPG-FTW)。 策略梯度(PG)方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中,智能體在其一生中會面臨多個連續的任務,重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法,通過策略梯度直接訓練終身函數近似器,使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明,我們的算法比單任務和終身學習基線學習得更快,收斂得更好,并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中,LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進,比最接近的終身學習方法改進了533%。
快速適應的元優化器(KFO)。 我們開發了一種算法,META-KFO,它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度,但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時,還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習:上層具有轉化底層梯度的同等效果,就好像上層是一個外部元優化器,在一個僅由底層組成的較小的網絡上運行。
高效探索和導航的占位預測(OCCANT)。最先進的導航方法利用空間記憶來概括新的環境,但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測,智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來,智能體就能更迅速地建立起自己的空間意識,這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文,我們的模型成功地預測了一個更廣泛的環境地圖,其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架,利用來自自我中心RGB(D)視圖的語義和幾何背景;(2)一個新的探索策略方法,結合占有率預測,以較少的探索獲得更完整的地圖;(3)成功的導航結果,在蘋果對蘋果的比較中,包括在歸納到一個不相交的數據集中的環境時,比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。
**學習內在獎勵的策略梯度方法(LIRPG)**最佳獎勵問題[6]旨在學習內在獎勵的參數,使所得獎勵達到RL智能體的學習動態,使從某些分布中抽取的任務的壽命(外在)回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上,我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數,并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時,我們通過考慮內在獎勵對策略參數的影響來計算元梯度,用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析,我們展示了我們的方法如何鼓勵在不確定的情況下進行探索,利用對象之間的因果關系,并考慮到非平穩的獎勵。
強化學習的課程策略(CMDP)。 強化學習中的課程學習是一種訓練方法,旨在通過首先在一系列較簡單的任務上進行訓練,并將獲得的知識轉移到目標任務上,從而加快對困難目標任務的學習。自動選擇這樣的任務序列(即課程)是一個開放的問題,也是該領域最近許多工作的主題。在這個項目中,我們以最近的一種課程設計方法為基礎,將課程排序問題表述為馬爾科夫決策過程(MDP)。我們對這一模型進行了擴展,以處理多種遷移學習算法,并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法,并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明,我們的方法產生的課程可以訓練智能體在目標任務上的執行速度,甚至比現有的方法更快。此外,我們最近的進展表明,這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。
目標關系和分布模型(OBJMAP)。 為了幫助定位智能體更有效地解決視覺搜索任務,我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候,一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題,建立一個包含所有看過的目標位置的環境地圖,然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。
組合式終身分類(COMPCLF)和強化學習(COMPRL)。人類智能的一個特點是能夠構建自成一體的知識塊,并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質,學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止,對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作,提出了一個通用的框架,用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段:學習如何最好地結合現有的組件以吸收一個新的問題,以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡,正如我們在分類環境的廣泛評估中所顯示的那樣。然后,我們探索了一種基于神經模塊的RL的特殊形式的組合,并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看,我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法,該方法利用積累的神經組件來加速對未來任務的學習,同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征,當任務大規模多樣化時,比非模數方法提供了82.5%的相對準確性的性能增益。
用于改進目標檢測的視頻中的無監督硬例挖掘(DETFLICK)。 最近,通過使用專注于硬負面例子的訓練目標,即目前被檢測器評為正面或模糊的負面例子,在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時,這些例子會強烈影響參數。不幸的是,它們在訓練數據中往往是稀疏的,而且獲取成本很高。在這項工作中,我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是,在時間上孤立的檢測,即沒有相關的之前或之后的檢測,很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性(以及硬陽性)的簡單程序[11]。我們的實驗表明,在這些自動獲得的例子上重新訓練檢測器,往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗,包括人臉檢測、行人檢測和其他目標類別。
使用自我訓練使目標檢測器自動適應新領域(STSL)。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽,再加上通過使用跟蹤器的時間線索獲得的硬(錯誤分類的)例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失,并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估:在WIDER-Face上訓練的人臉檢測器,由從網上抓取的高質量圖像組成,適用于大規模的監控數據集;在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器,適用于所有其他場景,如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性,通過蒸餾損失使用軟標簽相對于硬標簽的優勢,并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能,對超參數的依賴性最小。
一半和一半。研究視覺常識的新任務和基準(HNH)對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而,現在我們在這些問題上已經取得了一定程度的成功,現在是時候定義新的問題,以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識?我們認為,在不直接可見的情況下,對事物可能存在的位置進行智能評估的能力,是人類和其他智能生物共享的關鍵和普遍的能力,是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子,我們相信它代表了一種技能,在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信,以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中,我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點,我們依賴于這樣一個事實,即一幅圖像的不同視圖描繪的是同一個場景。因此,個別部分可以作為其他部分的背景線索。由于這個原因,我們把這些任務稱為 "一半和一半 "任務[17]。
高效的終身逆向強化學習(ELIRL)。從演示中學習(LfD)的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而,即使是單一的任務,LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體,如果每個任務都單獨學習,這個過程會給用戶帶來很大的負擔。為了解決這一挑戰,我們引入了從演示中終身學習的新問題,這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上,以加速新任務的學習,減少所需的演示量。作為這個問題的解決方案之一,我們提出了第一個反向強化學習的終身學習方法,它通過演示來學習連續的任務,不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。
使用高級共享特征集(SHELS)的任務無關的終身學習。深度神經網絡(DNNs)通常不能在動態開放世界環境中對未見過的類別進行概括,在這種環境中,概念的數量是無限制的。相比之下,人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是,人類通過獨有的(唯一的)基本特征集來描述概念,這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發,我們開發了一個稀疏的高層-排他性、低層-共享特征表示法(SHELS),它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外(OOD)的數據,而通過稀疏的低層特征有效地利用容量,可以容納新的知識。由此產生的方法使用OOD檢測,在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明,在各種基準數據集上,使用SHELS進行新穎性檢測,在統計上比最先進的OOD檢測方法有明顯的改進。此外,我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘,使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。
復合強化學習的基準(CompoSuite)。我們創建了CompoSuite,一個開源的模擬機器人操作基準,用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體,以實現任務目標,同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先,改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務,其中每個任務都需要有意義的不同行為。其次,RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估,并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷,并開辟了新的研究途徑。平均而言,單任務和多任務智能體能夠解決大約40%的任務,而具有明確組成結構的智能體則在此基礎上有所提高,解決了全部基準任務的92%。
用于多智能體強化學習的多智能體-注意力批判(MAAC)。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體,并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題;然而,隨著存在的行為體數量增加,這些方法不能很好地擴展。我們的方法,即多行為體-注意力批評[20],將注意力機制納入集中式批評者,以緩解這一問題。在多智能體領域的實驗表明,相對于最先進的基線而言,性能和可擴展性都有所提高。
用于多智能體強化學習的隨機實體明智因式分解(REFIL)。在智能體的一生中,它可能需要與具有不同能力/技能的智能體團隊合作;然而,在這些智能體的子組中經常出現共同的行為模式。我們提出的方法,即想象學習的隨機實體因式分解(REFIL)[21],試圖利用這些共同模式,通過將價值函數隨機分解為由不相干的實體子組組成的條款,來提高類似團隊的概括性。通過以這種方式構建價值函數預測,我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明,與最先進的基線相比,樣本效率和概括性都有所提高。
解決清道夫服務機器人的隨機旅行購買者問題(STPP)。創造能夠在人類居住的環境中執行通用服務任務的機器人,一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中,我們將這種技能建模為 "尋寶游戲"(Scavenger Hunt,SH),該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中,目標是盡可能快地找到一組物體,給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習(RL)來訓練一個智能體來計劃一個最小成本的路徑,并表明RL智能體可以勝過一系列啟發式算法,實現接近最佳的性能。為了促進對這一問題的研究,我們介紹了一個公開可用的軟件棧和相關網站,使用戶能夠上傳尋寶游戲,機器人可以下載、執行并從中學習,以不斷提高他們在未來游戲中的表現。
基于模型的貝葉斯探索的終身強化學習(VBLRL)。我們提出了一種終身的RL算法,該算法提取了以前遇到的任務中存在的共同結構,以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23],其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步:1)在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性:由描述任務概率分布的世界模型分布捕獲的不確定性,以及由單個任務內(隨機的)動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移,我們將這兩個量的學習過程分開,并保持一個近似于它們的分層貝葉斯后驗。2)執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作,從而提高采樣效率。
關于這些算法的細節將在下一節提供。
本文描述了一個反蜂群場景的作戰概念(ConOps),其中防御方使用蜂群無人機來防御攻擊的蜂群無人機。作戰概念是對一個系統的元素和其環境中的實體如何互動以實現其既定目標的高級概念描述。它已被證明是設計復雜技術系統的一個有用和綜合的要素。本文提出的反蜂群場景將為以下問題提供答案:如何部署兩個無人機群,如何將場景引入仿真系統,以及如何監測和監督其進展。通過使用反蜂群模擬器并與芬蘭國防軍的軍事專家進行討論和訪談,起草了反蜂群場景初步版本的作戰概念。
高度自主和智能的機器人群在軍事領域越來越受歡迎,因為群集系統可以比單一設備更有效和高效地執行許多種任務。蜂群機器人技術是一種旨在開發多機器人系統的技術方法,它以許多具有成本效益的機器人為基礎。在這里,我們介紹了反蜂群場景的作戰概念(ConOps)的開發,在這個場景中,防御方使用無人機群來防御一個目標,以抵御攻擊性無人機群。作戰概念是對一個系統的元素和其環境中的實體如何互動以實現其既定目標的高層次概念描述。它已被證明是設計復雜技術系統的一個有用的綜合要素。反蜂群場景的ConOps將提供以下問題的答案:如何部署兩個蜂群,如何將方案引入模擬系統,以及如何監測和監督其進展。
ConOps開發中的一項關鍵任務是為正在開發的系統定義主要的性能要求。我們進行了專家訪談,在此基礎上,我們起草了機器人車輛群和反群行動的主要要求,并與早期項目中確定的要求進行了比較。在本文中,我們還將概述對機器人群的高級控制概念,包括形勢評估、協調任務進展、報警處理以及提醒其他執法單位和載人車輛注意等任務。
本文的其余部分結構如下。首先,我們回顧了一些關于反蜂群的相關文獻。第二,我們在概念層面上定義了ConOps的含義,給出了一些機器人群的ConOps的例子,并介紹了一個早期的軍事領域的自主機器人群的ConOps。第三,我們介紹了我們的訪談結果,以及為反蜂群場景開發ConOps的目標和進展。
在本文中,我們討論了如何將人工智能(AI)用于政治-軍事建模、仿真和兵棋推演,針對與擁有大規模殺傷性武器和其他高端能力(包括太空、網絡空間和遠程精確武器)國家之間的沖突。人工智能應該幫助兵棋推演的參與者和仿真中的智能體,理解對手在不確定性和錯誤印象中行動的可能視角、感知和計算。人工智能應該認識到升級導致無贏家的災難的風險,也應該認識到產生有意義的贏家和輸家的結果可能性。我們將討論使用幾種類型的AI功能對建模、仿真和兵棋的設計和開發的影響。 我們在使用或沒有使用AI的情況下,根據理論和使用仿真、歷史和早期兵棋推演的探索工作,討論了基于兵棋推演的決策輔助。
在本文中,我們認為(1)建模、仿真和兵棋推演(MSG)是相關的調查方法,應該一起使用;(2)人工智能(AI)可以為每個方法做出貢獻;(3)兵棋推演中的AI應該由建模和仿真(M&S)提供信息,而M&S的AI應該由兵棋推演提供信息。我們概述了一種方法,為簡潔起見,重點是涉及擁有大規模毀滅性武器(WMD)和其他高端武器的國家的政治-軍事MSG。第2節提供了我們對MSG和分析如何相互聯系的看法。第3節通過討論20世紀80年代的系統來說明這一點是可行的。第4節指出今天的挑戰和機遇。第5節簡述了結構的各個方面。第6節強調了在開發人工智能模型和決策輔助工具方面的一些挑戰。第7節得出了結論。在本文中,我們用 "模型"來涵蓋從簡單的數學公式或邏輯表到復雜的計算模型的范圍;我們用"兵棋"來包括從小型的研討會練習(例如Day-After練習)到大型的多天、多團隊的兵棋推演。
MSG可以用于廣泛的功能,如表1所示。每種功能都可以由每個MSG元素來解決,盡管相對簡單的人類活動,如研討會兵棋和Day-After練習已被證明對后兩個主題具有獨特的價值。
通常形式的M&S和兵棋推演有不同的優勢和劣勢,如表2前三欄中的定型。M&S被認為是定量的、嚴格的和 "權威的",但由于未能反映人的因素而受到嚴重的限制。M&S的批評者走得更遠,認為M&S的 "嚴格 "轉化為產生的結果可能是精確的,但卻是錯誤的。在他們看來,兵棋推演糾正了M&S的缺點。M&S的倡導者則有不同的看法。
我們確實認識到并長期批評了正常建模的缺點。我們也從兵棋推演中受益匪淺,部分是通過與赫爾曼-卡恩(P.B.)、蘭德公司和安德魯-馬歇爾的長期合作,但兵棋推演的質量從浪費時間甚至起反作用到成為豐富的洞察力來源。雖然這種見解在沒有后續研究的情況下是不可信的,但來自建模的見解也是如此。
我們本文的一個論點是,這種刻板印象不一定是正確的,我們的愿望(不加掩飾的崇高)應該是表的最后一欄--"擁有一切",將建模、仿真和推演整合在一起。圖1顯示了一個相應的愿景。
這種理想化的活動隨著時間的推移,從研究、兵棋推演、軍事和外交經驗、人類歷史、人類學等方面開始(第1項),匯集關于某個領域(例如印度-太平洋地區的國際安全問題)的知識。這就是對棋盤、行動者、潛在戰略和規則書的定性。
兩項工作的進行是不同步的。如圖1的上半部分,兵棋推演在進行中,為某種目的而結構化。無論圖中的其他部分是否成功執行,這都可能獨立發生。同時,M&S以游戲結構化模擬的形式進行。隨著時間的推移,從M&S和兵棋推演中獲得的經驗被吸收,使用人工智能從M&S實驗中挖掘數據(第4項),以便為后續周期完善理論和數據(第5項)。在任何時候,根據問題定制的MSG都會解決現實世界的問題(第7項)。如同在淺灰色的氣泡中,人類團隊的決策輔助工具(項目6a)和智能體的啟發式規則(項目6b)被生成和更新。有些是直接構建的,但其他的是從分析實驗和兵棋推演中提煉出來的知識。有些智能體直接加入了人工智能,有些是間接的,有些則根本沒有。圖1鼓勵MSG活動之間的協調,盡管這種協調有時可能是非正式的,可能只是偶爾發生。
圖1的意圖可以在一個單一的組織中完成(例如,敏感的政府內工作)和/或在智囊團、實驗室、私營企業、學術界和政府中更開放的持續努力計劃中完成,就像圖2中的DARPA研究稱為社會行為建模實驗室(SBML)。在任何一種情況下,這種方法都會鼓勵多樣性、辯論和競爭。它也會鼓勵使用社區模塊來組成專門的MSG組件。這與專注于一個或幾個得天獨厚的單一模型形成鮮明對比。直截了當地說,這個愿景是革命性的。
圖1的愿景的一個靈感是20世紀80年代的蘭德公司戰略評估系統(RSAS)(附錄1指出了文件)。為了回應美國防部關于更好地利用兵棋推演進行戰略分析的要求,由卡爾-鮑爾領導的蘭德公司團隊提出了自動化兵棋推演,它將利用那個時代的人工智能、專家系統,但它將允許可互換的人工智能模型和人類團隊。這導致了一個多年的項目,我們中的一個人(P.K.D.)在1981年加入蘭德公司后領導這個項目。
該項目從深入設計開始,保留了可互換團隊和人工智能智能體的開創性想法,但也包括一個靈活的全球軍事模型;與人工智能有關的新概念,如替代的紅方和藍方智能體,每個都有彼此的模型;代表其他各方的綠方智能體,有簡單的參數化規則子模型;紅方和藍方智能體在做決定前做 "前瞻 "的能力;以及 "分析性戰爭計劃"--代表軍事指揮官的自適應插槽式腳本人工智能模型。該設計還預計:多情景分析,納入 "軟因素",如定性的戰斗力,以及人工智能模型的解釋能力。圖3勾勒出高級RSAS架構。整個80年代都在實施。蘭德公司將RSAS用于國防部的研究,例如,歐洲的常規平衡和常規軍備控制的建議,并將其出口到各政府機構和戰爭學院。聯合參謀部收到了RSAS,但事實證明連續性是不切實際的,因為一旦有適當才能的官員學會使用它,他們就會被提升到其他任務。
盡管RSAS在技術上取得了成功,但它在某些方面還是領先于時代。一方面,其創新的全球作戰模型被廣泛接受并用于分析和聯合兵棋推演。它成為聯合綜合作戰模型(JICM),在過去的30年中不斷發展,現在仍在使用。另一方面,RSAS的人工智能部分除了用于演示外,很少在蘭德公司之外使用。大多數指導RSAS工作的政府辦公室對政治層面的問題沒有興趣,如危機決策、戰爭路徑或升級。少數人有興趣,這導致了蘭德公司的研究,但在大多數情況下,他們的需求可以通過相對簡單的兵棋推演來解決,包括事后演習(Roger Molander,Peter Wilson)。此外,完整的RSAS是昂貴、復雜和苛刻的。更為普遍的是,隨著蘇聯的解體,美國防部對兵棋推演的興趣驟然下降。
幸運的是,事實證明有可能實現 "去粗取精":用人工智能智能體進行類似RSAS的模擬,可以通過非常簡單的模型和游戲獲得一些重要的見解,正如最近未發表的用對手的替代形象進行核戰爭的工作中所說明的。
RSAS在某種程度上納入了表2最后一欄的大部分想法,所以它顯示了可行性。也就是說,它可以作為某種存在的證明。然而,那是在冷戰時期,采用1980年代的技術。今天能做什么?
今天的國際安全挑戰遠遠超出了冷戰時期的范圍。它們呼喚著新的兵棋推演和新的M&S。新的挑戰包括以下內容。
現在的世界有多個決策中心,他們的行動是相互依賴的。從概念上講,這將我們置于n人博弈論的世界中。不幸的是,盡管諸如公地悲劇和食客困境等現象可以用n人博弈論的語言來描述,而且平均場理論有時也可以作為一種近似的方法來使用,但似乎n人博弈的復雜的解決方案概念還沒有被證明是非常有用的。由于種種原因,這種解決方案并沒有被廣泛采用。商學院的戰略課程很少使用這些技術,國防部的智囊團也很少將這些技術納入他們的M&S中。可能是現實世界的多極化太過復雜,難以建模,盡管在戰略穩定方面已經做出了一些努力。就像物理學中的三體問題一樣,n方系統的行為甚至可能是混亂的。我們還注意到,隨機混合策略在n人博弈中通常發揮的作用很小。同樣,在計算其他玩家的行動時,可能有很多內在的復雜性,以至于隨機化產生的一層額外的不確定性對我們理解未來的危機動態沒有什么貢獻。
與1980年代相比,有更多的國家擁有大規模殺傷性武器(即印度、巴基斯坦、朝鮮),甚至更多的國家擁有大規模破壞性武器。網絡作為一種戰略武器的加入,使問題進一步復雜化。在這里,人工智能可能有助于理解事件。作為一個例子,假設一支核力量受到攻擊,使其用于電子控制的電力系統癱瘓(由于分散和防御,這可能并不容易)。一支導彈部隊只能在短時間內依靠備用電力系統執行任務。大國肯定意識到自己和對手的這種脆弱性。在商業電力領域,人工智能對于在電力中斷后向需求節點快速重新分配電力資源變得非常重要,例如2021年發生在德克薩斯州的全州范圍內的冰凍溫度。
武器裝備的變化擴大了高端危機和沖突的維度,如遠程精確打擊和新形式的網絡戰、信息戰和太空戰。這意味著卡恩很久以前提出的44級升級階梯現在必須被更復雜的東西所取代,正如后面6.3節中所討論的。
一個推論被低估了,那就是現在的世界比以前更加成熟,可以進行有限的高端戰爭--盡管更熱衷于威懾理論的人有相反的斷言--其中可能存在有意義的贏家和輸家。在考慮俄羅斯入侵波羅的海國家、朝鮮入侵韓國等可能性時,這一點變得很明顯。出現的一些問題包括俄羅斯對 "升級-降級 "戰略(北約冷戰戰略的俄羅斯版本)的依賴,以及網絡戰爭和攻擊空間系統的前景。因此,觀察到更多國家部署跨洋范圍的精確打擊武器也是麻煩的。即使是曠日持久的“有限”戰略戰爭現在也可能發生,盡管如第6.3節所討論的那樣,升級很容易發生。
今天的美國安全伙伴有著不同的重要利益和看法。北約在整個冷戰期間表現出的非凡的團結,在現代危機或沖突中可能無法重現。在亞太地區,朝鮮和韓國、中國、日本、臺灣、印度和巴基斯坦之間的矛盾關系是危機中困難的預兆。所有這些國家都有通過使用太空、網絡空間或區域范圍內的精確武器進行升級的選擇。
這里的總體問題是,聯盟仍然非常重要,但今天的聯盟可能與冷戰時期緊繃的街區不同。我們可能正在進入一個類似于20世紀初的多極化階段。第一次世界大戰爆發的一個因素是,柏林認為倫敦不會與法國一起發動戰爭,在歐洲阻擊德國。這導致人們相信,戰爭將類似于1871年的普法戰爭--有限、短暫,而且沒有特別的破壞性。甚至法國在1914年8月之前也不確定英國是否會加入戰爭。這種對自己的盟友會做什么的計算,對穩定至關重要。這里的不確定性確實是一個具有巨大意義的戰略問題。
在考慮現代分析性兵棋推演的前景時,新的技術機會比比皆是。下面的章節列出了一些。
基于智能體的建模(ABM)已經取得了很大的進展,對生成性建模尤其重要,它提供了對現象如何展開的因果關系的理解。這種生成性建模是現代科學的革命性發展。與早期專家系統的智能體不同,今天的智能體在本質上通常是追求目標或提高地位的,這可能使它們更具有適應性。
當然,更普遍的人工智能研究比ABM要廣泛得多。它提供了無限的可能性,正如現代文本中所描述的那樣。我們在本文中沒有多加討論,但是在考慮M&S的未來,以及兵棋推演的決策輔助工具時,最好能有長篇大論的章節來論述有時被確認的每一種人工智能類型,即反應式機器、有限記憶的機器、有限自動機、有自己的思維理論的機器,以及有自我意識的機器。這在這里是不可能的,這一限制也許會被后來的作者所彌補。
聯網現在是現代生活的一個核心特征,人與人之間、組織與組織之間都有全球聯系。數據是無處不在的。這方面的一個方面是分布式兵棋推演和練習。另一個方面是在線游戲,甚至到了大規模并行娛樂游戲的程度,對這些游戲的研究可能產生國家安全方面的見解。這類游戲并不"嚴肅",但在其中觀察到的行為可能暗示了在更多的學術研究中無法認識到的可能性和傾向性。
現在,建立獨立有用的模型(即模塊)并根據手頭問題的需要組成更復雜的結構是有意義的。這種組合與國防部歷史上對標準化的大型綜合單體模型的偏愛形成鮮明對比。在不確定因素和分歧普遍存在的情況下,這種標準化的吸引力要小得多,比如在更高層次的M&S或兵棋推演中。模塊化設計允許帶著對被建模的東西的不同概念。這可以打開思路,這對預見性是很有用的,就像避免驚訝或準備適應一樣。也有可能將替代模型與數據進行常規比較,部分用于圖2中建議的常規更新。另外,模塊化開發有利于為一個特定的問題插入專業性,這是2000年中期國防部研討會上建模人員和分析人員社區推薦的方法。
今天,AI一詞通常被用來指機器學習(ML),這只是AI的一個版本。ML已經有了很大的進步,ML模型通常可以準確地擬合過去的數據,并找到其他未被認識到的關系。一篇評論描述了進展,但也指出了局限性--提出了有理論依據的ML版本,在面向未來的工作中會更加有效,并強調了所謂的對抗性人工智能,包括擊敗對手的深度學習算法的戰術。
規劃的概念和技術取得了根本性的進展,在深度不確定性下的決策(DMDU)的標題下討論。這從 "優化 "最佳估計假設的努力,轉向預期在廣泛的可能未來,也就是在許多不確定的假設中表現良好的戰略。在過去,解決不確定性問題往往是癱瘓的,而今天則不需要這樣。這些見解和方法在國防規劃和社會政策分析中有著悠久的歷史,應該被納入人工智能和決策輔助工具中。
設計"永遠在線"的系統,并不斷提高智能。從技術上講,大多數國防部的MSG都是人工智能界所謂的"轉型"。該模型或游戲有一個起點;它運行后會報告贏家和輸家。可以進行多次運行,并將結果匯總,以捕捉復雜動態中固有的差異。較新的人工智能模型的設計是不同的,它所模擬的系統是 "永遠在線的"。這被稱為反應式編程,與轉化式編程不同。這些系統永遠不會停止,并且不只是將輸入數據轉化為輸出數據。例子包括電梯系統和計算機操作系統。國防方面的例子包括網絡預警系統,導彈預警系統,或作戰中心。這些都不會"關閉"。防御系統正變得更加反應靈敏,所以必須用模型來表示它們。這一點在1980年代RSAS的更高級別的紅方和藍方智能體的設計中已經預見到了,它們會在事件發生后'醒來',并對局勢和選項進行新的評估,而不是繼續按照腳本行事。
在轉換型模型中,環境中的事件可能會觸發程序按順序采取某種行動。反應式模型則不同。程序在環境中同時做出改變。他們一起改變,或幾乎一起改變。國防工作的一個有趣的例子涉及自主武器。人類和機器決策之間的界限已經模糊了,因為在一個反應式系統中人和機器之間的互動可能是連續和交織的。反應式系統是美國、中國和俄羅斯國防投資的一個主旨。無人機群和網絡預警系統將如何在M&S和兵棋推演中得到體現?除非表述恰當,否則相關人工智能模型在模擬中的價值可能會適得其反。
然而,這僅僅是個開始。隨著機器擁有更好的記憶和利用它們所學到的東西,以及它們納入世界理論,包括對手的思想理論,人工智能將如何變化?一個令人擔憂的問題是,正如Yuna Wong及其同事所討論的那樣,對人工智能的更多使用將增加快速升級的前景。這方面的風險對于專注于最大化某些相對量化措施,而不是更多的絕對結果及其定性評價的人工智能來說尤其高。以冷戰時期的經驗為例,執著于誰會在全球核戰爭中以較高的核武器交換后比率 "贏得"的分析是危險的。幸運的是,決策者們明白,結果將是災難性的,沒有真正的勝利者。即使是1983年電影《兵棋》中的計算機約書亞也明智地得出結論:"核戰爭。一個奇怪的游戲。唯一的勝利之舉就是不玩。來一盤漂亮的國際象棋如何?無論約書亞體現的是什么人工智能,它都不只是關于如何通過數字贏得一場娛樂游戲的ML。
為現代分析性兵棋推演開發一個完整的架構超出了本文的范圍,但建議一些方向是可能的。圖4勾勒了一個頂層架構,表3則更詳細地提出了各種特征。圖4認識到,在考慮許多可能的危機和沖突時,需要深入關注至少三個主要的行為者,以解決當前時代的危機和沖突。一個例子可能是朝鮮、韓國、美國和中國。圖4還要求對軍事模擬采取模塊化方法。
如表3所示,1980年代RSAS的一些特征可能會延續到現代化的版本。然而,許多其他特征應該有很大不同。我們認為表3是討論的開端,而不是終點。
由于在我們的討論中,為大規模的場景生成、探索性分析和不確定性下的決策做準備是很突出的,因此需要強調兩個重要問題:
只有當模擬在結構上是有效的(即只有當模型本身是有效的),不同參數值的探索性分析才是有用的。
從探索性分析中得出的結論可能會有問題,當所研究的案例(情景)的可能性不一樣,它們的概率是相關的,但沒有很好的基礎來分配概率分布。
1、模型驗證
正如其他地方所討論的,模型的有效性和數據的有效性應該分別對描述、解釋、后預測、探索和預測進行定性。另外,必須根據特定的問題和背景來判斷它們。參數化方法有很長的路要走,但模型的不確定性常常被忽視,需要更多的關注,正如最近的一篇文章中所討論的那樣。攜帶目標和價值非常不同的對手模型只是這樣做的一個例子。
關于在不知道案件的相對概率的情況下如何使用探索性分析這個令人困擾的問題,我們建議探索性分析至少在表4中說明的目的上很可能有價值,這些目的都不需要概率。對于每一個例子,探索的目的是找到可能性(如脆弱性或機會),促使采取措施來防止它們,預測它們,或準備相關的適應措施。如果存在一個關鍵的漏洞,就應該修復它,無論它被利用的概率 "看起來 "是低還是高(如果它的概率被知道是很小的,那將是另外一回事)。
本節討論了在思考建模和兵棋推演的人工智能和決策輔助工具時出現的一些問題。首先討論了決策輔助功能。接下來討論了在設想使用人工智能的ML版本來利用大規模場景生成時的一個挑戰。最后一節討論了開發 "認知人工智能 "和相關決策輔助工具所涉及的基本挑戰之一。
如果我們根據我們所看到的對玩家的重要性,而不是對人工智能提供者的興奮點來詢問決策輔助工具的主要功能,那么一些關鍵的功能就會如表5所示。
從科幻小說中,我們可能期望現代游戲的決策輔助工具是高度計算機化的,并由人工智能以相對個性化的形式提供信息,就像艾薩克-阿西莫夫的機器人或電影《2001》中不那么邪惡的計算機哈爾9000。然而,作者迄今為止的經驗是,在游戲中 "幫助 "人類的努力往往被證明是適得其反的,阻礙了本質上人類的自由討論。事實上,這些努力有時會因為分散注意力而使玩家生氣。考慮到這一點,我們分別討論了實用的短期決策輔助工具和更具推測性的長期目標。
表6提供了我們對第一欄所示的簡單決策輔助工具的價值的主觀估計,從低到高。這些都不涉及人工智能。相反,最有價值的輔助工具是具有簡潔的檢查表、信息表或圖表的簡單視圖。評估區分了不同類型的游戲或演習,也區分了玩家之前是否接受過決策輔助工具訓練的游戲。這些評價是在蘭德公司與韓國國防分析研究所合作進行的一些兵棋推演實驗后制定的。
關于簡單決策輔助工具的另一個數據點是蘭德公司同事開發的(但尚未出版)的 "奇怪的游戲"。這是一個關于核使用的高效兵棋推演,玩家代表一個戰區指揮官,通過選擇適當的卡片來進行游戲。該游戲建立了決策輔助工具,包括目標類別和評估選擇何種目標的簡單線性算術。
作為近期決策輔助工具的最后一個例子,最近的一個原型研究采用了一種低技術的方法來進行人類演習,考慮如何在危機和沖突中影響對手。該方法涉及一種定性的方法,即不確定性敏感認知模型(UCM),如圖5所概述。這些機制都是定性的,通過真實或虛擬的白板和互動軟件進行展示和討論。它們包括因素樹、表示有限理性的Red替代模型、影響圖以及戰略明顯優缺點的表格比較。沒有一個涉及人工智能。很明顯,人工智能甚至不會有幫助。也許這是一個重要的洞察力,也許這反映了想象力的不足。現在讓我們來看看長期的情況。
從長遠來看,可能會有更多的東西,我們應該從科幻小說、電子娛樂游戲、甚至主要電視網絡對新出現的選舉結果的實時討論中尋找靈感。僅僅舉例說明在不遠的將來可能出現的功能,在每一個功能中,人工智能系統都會對查詢作出反應。
一個團隊口頭命令對 "成功之路 "進行探索性分析,包括是否有某一盟友的堅定合作。
一個小組詢問,鑒于最近發生的事件,對手的哪些替代模型仍然是可信的。人工智能報告反映了依賴于主觀可能性函數的貝葉斯式分析,這些函數已被更新以反映最近的歷史。
一個考慮有限升級的團隊詢問了潛在的反應。人工智能幫助器顯示了在以前的兵棋推演中觀察到的反應,玩家被認為很好地代表了實際的決策人。它還確定了在模擬中反應不好的條件(在下一節中討論),從而強調了條件的哪些方面需要特別注意以避免災難。
這些猜測是最低限度的,只是為了激發人們對人工智能如何在決策輔助方面發揮作用的更多創造性思維。這個領域是開放的,從某些類型的人工智能的名稱中可以看出,從反應型機器到具有有限記憶、內置心智理論和自我意識的機器,這個領域是開放的,甚至更加明顯。一些主要人物,如珀爾和麥肯錫,自信地預計后者將包括意識本身。然而,那是未來的事了。佩爾將目前的機器人描述為 "像鼻涕蟲一樣有意識"。也就是說,蜂群武器很快就會像鳥群、魚群和昆蟲一樣有 "意識"。
讓我們接下來談談涉及人工智能與M&S的一些棘手問題。它們涉及到哪些人工智能決策輔助工具是可行的。
如前所述,機器學習類人工智能(AI/ML)有可能通過挖掘大規模場景生成的結果來尋找洞察力。然而,成功取決于(1)模擬的質量和(2)用于搜索結果的方法。
大量場景生成的成果可能是有用的,也可能是反作用的,這取決于基礎模型是否足夠豐富,結構上是否符合探索的目的。在研究可能的高端危機時,如果基礎模型假設了完美的理性、認知、聯盟關系,并專注于例如核武器的交換后比率作為結果的衡量標準,那么一百萬種情景的數據庫有什么用呢?對于軍事技術目的,如部隊規劃,可能有價值,但對于威懾或預測實際沖突中的問題,甚至是嚴肅的精英兵棋推演,可能沒有價值。
模型建立者所面臨的挑戰的某些方面是眾所周知的,如認識到對決策者(性格、人格、健康)的替代概念的需要,認識到錯誤認知的可能性,以及允許卡尼曼和特沃斯基的前景理論和其他心理現象所描述的那種非理性決策。應對這些挑戰,至少可以說是困難重重,但至少挑戰是被認可的。
相比之下,軍事模擬和社會行為模擬的一個骯臟的小秘密是,工作場所的模型通常不會產生黑天鵝事件、不連續現象或各種突發現象,而這些現象是研究復雜適應性系統的核心要素,在現實世界和一些大型游戲中都會出現,比如20世紀50年代的 "精英 "高級冷戰兵棋推演。原因有很多,但通常是由于模型是 "腳本化的",而不是基于智能體的,或者--即使它們確實有智能體--沒有給智能體足夠的多樣性、自由度和激勵來產生現實的適應性行為,以及不允許有長尾分布的隨機性。在這些問題上做得更好,對社會行為模擬來說是一個巨大的挑戰,特別是對那些打算與現實兵棋推演相聯系的模擬來說。一些成分包含在復雜的兵棋推演中,因此人們可以觀察到,例如,聯盟的解體和新集團的建立,在團隊看來,這更符合他們的國家利益。今天的模擬通常不允許這樣做。從推測上看,我們認為至少有兩條路可以做得更好。如果可以預見感興趣的突發現象(比如上面的聯盟問題),那么就可以建立適當的對象,模擬可能會識別出何時引導它們出現或消失。但是,最重要的突發現象(包括一些在兵棋推演中出現的現象)可能無法被預期。盡管我們并不聲稱知道什么是必要的,但我們從過去的復雜性研究的經驗中觀察到,突發現象的產生往往是因為復雜的自下而上的互動、多樣性和隨機事件。然而,傳統的高層政治軍事模擬并不具備這些特征。它們的價值在很大程度上是由于它們代表了更高層次的實體和過程,大致與系統動力學的模型相類似。我們的結論是,在前進的過程中,重要的是開發多分辨率的模型系列和將它們相互聯系的方法。例如,一個更高分辨率的基于智能體的模型可能有適應性的智能體,用于所有卷入危機或沖突的國家。仿真實驗可能會發現(就像人類游戲一樣)上面提到的那種突發行為,例如聯盟的偶爾解散、側翼切換和新的便利聯盟的出現。這將是''洞察力'',然后可以導致在更高層次的模型中添加新的智能體,根據模擬中的情況激活或停用的智能體。然而,這將需要類似于最近一本關于社會行為建模的書中所討論的 "自我感知的模擬",特別是伊爾馬茲的那一章,他設想的計算可以監測自己的狀態,并在必要時改變自己的結構,還有一章是作者之間關于出現的辯論。
如果模擬足夠豐富,那么有意義的大規模場景生成是可能的。但然后呢?對模擬數據進行探索性分析的一個核心挑戰是了解如何評估不同情況的相對重要性。一種方法是分配主觀的概率分布,但哪里能找到能夠可靠地估計概率的專家,而不在前面加上諸如 "嗯,如果明天像過去一樣 "的評論。現實上,專家并不是預測或概率的好來源,Tetlock及其同事已經深入討論過了。
一種變通的方法是報告結果的頻率(以百分比計算),例如,好或壞。這可以通過全因子設計或使用蒙特卡洛抽樣來完成。不幸的是,存在著滑向討論"可能性"而不是百分比的趨勢,即使案例的可能性不一樣。另外,在MSG的背景下,這種類型的展示掩蓋了這樣一個現實,即行為者不斷尋找他們將獲得重大優勢的情景空間的模糊 "角落"。因此,在模擬中不經常觀察到的情況可能正是發展中的情況。
我們建議的方法是避開明確的概率分配,而是 "尋找問題"或 "尋找成功"。也就是說,當探索性分析產生的大量數據時,人們可能會尋求找到結果非常好、非常壞或其他的條件。這在關于穩健決策(RDM)和DMDU的文獻中被稱為情景發現。
更進一步,我們敦促人工智能以 "聚合片段"的形式得到提示,其動機來自理論、簡單模型和主題領域的專業知識。一個例子可能是 "沖突開始時的準備狀態"。對于戰略預警時間、戰術預警時間、領導層特征、先前的軍事準備狀態和動員率的巨大不同組合,其數值可能是相同的。也就是說,這個變量是許多微觀初始狀態的集合。另一個例子(假設有合適的智能體)可能是危機發生時的心理狀態,其值包括偏執狂、冷靜和理性以及自信的攻擊性。
鑒于足夠豐富的模擬和理論為人工智能在探索性分析中提供了提示,我們懷疑人工智能可以在識別 "完美風暴 "的情況等活動中完成大量工作--不是為了預測它們,而是為了注意要避免的條件,就像在簡單的兵棋推演中以低技術方式完成的那樣。
另一個ML應用可以從關于對手行動的大規模情報收集中為兵棋推演和M&S創建算法,例如那些潛艇或地面移動導彈。曾經需要幾個月或幾年的時間來收集和分析的東西,現在可能在很短的時間內就能得到,產生可用于兵棋推演或M&S的操作程序的算法。作為一個類比,考慮獲得關于駕駛安全的洞察力。今天最深刻的洞察力來自保險公司(Progressive, GEICO),它基于可下載的軟件,跟蹤個人操作者:他們的速度,左轉的數量,加速模式,等等。這些數據可以與信用評分和其他數據整合。其結果可以是個性化的保險費率。這樣的數據分析已經是今天的現實。應該有類似的軍事和MSG影響。當然,有一些必然是分類的,對于本文的政治軍事重點來說,其意義不如MSG的其他應用。
上面的討論集中在ML式的人工智能上,但所需要的豐富的模擬必須有智能體以更像人類的方式進行推理,這種東西可以被描述為認知型人工智能。在這一點上,決策邏輯使用的因素和推理與人類喜歡相信的東西相似,是他們實際行為的基礎。
1980年代RSAS的紅方和藍方智能體是早期的例子。他們利用廣泛接受的升級階梯結構來描述核危機和沖突中的情況、選擇和決策選擇。
今天,我們需要新一代的更高層次的決策模型,但不存在升級階梯的替代品。也許也不會找到替代品。當從兩方博弈到甚至三方博弈時,復雜性大大增加。一個替代的概念必然會更加復雜--更像是一個n維網格而不是一個階梯--因為升級可能不僅涉及核武器及其目標的數量,還涉及與網絡戰爭、太空戰爭和精確射擊的戰略使用有關的數量、強度和目標。
圖6簡單說明了這一概念,結合了幾個維度,以便人為地顯示只有三個維度的結果。它顯示了一個說明性的情景,開始是一場溫和的常規戰爭(第1項),但隨后依次過渡到嚴重的網絡攻擊(第2項),更廣泛地使用精確制導導彈(PGMs)(第3項),有限的核使用(如箭頭所示的核升級)(第4項),甚至更具破壞性的使用PGMs(如針對大壩和發電廠)。 例如,針對水壩和電網)(第5項),也許大規模殺傷性武器的水平略有提高(也許只是為了以牙還牙),以及全面核戰爭(第6項)。然而,今天,對于某種特定的攻擊會出現在某一軸線上,以及行為者是否會有相同的評估,并沒有共同的理解。不僅"客觀"的答案充其量是短暫的,認知很可能取決于路徑,取決于國家,并受到隨機影響。規劃的一個核心問題是核武近鄰國家之間的長期非核戰爭是否可信。由于常規戰爭和核戰爭的指揮和控制系統的糾纏,這些問題變得更加麻煩。似乎預測模型,無論是否基于人工智能,都不在考慮之列,盡管產生值得擔心的合理情況的模型應該在考慮之列。
對于那些尋求建立認知型人工智能模型以代表危機中的國家決策者的人來說,可能還會列出更多的挑戰,但我們希望我們的例子能吸引眼球。
本文的主要建議是推薦一個研究議程,將建模、模擬、游戲和分析視為相關的和相互交織的。在這樣一個綜合的觀點中,兵棋推演的人工智能將通過使用模型的分析來了解,這些模型包括包含了部分由兵棋推演提供的人工智能智能體。例如,這將導致具有類似于兵棋推演決策助手的人工智能智能體,以及更復雜的算法。它將導致基于兵棋推演的決策輔助工具,它將類似于將有理論依據的ML應用于由探索性分析產生的 "數據",這些探索性分析來自于利用決策智能體形式的AI的M&S。
關于人工智能本身,我們對今天的ML中常見的一些做法提出警告。我們注意到缺乏關于未來危機和沖突的可靠的信息性經驗數據。此外,我們強調,在決策輔助工具和模型中使用的智能體中,都需要解釋。這表明我們更傾向于由認知模型構成的人工智能,即使ML被用來填充和調整該結構。
最后,我們敦促對兵棋推演(包括小規模的活動,如事后演習)和模型所提出的問題要非常謹慎。模型、模擬、游戲和分析仍然是不完美的,有時甚至是明顯不完美的,但我們有可能很好地利用它們來解決許多問題,也就是說,提高決策的質量。預測可能性有很大的潛力;可靠的預測則沒有。
本報告詳細介紹了萊斯大學與美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)之間的合作協議的關于網絡軌道上進行的第二年研究工作。這個項目的驅動力是開發自主網絡,以支持分布式多域作戰,同時對近距離的對手具有強大的彈性。這些尖端的網絡必須具有能源和頻譜效率,能夠自適應不同的作戰條件,并且在設計上能夠安全地應對新一類基于學習的威脅。第二年的一個亮點是DEVCOM ARL和萊斯大學的研究人員在整體參與和出版物方面的重要合作。
圖 用于估計場景幾何的示例網絡拓撲。盟軍節點之間正在進行的數據傳輸被解碼并重新用于對坦克進行成像。
本項目的最終目標是設計新一代的自主無線網絡,以支持分布式多域作戰(MDO),同時對近乎同行的對手具有強大的彈性。本報告總結了本項目第二年取得的進展,并為未來幾年制定了明確的研究方向。
自主網絡對于使軍隊能夠比對手更快地進行MDO演習至關重要。此外,這些也將促進整個戰斗空間(陸地、空中、海上、太空、網絡空間、頻譜、信息環境)和各種作戰功能(情報、任務指揮、火力、維持、保護、運動和機動)的融合和利用跨領域的協同作用。
為了開發新一代的網絡,該項目已被組織成三個相互關聯的研究方向:
從毫米波到太赫茲的安全網絡。材料的創新使人們能夠并且將繼續能夠獲得從低GHz到THz的廣泛頻譜。然而,新的能力帶來了新的挑戰,因為在更高的頻段,通信越來越具有方向性。在這個方向上,我們正在開發新的方法,以利用新興設備的特殊性能,這些設備可以在GHz到THz的頻段上進行傳輸,由萊斯大學的多個實驗室和部署的測試平臺支持。
人工智能(AI)驅動的自適應網絡管理。通信能力的最新進展為網絡管理和優化提供了一系列豐富的調整旋鈕。然而,網絡戰是依賴于場景的,并與信道和流量條件以及設備能力緊密相連。在這個主旨中,我們利用人工智能來了解作戰環境,并將網絡的作戰點引導到最佳狀態,甚至在惡劣的條件下。
保護網絡免受基于人工智能的威脅。基于學習的攻擊已經打開了一個新的威脅載體,被動的對手可以從聆聽正在進行的傳輸中學習,甚至從加密的網絡中潛在地提取關鍵信息。我們正在開發創新,使對手更難提取信息,創新范圍包括新的天線和新的高層方法。
第5、6和7節詳細描述了在這三個方向上取得的進展。作為一個總結性的預演,我們在此提供一份第二年期間每個方向的主要成就清單。
從毫米波到太赫茲的安全網絡
實現了一種保護太赫茲鏈路的方法,該鏈路表現出角色散,表明可以同時實現大帶寬和安全。
實驗證明了來自 "中間元表面 "攻擊的威脅,其中一個強大的對手試圖截獲高度定向的通信而不被發現。
展示了基于多面漏波天線(LWA)架構的強大的移動高定向鏈路的基礎,該鏈路跨度為100GHz至1THz。
人工智能驅動的自適應網絡管理
結合圖神經網絡的表達能力和算法展開的靈活性,為多輸入多輸出(MIMO)系統和能量受限的場景設計了可學習的功率分配機制。
為聯合學習提出了一個可證明的接近最優的功率分配策略,其中包含了學習系統的特定約束。
開發了一種基于圖機器學習的可訓練和可擴展的鏈路調度方法,增強了現有的方法并達到了最先進的性能。
設計了一個訪問控制的學習方案,可以在現有協議之間進行切換和調整,以使預先指定的效用最大化。
保護網絡免受基于人工智能的威脅
開發了一個無監督的 "無線日記 "框架,無需事先訓練就能識別無線節點的數量。
開發了一個框架,在存在錯誤測量的情況下,從一個竊聽者那里估計鏈接率。
開發了一種方法,被動地利用空氣中的無線能量來估計場景的地理位置。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。