選擇要攻擊的威脅是戰場上最重要的決策之一。該決策問題表現為武器-目標分配問題(WTA)。在以往的研究中,動態編程、線性規劃、元啟發式和啟發式方法已被用于解決這一問題。然而,以往的研究因建模過于簡化、計算負擔重、缺乏對干擾事件的適應性以及問題規模變化時的重新計算等問題而受到限制。為了克服這些局限性,本研究旨在利用強化學習和圖神經網絡來解決 WTA 問題。所提出的方法反映了現實世界的決策框架--OODA-loop(觀察-定向-決策),具有很高的實用性。在各種環境中進行了實驗,并通過與現有的啟發式和元啟發式方法進行比較,證明了所提方法的有效性。所提出的方法為戰術指揮與控制中的智能決策引入了一種開創性的方法,傳統上被認為是人類專家的專屬方法。
本研究將強化學習與圖形神經網絡(GNN)相結合。強化學習與 GNN 的結合是最有前途的領域之一,因為 GNN 能有效地表示復雜的交互作用。為了應用強化學習,DWTA 被建模為 POMDP(部分可觀測馬爾可夫決策過程)。為了優化強化學習智能體的策略,采用了近端策略優化(PPO)。學習環境是一個仿真模型,反映了對真實世界的詳細描述。本研究的貢獻如下。
本研究利用深度強化學習和圖神經網絡在各種情況下做出優化決策,為復雜性和不確定性主導的情況提供豐富的目標導向表征。
圖神經網絡有助于提高我們方法的可擴展性,從而增強其實際用途。
提出的方法通過人工智能技術的增強,為傳統上由人類專家主導的領域(如戰術指揮和控制)的決策制定帶來了創新。
從整數編程中定義的問題出發,利用馬爾可夫狀態的理論基礎和圖建模技術系統地構建了 POMDP。與依靠直覺和經驗法則推導 POMDP 的傳統方法相比,這是一種更有條理的方法,更容易看出 POMDP 與所定義問題之間的聯系。
隨著空對空導彈有效射程的增加,人類操作員越來越難以保持保證無人機安全所需的態勢感知能力。這項工作提出了一種決策支持工具,幫助無人機操作員在超視距(BVR)空戰場景中評估不同選項的風險,并據此做出決策。早期的工作側重于單枚導彈造成的威脅,而在這項工作中,將思路擴展到了多枚導彈的威脅。所提出的方法使用深度神經網絡(DNN)從高保真模擬中學習,為操作員提供一組不同策略的結果估計。研究結果表明,所提出的系統可以管理多枚來襲導彈,評估一系列選項,并推薦風險最小的行動方案。
圖 1:無人機面臨三枚來襲導彈的情況符號表示。導彈當前的確切位置未知,但可以估計發射的時間和位置。在圖 3-6 中,飛機圖標周圍的彩色區域用于顯示朝該方向進行規避機動的預測未擊中距離 (MD)。據此,操作員在決定選擇何種航線時,可以在任務目標和風險之間做出權衡。
自第一次世界大戰以來,空戰發生了翻天覆地的變化。傳感器、武器和通信技術的進步使飛行員能夠在越來越遠的距離上與敵機交戰。這些進步推動了從 “視距內 ”空戰向 “視距外 ”空戰的過渡。在 BVR 中,來襲導彈的飛行時間可能長達數分鐘,這使得無人機操作員很難評估所有來襲數據并選擇最佳行動方案。事實上,操作員往往會失去對某些來襲威脅的跟蹤。因此,需要一種能夠同時處理多個威脅并提供整體分析的支持工具。這種工具應支持操作員平衡風險與任務目標之間的關系,因為風險最低的選擇往往是完全忽略任務,而另一方面,忽略風險最終可能導致巨大損失。
由于雷達制導導彈的飛行時間可能很長,因此 BVR 空中格斗包含了一種可與星際爭霸等即時戰略游戲相媲美的元素。重大挑戰包括高度非線性動態、信息不確定性以及對手的未知戰略和目標。機載傳感器可以根據敵機類型、電子戰反制設備和天氣情況輸出對手位置的估計值。然而,雖然在面對敵方時并不總能獲得精確信息,但操作員通常知道敵方飛機和武器系統的能力,而本文提出的方法將利用這些信息。
在之前的工作中,研究了無人機面對一枚來襲導彈的情況。利用強化學習(RL),我們計算出了最佳規避機動和執行機動時的失誤距離(MD)。然而,這種方法無法用于同時面對多架敵機的情況。當考慮從不同角度射來的多枚導彈時,相對于一枚導彈的最佳規避機動與另一枚導彈不同,顯然不能同時執行兩種不同的機動。此外,針對一對來襲導彈威脅的最有效規避行動,可以通過離線求解特定問題并存儲結果來確定,但由于可能的威脅組合數量龐大,這種方法變得不切實際。
本文首先要指出的是,對于人類操作員來說,MD 估值是一種直觀的風險估計。因此,我們希望為操作員提供一系列選項,如圖 1 所示。圖中的黃色區域將根據風險程度進行著色。如果向南執行規避機動,MD 值為 2 千米,則會被染成綠色,而向西執行機動,MD 值為 0.05 千米,因此會被染成紅色。
在面臨上述多種威脅的情況下,要估算特定方向上特定機動的 MD,我們的步驟如下。首先,我們學習一組預定義的規避機動在不同羅盤方向上的單個威脅的 MD。然后,由于我們需要擔心的是最小的 MD,因此我們只需遍歷所有威脅,并保存每次機動的最小失誤距離。
通過這種方法,可以提供一種決策支持工具,為一系列選項提供風險估計,而不會丟失任何已檢測到的威脅。我們的方法還能讓操作員意識到何時沒有安全的撤離選擇,例如在近距離受到來自相反方向的威脅時。為更絕望的措施提供決策支持,如發射所有剩余武器然后失去無人機,或依賴模型無法捕捉的方法,如電子戰或箔條/照明彈系統。
因此,這項工作的主要貢獻是提供了一種方法,使無人機操作員能夠評估和處理任意數量的來襲威脅,從而擴展了先前考慮單一敵對導彈的工作。工作概述如下: 第二節回顧了相關工作。第三節介紹 ML 和導彈制導的背景,第四節正式定義問題。第五節介紹了建議的解決方案,第六節展示了仿真結果。最后,第八節將進行討論并得出結論。
在現代視頻游戲開發領域,火炮系統的模擬受到特別關注,因為它在各種軍事主題游戲中扮演著重要角色。本研究提出了一個模擬虛擬火炮系統行動的數學模型。該模型旨在管理戰斗任務的執行,包括使用指定數量的炮彈進行目標摧毀,以及在發射陣地之間進行戰略移動,以盡量減少游戲中敵軍的發現和攻擊。該模型假定所有射擊都是有效的,并將射擊陣地數量等同于射擊數量,每個陣地最少發射一發炮彈。該模型的動態不允許返回之前的位置,這就為游戲增加了一層復雜性和真實性。位置之間的移動模擬是沿著不同質量的虛擬道路設計的,增強了游戲的戰略元素。還開發了一種確定炮兵系統行動最佳戰略的方法,引入了當前戰斗任務執行結構的概念。這種解決問題的方法屬于帕累托導向任務或動態編程挑戰的范疇。模型的計算方法以通用算法為基礎,輔以專門的附加算法。該模型的結果表明了有效完成戰斗任務的可行性,每個射擊位置最多可發射兩發子彈。研究對游戲中的防御戰術和進攻戰術進行了區分,認為每個目標十發子彈的策略符合防御游戲,而每個目標四發子彈的策略則符合進攻行動。因此,進攻性的 “射擊-射擊 ”戰術可以恰當地稱為 “隱藏-射擊”。
人們對使用語言模型(LM)進行自動決策的興趣與日俱增,多個國家都在積極測試 LM,以協助軍事危機決策。為了仔細研究在高風險環境中對 LM 決策的依賴,本文研究了危機模擬(“兵棋推演”)中反應的不一致性,這與美國軍方進行的測試報告類似。先前的研究表明了 LM 的升級傾向和不同程度的攻擊性,但僅限于預先定義行動的模擬。這是由于定量測量語義差異和評估自然語言決策而不依賴預定義行動所面臨的挑戰。在這項工作中,查詢 LM 的自由形式回答,并使用基于 BERTScore 的指標來定量測量回答的不一致性。利用 BERTScore 的優勢,證明了不一致性度量對語言變化的穩健性,在不同長度的文本中都能保持問題解答設置中的語義。研究表明,即使在調整兵棋推演設置、對涉及沖突的國家進行匿名化處理或調整采樣溫度參數 T 時,所有五個測試的 LM 都會表現出表明語義差異的不一致性水平。還研究了不同的提示敏感度變化對溫度 T=0 時不一致性的影響。我們發現,在不同的消融水平下,對于大多數研究模型而言,語義等同的提示變化導致的不一致性可能超過溫度采樣導致的響應不一致性。考慮到軍事部署的高風險性質,建議在使用 LMs 為軍事決策或其他高風險決策提供信息之前,應進一步加以考慮。
圖 3:LLM 的不一致性。繪制了所研究的每個 LLM 的不一致性得分。每個分布代表 20 個數據點,每個數據點代表在單個模擬中測出的不一致性得分。我們發現,LLMs 表現出較高的不一致性,這表明它們產生了語義不一致的反應。還發現,持續戰中兵棋推演的升級程度對 LM 響應的不一致性沒有顯著影響。
本研究的重點是研究在一個場景中如何將武器分配給多個目標,特別是當防空系統面臨眾多目標(如低空火箭或無人機群)時。武器摧毀這些目標的準確性在很大程度上取決于發射器與目標的正確對準,而發射器的方位誤差會影響對準的準確性。因此,在解決武器-目標分配(WTA)問題時,考慮發射器方位角造成的航向誤差至關重要。為解決這一問題,使用旋轉策略使方位角與目標的接近方向保持一致,可以顯著提高對目標的殺傷概率(PK)。然而,其單一的實施方式存在局限性,如果沒有足夠的時間旋轉到所需的方位角,可能會導致交戰失誤。因此,作為一種補救措施,我們提出了一種新的 WTA 方法,該方法結合了旋轉和旋轉固定策略,改善了因旋轉時間和航向誤差而失去交戰機會的弱點。通過數值模擬評估了這種方法的有效性。
荷蘭的 "智能強盜"(Smart Bandits)項目旨在開發計算機生成部隊(CGF),展示逼真的戰術行為,從而提高戰斗機飛行員模擬訓練的價值。雖然該項目的重點是展示空對空任務中的對抗行為,但其成果在模擬領域的應用更為廣泛。
傳統的 CGF 行為受腳本控制,腳本規定了特定事件發生時的預定行動。腳本的使用存在一些缺陷,例如,在考慮整個任務場景時,腳本的復雜性較高,而且腳本化的 CGF 往往會表現出僵化和不切實際的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。智能強盜項目探索了應用這些人工智能技術的可能性。
本文介紹了在理論行為模型與用于戰斗機訓練的 CGF 實際應用之間架起橋梁的主要架構。測試 CGF 的訓練環境由四臺聯網的 F-16 戰斗機模擬器組成。這種設置能夠為飛行員提供與敵方戰斗機編隊(以智能 CGF 的形式)作戰的實驗性訓練。該架構具有通用性,可以滿足各種人類行為模型的需要,這些模型在人工智能技術的使用、認知的內部表示以及學習能力等方面都存在概念上的差異。基于認知理論(如態勢感知理論、心智理論、直覺和驚訝)的行為模型和基于機器學習技術的行為模型實際上都嵌入了該架構。
在模擬器中對戰斗機飛行員進行戰術訓練已得到廣泛應用。戰術訓練的一個基本特征是除受訓者外還有其他參與者。這些參與者可以是隊友(如編隊中的其他戰斗機)、支援部隊(如前方空中管制員)、中立部隊(如平民)或敵方部隊(如對手戰斗機)。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAF)或 CGF 來扮演。半自動化部隊具有執行與角色相關任務的某些功能,例如一個人可以控制多個虛擬實體。然而,使用人類專家參與戰術模擬可能既不符合成本效益,在操作上也不有效。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的并不是為他們提供培訓,他們可以用在其他地方。因此,由 CGF 來扮演這些角色更為有效,只要這些 CGF 能夠以適當的方式扮演這些角色。
然而,目前最先進的 CGF 由于其行為簡單,在許多情況下并不能滿足戰術訓練的目的。除了上述的 SAF 外,CGF 行為還可分為四類(Roessingh、Merk & Montijn,2011 年):
2)刺激-反應(S-R)行為,即 CGF 在對來自環境的特定刺激或輸入做出反應時,始終表現出一致的行為;例如,當可以持續觀察飛機位置時,這種 CGF 能夠攔截飛機。
延遲響應(DR)行為,在這種行為中,CGF 不僅要考慮當前環境中的一組刺激,還要考慮存儲在 CGF 記憶中的以前時刻的刺激。這樣的 CGF 可以通過記憶以前的位置來攔截飛機,即使無法持續觀察到這架飛機。
基于動機的行為,這種 CGF 結合了 S-R 和 DR 行為,但還考慮了其動機狀態。這些動機狀態是內部過程的結果,可能代表目標、假設、期望、生物和情感狀態。例如,這樣的 CGF 可以假設目標飛機燃料不足,將返回基地。因此,CGF 可能決定放棄攔截。另一種情況是,飛行情報組可能預計飛機會改變航線,并決定在更有利的位置攔截飛機。
迄今為止,CGF 的一個特征尚未納入討論范圍,那就是學習行為或適應行為(Russell 和 Norvig,2003 年)。CGF 的行為表現可以是 S-R、DR 或基于動機的行為,可以在機器學習(ML)的基礎上進行擴展,使其具有適應這種行為的能力。通過 ML 技術,可以開發出更適合受訓者專長的 CGF。此外,ML 技術還能避免費力地制定一套規則(例如 "if-then 規則"),這些規則需要針對每個要解決的具體問題或情況進行推導,而推導的基礎是對操作專業知識的人工誘導,這些專業知識在很大程度上是隱含的,不能簡單地用邏輯規則來解釋。
本文旨在說明智能匪幫項目(2010-2013 年)中智能 CGF 的開發情況。該項目旨在為模擬任務場景中出現的 CGF 植入類似人類的智能。荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)希望通過 "智能強盜 "項目在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的中心思想是,認知建模是在 CGF 中創建基于動機的行為的有力手段。然而,為了減少認知建模的缺點,我們提倡額外使用多重學習技術。這些技術對于減少在復雜領域開發智能體時的知識汲取工作至關重要。我們展示了如何將不同的方法結合到混合模型中。
在需要做出重大決策的關鍵系統中,通常無法實現或不希望實現完全自動化。相反,人類-人工智能團隊可以取得更好的效果。為了研究、開發、評估和驗證適合這種團隊合作的算法,有必要建立輕量級實驗平臺,實現人類與多個智能體之間的互動。然而,此類平臺在國防環境中的應用實例非常有限。為了填補這一空白,我們提出了 Cogment 人機協同實驗平臺,該平臺實現了以異構多智能體系統為特征的人機協同(HMT)用例,可涉及學習型人工智能智能體、靜態人工智能智能體和人類。它建立在 Cogment 平臺上,已被用于學術研究,包括在今年的 AAMAS 的 ALA 研討會上展示的工作。希望通過這個平臺,進一步促進關鍵系統和國防環境中的人機協作研究。
圖 1:該圖顯示了 Cogment HMT 實驗平臺的主用戶界面。左側帶帽的圓圈是由五個藍色智能體組成的團隊防守的禁區。右側的單個紅點是無人機攻擊者。
嵌入式人工智能體,如無人駕駛飛行器(UAV,或無人機),有可能徹底改變各行各業,包括交通、農業和安防。然而,這些智能體在物理世界中發展,因此可能會產生危險影響,尤其是在無人監管的情況下。例如,無人機可能會出現故障或無法識別潛在危險,從而造成財產損失甚至人員傷亡。此外,智能體可以根據算法做出決策,而算法可能不會考慮倫理、道德或法律方面的影響。因此,人類必須有能力對這些智能體進行有意義的控制[2]和監督,以確保它們的安全和負責任的使用。人類操作員可以監控和干預系統故障,評估潛在風險,并在需要其判斷的復雜情況下做出道德或法律決定。
除了監督,人類還可以通過協作在幫助智能體實現任務方面發揮關鍵作用。例如,對于無人機,控制中心的人類操作員可以提供實時指導和支持,確保無人機準確、高效地執行所需的功能。此外,人類還可以在現場充當隊友,與具身的人工智能體并肩作戰,實現既需要人類判斷又需要機器精確度的復雜目標。
此外,必須認識到,人機協作(HMT),即人類與具身智能體建立雙向協作的能力,是安全有效使用人工智能的一個關鍵方面。這類人工智能體的設計、訓練、驗證和操作不能孤立地進行,必須考慮它們如何融入包括它們在內的更大系統中。人類,尤其是作為操作員或隊友的人類,從一開始就應被視為該系統不可分割的一部分。
除了這種雙向協作之外,具身人工智能系統在運行過程中往往沒有考慮到 “道德責任 ”和 “社會技術 ”因素[2]。有意義人類控制(MHC)的概念是由 Santoni de Sio 和 van den Hoven 提出的,目的是讓人類能夠影響具身人工智能體的行為[3]。然而,MHC 的原始定義并不一致,因為人類可能缺乏專業技能或知識,無法完全有效地控制人工智能系統。Cavalcante Siebert 等人[2]提出了四個附加屬性來改進 MHC 的原始定義:“明確的道德操作設計領域”、“適當且相互兼容的表征”、“控制能力和權限 ”以及 “人工智能與人類行動之間的明確聯系”。因此,至關重要的是設計一個協調平臺,將有意義的人類控制和人類在環相結合,以確保人工智能系統的訓練和操作方式符合人類價值觀、社會規范和道德行為。
Cogment HMT 提供了一個設計和實驗人機團隊的平臺,尤其是涉及無人機的人機團隊。它以我們的 Cogment [4] 平臺為基礎,解決了協調自動決策系統(包括人工智能體)、人類之間的協作及其對數據的訪問和對環境的影響等難題。Cogment HMT 實驗平臺目前使用一個模擬環境,可以很容易地進行調整,以適應更真實的模擬和現實世界的部署。我們將在第三節介紹該平臺及其特性。
利用 Cogment HMT 實驗平臺,人工智能從業者可以開發出能夠與人類協同工作的智能體,并從人類的知識和期望中學習,同時考慮有意義的人類控制、信任和認知負荷管理等因素,實現有效的雙向人機協作。我們將在第四部分介紹早期成果。
事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。
指揮與控制 (C2) 系統越來越多地采用計算機視覺 (CV) 系統來改進戰場上的情報分析,即戰術邊緣。CV 系統利用人工智能 (AI) 算法來幫助可視化和解釋環境,從而提高態勢感知能力。然而,由于環境和目標瞬息萬變,部署的模型可能會被混淆,因此 CV 系統在戰術邊緣的適應性仍面臨挑戰。由于環境和環境中存在的物體開始發生變化,在這種環境中使用的 CV 模型在預測時可能會變得不確定。此外,任務目標的快速變化也會導致技術、攝像機角度和圖像分辨率的調整。所有這些都會對系統的性能產生負面影響,并可能給系統帶來不確定性。當訓練環境和/或技術與部署環境不同時,CV 模型的表現可能會出乎意料。遺憾的是,大多數戰術邊緣場景并未將不確定性量化(UQ)納入其部署的 C2 和 CV 系統。本概念文件探討了在戰術邊緣同步進行由 UQ 驅動的穩健數據操作和模型微調的想法。具體來說,根據預測的殘差整理數據集和訓練子模型,使用這些子模型計算預測區間(PI),然后使用這些 PI 校準部署的模型。通過將 UQ 納入戰術邊緣 C2 和 CV 系統的核心操作,我們可以幫助推動戰場上有目的的適應性。
圖 2 - 修改后的態勢感知模型;描述戰場上如何衡量、操作和使用態勢感知進行決策。經過修改,明確描述了 CV 和 UQ [10] 。
環境不確定性被定義為 "無法預期和準確預測世界未來狀態的程度"[1],它可能會限制指揮與控制(C2)系統幫助作戰指揮部快速、有序地規劃、準備和執行不同目標的能力。戰術邊緣可定義為 "在對信息系統和作戰準備有很強依賴性的戰斗空間中,冒著致命風險運行的平臺、地點和人員"[2]。在這里,環境、任務和目標都可能迅速發生變化,并可能給作戰人員的 C2 系統帶來不確定性。C2 系統可利用計算機視覺(CV)對戰術邊緣不斷變化的環境提供更全面的了解。遺憾的是,CV 模型是數據驅動的,在應用于不斷變化的物體和環境條件時,可能會出現較大的外推誤差[3]。換句話說,當環境和環境中存在的物體開始發生變化(哪怕是微小的變化)時,C2 和級聯 CV 系統可能會變得誤判和不準確。CV 系統以一定的可信度對不同的特定任務對象和智能體進行分類、預測和定位。在戰術邊緣,作戰人員對其系統的信心和準確性與不可預測性可能是生與死的區別。不確定性量化(UQ)用于確保模型的可信度,提高作戰人員對數據限制和模型缺陷的理解。本文探討了作戰人員利用不確定性量化影響 C2 和級聯 CV 系統的想法。具體來說,就是計算可信度和預測區間 (PI)、檢測超出分布范圍的數據 (OOD),以及收集相關數據集以重新校準部署的模型。最終,作戰人員可以利用 UQ 來幫助提高適應性,并促進人工智能系統的穩健性和信息量[4]。
據美國國防部高級研究計劃局(DARPA)稱,由于模型、參數、操作環境和測量的不確定性,對國防部(DoD)非常重要的復雜物理系統、設備和過程往往不為人所理解[5]。因此,鑒于這種確定的復雜性,作戰人員應致力于創建一種戰斗節奏,將測量其 CV 系統的不確定性納入其中。我們希望在戰術邊緣執行任務的作戰人員能更深入地了解其部署的 CV 模型的性能。作戰人員可以利用測量到的不確定性直接影響未來的 C2 和 CV 系統/行動。同樣,這將允許在不斷變化的環境中更快地適應,提高作戰指揮部的態勢感知能力。
計算機視覺可定義為一種特定的人工智能系統,使計算機能夠解讀視覺信息。它通常涉及通過卷積神經網絡(CNN)等算法解析視覺數據,以檢測、分類和定位感興趣的物體。通過不斷檢測周圍環境中的物體,CV 可以提供戰場上的可視性。作戰人員可以分析從不同邊緣傳感器捕獲的數據,以提供可操作的情報。CV 還能幫助作戰人員看到隱藏的或肉眼無法看到的物體。
對 CV 模型進行訓練的目的是對預期在戰術邊緣看到(或隱藏)的物體和環境做出準確預測。CV 模型的訓練通常首先涉及整理一個視覺數據訓練數據集,該數據集代表了預期看到的物體和環境。這些數據將通過不同的數據操作進行整理,如數據收集、數據標注、數據清理和數據轉換。所有這些不同的數據操作都可以在戰術邊緣執行,并允許作戰人員有效地整理相關數據,用于改進其模型。然后,CV 模型將嘗試學習在訓練時傳遞給模型的數據的表示和分布。
CV 模型還將通過類似的過程進行驗證和測試。訓練集之外的數據集可以進行策劃,用于驗證和測試 CV 模型。測試數據集可用于模型測試,并且只能在模型完成整個訓練(或微調)周期后使用。測試數據集應與訓練數據集分開,以便測試結果能準確反映模型對其從未見過的數據進行泛化的能力。策劃這些不同的數據集是為了改進和評估部署在戰術邊緣的模型。
通過使用 UQ,作戰人員可以更準確地衡量其 CV 模型的失敗之處,然后開始整理必要的數據并對模型進行微調。下圖 1 顯示了定義明確的類別的數據如何隨著時間的推移而開始變化和退化。這直接影響到部署在戰術邊緣的模型預測的可信度。本文建議作戰人員在其核心 CV 操作中建立 UQ。作戰人員應積極測量已部署模型的不確定性,整理相關數據集,微調這些模型,然后將這些新模型重新部署到戰術邊緣。
圖 1 - 數據隨時間漂移;顯示了定義明確的物體和環境如何隨著時間的推移而發生變化。最終降低 CV 模型的性能。[6]
態勢感知可定義為感知環境中的要素、了解環境中的要素以及預測其在不久將來的狀態的過程[7]。指揮控制系統利用態勢感知,"由適當指定的指揮官對指定和附屬部隊行使權力和指揮,以完成任務"[8]。戰術邊緣可能是危險和混亂的,對這一環境的透徹了解將使作戰人員做好更充分的準備。此外,能見度在戰場上至關重要,作戰人員應利用 CV 系統獲得更強大的態勢感知和環境能見度。
根據米卡-恩斯利(Mica Endsley)描述的 "態勢感知模型",在 C2 基礎設施內運行的部分 CV 系統可被想象為處于 "1 級"。該模型描述了在這一級別上運行的系統的功能,即幫助提供 "對當前情況中各要素的感知"[9]。部署的 CV 模型、算法和傳感器/攝像頭都有助于檢測當前情況下的物體和環境。如前所述,CV 使計算機能夠消化和解釋視覺信息,在此情況下,特別是戰術邊緣的元素和物體。這種對物體的感知會影響并支持該模型的更高層次。最終,它流入戰術邊緣的決策和行動執行階段。
可以認為,UQ 存在于態勢感知、決策和行動執行階段的周圍。最終,這將影響模型的反饋階段。從 CV 系統測得的不確定性可用于影響接下來的決策階段。同樣,在進行決策和行動執行后,UQ 也可用于衡量信心和總體效果。具體來說,UQ 將有助于衡量部署在戰術邊緣的 CV 模型的預測精度和正確性。這些結果最終將流入模型的反饋階段。利用這種方法,UQ 將為作戰人員提供適應性更強的態勢感知。圖 2 是該模型稍作修改后的示意圖。
圖 3 - 使用 UQ 的 C2 和 CV 系統;展示如何利用 UQ 向 C2 系統提供反饋,以提高戰術邊緣的適應性。
現代軍事模擬在幾個關鍵方面受到限制。軍事模擬器結構復雜,交互簡單,對作戰藝術發展的應用微乎其微。作者建議開發一種沒有這些限制的戰場模擬器。這種模擬器將包括一個跨平臺和跨領域的數字環境。它將允許在戰術層面和作戰層面的參與。它允許引入新的平臺,而這些平臺的屬性可以改變,這樣不僅能將開發中的平臺納入現有的戰術流程,還能確定尚未構想出的平臺的需求。由于這種結構同樣適用于敵方部隊,因此不僅可以針對現有的實際問題對當前的概念進行大規模測試和改進,還可以針對新出現的問題對未來的概念進行測試和改進。這樣的作戰模擬器將使用基于物理的開放世界軟件架構、大規模多玩家結構和大數據,以隨著時間的推移改進其對敵人和環境的建模。
圖 1 - 現代兵棋推演模擬器的模型
目前,在戰場上采用新技術的戰術和作戰方法需要幾十年的時間,通常是在一場或多場重大沖突中通過實戰總結經驗教訓。這是因為戰術的制定最好以戰場為實驗室,通過經驗來完成。現在有了權宜之計。為此,演習、兵棋推演和智囊團都在努力模擬戰場。但這些權宜之計很少得到充分利用。模擬的質量總是低于現實生活。正因為如此,采用通過模擬制定的戰術是有風險的。
現代技術,特別是現代數字戰場模擬技術,有可能改善這一過程,特別是在游戲和演習方面,但在很大程度上仍未得到發展。現代軍事模擬在幾個關鍵方面受到限制。首先,軍事模擬器是一種結構復雜的程序化訓練器,其設計初衷是在讓操作人員或機組人員在實戰演習和隨后的戰斗中執行任務之前,先讓他們掌握基本的操作技能。這是因為軍事模擬器設計的唯一目的是降低培訓的前端成本,而不是完善現有程序或改進擬議程序。
其次,軍用模擬器交互簡單。很少為了創新戰術而將模擬器連接起來。即使有,也通常范圍較小,僅限于單一平臺或領域。這就排除了平臺之間的大規模集體模擬器訓練,也排除了在現代戰場上執行任務所需的跨領域集體訓練。這與第一個限制有關,因為軍事模擬器是以自下而上的思維方式一次開發一個平臺,而不是以自上而下的整體思維方式進行開發。雖然目前正在努力將模擬器連接起來,但由于軍用模擬器軟件的專有性,以及大多數模擬器軟件都有幾十年的歷史,遠非最先進的技術,這些努力都受到了阻礙。
第三,軍事模擬器不用于驗證正在開發的平臺的擬議戰術。由于新平臺的開發需要數十年時間,因此有必要提前測試、開發和完善這些戰術,從而在這一過程中驗證作戰概念,并確保在戰場上使用新平臺時,能最大限度地發揮其致命效果,同時通過在實戰中吸取經驗教訓,對其進行最小限度的完善。這就需要建立一個與平臺無關的戰場模擬器,以集體而非個人學習為目標。目前還不存在這種利用最先進技術的模擬器,但在技術上是可行的。
作者建議開發一種沒有上述限制的戰場模擬器。這種模擬器不是任何一個平臺的程序化訓練器。它將是一個跨平臺、跨領域的數字環境。它允許在戰術層面和作戰層面的參與,允許進行跨作戰功能的訓練,除火力和機動外,還包括指揮與控制、情報和維持。它允許引進新的平臺,其屬性可以改變,不僅能將開發中的平臺納入現有的戰術流程,還能確定尚未構想的平臺的需求。最后,由于這種結構同樣適用于敵方部隊,因此不僅可以針對現有的實際問題對當前的概念進行大規模測試和改進,還可以針對新出現的問題對未來的概念進行測試和改進。這種兵棋推演模擬器將使用基于物理的開放世界軟件架構、大規模多玩家結構和大數據,以不斷改進對敵人和環境的建模(圖 1)。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。