事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。
這項工作研究了在任務式指揮設備中嵌入模擬器的實用性和有效性。其目標是僅使用戰區作戰計劃作為模擬輸入,向操作員隱藏所有模擬器細節,使其無需學習新工具。本文討論了一種原型功能,該功能可根據 SitaWare 中生成的作戰計劃以及嵌入式無頭 MTWS 和 OneSAF 模擬器的模擬結果,生成行動方案(COA)分析。在輸入作戰計劃后,指揮官選擇要執行的模擬運行次數,并按下按鈕啟動模擬,模擬在后臺的運行速度比實時運行更快。模擬運行完成后,指揮官可通過圖形和圖表查看結果,對多次運行進行比較。預計未來的能力將允許指揮官模擬任何梯隊和命令,用于訓練和兵棋推演。
指揮與控制(C2)活動涉及國防、應急響應、警務和危機管理等多個領域。這些領域的問題通常具有復雜性,即種類繁多。根據控制論,控制器(C2 系統)的多樣性必須等于或超過作戰環境中受控系統的多樣性。足以控制特定系統的多樣性程度被定義為必要多樣性。
本文旨在將外部和內部多樣性可操作化,縮小高層抽象描述與具體解決方案之間的差距,以便在設計 C2 系統時提出切實可行的建議。C2 系統由方法、技術、人員和組織構成。在這項工作中,我們將重點放在人員和組織方面。我們特別關注人員組成部分中的能力變量。我們根據以往對多樣性等方面的研究,討論了在開展 C2 活動以應對復雜性時,能力變量的哪些方面可能最為重要。
然而,大量的 C2 研究也表明,快速決策對于應對來自對手的問題非常重要。我們詳細闡述了高度內部多樣性的潛在代價,即由于團隊溝通需求的增加,它可能會延遲 C2 團隊的決策。最后,我們介紹了一種調查方法,其中包括模擬外部復雜性,要求由具有不同能力(內部多樣性)的 C2 團隊進行動態決策。
圖 1. 任務響應系統由 C2 系統和執行系統(圖中最右邊的灰色實體)組成。C2 系統由三級指揮系統組成,而三級指揮系統又包括通信、數據提供、定向和規劃等遞歸的通用活動[7,第3頁]。
在本文中,我們將首先對作戰環境或工作空間進行總體描述,包括其特征和與這些特征相關的典型需求。特征和潛在問題之間的多樣性將被稱為外部多樣性。
我們對 C2 的看法是系統性的,這意味著任務響應系統由 C2- 系統和執行系統組成(見圖 1)。我們對 C2 的定義是 C2 是為實現目標而努力解決(軍事)問題的人類活動或系統。C2 過程產生的關鍵產品是指揮和協調[7]。
C2 方法空間可視為對真實 C2 系統關鍵方面的抽象或理論描述。C2 方法空間由三個相互依存的維度構成:a) 信息分配;b) 互動模式;c) 決策權分配[8]。表示具體 C2 系統的一種方法是列出其組成部分:方法、組織、人員和技術[7,第 14 頁]。C2 方法空間的維度與 C2 系統中的組織、方法和技術類別之間存在聯系。每個類別內部的潛在多樣性以及這些類別之間的組合影響著整個 C2 系統控制的潛在多樣性。
然而,在 C2-方法空間中,人員部分并不明顯。我們選擇將工作重點放在人員部分,主要有兩個原因。首先,它可能是 C2 研究中對 C2 系統研究最少的部分。但最近一個值得注意的例外是 Valaker 等人[9]。其次,在我們看來,它是 C2 系統中最具影響力的因素,這主要是因為 C2 與決策密切相關。盡管人工智能(AI)有了長足的發展,但決策仍主要是人類的活動。
當然,人員部分還可以進一步細分為幾個不同的子部分,如個人的人口特征(如性別、年齡、種族)和功能或任務相關的多樣性方面(如知識、技能和專業知識/能力)。在本文中,我們將主要討論能力因素,更具體地說是任務/使命能力[10,第 105-182 頁]。因此,在描述 C2 系統內部多樣性時,能力因素將是我們的主要關注點。
因此,在本文中,我們開發了一種方法,用于更精確地研究多樣性與速度之間的平衡性質及其如何影響性能。歷史事件清楚地表明,如果任務響應系統沒有足夠或必要的多樣性,其代價可能是災難性的。一個著名的例子是 1415 年的阿金庫爾戰役,當時法國裝甲騎士對英國長弓手發動騎兵攻擊,但被有效阻止。這場戰役的結果對法軍來說是一場災難,標志著騎士時代的終結[18]。博伊德(Boyd)提供的經驗中描述了一個速度不夠(關于瞬時機動)的典型例子,在朝鮮戰爭中,由于瞬時機動速度出眾,美國 F-86 戰斗機對俄羅斯米格-15 的殺傷率達到了 10:1[19,第 41 頁]。
指揮與控制 (C2) 系統越來越多地采用計算機視覺 (CV) 系統來改進戰場上的情報分析,即戰術邊緣。CV 系統利用人工智能 (AI) 算法來幫助可視化和解釋環境,從而提高態勢感知能力。然而,由于環境和目標瞬息萬變,部署的模型可能會被混淆,因此 CV 系統在戰術邊緣的適應性仍面臨挑戰。由于環境和環境中存在的物體開始發生變化,在這種環境中使用的 CV 模型在預測時可能會變得不確定。此外,任務目標的快速變化也會導致技術、攝像機角度和圖像分辨率的調整。所有這些都會對系統的性能產生負面影響,并可能給系統帶來不確定性。當訓練環境和/或技術與部署環境不同時,CV 模型的表現可能會出乎意料。遺憾的是,大多數戰術邊緣場景并未將不確定性量化(UQ)納入其部署的 C2 和 CV 系統。本概念文件探討了在戰術邊緣同步進行由 UQ 驅動的穩健數據操作和模型微調的想法。具體來說,根據預測的殘差整理數據集和訓練子模型,使用這些子模型計算預測區間(PI),然后使用這些 PI 校準部署的模型。通過將 UQ 納入戰術邊緣 C2 和 CV 系統的核心操作,我們可以幫助推動戰場上有目的的適應性。
圖 2 - 修改后的態勢感知模型;描述戰場上如何衡量、操作和使用態勢感知進行決策。經過修改,明確描述了 CV 和 UQ [10] 。
環境不確定性被定義為 "無法預期和準確預測世界未來狀態的程度"[1],它可能會限制指揮與控制(C2)系統幫助作戰指揮部快速、有序地規劃、準備和執行不同目標的能力。戰術邊緣可定義為 "在對信息系統和作戰準備有很強依賴性的戰斗空間中,冒著致命風險運行的平臺、地點和人員"[2]。在這里,環境、任務和目標都可能迅速發生變化,并可能給作戰人員的 C2 系統帶來不確定性。C2 系統可利用計算機視覺(CV)對戰術邊緣不斷變化的環境提供更全面的了解。遺憾的是,CV 模型是數據驅動的,在應用于不斷變化的物體和環境條件時,可能會出現較大的外推誤差[3]。換句話說,當環境和環境中存在的物體開始發生變化(哪怕是微小的變化)時,C2 和級聯 CV 系統可能會變得誤判和不準確。CV 系統以一定的可信度對不同的特定任務對象和智能體進行分類、預測和定位。在戰術邊緣,作戰人員對其系統的信心和準確性與不可預測性可能是生與死的區別。不確定性量化(UQ)用于確保模型的可信度,提高作戰人員對數據限制和模型缺陷的理解。本文探討了作戰人員利用不確定性量化影響 C2 和級聯 CV 系統的想法。具體來說,就是計算可信度和預測區間 (PI)、檢測超出分布范圍的數據 (OOD),以及收集相關數據集以重新校準部署的模型。最終,作戰人員可以利用 UQ 來幫助提高適應性,并促進人工智能系統的穩健性和信息量[4]。
據美國國防部高級研究計劃局(DARPA)稱,由于模型、參數、操作環境和測量的不確定性,對國防部(DoD)非常重要的復雜物理系統、設備和過程往往不為人所理解[5]。因此,鑒于這種確定的復雜性,作戰人員應致力于創建一種戰斗節奏,將測量其 CV 系統的不確定性納入其中。我們希望在戰術邊緣執行任務的作戰人員能更深入地了解其部署的 CV 模型的性能。作戰人員可以利用測量到的不確定性直接影響未來的 C2 和 CV 系統/行動。同樣,這將允許在不斷變化的環境中更快地適應,提高作戰指揮部的態勢感知能力。
計算機視覺可定義為一種特定的人工智能系統,使計算機能夠解讀視覺信息。它通常涉及通過卷積神經網絡(CNN)等算法解析視覺數據,以檢測、分類和定位感興趣的物體。通過不斷檢測周圍環境中的物體,CV 可以提供戰場上的可視性。作戰人員可以分析從不同邊緣傳感器捕獲的數據,以提供可操作的情報。CV 還能幫助作戰人員看到隱藏的或肉眼無法看到的物體。
對 CV 模型進行訓練的目的是對預期在戰術邊緣看到(或隱藏)的物體和環境做出準確預測。CV 模型的訓練通常首先涉及整理一個視覺數據訓練數據集,該數據集代表了預期看到的物體和環境。這些數據將通過不同的數據操作進行整理,如數據收集、數據標注、數據清理和數據轉換。所有這些不同的數據操作都可以在戰術邊緣執行,并允許作戰人員有效地整理相關數據,用于改進其模型。然后,CV 模型將嘗試學習在訓練時傳遞給模型的數據的表示和分布。
CV 模型還將通過類似的過程進行驗證和測試。訓練集之外的數據集可以進行策劃,用于驗證和測試 CV 模型。測試數據集可用于模型測試,并且只能在模型完成整個訓練(或微調)周期后使用。測試數據集應與訓練數據集分開,以便測試結果能準確反映模型對其從未見過的數據進行泛化的能力。策劃這些不同的數據集是為了改進和評估部署在戰術邊緣的模型。
通過使用 UQ,作戰人員可以更準確地衡量其 CV 模型的失敗之處,然后開始整理必要的數據并對模型進行微調。下圖 1 顯示了定義明確的類別的數據如何隨著時間的推移而開始變化和退化。這直接影響到部署在戰術邊緣的模型預測的可信度。本文建議作戰人員在其核心 CV 操作中建立 UQ。作戰人員應積極測量已部署模型的不確定性,整理相關數據集,微調這些模型,然后將這些新模型重新部署到戰術邊緣。
圖 1 - 數據隨時間漂移;顯示了定義明確的物體和環境如何隨著時間的推移而發生變化。最終降低 CV 模型的性能。[6]
態勢感知可定義為感知環境中的要素、了解環境中的要素以及預測其在不久將來的狀態的過程[7]。指揮控制系統利用態勢感知,"由適當指定的指揮官對指定和附屬部隊行使權力和指揮,以完成任務"[8]。戰術邊緣可能是危險和混亂的,對這一環境的透徹了解將使作戰人員做好更充分的準備。此外,能見度在戰場上至關重要,作戰人員應利用 CV 系統獲得更強大的態勢感知和環境能見度。
根據米卡-恩斯利(Mica Endsley)描述的 "態勢感知模型",在 C2 基礎設施內運行的部分 CV 系統可被想象為處于 "1 級"。該模型描述了在這一級別上運行的系統的功能,即幫助提供 "對當前情況中各要素的感知"[9]。部署的 CV 模型、算法和傳感器/攝像頭都有助于檢測當前情況下的物體和環境。如前所述,CV 使計算機能夠消化和解釋視覺信息,在此情況下,特別是戰術邊緣的元素和物體。這種對物體的感知會影響并支持該模型的更高層次。最終,它流入戰術邊緣的決策和行動執行階段。
可以認為,UQ 存在于態勢感知、決策和行動執行階段的周圍。最終,這將影響模型的反饋階段。從 CV 系統測得的不確定性可用于影響接下來的決策階段。同樣,在進行決策和行動執行后,UQ 也可用于衡量信心和總體效果。具體來說,UQ 將有助于衡量部署在戰術邊緣的 CV 模型的預測精度和正確性。這些結果最終將流入模型的反饋階段。利用這種方法,UQ 將為作戰人員提供適應性更強的態勢感知。圖 2 是該模型稍作修改后的示意圖。
圖 3 - 使用 UQ 的 C2 和 CV 系統;展示如何利用 UQ 向 C2 系統提供反饋,以提高戰術邊緣的適應性。
全球形勢的變化(如 COVID-19、烏克蘭沖突)加劇了以前存在的與必需品采購和庫存管理相關的挑戰和風險。這次在軍事行動研究學會國家安全風險分析實踐社區的午餐演講介紹了國防分析研究所開發的一種工具:國防工業基地優化模型(DIBOpt)。
聯邦機構利用 DIBOpt 促進采購和投資決策,以最大限度地降低風險。更具體地說,美國政府利用 DIBOpt 編制了醫療對策的預算和采購計劃,國防部利用該工具審查了精確制導導彈供應鏈限制對提高軍事準備狀態的工作(和時間表)的影響。
DIBOpt 允許軍事規劃人員考慮各種因素,包括工業基礎能力、次級瓶頸、價格上漲、獨家制造商、產品現代化、所需數量變化、預算限制以及許多其他因素。這些庫存(包括醫療庫存和彈藥庫存)管理的復雜性和不斷變化的性質需要一個建模解決方案來有效地收集相關輸入數據并生成快速分析。
DIBOpt 還允許決策者探索支持關鍵物品的供應鏈,以確定:1)存在瓶頸的地方;2)這些瓶頸對建立庫存能力的影響;3)降低與庫存不足相關的風險所需的緩解策略。
本文提出了一種基于古代戰爭策略的新型元啟發式優化算法。所提出的戰爭策略優化(WSO)基于戰爭期間陸軍部隊的戰略移動。戰爭策略被模擬為一個優化過程,其中每個士兵都朝著最優值動態移動。所提出的算法模擬了兩種流行的戰爭策略,即攻擊和防御策略。士兵在戰場上的位置會根據所實施的戰略進行更新。為了提高算法的收斂性和魯棒性,引入了一種新的權重更新機制和一種弱士兵遷移策略。所提出的戰爭策略算法實現了探索階段和開發階段的良好平衡。介紹了該算法的詳細數學模型。在 50 個基準函數和四個工程問題上測試了所提算法的有效性。該算法的性能與十種流行的元啟發式算法進行了比較。各種優化問題的實驗結果證明了所提算法的優越性。
古代王國擁有一支軍隊,以抵御其他王朝的進攻。王國的陸軍由步兵、戰車、大象等各種力量組成。在戰爭中,每個王國都會設計一種被稱為 "Vyuha "的戰略來攻擊對方的陸軍,以取得戰斗的勝利,從而確立自己的霸主地位。Vyuha 是戰爭中用于征服對方王國的各種陸軍部隊的模式或排列[69]。為了確保自己的陸軍達到預定目標,實現目標,皇帝和各單元的指揮官會按照特定的模式協調部隊。戰爭戰略是根據任務的目標、威脅、困難和前景制定的。戰爭戰略是一個持續的動態過程,在這個過程中,武裝力量只需協調并與對手作戰。隨著戰爭的進展,這種戰略可以適應不斷變化的條件。國王和指揮官的位置對陸軍士兵的位置有著持續的影響。國王和陸軍指揮官戰車頂部的旗幟代表他們的位置,所有士兵都能觀察到。團隊中的士兵接受訓練,根據鼓聲或其他樂器的聲音來制定策略。當一名軍事指揮官死亡時,戰略就會發生變化,其他每名指揮官都必須學會如何重建和繼續戰爭戰略的建立。國王的目標是征服對方的國王/首領,而陸軍士兵的主要目標則是攻擊對方隊伍,并在軍銜上取得進步。
戰爭戰略的各個步驟如下:
A. 隨機攻擊
在戰場上,陸軍部隊以戰略方式隨機分布在整個戰場上,攻擊對面的軍隊。軍隊中攻擊力最強的人員被視為陸軍首領或指揮官。國王是各軍團長的領導者。
B. 攻擊戰略
該戰略的主要目標是攻擊對方。國王帶頭并指導陸軍部隊。陸軍部隊找出對手的薄弱位置(有希望的搜索空間)并繼續進攻。國王和指揮官乘坐兩輛不同的戰車,戰車頂端插有戰略旗幟。士兵根據國王和指揮官的位置動態改變自己的位置。如果士兵成功提高攻擊力(體能值),他的軍銜就會提高。隨著士兵的晉升,他將成為其他人的好榜樣。但是,如果新的位置不適合作戰,士兵就會回到原來的位置。戰爭初期,陸軍部隊向四面八方移動,大步流星地改變自己的位置。
C. 鼓聲信號
國王會根據戰場上的局勢動態地改變戰略。因此,一群士兵會有節奏地擊鼓。士兵們會根據鼓聲的節奏改變策略,調整位置。
D. 防御戰略
這一戰略的主要目標是在不輸掉戰斗的情況下保護國王。指揮官或陸軍首領帶頭,利用陸軍部隊形成像鎖鏈一樣的包圍圈,將國王團團圍住。因此,每個士兵都會根據附近士兵的位置和國王的位置改變位置。陸軍部隊在戰爭中會嘗試探索大面積的戰場(搜索空間)。為了迷惑對方軍隊,陸軍會不時動態改變策略。
E. 薄弱士兵的替換/轉移
在戰斗中,戰斗技能最低的士兵或受傷的士兵可以與敵軍士兵同等對待。由于他的表現不佳,陸軍的威信完全受到威脅(算法效率)。戰爭中死亡的士兵很少,這可能會影響戰爭的結果。在此,陸軍有兩種選擇。一是用新兵替換受傷/體弱的士兵。第二個選擇是重新安置體弱的士兵。因此,他將受到所有其他士兵的引導(所有士兵的平均位置)和隔絕,以保護他,從而保持陸軍的士氣,使其在戰爭中獲勝的幾率很高。
F. 對方的陷阱
對方陸軍會根據自身的能力采用各種策略,迫使前軍向錯誤的方向移動或到達錯誤的目標(局部最優)。
在空戰中,斗狗提出了錯綜復雜的挑戰,需要同時了解戰略機動和敏捷戰斗機的空中動態。在本文中,我們介紹了一種新穎的長短時間融合變換器 TempFuser,該變換器旨在學習空中斗狗中的戰術和敏捷飛行動作。我們的方法采用兩種不同的基于 LSTM 的輸入嵌入來編碼長期稀疏和短期密集狀態表征。通過變壓器編碼器對這些嵌入進行整合,我們的模型捕捉到了戰斗機的戰術和靈活性,使其能夠生成端到端的飛行指令,從而確保優勢位置并超越對手。在高保真飛行模擬器中與各種類型的對手飛機進行廣泛訓練后,我們的模型成功地學會了執行復雜的戰斗機機動動作,性能始終優于幾個基線模型。值得注意的是,我們的模型即使在面對具有超強規格的對手時,也能表現出類似人類的戰略機動能力,而這一切都無需依賴明確的先驗知識。此外,它還在極具挑戰性的超音速和低空環境中表現出強大的追擊性能。演示視頻請訪問 //sites.google.com/view/tempfuser。
圖 8:評估結果。(A): 針對對手的歸一化傷害率的學習曲線。(B): 與對手交戰的結果(左:F-15E,中:F-16,右:蘇-27)。圖中顯示了本機(藍色)和對手(紅色)從開始到獲勝時刻的三維飛行和水平投影軌跡。(C): 與高規格飛機(蘇-30)對抗時學習到的機外戰術機動的量化結果。(D): 與 F/A-18A 對手進行近音速對抗的量化結果。所有駕駛艙和外部視圖均由 Tacview [36] 可視化。
空對空作戰是操縱戰斗機智能體到達瞄準對手位置的戰術藝術。它也被稱為 "斗狗",因為在大多數情況下,每架戰斗機都會在短距離戰斗中追擊對方的機尾。
要想成功地進行斗狗,智能體需要從長期和短期角度出發,將態勢感知、戰略規劃和機動性能結合起來。
首先,智能體要通過了解對手的長期軌跡來規劃自己的戰術位置。天真地追逐對手的近期位置可能會帶來暫時的優勢,但最終會使自己在日后處于弱勢地位。因此,智能體應不斷評估對手的長期操縱,對其行動做出反應,并對自己進行戰略定位,以獲得對對手的優勢。
其次,智能體需要具備從短期動力學角度理解飛機敏捷機動性的能力。現代戰斗機具有很高的機動性,能夠迅速改變方向和速度,從而使交戰情況迅速發生變化。因此,為了在與對手的交戰中保持優勢地位,智能體應及時從動態角度把握對手的敏捷動作和自身的潛在機動。
長短期時態融合變換器(或稱 TempFuser)是一種網絡架構,專為空中激戰中的策略模型而設計。該架構使用基于 LSTM 的輸入嵌入和變換器編碼器。它處理兩種類型的狀態軌跡:代表機動級狀態轉換的長期時間軌跡和表示動態級狀態轉換的短期時間軌跡。每種軌跡都使用基于 LSTM 的管道進行嵌入,然后通過變換器編碼器進行整合。隨后,使用多層感知器(MLP)模塊和高斯策略架構將編碼器輸出轉換為飛行指令。
在數字戰斗模擬器(DCS)中使用深度強化學習(DRL)解決空中狗斗問題,DCS 被認為是最真實、最逼真的戰斗機模擬環境之一。DCS 提供了一個獨特的平臺,可以配置各種高質量的飛機和空中場景。我們將斗犬問題表述為一個強化學習框架,并設計了一個可以學習戰略性斗犬演習的獎勵函數。
我們用各種對手飛機(如 F-15E、F-16、F/A-18A 和 Su-27)對我們的網絡進行了廣泛的訓練和驗證。結果表明,TempFuser 能夠以端到端的方式學習具有挑戰性的飛行動作,并在性能上優于各種對手飛機,包括那些具有卓越規格的飛機。此外,它還在低空和 1 馬赫以上的高速飛行場景中表現出強大的追擊性能。
在tempfuser為基礎的空中斗狗在DCS模擬器的快照。
不同類型的飛機為對手:F- 15e, F/A-18A, F-16,蘇-30,蘇-27。
圖:與F-15E交戰
圖:飛行軌跡與水平投影
圖:與F-16交戰
圖:飛行軌跡與水平投影
圖:與蘇-27交戰
圖:飛行軌跡與水平投影
圖:對蘇-30對手的定量結果
圖:對F/A-18A對手的定量結果
本文對隱喻性和描述性語言進行了認知導向分析,展示了從事無人機文本研究的學者如何利用對認知語言學的理解來加強和支持其分析。認知語言學為理解語言的概念結構,以及作者在選擇解釋其經驗的方式上所做的選擇提供了一個強大的框架。概念混合理論和認知語法的構解概念被介紹為語言學框架,通過這些框架可以審視無人機話語的意識形態結構。總的來說,它認為認知語言學的方法為理解話語中的常見模式如何(重新)產生和抵制無人機戰爭的意識形態立場提供了寶貴的資源,它提供了來自一系列來源的例子分析,以證明這些特定的框架如何有助于語言和意識形態的分析。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
在不確定性下進行的決策序列出現在各種環境中,包括交通、通信網絡、金融、國防等。為序列決策問題找到最優決策策略的經典方法是動態規劃;然而,由于維度詛咒和建模詛咒,它的用處有限,因此許多現實世界的應用需要另一種方法。在運籌學中,過去的 25 年中,使用近似動態規劃 (ADP)(在許多學科中被稱為強化學習)來解決這些類型的問題越來越受歡迎。通過這些努力,成功部署了 ADP 生成的卡車運輸行業駕駛員調度、機車規劃和管理以及制造中高價值備件管理的決策策略。在本文中,我們首次回顧了 ADP 在國防背景下的應用,特別關注那些為軍事或文職領導層提供決策支持的應用。本文的主要貢獻是雙重的。首先,我們回顧了 18 個決策支持應用程序,涵蓋了部隊發展、生成和使用的范圍,它們使用基于 ADP 的策略,并針對每個應用重點介紹了其 ADP 算法的設計、評估和取得的結果。其次,基于所確定的趨勢和差距,我們討論了與將 ADP 應用于國防決策支持問題相關的五個主題:所研究的問題類別;評估 ADP 生成策略的最佳實踐;與當前實施的策略相比,設計漸進式策略與徹底改進策略的優勢;情景變化時策略的穩健性,例如從高強度沖突到低強度沖突的轉變;以及尚未在國防中研究的,可能從 ADP 中受益的順序決策問題。
關鍵詞:序列決策問題、馬爾可夫決策過程、近似動態規劃、強化學習、軍事
許多決策不是孤立地做出的;觀察到以前不確定的新信息;鑒于這些新信息,將做出進一步的決策;更多新信息到來;等等。這些類型的決策被恰當地描述為順序決策問題、不確定性下的順序決策或多??階段決策問題,其特點是決策對未來獲得的回報或產生的成本、未來決策的可行性以及在某些情況下的外生時間對決策的影響[1],[2],[3]。本質上,“今天的決策影響明天,明天的決策影響下一天”[2, p.1],如果不考慮決策之間的關系,那么所取得的結果可能既沒有效率也沒有效果。
自20世紀50年代以來,人們就知道這種順序決策可以被建模為馬爾科夫決策過程(MDP),它由五個部分組成:一組候選行動;選擇行動后得到的獎勵;做出決策的歷時;狀態,即選擇行動、確定獎勵和告知系統如何演變所需的信息;以及定義系統如何從一個狀態過渡到下一個狀態的過渡概率[4]。給定一個MDP,目標是找到一個決策策略--"一個規則(或函數),根據現有的信息確定一個決策"[3,p.221],也被稱為應急規劃、規劃或戰略[2,p.22]--作出的決策使得系統在給定的標準下表現最佳。尋找最優決策策略的經典方法是通過動態規劃(DP)解決貝爾曼的最優方程[5]。在國防背景下,DP已被應用于確定各種連續決策問題的決策策略,包括艦隊維護和修理[6]、基本訓練安排[7]、研究和開發項目選擇[8]、軍事人員的去留決策[9]以及醫療后勤資產調度[10]。
盡管DP為解決順序決策問題提供了一個巧妙的框架,但它在許多現實世界的應用中的作用有限,這一點早已得到認可。這是由于維度的詛咒[5]--"隨著變量(或維度)數量的增加,問題的難度異常快速增長"[11]--以及建模的詛咒,即需要一個明確的模型來說明系統如何從一個狀態過渡到下一個狀態[12]。雖然今天的計算機可以解決有數百萬個狀態的順序決策問題[13],但許多問題仍然太大,無法通過經典的DP方法有效解決。此外,通常的情況是,狀態之間的過渡概率根本不知道。具有這些特征的順序決策問題貫穿于整個國防領域,跨越了軍力發展、生成和使用的范圍。比如說:
在軍力發展中,關于能力投資的決策可能多達數百項,通常在業務規劃周期內的固定時間進行,并且每年重復。決策者必須考慮所選擇的投資的短期和長期影響,以及未選擇的投資,同時考慮到未來軍事合同的不確定性,聯盟和對手能力的變化,國防特定通脹,等等。
在軍力組建中,決定招募多少名軍人和軍士,以滿足各種軍事職業的要求,同時尊重國家的授權力度,并考慮到各種不確定因素,包括每年的退休、晉升、自然減員等等;
在軍力雇傭范圍內,在大規模疏散行動中決策,如重大海難期間,將哪些人裝上直升機,同時考慮到包括天氣變化、個人健康、直升機故障等不確定因素。
由于這些挑戰,在這些類型的問題中,通常不可能找到一個最優的決策策略,需要采用其他的方法,重點是找到一個好的或接近最優的策略。第一個方法是由Bellman和Dreyfus[14]提出的,在接下來的幾十年里,包括運籌學、控制論和計算機科學在內的各個領域都發展了更多的方法,詳細的討論和相關的參考文獻列表見Powell[15]。此外,數學規劃領域,特別是隨機規劃,已經開發了復雜的算法來解決高維決策和狀態向量的問題,這在現實世界的順序決策問題中經常看到[16]。
在運籌學中,這些方法以各種名義被開發出來;尤其是神經動態規劃、自適應動態規劃和近似動態規劃(ADP)。如圖1所示,這些方法在過去的25年里越來越受歡迎,從1995年到2021年4月9日,共發表了2286篇文章,年發表率從一篇文章增長到每年近250篇。最近,ADP--"一種在模擬中做出智能決策的方法"[17,p.205],其中 "產生的策略不是最優的,所以研究的挑戰是表明我們可以獲得在不同情況下穩健的高質量決策策略"[18,p.3]--已經成為更常用的術語[3]。作者們最近也開始使用強化學習這個標簽,最近出版的《強化學習和最優控制》一書[19]和即將出版的《強化學習和隨機優化:隨機決策的統一框架》一書[20]就是證明。值得注意的是,ADP生成的決策策略已經成功部署到工業領域,包括卡車行業的司機調度策略[21],[22],[23], 機車規劃和管理[24],[25], 以及制造業內高價值備件的管理[26]。
圖1. 1995年至2021年4月9日期間每年發表的ADP相關文章的數量。
在這篇文章中,我們首次回顧了ADP在國防背景下的應用。特別是,我們專注于軍事運籌學領域的同行評議文獻;也就是 "應用定量分析技術為軍事[或民事]決策提供信息"[27]。本文的主要貢獻有兩個方面。首先,我們回顧了18個決策支持應用,這些應用跨越了部隊發展、生成和使用的范圍,使用了基于ADP的策略,并為每個應用強調了其ADP算法是如何設計、評估和取得的結果。其次,基于所發現的趨勢和差距,我們討論了與將ADP應用于國防決策支持問題有關的五個主題:所研究的問題類別;評估ADP生成策略的最佳做法;與目前實行的策略相比,設計策略是漸進式的,而不是完全徹底的;隨著情景的變化,策略的穩健性,如沖突中從高強度到低強度的轉變;我們還建議提出國防內部可能受益于ADP生成策略的其他順序決策問題。
本文的其余部分組織如下。第2節提供了相關的背景信息。第3節介紹了進行此次審查的方法。第4節和第5節是審查的主要內容。第4節回顧了18個已確定的ADP在國防領域的決策支持應用,第5節介紹了與在國防領域應用ADP相關的五個主題。最后,第6節給出了總結性意見。
在本節中,我們介紹了通過上述文獻搜索確定的18篇基于應用的文章的摘要。表2列出了每項研究,其應用領域,以及所實施的ADP策略和算法的特征。所列的特征主要集中在第2.3節中討論的那些特征,即:
決策策略的類型--短視CFA、PFA、VFA、DLA或混合。
價值函數近似策略--查詢表、參數化或非參數化。
價值函數模型--層次聚合、線性結構、NN等。
算法策略-狹義搜索、數學規劃、隨機規劃、AVI、API。
更新價值函數模型參數的方法--時差學習、LSTD、LSPE、SVR,等等;
步長--常數、廣義調和、多項式等。
對于所列出的一些文章,沒有提供足夠的信息來確定作者是如何處理某些特征的。在這種情況下,該特征被列為未說明。此外,有些文章中的某些特征并不適用。在這種情況下,該特征被列為不適用。下面給出了進一步的細節。研究報告分為三類--軍力發展、軍力組建、軍力使用,然后按時間順序排列。
表2. 1995-2021年期間ADP在軍事作戰研究中的應用。文章按橫線分為三組:部隊發展(上組)、軍力組建(中組)和軍力使用(下組)。