亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

作為 CAF JADC2 AUAR 項目的一部分,本文研究了聯合全域指揮與控制系統的需求,特別是開發中的先進作戰管理系統(ABMS),以考慮極有可能發生的授權分布式作戰。本文認為,先進作戰管理系統不應只關注高層決策者和傳統指揮與控制要素的需求,而應考慮到部隊一級的使用。報告介紹了空軍單位級情報部門的作用和職責,將其作為一個使用案例來說明這一點,以便在整個聯合兵力中進行開發。

正文

美國空軍前參謀長戴維-戈德芬(David Goldfein)將軍將開發中的先進作戰管理系統(ABMS)比作優步(Uber)的共享乘車應用。他描述了共同行動圖(COP)的相似之處,該圖可以顯示汽車和司機的位置,也可以顯示 "巡航導彈和攻擊型無人機 "的位置,從而實現乘客與汽車或射手與目標的高效自動匹配。在軍事方面,這樣一個系統展示了從傳感器到戰斗管理再到射手的連接,這樣,人與人之間的第一次互動就是海軍巡洋艦指揮官提出交戰選擇,以供最終決策。這種描述非常優雅,戈德費恩將軍無疑是想為大眾提供一個有用的說明,但即使是對聯合全域指揮與控制(JADC2)結構中的 ABMS 系統進行更多的技術描述,似乎也僅限于能夠實現更有效的中央指揮控制的系統。為了對抗未來高度對抗性的環境,像 ABMS 這樣的工具必須考慮整合各層次更廣泛的用戶。如果從一開始就不考慮任務指揮的分布式執行和廣泛使用,就有可能過度依賴集中決策,從而忽視下級操作人員的兵力倍增能力,并在無法與 C2 連接時危及作戰效能。空軍單位級情報(ULI)在支持飛行行動中的作用、能力和近期經驗表明,需要擴大 ABMS 的范圍,以實現彈性的 JADC2 和有效的聯合全域作戰(JADO)。

空軍部對聯合防務與發展組織的愿景認識到,"與近期的低強度沖突行動相比,JADC2 需要更大程度的分布式執行、更高程度的授權,以及對中央規劃和任務指導的更少依賴"。"由于通信能力下降和作戰環境發生重大變化等原因,需要通過 "基于條件的授權 "來實現這一點。授權允許通過使用任務類型的命令進行任務指揮,將上級指揮官的意圖明確傳達給行使授權的下級指揮官。這與空軍正在開發的未來分布式作戰概念(如 "敏捷戰斗部署"(ACE))非常吻合,該概念設想部隊在沒有與空中作戰中心(AOC)和其他 C2 平臺所體現的傳統集中式 C2 結構進行可靠通信的情況下開展行動。當除最短距離通信外的所有通信都被切斷時,空中遠征聯隊(AEW)指揮官或在不同作戰地點的更低級別的指揮官可能不得不在只有上級指揮官最新意圖的情況下執行本地 C2。從邏輯上講,這種分布式指揮調度可能涉及本地/可通信區域內多個領域和服務的能力。這種最具戰術性的 JADC2 將需要通過及時準確的友軍信息和敵方情報來實現。

ABMS 旨在提供態勢感知,使 JADC2 成為可能。它是一個系統,旨在通過通用應用程序和軟件開發工具包(SDK)將傳感器與作戰管理聯系起來,使開發人員能夠構建將信息傳遞到這些應用程序的平臺。組件應用程序包括數據源、人工智能/機器學習(AI/ML)、數據融合、COP 以及最終的 C2 功能。利用人工智能/ML 融合和評估所有可用傳感器數據并將其顯示給決策者的方法令人鼓舞,但現有文件顯示,指揮應用程序的主要客戶是 "未來的空間、空中、網絡和全域指揮與控制戰斗管理者",并列出了傳統的 C2 角色職業領域。這些職業領域通常與 AOC 和戰術 C2 平臺等傳統 C2 元素相關,這意味著其重點是改進當前模式下的決策制定,而不是重點構建可實現上述最分散和最授權形式 C2 的工具。盡管 ABMS 尚處于起步階段,傳統的 C2 要素是一個合理的起點,但必須擴大客戶范圍,將支持戰術決策者的參與者包括在內,直至單個射手。ULI 飛行員已經執行或預計執行的功能為 ABMS 功能的更廣泛應用提供了范例,這些功能將實現分布式 JADC2。

AFTTP 3-3.IPE 將 ULI 結構概述為一個應急情報網絡 (CIN)。CIN 包括 1. 作戰情報單元(CIC),負責綜合內部和外部來源,提供全來源分析,以支持聯隊指揮官、任務規劃人員、飛行單位以及網絡防御和兵力保護等其他聯隊職能部門,此外還負責協調聯隊向 AOC 等上級部門的情報報告;2. 情報人員納入聯隊任務規劃單元(MPC),以提供量身定制的威脅分析和目標數據;3. 中隊情報人員向飛行員提供針對任務的情報簡報,進行任務后匯報,并向中央情報中心報告從匯報中獲得的情報。圖 1 所示的所有這些職能對聯隊的行動都至關重要,可幫助指揮官做出決策,并為飛行員、保衛人員和聯隊其他人員提供威脅情報,通常還提供藍色作戰數據,特別是來自空中任務指令(ATO)等 AOC 文件的信息。簡而言之,如果能夠提供必要的情報和作戰數據,并利用有助于進行定制分析的工具,ULI 可以使決策制定深入到最底層,包括在某些平臺上執行任務時進入駕駛艙。

圖 1 CIN 的功能和關系

從條令上講,AOC 的情報監視和偵察處(ISRD)負責向部隊提供其所需的大部分作戰情報。情報監視和偵察處應以部隊支助小組為中介,通過情報摘要(INTSUM)、跟蹤威脅位置的作戰命令(OB)更新、匯集和評估所有部隊關于打擊目標和威脅位置及戰術變化的匯報數據的任務摘要、目標定位和武器設計數據,為聯合作戰環境情報準備工作(JIPOE)提供最新信息,并對總體局勢進行評估,同時還是答復部隊信息請求(RFIs)的主要樞紐。在實踐中,ISRD 的人員數量和單位經驗通常不足以在支持其他 AOC 部門和 ATO 生產的同時履行所有這些職能--這已經是一項幾乎不可能完成的任務。ABMS 所宣稱的傳感器融合、自動提示和 COP 生成等目標將使 ISRD 的許多分析、目標定位和收集管理流程自動化或輔助化,但不應將其視為簡單啟用 AOC 與部隊之間現有等級條令關系的一種方式。無論是由于物理距離、通信問題,還是由于缺乏定制產品所需的相關經驗,AOC 的部隊支持人員往往不具備滿足部隊需求的能力。

鑒于在日益復雜的作戰環境中,部隊一級需要大量的支持功能,而且預期 AOC 支持不會像條令所規定的那樣完整,因此 ULI 空軍人員經常依賴人工數據處理和分析。和平時期,根據聯隊任務定制的 JIPOE 是通過對一系列情報界(IC)來源的研究建立的。戰時更新則來自任何可用來源,包括原始報告。由于缺乏來自 AOC 的足夠詳細的信息或更新頻率,用于任務規劃的威脅 OB 是通過相對較新的多情報可視化工具(如 MIST 和 Thresher)建立的,盡管要求分析人員融合多種來源以得出最終評估結果。飛行員提供的任務數據仍需匯報并手動輸入報告系統,目前這些系統幾乎無法向大型多重情報工具提供反饋,因此必須臨時納入威脅位置和戰術評估。空中和防空行動固有的聯合性質往往也要求 ULI 人員了解兄弟部隊的能力,這通常是通過經驗和關系而非正式流程實現的。這些例子僅涵蓋了較為傳統的飛行支持要求,但其他任務(如兵力保護和網絡空間防御支持)對 ULI 空軍人員的要求可能會成倍增加。

考慮戰術級情報人員(如 ULI)以及他們所支持的分布式指揮官的信息需求,應從一開始就納入 ABMS 等系統。毫無疑問,向聯合部隊指揮官(JFC)、部隊指揮官及其 C2 機構等高級決策者提供信息仍然至關重要,但啟用 JADC2 的系統同樣需要預測權力如前所述被下放的情況,并隨時準備為責任加重的低級別人員提供量身定制的信息。最近的 ULI 經驗和針對 ACE 情景的規劃展示了一些在單位層面執行的職能實例,這些職能在理論上可能是 AOC 或其他 C2 要素的職責。這些功能包括:為有機傳感器建立作戰偵察目標甲板,以滿足當地的信息需求;直接向空中的飛行員傳達具有時效性的威脅或目標更新信息;以及執行先進的目標開發以實現打擊。了解這些可能的非理論使用案例的全部范圍,并將其納入 ABMS 開發和其他 JADC2 概念中,將使有能力的 ULI 飛行員能夠利用而不是圍繞經過測試的工具和理論支持真正的分布式行動。通過利用人工智能/人工智能支持的數據融合和顯示,消除來自不同來源的人工處理和分析,該領域的有意開發可簡化 ULI 的許多任務。

認識到像 ULI 這樣的行動者在開發 JADC2 系統中的重要性,突出了使系統在對抗性、分布式行動中發揮作用的一些額外要求。考慮到在不斷變化的作戰環境中,授權可能會迅速改變,因此必須在不同的用戶訪問權限中預置權限和數據顯示,以便在上級失去連接時自動激活。考慮到用戶可能會搬遷到條件較差的地方,系統應能在連接較少或沒有連接的情況下運行。這就需要在本地網絡上進行本地存儲和繼續運行,直到恢復更廣泛的連接,然后提供一種同步和突出顯示已更改信息的方法。所有這一切都需要對高層領導的風險承受能力進行認真的討論,而不是理論上的討論,以便在獲得最佳數據和合格分析師的情況下,在最基層做出決策。

這種情況不僅適用于分布式空中行動。在空軍條令中,納入系統開發可將作戰決策權下放到最基層的分布式執行,這與其他軍種的基本概念也是一致的。例如,陸軍的任務指揮概念是 "授權下級根據情況決策和分布式執行",使用任務命令明確概述指揮官的意圖。聯合海上條令還強調了海軍長期以來的傳統,即 "任務指揮涉及集中指導、協作規劃以及分布式控制和執行"。因此,條令框架存在跨多領域授權的可能性,如果適當地集成到 JADC2 系統中,就可以通過與 ULI 相當的實體支持來實現。這些系統最終將使下放的權力能夠跨域行使指揮控制權,盡管要在整個聯合兵力中建立有效的全域作戰知識還有很多工作要做。

即使有了先進的通信和數據處理技術,假定傳統 C2 結構中的決策在對抗性行動中會有效也是不明智的。像 ABMS 這樣的 JADC2 規劃和系統開發必須預見到真正下放權力的影響,以及最基層指揮官和操作人員的信息需求。空軍 ULI 提供了一個例子,說明如果將其納入這些新開發的范圍,用戶集合就能隨時支持分布式行動

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

近來,物聯網(IoT)技術為農業、工業和醫學等許多學科提供了后勤服務。因此,它已成為最重要的科研領域之一。將物聯網應用于軍事領域有許多挑戰,如容錯和 QoS。本文將物聯網技術應用于軍事領域,創建軍事物聯網(IoMT)系統。本文提出了上述 IoMT 系統的架構。該架構由四個主要層組成: 通信層、信息層、應用層和決策支持層。這些層為 IoMT 物聯網提供了容錯覆蓋通信系統。此外,它還采用了過濾、壓縮、抽象和數據優先級隊列系統等數據縮減方法,以保證傳輸數據的 QoS。此外,它還采用了決策支持技術和物聯網應用統一思想。最后,為了評估 IoMT 系統,使用網絡仿真軟件包 NS3 構建了一個密集的仿真環境。仿真結果證明,所提出的 IoMT 系統在性能指標、丟包率、端到端延遲、吞吐量、能耗比和數據減少率等方面均優于傳統的軍事系統。

提議的IoMT系統架構

IoMT 系統由一組在戰場上應組織良好的軍事設備組成。無人機、作戰基地、艦艇、坦克、士兵和飛機等這些物品應在一個有凝聚力的網絡中進行通信。在 IoMT 網絡中,態勢感知、響應時間和風險評估都會得到提高。此外,IoMT 環境應涉及對普適計算、普適管理、普適傳感和普適通信的全面認識。此外,IoMT 可能會導致傳感器等網絡事物產生超大規模的數據。此外,這類網絡所需的計算量非常大,而這些計算的結果應能實時準確地實現。因此,IoMT 系統架構應考慮上述注意事項。

因此,建議的體系結構由四層組成: 通信層、信息層、應用層和決策支持層(見圖 1)。通信層關注的是事物如何在一個大網絡中相互通信。信息層涉及軍事數據的收集、管理和分析。應用層包括控制不同通信軍事系統的應用程序。最后,決策支持層負責決策支持系統,幫助戰爭管理者做出準確、實時的決策。下文將對每一層進行深入討論。

3.1 通信層

IoMT 系統可視為物聯網的一個特殊例子。因此,IoMT 環境與物聯網環境有些相似,只是在事物類型、通信方式等方面略有不同。根據這一理念,IoMT 環境可定義為一組使用互聯網相互通信的不同網絡。這些網絡應包括軍事任務中的主動和被動事物。IoMT 系統中應構建的主要網絡包括無線傳感器(WSN)、射頻識別(RFID)、移動特設(MANET)、衛星和高空平臺(HAP)網絡。由于 WSN 在許多軍事問題中的重要性,它被納入了 IoMT 系統。WSN 通過快速收集和提供危險數據來協助戰爭行動。然后,將這些數據發送給最合適的人員,以便實時做出正確決策。因此,除了協調自身的軍事活動外,WSN 的主要目標是監測和跟蹤敵方士兵和其他敵方事物的動向。傳感器可以遠距離分布,覆蓋大片區域。這些傳感器通過控制其行為的基站進行通信。由于 RFID 網絡在軍事領域的重要性,它在 IoMT 環境中得到了體現。軍隊中最重要的問題之一就是大部分物品都要貼上標簽。在戰場上使用 RFID 可以為士兵、貨物、小型武器、飛機、射彈、導彈等提供一個具有監控功能的跟蹤系統。例如,定期掃描每個人的醫療情況和效率是戰爭中一個非常重要的問題。城域網在 IoMT 系統中的表現也是一個重要問題,因為它可以用來促進士兵、武器、車輛等的通信。城域網在軍事上有許多特別的應用,如安裝在飛機和地面站之間的網絡或船舶之間的網絡。每種特設網絡的要求都取決于軍事任務的類型。此外,在軍事應用中使用的特設設備都配備了路由場景,可以利用最佳路由路徑自動轉發數據。物聯網依賴互聯網技術來促進通信,這是一個普遍的邏輯。遺憾的是,某些作戰地點可能沒有互聯網技術。因此,尋找替代通信技術非常重要。這就是在覆蓋目標中使用 HAP 網絡的原因。軍用物資分布面積大,因此必須以可靠的方式進行覆蓋,以保證通信效率。HAP 網絡可作為互聯網之外的第二種通信策略選擇。HAP 網絡的高度有限,因此容易成為敵方的攻擊目標,其故障概率可能很高。如果 HAP 網絡出現故障,通信系統將面臨很大問題,可能會影響軍事任務的執行。因此,應構建一個衛星網絡來覆蓋故障的 HAP 網絡,并覆蓋 HAP 網絡或互聯網可能無法覆蓋的軍事事物(見圖 2)。不同網絡之間的通信難題只需使用報頭恢復技術即可解決。在這種技術中,每個網絡之間都應添加一個翻譯器,用目的節點的報頭封裝每個數據包。新的報頭使數據包可以被理解;這可以通過系統路由器來實現(見圖 3)。

圖2: 通信網絡(該圖部分摘自[23])

圖3: 報頭轉換過程

3.2 信息層

這一層非常重要,因為它代表著 IoMT 系統架構的核心。射頻識別(RFID)、傳感器等軍用設備收集的信息應以安全、珍貴、實時的方式進行傳輸、存儲和分析。這一層的首要功能是在信息處理后對收集到的信息進行組織和存儲。IoMT 系統數據的處理被認為是一個具有挑戰性的問題,因為在短時間內可以收集到 TB 級的數據。因此,應在不影響質量的前提下盡量減少這些數據。此外,IoMT 的特殊要求(如實時決策)也不容忽視。在 IoMT 系統架構中,數據處理包括四個步驟: 優先化、過濾、壓縮和抽象。下面將對優先級排序過程進行說明。數據過濾、數據壓縮和數據抽象技術在第 4.1 小節中說明。

確定優先級的步驟包括處理不同優先級的數據。對于戰爭管理者(即軍隊將領)來說,收集到的每項數據都有一定的重要程度。因此,應將數據分為若干優先級,以便在 IoMT 系統饑餓的情況下優先處理和發送高優先級的數據。隊列系統就是用來實現這一優先級劃分步驟的。由于 IoMT 系統數據分類數量龐大,因此采用了六隊列系統。因此,IoMT 系統數據將被分為六個不同的類別。第一類代表最重要的 IoMT 系統數據;第二類代表不太重要的數據,依此類推。分類過程將動態完成,因此每個類別中的數據可能會根據戰爭任務的性質發生變化。為切實實現這一步,下一代路由器應具備對 IoMT 系統數據進行分類的能力。圖 4 說明了優先級排序過程。

圖4: 數據分類過程的簡單視圖

3.3 應用層

IoMT 系統架構中的應用層包括管理、監視等戰爭任務中使用的異構應用。該層應使用一個通用應用程序管理這些應用程序的功能,同時不影響其效率。這些應用程序的統一過程應基于通信數據(信息交換)來實現。在數據通信中,一個應用系統的輸出數據可能是另一個應用系統的輸入數據。因此,確定戰爭應用程序的輸入數據和輸出數據被認為是這一層最重要的目標之一。例如,飛機或發射器的火箭發射應用的輸入需要衛星監控應用的輸出數據,而衛星監控應用可能需要 WSN 應用的數據。信息層和應用層之間的通信非常重要,因為作為輸入和輸出的數據應首先在信息層處理。因此,在設計用于管理軍事應用程序的通用應用程序時,應首先確定每個應用程序的輸入和輸出數據。然后,應確定數據處理的時間(硬、實或軟)。例如,在戰斗停止期間,某個目標的坐標突然發生變化,三個應用程序應實時交互,以完成任務并擊中新位置上的目標。這些相互作用的應用程序構成了 WSN、戰爭管理以及執行任務的飛機機艙。還應確定應用特殊應用程序的優先順序。例如,在敵方多次攻擊特定目標的情況下,防御應用程序將優先啟動。

根據上述討論,一般管理應用程序應有一個專門的數據庫。該數據庫存儲有關單個軍事應用程序的動態變化數據。這些數據與以下主題有關: 輸入和輸出、單個應用程序之間的數據流方向、硬時間軍事情況、實時軍事情況、軟時間軍事情況以及每個應用程序的優先級。這些優先級應根據戰爭形勢來確定。根據綜合管理 IoMT 應用程序的性質,IoMT 系統數據庫的設計可以是分布式的,也可以是集中式的。在分布式數據庫中,應注意數據庫服務器之間交互的復雜性,特別是在需要硬時間或實時交互的事件中(見圖 6)。 、

3.4 決策支持層

戰爭中最重要的問題之一是決策過程。在技術戰爭中,決策應具備準確性、實時性、清晰性、安全性和快速分發等諸多規格。所有這些指標都應與信息層收集的數據相關。雖然信息與軍事決策之間關系密切,但所提出的 IoMT 系統架構在信息層和決策支持層之間還有一個中間層,即應用層。短時間內收集到的大量 TB 信息需要進行分析、過濾、優先排序和壓縮。這些過程已經在信息層中完成。但是,信息層沒有能力確定信息在應用層之間的移動方向(即信息的正常順序)。這種信息順序意味著,每個數據段都應指向一個合適的應用程序,以便實現互補和平衡。這些信息將用于決策過程。例如,假設戰爭管理者有一個目標,要求以特定的安排和特定的順序處理信息,直到軍事偵察之旅取得一定的結果。該目標的完成將通過步兵和防空來實現。因此,應用層和決策支持層之間的聯系將對高精度規格的決策產生良好的影響,這將在關鍵的戰爭事件中發揮作用。

簡單地說,本文概述的決策支持流程包括五個步驟: 事件權重、解決方案識別、選擇一種解決方案、行動和輸出評估(見圖 7)。戰爭管理者可根據自身經驗水平提取事件權重。一旦對事件有了充分了解,就該確定解決方案了。在準備決策時,有許多不同的備選方案。因此,確定可用行動的范圍非常重要。接下來,應選擇備選方案,并確定每個備選方案的風險。然后,就該采取行動了。應確定實施計劃,并提供實施所選解決方案所需的資源。應預先確定執行時間,然后開始執行。最后,應對選定解決方案的執行結果進行評估。請注意,有許多決策支持系統在經過實際測試(如 [24,25])后,可在 IoMT 中實施。

決策支持層可能面臨三大挑戰。第一個挑戰是數據過多或不足。這意味著決策支持層的輸出會延遲或不準確,這可能會造成災難,因為在大多數戰爭時期都需要實時決策。第二個挑戰是問題識別錯誤。在大多數戰爭任務中,圍繞一項決策會有許多問題。然而,有時卻無法確認這些問題的真實性。第三個挑戰是對結果過于自信。即使決策過程得到了準確執行,實際產出也可能與預期產出不完全一致。應用層將通過確定決策構建所需的準確信息、對問題的準確定義以及輸出調整來應對這些挑戰。因此,決策支持層將使用應用層的輸出。因此,在擬議的 IoMT 架構中,這些層之間的分離是一個需要考慮的重要問題。

仿真

首先,應構建一個軍事模擬環境,以測試所提議的 IoMT 架構的性能。網絡模擬器 3(NS3)是最廣泛使用的網絡模擬軟件包之一,將用于實現這一目標。軍事模擬環境由五種不同類型的網絡組成,其中包括分布在大片區域的大量節點。這五種網絡分別是 WSN、RFID、MANET、HAP 和衛星網絡。這些網絡是根據戰場需求確定的。文獻[26]中的仿真用于評估所提出的 IoMT 架構。在 WSN 仿真中,成千上萬的傳感器分布并部署在戰爭環境中。一個或多個基站將這些傳感器相互連接起來,并從中收集信息。在突發事件中,傳感器能夠向基站發送陷阱信息。然后,如果情況緊急,需要迅速做出決定,基站將直接把信息發送給執行者,如戰士、管理人員等。不過,在正常情況下,基站會將收集到的信息(詳細信息或摘要)重新發送給負責決策的管理人員。基站應該是智能的,并通過編程來實現這一目標。為了在 IoMT 中準確呈現 WSN,傳感器應具有不同的傳輸范圍。對于 RFID,美國軍方在第二次海灣戰爭中使用了最佳方案[27]。每個士兵身上都應貼有一個 RFID 標簽,以便在戰場上進行追蹤。此外,商業貨運和航空托盤等戰爭工具也應貼上 RFID 標簽,以便了解坦克和計劃等關鍵工具的最新狀態。此外,為了挽救士兵的生命,建議的模擬系統考慮了專門用于戰爭的移動醫院,并應配備 RFID 技術。此外,還利用 RFID 技術觀察軍隊的小型庫存物品,以實現更嚴格的庫存控制。對于城域網仿真,它包含戰場對象(如車輛、士兵和信息提供者)之間的臨時通信。在某些軍事情況下,很難通過數據采集中心傳遞或發送信息。因此,城域網仿真的一個考慮因素就是在數據傳輸中使用這種網絡。文獻[28]中所述的架構用于 HAP 和衛星網絡的通信。互聯網仿真使用了 [29] 中介紹的路由算法和 [30] 中介紹的物聯網混合組播架構。多媒體傳輸使用[31],但傳統軍事系統的模擬則使用[32,33]中所述的準則。

在信息層模擬中,將隨機、動態地創建 IoMT 數據。然后,這些數據將被分類并進入隊列,每個隊列將作為一個數據類別。動態數據的創建取決于存儲在特殊數據庫中的戰爭任務。本模擬場景中使用了 [34] 中所述的壓縮技術和數據過濾技術來減少數據,這是信息層的主要目標之一。應用層模擬也取決于戰爭任務,其中包括許多模擬網絡場景。每個網絡應用程序的輸入和輸出數據都在模擬文件中預先確定。網絡應用程序與綜合管理應用程序之間的通信是通過信息傳輸實現的。文獻[35]中的仿真用于決策支持層。戰爭任務的部分建模和仿真來自文獻[36],仿真中使用的武器的一般規格來自文獻[37]。圖 8 顯示了擬議的 IoMT 系統模擬環境的全貌。

付費5元查看完整內容

美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。

引言

美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。

作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。

文獻綜述

分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。

指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。

建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。

如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。

本文方法

  • 行動示意圖和場景開發

在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。

  • 利益相關者分析和功能層次開發

作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。

  • 層次分析法和A-B測試

AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。

付費5元查看完整內容

隨著人工智能和機器學習的不斷發展,我們必須了解它們在國家安全中的戰略重要性。本文重點關注人工智能在軍事上的獨特應用,強調成功的戰略要件,并旨在重新強調人工智能在國家安全中的作用。我們將從軍事角度審視美國在人工智能和機器學習方面的進展,討論確保這些技術不受對手攻擊的重要性,并探討與它們的整合相關的挑戰和風險。最后,我們將強調人工智能對國家安全的戰略意義以及軍事領導人和政策制定者的一系列戰略要務。

索引詞--人工智能,自主系統,網絡安全,決策,深度學習,機器學習,軍事戰略,自然語言處理,運籌學,大型語言模型,負責任的人工智能。

1 引言

自網絡空間技術發展的早期以來,美國在提高其戰略能力方面取得了重大進展。今天,我們發現自己處于一場新技術革命的邊緣: 人工智能(AI)。作為國家安全的一項戰略要務,人工智能為加強我們的防御能力提供了無可比擬的機會,就像太空和網絡空間技術如何改變我們的戰爭和偵察方法一樣。

這些技術有可能徹底改變軍事行動,成為增強現有能力的力量倍增器,并促成新的作戰概念的發展。因此,軍事領導人和政策制定者必須認識到人工智能的戰略重要性,并將其納入我們的規劃和決策過程。

盡管人工智能的進步已經改變了現代社會的各個部門,包括商業、金融和生產,但人工智能作為一項戰略的國家重要性仍然沒有在政府不同部門公布的戰略中得到充分體現。盡管美國國防部副部長凱瑟琳-希克斯在2021年5月發布了備忘錄,指示國防部對負責任的人工智能(RAI)采取整體的、綜合的和有紀律的方法,但許多軍事領導人尚未將人工智能戰略納入其決策過程。

其中許多文件,如上述備忘錄,更多關注負責任的人工智能方面,這雖然很重要,但可能沒有關注我們可以利用人工智能作為戰斗力的一些有趣方式。本文關注人工智能在軍事上的獨特應用,強調成功的戰略要務,并旨在重新強調人工智能在國家安全中的作用。

我們有意保持討論的非技術性,并保持更高層次的視角,盡管是針對技術導向的讀者群。這種方法使我們能夠專注于人工智能在軍事行動中整合的更廣泛的戰略意義和挑戰,而不是深入研究具體的技術細節。通過采用這種更高層次的視角,我們旨在促進一個更具包容性的對話,鼓勵跨學科對話,并促進對圍繞人工智能及其軍事應用的復雜問題的整體理解。

2 了解技術

人工智能正在徹底改變軍事和政府組織的運作方式。這些先進的技術使機器能夠自主地學習和推理,其應用范圍包括對形勢的認識和決策支持。特別是,大型語言模型(LLMs)的出現極大地影響了自然語言處理領域,從非結構化文本數據中提供了有價值的見解,并促進了類似人類的交流。

雖然有一些可用的模型,但對于戰場使用來說,基于GPT4等開發和訓練一個定制的LLM更為有利。這個模型將被專門設計,并在軍事和政府相關的數據上進行訓練,以確保在生成的文本中具有更高水平的領域專業知識、準確性和關聯性。一旦經過訓練,它可以用于各種應用,如情報分析、自動報告生成以及指揮和控制系統的自然語言界面。

在戰斗空間背景下部署人工智能系統需要仔細考慮三個主要部分:模型、數據和計算環境。模型作為數字大腦,被訓練來執行特定的任務,如物體識別、威脅預測或情感分析。組織可以利用預先訓練好的模型,如GPT4,或者開發自己的定制模型,以滿足其獨特的要求。

沒有數據,人工智能就無法運行。高質量的標記數據對于訓練和測試模型至關重要,以確保它們能夠很好地歸納到新的、未見過的情況。在軍事方面,這可能涉及從各種來源收集數據,包括衛星圖像、通信截獲物和實地報告。

計算環境是人工智能模型運行的地方,確保操作安全和數據完整性至關重要。為了說明問題,我們假設一個集成流程涉及TensorFlow或PyTorch作為底層人工智能框架,然后將訓練好的模型托管在為政府使用而定制的安全云服務上,如AWS GovCloud、微軟Azure Government或谷歌Cloud for Government。然后,我們可以在SIPRNet(秘密互聯網協議路由器網絡)上部署該模型,以實現分類和安全使用。

部署意味著將人工智能模型整合到一個組織的現有系統中,如無人機的軟件或指揮中心的通信平臺。例如,之前理論上的LLM可以被整合到無人機的控制系統中,以自動分析傳入的數據并實時生成關鍵任務的見解。

使用DevSecOps和標準管道來部署人工智能是關鍵,因為這將確保人工智能模型在復雜系統中的順利整合、維護和更新。對于戰斗空間的使用,關鍵是要對人工智能技術的能力和局限性進行全面評估,以確保其無縫融入戰略行動和戰術規劃中。

通過仔細考慮模型、數據和計算環境,并采用精心計劃的整合流程,軍隊可以部署人工智能系統,提高其作戰效率,使其更好地應對現代戰場的挑戰。

3 在軍事行動中的應用

人工智能和機器學習技術有可能改變軍事行動的各個方面,我們已經看到,基于對目標系統的給定描述,人工智能生成的惡意軟件在增加。

雖然美國空軍和其他部門采用的許多工具可能會利用機器學習的組成部分,但他們還沒有充分挖掘人工智能的潛在用途。以下是人工智能如何徹底改變我們的戰斗力的幾個例子:

1)采購和維持。購置和維持軍事裝備和用品是一個復雜的資源密集型過程,而人工智能可以在優化和簡化這一過程中發揮關鍵作用。例如,美國空軍物資指揮部可以使用人工智能算法來預測需求,并確定最有效的運輸路線,最大限度地減少與后勤業務相關的風險和成本。人工智能可以評估前線部隊的需求,并相應地安排補給任務,同時考慮到天氣、地形和敵人活動等因素。此外,人工智能可用于自動化庫存管理,確保在需要時提供正確的設備和物資。這可以幫助減少浪費,提高供應鏈的整體效率,使軍隊在面對不斷變化的威脅時能夠保持戰備和有效性。

2)網絡戰。由人工智能驅動的網絡防御系統對于防御日益增長的網絡攻擊威脅至關重要。這些系統使用人工智能算法來實時分析網絡流量模式,使其能夠在造成重大損失之前檢測和緩解潛在威脅。此外,人工智能可以被用于進攻,以確定敵人網絡中的漏洞,并發起有針對性的網絡攻擊,如拒絕服務攻擊,或破壞其通信和基礎設施。例如,美國網絡司令部已經使用人工智能算法來幫助挫敗選舉干擾,并抵御對關鍵基礎設施的網絡威脅,如電網和金融系統。

3)ISR能力。情報、監視和偵察(ISR)能力對軍事行動至關重要。人工智能可以處理來自各種來源的大量數據,包括SIGINT、IMINT和HUMINT,以產生可操作的情報,為軍事決策提供信息。美國國防部倡議的Maven項目是這種應用的一個典型例子。通過利用人工智能,Project Maven可以分析無數小時的無人機鏡頭,識別模式,并確定感興趣的區域,從而改善情報收集和增強態勢感知。人工智能還可用于以其他方式增強ISR能力,例如通過分析社交媒體數據來識別潛在的威脅,或分析衛星圖像來監測部隊動向和基礎設施。

4)電磁頻譜作戰(EMSO)。電磁頻譜是戰爭的一個關鍵領域,人工智能可以在管理和利用電磁頻譜方面發揮關鍵作用。人工智能可以分析和解釋電磁信號,以識別和定位敵人的發射器,如通信或雷達系統。這些信息可用于開發反措施,如干擾或欺騙敵人的通信,并更有效地管理電磁頻譜,以保持友軍在電子戰空間的優勢。例如,美國空軍正在探索使用人工智能來優化其對電磁頻譜的使用,包括為通信和傳感分配頻率,并能更有效地使用電子戰。

5)反無人駕駛航空系統(C-UAS)。商業和軍用無人機的擴散給軍事力量帶來了新的挑戰。人工智能可以被用來探測、跟蹤和反擊未經授權或敵對的無人駕駛航空系統(UAS)。例如,美國陸軍的快速裝備部隊(REF)已經開發了移動式低速、慢速、小型無人駕駛航空器綜合挫敗系統(M-LIDS),該系統使用人工智能算法來探測和跟蹤低空飛行的無人機,并提供反制方案以禁用或摧毀它們。該系統可以加強對軍事設施、人員和設備的保護,使其免受未經授權或敵對的無人機系統所帶來的潛在威脅。

6)聯合訓練演習。聯合訓練演習對于建立和保持聯合部隊的準備狀態、互操作性和有效性至關重要。人工智能驅動的模擬可以復制復雜的沖突場景,為潛在的結果提供有價值的洞察力,并使戰略和戰術得到完善。這些模擬考慮到各種因素,如地形、天氣和敵人的能力,以創造現實和動態的場景,挑戰軍事規劃者和決策者。美國陸軍的合成訓練環境項目正在探索使用人工智能和虛擬現實技術來創造真實的訓練場景,以提高士兵的技能和準備程度。此外,聯合訓練演習也可以涉及實彈訓練,這為部隊提供了在真實的戰斗場景中合作的機會,并提高他們的互操作性和有效性。

7)動態目標定位。美軍的殺傷鏈模式強調在現代戰爭中需要快速和準確地瞄準敵人的資產。人工智能可以通過自動識別目標、跟蹤和確定優先次序,在加快殺戮鏈過程中發揮關鍵作用。例如,美國國防部高級研究計劃局(DARPA)的 "拒絕環境中的協作行動"(CODE)計劃旨在開發由人工智能驅動的自主系統,該系統能夠協作并適應動態的戰斗情況,從而能夠更快、更精確地瞄準敵人的資產。

8)潛艇戰。人工智能有可能通過增強潛艇和其他水下系統的能力來徹底改變海底戰爭。例如,美國海軍的大排量無人潛航器(LDUUV)項目旨在開發由人工智能驅動的自主潛航器,能夠執行各種任務,如情報、監視和偵察(ISR)、反水雷和進攻性行動。人工智能還可用于提高潛艇通信系統的有效性,如極低頻(ELF)和極低頻(VLF)系統,這對于在水下保持指揮和控制至關重要。

人工智能技術正以驚人的速度不斷發展,導致創新的整合和能力每天都在出現。一些應用可能看起來是未來的,但最近的發展展示了人工智能在近期的潛在影響。

2023年4月,專注于政府的數據分析公司Palantir進行了一次演示,強調了生成性人工智能在戰術行動中的潛力。使用FLAN-T5 XL、GPT-NeoX-20B和Dolly-v2-12b LLMs等先進的人工智能模型,操作員收到關于敵人活動的警報,并向人工智能聊天機器人咨詢進一步的情報和潛在行動方案。然后,人工智能聊天機器人提供相關信息,并提出各種戰術選擇,如部署F-16,利用遠程火炮,或發射標槍導彈。Palantir的系統簡化了戰爭的許多方面并使之自動化,操作者主要從聊天機器人那里尋求指導并批準其建議。

然而,隨著我們越來越多地將LLMs納入軍事行動,迅速解決和減輕與其部署相關的固有挑戰和風險是至關重要的。例如,LLMs容易產生 "幻覺 "或捏造信息,這可能會在戰場上產生可怕的后果。

此外,我們必須考慮到人工智能集成所帶來的獨特的脆弱性,如被對手利用的可能性,以確保我們的武裝部隊有一個可靠和安全的人工智能驅動的未來。通過積極應對這些挑戰,我們可以利用人工智能的全部潛力來推進軍事能力和國家安全。

4 保障競爭優勢

將人工智能納入軍事行動,雖然帶來了巨大的優勢,但并非沒有內在的風險。至關重要的是,要保護人工智能技術,防止對手通過針對我們的人工智能部署的網絡攻擊來破壞我們的能力。一個多層面的方法對于保護敏感信息,同時仍然利用人工智能進步的好處是至關重要的。以下原則構成了確保人工智能安全和部署的基礎,以減少與實施相關的任務風險。這份清單不是分層次的,也不是詳盡的,而是作為戰略家的起點,旨在將人工智能作為我們軍隊的核心能力:

1)聯邦學習。聯邦學習能夠在多個設備或組織之間進行協作式人工智能模型訓練,同時保護數據隱私。通過只共享模型更新而不是原始數據,聯合學習減少了數據泄漏的風險,并確保敏感信息的安全。

2)強大的對抗性訓練。對抗性機器學習是一種被對手用來創建惡意輸入數據的技術,旨在欺騙人工智能算法,導致錯誤的預測或分類。通過將對抗性例子納入訓練過程,強大的對抗性訓練有助于人工智能模型變得更有彈性,以抵御攻擊。

3)差異性隱私。差分隱私是一種技術,它在數據或查詢結果中加入精心校準的噪音,以保護單個數據點的隱私。通過采用差分隱私,我們可以防止對手通過模型反轉攻擊來提取敏感信息,這種攻擊旨在從模型的輸出中揭示訓練數據。

4)安全飛地。安全飛地是處理器內的保護區域,可以防止未經授權的數據訪問和代碼執行。通過在安全飛地內部署人工智能模型,我們可以保護它們免受攻擊,如內存探測,它試圖從模型的內部內存提取敏感信息。

5)模型水印。模型水印在人工智能模型中嵌入獨特的、不可察覺的簽名,使其來源和所有權得到追蹤。這種技術可用于檢測模型的盜竊或未經授權的使用,有助于保護知識產權和確保人工智能系統的完整性。

6)持續監測和驗證。定期監測人工智能的性能和行為可以幫助識別潛在的安全威脅,如數據中毒或木馬攻擊。通過不斷地驗證模型的輸入輸出關系,我們可以檢測并減少破壞其完整性和有效性的企圖。

7)紅色團隊和滲透測試。對人工智能和ML架構進行紅色團隊演習和滲透測試可以幫助識別潛在的漏洞和弱點。通過積極主動地解決這些問題,我們可以確保我們的人工智能技術在面對不斷變化的威脅時保持安全和有效。

通過了解和解決人工智能整合的挑戰,我們可以更好地利用其戰略和戰術潛力,確保我們的國家保持在技術進步的最前沿。在軍事領域成功采用和實施人工智能技術的全面和可操作的路線圖應側重于具體的應用、風險和解決方案,使我們能夠保持我們的競爭優勢,同時保障我們的人工智能基礎設施。

5 前進之路

將人工智能納入軍事行動為不對稱優勢提供了巨大的機會。為了充分利用這一潛力,軍事領導人和政策制定者必須采取全面的方法,解決幾個關鍵的必要條件。在此,我們將深入探討這些戰略要務,并討論如何將它們交織在一起,以確保人工智能被有效地納入軍事行動。

首先,保持技術優勢和保持在國家安全領域進步的最前沿,有賴于加速人工智能和ML的發展和研究。這不僅涉及到優先投資于人工智能研究,而且還涉及到促進與學術界、工業界和國際合作伙伴的密切伙伴關系。通過這樣做,軍方可以確保尖端的人工智能技術不斷地被納入其應用中。

在技術進步的同時,為人工智能的負責任使用建立道德、法律和社會準則也是至關重要的。通過定義和執行與國家價值觀和原則相一致的界限,軍方可以保證人工智能技術在所有情況下都能得到道德和合法的使用。這種方法也將有助于促進國際合作,這對于在全球安全領域成功部署人工智能技術至關重要。

制定一項全面的人工智能戰略是圍繞人工智能的道德考慮的自然延伸。通過制定一個包含明確目標、里程碑和衡量標準的國家網絡戰略,軍方可以為人工智能技術的發展和部署制定一個路線圖。這可以確保軍隊保持在創新的最前沿,同時也可以促進人工智能的復原力和不同軍種之間的互操作性。

針對彈性和互操作性,實施對抗性訓練方法可以提高人工智能和ML系統的穩健性。這減少了對惡意輸入數據的脆弱性,并確保無縫整合,為創建一個無縫的多領域人工智能框架鋪平道路。開發一個能夠整合所有軍事行動領域的人工智能框架,包括陸地、海洋、空中、太空和網絡空間,將能夠實現更大的互操作性和協作。

隨著人工智能框架的建立,培養一支熟練的人工智能勞動力以支持人工智能和ML技術的整合變得至關重要。投資于教育、培訓和招聘計劃,專注于在軍事人員中建立一個強大的人工智能和ML技能基礎,是一個關鍵步驟。一支多樣化和有才華的勞動力隊伍對于確保人工智能技術能夠有效地部署在國家安全行動中至關重要。

在熟練勞動力的基礎上,將人工智能能力納入軍事決策過程,可以大大增強復雜和動態環境中的態勢感知和決策。利用人工智能進行實時數據分析和處理,使軍事領導人能夠做出更明智的決定,在未來的沖突中保持戰略優勢。將人工智能驅動的模擬和戰爭游戲整合到軍事訓練和演習中,進一步支持這種對決策的關注,提高任務準備和行動效率。

作為拼圖的最后一塊,調整軍事進程、概念和理論以適應人工智能的觀點和風險,對于促進人工智能技術的成功采用和實施至關重要。通過更新這些程序,軍隊可以確保在不斷發展的技術環境中保持靈活和適應性,在其行動中充分利用AI的戰略潛力。

6 結論

當我們反思我們在太空和網絡能力方面的成就時,我們必須認識到人工智能為我們的戰斗力和國家安全帶來的巨大潛力。將人工智能融入我們的國防基礎設施將幫助我們以更高的效率、準確性和速度應對復雜的挑戰。必須制定一項全面的人工智能戰略,解決現代戰爭的緊迫性和復雜性,促進軍方、學術界和工業界之間的合作,并確保立即開展后續發展,以保持我們在軍事能力方面最重要的領導者地位。

從我們在網絡和空間發展方面的經驗中獲得的教訓可以為我們的人工智能整合方法提供參考。我們的重點應該是創造強大的、準確的、安全的、有道德責任感的人工智能系統,能夠適應戰爭的動態性質。我們必須優先考慮研究、開發和測試人工智能技術,以提高對局勢的認識、決策和自主行動,同時防范潛在的脆弱性。

總之,人工智能是我們國家安全的一個戰略要務,就像過去的空間和網絡技術一樣。通過利用這些進步的經驗教訓,我們可以有效地利用人工智能的力量來保持我們的戰略優勢,保護我們國家的利益,并確保一個更安全和更可靠的未來。將人工智能融入我們的國防能力,不僅將徹底改變我們開展行動的方式,而且還將成為我們在追求和平與安全的過程中堅定不移地致力于技術創新的證明。

作者

Dmitry I. Mikhailov(IEEE高級會員)是一位成功的網絡安全研究員和顧問,在該領域擁有超過12年的經驗。他擁有多項認證,包括CISM、CASP+和GPEN,目前在赫特福德大學學習計算機科學。他曾在國防部門擔任網絡安全工程師,在洛克希德-馬丁公司和SAIC等公司擔任過重要職務。目前,他為全球各地的組織提供專家咨詢,幫助他們解決復雜的電子安全問題并實施有效的戰略。除了他的專業經驗外,德米特里還為各種網絡安全研究和開發項目做出了貢獻。他設計和開發了一個光電隨機數發生器,并為SANs在2011年發布的第一個更新的Linux加固指南做出了貢獻。米哈伊洛夫先生是幾個專業協會的積極成員,包括IEEE計算機協會、ACM技術政策委員會和IEEE標準協會。他的工作獲得了許多獎項和認可,包括總統志愿者服務獎和國會表彰獎。德米特里目前擔任IEEE計算機協會第5區的協調員,并熱衷于通過他的研究、出版物和領導力來推動網絡安全領域的發展。

付費5元查看完整內容

本報告記錄了通過利用深度學習(DL)和模糊邏輯在空間和光譜領域之間整合信息,來加強多模態傳感器融合的研究成果。總的來說,這種方法通過融合不同的傳感器數據豐富了信息獲取,這對情報收集、數據傳輸和遙感信息的可視化產生了積極的影響。總體方法是利用最先進的數據融合數據集,為并發的多模態傳感器數據實施DL架構,然后通過整合模糊邏輯和模糊聚合來擴展這些DL能力,以擴大可攝入信息的范圍。這項研究取得的幾項進展包括:

  • 將DL模型實施到片上系統(SoC)硬件中
  • 高光譜圖像(HSI)數據的DL
    • 1.在HSI上建立DL,以獲得水的特性和底層深度
    • 2.在HSI上使用開放集識別方法
  • 框架內融合方法的消融研究
  • 使用DL和模糊聚合的HSI和LiDAR多模態傳感器融合的新框架
  • 探討神經模糊邏輯在遙感數據中復雜場景的不確定性下自動推理的作用和實用性

出版物[1, 2, 3, 4, 5]進一步詳細介紹了取得的進展。

付費5元查看完整內容

近幾十年來,國防系統的規劃已經演變成基于能力的規劃(CBP)過程。本文試圖回答兩個問題:首先,如何表達一個復雜的、真實世界的能力需求;其次,如何評估一個具有交互元素的系統是否滿足這一需求。我們建議用一套一致的模型以可追蹤的方式來表達能力需求和滿足該需求的解決方案。這些模型將目前的能力模型,具體到規劃級別和能力觀點,與系統思維方法相結合。我們的概念模型定義了環境中的防御系統,數據模型定義并組織了CBP術語,類圖定義了CBP規劃元素。通過給出一個能力參數化的例子來說明這個方法,并將其與DODAF能力觀點和通用CBP過程進行比較。我們的數據模型描述了能力在行動中是如何退化的,并將該方法擴展到能力動態。定量能力定義的目的是支持解決現實世界中相互作用的子系統,這些子系統共同實現所需的能力。

能力規劃問題的定義

在本節中,能力被定義為執行任務的效果或功能并作為系統時,我們討論CBP;在1.2小節中進一步討論Anteroinen的分類中的第三和第五類。為了專注于軍事系統或軍事單位的結構定義和未來的數學建模,只考慮系統的物理組成部分,即人員和物資,以及他們與能力的關系。環境的影響--天氣條件、地形、周圍的基礎設施和其他軍事單位--被省略,以關注兩種力量之間的相互作用;盡管在實踐中,環境和其他更廣泛的系統問題顯然是相關的。通常情況下,CBP過程定義了環境的相關方面和軍事行動的類型,為能力需求定義、能力評估和解決方案選擇制定了可能的規劃情況集合。

一個軍事單位或一個組織由其人員和物資組成。經過組織和訓練的人員配備了適當的物資,代表、擁有或產生能力。當兩個軍事單位相互作戰時,他們會啟動自己的能力,以造成敵人的物資和人員的退化。為了定義能力需求并計劃如何作為軍事單位或系統來實施,需要解決的問題是:在與敵人的互動過程中,能力將如何演變,而敵人的能力卻鮮為人知?圖1說明了在敵人能力的作用下,自己的軍事作戰和維持能力的動態互動。我們的能力削弱了敵方的人員和物資,對敵方的能力產生了影響;而敵方的能力削弱了我們的人員和物資,對我們的能力產生了影響。外部資源,也就是供應和維持能力,維持著被削弱的人員和物資。如因果循環圖所示,敵方的能力可以與我方的能力對稱地表示。第3節的進一步建模集中在我們自己的能力上,由圖1中的虛線表示,以便更純粹地表示。

對我們自己的能力的定義說明,由人員和物資提供,表明了復雜的結構和與能力有關的功能和元素之間的相互作用。此外,真正的軍事單位,通常由較小的編隊組成,有幾種能力,由大量不同的物資和人員組成,并與環境互動。

現有的能力模型

  • 軍事能力是外交政策的工具
  • 作為軍事單位戰斗力的能力
  • 作為執行任務效果和功能的能力
  • 作為武器系統或平臺的能力
  • 作為系統的能力

軍事背景下能力規劃的概念模型架構描述

架構被定義為 "一個系統在其環境中的基本概念或屬性,體現在其元素、關系以及設計和進化的原則中"。因此,架構描述是一種表達架構的工作產品。架構框架是在一些應用領域或社區應用架構描述的基礎。架構框架為網絡系統的復雜性管理提供了結構化的方法,使利益相關者之間能夠進行溝通,并支持未來和現有系統的系統分析和設計。企業架構的Zachman框架是這類通用框架的一個例子。DoDAF、MODAF和NAF是用于國防系統分析和定義的架構框架,特別是用于指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)。這些架構框架由觀點組成,定義了代表特定系統關注點的一組架構視圖的規則。架構視圖由一個或多個模型組成。架構框架基礎的元模型定義了不同視點中元素之間的關系。DoDAF元模型DM2有一個概念數據模型圖(DIV-1),用來向管理者和執行者傳達架構描述的高層數據構造的概念。MODAF元模型詳細定義了每個架構視圖的數據模型。

利益相關者需要適當的支持,以促進他們彼此之間以及與規劃專家團體的溝通,從而從CBP方法中獲益。軍事專家的作用不是參與復雜的工具和方法,而是為規劃過程提供重要的領域專業知識。架構框架是一個很好的工具,可以定義當前的防御系統,確定能力需求,并描述系統解決方案。不幸的是,架構框架和相關元模型的精確但復雜的機制與復雜的符號并不一定能以明顯的方式解釋能力觀點和要素之間的關系。因此,架構觀點和典型的CBP流程并沒有明顯的聯系。因此,參與能力規劃的軍事專家和決策者很少能夠加深理解,或者在沒有專門掌握這些工具和方法的人員的情況下,通過應用架構框架確定解決方案。需要對能力進行更簡單的定義,與流程兼容。

能力模型框架

圖2提出了一個高層次的數據模型,它代表了能力定義問題的抽象。數據模型描述了能力模型類型及其關系,作為能力和防御系統建模的框架。符號的選擇是為了保持信息量,但對更多的人來說是可讀的,因此它不遵循任何特定的方法,但與SODA的認知圖譜有一些共同點。

能力的現實世界實例在圖的左邊,而概念模型類型在右邊。該模型的第一個版本已經被Koivisto和Tuukkanen應用于一個基于研發的自下而上的過程和概念性的未來系統,即認知無線電。原始模型描述,系統模型定義了物資、戰斗力和功能能力。實際上,這是一種雙向的關系:在所需能力和所需資源的驅動下建立系統模型,然后用系統模型來預測特定環境和實例中的結果。

防御系統和能力——上下文模型

防御系統由系統、系統要素及其相互作用組成,其突發屬性由系統、系統要素和它們的相互作用界定。圖3中的模型代表了系統層次結構中的防御系統層次。防御系統可以被看作是SoS,但我們應用一般的系統術語來保持模型的可擴展性,并為防御系統層次結構的較低層次提供合適的術語。在國防系統層次結構的任何一級,系統代表一個由系統元素組成的軍事單位:人員和物資。

圖3 國防系統在其背景下的概念系統模型。防御系統,即利益系統(SOI),被環境和其他行為者的系統所包圍。這些系統包括相互作用的系統要素人員(P)和物資(M)。子系統和系統元素之間的聯系是示范性的。

能力模型類型和術語——高級數據模型

除了系統元素和它們的組織之外,還要定義功能和相應的輸出,以獲得更全面的系統定義。我們將能力定義為執行任務的效果或功能,是一種功能能力。在CBP過程中,功能能力定義了一些當前或計劃中的軍事單位或由物資和人員組成的系統的能力潛力。最終,能力發展過程必須以現實世界的軍事單位來定義系統的實施。力量要素的概念定義了最終的系統結構,也就是要生產的現實世界的軍事單位的組織。在我們的數據模型中,功能能力被安排在SOI內部,以代表系統的涌現屬性。當這種潛力或涌現被計劃為引起某種效果時,系統,具體來說是其功能能力,在計劃過程中被分配到一個任務中。此外,當軍事單位執行任務時,效果就會產生。高層數據模型的作用,如圖4,是將關鍵的術語及其關系可視化。

圖 4 基于能力的規劃中術語及其關系的高級數據模型表示

基于能力的規劃元素——UML類圖

圖5中的類圖將圖3所示的概念系統模型中確定的國防系統規劃要素與圖4中的能力模型類型結合起來。由于我們關注的是國防系統,國家權力和軍事力量的要素被認為是其環境的一部分,不在圖中。然而,我們建議,國家權力也可以通過效應來表示。

圖 5 基于能力的規劃元素的統一建模語言 (UML) 類圖表示

付費5元查看完整內容

本研究報告分析了當前利益相關者對軍事自主系統的人為輸入或控制的想法。作者首先定義了關鍵術語,如 "機器學習"、"自主系統"、"人在回路中"以及軍事背景下的 "有意義的人為控制",然后討論了當代利益相關者的文獻對無人駕駛軍事系統的人的輸入/控制的說明。然后,報告討論了各利益攸關方是否對進攻性和防御性系統中所需要或期望的人類控制水平達成了共識,以及是否因系統具有致命性和非致命性能力或西方和非西方國家之間的意見不同而有所不同。報告最后從政策和操作的角度闡述了利益相關者的想法對加拿大國防部/空軍的可能影響。

主要研究結果

  • 在與自主系統有關的關鍵術語的定義方面存在著相當多的爭論。

  • 在國家對自主武器應采取何種監管手段的問題上,各利益攸關方一直存在分歧。

  • 參加這些討論的締約國已就自主武器的一系列指導原則達成共識,包括 "必須保留人類對使用武器系統決定的責任"。

  • 在近30個表示支持禁止致命性自主武器系統(LAWS)的國家中,沒有一個是主要的軍事大國或機器人開發商,主要的軍事大國似乎都在對沖自己的賭注。

  • 許多民主國家認為,他們打算保留人類對使用武力的控制/判斷,不需要禁止,因為現有的國際人道主義法律(IHL)足以解決圍繞自主武器的問題。

  • 加拿大擁有重要的人工智能(AI)能力,該能力被用于民用而非軍事用途。

  • 如果在國防領域不接受至少某種程度的(人工智能支持的)自主性,可能會降低與盟國的互操作性,給加拿大武裝部隊(CAF)的行動帶來風險,并且隨著時間的推移,使CAF對國際和平與安全的貢獻失去意義。

付費5元查看完整內容

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。

付費5元查看完整內容

本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎

【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據

I. 為什么需要行為模型?怎樣創建行為模型?

在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。

這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。

新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。

在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。

第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。

對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。

通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。

第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。

II. 獲得正確的數據

為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。

A. 軍事專家如何作出決策?

在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。

當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。

根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上

B. 如何使用行為模型進行決策?

就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。

第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。

在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。

在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。

C. 獲取有用的數據

當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。

創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。

一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。

III. 用例:使用移動作戰訓練中心的城市戰爭

移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。

圖1:一名士兵在MCTC中訓練[35]

我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。

圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。

記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。

V. 手工制作的行為模型

提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。

在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。

圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。

圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:

  • 1.Boxer進入射擊位置所需的時間。

  • 2.在步兵開始移動之前,Boxer提供壓制火力的時間。

  • 3.步兵移動到建筑物所需的時間。

  • 4.步兵到達建筑物和Boxer出發之間的時間間隔。

  • 5.清理建筑物并從步驟1重新開始所需的時間。

在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。

從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。

圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。

Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。

圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)

對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。

表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。

圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)

本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。

V. 模仿學習

模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。

除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。

模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。

手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。

VI. 模仿軍事專家

模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。

前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。

由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。

我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。

周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。

在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。

作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。

圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。

圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。

我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。

因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。

表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。

表2:預測士兵下一個狀態的量化

為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。

圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。

通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。

我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。

VII. 結論

本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。

我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。

在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。

致謝

這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。

付費5元查看完整內容
北京阿比特科技有限公司