亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

21 世紀作戰任務要想取得成功,就必須發揮各種不同實體的能力,而不僅僅是軍事實體的能力。本文探討了參與這些集體企業的實體需要如何超越其傳統的指揮和控制方法,才能在日益復雜的任務中取得成功。

具體來說,本文重點是如何利用指揮與控制理論以及協調概念,更好地管理或治理多域行動(MDO)。

C2 靈活性理論認為,“一刀切 ”的 C2 方法不適合應對現代沖突中的各種挑戰。這意味著必須根據當前的問題采用不同的 C2 方法。

在 MDO 中,一個領域的行動可能會影響其他領域的行動或效果。這就需要一定程度的跨域一致性。要實現這一點,參與 MDO 的實體的 C2、治理和/或管理必須適應軍事組織和其他非軍事組織之間的互動,這就駁斥了集中式甚至協調式方法就足夠的觀點。

此外,這些行動必須在有爭議的網絡空間環境中進行,這可能會限制或約束實體內部和實體之間的信息交流和通信。這反過來又影響了采用 C2 協調安排的可行性,因為這種安排依賴于強大的信息流和協作。

隨著傳感器和系統變得越來越 “智能”,運行的自主性也越來越強,需要對允許它們做出的決定進行明確管理。本文將這些能力稱為 “非人類智能合作者”(NIC),并將使用這些能力的組織稱為 “社會技術 ”組織。

本文進行了一系列實驗和案例研究,系統地探索和評估了一系列社會技術組織的 C2 協調安排,以更好地了解在有爭議的網絡空間環境中,什么適合于從簡單到復雜的 MDO 任務挑戰。

這些實驗和案例研究支持了一些與 C2 靈活性理論對 MDO 的適用性有關的命題,以及參與 MDO 的各個實體調整自己的 C2 方法的必要性。

指揮與控制與多域作戰

21 世紀的北約和成員國任務要想取得成功,就必須發揮各種不同實體的能力,而不僅僅是軍事實體的能力。本文探討了參與集體工作的實體需要如何超越其傳統的指揮和控制方法,才能在日益復雜的任務中取得成功。具體來說,本文的重點是如何利用指揮與控制理論以及協調概念,更好地管理或治理多域作戰。本報告的組織結構如下圖所示(圖 E-1)。

多域作戰(MDO)帶來了復雜的挑戰,需要采取超出傳統 C2 理論的方法。在 MDO 中,一個領域的行動可能會影響其他領域的行動或效果。這就需要一定程度的跨域一致性。為了實現這一點,多域行動往往需要軍事組織和其他非軍事組織之間的互動,這就否定了集中指揮甚至協調指揮的想法。C2 靈活性理論認為,“一刀切 ”的 C2 方法不適合應對現代沖突中的各種挑戰。這意味著必須根據當前的問題采用不同的指揮調度方法。

(Endeavor或E-Space)。E-Space是一個三維概念模型,可用于分析問題的特征,目的是為問題找到合適的 C2 方法。E-Space的維度包括動態性、依賴性和耦合性。該模型可作為一種工具,用于將行動背景概念化,并分析不同類型的問題如何需要不同的協調努力。

動態維度指的是波動性、潛在的變化率以及任務或工作中固有的變化幅度。依賴性維度描述行動之間的依賴性及其產生的影響。這一點在 MDO 中尤為重要,因為在一個領域產生的影響可能會在其他領域產生連帶效應或副作用,從而給任務帶來風險。最后一個維度 “耦合 ”考慮了實體、任務和環境變量之間關系的性質。當兩個活動緊密耦合時,前者的變化將很有可能反映在后者中,而且變化將成正比。當兩個變量松散耦合時,變化可能會傳播,也可能不會傳播。有時不會發生變化,有時則會發生巨大變化,從而使預測變得困難。

E-Space被劃分為多個 “挑戰區”,以支持討論不同類型工作之間的異同,以及不同的 C2 方法或不同實體之間的協調方式在多大程度上適合應對挑戰。例如,網絡化的 C2 方法可能更適合管理高度動態、由不涉及重大依賴關系的組件組成、松散耦合因而難以把握的工作。

E-Space位置和挑戰區只能在受控實驗中進行充分研究。在現實生活中,對E-Space位置的判斷取決于個人的主觀感受。盡管如此,E-Space仍是支持討論和研究復雜的多領域工作以及如何應對這些工作的重要工具。本報告探討了E-Space中的不同立場所帶來的挑戰如何對 C2 提出了不同的要求,以及如何在復雜的工作中協調不同實體之間的努力。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

人工智能推薦決策是一種人類-自主團隊合作形式,其中人工智能推薦系統向人類操作員推薦解決方案,而人類操作員則負責最終決策。本文旨在通過支持人類決策者的認知判斷過程,增強能力。本文建議通過向決策者提供相關信息,讓人工智能生成可能的行動方案,以此作為解釋或詮釋復雜人工智能模型的替代方案。研究結果表明,這種支持人類判斷過程的技術在以下方面非常有效:(1)提高人類決策者的態勢感知和任務性能;(2)校準他們對人工智能隊友的信任;(3)減少對人工智能伙伴的過度依賴。此外,參與者還能確定人工智能的錯誤邊界,這使他們能夠知道何時以及何時不應依賴人工智能的建議。隨后,總結了這些發現和相關結論,作為提高人類-人工智能團隊非算法透明度的設計指南,以便將該指南應用到其他領域。

付費5元查看完整內容

盡管技術取得了長足進步,但戰爭迷霧--戰場上的不確定性和不完整信息--仍對軍事行動構成挑戰。由于缺乏定量支持工具,在這種條件下進行有效決策仍然是一個關鍵問題。本文通過將軍事人工智能(AI)融入美海軍開發的六邊形戰場模擬環境(即 Atlatl 平臺)來彌補這一不足。研究重點是開發和評估各種人工智能算法,包括腳本人工智能、分層和非分層人工智能以及強化學習(RL)模型。這些模型利用概率分布來加強戰爭迷霧場景下的導航和戰略規劃。通過模擬多次戰斗迭代,人工智能模型在戰爭迷霧中定位和跟蹤敵方陣地的精確性和作戰效率方面表現出明顯的優勢,可幫助指揮官做出決策。此外,本研究獲得的見解不僅有助于完善戰爭迷霧場景中的行動方案(COA)決策,還可實際應用于反潛戰(ASW)和海上搜救(SAR)行動。本文強調了利用概率分布的人工智能支持決策的有效性。

戰爭迷霧中的決策輔助工具

美國國防部(DOD)開發了各種模型和模擬,供各分支和部門使用。表 1 列出了國防部內使用模擬和兵棋的組織名單。這些工具通過不同的方法為指揮官的決策過程提供支持。采用的方法包括定制開發的軟件;商業游戲的改編;研討會、系統和混合等各種形式的戰爭游戲;以及電子表格的使用。每種模擬都是針對特定情況設計的,并為其所針對的特定梯隊提供支持。因此,并非所有模擬都能實現定量戰爭迷霧(精確到足以用數字表示不確定性);有些模擬可能根本不包括戰爭迷霧,而有些模擬可能實現的戰爭迷霧過于寬泛。此外,即使實施了戰爭迷霧,由于需要大量啟發式干預,其為指揮決策提供定量支持的效果也可能有限。

提綱

解決 “戰爭迷霧 ”問題的研究已在游戲行業等多個商業領域展開,但在軍事領域的探索卻相對有限。因此,本研究旨在為最大限度地減少軍事領域的 “戰爭迷霧 ”做出重大貢獻,主要是幫助指揮官做出明智決策。此外,在應用人工智能、自動化作戰行動(COA)開發和評估方面,正如 “2035 年戰爭的特征研討會”(2020 年 11 月)所討論的那樣,本研究將為開發由機器支持的快速決策和人機協作做出貢獻(Taliaferro 等人,2021 年)。

為了拓寬視野,本文采用了 “戰爭迷霧 ”的概念來描述情報僅限于目標定位的狀態。這種情況與海軍反潛戰以及海上搜救行動中普遍存在的基礎條件極為相似。因此,這項研究可應用于具有類似條件的各種情況,包括海軍行動、反潛戰和海上失蹤人員搜索行動。

本論文分為五章。第一章介紹了研究的主要課題和總體范圍。第二章 “背景和文獻綜述 ”解釋了對本研究至關重要的概念,如模擬、戰爭游戲、認知行為人工智能和強化學習(RL)的基礎知識,以及如何在研究中應用這些概念。第三章 “方法論 ”詳細介紹了研究中使用的代碼結構、代碼實現以及所進行的實驗。隨后,第四章 “情景和結果 ”將重點介紹這些實驗的結果并討論其性能。第五章 “結論與未來工作 ”回顧了第四章的討論,總結了研究的主要發現,并概述了該領域未來研究的潛在方向。

付費5元查看完整內容

本論文探討了信息戰中的評估挑戰及其與信息環境中的 "制勝"觀念之間的關系。論文認為,錯位的激勵機制和組織偏見導致評估不充分,無法滿足利益相關者的知識需求。本文引入了信息戰制勝理論,認為應利用 "愿景"、"真相"、"感知 "和 "數量 "等概念來實現預期的信息目標。為驗證該理論,開發了一個信息戰游戲和相關模擬,結果表明,數量在決定對勝利的主觀看法方面起著關鍵作用。論文提出了三項主要建議: 1) 負責信息活動的領導者應激勵信息量;2) 應采用和嘗試其他方法來證明成功;3) 應將信息活動對友軍的影響納入綜合信息評估。本論文認識到實施這些建議的內在挑戰,并呼吁官僚勇敢地克服這些挑戰。

圖 8. 為利益相關者展示信息的過程。

付費5元查看完整內容

本文是研究指揮與控制(C2)未來表現形式的四篇系列論文中的第一篇。第一篇論文通過探討未來指揮與控制(C2)系統需要在其中運行的未來作戰環境,為后續研究設定了基線。具體來說,本文探討了復雜性的驅動因素、表現形式和影響,而此前的研究表明,復雜性很可能是這一環境的特征。為此,它討論了 C2 和復雜性等關鍵術語的定義;介紹了未來運行環境中復雜性的一些驅動因素,并討論了這些因素如何對 C2 系統和組織造成新的壓力;研究了分析和理解復雜性的可能方法;并概述了 2030 年代及以后可能產生的一些實際考慮因素。由于本文旨在為本系列的后續三篇論文提供資料,因此沒有全面涵蓋未來 C2 思考的所有方面,包括提出具體建議。

研究問題

  • 根據當前的全球社會和技術趨勢進行預測,國防和合作伙伴可能面臨的持續競爭和多領域作戰的作戰環境的性質是什么?
  • 基于這種對未來的預測,未來的 C2 系統和組織將面臨怎樣的復雜性;即復雜性的可能來源是什么?
  • 考慮到未來作戰環境的這一特點,未來的 C2 系統和組織需要具備哪些條件?
  • 未來的 C2 系統和組織需要什么樣的新能力和特性才能有效應對這些需求?

有爭議的定義

C2 沒有直截了當的定義,對于該術語在當代作戰環境中的范圍和相關性也存在爭議。對 C2 傳統定義的批判來自于對 21 世紀有效領導力構成要素的更廣泛質疑。在英國、美國和北約,最近出現了大量與 C2 相關的新術語,并將重點從聯合思維轉向多領域思維。我們的研究將 C2 定義為一個動態的、適應性強的社會技術系統,因此有必要考慮組織、技術和人力要素。

同樣,復雜性也沒有一個公認的定義。學術界對復雜性的研究日益增多,涉及多個科學學科,但缺乏統一的方法或理論框架。一個有用的出發點是區分簡單系統、復雜系統、復雜系統和復雜適應系統。文獻還描述了在這些條件下可能出現的所謂 "棘手"或 "超級棘手問題"。還可以對有限博弈和無限博弈進行重要區分--這是考慮作為復雜適應系統的國家間競爭時的一個有用視角。鑒于這些爭論,我們的研究避開了對復雜性的僵化定義,而是從其關鍵屬性的角度對這一現象進行了 DCDC 式的描述。

復雜性的預計驅動因素

未來作戰環境的特征--以及國防 C2 系統和組織預計將執行的任務類型--具有很大的不確定性,因此任何預測都必須謹慎。盡管如此,文獻指出了各種政治、經濟、社會、技術、法律、環境和軍事(PESTLE-M)趨勢,預計這些趨勢將影響國際體系的演變,進而影響 2030 年及以后的國防行動。這些趨勢包括以下宏觀趨勢

  • 日益增強的互聯性、多極化和全球競爭
  • 不斷變化的氣候的影響
  • 技術變革和數字化的影響
  • 傳統和新穎領域的模糊化
  • 國際準則和價值觀的轉變。

最重要的是,沒有一個單一或主要的趨勢推動著變化或復雜性;相反,最令人擔憂的是多種因素的融合及其不可預測的相互作用。這種認識為進一步研究這些趨勢影響國際體系復雜性水平和特征的具體機制提供了基礎,從而為在這一領域開展工作的 C2 帶來了新的挑戰。

復雜性的表現

上述 PESTLE-M 趨勢為未來組織應對 C2 帶來了一系列困境和壓力,包括但不限于

  • 不確定性
  • 模糊性
  • 多義性
  • 信息超載
  • 認知偏差
  • 面對瞬息萬變的事件,決策癱瘓或節奏不足
  • 難以確保決策(包括人工智能)或信任決策所依據的數據、邏輯和假設
  • 難以調動所有必要的權力杠桿,或協調參與制定和執行特定戰略或行動計劃的大量不同參與者(如跨政府合作伙伴、行業、國際盟友、公民)。

此外,無論是理論家還是實踐者,在處理包含非線性動態的問題時,都缺乏有力的措施來衡量所做決定或采取的行動的有效性。因此,很難確切地說未來作戰環境中的復雜性是否在客觀上不斷增加(而不是以不同的形式出現),但對軍隊應處理的復雜任務的政治期望與當前 C2 方法的執行能力之間顯然存在巨大差距。當前的學術理論為決定如何在復雜環境中配置 C2 提供了一個方法工具包的初步輪廓和一些指導原則,但并沒有提供靈丹妙藥。該理論強調審議分析方法,即讓不同利益相關者參與共同設計、借鑒多學科和知識體系的見解,并在分析和決策過程中建立靈活性,以便根據反饋意見不斷迭代和改進的方法。

未來 C2 的實際考慮因素

要應對復雜的自適應系統,就必須摒棄當前的線性 C2 流程和等級結構,盡管在處理非復雜任務和問題時,更傳統的方法可能仍然有用。在競爭激烈的世界中,英國既需要培養能夠對他人施加建設性影響的特性和能力(例如,將復雜性強加給對手的 C2),也需要培養能夠增強自身駕馭復雜性能力的特性和能力。

要影響敵對行動者的觀念、決策和行為,首先要深入了解其 C2 結構、流程和文化。根據這種了解,英國國防需要一套動能和非動能杠桿,對敵方的 C2 施加建設性影響,包括施加復雜性。除了敵對行動者,英國國防部還需要進一步了解如何對 PAG、盟友、合作伙伴、工業界、學術界、公民和對 C2 采取截然不同方法的其他人施加建設性影響。

在增強英國自身應對復雜性的能力方面,未來的 C2 系統和組織必須促進靈活性、復原力以及學習和適應能力等特性。整個決策周期都需要變革。例如,傳感器和通信技術的進步為獲取更多深度和廣度的數據提供了機會,包括有關復雜問題的數據。因此,提高認知能力對于理解所有這些數據至關重要,既要利用人類和機器的優勢,又要減少各自的缺點。要改變決策方法,還需要改變領導風格,以培養更善于駕馭復雜適應系統的決策者。在做出決策或計劃后,提高跨部門或跨層級的能力,在實施階段更好地整合活動或匯聚效應,對于抵消英國的局限性(如在質量方面)至關重要。

同樣,整合也不是萬全的;如果國防缺乏足夠深度的力量和能力,無法在充滿敵意的威脅環境中采取可信行動或維持高節奏行動,那么即使是最高效的指揮控制系統也無法在未來取得成功。此外,還需要采取防御措施以及恢復和失效模式,以阻止或減輕敵方破壞 C2 系統和組織的努力所造成的影響。鑒于所面臨的威脅,以及英國國防可能需要解決的不同形式的復雜問題,很可能會同時出現多種并行的 C2 模式,而不是單一的方法。應對復雜性意味著不斷學習、適應、創新和開放求變。因此,必須從一開始就將效果衡量標準、信號和變革機制納入計劃以及 C2 系統和組織,使其能夠隨著時間的推移不斷學習和調整,以應對各種情況。至關重要的是,未來 C2 系統和組織的設計只是挑戰的一部分--它們還必須得到更廣泛的國防企業緊急改革的支持,以確保獲得所需的使能因素(人員、技術等)。從 C2 的角度來看,這本身就是一個挑戰,因為改變這個企業--一個復雜的適應性系統--本身就是一個棘手的問題。

結論和下一步行動

學術理論家和政府、軍事或工業從業人員對復雜性或復雜適應系統的理解并不全面,而這正是未來 C2 運行環境的特點。雖然文獻提供了處理復雜性的有用方法和工具,以及未來 C2 的一些初步設計考慮,但英國 C2(本身就是一個社會技術系統)的現代化和轉型將是一項高度復雜的工作。這意味著要與不斷發展的作戰環境、不斷變化的威脅和技術環境共同適應,從而進行迭代和不斷學習。因此,最緊迫的挑戰或許是,考慮到 C2 系統在未來面對復雜性時取得成功所需的轉型(技術、結構、流程、文化、教育等)的程度和性質,了解如何在一段時間內最好地引導這一過程。

自相矛盾的是,要克服實現以應對復雜性為目標的 C2 系統所面臨的障礙,可能需要英國國防部已經表現出其所尋求建立的系統的許多特征。面對這樣的循環邏輯,英國國防部可能需要某種外部沖擊來迫使其進行創造性的破壞,或者利用(或不顧)更傳統、線性的 C2 方法來啟動自身的激進改革努力,并隨著時間的推移,隨著變化的到來而進行調整。

付費5元查看完整內容

為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。

RELEGS:針對復雜作戰情況的強化學習

為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。

標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。

為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。

為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。

一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。

視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。

動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。

除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。

付費5元查看完整內容

作為 CAF JADC2 AUAR 項目的一部分,本文研究了聯合全域指揮與控制系統的需求,特別是開發中的先進作戰管理系統(ABMS),以考慮極有可能發生的授權分布式作戰。本文認為,先進作戰管理系統不應只關注高層決策者和傳統指揮與控制要素的需求,而應考慮到部隊一級的使用。報告介紹了空軍單位級情報部門的作用和職責,將其作為一個使用案例來說明這一點,以便在整個聯合兵力中進行開發。

正文

美國空軍前參謀長戴維-戈德芬(David Goldfein)將軍將開發中的先進作戰管理系統(ABMS)比作優步(Uber)的共享乘車應用。他描述了共同行動圖(COP)的相似之處,該圖可以顯示汽車和司機的位置,也可以顯示 "巡航導彈和攻擊型無人機 "的位置,從而實現乘客與汽車或射手與目標的高效自動匹配。在軍事方面,這樣一個系統展示了從傳感器到戰斗管理再到射手的連接,這樣,人與人之間的第一次互動就是海軍巡洋艦指揮官提出交戰選擇,以供最終決策。這種描述非常優雅,戈德費恩將軍無疑是想為大眾提供一個有用的說明,但即使是對聯合全域指揮與控制(JADC2)結構中的 ABMS 系統進行更多的技術描述,似乎也僅限于能夠實現更有效的中央指揮控制的系統。為了對抗未來高度對抗性的環境,像 ABMS 這樣的工具必須考慮整合各層次更廣泛的用戶。如果從一開始就不考慮任務指揮的分布式執行和廣泛使用,就有可能過度依賴集中決策,從而忽視下級操作人員的兵力倍增能力,并在無法與 C2 連接時危及作戰效能。空軍單位級情報(ULI)在支持飛行行動中的作用、能力和近期經驗表明,需要擴大 ABMS 的范圍,以實現彈性的 JADC2 和有效的聯合全域作戰(JADO)。

空軍部對聯合防務與發展組織的愿景認識到,"與近期的低強度沖突行動相比,JADC2 需要更大程度的分布式執行、更高程度的授權,以及對中央規劃和任務指導的更少依賴"。"由于通信能力下降和作戰環境發生重大變化等原因,需要通過 "基于條件的授權 "來實現這一點。授權允許通過使用任務類型的命令進行任務指揮,將上級指揮官的意圖明確傳達給行使授權的下級指揮官。這與空軍正在開發的未來分布式作戰概念(如 "敏捷戰斗部署"(ACE))非常吻合,該概念設想部隊在沒有與空中作戰中心(AOC)和其他 C2 平臺所體現的傳統集中式 C2 結構進行可靠通信的情況下開展行動。當除最短距離通信外的所有通信都被切斷時,空中遠征聯隊(AEW)指揮官或在不同作戰地點的更低級別的指揮官可能不得不在只有上級指揮官最新意圖的情況下執行本地 C2。從邏輯上講,這種分布式指揮調度可能涉及本地/可通信區域內多個領域和服務的能力。這種最具戰術性的 JADC2 將需要通過及時準確的友軍信息和敵方情報來實現。

ABMS 旨在提供態勢感知,使 JADC2 成為可能。它是一個系統,旨在通過通用應用程序和軟件開發工具包(SDK)將傳感器與作戰管理聯系起來,使開發人員能夠構建將信息傳遞到這些應用程序的平臺。組件應用程序包括數據源、人工智能/機器學習(AI/ML)、數據融合、COP 以及最終的 C2 功能。利用人工智能/ML 融合和評估所有可用傳感器數據并將其顯示給決策者的方法令人鼓舞,但現有文件顯示,指揮應用程序的主要客戶是 "未來的空間、空中、網絡和全域指揮與控制戰斗管理者",并列出了傳統的 C2 角色職業領域。這些職業領域通常與 AOC 和戰術 C2 平臺等傳統 C2 元素相關,這意味著其重點是改進當前模式下的決策制定,而不是重點構建可實現上述最分散和最授權形式 C2 的工具。盡管 ABMS 尚處于起步階段,傳統的 C2 要素是一個合理的起點,但必須擴大客戶范圍,將支持戰術決策者的參與者包括在內,直至單個射手。ULI 飛行員已經執行或預計執行的功能為 ABMS 功能的更廣泛應用提供了范例,這些功能將實現分布式 JADC2。

AFTTP 3-3.IPE 將 ULI 結構概述為一個應急情報網絡 (CIN)。CIN 包括 1. 作戰情報單元(CIC),負責綜合內部和外部來源,提供全來源分析,以支持聯隊指揮官、任務規劃人員、飛行單位以及網絡防御和兵力保護等其他聯隊職能部門,此外還負責協調聯隊向 AOC 等上級部門的情報報告;2. 情報人員納入聯隊任務規劃單元(MPC),以提供量身定制的威脅分析和目標數據;3. 中隊情報人員向飛行員提供針對任務的情報簡報,進行任務后匯報,并向中央情報中心報告從匯報中獲得的情報。圖 1 所示的所有這些職能對聯隊的行動都至關重要,可幫助指揮官做出決策,并為飛行員、保衛人員和聯隊其他人員提供威脅情報,通常還提供藍色作戰數據,特別是來自空中任務指令(ATO)等 AOC 文件的信息。簡而言之,如果能夠提供必要的情報和作戰數據,并利用有助于進行定制分析的工具,ULI 可以使決策制定深入到最底層,包括在某些平臺上執行任務時進入駕駛艙。

圖 1 CIN 的功能和關系

從條令上講,AOC 的情報監視和偵察處(ISRD)負責向部隊提供其所需的大部分作戰情報。情報監視和偵察處應以部隊支助小組為中介,通過情報摘要(INTSUM)、跟蹤威脅位置的作戰命令(OB)更新、匯集和評估所有部隊關于打擊目標和威脅位置及戰術變化的匯報數據的任務摘要、目標定位和武器設計數據,為聯合作戰環境情報準備工作(JIPOE)提供最新信息,并對總體局勢進行評估,同時還是答復部隊信息請求(RFIs)的主要樞紐。在實踐中,ISRD 的人員數量和單位經驗通常不足以在支持其他 AOC 部門和 ATO 生產的同時履行所有這些職能--這已經是一項幾乎不可能完成的任務。ABMS 所宣稱的傳感器融合、自動提示和 COP 生成等目標將使 ISRD 的許多分析、目標定位和收集管理流程自動化或輔助化,但不應將其視為簡單啟用 AOC 與部隊之間現有等級條令關系的一種方式。無論是由于物理距離、通信問題,還是由于缺乏定制產品所需的相關經驗,AOC 的部隊支持人員往往不具備滿足部隊需求的能力。

鑒于在日益復雜的作戰環境中,部隊一級需要大量的支持功能,而且預期 AOC 支持不會像條令所規定的那樣完整,因此 ULI 空軍人員經常依賴人工數據處理和分析。和平時期,根據聯隊任務定制的 JIPOE 是通過對一系列情報界(IC)來源的研究建立的。戰時更新則來自任何可用來源,包括原始報告。由于缺乏來自 AOC 的足夠詳細的信息或更新頻率,用于任務規劃的威脅 OB 是通過相對較新的多情報可視化工具(如 MIST 和 Thresher)建立的,盡管要求分析人員融合多種來源以得出最終評估結果。飛行員提供的任務數據仍需匯報并手動輸入報告系統,目前這些系統幾乎無法向大型多重情報工具提供反饋,因此必須臨時納入威脅位置和戰術評估。空中和防空行動固有的聯合性質往往也要求 ULI 人員了解兄弟部隊的能力,這通常是通過經驗和關系而非正式流程實現的。這些例子僅涵蓋了較為傳統的飛行支持要求,但其他任務(如兵力保護和網絡空間防御支持)對 ULI 空軍人員的要求可能會成倍增加。

考慮戰術級情報人員(如 ULI)以及他們所支持的分布式指揮官的信息需求,應從一開始就納入 ABMS 等系統。毫無疑問,向聯合部隊指揮官(JFC)、部隊指揮官及其 C2 機構等高級決策者提供信息仍然至關重要,但啟用 JADC2 的系統同樣需要預測權力如前所述被下放的情況,并隨時準備為責任加重的低級別人員提供量身定制的信息。最近的 ULI 經驗和針對 ACE 情景的規劃展示了一些在單位層面執行的職能實例,這些職能在理論上可能是 AOC 或其他 C2 要素的職責。這些功能包括:為有機傳感器建立作戰偵察目標甲板,以滿足當地的信息需求;直接向空中的飛行員傳達具有時效性的威脅或目標更新信息;以及執行先進的目標開發以實現打擊。了解這些可能的非理論使用案例的全部范圍,并將其納入 ABMS 開發和其他 JADC2 概念中,將使有能力的 ULI 飛行員能夠利用而不是圍繞經過測試的工具和理論支持真正的分布式行動。通過利用人工智能/人工智能支持的數據融合和顯示,消除來自不同來源的人工處理和分析,該領域的有意開發可簡化 ULI 的許多任務。

認識到像 ULI 這樣的行動者在開發 JADC2 系統中的重要性,突出了使系統在對抗性、分布式行動中發揮作用的一些額外要求。考慮到在不斷變化的作戰環境中,授權可能會迅速改變,因此必須在不同的用戶訪問權限中預置權限和數據顯示,以便在上級失去連接時自動激活。考慮到用戶可能會搬遷到條件較差的地方,系統應能在連接較少或沒有連接的情況下運行。這就需要在本地網絡上進行本地存儲和繼續運行,直到恢復更廣泛的連接,然后提供一種同步和突出顯示已更改信息的方法。所有這一切都需要對高層領導的風險承受能力進行認真的討論,而不是理論上的討論,以便在獲得最佳數據和合格分析師的情況下,在最基層做出決策。

這種情況不僅適用于分布式空中行動。在空軍條令中,納入系統開發可將作戰決策權下放到最基層的分布式執行,這與其他軍種的基本概念也是一致的。例如,陸軍的任務指揮概念是 "授權下級根據情況決策和分布式執行",使用任務命令明確概述指揮官的意圖。聯合海上條令還強調了海軍長期以來的傳統,即 "任務指揮涉及集中指導、協作規劃以及分布式控制和執行"。因此,條令框架存在跨多領域授權的可能性,如果適當地集成到 JADC2 系統中,就可以通過與 ULI 相當的實體支持來實現。這些系統最終將使下放的權力能夠跨域行使指揮控制權,盡管要在整個聯合兵力中建立有效的全域作戰知識還有很多工作要做。

即使有了先進的通信和數據處理技術,假定傳統 C2 結構中的決策在對抗性行動中會有效也是不明智的。像 ABMS 這樣的 JADC2 規劃和系統開發必須預見到真正下放權力的影響,以及最基層指揮官和操作人員的信息需求。空軍 ULI 提供了一個例子,說明如果將其納入這些新開發的范圍,用戶集合就能隨時支持分布式行動

付費5元查看完整內容

指揮官可以通過將人工智能與他們的直覺和經驗相結合,做出更快、更明智的作戰役級決策。本文研究了作戰指揮官如何依靠他們的下級指揮官和強大的參謀人員來收集和分析信息,以提供建議來幫助指揮部決策。如果信息不充分或存在不確定性,指揮官就依靠他們的直覺和經驗來填補空白。目前決策過程中的每個變量都有局限性,其中大數據分析、機器學習和神經網絡的人工智能技術有助于指揮官的決策。本文介紹了在博伊德上校的觀察、定向、決定和行動(OODA)循環中合成的指揮官-人工智能決策模型(CAIDMM),以獲得對對手的明顯優勢。最后,本文研究了 "是什么 "和 "為什么 "作戰指揮官必須使用CAIDMM,以便在當今的大國競爭中獲得對近似競爭對手的戰略優勢。

指揮官-人工智能決策模型(CAIDMM)

CAIDMM從觀察階段開始,如圖3所示。在這個階段,指揮官收集所有可用的信息和數據。人工智能通過大數據分析對這一過程進行補充,大數據分析的重點是衛星和傳感器圖像、流媒體數據、社交媒體數據、手機GPS數據以及將被納入外部觀察的關系數據。至關重要的是,"大數據 "是結構化的,具有一定形式的網絡保護的彈性,以確保輸入的安全是合法的信息。神經網絡也會接受額外的輸入,如指令指導、展開的情況以及與環境的互動。這個階段實現了兩個目標。首先,收集大量的數據來分析一個結構化的問題。第二,非結構化的數據被提交給機器學習算法,以綜合、定向并向指揮官做出預測。

CAIDMM的第二步是定向階段。對原始統計資料、數據和信息進行分析、評估和優先排序,以向指揮官提供洞察力。具體來說,在支持他們的指揮官和工作人員的協助下,指揮官結合文化傳統、遺傳遺產和作戰經驗來確定問題的方向。同時,大數據分析法從觀察到的數據中提取價值和知識。方向階段根據工作人員的考慮增加了新的信息,作為機器學習和神經網絡的輸入,因為將數據合成為一個解決方案是未知的。基于定向階段內的互動,指揮官從人類和人工智能這兩個角度獲得知識。這些視角能更好地為指揮官的決策提供信息。

在CAIDMM中,如果問題是無結構的,則由指揮官決定。如果問題是結構化的,則由人工智能決定。在任何一種情況下,人工智能都可以根據決策選擇的數量來補充指揮官的工作。確認法和探索法是人工智能對指揮官的非結構化決策的兩種補充方式。確認法用于指揮官做出直觀的決定,然后使用人工智能來分析和完善解決方案。而探索式方法允許人工智能做出決定,指揮官使用他們的直覺來完善解決方案。

在確認法中,指揮官根據目標和期望的最終狀態做出直觀的決定。確認法在決策選擇數量有限的情況下最有用。如果人工智能同意所提出的最佳解決方案,指揮官就可以執行該決定。下至DL和神經網絡的ML可以使用分類和回歸分析、聚類、異常檢測、對抗性網絡和盲目的信號分離來評估決策。如果人工智能出現矛盾或產生不確定的結果,指揮官會根據可用時間采取兩種行動。如果時間和條件允許,指揮官重新評估更多的解決方案,確認輸入AI的數據,并尋求解釋,直到達成一個滿意的結果。如果時間不允許,指揮官應該根據他們的專業知識和直覺做出決定,因為在非結構化的任務中,研究證明直覺決定勝過人工智能的分析方法。

相比之下,當一項決策有許多備選方案時,指揮官可以使用探索法。這種方法允許指揮官利用大量的數據,讓人工智能首先確定幾組決策備選方案,然后由指揮官進行評估。大數據分析、無監督ML和網絡可以縮小決策選項的范圍,為指揮官提供幾個行動方案,讓指揮官從中選擇。接下來,如果指揮官的直覺與提議的行動之一相一致,他就會執行決定。如果不是,根據時間,指揮官根據他們的專業知識進行,或重新啟動決策過程,直到可以采取行動。

CAIDMM最重要的部分是要求持續的反饋,以允許人類和人工智能算法的發展。指揮官的決定產生二階和三階效應,必須反饋到隨后的觀察階段周期。此外,神經網絡會根據特定指揮官的想法和直覺進行演變,從而不斷發展,并有可能提供更完善的針對指揮官的解決方案。博伊德的OODA循環,在其起步階段,并不是為了成為一個機械的循環,而是為了進入對手的思想和決策循環的一種手段。CAIDMM必須是循環的,以利用數據做出更明智、更有效、更快速的決策。該模型還在決策矩陣中提出了兩個關鍵因素:時間和不確定性。CAIDMM的目標是在時間限制內盡可能地減少不確定性,以選擇最合適的行動方案。

報告結論

先進的人工智能系統無法成為唯一的決策權威,這強調了將人類專業知識與人工智能能力相結合的重要性。在第二次世界大戰中,圖靈的 "Bombe "每天破譯了數千條納粹加密信息,而杰出的數學家和密碼破譯者只破譯了幾條。最重要的是,Bombe機器為指揮官提供了可操作的情報,使艦隊指揮官能夠做出快速、明智和果斷的決定,通過避免或攻擊德國 "狼群 "U型潛艇來挽救他們在大西洋的后勤保障。今天的大國競爭取決于控制、傳播和處理來自所有領域的大量數據。這些數據的速度和數量超過了人類的認知能力,無法做出有效的知情決策。人工智能使作戰指揮官能夠管理和分析大型數據集以支持決策。人類和人工智能技術可以合作處理決策的不同方面。人工智能很適合使用分析方法來處理復雜的問題。人類的認知更適合于更多地關注不確定性和平衡性,使用更多的創造性、直觀性和基于經驗的決策。指揮官和人工智能可以隨著業務的發展而發展。這兩個實體都成為學習型組織,一個提供分析數據,另一個提供決策的操作 "藝術",兩者都在作戰環境中不斷發展。指揮官-人工智能決策模型描述了人工智能如何補充指揮官的決策過程,并為作戰指揮官整合人工智能技術提供了一個矩陣。

付費5元查看完整內容

硬件技術的進步使得復雜的軟件得以更多的整合,引發了無人平臺(UV)的發展和使用,并減輕了對機載智能的限制。因此,UV現在可以參與更復雜的任務,環境條件的不斷變化需要更高水平的情景響應。本文是對UV任務規劃和管理系統的介紹,旨在強調自主水下和空中飛行器領域的一些最新發展,此外還強調了一些可能的未來方向,并討論了學到的經驗教訓。在這項研究中,對UV的自主性評估以及自主性的不同方面,如態勢感知、認知和決策,進行了全面調查。本文分別解釋了仿人系統和自主系統的性能,并強調了人類在UV操作中的作用和影響。

  • 1.引言
    • 1.1 自主水下航行器(AUV)面臨的挑戰
    • 1.2 無人駕駛飛行器(UAV)面臨的挑戰
  • 2.如何評估自主性水平?
    • 2.1 移動性、獲取和保護(MAP)
    • 2.2 德雷珀三維智能空間
    • 2.3 自主控制水平圖(ACL)
    • 2.4 自主性的謝里登量表
    • 2.5 案例研究。各種自主性措施的比較
  • 3.自主性與自動化
  • 4.任務規劃-管理系統及其組成部分
    • 4.1 什么是態勢感知(SA)?
    • 4.2 什么是認知?
  • 5.基于無人機的任務規劃和任務管理系統
  • 6.基于AUV的任務規劃和任務管理系統
  • 7.蜂群機器人場景下的自主任務規劃和管理系統
  • 8.結論

付費5元查看完整內容

本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎

【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據

I. 為什么需要行為模型?怎樣創建行為模型?

在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。

這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。

新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。

在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。

第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。

對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。

通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。

第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。

II. 獲得正確的數據

為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。

A. 軍事專家如何作出決策?

在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。

當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。

根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上

B. 如何使用行為模型進行決策?

就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。

第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。

在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。

在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。

C. 獲取有用的數據

當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。

創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。

一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。

III. 用例:使用移動作戰訓練中心的城市戰爭

移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。

圖1:一名士兵在MCTC中訓練[35]

我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。

圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。

記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。

V. 手工制作的行為模型

提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。

在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。

圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。

圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:

  • 1.Boxer進入射擊位置所需的時間。

  • 2.在步兵開始移動之前,Boxer提供壓制火力的時間。

  • 3.步兵移動到建筑物所需的時間。

  • 4.步兵到達建筑物和Boxer出發之間的時間間隔。

  • 5.清理建筑物并從步驟1重新開始所需的時間。

在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。

從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。

圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。

Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。

圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)

對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。

表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。

圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)

本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。

V. 模仿學習

模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。

除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。

模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。

手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。

VI. 模仿軍事專家

模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。

前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。

由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。

我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。

周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。

在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。

作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。

圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。

圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。

我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。

因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。

表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。

表2:預測士兵下一個狀態的量化

為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。

圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。

通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。

我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。

VII. 結論

本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。

我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。

在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。

致謝

這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。

付費5元查看完整內容
北京阿比特科技有限公司