亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

描述

未來的美陸軍部隊將需要進行跨域機動(CDM),并且有時需要半獨立地進行部署,同時通信和 GPS 等基礎設施會被中斷或拒絕。機器人和自主系統將在擴大協作決策中機動部隊的作戰范圍、態勢感知和有效性方面發揮關鍵作用。

DEVCOM ARL 專注于發展對作戰人員概念的基本理解和可能的藝術,通過研究,極大地提高基于空中和地面的自主車輛感知、學習、推理、通信、導航和物理能力,以增強和增加在復雜和有爭議的環境中的機動自由。

可擴展、自適應和彈性自主 (SARA) 協作研究聯盟 (CRA) 專注于開發和實驗加速自主移動性和可操作性、可擴展異構和協作行為以及人類智能體團隊的新興研究,以實現自適應和彈性智能系統可以對環境進行推理,在分布式和協作的異構團隊中工作,并做出適時決策,以在復雜和有爭議的環境中實現自主機動。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

什么是多域作戰?

以下定義摘自美國陸軍訓練與條令司令部:

多域作戰(MDO)描述了美國陸軍作為聯合部隊[陸軍、海軍、空軍、海軍陸戰隊和太空部隊]的一部分,如何在競爭和武裝沖突中對抗和擊敗能夠在所有領域[空中、陸地、海上、太空和網絡空間]與美國抗衡的近鄰對手。該概念描述了美國地面部隊作為聯合和多國團隊的一部分,如何在2025-2050年的時間框架內威懾對手并擊敗能力強大的近鄰對手。

MDO為指揮官提供了許多選擇,以執行同時和連續的行動,利用出其不意以及快速和持續地整合所有領域的能力,給對手帶來多種困境,以獲得物質和心理上的優勢以及對作戰環境的影響和控制。

多域作戰的關鍵元素

  • 滲透敵方的反介入和區域拒止(A2/AD)系統(分層和綜合遠程精確打擊系統、沿岸反艦能力、防空系統、遠程火炮和火箭系統),使美軍能夠進行戰略和作戰機動。

  • 破壞--擾亂、降低或摧毀A2/AD系統,使美軍能夠進行作戰和戰術機動。

  • 利用由此產生的機動自由,通過擊敗所有領域的敵軍來實現作戰和戰略目標。

  • 重新競爭--鞏固各領域的成果,迫使其以對美國和盟國有利的條件恢復競爭。

需要什么樣的軍備解決方案?

  • 戰爭的速度和決策的速度可以說從來沒有像今天這樣快過,而且明天可能也會這樣。

  • 在陸、海、空、天,甚至網絡領域運作的資產的密切協調,以促進ISR活動和對敵對目標的殺傷鏈,需要精確性,以及在各種平臺上 "蓄勢殺傷 "的能力。

  • 系統的通用性可以減少后勤的負擔,簡化培訓和維護,并有助于確保各平臺的性能一致、可靠。

  • 基于成熟技術的解決方案能夠迅速投入使用,并為作戰人員增加更多的靈活性和選擇,是一種力量的倍增劑。

付費5元查看完整內容

未來的系統開發包括指揮和控制(C2)技術,以支持空戰管理人員(ABM)和戰斗機飛行員,因為他們支持在一個更大的系統系統中使用自主無人機系統(UAS)的復雜任務。在復雜的、不斷發展的和動態的環境中,人類作戰員有效地觀察、定位、決定和行動的能力是必不可少的。然而,在ABM和飛行員之間的UAS監管變化過程中,作戰者的表現可能會下降,這大大增加了作戰者的認知工作量,超過了以往任務中通常看到的工作量。不幸的是,C2技術的發展往往把重點放在自動化和硬件上,使人類作戰員的參與度不足,不利于人與自動化的互動。目前,數字工程和基于模型的系統工程(MBSE)工具正在迅速被系統開發、整合和管理所采用,以支持整合這些系統所需的復雜開發工作。目前的研究在MBSE工具中整合了人的考慮,以分析開發過程中人與自動化的合作。該方法支持在建模的任務模擬中用一對專門的活動圖表示自動化輔助和人類作戰者,稱為任務行為者圖和OODA2活動圖,允許分析作戰過程中的錯誤和瓶頸。這種方法說明有可能減少作戰員的認知工作量,改善作戰員的決策,提高系統性能,同時減少系統重新設計的時間。

付費5元查看完整內容

美國防部第5100.01號指令要求美陸軍 "進行空中和導彈防御,以支持聯合戰役并協助實現空中優勢"。FM3-01描述了美陸軍專門的AMD部門--ADA對AMD行動的計劃、協調和執行的貢獻,以支持大規模作戰行動中的聯合和陸軍部隊。

防空和導彈防御是直接(主動和被動)的防御行動,以摧毀、消除或降低敵對的空中和彈道導彈對友軍和資產的威脅(JP 3-01)。它包括在陸地、空中、海上以及網絡空間和太空中可能采取的行動。反彈道導彈行動是擊敗空中和導彈威脅的防衛性反空結構的一個關鍵因素。在整個防空框架內,AMD行動通常與其他進攻性和防御性的防空任務相結合。雖然本手冊涉及進攻性反空和被動反空的各個方面,但它側重于主動反空戰術和程序。

FM3-01涉及到今天的作戰環境,它所設想的對美陸軍和聯合部隊的威脅是這些部隊在25年內沒有遇到過的。在這種環境下,反坦克部隊必須適應并準備在一個高度競爭的空域中進行大規模作戰行動。FM3-01為反坦克部隊提供了一個應對未來沖突的理論方法,解釋了反坦克部隊的梯隊如何為陸軍的四個戰略角色做出貢獻:塑造作戰環境、預防沖突、進行大規模地面作戰和鞏固成果。

這個FM3-01版本是以ADA梯隊為單位組織的,而不像以前的版本是以ADA系統的角度來介紹。它介紹了從陸軍航空和導彈防御司令部(AAMDC)到防空空域管理(ADAM)單元的ADA梯隊的作用、功能、基本原則和就業宗旨。它進一步描述了ADA梯隊在當前或近期行動中的AMD部隊行動和交戰行動,并討論了這些行動的持續挑戰。

這個版本引入并定義了新的AMD術語。它還定義了在其他AMD理論出版物中反復使用但從未定義的舊術語。

FM3-01由12章組成:

  • 第1章提供了美陸軍AMD的概述。它介紹了一個新的ADA角色聲明,并確定了五個關鍵的ADA基本能力。它介紹了AMD的基本原則和就業宗旨。它總結了支持聯合和統一陸地行動的ADA行動。第1章重新介紹了短程防空(SHORAD),這是保護機動部隊的一個關鍵因素。本章最后討論了ADA士兵和領導人的培訓。本章中提出了大量的定義和術語的擴展解釋,以方便理解適用于所有ADA梯隊的AMD行動和語言。

  • 第2章從AMD的角度討論了美陸軍行動過程。AMD部隊行動一般包括支持空中和導彈威脅的交戰所需的計劃和準備行動。AMD交戰行動包括執行和評估交戰的所有行動。

  • 第3章涉及作戰環境,重點是空中和導彈威脅,從火箭、火炮、迫擊炮到洲際和潛射彈道導彈,以及它們的通用能力。它還涉及美國部隊可能面臨的來自太空和網絡空間威脅的挑戰。

  • 第4章描述了任務指揮以及與陸軍AMD相關的指揮與控制(C2)。它通過AMD的視角討論了任務指揮的原則。它還介紹了適用的權力和C2要素,以及在進行交戰時的駐地。

  • 第5章至第10章分別討論了AMD作戰框架以及基礎原則和宗旨在ADA梯隊中的應用,從AAMDC到機動旅編隊的ADAM單元。每一章都介紹了各自梯隊的角色和能力、組成和行動--在C2、部隊行動、交戰行動和維持行動方面。

  • 第11章描述了非AMD陸軍部隊對執行AMD行動的貢獻。它總結了C2、計劃和使用以及與空中和火箭彈、大炮和迫擊炮(RAM)威脅有關的交戰考慮。它介紹了關于機動部隊 "毒刺 "小組的使用的理論和行動信息。

  • 第12章概述了ADA數據和通信架構以及美陸軍、聯合和多國AMD要素之間的聯系。

  • 附錄A和B分別介紹了美陸軍AMD戰略組織和系統以及ADA系統(那些通常支持作戰和戰術層面的系統)。

根據目前的理論變化,FM3-01的某些術語被添加、修改或廢除。這些術語的清單在第9頁的引言表1和2中提出。詞匯表包含了所定義的術語。

第x頁的引言圖-1說明了FM3-01的邏輯圖。第x頁的引言圖-2說明了ADA理論出版物的層次結構。

付費5元查看完整內容

技術戰略支柱

  • 利用美國技術創新潛力,解決美國防部在操作、工程和任務方面的嚴峻挑戰。

  • 為吸引和建立一支強大的、有才能的、在現代化的實驗室和測試設施中工作的未來技術工人隊伍奠定基礎。

  • 通過與更大的創新生態系統合作,最大限度地發揮我們的不對稱優勢,從工業界到大學,再到實驗室、盟友和合作伙伴。

新機遇

  • 生物技術
  • 量子科學
  • 未來集團
  • 先進材料

有效的應用領域

  • 可信的人工智能和自主性
  • 集成網絡系統的系統
  • 微電子學
  • 空間技術
  • 可再生能源發電和存儲
  • 先進的計算和軟件
  • 人機界面

國防特定領域

  • 定向能源
  • 高超音速技術
  • 綜合傳感和網絡

實驗在美國防部的作用

  • 國防實驗為技術專家和作戰人員提供了機會,以評估現有或新出現的作戰人員能力差距的潛在解決方案,并探究技術發展和概念探索的整合,以最大限度地發揮現有的協同作用。
    • 增加了知識和理解,為決策過程提供信息。
    • 擁抱實驗以恢復美國國防技術的超配。
  • 基于地理的實驗影響
    • 展示戰略信號,威懾對手,并展示決心。
    • 建立支持快速創新的全球基礎設施。
    • 加強國際伙伴關系。
  • 按軍種劃分的實驗貢獻
    • 增強作戰場所的決策能力。
    • 建立一個標準和度量的知識庫。
    • 將作戰人員、科學家和工業伙伴放在同一個地方。

付費5元查看完整內容

描述

自主機動的戰術行為(TBAM)合作研究聯盟(CRA)的目標是為小型自主智能體團體開發協調行為,以便在復雜軍事相關環境的現實模擬中執行理論和新的戰術機動。

執行者開發了新的技術來學習以及展示在復雜地形的現實模擬中的協調機動模型,如森林/叢林、起伏的沙漠/草原、流域/濕地和農村環境(有邊界圍欄的田地、稀疏的道路網絡、間歇性的流域和森林地區)。地面機器人小組表現出的協調行為應該找到與軍事有關的路線,最大限度地提高掩護和隱蔽性,并像對手即將接觸一樣進行機動。在沒有環境掩護,但任務需要穿越的地區,團隊成員應該為其前進的隊友提供掩護。

計劃結構

TBAM CRA是一個6.1基礎研究計劃。它由一系列兩年期的沖刺工作和年度計劃審查組成。每個兩年的沖刺主題都集中在解決一組不同的科學領域,這將支持與內部DEVCOM ARL主題專家進行更高的技術準備水平(TRL)研究。第一個兩年沖刺課題是 "復雜地形下的協調和對抗性戰術演習",其作戰方案名為 "運動到接觸"。在這種情況下,與對手陣地的接觸是一個持續關注的問題--在某些情況下,應該通過利用地形特征和掩體來避免這種接觸;在其他任務中,應該通過協調機動--分布式系統的同步行動--以戰術上的超越姿態迎接對手陣地。

付費5元查看完整內容

未來的 MDO 概念:

  • 需要機動以滲透并在復雜和有爭議的地區開展行動。
  • 嚴重依賴RAS。

正在探索的RAS是為了:

  • 在所有陸軍相關環境中運行。
  • 提供更好的態勢感知。
  • 增加作戰人員的距離。
  • 增加對敵方的覆蓋和困境。
  • 實現更快的決策。
  • 以尚未想象到的方式擴展機動性。

RAS將被要求:

  • 評估場景并創建和分享本地和共同世界模型。
  • 以戰斗的規模和速度協調各梯隊、團隊、分隊和單個系統(包括人類)的行動、決策和機動。
  • 適應環境和敵方行動中的巨大干擾和變化,并具有復原力。

付費5元查看完整內容

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎研究的需求。本報告的目標是定義一個經典的、與陸軍相關的配置,適合于基礎研究,以允許與適當的主題專家的關鍵數量的集中合作。從這種開放的幾何構型研究中獲得的數據和知識可能會受到更多的限制性分配

美國陸軍最近制定了一項關于未來陸軍如何作戰的戰略以及實現這些軍事能力的相關現代化和研究重點。以高超音速飛行為基礎的遠程精確射擊對于確保美國能夠對任何競爭對手實施其意志至關重要。

要實現一個有效的未來美國軍隊,必須克服許多障礙。其中一些差距是對高超音速飛行器空氣熱力學的理解,從而促使對基礎性研究的需求。缺乏對高超音速飛行器周圍發生的復雜物理和化學的預測性知識,抑制了及時的、優化的多部件設計。對邊界層過渡和沖擊-邊界層相互作用等具體現象了解不多。不能正確地對現象進行建模,會產生一些不確定的特征,如表面壓力分布和熱通量,這對飛行器技術,包括穩定性、控制和熱負荷管理,都有負面影響。

幸運的是,有一個先例,即通過定義政府基準飛行器來促進全社會的科學討論,這些飛行器包含功能相關的工件,但對具體的發展計劃不敏感(見陸軍-海軍基本芬納導彈、空軍改良基本芬納導彈、陸軍-海軍旋轉火箭、國家航空航天飛機和NASA研究)。本報告的目標是定義一個典型的、與軍隊相關的配置,適合于基礎研究,以便與足夠數量的適當的主題專家進行重點合作。從這個開放的幾何構型的研究中獲得的數據和知識可能會受到更多的限制性分配。

付費5元查看完整內容

在有環境因素的城市區域內安全有效地使用四旋翼飛行器,對美國軍事和民用部門具有巨大的重要性。本技術報告探討了一個高度適應性的模擬設置,其中有一個包含學習元素的非線性控制器。其他模型因素--如無人機的幾何形狀、權重和風的力量--在所提出的框架內很容易被修改。用虛幻引擎進行的模擬,可以結合現實世界的城市數據、現實的風和現有的開源軟件。

引言及與美國陸軍的相關性

無人系統和無人駕駛航空系統(UAS)的使用在全世界的軍隊中激增,在通信、監視、偵察和戰斗中都有應用(Nacouzi等人,2018)。在敵對地區,無人機系統將受到多種威脅,包括網絡和物理威脅,以及環境危害。生存和任務的成功往往取決于以最小的通信或依賴全球導航衛星系統(GNSS)的能力,如GPS(Guvenc等人,2018;Sathyamoorthy等人,2020;Fan等人,2022)。例如,無人機系統的通信可用于檢測和獲得無人機系統的位置,而基于衛星的導航很容易被欺騙或干擾,因為信號非常弱。其他傳感器也經常被用來增強GNSS的位置分析,并可以用來取代它,如光學系統--包括照相機、雷達、光探測和測距(LiDAR)系統和慣性測量單元(IMU)(Angelino等人,2012)。這些都提出了自己的挑戰。慣性測量單元是標準設備,但只能檢測線性和角加速度,同時通過檢測地球的局部磁場來確定方向(共9個自由度)。因此,位置誤差,即測量的加速度的第二個時間積分,會隨著時間的推移而累積。在使用IMU進行UAS導航時,其他令人擔憂的來源包括環境影響(即風或降水)。 UAS結構的物理變化,如增加一個傳感器或武器包,包括武器發射后的變化,使工作進一步復雜化。這種質量和質量分布的變化改變了UAS的質量中心和慣性張量。光學傳感器、雷達和LiDAR系統增加了重量,并經常發射射頻或光,使它們更容易被探測到和/或需要處理資源。增加的重量和/或處理可能對電池壽命產生不利影響,從而影響運行時間和整體可靠性。

為了解決這些問題,我們正在研究在大風環境中使用控制算法,以了解IMU信號如何在控制中被用來考慮(和/或改變)UAS的位置計算。再加上不確定性措施,這些最終可用于檢測UAS飛行性能的變化,或對GNSS信號的欺騙。

城市環境是安全和可靠的無人機系統運行的第二個關注領域(Watkins 2020)。它們被認為是國防部行動的一個挑戰領域,也是政府和商業服務的一個巨大的技術增長領域。在這份報告中,我們展示了一個模擬空間,我們正在建立專門用于模擬城市環境中的無人機系統,以解決自主和半自主控制的問題,重點是環境的相互作用,包括風和靜態碰撞威脅。物理學和控制的關鍵部分直接用C++實現。除此之外,在可能的情況下,我們正在利用當前的免費和開源資源(即軟件、軟件框架和數據),但要注意的是,我們包括使用一些在產品商業化成功后需要付費的工具。我們采取了一種模塊化的方法,隨著其他軟件框架和系統的成熟,將能夠靈活地過渡到其他軟件框架和系統。我們目前的系統已經基于用于小型無人機系統的PX4控制器庫和實時發布-訂閱(RTPS)數據傳輸協議。RTPS應能使我們的發展在其他工具成熟時過渡到其他工具,并使用通用的應用編程接口(即API)過渡到其他工具和數據,如計算的風數據。對于圖形和用戶界面,我們使用虛幻引擎(UE)(Matej 2016),這是一個游戲引擎,提供最先進的圖形功能和我們的模型中使用的一些物理學--最重要的是無人機系統和其環境之間的碰撞檢測。

第2-4節詳細介紹了整個模擬的主要計算部分:納入現實世界的城市數據,生成現實的風模型,無人機的幾何和物理建模,以及線性和非線性控制。我們對整體模擬的這些主要部分中的每一個都依賴開源軟件,如UE、OpenStreetMap(OSM)(Anderson等人,2019年)、Mapbox和AirSim(Shah等人,2017年),并根據需要詳細說明(見圖1;例如,真實城市的模型導入游戲引擎中)。第5節和第6節提供了樣本結果和結語。

圖1 將城市數據納入UE進行大規模模擬的兩個例子。伊利諾伊州的芝加哥(上);弗吉尼亞州的水晶城(下)。這兩張圖片都是使用開源工具創建的,將開源的Mapbox城市數據導入UE中。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

摘要

將多個領域的軍事能力融合以提高效能的學說預示著國防的新時代,其特點是能夠承受更高的作戰規模和節奏,這得益于戰場自動化和協作水平的提高。然而,要獲得這些技術進步的潛在好處,前提是要找到應對無數挑戰的成功解決方案,以便在競爭環境中實現智能、異構、交互資源的更高效和可擴展的操作。換句話說,提高防御能力的自動化和協作需要更智能的“戰場操作系統”——一個在排除人類參與時間尺度上管理復雜自動化任務的系統,同時賦予作戰人員足夠的控制權。我們將此操作系統稱為戰場物聯網 (IoBT)

在本文中,我們將重點關注維護 IoBT 所依據的三個優勢原則(在現代沖突中)所面臨的挑戰。即,

  • (i) 時間是武器;贏家是那些將傳感器和行動者之間的延遲最小化的人

  • (ii) IoBT 是一個戰斗網絡;所有功能都必須經受住主動、堅定和技術成熟的對手

  • (iii) 需要機器智能;需要一種新型的 AI 解決方案,可以快速預測到需要的點,在那里它們可以在嚴酷的現場操作環境中生存,而不是將 AI 限制運行在更高級別數據中心的解決方案中。

戰場物聯網協作研究聯盟(由政府和學術界研究機構組成的聯盟,由美國陸軍作戰能力發展司令部資助,稱為 DEVCOM,陸軍研究實驗室 (ARL))針對上述挑戰制定的解決方案是討論了:

  • (i) 映射能力范圍(即,幫助理解設想的 IoBT 能力的基本可行性限制)
  • (ii) 優化性能(即,通過以更低的成本提供智能能力來改進 IoBT 成本/價值權衡)
  • (iii) 確保彈性(即,提高已開發的 IoBT 能力,以在具有挑戰性的戰場環境中抵御廣泛的威脅)。

我們特別關注涉及機器自動化和危害人工智能本身的威脅。雖然國防科學在研究保護有形資源的解決方案方面有著悠久的歷史,但一旦自動化進入循環并被依賴作為手動操作的優越替代方案,自動化或人工智能 (AI) 就需要同樣強調保護,因為它對作戰優勢至關重要。因此,戰場物聯網解決的一個關鍵挑戰是保護 IoBT 本身的效率、功效和完整性。

圖1:多域作戰(MDO)效應循環圖

圖2:分布式虛擬試驗場(DVPG)的概念架構

付費5元查看完整內容
北京阿比特科技有限公司