亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

美國空軍正在投資人工智能(AI)以加速分析,努力使自主無人駕駛戰斗飛行器(AUCAVs)在打擊協調和偵察(SCAR)任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程(MDP)模型,其中一個AUCAV必須優化其目標路線,以幫助消除時間敏感的目標,并收集所要求的指定興趣區域的圖像,同時躲避作為障礙物的地對空導彈(SAM)電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃(ADP)的解決方案,其中數學規劃技術與成本函數近似(CFA)政策一起被用來開發高質量的AUCAV路由政策,以提高SCAR任務的性能。CFA政策與確定的重復定向問題(DROP)基準政策進行了比較,在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務,并且防空導彈電池到達戰斗空間時,結果顯示,所提出的CFA政策優于DROP政策。總的來說,擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。

關鍵字:馬爾科夫決策過程(MDP)、近似動態規劃(ADP)、強化學習(RL)、人工智能(AI)、定向問題(OP)、車輛路由問題(VRP)、目標定位、成本函數近似(CFA)、直接前瞻近似(DLA)、網格自適應直接搜索(MADS)

I. 引言

根據美國國防部長(SecDef)的說法,美國(US)軍隊近期的重點是將目前的 "能力現代化,以應對未來的先進威脅",并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"(國防部,2021)。國防部長的重點可以通過美國國防部(DoD)有效調整其資源以應對不斷變化的威脅來實現(國防部,2021)。本論文支持國防部未來的首要任務,這些任務涉及使用自主無人駕駛作戰飛行器(AUCAVs)來壓制敵方防空(SEAD)和打擊任務。這些優先事項包括人工智能(AI)、偵察機能力、作戰司令部(COCOM)策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃(即基于模型的強化學習)算法,我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力,與國防部的主要倡議直接保持一致(國防部副部長(主計長)/首席財務官辦公室,2021)。這些資產的一個共同點是它們都對司令部的任務至關重要,并且可以與AUCAV打擊高價值目標的能力一起工作。

1.1 美國防部的舉措

AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標(TST)的位置進行偵察,使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標,包括地對空導彈(SAM),并使用精確武器成功完成空對地任務(Military Advantage, 2014)。AUCAVs對薩姆導彈可能沒有那么有效,可能會被它們擊落。然而,AUCAVs有能力對要求命名的興趣區(NAIs)或更適合其他軍事資產打擊的目標類型進行偵察,如F-35或B-52。

F-15EX是美國國防部批準的項目,與F-35不同,它不是隱形的,不能在敵后不被察覺。然而,空軍已經考慮將F-15EX與隱形戰斗機配對,并將這對戰斗機作為遠程空對空導彈發射平臺(Mizokami,2021)。盡管F-15EX也有能力進行空對地打擊,但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力,包括二十多枚空對空導彈或高超音速武器(Mizokami, 2021)。這種作戰能力是需要考慮的,因為將一架隱身飛機(如F-35)與一架不具備相同屬性的飛機(如F-15EX)配對,以完成時間敏感的目標打擊任務,作為AUCAV的目標確認能力的結果,可能會達到優越的性能。

在每個COCOM的責任區(AOR),指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅(例如,防空導彈炮臺),AUCAV可以滿足指揮官的要求。然而,這種假設忽略了一個現實,即敵人可能會施加障礙,嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區(NFZ)的情報信息,以達到避免威脅的目的。本論文討論的近似動態規劃(ADP)算法將探討未預見的NFZ或戰斗區(例如,由于防空導彈電池)如何影響AUCAV的目標選擇,以及AUCAV如何隨著時間的推移學會避免這些區域。

美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器(UCAV)進行了作戰測試和評估(OT&E)(Butler and Colarusso, 2002)。因此,本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統(JSTARS)傳送的飛行中目標更新(IFTU)信息單獨指向其目標(Butler and Colarusso, 2002)。已經完成的測試表明,使用負擔得起的移動水面目標攻擊系統(AMSTE)而不是JSTAR,使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討,但在本論文中不會詳細討論。

美國特種作戰司令部(USSOCOM)正在投資人工智能(AI)以加快分析速度(國防部副部長(主計長)/首席財務官辦公室,2021)。這篇論文的重點是建立一個人工智能算法,使戰斗指揮部,如USSOCOM,能夠及時有效地執行目標打擊,并對要求的國家情報機構進行偵察。除各司令部外,聯合情報支援部隊(JISE)和聯合特遣部隊(JTF)也依賴偵察機,這是因為他們在管理各種形式的偵察和監視敵人方面的作用,這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的(國防部,2018a)。如果目前的AUCAV路徑規劃AI算法得到改進,所有這三個適用的軍事組織都可以提供更多的情報信息,從而在目前的限制性資源(如燃料容量、彈藥或在戰區的時間)下,產生更多的目標打擊和NAI的圖像。

1.2 空軍關于目標選擇的學說

鎖定目標是一項指揮職能,需要指揮官的監督和參與,以確保正確執行(美國空軍部,2019年)。它不是某類專業或部門的專屬領域,如情報或行動,而是融合了許多學科的專業知識(美國空軍部,2019)。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合,探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說,以更好地理解空軍如何定義目標。根據聯合學說,目標是一個實體或物體,被視為可能的交戰或其他行動(國防部,2018b)。實體可以被描述為設施、個人、虛擬(非物質)事物、設備或組織(美國空軍部,2019)。

有兩類目標:故意的和動態的(美國空軍部,2019年)。當有足夠的時間將目標添加到空中任務單或其他計劃中時,故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標,但當發現或定位時,符合實現目標的特定標準。

本論文試圖確定AUCAV的最佳路線,以選擇故意和動態目標的組合。AUCAV進入戰斗空間時,有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間,AUCAV就會遇到新的目標請求(即動態目標到達),必須重新計算其最佳目標選擇路線,并考慮到新到達的目標。

需要特別考慮的兩個目標子集是敏感和時間敏感(Department of the United States Air Force, 2019)。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標(Department of Defense, 2018b)。敏感目標并不總是與附帶損害相關(美國空軍部,2019)。它們也可能包括那些超過國家一級交戰規則閾值的目標,或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響(美國空軍部,2019)。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集,因為它們是高度有利可圖的、轉瞬即逝的機會目標,或者它們對友軍構成(或即將構成)危險(國防部,2018b)。

這篇論文的重點是AUCAV對時間敏感的目標進行打擊,并對可能包括敏感目標的NAI進行偵察,同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程(MDP)模型框架解決具有隨機目標到達的無人駕駛飛機定向問題,同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析,同時避開障礙物(即防空導彈電池),并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后,采用CFA策略的ADP解決方法來優化AUCAV的目標路線,在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。

本論文的其余部分的結構是:第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品,第三章討論問題的制定框架和解決方法,第四章討論計算測試和結果,第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論,提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。

付費5元查看完整內容

序言

為了應對《2018年國防戰略》所描述的 "更具殺傷力和破壞性的戰場,跨域結合,并以越來越快的速度和越來越快的抵達力進行",美國國防部(DoD)正在通過聯合全域指揮與控制(JADC2),追求提高能力,通過以數字化、分布式的方式更緊密地整合和聯合對抗敵手。為了實現這一概念,需要將傳感器、網絡、平臺、指揮官、作戰人員和武器系統無縫整合,以實現快速的信息收集、決策和力量投射。

美國空軍部(DAF)對JADC2的貢獻是先進作戰管理系統(ABMS),該系統試圖通過傳感器到投射的信息收集、處理、路由、決策和交戰來實現聯合作戰的現代化,以便更快地對敏捷的對手發揮能力。人們對ABMS給予了極大的關注,因為它被認為是一個不斷發展的 "系統體系"和 "空軍的一個根本性的新采用模式"。然而,重要的問題仍然存在,因為ABMS沒有遵循傳統的采用方法,而且DAF預測到2025財年,它將花費大約33億美元。因此,國會正在尋求對ABMS的成本和技術開發工作進一步澄清。

管理和預算辦公室和空軍部要求美國國家科學、工程和醫學研究院評估計劃中的ABMS架構、技術差距和管理。從2020年10月到2021年5月,空軍先進作戰管理系統委員會從大部分公開來源的新聞中進行了廣泛的文獻審查,并召開了12次非機密會議和1次為期多天的機密數據收集會議,以接受專家證詞并收集有關現有ABMS通信和系統集成架構、技術方法和管理結構規劃和能力的信息。盡管COVID-19大流行病阻礙了委員會對作戰和指揮與控制(C2)中心進行實地考察的能力,但委員會還是從許多介紹ABMS和JADC2的專家那里收集了寶貴的見解。委員會還在2020年10月至2021年4月期間每周舉行一次虛擬規劃會議,并在2021年5月下旬舉行一次面對面的會議,以審議和討論關鍵的調查結果和建議。撰寫工作于6月開始,并在2021年9月完成。

空軍先進作戰管理系統委員會感謝眾多知名專家和思想領袖的貢獻,包括來自美國海軍部、陸軍部和空軍部的代表,他們就各自的通信系統和他們對JADC2的態度發表了見解。在研究過程中咨詢的其他專家組織包括聯合參謀部、美國北方司令部、聯合人工智能中心、國家安全局、聯邦資助的研究和開發中心、大學附屬研究中心、商業行業和許多其他機構。

雖然ABMS仍然是一個正在發展的生態系統,但本報告總結了美國國家科學院關于ABMS的共識研究結果和建議,對ABMS是什么和可以是什么,以及在繼續發展的過程中如何改進提供了一個時間點的視角。這項研究由八個委員會成員進行,并得到了我們的研究主任Ellen Chou和她優秀的工作人員的大力協助,包括Evan Elwell和Ryan Murphy。

Philip S. Antón,主席,空軍高級戰斗管理系統委員會

內容目錄

  • 概要

  • 第1章 觀點

    • 1.1 未來空中和太空作戰的愿景, 12
    • 1.2 聯合全域指揮與控制(JADC2), 16
    • 1.3 空中作戰中心(AOC), 18
      • 當前的AOC, 18
      • 未來的AOC, 22
    • 1.4 先進作戰管理系統(ABMS), 23
      • ABMS的演變, 23
      • 非傳統的采購方法, 24
      • 從論證到能力發布, 28
      • ABMS是JADC2的一個貢獻者, 30
      • 其他JADC2貢獻者和復雜因素, 32
  • 第2章 架構和數據

    • 2.1 架構概述, 36
      • 架構和技術現狀, 40
      • 以數據為中心的操作技術, 44
      • 高性能處理:AI和ML, 45
      • 數據和數據標準, 48
      • 容器化和Kubernetes, 50
    • 2.2 軟件方面注意事項, 53
      • 應用軟件和DevSecOps, 54
      • 數據權限, 58
    • 2.3 安全性, 59
      • 網絡可靠性、彈性和容錯性, 59
      • 多層次的安全,62
      • 網絡安全和零信任, 64
    • 2.4 測試和建模, 68
      • 測試和評估, 68
      • 基于模型的系統工程, 70
      • M&S和VV&A, 73
      • 數字孿生, 74
    • 2.5 共同任務指揮中心, 76
  • 第3章 管理

    • 3.1 組織整合, 82
    • 3.2 人為因素, 86
      • 人的系統集成, 86
      • 培訓、文化和其他方面的考慮, 88
  • 第4章 挑戰與機遇

    • 4.1 互操作性, 93
    • 4.2 情報, 95
    • 4.3 主要建議, 96
      • 技術性, 96
      • 非技術性, 99
    • 4.3 結論性意見, 100
  • 附錄

    • A 任務說明 107
    • B 數據收集會議 109
    • C 簡稱和縮略語 116
    • D 委員會成員履歷信息 121
    • E 對不可避免的利益沖突的披露 128

概要

美國國防部(DoD)正在追求通過聯合全域指揮與控制(JADC2)來提高對敏捷對手進行更緊密集成和聯合作戰的能力。這個框架將無縫整合傳感器、網絡、平臺、指揮官、作戰人員和武器系統,以使得聯合部隊和多國家部隊實現快速信息收集、決策和投射。美國空軍部(DAF)對JADC2的貢獻是先進作戰管理系統(ABMS)。

目前對于ABMS存在諸多疑問,它到底是什么?它的結構是否恰當?這些都存在擔憂,因為它缺乏一套明確的、獨立的、指定的最低性能目標,一套固定的要求,一個擬議的能力交付時間表,以及針對這些目標缺乏體系性的分配預算和資源。雖然敏捷性、靈活性和適應性是有價值的目標,但如果沒有一個提供足夠細節、具體要求和衡量標準的計劃來同步這樣一個龐大而復雜的系統,要成功地大規模交付能力就會受到挑戰,也不太可能。

為了解決這些問題,美國空軍先進作戰管理系統委員會被要求審查以下內容:

  • 1.評估規劃中的ABMS數據和通信架構,并比較該架構的預期性能特征,以支持實時火力控制和全域傳感器到投射的數據流、指揮和控制(C2)活動、基于人工智能(AI)的生活模式訓練、戰斗損傷評估以及其他相關的數據活動。

  • 2.確定ABMS技術和規劃中的系統集成架構的任何技術差距和不足。

  • 3.審查ABMS的管理,并建議如何改進規劃中的組織和執行計劃及流程,以更好地使美國空軍部和整個國防部快速實現JADC2行動。

在進行研究時,前空軍負責采購、技術和后勤的助理部長(SAF/AQ)將ABMS的主要責任辦公室(OPR)從DAF的首席架構師辦公室(DAF CAO)轉移到DAF的快速能力辦公室(RCO)。這一變化的結果是雙重的。首先,委員會最初負責審查的任務與ABMS的優先事項和RCO的職責并不完全一致。由于這個原因,委員會為完成所需的分析而要求的一些信息無法提供,委員會收到的一些信息后來被更新的信息所取代。第二,委員會收到的ABMS的情況基本上是過渡性的,因為該系統的技術設計和管理在DAF內部正經歷著重大變化。

作為一個處于早期定義階段不斷發展的系統,ABMS架構及其支持要素仍然是動態的。2020年10月至2021年3月提交給委員會的ABMS技術架構在很大程度上反映了ABMS在"on-ramp "大規模演習中產生的狀態,該演習由DAF CAO主導。早期的架構和方法正在由DAF RCO進行評估和修訂,因為它致力于在將要投入使用的能力版本中創建一套采購方案。因此,委員會的分析反映了該早期架構的方法、益處、挑戰和機遇,并構成了CAO、RCO、DAF和更廣泛的美國防部元素的見解和建議,供他們在追求更新的ABMS架構、其中的單個采購計劃以及更大的JADC2框架時考慮。在新任空軍部長的指導下,DAF RCO已經在為ABMS不斷發展的規劃和設計,解決了其中的一些問題,但其他問題(尤其是非技術性因素)需要進一步考慮。

本報告的組織和主要的觀察結果

本報告按主題分為四章:觀點、架構和數據、管理以及挑戰和機遇。第1章描述了為什么需要ABMS,以及它是如何從一個聯合監視和雷達系統的替換計劃發展到一個全方位的指揮和控制系統的。第2章研究了當前和規劃的架構,包括數據標準、軟件、安全、測試和建模。第3章概述了ABMS過去和現在的管理,并強調了人力整合、培訓、文化和其他考慮。第四章詳細介紹了互操作性和情報,并總結了委員會的建議。

從高層宏觀上評論,委員會的結論是,作為一個非傳統的采購項目,ABMS已經走上正軌,但它仍然是一項正在進行的工作。它的技術設計和架構仍處于起步和發展階段,因此委員會很難對其數據和通信架構進行全面評估,特別是當它們與JADC2框架有關時,該框架也正在開發和定義中。此外,委員會發現,性能特征的規模和范圍在很大程度上是有限的,因為它們在很大程度上與“on-ramp”演示有關,而不是與實際作戰活動有關,因為現實世界的物理約束可能會限制實際性能。

委員會認為,指派DAF RCO作為ABMS的領導機構是一個積極的步驟,將ABMS從演示和實驗轉向重點能力開發。委員會還支持空軍部長的呼吁關于建立性能指標以衡量改進和操作結果。

作為一個家族系統,ABMS很難被量化。委員會無法詳細說明和評估ABMS的確切成本,因為它涉及到一個項目組合--其中一些沒有被指定為ABMS的要素,但仍被列為更廣泛ABMS生態系統的一部分。國會決定將ABMS的總預算減少近一半,這顯然限制了ABMS在近期和中期所能完成的工作。但是,這種預算限制也可能迫使DAF領導人對ABMS的投資和能力做出必要的決策和優先考慮。

委員會發現,目前的ABMS以及更廣泛的JADC2管理結構是不夠的,缺乏適當的權力來執行所有領域的指揮和控制。由于缺乏一個國防部級別的執行機構來處理和解決JADC2框架所有參與者的技術、操作和指揮決策,導致每個軍種和國防部機構都在開發自己的C2系統,其獨特的要求、標準和技術規范對實現互操作性構成挑戰。

委員會認識到,在本分析過程中,ABMS的技術方法和管理結構都在不斷發展。因此,需要注意的是,下面總結的和本報告其余部分詳細介紹的一些建議是針對早期的ABMS方法的,而其他建議可能仍然與較新的、更集中的項目計劃有關。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究,即無人機的自主機動決策。形成了大量研究成果,但其中基于強化學習(RL)的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標,最突出的是遺傳算法(GA),A*,RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗(Alpha Dogfight Trials)中,強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后,強化學習帶來了巨大的關注。在這項研究中,將無人機作為目標,該無人機有一個杜賓斯車動態特性,在二維空間中使用雙延遲深確定策略梯度(TD3)以最佳路徑移動到目標,并用于經驗回放(HER)。首先,它的目的是讓agent采取最佳路徑到達目標,過程中有障礙物。在每個情節中,我們的agent從一個隨機點開始,我們的目標是穩定的,其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后,為了測試機制的極限,使我們的agent更難達到目標,并使其執行不同的機動性,我們添加了障礙物。它表現得很好,克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法,它使用了雙延遲深度確定性策略梯度(TD3),這是一種為具有連續行動的MDP定制的算法,使用強化學習作為基礎。

付費5元查看完整內容

美國防戰略(NDS)確定了一個復雜的全球安全環境,其特點是對當前國際秩序的公開挑戰和國家間長期戰略競爭的重新出現。它要求建立一支致命的、靈活的、有彈性的和可快速部署的部隊,以對抗、威懾和贏得對所有對手的勝利。海軍執行CNO的指導,以我們的海上控制和力量投射的核心原則以及前瞻性的艦隊設計概念為中心,開展分布式海上作戰(DMO),提供NDS所需要的強大海上組成部分。作為NDS的組成部分,海軍航空兵強烈關注更新現有能力,使新的先進平臺投入使用,并通過加強戰術和程序來補充今天的作戰能力,以應對高端戰斗。

今天的航母攻擊群(CSG)--以大甲板、核動力航空母艦及其搭載的艦載機聯隊為中心--通過為艦隊指揮官提供多領域的軍事力量來實現這一創新的艦隊設計。艦載機在殺傷力、戰斗空間態勢和機動性方面為任何海上戰場帶來了無可比擬的貢獻,確保了海軍建立和維持海上控制、實現海上優勢和遠距離投射力量的能力。

海軍的固定翼和旋翼飛機、有人和無人飛機構成了世界上分布最廣的航空平臺,為CSG、遠征打擊群(ESG)和水面艦艇提供支持,提供廣泛的支持性任務。

《海軍航空遠景2030-2035年規劃》取代了《海軍航空遠景2025年規劃》,并反映了一些關鍵概念,以滿足CNO對海軍的愿景,即在海面上一擁而上,在每個軸心和每個領域提供同步的致命和非致命努力。

當海軍計劃建立和維持一支致命的、有彈性的部隊時,必須要有一個明確的路線圖,與此同時,也要有一個明確的計劃。

未來的技術

鑒于威脅快速發展,海軍航空必須投資并追求先進的技術和作戰概念,以便在戰爭的戰役層面上取得成功。美國防部長奧斯汀指出:"盡管在過去30年中進行了兵力結構的削減,但聯合部隊有必要的能力和實力來實施國防戰略(NDS)的優先事項并應對今天的威脅。在國會的支持下,國防部將通過繼續投資聯合部隊的戰備和部隊現代化,以及加快對人工智能(AI)、機器學習(ML)和其他先進技術的投資,提高聯合部隊的戰斗潛力。這些投資,加上盟友和合作伙伴的合作,將優化部隊結構,產生一支能夠威懾或擊敗對手的有戰斗力的聯合部隊。"

海軍航空的先進技術包括

  • 無線電頻率(RF)和紅外線(IR)信號降低技術

  • 增強被動和主動殺傷鏈

  • 載人/無人機組隊(MUM-T)

    • MUM-T減少了駐扎在CVW內的有人飛機的風險,同時也提高了性能、容量和生存能力。無人機系統(UAS)將在未來的機翼和分布式水面艦隊中扮演不同的角色,如加油、通信中繼、后勤、空中電子攻擊、打擊和ISR&T等任務。

    • MQ-25將是海軍第一個基于航空母艦的無人平臺,并將增加CVW的殺傷力和覆蓋范圍,作為一個油輪,它具有輔助ISR作用。

    • MQ-4C "海獅"在2020年1月實現了早期作戰能力(EOC),通過人機和自主團隊提供持久的海上ISR&T。它將按計劃在2023年實現初始作戰能力(IOC)。當與任務管理工具配對時,如Minotaur與IFC 4多信息配置,"海獅"將提供傳感器的敏捷性,以定位、跟蹤、分類、識別和報告感興趣的目標。

    • MQ-8C "火力偵察兵 "無人機系統將在不久的將來首次部署先進的雷達、Link 16和Minotaur任務系統。

    • 正在推進物資和非物資解決方案,以加強MQ-8、MH-60和瀕海戰斗艦之間的互操作性。納入Link 16的信息傳遞以及Minotaur的整合,將提高分布式水面艦隊的有機瞄準能力,并提高戰斗空間態勢感知。

  • 提高速度和射程--推進器解決方案在為先進任務系統提供動力和冷卻的同時,還能提高速度、射程和續航能力(即可變循環發動機)。

  • 長距離、高容量和高超音速武器--下一代武器不僅要擴大空對空和地對空的覆蓋范圍,而且要同時擊敗機動空中目標和地對空防御。這可以通過增加運動量(即高超音速)和/或其他破壞性技術(如定向能武器)來實現。

  • 減少決策時間--通過納入自動化、最佳機組-機隊交互和利用人工智能(AI)和機器學習(ML)的團隊化有人/無人部隊,推動戰術的簡單化。

  • 電磁機動戰(EMW)能力--對抗敵人殺傷鏈和防空系統的能力。

  • 網絡能力--對抗敵方網絡效應的能力,同時加強網絡能力和平臺。

  • 先進的網絡--海軍戰術網格(NTG),具有彈性的可生存的波形。

  • 福特級航空母艦--設計用于支持這些和其他技術到未來的發展。

在海軍航空部門實現這些技術革新的過程中,與工業界合作是至關重要的。與商業企業合作必須包括對開放架構的明確需求,避免獨特和專有的硬件和軟件,以及開發、測試和實施,推動分段而不是整體的變化。這種聯盟和合作將在正確的時間為正確的理由加速正確的變革。

海軍航空2030-2035遠景

"我們的武裝部隊作為世界歷史上最有能力的軍隊,已經配備了人員、訓練、裝備,并準備好響應國家的號召。" -美國防部長勞埃德-J-奧斯汀三世

當海軍航空展望未來時,很明顯正面臨著一個快速演變的威脅,需要大量的部隊現代化。領導層必須采取大膽的行動并做出艱難的選擇,以產生在各種沖突中獲勝所需的變化。這將需要重新關注海軍所需的能力、容量、戰備和訓練,以提高和保持作戰優勢。

海軍航空將接受可負擔性。通過明智地應用資源和進化的投資戰略,海軍航空2030-2035年遠景規劃概述了一種在所有戰爭領域提供完整的殺傷鏈的方法,有助于在未來幾年內保證進入、權力投射和海上控制。今天為2035年開發和采購的航空機隊是一個混合體:互補的第四代和第五代飛機;NGAD FOS;有人和無人平臺;以及網狀的傳感器和武器,以確保海軍能夠決定性地擊敗日益先進的近距離威脅。海軍航空兵必須能夠用下一代飛機在更遠的距離和更快的速度對任何目標提供精確的效果。

如果我們堅持這一愿景,海軍航空兵將能夠整合海基和陸基飛機--有人駕駛和無人駕駛--以提供一支持久、靈活、可調整的部隊,具有提供穩定存在、緩和地區緊張局勢或使用武力向我們的對手施加代價的靈活性和響應性。

縱觀其歷史,海軍航空兵一直處于海戰的戰術、作戰和戰略創新的前沿。空軍司令部的設想延續了這一傳統,并保留了海軍航空兵給我們國家帶來的作戰優勢。

付費5元查看完整內容

先進作戰管理系統(ABMS)是美國空軍創建下一代指揮和控制(C2)系統的最新計劃項目。ABMS建議使用云環境和新的通信方法,使空軍和太空部隊系統能夠使用人工智能無縫共享數據,以實現更快的決策。空軍將ABMS描述為其創建物聯網的努力,這將使傳感器和C2系統相互分解(與空軍傳統上執行C2的方式相反)。該計劃是空軍對國防部全域聯合指揮與控制(JADC2)工作的貢獻,重點是使國防部的作戰決策過程現代化。

ABMS最初的設想是取代目前指揮空戰行動的E-3機載預警和控制系統(AWACS)(圖1),但后來有了更廣泛的范圍。前空軍負責采購的助理部長威爾-羅珀指示,該計劃應減少對指揮中心和飛機的關注,而是創造數字技術,如安全云環境,在多個武器系統之間共享數據。羅珀博士表示,2018年國防戰略所設想的有爭議的環境迫使空軍重組ABMS項目。2021年5月,空軍副參謀長大衛-奧爾文將軍在DefenseOne的一篇文章中說:"ABMS究竟是什么?它是軟件嗎?硬件?基礎設施?策略?答案是都是"。換句話說,空軍將ABMS設想為一個采購項目,它既要采購東西,又要實施其他非開發性的工作,該部門認為這些工作同樣重要:指揮和控制空軍的新技術。

自ABMS成立以來,國會已經對下一代C2系統的發展表示了興趣。空軍表示,ABMS是一個非傳統的采購項目。因此,國會對空軍替換老舊系統的方法和試驗新興技術的方法提出了質疑。

ABMS的開發工作

迄今為止,空軍已經進行了五次活動,以展示其希望最終投入使用的新C2能力。2019年12月,空軍在其第一次ABMS "on-ramp"(空軍用來表示演示的術語)中,展示了從陸軍雷達和海軍驅逐艦向F-22和F-35戰斗機傳輸數據的能力。這次活動還展示了空軍的統一數據庫(UDL),這是一個結合天基和地基傳感器追蹤衛星的云環境。

2020年9月,ABMS進行了第二次"on-ramp"。這第二次上線演示了通過使用超高速武器作為防御手段,探測和擊敗一個飛向美國的模擬巡航導彈。此外,ABMS還展示了 "探測和擊敗破壞美國太空行動的手段"的能力。根據空軍的新聞稿,"70個工業團隊和65個政府團隊 "參加了這次活動。

空軍在2020年9月下旬舉行了第三次"on-ramp",以支持珍珠港-希卡姆聯合基地的 "勇敢之盾 "演習。在這次活動中,空軍展示了使用KC-46加油機通過將數據從較老的第四代戰斗機轉發到較新的第五代飛機,如F-22,來執行戰術C2。2021年5月,空軍表示,為KC-46采購通信吊艙將是ABMS項目的第一個能力發布。空軍說:"在戰斗中,無論如何,郵機將需要在作戰附近飛行,支持戰斗機,因此將它們作為指揮和控制系統,無論是作為主要的還是彈性的備份,都是有意義的。"

2021年2月在歐洲舉行了第四次"on-ramp"。根據新聞稿,空軍由于預算限制而減少了這次活動規模。這第四次將包括荷蘭、波蘭和英國在內的盟國聯系起來,進行聯合空中作戰。據美國駐歐洲空軍司令哈里根將軍說,這第四次活動測試了美國和盟國用F-15E飛機發射AGM-158聯合空對地對峙導彈(JASSM)執行遠程打擊任務的能力(見圖2),同時利用美國和盟國的F-35飛機執行空軍基地防御任務。

本預計2021年春季進行第五次"on-ramp"在太平洋地區,但由于預算限制,取消了這次活動。

GAO的報告建議

2019財年國防授權法案(NDAA)指示政府問責局(GAO)評估ABMS計劃。在2020年4月的一份報告中,GAO向空軍總設計師建議采取四項行動來提高項目績效。

1.制定一個計劃,在ABMS開發領域需要時獲得成熟技術。

2.制作一個定期更新的成本估算,反映ABMS的實際成本,每季度向國會匯報一次。

3.準備一份可購性分析,并定期更新。

4.正式確定并記錄參與ABMS的空軍辦公室的采購權力和決策責任。

空軍助理部長同意了所有的建議。前空軍參謀長David Goldfein將軍不同意這些建議,他指出GAO的分析沒有反映機密信息。美國政府問責局表示,它可以接觸到機密信息,這些額外的信息并不影響其分析和建議。

ABMS的管理結構

根據GAO關于ABMS的同一份報告,空軍最初確定由空軍總設計師(普雷斯頓-鄧拉普),來協調空軍每個項目執行辦公室的ABMS相關工作。GAO對這種管理結構可能導致ABMS缺乏決策權表示擔憂。然而,在2020年11月,羅珀博士選擇空軍快速能力辦公室作為ABMS項目執行辦公室。首席架構師辦公室繼續開發全軍的架構(即軟件和無線電如何能夠相互連接),以支持ABMS。

國會就AMBS采取的行動

國會已經對ABMS系統的發展表示了興趣。下面的清單總結了國會在前三個NDAA中的行動:

  • 2019財政年度NDAA(P.L. 115-232):

    • 第147節:限制E-8 JSTARS飛機退役的資金可用性
  • 2020年國防部(P.L. 116-92):

    • 第236節:與先進戰斗管理系統有關的文件
  • FY2021 NDA (P.L. 116-283) :

    • 第146節:移動目標指示器要求和先進戰斗管理系統能力的分析
    • 第221節:與先進戰斗管理系統有關的問責措施

2021財年國防撥款法案(P.L. 116-260 C分部)將ABMS的資金從要求的3.02億美元減少到1.585億美元,理由是 "不合理的增長和預先融資"。

在ABMS的整個發展過程中,國會對在確定合適的替代物之前退役舊的C2系統如JSTARS和AWACS表示關注。國會還指示空軍制定傳統的采購理由,如成本估算和需求文件,以確保國會和軍方都了解要采購的東西。這些行動反映了美國政府問責局的建議。

關于國會的潛在問題

  • 使用ABMS方法分解指揮和控制的風險是什么?

  • 空軍應如何平衡創新、實驗與采購成熟技術?

  • ABMS提供了哪些傳統指揮與控制系統無法提供的機會?

  • 利用6.8軟件和數字技術試點計劃預算活動代碼中的新預算授權靈活性,ABMS是否會受益?

付費5元查看完整內容

序言

指揮、控制和通信(C3)系統是所有軍事作戰的基礎,為國防部(DoD)的所有任務提供計劃、協調和控制部隊和作戰所需的關鍵信息。歷史上,美軍取得并保持了C3技術的主導優勢,但同行的競爭者和對手已經縮小了差距。國防部目前的C3系統沒有跟上威脅增長的步伐,也沒有滿足我們聯合作戰人員不斷增長的信息交流需求。聯合部隊必須配備最新的C3能力,為所有領域提供實時態勢感知和決策支持。

未來的沖突很可能由信息優勢決定,成功的一方將來自多個領域的分布式傳感器和武器系統的大量數據轉化為可操作的信息,以便更好、更快地做出決策并產生精確的效果。國防部(DoD)正在執行一項重點工作,通過綜合和同步的能力發展,在所有領域迅速實現靈活和有彈性的指揮和控制(C2),以確保對我們的對手的作戰和競爭優勢。這項工作被稱為聯合全域指揮與控制(JADC2),是決策的藝術和科學,將決策迅速轉化為行動,利用所有領域的能力并與任務伙伴合作,在競爭和沖突中實現作戰和信息優勢。JADC2需要新的概念、科學和技術、實驗以及多年的持續投資。

該戰略代表了國防部對實施國防部數字化現代化戰略中C3部分的設想,并為彌合今天的傳統C3使能能力和JADC2之間的差距提供了方向。它描述了國防部將如何創新以獲得競爭優勢,同時為完全網絡化的通信傳輸層和先進的C2使能能力打下基礎,以使聯合全域作戰同步應對21世紀的威脅。該戰略的重點是保護和保持現有的C3能力;確保美國、盟國和主要合作伙伴在需要的時候能夠可靠地獲得關鍵信息;提供無縫、有彈性和安全的C3傳輸基礎設施,使聯合部隊在整個軍事作戰中更具殺傷力。這一戰略的實施需要在作戰領域內和跨作戰領域內同步進行現代化工作,從完美的解決方案過渡到一個高度連接的、敏捷的和有彈性的系統。

本文件確定的目標為DOD的C3系統和基礎設施的現代化提供了明確的指導和方向。然而,現代化并不是一個終點,而是一項持續的工作。國防部將評估和更新該戰略,以適應在通往JADC2道路上的新的作戰概念和技術。

引言

美國防部正面臨著幾十年來最復雜和競爭激烈的全球安全環境。在這個大國競爭的新時代,國防部必須提高聯合作戰人員的殺傷力,加強聯盟伙伴關系,吸引新的合作伙伴,并改革國防部以提高績效和經濟效益。

當我們建立一支更具殺傷力的部隊并加強聯盟和伙伴關系時,DOD必須專注于關鍵的有利工具,以有效地運用聯合多國部隊對抗大國競爭。有效的部隊使用始于有效的C2,即由適當指定的指揮官在完成任務的過程中對指定和附屬部隊行使權力和指導。在現代戰爭中,這可能是人對人、機器對機器(M2M)的循環,或者隨著自主程度的提高,M2M的循環中也有人類。在其最基本的層面上,成功的C2需要有可靠的通信、發送和接收信息的手段,以及其他處理和顯示可操作信息的能力,以幫助指揮官進行決策并取得決定性的信息優勢。

圖1:指揮、控制和通信現代化

該戰略的重點是支持有效的聯合和多國作戰的C3使能能力(圖1)。C3使能能力由信息整合和決策支持服務、系統、流程以及相關的通信運輸基礎設施組成,使其能夠對指定和附屬的部隊行使權力和指導。這些能力使指揮官和決策者能夠迅速評估、選擇和執行有效的作戰方案以完成任務。

具體而言,該戰略為2020-2025年的C3使能能力現代化提供了方法和實施指南。作為2018年國防戰略(NDS)實施的一部分,聯合參謀部正在制定聯合和任務伙伴網絡的工作概念,以便在有爭議的環境中執行全域聯合作戰。根據這些概念,負責研究和工程開發的國防部副部長辦公室(OUSD(R&E))正在開發和發展一個長期的(2024年及以后)全網絡化指揮、控制和通信(FNC3)架構。實施這些未來的概念和架構將需要時間來使得新的技術和多年的投資成熟可用。這個C3現代化戰略為彌合今天的傳統C3使能能力和未來的FNC3使能JADC2之間的差距提供了方向,以確保聯合部隊能夠 "今晚作戰(fight tonight)",同時為聯合全域作戰所需的未來技術創造一個可行的過渡路徑。

戰略目標

本戰略提出的C3現代化目標與國防部數字化現代化戰略(DMS)和其他更高層次的指導意見相一致,包括國家發展戰略、國防部2018年網絡戰略、聯合作戰的基石概念:《聯合部隊2030》和《國防規劃指南》。它實施近期的現代化作戰和創新解決方案,通過更安全、有效和高效的C3環境提供競爭優勢。為此,國防部必須解決這些C3現代化的目標:

1.開發和實施敏捷的電磁頻譜操作;

2.加強定位、導航和授時信息的交付、多樣性和彈性;

3.加強國家領導指揮能力;

4.提供綜合的、可互操作的超視距通信能力;

5.加速和同步實施現代化的戰術通信系統;

6.全面建立和實施國防部公共安全通信生態系統;

7.創造一個快速發展5G基礎設施和利用非美國5G網絡的環境;

8.提供有彈性和響應的C2系統;9.提供任務伙伴環境能力。提供任務伙伴環境能力和服務。

圖2:DOD數字現代化戰略

圖3:DOD C3現代化和數字現代化戰略的一致性

圖2和圖3分別顯示了本戰略中實施的DMS要素以及兩個戰略之間的目標和目的的一致性。

DOD C3依賴于一個復雜的、不斷發展的系統,從網絡基礎設施和核心服務到戰術邊緣的手持無線電和移動設備。本戰略中包含的九個目標是對圖2中強調的六個DMS目標的更細粒度的分解。C3現代化的其他關鍵因素包括聯合信息環境能力目標、數據中心化和數據分析,分別包含在DMS、國防部云戰略和國防部人工智能戰略中。有效的國防部事業管理將確保這些戰略的成功同步和實施。

付費5元查看完整內容

摘要

先進的任務規劃軟件包(如 AFSIM)使用傳統的人工智能方法,包括分配算法和腳本狀態機來控制軍用飛機、艦船和地面單位的模擬行為。我們開發了一種新穎的 AI 系統,該系統使用強化學習為軍事交戰生成更有效的高級策略。然而,它不是從頭開始學習具有初始隨機行為的策略,而是利用現有的傳統 AI 方法來自動化簡單的低級行為,簡化問題的協作多智能體方面,并利用可用的先驗知識引導學習以實現數量級更快的訓練。

圖 1 - 涉及空中、海上和地面單位的復雜 AFSIM 場景示例。分析師必須對所有這些平臺進行建模,并使用基于規則的系統指定它們的行為。

圖 2 - 我們最初探索的 AFSIM 場景的概念圖。許多紅色和藍色的戰斗機被放置在地圖上的隨機位置。基線腳本 AI 用于控制紅隊,我們的新混合 RL 智能體學習擊敗紅隊的策略。

圖 3 - 簡化的 MA2D 環境,完全用 Python 編寫。此示例包含兩個藍色戰斗機和兩個紅色戰斗機。深灰色區域代表每個單位的武器區域。目標是通過讓每個對手進入該區域來摧毀所有對手,同時避免類似地摧毀友軍飛機。這種簡化消除了對導彈飛行建模的需要。

圖 4 - 我們的混合架構概述,將高級強化學習器與低級腳本行為策略配對。強化學習代理選擇腳本行為,然后生成發送到環境的實際控制輸出。

付費5元查看完整內容

概述

2019 年的項目提案征集產生了 10 個項目,共包含 15 個研究工作流。這些項目涉及 140 多名教職員工、研究人員和學生,他們隸屬于麻省理工學院校園和麻省理工學院林肯實驗室的 20 多個不同的組織單位。所有項目團隊都涉及空軍人員,他們嵌入研究團隊并充當項目與國防部利益相關者之間的聯絡人。這些項目于 2020 年 1 月開始,推進了廣泛領域的人工智能研究,包括天氣建模和可視化、培訓計劃優化以及增強自主性以增強和放大人類決策。人工智能加速器的研究活動已成功擴展,包括與海軍研究生院和美國太空部隊合作的種子研究項目,以及于 2021 年 1 月啟動的人工智能教育研究項目。總共11個項目 。

1 安全決策的監護人自主性

Guardian Autonomy for Safe Decision Making

Air Guardian 旨在通過開發用于增強和放大人類決策的算法和工具來推進人工智能和自主性。AI Guardian 通過使用過去的數據建議行動并融合來自傳感器和信息源的輸入來幫助人類。AI Guardian 系統的支持在出現意外和復雜情況時特別有用。Guardian 的端到端機器學習算法向專家學習如何在高度動態和令人驚訝的情況下以常識推理做出反應。我們的目標是使代理能夠感知其環境,識別短期風險,對其操作員以及其他合作和對抗代理的意圖和行為進行推理,以確定最佳行動方案。

2 通過虛擬現實和增強現實轉移多機器人學習以實現快速災難響應

該項目旨在開發一種新的框架和算法類別,使無人機系統能夠在模擬器環境中學習復雜的多智能體行為,然后將其知識從模擬無縫轉移到現實世界的現場環境中。該團隊設想了一個急救系統,在該系統中,一群自動駕駛飛機接受了虛擬訓練,了解如何在新的災區模擬中導航和合作。然后,系統將在模擬中獲得的學習轉移到真正的自主飛機群中。一架飛機部署了一個大型“母艦”地面站,該地面站釋放這些訓練有素的自主飛機,以自動執行時間緊迫、勞動密集型的任務,例如勘測災區以及定位和識別幸存者。

3 合成孔徑雷達的多模態視覺

合成孔徑雷達 (SAR) 是一種能夠產生高分辨率景觀圖像的雷達成像技術。由于能夠在所有天氣和光照條件下生成圖像,與光學系統相比,SAR 成像在人道主義援助和救災 (HADR) 任務中具有優勢。該項目旨在通過利用來自相關模式(例如,EO/IR、LiDAR、MODIS)、模擬數據和基于物理的模型的補充信息,提高 SAR 圖像的人類可解釋性、SAR 目標檢測和自動目標識別 (ATR) 的性能. 項目結果和產生的技術將在整個政府企業中共享,以便在 HADR 問題空間中受益,跨服務的多個合作伙伴可能能夠利用已開發的技術。

4 人工智能輔助優化訓練計劃

為了改善人工調度飛機航班的極其復雜和耗時的過程,該項目旨在實現飛機航班調度的自動化,以提高調度效率和在存在不確定性的情況下的魯棒性。這將優化培訓飛行計劃,同時提供可解釋性并消除決策中的孤島。該技術使調度人員能夠在快速變化的環境中快速有效地重新構建調度,從而大大加快計劃和決策周期。雖然最初專注于飛機航班調度,但該技術適用于許多部門的所有復雜資源分配任務。

5 快速人工智能:數據中心和邊緣計算

5.1 快速人工智能:快速開發便攜式高性能人工智能應用

大量標記數據、新算法和計算機性能的可用性使人工智能革命成為可能。但漫長的計算機在環開發周期阻礙了人類發明和部署創造性的人工智能解決方案。此外,摩爾的終結削弱了半導體技術提供性能的歷史能力。AI 性能越來越依賴于硬件架構、軟件和算法。Fast AI 項目專注于為快速構建 AI 解決方案奠定基礎,在現代和傳統硬件平臺上實現性能和可移植性。我們在編程語言、編譯器技術、綜合儀器、分析生產力工具和并行算法等領域進行創新。

5.2 ML 增強的數據收集、集成和異常值檢測

人工智能技術成功的核心要求是高質量的數據。讓系統做好“AI 就緒”的準備工作包括收集和解析原始數據以供后續攝取、掃描、查詢和分析。該項目將開發 ML 增強數據庫技術,以降低存儲和處理成本,同時實現各種數據庫孤島之間的數據共享。此外,我們將開發一個異常值檢測引擎來識別來自多個來源的復雜事件流中的時間異常。

6 非結構化信息訪問和語言學習的會話交互

6.1 非結構化信息訪問的對話交互

AI Accelerator 自然語言處理項目旨在推進平面/文本圖像數據和空軍任務中的會話代理、知識表示和預測算法。隨著人工智能領域的進步,隨著我們在數據中記錄更多的工作,并在我們的家中找到更多的設備,人們能夠以有意義的方式與技術交互至關重要——就像人類一樣,語言很重要——尤其是在發現關于數字系統的信息。目標是通過對話交互和知識提取來推進人工智能社區,以進行開放域對話和非結構化信息。

6.2 人工智能個性化外語教育

AI加速器自然語言處理外語項目專注于構建個性化的外語教育框架,其中包括要獲得的語言知識模型。這項工作利用當前的外語,根據學習者在課程作業各個階段的預期知識水平量身定制,并制定標準化的能力測試措施。該模型將有助于個性化學習體驗,并闡明學習結果何時和/或何處對學生不利。

7 地球情報引擎

7.1 地球情報引擎

用于天氣和氣候的地球情報 (EI) 引擎包括一個新穎的 AI 測試平臺,以支持美國空軍的快速、有效決策和長期戰略規劃和運營。人工智能的進步有助于縮小人工智能研究人員與可用地球系統數據之間的差距,通過一個連接數據和模型的平臺、新穎的算法和圖像填補任務,將低質量的天氣和氣候數據集與高質量的天氣和氣候數據集聯系起來。EI引擎將為美國空軍提供改進的異常檢測算法;對集中式地球情報數據的關鍵遠程訪問;用于任務支持的地球智能的直觀超級計算機可視化;改進任務行動的臨近預報天氣預報;以及受氣候變化影響的戰略位置識別,以加強資源配置。

7.2 可解釋的機器學習

盡管機器學習模型的性能令人難以置信,但它們仍然難以理解——我們不明白它們是如何或為什么得出結論的。因此,我們不可能對模型的決策充滿信心,并在它們出現故障時對其進行調試。這種“黑盒”性質限制了我們部署和節約維護機器學習系統的能力,尤其是在高風險的環境中。該項目以全新的思維方式處理機器學習的可解釋性:將機器學習和人機交互方法相結合,使實際用戶的可操作性成為主要目標。目標是確定可解釋機器學習的標準,從而能夠開發具有與人類和任務一致的數據表示和決策界面的模型。

7.3 持續和少量學習

人工智能技術已被證明在許多關鍵應用中非常成功,例如對象識別、語音識別等。然而,這些成功依賴于收集大量數據集和仔細的手動注釋。這個過程成本高、耗時長,而且在很多情況下,沒有足夠的數據可用。遷移學習通過利用機器看到的過去數據僅使用少數帶注釋的示例來解決未來問題,從而為這些問題提供了解決方案。這項研究側重于遷移學習中的挑戰,旨在開發可以從根本上從多個異構任務中學習的算法,超越低級任務相似性,以實現跨不同任務的更廣泛遷移。此類算法將在包括計算機視覺和自然語言處理在內的多個領域具有普遍適用性,并將大大減少對大量注釋數據的依賴,從而降低部署和維護人工智能系統的成本和時間。

7.4 強大的人工智能開發環境

人工智能和機器學習 (ML) 方法已為美國空軍展示了巨大的前景。然而,當數據輸入或任務目標與算法訓練期間遇到的目標發生變化時,許多現有的 ML 算法通常會發生災難性的失敗。這種缺乏可靠性以及現代 ML 技術的不透明性使得無法在關鍵任務環境中自信地部署機器學習系統。此外,模型無法適應不斷變化的環境,這意味著每當環境發生變化時都需要(通常是昂貴且困難的)模型重新調整。本研究將側重于以魯棒性為中心的方法來開發 ML 算法。強大的 AI 開發環境 (RAIDEN) 優先考慮 ML 的可靠性、多功能性和適應性。我們努力提供的模型、框架和算法將簡化真正可靠和高效的機器學習系統的部署。

8 使用生理和認知指標進行客觀性能預測和優化

該項目匯集了生物醫學儀器、信號處理、神經生理學、心理物理學、計算機視覺、人工智能 (AI) 和機器學習 (ML) 方面的專家以及空軍飛行員,以開發和測試基于人工智能的多模式用于客觀性能預測和優化的生理傳感器融合方法。該項目將利用身臨其境的虛擬環境來訓練飛行員并不引人注目地測量性能預測指標。從該計劃開發的一系列挑戰數據集將用于參與社區。該團隊與多個政府研究工作以及空中教育和培訓司令部的無數飛行員培訓單位合作,尋求通過明顯加快飛行員培訓時間表來提供概念驗證,從而更快地培養“更好的飛行員”。

9 用于導航及其他領域的魯棒神經微分模型

國防部和民用部門正在研究幾種不同的 GPS 替代方案,以解決 GPS 替代方案;但是,每種替代方案都會帶來額外的成本和用例。磁導航提出了一種替代 GPS 系統,該系統依賴于地球的磁共振——一個眾所周知且不變的系統——進行導航。磁導航當前的一些問題涉及 1) 減少系統上的多余噪聲,例如飛機本身的磁輸出,2) 以與軍事系統一致的實時速度或速度確定位置,以及 3) 與其他系統相結合系統來展示一個完全替代的 GPS 系統。目前的項目著眼于使用魯棒的神經微分模型來解決磁導航的缺點并提供 GPS 的可行替代方案。

10 人工智能增強的光譜感知和干擾抑制

該項目旨在應用人??工智能來增強美國空軍檢測、識別和地理定位未知射頻 (RF) 信號的能力,同時提供自適應干擾緩解和智能頻譜分析工具。這些能力增強了空軍情報監視和偵察 (ISR) 任務、通信、信號情報 (SIGINT) 和電子戰。結果將提高帶寬利用效率和頻譜共享,提高空軍在高干擾環境中的通信性能,產生更高質量的射頻信號情報,并提高系統對對抗性攻擊和干擾的魯棒性。

11 AI 教育研究:Know-Apply-Lead (KAL)

KAL 是一個探索性研究項目,旨在推進教育研究活動,為具有不同角色和教育背景的學習者(從空軍和國防部 (DoD) 人員到公眾)大規模促進最大的學習成果。項目團隊將研究和評估與在各種現有課程中培訓空軍人員人工智能主題相關的各種教學實踐和學習效益,繪制教育需求和能力的格局,并試點實驗學習經驗,目標是盡早概述用于創新技術支持的培訓和學習的原型。

付費5元查看完整內容
北京阿比特科技有限公司