在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。
在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。
空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。
戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。
在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。
最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。
多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。
這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。
本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。
這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。
本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。
圖 3 RL 智能體及其與戰爭環境交互的總體概述。
圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。
《反擊!》是一種競爭性兵棋推演,旨在訓練炮兵指揮官和參謀人員進行戰術火力指導和美國陸軍炮兵營作戰的可視化。復合炮兵營是一個由兩個 M119A3 連和一個 M777A2 連組成的營,由一個前方支援連和一個司令部連支援。它的任務是為步兵旅戰斗隊提供火力支援。游戲可以由兩個或兩個以上的玩家在兩個團隊中進行。玩家扮演炮兵營指揮官的角色,并決定支持哪些機動行動,同時平衡營的生存和反火力行動。
本文考慮了一類特殊的多機器人任務分配問題,其中任務對應于定義在特定環境的不同區域的異質多機器人路由問題。我們提出了一個分層規劃器,將這個問題的復雜性分解為兩個子問題:將機器人分配到路由任務的高層問題,以及計算每個子團隊的實際路由路徑的低層問題。規劃者使用圖形神經網絡(GNN)作為啟發式方法來估計特定聯盟在特定路由任務上的子團隊表現。然后,隨著底層問題解決方案的出現,它將估計值迭代細化為實際的子團隊性能。在一個以異構多機器人區域檢查問題為基礎路由任務的測試平臺問題上,我們的經驗表明,我們的分層規劃器能夠計算出最優或接近最優(7%以內)的解決方案,比事先計算所有可能的分配計劃以獲得精確的路由時間的最優基線快16倍左右(平均而言)。此外,我們表明,與其他基線(非學習型)估計器相比,基于GNN的估計器可以在解決方案的質量和計算時間之間提供出色的權衡。
圖 1:應用于我們的測試平臺問題的擬議分層規劃框架。 GNN 首先用于估計不同子團隊檢查環境不同區域所需的時間。高級求解器使用這些估計來計算高級分配,而低級求解器使用專門的路由算法計算實際路徑。然后使用實際任務持續時間來更新高級求解器的 GNN 估計,然后可以使用改進的估計集計算新的分配。
本文考慮了一類特殊的多機器人任務分配問題,其中任務對應于定義在特定環境的不同區域的異質多機器人路由問題。目標是最小化完成所有路由任務所需的時間。這類問題代表了一些場景,在這些場景中,將機器人的子團隊分配到各個區域將是有益的。例如,在跨越非常大的環境的搜索和救援行動中,電池的限制可能使一個機器人不能被用于一個以上的區域。另外,在軍事場景中,戰略區域可能需要在車隊通過之前同時檢查是否有對手存在。作為最后一個例子,考慮一個通信受限的巡邏場景,將子團隊分配到各個區域可以保證機器人將有足夠的組間網絡,以迅速響應對入侵者的檢測。這些類型的問題本質上顯示了一個層次結構:如果我們事先知道每個可能的機器人子團隊完成每個可能的路由任務所需的時間,我們可以首先確定子團隊對感興趣區域的最佳分配,然后只計算該分配的實際子團隊路徑。優化處理第一階段的一個直接方法是預先計算所有可能的子團隊任務分配的路徑,這將提供所有可能的路由時間作為一個副產品。不幸的是,即使不考慮分配問題的組合性,通常情況下,由子團隊分配產生的多機器人路由問題是NP-hard,只有通過計算昂貴的算法方法才能得到一個好的解決方案,例如將路由問題表述為混合整數線性程序(MILP),通常需要幾秒鐘到幾分鐘或幾小時的運行。為了減少整體規劃時間,尋找一個好的分配應該以懶惰的方式解決路由任務問題,從最有希望的子團隊分配給任務開始。然而,知道一個分配的潛在效用通常需要知道它的路由計劃,消除了懶惰方法的優勢。
我們注意到,子團隊的分配只需要知道給定分配的不同路由計劃的成本,而不是實際計劃本身。如果我們能夠估計這些成本,而不同時解決相應的路由問題,我們就可以推遲計算路由計劃,直到決定了一個暫定的分配。
基于這些觀察,我們提出了一個分層規劃器,能夠將原始問題的復雜性分解為兩個自然的子問題:將機器人分配到路由任務的高層次問題,以及只為所有可能分配給子團隊的區域中的一個選定子集計算實際路由路徑的低層次問題。由于多機器人路由問題通常是在圖形表示的環境中定義的,規劃者使用圖形神經網絡(GNN)作為啟發式方法來估計特定聯盟在特定路由任務中的子團隊性能。迭代后,計劃者將這些估計值細化為真正的子團隊性能,因為低層問題的解決方案已經可用。我們引入了一個測試平臺問題,其中有一個異構多機器人區域檢查問題作為基本的路由任務,對此我們再次考慮了基于傳統混合整數線性編程表述的解決方法。圖1顯示了擬議的規劃框架的示意圖。
在包含多達45個機器人和20個檢查區域的路由任務分配問題中,我們的經驗表明,我們的方法總是能夠計算出最優或接近最優(7%以內)的解決方案,比事先計算所有可能分配的計劃以獲得精確的路由時間的最優基線快16倍(平均)。我們還表明,與其他基線(非學習型)估計器相比,基于GNN的估計器在解決方案的質量和計算時間之間提供了一個很好的權衡。
本報告著重于2025年混合部隊的任務工程過程。來自OPNAV N9I的最新任務強調了關注使用成本保守的無人系統的必要性。具體來說,重點放在近鄰的競爭對手大國以及在南海的反介入/區域拒止(A2/AD)情況下可能出現的問題。海軍水面作戰中心的任務工程方法被用來確定擬議的替代艦隊架構的具體事件,然后使用作戰模擬和優化模型進行分析。對目前的無人系統,特別是那些正在開發的高技術準備水平無人系統的性能特征和成本的研究進行了匯編。提議的無人系統架構是作為A2/AD問題的解決方案而開發的。然后,無人系統架構通過優化模型運行,以最大限度地提高系統性能,同時最小化成本。然后,架構優化的結果被輸入到建模和仿真中。然后比較每個架構的整體有效性,以找到最有效的解決方案。對結果進行了分析,以顯示預期的任務有效性和利用擬議解決方案的無人架構的擬議成本。最有效的架構包括搜索、反蜂群、運送和攻擊系統。
系統工程分析31組由美海軍作戰司令部戰爭整合處(OPNAV N9I)負責確定一個解決方案,以彌補與大國在2025年的預期能力差距(Boensel 2021)。該解決方案系統必須具有成本效益并能在2025年之前交付。SEA團隊利用任務工程過程來確定候選的未來艦隊架構來解決問題(工程副主任辦公室2020)。
到2025年,如何才能有效地對抗近鄰對手的反介入和區域拒止能力?
以具有成本效益的方式調整目前的能力,并創建一個未來的架構,以加強美國海軍的作戰能力,包括存在、欺騙、ISR以及在反介入和區域拒止環境中的防御和進攻能力。
利用任務工程流程,總體情景被設定在2025年的南海。大國已執行了其九段線的領土要求,并建立了一個反介入/區域拒止(A2/AD)區。大國不斷擴大的艦隊、對人造島嶼的使用、遠距離ASCMs以及對無人系統的擴大使用使美國的水面作戰艦艇處于高風險之中。總體任務是美國海軍DDG通過提高其殺傷力和生存能力,在A2/AD區域內進行FONOPS。在整個方案中,有三個小場景被開發出來。OTH ISR、目標選擇和交戰,威脅無人機蜂群,以及提供目標選擇的威脅無人機ISR資產。
衡量任務成功與否的總體標準是美國海軍部隊在近乎同行的反介入區域拒止環境中的作戰能力。有助于衡量成功的有效性的措施是DDG的生存能力和殺傷力的提高程度與解決方案系統的成本相結合。
為了分析擬議的系統解決方案(SoS)是否能達到既定的成功標準,設計了一個價值體系。利用通用的海軍任務列表,項目組確定了擬議的系統解決方案需要完成的三個二級任務,以完成任務(海軍部,2008)。
對三個選定任務下的后續任務進行了評估,以確定擬議系統需要完成的具體功能。通過這次審查,確定了候選無人系統需要完成的四項高級功能。這些功能是交付、搜索、通信中繼和打擊。為每項功能選擇了性能措施,以用于多屬性價值分析。
多屬性價值分析被用來比較完成四個功能中一個或多個功能的候選系統。一個系統的價值是根據每個性能指標對完成一個特定功能的重要性,給每個性能指標分配一個權重而得出的。權重從1到5不等,其中5表示最重要的MOP。計算MOP和權重的乘積,并將每個乘積相加,以獲得系統的價值。
為了確定可行的候選系統,項目組成員各自研究了一個不同的無人系統,并收集了每個候選系統的性能衡量標準。如果一個特定的無人系統的MOP值不知道,則推斷其值與一個類似的系統相同。如果不存在這樣的類似系統,則使用啟發式方法估計該值。對于每項功能,至少有一個系統符合技術成熟度,可考慮用于2025年的混合部隊。
為了實現所有四個功能,候選系統的組合被排列組合成16個系統簇。每個備選方案的系統價值和成本都被計算出來。系統價值的計算方法是將每個備選方案中的每個系統的價值相加。
為了產生用于比較的替代方案,該團隊使用整數線性規劃生成了架構。這是用Pyomo的優化功能完成的。線性規劃被創建、約束以更好地表示現實,并被解決以生成分別針對性能、預算和替代合約選項進行優化的替代架構。
現代導彈戰可以使用炮擊作戰模型進行評估。這個模型被用來計算每個小場景中的每個SoS備選方案的有效性。結果顯示了超視距ISR平臺的重要性,一個獨立的武器系統來對付敵人的無人機,目前IAMD作戰系統的有限防御能力,以及超視距搜索和瞄準能力。
“大國”和美國都擁有深入的綜合空中和導彈防御。為了證明這種互動,在微軟Excel中使用反二項式函數對不同的交戰進行了建模。每一個擬議的艦隊架構都被輸入到三個小插曲的戰斗模擬中。為了獲得隨機的結果,試驗的數量被設定為300次,每個概率都有一個可能的值范圍。該模型中的自變量可分為防御性或進攻性變量。防御性變量是每個單位的綜合防空和導彈防御武器的殺傷數量和殺傷概率。PLAN的進攻性變量是YJ-18 ASCM和Harpy無人機的命中數。美國海軍的進攻性變量是海上攻擊戰斧、ASCM和特定攻擊無人機的進攻性命中數量。
模擬的結果顯示了擊中敵方水面平臺或美國海軍水面部隊的數量。通過比較建議的系統與基線的命中率,可以得出變化的百分比。在我們的分析中,進攻和防御的有效性被平均加權,允許將進攻和防御百分比變化的高值相加,以計算出高低變化的總百分比。
基于智能體的建模和仿真(ABMS)被用來驗證每個設想的系統架構與所需的MOE。ABMS旨在通過對智能體之間的相互作用進行建模,來捕捉戰爭交戰的隨機性,但又很復雜。進行了蒙特卡洛分析,以收集每個系統性能的個體層面的數據。隨后的統計分析提供了一個途徑,以確定和量化每個擬議的系統架構所實現的改進。為此目的,指揮部:現代行動(CMO),是一個跨領域的現代兵棋推演計算機軟件,旨在模擬戰術到作戰水平的行動,被用作仿真引擎。CMO模擬的是基于規則的智能體,它們相互之間以及與環境之間的互動,包括感興趣的場景中的武器系統(Coyote, YJ-18, Chaff)和平臺(例如PLAN DDG, Luyang)。與多屬性價值分析方法相比,CMO允許對定量的系統MOP進行建模,并在模擬結果中觀察其相對差異。
電子表格戰斗模型模擬的第一個結果是解放軍DDG在三個不同的迭代中對美國海軍DDG的命中率,即只用YJ-18攻擊,只用哈比攻擊,以及YJ-18和哈比同時攻擊。同時使用YJ-18和Harpy的命中率被作為防御性MOE的基線值。接下來,兩種不同的防御性無人機系統被分別加入到作戰模型中。對只有哈比的攻擊和YJ-18與哈比的同時攻擊進行了重復模擬。每個系統的防御性百分比變化是用前面描述的公式計算的。
接下來的結果是美國海軍DDG在三次不同的迭代中擊中PLAN DDG的次數。模擬了僅用MST攻擊、僅用ASUW無人機攻擊以及MST和ASUW同時攻擊的結果。只用MST攻擊的命中率作為進攻性MOE的基線值。接下來,七個不同的運載系統被分別加入到作戰模型中。對僅有ASUW無人機攻擊和同時進行的MST和ASUW無人機攻擊進行了重復模擬。每個投送系統的進攻百分比變化被計算出來。
將同等權重的進攻和防守百分比變化相加,計算出高和低的總變化百分比。根據該模型,期望值是這樣的:在0.95的置信度下,增加SoS將使水面部隊的有效性增加一個介于高值和低值之間的百分比。
總的來說,從ABMS觀察到的性能與從電子表格模型觀察到的性能MOE相關。在所有提議的架構中,都觀察到了防御和進攻MOE的明顯改善。這是預料之中的,因為在DDG上增加任何防御性武器系統應該減少艦隊DDG的直接命中數量。同樣,增加一個具有增強OTH感知能力的進攻性武器系統會增加對目標直接作用的武器數量。
對防御性和進攻性MOE與每一方所消耗的平均武器數量的比率的進一步分析顯示,由于美國海軍DDG上增加了反群武器系統,防御性MOE得到了改善。這種增加被證明是對所有架構的一種有效的廣泛改進。三種提議的架構之間最明顯的差異來自于進攻性MOE(%),其中性能系統優于其他架構。與發射的武器總數相比,預計一個性能更好的系統會向目標發射更少的武器,同時造成更多的命中。
這項工作證明了低成本的無人駕駛威脅系統給傳統水面戰艦帶來的危險,這些系統可以在幾乎沒有警告的情況下進行協調和攻擊,并為船員提供很少的反應時間。為了避免強制增加對峙距離以提高生存能力,有必要使用增程傳感器系統和反無人機系統來彌補預期的能力差距并提供進入被拒絕區域的機會。為了使這些系統可行和安全,高帶寬的通信系統將是必需的。
為了滿足這些需求,建議的解決方案系統利用Dive-LD來運送Coyote無人機平臺。搜索和通信中繼將由兩個VBAT無人機平臺提供。這種平臺組合為每一美元的系統成本提供了最高的進攻和防御能力的提高。叢林狼 "無人機也將作為一個蜂群來防御威脅性無人機群和威脅性無人機ISR資產。增加解決方案系統的采購將提高艦隊的生存能力和殺傷力,并允許在其他艦隊優先領域進行額外投資。
建議通過為無人機平臺配備額外的無源傳感器來改進該系統,以利用電磁頻譜的所有部分,從而提高在所有天氣和戰斗條件下探測敵方威脅的能力。此外,擬議的解決方案系統可以擴展到許多其他領域和任務區,如港口防御和反對出口。
美國空軍(USAF)繼續投資研究和開發人工智能技術,通過自主無人駕駛飛行器(AUAVs)產生競爭性攻擊行為。多架AUAVs的使用可以作為一種力量倍增器,確保對敵方的空中優勢,并消除對作戰人員的威脅。我們制定并解決了動態目標到達的多Agent路由問題(MRP-DTA),這是一個隨機系統,其中一隊AUAVs對一個名義上的對手執行了打擊協調和偵察(SCAR)任務。在任務期間發生的動態目標到達為AUAVs團隊提供了一個連續的決策過程,我們通過馬爾科夫決策過程(MDP)來模擬。狀態空間的高維度和連續性質使得經典的動態規劃技術在計算上難以實現。為了應對維度的詛咒,我們構建并實施了一個混合近似動態規劃(ADP)算法框架,該框架采用了參數化成本函數近似(CFA)和直接前瞻性(DLA)模型。我們利用網狀自適應直接搜索(MADS)算法來調整我們的CFA-DLA參數化,并為AUAVs團隊產生高質量的攻擊策略。為了證明我們算法方法的優點,我們設計了一個實驗,在MRP-DTA的多個實例上測試我們的解決方法。我們將超級ADP策略與競爭基準策略進行比較;推薦的ADP策略在測試的20個問題實例中,有19個比重復貪婪的邊際啟發式基準策略有統計學上的顯著改進,在測試的10個問題實例中,有8個比重復順序定向問題基準策略有統計學上的顯著改進。我們表明,高回報目標到達的概率和目標到達的區域是影響結果策略質量的關鍵問題特征。偏移分析的結果顯示,在為我們的CFA-DLA算法選擇基礎優化模型時,要平衡解決方案的質量和計算工作量的價值。
自主系統和機器人技術的不斷發展,為推進和發現有利于美國空軍(USAF)的作戰技術提供了潛力。美國空軍繼續面臨著科學和技術進步的挑戰,因為同行和近鄰的地緣政治競爭者對其力量投射的關鍵組成部分進行競爭(威爾遜,2019;空軍部,2021)。美國空軍認識到,人工智能、自主系統和機器人等新技術將確保它能在未來打仗并贏得戰爭(馬蒂斯,2018;空軍部,2019d)。
友軍和敵軍已經開始將自主無人飛行器(AUAVs)與部隊相互配合,以實現軍事目標并保持空中優勢。土耳其部隊最近在 "春盾行動 "中對敘利亞部隊使用了這種自主飛機,表明他們的AUAVs可以在部署載人資產之前積極機動和削弱各種軍事目標,包括防空系統、榴彈炮和軍事基地(Haider,2019)。美國空軍可以從自主飛機的應用中獲益,作為高度重復、危險行動的潛在力量倍增器(Cahoon, 2021)。自主飛機已經證明了它們在危險環境中的效用,并且可以在不適合載人飛機的飛行狀態(如加速力、高度)下進行機動。運籌學(OR)方法可以應用于自主系統領域,使美國空軍在開發未來自主技術、戰術和程序方面直接受益,以保持競爭優勢。
美國空軍尋求保持空中優勢,以便在沒有敵對作戰部隊干擾的威脅下開展軍事行動。從歷史上看,空中優勢一直是一個行動或戰役成功的必要條件(國防部,2017b)。美國空軍參謀長查爾斯-布朗(Charles Brown)將軍強調,需要將空中優勢本地化并實現聯合效應,作為美國安全的一個組成部分(Brown Jr, 2020)。友軍作戰部隊首先努力建立空中優勢,因此后續行動的執行不會受到其他敵對部隊的干擾(空軍部,2019a)。
在建立空中優勢后,美國空軍必須通過進攻性的攻擊行動來保持對戰斗的控制,以削弱敵人的動員和反擊能力。用來實現這一目標的一個主要任務是空中攔截。美國空軍主要將空中攔截定義為一種多方面的努力,以轉移、破壞、延遲或摧毀敵人的軍事潛力,使其能夠有效地對付友軍或實現聯合部隊指揮官(JFC)的目標。空中攔截必須與環境中的許多敵對條件相抗衡,需要及時和準確的情報報告來告知決策者敵人的能力、部署和意圖(Meilinger,2014)。美國空軍認為反陸作戰是用于完成空中攔截的關鍵任務。
美國空軍執行反陸作戰,攔截和摧毀分散在行動區的敵方地面目標。JFC將空對地攻擊的重點放在敵人的關鍵目標上,以削弱敵人的能力,并在整個行動區完成一套專門的任務目標(空軍部,2020)。美國空軍與其他部門一起使用的一套任務,以最大限度地有效摧毀敵人的資產,被稱為打擊協調和偵察(SCAR)任務。
SCAR任務是一個與反陸作戰相關的衍生任務,支持空中攔截任務目標。在SCAR任務中,美國空軍收集關于潛在敵方目標的情報、監視和偵察(ISR)信息,指導攻擊資產打擊目標,探測更多的目標,并為未來的行動提供戰損評估(BDA)。與載人資產相比,AUAVs提供了增加飛機續航能力、降低作戰人員風險和優越的目標選擇策略的潛力,是SCAR任務的一種潛在資產。美國空軍采用了一種邏輯結構的目標選擇過程,允許JFC進行情報管理。正如Brunson(2007)所介紹的,美國空軍完全依靠JFC的目標來確定攻擊目標或支持偵察工作的優先次序。情報部隊獲得ISR報告,并在攻擊領域的資產部署之前確定蓄意的目標。我們把攻擊領域稱為目標所在的二維地面空間和SCAR任務發生的時間領域。目標的分類是基于多種特性:攻擊窗口的時間敏感性、破壞的價值和對敵方部隊造成的退化(國防部,2017c)。由于這些不同的因素,JFC承認目標之間有不同的優先級別。高回報目標(HPT)是被認為是實現JFC主要目標的必要目標。JFC建立了一個聯合綜合優先目標清單(JIPTL),明確描述了目標服務順序。必須了解的是,JIPTL通常是根據每個目標的價值來構建的;然而,目標位置、目標價值和目標地形特征使清單上的目標的優先次序變得復雜,需要進一步仔細研究。除了為HPT提供服務外,SCAR任務的重點是被稱為命名興趣區(NAIs)的目標。NAIs被添加到JIPTL中,以促進未來關于目標位置的情報,并為JFC提供BDA,這可能為未來的攻擊任務提供信息。在現實中,隨著SCAR任務的進行,目標實時到達(即被識別)是很平常的。
動態目標描述的是在資產部署后確定一個新的目標(空軍部,2019c)。盡管動態目標是在所有蓄意目標被優先考慮后確定的,但如果它們符合JFC的目標,它們仍然是可行的目標。由于瞄準過程的靈活性,攻擊資產仍然可以為動態目標提供服務;然而,這些動態目標的到來有時會改變JIPTL的執行,從而影響行動的效率。與動態目標的到來相關的隨機性代表了我們問題中不確定性的主要來源。雖然資產進入攻擊域執行計劃中的SCAR任務并大步調整以應對動態目標的到來似乎是最佳選擇,但我們相信,通過預測動態目標在攻擊域的到來,我們可以開發高質量的多Agent攻擊策略,通過采用強化學習技術,這些策略將優于反應性的確定性策略。然而,在聯合空域中引入多架攻擊飛機需要額外的問題約束來模仿適當的空域控制。
美國空軍使用空域控制這一術語來定義在聯合攻擊領域內運作的多種資產的運用。空域控制是非常動態的,而且是因地制宜的,但是為了優化空域的使用,控制應該適應具有不同技術能力的用戶。空域控制的必要性是由威脅程度、可用的監視、導航以及空域用戶和控制機構的技術通信能力決定的。這些能力直接告知協調措施的發展(空軍部,2019年b),這些措施是消除空域沖突和確保按照(IAW)JFC的目標安全有效地開展行動的必要條件。
這項研究提出了具有動態目標到達的多Agent路由問題(MRP-DTA),重點是在一個給定的攻擊域中指揮多個自主攻擊Agent。任務目標是在SCAR任務中雇用一隊AUAVs為目標服務。AUAV的主要目標是獲得最高的總獎勵,其中AUAV從服務目標中獲得獎勵。AUAVs團隊必須適應動態目標的到來,并通過不同的通信方案適當地保持空域控制。具體來說,非盟飛行器之間的溝通對于建立一個富有成效的優先攻擊目標的團隊至關重要。為了最好地表現這種情況,我們使用了適當地表現AUAVs之間通信的隨機性和管理的建模技術。
在這項研究中,我們使用馬爾科夫決策過程(MDP)框架對MRP-DTA進行建模,并使用近似動態規劃(ADP)技術獲得了解決方案。MDP框架為定義大量的問題特征提供了一個結構化的表述。MDP框架模擬了現實世界系統中的隨機性。然后可以應用精確算法來解決MDP模型,使其達到最佳狀態。然而,由于問題的規模很大,這些解決技術對于MRP-DTA來說在計算上是不可行的。該問題的無數狀態和結果空間需要一個強大的近似技術,如ADP,以提供高質量的策略,更好地告知決策者在攻擊領域中的攻擊資產的路由。我們在一個二維的攻擊域中表示MRP-DTA。AUAVs小組進入攻擊域,利用JIPTL中包含的蓄意目標的知識尋找要摧毀的地面目標。在沒有動態目標的情況下,JIPTL能夠為每架AUAV確定一條初始的、靜態的、最佳的路線。雖然JFC可能要求首先攻擊蓄意目標,但我們研究了在給定選定的知識,即攻擊領域各部分的動態目標到達的特征時,AUAVs的性能。確定性的攻擊策略提出了激勵性的研究問題;我們認為,通過利用整個攻擊域中動態目標到達的已知概率,這些策略可以得到改進。我們實施了一個設計好的計算實驗來測試問題特征的敏感性及其對策略性能的影響。
本文后續是按照必要問題信息的邏輯表述的。第二章對類似的問題類別、類似的建模框架和適用的解決方法進行了深入的文獻回顧。第三章明確定義了問題描述,MRP-DTA的MDP模型表述,以及用于解決該模型的ADP求解方法。第四章介紹了該分析的結果、有針對性的分析和收集的見解。最后,第5章提供了擴展這項研究的建議。
在可視范圍內執行空戰,需要飛行員在接近1馬赫的飛行速度下,每秒鐘做出許多相互關聯的決定。戰斗機飛行員在訓練中花費數年時間學習戰術,以便在這些交戰中取得成功。然而,他們決策的速度和質量受到人類生物學的限制。自主無人駕駛戰斗飛行器(AUCAVs)的出現利用了這一限制,改變了空戰的基本原理。然而,最近的研究集中在一對一的交戰上,忽略了空戰的一個基本規則--永遠不要單獨飛行。我們制定了第一個廣義的空戰機動問題(ACMP),稱為MvN ACMP,其中M個友軍AUCAVs與N個敵軍AUCAVs交戰,開發一個馬爾可夫決策過程(MDP)模型來控制M個藍軍AUCAVs的團隊。該MDP模型利用一個5自由度的飛機狀態轉換模型,并制定了一個定向能量武器能力。狀態空間的連續和高維性質阻止了使用經典的動態規劃解決方法來確定最佳策略。相反,采用了近似動態規劃(ADP)方法,其中實施了一個近似策略迭代算法,以獲得相對于高性能基準策略的高質量近似策略。ADP算法利用多層神經網絡作為價值函數的近似回歸機制。構建了一對一和二對一的場景,以測試AUCAV是否能夠超越并摧毀一個優勢的敵方AUCAV。在進攻性、防御性和中立性開始時對性能進行評估,從而得出六個問題實例。在六個問題實例中的四個中,ADP策略的表現優于位置-能量基準策略。結果顯示,ADP方法模仿了某些基本的戰斗機機動和分段戰術。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究,即無人機的自主機動決策。形成了大量研究成果,但其中基于強化學習(RL)的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標,最突出的是遺傳算法(GA),A*,RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗(Alpha Dogfight Trials)中,強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后,強化學習帶來了巨大的關注。在這項研究中,將無人機作為目標,該無人機有一個杜賓斯車動態特性,在二維空間中使用雙延遲深確定策略梯度(TD3)以最佳路徑移動到目標,并用于經驗回放(HER)。首先,它的目的是讓agent采取最佳路徑到達目標,過程中有障礙物。在每個情節中,我們的agent從一個隨機點開始,我們的目標是穩定的,其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后,為了測試機制的極限,使我們的agent更難達到目標,并使其執行不同的機動性,我們添加了障礙物。它表現得很好,克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法,它使用了雙延遲深度確定性策略梯度(TD3),這是一種為具有連續行動的MDP定制的算法,使用強化學習作為基礎。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。
提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。
我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。
在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體。
圖4-1:戰術模型的高層架構
圖4-2:戰術環境的可視化
圖5-2:在PoIs和單個單位被打破之前積累單位
【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。
論文鏈接: //arxiv.org/abs/2002.00444
介紹:
自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。
章節目錄:
section2: 介紹一個典型的自動駕駛系統及其各個組件。
section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。
section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。
section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。
section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。
section7: 總結