在過去的幾年里,大西洋上的敵對潛艇活動一直在穩步加強。此外,戰略對手已經開發了復雜和隱蔽的潛艇,使它們更難被定位。活動的加劇加上先進的平臺,使美國的對手能夠挑戰其在水下領域的主導地位。盡管已經對使用貝葉斯搜索方法的優化搜索策略進行了廣泛的研究,但公開文獻中的大多數方法都側重于搜索靜止的物體,而不是搜索由Blue潛艇進行的移動的Red潛艇。因此,我們開發了一個敵方潛艇的模型,其目標是避免被發現。隨著搜索努力的消耗,根據負面搜索結果計算出敵方潛艇位置的后驗概率分布。我們提出了一種尋找搜索模式的方法,該模式試圖在貝葉斯框架內利用馬爾科夫特性使探測的概率最大化。具體來說,我們研究了三種不同的運行窗口方法:一個簡單的網絡優化模型,一個在每個時間段后執行更新的網絡優化模型,該模型正在規劃整個路線,以及一個只提前兩個時間段的動態程序。
近年來,戰略對手在水下領域的進展,加上在大西洋的更多部署,給美國海軍(USN)帶來了新的挑戰。更加隱蔽的潛艇在聲學上與弗吉尼亞級SSNs相當,這使得美國海軍更加難以定位和跟蹤這些潛艇。這些挑戰已經確定需要完善可用來尋找敵對潛艇的工具。
在這篇論文中,討論了為潛艇上的決策者提供一個完善的搜索工具的需求,以幫助他們搜索敵對潛艇。我們研究了基本搜索算法的不同方法,該算法能夠進一步發展并在潛艇上實施。
我們首先介紹了我們為Red的運動建模的方法。我們假設Red最初位于一個大小為200乘200海里的搜索區域(SR)內,該區域被描述為一個劃分為400個10乘10海里單元的網格。然后,我們定義一個離散時間馬爾可夫鏈來模擬Red在SR中的運動,鏈中的一個狀態是Red潛艇的單元位置,過渡概率管理Red從一個單元到另一個單元的運動。為了決定單元之間的過渡概率,我們假設有關于Red任務的可用情報,這些情報以概率方式決定了Red的運行方式。
接下來,我們研究了三種算法,以幫助潛艇指揮官對Red潛艇進行搜索的能力。對于我們考慮的所有三種算法,重要的是要明確,搜索計劃是在進行任何搜索之前產生的。我們首先考慮簡單的網絡算法(NA)算法,其中生成的搜索計劃使在搜索時間范圍內未發現Red的概率最小。在優化方面,這相當于找到Red的概率最大化,而且它不考慮搜索時間范圍內的任何搜索結果;它是在搜索開始前計算的,不會改變。然后,我們通過利用貝葉斯定理來修改這個帶有更新的算法(稱為帶有更新的網絡算法(NAU)),在假設被搜索的單元格不包含Red的情況下,更新Red位置的概率分布。利用每個時間段的更新概率分布,網絡優化算法在Blue花費搜索精力的每個剩余時間段重新運行,這給了Blue一條新的搜索路線。盡管NAU算法的結果是為剩余時間段提供了一條搜索路線,但只使用了下一個要搜索的單元。接下來,我們開發了一種動態編程(DP)算法,以最大化在下一個時間段或下一個時間段找到Red的概率。該算法還利用貝葉斯定理來進行Red位置分布的更新,假設Red從未在Blue搜索的單元中出現過。所有三種算法的完整搜索路徑都是在搜索開始前計算出來的。
在我們的Blue搜索算法中,我們做了幾個假設。首先,我們假設Blue概率地知道Red的起始位置和Red運動的過渡矩陣。這些信息的來源是Blue搜索者外部的傳感器對Red的初始探測以及關于Red任務的情報。我們還假設Blue搜索者有完美的傳感器;也就是說,如果Blue和Red同時出現在同一個小區,Blue將以100%的概率探測到Red。此外,我們假設Red和Blue在每個時間段只能移動一個單元,這本質上意味著兩艘潛艇以相同的速度行駛。在我們的方案中,我們假設Blue在SR中最北面的任何一行開始搜索,如果Red離開SR,它就不會返回。如果Red在離開SR之前沒有被發現,或者在搜索期間沒有被發現,則搜索失敗。最后,我們假設Red有一個固定的過渡矩陣;也就是說,Red對Blue的存在沒有反應,在搜索期間,Red在單元格之間過渡的概率保持不變。
為了研究算法的表現,我們運行了多種方案,在這些方案中,我們改變了Red的起始特征,如起始單元和Red可能開始的不同單元的數量。然而,Red的過渡矩陣在每個場景中保持不變。對于每個場景,Blue的搜索路徑在每種算法中都被計算一次。同樣,對于每個場景,Red的路線被模擬了10,000次,使用假設的可能的起始單元集,每個單元都以相同的概率選擇,以及每個場景的相應過渡矩陣。確定Red被Blue檢測到的復制比例,如果被檢測到,檢測發生在哪個時間段。模擬的輸出是檢測到Red的估計概率,以及相應的95%置信區間和每種算法的經驗CDFs。經驗CDF是指在每個時間段或之前檢測到Red的概率。CDF顯示了每種算法在搜索工作中的表現。我們還計算了計算時間,以CPU周期衡量,以確定每種算法的計算成本。
我們的結果表明,三種算法產生了類似的結果;然而,NAU和DP算法的表現一直優于簡單的NA算法。對于NAU和DP算法來說,計算出的檢測概率的95%置信區間是重疊的;因此,NAU和DP算法的真實檢測概率都在彼此的誤差范圍之內。在我們考慮的前五種情況中,最高的估計檢測概率接近20%,最差的也達到8%左右。探測概率低的原因有三種可能的解釋。首先,在我們考慮的場景中,Red很有可能在Blue可能探測到Red之前離開SR。另外,因為我們假設Red在單元之間的轉換概率是均勻的,所以Red的路線存在高度的不確定性。最后,Blue在指定的有限時間內進行搜索。
我們還運行了一個方案,將Red的起始位置固定在一個單元中,并改變過渡矩陣中的概率,以代表Red很有可能過渡到西北方向的單元的情況。這種情況表示Red向指定方向移動的確定性更高。很明顯,隨著Red向某些單元的過渡概率增加,檢測到Red的概率也會增加。通過這種情況,我們也表明貝葉斯更新是有效的,因為在NAU和DP算法中,如果Red不在最初最有可能出現的地方,Blue會繼續找到Red;然而,使用NA算法,如果Red在有可能探測到Red的第一個時間段內不在最有可能出現的地方,那么Blue就無法探測到Red。這個結果是合理的,因為如果當Blue第一次可以探測到Red時,Red不在它最有可能出現的小區里,那么Red就沒有遵循最可能的路線;Blue使用這一信息來更新NAU和DP算法中Red位置的概率分布,但對NA算法則沒有。
就計算成本而言,DP算法的求解效率比其他算法高得多,需要的CPU周期比NAU算法少三個數量級。然而,我們表明,對于NAU和DP算法,計算成本隨著Blue可能檢測到Red的時間段的增加而增加。由于NA算法不執行更新,它的成本在整個場景中保持不變。
我們的研究結果表明,DP算法是最適合未來發展的。它的性能始終與NAU算法相似,而計算成本卻大大降低。當充分發展后,這種算法可以在潛艇上使用,并在操作員可用的任務規劃工具中實施。
在這項研究中,基于強化學習(RL)的集中式路徑規劃被用于在人為的敵對環境中的無人作戰飛行器(UCAV)編隊。所提出的方法提供了一種新的方法,在獎勵函數中使用了閉合速度和近似的時間-去向項,以獲得合作運動,同時確保禁飛區(NFZs)和到達時間限制。近似策略優化(PPO)算法被用于RL智能體的訓練階段。系統性能在兩個不同的情況下進行了評估。在案例1中,戰爭環境只包含目標區域,希望同時到達以獲得飽和的攻擊效果。在情況2中,戰爭環境除了目標區和標準的飽和攻擊和避免碰撞的要求外,還包含NFZ。基于粒子群優化(PSO)的合作路徑規劃算法作為基線方法被實施,并在執行時間和開發的性能指標方面與提出的算法進行了比較。蒙特卡洛模擬研究被用來評估系統性能。根據仿真結果,所提出的系統能夠實時生成可行的飛行路徑,同時考慮到物理和操作限制,如加速限制、NFZ限制、同時到達和防撞要求。在這方面,該方法為解決UCAV機群的大規模合作路徑規劃提供了一種新穎的、計算效率高的方法。
在空中攻擊和防御場景的應用中,無人駕駛戰斗飛行器(UCAVs)被用來執行監視、偵察和消滅放置在人為敵對環境中的敵方資產。在戰爭環境中可以使用不同類型的敵方防御單位,如高射炮(AAA)、地對空導彈(SAM)、探測/跟蹤雷達和通信系統。這些資產的選擇和放置是以被防御單位的戰略重要性和被防御地區的地理規格為依據的。通過使用通信系統和防御單位,可以開發一個無縫防空系統來保護地面資產。圖1給出了一個樣本戰爭環境的總體概況。從攻擊者艦隊的角度來看,它的目標是以艦隊特工的最小殺傷概率摧毀敵人的資產。如果行動中需要隱蔽性,也希望以最小的探測和跟蹤概率完成任務。這可以通過兩種方式獲得。1)如果飛行路線必須通過敵人的雷達區域,則使用隱身飛機;2)通過生成不通過敵人雷達區域的飛行路線。如果任務要求和戰爭環境條件合適,可以考慮采用第二種方案,以達到最低風險。因此,飛行路徑規劃對于生成可行的、安全的飛行路線具有至關重要的意義,它可以提高在戰爭環境中的任務成功率和生存概率。本研究通過開發基于強化學習(RL)的合作集中式路徑規劃應用,重點關注第二種方式,在考慮任務和系統要求的同時,以最小的占用量生成飛行路線。
空中飛行器的合作是空對地攻擊情況下的另一個重要問題。[1]中指出,自主無人機系統的合作意味著資源共享、信息共享、任務分配和沖突解決。它需要先進的傳感器和遠程數據鏈來提高UCAV機群的任務成功率和生存能力。從生存能力的角度來看,合作對于避免UCAVs之間可能發生的碰撞相當重要。因此,在進行飛行路徑規劃時,應考慮智能體與智能體之間的安全距離。定義UCAV飛行器之間距離和角度的相對幾何數據可用于評估這種情況并生成無碰撞的飛行路線。此外,從任務成功的角度來看,合作可用于生成可同時到達目標區域的飛行路線。同時到達是空對地攻擊的一個關鍵作戰概念,以便在戰爭環境中飽和敵人的防空系統。例如,如果機群中的UCAV潛入目標區域并同時向敵方資產發起攻擊,防空系統就會飽和,它就無法對UCAV機群作出有效反應。這增加了任務成功的概率,盡管它可能會降低機群中幾個UCAV智能體的生存能力。
戰爭環境中UCAV機群的合作路徑規劃是一個復雜的問題。正如我們之前提到的,在生成所需路徑時,應考慮許多敵方資產。一個成功的合作是通過結合操作者定義的機群的生存能力和任務成功要求而獲得的。
在文獻中,對UCAV機群的合作路徑規劃進行了許多研究。在[2]中,UCAV機群的路徑規劃是通過使用勢場方法來壓制地表的敵方資產,如雷達、防空導彈和大炮。此外,Voronoi圖也被用于同一問題,并與所提出的算法的性能進行了比較。雖然生成的路徑是連續和平滑的,但它需要很高的計算成本來解決這個問題。在文獻[3]中,通過整合近似的允許攻擊區域模型、約束條件和多準則目標函數,提出了UCAV機隊執行合作空對地攻擊任務的軌跡規劃問題。然后,通過結合微分平坦性理論、高斯偽譜法(GPM)和非線性編程,開發了虛擬運動偽裝(VMC),以解決合作軌跡最優控制問題。所提出的VMC算法的性能與基于GPM的直接拼合方法進行了比較,后者是為生成最優軌跡而開發的。仿真結果表明,盡管在優化性能上有小的損失,導致次優解,但所提方法能夠比GPM算法更快地生成可行的飛行軌跡。
最近航空器的計算和通信能力的進步加速了對合作的研究。將RL應用于自主飛行器的路徑規劃是文獻中的一個新興話題,因為它能夠在適當的情況下解決復雜問題。在文獻[4]中,作者通過使用深度強化學習(DRL)為自主地面車輛開發了一個省時的導航策略。他們引入了具有社會意識的DRL防撞方法,并將其推廣到多Agent場景中。提出的算法在一個行人眾多的環境中進行了測試。在[5]中,開發了一種混合算法,其中包含DRL和基于力的運動規劃方法。它被用來解決動態和密集環境中的分布式運動規劃問題。根據仿真結果,所提出的算法比DRL方法產生的成功場景多50%,比基于力的運動規劃到達目標所需的額外時間少75%。在[6]中,為蜂窩連接的無人機群網絡開發了干擾感知路徑規劃算法。在這一應用中,能源效率與無線延遲和干擾之間存在著權衡。提出了基于回聲狀態網絡的DRL算法來解決路徑規劃問題。仿真結果顯示,與啟發式基線方法相比,每個無人機的無線延時和每個地面用戶的速率都得到了改善。同時,仿真結果指出了無人機的最佳高度、數據速率要求和地面網絡密度之間的關系。在[7]中,DRL被用于使用自主飛機的分布式野火監視。在這個問題上,由于高維狀態空間、隨機的火災傳播、不完善的傳感器信息以及飛機之間需要協調,要最大限度地擴大森林火災的覆蓋范圍是相當復雜的。我們開發了兩種DRL方法。在第一種方法中,飛機是通過使用單個飛機的即時觀測來控制的。在第二種方法中,野火狀態和飛機所到之處的時間歷史被用作控制器的輸入,以提供飛機之間的協作。根據仿真結果,所提出的方法提供了對野火擴張的精確跟蹤,并超過了退避水平線控制器。報告還指出,這些方法對于不同數量的飛機和不同的野火形狀是可擴展的。在[8]中,DRL算法被用來解決無人駕駛地面車輛(USV)車隊的合作路徑規劃問題。采用了領導者-追隨者策略,并制定了一個集中協調方案。為了在車隊中提供合作,使用了與避免碰撞和編隊形狀有關的獎勵函數元素。然而,在路徑規劃問題中沒有考慮同時到達。
多智能體強化學習(MARL)也是一種新興的方法,用于解決包含合作要求的多智能體問題,如同時到達和避免碰撞[9-15]。在[16]中,針對部分可觀察情況和網絡帶寬等有限通信能力下的合作,開發了深度遞歸多智能體行為者批評框架(R-MADDPG)。實驗表明,所提出的R-MADDPG算法能夠處理資源限制的問題,并且它能夠在同時到達的智能體之間進行協調。然而,空中飛行器的運動學沒有被考慮,環境中也沒有包括障礙物。在[17]中,通過結合改進的陶氏重力(I-tau-G)制導策略和多智能體Q-Learning(MAQL)算法,為多個無人駕駛飛行器(UAV)開發了分布式4-D軌跡生成方法。考慮了避免碰撞和同時到達的要求來提供合作。
這項研究是[18]的延續,其中對UCAVs進行了基于RL的集中式路徑規劃。在戰爭環境中集成了一個五種狀態的生存能力模型,包括搜索、探測、跟蹤、交戰和擊中狀態。RL智能體的訓練階段是通過使用近似策略優化(PPO)算法進行的。為了定量評估所提系統的有效性,制定了跟蹤和命中概率的性能指標,并用于蒙特卡洛分析。仿真結果表明,擬議的算法能夠產生可行的飛行路線,同時使UCAV機群的生存概率最大化。然而,將生存能力模型(每個UCAV的五個狀態)納入學習過程增加了觀察向量的大小,使系統的擴展變得復雜。另外,[18]中沒有研究UCAV機群的合作性能,這也是本研究的主要議題。
本文采用RL方法解決了UCAV機群的路徑規劃問題。采用集中式結構,將總的觀測向量輸入單一的RL智能體,并生成總的行動向量,其中包含相關UCAV的單獨控制信號。與[18]不同的是,生存能力模型沒有被整合到觀察向量中以減少向量大小。相反,禁飛區(NFZs)被定義為模擬防空系統,如防空導彈和火炮。除了在[18]中進行的研究外,這里特別關注艦隊的合作,這從兩個方面得到。首先,研究了UCAV機群同時到達目標區域的情況,這是一種廣泛使用的使敵人的防空系統飽和的方法。其次,還研究了避免碰撞的問題,以提供艦隊的安全。考慮到這些要求,我們開發了獎勵函數。RL智能體的訓練階段是通過使用PPO算法進行的。為避免NFZ、避免碰撞和同時到達的要求制定了幾個性能指標,以獲得對所提方法的定量評價。通過使用蒙特卡洛分析,在NFZ位置不確定和外部干擾(即風的影響)存在的情況下,根據船隊的避免碰撞和同時到達能力,對系統的合作性能進行了評估。
這項研究從兩個方面對文獻做出了貢獻。首先,據作者所知,這是第一次為UCAV機隊開發出一種可行的和可操作的基于RL的集中式路徑規劃方法。例如,與典型的基于PSO的方法相比,基于RL的方法提供了艦隊在面對動態和反擊/防御威脅時重新規劃的實時能力。第二,與目前的方法相比,所提出的方法提供了同時考慮關鍵操作限制的能力,如同時到達和避免碰撞的要求,同時考慮NFZ限制和系統限制,如UCAVs的橫向加速指令限制。例如,典型的方法,如基于PSO的方法,只考慮了這些限制的有限子集,因此它們只適用于現實生活場景的某些方面。考慮到這兩個方面的貢獻,所提出的方法不僅為現實生活中適用的合作操作能力提供了手段,如關閉速度和近似的時間信息,而且還為高度非線性和大規模的UCAV艦隊優化問題提供了一個實時的近似。
本文的其余部分組織如下。在第二部分,解釋了路徑規劃問題中使用的數學模型和相對幾何學。在第三部分,給出了RL智能體的一般結構,并描述了訓練算法。第四節,給出了仿真結果,并對1)無NFZ和2)有NFZ約束的情況進行了評估。在第五部分,說明了結論和未來的工作。
圖 3 RL 智能體及其與戰爭環境交互的總體概述。
圖 4 a) 同時到達、b) NFZ 限制和 c) 避免碰撞的定義。
美國海軍陸戰隊正在建設反水面作戰領域的能力,特別是在獲得地基反艦導彈(GBASM)及其相關發射平臺方面。研究為分析與這種新能力相關的部隊結構提供了一種方法。研究方法使用離散時間馬爾可夫模型對GBASM炮組和敵方水面艦艇之間的戰術級決斗進行建模。這些模型有足夠的復雜性來解決關鍵的部隊設計問題,并且對決斗的關鍵特征進行了參數化,以便進行強有力的敏感性分析。
在海軍導彈作戰中,重要的是確定所需的炮彈規模S,以使炮彈有足夠高的概率殺死敵艦。GBASM概念的獨特之處在于,與從水面艦艇上發射導彈相比,它能夠將這種炮彈分散到幾個平臺上,并以更適合特定戰術場景的方式進行發射。在這種情況下,如果有一個大小為K的禮花彈,并將該禮花彈分散到N個平臺上,那么每個平臺在特定的禮花彈中發射?枚導彈,這樣K × N = S。有了這個公式,就能夠分析平臺數量和每個平臺發射的導彈數量在這些配置的殺傷力和生存能力方面的權衡。這為成本-效益分析提供了基礎。
對GBASM炮臺與敵方水面艦艇發生接觸的情況進行模擬。從簡單的場景開始,然后逐漸復雜化。讓GBASM發射器與一艘敵方水面艦艇進行決斗。GBASM一方被稱為藍方,水面艦艇被稱為紅方。最初假定雙方都有足夠的導彈供應,并且交換的時間是有限的,因此可以把供應視為無限的。GBASM以彈丸為單位進行發射,每個彈丸至少包括一枚導彈。在藍方的炮擊之后,紅方的水面艦艇有機會進行還擊。
在所描述的環境中,假設藍方具有首發優勢。鑒于GBASM的引入在沿岸地區造成的不對稱情況,首發優勢的假設并不是不合理的。GBASM是移動的,有可能移動到難以探測的地方,只有在準備開火時才出來。GBASM的目標是保持不被紅方船只發現,直到它成功瞄準紅方船只。一旦紅方船只成為目標,GBASM系統就會開火并移動到一個新的位置。如果沒有關于GBASM移動的完美信息,紅方艦艇將持續處于不利地位。
此外,該模型捕捉到了紅方對藍方的炮擊進行防御措施的能力。這些防御性的反措施是用參數λ來說明的,這個參數是紅方根據泊松分布可以攔截的藍方導彈的平均數量。以這種方式對紅方采取反措施的能力進行建模,說明了隨著藍方導彈規模的增加,紅方采取反措施的能力也在減弱。同樣,也說明了紅方針對藍方分布式發射器的能力下降。紅方殺死藍方分布式平臺的能力用參數?表示,根據泊松分布,紅方在還擊中可以殺死藍方平臺的平均數量。這再次說明,隨著藍方平臺數量的增加,紅方瞄準和殺死藍方的效果有限。
在對該模型的分析中,遇到了幾個關鍵的發現。首先,最重要的是確定理想的炮擊規模S,以提供足夠高的殺死敵艦的概率。這不是一個簡單的 "越多越好 "的問題,因為炮擊規模有一個收益遞減點。正如人們所期望的那樣,還得出結論,增加平臺的數量K可以提高生存能力,從而提高GBASM炮臺的殺傷力。然而,改進的幅度對其他參數很敏感,當炮彈規模足夠大時,改進的幅度通常很小。
該研究的主要產出是創建的模型和對它們進行進一步分析的能力。本論文中任何地方使用的參數值都不是由具體的GBASM系統或潛在的敵方水面艦艇的能力來決定的。因此,結果應該被看作是對參數空間可能區域的探索的概括。這些模型提供了根據有關特定系統的能力進行具體分析的能力。
美國國防部(DOD)使用漏洞評估工具來確定其許多網絡系統的必要補丁,以減輕網絡空間的威脅和利用。如果一個組織錯過了一個補丁,或者一個補丁不能及時應用,例如,為了最大限度地減少網絡停機時間,那么測量和識別這種未緩解的漏洞的影響就會被卸載到紅色團隊或滲透測試服務。這些服務大多集中在最初的利用上,沒有實現利用后行動的更大安全影響,而且是一種稀缺資源,無法應用于國防部的所有系統。這種開發后服務的差距導致了對進攻性網絡空間行動(OCO)的易感性增加。本論文在最初由海軍研究生院開發的網絡自動化紅色小組工具(CARTT)的自動化初始開發模型的基礎上,為OCO開發和實施自動化后開發。實施后開發自動化減少了紅色小組和滲透測試人員的工作量,提供了對被利用的漏洞的影響的必要洞察力。彌補這些弱點將使國防部網絡空間系統的可用性、保密性和完整性得到提高。
1.第二章:背景
第二章詳細介紹了CO中后開發的重要性,并通過分類法解釋了后開發的影響。它還研究了現有的后開發框架和工具,它們試圖將后開發自動化。本章還強調了其他工具和框架的不足之處,并討論了本研究如何在以前的工作基礎上進行改進。
2.第三章:設計
第三章介紹了CARTT是如何擴展到包括自動后開發的。這項研究利用了CARTT客戶-服務器架構的集中化和模塊化來擴展后開發行動。本章還詳細討論了發現、持續、特權升級和橫向移動等后剝削行動。
3.第四章:實施
第四章介紹了CARTT中實現的代碼、腳本和工作流程,以實現自動化的后剝削。它詳細描述了Metasploit框架(MSF)資源腳本的重要性,以及CARTT服務器、CARTT客戶端界面和CARTT操作員角色之間的通信。
4.第五章。結論和未來工作
第五章對所進行的研究進行了總結,并討論了研究的結論。它還提供了未來工作的建議,以進一步擴大CARTT的可用性和能力。
本論文利用軸向動量理論(AMT)的修改版本和計算流體動力學(CFD)來模擬具有類似的簡化流動的多個螺旋槳,以估計小型無人飛行器(UAVs)的空氣動力恒定力。利用AMT的修改版本,對一個現成的商用垂直起降(VTOL)平臺和一個為向前飛行而優化的新設計進行了比較。
本論文利用軸向動量理論(AMT)的修改版本和計算流體動力學(CFD)來模擬具有類似的簡化流動的多個螺旋槳,以估計商業現貨(COTS)垂直起飛和降落(VTOL)平臺上的空氣動力和重力作用。利用AMT的修改版本,對COTS平臺和為前向飛行優化的新設計進行了比較,以研究VTOL飛行器的潛在改進。
美國國防部(DOD)有興趣在軍隊活動的地方開發和部署能源解決方案,而不是遠距離運輸燃料[1]。使用移動手段在當地生產氫氣可以使任務更加安全,并改革能源供應鏈[1]。由于氫氣的高燃燒熱和高比熱,它是傳統飛機燃料的一個有利的替代品[2]。
與傳統的化石燃料相比,"氫氣的體積密度明顯較低,但重量密度是其兩倍以上" [3]。在Sarkar和Banerjee對氫氣儲存方案的分析中,他們得出結論,氫氣 "似乎對長期可行性最有利","[壓縮方案]所需的總能量最低" [3]。壓縮氫氣增加了其體積能量密度,使其成為立即用于燃料電池或渦輪機的可行選擇[3]。氫氣有可能以有效和具有成本效益的方式得到適當的利用,通過水解使可再生能源的可能性變得無限大[4]。
一個小規模的、可靠的氫氣站在船上或部署,加上持久的無人指揮、控制、通信、計算機、網絡、情報、監視和偵察(C5ISR)資產,由當地生產的氫氣驅動,可以滿足全世界對自我維持和高度移動資產的需求[5]。由于氫氣可以使用任何可用的電能來源從水中制造出來,它幾乎可以在世界任何地方就地生產[2]。一種清潔、可持續和可移動的氫氣生產方法是電解水[3]。如果利用海水,每艘海軍艦艇都可以生產無人駕駛航空器(UAV)、無人駕駛水面艦艇(USV)或無人駕駛水下艦艇(UUV)所需的壓縮氫氣。這種能源獨立的海軍部隊將改革目前需要的供應線,并增加戰區資產的駐扎時間。
多旋翼飛機,如四旋翼飛機,正在成為軍事應用中更相關的平臺。由于多螺旋槳的設計,用計算便宜的方法對這些平臺進行建模被證明是一個挑戰。所選擇的COTS平臺將基于復合材料的結構與壓縮氫氣儲存和燃料電池技術相結合。像Intelligent Energy和HES Energy Systems這樣的公司已經證明了他們的燃料電池無人機在續航能力上可以超過只有電池的單位[5]。當操作氫燃料電池時,唯一的副產品是電能、熱量和水蒸氣。
海軍研究生院從HES能源系統公司獲得了一個名為 "Hycopter "的COTS平臺[6]。這個氫燃料電池驅動的系統具有以下飛行特性[7]。
在12升氫氣罐加壓到34.5兆帕(5000磅/平方英寸)且無有效載荷的情況下,飛行時間為3個多小時
宣傳的最大有效載荷為2.5公斤
最大起飛重量(MTOW)為16.5公斤
根據宣傳材料,"Hycopter無人機可以覆蓋6倍于當今大多數電池無人機的表面積,使大規模檢查更快、更便宜、更容易完成" [7]。在有人落水或海上搜救的情況下,這種增加的續航能力可以定位目標,彌補部署載人飛機進行救援所需的時間。圖1顯示了COTS平臺與市面上的附件。
"為安靜的長續航時間(LE)多旋翼飛行、可靠性和高性能而設計",這種飛行器可能的軍事應用包括C5ISR或搜索和救援(SAR)任務,與有人駕駛的飛機行動一起或代替有人駕駛的飛機[7]。所宣傳的2.5公斤的有效載荷能力限制了將該平臺用于戰斗行動或營救受傷或被困人員的可能性[7]。
本研究的COTS平臺是一種VTOL飛行器,可在10分鐘內由一個兩人小組輕松部署,是當前技術的代表[7]。該COTS平臺的設計飛行特性包括最大橫向速度為15.6米/秒,最大輔助速度為3米/秒,最大傾斜角度為32度[7]。Yang為Aqua-Quad提供的稀少數據表明攻角和真實空速之間存在線性關系[8]。圖2顯示了Aqua-Quad的數據。
圖 2. Aqua-Quad 真實空速與平臺俯仰。
COTS氫氣平臺與類似尺寸的電池動力飛機相比具有明顯的優勢,但由于該平臺專注于懸停飛行,因此在飛行包絡上受到限制。"為了實現最小重量的目標,VTOL飛機的設計應優化為向前飛行"[9]。"有四種技術可以將系統從垂直推力模式轉換為水平巡航飛行模式:傾斜飛機、傾斜推力、推力矢量和單獨(雙)推力" [10-12]。從概念上講,這些技術可以使飛機在相同的燃料量下,比同等大小的直升機多走一倍的路程,多走一倍的速度[13]。例如,V-22鶚式飛機的飛行包絡線超過了直升機,也超過了渦輪螺旋槳飛機的大部分[13]。
對懸停飛行的關注以類似于直升機和其他VTOL平臺的方式限制了多旋翼飛機。由于多旋翼飛機通常是無人駕駛的,所以沒有像V-22鶚式飛機那樣可以攜帶貨物或人員的駕駛艙的設計要求。設計方案將是一個傾斜的飛機,這大大降低了工藝復雜性,但保持了V-22所看到的類似優勢。與目前的COTS氫氣平臺相比,V-22的一個優勢是V-22有可變距螺旋槳。變距螺旋槳允許在所有的飛行模式下高效飛行。圖3顯示了飛翼方案的起飛配置。
圖 3. Bluff Body Flying Wing建議起飛配置
"飛機的航程取決于諸如空速、燃料容量、載荷、懸停要求和起飛/降落配置等因素" [13]。傳統的飛機在起飛時的推力值是被提升的總重量的百分之三十到四十[11]。對于VTOL飛機,垂直升降模式下的推重比必須超過工作重量一定的幅度[14]。圖4顯示了V-22飛行包絡線與傳統飛機相比的優勢。
圖 4. V-22 與直升機/渦輪螺旋槳飛行包線的對比。
在巡航飛行中,有人駕駛的直升機和旋轉型VTOL飛機的效率比管道風扇或渦輪風扇和渦輪噴氣機要差[12]。傳統飛行的續航能力和航程優勢使得從旋翼飛行過渡到固定翼飛行非常可取。保持旋翼飛機的配置限制了速度,因為在前進的葉片上會產生沖擊波,在后退的葉片上會出現失速情況[15]。這些跨音速問題嚴重限制了載人旋翼平臺的最高速度;然而,旋翼飛機在需要快速橫向運動和快速盤旋上升/下降程序的機動中速度較快[15]。對于較小的無人駕駛平臺來說,這些限制中的一些可能沒有那么重要。圖5顯示了V-22與傳統飛機相比在燃油經濟性方面的優勢。
圖 5. 到真實空速的特定航程(NM/LB 燃料)
第一章討論了燃料選擇的考慮,介紹了目前市售的無人機,并討論了推力轉換技術。
第二章討論了AMT和多項式速度分布的創建。
第三章討論了AMT在自由空間的圓盤上的應用,它在CFD建模中的應用,以及對自由空間的圓盤建模的結果。
第四章討論了COTS平臺的基本空氣動力學特征,用于創建飛行翼方案的設計特征和方法,工藝品的CFD建模,以及CFD建模的結果。
本報告著重于2025年混合部隊的任務工程過程。來自OPNAV N9I的最新任務強調了關注使用成本保守的無人系統的必要性。具體來說,重點放在近鄰的競爭對手大國以及在南海的反介入/區域拒止(A2/AD)情況下可能出現的問題。海軍水面作戰中心的任務工程方法被用來確定擬議的替代艦隊架構的具體事件,然后使用作戰模擬和優化模型進行分析。對目前的無人系統,特別是那些正在開發的高技術準備水平無人系統的性能特征和成本的研究進行了匯編。提議的無人系統架構是作為A2/AD問題的解決方案而開發的。然后,無人系統架構通過優化模型運行,以最大限度地提高系統性能,同時最小化成本。然后,架構優化的結果被輸入到建模和仿真中。然后比較每個架構的整體有效性,以找到最有效的解決方案。對結果進行了分析,以顯示預期的任務有效性和利用擬議解決方案的無人架構的擬議成本。最有效的架構包括搜索、反蜂群、運送和攻擊系統。
系統工程分析31組由美海軍作戰司令部戰爭整合處(OPNAV N9I)負責確定一個解決方案,以彌補與大國在2025年的預期能力差距(Boensel 2021)。該解決方案系統必須具有成本效益并能在2025年之前交付。SEA團隊利用任務工程過程來確定候選的未來艦隊架構來解決問題(工程副主任辦公室2020)。
到2025年,如何才能有效地對抗近鄰對手的反介入和區域拒止能力?
以具有成本效益的方式調整目前的能力,并創建一個未來的架構,以加強美國海軍的作戰能力,包括存在、欺騙、ISR以及在反介入和區域拒止環境中的防御和進攻能力。
利用任務工程流程,總體情景被設定在2025年的南海。大國已執行了其九段線的領土要求,并建立了一個反介入/區域拒止(A2/AD)區。大國不斷擴大的艦隊、對人造島嶼的使用、遠距離ASCMs以及對無人系統的擴大使用使美國的水面作戰艦艇處于高風險之中。總體任務是美國海軍DDG通過提高其殺傷力和生存能力,在A2/AD區域內進行FONOPS。在整個方案中,有三個小場景被開發出來。OTH ISR、目標選擇和交戰,威脅無人機蜂群,以及提供目標選擇的威脅無人機ISR資產。
衡量任務成功與否的總體標準是美國海軍部隊在近乎同行的反介入區域拒止環境中的作戰能力。有助于衡量成功的有效性的措施是DDG的生存能力和殺傷力的提高程度與解決方案系統的成本相結合。
為了分析擬議的系統解決方案(SoS)是否能達到既定的成功標準,設計了一個價值體系。利用通用的海軍任務列表,項目組確定了擬議的系統解決方案需要完成的三個二級任務,以完成任務(海軍部,2008)。
對三個選定任務下的后續任務進行了評估,以確定擬議系統需要完成的具體功能。通過這次審查,確定了候選無人系統需要完成的四項高級功能。這些功能是交付、搜索、通信中繼和打擊。為每項功能選擇了性能措施,以用于多屬性價值分析。
多屬性價值分析被用來比較完成四個功能中一個或多個功能的候選系統。一個系統的價值是根據每個性能指標對完成一個特定功能的重要性,給每個性能指標分配一個權重而得出的。權重從1到5不等,其中5表示最重要的MOP。計算MOP和權重的乘積,并將每個乘積相加,以獲得系統的價值。
為了確定可行的候選系統,項目組成員各自研究了一個不同的無人系統,并收集了每個候選系統的性能衡量標準。如果一個特定的無人系統的MOP值不知道,則推斷其值與一個類似的系統相同。如果不存在這樣的類似系統,則使用啟發式方法估計該值。對于每項功能,至少有一個系統符合技術成熟度,可考慮用于2025年的混合部隊。
為了實現所有四個功能,候選系統的組合被排列組合成16個系統簇。每個備選方案的系統價值和成本都被計算出來。系統價值的計算方法是將每個備選方案中的每個系統的價值相加。
為了產生用于比較的替代方案,該團隊使用整數線性規劃生成了架構。這是用Pyomo的優化功能完成的。線性規劃被創建、約束以更好地表示現實,并被解決以生成分別針對性能、預算和替代合約選項進行優化的替代架構。
現代導彈戰可以使用炮擊作戰模型進行評估。這個模型被用來計算每個小場景中的每個SoS備選方案的有效性。結果顯示了超視距ISR平臺的重要性,一個獨立的武器系統來對付敵人的無人機,目前IAMD作戰系統的有限防御能力,以及超視距搜索和瞄準能力。
“大國”和美國都擁有深入的綜合空中和導彈防御。為了證明這種互動,在微軟Excel中使用反二項式函數對不同的交戰進行了建模。每一個擬議的艦隊架構都被輸入到三個小插曲的戰斗模擬中。為了獲得隨機的結果,試驗的數量被設定為300次,每個概率都有一個可能的值范圍。該模型中的自變量可分為防御性或進攻性變量。防御性變量是每個單位的綜合防空和導彈防御武器的殺傷數量和殺傷概率。PLAN的進攻性變量是YJ-18 ASCM和Harpy無人機的命中數。美國海軍的進攻性變量是海上攻擊戰斧、ASCM和特定攻擊無人機的進攻性命中數量。
模擬的結果顯示了擊中敵方水面平臺或美國海軍水面部隊的數量。通過比較建議的系統與基線的命中率,可以得出變化的百分比。在我們的分析中,進攻和防御的有效性被平均加權,允許將進攻和防御百分比變化的高值相加,以計算出高低變化的總百分比。
基于智能體的建模和仿真(ABMS)被用來驗證每個設想的系統架構與所需的MOE。ABMS旨在通過對智能體之間的相互作用進行建模,來捕捉戰爭交戰的隨機性,但又很復雜。進行了蒙特卡洛分析,以收集每個系統性能的個體層面的數據。隨后的統計分析提供了一個途徑,以確定和量化每個擬議的系統架構所實現的改進。為此目的,指揮部:現代行動(CMO),是一個跨領域的現代兵棋推演計算機軟件,旨在模擬戰術到作戰水平的行動,被用作仿真引擎。CMO模擬的是基于規則的智能體,它們相互之間以及與環境之間的互動,包括感興趣的場景中的武器系統(Coyote, YJ-18, Chaff)和平臺(例如PLAN DDG, Luyang)。與多屬性價值分析方法相比,CMO允許對定量的系統MOP進行建模,并在模擬結果中觀察其相對差異。
電子表格戰斗模型模擬的第一個結果是解放軍DDG在三個不同的迭代中對美國海軍DDG的命中率,即只用YJ-18攻擊,只用哈比攻擊,以及YJ-18和哈比同時攻擊。同時使用YJ-18和Harpy的命中率被作為防御性MOE的基線值。接下來,兩種不同的防御性無人機系統被分別加入到作戰模型中。對只有哈比的攻擊和YJ-18與哈比的同時攻擊進行了重復模擬。每個系統的防御性百分比變化是用前面描述的公式計算的。
接下來的結果是美國海軍DDG在三次不同的迭代中擊中PLAN DDG的次數。模擬了僅用MST攻擊、僅用ASUW無人機攻擊以及MST和ASUW同時攻擊的結果。只用MST攻擊的命中率作為進攻性MOE的基線值。接下來,七個不同的運載系統被分別加入到作戰模型中。對僅有ASUW無人機攻擊和同時進行的MST和ASUW無人機攻擊進行了重復模擬。每個投送系統的進攻百分比變化被計算出來。
將同等權重的進攻和防守百分比變化相加,計算出高和低的總變化百分比。根據該模型,期望值是這樣的:在0.95的置信度下,增加SoS將使水面部隊的有效性增加一個介于高值和低值之間的百分比。
總的來說,從ABMS觀察到的性能與從電子表格模型觀察到的性能MOE相關。在所有提議的架構中,都觀察到了防御和進攻MOE的明顯改善。這是預料之中的,因為在DDG上增加任何防御性武器系統應該減少艦隊DDG的直接命中數量。同樣,增加一個具有增強OTH感知能力的進攻性武器系統會增加對目標直接作用的武器數量。
對防御性和進攻性MOE與每一方所消耗的平均武器數量的比率的進一步分析顯示,由于美國海軍DDG上增加了反群武器系統,防御性MOE得到了改善。這種增加被證明是對所有架構的一種有效的廣泛改進。三種提議的架構之間最明顯的差異來自于進攻性MOE(%),其中性能系統優于其他架構。與發射的武器總數相比,預計一個性能更好的系統會向目標發射更少的武器,同時造成更多的命中。
這項工作證明了低成本的無人駕駛威脅系統給傳統水面戰艦帶來的危險,這些系統可以在幾乎沒有警告的情況下進行協調和攻擊,并為船員提供很少的反應時間。為了避免強制增加對峙距離以提高生存能力,有必要使用增程傳感器系統和反無人機系統來彌補預期的能力差距并提供進入被拒絕區域的機會。為了使這些系統可行和安全,高帶寬的通信系統將是必需的。
為了滿足這些需求,建議的解決方案系統利用Dive-LD來運送Coyote無人機平臺。搜索和通信中繼將由兩個VBAT無人機平臺提供。這種平臺組合為每一美元的系統成本提供了最高的進攻和防御能力的提高。叢林狼 "無人機也將作為一個蜂群來防御威脅性無人機群和威脅性無人機ISR資產。增加解決方案系統的采購將提高艦隊的生存能力和殺傷力,并允許在其他艦隊優先領域進行額外投資。
建議通過為無人機平臺配備額外的無源傳感器來改進該系統,以利用電磁頻譜的所有部分,從而提高在所有天氣和戰斗條件下探測敵方威脅的能力。此外,擬議的解決方案系統可以擴展到許多其他領域和任務區,如港口防御和反對出口。
在多域作戰(MDO)中,特種作戰的作用正變得越來越重要。特種作戰部隊(SOF)是全球最主要的持久性軍事部隊。特種作戰部隊將繼續促進決策者對作戰環境的準確理解,塑造環境以防止武裝沖突,并在必要時為通用部隊提供相對于對手的明顯優勢,以迅速回到競爭狀態。此外,特種部隊仍然是美國防部打擊暴力極端主義組織的首選力量,必須平衡這一責任和他們在與近似對手競爭中的作用。目前,美國陸軍特種作戰和學校正在對每個資格課程進行現代化和優化。陸軍特種作戰(ARSOF)隊長職業課程(CCC)最近修改了其課程,包括SOF的具體培訓,以最好地準備未來的ARSOF領導人在MDO構建中運用特種部隊、民政和心理作戰。這個兵棋是為參加ARSOF CCC的ARSOF新軍官設計的。兵棋允許學生在一個模擬的多領域環境中工作,在有限的時間、資源和人員的限制下,應用課程和SOF的理論。兵棋推演的目的是協助SOF隊長準備帶領作戰小組到海外進行作戰和戰斗部署。
在多域作戰(MDO)中,特種作戰的作用正變得越來越重要。特種作戰部隊(SOF)是全球最主要的持久性軍事存在。SOF將繼續促進決策者對作戰環境(OE)的準確理解,塑造環境以防止武裝沖突,并在必要時為通用部隊(GPF)提供相對于對手的明顯優勢,以迅速回到競爭狀態。SOF仍然是國防部打擊暴力極端主義組織(CVEO)的首選力量,必須平衡這一責任和他們在與近似對手競爭中的作用。
SWCS必須確保未來的SOF領導人能夠滿足第一特種部隊司令部的要求,以進行上述的行動。在SWCS中每個資格課程的變化是持續的,因為SWCS的目標是快速配備部隊,同時確保畢業生為他們未來的責任做好準備。這些課程歷來以非常規戰爭為重點,并優先考慮直接行動(DA)任務,這也是過去20年內作戰部隊的優先任務。現在,全球反恐戰爭對國家來說是一個較低的優先級,而近距離的競爭是主要焦點。競爭主要發生在安全合作行動中,并創造了在第22章環境中針對穩定行動的訓練需求,如外國內部防御(FID)。
特種部隊司令部(SFC)對部隊的愿景是讓團隊作為綜合元素來完成這些任務,利用自衛隊、中央軍區和地面行動單位的能力和專業知識。隨著理論的發展,最近和未來的SWCS畢業生仍將期望使用一個綜合的結構來運作。各自的ARSOF部門需要充分了解彼此的角色和能力,并作為合作要素解決復雜的問題集。
增加或改變訓練的優先次序是具有挑戰性的。盡管如此,SWCS必須確定如何迅速為部隊提供完全合格的特種作戰士兵,同時確保他們接受所有必要的培訓,以成功地發揮其未來的作用,并承擔最少的風險。增加對這些學生將經歷的作戰環境(OE)因素的接觸,并加以重復,將強化訓練目標,促進批判性和創造性思維,以幫助提高準備程度和減少風險。學生較早開始分析他們未來的OE的資格課程將增加他們的經驗,并為未來的培訓提供背景,而他們在SOF之前的職業生涯或教育背景可能無法提供。將ARSOF課程整合到上尉職業課程中,在每個訓練管道的前端提供了這種機會。該課程提供了一個基礎,將在每一個資格課程中建立和加強。
美國特種作戰司令部司令博德特中尉在AFC Pam 71-20- 4 Concept for Special Operations 2028中指出,陸軍特種作戰部隊(ARSOF)需要提供 "獨特的能力來推進伙伴關系,影響對手的行為,執行特種作戰,并應對危機。"此外,ARSOF在敵對的、被拒絕的或政治上脆弱的地方提供這些能力,與當地軍隊一起或通過他們工作,需要文化熟練和高風險水平。
ARSOF在地理上校準的部隊態勢提供了快速了解作戰環境的能力,并通過與當地伙伴部隊、居民人口、政府機構和組織間合作伙伴的持久關系來施加影響,以利用軍事和民用網絡,改善實時情況的了解,放大作戰效果,并破壞對手的通信能力和決策過程。
這反映了美國政府的選擇,即在追求政策目標的同時,限制軍事行動,保持不發生武裝沖突。
競爭中的特種作戰的主要目的是幫助JFC在不升級為武裝沖突的情況下實現美國的戰略目標。
在競爭階段,特種作戰部隊評估所有相關的行為者和他們各自的關聯。部隊同時評估感興趣的領域,培訓合作伙伴,并促進與盟友和合作伙伴的合作,同時減少美國的人員和資源投入。"這種力量支持一個有利的環境,讓聯合部隊、機構間和合作伙伴努力通過非常規和信息戰來對抗對手的脅迫行為。"在復雜的混合威脅環境中,部署在全球的特種作戰部隊承擔著巨大的責任,由中級民政、特種部隊和心理作戰官員領導。特種部隊司令部必須確保未來的特種部隊領導人準備好完成國防部、USASOC和第一特種部隊司令部的期望。布倫南將軍(MG Brennan)在第一軍區司令部指出:"我們(ARSOF)在整個沖突的范圍內是至關重要的。我們必須為大規模作戰行動(LSCO)進行訓練,即使我們努力防止它們。"這句話給特種部隊司令部,即部隊的創造者帶來了最大的挑戰,在有限的時間框架內優先考慮可以完成的訓練。
此外,ARSOF的三個分支在各自的資格課程中學習他們的專業。盡管如此,為了滿足第一SFC的跨職能團隊概念,為SOF提供競爭優勢,三個部門必須熟悉彼此的角色和能力。從戰術到行動要素的CFT結合了民政、心理作戰、特種部隊和使能者的能力,整合多領域的能力,為指揮官快速創造選擇。
特種部隊必須繼續發展資格認證渠道,以迅速向部隊提供完全合格的特種作戰領導人,同時確保他們接受所有必要的培訓,以在未來的角色中取得成功。目前的作戰環境(OE)要求行動單位為所有戰爭范圍內的行動做好準備。然而,大多數特種作戰部隊將被部署在支持作戰以外的安全合作方面。這種競爭空間主要發生在安全合作行動中,并創造了在第22章環境中針對穩定行動的訓練需求,如外國內部防御(FID)。正如布倫南將軍所說,訓練LSCO和執行ARSOF獨特的、可以說是最具挑戰性的非傳統戰爭任務的需要是最重要的。然而,這并沒有反映出SOF軍官一旦從他們的資格課程畢業后將會指揮的主要任務。
鑒于上述的培訓需求,并考慮到有限的培訓時間,人員限制和資金限制,兵棋推演已被證明是解決這一問題的潛在辦法。大多數專業軍事學校的結業演習都集中在以PowerPoint為基礎的場景上,聚焦于一個特定的軍事行動。海軍陸戰隊指揮和參謀學院已經找到了一種新的方式來加強軍事教育,即擺脫歷史上的PowerPoint,轉向教育性的兵棋。
CSC的教育性兵棋推演為學生提供了 "快速失敗 "的機會,迭代,并從與同學和教師的多次嘗試中學習。為了培養指揮官對項目管理教育的指導所設想的創造性和靈活的頭腦,CSC將研討會內和研討會間的小組兵棋推演視為引導和鼓勵競爭的健康方式,讓學生有機會贏和輸,最終從每個結果中學習。通過將兵棋以及決策游戲和案例研究巧妙地融合到課程中,CSC正在培養具有智力和敏捷性的領導人,以便在這個快速變化和大國競爭的時期超越對手的思維。
數年來,兵棋一直被用于軍事結構中,以模擬現實情況,并在必要時提出想法。兵棋推演增強了軍事領導人的思維方式,使他們能夠根據阻礙軍事力量的制約因素,通過在假設情況下采取行動來做出決定。敘事經驗或講故事一直是向讀者介紹信息的一種方式。心理學家已經意識到,相對于僅僅通過閱讀來加強理解的歷史方法,新一代人可以通過親身體驗講故事來更好地學習。兵棋推演可以保持敘事方法,但游戲的使用將使一個新的工具為軍事人員提供更大的用途。彼得-佩拉表達了對兵棋的需求,以及為什么它能帶來創新的方式來找出解決問題的方法。
當我們玩的時候,我們也有一種緊迫的樂觀主義的感覺。我們全心全意地相信,我們可以應對任何挑戰,面對失敗,我們會變得非常有彈性。研究表明,游戲玩家平均有80%的時間在游戲世界中失敗,但他們沒有放棄,而是堅持面對困難的挑戰,并利用游戲的反饋來獲得更好的結果。通過一些努力,我們可以學習將這種復原力應用到我們所面臨的現實世界的挑戰中。
該兵棋將是一個競爭性的教育桌面棋盤游戲,讓學生分別指揮ODAs、CATs和MISTs。玩家必須在指定的行動區作為跨職能團隊一起工作,既要反VEO,又要在競爭中支持美國利益。該情景將模擬安全合作任務,并介紹團隊領導在與機構間伙伴合作、支持TSOC、管理與東道國的關系以及短期部署輪換時的挑戰。
基于這些信息,建立我們的兵棋推演方法所要研究的問題是。在當前的多領域環境中模擬競爭的兵棋是否能提高ARSOF CCC畢業生的后續訓練,并提高他們行動單位的準備程度?為了回答這個問題,我們為分別指揮ODAs、CATs和MISTs的學生設計了一個競爭性的教育桌面棋盤游戲。游戲中的玩家必須在指定的AO中作為一個團隊共同工作,既要反VEO,又要在競爭中支持美國利益。該場景模擬了安全合作任務,并介紹了團隊領導在與機構間合作伙伴合作、支持TSOC、管理與東道國的關系以及短期部署輪換時面臨的挑戰。
本文考慮使用衛星上的傳感器將觀察結果分配到一個離散網格化地理區域的情況。重要的是,至少要在所有網格單元瀏覽一次,以看到整個行動區域;因此,我們希望獲得最大的覆蓋范圍。其次,我們希望通過任何額外的觀察來重新審視高優先級的網格單元。傳感器產生一個二維帶,在每次經過地理區域時,它可以尋找網格單元,我們將其稱為 "掃描"。我們用來觀察網格單元的分辨率決定了觀察的有效性。我們可以選擇使用高分辨率,使我們在更細的細節上有更少的觀察,或者使用低分辨率,使我們在粗略的細節上有更多的觀察。這使我們可以選擇準確地觀察少數地方,或不準確地觀察許多地方。
這篇論文是在與作為五角大樓聯合參謀部一部分的J8局的密切協作下產生和發展的。J8在部隊結構、資源和評估方面向參謀長聯席會議主席(CJCS)提供建議。這個問題已被提煉為一般的情報、監視和偵察(ISR)問題,但延伸到J8在名為STORM的戰區級戰役模型中遇到的真正問題。STORM使用一種啟發式方法來確定哪些網格單元接受觀察。STORM的啟發式方法往往會產生不理想的結果,即大面積的興趣區域被忽略。我們希望改進搜索資產能夠執行的網格單元覆蓋率。
在這篇論文中,我們制定了一個新穎的、大規模的、混合整數的優化模型,以超越STORM的啟發式搜索ISR的表現。該模型被稱為SOM,使用間隙指數對自上次查看每個網格單元以來的掃描次數進行懲罰。我們希望避免收集這些懲罰,這促使我們重新訪問網格單元。目標函數最小化了這種產生間隙的懲罰。我們使用幾個約束條件來維護、重置和跟蹤間隙計數器,一個訪問所有網格單元的軟約束條件,以及一個對網格單元施加最小分辨率的約束條件。SOM的一個獨特的特點是它是事件驅動的,在戰斗空間上掠過,不以時間為基礎。SOM使用實際的STORM數據,有1300多行代碼,包括在R中收集數據,在Pyomo中處理和實現模型。
我們在STORM中未分類的Punic21場景上實現了這個模型。在這個場景中,有兩個戰斗人員。紅方和藍方。我們可以從任何一個角度來實現SOM,每個戰斗人員都產生他們自己的變量和約束。為了說明SOM的大規模,在Punic21中,紅方搜索藍方的網格單元,并在92個區域內進行優化,這相當于48小時的時間,我們有超過2500萬個變量和1500萬個約束。
案例研究以計算和操作結果為中心。計算結果表明,我們可以通過在國際商業機器ILOG CPLEX Optimization Studio(CPLEX)的算法中實施不同的選項來減少運行時間。最重要的選項是提供一個熱啟動,使用沒有外觀發生的最壞可能的解決方案。例如,當我們用默認的CPLEX選項在一個有超過200萬個變量和100萬個約束條件的單處理器上運行SOM時,它需要超過1400分鐘,而且沒有產生一個解決方案。我們確定了定制的CPLEX選項,減少了運行時間,并在不到5分鐘內解決了這個實例。這使我們能夠將問題的規模增加到超過2200萬個變量和1100萬個約束條件,并在不到50分鐘的時間內實現11%的優化差距。業務案例研究結果顯示,與STORM相比,SOM提供了平均54.6%和中位數22.8%的覆蓋率。額外的選項,是SOM原生的,在STORM中不具備的,確保SOM將超過STORM,快速達到最大的覆蓋率,隨后集中精力將目光分配到最重要的網格單元。
我們看到,根據操作結果,優化模型優于STORM的啟發式,并允許我們平衡所有單元的搜索,而啟發式則傾向于集中在重要的單元。與STORM的啟發式方法重復搜索相同的網格單元相比,SOM指導衛星在哪里尋找,以允許訪問每個網格單元并避免大的重訪間隙。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。