美國空軍（USAF）繼續投資研究和開發人工智能技術，通過自主無人駕駛飛行器（AUAVs）產生競爭性攻擊行為。多架AUAVs的使用可以作為一種力量倍增器，確保對敵方的空中優勢，并消除對作戰人員的威脅。我們制定并解決了動態目標到達的多Agent路由問題（MRP-DTA），這是一個隨機系統，其中一隊AUAVs對一個名義上的對手執行了打擊協調和偵察（SCAR）任務。在任務期間發生的動態目標到達為AUAVs團隊提供了一個連續的決策過程，我們通過馬爾科夫決策過程（MDP）來模擬。狀態空間的高維度和連續性質使得經典的動態規劃技術在計算上難以實現。為了應對維度的詛咒，我們構建并實施了一個混合近似動態規劃（ADP）算法框架，該框架采用了參數化成本函數近似（CFA）和直接前瞻性（DLA）模型。我們利用網狀自適應直接搜索（MADS）算法來調整我們的CFA-DLA參數化，并為AUAVs團隊產生高質量的攻擊策略。為了證明我們算法方法的優點，我們設計了一個實驗，在MRP-DTA的多個實例上測試我們的解決方法。我們將超級ADP策略與競爭基準策略進行比較；推薦的ADP策略在測試的20個問題實例中，有19個比重復貪婪的邊際啟發式基準策略有統計學上的顯著改進，在測試的10個問題實例中，有8個比重復順序定向問題基準策略有統計學上的顯著改進。我們表明，高回報目標到達的概率和目標到達的區域是影響結果策略質量的關鍵問題特征。偏移分析的結果顯示，在為我們的CFA-DLA算法選擇基礎優化模型時，要平衡解決方案的質量和計算工作量的價值。

I. 引言

自主系統和機器人技術的不斷發展，為推進和發現有利于美國空軍（USAF）的作戰技術提供了潛力。美國空軍繼續面臨著科學和技術進步的挑戰，因為同行和近鄰的地緣政治競爭者對其力量投射的關鍵組成部分進行競爭（威爾遜，2019；空軍部，2021）。美國空軍認識到，人工智能、自主系統和機器人等新技術將確保它能在未來打仗并贏得戰爭（馬蒂斯，2018；空軍部，2019d）。

友軍和敵軍已經開始將自主無人飛行器（AUAVs）與部隊相互配合，以實現軍事目標并保持空中優勢。土耳其部隊最近在 "春盾行動 "中對敘利亞部隊使用了這種自主飛機，表明他們的AUAVs可以在部署載人資產之前積極機動和削弱各種軍事目標，包括防空系統、榴彈炮和軍事基地（Haider，2019）。美國空軍可以從自主飛機的應用中獲益，作為高度重復、危險行動的潛在力量倍增器（Cahoon, 2021）。自主飛機已經證明了它們在危險環境中的效用，并且可以在不適合載人飛機的飛行狀態（如加速力、高度）下進行機動。運籌學（OR）方法可以應用于自主系統領域，使美國空軍在開發未來自主技術、戰術和程序方面直接受益，以保持競爭優勢。

美國空軍尋求保持空中優勢，以便在沒有敵對作戰部隊干擾的威脅下開展軍事行動。從歷史上看，空中優勢一直是一個行動或戰役成功的必要條件（國防部，2017b）。美國空軍參謀長查爾斯-布朗（Charles Brown）將軍強調，需要將空中優勢本地化并實現聯合效應，作為美國安全的一個組成部分（Brown Jr, 2020）。友軍作戰部隊首先努力建立空中優勢，因此后續行動的執行不會受到其他敵對部隊的干擾（空軍部，2019a）。

在建立空中優勢后，美國空軍必須通過進攻性的攻擊行動來保持對戰斗的控制，以削弱敵人的動員和反擊能力。用來實現這一目標的一個主要任務是空中攔截。美國空軍主要將空中攔截定義為一種多方面的努力，以轉移、破壞、延遲或摧毀敵人的軍事潛力，使其能夠有效地對付友軍或實現聯合部隊指揮官（JFC）的目標。空中攔截必須與環境中的許多敵對條件相抗衡，需要及時和準確的情報報告來告知決策者敵人的能力、部署和意圖（Meilinger，2014）。美國空軍認為反陸作戰是用于完成空中攔截的關鍵任務。

美國空軍執行反陸作戰，攔截和摧毀分散在行動區的敵方地面目標。JFC將空對地攻擊的重點放在敵人的關鍵目標上，以削弱敵人的能力，并在整個行動區完成一套專門的任務目標（空軍部，2020）。美國空軍與其他部門一起使用的一套任務，以最大限度地有效摧毀敵人的資產，被稱為打擊協調和偵察（SCAR）任務。

SCAR任務是一個與反陸作戰相關的衍生任務，支持空中攔截任務目標。在SCAR任務中，美國空軍收集關于潛在敵方目標的情報、監視和偵察（ISR）信息，指導攻擊資產打擊目標，探測更多的目標，并為未來的行動提供戰損評估（BDA）。與載人資產相比，AUAVs提供了增加飛機續航能力、降低作戰人員風險和優越的目標選擇策略的潛力，是SCAR任務的一種潛在資產。美國空軍采用了一種邏輯結構的目標選擇過程，允許JFC進行情報管理。正如Brunson（2007）所介紹的，美國空軍完全依靠JFC的目標來確定攻擊目標或支持偵察工作的優先次序。情報部隊獲得ISR報告，并在攻擊領域的資產部署之前確定蓄意的目標。我們把攻擊領域稱為目標所在的二維地面空間和SCAR任務發生的時間領域。目標的分類是基于多種特性：攻擊窗口的時間敏感性、破壞的價值和對敵方部隊造成的退化（國防部，2017c）。由于這些不同的因素，JFC承認目標之間有不同的優先級別。高回報目標（HPT）是被認為是實現JFC主要目標的必要目標。JFC建立了一個聯合綜合優先目標清單（JIPTL），明確描述了目標服務順序。必須了解的是，JIPTL通常是根據每個目標的價值來構建的；然而，目標位置、目標價值和目標地形特征使清單上的目標的優先次序變得復雜，需要進一步仔細研究。除了為HPT提供服務外，SCAR任務的重點是被稱為命名興趣區（NAIs）的目標。NAIs被添加到JIPTL中，以促進未來關于目標位置的情報，并為JFC提供BDA，這可能為未來的攻擊任務提供信息。在現實中，隨著SCAR任務的進行，目標實時到達（即被識別）是很平常的。

動態目標描述的是在資產部署后確定一個新的目標（空軍部，2019c）。盡管動態目標是在所有蓄意目標被優先考慮后確定的，但如果它們符合JFC的目標，它們仍然是可行的目標。由于瞄準過程的靈活性，攻擊資產仍然可以為動態目標提供服務；然而，這些動態目標的到來有時會改變JIPTL的執行，從而影響行動的效率。與動態目標的到來相關的隨機性代表了我們問題中不確定性的主要來源。雖然資產進入攻擊域執行計劃中的SCAR任務并大步調整以應對動態目標的到來似乎是最佳選擇，但我們相信，通過預測動態目標在攻擊域的到來，我們可以開發高質量的多Agent攻擊策略，通過采用強化學習技術，這些策略將優于反應性的確定性策略。然而，在聯合空域中引入多架攻擊飛機需要額外的問題約束來模仿適當的空域控制。

美國空軍使用空域控制這一術語來定義在聯合攻擊領域內運作的多種資產的運用。空域控制是非常動態的，而且是因地制宜的，但是為了優化空域的使用，控制應該適應具有不同技術能力的用戶。空域控制的必要性是由威脅程度、可用的監視、導航以及空域用戶和控制機構的技術通信能力決定的。這些能力直接告知協調措施的發展（空軍部，2019年b），這些措施是消除空域沖突和確保按照（IAW）JFC的目標安全有效地開展行動的必要條件。

這項研究提出了具有動態目標到達的多Agent路由問題（MRP-DTA），重點是在一個給定的攻擊域中指揮多個自主攻擊Agent。任務目標是在SCAR任務中雇用一隊AUAVs為目標服務。AUAV的主要目標是獲得最高的總獎勵，其中AUAV從服務目標中獲得獎勵。AUAVs團隊必須適應動態目標的到來，并通過不同的通信方案適當地保持空域控制。具體來說，非盟飛行器之間的溝通對于建立一個富有成效的優先攻擊目標的團隊至關重要。為了最好地表現這種情況，我們使用了適當地表現AUAVs之間通信的隨機性和管理的建模技術。

在這項研究中，我們使用馬爾科夫決策過程（MDP）框架對MRP-DTA進行建模，并使用近似動態規劃（ADP）技術獲得了解決方案。MDP框架為定義大量的問題特征提供了一個結構化的表述。MDP框架模擬了現實世界系統中的隨機性。然后可以應用精確算法來解決MDP模型，使其達到最佳狀態。然而，由于問題的規模很大，這些解決技術對于MRP-DTA來說在計算上是不可行的。該問題的無數狀態和結果空間需要一個強大的近似技術，如ADP，以提供高質量的策略，更好地告知決策者在攻擊領域中的攻擊資產的路由。我們在一個二維的攻擊域中表示MRP-DTA。AUAVs小組進入攻擊域，利用JIPTL中包含的蓄意目標的知識尋找要摧毀的地面目標。在沒有動態目標的情況下，JIPTL能夠為每架AUAV確定一條初始的、靜態的、最佳的路線。雖然JFC可能要求首先攻擊蓄意目標，但我們研究了在給定選定的知識，即攻擊領域各部分的動態目標到達的特征時，AUAVs的性能。確定性的攻擊策略提出了激勵性的研究問題；我們認為，通過利用整個攻擊域中動態目標到達的已知概率，這些策略可以得到改進。我們實施了一個設計好的計算實驗來測試問題特征的敏感性及其對策略性能的影響。

本文后續是按照必要問題信息的邏輯表述的。第二章對類似的問題類別、類似的建模框架和適用的解決方法進行了深入的文獻回顧。第三章明確定義了問題描述，MRP-DTA的MDP模型表述，以及用于解決該模型的ADP求解方法。第四章介紹了該分析的結果、有針對性的分析和收集的見解。最后，第5章提供了擴展這項研究的建議。

付費5元查看完整內容

第1章導言

本章介紹了空中優勢、防空的概念，并討論了現代空軍用來擊敗現代防空網絡的傳統和現代方法。然后闡述了研究的主要假設，接著討論了本論文其他部分的組織。

1.1.問題陳述

1.1.1. 空中優勢

美國空軍（USAF）的主要任務目標是實現空中優勢，作為所有其他聯合戰斗行動的先導[1]。美國聯合部隊將空中優勢定義為[2] ：

"......一支部隊對空中的控制程度，允許其在特定的時間和地點開展行動而不受空中和導彈威脅的禁止性干擾"。

在被防衛的空域實現空中優勢所產生的沖突對人員的生命帶來了巨大的風險，以及昂貴的物質資源損失的風險。

1.1.2. 進攻性反空襲

壓制（SEAD）或摧毀（DEAD）敵方防空是進攻性反空作戰，試圖通過破壞性（DEAD）或干擾性（SEAD）手段，使敵方地表防空系統失效、被摧毀或暫時退化，以使聯合部隊能夠無爭議地進入受控空域。除了針對AD的傳感器和武器外，DEAD任務通常還針對高價值的固定地點的地面資產，如[2] 。

1）機場和作戰基地

a) 飛機
b) 跑道
c) 空中交通管制
d) 機庫
e) 燃料儲存
f) 庇護所和人員設施
g) 維修設施

指揮和控制（C2）系統

a) 預警（EW）系統
b) 情報收集系統
c) 通信基礎設施

武器

a) 發射設施
b) 儲存設施

支持性基礎設施

a) 發電和配電
b) 鐵路和鐵路終端
c) 港口和海運碼頭

1.1.3. 防御性反空

敵方的防空系統對試圖在有爭議的空域，對實現空中優勢的空降部隊提出了實質性的挑戰。敵方綜合防空系統（IADS）的防衛性反空任務是摧毀、破壞或抵消空中和導彈攻擊、情報、監視和偵察收集，或其他未經授權的對防衛空域的滲透。現代IADS已經變得越來越復雜，在組織、復雜性和操作程序方面可以有很大的不同。現代地對空導彈（SAM）系統在射程和能力方面都得到了極大的提高，并對美國部隊構成了嚴重的威脅。遠程薩姆導彈通常部署在高價值資產附近，以提供點防御覆蓋，同時也有效地拒絕進入廣泛的空域。

反坦克元素的分布、分層和相互連接的性質允許采取深度防御戰略，允許進行多次交戰以增加成功的概率。許多對手采用集中的AD活動的C2，而其他對手可能采用分散的系統，其中多個節點有必要的冗余來指揮部分或整個IADS。數據基礎設施包括無線電、固定電話（電纜/光纖）、微波、蜂窩電話、衛星和互聯網系統[2]。

圖1.1顯示了一個概念性的IADS布局，其中幾個遠程防空導彈（LRS）站點被部署在兩個高價值的受保護資產（PA）的前方，以形成一個受保護的正面。LRS站點由兩個預警雷達和指揮、控制和通信（C3）站點支持，這些站點提供了對防御空域的綜合態勢感知。此外，每個PA都有一個LRS站點，提供點狀防御。圖中的橙色楔形代表了每個LRS的武器交戰區（WEZ）。

圖1.1: 國際防空系統的概念布局

顯然，本例中的防空系統是為了防御預計來自保護前線東南部某處的攻擊而布置的。

成功壓制敵方的防空系統可以通過多種方式實現。干擾通信系統和傳感器可以提供短期的局部壓制，如果足夠的話，或者作為一種臨時措施來實現所需的高階間接效果。破壞C3或EW資源，或迫使敵方反坦克部隊自主行動，有時可以充分降低對友軍的威脅程度，以獲得所需的空中優勢水平。然而，通常情況下，如果一個反坦克基地的自主行動能力繼續對友軍構成重大威脅，那么它本身就必須成為摧毀目標[3]。

1.2. 無人駕駛飛行器（UAV）蜂群

鑒于IADS的相互聯系和分層性質，DEAD任務需要一個作戰概念（CONOPS），以解決在整個有爭議的空域的不同點上具有不同能力的防御性武器。很少有單一的故障點可供利用。事實上，IADS的設計是隨著AD元件由于破壞、性能下降或彈藥耗盡而被關閉而優雅地退化。事實上，反坦克部隊包含先進的技術武器和為防御性反空襲任務而優化的傳感器，并由各級C2的人類決策來支持，這意味著反空襲任務可以以相當難以預測的方式展開。這些因素，再加上人命的高風險和稀缺的物質資源，使得在實現空中優勢的沖突中，減少友軍人員和高成本空中平臺面臨的損耗風險是可取的。因此，在爭奪空中優勢的競賽中，最好是用低成本的無人系統取代人類操作昂貴的載人空中平臺[4] 。

與傳統的機載打擊包相比，無人機群呈現出一系列獨特的特征，使其能夠以不同的方式執行DEAD任務。首先，如果蜂群是由大量的單位組成，它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大：雖然打擊包中單個有人平臺的損失可能會導致人的生命損失，但它也經常導致嚴重的損害。首先，如果蜂群由大量的單位組成，它可以實現更大的幾何多樣性。蜂群的規模也允許戰術上的多樣性。蜂群對損耗也很強大：雖然打擊包中單個載人平臺的損失可能導致人命損失，但它也經常導致任務結果受到嚴重影響。一個無人機群可以通過替換角色、調整戰術和調整目標來適應單個單位的損失。此外，由于蜂群的性質，由大量單位組成的蜂群更能適應不斷變化的條件：可用于執行行動的單位數量越多，可用于實現有利解決方案的自由變量數量就越多。

然而，由大量無人機組成的蜂群將很難由人類操作員協調和控制，除非每個人都由人類操作員單獨遠程駕駛。即使如此，操作者可用的數據的延遲和質量可能不足以完全實現最佳的合作行為，以支持動態DEAD任務。將人類飛行員與遠程控制的無人機裝置聯系起來，大大增加了該裝置的成本，因此也增加了整個任務的成本。一個（半）自主的蜂群的一大優勢是，生產和運營成本可能遠遠低于遙控無人機蜂群。因此，至少在某種程度上，無人機群將從某種類型的自主行為中大大受益。

蜂群中的每個無人機都有可能根據自己從環境中觀察到的信息以及蜂群中其他成員與它共享的信息，執行自主行動。為無人機群自主性開發行為算法的問題，很自然地被歸入多Agent學習領域，特別是合作多Agent學習。文獻中已經考慮了幾種技術來實現合作式多代理學習：團隊學習、混合團隊學習和并發學習[5]。基于代理的建模（ABM）是一種通過模擬相互作用的代理來理解系統的一般方法。

無人機群應用于DEAD任務問題的復雜、動態性質，肯定會導致多Agent系統中眾所周知的 "涌現的復雜性 "現象。這指的是這樣一個概念：隨著大量的Agent相互作用，特別是沖突雙方的Agent，每個團隊的聯合行為都會令人吃驚[5]。本研究沒有將其視為消極的副作用，而是表明這種現象導致了蜂群Agent行為的新穎性和信息量，特別是由于在DEAD任務領域中還沒有關于無人機蜂群作戰CONOPS的理論或戰術最佳實踐。

1.3.假設

除去隱身、電子攻擊、遠距離武器和嚴重不對稱的數量等昂貴的特征，無人機群能夠用來對付IADS的主要武器是它能夠在整個有爭議的空域中動態地擺出其各種成分，采用的戰術主要是調節攻擊時機、節奏和幾何表現。

本研究的假設是，通過使用ABM，可以通過機器學習（ML）發現無人機群代理行為的新型合作行為，產生一種認知Agent，即

1）在DEAD領域展示任務有效性（ME）。

2）等同于或超過由更多單位組成的 "啞巴"群體的有效性，例如一大排常規巡航導彈的有效性

3）對人類控制的對抗性IADS有效

一旦發現無人機群Agent的行為，顯示出對由算法控制的Agent組成的IADS成功執行DEAD任務，將通過實時戰略游戲（RTSG）對人類控制的IADS測試相同的蜂群Agent。這將允許對潛在的微妙的蜂群Agent策略進行定性，并評估蜂群Agent適應不同和變化的IADS防御策略的能力。

對行為學習的ABM的一個重要批評是，行為的學習是使用不能代表現實世界效果的模擬，也就是說，如果模擬環境走了太多的捷徑或做了簡化或不正確的假設，那么學到的行為就不會有現實世界的意義[6]。本研究的一個目標是在無人機DEAD領域開發適用于現實世界的CONOPS，因此對這一批評意見相當重視。為了克服這一潛在的缺陷，ABM學習的模擬環境將采取RTSG的形式。這為無人機群學習行為的結果提供了一個重要的檢查，原因有幾個。

1）基于物理學的DEAD任務模擬具有很高的保真度

a）無人機飛行動力學、飛行持久性、對各種目標的殺傷概率
b）AD傳感器探測、跟蹤、測量分辨率、信息共享
c）AD導彈攔截器飛行動力學、對無人機的殺傷概率

各種程序化的代理可以控制沖突的任何一方。無人機群或IADS

a) 這提出了不同的戰術、理論和難度水平

人類玩家可以控制沖突的任何一方：無人機群或IADS

a) 這為對手提供了創新的、不可預知的行為。

游戲玩法（DEAD場景）是高度可配置的

a) 這提出了不同級別的場景復雜性

實時戰略格式強制執行人類決策的及時性，這是問題領域的一個關鍵特征。
每個游戲環節都會捕獲非常豐富的狀態數據集

RTSG的性質也帶來了各種挑戰，例如取消了傳統的回合制游戲。這意味著代理人的決策必須實時發生，從一組不斷變化的環境輸入數據中工作。

1.4.本學位論文的組織結構

本論文分為13章和5個附錄。

第2章討論了任務有效性的概念，以及預測空中飛行器對由先進防空網絡防御的一組地面目標進行大規模突襲結果的分析方法。

第3章描述了為進行這項研究而采取的基于agent的模擬方法。

第4章記錄了用于訓練認知群agent的方法，描述了環境、agent和實體的模擬，并討論了有關基于agent的機器學習和游戲方法的現有文獻。

第5章描述了用于在強化學習過程中提供獎勵的目標函數的設計背景和發展。

第6章描述了用于蜂群單元的運動學模型。

第7章描述了用于防空傳感器和武器的物理學模型。

第8章描述了基本的非認知性蜂群agent的設計，這些agent被用來了解針對各種防空agent的基線任務有效性。

第9章描述了基本防空agent邏輯的設計，這些agent是認知蜂群agent在游戲訓練課程中競爭的對手。

第10章記錄了通過蒙特卡洛分析編制的基本非認知型蜂群agent的統計任務有效性。

第11章記錄了本研究中探索的各種實驗性認知蜂群agent的設計。

第12章記錄了對選定的認知蜂群agent學到的高效戰術的分析和評估。

第13章是論文的結論，總結了主要和次要的發現，并提出了繼續這項工作可能關注的領域。

付費5元查看完整內容

AI與軍事 · 反介入區域拒止（A2AD） · 自主巡航導彈 · 蜂群系統 · 美國空軍大學 ·

2022 年 9 月 11 日

[付費5元查看完整內容]《反介入區域拒止（A2AD）環境中自主巡航導彈蜂群行為的仿真》美國空軍大學2022最新69頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代綜合防空系統（IADS）所帶來的日益復雜的反介入區域拒止（A2AD）威脅，加上高端隱形平臺所提供的日益強大的優勢，促使美國空軍高級領導人投資于徹底改變2030年及以后的空中力量。這一新設想的一個突出因素是蜂群武器，其目的是通過用大量低成本、可損耗的航空資產來壓倒國際航空運輸系統，并通過自主能力來解決這一挑戰。這項研究提出了一個框架，按照三個獨立的維度對不同級別的自主能力進行分類，即單獨行動的能力、合作能力和適應能力。使用模擬、集成和建模高級框架（AFSIM）構建了一個虛擬作戰模型，模擬以有人駕駛的穿透式轟炸機和自主巡航導彈群為特征的友軍空襲包與以A2AD角色行動的敵軍IADS之間的交戰。通過使用自主性框架作為設計實驗的基礎，評估了不同水平的自主性對攻擊包性能的影響。對實驗結果的分析揭示了哪些方面和什么級別的自主性對促進這一模擬場景的生存能力和殺傷力最有影響。

1. 引言

1.1 動機和背景

戰爭的技術性質正在迅速發展，人們越來越重視對大量數據的收集、處理和決策。隨著指揮與控制（C2）決策空間的復雜性增加，指揮系統根據現有信息采取行動的速度越來越成為一個限制性因素。具有不同程度的人與系統互動的自主系統為緩解這一不足提供了機會。美國2018年國防戰略（NDS）[18]明確要求國防部（DoD）"廣泛投資于自主性的軍事應用"，作為促進大國競爭優勢的一項關鍵能力。

參與大國競爭的一個自然后果是反介入區域拒止（A2AD）環境在聯合沖突的所有方面擴散。從美國空軍（USAF）的角度來看，現代綜合防空系統（IADS）構成了卓越的A2AD威脅，這嚴重抑制了通過常規手段建立空中優勢的前景[2, 20]。這一挑戰促使部隊結構的優先事項發生了變化，因為將能力集中在相對較少的高端系統中的感知風險越來越大。美國空軍科學和技術戰略[26]設想，數量龐大的低成本、易受攻擊的航空資產將很快發揮曾經由數量有限的高價值資產完成的作用。這種大規模的蜂群的任務規劃和空戰管理（ABM）工作的規模可能很快超過人類的認知能力，這使得它成為非常適合自主性研究和開發的應用領域。

1.2 問題陳述

本研究試圖評估幾種自主巡航導彈群的行為對A2AD環境中藍方（友方）空中性能的影響。具體來說，所研究的A2AD場景考慮了紅方（對手）的IADS被藍方聯網的自主巡航導彈群吸引，以促進穿透式轟炸機的后續打擊。在任務規劃時沒有考慮到的突然出現的威脅，可能會進入該場景以增加紅色IADS的力量。蜂群必須在沒有外部反彈道導彈的幫助下，檢測并應對這些突發威脅以及任何其他對抗性任務參數的變化。A2AD場景的建模是使用模擬、集成和建模高級框架（AFSIM）完成的。

1.3 研究問題

為了解決問題陳述，本研究將對以下問題提供答案：

1.具有自主反彈道導彈能力的巡航導彈蜂群能在多大程度上提高藍方空襲包在A2AD環境下的生存能力（即避免被紅方IADS發現和摧毀的能力）？

2.具有自主反彈道導彈能力的巡航導彈群能在多大程度上提高A2AD環境下藍方空襲包的殺傷力（即探測和摧毀紅方IADS元素的能力）？

1.4 論文的組織

本論文的其余部分包含四章，組織如下：第二章對包括自主性、A2AD環境、基于代理的建模和仿真（ABMS）以及實驗設計（DOE）等主題的參考材料進行了回顧。第三章建立了A2AD場景、AFSIM模型實現和實驗設計的結構，作為本研究的框架。第四章介紹了實驗模擬運行的結果和附帶的分析。最后，第五章討論了從這項研究中得出的結論，以及對未來研究方向的建議。

付費5元查看完整內容

AI與軍事 · 兵棋推演 · 無人駕駛飛行器 · 無人機編隊 · 巴西航空技術學院 ·

2022 年 9 月 6 日

[付費5元查看完整內容]《兵棋中無人駕駛飛行器戰術編隊的優化》巴西航空技術學院等2022最新論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

兵棋模擬是一種決策工具，可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近，無人駕駛飛行器（UAVs）已經成為這些模擬中的一個相關元素，因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如，容許戰術編隊中的飛機損失，有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素，無人機在超視距（BVR）作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性，如射擊距離和位置，使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊，稱為line abreast，作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊，以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序，將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里，并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。

索引詞：優化方法，計算機模擬，無人駕駛飛行器（UAV），自主智能體，決策支持系統，計算智能。

I. 引言

兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲，用于分析作戰概念，訓練和準備指揮官和下屬，探索情景，并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用，為參與者提供了對決策過程和壓力管理的洞察力[1]。

最近，無人駕駛飛行器（UAVs）作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此，它們的有效性經常在兵棋中被測試和評估。

由于具有一些性能上的優勢，如增加敏捷性、增加過載耐久性和增加隱身能力，無人機已經逐漸發展起來，并在許多空中任務中取代了有人系統[3]。然而，由于戰斗的動態性質，在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中，無人機可以被遠程控制，但由于無人機飛行員對形勢的認識有限，它將在與有人平臺的對抗中處于劣勢。然而，這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外，使用無人機可以允許一些戰術編隊和戰略，而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的，例如允許中隊的飛機被擊落，如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距（BVR）作戰中的飛機戰術編隊的文章[5]表明，空戰戰術是用遺傳算法（GA）進行優化的候選方案。該實施方案采用分層概念，從小型常規作戰單位建立大型編隊戰術，并從兩架飛機的編隊開始，然后是四架飛機，最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區（WEZ）的高殺傷概率（Pkill）區域內一段特定時間，簡化的交戰模擬器就宣布傷亡。事實證明，所提出的方法的應用是有效的，它消除了團隊中所有沒有優化編隊的飛機，并為整個優化編隊的飛機團隊提供了生存空間。

Keshi等人[6]使用了與[5]相同的分層概念，從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法（SAGA）被用來優化編隊，使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化，提出的最優解表明SAGA比基本的GA更有效。最后，為了探索一個穩健的SAGA，對不同的馬爾科夫鏈進行了比較，事實證明自調整馬爾科夫電流更適合所提出的問題。

Junior等人[7]提出使用計算機模擬作為一種解決方案，以確定BVR空戰的最佳戰術，使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模，并改編了名為COMPASS的模擬優化算法，模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明，擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈，并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。

Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法，即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先，計算戰斗機的戰斗力，這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來，包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此，通過采用前景理論和綜合模糊評估來優化空戰訓練。最后，一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱，利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。

?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器（UCAVs）進行空戰的決策方法。首先，確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后，每個航空飛行器被分配到一個目標，以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法；因此，該方法在一個數字案例上進行了測試，并證明了其有效性。

Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃（CTAPPP）問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后，訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置，發射武器裝備。合作目標分配（CTAP）問題通過增強型粒子群優化（IPSO）、蟻群算法（ACA）和遺傳算法（GA）來解決，并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃（CPPP）問題，其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子，并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。

Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組（R和B）無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化（離散化），通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈，并被解決以獲得納什均衡。

Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發，因此也影響到最終的結果。例如，如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬，新的沖突可能會發生，直到模擬結束。因此，每個在交戰中幸存的無人機將能夠選擇一個新的目標，這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的：它們直接影響飛機之間的交戰結果。

在這項研究中，我們試圖解決文獻中發現的一些局限性，如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認，旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究，RED蜂群使用了空軍經常采用的戰術編隊，稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性，我們解決了新的問題，改變了RED蜂群每架飛機的位置，目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。

我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊，考慮與敵人相關的不確定性，如戰術編隊中的位置誤差和導彈發射距離。統一行為框架（UBF）被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度（DoFs）建模。

該程序將在接下來的章節中進一步討論。

付費5元查看完整內容

AI與軍事 · 無人飛行器 · 馬爾科夫決策過程 · 強化學習 · 人工智能 ·

2022 年 7 月 20 日

[付費5元查看完整內容]《帶有障礙物和隨機目標到達的無人駕駛飛行器路由問題的近似動態規劃》美國空軍學位論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國空軍正在投資人工智能（AI）以加速分析，努力使自主無人駕駛戰斗飛行器（AUCAVs）在打擊協調和偵察（SCAR）任務中的使用現代化。這項研究探討了AUCAV在SCAR任務中執行目標打擊和提供偵察的能力。一個定向問題被制定為馬爾可夫決策過程（MDP）模型，其中一個AUCAV必須優化其目標路線，以幫助消除時間敏感的目標，并收集所要求的指定興趣區域的圖像，同時躲避作為障礙物的地對空導彈（SAM）電池威脅。AUCAV根據SAM電池和目標進入戰斗空間的位置來調整其路線。開發了一種近似動態規劃（ADP）的解決方案，其中數學規劃技術與成本函數近似（CFA）政策一起被用來開發高質量的AUCAV路由政策，以提高SCAR任務的性能。CFA政策與確定的重復定向問題（DROP）基準政策進行了比較，在四個實例中探討了動態目標和SAM電池的不同到達行為。當AUCAV被分配到120分鐘來完成它的任務，并且防空導彈電池到達戰斗空間時，結果顯示，所提出的CFA政策優于DROP政策。總的來說，擬議的CFA策略在所有四種情況下的表現幾乎與DROP策略相同或更好。

關鍵字：馬爾科夫決策過程（MDP）、近似動態規劃（ADP）、強化學習（RL）、人工智能（AI）、定向問題（OP）、車輛路由問題（VRP）、目標定位、成本函數近似（CFA）、直接前瞻近似（DLA）、網格自適應直接搜索（MADS）

I. 引言

根據美國國防部長（SecDef）的說法，美國（US）軍隊近期的重點是將目前的 "能力現代化，以應對未來的先進威脅"，并確保美國軍隊仍然是 "世界上最杰出的戰斗力量"（國防部，2021）。國防部長的重點可以通過美國國防部（DoD）有效調整其資源以應對不斷變化的威脅來實現（國防部，2021）。本論文支持國防部未來的首要任務，這些任務涉及使用自主無人駕駛作戰飛行器（AUCAVs）來壓制敵方防空（SEAD）和打擊任務。這些優先事項包括人工智能（AI）、偵察機能力、作戰司令部（COCOM）策略和威懾對手方面的進步。通過開發用于AUCAV路徑規劃和目標選擇的近似動態規劃（即基于模型的強化學習）算法，我們可以探索空軍打擊深度、時間敏感目標和威懾對手的能力，與國防部的主要倡議直接保持一致（國防部副部長（主計長）/首席財務官辦公室，2021）。這些資產的一個共同點是它們都對司令部的任務至關重要，并且可以與AUCAV打擊高價值目標的能力一起工作。

1.1 美國防部的舉措

AUCAV有多種方式可以用來支持COCOM的任務。一種獨特的方式是對時間敏感目標（TST）的位置進行偵察，使其他盟軍飛機或地面資產能夠打擊該目標。第五代F-35可以在不被發現的情況下遠距離攻擊地面目標，包括地對空導彈（SAM），并使用精確武器成功完成空對地任務（Military Advantage, 2014）。AUCAVs對薩姆導彈可能沒有那么有效，可能會被它們擊落。然而，AUCAVs有能力對要求命名的興趣區（NAIs）或更適合其他軍事資產打擊的目標類型進行偵察，如F-35或B-52。

F-15EX是美國國防部批準的項目，與F-35不同，它不是隱形的，不能在敵后不被察覺。然而，空軍已經考慮將F-15EX與隱形戰斗機配對，并將這對戰斗機作為遠程空對空導彈發射平臺（Mizokami，2021）。盡管F-15EX也有能力進行空對地打擊，但該機的主要優勢在于其雷達和攜帶大量武器載荷的能力，包括二十多枚空對空導彈或高超音速武器（Mizokami, 2021）。這種作戰能力是需要考慮的，因為將一架隱身飛機（如F-35）與一架不具備相同屬性的飛機（如F-15EX）配對，以完成時間敏感的目標打擊任務，作為AUCAV的目標確認能力的結果，可能會達到優越的性能。

在每個COCOM的責任區（AOR），指揮官要求提供NAI和高價值目標打擊的圖像。假設沒有能夠擊落AUCAV的敵方威脅（例如，防空導彈炮臺），AUCAV可以滿足指揮官的要求。然而，這種假設忽略了一個現實，即敵人可能會施加障礙，嚴重影響精心策劃的任務。路徑規劃必須結合禁飛區（NFZ）的情報信息，以達到避免威脅的目的。本論文討論的近似動態規劃（ADP）算法將探討未預見的NFZ或戰斗區（例如，由于防空導彈電池）如何影響AUCAV的目標選擇，以及AUCAV如何隨著時間的推移學會避免這些區域。

美國軍方已經對使用JDAMs打擊目標的無人駕駛作戰飛行器（UCAV）進行了作戰測試和評估（OT&E）（Butler and Colarusso, 2002）。因此，本論文假設AUCAVs使用JDAMs來打擊高價值目標。JDAM能夠使用從聯合監視目標攻擊雷達系統（JSTARS）傳送的飛行中目標更新（IFTU）信息單獨指向其目標（Butler and Colarusso, 2002）。已經完成的測試表明，使用負擔得起的移動水面目標攻擊系統（AMSTE）而不是JSTAR，使UCAV打擊移動目標的能力大大增強。這一發展應作為后續工作進一步探討，但在本論文中不會詳細討論。

美國特種作戰司令部（USSOCOM）正在投資人工智能（AI）以加快分析速度（國防部副部長（主計長）/首席財務官辦公室，2021）。這篇論文的重點是建立一個人工智能算法，使戰斗指揮部，如USSOCOM，能夠及時有效地執行目標打擊，并對要求的國家情報機構進行偵察。除各司令部外，聯合情報支援部隊（JISE）和聯合特遣部隊（JTF）也依賴偵察機，這是因為他們在管理各種形式的偵察和監視敵人方面的作用，這些偵察和監視對了解情況、確定目標和合適的目標以及向部隊提供警告是必要的（國防部，2018a）。如果目前的AUCAV路徑規劃AI算法得到改進，所有這三個適用的軍事組織都可以提供更多的情報信息，從而在目前的限制性資源（如燃料容量、彈藥或在戰區的時間）下，產生更多的目標打擊和NAI的圖像。

1.2 空軍關于目標選擇的學說

鎖定目標是一項指揮職能，需要指揮官的監督和參與，以確保正確執行（美國空軍部，2019年）。它不是某類專業或部門的專屬領域，如情報或行動，而是融合了許多學科的專業知識（美國空軍部，2019）。本論文通過將AUCAV任務前收到的情報與美軍的聯合、戰術和空軍理論相結合，探索這種專業知識的融合。最好同時考慮聯合學說和空軍學說，以更好地理解空軍如何定義目標。根據聯合學說，目標是一個實體或物體，被視為可能的交戰或其他行動（國防部，2018b）。實體可以被描述為設施、個人、虛擬（非物質）事物、設備或組織（美國空軍部，2019）。

有兩類目標：故意的和動態的（美國空軍部，2019年）。當有足夠的時間將目標添加到空中任務單或其他計劃中時，故意瞄準適用。蓄意的目標定位包括計劃由待命資源攻擊的目標。動態目標定位包括那些發現得太晚或沒有及時選擇而被列入蓄意目標定位的目標，但當發現或定位時，符合實現目標的特定標準。

本論文試圖確定AUCAV的最佳路線，以選擇故意和動態目標的組合。AUCAV進入戰斗空間時，有一組要求攻擊或偵察的故意目標。一旦進入戰斗空間，AUCAV就會遇到新的目標請求（即動態目標到達），必須重新計算其最佳目標選擇路線，并考慮到新到達的目標。

需要特別考慮的兩個目標子集是敏感和時間敏感（Department of the United States Air Force, 2019）。敏感目標是指指揮官估計在軍事行動中發生的對平民和/或非戰斗人員、財產和環境的實際影響和附帶影響超過既定的國家級通知門檻的目標（Department of Defense, 2018b）。敏感目標并不總是與附帶損害相關（美國空軍部，2019）。它們也可能包括那些超過國家一級交戰規則閾值的目標，或者作戰指揮官確定打擊目標的效果可能會產生不利的政治影響（美國空軍部，2019）。時間敏感目標是聯合部隊指揮官確認的目標或需要立即做出反應的目標集，因為它們是高度有利可圖的、轉瞬即逝的機會目標，或者它們對友軍構成（或即將構成）危險（國防部，2018b）。

這篇論文的重點是AUCAV對時間敏感的目標進行打擊，并對可能包括敏感目標的NAI進行偵察，同時避開代表薩姆電池威脅區的NFZ。這是通過使用ADP方法、整數規劃技術和馬爾科夫決策過程（MDP）模型框架解決具有隨機目標到達的無人駕駛飛機定向問題，同時避開障礙物來實現的。車輛路由問題MDP模型框架被用來對AUCAV的目標選擇進行基線分析，同時避開障礙物（即防空導彈電池），并確定哪些時間敏感的目標應該在指定的時間段內被摧毀。然后，采用CFA策略的ADP解決方法來優化AUCAV的目標路線，在做決定時利用未來動態時間敏感目標和障礙物到達的預測位置。

本論文的其余部分的結構是：第二章討論類似于具有隨機目標到達的自主車輛定向問題的文學作品，第三章討論問題的制定框架和解決方法，第四章討論計算測試和結果，第五章討論結論。第二章從ADP的角度詳細探討了具有隨機到達、服務時間和等待時間的類似路徑規劃問題。第三章對用于建模和解決問題的方法進行了深入探討。第4章揭示了分析的結果和建議。第5章是本論文的結論，提出了為AUCAV選擇目標和躲避敵人威脅而產生改進的解決程序的未來建議。

付費5元查看完整內容

AI與軍事 · 強化學習 · 團隊空戰 · 美國空軍 · 自主無人作戰飛行器 ·

2022 年 7 月 15 日

[付費5元查看完整內容]美國空軍大學《使用基于模型的強化學習進行團隊空戰》100頁學位論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在可視范圍內執行空戰，需要飛行員在接近1馬赫的飛行速度下，每秒鐘做出許多相互關聯的決定。戰斗機飛行員在訓練中花費數年時間學習戰術，以便在這些交戰中取得成功。然而，他們決策的速度和質量受到人類生物學的限制。自主無人駕駛戰斗飛行器（AUCAVs）的出現利用了這一限制，改變了空戰的基本原理。然而，最近的研究集中在一對一的交戰上，忽略了空戰的一個基本規則--永遠不要單獨飛行。我們制定了第一個廣義的空戰機動問題（ACMP），稱為MvN ACMP，其中M個友軍AUCAVs與N個敵軍AUCAVs交戰，開發一個馬爾可夫決策過程（MDP）模型來控制M個藍軍AUCAVs的團隊。該MDP模型利用一個5自由度的飛機狀態轉換模型，并制定了一個定向能量武器能力。狀態空間的連續和高維性質阻止了使用經典的動態規劃解決方法來確定最佳策略。相反，采用了近似動態規劃（ADP）方法，其中實施了一個近似策略迭代算法，以獲得相對于高性能基準策略的高質量近似策略。ADP算法利用多層神經網絡作為價值函數的近似回歸機制。構建了一對一和二對一的場景，以測試AUCAV是否能夠超越并摧毀一個優勢的敵方AUCAV。在進攻性、防御性和中立性開始時對性能進行評估，從而得出六個問題實例。在六個問題實例中的四個中，ADP策略的表現優于位置-能量基準策略。結果顯示，ADP方法模仿了某些基本的戰斗機機動和分段戰術。

付費5元查看完整內容

AI與軍事 · 運籌學 · 人工智能 · 自主無人作戰飛行器 · 空戰機動 ·

2022 年 6 月 23 日

[付費5元查看完整內容]《通過運籌學和人工智能方法研究空戰機動策略》美國空軍技術學院

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在可視范圍內的空戰涉及執行高度復雜和動態的活動，需要快速、連續的決策以生存和擊敗對手。戰斗機飛行員花費數年時間來完善交戰戰術和機動動作，然而不斷出現的無人自主飛行器技術引起了一個自然的問題--自主無人作戰飛行器（AUCAV）能否被賦予必要的人工智能，以獨立完成具有挑戰性的空戰機動任務？我們制定并解決了空戰機動問題（ACMP），開發了一個馬爾可夫決策過程（MDP）模型來控制一個尋求摧毀對手飛行器的AUCAV。該MDP模型包括一個5自由度、點質量的飛機狀態轉換模型，以準確表示機動時的運動學和能量。ACMP中狀態空間的高維和連續性質使得經典的解決方法無法實施。相反，我們提出了一種近似動態規劃（ADP）方法，其中我們開發并測試了一種近似的策略迭代算法，該算法實現了神經網絡回歸，以實現AUCAV的高質量機動策略。為了計算測試的目的，我們指定了一個有代表性的攔截場景，其中AUCAV的任務是保衛一個責任區，必須與試圖穿透保衛空域的敵方飛機交戰并摧毀它。進行了幾個設計實驗，以確定飛機特性和對手的機動戰術如何影響擬議ADP解決方案的功效。此外，設計的實驗使高效的算法超參數調整成為可能。ADP生成的策略與目前ACMP文獻中發現的兩個公認的基準機動策略進行了比較，一個只考慮位置，一個同時考慮位置和能量。在調查的18個問題實例中，ADP策略在18個實例中的15個超過了只考慮位置的基準策略，在18個實例中的9個超過了位置-能量基準策略，在最能代表典型空中攔截交戰的問題實例中獲得了更好的殺傷概率。作為一個有趣的探索，以及對我們方法的定性驗證，由ADP策略產生的機動與標準的、基本的戰斗機機動和常見的特技飛行機動進行了比較。結果表明，我們提出的ADP解決方法產生了模仿已知飛行動作策略。

付費5元查看完整內容

AI與軍事 · 強化學習 · 空戰動作生成 · 論文 · 伊斯坦布爾理工大學 ·

2022 年 6 月 19 日

[付費5元查看完整內容]基于強化學習的空戰動作生成

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

人工智能技術的出現為空戰領域的許多研究鋪平了道路。學術界和許多其他研究人員對一個突出的研究方向進行了研究，即無人機的自主機動決策。形成了大量研究成果，但其中基于強化學習（RL）的決策更有效。已經有許多研究和實驗使agent以最佳方式到達目標，最突出的是遺傳算法（GA），A*，RRT和其他各種優化技術已經被使用。強化學習因其成功而廣為人知。在DARPA阿爾法斗狗試驗（Alpha Dogfight Trials）中，強化學習戰勝了由波音公司培訓的真正的F-16人類老飛行員。這個模型是由Heron系統公司開發的。在這一成就之后，強化學習帶來了巨大的關注。在這項研究中，將無人機作為目標，該無人機有一個杜賓斯車動態特性，在二維空間中使用雙延遲深確定策略梯度（TD3）以最佳路徑移動到目標，并用于經驗回放（HER）。首先，它的目的是讓agent采取最佳路徑到達目標，過程中有障礙物。在每個情節中，我們的agent從一個隨機點開始，我們的目標是穩定的，其位置沒有變化。它以最佳和快速的方式找到自己的路徑。然后，為了測試機制的極限，使我們的agent更難達到目標，并使其執行不同的機動性，我們添加了障礙物。它表現得很好，克服了所有的障礙。現在的研究是讓兩個無人機作為多agent在二維空間進行斗狗。這篇研究論文提出了一種運動規劃的算法，它使用了雙延遲深度確定性策略梯度（TD3），這是一種為具有連續行動的MDP定制的算法，使用強化學習作為基礎。

付費5元查看完整內容

AI與軍事 · 美國海軍 · 報告 ·

2022 年 6 月 10 日

[付費5元查看完整內容]美國海軍航空遠景 2030-2035年規劃：海軍航空的未來先進技術

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國防戰略（NDS）確定了一個復雜的全球安全環境，其特點是對當前國際秩序的公開挑戰和國家間長期戰略競爭的重新出現。它要求建立一支致命的、靈活的、有彈性的和可快速部署的部隊，以對抗、威懾和贏得對所有對手的勝利。海軍執行CNO的指導，以我們的海上控制和力量投射的核心原則以及前瞻性的艦隊設計概念為中心，開展分布式海上作戰（DMO），提供NDS所需要的強大海上組成部分。作為NDS的組成部分，海軍航空兵強烈關注更新現有能力，使新的先進平臺投入使用，并通過加強戰術和程序來補充今天的作戰能力，以應對高端戰斗。

今天的航母攻擊群（CSG）--以大甲板、核動力航空母艦及其搭載的艦載機聯隊為中心--通過為艦隊指揮官提供多領域的軍事力量來實現這一創新的艦隊設計。艦載機在殺傷力、戰斗空間態勢和機動性方面為任何海上戰場帶來了無可比擬的貢獻，確保了海軍建立和維持海上控制、實現海上優勢和遠距離投射力量的能力。

海軍的固定翼和旋翼飛機、有人和無人飛機構成了世界上分布最廣的航空平臺，為CSG、遠征打擊群（ESG）和水面艦艇提供支持，提供廣泛的支持性任務。

《海軍航空遠景2030-2035年規劃》取代了《海軍航空遠景2025年規劃》，并反映了一些關鍵概念，以滿足CNO對海軍的愿景，即在海面上一擁而上，在每個軸心和每個領域提供同步的致命和非致命努力。

當海軍計劃建立和維持一支致命的、有彈性的部隊時，必須要有一個明確的路線圖，與此同時，也要有一個明確的計劃。

未來的技術

鑒于威脅快速發展，海軍航空必須投資并追求先進的技術和作戰概念，以便在戰爭的戰役層面上取得成功。美國防部長奧斯汀指出："盡管在過去30年中進行了兵力結構的削減，但聯合部隊有必要的能力和實力來實施國防戰略（NDS）的優先事項并應對今天的威脅。在國會的支持下，國防部將通過繼續投資聯合部隊的戰備和部隊現代化，以及加快對人工智能（AI）、機器學習（ML）和其他先進技術的投資，提高聯合部隊的戰斗潛力。這些投資，加上盟友和合作伙伴的合作，將優化部隊結構，產生一支能夠威懾或擊敗對手的有戰斗力的聯合部隊。"

海軍航空的先進技術包括：

無線電頻率（RF）和紅外線（IR）信號降低技術
增強被動和主動殺傷鏈
載人/無人機組隊（MUM-T）
- MUM-T減少了駐扎在CVW內的有人飛機的風險，同時也提高了性能、容量和生存能力。無人機系統（UAS）將在未來的機翼和分布式水面艦隊中扮演不同的角色，如加油、通信中繼、后勤、空中電子攻擊、打擊和ISR&T等任務。
- MQ-25將是海軍第一個基于航空母艦的無人平臺，并將增加CVW的殺傷力和覆蓋范圍，作為一個油輪，它具有輔助ISR作用。
- MQ-4C "海獅"在2020年1月實現了早期作戰能力（EOC），通過人機和自主團隊提供持久的海上ISR&T。它將按計劃在2023年實現初始作戰能力（IOC）。當與任務管理工具配對時，如Minotaur與IFC 4多信息配置，"海獅"將提供傳感器的敏捷性，以定位、跟蹤、分類、識別和報告感興趣的目標。
- MQ-8C "火力偵察兵 "無人機系統將在不久的將來首次部署先進的雷達、Link 16和Minotaur任務系統。
- 正在推進物資和非物資解決方案，以加強MQ-8、MH-60和瀕海戰斗艦之間的互操作性。納入Link 16的信息傳遞以及Minotaur的整合，將提高分布式水面艦隊的有機瞄準能力，并提高戰斗空間態勢感知。
提高速度和射程--推進器解決方案在為先進任務系統提供動力和冷卻的同時，還能提高速度、射程和續航能力（即可變循環發動機）。
長距離、高容量和高超音速武器--下一代武器不僅要擴大空對空和地對空的覆蓋范圍，而且要同時擊敗機動空中目標和地對空防御。這可以通過增加運動量（即高超音速）和/或其他破壞性技術（如定向能武器）來實現。
減少決策時間--通過納入自動化、最佳機組-機隊交互和利用人工智能（AI）和機器學習（ML）的團隊化有人/無人部隊，推動戰術的簡單化。
電磁機動戰（EMW）能力--對抗敵人殺傷鏈和防空系統的能力。
網絡能力--對抗敵方網絡效應的能力，同時加強網絡能力和平臺。
先進的網絡--海軍戰術網格（NTG），具有彈性的可生存的波形。
福特級航空母艦--設計用于支持這些和其他技術到未來的發展。

在海軍航空部門實現這些技術革新的過程中，與工業界合作是至關重要的。與商業企業合作必須包括對開放架構的明確需求，避免獨特和專有的硬件和軟件，以及開發、測試和實施，推動分段而不是整體的變化。這種聯盟和合作將在正確的時間為正確的理由加速正確的變革。

海軍航空2030-2035遠景

"我們的武裝部隊作為世界歷史上最有能力的軍隊，已經配備了人員、訓練、裝備，并準備好響應國家的號召。" -美國防部長勞埃德-J-奧斯汀三世

當海軍航空展望未來時，很明顯正面臨著一個快速演變的威脅，需要大量的部隊現代化。領導層必須采取大膽的行動并做出艱難的選擇，以產生在各種沖突中獲勝所需的變化。這將需要重新關注海軍所需的能力、容量、戰備和訓練，以提高和保持作戰優勢。

海軍航空將接受可負擔性。通過明智地應用資源和進化的投資戰略，海軍航空2030-2035年遠景規劃概述了一種在所有戰爭領域提供完整的殺傷鏈的方法，有助于在未來幾年內保證進入、權力投射和海上控制。今天為2035年開發和采購的航空機隊是一個混合體：互補的第四代和第五代飛機；NGAD FOS；有人和無人平臺；以及網狀的傳感器和武器，以確保海軍能夠決定性地擊敗日益先進的近距離威脅。海軍航空兵必須能夠用下一代飛機在更遠的距離和更快的速度對任何目標提供精確的效果。

如果我們堅持這一愿景，海軍航空兵將能夠整合海基和陸基飛機--有人駕駛和無人駕駛--以提供一支持久、靈活、可調整的部隊，具有提供穩定存在、緩和地區緊張局勢或使用武力向我們的對手施加代價的靈活性和響應性。

縱觀其歷史，海軍航空兵一直處于海戰的戰術、作戰和戰略創新的前沿。空軍司令部的設想延續了這一傳統，并保留了海軍航空兵給我們國家帶來的作戰優勢。

付費5元查看完整內容

AI與軍事 · 美國空軍 · 武器采購生命周期 ·

2022 年 6 月 8 日

[付費5元查看完整內容]破舊立新：美國空軍的高效決策和有效系統

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

本研究論文使用問題解決框架，研究了美國武器系統如何在采購生命周期的操作和支持階段陷入持續的陳舊和停滯循環，并提供了解決這種情況的方案。一些美國武器系統保持著它們最初在幾十年前投入使用時的能力。關鍵的發現，如厭惡風險的文化、系統要求低于計劃目標備忘錄的切割線、對財務指導的誤解、嚴格的維持法規、繁瑣的采購流程以及高于必要的決策，都被認為是導致根本問題的原因。這篇研究論文提出了幾個解決方案，解決了部分包容性的問題。對解決方案的整體可行性、對作戰人員的好處以及與實施相關的任何潛在風險進行了權衡。最后的建議包括鞏固和利用財務條例對作戰人員的好處，允許增加運營和維護資金的靈活性，允許在F3I重新設計中增加靈活性和性能，盡可能利用領先的商業技術，以及改變維持的心態，從保持準備狀態到保持相關性。結論強調，美國空軍在技術上落后于近似對手，高級領導人必須像對手一樣思考，以確保美國的法規不會抑制空軍比敵人更快地穿越OODA循環的能力。

引言

自朝鮮戰爭以來，美國在每次交戰中都保持著空中優勢；然而，一些跡象表明，空中優勢在未來的沖突中可能不再有保障。據報道，他們最新的S-500防空導彈系統成功擊中了近300英里外的目標。中國在過去十年中對其軍事進行了大量投資，現在已經達到了一個關鍵的自信點。

這個問題可能源于美國如何運作和資助其軍事項目。美國空軍將 "維持 "定義為維持一個武器系統的現有基線能力。任何改進武器系統超過其現有性能閾值的手段都被認為是開發工程的努力，需要從研究開發測試和評估（RDT&E）撥款中獲得資金。許多系統一旦投入使用就不會獲得RDT&E資金，通常在其生命周期的剩余時間內由運營和維護（O&M）撥款資助。由于對現行財務條例的嚴格解釋，財務經理通常會拒絕使用運營和維護資金來提高系統能力和應對不斷變化的威脅的創造性努力。這使得綜合產品小組（IPTs）沒有什么選擇，只能對他們的武器系統進行意義不大的改變，以保持它們在操作上的相關性。

美國不僅在做錯誤的財務決定，而且在做這些決定時也很緩慢。在過去的幾十年里，采購時間周期已經增加。據美國空軍高級領導人目前的估計，從授予合同到投入使用一個系統的時間超過10年。美國的對手在采購周期上的運作速度至少是其兩倍。在過去的二十年里，一些主要的國防采購項目（MDAP）已經被取消。事實上，國防部（DOD）已經在那些永遠不會投入使用的項目上花費了超過460億美元。

為了解決這個問題，新的倡議，如第804條快速采購和破解國防部5000號文件正受到相當大的關注。雖然它們不能解決撥款問題，但它們試圖縮短采購時間周期。在幾十年來成本成為采購決策的主要因素之后，速度現在被強調為主要考慮因素。使用問題/解決方案框架，本文將研究美國武器系統是如何陷入陳舊和停滯的循環中的，以及可以實施哪些解決方案來有效維持美國武器系統。

本文將首先闡明這個問題，描述綜合維持活動組（CSAG）和空軍維持中心（AFSC）內的幾個低效的供應鏈政策。然后，它將討論系統過時和對商業技術的依賴，接著是國防部緩慢的采購過程。問題部分最后將詳細分析當前的撥款限制以及美國空軍的幾個文化問題。

解決方案部分將首先定義具體的評價標準。該文件將提出幾個潛在的解決方案，以及建議的行動。然后將根據規定的標準對每個解決方案進行詳細評估，包括實施中的任何潛在風險。還將討論其他被考慮但未被推薦的解決方案。最后，本文將對問題進行快速總結，提出最終建議，以及為什么這項研究與美國空軍有關。

付費5元查看完整內容

AI與軍事 · 北約“用于混合軍事行動的人工智能、機器學習和大數據（AI4HMO） ”研討會 · 論文 · 強化學習 · 機器學習 ·

2022 年 5 月 2 日

[付費5元查看完整內容]【AI+軍事】附論文《在戰術模擬環境中從基于規則的行為模型過渡到基于學習的行為模型：一個案例研究》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

由HAVELSAN公司開發的虛擬環境中的部隊（FIVE）模擬器軟件，利用各種虛擬戰爭設備（如武器、傳感器和通信工具等），以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前，管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而，FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導，因此是高度勞動密集型。此外，這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外，具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此，在這項研究中，我們通過強化學習技術和其他機器學習技術，即FIVE-ML項目，提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此，我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察，用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中，我們還發現，在強化學習之前，利用監督學習作為起點，可以大大減少訓練時間，并創造出更真實的行為模型。

引言

今天，培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的，原因包括空域法規、過高的成本和訓練中可能出現的風險，以及創造真實世界場景的復雜性，包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬，飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制，通常被命名為計算機生成的部隊（CGF）[1]，它們是代表空中、陸地或海上防御或攻擊系統的自主單位。

CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用（或每個場景）進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練，降低了訓練的質量。當需要新的場景時，需要專家來創建新的場景。此外，由于情景創建將使用經典的控制分支進行，在創建新情景的過程中，考慮所有的可能性往往是不可行的，即使是可能的，也是一項相當有挑戰性的任務。由于這些原因，人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界，以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。

在這項研究中，提出了向以人工智能為導向的行為建模過渡，而不是傳統的特定場景建模，以此來解決前面描述的問題。換句話說，虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先，他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后，它必須識別他的隊友和敵人，并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作，采取團隊行動。

為虛擬資產添加智能的機器學習的首選方法是強化學習（RL）[2]，其根本原因是：實體將采取的行動有延遲的后果。近年來，與傳統的控制方法相比，RL被認為是解決復雜和不可預測的控制問題的新方法，并在許多領域得到利用，如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念（即深度RL[10]）后，文獻中的研究得到了提升，如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。

為了這個目的，在這項研究中（即FIVE-ML），已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出，用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外，模仿學習[16]、[17]和RL的聯合實施也取得了成功，這加快了FIVE軟件的完整過渡過程。

可以預見，通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后，將設計一個新的系統，允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此，飛行員候選人將有機會針對智能實體發現的新策略來發展思路，而不是滿足于該領域的專家的知識和經驗。此外，從一個經過大量努力準備的場景機制，計算場景自動化機制將使整個過程自動化。

付費5元查看完整內容