亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多智能體系統在解決復雜和動態領域的問題方面顯示出巨大的潛力。這種系統由多個單獨的實體組成,稱為智能體。系統的整體行為是由其組成的智能體的許多相互作用產生的。大多數研究的系統由同質的智能體組成,它們擁有相同的行為或物理形式。然而,最近的工作表明,擁有不同行為或形式的異質智能體可以提高系統性能。這項研究考察了異質性對多智能體系統有效性的影響,并研究了多智能體系統在聯合武器戰中的應用,聯合武器戰同時應用異質單位類型來完成軍事目標。數百個形態上同質和異質的多Agent團隊被演化出來,并對其完成某些目標的能力進行評估。結果表明,沒有一個團隊配置在所有情況下都表現出色,在異質和同質配置之間轉換的能力對團隊的成功比任何配置的異質性更重要。結果進一步表明,美國海軍陸戰隊理論中描述的聯合武器戰術可以從簡單的、分散的智能體的互動中產生,表明該領域的未來研究可能被證明對聯合武器戰爭的軍事藝術有價值

引言

1.1 問題背景

現代聯合武器理論要求同時應用多種武器類型,以達到大于其各部分之和的效果[1, 2]。復雜適應性系統(CASs)的研究人員對這句話很熟悉,它是一種涌現的語言,通過這種現象,一個相對簡單的智能體系統表現出復雜的總體行為,從而創造出 "小中見大 "的效果--大于其部分之和[3, 4, 5]。約翰-博伊德(John Boyd)的工作是基于當前的聯合軍備理論,他將武裝部隊視為由處于不同角色的自主單位組成的復雜網絡,并借鑒了CAS文獻來發展其戰爭理論[6]。對博伊德來說,每個軍事單位都填補了一個專門的利基,有助于整體的運作,因此,發展一支有效的聯合武器部隊是一個多智能體系統工程問題。在這樣的問題中,每個智能體必須被設計成通過與同伴的互動,在系統層面上幫助產生一些理想的特征。例如,戰斗的勝利是軍隊的一個理想特征,每個士兵的訓練和裝備都是針對贏得戰斗的整體任務。

聯合武器部隊具體來說是一個異質的多智能體系統。異質性一詞表示智能體之間在形態上、行為上或兩者上的差異。形態上的異質性指的是物理特性上的差異,而行為上的異質性指的是智能體對感知數據的行為方式上的差異。因此,形態上的異質性智能體就像坦克與飛機或警犬與警察一樣不同。行為上的異質性智能體不同,就像兩架相同的飛機在執行任務時可能扮演不同的角色,或者一個士兵可能在另一個士兵前進時提供火力掩護[3, 7]。

聯合武器戰爭的歷史提供了許多異質系統的例子,從古代的小兵、步兵和騎兵的聯合編隊到現代空軍的復合翼概念[8, 9]。現代計算機模擬和人工智能(AI)的研究提供了新的機會,通過建模和評估部隊的組成和戰術來推進聯合武器理論。最近的研究表明,智能體能夠在戰略游戲中產生新的戰術[10],協調多個物理和行為上不同的單位,在物理世界中執行協作任務[11],并在智能體的合作團隊中產生新的和多樣化的行為[12]。所有這些結果都與聯合武器理論有直接關系。這樣的研究既促進了軍事藝術的發展,也促進了人工智能和多智能體系統的研究。

1.2 研究問題

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

3.給定一組形態不同的單元,多Agent系統能否在沒有明確的中央指令的情況下表現出協同的聯合武器行為?

問題一和問題二涉及到可以將多樣性引入到智能體群體中的方式。采用具有物理或形態差異的智能體是否有益?為了回答這些問題,本研究在各種不同的任務中測試并比較了行為上和形態上的異質團隊。第三個問題是評估多智能體系統參與聯合武器戰爭中的合作行為類型的潛力。

這項研究提出了幾個戰斗單位的異質團隊的模擬,并評估了形態和行為異質性對團隊有效性的影響。多個異質和同質團隊被生成并在四個場景中測試,每個場景都有不同的目標。隊伍根據其勝利率進行分級,并與所受傷害成反比。測試結果被用來確定最有效和最高效的團隊配置和行為。

最合適的團隊表現出合作戰術,包括側翼機動、偵察、多管齊下的攻擊和其他行為。這些戰術產生于每個團隊成員智能體的互動,并且經常結合不同的智能體形態或行為。這項研究表明,異質性對團隊適應性的影響因情況而異,最有效的團隊傾向于演化出異質性行為和形態來克服戰術挑戰,而且聯合武器戰術可以從簡單智能體的相互作用中出現。

1.3 貢獻

這項研究提供了一個動態領域中同質和異質多智能體系統的比較。它支持國防部(DoD)發展自主武器系統的優先事項[13],并通過展示從簡單的智能體互動中出現的可識別的戰術行為,將多智能體系統理論應用于聯合武器的軍事藝術。提供了一個新的和可擴展的模擬器,用于未來對單體和多體系統的研究。

1.4 概要

第二章提供了多智能體系統的相關背景和研究,并概述了該領域與聯合武器理論的關系。還提供了RoboCodePlus模擬器的描述。第三章描述了用于執行實驗的方法,概述了智能體架構、測試場景以及用于生成和進化單個團隊的遺傳算法。第四章分析了每個實驗的結果并得出結論,而第五章總結了所做的工作并為未來的工作提供了建議。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

美國海軍陸戰隊(USMC)正在進行組織和行動上的變革,以適應當今世界新的作戰要求。《美國海軍陸戰隊部隊設計2030》描述了新的概念,如遠征先進基地作戰(EABO),重點是偵察/反偵察和海上攔截。為了檢查和評估新的作戰概念、部隊結構、武器系統、戰術、技術和程序,以及其他對這些行動的調整,美國海軍陸戰隊需要能夠代表與這些預期變化相關的全部變化的模型和模擬。21世紀聯合武器分析工具(COMBATXXI)是由美國海軍陸戰隊和美國陸軍共同開發的戰斗模擬,用于支持建模和分析。在過去的20年里,COMBATXXI擁有研究這些新概念所需的許多基本能力,但目前在一些關鍵領域缺乏真實的表現,如研究海上攔截的新角色的關鍵方面所需的海上水面作戰人員。這種表現需要平臺的識別、瞄準和評估損害,從而確定其繼續執行作戰任務的能力。本研究的目的是檢查與EABO有關的新作戰概念,并利用COMBATXXI模擬確定相關的建模方法。該研究描述了一種建模方法,該方法在COMBATXXI中的初步實施,以及對該模型在支持與美國海軍陸戰隊新作戰概念相關的情景和研究方面的效用的初步評估。研究最后提出了后續工作的建議,以進一步改進或運用所開發的能力。

引言

A. 背景介紹

美海軍陸戰隊作戰發展司令部(MCCDC)作戰分析局(OAD)運行海軍陸戰隊研究系統(MCSS),該系統每季度向整個海軍陸戰隊征求研究提名。每年都有幾項研究需要用高分辨率的戰斗模擬進行建模。21世紀聯合武器分析工具(COMBATXXI)是一個高分辨率的分析性戰斗模擬,自1998年以來,由OAD和美國陸軍白沙導彈發射場研究和分析中心(TRAC-WSMR)共同開發。聯合武器模擬代表了從戰術層面上的單個實體(即車輛、飛機、步兵、艦艇、登陸艇等),直至加強營級單位的行動。

COMBATXXI提供了跨越多個領域的建模能力,包括兩棲作戰、聯合武器作戰和綜合防空。該模擬可用于進行詳細的傳感器到射手的分析,包括直接和間接射擊以及關鍵的指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)的相互作用。對多領域作戰平臺的詳細分析和聯合武器作戰是COMBATXXI的主要功能。這種能力已經由OAD在兩棲戰車(ACV)備選方案分析(AoA)、殺傷人員地雷/集束彈藥(APL/CM)研究、有爭議環境中的兩棲攻擊研究、未來垂直升降能力集3 AoA、ACV中炮能力研究和先進偵察車(ARV)AoA中進行了展示。

目前,OAD正在支持2030年部隊設計(2020年海軍陸戰隊司令部)的幾個方面。帶有概念性戰術、技術和程序(TTPs)的新場景正在被用來進行各種分析。需要包含各種威脅和戰術情況的復雜行為。

海軍研究生院(NPS)建模、虛擬環境和模擬(MOVES)研究所擁有獨特的技術專長,以支持和擴展OAD對COMBATXXI的分析使用。多年來,MOVES開發了創新工具,極大地提高了分析人員使用COMBATXXI模擬的效率和效果。國家核安全局MOVES研究所的任務是通過開發和維護所需的功能,提供技術支持以進行OAD研究和分析技術培訓,提高OAD更充分地運用COMBATXXI的分析能力。MOVES支持OA開發、維護和增強工具和能力,如Behavior Studio、Workbench、Observer/Sensor工具、實體和單位行為,以及Monterey Extensions軟件包。OAD提供COMBATXXI模擬、現有行為、數據、測試方案和文件,作為政府提供的信息(GFI)供NPS使用。分配任務的場景和相關數據庫可以達到營級登陸隊(BLT)或海軍陸戰隊遠征部隊(MEF)的水平,并且可以包括所有海軍陸戰隊空地特遣部隊(MAGTF)的能力(例如,指揮部(CE)、地面戰斗部(GCE)、空中戰斗部(ACE)和后勤戰斗部(LCE))。

B. 范圍和目標

2030年部隊設計包括新的組織,如海上瀕海團(MLR)和新的作戰概念,如遠征先進基地作戰(EABO),重點是偵察/反偵察和海上攔截。本項工作的目的是研究與EABO有關的新概念,并利用COMBATXXI模擬確定相關建模方法。該研究描述了一種建模方法,該方法在COMBATXXI中的初步實施,以及對該方法在支持與美國海軍陸戰隊新作戰概念相關的情景和研究方面的效用的初步評估。

C. 問題陳述

美國海軍陸戰隊(USMC)正在進行組織和行動上的變革,以適應當今世界新的作戰要求。美國海軍陸戰隊部隊設計2030描述了新的概念,如遠征先進基地作戰(EABO),需要對部隊結構、任務和作戰能力進行審查。為了檢查和評估新的作戰概念、部隊結構、武器系統、戰術、技術和程序,以及其他適應這種行動的措施,美國海軍陸戰隊需要能夠代表與這些預期變化有關的全部變化的模型和模擬。在過去的20年里,COMBATXXI擁有許多研究這些新概念所需的基本表現,但在一些關鍵領域缺乏現實的表現,例如在研究海上攔截的新作用的關鍵方面所需的海上水面戰斗人員的表現。這種表述需要對這些平臺進行識別、瞄準和評估損害,以確定其繼續執行作戰任務的能力。需要開展工作,審查與EABO有關的新概念,并利用COMBATXXI模擬確定相關的建模方法。

D. 技術方法

為滿足這一需求,本研究對EABO概念進行了研究,并描述了一個能捕捉到這些概念的關鍵方面的名義情景。本研究審查了當前COMBATXXI的能力,以確定需要哪些額外的或修改的能力來解決新概念。該研究描述了一種建模方法(COMBATXXI需要的能力),在COMBATXXI中的初步實施,以及對該模型在支持與美國海軍陸戰隊新作戰概念相關的情景和研究方面的效用的初步評估。研究的結論是對后續工作的建議,以進一步改進或運用所開發的能力。

在贊助商的指導下,如果技術上可行,開發的新功能應在不修改現有Java代碼的情況下實施。NPS MOVES必須提前通知OAD研究主辦方并獲得批準,任何需要新代碼或修改COMBATXXI核心模型現有代碼的開發工作。這種通知使 OAD 有機會與 TRAC-WSMR 和 COMBATXXI 配置咨詢委員會協調潛在的代碼修改。

E. 本文件的組織

第一章是本研究的介紹,提供了關于工作基礎、研究范圍和目標、問題陳述和一般技術方法的背景信息。第二章概述了EABO,作為研究的概念基礎,并描述了一個名義上的情景,目的是確定必須達到的功能能力,以代表感興趣的操作條件,如海上攔截(如船舶代表,瞄準船舶能力,評估船舶能力的損害,并根據所受損害確定持續的任務有效性)。第三章展示了如何在COMBATXXI中實現表示概念場景所需的能力。第四章介紹了在COMBATXXI中執行概念情景的例子,并確定了研究變體的樣本,以檢驗新增能力的應用。第五章提出了研究結論和后續工作的建議。附錄A是報告中使用的術語和縮略語的詞匯表。附錄B提供了用于啟動COMBATXXI中的分層任務網絡(HTN)進程的python腳本清單,以執行概念情景中的實體行為。

付費5元查看完整內容

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。

2.用于分析的兵棋推演

兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

美國軍隊繼續在日益復雜的安全環境中作戰,不能再期望在每個領域都有無爭議的或主導性的優勢。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以支持在非許可環境下的任務。將自動化和人機協作納入現有的防御能力,可以減少威脅的反應時間,提高有人和無人飛機配置的防御機動的有效性。這篇論文研究了作為威脅反應一部分的飛機機動的價值,以確定人類干預對時間和準確性產生負面影響的情況。它還考慮了復制Merlin實驗室的飛行自動化方法和將能夠進行防御性機動的機器訓練系統納入現有飛機的機會。分析表明,飛機的機動性對于有效的威脅反應至關重要,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。這篇論文建議重新關注特種部隊飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以提高防御性威脅反應。它還主張繼續研究在SOF任務中使用可選的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。

美國軍隊繼續在日益復雜的安全環境中運作,不能再期望在每個領域都有無爭議的或主導性的優勢。由于地對空威脅已經擴散到在世界各地活動的敵對行為者,未來的作戰環境將以有爭議的空域為特征,這將對有人和無人駕駛飛機的操作構成挑戰。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以便在這些有爭議的地區進行機動,同時支持傳統SOF任務。這篇論文研究了商業能力的進步,以減少威脅的反應時間,提高有人和無人駕駛飛機配置的防御性機動的有效性。

通過與位于波士頓的飛行自動化初創公司Merlin實驗室合作,本分析探討了防御性機動的潛在自動化。飛機機動是對威脅作出有效反應的一個關鍵方面,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。通過確定AC-130J威脅反應中人為干預影響飛機操縱時機和準確性的步驟,這項分析揭示了復制梅林實驗室的飛行自動化方法和將能夠執行防御性操縱的機器訓練系統納入現有飛機的機會。

在威脅反應過程中確定的關鍵步驟包括威脅指示、威脅作戰識別和威脅反應配對。目前,機組人員手動執行這些步驟來完成防御性威脅機動。然而,這些步驟中的每一個都可以從自動化和人機協作中受益,通過三種明顯的方式提高整體性能。首先,生成簡化的視覺和聽覺威脅指示,確保及時通知威脅的存在。其次,自動識別過程以準確識別威脅的變體,減少了反應時間和人類識別錯誤的可能性。最后,將威脅識別與適當的飛機反應同步配對,減少了不必要的延誤,并提高了威脅操縱的準確性。

這篇論文建議重新關注SOF飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以改善防御性威脅反應。將人機協作和自主能力納入飛機防御系統,可以使防御機動性能優于傳統系統,并允許在更廣泛的環境中作戰。除了改善防御性機動,梅林實驗室的自動飛行甲板在各種不同的飛機和任務中提供了潛在的用途。繼續研究應該調查在SOF任務中使用可選擇的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。最后,在整個特種部隊中采用梅林系統將顛覆既定的操作慣例,需要個人和組織行為的改變。為了緩解過渡期并提高采用率,AFSOC應采取步驟,盡量減少利益相關者的行為變化,同時最大限度地提高系統的操作效益。培養對人工智能、機器學習和自動化的理解,將使這些行為者為軍事技術的快速變化和戰爭特征的變化做好準備。

圖 9. AC-130 防御性威脅反應圖。

付費5元查看完整內容

摘要

多Agent系統研究關注的是相對簡單的Agent互動所產生的系統級行為。迄今為止,多Agent系統研究主要涉及同質Agent系統,其成員Agent在物理上和行為上都是相同的。具有不同物理或行為特征的異質Agent系統可能比同質團隊更有效地完成任務,通過相互補充的Agent類型之間的合作。在這篇文章中,我們比較了同質和異質團隊在聯合武器情況下的表現。聯合武器理論提出,異質力量的集體應用可以產生遠遠大于同質力量或個別武器的連續使用所取得的效果。實驗結果表明,聯合武器的戰術可以從簡單的Agent互動中產生。

1 引言

多Agent系統研究領域試圖開發出開發單個Agent的方法和算法,以產生理想的系統行為。該領域已經產生了著名的算法,如粒子群優化(PSO)和蟻群優化(ACO),但主要集中在相同的、同質的Agent系統。最近的工作已經開始探索異質系統的潛力,或具有不同行為或物理形式的Agent系統。我們特別感興趣的是這種系統在發展和驗證聯合武器理論方面的應用。

聯合軍備的軍事理論將不同類型的軍備結合起來,以達到比同樣的軍備單獨或依次應用所能達到的效果更大(陸軍2019年)。它將互補的武器結合在一起,為了避免一種武器,敵人必須將自己暴露在另一種武器之下(軍團1997a)。因此,一支聯合武器部隊是異質的,因為它所包括的武器或制劑彼此不同。由于聯合武器部隊是一個異質的多Agent系統,對多Agent系統的研究可能會給聯合武器的軍事研究帶來成果。本文介紹了一組實驗,旨在探索聯合武器戰術在異質代理系統中的出現,即在行為或物理形式上不同的Agent。

實驗是在一個二維(2D)戰斗模擬中進行的,在這個模擬中,各Agent團隊為實現既定目標而競爭。遺傳算法被用來為每個場景演化出有效的團隊,并將每個演化出的團隊的行為與現有軍事學說中的聯合武器行為的定義進行比較。假設被證明是正確的,即聯合武器戰術可以從簡單的異質Agent的相互作用中產生。

這項工作的其余部分按主題分為幾個部分。第2節回顧了同質和異質多Agent系統的現有研究。第3節描述了實驗過程中使用的平臺和措施。第4節概述了測試場景,第5節討論了每個實驗的結果。第6節提供了結束語和對未來工作的建議。

付費5元查看完整內容

人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。

1 引言

由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。

AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。

在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。

2 相關工作

自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。

一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。

最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。

與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。

3 背景-分層強化學習

將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。

我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。

4 ADT仿真環境

為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。

圖1: 仿真環境的渲染圖

每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。

每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。

圖2:武器交戰區(WEZ)

WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。

5 agent結構

我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。

圖4:PHANG-MAN agent的高層結構

付費5元查看完整內容

摘要

本研究論文使用問題解決框架,研究了美國武器系統如何在采購生命周期的操作和支持階段陷入持續的陳舊和停滯循環,并提供了解決這種情況的方案。一些美國武器系統保持著它們最初在幾十年前投入使用時的能力。關鍵的發現,如厭惡風險的文化、系統要求低于計劃目標備忘錄的切割線、對財務指導的誤解、嚴格的維持法規、繁瑣的采購流程以及高于必要的決策,都被認為是導致根本問題的原因。這篇研究論文提出了幾個解決方案,解決了部分包容性的問題。對解決方案的整體可行性、對作戰人員的好處以及與實施相關的任何潛在風險進行了權衡。最后的建議包括鞏固和利用財務條例對作戰人員的好處,允許增加運營和維護資金的靈活性,允許在F3I重新設計中增加靈活性和性能,盡可能利用領先的商業技術,以及改變維持的心態,從保持準備狀態到保持相關性。結論強調,美國空軍在技術上落后于近似對手,高級領導人必須像對手一樣思考,以確保美國的法規不會抑制空軍比敵人更快地穿越OODA循環的能力。

引言

自朝鮮戰爭以來,美國在每次交戰中都保持著空中優勢;然而,一些跡象表明,空中優勢在未來的沖突中可能不再有保障。據報道,他們最新的S-500防空導彈系統成功擊中了近300英里外的目標。中國在過去十年中對其軍事進行了大量投資,現在已經達到了一個關鍵的自信點。

這個問題可能源于美國如何運作和資助其軍事項目。美國空軍將 "維持 "定義為維持一個武器系統的現有基線能力。任何改進武器系統超過其現有性能閾值的手段都被認為是開發工程的努力,需要從研究開發測試和評估(RDT&E)撥款中獲得資金。許多系統一旦投入使用就不會獲得RDT&E資金,通常在其生命周期的剩余時間內由運營和維護(O&M)撥款資助。由于對現行財務條例的嚴格解釋,財務經理通常會拒絕使用運營和維護資金來提高系統能力和應對不斷變化的威脅的創造性努力。這使得綜合產品小組(IPTs)沒有什么選擇,只能對他們的武器系統進行意義不大的改變,以保持它們在操作上的相關性。

美國不僅在做錯誤的財務決定,而且在做這些決定時也很緩慢。在過去的幾十年里,采購時間周期已經增加。據美國空軍高級領導人目前的估計,從授予合同到投入使用一個系統的時間超過10年。美國的對手在采購周期上的運作速度至少是其兩倍。在過去的二十年里,一些主要的國防采購項目(MDAP)已經被取消。事實上,國防部(DOD)已經在那些永遠不會投入使用的項目上花費了超過460億美元。

為了解決這個問題,新的倡議,如第804條快速采購和破解國防部5000號文件正受到相當大的關注。雖然它們不能解決撥款問題,但它們試圖縮短采購時間周期。在幾十年來成本成為采購決策的主要因素之后,速度現在被強調為主要考慮因素。使用問題/解決方案框架,本文將研究美國武器系統是如何陷入陳舊和停滯的循環中的,以及可以實施哪些解決方案來有效維持美國武器系統。

本文將首先闡明這個問題,描述綜合維持活動組(CSAG)和空軍維持中心(AFSC)內的幾個低效的供應鏈政策。然后,它將討論系統過時和對商業技術的依賴,接著是國防部緩慢的采購過程。問題部分最后將詳細分析當前的撥款限制以及美國空軍的幾個文化問題。

解決方案部分將首先定義具體的評價標準。該文件將提出幾個潛在的解決方案,以及建議的行動。然后將根據規定的標準對每個解決方案進行詳細評估,包括實施中的任何潛在風險。還將討論其他被考慮但未被推薦的解決方案。最后,本文將對問題進行快速總結,提出最終建議,以及為什么這項研究與美國空軍有關。

付費5元查看完整內容

作者:CPT David Tillman

發展和管理戰術層面的信息需求是一個具有挑戰性的動態過程,它得到了稀缺原理,甚至偶爾是相互沖突的理論支持。本文將專門討論優先情報需求(PIRs)的發展,當它與友軍情報需求(FFIR)結合在一起時,就形成了總指揮的關鍵情報需求。

雖然PIRs通常由旅S-2管理,并將任務下達到旅級信息收集(IC)管理員,但它們最終由旅長批準和擁有。因此,PIR的開發是一個由指揮官驅動的過程,并且是長期存在的。它需要對過去和現在的理論有一個基本的了解,但更重要的是,它需要對指揮官如何在一個聯合競爭環境中對旅戰斗隊有一個整體的了解。

PIRs被定義為與敵人或作戰環境有關的信息要求,被認為對(1)達到指揮官的決策點(DP)或(2)實現一個特定預期效果至關重要。這個定義最終為PIR的開發方法提供了一個范圍。這個定義的第一部分是情報專業人員最頭疼的問題--將PIR與梯隊的決策點直接聯系起來。

然而,定義的第二部分往往被火力和目標群體以外的人所忽視。這就是指揮官的行動可視化發揮作用的地方,直接影響到他認為在該特定階段最有效的PIR類型。

為了在復雜的作戰環境中支持動態的指揮官,有效的PIR將提供三種共生功能:推動指揮官的DPs,通過啟用目標定位周期和應用經典博弈論來支持工作。

決策點(DP)戰術師

你會看到那些喜歡使用DP戰術的指揮官,在足球比賽中這相當于運行一個選項戰術。指揮官指示參謀部在行動的每個確定的DP上,制定一個由多個分支和續篇組成的單一強有力的規劃。其目的是為指揮官提供最大的行動靈活性,同時也最大限度地提高節奏。

例如,指揮官可能會指示旅級參謀部規劃一次進攻行動,預期的最終狀態是成功包圍第111旅戰術組(BTG)剩余的兩個機械化步兵營(MIBn)。作戰環境將影響這些進攻行動的發生時間和地點,但敵人也會影響。敵人的組成、能力、陣列和上級指揮部期望的最終狀態等因素都會對藍軍作戰方案的制定產生一些影響。

這第一個DP1也將作為作戰計劃中的第一個分支,它最終將為指揮官提供兩個可區分的選擇。兩個方案中的每一個都將包括三個戰術任務,每個任務都將由一個步兵營同時執行。

圖1. DP 1A

圖2. DP 1B

這兩個分支規劃的主要區別在于指定的路徑(AoA)。DP 1A包括一個步兵營在南部的AoA上固定敵人,同時投入一個步兵營進行滲透。另一個營作為主要力量,對北面的敵人進行包圍。方案1B包括一個步兵營在北面AoA上固定敵人,同時投入一個步兵營進行滲透,另一個營作為主要力量在南面AoA上進行包抄。

雖然這兩個方案都是可行的,但根據當時支持的PIR的回答方式,只有一個方案是最佳的。

兩個擬議的分支規劃都需要獨特的作戰條件,由PIR和FFIR來回答,必須滿足這些條件才能實現該DP。與敵人和地形具體相關的信息要求將最終成為旅級PIR。

由于天氣和地形是永恒的考慮因素,這個例子將用一個以敵人為重點的PIR來驅動DP1。要做到這一點,我們需要準確了解我們的BCT能夠施加給敵人的相對戰斗力--FFIR。同時,我們必須知道,根據力量和手段的相關性,實現每項戰術任務所需的最低兵力。

經典的力量相關性理論認為,處于蓄意防御中的敵人可以有效地防御多達三倍于其戰斗力的力量。根據一個標準的步兵營(IBCT)的任務組織,我們能夠投入一個步兵營來固定敵人,一個步兵營來穿透敵人的防御陣地,第三個步兵營來包圍敵人。

在考慮了前面所有的信息后,我們現在知道,敵人有可能用任何大于兩個機械化步兵連(MIC)的編隊在復雜的障礙帶支持下對滲透和包圍進行成功防御。支持這一DP有效PIR的一個例子是:第111BTG的殘余部隊是否會投入并保留少于或等于兩個MIC的兵力來保衛任何單一的路徑?

通過將這一最低兵力要求納入PIR的開發,我們可以更精確地定義實現該指揮官的DP所需的信息要求,這將使信息收集規劃和同步。由于每個梯隊的指揮官都對DP 1A和1B有共同的理解,旅長就能發出聲音(與前面的足球例子保持一致),然后他的下屬指揮官就能迅速執行,同時保持高的行動節奏。

使用軍事決策過程中產生的最重要的產品之一:決策支持矩陣(表1)最能說明這一概念。

表1. DPs 1A和1B的決策支持矩陣

條件設定者

指揮官們更喜歡更主動塑造工作,運用重心分析來系統地瓦解敵人的戰斗秩序。他們傾向于選擇由大量基于條件的觸發器和創新方式組成的規劃,旨在通過加快傳感器到射手的順序來扁平化殺傷鏈。

與其利用收集資產來確定敵人的組成和部署,他們更傾向于利用這些資產來通過敵人的關鍵弱點瞄準敵人的關鍵能力。這有效地使指揮官通過成功地減少敵人的相對戰斗力,人為地達到最低兵力要求。

在這種情況下,PIR的目的是直接促成目標定位過程,塑造戰斗空間,并為機動部隊迅速奪取相對優勢的位置創造條件。一個這樣的例子是,在前面的規劃中,用一個觸發器取代DP1,將主要精力投入到北部的行動區。這個基于條件的觸發器與DP1不同,因為它是一個預先確定的行動,與敵人的部隊陣列無關。通過深思熟慮的目標選擇過程,參謀部確定了滿足這一觸發條件所需的具體條件。

與其試圖通過瞄準敵人的機動編隊來直接削弱其總戰斗力,參謀部建議瞄準敵人的反機動資產(地雷層、挖溝資產等)。瞄準這些工兵部隊將通過使那些被認為對防御行動至關重要的資產失效來降低敵人的相對戰斗力--這就是預期效果。

這些預期效果是我們對PIR定義的后半部分。如果成功的話,實現這些預期效果將剝奪敵人建立有障礙物支持的蓄意防御的能力,并迫使敵人建立有最小障礙物的倉促防御。如果所有其他變量保持不變,從蓄意防守到倉促防守的轉變,會使最低兵力要求從3:1降至2:1。

一旦確定需要消滅這些關鍵保護資產,它們將在目標工作組中得到分析,被添加到高回報目標(HPTs)清單中,并由旅長在目標審批委員會上進行驗證。

為了使收集規劃有效地支持決定、探測、交付和評估目標的周期,HPT(很像DP)必須得到PIR的直接支持。支持這些HPT的PIR的一個例子是。敵人將在哪里使用其主要的反機動性資產?

在這個例子中,PIR中的反機動資產一詞將把收集工作特別集中在敵人的MDK-2M(挖溝車)和GMZ-2(布雷器)上。由于高度的特殊性,將PIR細化為基本信息要素(EEI)、指標和具體信息要求的IC矩陣將更加簡明。

圖3. 具體信息要求(SIR)與指標、EEI和PIR的關系。(改編自圖4-5,FM 3-98)

博弈理論家

戰略推理的科學,通常被稱為經典博弈論,可以追溯到20世紀50年代,當時它首次被用來研究零和博弈中理性參與者的決策過程。從那時起,歷史為我們提供了多個軍事案例研究,在這些案例中,博弈論可以被回顧應用:中途島戰役、斯麥戰役和1914年俄羅斯與德國之間的坦能堡戰役,等等。

將博弈論,以其最初的零和形式,應用于PIR的發展,這一概念似乎很新穎,但事實遠非如此。與目前的學說不同,歷史上的學說將這種戰略推理的框架納入了PIR的發展。回顧一下1994年左右的《陸軍野戰手冊》(FM)34-2,收集管理和同步規劃,可以看到幾個輔助的例子,說明經典的博弈論可以用來發展PIR。

這種戰略推理框架在每個有效的PIR例子中都得到了很好的體現,而在以下摘自FM34-2附錄D的無效的PIR例子中卻依然沒有體現出這一點。

不良PIR的例子

  • "敵人會進攻嗎?如果是的話,在哪里,什么時候,以什么兵力?"

  • 這種PIR顯然不是參謀部作戰的結果。我們可以提出幾個具體的批評意見。這個PIR實際上包含四個明顯不同的問題。這四個問題中哪個是優先考慮的?除非得到更多的指導,否則收集資產必須自己決定針對PIR的哪一部分來收集。

  • 它假定情報人員對敵人的情況完全一無所知。實際上,他們對局勢的了解可能多于 "敵人可能在某個時候、某個地方、以某種力量發動攻擊"。利用戰場的情報準備過程,他們可以提供比這更有針對性的PIR。

  • 最后,在對潛在的友軍和敵軍CoA進行戰爭演練時,工作人員應該發現這個PIR的某些方面與友軍CoA無關。例如,你的防御可能完全有能力擊敗敵人,而不管他們何時真正發動攻擊。也許重點只需要放在他們將攻擊的地方,以支持對友軍預備隊的使用的決定。

良好的PIR實例

正如沒有標準的情況模板或友好的CoA適用于所有情況一樣,也沒有一套標準的PIRs。然而,好的PIRs有一些共同點:

  • 它們只問一個問題。

  • 它們專注于一個特定的事實、事件或活動。

  • 它們提供支持一個單一決定所需的情報。例如。"敵人是否會在我們的后備部隊離開Jean-Marie作戰區之前對其使用化學制劑?" "敵人是否會使用前坡防御來保衛Kevin目標?" "第43師是否會沿AoA 2發出主攻?"

正如你所看到的,所有好的PIR的例子都被設定為 "是 "或 "不是 "的問題,將信息要求簡化為一個獨立變量的積極或消極存在(類似于FM3-98圖4-5中定義的EEI)。最初,這種方法對于復雜的作戰環境來說似乎過于二元化,但進一步的分析表明,如果使用得當,它可以成為戰術層面上的一種有效方法。當指揮官無法獲得達成目標或實現預期效果所需的關鍵信息時,這一點尤其明顯。

在我們前面的設想中,這意味著該旅及時回答PIR的能力已經受到環境限制或資源限制的影響。換句話說,藍軍沒有能力確定敵人在北部和南部AoA沿線的構成(針對DP1),也沒有能力探測和瞄準行動區內所有剩余的反機動資產(基于條件的觸發)。為了將經典博弈論應用于這一情景,工作人員必須首先確定前面行動的四種可能結果。

為簡單起見,讓我們假設這兩個對立的編隊之間在梯隊上存在絕對的戰斗力均等(1:1)。在其最基本的形式中,每個指揮官基本上都有兩個選擇。對于藍軍指揮官來說,第一個選擇是將主要精力投入到北部的AoA,第二個選擇是將主要精力投入到南部的AoA。對于敵對勢力(OPFOR)的指揮官來說,選項1是將防御性的主要力量投入到北部的AoA,選項2是將防御性的主要力量投入到南部的AoA。

為了計算這個零和博弈中的概率和回報,我們還必須應用一個通用的積分系統。一個點將被授予以主要精力達到對立的最小兵力的指揮官,第二個點將被授予將主要精力投入到對該特定要素具有有利地形的交戰區的指揮官。該情景假設藍軍IBCT對兩個OPFOR MIBn進行進攻行動。南部的AoA嚴重受限的地形對于主要是騎馬的藍軍人員來說是理想的。相反,北部的兩個高速機動走廊對OPFOR的主要機械化編隊是有利的。

圖4和圖5是對四種潛在選擇的圖形描述,以及對指揮官在四種結果中的每一種所獲積分的回報矩陣。

圖4. 四個博弈理論CoA。

圖5. 博弈論方法的記分卡。

在這些例子中,雙方都有一個明確的主導戰略,在回報矩陣的左下角有一個明顯的納什均衡。藍軍指揮官的主導戰略是將主要精力投入到南部的行動區。使用這種策略,藍軍肯定會有有利的地形,可以進行下馬式編隊,并有50%的機會通過其主要努力達到最低兵力要求。

作戰部隊指揮官的主導戰略是將防御性的主要力量投入到北部走廊。通過這一戰略,作戰部隊將擁有有利的地形,并將通過其主要努力達到最低兵力要求。

考慮到這一點,參謀部能夠確定對每個指揮官最有利的選擇,以及藍軍如何能夠以其主導戰略增加實現最低兵力的概率。

我們最后的PIR將綜合所有前面的要素(DPs、目標定位和經典博弈論),以支持動態指揮官的作戰可視化:敵人是否會將兩個或更多的反機動資產投入到南部的行動區?

這個PIR是理想的,因為它在支持BCT塑造努力和指揮官的DPs的同時,也為藍軍提供了通過其主要努力實現最小兵力要求的最大可能性。如果能夠在南部區域消滅敵人的反機動資產,最低兵力要求將有效地從3:1減少到2:1,這將使圖5右下角的分數從 "1,1 "變為 "2,0",進一步改善藍軍指揮官已經占優勢的戰略。

結論

在前面的例子中,我為指揮官和他們的參謀提供了一個框架,以產生在復雜作戰環境中有效的戰術級PIR。這個框架是基于過去和現在的理論,以及我在兩次作戰訓練中心輪換期間擔任IC經理時學到的經驗。

大規模的作戰行動需要指揮官和參謀人員采取動態、流動和綜合的作戰方式。在進行作戰可視化時,有活力的指揮官很可能會在行動的不同階段展示所有三種智力特征:

  • 最初,博弈論者會在信息有限的時候尋求減少行動變量的數量。

  • 接下來,條件設定者將旨在減少敵人產生戰斗力的能力,同時也保留自己的能力。

  • 最后,DP戰術師將通過對被削弱的敵人和較少的作戰變量進行規劃,最大限度地提高作戰靈活性。

為了支持這種動態發展,參謀部必須確保在整個計劃過程中體現有效的PIR的所有三個共生功能。這樣一來,這種方法將產生最終能夠相互支持DP、目標定位周期和經典博弈論的概念應用的PIR。

圖6. DPs, targeting, game-theory nexus.

戴維-蒂爾曼(David Tillman)中士是美國肯塔基州坎貝爾堡101空降師(空中突擊)第1BCT "巴斯通 "的旅級IC經理。之前的任務包括:科羅拉多州卡森堡第4步兵師第3裝甲營(ABCT)的IC排長和旅級IC經理;以及卡森堡第4步兵師第3裝甲營第10騎兵團第4中隊的助理S-2和情報、監視、偵察經理。蒂爾曼中尉的軍事學校包括美國國防情報局(DIA)收集管理員基礎課程;信號情報/電子戰官員課程;DIA主要、備用、應急和緊急基本課程;DIA聯合中級目標課程;情報、監視、偵察經理課程;以及軍事情報基本官員領導課程。他擁有南伊利諾伊大學的刑事司法學士學位,目前他是東北大學專業研究學院的研究生,攻讀戰略情報和分析專業的碩士學位。提爾曼中尉已經完成了在國家訓練中心的輪換,在聯合戰備訓練中心的輪換和支持斯巴達盾牌行動的部署。

付費5元查看完整內容

1 引言

美國參謀長聯席會議主席(CJCS)最近就美軍新的聯合作戰概念(JWC)以及相關的新的全域聯合指揮與控制(JADC2)框架對其實現的重要性向國會作證。具體而言,他在2021年6月23日向美國眾議院表示:

  • JWC是一項多年長久的工作,旨在針對未來威脅的聯合作戰制定一個全面的方法,并為未來的部隊設計和發展提供指導。JWC的輔助概念描述了關鍵的作戰功能,包括火力、后勤、C2和信息優勢。聯合全域指揮與控制(JADC2)框架使得JWC和輔助概念的整體發展和實現成為可能。

JWC的基礎是全域作戰概念。這是美軍在優化協同效應過程中的下一步發展,這種協同效應是通過在空中、太空、海上、陸地和電磁波譜等所有領域的綜合行動而產生的。這一過程始于1986年戈德華特-尼科爾斯法案的通過,該法案旨在提高美國武裝部隊進行聯合(軍種間)和集成(聯盟間)作戰的能力。如果發展和實施得當,JWC將產生比今天的 "聯合"作戰更決定性、更強大的戰斗結果,在許多情況下,"聯合"作戰只是涉及軍種之間的沖突和整合。為了實現這一目標,美國國防部(DOD)需要認真地將理論轉化為現實。這意味著要采取漸進但具體的步驟來實現JADC2的目標,而不是在實施之前等待一個完整的解決方案。JADC2將需要大量的時間來設計,因為它涉及到現有概念、能力和服務觀點的巨大轉換。然而,為了加速這些工作可以通過快速改進當前的指揮和控制模式來完成。具體來說,現在是時候超越大型的、集中的、靜態的C2設施,轉向移動的、分布式的C2,有能力處理與區域空天聯合行動中心(CAOC)相同的信息量和多樣性。

由于它尋求所有領域的協同作用,包括來自不同領域的能力的互補性,而不僅僅是相加,JADC2的目標是尋求相互依賴,以提高有效性,并彌補每個領域的脆弱性。所期望的軍事效果將越來越多地由共享信息和相互授權的系統互動來產生。JADC2的愿景是通過數字連接的 "膠水"將資產結合起來,成為一個 "武器系統",在整個作戰區域內進行分解、分布式作戰,而不是在每個領域中建立一套互不相干的、單一的作戰系統。這將需要把每個平臺作為傳感器和 "效應器 "來對待。它將需要一個新的戰斗指揮架構和指揮與控制范式,以實現自動連接,就像今天的移動電話技術一樣。它還將需要安全、可靠和無縫地傳輸數據,而不需要人的互動。

2 設想中的轉型

實現JADC2的總體目標,并將其與實現自我形成、自我修復的綜合體所需的整合程度結合起來,將需要做出巨大的努力,而且并不容易。每個軍種和每個作戰司令部都將參與其中。它將需要克服組織、文化、訓練、采購和政策方面的幾個主要障礙。它將需要連接、決策和快速響應,需要有彈性的網絡和尚未達到的軍種和盟國之間的共享能力。

這些是眾多的、多方面的挑戰,我們的軍隊、軍種和作戰指揮部都在解決這些問題。然而,由于其復雜性,要實現一體化、相互依存、自我形成、自我修復的全域聯合和集成作戰的最終愿景還需要很多年,甚至幾十年。然而,我們所面臨的威脅正在增長,并需要今天的解決方案。因此,現在是時候對JADC2中那些現在就可以改變的要素采取行動,以應對我們今天面臨的威脅和挑戰。

每個軍種和作戰指揮部都有成熟的指揮和控制概念、設施和程序,這些在過去的沖突中證明是可行的。然而,目前存在的各種C2架構都需要進行廣泛的修改,以便在出現的現代威脅面前生存,更不用說運行。

【越來越多的信息獲取需要對指揮和控制進行重組,以促進對易逝目標的快速采取行動,并利用我們的技術能力。信息綜合和執行權力必須轉移到盡可能低的級別,而高級指揮官和參謀人員必須約束自己,以保持適當的作戰層級。】

在所有領域的成功行動的一個核心前提是對航空航天環境的控制。一旦建立,它將促進所有其他聯合和集成部隊的行動和移動自由--沒有它,有效的聯合或集成作戰是不可能的。因此,對航空航天作戰的有效指揮和控制是必須優先考慮的關鍵部分。

我們指揮與控制(C2)空中和太空部隊的能力受到三個主要因素的影響:威脅、技術和信息速度。自美國空軍的空天作戰中心(AOC)--AN/USQ-163 "獵鷹 "的設計、建立和運行以來,這三個領域的變化是巨大的,并在繼續加速。因此,現在是時候確定我們是否可以通過發展目前的作戰概念、組織和采購流程來實現現代化,或者我們必須尋求對這些影響目前戰區空天控制系統的每個要素進行根本性的改變。在提供答案之前,讓我們簡單看一下影響我們有效指揮和控制航空航天作戰能力的每一個趨勢。

3 未來的威脅和作戰環境

3.1 威脅

今天,當試圖在A2/AD環境中作戰時,同行的威脅使目前的C2手段處于不可接受的風險之中。30多年來,我們基本上一直在享受C2優勢,在航空航天領域不受競爭的影響。這些日子已經過去了。軍事競爭對手已經以前所未有的規模完成了現代化。他們已經迅速縮小了與美國、盟國和友好國家軍隊在包括飛機、航天器、導彈、武器、網絡、指揮和控制、干擾器、電子戰、數據鏈接和其他廣泛能力方面的差距。潛在的對手也研究了美國的戰爭方式,與其面對我們(美國)的戰斗力,不如讓我們(美國)遠離他們。他們已經采用并正在擴散反介入和區域拒止(A2/AD)能力,旨在拒絕美國及其盟友的行動自由。減輕這些A2/AD能力帶來了巨大的挑戰,促使我們在更大的風險和遠離潛在沖突地區的情況下行動。

A2/AD能力以三種方式威脅著我們指揮和控制空天作戰的能力。近距離的對手可以使用動能和非動能武器,從我們的天基資產中拒絕我們(美國)的通信和情報、監視和偵察(ISR),從而孤立我們(美國)的部隊并蒙蔽我們(美國)的視野。網絡攻擊正變得越來越復雜,可以破壞我們完善的空中和太空聯合作戰中心的運作。精確的遠程巡航導彈和彈道導彈現在威脅著這些大型、固定和脆弱的設施。作為產生戰略、計劃和空天資產任務指令的工廠,建設空天聯合作戰中心已經成為一個極其有利可圖的目標。

3.2 技術

新技術正在促成新的能力,以優化C2機制,達到預期效果。我們需要超越傳統文化對新技術的限制來思考。例如,下一代飛機在傳統術語中可能仍被標記為戰斗機、轟炸機、空運機等,但由于傳感器、處理能力、武器、能源生產和其他能力的微型化,在技術上它們有能力執行多種任務。它們實際上是飛行的 "傳感器效應器",可以形成由冗余節點和多殺傷路徑組成的高度彈性網絡的基礎,以盡量減少目前高度集中和有限的C2節點(如CAOC)的關鍵系統價值,這些節點敵人可以輕易地將其作為目標。

【JADC2將需要很多時間來設計,因為它涉及到對現有概念、能力和服務觀點的巨大轉變。然而,加速這些工作可以通過快速改進當前的指揮和控制模式來完成。】

這將需要領先的網絡能力、有保障的通信,以及解決我們的數據帶寬挑戰的不同方法。例如,為了解決來自先進傳感器的爆炸性數據增長,與其建造更大的管道來傳輸收集的數據,不如現在提高處理能力,使得機載數據的處理成為可能,并且只對用戶感興趣的內容進行分發。這種方法顛覆了我們今天處理情報、監視和偵察的方式。

快速的信息交流在戰斗的前沿尤其重要,因為實際數據的價值往往是短暫的,并隨著時間和環境的推移而減少。開發一種技術方法,在不同的用戶之間、在多個分類和盟國及伙伴國之間自動和快速地分享信息,將是創建未來部隊的一個關鍵。

古老的格言,"速度就是生命",不再僅僅是指飛行--它也是指快速發展的軟件工具,用于戰斗和勝利。我們必須跳出歷史上刻在我們集體心靈中的組織結構的思維。以網絡為中心的、相互依賴的、功能整合的作戰是未來軍事成功的關鍵。

3.3 信息傳遞速度

電信、傳感器、數據存儲和處理能力方面的重大進步每天都在出現。因此,瞄準周期已經從幾周到幾天發展到幾分鐘,從多架、專門和獨立的飛機發展到一架飛機在幾分鐘內 "發現、修復和完成 "的能力。越來越多的信息獲取需要對指揮和控制層次進行重組,以促進對易逝目標的快速介入,并利用我們的技術能力。信息綜合和執行權力必須轉移到盡可能低的級別,而高級指揮官和參謀人員必須約束自己,以保持適當的戰爭水平。

要超越大型的、集中的、靜態的指揮和控制設施,轉向移動的、分布式的C2,并有能力處理與今天的區域性聯合空天作戰中心相同的信息量和多樣性,將需要重新評估該部門如何處理信息流。這種未來能力的兩個最重要的方面將是通過它所提供的同步 "控制 "實現 "指揮 "的蛻變。

"指揮的藝術"將實現梅特卡夫定律的網絡價值(梅特卡夫定律指出,電信網絡的價值與系統連接用戶數量的平方成正比),而控制的科學將繼續應用摩爾定律的擴展技術來擴展人類能力。

4 空天C2的新架構

我們現在正處在一個威脅、技術和信息速度要求改變指揮和控制空天部隊的既定架構的關口。所有軍種都已認識到這一點,并已開始行動,為各自的領域制定新的作戰概念。面臨的挑戰是如何確保每個軍種的作戰概念都被整合到一個統一的聯合全域指揮和控制架構中。

該作戰云的開發理念是建立一個情報、監視和偵察、打擊、機動和維持綜合體,利用信息時代的技術進行高度互聯的分布式作戰,它將迎來一個完全不同的戰爭架構。JADC2的根本基礎是將準確的、高質量的信息下放到最低的信息節點,以達到預期的效果,而不考慮服務、領域或平臺。

美國空軍實現這一目標的方法是努力設計和開發一個先進的戰斗管理系統(ABMS)。ABMS的要素已經被定義,但它們還沒有發展成一個可執行的指揮和控制架構。要達到JADC2和ABMS所期望的最終狀態,即以安全、可靠和強大的方式在整個戰斗空間進行無處不在的無縫信息共享,將需要多年時間。鑒于重大威脅的快速演變和當前C2設施的脆弱性,軍方必須現在就修改當前的空天部隊的指揮和控制結構。

需要一個新的架構來支持一個作戰概念,以實現最近被納入美國空軍理論的集中式指揮、分布式控制和分布式執行的C2范式。建立一個新的作戰指揮架構不需要技術上的突破,因為已經存在的技術可以應對分布式指揮和控制功能的直接挑戰,使其不能通過對幾個關鍵的C2節點的打擊而被消除。

美國空軍一直在開發一個支持其新理論的作戰概念,即敏捷作戰部署(ACE)。敏捷作戰行動是一個概念,它在短時間內將部隊和資產分散到多個分離的地點,以使對手的計劃變得復雜。有了適當的C2系統,ACE可以從許多可防御、可持續和可轉移的地點將對手的目標置于危險之中。應用這一概念的細節取決于使用的戰場,但從根本上說,想法是一樣的,指揮和控制是這一概念成功的根本。

空天聯合作戰中心將仍然是在不太嚴重的地區沖突期間進行C2操作的可行手段。然而,為了實現JADC2的目標,該部門將必須向戰斗空間邊緣的作戰人員提供信息,而不依賴于傳統的聯合空天作戰中心模式,即數百人圍繞著獨立的任務區組織起來的小部門。

因此,該部門必須迅速超越我們今天所依賴的大型集中式聯合空天作戰中心結構,發展為一套更加靈活和分布式的流程和指揮與控制結構。同時,這個新架構必須能夠適應空戰管理系統和JADC2的發展。但鑒于這些項目的緩慢發展,我們不能等待開始改變空天部隊的C2架構。

這個新架構有許多選擇:建立加固的空天聯合作戰中心,并將功能遠程分配給指定的單位;將目前納入空天聯合作戰中心的規劃功能分配到多個地點,并在它們之間共享所產生的規劃;通過轉移與連接水平相對應的執行權力,建立基于作戰單位和其各自指揮要素之間連接程度退化的執行過程和程序。

無論選擇什么樣的發展方式,有一點是肯定的,美國空軍必須做出堅定的努力來分配必要的指揮和控制功能,以確保在有爭議的環境中有效使用空天部隊,而且這種努力必須現在就開始。

JADC2的根本基礎是將準確的、具有決策質量的信息下推到最低的信息節點,以達到預期的效果,而不考慮服務、領域或平臺。

作者:

David A. Deptula,美國空軍中將(退役),是弗吉尼亞州阿靈頓的米切爾航空航天研究院院長,也是美國空軍學院的高級軍事學者。他是1991年 "沙漠風暴 "行動空襲的主要策劃者;1990年代末伊拉克上空禁飛區行動的指揮官;2001年阿富汗上空空襲行動的指揮官;兩次擔任聯合特遣部隊指揮官;并擔任2005年南亞海嘯救援行動的空中指揮官。他是一名戰斗機飛行員,擁有超過3000個飛行小時--400個戰斗小時--包括F-15戰斗機的多個指揮任務。他曾擔任空軍第一個情報、監視和偵察(ISR)三星級主管,在那里他改造了美國的軍事ISR和無人機事務。

付費5元查看完整內容

摘要

提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。

我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。

在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體

圖4-1:戰術模型的高層架構

圖4-2:戰術環境的可視化

圖5-2:在PoIs和單個單位被打破之前積累單位

付費5元查看完整內容
北京阿比特科技有限公司