亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

無人機已重塑現代戰爭形態,每日被投入戰場執行監視或攻防任務。盡管當前仍由人類操控,但去人化自主控制轉型迫在眉睫。人工智能(AI)的迅猛發展使AI驅動無人機成為未來戰爭核心要素,這促使各國需提升系統能力以應對自主無人機威脅并研發更優型號。強化學習(RL)作為AI的決策范式,專注于序列決策問題,其在機器人領域的應用已展現解決復雜現實挑戰的潛力。本文通過實戰案例闡釋RL基礎原理并提出機器人部署框架,識別出無人機作戰中RL應用的五大復雜性維度,分析技術前沿與現存差距,最終給出彌合差距的技術路線圖及倫理考量。

現狀與挑戰

無人航空系統(UAS)長期在現代戰爭中發揮關鍵作用,早期以大型偵察與精確打擊無人機為主。烏克蘭沖突標志著向小型商用無人機武器化的顛覆性轉變,此類無人機通過控制爭議區域、低成本打擊與情報搜集展現戰略優勢(文獻[2-4])。當前戰場中,人類仍主導數據分析與無人機操控,例如通過偵察無人機識別目標后操控攻擊型無人機實施打擊(文獻[5])。

AI已被視為執行部分戰場任務(如目標識別)的理想技術(文獻[6]),其數據處理速度遠超人類,可加速戰場決策。然而,即使AI輔助減輕操作負擔,無人機控制仍高度依賴人力。烏克蘭沖突中,第一人稱視角(FPV)操作員已成為稀缺資源(文獻[1,3,5,7]),面臨部署效率低下、操作員數量不足、暴露風險及通信鏈路易受干擾等挑戰。輕量化(<10 kg)敏捷無人機的普及使反無人機系統(CUAS)研發更為緊迫,亟需提升AI在無人機控制與反制領域的能力。

強化學習的潛力與現存差距

強化學習(RL)作為成熟的控制AI框架,通過試錯機制學習決策策略,已在《星際爭霸II》(文獻[8])、《Stratego》(文獻[9])等復雜游戲中展現超人性能,并在FPV競速無人機控制(文獻[10])與自主導航(文獻[11])領域取得突破。盡管RL具備優化戰場控制算法的潛力,但其在實戰部署仍存鴻溝——現有研究通常基于理想化假設,與真實戰場環境存在顯著差異。本文系統分析并分類這些差距,提出控制小型UAS及防御其攻擊的技術路線圖。

架構

第2節詳述當前以小型無人機及其反制技術為核心的戰場格局;第3節形式化定義強化學習并通過實戰案例闡釋框架;第4節提出RL部署框架;第5節從五大復雜性維度(感知不確定性、動態環境適應性、多智能體協同、對抗性學習、安全性保障)剖析RL應用于機器人(尤其是無人機)的前沿算法;第6節構建五個漸進式創新場景,推動無人機作戰向自主UAS與CUAS演進。

無人機戰爭未來發展的技術路線圖

本節提出若干復雜度遞增的作戰場景,構建無人機戰爭未來發展的技術演進路徑。通過前文所述雷達圖分析框架,評估各場景在五大復雜性維度的實現難度,以此明確技術突破方向。該路線圖代表我們通過增強戰爭智能化推動軍事創新的戰略愿景。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

美國海軍發布了《海軍與陸戰隊數字系統工程轉型戰略》(DSETS),推動全兵種組織變革,要求從傳統文檔中心的需求-采辦-保障(R/A/S)模式轉向集成數字環境(Bray 2020)。基于模型的系統工程(MBSE)等先進數字工具可提升裝備全生命周期內的設計流程、互操作性、功能維護與保障效能(Zimmerman等 2017),為新一代無人水面艦艇(USV)等自主系統賦予戰術優勢(Del Toro 2024)。

自主系統設計需應對復雜技術挑戰,但過度關注自動化功能往往導致人因工程與工效學(HF/E)要素缺失(Lee & Seppelt 2009;Liu等 2016)。研究表明,HF/E整合不足將危及作戰安全、系統性能與人機交互(Hancock 2019;Parasuraman & Riley 1997)。本研究強調HF/E要素應作為先導設計條件,而非事后補丁。通過構建經過驗證的USV人因需求MBSE框架,為決策者提供結構化數字模板。核心研究問題(RQ1)聚焦:USV綜合HF/E需求框架的構成要素?經驗證模型涵蓋11個核心組件與6類通用功能下的117項需求,涉及感知、認知、時域、人機工程與輔助領域,經專家驗證可有效應對自主系統設計、操作與維護中的關鍵挑戰。該框架旨在優化人機交互、降低失誤率、緩解認知負荷并增強態勢感知。

補充研究問題(RQ2)探究MBSE技術優勢。通過框架構建、修正與驗證過程中的實證研究,揭示MBSE在需求捕獲、可追溯性、版本控制與產品生命周期管理(PLM)方面的優勢(Visure;Zimmerman等 2017)。專家訪談證實MBSE在復雜架構中管理HF/E需求的有效性,驗證本研究采用MBSE在數字生態中捕獲與管理需求的可行性。研究還表明MBSE提供可擴展的數字化工程解決方案,符合國防部(DoD)與海軍數字化轉型目標,為開發最優自主系統奠定基礎框架。

問題陳述

無人水面艦艇(USV)等先進自主系統的快速應用、開發與優先部署需要大量帶寬、精力與關注度。此類資源的高度傾斜導致關鍵人因工程與工效學(HF/E)需求被忽視,引發錯誤信任、不切實際的預期、操作失誤及系統故障(Lee & Seppelt,2009;Vicente,2003)。

研究目的

自主系統需整合機器學習算法、通信系統、復雜計算機編程與傳感器等先進技術要素,這些方面需要工程團隊投入大量資源,并受到利益相關方同等關注。美國海軍加速部署配備先進技術的USV,增加了忽視關鍵HF/E需求的風險。傳統文檔中心方法加劇此問題,割裂需求-采辦-保障(R/A/S)流程,阻礙HF/E專家與工程團隊的有效協作(Muhammad等,2023;Zimmerman等,2017)。此類疏漏將推高長期保障成本、導致重復設計、需專業干預措施,并為操作與維護人員制造低效環節(Hancock,2019;Liu等,2016;Salmon,2019)。設計需求必須包含并優先考慮HF/E要素,以優化系統交互、安全性及USV整體性能(Proctor & Van Zandt,2018;Vicente,2003)。現有文獻既未明確USV設計所需的HF/E要素,也未提出系統性實施框架。

將HF/E需求整合至USV設計初始階段至關重要。整合HF/E與工程學科的龐雜信息、流程與活動,需摒棄孤立式"非數字化"系統開發模式(Bray,2020;Muhammad等,2023;Zimmerman等,2017)。本研究識別并捕獲USV設計與操作所需的HF/E要素,采用基于模型的系統工程(MBSE)軟件構建結構化需求框架。該可復用、可調整的框架使HF/E要素成為系統之系統(SoS)架構的數字基礎需求,涵蓋感知、認知、時域、人機工程與組織維度,優化有人-無人協同作戰(MUM-T)。通過構建包含結構、行為、活動與參數模型的系統架構,為設計團隊提供滿足需求的集成化數字生態系統(Hause,2011)。

本研究采用混合研究方法獲取有效HF/E數據,通過專家訪談驗證框架與建模技術。項目管理方采用經驗證的HF/E需求框架將提升USV安全性、效率與效能(Lau等,2020;Ramos等,2022)。研究成果支持美國海軍在科技與數字工程領域的持續投入,在HF/E常被忽視的現狀下提升USV設計與作戰效能。該可復用、可定制的HF/E模型體現了對自主系統操作人員的責任承諾。正如美國特種作戰司令部(USSOCOM)強調:"人員而非裝備決定成敗",特種部隊信條"人員重于硬件"(USSOCOM,未注明日期)即為此理念的集中體現。

研究意義

本研究通過將HF/E需求嵌入設計核心,填補USV開發與部署的關鍵空白。將此類要素納入集成數字架構可提升作業安全、優化人機交互并增強需求可追溯性(Carrol & Malins,2016;Liu等,2016)。研究強調因HF/E缺陷導致的系統修改與保障成本將使USV"離線",影響遠程海上行動。所構建的可移植模型亦適用于其他軍用與民用自主平臺領域。提升認知與推動需求采納是本研究的核心驅動力,旨在優化人員福祉、MUM-T協同與系統性能(Lee & Seppelt,2012)。

Proctor與Van Zandt(2018)闡明了HF/E的基本原則:忽視該要素將導致性能下降、錯誤率上升與風險增加。本研究運用數字圖表與建模工具捕獲并優化USV適用的HF/E要素。采用的MBSE方法支持需求的系統化開發、整合與驗證(Lu等,2022;Madni & Sievers,2018)。將HF/E需求整合至USV系統模型,使其成為基礎"構建模塊",通過功能與活動模型實現需求驗證。

本研究成果對HF/E學術界、科研界與工業界具有重要價值。研究反饋證實HF/E要素對創建健康高效工作環境的必要性。H?kansson與Bjarnason(2020)強調將HF/E視角融入需求工程(RE)可降低壓力并提升用戶滿意度。參與USV"論域"構建的項目辦公室、需求制定方、操作維護人員須踐行此理念(參見術語表)。經驗證的HF/E框架通過集成反饋機制促進安全高效的操作環境與持續改進,通過迭代優化應對新興挑戰與利益相關方需求。

本研究契合美國海軍戰略文件提出的數字化轉型與現代工程目標。Bray(2020)指出數字模型在海軍R/A/S流程中的重要性,可打破"卓越孤島"并增強協作效能。Zimmerson等(2017)強調變革管理策略、數字工具應用與持續利益相關方參與對轉型的關鍵作用。本研究通過MBSE構建HF/E需求框架,支持海軍數字化轉型戰略。經驗證框架可供海軍及跨領域自主系統開發人員使用,其雙重意義在于:優先考慮以人為中心的設計原則提升USV功能,同時踐行海軍數字工程戰略。

付費5元查看完整內容

空域行動對軍事防御戰略至關重要。軍事空域任務使用飛機執行攻擊、補給、救援、情報、監視和偵察等任務。從歷史上看,空域任務需要有人駕駛的飛機,使飛行員處于危險之中。20 世紀 90 年代,軍方開始用無人駕駛飛機取代有人駕駛飛機。無人機系統(UAS)消除了人類飛行員面臨的風險,被視為極其寶貴的資產。最近,隨著航空系統固有技術的改進,一些無人機系統的價值迅速下降。一些無人機系統的成本如此之低,以至于被命名為消耗型。

消耗型系統被視為一個范圍,從消耗型(打算丟失)到載人型(計劃取回),已成為美國軍方關注的焦點。為支持美國國防部(DoD)優先部署消耗型系統,本報告介紹了用于多域作戰的消耗型飛機的最新技術。報告首先根據有人駕駛飛機將執行的任務確定了可消耗型飛機的類型,并討論了國防部內可消耗型飛機的概念化。所討論的消耗型飛機的范圍和優先次序包括正在開發、已制成原型或隨時可用的無人機系統。

圖 3-1. 可消耗/可重復使用無人機是幫助美國空軍提高作戰能力的新選擇

美國國防部已經注意到小型廉價無人機在戰場上造成的危險,并在最近幾年投入了相當大的精力來增強其反擊小型無人機系統(sUAS)的能力。然而,它在發展自身使用消耗型無人機系統的概念方面進展較小。國防部正處于開發消耗型無人機系統使用概念的試驗階段,工作主要集中在美國陸軍和美國空軍。這類無人機主要用于各種 ISR,但也有興趣將其用作閑逛彈藥、反無人機資產和空中力量支援。2023 年 8 月宣布的 “復制者”(Replicator)計劃是國防部在開發、采購和使用消耗型無人機系統方面最突出的努力,但目前仍處于起步階段。關于哪些類型的可消耗型無人平臺將成為其重點,以及它在加速五角大樓的采購流程方面能取得多大成功,仍存在若干問題。

付費5元查看完整內容

大多數軍事大國--無論是單獨還是合作--都在設計基于新一代有人駕駛戰斗機和無人駕駛飛機系統協同作戰的未來空戰系統。

這一領域的標準制定者以美國為首。經過多年,美國空軍(USAF)和美國海軍(USN)現在正集中精力在中期內發展大量的協同作戰飛機(CCA),以增加其作戰飛機機隊的深度,因為他們認為機隊已經縮減到無法對抗大國行動的水平。目前的概念是 "負擔得起的規模",即在控制成本的前提下增加規模性。這些 CCA 將被整合到美國空軍和海軍的下一代空中主導(NGAD)系統中。這一龐大的協同作戰體系結構所涉及的首要任務是對空作戰,實現空中優勢(即定位和壓制敵方防空系統--SEAD),但美國空軍為 CCA 設想了 "100 種角色"(攔截、CAS、通信中繼)。盡管如此,關于如何權衡這些系統的成本和作戰性能的辯論仍在繼續。

美國人目前正在研制陸基、大部分可回收的飛機,其基礎是 Kratos XQ-58、GA-ASI 的 Gambit 系列或波音公司的 MQ-28 幽靈蝙蝠,但尚不確定這些系統是否能勝任這一任務。盡管如此,此類系統很可能會成為 CCA 初期增量的主力,并在中期內轉化為美國空軍采購至少一千個單元,與 F-35 和 NGAD 戰斗機組成有人-無人聯隊(MUM-T)。雖然所使用的平臺將取決于所需的性能水平,但似乎可以肯定的是,這些系統將基于模塊化開放式架構和 Skyborg 人工智能系統(其開發工作已經完成)。美國人也在開發無人駕駛空射飛行器(如美國國防部高級研究計劃局的 "長槍 "計劃)。洛克希德-馬丁公司的設計和米切爾研究所的兵棋推演表明,美國最終很可能會確定一系列性能各異的 CCA,有些是消耗型,有些是可回收型,發射方案多種多樣,其中包括少量 "精致 "的可回收系統--高度復雜的無人情報平臺或無人戰斗飛行器(UCAV)。參與米切爾研究所幾項對空作戰任務研究的專家贊成在作戰初期大量使用消耗性 CCA,用于誘餌、ISR、協同空戰和通信中繼,先于第五代戰斗機飛行,一旦敵方能力被削弱,再使用更先進的可回收 CCA,以擴大友軍系統的覆蓋范圍。他們沒有使用現有的 UCAV 解決方案。

許多國家正在效仿美國的做法,盡管資源更為有限:

  • 英國正在與 BAE 系統公司合作,結合 "暴風雪 "全球空中作戰計劃 (GCAP),開發遙控解決方案--輕型和重型兩類陸基可回收遙控飛機,提供不同的先進程度。

  • 澳大利亞正與波音公司合作研制 MQ-28 "幽靈蝙蝠",其概念與美國的 CCA 相似。澳大利亞的這一模型也啟發了韓國人,他們正在研制一種忠誠的僚機無人機,以配合其先進版本的 KF-21 Boramea 戰斗機。

  • 在美國的支持下,日本也正在研發一種能夠在 2030 年代與其未來的 F-X 戰斗機配合使用的遙控無人機。

  • 在戰略競爭對手中,俄羅斯的情況最為不確定。莫斯科正在研制 UCAV 型忠誠僚機,如 S-70 Okhotnik 和 Grom,但西方的制裁和推進解決方案的缺乏大大減緩了這些項目的進展。

  • 中國的情況要好得多,在各種無人機中,中國正在開發一系列協同作戰系統,與有人駕駛戰斗機,特別是殲-20 戰斗機一起以 MUM-T 模式作戰:飛鴻 FH-95 渦輪螺旋槳 ISR 和電子戰無人機以及 FH-97 戰斗無人機,與可回收的美國 CCA 設計相似。

  • 印度也在開發自己的系統體系,即印度斯坦航空有限公司的 "戰斗空中聯合系統"(CATS),包括作為 "母機 "的 "泰賈斯 "有人駕駛戰斗機和幾種遙控飛機,特別是與 MQ-28 和 XQ-58 非常相似的 "勇士"(CATS Warrior)、可回收巡航導彈型遙控飛機 "獵人"(CATS Hunter)和 ALFA 漂浮彈藥。

  • 土耳其已經建立了廣泛依賴無人機的空中力量模式,既用于 DITB,也用于彌補其作戰飛機項目的問題,土耳其還在尋求開發自己的 MUM-T 遙控技術模塊,以及未來的 F-X Kaan 戰斗機: Bayraktar 公司的超音速 Kizilelma UCAV、Anka-3 隱身無人機、Super Simsek 消耗型無人機和土耳其航空航天公司的自主僚機概念。

注意到,對于大多數空軍來說,開發無人飛行器技術構件和 MUM-T 系統是為了滿足彌補常規作戰飛機數量不足的迫切需要,而造成這種不足的原因可能是多方面的。

對于未來空中作戰系統(FCAS)及其協同作戰飛機系統,可以得出哪些結論?在許多方面,法國的情況與上述幾個國家相似。誠然,考慮到多年期 LPM 軍費法案所確定的趨勢,法國未來的空中力量應受益于多種能力的進步,包括下一代戰斗機(NGF),它提供了新一代戰斗機的所有附加值,在未來戰場上不可或缺。盡管如此,RCs 面臨的首要挑戰是糾正空中力量深度不足的問題,隨著越來越多的國家實施 IADS(綜合防空系統)升級,或者美國的保證變得越來越不確定,這一問題可能會繼續惡化,并將變得越來越棘手。這種衰退的后果是眾所周知的:它影響到滿足各種戰略職能要求的能力;更具體地說,在干預方面,它使減員難以為繼,減少了可供選擇的行動范圍,并使其無法保持永久態勢,如動態瞄準。

除了深度問題,遙控飛行器還能從質量上提高空中作戰力量的能力:通過提供 "替身 "能力(可在敵方系統的交戰范圍內使用),它們能提高空中力量的穿透力;它們能使情報和交戰/作戰能力分散和分解,使后者更具彈性,并改善空間和時間覆蓋。發射解決方案的多樣性是真正意義上的多領域,增強了空中力量的靈活性和可用性。

在許多方面,空中客車公司和 MBDA 公司的想法與美國專家的想法(上述米切爾研究所的工作突出表明了這一點)在 FCAS 體系結構的框架內趨向于相當類似的解決方案類型,而 FCAS 體系結構與美國 NGAD 體系結構的順序相同。這適用于通過混合使用可消耗或可回收系統,提供各種發射解決方案來降低 "單位效應成本 "的需要。在實施這些系統之前,必須滿足一些條件。這些條件包括:確定作戰性能與成本之間的權衡、開發特定設備和彈藥的必要性、不可或缺的連接架構,以及載人平臺(其乘員必須管理這些遙控任務)和飛行器本身的自主解決方案。這些飛行器的自主性必須遵守非常嚴格的交戰規則。這些無人機的行動可以在兩個層面上進行管理:當然是在任務領導者層面上,這也是最常見的設想(因此有了忠誠僚機的概念),但也有可能在戰斗管理指揮與控制(BMC2)功能層面上進行管理,而這一功能本身將越來越分散。美國人強調,在這些交戰規則范圍內賦予無人駕駛飛機的自主程度以及對其行動的管理水平是可變和相互依存的。特別是,它們將取決于作戰環境,包括可能在不同程度上斷開、間歇、有限(DIL)的電磁環境,這將影響作為系統之系統的連接組織的作戰云的運作。

從作戰角度看,這些 RC 可以改變所有任務的執行情況,包括以下方面:

  • 在情報功能方面,提供穿透性傳感器網絡,大大擴展了 ISR 系統的覆蓋范圍;

  • 在反空領域,通過與駐扎在遠離前線的戰斗機合作,提供遠程誘餌、干擾、瞄準和交戰能力,一方面可以采取必要的迷惑和飽和行動,使敵方綜合防空系統失明和瓦解(通過 SEAD 和戰斗機掃射);另一方面,可以建立動態瞄準能力,在半隱蔽環境中長時間持續開展 SEAD 工作;

  • 在進攻性反陸(OCL)領域,通過在戰役開始時增加穿透力,然后在較長時間內保持對大片區域的覆蓋,實現攔截動態目標能力的倍增,這對于提高近距離空中支援的可用性也是必要的;

  • 提供先進的傳感器網絡和傳輸中繼器,以擴大作戰管理 C2(BMC2)功能的范圍并增強其穩定性。

總之,在未來空戰中,RC 不乏潛在用途,可以重新創造美國人所談論的、歐洲所急需的 "負擔得起的大規模"。然而,如果要充分挖掘這些系統的潛力,還需要克服許多挑戰。

在看來,必須研究這些系統相對于有人駕駛戰斗機的效率。這種效率取決于一種微妙的妥協:一方面,如果要獲得足夠的數量,這些機器必須保持其消耗性;另一方面,性能和可靠性閾值--考慮到需要預測與綜合防空系統(IADS)的對抗等問題,這種妥協就更難找到了,因為綜合防空系統(IADS)已轉變為飽和狀態。其次,RC 的使用概念必須基于出色的多領域整合,以優化協同作用。這就提出了實施這些無人機的部隊的 C2 靈活性問題,以及 FCAS、NGAD、GCAP 和其他系統之間的多國互操作性問題。就技術資源而言,其前提是戰斗云確實按計劃發展。在這方面,雖然 MUM-T 的建設將部分基于現有技術,例如在連接方面,但它也基于尚待證明的技術前提,特別是在人工智能領域,尤其是管理任務的載人平臺。

正如已經進行或計劃進行的演示所幸運地表明的那樣,這些不同的條件自然支持盡快開始對駐地協調員和作戰云進行漸進式開發,以便為這些多重挑戰的具體解決方案開辟道路。

付費5元查看完整內容

近幾十年來,學術界對無人駕駛飛行器(UAV)的關注明顯激增。先進的無人飛行器能夠執行復雜的飛行動作、在復雜的空間內飛行,并在不斷變化的環境中執行復雜的任務,因此其發展備受關注。這些環境包括采礦、城市搜索與救援 (USAR)、軍事行動等部門,以及包括維護和修理地下基礎設施在內的一系列工業應用。進入密閉空間并在其中作業的迫切需求已成為迫使研究人員推進無人機技術的驅動力。這些進步旨在克服與在受限環境中工作相關的復雜性,解決無人機當前的局限性,同時提高其整體性能能力。

在本論文中,介紹了一套相互關聯的工具,旨在使無人飛行器能夠在受限空間內自主規劃飛行動作。為實現這一目標,本文提出了一種改進的 "教學-重復-再規劃"(I-TRP)迭代策略。該解決方案是一種離線-在線混合方法,包括三個階段戰略中的四個主要模塊。根據手工繪制的路徑(教學階段)和感知到的環境幾何特征,開發了具有新穎占用檢查特性的先進 3D 飛行走廊。此外,結合生成的飛行走廊,還開發了一種通用全局路徑規劃算法 Field D* 的增強版,以通過離線流程(重復階段)制定出近乎最優和平滑的拓撲等效路徑。最后,通過順序凸優化過程(重新規劃階段),制定出具有在線碰撞檢查和避障功能的局部規劃算法。利用無人飛行器機載傳感器捕捉到的地形信息,這種局部規劃可生成后優化的動態可行路徑。

后置參考路徑被用于制定一套包含飛機位置、姿態、速度和加速度的制導指令,以引導無人機飛行在生成的飛行走廊(可能具有復雜的幾何特征)內飛行。所開發的路徑跟蹤方法是通過使用非線性模型預測公式制定的。

所開發的 I-TRP 策略可引導自主無人機在幾乎任何結構化或非結構化環境中到達目的地,這些環境具有不同程度的幾何復雜性,從開放的自由空間到高度雜亂的環境不等。仿真結果表明,在適合實時飛行導航的高效計算過程中,所開發的 I-TRP 策略的能力優于現有機制。

付費5元查看完整內容

隨著技術的飛速發展和威脅環境變得更加復雜,今天的海軍行動經常面臨著具有挑戰性的決策空間。人工智能(AI)的進步為解決海軍行動中日益復雜的問題提供了潛在的解決方案。未來的人工智能系統提供了潛在的意義深遠的好處--提高對態勢的認識,增加對威脅和對手能力和意圖的了解,識別和評估可能的戰術行動方案,并提供方法來預測行動方案決定的結果和影響。人工智能系統將在支持未來海軍作戰人員和保持作戰和戰術任務優勢方面發揮關鍵作用。

人工智能系統為海戰提供了優勢,但前提是這些系統的設計和實施方式能夠支持有效的作戰人員-機器團隊,改善作戰情況的不確定性,并提出改善作戰和戰術結果的建議。實施人工智能系統,以滿足海軍應用的這些苛刻需求,給工程設計界帶來了挑戰。本文確定了四個挑戰,并描述了它們如何影響戰爭行動、工程界和海軍任務。本文提供了通過研究和工程倡議來解決這些挑戰的解決思路。

引言

人工智能是一個包括許多不同方法的領域,目的是創造具有智能的機器(Mitchell 2019)。自動化系統的運作只需要最小的人類輸入,并經常根據命令和規則執行重復性任務。人工智能系統是自動化機器,執行模仿人類智能的功能。它們將從過去的經驗中學習到的新信息融入其中,以做出決定并得出結論。

如表1所述,人工智能系統有兩種主要類型。第一種類型是明確編程的專家系統。Allen(2020,3)將專家系統描述為手工制作的知識系統,使用傳統的、基于規則的軟件,將人類專家的主題知識編入一長串編程的 "如果給定x輸入,則提供y輸出"的規則。這些系統使用傳統的編程語言。第二種類型是ML系統,從大型數據集中進行訓練。ML系統自動學習并從經驗中改進,而不需要明確地進行編程。一旦ML系統被 "訓練",它們就被用于操作,以產生新的操作數據輸入的結果。

表1. 兩類人工智能系統

人工智能系統--包括專家系統和學習系統--為海軍提供了巨大的潛力,在大多數任務領域有不同的應用。這些智能系統可以擴展海軍的能力,以了解復雜和不確定的情況,制定和權衡選擇,預測行動的成功,并評估后果。它們提供了支持戰略、作戰計劃和戰術領域的潛力。

本文確定了工程設計界必須解決的四個挑戰,以便為未來海戰任務實施人工智能系統。表2強調了這四個挑戰領域。這些挑戰包括:(1)復雜的海戰應用領域;(2)需要收集大量與作戰相關的數據來開發、訓練和驗證人工智能系統;(3)人工智能系統工程的一些新挑戰;(4)存在對手的人工智能進展,不斷變化和發展的威脅,以及不斷變化的人工智能系統的網絡弱點。本文側重于海軍戰爭的四個挑戰領域,但認識到這些挑戰可以很容易地被概括為整個軍隊在未來人工智能系統可能應用的所有戰爭領域中廣泛存在的挑戰。

表2. 為海軍實施人工智能系統的四個挑戰領域

挑戰一:戰爭復雜性

人工智能正被視為一種能力,可應用于廣泛的應用,如批準貸款、廣告、確定醫療、規劃航運路線、實現自動駕駛汽車和支持戰爭決策。每個不同的應用領域都提出了一系列的挑戰,人工智能系統必須與之抗衡,才能成為一種增加價值的可行能力。表3比較了一組領域應用的例子,從潛在的人工智能系統解決方案的角度說明了挑戰的領域。該表在最上面一行列出了一組10個因素,這些因素對一個特定的應用程序產生了復雜性。根據每個因素對作為實施人工智能的領域的整體復雜性的貢獻程度,對六個應用領域的特征進行了定性評估。顏色代表低貢獻(綠色)、中貢獻(黃色)和高貢獻(紅色)。

表3中最上面一行顯示的特征包括: (1)認識上的不確定性水平(情況知識的不確定性程度),(2)情況的動態性,(3)決策時間表(可用于決策的時間量),(4)人類用戶和人工智能系統之間的互動所涉及的錯綜復雜的問題、 (5)資源的復雜性(數量、類型、它們之間的距離以及它們的動態程度),(6)是否涉及多個任務,(7)所需訓練數據集的復雜性(大小、異質性、有效性、脆弱性、可獲得性等 8)對手的存在(競爭者、黑客或徹頭徹尾的敵人),(9)可允許的錯誤幅度(多少決策錯誤是可以接受的),以及(10)決策后果的嚴重程度。該表的定性比較旨在提供一個高層次的相對意義,即基于一組樣本的貢獻因素,不同應用領域的不同復雜程度。

表3. 影響應用復雜性的因素比較

對于所有的應用領域來說,人工智能系統的工程都是具有挑戰性的。人工智能系統在本質上依賴于具有領域代表性的數據。獲得具有領域代表性的數據會帶來基于數據大小、可用性、動態性和不確定性的挑戰。決策時間--由情況的時間動態決定--會給人工智能系統工程帶來重大挑戰--特別是當一個應用領域的事件零星發生和/或意外發生時;以及當決策是時間緊迫的時候。具有更多決策時間、充分訪問大型數據集、直接的用戶互動、完善的目標和非致命后果的應用,如貸款審批、廣告、醫療診斷(在某種程度上)面臨工程挑戰,但其復雜程度較低。確定最佳運輸路線和為自動駕駛汽車設計AI系統是更復雜的工作。這些應用是動態變化的,做決定的時間較短。航運路線將在可能的路線數量上具有復雜性--這可能會導致許多可能的選擇。然而,航運錯誤是有空間的,而且后果通常不會太嚴重。對于自動駕駛汽車來說,決策錯誤的空間非常小。在這種應用中,決策失誤會導致嚴重的事故。

影響開發支持海戰決策的人工智能系統的因素在表3所示的所有類別中都具有高度的復雜性。因此,戰術戰爭領域對工程和實施有效的人工智能系統作為解決方案提出了特別棘手的挑戰。表4強調了導致這種復雜性的海戰領域的特點。作為一個例子,海軍打擊力量的行動可以迅速從和平狀態轉變為巨大的危險狀態--需要對威脅保持警惕并采取適當的反應行動--所有這些都是在高度壓縮的決策時間內進行。戰術威脅可能來自水下、水面、空中、陸地、太空,甚至是網絡空間,導致需要處理多種時間緊迫的任務。由于海軍和國防資產在艦艇、潛艇、飛機、陸地和太空中,戰術決策空間必須解決這些分散和多樣化資源的最佳協作使用。制定有效的戰術行動方案也必須在高度動態的作戰環境中進行,并且只有部分和不確定的情況知識。決策空間還必須考慮到指揮權、交戰規則和戰術理論所帶來的限制。人類作為戰術決策者的角色增加了決策空間的復雜性--信息過載、操作錯誤、人機信任和人工智能的模糊性/可解釋性問題等挑戰。最后,對于戰術決策及其可能的后果來說,風險可能非常大。

表4. 導致戰術決策復雜性的因素

解決高度復雜的決策領域是對海軍的挑戰。人工智能為解決海軍作戰的復雜性提供了一個潛在的解決方案,即處理大量的數據,處理不確定性,理解復雜的情況,開發和評估決策選擇,以及理解風險水平和決策后果。Desclaux和Prestot(2020)提出了一個 "認知三角",其中人工智能和大數據被應用于支持作戰人員,以實現信息優勢、控制論信心和決策優勢。約翰遜(2019年)開發了一個工程框架和理論,用于解決高度復雜的問題空間,這些問題需要使用智能和分布式人工智能系統來獲得情況意識,并做出適應動態情況的協作行動方案決定。約翰遜(2020a)建立了一個復雜的戰術場景模型,以證明人工智能輔助決策對戰術指揮和控制(C2)決策的好處。約翰遜(2020b)開發了一個預測分析能力的概念設計,作為一個自動化的實時戰爭游戲系統來實施,探索不同的可能的戰術行動路線及其預測的效果和紅色部隊的反應。首先,人工智能支持的C2系統需要描述戰術行動期間的復雜程度,然后提供一個自適應的人機組合安排來做出戰術決策。這個概念包括根據對目前戰術情況的復雜程度最有效的方法來調整C2決策的自動化水平(人與機器的決策角色)。約翰遜(2021年)正在研究這些概念性工程方法在各種防御用例中的應用,包括空中和導彈防御、超視距打擊、船舶自衛、無人機操作和激光武器系統。

在海軍作戰中實施人工智能系統的一個額外挑戰是在戰術邊緣施加的限制。分散的海軍艦艇和飛機的作戰行動構成了戰術邊緣--在有限的數據和通信下作戰。"在未來,戰術邊緣遠離指揮中心,通信和計算資源有限,戰場形勢瞬息萬變,這就導致在嚴酷復雜的戰地環境中,網絡拓撲結構連接薄弱,變化迅速"(Yang et. al. 2021)。戰術邊緣網絡也容易斷開連接(Sridharan et. al. 2020)。相比之下,許多商業人工智能系統依賴于基于云的或企業內部的處理和存儲,而這些在海戰中是不存在的。在戰術邊緣實施未來的人工智能系統時,必須進行仔細的設計考慮,以了解哪些數據和處理能力可用。這可能會限制人工智能系統在邊緣所能提供的決策支持能力。

在軍事領域使用人工智能必須克服復雜性的挑戰障礙,在某些情況下,人工智能的加入可能會增加復雜性。辛普森等人(2021)認為,將人工智能用于軍事C2可能會導致脆弱性陷阱,在這種情況下,自動化功能增加了戰斗行動的速度,超出了人類的理解能力,最終導致 "災難性的戰略失敗"。Horowitz等人(2020)討論了通過事故、誤判、增加戰爭速度和升級以及更大的殺傷力來增加國際不穩定和沖突。Jensen等人(2020)指出,人工智能增強的軍事系統增加的復雜性將增加決策建議和產生的信息的范圍、重要性和意義的不確定性;如果人類決策者對產出缺乏信心和理解,他們可能會失去對人工智能系統的信任。

挑戰二:數據需求

實施人工智能系統的第二個挑戰是它們依賴并需要大量的相關和高質量的數據用于開發、訓練、評估和操作。在海戰領域滿足這些數據需求是一個挑戰。明確編程的專家系統在開發過程中需要數據進行評估和驗證。ML系統在開發過程中對數據的依賴性甚至更大。圖1說明了ML系統如何從代表作戰條件和事件的數據集中 "學習"。

ML系統的學習過程被稱為被訓練,開發階段使用的數據被稱為訓練數據集。有幾種類型的ML學習或訓練--它們是監督的、無監督的和強化的方法。監督學習依賴于地面真相或關于輸出值應該是什么的先驗知識。監督學習算法的訓練是為了學習一個最接近給定輸入和期望輸出之間關系的函數。無監督學習并不從地面真相或已知的輸出開始。無監督學習算法必須在輸入數據中推斷出一個自然結構或模式。強化學習是一種試錯法,允許代理或算法在獎勵所需行為和/或懲罰不需要的行為的基礎上學習。所有三種類型的ML學習都需要訓練數據集。在部署后或運行階段,ML系統繼續需要數據。

圖1顯示,在運行期間,ML系統或 "模型 "接收運行的實時數據,并通過用其 "訓練 "的算法處理運行數據來確定預測或決策結果。因此,在整個系統工程和采購生命周期中,ML系統與數據緊密相連。ML系統是從訓練數據集的學習過程中 "出現 "的。ML系統是數據的質量、充分性和代表性的產物。它們完全依賴于其訓練數據集。

圖1. 使用數據來訓練機器學習系統

美國海軍開始認識到對這些數據集的需求,因為許多領域(戰爭、供應鏈、安全、后勤等)的更多人工智能開發人員正在了解人工智能解決方案的潛在好處,并開始著手開發人工智能系統。在某些情況下,數據已經存在并準備好支持人工智能系統的開發。在其他情況下,數據存在但沒有被保存和儲存。最后,在其他情況下,數據并不存在,海軍需要制定一個計劃來獲得或模擬數據。

收集數據以滿足海軍領域(以及更廣泛的軍事領域)的未來人工智能/ML系統需求是一個挑戰。數據通常是保密的,在不同的項目和系統中被分隔開來,不容易從遺留系統中獲得,并且不能普遍代表現實世界行動的復雜性和多樣性。要從并非為數據收集而設計的遺留系統中獲得足夠的數據,可能非常昂貴和費時。數據收集可能需要從戰爭游戲、艦隊演習、系統測試、以及建模和模擬中收集。此外,和平時期收集的數據并不代表沖突和戰時的操作。海軍(和軍方)還必須教導人工智能系統在預計的戰時行動中發揮作用。這將涉及想象可能的(和可能的)戰時行動,并構建足夠的ML訓練數據。

數據收集的另一個挑戰是潛在的對抗性黑客攻擊。對于人工智能/ML系統來說,數據是一種珍貴的商品,并提出了一種新的網絡脆弱性形式。對手可以故意在開發過程中引入有偏見或腐敗的數據,目的是錯誤地訓練AI/ML算法。這種邪惡的網絡攻擊形式可能很難被發現。

海軍正在解決這一數據挑戰,開發一個數據基礎設施和組織來管理已經收集和正在收集的數據。海軍的Jupiter計劃是一個企業數據和分析平臺,正在管理數據以支持AI/ML的發展和其他類型的海軍應用,這些應用需要與任務相關的數據(Abeyta,2021)。Jupiter努力的核心是確定是否存在正確的數據類型來支持人工智能應用。為了生產出在行動中有用的人工智能/ML系統,海軍需要在游戲中保持領先,擁有能夠代表各種可能情況的數據集,這些情況跨越了競爭、沖突和危機期間的行動范圍。因此,數據集的開發和管理必須是一項持續的、不斷發展的努力。

挑戰三:工程化人工智能系統

第三個挑戰是,人工智能系統的工程需要改變傳統的系統工程(SE)。在傳統系統中,行為是設定的(確定性的),因此是可預測的:給定一個輸入和條件,系統將產生一個可預測的輸出。一些人工智能解決方案可能涉及到系統本身的復雜性--適應和學習--因此產生不可預見的輸出和行為。事實上,一些人工智能系統的意圖就是要做到這一點--通過承擔一些認知負荷和產生智能建議,與人類決策者合作。表5強調了傳統系統和人工智能系統之間的區別。需要有新的SE方法來設計智能學習系統,并確保它們對人類操作者來說是可解釋的、可信任的和安全的。

SE作為一個多學科領域,在海軍中被廣泛使用,以將技術整合到連貫而有用的系統中,從而完成任務需求(INCOSE 2015)。SE方法已經被開發出來用于傳統系統的工程設計,這些系統可能是高度復雜的,但也是確定性的(Calvano和John 2004)。如表5所述,傳統系統具有可預測的行為:對于一個給定的輸入和條件,它們會產生可預測的輸出。然而,許多海軍應用的人工智能系統在本質上將是復雜的、適應性的和非決定性的。Raz等人(2021年)解釋說,"SE及其方法的雛形基礎并不是為配備人工智能(即機器學習和深度學習)的最新進展、聯合的多樣化自主系統或多領域操作的工程系統而設想的。" 對于具有高風險后果的軍事系統來說,出錯的余地很小;因此,SE過程對于確保海軍中人工智能系統的安全和理想操作至關重要。

表5. 傳統系統和人工智能系統的比較

在整個系統生命周期中,將需要改變SE方法,以確保人工智能系統安全有效地運行、學習和適應,以滿足任務需求并避免不受歡迎的行為。傳統的SE過程的大部分都需要轉變,以解決人工智能系統的復雜和非確定性的特點。在人工智能系統的需求分析和架構開發階段需要新的方法,這些系統將隨著時間的推移而學習和變化。系統驗證和確認階段將必須解決人工智能系統演化出的突發行為的可能性,這些系統的行為不是完全可預測的,其內部參數和特征正在學習和變化。運營和維護將承擔重要的任務,即隨著人工智能系統的發展,在部署期間不斷確保安全和理想的行為。

SE界意識到,需要新的流程和實踐來設計人工智能系統。國際系統工程師理事會(INCOSE)最近的一項倡議正在探索開發人工智能系統所需的SE方法的變化。表6強調了作為該倡議一部分的五個SE重點領域。除了非決定性的和不斷變化的行為,人工智能系統可能會出現新類型的故障模式,這些故障模式是無法預料的,可能會突然發生,而且其根本原因可能難以辨別。穩健設計--或確保人工智能系統能夠處理和適應未來的情景--是另一個需要新方法的SE領域。最后,對于有更多的人機互動的人工智能系統,必須仔細注意設計系統,使它們值得信賴,可以解釋,并最終對人類決策者有用。

表6.人工智能系統工程中的挑戰(改編自:Robinson,2021)。

SE研究人員正在研究人工智能系統工程所涉及的挑戰,并開發新的SE方法和對現有SE方法的必要修改。Johnson(2019)開發了一個SE框架和方法,用于工程復雜的適應性系統(CASoS)解決方案,涉及分布式人工智能系統的智能協作。這種方法支持開發智能系統的系統,通過使用人工智能,可以協作產生所需的突發行為。Johnson(2021)研究了人工智能系統產生的潛在新故障模式,并提出了一套跨越SE生命周期的緩解和故障預防策略。她提出了元認知,作為人工智能系統自我識別內部錯誤和失敗的設計方案。Cruz等人(2021年)研究了人工智能在空中和導彈防御應用中使用人工智能輔助決策的安全性。他們為計劃使用人工智能系統的軍事項目編制了一份在SE開發和運行階段需要實施的策略和任務清單。Hui(2021年)研究了人類作戰人員與人工智能系統合作進行海軍戰術決策時的信任動態。他制定了工程人工智能系統的SE策略,促進人類和機器之間的 "校準 "信任,這是作為適當利用的最佳信任水平,避免過度信任和不信任,并在信任失敗后涉及信任修復行動。Johnson等人(2014)開發了一種SE方法,即協同設計,用于正式分析人機功能和行為的相互依賴性。研究人員正在使用協同設計方法來設計涉及復雜人機交互的穩健人工智能系統(Blickey等人,2021年,Sanchez 2021年,Tai 2021年)。

數據的作用對于人工智能系統的開發和運行來說是不可或缺的,因此需要在人工智能系統的SE生命周期中加入一個持續不斷的收集和準備數據的過程。Raz等人(2021)提出,SE需要成為人工智能系統的 "數據策劃者"。他們強調需要將數據策劃或轉化為可用的結構,用于開發、訓練和評估AI算法。French等人(2021)描述了需要適當的數據策劃來支持人工智能系統的發展,他們強調需要確保數據能夠代表人工智能系統將在其中運行的預期操作。他們強調需要安全訪問和保護數據,以及需要識別和消除數據中的固有偏見。

SE界正處于發展突破和進步的早期階段,這些突破和進步是在更復雜的應用中設計人工智能系統所需要的。這些進展需要與人工智能的進展同步進行。在復雜的海軍應用以及其他非海軍和非軍事應用中實施人工智能系統取決于是否有必要的工程實踐。SE實踐必須趕上AI的進步,以確保海軍持續的技術優勢。

挑戰四:對抗性

海軍在有效實施人工智能系統方面面臨的第四個挑戰是應對對手。海軍的工作必須始終考慮對手的作用及其影響。表7確定了在海軍實施人工智能系統時必須考慮的與對手有關的三個挑戰:(1)人工智能技術在許多領域迅速發展,海軍必須注意同行競爭國的軍事應用進展,以防止被超越,(2)在海軍應用中實施人工智能系統和自動化會增加網絡脆弱性,以及(3)海軍應用的人工智能系統需要發展和適應,以應對不斷變化的威脅環境。

表7. AI系統的對抗性挑戰

同行競爭國家之間發展人工智能能力的競賽,最終是為了進入對手的決策周期,以便比對手更快地做出決定和采取行動(Schmidt等人,2021年)。人工智能系統提供了提高決策質量和速度的潛力,因此對獲得決策優勢至關重要。隨著海軍對人工智能解決方案的探索,同行的競爭國家也在做同樣的事情。最終實現將人工智能應用于海軍的目標,不僅僅取決于人工智能研究。它需要適當的數據收集和管理,有效的SE方法,以及仔細考慮人類與AI系統的互動。海軍必須承認,并采取行動解決實施人工智能系統所涉及的挑戰,以贏得比賽。

網絡戰是海軍必須成功參與的另一場競賽,以保持在不斷沖擊的黑客企圖中的領先地位。網絡戰的特點是利用計算機和網絡來攻擊敵人的信息系統(Libicki, 2009)。海軍對人工智能系統的實施導致了更多的網絡攻擊漏洞。人工智能系統的使用在本質上依賴于訓練和操作數據,導致黑客有機會在開發階段和操作階段用腐敗的數據欺騙或毒害系統。如果一個對手獲得了對一個運行中的人工智能系統的控制,他們可能造成的傷害將取決于應用領域。對于支持武器控制決策的自動化,其后果可能是致命的。海軍必須注意人工智能系統開發過程中出現的特殊網絡漏洞。必須為每個新的人工智能系統實施仔細的網絡風險分析和網絡防御戰略。海軍必須小心翼翼地確保用于開發、訓練和操作人工智能系統的數據集在整個人工智能系統的生命周期中受到保護,免受網絡攻擊(French等人,2021)。

威脅環境的演變是海軍在開發AI系統時面臨的第三個對抗性挑戰。對手的威脅空間隨著時間的推移不斷變化,武器速度更快、殺傷力更大、監視資產更多、反制措施更先進、隱身性更強,這對海軍能夠預測和識別新威脅、應對戰斗空間的未知因素構成了挑戰。尤其是人工智能系統,必須能夠加強海軍感知、探測和識別新威脅的能力,以幫助它們從未知領域轉向已知領域的過程。他們必須適應新的威脅環境,并在行動中學習,以了解戰斗空間中的未知因素,并通過創新的行動方案快速應對新的威脅(Grooms 2019, Wood 2019, Jones et al 2020)。海軍可以利用人工智能系統,通過研究特定區域或領域的長期數據,識別生活模式的異常(Zhao等人,2016)。最后,海軍可以探索使用人工智能來確定新的和有效的行動方案,使用最佳的戰爭資源來解決棘手的威脅情況。

結論

人工智能系統為海軍戰術決策的優勢提供了相當大的進步潛力。然而,人工智能系統在海戰應用中的實施帶來了重大挑戰。人工智能系統與傳統系統不同--它們是非決定性的,可以學習和適應--特別是在用于更復雜的行動時,如高度動態的、時間關鍵的、不確定的戰術行動環境中,允許的誤差范圍極小。本文確定了為海戰行動實施人工智能系統的四個挑戰領域:(1)開發能夠解決戰爭復雜性的人工智能系統,(2)滿足人工智能系統開發和運行的數據需求,(3)設計這些新穎的非確定性系統,以及(4)面對對手帶來的挑戰。

海軍必須努力解決如何設計和部署這些新穎而復雜的人工智能系統,以滿足戰爭行動的需求。作者在這一工作中向海軍提出了三項建議。

1.第一個建議是了解人工智能系統與傳統系統之間的差異,以及伴隨著人工智能系統的開發和實施的新挑戰。

人工智能系統,尤其是那些旨在用于像海戰這樣的復雜行動的系統,其本身就很復雜。它們在應對動態戰爭環境時將會學習、適應和進化。它們將變得不那么容易理解,更加不可預測,并將出現新型的故障模式。海軍將需要了解傳統的SE方法何時以及如何在這些復雜系統及其復雜的人機交互工程中失效。海軍將需要了解數據對于開發人工智能系統的關鍵作用。

2.第二個建議是投資于人工智能系統的研究和開發,包括其數據需求、人機互動、SE方法、網絡保護和復雜行為。

研究和開發是為海戰行動開發AI系統解決方案的關鍵。除了開發復雜的戰術人工智能系統及其相關的人機協作方面,海軍必須投資研究新的SE方法來設計和評估這些適應性非決定性系統。海軍必須仔細研究哪些新類型的對抗性網絡攻擊是可能的,并且必須開發出解決這些問題的解決方案。海軍必須投資于收集、獲取和維護代表現實世界戰術行動的數據,用于人工智能系統開發,并確保數據的相關性、有效性和安全性。

3.第三個建議是承認挑戰,并在預測人工智能系統何時準備好用于戰爭行動方面采取現實態度。

盡管人工智能系統正在許多領域實施,但海軍要為復雜的戰術戰爭行動實施人工智能系統還需要克服一些挑戰。人工智能系統在較簡單應用中的成功并不能保證人工智能系統為更復雜的應用做好準備。海軍應該保持一種現實的認識,即在人工智能系統準備用于戰爭決策輔助工具之前,需要取得重大進展以克服本文所討論的挑戰。實現人工智能系統的途徑可以依靠建模和模擬、原型實驗、艦隊演習以及測試和評估。可以制定一個路線圖,彌合較簡單應用的人工智能和復雜應用的人工智能之間的差距--基于一個積木式的方法,在為逐漸復雜的任務開發和實施人工智能系統時吸取經驗教訓。

海軍將從未來用于戰術戰爭的人工智能系統中獲益。通過安全和有效地實施人工智能系統,戰術決策優勢的重大進步是可能的。此外,海軍必須跟上(或試圖超越)對手在人工智能方面的進展。本文描述了為在海戰中實施人工智能系統而必須解決的四個挑戰。通過對這些新穎而復雜的人工智能系統的深入了解,對研究和開發計劃的投資,以及對人工智能技術進步時限的現實預期,海軍可以在應對這些挑戰方面取得進展。

付費5元查看完整內容

無人機系統(UAS)和其他相關技術(人工智能或AI、無線數據網絡、擊敗敵方電子戰的電子支援措施)已經發展到一個新的地步,無人機系統被認為原則上能夠執行目前由有人駕駛飛機執行的幾乎任何任務。

因此,許多武裝部隊正在積極試驗有人-無人編隊協作(不同的縮寫為MUM-T或MUMT)。通過將有人和無人資產作為一個單位而不是單獨部署,無人機最大限度地發揮了其作為力量倍增器的價值,提高了在高度競爭性空域的殺傷力和生存能力。無人機系統的直接控制權可由飛行中的有人單位或單獨的空中、地面或海上指揮中心掌握。隨著時間的推移,人工智能的進步將允許無機組人員的編隊元素自主地執行大部分任務。這最終可以將人類干預減少到最低,只保留任務目標的輸入、交戰規則的定義和武器釋放的授權。事實上,這種自主能力對于MUM-T概念來說是至關重要的,以防止人類飛行員被控制無人機的額外任務所淹沒。 無人機系統的主要應用包括:

  • 目標偵查;
  • 為有人駕駛飛機進行戰損評估;
  • 電子戰;
  • 各種有人或無人平臺之間的數據和通信中繼/接口;
  • 武裝護衛。

在“武裝護衛”角色中,無人機系統可以在有人平臺執行任務之前壓制敵人的防空設施(SEAD角色),或者作為一個外部武器庫,使單一的有人駕駛飛機在每次任務中能夠攻擊大量的目標。

  • 1 美國陸軍MUM-T
    • 旋翼系統
    • 推進能力建設
    • 下一代有人-無人編隊步驟
    • 韓國
  • 2 美國空軍MUM-T
    • 美國空軍SKYBORG
    • SKYBORG 路線圖
    • 朝記錄項目發展
    • ATS/忠誠僚機
    • 英國皇家空軍“蚊子(MOSQUITO)”
    • FCAS - 未來戰斗航空系統
    • FCAS - 法國PANG
  • 3 美國海軍MUM-T
    • 美國海軍MQ-25 STINGRAY加油機
    • 無人駕駛型F/A-18測試
    • 美國海軍的下一代空中優勢
  • 4 其他國家發展狀況
付費5元查看完整內容

無人系統,無論是遙控操作還是不同程度的自主操作,已經成為國防庫存的一部分,除了用于情報、監視和偵察(ISR)之外,還迅速成為作戰部隊的重要組成部分。無人駕駛飛行器(UAVs)具有數天的續航能力和洲際范圍的打擊能力,正在重新定義戰爭理論和作戰戰術。海軍和地面部隊將成為無人系統的新領地,而這一領地至今仍由無人機主導。真正的轉折點將是人類和自主無人系統的合作,無論是在任何戰斗空間。另一個領域將是空中、地面和海軍異質無人系統的合作,并迅速形成業務自主團隊。重要的是要認識到,無論是基于確定性模型還是人工智能的算法計算,都不能取代人類對手頭關鍵信息的戰術判斷。所謂的態勢感知可以由經驗豐富的戰場指揮官來理解,而不是由實驗室訓練的自主系統來理解。在復雜的情況下,特別是在識別朋友和敵人、誘餌以及確定目標的優先次序方面,團隊合作將是一個挑戰。自主系統將需要學會節約能源和彈藥,并具備應對不利情況的生存技能。另一個重要的領域將是開發 "天生自主 "的平臺,其性能將超過所有的載人平臺,特別是大型平臺。本質上,人類注意力持續時間的限制和生物的必要性是國防系統設計者的主要挑戰。無人自主系統(UAS)克服了這些限制,同時放棄了人類獨特的敏銳性和啟發式知識。緊湊的可能性、承擔風險的能力和巨大的耐力和范圍,以及最重要的是,可以部署的數量超過了每一個方面。無人戰場系統領域仍處于起步階段,具有先驅者的優勢,因此將永遠決定領導者的地位。該領域屬于那些敢于和不畏懼未知和不確定因素的人。這個領域的創新的簡單規則是快速失敗和快速發展。

1 引言

機器人的第一個應用是在核反應堆中裝載和收回燃料棒,這是一項危險的任務,絕對需要使用機械手和夾持器遠程完成。由于對柔性制造工廠的需要,工業機器人大舉進入生產線。由于機器人具有適應新任務的靈活性,應用機器人完成重復以及危險的任務已成為該行業的一種常態。這些系統的遠程操作,無論有無電線,都已經被業界掌握。在第二次世界大戰期間,德國人使用了歌利亞履帶式地雷。埃弗雷特很好地記錄了這個遠程操作系統和其他無人系統的發展。歌利亞 "的基本思想是用小而便宜的東西殺死大東西;即使在今天,這也是所有無人系統的主要思想,廣泛地說,它是用更少的錢實現更多的東西。任何未來的國防規劃都無法想象會遺漏無人系統。傳統的防御技術一直依賴于傳感器、推進器、制導、軍備等核心技術的進步,并在此基礎上發展壯大。毫無疑問,這些核心技術的研究將以同樣的強度繼續下去,然而,使用無人平臺的創新將為部隊提供前所未有的力量。事實上,今天的無人系統所使用的技術很早就有了,是創新的動力和新的信心水平在推動著新的增長。

日本特種部隊的神風特攻隊飛行員在一次自殺任務中展示了飛行器的殺傷力,突出了這樣一個事實:如果飛行員遠程操作飛機,冒險的能力會成倍增加。然而,無人駕駛飛行器(UAVs)的第一個更高的技術應用是用于情報、監視和偵察(ISR)的作用,與有人駕駛的飛機相比,具有更高的續航能力和射程,以及更高的被擊落接受度。特別是在航空平臺上,取消機上人員提供了巨大的優勢;首先,消除了飛行員寶貴生命的風險,其次,可以獲得額外的空間和重量。載人飛機只會在非常特殊的情況下參與,將大部分任務留給遙控平臺,包括戰斗任務。

有必要回顧一下美國的U2間諜飛機在非常高的高度飛行,對蘇聯執行偵察任務。最初沒有武器來擊落這些飛機。這種導彈最終被開發出來。美國開發的SR-71飛機可以以3.4馬赫的速度飛行,但很快就退役了,改用間諜衛星。現在是無人機填補這一空間的時候了,即使不是完全填補。一群無人機聯網并覆蓋一個巨大的區域可以提供大量的情報和通信覆蓋。

隨著學習算法的成熟,人工智能(AI)作為主要推動力的出現將成為無人駕駛系統的主要工作動力。具體來說,基于人工智能的圖像處理和推理引擎是最近一段時間的主要發展。其中包括人臉識別,目標的識別和分類--一個人是拿著槍還是拿著杖,一輛車是否是值得的軍事目標。重要的方面是人工智能系統可以得到多好的訓練,他們的推斷能力有多強,當出現反直覺的情況時,會發生什么。必須接受的是,在該領域有經驗的人可能會很慢,而且可能會犯錯,但當涉及到未知因素時,他的啟發式方法和直覺可能是更好的選擇。

整個現代戰爭都取決于通信領域,誰在戰場上主導了這個領域,誰就會有巨大的優勢。整個無人系統如果沒有一個強大的通信系統,就會使自己失去作用。能夠與指揮中心有效溝通的空間資產甚至更加重要。

最令人興奮的是 "蜂群 "的概念,其中蜂群的單個實體可能有非常簡單的傳感器和控制器,但在一個具有簡單蜂群算法的編隊中,它們可以成為一支重要的力量,當它們攻擊傳統平臺時,沒有人能夠對付它們。想象一下,當反艦導彈在其目標附近投放蜂群時,這些攜帶小型炸藥的蜂群實體可以擊中戰艦的重要系統,或者可以做任何事情,包括將戰艦圍困。目前,唯一可以想象的針對蜂群的可靠對策是反蜂群。

科學和技術研究將在核心技術和材料科學方面繼續保持同樣的活力,特別是在非金屬材料方面。未來的無人系統研究將更多地以應用為導向,學術界和國防科學家共同合作,調整和配置技術,包括非常嚴肅的實驗室模擬和實際場景的仿真,以及對必須處理這些情況的人工智能引擎的培訓。

2 未來的研究方向

審慎的做法是看一下一些可能的未來主旨領域,在這些領域中,可以預期會有顯著的增長。建造未來無人系統的技術將與建造傳統戰爭機器的技術相同,然而,有幾個重要的應用研究領域將需要立即關注和努力。

2.1 通信系統

首先,最重要的是要有能力與異質系統進行無縫通信,這些系統將有不同的起源和建造日期。所有的東西都不可能是最新的和最先進的。有必要建立一個骨干網,以無縫地處理所有最先進的和傳統的系統,以便指揮中心的人類指揮官能夠快速更新和理解情況,并給這些無人駕駛系統提供適當的指示。將需要具有容錯和快速重新配置能力的分布式通信網絡。這些網絡應該能夠使用多種資源,即衛星、無人機、地面光纖網絡、帶有或不帶中繼器的不同頻段的無線網絡。這些系統將是軟件驅動的,有能力用任何可用的最佳資源建立從戰場到指揮中心的聯系。通信系統需要應對固定電話的物理破壞、無線鏈接的干擾等。毋庸強調,通信網絡應該有強大的加密、解密和認證系統。據說,在未來的任何戰爭中,誰主導了電磁空間,誰就是贏家。應該承認,現代系統有很強的屏蔽能力和抗干擾能力,它們可以 甚至可以承受高能量的脈沖。使敵方平臺失明到支配水平所需的能量水平是巨大的,不切實際的,甚至是不可能的。其次,利用衛星、無人機作為通信平臺,可以快速連接備用通信渠道。總而言之,誰擁有更好的和強大的通信網絡,誰能更快地處理數據并有效地利用現有的數據,誰就能在戰場上處理無人駕駛系統方面擁有巨大的優勢。

2.2 有人與無人機編隊

有人與無人機編隊(MUMT)是一個預期的增長方向,其主要目標是在最大限度保護載人平臺的情況下有效打擊目標。這帶來了一個優越的形勢思考者--人類--的優勢,這樣他就可以指導無人平臺達到最佳效果。有人-無人合作可能有許多技術挑戰,但它似乎是一個值得追求的研究領域。一個典型的場景可能是傳統戰斗機與無人平臺一起飛行。美國的國際防務、航空航天和安全公司BAE系統公司已經宣布了無人駕駛僚機的概念,并且可以使用無人駕駛僚機的戰斗機具有更多的生存能力和更大的殺傷力。諾斯羅普-格魯曼公司也發表了一篇論文,提出了一個典型的作戰場景,即一群無人機干擾敵人的雷達,并在進行救援行動時自主地參與戰斗。有人和無人平臺之間的合作以及戰術場景需要由各自的專業人員進行想象和制定。團隊合作的不同場景必須被模擬、仿真,并對人工智能引擎和人類作戰員進行培訓。

2.3 蜂群系統

無人機、無人地面飛行器和無人水面及水面下系統組成的蜂群可以對沒有任何反制措施的常規平臺造成不成比例的破壞。一輛作戰坦克如果被一群炸藥包圍,僅憑數量就沒有生存的機會。電子對抗措施可能起作用,也可能不起作用,這取決于這些實體被設計成如何在受挑戰的環境中運作。很難想象常規平臺在面對蜂群時的命運。使用誘餌,如照明彈、金屬箔片、高強度輻射來蒙蔽搜尋者、反射器、熱信號模擬器的經典方法可能對蜂群沒有用。它不像一個單一的彈頭朝向目標,你甚至可以用反導彈系統將其擊落。無人機群更容易建造和部署,它們可以由一個較大的無人機運送到離目標足夠近的地方,但又足夠遠以保證自身的安全。它類似于從戰斗機上遠距離發射的反艦導彈。飛機從未進入艦艇防空導彈的射程,但其射程足以讓反艦導彈到達目標。

蜂群依賴于蜂群算法,這些算法將通過在計算機模型或實驗室的實驗裝置中的模擬環境中進行訓練而發展。Eric Bonabeau、Marco Dorigo和Guy Theraulaz在他們的書中提供了對蜂群算法的良好見解。人工神經網絡(ANN)、遺傳算法(GA)、模糊邏輯、圖論等的組合,成為學習和建立人工智能系統的基本工具。這些基于人工智能的系統和一些確定性的算法將能夠處理蜂群操作的一些重要方面,即:蜂群的傳播、目標的識別和將目標分配給蜂群成員、目標的優先次序、蜂群的領導和等級制度、它們的操作情緒,即:保存能量、保壘、全力攻擊或撤退。就像自然界的蜂群或獸群一樣,它們需要具備生物世界的一些特征,以獲得更好的效率和生存。有些情況可能是為了部落的更大利益而進行自我犧牲。一個直接的需要是解決識別朋友或敵人的問題,并在與指揮中心失去聯系時以最佳方式采取行動。一群無人駕駛的戰斗坦克的成本和大小將是四分之一,并且有更多的裝甲來打敗傳統的反坦克射擊。

在極低地球軌道上的太空衛星群具有較短的壽命,將給部隊帶來優勢。將會有一種 "軍事物聯網 "的出現。

未來的戰場如果沒有各種蜂群將是不可想象的。武裝部隊別無選擇,要么盡快接納它們,要么面對它們。

2.4 先天自主性

不難預見,超音速無人駕駛作戰飛機的出現,以及類似的無人駕駛作戰坦克、無人駕駛海軍艦艇和潛艇的出現,與現有的常規平臺相比,其殺傷力要大很多。這些系統將以自上而下的方式設計為 "天生自主",并能夠在人類指揮官的指揮下以群組的形式運行,戰術上避開障礙物、與指定目標交戰等任務都是自主完成的。諾斯羅普-格魯曼公司的X-47B已經完成了半自主和自主模式的飛行試驗。預計它將在半自主模式下投入運行。

直觀地講,可以理解的是,不能讓自主系統自己操作,因為它們是根據所學的內容來操作的,對于不熟悉的和大綱以外的問題,人工智能可能沒有答案,但在完全不確定的情況下,人類的理解力可能要好得多。像無人駕駛作戰坦克這樣的大型平臺可以在半自主模式下運行,其中發射武器的決定將由人類控制,而其他操作,如避開障礙物和移動將是自主的。一個操作員控制幾個平臺的可能性將需要有效的算法開發,最重要的是培訓。

將接近報廢的常規平臺轉換為無人系統是另一種選擇,以便在 "先天自主"類型的系統擴散之前擁有一個相當大的無人系統基地。這樣的轉換需要非常小心,因為大多數子系統可能需要調整和手動調整,甚至是修改。戰斗機、作戰坦克、海軍艦艇包括潛艇的轉換可能需要更深入的研究,如果是許多大型平臺,可能不值得努力。未來具有可比火力的無人系統在尺寸和重量上將更小,并將攜帶更多的傳感器,而且必然會有一個完整的健康監測系統。

2.5 改變戰場

推動未來發展的另一個重要方面是大型平臺面對不斷發展的導彈技術時的脆弱性。尋的器變得更加智能和精確,推進系統變得更快,而高超音速導彈也不是很遙遠。現在已經到了裝甲部隊更難戰勝彈藥的階段。除非使用大型航空母艦的部隊能夠完全支配敵人,否則大型航空母艦的前景確實很暗淡。抵消這種情況的唯一方法是擁有大量的無人駕駛系統,形成無法對抗的集群。需要注意的是,任何反制措施的發展都會滯后于任何新的戰爭武器。目前,無人系統,尤其是蜂群具有這種優勢。任何擁有蜂群打擊能力的武裝力量都將在戰場上擁有巨大的優勢。

指揮中心將需要大量的軟件來吸收來自無人駕駛系統的巨大數據流。人類不可能處理和控制具有不同任務的多個蜂群,因此,指揮中心的軟件工具需要具有優先考慮的能力,并為人類決策者提供圖形化的情況,以便向自主無人平臺蜂群發出指令,有效地完成任務。首先,我們應該建立這樣的指揮中心,能夠處理巨大的通信流量。其次,軟件應該能夠吸收數據并大致推斷出情況,并提出人類指揮官必須知道并采取行動的重要和關鍵信息。

軍事硬件的庫存將是異質的,種類繁多,這與維修專業人員的意愿相反。使用傳統的記賬和存儲方法將是不可能的。幸運的是,可以建立具有健康監測功能的系統,其升級和維護記錄可以通過軟件集成來實現自動化,大部分傳統的存儲管理也可以實現自動化。庫存的種類和巨大的類型反而是可取的,而不是維護的禍根。即使從管理的角度來看,這些系統的自動化也會使尾牙比率下降。然而,這些系統的技術支持需要工業企業的支持,無人駕駛系統和人類指揮官的培訓需要特殊的實驗室基礎設施。

2.6 未來水雷戰

目前,壓力驅動型和影響型地雷被埋在地下,這些地雷等待著敵人的戰斗坦克不小心踏過去而啟動。埋設的地雷將真正被埋入歷史,原因有二:第一,埋設數公里的地雷將無法阻止敵人,因為地雷探測已經變得更快,用掃雷器或布雷器或拖網清除一些地雷的突破口將形成車輛安全通道。強大的掃雷系統可以在一兩個小時內清除一條車道,而敵方車輛可以突破,使苦心營造的雷區完全失去作用。其次,有可能設計出具有智能和移動性的地雷,使雷場具有致命性。未來的雷場將是智能化的地面地雷,對任何企圖突破的行為進行監視,這些地雷也可以是移動的,可以迅速治愈雷場,拒絕敵方車輛和部隊通過,同時為自己的車輛和人員提供安全通道。這樣的智能雷場將是可怕的,并為懲罰敵人提供更多時間。

海底水雷是致命的,因為它們無法被探測到,拆除它們的唯一方法可能是派遣一艘無人駕駛的水面下的船只來目測和消除地雷。目前,海面下的地雷是由耐力有限的特殊破雷船破除的。無人駕駛的破雷自主車輛群可以有效地執行探測和解除這些地雷的任務。

無人機的另一個未來應用是通過各種手段物理攔截低空巡航導彈和其他導彈來保護機場。這個概念類似于地面或海上的雷區。用無人機群在機場周圍設置雷場,可以完全保護機場不受任何入侵。蜂群的方法之一可能是幾個無人機攜帶像網一樣的物理屏障,并將網置于來襲導彈的彈道中。這些可以自主操作,而友軍的飛機將在蜂群提供安全通道的情況下沒有任何問題地運行。

2.7 無人系統隱形技術

擁有隱身技術的第五代飛機將擁有巨大的優勢。具有相同水平的隱身技術和較小的雷達截面的無人機將成為一種可怕的武器。如前所述,常規平臺的所有技術都將流入無人駕駛系統。如果這些系統的群集,最初從群集中分散開來,匯聚到一起攻打敵人的陣地,如機場等,這將是一種致命的和可怕的武器。當出現反戰時,隱身能力將變得很重要,在這種情況下,誰能給誰帶來驚喜將成為制勝點。內部武器艙、合并機身的飛翼和蛇形進氣口將成為UCAVs的基本特征。帶有雷達吸收夾雜物和涂層的復合材料以及具有最小反射邊緣的變形翼將是未來的趨勢。

2.8 無人戰場雷達

不難猜測,現有的雷達在對付RCS非常不明顯的小型無人機時有什么缺點。這些雷達從來就不是為這個角色而設計的。為了謹慎起見,我們應該指出這樣一個事實:能夠提供最遠射程的最節能和緊湊的雷達取決于材料技術和特定半導體技術的制造技術。這是一個被嚴密保護的技術領域,這些技術中最好的技術將被列入拒絕名單,以便技術發展國家始終保持領先。長期以來一直如此,除了先進的半導體之外,所有先進材料也將繼續如此。能夠對大面積地區進行監視的天基雷達也將提供巨大的優勢。然而,另一種方法是擁有無人駕駛的預警監視飛機,其機載雷達以蜂群的形式運作,并持續提供集體情況數據。這不僅可以提供敵方機場行動的數據,還可以提供地面活動的數據。

由無人機或無人水面艦艇進行的海面監視將提供對水面艦艇活動的情況了解。然而,最具挑戰性的部分是次表層領域,其傳感器的范圍非常小,而且介質的不一致性使得探測潛艇極為困難。適當的做法是讓較小的無人潛水艇在感興趣的區域運行,以探測任何敵方的潛水艇。

2.9 國產或進口系統

與傳統系統不同,無人駕駛系統非常容易受到外國供應商可能在代碼中實施的殺傷開關的影響。事實上,從外國提供的所有高科技系統都有保障措施,使武器不能被用來對付原產國,因為它可能落入壞人之手,或者進口國可能在未來變成敵對國家,這不是什么秘密。其次,必須認識到,無人系統的主要優勢在于其數量和在必要時被犧牲的能力,所有進入這些系統的技術總量都是成熟的技術,設計創新是優勢的主要支點。因此,可以得出結論,在國內用已經成熟的技術建立可信的無人系統是可能的。由于數量、種類和不同的尺寸會很高,謹慎的做法是,本土系統應以比發展本身更快的速度引進。

同時,軟件升級和諸如傳感器單元等組建的升級必須經常進行,至少以三年為一個周期,電子和軟件的完整升級壽命最長為10年。無人系統的數量和它們的賭注在未來將繼續增長,這有很多原因。武裝部隊總是期待著技術上最好的產品。然而,技術的創新和應用的增長將是如此之快,以至于超過了傳統的現場試驗、采購和誘導時間周期。非常規的系統需要非常規的入伍方式,而武裝部隊需要一些創新的管理過程。平臺和技術集合體有不同的生命周期,隨著新的步伐,必須盡早考慮預先計劃的產品升級。一些未來的技術可能仍處于理論或早期實驗室階段。更快的誘導和升級的經濟性既不會打動管理者,也不會打動財務控制人員。

3 結論

無人戰場系統,尤其是 "神風 "無人機,已經經過了實戰檢驗。具有非常有效的人工智能的蜂群技術將在戰場上幾乎是無敵的,具有無可比擬的優勢,因為傳統平臺目前對這種蜂群沒有任何對策。主要的驅動力將是利用已經證實的技術的創新設計,并探索和利用人的生命不受威脅時的獨特優勢。在人工智能系統的開發和實施以及針對特定場景的蜂群訓練方面的應用研究有巨大的潛力。作者第一次接觸人工智能是在1996年,當時印度孟買理工學院的一位研究學者正在研究人工神經網絡,他咨詢確認網絡是否在學習。 該網絡的學習能力確實令人驚訝。后來,作者在研究了一些關于蜂群的學術著作后,于2008年寫了一篇內部論文。然而,所進行的研究并沒有形成一個可交付的產品。

現在用于先進常規平臺的所有先進技術將被部署在無人系統中,這將更加有效。有效的載人-無人機組隊可以給作戰部隊帶來不對稱的優勢。

由于常規導彈系統和定位技術的巨大進步,大型常規平臺更加脆弱,但也因為無人系統的蜂擁而至。陸地和海上的地雷戰將被重新定義,無人預警和監視群將是關鍵領域。

指揮中心將需要智能推斷引擎,以吸收來自無人系統的數百個傳感器的大量數據,并將可理解的數據呈現給人類指揮官,以便他們做出關鍵的決定。

誘導一個創新的首創系統具有先鋒優勢,因為不存在針對這種系統的對策,這將為先鋒提供不對稱的優勢。這不是一個等待和觀察心態的領域。在這里,創造者和先驅者拿走一切。自主無人戰場系統有無限的可能性等待我們去探索。

有必要在每個行動領域建立專門的無人駕駛戰場系統開發中心。在我們建立和測試這些系統時,"天生的無人駕駛 "將有不同的設計原則需要發展。學術研究人員和設計專業人員之間需要協同合作,特別是在算法和軟件的開發方面。謹慎的做法是強調確定性的算法是基礎,而基于人工智能的算法則是通過計算機和物理模擬的系統學習過程中產生的。健全的算法構成了無人駕駛戰場行動的支柱,尤其是在有挑戰的環境中。最后,控制戰斗的人類指揮官將根據他們的啟發式方法和直覺做出最后的決定。

付費5元查看完整內容

完全依靠自主系統的技術在推動海底領域的環境研究方面發揮了重要作用。無人潛水器(UUV),如美海軍研究生院的UUV研究平臺,在推進用于研究目的的自主系統的技術水平方面發揮了作用。使用自主系統進行研究正變得越來越流行,因為自主系統可以將人類從重復性的任務中解脫出來,并減少受傷的風險。此外,UUVs可以以相對較低的成本大量制造。此外,由于計算和電池技術的進步,UUVs可以在沒有人類干預的情況下承擔更多的擴展任務。

UUV的重要部分之一是控制系統。UUV控制系統的配置可能會根據車輛的有效載荷或環境因素(如鹽度)而改變。控制系統負責實現和保持在目標路徑上的穩定飛行。PID控制器在UUV上被廣泛實施,盡管其使用伴隨著調整控制器的巨大成本。由于兩個主要問題,陡峭的成本并不能提供穩健或智能解決方案的好處。

第一個問題是,PID控制器依賴于復雜的動態系統模型來控制UUV。動態系統模型有簡化的假設,使控制問題得到有效解決。當假設不成立時,PID控制器可以提供次優的控制,甚至會出現完全失去控制的情況。第二個問題是,PID控制器并不智能,不能自主學習。PID控制器需要多名工程師和其他人員花數天時間收集和分析數據來調整控制器。調整PID控制器是一項手動任務,會帶來人為錯誤的機會。

在使用深度強化學習方法進行自主車輛控制系統方面,有很多正在進行的研究,并且已經顯示出有希望的結果[1,2]。深度強化學習控制器已被證明優于執行路徑跟蹤任務的UUV的PID控制器[3]。此外,與PID控制器相比,基于深度強化學習的控制器已被證明能夠為無人駕駛飛行器(UAVs)提供卓越的姿態控制[4-5]。雖然這個例子不是專門針對UUV的,但這個來自空中領域的概念可以轉化到海底領域。

一些最流行的深度強化學習算法被用于自主車輛控制系統的開發,包括近似策略優化(PPO)[6]和深度確定策略梯度(DDPG)[7]算法。本研究將重點關注DDPG算法。DDPG算法是一種角色批判型的深度強化學習算法。Actor-Critic算法同時學習策略和價值函數。Actor-Critic算法的概念是:策略函數(演員)根據當前狀態決定系統的行動,而價值函數(批評家)則對行動進行批評。在深度強化學習中,政策和價值函數是由DNNs近似的,在本研究中具體是多層感知器(MLPs)。

與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。

與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。

在利用降低精度來提高強化學習的計算效率方面,目前的研究很有限。[11]的作者展示了如何使用量化技術來提高深度強化學習的系統性能。文獻[12]的作者展示了一種具有6種方法的策略,以提高軟行為批評者(SAC)算法低精度訓練的數值穩定性。雖然正在進行的研究集中在基準強化學習問題上,但這一概念在科學應用上相對來說還沒有被開發出來,比如使用深度強化學習代理對UUV進行連續控制。

本研究將證明在混合精度和損失比例的情況下,訓練DDPG代理對UUV的連續控制不會影響控制系統的性能,同時在兩個方面使解決方案的計算效率更高。首先,我們將比較用固定和混合數值精度訓練的DDPG代理的性能與1自由度速度控制問題的PID控制器的性能。我們將研究用固定和混合精度訓練DDPG代理的訓練步驟時間。其次,本研究將研究DNN大小和批量大小的閾值,在此閾值下,用混合精度訓練DDPG代理的好處超過了計算成本。

本文的其余部分結構如下。問題表述部分將提供關于DDPG算法、NPSUUV動力學、PID控制和混合數值精度的簡要背景。實驗分析部分將描述本研究中運行的數值實驗的設置和結果。最后,在結論和未來工作部分將描述整體工作和未來計劃的工作。

付費5元查看完整內容

美國軍隊繼續在日益復雜的安全環境中作戰,不能再期望在每個領域都有無爭議的或主導性的優勢。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以支持在非許可環境下的任務。將自動化和人機協作納入現有的防御能力,可以減少威脅的反應時間,提高有人和無人飛機配置的防御機動的有效性。這篇論文研究了作為威脅反應一部分的飛機機動的價值,以確定人類干預對時間和準確性產生負面影響的情況。它還考慮了復制Merlin實驗室的飛行自動化方法和將能夠進行防御性機動的機器訓練系統納入現有飛機的機會。分析表明,飛機的機動性對于有效的威脅反應至關重要,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。這篇論文建議重新關注特種部隊飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以提高防御性威脅反應。它還主張繼續研究在SOF任務中使用可選的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。

美國軍隊繼續在日益復雜的安全環境中運作,不能再期望在每個領域都有無爭議的或主導性的優勢。由于地對空威脅已經擴散到在世界各地活動的敵對行為者,未來的作戰環境將以有爭議的空域為特征,這將對有人和無人駕駛飛機的操作構成挑戰。由特種作戰部隊(SOF)操作的飛機需要改進防御能力,以便在這些有爭議的地區進行機動,同時支持傳統SOF任務。這篇論文研究了商業能力的進步,以減少威脅的反應時間,提高有人和無人駕駛飛機配置的防御性機動的有效性。

通過與位于波士頓的飛行自動化初創公司Merlin實驗室合作,本分析探討了防御性機動的潛在自動化。飛機機動是對威脅作出有效反應的一個關鍵方面,自動選擇操作者的行動可以提高對某些地對空威脅的生存能力。通過確定AC-130J威脅反應中人為干預影響飛機操縱時機和準確性的步驟,這項分析揭示了復制梅林實驗室的飛行自動化方法和將能夠執行防御性操縱的機器訓練系統納入現有飛機的機會。

在威脅反應過程中確定的關鍵步驟包括威脅指示、威脅作戰識別和威脅反應配對。目前,機組人員手動執行這些步驟來完成防御性威脅機動。然而,這些步驟中的每一個都可以從自動化和人機協作中受益,通過三種明顯的方式提高整體性能。首先,生成簡化的視覺和聽覺威脅指示,確保及時通知威脅的存在。其次,自動識別過程以準確識別威脅的變體,減少了反應時間和人類識別錯誤的可能性。最后,將威脅識別與適當的飛機反應同步配對,減少了不必要的延誤,并提高了威脅操縱的準確性。

這篇論文建議重新關注SOF飛機的防御能力,并贊同將機載自主系統整合到傳統的載人平臺上,以改善防御性威脅反應。將人機協作和自主能力納入飛機防御系統,可以使防御機動性能優于傳統系統,并允許在更廣泛的環境中作戰。除了改善防御性機動,梅林實驗室的自動飛行甲板在各種不同的飛機和任務中提供了潛在的用途。繼續研究應該調查在SOF任務中使用可選擇的載人飛機,以完善其操作效用,并在各種任務平臺上擴大能力。最后,在整個特種部隊中采用梅林系統將顛覆既定的操作慣例,需要個人和組織行為的改變。為了緩解過渡期并提高采用率,AFSOC應采取步驟,盡量減少利益相關者的行為變化,同時最大限度地提高系統的操作效益。培養對人工智能、機器學習和自動化的理解,將使這些行為者為軍事技術的快速變化和戰爭特征的變化做好準備。

圖 9. AC-130 防御性威脅反應圖。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司