亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)的進步一直在激發關于應用基于AI的技術來提高武器系統(包括空中無人機)的自主水平的辯論。2021年,一份聯合國報告顯示,一架無人機以完全自主的模式--沒有人類的監督--用于攻擊利比亞的目標。具有自主功能的無人機已經擴散了一段時間,并在一些武裝沖突中被使用。軍方對開發和獲取游蕩彈藥、蜂群技術和更大型號的自主無人機越來越感興趣。在這一章中,我們探討了這些領域的每一個發展。我們還考慮了無人機自主性的感知優勢以及與具有自主功能的武器系統相關的實踐挑戰,特別是在人機互動和武裝沖突中人類對武力使用的控制質量方面。

關鍵詞:自主性、人工智能、游蕩彈藥、蜂群、自主武器系統

2022年3月,美國(US)透露,100架Switchblade無人機將成為其對烏克蘭最新軍事捐贈的一部分(Macias, 2022; McLeary and Ward, 2022)。這一宣布引起了媒體的極大關注,因為據說Switchblades和許多其他類型的閑置彈藥一樣,在瞄準時具有自主功能。游蕩彈藥代表了無人機歷史上最新的系統,其瞄準功能中的自主性越來越強。自主性可以被廣泛地定義為 "在沒有人類輸入的情況下執行任務的能力"(Scharre和Horowitz,2015年,第5頁)。它已被整合為支持無人機的許多功能,如導航和飛行。例如,美國制造和使用的平臺,如全球鷹,能夠自主地執行起飛和降落,以及遵循預先編程的飛行路徑(Enemark, 2014, p.101)。

然而,考慮到人工智能(AI)的技術進步,越來越多的自主權被納入到目標選擇中,這引起了關于人類在多大程度上仍然直接、直接控制武力使用的爭論和基本問題。因此,本章特別關注具有自主功能的無人機的目標定位。它分四步對自主無人機進行了概述:首先,它探討了游蕩彈藥作為具有顯著自主特征的無人機的一種類型,并看到了相當大的擴散。第二,它研究了蜂群能力的進展,第三,大型自主無人機的發展。第四,文章最后回顧了與自主無人機擴散有關的驅動因素以及這一發展所帶來的問題。

1. 游蕩彈藥及其擴散

將游蕩彈藥視為無機組人員飛行器(UAV)和導彈之間的混合體是有益的(Gettinger and Holland Michel, 2017, p. 1; Trevithick, 2021)。像導彈一樣,游蕩彈藥 "參與視線以外的地面目標",并被設計為在完成任務后可被消耗,這意味著它們在攻擊目標時通常會自毀(Gettinger and Holland Michel, 2017, p. 1)。與導彈不同的是,許多型號的游蕩彈藥并不向特定的目標發射,而是在戰場上游蕩,在一個潛在的廣泛的地理區域內搜索它們通過傳感器和特征/物體識別而識別的特定類別的目標(Atherton, 2022)。一些被稱為 "人在回路 "系統的游蕩彈藥,如果它們無法找到目標,可以被收回并重新使用。這意味著它們的人類操作者必須目視核實目標并授權攻擊,而且通常還可以在攻擊已經開始的時候中止攻擊。同時,關于游蕩彈藥的宣傳材料經常宣傳這種系統能夠在沒有GPS的環境中運行,這表明人類操作員可能沒有可能進行目視核查。

游蕩彈藥的發展始于20世紀80年代,有了旨在攻擊雷達裝置和移動防空系統或發射器的大型平臺(Gettinger and Holland Michel, 2017, p. 1; Gao, 2019)。這種類型的一個主要例子是哈比,由以色列公司IAI制造,經常被稱為第一種游蕩彈藥。根據紅十字國際委員會(ICRC)的定義,哈比也經常被討論為符合完全自主武器系統的定義要求(Horowitz, 2016, p. 2; Scharre, 2016, p. 19; Congressional Research Service, 2021, p. 1)。IAI自己將其描述為 "適用于所有天氣的自主武器 "和"'發射和遺忘'自主武器"(IAI,無日期)。

從2015年開始,我們看到越來越多不同大小的游蕩彈藥。其中一些是更小、更輕、更便攜的系統,設計用于步兵,以攻擊對手的士兵,作為常規迫擊炮的替代。與早期以色列制造業的主導地位相比,現在有一系列廣泛的公司在俄羅斯、臺灣、土耳其和美國等國生產這些平臺。土耳其STM公司生產的Kargu-2是一種四軸飛行器,利用自身的旋轉動力起飛和降落。據報道,它可以配備重達1.3公斤的溫壓彈、殺傷人員和穿甲彈頭,并被宣傳為設計用于非對稱戰爭或反恐行動(STM,2021)。2020年6月,STM公司的一份新聞稿稱,卡爾古-2的發展 "從實地使用中受益匪淺",據說土耳其軍方已于2019年在土耳其和敘利亞邊境部署了該武器(STM,2020)。2021年,在聯合國專家小組撰寫的關于利比亞內戰的報告公布后,卡爾古-2在國際上引起了關注(聯合國安全理事會,2021年)。這份報告指稱,在2020年3月,卡爾古-2和 "其他游蕩彈藥[......]被編程為攻擊目標,不需要操作者和彈藥之間的數據連接:實際上,這是一種真正的'發射、遺忘和尋找'能力"(聯合國安理會,2021年,第17頁)。

在評估游蕩彈藥在多大程度上可以自主操作目標方面,存在著一個重要的灰色地帶。一方面,今天擴散的許多型號的游蕩彈藥具有識別、跟蹤和攻擊目標的技術功能,而不需要人為干預。這意味著,它們依靠傳感器、處理器和軟件來做出目標決定。這種軟件 "仍在開發中,錯誤和缺陷[......]可能導致打擊沒有擊中預定目標"(Gettinger and Holland Michel, 2017, p.4)。另一方面,這些系統的制造商認為,它們是在手動模式下使用的,即在選擇和攻擊目標時有一個 "人在環"(見表1,關于控制環中人的不同參與程度)。然而,即使我們承認它們是在 "人在回路 "中操作的,人的控制的質量仍然可能受到不利的影響。在具體使用武力的決定中,人的控制需要有批判性地審查機器提示的能力(Bode和Watts,2021)。在戰斗條件下,尚不清楚士兵是否有關鍵的決策空間和必要的情景意識來參與這種審查(Bode和Watts,即將出版)。

表1: 使用武力的決策中人的控制水平(根據Bode和Huelss,2022年,第163頁;Sharkey,2016年)。

人在環內 該系統需要人類的輸入。人類在發起攻擊前會對目標進行斟酌,并從目標清單或系統建議的行動方案中進行選擇。
人在環上 人類對系統進行監督和監管。系統選擇計算的目標,但在攻擊前需要人類的批準。例如,系統可以在攻擊前給人類分配一個有時間限制的否決權。
人在環外 該系統選擇目標并啟動攻擊,沒有人參與或干預。

盡管有這樣的不確定性,游蕩彈藥仍在不斷擴散。自2010年代末以來,它們已被用于重大軍事沖突,如伊拉克、利比亞、納戈爾諾-卡拉巴赫、敘利亞和烏克蘭的戰爭。關于在其中一些沖突中使用游蕩彈藥的政策論述,特別是納戈爾諾-卡拉巴赫,頌揚其軍事效力(Gressel, 2020;Shaikh and Rumbaugh, 2020)。此外,游蕩彈藥可以在各種領域使用,而不僅僅是在它們經常與之相關的步兵背景下(Rogers和Kunertova,2022)。例如,它們可以被安置在軍艦或更大的無人機上。這些似乎是它們擴散的理想條件。同時,在日內瓦的《聯合國特定常規武器公約》(CCW)中,關于可能管制自主武器系統的國際辯論仍然被定義上的爭議和頑固的締約國所困擾(Nadibaidze,2022)。使用具有自主功能的武器系統的做法,如游蕩彈藥,已經并將繼續超過對國際法規的審議(Bode, 2021)。擴散的動力可能會導致進一步急于使用這些系統,而沒有考慮到它們對戰爭行為的不利影響。因此,戰爭中游蕩彈藥的存在正在逐漸常規化。

2 無人機蜂群:戰爭的未來?

除了表現出對游蕩彈藥的興趣外,世界各地的軍隊還探索如何將技術進步應用于在蜂群中運作的武器系統之間的協調,無論是在空中、地面或水下,還是全部結合在一起。無人機蜂群是由幾個單獨的無機組人員的飛行器組成的,它們有一個共同的目標,并作為一個統一的實體運作。雖然它們不一定都是完全自主的,但蜂群中的無人機可以在沒有人類直接干預的情況下相互交流,"以機器的速度對戰場做出反應"(Scharre,2018)。蜂群的定義不是同時使用多個無人機,而是內部協調和集體工作。無人機在彼此之間傳輸數據,共同在環境中導航,其靈感來自于自然界的類似編隊,如昆蟲群、魚群或鳥群。然而,與不依賴中央控制的自然群組不同,目前的機器人無人機群組是由人類操作員指揮的。操作員 "集體引導蜂群的(子集)",而不是控制每個單獨的元素(Verbruggen,2019)。此外,自然界中的動物群體通常是統一的,而作為蜂群一部分的無人機可以有不同的尺寸,擁有不同的角色,包括戰斗、偵察、情報收集和通信。目前的蜂群技術大多整合了具有或多或少同等能力的小型無人機(Kallenborn和Bleek,2018)。同時,軍事人工智能和機器人系統的主要開發者一直在試驗由幾十架甚至可能是幾百架無人機組成的蜂群(Rogers and Kunertova, 2022, p. 4)。

評估蜂群技術的狀況是具有挑戰性的,這主要是因為該領域的許多研究和開發項目是保密的。然而,在世界各地都可以看到將蜂群戰術應用于無人機的興趣。雖然蜂群尚未成為戰場的一部分,但人們常說它們有可能從根本上 "改變 "現代戰爭(Scharre,2018;McMullan,2019)。無人機群可以整合人工智能應用,如計算機視覺和語音識別,以及決策中的算法,以執行監視、偵察、定位目標(包括核導彈),以及情報和數據收集任務(Johnson 2020a;Scharre 2014)。人工智能和計算機科學領域的進步有望使無人機群 "比單個人類飛行員完成更多種類的任務"(Johnson, 2019, p.151)。軍方官員和分析家認為,無人機在處理信息方面更有效、更迅速,而在每架無人機后面都有一個人類操作員,成本高且耗時長(Scharre,2015)。蜂群被認為是一種相對低成本的發動協調攻擊或機動以欺騙敵人的方式,是繞過防空系統的有效方法,用大量的車輛壓倒敵軍,以及協助運送常規武器和核武器(Johnson 2020b)。應用于無人機的蜂群戰術可以在進攻行動中提供戰略優勢,因為敵人需要時間來擊落蜂群中的每一架無人機,至少可以讓其中一些無人機完成任務。分析家們還指出,蜂群可能是單個無人機的一個更便宜、更有效的替代品(Lachow,2017)。基于這些感知到的操作優勢,許多主要的軍事技術開發商一直忙于研究和展示他們的蜂群戰術和技術。

2021年5月,以色列國防軍使用了據說是小型和相對簡單的無人機群,與地面導彈協調,對加沙地帶的哈馬斯武裝分子進行 "定位、識別和打擊"。這一事件被專家描述為首次在戰斗中使用無人機群(Hambling, 2021; Kallenborn, 2021)。在2022年的實驗演示網關演習中,美國武裝部隊測試了一系列名為 "狼群 "的無人機群,并將其描述為其所測試過的最大的互動群(Guckeen Tolson, 2022; Parsons, 2022)。同時,在2021年,英國(UK)武裝部隊測試了中型和重型無人機群,這些無人機 "被賦予獨立尋找和識別敵方目標的任務,準確使用其一系列日益強大的傳感器和目標獲取算法"(皇家海軍,2021)。2022年亮相的中國遙控船 "珠海云號"將是"全球首艘智能型無人系統母船",并被媒體描述為中國部署無人機蜂群進行海上監視的象征,這些無人機將從這一船型上發射(Saballa, 2022; Xie, 2022)。俄羅斯國防部也在積極支持蜂群研究和開發。它宣布了蘇-57第五代戰斗機在 "人工智能元素 "的幫助下與S-70 Okhotnik無人機中隊協調的計劃(Bendett, 2021; Lavrov and Ramm, 2021)。這樣的趨勢表明,無人機群會越來越多,并探索如何將它們與其他無人駕駛和有人駕駛的系統結合起來使用。此外,許多閑置彈藥的生產商正在研究其平臺的蜂群能力:目前至少有10個正在使用的系統的制造商在蜂群方面促進其發展(Bode and Watts, forthcoming)。

然而,蜂群技術的擴散和使用的增加帶來了不確定性和擔憂,特別是人類是否有能力保持對決策和武力使用的控制。我們能否相信無人機能夠從它們收集的數據中 "學習",并以可預測和符合蜂群任務的方式做出反應,特別是在快速演變的沖突局勢中?人類操作員很難保持對蜂群的完全控制,持續地與它溝通,并知道它做什么以及它如何對周圍環境中不斷變化的動態作出反應(Verbruggen, 2021)。目前,軍方申明他們打算保持人類對無人機群或任何其他武器系統的控制。但隨著蜂群的發展,我們可能很快就會進入這樣的情況:一個人的操作者將負責一群平臺。這給 "人在環內 "的保障帶來了巨大壓力,并改變了系統的整體可預測性,因為負責的人可能無法完全預見或理解蜂群的行為(Bode和Watts,即將出版)。此外,由于在使蜂群按計劃運作方面存在技術挑戰,預期的優勢可能不會成為現實(Shmuel,2018)。例如,專家們對無人機群的安全影響提出警告,特別是敵人有能力入侵通信網絡或傳感器,以及發起對抗性攻擊,愚弄解釋通過傳感器收集的數據的算法(Holland Michel, 2021)。

3. 大型無人機模型的自主性

一些國家一直在努力將自主能力整合到更大的無人機模型中,這些模型仍在開發中。其中一個模型是Taranis,這是一個戰斗無人機原型,也被稱為技術示范機,由英國最大的安全和航空航天公司BAE系統公司在英國國防部的財政支持下制造(Burt, 2018; Doward, 2018)。它于2010年亮相,被英國政府稱為 "對英國防空和英國國防工業的未來至關重要"(Hoyos,2014)。Taranis的生產商將其描述為 "對有人駕駛飛機的補充",并強調該無人機 "在人類操作員的控制下,可以進行持續監視,標記目標,收集情報,威懾對手,并在敵對地區實施打擊"(Ingham, 2016; BAE Systems, no date)。同時,據說無人機可以在沒有人類輸入的情況下執行一些功能,包括空中作業以及目標選擇和交戰,這將把它歸類為一個自主武器系統(Cole, 2016; Boulanin et al., 2020, p.57)。

同時,美國空軍正在開發Skyborg計劃,該計劃被定義為 "自主飛機組隊架構,它將使空軍能夠以足夠的節奏部署、生產和維持任務架次,在有爭議的環境中產生和維持戰斗力"(空軍研究實驗室,無日期)。該計劃的主要目標是在人工智能系統的幫助下,支持無人機和有人駕駛飛機在聯合機群中的合作與協調(Tirpak,2021)。Skyborg的自主性核心系統(ACS)旨在提高自主性水平,使無人機能夠在沒有人類直接監督的情況下完成越來越多的任務(Osborn,2022)。空軍已經在佛羅里達和墨西哥灣上空進行了一次由ACS控制的無人機試飛,據報道,預計Skyborg將在2023年準備好投入使用(Mayer, 2021; Mizokami, 2021)。與Taranis案例一樣,Skyborg框架被描述為協助而不是取代人類飛行員,"為他們提供關鍵數據以支持快速、明智的決策"(Larson, 2021)。

總而言之,關于進一步開發和測試游蕩彈藥、蜂群和大型無人機模型中的自主性的報告引起了對無人機和武器系統中自主性所帶來的機會和問題的廣泛討論。我們在下一節結論中探討這些爭論。

4. 驅動力和問題

自主無人機的日益發展可以與三組因素相關,這些因素也推動了自主功能在武器系統中的整體整合:戰略、作戰和經濟(Boulanin and Verbruggen, 2017, pp.61-63)。首先,從戰略上看,美國、中國和俄羅斯等主要軍事大國都將武器系統的自主性和人工智能的軍事應用視為其安全戰略和未來競爭力的基礎(Haner和Garcia,2019)。因此,人工智能的武器化在新的大國競爭中發揮著明顯的作用--不是 "自然 "的或必然的,而是因為主要軍事大國選擇了這種定位。

第二,在作戰層面上,軍事規劃者認為,將自主性納入目標定位,使軍隊有辦法通過提高速度、精度和耐力來提高作戰能力。軍事人工智能應該使戰斗空間更加清晰,便于識別對手,從而提高作戰控制能力(例如,見國家人工智能安全委員會,2021)。一些專家認為,游蕩彈藥和蜂群技術將成為或已經成為現代戰場的一部分,并擁有值得進一步投資的好處。無人機的自主性據說可以解決人類操作者和系統之間的通信漏洞,因為通信鏈路可以被 "干擾或黑掉"(Anderson and Waxman, 2013, p.7)。基于算法模型選擇和識別目標的能力也經常被描述為更精確,"由于持續的盯梢[持續的視頻監控使得有更多的時間進行決策和更多的眼睛盯著目標]"(Arkin, 2013, p.1)。這一論點經常被用來從法律角度證明自主性,并支持這樣的信念,即具有自主功能的精確武器系統將更好地區分合法和非合法目標(例如,戰爭中的平民與戰斗人員),這是規范武裝沖突的國際人道主義法(IHL)的一個關鍵要求。

第三,從經濟上講,整合自主權已經與降低武器系統的財務成本有關,不僅是采購費用,還有運行成本。雖然自主無人機最初需要從設計、測試到部署的大量資源,但在財政和政治上,它們可能會比飛行員駕駛的噴氣式戰斗機更便宜。對于越來越小、越來越輕的自主無人機來說尤其如此:一架Switchblade-300裝置的成本可以低至6000美元,這使得它們比MQ-9 "死神 "無人機(5600萬美元)發射的AGM-114地獄火導彈(10萬美元)要便宜得多(Atramazoglou,2022)。徘徊彈藥和蜂群技術被認為是一種相對低成本、低風險的有效繞過防空系統和攻擊坦克車隊的方式。例如,在俄羅斯全面入侵烏克蘭的背景下,一些分析家主張專門為烏克蘭武裝部隊提供這些類型的無人機,并出于這些原因(Jensen, 2022)。

反過來說,日益自主的無人機發展至少伴隨著法律、倫理/規范和技術方面的三個重大問題和障礙。首先,國際人道主義法規定了所有新武器系統,包括自主無人機,在使用時必須遵守的一般界限(Crootof, 2015)。這些包括基本原則,如區分平民和戰斗人員、相稱性和預防措施(Laufer,2017;McFarland,2020;Mauri,2022;Seixas-Nunes,2022)。遵守這些原則要求軍隊以某種形式保留對自主無人機的人類控制和監督,這不僅是因為國際法是針對人類的(Walsh,2015;Brehm,2017),而且還因為這些原則需要人類的審慎判斷。人工智能和機器人技術專家早就警告說,在區分平民和戰斗人員時,人工智能相對 "愚蠢"(Sharkey,2016)。雖然軍事物體,如坦克、飛機和船只已經可以被機器識別,但對于一個基于人工智能的系統來說,區分人類是平民還是戰斗人員幾乎是不可能實現的(MacDonald,2021)。這不僅是因為人類如何對待這些類別無法讓機器適應,而且還因為區分平民和戰斗人員需要深思熟慮的、依賴環境的判斷(Suchman,2016)。這在一個雜亂的空間,如城市環境中更為嚴重。圍繞使用自主武器系統的重大法律不確定性,已經成為《特定常規武器公約》主持下的漫長國際辯論的主題--這一過程可能還會導致新的具體國際法的談判(Bode and Huelss, 2022, pp.)

其次,自主無人機提出了關于將使用武力的決定權交給機器的基本倫理規范問題。學者們提出了 "道義論 "的論點,強調在使用武力時需要人的判斷,其核心往往是人的尊嚴概念。人類尊嚴的概念被認為是政策的基準,認為自主無人機和其他自主武器無法"[......]理解或尊重生命的價值",因此"[......]使任何致命的決定變得武斷和不負責任"(Sharkey, 2019, pp. 82-83)。還有一些與后果主義倫理學有關的論點,認為將自主權納入武器系統是否有可能導致更 "道德 "的戰爭方式(Anderson和Waxman,2013)。參與辯論的人還認為,倫理學不再是復雜的道德問題,而是被視為"[......]單純的技術問題"(Schwarz, 2019, p. 25)。一般來說,計算機科學和機器人學的專家同意,算法不能像人類一樣進行道德反思,這在戰爭中是需要的,特別是在涉及到奪取其他人類的生命時。許多人認為,將它們整合到無人機中是一個令人擔憂的趨勢,就像將生死決定權交給不具備人類道德機構的機器一樣。

第三,在戰場上部署自主無人機時,有很大的不確定性,即激勵這些系統的技術在復雜和動態環境中如何可靠和可預測地發揮作用(Holland Michel,2021)。人工智能驅動的目標是不確定的,因為人工智能是著名的脆性(麥克唐納,2021;卡倫伯恩,2022)。這意味著它很容易被愚弄而犯錯,例如通過對抗性攻擊。這些攻擊可以在物理空間中進行,方法是在物理物體上添加小的改動,或者添加人眼無法察覺的像素、數字噪音的變化(Huelss,2022)。這種改變可以使人工智能相信軍事目標是其他東西,或者相反。在復雜的城市戰場上,目標識別是一個特別令人擔憂的問題,因為它給平民和友軍士兵帶來了風險(Kallenborn, 2022)。

總而言之,我們正處于自主無人機擴散的關鍵時刻,因為在這一領域的軍事支出的呼聲越來越高,而原本只是在開發中的系統卻被匆匆推出,正如美國向烏克蘭交付121枚實驗性的 "鳳凰幽靈 "徘徊彈藥所表明的那樣(Finnerty,2022)。從總體上看,當這些武器在對抗對手時顯得很有效時,無人機在多大程度上包含自主功能的目標似乎并不重要。然而,這些趨勢引起了人們的關注,因為在沒有劃定邊界和減少審查的情況下,人類對武力使用的控制可能會逐步和悄悄地被放棄。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

在過去的十年里,無人駕駛飛機系統(UAS)已經從主要的國家軍隊擴散到眾多的商業行業、較小的軍隊和非國家行為者。世界上大多數國家現在都在使用軍用無人機系統,而非國家行為者已經將商用無人機系統用于履行軍事職責。最近在中東、烏克蘭和高加索地區的沖突表明,國家和非國家行為者可以在戰場上有效地使用特定的軍事或商業無人機系統。人工智能(AI)控制的無人機群將提供無人機系統發展的下一個飛躍。美國、中國和俄羅斯都在開發利用人工智能的UAS蜂群。這些無人機系統蜂群將改變未來戰爭的特點,并有可能壓倒目前的實地防空系統。本文試圖分析聯合部隊目前的態勢,并確定在應對無人機系統威脅的理論、訓練和物資方面的差距。經過長期的忽視,聯合部隊已經開始重新強調短程防空,以應對目前實戰中的無人機系統;然而,聯合部隊卻無視無人機系統群的迫近威脅。本文建議對條令、訓練和物資進行修改,以充分應對這一迫在眉睫的威脅。

在過去的十年中,無人機系統(UAS)已經從其軍事起源演變為在許多行業中普遍存在。無人機系統技術已經從主要的民族國家軍隊擴散到許多商業行業、小型軍隊和非國家行為者。通常被稱為無人機,這些系統在速度、范圍和有效載荷方面不斷增加。自2010年第一批商業無人機系統問世以來,商業部門已經成為一個價值數十億美元的產業。全球商業無人機系統市場在2020年產生了225億美元的銷售額,預計在2025年將幾乎翻倍,達到428億美元。商業無人機系統的擴散使非國家行為者能夠輕松獲得這一技術。在過去十年中,軍用無人機系統的使用也在擴大,世界各國都將無人機系統納入了他們的武裝力量。2010年,60個國家在其軍事庫存中擁有無人機系統。2020年,這一群體擴大到102個,其中58個擁有或正在開發武裝無人機系統。在低空作業的相對基本的無人機系統已顯示出對現代軍隊的有效性,這在敘利亞沖突和2019年對沙特阿拉伯石油基礎設施的攻擊中得到了證明。事實證明,現代無人機系統是阿塞拜疆對亞美尼亞取得軍事成功的關鍵因素。

與此同時,先進的軍隊也開發了新的系統。一些先進國家已經開始測試與人工智能(AI)相結合的無人機系統,打算建立一個由多個無人機系統自主行動的蜂群,以提高無人機系統的有效性。此外,小型化和使用非雷達反射復合材料來建造這些系統,使得現有的防空系統越來越難以探測。鑒于商業和軍用無人機系統使用的擴大,美國軍方不能再假設它完全控制了天空。聯合部隊最近認識到了當前的無人機系統威脅,并采取措施重新調整其部隊結構和發展方向;然而,對于迫在眉睫的無人機系統群的威脅,它仍然嚴重缺乏準備,必須立即解決理論、訓練和物資方面的不足。

無人機系統的尺寸、重量、范圍、速度、推進力和有效載荷各不相同。美國國防部(DoD)根據重量、工作高度和速度將無人機系統分為五組。第四組和第五組的功能類似于有人駕駛的飛機,具有類似的尺寸、速度、操作高度,并執行類似的任務。通用原子公司的 "捕食者 "和 "收割者 "以及諾斯魯普-格魯曼公司的 "全球鷹 "平臺都屬于第四組和第五組。由于與有人駕駛飛機相似,目前的防空系統、訓練和理論足以應對來自第四和第五組的威脅。

第一、二和三組,包括商業系統和無人機,如波音ScanEagle、AAI Shadow和DJI Phantom,體積較小,飛行速度較慢。第一組到第三組與傳統飛機有很大不同。目前的防空系統很難識別、跟蹤和瞄準這些無人機系統。陸軍訓練出版物(ATP)3-01.08將第一至第三組稱為 "低、慢、小(LSS)"無人機系統。它指出:"綜合防空和導彈防御(IAMD)能力可以有效地對付較大級別的無人機系統,但難以跟蹤、識別和擊敗LSS無人機系統。" 此外,訓練和理論還沒有跟上這些無人機系統類別的發展。

各種推進系統推動UAS的起飛和飛行。內燃活塞式或噴氣式發動機推動第四組和第五組的UAS,與有人駕駛的飛機類似。這些UAS在傳統的航空跑道上起飛和降落。LSS無人機系統有更多不同的推進手段。內燃活塞發動機、電池供電的電動機和火箭發動機推動著各種LSS UAS。這些系統有不同的起飛方式;它們可以使用傳統的跑道,由個別士兵手工發射,從大型飛機上空中發射,從車載管發射器發射,旋轉翼無人機系統可以垂直起飛和降落。

美國防部目前沒有關于人工智能或無人機系統蜂群的標準定義。隨著這些概念的不斷發展,各組織、作者和研究人員都提出了定義。為了本研究的目的,這些概念的簡單定義將提供清晰度和理解。在應用于無人機系統時,人工智能將允許無人機系統通過對環境的變化做出反應,確定最佳行動方案,然后執行該行動,從而獨立于人類的控制。無人機系統群由10個或更多的人工智能無人機系統組成,具有相互通信的能力,并作為一個協調的單位大規模或分散地行動。

最近在中東、烏克蘭和高加索地區的沖突表明,國家和非國家行為者可以在戰場上有效地使用專有的、國家贊助的或商業的無人機系統。這些具體的沖突突出了第一、第二和第三組的無人機系統在情報、監視和偵察(ISR)方面的作用,運送彈藥,或精確打擊目標。中央司令部司令麥肯錫將軍強調了來自這些類別的無人機系統的威脅,他告訴眾議院軍事委員會,"我們積極追求任何能夠提高能力的東西,特別是針對那些第一和第二組無人機系統的能力....。這是我每天在戰場上最擔心的事情之一。它是我們的部隊對那些小型無人機系統的脆弱性"。

由于在全球反恐戰爭(GWOT)期間缺乏空中威脅,美國開始對其在空中領域的統治感到自滿,并開始減少其短程防空(SHORAD)系統的數量。2000年,每個美國陸軍師都有一個SHORAD營的保護。到2017年,十個現役師中沒有一個有專門的、有機的SHORAD營。面對當前的戰爭,陸軍讓其SHORAD部隊陷入了困境。西爾堡防空炮兵學校校長馬克-A-霍勒上校在解釋削減時表示,陸軍用SHORAD營的部隊結構來換取戰斗機動隊的發展,以支持反叛亂斗爭。他進一步指出,烏克蘭沖突給了陸軍一個關于增加SHORAD需求的 "警醒"。

俄羅斯等對無人機系統的獲取和發展進一步突出了先進無人機系統的威脅。這兩個同行的競爭者目前都有大量的第一至第五組的無人機系統,并與美國一起,正在測試人工智能控制的無人機系統。自主性的提高將大大減少操作員的工作量。自主群有可能給軍事行動帶來更加巨大的、破壞性的變化。無人機系統群可以利用更大的質量和協調來壓倒防御,并通過數量上的優勢獲得決定性的優勢。在任何未來的戰斗部署中,美國部隊將不可避免地遇到許多敵對的無人機系統。敵方目前部署了從第一組到第五組的多種多樣的無人機系統。持續的發展只會增加這些無人機系統的能力。為了應對當前的威脅并允許友軍的機動自由,聯合部隊必須發展探測、識別和擊敗戰場上的無人機系統的手段。為了應對未來的威脅,聯合部隊必須開發新的技術和概念來擊敗無人機系統群。沒有單一的解決方案可以擊敗這種威脅;它將需要開發各種物資系統,實施新的培訓,重點是新興技術,并更新理論以指導和指示聯合部隊。

在論證這些觀點時,本論文將采用差距和風險分析方法。第二章的差距分析將側重于過去五年中無人機系統和SHORAD戰爭的真實案例,包括烏克蘭沖突、敘利亞戰爭、對沙特ARAMCO設施的打擊,以及亞美尼亞-阿塞拜疆沖突。本節將分析軍隊如何應對各種類型的無人機系統的威脅,并分析在條令、訓練和物資方面的成功和失敗。第三章將把這些現有和新出現的無人機系統威脅與當前和未來的聯合部隊SHORAD能力進行比較。第四章將分析無人機系統的發展與人工智能的結合,以創建自主的蜂群,以及這些蜂群如何改變戰爭的特征。考慮到目前可能存在的任何差距,結合人工智能和蜂群戰術的影響。第五章將提出建議,以發展條令、訓練和物資等方面,使聯合部隊為擊敗這些威脅做好準備。

付費5元查看完整內容

就在幾年前,美國空軍在競爭激烈的空域中使用人工智能(AI)操作無人駕駛飛行器(UAV)的想法在許多人看來還像是科幻小說。 美國軍隊在伊拉克和阿富汗的無競爭空域巧妙地使用無人機,徹底改變了高價值目標定位、近距離空中支援和其他任務,很少有人擔心對手會反擊。現在快進到2022年,空軍再次期待無人機來提高其戰斗力。中國,一個正在接近,或在某些情況下超過美國常規戰斗力水平的同行挑戰者。空軍領導人正在對下一代無人機技術——他們統稱為自主協作平臺(ACP)——下大賭注,以幫助恢復其對中國的常規作戰能力。

中國構成的戰略威脅、快速的技術進步以及越來越多的證據表明,ACP可以改善作戰結果,這些因素的結合使得美空軍、國防部(DoD)和工業界紛紛支持將ACP迅速推向戰斗空間。自冷戰結束以來,預算壓力迫使美空軍和其他軍種削減能力和戰備,以至于他們現在必須主要依靠數量較少的先進系統和不斷縮小的海外態勢。與此同時,中國正在接近與美國軍隊的常規力量對等,建立了一系列現代軍事技術和一支低成本導彈部隊,明確旨在讓美國和盟軍保持在可觸及的范圍。為了扭轉對中國的局面,美國空軍正在尋找低成本的方法來彌補其重大能力差距。空軍領導人打賭,他們可以利用快速的技術進步,特別是在人工智能和飛機設計與制造方面,計劃部署大量ACP作為解決其兵力結構缺陷的一部分。

本報告研究了ACP可能提供的角色、任務和能力,以提高空軍的戰斗力,以及其快速發展和部署使用所固有的機遇和挑戰。本報告重點關注ACP在穿透性打擊任務中的作用,因為它們對于滿足2022年國防戰略(2022 NDS)的要求至關重要,該戰略要求美國軍隊不給俄羅斯等快速奪取領土的機會。穿透性打擊涉及在對手空域深處使用先進的轟炸機,因此,在沖突的早期,在削弱和阻止對手的機動入侵部隊方面可以發揮關鍵作用。但這些任務需要一系列復雜的打擊、電子戰、制空和其他能力,所有這些都可能在大國沖突中給空軍帶來巨大壓力。通過與先進轟炸機協作來提供其中的一些能力,大量低成本ACP將會提高任務的有效性并降低作戰風險。

美空軍領導人認識到這一潛力,并將ACP與包括戰斗機、轟炸機、甚至機動部隊在內的有人駕駛飛機配對作為首要任務。當他們準備向國會申請大量資源以在2024財年開始采購ACP時,這些領導人必須向立法者、其他國防部(DoD)領導人、工業界和美國公眾準確傳達ACP將如何為美國的威懾和作戰能力做出貢獻,同時對未來的機遇和挑戰進行現實描述。米切爾研究所與來自空軍和國防工業的作戰員、科學家和工程師舉行了一次非保密的研討會,以研究這些問題。為了給分析打下基礎,要求研討會的專家確定ACP作戰概念和技術如何在阻止中國對臺的戰役中減輕先進轟炸機的風險并提高穿透性打擊任務的有效性,這是美國防部部隊規劃的節奏場景。

專家見解

在這個項目中形成的一個核心觀點是:大量低成本的ACP可以幫助彌補嚴重的部隊結構缺陷,這些缺陷現在威脅著空軍在大國競爭時代滿足作戰指揮官需求的能力。在研討會上,專家們提出了使用不同類型的ACP概念,以使對手的目標決策復雜化,迫使對手花費大量時間和資源來減少這種不確定性。專家們不認為ACP可以替代有人駕駛的隱形轟炸機和戰斗機的威懾和作戰能力。然而,他們得出的結論是,如果快速、低成本和大量部署ACP,可以幫助縮小空軍進行遠程穿透打擊以阻止大規模侵略的顯著能力差距。

美空軍和工業界專家對使用ACP來減少制空能力差距特別感興趣。制空是在高度競爭的環境中成功實施穿透性打擊任務的一個重要任務組合。他們還優先考慮將ACP用于情報、監視和偵察(ISR)。在這個角色中,他們可以騰出先進的轟炸機和攻擊戰斗機來專注于他們的主要任務——向目標投送武器。ACP在ISR角色中還可以減少隱形轟炸機傳感器的發射信號的需求;這一點很重要,因為轟炸機機組人員試圖避免在有競爭激烈的環境中發射信號,以減少被發現的概率。

與成本較低、能力適中的ACP相關的其他好處包括:在戰時產量激增潛力,以及對作戰損失的更高容忍度。為此,專家們傾向于ACP是可損耗的或可消耗的;空軍對其損失的容忍度相對較高,因為其實際成本相對較低,而且任務指揮官會認為其損失是值得的。最后,研討會的專家們傾向于選擇具有高度自主性的ACP。他們認為,自主性在以下方面具有優勢:在高度競爭的環境中盡量減少通信;創造機會部署更多的ACP,同時最大限度減少人類控制員的負擔;以及提高相對于對手的決策速度。

專家們對ACP能力和概念的偏好反映了2022年國家發展戰略(NDS)中概述的關鍵威懾方法,該戰略呼吁美國軍隊不僅要建設部隊以拒絕大規模侵略,而且要提高復原力并讓手付出代價。大量低成本的ACP可以為這三種方法做出貢獻,這表明ACP可以成為空軍支持2022年NDS目標的核心貢獻。

專家們還指出了將ACP引入空軍作戰單元有關的幾個挑戰。最關鍵的是,他們不確定支持ACP自主行動所需人工智能技術的成熟度,而且他們不確定“低成本”對ACP意味著什么。ACP的成本必須有多低才能提高戰士對戰斗損失的容忍度?鑒于空軍計劃在制造、飛機操作和維護方面采用創新方法以降低成本,傳統的飛機成本評估模式是否仍然適用?最后,專家們不確定美國防部是否有能力在危機中迅速擴大和多樣化ACP的生產基地,盡管他們認為這對于空軍在長期沖突中帶來足夠持久的戰斗力至關重要。

針對美空軍的建議

盡管確定了作戰、技術和預算方面的挑戰,但專家們普遍認為,迫切需要迅速部署ACP,以便向作戰指揮官提供一支有戰斗力的部隊。他們評估說,通過將ACP與先進的轟炸機組合在一起,可以大大降低穿透性打擊任務的風險,而且ACP特征,如低可觀察性和低成本傳感器也完全可以實現。然而,迅速投入使用這些飛機將需要立法者、國防部領導層和工業界的協調和形成一致的支持,因為將其納入作戰單元所需的變化規模很大。發起一場全面的ACP作戰實驗活動將為它們的實戰化奠定基礎,并向關鍵的利益者表明,空軍致力于這項工作。為此,米切爾研究所向空軍提出以下七項建議:

1.發布空軍飛行計劃,將ACP的發展與2022年國家發展戰略聯系起來,特別是與拒絕對手實現其戰役目標、提高兵力復原力和施加成本的目標聯系起來。空軍應公布一個ACP飛行計劃,以支持2024財年的預算請求,該計劃應:1)解釋為什么ACP是一個緊急優先事項;以及2)提供保持動態發展的基礎,可以根據技術和威脅環境的變化來調整ACP整合計劃。

2.發起一場全面的作戰試驗活動,以建立將原型機推向作戰單元所需的組織、流程、行業關系和文化。作戰試驗活動的直接目標應該是迅速加強美國的作戰能力和應對同行沖突的能力。換句話說,通過啟動一個新的項目,讓ACP盡快“上路”;然后繼續試驗,收集急需的數據,使技術適應作戰人員的需要。更長遠的目標應該是創造條件,使空軍組織、訓練和裝備部隊的方式發展到快速、持續和頻繁地將一代又一代的ACP投入作戰部隊的地步,這種努力需要跨越幾十年。

3.優先考慮模塊化,以實現學習、開發和生產的連續循環。空軍不應該“扔掉”那些沒有針對作戰需求進行優化的ACP,而是尋求通過人工智能軟件的更新來不斷提高其性能。這就需要模塊化:在機體上有一個標準的容器,可以隨著人工智能軟件的發展不斷接受新的人工智能系統和處理器。ACP的開發周期也應該利用在新的無人機等級中操作主導飛機所獲得的信息和經驗來改善后續機型。而且,隨著老式ACP的老化,可能會將它們用于不同的任務,如對手的空域,而不是將它們歸入廢品收購站。

4.用非保密的研討會和兵棋推演來補充正在進行的內部分析,以完善和展示ACP概念和技術。空軍應將兵棋推演和研討會作為更廣泛的美國防部社區、立法者及其工作人員和國防工業的場所,以提高他們對下一代無人機潛力的理解,以提高國防部在同行沖突中的作戰效率。

5.優先考慮大量部署具有適度能力的ACP;最初的機隊應包括具有制空能力的飛機。從米切爾研究所的研討會上收集到的信息表明,空軍應強調使用大量低成本ACP的作戰概念,特別是在進攻性和防御性制空任務中,以提高遠程穿透性打擊的殺傷力和生存能力。

6.確定適當的ACP成本評估方法。美國防部、空軍和工業界專家對如何評估ACP的成本并不一致。一些人認為,可以用傳統飛機的歷史成本數據來估計ACP的成本。其他人則認為,飛機設計和制造的新方法使這些數據變得不那么有用。空軍應該利用ACP的運行試驗工作來收集新的數據,以告知ACP成本評估的基本假設。

7.多樣化遠程穿透性打擊彈藥。空軍應在更廣泛的兵力設計背景下開發ACP,考慮新一代彈藥如何提高生存能力,增強有人和無人飛機的攻擊力。研討會的專家們指出,迫切需要可由隱身轟炸機內部大量攜帶的較小中程(40納米至150納米)彈藥,以及可增強對高度移動目標進行穿透性打擊的游蕩彈藥。

8.增加空軍的預算,以創建一個結合ACP和下一代有人駕駛作戰飛機的兵力設計,進行決定性的協作行動。幾十年來的預算不足造成了一支高風險的空軍,缺乏與中國發生重大沖突和其他國防戰略優先事項所需的兵力能力、現代化能力和戰備狀態。要扭轉這種下降趨勢,需要在十年或更長時間內將預算增加3-5%,以獲得足夠數量的下一代有人駕駛作戰飛機,如B-21、NGAD和F-35,并為有望為美國作戰人員帶來重大優勢的新的、附加的ACP項目提供資金。

總之,米切爾研究所的研究表明,空軍的ACP計劃可以為執行穿透性打擊的美軍提供重要的作戰優勢。發展一支ACP兵力將要求空軍利用各種機會并應對新的挑戰,以大規模地設計、生產、操作和維持這些飛機。這種兵力設計方法的風險很高:研討會的結果表明,ACP可以抵消兵力結構的不足,以確保空軍能夠提供決定性的戰斗力,使ACP成為空軍支持2022年NDS戰略的核心,即拒止、復原力和施加成本。

付費5元查看完整內容

無人系統,無論是遙控操作還是不同程度的自主操作,已經成為國防庫存的一部分,除了用于情報、監視和偵察(ISR)之外,還迅速成為作戰部隊的重要組成部分。無人駕駛飛行器(UAVs)具有數天的續航能力和洲際范圍的打擊能力,正在重新定義戰爭理論和作戰戰術。海軍和地面部隊將成為無人系統的新領地,而這一領地至今仍由無人機主導。真正的轉折點將是人類和自主無人系統的合作,無論是在任何戰斗空間。另一個領域將是空中、地面和海軍異質無人系統的合作,并迅速形成業務自主團隊。重要的是要認識到,無論是基于確定性模型還是人工智能的算法計算,都不能取代人類對手頭關鍵信息的戰術判斷。所謂的態勢感知可以由經驗豐富的戰場指揮官來理解,而不是由實驗室訓練的自主系統來理解。在復雜的情況下,特別是在識別朋友和敵人、誘餌以及確定目標的優先次序方面,團隊合作將是一個挑戰。自主系統將需要學會節約能源和彈藥,并具備應對不利情況的生存技能。另一個重要的領域將是開發 "天生自主 "的平臺,其性能將超過所有的載人平臺,特別是大型平臺。本質上,人類注意力持續時間的限制和生物的必要性是國防系統設計者的主要挑戰。無人自主系統(UAS)克服了這些限制,同時放棄了人類獨特的敏銳性和啟發式知識。緊湊的可能性、承擔風險的能力和巨大的耐力和范圍,以及最重要的是,可以部署的數量超過了每一個方面。無人戰場系統領域仍處于起步階段,具有先驅者的優勢,因此將永遠決定領導者的地位。該領域屬于那些敢于和不畏懼未知和不確定因素的人。這個領域的創新的簡單規則是快速失敗和快速發展。

1 引言

機器人的第一個應用是在核反應堆中裝載和收回燃料棒,這是一項危險的任務,絕對需要使用機械手和夾持器遠程完成。由于對柔性制造工廠的需要,工業機器人大舉進入生產線。由于機器人具有適應新任務的靈活性,應用機器人完成重復以及危險的任務已成為該行業的一種常態。這些系統的遠程操作,無論有無電線,都已經被業界掌握。在第二次世界大戰期間,德國人使用了歌利亞履帶式地雷。埃弗雷特很好地記錄了這個遠程操作系統和其他無人系統的發展。歌利亞 "的基本思想是用小而便宜的東西殺死大東西;即使在今天,這也是所有無人系統的主要思想,廣泛地說,它是用更少的錢實現更多的東西。任何未來的國防規劃都無法想象會遺漏無人系統。傳統的防御技術一直依賴于傳感器、推進器、制導、軍備等核心技術的進步,并在此基礎上發展壯大。毫無疑問,這些核心技術的研究將以同樣的強度繼續下去,然而,使用無人平臺的創新將為部隊提供前所未有的力量。事實上,今天的無人系統所使用的技術很早就有了,是創新的動力和新的信心水平在推動著新的增長。

日本特種部隊的神風特攻隊飛行員在一次自殺任務中展示了飛行器的殺傷力,突出了這樣一個事實:如果飛行員遠程操作飛機,冒險的能力會成倍增加。然而,無人駕駛飛行器(UAVs)的第一個更高的技術應用是用于情報、監視和偵察(ISR)的作用,與有人駕駛的飛機相比,具有更高的續航能力和射程,以及更高的被擊落接受度。特別是在航空平臺上,取消機上人員提供了巨大的優勢;首先,消除了飛行員寶貴生命的風險,其次,可以獲得額外的空間和重量。載人飛機只會在非常特殊的情況下參與,將大部分任務留給遙控平臺,包括戰斗任務。

有必要回顧一下美國的U2間諜飛機在非常高的高度飛行,對蘇聯執行偵察任務。最初沒有武器來擊落這些飛機。這種導彈最終被開發出來。美國開發的SR-71飛機可以以3.4馬赫的速度飛行,但很快就退役了,改用間諜衛星。現在是無人機填補這一空間的時候了,即使不是完全填補。一群無人機聯網并覆蓋一個巨大的區域可以提供大量的情報和通信覆蓋。

隨著學習算法的成熟,人工智能(AI)作為主要推動力的出現將成為無人駕駛系統的主要工作動力。具體來說,基于人工智能的圖像處理和推理引擎是最近一段時間的主要發展。其中包括人臉識別,目標的識別和分類--一個人是拿著槍還是拿著杖,一輛車是否是值得的軍事目標。重要的方面是人工智能系統可以得到多好的訓練,他們的推斷能力有多強,當出現反直覺的情況時,會發生什么。必須接受的是,在該領域有經驗的人可能會很慢,而且可能會犯錯,但當涉及到未知因素時,他的啟發式方法和直覺可能是更好的選擇。

整個現代戰爭都取決于通信領域,誰在戰場上主導了這個領域,誰就會有巨大的優勢。整個無人系統如果沒有一個強大的通信系統,就會使自己失去作用。能夠與指揮中心有效溝通的空間資產甚至更加重要。

最令人興奮的是 "蜂群 "的概念,其中蜂群的單個實體可能有非常簡單的傳感器和控制器,但在一個具有簡單蜂群算法的編隊中,它們可以成為一支重要的力量,當它們攻擊傳統平臺時,沒有人能夠對付它們。想象一下,當反艦導彈在其目標附近投放蜂群時,這些攜帶小型炸藥的蜂群實體可以擊中戰艦的重要系統,或者可以做任何事情,包括將戰艦圍困。目前,唯一可以想象的針對蜂群的可靠對策是反蜂群。

科學和技術研究將在核心技術和材料科學方面繼續保持同樣的活力,特別是在非金屬材料方面。未來的無人系統研究將更多地以應用為導向,學術界和國防科學家共同合作,調整和配置技術,包括非常嚴肅的實驗室模擬和實際場景的仿真,以及對必須處理這些情況的人工智能引擎的培訓。

2 未來的研究方向

審慎的做法是看一下一些可能的未來主旨領域,在這些領域中,可以預期會有顯著的增長。建造未來無人系統的技術將與建造傳統戰爭機器的技術相同,然而,有幾個重要的應用研究領域將需要立即關注和努力。

2.1 通信系統

首先,最重要的是要有能力與異質系統進行無縫通信,這些系統將有不同的起源和建造日期。所有的東西都不可能是最新的和最先進的。有必要建立一個骨干網,以無縫地處理所有最先進的和傳統的系統,以便指揮中心的人類指揮官能夠快速更新和理解情況,并給這些無人駕駛系統提供適當的指示。將需要具有容錯和快速重新配置能力的分布式通信網絡。這些網絡應該能夠使用多種資源,即衛星、無人機、地面光纖網絡、帶有或不帶中繼器的不同頻段的無線網絡。這些系統將是軟件驅動的,有能力用任何可用的最佳資源建立從戰場到指揮中心的聯系。通信系統需要應對固定電話的物理破壞、無線鏈接的干擾等。毋庸強調,通信網絡應該有強大的加密、解密和認證系統。據說,在未來的任何戰爭中,誰主導了電磁空間,誰就是贏家。應該承認,現代系統有很強的屏蔽能力和抗干擾能力,它們可以 甚至可以承受高能量的脈沖。使敵方平臺失明到支配水平所需的能量水平是巨大的,不切實際的,甚至是不可能的。其次,利用衛星、無人機作為通信平臺,可以快速連接備用通信渠道。總而言之,誰擁有更好的和強大的通信網絡,誰能更快地處理數據并有效地利用現有的數據,誰就能在戰場上處理無人駕駛系統方面擁有巨大的優勢。

2.2 有人與無人機編隊

有人與無人機編隊(MUMT)是一個預期的增長方向,其主要目標是在最大限度保護載人平臺的情況下有效打擊目標。這帶來了一個優越的形勢思考者--人類--的優勢,這樣他就可以指導無人平臺達到最佳效果。有人-無人合作可能有許多技術挑戰,但它似乎是一個值得追求的研究領域。一個典型的場景可能是傳統戰斗機與無人平臺一起飛行。美國的國際防務、航空航天和安全公司BAE系統公司已經宣布了無人駕駛僚機的概念,并且可以使用無人駕駛僚機的戰斗機具有更多的生存能力和更大的殺傷力。諾斯羅普-格魯曼公司也發表了一篇論文,提出了一個典型的作戰場景,即一群無人機干擾敵人的雷達,并在進行救援行動時自主地參與戰斗。有人和無人平臺之間的合作以及戰術場景需要由各自的專業人員進行想象和制定。團隊合作的不同場景必須被模擬、仿真,并對人工智能引擎和人類作戰員進行培訓。

2.3 蜂群系統

無人機、無人地面飛行器和無人水面及水面下系統組成的蜂群可以對沒有任何反制措施的常規平臺造成不成比例的破壞。一輛作戰坦克如果被一群炸藥包圍,僅憑數量就沒有生存的機會。電子對抗措施可能起作用,也可能不起作用,這取決于這些實體被設計成如何在受挑戰的環境中運作。很難想象常規平臺在面對蜂群時的命運。使用誘餌,如照明彈、金屬箔片、高強度輻射來蒙蔽搜尋者、反射器、熱信號模擬器的經典方法可能對蜂群沒有用。它不像一個單一的彈頭朝向目標,你甚至可以用反導彈系統將其擊落。無人機群更容易建造和部署,它們可以由一個較大的無人機運送到離目標足夠近的地方,但又足夠遠以保證自身的安全。它類似于從戰斗機上遠距離發射的反艦導彈。飛機從未進入艦艇防空導彈的射程,但其射程足以讓反艦導彈到達目標。

蜂群依賴于蜂群算法,這些算法將通過在計算機模型或實驗室的實驗裝置中的模擬環境中進行訓練而發展。Eric Bonabeau、Marco Dorigo和Guy Theraulaz在他們的書中提供了對蜂群算法的良好見解。人工神經網絡(ANN)、遺傳算法(GA)、模糊邏輯、圖論等的組合,成為學習和建立人工智能系統的基本工具。這些基于人工智能的系統和一些確定性的算法將能夠處理蜂群操作的一些重要方面,即:蜂群的傳播、目標的識別和將目標分配給蜂群成員、目標的優先次序、蜂群的領導和等級制度、它們的操作情緒,即:保存能量、保壘、全力攻擊或撤退。就像自然界的蜂群或獸群一樣,它們需要具備生物世界的一些特征,以獲得更好的效率和生存。有些情況可能是為了部落的更大利益而進行自我犧牲。一個直接的需要是解決識別朋友或敵人的問題,并在與指揮中心失去聯系時以最佳方式采取行動。一群無人駕駛的戰斗坦克的成本和大小將是四分之一,并且有更多的裝甲來打敗傳統的反坦克射擊。

在極低地球軌道上的太空衛星群具有較短的壽命,將給部隊帶來優勢。將會有一種 "軍事物聯網 "的出現。

未來的戰場如果沒有各種蜂群將是不可想象的。武裝部隊別無選擇,要么盡快接納它們,要么面對它們。

2.4 先天自主性

不難預見,超音速無人駕駛作戰飛機的出現,以及類似的無人駕駛作戰坦克、無人駕駛海軍艦艇和潛艇的出現,與現有的常規平臺相比,其殺傷力要大很多。這些系統將以自上而下的方式設計為 "天生自主",并能夠在人類指揮官的指揮下以群組的形式運行,戰術上避開障礙物、與指定目標交戰等任務都是自主完成的。諾斯羅普-格魯曼公司的X-47B已經完成了半自主和自主模式的飛行試驗。預計它將在半自主模式下投入運行。

直觀地講,可以理解的是,不能讓自主系統自己操作,因為它們是根據所學的內容來操作的,對于不熟悉的和大綱以外的問題,人工智能可能沒有答案,但在完全不確定的情況下,人類的理解力可能要好得多。像無人駕駛作戰坦克這樣的大型平臺可以在半自主模式下運行,其中發射武器的決定將由人類控制,而其他操作,如避開障礙物和移動將是自主的。一個操作員控制幾個平臺的可能性將需要有效的算法開發,最重要的是培訓。

將接近報廢的常規平臺轉換為無人系統是另一種選擇,以便在 "先天自主"類型的系統擴散之前擁有一個相當大的無人系統基地。這樣的轉換需要非常小心,因為大多數子系統可能需要調整和手動調整,甚至是修改。戰斗機、作戰坦克、海軍艦艇包括潛艇的轉換可能需要更深入的研究,如果是許多大型平臺,可能不值得努力。未來具有可比火力的無人系統在尺寸和重量上將更小,并將攜帶更多的傳感器,而且必然會有一個完整的健康監測系統。

2.5 改變戰場

推動未來發展的另一個重要方面是大型平臺面對不斷發展的導彈技術時的脆弱性。尋的器變得更加智能和精確,推進系統變得更快,而高超音速導彈也不是很遙遠。現在已經到了裝甲部隊更難戰勝彈藥的階段。除非使用大型航空母艦的部隊能夠完全支配敵人,否則大型航空母艦的前景確實很暗淡。抵消這種情況的唯一方法是擁有大量的無人駕駛系統,形成無法對抗的集群。需要注意的是,任何反制措施的發展都會滯后于任何新的戰爭武器。目前,無人系統,尤其是蜂群具有這種優勢。任何擁有蜂群打擊能力的武裝力量都將在戰場上擁有巨大的優勢。

指揮中心將需要大量的軟件來吸收來自無人駕駛系統的巨大數據流。人類不可能處理和控制具有不同任務的多個蜂群,因此,指揮中心的軟件工具需要具有優先考慮的能力,并為人類決策者提供圖形化的情況,以便向自主無人平臺蜂群發出指令,有效地完成任務。首先,我們應該建立這樣的指揮中心,能夠處理巨大的通信流量。其次,軟件應該能夠吸收數據并大致推斷出情況,并提出人類指揮官必須知道并采取行動的重要和關鍵信息。

軍事硬件的庫存將是異質的,種類繁多,這與維修專業人員的意愿相反。使用傳統的記賬和存儲方法將是不可能的。幸運的是,可以建立具有健康監測功能的系統,其升級和維護記錄可以通過軟件集成來實現自動化,大部分傳統的存儲管理也可以實現自動化。庫存的種類和巨大的類型反而是可取的,而不是維護的禍根。即使從管理的角度來看,這些系統的自動化也會使尾牙比率下降。然而,這些系統的技術支持需要工業企業的支持,無人駕駛系統和人類指揮官的培訓需要特殊的實驗室基礎設施。

2.6 未來水雷戰

目前,壓力驅動型和影響型地雷被埋在地下,這些地雷等待著敵人的戰斗坦克不小心踏過去而啟動。埋設的地雷將真正被埋入歷史,原因有二:第一,埋設數公里的地雷將無法阻止敵人,因為地雷探測已經變得更快,用掃雷器或布雷器或拖網清除一些地雷的突破口將形成車輛安全通道。強大的掃雷系統可以在一兩個小時內清除一條車道,而敵方車輛可以突破,使苦心營造的雷區完全失去作用。其次,有可能設計出具有智能和移動性的地雷,使雷場具有致命性。未來的雷場將是智能化的地面地雷,對任何企圖突破的行為進行監視,這些地雷也可以是移動的,可以迅速治愈雷場,拒絕敵方車輛和部隊通過,同時為自己的車輛和人員提供安全通道。這樣的智能雷場將是可怕的,并為懲罰敵人提供更多時間。

海底水雷是致命的,因為它們無法被探測到,拆除它們的唯一方法可能是派遣一艘無人駕駛的水面下的船只來目測和消除地雷。目前,海面下的地雷是由耐力有限的特殊破雷船破除的。無人駕駛的破雷自主車輛群可以有效地執行探測和解除這些地雷的任務。

無人機的另一個未來應用是通過各種手段物理攔截低空巡航導彈和其他導彈來保護機場。這個概念類似于地面或海上的雷區。用無人機群在機場周圍設置雷場,可以完全保護機場不受任何入侵。蜂群的方法之一可能是幾個無人機攜帶像網一樣的物理屏障,并將網置于來襲導彈的彈道中。這些可以自主操作,而友軍的飛機將在蜂群提供安全通道的情況下沒有任何問題地運行。

2.7 無人系統隱形技術

擁有隱身技術的第五代飛機將擁有巨大的優勢。具有相同水平的隱身技術和較小的雷達截面的無人機將成為一種可怕的武器。如前所述,常規平臺的所有技術都將流入無人駕駛系統。如果這些系統的群集,最初從群集中分散開來,匯聚到一起攻打敵人的陣地,如機場等,這將是一種致命的和可怕的武器。當出現反戰時,隱身能力將變得很重要,在這種情況下,誰能給誰帶來驚喜將成為制勝點。內部武器艙、合并機身的飛翼和蛇形進氣口將成為UCAVs的基本特征。帶有雷達吸收夾雜物和涂層的復合材料以及具有最小反射邊緣的變形翼將是未來的趨勢。

2.8 無人戰場雷達

不難猜測,現有的雷達在對付RCS非常不明顯的小型無人機時有什么缺點。這些雷達從來就不是為這個角色而設計的。為了謹慎起見,我們應該指出這樣一個事實:能夠提供最遠射程的最節能和緊湊的雷達取決于材料技術和特定半導體技術的制造技術。這是一個被嚴密保護的技術領域,這些技術中最好的技術將被列入拒絕名單,以便技術發展國家始終保持領先。長期以來一直如此,除了先進的半導體之外,所有先進材料也將繼續如此。能夠對大面積地區進行監視的天基雷達也將提供巨大的優勢。然而,另一種方法是擁有無人駕駛的預警監視飛機,其機載雷達以蜂群的形式運作,并持續提供集體情況數據。這不僅可以提供敵方機場行動的數據,還可以提供地面活動的數據。

由無人機或無人水面艦艇進行的海面監視將提供對水面艦艇活動的情況了解。然而,最具挑戰性的部分是次表層領域,其傳感器的范圍非常小,而且介質的不一致性使得探測潛艇極為困難。適當的做法是讓較小的無人潛水艇在感興趣的區域運行,以探測任何敵方的潛水艇。

2.9 國產或進口系統

與傳統系統不同,無人駕駛系統非常容易受到外國供應商可能在代碼中實施的殺傷開關的影響。事實上,從外國提供的所有高科技系統都有保障措施,使武器不能被用來對付原產國,因為它可能落入壞人之手,或者進口國可能在未來變成敵對國家,這不是什么秘密。其次,必須認識到,無人系統的主要優勢在于其數量和在必要時被犧牲的能力,所有進入這些系統的技術總量都是成熟的技術,設計創新是優勢的主要支點。因此,可以得出結論,在國內用已經成熟的技術建立可信的無人系統是可能的。由于數量、種類和不同的尺寸會很高,謹慎的做法是,本土系統應以比發展本身更快的速度引進。

同時,軟件升級和諸如傳感器單元等組建的升級必須經常進行,至少以三年為一個周期,電子和軟件的完整升級壽命最長為10年。無人系統的數量和它們的賭注在未來將繼續增長,這有很多原因。武裝部隊總是期待著技術上最好的產品。然而,技術的創新和應用的增長將是如此之快,以至于超過了傳統的現場試驗、采購和誘導時間周期。非常規的系統需要非常規的入伍方式,而武裝部隊需要一些創新的管理過程。平臺和技術集合體有不同的生命周期,隨著新的步伐,必須盡早考慮預先計劃的產品升級。一些未來的技術可能仍處于理論或早期實驗室階段。更快的誘導和升級的經濟性既不會打動管理者,也不會打動財務控制人員。

3 結論

無人戰場系統,尤其是 "神風 "無人機,已經經過了實戰檢驗。具有非常有效的人工智能的蜂群技術將在戰場上幾乎是無敵的,具有無可比擬的優勢,因為傳統平臺目前對這種蜂群沒有任何對策。主要的驅動力將是利用已經證實的技術的創新設計,并探索和利用人的生命不受威脅時的獨特優勢。在人工智能系統的開發和實施以及針對特定場景的蜂群訓練方面的應用研究有巨大的潛力。作者第一次接觸人工智能是在1996年,當時印度孟買理工學院的一位研究學者正在研究人工神經網絡,他咨詢確認網絡是否在學習。 該網絡的學習能力確實令人驚訝。后來,作者在研究了一些關于蜂群的學術著作后,于2008年寫了一篇內部論文。然而,所進行的研究并沒有形成一個可交付的產品。

現在用于先進常規平臺的所有先進技術將被部署在無人系統中,這將更加有效。有效的載人-無人機組隊可以給作戰部隊帶來不對稱的優勢。

由于常規導彈系統和定位技術的巨大進步,大型常規平臺更加脆弱,但也因為無人系統的蜂擁而至。陸地和海上的地雷戰將被重新定義,無人預警和監視群將是關鍵領域。

指揮中心將需要智能推斷引擎,以吸收來自無人系統的數百個傳感器的大量數據,并將可理解的數據呈現給人類指揮官,以便他們做出關鍵的決定。

誘導一個創新的首創系統具有先鋒優勢,因為不存在針對這種系統的對策,這將為先鋒提供不對稱的優勢。這不是一個等待和觀察心態的領域。在這里,創造者和先驅者拿走一切。自主無人戰場系統有無限的可能性等待我們去探索。

有必要在每個行動領域建立專門的無人駕駛戰場系統開發中心。在我們建立和測試這些系統時,"天生的無人駕駛 "將有不同的設計原則需要發展。學術研究人員和設計專業人員之間需要協同合作,特別是在算法和軟件的開發方面。謹慎的做法是強調確定性的算法是基礎,而基于人工智能的算法則是通過計算機和物理模擬的系統學習過程中產生的。健全的算法構成了無人駕駛戰場行動的支柱,尤其是在有挑戰的環境中。最后,控制戰斗的人類指揮官將根據他們的啟發式方法和直覺做出最后的決定。

付費5元查看完整內容

隨著最近在敘利亞、納戈爾諾-卡拉巴赫和烏克蘭的沖突,無人駕駛航空系統(無人機)已經成為人們關注和辯論的話題。這些小型且相對便宜的系統在復雜性、速度和有效載荷承載能力方面繼續增長。飽受戰爭蹂躪地區的公民業余愛好者繼續尋找方法,成功地將第1組無人機系統軍事化,尋求進行秘密的空中監視,最近還使用世界各地軍隊普遍使用的人造小當量彈藥進行精確打擊。在許多情況下,愛好無人機的飛行者變成了好戰的戰斗人員,他們使用簡易爆炸物,對點狀目標進行毀滅性的打擊。

這些新的戰術和技術已經變得令人震驚,對美國本土構成了真正的威脅。隨著這些沖突的繼續,戰術和技術通過社交媒體被分享,使潛在的內部持不同政見者有機會在我們的邊界內進行恐怖主義和破壞活動。下一章包含了一些最近的使用案例,在這些案例中,無人機被成功地用來對付其預定的目標,使用的方法從簡單的自制炸藥到投擲迫擊炮彈和自制燃燒彈,再到無人機被用來游蕩,自行獵殺目標,并隨意迅速地進行打擊。

付費5元查看完整內容

人工智能(AI)應用于武器系統是過去10年研究的一個主要趨勢。這些舉措旨在提高武器的準確性,執行非主動的瞄準手段,幫助導航和制導與控制(例如,在全球定位系統被拒絕的情況下),并減少與傳統的基于物理學的方法相比的整體計算資源,以便在更小、更實惠的武器系統上實現智能瞄準。這項研究還包括將作戰人員的戰斗空間擴展到無人駕駛飛行器,并使用蜂群方法與有人和無人平臺進行合作。

我們首先概述了人工智能的描述和歷史,并概述了人工智能在武器系統中的原理、技術和應用。這包括對監督自主系統;制導、導航和控制;行為和路徑規劃;傳感器和信息融合;智能戰略和規劃;兵棋推演建模;以及認知電子戰的研究和計劃的回顧。

然后,對將人工智能應用于武器系統的系統和項目進行了調查。雖然重點是基于美國的系統和項目,但也包括一個關于俄羅斯和中國相關系統的小節。最后,我們對將人工智能用于武器系統的倫理考慮進行了簡要評論。

引言

1.1 問題陳述

機器學習(ML)和人工智能研究的最新進展揭示了人工智能在實現創新、增加機器的效用以及增強人類能力和經驗方面的力量和潛力。人工智能技術的顛覆性和其影響的深度還沒有被廣大公眾完全掌握。考慮到新時代的新興技術威脅,展示關鍵和相關的人工智能研究和最先進的技術是很重要的,這些技術不僅為武器系統提供了比傳統武器系統更多的自主權,而且大大增加了它們的殺傷力和戰斗生存能力。最終,人工智能在開發改變游戲規則的技術方面帶來了巨大的戰略機遇,這將確保國家安全、繁榮和技術領先地位。

1.2 常規武器系統

美國軍方在創造先進的常規武器技術方面取得了巨大的進步,這些技術支持了士兵在戰場上的任務并增強了他們的能力。這些常規武器技術大多是自動化系統,在計劃、執行和完成一項任務或使命時依靠一套預先編程的規則。然而,在中國和俄羅斯等國家新開發的武器的前沿陣地上,人工智能支持的戰爭和高超音速武器給美國武裝部隊帶來了新一代的質量挑戰。下一代戰斗的步伐要求為戰略決策進行時間緊迫和大量的戰斗信息處理,這使得美國的許多常規武器系統只能執行低風險的任務,并在核領域之外處于威懾力減弱的態勢。

必須承認,人是昂貴的訓練資產。在戰場上增加更多的人員并不是推進最先進的戰爭的優雅或廉價的解決方案。相反,用支持人工智能的智能硬件來增強人在回路中的系統,可以在戰區提供更多的眼睛和耳朵,并通過使人工智能系統執行一些簡單和常規的任務來釋放人類的決策。

此外,無人駕駛作戰飛機系統(UCAS)是一種成熟的具有成本效益的系統解決方案,用于執行情報、監視和偵察(ISR)任務和遠程空襲。然而,自動化能力仍然受到人類在環形操作、評估和接觸的限制。雖然在任何可預見的未來都沒有打算消除武器化人工智能系統中的人類元素,但人類的能力仍然構成這些系統協同潛力的上限。但是,一個由人工智能驅動的智能武器系統的新生態系統將迎來新的戰爭形式和戰略。

人工智能國家安全委員會在其2021年的報告中提出,美國國防部(DoD)的軍事企業在整合人工智能技術方面落后于商業部門,并敦促在2025年前為整個國防部廣泛整合人工智能奠定基礎[1]。

1.3 人工智能的簡要歷史

幾個世紀以來,哲學家們一直在考慮以某種形式人工復制人類智能的某個方面的概念。1869年,威廉-杰農創造了第一臺基于布爾邏輯實現邏輯計算的機器。該機器能夠比人類更快地計算布爾代數和維恩圖。隨著這種邏輯計算機器的發展,人們很自然地質疑機器是否可以通過邏輯推理來為人類解決問題并做出決定。圖1-1中的時間軸顯示了人工智能的歷史和演變,并在本節中進行了詳細說明[2]。

在理論計算機科學的一些最早的工作中,英國數學家阿蘭-圖靈(Alan Turing)思考了機器是否能像人類一樣智能地行為和解決問題的問題。他在他的圖靈測試中提出,如果一臺機器能模糊地模仿人類這樣的智能生物,那么這臺機器就是智能的。這一理論測試成為一種指導性的形式主義,在這種形式主義中,當前的機器被測試其模仿人類智能概念的能力或潛力。作為測試的見證,Loebner獎是一個圖靈測試競賽,其任務是根據圖靈提出的基本問題來評估機器智能研究的現狀。

1928年,約翰-馮-諾伊曼證明了Minimax算法的基本定理,該算法旨在提供一種在零和博弈過程中使最大可能損失最小的策略。

圖1-1. AI歷史年表

在第二次世界大戰的高峰期,阿蘭-圖靈和他的團隊開發了一種機器算法,可以破譯德國的英格瑪信息密碼。他的算法的成功,推動了將復雜任務委托給機器的進一步努力,是機器計算的基礎,也是ML發展的先導。

1943年,McCulloch和Pitts開創了神經網絡(NN)的最早概念--McCulloch-Pitts的形式網絡理論--這在1949年馮-紐曼在伊利諾伊大學的四次演講中得到了體現[3]。

大約在同一時間,約翰-麥卡錫,一位計算機科學家,在1955年創造了 "人工智能 "來指代機器智能;計算機科學家艾倫-紐維爾;以及赫伯特-A-西蒙,一位經濟學家和政治學家,開創了第一個旨在自動推理的真正程序(稱為邏輯理論家)。隨著這一突破性的努力,對智能機器的探索開始了,為人工智能作為計算機科學的一個新的學術研究領域鋪平了道路。

1957年,一位名叫弗蘭克-羅森布拉特博士的心理學家開發了一個名為 "感知器 "的簡化數學模型,描述了我們大腦中的神經元如何運作。這一成就被強調為 "Perceptron收斂定理"。

同年,理查德-貝爾曼開發了動態編程,用于解決一類最佳控制問題。他還介紹了離散隨機最優控制問題的馬爾科夫決策過程表述,這為現在所稱的 "強化學習 "奠定了重要基礎。

在這些發展之后,另一位名叫阿瑟-塞繆爾的人工智能先驅利用他早先在ML方面的開創性工作,成功地開發了第一個檢查者算法。他實現了現在被稱為 "Alpha-Beta修剪 "的早期版本,這是一種搜索樹方法,通過Minimax算法減少評估節點的數量。1959年,一位名叫威廉-貝爾森(William Belson)的統計學家開發了一種名為決策樹的非參數、監督學習方法的早期版本。

在20世紀60年代,人工智能研究的重點是解決數學和優化問題。1960年,羅納德-霍華德提出了馬爾科夫決策過程的策略迭代方法,建立了一些與強化學習有關的最早的工作。

到1968年,著名的路徑搜索算法A-star是由計算機科學家尼爾斯-尼爾森提出的。60年代末,機器人建模、控制和機器視覺方面取得了進展,導致在1972年開發了第一個名為WABOT-1的 "智能 "擬人機器人,并整合了肢體操縱、視覺和語音系統。

Harry Klopf的 "適應性系統的異質理論 "的復興對適應性系統的試錯范式的發展有很大影響。1977年,Ian Witten提出了最早的強化學習系統之一,使用了時間差法。理查德-薩頓和安德魯-巴托設計了一種強化學習算法,稱為演員批評法。

由于70年代中期到80年代末計算機的計算能力限制,人工智能研究在有大量數據處理要求的應用中發現了困難,如視覺學習或優化問題。同時,數學研究 "證明 "了(單層)感知器不能學習某些模式。此外,1973年發表的一份Lighthill報告對人工智能的潛力非常悲觀,這導致人工智能研究的資金被削減。結果,資金短缺導致人工智能的研究經歷了一個被稱為 "人工智能冬天 "的時期。

到了80年代中后期,繼1986年多層感知器的發展之后,在NNs方面也做出了重要的理論貢獻。這些貢獻是David Rumelhart在1986年開發的遞歸神經網絡(RNNs),John Denker等人在1987年開發的貝葉斯網絡,以及Yann LeCun在1989年開發的卷積神經網絡(CNNs)。

此外,Chris Watkins在1989年開發了另一種重要的強化學習方法,稱為 "Q-Learning"。1992年,在IBM的Thomas J. Watson研究中心,Gerald Tesauro通過自我強化學習為雙陸棋游戲訓練了TD Gammon程序。1997年,IBM的 "深藍 "計算機使用粗暴的、基于搜索的算法擊敗了國際象棋世界冠軍加里-卡斯帕羅夫,使其成為第一個在國際象棋中戰勝頂級職業選手的程序。

在90年代末和21世紀初,在ML中看到的大部分進展是由計算機處理、存儲和分布式計算方面的指數級進展所推動的。2007年,需要大量計算資源的保證最優玩法在跳棋中得到了解決。在過去的20年里,圖形處理單元用于通用計算的激增導致了今天人工智能應用的進一步進展,特別是在2012年和2014年,不同的NN拓撲結構,如殘差網絡和生成式對抗網絡的發展。

2015年,ImageNet競賽,一個為約400萬張圖像的ImageNet圖像集開發分類器的公開競賽,有一個冠軍,其錯誤率被認為低于一個人。2016年,DeepMind的AlphaGo程序在擊敗當時被認為是最優秀的圍棋選手李世石后,成為最佳AlphaGo選手。繼AlphaGo的學習能力之后,AlphaZero在2017年擴展了AlphaGo,成為國際象棋和Shogi的最佳棋手。

2019年,美國國防部高級研究計劃局(DARPA)推出了AlphaDogfight,這是基于人工智能的空戰算法在模擬的F-16狗斗中與經過頂級訓練的飛行員進行的一系列三輪競賽。第一輪和第二輪比賽中,人工智能程序相互競爭。第三輪將人工智能勝利者的飛行員提煉出來,與美國空軍武器學校的優秀畢業生進行競爭。蒼鷺系統的人工智能飛行員不僅在競爭激烈的人工智能空中戰斗人員中獲勝,而且在與訓練有素的人類F-16飛行員的較量中取得了令人難以置信的五次勝利。

OpenAI在2020年5月推出了一個名為GP3的 "自然語言處理 "模型,它生成的寫作內容與人類無異。其最新版本可以從簡單的描述性語言生成編程語言代碼[4]。人工智能的歷史繼續向前發展,特別是對國防部的武器系統應用。本報告的其余部分將調查與武器系統有關的當代人工智能技術和系統。

1.4 什么是AI?

根據Barr和Feigenbaum的說法,人工智能被定義為 "計算機科學中與設計智能計算機系統有關的部分,即表現出我們與人類行為中的智能有關的特征的系統--理解語言、學習、推理、解決問題等等"[5]。

Stuart Russel和Peter Norvig在他們的《人工智能:一種現代方法》一書中對人工智能的最新定義是:"設計和建造能夠從環境中接收感知并采取影響環境的行動的智能體" [6]。

Pei Wang優雅地將智能定義為 "在知識和資源不足的情況下的適應"[7]。雖然該定義沒有說明適應的目的(如目標),但它揭示了為達到這種智能需要完成的工作。

如果要以人類為中心定義人工智能,即執行人類智能水平的任務,那么人工智能需要感知、推理、知識構建、推理、決策和計劃、學習、交流,以及有效移動和操縱環境的能力。

人工智能的科學目標是回答哪些關于知識表示、學習、規則系統、搜索等的想法可以解釋各種類型和水平的真實智能。工程目標是為不同的應用領域開發人工智能技術,以解決現實世界的問題。

在人工智能的科學基礎上,我們發現來自不同科學領域的可識別概念--哲學、邏輯/數學、計算、心理學和認知科學、生物學和神經科學以及進化。在尋求發現和更好地理解人工智能是什么或將是什么的過程中,來自這些不同知識領域的貢獻已經被證明是不可避免和不可或缺的了。許多研究人工智能的領域都在同時構建人類認知如何運作的模型,并在它們之間采用有用的概念。例如,NN,一個源于生物學的概念,試圖在簡化的人工神經元的基礎上建立人工系統,這個概念導致了一個簡單的抽象知識結構的表示,足以解決大型計算問題集。

人工智能大致分為三個主要層級--人工狹義智能(ANI)、人工通用智能(AGI)和人工超級智能(ASI)。圖1-2說明了這三個層級中的各種分組,本節將更多地討論這些分組。

1.4.1 人工狹義智能(ANI)

ANI是對一個執行狹窄或單一任務的人工智能系統的描述。它可以包括各種方法來獲得結果,如傳統的ML(以圖像分類為例)或目標檢測(包括ML和基于規則的系統)。給定一組規則或約束,它的目標是提供一組代表狹義任務的輸出。ANI不會擴展或學習新的認知,也不會自我學習新的操作模式。數據挖掘、大多數專家系統和針對某一應用的預測功能(例如,垃圾郵件檢測和面部識別)都被認為是ANI的形式。ANI還包括 "有限記憶人工智能"--用于自動駕駛汽車的系統類型,使用過去的經驗(訓練),并學習做決定,隨著時間的推移而改進。

1.4.2 人工通用智能(AGI)

AGI是一種更強大的智能形式,因為它被更多類似人類智能的特征所增強,例如自主學習的能力和解釋情緒和語音語調的能力。這使得與AGI相關的智能與人類的智能水平相當。AGI的一些關鍵核心能力如下:

  • 推理、解決問題、運用策略和在不確定情況下做出決定的能力。
  • 展示知識的能力。
  • 計劃的能力。
  • 學習的能力。
  • 用自然語言交流的能力。
  • 將所有上述內容整合為一個共同目標的能力。
  • 類似人類的思維與圖靈測試等計算的結合。

1.4.3 人工超級智能(ASI)

ASI是一種超越最聰明的人類頭腦的智能模型。實現ASI的方法仍在概念化中,但將是那些超越AGI并需要某種自我意識的系統。這些系統最好能代表所有人類的認知能力,甚至更多。

1.5 機器學習(ML)

ML是機器從數據中學習的能力,目的是做出準確的預測。它大致分為四類學習,提供了豐富的專用和通用的技術家族。

1.5.1 監督學習

在這種形式的學習中,訓練數據使用包含的輸入和標記的或預定的輸出數據。如果有缺失的輸入或輸出條目,它們會被預處理,以便將一個輸入正確地映射到其真正的對應輸出。通過從正確生成的訓練數據集中學習,系統學會了將不在原始數據集中的輸入與預測的輸出(標簽或值)聯系起來。這種類型的訓練解決的典型問題是回歸和分類[8]。

1.5.2 無監督學習

這種形式的學習中,系統直接從未標記的數據中發現有趣的或隱藏的結構[9]。無監督學習被用于聚類分析、降維或估計可能產生輸入數據的密度[8]。

1.5.3 半監督學習

當數據集包含有標記的和無標記的數據時,這種學習形式的系統利用無標記的數據來更好地捕捉潛在的數據分布,并獲得一個更好的預測,如果它只從標記的數據中訓練的話。這種學習形式適用于訓練數據集中的標注數據遠遠少于未標注數據的情況[8]。

1.5.4 強化學習

在這種學習模式中,系統使用獎勵/懲罰機制進行訓練,這樣它所選擇和執行的行動,當行動可取時,會使系統得到獎勵,當行動不可取時,會受到懲罰。強化學習問題涉及學習如何做(如何將情況映射到行動上)以最大化數字獎勵信號[9]。

03 人工智能在武器系統中的應用

人工智能有可能應用于武器系統生態系統的許多方面。它被用來控制系統,從而實現自主性和提高性能,以在具有挑戰性的環境中選擇指導、導航和控制方面的問題。同樣,人工智能可用于解決任務和路徑規劃中的挑戰性問題,從而實現更高水平的復雜任務目標和操作要求。人工智能也被用于電子戰領域的支持、反制,甚至是反制措施。它還可能被用于來自不同系統層次和領域的信息融合,以泄露抽象的高價值戰場情報,并提供關鍵線索和快節奏的決策,從而在現代戰爭中創造寶貴的戰術優勢。

報告的這一部分將強調最先進的人工智能方法在適用于自主和武器系統的各種人工智能問題領域的使用。它是根據以下問題領域來組織的。

  • 自主性

  • 感知中的人工智能

  • 制導、導航和控制中的人工智能

  • 任務和路徑規劃

  • 智能戰略

  • 對手建模

  • 認知型電子戰

提綱

第一章 引言

1.1問題陳述

1.2常規武器系統

1.3 AI簡史

1.4什么是AI?

1.4.1 ANI

1.4.2 AGI

1.4.3 ASI

1.5 ML

1.5.1監督學習

1.5.2無監督學習

1.5.3半監督學習

1.5.4強化學習

第二章 最先進的方法

2.1學習人工智能范例

2.1.1深度學習

2.1.2強化學習

2.2隨機優化和搜索算法

2.2.1隨機優化

2.2.2圖形搜索算法

2.3新興人工智能范例

2.3.1神經符號AI

2.3.2 NE

第三章 人工智能在武器系統中的應用

3.1自主性

3.1.1定義、級別和框架

3.1.2自主系統的功能組件

3.2感知中的人工智能

3.2.1圖像分割

3.2.2目標檢測、分類和場景理解

3.2.3傳感器融合

3.3制導、導航和控制中的人工智能

3.3.1 GN&C系統

3.3.2常規控制理論方法

3.3.3智能控制

3.3.4本地化和導航

3.3.5系統識別

3.4任務和路徑規劃

3.4.1GAs

3.4.2群體智能

3.5智能策略

3.6對手建模和兵棋推演

3.7認知電子戰

3.7.1電子支持措施

3.7.2 ECMs

3 .7.3 ECCMs

第四章 將人工智能應用于武器系統的系統和程序

4.1天線系統

4.1.1下一代空中優勢計劃

4.1.2 Shield AI Hivemind

4.1.3 Shield AI V-Bat

4.1.4 Kratos XQ-58 Valkyrie

4.1.5 MQ-20 Avenger UCAS

4.1.6自主彈藥

4.1.7 Dynetics X-61小精靈

4.2 海軍系統

4.3 陸軍系統

4.3.1 QinetiQ/Pratt Miller的遠征自主模塊化飛行器

4.3.2Textron系統公司的Ripsaw M5

4.3.3 Rheinmetall公司的Lynx KF41

4.4 群系統

4.4.1 DARPA的攻擊性蜂群戰術

4.4.2自主協同小直徑炸彈群

4.4.3 Perdix群

4.4.4 Mako UTAP22

4.4.5 Coyote UAS Block 3

4.4.6機器人代理命令和傳感群的控制架構

4.4.7激流勇進微型無人潛水器

4.5戰斗管理和智能指揮與控制

4.6 ISR和目標系統

4.6.1 SRC的HPEC Pod

4.6.2復仇女神

4.7導航

第五章 未來作戰中的AI

第六章 人工智能和外來威脅

6.1俄羅斯

6.2中國

第七章 倫理考量

第八章 總結

參考文獻

付費5元查看完整內容

美國海軍的無人作戰框架和智能自主系統(IAS)戰略解析了美國海軍的愿景,即如何通過迭代實驗來發展無人平臺,重點是發展新的作戰概念和實現這些想法的關鍵技術。美國海軍需要制定一個作戰概念(CONOPS),將無人水面和水下航行器(USV/UUV)納入現有情報、監視和偵察(ISR)流程。無人平臺(UV)面臨著操作和續航方面的挑戰,這將使它們在情報周期的處理和開發功能中成為獨特的難點。本文討論僅限于兩個具有顯著續航能力和收集能力的無人平臺,這兩項能力使無人平臺對作戰具有重大影響。這項工作回顧了關于超大型UUV(XLUUV)和中型USV(MUSV)能力和預期任務的非機密文獻,并與MQ-4C海神偵察機的發展進行了比較。確定了海軍在開發CONOPs時應該考慮的幾個因素和解決方案,如何在戰役層面將XLUUV和MUSV集成到ISR中。

1 簡介

“無人平臺在我們未來的艦隊中發揮著重要作用。成功地整合無人平臺——在海面下、在海面上和海面上空——為我們的指揮官提供了更好的選擇,以便在有爭議的空間里作戰和獲勝。它們將擴大我們的情報、監視和偵察優勢......”--美國海軍作戰司令部,2021年航行計劃

美國海軍目前正在開發一系列無人的空中、水面和水下航行器,以滿足其未來部隊需求。海軍的無人作戰框架和智能自主系統(IAS)戰略解析了海軍的愿景,即如何通過反復實驗來開發這些新平臺,重點是發展新的作戰理念和實現這些理念的關鍵技術。無人平臺將支持海軍的目標,即建立一支更加分散的部隊,能夠在通信退化的環境中作戰,同時在受到反介入和區域拒絕威脅的挑戰時能夠應對。雖然海軍的無人平臺仍處于不同的發展階段,但有足夠的數據表明它們的能力,可以提出新作戰概念,將這些新平臺與海軍長期以來的優先事項相結合。

美國海軍需要制定一個作戰概念(CONOPS),將無人水面和水下航行器(USV/UUV)納入現有情報、監視和偵察(ISR)流程中,無論是在戰斗期間還是在日常的非戰斗行動中。這種CONOPs將支持智能自主系統中至少兩個子類——分布式和持久性傳感器,以及戰斗空間的擴展、清晰化和精確化。無人平臺(UV)雖然有潛在的強大的收集能力,但面臨著操作和續航方面的挑戰,這將使它們在情報周期的處理和開發功能方面成為獨特的麻煩。海軍使用無人平臺作為ISR資產的概念將需要納入這些平臺獨特的適合完成的作戰目標,并且應該在這些平臺能力正在形成和實戰化的時候就開始制定。

為了把重點放在戰爭的戰役層面上,討論將限于兩個具有重要續航能力和收集能力的無人平臺,使它們具有實質性的作戰影響。這項工作回顧了關于超大型UUV(XLUUV)和中型USV(MUSV)能力和預期任務的非機密文獻,并與MQ-4C Triton(一種大型海上無人駕駛飛行器)的發展相比較。它確定了海軍在制定將XLUUV和MUSV整合到作戰層面的ISR的CONOP時,應該考慮的幾個因素和解決方案。分析的重點是在以海洋為中心的戰場上使用這些平臺,對手是在海面下、水面、空中和太空領域使用軍事力量的近鄰或同級對手。提到作戰指揮官時,設想了一個戰區聯合部隊海上分指揮官(JFMCC)和情報人員,在岸上或海上作戰中心(MOC)內運作。

2 背景介紹

美國海軍的分布式海上作戰(DMO)概念是為了在反介入、區域拒止(A2AD)戰場上擊敗競爭對手,它依賴于分布式、網絡化的ISR平臺。ISR資產將定位對手并為武器使用平臺提供目標支持。無人平臺與多域作戰(DMO)概念極其相關,因為DMO設想在對手的對峙或反介入武器的交戰區域內使用海軍資產。海軍23財年的長期海軍建設計劃指出,海軍預計在45財年擁有89-145個無人平臺,并提到更詳細的信息,可在機密的能力發展計劃中獲得。22財年的建設計劃明確指出,海軍正在尋求59-89艘USV和18-51艘UUV。海軍的資金優先級和迭代式無人平臺開發支持CNO將無人平臺作為分布式作戰的一個重要組成部分。

情報、監視和偵察是三個獨立但密切相關的功能,對于軍事行動至關重要。廣義上講,情報是收集和分析與決策有關的信息。監視是使用收集資產來監測一個地點的相關活動,而偵察是將收集資產部署到一個確定的區域,以定位或確認沒有相關活動。當無人平臺用于ISR功能時,將主要作為收集資產來監視或偵察特定區域,尋找相關活動。這些平臺的 "無人"性質,使平臺本身更具有成本效益,不容易被置于危險之中,但卻使其作為ISR資產的有效性變得復雜。采集行動必須以足夠嚴格的方式進行預規劃,以滿足指揮官在不可能重新分配任務的通信環境中繼續生存。此外,收集到的數據必須傳送給有能力將信息開發成情報的分析人員,以便為作戰決策提供依據。

3 MQ-4C "海神"偵察機

MQ-4C "海神"是由RQ-4 "全球鷹 "改裝的大型無人機,用于提供持久的海上ISR。"海神"的開發是為了滿足海軍對持久性ISR的需求,最終被確定為廣域海上監視(BAMS),用于A2AD環境。"海神"在一次任務中可以飛行超過24小時,作戰范圍為8,200海里。為了滿足海軍的要求,對RQ-4進行了具體的修改,最明顯的是要求在惡劣的海上天氣下下降和上升,以便目視識別通過電子信號定位的水面航行器。這一要求需要增加除冰能力、防雷和其他強化措施。

2020年1月,海軍對 "海神 "進行了首次早期作戰能力(EOC)部署,向關島的安徒生機場派出了兩架飛機。該飛機作為CTF-72的一部分,向在INDO-PACOM責任區作戰的聯合部隊提供海上巡邏和偵察,這是ISR的一個方面。在飛行行動中,"海神 "由四名飛行員組成的機組控制,他們在地面控制點進行操作。這些操作員駕駛飛機,不進行情報開發,情報開發由一個單獨的專家小組提供。2020年派往關島的機體并不具備整套預期的收集能力,只有光電/紅外(EO/IR)視頻流和一個海上雷達。海軍目前正在測試 "海神 "的升級版、多智能改進版,它增加了信號情報收集能力,是打算取代有人駕駛的EP-3E Aeries II飛機的平臺。

盡管還沒有完全投入使用,但 "海神 "號的早期使用提供了一些經驗,應該為大型無人水面和水下船只的發展提供參考。首先,"海神"和其他無人平臺所收集的信息將需要傳送給人類分析人員進行開發。雖然存在識別感興趣的信號的自動化程序,但它們還不能將這些信息置于當前友軍和敵軍行動的背景下,并告知決策者。其次,大型無人駕駛系統依賴于岸上的維持和維護。像 "海神 "一樣,任何大型的平臺都需要返回基地或港口進行維修、加油和卸載收集的數據。這些岸上的設施是平臺操作的關鍵要求,可能會受到干擾或攻擊。第三,在建造無人平臺時,應了解任務和有效載荷在未來可能發生變化。為平靜的海況和適度的溫度而建造的無人平臺,在大海里、惡劣的天氣或極端的水溫下,可能不那么有效或無法操作。

4 “虎鯨”超大型無人潛航器(XLUUV)

5個“虎鯨”超大型無人潛航器(XLUUV) 中的第一個,在19財年得到資助。其基于波音公司的Echo Voyager XLUUV進行開發,預計在22財年作為一個測試平臺,用于開發作戰概念和關鍵的使能技術。XLUUV幾乎肯定不會有能力以載人潛艇的保真度來探測、跟蹤和分類聲音。這主要是因為UUV缺乏訓練有素和有經驗的船上潛艇人員的專業知識,而且XLUUV是一個比載人潛艇小得多的平臺,限制了任何船上聲納陣列的能力。然而,XLUUV的模塊化性質擴大了其潛在的收集能力,包括船上攜帶的任何可部署的系統,以及船體安裝或牽引的聲納陣列。下面將討論基于有機傳感器或XLUUV攜帶的有效載荷進行數據收集。

將XLUUV作為ISR資產使用的最重大挑戰是缺乏與地面控制點的頻繁通信。現有的能力并沒有確定XLUUV是否有能力升起一個通信桅桿或浮標來傳輸數據和接收修訂的指令。這樣做會削弱使用水下航行器作為ISR資產的主要優勢,即它的隱蔽性。這為作戰計劃者確定了三種可能的行動方案。第一,XLUUV在其行動期間不能發送或接收任何數據。這將限制XLUUV只執行預先計劃的行動,并剝奪行動指揮官重新分配資產的任何能力。第二,XLUUV可以部署一個僅有接收能力的通信天線。這將允許指揮官重新分配XLUUV的任務,但不允許該資產廣播接收指令,這使得操作人員不確定新的指導是否正在執行。用來傳達這種新指導的廣播有可能揭示UUV或潛艇的行動區域。第三,XLUUV可以采用一個同時具有發射和接收能力的通信浮標。這將使指揮官能夠發布新的指令,并確認XLUUV已經收到并將執行新的任務,但也有可能將UUV的位置暴露給對手。每種方案都是在安全和作戰指揮官的靈活性之間做出的折衷。

繼隱身之后,UUV作為ISR資產的第二個主要優勢是其收集聲學數據的能力。聲學情報,即對這些數據的處理和利用,是一門極富挑戰性的學科。聲學數據需要分析人員花費數年甚至數十年的訓練和經驗來進行分析。由于這門學科的挑戰,海軍應該尋求現有的聲學情報卓越中心來分析XLUUV收集的數據。海軍在弗吉尼亞和華盛頓有兩個海軍海洋處理設施(NOPFs),由聲學和情報專家共同管理。這些設施作為綜合海底監視系統(IUSS)的一部分運作,并對來自海上采集資產的聲學數據進行持續分析使用。對于ISR功能,海軍應考慮將XLUUV作為IUSS資產,并利用NOPFs的常駐聲學情報專家來處理和分析收集的數據。

需記錄的聲學信息通常也會產生大量的數據,覆蓋較長的時間段。可能需要幾周或幾個月的時間來充分開發XLUUV任務的所有記錄數據。當考慮到前面討論的通信挑戰時,使用XLUUV作為ISR資產將需要對XLUUV支持的確切行動目標進行詳細規劃。這種規劃應導致對UUV的反應進行預先規劃,以滿足指揮官意圖的具體檢測。操作員應考慮三種反應,即立即反應、暫時延遲反應,或決定繼續執行任務并在回港后分析數據。

一旦XLUUV檢測到特定的標準,例如特定對手潛艇的聲學特征,它的反應應該由作戰指揮官仔細預先確定。在這種情況下,XLUUV有三種可能的行動。第一,停止其任務,并通過通信桅桿或非系留的單向傳輸浮標,立即向作戰指揮官發出通知,說它已經探測到對手的潛艇。如果敵方潛艇對指揮官的部隊構成危險,并且需要時間敏感的定位信息來使反潛戰(ASW)資產加入戰斗,這種反應可能是適當的。二,XLUUV可以釋放一個單向的通信浮標,在延遲后將探測結果廣播給作戰指揮官。這種折中的反應將為指揮官提供最近的定位數據,并提高他的態勢感知,但也允許UUV離開該地區,繼續執行其任務而不暴露其位置。如果指揮官希望在近乎沖突的時期提高態勢感知,但又不試圖主動瞄準對手的潛艇,這種反應可能是合適的。第三,XLUUV可以簡單地繼續記錄聲學數據,對探測進行日志記錄,并繼續執行其任務。日志記錄將有助于回港后的開發。這種反應在非沖突時期和XLUUV執行一般監視任務或收集作業環境信息時可能是合適的。這些反應選項中的每一個都利用了當今可用的技術,并為作戰指揮官提供了靈活性,以根據作戰需要指揮所需的反應。

波音公司公開的Echo Voyager XLUUV的數據顯示,它的航程為6500海里(NM),最大速度為8.0節,最佳速度為2.5-3.0節。從關島阿普拉港到俄羅斯太平洋艦隊所在地阿瓦查灣約2450海里,到中國南部戰區海軍駐地亞龍灣約2050海里。如果Orca XLUUV的能力與Echo Voyager的能力相近,這將使最有可能收集情報的地點處于部署在關島的XLUUV的行動范圍之內。然而,在離母港很遠的地方使用XLUUV可能會導致在接收和利用收集的數據方面出現重大延誤。根據2.5-8.0節的前進速度,從阿瓦查灣返回關島大約需要13至40天。該平臺漫長的旅行時間,加上分析所收集的數據所需的大量時間,促使XLUUV在ISR中最有可能的用途是對作戰環境的一般性收集,或有可能實施監視任務,將該平臺的長耐久性與前面描述的即時或延遲傳輸通信方法相結合。

作為一個無人平臺,XLUUV在維持和維護方面也將面臨獨特的挑戰,這將影響其作為ISR資產的使用。XLUUV被設想為一種可部署或遠征的能力。對這種能力的討論似乎僅限于單個或少量的船體,然而DMO概念和海軍造船計劃設想了幾十個平臺,所有這些平臺都將需要運輸、地面支持和碼頭空間來運作。任何降低或拒絕完成任務的物質缺陷都需要長時間返回港口或可能返回位于對手威脅范圍之外的水面艦艇。維護和保養的現實需要被納入任何利用無人武器作為ISR資產的作戰計劃中,這可能導致它們主要被用于非戰斗性的情報準備任務,在這些任務中,故障的影響比戰斗行動中要小。

5 中型無人水面艦艇(MUSV)

美國海軍的MUSV目前正在基于最初的原型平臺Sea Hunter(SH1)和Seahawk(SH2)的基礎上進行開發。MUSV的具體目的是發揮ISR的作用,提供一個集成到海軍戰術網格中的無人傳感器和電子戰平臺。MUSV計劃目前在平臺能力方面的定義不如XLUUV,但其發展足以考慮具體的ISR功能和作戰概念。將MUSV作為ISR資產使用的關鍵決定是確定它們是作為獨立的收集器還是作為從屬于有人駕駛的水面艦艇的資產。

無論是哪種使用方式,MUSV都將以類似的方式發揮作用--收集現有的電子數據,進行初步的開發和處理,并將收集的結果轉發給岸上和海上的分析人員和系統。區別在于船上的收集系統在尋找什么信號,以及向誰和如何轉發收集的信息。當MUSV作為載人艦艇的支持力量運行時,它的收集系統應集中于探測和跟蹤來襲的威脅,并為被支持的艦艇提供目標定位的幫助。傳感器包應能同時識別和跟蹤反艦巡航導彈、彈道導彈、高超音速導彈、水面艦艇、有人和小型無人駕駛飛機,并提供潛望鏡探測能力。MUSV應該能夠將其收集的結果直接提供給被支持的艦艇,而不依靠干預的地面站或衛星,然后協助選擇和確定防御措施或反擊的目標。

如果作為一個獨立的收集器運行,MUSV最好配備能夠超越基線追蹤多個空中和地面目標的傳感器,并自動將這些追蹤與已知或可疑的對手平臺聯系起來。這些數據應該被轉發給作戰指揮官,以建立共同作戰圖(COP)。這兩項任務,直接支持載人艦艇或提供COP發展的獨立行動,包含了監視和偵察任務的要素。然而,最佳的傳感器和通信能力在不同的任務之間是不同的,這需要在進一步發展MUSV時予以考慮。

作為主要的電子情報(ELINT)收集器,MUSV將需要依靠現有的ELINT分析員來分析所收集的數據。海軍水面艦艇上一般都有可以進行這種分析的密碼學人員,盡管他們目前的任務是操作和利用其艦艇的有機收集能力。如果MUSV上有足夠的通信能力,那么收集到的數據可以被發送到岸上的分析人員進行利用。在這種情況下,海軍信息戰指揮部(NIOCs)是數據利用的合理地點。將需要開發基礎設施和信息技術,以便將MUSV收集的ELINT納入現有的處理系統。此外,水面艦艇和岸上設施的密碼人員配置將需要反映出增加了一個新的收集平臺,提供多個需要分析的數據流。

6 反論點

像“虎鯨”和MUSV這樣的大型無人平臺被設想為未來技術的一個組成部分,它將實現海軍的DMO概念。這一設想聲稱,從無人平臺收集的數據將通過海軍戰術網格和聯合全域指揮與控制(JADC2)網絡傳達給作戰級指揮官。CNO的NAVPLAN 2021指出,建立一個強大的海軍作戰架構(NOA),這將支持將無人平臺收集的數據納入JADC2,是僅次于調整海上戰略威懾力量的第二大發展重點。目前的ISR平臺開發正在將重點從人力密集型部隊轉向自動化能力,以在有爭議的環境中擊敗同行的對手。AI/ML的使用將導致收集的數據處理和利用的速度呈指數級增長,大大增強作戰指揮官的態勢感知,并減少從檢測到對手到使用武器的時間。對收集到的數據進行網絡化、自動化的利用,將是分布式作戰的一個重要推動因素。

7 辯證

網絡化通信和AI/ML的發展必然會導致無人平臺的有效使用,這有三個原因。第一,作戰藝術取決于對作戰環境、敵方和友方部隊以及作戰目標的深入分析和理解。無論提供何種工具,這種理解和部隊的有效使用將始終取決于一個有能力的作戰指揮官。作為一種ISR資產,無人平臺將依賴于指揮官和情報人員的明確行動任務。第二,目前人工智能/ML工具在情報分析中的狀態是有希望的,但離開始復制人類分析的能力可能還有很長的路要走。人工智能/ML工具只能復制人類思維和行動所形成的模式,而且幾乎可以肯定的是,無論開發何種算法,都會錯過與作戰藝術相關的新趨勢和異常數據。海軍在培訓和保留AI/ML專業知識方面也面臨挑戰。第三,大型UV目前正處于迭代實驗階段,在設計平臺能力的同時,現在就需要制定作戰概念。等到無人平臺達到最終的生產狀態,再為這些新的收集資產制定ISR CONOPs,將使海軍情報專家無法在開發過程中告知滿足作戰意圖所需的傳感器和能力。

8 結論

美國海軍情報界需要充分投資于大型無人平臺的發展,特別是發展將這些平臺用于ISR角色所需的能力和概念。海軍在將無人平臺納入ISR過程中的經驗將為利用無人水面和海底艦艇提供參考,但不能直接轉化為利用無人平臺。在通信惡化或被拒絕的環境中運行的無人平臺可能需要大量的岸邊基礎設施來處理和利用收集的數據,對這種基礎設施和人力的投資應該與平臺的開發同時進行。從無人平臺收集的數據可能需要大量的時間來處理和利用,減少了它們在指示和警告(I&W)任務中的作用,并可能引導最佳傳感器套件來支持作戰環境的收集。由于在處理和利用收集的數據方面的挑戰,無人平臺不會取代現有的載人飛機、水面和水下航行器以及國家高空收集的ISR功能,但如果開發和使用正確的能力和作戰概念組合,無人平臺可能會成為發展指揮官態勢感知的有力工具。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容
北京阿比特科技有限公司