在遠征情況下長期執行任務的部隊需要具有移動性、穩健性和足夠自主性的技術,以提高團隊的效率。美國陸軍作戰能力發展司令部陸軍研究實驗室向工業界征集解決方案,以證明在與作戰有關的情況下的自主移動性和自主安全性。2022年7月期間,三家公司參加了DEVCOM陸軍研究實驗室的評估,以評估現成的能力,通過檢測和應對指定興趣區附近各種場景中的未知行為者來提高態勢感知。本報告描述了第一次工業自主技術評估,詳細介紹了挑戰、數據和性能分析、反饋和建議,開發者和利益相關者可以利用所展示的優勢并投資于需要更多能力的領域。結果表明,目前的技術可用于有限的監視和偵察任務,而且所展示的性能水平值得進一步開發,以提高不同環境、情況和任務集的能力。
2022年7月18日至22日期間,美國陸軍作戰能力發展司令部陸軍研究實驗室、三家公司以及來自其他政府組織的眾多與會者聚集在馬里蘭州阿伯丁試驗場的機器人研究合作園區(R2C2),在其首次工業自主技術評估(IATA)活動中展示和評估具有在多種環境和情況下保護作業區、人員和基礎設施能力的地面機器人技術。該活動反映了DEVCOM陸軍研究實驗室在機器人研究方面與學術界、工業界和其他政府組織合作的承諾。
IATA的目的是通過自主技術的創新、發現、演示和實驗為陸軍現代化工作提供信息,并加速向作戰人員提供創新能力。它提供了一個與作戰相關的環境和問題集,使技術開發者能夠展示新技術并以創新的方式應用現有技術。它還為政府提供了一種手段,以評估已知差距和新需求的技術性能并提供反饋。IATA的主要目標是確定和評估能夠加速與軍隊現代化優先事項相關的解決方案的技術。IATA提出了一個審查和了解陸軍挑戰的環境,并向參與者提供評估數據,說明他們的技術如何應對挑戰。
我們的意圖是將每個參與公司的技術暴露在三種小模型中,每種小模型都有多種運行類型。
在這次活動中,共有三家公司展示了他們的地面機器人技術。參加IATA的公司有以下幾家:
Asylon Robotics
Booz Allen Hamilton
3)Ghost Robotics/ARES Security
參加活動的人員包括來自空軍研究實驗室、DEVCOM軍備中心、ARL、約翰-霍普金斯應用物理實驗室、海軍陸戰隊作戰實驗室和測試資源管理中心的代表。能源技術中心公司通過其與ARL的合作中介協議為IATA活動的規劃和執行提供了支持。
本報告描述了現場和評估方法,并提供了對所包括的技術性能的反饋。為了能夠坦率地報告機器人系統的性能,并排除對特定公司技術的歸屬,本報告提到了A、B和C公司,它們的順序與本執行摘要中的參與者名單的順序不相關。
本報告記錄了IATA活動的設計、執行和結果,并提供了結論和建議。第1節介紹了本文件,列舉了IATA的目的和本報告的概述。第2節描述了示范場地,包括照片。第3節簡要介紹了評估過程,包括評估的目標、提議的方案(附圖和照片)以及計劃和執行的各種運行。第4節列出了在IATA期間展示的技術配置。第5節提供了對每個小插曲的性能分析。第6節提供了各類評估的結果,第7節對結論進行了總結。
自動化使系統能夠執行通常需要人類投入的任務。英國政府認為自動化對保持軍事優勢至關重要。本論文討論了當前和未來全球自動化的應用,以及它對軍事組織和沖突的影響。同時還研究了技術、法律和道德方面的挑戰。
許多軍事系統都有自動化的特點,包括執行物理任務的機器人系統,以及完全基于軟件的系統,用于數據分析等任務。自動化可以提高某些現有軍事任務的效率和效力,并可以減輕人員的 "枯燥、骯臟和危險 "的活動。 許多專家認為,自動化和自主性是與系統的人類監督水平有關的,盡管對一些系統的定位存在爭議,而且對系統是否應被描述為 "自動化 "或 "自主 "可能存在分歧。英國防部在其 "自主性譜系框架 "中概述了5個廣泛的自主性水平,從 "人類操作 "到 "高度自主"。一個系統可能在不同的情況下有不同的操作模式,需要不同程度的人力投入,而且只有某些功能是自動化的。方框1概述了本公告中使用的定義。
方框1:該領域的術語并不一致,關鍵術語有時可以互換使用。
自動化系統。自動系統是指在人類設定的參數范圍內,被指示自動執行一組特定的任務或一系列的任務。這可能包括基本或重復的任務。
自主系統。國防科學與技術實驗室(Dstl)將自主系統定義為能夠表現出自主性的系統。自主性沒有公認的定義,但Dstl將其定義為 "系統利用人工智能通過自己的決定來決定自己的行動路線的特點"。自主系統可以對沒有預先編程的情況作出反應。
無人駕駛車輛。朝著更高水平的自主性發展,使得 "無人駕駛 "的車輛得以開發,車上沒有飛行員或司機。有些是通過遠程控制進行操作,有些則包括不同程度的自主性。最成熟的無人駕駛軍事系統是無人駕駛航空器,或稱 "無人機",其用途十分廣泛。
人工智能。人工智能沒有普遍認同的定義,但它通常是指一套廣泛的計算技術,可以執行通常需要人類智慧的任務(POSTnote 637)。人工智能是實現更高水平的自主性的一項技術。
機器學習:(ML,POSTnote 633)是人工智能的一個分支,是具有自主能力的技術的最新進展的基礎。
英國政府已經認識到自主系統和人工智能(AI,方框1)的軍事優勢以及它們在未來國防中可能發揮的不可或缺的作用。在其2021年綜合審查和2020年綜合作戰概念中,它表示致力于擁抱新的和新興的技術,包括自主系統和人工智能。2022年6月,英國防部發布了《國防人工智能戰略》,提出了采用和利用人工智能的計劃:自動化將是一個關鍵應用。在全球范圍內,英國、美國、中國和以色列擁有一些最先進的自主和基于AI的軍事能力。方框2中給出了英國和全球活動的概述。
方框2:英國和全球活動
英國 英國政府已表明其投資、開發和部署用于陸、海、空和網絡領域軍事應用的自主和人工智能系統的雄心。最近的投資項目包括NELSON項目,該項目旨在將數據科學整合到海軍行動中;以及未來戰斗航空系統,該系統將為皇家空軍提供一個有人員、無人員和自主系統的組合。在2021年綜合審查發表后,政府成立了國防人工智能中心(DAIC),以協調英國的人工智能國防技術的發展。這包括促進與學術界和工業界的合作,并在紐卡斯爾大學和埃克塞特大學以及艾倫-圖靈研究所建立研究中心。
全球背景 對自主軍事技術的投資有一個全球性的趨勢:25個北約國家已經在其軍隊中使用一些人工智能和自主系統。有限的公開信息給評估軍隊的自主能力帶來了困難,但已知擁有先進系統的國家包括。
俄羅斯和韓國也在大力投資于這些技術。在俄羅斯,機器人技術是最近成立的高級研究基金會的一個重點,該基金會2021年的預算為6300萬美元。
自主系統可以被設計成具有多種能力,并可用于一系列的應用。本節概述了正在使用或開發的軍事應用系統,包括情報、監視和偵察、數據分析和武器系統。
自動化正越來越多地被應用于情報、監視和偵察(ISR),通常使用無人駕駛的車輛(方框1)。無人駕駛的陸上、空中和海上車輛配備了傳感器,可以獲得數據,如音頻、視頻、熱圖像和雷達信號,并將其反饋給人類操作員。一些系統可以自主導航,或自主識別和跟蹤潛在的攻擊目標。英國有幾架ISR無人機在服役,還有一些正在試用中。這些無人機的范圍從非常小的 "迷你 "無人機(其重量與智能手機相似)到可以飛行數千英里的大型固定翼系統。英國正在試用的一個系統是一個被稱為 "幽靈 "無人機的迷你直升機,它可以自主飛行,并使用圖像分析算法來識別和跟蹤目標。無人駕駛的水下航行器被用于包括地雷和潛艇探測的應用,使用船上的聲納進行自主導航。這些車輛還可能配備了一種技術,使其能夠解除地雷。
許多軍事系統收集了大量的數據,這些數據需要分析以支持操作和決策。人工智能可用于分析非常大的數據集,并分辨出人類分析員可能無法觀察到的模式。這可能會越來越多地應用于實地,為戰術決策提供信息,例如,提供有關周圍環境的信息,識別目標,或預測敵人的行動。英國軍隊在2021年愛沙尼亞的 "春季風暴 "演習中部署了人工智能以提高態勢感知。美國的Maven項目旨在利用人工智能改善圖像和視頻片段的分析,英國也有一個類似的項目,利用人工智能支持衛星圖像分析。
以自動化為特征的武器系統已被開發用于防御和進攻。這些系統包括從自動響應外部輸入的系統到更復雜的基于人工智能的系統。
防御系統。自動防空系統可以識別和應對來襲的空中威脅,其反應時間比人類操作員更快。這種系統已經使用了20多年;一份報告估計有89個國家在使用這種系統。目前使用的系統可以從海上或陸地發射彈藥,用于應對來襲的導彈或飛機。英國使用Phalanx CIWS防空系統。雖然沒有在全球范圍內廣泛采用,但以色列將固定的無機組人員火炮系統用于邊境防御,并在韓國進行了試驗。這些系統能夠自動瞄準并向接近的人或車輛開火。
導向導彈。正在使用的進攻性導彈能夠在飛行中改變其路徑,以達到目標,而不需要人類的輸入。英國的雙模式 "硫磺石"(DMB)導彈于2009年首次在阿富汗作戰中使用,它可以預先設定搜索特定區域,利用傳感器數據識別、跟蹤和打擊車輛。
用于武器投送的無人平臺。為武器投送而設計的無人空中、海上和陸地運載工具可以以高度的自主性運行。這些系統可以自主地搜索、識別和跟蹤目標。大多數發展都是在空中領域。英國唯一能夠自主飛行的武裝無人機是MQ-9 "收割者",但有幾個正在開發中。英國防部還在開發 "蜂群 "無人機(方框3)。雖然存在技術能力,但無人駕駛的進攻性武器并不用于在沒有人類授權的情況下做出射擊決定;報告的例外情況很少,而且有爭議。 自主系統在識別目標和作出射擊決定方面的作用,是廣泛的倫理辯論的主題(見下文)。
方框3:無人機蜂群
無人機蜂群是指部署多個能夠相互溝通和協調的無人機和人員,以實現一個目標。在軍事環境中,蜂群可能被用來監視一個地區,傳遞信息,或攻擊目標。2020年,英國皇家空軍試驗了一個由一名操作員控制的20架無人機群,作為Dstl的 "許多無人機做輕活 "項目的一部分。蜂群技術還沒有廣泛部署。據報道,以色列國防軍于2021年首次在戰斗中使用無人機蜂群。
自動化技術和人工智能的擴散將對英國軍隊產生各種影響,包括與成本和軍事人員的角色和技能要求有關的影響。對全球和平與穩定也可能有影響。
一些專家表示,從長遠來看,軍事自動化系統和人工智能可能會通過提高效率和減少對人員的需求來降低成本。然而,估計成本影響是具有挑戰性的。開發成本可能很高,而且回報也不確定。提高自動化和人工智能方面的專業知識可能需要從提供高薪的行業中招聘。軍隊可能不得不提高工資以進行競爭,英國防部將此稱為 "人工智能工資溢價"。
自動化可能會減少從事危險或重復性任務的軍事人員數量。然而,一些軍事任務或流程,如高層戰略制定,不太適合自動化。在許多領域,自主系統預計將發揮對人類的支持功能,或在 "人機團隊 "中與人類合作。專家們強調,工作人員必須能夠信任與他們合作的系統。一些角色的性質也可能會受到自動化的影響,所需的技能也是如此。例如,對具有相關技術知識的自主系統開發者和操作者的需求可能會增加。英國防部已經強調需要提高整個軍隊對人工智能的理解,并承諾開發一個 "人工智能技能框架",以確定未來國防的技能要求。一些利益相關者對自動化對軍事人員福祉的影響表示擔憂,因為它可能會限制他們的個人自主權或破壞他們的身份和文化感。
人員對自動化的態度:
關于軍事人員對自動化的態度的研究是有限的。2019年對197名英國防部人員的研究發現,34%的人對武裝部隊使用可以使用ML做出自己的決定的機器人有普遍積極的看法,37%的人有普遍消極的態度。有報道稱,人們對某些自主武器系統缺乏信任,包括在2020年對澳大利亞軍事人員的調查中。在這項研究中,30%的受訪者說他們不愿意與 "潛在的致命機器人 "一起部署,這些機器人在沒有人類直接監督的情況下決定如何在預定的區域使用武力。安全和目標識別的準確性被認為是兩個最大的風險。有證據表明,信任程度取決于文化和熟悉程度。
一些專家提出了這樣的擔憂:在武器系統中越來越多地使用自主權,有可能使沖突升級,因為它使人類離開了戰場,減少了使用武力的猶豫性。蘭德公司最近的一份戰爭游戲報告(上演了一個涉及美國、中國、日本、韓國和朝鮮的沖突場景)發現,廣泛的人工智能和自主系統可能導致無意中的沖突升級和危機不穩定。這部分是由于人工智能支持的決策速度提高了。升級也可能是由自動系統的非預期行為造成的。
還有人擔心,由于自動化和基于人工智能的技術變得更便宜和更豐富,非國家行為者更容易獲得這種技術。這些團體也可能獲得廉價的商業無人機,并使用開放源碼的人工智能對其進行改造,以創建 "自制 "武器系統。關于非國家行為者使用自主系統的報告是有限的和有爭議的。然而,非國家團體確實使用了武裝無人機,而且人們擔心人工智能會使這種系統更加有效。
正在進行的包括機器人和人工智能在內的技術研究,主要是由商業驅動的,預計將增加自動化系統的應用范圍和采用程度。該領域的一些關鍵技術挑戰概述如下。一個更普遍的挑戰是,相對于數字技術的快速發展,軍事技術的發展速度緩慢,有可能在部署前或部署后不久組件就會過時。
無人駕駛的車輛和機器人經常需要向人員傳輸數據或從人員那里接收數據。這可以讓人類監督和指導它們的運作或接收它們收集的數據。在某些情況下,系統也可能需要相互通信,如在無人機群中(方框3)。軍方通常使用無線電波在陸地上傳輸數據,其帶寬(頻率的可用性)可能有限。在傳輸大量數據,如高分辨率圖像時,這可能是個問題。5G技術(POSTbrief 32)可能會促進野外更有效的無線通信。系統之間的無線電通信可以被檢測到,提醒對手注意秘密行動。對手也可能試圖阻止或破壞系統的通信數據傳輸。目前正在研究如何最大限度地減少所需的數據傳輸和優化數據傳輸的方法。更多的 "板載 "或 "邊緣 "處理(POSTnote 631)可以減少傳輸數據的需要。然而,減少通信需要系統在沒有監控的情況下表現得像預期的那樣。
具有更高水平的自主性的更復雜的系統通常在運行時在船上進行更多的數據處理和分析。這要求系統有足夠的計算能力。一般來說,一個系統能做多少嵌入式數據處理是有限制的,因為硬件會占用空間并需要額外的電力來運行。這可能會限制需要電池供電運行的系統的敏捷性和范圍。然而,人工智能的進步也可能使系統更有效地運行,減少計算要求。由于未來軟件、算法和計算機芯片技術的進步,計算機的處理能力也有望提高。
創建和整理與軍事應用相關的大型數據集,對生產可靠的人工智能自主系統非常重要。機器學習(ML,方框1)依賴于大型數據集來訓練其基礎算法,這些數據可以從現實世界中收集,或者在某些情況下,使用模擬生成。一般來說,用于訓練ML系統的數據越有代表性、越準確、越完整,它就越有可能按要求發揮作用。準備訓練數據(分類并確保其格式一致)通常需要手動完成,并且是資源密集型的。
數據隱私:
一些人工智能系統可能會在民用數據上進行訓練。人們普遍認為,如果使用與個人有關的數據,他們的隱私必須得到保護。這可以通過對個人數據進行匿名化處理或只分享經過訓練的人工智能系統來實現。
由計算機軟件支撐的系統數量的增加增加了網絡攻擊的機會。網絡攻擊者可能試圖控制一個系統,破壞其運作,或收集機密信息。基于人工智能的系統也可以通過篡改用于開發這些系統的數據而遭到破壞。英國防部在2016年成立了網絡安全行動中心,專注于網絡防御。在英國,2021年成立的國防人工智能中心,有助于促進行業伙伴或其他合作者對高度機密數據的訪問。
重要的是,軍事系統要可靠、安全地運行,并符合法律和法規的規定。人工智能和自動化給傳統軟件系統帶來了不同的測試和保證挑戰。 進一步的挑戰來自于ML的形式,它可能不可能完全理解輸出是如何產生的(POSTnote 633)。人工智能軟件可能還需要持續監測和維護。利益相關者已經強調缺乏適合的測試工具和流程,并正在開發新的工具和指南。英國政府的國防人工智能戰略致力于建立創新的測試、保證、認證和監管方法。
目前還沒有專門針對將自動化或人工智能用于軍事應用的立法。雖然它們在戰爭中的使用受現有的國際人道主義法的約束,但這與新技術的關系是有爭議的。在國家和國際層面上有許多關于人工智能更普遍使用的準則,這些準則可以適用于自動化系統。然而,2021年數據倫理與創新中心(CDEI)的人工智能晴雨表研究發現,工業界很難將一般的法規適應于特定的環境。2022年,英國防部與CDEI合作發布了在國防中使用人工智能的道德原則。
一些利益相關者強調,如果自主系統的行為不合法或不符合預期,那么它的責任是不明確的。這可能導致系統及其決定與設計或操作它的人類之間出現 "責任差距",使法律和道德責任變得復雜。英國防部的原則說,在人工智能系統的整個設計和實施過程中,應該有明確的責任。國防人工智能戰略為供應商設定了類似的期望。
這一領域的大部分法律和道德辯論都集中在武器系統上。然而,某些非武裝系統(例如,基于軟件的決策支持工具)可能在識別目標方面發揮關鍵作用,因此提出了許多與那些同時部署武器的系統相同的道德問題。
國際上對 "致命性自主武器系統"(LAWS)的使用存在著具體的爭論。這個術語沒有普遍認同的定義,它被用來指代具有不同自主能力的廣泛的武器。關于使用致命性自主武器系統的報告存在很大爭議,例如,由于系統使用模式的不確定性。 聯合國《特定常規武器公約》(CCW)自2014年以來一直在討論致命性自主武器系統的可能立法。它在2019年發布了指導原則,但這些原則沒有約束力,也沒有達成進一步的共識。雖然大多數參加《特定常規武器公約》的國家支持對致命性自主武器進行新的監管,但包括英國、美國和俄羅斯在內的其他國家認為,現有的國際人道主義法已經足夠。根據運動組織 "阻止殺手機器人"(SKR)的說法,83個國家支持關于自主武器系統的具有法律約束力的文書,12個國家不支持。
許多利益相關者認為,必須保持人類對武器和瞄準系統的某種形式的控制,才能在法律和道德上被接受。某些組織,如SKR,呼吁禁止不能由 "有意義的人類控制 "的自主武器系統,并禁止所有以人類為目標的系統。他們還呼吁制定法規,確保在實踐中保持足夠的人為控制。在其2022年國防人工智能戰略中,英國政府表示,識別、選擇和攻擊目標的武器必須有 "適當的人類參與"。作為回應,一些呼吁監管的非政府組織表示,需要更加明確如何評估或理解 "適當的人類參與"。包括英國政府在內的利益相關者建議的維持人類控制的潛在措施包括限制部署的時間和地理范圍。被認為會破壞人類控制的因素包括人類做出決定的有限時間和 "自動化偏見",即個人可能會過度依賴自動化系統,而不太可能考慮其他信息。
大多數關于軍事自動化的公眾意見調查都集中在自主武器系統上。SKR委托對28個國家的19,000人進行了民意調查。62%的受訪者反對使用致命性武器系統;這一數字在英國是56%。關于公眾對人工智能、數據和更廣泛的自動化的態度的研究發現,公眾關注的主要問題包括數據安全、隱私和失業。然而,公眾的觀點會因系統的功能和使用環境的不同而有很大差異。
潛在對手的火炮系統的改進對美國軍隊特別是陸軍提出了挑戰。除了改進的火炮系統能力和新的使用技術的挑戰外,特殊彈藥的擴散--如精確、熱障和頂部攻擊彈藥--重新引起了對敵人的大炮和火箭炮對美國作戰行動和地面作戰系統的潛在影響的關注。
為了應對這一挑戰,美國陸軍正在尋求通過升級目前的火炮和導彈系統,開發新的長程火炮和高超音速武器,以及改造現有的空射和海射導彈和巡航導彈以便陸軍部隊進行地面發射來提高其所謂的遠程精確射擊(LRPF)能力。
2018年美國防戰略和陸軍的多域作戰概念都要求提高陸軍LRPF能力,以應對被稱為俄羅斯和中國的反介入、區域拒止(A2/AD)戰略,旨在限制美國軍隊在歐洲和太平洋地區的行動自由。
美陸軍有五個主要項目或工作正在進行或考慮中,以提高遠程精確射擊能力:
增程加農炮計劃(ERCA)計劃開發一種能夠對70多公里外的目標進行精確射擊的系統,比目前系統的30公里目標距離有所改進。
精確打擊導彈(PrSM)是一種地對地、全天候、精確打擊的導彈,由M270A1多管火箭系統(MLRS)和M142高機動性炮兵火箭系統(HIMARS)發射。PrSM旨在取代目前的MLRS和HIMARS導彈,并將目前的射速提高一倍,每個發射艙有兩枚導彈。
美陸軍正在研究開發一種戰略遠程炮(SLRC)的可行性,這種炮可以以高超音速發射,射程可達1000英里,以打擊防空、火炮和導彈系統以及指揮和控制目標。
美陸軍、海軍、空軍和導彈防御局(MDA)正在開發通用高超音速滑翔體(C-HGB),陸軍計劃將其作為遠程高超音速武器(LRHW)計劃的一部分,使C-HGB能夠從移動的陸軍地面導彈發射器發射。
最后,美陸軍正試圖改造現有的海軍SM-6和UGM-109對地攻擊導彈,以便為陸軍提供一種中程導彈能力。
鑒于潛在的資源限制和陸軍對LRPF的重視,國會在其監督、授權和撥款方面可能會進一步研究陸軍的LRPF計劃。國會潛在的問題包括
戰略大炮、高超音速導彈和中程戰場導彈的理由。
LRPF的估計總成本。
LRPF和美國印太司令部的太平洋威懾倡議(PDI)投資計劃。
部隊結構要求。
后備役部隊的LRPF。
其他軍種對陸軍遠程防衛部隊的看法;以及
指揮、控制和瞄準遠程火力。
美國陸軍未來司令部(AFC)領導著一項持續的現代化和創新工作,以支持未來的作戰人員。AFC現在負責監督作戰能力發展司令部,并在最近重組了某些研究辦公室、實驗室和工程中心。作為對這一調整的回應,參議院軍事委員會要求國家研究院的陸軍研究和發展委員會審查這些研究組合的變化并評估其影響。本報告調查和評估了美陸軍在調整背后的戰略,與利益相關者討論了這些問題,并提出建議以確保調整符合陸軍現代化的優先事項。
經過20年的反叛亂和國家建設行動,美陸軍意識到其近似的競爭對手已經在幾個技術領域趕上了它。陸軍的技術優勢已被大大削弱,在某些情況下,如非對稱戰爭、無人駕駛系統、綜合防空和高超音速武器,陸軍的技術優勢已被平分或超越。2017年,陸軍部長馬克-埃斯珀領導了一項緊張工作,將陸軍科技(S&T)工作和資金重新集中在與美國近似的競爭對手相匹配,然后重新獲得美國的歷史技術優勢。作為這項工作的一部分,跨職能小組(CFTs)反映了陸軍的六個現代化優先事項和兩個交叉支持能力,以使定義需求、規劃科技和更廣泛的研究、開發、測試和評估(RDT&E)工作以滿足這些需求的過程,將這項工作的結果過渡到采購計劃的記錄,以及維持由此產生的系統更加有效。目標是在2022財年開始投入新的能力,總體現代化目標是在2035財年投入現代化的系統和能力。現代化的優先事項、交叉支持能力及其CFTs如下。
隨后,美國陸軍未來司令部(AFC)于2018年成立,是一個直接向陸軍部總部(參謀長)報告的四星級陸軍司令部,負責領導陸軍的現代化建設工作。美國陸軍總命令2018-10規定,AFC
委員會沒有對美國防部的每一個組成部分進行逐條審查,也沒有對它們如何受到重組的影響進行逐條審查。委員會也沒有對組建AFC的決定本身作出判斷。
值得注意的是科技對國家安全的價值。科技的最大價值不在于關注當前的威脅和作戰環境,盡管它經常被要求為關鍵的近期需求制定解決方案,如分析回收的化學彈藥,以及伊拉克和阿富汗的即時解決方案問題,如MRAP快速裝甲計劃(MEAP)和CIED能力(Crew,Duke等)。科技的最大價值是作為技術和能力創新的孵化器,使美國在競爭者和對手面前擁有顛覆性和革命性的技術優勢。科技創新工作,或稱發現科學,是給予美國隱形技術、全球定位系統(GPS)、激光和雷達的原因。至關重要的是,在緊急推動恢復我們與美國競爭對手和對手的近期技術平等和優勢的過程中,科技發現科學要有足夠的資金,以便陸軍在目前的現代化視野之外能夠擁有保護國家及其利益所需的技術優勢。
本報告第2章探討了陸軍科技事業最近的變化是如何改變了現代化和科技的決策、責任和資金狀況的。鑒于這種變化,委員會花了大量的時間來審議這些問題,并認識到科技決策和資金之間的密切聯系及其對科技企業和能力發展的廣泛影響,因此在報告中用了大量的篇幅來闡述這一主題。委員會的分析主要集中在科技企業內部的權力和責任、需求產生過程、科技的資金趨勢以及陸軍內部明確的科技領導的必要性。
AFC的成立似乎將現代化和科技的決策和資金置于AFC的權限和控制之下。這改變了現代化和科技決策的格局,造成了權力、角色和責任的混亂,主要影響了負責采購、后勤和技術的助理陸軍部長[ASA(ALT)]和負責研究和技術的副助理陸軍部長[DASA(R&T)]的角色。盡管AFC有明確的意圖,但對于ASA(ALT)相對于AFC的作用仍然存在混淆。這主要源于《美國法典》第10章第7016條,該條規定ASA(ALT)的主要職責是 "全面監督陸軍部的采購、技術和后勤事務",因此指定ASA(ALT)辦公室對科技政策和預算分配負有主要責任。隨著美國法典第10章第7014(b)(8)和(d)(1)條規定的權力被重新指定給AFC,情況發生了變化。
2019年提交給國會的一份陸軍報告將AFC指揮官描述為有權在與ASA(ALT)"協商"的情況下"優先考慮、指導、整合和同步整個陸軍現代化企業的科技工作、業務和組織"。雖然上述措辭確實規定了AFC將領導整個 "現代化企業"的科技工作,但沒有具體說明科技工作的整體情況,在AFC領導下的發展委員會的重組將陸軍的大部分科技機構置于AFC的監督和責任之下--有效地使其控制了大部分陸軍的科技決策和資金。這與助理國務卿(ALT)在歷史上和目前聲明的作為整個陸軍科技領導機構的角色形成了鮮明的對比。雖然委員會不對這一轉變的效果進行評論,但這一轉變的實施和新安排的不明確正在催化陸軍科技界的混亂局面。
鑒于上述明顯沖突和重疊的權力,再加上陸軍指令和法定權力的不明確,上述提交給國會的報告強調,陸軍需要澄清AFC相對于ASA(ALT)的作用、責任和權力,并明確劃分和消除其在整個陸軍科技企業中的關系。
建立跨職能小組(CFTs)的目的是作為連接科技界、采購界和需求界的機制--這一作用最初由ASA(ALT)來完成。雖然委員會對在整個陸軍中建立明確的優先事項表示贊賞,但CFTs的作用似乎正在促使大多數科技部門關注近期的重點。這為完成陸軍現代化的目標帶來了一些差距。也就是說,CFTs似乎正在推動能力需求和科技投資與新系統的采購保持一致,并將技術過渡到記錄項目(PORs)。
每個CFT都與現代化的優先事項相一致,并在很大程度上影響了需求的產生和預算分配。雖然CFTs的確切報告結構仍不清楚,但其在推動和領導現代化工作方面的作用--包括影響科技技術投資的決策--使其在整個陸軍科技投資的優先級和分配方面發揮了作用。委員會在這方面的主要關注點是如何選擇技術,使之成熟,并將其納入采購PORs。在AFC成立之前,需求的產生與預算過程是分開的,傳統上由TRADOC作為需求產生的主導指揮。委員會擔心,將與現代化優先事項--生成、驗證和資源有關的需求過程合并到AFC之下,會減少陸軍內部思想交流和資源優化的機會,而在這次合并之前,有多個陸軍組織參與。此外,AFC和CFTs對現代化的關注,加上對科技資源分配的控制,可能導致現代化的近期需求和科技推動能力發展的長期需求之間的沖突。
委員會注意到,CFTs提供的整合和重點反過來又提供了對現代化需求的關注和整個DEVCOM更大的統一性。這種關注使發展司令部及其下屬的ARL能夠在整個陸軍企業中更加橫向地工作。然而,委員會對文件的審查和與陸軍關鍵人員的互動顯示,領導層對科技的責任缺乏重視,而不是目前現代化計劃中設想的那些系統。委員會注意到陸軍需要澄清CFTs的作用,保持對近期和長期投資之間的重要制衡,并確保近期現代化不以長期能力發展為代價。
除了角色和責任以及預算權力的變化外,委員會還審查了科技資金的趨勢,以評估對科技支出的任何潛在或現有影響。委員會發現,經過通貨膨脹調整(2021財年美元不變)的6.1和6.2資金近年來有所下降,而經過通貨膨脹調整的6.3資金和--雖然不適合科技--6.4資金有所增加。如果不是因為國會的預算增加,6.1和6.2資金的減少會更大。這些加分項也推動了6.3和6.4經費的增加。陸軍已經將額外的資源集中在先進技術開發(6.3)和先進組件開發和原型(6.4)的資金上,這與現代化建設更加緊密地結合起來。對資金水平的觀察使委員會推測,科技的創新部分--6.1和6.2資金主要用于的工作--被認為不像現代化那樣重要。
委員會注意到,根據與國防部實驗室和中心人員的交談,科技界對核心資金有一種看法。AFC對分配給DEVCOM實驗室或中心的核心發現或創新資金與現代化工作的科技資金數量提供了混合信號。盡管AFC已經表示支持并希望保持實驗室和中心的核心能力,但在未來的預算中需要更加明確優先次序,否則實驗室和中心可能會繼續認為它們是在與外部伙伴競爭科技資金。此外,自AFC成立以來,對外部組織的依賴已經明顯地、適當地增加了,但同時也需要考慮對重要的內部實驗室和中心的穩定感。
考慮到對現代化的依賴程度增加,以及陸軍科技部門的現代化和創新支出比例為60/40的既定目標,委員會擔心,過于關注近期的現代化,專注于漸進式的變化,會因為長期和革命性的科技項目資金不足而造成未來能力發展上的差距。雖然委員會認為科技的60/40比例是謹慎的(見第2章的結論),但需要有機制來確保科技資金在未來的發展中保持安全,陸軍應采納國防科學委員會的建議,將科技資金增加到陸軍最高預算的3.4%。
上述每個問題都可以通過在陸軍內部建立一個明確的科技領導和 "倡導者 "來解決。委員會建議在秘書處內設立一個科技主管,作為專家和倡導者,監督科技政策并審查其執行情況。這一角色將能夠同時解決陸軍各部門之間的爭議,并確保在陸軍科技企業中倡導科技資源分配。
委員會認識到科技與創新之間的聯系,認識到創新對超越近似對手的關鍵需求,認識到科技人員在推動創新方面發揮的核心作用,調查了軍隊科技創新的狀況。這包括重組對科技創新和相關科技人員隊伍的影響。創新可能是對優先武器系統內能力的離散改進(例如,新的隱形涂層或高超音速結構材料的可制造性)或全新的革命性能力(例如,隱形、GPS或5G)。探索新概念的自由,即使心中沒有明確的過渡,對創新也是至關重要的,并由科技投資來驅動,從而形成新的能力和被授權的科技人員隊伍。本報告第3章重點關注創新和科技隊伍,并概述了澄清與外部團體接觸的步驟,連接軍隊和科技界,管理和維持科技隊伍,以及平衡現代化與創新。
盡管AFC增加了校外參與,但對于科技界的許多人來說,參與陸軍研究和進行研究的途徑和機制可能是混亂的。雖然AFC網站上有相關信息,但它可以澄清聯絡點、現有的參與機會以及對AFC內部研究工作的解釋。這對那些不熟悉為陸軍工作的小型企業和研究組織來說尤其具有挑戰性,因為他們不熟悉為陸軍工作,或者缺乏處理政府和陸軍關系的專業人員。
然而,委員會注意到,AFC仍然是一個新的組織。在AFC的一些組成組織中,有一些例子或最佳做法,如陸軍應用實驗室,它利用非傳統的合作伙伴。委員會建議,AFC開發一個中央陸軍資源網站,以便與外部組織建立伙伴關系,提供信息和參與點。
在美陸軍和國防部(DoD)之外的美國科技界及其資助的活動是廣泛的;工業界在技術發展方面的支出遠遠超過了政府。雖然陸軍內部的科技管道很強大,但陸軍與這個更廣泛的社區的聯系將使其能夠利用和發揮這種研究。陸軍只有幾個大學附屬研究中心(UARCs)。它們有特定的章程,并在整個RDT&E預算類別中享有良好的聲譽。雖然陸軍研究辦公室對贊助學術研究負有主要責任,但當大學附屬研究中心在其特定的章程中看到與學術機構合作的機會時,應予以鼓勵。此外,UARC也可以在研究與發展工程中心和其他機構中找到自然的合作伙伴。
對操作者需求的認識在調整科技以滿足未來能力需求方面也是至關重要的。委員會看到了強有力的證據,陸軍正在積極尋求操作人員對科技界的投入,以確定需求和能力發展。融合項目和點燃團隊計劃是這種互動的優秀范例。委員會鼓勵這些互動和它們的擴展,同時平衡近期的需求認知和科技的研究和創新責任。委員會還鼓勵AFC/DEVCOM和國防部感興趣的團體之間繼續接觸,以加強交叉合作,分享想法和發展伙伴關系,幫助最大限度地減少重復工作。
為了使陸軍在創新和科技方面保持優勢,一支強大的技術隊伍對于將現場需求轉化為技術并與學術界和工業界保持緊密聯系以利用專業知識來填補關鍵的差距是必不可少的;換句話說,為陸軍保持一個技術能力的 "聰明買家"。一段時間以來,技術人員的招募和保留一直是陸軍和國防部的關鍵問題,有必要制定一個明確的勞動力發展計劃來建立和維持勞動力。AFC應制定并明確闡述高技術職業的勞動力發展計劃和結構。這個勞動力發展計劃應明確界定技術職業道路,從本科生到高級文職技術領導。此外,它應該允許這些勞動力有意義地參與、合作,不僅向工業界和學術界的合作伙伴學習,而且利用這些新發現的知識來實現有意義的變革,使科技企業能夠長期繁榮發展。陸軍實驗室主任作為科學和技術重塑實驗室擁有許多權力,他們需要被授權利用所有這些權力來維持和發展科技人員隊伍。
第3章重申了第2章首次強調的平衡現代化和創新的重要性,但從陸軍科技企業創新的角度來看。陸軍無法完全預測未來的威脅,因此科技投資需要足夠廣泛,以對沖不確定的未來。現代化主要側重于對特定系統的工程改進,而科技主要側重于發現和探索,這對推動長期能力發展的創新至關重要。明確劃分現代化和創新的科技計劃對于兩者的成功至關重要。科技和能力發展之間的直接聯系在開始時并不總是很清楚,但陸軍需要允許科技人員追求這些創新。
自二戰結束以來,創新和領先的科技隊伍對美國軍隊超越對手的能力至關重要。隱形技術、全球定位系統、精確彈藥、自主和無人系統,以及20世紀末和21世紀初的其他一些決定性軍事技術,都是早期科技的長期成果,也是一支擁有自由度和資源來尋求創新以確保美國軍隊超越對手的員工隊伍的成果。從本質上講,創新和科技投資使美國軍隊,以及陸軍,成為美國對手被迫適應的威脅。
建議。美陸軍部長和陸軍參謀長應根據《2019財年國防授權法》第1068(b)(3)條和2020年11月16日陸軍指令2020-15(實現持久現代化)的指示,明確劃分和消除陸軍科技計劃在AFC和ASA(ALT)之間的角色和責任。陸軍還應該明確劃分跨職能小組在AFC、DEVCOM和ASA(ALT)方面的作用和責任。
建議。為了確保科學技術(S&T)的有效過渡,以支持美陸軍現代化的優先事項,展示領導層對未來陸軍能力的支持,支持強大的陸軍創新和技術發現工作,并保證在最關鍵的地方有可行的校內RDT&E能力,陸軍應該為科技(6.1,6.2和6.3)預算水平進行規劃和申請,至少要像國會每年增加陸軍科技一樣,反映整個陸軍現代化時期的實際增長。此外,科技撥款應該有40%用于創新和發現研究(6.1和一些6.2),60%用于陸軍現代化的優先事項(一些6.2和6.3)。這種分配應定期進行評估,以確保它能繼續滿足陸軍在現代化、創新和技術發現方面的交叉需求。
建議。美陸軍部長應在秘書處內指定一名科學技術(S&T)執行官,作為專家和倡導者,監督科技政策并審查其執行。美陸軍部長應尋求AFC和ASA(ALT)的聯合建議,以確定和編纂該執行官的權力和責任。這個被授權的科技領導者應該幫助解決AFC和ASA(ALT)的角色和責任不明確的問題,并確保近期、中期和長期優先事項的平衡,以及校內和校外的科技績效。這名高管應該是一名高級文職人員(SES/SL級別),具有很強的科技技術背景和科技界的工作經驗,并對美陸軍內科技的成功負責任。
建議。雖然 "一站式服務"可能不是一個切實可行的解決方案,但AFC應加強努力,確保在描述基礎研究的機會以及填補現代化和研究空白所需的新技術過渡時,其戰略信息的一致性和簡單性。AFC應該尋找方法使那些不熟悉陸軍的人更容易與他們進行合作。ERDCWERX是DEFENSEWERX和美國陸軍工程研究與發展中心之間的合作項目,是這類舉措的一個典型例子。
建議。委員會強調了利益共同體(CoI)在美國防部范圍內的科學和技術中所發揮的關鍵作用。雖然與利益共同體的一些接觸正在進行中(即通過與整個科技企業的主題專家的接觸),委員會鼓勵美陸軍通過AFC和DEVCOM重新致力于利益共同體的接觸。
建議。AFC應該在美國科學技術(S&T)生態系統內建立更多的聯系,以利用工業、學術和其他國防部組織的投資和技術創新,從而避免重復投資并最大限度地利用非政府的發展。它應該考慮更多地使用類似于國防高級研究計劃局 "大挑戰 "的競賽,作為一種機制來吸引工業界、學術界和其他科技界的參與。
建議。美陸軍領導層應確保實驗室主任獲得授權和有效的資源,以培養他們的勞動力,并有權利用賦予他們的所有科學和技術再創新實驗室(STRL)的權力。陸軍領導層應建立衡量STRL資金有效性的指標,并確保實驗室主任充分利用其資源來管理各自的工作隊伍。
建議。AFC應該確保其領導層不僅為現代化和研究優先事項提供一致的指導,而且積極鼓勵在各級科技人員中進行適當的授權和分散執行,以減少混亂,確保陸軍科技有一個明確的愿景,并確保以更高的質量和更低的成本交付能力。
建議。為了鼓勵創新文化,使陸軍能夠 "成為威脅",也為了提高衡量創新的能力,AFC應該調查并實施業界公認的推動創新的最佳做法,包括領導層對創新的承諾,對實施新方法解決問題的獎勵,以及明確的責任線和問責制,而不僅僅是分配更多的資金。
支持這些建議的結果和結論可以在報告的正文中找到。
美國陸軍未來與概念中心 未來戰爭部主任 克里斯-羅杰斯上校
歷史上的戰爭包含了大量改變戰爭性質的工具和技術的例子。自最初研究多域作戰(MDO)以來,美國陸軍發現人工智能是一種新興技術,有可能改變戰爭的特點,也許也會改變戰爭的性質。使用人工智能(AI)解決方案來緩解軍事問題是過去兩年未來戰爭研究、檢查和學習的一個反復出現的主題。作為2019年未來研究計劃的一部分,我們與陸軍、聯合、多國、學術和科技組織合作,探索和了解人工智能對多軍種的影響,并為未來的研究和發展制定一個操作框架。
多域作戰的人工智能運作最終報告提供了采用人工智能的組織框架,以幫助陸軍和聯合部隊更好地定義所需的能力以及相關的數據和網絡架構,以實現多域能力部隊。描述聯合部隊如何采用人工智能解決方案,為了解人工智能在時間和空間上對多域作戰的影響提供了一個操作說明。本報告確定并解決了與人工智能相關的好處、機會和挑戰,為進一步分析提供了基礎。諸如人工智能等新興技術使陸軍不僅可以改進當前的戰術、技術和程序,而且可以創造新的運用和融合能力的方法。
該報告支持美國陸軍人工智能任務組,該組織負責制定陸軍的人工智能戰略和政策。本文通過描述部隊如何在整個MDO框架內采用人工智能解決方案和相關技術,啟動了陸軍的人工智能運用工作。這份報告使概念發展團體能夠修改陸軍功能概念和戰場發展計劃。它為能力發展團體提供了作戰視角和部隊在確定所需能力時必須考慮的技術影響。此外,該報告還為作戰概念文件或基于能力的評估提供了開發情景或小插曲的基礎。該文件為科學和技術界提供了行動背景,以便為人工智能研究、開發、建模和模擬提供信息和指導。最后,它支持制定一個在未來使用人工智能的全面愿景,以告知陸軍現代化的努力,這將創造有能力的MDO部隊,準備好與任何對手作戰并取得勝利。
人工智能(AI)是未來聯合部隊實現多域作戰(MDO)全部潛力的基礎。人工智能系統提供了跨越領域、電磁頻譜和信息環境戰勝對手的能力。在競爭中使用這些系統使聯合部隊能夠近乎實時地了解作戰環境,從而更好地運用能力來擊敗旨在破壞區域穩定的威脅行動,阻止暴力升級,并將被拒絕的空間變成有爭議的空間。在從競爭到武裝沖突的過渡中,人工智能的機動、火力以及情報、監視和偵察能力為聯合部隊提供了拒絕敵人奪取優勢地位的能力。改進的維持能力與攻擊敵人的反介入/空中拒止網絡的能力相結合,為美國部隊提供了奪取作戰、戰略和戰術優勢位置的能力。通過由人工智能支持的多領域聯合行動圖(MDCOP)增加了解,使美國部隊有能力協調多領域的效果以創造優勢窗口。
制定人工智能的作戰概念使陸軍能夠更好地理解這些技術對戰爭的性質和特征的潛在影響。描述陸軍如何在未來的作戰環境中使用人工智能,有助于說明其對戰爭的暴力、互動和基本的政治性質的影響,以及戰爭不斷演變的特點。本文提供了一些小插曲(附錄A),說明了人工智能的組織運用,為美國陸軍RAS總體概念、作戰和組織概念、基于編隊的作戰概念以及系統或單個系統的運用概念的潛在發展提供信息。
人工智能的運作影響到未來部隊將如何運作,如何針對對手開展行動,以及指揮官如何利用軍事藝術和科學,運用部隊能力來實現預期效果和目標。在2019年未來研究計劃(FSP19)期間,人工智能工作線(LoE)確定了與實施人工智能支持的多領域解決方案有關的以下問題:
數據管理--AI/ML應用程序依賴于對策劃的數據的訪問,以便發揮作用。陸軍必須培養一種以數據為中心的文化,以標準化的格式和協議有效地生成、存儲和訪問數據。人才管理的努力必須側重于發展、培訓和保留一支精通數據的員工隊伍。這可以通過以下方式實現:
在整個部門培養一種以數據為中心的文化
投資于整個員工隊伍的數據科學培訓
簡化數據訪問
設計和實施協議,以確保數據的可發現、可訪問、可共享和可互操作性
功能分解--狹義的人工智能本質上是有限的,構建算法的數據科學家需要精確的問題定義,準確確定聯合部隊的要求。
可解釋人工智能--人工智能支持的系統需要有能力解釋決策/建議和所采取的行動背后的邏輯。這種解釋 "為什么"的能力是人類對人工智能智能體的信任基礎。
邊緣計算/人工智能--未來的作戰環境與有爭議的電磁頻譜預期要求有能力向前處理極其龐大的數據集,以及能夠自主行動的人工智能平臺。
利用商業部門--美國防部實驗室繼續在人工智能/ML發展方面取得重大進展,特別是與聯邦資助的研究和發展中心合作。商業部門繼續探索和擴大可能適用于軍事應用的工作。
作為FSP19的一部分,人工智能LoE開發了五個小插曲和一個概念草圖(見附錄A),以協助人工智能和機器學習的運作。這些小插曲說明了聯合部隊如何利用人工智能/ML來解決多領域行動所需的關鍵能力。MDCOP概念將依靠幾個有限內存的人工智能來建立和維護描繪整個戰場的藍、紅、綠活動。一個反應式機器人工智能將為特定的指揮官和總部定制MDCOP。合作傳感、維持、攻擊和瞄準的小插曲依靠反應式機器人工智能來優化傳感器覆蓋、維持吞吐量、攻擊順序和射手選擇。
未來部隊需要人工智能來充分實現多領域作戰的潛力。人工智能支持的系統使未來部隊能夠進行信息收集和分析,以便在時間有限和信息競爭的環境中增加對形勢的了解。這種能力使快速、知情和合理的決策成為可能。人工智能的決策支持代理將減輕作戰人員的認知工作量并提高整體效率。由人工智能支持的無人系統將探測、識別和穿透高風險區域,以提高開展行動和保護部隊、人口和資源的能力。人工智能使MDO在與近似對手的沖突規模下實現了作戰速度的要求。
這份頂點報告分析了增材制造(AM)技術在美國國防部(DOD)當前和未來的使用情況。該分析為開發增材制造工藝和分析工具(AMPAT)提供了必要的技術背景。AMPAT將幫助利益相關者確定哪些增材制造設備能最好地服務于作戰人員和他們在遠征環境中的任務。此外,該工具可以被利益相關者用來確定AM能力在整個艦隊中最有利的分布,并就這些能力應該如何被整合到更大的海軍任務和更大的國防部企業中做出決定。采用系統工程(SE)方法來收集關于當前和未來的AM方法的信息,以了解和定義AM系統的操作要求。此外,還利用SE過程來分析建立工具的替代軟件選項,實施敏捷軟件開發過程來開發工具,并驗證和確認該工具符合項目要求。研究發現,AMPAT根據用戶定義的輸入參數和加權值,成功地輸出了一個AM系統建議的排名列表。關于選擇AM設備和為艦隊制定分散計劃的建議包括使用AMPAT的可交付成果,利用用戶定義的輸入值進行定制的、迭代的分析,以適應特定的遠征環境。
美國海軍和海軍陸戰隊一直在各種作戰環境和任務場景中增加使用增材制造(AM)能力,以快速交付作戰設備,降低成本,更換和維修部件。美國海軍研究生院(NPS)海軍遠征增材制造(NEAM)團隊的成立是為了解決海軍遠征作戰司令部(NECC)提出的幾個研究問題。該團隊開發了一個名為增材制造過程和分析工具(AMPAT)的工具,該工具將:1)確定具體的增材制造設備,以便在遠征環境中為部隊提供最佳服務,包括分布式海上行動(DMO)、有爭議環境中的沿岸行動(LOCE)和遠征先進基地行動(EABO);2)輸出建議,可用于幫助通知整個艦隊的增材制造設備分散計劃;以及3)幫助NECC更好地將其能力融入更大的海軍任務。
NEAM團隊使用修改過的瀑布過程模型系統工程方法來開發一個工具來回答這些問題。NEAM團隊進行了詳細的文獻審查,以收集有關各種AM技術、AM零件的設計考慮因素、材料處理以及AM在國防部的使用的信息。此外,該團隊還會見了許多從事AM技術工作的組織的主題專家(SMEs),包括海軍設施(NAVFAC)工程和遠征作戰中心、海軍海上系統司令部技術辦公室、海軍陸戰隊系統司令部、海軍水面作戰中心Indian Head分部、海軍水面作戰中心Pt. Hueneme分部、海軍陸戰隊第一后勤集團、海軍供應系統司令部(NAVSUP)、太平洋海軍信息戰中心和海軍研究辦公室。
AMPAT是一個基于Excel的工具,用Visual Basic for Applications(VBA)編程語言編寫。AMPAT包括一個數據庫,供用戶輸入各種AM系統的信息和數據,以及一個工具儀表板,使用戶能夠在進行分析所需的輸入和分析的輸出之間輕松瀏覽。儀表板允許用戶行使工具功能,包括調整分析標準和用戶選擇,向AM數據庫添加打印機,檢查AM數據庫的錯誤,運行分析,以及清除結果。用戶可以定制AMPAT分析,對一組具有不同規格和特性的AM打印機進行排名,以確定在特定環境下滿足作戰人員需求的最佳AM系統設計。關于如何使用AMPAT的每個功能,可以在《用戶指南》中找到全面的、分步驟的說明。
本報告為用戶提供了一個執行AMPAT以獲得分析結果的方法。首先,用戶通過確定感興趣的具體屬性(如故障率、運行可用性、環境條件)來設置分析參數。接下來,用戶為每個選定的屬性設置加權值,以排列每個屬性相對于另一個屬性的重要性。用戶必須設置權重值,以便AMPAT進行必要的數學分析,提供具體的AM系統建議。數學分析將根據用戶對每個屬性的權重輸入,計算出每個AM系統的加權分數,并將其標準化。AMPAT將生成一個過濾的數據庫表,其中包括滿足用戶在運行分析之前確定的輸入參數的AM系統。此外,根據分配給每個參數的權重值,將提供這些AM系統的排名列表。最后,AMPAT將繪制分析結果;用戶可以選擇特定的參數,以包括在繪圖中,并決定是按系統繪圖還是按屬性繪圖。
NEAM團隊建議NECC使用AMPAT進行迭代分析,并繼續向數據庫添加新的AM系統和系統屬性。隨著新的信息被輸入該工具,用戶將收到更詳細的結果,這可能會影響最終的AM排名。AMPAT提供的排名將為決策者提供建議,說明哪種AM設備在執行DMO、LOCE和EABO環境中最能為部隊服務。此外,NEAM團隊建議NECC將AMPAT升級到具有適當安全分類的環境中,以定制該工具的分析,為艦隊的特定地點提供AM系統的建議。如果有適當的輸入,該分析的結果可用于確定在整個艦隊中預置AM技術的最佳策略。
為了統一國防部和國防部,AM領域的專家必須共同制定一份戰略文件,確定批準AM系統用于國防部的必要標準。AMPAT應被串聯使用,以協助社區評估不同的AM技術,以確定是否適合于國防部的任務和作戰方案。隨著用戶繼續用更多的AM系統填充AMPAT,并反復進行不同參數的分析,該工具的結果和輸出可用于證明國防部的批準決定。
NEAM團隊還建議,AMPAT應擴大到包括一個零件和零件規格的圖書館或資料庫。這將擴大AMPAT的效用,使其能夠為AM系統提供建議,這些系統應被用來打印特定的零件,以支持船舶、潛艇、飛機和其他車輛或設備。最終,這將減少成本并縮短艦隊的時間表,以快速生產量身定做的部件,提高作戰人員的準備程度。
AMPAT提供了一個決策分析過程,以確定最理想的AM設備來支持特定任務,并提高整個國防部對AM能力的認識。AM技術在確保迅速和有條不紊地維持作戰設備和加強艦隊準備方面發揮了關鍵作用。AMPAT的使用將有助于使國防部和國防部統一努力推進AM技術,以支持更大的海軍任務的需要。
本章定義了本研究項目的問題陳述、目標、范圍和操作方案。此外,本章還解釋了用于開發工具的方法,以及該工具將如何被主要利益相關者--海軍遠征作戰司令部(NECC)和其他利益相關者使用,以滿足研究目標。
幾年來,美國海軍和海軍陸戰隊一直在作戰環境中采用增材制造(AM)能力來快速交付作戰裝備。必須進行研究,以確定如何整合未來的AM能力,同時最大限度地提高投資回報,并盡量減少重復工作。首要的目標是將這項研究應用于部署在各種環境中的能力,如:分布式海上行動(DMO)、有爭議環境中的沿岸行動(LOCE)和遠征先進基地行動(EABO)。就本報告而言,重點是開發一個工具和數據庫,以協助決策者確定在這些環境中使用適當的增材制造。
增材制造已經被證明是非常有益的,它提供了降低成本和快速的部件更換和維修;本報告的以下部分將更詳細地討論AM的具體優勢和劣勢。由于AM是一個快速發展的技術領域,很難持續比較和權衡技術能力和屬性以滿足不斷變化的需求。需要一個工具,讓領導層充分了解當前和新的AM技術提供了哪些能力,這樣他們就可以做出明智的決定,使國防部(DOD)的投資回報最大化,以支持作戰人員和他們的任務。決策者需要考慮的一些特性包括:移動性、易用性、培訓、打印材料和打印機床尺寸。
本項目的目的是提供一個總體決策分析方法和工具,其中包括一個易于修改的NECC當前3D打印機和部件的數據庫,以有效地將當前和未來的AM能力整合到更廣泛的海軍遠征任務中。海軍遠征增材制造(NEAM)團隊廣泛研究了當前的AM能力及其在遠征部隊中的應用,以幫助開發分析方法、工具和數據庫,NECC可以采用并用于確定如何在整個美國海軍艦隊中最佳地分散AM能力并實現利益最大化。雖然在海軍遠征軍內,以及在海軍和國防部內廣泛存在著對AM集成的廣泛需求和巨大潛力,但NEAM項目側重于將AM作為部署系統、平臺和車輛的支持能力。最終,該計劃將作為NECC的參考和指南,以便在海軍和海軍陸戰隊的AM設備部署戰略和采購方面做出明智的決定。
本項目的重點是NECC在部署AM設備供遠征軍使用時,如何使投資回報最大化,并盡量減少重復工作。這項研究有助于實現在DMO、LOCE、EABO和其他情況下部署AM能力的總體目標,同時確保與現有工作的互操作性,盡量減少重復的工作,并使投資回報最大化。為了不重復工作,該團隊利用以前為類似工作完成的工作,并與海軍內部正在進行的AM工作協調。這項研究的目的是為NECC提供一個決策分析過程,以指導決策者選擇最有效的AM技術來滿足遠征環境中的具體使用情況。
上述三種遠征環境(即DMO、LOCE和EABO)對AM技術都有自己獨特的需求。DMO環境將海軍的注意力集中在同行和近鄰的競爭者身上,這需要艦隊級別的參與主要作戰行動。為了做到這一點,它在各司令部之間建立了更加一體化的關系,并促進了對風險的計算接受。同樣,EABO手冊指出,"EABO是一個未來的海軍作戰概念,滿足美國聯合遠征作戰的下一個范式的彈性和前沿存在要求"(海軍陸戰隊協會2018,5)。這一戰略提供了進行遠征作戰的機會,在不摧毀所有敵軍的情況下擊敗對手的戰略。此外,EABO手冊 "鼓勵海軍陸戰隊和海軍發展優化的內部力量能力,以服務于整個DMO結構"(海軍陸戰隊協會2018,22)。LOCE概念描述了沿海環境中的海軍行動,考慮到新出現的威脅,為海軍和海軍陸戰隊提供了一個創新的、聯合的框架(有爭議環境中的沿海行動,2020)。AM在確保作戰人員在這些環境中得到適當裝備方面發揮著關鍵作用。
考慮到這些環境,NEAM項目重點關注以下問題,以利用AM技術解決作戰人員能力方面的關鍵差距。
1.什么樣的AM設備能夠最好地服務于執行DMO/LOCE/EABO的部隊,包括考慮與其他美國海軍陸戰隊和海軍部隊的互操作性?
2.在整個艦隊中,什么是最有利的AM能力的分散,以使利益最大化,包括潛在的設備預置?
3.NECC如何將其能力更好地整合到更大的海軍任務中?
這個項目并不打算分析AM實施的每一部分;因此,未來的工作將建立在這個項目的基礎上。未來的工作也被認為是減少范圍蠕變風險的一個緩解因素。NEAM團隊對未來工作的建議可以在第七章A節中找到。
為了實現協助NECC最大限度地提高投資回報和減少重復的項目目標,這項研究的重點是開發一個數據庫和工具,以協助決策和增加對特定任務和目標的可用AM能力的接觸。該工具和數據庫是使用微軟Office產品開發的,因為它在整個聯邦政府的計算機系統中通常是可用的。這將有助于確保它能在整個海軍中被廣泛傳播并被大量受眾使用。
該工具是使用系統工程過程中選擇的軟件開發的。它側重于由利益相關者和NECC定義的AM系統的各種能力。用戶可以使用內置的圖形用戶界面(GUI)加載AM系統的各種特性并分配權重。該工具根據所期望的遠征環境的特征分配權重,輸出AM系統建議。
為了確保交付物滿足利益相關者的需求,NEAM團隊采用了一種系統工程方法,包括利益相關者的持續反饋,這在第四章有詳細描述。這使得利益相關者能夠在項目進展過程中對研究的具體方向提供意見,并使NEAM團隊能夠在獲得信息和分析結果時提供。
本報告第一章解釋了問題陳述、研究的目標和范圍,以及用于開發本項目中可交付成果的方法。
第二章包括對NEAM團隊為收集不同類型的AM技術、如何設計AM零件、材料處理方面的考慮以及AM在國防部的具體使用情況而進行的文獻審查的廣泛和詳細描述。此外,第二章描述了NEAM團隊用來完成項目的系統工程方法,以及考慮過的其他方法。
第三章著重于利益相關者的識別和分析,并描述了主要利益相關者的需求,用于將其轉化為具體要求的過程,以及當前AM能力中存在的差距。
第四章概述了增材制造工藝和分析工具(AMPAT)的代碼開發過程和所遵循的軟件流程,以及該工具的能力和限制。
第五章提供了AMPAT的幾個使用案例,并描述了該工具所要使用的操作環境。
第六章全面解釋了AMPAT如何用于檢索特定任務的分析結果,并解釋了用于確保該工具滿足項目要求和利益相關者需求的驗證和確認(V&V)方法。
第七章記錄了開發團隊得出的結論,總結了研究和分析對利益相關者和國防部的益處,并對未來工作提出了建議。
小型無人駕駛飛機系統(sUAS)的指數式增長為美國防部帶來了新的風險。技術趨勢正極大地改變著小型無人機系統的合法應用,同時也使它們成為國家行為者、非國家行為者和犯罪分子手中日益強大的武器。如果被疏忽或魯莽的操作者控制,小型無人機系統也可能對美國防部在空中、陸地和海洋領域的行動構成危害。越來越多的 sUAS 將與美國防部飛機共享天空,此外美國對手可能在美國防部設施上空運行,在此環境下美國防部必須保護和保衛人員、設施和資產。
為了應對這一挑戰,美國防部最初強調部署和使用政府和商業建造的物資,以解決無人機系統帶來的直接風險;然而,這導致了許多非整合的、多余的解決方案。雖然最初的方法解決了近期的需求,但它也帶來了挑戰,使美國防部跟上不斷變化問題的能力變得復雜。為了應對這些挑戰,美國防部需要一個全局性的戰略來應對無人機系統的危害和威脅。
2019年11月,美國防部長指定陸軍部長(SECARMY)為國防部反小型無人機系統(C-sUAS,無人機1、2、3組)的執行機構(EA)。作為執行機構,SECARMY建立了C-sUAS聯合辦公室(JCO),該辦公室將領導、同步和指導C-sUAS活動,以促進整個部門的統一努力。
美國防部的C-sUAS戰略提供了一個框架,以解決國土、東道國和應急地點的sUAS從危險到威脅的全過程。國防部的利益相關者將合作實現三個戰略目標:(1)通過創新和合作加強聯合部隊,以保護國土、東道國和應急地點的國防部人員、資產和設施;(2)開發物資和非物資解決方案,以促進國防部任務的安全和可靠執行,并剝奪對手阻礙實現目標的能力;以及(3)建立和擴大美國與盟友和合作伙伴的關系,保護其在國內外的利益。
美國防部將通過重點關注三個方面的工作來實現這些目標:準備好部隊;保衛部隊;和建立團隊。為了準備好部隊,國防部將最大限度地提高現有的C-sUAS能力,并使用基于風險的方法來指導高效和快速地開發一套物質和非物質解決方案,以滿足新的需求。為了保衛部隊,國防部將協調以DOTMLPF-P考慮為基礎的聯合能力的交付,并同步發展作戰概念和理論。最后,作為全球首選的軍事伙伴,國防部將通過利用其現有的關系來建設團隊,建立新的伙伴關系,并擴大信息共享,以應對新的挑戰。
通過實施這一戰略,美國防部將成功地應對在美國本土、東道國和應急地點出現的無人機系統威脅所帶來的挑戰。在這些不同操作環境中的指揮官將擁有他們需要的解決方案,以保護國防部人員、設施、資產和任務免受當前和未來的無人機系統威脅。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。