隨著空軍從以反恐為重點調整為應對具有潛在生存后果的近鄰競爭,“一切照舊 ”的系統開發方法將不再適用:無法繼續在幾十年前開發的概念上循序漸進。相反,需要新的技術,為提供新的能力,以及運用這些能力的新的作戰概念。目前在信息科學領域,特別是在自主系統(AS)開發及其相關基礎技術--人工智能(AI)領域,存在著廣泛而深入的技術推動力。隨著新的人工智能算法和學習技術的開發和以新穎的方式加以應用,對認知和神經生理學的了解--大多數時候之所以 “聰明 ”的基礎--也在以令人目眩的速度增長,而構建自主系統(如自動駕駛汽車和游戲機器人)的能力也不斷成為頭版新聞。此外,隨著計算能力、內存、網絡和數據可用性的摩爾定律增長,底層計算基礎設施的爆炸性增長也加劇了這些進步。
在此的目標有兩個:為空軍高層領導提供自主系統潛力的愿景,以及自主系統如何在各級作戰中發揮變革性作用;為科技界提供一個總體框架和路線圖,以推動技術發展,同時支持其向現有和即將獲得的系統過渡。與其他人一樣,也認為使用這些系統將帶來可觀的回報,原因很簡單,這些自主系統的單項能力將為提供更大的使用自由度和新的作戰概念機會。但這只是一種傳統觀點。更深遠的潛在回報將來自于以信息為中心的發展和自主系統的激增,這樣,就可以拋棄傳統的以平臺為中心的思維方式,成為一個以服務為導向、無處不在的網絡化和信息密集型的企業。
本文方法是首先闡述在 AS “行為 ”方面的需求:也就是說,無論底層技術手段如何,這些系統在熟練程度、信任度和靈活性等關鍵維度上的行為結果是什么?然后,將重點關注有可能將致力于解決這一問題的多個不同群體聚集在一起的架構方法,然后討論可以將這些架構變為現實的使能技術。最后,提出了一些建議,這些建議不僅涉及技術問題,還涉及應該解決的問題集類型、解決這些問題所需的開發流程和組織結構,以及能夠實現所提出愿景的知識平臺的更廣泛結構。
建議涉及六個具體領域,概述如下。
這些基本上是概括性的設計要求,規定了希望 AS 在熟練性、可信性和靈活性方面的行為方式。
建議 1a: 自主系統(AS)的設計應確保其在特定環境、任務和隊友中的熟練操作。熟練性的理想屬性包括情境代理、自適應認知能力、允許多代理出現以及從經驗中學習的能力。
建議 1b: 自主系統(AS)應確保由人類同行操作或與人類同行合作時的信任。理想的信任原則包括:認知一致和/或決策透明、情境感知、可實現自然的人-系統互動的設計以及有效的人-系統團隊合作和培訓能力。
建議 1c:自主系統(AS)應以實現熟練程度和信任為目標,并能推動不同任務、同伴和認知方法之間的行為靈活性。人工智能系統所需的靈活性原則包括:能夠根據整體任務的要求和所面臨的情況改變其任務或目標。它應該能夠扮演下屬、同級或上級的角色,并與人類或組織內的其他自主系統一起改變這種角色。它還應能夠改變執行任務的方式,既能在短期內應對不斷變化的情況,也能在長期內積累經驗和學習。
這包括支持跨學科研究與開發的統一框架和架構,以及支持架構內預期功能所需的技術投資。
建議 2a: 開發一個或多個通用的自主系統架構,以涵蓋目前在不同社區使用的多個框架。架構至少應提供 “端到端 ”功能,即為自主系統提供感知能力,使其能夠捕捉環境的關鍵方面;提供認知能力,使其能夠進行評估、制定計劃和作出決定,以實現預期目標;提供運動能力,使其能夠在需要時對環境采取行動。體系結構應具有功能結構,以實現可擴展性和可重用性,不對組件功能的符號處理或次符號處理做出承諾,包含記憶和學習功能,并根據需要支持人機交互。無論采用哪種形式,架構都應可根據分配的任務、參與的同伴關系和使用的認知方法進行擴展。衡量一個架構是否有用的一個關鍵標準是,它是否有能力彌合處理自主性問題的不同群體之間在概念和功能上的差距。
建議 2b: 繼續開發在組件層面提供所需功能的使能技術。這不僅包括支持基本的 “看/想/做 ”功能的技術,還包括支持有效的人機交互界面 (HCI)、學習/適應和知識庫管理的技術,既包括通用技術,也包括特定領域的技術。技術開發的性質應從基礎研究、探索性開發到早期原型設計不等,這取決于具體技術的成熟程度及其設想的應用。
建議 2c: 開發并推廣多層硬件和多層軟件架構,以支持自主系統的開發、驗證、運行和修改,其中每一層為給定的高層和低層功能提供不同硬件實現/主機的物理結構,每一層為類似功能提供不同的軟件實現。要充分利用新興技術趨勢,特別是商業領域的新興技術趨勢,可能需要各種復雜的架構模式。
這里既涉及與領域無關的問題(或功能性問題),如動態重新規劃,也涉及與領域有關的問題(或面向任務的問題),如多域融合。
建議 3a:通過一套范圍適當、規模適當、抽象化的面向功能的挑戰問題集,推動自主系統的基本行為、架構和功能開發,使科學與技術(S&T)界的不同成員能夠專注于自主系統行為的不同貢獻者。根據最初提名的架構和功能集選擇挑戰問題集,其方式應涵蓋架構所代表的全部功能(詳盡性),并盡量減少解決任何兩個挑戰問題所需的功能重疊(排他性)。
建議 3b:選擇以任務為導向的挑戰問題,其兩個目標是:a) 解決當前或未來可能非常適合應用自主系統的業務差距;b) 挑戰科技界在自主系統功能的科學和工程方面取得重大進展。確保挑戰問題能夠在前面選定的架構和功能的范圍內得到解決,以確保獨立于領域的工作和獨立于領域的工作之間的一致性,避免 “一次性 ”應用工作最終對其他面向任務的問題集貢獻甚微。既要考慮 “部分 ”以任務為重點的挑戰問題,也要考慮 “端到端 ”的挑戰問題。最后,不要將科技資源用于解決在其他部門也有類似問題的作戰問題,除非空軍特有的屬性使問題非常獨特,無法以類似方式解決。
這包括支持創新、快速原型設計和迭代需求開發的流程--與傳統的瀑布式流程(需求說明、里程碑滿足和最終狀態測試與評估(T&E))形成對比,以支持自主系統的快速開發和投入使用。
建議 4a: 建立教育和實習人員管道,選派人員到空軍技術研究所參加自主性入門短期課程,重點是人工智能使能因素。然后,個人成員將被嵌入到以人工智能為重點的特別行動活動中:自主能力小組(ACT),學習如何將所學技能應用于滿足美國空軍的自主需求。在四年的時間里支持這項工作,使人工智能人員的數量比現在增加一個數量級。通過一系列特別激勵計劃確保留住人才。通過對關鍵的校外研究人員提供適當的長期支持來補充這支隊伍。
建議 4b:采用三階段框架,反復選擇挑戰性問題,對潛在解決方案的影響進行建模,并進行解決方案開發、原型設計和評估。開展基于兵棋推演的初始階段評估,目標是確定關鍵挑戰問題和基于自主系統的解決方案,以應對這些威脅或利用潛在機遇。通過定量模型和模擬(M&S)以及性能參數對這些概念進行形式化,對有前途的自主系統候選方案進行更深入的評估。最后,重點設計一個或多個在 M&S 研究中確定的有前途的自主系統候選方案的工程原型。開發并實驗評估一個自主系統原型,該原型可作為:a) 購置的設計原型;b) 其他所需 S&T 的設計驅動力。
建議 4c: 通過空軍首席數據官,獲取存儲美國空軍航空、航天和網絡數據的空間,以便人工智能專業人員能夠利用這些數據創建自主解決方案,解決面臨的挑戰。在相關組織中設立數據管理員角色,以管理數據,并為數據生產者和消費者創建簡化的訪問和檢索方法。
建議 4d: 支持向基于云的計算發展,同時利用量子計算這一通用計算范式,滿足嵌入式和高性能計算處理需求。
這包括圍繞項目(或成果)重點進行組織,而不是按照傳統的技術專業領域進行組織。
這為提供了一種整合自主系統行為原則、架構/技術、挑戰問題、發展過程和組織結構的整體手段。
總之,對自主系統開發和應用的建議包括
這些系統要想精通業務、得到人類同行的信任并靈活應對意外情況,就必須具備的行為方式
需要統一的框架、架構和技術,以便不僅跨越孤立的科技界,而且跨越操作上的隔閡和領域
挑戰科技界所需的重點難點問題,包括基礎性問題和操作性問題,同時提供遠遠超出傳統的以平臺為中心的現代化方法的操作優勢
處理人員、系統、數據和計算基礎設施的新流程,這些流程將加速創新、快速原型設計、實驗和實地應用
新的組織結構--自主系統能力團隊,將技術專業匯集到一個單一的組織中,專注于創新產品開發,并根據需要向其他組織和社區拓展
知識平臺,全面整合自主系統的行為原則、架構/技術、挑戰問題、開發流程和組織結構
AFRL,特別是 ACT,不能簡單地將其注意力局限于自主系統的研究領域,也不能簡單地延續在一次性演示中應用現代人工智能和 AS 技術來逐步提高任務能力的模式。必須選擇挑戰性問題來推進知識平臺的能力,以敏捷的方式在變革性應用中提供表現出熟練、可信和靈活行為的自主系統。除了以項目為中心的工作外,ACT 還可以優先考慮和協調 AFRL 的整個自主系統科技組合--使各項工作同步進行,以最大限度地提高投資效果--及時、大規模地將 AS 能力用于應對任務挑戰,同時在各科技局之間 “共享 ”新架構、技術和流程的 “財富”。最后,一旦取得成功,ACT 可以作為一個 “存在證明”,證明美國空軍后勤部如何從其傳統的以學科為中心的組織轉變為一個更加跨學科和以項目為導向的組織,解決美國空軍整個企業的變革性問題。
擁有一個獨特的機會,將空軍從一個以空中平臺為中心的部門(空間和網絡往往處于次要地位)轉變為一個真正以多領域和知識為中心的組織。通過知識平臺向作戰人員提供自主系統,空中、太空和網絡的每項任務都將得到改進,而且不僅是逐步改進,而是成倍地改進。將成為一個以服務為導向、無處不在的網絡化和信息密集型企業。簡而言之:
一個靈活的、以信息為中心的體系,通過無障礙地訪問極其有效的外圍設備,及時做出決策。
隨著美空軍從以反恐為重點調整為應對具有潛在生存后果的近鄰競爭,“一切照舊 ”的系統開發方法將不再適用:將無法繼續在幾十年前開發的概念上循序漸進。相反,需要新的技術,提供新的能力,以及運用這些能力的新的作戰概念。目前在信息科學領域,特別是在自主系統(AS)開發及其相關基礎技術--人工智能(AI)領域,存在著廣泛而深入的技術推動力。隨著新的人工智能算法和學習技術的開發和以新穎的方式加以應用,對認知和神經生理學的了解--大多數時候之所以 “聰明 ”的基礎--也在以令人目眩的速度增長,而構建自主系統(如自動駕駛汽車和游戲機器人)的能力也不斷成為頭版新聞。此外,隨著計算能力、內存、網絡和數據可用性的摩爾定律增長,底層計算基礎設施的爆炸性增長也加劇了這些進步。
在此的目標有兩個:為美空軍高層領導提供自主系統潛力的愿景,以及自主系統如何在各級作戰中發揮變革性作用;為科技界提供一個總體框架和路線圖,以推動技術發展,同時支持其向現有和即將獲得的系統過渡。與其他人一樣,也認為使用這些系統將帶來可觀的回報,原因很簡單,這些自主系統的單項能力將提供更大的使用自由度和新的作戰概念機會。但這只是一種傳統觀點。更深遠的潛在回報將來自于以信息為中心的發展和自主系統的激增,這樣,就可以拋棄傳統的以平臺為中心的思維方式,成為一個以服務為導向、無處不在的網絡化和信息密集型的企業。
本文中,首先闡述在自主系統(AS)“行為”方面的需求:也就是說,無論底層技術手段如何,這些系統在熟練程度、信任度和靈活性等關鍵維度上的行為結果是什么?然后,將重點關注有可能將致力于解決這一問題的多個不同群體聚集在一起的架構方法,然后討論可以將這些架構變為現實的使能技術。最后,提出了一些建議,這些建議不僅涉及技術問題,還涉及應該解決的問題集類型、解決這些問題所需的開發流程和組織結構,以及能夠實現所提出愿景的知識平臺的更廣泛結構。
當今以平臺為中心的美空軍觀
這些基本上是概括性的設計要求,規定了AS 在熟練性、可信性和靈活性方面的行為方式。
建議 1a: 自動服務系統的設計應確保其在特定環境、任務和隊友中的熟練操作。熟練性的理想屬性包括情境代理、自適應認知能力、允許多代理出現以及從經驗中學習的能力。
建議 1b: 人工智能的設計應確保由人類同行操作或與人類同行合作時的信任。理想的信任原則包括:認知一致和/或決策透明、態勢感知、可實現自然的人-系統互動的設計以及有效的人-系統團隊合作和培訓能力。
建議 1c:人工智能系統的設計應以實現熟練程度和信任為目標,并能推動不同任務、同伴和認知方法之間的行為靈活性。人工智能系統所需的靈活性原則包括能夠根據整體任務的要求和面臨的情況改變其任務或目標。它應該能夠扮演下屬、同級或上級的角色,并與人類或組織內的其他自主系統一起改變這種角色。它還應能夠改變執行任務的方式,既能在短期內應對不斷變化的情況,也能在長期內積累經驗和學習。
這包括支持跨學科研究與開發的統一框架和架構,以及支持架構內預期功能所需的技術投資。
建議 2a: 開發一個或多個通用的 AS 架構,以涵蓋目前在不同社區使用的多個框架。架構至少應提供 “端到端 ”功能,即為 AS 提供感知能力,以捕捉其環境的關鍵方面;認知能力,以進行評估、計劃和決策,從而實現預期目標;以及運動能力,以在需要時對其環境采取行動。體系結構應具有功能結構,以實現可擴展性和可重用性,不對組件功能的符號處理或次符號處理做出承諾,包含記憶和學習功能,并根據需要支持人機交互。無論采用哪種形式,架構都應可根據分配的任務、參與的同伴關系和使用的認知方法進行擴展。衡量一個架構是否有用的一個關鍵標準是,它是否有能力彌合處理自主性問題的不同群體之間在概念和功能上的差距。
建議 2b: 繼續開發在組件層面提供所需功能的使能技術。這不僅包括支持基本的 “看/想/做 ”功能的技術,還包括支持有效的人機交互界面 (HCI)、學習/適應和知識庫管理的技術,既包括通用技術,也包括特定領域的技術。技術開發的性質應從基礎研究、探索性開發到早期原型設計不等,這取決于具體技術的成熟程度及其設想的應用。
建議 2c: 開發并推廣多層硬件和多層軟件架構,以支持自動系統的開發、驗證、運行和修改,其中每一層都為給定的高級和低級功能提供不同硬件實現/主機的物理結構,每一層都為類似功能提供不同的軟件實現。要充分利用新興技術趨勢,特別是商業領域的新興技術趨勢,可能需要各種復雜的架構模式。
這里既涉及與領域無關的問題(或功能性問題),如動態重新規劃,也涉及與領域有關的問題(或面向任務的問題),如多域融合。
建議 3a:通過一套范圍適當、規模適當、抽象化的面向功能的挑戰問題集來推動自動系統的基本行為、架構和功能開發,使科學與技術(S&T)界的不同成員能夠專注于自動系統行為的不同貢獻者。根據最初提名的架構和功能集選擇挑戰問題集,其方式應涵蓋架構所代表的全部功能(詳盡性),并盡量減少解決任何兩個挑戰問題所需的功能重疊(排他性)。
建議 3b:選擇以任務為導向的挑戰問題,其兩個目標是:a) 解決當前或未來可能非常適合應用自動系統的操作差距;b) 挑戰科技界在自動系統功能的科學和工程方面取得重大進展。確保挑戰問題能夠在前面選定的架構和功能的范圍內得到解決,以確保獨立于領域的工作和獨立于領域的工作之間的一致性,避免 “一次性 ”應用工作最終對其他面向任務的問題集貢獻甚微。既要考慮 “部分 ”以任務為重點的挑戰問題,也要考慮 “端到端 ”的挑戰問題。最后,不要將科技資源用于解決在其他部門也有類似問題的作戰問題,除非空軍特有的屬性使問題非常獨特,無法以類似方式解決。
這包括支持創新、快速原型設計和迭代需求開發的流程--與傳統的瀑布式流程(需求說明、里程碑滿足和最終狀態測試與評估(T&E))形成對比,以支持快速 AS 開發和投入使用。
建議 4a: 建立教育和實習人員管道,選派人員到空軍技術研究所參加自主性入門短期課程,重點是人工智能使能因素。然后,個人成員將被嵌入到以人工智能為重點的特別行動活動中:自主能力小組(ACT),學習如何將所學技能應用于滿足美國空軍的自主需求。在四年的時間里支持這項工作,使人工智能人員的數量比現在增加一個數量級。通過一系列特別激勵計劃確保留住人才。通過對關鍵的校外研究人員提供適當的長期支持來補充這支隊伍。
建議 4b:采用三階段框架,反復選擇挑戰性問題,對潛在解決方案的影響進行建模,并進行解決方案開發、原型設計和評估。開展以兵棋推演為基礎的初始階段評估,目標是確定關鍵的挑戰問題以及能夠應對這些威脅或利用潛在機遇的基于自動系統的解決方案。通過定量模型和模擬(M&S)以及性能參數對這些概念進行形式化,對有前途的 AS 候選方案進行更深入的評估。最后,重點設計 M&S 研究中確定的有前途的 AS 候選方案的一個或多個工程原型。開發并實驗評估一個 AS 原型,該 AS 原型可作為:a) 購置的設計原型;b) 其他所需 S&T 的設計驅動力。
建議 4c: 通過空軍首席數據官,獲取存儲美國空軍空中、太空和網絡數據的空間,以便人工智能專業人員使用這些數據創建自主解決方案,解決面臨的挑戰。在相關組織中設立數據管理員角色,以管理數據,并為數據生產者和消費者創建簡化的訪問和檢索方法。
建議 4d: 支持向基于云的計算發展,同時將量子計算作為一種通用計算模式加以利用,以滿足嵌入式和高性能計算處理需求。
這包括圍繞項目(或成果)重點進行組織,而不是按照傳統的技術專業領域進行組織。
這提供了一種整合 AS 行為原則、架構/技術、挑戰問題、發展過程和組織結構的整體手段。
綜上所述,對人工智能系統開發和應用的建議包括
這些系統要想精通業務、得到人類同行的信任并靈活應對意外情況,就必須具備的行為方式
需要統一的框架、架構和技術,以便不僅跨越孤立的科技界,而且跨越操作上的隔閡和領域
挑戰科技界所需的重點難點問題,包括基礎性問題和操作性問題,同時提供遠遠超出傳統的以平臺為中心的現代化方法的操作優勢
處理人員、系統、數據和計算基礎設施的新流程,這些流程將加速創新、快速原型設計、實驗和實地應用
新的組織結構,即自主能力團隊,將技術專業人員整合到一個單一的組織中,專注于創新產品開發,并根據需要與其他組織和社區開展外聯活動
知識平臺,用于全面整合 AS 行為原則、架構/技術、挑戰問題、開發流程和組織結構
美國空軍后勤部,特別是 “ACT”,不能簡單地將其注意力局限于自主系統的研究領域,也不能簡單地延續應用現代人工智能和自動系統技術的模式,在一次性演示中逐步提高任務能力。必須選擇挑戰性問題,以推進知識平臺的能力,在變革性應用中以敏捷的方式提供表現出熟練、可信和靈活行為的人工智能系統。除了以項目為中心的工作外,ACT 還可以優先考慮和協調 AFRL 的整個自主性 S&T 組合--同步工作以最大限度地提高投資效果--及時將 AS 能力大規模地用于應對任務挑戰,同時在各 S&T 局之間 “共享 ”新架構、技術和流程的 “財富”。最后,一旦取得成功,ACT 可以作為一個 “存在證明”,證明美國空軍后勤部如何從其傳統的以學科為中心的組織轉變為一個更加跨學科和以項目為導向的組織,解決美國空軍全企業范圍內的變革性問題。
擁有一個獨特的機會,將空軍從一個以空中平臺為中心的部門(空間和網絡往往處于次要地位)轉變為一個真正以多領域和知識為中心的組織。通過知識平臺向作戰人員提供自主系統,空中、太空和網絡的每項任務都將得到改進,而且不僅是逐步改進,而是成倍地改進。將成為一個以服務為導向、無處不在的網絡化和信息密集型企業。簡而言之:一個靈活的、以信息為中心的企業,通過無障礙訪問高效的外圍設備,及時做出決策。
冷戰期間,美國國防部(Department of Defense,DoD)領導了全球研發工作,并在這一過程中創造了包括互聯網、精確武器和全球定位系統在內的現今常見技術。然而,從那時起,美國防部一直在努力吸收新的先進技術,因為兵力開發轉型或實施新的抵消戰略的舉措未能實質性地改變美軍的設計或能力開發流程。在很大程度上,美國防部在采用方面的困難是由于技術創新的中心從政府轉移到了私營部門,使軍隊日益成為技術的客戶而不是創造者。人工智能(AI)和無人系統就是這種情況,它們已經顛覆了現代戰爭的長期方法。因此,整合這些新技術(其中許多是商業衍生技術)的挑戰為國防部如何改革其流程和組織以促進創新提供了一個很好的案例研究。為此,本研究評估了美國軍方如何才能更及時地開發、部署和集成相關的無人系統,并以美國海軍為例說明了所建議的方法。
美國海軍和國防部將需要人工智能無人飛行器所能提供的作戰優勢。面對像大國,美軍不可能繼續依靠其歷史優勢來威懾和擊敗侵略。相反,美國國防部將需要通過部署一支可預測性更低、適應性更強、復原力更強的部隊,來應對大國的系統摧毀戰戰略。無人系統可以通過釋放美國軍人的作戰創新能力來實現這一目標,美國軍人可以像今天在烏克蘭的軍人一樣,利用無人系統來增加他們可以使用的戰術和效果鏈的種類,這可以破壞大國的計劃和概念,并使美軍有能力維持持久的沖突。
無人系統提供復原力和適應性的能力取決于規模。小規模的群體無法同時應對多個任務線或影響鏈,也就缺乏支持長期作戰的能力。無人系統可以通過放棄強大的自衛功能和專注于少數功能來降低成本和復雜性,從而實現規模化。這些限制要求無人系統與其他無人系統和有人平臺組合成系統簇(SoS),這可能會加劇美軍長期以來在各軍種之間和各軍種內部整合部隊的困難。因此,要實現無人系統的優勢,國防部將建立整合新任務線程和 SoS 的常規流程。否則,美軍各軍種將只能在現有的使用案例中部署單獨的無人系統來取代有人平臺。
美國各軍種已在嘗試通過實驗、快速采購、數字互操作性和聯合全域指揮與控制(JADC2)等舉措來提高其集成 SoS 的能力。然而,正如本報告為美國海軍所描述的那樣,這些工作往往側重于長期服務目標,而非近期作戰問題,并使用自上而下的系統工程流程來指導未來能力的需求。這種傳統方法假定美軍有足夠的時間開發新系統,并且與對手相比保持著巨大的技術優勢,但在美中競爭的背景下,這兩種情況都不可能持久。
為了更快地將非裝備系統納入部隊并獲得由此產生的作戰優勢,美國防部需要改變傳統的采購方法,調整美軍戰術或任務主線,使其能夠整合當今可用的非裝備系統。這種自下而上的 "任務集成 "方法與美國防部占主導地位的系統工程方法形成鮮明對比,反映了商業制造或分銷領域出現的最佳實踐,在這些領域,吸收機器人技術最快、最有效的方法是調整組織的工作流程,而不是開發在現有工作流程中取代人類的機器人。
針對美國防部目前的流程并實施任務集成,本研究建議進行以下改革:
1.正式確定任務集成流程,該流程將履行SoS 開發功能,以解決作戰指揮官的近期作戰問題。
各軍種和國防部長辦公室(OSD)應履行六項職能,以便更快地部署新的 SoS,這些 SoS 幾乎普遍包含無人系統:
雖然任務集成將是新的無人系統投入實戰的主要途徑,但各軍種應繼續其系統工程和需求生成過程,以滿足對有人平臺和其他資本投資的預計長期需求。
2.設立一個創新辦公室,作為 SoS 開發的資源贊助者和任務整合過程的管理者。
創新辦公室需要多個撥款類別的資金,并有能力與適當的軍種或聯合參謀部辦公室共同驗證需求。短期內,國防部可通過重組現有的軍種或國防部組織及其相關資金來創建創新辦公室。從長遠來看,美國國防部應在廣泛的計劃要素(PE)項目中為創新辦公室分配資金,就像在國防范圍內的研發中使用的資金或組合預算編制模式所建議的資金一樣,以便使有前途的 SoS 能夠迅速過渡到采購和實戰階段。
3.在服務項目執行辦公室(PEOs)和 OSD 設立 DevOps 項目經理(PM)職位。
DevOps 項目經理將通過承包各種服務和采購,或將資金轉移到其他政府部門以支持分析和實驗,幫助同步和加速任務集成過程。各軍種應在每個負責非機組人員系統的 PEO 內設立 DevOps PM,以支持任務集成工作,而 OSD 則應在負責研究與工程的副部長辦公室(OUSD R&E)或負責采購與維護的副部長辦公室(OUSD A&S)內為聯合任務線程設立 PM 角色。
DevOps 項目管理角色的設立將標志著文化的重大轉變,因為它將采購專業人員帶入了實驗和需求流程。然而,當現有技術能夠滿足當前和近期的軍事需求時,當更快地引入新能力對獲得作戰優勢至關重要時,將實驗和采購聯系起來是合適的。
4.在服務 PEO 和 OSD 中創建生態系統 PM 角色。在新型武器、任務系統和車輛中,軟件日益成為軍事能力和優勢的源泉。
軟件也是當今軍隊整合的機制,就像過去幾代人通過條令和程序進行整合一樣。國防部應在每個采購 PEO 中設立項目管理人員,負責管理 SoS 軟件環境的開發和維護。
生態系統項目管理人員將擁有連接車輛、任務系統、指揮與控制(C2)軟件的政府接口,并監督新系統與生態系統的集成。生態系統項目管理公司的建立將使政府能夠管理和監督供應商的軟件開發工作,包括維護指揮、控制和通信(C3)環境的軟件工廠,以及新系統供應商展示其與生態系統進行數字集成的能力的執行平臺,而不是將更多的軟件開發工作交給政府。
結論
在主導地位不再是既定事實的環境中,美軍將回歸作戰創新。從歷史上看,美軍在獲得隨機應變和發揮創造力的工具和流程后,一直表現出色。通過任務集成實現有效創新所需的許多要素已經到位。要加速實現無人系統的優勢,就需要更好地協調和執行這些活動,以解決當今的作戰問題。如果海軍和國防部不能做到這一點,他們可能會錯失最佳時機,無法在與大國等同行對手的競爭中獲得持久優勢。
情報、監視和偵察(ISR)行動的目的是收集信息并將信息提供給操作人員,而操作人員則需要就戰區內的各種行動方案做出具體決策。可以肯定的是,ISR 行動是技術密集型的。但與此同時,ISR 行動也是一個非常以人為本的過程。盡管如此,在 ISR 概念開發和評估(CD&E)過程中卻很少甚至根本沒有進行人為因素(HF)研究。通過研究新的 ISR 技術和概念在各種作戰環境下對操作人員表現的影響,研究人員可以提供更加科學嚴謹的建議,為高層政策制定者和決策者提供有關未來 ISR 技術和能力的信息,這些技術和能力適用于所有 ISR 環境:空中、海面、地下和太空,貫穿國內、盟國和整個政府(WoG)的合作關系。因此,HF研究方法應成為任何 ISR CD&E 流程的組成部分,以便為 ISR 指揮系統各級的政策和決策者提供信息和建議。
北大西洋公約組織(NATO)研究與技術組織(RTO)人為因素與醫學(HFM)小組任務組(研究與技術組(RTG)-276 NATO RTG HFM-276)"人為因素與 ISR 概念開發與評估 "的成立是為了確定和了解對有效的 ISR 行動至關重要的HF問題。更確切地說,這項開創性工作的目標是 (1) 確定對有效的 ISR 行動至關重要的HF問題(如態勢感知 (SA)、工作量、組織結構、協調和協調機制、可視化、信任、信息共享和管理、領導力和決策);(2) 使用行為理論模型來制定我們的研究方法并理解我們的研究結果;(3) 就在 ISR CD&E 行動中使用和實施HF研究提出建議。
基于并擴展最初由北約 HFM-163 RTO 小組開發的軍事組織效能模型,北約 HFM RTG-276 小組的工作范圍是確定并了解對 ISR 行動至關重要的HF問題。為此,小組決定于2018年6月11日至2018年6月26日在德國Einsiedlerhof的美國空軍歐洲(USAFE)戰士準備中心(WPC)的 "北約2018聯合愿景"(UV18)試驗模擬內開展關于聯合ISR(JISR)作戰效能的研究。此外,小組還在 2019 年 5 月于芬蘭舉行的 "大膽探索 2019"(BQ19)演習中進行了類似研究。
北約 HFM-276 任務小組使用組織有效性模型制定了一套調查,以確定和了解對有效的 ISR 行動至關重要的HF問題。該模型的核心是由任務分配、收集、處理、利用和傳播(TCPED)組成的聯合監查制度流程。從這一模型和其他來源得出的數據收集計劃審視了一些HF問題在整個 ISR 行動中的作用:基本HF知識、態勢評估、工作量、組織結構、信任、信息共享、信息管理、領導力、文化、組織流程、組織靈活性、共同意識和責任、協調和協調機制、決策、能力、情報需求管理(IRM)、通信、元數據和應用系統。所有這些HF因素都將影響 ISR 的作戰概念,并影響操作人員的績效。此外,本文還總結了改進北約和非北約行動 ISR CD&E 流程的一些實際意義,重點是開發應納入 ISR CD&E 流程的HF研究方法。這種HF方法就像 ISR 概念開發的技術和程序質量控制部分。預計研究結果將有助于為 ISR 指揮系統各級的政策和決策者提供信息和建議,以加強北約 ISR 規劃、任務執行和能力發展方面的信息和決策優勢。預計研究結果還將有助于為 ISR 與其他聯合進程(如聯合目標定位)的整合提供信息,以確定當前與 ISR 有關的HF差距以及與其他進程的整合。
在本節中,我們將為監委會的HF行動提供一個高層次的理論框架。廣義上,理論可以理解為在一組邊界假設和約束條件下對概念間關系的陳述,因此我們對一般假設、約束條件和概念及其與我們框架的關系進行了劃分[1]。我們認為我們的理論框架由三個關鍵概念組成:1)監委會進程;2)各種HF變量;3)產出因素。本節關注的是這些概念之間的關系,以及它們之間關系的支配因素。各節詳細介紹了監委會進程的理論和分析、各種HF因素的影響及其對產出因素的影響。各節還深入介紹了與各小節相關的方法。
人們提出了不同的組織流程方法,如輸入-中介-輸出框架、輸入-中介-輸出-輸入框架以及受結構化啟發的流程框架[2, 3]。從廣義上講,這些方法既包括目的論和順序論的觀點,即假定有明確的目標來指導行動以產生特定的結果,也包括更具突發性的變革觀點,即人類在其中工作的結構會影響其他結構中的人類,并受到其他結構中人類的影響[4]。
我們認為,作為一個基本假設,在聯盟背景下開展的監委會聯合審查進程并不容易采用上述任何一種模式:相反,它是一個預先計劃和設計的順序進程與突發進程的混合體[5]。一方面,有正式定義的程序、理論、戰術、技術和流程(TTP),如《支持北約行動的聯合情報、監視和偵察程序》(AintP)和《作戰命令》(ORBAT);另一方面,也有包括特定節點在內的工作流程的實驗。這表明,我們的研究一方面要對 TTPs 的影響保持不可知論的觀點,另一方面要對執行聯合監查制度時的行動和對這些 TTPs 的看法保持不可知論的觀點。因此,我們的理論框架包含兩種相互作用的兵力:計劃行動和突發行動。計劃中的監委會審查和執行中的監委會審查之間的區別既體現在實驗計劃和實際實驗/演習執行之間的對立,也體現在計劃中的監委會審查行動和執行中的監委會審查行動之間的緊張關系,執行有時甚至是動態的。我們認為,計劃與執行動態之間的矛盾對于理解HF如何影響聯合監委會至關重要。應建立人類決策和協作機制,確保北約的聯合監委會從預先計劃順利過渡到動態執行。
更具體地說,我們的模型試圖將聯合監委會合作的線性和非線性軌跡結合起來。從順序計劃的角度來看,該模型的核心是聯合監委會流程,其中的 TCPED 階段可視為構成伯克等人[6]團隊適應模型的不同階段: SA、計劃制定、計劃執行和團隊學習(可以是評估收集處理、利用和傳播(CPED)是否有助于解決任務)(見下圖 1)。單個 PED 單元的這種相對線性的團隊流程也應結合其在多團隊系統中與其他團隊(單元)的協作來看待,即多個團隊為實現共同目標而集成工作[7]。涉及多個 PED 單元的聯合 PED 對于確保收集必要數據以獲取可采取行動的情報尤為重要。我們預計,由于不同的原因,計劃中的監委會審查流程可能并不總是按照預期的計劃方式可行。例如,從任務的角度來看:一個 PED 單元在執行任務期間的實際工作量可能會嚴重影響其參與整個聯盟聯合監 督和報告進程的能力。北約的事先規劃可在一定程度上減少這一因素,但不能完全消除不確定性。其他一些因素也可能對事先規劃的聯合監查制度進程構成挑戰:如各 PED 單元的動機、經驗、對任務的不同理解程度等。因此,我們認為HF的影響不僅與在單個小組內實現聯合監委會進程的總體目標有先后關系,而且在很大程度上以其他無意方式影響了北約的整體聯合監委會進程。另一方面,所述的監委會進程不一定會因這些障礙而改變,因為這可能取決于多個國家政策、執行和評估小組內部和之間協調和信任的有效性。
在不同的章節中,我們闡述了個人和人際因素、組織因素、文化因素、任務因素、系統因素和團隊因素如何影響聯合監委會。這些輸入因素預計會影響監委會的程序及其在監委會內部以及向外部組織要素(如聯合目標或情報界)提供可用結果的能力,進而影響諸如共享情況意識、數據分析、信息共享和決策以及任務完成的準確性和速度等輸出因素。圖 1 描繪了輸入和輸出因素之間的擬議聯系;該圖概述了本報告研究的所有因素。藍色和帶下劃線的因素是經過實證研究的因素。在隨后的章節中會有更詳細的理論介紹,其中還包括更詳細解釋一般模型中提出的各因素之間擬議相互關系的模型。
無人系統,無論是遙控操作還是不同程度的自主操作,已經成為國防庫存的一部分,除了用于情報、監視和偵察(ISR)之外,還迅速成為作戰部隊的重要組成部分。無人駕駛飛行器(UAVs)具有數天的續航能力和洲際范圍的打擊能力,正在重新定義戰爭理論和作戰戰術。海軍和地面部隊將成為無人系統的新領地,而這一領地至今仍由無人機主導。真正的轉折點將是人類和自主無人系統的合作,無論是在任何戰斗空間。另一個領域將是空中、地面和海軍異質無人系統的合作,并迅速形成業務自主團隊。重要的是要認識到,無論是基于確定性模型還是人工智能的算法計算,都不能取代人類對手頭關鍵信息的戰術判斷。所謂的態勢感知可以由經驗豐富的戰場指揮官來理解,而不是由實驗室訓練的自主系統來理解。在復雜的情況下,特別是在識別朋友和敵人、誘餌以及確定目標的優先次序方面,團隊合作將是一個挑戰。自主系統將需要學會節約能源和彈藥,并具備應對不利情況的生存技能。另一個重要的領域將是開發 "天生自主 "的平臺,其性能將超過所有的載人平臺,特別是大型平臺。本質上,人類注意力持續時間的限制和生物的必要性是國防系統設計者的主要挑戰。無人自主系統(UAS)克服了這些限制,同時放棄了人類獨特的敏銳性和啟發式知識。緊湊的可能性、承擔風險的能力和巨大的耐力和范圍,以及最重要的是,可以部署的數量超過了每一個方面。無人戰場系統領域仍處于起步階段,具有先驅者的優勢,因此將永遠決定領導者的地位。該領域屬于那些敢于和不畏懼未知和不確定因素的人。這個領域的創新的簡單規則是快速失敗和快速發展。
機器人的第一個應用是在核反應堆中裝載和收回燃料棒,這是一項危險的任務,絕對需要使用機械手和夾持器遠程完成。由于對柔性制造工廠的需要,工業機器人大舉進入生產線。由于機器人具有適應新任務的靈活性,應用機器人完成重復以及危險的任務已成為該行業的一種常態。這些系統的遠程操作,無論有無電線,都已經被業界掌握。在第二次世界大戰期間,德國人使用了歌利亞履帶式地雷。埃弗雷特很好地記錄了這個遠程操作系統和其他無人系統的發展。歌利亞 "的基本思想是用小而便宜的東西殺死大東西;即使在今天,這也是所有無人系統的主要思想,廣泛地說,它是用更少的錢實現更多的東西。任何未來的國防規劃都無法想象會遺漏無人系統。傳統的防御技術一直依賴于傳感器、推進器、制導、軍備等核心技術的進步,并在此基礎上發展壯大。毫無疑問,這些核心技術的研究將以同樣的強度繼續下去,然而,使用無人平臺的創新將為部隊提供前所未有的力量。事實上,今天的無人系統所使用的技術很早就有了,是創新的動力和新的信心水平在推動著新的增長。
日本特種部隊的神風特攻隊飛行員在一次自殺任務中展示了飛行器的殺傷力,突出了這樣一個事實:如果飛行員遠程操作飛機,冒險的能力會成倍增加。然而,無人駕駛飛行器(UAVs)的第一個更高的技術應用是用于情報、監視和偵察(ISR)的作用,與有人駕駛的飛機相比,具有更高的續航能力和射程,以及更高的被擊落接受度。特別是在航空平臺上,取消機上人員提供了巨大的優勢;首先,消除了飛行員寶貴生命的風險,其次,可以獲得額外的空間和重量。載人飛機只會在非常特殊的情況下參與,將大部分任務留給遙控平臺,包括戰斗任務。
有必要回顧一下美國的U2間諜飛機在非常高的高度飛行,對蘇聯執行偵察任務。最初沒有武器來擊落這些飛機。這種導彈最終被開發出來。美國開發的SR-71飛機可以以3.4馬赫的速度飛行,但很快就退役了,改用間諜衛星。現在是無人機填補這一空間的時候了,即使不是完全填補。一群無人機聯網并覆蓋一個巨大的區域可以提供大量的情報和通信覆蓋。
隨著學習算法的成熟,人工智能(AI)作為主要推動力的出現將成為無人駕駛系統的主要工作動力。具體來說,基于人工智能的圖像處理和推理引擎是最近一段時間的主要發展。其中包括人臉識別,目標的識別和分類--一個人是拿著槍還是拿著杖,一輛車是否是值得的軍事目標。重要的方面是人工智能系統可以得到多好的訓練,他們的推斷能力有多強,當出現反直覺的情況時,會發生什么。必須接受的是,在該領域有經驗的人可能會很慢,而且可能會犯錯,但當涉及到未知因素時,他的啟發式方法和直覺可能是更好的選擇。
整個現代戰爭都取決于通信領域,誰在戰場上主導了這個領域,誰就會有巨大的優勢。整個無人系統如果沒有一個強大的通信系統,就會使自己失去作用。能夠與指揮中心有效溝通的空間資產甚至更加重要。
最令人興奮的是 "蜂群 "的概念,其中蜂群的單個實體可能有非常簡單的傳感器和控制器,但在一個具有簡單蜂群算法的編隊中,它們可以成為一支重要的力量,當它們攻擊傳統平臺時,沒有人能夠對付它們。想象一下,當反艦導彈在其目標附近投放蜂群時,這些攜帶小型炸藥的蜂群實體可以擊中戰艦的重要系統,或者可以做任何事情,包括將戰艦圍困。目前,唯一可以想象的針對蜂群的可靠對策是反蜂群。
科學和技術研究將在核心技術和材料科學方面繼續保持同樣的活力,特別是在非金屬材料方面。未來的無人系統研究將更多地以應用為導向,學術界和國防科學家共同合作,調整和配置技術,包括非常嚴肅的實驗室模擬和實際場景的仿真,以及對必須處理這些情況的人工智能引擎的培訓。
審慎的做法是看一下一些可能的未來主旨領域,在這些領域中,可以預期會有顯著的增長。建造未來無人系統的技術將與建造傳統戰爭機器的技術相同,然而,有幾個重要的應用研究領域將需要立即關注和努力。
首先,最重要的是要有能力與異質系統進行無縫通信,這些系統將有不同的起源和建造日期。所有的東西都不可能是最新的和最先進的。有必要建立一個骨干網,以無縫地處理所有最先進的和傳統的系統,以便指揮中心的人類指揮官能夠快速更新和理解情況,并給這些無人駕駛系統提供適當的指示。將需要具有容錯和快速重新配置能力的分布式通信網絡。這些網絡應該能夠使用多種資源,即衛星、無人機、地面光纖網絡、帶有或不帶中繼器的不同頻段的無線網絡。這些系統將是軟件驅動的,有能力用任何可用的最佳資源建立從戰場到指揮中心的聯系。通信系統需要應對固定電話的物理破壞、無線鏈接的干擾等。毋庸強調,通信網絡應該有強大的加密、解密和認證系統。據說,在未來的任何戰爭中,誰主導了電磁空間,誰就是贏家。應該承認,現代系統有很強的屏蔽能力和抗干擾能力,它們可以 甚至可以承受高能量的脈沖。使敵方平臺失明到支配水平所需的能量水平是巨大的,不切實際的,甚至是不可能的。其次,利用衛星、無人機作為通信平臺,可以快速連接備用通信渠道。總而言之,誰擁有更好的和強大的通信網絡,誰能更快地處理數據并有效地利用現有的數據,誰就能在戰場上處理無人駕駛系統方面擁有巨大的優勢。
有人與無人機編隊(MUMT)是一個預期的增長方向,其主要目標是在最大限度保護載人平臺的情況下有效打擊目標。這帶來了一個優越的形勢思考者--人類--的優勢,這樣他就可以指導無人平臺達到最佳效果。有人-無人合作可能有許多技術挑戰,但它似乎是一個值得追求的研究領域。一個典型的場景可能是傳統戰斗機與無人平臺一起飛行。美國的國際防務、航空航天和安全公司BAE系統公司已經宣布了無人駕駛僚機的概念,并且可以使用無人駕駛僚機的戰斗機具有更多的生存能力和更大的殺傷力。諾斯羅普-格魯曼公司也發表了一篇論文,提出了一個典型的作戰場景,即一群無人機干擾敵人的雷達,并在進行救援行動時自主地參與戰斗。有人和無人平臺之間的合作以及戰術場景需要由各自的專業人員進行想象和制定。團隊合作的不同場景必須被模擬、仿真,并對人工智能引擎和人類作戰員進行培訓。
無人機、無人地面飛行器和無人水面及水面下系統組成的蜂群可以對沒有任何反制措施的常規平臺造成不成比例的破壞。一輛作戰坦克如果被一群炸藥包圍,僅憑數量就沒有生存的機會。電子對抗措施可能起作用,也可能不起作用,這取決于這些實體被設計成如何在受挑戰的環境中運作。很難想象常規平臺在面對蜂群時的命運。使用誘餌,如照明彈、金屬箔片、高強度輻射來蒙蔽搜尋者、反射器、熱信號模擬器的經典方法可能對蜂群沒有用。它不像一個單一的彈頭朝向目標,你甚至可以用反導彈系統將其擊落。無人機群更容易建造和部署,它們可以由一個較大的無人機運送到離目標足夠近的地方,但又足夠遠以保證自身的安全。它類似于從戰斗機上遠距離發射的反艦導彈。飛機從未進入艦艇防空導彈的射程,但其射程足以讓反艦導彈到達目標。
蜂群依賴于蜂群算法,這些算法將通過在計算機模型或實驗室的實驗裝置中的模擬環境中進行訓練而發展。Eric Bonabeau、Marco Dorigo和Guy Theraulaz在他們的書中提供了對蜂群算法的良好見解。人工神經網絡(ANN)、遺傳算法(GA)、模糊邏輯、圖論等的組合,成為學習和建立人工智能系統的基本工具。這些基于人工智能的系統和一些確定性的算法將能夠處理蜂群操作的一些重要方面,即:蜂群的傳播、目標的識別和將目標分配給蜂群成員、目標的優先次序、蜂群的領導和等級制度、它們的操作情緒,即:保存能量、保壘、全力攻擊或撤退。就像自然界的蜂群或獸群一樣,它們需要具備生物世界的一些特征,以獲得更好的效率和生存。有些情況可能是為了部落的更大利益而進行自我犧牲。一個直接的需要是解決識別朋友或敵人的問題,并在與指揮中心失去聯系時以最佳方式采取行動。一群無人駕駛的戰斗坦克的成本和大小將是四分之一,并且有更多的裝甲來打敗傳統的反坦克射擊。
在極低地球軌道上的太空衛星群具有較短的壽命,將給部隊帶來優勢。將會有一種 "軍事物聯網 "的出現。
未來的戰場如果沒有各種蜂群將是不可想象的。武裝部隊別無選擇,要么盡快接納它們,要么面對它們。
不難預見,超音速無人駕駛作戰飛機的出現,以及類似的無人駕駛作戰坦克、無人駕駛海軍艦艇和潛艇的出現,與現有的常規平臺相比,其殺傷力要大很多。這些系統將以自上而下的方式設計為 "天生自主",并能夠在人類指揮官的指揮下以群組的形式運行,戰術上避開障礙物、與指定目標交戰等任務都是自主完成的。諾斯羅普-格魯曼公司的X-47B已經完成了半自主和自主模式的飛行試驗。預計它將在半自主模式下投入運行。
直觀地講,可以理解的是,不能讓自主系統自己操作,因為它們是根據所學的內容來操作的,對于不熟悉的和大綱以外的問題,人工智能可能沒有答案,但在完全不確定的情況下,人類的理解力可能要好得多。像無人駕駛作戰坦克這樣的大型平臺可以在半自主模式下運行,其中發射武器的決定將由人類控制,而其他操作,如避開障礙物和移動將是自主的。一個操作員控制幾個平臺的可能性將需要有效的算法開發,最重要的是培訓。
將接近報廢的常規平臺轉換為無人系統是另一種選擇,以便在 "先天自主"類型的系統擴散之前擁有一個相當大的無人系統基地。這樣的轉換需要非常小心,因為大多數子系統可能需要調整和手動調整,甚至是修改。戰斗機、作戰坦克、海軍艦艇包括潛艇的轉換可能需要更深入的研究,如果是許多大型平臺,可能不值得努力。未來具有可比火力的無人系統在尺寸和重量上將更小,并將攜帶更多的傳感器,而且必然會有一個完整的健康監測系統。
推動未來發展的另一個重要方面是大型平臺面對不斷發展的導彈技術時的脆弱性。尋的器變得更加智能和精確,推進系統變得更快,而高超音速導彈也不是很遙遠。現在已經到了裝甲部隊更難戰勝彈藥的階段。除非使用大型航空母艦的部隊能夠完全支配敵人,否則大型航空母艦的前景確實很暗淡。抵消這種情況的唯一方法是擁有大量的無人駕駛系統,形成無法對抗的集群。需要注意的是,任何反制措施的發展都會滯后于任何新的戰爭武器。目前,無人系統,尤其是蜂群具有這種優勢。任何擁有蜂群打擊能力的武裝力量都將在戰場上擁有巨大的優勢。
指揮中心將需要大量的軟件來吸收來自無人駕駛系統的巨大數據流。人類不可能處理和控制具有不同任務的多個蜂群,因此,指揮中心的軟件工具需要具有優先考慮的能力,并為人類決策者提供圖形化的情況,以便向自主無人平臺蜂群發出指令,有效地完成任務。首先,我們應該建立這樣的指揮中心,能夠處理巨大的通信流量。其次,軟件應該能夠吸收數據并大致推斷出情況,并提出人類指揮官必須知道并采取行動的重要和關鍵信息。
軍事硬件的庫存將是異質的,種類繁多,這與維修專業人員的意愿相反。使用傳統的記賬和存儲方法將是不可能的。幸運的是,可以建立具有健康監測功能的系統,其升級和維護記錄可以通過軟件集成來實現自動化,大部分傳統的存儲管理也可以實現自動化。庫存的種類和巨大的類型反而是可取的,而不是維護的禍根。即使從管理的角度來看,這些系統的自動化也會使尾牙比率下降。然而,這些系統的技術支持需要工業企業的支持,無人駕駛系統和人類指揮官的培訓需要特殊的實驗室基礎設施。
目前,壓力驅動型和影響型地雷被埋在地下,這些地雷等待著敵人的戰斗坦克不小心踏過去而啟動。埋設的地雷將真正被埋入歷史,原因有二:第一,埋設數公里的地雷將無法阻止敵人,因為地雷探測已經變得更快,用掃雷器或布雷器或拖網清除一些地雷的突破口將形成車輛安全通道。強大的掃雷系統可以在一兩個小時內清除一條車道,而敵方車輛可以突破,使苦心營造的雷區完全失去作用。其次,有可能設計出具有智能和移動性的地雷,使雷場具有致命性。未來的雷場將是智能化的地面地雷,對任何企圖突破的行為進行監視,這些地雷也可以是移動的,可以迅速治愈雷場,拒絕敵方車輛和部隊通過,同時為自己的車輛和人員提供安全通道。這樣的智能雷場將是可怕的,并為懲罰敵人提供更多時間。
海底水雷是致命的,因為它們無法被探測到,拆除它們的唯一方法可能是派遣一艘無人駕駛的水面下的船只來目測和消除地雷。目前,海面下的地雷是由耐力有限的特殊破雷船破除的。無人駕駛的破雷自主車輛群可以有效地執行探測和解除這些地雷的任務。
無人機的另一個未來應用是通過各種手段物理攔截低空巡航導彈和其他導彈來保護機場。這個概念類似于地面或海上的雷區。用無人機群在機場周圍設置雷場,可以完全保護機場不受任何入侵。蜂群的方法之一可能是幾個無人機攜帶像網一樣的物理屏障,并將網置于來襲導彈的彈道中。這些可以自主操作,而友軍的飛機將在蜂群提供安全通道的情況下沒有任何問題地運行。
擁有隱身技術的第五代飛機將擁有巨大的優勢。具有相同水平的隱身技術和較小的雷達截面的無人機將成為一種可怕的武器。如前所述,常規平臺的所有技術都將流入無人駕駛系統。如果這些系統的群集,最初從群集中分散開來,匯聚到一起攻打敵人的陣地,如機場等,這將是一種致命的和可怕的武器。當出現反戰時,隱身能力將變得很重要,在這種情況下,誰能給誰帶來驚喜將成為制勝點。內部武器艙、合并機身的飛翼和蛇形進氣口將成為UCAVs的基本特征。帶有雷達吸收夾雜物和涂層的復合材料以及具有最小反射邊緣的變形翼將是未來的趨勢。
不難猜測,現有的雷達在對付RCS非常不明顯的小型無人機時有什么缺點。這些雷達從來就不是為這個角色而設計的。為了謹慎起見,我們應該指出這樣一個事實:能夠提供最遠射程的最節能和緊湊的雷達取決于材料技術和特定半導體技術的制造技術。這是一個被嚴密保護的技術領域,這些技術中最好的技術將被列入拒絕名單,以便技術發展國家始終保持領先。長期以來一直如此,除了先進的半導體之外,所有先進材料也將繼續如此。能夠對大面積地區進行監視的天基雷達也將提供巨大的優勢。然而,另一種方法是擁有無人駕駛的預警監視飛機,其機載雷達以蜂群的形式運作,并持續提供集體情況數據。這不僅可以提供敵方機場行動的數據,還可以提供地面活動的數據。
由無人機或無人水面艦艇進行的海面監視將提供對水面艦艇活動的情況了解。然而,最具挑戰性的部分是次表層領域,其傳感器的范圍非常小,而且介質的不一致性使得探測潛艇極為困難。適當的做法是讓較小的無人潛水艇在感興趣的區域運行,以探測任何敵方的潛水艇。
與傳統系統不同,無人駕駛系統非常容易受到外國供應商可能在代碼中實施的殺傷開關的影響。事實上,從外國提供的所有高科技系統都有保障措施,使武器不能被用來對付原產國,因為它可能落入壞人之手,或者進口國可能在未來變成敵對國家,這不是什么秘密。其次,必須認識到,無人系統的主要優勢在于其數量和在必要時被犧牲的能力,所有進入這些系統的技術總量都是成熟的技術,設計創新是優勢的主要支點。因此,可以得出結論,在國內用已經成熟的技術建立可信的無人系統是可能的。由于數量、種類和不同的尺寸會很高,謹慎的做法是,本土系統應以比發展本身更快的速度引進。
同時,軟件升級和諸如傳感器單元等組建的升級必須經常進行,至少以三年為一個周期,電子和軟件的完整升級壽命最長為10年。無人系統的數量和它們的賭注在未來將繼續增長,這有很多原因。武裝部隊總是期待著技術上最好的產品。然而,技術的創新和應用的增長將是如此之快,以至于超過了傳統的現場試驗、采購和誘導時間周期。非常規的系統需要非常規的入伍方式,而武裝部隊需要一些創新的管理過程。平臺和技術集合體有不同的生命周期,隨著新的步伐,必須盡早考慮預先計劃的產品升級。一些未來的技術可能仍處于理論或早期實驗室階段。更快的誘導和升級的經濟性既不會打動管理者,也不會打動財務控制人員。
無人戰場系統,尤其是 "神風 "無人機,已經經過了實戰檢驗。具有非常有效的人工智能的蜂群技術將在戰場上幾乎是無敵的,具有無可比擬的優勢,因為傳統平臺目前對這種蜂群沒有任何對策。主要的驅動力將是利用已經證實的技術的創新設計,并探索和利用人的生命不受威脅時的獨特優勢。在人工智能系統的開發和實施以及針對特定場景的蜂群訓練方面的應用研究有巨大的潛力。作者第一次接觸人工智能是在1996年,當時印度孟買理工學院的一位研究學者正在研究人工神經網絡,他咨詢確認網絡是否在學習。 該網絡的學習能力確實令人驚訝。后來,作者在研究了一些關于蜂群的學術著作后,于2008年寫了一篇內部論文。然而,所進行的研究并沒有形成一個可交付的產品。
現在用于先進常規平臺的所有先進技術將被部署在無人系統中,這將更加有效。有效的載人-無人機組隊可以給作戰部隊帶來不對稱的優勢。
由于常規導彈系統和定位技術的巨大進步,大型常規平臺更加脆弱,但也因為無人系統的蜂擁而至。陸地和海上的地雷戰將被重新定義,無人預警和監視群將是關鍵領域。
指揮中心將需要智能推斷引擎,以吸收來自無人系統的數百個傳感器的大量數據,并將可理解的數據呈現給人類指揮官,以便他們做出關鍵的決定。
誘導一個創新的首創系統具有先鋒優勢,因為不存在針對這種系統的對策,這將為先鋒提供不對稱的優勢。這不是一個等待和觀察心態的領域。在這里,創造者和先驅者拿走一切。自主無人戰場系統有無限的可能性等待我們去探索。
有必要在每個行動領域建立專門的無人駕駛戰場系統開發中心。在我們建立和測試這些系統時,"天生的無人駕駛 "將有不同的設計原則需要發展。學術研究人員和設計專業人員之間需要協同合作,特別是在算法和軟件的開發方面。謹慎的做法是強調確定性的算法是基礎,而基于人工智能的算法則是通過計算機和物理模擬的系統學習過程中產生的。健全的算法構成了無人駕駛戰場行動的支柱,尤其是在有挑戰的環境中。最后,控制戰斗的人類指揮官將根據他們的啟發式方法和直覺做出最后的決定。
現代軍隊依靠電磁頻譜來運作。因此,通過干擾和定向能量攻擊電子和信息系統會降低現代對手的作戰系統。冷戰結束后,美國的對手在電子攻擊能力方面進行了投資,而美國陸軍則基本上放棄了自己的能力。意識到這一點,陸軍現在正投資于新舊電子武器以縮小差距,在陸軍試驗多域作戰概念時重新獲得電子攻擊能力。本專著的目的是回答這樣一個問題:"美國陸軍如何在MDO空間中利用電子攻擊?" 本專著提出,陸軍作戰部隊應將新興的干擾和定向能武器整合到一個作戰系統中,將物理、控制論和道德效應融合到對敵人的深度攻擊中。這一建議對條令、組織和領導者的發展有重大影響。作者的意圖是鼓勵陸軍領導人將環衛系統中的進攻行動視為當前和未來戰場上聯合武器作戰的關鍵。
無人機系統和傳統的干擾技術已經融合在一起,形成一種新的能力。正如前面的案例研究中提到的,俄羅斯已經在無人機上安裝了干擾器,作為其Leer3 EW系統的一部分。在美國,陸軍和空軍希望更深入地測試空中發射的多功能無人機群,這些無人機可以快速穿越戰場進入對手的支持區,以識別、破壞甚至摧毀高回報目標。陸軍作戰能力發展司令部的合同提案要求這些無人機配備ES傳感器和EA武器,能夠同時探測敵人的作戰秩序,進行干擾,并觀察火力任務。陸軍的建議表明,網絡化的EW無人機在近距離、縱深和支援領域都有作用。除了在更大的收集-火力架構中的整合,EW無人機群可以通過欺騙性的信號和特征支持作戰機動。雖然這一系統尚未投入實戰,但該提案表明,陸軍正在考慮將EA能力與不斷擴大的無人機群整合到一個更廣泛的作戰系統中。
反無人機干擾系統有效地發揮了機動短程防空(SHORAD)武器的作用,保護單位和關鍵節點免受觀察和攻擊。許多反無人機武器干擾或欺騙測向和通信系統,導致無人機墜毀或返航。理想情況下,反無人機EA系統可以與戰區的IADS相連接,能夠迅速解除空域的沖突,辨別敵我雙方。然而,在有爭議的EMS環境中與低空飛行的無人機交戰的被動性質將使蓄意的空域和EMS解沖突變得不可能,特別是對于裝備有便攜式變體的部隊。
定向能源武器的破壞潛力來自于隨著時間推移轉移到目標的能量。高能(HE)激光器的能量通常在千瓦到兆瓦之間。在低端,這些武器可以使傳感器失明。隨著能量的增加,它們可以降低敏感的電子元件,加熱設備和人員,使其不能再發揮其功能,并導致燃料或彈藥爆炸。 美國海軍在實施高能激光器方面處于領先地位,2014年在一艘水面艦艇上安裝了第一臺。它現在在許多艦艇上都有一系列的激光器,從光學 "炫目 "到150千瓦的光束。光學、發電和傳播方法的進步使得在海上、空中和太空以及陸地移動系統中使用高能激光成為現實。
陸基高爆激光系統可以發揮許多功能。在戰術層面上,高爆激光器可以抵御來襲的彈藥,使無人機失效,并壓制敵人的主動防護系統,作為動能射擊的補充。空軍安裝在卡車上的 "恢復基地拒絕的彈藥"(RADBO)系統使用高爆激光器在舒適的距離內引爆地雷。陸軍目前正在開發一種300千瓦的車載激光器,以防止火箭彈、火炮和迫擊炮的攻擊。在戰區和戰略層面,高爆激光器可能是對抗高超音速導彈的唯一有效手段。根據大氣條件和可用功率,地面高爆激光器可以瞄準敵方軌道上的衛星。
高爆激光器可以有效地作為動能武器的彈藥替代物。這也是有代價的:功率要求、交戰時在EMS中的信號增加,以及由于遠距離和跨域的影響而可能造成自相殘殺。高爆激光器還可能受到大氣條件的限制,盡管該領域的進展正在努力克服這一挑戰。
激光與物理環境中的元素的相互作用使DE有了非致命的用途。美國軍方在伊拉克和阿富汗的反叛亂行動的高峰期試驗了 "疼痛射線",作為其主動拒絕系統(ADS)的一部分。該系統是為控制人群而設計的,它將電轉化為毫米級的無線電波,加熱皮膚中的水,在幾秒鐘內產生難以忍受的熱感。對ADS的1.1萬次測試只導致了兩次受傷。另一種應用是用激光在人員附近產生等離子體球,然后用其他激光誘發物理效應,如幽靈般的聲音或周圍空氣中難以忍受的噪音。聯合非致命武器局正處于將激光誘導的等離子體效應武器用于加熱目標的皮膚,產生極其響亮或混亂的聲音,以及投射口頭命令的邊緣。
非致命的DE武器可用于固定地點的安全,可在安全和鞏固行動中使用,并可通過使人群遠離道路來提高流動性。然而,這些武器的新穎性可能會在信息環境中產生負面效應。斯坦利-麥克里斯特爾將軍在ADS部署后的幾周內就下令將其從阿富汗撤走,因為塔利班讓人們相信美國在對平民進行 "微波",使其患上癌癥和不孕癥。
高功率微波(HPM)武器旨在通過用電磁能量壓倒目標的電子裝置來拒絕、干擾、損害或摧毀它們。HPM是可擴展的,根據HPM投射的能量的多少來呈現所需的效果。在較低的范圍內,HPM激增的能量足以 "鎖定 "一個系統,拒絕其使用。在較高的功率范圍內,HPM會破壞集成電路。與干擾器不同,HPM可以在目標系統不工作的情況下實現其效果。反擊HPM需要對整個電子系統進行加固,因為激增的能量會通過暴露的電線、端口、天線和光學器件滲透進去。與高爆激光器不同,HPM是區域性武器。破壞性效果通常是在較近的范圍內產生的,而破壞性效果可以在較遠的距離上實現更大的面積。作為區域性武器,HPM在對付無人機群時特別有用,空軍已經部署了至少一種HPM武器來保護其地面設施免受無人機攻擊。2017年,波音公司和空軍成功測試了 "反電子高功率微波高級導彈項目"(CHAMP),這是一種巡航導彈,旨在用機載HPM摧毀計算機和電子設備。將這種技術應用于無人機系統或基于直升機的運載系統,為遠程HPM攻擊提供了另一個載體。
具有最大戰略潛力的HPM武器是非核電磁脈沖(EMP)。一旦美國研究人員認識到核爆炸伴隨著電磁能量的大規模激增,美國和蘇聯就開始研究用非核彈藥復制這種效果。雖然CHAMP使用機載電池來發射其HPM以達到局部效果,但EMP炸彈將爆炸能量轉移到磁場中,在整個作戰區域產生HPM效果。組件技術已經成熟到EMP炸彈或導彈是可行的地步。雖然國防部沒有公開其EMP研究,但在2017年,國防部向工業界征集一種 "彈藥投送的非動能效應",該效應能夠 "在不破壞與這些系統相關的硬件的情況下使對手的基本工業、民用和通信基礎設施失效"。該提案要求用標準的陸軍155毫米射彈來實現這一效果。96F 97 該提案所要求的能力指向某種火炮發射的EMP武器。由于C2系統和光電傳感器依賴于敏感和脆弱的電子器件,成功的EMP攻擊對對手的影響可能是決定性的。
博伊德斷言,戰斗人員必須有道德-心理-身體的和諧才能進行抵抗。要破壞這種和諧,需要將致命的、機動的和道德的努力結合起來。施耐德斷言,戰斗有三個領域:道德、控制論[心理]和身體。各個領域都會受到能力的影響,包括EA。結合這些觀點,我們得出了一種方法來理解新的電子攻擊能力如何在多領域作戰中被利用(見圖3)。考慮到案例研究,現在的任務是考慮我們如何將新興的EA系統與現有的能力相結合,在物理、控制論和道德領域產生影響,以支持致命的、機動的和道德的努力。
圖 3.“在作戰中應用電子攻擊的模型”。
電子武器特性的最重大變化是開發了能夠直接摧毀敵人系統和平臺的電子武器。HPM和HE激光系統有能力摧毀無人機和飛機。陸軍的高爆激光器目前集中在防空和反無人機任務上,但這些激光器瞄準地面上的敵方平臺只是時間問題。戰斗車輛上的主動保護系統,如以色列的 "戰利品 "系統的擴散,可能需要在用直接或間接火力攻擊這些平臺之前,通過干擾或DE武器對其進行抑制。為工兵部隊配備RADBO或類似的高爆激光系統,將使他們能夠迅速減少雷區,在行動中能夠更快地進行地面機動。
無人機群ES/EA干擾器,與間接或精確火炮協同作戰,形成了一種觀察-壓制-打擊的能力,有可能遠遠超出前線部隊的作戰范圍,支持偵察和反偵察任務。裝有高爆激光器的航空平臺將為陸軍提供其最遠距離的直接火力武器系統,能夠在距離目標數英里的地方升空進行瞄準射擊,然后落回地面。作為常規致命打擊的一部分,EMP炮彈將摧毀主動防護系統和反火力雷達的電路。
陸軍EA系統也將在物理領域支持MDO的其他服務。DE武器的效果上限可以延伸到太空,使其能夠與飛機交戰以支持空軍。消耗性的無人機干擾器可以激活敵方的EA系統,顯示其位置以便聯合瞄準。裝備有小型EMP裝置的特種作戰部隊可以使岸基雷達和導彈系統在沿海和海上行動中無法使用。陸軍高能激光器有可能通過從地面瞄準敵方衛星來支持太空部隊。
雖然美軍傳統上將EA集中在網絡領域,但現代EA武器為陸軍提供了沿著作戰區域的長度和寬度攻擊網絡決定性點的潛力。蜂群無人機可以將陸軍各師的干擾范圍擴大到遠遠超過空地作戰的30公里。ES系統可以提示高爆激光器來干擾(或炸毀)指揮節點的天線。HPM和EMP彈藥將使整個網絡無法使用,嚴重降低了指揮官在分布式部隊之間提供目的和方向的能力。成群的EA無人機和固定的誘餌可以模擬平臺和指揮節點的電子特征,欺騙敵人并模糊其電子監視工作。同樣的能力也可以用噪音淹沒EMS,在關鍵時刻隱藏關鍵系統的使用或機動。
無人機干擾器和高爆激光器可以壓制防空系統以支持空軍行動。電磁炮是在MDO中產生機動窗口的完美武器,因為它可以使不發光的防空雷達失效,而不會使載人的空中干擾機處于危險之中。地面干擾器可以破壞衛星和地面站之間的聯系,使太空部隊的資產騰出來用于其他行動。EA系統可以刺激敵方網絡,或創造可能有利于敵方網絡內部的網絡行動的缺口。針對網絡決定性點的EA的累積效應將使敵人無法對加速的致命打擊作出反應,也無法對進入脆弱地區的滲透性機動作出反擊。
陸軍可以在戰術、作戰和戰略層面上將現代EA技術用于對抗敵人的意志。在戰略層面上,EMP彈藥可以作為一種有效的威懾手段來對抗對手的行動。從多個載體--空中、太空、海上和陸地--發射的EMP提供了核交換之外的升級選擇。在作戰層面,一個模擬蜂窩網絡同時干擾真實網絡的系統,如俄羅斯的Leer 3,將幫助指揮官更有效地管理信息環境。對分散的部隊使用戰術電磁脈沖,從電子上切斷他們的總部和相鄰的編隊,將在紀律性不強的部隊中產生恐懼和威脅。激光誘導的等離子體效應可以在塑造行動中使用,作為致命的動能打擊或快速穿透機動的前奏,制造恐懼和焦慮。
正如俄羅斯人在烏克蘭所展示的那樣,操縱性電子攻擊是利用聯合網絡行動中獲得的情報的一種機制。我們的網絡戰士必須與EA和心理行動相結合,以收集情報,制作欺騙或信息,然后以無線方式投射到對手的網絡。
不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。
圖1 決策優勢理論。
決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。
決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。
信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。
信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。
信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。
決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。
增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。
控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。
雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。
本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:
建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。
建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。
建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。
建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。
認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。
CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。
這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。
第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。
美國負責采購和維持的國防部副部長辦公室(OUSD A&S)的任務是快速和低成本地向作戰人員和國際合作伙伴提供和維持安全和有彈性的能力。現在迫切需要開發適應性采購框架(AAF),以加快軟件開發和采購流程,加強作戰概念(CONOPS),如分布式海上作戰(DMO)。國防部(DoD)必須利用與國防戰略和全球威脅的性質相聯系的數據驅動的分析來塑造AAF,并擴展新的能力來應對新的威脅。威脅和能力共同演化矩陣(TCCM)解決了這一要求。威脅是一種能力試圖處理的問題。一種能力是代表威脅的問題的解決方案。共同進化算法探索了一些領域,其中一個能力或能力組合的質量由其成功擊敗一個威脅或威脅組合的能力決定。TCCM有可能在新的和有爭議的環境中系統地優化、推薦和共同演化能力和威脅。我們展示了一個關于幫助項目執行辦公室(PEO)使用從公開來源匯編的非機密數據對特定領域DMO的能力和威脅進行戰役的用例。
不僅美國防部負責采購和維持的副部長辦公室(OUSD A&S)有必要制定采購戰略,而且整個國防部也有必要應用數據驅動的分析以及與國防戰略和全球威脅的性質相聯系的創新和適應性作戰概念(CONOPS),并為作戰人員擴展新的能力。
例如,為了提高部隊的總體戰備能力,并在廣泛的行動和沖突頻譜中隨時投射戰斗力,海軍需要靈活的指揮和控制(C2)組織結構來滿足CONOPS。例如,DMO是海軍的一個CONOPS,而遠征先進基地作戰(EABO)是美國海軍陸戰隊(USMC)的一個CONOPS。DMO和EABO都是海戰現代化的新興作戰概念。PMW 150是PEO C4I的C2系統項目辦公室,也是C2解決方案的主要提供者,它的工作重點是將作戰需求轉化為海軍、海軍陸戰隊、聯合部隊和聯軍作戰人員的有效和可負擔的作戰和戰術C2能力。PMW150的任務是 "以創新的方式滿足相關能力的操作要求,使作戰人員能夠保持C2的優勢"(Colpo,2016)。
另一方面,美國艦艇的海上行動,特別是在沿海地區,將繼續存在爭議和危險;因此,當務之急是發展DMO和EABO,以實現統一的行動愿景。DMO的目的是在有爭議的環境中支持國家和戰略目標。DMO的概念不僅將進攻性打擊視為在戰斗中獲勝的主要戰術,而且還將欺騙和迷惑敵人的能力確定為在有爭議的環境中獲得成功的關鍵任務。目前的工作重點是將現有的平臺、系統和能力與DMO的具體戰術相結合,以實現海上戰略和作戰目標。DMO被定義為 "通過使用可能分布在遙遠的距離、多個領域和廣泛的平臺上的戰斗力來獲得和保持海上控制所必需的作戰能力"(海軍作戰發展司令部[NWDC],2017)。
DMO作為海軍和海軍陸戰隊資產運作的一個概念,其發展源于分布式殺傷力(DL)模型(Popa等人,2018)。DMO的概念采用了DL的擴展觀點,由三個支柱組成:通過網絡射擊能力提高單個軍艦的攻擊力,將攻擊能力分布在廣泛的地理區域,并為水面平臺分配足夠的資源,以實現增強的作戰能力(Rowden, 2017)。DMO還強調在所有領域,包括空中、地下和網絡戰,都需要更有彈性和可持續性的水面平臺。DMO的未來觀點是成為以艦隊為中心的戰斗力,通過整合、分配和機動性,允許在多個領域(有爭議的空中、陸地、海上、太空和網絡空間;國防部,2018)同時和同步執行多種能力和戰術,以便在復雜的有爭議的環境中戰斗和獲勝(Canfield,2017)。因此,DMO不僅包括傳感器、平臺、網絡和武器的傳統戰爭能力,而且還延伸到隨著新技術發展的其他戰術。DMO概念使用涉及ISR、機器學習(ML)和人工智能(AI)的先進探測和欺騙,特別是使用無人系統來增強進攻性戰術行動的能力;因此,通過潛在地利用平臺、傳感器、武器、網絡和戰術的不同組合,可以在所有海上領域放大一支多樣化但統一的部隊的戰斗力。
DMO的概念包括詳細的能力,如反措施、反目標和反介入的戰術。反措施是旨在轉移威脅的防御性能力。反目標可能是進攻性能力、欺騙性戰術和轉移威脅的作戰演習。欺騙性戰術包括無人資產群、機械和物理反措施、電子干擾和限制電磁輻射,或排放控制(EMCON)。反介入是為了消除威脅。
傳統上,基線部隊結構由一組固定的友軍艦艇和飛機組成,排列成行動組,包括航母打擊組(CSG)、遠征打擊組(ESG)、水面行動組(SAG),以及各種獨立的可部署單位,如EABO的遠征海軍部隊。
DMO的行動要求包括能力、人力、維護和供應等資源,需要仔細分析、計劃和執行,這需要正確的數據戰略、分布式基礎設施和深度分析。威脅與能力協同進化矩陣(TCCM)的技術概念解決了DMO和EABO行動的要求。威脅是一種能力試圖處理的問題,包括其復雜性和緊迫性。一種能力是代表威脅的問題的解決方案。來自ML/AI社區的協同進化算法探索了一些領域,其中能力或能力組合的質量由其成功擊敗威脅或威脅組合的能力決定。戰爭游戲模擬中使用的協同進化算法類似于國防應用中廣泛使用的蒙特卡洛模擬,只是它們參與了預測和預報、優化和博弈(minmax)算法等ML/AI。DMO和EABO概念要求處理不斷變化和發展的威脅的能力和資源網絡的靈活性和進化。
圖 1. 每個節點都使用 CLA 注意:每個節點的內容和數據可能包括能力;首先需要對能力進行索引、編目和數據挖掘。
圖 2. TCCM 和兵棋仿真的概念
未來的 MDO 概念:
正在探索的RAS是為了:
RAS將被要求:
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。