未來的 MDO 概念:
正在探索的RAS是為了:
RAS將被要求:
以下定義摘自美國陸軍訓練與條令司令部:
多域作戰(MDO)描述了美國陸軍作為聯合部隊[陸軍、海軍、空軍、海軍陸戰隊和太空部隊]的一部分,如何在競爭和武裝沖突中對抗和擊敗能夠在所有領域[空中、陸地、海上、太空和網絡空間]與美國抗衡的近鄰對手。該概念描述了美國地面部隊作為聯合和多國團隊的一部分,如何在2025-2050年的時間框架內威懾對手并擊敗能力強大的近鄰對手。
MDO為指揮官提供了許多選擇,以執行同時和連續的行動,利用出其不意以及快速和持續地整合所有領域的能力,給對手帶來多種困境,以獲得物質和心理上的優勢以及對作戰環境的影響和控制。
滲透敵方的反介入和區域拒止(A2/AD)系統(分層和綜合遠程精確打擊系統、沿岸反艦能力、防空系統、遠程火炮和火箭系統),使美軍能夠進行戰略和作戰機動。
破壞--擾亂、降低或摧毀A2/AD系統,使美軍能夠進行作戰和戰術機動。
利用由此產生的機動自由,通過擊敗所有領域的敵軍來實現作戰和戰略目標。
重新競爭--鞏固各領域的成果,迫使其以對美國和盟國有利的條件恢復競爭。
戰爭的速度和決策的速度可以說從來沒有像今天這樣快過,而且明天可能也會這樣。
在陸、海、空、天,甚至網絡領域運作的資產的密切協調,以促進ISR活動和對敵對目標的殺傷鏈,需要精確性,以及在各種平臺上 "蓄勢殺傷 "的能力。
系統的通用性可以減少后勤的負擔,簡化培訓和維護,并有助于確保各平臺的性能一致、可靠。
基于成熟技術的解決方案能夠迅速投入使用,并為作戰人員增加更多的靈活性和選擇,是一種力量的倍增劑。
未來的美陸軍部隊將需要進行跨域機動(CDM),并且有時需要半獨立地進行部署,同時通信和 GPS 等基礎設施會被中斷或拒絕。機器人和自主系統將在擴大協作決策中機動部隊的作戰范圍、態勢感知和有效性方面發揮關鍵作用。
DEVCOM ARL 專注于發展對作戰人員概念的基本理解和可能的藝術,通過研究,極大地提高基于空中和地面的自主車輛感知、學習、推理、通信、導航和物理能力,以增強和增加在復雜和有爭議的環境中的機動自由。
可擴展、自適應和彈性自主 (SARA) 協作研究聯盟 (CRA) 專注于開發和實驗加速自主移動性和可操作性、可擴展異構和協作行為以及人類智能體團隊的新興研究,以實現自適應和彈性智能系統可以對環境進行推理,在分布式和協作的異構團隊中工作,并做出適時決策,以在復雜和有爭議的環境中實現自主機動。
2022年10月11日,美陸軍公布了2022年陸軍云計劃,取代了2020年的計劃,并使陸軍更接近其數字化現代化的目標,以及將關鍵服務整合到整個企業的云環境。
正如2021年陸軍數字化轉型戰略和2019年陸軍現代化戰略所確認的,云是陸軍現代化的基礎。利用云的能力,陸軍將減少地面作戰人員網絡的數字足跡,并整合服務以實現多域作戰。
2022年陸軍云計劃提出了以下七個戰略目標:擴大云計算;實施零信任架構;實現安全、快速的軟件開發;加速數據驅動的決策;加強云計算操作;發展云計算勞動力;以及提供成本透明度和問責制。
"陸軍通過(企業云管理機構)建立了通過cARMY在秘密和非秘密級別廣泛采用云的基礎,"陸軍首席信息官Raj Iyer博士在談到最近在歐洲行動期間的云支持時說。"新的ACP側重于擴展和操作cARMY,通過與82空降師、第十八空降軍團、第一軍團、多域特遣部隊和其他陸軍的伙伴關系,滿足作戰人員的需求,支持實驗和演習,因為他們正在向2030年的多域部隊演進。"
該計劃提供了一個路線圖和衡量進展的指標,并將幫助陸軍實現其目標,即保持對美國近鄰對手的數字優勢,實施一個全球架構,并實現可持續的戰略目標。
在實現陸軍愿景方面已經取得了重大進展,2020年陸軍云計劃的許多核心原則仍然堅定不移。
《改變陸軍的思想:實現多域作戰的認知優勢》,作者丹尼爾-J-赫利希上校,72頁。
認知能力影響著士兵表現的所有方面--身體、精神和情感。盡管陸軍希望在多域作戰(MDO)中實現認知優勢,但它還沒有完全發展和采用認知性能增強和優化的概念。相反,士兵們服務于即時溝通的“永遠在線”文化中,試圖過濾數十種信息流并做出快速決策,同時在睡眠不足的情況下進行運行,并且沒有獲得認知能力教育和培訓的益處。由于陸軍現代化戰略規定了使用日益復雜裝備更復雜的戰術,陸軍必須改變其認知能力方法,以防止對手獲得他們在認知領域尋求的不對稱優勢。本專著描述了對士兵認知能力日益增長的要求,提供了認知理論的概述,并評估了陸軍目前的認知能力方法與工業界、盟國和對手認知能力的比較。最后,它概述了與提高認知能力相關的潛在機會和威脅,并對DOTMLPF-P的改革提出了建議,以促進整個軍隊持久的認知主導文化。
認知能力是士兵在戰場上和戰場外執行每項任務的基礎。它是支持所有表現的關鍵變量--身體、精神和情感。在最近的出版物中,包括2019年陸軍現代化戰略和2028年多域作戰(MDO)概念,陸軍理論描述了認知優勢的重要性,或獲得對敵人的智力優勢。
盡管認知科學取得了進展,并且普遍認識到認知優勢在MDO中的重要性,但陸軍還沒有完全發展和接受認知能力優化的概念。在過去的十年中,美國國家衛生研究院在大腦研究方面投入了超過457億美元,但士兵和領導人在 "永遠在線 "的多任務和連接的認知能力文化中進行訓練和操作。在整個軍隊中,領導人試圖過濾幾十條信息流,做出快速決策,而對認知能力優化的原則了解有限。這種文化是在認知上失敗的秘訣,而不是主導地位。
在此期間,中國和俄羅斯與美國一樣希望獲得認知上的優勢。兩國都在尋求生物技術、神經科學和人工智能(AI)解決方案,以增強人類認知能力,為他們提供相對于美國及其盟友的不對稱作戰優勢。不受西方社會倫理規范的約束,中國和俄羅斯積極利用民用和軍事兩用研究來實現這些目標。這兩個國家都將思想視為現代戰爭的主要戰場,并采取措施競爭和主導。
為了確保未來的認知主導地位,美國陸軍必須改變其文化,以推動競爭和創新的方式激勵卓越的認知。這需要一種植根于教育、培訓、技術和努力工作的深思熟慮的方法,用基于科學的方法來取代過時的認知能力神話,以確保認知優勢。在此之前,我們的對手可能會在認知領域找到他們尋求的不對稱優勢。
本專著描述了日益增長的要求,士兵的認知能力,并提供了認知理論和基礎神經科學的概述。它評估了陸軍當前的認知能力方法,并與工業、盟友和對手的方法進行比較。最后,它提供了與認知能力增強相關的潛在機會和威脅的概述,并提出了DOTMLPF-P變化的建議,以促進整個陸軍持久的認知主導文化。
全球信息網絡架構(GINA)是一個語義建模框架,旨在促進特設傳感器資產和指揮與控制系統的整合,因為它們可以通過被稱為矢量關系數據建模的實施方式提供給戰斗空間中的操作人員。為了評估GINA的互操作性和推理能力,開發了一個概念驗證評估,并在真實世界的傳感器數據上進行測試。
正如美國陸軍的多域作戰(MDO)概念所指出的,美國的對手試圖通過在政治、軍事和經濟領域的分層對峙來實現他們的戰略目標,而不是通過沖突來對抗美國軍隊和聯盟伙伴。此外,MDO概念指出,對手可能采用多層跨域對峙--跨越陸地、海洋、空中、太空和網絡空間,在時間、空間和功能上威脅美國和聯盟部隊。反擊這些戰略的中心思想是快速和持續地整合所有領域的戰爭(即融合),跨越時間、空間和能力,以戰勝敵人。
為了實現MDO的執行,聯合軍種、政府機構和多國伙伴之間的互操作性是一個關鍵要求。戰術行動已經越來越依賴于信息網絡的傳感、通信、協調、情報和指揮與控制(C2)。因此,美國陸軍不斷尋求提高其整合網絡系統的能力,并在不同的作戰節奏水平上實現同步效果。從歷史上看,由于沒有足夠的能力來支持現有的和新興的技術和進程,這種整合在以無處不在的物聯網(IoT)和軍事C2系統為特征的不斷發展的網絡化戰斗空間中帶來了技術挑戰。這種限制因不同系統的孤島而進一步加劇,限制了戰術、技術和程序的跨系統使用,以及支持硬件和軟件組件。這些限制使作戰人員面臨不一致和缺失的關鍵任務數據,促使作戰功能在孤立中運作。例如,行動和情報之間的數據交換是有限的,范圍也受到限制,增加了指揮官決策過程中的風險和延誤。
為了實現陸軍網絡現代化,陸軍未來司令部網絡跨職能小組(N-CFT)正在調查通過創新、整體和適應性的信息技術解決方案來實現網絡互操作性的顛覆性方法,以滿足既定的C2互操作性挑戰。根據NCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的研究人員評估了一項名為全球信息網絡架構(GINA)的技術,作為多源傳感器數據融合的系統解決方案,以支持決策。 根據其軟件規格,GINA的目的是減少在互操作和集成方面存在的技術挑戰,并支持及時的共同情報/作戰圖景和決策的情報分析。
目前,語義互操作是一個活躍的研究領域;近十年來,已經開發了一些軍事技術解決方案。語義互操作提供了促進快速整合來自臨時傳感器資產和異質C2系統的信息的手段,因為它們為戰斗空間中的操作人員所了解。這項初步評估表明,GINA能夠整合不同的傳感器系統,并對數據進行同質化和協調,以便在本次評估的實驗場景下提供解釋、分析和推理。在這一評估的基礎上,在與MDO的規模和復雜性相匹配的實地演習或實驗中進行進一步的評估可能是有意義的。具體來說,進一步評估的能力是:1)來自多個部門的傳感器和通信設備之間及時的互操作性;2)連接來自不同結構和標準的盟國、合作伙伴或商業數據流系統;3)豐富、數據分析、推理或增強其他決策支持C2系統;以及4)與其他技術解決方案的比較。
這項評估的綜合分析已經在DEVCOM ARL技術報告ARL-TR-9100中記錄和公布。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
?在日益復雜的軍事行動環境中,下一代兵棋推演平臺可以減少風險,降低作戰成本,并改善整體結果。基于具有多模態交互和可視化能力軟件平臺的新型人工智能(AI)兵棋推演方法,對于提供滿足當前和新興戰爭現實所需的決策靈活性和適應性至關重要。我們強調了未來作戰人-機器交互的三個發展領域:由人工智能引導的決策指導,高計算力下的決策過程,以及決策空間的真實呈現。這些領域的進展將使有效的人機協作決策得以發展,以滿足當今戰斗空間日益增長的規模和復雜性。
關鍵詞:決策、交互、兵棋推演、人工智能、增強/混合現實、可視化
在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并在軍事決策過程(MDMP,方框1)中模擬各種因素的組合如何產生行動方案(COA)、可能的反擊行動、資源使用估計和預測結果(美國陸軍,1997年,2014年,2015年)。在幾天或幾周的時間里,MDMP過程導致了一套精煉的COAs,它對作戰環境做出了一定的假設,包括地形、天氣以及戰區資產的可用性和能力(即塑造支持主要作戰行動的活動)。
方框1. 軍事決策過程(MDMP) | |
---|---|
MDMP是美國陸軍解決問題的理論方法,從接到任務開始,到生成作戰命令結束。MDMP被用作一種工具,幫助指揮人員審查眾多的友軍和敵軍的作戰行動。MDMP的7個步驟在規劃新任務、擴展行動和執行訓練演習所需的決策過程中灌輸徹底、清晰、合理的判斷、邏輯和專業知識(美陸軍,1997年,2015年)。 | |
指揮官在接到任務后啟動了MDMP。在MDMP的第1步中,所有的工作人員和關鍵的任務參與者都被告知任務和待定的規劃要求,包括進行MDMP的可用時間量。確定進行任務分析所需的工具,并收集與任務和作戰區有關的文件。步驟2,執行任務分析,建立對任務的全面理解,包括關鍵的事實和假設,形成擬議的任務說明和任務分析簡報,為制定COA做準備。 | |
MDMP的第3至第6步著重于制定COA以進行分析和比較。這些步驟包括:第3步,制定COA;第4步,COA分析(兵棋推演);第5步,COA比較;第6步,COA批準。COA是對一個已確定的問題的潛在解決方案。每個COA都要使用篩選標準來檢查其有效性,如在既定的時間框架、空間和資源限制內完成任務。COA的選擇過程通常涉及到兵棋推演,它試圖在考慮到友軍力量和敵人能力的情況下,將行動的順序流程可視化,同時考慮到行動區域內平民的影響和要求(美陸軍,2014)。戰術模擬(兵棋推演)方法的好處是突出了作戰行動的優勢和劣勢。這往往是一個反復的過程,對作戰行動方案進行評估,然后根據需要進行修改,直到出現一個或多個具有最高成功概率的作戰行動方案來完成任務目標。 | |
在一個具體的行動方案得到指揮部的批準后,MDMP的最后一步是制作行動指令,這是一份給下屬和鄰近單位的指令,旨在協調所有參與任務的組織的活動。這一步驟涉及到所有受命令傳播影響的組織之間的積極合作,并建立起對局勢的共同理解。 |
盡管MDMP幫助指揮官了解作戰環境和考慮作戰方法,但這個過程有很多局限性,如時間密集、假設僵化、跨場景訓練的機會有限,以及將人工智能(AI)指導納入決策過程的機會很少。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于當今多域作戰(MDO)的復雜性增加(Feickert,2021年),有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人為無法完成的地步。由于MDMP的缺陷而導致的規劃專業知識的缺乏,可能會導致不同步和不協調的行動,從而最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,集成了先進可視化能力的新系統和新技術已經被開發出來,它們可以提高態勢感知,從而增強決策過程。美陸軍的例子包括Nett Warrior(Gilmore,2015),它使下馬戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協同規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個底層的人工智能引擎來提供決策幫助。戰斗空間可視化和交互平臺(BVI,前身為增強現實沙盤,ARES)是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇設備的共同作戰畫面的二維和三維可視化能力(Su等人,2021)。BVI架構的制定是為了拉入外部計算服務,如分析管道、模型和人工智能引擎。美陸軍研究實驗室正在努力將這些類型的服務納入BVI,包括用于加強決策支持的人工智能。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。美陸軍的自動規劃框架(APF)(Bailey,2017)開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策問題。指揮人員可以通過APF的數字規劃呈現、規劃創建和規劃監控工具,在任務規劃和COA開發期間獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF為MDMP引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的先進的可視化和用戶互動能力。
提供地面部隊自動化和用戶可視化能力的是美陸軍最知名的兵棋推演平臺--半自動化部隊(OneSAF),為計算機生成的地面部隊提供建模和模擬能力(PEO_STRI, 2022)。OneSAF提供了半自動和全自動的軍事實體(即士兵、坦克、直升機和綜合單位)的建模,在類似真實世界的戰斗空間中以不同的保真度來支持特定的應用和場景。OneSAF主要用于訓練,并與目前的任務指揮系統具有互操作性。它可以使用多分辨率的地形和詳細的實體相關數據庫來模擬廣泛的作戰環境。然而,OneSAF對地形和實體系統的高保真建模的優勢使得它的設置和運行成本很高。它受到老化系統的限制,而且眾所周知,士兵需要大量的培訓來學習如何操作模擬,使用起來很困難(Ballanco,2019)。OneSAF的復雜功能并不適合開發人工智能能力,以實現快速和敏捷的戰士-機器決策。
除了MDMP和上面提到的陸軍平臺外,最近將人工智能納入決策過程的工作包括一些方法(Goecks等人,2021a),在模擬人類決策過程方面取得了一些成功。一般來說,人工智能在決策變量有限的問題上取得了一些成功,如資源分配(Surdu等人,1999)、飛行模擬器(Drubin,2020)和更簡單的場景。正在進行的挑戰包括需要提高人工智能的能力,以解決有多個行為者、不完整和可能沖突的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度和領域內可視化。
以下各節描述了對MDMP的潛在改進。"未來軍事決策過程所需的進步"一節概述了支持MDO決策的三個研究領域,并以圖表形式描述了這些研究領域與軍事理論決策方法之間的關系。"未來軍事決策過程所需的進步 "一節中的小節對每個研究領域進行了更深入的討論。"展望推進人-人工智能團隊決策的交互技術 "一節概述了未來的作戰人員-機器接口(WMI)的發展方向,重點是與決策有關的人-人工智能團隊的跨學科研究。
軍事決策過程在支持MDO復雜決策方面的局限性,突出了在三個研究領域的改進需要。首先,有必要將人工智能產生的指導和輔助決策支持納入MDMP。這既包括進一步開發和整合人工智能到戰斗空間決策規劃,也包括進一步改善人工智能決策過程的可解釋性和透明度(Chen等人,2018)。第二,有必要在戰略層面以及戰術邊緣,盡可能地將決策分析與高性能計算(HPC)的力量結合起來。這將能夠利用HPC系統的力量來支持建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動表述。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何相互作用的,并利用混合現實技術來提高理解的吞吐量,并產生平面顯示不可能的洞察力。
除了MDMP之外,其他更廣泛適用的支持戰斗性問題解決的軍事理論包括:DOTMLPF[例如,學說、組織、訓練、物資、領導、人員和設施;(美陸軍,2018年)],這是一個確定差距并為當前和未來作戰要求提出設計解決方案的框架;以及METT-TC[例如,任務、敵人、地形和天氣、部隊、可用時間和民事考慮;(美陸軍,2019年)],這是一個結構化框架,用于捕捉任務相關因素的狀態,以便在軍事行動期間進行共享評估。這些理論定義了MDO戰場的信息背景,構成了應用于上述三個研究領域的軍事決策的核心基礎。如圖1所示,在為人類和人工智能指揮開發復雜軍事決策空間的新表述時,研究進展和MDO相關理論相互借鑒、相互啟發、相互加強(美陸軍,2010)。
圖1. 新型作戰人員-機器交互(WMIs)和人工智能輔助決策所需的三個研究發展領域,以支持和加強基本的MDO理論[右下圖來源:Lebsack(2021)]。
需要新的人工智能支持的WMI,以利用人工智能決策方面正在取得的進展,并為復雜的適應性決策的人工智能學習作出貢獻。在簡化的戰斗空間中測試人工智能決策輔助工具是開發過程中重要的第一步,也是將人工智能納入更成熟的戰斗空間平臺(即BVI、OneSAF)的前奏。開發用于決策輔助實驗的人工智能測試平臺可以在MDO中產生能力越來越強的潛在COA建議。圖2顯示了陸軍開發的兩個人工智能測試平臺的例子。
圖2. 兩個ARL人工智能測試平臺的例子。左邊:ARL Battlespace(Hare等人,2021)( //github.com/USArmyResearchLab/ARL_Battlespace )。右邊:ARL的Simple Yeho測試平臺。圖片由C. Hung制作。
人工智能測試平臺能夠開發出匯集所有領域信息的AI,并計算出人類和AI智能體的風險和預期回報。圖2的左側顯示了ARL戰斗空間測試平臺(Hare等人,2021年),它是從頭開始開發復雜決策的新型人工智能的理想場所。它對戰斗空間的抽象強調了軍隊相關場景下的核心推理原則,在這種情況下,用蜜罐進行網絡欺騙。較小的網格空間使人工智能的學習和發展能夠集中在不確定性下的復雜推理,有多個友好和敵對的agent。圖2的右側顯示了ARL的Simple Yeho測試平臺,它提供了將人工智能開發與更多真實世界場景中的默契推理結合起來的能力,有多個基于地形的海拔高度、視線范圍、障礙物、樹葉(隱蔽)、道路和城市區域。紅色陰影和黑色線條表示任務的起點和終點、左右邊界以及人工智能建議的路線。這種額外的真實性使其能夠與MDO理論相結合,包括DOTMLPF和METT-TC,并使人工智能與自然的、機會主義的士兵行為共同發展。這兩個人工智能測試平臺都可以擴展為傳統和沉浸式混合現實WMI開發平臺。
使用漸進式和可擴展的人工智能測試平臺,可以調查現有人工智能的幾個基本限制,特別是對于具有不確定性的復雜和適應性決策,以及人類和AI智能體的協作和對抗。對多智能體的協作和對抗性決策進行建模可能特別復雜,因為其遞歸性質,其他智能體是模型的一部分(Goldman,1973;Grüning和Krueger,2021),需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的交互界面和人工智能測試平臺的人機協作可以提供加速和更有效的決策。對于有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,并幫助人工智能發現決策的隱含規則。下面,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋、國際象棋、Minecraft和大富翁等游戲中的成功(Silver等人,2017;Goecks等人,2021b;Haliem等人,2021)是基于對世界現有狀態有完整了解的游戲(即 "開放 "游戲),而兵棋推演平臺通常包括關于作戰環境的不完整(如星際爭霸)、不確定或欺騙性信息(Vinyals等人,2019)。不確定性也可能來自變化的物理學或其他環境規則,正如在《憤怒的小鳥》中所探索的那樣(Gamage等人,2021)。由于世界狀態、不同行動者的狀態以及所采取的行動不確定性,知識的缺乏使得人工智能agent難以計算未來行動的風險回報情況(Cassenti和Kaplan,2021)。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效的博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(Lavine,2019),即由于信息有限而選擇錯誤的選項,這種情況并不罕見,因為人類在制定有效探索隱藏信息的策略時,采用啟發式方法進行有效的選擇和預測(Gardner,2019)。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策景觀,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠在不施加認知負擔的情況下從人類的決策中機會主義地學習(Lance等人,2020)。這種機會主義學習可以包括:例如,凝視跟蹤,以捕捉吸引人類興趣和意圖的視覺區域和未標記的目標。它們還可以包括建立在自然的士兵選擇行為基礎上的行動者批評方法,以改善人工智能對人類專家在不確定、不完全信息和欺騙的情況下如何優先考慮某些選擇的學習,這取決于任務相關的背景。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度(Gil等人,2018)。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動化的決策,以及實施進攻和防御性欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖景,即可以解釋一小部分最優和接近最優的決策策略(例如,圖3中的決策樹)。這應該包括對關鍵agent在不確定情況下的未來狀態和風險回報情況的估計(Hare等人,2020),以使有效的博弈論決策能夠被共同開發和相互理解。
圖3. 在頂部,是BVI網絡戰術規劃器應用程序中友軍與敵軍戰爭場景的三維視圖。三維視圖提供了一個比二維視圖更真實的決策視角,例如,顯示友軍(藍色)和敵軍(紅色)機載預警系統(AEWs)和周圍地形的海拔。這使得快速審查可能的視線和相對于周圍地形的感應。下面是人工智能的導航決策樹,為人工智能計算的幾個關鍵選擇的風險/回報概況以及它們如何映射到地形上提供透明度。這種抽象的決策空間還可以整合非空間決策,例如網絡欺騙。虛線表示與友方AEW的通信聯系和對敵方AEW的可能干擾。圖片由C. Hung制作。
這些挑戰為有效的WMIs設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)提取信息,以及一個能夠承載整合這些信息的計算能力的架構,同時還要處理基礎的人工智能計算(用于學習和部署)。我們還需要共同開發一個界面和算法設計,以適時地利用人類和人工智能agent的優勢并減少其局限性。
在復雜的決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從積累的動態狀態空間的數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析性的見解,并在決策背景下創建有用的表述。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對HPC服務的非傳統訪問,而不像傳統的HPC環境,計算節點在特定的時間段內以批處理模式分配給用戶。此外,PSF提供對數據、數據庫、容器化工具集和其他托管平臺的分布式連續訪問(Su等人,2021)。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決定。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭性和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用消息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實施人工智能輔助決策機制,利用大數據攝取和分析,同時可供地理分布的用戶用于協作決策工作和 "永遠在線 "的個性化培訓和紅色團隊。連接到PSF托管服務器的各種混合現實顯示模式可以支持一系列作戰場景,從戰略層面的指揮和控制到作戰邊緣的更多移動戰術使用。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境(Dennison等人,2020;Hung等人,2020;Raglin等人,2020)。戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平(Kase等人,2020;Larkin等人,2020;Hung等人,2021)。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供理解復雜的兵棋推演狀態空間所需的洞察力(Su等人,2021)。當需要一個共享的戰斗空間表示時,可以通過在不同的可視化模式上實現多個協調的視圖來實現協作的戰略規劃模式,以根據分布式指揮人員的輸入進行互動更新。
BVI(Garneau等人,2018)平臺表示地理空間地形信息和地圖圖像,允許指揮人員建立和修改戰術任務規劃和COA。作為一個數據服務器,BVI將地形和作戰數據分發給支持多種可視化模式的客戶端應用程序,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
例如,圖3(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景(Wikipedia, 2021)。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化(美國防部,2014)。可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖3,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性。
人工智能和人-人工智能團隊的快速發展需要WMI同步發展。隨著新型人工智能對有價值的COA產生更好的預測,并能更好地處理復雜的決策,它們也必須利用人類的專業知識,學習如何處理具有高度不確定性、欺騙、隱性知識和博弈論的決策。相反,人工智能的推理必須既抽象又能與兵棋推演環境相聯系,以實現透明和信任,同時又不造成過度的認知負擔。基于三維混合現實的WMI可以利用和增強人類固有的三維認知和預測能力(Welchman等人,2005;Kamitani和Tong,2006;Kim等人,2014;Boyce等人,2019;Krokos等人,2019),如果設計得當,其交互將感覺自然,同時擴大顯示多個領域的信息的能力,同時使AI能夠適時地從用戶的決策中學習。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
信息作戰和指揮與控制(C2)是美國陸軍可以向盟友和伙伴提供的兩種能力。在未來的作戰環境中,不僅要為動能作戰做準備,而且要為混合作戰和以信息為重點的戰爭做準備。這需要在復雜和默契推理的人工智能能力方面取得進展,在能夠提供持續訓練、分布式混合決策和大數據分析系統方面取得進展,以及在人與人工智能協作決策和機會主義學習方面取得進展,以實現人工智能的持續進步和人與人工智能的共同適應。這些進展中的每一項都需要跨學科的計劃性努力,以克服復雜的技術挑戰,創造新的決策原則、理論和理論方法,包括持續開發綜合測試平臺和技術,以實現政府、學術界和工業界的合作和協同發展。
美國防戰略(NDS)確定了一個復雜的全球安全環境,其特點是對當前國際秩序的公開挑戰和國家間長期戰略競爭的重新出現。它要求建立一支致命的、靈活的、有彈性的和可快速部署的部隊,以對抗、威懾和贏得對所有對手的勝利。海軍執行CNO的指導,以我們的海上控制和力量投射的核心原則以及前瞻性的艦隊設計概念為中心,開展分布式海上作戰(DMO),提供NDS所需要的強大海上組成部分。作為NDS的組成部分,海軍航空兵強烈關注更新現有能力,使新的先進平臺投入使用,并通過加強戰術和程序來補充今天的作戰能力,以應對高端戰斗。
今天的航母攻擊群(CSG)--以大甲板、核動力航空母艦及其搭載的艦載機聯隊為中心--通過為艦隊指揮官提供多領域的軍事力量來實現這一創新的艦隊設計。艦載機在殺傷力、戰斗空間態勢和機動性方面為任何海上戰場帶來了無可比擬的貢獻,確保了海軍建立和維持海上控制、實現海上優勢和遠距離投射力量的能力。
海軍的固定翼和旋翼飛機、有人和無人飛機構成了世界上分布最廣的航空平臺,為CSG、遠征打擊群(ESG)和水面艦艇提供支持,提供廣泛的支持性任務。
《海軍航空遠景2030-2035年規劃》取代了《海軍航空遠景2025年規劃》,并反映了一些關鍵概念,以滿足CNO對海軍的愿景,即在海面上一擁而上,在每個軸心和每個領域提供同步的致命和非致命努力。
當海軍計劃建立和維持一支致命的、有彈性的部隊時,必須要有一個明確的路線圖,與此同時,也要有一個明確的計劃。
鑒于威脅快速發展,海軍航空必須投資并追求先進的技術和作戰概念,以便在戰爭的戰役層面上取得成功。美國防部長奧斯汀指出:"盡管在過去30年中進行了兵力結構的削減,但聯合部隊有必要的能力和實力來實施國防戰略(NDS)的優先事項并應對今天的威脅。在國會的支持下,國防部將通過繼續投資聯合部隊的戰備和部隊現代化,以及加快對人工智能(AI)、機器學習(ML)和其他先進技術的投資,提高聯合部隊的戰斗潛力。這些投資,加上盟友和合作伙伴的合作,將優化部隊結構,產生一支能夠威懾或擊敗對手的有戰斗力的聯合部隊。"
海軍航空的先進技術包括:
無線電頻率(RF)和紅外線(IR)信號降低技術
增強被動和主動殺傷鏈
載人/無人機組隊(MUM-T)
MUM-T減少了駐扎在CVW內的有人飛機的風險,同時也提高了性能、容量和生存能力。無人機系統(UAS)將在未來的機翼和分布式水面艦隊中扮演不同的角色,如加油、通信中繼、后勤、空中電子攻擊、打擊和ISR&T等任務。
MQ-25將是海軍第一個基于航空母艦的無人平臺,并將增加CVW的殺傷力和覆蓋范圍,作為一個油輪,它具有輔助ISR作用。
MQ-4C "海獅"在2020年1月實現了早期作戰能力(EOC),通過人機和自主團隊提供持久的海上ISR&T。它將按計劃在2023年實現初始作戰能力(IOC)。當與任務管理工具配對時,如Minotaur與IFC 4多信息配置,"海獅"將提供傳感器的敏捷性,以定位、跟蹤、分類、識別和報告感興趣的目標。
MQ-8C "火力偵察兵 "無人機系統將在不久的將來首次部署先進的雷達、Link 16和Minotaur任務系統。
正在推進物資和非物資解決方案,以加強MQ-8、MH-60和瀕海戰斗艦之間的互操作性。納入Link 16的信息傳遞以及Minotaur的整合,將提高分布式水面艦隊的有機瞄準能力,并提高戰斗空間態勢感知。
提高速度和射程--推進器解決方案在為先進任務系統提供動力和冷卻的同時,還能提高速度、射程和續航能力(即可變循環發動機)。
長距離、高容量和高超音速武器--下一代武器不僅要擴大空對空和地對空的覆蓋范圍,而且要同時擊敗機動空中目標和地對空防御。這可以通過增加運動量(即高超音速)和/或其他破壞性技術(如定向能武器)來實現。
減少決策時間--通過納入自動化、最佳機組-機隊交互和利用人工智能(AI)和機器學習(ML)的團隊化有人/無人部隊,推動戰術的簡單化。
電磁機動戰(EMW)能力--對抗敵人殺傷鏈和防空系統的能力。
網絡能力--對抗敵方網絡效應的能力,同時加強網絡能力和平臺。
先進的網絡--海軍戰術網格(NTG),具有彈性的可生存的波形。
福特級航空母艦--設計用于支持這些和其他技術到未來的發展。
在海軍航空部門實現這些技術革新的過程中,與工業界合作是至關重要的。與商業企業合作必須包括對開放架構的明確需求,避免獨特和專有的硬件和軟件,以及開發、測試和實施,推動分段而不是整體的變化。這種聯盟和合作將在正確的時間為正確的理由加速正確的變革。
"我們的武裝部隊作為世界歷史上最有能力的軍隊,已經配備了人員、訓練、裝備,并準備好響應國家的號召。" -美國防部長勞埃德-J-奧斯汀三世
當海軍航空展望未來時,很明顯正面臨著一個快速演變的威脅,需要大量的部隊現代化。領導層必須采取大膽的行動并做出艱難的選擇,以產生在各種沖突中獲勝所需的變化。這將需要重新關注海軍所需的能力、容量、戰備和訓練,以提高和保持作戰優勢。
海軍航空將接受可負擔性。通過明智地應用資源和進化的投資戰略,海軍航空2030-2035年遠景規劃概述了一種在所有戰爭領域提供完整的殺傷鏈的方法,有助于在未來幾年內保證進入、權力投射和海上控制。今天為2035年開發和采購的航空機隊是一個混合體:互補的第四代和第五代飛機;NGAD FOS;有人和無人平臺;以及網狀的傳感器和武器,以確保海軍能夠決定性地擊敗日益先進的近距離威脅。海軍航空兵必須能夠用下一代飛機在更遠的距離和更快的速度對任何目標提供精確的效果。
如果我們堅持這一愿景,海軍航空兵將能夠整合海基和陸基飛機--有人駕駛和無人駕駛--以提供一支持久、靈活、可調整的部隊,具有提供穩定存在、緩和地區緊張局勢或使用武力向我們的對手施加代價的靈活性和響應性。
縱觀其歷史,海軍航空兵一直處于海戰的戰術、作戰和戰略創新的前沿。空軍司令部的設想延續了這一傳統,并保留了海軍航空兵給我們國家帶來的作戰優勢。
隨著美國為大國競爭而重組其軍隊,戰場的有效性將取決于美軍是否有能力超越其近似競爭對手的決策周期。速度是關鍵--軍隊如何快速從其傳感器中收集數據,分析數據,辨別重要信息,將其發送給相關作戰人員并作出最佳反應。一支日益一體化和互操作性的部隊,對共同作戰環境有共同理解,對于軍隊完成能力融合至關重要。
美國防部聯合作戰概念(JWC)描述了全域作戰,并設想了一個聯合殺傷網,它可以通過全域聯合指揮和控制(JADC2)的支持概念,快速有效地將任何傳感器與任何投射能力聯系起來,這就是融合的原則。實現融合要求各軍種之間專注聚焦,確定優先次序并進行協同。美國陸軍將在JADC2中發揮核心作用,因為它為作戰和戰術網絡的發展提供信息;為JWC提供后勤骨干;并在一系列與各部門、機構和國際合作伙伴的合作實驗中測試融合。
議題:隨著美國軍隊為大國競爭而進行的轉型,戰場效率將在很大程度上取決于其超越同行競爭對手決策周期的能力。
聚焦范圍:描述了陸軍和聯合實施JADC2的情況。
觀點:
在2020年以后,美國軍隊必須具有戰略上的敏捷性、反應性和致命性。中國和俄羅斯正在大力投資,以減輕美國在陸地、空中、海上、太空和網絡空間各個領域的能力。
在有可能限制聯合部隊戰略部署和使用其部隊能力的情況下,需要一個現代化的指揮和控制(C2)機構,能夠迅速匯集美國及其盟國的所有能力,以威懾,并在必要時擊敗近鄰和其他競爭對手。
目前的C2項目使用的是幾十年前的平臺,"沒有針對未來沖突的速度、復雜性和殺傷力進行優化"。目前的平臺各軍種不能有效地利用或發送數據、命令給其他軍種,而且它們的結構不能支持實現未來的C2。2018年國防戰略(NDS)強調了C2系統現代化的重要性,指出在退化的環境中未來的戰斗將以速度、更多的自主權和分布式的單位獲勝。
美國防部領導層設想了一個在戰場上沒有界限的未來,圍繞著一個統一的C2系統,其中一個多領域的方法--參與和整合地面、空中、海上、網絡和空間作戰--對于挑戰一個近似的對手是必要的。JWC是一個關鍵的概念,并且正在推動未來的研發和采購,同時也在整合作戰指揮部的審查和服務計劃。因此,該概念的發展是國防部的一個優先事項。
圖:全域聯合指揮與控制(JADC2)通過實時終端用戶報告和協作規劃,協同多個數據源,在國防支持民事當局行動期間,準確地在聯合特遣部隊民事支持(JTF-CS,美軍機構) 可能需要的地方提供支持能力。
注1:聯合作戰概念的四個支持性概念
美國防部JADC2戰略于2021年5月由國防部長勞埃德-奧斯汀批準,闡明了國防部實施JADC2的方法;它將JADC2描述為感知、探測和行動的作戰能力,從而提高從沖突到競爭以及所有領域的互操作性和決策速度。JADC2是一個以數據為中心的持續C2能力框架,它支持JWC,并使聯合部隊能夠迅速匯集有助于威懾的效果,并通過決策優勢使任務取得成功。
JADC2指的是所有聯合C2的實施,包括:
由于速度和規模在未來的戰斗中至關重要,JADC2將建立一個網狀網絡,實時將各部門的數據帶入一個 "可共享的數據湖",將來自所有領域--陸地、空中、海上、太空和網絡空間的傳感器連接起來。利用人工智能軟件、數據庫、處理器和算法,它將把偵察信息轉化為可識別的和優先的目標,比人類分析員更快。目標數據將被發送到處于最佳位置的單位/能力,無論是動能、網絡、電子戰(EW)還是信息作戰(IO)。
JADC2及其網狀網絡可以被看作是一個安全的戰斗互聯網,軍事應用程序在上面進行連接,從所有可用的來源搜尋數據,以迅速將最佳的 "投射 "或 "效應器 "與目標聯系起來。JADC2可以提供無處不在的數據,不同的人類和機械數據可以根據需要使用。歸根結底,JADC2不是一個特定的平臺;它是獲取數據并有效連接。
圖:聯合參謀部的JADC2作戰規劃實驗,允許陸軍、海軍、空軍和海軍陸戰隊的節點共享實時的信息,以實現傳感器與投射的聯系,并將其顯示在一個共同的作戰畫面上(美軍聯合現代化司令部)。
所有軍種都同意需要將JADC2作為一項組織戰略。2020年,陸軍和空軍簽署了一項協議,在2022財政年度(FY22)之前分享數據并制定共同的數據和接口標準;在多次實驗中,他們在這方面取得了成功。此外,陸軍、海軍和空軍在2021年初簽署了一項合作協議,以測試、整合和分享數據開發,以實現JADC2。
陸軍現代化戰略描述了陸軍將如何作戰,用什么作戰以及如何組織起來支持聯合部隊。陸軍致力于發展作戰網絡、技術和概念,通過一系列名為 "項目融合"(PC)的演示和實驗來實現超額匹配并為聯合部隊提供信息。這是一場持續的學習運動,旨在迅速 "融合"所有領域(陸地、空中、海上、太空和網絡空間)的效果,并塑造陸軍的新興理論、組織、訓練、能力、研究和發展以及后勤。
通過實驗和學習,"項目融合"有助于確保軍隊在適當的地方擁有適當的人員、適當的系統、適當的能力,以支持聯合戰斗。——陸軍參謀長詹姆斯-麥康威爾將軍
PC由五個核心要素組成:
每項實驗都通過新的架構、編隊和來自陸軍八個CFT的授權來融合現代化舉措,并深化陸軍現代化舉措的整合。這些努力正在加速2018年國防戰略中概述的現代化戰略,該戰略設想未來的戰斗將在退化的環境中以擁有速度、自主性和分布式能力的單位獲勝。
表:陸軍未來司令部項目融合戰略20-22財年
在亞利桑那州尤馬的 "項目融合2020"(PC20)持續了幾個月,展示了人工智能和機器人技術,包括兩次實彈演示。該實驗由士兵、平民、科學家和工程師設計,在最低作戰水平上測試了融合,以挑戰戰術邊緣的決策過程。其中一項測試使用衛星和無人駕駛航空系統:同時感知空中和地面目標;迅速將數據傳遞給平臺,以打擊目標;并在十幾秒內決定性地摧毀該目標。
圖:2021年10月19日,在亞利桑那州尤馬試驗場,被分配到第82空降師的美國陸軍一等兵丹尼爾-坎達爾斯使用戰術機器人控制器來控制遠征模塊化自主車輛,為 "項目融合"做準備。在2021年項目融合期間,士兵們試驗使用該車輛進行半自主偵察和再補給(美國陸軍中士馬里塔-施瓦布攝)。
對實現JADC2能力的另一個貢獻是陸軍繼續倡導將其從聯合(joint)擴展到 "結合(combined)"--CJADC2--因為任何網絡都需要包括盟友和合作伙伴。陸軍在亞洲和歐洲有著深厚的軍隊間關系,應該站在這種重要努力的最前沿。認識到這一點,陸軍21/22財政年度的PC戰略將參與范圍擴大到了結合伙伴和盟友,增加了指揮層級并使之多樣化,并推動了現代化概念和技術的極限。
注2:項目融合(Project Convergence):項目融合是聯合部隊對速度、射程和決策主導權的實驗,以實現超額完成任務,并為聯合作戰概念和全域聯合指揮與控制提供信息。作為一場學習運動,它利用一系列聯合的、多領域的交戰來整合人工智能、機器人技術和自主性,以提高戰場態勢感知,將傳感器與投射連接起來,并加快決策的時間線。因為誰能最先看到、了解并采取行動,誰就能獲勝。
注3:項目融合的五個核心要素
JADC2要求國防部和陸軍進行轉型,特別是在數據管理和共享、網絡支持能力、人工智能在決策周期中的作用以及為實現這些變化而對部隊結構進行調整。陸軍現代化戰略及其現代化優先事項是持續轉型的框架,以使陸軍能夠在多個領域進行部署與聚合效應。
注4:軍隊現代化的優先事項六大任務
一個用于C2的綜合戰斗管理系統需要在數據共享和標準化數據共享接口方面進行通信;然而,許多遺留系統包含數據共享障礙。2021年初,各軍種之間開始認真工作,制定數據標準以連接他們的JADC2項目,并通過 "發現、理解和與所有領域、梯隊和安全級別的合作伙伴交換數據 "來克服這些障礙。
陸軍的網絡CFT正在試驗網絡的現代化,以實現聯合接口、彈性和能力。它的重點是加強地面領域的數據和網絡傳輸能力,連接人工智能和機器學習(AI/ML),開發戰術云和邊緣計算。
國防部正在制定和實施一套初步的實驗和原型設計的核心原則,以統一國家安全事業。聯合部隊已經確定了幾個原型能力,通過將真實世界的威脅數據納入響應計算,在即將舉行的演習中進行測試。陸軍聯合現代化司令部建立了聯合系統集成實驗室(JSIL)--一個使用持久性環境場景的實驗網絡,允許各軍種、工業界和盟友通過幾個網絡測試數據共享能力。這將有助于對JADC2戰略進行可靠的評估。
由美國太空發展局管理的低地球軌道(LEO)衛星將整合各軍種的戰術網絡,以創建一個網狀網絡的傳輸層。計劃于2022年部署的近30顆衛星將提供一種 "作戰人員沉浸 "能力,其中傳感器、投射和戰術網絡可以與戰術通信連接。PC22將利用這些衛星,開發低地軌道能力。
人工智能國家安全委員會報告稱,國防部有必要在2025年前采用、實施人工智能并為其提供資源。人工智能/ML--陸軍的一個優先研究領域--對于在聯合、全域作戰中實現聯合戰場管理系統至關重要。人工智能的進步提高了對新出現的威脅的反應速度和敏捷性,使指揮官和工作人員能夠將精力集中在加速、優化決策上。
建設網絡安全基礎設施是陸軍網絡計劃的一個關鍵方面,它將為統一的網絡帶來速度、訪問和安全。在平衡這些要求的同時,美國網絡司令部正在與行業伙伴密切合作,擴大用于在國防部、情報界和商業網絡之間傳遞數據的安全共享工具,而不存在被破壞的風險。
圖:作為 "項目融合2020"的一部分,飛馬系列戰術自主系統的一部分在尤馬試驗場進行測試。飛馬系統有能力為無人駕駛航空系統(UAS)、地面行駛履帶式車輛,提供監視能力或創建一個地區的豐富詳細的三維地圖。
決策主導權--在技術和融合的作用下更快地做出更好的決策的能力--將使美國軍隊從其對手中脫穎而出。JADC2有助于實現信息主導權,并促進快速融合,實現速度關鍵優勢,這是未來AI/ML競爭的基礎。
目前,每個軍種都在其各自領域內管理C2的復雜性。隨著戰爭的特點變得越來越復雜,聯合部隊必須同時有效地整合五個領域。這需要新的C2方法。JADC2是建立一支能夠完成國防戰略目標的聯合部隊的基礎。國會的支持、持續的資助和軍種間的合作對于成功實施JWC和JADC2至關重要。
陸軍在實現這一聯合網絡的技術、創新和實驗方面處于領先地位。它的PC學習運動已經證明了它有能力使用新興技術和創新概念來實現軍種間和跨域的融合。陸軍的未來司令部、CFTs、作戰能力發展司令部和軟件工廠正在結合士兵的經驗、工業界的資源和科學家的專業知識來發展和提供未來的戰斗力量。通過實驗和聯合協作,陸軍正在使JADC2成為現實,從而增強戰略競爭中的威懾力和沖突中的超強戰斗力。
美國陸軍協會是一個非營利性的教育和專業發展協會,為美國的全部軍隊、士兵、陸軍文職人員和他們的家屬、行業伙伴以及強大國防的支持者服務。美國陸軍協會為陸軍提供聲音,支持士兵。