本報告記錄了通過利用深度學習(DL)和模糊邏輯在空間和光譜領域之間整合信息,來加強多模態傳感器融合的研究成果。總的來說,這種方法通過融合不同的傳感器數據豐富了信息獲取,這對情報收集、數據傳輸和遙感信息的可視化產生了積極的影響。總體方法是利用最先進的數據融合數據集,為并發的多模態傳感器數據實施DL架構,然后通過整合模糊邏輯和模糊聚合來擴展這些DL能力,以擴大可攝入信息的范圍。這項研究取得的幾項進展包括:
出版物[1, 2, 3, 4, 5]進一步詳細介紹了取得的進展。
城市環境的特點,如規模、密度和復雜性,可能使美國陸軍相對于對手的國家或非國家行為者處于不利地位。由于作戰環境的獨特考慮,一個軍團塑造深度戰斗的能力可能會被削弱。如果是這樣的話,軍隊為大規模作戰行動做準備的要求表明,理論中現有的戰術框架可能不足以讓軍團在可接受的后果下滿足未來城市作戰的要求。
本研究使用兩個歷史案例研究了軍團規劃者在城市環境中的作戰藝術應用。盡管大多數文獻都認為在城市中作戰是不可取的,但人口、環境和地緣政治趨勢表明,軍團規劃人員必須擁有必要的認知工具來為指揮官準備城市環境中的選擇。對1989年奪取巴拿馬城的戰役(Just Cause行動)進行有組織的、有重點的比較表明,作戰藝術的要素仍然適用于軍團一級的城市作戰。規劃者仍然必須考慮作戰環境的獨特特點,就像任何作戰地區一樣,以使下屬各師取得成功。
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
認知型雷達,根據IEEE標準雷達定義686[1],是 "在某種意義上顯示智能的雷達系統,根據不斷變化的環境和目標場景調整其操作和處理"。特別是,嵌入認知型雷達的主動和被動傳感器使其能夠感知/學習動態變化的環境,如目標、雜波、射頻干擾和地形圖。為了達到探測、跟蹤和分類等任務的優化性能,認知雷達中的控制器實時適應雷達結構并調整資源分配策略[2, 3, 4]。對于廣泛的應用,已經提出了不同的適應技術和方法,例如,自適應重訪時間調度、波形選擇、天線波束模式和頻譜共享,以推進認知雷達背景下的數學基礎、評估和評價[5, 6, 7, 8, 9, 10]。
雖然認知方法和技術在提高雷達性能方面取得了很大進展,但認知雷達設計和實施的一個關鍵挑戰是它與最終用戶的互動,即如何將人納入決策和控制的圈子。在國家安全和自然災害預報等關鍵情況下,為了提高決策質量和增強態勢感知(SA),將人類的認知優勢和專業知識納入其中是必不可少的。例如,在電子戰(EW)系統中,在設計適當的反措施之前,需要探測到對手的雷達。在這種情況下,戰役的進程和成功取決于對一個小細節的觀察或遺漏,僅靠傳感器的自動決策可能是不夠的,有必要將人納入決策、指揮和控制的循環中。
在許多應用中,人類也充當了傳感器的角色,例如,偵察員監測一個感興趣的現象(PoI)以收集情報。在下一代認知雷達系統中,最好能建立一個框架來捕捉基于人類的信息來源所建議的屬性,這樣,來自物理傳感器和人類的信息都可以被用于推理。然而,與傳統的物理傳感器/機器4的客觀測量不同,人類在表達他們的意見或決定時是主觀的。人類決策的建模和分析需要考慮幾個因素,包括人類的認知偏差、處理不確定性和噪音的機制以及人類的不可預測性,這與僅由機器代理組成的決策過程不同。
已經有研究工作利用信號處理和信息融合的理論來分析和納入決策中的人類特定因素。在[11]中,作者采用了先驗概率的量化來模擬人類在貝葉斯框架下進行分類感知而不是連續觀察的事實,以進行協作決策。在[12,13]中,作者研究了當人類代理人被假定使用隨機閾值進行基于閾值的二元決策時的群體決策性能。考慮到人類受到起點信念的影響,[14]中研究了數據的選擇、排序和呈現對人類決策性能的影響。在人類協作決策范式中,已經開發了不同的方案和融合規則來改善人類人群工作者的不可靠和不確定性[15, 16]。此外,在[17,18]中,作者將前景理論(PT)用于描述人類的認知偏見,如風險規避,并研究了現實環境中的人類決策行為。在[19, 20]中也探討了基于人類和機器的信息源在不同場景下的信息融合。在[19]中,作者表明,人類的認知力量可以利用多媒體數據來更好地解釋數據。一個用戶細化階段與聯合實驗室主任(JDL)融合模型一起被利用,以在決策中納入人類的行為因素和判斷[20]。
未來的戰場將需要人類和機器專業知識的無縫整合,他們同時在同一個環境模型中工作,以理解和解決問題。根據[21],人類在隨機應變和使用靈活程序、行使判斷和歸納推理的能力方面超過了機器。另一方面,機器在快速反應、存儲大量信息、執行常規任務和演繹推理(包括計算能力)方面勝過人類。未來雷達系統中的高級認知尋求建立一種增強的人機共生關系,并將人類的優點與機器的優點融合在一起[22]。在本章中,我們概述了這些挑戰,并重點討論了三個具體問題:i)人類決策與來自物理傳感器的決策的整合,ii)使用行為經濟學概念PT來模擬人類在二元決策中的認知偏差,以及iii)在相關觀測下半自主的二元決策的人機協作。
本章的其余部分組織如下。在第11.1節中,我們介紹了一項工作,說明如何將人類傳感器的存在納入統計信號處理框架中。我們還推導出當人類擁有機器無法獲得的輔助/側面信息時,這種人機一體化系統的漸進性能。我們采用行為經濟學的概念前景理論來模擬人類的認知偏差,并在第11.2節中研究人類在二元假設檢驗框架下的決策行為。第11.3節討論了一種新的人機協作范式來解決二元假設檢驗問題,其中人的知識和機器的觀察的依賴性是用Copula理論來描述的。最后,我們在第11.4節中總結了與這個問題領域相關的當前挑戰和一些研究方向,然后在第11.5節中總結。
美國防部負責研究和工程的副部長辦公室(Alexandria, VA)成立了美國防部健康和人類表現生物技術委員會(BHPC)研究小組,以持續評估生物技術的研究和發展。BHPC小組評估了具有潛在軍事用途的改善健康和性能的科學進展;確定了相應的風險和機會以及倫理、法律和社會影響;并向高級領導層提供了為未來美國部隊減輕對抗性威脅和最大化機會的建議。在BHPC執行委員會的指導下,BHPC研究小組進行了為期一年的評估,題為 "2050年的半機械士兵:人/機融合和對國防部未來的影響"。這項工作的主要目的是預測和評估在未來30年內與人體結合的機器對軍事的影響,以增強和提高人類的表現。本報告總結了這一評估和發現;確定了該領域新技術的四個潛在軍事用途;并評估了它們對美國防部組織結構、作戰人員的理論和戰術以及與美國盟友和民間社會的互操作性的影響。
美國防部健康和人類表現生物技術委員會(BHPC,弗吉尼亞州亞歷山大)研究小組調查了與協助和提高人類在許多領域的表現有關的廣泛的當前和新興技術。該小組利用這些信息開發了一系列小故事,作為討論和分析的案例,包括可行性;軍事應用;以及倫理、法律和社會影響(ELSI)的考慮。最終,該小組選擇了四個場景,認為它們在2050年或更早之前在技術上是可行的。以下是與軍事需求相關的場景,并提供了超越目前軍事系統的能力:
對成像、視覺和態勢感知的眼球增強。
通過光遺傳體衣傳感器網恢復和編程肌肉控制。
用于通信和保護的聽覺增強。
直接增強人腦的神經,實現雙向數據傳輸。
盡管這些技術中的每一項都有可能逐步提高超出正常人類基線的性能,但BHPC研究小組分析認為,開發直接增強人腦神經的雙向數據傳輸技術將為未來的軍事能力帶來革命性的進步。據預測,這項技術將促進人與機器之間以及人與人之間通過腦與腦之間的互動的讀/寫能力。這些互動將允許作戰人員與無人駕駛和自主系統以及其他人類直接溝通,以優化指揮和控制系統和行動。人類神經網絡和微電子系統之間直接交換數據的潛力可以徹底改變戰術戰士的通信,加快整個指揮系統的知識轉移,并最終驅散戰爭的 "迷霧"。通過神經硅接口對人腦進行直接的神經強化,可以改善目標的獲取和接觸,并加速防御和進攻系統。
盡管直接神經控制所帶來的軍事硬件控制、增強的態勢感知和更快的數據同化將從根本上改變2050年的戰場,但其他三種半機械人技術也可能以某種形式被作戰人員和民間社會采用。BHPC研究小組預測,人類/機器增強技術將在2050年之前廣泛使用,并將穩步成熟,這主要是由民用需求和強大的生物經濟推動的,而生物經濟在今天的全球市場上處于最早的發展階段。全球醫療保健市場將推動人類/機器增強技術,主要是為了增強因受傷或疾病而喪失的功能,國防應用可能不會在后期階段推動市場發展。BHPC研究小組預計,逐步引入有益的恢復性機械人技術將在一定程度上使人們適應其使用。
BHPC研究小組預測,在2050年之后的幾年里,將增強的人類引入普通人群、美國防部現役人員和近似的競爭對手,并將導致既定法律、安全和道德框架的不平衡、不平等和不公平。這些技術中的每一項都將為終端用戶提供某種程度的性能改進,這將擴大增強和未增強的個人和團隊之間的性能差距。BHPC研究小組分析了案例研究并提出了一系列問題,以推動其對國防部計劃、政策和行動的影響評估。以下是由此產生的建議(不按優先順序排列):
1.美國防部人員必須對社會對人/機增強技術的認識和看法進行全球評估。在美國存在一種普遍的看法,即我們的對手更有可能采用美國民眾因道德問題而不愿或不愿意使用的技術。然而,對手對這些技術的態度從未被證實過。引入新技術后的社會憂慮會導致意料之外的政治障礙,并減緩國內的采用,而不考慮價值或現實的風險。對全球態度的評估將預測在哪些地方可能因為社會政治障礙而難以引進新技術,以及在哪些地方對手采用抵消技術可能會更容易被接受。
2.美國領導層應利用現有的和新開發的論壇(如北約)來討論在接近2050年時對盟國伙伴互操作性的影響。這將有助于制定政策和實踐,使部隊的互操作性最大化。機械人技術的快速發展速度對軍隊的互操作性有影響。美國防部要求在北約和其他全球聯盟框架內與盟國伙伴保持互操作性,這就需要努力使半機械人資產與現有的盟國伙伴關系理論保持一致。
3.美國防部應投資發展其控制下的動態法律、安全和道德框架,以預測新興技術。由于這些技術在美國和世界其他國家(盟國和敵國)的發展速度,目前的法律、安全和道德框架是不夠的。因此,國防部應支持制定具有前瞻性的政策(內部和外部),以保護個人隱私,維持安全,并管理個人和組織的風險,同時使美國及其盟友和資產的明確利益最大化。由于國家安全技術的操作化是國防部任務的核心,這些框架的結構應該是靈活的,并對美國國內或其他地方開發的新技術做出反應。
4.應努力扭轉關于增強技術的負面文化敘述。在流行的社會和開源媒體、文學和電影中,使用機器來增強人類的身體狀況,在娛樂的名義下得到了扭曲的和反社會的敘述。一個更現實、更平衡(如果不是更積極)的敘述,以及政府對技術采用的透明度,將有助于更好地教育公眾,減輕社會的憂慮,并消除對這些新技術的有效采用的障礙。一個更加知情的公眾也將有助于闡明有效的社會關注,如那些圍繞隱私的關注,以便國防部人員可以盡可能地制定緩解策略。雖然這不是國防部的固有任務,但國防部領導層應該明白,如果這些技術要投入使用,需要克服公眾和社會的負面看法。
5.美國防部人員應進行桌面兵棋推演和有針對性的威脅評估,以確定盟軍和敵軍的理論和戰術。兵棋推演是衡量不對稱技術對戰術、技術和程序影響的既定機制。探討美國或其對手整合和使用人類/機器技術的各種場景的桌面演習將預測抵消優勢,確定北約和其他盟國組織的互操作性摩擦點,并告知高級軍事戰略家和科技投資者。國防部人員應利用對這一新興領域有針對性的情報評估來支持這些努力。
6.美國政府應支持努力建立一個全國性的人/機增強技術的方法,而不是整個政府的方法。聯邦和商業在這些領域的投資是不協調的,并且正在被中國的研究和開發努力所超越,這可能導致美國在本研究的預計時間框架內失去在人/機增強技術方面的主導地位。在商業領域接近同行的主導地位將使美國在國防領域的利益處于劣勢,并可能導致到2050年在人/機增強領域的劣勢被抵消。為保持美國在半機械人技術方面的主導地位而做出的國家努力符合國防部和國家的最佳利益。
7.美國防部應支持基礎研究,在投入使用前驗證人/機融合技術,并跟蹤其長期安全性和對個人和團體的影響。人機融合帶來的好處將是巨大的,通過恢復因疾病或受傷而喪失的任何功能,將對人類的生活質量產生積極影響。軍事界也將看到影響行動和訓練的能力機會。隨著這些技術的發展,科學和工程界必須謹慎行事,最大限度地發揮其潛力,并關注我們社會的安全。在這些領域的相應投資將致力于減少這些技術的誤用或意外后果。
本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。
同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。
本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。
美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。
2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。
在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。
在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。
簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。
美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。
隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。
到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。
DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。
ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。
作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。
在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:
DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?
我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?
在人工智能支持的C2系統中,人類的干預有什么影響?
該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。
作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。
圖1 C2基礎設施概述
虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。
圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。
星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。
作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。
圖3 《星際爭霸II》中的虎爪地圖
虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。
我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。
圖4 《星際爭霸II》編輯器中的初始虎爪地圖
在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。
距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。
圖5 修改后的《星際爭霸II》編輯地圖
最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。
為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。
首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。
表1 虎爪部隊與《星際爭霸II》部隊的映射關系
為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。
修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。
圖6 使用MILSTD2525符號的星際爭霸II
獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。
我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。
為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。
圖7 《星際爭霸II》中的區域和目標
觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。
事件。啟動觸發器(例如,一個單位進入一個區域)。
變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。
條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。
行動。事件的結果或成果(例如,單位獲得積分)。
圖8 《星際爭霸II》中虎爪場景的觸發實例
作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。
OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。
強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。
對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。
圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架
DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。
同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。
利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。
我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。
在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。
圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。
圖10 《星際爭霸II》的狀態輸入處理
表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵
A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。
圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。
我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。
我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。
圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。
為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。
政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。
觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。
表3 OpSim模擬的觀察空間、行動空間和獎賞
訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。
圖13 主題專家和人工智能指揮員之間的實體損失比較
圖14 一次推廣的開始和結束的快照
作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。
初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。
態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。
該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。
隨著美國為大國競爭而重組其軍隊,戰場的有效性將取決于美軍是否有能力超越其近似競爭對手的決策周期。速度是關鍵--軍隊如何快速從其傳感器中收集數據,分析數據,辨別重要信息,將其發送給相關作戰人員并作出最佳反應。一支日益一體化和互操作性的部隊,對共同作戰環境有共同理解,對于軍隊完成能力融合至關重要。
美國防部聯合作戰概念(JWC)描述了全域作戰,并設想了一個聯合殺傷網,它可以通過全域聯合指揮和控制(JADC2)的支持概念,快速有效地將任何傳感器與任何投射能力聯系起來,這就是融合的原則。實現融合要求各軍種之間專注聚焦,確定優先次序并進行協同。美國陸軍將在JADC2中發揮核心作用,因為它為作戰和戰術網絡的發展提供信息;為JWC提供后勤骨干;并在一系列與各部門、機構和國際合作伙伴的合作實驗中測試融合。
議題:隨著美國軍隊為大國競爭而進行的轉型,戰場效率將在很大程度上取決于其超越同行競爭對手決策周期的能力。
聚焦范圍:描述了陸軍和聯合實施JADC2的情況。
觀點:
在2020年以后,美國軍隊必須具有戰略上的敏捷性、反應性和致命性。中國和俄羅斯正在大力投資,以減輕美國在陸地、空中、海上、太空和網絡空間各個領域的能力。
在有可能限制聯合部隊戰略部署和使用其部隊能力的情況下,需要一個現代化的指揮和控制(C2)機構,能夠迅速匯集美國及其盟國的所有能力,以威懾,并在必要時擊敗近鄰和其他競爭對手。
目前的C2項目使用的是幾十年前的平臺,"沒有針對未來沖突的速度、復雜性和殺傷力進行優化"。目前的平臺各軍種不能有效地利用或發送數據、命令給其他軍種,而且它們的結構不能支持實現未來的C2。2018年國防戰略(NDS)強調了C2系統現代化的重要性,指出在退化的環境中未來的戰斗將以速度、更多的自主權和分布式的單位獲勝。
美國防部領導層設想了一個在戰場上沒有界限的未來,圍繞著一個統一的C2系統,其中一個多領域的方法--參與和整合地面、空中、海上、網絡和空間作戰--對于挑戰一個近似的對手是必要的。JWC是一個關鍵的概念,并且正在推動未來的研發和采購,同時也在整合作戰指揮部的審查和服務計劃。因此,該概念的發展是國防部的一個優先事項。
圖:全域聯合指揮與控制(JADC2)通過實時終端用戶報告和協作規劃,協同多個數據源,在國防支持民事當局行動期間,準確地在聯合特遣部隊民事支持(JTF-CS,美軍機構) 可能需要的地方提供支持能力。
注1:聯合作戰概念的四個支持性概念
美國防部JADC2戰略于2021年5月由國防部長勞埃德-奧斯汀批準,闡明了國防部實施JADC2的方法;它將JADC2描述為感知、探測和行動的作戰能力,從而提高從沖突到競爭以及所有領域的互操作性和決策速度。JADC2是一個以數據為中心的持續C2能力框架,它支持JWC,并使聯合部隊能夠迅速匯集有助于威懾的效果,并通過決策優勢使任務取得成功。
JADC2指的是所有聯合C2的實施,包括:
由于速度和規模在未來的戰斗中至關重要,JADC2將建立一個網狀網絡,實時將各部門的數據帶入一個 "可共享的數據湖",將來自所有領域--陸地、空中、海上、太空和網絡空間的傳感器連接起來。利用人工智能軟件、數據庫、處理器和算法,它將把偵察信息轉化為可識別的和優先的目標,比人類分析員更快。目標數據將被發送到處于最佳位置的單位/能力,無論是動能、網絡、電子戰(EW)還是信息作戰(IO)。
JADC2及其網狀網絡可以被看作是一個安全的戰斗互聯網,軍事應用程序在上面進行連接,從所有可用的來源搜尋數據,以迅速將最佳的 "投射 "或 "效應器 "與目標聯系起來。JADC2可以提供無處不在的數據,不同的人類和機械數據可以根據需要使用。歸根結底,JADC2不是一個特定的平臺;它是獲取數據并有效連接。
圖:聯合參謀部的JADC2作戰規劃實驗,允許陸軍、海軍、空軍和海軍陸戰隊的節點共享實時的信息,以實現傳感器與投射的聯系,并將其顯示在一個共同的作戰畫面上(美軍聯合現代化司令部)。
所有軍種都同意需要將JADC2作為一項組織戰略。2020年,陸軍和空軍簽署了一項協議,在2022財政年度(FY22)之前分享數據并制定共同的數據和接口標準;在多次實驗中,他們在這方面取得了成功。此外,陸軍、海軍和空軍在2021年初簽署了一項合作協議,以測試、整合和分享數據開發,以實現JADC2。
陸軍現代化戰略描述了陸軍將如何作戰,用什么作戰以及如何組織起來支持聯合部隊。陸軍致力于發展作戰網絡、技術和概念,通過一系列名為 "項目融合"(PC)的演示和實驗來實現超額匹配并為聯合部隊提供信息。這是一場持續的學習運動,旨在迅速 "融合"所有領域(陸地、空中、海上、太空和網絡空間)的效果,并塑造陸軍的新興理論、組織、訓練、能力、研究和發展以及后勤。
通過實驗和學習,"項目融合"有助于確保軍隊在適當的地方擁有適當的人員、適當的系統、適當的能力,以支持聯合戰斗。——陸軍參謀長詹姆斯-麥康威爾將軍
PC由五個核心要素組成:
每項實驗都通過新的架構、編隊和來自陸軍八個CFT的授權來融合現代化舉措,并深化陸軍現代化舉措的整合。這些努力正在加速2018年國防戰略中概述的現代化戰略,該戰略設想未來的戰斗將在退化的環境中以擁有速度、自主性和分布式能力的單位獲勝。
表:陸軍未來司令部項目融合戰略20-22財年
在亞利桑那州尤馬的 "項目融合2020"(PC20)持續了幾個月,展示了人工智能和機器人技術,包括兩次實彈演示。該實驗由士兵、平民、科學家和工程師設計,在最低作戰水平上測試了融合,以挑戰戰術邊緣的決策過程。其中一項測試使用衛星和無人駕駛航空系統:同時感知空中和地面目標;迅速將數據傳遞給平臺,以打擊目標;并在十幾秒內決定性地摧毀該目標。
圖:2021年10月19日,在亞利桑那州尤馬試驗場,被分配到第82空降師的美國陸軍一等兵丹尼爾-坎達爾斯使用戰術機器人控制器來控制遠征模塊化自主車輛,為 "項目融合"做準備。在2021年項目融合期間,士兵們試驗使用該車輛進行半自主偵察和再補給(美國陸軍中士馬里塔-施瓦布攝)。
對實現JADC2能力的另一個貢獻是陸軍繼續倡導將其從聯合(joint)擴展到 "結合(combined)"--CJADC2--因為任何網絡都需要包括盟友和合作伙伴。陸軍在亞洲和歐洲有著深厚的軍隊間關系,應該站在這種重要努力的最前沿。認識到這一點,陸軍21/22財政年度的PC戰略將參與范圍擴大到了結合伙伴和盟友,增加了指揮層級并使之多樣化,并推動了現代化概念和技術的極限。
注2:項目融合(Project Convergence):項目融合是聯合部隊對速度、射程和決策主導權的實驗,以實現超額完成任務,并為聯合作戰概念和全域聯合指揮與控制提供信息。作為一場學習運動,它利用一系列聯合的、多領域的交戰來整合人工智能、機器人技術和自主性,以提高戰場態勢感知,將傳感器與投射連接起來,并加快決策的時間線。因為誰能最先看到、了解并采取行動,誰就能獲勝。
注3:項目融合的五個核心要素
JADC2要求國防部和陸軍進行轉型,特別是在數據管理和共享、網絡支持能力、人工智能在決策周期中的作用以及為實現這些變化而對部隊結構進行調整。陸軍現代化戰略及其現代化優先事項是持續轉型的框架,以使陸軍能夠在多個領域進行部署與聚合效應。
注4:軍隊現代化的優先事項六大任務
一個用于C2的綜合戰斗管理系統需要在數據共享和標準化數據共享接口方面進行通信;然而,許多遺留系統包含數據共享障礙。2021年初,各軍種之間開始認真工作,制定數據標準以連接他們的JADC2項目,并通過 "發現、理解和與所有領域、梯隊和安全級別的合作伙伴交換數據 "來克服這些障礙。
陸軍的網絡CFT正在試驗網絡的現代化,以實現聯合接口、彈性和能力。它的重點是加強地面領域的數據和網絡傳輸能力,連接人工智能和機器學習(AI/ML),開發戰術云和邊緣計算。
國防部正在制定和實施一套初步的實驗和原型設計的核心原則,以統一國家安全事業。聯合部隊已經確定了幾個原型能力,通過將真實世界的威脅數據納入響應計算,在即將舉行的演習中進行測試。陸軍聯合現代化司令部建立了聯合系統集成實驗室(JSIL)--一個使用持久性環境場景的實驗網絡,允許各軍種、工業界和盟友通過幾個網絡測試數據共享能力。這將有助于對JADC2戰略進行可靠的評估。
由美國太空發展局管理的低地球軌道(LEO)衛星將整合各軍種的戰術網絡,以創建一個網狀網絡的傳輸層。計劃于2022年部署的近30顆衛星將提供一種 "作戰人員沉浸 "能力,其中傳感器、投射和戰術網絡可以與戰術通信連接。PC22將利用這些衛星,開發低地軌道能力。
人工智能國家安全委員會報告稱,國防部有必要在2025年前采用、實施人工智能并為其提供資源。人工智能/ML--陸軍的一個優先研究領域--對于在聯合、全域作戰中實現聯合戰場管理系統至關重要。人工智能的進步提高了對新出現的威脅的反應速度和敏捷性,使指揮官和工作人員能夠將精力集中在加速、優化決策上。
建設網絡安全基礎設施是陸軍網絡計劃的一個關鍵方面,它將為統一的網絡帶來速度、訪問和安全。在平衡這些要求的同時,美國網絡司令部正在與行業伙伴密切合作,擴大用于在國防部、情報界和商業網絡之間傳遞數據的安全共享工具,而不存在被破壞的風險。
圖:作為 "項目融合2020"的一部分,飛馬系列戰術自主系統的一部分在尤馬試驗場進行測試。飛馬系統有能力為無人駕駛航空系統(UAS)、地面行駛履帶式車輛,提供監視能力或創建一個地區的豐富詳細的三維地圖。
決策主導權--在技術和融合的作用下更快地做出更好的決策的能力--將使美國軍隊從其對手中脫穎而出。JADC2有助于實現信息主導權,并促進快速融合,實現速度關鍵優勢,這是未來AI/ML競爭的基礎。
目前,每個軍種都在其各自領域內管理C2的復雜性。隨著戰爭的特點變得越來越復雜,聯合部隊必須同時有效地整合五個領域。這需要新的C2方法。JADC2是建立一支能夠完成國防戰略目標的聯合部隊的基礎。國會的支持、持續的資助和軍種間的合作對于成功實施JWC和JADC2至關重要。
陸軍在實現這一聯合網絡的技術、創新和實驗方面處于領先地位。它的PC學習運動已經證明了它有能力使用新興技術和創新概念來實現軍種間和跨域的融合。陸軍的未來司令部、CFTs、作戰能力發展司令部和軟件工廠正在結合士兵的經驗、工業界的資源和科學家的專業知識來發展和提供未來的戰斗力量。通過實驗和聯合協作,陸軍正在使JADC2成為現實,從而增強戰略競爭中的威懾力和沖突中的超強戰斗力。
美國陸軍協會是一個非營利性的教育和專業發展協會,為美國的全部軍隊、士兵、陸軍文職人員和他們的家屬、行業伙伴以及強大國防的支持者服務。美國陸軍協會為陸軍提供聲音,支持士兵。
低速、慢速和小型 (LSS) 飛行平臺的普及給國防和安全機構帶來了新的快速增長的威脅。因此,必須設計防御系統以應對此類威脅。現代作戰準備基于在高保真模擬器上進行的適當人員培訓。本報告的目的是考慮到各種商用 LSS 飛行器,并從不同的角度定義 LSS 模型,以便模型可用于LSS 系統相關的分析和設計方面,及用于抵制LSS系統(包括探測和中和)、作戰訓練。在北約成員國之間提升 LSS 能力并將 LSS 擴展到現有分類的能力被認為是有用和有益的。
【報告概要】
在安全受到威脅的背景下考慮小型無人機系統 (sUAS)(通常稱為無人機)時,從物理和動態的角度進行建模和仿真遇到了一些獨特的挑戰和機遇。
無人機的參數化定義包括以下幾類:
描述無人機飛行動力學的分析模型在數學上應該是合理的,因為任務能力在很大程度上取決于車輛配置和行為。
考慮到剛體在空間中的運動動力學需要一個固定在剛體本身的參考系來進行合適的力學描述,并做出一些假設(例如,剛體模型、靜止大氣和無擾動、對稱機身和作用力在重心處),可以為 sUAV 的飛行動力學開發牛頓-歐拉方程。
在檢測 sUAS 時,必須考慮幾個現象,例如可見波范圍內外的反射、射頻、聲學以及相關技術,如被動和主動成像和檢測。
由于需要多個傳感器檢測 sUAS,因此有必要考慮識別的參數以便針對不同類型的檢測器對特征進行建模。此外,對多個傳感器的依賴還需要在信息融合和集成學習方面取得進步,以確保從完整的態勢感知中獲得可操作的情報。
無人機可探測性專家會議表明了對雷達特征以及不同無人機、雷達和場景的聲學特征進行建模的可能性,以補充實驗數據并幫助開發跟蹤、分類和態勢感知算法。此外,雷達場景模擬的適用性及其在目標建模和特征提取中的潛在用途已得到證實。
然而,由于市場上無人機的復雜性和可變性以及它們的不斷增強,就其物理和動態特性對無人機簽名進行清晰的建模似乎并不容易。
sUAS 特性的復雜性和可變性使得很難完成定義適合在仿真系統中使用的模型的任務。這是由于無人機本身的幾個參數,以及考慮到無人機的所有機動能力和特性所需的飛行動力學方程的復雜性。
此外,sUAS 特性的復雜性和可變性不允許定義用于評估相關特征的參數模型。
圖1 無人機類別與其他類別/參數的關系(part 1)
圖2 無人機類別與其他類別/參數的關系(part 2)
圖3 參考坐標系
【報告目錄】