由于其復雜性,城市地區對于地面戰來說是一個具有挑戰性的多維環境。最近的技術進步使軍隊能夠利用不同大小的無人地面車輛(UGV)來支持各種任務。本論文介紹了為一些通用 UGV 蜂群開發的搜索和殺傷任務制導算法,這可能是一個有吸引力的應用,特別是對于在城市環境中運行的小型 UGV。研究通過一系列計算機模擬,評估了算法在室內和室外城市環境中執行此類任務的可行性和有效性。所開發的模擬可以改變許多參數,從而在使用不同的環境、平臺、傳感器和武器時接近真實情況。本文介紹的計算機模擬還可幫助軍事領導人選擇關鍵任務參數,以最大限度地提高未來潛在交戰的結果。
圖:美國防部陸軍UGV戰役計劃
圖:美國防部陸軍UGV能力時間表
由于多層結構、新的交戰條件以及對軍民關系的考慮,城市地區的戰斗極其復雜和具有挑戰性。最近的技術進步使軍方能夠采用機器人平臺,如爆炸物處理、重型物品裝載、火力下的地面狀況修復等,幫助克服城市環境中的作戰挑戰(Gage,1995 年)。軍用機器人領域的一個新興趨勢是蜂群機器人技術。根據美國國防部(DoD)機器人系統聯合項目辦公室(RS JPO)2011 年發布的無人地面系統路線圖報告,計劃在未來 25 年內開發出具有作戰能力的武裝 UGV(國防部,2011 年,41)。
本論文評估了三種算法(表 1),即最小訪問單元(LVC)制導、高級最小訪問單元(ALVC)制導和粒子群優化(PSO)算法在三種不同環境?open space、室外和室內?,以滿足 UGV 搜索和摧毀任務的適用性。UGV 的任務分為兩個階段。第一階段是搜索階段,其有效性的衡量標準是區域覆蓋。第二階段是跟蹤和交戰階段,其效果衡量標準是結束交戰所需的時間(迭代次數)以及藍方和紅方部隊的傷亡人數。
表1 本文研究的輸入參數綜述。
本論文中開發的 LVC 制導算法在空地、室外和室內城市行動這三種行動中都能很好地發揮作用。引入 PSO 算法后,在跟蹤和交戰階段定位目標所需的時間進一步縮短了約五倍。然而,PSO 算法在室內行動中遇到了困難,因為它無法克服 UGV 智能體與被探測到的敵方智能體之間的障礙。由于 PSO 算法不會改變交戰順序或殺傷概率,因此不會影響傷亡人數。作為對 LVC 制導的改進而開發的 ALVC 制導算法運行良好,對區域覆蓋有顯著影響,但僅限于搜索階段。與 PSO 算法類似,ALVC 制導算法無法克服障礙物,因此不適合室外和室內城市行動。因此,需要進一步修改 PSO 和 ALVC 制導算法。
對模擬結果的分析表明,增加 UGV 的數量將有助于在更短的時間內定位目標,并提高跟蹤和交戰階段的獲勝概率。分析還表明,提供進入作戰區域的多個入口點是有益的,因為這可以讓 UGV 在更短的時間內確定敵人的位置。此外,引入非整體性約束的結果表明,非整體性驅動提高了區域覆蓋率,從而使 UGV 能夠在更短的時間內定位目標。但事實證明,非整體性約束對于跟蹤移動目標的 UGV 來說是一個不利因素。增加探測距離更為有利,因為 UGV 對態勢有更好的感知,可以更早地啟動 PSO 算法,從而縮短總的交戰時間。
影響傷亡人數的三個輸入參數是殺傷概率、殺傷距離和殺傷順序。藍軍傷亡人數的增減取決于這三個因素。如果紅軍的擊殺概率越高,藍軍的傷亡人數就越少,藍軍需要的擊殺距離就越長,而且藍軍最先參戰。
建模概念遵循網格系統,其中作戰區域被劃分為 100×100 個單元。在每次迭代中,每個智能體都會通過評估緊鄰的八個周邊單元來確定自己的下一個位置。根據輸入參數(如非自主駕駛行為和避免碰撞)和環境條件(如障礙物),周圍的一些單元會受到限制。根據算法的選擇,一些不受限制的單元會比其他單元更受青睞。UGV 智能體與敵方智能體之間的交戰被模擬為概率事件。
通過與被稱為計算機生成兵力(CGF)的虛擬對手進行訓練,受訓戰斗機飛行員可以積累空戰行動所需的經驗,而其成本僅為使用真實飛機訓練的一小部分。但實際上,計算機生成兵力的種類并不豐富。這主要是由于缺乏 CGF 的行為模型。在本論文中,我們研究了空戰訓練模擬中 CGF 的行為模型在多大程度上可以通過使用機器學習自動生成。空戰領域非常復雜,在該領域內運行的機器學習方法必須適合該領域帶來的挑戰。我們的研究表明,動態腳本算法極大地促進了空戰行為模型的自動生成,同時又具有足夠的靈活性,可以根據挑戰的需要進行調整。然而,確保新生成行為模型的有效性仍是未來研究的一個關注點。
人工智能(ai)領域可以為行為建模過程提供一種替代方法,并通過糾正上一節中提到的兩種后果來提高模擬訓練的效果。這種替代方法是通過機器學習生成行為模型。機器學習程序在各種任務中的表現都優于人類,例如信用卡欺詐檢測、云計算資源分配,以及玩撲克和圍棋等游戲。對于此類任務,機器學習程序能夠通過以下三種特性的結合產生創造性的解決方案:(1)計算速度;(2)精確的約束滿足能力;(3)巧妙的學習算法。利用這三個特性并將其應用于行為模型的開發,我們就能獲得以下能力:(1) 以更快的速度開發行為模型;(2) 開發出比目前更多變化的行為模型。因此,使用機器學習程序開發行為模型有可能消除當前行為建模過程對訓練效果造成的兩種影響。
不過,在將機器學習應用于空戰模擬之前,我們必須先考慮空戰領域。空戰領域十分復雜,在這一領域內運行的機器學習方法必須適合該領域帶來的挑戰。五項挑戰:(a) 形成團隊合作,(b) 對 cgf 行為進行計算評估,(c) 有效重用已獲得的知識,(d) 驗證生成的行為模型,以及 (e) 生成可訪問的行為模型。這五大挑戰并非空戰領域所獨有。但是,這些挑戰需要適合該領域的解決方案。
研究問題 1:能在多大程度上生成能產生團隊協調的空戰行為模型?
動態腳本使用獎勵函數來評估使用生成的行為模型的空戰 cgf 所顯示的行為。獎勵函數產生的獎勵用于調整新生成的行為模型,以尋找最佳模型。如前所述(見挑戰 b),空戰行為評估存在兩個問題。在文獻中,這兩個問題分別被稱為獎勵稀疏和獎勵不穩定(見第 4 章)。不過,文獻中提出的空戰行為獎勵函數并不總是考慮到這兩個問題。然而,這樣做可能會產生更理想的行為模型。這就引出了第二個研究問題。
研究問題 2:能在多大程度上改進空戰 cgf 的獎勵功能?
動態腳本將 cgf 在整個學習過程中積累的知識以權重值的形式存儲在規則庫中的規則上。每條規則的權重值表示該規則相對于規則庫中其他規則的重要性。就重復使用而言,在一個空戰場景中構建的知識也有可能在另一個空戰場景中得到有效應用。我們將知識重用置于遷移學習的背景下,即讓一個 cgf 在一個場景中學習,然后將其知識遷移到一個新的、未見過的場景中。這就引出了第三個研究問題。
研究問題 3:使用動態腳本構建的知識在多大程度上可以在不同場景下的 cgf 之間成功轉移?
我們的目標是將生成的行為模型用于模擬訓練。驗證模型是實現有效使用模型的重要一步。行為建模過程中的第 4 步說明了驗證的重要性。然而,由于行為模型驗證沒有放之四海而皆準的解決方案,我們首先必須確定驗證的正確方法。這就引出了第四個研究問題。
研究問題 4:我們應該如何驗證機器生成的空戰行為模型以用于模擬訓練?研究問題 4 的答案就是驗證程序。通過該程序,我們可以確定我們在研究中生成的行為模型的有效性。所選擇的研究方法引出了第五個研究問題。
研究問題 5:通過動態腳本生成的空戰行為模型在多大程度上可用于模擬訓練?
回答了這五個研究問題,我們就能回答問題陳述。
在第 1 章中,我們介紹了問題陳述和五個研究問題。此外,還介紹了解決研究問題的研究方法。
在第 2 章中,我們提供了有關四個主題的文獻背景信息(另見第 1.1 節): (1) 行為建模過程的詳細步驟;(2) 在模擬訓練中使用機器學習的潛在好處和缺點;(3) 過去使用機器學習生成空戰行為模型的方法;(4) 動態腳本及其在空戰模擬中的適用性。
在第 3 章中,我們介紹了團隊協調的三種方法:(1) 默契;(2) 中心;(3) 體面。我們通過實驗研究團隊協調方法的益處,然后回答研究問題 1。
在第 4 章中,我們將深入研究動態腳本編寫過程的一個特定部分,即獎勵功能。我們將展示三種不同獎勵函數的使用如何影響我們的 cgfs 的行為,然后回答研究問題 2。
在第 5 章中,我們研究了 cgf 在某種空戰場景中積累的知識在多大程度上可以成功轉移到不同空戰場景中的 cgf 上,然后回答了研究問題 3。
在第 6 章中,我們設計了一個驗證程序,通過該程序可以驗證為空戰 cgf 生成的行為模型。此外,我們還介紹了 atacc,然后回答了研究問題 4。
在第 7 章中,我們將驗證程序應用于戰斗機 4 艦模擬器中新生成的行為模型,然后回答研究問題 5。
在第 8 章中,我們將對五個研究問題的答案進行總結,從而結束本論文。最后,基于這些答案,我們提出了問題陳述的答案。之后,我們將對未來的工作提出兩點建議。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
任務規劃涉及將離散資產分配給優先目標,包括在復雜的環境條件下將這些資產動態路由到目的地。由于快速周轉的價值和模擬作戰環境的相對簡單性,人們非常有興趣通過添加人工智能 (AI) 的強化學習技術來改進任務規劃過程,這可以產生更好、更快或只是人類考慮的獨特解決方案。本報告描述了如何使用人工智能進行任務規劃,以及人工智能方法與更傳統的運籌學 (OR) 方法的比較。
本報告是五卷系列中的第五卷,探討了如何利用人工智能在四個不同領域協助作戰人員:網絡安全、預測性維護、兵棋推演和任務規劃。本報告主要針對那些對任務規劃、運籌學和人工智能應用感興趣的人。
在本技術說明中,報告了有關傳感器技術和避讓方法的最新研究與開發文獻綜述,這些技術和方法可用于未來在有人-無人協同(MUM-T)行動中在小型無人系統上實施感知與避讓(SAA)能力。
在傳感器技術方面,研究了協作和非協作傳感器,其中非協作傳感器又分為主動和被動傳感器。我們認為:(1) 被動非協作傳感器在尺寸、重量和功率(SWAP)方面比其他傳感器更有優勢。被動工作可確保無人平臺在惡劣環境中的安全。為了補充單個傳感器能力的約束和限制,我們還認為,(2) 傳感器和數據融合的趨勢和未來需求前景廣闊,能夠在動態、不確定的環境中進行連續和彈性測量。此外,我們還認為應關注無人系統領域正在開發的 (3) 新型傳感器套件。
在探測和規避方法方面,我們按照 SAA 流程進行了全面研究,從探測沖突、危險或潛在威脅,到跟蹤目標(物體)的運動;評估風險和可信度;根據評估參數確定沖突的優先級;然后宣布或確認沖突以及沖突的程度;確定正確的沖突解決方法;隨后下達命令并最終執行。為了支持這一過程,我們審查了各種 SAA 算法,包括探測算法、跟蹤算法和規避策略。我們認為,(4)基于學習的智能算法需要列入未來 SAA 的要求中,因為它們具有支持任務的自適應能力。
最后,從不同的使用案例中回顧了支持 MUM-T 行動的 SAA。我們認為,(5) 與蜂群式小型 UxV 的人機系統接口可提供半自主的 SAA 能力,而人的參與程度有限。這種集成的人機交互提供了智能決策支持工具。該系統旨在使單個人類操作員能夠有效地指揮、監控和監督一個 UxV 系統。根據技術重點的發展趨勢,我們的最終觀點是:(6) 就研發進展而言,現階段實現無士兵參與的完全自主還為時過早,但我們將積極關注該領域的最新發展。
該項目為與使用無人系統支持分布式海戰(DMO)有關的作戰概念和系統設計決策提供信息。研究通過系統地改變仿真模型中的系統設計特征和作戰活動,支持對無人系統(UVC)進行能力級分析。分析結果表明,UVC 可提高各種無人系統的作戰可用性(Ao)和使用時間(TOS),因為它可隨時進入維護、加油和重新武裝設施,而無需長時間前往岸基設施或分布式支援艦艇。在比較使用 UVC 的配置與在自適應兵力包 (AFP) 中分配無人系統支持的配置時,單個無人系統的 Ao 提高了 6% 到 31%。仿真模型分析確定了 UVC 架構,其中包括至少 8 個無人機發射回收站、至少 3 個船舷托架和至少 5 個甲板井托架,以最大限度地提高 Ao。
在支持分布式海上作戰(DMO)時,無人系統有可能發揮兵力倍增器的作用,在提高殺傷力的同時降低有人系統的風險。然而,無人系統到岸基維護、加油和重新武裝設施的轉運時間減少了可用于支持執行 DMO 的自適應兵力包(AFP)的總體駐扎時間(TOS)。本項目研究了無人水面艦艇 (USV)、無人水下航行器 (UUV) 和無人機 (UAV) 在美國海軍現有艦艇上的集成問題,該艦艇已被重新改裝為無人載具 (UVC)。在本報告中,"UxV "一詞用于描述無人系統這一類別。
如 Van Bossuyt 等人(2019 年)所述,項目團隊采用了系統定義、系統建模和系統分析的通用系統工程流程序列。在系統定義過程中,項目團隊重點開發了作戰概念(CONOPS),并定義了 UVC 的系統要求。系統建模活動的重點是構建 UVC 的離散事件仿真模型。在系統分析階段,團隊利用所開發的模型來評估 UVC 的各種設計參數對每種無人系統類型的運行可用性(Ao)的影響。
A. 系統定義
在系統定義階段,從自上而下和自下而上的角度開發和考慮了 UVC 要求。從自上而下的角度來看,團隊分析并確定了滿足總體任務有效性目標所需的能力,而與任何現有的候選平臺無關。從自下而上的角度來看,團隊評估了一艘登陸直升機船塢(LHD)艦,以確定該平臺可實現的最大 UVC 能力。通過查閱文獻和分析利益相關者的需求,項目團隊確定了 UVC 的以下關鍵能力:指揮與控制 (C2)、UxV 發射、UxV 維護和 UxV 回收。根據設想,UVC 將包括著陸甲板無人機發射和回收站、無人機維護/布防/燃料艙、用于大型 USV/UUV 操作的船舷艙或站,以及用于小型 USV/UUV 操作的井甲板艙。
B. 系統建模
項目構想將 UVC 視為針對地面和岸上敵對兵力實施 DMO 的 AFP 的一部分。UVC 的作用是支持 UxV 對敵方岸基導彈基地進行偵察和打擊。在打擊階段之前、期間和之后,UxV 提供全天候的情報、監視和偵察(ISR)、目標定位和戰損評估服務。UVC 的總體目標是通過消除到岸基支持設施的較長運輸時間來增加 UxV 的全時服務時間。為實現這一總體目標,研究小組選擇 "航程 "和 "持續停留時間 "作為性能指標(MOP),并選擇 "UxV 任務時間"、"UxV 停機時間 "和 "維護灣利用率 "作為效果指標(MOE)。
設計并開發了一個離散事件仿真模型,用于分析 UVC 設計參數對 MOP 和 MOE 的影響。該模型是通過 ExtendSim10 建模程序開發的。該模型包括 UxV 發射和回收、UxV 維護活動以及 UxV 重新武裝和加油活動。UxV 的發射時間表和總模擬運行時間是根據擬議的 UVC CONOPS 制定的。目前,該模型并未考慮 UxV 的損失或故障;這是未來可能開展工作的一個領域。模型的主要輸出是每種 UxV 的 Ao。
C. 系統分析
為了廣泛探索實驗空間,同時減少試驗總數和模型運行時間,我們專門設計了一個填充空間的拉丁超立方設計。每次試驗重復模擬 30 次并收集結果。合并所得的 Ao 值,得出每個試驗的統計平均值。
分析結果表明,UVC 可隨時提供維護、加油和重新武裝設施,而無需在岸基設施或分布式支援艦艇之間進行長時間的轉運,從而改善了每種 UxV 的 Ao 值和 TOS 值。對于任何特定的 UxV,通過增加 UVC 發射、回收和維護站的數量,從而消除或減少這些服務的排隊時間,可獲得最大的 Ao。分析表明,UVC 在設計時應至少配備 8 個無人機發射/回收站、至少 3 個船舷托架和至少 5 個焊接甲板托架。這些參數沒有確定上限,這也是未來研究的一個潛在領域。
有趣的是,雖然 UVC 的存在改善了大型無人水面艦艇(LUSV)的航速,但 UVC 的實際設計似乎對 LUSV 的航速沒有影響。這可能是由于 LUSV 的假定任務持續時間長,假定維護間隔長,因此不可能出現任何排隊現象。單個船側停泊區似乎足以為多艘 LUSV 提供服務,但即使是單個船側停泊區,也可通過消除到岸基設施的轉運時間來改善 Ao。
作為分布式海上作戰(DMO)的一個關鍵原則,盡管有人和無人、水面和空中、作戰人員和傳感器在物理時空上都有分布,但它們需要整合成為一支有凝聚力的網絡化兵力。本研究項目旨在了解如何為 DMO 實現有凝聚力的作戰人員-傳感器集成,并模擬和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境,尤其側重于有人和無人飛機的情報、監視和偵察 (ISR) 任務。
在半個世紀的建模和仿真研究與實踐(例如,見 Forrester, 1961; Law & Kelton, 1991),特別是四分之一世紀的組織建模和仿真工作(例如,見 Carley & Prietula, 1994)的基礎上,獲得了代表當前技術水平的計算建模和仿真技術(即 VDT [虛擬設計團隊];見 Levitt 等人, 1999)。這種技術利用了人們熟知的組織微觀理論和通過基于代理的互動而產生的行為(例如,見 Jin & Levitt, 1996)。
通過這種技術開發的基于代理的組織模型在大約三十年的時間里也經過了數十次驗證,能夠忠實地反映對應的真實世界組織的結構、行為和績效(例如,參見 Levitt, 2004)。此外,幾年來,已將同樣的計算建模和仿真技術應用到軍事領域(例如,見 Nissen, 2007),以研究聯合特遣部隊、分布式作戰、計算機網絡行動和其他任務,這些任務反映了日益普遍的聯合和聯盟努力。
本報告中描述的研究項目旨在利用計算建模來了解如何為 DMO 實現有凝聚力的戰斗傳感器集成,并建模和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境。在這第一項工作中,將對當今的海上行動進行建模、模擬和分析,重點是有人駕駛和無人駕駛飛機的情報、監視和偵察(ISR)任務。這為與執行 ISR 任務的一個或多個 DMO 組織進行比較確立了基線。這也為與其他任務(如打擊、防空、水面戰)進行比較建立了基線。第二階段接著對一個或多個備用 DMO 組織進行建模、模擬和分析。
在本技術報告的其余部分,首先概述了 POWer 計算實驗環境,并列舉了一個實例,以幫助界定 DMO 組織和現象的計算建模。依次總結了研究方法。最后,總結了沿著這些方向繼續開展研究的議程。這些成果將極大地提高理解和能力,使能夠為 DMO 實現戰斗員與傳感器的集成,并為集成實施所需的系統能力和行為建模和概述。
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
該項目旨在利用強化學習(RL)開發防御性無人機蜂群戰術。蜂群是一種軍事戰術,許多單獨行動的單元作為一個整體進行機動,以攻擊敵人。防御性蜂群戰術是美國軍方當前感興趣的話題,因為其他國家和非國家行為者正在獲得比美國軍方更多的優勢。蜂群智能體通常簡單、便宜,而且容易實現。目前的工作已經開發了飛行(無人機)、通信和集群的方法。然而,蜂群還不具備協調攻擊敵方蜂群的能力。本文使用預先規劃的戰術模擬了兩個軍用固定翼無人機蜂群之間的戰斗。即使在數量多到100%的情況下,也有有效的戰術可以克服規模上的差異。當用于防御艦艇時,這些規劃的戰術平均允許0到0.5架無人機通過防御并擊中艦艇,這超過了阿利-伯克級驅逐艦目前的防御系統和其他研究的無人機蜂群防御系統。這項研究表明,使用某些機動和戰術有可能獲得對敵人蜂群的戰術優勢。為了開發更有效的戰術,使用RL訓練了一種 "智能體 "戰術。RL是機器學習的一個分支,它允許智能體學習環境,進行訓練,并學習哪些行動會導致成功。"智能體"戰術沒有表現出突發行為,但它確實殺死了一些敵人的無人機,并超過了其他經過研究的RL訓練的無人機蜂群戰術。繼續將RL落實到蜂群和反蜂群戰術的發展中,將有助于美國保持對敵人的軍事優勢,保護美國利益。
關鍵詞 無人機蜂群戰術 強化學習 策略優化 無人機 艦船防御 軍事蜂群
現代計算機科學家試圖解決的問題正變得越來越復雜。對于大規模的問題,人類不可能想到每一種可能的情況,為每一種情況確定所需的行動,然后為這些行動編碼讓計算機執行。如果計算機能夠編寫自己的指令,那么計算機科學的世界可以擴展得更大,以完成更困難的任務。這就是機器學習領域。最近的工作為世界帶來了各種照片分類器、計算機視覺、搜索引擎、推薦系統等等。利用機器學習,計算機甚至能夠學習和掌握蛇、國際象棋和圍棋等游戲。有了這項技術,自動駕駛汽車、智能機器人和自主機械似乎不再是不可能的了。
美國軍方一直在推動技術的發展,使其在戰術上對敵人有優勢。利用機器學習來協助美國作戰,將提高軍事能力。非傳統戰爭的最新發展催生了無人駕駛車輛和無人機等自主智能體戰術蜂群。當務之急是,美國軍方必須建立對敵方類似技術的防御措施,并開發出利用蜂群的有利方法。將機器學習方法應用于多智能體無人機群問題,可以為美國軍隊提供對抗和反擊敵人蜂群的能力。
美國軍方一直在探索最新的技術進步,以保持對敵人的競爭優勢。蜂群戰術是目前軍事研究的一個主要領域。美國和其他國家正在尋找使用無人機、船只和車輛與現有蜂群技術的新方法。例如,俄羅斯正在開發令人印象深刻的無人機蜂群能力。[Reid 2018] 伊朗已經創造了大規模的船群。[Osburn 2019] 大大小小的國家,甚至非國家行為者都在利用目前的蜂群技術來增加其軍事力量,與美國抗衡。這種對美國安全的可能威脅和獲得對其他大國優勢的機會是本研究項目的動機。如果美國不發展防御和戰術來對付敵人的蜂群,其人民、資產和國家利益就處于危險之中。這個研究項目旨在使用最先進的RL算法來開發無人機群戰術和防御性反擊戰術。研究當前的RL算法,并學習如何將其應用于現實世界的問題,是計算機科學界以及軍事界下一步的重要工作。該項目旨在將現有的RL工具與無人機群結合起來,以便找到能擊敗敵人機群的蜂群戰術和反擊戰術,改進軍事條令,保護美國國家利益。
本報告首先介紹了促使需要無人機蜂群戰術的當前事件,以及試圖解決的問題的定義。接下來的章節提供了關于無人機、軍事蜂群、強化學習以及本研究項目中使用的策略優化算法背景。還包括以前與RL有關的工作,以及它是如何與當前的無人機和蜂群技術結合使用的。下一節介紹了建立的環境/模擬。之后介紹了目前的成果。建立了兩個不同的場景,并對每個場景進行了類似的測試。第一個是蜂群對戰場景,第二個是船舶攻防場景。這兩個場景描述了實施的程序化戰術,并介紹了這些戰術的比較結果。接下來,描述了RL智能體的設計和RL訓練,并測試其有效性。在介紹完所有的結果后,分析了研究發現,并描述了這個研究項目的倫理和未來方向。
無人駕駛飛行器被廣泛用于監視和偵查。無人機可以從上面捕捉到戰斗空間的狀況。這些智能體非常小,可以快速地去一些地方而不被發現。無人機有能力收集信息并回傳給蜂群的主機或電子中心。蜂群智能體可以使用信號情報和數據收集戰術從敵人那里收集信息。
美國軍方和世界各地的軍隊正在使用蜂群作為一種進攻性威脅。無人機、船只、甚至車輛都可以在無人駕駛的情況下運作,并作為一個單元進行蜂擁,以攻擊敵人。大量使用小型和廉價的智能體可以使小型軍隊在面對美國軍隊的力量時獲得優勢。例如,小船或無人機可以匯聚到一艘船上,并造成大量的損害,如摧毀船只的雷達。作為一種進攻性技術,蜂群是強大的資產,可以作為一種進攻性戰爭的方案來使用。
作為對進攻性蜂群技術的回應,各國軍隊開始研究并使用蜂群作為防御機制,以對付來襲的蜂群和其他威脅。其他的防御性武器系統并不是為了對抗大量的小型無人機而建造的,因此,發射反蜂群可能是對最新的蜂群戰術的一種可行的防御。蜂群也可用于防御單一實體對來襲的武器系統。研究人員正在創造新的方法來建造、武裝和訓練小型無人駕駛飛行器,以便它們能夠成為美國軍隊的可靠資產。
介紹了最近在智能體群體和無人機群的強化學習方面的一些工作。
Cano Lopez等人使用當前的強化算法來訓練四旋翼無人機飛行、懸停和移動到指定地點[G. Cano Lopes 2018]。該系統使用了馬爾科夫決策過程,并實現了強化學習的演員評論法,在飛行模擬器中訓練智能體。這些強化學習方法與我們希望應用于無人機群戰術問題的方法類似。使用Coppelia機器人公司的虛擬實驗平臺(V-REP)作為模擬,訓練無人機飛行。他們的訓練策略能夠實現快速收斂。在訓練結束時,他們能夠保持飛行并移動到模擬中的不同位置。這項工作表明,強化學習是訓練無人機操作的一種有效方法。我們希望在這個項目中使用的方法可以用目前的技術來實現。我們將擴展本文的實驗,在類似的模擬中把RL算法應用于固定翼無人駕駛飛機。然而,我們不是只讓無人機飛行和移動,而是要訓練它們一起工作,并戰略性地計劃在哪里飛行和如何操作。
斯特里克蘭等人利用模擬來測試各種無人駕駛飛行器的戰術,并測試贏得戰斗的決定性因素可能是什么。他們對一個具有戰術的蜂群進行編程,并讓這個蜂群與敵人的蜂群作戰。智能體試圖使用圖8.1所示方法協調對敵方無人機的攻擊。只有當有兩架無人機對抗一架敵方無人機時,這些戰術比單槍匹馬射擊敵人更有效,而且它們與其他成對的無人機之間有足夠的空間。其次,一些特工會飛離敵人,作為保護自己的手段,從不對敵人使用任何攻擊性戰術。[Strickland 2019]
這個項目使用PPO在一個捉迷藏的游戲中使用強化學習來訓練多個智能體。兩個紅色智能體是一個團隊,被指定為尋找者,兩個藍色智能體是一個團隊,被指定為隱藏者。如圖8.2所示,這些智能體在一個有幾面墻和一些積木的開放環境中游戲。智能體可以跑來跑去,對可移動的積木施加壓力。紅隊在看到藍隊時得到獎勵,藍隊在未被隱藏時得到獎勵。兩個智能體都是用自我發揮和策略優化算法進行訓練的。兩隊進行了數百萬次的訓練迭代競爭,并制定了戰術和技術來對付對方的行動。起初,兩個團隊都是漫無目的地跑來跑去,但他們最終發展出一些智能行為來幫助他們獲得獎勵。藍隊學會了如何堵住門,為自己創造庇護所,并從紅隊那里藏起其他物體。紅隊追趕藍隊特工,利用斜坡潛入他們的庇護所,跳到積木上面看墻。這些特工制定的一些戰術甚至比人類程序員指示他們做的更有創意。最重要的是,這些智能體教會了自己如何合作,并為每個智能體分配一個特定的角色,以完成團隊目標。這項研究的結果顯示了強化學習和自我發揮的學習方法的力量。兩個智能體都能發展出智能行為,因為它們之間存在競爭。我們將使用這個項目的框架來解決我們的無人機蜂群戰術問題。將捉迷藏游戲擴展到無人機群戰,將提高強化學習的能力。自我游戲技術在本項目未來工作的RL蜂群對戰部分有特色,該部分詳見第13.3節。[Baker 2018]
在這項研究中,研究人員利用計算機編程和強化學習模擬并測試了無人機群戰術。該小組創建了一個可能的蜂群戰術清單,包括一個簡單的射手,一個將敵人引向隊友的回避者,以及一個將敵人的蜂群分成子蜂群的牧羊人。研究人員隨后創建了一個模擬器來測試這些戰斗戰術。他們收集了關于哪些戰術最有效的數據,甚至在現實生活中的固定翼無人機上測試了這些算法。我們將在研究的第一階段實施其中的一些戰術,并擴大目前可編程蜂群戰術的理論。
這篇研究論文的第二個方面是實施強化學習方法,使智能體能夠制定自己的蜂群戰術。盟軍無人機在殺死敵方無人機時獲得正獎勵,被敵方殺死時獲得負獎勵。敵方蜂群是用研究第一階段的成功單人射手預先編程的。這個項目的目標是讓智能體制定對抗敵方蜂群的戰術。然而,盟軍的無人機學會了應該逃跑,干脆飛離敵人,以避免被殺死的負面獎勵。因為敵人太有效了,盟軍無人機無法獲得足夠的正向獎勵來學習如何攻擊敵人的蜂群。我們將使用強化學習以類似的方式來訓練智能體,然而我們希望獲得更多的結論性結果。為了防止盟軍無人機逃離敵人,我們將對攻擊和殺死敵人的智能體給予比死亡風險更多的獎勵。我們還可以對智能體進行編程,使其保衛像船只或基地這樣的資產。這個研究項目為我們所做的研究提供了一個良好的基礎。[Strickland, Day, et al. 2018]。
該研究項目是近期強化學習和無人機群工作的延續。計算機科學領域一直在開發最先進的強化學習算法,如PPO和SAC,該項目旨在應用于當前的無人機群戰術的軍事問題。
MIDN 1/C Abramoff(2019級)研究了無人機蜂群戰術,并在Python中模擬了微型蜂群對蜂群戰斗。他創建了一個二維空間,用一個點代表蜂群中的每個特工。每個智能體可以向前射擊(在它移動和面對的方向)。被另一個智能體的 "子彈 "擊中的智能體被假定為死亡,并從模擬中刪除。阿布拉莫夫創建了蜂群,并編寫了一個蜂群算法,以便特工能夠作為一個整體蜂擁飛行,而不會發生碰撞、分離或破壞蜂群。一旦智能體真實地成群,阿布拉莫夫探索了各種無人機群戰術,如選擇-最近和分配-最近,并測試了它們對敵人群的有效性。選擇-最近 "允許每個特工瞄準離自己最近的敵人。當蜂群向對方移動時,智能體將根據每個時間點上哪個敵人的無人機最近而改變其目標。分配最近的任務給每個智能體一個任務,以消除一個不同的敵方無人機。任務是根據哪個敵方無人機離友軍蜂群最近來決定的,并在每一幀重新更新。阿布拉莫夫對兩個蜂群的模擬戰斗進行了實驗,以測試哪種蜂群戰術最有效。他還嘗試使用反蜂群戰術進行戰斗,如在蜂群前面派出一個 "兔子 "特工,并分成子蜂群。總之,阿布拉莫夫發現,在他的實驗中,"最近分配 "是最有效的,一些反蜂群戰術也很成功。這些結果不是結論性的,但顯示了在發展蜂群和反蜂群軍事戰術方面的進展。本研究提案將在MIDN 1/C Abramoff的工作基礎上進行擴展,創建一個3-D環境模擬,并改進智能體能力,以代表一個現實的無人機群戰。這個研究提案的環境將有一個更大的戰斗空間,智能體可以采取更多的行動,包括改變高度、武器瞄準和蜂群間的通信/團隊合作。
MIDN 1/C湯普森(2020級)建立了一個三維環境,他用來模擬更多戰術。這個環境比MIDN 1/C阿布拉莫夫使用的更真實地模擬了現實世界的戰斗空間。蜂群要在三維空間中自由移動,并根據現實世界的物理學原理采取相應的行動,即重力和高度以及飛機上可行的轉彎率。圖8.3顯示了湯普森的Python環境模擬。左上角的無人機群被染成藍色,代表盟軍的無人機群。右下角的無人機群為紅色,代表敵人的無人機群。盡管在二維顯示中,每架無人機周圍的圓圈代表高度。在圖8.3中,更大的圓圈顯示了更高的高度,這意味著敵人的蜂群比盟軍的蜂群要高。MIDN 1/C湯普森固定了環境的三維方面,并將無人機融入該空間。他還研究了每架無人機的轉彎率,以確保模擬符合現實生活中的無人機規格。
模擬開始時有兩個由任何數量的無人機組成的蜂群。每隊的無人機都被初始化在比賽場地各自一側的隨機位置上。模擬開始時,兩隊都起飛了。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行了多輪比賽,每隊的勝負和平局都會被計算在內。
模擬開始時有兩個任意數量的無人機群。防御隊被初始化在放置在比賽場地中心的飛船中心。這艘船是靜止的,不會還擊,但它會計算它所收到的無人機的數量。進攻隊被初始化在比賽場地的一個隨機位置,該位置距離飛船中心至少有200米。模擬開始時,兩隊都要起飛。每隊都執行給定的戰術,可以是預先編程的,也可以是智能體學習的。如果進行多輪比賽,每隊都要計算無人機擊中飛船的總次數和剩余的防御性無人機數量。
作者正在研究分布式雷達在穿墻感應中的應用。這項技術的預期操作場景是在建筑物外的(安全)遠程距離內探測和識別建筑物內的人員和武器裝備。本研究使用的雷達結構和信號處理算法類似于美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)實施的埋藏和隱蔽表面目標探測的設計;目前的雷達發射和接收頻率更高。
在這項研究中,實驗是在ARL的阿德爾菲實驗中心(ALC)507號樓("沙盒 "區域)進行的,使用的是室內低金屬兩層夾板結構。用來測試分布式雷達的受控環境與用來測試ARL針對電子目標的諧波雷達的低金屬環境相同。
圖1 步進頻率雷達收發器:(a)賽靈思的RFSoC與Alion/HII的雷達固件,以及(b)定制的發射器/接收器(Tx/Rx)濾波器和放大器PCB,由28VDC供電
本研究中收集的數據表明,在低矮的金屬建筑中,相互成直角的天線對能夠探測到多個移動目標,而這些目標從建筑外是看不到的。隨時間變化的距離圖顯示了目標所遵循的路徑;在一個頻道中跟蹤的目標路徑的模糊性可以通過在另一個頻道中跟蹤同一目標來緩解。仍需努力將同時收集的數據的IQ振幅一致地結合起來,以解決多個目標。一個目標是在二維(下行和上行)圖像上繪制目標位置,也許是以視頻動畫的形式疊加在場景的俯視圖上(即被成像的建筑物的典型平面圖)。在對移動目標進行成像時,發射器和接收器天線的雙穩態配對是否具有優勢(與標準的單穩態發射器天線配對相比)還有待確定。
本專著追求的是確定美國陸軍如何能夠建立對定位導航和授時的共同作戰理解。規劃人員、分析人員和戰略人員必須了解如何實施空間使能因素和能力,以應對有爭議的作戰環境中的挑戰。最重要的是,本專著試圖回答美國陸軍將如何在未來的多域作戰中減輕定位導航和授時(PNT)的不利影響的問題。空間使能器對于成功彌補BCT級別的空間作戰差距以應對PNT戰爭中的近距離威脅是至關重要的。了解美國陸軍在MDO期間如何針對近距離對手開展行動,對于未來的任務規劃至關重要,這將使美國陸軍在多域作戰中應對作戰挑戰并保持作戰優勢。該專著將提供背景資料,確定美國陸軍在被拒絕、降級和中斷的空間作戰環境(D3SOE)中的GPS所面臨的當前問題,適用于PNT的當前文獻,并分析當前PNT的能力和局限性。最后,它的結論是關于美國陸軍必須如何認識到MDO的未來影響,并確定將阻礙美國陸軍未來行動的任何執行的脆弱性的建議。
在當前的信息和技術時代,世界人口已變得越來越依賴實時數據。無論是手機、電視,甚至是電力,技術已經成為地球上日常生活中提供實時信息的主力軍。隨著這種技術全球化的增加,對美國國家安全的挑戰和保護美國國內外利益的復雜性也在增加。美國繼續在有爭議的作戰環境中投射力量。美國在被拒絕的、退化的和被破壞的作戰環境中通過空間能力投射力量的能力不能僅僅停留在戰略領域,還必須延伸到作戰和戰術層面。
今天,近在咫尺的對手威脅,特別是中國和俄羅斯,正在與美國進行一場越來越復雜的技術競賽。國防空間戰略(DSS)總結提出,由于俄羅斯等大國開發、測試和部署反空間能力及其相關的軍事理論,以便在沖突中延伸到空間,因此構成最大的戰略威脅。這與其說是創造最主要和最致命的武器的競賽,不如說是一場更專注于如何拒絕對手能力的競賽。了解到這些空間支持行動的戰略利益,外國政府正在發展威脅他人使用空間能力的能力。中國和俄羅斯各自將空間武器化,作為降低美國和盟國軍事效力和挑戰美國空間行動自由的手段。
這種拒絕對手能力的技術競賽可能導致信息傳遞的 "內容 "和 "方式 "的范式轉變。拒絕信息傳遞是信息作戰(IO)和多域作戰(MDO)的最前沿。美國陸軍目前在作戰層面上面臨的問題是對定位、導航和授時(PNT)以及空間能力如何在退化、中斷或被拒絕的作戰環境中實現任務規劃和執行缺乏共識。美國陸軍必須了解PNT戰爭如何在作戰環境中發生,以及如何在未來的MDO期間減少所有梯隊對PNT戰爭的敵對使用。
三種不同的基本能力的組合定義了PNT。定位是指在標準大地測量系統(如1984年世界大地測量系統或WGS84)中準確和精確地確定一個人的位置和方向的能力,或在需要時確定三維位置。導航是確定當前和所需位置(相對或絕對)的能力,并應用于修正航線、方向和速度,以達到世界上任何地方的所需位置,從地下到表面,從表面到空間。計時是指在世界任何地方并在用戶定義的及時性參數范圍內,從一個標準(協調世界時或UTC)獲得并保持準確和精確的時間的能力。計時還包括時間轉移。
授時是PNT的關鍵。它是定位和導航的基礎。GPS的定位和導航數據來自接收設備的授時信號。全球的用戶完全依靠美國空軍維護的衛星群來獲得授時信息。
由于平民依賴PNT,即目前現代技術的支柱,美國軍隊也極其依賴PNT及其能力。廣泛依賴衛星信號進行導航和計時,使美國的關鍵基礎設施和經濟活動處于危險之中。
從戰術層面上進行徒步巡邏的步兵到進行聯合演習的海軍艦艇,甚至是在戰略層面上投擲精確制導炸彈的B-52 "斷頭臺",這些行動的成功執行所需的精確位置的計算都使用PNT。PNT的中斷可能有能力阻止美國軍隊的行動。人們越來越關注對手破壞GPS信號的方法和手段,從而使美軍無法獲得實現 "美國戰爭方式 "的定位和導航信息。美軍必須對付這些對手的措施,以便在被拒絕的、退化的和被破壞的空間作戰環境(D3SOE)中有效運作。
在D3SOE中有效運作依賴于幾個維持連接網絡的天基系統。天基系統和不受阻礙的空間訪問對國家的經濟福祉越來越關鍵,并與美國的國家安全相關聯。美國陸軍依靠空間能力來實現和加強陸地戰爭;幾乎每一個陸軍和聯合行動都受益于這些能力。了解這些涉及的復雜系統的風險將產生一種保護美國利益的預防行動的緊迫感。
基于空間的能力是軍事、商業和民用部門的一個組成部分。目前美國的空間政策闡明了基礎活動,通過加強機構間和商業伙伴關系來改善空間系統的開發和采購。長期存在的空間技術和成本障礙正在下降,這使得更多的國家和商業公司能夠參與到衛星建造、空間發射、空間探索和人類太空飛行中。私人商業公司Space X最近公布了其空間計劃。這可能促進美國商業空間能力和服務的新市場機會,包括依賴美國政府提供的空間系統的商業應用。促進商業應用對有保障的PNT的依賴,可以利用美國的能力來增強和鼓勵新興技術和空間能力的民用和軍用互操作性。鑒于上述概述,本專論將討論在美國陸軍作戰計劃中理解PNT的重要性。
美國陸軍將如何在未來的多域作戰 (MDO) 中減輕 PNT 戰爭的影響?
美國陸軍要求重點支持有保障的PNT和緩解技術,這可能使美國陸軍在MDO期間應對作戰挑戰并保持作戰優勢。為了應對有保障的PNT所面臨的近似挑戰,美國陸軍必須找到新的和全面的方法,通過同時使用其他作戰領域,如網絡戰和電子戰,來減少對計時系統的威脅。這也意味著要建立一個防御性的時間基礎設施和網絡,以維護和改善友好的授時源和授時分配,重點是精確授時的廣泛用途。在GPS被屏蔽的環境中,確保準確的PNT信息被傳遞給作戰人員是絕對關鍵的。為了采用這些技術,并有效地應對近距離的威脅,美國陸軍必須在作戰層面上提高整個部隊對空間能力和促進因素的共同理解。
美國陸軍必須認識到MDO的未來影響,并確定將阻礙美國陸軍未來行動的任何執行的弱點。了解美國陸軍在MDO期間如何對近距離的對手開展行動,對于未來的任務規劃至關重要。MDO方法將等同于美國陸軍如何減少其目前對PNT的過度依賴,同時繼續執行和實現任務的成功。
通過條令、歷史和理論的視角,研究將集中在公開來源的非保密檔案材料、當前和歷史上的軍事學說以及理論框架,以產生一個規范性的建議來回答研究問題。訪問聯合導航戰中心(JNWC)、美國陸軍空間和導彈防御司令部(USASMDC)、美國戰略司令部(USTRATCOM)和位于科羅拉多州彼得森空軍基地(AFB)的美國空間司令部(USSPACECOM)的人員資源,將提供歷史和當前背景以及與研究問題有關的信息。這將有助于指導研究,任何發現,并提供與此主題有關的額外背景。該專著將確定當前的MDO理論,包括當前的空間作戰理論,以了解已確定的PNT脆弱性,在可能的情況下減輕,以及在空間使能器可以彌補任何操作差距的情況下未減輕。空間使能器對于在BCT層面成功彌補空間作戰差距以應對PNT戰爭期間的近距離威脅是最重要的。
本專著將特別關注解決美國陸軍應通過實施集中的系統方法來理解PNT的過程。這個過程將通過在各旅戰斗隊(BCT)實施空間使能器和空間能力來提高對PNT戰爭的作戰理解。空間能力是投射陸地力量和贏得近距離戰斗的關鍵使能因素。本專著分為四個主要部分:第一部分是導言,包括背景信息,指出美國陸軍在D3SOE中面臨的GPS問題;第二部分提供適用于PNT戰爭的當前理論,以及對當前PNT戰爭能力和限制的理解;第三部分分析美國陸軍目前如何計劃和執行MDO;第四部分總結了影響、建議,以及必須進行的額外研究。
為了支持未來的多域作戰分析,美國DEVCOM分析中心(DAC)正在探索如何在陸軍的作戰模擬中體現天基情報、監視和偵察(ISR)資產的貢獻。DAC正在使用基于能力的戰術分析庫和模擬框架(FRACTALS)作為方法開發的試驗基礎。用于預測衛星軌道路徑簡化一般擾動的4種算法已經被納入FRACTALS。本報告的重點是來自商業衛星群的圖像產品,其分辨率為1米或更低。報告介紹了預測分辨率與傳感器特性、傾斜范圍(包括地球曲率)和觀察角度的關系的方法。還討論了在不同分辨率下可以感知的例子。
在2021年建模與仿真(M&S)論壇期間,空間情報、監視和偵察(ISR)建模被確定為當前/近期的建模差距。美國陸軍作戰能力發展司令部(DEVCOM)分析中心(DAC)提交了一份陸軍M&S企業能力差距白皮書(Harclerode, 2021),描述了幫助填補這一差距的行動方案。陸軍建模和仿真辦公室已經資助DAC開發方法,以代表商業、國家和軍事空間和低地球軌道資產的性能及其對聯合作戰的影響,并在基于能力的戰術分析庫和模擬框架(FRACTALS)內進行測試實施。
FRACTALS是DAC開發的一個仿真框架,它提供了通用的結構 "構件",用于模擬、仿真和評估ISR系統在戰術級任務和工作中的性能。FRACTALS作為DAC開發的各種ISR性能方法的測試平臺,將文件或數據被納入部隊的模擬中。FRACTALS還作為DAC的一個分析工具,在戰術環境中對ISR系統進行性能分析比較。
這項工作需要在一定程度上體現衛星飛行器(高度、軌跡和運動學)、傳感器有效載荷(光電[EO]、紅外、合成孔徑雷達和信號情報)、網絡、控制系統、地面站(時間線、通信、處理、利用和傳播)、終端用戶以及連接它們的過程和行為。本報告描述了DAC為支持這一工作所做的一些基礎工作,重點是可見光波段相機圖像。