亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文探討了在具有不同終端用戶設備(物聯網設備)和不同邊緣計算服務器的邊緣計算網絡中基于機器學習的任務分配問題。任務分配問題通過生成的請求分類來解決,這種分類可映射到具有足夠計算能力且靠近設備的服務器上,這意味著服務延遲和可靠性。此外,還研究了網絡攻擊對分類算法的影響。

本文發表于 2023 年 5 月 16-17 日在北馬其頓斯科普里舉行的北約科學技術組織研討會(ICMCIS),由信息系統技術(IST)小組組織。

根據愛立信最近發布的《移動報告》[1],到 2028 年,5G 移動用戶將達到 50 億。此外,到 2028 年,預計將有 347 億臺機器和設備進行無線通信,形成物聯網(IoT)。人類與機器之間的大規模通信將促進新一代移動通信系統的研發。雖然 5G 標準仍在制定過程中(3GPP 第 18 版將于 2024 年凍結),但 6G 網絡已被提出 [2]-[5]。6G 的關鍵范式之一是邊緣計算和邊緣智能。

在未來的 5G/6G 架構中,移動邊緣主機運行移動邊緣平臺,促進邊緣應用和服務的執行。從數據分析的角度來看,邊緣智能指的是在數據產生和進一步利用的地點或附近進行數據分析并開發解決方案。因此,邊緣智能可以減少延遲、成本和安全風險,使相關業務更加高效。從網絡角度看,邊緣智能主要指部署在網絡邊緣的智能服務和功能[6],[7]。研究的重點是能夠自主管理資源和控制功能的自學習網絡和系統。這里的資源指的是通信(無線電頻譜)和計算(計算能力)資源,以及通信和計算中的相關能源。將大量本地數據傳輸到中央云進行訓練和推理是不切實際的。這就需要在無線鏈路上采用新的架構和相關的通信效率高的訓練算法,同時在網絡邊緣進行實時、可靠的推理。這種架構也帶來了新的挑戰:訓練數據訪問受限、推理準確率低、缺乏通用性以及邊緣設備的處理能力和內存限制[8]。

在本文中,我們考慮的邊緣計算網絡架構包含多種服務器(具有多種計算和存儲能力)和多種物聯網設備(產生多種通信和計算請求)。該架構如圖 1 所示。

圖 1. 邊緣計算網絡架構。箭頭代表各種通信和計算任務流。

將通信和計算(2C)任務優化分配到合適的服務器是一個具有挑戰性的問題。文獻 [9][10] 已對這一問題進行了探討。然而,由于對邊緣網絡組件的了解有限,這種優化并不總是可行的。因此,在這里,我們考慮使用機器學習(ML)對生成的 2C 請求進行分類。這種分類旨在支持將請求以近乎最優的方式委托給網絡邊緣的適當服務器。

5G/6G 網絡的架構將幾乎完全虛擬化,并基于軟件功能。因此,它很容易被黑客利用、攻擊和破壞。在敏感應用(如需要超低延遲和超高可靠性(URLLC)的關鍵任務應用)的情況下,對用于流量引導的 ML 算法的攻擊可能會導致致命錯誤[11]-[13]。在我們所考慮的邊緣計算網絡中,2C 任務應根據服務要求進行分類(例如,端到端延遲、數據包錯誤率 PER、委托任務的計算復雜性......等),分類標準可能會發生變化,但考慮到例如具有已定義的敏感度級別(從非關鍵任務到高度關鍵任務)的多類分類,任何錯誤分類都可能導致致命的分類錯誤,尤其是當類別接近分類器時。

在下文中,我們將研究這些攻擊如何影響 2C 任務的分類以及如何將其卸載到邊緣計算服務器上。在第二節中,我們將介紹選定的基于 ML 的任務分類方法,并在第三節中考慮對這些算法的安全攻擊。在第四節中,我們定義了安全評估所選擇的關鍵用例。第五節介紹模擬結果。在第六節中,我們將總結工作并討論進一步的研究方向。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

這篇調查論文探討了用于軍事指揮與控制(C2)系統的新興網絡方法。文中對以網絡為中心的 C2 系統進行了廣泛的文獻綜述。此外,它還對基于C2概念的范例進行了全面分析,將網絡化C2系統的重要需求與新興方法進行了映射。同樣,文章還探討了如何利用多智能體系統和網絡模擬的支持,真實地模擬網絡化作戰場景。文章分析了結合網絡方法設計創新解決方案的趨勢,以及多智能體系統在現實模擬中的應用前景。最后,文章討論了未來的實施方案,強調了先進的網絡解決方案,以整合不同的技術,推動技術邊界,提高網絡化軍事 C2 系統的效率。

將網絡中心戰的高層次C2要求與網絡服務相匹配

當前的軍事行動場景從戰爭狀態到非戰爭行動(OOTW)不等。后者越來越多地發生在城市,并涉及軍事人員以外的其他行動者(政府和非政府民間機構)。在這兩種情況下,相應的 C2 系統都需要處理高層次的作戰變量,如決策權的分配(在參與作戰的眾多行動者之間)、互動模式的建立(誰與誰溝通)以及信息的傳播(向 C2 中心和網絡邊緣的行動者)。

研究人員對這些變量的相互依存關系進行了研究[84],測試了戰術網絡并評估了不同組織和方法的性能。作者使用一個名為 ELICIT 的指揮與控制實驗平臺來推斷社會層(人類)在模擬行動中的表現,作為團隊組織和 C2 方法的函數,同時考慮到分層和邊緣拓撲結構。ELICIT 平臺可實現即時共享和完美的數據傳輸。因此,為了在現實場景中評估系統的技術層,使用了名為 EMANE 和 CORE 的網絡模擬平臺。評估結果從帶寬、信息分配和 C2 方法等方面提供了對組織的深入了解。這一基線為網絡設計人員提供了有用的信息,有助于在連續的任務行動中優化網絡參數。

在 IoBT 中,智能物體(用于收集和處理數據)與人類(將接收由此產生的相關信息)之間的復雜互動對傳統(分層)C2 造成了巨大影響,這為松散耦合(邊緣)C2 方法提供了空間[29]。由于沒有一種方法適合所有任務和情況[75],因此有必要獲得 C2 敏捷性,以確保戰場上的信息優勢。

根據 "網絡中心戰 "的原則,C2 靈活性是指當任務和環境發生變化時,識別、選擇和調整 C2 方法,甚至轉向另一種方法的能力。為實現敏捷性,C2 系統應將應用與網絡服務結合起來,使用能夠修改三個變量的范例,并可擴展到整個軍事云。然而,目前的系統主要是為人與人之間的互動而設計的,并沒有考慮到人與智能物的組合。

可以利用 SDN 原理來應對這些挑戰,如數據低參數的動態自配置和處理可變的交互模式。除 SDN 外,DTN 和 ICN 指南還可用于處理另一個變量: 數據分布。DTN 從間歇連接的角度進一步探索了 IoBT 的解決方案[12]。另一方面,ICN 可通過在軍用 IP 網絡中建立 SDN 管理的 ?ICN islands? 來定位和緩存內容[13]。在這種情況下,除了對網絡層次結構和優先級進行編程外,SDN 還將 ICN 集成到 IP 網絡的其他部分。

使用此類技術的網絡解決方案旨在優化 IoBT 通信參數,如延遲、信道帶寬、間歇和節點故障,以及節點移動導致的拓撲變化。SDN 對網絡進行協調,利用其可編程性,根據當前的運行要求選擇最佳網絡協議,并可根據功能和網絡狀態進行更改。例如,SDN 可以管理不同的網絡片段,根據網絡(和節點)狀態(帶寬、數據大小、信道延遲、信道可用性等)優化數據量。ICN(或 DTN)功能將利用數據平面在每個片段內進行有效的信息分發和人-物互動。

通過控制哪個節點可以發送/接收數據,SDN 可以在 C2 空間的第三個維度(決策權分配)上發揮作用。在執行任務期間,網絡管理員可根據任務或環境的變化修改這種分配,從而為在網絡中實現 C2 敏捷性提供技術手段。表 1 列出了 C2 Agility 變量及其與網絡范例的映射關系,以及采用每種范例提供的功能可改善哪些網絡參數。

表 1. 支持 C2 靈活性的網絡范例比較

支持指揮與控制的新興網絡方法

隨著軍事力量向 "網絡中心戰 "發展,并將決策和行動權力轉移到邊緣,所使用的網絡必須采用最有效、最可靠的網絡架構。因此,指揮與控制結構使用支持其需求的網絡范例是非常直接的。采用新興的網絡方法來幫助指揮與控制機構,旨在改進各種網絡參數,并盡量減少任何不足之處。這種支持既可單獨進行,也可組合使用,因為網絡范例并不相互排斥,可以一起使用。

圖 4 展示了如何在軍事行動中使用網絡范例。從左到右,圖中說明了孤立的 IoBT 設備如何利用 DTN 的原理,向經過的無人機存儲和傳輸數據。然后,由徒步士兵、無人機和裝甲車組成的異構軍事單元可以利用 ICN 加強數據傳播,并通過 SDN 控制器控制網絡路徑和配置參數。

另外,假設由于彼此之間的距離或物理障礙,信息無法中繼到另一個單元。在這種情況下,機載平臺可以存儲、攜帶和傳輸數據(如在 DTN 中)。SDN 控制器可接納新的友好節點進入網絡,而 ICN 則可提供額外保護,防止網絡內交換的信息受到惡意攻擊。最后,在敵后收集信息的偵察單元可以保存數據,直到進入近距離網絡范圍時再安全地傳輸其內容(DTN 的另一種用途)。

圖 4. 目前在 C2 領域使用的網絡范例

付費5元查看完整內容

現代空對空導彈依賴于通過數據鏈更新的目標位置和速度數據,直到其自身的尋的器能夠鎖定目標。數據鏈目標數據的質量取決于位置和速度更新的誤差、更新延遲和更新丟失。本文介紹了一個分析這些數據利用情況的模擬框架。該框架由描述目標、導彈和生成數據鏈目標更新的模型組成。文中介紹的多功能模擬實驗分析了數據鏈數據質量對不同空對空導彈性能的影響。性能的衡量標準是殺傷概率。模擬結果表明,在嘗試過渡到使用導彈的尋的器之前,最終更新的質量對性能的影響最大。除非很大比例的目標更新丟失或尋的器鎖定目標延遲,否則導彈通常可以在致命失誤距離內擊中目標。本文提出的框架適用于評估所有類型制導武器的性能。

1. 導言

飛機的作戰生存能力取決于對敵方探測和火力的控制。因此,現代空戰幾乎全部使用超視距導彈(BVR)。因此,現代空戰幾乎都使用超視距導彈(BVR)。要提高生存能力,就必須努力提高導彈的運動射程。設計人員試圖通過進一步開發導彈火箭發動機和采用空氣呼吸導彈發動機來實現這一改進。本文討論的現代空對空導彈(AAM)使用主動雷達或被動光電紅外尋的器。Stillion、Fleeman、Eichblatt、Norman 和 Watson 的著作中包括了這類導彈的實例。受可用空間和電力以及成本因素的限制,尋的器的探測距離仍然大大低于導彈的運動距離。因此,在目標進入尋的器的探測范圍之前,需要持續的外部目標數據為導彈提供支持。

由目標位置和速度更新組成的數據通過數據鏈路發送。目標數據可能來自單個傳感器,也可能來自多個空基、地基或空基傳感器,它們相互補充測量結果。使用獨立的傳感器平臺可使發射平臺在發射導彈后離開交戰區。主要傳感器是雷達和紅外搜索與跟蹤系統(IRST)。一旦射手確定了目標軌跡,就可以從自身或導彈傳感器的探測范圍和萬向限制之外發射導彈。在導彈飛行過程中,網絡成員可重新瞄準導彈或中止交戰。圖 1 是空戰場景的一個簡化示例。

圖 1. 使用數據支持導彈的現代 BVR 空戰。

在圖 1 中,地基和空基傳感器平臺提供的目標數據在網絡中融合,然后通過數據鏈路發送給包括導彈在內的網絡成員。現代網絡結構中存在各種類型的平臺,網絡中可以包含更多數量的傳感器。不過,就本文而言,平臺數量最多限于四架飛機。導彈的飛行分為三個階段:發射、中段和末段。在發射階段,導彈脫離發射平臺、加速并利用彈道整形獲得勢能。在中段階段,導彈利用數據鏈更新(DLU)和機載導航系統向目標引導。這些更新本身包含誤差和延遲。射程、角度及其速率的測量精度各不相同。由于大射程、數據鏈天線模式和電磁頻譜操作的影響,導彈不可能接收到所有 DLU。一旦目標進入尋的器的探測范圍和萬向節限制之內,導彈就開始捕獲目標。DLU 的估計精度和導彈導航系統與 DLU 的延遲確定了不確定度量,導彈據此搜索目標。導彈利用不確定度量來確保獲取預定目標。對位置和速度同時使用不確定度量,可使導彈嘗試對位置接近但速度不同的目標進行分類。參與測量目標和網絡跟蹤目標數據融合的傳感器的類型、數量和位置會影響體積的形狀和大小。一旦尋的器鎖定目標并似乎能提供可靠的數據,導彈就會進入終端階段并停止使用 DLU。數據鏈目標數據的質量取決于位置和速度更新的誤差、更新延遲和更新丟失。

網絡中心戰和導彈的發展增加了數據鏈的使用。因此,必須研究如何利用數據鏈目標數據來制定空戰戰術、技術和程序(TTPs)。本文介紹了為這些研究開發的導彈數據鏈分析(MisDA)模擬框架。特別是,本文將集中分析數據鏈數據的質量因素對反坦克導彈性能的影響。這里,性能的衡量標準是殺傷概率 PK,即導彈是否能進入目標的致命失誤距離內。這個 PK 不能高于探測概率 PD,后者描述了導彈鎖定目標的能力。本文的模擬實驗結果包括 PD 和 PK,以便更精確地分析數據鏈目標數據的質量。目標數據融合的確切貢獻不在本文討論范圍之內,本文框架僅使用了一個簡單的目標數據融合模型。

關于導彈自動駕駛儀和制導法的分析與開發以及飛機對導彈的規避機動,已經發表了大量論文。然而,這些論文并未考慮使用數據鏈目標數據。此外,還研究了數據鏈導彈的最佳支持時間以及小組在空戰中對 DLU 的最佳使用。這些研究并未涉及數據鏈數據的質量問題。一項研究使用了一種輔助方法來分析導彈向終端階段的過渡。另一項研究側重于開發雷達尋的器模型,使用了數據鏈數據的隨機位置誤差和丟失的 DLU 的隨機貢獻。在上述所有研究中,導彈模型都對空氣動力學、尋的器和推進器進行了簡化。上文討論的一些研究只使用了導彈模型的三個平移自由度(3-DOF)。沒有考慮提供目標數據的傳感器的精度或不確定性量。高保真導彈模型已被用于空戰 TTPs 分析、空勤人員培訓以及武器系統的性能分析和比較。然而,目前還沒有關于使用這類模型分析數據鏈目標數據的使用情況或其質量影響的出版物。

本文有兩方面的貢獻。首先,新的仿真框架--MisDA--包含了本研究中開發的傳感器平臺、數據鏈和目標捕獲模型。像 MisDA 這樣的綜合仿真框架,能夠對現代空戰中數據鏈的使用進行透明、可控的分析,這在非保密文獻中還沒有出現過。第二個貢獻是通過多功能模擬實驗證明了 MisDA 的用途,其中分析了數據鏈目標數據的質量因素對反坦克導彈性能的影響。此外,這些實驗還包括研究使用雷達和 EO 傳感器的策略如何影響質量因素。這些戰術包括傳感器的數量和位置以及雷達傳感器的模式等。此外,本文還說明了不同類型導彈對質量因素與導彈性能之間相互聯系的影響。此類分析尚未在非保密文獻中發表過。

本文結構如下。第 2 部分介紹了 MisDA 及其模型。第 3 節介紹了仿真實驗,第 4 節討論了實驗結果。第 5 節為結束語。

2. MisDA 仿真框架

MisDA 由描述導彈、目標、發射平臺(LP)、傳感器平臺(SP)、DLU 生成和目標捕獲的模型組成。MisDA 的結構如圖 2 所示。本文描述的模型以灰色標出,之前介紹的模型以白色標出。

圖 2. MisDA 模擬框架及其模型。

發射場景是指交戰的幾何形狀和參與行動者的飛行條件。它由 LP、SP 和目標的軌跡定義。軌跡指的是位置 p(t) 和速度 v(t) 的時間 t 歷史記錄。3-DOF 軌跡子模型根據用戶給 MisDA 的輸入,通過組合直線和水平飛行、爬升和下降、協調轉彎、上拉和編織機動等片段來生成這些軌跡。模型和子模型將在以下段落中介紹。MisDA 由 Matlab 實現,可在確定性或隨機模式下使用。

付費5元查看完整內容

作為 CAF JADC2 AUAR 項目的一部分,本文研究了聯合全域指揮與控制系統的需求,特別是開發中的先進作戰管理系統(ABMS),以考慮極有可能發生的授權分布式作戰。本文認為,先進作戰管理系統不應只關注高層決策者和傳統指揮與控制要素的需求,而應考慮到部隊一級的使用。報告介紹了空軍單位級情報部門的作用和職責,將其作為一個使用案例來說明這一點,以便在整個聯合兵力中進行開發。

正文

美國空軍前參謀長戴維-戈德芬(David Goldfein)將軍將開發中的先進作戰管理系統(ABMS)比作優步(Uber)的共享乘車應用。他描述了共同行動圖(COP)的相似之處,該圖可以顯示汽車和司機的位置,也可以顯示 "巡航導彈和攻擊型無人機 "的位置,從而實現乘客與汽車或射手與目標的高效自動匹配。在軍事方面,這樣一個系統展示了從傳感器到戰斗管理再到射手的連接,這樣,人與人之間的第一次互動就是海軍巡洋艦指揮官提出交戰選擇,以供最終決策。這種描述非常優雅,戈德費恩將軍無疑是想為大眾提供一個有用的說明,但即使是對聯合全域指揮與控制(JADC2)結構中的 ABMS 系統進行更多的技術描述,似乎也僅限于能夠實現更有效的中央指揮控制的系統。為了對抗未來高度對抗性的環境,像 ABMS 這樣的工具必須考慮整合各層次更廣泛的用戶。如果從一開始就不考慮任務指揮的分布式執行和廣泛使用,就有可能過度依賴集中決策,從而忽視下級操作人員的兵力倍增能力,并在無法與 C2 連接時危及作戰效能。空軍單位級情報(ULI)在支持飛行行動中的作用、能力和近期經驗表明,需要擴大 ABMS 的范圍,以實現彈性的 JADC2 和有效的聯合全域作戰(JADO)。

空軍部對聯合防務與發展組織的愿景認識到,"與近期的低強度沖突行動相比,JADC2 需要更大程度的分布式執行、更高程度的授權,以及對中央規劃和任務指導的更少依賴"。"由于通信能力下降和作戰環境發生重大變化等原因,需要通過 "基于條件的授權 "來實現這一點。授權允許通過使用任務類型的命令進行任務指揮,將上級指揮官的意圖明確傳達給行使授權的下級指揮官。這與空軍正在開發的未來分布式作戰概念(如 "敏捷戰斗部署"(ACE))非常吻合,該概念設想部隊在沒有與空中作戰中心(AOC)和其他 C2 平臺所體現的傳統集中式 C2 結構進行可靠通信的情況下開展行動。當除最短距離通信外的所有通信都被切斷時,空中遠征聯隊(AEW)指揮官或在不同作戰地點的更低級別的指揮官可能不得不在只有上級指揮官最新意圖的情況下執行本地 C2。從邏輯上講,這種分布式指揮調度可能涉及本地/可通信區域內多個領域和服務的能力。這種最具戰術性的 JADC2 將需要通過及時準確的友軍信息和敵方情報來實現。

ABMS 旨在提供態勢感知,使 JADC2 成為可能。它是一個系統,旨在通過通用應用程序和軟件開發工具包(SDK)將傳感器與作戰管理聯系起來,使開發人員能夠構建將信息傳遞到這些應用程序的平臺。組件應用程序包括數據源、人工智能/機器學習(AI/ML)、數據融合、COP 以及最終的 C2 功能。利用人工智能/ML 融合和評估所有可用傳感器數據并將其顯示給決策者的方法令人鼓舞,但現有文件顯示,指揮應用程序的主要客戶是 "未來的空間、空中、網絡和全域指揮與控制戰斗管理者",并列出了傳統的 C2 角色職業領域。這些職業領域通常與 AOC 和戰術 C2 平臺等傳統 C2 元素相關,這意味著其重點是改進當前模式下的決策制定,而不是重點構建可實現上述最分散和最授權形式 C2 的工具。盡管 ABMS 尚處于起步階段,傳統的 C2 要素是一個合理的起點,但必須擴大客戶范圍,將支持戰術決策者的參與者包括在內,直至單個射手。ULI 飛行員已經執行或預計執行的功能為 ABMS 功能的更廣泛應用提供了范例,這些功能將實現分布式 JADC2。

AFTTP 3-3.IPE 將 ULI 結構概述為一個應急情報網絡 (CIN)。CIN 包括 1. 作戰情報單元(CIC),負責綜合內部和外部來源,提供全來源分析,以支持聯隊指揮官、任務規劃人員、飛行單位以及網絡防御和兵力保護等其他聯隊職能部門,此外還負責協調聯隊向 AOC 等上級部門的情報報告;2. 情報人員納入聯隊任務規劃單元(MPC),以提供量身定制的威脅分析和目標數據;3. 中隊情報人員向飛行員提供針對任務的情報簡報,進行任務后匯報,并向中央情報中心報告從匯報中獲得的情報。圖 1 所示的所有這些職能對聯隊的行動都至關重要,可幫助指揮官做出決策,并為飛行員、保衛人員和聯隊其他人員提供威脅情報,通常還提供藍色作戰數據,特別是來自空中任務指令(ATO)等 AOC 文件的信息。簡而言之,如果能夠提供必要的情報和作戰數據,并利用有助于進行定制分析的工具,ULI 可以使決策制定深入到最底層,包括在某些平臺上執行任務時進入駕駛艙。

圖 1 CIN 的功能和關系

從條令上講,AOC 的情報監視和偵察處(ISRD)負責向部隊提供其所需的大部分作戰情報。情報監視和偵察處應以部隊支助小組為中介,通過情報摘要(INTSUM)、跟蹤威脅位置的作戰命令(OB)更新、匯集和評估所有部隊關于打擊目標和威脅位置及戰術變化的匯報數據的任務摘要、目標定位和武器設計數據,為聯合作戰環境情報準備工作(JIPOE)提供最新信息,并對總體局勢進行評估,同時還是答復部隊信息請求(RFIs)的主要樞紐。在實踐中,ISRD 的人員數量和單位經驗通常不足以在支持其他 AOC 部門和 ATO 生產的同時履行所有這些職能--這已經是一項幾乎不可能完成的任務。ABMS 所宣稱的傳感器融合、自動提示和 COP 生成等目標將使 ISRD 的許多分析、目標定位和收集管理流程自動化或輔助化,但不應將其視為簡單啟用 AOC 與部隊之間現有等級條令關系的一種方式。無論是由于物理距離、通信問題,還是由于缺乏定制產品所需的相關經驗,AOC 的部隊支持人員往往不具備滿足部隊需求的能力。

鑒于在日益復雜的作戰環境中,部隊一級需要大量的支持功能,而且預期 AOC 支持不會像條令所規定的那樣完整,因此 ULI 空軍人員經常依賴人工數據處理和分析。和平時期,根據聯隊任務定制的 JIPOE 是通過對一系列情報界(IC)來源的研究建立的。戰時更新則來自任何可用來源,包括原始報告。由于缺乏來自 AOC 的足夠詳細的信息或更新頻率,用于任務規劃的威脅 OB 是通過相對較新的多情報可視化工具(如 MIST 和 Thresher)建立的,盡管要求分析人員融合多種來源以得出最終評估結果。飛行員提供的任務數據仍需匯報并手動輸入報告系統,目前這些系統幾乎無法向大型多重情報工具提供反饋,因此必須臨時納入威脅位置和戰術評估。空中和防空行動固有的聯合性質往往也要求 ULI 人員了解兄弟部隊的能力,這通常是通過經驗和關系而非正式流程實現的。這些例子僅涵蓋了較為傳統的飛行支持要求,但其他任務(如兵力保護和網絡空間防御支持)對 ULI 空軍人員的要求可能會成倍增加。

考慮戰術級情報人員(如 ULI)以及他們所支持的分布式指揮官的信息需求,應從一開始就納入 ABMS 等系統。毫無疑問,向聯合部隊指揮官(JFC)、部隊指揮官及其 C2 機構等高級決策者提供信息仍然至關重要,但啟用 JADC2 的系統同樣需要預測權力如前所述被下放的情況,并隨時準備為責任加重的低級別人員提供量身定制的信息。最近的 ULI 經驗和針對 ACE 情景的規劃展示了一些在單位層面執行的職能實例,這些職能在理論上可能是 AOC 或其他 C2 要素的職責。這些功能包括:為有機傳感器建立作戰偵察目標甲板,以滿足當地的信息需求;直接向空中的飛行員傳達具有時效性的威脅或目標更新信息;以及執行先進的目標開發以實現打擊。了解這些可能的非理論使用案例的全部范圍,并將其納入 ABMS 開發和其他 JADC2 概念中,將使有能力的 ULI 飛行員能夠利用而不是圍繞經過測試的工具和理論支持真正的分布式行動。通過利用人工智能/人工智能支持的數據融合和顯示,消除來自不同來源的人工處理和分析,該領域的有意開發可簡化 ULI 的許多任務。

認識到像 ULI 這樣的行動者在開發 JADC2 系統中的重要性,突出了使系統在對抗性、分布式行動中發揮作用的一些額外要求。考慮到在不斷變化的作戰環境中,授權可能會迅速改變,因此必須在不同的用戶訪問權限中預置權限和數據顯示,以便在上級失去連接時自動激活。考慮到用戶可能會搬遷到條件較差的地方,系統應能在連接較少或沒有連接的情況下運行。這就需要在本地網絡上進行本地存儲和繼續運行,直到恢復更廣泛的連接,然后提供一種同步和突出顯示已更改信息的方法。所有這一切都需要對高層領導的風險承受能力進行認真的討論,而不是理論上的討論,以便在獲得最佳數據和合格分析師的情況下,在最基層做出決策。

這種情況不僅適用于分布式空中行動。在空軍條令中,納入系統開發可將作戰決策權下放到最基層的分布式執行,這與其他軍種的基本概念也是一致的。例如,陸軍的任務指揮概念是 "授權下級根據情況決策和分布式執行",使用任務命令明確概述指揮官的意圖。聯合海上條令還強調了海軍長期以來的傳統,即 "任務指揮涉及集中指導、協作規劃以及分布式控制和執行"。因此,條令框架存在跨多領域授權的可能性,如果適當地集成到 JADC2 系統中,就可以通過與 ULI 相當的實體支持來實現。這些系統最終將使下放的權力能夠跨域行使指揮控制權,盡管要在整個聯合兵力中建立有效的全域作戰知識還有很多工作要做。

即使有了先進的通信和數據處理技術,假定傳統 C2 結構中的決策在對抗性行動中會有效也是不明智的。像 ABMS 這樣的 JADC2 規劃和系統開發必須預見到真正下放權力的影響,以及最基層指揮官和操作人員的信息需求。空軍 ULI 提供了一個例子,說明如果將其納入這些新開發的范圍,用戶集合就能隨時支持分布式行動

付費5元查看完整內容

本研究報告分析了當前利益相關者對軍事自主系統的人為輸入或控制的想法。作者首先定義了關鍵術語,如 "機器學習"、"自主系統"、"人在回路中"以及軍事背景下的 "有意義的人為控制",然后討論了當代利益相關者的文獻對無人駕駛軍事系統的人的輸入/控制的說明。然后,報告討論了各利益攸關方是否對進攻性和防御性系統中所需要或期望的人類控制水平達成了共識,以及是否因系統具有致命性和非致命性能力或西方和非西方國家之間的意見不同而有所不同。報告最后從政策和操作的角度闡述了利益相關者的想法對加拿大國防部/空軍的可能影響。

主要研究結果

  • 在與自主系統有關的關鍵術語的定義方面存在著相當多的爭論。

  • 在國家對自主武器應采取何種監管手段的問題上,各利益攸關方一直存在分歧。

  • 參加這些討論的締約國已就自主武器的一系列指導原則達成共識,包括 "必須保留人類對使用武器系統決定的責任"。

  • 在近30個表示支持禁止致命性自主武器系統(LAWS)的國家中,沒有一個是主要的軍事大國或機器人開發商,主要的軍事大國似乎都在對沖自己的賭注。

  • 許多民主國家認為,他們打算保留人類對使用武力的控制/判斷,不需要禁止,因為現有的國際人道主義法律(IHL)足以解決圍繞自主武器的問題。

  • 加拿大擁有重要的人工智能(AI)能力,該能力被用于民用而非軍事用途。

  • 如果在國防領域不接受至少某種程度的(人工智能支持的)自主性,可能會降低與盟國的互操作性,給加拿大武裝部隊(CAF)的行動帶來風險,并且隨著時間的推移,使CAF對國際和平與安全的貢獻失去意義。

付費5元查看完整內容

本報告總結了網絡科學實驗方法項目期間的研究成果,大約涵蓋2017-2020年。該項目重點關注兩個主要議題:彈性網絡的上下文感知網絡和網絡安全。上下文感知網絡旨在改善戰術網絡及其支持服務的性能,使用上下文感知來加強目前的實踐方法,這些方法不一定考慮環境的動態和資源有限的邊緣設備和網絡的限制。彈性網絡的網絡安全旨在加強戰術網絡在動態和復雜對手面前的安全性。

參與本項目的美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員在相關主題的多個外部合作伙伴計劃的形成和合作中具有重要影響。這些項目的成果被納入任務資助的項目。這些合作伙伴計劃包括美國-英國分布式分析和信息科學國際技術聯盟(DAIS ITA)、戰場物聯網合作研究聯盟(IoBT CRA)、技術合作計劃(TTCP)和北約科學和技術組織信息系統技術(NATO STO IST)小組。

這項研究的影響包括:網絡模擬實驗驗證了支持理論結果的算法和技術的可行性,在網絡和通信研究界對研究成果進行了大量報道,并對陸軍概念科技(S&T)文件做出了貢獻。下文中總結的重點包括:利用沙堆模型開發網絡控制中的級聯故障的最佳控制,并確定可以防止級聯故障的條件;將密匙壽命提高一個數量級的物理層安全認證協議;以及對指揮與控制(C2)、火災和網絡科技概念文件的貢獻。

圖 1 包含理解、適應和執行周期的上下文感知網絡示意圖

付費5元查看完整內容

盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640

在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。

盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。

此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。

我們的貢獻總結如下:

  • 形式化加速:我們回顧DNN效率指標,然后形式化算法加速問題。
  • 分類和調研:我們通過適用于3個培訓管道組成部分的5個加速行動(5Rs)對200多篇論文進行分類(見表1和表3)。分類有助于為從業者選擇方法,為讀者消化文獻,并為研究人員識別機會。
  • 最佳評估實踐:我們識別了文獻中常見的評估陷阱,并相應地提出最佳評估實踐,以實現對各種加速技術的全面、公平和可靠的比較。
  • 從業者指南:我們討論了影響加速方法有效性的計算平臺瓶頸。根據訓練管道中瓶頸的位置,提出適當的方法和緩解措施。

有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。

付費5元查看完整內容

邊緣IT環境,如工業廠房,存在著大量分布式端點,為網絡罪犯和黑客們的攻擊提供了很多可乘之機。

管理此類風險要求正確部署網絡分段和落實各種安全設備。邊緣計算涉及將端點設備和系統與網絡進行連接。這些連接為黑客提供了潛在的攻擊途徑。降低這些網絡安全風險的解決方案需涵蓋設備、網絡和應用安全。

本白皮書探討了為實現有效的邊緣計算網絡安全策略所需的四大關鍵舉措的最佳實踐,包括:

(1) 設備選擇標準; (2) 網絡安全設計; (3) 設備配置; (4) 運行和維護。

付費5元查看完整內容

本文研究了以數據驅動的方式創建軍事決策行為模型的可能性。由于實際作戰行動的數據不多,而且在軍事背景下不容易創建數據,因此大多數方法都使用模擬器來學習行為。然而,模擬器并不總是可用的,或者很難創建。本研究的重點是通過在實地演習中收集的數據創建行為模型。由于數據通常是有限的、有噪音的和錯誤的,這使得創建真實的模型具有挑戰性。除了使用基于數據手工制作模型的傳統方法外,我們還調查了新興的模仿學習研究領域。其技術之一,獎勵工程,被應用于學習城市戰爭行動中士兵的行為。我們學習了基本的、但現實的士兵行為,這為將來建立更復雜的模型打下了基礎

【關鍵詞】行為, 模型, 模仿學習, 仿真, 軍事數據

I. 為什么需要行為模型?怎樣創建行為模型?

在教育、培訓、分析和決策支持中越來越多地使用模擬仿真,這導致了對軍事決策行為模型的更高要求。除了需要準確模擬物理行為,如坦克運動或子彈/導彈軌跡外,還需要模擬實體或車輛的真實戰術行為。這些虛擬參與者的決策過程被記錄在一個行為模型中。行為模型最早是在[1]中提出的,我們將它們定義為類人、人控或自主操作的現實世界系統行為的操作、概念、心理或戰術模型。

這種現實世界系統的例子可以是由指揮官指揮的坦克;由船長指揮的船舶;由飛行員駕駛的戰斗機;由地面操作員控制的無人駕駛飛行器(UAV);或人類行為者本身,例如,一個步兵。此外,我們不限制系統的大小。例如,我們也考慮將一個坦克營、一個艦隊或一個無人機群作為行為模型的合適對象。在軍事模擬中,當機器決定一個單位或部隊的行動時,這些系統被稱為計算機生成部隊(CGFs)。

新行為模型的開發和應用是一個復雜的過程。由于缺乏互操作性的方法和標準,導致各種模型四分五裂,大多只在單一的仿真系統中使用。早期的工作[2]調查了在開發的哪個階段可以實現行為模型的有效重用,以及需要哪些支持過程、技術和標準。一個結論是,人們對這一研究領域很感興趣,工具和標準也在不斷發展,AI(人工智能)及其創建性能良好模型的能力將在各種軍事應用中發揮巨大作用。另一個結論是,目前對于荷蘭國防部來說,在不同環境中重復使用行為模型的價值不足。與其說是重復使用模型,不如說是希望建立更加高效和有效的模型。實現這一目標的方法之一,是使用人工智能研究領域的最先進技術[3]。

在機器學習的應用中,正確和不正確的行為或決定的例子被提交給一個學習系統,希望該系統能夠歸納出這些例子。這被稱為監督學習[4],它的成功取決于許多因素(例如,算法、數據的大小和類型,以及實施技術)。在軍事背景下使用實際數據的一個問題是,數據可能被分類或根本無法獲得,因為軍事沖突的數量很少。

第二種常見的方法是在模擬器中部署行為模型,并使用生成的數據來改進模型的參數;而最常見的方法是強化學習[5]。強化學習的一個困難是,獎勵函數必須精心設計,模擬器中的任何錯誤都可能被利用,導致學習不希望的行為[6]。這種錯誤可能發生在人類從未遇到的不可預見的情況下,但算法由于在數百萬次的模擬中對搜索空間的探索而發生。此外,必須首先開發一個準確的模擬器,因為模擬中的錯誤可能被利用或導致學習不現實的行為[7]。在軍事環境中,強化學習方法是困難的,但也是有希望的[8]。

對于監督學習來說,需要大量高質量的數據,對于強化學習來說,需要高質量的獎勵函數和模擬器,而很多用例都存在兩者都沒有的情況。如果沒有大量的高質量數據,或者沒有能夠創建這種數據的模擬器,那么人工智能領域的許多技術就不適用。在這種情況下,并不清楚哪種方法能以最少的努力獲得最好的結果。因此,本研究旨在創建行為模型,以有效的方式顯示真實的行為,同時擁有很少的數據和沒有模擬器可用。為此,我們采用了模仿學習[9]研究領域的方法。模仿學習的重點是在師生環境中用專家的行為明確地訓練模型。如果模型能夠模仿老師的行為,它就正確地學會了行為。我們在研究中應用了這些技術,為在城市戰爭行動演習中行動的士兵和Boxer車輛創建行為模型。收集到的數據非常有限,而且沒有辦法創造更多的數據或能夠在模擬器中測試模型。

通過這項研究,我們的目標是行為模型,它可以促進(1)創建新的訓練場景,其中計算機生成部隊的行為被用于創建更好的場景[10];(2)通過將受訓者產生的數據與事先用我們的方法學到的正確行為模型進行比較,支持行動后的審查;(3)將基本戰斗技術的模型行為與士兵在戰場上的行為進行比較。如果士兵的行為看起來更成功,這可以促使調整基本作戰技術的想法;(4)為合成包裝生成逼真的模擬實體行為[11,12];(5)通過使用學到的行為為決策者提供建議,實現對指揮官提供基于模擬的決策支持。

第二節研究了創建行為模型所需的數據要求。第三節介紹了本研究的用例。第四節介紹了手工制作模型的傳統方法。我們在第五節中介紹了模仿學習這一新興領域的背景信息,并在第六節中介紹了其在本用例中的應用。最后,第七節提供了結論性意見。

II. 獲得正確的數據

為了創建有效的行為模型,我們必須了解在什么情況下,用什么情報和什么命令來記錄行為。行為數據和模型必須與決策過程相匹配。因此,在開始檢索數據之前,我們首先要了解軍事決策過程。

A. 軍事專家如何作出決策?

在軍事環境中做出任何決策之前,必須先了解情況。通過分析所有可用的信息,就能建立起態勢感知(SA)[13, 14]。在軍事術語中,SA是指揮官對戰場的理解[15]。SA可以分為三個層次[16]。第一個層次是對當前局勢要素的感知,例如,了解自己和敵人部隊的位置和狀態。第二是對局勢的理解。通過了解局勢中的物理元素和人員的動態,可以對局勢進行解釋。例如,一架敵機是在攻擊飛行路線上還是在執行偵察任務。第三個層次是對局勢的未來狀態的預測,例如,如果不攔截,敵機將向航母運送危險的有效載荷。只有達到高水平的SA,才能做出有效的決策[17]。有了足夠的經驗,可以在一瞬間做出決定,因為情況被即時識別。這些被稱為識別激勵決策[18],本質上是數據驅動的(經驗)心理行為模型。提高指揮官的安全意識的技術,有助于更好地做出決策[19]。

當情況變得復雜時,為了不忽略重要的信息,要遵循系統的方法。這種過程的一個例子是軍事決策過程(MDMP)[20]。這是一個漫長的過程,不適合在戰場上幾分鐘或幾秒鐘內做出決策。另一個例子是北約綜合行動指令(NATO COPD)[21]。在所有這些情況下,都要詳細研究環境信息以獲得SA,只有在獲得足夠的SA后才會做出決策。我們將行為區分為四個層次:在(1)戰略層面上,決策是基于(多)國家目標做出的。在(2)戰役層面上,決策是為了開展大型行動而作出的。

根據當前的行為水平,所考慮的信息量也不同,決策的速度也不同。盡管行為模型可用于從瞬間決策到大型規劃環節的任何級別的行為,但我們在本文中將范圍限制在戰術行為上

B. 如何使用行為模型進行決策?

就其本質而言,行為模型在做決定時遵循與人類相同的步驟。一個突出的框架是OODA循環[22]。這個循環的四個階段是觀察、定位、決定和行動。觀察和定向階段的唯一目的是獲得安全保障。這個軍事模型已經成功地應用于各種自主代理[23],并被應用于大量的情況[24, 25, 26]。

第二個框架被稱為BDI:信念、欲望和意圖[27, 28]。基本的BDI范式被廣泛用于在基于代理的方法中實現類似人類的智能,但往往達不到真正的 "智能代理",因為代理缺乏 "協調和學習"等理想特征[25]。BDI在[29]中得到了擴展,現在被廣泛用于實踐中。BDI可以用于OODA循環步驟中,并且通常被應用于定向和決策步驟中[30]。

在這兩種情況下,模型的創建者決定世界的哪些相關因素被包括在所謂的世界模型中,以及這些因素如何被允許相互作用。如果互動是嚴格定義的,那么就會使用一個更經典的方法,如規則引擎或決策樹。如果不能創建足夠明確的模型,那么機器可以接受任務,根據數據學習各因素的相關性(例如,用神經網絡)。在所有情況下,如果一個因素被遺漏了,要么是模型設計者沒有包括它的定義,要么是排除了相關的數據,那么模型就不可能考慮到它。因此,模型的性能與創造者對問題的洞察力息息相關。

在仔細設計、調整或學習模型之后,模型的使用就很簡單了。設計的因素輸入到模型中,并通過預先設計或學習的步驟進行轉換,以產生所需的輸出。由于設計、調整和學習的方法和組合的數量是巨大的,因此出現了各種研究學科,專注于高效創建模型的研究領域。許多這些研究領域需要數據來創建行為模型。

C. 獲取有用的數據

當談到軍事數據時,首先想到的是分類和分享數據的限制[31]。由于信息的分類級別通常是受限制的,例如國家或北約的級別,可以獲得的數據量是有限的。這意味著,任何研究都取決于是否有適當的許可,以及是否在數據供應界(通常是國防部)內有適當的聯系。在獲得接收數據的許可之前,人們必須知道并確定需要什么樣的數據。

創建行為模型的最佳數據來自于實際的戰斗行動。然而,從實際作戰行動中記錄的數據并不多,而且記錄的數據往往不能用于創建行為模型。為研究目的生成數據是不可行的,因為這需要與敵對勢力交戰。使用歷史數據也是有問題的,因為軍事技術和理論變化很快,所需背景的數據并不存在。

一個合理的方法是使用在訓練和演習中收集的數據。這樣的訓練可以是(1)在模擬環境中執行,使用建設性的模擬,如VR部隊,它可以模擬許多規模的部隊[32],或者(2)在現場與實際士兵一起執行。使用實際數據的承諾是,可以創建行為模型,而不需要創建(復雜的)模擬器來促進訓練。在這項研究中,我們希望能實現這一承諾,盡管使用原始數據會帶來各種問題,如噪音和缺失的背景。如第三節所述,我們選擇了移動作戰訓練中心的一次演習作為使用案例。

III. 用例:使用移動作戰訓練中心的城市戰爭

移動作戰訓練中心(MCTC)[33]于2003年由荷蘭國防部引進,使士兵能夠在真實的環境中練習作戰,但不使用彈藥。激光器和傳感器被用來模擬發射武器。該系統跟蹤士兵和車輛的位置、使用的彈藥和健康狀況。各種武器(如步槍、重機槍、間接射擊)、車輛(如Fennek、Boxer)和地形(如越野、城市)都可以納入演習。系統產生的所有數據都被記錄下來,以便在行動后的審查中使用。圖1顯示了一名使用MCTC訓練的士兵。注意頭盔上的激光傳感器在士兵被擊中時進行記錄,而槍上的激光則用于射擊對方的部隊。

圖1:一名士兵在MCTC中訓練[35]

我們選擇了一個在荷蘭訓練村Marnehuizen進行的演習,該村完全是為了訓練城市地形上的軍事行動而建造的[34]。圖2顯示了該村的概況。在選定的演習中,藍方部隊從東北部的橋上進入村莊,任務是清除村莊中的敵軍。一場挨家挨戶的戰斗持續了兩天,直到村子西側的最后一棟房子被宣布沒有敵人。

圖2:荷蘭Marnehuizen的城市環境中軍事行動訓練場的地形圖。(右圖)解析過的地形圖,半自動地從左圖中得出[34]。

記錄的MCTC數據包含士兵和車輛的定期位置。此外,數據中還包括射擊事件、命中事件、殺傷事件和車輛關聯(當士兵進入或離開車輛時)。這些數據可以讓訓練員對戰場的當前狀態有一個大致的了解。數據的一致性在幾個方面有所欠缺。士兵的位置每15秒才提供一次,而且是在網格上的一個單元中(單元大小大約為1米×1米)。士兵的方向沒有被報告。有時士兵會同時移動幾個網格單元,例如車輛快速行駛時。也并不總是清楚一個士兵是在建筑物內還是在建筑物外,因為建筑物的墻可能穿過這樣一個網格單元的中心。其他的局限性包括,并不總是清楚士兵在向什么地方開火,而且(未)登上車輛的不確定性很大。這些局限性對于獲得數據所針對的行動狀態的粗略概述來說不是問題,但對于訓練模型來說確實是一個額外的障礙。

V. 手工制作的行為模型

提高軍事行為模型真實性的一個直接方法是手動創建模型的結構,并根據收集的數據調整其參數。通過這種方式,專家保持對模型所能學習的內容控制,并且參數的調整應該很容易執行。創建的模型可以被看作是一種將數據與專家知識相結合的方法。該模型最常反映的是當前學說中明確定義的戰術或行為,如邊界超視距[36, 37]。然而,在這樣的方法中,模型永遠不會比它的創造者更聰明,因為在人造的結構中不存在創造力的空間。當更多的自由被賦予算法時,可以觀察到更多的創造力,甚至可以超過人類的表現[38, 39]。然而,手工制作的模型確實有一個優勢,那就是對軍事專家來說非常容易理解和解釋,因為該模型的結構與專家的決策過程非常相似。例如,這樣的模型可以通過比較從數據中產生的模型和正確行為的模型來用于行動后的審查,從而幫助只有有限時間分析訓練中所有數據的訓練教官向受訓者介紹情況。模型參數的巨大差異是學習點的指標。

在這一節中,我們想說明如何用Marnehuizen軍事演習的數據來創建和調整手工制作的行為模型。確定的用例是一輛Boxer車的行為,它為進行挨家挨戶作戰的士兵提供火力支援。該車被召喚到建筑物中,提供壓制性火力,并撤退,以便在很長一段時間內不容易受到反裝甲彈藥的影響。這種行為的示意圖見圖3。

圖3:Boxer車提供的火力支援示意圖。(1) 左上角:Boxer手的初始位置用紅色表示,一個步兵小組用藍色表示。(2) 右上角:Boxer車輛接近右下角的建筑物并提供火力壓制。(3) 左下角:步兵接近建筑物。(4) 右下角:Boxer的車輛撤退。

圖3中顯示的行為必須被抽象成一個模型。在這項研究中,我們純粹考慮時間方面。其他方面,如Boxer和步兵之間的相對位置,或Boxer和建筑物之間的相對位置,則留待今后的工作。我們對五個步驟進行了區分:

  • 1.Boxer進入射擊位置所需的時間。

  • 2.在步兵開始移動之前,Boxer提供壓制火力的時間。

  • 3.步兵移動到建筑物所需的時間。

  • 4.步兵到達建筑物和Boxer出發之間的時間間隔。

  • 5.清理建筑物并從步驟1重新開始所需的時間。

在這項研究中,我們重點關注步驟2和3。為了確定這些參數,必須知道Boxer和步兵何時到達建筑物。其他參數可以用下面描述的類似方法得出。在練習中,如圖3所示,要接近幾座建筑物,可以對這一程序的每一次迭代進行分析。根據Boxer車輛和步兵小組的位置,對建筑物的位置以及這種迭代的開始和結束時間進行注釋,是手工完成的,這已經是一項具有挑戰性的任務。由于有多輛車,第一個問題是:哪輛Boxer目前正在提供壓制火力?這輛Boxer是否真的在向選定的建筑物開火?射擊事件是數據集的一部分,但是當射擊沒有與命中事件相聯系時,就不知道射擊的方向是什么。特別是在壓制火力的情況下,大多數的射擊都沒有擊中任何可以記錄射擊方向的傳感器。這就使得人們猜測Boxer是在對建筑物進行壓制射擊,還是在對其他東西進行射擊。另外,步兵群的移動也不是微不足道的。從一個建筑到另一個建筑的小組并沒有被定義為戰斗順序(Orbat)中的小組:他們是在現場從排(Orbat中定義的)的可用士兵中挑選出來的,并在每次迭代中進行改變。為了能夠衡量任何必須學習(一組)士兵和輔助車輛行為的算法的有效性,數據集通過選擇提供火力支援的Boxer車輛和步兵清理建筑物的時間段進行了人工注釋。

從算法的角度來看,我們把Boxer到達現場提供火力支援的時刻定義為車輛離建筑物最近的時間段。圖4顯示了Boxer車輛的距離如何隨時間變化的例子。演習開始時的大峰值是因為Boxer在沒有積極參與的情況下停在一個大的距離上。

圖4:隨著時間的推移(X軸),Boxer(Y軸,以英里為單位)與目標建筑的距離。

Boxer車輛到建筑物的最小距離被選為火力支援的開始。這個衡量標準可能是有問題的,因為在建筑物被清理后駛過可能會進一步減少距離,但這是一個直接的計算方法。圖5顯示了計算出的事件和人工注釋的事件之間的絕對差異,以分鐘為單位。在最壞的情況下,該算法的錯誤超過600分鐘。由于演習需要兩天時間,而且晚上沒有運動,在錯誤的一天選擇一個時刻就會產生很大的誤差。可以得出結論,這種檢測Boxer何時提供火力支援的方法并不十分準確。

圖5:通過選擇 Boxer 到建筑物的最近距離,以分鐘為單位測量與手動注釋事件的差異。每棟樓都是單獨的一列,各列已按誤差排序(即第1列的建筑物誤差最大,第25列的樓房是誤差最小的建筑物)

對于檢測步兵何時在清理建筑物,可以采取稍微不同的方法。由于在演習過程中,清理建筑物的士兵小組會被定期洗牌,我們必須在數據中找到哪些(子)士兵小組實際上正在清理哪座建筑物。為此,我們把清場的時刻定義為X個士兵在距離建筑物Y米范圍內的時刻,而X和Y的參數應該被仔細選擇。請注意,藍軍的任何X名士兵,無論他們在戰斗順序中的分配如何,都足以觸發這一條件。對于每個建筑,不同的士兵可以觸發該條件。參數X和Y可以通過使用提供的數據來選擇,如表1所示。通過選擇5名士兵在建筑物15米半徑范圍內的時間戳,可以獲得最佳效果。圖6顯示了每個建筑物在這種設置下獲得的誤差。

表1 在不同的士兵人數和距離參數下,檢測到士兵清理建筑物的時間與人工標注的時間戳的平均差異。(x)表示在該設置下,有x次沒有檢測到建筑物的清場,因為在演習中沒有出現所需數量的士兵足夠接近建筑物的情況。這個數字代表了演習中26座建筑物的平均誤差。

圖6:與手動注釋事件的差異,以分鐘為單位,選擇 5 名士兵,建筑半徑為 15 米。每棟樓都是一個單獨的列,并且列已經按錯誤排序(即第 1 列中的建筑物錯誤最高,第 25 列的建筑物是錯誤最低的)

本節表明,用軍事數據調整專家模型是可能的,但并不容易。主要的挑戰是,在記錄數據的行為層面和我們試圖建立模型的層面之間存在著不匹配(見第二節A)。數據是在技術層面上記錄的(例如,在不知道射擊方向的情況下開槍),而我們試圖模擬的決策是在戰術層面上(例如,清除建筑物)。如果數據能在戰術層面上創建(例如,清除建筑物的時間戳),以及更精確和一致,專家模型就能更容易地創建。在數據采集步驟中,用戰術信息自動充實技術層面的數據,這本身就是一個具有挑戰性的課題。我們現在已經創建了兩個模型,為Boxer的火力支援理論做出了貢獻(見圖3)。為了完成Boxer的理論,還需要幾個模型,但由于很難從軍事數據中創建專家模型,我們決定研究一種完全不同的方法:模仿學習。

V. 模仿學習

模仿學習技術試圖模仿人類在特定任務中的行為[9, 40]。這些技術屬于更廣泛的觀察性學習范疇。在一般的觀察性學習中,原始行為不一定是由愿意或知道的參與者創造的[41]。模仿學習可以被看作是觀察學習的一個特例,學習的目的是在相同的情況下再現與原行為完全相同的動作,以及展現以前未見過情況的逼真行為。模仿學習與示范學習密切相關,在示范學習中,人有目的地示范如何執行任務,以使代理執行同樣的任務[42, 43]。從示范中學習這一術語經常被用于機器人技術[44, 45, 46, 47]。

除了在機器人領域的廣泛應用外,模仿學習也被應用于模擬器和游戲。玩家的行為可以通過這種方式被輕易地記錄下來,模擬器或游戲可以被用于訓練目的[48, 49, 50, 51]。一些應用側重于模仿玩家的確切行為,以便將學到的行為用于其他目的。例如,在[52]中,玩家在賽道上的行為被學習,這樣新的賽道就可以使用模型進行測試,而不是由人類游戲測試員進行測試。其他工作的重點是利用人類的例子來創造超人類的表現[53, 54, 55]。

模仿學習大致可以歸為三類。(1) 在最基本的形式中,人們有一個標記的狀態集。這些標簽是人類在給定狀態下選擇的行動。現在,這個問題可以被當作一個有監督的學習任務來處理,類似于分類任務。這種方法被稱為行為克隆[47]。行為克隆不需要訪問一個模擬器。(2) 當一個人確實有機會接觸到模擬器,因此也有機會接觸到狀態轉換內核時,我們說的是直接策略學習[50]。在這個類別中,我們知道行為人在每個狀態下的可用行動是什么,并且可以學習一個過渡策略。過渡策略在所有可用的行動中選擇最理想的行動。(3) 當人們對學習人類在評估未來狀態時使用的狀態屬性值權重感興趣時,我們說的是反強化學習[56]。這些方法通常使用過渡核來觀察可能的未來狀態,以便創建一個類似于人類演示者偏好狀態的可解釋評價函數。

手工制作的模型和模仿學習的主要區別在于算法在正確再現行為方面的自由度。在提供火力支援的Boxer的手工模型中,我們選擇距離是決定當前提供火力支援的最有辨識度的因素。唯一需要調整的參數是距離閾值。在模仿學習的環境中,算法被提供了所有的狀態信息,并被給予自由來決定最相關的特征是什么。這種方法在很難手動創建合適的模型領域中特別成功[57]。

VI. 模仿軍事專家

模仿學習在軍事領域也有一些應用[58, 59]。例如在[60]中,模仿學習被應用于學習計算機生成部隊的決策策略。所學到的行為隨后可以在模擬器中用于訓練士兵[39]。

前面提到的研究有一個共同點,就是使用人在環模擬器來收集人類案例。它確切地知道當前的狀態是什么,可能的行動是什么,以及采取了行動后的下一個狀態會是什么。這使得行為模型的創建成為可能。然而,在MCTC數據的情況下,只有狀態信息是可用的,沒有關于當前可用行動的知識,也沒有關于士兵的信息位置是什么。例如,只知道士兵的位置,而不知道士兵所面對的方向或士兵正在考慮的潛在行動。這個問題在文獻中被定義為從觀察中模仿(Ifo)[61]。Ifo可以進一步細分為基于模型和無模型。在基于模型的情況下,要么必須學習從狀態到行動的轉換,要么必須學習從狀態-行動對到下一個狀態的轉換。MCTC的用例屬于無模型的范疇。在這個類別中,我們可以進一步區分為:(1)使用模擬器收集數據并將數據與專家示范進行比較的對抗性方法,以及(2)獎勵工程[62],用于學習狀態獎勵函數。典型的例子是通過觀看一個人執行所需任務的視頻圖像來學習一個任務[63, 64]。

由于MCTC沒有可執行的模擬器,對于MCTC的用例來說,只有獎勵工程是一個可行的選擇。我們開發了一個系統,當給定當前的參與狀態時,能夠預測未來一定秒數的狀態。這與[65]密切相關,后者在強化學習環境中使用預測狀態和實際狀態之間的差異作為獎勵函數。主要的區別是,由于沒有模擬器,所以不能用MCTC的數據進行強化學習。

我們必須定義 "狀態"在MCTC方面的含義。收集到的數據包擁有完整的數據,包括所有士兵和車輛、藍色和紅色部隊的數據。如果把整個交戰過程看作是狀態(即所有玩家和環境中一切事物的狀態),那么就有可能出現天文數字般的許多下一個狀態,例如每個士兵或車輛可以向任何方向移動。而且,士兵也不是用所有的全局信息來決定自己的行動,而是用自己的局部信息。因此,我們將狀態定義簡化為士兵的局部環境,并試圖預測士兵的下一個位置。盡管士兵的狀態還有很多,如射擊狀態、健康狀態、當前姿勢,但我們目前只關注預測下一個位置,以便評估獎勵工程的適用性和MCTC提供的數據的適用性。

周圍的狀態特征被抽象為一個網格,每個網格單元和特征的組合都是決策的輸入。做出決策的士兵位于網格的中心位置。真正的士兵有可能考慮到網格外的信息(例如,當能見度好時,或通過無線電接收信息時),但我們只考慮到屬于網格單元內的信息。也有可能目前考慮了太多的信息,因為包括了不在視線范圍內的信息(例如,當有建筑物擋住時)。可以增加士兵可能考慮的各種特征:河流的位置、一天中的時間、當前的任務、剩余的彈藥、當前的健康狀況、過去采取的行動等等。這與士兵的實際推理方式越接近,預計學習結果就越準確。

在我們的環境中,我們使用一個8x8的網格,每個網格的實際大小為83米乘83米,如圖7所示。我們考慮到友軍和敵軍士兵的鄰近情況。在圖7的狀態中,士兵西北面的單元格中有1名友軍士兵,而其他單元格都有0名友軍士兵,西南面有一名敵軍士兵。位于網格外的士兵沒有被考慮在內。我們還考慮到過去采取了什么行動(即過去三個episode的位置)。這個輸入網格是重復的,并為三個歷史episode中的每一個填補。我們選擇以15秒為一個episode的步驟,因為這符合MCTC收集數據的速度。任何更短的時間都是沒有用的,因為在各集之間沒有新的位置被告知。

作為監督學習的目標,如圖8所示,使用3乘3的網格,單元的寬度和高度為2米。單元的大小與數據記錄的分辨率一致。網格在單元移動到的位置上有一個1,其他地方有0。在單元的下一個已知位置在網格之外的情況下,將選擇最近的網格位置作為目標。

圖7:用于決策的局部特征的輸入網格。每個單元是83x83米,我們計算每個單元中友軍和敵軍的數量。最后三個episode的輸入網格構成了神經網絡的輸入。

圖8:決策的輸出。一個3x3的運動位置的網格,每個單元是2x2米。箭頭表示根據MCTC的數據,15秒后士兵的位置在左下角的網格單元,這個單元被用作情況的監督標簽。

我們訓練一個具有3個隱藏層的全連接神經網絡,每層有100個隱藏神經元。我們使用整流的線性單元激活函數和平均平方誤差作為損失函數。一個有趣的討論是如何評估創建的神經網絡的性能。雖然預測位置的小差異看起來并不壞,但一系列的小差異會在以后累積成一個大的差異。同時,一個決定可以將士兵帶入一個不同的環境(例如,通過左邊或右邊的建筑物)。這個決定點之后的行動可能會有很大的不同(例如,向左走時要找掩護,而向右走時要成功清除建筑物)。因此,我們無法評估士兵行為的真實性,除非準確的位置和狀態已經在原始數據中出現。

因此,我們以兩種方式來衡量學習行為的真實性。(1) 基于原始數據,使用測試集上的精度和召回率,這是定量的衡量標準。(2) 我們重新播放軍事演習,其中一個或幾個單位由所學模型控制,并判斷其行為。所有其他單位都使用原始數據進行放置和移動。這提供了對所學行為的洞察力,這是一種定性的衡量標準。

表2顯示了監督學習方法的衡量標準:準確度、精確度、召回率和f1-score。請記住,有9個輸出單元,隨機猜對的概率是0.11,在這種情況下,所有四個衡量標準的值預計都在0.11左右,用于隨機猜測。訓練集是平衡的,所以每個輸出單元都有同等數量的例子。表2顯示,準確度比隨機猜測高,但離穩定地預測下一個狀態仍有距離。

表2:預測士兵下一個狀態的量化

為了分析所學模型的行為,我們在演習中放置了一個由該模型控制的單一士兵。顯示了由模型創建的士兵的運動路徑與原始士兵的運動路徑的比較。這里我們看到,神經網絡的移動方式與原始士兵的移動方式大致相同。這個例子也突出了處理這些數據的難度。原始士兵的位置(綠色)有時會出現大的跳躍(例如,東部的第一個數據點附近沒有鄰居)。

圖9:模型的移動和實際的移動比較。突出顯示的藍色位置是由神經網絡引導的士兵。高亮的綠色位置是原始士兵的實際位置。兩者的起點都是在城鎮的東邊,并且都逐漸向西移動。

通過分析這些痕跡中的幾個,我們可以得出結論,該模型學到了兩個與實際士兵行為相似的行為特征。(1) 靠近友軍士兵是有益的。士兵們經常作為一個群體移動,模型通常選擇向友軍單位移動。(2) 當歷史上的移動是朝著一個方向的時候,下一次移動也是朝著這個方向的概率很高。由于士兵有一定的任務,即清除建筑物,所以士兵一直向目標方向移動,直到到達目標為止,這是合理的。盡管這些特征是有道理的,但它們也在某些情況下產生了不現實的行為。(1) 當多個士兵被模型控制時,他們往往會相互粘在一起,停止移動。人造的士兵并不想與對方拉開距離。(2)當一個模型控制的士兵進入一個沒有朋友或敵人的領地時,它傾向于一直朝同一方向行走,直到退出戰場。由于預測是由最近的歷史移動主導的,而所有其他的輸入都是0,所以模型決定繼續朝同一方向移動。造成這種情況的原因之一是,當前的任務不是輸入特征的一部分。

我們認為,這一結果表明,在自動創建一個基于獎勵工程方法的士兵決策過程模型方面邁出了第一步。雖然目前只學到了基本的行為,但我們預見到,當更多類型的輸入,如地形特征和命令,被納入學習過程中時,會出現更復雜的模式。

VII. 結論

本文研究了以數據驅動的方式,利用軍事決策創建單位行為模型的可能性。我們表明,用軍事數據調整由主題專家創建的模型參數是可能的。但對于數據而言即使是手動注釋的,也不能直接使用。由于數據的收集是為了其他目標,行為背景是不同的,這阻礙有效使用數據達成我們的目的。我們調查了模仿學習這一新興的研究領域,并將其應用于學習預測城市建筑清理工作中的士兵行動這一用例。這種技術不僅可以在相同的情況下再現真實的士兵行為,而且還可以對行為進行概括,以獲得以前未見過情況下的真實行為。雖然該研究領域有許多子領域,但目前只有獎勵工程似乎是適用的,在既沒有模擬器,也沒有可能性在一個狀態下檢索一組動作來學習動作策略的情況下。我們通過嘗試根據本地狀態信息來預測士兵的下一個狀態來證明獎勵工程的方法。神經網絡學習了兩種基本的士兵行為特征,在某些情況下創造了現實行為,而在其他情況下則表現出不合邏輯的行為。我們認為,不符合邏輯的行為仍然可以通過額外的特征輸入進行改進。

我們的總體結論是,模仿學習對于創建軍事決策的行為模型似乎很有希望。如果成功的話,以這種方式創建的行為模型可以在幾個方面給軍隊帶來好處。例如,可以考慮為創造新的訓練場景做出貢獻,在這些場景中,計算機生成部隊的行為得到了改善,通過比較受訓者的行為和學到的正確行為來支持行動后的審查,比較并調整基本的戰斗程序以適應戰場上的行為,能夠顯示準確行為的模擬實體合成包。根據所開發模型的準確性,一些應用可能比其他應用更容易支持。例如,在決策支持環境中,與合成包環境相比,對精度的要求可能更高。

在未來,我們希望(1)創建自動方法,通過在戰術層面上創建額外的背景來預處理MCTC的數據。我們想到的方法有:估計當前的觀點,或當前執行的是什么(類型的)命令。這種額外的背景可以幫助改善模型的參數調整。(2)我們想改進獎勵工程方法的特征集,以使行為更加真實。(3) 我們想探索可解釋的學習方法,以便使學習的行為更加明確。然后,解釋可以用于各種目的,如行動后審查。

致謝

這項研究有助于V/L1801 AIMS(AI for Military Simulation)研究計劃,研究如何有效地創建軍事行為模型,用于解釋和模擬(人類和實體)行為。

付費5元查看完整內容

深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0059156

付費5元查看完整內容
北京阿比特科技有限公司