過去幾十年來,軍事研究人員開發了基于人類感知的搜索模型,并將其應用于傳感器設計和實施的軍事和商業領域。這些模型主要是針對靜態圖像創建的,如果給觀察者無限的時間來做出瞄準決策,它們能準確預測靜止目標和靜止傳感器系統的任務性能。為了考慮必須在較短時間內做出決策的情況,我們開發了限時搜索模型來描述任務性能如何隨時間變化。最近,該模型又有了新的變化,以適應動態目標情況和動態傳感器情況。后者是為模擬車載傳感器的性能而設計的。在此,該模型被用于優化草叢中緬甸蟒的近紅外搜索傳感器配置,包括靜態圖像和移動傳感器平臺錄制的視頻。通過將已建立的動態傳感器模型與相機矩陣理論相結合,可以利用測量到的靜態人類感知數據來優化傳感系統選擇和傳感器操作,包括傳感器指向角、高度和平臺速度,從而最大限度地提高人類從移動傳感器平臺探測近距離地面目標的搜索性能。為了說明這一點,將這一方法應用于從移動傳感器平臺檢測近紅外緬甸蟒蛇。
本論文借鑒了啟發式和元啟發式算法開發、資源分配問題和調度等領域的知識,以解決空軍的關鍵問題。世界依靠許多時間表運行。人們依賴于這些時間表,并期望它們準確無誤。需要一個可以動態調整時間表的過程,以便高效地完成任務。例如,太空監視網絡依靠時間表來跟蹤太空中的物體。該計劃必須利用傳感器資源跟蹤盡可能多的高優先級衛星,以獲得軌道路徑,并對碰撞路徑發出警告。衛星與其他軌道物質之間發生的任何碰撞都可能是災難性的。為了解決這一關鍵問題領域,本論文引入了單目標進化任務器算法和多目標進化算法方法。這兩種方法的目的都是制定太空物體跟蹤時間表,以確保對優先級較高的物體進行適當的潛在問題評估。模擬結果表明,這些進化算法技術可以有效地制定時間表,確保對優先級較高的太空物體進行跟蹤。這些算法適用于一系列動態調度領域,包括太空物體跟蹤、災難搜救和異構傳感器調度。
采用神經網絡模型的預測系統已被部署到非安全關鍵領域和高度安全關鍵領域。當模型無法達到預期性能時,通常很難找出根本原因。在故障可能造成不可挽回的損失或生命或財產損失的領域,必須采取措施向使用這些系統的人員提供可靠性,在設計過程中已經通過深思熟慮的分析降低了風險。本論文展示了系統理論過程分析(STPA)作為一種可重復的方法,用于選擇和校準機器學習開發行為,從而在機器學習開發生命周期(MDLC)中提供保證。STPA 是一種系統分析方法,可識別安全關鍵型系統中由組件級交互引起的組件危險。在這項研究中,STPA 被用于評估機器學習開發的安全性,它符合負責任的人工智能(AI)原則,適用于一個利用分類模型根據音頻特征檢測海上船只的系統。分析結果提出了一些建議,這些建議可以主動指導人工智能設計過程,從而使生命周期每個階段的決策都能得到解釋。結果表明,通過應用這種方法,人工智能系統的可靠性更高,部署更安全。
圖 4.1:相關系統內的活動示意圖。在這個擬議版本中,矢量傳感器與信號處理能力和神經網絡模型一起部署。在執行聯合和主動學習程序時,每個傳感器部署的本地模型都會更新。
通過整合人工智能輔助指揮系統和無人技術,未來戰爭正在經歷變革,這將對作戰行動和軍事決策周期所需的速度產生重大影響。未來的決策支持系統將協助軍事決策者評估威脅,為部隊制定最佳行動方案,甚至通過自主系統的協作群行為執行行動。要實現這些系統,建模與仿真以及先進的深度強化學習(RL)技術的結合將發揮至關重要的作用。
本文介紹了德國陸軍概念與能力發展中心和空中客車公司開展的幾項研究的結果。這些研究評估了模擬和人工智能技術的調整和利用情況,利用 RL 優化模擬 "ReLeGSim "訓練了一個能夠在陸軍作戰中充當營級指揮員或在 ISR 任務中控制無人機群的AI智能體。AI智能體利用語言模型生成自然語言命令,在 ReLeGSim 中執行行動,加強了人類顧問與人工智能系統之間的交流,同時將目標和條令納入人工智能推理過程。通過軍事條令感知反饋功能,智能體在每個訓練周期內評估并改進其行為。
訓練完成后,AI智能體可應用于真實世界的場景,根據所學的AI智能體策略為營長制定行動方案,或直接在自主系統中執行,以控制無人機蜂群。這項研究為使智能體具備在未來行動中維護軍事條令和規則的能力奠定了基礎。
近年來,人工智能(AI)取得了長足的進步,而強化學習(RL)則是其中一個突出的范例。強化學習因其在 Dota2 和《星際爭霸》等復雜游戲場景中實現卓越性能,甚至超越人類能力的能力而備受關注。它已成為機器學習領域用于解決復雜任務的最先進的人工智能技術。
當前軍事研究的主要目標是將最初為游戲應用而設計的 RL 技術移植到軍事行動領域。其總體目標是為軍事行動開發基于人工智能的系統,使其在許多使用案例中都能表現出超人水平的性能,例如[16]:
戰場決策: 通過使用模擬環境,RL 可用于訓練智能體在復雜的軍事場景中做出決策[1]。人工智能做出的決策可用作向指揮官提出的建議,例如,有效的行動方案。
自主系統: RL 可用于訓練智能體在模擬環境中控制軍用車輛(如無人機、坦克)[2]。智能體可以學會在環境中導航車輛并執行各種任務(如偵察、目標捕獲)。經過訓練的智能體可以轉移到真實車輛上,而無需重新訓練人工智能。
規劃與優化: 例如,RL 可用于優化軍事模擬中的后勤規劃[3]。智能體可以學習將資源(如部隊、補給)分配到戰場的不同區域,以實現任務目標,同時將損失降到最低。
網絡安全: 在軍事模擬中,RL 可用于訓練智能體檢測和應對網絡攻擊 [4]。智能體可以學會識別和減輕對軍事網絡和系統的威脅。
培訓與評估: RL 可用于在模擬中培訓和評估軍事人員 [5]。智能體可以模擬不同的場景,并對受訓人員采取的行動提供反饋。
應用于 RL 的技術在不斷變化和改進。變壓器模型[6]等新架構和 SiLU [7]等新激活函數正在進一步改善用 RL 訓練的人工智能體的架構和整體性能。轉換器模型允許使用新的架構,如視覺轉換器(VisionTransformers)[8],也是所有最新大型語言模型的基礎,如 OpenAI [9] 的 GPT(生成預訓練轉換器)。
在這些發展的推動下,本文研究了如何使用新的語言模型架構來解決軍事行動所需的巨大行動空間問題,并提高智能體的整體性能。
在 RL 中,復雜的決策能力往往伴隨著巨大的行動空間,而緩解行動空間爆炸是一個活躍的研究領域。論文 "不斷增長的行動空間"[10] 強調,隨機探索對于大型空間來說不夠好,課程學習對于學習這些行動空間至關重要。最近的發展使用了以自然語言為特征的動作空間,并成功地利用了其復雜動作生成的靈活性[11]。
自然語言處理領域的最新進展激發了開發人員拓展使用自然語言的可能性。語言模型通常用于問題解答和對話。不過,這些模型也可以通過 RL 訓練與環境互動。在他們的論文 "學習用語言模擬世界"[12]中,介紹了構建智能體的概念,這些智能體可以理解并以多種方式使用不同的語言,包括傳達常識、描述世界狀態和提供反饋。其核心思想是,語言可以幫助智能體預測未來,包括將觀察到什么、世界將如何表現以及哪些行為將得到獎勵。作者介紹的 "Dynalang "是一種學習多模態世界模型的智能體,它能預測未來的文本和圖像表征,并根據模擬模型的推出做出決策。與傳統智能體不同,Dynalang 不僅使用語言進行行動預測,還使用語言預測未來的語言、視頻和獎勵,從而獲得豐富的語言理解能力。此外,Dynalang 還可以在沒有動作或獎勵的語言和視頻數據集上進行預訓練,它能有效地利用語言來提高從網格世界到逼真家庭掃描等各種環境中的任務性能。
RL 的另一個重要方面在于獎勵系統的適應性,即為智能體提供激勵措施以鼓勵所期望行為的概念。獎勵塑造是一種用于系統修改這些獎勵結構的技術。在實踐中,這涉及對獎勵進行微調,以引導智能體實現特定目標。舉例來說,在迷宮導航的背景下,人工智能體可以在探索之前未知區域時獲得遞增獎勵,從而刺激全面探索。另一種策略是元學習或多任務學習,它使人工智能系統能夠同時監督多個可能不同的目標。這種方法類似于同時掌握幾項任務,通過在這些任務之間共享所獲得的知識和技能來實現。然而,在人工智能中動態改變獎勵功能的過程伴隨著內在的挑戰。
如果目標的轉變過于突然,人工智能系統可能難以適應,需要進行資源密集型的再訓練。頻繁改變目標可能會給人工智能帶來困惑。總之,在人工智能中動態調節獎勵機制的做法體現了一種強有力的工具,盡管這種工具需要謹慎管理。首要目標是在人工智能的學習過程中實現適應性和穩定性之間的平衡,確保在適應不斷變化的目標和保持有效的學習動力之間達到和諧的平衡。
最近發表的論文“Designing Rewards for Fast Learning”[13] 探討了獎勵函數設計對 RL 智能體學習速度的影響。它強調了選擇基于狀態的獎勵的重要性,這種獎勵能最大化行動差距,使智能體更容易區分最優行動和次優行動。論文還引入了最小化一種稱為 "主觀折扣 "的度量的概念,以鼓勵智能體在減少前瞻性的情況下做出最優決策。為了解決獎勵設計問題,本文提出了一種線性編程算法。在表格環境中使用 Q-Learning 的實驗結果表明,生成的獎勵能加快學習速度。該研究確定了獎勵設計的三個關鍵原則:1)與獎勵目標相比,懲罰每一步有助于加快學習速度。2) 沿目標軌跡獎勵子目標時,獎勵應隨著目標的接近而逐漸增加。3) 只有經過精心設計,在每個狀態下都不為零的密集獎勵才是有益的。
ReLeGSim(強化學習通用人工智能訓練模擬,如圖 1 所示)是一個類似棋盤的模擬環境,用于強化學習,以開發棋手在游戲中的自我優化策略。任意棋手都要通過一系列棋步達到目標,并且可以相互影響。ReLeGSim 可用于模擬各種民用和軍用場景,如 ISR 任務或大營地面作戰場景。ReLeGSim 允許為類似國際象棋游戲的環境定義角色,賦予它們相應的屬性和可能的行動。為此,可以使用 Python 編程語言,通過適當的特定應用仿真模型(如傳感器)對仿真進行擴展。
在 ReLeGs1 研究范圍內,ReLeGSim 被配置為 2 個營的對抗模型,其中每個營的指揮官都必須指揮其指定的連隊和支援單元。它允許玩家(無論是人類還是智能體)在攻擊或防御的戰術場景中生成營的命令。該模擬由論文[1]介紹,使用了用于強化學習的 "Gymnasium "API[14]。
圖 1 ReLeGSim 用戶界面
在模擬游戲中,一名玩家扮演進攻方,旨在從防守方手中奪取一個特定的目標區域,而防守方則必須在整個過程中守住該區域。雙方玩家都可以使用由排和單個單元組成的各種具有獨特能力的連隊。要想取得成功,玩家必須了解對手的觀點,了解自己連隊的能力,并有效地控制地形。
圖 2 人工智能工具鏈 - ReLeGSim
人工智能工具鏈(圖 2)可根據矢量、高程和衛星信息等真實世界數據自動創建三維地形。然后,柵格化地圖將用于 ReLeGSim 中的人工智能訓練,并為不同區域分配特定的實地類型(如森林或道路)。帶有附加工具的模擬旨在提供一個平臺,通過強化學習訓練不同的人工智能模型,同時也支持人類與人工智能的博弈。因此,可以對訓練好的智能體的能力進行基準測試、評估和分析。該工具鏈還包括對訓練好的人工智能體進行自動測試,并根據客戶需求提供各種指標和復雜的分析。
ReLeGSim 的作者從 DeepMind 的 AlphaStar [15](復雜 RL 問題的領先模型)中汲取靈感,開發出一種創新架構(圖 3)。受軍事戰術的影響,該設計利用標量數據和可視化地圖進行場景觀察。標量數據包括部隊人數和彈藥,以擴展人工智能的視野。所有輸入參數都經過歸一化處理,以提高訓練效果。標量值采用多頭注意力網絡,而不是全連接層,提高了智能體的質量。為了了解地形,人工智能接收了包含大量地形信息和實體編碼的可視化地圖。為了將這些豐富的數據納入人工智能,我們開發了一個帶有卷積層的空間編碼器。
通過自動編碼器設置對架構進行評估,并將其減少到最低限度,將參數從 200 萬減少到 4.7 萬,并生成一個預訓練模型。可選的語言輸入可將目標或任務考慮在內。在分層設置中,給定任務可由上級智能體定義。來自視覺、任務和標量數據的編碼值被輸入到一個核心網絡(LSTM 組件)中,以處理長期規劃。
行動頭(action head)最初是基于 AlphaStar 實現的多離散行動空間。由于行動空間不斷擴大,行動頭被一個基于最新研究的語言模型所取代,該模型可預測自然語言中的行動指令。
圖 3 ReLeGSim 使用的人工智能架構
人工智能的復雜決策能力問題伴隨著 RL 中巨大的行動空間而產生,隨著 RL 應用變得越來越復雜和逼真,這也是一個巨大的挑戰。小而固定的行動空間在表現力、探索性和效率方面都有局限性。研究人員正在不斷開發新的技術和算法,以減輕不斷膨脹的行動空間所帶來的影響,如函數近似、離散化和分層 RL。這些方法使智能體能夠處理日益復雜的任務,并更有效地應對大型行動空間的挑戰。隨著 RL 的不斷進步,解決行動空間爆炸的問題仍將是一個重要的研究領域,以便在現實世界中成功應用 RL。
利用自然語言與人工智能建立交流的方法(如文獻[2]所示),以及利用自然語言制定條令的發展(如文獻[16]所強調),為在多方面作戰環境中實現多用途人工智能能力開創了先例。ReLeGSim 在人工智能與模擬中的智能體之間建立了一個自然語言接口,可對給定命令進行復雜的解析和執行。這些命令可以是不同層次的,可以控制各種智能體。
最初的試驗表明,大量未使用的詞匯不利于訓練,而且會導致訓練速度減慢。因此,我們使用了一個小而有效的詞匯表。該詞匯表只包含以下標記:
<colon>標記將輸出文本序列分割為多個動作,而<comma>標記則結束或填充結果。標記的縮減和優化都是手動完成的,并與模擬中執行的結果行為直接對應。為了標記動作,我們使用了單擊編碼,因為這允許我們對給定的動作進行隨機抽樣,并可通過多離散表示法輕松集成到任何給定的 RL 框架中。
ReLeGSim 人工智能模型深度整合了人類對任務優先級排序的干預,通過將任務信息納入觀察空間來實現目標的實時變化(圖 3)。為了訓練這種行為,我們采用了課程學習策略,引入了用自然語言表達的各種優先級,每種優先級都與指導遵守規則的獎勵相關聯。這種方法鼓勵智能體發展廣泛的技能組合,在不同的場景中表現出色,并高效地實現目標。
為了將訓練有素的智能體用于行動方案(COA)決策支持,我們開發了一個行動方案決策支持網絡應用程序。根據給定的戰斗情況和藍軍與紅軍的 ORBAT,決策支持網絡應用程序會生成大量 ReLeGSim 模擬運行,以獲得人工智能體在給定情況下如何行動的統計數據。此外,所有可能的決策因素(如可用的聯合火力打擊數量)都會發生變化,以便讓用戶設置特定的過濾設置,分析由此產生的數據。然后,對人工智能指揮的模擬運行結果進行統計分析,并通過基于網絡的儀表板中的熱圖等方式將其可視化。
圖 4 顯示了一個熱圖可視化示例。它顯示了在相同起始條件下多次模擬運行中所有藍色和紅色單元的移動情況。此外,在此示例中,紅方營指揮官被賦予了兩種不同的攻擊優先級:a) 盡快攻擊 vs. b) 攻擊時盡量減少自身損失。圖 4 說明了人工智能如何根據不同的目標調整自己的行為,例如優先考慮快速進攻還是盡量減少損失。
圖 4 根據給定的優先級(a)和(b)比較營行動
這只是在給定場景中探索不同可能性的一種方法,可幫助操作員生成并驗證行動方案。ReLeGSim 的工具箱中提供了從戰爭游戲、統計分析到紅軍行動方案預測的各種選項。該決策支持工具可自動進行場景測試、戰術優化和人工智能模型評估,促進多樣化探索和適應性決策。
在德國陸軍總部的 "戰術無人機系統的人工智能(KITU)"研究中,空中客車防務與航天公司與兩家德國初創公司量子系統公司(Quantum-Systems)和Sleenlab正在探索在軍事場景中使用人工智能(AI)控制戰術無人機系統(UAS)。這項研究的重點是演示和分析用于自主無人機群的人工智能組件,重點是與主地面作戰系統(MGCS)和北約東翼監視方案保持一致。重點領域是異源無人機群的協調、目標探測和動態任務執行。使用人工智能對各種自動化任務進行訓練,以了解從傳感器到射手鏈的工作量、有效性和效率。該研究還調查了數據處理位置、恢復能力以及群控制在中斷情況下的穩健性。
采用深度強化學習方法來開發能夠在人類監督下控制無人機群的人工智能。圖 5 顯示了從 RL 訓練、驗證到實際飛行測試的過程。為了訓練對無人機群的控制,對 ReLeGSim 仿真進行了調整,使其能夠提供具有不同飛行特性、電池供電和消耗以及光學傳感器等有效載荷的固定翼和多旋翼無人機的簡化模型。對所謂的無人機群控制器的行動空間進行了調整,以賦予無人機搜索和跟蹤任務,以及在地面降落的可能性,從而以較低的電池消耗從地面觀察目標。一旦訓練成功,行為就會轉移到真正的無人機系統上,在空中客車無人機中心進行飛行測試。首次飛行實驗表明,在 ReLeGSim 仿真環境中訓練的智能體在真實情況下表現良好,通過提高模型保真度和根據實際情況校準模型參數,減少了一些模擬與現實之間的差距。
所獲得的見解旨在為將人工智能學習行為集成到真實無人機系統中提供信息,并評估其與人工控制的相似性。總之,像KITU這樣的項目對歐洲國防計劃(包括無人機群、人工智能和云計算)至關重要,并可能為MGCS和未來戰斗航空系統(FCAS)開發計劃帶來益處。無人機群可實現兵力倍增并提高偵察能力,因此在戰術場景中非常有價值。
圖 5 - 將 ReLeGSim 人工智能體用于控制真實的無人機群
總之,本文論述了未來戰爭在人工智能輔助指揮系統和無人技術整合的推動下發生的變革。這些變化將對作戰行動產生重大影響,并要求加快軍事決策周期。要實現這些未來的決策支持系統,建模、模擬和先進的深度強化學習技術的整合至關重要。這些系統將協助軍事決策者評估威脅、制定最佳行動方案,甚至通過自主系統的協作蜂群行為來執行行動。
本文介紹的研究展示了如何調整和利用模擬與人工智能技術,利用 RL 優化模擬 "ReLeGSim "訓練能夠擔任營級指揮官或控制無人機群的人工智能體。這些智能體通過自然語言命令進行交流,增強了人與人工智能的互動,同時將目標和條令納入人工智能推理過程。軍事條令感知反饋功能的整合使智能體能夠在訓練周期內自我完善。
雖然 "ReLeGs "和 "KITU "兩項研究的目標都不是完全取代人類決策者,但它們為人工智能在軍事行動中的潛力提供了寶貴的見解。RL 代理的開發雖然具有挑戰性,但已展示出有希望的行為模式,包括智能地形利用和戰略決策。隨著研究的深入,預計還會出現更多的見解和行為模式。這項研究為使智能體具備維護軍事條令和規則的能力奠定了基礎,為人類決策者提供了更有力的支持,并為人工智能在各種軍事場景、訓練和決策支持系統中的應用開辟了道路。人工智能在戰爭中的未來將以協作和增強為標志,人工智能將成為與人類專業技術并駕齊驅的寶貴工具,確保 "人類做出決策,機器提供支持"。
許多國家和國際研究工作都強調,未來各梯隊作戰行動的執行速度必須大大提高。與過去不同的是,過去一個旅的指揮官可以有幾個小時的時間進行決策,而現在要想取得優勢地位,就必須明顯并逐步縮短可用于決策的時間。有幾個因素促成了這種不斷變化的局面。前進的道路上有幾個關鍵的方向,可以進一步推動研究和實際應用:
1.繼續培訓和評估:應完成對 RL 智能體的持續培訓,進一步完善其行為模式。這包括開發更復雜的戰術行為,如目標優先級排序、組建預備隊和反擊策略。此外,應更詳細地探索通過可解釋人工智能(XAI)來解釋 RL 智能體的行為,以增強人類的理解能力。
2.可擴展性和真實世界測試:雖然 ReLeGSim 等模擬環境提供了寶貴的訓練場地,但仍應努力擴大這些智能體的規模,以便在現實世界中進行測試和部署。這包括解決硬件和計算要求,以確保實際適用性。
3.人機一體化:人工智能作為決策支持的整合必須繼續強調人類的控制和干預。為人類指揮官與人工智能體之間的無縫協作開發接口和協議至關重要。
4.人工智能應用的多樣性: 研究重點應超越決策支持,探索人工智能在軍事領域的廣泛應用。這包括訓練自主無人系統、為訓練演習進行模擬,以及評估人工智能模型的性能和戰術。此外,其他仿真模型也應與 ReLeGSim RL 架構一起應用,在 PAXSEM 等高度詳細的戰斗模型中訓練 RL 智能體,這對于模擬密集空戰或防空等場景是必要的。
5.倫理和法律方面的考慮:隨著人工智能在軍事行動中的作用越來越大,必須解決倫理和法律方面的問題。研究應包括有關負責任地使用人工智能、問責制以及遵守國際法和國際公約的討論和解決方案。
6.測試與驗證:人工智能模型的嚴格測試和驗證,尤其是在復雜多變的作戰場景中的測試和驗證,仍應是一個優先事項。這包括評估人工智能在城市戰、非正規戰爭和維和行動等各種情況下的表現。
7.適應不斷發展的技術:鑒于人工智能發展的快節奏,研究應保持適應性和開放性,納入新興技術、架構和最佳實踐,以保持在人工智能輔助軍事決策支持領域的領先地位。大型語言模型(LLM),尤其是多模態 LLM 有可能徹底改變對態勢感知、推理和行動計劃的理解。這項技術具有極大的潛力,可以顯著改進智能體。
總之,前進的道路包括采取全面的戰略,推進人工智能并將其無縫整合到軍事行動中,同時始終遵守道德和法律標準。通過解決這些關鍵問題,本研究可為人工智能決策支持系統的發展及其在復雜軍事環境中的謹慎應用做出貢獻。
本論文提出開發一種彈性機器學習算法,可對海軍圖像進行分類,以便在廣闊的沿海地區開展監視、搜索和探測行動。然而,現實世界的數據集可能會受到標簽噪聲的影響,標簽噪聲可能是通過隨機的不準確性或蓄意的對抗性攻擊引入的,這兩種情況都會對機器學習模型的準確性產生負面影響。我們的創新方法采用 洛克菲勒風險最小化(RRM)來對抗標簽噪聲污染。與依賴廣泛清理數據集的現有方法不同,我們的兩步流程包括調整神經網絡權重和操縱數據點標稱概率,以有效隔離潛在的數據損壞。這項技術減少了對細致數據清理的依賴,從而提高了數據處理的效率和時間效益。為了驗證所提模型的有效性和可靠性,我們在海軍環境數據集上應用了多種參數配置的 RRM,并評估了其與傳統方法相比的分類準確性。通過利用所提出的模型,我們旨在增強艦船探測模型的魯棒性,為改進自動海上監視系統的新型可靠工具鋪平道路。
藍色亞馬遜管理系統
機器學習(ML)發展迅速,使機器能夠根據數據分析做出決策。計算機視覺(CV)是這一領域的一個專業部門,它使用先進的算法來解釋視覺信息,通過創造創新機會來改變汽車、醫療、安全和軍事等行業。在軍事領域,這些工具已被證明在改進決策、態勢感知、監視能力、支持行動以及促進在復雜環境中有效使用自主系統等方面大有裨益。
我們的研究主要集中在將 CV 原理應用于海軍領域,特別是解決二元分類問題,以顯示船只的存在與否。這構成了更廣泛的監視工具的重要組成部分,并采用了一種名為 "Rockafellian 風險最小化"(RRM)[1] 的新策略。RRM 方法旨在應對海上監控等復雜多變環境中固有的數據集標簽損壞所帶來的挑戰。我們方法的核心是交替方向啟發式(ADH),這是一種雙管齊下的策略,可依次優化不同的變量集。這種兩步迭代的過程可調整神經網絡權重并操縱數據點概率,從而有效隔離潛在的數據損壞。其結果是建立了一個更強大、更準確的海上監視和探測系統,從而增強了海軍行動中的決策和態勢感知能力。
我們的評估使用了兩個不同的數據集,即空中客車船舶探測(AIRBUS)[2] 和海事衛星圖像(MASATI)[3]。為了測試我們方法的魯棒性,我們逐步提高了這些數據集的標簽損壞水平,并觀察了這對模型性能的影響。
我們的研究在 ADH 流程中采用了兩種策略:w-優化和 u-優化。在 w 優化階段,我們試用了兩種不同的神經網絡(NN)優化器 Adam [4] 和 Stochastic Gradient Descent (SGD) [5, Section 3G],以調整神經網絡權重。u優化階段包括實施 ADH-LP(線性規劃)或 ADH-SUB(子梯度)算法,以修改每個數據點的概率,并有效隔離潛在的數據損壞。
ADH-LP 利用線性規劃進行計算優化,可提供全局最優解,但需要更多處理時間。另一方面,ADH-SUB 采用更快的子梯度方法,更適合較大的數據集或有限的計算資源。主要目的不是通過架構調整來提高性能,而是展示 RRM 方法如何提供優于傳統 ERM 方法的優勢,特別是在處理數據損壞和提高模型性能方面。
無論使用何種數據集(MASATI 或 AIRBUS),我們的研究采用 RRM 方法訓練 NN 始終優于或匹配 ERM 方法。RRM下的ADHLP和ADH-SUB算法在保持高性能水平的同時,對數據損壞表現出了顯著的適應能力,其中ADH-LP一直表現優異。總之,我們的研究結果表明,RRM 是一種穩健而有彈性的方法,可用于處理一定程度的數據損壞。
總之,我們利用 RRM 的創新方法為減少對標簽正確數據的依賴提供了一種有前途的解決方案,從而能夠開發出更強大的船舶檢測模型。這項研究在改進船舶自動檢測和整體海事安全方面邁出了一大步。通過有效處理數據損壞和測試創新方法,我們提高了海事監控系統有效監控沿海和劃界海域的能力。
合成孔徑雷達(SAR)圖像中基于人類的目標檢測是復雜的、技術性的、費力的、緩慢的,但時間很關鍵,是機器學習(ML)的完美應用。訓練一個用于目標檢測的ML網絡需要非常大的圖像數據集,這些數據集中嵌入了準確和精確標記的目標。不幸的是,不存在這樣的SAR數據集。因此,本文提出一種方法,通過結合兩個現有的數據集來合成寬視場(FOV)SAR圖像: SAMPLE,由真實和合成的單物體芯片組成,以及MSTAR雜波,由真實的寬視場SAR圖像組成。合成目標使用基于閾值的分割從SAMPLE中提取,然后再與MSTAR雜波中的斑塊進行α-混合。為了驗證新的合成方法,使用一個簡單的卷積神經網絡(CNN)創建了單個物體芯片并進行了分類;針對測量的SAMPLE子集進行測試。還開發了一種新穎的技術來研究深層的訓練活動。擬議的數據增強技術使測量的SAR圖像分類的準確性增加了17%。這一改進表明,來自分割和混合的任何殘余偽影都不會對ML產生負面影響,這對于未來在廣域SAR合成中的使用是很有希望的。
"在MSTAR數據收集期間拍攝的M1的EO圖像(a,c)和同一車輛的真實CAD模型(b,d)從兩個角度進行了比較。請注意,即使是小的細節,如火炮的位置、艙門和車輛側面的電纜,在兩張圖像之間也很一致。提供CAD模型的顏色是為了識別零件組裝,并不表示任何影響電磁模擬的具體屬性" [10]。
"SAMPLE數據集中每個飛行器的一個圖像的例子。測量的MSTAR圖像在最上面一行,相應的合成圖像在最下面一行....,我們看到諸如陰影、方向和相對回波幅度等細節都很一致"[10]。
深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。
圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。
無源雷達(PR)是加強公共安全和國防有前途的新興技術,可以作為保護關鍵基礎設施和邊界的補充解決方案。本文介紹了一個基于獨立PR節點的傳感器網絡,用于監測沿海邊界的情況。通過完整的覆蓋率分析,研究了部署PR傳感器網絡進行邊境監控的可行性。電磁仿真器被用來包括特定的雷達場景特征和空中和海上軍事目標的雙態雷達截面建模。仿真結果與選定的沿海場景中的真實雷達數據進行了驗證。對不同的目標進行了探測和跟蹤:合作的DJI Phantom 3無人機、船舶和降落在羅塔軍事機場的飛機。結果證實了基于DVB-T的PRs在監測邊境沿海場景方面的可行性。
使用空間分布的多個雷達節點,在不受約束的運動方向上研究了連續人類活動的識別,在使用單個節點時,活動可能發生在不利的角度或被遮擋的視角。此外,這種網絡不僅有利于實現上述目標,而且也有利于可能需要不止一個傳感器的更大的受控監視區域。具體來說,當目標位于長距離和不同角度時,分布式網絡可以在節點之間顯示出顯著的特征差異。雷達數據可以用不同的域來表示,其中人類活動識別(HAR)的一個廣為人知的域是微多普勒頻譜圖。然而,其他域可能更適合于更好的分類性能,或對計算資源有限的低成本硬件更有優勢,如范圍-時間或范圍-多普勒域。一個開放的問題是如何利用從上述數據域以及從同時觀察監視區域的不同分布式雷達節點中提取信息的多樣性。為此,數據融合技術可以在每個雷達節點的數據表示層面以及網絡中不同節點之間使用。將利用所介紹的決策融合方法(通常在每個節點上操作一個分類器)或特征融合方法(在使用一個單一的分類器之前對數據進行串聯),研究它們在連續序列分類中的性能,這是一種更加自然和現實的人類運動分類方式,同時也考慮到數據集中固有的不平衡。
圖 1:所提出方法的示意圖:從各個雷達節點提取的數據域被組合(“數據域融合”)。然后應用決策融合或特征融合來組合來自節點的信息。
雷達網絡在適應能力、分類指標和跟蹤性能方面已經顯示出其優勢。這是通過增加整體信息內容來實現的,這要歸功于對場景和感興趣的目標的多視角觀察。然而,網絡中雷達的有效利用依賴于可靠地結合來自不同傳感器的各種信息的能力。最近,具有多個合作雷達的分布式網絡引起了人們的極大興趣,以解決在不利角度記錄的微多普勒(mD spec.)信號、遮擋或僅對少數觀察者節點可見的目標問題[1]-[10]。
在這種情況下,為了提高分類性能,找到融合網絡中多個雷達節點信息的最佳技術,仍然是一個突出的研究問題。這對于連續人類活動序列的分類特別重要。相對于更傳統的對單獨記錄的人工分離活動的分類,這些活動在文獻中被越來越多地研究,因為它們更加真實和自然[11]-[13]。
本文研究了應用于來自節點網絡的融合數據的機器學習分類器,重點是特征融合("早期融合")和決策融合("后期融合")方法,這些方法在一個公開的數據集上得到了驗證[14]。在這種情況下,大多數研究工作主要集中在微多普勒(mD)頻譜圖上,作為感興趣的數據格式,而這項工作還利用了以下領域,即范圍多普勒(RD)、傅里葉同步擠壓變換(FSST)頻譜和范圍時間(RT)圖。本文將這些數據域的信息融合與整個網絡的雷達節點融合聯合起來進行研究。應該指出的是,這種跨越不同數據格式和網絡中不同雷達節點的高效和有效的數據融合問題不僅與人類活動分類有關,而且在任何可以使用來自分布式雷達節點的信息的監視和態勢感知問題上也是如此。
在方法上,首先通過利用基于奇異值分解(SVD)的一維主成分分析(PCA)來提取上述每個數據域的信息,這是一個簡單而有效的工具,用于提取圖像的特征進行分類。Fioranelli等人[3]舉例說明了使用SVD相關的特征來分析具有不同角度軌跡的人類多態行走場景。他們提出,SVD可以用來從mD頻譜圖中提取最相關的特征,方法是使用有限數量的左側奇異向量,這些奇異向量與最高奇異值有關。在[3]中證明,在使用極少的甚至只是單一的最高相關奇異值的情況下,可以達到90%以上的分類結果,最好是96%的最佳角度軌跡。
然后,在這項工作中,還研究了基于矩陣eigendecomposition的二維主成分分析(2D PCA),它被證明能帶來更好的準確性和減少計算時間。對于這兩種特征提取方法,采用了四種機器學習分類器,即決策樹(DT)分類器、k-近鄰(KNN)分類器、天真貝葉斯(NB)分類器和支持向量機(SVM),以評估上述融合方法,圖1為示意圖。
本文的其余部分組織如下。第2.0節顯示了包括數據處理參數在內的數據域。第3.0節提供了特征融合和機器學習方法。第4節介紹了實驗結果,第5節給出了最后的評論。
為了面對軍事防御的挑戰,軍隊及其戰術工具的現代化是一個持續的過程。在不久的將來,各種任務將由軍事機器人執行,以實現100%的影響和0%的生命風險。國防機器人工程師和公司有興趣將各種戰略自動化,以獲得更高的效率和更大的影響,因為陸地防御機器人的需求正在穩步增長。在這項研究中,軍事防御系統中使用的陸地機器人是重點,并介紹了各種類型的陸地機器人,重點是技術規格、控制策略、戰斗參與和使用目的。本研究還介紹了陸地機器人技術在世界軍事力量中的最新整合,其必要性,以及各國際防務公司對世界經濟的貢獻,表明其在軍事自動化和經濟穩定中的優勢。本報告還討論了近期發展的局限性和挑戰、機器人倫理和道德影響,以及與機器人安全有關的一些重要觀點和克服近期挑戰的一些建議,以促進未來的發展。
為了加強軍事防御系統,必須大力發展和提高智能自主戰略能力。在大多數第一世界國家,研究國防技術改進是實現軍事防御現代化的優先事項。未來戰爭的特點可以根據不同領域的沖突進行分析,如:海洋、陸地、空中、網絡、太空、電磁和信息。隨著現代智能和機器人技術的改進,跨域(X域)和多域戰略也需要被關注。無人自主X域(多域)系統,簡稱UAxS,現在是研究和發展的重點,以使軍事力量更加強大、有力和智能。圖1展示了多域和X域的戰爭模式。
圖 1:多域和 X 域戰爭模型
現代防御機制可以在四個相互關聯的領域進行研究:先進的戰艦、良好的通信、人工智能和自主武器。這基本上意味著在軍事防御系統中實施機器人技術。在戰場上,一支裝備精良的機械化部隊是指揮官非常重要的資產。在戰爭中,指揮官必須專注于火力、機動性、人機合作、決策、支持裝甲和指揮步兵。在未來,機器人和自動化系統將通過提供支持和減少負擔來幫助解決這些問題,因為這些系統將更加智能、可靠和合作。在最近的軍事活動中,機器人和自主技術被用于偵察、設備供應、監視、掃雷、災難恢復、受傷士兵的檢索等(Dufourda, & Dalgalarrondo, 2006;Akhtaruzzaman, et al., 2020)。
為了確保可靠的使用和獲得最高的技術影響,機器人必須在半自動化、自動化和人機交互工程方面進行良好的設計。無人地面車輛(UGV)很有前途,在國防應用中具有很大的潛力,在這些應用中高度需要更快和可靠的通信鏈接(鏈接預算)和快速獲取信息(RAtI)(Akhtaruzzaman, et al., 2020)。機器人的價值比人的生命還要低。機器人在感知、檢測、測量和分析方面速度更快。機器人沒有任何激情或情感,不會像人類那樣感到疲勞或疲倦,而是在極端和關鍵條件下保持運作。在不久的將來,機器人將成為作戰計劃和參與的核心技術(Abiodun, & Taofeek, 2020)。它們將能夠通過智能傳感器技術與環境溝通,通過建模理解環境,理解人類的行動,定義威脅,服從命令,以更高的處理能力獲取信息,通過信息交換和共享與其他機器人互動,通過先進的控制技術自主適應敵對環境,并通過強大的計算能力與自動生成的程序應用智能進行自我學習(Akhtaruzzaman, & Shafie, 2010a, 2010b; Karabegovi?, & Karabegovi?, 2019)。
在不久的將來,UGV系統將成為軍事行動的關鍵技術,因為它們將確保幾乎零人力風險,不需要將人力直接安置到戰斗中。UGV系統還將能夠開放各種設施,如負載、自動監視、邊境巡邏、風險降低、障礙物清除、力量倍增器、遠程操縱、信號中繼等(Sathiyanarayanan等人,2014)。陸地防衛機器人必須能夠適應各種崎嶇的地形、惡劣的環境和非結構化的區域,同時發揮指定的作用并保持指揮層次。作為軍事部隊的一種程度,陸地機器人不能給團隊帶來任何額外的工作負擔。因此,必須實施有效的人工智能(AI)工程,以實現UGV或陸地機器人與行動部隊之間可靠的人機合作。
今天的智能機器人或自主武器仍然處于狹義人工智能(ANI)的水平(Horowitz,2019年),或者以某種方式處于ANI和通用人工智能(AGI)之間。這反映出它們還沒有準備好在災難或戰爭等敵對情況下完全自主并做出可靠的決定。人類擁有在很大程度上應用感知經驗的智慧,能夠適應環境,并能在關鍵情況下做出適當的決定。如果這些能力能夠被植入機器人的大腦,該系統就可以說是AGI系統。盡管與人類相比,機器人可以抵御枯燥、骯臟和危險的工作,但它們包括一些有限的功能,如航點或目標導向的導航、障礙物檢測、障礙物規避、威脅檢測、人類檢測和識別、定位、地圖構建、通過圖像和聲音處理提取信息,以及與其他機器人的某種合作。因此,如果能確保機器人和人類之間的良好合作,機器人將在人類的監督下自主工作,那么軍用地面機器人將是最有效的。
本研究對軍用陸地機器人系統、最近的技術進步、應用和道德影響進行了回顧。一些發達國家和不發達國家的現狀,以及通過推進和發展軍事武器、自動化武器和智能技術對世界經濟的工業影響,都反映在審查研究中。本文還闡述了參與戰爭的機器人倫理以及該技術對道德國家的影響。該研究主要試圖通過確定最近的差距、局限性和技術進步的倫理影響,來確定地面機器人技術的最新應用和實施情況。
在新環境中有效的自主導航對于智能體達到更復雜的自主水平至關重要。我們對改善攜帶輕型光電傳感器有效載荷的車輛在未知環境中的自主導航和估計感興趣。由于傳感的限制,在非瑣碎的新環境中,世界的許多幾何結構還沒有被觀察到,導致了嚴重的幾何模糊性。盡管收集額外的幾何信息可以減少模糊性,但這樣做往往與任務的目標相抵觸。我們建議將對象層面的語義信息和幾何信息結合起來,以切實改善導航和估計。
在這篇論文中,我們提出了在新環境中改善自主導航的三個貢獻。首先,我們通過將有用的導航行為編碼在由部分占有率和對象級地圖告知的抽樣分布中,來提高新環境中的導航效率。我們認識到,在有效導航時,在有限的視角下,對象層面的估計是具有挑戰性的,因此我們還開發了兩種在線建立對象層面表征的方法。在我們的第二個貢獻中,我們通過引入額外的紋理測量和語義類形狀先驗,提高了帶有橢圓體表征的對象級SLAM的視點效率。最后,在我們的第三個貢獻中,我們提出了一種新的深度學習的三維對象估計方法,利用間接的圖像空間注釋和類內形狀一致性來實現從單一的RGB圖像的三維對象估計。