既往研究表明,將量子隧穿(QT)概率模型融入神經網絡可有效捕捉人類感知的關鍵細微特征,尤其在模糊目標識別與情感分析領域。本文采用新型QT神經網絡模型,基于專有軍事術語庫評估其在定制化CIFAR格式軍民車輛圖像分類及情感分析中的效能。我們認為QT模型可增強戰場場景(特別是人控無人機作戰環境)中的多模態AI應用,賦予人工智能類人推理特質。
在人工智能(AI)演進格局中,量子認知理論(QCT)[1-4]為理解人類感知與機器輔助決策[5-8]提供新框架。區別于經典模型,QCT運用疊加態、糾纏態及干涉等原理闡釋人類推理行為,涵蓋思維沖突、情境依賴選擇及經典概率偏差[3,4]。研究[2,3]提出量子振蕩器(量子物理學基礎概念[9])可作為系統,證明QCT描述人類感知的能力超越現有經典模型(如馬爾可夫模型[3])。后續工作[10]通過將量子隧穿(QT)物理現象整合至振蕩器模型拓展該路徑。QT方法采用電子穿越勢壘的概率機制,已被證實可合理解釋人類心理狀態[11-14]及大腦功能的神經機制[15-18]。
圖1. QT通過將人類對光學幻象的雙穩態感知與認知偏差模型融入神經網絡增強機器學習
量子化能級與人類心理狀態(頭部輪廓線條示意)相契合,能級躍遷實現精細化軍民車輛區分。
經典力學中受限于有限區域(如勢壘)的粒子可具任意能量,而量子力學中其能級呈量子化[9]。數學上該特性源于薛定諤方程,其解亦構成QT效應基礎[9]。哲學層面將量子化能級詮釋為人類心理狀態(如圖1中人頭輪廓線條象征離散能級——心理狀態),研究證實兩個及以上能級間的周期性振蕩為視錯覺感知[6]提供合理模型。能級框架還揭示社會群體[14]與個體[19]表現出的系列關聯心理效應與認知偏差。該框架既可表征離散的計算機比特行為("0"態代表完全確信車輛為軍用,"1"態代表民用),亦可呈現量子比特態0?與 1?的疊加態——即以特定概率區分軍民車輛。基于此發現,QCT驅動的AI系統被認為能更好應對不確定性與模糊性,特別適用于無人機操控等高風險場景[8,20]。研究已開發出將QT效應作為神經激活函數的前饋神經網絡,并展示其復現人類感知的能力[6,8]。同時提出量化QT模型類人行為的數學框架[8]。本文認為QT模型通過增強實時自適應決策能力,有望提升軍事AI應用效能。通過專用測試數據集驗證:融合經典概率模型、記憶機制與QT技術的貝葉斯/循環神經網絡[21],在軍民目標區分(見圖1示意)及語音指令解析中展現精度提升,從而推動多模態量子啟發式AI發展,并有望通過提升高壓復雜環境決策精度最小化平民傷亡。
多目標追蹤(MOT)旨在維持視頻幀間物體身份的一致性。實戰環境中,移動無人機采集的低幀率視頻因目標外觀與位置快速變化,其物體關聯任務極具復雜性。云視頻流傳輸與壓縮算法導致的圖像劣化更使挑戰加劇。本文闡述如何通過單幀標注的實例關聯學習突破這些瓶頸:場景全局特征為低幀率實例關聯提供關鍵上下文,使解決方案對干擾物及檢測間隙具備強魯棒性;同時證明該追蹤方法在降低輸入圖像分辨率與潛在表征尺寸以加速推理時,仍能保持高關聯質量。最后,基于公開數據源構建軍事車輛標注基準數據集。本研究成果最初發布于2025年5月13-14日在葡萄牙奧埃拉什舉行的北約科技組織研討會(ICMCIS),該會議由信息系統技術委員會(IST-209-RSY)主辦。
無人機成本大幅降低與效能提升促使戰場無人機密度激增,其產生的高質量監控視頻數據規模史無前例。通過輪換部署多架偵察無人機,可實現對戰線及戰術縱深的持續視頻監控。這極大增強戰場態勢感知能力,并為高效殺傷鏈的初始環節奠定基礎。實時偵察信號的激增帶來新挑戰:如何將原始情報數據快速有效轉化為可行動情報項。單純依賴人工操作員監控多路視頻流識別軍事目標,易導致效率下降與敵情漏判——這在作戰情境中后果嚴重。
基于實時無人機視頻流的軍事目標自動識別技術,成為應對海量監控數據的有效可擴展方案。以目標檢測為核心的方法能緩解從視頻流提取關鍵信號的負擔,充當情報官的數據處理"輔助駕駛"。然而,單幀目標檢測常無法生成可行動情報項。高效戰場監控需聚焦特定軍事目標——這是純檢測技術無法解決的任務。多目標追蹤(MOT)與目標檢測結合,構成視頻軍事目標識別的完整解決方案。
在實時視頻流(尤其云端環境)實施神經網絡監控與目標獲取需消耗巨量計算資源。盡管原始視頻源通常以高幀率采集(≥30幀/秒),逐幀分析既資源密集又易致延遲。因此系統通常僅解碼處理部分幀序列。在此約束下,低幀率(約5幀/秒)多目標追蹤技術對區分特定目標、可靠濾除干擾物(誤報目標)具有關鍵價值。
配備先進傳感器的無人平臺的集成有望提高對態勢的感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。本文展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,本文貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖 1:(左)虎爪情景中的狀態示例。(右圖)每個智能體的感知(本地觀察)和它們之間的通信聯系。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同行動圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將他們的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單位的狀態(包括位置)。
利用深度強化學習(DRL)技術,在一系列不同的模擬場景、初始部隊配置和對手行動中,對 COP 和智能體策略進行端到端聯合訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多代理環境中進行。在 SC2 中模擬的多個藍方與紅方的場景中,我們通過經驗觀察到了該方法的有效性。具體來說,我們在具有挑戰性和現實性的 TigerClaw 情景(圖 1)中測試和評估了我們的方法,該情景由發展司令部陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,我們的方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍減弱、通信能力減弱、GPS 被拒絕以及場景變化的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,并推進了自適應和彈性 C2 領域的發展。其貢獻如下:
圖 3:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。我們使用 QMIX作為 COP 集成的 MARL 方法示例。
現代通信網絡越來越多地采用無人飛行器(UAV)。然而,決策和數字建模方面的挑戰仍然阻礙著它們的快速發展。強化學習(RL)算法面臨著樣本效率低、數據通用性有限等限制,在無人機通信場景中進一步放大。此外,數字孿生(DT)建模引入了大量決策和數據管理的復雜性。通常集成到 DT 框架中的 RL 模型需要大量訓練數據才能實現準確預測。與注重類邊界的傳統方法不同,擴散模型(DM)是一類新的生成式人工智能,它能從訓練數據中學習底層概率分布,并能根據所學分布生成值得信賴的新模式。本文探討了如何將 DM 與 RL 和 DT 相結合,以有效地應對這些挑戰。通過將 DM的數據生成能力與 RL 的決策框架和 DT 的建模精度相結合,這種集成提高了無人機通信的適應性和實時性。此外,該研究還展示了 DM 如何緩解數據稀缺、改善策略網絡和優化動態建模,從而為復雜的無人機通信場景提供穩健的解決方案。
圖 1:DM 與 DT 和 RL 技術在無人機通信中的集成概述,其中 DM 通過合成數據和改進的策略網絡使 RL 受益。此外,DM 還能通過合成數據和動態建模使 DT 受益。
圖 2:DM 與無人機通信 RL 技術相結合的概述,DM 通過合成數據、訓練環境和改進的策略網絡為 RL 帶來益處。
無人飛行器(UAV)越來越多地應用于能源、公共安全、農業和智慧城市等各個領域,充當數據收集器、基站和中繼器。無人機在第五代(5G)網絡的發展中也發揮著至關重要的作用,有助于實現 5G 的目標,包括增強型移動寬帶(eMBB)、超可靠和低延遲通信(URLLC)以及大規模機型通信(mMTC)。預計無人機還將在第六代(6G)網絡中發揮關鍵作用,改進數據收集和分析。無人機的主要優勢在于其快速部署、可控的機動性以及建立視距(LoS)通信的能力,這有助于高速數據傳輸。
決策是指從多個備選方案中選擇最佳行動方案,例如確定最佳飛行路徑或安排數據傳輸。它與數字建模一樣,是無人機通信中不可或缺的過程。強化學習(RL)是人工智能(AI)中的一種變革性方法,可為無人機通信中的復雜決策挑戰提供有前景的解決方案。在無人機輔助傳感器網絡中,強化學習(RL)可自動執行數據收集任務;然而,低樣本效率往往會阻礙強化學習。樣本效率指的是強化學習算法從與環境的有限交互中有效學習的能力。此外,其面向行動的性質要求在動態環境中進行長時間和廣泛的交互,這對其實際部署提出了重大挑戰。身臨其境的數字建模系統,如數字雙胞胎(DTs),可在虛擬對應物中復制無人機元素、流程、動態和固件。這些物理和數字對應物通過實時數據通信無縫交換輸入和操作。使用 DT 可以有效地對具有不同空中角色的無人機群進行建模,從而實現協作、提高安全性并減少模擬與現實之間的差距等挑戰。然而,DT 建模涉及決策和數據管理方面的重大復雜問題。在 DT 框架中經常使用的 RL 模型依賴大量的訓練數據來進行準確預測。獲取充足且具有代表性的訓練數據是一項巨大挑戰,尤其是對于歷史數據集或場景有限的系統而言。
擴散模型(DM)是一類生成式人工智能,在應對上述挑戰方面顯示出巨大的潛力。與注重類別邊界的傳統方法不同,DMs 從訓練數據中學習底層概率分布,從而能夠根據學習到的分布生成值得信賴的新樣本。DM 可以綜合數據,幫助 RL 模型克服樣本效率低的問題,改進其策略以更好地處理無人機動態環境,并為無人機訓練創建逼真的模擬環境。此外,DM 還能幫助 DT 輔助無人機克服數據稀缺的問題,在與 RL 集成時改進決策制定,并提高無人機建模的準確性。Sun 等人展示了如何使用生成式人工智能來增強 RL。此外,Zhu 等人調查了 DM 在 RL 中的應用,Sun 等人系統地展示了生成式人工智能在優化無人機通信和網絡問題中的應用。
本文特別討論了 DM 如何通過提高采樣效率、提供增強的策略網絡和生成逼真的訓練環境來增強 RL 輔助無人機通信。我們還研究了 DM 如何通過生成合成數據、改進決策和完善動態建模來幫助 DT 輔助無人機通信。圖 1 顯示了 DMs 與 RL 和 DT 在無人機通信方面的集成。
本文的貢獻如下:
本文接下來的內容安排如下: 第二節概述了 DMs 和無人機通信。第三節介紹 DMs 與 RL 在無人機通信中的集成。第四節介紹 DMs 與 DT 在無人機通信中的集成。第五節概述了未來工作和未決問題。最后,第六節對本文進行總結。
在自主航空系統的動態環境中,無人駕駛飛行器(UAV)的集成引發了模式轉變,為協同決策和導航提供了前所未有的機遇和挑戰。本文探討了多智能體強化學習(MARL)在復雜環境下無人飛行器規劃和協同中的應用。
論文的第一部分介紹了單智能體強化學習和 MARL。舉例說明了 MARL 在反無人機系統(C-UAS)中的應用。將反無人機系統問題表述為多智能體部分可觀測馬爾可夫決策過程(MAPOMDP),并提出了多智能體部分可觀測深度強化學習追擊者控制優化(MAGNET),用于訓練一組無人機系統的追擊者或智能體,以追擊和攔截速度更快的無人機系統或逃逸者。在 MAGNET 中,將基于控制障礙函數(CBF)的安全層集成到近端策略優化(PPO)中,以便在訓練和測試過程中提供安全保證。此外,還將 DeepSet 網絡納入 MAGNET,以處理智能體觀測的時變維度。進行了大量的仿真,結果表明,與基線實現相比,MAGNET 可以維持一個無碰撞的環境,但犧牲了輕微的逃逸者捕獲率降低。
論文的第二部分涉及多智能體系統的安全學習方法。為此,探索了高級空中機動性應用中的一個更復雜的場景,即一組自主無人機(UAV)可能需要合作同時到達預定目的地,例如攻擊目標或運送重型貨物。然而,控制一組無人機同時到達目的地并非易事,因為它們必須滿足空間約束條件,這意味著控制算法不僅要避免無人機之間的碰撞,還要避免無人機與非合作飛行物(NCFO)之間的碰撞,而這些飛行物不受控制算法的協調。現有的時間協調控制算法可以實現多無人機系統的同時到達,但無法確保無碰撞。在本例中,提出了一種安全的線性二次優化控制算法,該算法由兩大部分組成,即時間協調規劃器和安全層,其中時間協調規劃器用于推導無人機的加速度,以最小化所有無人機的到達時間與預定終止時間之差,而安全層則應用基于控制障礙函數的解決方案來生成可行的無人機加速度,以確保無碰撞環境。
最后,利用 MARL 框架解決終端時間協調問題,成功實現了無人機同時到達目的地,同時避免與其他無人機和非合作飛行物(NCFO)發生碰撞。
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
過去幾十年來,軍事研究人員開發了基于人類感知的搜索模型,并將其應用于傳感器設計和實施的軍事和商業領域。這些模型主要是針對靜態圖像創建的,如果給觀察者無限的時間來做出瞄準決策,它們能準確預測靜止目標和靜止傳感器系統的任務性能。為了考慮必須在較短時間內做出決策的情況,我們開發了限時搜索模型來描述任務性能如何隨時間變化。最近,該模型又有了新的變化,以適應動態目標情況和動態傳感器情況。后者是為模擬車載傳感器的性能而設計的。在此,該模型被用于優化草叢中緬甸蟒的近紅外搜索傳感器配置,包括靜態圖像和移動傳感器平臺錄制的視頻。通過將已建立的動態傳感器模型與相機矩陣理論相結合,可以利用測量到的靜態人類感知數據來優化傳感系統選擇和傳感器操作,包括傳感器指向角、高度和平臺速度,從而最大限度地提高人類從移動傳感器平臺探測近距離地面目標的搜索性能。為了說明這一點,將這一方法應用于從移動傳感器平臺檢測近紅外緬甸蟒蛇。
本文探討了人工智能(AI)技術在生成無人機(UAV)機群軌跡中的應用。所面臨的兩大挑戰包括準確預測無人飛行器的路徑和有效避免它們之間的碰撞。
首先,本文在單隱層前饋神經網絡(FFNN)中系統地應用了多種激活函數,與之前的研究相比,提高了預測路徑的準確性。
其次,引入了一種新穎的激活函數 AdaptoSwelliGauss,它是 Swish 和 Elliott 激活函數的復雜融合,并與縮放和移動高斯分量無縫集成。斯維什能促進平穩過渡,埃利奧特能捕捉突然的軌跡變化,而縮放和位移高斯能增強對噪聲的魯棒性。這種動態組合專為捕捉無人機軌跡預測的復雜性而設計。與所有現有的激活函數相比,這種新激活函數的精度要高得多。
第三,提出了一種新穎的綜合碰撞檢測、規避和批處理(ICDAB)策略,它融合了兩種互補的無人機碰撞規避技術:改變無人機軌跡和改變其起始時間,也稱為批處理。這種融合有助于克服兩種技術的缺點:第一種技術是減少軌跡操作次數,避免路徑過于迂回;第二種技術是減少批次規模,減少整體起飛時間。
近年來,無人機因其多功能性和廣泛的應用潛力而越來越受歡迎,從監視和監測到交付和運輸,無所不包。然而,無人機在復雜環境中的安全高效運行仍然是一項重大挑戰,尤其是在涉及多個無人機的情況下。一個關鍵問題是需要優化無人飛行器的軌跡,以實現各種目標,如盡量縮短飛行時間、避免碰撞和擴大覆蓋范圍。傳統的軌跡規劃和控制方法在處理現實世界場景的復雜性和不確定性方面往往能力有限,而且可能無法擴展到大型無人機群。
之前的研究(如 Lai (2020)、Xue (2017) 以及 Qiu 和 Duan (2020))已經證明了利用非線性優化技術的功效。最近,Xu 等人(2024 年)將多目標優化用于軌跡生成。當需要快速改變軌跡時,優化程序太慢且不具有自適應能力,因此人工智能技術成為首選。人工智能技術,尤其是基于機器學習和神經網絡的技術,使無人機能夠從數據中學習并適應不斷變化的條件,從而在應對這些挑戰方面展現出巨大的前景 Lai(2020)。
這些研究涉及利用雙曲切線函數(Tanh)、Sigmoid 等激活函數訓練單隱層的 FFNN。所使用的激活函數對路徑的預測精度不高,因此我們首先要改進這方面的問題。我們在單隱層 FFNN 中系統地應用了多種激活函數,并進行了綜合比較分析。除了 Sigmoid 和 Tanh 外,我們還使用了整流線性單元(ReLU)、泄漏 ReLU、Swish、Elliot 和 Maxout。
其次,為了追求更高的軌跡精度,我們引入了一種新型激活函數 AdaptoSwelliGauss,它超越了相同神經網絡架構中常用的同類激活函數。該函數結合了能捕捉平滑過渡并保持軌跡連續性的 Swish 激活函數和能捕捉方向和速度突然變化的 Elliot 激活函數,以及能使激活函數對噪聲數據具有魯棒性的縮放和位移高斯。
在自主無人機中,碰撞檢測和規避的關鍵部分對確保其運行的安全性和效率起著至關重要的作用,這也是我們的第三個重點。當考慮到多架無人機同時起飛時,這些功能的重要性就更加突出了。無人飛行器之間的碰撞檢測非常簡單,但是有很多方法可以通過改變飛行軌跡來避免碰撞。Guo 等人(2021 年)介紹了一種流行的方法--圓弧軌跡幾何法(CTGA)。假設兩架無人飛行器在路徑上的某一點發生碰撞,該技術會對其中一架無人飛行器的路徑添加一個小擾動。這種算法的缺點是容易陷入操縱循環。對一個無人飛行器軌跡的任何改變都可能無意中造成與其他無人飛行器的碰撞,從而導致棘手的情況。此外,對無人飛行器軌跡的頻繁操作可能會導致飛行路徑錯綜復雜,從而影響無人飛行器群的整體效率。
另一種避免無人機碰撞的輔助技術是改變它們的起始時間。Sastre 等人(2022a)和 Sastre 等人(2022b)提出了這樣一種流行的方法。他們采用了一種分批機制,創建具有非碰撞軌跡的無人飛行器群,以促進安全飛行。然而,多批次的創建引入了一個時間密集的過程,延遲了無人機群的整體發射。
在本文中,我們介紹了一種先進的碰撞檢測和規避算法,稱為 ICDAB 算法。在這里,我們首先改進了 Guo 等人(2021 年)提出的 CTGA 算法,然后將這種規避算法與批處理機制相結合,最終形成了我們的算法。
本文的其余部分安排如下: 第 2 節回顧了相關文獻,第 3 節介紹了我們提出的算法和方法,第 4 節展示了結果,第 5 節總結了本文并提出了未來的工作方向。
本論文提出開發一種彈性機器學習算法,可對海軍圖像進行分類,以便在廣闊的沿海地區開展監視、搜索和探測行動。然而,現實世界的數據集可能會受到標簽噪聲的影響,標簽噪聲可能是通過隨機的不準確性或蓄意的對抗性攻擊引入的,這兩種情況都會對機器學習模型的準確性產生負面影響。我們的創新方法采用 洛克菲勒風險最小化(RRM)來對抗標簽噪聲污染。與依賴廣泛清理數據集的現有方法不同,我們的兩步流程包括調整神經網絡權重和操縱數據點標稱概率,以有效隔離潛在的數據損壞。這項技術減少了對細致數據清理的依賴,從而提高了數據處理的效率和時間效益。為了驗證所提模型的有效性和可靠性,我們在海軍環境數據集上應用了多種參數配置的 RRM,并評估了其與傳統方法相比的分類準確性。通過利用所提出的模型,我們旨在增強艦船探測模型的魯棒性,為改進自動海上監視系統的新型可靠工具鋪平道路。
藍色亞馬遜管理系統
機器學習(ML)發展迅速,使機器能夠根據數據分析做出決策。計算機視覺(CV)是這一領域的一個專業部門,它使用先進的算法來解釋視覺信息,通過創造創新機會來改變汽車、醫療、安全和軍事等行業。在軍事領域,這些工具已被證明在改進決策、態勢感知、監視能力、支持行動以及促進在復雜環境中有效使用自主系統等方面大有裨益。
我們的研究主要集中在將 CV 原理應用于海軍領域,特別是解決二元分類問題,以顯示船只的存在與否。這構成了更廣泛的監視工具的重要組成部分,并采用了一種名為 "Rockafellian 風險最小化"(RRM)[1] 的新策略。RRM 方法旨在應對海上監控等復雜多變環境中固有的數據集標簽損壞所帶來的挑戰。我們方法的核心是交替方向啟發式(ADH),這是一種雙管齊下的策略,可依次優化不同的變量集。這種兩步迭代的過程可調整神經網絡權重并操縱數據點概率,從而有效隔離潛在的數據損壞。其結果是建立了一個更強大、更準確的海上監視和探測系統,從而增強了海軍行動中的決策和態勢感知能力。
我們的評估使用了兩個不同的數據集,即空中客車船舶探測(AIRBUS)[2] 和海事衛星圖像(MASATI)[3]。為了測試我們方法的魯棒性,我們逐步提高了這些數據集的標簽損壞水平,并觀察了這對模型性能的影響。
我們的研究在 ADH 流程中采用了兩種策略:w-優化和 u-優化。在 w 優化階段,我們試用了兩種不同的神經網絡(NN)優化器 Adam [4] 和 Stochastic Gradient Descent (SGD) [5, Section 3G],以調整神經網絡權重。u優化階段包括實施 ADH-LP(線性規劃)或 ADH-SUB(子梯度)算法,以修改每個數據點的概率,并有效隔離潛在的數據損壞。
ADH-LP 利用線性規劃進行計算優化,可提供全局最優解,但需要更多處理時間。另一方面,ADH-SUB 采用更快的子梯度方法,更適合較大的數據集或有限的計算資源。主要目的不是通過架構調整來提高性能,而是展示 RRM 方法如何提供優于傳統 ERM 方法的優勢,特別是在處理數據損壞和提高模型性能方面。
無論使用何種數據集(MASATI 或 AIRBUS),我們的研究采用 RRM 方法訓練 NN 始終優于或匹配 ERM 方法。RRM下的ADHLP和ADH-SUB算法在保持高性能水平的同時,對數據損壞表現出了顯著的適應能力,其中ADH-LP一直表現優異。總之,我們的研究結果表明,RRM 是一種穩健而有彈性的方法,可用于處理一定程度的數據損壞。
總之,我們利用 RRM 的創新方法為減少對標簽正確數據的依賴提供了一種有前途的解決方案,從而能夠開發出更強大的船舶檢測模型。這項研究在改進船舶自動檢測和整體海事安全方面邁出了一大步。通過有效處理數據損壞和測試創新方法,我們提高了海事監控系統有效監控沿海和劃界海域的能力。
最近,機器學習和人工智能的快速發展為改進美國防部(DOD)兵棋推演創造了越來越多的機會。本研究旨在利用現代框架、算法和云硬件來提高美國防部的兵棋推演能力,具體重點是縮短訓練時間、提高部署靈活性,并展示經過訓練的神經網絡如何為推薦行動提供一定程度的確定性。這項工作利用開源并行化框架來訓練神經網絡并將其部署到 Azure 云平臺。為了衡量訓練有素的網絡選擇行動的確定性,采用了貝葉斯變異推理技術。應用開源框架后,訓練時間縮短了十倍以上,而性能卻沒有任何下降。此外,將訓練好的模型部署到 Azure 云平臺可有效緩解基礎設施的限制,貝葉斯方法也成功提供了訓練模型確定性的衡量標準。美國防部可以利用機器學習和云計算方面的這些進步,大大加強未來的兵棋推演工作。
圖 4.1. 未來兵棋推演開發者與用戶在云和本地實例中的關系
人工智能(AI)在過去幾十年中取得了顯著進步。最近在深度學習和強化學習(RL)方面取得的進步使人工智能模型在各種視頻游戲中的表現超過了人類。隨著美國國防部(DOD)繼續投資開發用于兵棋推演和戰爭規劃應用的人工智能模型,許多方面都有了改進。
本研究調查了現代機器學習(ML)技術的應用,以提高兵棋推演的功效。這項研究表明,即使在沒有圖形處理器(GPU)的情況下,并行化也能大幅縮短 RL 問題的訓練時間,而且對平均得分的影響微乎其微。這一發現強調了并行處理框架對未來 RL 訓練工作的重要性。本研究利用 Ray 框架來協調 RL 訓練的并行化,并評估了兩種算法:近端策略優化(PPO)和重要性加權行為者學習者架構(IMPALA),包括使用和不使用 GPU 加速的情況。這項研究成功地表明,在保持總體平均性能的同時,訓練時間可以減少一到兩個數量級。
本研究的第二部分探討了將本地訓練的模型與本地環境解耦的實用方法,展示了將這些模型部署到云環境的可行性。采用的模型是利用開源框架開發的,并部署在微軟 Azure 云平臺上。這項研究成功地將訓練有素的 RL 模型部署到云環境中,并集成到本地訓練和評估中。
最后,本論文證明了貝葉斯技術可以集成到 RL 模型中,從而有可能提高人機協作的價值。這是通過將貝葉斯方法納入模型架構,并在運行時利用這些實施層的獨特屬性來實現的。這項研究取得了成功,并展示了如何將人工智能移動選擇的確定性措施合成并呈現給人類。
總之,這項研究強調了并行化的重要性,為基于云環境的訓練模型提供了概念驗證,并證明了將貝葉斯方法納入人工智能模型以改善人機協作的可行性,從而為推進 ML 和兵棋推演技術做出了貢獻。
本文認為,人工智能(AI)的能力不能有效或可靠地補充(更不用說取代)人類在理解和領悟戰略環境以做出預測和判斷,為戰略決策提供信息方面的作用。此外,人工智能技術在各級戰爭中的迅速擴散和日益依賴將產生戰略后果,反過來增加人類參與這些任務的重要性。因此,將人工智能技術的使用限制在戰術層面的自動化決策任務上,對于遏制或控制這種綜合在戰爭戰略層面的影響沒有什么作用。文章重新審視了約翰-博伊德的觀察-定位-決策-行動的決策循環(或 "OODA循環"),以推進對人工智能能力(特別是機器學習方法)的認識論批判,以增強指揮和控制決策過程。特別是,文章從博伊德"定位"作為一種模式中得到啟示,闡明了人類認知(感知、情感和啟發式方法)在以復雜性、新穎性和不確定性為特征的非線性世界中的防御規劃中的作用。它還涉及克勞塞維茨的 "軍事天才 "概念--及其在 "任務指揮 "中的作用--人類認知、系統和進化理論,以考慮OODA環自動化的戰略意義。
本文認為,人工智能(AI)啟用的能力不能有效、可靠或安全地補充--更不用說取代--人類理解和領會戰略環境,以做出預測和判斷,為指揮和控制(C2)決策--分配給指揮官的權力和方向提供信息(Margaret 2014,2014;Bostrom 2014;Cantwell Smith 2019)。此外,人工智能技術(尤其是機器學習(ML))的迅速普及和對其日益依賴(Terrence 2018;Domingos 2012,85-86;Russell和Norvig 2014),以增強人類在各級戰爭中的決策,預示著戰略后果,反過來增加人類在整個指揮鏈中參與這些任務的重要性。由于一些認知、地緣政治和組織因素的匯合,機器分析和綜合(即預測)數據,為人類提供決策(即判斷)的界限將變得越來越模糊,人類-機器決策的連續性。當機器和人類之間的交接變得不協調時,這種滑坡的說法將使強加邊界或遏制人工智能支持的戰術決策的戰略影響的努力本身就有問題,并且更有可能產生意想不到的戰略后果。
文章重新審視了約翰-博伊德的觀察-定位-決策-行動的隱喻決策循環(或 "OODA循環"),以推進對使用人工智能-ML能力來增強指揮和控制決策過程的客觀認識論批評(Boulanin 2020)。為此,文章從博伊德強調的 "方向"(或 "大O")中得到啟示,闡明了人類認知(感知、情感和啟發式方法)在國防規劃中的作用,以及在一個以復雜性、新穎性和不確定性為特征的非線性世界中理解更廣泛戰略環境的重要性。它還涉及克勞塞維茨的 "軍事天才 "概念(特別是其在 "任務指揮 "中的作用),(Howard和Paret;Grauer 2016;Beyerchen 1992-1993;Biddle 2004;King 2019),人類認知(Kahneman;Ariely,Kahneman et al. 1982;Baron 2008;Robert 2006),以及系統和進化理論(Jantsch 1980;Prigogine and Stengers 1984;Perrow 1999;Jervis 1997;Thomas 1999),來考慮OODA循環自動化的戰略意義。這篇文章與最近越來越多的文獻相呼應,這些文獻考慮了在軍事決策結構和過程中采用人工智能技術--以及自主武器、大數據、網絡空間和其他與 "第四次工業革命"(Barno和Bensahel)相關的新興技術的戰略影響(Raska 2021;Talmadge 2019;Goldfarb and Lindsay 2022)。
這篇文章有助于理解人工智能在軍事C2的人類決策中日益增長的作用的含義。雖然 "狹義 "人工智能系統的傳播和采用在非軍事領域取得了一些成功,以進行預測和支持--主要是基于線性的--決策(如商業部門、醫療保健和教育),但人工智能在軍事背景下的問題要多得多(Agrawal等人,2018;Furman和Seamans,2018)。具體來說,在非線性、復雜和不確定的環境中,軍事決策需要的不僅僅是大量的、廉價的數據集和歸納的機器邏輯。在指揮和控制決策中,指揮官的意圖、法律和交戰規則以及倫理和道德領導對于軍事力量應用的有效和安全決策至關重要。由于機器不能執行這些人類固有的特征,因此在未來人工智能支持的戰爭中,人類代理人的作用將變得更加關鍵(Payne 2021;Johnson 2021)。此外,隨著地緣戰略和技術決定性力量刺激軍隊擁抱人工智能系統,以尋求先發優勢并減少其在數字時代的感知脆弱性,指揮官的直覺、自由度和靈活性將被要求減輕和管理與實施軍事創新相關的意外后果、組織摩擦、戰略驚喜和預期破滅(Michael 2010;Stephen 2010)。
本文分為三個部分。第一部分解讀了博伊德的OODA循環概念及其對軍事理論的廣泛貢獻,特別是認知在指揮決策中的關鍵作用,以便在復雜的適應性組織系統動態非線性環境的大框架下理解和生存于先驗的戰略環境。第二節將博伊德環與非線性、混沌、復雜性和系統理論結合起來,并結合AIML技術的最新發展,考慮在人機指揮和控制決策連續體中整合人工智能工具的潛在影響。本節還考慮了在信息不完善的不可預測和不確定環境中部署人工智能-ML系統的潛在戰略影響。人工智能將緩解還是加劇戰爭的 "迷霧 "和 "摩擦"?
第二部分探討了高強度和動態環境下的人機協作。與人類指揮官相比,人工智能將如何應對新的戰略形勢?它認為,在復雜和快速移動的戰斗環境中,使用人工智能-機器系統來執行即使是常規的操作也是有問題的,表現出主動性、靈活性、同理心和創造性的戰術領導人仍然是至關重要的。本節還將人工智能技術的技術特點與更廣泛的外部戰略環境結合起來。人工智能工具是否會補充、取代或取消人類 "天才"在任務指揮中的作用?最后一節考慮了AIML系統對戰術單位領導人和高級指揮官之間關系的影響。具體來說,它探討了提高態勢感知和情報、監視和偵察(ISR)的人工智能工具對21世紀 "戰略下士"概念的潛在影響,并將 "戰術將軍 "的幽靈并列起來。