亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

配備先進傳感器的無人平臺的集成有望提高對態勢的感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。本文展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,本文貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖 1:(左)虎爪情景中的狀態示例。(右圖)每個智能體的感知(本地觀察)和它們之間的通信聯系。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同行動圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將他們的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單位的狀態(包括位置)。

利用深度強化學習(DRL)技術,在一系列不同的模擬場景、初始部隊配置和對手行動中,對 COP 和智能體策略進行端到端聯合訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多代理環境中進行。在 SC2 中模擬的多個藍方與紅方的場景中,我們通過經驗觀察到了該方法的有效性。具體來說,我們在具有挑戰性和現實性的 TigerClaw 情景(圖 1)中測試和評估了我們的方法,該情景由發展司令部陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,我們的方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍減弱、通信能力減弱、GPS 被拒絕以及場景變化的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,并推進了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。
  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。
  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

圖 3:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。我們使用 QMIX作為 COP 集成的 MARL 方法示例。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

現代通信網絡越來越多地采用無人飛行器(UAV)。然而,決策和數字建模方面的挑戰仍然阻礙著它們的快速發展。強化學習(RL)算法面臨著樣本效率低、數據通用性有限等限制,在無人機通信場景中進一步放大。此外,數字孿生(DT)建模引入了大量決策和數據管理的復雜性。通常集成到 DT 框架中的 RL 模型需要大量訓練數據才能實現準確預測。與注重類邊界的傳統方法不同,擴散模型(DM)是一類新的生成式人工智能,它能從訓練數據中學習底層概率分布,并能根據所學分布生成值得信賴的新模式。本文探討了如何將 DM 與 RL 和 DT 相結合,以有效地應對這些挑戰。通過將 DM的數據生成能力與 RL 的決策框架和 DT 的建模精度相結合,這種集成提高了無人機通信的適應性和實時性。此外,該研究還展示了 DM 如何緩解數據稀缺、改善策略網絡和優化動態建模,從而為復雜的無人機通信場景提供穩健的解決方案。

圖 1:DM 與 DT 和 RL 技術在無人機通信中的集成概述,其中 DM 通過合成數據和改進的策略網絡使 RL 受益。此外,DM 還能通過合成數據和動態建模使 DT 受益。

圖 2:DM 與無人機通信 RL 技術相結合的概述,DM 通過合成數據、訓練環境和改進的策略網絡為 RL 帶來益處。

無人飛行器(UAV)越來越多地應用于能源、公共安全、農業和智慧城市等各個領域,充當數據收集器、基站和中繼器。無人機在第五代(5G)網絡的發展中也發揮著至關重要的作用,有助于實現 5G 的目標,包括增強型移動寬帶(eMBB)、超可靠和低延遲通信(URLLC)以及大規模機型通信(mMTC)。預計無人機還將在第六代(6G)網絡中發揮關鍵作用,改進數據收集和分析。無人機的主要優勢在于其快速部署、可控的機動性以及建立視距(LoS)通信的能力,這有助于高速數據傳輸。

決策是指從多個備選方案中選擇最佳行動方案,例如確定最佳飛行路徑或安排數據傳輸。它與數字建模一樣,是無人機通信中不可或缺的過程。強化學習(RL)是人工智能(AI)中的一種變革性方法,可為無人機通信中的復雜決策挑戰提供有前景的解決方案。在無人機輔助傳感器網絡中,強化學習(RL)可自動執行數據收集任務;然而,低樣本效率往往會阻礙強化學習。樣本效率指的是強化學習算法從與環境的有限交互中有效學習的能力。此外,其面向行動的性質要求在動態環境中進行長時間和廣泛的交互,這對其實際部署提出了重大挑戰。身臨其境的數字建模系統,如數字雙胞胎(DTs),可在虛擬對應物中復制無人機元素、流程、動態和固件。這些物理和數字對應物通過實時數據通信無縫交換輸入和操作。使用 DT 可以有效地對具有不同空中角色的無人機群進行建模,從而實現協作、提高安全性并減少模擬與現實之間的差距等挑戰。然而,DT 建模涉及決策和數據管理方面的重大復雜問題。在 DT 框架中經常使用的 RL 模型依賴大量的訓練數據來進行準確預測。獲取充足且具有代表性的訓練數據是一項巨大挑戰,尤其是對于歷史數據集或場景有限的系統而言。

擴散模型(DM)是一類生成式人工智能,在應對上述挑戰方面顯示出巨大的潛力。與注重類別邊界的傳統方法不同,DMs 從訓練數據中學習底層概率分布,從而能夠根據學習到的分布生成值得信賴的新樣本。DM 可以綜合數據,幫助 RL 模型克服樣本效率低的問題,改進其策略以更好地處理無人機動態環境,并為無人機訓練創建逼真的模擬環境。此外,DM 還能幫助 DT 輔助無人機克服數據稀缺的問題,在與 RL 集成時改進決策制定,并提高無人機建模的準確性。Sun 等人展示了如何使用生成式人工智能來增強 RL。此外,Zhu 等人調查了 DM 在 RL 中的應用,Sun 等人系統地展示了生成式人工智能在優化無人機通信和網絡問題中的應用。

本文特別討論了 DM 如何通過提高采樣效率、提供增強的策略網絡和生成逼真的訓練環境來增強 RL 輔助無人機通信。我們還研究了 DM 如何通過生成合成數據、改進決策和完善動態建模來幫助 DT 輔助無人機通信。圖 1 顯示了 DMs 與 RL 和 DT 在無人機通信方面的集成。

本文的貢獻如下:

  • 研究了如何整合 DM 以增強無人機通信的 RL 決策。DM 可通過生成合成數據、改進策略網絡和增強訓練環境為 RL 決策做出貢獻
  • 研究了如何整合 DM 以增強無人機通信的數字建模。DM 可以解決 DT 輔助無人機通信系統中的數據稀缺、決策、任務協調和動態建模難題

本文接下來的內容安排如下: 第二節概述了 DMs 和無人機通信。第三節介紹 DMs 與 RL 在無人機通信中的集成。第四節介紹 DMs 與 DT 在無人機通信中的集成。第五節概述了未來工作和未決問題。最后,第六節對本文進行總結。

付費5元查看完整內容

配備先進傳感器的無人平臺的集成有望提高態勢感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。

圖:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。使用 QMIX作為 COP 集成的 MARL 方法示例。

配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。

我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。

在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同作戰圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。

近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。

不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。

我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將自己的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。

在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。

接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單元的狀態(包括位置)。

在不同的模擬場景、初始部隊配置和對手行動中,使用深度強化學習(DRL)對 COP 和智能體策略進行端到端訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。

實驗在星際爭霸-2(SC2)多智能體環境中進行。在 SC2 中模擬的多個藍方與紅方場景中,通過經驗觀察了方法的有效性。具體來說,在具有挑戰性和現實性的 TigerClaw 場景(圖 1)中測試和評估了方法,該場景由 DEVCOM 陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。

圖 1:(左)Tigerclaw場景中的狀態示例。(右)每個智能體的感知(本地觀察)和它們之間的通信聯系。

對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍下降、通信能力下降、GPS 被拒絕以及場景變化等因素的影響。

總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,推動了自適應和彈性 C2 領域的發展。其貢獻如下:

  • 實時自主形成可解釋的共同行動圖像(COP)的方法,包括預測整個行動區域的敵方位置。

  • 由于利用智能體間的通信進行分布式 COP 預測,因此展示了對可視范圍和 GPS 拒絕的更強的應變能力。

  • 通過聯合訓練 COP 模型和多智能體 RL 策略,提高整體任務成功率。

付費5元查看完整內容

在自主航空系統的動態環境中,無人駕駛飛行器(UAV)的集成引發了模式轉變,為協同決策和導航提供了前所未有的機遇和挑戰。本文探討了多智能體強化學習(MARL)在復雜環境下無人飛行器規劃和協同中的應用。

論文的第一部分介紹了單智能體強化學習和 MARL。舉例說明了 MARL 在反無人機系統(C-UAS)中的應用。將反無人機系統問題表述為多智能體部分可觀測馬爾可夫決策過程(MAPOMDP),并提出了多智能體部分可觀測深度強化學習追擊者控制優化(MAGNET),用于訓練一組無人機系統的追擊者或智能體,以追擊和攔截速度更快的無人機系統或逃逸者。在 MAGNET 中,將基于控制障礙函數(CBF)的安全層集成到近端策略優化(PPO)中,以便在訓練和測試過程中提供安全保證。此外,還將 DeepSet 網絡納入 MAGNET,以處理智能體觀測的時變維度。進行了大量的仿真,結果表明,與基線實現相比,MAGNET 可以維持一個無碰撞的環境,但犧牲了輕微的逃逸者捕獲率降低。

論文的第二部分涉及多智能體系統的安全學習方法。為此,探索了高級空中機動性應用中的一個更復雜的場景,即一組自主無人機(UAV)可能需要合作同時到達預定目的地,例如攻擊目標或運送重型貨物。然而,控制一組無人機同時到達目的地并非易事,因為它們必須滿足空間約束條件,這意味著控制算法不僅要避免無人機之間的碰撞,還要避免無人機與非合作飛行物(NCFO)之間的碰撞,而這些飛行物不受控制算法的協調。現有的時間協調控制算法可以實現多無人機系統的同時到達,但無法確保無碰撞。在本例中,提出了一種安全的線性二次優化控制算法,該算法由兩大部分組成,即時間協調規劃器和安全層,其中時間協調規劃器用于推導無人機的加速度,以最小化所有無人機的到達時間與預定終止時間之差,而安全層則應用基于控制障礙函數的解決方案來生成可行的無人機加速度,以確保無碰撞環境。

最后,利用 MARL 框架解決終端時間協調問題,成功實現了無人機同時到達目的地,同時避免與其他無人機和非合作飛行物(NCFO)發生碰撞。

付費5元查看完整內容

在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。

付費5元查看完整內容

過去幾十年來,軍事研究人員開發了基于人類感知的搜索模型,并將其應用于傳感器設計和實施的軍事和商業領域。這些模型主要是針對靜態圖像創建的,如果給觀察者無限的時間來做出瞄準決策,它們能準確預測靜止目標和靜止傳感器系統的任務性能。為了考慮必須在較短時間內做出決策的情況,我們開發了限時搜索模型來描述任務性能如何隨時間變化。最近,該模型又有了新的變化,以適應動態目標情況和動態傳感器情況。后者是為模擬車載傳感器的性能而設計的。在此,該模型被用于優化草叢中緬甸蟒的近紅外搜索傳感器配置,包括靜態圖像和移動傳感器平臺錄制的視頻。通過將已建立的動態傳感器模型與相機矩陣理論相結合,可以利用測量到的靜態人類感知數據來優化傳感系統選擇和傳感器操作,包括傳感器指向角、高度和平臺速度,從而最大限度地提高人類從移動傳感器平臺探測近距離地面目標的搜索性能。為了說明這一點,將這一方法應用于從移動傳感器平臺檢測近紅外緬甸蟒蛇。

付費5元查看完整內容

本文探討了人工智能(AI)技術在生成無人機(UAV)機群軌跡中的應用。所面臨的兩大挑戰包括準確預測無人飛行器的路徑和有效避免它們之間的碰撞。

首先,本文在單隱層前饋神經網絡(FFNN)中系統地應用了多種激活函數,與之前的研究相比,提高了預測路徑的準確性。

其次,引入了一種新穎的激活函數 AdaptoSwelliGauss,它是 Swish 和 Elliott 激活函數的復雜融合,并與縮放和移動高斯分量無縫集成。斯維什能促進平穩過渡,埃利奧特能捕捉突然的軌跡變化,而縮放和位移高斯能增強對噪聲的魯棒性。這種動態組合專為捕捉無人機軌跡預測的復雜性而設計。與所有現有的激活函數相比,這種新激活函數的精度要高得多。

第三,提出了一種新穎的綜合碰撞檢測、規避和批處理(ICDAB)策略,它融合了兩種互補的無人機碰撞規避技術:改變無人機軌跡和改變其起始時間,也稱為批處理。這種融合有助于克服兩種技術的缺點:第一種技術是減少軌跡操作次數,避免路徑過于迂回;第二種技術是減少批次規模,減少整體起飛時間。

近年來,無人機因其多功能性和廣泛的應用潛力而越來越受歡迎,從監視和監測到交付和運輸,無所不包。然而,無人機在復雜環境中的安全高效運行仍然是一項重大挑戰,尤其是在涉及多個無人機的情況下。一個關鍵問題是需要優化無人飛行器的軌跡,以實現各種目標,如盡量縮短飛行時間、避免碰撞和擴大覆蓋范圍。傳統的軌跡規劃和控制方法在處理現實世界場景的復雜性和不確定性方面往往能力有限,而且可能無法擴展到大型無人機群。

之前的研究(如 Lai (2020)、Xue (2017) 以及 Qiu 和 Duan (2020))已經證明了利用非線性優化技術的功效。最近,Xu 等人(2024 年)將多目標優化用于軌跡生成。當需要快速改變軌跡時,優化程序太慢且不具有自適應能力,因此人工智能技術成為首選。人工智能技術,尤其是基于機器學習和神經網絡的技術,使無人機能夠從數據中學習并適應不斷變化的條件,從而在應對這些挑戰方面展現出巨大的前景 Lai(2020)。

這些研究涉及利用雙曲切線函數(Tanh)、Sigmoid 等激活函數訓練單隱層的 FFNN。所使用的激活函數對路徑的預測精度不高,因此我們首先要改進這方面的問題。我們在單隱層 FFNN 中系統地應用了多種激活函數,并進行了綜合比較分析。除了 Sigmoid 和 Tanh 外,我們還使用了整流線性單元(ReLU)、泄漏 ReLU、Swish、Elliot 和 Maxout。

其次,為了追求更高的軌跡精度,我們引入了一種新型激活函數 AdaptoSwelliGauss,它超越了相同神經網絡架構中常用的同類激活函數。該函數結合了能捕捉平滑過渡并保持軌跡連續性的 Swish 激活函數和能捕捉方向和速度突然變化的 Elliot 激活函數,以及能使激活函數對噪聲數據具有魯棒性的縮放和位移高斯。

在自主無人機中,碰撞檢測和規避的關鍵部分對確保其運行的安全性和效率起著至關重要的作用,這也是我們的第三個重點。當考慮到多架無人機同時起飛時,這些功能的重要性就更加突出了。無人飛行器之間的碰撞檢測非常簡單,但是有很多方法可以通過改變飛行軌跡來避免碰撞。Guo 等人(2021 年)介紹了一種流行的方法--圓弧軌跡幾何法(CTGA)。假設兩架無人飛行器在路徑上的某一點發生碰撞,該技術會對其中一架無人飛行器的路徑添加一個小擾動。這種算法的缺點是容易陷入操縱循環。對一個無人飛行器軌跡的任何改變都可能無意中造成與其他無人飛行器的碰撞,從而導致棘手的情況。此外,對無人飛行器軌跡的頻繁操作可能會導致飛行路徑錯綜復雜,從而影響無人飛行器群的整體效率。

另一種避免無人機碰撞的輔助技術是改變它們的起始時間。Sastre 等人(2022a)和 Sastre 等人(2022b)提出了這樣一種流行的方法。他們采用了一種分批機制,創建具有非碰撞軌跡的無人飛行器群,以促進安全飛行。然而,多批次的創建引入了一個時間密集的過程,延遲了無人機群的整體發射。

在本文中,我們介紹了一種先進的碰撞檢測和規避算法,稱為 ICDAB 算法。在這里,我們首先改進了 Guo 等人(2021 年)提出的 CTGA 算法,然后將這種規避算法與批處理機制相結合,最終形成了我們的算法。

本文的其余部分安排如下: 第 2 節回顧了相關文獻,第 3 節介紹了我們提出的算法和方法,第 4 節展示了結果,第 5 節總結了本文并提出了未來的工作方向。

付費5元查看完整內容

通過整合人工智能輔助指揮系統和無人技術,未來戰爭正在經歷變革,這將對作戰行動和軍事決策周期所需的速度產生重大影響。未來的決策支持系統將協助軍事決策者評估威脅,為部隊制定最佳行動方案,甚至通過自主系統的協作群行為執行行動。要實現這些系統,建模與仿真以及先進的深度強化學習(RL)技術的結合將發揮至關重要的作用。

本文介紹了德國陸軍概念與能力發展中心和空中客車公司開展的幾項研究的結果。這些研究評估了模擬和人工智能技術的調整和利用情況,利用 RL 優化模擬 "ReLeGSim "訓練了一個能夠在陸軍作戰中充當營級指揮員或在 ISR 任務中控制無人機群的AI智能體。AI智能體利用語言模型生成自然語言命令,在 ReLeGSim 中執行行動,加強了人類顧問與人工智能系統之間的交流,同時將目標和條令納入人工智能推理過程。通過軍事條令感知反饋功能,智能體在每個訓練周期內評估并改進其行為。

訓練完成后,AI智能體可應用于真實世界的場景,根據所學的AI智能體策略為營長制定行動方案,或直接在自主系統中執行,以控制無人機蜂群。這項研究為使智能體具備在未來行動中維護軍事條令和規則的能力奠定了基礎。

1.0 引言

近年來,人工智能(AI)取得了長足的進步,而強化學習(RL)則是其中一個突出的范例。強化學習因其在 Dota2 和《星際爭霸》等復雜游戲場景中實現卓越性能,甚至超越人類能力的能力而備受關注。它已成為機器學習領域用于解決復雜任務的最先進的人工智能技術。

當前軍事研究的主要目標是將最初為游戲應用而設計的 RL 技術移植到軍事行動領域。其總體目標是為軍事行動開發基于人工智能的系統,使其在許多使用案例中都能表現出超人水平的性能,例如[16]:

  • 戰場決策: 通過使用模擬環境,RL 可用于訓練智能體在復雜的軍事場景中做出決策[1]。人工智能做出的決策可用作向指揮官提出的建議,例如,有效的行動方案。

  • 自主系統: RL 可用于訓練智能體在模擬環境中控制軍用車輛(如無人機、坦克)[2]。智能體可以學會在環境中導航車輛并執行各種任務(如偵察、目標捕獲)。經過訓練的智能體可以轉移到真實車輛上,而無需重新訓練人工智能。

  • 規劃與優化: 例如,RL 可用于優化軍事模擬中的后勤規劃[3]。智能體可以學習將資源(如部隊、補給)分配到戰場的不同區域,以實現任務目標,同時將損失降到最低。

  • 網絡安全: 在軍事模擬中,RL 可用于訓練智能體檢測和應對網絡攻擊 [4]。智能體可以學會識別和減輕對軍事網絡和系統的威脅。

  • 培訓與評估: RL 可用于在模擬中培訓和評估軍事人員 [5]。智能體可以模擬不同的場景,并對受訓人員采取的行動提供反饋。

應用于 RL 的技術在不斷變化和改進。變壓器模型[6]等新架構和 SiLU [7]等新激活函數正在進一步改善用 RL 訓練的人工智能體的架構和整體性能。轉換器模型允許使用新的架構,如視覺轉換器(VisionTransformers)[8],也是所有最新大型語言模型的基礎,如 OpenAI [9] 的 GPT(生成預訓練轉換器)。

在這些發展的推動下,本文研究了如何使用新的語言模型架構來解決軍事行動所需的巨大行動空間問題,并提高智能體的整體性能。

2.0 相關工作

在 RL 中,復雜的決策能力往往伴隨著巨大的行動空間,而緩解行動空間爆炸是一個活躍的研究領域。論文 "不斷增長的行動空間"[10] 強調,隨機探索對于大型空間來說不夠好,課程學習對于學習這些行動空間至關重要。最近的發展使用了以自然語言為特征的動作空間,并成功地利用了其復雜動作生成的靈活性[11]。

自然語言處理領域的最新進展激發了開發人員拓展使用自然語言的可能性。語言模型通常用于問題解答和對話。不過,這些模型也可以通過 RL 訓練與環境互動。在他們的論文 "學習用語言模擬世界"[12]中,介紹了構建智能體的概念,這些智能體可以理解并以多種方式使用不同的語言,包括傳達常識、描述世界狀態和提供反饋。其核心思想是,語言可以幫助智能體預測未來,包括將觀察到什么、世界將如何表現以及哪些行為將得到獎勵。作者介紹的 "Dynalang "是一種學習多模態世界模型的智能體,它能預測未來的文本和圖像表征,并根據模擬模型的推出做出決策。與傳統智能體不同,Dynalang 不僅使用語言進行行動預測,還使用語言預測未來的語言、視頻和獎勵,從而獲得豐富的語言理解能力。此外,Dynalang 還可以在沒有動作或獎勵的語言和視頻數據集上進行預訓練,它能有效地利用語言來提高從網格世界到逼真家庭掃描等各種環境中的任務性能。

RL 的另一個重要方面在于獎勵系統的適應性,即為智能體提供激勵措施以鼓勵所期望行為的概念。獎勵塑造是一種用于系統修改這些獎勵結構的技術。在實踐中,這涉及對獎勵進行微調,以引導智能體實現特定目標。舉例來說,在迷宮導航的背景下,人工智能體可以在探索之前未知區域時獲得遞增獎勵,從而刺激全面探索。另一種策略是元學習或多任務學習,它使人工智能系統能夠同時監督多個可能不同的目標。這種方法類似于同時掌握幾項任務,通過在這些任務之間共享所獲得的知識和技能來實現。然而,在人工智能中動態改變獎勵功能的過程伴隨著內在的挑戰。

如果目標的轉變過于突然,人工智能系統可能難以適應,需要進行資源密集型的再訓練。頻繁改變目標可能會給人工智能帶來困惑。總之,在人工智能中動態調節獎勵機制的做法體現了一種強有力的工具,盡管這種工具需要謹慎管理。首要目標是在人工智能的學習過程中實現適應性和穩定性之間的平衡,確保在適應不斷變化的目標和保持有效的學習動力之間達到和諧的平衡。

最近發表的論文“Designing Rewards for Fast Learning”[13] 探討了獎勵函數設計對 RL 智能體學習速度的影響。它強調了選擇基于狀態的獎勵的重要性,這種獎勵能最大化行動差距,使智能體更容易區分最優行動和次優行動。論文還引入了最小化一種稱為 "主觀折扣 "的度量的概念,以鼓勵智能體在減少前瞻性的情況下做出最優決策。為了解決獎勵設計問題,本文提出了一種線性編程算法。在表格環境中使用 Q-Learning 的實驗結果表明,生成的獎勵能加快學習速度。該研究確定了獎勵設計的三個關鍵原則:1)與獎勵目標相比,懲罰每一步有助于加快學習速度。2) 沿目標軌跡獎勵子目標時,獎勵應隨著目標的接近而逐漸增加。3) 只有經過精心設計,在每個狀態下都不為零的密集獎勵才是有益的。

3.0 Relegs--復雜作戰環境下的強化學習

3.1 模擬環境 "ReLeGSim"

ReLeGSim(強化學習通用人工智能訓練模擬,如圖 1 所示)是一個類似棋盤的模擬環境,用于強化學習,以開發棋手在游戲中的自我優化策略。任意棋手都要通過一系列棋步達到目標,并且可以相互影響。ReLeGSim 可用于模擬各種民用和軍用場景,如 ISR 任務或大營地面作戰場景。ReLeGSim 允許為類似國際象棋游戲的環境定義角色,賦予它們相應的屬性和可能的行動。為此,可以使用 Python 編程語言,通過適當的特定應用仿真模型(如傳感器)對仿真進行擴展。

在 ReLeGs1 研究范圍內,ReLeGSim 被配置為 2 個營的對抗模型,其中每個營的指揮官都必須指揮其指定的連隊和支援單元。它允許玩家(無論是人類還是智能體)在攻擊或防御的戰術場景中生成營的命令。該模擬由論文[1]介紹,使用了用于強化學習的 "Gymnasium "API[14]。

圖 1 ReLeGSim 用戶界面

在模擬游戲中,一名玩家扮演進攻方,旨在從防守方手中奪取一個特定的目標區域,而防守方則必須在整個過程中守住該區域。雙方玩家都可以使用由排和單個單元組成的各種具有獨特能力的連隊。要想取得成功,玩家必須了解對手的觀點,了解自己連隊的能力,并有效地控制地形。

圖 2 人工智能工具鏈 - ReLeGSim

人工智能工具鏈(圖 2)可根據矢量、高程和衛星信息等真實世界數據自動創建三維地形。然后,柵格化地圖將用于 ReLeGSim 中的人工智能訓練,并為不同區域分配特定的實地類型(如森林或道路)。帶有附加工具的模擬旨在提供一個平臺,通過強化學習訓練不同的人工智能模型,同時也支持人類與人工智能的博弈。因此,可以對訓練好的智能體的能力進行基準測試、評估和分析。該工具鏈還包括對訓練好的人工智能體進行自動測試,并根據客戶需求提供各種指標和復雜的分析。

3.2 ReLeGSim 人工智能架構

ReLeGSim 的作者從 DeepMind 的 AlphaStar [15](復雜 RL 問題的領先模型)中汲取靈感,開發出一種創新架構(圖 3)。受軍事戰術的影響,該設計利用標量數據和可視化地圖進行場景觀察。標量數據包括部隊人數和彈藥,以擴展人工智能的視野。所有輸入參數都經過歸一化處理,以提高訓練效果。標量值采用多頭注意力網絡,而不是全連接層,提高了智能體的質量。為了了解地形,人工智能接收了包含大量地形信息和實體編碼的可視化地圖。為了將這些豐富的數據納入人工智能,我們開發了一個帶有卷積層的空間編碼器。

通過自動編碼器設置對架構進行評估,并將其減少到最低限度,將參數從 200 萬減少到 4.7 萬,并生成一個預訓練模型。可選的語言輸入可將目標或任務考慮在內。在分層設置中,給定任務可由上級智能體定義。來自視覺、任務和標量數據的編碼值被輸入到一個核心網絡(LSTM 組件)中,以處理長期規劃。

行動頭(action head)最初是基于 AlphaStar 實現的多離散行動空間。由于行動空間不斷擴大,行動頭被一個基于最新研究的語言模型所取代,該模型可預測自然語言中的行動指令。

圖 3 ReLeGSim 使用的人工智能架構

3.3 人工智能決策空間

人工智能的復雜決策能力問題伴隨著 RL 中巨大的行動空間而產生,隨著 RL 應用變得越來越復雜和逼真,這也是一個巨大的挑戰。小而固定的行動空間在表現力、探索性和效率方面都有局限性。研究人員正在不斷開發新的技術和算法,以減輕不斷膨脹的行動空間所帶來的影響,如函數近似、離散化和分層 RL。這些方法使智能體能夠處理日益復雜的任務,并更有效地應對大型行動空間的挑戰。隨著 RL 的不斷進步,解決行動空間爆炸的問題仍將是一個重要的研究領域,以便在現實世界中成功應用 RL。

利用自然語言與人工智能建立交流的方法(如文獻[2]所示),以及利用自然語言制定條令的發展(如文獻[16]所強調),為在多方面作戰環境中實現多用途人工智能能力開創了先例。ReLeGSim 在人工智能與模擬中的智能體之間建立了一個自然語言接口,可對給定命令進行復雜的解析和執行。這些命令可以是不同層次的,可以控制各種智能體。

最初的試驗表明,大量未使用的詞匯不利于訓練,而且會導致訓練速度減慢。因此,我們使用了一個小而有效的詞匯表。該詞匯表只包含以下標記:

<colon>標記將輸出文本序列分割為多個動作,而<comma>標記則結束或填充結果。標記的縮減和優化都是手動完成的,并與模擬中執行的結果行為直接對應。為了標記動作,我們使用了單擊編碼,因為這允許我們對給定的動作進行隨機抽樣,并可通過多離散表示法輕松集成到任何給定的 RL 框架中。

4.0 實驗與結果

4.1 "ReLeGs "中的行動方案(COA)決策支持儀表板

ReLeGSim 人工智能模型深度整合了人類對任務優先級排序的干預,通過將任務信息納入觀察空間來實現目標的實時變化(圖 3)。為了訓練這種行為,我們采用了課程學習策略,引入了用自然語言表達的各種優先級,每種優先級都與指導遵守規則的獎勵相關聯。這種方法鼓勵智能體發展廣泛的技能組合,在不同的場景中表現出色,并高效地實現目標。

為了將訓練有素的智能體用于行動方案(COA)決策支持,我們開發了一個行動方案決策支持網絡應用程序。根據給定的戰斗情況和藍軍與紅軍的 ORBAT,決策支持網絡應用程序會生成大量 ReLeGSim 模擬運行,以獲得人工智能體在給定情況下如何行動的統計數據。此外,所有可能的決策因素(如可用的聯合火力打擊數量)都會發生變化,以便讓用戶設置特定的過濾設置,分析由此產生的數據。然后,對人工智能指揮的模擬運行結果進行統計分析,并通過基于網絡的儀表板中的熱圖等方式將其可視化。

圖 4 顯示了一個熱圖可視化示例。它顯示了在相同起始條件下多次模擬運行中所有藍色和紅色單元的移動情況。此外,在此示例中,紅方營指揮官被賦予了兩種不同的攻擊優先級:a) 盡快攻擊 vs. b) 攻擊時盡量減少自身損失。圖 4 說明了人工智能如何根據不同的目標調整自己的行為,例如優先考慮快速進攻還是盡量減少損失。

圖 4 根據給定的優先級(a)和(b)比較營行動

這只是在給定場景中探索不同可能性的一種方法,可幫助操作員生成并驗證行動方案。ReLeGSim 的工具箱中提供了從戰爭游戲、統計分析到紅軍行動方案預測的各種選項。該決策支持工具可自動進行場景測試、戰術優化和人工智能模型評估,促進多樣化探索和適應性決策。

4.2 "KITU "中異質無人機群的自主控制

在德國陸軍總部的 "戰術無人機系統的人工智能(KITU)"研究中,空中客車防務與航天公司與兩家德國初創公司量子系統公司(Quantum-Systems)和Sleenlab正在探索在軍事場景中使用人工智能(AI)控制戰術無人機系統(UAS)。這項研究的重點是演示和分析用于自主無人機群的人工智能組件,重點是與主地面作戰系統(MGCS)和北約東翼監視方案保持一致。重點領域是異源無人機群的協調、目標探測和動態任務執行。使用人工智能對各種自動化任務進行訓練,以了解從傳感器到射手鏈的工作量、有效性和效率。該研究還調查了數據處理位置、恢復能力以及群控制在中斷情況下的穩健性。

采用深度強化學習方法來開發能夠在人類監督下控制無人機群的人工智能。圖 5 顯示了從 RL 訓練、驗證到實際飛行測試的過程。為了訓練對無人機群的控制,對 ReLeGSim 仿真進行了調整,使其能夠提供具有不同飛行特性、電池供電和消耗以及光學傳感器等有效載荷的固定翼和多旋翼無人機的簡化模型。對所謂的無人機群控制器的行動空間進行了調整,以賦予無人機搜索和跟蹤任務,以及在地面降落的可能性,從而以較低的電池消耗從地面觀察目標。一旦訓練成功,行為就會轉移到真正的無人機系統上,在空中客車無人機中心進行飛行測試。首次飛行實驗表明,在 ReLeGSim 仿真環境中訓練的智能體在真實情況下表現良好,通過提高模型保真度和根據實際情況校準模型參數,減少了一些模擬與現實之間的差距。

所獲得的見解旨在為將人工智能學習行為集成到真實無人機系統中提供信息,并評估其與人工控制的相似性。總之,像KITU這樣的項目對歐洲國防計劃(包括無人機群、人工智能和云計算)至關重要,并可能為MGCS和未來戰斗航空系統(FCAS)開發計劃帶來益處。無人機群可實現兵力倍增并提高偵察能力,因此在戰術場景中非常有價值。

圖 5 - 將 ReLeGSim 人工智能體用于控制真實的無人機群

5.0 結論

總之,本文論述了未來戰爭在人工智能輔助指揮系統和無人技術整合的推動下發生的變革。這些變化將對作戰行動產生重大影響,并要求加快軍事決策周期。要實現這些未來的決策支持系統,建模、模擬和先進的深度強化學習技術的整合至關重要。這些系統將協助軍事決策者評估威脅、制定最佳行動方案,甚至通過自主系統的協作蜂群行為來執行行動。

本文介紹的研究展示了如何調整和利用模擬與人工智能技術,利用 RL 優化模擬 "ReLeGSim "訓練能夠擔任營級指揮官或控制無人機群的人工智能體。這些智能體通過自然語言命令進行交流,增強了人與人工智能的互動,同時將目標和條令納入人工智能推理過程。軍事條令感知反饋功能的整合使智能體能夠在訓練周期內自我完善。

雖然 "ReLeGs "和 "KITU "兩項研究的目標都不是完全取代人類決策者,但它們為人工智能在軍事行動中的潛力提供了寶貴的見解。RL 代理的開發雖然具有挑戰性,但已展示出有希望的行為模式,包括智能地形利用和戰略決策。隨著研究的深入,預計還會出現更多的見解和行為模式。這項研究為使智能體具備維護軍事條令和規則的能力奠定了基礎,為人類決策者提供了更有力的支持,并為人工智能在各種軍事場景、訓練和決策支持系統中的應用開辟了道路。人工智能在戰爭中的未來將以協作和增強為標志,人工智能將成為與人類專業技術并駕齊驅的寶貴工具,確保 "人類做出決策,機器提供支持"。

6.0 未來之路

許多國家和國際研究工作都強調,未來各梯隊作戰行動的執行速度必須大大提高。與過去不同的是,過去一個旅的指揮官可以有幾個小時的時間進行決策,而現在要想取得優勢地位,就必須明顯并逐步縮短可用于決策的時間。有幾個因素促成了這種不斷變化的局面。前進的道路上有幾個關鍵的方向,可以進一步推動研究和實際應用:

1.繼續培訓和評估:應完成對 RL 智能體的持續培訓,進一步完善其行為模式。這包括開發更復雜的戰術行為,如目標優先級排序、組建預備隊和反擊策略。此外,應更詳細地探索通過可解釋人工智能(XAI)來解釋 RL 智能體的行為,以增強人類的理解能力。

2.可擴展性和真實世界測試:雖然 ReLeGSim 等模擬環境提供了寶貴的訓練場地,但仍應努力擴大這些智能體的規模,以便在現實世界中進行測試和部署。這包括解決硬件和計算要求,以確保實際適用性。

3.人機一體化:人工智能作為決策支持的整合必須繼續強調人類的控制和干預。為人類指揮官與人工智能體之間的無縫協作開發接口和協議至關重要。

4.人工智能應用的多樣性: 研究重點應超越決策支持,探索人工智能在軍事領域的廣泛應用。這包括訓練自主無人系統、為訓練演習進行模擬,以及評估人工智能模型的性能和戰術。此外,其他仿真模型也應與 ReLeGSim RL 架構一起應用,在 PAXSEM 等高度詳細的戰斗模型中訓練 RL 智能體,這對于模擬密集空戰或防空等場景是必要的。

5.倫理和法律方面的考慮:隨著人工智能在軍事行動中的作用越來越大,必須解決倫理和法律方面的問題。研究應包括有關負責任地使用人工智能、問責制以及遵守國際法和國際公約的討論和解決方案。

6.測試與驗證:人工智能模型的嚴格測試和驗證,尤其是在復雜多變的作戰場景中的測試和驗證,仍應是一個優先事項。這包括評估人工智能在城市戰、非正規戰爭和維和行動等各種情況下的表現。

7.適應不斷發展的技術:鑒于人工智能發展的快節奏,研究應保持適應性和開放性,納入新興技術、架構和最佳實踐,以保持在人工智能輔助軍事決策支持領域的領先地位。大型語言模型(LLM),尤其是多模態 LLM 有可能徹底改變對態勢感知、推理和行動計劃的理解。這項技術具有極大的潛力,可以顯著改進智能體。

總之,前進的道路包括采取全面的戰略,推進人工智能并將其無縫整合到軍事行動中,同時始終遵守道德和法律標準。通過解決這些關鍵問題,本研究可為人工智能決策支持系統的發展及其在復雜軍事環境中的謹慎應用做出貢獻。

付費5元查看完整內容

本博士論文詳細分析了提高網絡防御態勢感知所需的決策要素,特別強調了網絡安全運營中心(SOC)分析人員的感知和理解。提出了基于數據流網絡流取證(NF3)的兩種不同架構。第一種架構使用集合機器學習技術,第二種則是算法復雜度更高的機器學習變體(λ-NF3),可提供更強大的防御框架來抵御對抗性攻擊。這兩項建議都旨在有效地自動檢測惡意軟件并進行后續的事件管理,在接近所謂的下一代認知計算 SOC(NGC2SOC)方面取得了令人滿意的結果。為保護組織的計算機網絡而進行的事件監督和監測必須輔以可視化技術。在這種情況下,本論文基于任務導向的指標和程序,使用基于模糊邏輯的專家系統,對三維圖片進行了表述。確切地說,在實施網絡防御解決方案時,考慮到一個組織的使命、資源和任務的相關性,以做出更明智的決策,最新技術證明存在嚴重缺陷。這項研究工作最終為改進網絡防御決策提供了兩個關鍵領域:一個是用于評估解決方案參數的可靠、完整的驗證和確認框架,另一個是根據網絡殺傷鏈和 MITRE ATT & CK 標準開發的合成數據集,該數據集可統一參考網絡攻擊的各個階段。

圖1所示。研究活動的周界及其演變順時針方向。

論文目標

本博士論文的研究目標如下: 1.了解和分析網絡防御態勢感知及其研究挑戰; 2.開展研究活動,將計算和數據處理與網絡決策系統的操作方面(業務需求)聯系起來; 3.找出不足之處,闡明未來的研究方向;

上述目標促成了以下研究任務:

  • 通過對文獻和研究進展進行深入分析,了解態勢感知的基礎,包括其在網絡空間中的應用;
  • 研究針對網絡空間安全的國際倡議;
  • 研究和分析人的因素和人的系統整合(HSI)概念;
  • 研究網絡防御可視化工具;
  • 制定衡量標準,并將模糊邏輯應用于任務規劃和執行的近似推理機制;
  • 開展機器學習(ML)算法研究;
  • 研究機器學習(ML)算法的適用性,將支持識別 SOC 中網絡威脅的流程自動化;
  • 研究如何通過建模和模擬創建合成數據集;
  • 設計用于驗證和核實 CySA 及其相應定義的全面技術,以指導實驗;
  • 研究智能網絡防御代理,將其作為未來研究的一個突出領域;
付費5元查看完整內容

最近,機器學習和人工智能的快速發展為改進美國防部(DOD)兵棋推演創造了越來越多的機會。本研究旨在利用現代框架、算法和云硬件來提高美國防部的兵棋推演能力,具體重點是縮短訓練時間、提高部署靈活性,并展示經過訓練的神經網絡如何為推薦行動提供一定程度的確定性。這項工作利用開源并行化框架來訓練神經網絡并將其部署到 Azure 云平臺。為了衡量訓練有素的網絡選擇行動的確定性,采用了貝葉斯變異推理技術。應用開源框架后,訓練時間縮短了十倍以上,而性能卻沒有任何下降。此外,將訓練好的模型部署到 Azure 云平臺可有效緩解基礎設施的限制,貝葉斯方法也成功提供了訓練模型確定性的衡量標準。美國防部可以利用機器學習和云計算方面的這些進步,大大加強未來的兵棋推演工作。

圖 4.1. 未來兵棋推演開發者與用戶在云和本地實例中的關系

人工智能(AI)在過去幾十年中取得了顯著進步。最近在深度學習和強化學習(RL)方面取得的進步使人工智能模型在各種視頻游戲中的表現超過了人類。隨著美國國防部(DOD)繼續投資開發用于兵棋推演和戰爭規劃應用的人工智能模型,許多方面都有了改進。

本研究調查了現代機器學習(ML)技術的應用,以提高兵棋推演的功效。這項研究表明,即使在沒有圖形處理器(GPU)的情況下,并行化也能大幅縮短 RL 問題的訓練時間,而且對平均得分的影響微乎其微。這一發現強調了并行處理框架對未來 RL 訓練工作的重要性。本研究利用 Ray 框架來協調 RL 訓練的并行化,并評估了兩種算法:近端策略優化(PPO)和重要性加權行為者學習者架構(IMPALA),包括使用和不使用 GPU 加速的情況。這項研究成功地表明,在保持總體平均性能的同時,訓練時間可以減少一到兩個數量級。

本研究的第二部分探討了將本地訓練的模型與本地環境解耦的實用方法,展示了將這些模型部署到云環境的可行性。采用的模型是利用開源框架開發的,并部署在微軟 Azure 云平臺上。這項研究成功地將訓練有素的 RL 模型部署到云環境中,并集成到本地訓練和評估中。

最后,本論文證明了貝葉斯技術可以集成到 RL 模型中,從而有可能提高人機協作的價值。這是通過將貝葉斯方法納入模型架構,并在運行時利用這些實施層的獨特屬性來實現的。這項研究取得了成功,并展示了如何將人工智能移動選擇的確定性措施合成并呈現給人類。

總之,這項研究強調了并行化的重要性,為基于云環境的訓練模型提供了概念驗證,并證明了將貝葉斯方法納入人工智能模型以改善人機協作的可行性,從而為推進 ML 和兵棋推演技術做出了貢獻。

付費5元查看完整內容

深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。

圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。

付費5元查看完整內容
北京阿比特科技有限公司