本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
在國防和國家安全領域部署物聯網(IoT)系統面臨著一些限制,而邊緣計算(Edge Computing)方法可以解決這些問題。邊緣計算和物聯網范例的結合帶來了潛在的好處,因為它們正視了傳統集中式云計算方法的局限性,傳統云計算方法易于擴展、支持實時應用或移動性,但其使用在網絡安全等方面存在一定風險。本章確定了國防和國家安全機構可以利用商用現貨(COTS)邊緣物聯網功能為作戰人員或急救人員提供更高的生存能力,同時降低成本并提高運行效率和有效性的場景。此外,它還介紹了戰術邊緣物聯網通信架構的總體設計,指出了廣泛采用該架構所面臨的挑戰,并為國防和國家安全領域實現經濟高效的邊緣物聯網提供了研究指南和一些建議。
關鍵詞 物聯網、戰場物聯網、國防和公共安全、戰術物聯網、邊緣計算、公共安全響應者、信任管理、戰術邊緣
本章其余部分的內容安排如下。第 1.2 節介紹本章將使用的基本概念。第 1.3 節回顧了當前商用現成 (COTS) 邊緣物聯網應用為戰術環境創造的機遇。第 1.4 節介紹了一些有前景的戰術邊緣物聯網應用場景。第 1.5 節概述了戰術邊緣物聯網通信架構的總體設計。第 1.6 節概述了阻礙戰術邊緣物聯網技術應用的挑戰,并提出了一些進一步研究的建議。最后,第 1.7 節是結論部分。
圖 1.2:國防和公共安全領域戰術邊緣物聯網的目標場景。
以網絡為中心的戰爭(NCW)模式 [73] 將戰場資產與總部連接起來。這種概念通過促進用戶之間安全、及時地交換信息而帶來好處。此外,NCW 范式結合了三個域:物理域,在事件和行動發生的地方生成數據;信息域,傳輸和存儲數據;認知域,處理和分析數據,以實現決策和任務規劃。NCW 的三個域與當今商業邊緣物聯網的基礎相對應。
在以網絡為中心的 C2 行動中,責任被下放到戰場邊緣[74],形成了所謂的戰場物聯網 (IoBT),可將戰場上所有有助于做出明智決策的事物匯集在一起。然而,這些動態需要能確保網絡效率的網絡范例。在 [74] 中,作者將以信息為中心的網絡(ICN)與軟件定義網絡(SDN)結合起來,以滿足這些要求。
本節分析了一些與邊緣服務最相關的戰術物聯網應用場景,如圖 1.2 所示。指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)和火控系統的應用主導了國防和 PS 物聯網相關技術的采用,因為傳感器主要用于收集和通信數據,以改進 C2。雖然物聯網和邊緣計算技術以前曾用于與后勤和訓練有關的應用,但它們與其他系統的集成往往有限。
如前所述,邊緣物聯網功能可用于在戰場上提供卓越的態勢感知。指揮官可根據從無人機/無人駕駛傳感器和戰場報告中提取的 AI/ML 數據整合后得出的實時分析結果做出決策。地面傳感器和攝像機,以及人或無人設備、車輛或士兵都能為指揮官提供廣泛的信息。上述物聯網設備能夠掃描任務環境,然后將信息發送到前沿基地的邊緣計算服務器。這些信息的一部分可由指揮中心收集,并在那里與其他來源的信息進行處理和融合。
圖 1.3:戰術邊緣物聯網系統的通信架構
美國國防部(DoD)對利用人工智能(AI)增強具有作戰行為的軍事模擬越來越感興趣。本文探討了深度有限神經(DLN)搜索的應用--一種集成了卷積神經網絡(CNN)的博弈樹搜索技術,作為在特定方案下訓練的評估函數,以提高人工智能在生成戰斗行為方面的可擴展性和有效性。利用專為人工智能研究設計的軍事模擬平臺 Atlatl 進行了各種實驗,以評估 DLN 在不同場景下的性能。這些實驗包括測試訓練 DLN 的人工智能組合、評估其在多個對手面前的表現,以及探索環境規模和單位數量的變化。此外,研究還采用了 DeepMind 的 AlphaStar 所展示的聯盟訓練概念,以訓練人工智能模型,避免過度擬合并制定穩健的策略。研究結果表明,在基準場景下,DLN 優于現有的替代方案,但在擴展到更大、更復雜的環境方面仍存在挑戰。這些發現為人工智能驅動的軍事模擬的未來研究與開發提供了寶貴的見解,支持了美國陸軍作戰能力開發指揮分析中心(DEVCOM DAC)正在進行的工作。
本文分為五章。第 1 章概述了研究內容,包括論文的背景、動機、問題陳述、目標、意義、范圍和結構。第 2 章回顧了有關軍事模擬中的人工智能的現有文獻和研究,指出了當前知識中存在的差距,并討論了對抗樹搜索、DLN 和 Atlatl 框架等相關概念。第 3 章詳細介紹了進行實驗所使用的方法和程序。其中包括研究設計、數據收集方法和分析技術。第 4 章詳細介紹了實驗結果,提供了數據和結論。第 5 章對結果進行分析和解釋,與現有研究進行比較,討論其影響,解決論文中提出的研究問題,總結主要發現,討論對該領域的貢獻,并提出未來研究的方向。
圖 2.7. 顯示的是啟用人機交互后瀏覽器中出現的 Atlatl 場景示例。該場景顯示了多種不同的地形和單位類型,以及代表敵對勢力的紅色和藍色隊伍。
數據分發服務(DDS)是一種中間件協議,也是無人系統中內聚通信的主要候選協議。早先工作提出了一種包含 SATCOM 和 WiFi 鏈接的網絡架構。本文通過將 5G 通信與 DDS 集成,擴展了先前研究的網絡架構。在這種集成中,無人飛行器(UAV)的控制被卸載到 5G 網絡上,這不僅確保了無人飛行器的安全運行,還通過提供特定任務的有效載荷數據促進了一系列應用。本研究的目標是利用受控模擬,成功地將無人機連接到 5G 網絡,并分析無人機能否向地面站發送數據。此外,還對系統的延遲和吞吐量進行了分析,并與之前的設置進行了比較。
本文的貢獻如下:
探索使用包含 DDS 的多鏈路網絡架構將 5G 網絡集成到無人機控制和向地面控制站發送數據的可行性。
在理想和抖動網絡配置下,評估各節點點對點鏈路的吞吐量和延遲性能,以實現可靠和最佳通信。
當網絡配置出現抖動和損耗時,評估網絡節點之間同步多流通信的吞吐量和延遲性能。
將 5G 網絡架構的網絡性能與早期論文中的網絡架構進行比較和分析。
本文其余各章的內容安排如下: 在第 2 章中,介紹了相關著作的背景、所使用軟件的概述以及相關通信技術的背景。第 3 章介紹了擬議的 5G 網絡架構、仿真參數的選擇和仿真場景。它還討論了如何設置 5G 鏈路。隨后,第 4 章將介紹和討論仿真結果。最后,第 5 章將給出結論和對未來工作的建議。
本文探討了機器學習在自主無人戰斗飛行器(AUCAV)控制中的應用。特別是,本研究將深度強化學習方法應用于防御性空戰場景,在該場景中,AUCAV 機群保護軍事高價值資產 (HVA),該資產要么是靜止的(如在空軍基地防御場景中),要么是快速移動的(如在涉及護送貨運飛機或指揮控制飛機的場景中)。通過采用馬爾可夫決策過程、近似動態規劃算法和用于價值函數近似的深度神經網絡,一系列空戰管理場景、原始模擬環境和一系列設計的計算實驗為高質量決策策略的近似提供了支持。三項連續的研究探索了新型模型和相應的方法論,以提高數學模型的準確性,提高計算效率,或更準確地評估復雜問題的解決方案質量,在這些問題中,最優解決方案的計算難以實現。對政策有效性和特定政策行為的深入分析為戰術、技術和程序的完善提供了信息,并使能力評估更加準確和量化,從而為所有相關系統的需求開發和采購計劃提供支持。
圖 1. 假想的 GABMP 場景,描繪了穿越敵對領土的固定 HVA 任務路徑
第二章至第四章由三項連續研究組成,將防御性空戰管理數學模型作為一個連續決策問題加以制定和擴展。每一章都探討了一種新穎的方法論,以提高數學模型的準確性,提高數據效率,或更準確地評估復雜問題的解決方案質量,因為在復雜問題中,最優解決方案的計算難以進行。
第二章介紹了廣義空戰管理問題(GABMP)。由 AUCAV 組成的艦隊護送 HVA 穿過敵方領土,而敵方的攻擊模式會根據友軍和敵軍的相對位置在來源和強度上發生變化。鑒于大多數現實問題并不存在于靜態環境中,針對非靜態問題的強化學習是一個廣泛研究的課題。要解決這些問題,需要在特征工程方面投入大量精力,為學習算法提供足夠有用的狀態空間信息,以揭示復雜的系統動態。本章提出了上下文分解馬爾可夫決策過程(CDMDP),它是靜態子問題的集合,旨在利用值函數的線性組合來逼近非靜態問題的動態。一組設計好的計算實驗證明了 CDMDP 方法的有效性,表明復雜的非穩態學習問題可以通過一小組靜態子問題得到有效的近似,而且 CDMDP 解決方案與基線方法相比,無需額外的特征工程就能顯著提高解決方案的質量。如果研究人員懷疑復雜且持續變化的環境可以用少量靜態上下文來近似,那么 CDMDP 框架可能會節省大量計算資源,并產生更易于可視化和實施的決策策略。
第三章為強化學習問題中的經驗重放記憶緩沖區介紹了一種新穎的基于相似性的接納控制方法。通過只用足夠不相似的經驗更新緩沖區,可以提高學習算法的效率和速度,尤其是在連續狀態空間的情況下。該方法采用了廣義空戰管理問題的擴展版本,納入了導航航點和基于軌跡的殺傷概率模型,以增強真實感。此外,還設計了一系列計算實驗,研究基于神經網絡的近似策略迭代算法的結構。對比分析表明,使用包含前 50% 最獨特經驗的內存緩沖區,學習算法收斂到穩健決策策略的速度比單獨使用優先級經驗回放快 10%。這些發現凸顯了所提出的方法在復雜、連續的狀態空間中提高強化學習效率的潛力。
第四章研究了信息松弛技術在 GABMP 進一步擴展版本中用于近似求解質量上限的應用。信息松弛指的是放寬順序決策問題中的非預期性約束,這些約束要求決策者僅根據當前可用的信息采取行動。信息松弛采用了時間事件視野,為決策者提供了對問題環境中未來隨機不確定性結果的可調整訪問。以往的研究都是針對在確定性松弛條件下更容易求解的問題進行信息松弛研究,而本方法論則將該方法應用于連續空間中的連續時間問題,即使在確定性條件下也需要求解近似技術。對事件視界和其他問題特征進行多維敏感性分析,有助于量化戰術改變或能力修改對決策政策有效性的潛在改進。這種量化方法應用于現實世界的能力差距評估,客觀地增強了傳統的主觀分析,從而為決策提供指導,并為采購計劃制定更有效的要求。第五章總結了前述各項研究的結果。
此外,第五章還指出了每項研究的假設和局限性,并提出了未來研究的可能途徑。
利用神經網絡進行近似策略迭代
圖 12. 描繪航點和攔截軌跡的 GABMP 假設場景
考慮到資產之間的通信可能是局部的,但不可能是全局的(例如,由于通信網絡中斷),“馬賽克戰爭 ”要求多個分散資產在較小的群組中移動和運行。在這些群組中,資產之間存在分層的功能關系。本研究提出并評估了一種分級資產組合和路由啟發式(HATRH),用于實施由機載傳感器、指揮和控制飛機以及攻擊機組成的空中資產企業的馬賽克戰,以移動并摧毀一組固定目標。HATRH 由三種迭代應用算法組成:一種是將資產組合成功能片的分組算法,另兩種算法分別與資產群移動和單個資產移動有關。后兩種算法中包含由用戶確定的參數,這些參數大致對應于馬賽克中的群體和單個資產機構。廣泛的測試檢驗了這些參數和資產密度對三種不同操作場景設計的影響,并通過兩個無政府價格(POA)啟發指標與最佳(即高效)資產利用率進行了比較。結果表明,與單個資產機構相對應的用戶自定義參數對平均彈藥消耗和資產平均飛行距離都有顯著影響。在資產最初包圍敵方目標的情況下,單個和群組機構用戶定義參數都會影響彈藥消耗和燃料消耗方面的作戰效率。
接下來的研究將探討以協作方式在網絡上路由多個不同類型的資產以滿足需求的問題。協同服務的特點是,在為需求提供服務時,不同類型的資產必須幾乎同時進行。此外,某些類型的資產必須通過訪問需求來提供服務,而其他類型的資產則可以就近提供服務。本研究提出了一種混合整數線性程序來模擬這種車輛路由問題的變體。除了通過商用求解器直接求解問題實例外,本研究還提出了模型分解啟發式的兩種排列組合,以及兩種預處理技術,對選定的決策變量施加特定于實例的約束。對比測試評估了求解方法和預處理選項的九種組合,以求解一組 216 個重要參數變化的實例。結果表明,在計算量有限的情況下找到可行解決方案的可能性與所確定解決方案的相對質量之間存在權衡。對于大型網絡,預處理技術利用近鄰啟發式與任何求解方法相結合,最常為測試實例集找到可行的解決方案(即 90% 的實例),但解決方案的質量較低(即平均為最佳解決方案的 15%)。在大型網絡中,表現最差的是模型分解技術,它首先對提供服務的資產進行近距離路由,而省略了任何一種預處理技術;雖然這種組合在確定可行解決方案時能產生最佳解決方案,但它只在 55% 的實例中做到了這一點。其他求解方法的表現也有值得注意的細微差別,詳見下文。
最后,研究探討了在網絡上路由多個不同類型的資產以滿足需求的問題,在此問題中,需求必須在一定時間內按順序由不同類型的資產滿足,而最大限度地減少累計服務時間是研究的重點。更具體地說,這項研究旨在利用有限的資源確定有效的網絡中斷策略,從而最大限度地縮短累計服務時間。在這個斯塔克爾伯格博弈的雙層編程結構中,上層問題決定中斷策略,下層問題決定資產路線。本研究考慮并測試了三種求解程序:迭代識別每個中斷行動的貪婪構造啟發式(GCH)、模擬退火(SA)的定制實現,以及利用候選解決方案優先級識別和塔布列表的增強變體(eSA)。測試比較了在一系列選定算法和特定實例參數下類似實例的解決方案方法。結果表明,增強型模擬退火方法表現最佳,擴展測試探索了增加所選問題集對 eSA 相對于 GCH 的相對改進的影響,以及對算法運行時間的影響。
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
無人駕駛技術的采用促進了對機器人蜂群系統的多學科研究,尤其是在軍事領域。受生物群解決問題能力的啟發,這些系統具有從局部互動中產生全局行為的優勢,從而減少了對集中控制的依賴。在機器人蜂群中創造突發行為的傳統方法要求蜂群具有可預測和可控制的特性,同時具有明確的局部規則和對所有智能體的全面了解。在反蜂群交戰中,蜂群系統需要一種全局策略,這種策略應具有魯棒性并能適應動態環境,同時盡量減少對完整知識的依賴。本研究探討的是一個反向問題:設計局部規則,以近似于通常基于每個無人機的完整知識和通信的突發行為。目標是創建分散區域,在這些區域中,防御方無人機利用在模擬數據基礎上廣泛訓練的神經網絡模型。從涉及三個攻擊方和一個防御方的交戰中提取的數據被組織成代表不同特征的各種輸入集。訓練后的回歸分析確定了與甲骨文算法相比能生成最佳防御方航向角的特征集。結果表明,神經網絡模型比oracle更有效地優化了更短的交戰時間,驗證了使用經過訓練的網絡代替傳統算法的可行性。
在當今快速發展的軍事領域,推進人工智能(AI)以支持兵棋推演變得至關重要。盡管強化學習(RL)在開發智能體方面大有可為,但傳統的 RL 在處理作戰模擬固有的復雜性方面仍面臨局限。本文提出了一種綜合方法,包括有針對性的觀測抽象、多模型集成、混合人工智能框架和總體分層強化學習(HRL)框架。使用片斷線性空間衰減的局部觀測抽象簡化了強化學習問題,提高了計算效率,并顯示出優于傳統全局觀測方法的功效。多模型框架結合了各種人工智能方法,在優化性能的同時,還能使用多樣化、專業化的個體行為模型。混合人工智能框架將 RL 與腳本智能體協同作用,利用 RL 進行高級決策,利用腳本智能體執行低級任務,從而提高了適應性、可靠性和性能。HRL 架構和訓練框架將復雜問題分解為易于管理的子問題,與軍事決策結構保持一致。雖然最初的測試并未顯示出性能的提高,但獲得了改進未來迭代的見解。這項研究強調了人工智能在兵棋推演中的革命性潛力,并強調了在這一領域繼續開展研究的必要性。
正如 CeTAS 報告所詳述的那樣,利用人工智能支持兵棋推演的方法有很多。不過,本文將重點關注人工智能在創建智能體方面的應用,這些智能體能夠在現代作戰建模與仿真 M&S 中典型的龐大而復雜的狀態空間中做出理性決策。
然而,創建一個能夠在游戲中獲勝或超越人類表現的人工智能,僅僅是表明人工智能能夠為兵棋推演者、作戰規劃者和軍事領導人提供有意義的見解的開始。盡管如此,這些智能體是開發現代決策輔助和支持工具的基礎,與傳統工具相比,它們能為決策者提供更高的準確性、速度和敏捷性。當在多領域行動中與裝備了人工智能的對手作戰時,忽視這一步會帶來巨大風險。
人機協作的概念,在文獻中也被稱為人機協同,最初是由利克利德在 1960 年提出的,但是前國際象棋世界冠軍加里-卡斯帕羅夫(Garry Kasparov)在 1997 年被 IBM 的 “深藍 ”擊敗后,提出了 “半人馬國際象棋”(Centaur Chess)的概念--即人類在對弈過程中與計算機協作。盡管輸給了人工智能,但卡斯帕羅夫倡導的理念是,不要將人工智能視為一種威脅,而應將其視為一種工具,在與人類能力相結合的情況下,可以取得非凡的成就。
在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點》[48]一書中,卡斯帕羅夫強調了利用人類和機器不同優勢的重要性。他指出,計算機擅長暴力計算,每秒能分析數百萬個局面,并計算出最佳的短期戰術棋步,而人類則主要通過直覺,帶來更深層次的戰略理解、創造力和辨別棋步長期后果的能力[48]。卡斯帕羅夫認為,人類直覺與機器計算的結合往往會產生比頂尖特級大師或計算機單獨發揮更強的棋藝。他觀察到,在許多情況下,即使是計算機輔助下的低級棋手也能超越頂級特級大師。
卡斯帕羅夫還討論了人類在這種 “半人馬 ”伙伴關系中的角色是如何隨著國際象棋人工智能的改進而演變的。最初,人類專注于戰略,而計算機負責戰術。然而,隨著國際象棋人工智能的進步,人類越來越多地承擔起 “質量控制 ”的角色,確保計算機建議的棋步符合更廣泛的戰略目標。他推測,國際象棋的未來可能并不取決于人類與機器的對決,而是取決于使用何種界面的人機團隊能發揮出最佳水平。這種合作將機器的計算能力與人類提供上下文、理解和直覺的能力結合在一起,使雙方的水平都超過了各自的能力。
最后,開發智能體是充分利用人工智能進行兵棋推演的基礎,無論是作為對手部隊、智能隊友、戰術顧問、COA 生成器、COA 分析器、COA 利用器、未來部隊設計、戰斗裁決、場景規劃,還是僅僅為了深入了解潛在結果。雖然腳本化智能體迄今為止已被證明是有用的,并將繼續有用,但現代戰爭的復雜性和不可預測性需要新水平的適應性和學習能力,而這只有 ML 才能提供。通過將超級智能體融入戰斗模擬,相信兵棋推演最終可以從靜態和可預測發展到動態和有洞察力,從而反映真實世界行動的不確定性。
本章介紹了開發智能體的基本背景概念,如搜索方法、博弈論、腳本代理、強化學習和分層強化學習。這些核心要素對于全面理解后續章節的研究至關重要。
在本章中,重點是介紹和驗證一種新穎的方法,通過采用片斷線性空間衰減的局部觀測抽象,克服 RL 智能體在較大場景中面臨的狀態空間挑戰。本章的核心內容已被第 16 屆國際 MODSIM 世界大會接受發表。所介紹的方法通過將智能體的觀測結果抽象為更緊湊、更易于計算管理的形式,簡化了智能體的感知狀態空間,同時保留了關鍵的空間信息。該研究通過一系列實驗證明,在不同的場景復雜度下,具有片斷線性空間衰減的局部觀測抽象始終優于傳統的全局觀測方法。這表明,這些類型的觀測簡化可以為在復雜環境中擴展 RL 提供計算成本更低的卓越解決方案,而這一直是該領域的重大挑戰。這些發現有助于推進 RL 觀察抽象的研究,并說明此類技術有潛力促進 RL 在復雜真實世界環境中的更廣泛應用,特別是在軍事模擬和兵棋推演領域。
本章介紹并驗證了多模型框架,該框架利用腳本模型和強化學習(RL)模型的組合,根據游戲的當前狀態動態采用最佳模型來提高性能。本章的核心內容已接受在 2024 年 SPIE 國防與商業傳感會議上發表。
這種多模型框架顯著提高了性能,最全面的多模型(即包含最多單個行為模型的多模型)優于所有單個模型和較簡單的復合模型。這表明,即使是表現較差的單個模型也能在特定情況下做出積極貢獻,突出了模型庫中多樣性和專業化的價值。研究結果強調了多模型系統在增強軍事模擬等典型的復雜、動態環境中的決策能力方面的潛力,提倡戰略性地融合人工智能模型和技術,以克服訓練單一通用模型所固有的挑戰。
本章介紹并驗證了一種混合分層人工智能框架,該框架將 RL 代理與腳本代理整合在一起,以優化大型作戰模擬場景中的決策。傳統的腳本代理雖然具有可預測性和一致性,但由于其僵化性,在動態場景中往往會失敗。與此相反,RL 智能體雖然在大型模擬環境和不透明的決策制定過程中舉步維艱,但卻能提供適應性和從互動中學習的能力。
開發了一種新穎的方法,在這種方法中,分層結構采用腳本智能體進行常規、戰術級決策,采用 RL 智能體進行戰略、更高級決策。腳本模型的一致性和 RL 模型的適應性之間的協同作用大大提高了性能,在利用這兩種方法的優勢的同時似乎也減輕了它們的弱點。這種整合產生了一個更有效的人工智能系統,它可以應對軍事模擬中更廣泛的戰略和戰術挑戰。
本章是論文工作的頂點部分,概述了設計、開發以及將整個論文中討論的方法整合到新型 HRL 架構和訓練框架中的過程。通過將不同層次的觀測抽象和多模型方法整合到所提出的框架中,探索了這一 HRL 方法在復雜決策環境建模中的潛在優勢和局限性。通過評估這些技術對學習過程和決策效率的影響,與傳統的腳本和RL方法相比,旨在進一步了解構建和訓練HRL系統的動態和挑戰。
最后一章介紹了論文的核心研究成果。討論了研究的理論和實踐意義,強調了研究的優勢和局限性,概述了對人工智能和作戰 M&S 領域的貢獻,并回答了本章提出的研究問題。此外,還利用整個 HRL 實驗的結果來激勵和明確未來的工作。
圖 6.12. MOBA 智能體分層架構。分層架構由宏觀戰略和微觀操作組成。
本報告總結了網絡科學實驗方法項目期間的研究成果,大約涵蓋2017-2020年。該項目重點關注兩個主要議題:彈性網絡的上下文感知網絡和網絡安全。上下文感知網絡旨在改善戰術網絡及其支持服務的性能,使用上下文感知來加強目前的實踐方法,這些方法不一定考慮環境的動態和資源有限的邊緣設備和網絡的限制。彈性網絡的網絡安全旨在加強戰術網絡在動態和復雜對手面前的安全性。
參與本項目的美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員在相關主題的多個外部合作伙伴計劃的形成和合作中具有重要影響。這些項目的成果被納入任務資助的項目。這些合作伙伴計劃包括美國-英國分布式分析和信息科學國際技術聯盟(DAIS ITA)、戰場物聯網合作研究聯盟(IoBT CRA)、技術合作計劃(TTCP)和北約科學和技術組織信息系統技術(NATO STO IST)小組。
這項研究的影響包括:網絡模擬實驗驗證了支持理論結果的算法和技術的可行性,在網絡和通信研究界對研究成果進行了大量報道,并對陸軍概念科技(S&T)文件做出了貢獻。下文中總結的重點包括:利用沙堆模型開發網絡控制中的級聯故障的最佳控制,并確定可以防止級聯故障的條件;將密匙壽命提高一個數量級的物理層安全認證協議;以及對指揮與控制(C2)、火災和網絡科技概念文件的貢獻。
圖 1 包含理解、適應和執行周期的上下文感知網絡示意圖
近年來,針對工業生態系統的高級持續性威脅(APT)的復雜性急劇增加。這使得開發超越傳統解決方案的高級安全服務成為必須,輿論動力學(Opinion Dynamics)就是其中之一。這種新穎的方法提出了一個多智能體協作框架,允許跟蹤APT的整個生命周期。在本文中,我們介紹了TI&TO,這是一個攻擊者和防御者之間的雙人博弈,代表了一個現實的場景,雙方都在爭奪現代工業結構中的資源控制權。通過使用博弈論來驗證這種技術,我們證明,在大多數情況下,輿論動力學包括有效的第一項措施,以阻止和減少APT對基礎設施的影響。為了實現這一目標,攻擊者和防御者的模型都被標準化,并應用了一個公平的評分系統,后者用不同的策略和網絡配置運行了幾個模擬測試案例。
世界各地的公司面對的網絡安全攻擊數量明顯增長,導致了巨大的經濟損失[2]。當涉及到關鍵的基礎設施(即核電站、電網、運輸和制造系統)時,這種情況變得更加嚴重,其工業控制系統必須在所有條件下保持工作。在這里,我們處理的是SCADA(監督控制和數據采集)系統,幾十年來一直在與外部網絡隔離的情況下工作;反過來,如今它們正越來越多地整合新技術,如物聯網(IoT)或云計算,在削減成本的同時外包各種服務。因此,需要做出更大的努力來跟上這種進步,以應對這些系統可能帶來的最新的攻擊載體和可利用的漏洞。
近年來最關鍵的問題之一是高級持續性威脅(APTs),這是一種復雜的攻擊,特別是針對目標基礎設施,由一個資源豐富的組織實施。它們的特點是利用零日漏洞(零時差攻擊),采用隱蔽技術,使威脅在受害者網絡中長期無法被發現。Stuxnet是第一個報道的這種性質的威脅[6],但許多其他的威脅在之后被發現,通常是在攻擊完全執行后的幾個月[7]。在網絡安全方面,只是提出了一些機制來從整體上解決這個問題,超越了傳統的機制(如防火墻、入侵防御系統(IPS)、入侵檢測系統(IDS)、防病毒),這些機制只代表了在第一階段對APT的準時保護[21]。
在這些新穎的機制中,輿論動力學(Opinion Dynamics)[15]包括一個多智能體協作系統,通過分布式異常關聯,使攻擊的整個生命周期都可以被追蹤。在本文中,我們提出了一個理論但現實的方案,以證明該方法在不同類型的攻擊模式下的有效性,使用結構可控性領域[8]和博弈論[14]支持的概念。為了這個目標,我們開發了TI&TO,這是一個雙人博弈,攻擊者和防御者為控制現代工業結構中的資源而競爭。兩個玩家都有自己的動作和相關的分數,分別根據APT和基于Opinion Dynamics的檢測系統的行為。這個博弈最終在不同的模擬中運行,旨在展示算法的能力,同時也建議將該技術與其他防御方案結合起來進行最佳配置。因此,我們可以把我們的貢獻總結為:
本文的其余部分組織如下。第2節介紹了 "輿論動力學"的概念,并強調了應用博弈論來檢測網絡攻擊的建議。在第3節中,定義了博弈,包括規則以及攻擊和防御模型。然后,進行了幾次模擬,并在第4節進行了討論。最后,在第5節中提出了結論和未來的工作。