亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在高度受限與擁擠環境中協調機器人集群的復雜任務,常因機器人獲取精確環境狀態信息的能力受限而受阻——此類信息對引導群體達成目標至關重要。挑戰源于環境中固有的不確定性與不可預測性,影響智能體與環境的交互。然而,密集活性物質研究表明,協調行為可通過自組織原則涌現,即簡單的局部社交互動催生復雜全局構型與模式。本論文旨在利用密集活性物質的必然特征,實現無全局控制與顯式他機狀態信息下的機器人集群自發協同。具體而言,自適應堵塞控制技術通過非計劃接觸交互促成集群涌現性協調。該技術依賴機器人間的接觸與碰撞(基于位置噪聲估計與環境變化)。通過自主方向調整與個體任務參與度調節,可化解狹窄隧道中的持續性堵塞。進一步改進算法以應對個體故障對群體效能的負面影響:主動接觸響應(ACR)算法為堵塞控制機制注入容錯性,將故障機器人重定位至低干擾位態,確保隧道內交通流持續暢通與任務完成。

擁擠受限系統的這些特性同時應對多智能體強化學習(MARL)的基礎性挑戰。通過共享環境建立間接通信通道,智能體可估計并推理其他智能體活動的統計特征,從個體視角直接降低環境的非平穩性。數值仿真表明,利用局部物理交互與環境隱式通信可提升多智能體強化學習場景的收斂性與可擴展性。

最終構建數學模型闡釋并驗證自然集群在擁擠狹窄自生隧道中(無需全局控制或顯式通信)表現的自組織行為。該模型與生物實驗中觀測的多階段掘進速率相吻合,揭示接觸與局部交互對自然群體自調控行為的關鍵調控作用。

? 第二章介紹了生物與機器人集群中利用局部交互作為協調技術的背景與文獻綜述,涵蓋共識主動性(stigmergy)在多智能體強化學習場景中的應用,并綜述多智能體系統容錯技術。
? 第三章提出自適應協議方法,用于學習預防受限多機器人掘進任務中的擁堵問題,展示長期真實機器人實驗的實證結果。
? 第四章詳述主動接觸響應方法,增強第三章所述堵塞控制算法的容錯性,呈現真實機器人實驗結果并與基線算法對比。
? 第五章轉向深度強化學習在擁擠受限環境中的多智能體協調,探討通過虛擬信息素或共識主動性提升收斂性的方法論,并與既有基線算法進行比較。
? 第六章展示活體集群協調與適應技術的最新發現,構建螞蟻掘洞實驗的分析與仿真模型。
? 第七章總結全文,強調核心貢獻并展望未來研究方向。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

隨著工作邊界的擴展與未來形態的演進,人類與機器將共享更具協作性的工作空間,實現成員間的自由協同。在此背景下,需明確信息在團隊成員間的流通機制,以確保人機信息交互的高效性與準確性。共享態勢感知(SSA)——即個體獲取并解析非自身信息源信息的程度——為構建上述信息交換的設計準則提供了有效框架。本研究提出增強/虛擬現實(AR/VR)環境下共享態勢感知的初步設計原則,旨在幫助設計者:(1)基于基礎原則構建高效界面;(2)通過系統性文獻綜述開發的測量工具評估候選界面設計效能。研究目標通過以下專項實驗達成:1) 論證AR支持任務中SSA的重要性;2) 闡述支撐SSA所需的設計指南與測量工具;3) 采用SSA衍生的AR界面開展用戶研究,驗證文獻提煉準則的有效性。

本文通過互補性章節深入解析SSA構成要素及相關設計準則,探討SSA與AR/VR系統信號檢測的關聯性,以及用戶與界面SSA測量對目標成果的促進作用。最終章節整合各章研究成果,系統回應本論文的核心研究問題與目標。

第二章論述初始用戶研究,通過合作搜索任務分析人類績效,初步識別SSA信息在同類任務中的效用價值。非SSA導向的界面設計缺陷分析為SSA初步準則的提煉提供了啟示。本章同時介紹一種輔助測量工具,該工具雖作為人類SSA間接度量指標開發,亦可作為AR/VR頭顯設備的通用可用性評估或生物力學測量工具。

第三章開發AR/VR頭戴式顯示器(HWD)角急動度測量指標,使設計者能基于特定AR界面評估用戶運動質量。該指標既可識別界面用戶需求特征,也可作為AR/VR普適化進程中疲勞度與損傷風險的量化依據。延續此研究脈絡,第四章聚焦AR/VR HWD力與扭矩復合測量方法的開發與驗證。結合角急動度指標,該測量體系通過提供用戶工作負荷、疲勞度等客觀基準數據,深化AR/VR HWD運動數據分析,同時具備安全監控與其他數據測量功能。基于此類數據,機器成員可深度認知用戶的疲勞度、損傷傾向等影響即時能力的要素,進而優化人機協作效能。

第五章系統梳理SSA文獻體系,初步構建基于SSA原則的界面評級工具。該工具類似于SAGAT型評估體系,可供開發者量化用戶SSA水平,檢驗界面設計對SSA的增強效果。后續研究中,本調查工具將用于驗證本章開發的界面準則對用戶SSA的提升作用。

最終章節通過實證研究完善SSA原則體系并驗證測量指標。本研究采用VR界面,整合前期實驗數據與第五章文獻綜述成果,系統驗證已確立的原則與測量方法。研究成果不僅支持SSA增強型團隊協作的預防性設計,還可實現設計方案的實時與回溯評估,推動界面迭代優化。相較于第二章初始研究,本測試平臺顯著增強交互性,通過提升搜索任務復雜度迫使用戶深度依賴系統組件,從而在主動強化SSA的同時驗證其有效性(詳見章節詳述)。

付費5元查看完整內容

當前集群無人系統(UxS)高度依賴人工操作支持。平臺有限的"智能"特性既制約其潛在價值又增加整體成本。亟需人工智能(AI)解決方案實現單人指揮大規模集群。受生物學啟發的牧群引導機制——通過少數牧羊犬控制大群綿羊——為此提供思路。通過設計扮演牧羊犬角色的AI代理,操作員可仿效牧民指揮生物牧羊犬的方式引導集群。具備情境感知能力的AI牧羊犬代理突破現有研究對集群同質性的限制假設,支持異質集群管理,并增強人機協作效能。 本研究提出本體論驅動的架構設計以增強集群控制代理的情境感知能力。該架構通過提升AI牧羊犬代理的情境認知,實現對異質化集群行為的特征提取與響應。配套方法與算法突破傳統研究局限,構建了新型集群行為引導框架。研究開發了系列量化指標與方法論,用于識別集群影響力源頭、區分異質代理行為特征,并設計AI算法實現行為模式識別。這些創新將推動新一代高自主性UxS構建更高效的人-集群協作系統(HSTs)。

群體代理同質性

傳統牧群引導研究普遍假設集群代理具有同質性,這構成顯著理論缺口[33]。現有集群控制代理設計主要基于三個同質假設:執行能力、感知能力及決策模型(包括行動決策與環境作用力向量生成)的一致性[14]。然而自然界普遍存在決策機制與能力異質的群體系統[34],機器人學界對此關注度持續提升[35]。隨著新型集群系統研究深入,生物啟發式方法必須考慮能力差異化的代理。但現有文獻中的控制代理普遍默認集群同質化,忽視代理機構與能力構成的差異性。本研究通過引入本體論指導分析指標選擇,開發可辨識集群代理機構的信息標記(第五章詳述),突破同質性假設桎梏。這些標記有助于解析代理間的社會層級結構,為認知能力增強的集群系統構建類人化組織架構奠定基礎。

群體控制代理態勢感知

通過有效提取與識別集群代理特征,可構建控制代理的態勢感知框架。傳統同質集群控制代理依賴特定情境要素(如集群質心空間分布[14]或連接性指標[36])制定控制策略。本研究創新性開發集群標記系統,通過識別代理隱含屬性推斷行為模式。這些標記聚焦影響控制策略選擇的關鍵要素:集群響應模式、影響力分布及其表現形式。通過賦予代理集群情境辨識與推理能力,控制代理可動態優化策略選擇。

群體控制代理情境感知

集群情境識別能力使控制代理可實施最優響應策略。本研究突破傳統系統在異質/同質集群場景下的自適應局限,集成行為調制模塊實現策略參數化配置與任務導向行為規劃。實驗證明,該架構顯著提升控制代理在異常場景下的魯棒性。以經典牧群引導模型為例,當集群圍繞目標點循環移動時,傳統系統需人工介入識別,而本研究通過整合目標距離與行為歷史數據至識別預測算法,實現自主異常檢測與應對。該方法為未來自主系統應對對抗場景等復雜態勢提供技術路徑。

付費5元查看完整內容

多智能體強化學習(MARL)理論的一個核心問題是,了解哪些結構條件和算法原理會導致樣本高效學習保證,以及當我們從少數智能體轉向多數智能體時,這些考慮因素會發生怎樣的變化。我們在多智能體互動決策的一般框架中研究了這一問題,包括具有函數逼近的馬爾可夫博弈和具有強盜反饋的正態博弈。我們的重點是均衡計算,其中集中式學習算法旨在通過控制與(未知)環境交互的多個智能體來計算均衡。我們的主要貢獻如下

  • 提供了多智能體決策最優樣本復雜度的上下限,其基礎是決策估計系數(Decision-Estimation Coefficient)的多智能體廣義化;決策估計系數是 Foster 等人(2021 年)在與我們的設置相對應的單智能體中引入的一種復雜度度量。與單智能體環境下的最佳結果相比,我們的上界和下界都有額外的差距。我們的研究表明,任何 “合理 ”的復雜性度量都無法彌補這些差距,這凸顯了單個智能體與多個智能體之間的顯著差異。

  • 表征多智能體決策的統計復雜性,等同于表征單智能體決策的統計復雜性,只不過獎勵是隱藏的(無法觀察到的),這個框架包含了部分監控問題的變體。由于這種聯系,我們盡可能地描述了隱藏獎勵交互決策的統計復雜性。

在此基礎上,提供了幾個新的結構性結果,包括:1)多智能體決策的統計復雜性可以降低到單智能體決策的統計復雜性的條件;2)可以避免所謂的多智能體詛咒的條件。

由于篇幅所限,正文對研究結果作了非正式的概述,詳細說明放在附錄的第 I 部分。第 II 部分給出了示例。附錄組織概覽見附錄 A。

付費5元查看完整內容

人類與智能體之間的互動無處不在,并滲透到有組織的團體和活動的概念邊界中。高績效的人類團隊通過實現共享認知的新興狀態來超越復雜領域的不確定性,在這種狀態下,知識被組織、呈現并分配給團隊成員,以便快速執行。然而,這需要個人發出可感知的特質,其他成員才能據此推斷出意圖。為了開展未來的人類和機器團隊研究,本研究為完全合作和半合作行動與項目團隊中的機器智能體提出了一種混合認知模型。混合認知模型統一了共享心智模型和交互式記憶系統的特點。由此產生的模型便于隨時在兩種認知表征中進行選擇,而計算復雜度僅為單一模型的一半。對混合認知模型的評估是在復雜程度和合作水平不斷提高的多智能體領域進行的。智能體的性能根據四個認知特征進行評估,這四個特征捕捉了項目和行動團隊中認知的性質和形式。研究采用混合方法對四個既定特征和衡量標準進行分析。結果表明,使用認知模型的智能體形成了編碼結構、感知和解釋認知形式的一致表征。此外,研究結果表明,采用混合認知模型的智能體可以在必要時在涌現的構成性和匯編性之間切換,以整合行為或知識。

第二章回顧了影響 HCM 形式化的團隊合作和共享認知方面的基礎課題,討論了因果關系建模、機器代理、多代理系統(MAS)、博弈論和強化學習(RL)方面的相關工作。第二章的結論部分介紹了為 HCM 的通用和專用算法形式所選擇的算法系列。第三章介紹了 HCM 的概念理論和形式化,介紹了其通用算法形式,并定義了實驗領域。第四章介紹了合作領域中的 HCM 實例,檢驗了假設 1 到假設 3,并強調了 HCM 在降低計算復雜性、最大限度減少無關通信以及保持對所研究領域的完全事實理解方面的功效。第五章詳細介紹了適用于非合作團隊的 HCM,并詳細介紹了測試假設 4 的混合方法研究。定性分析利用小故事對智能體的行為進行因果解釋,而定量分析則通過在重復游戲中獲得的累積分數來考量智能體的表現。第六章是本研究的結論,并提出了未來工作的方向和人機團隊的擴展。

付費5元查看完整內容

模擬環境中的逼真行為是必要的,尤其是在訓練模擬器的空對空戰爭中。與有限狀態機(FSM)等以前的技術相比,有了行為樹這一新框架,行為可以變得更加逼真、模塊化、靈活和可擴展。人工運算符或智能體通常是靜態構建的,這意味著一旦它們以特定方式構建,就不會改變其行為,因此在對它們進行一些練習后,就很容易預測它們的行為。即使是靜態構建的智能體,其行為也會變得非常復雜,它們必須能夠以合作的方式應對環境和其他智能體。利用新的算法和框架,這些智能體及其行為可以不斷學習新的戰術進展,并在不同的可能交戰技術之間進行切換,以挑戰人類操作員。智能體可以變得更智能、更逼真,幫助人類飛行員訓練新的戰術方法。該技術將在未來幫助設計人員看到新的模式,并創建可在多種場景中重復使用的通用行為。

在本論文中,一種名為遺傳算法(GA)和遺傳編程(GP)的人工智能技術將作為一種優化算法,用于搜索解決方案空間,并在名為戰術模擬(TACSI)的模擬環境中演化人工行為。模擬場景是兩個智能體之間的超視距(BVR)搏斗,其中對手使用靜態行為,而學習型智能體將針對靜態行為進行訓練。BVR 場景的設置是兩個智能體以相同的起始位置、高度和武器裝備(即四枚 BVR 導彈)面對面開始。學習智能體必須學習動作空間(即可用動作)和動作的工作原理,然后將其應用到狀態空間(如識別目標和發射導彈)。然后,當一個或一組解決方案滿足要求時,生成的解決方案將在新的場景設置中進行評估和測試,在新的場景設置中,位置、方向和高度都是隨機的。在新的設置中測試智能體,可以分析其適應性。

從結果中可以看出,所有解決方案都有一個缺陷,即過于被動。算法很難設計攻擊序列,但逃離和機動序列卻不難設計。每種行為的模擬測試也表明了這一點,大多數情況下都以平局告終。

第 2 節將介紹 BT 框架的歷史、包含的不同節點類型以及 BT 框架的優缺點。第 3 節將向讀者深入介紹人工智能,并介紹機器學習(Machine Learning),這是一種通過獎勵和將輸入映射到輸出來智能訓練智能體的技術。第 4 節將介紹進化計算(EC)和選擇開發的算法。所選技術稱為遺傳算法和遺傳編程。第 5 節將介紹系統架構、組件以及與 TACSI 的集成。第 6 節將展示四種不同解決方案在斗狗場景中的模擬評估。第 7 節將討論算法、框架和評估。第 8 節將介紹本論文在倫理和道德標準方面的合理性,第 9 節將介紹未來的工作。

付費5元查看完整內容

隨著人工智能(AI)的出現,基于個人經驗和判斷進行行動和思考的自主概念為未來的自主決策鋪平了道路。這種未來可以解決相互依存的多計算系統這一復雜領域的問題,而這些系統面臨的主要挑戰是,它們之間的相互作用會產生不可預測且往往不穩定的結果。為相互依存計算系統設想和設計人工智能驅動的自主性至關重要,它涵蓋了從物聯網(IoT)到網絡安全等各種用例。這可以通過克隆人類決策過程來實現,克隆過程要求人類在決定如何行動之前,先感知未知的隨機環境,執行行動,最后評估感知到的反饋。每個人都會根據自己的行為特征和推理,主觀地評估反饋是否令人滿意。上述步驟的重復迭代構成了人類的學習過程。因此,其核心思想是將人類的認知注入到相互依存的計算系統中,使其轉變為人工智能決策體,模仿人類的理性行為屬性,自主優化其主觀標準。

無人駕駛飛行器(UAV)或多接入邊緣計算服務器(MEC)等相互依賴的計算系統的快速發展帶來了海量數據和嚴格的服務質量(QoS)要求。當這些系統以自主方式行動時,它們會表現出競爭行為,因為每個系統都想自私地優化自己的主觀標準。這就引入了非合作環境中交互決策的概念,即每個系統的反饋都取決于其他系統可能相互沖突的行動。因此,本文利用博弈論來有效捕捉非合作環境中相互依賴的計算系統之間的戰略互動,并證明存在解決方案,即穩定的均衡點。均衡點被認為是穩定的解決方案,因為每個系統都沒有單方面改變自身行動的戰略動機。為了以分布式方式確定這些均衡點,我們采用了強化學習(RL)技術,該技術可使相互依存的自主計算系統在隨機環境中利用自身行動和經驗的反饋,通過試錯進行智能學習。此外,傳統的強化學習方法還加入了獎勵重塑技術,通過契約理論考慮自主互聯計算系統之間類似勞動經濟學的安排,并通過貝葉斯信念模型考慮它們的行為特征。同時利用博弈論和強化學習與獎勵重塑技術,是向自感知人工智能(SAAI)邁出的一步。本文證明,它極有可能成為構建基于人工智能的自主決策相互依賴計算系統的主要組成部分,并能有效地應用于各種應用領域。

圖 1.1: 總體決策框架

本文貢獻點

本文首先分析了所使用的數學工具的理論基礎。此外,除了傳統的單智能體環境,還引入了多個非集中式低復雜度框架,根據人工智能原理將相互依存的多智能體計算系統轉化為自主決策者。在多智能體應用環境中,提出了以第 1.1 節所述 IDU 約束為特征的非合作博弈,并應對了由此帶來的挑戰。具體來說,博弈論與強化學習的融合帶來了新穎的低復雜度分布式學習框架。此外,通過注入人類認知屬性,傳統的 RL 框架得到了豐富,從而使決策過程更加有效。證明了納什均衡點的存在,并表明基于人工智能的自主相互依存計算系統能夠接近這些均衡點,而無需集中式閉合解決方案。通過建模和仿真,在各種實際應用案例中對所提出的框架進行了評估。本論文的主要貢獻如下。

1.引入了新穎的低復雜度分布式決策框架,將傳統的資源有限、相互依賴的計算系統轉變為自主、智能的計算系統。我們研究了兩種情況: (a) 完整信息情景,即計算系統可以交換所有必要信息,并以分布式方式收斂到均衡點;以及 (b) 不完整信息情景,即利用強化學習讓智能相互依賴計算系統以自主方式接近均衡點。對這兩種情況下的運行性能進行了實證評估。

2.在處理非合作博弈的應用領域,通過證明博弈是潛在的或子/超模的方式,用數學方法證明納什均衡點的存在。如果環境是完全可觀察的,則采用傳統的閉式求解方法,如最佳響應動力學,反之,則采用各種強化學習算法,從經驗上接近納什均衡點。

3.通過利用契約理論和貝葉斯信念,將人類認知和行為特征分別納入決策框架。此外,當在信息不對稱的環境中運用契約理論時,提供了優化問題的閉式激勵解的完整證明,這反過來又從一個非凸問題正式轉化為一個凸問題。通過適當地將這些人類意識屬性納入獎勵重塑的強化學習框架,計算系統可以自主優化其主觀目標并做出有效決策。這是向增強型自我意識人工智能邁出的一步。

4.除了多智能體設置,還將強化學習應用于單智能體問題,例如離線深度強化學習,表明基于 RL 的決策智能體比許多替代策略(例如基于機器學習(ML)的方法)能帶來更好的結果。

5.通過在廣泛的應用領域進行大規模模擬,對所提出的決策方法進行了實證評估,突出了這些方法的主要操作特點。此外,還引用了與其他方法的詳細比較評估,強調了所引入框架的優越性。

圖 3.7:移動邊緣計算中的人工智能無人機數據卸載框架

付費5元查看完整內容

異構多智能體系統為解決農業、軍事、裝配和倉庫自動化等不同領域的復雜問題提供了可能,否則單個智能體是無法解決這些問題的。要有效部署異構多機器人團隊,研究必須解決不同抽象程度的四個問題:任務規劃(是什么)、運動規劃(如何)、任務分配(誰)和調度(何時)。這些問題高度相互依存,先前的工作已經證明,利用這些問題的單個解決方案之間的協同作用的系統可以提高多機器人協調的效率和效益。

本文研究了在多智能體組隊應用中使用基于特質的模型來表示單個智能體,以及如何利用基于特質的建模來實現更穩健、更高效的多智能體聯盟組建解決方案。具體來說,我們研究了如何在聯盟組建算法中使用這些技術來回答任務分配、調度、運動規劃和任務規劃這四個問題。

我們的研究表明,利用基于機器人和任務特質建模的算法可以在異構多機器人團隊中實現高效的協調,并且在時間進度、分配質量和計算效率方面優于現有方法。本論文的貢獻如下:

  • 創建一個建模框架,使現代任務分配算法能夠推理動態特征。通過使用基于轉換的建模框架,我們創建了對以往基于特質的建模技術的擴展,以更好地推理智能體的特質如何隨時間變化。

  • 為異構多機器人系統開發基于時間擴展特質的任務分配和路徑規劃統一框架。我們引入了一種基于搜索的方法,用于基于特質的時間擴展任務分配和運動規劃,命名為增量任務分配圖搜索(ITAGS)。

  • 整合任務規劃、任務分配、調度和運動規劃的新型多機器人協調問題的形式化和解決方案。我們形式化了一類新的多機器人協調問題,該問題融合了這些問題中的每一個,并提出了一種解決方案(圖形遞歸同步任務分配、規劃和調度(GRSTAPS))。

  • 為 ITAGS 的動態變體創建框架,該變體能夠進行基于特征的任務分配修復: 我們對 ITAGS 進行了擴展,使用基于特質的動態時間擴展任務分配算法,如果智能體的特質或任務要求在執行過程中發生變化,該算法可以修復任務分配。

  • 創建一個主動學習框架,用于學習多智能體任務分配問題的特質要求: 由于理解一個聯盟的特質與該聯盟在特定任務中的表現之間的關系可能具有挑戰性,因此我們提出了一種主動學習框架來學習任務與特質之間的關系。此外,我們還提供了一種新的時間擴展任務分配算法,該算法能夠優化學習到的質量模型。

圖 2.1: 顯示各種多機器人協調問題交叉點的維恩圖。

付費5元查看完整內容

近年來,對無人駕駛車輛等自主實體的研究開始給軍事和民用設備帶來革命性的變化。自主實體的一個重要研究重點是自主機器人群的協調問題。傳統上,機器人模型被用于考慮操作機器人群所需最低規格的算法。然而,這些理論模型也忽略了重要的實際細節。其中一些細節,如時間,以前也曾被考慮過(如執行的歷時)。在本論文中,將結合幾個問題來研究這些細節,并引入新的性能指標來捕捉實際細節。具體來說,我們引入了三個新指標:(1) 距離復雜度(反映機器人的耗電量和損耗),(2) 空間復雜度(反映算法運行所需的空間),(3) 局部計算復雜度(反映蜂群中每個機器人的計算要求)。

將這些指標應用于研究一些著名的重要問題,如完全可見性和任意模式形成。還引入并研究了一個新問題--"門道出口",它抓住了機器人群在受限空間中導航的本質。首先,研究了一類完全可見性算法所使用的距離和空間復雜性。其次,提供了整數平面上的完全可見性算法,包括一些在時間、距離復雜度和空間復雜度方面漸近最優的算法。第三,介紹了門道出口問題,并為各種機器人群模型提供了不同最優性的算法。最后,還提供了網格上任意圖案形成的最優算法。

付費5元查看完整內容

加固網絡物理資產既重要又耗費人力。最近,機器學習(ML)和強化學習(RL)在自動化任務方面顯示出巨大的前景,否則這些任務將需要大量的人類洞察力/智能。在RL的情況下,智能體根據其觀察結果采取行動(進攻/紅方智能體或防御/藍方智能體)。這些行動導致狀態發生變化,智能體獲得獎勵(包括正獎勵和負獎勵)。這種方法需要一個訓練環境,在這個環境中,智能體通過試錯學習有希望的行動方案。在這項工作中,我們將微軟的CyberBattleSim作為我們的訓練環境,并增加了訓練藍方智能體的功能。報告描述了我們對CBS的擴展,并介紹了單獨或與紅方智能體聯合訓練藍方智能體時獲得的結果。我們的結果表明,訓練藍方智能體確實可以增強對攻擊的防御能力。特別是,將藍方智能體與紅方智能體聯合訓練可提高藍方智能體挫敗復雜紅方智能體的能力。

問題描述

由于網絡威脅不斷演變,任何網絡安全解決方案都無法保證提供全面保護。因此,我們希望通過機器學習來幫助創建可擴展的解決方案。在強化學習的幫助下,我們可以開發出能夠分析和學習攻擊的解決方案,從而在未來防范類似威脅,而不是像商業網絡安全解決方案那樣簡單地識別威脅。

工程描述

我們的項目名為MARLon,探索將多智能體強化學習(MARL)添加到名為CyberBattleSim的模擬抽象網絡環境中。這種多智能體強化學習將攻擊智能體和可學習防御智能體的擴展版本結合在一起進行訓練。

要在CyberBattleSim中添加MARL,有幾個先決條件。第一個先決條件是了解CyberBattleSim環境是如何運行的,并有能力模擬智能體在做什么。為了實現這一點,該項目的第一個目標是實現一個用戶界面,讓用戶看到環境在一個事件中的樣子。

第二個先決條件是為CyberBattleSim添加MARL算法。目前CyberBattleSim的表Q學習和深Q學習實現在結構上無法處理這個問題。這是因為CyberBattleSim實現的表Q學習和深Q學習不符合適當的OpenAI Gym標準。因此,需要添加新的強化學習算法。

當前的防御者沒有學習能力,這意味著要啟用多智能體學習,防御者需要添加以下功能:添加使用所有可用行動的能力,將這些行動收集到行動空間,實現新的觀察空間,并實現獎勵函數。

最后,為了增加MARL,新創建的攻擊者算法和新的可學習防御者必須在同一環境中組合。這樣,兩個智能體就可以在相互競爭的同時進行訓練。

付費5元查看完整內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容
北京阿比特科技有限公司