針對具有未知擾動的多智能體系統, 設計擴張狀態觀測器, 估計每個智能體的狀態和受到的擾動, 并通過無線網絡發送 給鄰居智能體. 利用 Stackelberg 博弈描述多智能體系統的帶寬分配問題, 設計了可以補償網絡時延的預測云控制方案, 給出了 Stackelberg 博弈的納什均衡解和多智能體系統一致性和穩定性條件, 通過仿真算例驗證了方法的有效性.
隨著計算機科學技術、人工智能技術和網絡控 制技術的飛速發展, 多智能體系統(multi -agent systems, MASs)引起了廣泛的關注, 已應用于智能電 網[1-3]、智能交通[4]、自動駕駛[5]、傳感器網絡[6]等領 域, 一致性問題是 MASs 的基本問題[7-13] , 該問題旨在 通過與鄰居交換信息來使所有智能體達成一致. 大 量的 MASs 通過無線網絡交換信息, 不可避免地受到 噪音信號的干擾. 擾動的存在會影響系統的性能, 甚 至嚴重破壞系統的穩定性. 擴張狀態觀測器作為自 抗擾控制器的核心, 可用于同時估計狀態和擾動. 然 而, 在考慮網絡延遲的情況下, 如何較精確地估計系 統狀態和擾動需要進一步研究. 在 MASs 中, 隨著智能體結構的變化和規模的增 加, 數據的實時處理和計算的速度需要得到嚴格的 保障, 使用傳統分析方法很難處理這樣的實時大數 據和計算. 同時, 控制系統中的海量數據將增加網絡 的通信負擔和系統的計算負擔, 一個高效的帶寬分 配方案就變得尤為重要. 此外, 由于數據是通過網絡 傳輸的, 網絡時延對 MASs 的影響至關重要, 需要設 計相應的控制策略以主動補償網絡時延. 因此, 在大 規模的云控制系統中, 合理分配帶寬以充分利用通 信資源非常重要, 這有助于提高效率, 減少不必要的 資源浪費;另一方面, 如何補償 MASs 存在的網絡時 延和受到的擾動也是一個關鍵問題. 基于以上分析, 研究了一種考慮網絡時延和未 知擾動的 MASs 的帶寬分配和預測云控制方案. 本文 的貢獻總結如下: 1)對于具有未知擾動的 MASs, 提出了一種基于 預測的擴張狀態觀測器, 以估計每個智能體受到的 擾動并設計控制器進行補償. 2)Stackelberg 博弈方法用于解決 MASs 的帶寬 分配問題, 該問題包含預測云控制器之間的非合作 博弈和智能體之間的演化博弈. 3)提出了一種預測云控制方案, 以補償受帶寬 分配影響的網絡時延和擾動. 并給出了保證 MASs 穩 定性和一致性的充分條件.
在復雜環境中, 環境動態性和任務多樣性給無人集群自主協同、有人系統與無人集群協同帶來了巨大挑戰. 為此, 提出了 有人 / 無人集群任務規劃系統集成框架. 該框架集成無人平臺自主行為規劃系統, 無人集群分布式系統與有人 / 無人集群系統. 無 人平臺通過感知、認知、決策與控制完成自主行為規劃. 無人平臺間通過交互信息, 彼此決策方式協同規劃. 有人系統支持在預先 規劃、實時規劃與事后評估階段與無人集群的協同交互.
近年來, 在人工智能、大數據、云計算、物聯網 等先進技術的推動下, 無人平臺已經被廣泛應用到 物品投送、環境保護、搶險救災、農藥噴灑、燈光表 演、地圖測繪、偵察追蹤等領域, 在極大解放勞動力 的同時, 還能夠替代人類執行枯燥、惡劣、危險的任 務, 正在國民經濟建設和國防領域扮演著越來越重 要的角色[1] . 隨著所承擔任務的工作量和復雜性不斷增加, 無人平臺在載荷、續航、決策等方面的負擔不斷加 劇, 逐漸暴露出任務執行能力弱、效率低、靈活性差 等問題. 因受制于現有技術和成本, 依靠無人平臺的 作業能力難以勝任不斷涌現的新任務需求. 無人平 臺的研究在工業生產、搶險救災等實際環境中具有 時代意義. 近些年, 研究者們面向多無人平臺協同任 務規劃方法研究, 依靠無人集群實現目標偵察、跟蹤 與圍捕等實時任務規劃, 在實際的環境中具有廣闊 的應用前景. 特別是在軍事領域, 可以實現對入侵者 的偵察、監視、打擊、毀傷評估等, 提高了軍隊各類 設備的智能化程度, 在安全保障方面提供了新思路、 新方式各軍事強國對無人集群任務規劃能力高度重視, 視之為改變未來戰爭制勝規則的顛覆性力量. 2018 年 8 月, 美國國防部發布了 《無人系統綜合路線圖 2017-2042》[2] , 提出了美國無人系統領域發展的 4 大 主題和 19 項關鍵技術. 4 大主題是互用性、自主性、 網絡安全和人機協同. 19 項關鍵技術包括了機器人 技術、人工智能、集群能力等. 美正在開展的代表性 項目如“小精靈”項目、“進攻性蜂群使能戰術”、“試 驗性驗證網關演習”項目等均取得了突破性進展[3] . 2021 年 10 月,“小精靈”項目空中回收“小精靈”無人 機實驗成功, 邁出無人集群韌性靈活執行任務的關 鍵一步[4] . 2021 年 12 月,“進攻性蜂群使能戰術”項目 融合虛實結合技術, 通過沉浸式蜂群界面對蜂群指 揮控制, 為有人/無人協同執行任務提供了技術支 持[5] . 2022 年 4 月,“試驗性驗證網關演習”完成了由 30 架無人機組成的無人集群作戰試驗. 此次試驗采 用空地協同、分批發射與分布式控制的方式, 依次完 成偵察、防空壓制、打擊與毀傷評估任務. 集群作戰 概念由“無人機蜂群”轉變成“無人機狼群”, 是低成 本無人機集群作戰的全新作戰理念[6] . 在實際戰場中, 2020 年 9 月, 阿塞拜疆部署由 6 架異構無人機組成 的無人機集群, 摧毀了亞美尼亞的防空系統, 導致亞 美尼亞地面資產遭受大量破壞[7] . 在國內, 2021 年 11 月, 中國電子技術標準化研 究院發布《智能無人集群系統發展白皮書》, 指出智 能無人集群系統的任務復雜度普遍提升, 對于集群 系統的智能化、魯棒性提出了更高的功能與性能要 求[8] . 2018 年 1 月, 國防科技大學智能科學學院無人 機系統創新團隊開展了 20 余架次的無人機集群自主 協同飛行試驗, 驗證了空中集結編隊、定向編隊飛行 和編隊協同偵察等任務執行能力[9] . 2020 年 9 月國內 民營企業, 成功地組織了 3 051 架無人機同時集群飛 行, 創下了集群控制新的世界記錄[10] . 這些項目在無 人集群任務規劃相關技術進行了大量深入的探索. 值得注意的是, 目前無人平臺的自主性處于“弱 智能”階段, 無人集群協同感知、決策、控制能力略 顯不足, 逐漸暴露出靈活性差、計算能力低、環境感 知能力差、任務執行能力差等問題, 有人系統與無人 集群之間存在態勢把控難、實時信息交互慢等問題. 傳統的無人集群在態勢感知、資源整合、組織協同 等信息力方面的缺陷直接制約了有人系統與無人集 群協同執行任務的完成率和時效性. 與此同時, 考慮 在復雜環境中目標具有動態性, 任務具有實時性等 特點, 進一步增加了執行任務的難度. 因此, 如何建 立智能有人/無人集群任務規劃系統集成框架, 有效 地組織、管理無人集群, 實現單無人平臺自主行為規 劃、無人集群自主協同、有人系統與無人集群協同, 具有十分重要的研究價值.
為了應對在未來復雜的戰場環境下, 由于通信受限等原因導致的集中式決策模式難以實施的情況, 提出了一個基于多智 能體深度強化學習的分布式作戰體系任務分配算法, 該算法為各作戰單元均設計一個獨立的策略網絡, 并采用集中式訓練、分布 式執行的方法對智能體的策略網絡進行訓練, 結果顯示, 經過學習訓練后的各作戰單元具備一定的自主協同能力, 即使在沒有中 心指揮控制節點協調的情況下, 依然能夠獨立地實現作戰任務的高效分配.
馬賽克戰[1]、聯合全域指揮控制[2]等新型作戰概 念所構想的未來作戰場景中, 傳統的多任務平臺被 分解為了眾多的小型作戰單元, 這些小型作戰單元 通常具備更高的靈活性, 能夠根據戰場環境的變化 快速對自身所承擔的任務進行調整, 以實現更好的 整體作戰效果. 在未來的新型作戰場景中, 傳統的集 中式指揮控制模式存在著指揮鏈路過長、決策復雜 度過高等問題, 從而導致決策時效性和決策質量難 以滿足要求[3] . 近年來, 邊緣指揮控制等新型指揮控制 模式應運而生, 邊緣節點也即各作戰實體將具備一 定程度的自主決策能力[4] . 由于戰場環境的復雜多變 特性, 以及作戰實體的小型化、智能化發展趨勢, 分 布式決策的模式將在未來的戰場決策中發揮越來越 重要的作用. 作戰體系是為了完成特定的作戰任務由一系列 具備各項能力的作戰單元動態構建而成, 在以往的 集中式決策模式下, 體系設計人員會根據作戰任務 的能力需求以及作戰單元所具備的各項能力, 以最 大化作戰效能或最小化作戰單元的使用成本等為目 標, 來統一地對各作戰任務和作戰單元進行匹配. 作 戰體系的“作戰任務—作戰單元”匹配問題可以建模 為一個優化問題, 當問題規模較小時, 可以采用集中 式決策的模式運用整數線性規劃等運籌學方法快速 得到全局最優解[5] , 而當問題規模較大時可以采用遺 傳算法等啟發式算法[6]或者強化學習算法[7] , 得到問 題的近似最優解. 采用集中式決策的一個重要前提 條件是中心決策節點和作戰單元葉節點之間的通信 暢通, 因為葉節點需要將自身的狀態信息和觀測信 息發送給中心決策節點, 而中心節點需要將決策命 令發送給葉節點. 然而在未來的作戰場景中, 由于敵 方的通信干擾等原因, 中心節點和葉節點之間的通 信鏈接很難保證連續暢通, 同時頻繁的信息交互會 造成一定的通信負載和通信延遲, 因此, 在未來很多 的任務場景中, 需要作戰單元根據自身的狀態信息 和觀測到的信息獨立地進行決策.
強化學習是一種利用智能體與環境的交互信息 不斷地對智能體的決策策略進行改進的方法, 隨著深度強化學習技術的快速發展, 強化學習算法在無 人機路徑規劃[8]、無線傳感器方案調度[9]等領域都取 得了非常成功的應用, 同時近年來多智能體強化學 習算法在 StarCraft域[10]等環境中也取得了很好的效 果. 在作戰體系任務分配場景中, 可以將各作戰單元 視為多個決策智能體, 那么“作戰任務—作戰單元” 的匹配任務可以視為一個多智能體強化學習任務. 而當前尚未有將多智能體強化學習方法應用到類似 作戰體系的任務分配環境中的先例. 本文的主要工 作如下: 1)建立一個通信受限情況下的作戰體系“作 戰任務—作戰單元”匹配的任務場景;2)提出了一 個基于多智能體強化學習技術的作戰體系任務分配 算法;3)通過實驗驗證了采用上述算法訓練的各智 能體, 可以在通信受限的場景下, 實現一定程度的自 主協同, 在沒有中心決策節點的情況下依然能夠實 現作戰體系任務的有效分配