亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

針對陸戰對抗中智能體狀態動作空間復雜和行為模式固定的問題, 提出任務分層架構下的博弈策略生成方法. 使用策略 式博弈模型對陸戰對抗問題進行分析建模, 給出智能體任務執行中的收益矩陣構建方法, 并通過求解混合策略, 使智能體行為同 時具有合理性和多樣性. 以陸軍戰術對抗兵棋推演為平臺進行測試, 實驗證明智能體策略可解釋性強, 行為模式多樣, 在與 AI 和 人類選手對抗時都具有較高的勝率. 智能體是人工智能的一個基本術語, 廣義的智 能體包括人類、機器人、軟件程序等[1] . 狹義的智能 體是能感知環境, 根據環境變化作出合理判斷和行 動, 從而實現某些目標的計算機程序. 從感知序列集 合到執行動作集合的映射也稱為智能體的策略[2] . 智 能體策略的研究對實現無人系統自主能力[3]和人機混 合智能[4]具有重要意義. 決策指根據一定目標選擇備選方案或動作的過 程. 傳統使用腳本規則[5]、有限狀態機[6]、行為樹[7]等 方法進行智能體決策行為建模, 決策模型對應了智 能體的策略. 這類智能體的策略具有較強的可解釋 性, 但是其需要大量的領域專家知識. 另一方面上述 智能體通常使用基于專家知識的純策略, 其行為模 式是固定的, 在復雜對抗場景中存在適應性不強和 靈活度不夠的問題. 近年, 深度強化學習成為智能體 策略生成的重要方法, 在 Atari 游戲[8]、圍棋[9-11]、德 州撲克[12]、無人駕駛[13]等領域取得了突破進展, 部分 場景中已經達到或超越了人類專家水平. 然而基于 強化學習的智能體在更為復雜的場景中面臨著感知 狀態空間巨大、獎勵稀疏、長程決策動作組合空間 爆炸等難題[14] . 戰爭對抗作為一種復雜對抗場景, 一直是智能 體策略生成研究的重點, 并越來越受到關注[15-17] , 但 當前研究還缺少實質性的進展, 特別是在人機對抗 中[18] , 人類對手策略變化造成的環境非靜態性會使智 能體顯得呆板、缺少應變能力. 針對陸軍戰術級對抗場景中智能體狀態動作空 間復雜和行為模式固定的問題, 以中科院“廟算·智勝 即時策略人機對抗平臺”陸軍戰術對抗兵棋(以下簡 稱“廟算”陸戰對抗兵棋)為實驗平臺, 提出了基于博 弈混合策略的智能體對抗策略生成方法. 本文工作 主要有 3 個方面: 1)對陸戰對抗中實體動作進行抽象、分層, 建 立智能體任務分層框架, 降低問題求解的復雜度. 2)對陸戰對抗實體任務中關鍵要素進行分析, 構建對抗問題博弈模型, 并給出收益矩陣的計算 方法. 3)給出陸戰對抗兵棋推演場景中智能體混合策略均衡的求解方法, 對本文所提方法的可行性進行 了驗證.

付費5元查看完整內容

相關內容

在復雜環境中, 環境動態性和任務多樣性給無人集群自主協同、有人系統與無人集群協同帶來了巨大挑戰. 為此, 提出了 有人 / 無人集群任務規劃系統集成框架. 該框架集成無人平臺自主行為規劃系統, 無人集群分布式系統與有人 / 無人集群系統. 無 人平臺通過感知、認知、決策與控制完成自主行為規劃. 無人平臺間通過交互信息, 彼此決策方式協同規劃. 有人系統支持在預先 規劃、實時規劃與事后評估階段與無人集群的協同交互.

近年來, 在人工智能、大數據、云計算、物聯網 等先進技術的推動下, 無人平臺已經被廣泛應用到 物品投送、環境保護、搶險救災、農藥噴灑、燈光表 演、地圖測繪、偵察追蹤等領域, 在極大解放勞動力 的同時, 還能夠替代人類執行枯燥、惡劣、危險的任 務, 正在國民經濟建設和國防領域扮演著越來越重 要的角色[1] . 隨著所承擔任務的工作量和復雜性不斷增加, 無人平臺在載荷、續航、決策等方面的負擔不斷加 劇, 逐漸暴露出任務執行能力弱、效率低、靈活性差 等問題. 因受制于現有技術和成本, 依靠無人平臺的 作業能力難以勝任不斷涌現的新任務需求. 無人平 臺的研究在工業生產、搶險救災等實際環境中具有 時代意義. 近些年, 研究者們面向多無人平臺協同任 務規劃方法研究, 依靠無人集群實現目標偵察、跟蹤 與圍捕等實時任務規劃, 在實際的環境中具有廣闊 的應用前景. 特別是在軍事領域, 可以實現對入侵者 的偵察、監視、打擊、毀傷評估等, 提高了軍隊各類 設備的智能化程度, 在安全保障方面提供了新思路、 新方式各軍事強國對無人集群任務規劃能力高度重視, 視之為改變未來戰爭制勝規則的顛覆性力量. 2018 年 8 月, 美國國防部發布了 《無人系統綜合路線圖 2017-2042》[2] , 提出了美國無人系統領域發展的 4 大 主題和 19 項關鍵技術. 4 大主題是互用性、自主性、 網絡安全和人機協同. 19 項關鍵技術包括了機器人 技術、人工智能、集群能力等. 美正在開展的代表性 項目如“小精靈”項目、“進攻性蜂群使能戰術”、“試 驗性驗證網關演習”項目等均取得了突破性進展[3] . 2021 年 10 月,“小精靈”項目空中回收“小精靈”無人 機實驗成功, 邁出無人集群韌性靈活執行任務的關 鍵一步[4] . 2021 年 12 月,“進攻性蜂群使能戰術”項目 融合虛實結合技術, 通過沉浸式蜂群界面對蜂群指 揮控制, 為有人/無人協同執行任務提供了技術支 持[5] . 2022 年 4 月,“試驗性驗證網關演習”完成了由 30 架無人機組成的無人集群作戰試驗. 此次試驗采 用空地協同、分批發射與分布式控制的方式, 依次完 成偵察、防空壓制、打擊與毀傷評估任務. 集群作戰 概念由“無人機蜂群”轉變成“無人機狼群”, 是低成 本無人機集群作戰的全新作戰理念[6] . 在實際戰場中, 2020 年 9 月, 阿塞拜疆部署由 6 架異構無人機組成 的無人機集群, 摧毀了亞美尼亞的防空系統, 導致亞 美尼亞地面資產遭受大量破壞[7] . 在國內, 2021 年 11 月, 中國電子技術標準化研 究院發布《智能無人集群系統發展白皮書》, 指出智 能無人集群系統的任務復雜度普遍提升, 對于集群 系統的智能化、魯棒性提出了更高的功能與性能要 求[8] . 2018 年 1 月, 國防科技大學智能科學學院無人 機系統創新團隊開展了 20 余架次的無人機集群自主 協同飛行試驗, 驗證了空中集結編隊、定向編隊飛行 和編隊協同偵察等任務執行能力[9] . 2020 年 9 月國內 民營企業, 成功地組織了 3 051 架無人機同時集群飛 行, 創下了集群控制新的世界記錄[10] . 這些項目在無 人集群任務規劃相關技術進行了大量深入的探索. 值得注意的是, 目前無人平臺的自主性處于“弱 智能”階段, 無人集群協同感知、決策、控制能力略 顯不足, 逐漸暴露出靈活性差、計算能力低、環境感 知能力差、任務執行能力差等問題, 有人系統與無人 集群之間存在態勢把控難、實時信息交互慢等問題. 傳統的無人集群在態勢感知、資源整合、組織協同 等信息力方面的缺陷直接制約了有人系統與無人集 群協同執行任務的完成率和時效性. 與此同時, 考慮 在復雜環境中目標具有動態性, 任務具有實時性等 特點, 進一步增加了執行任務的難度. 因此, 如何建 立智能有人/無人集群任務規劃系統集成框架, 有效 地組織、管理無人集群, 實現單無人平臺自主行為規 劃、無人集群自主協同、有人系統與無人集群協同, 具有十分重要的研究價值.

付費5元查看完整內容

戰術級兵棋以隨機的方式模擬戰爭中的動態過程, 能夠為軍事智能決策技術提供貼近真實戰爭的決策背景和試驗環境. 提出了知識與數據互補的行為決策框架, 用于兵棋多實體的指揮控制. 該框架一定程度上解決了傳統基于知識推理決策中行為模 式固定、遷移能力不強的缺點, 也解決了基于兵棋數據挖掘的軟決策算法對大量人類高質量復盤數據的需求, 將知識、數據與學 習的方法綜合起來, 形成基于知識推理的決策算法處理宏觀動作, 基于數據挖掘的軟決策算法處理微觀動作, 通過自對抗復盤數 據進行迭代學習, 提升決策模型能力. 基于該框架, 設計并實現了一個兵棋人工智能(artificial intelligence, AI), 該兵棋 AI 在全國性 智能兵棋比賽中取得較好成績, 并體現出靈活性高、泛化性好的特性.

近年來, 以深度強化學習為代表的 AI 技術在 Atari[1]、圍棋[2-3]、王者榮耀[4]、星際爭霸域[5]等游戲中 取得了巨大的成功, 顯示了強大的態勢感知和空間 探索能力. 同時, 軍事智能化的需求也在推動 AI 技 術在軍事決策領域的應用, 戰術級兵棋以隨機的方 式模擬戰爭中的動態過程, 能夠為軍事智能決策技 術提供貼近真實戰爭的決策背景和試驗環境. 然而, 深度強化學習在解決軍事決策問題上存在兩個明顯 不足:一是端到端的黑箱模型限制了模型的可解釋 性, 使其難以形成人在回路的指揮控制方式, 同時人 們也不知道決策模型的推理過程;二是深度神經網絡 學習到的參數只適用于特定場景的狀態到動作的映 射, 當作戰場景有較大改變, 深度神經網絡難以遷移 并適應新的作戰場景. 另外, 軍事決策環境也面臨狀 態空間巨大、多實體協同、長時依賴、不完全信息等 難以解決的問題. 在戰術級兵棋的決策環境中, 深度 強化學習僅僅解決了少量棋子聯合控制的問題[6-7] . 因此, 鑒于深度強化學習在實際應用方面面臨的重 重困難, 從其他技術角度探索軍事智能決策的應用 仍然值得研究.

傳統的計算機生成兵力(computer generated forces, CGF)是作戰仿真中重要的技術之一, 模仿真實的作戰實體, 對仿真中的虛擬實體進行行為控制. 它借鑒 了很多 AI 領域的技術, 如有限狀態機[8-10]、規則系 統[11-13]、軟計算技術[14-16]、自動規劃[17-19]等方法, 這些 方法基本上都是基于專家知識進行構建, 從定性分 析的角度進行決策, 能夠按照人類邏輯決策運行, 具 有適應范圍廣、邏輯清晰、可解釋性強的優點, 但是 這類方法的決策邏輯來源于專家知識的程序化, 其 “條件-結果”式模式映射個數有限, 導致行為模式比 較固定, 缺乏靈活性和魯棒性. 隨著大數據和神經網絡技術的發展, 一些學者 嘗試使用人工復盤數據, 從量化分析的角度對兵棋 的行為進行決策. 石崇林從兵棋數據的采集、處理、 分析 3 個角度, 介紹了兵棋數據處理的一些方法, 并 集成這些方法設計了兵棋推演數據分析原型系統[20] . PAN 等通過分析地形因素和復盤數據中的威脅因素, 并用權重因子對信息素加權, 以合成值估計敵方棋 子可能的位置, 得到 top-3 的預測準確率為 70% [21] . 張可等有效整合了兵棋專家知識的模糊推理和兵棋 復盤數據的學習, 從而提高了地圖關鍵點的推理質 量[22] . 劉滿等通過挖掘兵棋歷史推演數據, 提取多個 位置評價的指標, 利用多指標綜合評價軟優選算法 和兵棋基本規則輸出棋子的下步行動[23] . 量化分析有 效整合了復盤數據中的歷史信息和當前的態勢信息, 以綜合評估的結果支持量化決策, 具有較高的靈活 性和魯棒性, 但是這種決策方法需要大量高質量的 人工復盤數據, 這一條件往往很難滿足. 鑒于以上兩類行為決策方法的優缺點, 本文創 新性地將它們結合起來, 進行優勢互補, 提出了知識 與數據互補的行為決策框架, 用于兵棋多實體的指 揮控制. 該框架集成了知識推理和數據挖掘的方法, 不需要人工復盤數據, 將知識、數據與學習融為一 體, 形成基于知識驅動的決策算法處理宏觀動作, 基 于數據挖掘的軟決策算法處理微觀動作, 通過自對 抗復盤數據進行迭代學習, 提升決策模型能力. 基于 這一決策框架, 編程實現了一個能夠自主決策的兵 棋 AI. 該兵棋 AI 先后多次參加全國性戰術級兵棋比 賽, 在 2021“廟算杯”人機對抗測試賽 1 中取得總成 績第 3 名, 圖靈測試第 2 名, 展現了較好的對抗能力 和決策靈活性.

付費5元查看完整內容

 近年來,深度強化學習在游戲人工智能、機器人等領域取得了諸多重要成就. 然而,在具有稀疏獎 勵、隨機噪聲等特性的現實應用場景中,該類方法面臨著狀態動作空間探索困難的問題. 基于內在動機的 深度強化學習探索方法是解決上述問題的一種重要思想. 首先解釋了深度強化學習探索困難的問題內涵, 介紹了 3 種經典探索方法,并討論了它們在高維或連續場景下的局限性;接著描述了內在動機引入深度 強化學習的背景和算法模型的常用測試環境;在此基礎上詳細梳理各類探索方法的基本原理、優勢和缺 陷,包括基于計數、基于知識和基于能力 3 類方法;然后介紹了基于內在動機的深度強化學習技術在不同 領域的應用情況;最后總結亟需解決的難以構建有效狀態表示等關鍵問題以及結合表示學習、知識積累 等領域方向的研究展望.

0 引言

強化學習(reinforcement learning, RL)是監督學習、 無監督學習之外的另一機器學習范式, 通過設置反 映目標任務的獎勵函數, 驅動智能體在與環境的交 互與試錯中學習能使累計收益最大化的策略[1]。深度強化學習(deep reinforcement learning, DRL) 是在強化學習提供的最優決策能力的基礎上, 結合 深度學習(deep learning, DL)強大的高維數據表征能 力來擬合價值函數或策略, 進而基于交互樣本訓練 得到最優價值函數或最優策略, 被認為是結合感知 智能和認知智能的有效方法. 深度強化學習在游戲人工智能、機器人、自然 語言處理、金融等諸多領域取得了超越人類的性能 表現[2-3] , 但在具備稀疏獎勵、隨機噪聲等特性的環境 中, 難以通過隨機探索方法獲得包含有效獎勵信息 的狀態動作樣本, 導致訓練過程效率低下甚至無法 學習到有效策略[4] . 具體來說, 一方面現實應用中往往存在大量獎勵信號十分稀疏甚至沒有獎勵的場景. 智能體在這類場景探索時需要執行一系列特定的動 作, 以到達少數特定的狀態來獲得獎勵信號, 這使得 在初始時缺乏所處環境知識的智能體很難收集到有 意義的獎勵信號來進行學習. 例如, 多自由度機械臂 在執行移動物體任務中, 需要通過系列復雜的位姿 控制將物體抓取并放置到指定位置, 才能獲得獎勵. 另一方面, 現實環境往往具有高度隨機性, 存在意料 之外的無關環境要素(如白噪聲等), 大大降低了智 能體的探索效率, 使其難以構建準確的環境模型來 學習有效策略. 例如, 部署應用在商場的服務機器人 在執行視覺導航任務時, 既要受到商場中大量的動 態廣告圖片或視頻的傳感干擾, 還可能面臨動作執 行器與環境交互時的結果不確定性, 同時長距離的 導航任務也使其難以獲得有效正獎勵信號. 因此深 度強化學習領域亟需解決探索困難問題, 這對提高 DRL 的策略性能和訓練效率都十分重要.針對獎勵稀疏、隨機噪聲等引起的探索困難問 題, 研究者們提出了基于目標、不確定性度量、模仿 學習等探索方法, 但對任務指標的提升效果有限, 并 增加了額外的數據獲取的代價. 近年來, 源自心理學 的內在動機(intrinsic motivation)概念因對人類發育 過程的合理解釋, 逐漸被廣泛應用在 DRL 的獎勵設 計中以解決探索問題, 成為了 ICML, ICLR, NeurIPS, ICRA 等頂級學術會議上的熱點方向, 受到來自清華、 斯坦福、牛津、谷歌等頂級高校與研究機構的關注. 雖然已有文獻[5-8] 介紹內在動機在深度強化學習領域 的研究現狀, 但據我們所知, 尚沒有文獻全面深入研 究各類基于內在動機的 DRL 探索方法, 并逐步深入 討論其應用于貼近真實世界的復雜動態場景中所面 臨的關鍵問題以及未來的發展方向. 我們從出發點、 研究角度分析了相關綜述文獻與本文的主要區別, 如表 1 所示. 基于上文梳理的深度強化學習面臨的探索困難 問題, 本文首先介紹 3 種經典探索方法以及它們在高 維或連續場景下的局限性, 接著全面梳理 3 類不同的 基于內在動機的 DRL 探索方法的基本原理、優勢和 缺陷, 隨后介紹上述基于內在動機的方法在不同領 域的應用情況, 最后總結亟需解決的關鍵問題以及 發展方向.

1 經典探索方法

為提高智能體在未知環境中的探索效率, 研究 者們提出了簡單的隨機擾動方法, 例如 -貪婪方法. 除此之外,研究者們在小規模狀態動作空間下提出了 許多具有理論保證的經典探索方法, 并推導出對應 的累計后悔值或樣本復雜度的理論上界. 根據統計 學中認識世界不確定性的觀點, 本文將它們分為頻 率派方法與貝葉斯派方法.

1.1 隨機擾動方法

隨機擾動方法可按照加入噪聲的位置差異分為 2 類: 一是在動作選擇的過程中增加隨機性或噪聲, 如在ε -貪婪算法中, 以1?ε 的概率選擇當前估值最高 的動作, 以 ε的概率在所有動作中隨機選擇. 在此基 礎上, Boltzmann 策略在學習初期設置較大的 值以促 進探索, 使 值隨學習過程逐漸減小, 當策略收斂后 完全利用當前模型以持續獲得最大獎勵. 類似地, 深 度確定性策略梯度算法[9] 對策略網絡輸出的動作加 入隨機噪聲過程進行擾動, 以此增加探索. 二是在擬 合策略的網絡參數上加入噪聲, 比如參數空間噪聲 模型[10] 和 NoisyNet 模型[11] 等.

1.2 頻率派方法

頻率派基于實際數據樣本的估計來衡量狀態的 不確定性, 在數據量有限的情況下一般采用帶有置 信水平的區間估計方法.

1.3 貝葉斯派方法

貝葉斯學派觀點認為, 面對未知環境人們維護 著對于所有可能模型的概率分布以表達其不確定性, 隨著觀測證據的增多, 后驗分布一般比先驗分布更 能反映不同備選模型與真實模型的接近程度. 由于 在選擇動作時不僅依據觀測狀態, 也必須考慮對信 念狀態的更新, 貝葉斯強化學習方法被認為有助于 提高探索效率, 防止陷入局部最優, 且同時考慮利用 現有策略最大化累積收益[18]

**1.4 小 結 **

隨機擾動方法缺少對具體狀態和動作探索作用 的評估, 難以依據對狀態的某種度量引導探索過程, 因此無法形成有啟發性的探索過程, 也被稱為無指 導探索[22] . 頻率派或貝葉斯派的方法, 大多僅是在小 規模場景中推導出了樣本復雜度或期望后悔值的上 界, 具有一定理論保證, 但很難直接應用到更加復雜 的環境如具有動態性和不確定性的實際場景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需對狀態動作對有準確 的計數, 在小規模的狀態和動作空間條件下是可行 的, 但無法應用于動態、高維或連續場景中, 亟需啟 發性更強、計算效率更高的探索方法.

2 基于內在動機的深度強化學習探索方法

為解決大規模狀態動作空間中由稀疏獎勵、隨 機噪聲干擾等產生的探索困難問題, 研究者們提出 了基于目標、不確定性度量和內在動機等深度強化 學習探索方法[7-8] . 基于目標探索的方法通過對興趣 狀態進行分析來生成探索性子目標, 同時對如何到 達子目標的過程進行控制, 以提高智能體在復雜環 境中的探索效率. 這類方法偏規劃, 重點在于存儲狀 態和軌跡信息, 并根據存儲的信息規劃生成子目標 點, 然后學習如何到達子目標點. 基于不確定性度量 的方法通常采用價值函數的貝葉斯后驗來顯示建模 認知不確定性, 或者采用分布式價值函數來額外評 估環境內在不確定性, 以鼓勵智能體探索具有高度 認知不確定性的狀態動作對, 并盡量避免訪問具有 高度內在不確定性的區域. 該方法更多偏向于挖掘 價值函數中的不確定性, 體現的是計算思維. 與前 2 類方法相比, 本文所關注的基于內在動機 的方法從行為學和心理學中內在動機驅動高等生物 自主探索未知環境的機理出發, 將“新穎性”等多種 源自內在動機的啟發式概念形式化為內在獎勵信號, 以驅動智能體自主高效探索環境, 體現的是一種更 抽象和擬人的思維. 具體來說, 內在動機源于高等生 物在追求提高自主性和能力或掌控力的過程中獲得 的愉悅感, 是驅動無外界刺激條件下探索未知環境 的動力. 內在動機在 DRL 中, 可以被映射為內在獎勵 信號[23] , 與基于值函數或策略梯度的深度強化學習方 法相結合, 形成具備強啟發性的探索策略, 以提高智 能體探索復雜未知環境的效率。 如何在內在獎勵信號中形式化“新穎性”“好奇 心”“學習提升”“多樣性”“控制力”等源自內在動機的啟發式概念, 是設計基于內在動機的 DRL 探索方 法的關鍵內容. 根據內在獎勵信號的不同啟發式來 源并參考文獻 [24] 中設想的各類基于內在動機的計 算框架, 本文將基于內在動機的深度強化學習探索 方法主要分為 3 類(見圖 1): 基于計數的方法、基于 知識的方法和基于能力的方法.

2.1 基于計數的方法

在高維連續環境中, 難以采用表格化的方式來 表示狀態, 并且幾乎沒有任何 2 個觀測狀態完全相 同, 絕大多數狀態的真實訪問次數都不會超過 1 次, 直接采用經典探索理論方法中基于頻率派或貝葉斯 派的方法, 得到的計數值無法有效衡量狀態新穎性. 針對上述問題, 基于計數的方法一方面借鑒了 UCB 算法的思路, 繼承了“面對不確定性的樂觀”思想, 即 向訪問次數較少的狀態或狀態動作對賦予更高的獎 勵, 以鼓勵智能體盡快探索狀態空間的未知部分, 另 一方面采用基于相似性的狀態泛化的解決思路. 該 類方法的實現途徑包括偽計數方法[39] 和狀態抽象方 法 [40] , 其中偽計數方法可細分為基于密度模型的偽計 數和間接偽計數方法。

2.4. 基于預測模型的方法 現有大量方法為智能體建立和維護一個對動作 結果和狀態轉移進行預測的模型, 以模型精度表達 外部環境的不確定性. 以此預測模型為基礎, 智能體 根據某些新穎性或可預測性的衡量指標學習價值函 數或策略. 依據產生內在獎勵指標的不同, 可以分為 基于預測誤差、預測結果不一致性和預測精度提升 的方法.

2.5 基于信息論的方法 信息論中以熵(entropy)為基礎的一系列概念, 天 然地為衡量現實世界中的不確定性而生, 因此信息 度量也成為形式化啟發式概念, 生成內在獎勵的重 要工具[83] , 用于促進智能體高效探索未知區域.

3 應用研究

基于內在動機的 DRL 探索方法起初應用于游戲 領域的智能體策略生成, 隨著 DRL 算法在現實場景基于內在動機的 DRL 探索方法通過構建強啟發 性的探索策略, 可有效應對機器人運動、機械臂操控、 空間探索與導航等領域面臨的探索困難問題. 此外, 在量化投資、自然語言處理等領域, 基于內在動機的 DRL 探索方法也發揮著重要作用. 例如, 針對股票市 場的自動金融交易策略學習問題, Hirchoua 等人[116] 將 PPO 算法與基于好奇心驅動的風險學習的內在獎 勵相結合進行交易策略學習, 并在 8 個真實股票交易 上對其訓練得到的策略的適用性和有效性進行了驗 證; 針對面向目標的對話策略學習問題, Wesselmann 等人[117] 采用基于好奇心的內在獎勵來克服稀疏獎勵 問題, 以改進狀態動作空間的探索效率, 從而獲取更 多有關用戶目標的知識來訓練對話策略。 **4 總結 **

本文首先描述了 DRL 方法對高效率探索方法的 需求、經典方法的原理和局限性, 接著引入了內在動 機的概念和功能, 在此基礎上重點梳理了內在動機 與 DRL 結合的不同形式. 它們主要包括: 1) 受新穎 性動機驅動的基于計數的內在獎勵形式化; 2) 受好 奇心驅動的預測誤差的獎勵設計; 3) 受學習提升期 望驅動的精度提升和信息增益近似方法; 4) 以狀態 多樣性為啟發式的最大熵方法; 5) 追求自主性和控 制力的互信息量化方法. 然后介紹了基于內在動機 的 DRL 探索技術在機器人運動、機械臂操作、空間 探索與導航等領域的應用情況. 最后深入分析了基 于內在動機的 DRL 探索方法在應用于貼近真實的復 雜場景時, 仍面臨著難以構建有效的狀態表示、環境 認知效率低、復雜目標/任務空間探索效果差等關鍵 問題, 并對基于內在動機的探索方法結合表示學習、 知識積累、獎勵設計、目標空間探索、課程學習、多 智能體強化學習等領域方向開展研究進行了展望.

付費5元查看完整內容

針對典型海空協同作戰中指揮控制技術對時效性、準確性和跨域融合能力的高要求, 提出了一種先驗知識啟發的雙層強化學習框架. 通過研究先驗知識啟發的獎勵塑造方式, 提取作戰子任務設計狀態聚合方法, 從而把具體狀態映射到抽象狀態; 基于抽象狀態使用馬爾科夫決策過程(Markov decision process, MDP)理論進行建模, 使用強化學習算法求解該模型; 使用最終求解出的抽象狀態價值函數進行基于勢能的獎勵塑造. 以上流程與下層具體MDP 過程并行求解, 從而搭建了一個雙層強化學習算法框架.基于全國兵棋推演大賽的兵棋推演平臺進行了實驗, 在狀態空間、動作空間、獎勵函數等方面細化算法. 指出了先驗知識代表從上而下的任務式指揮方式, 而多智能體強化學習在某些結構上符合自下而上的事件式指揮方式. 兩種方式結合, 使得該算法控制下的作戰單元學習到協同作戰戰術, 面對復雜環境具有更好的魯棒性. 經過仿真實驗, 該算法控制的紅方智能體對抗規則智能體控制的藍方可以獲得70 %的勝率.海空協同作戰是高技術戰爭條件下最為典型的 作戰樣式之一[1] , 其作戰空間包含海、空、天、電磁等領 域, 具有典型的跨域作戰特征. 海空協同作戰面臨戰場態勢復雜快變、信息不完 全、不同域之間戰術協同困難、決策時效性要求高等 問題[2] , 需要指揮員從跨域的視角審視問題, 將不同領 域的能力予以互補, 對指揮控制技術提出了更高的要 求[3-4] . 傳統的指揮控制理論具有局限性[5] , 較多考慮同 一領域力量的疊加性利用, 缺乏跨域視角[6] . 近年來, 以 多智能體強化學習(multi-agent-reinforcement-learning, MARL)為代表的智能決策技術發展迅速, 在星際 爭霸[7]、足球[8]比賽等大型實時策略類游戲應用中甚至 能夠擊敗人類頂尖玩家, 該技術在解決多智能體對抗 博弈問題領域中具有顯著優勢, 為研究海空協同作戰 的指揮控制技術開辟了新的技術路線. 綜上所述, 研究多智能體強化學習技術在海空協 同作戰的指揮決策中的應用, 有助于輔助指揮官制定 戰略戰術, 推動新型指揮控制技術的研究.

首先介紹典型多智能體強化學習算法(monotonic value function factorisation for deep multi-agent reinforcement learning, QMIX)的研究現狀, Tabish 等研究 者提出的 QMIX 算法[9]采用分布式決策、集中式訓練 的方法, 在理論上可以較好地適應海空協同作戰的特 點. 作戰編成中的各個作戰單元可以根據局部觀測進 行決策, 同時在全局信息和獎勵分解的幫助下兼顧全 局最優策略. 但是在實際應用中, 海空協同作戰往往 比較復雜, 存在獎勵稀疏的問題, 單純的 QMIX 算法 存在探索效率不高 [10] , 魯棒性較差的問題, 這會導致 算法最后無法學習到較好的協作策略. 為提升 QMIX 算法性能, 本文將目光投向了專家 先驗知識[11] . 在海空協同作戰中, 往往存在許多與作 戰相關的高階先驗知識[12] , 子任務是其中最重要也是 最常見的一種. 指揮員通過對作戰階段的劃分, 在時 間上把復雜的總作戰任務分解成多個子任務, 通過從 上而下的任務式指揮方式, 指導作戰集群完成一系列 子任務, 最終實現總作戰任務. 如何使用子任務相關的先驗知識提高 QMIX 算 法的性能, 成為了本文的關鍵研究問題之一. 為有效使用子任務相關的先驗知識, 首先研究先 驗知識與強化學習算法的結合方式, 在強化學習中, 先驗知識可以是一種偏好, 或是一種目標狀態. 為了 將先驗知識嵌入到算法中, 偏好可以用智能體在選擇 不同動作的概率分布表示[13]; 目標狀態可以用相應的 獎勵進行表示. 這些先驗知識發生在強化學習訓練以 前, 由人類根據以往的實踐經驗或是主觀想法設定. Takato 等研究者將獎勵函數的自動塑造方法與 狀態聚合方法結合, 提出了使用在線獎勵塑造加速單 智能體強化學習訓練的方法[14] . 但是該方法使用的狀 態聚合由志愿者人工指定, 且沒有驗證在多智能體強 化學習中的可行性.

針對上述研究背景與研究問題, 本文提出了一種 戰術先驗知識啟發的多智能體雙層強化學習算法. 根 據人類先驗知識, 把 MARL 問題的總任務分解成一 系列的子任務, 設計狀態聚合方法, 構建了狀態聚合 函數, 把具體狀態映射到抽象狀態. 接著基于抽象狀 態對抽象 MDP 進行建模[15] , 使用強化學習算法求解該 模型. 最后使用求解出的抽象狀態價值函數進行基于 勢能的獎勵塑造. 以上流程與下層具體 MDP 并行求 解, 從而搭建了一個雙層強化學習算法框架, 使得獎 勵稠密化, 加速下層 MDP 的求解. 為驗證算法效果, 本文基于海空協同作戰這一任務背景進行了仿真實 驗. 實驗結果表明, 使用戰術先驗知識啟發的多智能 體雙層強化學習算法能夠指揮智能體團體實現總體 作戰意圖, 學習到協同作戰的策略. 與此同時, 各智能 體仍可以根據自身觀察和全局信息作出獨立決策, 具 有較好的魯棒性, 符合作戰要素融合化和去中心化的 特點.

付費5元查看完整內容

為了應對在未來復雜的戰場環境下, 由于通信受限等原因導致的集中式決策模式難以實施的情況, 提出了一個基于多智 能體深度強化學習的分布式作戰體系任務分配算法, 該算法為各作戰單元均設計一個獨立的策略網絡, 并采用集中式訓練、分布 式執行的方法對智能體的策略網絡進行訓練, 結果顯示, 經過學習訓練后的各作戰單元具備一定的自主協同能力, 即使在沒有中 心指揮控制節點協調的情況下, 依然能夠獨立地實現作戰任務的高效分配.

馬賽克戰[1]、聯合全域指揮控制[2]等新型作戰概 念所構想的未來作戰場景中, 傳統的多任務平臺被 分解為了眾多的小型作戰單元, 這些小型作戰單元 通常具備更高的靈活性, 能夠根據戰場環境的變化 快速對自身所承擔的任務進行調整, 以實現更好的 整體作戰效果. 在未來的新型作戰場景中, 傳統的集 中式指揮控制模式存在著指揮鏈路過長、決策復雜 度過高等問題, 從而導致決策時效性和決策質量難 以滿足要求[3] . 近年來, 邊緣指揮控制等新型指揮控制 模式應運而生, 邊緣節點也即各作戰實體將具備一 定程度的自主決策能力[4] . 由于戰場環境的復雜多變 特性, 以及作戰實體的小型化、智能化發展趨勢, 分 布式決策的模式將在未來的戰場決策中發揮越來越 重要的作用. 作戰體系是為了完成特定的作戰任務由一系列 具備各項能力的作戰單元動態構建而成, 在以往的 集中式決策模式下, 體系設計人員會根據作戰任務 的能力需求以及作戰單元所具備的各項能力, 以最 大化作戰效能或最小化作戰單元的使用成本等為目 標, 來統一地對各作戰任務和作戰單元進行匹配. 作 戰體系的“作戰任務—作戰單元”匹配問題可以建模 為一個優化問題, 當問題規模較小時, 可以采用集中 式決策的模式運用整數線性規劃等運籌學方法快速 得到全局最優解[5] , 而當問題規模較大時可以采用遺 傳算法等啟發式算法[6]或者強化學習算法[7] , 得到問 題的近似最優解. 采用集中式決策的一個重要前提 條件是中心決策節點和作戰單元葉節點之間的通信 暢通, 因為葉節點需要將自身的狀態信息和觀測信 息發送給中心決策節點, 而中心節點需要將決策命 令發送給葉節點. 然而在未來的作戰場景中, 由于敵 方的通信干擾等原因, 中心節點和葉節點之間的通 信鏈接很難保證連續暢通, 同時頻繁的信息交互會 造成一定的通信負載和通信延遲, 因此, 在未來很多 的任務場景中, 需要作戰單元根據自身的狀態信息 和觀測到的信息獨立地進行決策.

強化學習是一種利用智能體與環境的交互信息 不斷地對智能體的決策策略進行改進的方法, 隨著深度強化學習技術的快速發展, 強化學習算法在無 人機路徑規劃[8]、無線傳感器方案調度[9]等領域都取 得了非常成功的應用, 同時近年來多智能體強化學 習算法在 StarCraft域[10]等環境中也取得了很好的效 果. 在作戰體系任務分配場景中, 可以將各作戰單元 視為多個決策智能體, 那么“作戰任務—作戰單元” 的匹配任務可以視為一個多智能體強化學習任務. 而當前尚未有將多智能體強化學習方法應用到類似 作戰體系的任務分配環境中的先例. 本文的主要工 作如下: 1)建立一個通信受限情況下的作戰體系“作 戰任務—作戰單元”匹配的任務場景;2)提出了一 個基于多智能體強化學習技術的作戰體系任務分配 算法;3)通過實驗驗證了采用上述算法訓練的各智 能體, 可以在通信受限的場景下, 實現一定程度的自 主協同, 在沒有中心決策節點的情況下依然能夠實 現作戰體系任務的有效分配

付費5元查看完整內容

深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。

如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。

付費5元查看完整內容

對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。

引言

人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。

1 多智能體博弈對抗

近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。

1.1 多智能體模型

在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。

當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。

1.2 非平穩問題

多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。

2 對手建模

合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。

**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。

付費5元查看完整內容

I. 引言

1.1 問題背景

自人工智能(AI)誕生以來,復雜的游戲為測試和探索搜索技術提供了一個具有挑戰性的領域。甚至阿蘭-圖靈也提出將國際象棋游戲作為人工智能的基準,提出了一種他親手執行的游戲算法[1]。游戲在搜索算法中的重要性后來在1958年得到了擴展,當時阿瑟-塞繆爾使用早期版本的強化學習創造了一個跳棋游戲程序[2]。自20世紀70年代以來,重點是國際象棋比賽,最終為IBM深藍程序在1996年擊敗世界國際象棋冠軍加里-卡斯帕羅夫鋪平了道路[3]。在最近幾年,玩游戲的人工智能仍然處于該領域的前沿。2016年,谷歌DeepMind的經典大狀態空間游戲Go的智能體在比賽中擊敗了世界冠軍[4],標志著人工智能發展的一個里程碑。

游戲有很大的搜索空間,很難完全探索。盡管一個人可以采取的狀態和行動組合的數量很多,但人類在為復雜的游戲制定策略方面卻異常出色。然而,隨著計算能力和算法理論的進步,人工智能Agent現在能夠在復雜游戲中擊敗世界冠軍人類。這些現代游戲算法往往擺脫了人類的理解能力,并試圖取代人類的決策,而不是增強它。

在整個人工智能領域,存在著使人工智能更加透明、可解釋和可說明的普遍工作[5]。然而,在玩游戲的人工智能領域,這種努力對學習Agent來說是稀疏的,因為現代Agent傳統上使用非符號方法。符號Agent通過使用所學概念的符號描述來表示其知識,而非符號Agent則以內部格式表示其知識,如加權突觸、邏輯單元或連接網絡[6]。游戲可以特別受益于符號方法的可解釋性,以幫助人類用戶理解游戲,并在人工智能的輔助推理被移除后提高他們的表現[7]。

符號化人工智能用于游戲的一個例子是學習分類器系統(LCS)算法家族。LCS是基于規則的學習機器,采用遺傳算法(GA)來發現新的規則[8]。LCS的實現分為兩個系列,即密歇根式和匹茲堡式。密歇根式LCS評估單個規則的適用性,而匹茲堡式LCS則評估規則集的適用性。最近的研究工作絕大部分集中在密歇根式的實現上[8]。此外,由于較小的評估時間和在線學習能力,密歇根式的LCS實現在游戲中比匹茲堡式的對應系統受到廣泛青睞。然而,由于規則數量眾多,它們的推理能力較低[7]。雖然匹茲堡式的LCS在實時戰略游戲中經常擁有局限性[9],但它們在其他游戲環境中顯示出了前景,因為在這些環境中可以進行離線學習[10],同時保持可解釋性[11] 。

本論文探討了LCS在一類特殊游戲中的應用:兵棋推演。兵棋推演并沒有一個標準的定義。2020年版的《聯合出版物5-0》將兵棋推演定義為 "在合成環境中的沖突或競爭的表現,其中人們做出決定并對這些決定的后果做出反應"。[12] 相比之下,國防建模與仿真協調辦公室(DMSCO)使用現已失效的電氣和電子工程師協會(IEEE)610.3-1989的兵棋推演定義,將其定義為 "一種模擬游戲,參與者在預先確定的資源和約束條件下尋求實現特定的軍事目標;例如,模擬參與者做出戰場決策,計算機決定這些決策的結果。" [13] 在本論文中,我們將兵棋推演定義為以現實世界的邏輯為模型的戰場模擬,其中參與者做出決定以完成一個或多個目標,并由計算機決定結果和互動。

這篇論文的重點是LCS在回合制、同時移動和多行動游戲Stratagem MIST中的實現。Stratagem MIST是空軍研究實驗室(AFRL)正在開發的一個游戲,作為戰時沖突的多域模擬器。據作者所知,專門用于軍事戰爭游戲的LCS Agent目前還沒有被探索。此外,在一般的游戲中缺乏涉及匹茲堡式的LCS的研究,這也提供了一個興趣點和未開發的領域。我們的假設是,LCS,特別是匹茲堡式LCS,除了產生可解釋的輸出,可以讓外部觀察者理解其決策過程外,還可以成為Stratagem MIST的有效的符號游戲Agent。

1.2 動機

兵棋推演對于軍事科學領域尤其重要,因為它們可以用于發展作戰理論[14]。現代兵棋推演的概念是1780年在普魯士發明的,記錄顯示,年輕的軍官通過玩桌面兵棋推演來學習軍事戰略。從歷史上看,從兵棋推演中學到的經驗往往能轉化為現實世界的場景。在第一次世界大戰中,每個主要作戰國都采用了兵棋推演來幫助戰爭計劃[15]。在第二次世界大戰中,美國和英國皇家海軍利用分析后的兵棋推演結果來制定更好的戰術,而軸心國部隊則利用兵棋推演來預測盟軍的戰略[14]。近年來,一些項目證明了應用人工智能技術解決復雜兵棋推演的成功[16]。然而,解決游戲或開發先進的搜索技術以勝過人類的目標可能與兵棋推演的既定目的相沖突。如果兵棋推演的目的是通過模擬為人類玩家準備實際的沖突,那么非符號Agent的行動可能無法轉移到現實世界的表現。相反,一個能夠很好地發揮兵棋能力,并以可解釋的形式呈現其理由的Agent有可能幫助發現新的戰略和戰術,從而轉化為現實世界的場景。

戰略MIST是探索兵棋推演中使用LCS的一個主要領域。其巨大的復雜性、一般的兵棋結構以及對多個多領域場景的適應性,促使人們在多個方面產生研究興趣。由于在兵棋和Stratagem MIST中沒有其他LCS的實現,因此跟蹤LCS規則在條件分布、行動分布和行動選擇傾向方面的內部構成是很重要的。這些數據可以回答關于LCS在保持可解釋性和性能的同時做出復雜決策的能力的問題。

1.3 研究問題

本論文試圖回答以下研究問題:

1.在兵棋環境中,LCS Agent的有效性如何?

2.在Stratagem MIST中,LCS生成的規則的內部構成是怎樣的?

3.LCS Agent生成的默認規則集的可解釋性如何,如何才能提高可解釋性?

1.4 研究任務

為回答上述研究問題,進行了以下任務:

1.開發能夠使用已知的LCS方法有效發揮Stratagem MIST的Agent。

2.進行實驗,比較使用不同符號和非符號游戲方法的Agent勝率。

3.分析LCS Agent能夠為一般的Stratagem MIST場景制定策略的程度。

4.檢查最終確定的LCS規則集中的條件和行動的分布。

5.分析如何解釋所產生的規則集,并將其簡化為可讀的形式。

1.5 文件概述

第二章介紹了博弈論的概念,LCS研究的概述,以及Stratagem MIST的描述。第三章概述了為回答研究問題所實施的工作。第四章分析和討論了所得數據。最后,第五章提出結論并討論了未來的工作。

付費5元查看完整內容

近年來, 以人機對抗為途徑的智能決策技術取得了飛速發展, 人工智能技術AlphaGo、AlphaStar等分別在圍棋、星際爭霸等游戲環境中戰勝了頂尖人類選手. 兵棋推演, 作為一種人機對抗策略驗證環境, 由于其非對稱環境決策、更接近真實環境的隨機性與高風險決策等特點受到智能決策技術研究者的廣泛關注. 本文將梳理兵棋推演與目前主流人機對抗環境如圍棋、德撲、星際爭霸等對抗環境的區別, 闡述兵棋推演智能決策技術的發展現狀, 并分析當前主流技術的局限與瓶頸, 對兵棋推演中的智能決策技術研究進行了思考, 期望能對兵棋推演相關研究人員的智能決策技術研究帶來啟發.

尹奇躍, 趙美靜, 倪晚成, 張俊格, 黃凱奇, 兵棋推演的智能決策技術與挑戰. 自動化學報, 2022, 48(x): xx-xx //www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547

人機對抗, 作為人工智能技術的試金石, 近年 來獲得了舉世矚目的進展. 隨著 Deep Blue[1]、AlphaGo[2]、Libratus[3]、AlphaStar[4] 等智能體分別在 國際象棋、圍棋、二人無限注德州撲克以及星際爭 霸中戰勝頂尖職業人類選手, 其背后的智能決策技 術獲得了廣泛的關注, 也代表了智能決策技術在中 等復雜度完美信息博弈、高復雜度完美信息博弈再 到高復雜度不完美信息博弈中的技術突破.

國際象棋、圍棋代表了完美信息博弈, 其狀態空間復雜度由

, 后者更是被譽為人 工智能技術的阿波羅. 相比于上述兩種博弈環境, 二人無限注德州撲克, 盡管狀態空間復雜度僅有 , 但其為不完美信息博弈, 相比于國際象棋與 圍棋信息集大小僅為 1, 其信息集平均大小達到 . 而星際爭霸, 作為高復雜度不完美信息博弈的代 表, 因其相比于上述游戲的即時制、長時決策等特 性[4, 5] , 對智能決策技術提出了更高的要求. 星際爭霸突破之后, 研究人員迫切需要新的人 機對抗環境實現智能技術的前沿探索. 兵棋推演是 一款經典策略游戲[6?8] , 也被稱為戰爭游戲, 作為一 種人機對抗策略驗證環境, 由于其具有不對稱環境 決策、更接近真實環境的隨機性與高風險決策等特 點, 受到智能決策技術研究者的廣泛關注. 近些年 來, 研究者投入了大量的精力進行兵棋推演智能體 研發以及兵棋推演子問題求解, 試圖解決兵棋推演 的人機對抗挑戰[9?14] .

兵棋推演, 一直以來都是戰爭研究和訓練的手段, 分為早期的手工兵棋與 20 世紀 80 年代后期普 及的計算機兵棋[15?17] . 胡曉峰等人[6] 全面綜述了兵 棋推演的基本要素 (參演人員、兵棋系統模擬的戰 場環境和作戰部隊、導演部及導調機構), 指出 “兵 棋推演的難點在于模擬人的智能行為”, 進而得出 “兵 棋推演需要突破作戰態勢智能認知瓶頸”, 最后給 出了如何實現態勢理解與自主決策可能的路徑. 和 目前兵棋推演關注的重點不同, 本文關注的是兵棋 推演中的智能體研究, 針對通用性的智能決策技術 與挑戰展開. 另外, 需要闡明的是, 本文中的兵棋推 演, 如非特別闡述, 在不引起歧義的前提下統一指 雙方計算機兵棋推演 (紅藍兩方). 本文內容組織如下: 第二章將梳理兵棋推演與 目前主流人機對抗環境如星際爭霸等的區別, 以及 為什么其潛在是人機對抗的下一個挑戰; 第三章將 介紹兵棋推演智能技術的研究現狀; 之后在第四章 闡述當前主流技術的瓶頸; 第五章對兵棋推演的智 能決策技術進行展望與思考, 希望啟發新的研究方 向; 最后對全文進行總結.

**1 兵棋智能決策問題的挑戰 **

本章首先簡要介紹兵棋推演問題以及與手工兵 棋的比較. 在此基礎上, 以人機對抗發展脈絡為主 線, 以兵棋推演中的智能體研究為核心, 介紹兵棋 推演與其他主流策略游戲的通用挑戰, 之后重點闡 述兵棋推演的獨特挑戰. 前者為實現兵棋推演人機 對抗的成功提供了技術基礎, 后者則對當下人機對 抗智能體決策技術提出了新的挑戰.

表1 對智能決策技術帶來挑戰的代表性因素

2 兵棋智能決策技術研究現狀

為應對兵棋推演的挑戰性問題, 研究者提出了 多種智能體研發與評測方法. 與圍棋、星際爭霸等 主流游戲人機對抗智能體研發脈絡類似 (如星際爭 霸從早期知識規則為主, 中期以數據學習為主, 后 期以聯合知識與強化學習完成突破), 兵棋推演也經 歷了以知識驅動為主、以數據驅動為主以及以知識 與數據混合驅動的研發歷程. 兵棋的評測技術包含 了智能體的定量與定性分析方法. 在本節中, 將重 點闡述兵棋智能體研發的技術與框架, 同時對智能 體的評估評測進行簡述.

當前智能體的研發技術與框架主要包含三類, 即知識驅動、數據驅動以及知識與數據混合驅動的 兵棋推演智能體, 本節將分別闡述各個技術框架的 研究進展.

3. 兵棋推演智能體評估

正確評估智能體的策略對于智能體的能力迭代具有至關重要的作用。研究者提出了一系列算法(如ELO、多維ELO等)實現智能體能力的準確刻畫,但仍面臨復雜非傳遞性策略的綜合評估、協同智能體中單個智能體的能力評估、定性評估標準體系化等問題帶來的挑戰。近些年來,上述挑戰促進了智能體評估開放平臺的建設,例如,中科院自動化所開放了“圖靈網”人機對抗智能門戶網站(

4. 兵棋智能決策技術展望

博弈理論,作為研究多個利己個體之間的策略性交互而發展的數學理論,有望為兵棋推演人機對抗突破提供理論支撐,但是面臨著如何求解以及保證大規模博弈的近似納什均衡解的挑戰。大模型,近些年來在自然語言處理領域獲得了突飛猛進的發展,兵棋推演的大模型訓練有望實現類似的零樣本或小樣本遷移,但是面臨著如何進行優化目標設計、多智能體訓練以及不同規模任務訓練的挑戰。問題約簡,作為一種引導技術發展的有效手段,本文設計了“排兵布陣”、“算子異步協同對抗”等問題,以牽引算法研究,進而反哺解決兵棋推演人機對抗挑戰。

付費5元查看完整內容
北京阿比特科技有限公司