多智能體協同決策問題是群體智能領域一個重要的研究方向,隨著深度強化學習算法在多智能體決策領域如游戲AI、推薦系統、智能交通等方面的應用,基于深度強化學習的多智能體算法已經成為一個研究熱點。文中分別針對不完全信息決策、復雜決策空間設計以及動態博弈等問題開展分析,并闡述了相應的算法或模型,最后對未來多智能體領域的研究進行了展望。
多智能體[1-5]系統由一群有自主性的,可互相 交互的實體組成,它們共享一個相同的環境,通過感 知器感知環境并通過執行器采取行動。根據系統中 智能體的結構不同可以分為同構多智能體系統和異 構多智能體系統,異構多智能體系統個體間模型不 統一,使得個體感知環境的方式或者決策空間存在 一定的差異。在多智能體系統中,智能體通過與環 境進行交互獲取當前決策下的獎勵,智能體基于獎 勵改善策略并獲得最優策略的方法為多智能體強化 學習算法。
相對于單智能體策略學習問題,多智能體策略 學習過程具有更高的復雜度。一方面在于多智能體 不僅要考慮環境因素,還要考慮到己方、敵方、中立 方的行動和意圖; 另一方面考慮智能體間的神經網 絡網絡是相互連接的,以此來促進智能體之間的協 同性。在單智能體強化學習中,智能體所在的環境 通常是穩定不變的,但是在多智能體強化學習中,環 境是復雜的、動態的,因此給學習過程帶來很大的困 難。強化學習[5]算法包含狀態值函數和動作- 狀態 值函數等要素。在多智能體強化環境中,狀態空間、 動作空間隨智能體數量指數增長,因此多智能體情形下搜索空間通常非常巨大,對計算資源要求高。基于每個智能體的任務不同,其決策動作的獎勵設 計不同,但是彼此之間又相互耦合影響,其設計的優 劣對學習到的策略好壞有直接的影響。多個智能體 的策略是同時學習的,在單個智能體的策略發生改 變時,其他智能體的最優策略也可能會變化,這將對 算法的收斂性帶來影響。
根據對多智能體控制形式的不同,多智能體協 同算法可以分為集中式( 中心化) 控制算法與分布 式( 去中心化) 控制算法。集中式控制算法通常把 整個多智能體系統的協作機制看成一個整體,通過 一個全局性的中央單元對所有單元進行統一控制。與集中式控制算法對應,分布式控制算法將各個智 能體劃分為單個主體,每一個主體獨立處理環境狀 態信息,并做出行為決策。隨著深度思考等知名研 究機構在星際爭霸 2、守護古樹 2 等多智能體游戲 環境中取得突破,基于深度強化學習算法[6-8]實現 對多智能體集中式或分布式協同控制的研究已經成 為人工智能領域的研究熱點。本文主要介紹應對多智能體博弈環境下面臨信 息不完全、動作空間維度爆炸、動態不確定性等問題 的主要方法,并對未來深度強化學習算法的發展及 應用進行展望。
在大規模系統中,當集中式技術被用于任務分配時,存在著基本的挑戰。交互的數量受到資源限制,如計算、存儲和網絡通信。我們可以通過將系統實現為分布式任務分配系統,在許多智能體之間共享任務來提高可擴展性。然而,這也增加了通信和同步的資源成本,并且難以擴展。
在本文中,我們提出了四種算法來解決這些問題。這些算法的組合使每個智能體通過強化學習改善他們的任務分配策略,同時根據他們過去的經驗,改變他們對系統的探索程度,相信他們當前的策略是最優化的。我們專注于分布式智能體系統,其中智能體的行為受到資源使用限制的制約,限制了智能體的本地知識,而不是全系統的知識。我們在一個模擬環境中評估這些算法,在這個環境中,智能體被賦予一個由多個子任務組成的任務,必須分配給具有不同能力的其他智能體,然后執行這些任務。我們還模擬了現實生活中的系統效應,如網絡不穩定。我們的解決方案顯示,在所考慮的系統配置中,任務分配問題的解決率為理論最優的6.7%。當系統連接受到影響時,它比無知識保留方法提供了5倍的性能恢復,并對多達100個智能體的系統進行了測試,對算法性能的影響小于9%。
在一個分布式任務分配系統(DTAS)中,許多獨立的智能體之間存在著相互作用。這些系統越來越多地出現在廣泛的現實世界應用中,如無線傳感器網絡(WSN)[5, 7, 36, 50]、機器人[12, 46]和分布式計算[38, 48]。這些應用的復雜性和范圍不斷擴大,帶來了許多挑戰,如應對變化、處理故障和優化等。系統性能也必須隨著智能體數量的增長而擴展,能夠在計算或存儲資源的限制下執行任務。下面總結的挑戰在許多不同的學科領域都有,這意味著相關的和實用的解決方案變得更加普遍適用。
任務分配,如何在系統中的智能體中最好地分配任務。一個智能體可能有一個目標,其中包括一個綜合任務,需要其他智能體完成一些子任務[70]。
資源管理,分配和優化資源的使用,以完成一項任務。例如,在物理環境中執行一項功能時管理能源的使用[29, 60, 96]。
動態網絡、智能體發現和通信適應性。智能體必須能夠在連接丟失和創建時相互溝通[6]。
自組織,自主形成結構以完成一個目標。具有剛性結構的解決方案通常不適用于具有許多未知因素的動態系統,因為設計會過于復雜。為了提高智能體在這些情況下的適應性,可以使用自組織的解決方案。[1, 26, 27, 34, 47]。
正式設計的智能體可以在一個被充分理解的系統下執行設定的任務。然而,設計能夠預測大規模、真實世界操作環境中可能發生的各種故障或變化的算法通常是不可行的。此外,隨著系統變得更加復雜,智能體的狀態行動空間大小也呈指數級增長。這個空間代表了它們可能處于的狀態組合的集合,以及它們在這些狀態下可能采取的行動。在部署智能體之前就知道這個空間往往是不現實的,就像了解哪些算法會有最佳表現一樣。引入一個持續更新的關于環境和其他智能體的信息的集中源,可以增加智能體對其狀態行動空間的了解,允許更好的優化。像這樣的方法,如使用協調智能體,專門協調系統中的其他智能體,在分布式軟件架構[39, 41, 49, 66]和機器人學[4, 20]中被使用。然而,在通過集群和共識技術擴展這種方法以增加容錯性時,產生了一個脆弱的中心點。由于其他智能體的互動和通信是通過這些中心化的智能體進行的,擁堵和帶寬飽和問題也會增加。
具有學習增強功能的分布式智能體系統,如多智能體強化學習(MARL),可以提供相同的功能,但分布在各智能體之間,消除協調的焦點,緩解擁堵問題,同時仍然提供知識共享和行動協調,使智能體能夠優化狀態-行動空間。雖然隨著互動智能體數量的增加,我們看到系統內的通信量呈指數級增長,最終使帶寬飽和并耗盡計算資源。還有一個穩定性的期望,即智能體優化的解決方案保持相對穩定,隨著時間的推移,對狀態行動空間的探索需求逐漸減少。在動態系統中,這一點往往不成立。MARL技術也沒有考慮到采取不同類型的行動所涉及的固有風險,這導致了在機器人領域的災難性影響,如一些行動可能有嚴重的物理損壞風險,或在金融系統中可能會產生巨大的損失[33, 40, 57, 87]。
整個問題可以概括為如何在動態多智能體系統中提供有效的任務分配,同時隨著任務數量的增加和智能體可用性的改變,確保可擴展性。所提出的解決方案結合使用了一些算法,允許智能體確定其他已知智能體執行任務的能力,分配這些任務,并根據其當前的知識和探索智能體能力空間的需要執行其他行動。所介紹的算法有:
具有風險影響意識的智能體任務分配(ATA-RIA)算法允許每個智能體選擇系統中其他智能體的一個子集,其依據是它預測這些智能體將在多大程度上幫助完成其整體綜合任務的子任務。他們可以學習這些智能體的最佳任務分配策略,但也可以改變哪些智能體組成的小組來提高性能。
行動-風險概率的獎勵趨勢(RT-ARP)算法使智能體有能力根據一段時間內獲得的獎勵趨勢來改變他們的探索策略。使用這種算法,智能體可以根據他們的歷史表現,增加他們采取有可能對其任務分配策略進行較大改變的行動的可能性。
狀態-動作空間知識-保留(SAS-KR)算法智能地管理智能體用來維護他們所學到的關于狀態-動作空間的信息和他們的行動效果的資源。
鄰居更新(N-Prune)算法有選擇地將智能體從一個智能體考慮的任務分配組中刪除,以限制資源的使用。這種選擇不僅基于一個智能體預測其他智能體對其綜合任務的貢獻有多大,而且還基于它對這種預測的不確定性有多大,因此與ATA-RIA算法的行為相得益彰。
我們通過評估這些算法在一系列模擬的多智能體系統中的表現來測試其有效性。
第2節涵蓋了MARL和多智能體系統領域的相關研究。第3節對問題領域和動機進行了深入分析,第4節和第5節對提出的解決方案和算法的定義進行了探討。我們在第6節中介紹了在系統模擬中對算法性能的評估。最后,我們在第8節中討論了結論和未來的研究。
圖 8. 一個常見級別 WSN 系統示意圖。在圖 8a 中,部署了節點并學習了初始任務優化。在圖 8b 中,ATA-RIA 調整節點的動作以考慮由于電流和通過無人機的運動。在圖 8c 中,節點被高度中斷,一些節點出現故障。 SAS-KR 和 RT-ARP 算法可根據過去的知識和環境穩定時的探索優先級快速重新建立最佳配置。
智能博弈對抗是人工智能認知決策領域亟待解決的前沿熱點問題.以反事實后悔最小化算法為代表的博弈論方法和 以虛擬自博弈算法為代表的強化學習方法,依托大規模算力支撐,在求解智能博弈策略中脫穎而出,但對兩種范式之間的關聯 缺乏深入發掘. **文中針對智能博弈對抗問題,定義智能博弈對抗的內涵與外延,梳理智能博弈對抗的發展歷程,總結其中的關 鍵挑戰.**從博弈論和強化學習兩種視角出發,介紹智能博弈對抗模型、算法.多角度對比分析博弈理論和強化學習的優勢與局 限,歸納總結博弈理論與強化學習統一視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范式的結合提供方向,推動智 能博弈技術前向發展,為邁向通用人工智能蓄力.
1. 導論
對抗是人類社會發展與演進的主旋律,廣泛存在于人與 自然、人與人、人與機器之間,是人類思維活動特別是人類智 能的重要體現.人工智能浪潮中,對抗的形式不斷發生變化, 貫穿計算智能、感知智能和認知智能3個階段[1].以對抗關 系為主的博弈研究,為探索認知智能的關鍵技術原理提供了 有效工具.在認知智能層面,信息環境復雜、對抗對手復雜、 策略求解復 雜 等 愈 發 逼 近 真 實 世 界 的 復 雜 場 景 應 用 需 求, 推動了博弈對抗能力的不斷提升.高 度 保 留 真 實 世 界 特 性 (巨復雜、高動態、強對抗)的智能博弈對抗技術逐漸成為了金 融、經濟、交通等民用領域的技術引擎和軍事智能化實現的重 要助推力.在民用領域,尤其是在保護各種關鍵公共基礎設 施和目標的挑戰性任務[3]中,智能博弈對抗技術不可或缺, 例如博物館、港口、機場等安全機構部署有限的防護資源,在 入口處或者外圍路網設置安檢口進行警力的巡邏防控[4].在 軍事領域,智能博弈技術積極推動了指揮與控制的智能化發 展[5],美國先后啟動了“深綠”[6]、指揮官虛擬參謀[7]、“終身學習機器”“指南針”(COMPASS)等項目,旨在縮短“觀察G判 斷G決策G行動”(OODA)的循環時間.
近年來,在 人 機 對 抗 場 景 中,AlphaGo [8]、AlphaStar [9]、 Pluribus [10]、Suphx [11]、絕 悟[12]等 一 大 批 高 水 平 AI在 游 戲 驗證平臺中戰勝了人類玩家,智能博弈發展取得了顯著突破. 智能博弈技術的巨大成功主要依賴于博弈論和強化學習兩種 范式的結合[13]:博弈論提供了有效的解概念來描述多智能體 系統的學習結果,但主要是在理論上發展,應用于實際問題的 范圍較窄;深度強化學習算法為智能體的訓練提供了可收斂 性學習算法,可 以 在 序 列 決 策 過 程 中 達 到 穩 定 和 理 性 的 均 衡[14G15].一方面,反事實后悔值最小化算法(CounterFactual RegretMinimization,CFR)[16]是一種迭代搜索算法,其依托 大規模算力支撐,在求解大規模不完美信息博弈策略中脫穎 而出,逐漸成為了智能博弈中博弈論范式下的先進代表性算 法之一.另 一 方 面,虛 擬 自 博 弈 算 法 (FictitiousSelfGPlay, FSP)[17]依托大規模分布式計算框架,在求解多智能體系統問 題中成為了一種通用的強化學習框架,先后被成功應用到雷 神之錘III [18]、星際爭霸[19]、王者榮耀[12]、德州撲克[20]等復雜 大規模對抗場景.CFR 與 FSP是博弈范式和強化學習范式 中的典型方法,也是連接兩種范式的算法基礎.本文將深挖 博弈范式與強化學習范式的深層聯系,為兩種范式的結合提 供方向,推動智能博弈技術前向發展,為邁向通用人工智能 蓄力.
本文第2節簡要介紹了智能博弈對抗,包括智能博弈對 抗的內涵與外延、智能博弈對抗發展歷史以及智能博弈對抗 中的關鍵挑戰;第3節介紹了智能博弈對抗模型,包括博弈論 的基礎模型———擴展式博弈模型和強化學習的基礎模型——— 部分可觀隨機博弈模型,以及結合擴展式博弈模型與馬爾可 夫模型的通用模型———觀察信息可分解的隨機博弈模型,從 模型上梳理了博弈理論和強化學習的內在聯系;第4節進行 了博弈論與強化學習的對比分析,首先詳細梳理了博弈論和 強化學習視角下的典型對抗方法,分別以 CFR 和 FSP 為代 表介紹其具體原理,分析變體改進思路,然后多角度對比分析 博弈理論與強化學習的優缺點,探討后悔值與值函數等基礎 概念的聯系,歸納總結博弈理論與強化學習的結合方法和結 合框架;第5節介紹了智能博弈對抗研究前沿,歸納了當前熱 點前沿智能博弈問題,分別從面向復雜博弈場景的智能博弈 模型、多智能體場景下博弈論與強化學習融合的智能博弈方 法、結合對手建模 的 智 能 博 弈 方 法,以 及 結 合 元 學 習 的 多 任務場景泛化4個角度討論了智能 博 弈 前 沿 研 究;最 后 總 結全文.
2. 智能博弈對抗簡介
**智能博弈對抗的內涵與外延 **
廣義上的智能概念涵蓋了人工智能、機 器 智 能、混 合 智 能和群體智能.本 文 的 智 能 概 念 特 指 認 知 智 能 中 機 器 的 自主決策能力,即機器智能,表現為機器模 擬 人 類 的 行 為、思考方式,通過攝像頭、話筒等傳感器接收 外 界 數 據,與 存 儲器中的數據進行對比、識別,從而進行判斷、分 析、推 理、 決策.機器智能智能水平的高低可 分 為 若 干 層 次,如 從 最 簡單的應激反射算法到較為基礎的控 制 模 式 生 成 算 法,再 到復雜神經網 絡 和 深 度 學 習 算 法.博 弈 對 抗 指 代 以 對 抗 關系為主的博弈,在 沖 突 為 主 的 背 景 下 博 弈 方 (擁 有 理 性 思維的個體或群體)選 擇 行 為 或 策 略 加 以 實 施,并 從 中 取 得各自相應的結果或收 益[21].博 弈 與 對 抗 是 人 類 演 化 進 程中的重要交互活動,是人類智能和人 類 思 維 方 式 的 重 要 體現.這種 交 互 活 動 廣 泛 存 在 于 個 體 與 個 體、個 體 與 群 體、群體與群體之間.
智能博弈對抗發展歷史
博弈對抗不斷推動著智能水平的發展,對抗場景從早期 的“圖靈測試”到目前的“通用場景”探索,不斷向真實世界場 景靠攏. 2016年,DeepMind基于深度強化學習和蒙特卡洛樹搜 索開發的智能圍棋博弈程序 AlphaGo [8],以4∶1的分數戰勝 了人類頂級圍棋選手李世石,這標志著人工智能的發展重點 逐漸由感知智能向認知智能過渡.同年,辛辛那提大學基于 遺傳模糊樹構建的 AlphaAI空戰系統[22]在空戰對抗中擊敗 人類飛行員,這成為了無人系統博弈對抗能力生成的推動性 進展.2017年,DeepMind提出的基于自博弈強化學習的棋 類 AIAlphaZero [23]可以從零開始自學圍棋、國際象棋和將 棋,并擊敗了 AlphaGo.以圍棋為代表的完全信息博弈已基 本得到解決,智能博弈的研究開始轉向德州撲克和星際爭霸 等不完全信息博弈.同年,阿爾伯塔大學和卡內基梅隆大學 先后開發了智能 德 州 撲 克 博 弈 程 序 DeepStack [24]和 LibraG tus [25],在人 機 對 抗 中 擊 敗 了 職 業 玩 家.2018 年,DeepG Mind在雷神之 錘III奪 旗 游 戲 中 提 出 了 一 種 基 于 種 群 訓 練的多智能 體 強 化 學 習 框 架[18],訓 練 構 建 的 AIFTW 的 性能超越了人類玩家水平.隨后,智 能 博 弈 朝 著 多 智 能 體 參與、通用場景擴 展 遷 移 等 方 向 不 斷 發 展,高 效 海 量 數 據 的實時采樣(數據)、大 規 模 算 力 加 速 采 樣 和 優 化 (算 力)、 大規模集群架構算 法(算 法)成 為 了 多 智 能 體 強 化 學 習 成 功的關鍵.博弈 均 衡 的 方 法 在 多 智 能 體 博 弈 中 仍 存 在 理 論上的局限性,但基于兩人框架的多人 博 弈 擴 展 依 舊 在 實 驗中具有較好表 現,如 2019 年 卡 內 基 梅 隆 大 學 的 六 人 德 州撲克 智 能 博 弈 程 序 Pluribus [10]擊 敗 了 多 名 職 業 玩 家. 隨后,智能博弈的研 究 趨 勢 開 始 形 成 “高 質 量 對 抗 數 據 引 導”+“分布式強化學習訓練”的模式(如麻將 AISuphx,星 際爭霸 AIAlphaStar [19],谷歌足球 AI覺悟GWeKick),并 逐 漸擺脫先驗 知 識,直 接 完 成 “端 到 端 ”的 學 習 (如 捉 迷 藏 AI [26]、斗 地 主 AI DouZero [27]、兩 人 德 州 撲 克 AI AlG phaHoldem [20]).2021 年,DARPA 舉 辦 的 AlphaDogFight 挑戰賽[28]推動了無人系統 博 弈 對 抗 能 力 的 提 升.另 一 方 面,DARPA 開始布局通 用 AI的 探 索 性 項 目,推 動 智 能 博 弈向強人工智 能 邁 進.智 能 博 弈 對 抗 發 展 歷 程 與 典 型 應 用總結如圖1所示.
智能博弈對抗中的關鍵挑戰 復雜博弈環境難評估
(1)不完全信息與不確定性 環境中的不完全信息與不確定性因素提高了博弈決策的 難度.戰爭迷霧造成的不完全信息問題中,關于其他智能體 的任何關鍵信息(如偏好、類型、數量等)的缺失都將直接影響 智能體對世界狀態的感知,并間接增加態勢節點評估的復雜 性.不僅如此,考慮不完全信息帶來的“欺騙”(如隱真、示假 等[29G31])行為,將進一步擴展問題的維度.此外,不確定性引 入了系統風險,任何前期積累的“優勢”都可能因環境中隨機 因素的負面影響而“落空”.如何綜合評估當前態勢進行“風 險投資”,以獲得最大期望回報,成為了研究的另一個難點. 另一方面,在策略評估與演化過程中,如何去除不確定因素帶 來的干擾[32]成為了“準確評價策略的好壞、尋找優化的方向” 的難點.
(2)對抗空間大規模
在一些復雜博弈環境中,狀態空間和動作空間的規模都 非常龐大(見表1),搜索遍歷整個對抗空間,無論是在時間約 束上還是在存儲空間約束上[33]都難以滿足要求.
模型抽象[34G35]的方法在一定程度上可以降低問題的規 模,但缺乏理論保證,往往以犧牲解的質量為代價[36].即使以求 解 次 優 策 略 為 目 標,部 分 優 化 算 法 (如 EGT [37]、一 階 (FirstOrder)算法)仍舊難以直接應用到抽象后的模型.蒙 特卡洛采樣可以有效地加快算法的速率,但在復雜環境下,如 何與其他方法結合并減小搜索中的方差依舊是研究的難點.
** 多智能體博弈難求解**
**(1) 均衡特性缺失 **
納什均衡作為非合作博弈中應用最廣泛的解概念,在兩 人零和場景中具有成熟的理論支撐,但擴展到多智能體博弈 時具有較大局限性.兩人零和博弈具有納什均衡存在性和可 交換性等一系列優良特性[39].然而,多人博弈的納什均衡解 存在性缺乏理論保證,且計算復雜,兩人一般和博弈的納什均 衡 是 PPAD 難 問 題[40],多 人 一 般 和 的 計 算 復 雜 度 高 于 PPAD.即使可以在多人博弈中有效地計算納什均衡,但采 取這樣的納什均衡策略并不一定是“明智”的.如果博弈中的 每個玩家都獨立地計算和采取納什均衡策略,那么他們的策 略組合可能并不是納什均衡,并且玩家可能具有偏離到不同 策略的動機[41G42]. **(2) 多維學習目標 **
對于單智能體強化學習而言,學習目標是最大化期望獎 勵,但是在多智能體強化學習中,所有智能體的目標不一定是 一致的,學習目標呈現出了多維度[13].學習目標可以分為兩 類[43]:理性和收斂性.當對手使用固定策略時,理性確保了 智能體盡可能采取最佳響應,收斂性保證了學習過程動態收 斂到一個針對特定對手的穩定策略,當理性和收斂性同時滿 足時,會達到新的納什均衡. **(3) 環境非平穩 **
當多個智能體同時根據自己的獎勵來改進自身策略時, 從每個智能體角度來看,環境變得非平穩,學習過程難以解 釋[44].智能體本身無法判斷狀態轉移或獎勵變化是自身行 為產生的結果,還是對手探索產生的.完全忽略其他智能體獨立學習,這種方法有時能產生很好的性能,但是本質上違背 了單智能體強化學習理論收斂性的平穩性假設[45].這種做 法會失去環境的馬爾可夫性,并且靜態策略下的性能測度也 隨之改變.例如,多智能體中單智能體強化學習的策略梯度 法的收斂 結 果 在 簡 單 線 性 二 次 型 博 弈[46](LinearGQuadratic Games)中是不收斂的.
3 智能博弈對抗模型
**擴展式博弈模型 **
擴展式博弈適用于序貫決策中建模智能體與環境的重復 交互過程,尤其是存在“智能體對其他智能體之前的決策節點 不可分辨(含有隱藏信息)”或者“智能體遺忘之前的決策(不 完美回憶)”的情景.
部分可觀隨機博弈
與擴展 式 博 弈 的 樹 結 構 不 同,馬 爾 可 夫 博 弈 (Markov Game)也稱隨機博弈(StochasticGame),具有馬爾可夫鏈式 結構.
**通用模型 **
博弈理論和強化學習理論并不互斥,在模型上,博弈論的 擴展式博弈模型和強化學習的部分可觀隨機博弈兩種模型之 間具有一定的聯系,例如都可以通過放寬某些條件限制轉化 為觀察 信 息 可 分 解 的 隨 機 博 弈 (FactoredGObservationStoG chasticGames,FOSG)[58].FOSG 是 POSG 的一種擴展性變 體,模型聚焦于公共信息(PublicInformation)的表示和分解, 如圖3所示.
4 博弈論與強化學習的對比分析
博弈論和強化學習是求解序貫決策問題的有效工具,然 而它們在算法特性(泛化性、可解釋性、收斂性保證)、應用場 景(多人博弈、序貫博弈、即時策略博弈)以及硬件資源(算力 需求)等 方 面 各 有 所 長,本 文 總 結 了 近 5 年 AAAI,IJCAI, NeuralPS,AMMAS,ICRL等人工智能頂刊頂會中與智能博 弈技術相關的博弈論與強化學習文章,按專家打分的方法,繪 制對比分析雷達圖,如圖7所示.博弈理論在兩人零和博弈 問題上已經具有較為成熟的理論,包括納什均衡(以及其他解概念)的等價性、存在性、可交換性(Interchangeability)[39]等, 但在多人博弈問題中還需要新的解概念以及相關理論的支 撐.CFR算法通過后悔值迭代更新生成策略,模型具有可解 釋性.但是,完美回放和終端可達的強烈假設限制了 CFR 的 使用場景[92].強化學習結合深度學習,直接實現端到端的學 習,具有很強的泛化性,在多智能體博弈中已取得較多成功應 用.但網絡的訓練往往需要超大規模的算力支撐,且模型的 可解釋性不強.本節將對兩種方法的具體局限性進行深入剖 析,為兩種方法的結合互補提供方向.
5. 智能博弈對抗研究前沿
** 面向復雜博弈場景的智能博弈模型**
博弈論中的“信息集”和強化學習中的“觀察函數”都是針 對智能博弈場景中不完全信息的形式化描述.現實世界中,博 弈場景更加復雜,不完全信息引發了博弈信息“不可信”等問 題———智能體通常是不完全理性的,并且不同認知層次的智能 體參與的博弈具有 “欺詐[114G115]”“隱藏”“合謀”“認知嵌套(建 模對手的同時,對手也在建模利用己方)”[116G117]等新挑戰.如 何針對認知博弈對抗中的新挑戰,形式化描述“欺騙”等復雜博 弈要素,建立復雜博弈信息的量化評估體系,成為了智能博弈 向真實世界遷移應用的模型基礎.
**多智能體場景下博弈論與強化學習融合的智能博弈方法 **
雖然博弈論提供了易于處理的解決方案概念來描述多智 能體系統的學習結果,但是納什均衡是一個僅基于不動點的 靜態解概念,在描述多主體系統的動態特性方面(如循環集 (RecurrentSet)[118]、周 期 軌 道 (Periodic Orbits)和 極 限 環 (LimitCycles)[55])具有局限性.一方面,尋求具有更多優良 特性的多人博弈新解概念,探索多人局部納什均衡點求解方 法,將是博弈視角下求解多智能體博弈問題的新突破口;另一 方面,發揮深度學習和強化學習在信息表征、復雜函數擬合 方面的優勢,基于自博弈求解框架、值函數評估方法、強化學 習結合 CFR等方法,探索博弈論方法與強化學習的有效融合 機制,將是突破多智能體博弈學習瓶頸的前沿方向.
**結合對手建模的智能博弈方法 **
對抗勝負的本質是超越對手的相對優勢,決策的制定必 須以對手的行動或策略為前提.納什均衡是應對未知通用對 手時最小化最壞可能性,用最“保險”的策略應對,而并不是尋 求最優應對策略.放寬納什均衡中“未知通用對手”的設定, 考慮不完全理性對手的最佳應對,一些新的解 概 念[61]被 提 出,結合顯式對手建模(ExplicitOpponentModeling)[119]和均 衡近似,平衡利用性與剝削性,實現多目標優化,為融合對手 建模的博弈學習提供參考.此外,在一些更加復雜的對抗場 景中,如 對 手 具 有 學 習 意 識 (OpponentGLearning AwareG ness)[120]等,最大熵多智能體強化學習[121]成為研究如何進行 博弈均衡對抗策略選擇的新趨勢.不僅如此,反對手建模方 法也在同步發展.基于意圖識別設計[122]的對抗意圖識別、 包含意圖隱藏與欺騙的對抗意圖識別方法等[123]反對手建模 方法在欺騙路徑規劃[29]等問題中得到了一定的研究.在復 雜博弈對抗場景中,如何基于對手模型安全利用對手,以及如 何保全自我反對手建模成為了新的探索性研究.
**結合元學習的多任務場景泛化 **
學習模型如何更好地泛化到差異很大的新領域中,是一 種更加高效和智能的學習方法.元學習(MetaLearning)逐 漸發展成為讓機器學會學習的重要方法.元學習是通用人工 智能(GeneralAI)的分支,通過發現并推廣不同任務之間的 普適規律來解決未知難題.元學習的輸入是一個任務集合, 目的是對每個任務的特性和任務集合的共性建模,發現任務 之間的共性和內在規律,以追求在差異較大任務之間的遷移, 且不會產生 較 大 的 精 度 損 失,目 前 其 已 經 擴 展 到 元 強 化 學 習[124G125]、元模仿學習[126]、元遷移學習、在線元學習[127]、無監 督元學習[128G129]等.如 何 結 合 博 弈 理 論 和 元 強 化 學 習 的 優 勢,構建高效、可解釋性強、具有收斂性保障和泛化性的近似 納什均衡求解體系,將是未來智能博弈技術發展的巨大推動 力之一.
**結束語 **
本文針對智能博弈對抗問題,介紹了智能博弈 對抗的內涵與外延,梳理了智能博弈對抗發展歷程,總結了其 中的關鍵挑戰.從博弈論和強化學習兩種視角出發,介紹了 智能博弈對抗模型和算法,多角度對比分析了博弈理論和強 化學習的優勢與局限,歸納總結了博弈理論與強化學習統一 視角下的智能博弈對抗方法和策略求解框架,旨在為兩種范 式的結合提供方向,推動智能博弈技術前向發展,為邁向通用 人工智能蓄力.
提供態勢感知是戰術領域的一項關鍵要求和一項具有挑戰性的任務。戰術網絡可以被描述為斷開、間歇和受限 (DIL) 網絡。在 DIL 網絡中使用跨層方法有助于更好地利用戰術通信資源,從而提高用戶感知的整體態勢感知。用于優化應用程序的規則,描述其合適跨層策略(啟發式)的規范仍然是一項具有挑戰性的任務。
我們之前介紹了一種學習環境架構,旨在訓練分散的強化學習 (RL) 智能體,這些智能體應該通過使用跨層信息 [1] 來改善 DIL 網絡中網絡資源的使用。由于這些智能體的訓練需要大量場景,因此定義了一個額外的戰術模型。戰術模型的目的是生成具有動態變化的網絡條件和應用程序之間動態信息交換的場景,從而為訓練 RL 智能體奠定基礎。戰術模型本身也基于 RL 智能體,它在博弈環境中模擬軍事單位。
在本文中,我們展示了這個戰術模型,實驗性的深度強化智能體放置在一個專注于控制多智能體合作博弈中的運動和通信戰術環境中。該博弈的重點是多個智能體,通過在二維空間中進行交流和移動來達到與對方團隊競爭的共同目標。我們研究智能體如何與彼此和環境交互以解決偶發性和連續性任務。由于這項工作的重點是在通信網絡上進行強化學習以增強 DIL 通信網絡,因此我們提出了基于近端策略優化 [2] 的智能體,以適應協作多智能體通信網絡問題。此外,該博弈的最終軌跡用于在 DIL 設置中訓練智能體。
圖4-1:戰術模型的高層架構
圖4-2:戰術環境的可視化
圖5-2:在PoIs和單個單位被打破之前積累單位