人工智能技術的發展極大推動了智能博弈決策問題求解范式的變革,從最優解、均衡解到適 變解,如何構建基于生成式大模型的智能博弈自適應決策智能體充滿挑戰。博弈強對抗環境中兵力 分配和多實體協同是研究排兵布陣和作戰協同的核心課題。基于技能、排序和偏好元博弈模型構建 的策略強化學習、策略博弈樹搜索與策略偏好投票選擇方法,設計了滿足生成時規劃的大模型智能 體架構。該架構可對齊指揮員意圖,具有可行性、適用性、擴展性,可為自適應決策過程提供可解 釋性策略推薦。從基座模型構建、目標引導博弈強化學習和開放式元博弈策略學習分析了關鍵技術 需求。期望為強化學習類模型、博弈學習類模型與生成式大語言模型結合的交叉研究提供參考。
為了推進美國戰略與預算評估中心提出的“決 策中心戰”,DARPA 于 2017 年提出了馬賽克戰概 念,蘭德公司利用上校布洛托博弈(Colonel Blotto Game)研究了馬賽克戰作戰資源分配問題[1]。作戰 資源分配主要包括兵力、火力、武器和后勤等子問 題,上校布洛托博弈作為一類典型的兵力布勢問題 模型[2],為排兵布陣問題研究提供了基準參考。作 為上校布洛托博弈模型的泛化形式,強權外交 (Diplomacy)這款桌游(特別是無通信版本)很好地 刻畫了多方一般和多階段不完美信息博弈的動態 交互過程[3]。為了利用智能博弈相關技術研究作戰 協同問題,DARPA 啟動“打破游戲規則的人工智 能探索 ”(Gamebreaker Artificial Intelligence Exploration)項目[4],致力于開發人工智能并將其應 用到現有的開放世界視頻游戲中,以定量評估游戲 平衡,確定顯著有助于游戲平衡的基本參數,并從 新功能、戰術和規則修改等角度探索導致游戲不穩 定性的變量,旨在為美軍創造更大的作戰優勢,或 在對手尋求優勢時尋求對抗的平衡。 如何生成多種類型行動方案計劃為指揮員推 薦策略選項是聯合全聯指控中為對手制造多重困 境(dilemma)的主要方法途徑[5]。利用軍事人工智能 技術輔助決策推薦是當前的研究前沿[6]。早期的一 些研究采用抽象桌游(abstract board games, ABG) 來實時分析大規模對抗問題,如 Stilman 等[7]基于 語言幾何(linguistic geometry, LG)工具與博弈理論 構建的私人參謀長,Serge 等[8]基于語言幾何與對 抗情報推理決策構建的計算機模擬程序 LG-RAID,其中語言幾何作為軟件程序的大腦負責 預測對手的作戰行動方案。近年來,圍繞多方對抗 問題,2020 年 DARPA 開展了針對“對戰敵方戰術 的構建性機器學習”(constructive machine learning battle for enemy tactics, COMBAT)項目[9],利用自 然語言處理提取非結構化文本信息,利用博弈論與 強化學習等方法生成應對美軍的作戰行動方案,旨 在為仿真環境提供敵軍旅級兵力行動模擬。2023 年美國海軍陸戰隊大學以 Command 為基準環境, 開展了將生成式人工智能應用于仿真與兵棋推演 的相關探索[10]。Hinton 等[11]分析了生成式人工智 能在兵棋推演領域的想定生成、對手 AI、紅隊等 方面的應用前景。許霄等[12]提出了作戰行動序列引 導和約束的聯合作戰兵棋推演智能決策框架,設計 了目標驅動的自適應作戰控制和任務式指令驅動 的戰術任務策略優化模塊。 人工智能技術的跨越式發展為智能博弈決策 問題求解定義了新范式,從傳統的優化理論最優 解、博弈理論均衡解,逐漸過渡至如今的模型理論 適變解[13]。為智能指控系統構建多范式融合的博弈 決策策略推薦方法充滿挑戰。 本文圍繞智能博弈自適應決策挑戰,基于元博 弈模型設計了決策大模型智能體的指控思維鏈,以 滿足生成時規劃,最后從決策基座模型構建、智能 博弈決策策略學習和人機協同決策方式共三個方 面分析了關鍵技術需求。
從符號型和反應型智能體到基于強化學習和遷移學習的智能體,再到當前基于大模型 的智能體,AI智能體經歷了三代發展,逐漸成為人工智能研究和應用的核心。其中基于大模型的智能 體是能夠更準確地感知環境、進行反應和判斷、形成并執行決策的智能計算實體,在多個領域展現出 廣泛的應用前景,包括圖像生成、視頻生成、數據分析、圖文修改輔助、談判指導、教育教學、學術 研究、生活助手、網站開發等。OpenAI、Google、Apple、NVIDIA等國外廠商,以及騰訊、百度、商 湯、聯想、訊飛等國內廠家,都在大模型智能體領域進行了積極的探索與實踐,推出了各自的大模型 智能體產品,涵蓋了游戲、生活、線上助手、營銷、教育等多個領域。本文將回顧AI智能體的定義與 發展,著重介紹大模型智能體的概念和發展前沿,以及大模型智能體在產業實踐方面的代表性成果, 為有志于大模型智能體研究和開發的讀者提供參考。
智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。
基于無人協同博弈快速發展并臨近實戰的背景下,結合數字孿生技術構建無人協同博 弈數字孿生系統模型,搭建無人智能博弈的系統結構體系,從而推進無人協同博弈孿生仿真的研究 實踐。 基于 KJ 法,對相關戰例進行歸納分析,進而對未來戰爭樣式進行推演、對無人協同博弈系統 要素和組織關系進行演繹推理。 通過構建無人協同博弈矩陣、無人協同博弈函數、無人協同博弈優 化方程矩陣,完成無人協同博弈態勢感知及博弈方案優化模型構建,實現階段博弈方案全局最優, 結合數字孿生技術,從物理層、虛擬層、服務層、數據層、數據連接 5 個方面構建出無人協同博弈數 字孿生結構模型,并梳理此模型的技術體系。 為實現無人協同博弈的虛實同步,交互運行,智能決 策優化提供理論框架,為未來無人作戰體系構建提供參考。
無人機在軍事上的應用越來越廣泛和深入,尤其是無人機集群在協同探測、全域打擊、戰術騙擾等作戰任務中,發揮著越來越重要作用,可靠高效的無人機集群博弈方法是當前的研究熱點。本文將反事實基線思想引入到無人機集群對抗博弈環境,提出面向多無人機場景的反事實多智能體策略梯度(Counterfactual multi-agent policy gradients, COMA)博弈方法;在具有連續無限狀態、動作的無人機作戰環境中,構建基于多智能體深度強化學習的無人機集群對抗博弈模型。利用多智能體粒子群環境(Multi-agent particle environment, MPE)對紅藍雙方無人機集群進行非對稱性對抗實驗,實驗結果表明COMA方法在平均累積獎勵、平均命中率和平均勝率方面均優于目前流行的深度強化學習方法。最后,通過對COMA方法的收斂性和穩定性的深入分析,保證了COMA方法在無人機集群對抗博弈任務上的實用性和魯棒性。
無人機 (Unmanned aerial vehicle, UAV) 集群是由若干配備多種任務載荷的低成本小型無人機 組成的無人化作戰系統,通過自主學習共同完成特定復雜作戰任務. 作為典型的多智能體系統,無 人機集群以難防御、強進攻、低成本、自主學習,使用靈活等優勢深刻改變著現代戰爭模式 [1~4].隨著無人機智能化水平的提高和集群控制技術的飛速發展,無人機集群對抗自主決策方法將成為未 來無人機作戰的關鍵技術. 解決無人機集群對抗自主決策問題的一種思路是利用進化方法,進化方法是一類受生物進化理 論啟發而形成的計算方法,常用于解決優化、搜索和對抗等問題,其核心思想是通過模擬生物進化 的過程,找到問題的最優或次優解. John Kaneshige 等 [5] 使用人工免疫機制解決空戰機動選擇問 題,將敵機視為抗原,通過相對位置速度表征,將機動動作視為抗體,利用遺傳算法和進化算法模 仿免疫系統對應抗原的自適應能力,這種機制使得智能體具有較強的記憶能力,能記錄過往成功的 經驗以在相似場景下快速響應. Duan 等 [6] 提出了一種基于捕食者-獵物粒子群優化 (Predator-prey particle swarm optimization,PP-PSO) 的博弈方法,將多無人機作戰任務建模為雙人博弈,并通過 PP-PSO 方法來解決. 周文卿等 [7] 針對多無人機協同飛抵作戰空域完成作戰任務的問題進行了建 模,利用蟻群算法和所提的多無人機控制算法進行仿真實驗,實驗表明該算法能有效提升無人機集 群空戰獲勝率. Isler 等 [8] 將隨機策略與獅子追捕策略結合,研究了兩個追蹤者對一個高速運動逃 跑者的協同追捕算法,在簡單連通多邊形環境中驗證了所提算法的有效性. Chen 等 [9] 利用模糊規 則對多無人機空戰問題進行離散化,并采用粒子群優化方法求解納什均衡,該方法解決了協同博弈 問題,模擬結果呈現了該方法的可行性和有效性. 然而,用進化方法解決博弈問題需要固定一個策 略并且和對手博弈多次,或者與對手的仿真模型進行大量模擬博弈. 盡管獲勝頻率作為該策略獲勝 概率的無偏估計,可用于指導下一輪策略選擇,然而每一次策略的調整都源于多次博弈. 僅有每一 輪比賽的最終結果會被納入考慮,而博弈過程中的中間事件將被忽略. 如果對抗獲勝,就會認為這 次對抗中所有的動作都有功勞,而與每一步具體動作有多關鍵無關. 這些功勞甚至會被分配給那些 從未出現的動作. 因此,進化方法在面對多智能體長時間持續性對抗任務時能力略顯不足. 解決無人機集群對抗自主決策問題的另一種思路是利用強化學習方法 [10]. 強化學習是一種對 目標導向與決策問題進行理解并自動化處理的計算方法,它常用馬爾可夫決策過程建立數學模型, 已在解決智能決策方面體現出不俗能力和良好發展態勢,特別是在復雜動態博弈環境中. 強化學習 在智能體和環境交互的靈活性方面具備天然優勢 [11]. 強化學習利用智能體與環境的直接交互來學 習,不需要可仿效的監督信號和對周圍環境的完全建模,在解決持續性復雜決策任務時有較大優勢. 多智能體強化學習是強化學習的一個分支,其研究多個智能體在共享環境中相互作用,并通過智能 體的學習來實現其目標. 無人機集群屬于典型的多智能體系統,與單智能體強化學習相比,多智能 體強化學習的復雜度更高、更難以訓練:一方面隨著智能體數量的增加,相應的策略空間呈指數級 增加,其難度遠超圍棋等棋類游戲;另一方面隨著異構智能體的加入,多智能體間需要更高效和可 靠的通信、協作和配合. 近年來,隨著 AlphaGo [12]、AlphaGo Zero [13]、AlphaZero [14]、AlphaStar [15]、AlphaFold [16] 等深度強化學習 (Deep reinforcement learning, DRL) 方法的出現,深度強化學習已成為一個熱門 的研究方向. Deepmind 提出了基于值方法的深度 Q 網絡 (Deep Q-networks, DQN) [17],率先將 深度神經網絡與 Q-Learning 相結合,為深度強化學習的發展奠定了堅實基礎. 隨后產生了許多基于 DQN 的變種,如 Dueling DQN [18]、Double DQN [19] 等,并獲得了更好性能. 針對無人機集群博弈的復雜性和強化學習自身特點,一些學者應用強化學習對無人機集群博弈 進行了研究. Gong 等 [20] 針對多無人機協同空戰問題,建立了多無人機空戰環境. 提出了一種基于 網絡化分散的部分可觀測馬爾可夫決策過程 (NDec-POMDP) 的空戰協同策略框架,仿真結果驗證了所提協同空戰決策框架的可行性和有效性. 陳燦等 [21] 基于多智能體強化學習理論,建立多無人 機協同攻防演化模型,提出一種多無人機協同攻防自主決策方法,提高了多無人機攻防對抗的效能. Li 等 [22] 基于強化學習的演員-評論家框架,在無人機的演員網絡中引入門循環單元,使得無人機 能根據歷史決策信息做出合理決策,采用注意力機制來設計集中式的評論家網絡,并在無人機集群 空戰場景中對算法進行了驗證. Zhang 等 [23] 提出了一種基于注意力機制的深度強化學習分布式方 法,該方法設計了可用于無人機協作短程作戰任務的獎勵函數,并采用 Unity3D 無人機仿真平臺進 行了訓練. 但是,在多智能體強化學習環境中,如果團隊內部共同完成一個任務,則智能體會共享一個獎 勵函數,從而帶來多智能體的信用分配問題,即無法區分團隊中某個智能體的策略對整個團隊任務 的貢獻. 如果不考慮信用分配問題,則可能導致智能體學到的策略是局部最優 [24]. 雖然可以為每 個智能體設計單獨的獎勵函數,但這些單獨的獎勵在合作環境中并不普遍存在,也不能鼓勵單個智 能體為更大的團隊利益犧牲,這將在很大程度上阻礙多智能體在挑戰性任務中的學習效率. Foerster 等 [25] 提出了反事實多智能體策略梯度 (Counterfactual multi-agent policy gradient, COMA) 方法, 該方法利用反事實基線來減少估計方差,并解決了多智能體信用分配問題. 事實上,在無人機集群對抗博弈中,無人機集群內部往往需要協調和配合,以提高整體任務完 成率. 如何最大化無人機之間的協同,對信用進行合理分配,以獲得最優的無人機行為策略,仍是當 前需要面對的主要挑戰. 本文將 COMA 方法引入到具有無限連續狀態和動作的無人機作戰環境中, 基于無人機動力學和攻防態勢,設計符合實際環境的擊敵條件和獎勵函數,構建基于多智能體深度 強化學習的無人機集群對抗博弈模型. 紅藍雙方無人機采取不同的對抗博弈方法,利用多智能體粒 子群環境進行非對稱性對抗實驗,使用平均累積獎勵、平均命中率和平均勝率作為評價指標. 結果 表明平均累積獎勵能夠收斂到納什均衡,COMA 方法比其它流行的深度強化學習方法更具優越性, 對 COMA 方法收斂性和穩定性的驗證分析保證了其在無人機集群對抗任務上的實用性和魯棒性.
博弈論廣泛應用于軍事對抗和沖突事件建模。如何利用智能博弈相關技術與方法輔助決策是 認知智能領域的前沿課題。伴隨著人工智能技術的發展,特別是大型預訓練模型理論的推動,智能 博弈決策策略求解的一些新視角逐漸受到廣泛關注和探討。結合人工智能技術的發展與智能博弈決 策策略求解范式的轉變,以國際象棋(兩人零和完美信息博弈)、強權外交(多人一般和不完美信息 博弈)兩款桌面游戲,星際爭霸(多智能體馬爾可夫博弈)為序貫決策實證分析研究對象,依循人 工智能發展的新視角分析策略求解新范式、新方式,從決策大模型范式、生成式人工智能模型、大 模型智能體關鍵技術共 3 個方面探析智能博弈決策大模型關鍵技術,為新技術體制下智能博弈決策 問題的研究提供借鑒。
隨著人工智能、云原生、彈性通信等技術范 式的變革,博弈強對抗的多域戰場未來將朝著模 塊分散化、無人自主化、智能賦能化方向大步邁 進。近年來,美軍陸續提出了分布式作戰、聯合 全域作戰、馬賽克戰、決策中心戰等新型作戰概 念,為其未來的智能指控系統開發提供了藍圖引 領。基于“算力+算法+數據”三者的螺旋融合, 面向智能博弈求解的算法博弈論、強化學習、對 手建模、元學習、持續學習等方法被廣泛應用于 金融、經濟、交通等民用領域、指揮控制與決策 輔助等軍事領域。 面對巨復雜、高動態、不確定、強對抗環境, 智能博弈技術為探索認知決策博弈制勝機理提供 了有效工具。隨著人工智能技術的發展,近年來 各類不同的概念層出不窮,從“計算智能”—“感 知智能”—“認知智能”研究范式轉變、認知領 域“決策智能”、“博弈智能”[1]等概念細分,直 至橋接“計算智能”與“人工智能”的“算法智 能”[2],以 ChatGPT 為代表的“生成式智能”, 當前依賴“交互”習得智能的相關研究已然取得 了突破,但如何應對不確定環境、做出魯棒、安 全與自適應決策依然充滿挑戰。 本文采用實證分析視角切入,從國外兵棋推 演相關技術研究的聚焦點出發,根據智能博弈技 術研究進展,結合三類基準(國際象棋、強權外 交、星際爭霸)對當前三類典型博弈(完美信息 博弈、不完美信息博弈、馬爾可夫博弈)求解方 法進行了全面梳理,圍繞開放式博弈問題、根據 博弈策略求解范式轉變,分析了智能博弈決策大 模型相關支撐技術與智能體設計方式。
智能集群系統是人工智能的重要分支,所涌現出的智能形態被稱為集群智能,具有個體激發時的自組織性 和群體匯聚時的強魯棒性等特征.智能集群系統的協同決策過程是融合人-機-物,覆蓋多元空間,囊括感知-決策反饋-優化的復雜非線性問題,具有開放的決策模型和龐大的解空間.然而,傳統的算法依賴大量的知識與經驗,使 其難以支持系統的持續演化.強化學習是一類兼具感知決策的端到端方法,其通過試錯的方式不斷迭代優化,具有 強大的自主學習能力 .近些年來,受生物群體和人工智能的啟發,強化學習算法已由求解個體的決策問題,向優化 集群的聯合協同問題演進,為增強集群智能的匯聚和涌現注入了新動能.但是,強化學習在處理集群任務時面臨感 知環境時空敏感、群內個體高度自治、群間關系復雜多變、任務目標多維等挑戰 .本文立足于智能集群系統的協同 決策過程與強化學習運行機理,從聯合通信、協同決策、獎勵反饋與策略優化四個方面梳理了強化學習算法應對挑 戰的方法,論述了面向智能集群系統的強化學習算法的典型應用,列舉了相關開源平臺及其適用算法 .最后,從實 際需求出發,討論總結了今后的研究方向.//cjc.ict.ac.cn/online/onlinepaper/lll-20231210115504.pdf
無人集群博弈對抗是一種新興的作戰樣式,將在智能化戰爭扮演著至關重要的作用,其核心 是自主生成博弈對抗決策序列,為集群“賦能”。首先,分析了無人集群博弈對抗系統仿真驗證的 進展;其次,從基于專家系統和博弈論的技術、基于群體智能和優化理論的技術以及基于神經網絡 和強化學習的技術三個方面論述了自主決策關鍵技術,以及課題組在自主決策上開展的相關工作;最后,提出了無人集群博弈對抗的發展方向。 從納卡沖突、俄烏戰爭等現代化戰爭來看,無 人機在偵察情報、對地攻擊、斬首行動等作戰行動 中發揮著重要作用。可以預見,未來高自主無人機、 無人前置射手、無人前置傳感器等多類型無人節點 組成的無人集群將有潛力成為主戰武器,無人集群博弈對抗這種新興的作戰樣式,將在智能化戰爭扮 演著至關重要的作用,深刻影響著未來戰爭的發展 走向[1-4]。無人集群是一種戰術、技術、裝備高度融合的 作戰體系,無人集群體系作戰通過開放式體系架 構,對體系內節點實施“積木式”編組,實時塑造 態勢,實時構造殺傷網,快速閉合最優殺傷鏈,從 而奪取決策行動優勢。從上述制勝機理來看,無人 集群博弈對抗相較于單機對抗,主要區別在于作戰 思想由“平臺中心”向“體系中心”轉變,作戰結 構由“殺傷鏈”向“殺傷網”轉變[5-6],核心在于 “破體系”,關鍵在于智能自主決策,發展自主決 策關鍵技術能夠有效提升無人集群博弈對抗體系 作戰能力。系統仿真驗證是推動無人集群博弈對抗從構 想到現實的重要環節,通過設定多樣化作戰想定和 任務,在不同輸入條件和參數下,測試博弈對抗算 法的有效性和適應性。為推動無人集群從試驗驗證 向實戰運用發展,亟需開展自主智能決策技術軟/ 硬件在環仿真推演,減小“人在回路”影響,通過 采集大量博弈對抗數據,反饋算法模型迭代升級, 進而驗證并提升無人集群博弈對抗能力。本文從博弈對抗決策系統仿真驗證研究進展 入手,分析了國內外在系統仿真驗證方面的進展, 重點從知識、優化和學習三個角度論述了無人集群 自主智能決策關鍵技術以及課題組相關工作,最后 提出了無人集群博弈對抗發展方向。
智能博弈是認知決策智能領域的挑戰性問題, 是輔助聯合作戰籌劃與智能任務規劃的關鍵支撐. 從協作式團隊博弈、競爭式零和博弈和混合式一般和博弈共3 個角度梳理了智能博弈模型, 從認知角度出發定義了運籌型博弈(完全/ 有限理性)、不確定型博弈(經驗/知識)、涌現探索型博弈(直覺+ 靈感)、群體交互型博弈(協同演化)共4 類智能博弈認知模型, 從問題可信任解、策略訓練平臺、問題求解范式共3 個視角給出智能博弈求解方案. 基于Transformer 架構重點梳理了架構增強(表示學習、網絡組合、模型擴展)與序列建模(離線預訓練、在線適變、模型擴展)共2 大類6 小類決策Transformer 方法, 相關研究為開展“離線預訓練+ 在線適變”范式下滿足多主體、多任務、多模態及虛實遷移等應用場景的決策預訓練模型構建提供了初始參考. 為智能博弈領域的決策基石模型相關研究提供可行借鑒.
博弈一詞的英文單詞為 Game, 英文直譯為游戲, 早年國內譯為對策、賽局. 博弈問題的研究本質是通 過將除己方外其他參與方的行為策略考慮在內制定 己方對策過程. 未來軍事對抗具有環境高復雜、信息 不完整、博弈強對抗、響應高實時、自主無人化等突 出特征, 無人集群自主協同、作戰仿真推演和智能任 務規劃等挑戰課題都亟需智能博弈相關技術的支撐. 協作與競爭是雙生體, 廣泛存在于認知決策博弈領 域. 博弈智能是認知智能的高階表現形式. 近年來, 借助各類計算機博弈平臺, 面向智能博弈(intelligent gaming)的相關人工智能技術得到迅猛發展. 智能博 弈本質是指協作、競爭或對抗場景下, 利用博弈理論 分析問題、智能方法求解應對策略的過程. 人機對抗 (human computer gaming)作為圖靈測試的典型范式, 是測試人工智能(artificial intelligence, AI)技術程序 的主要手段和基準[1] , 是智能博弈的重要表現形式. 智 能博弈作為智能指揮與控制領域研究決策智能的基 準挑戰, 是當前研究決策大模型的試驗場和果蠅. 當 前圍繞智能博弈問題的求解, 已然傳統的“知識與搜 索”、“博弈學習”范式過渡到“模型與適應”范式, 其 中, 包括面向小模型的“預訓練+微調”和面向大模型 的“基石模型+情境學習”.
圍繞人類認知能力的認知建模技術已然成為 AI 領域的前沿課題. 近年來, 隨著 AI 技術的發展和 GPU 性能的逐年翻倍, AI 大模型/基石模型[2]在視覺 與語言智能計算、智能博弈領域取得了快速發展. 基 于大模型的 AI 生成內容(AI-generated context, AIGC) 技術未來將成為一種基礎設施, AI 生成行動 (AIgenerated action, AIGA)相關技術(行為生成、模型生 成)為決策問題求解提供了可行方案. 伴隨著 2022年 年末 ChatGPT 的出現, 各類基石的出現已然引發了 AI 各賽道里的“軍備競賽”, 但一般的語言能力無法 完全匹配決策需要的推理能力, 如何構建“決策基石 模型”已然成為當前 AI 與智能決策領域的前沿問題. Transformer 作為一種利用注意力機制來完成序 列到序列變換的表示學習模型, 利用此類模型構建 智能博弈問題的決策策略求解方法是熱門研究方向. 基于 Transformer 的表示學習方法[3]和序列建模方法[4] 及多模態融合學習方法[5]引發了各大領域(自然語言 處理、計算機視覺、語音與視頻、智能博弈決策)的 持續關注. LI 等[6]從表示學習、模型學習、序貫決策 和通才智能體 4 個角度對基于 Transformer 的強化學 習方法進行了綜述分析. HU 等[7]從架構增強(特征表 示、環境表示), 軌跡優化(條件行為克隆、經典強化 學習、預訓練、泛化性)和典型應用(機器人操控、文 字游戲、導航、自動駕駛) 共 3 大類對基于 Trans原 former 的強化學習方法進行了總結對比分析. 當前圍 繞決策 Transformer 的方法可分為 3 大類:直接利用 大語言模型類(百科、視頻、互聯網知識)、基于框架 變換的表示及模型學習類 (表示學習、環境學習)、 基于決策問題重構的條件生成類(序列建模、行為生 成、世界模型生成). 如何為規劃與決策領域的智能博弈問題設計新 型求解框架仍充滿挑戰. 本文圍繞智能博弈問題展開, 梳理各類問題的博弈模型, 創新性構建智能博弈認知 模型, 探索性給出智能博弈問題的求解范式;重點梳 理面向智能博弈問題求解的決策 Transformer 方法
對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。
引言
人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。
1 多智能體博弈對抗
近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。
1.1 多智能體模型
在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。
當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。
1.2 非平穩問題
多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。
2 對手建模
合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。
**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。
近年來,由于互聯網的高速發展和大數據時代的來臨,人工智能隨之大熱,而推動人工智能迅猛發展的正是深度學習的崛起。大數據時代需要迫切解決的問題是如何將極為復雜繁多的數據進行有效的分析使用,進而充分挖掘利用數據的價值并造福人類。深度學習作為一種實現機器學習的技術,正是解決這一問題的重要法寶,它在處理數據過程中發揮著重要作用并且改變了傳統的機器學習方法,已被廣泛應用于語音識別、圖像識別和自然語言處理等研究領域。如何有效加速深度學習的計算能力一直是科研研究的重點。FPGA憑借其強大的并行計算能力和低功耗等優勢成為GPU在加速深度學習領域的有力競爭者。從深度學習的幾種典型模型出發,在FPGA加速技術現有特點的基礎上從針對神經網絡模型的加速器、針對具體問題的加速器、針對優化策略的加速器和針對硬件模板的加速器四方面概括總結了FPGA加速深度學習的研究現狀,然后對比了不同加速技術和模型的性能,最后對未來可能發展的方向進行了展望。