智能博弈是認知決策智能領域的挑戰性問題, 是輔助聯合作戰籌劃與智能任務規劃的關鍵支撐. 從協作式團隊博弈、競爭式零和博弈和混合式一般和博弈共3 個角度梳理了智能博弈模型, 從認知角度出發定義了運籌型博弈(完全/ 有限理性)、不確定型博弈(經驗/知識)、涌現探索型博弈(直覺+ 靈感)、群體交互型博弈(協同演化)共4 類智能博弈認知模型, 從問題可信任解、策略訓練平臺、問題求解范式共3 個視角給出智能博弈求解方案. 基于Transformer 架構重點梳理了架構增強(表示學習、網絡組合、模型擴展)與序列建模(離線預訓練、在線適變、模型擴展)共2 大類6 小類決策Transformer 方法, 相關研究為開展“離線預訓練+ 在線適變”范式下滿足多主體、多任務、多模態及虛實遷移等應用場景的決策預訓練模型構建提供了初始參考. 為智能博弈領域的決策基石模型相關研究提供可行借鑒.
博弈一詞的英文單詞為 Game, 英文直譯為游戲, 早年國內譯為對策、賽局. 博弈問題的研究本質是通 過將除己方外其他參與方的行為策略考慮在內制定 己方對策過程. 未來軍事對抗具有環境高復雜、信息 不完整、博弈強對抗、響應高實時、自主無人化等突 出特征, 無人集群自主協同、作戰仿真推演和智能任 務規劃等挑戰課題都亟需智能博弈相關技術的支撐. 協作與競爭是雙生體, 廣泛存在于認知決策博弈領 域. 博弈智能是認知智能的高階表現形式. 近年來, 借助各類計算機博弈平臺, 面向智能博弈(intelligent gaming)的相關人工智能技術得到迅猛發展. 智能博 弈本質是指協作、競爭或對抗場景下, 利用博弈理論 分析問題、智能方法求解應對策略的過程. 人機對抗 (human computer gaming)作為圖靈測試的典型范式, 是測試人工智能(artificial intelligence, AI)技術程序 的主要手段和基準[1] , 是智能博弈的重要表現形式. 智 能博弈作為智能指揮與控制領域研究決策智能的基 準挑戰, 是當前研究決策大模型的試驗場和果蠅. 當 前圍繞智能博弈問題的求解, 已然傳統的“知識與搜 索”、“博弈學習”范式過渡到“模型與適應”范式, 其 中, 包括面向小模型的“預訓練+微調”和面向大模型 的“基石模型+情境學習”.
圍繞人類認知能力的認知建模技術已然成為 AI 領域的前沿課題. 近年來, 隨著 AI 技術的發展和 GPU 性能的逐年翻倍, AI 大模型/基石模型[2]在視覺 與語言智能計算、智能博弈領域取得了快速發展. 基 于大模型的 AI 生成內容(AI-generated context, AIGC) 技術未來將成為一種基礎設施, AI 生成行動 (AIgenerated action, AIGA)相關技術(行為生成、模型生 成)為決策問題求解提供了可行方案. 伴隨著 2022年 年末 ChatGPT 的出現, 各類基石的出現已然引發了 AI 各賽道里的“軍備競賽”, 但一般的語言能力無法 完全匹配決策需要的推理能力, 如何構建“決策基石 模型”已然成為當前 AI 與智能決策領域的前沿問題. Transformer 作為一種利用注意力機制來完成序 列到序列變換的表示學習模型, 利用此類模型構建 智能博弈問題的決策策略求解方法是熱門研究方向. 基于 Transformer 的表示學習方法[3]和序列建模方法[4] 及多模態融合學習方法[5]引發了各大領域(自然語言 處理、計算機視覺、語音與視頻、智能博弈決策)的 持續關注. LI 等[6]從表示學習、模型學習、序貫決策 和通才智能體 4 個角度對基于 Transformer 的強化學 習方法進行了綜述分析. HU 等[7]從架構增強(特征表 示、環境表示), 軌跡優化(條件行為克隆、經典強化 學習、預訓練、泛化性)和典型應用(機器人操控、文 字游戲、導航、自動駕駛) 共 3 大類對基于 Trans原 former 的強化學習方法進行了總結對比分析. 當前圍 繞決策 Transformer 的方法可分為 3 大類:直接利用 大語言模型類(百科、視頻、互聯網知識)、基于框架 變換的表示及模型學習類 (表示學習、環境學習)、 基于決策問題重構的條件生成類(序列建模、行為生 成、世界模型生成). 如何為規劃與決策領域的智能博弈問題設計新 型求解框架仍充滿挑戰. 本文圍繞智能博弈問題展開, 梳理各類問題的博弈模型, 創新性構建智能博弈認知 模型, 探索性給出智能博弈問題的求解范式;重點梳 理面向智能博弈問題求解的決策 Transformer 方法
為利用智能技術解決現代戰爭中的意圖判斷、威脅評估與指揮控制, 提高軍事決策水平, 將軍事問題轉化為博弈問題, 綜 合利用博弈論和人工智能(artificial intelligence, AI)技術尋求策略均衡解. 通過深入剖析游戲智能博弈的最新進展, 梳理美軍人工 智能軍事應用項目研究情況, 總結常用智能方法的優缺點, 分析軍事博弈面臨的挑戰及應對措施, 為突破復雜戰場環境下高動態 不確定的軍事智能決策問題提供借鑒.
現代戰爭無疑是一場激烈博弈, 隨著信息化程 度不斷提高, 作戰空間由物理域、信息域向認知域拓 展[1] , 快變的戰場態勢、緊湊的作戰節奏以及跨域軍事力量運用對作戰指揮的時效性和精確性提出了更 高要求. 敵方意圖判斷、行動威脅評估、指揮決策與 控制的難度不斷增加, 迫切需要利用智能技術延伸 人腦, 以提高軍事決策的自動化和自主化水平, 決策 智能成為軍事領域研究熱點之一. 近年來, 諸多游戲博弈系統在邊界和規則確定 的對抗中取得了顯著成績, 不僅極大推動了認知智 能發展, 更為軍事決策智能研究指明了探索方向[2] . 智能博弈也稱為機器博弈 (computer game), 主要研 究如何讓機器像人一樣在競爭環境下進行對抗, 屬 于認知智能范疇. 眾多知名學者很早便開始涉足該 領域研究, 如馮·諾依曼、香農、圖靈和塞繆等[3] . 隨著 計算機硬件不斷升級, 智能博弈理論和技術迅猛發 展. IBM 于 1997 年開發“深藍(deep blue)”系統, 以 絕對優勢戰勝了卡斯帕羅夫, 成為智能博弈系統“叫 板”人類的歷史性里程碑[4] . Deep Mind 于 2016 年至 2017 年相繼推出圍棋 AlphaGo 系列 AI 系統, 成功解 決了有限狀態零和完全信息兩人博弈問題[5-7];美國 卡耐基梅隆大學分別于 2017 年和 2019 年開發了 Li原 bratus 系統和 Pluribus 系統[8-9] , 突破了多人游戲智能 博弈的壁壘. 繼以圍棋、德州撲克等序貫博弈之后, 以實時策略游戲為代表的同步博弈問題成為新的 研究熱點, Deep Mind 在 2019 年公布的 AlphaStar 系 統的底層技術[10] , 對未來開發具有安全性、魯棒性和 實用性的通用 AI 系統具有重要意義. 然而軍事對抗 不同于游戲博弈, 兩者存在顯著區別[11] , 難以直接借 鑒應用.
本文闡述了軍事智能博弈的概念及應用前景, 提出在博弈論框架下利用 AI 技術應尋找策略均衡 解, 而非傳統求解最優解. 通過比較完全信息、不完 全信息和即時戰略類游戲的特點, 深入剖析不同智 能博弈技術框架的原理, 梳理美軍智能決策項目的 最新發展情況, 而后根據戰爭復雜性特征, 分析軍事 博弈面臨的主要困難以及智能技術軍事應用的挑戰. 有助于把握智能博弈最新進展, 為軍事決策智能發展儲備必要的理論與技術, 進而為利用 AI 技術突破 復雜戰場環境下高動態不確定的決策問題提供借鑒.
1 軍事智能博弈
軍事智能博弈(military intelligence game, MIG), 是指將軍事問題轉化為博弈問題, 綜合利用博弈論 (game theory)和 AI 技術尋求軍事對抗中的策略均衡 解. 博弈論為解決軍事問題提供了理論框架, AI 技術 為策略求解提供了高效方法. 隨著智能理論與技術 的迅猛發展, 博弈論和 AI 技術在現實應用中結合的 更加緊密, 為突破軍事決策智能發展瓶頸提供了新 思路. 軍事智能博弈具有廣闊的應用場景, 如圖 1 所 示. 利用智能博弈技術構建虛擬藍軍, 為作戰方案分 析、武器裝備檢驗和人員技能訓練提供逼真的作戰 對手, 可獲得更好的客觀真實性;智能博弈系統可充 當“決策大腦”或“智能參謀”, 面向動態戰場環境快 速生成博弈策略, 輔助指揮員開展對抗推演, 并在訓 練中與人類共同學習, 不斷提升指揮決策能力;構建 智能博弈對抗平臺, 作戰模擬仿真系統雖然大大降 低了實兵對抗訓練組織難、消耗大的弊端, 但大規模 聯合作戰推演仍需上百人員協作, 智能博弈平臺上 雙方“智能體”自主對抗, 不僅能對作戰方案進行快 速驗證, 還能通過分析智能體行為發現新戰法.
軍事智能博弈主要有兩大研究內容:一是軍事博 弈規則構建. 局中人為最大化自身利益進行決策, 不 同的規則設計將會導致策略選擇的不同, 如何設計 博弈規則以使最終均衡解達到整體利益最大化成為 首要問題. 二是博弈策略求解, 博弈論提供了問題建模 框架, 納什定理證明了均衡解的存在性, 但現實問題 的求解通常面臨狀態決策空間大、信息不完備等問 題, 如何利用高效算法搜索最優策略成為關鍵問題.
2 智能博弈研究現狀
梳理游戲智能博弈最新成果和美軍智能決策項 目發展情況, 深入剖析所用理論方法和技術框架, 有 助于把握領域的研究進展和方向.
2.1 游戲智能博弈研究
研究人員一直熱衷于將游戲作為測試和評估 AI 算法的平臺, 從最初的 Atari 游戲到后來的圍棋、德 州撲克和星際爭霸等, 人類攻克了越來越復雜的游 戲堡壘, 其技術方法為解決現實問題和實現通用人 工智能奠定了基礎.
2.1.1 完全信息博弈游戲
完全信息博弈中, 局中人可獲取即時完整的決 策信息, 雙方行動有先后順序, 并能在有限步后得到 結果, 是研究成果最顯著的領域, 如圍棋、國際象棋. 該類問題通常采用博弈樹搜素算法, 將博弈過程轉 化為樹的擴展過程. 博弈樹的根節點為初始狀態, 子 節點表示在根節點選擇動作后達到的新狀態(state), 從一個節點通向其他節點的邊表示動作(action), 通 過評估葉節點來判斷博弈結果. 樹中每一層代表了 雙方的狀態, 同層中的所有邊為局中人在狀態下所 有可選動作, 局中人在不同層間交替執行動作, 允許 一次執行若干動作但只看作是一個動作. 博弈目的 就是尋找博弈樹根節點的最優子節點, 而通往最優 子節點的動作即為最優動作.
2.1.2 不完全信息博弈游戲
不完全信息博弈中, 局中人行動順序雖有先后, 但無法完全獲取其他局中人的特征、收益及策略空 間等決策信息, 如德州撲克、麻將等. 不完全信息博 弈更符合現實場景, 但求解納什均衡解的復雜度和 難度也更大. 由于信息的非完備性和局勢的動態變 化, 需對其他局中人的未知信息進行推理和猜測, 同 一狀態下采取的行動可能有多種, 甚至可以利用信 息迷霧進行欺騙, 通常需要根據局勢縮小博弈搜索 空間, 如圖 4 所示.
2.1.3 即時戰略博弈
即時戰略游戲(real time strategy, RTS)具有以下 特點:局中人需同時決策是否采取行動以及采取何 種行動, 而非輪流決策;局中人需在短時間內進行一 系列決策并付諸實施, 以滿足實時對抗要求, 而動作 可能需要持續一段時間, 完全不同于棋牌類游戲“決策的交替性和間斷性、動作的瞬時性和突發性”;游 戲中存在各種功能角色, 如何發揮各角色作用和協 作效果, 是制定最優策略的關鍵問題;游戲中多角色 多任務、高度不確定性和不完備不完美信息等問題, 導致狀態空間規模和決策可選動作十分巨大;由于 無法準確預測對手行為, 游戲并不存在理論上的最 優解. 因此, RTS 游戲研究對解決具有實時對抗、長 遠規劃、多角色多任務和信息不完備不完美等特點 的問題更具借鑒意義, 如軍事決策、應急規劃等.
2.2 美軍智能博弈系統應用及進展
美軍早已預見智能技術在軍事領域的應用前景,力求在“第三次抵消戰略”中憑借智能技術形成絕對 軍事優勢. 美軍提出“馬賽克戰”概念, 希望構建一個 具有超強適應能力的彈性殺傷網絡, 實現要素的快 速聚合與分解, 重塑在大國博弈中的競爭力[20] . 智能博 弈技術, 必將成為未來智能化戰爭條件下進行指揮 決策的基礎.
3 智能博弈技術的軍事應用展望
3.1 軍事博弈面臨的困難
戰爭具有非線性和不確定性, 軍事博弈是一個 典型的面向不完美不完備信息的序貫決策和同步博 弈問題, 必須兼顧宏觀策略規劃和微觀戰術選擇, 平 衡短期利益、長期目標以及意外情況處置能力. 現有 智能博弈技術難以直接利用, 主要因為軍事博弈具 有以下突出特點。
3.1.1 戰爭充滿“迷霧”和不確定性
在完全信息博弈中, 雙方可以完全掌握棋局狀 態, 即使是在德州撲克等非完全信息博弈中, 未知的 牌局信息也只發生在一定概率區間內, 通過多輪博 弈可進行概率判斷. 而在真實戰場中, 由于預警范圍 和偵察注意力受限, 只能從戰場環境中獲取部分信 息, 而且敵方行動策略和作戰企圖無法完全知曉, 基 于部分可觀察的態勢估計是不可回避的. 指揮員需 要在一個非完全信息環境下進行決策, 必須具備高 效準確的偵察、探索、記憶和推測能力, 信息的缺失 導致以求解局部最優來獲取全局最優的方式無法完 成策略回溯. 戰場各類偵察系統獲取的信息可能是隨機模糊 的, 敵我雙方為隱藏企圖而采取各種欺騙行為和佯 裝動作, 導致獲取的信息不一定準確, 產生“信息獲 取的不確定性”;信息在各層級傳播和融合過程中, 會出現衰減、丟失和出錯等現象, 產生“信息融合的 不確定性”;事物的描述和表示會因知識表示方法不 同而不同, 產生“知識表示的不確定性”;利用證據信 息與軍事知識進行戰場態勢和敵方策略行動推理時, 不同的推理算法會產生不同的估計結果, 產生“推理 結果的不確定性”. 戰爭信息的高度不確定性, 導致 基于先驗知識推理未知領域的方式難以奏效.
3.1.2 軍事博弈對抗激烈、連續且非零和
戰爭博弈日趨激烈. 無論戰前還是戰中, 博弈發 生在時時刻刻、方方面面, 雙方意圖互為對抗且此消 彼長. 戰爭節奏緊張, 戰場態勢劇變, 雙方需要更快速 更準確地進行決策. 決策過程不僅要考慮作戰目的和 戰場態勢, 還要持續判斷敵方可能采取的戰法和行 動, 更需要在交戰過程中反復迭代更新策略, 以掌握 戰爭主動權. 為保證自身方案計劃順利實施, 達成“出 其不意攻其不備”的效果, 還要巧妙地利用佯裝行動 誘騙敵方;相反, 為避免被敵方牽著鼻子走, 也需通過 有效的信息推理來識別和預測敵方的真實意圖. 軍事決策是動態連續的. 與棋牌類游戲的輪次 博弈不同, 戰爭態勢連續演進, 交戰雙方決策無順序 約束, 任何時刻既要決策是否采取行動, 還需決策采 取哪些行動, 決策的速度和準確度共同決定了指揮 效率. 從理論上講, 可將動態連續決策過程離散為更 精細的時間片段, 而后采用輪次博弈的靜態解決方 法. 但戰爭系統具有整體性和不確定性, 以離散方式 進行抽象建模, 必然需要解決時間尺度、模型精確度 和問題求解復雜度三者之間的關系. 軍事博弈具有典型的“非零和”特性. 戰爭開始 及結束時機, 需要綜合考慮政治意圖、戰略目的、敵 我能力變化和國際環境等, 以實現國家利益最大化. 達成國家利益最大化時, 有可能是雙方軍事作戰在 某一階段的“雙輸”“/ 雙贏”局勢, 也可能是在實現政 治、經濟等目的后的“僵持”局勢. 這種模糊、復雜、 稀疏及非零和的博弈收益, 無法依靠單一指標的價 值網絡來評價。
3.1.3 策略空間巨大且難以達成均衡解
軍事博弈具有異常龐大的狀態策略空間, 難以 依靠遍歷求解或模擬仿真等傳統方法進行求解. 指 揮員每次決策都會涉及任務類型、執行單位、空間 和時間的選擇, 不同作戰單位和作戰行動之間的時 間協同、效果協同和任務協同進一步增大了策略空 間. 棋牌類游戲的狀態空間復雜度均是有限的, 星際 爭霸游戲的狀態空間仍在現有算法算力解決范圍內. 而解決擁有巨大狀態策略空間的軍事博弈問題, 不 僅對構建戰爭抽象模型提出了挑戰, 更對軟硬件運 算能力提出了要求. 軍事博弈策略求解面臨三大難題. 一是多方博 弈增大了達成納什均衡的難度. 在當今全球一體化 現狀下, 各國在政治、經濟、文化和軍事等多方面密 切相連, 戰爭不僅僅是兩國之事, 更多情況下會涉及多國利益. 在多方博弈問題中, 納什均衡求解的復雜 度隨著局中人數量的增加呈指數上升. 二是多軍兵 種參戰增加了協同難度. 作戰力量多元化是聯合作 戰一大特征, 不同領域作戰力量的合理利用和協同 互補是擬制作戰方案計劃的重要內容, 這也是實現 決策智能無法回避的內容. 三是不存在最優策略能 穩定勝過其他策略. 在策略學習與探索過程中, 策略 之間相互克制和歷史遺忘的特性十分明顯, 單純采 用自博弈訓練方式, 可能會陷入在不同策略間游移 但水平停滯不前的境地. 由于難以推理敵方策略行 動, 需要在不同子博弈之間尋找平衡. 戰爭規則的多樣性、創新性和復雜性, 進一步增 大了狀態策略空間的規模和納什均衡的求解難度. 戰爭參與者都試圖通過作戰行動來達成作戰目的, 策略會因戰場態勢的不斷更新而時刻變化, 出奇制 勝和另辟蹊徑的戰法創新為各方所推崇追尋. 面對 同一戰場態勢, 各方可能采取不同的響應動作, 而指 揮員的決策風格也不盡相同.
3.1.4 面向任務使命的長程規劃難以實現
現代作戰已從傳統的由外及內逐層消滅敵人的 線性作戰, 轉變為集中全域力量進行全縱深整體打 擊的非線性作戰. 戰爭事件因果關系復雜, 通常難以 在短時間內呈現, 作戰行動的執行效果可能在長時 間后才會有所體現. 方案計劃的制定要始終圍繞使 命任務進行主動籌劃和戰爭設計, 研究作戰行動與 作戰效果之間的非線性關系. 這種長遠且全局的規劃視野, 體現了人類指揮 員的指揮藝術和大局觀. 美軍率先提出基于效果作 戰(effect based operation, EBO)概念, 通過逆向規 劃將目標分解為具體預期效果. EBO 理論從邏輯上 講難以實現, 因為在不確定環境中無法確定某一行 動的結果, 同時也忽視了對抗性這一戰爭本質[23] . 中 外學者通常使用影響網進行研究, 結合博弈論實 現對抗條件下作戰方案計劃的生成[24] . 強化學習天生 具有“行動-效果”的探索能力, 為解決 EBO 提供了新 思路. 長程規劃應能夠體現戰爭設計的前瞻性、各領 域各層級的協同性以及指揮藝術性. 一是主動籌劃 行動以掌握戰場主動權, 瞄準作戰目的, 確保作戰進 程朝著終止態勢發展而不“走偏”, 優先完成“觀察判斷-決策-行動”循環;二是適應性調整方案以應對 戰場中的不確定干擾, 確保己方作戰過程持續進行 而不會“中斷”, 具有較強的學習能力和泛化性. 為此, 策略學習應具有記憶功能, 以判斷什么樣的行動產 生了好的效果、什么樣的策略更具有獲勝的可能性. 正如 AlphaStar 使用長短時記憶網絡捕捉歷史信息, 構建虛擬競技場保持策略穩定, 并采用持續強化學 習實現策略不斷更新進化.
3.2 智能博弈應用展望
3.2.1 基于知識規則的智能技術
知識來源于實踐, 人類在解決問題時更傾向于 遵循成熟規則. 機器還難以模仿人類大腦的復雜學 習能力, 智能博弈水平需要漫長的成長過程. 傳統基 于知識的專家系統, 利用人類經驗和專家知識, 便可 解決各領域復雜問題. 在深度學習盛行之后, 基于知 識規則的智能技術依舊取得了不凡成績. 例如, 東京 大學日麻 AI 系統利用 9.6 萬多條規則進行監督學習, 達到了專業六段水平;韓國三星的 SAIDA 系統完全 憑借職業玩家總結的規則知識, 在 2018 年 IEEE 舉 辦的星際爭霸比賽中獲得第一. 即便是融合了深層 神經網絡的 AlphaGo 和 AlphaStar, 依然需要在預訓 練中使用大量人類對局數據進行模仿學習. 雖然 AlphaZero 和 Muzero 能夠完全通過自主學 習實現成長[25] , 但圍棋游戲與戰爭對抗存在天壤之 別, 難以直接應用于軍事領域. 強化學習算法還難以 實現從基本策略中總結出高層策略, 現有的條令條 例、規劃流程、作戰規則等大量知識可轉化為知識 網絡以引導 AI 系統決策.
3.2.2 人機融合實現決策智能
戰爭的非透明性和不確定性, 使得作戰籌劃及 指揮控制過程極其復雜, 單純依靠人類大腦難以滿 足決策速度和精度要求, 而完全依賴機器又難以滿 足決策的可解釋性. 人機融合決策具有兩個明顯特 性, 如圖 10 所示. 一是層次性, 指揮決策具有科學性 和藝術性, 科學性隨指揮層次提升而降低, 藝術性與 之相反. 低層級指揮決策可采用傳統運籌學、貝葉斯 網絡、機器學習等科學方法, 這是實現決策智能的基 礎;中間層級指揮決策采用不同程度的人機協作決 策, 重點研究人機協作的時機、場合和方式等;而高 層級指揮決策需要由指揮員及參謀機構擬制. 二是 交替性, 傳統的 OODA 環已轉化為具有學習機制的 OODA 螺旋[11] , 指揮決策成為一個滾動迭代、不斷優 化的過程. 人與機器在各環節都有擅長與不足之處, 例如:態勢理解環節, 機器善于處理海量數據、提取 態勢特征和簡單戰斗戰術級態勢理解, 人來負責復 雜戰術戰役級態勢理解及意圖判斷;行動決策環節, 機器善于快速運籌計算和基于數據挖掘關聯關系, 人來負責基于因果關系進行非即時反饋決策. 在 OODA 循環中, 人與機器交替進行智能決策, 并推進 其螺旋上升.
3.2.3 混合技術突破軍事智能瓶頸
軍事博弈的復雜性決定了需要依靠多種技術手 段, AlphaStar 結合了神經網絡、多智能體、強化學 習、模仿學習、聯盟機制以及各種網絡結構和參數 的巧妙設計, 才實現了最終效果. ONTANON 等總結 了多智能體 RTS 游戲的難點及應對措施[26] , 為軍事 智能博弈研究發展提供了很好借鑒. 如圖 11 所示, 軍事智能博弈需重點關注以下幾點: 1)任務分解. 采用分層任務網絡、影響網絡和 影響圖等技術, 將戰役任務按時間、因果和邏輯等關 系進行分解, 降低整體求解難度. 2)策略分層. 模擬人類思維流程進行分層決策 和多尺度規劃, 上層策略為下層規劃目標, 而下層策 略的執行支撐了上層策略, 如高層策略關注戰役全 局問題、底層策略聚焦短期利益、即時策略控制反 應式動作. 3)規劃方法. 靈活運用多種規劃方法:低層次局 部任務規劃與高層次全局作戰規劃的一致性耦合;復 雜多目標問題求解的優化與效率的均衡;在理論和技 術條件下, 若能基于知識規則進行規劃, 則應避免使 用強化學習. 4)策略學習. 一是基于歷史或仿真數據的策略 模仿學習, 解決復雜問題從零學習的困境;二是基于 聯盟機制的策略持續學習, 解決策略持續優化、避免 陷入死循環的困境;三是基于通用 AI 技術的策略遷 移學習, 解決知識經驗和學習機制在不同場景下的 共享問題. 5)不確定性推理. 針對戰場信息不完全性增加 偵察策略, 構建預測模型對戰場態勢、敵方意圖及行 動策略進行推理;針對廣闊戰場空間和作戰單位功能 各異, 需要合理安排力量跨域作戰、資源空間轉移和 行動空間協同等問題, 進行空間不確定性推理;針對 戰爭非即時反饋特點, 既需要解決當前危機, 又要長 遠地規劃資源利用和策略轉換等問題, 進行時間不 確定推理. 6)知識圖譜. 以圖譜形式組織軍事領域知識, 構 建基礎知識圖譜;基于歷史數據及專家經驗, 構建敵 方意圖圖譜;針對不同決策場景, 結合指揮員經驗總 結, 構建我方行動推薦圖譜.
**3.2.4 對抗博弈用于強化訓練和戰法研究 **
戰爭謀略是長期作戰實踐的經驗總結. 通過對 抗博弈, 機器學習人類已有經驗知識, 人類從機器行 為表現中得到啟發, 實現人類決策能力與機器智能 水平的共同提升. 以戰役級計算機兵棋系統為訓練 平臺, 基于敵軍戰法規則構建智能對手, 通過人機博 弈對抗進行戰法研究和方案檢驗, 持續提升指揮員 的決策能力和戰場大局觀. 借鑒 AlphaStar 的虛擬競 技場思路, 通過機器自博弈探索不同行動方案并進 行評估, 從而克服指揮員傳統思維禁錮, 尋找好招、 奇招與妙招. 面向未來無人作戰領域, 大力發展多智 能體博弈策略生成的關鍵技術[27] .
4 結論
通過梳理經典智能博弈理論方法和軍事博弈特 征, 得出以下結論:1)軍事博弈與游戲存在顯著區 別, 戰爭注重指揮藝術性和決策科學性的結合, 強調 戰爭設計和“運籌帷幄”;2)軍事博弈更加強調面向 戰役使命進行長遠規劃, 而非游戲的反應式規劃, 必 須兼顧宏觀策略規劃和微觀戰術選擇;3)軍事博弈 問題規模遠遠大于游戲場景, 種種不確定性因素和 動態連續的激烈對抗, 增大了均衡策略的求解難度. 因此, 智能博弈相關技術方法還難以完全用于解決 戰爭問題. 面對復雜的戰爭系統, 長期積累的軍事知 識和作戰經驗能夠引導機器減少盲目搜索, 并避免 犯下違背軍事常識的錯誤;人機交互式決策在保證速 度和精度的同時, 還可通過“人在回路”提高決策的 適應性;如何利用已有技術手段解決現有復雜問題, 聚焦于智能技術混合使用方式, 是亟需研究的內容.
深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。
如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。
模仿學習是強化學習與監督學習的結合,目標是通過觀察專家演示,學習專家策略,從而加速強化學習。通過引入 任務相關的額外信息,模仿學習相較于強化學習,可以更快地實現策略優化,為緩解低樣本效率問題提供了解決方案。近年 來,模仿學習已成為解決強化學習問題的一種流行框架,涌現出多種提高學習性能的算法和技術。通過與圖形圖像學的最新 研究成果相結合,模仿學習已經在游戲 AI (artificial intelligence)、機器人控制、自動駕駛等領域發揮了重要作用。**本綜述圍 繞模仿學習的年度發展,從行為克隆、逆強化學習、對抗式模仿學習、基于觀察量的模仿學習和跨領域模仿學習等多個角度 進行了深入探討。**綜述介紹了模仿學習在實際應用上的最新情況,比較了國內外研究現狀,并展望了該領域未來的發展方向。 報告旨在為研究人員和從業人員提供模仿學習的最新進展,從而為開展工作提供參考與便利。//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202301140000005&journal_id=jig
1. 引言
深度強化學習(deep reinforcement learning,DRL) 有著樣本效率低的問題,通常情況下,智能體為了 解決一個并不復雜的任務,需要遠遠超越人類進行 學習所需的樣本數。人類和動物天生就有著模仿其 它同類個體的能力,研究表明人類嬰兒在觀察父母 完成一項任務之后,可以更快地學會該項任務 (Meltzoff 等,1999)。基于神經元的研究也表明,一 類被稱為鏡像神經元的神經元,在動物執行某一特 定任務和觀察另一個體執行該任務的時候都會被激 活(Ferrari 等,2005)。這些現象都啟發了研究者希望 智能體能通過模仿其它個體的行為來學習策略,因 此模仿學(imitation learning,IL)的概念被提出。模仿 學習通過引入額外的信息,使用帶有傾向性的專家 示范,更快地實現策略優化,為緩解樣本低效問題 提供了一種可行的解決途徑。
由于模仿學習較高的實用性,其從誕生以來一 直都是強化學習重要的研究方向。傳統模仿學習方 法主要包括行為克隆(Bain 和 Sammut,1995)、逆強 化學習(Ng 等,2000)、對抗式模仿學習(Ho 和 Ermon, 2016)等,這類方法技術路線相對簡單,框架相對單 一,通常在一些簡單任務上能取得較好效果 (Attia and Dayan,2018;Levine,2018)。隨著近年來計算 能力的大幅提高以及上游圖形圖像任務(如物體識 別、場景理解等)的快速發展,融合了多種技術的模 仿學習方法也不斷涌現,被廣泛應用到了復雜任務, 相關領域的新進展主要包括基于觀察量的模仿學習 (Kidambi 等,2021)、跨領域模仿學習(Raychaudhuri 等,2021;Fickinger 等,2021)等。
基于觀察量的模仿學習(imitation learning from observation,ILfO)放松了對專家示范數據的要求, 僅從可被觀察到的專家示范信息(如汽車行駛的視 頻信息)進行模仿學習,而不需要獲得專家的具體 動作數據(如人開車的方向盤、油門控制數據) (Torabi 等,2019)。這一設定使模仿學習更貼近現實 情況,使相關算法更具備實際運用價值。根據是否 需要建模任務的環境狀態轉移動力學(又稱為“模 型”),ILfO 類算法可以被分為有模型和無模型兩類。 其中,有模型方法依照對智能體與環境交互過程中 構建模型的方式,可以進一步被分為正向動態模型 (forward dynamics models)(Edwards 等 , 2019 ; Kidambi 等,2021)與逆向動態模型(inverse dynamics models)(Nair 等,2017;Torabi 等,2018;Guo 等,2019;Radosavovic 等,2021);無模型的方法主要包 括對抗式方法(Merel 等,2017;Stadie 等,2017; Henderson 等,2018) 與獎勵函數工程法(Gupta 等, 2017;Aytar 等,2018;Schmeckpeper 等,2021)。
跨領域模仿學習(cross domain imitation learning, CDIL)主要聚焦于研究智能體與專家處于不同領域 (例如不同的馬爾可夫決策過程)的模仿學習方法。 當前的 CDIL 研究主要聚焦于以下三個方面的領域 差異性(Kim 等,2020):1)狀態轉移差異(Liu 等, 2019),即環境的狀態轉移不同;2)形態學差異(Gupta 等,2017),即專家與智能體的狀態、動作空間不同; 3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020),即專家與智能體的觀察量不同。 根據算法依賴的主要技術路徑,其解決方案主要可 以分為:1)直接法(Taylor 等,2007),該類方法關注 形態學差異來進行跨領域模仿,通常使用簡單關系 函數(如線性函數)建立狀態到狀態之間的直接對 應關系;2)映射法(Gupta 等,2017;Sermanet 等, 2018;Liu 等,2018),該類方法尋求不同領域間的 深層相似性,利用復雜的非線性函數(如深度神經 網絡)完成不同任務空間中的信息轉移,實現跨領 域模仿;3)對抗式方法(Sharma 等,2019;Kim 等, 2020),該類方法通常包含專家行為判別器與跨領域 生成器,通過交替求解最小-最大化問題來訓練判別 器和生成器,實現領域信息傳遞;4)最優傳輸法 (Papagiannis 和 Li,2020;Dadashi 等,2021;Nguyen 等,2021;Fickinger 等,2021),該類方法聚焦專家 領域專家策略占用測度(occupancy measure)與目標 領域智能體策略占用測度間的跨領域信息轉移,通 過最優傳輸度量來構建策略遷移模型。
當前,模仿學習的應用主要集中在游戲 AI、機 器人控制、自動駕駛等智能體控制領域。圖形圖像 學方向的最新研究成果,如目標檢測(Feng 等,2021; Li 等,2022)、視頻理解(Lin 等,2019;Bertasius 等, 2021) 、視頻分類 (Tran 等 , 2019) 、視頻識別 (Feichtenhofer,2020)等,都極大地提升了智能體的 識別、感知能力,是模仿學習取得新進展與新應用 的重要基石。此外,近年來也有研究者開始探索直 接使用 IL 提高圖形/圖像任務的性能,如 3D/2D 模 型與圖像配準(Toth 等,2018)、醫學影像衰減校正 (Kl?ser 等,2021)、圖像顯著性預測(Xu 等,2021)等。 總體來說,模仿學習與圖像處理的有機結合,極大 地拓展了相關領域的科研范圍,為許多困難問題的 解決提供了全新的可能性。
本文的主要內容如下:首先簡要介紹模仿學習 概念,同時回顧必要的基礎知識;然后選取模仿學 習在國際上的主要成果,介紹傳統模仿學習與模仿 學習最新進展,同時也將展現國外最新的研究現狀; 接著選取國內高校與機構的研究成果,介紹模仿學 習的具體應用,同時也會比較國內外研究的現狀; 最后將總結本文,并展望模仿學習的未來發展方向 與趨勢,為研究者提供潛在的研究思路。本文是第 一個對模仿學習最新進展(即基于觀察量的模仿學 習與跨領域模仿學習)進行詳細調研的綜述,除本 文以外,(Ghavamzadeh 等,2015;Osa,2018;Attia 和 Dayan,2018;Levine,2018;Arora 和 Doshi, 2021)等文章也對模仿學習的其它細分領域進行了 調研。
**2 模仿學習新進展 **
隨著強化學習與模仿學習領域研究的不斷深入, 近些年模仿學習領域的研究取得了一些矚目的新進 展,相關的研究不再局限于理論分析與模擬環境, 而是轉向更貼近實際的方向,例如:基于觀察量的 模仿學習(2.1 節),跨領域模仿學習(2.2 節)。在 這些領域的許多工作,考慮了使用實際數據集進行 模仿學習訓練;同時其目標也并非局限于完成 Gym 等模擬環境上提供的標準任務,而是進一步轉向模 仿學習算法在機器人控制、自動駕駛等領域的實際 應用,為“模擬到現實”做出了堅實的推進。
**2.1 基于觀察量的模仿學習 **
當智能體試圖僅通過“觀察”來模仿專家的策略 時,就會出現基于觀察量的模仿學習(Imitation Learning from Observation,ILfO)這一任務(Torabi 等, 2019)。所謂的“觀察”,指的是僅包含狀態信息而不 包含動作信息的專家示范,它可以是僅包含狀態信 息的軌跡???????? = {????????}????=1 ???? ,也可以是單純的圖片或視頻。 相較于傳統模仿學習中既可以獲得專家所處的狀態, 又可以獲得專家在當前狀態下的策略(動作)的設 定,ILfO 放松了對專家示范數據的要求,從而成為 了一種更貼近現實情況、更具備實際運用價值的設 定。值得注意的是,ILfO 可以直接使用專家行為的 圖片數據作為輸入(Liu 等,2018;Torabi 等,2019; Karnan 等,2022),這在引入海量數據集的同時,也 將模仿學習與圖像圖形學、計算機視覺等領域有機 地結合起來,從而極大地拓展了相關領域的潛在研 究方向,為相關領域的進一步發展開辟了新的土壤。
IL 的目標類似,ILfO 的目標是讓智能體通 過模仿僅包含狀態信息的專家示范數據,輸出一個具有相同行為的策略。既然 ILfO 是一種更貼近現實 的設定,如何從現實的專家行為中獲得示范數據是 首先要解決的問題。一些早期的工作通過直接在專 家身上設置傳感器的方式記錄專家的行為數據 (Ijspeert 等,2001;Calinon 和 Billard,2007)。上述 方法的升級版本是采用動作捕捉技術,專家需要佩 戴專業的動作捕捉設備,這樣做的好處是計算機系 統可以直接對專家的行為進行 3 維建模,從而轉換 成模擬系統易于識別的輸入(Field 等,2009;Merel 等,2017)。隨著前些年卷積神經網絡在處理圖像數 據上大放異彩,現在較為常見的是直接使用攝像頭 拍攝專家行為,進而直接使用圖像、視頻數據作為 輸入(Liu 等,2018;Sharma 等,2019;orabi 等,2019; Karnan 等,2022)。 由于 ILfO 無法獲得專家動作,因此將專家動作 視為狀態標簽的方法將不再適用,這也使得 ILfO 變 成了更具挑戰的任務。一般來說,基于 ILfO 設定的 算法可以被分為有模型和無模型兩類。所謂的“模 型”,一般指的是環境的狀態轉移,通過對智能體與 環境交互過程中學習模型的方式作區分,可以進一 步將有模型的方法分為:正向動態模型(forward dynamics models)與逆向動態模型(inverse dynamics models);無模型的方法主要包括:對抗式方法與獎 勵函數工程法。
**2.2 跨領域模仿學習 **
跨領域模仿學習(cross domain imitation learning, CDIL)相關領域的研究最早可以追溯到機器人控制 領域通過觀察來讓機器人學習策略(Kuniyoshi 等, 1994;Argall 等,2009)。后來隨著對 ILfO(章節 2.1) 研究的深入,CDIL 的相關研究也越來越受重視。與 傳統設定下的 IL 相比,跨領域模仿學習與現實世界 中的學習過程兼容性更好(Raychaudhuri 等,2021)。 傳統的 IL 假設智能體和專家在完全相同的環境中 決策,而這一要求幾乎只可能在模擬系統(包括游戲) 中得到滿足。這一缺點嚴重地限制了傳統 IL 在現實 生活中可能的應用場景,并且將研究者的工作的重心轉移到對場景的準確建模,而并非算法本身的性 能上。CDIL 的產生打破了這一枷鎖,因為智能體可 以使用不同于自身領域的專家示范來學習策略。當 前 CDIL 所研究的領域差異主要集中在以下三個方 面(Kim 等,2020):1)狀態轉移差異(Liu 等,2019); 2)形態學差異(Gupta 等,2017);3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020)。 這些差異也對應第 2.1 章中提及的 ILfO 所面臨的挑 戰。
在模仿學習變得為人熟知之前,這一研究領域 更廣泛地被稱為遷移學習(Taylor 等,2008)。例如, Konidaris 等人(2006)通過在任務之間共享的狀態表 示子集上學習價值函數,來為目標任務提供塑性后 獎勵。Taylor 等人(2007)人工設計了一個可以將某一 MDP 對應的動作價值函數轉移到另一 MDP 中的映 射來實現知識遷移。直觀地說,為了克服智能體環 境和專家環境之間的差異,需要在它們之間建立一 個轉移或映射。Taylor 等人 (2008)介紹了一種“直接 映射”的方法,來直接學習狀態到狀態之間的映射關 系。然而,在不同領域中建立狀態之間的直接映射 只能提供有限的轉移,因為兩個形態學上不同的智 能體之間通常沒有完整的對應關系,但這種方法卻 不得不學習從一個狀態空間到另一個狀態空間的映 射(Gupta 等,2017),從而導致該映射關系是病態的。 早期的這些方法,大多都需要特定領域的知識,或 是人工構建不同空間之間的映射,這通常會使研究 變得繁瑣且泛化性較差,因此必須借助更為先進的 算法來提升性能。 隨著深度神經網絡的發展,更具表達性的神經 網絡被廣泛運用,CDIL 也迎來了較快的發展。 (Gupta 等,2017;Sermanet 等,2018;Liu 等,2018) 等文章研究機器人從視頻觀察中學習策略,為了解 決專家示范與智能體所處領域不同的問題,他們的 方法借助不同領域間成對的、時間對齊的示范來獲 得狀態之間對應關系,并且這些方法通常涉及與環 境進行交互的 RL 步驟。相較于“直接映射”的方法, 這些方法學習的映射并不是簡單的狀態對之間的關 系,而更多利用了神經網絡強大的表達性能,從而 取得更好的實驗效果。但不幸的是,成對且時間對 齊的數據集很難獲得,從而降低了該種方法的可實現性(Kim 等,2020)。
**3 模仿學習應用 **
隨著基于觀察量的模仿學習與跨領域模仿學習 的不斷發展,基于 IL 的算法也越來越符合現實場景 的應用要求,此外,圖形圖像學上的諸多最新研究 成果,也為 IL 的現實應用進一步賦能。模仿學習的 主要應用領域包括但不限于:1)游戲 AI;2)機器人 控制;3)自動駕駛;4)圖像圖形學等。本章節將列舉 有代表性的模仿學習應用類工作,同時由于現階段 國內關于模仿學習的研究主要集中在應用領域,因 此本章節將著重選取國內高校、機構的工作成果, 進而為國內該領域的研究者提供一些參考。 Gym(Brockman 等,2016)與 Mujoco(Todorov 等, 2012)是強化學習領域被最廣泛使用的訓練環境,其 為強化學習領域的研究提供了標準環境與基準任務, 使得不同的算法能在相同的設定下比較性能的優劣。 模仿學習作為強化學習最為熱門的分支領域,也廣 泛使用 Gym 與 Mujoco 作為訓練/測試環境。Gym 包 含多個基礎游戲環境以及雅達利游戲環境,Mujoco 包含多個智能體控制環境同時支持自建任務。值得 注意的是,Gym 與 Mujoco 都包含大量的圖像環境, 即以圖像的形式承載環境的全部信息,這就使得圖 像圖形學的眾多最新成果,直接推動了模仿學習的 應用。考慮到 Gym 與 Mujoco 的虛擬仿真特性,可 將其歸類為游戲環境。這些使用 Gym 與 Mujoco 進 行訓練或驗證的模仿學習算法,都能在一定程度上 推廣到其他游戲領域的應用。國內的諸多高校都在 該方面做出了自己的貢獻,包括 清華大學的 Yang 等人(2019)探究了基于逆向動態模型的 IL 算法性能, Jing 等人(2021)驗證了分層模仿學習的性能;上海交 通大學的 M.Liu 等人(2020)探究基于能量的模仿學 習算法性能,Liu 等人(2021)探究離線模仿學習算法 COIL(curriculum offline imitation learning)的性能, Liu等人(2022)探究通過解耦策略優化進行模仿學習。 南京大學的 Zhang 等人(2022)探究生成式對抗模仿 學習的性能,Xu 等人(2020) 探究模仿策略的誤差界 限,Jiang 等人(2020) 探究帶誤差的模擬器中的離線 模仿學習。
Gym 與 Mujoco 環境之外,模仿學習也被廣 泛用于訓練棋類與即時戰略類游戲 AI。這類游戲任 務的難度顯著增加,且通常包含較大信息量的圖像數據,因此也會更依賴于先進的圖像處理方法(例如 目標檢測)。對于這些復雜游戲環境,狀態動作空間 過于龐大,獎勵信息過于稀疏,智能體通常無法直 接通過強化學習獲得策略。進而,智能體首先通過 模仿人類選手的對局示范來學習較為基礎的策略, 然后使用強化學習與自我博弈等方式進一步提升策 略。其中最為代表的就是 Google 公司開發的圍棋游 戲 AI AlphaGo(Silver 等,2016)以及星際爭霸AI Alphastar(Vinyals 等,2019)。與國外的情況相似國內工業界也十分重視該類游戲 AI 的開發,包括 騰 訊公司開發的王者榮耀(復雜的多智能體對抗環境) 游戲 AI(Ye 等,2020);華為公司基于多模式對抗模 仿學習開發的即時戰略游戲 AI(Fei 等,2020),如圖 3 所示。考慮到該類游戲的超高復雜性,人工智能在 如此復雜的任務中完勝人類對手,可以預見人工智 能在游戲領域完全超越人類已經只是時間問題。 在機器人控制領域,由于機器人的價格昂貴, 部件易損且可能具備一定危險性,因此需要一種穩 定的方式獲得策略,模仿學習讓機器人直接模仿專 家的行為,可以快速、穩定地使其掌握技能,而不依 賴于過多的探索。斯坦福大學的 Abbeel 等人(2006), 早在 2006 年就將逆強化學習方法用在直升機控制 任務上(如圖 4 所示)。加州大學伯克利分校的 Nair 等人(2017),結合自監督學習與模仿學習的方法,讓 機器人通過模仿專家行為的視頻數據,學習完成簡 單的任務(如圖 5 所示)。國內高校也在該領域做出 了一定的貢獻,包括 清華大學的 Fang 等人(2019)調 研了模仿學習在機器人操控方面的研究。中國科學 院大學的 Jiayi Li 等人(2021)通過視頻數據進行元模 仿學習以控制機器(如圖 6 所示)。中科院自動化所 的 Y. Li 等人(2021)通過視頻數據進行模仿學習以精 確操控機器手臂的位置。 自動駕駛是當前人工智能最重要的應用領域 (Grigorescu 等,2020;Kiran 等,2021),模仿學習憑 借其優秀的性能也在該領域占據一席之地,特別是 基于觀察量的模仿學習與跨領域模仿學習兼容自動 駕駛的絕大部分現實需求,從而使得 IL 在該領域大 放異彩(Codevilla 等,2018;Bhattacharyya 等,2018Liang 等,2018;Chen 等,2019;Kebria 等,2019; Pan 等,2020)。國內的高校與企業也十分重視模仿 學習在自動駕駛領域的研究,包括 清華大學的 Wu 等人(2018)結合模仿學習進行水下無人設備訓練。浙 江大學的 Li 等人(2020)探究了用于視覺導航的基于 無監督強化學習的可轉移元技能;Wang 等人(2021) 探究從分層的駕駛模型中進行模仿學習(如圖 7 所 示);百度公司的 Zhou 等人(2021)使用模仿學習實現 自動駕駛。北京大學的 Zhu 等人(2021)關于深度強 化學習與模仿學習在自動駕駛領域的應用作了綜述。 事實上,近年來模仿學習也被直接用于圖像處 理上,在圖形圖像領域發揮出獨特的價值。Toth 等 人(2018)探究模仿學習在心臟手術的 3D/2D 模型與 圖像配準上的應用。Kl?ser 等人(2021)研究模仿學習 在改進3D PET/MR(positron emission tomography and magnetic resonance)衰減校正上的應用。北京航天航 空大學的Xu等人(2021)探究了生成對抗模仿學習在 全景圖像顯著性預測上的應用。 在其它領域,模仿學習也有著廣泛的應用,包 括電子有限集模型預測控制系統 (Novak 和 Dragicevic,2021)、云機器人系統(B. Liu 等,2020)、 異構移動平臺的動態資源管理(Mandal 等,2019)、 多智能體合作環境中的應用(Hao 等,2019)、信息檢 索(Dai 等,2021)、移動通信信息時效性(Wang 等, 2022)、黎曼流形(Zeestraten 等,2017)、運籌學 (Ingimundardottir 和 Runarsson,2018)、緩存替換(Liu 等,2020)等。
摘要: 近年來,以深度學習為代表的人工智能技術在金融安防、自動駕駛、醫療診斷等領域取得了較為成功的應用.然而,圖像分類作為上述應用中的一項基礎視覺任務,正遭受著對抗攻擊等技術手段帶來的巨大安全隱患.提高深度學習模型抵御對抗攻擊的能力(即對抗魯棒性)成為有效緩解該問題的可行技術途徑.為了科學、全面地提升深度學習模型的對抗魯棒性,眾多學者從基準評估和指標評估2個角度圍繞對抗魯棒性評估開展了大量研究.該研究著重對上述指標評估相關研究進行綜述:首先,介紹對抗樣本相關概念以及存在的原因,總結提出進行對抗魯棒性評估時需要遵循的評估準則;其次,從被攻擊模型和測試數據2個維度,重點梳理和對比分析現有的主要對抗魯棒性評估指標;而后,分析總結現階段主流的圖像分類數據集和對抗攻防集成工具,為后續開展對抗魯棒性評估奠定基礎;最后,探討當前研究的優勢和不足,以及未來潛在的研究方向.旨在為相關領域從業人員或學習者提供一個較為全面的、系統的和客觀的面向圖像分類的對抗魯棒性評估指標綜述.
引言
2019年瑞萊智慧 RealAI團隊對人臉照片進行 算法處理,將照片打印并粘貼到鏡框上,通過佩戴眼 鏡成功攻破19款商用手機的人臉解鎖[1];2020年 美國東北大學團隊[2]設計了一款印有特殊圖案的 T 恤,可使穿戴者躲避智能攝像頭的監測;2021年騰 訊科恩實驗室[3]通過在路面部署干擾信息,導致特 斯拉 ModelS車輛經過時對車道線做出錯判,致使 車輛駛入反向車道???? 由此可見,盡管深度學習在執行各種復雜任務 時取得了出乎意料的優異表現,但在安全應用領域 仍有很大的局限性.Szegedy等人[4]發現,深度學習 對于精心設計的輸入樣本是很脆弱的.這些樣本可 以輕易用人類察覺不到的微小擾動,欺騙一個訓練 好的深度學習模型,使模型做出錯誤的決策.現在, 深度學習中的對抗攻擊技術受到了大量關注,以面 向圖像分類為主的對抗攻擊算法[5G10]不斷涌現. 在此背景下,越來越多的研究者開始關注如何 提升模型抵御對抗攻擊的能力,即增強模型的對抗 魯棒性,并探索出了一系列的對抗防御手段,如梯度 遮蔽[11G12]、對 抗 訓 練[6,13]、數 據 處 理[14G15]和 特 征 壓 縮[16]等.盡管這些方法對于改善模型的對抗魯棒性 是有效的,但是目前針對模型對抗魯棒性的評估框架 尚未完善,主要是通過不斷改進攻防算法,反復進行 對抗,定性給出模型魯棒性好壞的基準,或者使用分 類準確率等指標單一地衡量模型的對抗魯棒性.此 外,許多攻擊算法或多或少會受到實驗條件的限制, 難以適用于所有的深度學習模型,這些問題為模型 的對抗魯棒性評估(adversarialrobustnessevaluation) 帶來了挑戰.
目前,面向圖像分類的對抗魯棒性評估領域還 有很大的發展空間,如何正確、科學、定量且全面地 評估模型的對抗魯棒性,正在吸引業界和學術界的 關注.為了更好地探究對抗魯棒性評估問題,本文系 統梳理并分析總結了面向圖像分類的對抗魯棒性評 估方法,以促進該領域的研究.
1 對抗樣本相關介紹
生成對抗樣本是開展對抗魯棒性評估工作的基 礎.為了更好地理解對抗魯棒性評估,本節首先簡要 介紹對抗樣本的概念和相關專業術語,并探討對抗 樣本存在的原因。
1.1 對抗樣本及相關術語
概念 1.對 抗 樣 本.最 早 提 出 這 一 概 念 的 是 Szegedy等人[4],他們在原始樣本上添加肉眼難以 察覺的微小擾動,愚弄了當時最先進的深度神經網 絡(deepneuralnetworks,DNNs),誘導模型分類 錯誤.如圖1所示,通過在原始樣本上添加圖中的擾 動,就能讓模型將卡車錯誤地識別成鴕鳥。這些 經 過 精 心 設 計 的 樣 本 被 稱 為 對 抗 樣 本 (adversarialexample),構造對抗樣本的過程被稱為 對抗攻擊.
概念2.對抗攻擊目標.Biggio等人[19]指出對抗 攻擊的目標是根據需求實現損失函數最小化或最大 化.從實際攻擊效果來看,也就是通過添加精心設計 的微小擾動實現模型的錯誤分類.根據不同的攻擊 目的,可以將對抗攻擊目標劃分為非目標攻擊和目 標攻擊.非目標攻擊指的是對抗樣本誘導模型分類 錯誤,但不指定錯分為哪一種類別,而目標攻擊限定 了模型將標簽為i 的樣本錯分成第j 類,數學語言描述分別為
概念3.對抗攻擊知識.它指的是攻擊者所掌握 的相關信息,包括訓練樣本、模型結構和模型輸出 等.針對攻擊者對智能系統了解情況的多少,可以將 攻擊劃分為白盒攻擊、灰盒攻擊和黑盒攻擊,攻擊難 度依次增大.由于灰盒攻擊的邊界難以界定,目前研 究大多以白盒攻擊和黑盒攻擊為主,本文不對灰盒 攻擊進行相關介紹.
概念4.對抗攻擊能力[20G21].指攻擊者修改訓練 數據或測試數據的能力.在針對圖像分類任務開展 對抗攻擊時,攻擊者的能力往往僅限于對測試集數 據進行修改,不考慮通過數據投毒等手段,影響模型 的訓練過程,這種攻擊被稱為探索性攻擊.與之對應 的誘導性攻擊,指的是通過修改訓練集,破壞原有訓 練數據的概率分布,使模型無法達到理想的分類效 果.由此可見,誘導性攻擊從根本上實現了對模型的 攻擊,比探索性攻擊的攻擊性更強. 通過分析圖像分類全過程各環節[22]的特點,從 上述提到的攻擊目標、知識以及能力3個維度對對 抗攻擊方法進行分類,形成如圖2所示的對抗攻擊 分類框架.誘導性攻擊主要對原始數據輸入以及數 據處理階段進行攻擊,探索性攻擊是在模型訓練完 成后,針對分類階段進行攻擊;倘若攻擊者無法獲取 模型訓練及訓練前各階段的信息,則開展的攻擊為 黑盒攻擊,否則為白盒攻擊;在最終的分類階段,針 對攻擊者能否精確控制分類器對測試樣本的分類結 果,可以將對抗攻擊劃分為目標攻擊和非目標攻擊 2類.
1.2 對抗樣本存在的解釋
對抗魯棒性評估與對抗樣本密切相關,深入理 解對抗樣本產生的機理有助于從根本上提出科學的 評估方法與指標.然而關于對抗樣本存在的解釋仍 有許多爭議,目前還沒有得出一個準確統一的結論. Szegedy等人[4]認為網絡模型的非線性特性是 導致對抗樣本存在的原因.具體而言,他們從正負實 數分類問題中發現,由于無理數的個數要遠多于有 理數,訓練集中無理數和有理數的比例難免失去平 衡,基于此數據集訓練的模型可能無法對有理數進 行正確的分類.但不可否認的是,有理數是的確存在 且稠密的.對抗樣本好比有理數,模型的非線性特性。使得模型訓練時對高維特征的提取不充分,僅僅學 習到局部子空間的特征,可能導致一直存在但被發 現的概率很低的對抗樣本難以被觀察到,進而影響 了模型的決策.遺憾的是,文獻[4]并沒有給出相關 的數學說明.
2 對抗魯棒性評估
科學、有效地評估模型的對抗魯棒性對于構建 對抗魯棒模型、提高智能系統安全性具有重要意義. 然而,至今尚未形成一個公正、統一的對抗魯棒性評 估指標或方法.現階段面向圖像分類的對抗魯棒性 評估主要分為基準評估和指標評估2類.前者通過 提出并改進各種攻防算法[27G31],反復進行對抗,以排 名基準[32]的形式反映對抗魯棒性的強弱;后者從對 抗樣本的角度出發提出一系列評估指標,旨在通過 全面、合理的指標對模型的對抗魯棒性進行評估.相 比前者,后者的優勢在于能夠以客觀可量化的方式 衡量模型的對抗魯棒性,為增強模型的對抗魯棒性 提供可解釋的科學依據.
2.1 基本概念
在深度學習領域,魯棒性(robustness)指的是 智能系統在受到內外環境中多種不確定因素干擾 時,依舊可以保持功能穩定的能力.而對抗魯棒性 (adversarialrobustness)[12,33]專指對抗環境下模型 抵御對抗攻擊的能力,即模型能否對添加微小擾動 的對抗樣本做出正確分類的能力.以任意攻擊方法 在原始樣本上添加擾動,模型正確識別該樣本的概 率越高,說明模型的對抗魯棒性越強.從數據空間的 角度來看,添 加 的 擾 動 可 以 被 描 述 為 對 抗 擾 動 距 離7,距離范 圍內的樣本都能夠被正確分類.因此也可以說,最小 對抗擾動距離 (minimaladversarialperturbation)越 大,則允許添加的擾動范圍越大,模型的對抗魯棒性 越強. 可以看出,對 抗 魯 棒 性 評 估 的 關 鍵 是 計 算 最 小對抗擾動距離.如果可以計算出最小對抗擾動距 離的精確值,那 么 最 小 對 抗 擾 動 距 離 的 值 將 可 以 作為模型對抗魯棒性評估的指標.然而,由于神經 網絡模型是大型、非線性且非凸的,對抗魯棒性等 模型 屬 性 的 驗 證 問 題 已 被 證 明 是 一 個 NP 完 全 (nonGdeterministicpolynomialGcomplete,NPGC)問 題[33G35].作為與對抗魯棒性相關的指標,最小對抗擾 動距離難以被精確求解.因此,許多研究轉向使用最 小對抗擾動的上界或下界去近似精確值[36].當擾動 距離大于上邊界距離時,說明至少有1個添加了該 擾動的樣本被模型誤分類;當擾動距離小于下邊界 距離時,則任意添加了該擾動的樣本都能被模型正 確分類,如圖3所示.通過最大下邊界距離或最小上 邊界距離逼近最小對抗擾動距離,從而實現對模型 對抗魯棒性的評估。
2.2 評估準則
對抗魯棒性評估是一個比較困難的問題,執行 不合理的實驗會導致評估無效.比如向原始樣本添 加的擾動過大,人眼即可判別生成樣本與原始樣本, 在此基礎上得到的評估結果是無意義的[37].諸如此 類的錯誤常常被研究人員忽略.本文梳理了進行對 抗魯棒性評估時需要遵守的3個評估準則[37],以便 指導研究人員開展正確的評估.
1)合理使用攻擊算法進行評估.部分攻擊算法 是針對某種特定模型而設計的,若將其應用于其他 模型,很難體現出模型是否具有抵御這種攻擊的能 力,也無法說明模型具有對抗魯棒性.另外,在進行 對抗魯棒性評估時,需要保證評估的普適性,這就意 味著不能僅僅使用帶有默認超參數的對抗攻擊進行 評估,應該排列組合所有參數,達到不同程度的攻擊 效果,從而評估模型的對抗魯棒性.
2)保證模型在正常環境下的良好性能.實驗表 明,對抗訓練會導致智能系統中神經網絡模型的準 確率下降[38].顯然,以犧牲模型對原始樣本的準確 率來增強模型對抗魯棒性的做法是不可取的.因此, 開展對抗魯棒性評估,應說明模型對原始樣本的分 類準確率.被攻擊模型保持正常環境下的分類準確 率是正確評估對抗魯棒性的前提.在滿足該前提的 條件下,如果被攻擊模型能夠正確識別對抗樣本,才 能說明模型具有較好的對抗魯棒性.
3)結合實際需求選擇評估結果分析方法.理論 上,評價智能系統的對抗魯棒性應分析模型受到攻 擊威脅時的最壞結果.在現實情況中,往往從統計學 角度以平均效果衡量魯棒性的好壞.針對不同需求, 應適當調整評估思維,給出符合實際的評估結果.進 行統計學分析時,還需對分類準確率等結果進行方 差計算,避免出現較高的偏差,使評估結果失去穩 定性.
2.3 評估指標體系
當前大多數研究通過分類準確率、攻擊次數或 擾動強度這3種指標進行對抗魯棒性評估.這些指 標能夠直觀上反映模型對抗魯棒性的強弱,但未能 全面地考慮到影響對抗魯棒性的因素.針對該問題, 本節梳理了現有研究中所涉及的30余種對抗魯棒 性評估指標,并從被攻擊模型和測試數據2個角度 對指標進行分類.
3 對抗攻防工具與數據集
近年來,對抗攻防研究發展迅速,相應算法層出 不窮.自2016年始,許多研究單位推出了集成眾多 主流算法的對抗攻防工具,以提高研究者與開發人 員的測評效率,助力推動智能系統安全領域的發展. 此外,在使用對抗攻防工具進行實驗的過程中,各學 者還應用了多種不同的數據集.本節將介紹主流的 數據集與對抗攻防集成平臺,方便后續開展對抗魯 棒性評估研究.
4 未來研究方向
對抗攻擊技術近年來獲得了業界內的廣泛關 注,取得了許多突破性進展,但關于對抗魯棒性評估 的研究仍處于起步階段,依然面臨許多的挑戰.基于 本文對對抗魯棒性評估研究現狀的深入分析,未來 該領域的研究需要重點關注4個方向:
1)深入開展對抗樣本存在機理、深度學習模型 脆弱性和可解釋性等理論研究.目前國內外學術界 關于對抗樣本的存在原因尚未達成共識,缺乏完備 的數學理論支撐,對于如何正確解釋深度學習模型 的內在邏輯與擾動下的決策行為尚在探索當中.這 些難題與對抗魯棒性的評估有著緊密關聯,開展相 關理論研究有助于理解對抗魯棒性評估問題的本 質,把握影響模型對抗魯棒性的關鍵因素,能從根本 上解決對抗環境下模型魯棒性的評估問題,是未來 對抗魯棒性評估問題在理論層面上值得研究的方向 之一.
2)提出一種或一組通用的、可量化的、綜合的 對抗魯棒性評估指標.無論是面向數據的指標還是 面向模型的指標,分析視角單一,給出的評估結果很 難被直接采納.此外,影響模型對抗魯棒性的因素眾 多,采用一種或幾種指標難以準確、完整地評估對抗 魯棒性的強弱.參考其他研究領域指標評估的方法, 梳理影響對抗魯棒性的全部因素,抓住關鍵要素,提 出一種或一組通用的、可量化的、綜合的指標,全面 評估模型的對抗魯棒性,是未來對抗魯棒性評估問 題在方法層面上值得研究的方向之一.
3)構建科學、統一、規范、完備的對抗魯棒性評估框架.面向圖像分類的數據集種類繁多,攻擊方法 不斷被創新,評估指標與評估方法不盡相同,盡管對 抗攻防集成工具涵蓋多種攻防算法,但也無法保證 進行對抗魯棒性評估的實驗條件和度量標準是一致 的,這為模型與模型之間、模型防御前后對抗魯棒性 的比較帶來了困難.搭建對抗魯棒性評估框架,全面 綜合各種攻防算法、數據集與評估指標,在標準對抗 環境下從多層次、細粒度分析圖像分類全過程模型 抵御對抗攻擊的能力,是未來對抗魯棒性評估問題 在流程層面上值得研究的方向之一.
4)重點研究黑盒、非目標的融合攻擊環境下的 對抗魯棒性評估方法.物理場景中難以獲取模型的 全部信息,針對白盒、目標攻擊的評估方法難以應用 于實際智能系統模型的對抗魯棒性評估任務,且由 于目前黑盒、非目標攻擊的性能遠低于人們的預期, 無法保證使用該攻擊進行評估的效果.更重要的是, 現實環境中攻擊者可能融合對抗擾動、自然噪聲等 多種類型干擾或多種攻擊方法開展對抗攻擊,亦或 利用智能系統在動態環境下依據時間、空間等信息 進行決策的漏洞,設計融合多元信息干擾的對抗攻擊方法,這給對抗魯棒性評估帶來了新的契機與挑 戰.如何評估模型在黑盒、非目標的融合攻擊環境下 的對抗魯棒性,是未來對抗魯棒性評估問題在實際 應用層面上值得研究的方向之一.
5 總 結
面對對抗攻擊等各種威脅,增強模型的對抗魯 棒性是保障智能系統安全的重要方式和手段.評估 對抗魯棒性是指導提升模型對抗魯棒性的基礎.然 而,關于對抗魯棒性評估的研究還停留在初級階段, 僅僅依靠排名基準或簡單指標無法準確衡量模型抵 御對抗攻擊的能力.因此,本文在調研和分析國內外 對抗魯棒性評估研究的基礎上,針對圖像分類這一 基礎視覺任務,從對抗樣本存在原因、對抗魯棒性評 估準則、對抗魯棒性評估指標等方面對現有研究成 果進行了歸類、總結和分析.同時,梳理了現階段主流 的圖像分類數據集和對抗攻防集成工具.最后,指出 了對抗魯棒性評估未來可能的研究方向,旨在為該 領域研究的進一步發展和應用提供一定借鑒與幫助.
對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。
引言
人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。
1 多智能體博弈對抗
近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。
1.1 多智能體模型
在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。
當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。
1.2 非平穩問題
多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。
2 對手建模
合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。
**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。
近年來,國內外在新一代知識圖譜的關鍵技術和理論方面取得了一定進展,以知識圖譜為載體 的典型應用也逐漸走進各個行業領域,包括智能問答、推薦系統、個人助手等.然而,在大數據環境和新 基建背景下,數據對象和交互方式的日益豐富和變化, 對新一代知識圖譜在基礎理論、體系架構、關鍵技 術等方面提出新的需求,帶來新的挑戰.將綜述國內外新一代知識圖譜的關鍵技術研究發展現狀,重點 從非結構化多模態數據組織與理解、大規模動態圖譜表示學習與預訓練模型、神經符號結合的知識更新 與推理3方面對國內外研究的最新進展進行歸納、比較和分析.最后,就未來的技術挑戰和研究方向進 行展望。
伴隨著過去10年浪潮,人工智能發展方興未 艾,正處于由感知智能到認知智能轉變的關鍵時期. 知識圖譜作為大數據時代的知識工程集大成者,是 符號主義與連接主義相結合的產物,是實現認知智 能的基石.知識圖譜以其強大的語義表達能力、存儲 能力和推理能力,為互聯網時代的數據知識化組織 和智能應用提供了有效的解決方案.因此,新一代知 識圖譜的關鍵技術研究逐漸受到來自工業界和學術 界的廣泛關注.
知識 圖 譜 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是為了改善搜索,提升用戶搜索體驗. 知識圖譜至今沒有統一的定義,在維基百科中的定 義為:“Google知識圖譜(Googleknowledgegraph) 是 Google的一個知識庫,其使用語義檢索從多種來 源收集信息,以提高 Google搜索的質量.”從當前知 識圖譜的發展看來,此定義顯然是不夠全面的,當前 知識圖譜的應用儼然遠超其最初始的搜索場景,已 經廣泛應用于搜索、問答、推薦等場景中.比較普遍 被接受的一種定義為“知識圖譜本質上是一種語義 網絡(semanticnetwork),網絡中的結點代表實體 (entity)或者概念(concept),邊代表實體∕概念之間 的各種語義關系”.一種更為寬泛的定義為“使用圖 (graph)作為媒介來組織與利用不同類型的大規模 數據,并表達明確的通用或領域知識”.從覆蓋的領 域來看,知識圖譜可以分為通用知識圖譜和行業知 識圖譜;前者面向開放領域,而后者則面向特定的行 業.隨著知識圖譜在各行業的應用落地,知識圖譜技 術的相關研究得到了大量研究者的關注.以知識圖 譜為基礎的典型應用也逐漸走進各個行業領域,包 括智能問答、推薦系統、個人助手、戰場指揮系統等.
傳統的知識圖譜研究領域主要圍繞傳統的數據 存儲、知識獲取、本體融合、邏輯推理以及知識圖譜 應用等方面.文獻[2]詳細綜合和分析了知識圖譜存 儲管理最新的研究進展.文獻[3]從知識表示學習、 知識獲取與知識補全、時態知識圖譜和知識圖譜應 用等方面進行了全面的綜述.文獻[4]則重點對面向 知識圖譜的知識推理相關研究進行了綜述.
然而,在大數據環境和新基建背景下,數據對象 和交互方式的日益豐富和變化,對新一代知識圖譜 在基礎理論和關鍵技術等方面提出新的需求,也帶 來新的挑戰.和已有的知識圖譜研究綜述相比,本文 將從眾多最新的知識圖譜研究方法中,對3方面的 新一代知識圖譜關鍵技術和理論做分析:1)非結構化多模態數據組織與理解; 2)大規模動態圖譜表示學習與預訓練模型; 3)神經符號結合的知識更新與推理. 本文將綜述國內外新一代知識圖譜關鍵技術研 究發展現狀,對國內外研究的最新進展進行歸納、比 較和分析,就未來的技術挑戰和研究方向進行展望.
1. 非結構化多模態數據組織與理解
1.1 非結構化多模態數據組織
“模態”的定義較多,可以直觀地理解為不同類 型的多媒體數據,也可以作為一個更加細粒度的概 念,區分模態的關鍵點可以理解為數據是否具有異 構性.例如,對于某個歌手,互聯網上可以找到他的 照片和歌曲視頻,同時也有相關的文本信息(百科、 新聞等)以及具體的歌曲音頻.圖片、視頻、文本、語 音這4種數據,可以被理解為該對象的多模態數據.目前主要的非結構化多模態知識圖譜如表1所示:
DBpedia [5]作為近10年來知識圖譜研究領域的 核心數據集,其豐富的語義信息中也包含了大量的 非結 構 化 數 據,如 文 本 描 述 和 實 體 圖 片.目 前 DBpedia包含了超過260萬個實體,且每個實體具 有唯一的全局標識符.以此為基礎,越來越多的數據 發布者 將 自 己 的 數 據 通 過 SameAs 關 系 鏈 接 到 DBpedia資源,使 DBpedia一定程度上成為多類型 數據組織的中心.目前,圍繞 DBpedia的互聯網數據 源網絡提供了約47億條信息,涵蓋地理信息、人、基 因、藥物、圖書、科技出版社等多個領域.
Wikidata [6]中也存在大量的多模態數據資源, 它是維基媒體基金會(WikimediaFoundation)推出 的知識圖譜,也是維基媒體數據組織和管理的核心 項目.Wikidata充分利用了知識圖譜的圖數據模型, 綜合了 Wikivoyage,Wiktionary,Wikisource等各類 結構化和非結構化數據,其目標是通過創造維基百 科全球管理數據的新方法來克服多類數據的不一致 性,已經成為維基媒體最活躍的項目之一,越來越多 的網站都從 Wikidata獲取內容以嵌入提供的頁面 瀏覽服務. IMGPedia [7]是多模態知識圖譜的早期嘗試.相 較于 DBpedia和 Wikidata,其更關注在已有的知識 圖譜中補充非結構化的圖片信息.
IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒體 資源(主要是圖片),然后基于多媒體內容生成特征 用于視覺相似性的計算,最后通過定義相似關系的 方式將圖片內容信息引入到知識圖譜中,此外其還 鏈接了 DBpedia和 DBpediaCommons來提供上下 文和元數據.IMGPedia的優勢在于開創性地定義了 知識圖譜中圖像 內 容 的“描 述 符”,也 就 是 視 覺 實 體屬性(諸如灰 度 等),同 時 根 據 這 些 描 述 符 去 計算圖片相似度,方便人們進行相似圖片的查找.但 IMGPedia中定義的“描述符”種類較少,且圖片之 間的關系單一.
MMKG [8]項目旨在對不同知識圖譜(Freebase, YAGO,DBpedia)的實體和圖片資源進行對齊.其通 過對3個知識圖譜(Freebase15k,YAGO15k,DB15k, 均為從原始的知識圖譜中獲得的知識圖譜子集)進 行實體對齊,以及數值、圖片資源與實體的綁定,構 建了一個包含3個知識圖譜子集的多模態數據集 合.MMKG 包含的3個知識圖譜既有諸多對齊的實 體,又有各自不同的拓撲結構.值得一提的是,MMKG 的目標并非是提供一個多模態知識圖譜,而是定義 一個包含多模態信息的評估知識圖譜實體對齊技術 的基準數據集.但是其本質上還是以傳統的知識圖 譜為主,規模很小同時也沒有充分收集和挖掘互聯 網上多種類型的多模態數據,在將圖像分發給相關 文本實體時也未曾考慮圖像的多樣性.
KgBench [9]和 MMKG 類似,在 RDF 編碼的知 識圖譜上引入了一組新的實體分類基準多模態數據 集.對于多個知識圖譜基準實體分類任務,提供至少 1000個實例的測試和驗證集,有些實例超過10000 個,每個實例包含了多種模態的數據描述和特征.每 個任務都能夠以知識圖譜結構特征進行評估,或者 使用多模態信息來實驗.所有數據集都以 CSV 格式 打包,并提供 RDF格式的源數據和源代碼. 東南大學的 Wang等人[10]提出的多模態圖譜 Richpedia,是目前國內在多模態知識圖譜領域的代 表工作.其核心思路延續了知識圖譜的基本數據模 型,在 RDF框架下對現有的知識圖譜進行擴充(主 要是包含視覺信息的圖片實體),使其變為多模態知 識圖譜.相較之前的多模態知識圖譜,該工作的最大 貢獻在于收集與實體相關圖片的同時,利用圖片的 配文來識 別 圖 片 中 所 包 含 的 其 他 實 體,進 而 在 跨 模態實體之間的語義關系發現方面取得了顯著效果 提升.
西安交通大學的鄭慶華等人[11G12]提出了知識森 林的概念,旨在針對智慧教育領域的多模態數據,實 現基于知識森林數據模型的組織與個性化導學.知 識森林的特點在于針對教育領域的垂域特點,用自 然語言處理、圖像識別等人工智能技術突破了教育 領域給定課程科目的知識森林自動構建,研制了知 識森林 AR 交互系統,緩解學習過程中人機可視化 交互難題.知識森林的多模態類型不再局限于文本 和圖像的范疇,增加了與視頻數據交互的能力.
百度知識圖譜近年來也逐漸向多模態知識圖譜演變.基于海量互聯網資源,百度構建了超大規模的 通用知識圖譜,并隨著文本、語音、視覺等智能技術 的不斷深入,以及行業智能化訴求的提升,百度近年 來一直致力于知識圖譜在復雜知識表示、多模態語 義理解、行業圖譜構建和應用,其挖掘的多模態知識 在圖文視頻的基礎上,加入了更多語音數據來豐富 多模態知識圖譜的內容.
1.2 多模態數據理解
多模態數據理解旨在實現處理和理解不同模態 信息之間共同表達語義的能力.整體上,和知識圖譜 相關的多模態數據的理解主要分為基于本體的多模 態語義理解和基于機器學習的多模態語義理解.基 于本體的多模態語義理解是比較早期的工作,均和 知識圖譜相關,其主要活躍于深度學習的浪潮興起 之前,代表性的工作為 LSCOM(largeGscaleconcept ontologyformultimedia)[13]和COMM(coreontology formultimedia)[14]. LSCOM [13]是 一 個 由 IBM、卡 內 基 梅 隆 大 學 (CarnegieMellonUniversity,CMU)和哥倫比亞大 學領導開發的多模態大規模概念本體協作編輯任 務.在這項工作中,CyC公司與很多學術研究和工業 團體均有參與.其整個過程包含了一系列學術研討 會,來自多個領域的專家聚集在一起,創建了描述廣 播新聞視頻的1000個概念的分類.LSCOM 中對多 模態數據的實用性、覆蓋率、可行性和可觀察性制 定了 多 個 標 準.除 了 對 1000 個 概 念 進 行 分 類 外, LSCOM 還生成了一組用例和查詢,以及廣播新聞 視頻的大型注釋數據集. COMM [14]是由德國、荷蘭以及葡萄牙的研究團 隊聯合推出的多模態本體,其誕生的主要動機在于 LSCOM 為多模態數據語義分析研究創建了一個統 一的框架,但并沒有一個高質量的多模態本體正式 描述,也缺乏與已有的語義 Web技術兼容.針對此 問題,COMM 定義了一個基于 MPEGG7的多模態 本體,由多模態數據模式組成,滿足了本體框架的基 本要求,并且在 OWLDL 中完全形式化.基于本體 的多模態語義理解要求高質量的本體編輯以及精細 粒度的數據描述,因此 COMM 和 LSCOM 并沒有 很好地發展起來.
基于機器學習的多模態語義理解[15]是目前多 模態數據理解的主流方法,和知識圖譜的聯系主要 是利用多模態表示學習方法實現知識補全或應用到 下游任務中.多模態表示學習是指通過利用不同多 模態數據之間的互補性,剔除模態冗余性,從而將多 模態數據的語義表征為實值向量,該實值向量蘊含 了不同模態數據的共同語義和各自特有的特征,如 圖1所示.代表性的工作如 Srivastava等人[16]通過 深度玻爾茲曼機實現圖像和文本的聯合空間生成, 在此基礎上實現多模態數據的統一表示.
多 模 態 知 識 圖 譜 表 示 學 習 的 代 表 性 工 作 是 MoussellyGSergieh等人[17]將視覺特征、文本特征和 知識圖譜的結構特征共同學習成統一的知識嵌入, 在此 過 程 中 使 用 SimpleConcatenation,DeViSE,Imagined這3種不同的方法來集成多模態信息,最 終實現了知識圖譜的多模態表示學習,生成了蘊含 多種模態特征的知識圖譜實體和關系實值向量,相 較于傳統的基于結構的知識圖譜表示學習,其在鏈 接預測和實體分類任務上的效果均有提升.
GAIA [18]是最近提出的一個細粒度的多模態知 識抽取、理解和組織框架,旨在提取不同來源的異構 多媒體數據(包括多模態、多語言等),生成連續的結 構化知識,同時提供一個豐富的細粒度的多模態數 據描述本體.GAIA 整個系統主要有3個優勢:1)大 量使用計算機視覺和自然語言處理的深度學習框架 和其他知識圖譜算法作為其底層模塊,通過結合不 同領域的技術實現了特別是對于圖片資源的實體識 別和多模態實體鏈接,相較于之前的IMGPedia,這 樣的處理保證了對圖片內容細粒度識別的進一步深 入,而對于文本資源,也實現了實體識別和關系抽 取.2)相較于粗粒度的實體,細粒度可以保證內容查 詢的靈活性和更強的易用性,例如對場景的理解和 事件預測,故可以更廣泛地用于實際應用中.3)通過 將圖片和文本實體進行實體鏈接、關系抽取等處理, 實現了多模態知識融合和知識推理,充分利用了多 模態的優勢.GAIA 所提出的多模態知識圖譜提取 框架是當前比較全面的一種范式,有著較好的借鑒 意義.
北京大學的 Peng等人[19]提出了跨媒體智能的 概念,該概念和多模態數據理解的思路類似,其借鑒 人腦跨越視覺、聽覺、語言等不同感官信息認知外部 世界的特性,重點研究了跨媒體分析推理技術中的任 務和目標,包括細粒度圖像分類、跨媒體檢索、文本 生成圖像、視頻描述生成等.其代表性的工作為 PKU FGGXmedia [20],是第1個包含4種媒體類型(圖像、 文本、視頻和音頻)的細粒度跨媒體檢索公開數據集 和評測基準,并且在此基礎上提出了能夠同時學習 4種媒體統一表征的深度網絡模型 FGCrossNet.
中國科學院自動化研究所的張瑩瑩等人[21]提 出了一個基于多模態知識感知注意力機制的問答模 型.該模型首先學習知識圖譜中實體的多模態表示; 然后從多模態知識圖譜中與問答對相關聯的實體的 路徑來推測出回答該問題時的邏輯,并刻畫問答對 之間的交互系.此外,該模型還提出了一種注意力 機制來判別連接問答對的不同路徑之間的重要性.
清華大學的 Liu等人[22]最早在多模態知識圖 譜表示學習方面開展了研究,代表性的工作是IKRL, 其將視覺特征和知識圖譜的結構特征進行聯合表示 學習,進而通過不同模態信息之間的約束生成質量 更高的知識圖譜嵌入. 華南理工大學的 Cai等人[23]提出一種結合圖 像信息和文本信息的神經網絡來對 Twitter等短文 本中的實體進行識別和消歧.其核心思想是將視覺 和文本信息通過表示學習生成的嵌入連接起來,并 且為細粒 度 的 信 息 交 互 引 入 了 共 同 關 注 機 制.在 Twitter數據集上的實驗結果表明,其方法優于單 純依賴文本信息的方法. 中國科學技術大學的 Xu等人[24]在多模態信息 理解與關聯方面探索了如何有效聯合映射與建模跨 模態信息,進而從視頻概括性描述深入至實體間語 義關系,實現視覺元素多層次、多維度語義理解與關 聯,以形成對視頻等多模態內容更為全面的解析,有 效解讀其中的語義信息,進而為支撐面向多模態內 容的智能應用服務奠定重要基礎.其代表性的工作 為 MMEA [24],針對多模態知識圖譜的實體對齊問 題,設計了一種多視圖知識嵌入方法,實現多模態知 識圖譜實體對齊效果的提升.
國防科技大學的 Zhao等人[25]在多模態知識圖 譜的實體對齊任務上進一步進行了探索,其主要將 多模態實體對齊任務從歐氏空間拓展到了雙曲空間 進行建模表示,最終利用雙曲空間內的圖卷積網絡 和視覺特征抽取模型 DENSENET 實現了多個數據 集上的實體對齊效果.
2 大規模動態圖譜表示學習與預訓練模型
2.1 大規模動態表示學習
知識圖譜的本質是一種語義網絡,亦是一種特 殊的圖.動態知識圖譜同樣是一種特殊的動態圖.但 是因為知識圖譜的特殊性,動態知識圖譜可以被分 為2類:一類是時序動態知識圖譜,其中蘊含著時間 特征,知識圖譜的結構、實體和關系都會隨著時間的 推移發生改變;另一類是非時序動態知識圖譜,這類 知識圖譜中沒有顯式的時間特征,但是知識圖譜會 發生更新,有新的實體和關系添加到原有的知識圖 譜中.一般情況來說,已存在知識圖譜中的實體和關 系不會發生改變.
1)時序的動態知識圖譜表示學習
時序知識圖譜是一種特殊的知識圖譜,其相比 傳統的靜態知識圖譜多了時間信息,知識圖譜中的知識不是靜態不變的,反而是因為時間的變化,知識 三元組發生改變.如表2中所總結,我們根據其對時 間信息處理方式的差異將所有算法模型分為三大 類:具有時間約束的歷時性時序知識圖譜表示模型、 基于時間序列編碼的時序知識圖譜表示模型和基于 路徑推理的時序知識圖譜表示模型.其中在各通用 數據上表現最佳的模型為2021年Zhu等人[26]提出 的 CyGNet,其模型結構如圖2所示.
2) 非時序的動態知識圖譜表示學習
對于非時序動態知識圖譜,其在應用和更新過 程中,可以加入新的實體和關系,新實體與原有實體 構成的三元組只要在現實應用場景下為正確的,則可 將此三元組納入到原有的知識圖譜中.所以非時序動 態知識圖譜的規模是可以隨著現實情況不斷增大的, 被認為是一種動態變化的知識圖譜.針對非時序知識 圖譜,其中最初的模型是在原有的 DKRL模型[34]上 進行簡單的更改,直接應用于開放世界知識圖譜上, 其效果相比其他靜態的算法有所提高,成為了這個任務的一個基準結果,其模型基礎框架如圖3所示. DKRL的優勢不僅在于提升了實體表示的區分能 力,而且更在于其對新實體的表示,當一個未在知識 圖譜中出現的新實體出現時,DKRL 將根據新實體 的簡短描述生成它的表示,用于知識圖譜補全.
Shi等人[35]提出了一種以文本為中心的表示方 法 ConMask,其中頭實體、關系和尾實體基于文本 的向量表示是通過注意力模型在名稱和描述上得出 的,并且通過全卷積 神 經 網 絡 (fullyconvolutional neuralnetwork)得到三元組的評分,最后通過評分 完成實體與關系的預測. Shah等人[36]提出了區別于 DKRL和 ConMask 這2種方法的新模型 OWE,其獨立地訓練知識圖 譜和文本向量,然后通過缺失實體的描述文本向量 模糊代替實體的表示,在知識圖譜中進行匹配,最終 得到實體與關系的預測結果.該模型可以調整和選 用不同的基礎知識圖譜表示模型得到不同的融合模 型,在不同環境任務中發揮更好的作用. Wang等人[37]提出了一種基于膠囊網絡的新模 型 CapsGOWKG,其在融合知識圖譜的結構信息和 描述信息后,采用膠囊網絡提取三元組的特征,得到 動態非時序知識圖譜三元組的表示.Gaur等人[38]提 出了一個框架 HUKA,它使用起源多項式通過編碼 生成答案所涉及的邊來跟蹤知識圖譜上查詢結果的 推導. Das等人[39]證明了基于案例的推理(caseGbased reasoning,CBR)系統通過檢索與給定問題相似的 “案例”來解決一個新問題是可以實現動態知識庫 (KBs).其通過收集知識庫中相似實體的推理路徑 來預測實體的屬性.概率模型估計路徑在回答關于 給定實體的查詢時有效的可能性. 在國內,最 初 的 模 型 是 在 Xie等 人[34]提 出 的 DKRL模型上進行簡單的更改,直接應用于開放世 界知識圖譜上,其效果相比其他靜態的算法有所提 高,成為了這個任務的一個基準結果. 杜治娟等人[40]提出一種表示學習方法 TransNS. 其選取相關的鄰居作為實體的屬性來推斷新實體, 并在學習階段利用實體之間的語義親和力選擇負例 三元組來增強語義交互能力.Xie等人[41]提出了一種基于深度遞歸神經網絡 DKGCGJSTD的動態知識圖譜補全模型.該模型學習 實體名稱及其部分文本描述的嵌入,將看不見的實 體連接到知識圖譜.為了建立文本描述信息與拓撲 信息之間的相關性,DKGCGJSTD 采用深度記憶網 絡和關聯匹配機制,從實體文本描述中提取實體與 關系之間的相關語義特征信息.然后利用深度遞歸 神經網絡對拓撲結構與文本描述之間的依賴關系進 行建模. Zhou等人[42]提出了一種聚合器,采用注意網 絡來獲取實體描述中單詞的權重.這樣既不打亂詞 嵌入中的信息,又使聚合的單詞嵌入更加高效. Niu等人[43]使用多重交互注意(MIA)機制來 模擬頭部實體描述、頭部實體名稱、關系名稱和候選 尾部實體描述之間的交互,以形成豐富的表示.此 外,還利用頭部實體描述的額外文本特征來增強頭 部實體的表示,并在候選尾部實體之間應用注意機 制來增強它們的表示.
2.2 知識圖譜的預訓練模型
知識廣泛存在于文本、結構化及其他多種模態 的數據中.除了通過抽取技術將知識從原始數據中 萃取出來以支持搜索、問答、推理、分析等應用以外, 另外一種思路是利用數據中本身存在的基本信號對 隱藏的知識進行預訓練.預訓練的核心思想是“預訓 練和微調”,例如預訓練一般包含2個步驟:首先利 用大量的通用知識數據訓練一個知識模型,獲取文 本中包含的通用知識信息;然后在下游任務微調階 段,針對不同下游任務,設計相應的目標函數,基于 相對較少的監督數據進行微調,便可得到不錯的效 果.近2年對面向知識表示、面向自然語言、面向下 游任務和基于圖結構的預訓練模型這4類有所進 展,代表性模型如表3所示:
**1) 面向知識圖譜表示的預訓練模型 **
在詞向量表示中,預訓練模型分為2個部分,分 別是預訓練與微調,這樣的模式可以使詞向量表示 更適合于不同的應用環境.同樣地,在面向知識表示 的預訓練模型中,同樣先采用預訓練的向量表示,然 后再基于此進行進一步的深化挖掘.這類預訓練模 型,旨在通過引入新的處理方法對預訓練的知識表 示進行進一步的特征挖掘,以此可以得到原有表示 不具備的特征,如 ConvKB [44],CapsE [45]等.這類模 型不能最大化地提取三元組的特征,模型預訓練效 果依賴于基礎知識圖譜表示學習模型的選擇.
2) 面向自然語言問題的預訓練模型
知識圖譜在處理與自然語言相關的任務時,必 不可少地與語言模型相互聯系.這一類預訓練模型, 主要是將知識融合到一個詞向量模型中形成一個既 包含知識又具備上下文信息的預訓練詞向量.近幾年 的相關研究主要是將知識融合到BERT 中形成新的 預訓練模型.典型的模型有:CMU 和微軟聯合提出的 JAKET [46]、清華大學和華為聯合提出的 ERNIE [47]、 北京大學和騰訊聯合提出的模型 KGBERT [48]、復旦 大學和亞馬遜提出的 CoLAKE [49]、清華大學和 Mila 實驗室提出的 KEPLER [50]等.這類模型利用實體信 息增強了預訓練效果并減少了訓練時間,但不適用 于缺少實體相關描述的預訓練任務. 3) 面向下游任務的預訓練模型
知識圖譜預訓練模型還可以通過不同的特殊下 游任務來幫助向預訓練模型融入任務相關的知識. 主要方法是在對具體的下游任務進行微調時,可以 采用不同的適配器來針對性地加入特征,進而增強 其效果.代表性的工作有復旦大學和微軟提出的 KG ADAPTER [51]和阿里巴巴實驗室提出的“預訓練+ 知識向量服務”的模式 PKGM [52],結構如圖4所示. 這類模型需要盡可能大且全量的知識圖譜數據集, 這樣才能發揮模型預訓練的優勢,因此模型對于圖 譜完成性差、稀疏度高的知識圖譜預訓練較差.
4) 基于圖譜中圖結構的預訓練模型
知識圖譜是一種特殊的信息圖,可以通過適用 于圖的方法 GNN 獲取知識圖譜的部分結構特征. 圖神經網絡(graphneuralnetworks,GNNs)已被 證明是建模圖結構數據的強大工具,然而,訓練 GNN 模型通常需要大量的特定任務的標記數據,而獲取這些數據往往非常昂貴.利用自監督 GNN 模型對 未標記數據進行預訓練是減少標記工作的一種有效 方法,預訓練學習到的模型可用在只有少量標簽圖 譜數 據 的 下 游 任 務 中.代 表 性 的 工 作 有:GPTG GNN [53],GI [54],GraphCL [55],GCC [56]等.這 類 方 法 不依賴于圖譜的節點與邊信息,僅利用圖結構進行 預訓練,避免復雜的特征工程,但缺陷是耗時巨大.
3 神經符號結合的知識更新與推理
ACM 圖靈獎獲得者 YoshuaBengio在 NeuIPS 2019的特邀報告中明確提到,深度學習需要從系統1 到系統2轉化.這里所說的系統1和系統2來源于 認知科學中的雙通道理論,其中系統1可以理解為 神經系統,它表示直覺的、快速的、無意識的系統;系 統2可以理解為符號系統,它表示慢的、有邏輯的、 有序的、可推理的系統.Bengio所提的系統2關于深 度學習的想法與“神經+符號”的知識表示與推理目 標基本一致.神經系統優勢在于能夠輕松處理圖像 識別、文本分類等一類機器學習擅長的問題,模型能 夠允許數據噪音的存在,但缺點在于其端到端的過 程缺乏可解釋性,并且在模型求解答案過程中難以 嵌入已有的人類知識.相反地,符號系統可以完美地 定義各類專家經驗規則和知識,形成對結構化數據 的各類原子操作,在此基礎上通過搜索和約束進行 求解,整個過程的解釋性和可理解性也很強.但是, 符號系統的缺點在于難以處理很多擁有異常數據和 噪音的場景.然而,“神經+符號”到底如何有機結合, 實現起來并不容易.知識圖譜從早期的知識庫、專家 系統,到谷歌2012年正式提出知識圖譜,其發展歷 程也體現了神經系統和符號系統的各自發展縮影, 整體上可分為神經助力符號和符號助力神經兩大類.
3.1 神經助力符號推理
神經助力符號推理方法的特點在于將神經的方 法應用在傳統符號系統的問題求解,通常主要是解 決淺層的推理問題,其核心在于如何將神經系統學 到的“淺層知識表示”(計算結構和連續型數值表示 的知識)更新到已有的符號知識體系中(離散的、顯 式的符號化知識),敏捷邏輯(swiftlogic)是牛津大學 Gottlob等 人[57]關于“神經+符號”的嘗試,如圖5所示,該系 統既能夠執行復雜的推理任務(以 Datalog ± 語言為 理論基礎),同時在可接受的計算復雜度下,利用神 經網絡在大數據上實現高效和可擴展的推理.此外,敏捷邏輯還定義了與企業數據庫、網絡、機器學習和 分析軟件包的接口,以實現與數據庫和人工智能中 不斷出現的新技術相結合.敏捷邏輯的特點是不局 限于模型層面的結合,更關注從知識圖譜管理系統 框架層面來使用神經和符號多種技術.
3.2 符號助力神經計算
符號助力神經方法的特點在于將符號的方法應 用在神經網絡的訓練過程中.
3.3 神經符號結合的知識表示與推理
一個完美的“神經 + 符號”系統的特點和優勢 為:1)能夠輕松處理目前主流機器學習擅長的問題; 2)對于數據噪音有較強的魯棒性;3)系統求解過程 和結果可以被人容易地進行理解、解釋和評價;4)可 以很好地進行各類符號的操作;5)可以無縫地利用 各種背景知識.從以上標準來看,實現神經符號知識 表示的充分結合還有很長一段路要走.國外目前最 具代表性的研究為 Cohen等人[91]和 Lamb等人[92] 的研究工作. Cohen [91]作為人工智能領域的重要學者,近年 來發表了一系列的神經符號結合的研究工作,其中 典型工作 DrKIT 的整體框架如圖6所示.DrKIT 使 用語料庫作為虛擬的知識圖譜,進而實現復雜多跳 問題求解.DrKIT 采用傳統知識圖譜上的搜索策略 進行文本數據的遍歷,主要是遵循語料庫中包含文 本提及實體之間的關系路徑.在每個步驟中,DrKIT 使用稀疏矩陣 TF∕IDF 索引和最大內積搜索,并且 整個模塊是可微的,所以整個系統可使用基于梯度 的方法從自然語言輸入到輸出答案進行訓練.DrKIT 非常高效,每秒比現有的多跳問答系統快10~100 倍,同時保持了很高的精度.
4 研究進展比較
4.1 非結構化多模態數據組織與理解
在非結構化多模態數據組織方面,多模態知識 圖譜目前已經成為國內外學者對于多種類型數據組 織的共識,國內外的學者均有新的研究成果.對于國 外研究團隊而言,其核心思路依然是從維基百科中 抽取已有知識圖譜的多模態數據資源,而國內研究 團隊將范圍擴展到了通過全域的數據資源來補充已 有知識圖譜中的視覺和文本信息.可以看出,對于知 識圖譜而言,開放域的非結構化數據資源豐富,但是 如何同已有結構化的圖譜融合并建立不同模態數據 之間的語義關聯是關鍵.此外,國內研究團隊面向垂 直領域(智慧教育)提出了系統級的研究工作,這一 點要比國外的研究更具有落地思維,可以預見未來國 內在更多垂域會出現以多模態知識圖譜為基礎的系 統和應用.在多模態數據理解方面,受益于深度學習技術的持續發展,國內外在該領域都取得了最新的 研究成果.可以看出,國內研究人員已經可以從延續 他人工作轉變為開辟新的研究領域,這一點說明國 內在該領域走在世界學術前沿.值得一提的是,國內 學者在知識圖譜驅動的多模態數據理解方面同樣具 有較強的應用落地思維,分別面向推薦系統等垂直 場景進行了探索嘗試.
4.2 大規模動態知識圖譜表示學習與預訓練
在大規模動態表示學習方面,國內外均有新的 研究成果,在不同的方向有所突破.國外在序列模型 編碼方法上有更多模型被提出,對 GCN,GNN 等類 型的編碼器進行了改進,在動態表示方面取得了更 好的結果;而國內主要的工作集中在基于分解、基于 歷時性編碼和基于隨機游走改進3個方面,雖然與 國外的方法思路不同,但是在動態表示方面也有亮 點和突出表現.知識圖譜預訓練是近兩年的一個熱 點方向,國內外很多研究機構都針對此方面有所研 究并做出了突破.國外在圖譜表示的預訓練方面有 一些新的工作,并在基于知識圖譜圖結構的預訓練 方面有更多的進展.而國內,基于自然語言方面的知 識預訓練有更多的新模型產生,諸如北京大學、清華 大學等學校,百度等企業均在這方面有新的研究成 果產生.尤其是面向基于大規模知識下游任務的預 訓練模型,有了重大突破,對數以10億計規模的知 識進行了預訓練,并應用于阿里電商平臺,為商品推 薦、語義搜索和智能問答等下游任務提供支持.
4.3 神經符號結合的知識表示與推理
在神經助力符號方面,國內外均有新的研究成 果.通過比較可以看出,國外研究團隊在知識圖譜表 示學習技術的初期走在該領域的前沿,提出了一系 列開創性的工作;國內的研究團隊主要針對各類模 型和數據特點進行改進,在后期逐漸提出了創新性 更高和實用性更強的工作,尤其是知識圖譜表示學 習技術在其他任務(如智能問答、近似搜索、推薦系 統、實體對齊、社交網絡等)中有效地使用,國內研究 團隊走在學術的前沿,可以看出國內學者更傾向于 應用層級的研究.除此之外,在邏輯推理等偏理論的 模型中如何引入神經網絡,國內研究工作還不多.在 符號助力神經方面,國內外都走在學術的前沿.在神 經符號結合方面,谷歌公司依然走在世界的最前沿, 提出了一系列開創性工作,國內這方面的工作還偏 少.不過整個神經符號的有機結合還屬于初期探索 領域,隨著越多的研究者開始關注,未來我國研究團 隊還有很大的提升空間.
總結
本文圍繞支撐新一代知識圖譜的關鍵技術研究 進展與趨勢展開系統性論述,內容包括:非結構化多模態圖譜組織與理解、大規模動態圖譜表示學習與預 訓練模型、神經符合結合的知識表示與推理.在此基 礎上,給出了國內與國際的當前研究進展,并對國內 外研究進展進行比較.最后對這些關鍵技術的發展趨 勢進行了展望.
摘 要:智能博弈領域已逐漸成為當前 AI 研究的熱點之一,游戲 AI 領域、智能兵棋領域都在近年取得了一系列 的研究突破。但是,游戲 AI 如何應用到實際的智能作戰推演依然面臨巨大的困難。綜合分析智能博弈領域的國 內外整體研究進展,詳細剖析智能作戰推演的主要屬性需求,并結合當前最新的強化學習發展概況進行闡述。從 智能博弈領域主流研究技術、相關智能決策技術、作戰推演技術難點 3 個維度綜合分析游戲 AI 發展為智能作戰 推演的可行性,最后給出未來智能作戰推演的發展建議。以期為智能博弈領域的研究人員介紹一個比較清晰的發 展現狀并提供有價值的研究思路。
關鍵詞:智能博弈;游戲 AI;智能作戰推演;智能兵棋;深度強化學習
以2016年AlphaGo的成功研發為起點,對智能博弈領域的研究獲得突飛猛進的進展。2016年之前,對兵棋推演的研究還主要集中在基于事件驅動、規則驅動等比較固定的思路。到2016年,受AlphaGo的啟發,研究人員發現智能兵棋、智能作戰推演的實現并沒有想象得那么遙遠。隨著機器學習技術的發展,很多玩家十分憧憬游戲中有 AI 加入從而改善自己的游戲體驗[1]。同時,在智能作戰推演領域,不斷發展的機器學習游戲 AI 技術也為智能作戰推演的發展提供了可行思路[2]。傳統作戰推演AI主要以基于規則的AI和分層狀態機的AI決策為主,同時以基于事件驅動的機制進行推演[3-4]。然而,隨著近些年國內外在各種棋類、策略類游戲領域取得新突破,智能作戰推演的發展迎來了新的機遇[5]。
國內游戲 AI 領域取得了標志性的進步。騰訊《王者榮耀》的《覺悟AI》作為一款策略對抗游戲取得了顯著成績,可以擊敗97%的玩家,并且多次擊敗頂尖職業團隊[6]。網易伏羲人工智能實驗室在很多游戲環境都進行了強化學習游戲 AI 的嘗試[6],如《潮人籃球》《逆水寒》《倩女幽魂》。超參數科技(深圳)有限公司打造了游戲AI平臺“Delta”,集成機器學習、強化學習、大系統工程等技術,通過將AI與游戲場景結合,提供人工智能解決方案[7]。啟元AI“星際指揮官”在與職業選手的對抗中也取得了勝利[8]。北京字節跳動科技有限公司也收購了上海沐瞳科技有限公司和北京深極智能科技有限公司,準備在游戲AI領域發力。除了游戲AI領域,國內在智能兵棋推演領域也發展迅速。國防大學兵棋團隊研制了戰略、戰役級兵棋系統,并分析了將人工智能特別是深度學習技術運用在兵棋系統上需要解決的問題[9]。中國科學院自動化研究所在2017年首次推出《CASIA-先知1.0》兵棋推演人機對抗AI[10],并在近期上線“廟算·智勝”即時策略人機對抗平臺[11]。此外,由中國指揮與控制學會和北京華戍防務技術有限公司共同推出的專業級兵棋《智戎·未來指揮官》在第三屆、第四屆全國兵棋推演大賽中成為官方指定平臺。中國電科認知與智能技術重點實驗室開發了MaCA智能博弈平臺,也成功以此平臺為基礎舉辦了相關智能博弈賽事。南京大學、中國人民解放軍陸軍工程大學、中國電子科技集團公司第五十二研究所等相關單位也開發研制了具有自主知識產權的兵棋推演系統[12,13,14,15]。2020年,國內舉辦了4次大型智能兵棋推演比賽,這些比賽對于國內智能博弈推演的發展、作戰推演領域的推進具有積極影響。游戲 AI 和智能兵棋的發展也逐漸獲得了國內學者的關注,胡曉峰等人[5]提出了從游戲博弈到作戰指揮的決策差異,分析了將現有主流人工智能技術應用到戰爭對抗過程中的局限性。南京理工大學張振、李琛等人利用PPO、A3C算法實現了簡易環境下的智能兵棋推演,取得了較好的智能性[16-17]。中國人民解放軍陸軍工程大學程愷、張可等人利用知識驅動及遺傳模糊算法等提高了兵棋推演的智能性[18-19]。中國人民解放軍海軍研究院和中國科學院自動化研究所分別設計和開發了智能博弈對抗系統,對于國內智能兵棋推演系統的開發具有重要參考價值[20]。中國人民解放軍國防科技大學劉忠教授團隊利用深度強化學習技術在《墨子?未來指揮官系統》中進行了一系列智能博弈的研究,取得了突出的成果[21]。中國科學院大學人工智能學院倪晚成團隊提出一種基于深度神經網絡從復盤數據中學習戰術機動策略模型的方法,對于智能博弈中的態勢認知研究具有重要參考價值[22]。
總體來說,國內在智能博弈領域進行了一系列的研究,嘗試將該技術應用到作戰推演領域,建立了具有自主產權的博弈平臺,技術層面也不斷突破,不再局限于傳統的行為決策樹、專家知識庫等,開始將強化學習技術、深度學習技術、遺傳模糊算法等引入智能博弈,取得了一系列的關鍵技術的突破。但是,當前的研究主要聚焦在比較簡單的智能博弈環境,對復雜環境及不完全信息的博弈對抗研究仍然需要進一步探索。
國外游戲 AI 領域則取得了一系列突出成果,尤其是深度強化學習技術的不斷發展,游戲 AI 開始稱霸各類型的游戲[23]。2015年DeepMind團隊發表了深度Q網絡的文章,認為深度強化學習可以實現人類水平的控制[24]。2017年,DeepMind團隊根據深度學習和策略搜索的方法推出了AlphaGo[25],擊敗了圍棋世界冠軍李世石。此后,基于深度強化學習的 AlphaGo Zero[26]在不需要人類經驗的幫助下,經過短時間的訓練就擊敗了AlphaGo。2019年, DeepMind 團隊基于多智能體(agent)深度強化學習推出的AlphaStar[27]在《星際爭霸II》游戲中達到了人類大師級的水平,并且在《星際爭霸II》的官方排名中超越了 99.8%的人類玩家。《Dota 2》AI“OpenAI Five”在電競游戲中擊敗世界冠軍[28], Pluribus 在 6 人無限制德州撲克中擊敗人類職業選手[29]。同時DeepMind推出的MuZero在沒有傳授棋類運行規則的情況下,通過自我觀察掌握圍棋、國際象棋、將棋和雅達利(Atari)游戲[30]。與軍事推演直接相關的《CMANO》和《戰爭游戲:紅龍》(Wargame:Red Dragon),同樣也結合了最新的機器學習技術提升了其智能性[31]。美國蘭德公司也對兵棋推演的應用進行相關研究,利用兵棋推演假設分析了俄羅斯和北大西洋公約組織之間的對抗結果,并利用智能兵棋推演去發現新的戰術[32]。蘭德研究員也提出將兵棋作為美國軍事人員學習戰術戰法的工具[33]。美國海軍研究院嘗試使用深度強化學習技術開發能夠在多種單元和地形類型的簡單場景中學習最佳行為的人工智能代理,并將其應用到軍事訓練及軍事演習[34-35]。
但就目前而言,國外的研究也遇到了瓶頸。雖然也嘗試將深度強化學習技術利用到作戰領域,但是就目前發表的論文和報告來看,國外學者、研究人員將機器學習技術應用到作戰推演 AI 中還有很多問題需要解決,現階段也是主要在游戲 AI 領域及簡單的作戰場景進行實驗驗證及分析。作戰推演AI 的設計也不僅僅是把機器學習技術照搬照用這么簡單。但是必須肯定的是,隨著未來計算機硬件的發展和機器學習技術的完善,作戰推演 AI 會迎來一波革命式的發展,給各類作戰智能指揮決策帶來翻天覆地的變化。本文從智能博弈的重要應用領域——作戰推演分析了國內外整體背景,進而引出作戰推演的技術需求,并給出當前可參考的主流及小眾技術思路。同時,對可能出現的技術難點進行了分析并給出解決方案建議。最后,對作戰推演的未來發展提出建議。
狀態空間是作戰推演中的每個作戰實體的位置坐標、所處環境、所處狀態等要素的表現,是深度強化學習進行訓練的基礎。在圍棋中,狀態空間就是棋盤上每個點是否有棋子。在《覺悟AI》中,狀態空間是每一幀、每個單位可能有的狀態,如生命值、級別、金幣[36,37,38,39]。在《墨子·未來指揮官系統》中,狀態空間主要是每個作戰單元實體的狀態信息,是由想定中敵我雙方所有的作戰單元信息匯聚形成的。本節尤其要明確狀態空間和可觀察空間是可區分的,可觀察空間主要是每個 agent 可以觀察到的狀態信息,是整個狀態空間的一部分。作戰推演中的狀態空間將更加復雜,具有更多的作戰單位和單位狀態。針對敵我雙方的不同作戰單位、不同單位屬性、不同環境屬性等定義作戰推演的狀態空間屬性。例如敵我雙方坦克單元應包括坐標、速度、朝向、載彈量、攻擊武器、規模等。陸戰環境應包括周圍道路信息、城鎮居民地、奪控點等。
動作空間是指在策略對抗游戲中玩家控制算子或游戲單元可以進行的所有動作的集合。對于圍棋來說,動作空間為361個,是棋盤上所有可以落子的點。對于《王者榮耀》和《Dota》這類游戲來說,動作空間主要是玩家控制一個“英雄”進行的一系列操作,玩家平均水平是每秒可以進行一個動作,但是需要結合走位、釋放技能、查看資源信息等操作。例如《覺悟AI》的玩家有幾十個動作選項,包括24個方向的移動按鈕和一些釋放位置/方向的技能按鈕[34]。因此每局多人在線戰術競技(multiplayer online battle arena,MOBA)游戲的動作空間可以達到1060 000+。假設游戲時長為45 min,每秒30幀,共計81 000幀,AI每4幀進行一次操作,共計20 250次操作,這是游戲長度。任何時刻每個“英雄”可能的操作數是170 000,但考慮到其中大部分是不可執行的(例如使用一個尚處于冷卻狀態的技能),平均的可執行動作數約為1 000,即動作空間[37]。因此,操作序列空間約等于1 00020 250= 1060 750。而對于《星際爭霸》這類實時策略對抗游戲來說,因為需要控制大量的作戰單元和建筑單元,動作空間可以達到1052 000[38]。而對于《CMANO》和《墨子·未來指揮官系統》這類更加貼近軍事作戰推演的游戲來說,需要對每個作戰單元進行大量精細的控制。在作戰推演中,每個作戰單元實際都包括大量的具體執行動作,以作戰飛機為例,應包括飛行航向、飛行高度、飛行速度、自動開火距離、導彈齊射數量等。因此,實際作戰推演需要考慮的動作空間可以達到10100 000+。可以看出,對于作戰推演來說,龐大的動作空間一直是游戲 AI 邁進實際作戰推演的門檻。現有的解決思路主要是考慮利用宏觀AI訓練戰略決策,根據戰略決策構建一系列綁定的宏函數,進行動作腳本設計。這樣的好處是有效降低了動作空間設計的復雜度,同時也方便高效訓練,但是實際問題是訓練出來的 AI 總體缺乏靈活性,過于僵化。
對于動作空間,還需要考慮其是離散的還是連續的,Atari和圍棋這類游戲動作都是離散動作空間[25,39-40],《星際爭霸》《CMANO》《墨子·未來指揮官系統》這類游戲主要是連續動作空間[38]。對于離散動作,可以考慮基于值函數的強化學習進行訓練,而對于連續動作,可以考慮利用基于策略函數的強化學習進行訓練。同時,離散動作和連續動作也可以互相轉化。國內某兵棋推演平臺由原先的回合制改為時間連續推演,即把回合制轉化為固定的時間表達。同時對于連續動作,也可以在固定節點提取對應的動作,然后將其轉化為離散動作。
智能博弈中的決策主要是指博弈對抗過程中的宏觀戰略的選擇以及微觀具體動作的選擇。宏觀戰略的選擇在《墨子·未來指揮官系統》推演平臺中體現得比較明顯。在推演比賽開始前,每個選手要進行任務規劃,這個任務規劃是開始推演前的整體戰略部署,例如分配導彈打擊目標,規劃艦艇、戰斗機活動的大致區域,以及各個任務的開始執行時間等。這一決策空間與想定中的作戰單元數量、任務規劃數量相關。在制定完成宏觀戰略決策后,推演階段即自主執行所制定的宏觀戰略決策。同時,在推演過程中也可以進行微觀具體動作的干預,這一階段的具體動作和作戰單元數量、作戰單元動作空間成正比。在實際作戰推演中利用智能算法進行智能決策,首先需要明確決策空間數量。在現有的《墨子·未來指揮官系統》中,針對大型對抗想定,計算機基本需要每秒進行數百個決策,一局想定推演中雙方博弈決策空間數量預估為 1080+個,而對于《星際爭霸》《Dota 2》和《王者榮耀》這類即時戰略(real-time strategy,RTS)游戲,決策空間會低一些。實際作戰推演每小時的決策空間數量將高于 1050+個。對于這類智能決策的方案,現有 RTS游戲中提出的思路是利用分層強化學習的方法進行解決,根據具體對抗態勢進行宏觀戰略決策的選擇,然后根據不同的決策再分別執行對應的微觀具體動作,這樣可以有效降低智能決策數量,明顯提高智能決策的執行效率。
博弈對抗的勝利是一局游戲結束的標志。而不同游戲中的勝利條件類型也不同,圍棋、國際象棋這些棋類博弈對抗過程中有清晰明確的獲勝條件[30]。而 Atari 這類游戲[40]只需要獲得足夠的分數即可獲得勝利。對于《王者榮耀》這類推塔游戲,不管過程如何,只要最終攻破敵方水晶就可以獲取勝利。這些勝利條件使得基于深度強化學習技術的游戲AI開發相對容易,在回報值設置中給予最終獎勵更高的回報值,總歸能訓練出較好的 AI 智能。然而對于策略對抗游戲,甚至實際作戰推演來說,獲勝條件更加復雜,目標更多。比如,有時可能需要考慮在我方損失最低的情況下實現作戰目標,而有時則需要不計代價地快速實現作戰目標,這些復雜多元的獲勝條件設置將使得強化學習的回報值設置不能是簡單地根據專家經驗進行賦值,而需要根據真實演習數據構建獎賞函數,通過逆強化學習技術滿足復雜多變的作戰場景中不同階段、不同目標的作戰要求。
博弈對抗過程中最核心的環節是設置回報值,合理有效的回報值可以保證高效地訓練出高水平AI。對于《星際爭霸》《王者榮耀》等游戲,可以按照固定的條件設置明確的回報值,例如將取得最終勝利設置為固定的回報值。但是一局游戲的時間有時較長,在整局對抗過程中,如果只有最終的回報值將導致訓練非常低效。這就是作戰推演中遇到的一個難題,即回報值稀疏問題。為了解決這個難題,現有的解決方案都是在對抗過程中設置許多細節條件,如獲得回報值或損失回報值的具體行為。比如在“廟算·智勝”平臺中的博弈對抗,可以設置坦克擊毀對手、占領奪控點即可獲得回報值,如果被打擊、失去奪控點等則會損失回報值,甚至為了加快收斂防止算子長期不能達到有效地點,會在每步(step)都損失微小的回報值。《覺悟AI》也同樣設置了詳細的獎賞表[36],從資源、KDA(殺人率(kill,K),死亡率(death,D),支援率(assista, A))、打擊、推進、輸贏 5 個維度設置了非常詳細的具體動作回報值。這樣就可以有效解決回報值稀疏的問題。但是,對于復雜的作戰推演來說,設計回報函數可能還需要更多的細節。因為作戰情況將更加復雜多樣,需要利用逆強化學習[41-42],通過以往的作戰數據反向構建獎賞函數。
戰爭迷霧主要是指在博弈對抗過程中存在信息的不完全情況,我方并不了解未探索的區域實際的態勢信息。圍棋、國際象棋這類博弈對抗游戲中不存在這類問題。但是在《星際爭霸》《Dota 2》《王者榮耀》以及《CMANO》等RTS游戲中設計了這一機制。實際的作戰推演過程中同樣也存在此類問題,但是情況更加復雜。在實際作戰推演中,可以考慮利用不完全信息博弈解決這個問題,已有學者利用不完全信息博弈解決了德州撲克中的不完全信息問題[29],但是在實際作戰推演中這一問題還需要進一步探討研究。
這里需要對智能博弈中的觀察信息與游戲狀態空間進行區分,觀察信息主要是指博弈的 agent在當前態勢下可以獲取的態勢信息,是部分狀態信息。由于在智能博弈對抗過程中會產生戰爭迷霧問題,因此需要在處理博弈信息時設置 agent 可以獲取到的信息。《星際爭霸》中觀察信息主要有兩層意思,一個層面是屏幕限制的區域更易于獲取態勢信息,因為玩家更直觀的注意力在屏幕局域,部分注意力在小地圖局域。為了更加符合實際, AlphaStar也按照這種限制對《星際爭霸》中的注意力區域進行限制,從而更好地防止 AI 產生作弊行為。而這也是部分《星際爭霸》AI被人詬病的原因,即沒有限制機器的關注區域。另一個層面是對《星際爭霸》中作戰單元可觀察區域內的態勢信息進行獲取,對于不能獲取的態勢信息則只能評估預測,而這一部分則涉及對手建模部分,主要利用部分可觀察馬爾可夫決策過程(partially observable Markov decision process,POMDP)[43],這一技術明顯難于完全信息博弈。而對于圍棋游戲來說,其中的態勢信息是完全可獲取的,屬于完全信息博弈,態勢信息即觀察信息。并且圍棋游戲屬于回合制,相對于即時策略游戲,其有更加充分的獲取態勢信息的時間。因此,則可以利用蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)算法對所獲取的圍棋游戲中的觀察信息進行詳細分析,計算出所有可能的結果,進而得出最佳的方案策略。《Dota 2》中的觀察信息是指所控制的某個“英雄”所獲取的態勢信息,其主要也是對主屏幕的態勢信息和小地圖的態勢信息進行結合處理。《王者榮耀》也與此類似,其主要以小地圖的宏觀信息進行訓練,然后以此為基礎為戰略方案提供支持,如游戲中的“英雄”是去野區發育還是去中路對抗。同時,對主屏幕態勢信息進行特征提取,結合強化學習訓練,可以得出戰術層面的方案和建議,是去選擇回塔防御還是進草叢躲避,或者推塔進攻。墨子兵棋推演系統和《CMANO》則更加接近真實作戰推演,在作戰信息獲取各個方面都高度模擬了作戰推演的場景,需要獲取具體的對空雷達、對地雷達、導彈探測、艦艇雷達等信息后才能判斷態勢信息,這部分可觀察信息非常復雜,需要結合各種情況才能發現部分目標,對于戰爭迷霧更加真實。因此,作戰推演觀察信息完全可以借鑒POMDP進行可觀察信息建模,但還需要設置各種更加符合真實裝備的作戰情況,需要在環境中提前設置有針對性的條件。
在博弈對抗過程中對手 AI 的建模也是至關重要的,不同水平的AI會導致博弈對抗的勝率不同,并且直接影響推演對抗的價值[39,40,41,42,43,44,45]。如果對手 AI水平過低,就不能逼真地模擬假設對手,博弈過程和推演結果也價值不高。在 DeepMind 開發的AlphaGo和AlphaStar中,AI性能已經可以擊敗職業選手,通過訓練后產生的決策方案已經可以給職業選手新的戰術啟發。國內《墨子?未來指揮官系統》也與國內高校合作,研發的基于深度強化學習的智能 AI 已經可以擊敗全國兵棋大賽十強選手。而在中國科學院自動化研究所開發的“廟算?智勝”上,積分排名前三名的均是AI選手,勝率均在80%以上[11]。但是,現有對手建模主要還是聚焦在一對一的對手建模,很少學者研究多方博弈,而這在實際作戰推演中更加需要。在實際作戰對抗博弈過程中普遍會考慮多方博弈,如在《墨子?未來指揮官系統》的海峽大潮想定中,紅方不僅面對藍方,還有綠方,藍方和綠方屬于聯盟關系。這就需要在對手建模中充分考慮這種復雜的博弈關系。
博弈對抗的環境因素也是影響智能決策的重要因素之一。在圍棋、國際象棋這些棋類游戲中,想定是永久固定不變的,而且也完全沒有環境的影響,因此AlphaGo這類智能AI完全沒有考慮環境的因素。在《覺悟 AI》《Dota 2》這類游戲中就需要考慮不同“英雄”在同一個場景中會產生不同的影響。不同的“英雄”陣容搭配也會對推演結果產生不同的影響,《覺悟AI》嘗試利用強化學習技術,結合歷史數據解決這一問題。這對于作戰推演的武器裝備搭配也具有啟發價值。但是在實時策略游戲中要考慮更加復雜的環境因素及其影響,不僅作戰單元會產生變化,并且在不同的作戰推演中,不同的環境之中也會有不同的地形、地貌,這些因素會對作戰推演的過程產生非常重要的影響。《CMANO》《墨子·未來指揮官系統》《戰爭游戲:紅龍》中都需要考慮地形因素。例如《CMANO》中登陸作戰需要考慮水雷所在區域、登陸艦艇吃水深度,否則會產生擱淺,不能在理想區域登陸會對作戰目標產生較大負面影響。因此,對于實際作戰推演來說,最大的挑戰是防止訓練的深度強化學習AI 對某個想定產生過擬合。作戰場景是千變萬化的,傳統的基于規則的AI就很難適應變化的想定,早期的《先知?兵圣》比賽中就比較突出地顯示了這一問題。強化學習也容易訓練出某個過擬合的模型,導致只在某個想定會有較好的AI智能性,假如更換作戰想定就需要重新訓練很長時間。為了解決這一問題,現有思路是利用遷移學習、先驗知識和強化學習的思路來增強算法的適應性,并可以加速回報函數收斂,保證快速訓練出高水平的AI模型。
本節針對智能作戰推演所需要的關鍵屬性,結合當前游戲AI、智能兵棋等相關博弈平臺,利用相關文獻[6,8,24-25,29-30,37-39,43,46-49]進行分析,經過對比不難發現游戲 AI 過渡到智能兵棋,甚至是智能作戰推演的難度,各個關鍵屬性也是未來需要研究突破的關鍵點,具體見表1。
摘要: 機器學習以強大的自適應性、自學習能力, 成為網絡空間防御的研究熱點和重要方向. 然而, 機器學習模型在網絡空間環境下存在受到對抗攻擊的潛在風險, 可能成為防御體系中最為薄弱的環節, 從而危害整個系統的安全. 為此, 科學分析安全問題場景, 從運行機理上探索算法可行性、安全性, 對運用機器學習模型構建網絡空間防御系統大有裨益. 本文全面綜述對抗機器學習這一跨學科研究領域在網絡空間防御中取得的成果及以后的發展方向. 首先介紹了網絡空間防御、對抗機器學習等背景知識. 其次, 針對機器學習在網絡空間防御中可能遭受的攻擊, 引入機器學習敵手模型概念, 目的是科學評估其在特定威脅場景下的安全屬性. 而后, 針對網絡空間防御的機器學習算法, 分別論述了在測試階段發動規避攻擊、在訓練階段發動投毒攻擊、在機器學習全階段發動隱私竊取的方法, 進而研究如何在網絡空間對抗環境下, 強化機器學習模型的防御方法. 最后, 展望了網絡空間防御中對抗機器學習研究的未來方向和有關挑戰.