近年來, 深度強化學習(deep reinforcement learning, DRL)已經在諸多序貫決策任務中取得矚目成功, 但當前, 深度強化學習的成功很大程度依賴于海量的學習數據與計算資源, 低劣的樣本效率和策略通用性是制約其進一步發展的關鍵因素. 元強化學習(meta-reinforcement learning, Meta-RL)致力于以更小的樣本量適應更廣泛的任務, 其研究有望緩解上述限制從而推進強化學習領域發展. 以元強化學習工作的研究對象與適用場景為脈絡, 對元強化學習領域的研究進展進行了全面梳理: 首先, 對深度強化學習、元學習背景做基本介紹; 然后, 對元強化學習作形式化定義及常見的場景設置總結, 并從元強化學習研究成果的適用范圍角度展開介紹元強化學習的現有研究進展; 最后, 分析了元強化學習領域的研究挑戰與發展前景.
深度強化學習技術以一種端到端學習的通用形式融合了深度學習的感知能力與強化學習的決策能力, 在多個領域 得到了廣泛應用, 形成了人工智能領域的研究熱點. 然而, 由于對抗樣本等攻擊技術的出現, 深度強化學習暴露出巨大的安 全隱患. 例如, 通過在真實世界中打印出對抗貼紙便可以輕松地使基于深度強化學習的智能系統做出錯誤的決策, 造成嚴重 的損失. 基于此, 本文對深度強化學習領域對抗攻防技術的前沿研究進行了一次全面的綜述, 旨在把握整個領域的研究進展 與方向, 進一步推動深度強化學習對抗攻防技術的長足發展, 助力其應用安全可靠. 結合馬爾科夫決策過程中可被擾動的空 間, 本文首先從基于狀態、 基于獎勵以及基于動作角度的詳細闡述了深度強化學習對抗攻擊的進展; 其次, 通過與經典對抗 防御算法體系進行對齊, 本文從對抗訓練、 對抗檢測、 可證明魯棒性和魯棒學習的角度歸納總結了深度強化學習領域的對 抗防御技術; 最后, 本文從基于對抗攻擊的深度強化學習機理理解與模型增強的角度分析了對抗樣本在強化學習領域的應用 并討論了領域內的挑戰和開放研究方向.
1 引言
人工智能技術是引領新一輪科技革命和產業 變革的戰略性技術, 已經成為世界各國搶占戰略制 高點、 開展科技競爭的核心領域. 這其中, 深度強 化學習(Deep Reinforcement Learning, DRL)融合了 強化學習的自我激勵決策能力和深度學習的抽象 表征感知能力, 通過賦予智能體自監督學習機制, 在不斷地與環境交互過程中修正策略并使用深度 神經網絡的強大表征能力擬合復雜高維的環境特 征, 形成了人工智能領域新的研究熱點. DRL 這種 通用性較強的端到端感知控制系統展示出了人類 專家級別的能力, 并在公共安全、 金融經濟、 國 防安全等領域得到了應用, 發揮了極其關鍵的作用 [1-4] . 例如, 2017 年基于 DRL 的 AlphaGo 系統在復 雜的圍棋比賽中擊敗了人類世界圍棋冠軍 [5] ; AlphaStar 在星際爭霸游戲比賽中戰勝了多位人類 職業電競選手, 證明了 DRL 在復雜空間中的有效 性; DRL 在商業領域的推薦系統中也大放異彩. 這 些都充分地展示了深度強化學習技術的重要性、 實用性以及非凡的應用價值. 然而, 由于現實應用 場景的開放性, 以大數據訓練和經驗性規則為基礎 的深度強化學習方法面臨環境的動態變化、 輸入 的不確定性、 甚至是惡意攻擊等問題, 暴露出穩定 性、 安全性等方面的安全隱患. Christian Szegedy 等人[6]在 2013 年首次發現并提出了出現在計算機 視覺領域的對抗樣本(Adversarial examples). 這種 樣本隱藏了微小的惡意噪聲, 人眼無法區分但會導 致人工智能算法模型產生錯誤的預測結果, 對其安 全性和可靠性構成了嚴重的威脅. 除了計算機視覺 領域, 研究學者還發現對抗樣本對于自然語言處理、 深度強化學習等不同領域和類型的人工智能 算法和系統都能夠產生較強的迷惑性和攻擊性. 更 為重要的是, 對抗樣本可以在沒有目標模型具體信 息的條件下輕易地攻破智能系統并迫使其產生攻 擊者期望的任何輸出. 在軍事領域和民用公共安全領域存在著大量 以深度強化學習為基礎的智能應用場景, 如: 智能 無人機控制[7]、 智能視覺導航[8]、 車聯網計算控 制[9]、 異構工業任務控制[10]等, 這些安全攸關的場 景對于人工智能的安全、 可靠、 可控有極高的需 求. 然而, 基于深度強化學習的智能算法都極易受 到對抗噪聲的干擾產生不可預期的錯誤, 甚至可能 被誤導產生嚴重的安全問題. 例如, 對抗噪聲的攻 擊可以造成真實世界的自動駕駛系統錯誤地識別 路牌、 做出錯誤的決策行為, 引發危險事故; 自動 導航機器人在遇到對抗噪聲攻擊后就會執行錯誤 的決策, 執行錯誤的路徑預測, 無法達到預設終點; 在多智能體博弈場景中, 攻擊者還能利用某個智能 體的對抗行為來誘導其他智能體產生錯誤的動作、 配合, 使其最終輸掉博弈比賽[11-17] . 可以看到, 對 抗攻擊的出現對于深度強化學習的安全、 可靠、 穩定應用提出了極大的挑戰. 因此, 系統性地分析 歸納深度強化學習對抗攻防研究發展脈絡和未來 方向, 對于深刻認識深度強化學習魯棒性的研究進 展與方向、 進一步解決研究不足之處并推動安全 可靠深度強化學習技術的發展都顯得尤為重要. 然 而, 學術界對于深度強化學習對抗安全的綜述性研 究卻仍十分滯后: 研究人員[12,18-20]于 2018 年和 2020 年對深度強化學習的對抗攻防進行了初步的 總結探討, 然而這些研究距發表至今已數年有余, 缺乏對大量較新研究成果的涵蓋,對于領域未來發 展脈絡的把握也已不足. 在此背景下, 為了系統全 面地梳理 DRL 對抗攻防的發展思路、 進一步支撐 和推動高安全和可信賴深度強化學習技術的發展, 本文針對深度強化學習算法模型的對抗攻防開展 了系統的綜述性研究, 從面向深度強化學習的對抗 攻防技術的發展現狀、 研究歷程、 未來趨勢進行 了詳細的討論.
本文圍繞面向深度強化學習的對抗攻防技術 展開研究和討論, 其組織結構如下: 第 1 章介紹本 文的研究背景、研究內容等; 第 2 章主要從強化學 習和對抗樣本兩個角度對相關預備知識和概念進 行介紹及定義; 第 3 章從基于狀態、基于獎勵以及 基于動作這三個角度對 DRL 的對抗攻擊技術進行討論和分析; 進一步, 第 4 章主要從對抗訓練、 對 抗檢測以及可證明魯棒性這三個角度對 DRL 的對 抗防御算法進行討論和總結; 在第 5 章中, 本文又 進一步歸納并討論了基于對抗的強化學習機理理 解和模型增強, 如: 對抗增智等; 第 6 章結合深度 強化學習對抗攻防領域的挑戰進行了討論和分析; 最后, 第 7 章給出本文的結論和未來研究方向.
2. 面向深度強化學習的對抗攻擊技術
基于上文所述, 本文將對強化學習的攻擊分為 基于狀態??、 基于獎勵??以及基于動作??三種攻擊方式, 并按照這三種方式進行歸納總結(如表 1 所 示). 其中, 基于狀態??的攻擊通過擾動智能體觀測 或者改變智能體觀測結果, 從而誘使智能體做出最 小化目標函數的決策; 基于獎勵??的攻擊通過微小 地擾動智能體訓練過程中的獎勵函數, 從而影響智 能體的全局策略; 基于動作??的攻擊直接對智能體 的動作進行微小擾動, 從而大幅影響智能體的目標 函數, 或通過訓練具有對抗策略的智能體從而影響 其他智能體決策. 對應至公式 3 中經典對抗樣本 ????????的定義, 強化學習中的對抗攻擊分別從??、 ?? 和??三個空間中加入噪聲進行對抗攻擊. 從攻擊者 的角度來看,基于狀態和獎勵的攻擊需要能夠獲取 到模型的控制權, 相比基于動作的攻擊更加困難一 些.
基于狀態的對抗攻擊 在這一節中, 本文將梳理和歸納基于狀態的深 度強化學習對抗攻擊算法. 我們將基于狀態的攻擊 (如圖 2)分為兩類: 基于觀測的對抗攻擊與基于環 境的對抗攻擊. 其中, 基于觀測的對抗攻擊主要通 過擾動智能體的觀測值??, 從而改變智能體策略 ??(??) = ??(??|??)來實現攻擊; 基于環境的對抗攻擊在 環境中添加對智能體觀測值??的擾動的同時, 還要 求此擾動符合狀態轉移方程?? = ??(?? ′ , ??|??, ??); 對于 算法開銷而言, 如果攻擊方式僅對強化學習的單步 決策進行攻擊, 則攻擊者通過規則直接確定強化學 習需要擾動的變量, 并使用模型梯度直接生成可以 攻擊強化學習策略網絡的噪聲, 攻擊開銷較小. 如 果攻擊方式需要對強化學習的整體策略進行規劃, 則攻擊者所做出的決策則需要通過求解馬爾可夫 決策過程, 即訓練一個攻擊者具有的強化學習智能 體獲取. 隨后, 攻擊者在攻擊階段基于其訓練的強 化學習智能體生成目標噪聲. 這類方法由于需要訓 練強化學習智能體, 攻擊開銷中等.
基于獎勵的對抗攻擊
基于獎勵的對抗攻擊(如圖 5)主要是對目標策 略的回報獎勵加入對抗噪聲進行干擾, 影響智能體 的學習過程, 盡可能減少所學策略的回報, 從而達 到攻擊目的.
基于智能體動作的對抗攻擊
在基于觀測和基于獎勵的對抗攻擊外, 業內也 存在不少工作從強化學習智能體行為動作方面展 開對抗攻擊的研究(如圖 6). 一方面, 可以通過直接 擾動智能體策略輸出動作的概率來進行攻擊; 另一 方面, 可以引入另一個智能體, 使其具備對抗性策 略并做出攻擊性動作, 造成原智能體回報大幅下 降.
小結
在本章中, 我們系統性地介紹了近年來深度強 化學習領域對抗攻擊的研究, 并從基于狀態、 基于 獎勵以及基于動作三個角度對這些工作進行了分 類和總結.(1) 基于狀態的攻擊算法是針對深度強化學習的對抗攻擊中研究最多、 范圍最廣的攻擊方式. 已 有的工作從黑盒或白盒、 訓練或測試階段等不同 角度提出了各種高效的基于狀態的攻擊算法. 由于 和經典的計算機視覺中的對抗攻擊方式相似, 這類 攻擊算法適用范圍廣, 攻擊效果好, 且具有豐富的 研究工作作為基礎. 然而, 這些算法幾乎全部派生 自傳統對抗攻擊方法, 針對強化學習任務進行了調 整, 并沒有提出具有足夠創新性的理論改進; 與此 同時, 由于本身與傳統對抗攻擊方法的相似性, 這 些方法也容易被傳統對抗防御方法克制.(2) 基于獎勵的攻擊算法以獎勵函數投毒為基本思想, 并針對實際應用場景進行了改進, 通過對 獎勵函數添加噪聲或符號翻轉來對模型訓練過程 造成影響, 從而實現對抗攻擊. 基于獎勵的攻擊方 法往往不限制待攻擊模型或算法, 適合用于擾動經 驗回放池中的獎勵符號, 從而對模型訓練帶來長期 影響. 同時, 基于獎勵的攻擊方法對于在線學習類的強化學習算法也有可預見的攻擊效果.(3) 基于動作的對抗攻擊充分利用了強化學習的特點, 抓住其與傳統計算機視覺中任務的不同點 進行攻擊. 不同于傳統的分類任務, 在強化學習任 務的馬爾可夫過程中, 動作既是上一次策略網絡的 輸出, 也會影響到下一次網絡自身的輸入. 即對動 作的擾動會帶來時序層面的影響, 對網絡關鍵輸出 的擾動價值也遠大于傳統對抗攻擊. 無論是基于動 作概率還是基于對抗策略的攻擊, 都是強化學習領 域中特定的攻擊算法, 具有重要價值和挖掘潛力. 可以看到, 由于強化學習訓練過程的特殊性, 存在一定量的算法是在智能體訓練階段實施攻擊 的. 值得注意的是, 這些攻擊算法借鑒了投毒攻擊 [67]的基本思想, 將加入了噪聲的樣本混入訓練過 程, 使得智能體模型在最終的測試階段產生錯誤預 測. 它雖然與在測試階段直接污染測試數據的對抗 攻擊不完全一致, 但是其攻擊目標是一致的. 在本 文中, 筆者將其描述為“訓練階段的對抗攻擊”. 總體來看, 針對強化學習的對抗攻擊方法研究 依然存在不足: 一方面, 現有的大部分工作主要是 基于傳統對抗攻擊算法在強化學習領域的應用, 如 何利用強化學習本身特性進行攻擊尚有研究空間; 另一方面, 強化學習領域的對抗攻擊方法普遍存在 遷移性不強、 難以實現的問題, 缺乏在物理世界中 的實驗.
3 面向強化學習的對抗防御技術
在系統的歸納總結了深度強化學習領域的對 抗攻擊研究后, 本章進一步分析深度強化學習領域 中的對抗防御方法的研究. 與針對攻擊的分析不同 之處在于, 本文并沒有直接基于馬爾科夫決策過程 四元組進行對抗防御的分類. 相反, 本章結合傳統 對抗防御方法的分類方式從對抗訓練、 對抗檢測、 可證明魯棒性、 魯棒學習等角度出發, 對現有工作 進行梳理總結(如表 2 所示). 筆者認為: 首先, 大量 的防御方式都是用于防御狀態擾動攻擊, 直接從狀 態、 獎勵、 動作的維度進行分類可能會造成極度 的不平衡, 喪失分類討論分析的意義; 其次, 這種 分類方式可以幫助研究人員將強化學習中的對抗 防御手段與經典對抗防御體系進行對齊, 更好地理 解在 DRL 領域中的對抗防御算法.
在本章中, 我們針對強化學習領域中的對抗防 御方法作了較為全面的回顧, 從傳統對抗攻防領域 中的對抗訓練、 對抗檢測、 可證明魯棒性等防御 方法出發, 對現有工作進行梳理總結. (1) 一系列工作將傳統對抗攻防中的對抗訓練算法遷移應用到深度強化學習領域中. 通過在智能 體訓練過程中引入干擾噪聲(大多選用簡單的 FGSM對抗攻擊算法生成擾動), 對智能體的狀態進 行擾動進而優化智能體對于噪聲的魯棒性. 然而, 這些方法并未對強化學習本身特性進行更深入的 研究, 只是將對抗訓練方法的思想遷移至深度學習 領域進行應用, 并未取得防御技術的發展突破. (2) 基于對抗檢測的防御方法從分辨干凈樣本 與對抗樣本角度入手, 使用專門訓練的檢測模型分 離出干凈樣本. 其優點在于不改變智能體的原有策 略, 但這種方法的通用防御能力相對較弱, 檢測器 對于訓練過程使用的對抗樣本會具有較好的檢測 能力, 而一旦面對未曾在訓練中出現的對抗攻擊方 法, 則難以有效檢測出對抗樣本. 基于對抗檢測的 防御方法適合于智能體開箱即用的強化學習場景, 從而在智能體不修改的情況提供防御能力. (3) 基于可證明魯棒性的防御方法結合了強化 學習決策過程, 通過對智能體魯棒性下界給出證明 (如擾動半徑的下界), 在理論層面為智能體魯棒性 進行了保護. 經過魯棒認證的智能體模型能在認證 范圍內安全魯棒, 但這種防御方法也存在一些限制 (如: 主要針對?1 , ?2范數約束下的對抗樣本), 與 基于經驗性的魯棒防御算法的表現(如: 對抗訓練) 仍有差異. 這種防御方法如果能在更多情況下推廣 應用(如: ?∞范數下的對抗樣本), 將為深度強化學 習在理論的魯棒性提供有力保障. (4) 與上述防御方法不同的是基于魯棒學習的 防御策略. 這類方法針對強化學習算法的特點, 應 用與算法適配的特殊方法(如: 混淆矩陣、 獎勵估 計等)來進行防御. 這類防御方法與強化學習算法 場景緊密耦合, 在其它算法上難以進行通用的適 配. 然而, 由于其和強化學習的獨特關系, 這個方 向具有重要研究價值和挖掘潛力.
目前而言, 針對強化學習領域中對抗防御的研 究仍舊存在較大的發展空間: (1) 現有的防御方法 大多是傳統對抗防御算法在強化學習中的遷移應 用, 未來還需要從強化學習本身特性進一步探索; (2) 現有防御方法的泛化能力不足, 需要探索更通 用的防御方法, 保障智能體在動態復雜環境面對不 確定干擾時的魯棒表現; (3) 目前主要的防御方法 都是針對于狀態擾動攻擊的加固, 而針對于其他類 型對抗攻擊的防御較少. 分析其背后原因可看到: 基于狀態擾動攻擊的定義與計算機視覺領域中的 對抗樣本較為相似也是相對最早被提出、 有大量研究基礎的一種攻擊方法, 因此催生了大量的防御 算法. 相反, 其他類型的攻擊, 如: 基于動作的攻 擊和基于獎勵函數的攻擊都有特殊的要求 (如: 要 求在零和博弈場景中進行或直接改變獎勵函數), 直接防御的難度較大, 相關的防御研究也較少.
4. 基于對抗攻擊的深度強化學習機理
理解與模型增強 在本章中, 我們將介紹和分析在深度強化學習 領域除了對抗攻防之外的對抗樣本相關的研究工 作, 主要分為: 使用對抗樣本來分析深度強化學習 的脆弱性機理以及提升智能體的任務相關能力兩 個部分, 如表 3 所示. 可以看到, 這部分研究的第 一篇相關論文發表于 2021 年, 是一個仍處于初步 探索階段的新興方向. 然而, 這個領域的探索向研 究人員證明了: 對抗樣本對于深度強化學習并非百 害而無一益, 通過適當的手段, 對抗攻擊也可以變 成一種提升對于深度強化學習可解釋性和能力的 工具. 因此, 這個新興的領域定會在未來成為深度 強化學習對抗攻擊領域的一個重要研究方向.
5. 結論
深度強化學習的廣泛應用引起了大量研究對 于其對抗魯棒性的關注. 本文對于深度強化學習領 域對抗攻防技術的前沿研究進展進行了一次全面 的綜述. 本文首先闡述了基于狀態、 基于獎勵以及 基于動作的深度強化學習對抗攻擊進展; 本文接著 從對抗訓練、 對抗檢測、 可證明魯棒性和魯棒學 習的角度歸納總結了深度強化學習領域的對抗防御技術; 最后, 本文分析了基于對抗樣本的深度強 化學習機理理解與模型增強并討論了領域內的未 來研究方向. 雖然研究人員在深度強化學習領域開展了大 量對抗攻防的研究, 然而領域內還存在多個亟待解 決的問題和挑戰制約著深度強化學習對抗攻防研 究的發展, 如: 面向物理世界的深度強化學習對抗 攻防仍鮮有探索、 缺乏統一標準的對抗攻防評測 基準環境等. 希望本文能夠幫助更多研究人員投身 于研究和構建更加安全可靠的深度強化學習技術 之中.
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
強化學習 (reinforcement learning, RL) 技術經歷了數十年的發展, 已經被成功地應用于連續決 策的環境中. 如今強化學習技術受到越來越多的關注, 甚至被冠以最接近通用人工智能的方法之一. 但 是, 客觀環境中往往不僅包含一個決策智能體. 因此, 我們更傾向于以多智能體強化學習 (multi-agent reinforcement learning, MARL) 為技術手段, 應對現實的復雜系統.** 近十年來, 多智能體系統 (multiagent system, MAS) 和強化學習的結合日漸緊密, 逐漸形成并豐富了多智能體強化學習這個研究方向. 回顧 MARL 的相關工作, 我們發現研究者們大致從學習框架的討論、聯合動作學習, 以及基于通信的 MARL 這 3 個角度解決 MARL 的問題**. 而本文重點調研基于通信的 MARL 的工作. 首先介紹選取基 于通信的 MARL 進行討論的原因, 然后列舉出不同性質的多智能體系統下的代表性工作. 希望本文能 夠為 MARL 的研究者提供參考, 進而提出能夠解決實際問題的 MAS 方法.
1 引言
如今, 強化學習 (reinforcement learning, RL) 作為人工智能領域中的熱門話題之一, 吸引了很多不 同專業領域學者的關注. 強化學習的本質 [1] 是讓智能體在與環境的不斷交互中, 通過嘗試和犯錯, 學 習如何在特定的時間段中作出合適的序列性決策以解決社會和工程中遇到的問題. 強化學習的發展過程有著鮮明的特征. 在 20 世紀 50 ~ 60 年代以前, 關于 RL 的探索都局限于 反復的試錯. 而后, 貝爾曼提出貝爾曼方程 (Bellman equation) 以及離散的動態系統中的最優控制理 論并且將其建模為馬爾可夫決策過程 (Markov decision process, MDP). 然而最優控制的潛在前提是我 們知道系統相關的所有特性, 實際上這個前提往往是無法滿足的. 這一點恰恰是強化學習的獨特研究 背景之一. 在 20 世紀 60 年代, “Reinforcement Learning” 第一次出現在了工程領域的試錯方法總結 中. 其中影響最深遠的就是 Minsky 的工作 [2], 其中提到了試錯和信任分配 (credit assignment) 的問題, 這些都是強化學習的起源. 此后研究者們從未知環境中試錯的出發點提出了基于時序差分的方法 (temporal differences, TD) [3]、Q- 學習 [4] 和 SARSA [5] . 當時的 RL 技術還處于比較樸素的階段, 主要針對的是規模較小的離散狀態離散動作的場景. 當 狀態或者動作空間連續時, 便無法得到準確的值函數. 這時就需要對值函數進行近似, 從而產生了基 于值函數 (value based) 的強化學習方法. 此外, 如果直接對策略進行近似, 學習的目標就可以直接定 義為最優策略搜索 (policy search) 的性能. 如果在策略近似的同時還引入了值函數的近似, 并且策略 是基于值函數的評價而更新的, 這類方法屬于策略近似的一種特殊形式, 稱為 Actor-Critic 方法, 其中 的 Actor 指的是策略, Critic 指的是值函數. 自從 2015 年, Mnih 等 [6] 在 Atari 環境中利用深度 Q- 學習取得了突破性進展之后, 深度強化學 習 (deep reinforcement learning, DRL) 便開始在機器學習、人工智能領域掀起了一陣熱潮. 研究者們 不斷發現 DRL 的巨大潛力, 不論是機器人控制 [7]、優化與調度 [8] , 或者是游戲和博弈 [6, 9] 等方面都 能夠借助于 DRL 來解決. 而當 DRL 在解決現實問題的時候, 研究者們往往高估了它的能力, 低估了 實現它的難度 [10] . 事實上, 現實世界中的問題是十分復雜的. 本文總結, 現實世界的復雜性很大程度上體現在: 多 數任務所涉及的系統規模較為龐大, 并且根據一些規則或者常識可以分解為多個完成不同子任務的個 體. 為了完成某個任務, 系統需要多個智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但 從任務層面來看, 這些智能體需要互相配合并且子決策的結果會互相影響. 這樣的系統可以被稱為多 智能體系統 (multi-agent system, MAS). 在多智能體系統中, 各個智能體需要在環境不完全可知的情 況下互相關聯進而完成任務. 簡而言之, 它們可以互相協同, 或者互相競爭, 也可以有競爭有合作. 如 果將強化學習技術用于上述場景中, 相異于傳統強化學習場景的是, 在這種系統中, (1) 至少有兩個智 能體; (2) 智能體之間存在著一定的關系, 如合作關系、競爭關系, 或者同時存在競爭與合作的關系; (3) 每個智能體最終所獲得的獎賞會受到其余智能體的影響. 通常, 我們將這種場景下的強化學習技術稱 為多智能體強化學習 (multi-agent RL, MARL). MARL 場景中的環境是復雜的、動態的. 這些特性給 學習過程帶來很大的困難, 例如, 隨著智能體數量的增長, 聯合狀態及動作空間的規模會呈現出指數擴 大, 帶來較大的計算開銷; 多個智能體是同時學習的, 當某個智能體的策略改變時, 其余智能體的最優 策略也可能會變化, 這將對算法的收斂性和穩定性帶來不利的影響。
針對上述 MARL 的困難, 研究者們提出智能體可以在動態的環境中借助于一些輔助信息彌補其 不可見的信息, 從而高效學得各自的策略. 為了達到這個目的, 研究者們提出了一些方法, 可以大致被 分為以下幾類: (1) 學習框架的討論, 這類工作意在探索一種可行的學習框架, 因此這類工作更多地 偏向于將已有的機器學習 (machine learning, ML) 研究背景或者 RL 技術向 MAS 的場景中作融合; (2) 聯合動作學習, 這類方法基于單智能體的視角, 即將多個智能體合并為一個整體, 而原本各個智能 體的動作則被視為系統 “子部件” 的動作, 但是這類方法在狀態動作空間維數較高時會面臨學習效率 不高的問題; (3) 智能體之間的通信, 即智能體通過發送和接收抽象的通信信息來分析環境中其他智能 體的情況從而協調各自的策略. 學習框架和聯合的多動作學習算法主要依賴于集中式的訓練學習或者 直接共享某些局部信息等條件. 不難發現, 更容易適應于現實系統的是基于通信的這類方法: 集中各 個智能體, 并使各個智能體分享的局部信息的訓練模式在實際應用中很難滿足. 因此, 我們希望智能 體之間可以不依賴于集中式的訓練學習方式, 依舊能夠在不完全可知的環境中分析感知其他智能體的 信息, 從而完成任務. 所以, 通過通信信息來補充環境的缺失信息的這種思路更容易被泛化. 近期, 更 為迫切的實際需求是參與任務的多個智能體不愿意進行諸如策略參數等信息的共享. 這就是聯邦學習 (federated learning, FL) 的要求. 在這種情況下, 算法更需要保證智能體之間只有有限的抽象信息用來傳輸, 從而滿足各個智能體對于隱私的需求。
在多智能體系統中, 如果對智能體的保護程度較高, 即智能體不會直接分享重要的內部信息, 智能 體則需要一些輔助的信息來補充這一部分缺失的不可觀測狀態. 最直觀的做法就是互相傳遞有意義的 通信信息, 這種信息可以在一定程度上幫助智能體對環境進行理解. 但是, 在滿足嚴格的互相不可見, 且有限信息共享的要求的前提下, 智能體之間要做到完全的獨立學習與通信是十分困難的事情. 即便 是在基于通信的 MARL 的工作中, 也有很大一部分工作依賴于集中式的訓練學習或者依賴于智能體 之間重要信息的共享 (例如智能體的動作). 而這樣的學習方式有悖于實際的需求. 因此, 智能體需要 能夠自主地在更新策略的同時自行調整通信信息, 從而做到完全的不依賴于集中式的或基于局部信息 共享的學習. 本文重點回顧基于通信的 MARL 的工作. 我們總結了基于通信的 MARL 的發展歷程, 以及不同 性質的多智能體系統場景下的代表性工作, 進一步給出不同工作的分析以及適用條件. 最后, 我們總結 并展望未來可能進行的探索方向. 我們由衷希望本文能夠為對研究 MARL 的讀者提供幫助.
2 單智能體強化學習
本節主要介紹單智能體 DRL 的基礎知識. 首先, 回顧傳統的強化學習, 即單智能體 (single-agent RL, SARL) 的相關概念, 然后, 介紹深度強化學習的興起、前沿的算法和現存的問題以及挑戰. 方便后 續章節為大家引入多智能體 RL 的問題設定、前沿研究的大致分類和框架.
3 多智能體強化學習
MARL DRL 面對的問題的復雜性很大程度上體現在: 多數任務所涉及的系統結構較為繁雜, 往往根據一 些規則或者常識可以分解為多個完成不同子任務的個體. 也就是說, 為了完成某個任務, 系統需要多個 智能體同時參與, 它們會在各自所處的子空間分散執行任務, 但從任務層面來看, 它們需要互相配合并 且這些智能體各自的子決策結果會互相影響. 在這樣的多智能體系統中, 各個智能體需要在環境不完全可知的情況下互相關聯, 進而完成任務. 它們需要互相配合. “配合” 沒有限定一定要合作, 可以互相競爭也可以有競爭有合作, 依據任務本身 來定. 對于 MAS 的場景, 同樣需要對這類問題進行建模然后探索解決問題的方法.
4 基于通信的多智能體強化學習
在實際系統中, 參與任務的各個智能體往往會考慮安全或者隱私, 不希望過多地依賴于直接共享 各自領域的局部信息來完成任務. 這些關鍵的局部信息可能包括: 各個智能體的動作, 或者直接共享 同樣的策略網絡結構, 甚至是集中起來共享經驗池以更新各個智能體的策略, 也就是中心化的學習 (centralized learning) 的概念. 下面我們簡要地將現有的基于通信的 MARL 或者 MADRL 算法歸類, 然后列舉現在每一類的研究進展. 依據算法利用的 DRL 技術, 現有的基于通信的多智能體深度強化 學習算法 (communication-based multi-agent deep reinforcement learning, CB-MADRL) 大致可以分為 以下幾類: (1) 基于值函數的 CB-MADRL. 這種方法依靠對值函數 (以 Q- 值函數為主) 進行重構使之適用 于 MA 系統, 這部分工作在表 1 中總結. (2) 包含直接策略搜索的 CB-MADRL. 由于表現不夠穩定, 單純使用直接策略搜索作 MAS 決策 的工作十分少見. 現在大多學者都傾向于選擇基于 Actor-Critic 框架作 CB-MADRL 的研究, Actor 是 各個智能體的局部子策略, 通信的過程和效果主要依靠 Critic 來判定, 這部分算法在表 2 中總結. (3) 提升通信效率的突破. 我們發現在以上兩類方法逐漸發展的過程中, 學者們對這些算法也嘗 試了改進, 意在提升通信的效率進而提升算法的學習性能, 相關工作總結于表 3. (4) 關于應急通信的研究. 如今研究領域間的交叉已經極為常見, 很多語言研究領域的研究者們開 始嘗試從通信語言如何產生, 以及通信信息的質量度量等方向進行研究, 從而豐富了多智能體通信的 研究方向, 相關工作總結于表 4. 如果要求智能體通過通信的方式彼此協同完成一項任務, 智能體就需要通過將自己的信息, 例如 狀態和動作等, 編碼成一條有限長的信息, 傳遞給其余智能體, 同時也接受來自其余智能體的信息. 其 目的就是希望智能體能夠將收到的信息作為觀測的補充, 盡可能地還原不可見狀態的信息, 進而得到 近似全局狀態下的最優動作. 上述過程中, 通信的問題主要集中在如何傳遞高質量的通信信息, 具體來 說主要考慮: 通信信息需要包含哪些內容, 以及如何及時地更新通信信息. 在接下來的幾個小節中, 我們將主要從以上兩點為大家介紹并分析現有算法的特性.
5 歸納與展望
通過前面的回顧不難發現, 隨著 DRL 技術的發展, MAS 場景的問題越來越多地可以利用 DRL技術的遷移得到解決. 并且在各種 MAS 環境中都得到了測試, 甚至在星際這樣的游戲上也取得了勝 利. MADRL 的技術和突破是值得肯定的, 并且 MADRL 大背景下的現有工作已經有學者進行了總 結[62] . 我們更加希望各個智能體通過互相必要的溝通, 就能在不完全可知的環境中分析感知環境中其 他智能體的信息, 從而完成既定的任務. 本節主要對現存的 CB-MADRL 算法進行歸納, 然后進一步探 討未來可能需要解決的問題和工作方向.
6 結束語
多智能體強化學習的發展離不開深度強化學習的突破性進展. 而從多智能體強化學習這個層面來 說, 在看到已有的成績的同時, 提高學習效率、提高魯棒性和泛化性的困難依舊存在. 這種困難是多智 能體系統本身固有的性質, 例如環境的非穩定性、獎賞的延遲性和稀疏性、獎賞分配的困難性等. 盡 管這些困難依舊是牽制這個領域發展的因素, 但多智能體強化學習服務于現實系統解決現實問題是學 界的目標. 選擇基于通信的多智能體強化學習算法進行介紹的主要原因是通信本身更迎合實際的應用場景 的需求. 通信信息能夠很自然地使得智能體擺脫中心化的學習的框架. 智能體之間的有效的信息傳遞 不是簡單的私密的信息共享, 而是智能體在不斷地跟環境交互中所給出的有意義的反饋. 這種反饋通 常是抽象的, 是需要協同的智能體互相理解的. 通過對現有的基于通信的多智能體深度強化學習算法的分析, 不難發現能用于現實多智能體系統 中的基于通信的多智能體強化學習算法需要盡可能擺脫其對信息共享的依賴, 也就是盡可能保證較少 的信息共享, 做到完全基于通信. 完全基于通信的隱含意義是智能體在互相不可知的情況下僅僅依靠 通信信息實現缺失信息的補充, 進而擺脫過多的內部信息交流以及中心化學習的需求. 從而有如下的 結果.
? 智能體的隱私需求得到保障: 智能體可以根據自身狀態及接收的信息自行調整傳送信息. ? 算法的泛化性得到提升: 如果智能體可以僅通過通信信息互相理解進而協同完成任務, 在面對不 同任務時智能體可以根據不同的任務需求, 自適應地調整通信信息. 最后, 希望通過我們的介紹能夠對多智能體強化學習, 特別是基于通信手段的多智能體強化學習 方向有所關注的學者們提供一些幫助; 希望通過廣大學者們的努力使得多智能體強化學習技術更快更好地服務于現實世界中的系統.
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.
大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].
機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.
為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].
綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.
近年來,隨著互聯網技術以及引用模式的快速發展,計算機世界的數據規模呈指數型增長,這些數據中蘊含著大量有 價值的信息,如何從中篩選出知識并將這些知識進行有效組織和表達引起了廣泛關注.知識圖譜由此而生,面向知識圖譜的知 識推理就是知識圖譜研究的熱點之一,已經在語義搜索、智能問答等領域取得了重大成就.然而,由于樣本數據存在各種缺陷, 例如樣本數據缺少頭尾實體、查詢路徑過長、樣本數據錯誤等,因此面對上述特點的零樣本、單樣本、少樣本和多樣本知識圖譜 推理更受矚目.文中將從知識圖譜的基本概念和基礎知識出發,介紹近年來知識圖譜推理方法的最新研究進展.具體而言,根 據樣本數據量大小的不同,將知識圖譜推理方法分為多樣本推理、少樣本推理和零與單樣本推理.模型使用超過5個實例數進 行推理的為多樣本推理,模型使用2~5實例數進行推理的為少樣本推理,模型使用零個或者一個實例數進行推理的為零與單 樣本推理.根據方法的不同,將多樣本知識圖譜推理細分為基于規則的推理、基于分布式的推理、基于神經網絡的推理以及基 于其他的推理,將少樣本知識圖譜推理細分為基于元學習的推理與基于相鄰實體信息的推理,具體分析總結這些方法.此外, 進一步講述了知識圖譜推理的典型應用,并探討了知識圖譜推理現存的問題、未來的研究方向和前景.
知識圖譜推理即面向知識圖譜的知識推理.知識圖譜有 很多種定義,是以圖的形式表示真實世界的實體與實體之間 關系的知識庫.知識圖譜的研究源于2000年 XML 大會上 TimBernersLee提出的語義 Web的理念,最初的作用是為 Web網頁添加語義信息,提供信息代理、搜索代理、信息過濾 等語義信息服務.2005年,美國 Metaweb公司成立,致力于 開發開放共享的世界知識庫.Metaweb基于維基百科、美國 證券交易委員會等公開的數據集,提取出現實世界中人或事 物(實體)及他們之間的關系,并且以圖的結構儲存在計算機 中.2010年,谷歌收購了 Metaweb公司,并在2012年提出了 知識圖譜[1]的概念. 具體來說,知識圖譜是通過將應用數學、圖形學、信息可 視化技術、信息科學等學科的理論、方法與計量學引文分析、 共現分析等方法結合,并利用可視化的圖譜形象地展示其核 心結構、發展歷史、前沿領域以及整體知識架構,達到多學科 融合目的的現代理論.它把復雜的知識領域通過數據挖掘、 信息處理、知識計量和圖形繪制顯示出來,揭示知識領域的動 態發展規律,為學科研究提供切實的、有價值的參考.迄今為 止,其實際應用已經逐步拓展并取得了較好的效果.
目前,已經涌現出一大批知識圖譜,其中具有代表性的有 DBpedia [2],Freebase [3],NELL [4],Probase [5]等.這些知識圖 譜從大量數據資 源 中 抽 取、組 織 和 管 理 知 識,希 望 為 用 戶 提供能夠讀懂用戶需求的智能服 務.例 如:理 解 搜 索 的 語 義,提供更精準的搜索答案.大批的 知 識 圖 譜 被 廣 泛 應 用 于知識圖譜補全與去噪的學術研 究 領 域.除 此 之 外,知 識 圖譜在問答系統、推 薦 系 統、機 器 翻 譯 等 領 域 也 發 揮 了 重 要作用,并已在醫學診斷、金融安全、軍用等 領 域 展 示 出 很 好的應用前景. 雖然現在已經存在一些知識圖譜綜述文獻,但是基于數 據樣本量的知識圖譜算法的分類歸納仍然缺乏.模型的樣本 量越多,推理難度越低,準確性也越高,但是現實世界的適用 率越低.為此,本文根據樣本數據量大小的不同,將知識圖譜 推理方法分為多樣本推理、少樣本推理和零與單樣本推理,并 對其最新進展進行詳細分類總結;最后提出知識圖譜推理未 來的潛在發展方向. 本文第2節總結知識圖譜推理的基礎知識;第3節分析 多樣本知識圖譜推理相關方法;第4節論述少樣本知識圖譜推理相關方法;第5節指出知識圖譜推理的未來研究趨勢;最 后總結全文.
個性化學習推薦是智能學習的一個研究領域,其目標是在學習平臺上給特定學習者提供有效學習資源,從而提升學習積極性與學習效果。雖然現有的推薦方法已被廣泛用于教學場景,但教學活動自身的科學規律,使個性化學習推薦在個性化參數設置、推薦目標設定、評價標準設計等方面具有一定的特殊性。針對上述問題,在調研大量文獻的基礎上對近年來個性化學習推薦的研究進行了綜述。從學習推薦通用框架、學習者建模、學習推薦對象建模、學習推薦算法、學習推薦評價五方面對個性化學習推薦的相關研究進行了系統的梳理和解讀。首先提出了學習推薦系統的通用框架,其次介紹了學習者建模的思路和方法,接著討論了學習推薦對象建模的思路和方法,然后歸納了學習推薦的算法與模型,接下來總結了學習推薦評價的設計與方法。并對這五方面現有研究的主要思想、實施方案、優勢及不足進行了分析。最后還展望了個性化學習推薦未來的發展方向,為智能學習的進一步深入研究奠定了基礎。
近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.
近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.