亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度強化學習是一種兼具深度學習特征提取能力和強化學習序列決策能力的智能體建模方法,能夠彌補傳統對手建模方法存在的非平穩性適應差、特征選取復雜、狀態空間表示能力不足等問題。將基于深度強化學習的對手建模方法分為顯式建模和隱式建模兩類,按照類別梳理相應的理論、模型、算法,以及適用場景;介紹基于深度強化學習的對手建模技術在不同領域的應用情況;總結亟需解決的關鍵問題以及發展方向,為基于深度強化學習的對手建模方法提供較全面的研究綜述。

如何在合作、競爭的復雜任務場景中自主決策是當前人工智能領域所要解決的關鍵問題。在游戲人工智能、軍事仿真、自動駕駛、機器人集群控制等應用場景的多智能體系統中,智能體具有感知、記憶、規劃、決策、交流、行動等許多能力,其中對其他智能體行為、意圖、信念等的推理十分重要。在此過程中,智能體往往需要通過觀察其他智能體,建立除自身以外的其他智能體抽象模型,推理其行為、意圖、信念等要素,并用于輔助自身決策,此過程涉及到的方法被稱為對手建模(opponent modeling, OM)。對手建模不僅關注競爭場景下的敵方智能體建模,而且還考慮合作場景下的友方建模,因此,有些文獻又稱其為建模其他智能體。從理論上講,完全理性的智能體能夠做出當前條件下的最優策略,實現收益的最大化。然而,現實情況下的智能體通常只具有有限程度理性[1],決策受到情緒、偏好等影響,往往以“滿意”作為收益標準。此外,基于規則的智能體,如產生式規則、啟發式算法等[2-4],遵循預置規則機制,行為模式僵硬、易于預測、理性程度不足,對手建模技術使智能體能夠快速適應對手的行為方式并且在對抗中利用其弱點獲取更高收益,或在合作中使團隊獲得更大回報。現有的對手建模方法如策略重構、類型推理、意圖識別、遞歸推理等方法[5],具有模型可解釋、認知推理層次深的特性。然而,要進一步應用于貼近現實的問題場景仍然存在動態環境適應性弱、特征選取復雜、狀態空間表示能力不足、方法在規模上的可擴展性不強等諸多缺陷。針對以上不足,研究者們將以深度Q網絡(deep Q network, DQN)[6]為代表的深度強化學習算法(deep reinforcement learning, DRL)引入到對手建模領域。其中,強化學習是智能體學習如何與環境交互,達到最大化價值和最優策略的自主決策算法。深度學習則能夠從高維感知數據中提取抽象特征,對復雜的價值函數和策略函數具有很強的擬合能力。DRL有機地結合了深度學習與強化學習,前者能夠增強感知與表達能力,后者提供最優決策能力,使基于DRL的對手建模(DRL-OM)技術對復雜環境中其他智能體具有更好的認知能力,目前已在德州撲克[7-8]、星際爭霸II[9]等多智能體問題場景取得優異的表現。DRL-OM是DRL方法在對手建模應用中的研究分支,涉及人工智能、神經科學、認知心理學、博弈論等眾多領域。有別于以往的對手建模方法[10],DRL-OM研究涉及更復雜的應用場景、更多元的領域交叉,在問題特性、建模方式、應用場景上和傳統方法具有較大差異。雖然許多現有文獻[11-12]將對手建模領域的已有研究進行了匯總分類,但目前尚沒有將基于DRL方法的對手建模進行系統研究的綜述文章。此外,有關多智能體強化學習的綜述研究[13-14]也闡述了對手建模的應用,然而它們的內容普遍較少涉及對手建模原理,也沒有系統地分類和總結對手建模方法。隨著DRL越來越廣泛地應用在對手建模中,領域內涌現出許多嶄新的理論和方法,遠超現有文獻總結的涵蓋范圍。因此,本文將DRL算法作為研究出發點,基于對手的理性程度和建模機理提出不同于現有文獻[11-12]的對手建模分類標準。此外,對手建模技術的更新迭代為現實應用提供了機遇和挑戰,為此,本文匯總歸納了DRL-OM方法在應用領域的相關研究工作。

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

 近年來,深度強化學習在游戲人工智能、機器人等領域取得了諸多重要成就. 然而,在具有稀疏獎 勵、隨機噪聲等特性的現實應用場景中,該類方法面臨著狀態動作空間探索困難的問題. 基于內在動機的 深度強化學習探索方法是解決上述問題的一種重要思想. 首先解釋了深度強化學習探索困難的問題內涵, 介紹了 3 種經典探索方法,并討論了它們在高維或連續場景下的局限性;接著描述了內在動機引入深度 強化學習的背景和算法模型的常用測試環境;在此基礎上詳細梳理各類探索方法的基本原理、優勢和缺 陷,包括基于計數、基于知識和基于能力 3 類方法;然后介紹了基于內在動機的深度強化學習技術在不同 領域的應用情況;最后總結亟需解決的難以構建有效狀態表示等關鍵問題以及結合表示學習、知識積累 等領域方向的研究展望.

0 引言

強化學習(reinforcement learning, RL)是監督學習、 無監督學習之外的另一機器學習范式, 通過設置反 映目標任務的獎勵函數, 驅動智能體在與環境的交 互與試錯中學習能使累計收益最大化的策略[1]。深度強化學習(deep reinforcement learning, DRL) 是在強化學習提供的最優決策能力的基礎上, 結合 深度學習(deep learning, DL)強大的高維數據表征能 力來擬合價值函數或策略, 進而基于交互樣本訓練 得到最優價值函數或最優策略, 被認為是結合感知 智能和認知智能的有效方法. 深度強化學習在游戲人工智能、機器人、自然 語言處理、金融等諸多領域取得了超越人類的性能 表現[2-3] , 但在具備稀疏獎勵、隨機噪聲等特性的環境 中, 難以通過隨機探索方法獲得包含有效獎勵信息 的狀態動作樣本, 導致訓練過程效率低下甚至無法 學習到有效策略[4] . 具體來說, 一方面現實應用中往往存在大量獎勵信號十分稀疏甚至沒有獎勵的場景. 智能體在這類場景探索時需要執行一系列特定的動 作, 以到達少數特定的狀態來獲得獎勵信號, 這使得 在初始時缺乏所處環境知識的智能體很難收集到有 意義的獎勵信號來進行學習. 例如, 多自由度機械臂 在執行移動物體任務中, 需要通過系列復雜的位姿 控制將物體抓取并放置到指定位置, 才能獲得獎勵. 另一方面, 現實環境往往具有高度隨機性, 存在意料 之外的無關環境要素(如白噪聲等), 大大降低了智 能體的探索效率, 使其難以構建準確的環境模型來 學習有效策略. 例如, 部署應用在商場的服務機器人 在執行視覺導航任務時, 既要受到商場中大量的動 態廣告圖片或視頻的傳感干擾, 還可能面臨動作執 行器與環境交互時的結果不確定性, 同時長距離的 導航任務也使其難以獲得有效正獎勵信號. 因此深 度強化學習領域亟需解決探索困難問題, 這對提高 DRL 的策略性能和訓練效率都十分重要.針對獎勵稀疏、隨機噪聲等引起的探索困難問 題, 研究者們提出了基于目標、不確定性度量、模仿 學習等探索方法, 但對任務指標的提升效果有限, 并 增加了額外的數據獲取的代價. 近年來, 源自心理學 的內在動機(intrinsic motivation)概念因對人類發育 過程的合理解釋, 逐漸被廣泛應用在 DRL 的獎勵設 計中以解決探索問題, 成為了 ICML, ICLR, NeurIPS, ICRA 等頂級學術會議上的熱點方向, 受到來自清華、 斯坦福、牛津、谷歌等頂級高校與研究機構的關注. 雖然已有文獻[5-8] 介紹內在動機在深度強化學習領域 的研究現狀, 但據我們所知, 尚沒有文獻全面深入研 究各類基于內在動機的 DRL 探索方法, 并逐步深入 討論其應用于貼近真實世界的復雜動態場景中所面 臨的關鍵問題以及未來的發展方向. 我們從出發點、 研究角度分析了相關綜述文獻與本文的主要區別, 如表 1 所示. 基于上文梳理的深度強化學習面臨的探索困難 問題, 本文首先介紹 3 種經典探索方法以及它們在高 維或連續場景下的局限性, 接著全面梳理 3 類不同的 基于內在動機的 DRL 探索方法的基本原理、優勢和 缺陷, 隨后介紹上述基于內在動機的方法在不同領 域的應用情況, 最后總結亟需解決的關鍵問題以及 發展方向.

1 經典探索方法

為提高智能體在未知環境中的探索效率, 研究 者們提出了簡單的隨機擾動方法, 例如 -貪婪方法. 除此之外,研究者們在小規模狀態動作空間下提出了 許多具有理論保證的經典探索方法, 并推導出對應 的累計后悔值或樣本復雜度的理論上界. 根據統計 學中認識世界不確定性的觀點, 本文將它們分為頻 率派方法與貝葉斯派方法.

1.1 隨機擾動方法

隨機擾動方法可按照加入噪聲的位置差異分為 2 類: 一是在動作選擇的過程中增加隨機性或噪聲, 如在ε -貪婪算法中, 以1?ε 的概率選擇當前估值最高 的動作, 以 ε的概率在所有動作中隨機選擇. 在此基 礎上, Boltzmann 策略在學習初期設置較大的 值以促 進探索, 使 值隨學習過程逐漸減小, 當策略收斂后 完全利用當前模型以持續獲得最大獎勵. 類似地, 深 度確定性策略梯度算法[9] 對策略網絡輸出的動作加 入隨機噪聲過程進行擾動, 以此增加探索. 二是在擬 合策略的網絡參數上加入噪聲, 比如參數空間噪聲 模型[10] 和 NoisyNet 模型[11] 等.

1.2 頻率派方法

頻率派基于實際數據樣本的估計來衡量狀態的 不確定性, 在數據量有限的情況下一般采用帶有置 信水平的區間估計方法.

1.3 貝葉斯派方法

貝葉斯學派觀點認為, 面對未知環境人們維護 著對于所有可能模型的概率分布以表達其不確定性, 隨著觀測證據的增多, 后驗分布一般比先驗分布更 能反映不同備選模型與真實模型的接近程度. 由于 在選擇動作時不僅依據觀測狀態, 也必須考慮對信 念狀態的更新, 貝葉斯強化學習方法被認為有助于 提高探索效率, 防止陷入局部最優, 且同時考慮利用 現有策略最大化累積收益[18]

**1.4 小 結 **

隨機擾動方法缺少對具體狀態和動作探索作用 的評估, 難以依據對狀態的某種度量引導探索過程, 因此無法形成有啟發性的探索過程, 也被稱為無指 導探索[22] . 頻率派或貝葉斯派的方法, 大多僅是在小 規模場景中推導出了樣本復雜度或期望后悔值的上 界, 具有一定理論保證, 但很難直接應用到更加復雜 的環境如具有動態性和不確定性的實際場景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需對狀態動作對有準確 的計數, 在小規模的狀態和動作空間條件下是可行 的, 但無法應用于動態、高維或連續場景中, 亟需啟 發性更強、計算效率更高的探索方法.

2 基于內在動機的深度強化學習探索方法

為解決大規模狀態動作空間中由稀疏獎勵、隨 機噪聲干擾等產生的探索困難問題, 研究者們提出 了基于目標、不確定性度量和內在動機等深度強化 學習探索方法[7-8] . 基于目標探索的方法通過對興趣 狀態進行分析來生成探索性子目標, 同時對如何到 達子目標的過程進行控制, 以提高智能體在復雜環 境中的探索效率. 這類方法偏規劃, 重點在于存儲狀 態和軌跡信息, 并根據存儲的信息規劃生成子目標 點, 然后學習如何到達子目標點. 基于不確定性度量 的方法通常采用價值函數的貝葉斯后驗來顯示建模 認知不確定性, 或者采用分布式價值函數來額外評 估環境內在不確定性, 以鼓勵智能體探索具有高度 認知不確定性的狀態動作對, 并盡量避免訪問具有 高度內在不確定性的區域. 該方法更多偏向于挖掘 價值函數中的不確定性, 體現的是計算思維. 與前 2 類方法相比, 本文所關注的基于內在動機 的方法從行為學和心理學中內在動機驅動高等生物 自主探索未知環境的機理出發, 將“新穎性”等多種 源自內在動機的啟發式概念形式化為內在獎勵信號, 以驅動智能體自主高效探索環境, 體現的是一種更 抽象和擬人的思維. 具體來說, 內在動機源于高等生 物在追求提高自主性和能力或掌控力的過程中獲得 的愉悅感, 是驅動無外界刺激條件下探索未知環境 的動力. 內在動機在 DRL 中, 可以被映射為內在獎勵 信號[23] , 與基于值函數或策略梯度的深度強化學習方 法相結合, 形成具備強啟發性的探索策略, 以提高智 能體探索復雜未知環境的效率。 如何在內在獎勵信號中形式化“新穎性”“好奇 心”“學習提升”“多樣性”“控制力”等源自內在動機的啟發式概念, 是設計基于內在動機的 DRL 探索方 法的關鍵內容. 根據內在獎勵信號的不同啟發式來 源并參考文獻 [24] 中設想的各類基于內在動機的計 算框架, 本文將基于內在動機的深度強化學習探索 方法主要分為 3 類(見圖 1): 基于計數的方法、基于 知識的方法和基于能力的方法.

2.1 基于計數的方法

在高維連續環境中, 難以采用表格化的方式來 表示狀態, 并且幾乎沒有任何 2 個觀測狀態完全相 同, 絕大多數狀態的真實訪問次數都不會超過 1 次, 直接采用經典探索理論方法中基于頻率派或貝葉斯 派的方法, 得到的計數值無法有效衡量狀態新穎性. 針對上述問題, 基于計數的方法一方面借鑒了 UCB 算法的思路, 繼承了“面對不確定性的樂觀”思想, 即 向訪問次數較少的狀態或狀態動作對賦予更高的獎 勵, 以鼓勵智能體盡快探索狀態空間的未知部分, 另 一方面采用基于相似性的狀態泛化的解決思路. 該 類方法的實現途徑包括偽計數方法[39] 和狀態抽象方 法 [40] , 其中偽計數方法可細分為基于密度模型的偽計 數和間接偽計數方法。

2.4. 基于預測模型的方法 現有大量方法為智能體建立和維護一個對動作 結果和狀態轉移進行預測的模型, 以模型精度表達 外部環境的不確定性. 以此預測模型為基礎, 智能體 根據某些新穎性或可預測性的衡量指標學習價值函 數或策略. 依據產生內在獎勵指標的不同, 可以分為 基于預測誤差、預測結果不一致性和預測精度提升 的方法.

2.5 基于信息論的方法 信息論中以熵(entropy)為基礎的一系列概念, 天 然地為衡量現實世界中的不確定性而生, 因此信息 度量也成為形式化啟發式概念, 生成內在獎勵的重 要工具[83] , 用于促進智能體高效探索未知區域.

3 應用研究

基于內在動機的 DRL 探索方法起初應用于游戲 領域的智能體策略生成, 隨著 DRL 算法在現實場景基于內在動機的 DRL 探索方法通過構建強啟發 性的探索策略, 可有效應對機器人運動、機械臂操控、 空間探索與導航等領域面臨的探索困難問題. 此外, 在量化投資、自然語言處理等領域, 基于內在動機的 DRL 探索方法也發揮著重要作用. 例如, 針對股票市 場的自動金融交易策略學習問題, Hirchoua 等人[116] 將 PPO 算法與基于好奇心驅動的風險學習的內在獎 勵相結合進行交易策略學習, 并在 8 個真實股票交易 上對其訓練得到的策略的適用性和有效性進行了驗 證; 針對面向目標的對話策略學習問題, Wesselmann 等人[117] 采用基于好奇心的內在獎勵來克服稀疏獎勵 問題, 以改進狀態動作空間的探索效率, 從而獲取更 多有關用戶目標的知識來訓練對話策略。 **4 總結 **

本文首先描述了 DRL 方法對高效率探索方法的 需求、經典方法的原理和局限性, 接著引入了內在動 機的概念和功能, 在此基礎上重點梳理了內在動機 與 DRL 結合的不同形式. 它們主要包括: 1) 受新穎 性動機驅動的基于計數的內在獎勵形式化; 2) 受好 奇心驅動的預測誤差的獎勵設計; 3) 受學習提升期 望驅動的精度提升和信息增益近似方法; 4) 以狀態 多樣性為啟發式的最大熵方法; 5) 追求自主性和控 制力的互信息量化方法. 然后介紹了基于內在動機 的 DRL 探索技術在機器人運動、機械臂操作、空間 探索與導航等領域的應用情況. 最后深入分析了基 于內在動機的 DRL 探索方法在應用于貼近真實的復 雜場景時, 仍面臨著難以構建有效的狀態表示、環境 認知效率低、復雜目標/任務空間探索效果差等關鍵 問題, 并對基于內在動機的探索方法結合表示學習、 知識積累、獎勵設計、目標空間探索、課程學習、多 智能體強化學習等領域方向開展研究進行了展望.

付費5元查看完整內容

模仿學習是強化學習與監督學習的結合,目標是通過觀察專家演示,學習專家策略,從而加速強化學習。通過引入 任務相關的額外信息,模仿學習相較于強化學習,可以更快地實現策略優化,為緩解低樣本效率問題提供了解決方案。近年 來,模仿學習已成為解決強化學習問題的一種流行框架,涌現出多種提高學習性能的算法和技術。通過與圖形圖像學的最新 研究成果相結合,模仿學習已經在游戲 AI (artificial intelligence)、機器人控制、自動駕駛等領域發揮了重要作用。**本綜述圍 繞模仿學習的年度發展,從行為克隆、逆強化學習、對抗式模仿學習、基于觀察量的模仿學習和跨領域模仿學習等多個角度 進行了深入探討。**綜述介紹了模仿學習在實際應用上的最新情況,比較了國內外研究現狀,并展望了該領域未來的發展方向。 報告旨在為研究人員和從業人員提供模仿學習的最新進展,從而為開展工作提供參考與便利。//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202301140000005&journal_id=jig

1. 引言

深度強化學習(deep reinforcement learning,DRL) 有著樣本效率低的問題,通常情況下,智能體為了 解決一個并不復雜的任務,需要遠遠超越人類進行 學習所需的樣本數。人類和動物天生就有著模仿其 它同類個體的能力,研究表明人類嬰兒在觀察父母 完成一項任務之后,可以更快地學會該項任務 (Meltzoff 等,1999)。基于神經元的研究也表明,一 類被稱為鏡像神經元的神經元,在動物執行某一特 定任務和觀察另一個體執行該任務的時候都會被激 活(Ferrari 等,2005)。這些現象都啟發了研究者希望 智能體能通過模仿其它個體的行為來學習策略,因 此模仿學(imitation learning,IL)的概念被提出。模仿 學習通過引入額外的信息,使用帶有傾向性的專家 示范,更快地實現策略優化,為緩解樣本低效問題 提供了一種可行的解決途徑。

由于模仿學習較高的實用性,其從誕生以來一 直都是強化學習重要的研究方向。傳統模仿學習方 法主要包括行為克隆(Bain 和 Sammut,1995)、逆強 化學習(Ng 等,2000)、對抗式模仿學習(Ho 和 Ermon, 2016)等,這類方法技術路線相對簡單,框架相對單 一,通常在一些簡單任務上能取得較好效果 (Attia and Dayan,2018;Levine,2018)。隨著近年來計算 能力的大幅提高以及上游圖形圖像任務(如物體識 別、場景理解等)的快速發展,融合了多種技術的模 仿學習方法也不斷涌現,被廣泛應用到了復雜任務, 相關領域的新進展主要包括基于觀察量的模仿學習 (Kidambi 等,2021)、跨領域模仿學習(Raychaudhuri 等,2021;Fickinger 等,2021)等。

基于觀察量的模仿學習(imitation learning from observation,ILfO)放松了對專家示范數據的要求, 僅從可被觀察到的專家示范信息(如汽車行駛的視 頻信息)進行模仿學習,而不需要獲得專家的具體 動作數據(如人開車的方向盤、油門控制數據) (Torabi 等,2019)。這一設定使模仿學習更貼近現實 情況,使相關算法更具備實際運用價值。根據是否 需要建模任務的環境狀態轉移動力學(又稱為“模 型”),ILfO 類算法可以被分為有模型和無模型兩類。 其中,有模型方法依照對智能體與環境交互過程中 構建模型的方式,可以進一步被分為正向動態模型 (forward dynamics models)(Edwards 等 , 2019 ; Kidambi 等,2021)與逆向動態模型(inverse dynamics models)(Nair 等,2017;Torabi 等,2018;Guo 等,2019;Radosavovic 等,2021);無模型的方法主要包 括對抗式方法(Merel 等,2017;Stadie 等,2017; Henderson 等,2018) 與獎勵函數工程法(Gupta 等, 2017;Aytar 等,2018;Schmeckpeper 等,2021)。

跨領域模仿學習(cross domain imitation learning, CDIL)主要聚焦于研究智能體與專家處于不同領域 (例如不同的馬爾可夫決策過程)的模仿學習方法。 當前的 CDIL 研究主要聚焦于以下三個方面的領域 差異性(Kim 等,2020):1)狀態轉移差異(Liu 等, 2019),即環境的狀態轉移不同;2)形態學差異(Gupta 等,2017),即專家與智能體的狀態、動作空間不同; 3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020),即專家與智能體的觀察量不同。 根據算法依賴的主要技術路徑,其解決方案主要可 以分為:1)直接法(Taylor 等,2007),該類方法關注 形態學差異來進行跨領域模仿,通常使用簡單關系 函數(如線性函數)建立狀態到狀態之間的直接對 應關系;2)映射法(Gupta 等,2017;Sermanet 等, 2018;Liu 等,2018),該類方法尋求不同領域間的 深層相似性,利用復雜的非線性函數(如深度神經 網絡)完成不同任務空間中的信息轉移,實現跨領 域模仿;3)對抗式方法(Sharma 等,2019;Kim 等, 2020),該類方法通常包含專家行為判別器與跨領域 生成器,通過交替求解最小-最大化問題來訓練判別 器和生成器,實現領域信息傳遞;4)最優傳輸法 (Papagiannis 和 Li,2020;Dadashi 等,2021;Nguyen 等,2021;Fickinger 等,2021),該類方法聚焦專家 領域專家策略占用測度(occupancy measure)與目標 領域智能體策略占用測度間的跨領域信息轉移,通 過最優傳輸度量來構建策略遷移模型。

當前,模仿學習的應用主要集中在游戲 AI、機 器人控制、自動駕駛等智能體控制領域。圖形圖像 學方向的最新研究成果,如目標檢測(Feng 等,2021; Li 等,2022)、視頻理解(Lin 等,2019;Bertasius 等, 2021) 、視頻分類 (Tran 等 , 2019) 、視頻識別 (Feichtenhofer,2020)等,都極大地提升了智能體的 識別、感知能力,是模仿學習取得新進展與新應用 的重要基石。此外,近年來也有研究者開始探索直 接使用 IL 提高圖形/圖像任務的性能,如 3D/2D 模 型與圖像配準(Toth 等,2018)、醫學影像衰減校正 (Kl?ser 等,2021)、圖像顯著性預測(Xu 等,2021)等。 總體來說,模仿學習與圖像處理的有機結合,極大 地拓展了相關領域的科研范圍,為許多困難問題的 解決提供了全新的可能性。

本文的主要內容如下:首先簡要介紹模仿學習 概念,同時回顧必要的基礎知識;然后選取模仿學 習在國際上的主要成果,介紹傳統模仿學習與模仿 學習最新進展,同時也將展現國外最新的研究現狀; 接著選取國內高校與機構的研究成果,介紹模仿學 習的具體應用,同時也會比較國內外研究的現狀; 最后將總結本文,并展望模仿學習的未來發展方向 與趨勢,為研究者提供潛在的研究思路。本文是第 一個對模仿學習最新進展(即基于觀察量的模仿學 習與跨領域模仿學習)進行詳細調研的綜述,除本 文以外,(Ghavamzadeh 等,2015;Osa,2018;Attia 和 Dayan,2018;Levine,2018;Arora 和 Doshi, 2021)等文章也對模仿學習的其它細分領域進行了 調研。

**2 模仿學習新進展 **

隨著強化學習與模仿學習領域研究的不斷深入, 近些年模仿學習領域的研究取得了一些矚目的新進 展,相關的研究不再局限于理論分析與模擬環境, 而是轉向更貼近實際的方向,例如:基于觀察量的 模仿學習(2.1 節),跨領域模仿學習(2.2 節)。在 這些領域的許多工作,考慮了使用實際數據集進行 模仿學習訓練;同時其目標也并非局限于完成 Gym 等模擬環境上提供的標準任務,而是進一步轉向模 仿學習算法在機器人控制、自動駕駛等領域的實際 應用,為“模擬到現實”做出了堅實的推進。

**2.1 基于觀察量的模仿學習 **

當智能體試圖僅通過“觀察”來模仿專家的策略 時,就會出現基于觀察量的模仿學習(Imitation Learning from Observation,ILfO)這一任務(Torabi 等, 2019)。所謂的“觀察”,指的是僅包含狀態信息而不 包含動作信息的專家示范,它可以是僅包含狀態信 息的軌跡???????? = {????????}????=1 ???? ,也可以是單純的圖片或視頻。 相較于傳統模仿學習中既可以獲得專家所處的狀態, 又可以獲得專家在當前狀態下的策略(動作)的設 定,ILfO 放松了對專家示范數據的要求,從而成為 了一種更貼近現實情況、更具備實際運用價值的設 定。值得注意的是,ILfO 可以直接使用專家行為的 圖片數據作為輸入(Liu 等,2018;Torabi 等,2019; Karnan 等,2022),這在引入海量數據集的同時,也 將模仿學習與圖像圖形學、計算機視覺等領域有機 地結合起來,從而極大地拓展了相關領域的潛在研 究方向,為相關領域的進一步發展開辟了新的土壤。

IL 的目標類似,ILfO 的目標是讓智能體通 過模仿僅包含狀態信息的專家示范數據,輸出一個具有相同行為的策略。既然 ILfO 是一種更貼近現實 的設定,如何從現實的專家行為中獲得示范數據是 首先要解決的問題。一些早期的工作通過直接在專 家身上設置傳感器的方式記錄專家的行為數據 (Ijspeert 等,2001;Calinon 和 Billard,2007)。上述 方法的升級版本是采用動作捕捉技術,專家需要佩 戴專業的動作捕捉設備,這樣做的好處是計算機系 統可以直接對專家的行為進行 3 維建模,從而轉換 成模擬系統易于識別的輸入(Field 等,2009;Merel 等,2017)。隨著前些年卷積神經網絡在處理圖像數 據上大放異彩,現在較為常見的是直接使用攝像頭 拍攝專家行為,進而直接使用圖像、視頻數據作為 輸入(Liu 等,2018;Sharma 等,2019;orabi 等,2019; Karnan 等,2022)。 由于 ILfO 無法獲得專家動作,因此將專家動作 視為狀態標簽的方法將不再適用,這也使得 ILfO 變 成了更具挑戰的任務。一般來說,基于 ILfO 設定的 算法可以被分為有模型和無模型兩類。所謂的“模 型”,一般指的是環境的狀態轉移,通過對智能體與 環境交互過程中學習模型的方式作區分,可以進一 步將有模型的方法分為:正向動態模型(forward dynamics models)與逆向動態模型(inverse dynamics models);無模型的方法主要包括:對抗式方法與獎 勵函數工程法。

**2.2 跨領域模仿學習 **

跨領域模仿學習(cross domain imitation learning, CDIL)相關領域的研究最早可以追溯到機器人控制 領域通過觀察來讓機器人學習策略(Kuniyoshi 等, 1994;Argall 等,2009)。后來隨著對 ILfO(章節 2.1) 研究的深入,CDIL 的相關研究也越來越受重視。與 傳統設定下的 IL 相比,跨領域模仿學習與現實世界 中的學習過程兼容性更好(Raychaudhuri 等,2021)。 傳統的 IL 假設智能體和專家在完全相同的環境中 決策,而這一要求幾乎只可能在模擬系統(包括游戲) 中得到滿足。這一缺點嚴重地限制了傳統 IL 在現實 生活中可能的應用場景,并且將研究者的工作的重心轉移到對場景的準確建模,而并非算法本身的性 能上。CDIL 的產生打破了這一枷鎖,因為智能體可 以使用不同于自身領域的專家示范來學習策略。當 前 CDIL 所研究的領域差異主要集中在以下三個方 面(Kim 等,2020):1)狀態轉移差異(Liu 等,2019); 2)形態學差異(Gupta 等,2017);3)視角差異(Stadie 等,2017;Sharma 等,2019;Zweig 和 Bruna,2020)。 這些差異也對應第 2.1 章中提及的 ILfO 所面臨的挑 戰。

在模仿學習變得為人熟知之前,這一研究領域 更廣泛地被稱為遷移學習(Taylor 等,2008)。例如, Konidaris 等人(2006)通過在任務之間共享的狀態表 示子集上學習價值函數,來為目標任務提供塑性后 獎勵。Taylor 等人(2007)人工設計了一個可以將某一 MDP 對應的動作價值函數轉移到另一 MDP 中的映 射來實現知識遷移。直觀地說,為了克服智能體環 境和專家環境之間的差異,需要在它們之間建立一 個轉移或映射。Taylor 等人 (2008)介紹了一種“直接 映射”的方法,來直接學習狀態到狀態之間的映射關 系。然而,在不同領域中建立狀態之間的直接映射 只能提供有限的轉移,因為兩個形態學上不同的智 能體之間通常沒有完整的對應關系,但這種方法卻 不得不學習從一個狀態空間到另一個狀態空間的映 射(Gupta 等,2017),從而導致該映射關系是病態的。 早期的這些方法,大多都需要特定領域的知識,或 是人工構建不同空間之間的映射,這通常會使研究 變得繁瑣且泛化性較差,因此必須借助更為先進的 算法來提升性能。 隨著深度神經網絡的發展,更具表達性的神經 網絡被廣泛運用,CDIL 也迎來了較快的發展。 (Gupta 等,2017;Sermanet 等,2018;Liu 等,2018) 等文章研究機器人從視頻觀察中學習策略,為了解 決專家示范與智能體所處領域不同的問題,他們的 方法借助不同領域間成對的、時間對齊的示范來獲 得狀態之間對應關系,并且這些方法通常涉及與環 境進行交互的 RL 步驟。相較于“直接映射”的方法, 這些方法學習的映射并不是簡單的狀態對之間的關 系,而更多利用了神經網絡強大的表達性能,從而 取得更好的實驗效果。但不幸的是,成對且時間對 齊的數據集很難獲得,從而降低了該種方法的可實現性(Kim 等,2020)。

**3 模仿學習應用 **

隨著基于觀察量的模仿學習與跨領域模仿學習 的不斷發展,基于 IL 的算法也越來越符合現實場景 的應用要求,此外,圖形圖像學上的諸多最新研究 成果,也為 IL 的現實應用進一步賦能。模仿學習的 主要應用領域包括但不限于:1)游戲 AI;2)機器人 控制;3)自動駕駛;4)圖像圖形學等。本章節將列舉 有代表性的模仿學習應用類工作,同時由于現階段 國內關于模仿學習的研究主要集中在應用領域,因 此本章節將著重選取國內高校、機構的工作成果, 進而為國內該領域的研究者提供一些參考。 Gym(Brockman 等,2016)與 Mujoco(Todorov 等, 2012)是強化學習領域被最廣泛使用的訓練環境,其 為強化學習領域的研究提供了標準環境與基準任務, 使得不同的算法能在相同的設定下比較性能的優劣。 模仿學習作為強化學習最為熱門的分支領域,也廣 泛使用 Gym 與 Mujoco 作為訓練/測試環境。Gym 包 含多個基礎游戲環境以及雅達利游戲環境,Mujoco 包含多個智能體控制環境同時支持自建任務。值得 注意的是,Gym 與 Mujoco 都包含大量的圖像環境, 即以圖像的形式承載環境的全部信息,這就使得圖 像圖形學的眾多最新成果,直接推動了模仿學習的 應用。考慮到 Gym 與 Mujoco 的虛擬仿真特性,可 將其歸類為游戲環境。這些使用 Gym 與 Mujoco 進 行訓練或驗證的模仿學習算法,都能在一定程度上 推廣到其他游戲領域的應用。國內的諸多高校都在 該方面做出了自己的貢獻,包括 清華大學的 Yang 等人(2019)探究了基于逆向動態模型的 IL 算法性能, Jing 等人(2021)驗證了分層模仿學習的性能;上海交 通大學的 M.Liu 等人(2020)探究基于能量的模仿學 習算法性能,Liu 等人(2021)探究離線模仿學習算法 COIL(curriculum offline imitation learning)的性能, Liu等人(2022)探究通過解耦策略優化進行模仿學習。 南京大學的 Zhang 等人(2022)探究生成式對抗模仿 學習的性能,Xu 等人(2020) 探究模仿策略的誤差界 限,Jiang 等人(2020) 探究帶誤差的模擬器中的離線 模仿學習。

Gym 與 Mujoco 環境之外,模仿學習也被廣 泛用于訓練棋類與即時戰略類游戲 AI。這類游戲任 務的難度顯著增加,且通常包含較大信息量的圖像數據,因此也會更依賴于先進的圖像處理方法(例如 目標檢測)。對于這些復雜游戲環境,狀態動作空間 過于龐大,獎勵信息過于稀疏,智能體通常無法直 接通過強化學習獲得策略。進而,智能體首先通過 模仿人類選手的對局示范來學習較為基礎的策略, 然后使用強化學習與自我博弈等方式進一步提升策 略。其中最為代表的就是 Google 公司開發的圍棋游 戲 AI AlphaGo(Silver 等,2016)以及星際爭霸AI Alphastar(Vinyals 等,2019)。與國外的情況相似國內工業界也十分重視該類游戲 AI 的開發,包括 騰 訊公司開發的王者榮耀(復雜的多智能體對抗環境) 游戲 AI(Ye 等,2020);華為公司基于多模式對抗模 仿學習開發的即時戰略游戲 AI(Fei 等,2020),如圖 3 所示。考慮到該類游戲的超高復雜性,人工智能在 如此復雜的任務中完勝人類對手,可以預見人工智 能在游戲領域完全超越人類已經只是時間問題。 在機器人控制領域,由于機器人的價格昂貴, 部件易損且可能具備一定危險性,因此需要一種穩 定的方式獲得策略,模仿學習讓機器人直接模仿專 家的行為,可以快速、穩定地使其掌握技能,而不依 賴于過多的探索。斯坦福大學的 Abbeel 等人(2006), 早在 2006 年就將逆強化學習方法用在直升機控制 任務上(如圖 4 所示)。加州大學伯克利分校的 Nair 等人(2017),結合自監督學習與模仿學習的方法,讓 機器人通過模仿專家行為的視頻數據,學習完成簡 單的任務(如圖 5 所示)。國內高校也在該領域做出 了一定的貢獻,包括 清華大學的 Fang 等人(2019)調 研了模仿學習在機器人操控方面的研究。中國科學 院大學的 Jiayi Li 等人(2021)通過視頻數據進行元模 仿學習以控制機器(如圖 6 所示)。中科院自動化所 的 Y. Li 等人(2021)通過視頻數據進行模仿學習以精 確操控機器手臂的位置。 自動駕駛是當前人工智能最重要的應用領域 (Grigorescu 等,2020;Kiran 等,2021),模仿學習憑 借其優秀的性能也在該領域占據一席之地,特別是 基于觀察量的模仿學習與跨領域模仿學習兼容自動 駕駛的絕大部分現實需求,從而使得 IL 在該領域大 放異彩(Codevilla 等,2018;Bhattacharyya 等,2018Liang 等,2018;Chen 等,2019;Kebria 等,2019; Pan 等,2020)。國內的高校與企業也十分重視模仿 學習在自動駕駛領域的研究,包括 清華大學的 Wu 等人(2018)結合模仿學習進行水下無人設備訓練。浙 江大學的 Li 等人(2020)探究了用于視覺導航的基于 無監督強化學習的可轉移元技能;Wang 等人(2021) 探究從分層的駕駛模型中進行模仿學習(如圖 7 所 示);百度公司的 Zhou 等人(2021)使用模仿學習實現 自動駕駛。北京大學的 Zhu 等人(2021)關于深度強 化學習與模仿學習在自動駕駛領域的應用作了綜述。 事實上,近年來模仿學習也被直接用于圖像處 理上,在圖形圖像領域發揮出獨特的價值。Toth 等 人(2018)探究模仿學習在心臟手術的 3D/2D 模型與 圖像配準上的應用。Kl?ser 等人(2021)研究模仿學習 在改進3D PET/MR(positron emission tomography and magnetic resonance)衰減校正上的應用。北京航天航 空大學的Xu等人(2021)探究了生成對抗模仿學習在 全景圖像顯著性預測上的應用。 在其它領域,模仿學習也有著廣泛的應用,包 括電子有限集模型預測控制系統 (Novak 和 Dragicevic,2021)、云機器人系統(B. Liu 等,2020)、 異構移動平臺的動態資源管理(Mandal 等,2019)、 多智能體合作環境中的應用(Hao 等,2019)、信息檢 索(Dai 等,2021)、移動通信信息時效性(Wang 等, 2022)、黎曼流形(Zeestraten 等,2017)、運籌學 (Ingimundardottir 和 Runarsson,2018)、緩存替換(Liu 等,2020)等。

付費5元查看完整內容

作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。

1. 引言

強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。

深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。

盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]

解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。

常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。

課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。

3. 1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。

(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。

(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。

3. 2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。

付費5元查看完整內容

對手建模作為多智能體博弈對抗的關鍵技術,是一種典型的智能體認知行為建模方法。介紹 了多智能體博弈對抗幾類典型模型、非平穩問題和元博弈相關理論;梳理總結對手建模方法,歸納 了對手建模前沿理論,并對其應用前景及面對的挑戰進行分析。基于元博弈理論,構建了一個包括 對手策略識別與生成、對手策略空間重構和對手利用共三個模塊的通用對手建模框架。期望為多智 能體博弈對抗對手建模方面的理論與方法研究提供有價值的參考。

引言

人工智能技術的發展經歷了計算智能、感知智 能階段,云計算、大數據、物聯網等技術的發展正 助力認知智能飛躍發展。其中認知智能面向的理 解、推理、思考和決策等主要任務,主要表現為擅 長自主態勢理解、理性做出深度慎思決策,是強人 工智能(strong AI)的必備能力,此類瞄準人類智能 水平的技術應用前景廣闊,必將影響深遠。機器博 弈是人工智能領域的“果蠅” [1],面向機器博弈的智 能方法發展是人工智能由計算智能、感知智能的研 究邁向認知智能的必經之路。 多智能博弈對抗環境是一類典型的競合(競爭 -合作)環境,從博弈理論的視角分析,對手建模主 要是指對除智能體自身以外其它智能體建模,其中 其他智能體可能是合作隊友(合作博弈,cooperative game)、敵對敵人(對抗博弈,adversarial game)和自 身的歷史版本(元博弈, meta game)。本文關注的對 手建模問題,屬于智能體認知行為建模的子課題。 研究面向多智能體博弈對抗的對手建模方法,對于提高智能體基于觀察判斷、態勢感知推理,做好規 劃決策、行動控制具有重要作用。 本文首先介紹多智能體博弈對抗基礎理論;其 次對對手建模的主要方法進行分類綜述,研究分析 各類方法的區別聯系,從多個角度介紹當前對手建 模前沿方法,分析了應用前景及面臨的挑戰;最后 在元博弈理論的指導下,構建了一個擁有“對手策 略識別與生成、對手策略空間重構、對手策略利用” 共 3 個模塊的通用對手建模框架。

1 多智能體博弈對抗

近年來,多智能體博弈對抗的相關研究取得了 很大的突破。如圖 1 所示,以 AlphaGo/AlphaZero (圍棋 AI)[2]、Pluribus (德州撲克 AI)[3]、AlphaStar (星 際爭霸 AI)[4]、Suphx (麻將 AI)[5]等為代表的人工智 能 AI 在人機對抗比賽中已經戰勝了人類頂級職業 選手,這類對抗人類的智能博弈對抗學習為認知智 能的研究提供了新的研究范式。 多智能體博弈對抗的研究就是使用新的人工 智能范式設計人工智能 AI 并通過人機對抗、機機 對抗和人機協同對抗等方式研究計算機博弈領域 的相關問題,其本質就是通過博弈學習方法探索 人類認知決策智能習得過程,研究人工智能 AI 升級進化并戰勝人類智能的內在生成機理和技術 途經,這是類人智能研究走上強人工智能的必由 之路。

1.1 多智能體模型

在人工智能領域,馬爾可夫決策過程(markov decision process, MDP)常用于單智能體決策過程建 模。近些年,一些新的馬爾可夫決策模型相繼被提 出,為獲得多樣性策略和應對稀疏反饋,正則化馬 爾可夫決策過程將策略的相關信息或熵作為約束 條件,構建有信息或熵正則化項的馬爾可夫決策過 程[6]。相應的,一些新型帶熵正則化項的強化學習 方法[7](如時序空間的正則化強化學習,策略空間的 最大熵正則化強化學習與 Taillis 熵正則化強化學 習)和一些新的正則化馬爾可夫博弈模型[8](如最大 熵正則化馬爾可夫博弈、遷移熵正則化馬爾可夫博 弈)也相繼被提出。面向多智能體決策的模型主要 有多智能體 MDPs(multi-agent MDPs, MMDPs)及 分布式 MDPs(decentralized MDPs, Dec-MDPs)[9]。 其中在 MMDPs 模型中,主要采用集中式的策略, 不區分單個智能體的私有或全局信息,統一處理再 分配單個智能體去執行。而在 Dec-MDPs 模型中, 每個智能體有獨立的環境與狀態觀測,可根據局部 信息做出決策。重點針對智能體間信息交互的模型 主要有交互式 POMDP(interactive POMDP, I-POMDP)[10] ,其主要采用遞歸推理 (recursive reasoning)的對手建模方法對其他智能體的行為進 行顯式建模,推斷其它智能體的行為信息,然后采 取應對行為。以上介紹的主要是基于決策理論的智能體學習模型及相關方法。如圖 2 所示,這些模型 都屬于部分可觀隨機博弈 (partial observation stochastic game, POSG)模型的范疇。

當前,直接基于博弈理論的多智能體博弈模型 得到了廣泛關注。如圖 3 所示,其中有兩類典型的 多智能體博弈模型:隨機博弈(stochastic game),也 稱馬爾可夫博弈(markov game)模型適用于即時戰 略游戲、無人集群對抗等問題的建模;而擴展型博 弈(extensive form game, EFG)模型常用于基礎設施 防護,麻將、橋牌等回合制游戲(turn-based game) 的序貫交互,多階段軍事對抗決策等問題的建模。 最新的一些研究為了追求兩類模型的統一,將擴展 型博弈模型的建模成因子可觀隨機博弈(factored observation stochastic game)模型。

1.2 非平穩問題

多智能體博弈對抗面臨信息不完全、行動不確 定、對抗空間大規模和多方博弈難求解等挑戰,在 博弈對抗過程中,每個智能體的策略隨著時間在不 斷變化,因此每個智能體所感知到的轉移概率分布 和獎勵函數也在發生變化,故其行動策略是非平穩 的。當前,非平穩問題主要采用在線學習[11]、強化 學習和博弈論理論進行建模[12]。智能體處理非平衡 問題的方法主要有五大類:無視(ignore)[13],即假 設平穩環境;遺忘(forget)[14],即采用無模型方法, 忘記過去的信息同時更新最新的觀測;標定(target) 對手模型[15],即針對預定義對手進行優化;學習 (learn)對手模型的方法[16],即采用基于模型的學習 方法學習對手行動策略;心智理論(theory of mind, ToM)的方法[17],即智能體與對手之間存在遞歸推 理。面對擁有有限理性欺騙型策略的對手,對手建 模(也稱智能體建模)已然成為智能體博弈對抗時必 須擁有的能力[18-20],它同分布式執行中心化訓練、 元學習、多智能體通信建模為非平穩問題的處理提 供了技術支撐[21]。

2 對手建模

合理的預測對手行為并安全的利用對手弱點, 可為己方決策提供可效依據。要解決博弈中非完全 信息的問題,最直接的思想就是采取信息補全等手 段將其近似轉化為其完全信息博弈模型而加以解決。本文中,對手建模主要是指利用智能體之間的 交互信息對智能體行為進行建模,然后推理預測對 手行為、推理發掘對手弱點并予以利用的方式。**3 基于元博弈理論的對手建模框架 **針對多智能體博弈對抗中的非平穩問題,以及 對手建模面臨的挑戰,本文基于元博弈理論,從智 能體認知行為出發,試圖建立一個滿足多智能體博 弈對抗需求的通用對手建模框架。

**4 結論 **多智能體博弈對抗過程中,可能面臨對手信息 不完全、信息不完美、信息不對稱等挑戰。本文旨 在構建面向非平穩環境的通用對手建模框架。首先 從多智能體博弈對抗的角度介紹了當前多智能體 博弈的幾類典型模型和非平穩問題。其次,結合對 手建模前沿理論梳理總結了兩大類共八小類對手 建模方法,并對其應用前景和面臨的挑戰進行詳細 分析。最后,基于元博弈理論,從對手策略識別與 生成、對手策略空間重構、對手策略利用三個方面 構建了一個通用的對手建模框架,并指出了對手建 模的未來六大主要研究方向。

付費5元查看完整內容

摘要: 知識圖譜是一種用圖結構建模事物及事物間聯系的數據表示形式,是實現認知智能的重要基礎,得到了學術界和工業界的廣泛關注.知識圖譜的研究內容主要包括知識表示、知識抽取、知識融合、知識推理4部分. 目前,知識圖譜的研究還存在一些挑戰.例如,知識抽取面臨標注數據獲取困難而遠程監督訓練樣本存在噪聲問題,知識推理的可解釋性和可信賴性有待進一步提升,知識表示方法依賴人工定義的規則或先驗知識,知識融合方法未能充分建模實體之間的相互依賴關系等問題.由環境驅動的強化學習算法適用于貫序決策問題.通過將知識圖譜的研究問題建模成路徑(序列)問題,應用強化學習方法,可解決知識圖譜中的存在的上述相關問題,具有重要應用價值. 首先梳理了知識圖譜和強化學習的基礎知識.其次,對基于強化學習的知識圖譜相關研究進行全面綜述.再次,介紹基于強化學習的知識圖譜方法如何應用于智能推薦、對話系統、游戲攻略、生物醫藥、金融、安全等實際領域.最后,對知識圖譜與強化學習相結合的未來發展方向進行展望.

自谷歌在2012年推出“知識圖譜”(knowledge graph,KG)后,知 識 圖 譜 技 術 已 迅 速 成 為 數 據 挖 掘、數據庫和人工智能等領域的研究熱點.知識圖譜 采用圖 結 構 來 描 述 知 識 和 建 模 事 物 及 事 物 間 關 系[1].它將信息表達成更接近人類認知的形式,提供 了一種組織、管理和認知理解海量信息的能力[2].知 識圖譜本質是一種大規模語義網絡,既包含了豐富 的語義信息,又天然具有圖的各種特征,其中,事物 或實體屬性值表示為“節點”,事物之間的關系或屬 性表示為“邊”.目前,知識圖譜相關的知識自動獲 取、知 識 推 理、知 識 表 示、知 識 融 合已成為搜索問答、大數據分析[4]、智能推薦[6]和 數據集成[11]的強大資產,被廣泛應用于多個行業 領域.

目前,大部分知識圖譜的研究是基于監督學習 的方法.然而,為模型獲得足夠的標注數據成 本較高.為此部分學者提出使用遠程監督的方法來 減少數據標注[15],遠程監督指的是借助外部知識庫 為數據提供標簽[16].但遠程監督獲得的訓練樣本中 存在噪聲.此外,現有方法還存在依賴人工預定義的 規則和先驗知識或模型缺乏可解釋性等問題.強化 學習(reinforcementlearning,RL)適用于貫序決策 問題,通過學習如何與環境交互,進而輔助人類決 策.它在進行策略選擇時更關注環境狀態,對行為的 選擇進行更好地理解和解釋.將知識圖譜研究的問 題建模成路徑或序列相關的問題,例如,將基于遠程 監督的命名實體識別中干凈樣本的選擇建模成序列 標注任務、將關系推理建模成路徑查找問題等,應用 強化學習算法可以避免依賴人工預定義的規則或先 驗知識,解決模型缺乏可解釋性或僅提供事后可解 釋性(postGhocexplanation)的問題,具有重要的研 究和應用價值.

近年來,學術界和工業界對知識圖譜、強化學習 2個領域進行了深入研究,有不少分別聚焦知識圖 譜和強化學習的綜述性文章.文獻分別圍繞知識圖譜的表示學習、知識獲取、知 識推理、知識圖譜構建與應用、多模態知識融合等進 行綜述.文獻分別對基于價值的和基于策略 的強化學習、深度強化學習算法、多智能體算法進行 綜述.文獻對強化學習在綜合能源管理和金 融交易領域的研究進行闡述.然而,盡管已有諸多的 知識圖譜、強化學習綜述文獻,但仍缺乏對知識圖譜 和強化學習相結合的研究進行系統地梳理和總結的 工作.與現有的工作相比,本文工作的不同主要體現 在2個方面:1) 通過系統調研已發表的基于強化學 習的知識圖譜相關研究的論文,全面總結了基于強 化學習的知識圖譜研究,包括知識抽取、知識推理、 知識表示、知識融合等研究成果.2) 介紹了基于強化 學習的知識圖譜如何應用于智能推薦、游戲攻略、生 物醫藥、金融、網絡安全等實際領域.本文是第1篇 系統介紹該研究方向的綜述論文.

基于強化學習的知識圖譜研究

目前,大多數知識圖譜的相關方法基于監督學 習,但對數據進行標注費時費力.為了解決標注困難 的問題,有學者提出了遠程監督的方法.遠程監督減 少了數據 標 注 成 本,但 又 在 訓 練 數 據 中 引 入 了 噪 聲[15].雖然,目前知識圖譜的研究方法在準確率、精 度、召回率等性能上取得了很好的效果,但這些方法 結果的透明性、可解釋性、可信賴性等還有待進一步 研究.強化學習方法不同于一般的監督學習, 它把相關問題建模為序列決策問題,近年來在知識 圖譜領域得到應用,可以幫助解決遠程監督的噪音 問題、知識推理結果可解釋性差[105]等問題.本節將 分別從命名實體識別、關系抽取、知識推理、知識表 示、知識融合等5個方面,詳細介紹強化學習方法在 各類研究中的進展,如圖3所示:


命名實體識別

**命名實體識別旨在對序列進行命名實體標注, 判斷輸入句子中的詞是否屬于人名、地名、組織機構 名等.現有命名實體識別方法依賴人工標注數據,但 標 注 成 本 較 高.遠 程 監 督 方 法 可 以 降 低 標 注 成 本[15],但遠程監督獲得的訓練樣本中又存在噪聲. 強化學習方法可以通過自主學習選擇高質量的訓練 樣本數據,解決上述問題.目前,基于強化學習的命 名實體識別方法思路主要有2類:1)使用深度強化 學習模型自動學習樣本選擇策略,過濾掉訓練數據 中的噪聲.2)將命名實體識別任務利用強化學習來 建模,即將序列標注任務轉換為序列決策問題.通過 利用 Markov決策過程模型來進行序列標注,即為 序列中的每個元素分配一個標簽.

關系抽取

關系可以定義為實體之間或實體與屬性之間的 某種聯系,關系抽取就是自動識別實體(或實體與屬 性)之間具有的某種語義關系.現有關系抽取方法大 多基于神經網絡模型[46G54],通過監督學習或遠程監 督學習來完成抽取任務.為了降低標注成本,學者們 提出使用遠程監督的方法.遠程監督方法雖然有效, 但在訓練樣本中引入了噪聲[15].強化學習方法可以 通過知識引導來避免噪聲數據帶來的影響.基于強 化學習的關系抽取方法主要可以分為3類:1)使用 強化學習模型對抽取結果進行知識驗證;2)利用強 化學習模型進行訓練樣本選擇;3)將實體識別與關 系抽取2個任務聯合建模,互為增強。

知識推理

知識圖譜通常是不完整的.知識推理是指根據 知識圖譜中已有的知識,采用某些方法,推理出新的 知識,包括實體預測和關系預測.傳統的推理方法, 例如基于規則的推理[55G56]會引入一些人類先驗知 識,專家依賴度過高.目前,大部分知識推理是基于 神經網絡模型[58G64].神經網絡模型通常更關注于推 理結果,模型可解釋性、可信賴性有待進一步提升. 除基于規則、基于神經網絡的推理方法外,知識 推理問題也可以建模成知識圖譜中路徑查找問題, 其中節點代表實體,關系代表邊.強化學習智能體根 據當前環境(所在節點)通過策略學習或價值函數學 習,來決定下一步的行動(通常為關系或(關系,實 體)),從而完成推理任務.因此,基于強化學習的知 識圖譜推理在學術界和工業界得到廣泛研究.基于 強化學習的知識圖譜推理方法依據智能體的個數可 以分為單智能體推理方法、多智能體推理方法.多智 能體推理方法指至少擁有2個智能體的基于強化學 習的知識推理方法.多智能體之間存在著一定的關 系,如合作、競爭或同時存在競爭與合作的關系.我 們將分別從單智能體推理、多智能體推理2個方面 進行詳細介紹.

**知識表示 **

知識圖譜 在 表 示 結 構 化 數 據 方 面 非 常 有 效, 但這種三元組的基本符號性質使知識圖譜難以操 作[135].為了解決這一問題,提出了知識表示學習[1]. 知識表示學習旨在將知識圖譜豐富的結構和語義信 息嵌入到低維節點表示中.目前,常用的知識表示學 習方法[1]有基于翻譯模型 Trans系列的方法[69G71]、基 于語義匹配的方法[68G69]、基于神經網絡的方法[71G76].基于翻譯模型的方法簡單易于理解,但是基于翻譯 模型的方法不能處理復雜關系,模型復雜度較高.基 于語義匹配的方法需要大量參數且復雜度較高,限 制了其在大規模稀疏知識圖譜上的應用.基于神經 網絡的方法雖然建模能力較強,但是結果缺乏一定 的可解釋性.基于圖的隨機游走模型[136G138]也是用于 知識表示學習的一類方法.這類方法依賴于人工設 置元路徑來捕獲圖的語義信息.然而,人工設置元路 徑需要豐富的專家領域知識,對于大規模、復雜且語 義豐富的知識圖譜來說,是一件充滿挑戰的任務.

**知識融合 **

知識圖譜中的知識來源廣泛,具有多源、異構等 特點,需要構建統一的大規模知識庫來支撐推理和理 解任務.知識融合研究如何將來自多個來源的關于 同一個實體或概念的描述信息融合起來[11],形成高質量統一的知識圖譜的一類任務.通常,知識融合包 括本體匹配(ontologymatching)、本體對齊(ontology alignment)、實 體 鏈 接 (entitylinking)、實 體 消 歧 (entitydisambiguation)、實體對齊(entityalignment) 等.現有的知識融合方法還存在受噪聲數據以及對 齊種子對數量的限制[141],或者未能充分建模實體 之間的相互依賴關系等問題.

基于強化學習的知識圖譜的應用

知識圖譜可以為各領域提供豐富的信息和先驗 知識,強化學習方法擁有強大的探索能力和自主學 習能力.基于強化學習的知識圖譜相關技術能夠降 低噪聲數據的干擾、自動選擇高質量的樣本數據、更 好地理解環境和提供可信解釋.因此,基于強化學習 的知識圖譜在很多領域得到應用.強化學習與知識 圖譜的結合,從結合方式上來看,可以分為2類.1) 將實際問題建模為包含多種節點類型和關系類型的 知識圖譜,強化學習在知識圖譜上進行探索學習策 略.2) 將知識圖譜作為外部信息引入強化學習框架 中,用來指導強化學習的探索過程.我們將介紹如何 將知識圖譜與強化學習結合解決實際應用中的問 題,包括智能推薦、對話系統、游戲攻略、生物醫藥、 金融、網絡安全等.

智能推薦

推薦系統常面臨數據稀疏、可解釋性等問題以及個性化定制、新型推薦任務等新的需求.知識圖譜 可以向推薦系統中引入輔助信息,如商品內容、跨領 域信息等.與常用的推薦方法不同,基于強化學習的 知識圖譜推薦是在知識圖譜中探索圖(路徑查找)來 找到從用戶到商品的有意義的路徑.強化學習智能體在探索過程中進行決策,解決數據稀疏,提高推薦 可解釋性,使得推薦結果更符合用戶需求。

**對話系統 **

自然語言處理領域的一個重要應用就是人機對 話系統,它是人機交互的核心功能之一.計算機想要 順利無障礙地和人類交流,必須具備豐富的背景知 識以及強大的決策能力,結合背景知識去理解對話 內容,從外部知識庫中找出相關的知識并進行推理, 從而生成合適的回答.知識圖譜為對話系統提供了 豐富的背景知識,而強化學習可以從相關知識集合 中選出恰當的知識,并且可以利用用戶的隱式負反 饋信息,確保對話效果持續穩步提升.

**游戲攻略 **

文字類冒險游戲是一種玩家必須通過文本描述 來了解世界,通過相應的文本描述來聲明下一步動 作的游戲.這類游戲中強化學習智能體根據接收到 的文本信息進行自動響應,以實現規定的游戲目標 或任務(例如拿裝備、離開房間等).強化學習善于序 列決策,知識圖譜善于建模文本的語義和結構信息. 因此,強化學習和知識圖譜相結合在文字類冒險游 戲中得到了成功的應用.基于強化學習的知識圖譜 方法在進行游戲策略學習時主要思路可分為2類: 1)將游戲狀態構建成一張知識圖,利用強化學習技 術進行游戲策略學習;2)將知識圖譜作為外部知識 輔助強化學習智能體進行決策.

**藥物∕疾病預測 **

在生物醫藥領域,藥物合成、新材料發現、疾病 預測等在科技迅速發展的今天顯得日益重要,給社會 發展和人們生活帶來巨大變化.引入強化學習方法, 可以利用智能體在知識圖譜中的自動探索做出最優 決策,同時找到的路徑可以為反應物生成或者疾病 預測提供可解釋性依據.目前,基于強化學習的知識 圖譜技術已經被應用于發現新的藥物或材料、化學 反應物預測以及藥物組合預測、疾病預測等領域。

未來發展方向

近幾年來,針對知識圖譜和強化學習的相關研 究已經成為人工智能領域的熱點方向.知識圖譜可 以同時建模數據的拓撲結構和語義信息,強化學習 是一種從試錯過程中發現最優行為策略的技術[84], 適用于解決貫序決策問題.知識圖譜與強化學習的 結合有利于提升訓練樣本質量,還有利于提高可解 釋性和可信賴性.但是,強化學習方法在知識圖譜領 域應用也存在一些不足,主要表現在2個方面:1)對 強化學習狀態的表示,文獻[134]提到目前強化學習 狀態表示大多使用預訓練得到的節點嵌入.然而,當 知識圖譜中增加新三元組時,節點的嵌入也需要重 新訓練,計算成本較大.文獻[126]提到除了結構信 息以外,節點的文本描述信息、層次結構的類型信息 也十分重要.在知識圖譜表示學習領域,文獻[172] 和文獻[173]分別將文本描述信息、關系路徑等信 息,用于構建更加精準的知識表示.然而,這些方法 還未廣泛應用于強化學習狀態的表示中.2)強化學 習的獎勵函數設計,與人工定義獎勵函數相比,文獻 [122]和文獻[147]已經開始嘗試利用知識圖譜中的 信息結合抗性學習來生成自適應的獎勵函數.如何 自動生成更合理的獎勵函數還有待進一步研究. 目前圍繞強化學習與知識圖譜結合的研究還處 于起步階段,有廣闊的發展空間.未來值得關注5個 方向:

1)基于強化學習的動態時序知識圖譜研究

隨著應用的深入,人們不僅關注實體關系三元 組這種簡單的知識表示,還需要掌握包括邏輯規則、 決策過程在內的復雜知識.目前基于強化學習的知 識圖譜研究主要圍繞靜態知識圖譜.然而,知識隨著 時間的推移往往是動態變化的.如何利用強化學習 在解決序列決策問題方面的優勢,來建模知識圖譜 的動態性,學習知識圖譜的變化趨勢,解決實際應用 中的復雜問題是一個值得研究的課題.Li等人[174]研 究了動態時序知識圖譜的時序推理問題.受人類推 理方式的啟發,CluSTeR(cluesearchingandtemporal reasoning)包含線索搜索和時序推理2部分.線索搜 索模塊采用隨機集束搜索算法,作為強化學習的動 作采樣方法,從歷史事件中推斷多條線索.時序推理 模塊使用基于 RGGCN 進行編碼,并應用 GRU 進行 時序預測,實現從線索中推理答案.

2)基于強化學習的多模態知識圖譜研究

面對越來越復雜多樣的用戶訴求,單一知識圖 譜已不能滿足行業需求.多模態數據[11]可以提供更 豐富的信息表示,輔助用戶決策,提升現有算法的性 能.目前,基于強化學習的知識圖譜研究主要針對文 本數據.如何利用強化學習技術進行多模態知識圖譜 的構建與分析仍是一個值得研究的方向.He等人[175] 將強化學習方法應用于視頻定位(videogrounding) ,即給定一段文本描述將其與視頻片段相匹配的任 務中.He等人將這個任務建模為一個順序決策的問 題,利用 ActorGCritic算法學習一個 逐步 調節時間 定位邊界的代理,完成視頻與文本的匹配.

3)基于新的強化學習方法的知識圖譜研究

強化學習作為人工智能領域研究熱點之一,其 研究進展與成果也引發了學者們的關注.強化學習 領域最近提出了一系列新的方法和理論成果,例如, 循環元強化學習[176]、基于 Transformer的 強 化 學 習[177]、逆強化學習[178]等相關的理論.如何將這些新 的理論方法應用在知識圖譜的構建或研究應用中, 值得深入思考.Hou等人[179]在強化學習動作選擇中 引入了知識圖譜中隱含的規則來約束動作選擇,進 一步精簡了動作空間,提高了強化學習效率.Hua等 人[180]提出了一種元強化學習方法來進行少樣本復 雜知識庫問答,以減少對數據注釋的依賴,并提高模 型對不同問題的準確性.

4)基于強化遷移學習的知識圖譜研究

基于強化學習的知識圖譜方法具有一定的可解 釋性和準確性.但強化學習不同于監督學習,樣本數 據來源于智能體與環境的交互,會導致收集大量無 用且重復的數據,成本較高.一種解決思路是將遷移 學習應用到強化學習中,通過將源任務學習到的經 驗應用到目標任務中,幫助強化學習更好地解決實 際問題.文獻[164]、文獻[170]將遷移學習和強化 學習結合起來,分別應用于同類游戲策略學習以及 動態金融知識圖譜構建領域,并取得了不錯的效果, 緩解了特定領域因訓練數據不足所帶來的挑戰,提 高了模型舉一反三和融會貫通的能力.因此,基于強 化遷移學習的知識圖譜研究也是未來一個重要的研 究方向.

5)算法可解釋性度量研究 由于知識圖譜能夠提供實體間的語義和結構信 息,強化學習智能體的學習過程和人類認知世界的 過程比較相似,產生的解釋更易于人類理解.因此, 一些研究者利用強化學習和知識圖譜開展可解釋性的研究.然而,這些研究工作可解釋性的效果只能通 過實例分析來進行評測.目前,針對解釋性還沒有統 一或者公認的衡量標準[84],如何衡量模型的可解釋 性是未來需要研究的問題之一.

付費5元查看完整內容

深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.

//xwxt.sict.ac.cn/CN/volumn/current_abs.shtml#

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容
北京阿比特科技有限公司