亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

摘要: 知識圖譜是一種用圖結構建模事物及事物間聯系的數據表示形式,是實現認知智能的重要基礎,得到了學術界和工業界的廣泛關注.知識圖譜的研究內容主要包括知識表示、知識抽取、知識融合、知識推理4部分. 目前,知識圖譜的研究還存在一些挑戰.例如,知識抽取面臨標注數據獲取困難而遠程監督訓練樣本存在噪聲問題,知識推理的可解釋性和可信賴性有待進一步提升,知識表示方法依賴人工定義的規則或先驗知識,知識融合方法未能充分建模實體之間的相互依賴關系等問題.由環境驅動的強化學習算法適用于貫序決策問題.通過將知識圖譜的研究問題建模成路徑(序列)問題,應用強化學習方法,可解決知識圖譜中的存在的上述相關問題,具有重要應用價值. 首先梳理了知識圖譜和強化學習的基礎知識.其次,對基于強化學習的知識圖譜相關研究進行全面綜述.再次,介紹基于強化學習的知識圖譜方法如何應用于智能推薦、對話系統、游戲攻略、生物醫藥、金融、安全等實際領域.最后,對知識圖譜與強化學習相結合的未來發展方向進行展望.

自谷歌在2012年推出“知識圖譜”(knowledge graph,KG)后,知 識 圖 譜 技 術 已 迅 速 成 為 數 據 挖 掘、數據庫和人工智能等領域的研究熱點.知識圖譜 采用圖 結 構 來 描 述 知 識 和 建 模 事 物 及 事 物 間 關 系[1].它將信息表達成更接近人類認知的形式,提供 了一種組織、管理和認知理解海量信息的能力[2].知 識圖譜本質是一種大規模語義網絡,既包含了豐富 的語義信息,又天然具有圖的各種特征,其中,事物 或實體屬性值表示為“節點”,事物之間的關系或屬 性表示為“邊”.目前,知識圖譜相關的知識自動獲 取、知 識 推 理、知 識 表 示、知 識 融 合已成為搜索問答、大數據分析[4]、智能推薦[6]和 數據集成[11]的強大資產,被廣泛應用于多個行業 領域.

目前,大部分知識圖譜的研究是基于監督學習 的方法.然而,為模型獲得足夠的標注數據成 本較高.為此部分學者提出使用遠程監督的方法來 減少數據標注[15],遠程監督指的是借助外部知識庫 為數據提供標簽[16].但遠程監督獲得的訓練樣本中 存在噪聲.此外,現有方法還存在依賴人工預定義的 規則和先驗知識或模型缺乏可解釋性等問題.強化 學習(reinforcementlearning,RL)適用于貫序決策 問題,通過學習如何與環境交互,進而輔助人類決 策.它在進行策略選擇時更關注環境狀態,對行為的 選擇進行更好地理解和解釋.將知識圖譜研究的問 題建模成路徑或序列相關的問題,例如,將基于遠程 監督的命名實體識別中干凈樣本的選擇建模成序列 標注任務、將關系推理建模成路徑查找問題等,應用 強化學習算法可以避免依賴人工預定義的規則或先 驗知識,解決模型缺乏可解釋性或僅提供事后可解 釋性(postGhocexplanation)的問題,具有重要的研 究和應用價值.

近年來,學術界和工業界對知識圖譜、強化學習 2個領域進行了深入研究,有不少分別聚焦知識圖 譜和強化學習的綜述性文章.文獻分別圍繞知識圖譜的表示學習、知識獲取、知 識推理、知識圖譜構建與應用、多模態知識融合等進 行綜述.文獻分別對基于價值的和基于策略 的強化學習、深度強化學習算法、多智能體算法進行 綜述.文獻對強化學習在綜合能源管理和金 融交易領域的研究進行闡述.然而,盡管已有諸多的 知識圖譜、強化學習綜述文獻,但仍缺乏對知識圖譜 和強化學習相結合的研究進行系統地梳理和總結的 工作.與現有的工作相比,本文工作的不同主要體現 在2個方面:1) 通過系統調研已發表的基于強化學 習的知識圖譜相關研究的論文,全面總結了基于強 化學習的知識圖譜研究,包括知識抽取、知識推理、 知識表示、知識融合等研究成果.2) 介紹了基于強化 學習的知識圖譜如何應用于智能推薦、游戲攻略、生 物醫藥、金融、網絡安全等實際領域.本文是第1篇 系統介紹該研究方向的綜述論文.

基于強化學習的知識圖譜研究

目前,大多數知識圖譜的相關方法基于監督學 習,但對數據進行標注費時費力.為了解決標注困難 的問題,有學者提出了遠程監督的方法.遠程監督減 少了數據 標 注 成 本,但 又 在 訓 練 數 據 中 引 入 了 噪 聲[15].雖然,目前知識圖譜的研究方法在準確率、精 度、召回率等性能上取得了很好的效果,但這些方法 結果的透明性、可解釋性、可信賴性等還有待進一步 研究.強化學習方法不同于一般的監督學習, 它把相關問題建模為序列決策問題,近年來在知識 圖譜領域得到應用,可以幫助解決遠程監督的噪音 問題、知識推理結果可解釋性差[105]等問題.本節將 分別從命名實體識別、關系抽取、知識推理、知識表 示、知識融合等5個方面,詳細介紹強化學習方法在 各類研究中的進展,如圖3所示:


命名實體識別

**命名實體識別旨在對序列進行命名實體標注, 判斷輸入句子中的詞是否屬于人名、地名、組織機構 名等.現有命名實體識別方法依賴人工標注數據,但 標 注 成 本 較 高.遠 程 監 督 方 法 可 以 降 低 標 注 成 本[15],但遠程監督獲得的訓練樣本中又存在噪聲. 強化學習方法可以通過自主學習選擇高質量的訓練 樣本數據,解決上述問題.目前,基于強化學習的命 名實體識別方法思路主要有2類:1)使用深度強化 學習模型自動學習樣本選擇策略,過濾掉訓練數據 中的噪聲.2)將命名實體識別任務利用強化學習來 建模,即將序列標注任務轉換為序列決策問題.通過 利用 Markov決策過程模型來進行序列標注,即為 序列中的每個元素分配一個標簽.

關系抽取

關系可以定義為實體之間或實體與屬性之間的 某種聯系,關系抽取就是自動識別實體(或實體與屬 性)之間具有的某種語義關系.現有關系抽取方法大 多基于神經網絡模型[46G54],通過監督學習或遠程監 督學習來完成抽取任務.為了降低標注成本,學者們 提出使用遠程監督的方法.遠程監督方法雖然有效, 但在訓練樣本中引入了噪聲[15].強化學習方法可以 通過知識引導來避免噪聲數據帶來的影響.基于強 化學習的關系抽取方法主要可以分為3類:1)使用 強化學習模型對抽取結果進行知識驗證;2)利用強 化學習模型進行訓練樣本選擇;3)將實體識別與關 系抽取2個任務聯合建模,互為增強。

知識推理

知識圖譜通常是不完整的.知識推理是指根據 知識圖譜中已有的知識,采用某些方法,推理出新的 知識,包括實體預測和關系預測.傳統的推理方法, 例如基于規則的推理[55G56]會引入一些人類先驗知 識,專家依賴度過高.目前,大部分知識推理是基于 神經網絡模型[58G64].神經網絡模型通常更關注于推 理結果,模型可解釋性、可信賴性有待進一步提升. 除基于規則、基于神經網絡的推理方法外,知識 推理問題也可以建模成知識圖譜中路徑查找問題, 其中節點代表實體,關系代表邊.強化學習智能體根 據當前環境(所在節點)通過策略學習或價值函數學 習,來決定下一步的行動(通常為關系或(關系,實 體)),從而完成推理任務.因此,基于強化學習的知 識圖譜推理在學術界和工業界得到廣泛研究.基于 強化學習的知識圖譜推理方法依據智能體的個數可 以分為單智能體推理方法、多智能體推理方法.多智 能體推理方法指至少擁有2個智能體的基于強化學 習的知識推理方法.多智能體之間存在著一定的關 系,如合作、競爭或同時存在競爭與合作的關系.我 們將分別從單智能體推理、多智能體推理2個方面 進行詳細介紹.

**知識表示 **

知識圖譜 在 表 示 結 構 化 數 據 方 面 非 常 有 效, 但這種三元組的基本符號性質使知識圖譜難以操 作[135].為了解決這一問題,提出了知識表示學習[1]. 知識表示學習旨在將知識圖譜豐富的結構和語義信 息嵌入到低維節點表示中.目前,常用的知識表示學 習方法[1]有基于翻譯模型 Trans系列的方法[69G71]、基 于語義匹配的方法[68G69]、基于神經網絡的方法[71G76].基于翻譯模型的方法簡單易于理解,但是基于翻譯 模型的方法不能處理復雜關系,模型復雜度較高.基 于語義匹配的方法需要大量參數且復雜度較高,限 制了其在大規模稀疏知識圖譜上的應用.基于神經 網絡的方法雖然建模能力較強,但是結果缺乏一定 的可解釋性.基于圖的隨機游走模型[136G138]也是用于 知識表示學習的一類方法.這類方法依賴于人工設 置元路徑來捕獲圖的語義信息.然而,人工設置元路 徑需要豐富的專家領域知識,對于大規模、復雜且語 義豐富的知識圖譜來說,是一件充滿挑戰的任務.

**知識融合 **

知識圖譜中的知識來源廣泛,具有多源、異構等 特點,需要構建統一的大規模知識庫來支撐推理和理 解任務.知識融合研究如何將來自多個來源的關于 同一個實體或概念的描述信息融合起來[11],形成高質量統一的知識圖譜的一類任務.通常,知識融合包 括本體匹配(ontologymatching)、本體對齊(ontology alignment)、實 體 鏈 接 (entitylinking)、實 體 消 歧 (entitydisambiguation)、實體對齊(entityalignment) 等.現有的知識融合方法還存在受噪聲數據以及對 齊種子對數量的限制[141],或者未能充分建模實體 之間的相互依賴關系等問題.

基于強化學習的知識圖譜的應用

知識圖譜可以為各領域提供豐富的信息和先驗 知識,強化學習方法擁有強大的探索能力和自主學 習能力.基于強化學習的知識圖譜相關技術能夠降 低噪聲數據的干擾、自動選擇高質量的樣本數據、更 好地理解環境和提供可信解釋.因此,基于強化學習 的知識圖譜在很多領域得到應用.強化學習與知識 圖譜的結合,從結合方式上來看,可以分為2類.1) 將實際問題建模為包含多種節點類型和關系類型的 知識圖譜,強化學習在知識圖譜上進行探索學習策 略.2) 將知識圖譜作為外部信息引入強化學習框架 中,用來指導強化學習的探索過程.我們將介紹如何 將知識圖譜與強化學習結合解決實際應用中的問 題,包括智能推薦、對話系統、游戲攻略、生物醫藥、 金融、網絡安全等.

智能推薦

推薦系統常面臨數據稀疏、可解釋性等問題以及個性化定制、新型推薦任務等新的需求.知識圖譜 可以向推薦系統中引入輔助信息,如商品內容、跨領 域信息等.與常用的推薦方法不同,基于強化學習的 知識圖譜推薦是在知識圖譜中探索圖(路徑查找)來 找到從用戶到商品的有意義的路徑.強化學習智能體在探索過程中進行決策,解決數據稀疏,提高推薦 可解釋性,使得推薦結果更符合用戶需求。

**對話系統 **

自然語言處理領域的一個重要應用就是人機對 話系統,它是人機交互的核心功能之一.計算機想要 順利無障礙地和人類交流,必須具備豐富的背景知 識以及強大的決策能力,結合背景知識去理解對話 內容,從外部知識庫中找出相關的知識并進行推理, 從而生成合適的回答.知識圖譜為對話系統提供了 豐富的背景知識,而強化學習可以從相關知識集合 中選出恰當的知識,并且可以利用用戶的隱式負反 饋信息,確保對話效果持續穩步提升.

**游戲攻略 **

文字類冒險游戲是一種玩家必須通過文本描述 來了解世界,通過相應的文本描述來聲明下一步動 作的游戲.這類游戲中強化學習智能體根據接收到 的文本信息進行自動響應,以實現規定的游戲目標 或任務(例如拿裝備、離開房間等).強化學習善于序 列決策,知識圖譜善于建模文本的語義和結構信息. 因此,強化學習和知識圖譜相結合在文字類冒險游 戲中得到了成功的應用.基于強化學習的知識圖譜 方法在進行游戲策略學習時主要思路可分為2類: 1)將游戲狀態構建成一張知識圖,利用強化學習技 術進行游戲策略學習;2)將知識圖譜作為外部知識 輔助強化學習智能體進行決策.

**藥物∕疾病預測 **

在生物醫藥領域,藥物合成、新材料發現、疾病 預測等在科技迅速發展的今天顯得日益重要,給社會 發展和人們生活帶來巨大變化.引入強化學習方法, 可以利用智能體在知識圖譜中的自動探索做出最優 決策,同時找到的路徑可以為反應物生成或者疾病 預測提供可解釋性依據.目前,基于強化學習的知識 圖譜技術已經被應用于發現新的藥物或材料、化學 反應物預測以及藥物組合預測、疾病預測等領域。

未來發展方向

近幾年來,針對知識圖譜和強化學習的相關研 究已經成為人工智能領域的熱點方向.知識圖譜可 以同時建模數據的拓撲結構和語義信息,強化學習 是一種從試錯過程中發現最優行為策略的技術[84], 適用于解決貫序決策問題.知識圖譜與強化學習的 結合有利于提升訓練樣本質量,還有利于提高可解 釋性和可信賴性.但是,強化學習方法在知識圖譜領 域應用也存在一些不足,主要表現在2個方面:1)對 強化學習狀態的表示,文獻[134]提到目前強化學習 狀態表示大多使用預訓練得到的節點嵌入.然而,當 知識圖譜中增加新三元組時,節點的嵌入也需要重 新訓練,計算成本較大.文獻[126]提到除了結構信 息以外,節點的文本描述信息、層次結構的類型信息 也十分重要.在知識圖譜表示學習領域,文獻[172] 和文獻[173]分別將文本描述信息、關系路徑等信 息,用于構建更加精準的知識表示.然而,這些方法 還未廣泛應用于強化學習狀態的表示中.2)強化學 習的獎勵函數設計,與人工定義獎勵函數相比,文獻 [122]和文獻[147]已經開始嘗試利用知識圖譜中的 信息結合抗性學習來生成自適應的獎勵函數.如何 自動生成更合理的獎勵函數還有待進一步研究. 目前圍繞強化學習與知識圖譜結合的研究還處 于起步階段,有廣闊的發展空間.未來值得關注5個 方向:

1)基于強化學習的動態時序知識圖譜研究

隨著應用的深入,人們不僅關注實體關系三元 組這種簡單的知識表示,還需要掌握包括邏輯規則、 決策過程在內的復雜知識.目前基于強化學習的知 識圖譜研究主要圍繞靜態知識圖譜.然而,知識隨著 時間的推移往往是動態變化的.如何利用強化學習 在解決序列決策問題方面的優勢,來建模知識圖譜 的動態性,學習知識圖譜的變化趨勢,解決實際應用 中的復雜問題是一個值得研究的課題.Li等人[174]研 究了動態時序知識圖譜的時序推理問題.受人類推 理方式的啟發,CluSTeR(cluesearchingandtemporal reasoning)包含線索搜索和時序推理2部分.線索搜 索模塊采用隨機集束搜索算法,作為強化學習的動 作采樣方法,從歷史事件中推斷多條線索.時序推理 模塊使用基于 RGGCN 進行編碼,并應用 GRU 進行 時序預測,實現從線索中推理答案.

2)基于強化學習的多模態知識圖譜研究

面對越來越復雜多樣的用戶訴求,單一知識圖 譜已不能滿足行業需求.多模態數據[11]可以提供更 豐富的信息表示,輔助用戶決策,提升現有算法的性 能.目前,基于強化學習的知識圖譜研究主要針對文 本數據.如何利用強化學習技術進行多模態知識圖譜 的構建與分析仍是一個值得研究的方向.He等人[175] 將強化學習方法應用于視頻定位(videogrounding) ,即給定一段文本描述將其與視頻片段相匹配的任 務中.He等人將這個任務建模為一個順序決策的問 題,利用 ActorGCritic算法學習一個 逐步 調節時間 定位邊界的代理,完成視頻與文本的匹配.

3)基于新的強化學習方法的知識圖譜研究

強化學習作為人工智能領域研究熱點之一,其 研究進展與成果也引發了學者們的關注.強化學習 領域最近提出了一系列新的方法和理論成果,例如, 循環元強化學習[176]、基于 Transformer的 強 化 學 習[177]、逆強化學習[178]等相關的理論.如何將這些新 的理論方法應用在知識圖譜的構建或研究應用中, 值得深入思考.Hou等人[179]在強化學習動作選擇中 引入了知識圖譜中隱含的規則來約束動作選擇,進 一步精簡了動作空間,提高了強化學習效率.Hua等 人[180]提出了一種元強化學習方法來進行少樣本復 雜知識庫問答,以減少對數據注釋的依賴,并提高模 型對不同問題的準確性.

4)基于強化遷移學習的知識圖譜研究

基于強化學習的知識圖譜方法具有一定的可解 釋性和準確性.但強化學習不同于監督學習,樣本數 據來源于智能體與環境的交互,會導致收集大量無 用且重復的數據,成本較高.一種解決思路是將遷移 學習應用到強化學習中,通過將源任務學習到的經 驗應用到目標任務中,幫助強化學習更好地解決實 際問題.文獻[164]、文獻[170]將遷移學習和強化 學習結合起來,分別應用于同類游戲策略學習以及 動態金融知識圖譜構建領域,并取得了不錯的效果, 緩解了特定領域因訓練數據不足所帶來的挑戰,提 高了模型舉一反三和融會貫通的能力.因此,基于強 化遷移學習的知識圖譜研究也是未來一個重要的研 究方向.

5)算法可解釋性度量研究 由于知識圖譜能夠提供實體間的語義和結構信 息,強化學習智能體的學習過程和人類認知世界的 過程比較相似,產生的解釋更易于人類理解.因此, 一些研究者利用強化學習和知識圖譜開展可解釋性的研究.然而,這些研究工作可解釋性的效果只能通 過實例分析來進行評測.目前,針對解釋性還沒有統 一或者公認的衡量標準[84],如何衡量模型的可解釋 性是未來需要研究的問題之一.

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.

//xwxt.sict.ac.cn/CN/volumn/current_abs.shtml#

付費5元查看完整內容

強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與 環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelGbasedReinforcementLearG ning)和無模型強化學習(ModelGfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義 環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與 環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最 新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數 和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自 然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.

付費5元查看完整內容

深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容
北京阿比特科技有限公司