亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

浙江大學最新《可解釋強化學習》綜述,37頁pdf1闡述XRL概念、算法、挑戰

強化學習(RL)是一種流行的機器學習范式,智能體與環境交互以實現長期目標。在深度學習復興的推動下,深度RL (DRL)在廣泛的復雜控制任務中取得了巨大成功。盡管取得了令人鼓舞的結果,但基于深度神經網絡的骨干網被廣泛認為是一個黑盒,它阻礙了從業者在高安全性和可靠性至關重要的現實場景中信任和使用經過訓練的智能體。為了緩解這個問題,通過構建內在解釋性或事后解釋性,大量的文獻致力于闡明智能智能體的內部工作方式。在本綜述中,我們對可解釋RL (XRL)的現有工作進行了全面的回顧,并引入了一種新的分類法,將先前的工作明確地分為模型解釋方法、獎勵解釋方法、狀態解釋方法和任務解釋方法。本文還回顧并強調了強化學習方法,這些方法反過來利用人類知識來提高智能體的學習效率和最終性能,而這種方法在XRL領域往往被忽略。討論了XRL中一些開放的挑戰和機遇。本綜述旨在對XRL進行高層次的總結和更好的理解,并推動未來對更有效的XRL解決方案的研究。相應的開放源代碼可以在//github.com/Plankson/awesome-explainable-reinforcement-learning上收集和分類。

概述

強化學習[193]受到人類試錯范式的啟發[143]。它基于這樣一個事實:與環境互動是人類在沒有他人指導的情況下學習的常見方式[98]。從互動中,人類獲得了關于因果關系、行動結果以及如何在環境中實現目標的信息。這類信息被隱式地用來構建我們的心智模型[155,218,225],而更多這類信息將使這個心智模型更加精確[22,171]。RL類似于目標導向的學習,通過與環境的交互,敏銳地意識到環境如何響應我們的行為,并有目的地影響未來的事件。更準確地說,RL學會從環境狀態映射到行動,從而最大化數值獎勵信號[189]。近年來,深度學習的快速發展[15,194]促進了深度學習與強化學習的融合。因此,深度強化學習(DRL)[44, 60, 134, 135, 177]作為一種新的RL范式出現。憑借深度神經網絡強大的表示能力[7,51,230],DRL在許多領域都取得了相當的性能[17,24,29,37,11,121,184],特別是在AlphaZero[184]和OpenAI Five[17]等游戲任務中,基于DRL的方法成功擊敗了人類職業選手。然而,對于現實場景中更復雜的任務,如自動駕駛[25,39,79,213,214]和電力系統調度[109,115,226,227,239],不僅要考慮高性能,還要考慮面向用戶的可解釋性,以考慮安全性和可靠性。這種可解釋性的要求是在真實世界而不是模擬環境中使用DRL的主要瓶頸。

由于深度神經網絡(DNN)的主干復雜,傳統的DRL方法的可解釋性較低[67,100,185,195]。追蹤和解釋一個神經系統中的每個參數,并將其擴展到整個網絡,這是非常棘手的。因此,我們不知道DNN考慮了哪些隱式特征,以及DNN如何處理這些特征。這個缺點導致DRL模型正在成為一個黑盒[84,232],專家無法理解智能體如何知道環境或智能體為什么選擇特定的行動。這種不透明性限制了DRL的應用,因為大多數人不會輕易信任智能體,特別是當智能體在沒有解釋決策過程的原因的情況下與他們的期望完全相反時。例如,在自動導航任務中[32,156],人們可能會對導航代理在沒有告訴他們原因的情況下進行的異常引導感到困惑,這可能只是為了避免交通堵塞。此外,可解釋性的缺乏也造成了在訓練過程中插入人類知識和指導的障礙[62,166]。盡管人類知識是以特定形式預先給定的[56,57,181,233,236],但智能體無法提取有效信息并從中受益。

為了解決可解釋性低的問題,在計算機視覺(CV)中的可解釋性人臉識別[43,85,165,219]和自然語言處理(NLP)中的可解釋性文本分類[8,119,186]等機器學習領域開展了許多可解釋性研究。可解釋機器學習的目標是生成不同形式的解釋,使模型對專家甚至外行人都是可解釋和透明的。它查看黑箱代理模型內部,自動提取或生成解釋,解釋為什么代理在每個時間步中選擇這個動作或給出這個結論。解釋的形式可以多種多樣,如自然語言[38,53,66]、顯著圖[54,83]或視頻[178]。通過可解釋的模型,智能體可以發現潛在的缺陷,并向專家解釋這些缺陷以進行進一步的改進。

對于可解釋強化學習(XRL)領域,人們在構建可解釋強化學習(XRL)模型方面做了許多初步的研究,并在解釋生成方面取得了一定的成果。為了對它們有一個完整的認識并總結當前的XRL技術,對XRL進行了幾次綜述[33,49,74,158,208,217]。Heuillet等人[74]回顧了關注解釋和用戶類型的方法。他們只是根據生成解釋的方式將方法分為兩類。這是一個初步的分類,需要進一步改進。Puiutta和Veith[158]遵循了基于解釋時間和范圍的傳統可解釋AI分類法。他們只是描述了一些有代表性的方法,并不是為了呈現對XRL的全面忽視。Wells和Bednarz[217]也列舉了各種XRL方法。但他們只關注可用于XRL領域的可視化技術。voros[208]將范圍限定在最先進的XRL方法中,并為XRL提供了一個架構符號范式,而解釋內容可分為代理偏好和目標的影響。Dazeley等人[33]提出了一個稱為因果XRL框架的概念架構,該框架解釋了XRL如何通過關注因果行為來生成對行為的解釋。該理論體系結構清晰而嚴謹,不僅考慮了感知、行動和事件,還考慮了目標、期望和處置。然而,現有的XRL框架只關注事件結果的感知和行動原因,這意味著現有的XRL技術只能用一種更簡單的因果XRL框架形式來表示。Glanois等人[49]明確界定了可解釋性和可解釋性之間的界限。他們將這些方法分為三種:可解釋輸入、過渡模型和偏好模型。它啟發我們關注RL的過程和結構。這些研究都提出了基于XRL的新分類法,但大多數都沒有基于RL范式。此外,從以上的綜述中我們可以發現,XRL領域仍然缺乏標準的標準,特別是在XRL的定義和評價方法方面,雖然許多人提出了自己的XRL標準[116,131,138,208],但沒有一個被整個DRL界所接受。目前的XRL框架大多沒有考慮人類參與的影響,只有少數論文試圖將基于人類知識的范式擴展到XRL領域,其研究結果有力地證明,這是一種既能獲得高解釋性又能獲得高性能的有效方法[237]。

為了使整個XRL體系結構得到進一步發展,系統地回顧了當前的XRL框架和綜述。明確了XRL模型可解釋性的概念,總結了模型可解釋性的評價指標。基于這些提出的XRL框架,我們提出了一種新的更適合于RL的XRL分類法。由于使整個RL范式可解釋目前是困難的,所有的工作都轉向對RL范式的組成部分可解釋。我們根據可解釋的目標部分對當前的XRL作品進行分類:模型、獎勵、狀態和任務。這四種部分解釋方法的目的是生成對主體行為的解釋。對于RL來說,這種分類法比一般的內在/事后/本地分類法要高級得多。考慮到基于人類知識的XRL工作的數量和它的重要性,我們將其分離出來,并試圖總結這些工作,并將它們組織到我們的分類法中。據我們所知,很少有研究者對這一領域進行了既包括人類知識又包括XRL的總結。我們的工作總結如下:

  • 基于可解釋RL和可解釋機器學習的現有文獻,我們對XRL中的模型可解釋性進行了詳細的總結。當前的XRL評估指標也包含在這個總結中。

  • 基于強化學習框架的不同部分(模型、獎勵、狀態和任務)的可解釋性,為當前的XRL作品引入了一種新的分類。可以在圖2中查看分類法。

  • 注意到目前基于人類知識的XRL是一個不受歡迎的方向,只有少數作品和顯著的結果,我們將其作為論文的主要部分之一,對這些將XRL框架與人類知識相結合以獲得更高性能和更好解釋的方法進行了系統的綜述。

本次綜述的其余部分組織如下。在第二節中,我們回顧了強化學習的必要基礎知識。接下來,我們將討論XRL模型可解釋性的定義,并在第3節中給出解釋和XRL方法的一些可能的評估方面。在第4節中,我們描述了我們的分類,并詳細提供了每個類型和子類型的工作,我們分類法的抽象圖可以在圖2中看到。然后我們根據第5節的分類討論與人類知識相結合的XRL工作。在此之后,我們在第6節中總結了XRL當前的挑戰和未來的發展方向。最后,在第7部分對本文的工作進行了總結。本文的結構和我們的分類法工作如圖1所示。

圖1所示概述。本文概述了可解釋強化學習(XRL)。在我們的工作中,我們根據強化學習(RL)過程中不同部分的可解釋性將XRL分為四個部分:模型、獎勵、狀態和任務。這張圖用不同的顏色表示。圖中還展示了更具體的分類和作品,我們將在后面的部分中討論它們。

付費5元查看完整內容

相關內容

作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。

1. 引言

強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。

深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。

盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]

解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。

該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。

1 基于課程學習的深度強化學習

課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。

常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。

課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。

2 深度強化學習中的課程學習研究進展

對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。

3 算法分析與總結

強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。

3. 1 強化學習中的課程學習算法理論分析與對比

在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。

(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。

(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。

(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。

(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。

3. 2 基于課程學習的深度強化學習研究方向

通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。

4 結束語

該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。

付費5元查看完整內容

南京大學最新《基于模型的強化學習》綜述論文,值得關注!

強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功,但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差,基于模型的強化學習(MBRL)被認為是一個有前途的方向,它建立的環境模型中可以進行試錯,而不需要實際成本。本文對MBRL的研究現狀進行了綜述,并著重介紹了近年來研究的進展。對于非表格環境,學習到的環境模型與實際環境之間存在泛化誤差。因此,分析環境模型中策略訓練與實際環境中策略訓練的差異,對算法設計、模型使用和策略訓練具有重要的指導意義。此外,我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外,我們還討論了MBRL在實際任務中的適用性和優勢。最后,我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢,但這些優勢往往被忽視,希望本文的綜述能夠吸引更多關于MBRL的研究。

強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應用范圍擴展到現實任務中是非常有意義的。通常,深度RL算法需要大量的訓練樣本,導致樣本復雜度很高。在一般的RL任務中,特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地,與監督學習范式從歷史標記數據中學習不同,典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新,基礎數據分布(正式的入住率測量[Syed et al., 2008])就會發生變化,必須通過運行策略再次收集數據。因此,具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中,因為在這些任務中,試錯代價很高。

因此,近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中,基于模型的強化學習(MBRL)是最重要的方向之一,人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al., 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發生可以被預測。通過這種方式,可以根據想象選擇適當的行動,這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。

在MBRL中,環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態轉移動力學,R: S × A→R表示獎勵函數。通常情況下,給定狀態和行為空間以及折扣因子,環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此,學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下,獎勵函數也被明確定義,因此模型學習的主要任務是學習狀態轉移動力學[Luo et al., 2018, Janner et al., 2019]。

有了環境模型,智能體就有了想象的能力。它可以與模型進行交互,以便對交互數據進行采樣,也稱為仿真數據。理想情況下,如果模型足夠準確,可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環境的交互中采樣的數據,稱為經驗數據,MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經驗數據,如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數據來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區中收集歷史數據,在重放緩沖區中學習策略。在行動者-評論者RL中,如1(c)所示,智能體學習評論者,其是長期回報的價值函數,然后學習批評者輔助的策略(行動者)。如圖1(d)所示,MBRL顯式地學習一個模型。與策略外RL相比,MBRL重構了狀態轉移的動態過程,而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息,但MBRL中的學習模型與策略解耦,因此可以用于評估其他策略,而價值函數與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結構,圖1(e)顯示了它們的可能組合。

RL算法的體系結構。圖中顯示了RL的訓練迭代,重點是如何利用交互數據。

通過足夠準確的模型,可以直觀地看到MBRL比MFRL產生更高的樣本效率,這一點在最近的理論研究[Sun el.,2019年]和經驗研究[Janner et al.,2019年,Wang et al.,2019年]的視角都表明了這一點。然而,在大量具有相對復雜環境的DRL任務中,要學習一個理想的模型并非易事。因此,我們需要仔細考慮模型學習和模型使用的方法。

在這一綜述中,我們對基于模型的強化學習方法進行了全面的綜述。首先,我們關注模型是如何在基本設置中學習和使用的,如第3節的模型學習和第4節的模型使用。對于模型學習,我們從經典的表格表示模型開始,然后使用神經網絡等近似模型,我們回顧了在面對復雜環境時的理論和關鍵挑戰,以及減少模型誤差的進展。對于模型的使用,我們將文獻分為兩部分,即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務,我們還討論了在模型學習和模型使用之間建立橋梁的嘗試,即價值感知模型學習和策略感知模型學習。此外,我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合,包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后,我們對MBRL的研究前景和未來發展趨勢進行了展望。

付費5元查看完整內容

【導讀】數據分析是現在必備的技能之一。傳統大多采用靜態算法或者規則進行數據分析,但在現實場景中往往面臨的是復雜的交互環境中,如何學習更好的策略是個很實際的問題。幸運的是強化學習可以作為解決這種問題的一種有效方法。來自新加坡南洋理工大學的學者在TKDE發表了《深度強化學習數據處理與分析》的綜述論文,對最近的工作進行了全面的回顧,重點是利用DRL改進數據處理和分析

數據處理和分析是基礎和普遍的。算法在數據處理和分析中發揮著至關重要的作用,許多算法設計都結合了啟發式和人類知識和經驗的一般規則,以提高其有效性。近年來,強化學習,特別是深度強化學習(DRL)在許多領域得到了越來越多的探索和利用,因為與靜態設計的算法相比,它可以在復雜的交互環境中學習更好的策略。**受這一趨勢的推動,我們對最近的工作進行了全面的回顧,重點是利用DRL改進數據處理和分析。**首先,我們介紹了DRL中的關鍵概念、理論和方法。接下來,我們將討論DRL在數據庫系統上的部署,在各個方面促進數據處理和分析,包括數據組織、調度、調優和索引。然后,我們調查了DRL在數據處理和分析中的應用,從數據準備、自然語言處理到醫療保健、金融科技等。最后,我們討論了在數據處理和分析中使用DRL所面臨的重要挑戰和未來的研究方向。

//www.zhuanzhi.ai/paper/31ca615e95321ed881791e66d2d34d19

引言

在大數據時代,數據處理和分析是基礎的、無處不在的,對于許多組織來說是至關重要的,這些組織正在進行數字化之旅,以改善和轉變其業務和運營。在提取洞察力之前,數據分析通常需要其他關鍵操作,如數據采集、數據清理、數據集成、建模等。大數據可以在醫療保健和零售等許多行業釋放出巨大的價值創造。然而,數據的復雜性(例如,高容量、高速度和高多樣性)給數據分析帶來了許多挑戰,因此很難得出有意義的見解。為了應對這一挑戰,促進數據處理和分析的高效和有效,研究人員和實踐人員設計了大量的算法和技術,也開發了大量的學習系統,如Spark MLlib[2]和Rafiki[3]。

為了支持快速的數據處理和準確的數據分析,大量的算法依賴于基于人類知識和經驗開發的規則。例如,“最短作業優先”是一種調度算法,它選擇執行時間最短的作業進行下一次執行。但在沒有充分利用工作負載特性的情況下,與基于學習的調度算法[4]相比,其性能較差。另一個例子是計算機網絡中的包分類,它將一個包與一組規則中的一條規則進行匹配。一種解決方案是使用手工調整的啟發式分類來構造決策樹。具體來說,啟發式算法是為一組特定的規則設計的,因此可能不能很好地工作于具有不同特征[5]的其他工作負載。**我們觀察到現有算法的三個局限性: **[6],[7]。首先,算法是次優的。諸如數據分布之類的有用信息可能會被忽略或未被規則充分利用。其次,算法缺乏自適應能力。為特定工作負載設計的算法不能在另一個不同的工作負載中很好地執行。第三,算法設計是一個耗時的過程。開發人員必須花很多時間嘗試很多規則,以找到一個經驗有效的規則.

基于學習的算法也被用于數據處理和分析。經常使用的學習方法有兩種:監督學習和強化學習。它們通過直接優化性能目標來實現更好的性能。監督學習通常需要一組豐富的高質量標注訓練數據,這可能是很難和具有挑戰性的獲取。例如,配置調優對于優化數據庫管理系統(DBMS)[8]的整體性能非常重要。在離散和連續的空間中,可能有數百個調諧旋鈕相互關聯。此外,不同的數據庫實例、查詢工作負載和硬件特性使得數據收集變得不可用,尤其是在云環境中。與監督學習相比,強化學習具有較好的性能,因為它采用了試錯搜索,并且需要更少的訓練樣本來找到云數據庫[9]的良好配置。另一個具體的例子是查詢處理中的查詢優化。數據庫系統優化器的任務是為查詢找到最佳的執行計劃,以降低查詢成本。傳統的優化器通常枚舉許多候選計劃,并使用成本模型來找到成本最小的計劃。優化過程可能是緩慢且不準確的[10]。在不依賴于不準確的成本模型的情況下,深度強化學習(DRL)方法通過與數據庫[11]、[12]交互來改進執行計劃(例如,更改表連接順序)。圖1提供了使用DRL進行查詢優化的典型工作流。當查詢發送給代理(即DRL優化器)時,代理通過對基本信息(如訪問的關系和表)進行特征化,生成狀態向量。agent以狀態為輸入,利用神經網絡生成一個動作集的概率分布,動作集可以包含所有可能的作為潛在動作的join操作。每個操作表示一對表上的部分連接計劃,一旦執行操作,狀態將被更新。在采取可能的行動之后,生成一個完整的計劃,然后由DBMS執行該計劃以獲得獎勵。在這個查詢優化問題中,獎勵可以根據實際延遲計算。在有獎勵信號的訓練過程中,agent可以改進策略,產生更高獎勵的更好的連接排序(即延遲更少)。

查詢優化的DRL工作流程。A、B、C和D是四張表。

強化學習(RL)[13]專注于學習在環境中做出智能的行動。RL算法在探索和開發的基礎上,通過環境反饋來改進自身。在過去的幾十年里,RL在理論和技術方面都取得了巨大的進步[13],[14]。值得注意的是,DRL結合了深度學習(DL)技術來處理復雜的非結構化數據,并被設計用于從歷史數據中學習和自我探索,以解決眾所周知的困難和大規模問題(如AlphaGo[15])。近年來,來自不同社區的研究人員提出了DRL解決方案,以解決數據處理和分析中的問題[4],[16],[17]。我們將現有的使用DRL的作品從系統和應用兩個角度進行分類。從系統的角度來看,我們專注于基礎研究課題,從一般的,如調度,到系統特定的,如數據庫的查詢優化。我們還應當強調它是如何制定的馬爾可夫決策過程,并討論如何更有效地解決DRL問題與傳統方法相比。由于實際系統中的工作負載執行和數據采集時間比較長,因此采用了采樣、仿真等技術來提高DRL訓練效率。從應用的角度來看,我們將涵蓋數據處理和數據分析中的各種關鍵應用,以提供對DRL的可用性和適應性的全面理解。許多領域通過采用DRL進行轉換,這有助于學習有關應用的領域特定知識。

在這次綜述中,我們的目標是提供一個廣泛和系統的回顧,在解決數據系統、數據處理和分析問題中使用DRL的最新進展。在第2節中,我們介紹了RL中的關鍵概念、理論和技術,以奠定基礎。為了更深入地了解DRL,讀者可以參考最近出版的《[19]》一書,該書涵蓋了選定的DRL研究主題和應用,并配有詳細的插圖。在第3節中,我們回顧了使用DRL進行系統優化以支持數據處理和分析的最新重要研究工作。我們將介紹基本的主題,如數據組織、調度、系統調優、索引、查詢優化和緩存管理。在第4節中,我們將討論如何將DRL用于數據處理和分析中的應用程序,從數據準備、自然語言交互到各種真實世界的應用(如醫療保健、金融科技、電子商務等)。在第5節中,我們強調了各種開放的挑戰和潛在的研究問題。我們將在第6節進行總結。這項綜述關注的是在數據處理和分析領域探索RL的最新進展,這激發了人們的極大興趣,特別是在數據庫和數據挖掘領域。還有一些綜述論文討論了其他領域的DRL。我們建議讀者參考[20]中的DRL for healthcare調查,[21]中的communications and networking調查,[22]中的RL explainability調查。另一項工作[23]討論了如何使用深度學習優化數據庫系統設計,反之亦然。在本文中,我們交替使用“DRL”和“RL”。

RL技術分類

參考文獻:

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. Hung Byers et al., Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. [2] X. Meng, J. Bradley, B. Yavuz, E. Sparks, S. Venkataraman, D. Liu, J. Freeman, D. Tsai, M. Amde, S. Owen et al., “Mllib: Machine learning in apache spark,” The Journal of Machine Learning Research, vol. 17, no. 1, pp. 1235–1241, 2016. [3] W.Wang, J. Gao, M. Zhang, S.Wang, G. Chen, T. K. Ng, B. C. Ooi, J. Shao, and M. Reyad, “Rafiki: machine learning as an analytics service system,” VLDB, vol. 12, no. 2, pp. 128–140, 2018.

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

強化學習(RL)是一種流行的處理順序決策任務的范式,其中agent只有有限的環境反饋。盡管在過去的三十年里取得了許多進步,但是在許多領域的學習仍然需要大量的與環境的交互,這在現實的場景中是非常昂貴的。為了解決這個問題,遷移學習被應用于強化學習,這樣在一個任務中獲得的經驗可以在開始學習下一個更困難的任務時得到利用。最近,有幾項研究探索了如何將任務(或數據樣本本身)排序到課程中,以便學習一個可能很難從頭學起的問題。在本文中,我們提出了一個課程學習的強化學習框架,并利用它來調查和分類現有的課程學習方法的假設、能力和目標。最后,我們使用我們的框架來發現開放的問題,并為未來的RL課程學習研究提出方向。

付費5元查看完整內容
北京阿比特科技有限公司