強化學習作為人工智能領域研究熱點之一,它與元學習相結合的研究進展與成果也引發了眾多關注。元強化學習近年來取得了令人矚目的成就,其應用于各個領域的研究也取得較大的進步。元強化學習在總結多次學習策略的情況下,以不斷改進學習算法。近年來,該方向已經取得了一系列矚目的進展,比如策略自適應、機器人導航、加工參數優化等。故元強化學習領域具有較大的潛在研究優勢。
深度強化學習是目前機器學習領域中重要的研究分支之一,它可以通過直接與環境進行交互實現端到端的學習,對高維度和大規模的問題有著很好的解決能力.雖然深度強化學習已經取得了矚目的成果,但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題.進化算法普遍具有較好的 全局搜索能力、良好的魯棒性和并行性等優點,因此將進化算法與深度強化學習結合用于彌補深度強化學習不足 的方法成為了當前研究的熱點.該文主要關注進化算法在無模型的深度強化學習方法中的應用,首先簡單介紹了 進化算法和強化學習基本方法,之后詳細闡述了兩類結合進化算法的強化學習方法,分別是進化算法引導策略搜 索的強化學習和結合進化算法的深度強化學習,同時對這些方法進行了對比與分析,最后對該領域的研究重點和 發展趨勢進行了探究. 長期以來,強化學習都是機器學習方法中不可 或缺的一部分,在國際上也一直是機器學習領域中 炙手可熱的研究分支.在強化學習中,智能體首先根 據環境狀態進行決策從而產生動作,之后通過產生 的動作與環境進行交互獲得強化信號,調整產生決 策的函數映射,使得智能體能夠選擇獲得環境最大 獎勵的決策方案.智能體經過長期與環境的交互,不 斷向累積回報最大的方向優化策略,最終使累積回 報盡可能地最大化.2013年,DeepMind團隊的 Mnih 等人首先將 傳統強化學習中的Q-Learning算法[1]與深度神經網 絡相結合,并提出了深度Q 網絡(Deep Q-Network, DQN)算法[23],使用 DQN 算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現.這一成 果開拓了深度強化學習這一新的方向,并成為了當今人工智能領 域新的研究熱點.深度強化學習是一種端到端的學習方法,它不需要標記的數據作為輸入,而是通過與環境進行交互獲取原始輸入信息,從而學習動作策略,通過不斷的試錯形成具有強大學習能力的智能體[4].2016年,DeepMind團隊使用深度強化學習訓練的AlphaGo智能體[5]擊敗了人類最頂尖的圍棋 選手,是機器學習領域的重大標志性事件,使得深度強化學習成為研究者們關注的焦點.目前深度強化 學習在機器博弈[57]、機器人控制[8]、自然語言處理[9]、最優控制[10]和計算機視覺[1]等領域中取得了廣泛的應用,被認為是通向通用人工智能的重要方 法之一[12].
南京大學最新《基于模型的強化學習》綜述論文,值得關注!
強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功,但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差,基于模型的強化學習(MBRL)被認為是一個有前途的方向,它建立的環境模型中可以進行試錯,而不需要實際成本。本文對MBRL的研究現狀進行了綜述,并著重介紹了近年來研究的進展。對于非表格環境,學習到的環境模型與實際環境之間存在泛化誤差。因此,分析環境模型中策略訓練與實際環境中策略訓練的差異,對算法設計、模型使用和策略訓練具有重要的指導意義。此外,我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外,我們還討論了MBRL在實際任務中的適用性和優勢。最后,我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢,但這些優勢往往被忽視,希望本文的綜述能夠吸引更多關于MBRL的研究。
強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應用范圍擴展到現實任務中是非常有意義的。通常,深度RL算法需要大量的訓練樣本,導致樣本復雜度很高。在一般的RL任務中,特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地,與監督學習范式從歷史標記數據中學習不同,典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新,基礎數據分布(正式的入住率測量[Syed et al., 2008])就會發生變化,必須通過運行策略再次收集數據。因此,具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中,因為在這些任務中,試錯代價很高。
因此,近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中,基于模型的強化學習(MBRL)是最重要的方向之一,人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al., 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發生可以被預測。通過這種方式,可以根據想象選擇適當的行動,這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。
在MBRL中,環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態轉移動力學,R: S × A→R表示獎勵函數。通常情況下,給定狀態和行為空間以及折扣因子,環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此,學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下,獎勵函數也被明確定義,因此模型學習的主要任務是學習狀態轉移動力學[Luo et al., 2018, Janner et al., 2019]。
有了環境模型,智能體就有了想象的能力。它可以與模型進行交互,以便對交互數據進行采樣,也稱為仿真數據。理想情況下,如果模型足夠準確,可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環境的交互中采樣的數據,稱為經驗數據,MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經驗數據,如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數據來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區中收集歷史數據,在重放緩沖區中學習策略。在行動者-評論者RL中,如1(c)所示,智能體學習評論者,其是長期回報的價值函數,然后學習批評者輔助的策略(行動者)。如圖1(d)所示,MBRL顯式地學習一個模型。與策略外RL相比,MBRL重構了狀態轉移的動態過程,而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息,但MBRL中的學習模型與策略解耦,因此可以用于評估其他策略,而價值函數與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結構,圖1(e)顯示了它們的可能組合。
RL算法的體系結構。圖中顯示了RL的訓練迭代,重點是如何利用交互數據。
通過足夠準確的模型,可以直觀地看到MBRL比MFRL產生更高的樣本效率,這一點在最近的理論研究[Sun el.,2019年]和經驗研究[Janner et al.,2019年,Wang et al.,2019年]的視角都表明了這一點。然而,在大量具有相對復雜環境的DRL任務中,要學習一個理想的模型并非易事。因此,我們需要仔細考慮模型學習和模型使用的方法。
在這一綜述中,我們對基于模型的強化學習方法進行了全面的綜述。首先,我們關注模型是如何在基本設置中學習和使用的,如第3節的模型學習和第4節的模型使用。對于模型學習,我們從經典的表格表示模型開始,然后使用神經網絡等近似模型,我們回顧了在面對復雜環境時的理論和關鍵挑戰,以及減少模型誤差的進展。對于模型的使用,我們將文獻分為兩部分,即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務,我們還討論了在模型學習和模型使用之間建立橋梁的嘗試,即價值感知模型學習和策略感知模型學習。此外,我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合,包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后,我們對MBRL的研究前景和未來發展趨勢進行了展望。
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
【導讀】OpenAI顧問、伯克利加州分校人工智能實驗室主任、機器人學習實驗室主任攜其博士生,為大家貢獻一門長達4個月的深度無監督學習課程,該課程是深度無監督學習的優秀課程,涵蓋了許多當前的最新水平,尤其是該課程使用了最新的模型更新研究生級課程。最新一講是深度半監督學習,146頁ppt,值得跟隨
編寫機器人程序仍然是出了名的困難。讓機器人具備學習的能力,就可以繞過那些通常需要耗費大量時間來完成特定任務的編程工作。這個演講將描述最近在深度強化學習(機器人通過自己的嘗試和錯誤學習)、學徒學習(機器人通過觀察人學習)和元學習(機器人學習學習)方面的進展。這項工作使機器人在操作、移動和飛行方面有了新的能力,這些領域的進步都是基于相同的方法。