亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

強化學習的一個主要挑戰是有效地探索一個環境,以便通過試驗和錯誤學習最佳策略。為了實現這一目標,智能體必須能夠有效地從過去的經驗中學習,使其能夠準確地了解某些行動對其他行動的好處。除此之外,一個明顯但核心的問題是,不知道的東西必須被探索,而以安全的方式探索的必要性又給問題增加了一層難度。這些都是我們在這篇博士論文中討論的主要問題。通過解構行為者批判框架,并利用方差概念對基礎優化問題進行替代性表述,我們探討了深度強化學習算法如何更有效地解決連續控制問題、困難探索環境和風險敏感任務。論文的第一部分集中在行為者批評框架的批評者部分,也被稱為價值函數,以及如何通過對價值函數估計中的方差的獨特使用,更有效地學習控制連續控制領域中的智能體。論文的第二部分是關于行為者-批評者框架的行為者部分,也被稱為策略。我們建議通過引入對手,為智能體解決的優化問題引入第三個元素。對手的性質與RL智能體相同,但經過訓練,可以提出模仿行為人的行動或抵消我們問題的約束。它由一些平均的策略分布來表示,行為者必須通過最大化與它的分歧來區分他的行為,最終鼓勵行為者在有效探索是一個瓶頸的任務中更徹底地探索,或者更安全地行動。

1 引言

“在對同一情境做出的幾種反應中,那些伴隨著或緊隨其后的滿足感,與該情境的聯系更為牢固,因此,當它再次出現時,它們將更有可能再次出現。”出自《效果法則》,愛德華-桑代克(1911年)。

在本章中,我們將介紹強化學習問題背后的動機。我們將觸及深度學習在過去幾年的崛起,以及它能給我們的工作帶來的改進的特點。然后,我們將考慮我們希望我們的計算機能夠學習什么,考慮本論文中主要關注的問題,然后討論將在以下章節中提出的貢獻,以及他們的結果和潛在的新問題。

1.1 強化學習

強化學習(RL)是機器學習(ML)的一門學科,它涉及到在不同情況下學習做出一連串的決定來最大化一些分數,后來被描述為獎勵。機器軟件可以采用這種技術來尋找最佳策略,以解決任何可以被表述為RL問題的問題。一些有直接用途的例子包括醫療保健問題(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),復雜場景的一般視覺問題回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理問題(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能計算系統中的任務調度問題(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盤游戲(Tesauro,1995;Silver,Huang,Maddison,等,2016),視頻游戲(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或機器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL問題考慮一個采取決策的智能體和智能體運行的環境。在每個時間段,智能體采取一個行動,并獲得一個獎勵和一個觀察。作為一個說明性的例子,圖1.1將智能體描述為一只狗,它必須完成一連串的行動,把飛盤還給它的主人,而主人扮演著環境的角色。狗觀察它主人的動作,并受到玩耍的滿足感和結束時得到獎勵的激勵。在這種情況下,RL算法使用一個試錯學習過程來最大化決策智能體在先前未知環境中的總獎勵。舉個例子,在機器人學中,觀察是攝像機圖像或關節角度,行動是關節扭力,獎勵包括導航到目標位置,成功到達目標位置并保持平衡。

圖1.1 - 智能體與環境的互動

1.2 深度學習表征

表征學習是學習從輸入數據中轉換或提取特征以解決一個任務的過程。機器學習主要關注的是從數據中的函數學習。深度學習關注的是將數據中的函數學習與表征學習相結合。深度學習與機器學習具有相同的實際目的,只是它得益于一個通常更具表現力的函數近似器(這一特征在之前的工作中已經用軌跡長度的概念進行了測量(Raghu, Poole, Kleinberg, et al., 2017)),即通過連續的梯度下降步驟訓練的深度神經網絡。深度神經網絡是一種輸入到目標的映射,由一連串簡單的數據轉換組成,稱為投影層(簡單的矩陣乘法)聚合在一起,并與非線性相結合。

這樣的深度學習模型通常涉及幾十或有時幾百個連續的表征層,這些表征層是通過接觸訓練數據學習的,其中計算階段的長因果鏈改變了神經網絡的總體激活。這種技術已經產生了一些顯著的經驗發現,特別是在語音識別(Dahl, Yu, Deng, et al., 2012)、圖像識別(Krizhevsky, Sutskever, and Hinton, 2012)和自然語言處理(Vaswani, Shazeer, Parmar, et al., 2017)。

1.3 深度強化學習

在參數較少、缺乏構成性的簡單ML模型可能會失敗的情況下,深度學習可以成為涉及高維數據(如自然語言或圖像和視頻)的復雜任務的合適技術。深度強化學習(deep RL)是使用神經網絡作為函數近似器的強化學習學科,適用于智能體的輸入和輸出(觀察和行動)涉及高維數據的順序決策問題。例如,Tesauro的TD-Gammon(Tesauro,1995)將RL算法與神經網絡結合起來,學習玩雙陸棋,這是一個有大約1020個狀態的隨機游戲,并發揮了人類頂級選手的水平。大約在同一時期,Rummery和Niranjan(1994)學習了一個帶有函數近似的半梯度Sarsa,為Gullapalli(1990)的工作以及Lin和Tham的博士論文(Lin, 1992a; Tham, 1994)增加了內容,這些論文探索了各種RL算法與神經網絡的結合。

在Tesauro的開創性工作二十年后,深度RL作為一種有前途的方法出現,用于經驗驅動的自主學習,因為它們有能力獲得復雜的策略和處理高維復雜的感官輸入(Jaderberg, Mnih, Czarnecki, et al., 2017)。這樣的算法可以完全從圖像像素中學習玩幾個雅達利2600視頻游戲,達到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是開發了一個蒙特卡洛樹搜索(MCTS)規劃系統,加上深度RL模塊(Silver, Huang, Maddison, et al., 2016),打敗了一個世界圍棋冠軍,或者也可以直接從現實世界的攝像機輸入中學習機器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。

在深度RL中,神經網絡被用來近似實現從狀態到選擇每個可能行動的概率的映射的函數(稱為策略),估計智能體處于給定狀態的好壞的函數(稱為價值函數),動力學模型或RL算法所需的其他函數。特別是,在異步優勢actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引導目標(Sutton, 1988)在廣泛的任務上使用梯度策略顯示了強大的結果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)學習貼現收益的分類分布,而不是估計平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)細致地結合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改進,在數據效率和最終性能方面為Atari 2600基準提供了改進。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同種類的策略梯度方法,重點是高性能、低樣品利用率和穩定性的改善。

1.4 選擇學習的內容

圖1.2 - 強化學習算法的分類法。

通常,在強化學習中,智能體的行動是基于正在學習的最新版本的策略。在更新過程中,來自與環境互動的數據被用來推導出基于樣本的目標函數,其中策略和值近似器通過梯度下降進行更新。在深度RL中,近似器是深度神經網絡。這些算法的成功取決于在互動階段發現的軌跡:如果數據包括具有高獎勵的軌跡,那么這些軌跡就會被更新所加強,在新更新的策略下變得更有可能。因此,與環境的互動和近似器的更新是密切相關且高度依賴的。因此,在設計新的深度RL算法時,一個核心問題是什么應該被近似,以及如何被近似。圖1.2顯示了RL算法的高級分類法。在頂層,我們有動態規劃(DP)算法,可以用來計算給定環境的完美模型的最優策略。事實上,DP算法(例如策略迭代和價值迭代)是典型的基于模型的算法:這些算法都使用模型對下一個狀態和獎勵的預測或分布,以計算出最佳行動。具體來說,在動態規劃中,模型必須提供狀態轉換概率和任何狀態-行動對的預期獎勵。請注意,與大多數其他基于模型的RL算法相反,該模型很少是一個學習模型。

相反,無模型RL算法并不估計底層系統的動態,而是旨在直接優化一個策略。基于策略的方法明確地建立和學習一個策略,將狀態映射到選擇可能行動的概率上,并在學習期間將策略的近似值存儲在內存中,以供以后使用。基于價值的方法不存儲明確的策略,而是學習一個價值函數。策略是隱性的,通過選擇具有最佳價值的行動從價值函數中得出。至于行為批判方法,它們是一個框架的一部分,結合了基于價值和惡略的方法的元素。

選擇使用哪種方法主要取決于問題的規格(如系統動力學的復雜性)、要解決的背景(如策略的最優性)和實驗規格(如時間或資源預算)。例如,基于模型的RL方法通常會加快學習速度,其代價是缺乏對動態復雜問題的可擴展性。他們通常學習一個系統動力學模型,即控制器,并將其用于規劃。這樣的方法可以在低維連續控制問題中以高樣本效率學習成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。這種方法的另一個應用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通過使用蒙特卡洛樹搜索(MCTS)規劃模塊,有效地解決了計算機圍棋的問題,以利用游戲動態的知識。

在這篇論文中,我們將研究重點放在無模型方法的數據效率上,這些方法在行為批評框架中使用基于梯度的方法直接學習隨機策略函數。隨機策略的一個優點是,當在參數空間中移動時,它們允許策略的微小變化,而在確定性策略的情況下,類似的轉變有可能會極大地改變策略。因此,參數和策略之間的耦合似乎在一般情況下更容易控制,特別是對于離散的行動空間。隨機策略的另一個優點是其固有的探索性質,即通過對高斯噪聲進行抽樣來增加確定性的基本策略。最后,本論文主要關注的問題(連續控制任務、程序生成的任務和具有安全約束的連續控制任務)的復雜動態特征也鼓勵我們采用無模型設置,不需要對環境、規格或領域知識進行假設。

1.5 概要和貢獻

圖1.3 - 本論文圍繞行為者-批評者的構成部分展開的大綱。

在深入研究本論文之前,我們必須問自己,我們想解決什么問題,還有什么問題需要回答。促使本論文工作的一些困難來源可以描述如下。

  • 對(深度)RL方法的優化和評估通常只基于對未來獎勵之和的智能體。來自監督或統計學習的替代統計數據可以作為額外的性能指標加以利用。

  • 在一些連續控制問題或具有稀疏獎勵的任務中,策略梯度估計可能具有低振幅和不穩定,可能導致采樣效率低下。一個RL智能體可能從一些過渡中比其他過渡更有效地學習,因此過濾過渡似乎是一個自然的想法,可以考慮。

  • 降低方差的方法,如基線減法,在激勵這些算法的概念框架和實踐中實施的估計行為者-批評者框架中的批評者部分之間表現出差異。需要更有效和穩健的目標函數來估計由批評者代表的價值函數。

  • 有獎勵的狀態往往要被訪問很多次,特別是在獎勵稀少的任務中使用策略性方法,智能體才能學到任何有意義的東西。價值函數的估計必須對這些極端值敏感,并盡可能有效地捕捉與獎勵相對應的(有時是罕見的)信號。

  • 在隨機策略誘導的探索中,如果這些狀態遠離出發點,那么在稀疏獎勵任務中訪問有獎勵的狀態的可能性將是無限小的。某種形式的記憶需要通過使用例如以前策略的移動平均值來保持,從而避免重復那些沒有導致相關學習的相同軌跡。

  • 在同一想法的基礎上,一個有趣的問題是,是否可以通過學習,而不是以前的策略的混合物,來構建一個類似的先驗,如何打破安全約束,代表智能體應該避免的概率不安全區域。

所有這些情況都屬于同一范疇:在本論文中,我們試圖通過以下方式開發出比以前的方法更穩定、更節省樣本的策略梯度方法:(1)利用自我表現統計給出的信息,使用更適應策略梯度方法的其他學習函數估計方法;(2)在演員-批評家二人組中引入第三個主角,作為策略必須遠離的排斥性平均分布。本論文的關鍵是行為批評者框架,如圖1.3所示。我們通過方差的棱鏡來處理它的兩面,首先是批評者,然后是行為者:用解釋的方差和殘差計算的價值函數估計的方差,以及從對抗性先驗中得到的策略候選者的方差,維持策略的平均混合。

這篇論文總結了以前發表的四篇論文的研究貢獻。本論文的組織結構是按照論文發表的順序進行的,并對一些內容進行了重新組織。為了使論文有一個更連貫的結構并提高其可讀性,我們將其分為兩部分。第一部分從一般角度介紹了強化學習的問題。我們發展了本論文所采用的關于RL問題的一些困難的觀點,并詳細介紹了我們選擇作為本論文的一部分來解決的問題以及研究這些問題的動機。

第二部分專門討論在連續控制問題中更有效地學習控制智能體。在第三章中,我們介紹了學習連續控制策略的問題,并提出了在高維連續狀態和行動空間中學習深度神經網絡表示的推理方案。在第四章中,我們提出了在學習解決一個任務時使用更多的統計對象作為輔助損失。特別是,我們將價值函數估計的解釋方差確定為一個具有有趣特性的工具,并提出了一個具有編碼器共享的普遍適用的框架,以加快策略梯度智能體的學習。第五章提出了一個簡單而有效的想法,即RL智能體將從一些經驗數據中比其他數據更有效地學習。我們采用第四章中介紹的自我性能評估的統計數據,開發了一種對策略梯度算法的修改,在估計策略梯度時,樣本被過濾掉了。在第六章中,由于最近的研究表明傳統的行為批評算法不能成功地擬合價值函數,并呼吁需要為批評者確定一個更好的目標,我們引入了一種方法來改善行為批評框架中批評者的學習。

第三部分涉及圖1.3中的另一面:在行為者策略的背景下,通過在行為者-批評框架中引入第三個主角來表述差異性。這個新的主角作為一個對抗性的先驗,保持一個平均的策略混合物,策略分布應該被排斥在外。在第七章介紹了在具有更多現實世界特征的環境中學習的問題,如安全約束或有效探索是一個瓶頸的情況下,在第八章和第九章中,我們開發了一種在維持對抗性先驗中策略候選人的變異形式,作為以前策略的混合物(第八章)和作為尋求風險的策略的混合物(第九章)。

最后,我們在第四部分給出了論文的尾聲,討論了進展和未來的前景。

著作清單

在有論文集的國際會議上的出版物

  • Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, and Philippe Preux (2021)《利用殘差在深度策略梯度中學習價值函數》國際學習表征會議

  • Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, and Matthieu Geist (2021)《逆向引導的行為者-批評》國際學習表征會議

  • Yannis Flet-Berliac和Philippe Preux(2020年7月)《只有相關信息才重要:濾除噪聲樣本以促進RL》第29屆國際人工智能聯合會議論文集,IJCAI-20。Christian Bessiere編輯。主賽道。國際人工智能聯合會議組織,第2711-2717頁。

國際會議上的研討會發言或預印本

  • Yannis Flet-Berliac 和 Philippe Preux (2019b). MERL: Multi-Head Reinforcement Learning第33屆神經信息處理系統進展會議的深度強化學習研討會

  • Yannis Flet-Berliac and Debabrota Basu (2021)《SAAC:安全強化學習作為演員-批評家的對抗性游戲》預印本

在國際數字雜志上發表的文章

  • Yannis Flet-Berliac (2019). The Promise of Hierarchical Reinforcement Learning. The Gradient - Stanford AI Lab

軟件

  • Omar Darwiche Domingues, Yannis Flet-Berliac, Edouard Leurent, Pierre Ménard, Xuedong Shang, and Michal Valko (2021). rlberry - A Reinforcement Learning Library for Research and Education. //github.com/rlberry-py/rlberry

本論文中沒有介紹的合作項目

  • Jacques Demongeot, Yannis Flet-Berliac, and Hervé Seligmann (2020)《溫度降低傳播參數的新Covid-19案例動態》生物學9.5,第94頁

  • Yannis Flet-Berliac and Philippe Preux (2019a)《使用通用輔助任務的高維控制》Tech. rep. hal-02295705

  • Thomas Depas and Yannis Flet-Berliac (2019)《平行四邊形的公主》展覽全景21-勒弗斯諾伊國家當代藝術工作室

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

對于機器人來說,要在現實世界的非結構化環境中執行任務,他們必須能夠以一般的方式被賦予一個期望的目標,并且在機器人還不知道如何完成的情況下,學會快速地執行期望的任務。在這篇論文中,我們探索了深度強化學習作為一種解決方案,通過兩個主要主題來實現可擴展的基于學習的真實世界機器人的愿景:從先驗數據加速強化學習和自監督RL。從先驗數據或先驗知識加速RL對于使強化學習算法具有足夠的樣本效率來直接運行在現實世界中是非常重要的。我們討論了利用人類演示來加速強化學習,使用人類設計的剩余控制器與工業插入任務的強化學習相結合,以及離線強化學習的算法,也可以受益于少量的在線微調。同時,雖然強化學習算法的樣本效率是一個備受贊賞的問題,但圍繞可以從豐富的觀察(如圖像)中學習的智能體產生了額外的問題:特別是獎勵監督和自主收集數據。我們通過一個生成模型來討論自監督的RL,通過目標達成,讓智能體評估他們自己在達成目標方面的成功,并自主提出和練習技能。在最后一部分,我們考慮將線下政策學習與自我監督練習相結合,讓機器人在新的環境中練習和完善技能。這些指示使機器人能夠監督自己的數據收集,從交互中學習復雜和一般的操作技能。

機器人在制造業和其他行業變得無處不在,用于各種任務,如揀貨、組裝、焊接、油漆等。然而,現代機器人系統的自主能力仍然相當有限。機器人操作的設置被仔細控制;它們通常需要非常具體的末端執行器工具(Zhongkui Wang et al., 2020)結合高精度運動和運動規劃(Ang et al., 2005;LaValle, 2006; Karaman and Frazzoli, 2011; Zucker et al., 2013)來完成一項特定的任務。實際上,機器人依靠人類的智慧和工程學來完成他們的工作。但是這樣的系統是脆弱的,并且硬件和軟件必須經常為任務的微小變化而重新設計。柔性機器人控制器可以實現一定的適應性或自主性(Mason, 1981;Hogan, 1985),以及與抽象任務規劃(Sacerdoti, 1974;萊斯利·帕克·凱爾布林(Sacerdoti, 1974; Leslie Pack Kaelbling and Lozano-Perez, 2011)結合了感知。但是,如果一項制造任務實際上需要對基于感知輸入的各種環境條件具有顯著的適應性或穩健性,那么設計一個工作系統就會變得困難得多——這一點從今天數百萬從事這些工作的人類勞動者身上就可以看出。除了相對可控的制造環境之外,我們還希望未來的機器人能做更多的事情:做飯、幫助家中的老人和其他以人類為中心的環境、導航未繪制的地形、操作機械和電器、操作物體,以及在人類在場時安全互動。這種開放世界的能力需要適應性、通用性,這是當今大多數機器人所無法企及的。

相比之下,人類可以如此輕松地進行高度熟練的靈巧操作,以至于有時很難想象在機器人身上復制這種能力的難度。大多數人在生命的前五年內已經發展出復雜的精細運動技能,成功地對各種不熟悉的動態物體進行雙手靈巧操作,并使用帶有緊密感覺運動回路的工具,其中包括感知、功能性抓取和控制(Adolph和franak, 2017)。為機器人開發同樣魯棒的反饋控制器仍然是一個挑戰,它可以適應各種各樣的情況來完成目標。如果機器人也有同樣的技術,那么它將具有難以置信的經濟價值——它們可以用來自動化許多人類今天必須做的任務。我們怎樣才能開發出具有類似技術的通用機器人呢?

過去十年的深度學習表明,從大型數據集學習模型是這種開放世界泛化的關鍵,這是通用機器人的先決條件。在廣泛的數據集上訓練的表達函數逼近推動了一系列領域的人工智能研究的最新進展:在語音識別(Graves等人,2014年)、圖像分類(Krizhevsky等人,2012年)和分割(Ren等人,2015年)、自然語言處理(Devlin等人,2019年),甚至蛋白質結構預測(Jumper等人,2021年)等領域,結合適當的深度學習架構的大數據集recipe已經推動了前沿領域的發展。這些模型是在足夠廣泛的數據集上訓練的,因此模型可以從廣泛的訓練分布中一般化,并在測試時捕獲拐角用例,這對于手動設計的解決方案來說是一個挑戰。如果我們能夠實現控制的普遍性——選擇行動以最大化獎勵函數的問題——它就能夠在野外實現真正的通用機器人。但是控制引入了監督學習中沒有的兩個新問題。第一個問題是信用分配:過去采取的行動會影響未來。第二是探索:所采取的行動改變了訪問數據的分布。為了解決這些問題,深度強化學習(RL)是一種很有前途的方法,它將強化學習與深度函數逼近相結合。深度強化學習已成功應用于許多連續決策問題:在競爭游戲如雅達利(Mnih等人,2015),圍棋(D. Silver等人,2016a), Dota 2 (OpenAI等人,2019)和星際爭霸II (Vinyals等人,2019),機器人(MMarc Peter Deisenroth and Rasmussen, 2011; Kober et al., 2013; Levine et al., 2017; J. ; Lee et al., 2020),平流層氣球導航Marc G. belleare等人,2020,甚至控制核聚變反應堆中的等離子體,Degrave等人,2022。然而,雖然RL的算法一直在穩步發展(Schulman et al., 2015; Lillicrap et al., 2016; Schulman et al., 2017; Haarnoja et al., 2018a),變得更高效和穩定的樣本,仍然有重大的障礙,以RL機器人的通用解決方案。在賦予機器人人類水平的操作技能方面還存在哪些挑戰?

付費5元查看完整內容

摘要

強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。

在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。

簡介

強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。

然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。

從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。

這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。

雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。

總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。

付費5元查看完整內容

近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司