亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

相關內容

 (Carnegie Mellon University)坐落在賓夕法尼亞州的匹茲堡,是一所享譽世界的私立頂級研究型大學,學校面積不大,學科門類不多,但在其所設立的幾乎所有專業都居于世界領先水平。卡內基梅隆大學享譽全國的認知心理學、管理和公共關系學、寫作和修辭學、應用歷史學、哲學和生物科學專業。它的計算機、機器人科學、理學、美術及工業管理都是舉世公認的一流專業。

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。

DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。

在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。

我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。

我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容

2019年是深度強化學習(DRL)研究的重要一年,也是我在這一領域讀博士的第一年。像每一個博士新手一樣,我花了很多時間來閱讀論文,實施一些有趣的想法,對重大問題有自己的看法。在這篇博客文章中,我想分享一些我從2019年文獻中總結出來的亮點。

為了讓這篇文章有更多的結構,我決定把論文分成5個主要類別,并選出一個冠軍和亞軍。進一步說,這是我2019年的十大DRL論文。

第一類: 大型項目

深度RL (如ATARI DQNs、AlphaGo/Zero)在2019年之前的大部分突破性成果,都是在行動空間有限、狀態空間完全可見、授信時間尺度適中的領域中取得的。局部可見性、長時間尺度以及巨大的動作空間仍然是虛幻的。另一方面,2019年證明了我們離將函數逼近與基于獎勵的目標優化相結合的極限還很遠。諸如《雷神之錘3》/《奪旗》、《星際爭霸2》、《Dota 2》以及機器人手操作等挑戰只是現代DRL能夠解決的一部分令人興奮的新領域。我試圖根據科學貢獻而不是現有算法的大規模擴展來選擇第一類的獲勝者。每個人如果有足夠的計算能力-都可以做PPO一樣的瘋狂的事情。

DeepMind AlphaStar (Vinyals et al, 2019)

DeepMind的AlphaStar項目由Oriol Vinyals領導。在閱讀《自然》雜志的論文時,我意識到這個項目很大程度上是基于FTW設置來處理Quake III: 將分布式IMPALA的角色-學習者設置與誘導結構化探索的強大先驗相結合。

FTW使用基于兩個LSTM的時間尺度層次結構的先驗,而AlphaStar則使用人工示范。專家演示通過KL目標的監督最小化來預先訓練代理的策略,并提供有效的正則化來確保代理的探索行為不會被星際爭霸的維度詛咒所淹沒。但這絕不是全部。科學貢獻包括一個獨特的版本虛構self-play(又名聯盟),一個自回歸分解與指針的策略策網絡,上行策略更新的進化(UPGO - V-trace Off-Policy重要性抽樣修正結構化操作空間)以及分散連接(一種特殊形式的嵌入,維護實體的空間相干映射層)。就我個人而言,我非常喜歡DeepMind,尤其是Oriol Vinyals對星際爭霸社區的關心。很多時候,科幻小說讓我們誤以為電影是一場軍備競賽。但它是人為旨在提高我們的生活質量。

地址

//deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning

OpenAI’s Solving’ of the Rubik’s Cube (OpenAI, 2019)

眾所周知,深度學習能夠解決需要提取和操作高級特征的任務。另一方面,低水平的靈活性,一種對我們來說很自然的能力,為當前的系統提供了一個主要的挑戰。OpenAI靈巧性的貢獻中,我最喜歡的是自動領域隨機化(ADR):在機器人任務上訓練深度RL代理的一個關鍵挑戰是將仿真中所學到的知識轉移到物理機器人上。模擬器只能捕獲現實世界中有限的一組機制&精確地模擬摩擦需要計算時間。時間是昂貴的,否則可以用來在環境中產生更多的(但嘈雜的)過渡。提出了一種基于區域隨機化的魯棒策略。與用一組生成環境的超參數在單一環境中訓練代理不同,該代理被訓練在大量不同的配置上。ADR旨在設計一個環境復雜性的課程,以最大限度地提高學習進度。ADR根據agent的學習過程自動增加或減少可能的環境配置范圍,為agent提供了一個偽自然課程。令人驚訝的是,這(加上基于ppo - lstm - gae的策略)導致了一種元學習形式,這種形式(到發布時)似乎還沒有完全達到它的能力。Twitter上有很多關于“解決”這個詞的討論。該算法沒有“完全”學習端到端解決一個立方體的正確的移動序列是什么,然后做所需的靈巧操作。但說實話,更令人印象深刻的是:用瘋狂的獎勵稀疏的手操作,還是學習一個相當短的符號轉換序列?Woj Zaremba在2019年NeurIPS的“學習可轉移技能”研討會上提到,他們花了一天時間用DRL“解決立方體”&完全端到端的整個謎題是可能的。這是令人印象深刻。

第二類: 基于模型的強化學習 Model-based RL

雖然前兩個項目令人興奮地展示了DRL的潛力,但它們的采樣效率低得可笑。我不想知道OpenAI和DeepMind必須支付電費是多少。有一些人通過在潛在空間中虛幻來提高樣本(但不一定是計算)的效率,這是件好事。傳統上,基于模型的RL一直在努力學習高維狀態空間的動力學。通常,大量的模型容量不得不“浪費”在與狀態空間無關的部分(例如,一個ATARI幀的最外層像素),而這與成功很少相關。最近,在一個抽象的空間里有很多關于規劃/想象的提議。這是我最喜歡的兩種方法:

MuZero (Schrittwieser et al., 2019)

  • Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy P. Lillicrap, David Silver:

  • Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model. CoRR abs/1911.08265 (2019)

MuZero提供了從AlphaGo/AlphaZero項目中刪除約束的下一個迭代。具體來說,它克服了過渡動力學的認可。因此,“通用MCTS +函數逼近工具箱”可用于更一般的問題設置,如基于視覺的問題(如ATARI)。

** Dreamer (aka. PlaNet 2.0; Hafner et al., 2019)**

另一方面,“Dreamer”為連續的動作空間提供了原則性的擴展,能夠馴服基于高維視覺輸入的長視距任務。將表征學習問題分解為迭代學習一個表征、轉換和獎勵模型。通過使用想象的軌跡訓練一個基于行為-臨界的策略來交錯整個優化過程。Dreamer通過一個世界模型的想象軌跡來傳播學習狀態值的“分析”梯度。更具體地說,利用再參數化技術,通過神經網絡預測,可以有效地傳播多步收益的隨機梯度。該方法在DeepMind控制套件中進行了評估,能夠基于64×64×3維視覺輸入控制行為。最后,作者還比較了不同的表示學習方法(獎勵預測、像素重建和對比估計/觀察重建),結果表明像素重建通常優于對比估計。

Danijar Hafner, Timothy P. Lillicrap, Jimmy Ba, Mohammad Norouzi: Dream to Control: Learning Behaviors by Latent Imagination. CoRR abs/1912.01603 (2019)

第三類: 多代理強化學習 Multi-Agent RL

代理超越了簡單的中央控制模式。我們的日常生活充滿了需要預期和心理理論的情況。我們不斷假設其他人的反應,并根據最近的證據重新調整我們的信念。通過梯度下降法進行的樸素獨立優化容易陷入局部最優。這一點在一個簡單的兩個GAN特工訓練的社會中已經很明顯了。聯合學習導致了環境中的一種非平穩性,這是多智能體RL (MARL)的核心挑戰。兩篇精選的MARL論文強調了兩個中心觀點:從經典的集中訓練+分散控制范式轉向社會獎勵塑造&自我游戲的規模化使用和意想不到的結果。

第四類: 學習動力學 Learning Dynamics

深層RL的學習動力學還遠遠沒有被理解。與監督學習不同的是,在某種程度上,訓練數據是給定的,并被視為IID(獨立且同分布),RL需要一個代理來生成它們自己的訓練數據。這可能會導致嚴重的不穩定性(例如致命的黑社會),任何玩弄過DQNs的人都會有這樣的經歷。仍然有一些重大的理論突破圍繞著新的發現(如神經切線內核)。動力學類的兩名獲獎者突出了基于記憶的元學習(比RL更普遍)和基于策略的RL的基本特征。

第五類: Compositionality & Priors 組合性&先驗

一種獲得有效和快速適應的代理的方法是知情先驗。與基于非信息性知識庫的學習不同,agent可以依賴于之前以先驗分布的形式提取的知識,但是如何才能獲得這些知識呢?以下兩篇論文提出了兩種截然不同的方法:不確定目標的默認策略的同時學習&學習能夠代表大量專家行為的密集嵌入空間。

結論

在整個2019年里,深度RL的巨大潛力在以前無法想象的領域得到了展現。重點介紹的大型項目還遠遠沒有達到實地效率。但是這些問題正在被當前尋找有效的歸納偏差、先驗和基于模型的方法所解決。

我對2020年將會發生的事情感到興奮&我相信這是一個在這一領域的絕佳時機。有很多主要的問題,但是一個人所能產生的影響是相當大的。沒有比現在更好的生活時機了。

References

1.Vinyals, O., I. Babuschkin, W. M. Czarnecki, M. Mathieu, A. Dudzik, J. Chung, D. H. Choi, et al. (2019): “Grandmaster level in StarCraft II using multi-agent reinforcement learning,”Nature, 575, 350–54.

2.Akkaya, I., M. Andrychowicz, M. Chociej, M. Litwin, B. McGrew, A. Petron, A. Paino, et al. (2019): “Solving Rubik’s Cube with a Robot Hand,” arXiv preprint arXiv:1910.07113, .

3.Schrittwieser, J., I. Antonoglou, T. Hubert, K. Simonyan, L. Sifre, S. Schmitt, A. Guez, et al. (2019): “Mastering atari, go, chess and shogi by planning with a learned model,” arXiv preprint arXiv:1911.08265, .

4.Hafner, D., T. Lillicrap, J. Ba, and M. Norouzi. (2019): “Dream to Control: Learning Behaviors by Latent Imagination,” arXiv preprint arXiv:1912.01603, .

5.Jaques, N., A. Lazaridou, E. Hughes, C. Gulcehre, P. Ortega, D. Strouse, J. Z. Leibo, and N. De Freitas. (2019): “Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning,” International Conference on Machine Learning, .

6.Baker, B., I. Kanitscheider, T. Markov, Y. Wu, G. Powell, B. McGrew, and I. Mordatch. (2019): “Emergent tool use from multi-agent autocurricula,” arXiv preprint arXiv:1909.07528, .

7.Rabinowitz, N. C. (2019): “Meta-learners’ learning dynamics are unlike learners,’” arXiv preprint arXiv:1905.01320, .

8.Schaul, T., D. Borsa, J. Modayil, and R. Pascanu. (2019): “Ray Interference: a Source of Plateaus in Deep Reinforcement Learning,” arXiv preprint arXiv:1904.11455, .

9.Galashov, A., S. M. Jayakumar, L. Hasenclever, D. Tirumala, J. Schwarz, G. Desjardins, W. M. Czarnecki, Y. W. Teh, R. Pascanu, and N. Heess. (2019): “Information asymmetry in KL-regularized RL,” arXiv preprint arXiv:1905.01240, .

10.Merel, J., L. Hasenclever, A. Galashov, A. Ahuja, V. Pham, G. Wayne, Y. W. Teh, and N. Heess. (2018): “Neural probabilistic motor primitives for humanoid control,” arXiv preprint arXiv:1811.11711, .

11.Lowe, R., Y. Wu, A. Tamar, J. Harb, O. A. I. P. Abbeel, and I. Mordatch. (2017): “Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,” Advances in Neural Information Processing Systems, .

12.Saxe, A. M., J. L. McClelland, and S. Ganguli. (2013): “Exact solutions to the nonlinear dynamics of learning in deep linear neural networks,” arXiv preprint arXiv:1312.6120, .

13.Rahaman, N., A. Baratin, D. Arpit, F. Draxler, M. Lin, F. A. Hamprecht, Y. Bengio, and A. Courville. (2018): “On the spectral bias of neural networks,” arXiv preprint arXiv:1806.08734, .

14.Wang, J. X., Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo, R. Munos, C. Blundell, D. Kumaran, and M. Botvinick. “Learning to reinforcement learn, 2016,” arXiv preprint arXiv:1611.05763, .

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容

作者Jacob Andreas是自然語言處理的研究者,研究興趣為用語言作為更有效學習的支架和理解模型行為的探針,以及結合深度表示和離散組合性優點的結構化神經方法。近期公開發布了他的博士論文。

博士論文介紹:

本文探討了語言結構在結構和參數化中用于語言處理和其他應用的機器學習模型的方法。作者將該模型應用于問答系統,指令跟蹤,圖像分類等多種任務。

作者首先介紹一類稱為神經模塊網絡(NMN)的模型,并介紹它們在自然語言問答中的應用。NMN旨在實現同時利用深層網絡的表征能力和構成問題的語言結構。我們的方法將問題分解為語言子結構,并使用這些子結構動態地從可重復使用的模塊庫構建網絡。由此產生的復合網絡是共同訓練的。作者并在含有圖像和結構化知識庫的問答數據集上的方法評估模型。隨后,作者將這種思想轉移到策略學習中,研究在面對不同但相似的問題時,怎么組合策略。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司