亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

許多現有的模仿學習數據集是從多個演示者那里收集的,每個演示者在環境的不同部分具有不同的專長。然而,標準的模仿學習算法通常將所有演示者視為同質的,而不考慮他們的專業知識,吸收任何次優演示者的弱點。在這項工作中,我們表明,在演示者專業知識上的無監督學習可以導致模仿學習算法性能的持續提高。我們根據經驗豐富的策略和演示者的專業水平,開發和優化一個聯合模型。這使得我們的模型能夠從最優行為中學習,并過濾掉每個演示者的次優行為。我們的模型學習了一個單一的策略,這個策略甚至可以超過最好的演示者,并且可以用來評估任何狀態下任何演示者的專業知識。我們闡述了我們在Robomimic和離散環境(如MiniGrid和國際象棋)中對真實機器人連續控制任務的研究結果,在23個設置中有21個優于競爭方法,在最終獎勵方面平均提高7%,最高提高60%。

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議,也是CCF-A類學術會議。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,錄用率為21.94%。

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。

付費5元查看完整內容

論文題目:Learning to Weight Imperfect Demonstrations (ICML 2021)

作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee

論文概述:這篇論文主要解決的問題是如何在生成對抗模仿學習(GAIL)中為不完美專家演示加權。模仿學習期望智能體通過模仿專家的行為來進行學習,然而在許多現實世界的任務中專家也會犯錯,由此產生的不完美專家演示將會嚴重誤導智能體的學習。目前,已有的一些基于加權和偏好學習的解決不完美專家演示的方法往往依賴額外的先驗信息,無法在更普遍和通用的模仿學習設置下使用。因此,本文提出了一種在生成對抗模仿學習的框架下為專家演示自動生成權重的方法,通過嚴格的數學證明,我們發現專家演示的權重可以在訓練中由GAIL中的判別器和智能體策略估算得到。理論分析顯示,當我們使用該估算的權重,智能體事實上在學習一個比原始給定的專家策略更優的策略。在Mujoco和Atari上的實驗結果顯示了算法的優越性。

//proceedings.mlr.press/v139/wang21aa.html

付費5元查看完整內容

模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。

//www.zhuanzhi.ai/paper/6e5467bc6d82cc1e9e3236f5e44e08a4

付費5元查看完整內容

模仿學習使智能體能夠重用和適應他人來之不易的專業知識,為學習行為中的幾個關鍵挑戰提供了解決方案。雖然在現實世界中很容易觀察行為,但可能無法訪問底層操作。我們提出了一種新的方法,僅從觀測中進行模仿,在具有挑戰性的連續控制任務中達到與專家相當的性能,同時在與任務無關的觀測存在時也表現出魯棒性。我們的方法叫做FORM(“未來觀察獎勵模型”),它來自逆RL目標,并使用專家行為模型進行模擬,該模型是通過對專家觀察的生成模型學習而來的,不需要地面的真實行動。我們的研究表明,在DeepMind Control Suite基準上,FORM的性能與強基線IRL方法(GAIL)相當,而在存在與任務無關的特征時,FORM的性能優于GAIL。

//www.zhuanzhi.ai/paper/5f5ad56870b9585c4ecc0ee498604daa

付費5元查看完整內容

模仿學習的目的是從人類專家的演示或人工創造的代理中提取知識,以復制他們的行為。它已經成功在視頻游戲、自動駕駛、機器人模擬和物體操縱等領域得到了證明。然而,這種復制過程可能會有問題,比如性能高度依賴于演示質量,并且大多數經過訓練的代理在特定于任務的環境中只能表現良好。在本研究中,我們對模仿學習進行了系統的回顧。我們首先介紹了模仿學習的發展歷史和初步的背景知識,然后介紹了模仿學習的不同分類和該領域的關鍵里程碑。然后,我們詳細介紹學習策略中的挑戰,并通過次優演示、語音指令和其他相關優化方案提供學習策略的研究機會。

//www.zhuanzhi.ai/paper/ccc89d6d517a856cc909be399988e654

引言

模仿學習(IL),也被稱為示范學習,通過模仿行為以一種相對簡單的方法作出反應。它提取有用的知識來重現環境中的行為,類似于演示。人工智能的存在促進了自主控制系統的研究和人工智能代理的設計,因為它在現實場景中展示了良好的前景和訓練策略的效率。深度學習、在線學習、生成對抗網絡[23]等機器學習領域的最新發展使IL得到了進一步的改進,不僅緩解了現有的動態環境、頻繁查詢、高維計算等問題,而且實現了更快的收斂。更魯棒的噪聲和更有效的樣本學習過程。這些改進促進了連續和離散控制領域的應用。例如,在連續控制領域,模仿學習可以應用于自動駕駛汽車操縱,在動態環境中重現適當的駕駛行為[11,13,14,22,31,52,53,80]。此外,模仿學習也應用于機器人,從基本的抓取和放置到手術輔助[21,37,43,46,48,49,67,79]。在離散控制領域,模仿學習對博弈論[5,19,24,55]、導航任務[28,62,76]、緩存管理[38]等領域做出了貢獻。

值得注意的是,可以從人類專家或人工代理那里收集演示。在大多數情況下,演示是從人類專家那里收集的,但也有一些研究通過另一個人工代理獲得演示。例如,Chen等人[13]提出了一個師生訓練結構,他們用額外的信息訓練一個教師代理,并使用這個經過訓練的代理來教導一個沒有額外信息的學生代理。這個過程不是多余的,使用來自其他代理的演示有助于訓練過程,因為學生代理可以通過經常查詢訓練過的代理來推出自己的策略,并從類似的配置中學習策略,而經典IL需要克服運動學轉移問題。

IL與強化學習(RL)有著密切的關系。IL和RL通常都解決了馬爾科夫決策過程下的問題,RL中的TRPO[60]等改進也可以使IL受益,但它們以不同的方式再現了行為。與RL相比,IL更高效、更易訪問和人機交互。在效率方面,與嘗試和錯誤相比,IL代理通常花費更少的時間來通過使用演示作為指導產生所需的行為。就可訪問性而言,在RL方法中實現自主行為需要熟悉問題設置的人類專家,以及硬編碼的獎勵功能,這些功能在某些情況下可能是不切實際的和非直覺的。例如,人們幾乎是通過演示而不是數學函數來學習游泳和走路的,而且很難用數學來表述這些行為。IL還促進跨學科的集成,編程新手專家可以為設計和評估范例做出貢獻。在人機交互方面,IL通過提供演示或偏好來加速學習過程,突出了人類的影響力,有效地利用和轉移專家的知識。盡管IL具有上述優點,但它也面臨著挑戰和機遇,這一內容將在下面的章節中詳細介紹。

  • 本研究在行為克隆vs.逆強化學習和無模型vs.基于模型三個類別下進行了模仿學習的研究。然后將IL研究歸納為兩個新的類別,即低級任務與高級任務,BC、IRL與對抗性結構化IL,更適應IL的發展。

  • 第2部分全面描述了IL的演變,第3部分介紹了基本知識,第5部分介紹了最常見的學習框架。

  • 該綜述提出了IL的剩余挑戰,如學習不同的行為,利用各種演示和更好的表現。然后從遷移學習和重要抽樣等方面探討了未來的研究方向。

付費5元查看完整內容

在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。

//www.zhuanzhi.ai/paper/a367014851df7b705e67adc94da69694

付費5元查看完整內容

當演示專家的潛在獎勵功能在任何時候都不能被觀察到時,我們解決了在連續控制的背景下模仿學習算法的超參數(HPs)調優的問題。關于模仿學習的大量文獻大多認為這種獎勵功能適用于HP選擇,但這并不是一個現實的設置。事實上,如果有這種獎勵功能,就可以直接用于策略訓練,而不需要模仿。為了解決這個幾乎被忽略的問題,我們提出了一些外部獎勵的可能代理。我們對其進行了廣泛的實證研究(跨越9個環境的超過10000個代理商),并對選擇HP提出了實用的建議。我們的結果表明,雖然模仿學習算法對HP選擇很敏感,但通常可以通過獎勵功能的代理來選擇足夠好的HP。

//www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容
北京阿比特科技有限公司