2021精品一级毛片一区二区-亚洲天天做日日做天天谢日日欢

與經典的監督學習不同，強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現，通過與環境的積極互動來收集有用的反饋，以提高其序列決策能力。RL代理還將干預環境: 代理做出決策，進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督，RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al.， 2015])，我們注意到它們大多依賴于隨機探索策略，如“貪婪”。同樣的，策略梯度法如REINFORCE [Williams, 1992]，通過向動作空間注入隨機性進行探索，希望隨機性能導致良好的動作序列，從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如，[Azar等人，2017])，然而，這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之，如果沒有進一步的假設，無論在實踐上還是在理論上，RL都是困難的。

在本文中，我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范，模仿學習極大地簡化了探索的任務。在本論文中，我們考慮了兩種設置:一種是交互式模仿學習設置，即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置，在這種設置中，我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家，以減少樣本的復雜性相比，純RL方法。第二個貢獻來自于無模型的強化學習。具體來說，我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估，無后悔在線學習是一個活躍的研究領域，具有良好的理論基礎。這樣的約減創造了一個新的算法族，可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上，對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后，我們提供了基于PAC模型的RL算法，可以同時實現對許多有趣的MDPs的采樣效率，如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起，我們還提供了一個更實用的基于模型的RL框架，稱為雙重策略迭代(DPI)。此外，我們給出了一個通用的收斂分析，將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al.， 2017, Silver et al.， 2017]，并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

強化學習 · 基于模型的強化學習 ·

2020 年 10 月 26 日

[付費5元查看完整內容]【ICML2020】強化學習中基于模型的方法，279頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Model-Based Methods in Reinforcement Learning 本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述，特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法，如何有效地使用這些模式來做出更好的決策，以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外利用世界模型的方式，以及在設計未來的MBRL系統時，從人類認知中可以得到什么啟示。

付費5元查看完整內容

不完全信息博弈 · 均衡發現 ·

2020 年 9 月 23 日

[付費5元查看完整內容]【CMU大神Noam博士論文】大型對抗性不完全信息博弈的均衡發現，附230頁pdf與slides

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型對抗性不完全信息博弈的均衡發現

不完全信息博弈模型是指具有私有信息的多個主體之間的交互作用。在這種情況下，一個典型的目標是接近一個均衡，在這個均衡中，所有主體的策略都是最優的。本文描述了大型對抗不完全信息博弈均衡計算方面的若干進展。這些新技術使人工智能智能體首次有可能在全規模撲克游戲中擊敗頂級人類專業人員。幾十年來，撲克一直是人工智能和博弈論領域的一大挑戰。

我們首先介紹了反事實后悔最小化(CFR)的改進，這是一種收斂于雙方零和博弈納什均衡的迭代算法。我們描述了CFR的新變種，使用折現來顯著加快收斂速度。這些新的CFR變體現在是大型對抗非完全信息博弈的最先進的均衡發現算法。我們還介紹了第一種熱啟動CFR的通用技術。最后，我們介紹理論健全的剪枝技術，可以在大型博弈中數量級地加速收斂。

接下來，我們將描述通過自動抽象和函數近似將CFR擴展到大型游戲的新方法。特別地，我們介紹了第一個在不完全信息博弈中離散連續動作空間的算法。我們將其擴展到求解具有連續動作空間博弈的算法中。

之后，我們介紹了Deep CFR，一種使用神經網絡函數近似而不是基于bucketing的抽象形式。Deep CFR是第一個可擴展到大型游戲的non-tabular形式的CFR，它使CFR能夠在幾乎沒有領域知識的情況下成功部署。最后，我們提出了一種新的不完全信息博弈搜索技術，以確保智能體的搜索策略不會被對手利用。方法，它在計算上比以前的方法要代價要少得多。最最后，我們提出了一種在訓練和測試時結合強化學習和搜索的算法ReBeL。它朝著彌合完全信息游戲和不完全信息游戲研究之間的差距邁出了重要的一步。

付費5元查看完整內容

卡內基梅隆大學 (Carnegie Mellon University) · 機器人 · 深度強化學習 ·

2020 年 8 月 27 日

[付費5元查看完整內容]【CMU博士論文】機器人深度強化學習，128頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中，如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而，RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說，狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高，但是如果策略可以在類似的環境中傳輸和重用，那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域，涉及多種技術。在這篇論文中，我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量，設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示，這是一種特殊的網絡架構，與張量表示相結合，允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法，靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明，在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如，我們經常想要利用機器人可用的傳感器來學習任務，其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習，但是數據的數量對于真實的機器人來說是難以接受的。或者，可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量，2)刪除不相關的信息。然而，提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習，通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容

機器學習 · 凸優化 ·

2020 年 6 月 14 日

[付費5元查看完整內容]【斯坦福大學博士論文】機器學習中的凸優化問題,108頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

凸優化作為一個數學問題已經被研究了一個多世紀，并在許多應用領域的實踐中應用了大約半個世紀，包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題，以及機器學習的具體應用。

付費5元查看完整內容

強化學習 · 博士論文 ·

2020 年 5 月 18 日

[付費5元查看完整內容]【牛津大學博士論文】基于強化學習的無地圖機器人導航，Reinforcement Learning Based MRN

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

導航是移動機器人所需要的最基本的功能之一，允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在，這種地圖的取得時間和勞力都很昂貴。另外，地圖在獲取時是準確的，而且由于環境的變化會隨著時間的推移而退化。我們認為，獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力，以深度強化學習(DRL)的最新發展為靈感，探討如何開發實用的機器人導航。

DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的，從一個真實的機器人通過試驗和錯誤，所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題，即彌合從模擬環境到真實環境的現實差距，該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上，把它作為一個低級的導航原語。我們開發了一種DRL方法，它在模擬世界中訓練，但可以很好地推廣到現實世界。

在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報，由于復雜和高維搜索空間。在第4章中，我們利用簡單的經典控制器為DRL的局部導航任務提供指導，避免了純隨機的初始探索。我們證明，這種新的加速方法大大減少了樣本方差，并顯著增加了可實現的平均回報。

我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章，我們提出了一種創新的方法來導航基于幾個路點圖像，而不是傳統的基于視頻的教學和重復。我們證明，在模擬中學習的策略可以直接轉移到現實世界，并有能力很好地概括到不可見的場景與環境的最小描述。

我們開發和測試新的方法，以解決障礙規避、局部引導和全球導航等關鍵問題，實現我們的愿景，實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題

付費5元查看完整內容

強化學習 ·

2020 年 4 月 19 日

[付費5元查看完整內容]《強化學習》簡介小冊，24頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化一詞來源于實驗心理學中對動物學習的研究，它指的是某一事件的發生，與某一反應之間有恰當的關系，而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語，但它已經被人工智能和工程領域的理論家廣泛采用，用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識，即如果一個行為之后出現了一個令人滿意的狀態，或者一個狀態的改善，那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970)，在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而，直到最近，強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理，2) 為非常大規模的動態決策問題找到有用的近似解。

付費5元查看完整內容

深度強化學習 · 人工智能 · 加州大學伯克利分校 (UC Berkeley) · 博士論文 · Robot ·

2019 年 10 月 27 日

[付費5元查看完整內容]【伯克利博士論文】如何讓機器人多技能？通過最大熵強化學習(107頁pdf)

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文題目：Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者：Tuomas Haarnoja

導師：Pieter Abbeel and Sergey Levine

網址：
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要：

在本文中，我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法，以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先，最優策略是隨機的，改進了搜索，防止了收斂到局部最優，特別是當目標是多模態的時候。其次，熵項提供了正則化，與確定性方法相比，具有更強的一致性和魯棒性。第三，最大熵策略是可組合的，即可以組合兩個或兩個以上的策略，并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四，最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中，我們將討論由最大熵策略固有的隨機特性所支持的擴展，包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容