亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

//dataspace.princeton.edu/handle/88435/dsp01v979v6238 強化學習在過去幾年里獲得了極大的興趣,主要是由于實際成功和在各個領域的新應用。然而,我們對這些強化學習技術的理論理解與其經驗上的成功之間仍然存在差距。本文從主要的理論角度研究強化學習,并為1)帶約束的強化學習和2)帶函數逼近的強化學習這兩個具有挑戰性的情況設計了可證明有效的算法,從而加深了我們的理解。 1)在標準強化學習中,學習智能體尋求優化整體獎勵。然而,期望行為的許多關鍵方面更自然地表示為約束。提出了一種算法方案,可以處理具有一般凸約束的強化學習任務,改進了之前局限于線性約束或缺乏理論保證的工作。其次,專注于樣本高效的探索,開發了第一個可證明有效的表格式偶發約束強化學習算法,具有處理凸約束和背包設置的能力。最后,在無獎勵強化學習最新進展的激勵下,本文提出了一種簡單的元算法,在給定任何無獎勵強化學習oracle的情況下,約束強化學習問題可以直接解決,而樣本復雜度的開銷可以忽略不計。 2)尋找能夠支持樣本高效學習的最小結構假設是強化學習最重要的研究方向之一。本文通過引入一種新的復雜性度量——bellman Eluder (BE)維度,推進了對這一基本問題的理解。低BE維的強化學習問題家族非常豐富,包含了絕大多數現有的可處理的強化學習問題。本文進一步設計了一個新的基于優化的算法——GOLF,并針對幾個著名的低BE維問題子類提供了匹配或改進現有最佳結果的遺憾和樣本復雜度結果。為了實現更具挑戰性的部分可觀察強化學習,研究了部分可觀察馬爾可夫決策過程(POMDPs)的一個新的子類,其潛狀態可以用短長度m的最近歷史來解碼。結果表明,短期記憶對這些環境中的強化學習足夠了。

付費5元查看完整內容

相關內容

,又譯 普林斯敦大學,常被直接稱為 普林斯頓,是美國一所私立研究型大學,現為八所常青藤學校之一,綽號為老虎。

具有從過去的經驗中學習并根據環境或背景調整行為以實現特定目標的能力,是真正智能實體的特征。為了實現這一目標,開發高效、穩健和可靠的學習算法是研究的活躍領域,也是實現人工通用智能的重要步驟。在本論文中,我們研究了在兩種不同背景下進行最優決策的學習算法,第一部分是強化學習,第二部分是拍賣設計。

強化學習(RL)是機器學習的一個領域,關注的是智能體應該如何在環境中行動以最大化其隨時間累積的獎勵。在第二章中,受統計物理學的啟發,我們開發了一種新穎的強化學習方法,這種方法不僅學習具有增強期望屬性的最優策略,而且為最大熵強化學習帶來了新的見解。在第三章中,我們使用貝葉斯觀點來解決強化學習中的泛化問題。我們展示了環境動態的不完美知識實際上將一個完全觀察到的馬爾可夫決策過程(MDP)轉變為一個部分觀察到的馬爾可夫決策過程(POMDP),我們稱之為認知POMDP。根據這個觀察,我們開發了一種新的策略學習算法LEEP,它具有改進的泛化屬性。

拍賣是組織購買和銷售產品與服務的過程,具有很大的實際意義。設計一個激勵兼容、個體理性的拍賣以最大化收入是一個具有挑戰性且難以解決的問題。最近,有人提出了一種基于深度學習的方法,從數據中學習最優拍賣。盡管取得了成功,但這種方法存在一些局限性,包括樣本效率低、難以泛化到新的拍賣以及訓練困難。在第四章中,我們構建了一種保持對稱性的神經網絡結構,稱為EquivariantNet,適用于匿名拍賣。EquivariantNet不僅樣本效率更高,而且能夠學習到在其他設置中泛化性能良好的拍賣規則。在第五章中,我們將拍賣學習問題提出為一個雙人博弈的新穎表述。由此產生的學習算法ALGNet更容易訓練,更可靠,更適合非平穩設置。

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

深度神經網絡與強化學習(RL)的結合在解決其他棘手的學習任務方面顯示出巨大的前景。**然而,深度強化學習的實際演示仍然很少。將深度強化學習用于給定任務的挑戰可以分為兩類,大致上是“從經驗中學習什么?”和“從什么經驗中學習?”在本文中,我描述了解決第二類問題的工作。**具體來說,采樣包含與學習任務相關信息的動作、狀態和軌跡的問題。我從算法設計和任務復雜性的三個層次來研究這個挑戰,從算法組件到打破常見RL慣例的混合組合算法。在第一章中,我描述了穩定高效的動作采樣工作,以優化連續值動作的Q函數。通過將基于樣本的優化器與神經網絡近似相結合,可以獲得訓練、計算效率和精確推理的穩定性。在第二章中,我描述了在獎勵感知探索方面的工作,即發現常見采樣方法不足的理想行為。教師"探索"智能體發現狀態和軌跡,使學生"利用"智能體從這些經驗中學習到的數量最大化,并能使學生智能體解決其他不可能的困難任務。在第三章中,我描述了將強化學習與啟發式搜索相結合的工作,用于遷移模型已知的任務領域,但狀態空間的組合數學對于傳統搜索來說是難以解決的。通過將深度Q學習與最佳優先樹搜索算法相結合,可以用比普通搜索算法或僅使用強化學習更少的樣本來找到程序合成問題的解決方案。最后,總結了這項工作的主要收獲,并討論了強化學習中高效采樣的擴展和未來方向。

//dataspace.princeton.edu/handle/88435/dsp01x346d733f

付費5元查看完整內容

深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c

付費5元查看完整內容

現代強化學習(RL)方法在各種應用中取得了巨大的成功。然而,由于過度的樣本復雜性負擔,具有大狀態空間和長規劃時界的強化學習問題仍然具有挑戰性,而我們目前對這類問題的理解相當有限。此外,RL中還有一些經典框架無法解決的重要問題。本文研究了上述問題,以建立對現代RL方法的更好理解。本文主要分為以下三個部分:

**第一部分:具有長期規劃時界的RL。**學習為長期時界做計劃是強化學習的一個核心挑戰,而一個基本問題是了解強化學習的難度如何隨著時界的增加而增加。在本文的第一部分中,我們證明了表格式強化學習是可能的,其樣本復雜度完全獨立于規劃周期,因此,長周期強化學習并不比短周期強化學習更難,至少在極大極小意義上是這樣。

**第二部分:具有大狀態空間的RL。**在現代RL方法中,函數逼近方案被部署來處理大型狀態空間。根據經驗,將RL算法與神經網絡相結合進行特征提取,在各種任務上取得了巨大的成功。然而,這些方法通常需要大量的樣本來學習一個好的策略,并且不清楚此類方法是否有基本的統計限制。在本文的第二部分,通過理論分析和實驗,研究了允許樣本有效強化學習的特征表示能力的充要條件。

**第三部分:其他環境下的強化學習。**經典的強化學習范式旨在最大化智能體獲得獎勵值時的累積獎勵。盡管能夠形式化一個龐大的序列決策問題族,但仍有一些重要的應用無法歸入經典框架。在本文的第三部分,我們研究了兩種新的設置,即無獎勵探索設置和具有一般目標函數的規劃,它們泛化了經典的框架。

付費5元查看完整內容

強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。

因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。

有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。

//dspace.mit.edu/handle/1721.1/138930

付費5元查看完整內容

摘要

多智能體強化學習 (RL) 解決了每個智能體應該如何在多個智能體同時學習的隨機環境中表現最佳的問題。它是一個歷史悠久的跨學科領域,位于心理學、控制理論、博弈論、強化學習和深度學習的聯合領域。繼 AlphaGO 系列在單智能體 RL 中取得顯著成功之后,2019 年是蓬勃發展的一年,見證了多智能體 RL 技術的重大進步;在開發許多具有挑戰性的任務(尤其是多人視頻游戲)上,勝過人類的人工智能已經取得了令人矚目的突破。盡管如此,多智能體 RL 技術的主要挑戰之一仍是可擴展性。設計高效的學習算法來解決包括遠多于兩個智能體 (N2) 的任務仍然不是一件容易的事,我將其命名為大量智能體強化學習 (many-agent reinforcement learning,MARL) 問題。

在本論文中,我從四個方面對解決MARL問題做出了貢獻。首先,我從博弈論的角度提供了多智能體 RL 技術的獨立概述。該概述填補了大多數現有工作要么未能涵蓋自 2010 年以來的最新進展,要么沒有充分關注博弈論的研究空白,我認為博弈論是解決多智能體學習問題的基石。其次,我在多智能體系統中開發了一種易于處理的策略評估算法——的關鍵優勢在于它可以在多人廣義和博弈中輕松計算 α-Rank 的解概念,而無需存儲整個收益矩陣。這與經典的解概念形成對比,例如納什均衡,即使在兩人的情況下也被認為是 PPAD 難的。讓我們第一次能夠實際進行大規模的多智能體評估。第三,我在多智能體系統中引入了一種可擴展的策略學習算法——平均場 MARL。平均場 MARL 方法利用了物理學中的平均場近似,它是第一個試圖打破 MARL 任務維數詛咒的可證明收斂的算法。使用所提出的算法,我給出了通過 MARL 方法解決 Ising 模型和多智能體戰斗博弈的第一個結果。第四,我研究了開放式元博弈(即策略空間中的博弈)中的多智能體學習問題。具體來說,我專注于對元博弈中的行為多樣性進行建模,并開發保證在訓練期間擴大多樣性的算法。所提出的基于行列式點過程的度量,是多樣性的第一個數學嚴格定義。重要的是,多樣性感知學習算法在可利用性方面大大擊敗了現有的最先進的博弈求解器。

除了算法開發之外,我還貢獻了 MARL 技術的兩個實際應用。具體來說,我展示了MARL的巨大應用潛力, 研究了自然界中涌現的人口動態,并為自動駕駛中的多樣化和現實交互建模。這兩個應用程序都體現了 MARL 技術可以在純視頻游戲之外的真實物理世界中產生巨大影響的前景。

MARL的重大挑戰

與單智能體 RL 相比,多智能體 RL 是一個通用框架,可以更好地匹配現實世界 AI 應用的廣泛范圍。然而,由于存在同時學習的多個智能體,除了單智能體 RL 中已經存在的那些之外,MARL 方法還提出了更多的理論挑戰。與通常有兩個智能體的經典 MARL 環境相比,解決大量智能體 RL 問題更具挑戰性。事實上,1 組合復雜性、2 多維學習目標、3 非平穩性問題,都導致大多數 MARL 算法能夠解決只有兩個玩家的博弈,特別是兩個玩家的零和博弈。

本文的結構及貢獻

本論文主要圍繞大量智能體強化學習的研究課題。我為這個主題貢獻的方法位于圖 1.8 中列出的三個研究領域:它們是博弈論,它提供了現實且易于處理的解決方案概念來描述大量智能體系統的學習結果; RL 算法,提供可證明的收斂學習算法,可以在順序決策過程中達到穩定和合理的均衡;最后是深度學習技術,它提供了學習算法表達函數逼近器。

圖 1.8:本論文的研究范圍包括三個支柱。深度學習是學習過程中強大的函數逼近工具。博弈論提供了一種描述學習成果的有效方法。 RL 提供了一種有效的方法來描述多智能體系統中智能體的激勵。

圖 1.9:本文后續章節的結構,與列出的三個挑戰(1 組合復雜性、2 多維學習目標、3 非平穩性)相關,每章都試圖解決這些挑戰。

以下各章的結構和貢獻如下(另請參見圖 1.9):

  • 第 2 章:由于 MARL 的可擴展性問題深深植根于其博弈論基礎,在本章中,我將首先概述現代 MARL 方法的博弈論方面,以及最近的進展。我相信這個概述是對社區的重要貢獻,因為大多數現有調查要么不關注博弈論,要么就遺漏了自 2010 年以來的大多數近期文獻而過時。第 1 章和第 2 章構成了 MARL 的獨立專著。該專著的目標是從博弈論的角度對當前最先進的 MARL 技術進行專門評估。我希望這項工作能夠為即將進入這個快速發展領域的新研究人員和想要獲得全景,并根據最新進展確定新方向的現有領域專家提供基礎。

  • 第 3 章:本章提供了 MARL 技術在理解 AI 智能體的新興種群動態方面的應用。本章的目標是在我介紹方法學發展之前作為開篇,展示 MARL 方法的巨大潛力。具體來說,在這項工作中,我將 RL 智能體放入模擬的捕食者-獵物世界中,并驗證自然界中開發的原理是否可用于理解人工創造的智能種群,反之亦然。這項工作的主要貢獻在于,它啟發了許多人口生物學家和計算生物學家,在對宏觀生物學研究中的自利智能體進行建模時,為他們提供了一種基于 MARL 的新方法。

  • 第 4 章:本章介紹了一種新的大量智能體系統策略評估方法:是 α-rank 的隨機變體,是一種新穎的解概念,在多人廣義和博弈中具有多項式時間解。的一個主要好處是,人們現在可以輕松地評估大型多智能體系統(即多人廣義和博弈),例如,具有聯合策略配置文件的多智能體系統只需一臺機器;這與計算納什均衡相反,即使在兩人的情況下,這也是眾所周知的 PPAD-hard。

  • 第 5 章:在本章中,我將重點解決大量智能體系統中策略學習的核心問題。具體來說,我提出了平均場 MARL (MFMARL) 方法,該方法利用了物理學中平均場近似的經典思想。 MF-MARL 通過僅??考慮總體的平均效應,有效地將大量智能體學習問題轉化為雙智能體問題。使用 MF-MARL 方法,可以有效地訓練數百萬智能體來解決大型合作博弈。我測試了 MF-MARL 算法來解決 Ising 模型,這是一個眾所周知的物理學難題,因為它的組合性質,并得出了第一個基于 MARL 的 Ising 模型解。總的來說,本章的主要貢獻是提供了第一個可證明收斂的可擴展 MARL 算法,并證明了它在遠不止兩個智能體的場景中的有效性。

  • 第 6 章:本章研究開放式元博弈(即策略級別的博弈,也稱為聯盟訓練或自動課程)中的大量智能體學習問題,其中行為多樣性是一個關鍵但尚未充分探索的主題。本章為策略空間中的行為多樣性提供了第一個數學上嚴格的定義,并提出了被證明可以在策略訓練期間擴大多樣性的學習算法。零和博弈的經驗結果表明,所提出的方法在很大程度上優于現有的最新技術。這項研究可能會產生重大的經濟影響,因為所提出的算法可以直接插入到開發游戲 AI 的聯盟訓練中(例如,訓練能夠在撲克游戲中擊敗人類玩家的 AI 群體)。

  • 第 7 章:除第3章外,本章介紹MARL的第二種應用,即自動駕駛(AD)。我展示了使用 MARL 技術來模擬 AD 中現實和多樣化的多智能體交互的巨大潛力。具體來說,我介紹了 SMARTS 平臺:第一個專門支持 RL 和 MARL 訓練的 AD 模擬器。基于 SMART,我分享了一個藍天理念,即在 MARL 中創建多樣化的自動課程是在 AD 中建模現實交互的關鍵。我詳細闡述了多樣化自動課程的必要性,并列出了應用這種技術的四個開放挑戰。本章的貢獻有兩方面:首先,我展示了 MARL 技術可以在真實的物理世界中產生有影響力的應用,而不是純粹的視頻游戲;其次,我向 AD 中的研究人員介紹了一種新方法,以便他們能夠生成當前缺失的高質量交互。

  • 第8章:在最后一章中,我總結了這篇論文,并提出了四個未來的研究方向;它們是深度 MARL 理論、安全魯棒的 MARL、基于模型的 MARL 和多智能體元 RL。

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容
北京阿比特科技有限公司