強化學習(RL)是一種有希望的訓練智能體的框架,這些代理通過直接與環境互動來學習優化長期效用。創建可擴展到大規模狀態-行動空間的RL方法是確保RL系統在現實世界中部署的關鍵問題。然而,幾個挑戰限制了RL在大規模設置中的適用性。這些包括與探索、低樣本效率、計算不可行性、任務約束(如去中心化)有關的困難,以及關于在可能未見過的情況下的表現、泛化和穩健性等重要屬性的保證的缺乏。
這篇論文的動機是為了彌合上述的差距。我們提出了幾種原則性的算法和框架來研究和解決RL中的上述挑戰。所提出的方法覆蓋了廣泛的RL設置(單一和多代理系統(MAS),后者中的所有變化,預測和控制,基于模型和無模型的方法,基于價值和基于策略的方法)。在這項工作中,我們針對幾個不同的問題提出了首次的結果:例如,Bellman方程的張量化,這允許指數樣本效率的增益(第4章),MAS中由結構約束導致的可證明的次優性(第3章),合作MAS中的組合泛化結果(第5章),關于觀察偏移的泛化結果(第7章),在概率RL框架中學習確定性策略(第6章)。我們的算法明顯地提高了性能和樣本效率,并提高了可擴展性。此外,我們還闡述了在不同框架下代理的泛化方面。這些屬性都是通過使用幾種高級工具(例如,統計機器學習,狀態抽象,變分推斷,張量理論)來驅動的。總的來說,這篇論文的貢獻顯著推動了使RL代理準備好應用于大規模,真實世界應用的進程
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。
具有從過去的經驗中學習并根據環境或背景調整行為以實現特定目標的能力,是真正智能實體的特征。為了實現這一目標,開發高效、穩健和可靠的學習算法是研究的活躍領域,也是實現人工通用智能的重要步驟。在本論文中,我們研究了在兩種不同背景下進行最優決策的學習算法,第一部分是強化學習,第二部分是拍賣設計。
強化學習(RL)是機器學習的一個領域,關注的是智能體應該如何在環境中行動以最大化其隨時間累積的獎勵。在第二章中,受統計物理學的啟發,我們開發了一種新穎的強化學習方法,這種方法不僅學習具有增強期望屬性的最優策略,而且為最大熵強化學習帶來了新的見解。在第三章中,我們使用貝葉斯觀點來解決強化學習中的泛化問題。我們展示了環境動態的不完美知識實際上將一個完全觀察到的馬爾可夫決策過程(MDP)轉變為一個部分觀察到的馬爾可夫決策過程(POMDP),我們稱之為認知POMDP。根據這個觀察,我們開發了一種新的策略學習算法LEEP,它具有改進的泛化屬性。
拍賣是組織購買和銷售產品與服務的過程,具有很大的實際意義。設計一個激勵兼容、個體理性的拍賣以最大化收入是一個具有挑戰性且難以解決的問題。最近,有人提出了一種基于深度學習的方法,從數據中學習最優拍賣。盡管取得了成功,但這種方法存在一些局限性,包括樣本效率低、難以泛化到新的拍賣以及訓練困難。在第四章中,我們構建了一種保持對稱性的神經網絡結構,稱為EquivariantNet,適用于匿名拍賣。EquivariantNet不僅樣本效率更高,而且能夠學習到在其他設置中泛化性能良好的拍賣規則。在第五章中,我們將拍賣學習問題提出為一個雙人博弈的新穎表述。由此產生的學習算法ALGNet更容易訓練,更可靠,更適合非平穩設置。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
深度神經網絡與強化學習(RL)的結合在解決其他棘手的學習任務方面顯示出巨大的前景。**然而,深度強化學習的實際演示仍然很少。將深度強化學習用于給定任務的挑戰可以分為兩類,大致上是“從經驗中學習什么?”和“從什么經驗中學習?”在本文中,我描述了解決第二類問題的工作。**具體來說,采樣包含與學習任務相關信息的動作、狀態和軌跡的問題。我從算法設計和任務復雜性的三個層次來研究這個挑戰,從算法組件到打破常見RL慣例的混合組合算法。在第一章中,我描述了穩定高效的動作采樣工作,以優化連續值動作的Q函數。通過將基于樣本的優化器與神經網絡近似相結合,可以獲得訓練、計算效率和精確推理的穩定性。在第二章中,我描述了在獎勵感知探索方面的工作,即發現常見采樣方法不足的理想行為。教師"探索"智能體發現狀態和軌跡,使學生"利用"智能體從這些經驗中學習到的數量最大化,并能使學生智能體解決其他不可能的困難任務。在第三章中,我描述了將強化學習與啟發式搜索相結合的工作,用于遷移模型已知的任務領域,但狀態空間的組合數學對于傳統搜索來說是難以解決的。通過將深度Q學習與最佳優先樹搜索算法相結合,可以用比普通搜索算法或僅使用強化學習更少的樣本來找到程序合成問題的解決方案。最后,總結了這項工作的主要收獲,并討論了強化學習中高效采樣的擴展和未來方向。
//dataspace.princeton.edu/handle/88435/dsp01x346d733f
現代強化學習(RL)方法在各種應用中取得了巨大的成功。然而,由于過度的樣本復雜性負擔,具有大狀態空間和長規劃時界的強化學習問題仍然具有挑戰性,而我們目前對這類問題的理解相當有限。此外,RL中還有一些經典框架無法解決的重要問題。本文研究了上述問題,以建立對現代RL方法的更好理解。本文主要分為以下三個部分:
**第一部分:具有長期規劃時界的RL。**學習為長期時界做計劃是強化學習的一個核心挑戰,而一個基本問題是了解強化學習的難度如何隨著時界的增加而增加。在本文的第一部分中,我們證明了表格式強化學習是可能的,其樣本復雜度完全獨立于規劃周期,因此,長周期強化學習并不比短周期強化學習更難,至少在極大極小意義上是這樣。
**第二部分:具有大狀態空間的RL。**在現代RL方法中,函數逼近方案被部署來處理大型狀態空間。根據經驗,將RL算法與神經網絡相結合進行特征提取,在各種任務上取得了巨大的成功。然而,這些方法通常需要大量的樣本來學習一個好的策略,并且不清楚此類方法是否有基本的統計限制。在本文的第二部分,通過理論分析和實驗,研究了允許樣本有效強化學習的特征表示能力的充要條件。
**第三部分:其他環境下的強化學習。**經典的強化學習范式旨在最大化智能體獲得獎勵值時的累積獎勵。盡管能夠形式化一個龐大的序列決策問題族,但仍有一些重要的應用無法歸入經典框架。在本文的第三部分,我們研究了兩種新的設置,即無獎勵探索設置和具有一般目標函數的規劃,它們泛化了經典的框架。
在現實生活中部署人工智能體的一個基本問題是它們快速適應環境的能力。傳統的強化學習(RL)以兩種方式與這一需求作斗爭。首先,對不受約束的環境動態的迭代探索會產生大量信息不足的更新,從而導致適應速度緩慢。其次,最終的策略沒有能力適應未來的觀察結果,必須隨著觀察結果的發生緩慢地無限學習或完全重新訓練。本文探討了兩種旨在解決這些問題的表述。元強化學習對整個任務分布的考慮使策略能夠快速適應特定實例。通過強迫智能體特定地請求反饋,主動強化學習強制進行選擇性的觀察和更新。這兩個公式都簡化為貝葉斯-自適應設置,在其中保持對可能環境的概率信念。許多現有的解只提供了在實際環境中使用有限的漸近保證。我們開發了一種近似信念管理的變分方法,并通過廣泛的消融實證支持其有效性。然后,我們考慮最近成功的規劃方法,但發現和討論它們在應用到所討論的設置中的障礙。影響RL系統的數據需求和穩定性的一個重要因素是選擇合適的超參數。我們開發了一種貝葉斯優化方法,利用訓練過程的迭代結構,其經驗性能超過現有基線。本文的最后一個貢獻是提高高斯過程(GPs)的可擴展性和表達性。雖然我們沒有直接使用現有的框架,但GPs已經被用于在密切相關的設置中建模概率信念。
//ora.ox.ac.uk/objects/uuid:54963b90-2d7c-41a9-9bf3-065a3097c077
強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。
在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。
在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題