本文為強化學習和計算機視覺應用構建深度學習模型,重點是設計新穎有效的表示學習框架。所提出的方法有兩個主要方面:神經網絡模型架構設計和目標工程。為演示如何操縱每個方面,深入研究了人工智能中兩個重要研究領域的代表性應用,即強化和計算機視覺。在這兩個領域,都強調了如何操縱抽象表示,以從目標任務和可用數據類型中建立強大的歸納偏差。我們希望我們的例子可以為今后處理相關領域和其他領域的問題提供啟發。 論文的第一部分研究了強化學習中的代表性任務。我們的貢獻如下:
作為起點,旨在改善通用和探索性行為,并反映一類流行的無模型、基于策略的強化學習算法、actor - critic方法的環境不確定性。本文提出隨機actor-critic方法(Shang et al., 2019b; Chapter 2;第2章)它采用了一種有效而靈活的方式將隨機性注入到actor-critic模型中。隨機性被注入到高級抽象表示中。測試了幾個用隨機激活增強的actor-critic模型,并在廣泛的Atari 2600游戲、連續控制問題和賽車任務中證明了它們的有效性。
接下來,我們將注意力轉向如何在一個更具體但更常見的RL問題設置中進行結構化探索:一個承載著不同任務套件的持久環境或世界。本文提出對環境進行世界圖分解,以加速強化學習(Shang et al., 2019a; Chapter 3;第3章)世界圖的節點是重要的航路點狀態,邊表示它們之間的可行遍歷。在識別世界圖之后,該框架將其應用于分層強化學習算法,以將探索偏向于與任務相關的航路點和區域。在一套具有挑戰性的迷宮任務上徹底評估了所提出方法,并表明使用環境的世界圖抽象可以顯著加速強化學習,實現更高的回報和更快的學習。
最后,考慮多智能體必須合作以實現共同目標的場景,這是多智能體強化學習的一個子集。建議將以智能體為中心的表示納入多智能體強化學習(Shang等人,2020a;第四章)以兩種方式。引入了一個以智能體為中心的注意力模塊,具有跨智能體的顯式連接。注意力模塊建立在智能體的抽象表示之上。利用了一個以智能體為中心的無監督預測目標,作為輔助損失或預訓練步驟的基礎。在谷歌Research Football環境和DeepMind Lab 2D上評估了這些方法,表明它們導致了智能體之間更復雜的合作策略的出現,并提高了樣本效率和泛化能力。
論文的第二部分將重點轉移到各種計算機視覺任務和領域的無監督學習。我們的貢獻如下:
為了更好地利用無標簽數據并增強無監督圖像建模,本文提出通道遞歸變分自編碼器(crVAE) (Shang等人,2018;第5章)。它將抽象卷積特征的跨通道循環連接集成到推理和生成步驟,允許以全局到局部、粗到細的方式捕獲由此產生的高級特征。結合對抗性損失,產生的通道循環VAE-GAN (crVAE-GAN)在生成不同光譜的高分辨率圖像方面優于基線VAE-GAN,同時保持相同的計算效率水平。
下一步,進一步擴展通道循環框架,并提出了注意力的條件通道循環自編碼;)屬性條件人臉合成。評估通過定性的視覺檢查和定量的指標進行,即inception分數、人類偏好和屬性分類精度。
考慮對無標記視頻序列進行無監督學習,并建議學習視頻級靜態和動態表示(Shang等人,2020b;第7章從時間一致性和動力學角度對視頻進行分解。本文展示了在幾個應用中學習到的表示的重要性,包括一個新的動力學檢索任務,在人臉、人類活動和機器人抓取數據集上。
具有從過去的經驗中學習并根據環境或背景調整行為以實現特定目標的能力,是真正智能實體的特征。為了實現這一目標,開發高效、穩健和可靠的學習算法是研究的活躍領域,也是實現人工通用智能的重要步驟。在本論文中,我們研究了在兩種不同背景下進行最優決策的學習算法,第一部分是強化學習,第二部分是拍賣設計。
強化學習(RL)是機器學習的一個領域,關注的是智能體應該如何在環境中行動以最大化其隨時間累積的獎勵。在第二章中,受統計物理學的啟發,我們開發了一種新穎的強化學習方法,這種方法不僅學習具有增強期望屬性的最優策略,而且為最大熵強化學習帶來了新的見解。在第三章中,我們使用貝葉斯觀點來解決強化學習中的泛化問題。我們展示了環境動態的不完美知識實際上將一個完全觀察到的馬爾可夫決策過程(MDP)轉變為一個部分觀察到的馬爾可夫決策過程(POMDP),我們稱之為認知POMDP。根據這個觀察,我們開發了一種新的策略學習算法LEEP,它具有改進的泛化屬性。
拍賣是組織購買和銷售產品與服務的過程,具有很大的實際意義。設計一個激勵兼容、個體理性的拍賣以最大化收入是一個具有挑戰性且難以解決的問題。最近,有人提出了一種基于深度學習的方法,從數據中學習最優拍賣。盡管取得了成功,但這種方法存在一些局限性,包括樣本效率低、難以泛化到新的拍賣以及訓練困難。在第四章中,我們構建了一種保持對稱性的神經網絡結構,稱為EquivariantNet,適用于匿名拍賣。EquivariantNet不僅樣本效率更高,而且能夠學習到在其他設置中泛化性能良好的拍賣規則。在第五章中,我們將拍賣學習問題提出為一個雙人博弈的新穎表述。由此產生的學習算法ALGNet更容易訓練,更可靠,更適合非平穩設置。
在本文中,我們開發了使用機器學習來解決組合優化問題的方法,重點是車輛路徑問題。本文由兩部分組成。在第一部分(第3章和第4章)中,我們開發了使用機器學習模型來解決不同變體的車輛路徑問題的實用方法。由于這些模型表示組合空間上的概率分布,在第二部分(第5章和第6章)中,我們將重點從這些模型中采樣并優化它們的參數。具體來說,在第3章中,我們使用強化學習來訓練注意力模型,該模型代表一種構造啟發式,以解決不同變體的路由問題。在第4章中,我們將介紹深度策略動態規劃,它使用另一個學習到的模型來指導受限動態規劃算法,以提高路由問題的性能和處理復雜約束(如時間窗口)的能力。鑒于組合問題的確定性,第一部分中模型中的重復樣本是沒有信息量的,因此第二部分側重于從這些模型中進行無替換的采樣。在第5章中,提出了Gumbel-top-k采樣,作為一種從組合域的結構化模型中無替換地提取樣本的有效方法,并說明了路由問題以外的一般適用性。在第6章中,我們推導了基于這些無替換樣本的統計梯度估計器,該估計器可用于改進第3章中基于梯度的模型訓練過程。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
**人類通過被動觀察和主動互動來學習世界的心理模型,從而在環境中導航。他們的世界模型允許他們預測接下來可能發生的事情,并根據潛在的目標采取相應的行動。**這樣的世界模型在自動駕駛等復雜環境的規劃方面具有強大的前景。人類司機或自動駕駛系統用眼睛或相機感知周圍環境。他們推斷出世界的一種內部表示應該:(i)具有空間記憶(例如遮擋),(ii)填充部分可觀測或有噪聲的輸入(例如被陽光蒙蔽時),以及(iii)能夠概率地推理不可觀測的事件(例如預測不同的可能的未來)。它們是具身的智能體,可以通過其世界模型在物理世界中預測、計劃和行動。本文提出一個通用框架,從攝像機觀察和專家演示中訓練世界模型和策略,由深度神經網絡參數化。利用幾何、語義和運動等重要的計算機視覺概念,將世界模型擴展到復雜的城市駕駛場景。**在我們的框架中,我們推導了這種主動推理設置的概率模型,其目標是推斷解釋主動代理的觀察和行動的潛在動力學。**我們通過確保模型預測準確的重建以及合理的操作和過渡來優化日志證據的下界。首先,我們提出了一個模型,預測計算機視覺中的重要量:深度、語義分割和光流。然后,我們使用三維幾何作為歸納偏差在鳥瞰空間中操作。我們首次提出了一個模型,可以從360?環繞單目攝像機鳥瞰動態代理的概率未來軌跡。最后,我們展示了在閉環駕駛中學習世界模型的好處。我們的模型可以聯合預測城市駕駛環境中的靜態場景、動態場景和自我行為。我們表明,學習世界模型和駕駛策略可以生成超過1小時的預測(比訓練序列大小長2000倍)。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
強化學習的一個主要挑戰是有效地探索一個環境,以便通過試驗和錯誤學習最佳策略。為了實現這一目標,智能體必須能夠有效地從過去的經驗中學習,使其能夠準確地了解某些行動對其他行動的好處。除此之外,一個明顯但核心的問題是,不知道的東西必須被探索,而以安全的方式探索的必要性又給問題增加了一層難度。這些都是我們在這篇博士論文中討論的主要問題。通過解構行為者批判框架,并利用方差概念對基礎優化問題進行替代性表述,我們探討了深度強化學習算法如何更有效地解決連續控制問題、困難探索環境和風險敏感任務。論文的第一部分集中在行為者批評框架的批評者部分,也被稱為價值函數,以及如何通過對價值函數估計中的方差的獨特使用,更有效地學習控制連續控制領域中的智能體。論文的第二部分是關于行為者-批評者框架的行為者部分,也被稱為策略。我們建議通過引入對手,為智能體解決的優化問題引入第三個元素。對手的性質與RL智能體相同,但經過訓練,可以提出模仿行為人的行動或抵消我們問題的約束。它由一些平均的策略分布來表示,行為者必須通過最大化與它的分歧來區分他的行為,最終鼓勵行為者在有效探索是一個瓶頸的任務中更徹底地探索,或者更安全地行動。
“在對同一情境做出的幾種反應中,那些伴隨著或緊隨其后的滿足感,與該情境的聯系更為牢固,因此,當它再次出現時,它們將更有可能再次出現。”出自《效果法則》,愛德華-桑代克(1911年)。
在本章中,我們將介紹強化學習問題背后的動機。我們將觸及深度學習在過去幾年的崛起,以及它能給我們的工作帶來的改進的特點。然后,我們將考慮我們希望我們的計算機能夠學習什么,考慮本論文中主要關注的問題,然后討論將在以下章節中提出的貢獻,以及他們的結果和潛在的新問題。
強化學習(RL)是機器學習(ML)的一門學科,它涉及到在不同情況下學習做出一連串的決定來最大化一些分數,后來被描述為獎勵。機器軟件可以采用這種技術來尋找最佳策略,以解決任何可以被表述為RL問題的問題。一些有直接用途的例子包括醫療保健問題(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),復雜場景的一般視覺問題回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理問題(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能計算系統中的任務調度問題(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盤游戲(Tesauro,1995;Silver,Huang,Maddison,等,2016),視頻游戲(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或機器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL問題考慮一個采取決策的智能體和智能體運行的環境。在每個時間段,智能體采取一個行動,并獲得一個獎勵和一個觀察。作為一個說明性的例子,圖1.1將智能體描述為一只狗,它必須完成一連串的行動,把飛盤還給它的主人,而主人扮演著環境的角色。狗觀察它主人的動作,并受到玩耍的滿足感和結束時得到獎勵的激勵。在這種情況下,RL算法使用一個試錯學習過程來最大化決策智能體在先前未知環境中的總獎勵。舉個例子,在機器人學中,觀察是攝像機圖像或關節角度,行動是關節扭力,獎勵包括導航到目標位置,成功到達目標位置并保持平衡。
圖1.1 - 智能體與環境的互動
表征學習是學習從輸入數據中轉換或提取特征以解決一個任務的過程。機器學習主要關注的是從數據中的函數學習。深度學習關注的是將數據中的函數學習與表征學習相結合。深度學習與機器學習具有相同的實際目的,只是它得益于一個通常更具表現力的函數近似器(這一特征在之前的工作中已經用軌跡長度的概念進行了測量(Raghu, Poole, Kleinberg, et al., 2017)),即通過連續的梯度下降步驟訓練的深度神經網絡。深度神經網絡是一種輸入到目標的映射,由一連串簡單的數據轉換組成,稱為投影層(簡單的矩陣乘法)聚合在一起,并與非線性相結合。
這樣的深度學習模型通常涉及幾十或有時幾百個連續的表征層,這些表征層是通過接觸訓練數據學習的,其中計算階段的長因果鏈改變了神經網絡的總體激活。這種技術已經產生了一些顯著的經驗發現,特別是在語音識別(Dahl, Yu, Deng, et al., 2012)、圖像識別(Krizhevsky, Sutskever, and Hinton, 2012)和自然語言處理(Vaswani, Shazeer, Parmar, et al., 2017)。
在參數較少、缺乏構成性的簡單ML模型可能會失敗的情況下,深度學習可以成為涉及高維數據(如自然語言或圖像和視頻)的復雜任務的合適技術。深度強化學習(deep RL)是使用神經網絡作為函數近似器的強化學習學科,適用于智能體的輸入和輸出(觀察和行動)涉及高維數據的順序決策問題。例如,Tesauro的TD-Gammon(Tesauro,1995)將RL算法與神經網絡結合起來,學習玩雙陸棋,這是一個有大約1020個狀態的隨機游戲,并發揮了人類頂級選手的水平。大約在同一時期,Rummery和Niranjan(1994)學習了一個帶有函數近似的半梯度Sarsa,為Gullapalli(1990)的工作以及Lin和Tham的博士論文(Lin, 1992a; Tham, 1994)增加了內容,這些論文探索了各種RL算法與神經網絡的結合。
在Tesauro的開創性工作二十年后,深度RL作為一種有前途的方法出現,用于經驗驅動的自主學習,因為它們有能力獲得復雜的策略和處理高維復雜的感官輸入(Jaderberg, Mnih, Czarnecki, et al., 2017)。這樣的算法可以完全從圖像像素中學習玩幾個雅達利2600視頻游戲,達到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是開發了一個蒙特卡洛樹搜索(MCTS)規劃系統,加上深度RL模塊(Silver, Huang, Maddison, et al., 2016),打敗了一個世界圍棋冠軍,或者也可以直接從現實世界的攝像機輸入中學習機器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。
在深度RL中,神經網絡被用來近似實現從狀態到選擇每個可能行動的概率的映射的函數(稱為策略),估計智能體處于給定狀態的好壞的函數(稱為價值函數),動力學模型或RL算法所需的其他函數。特別是,在異步優勢actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引導目標(Sutton, 1988)在廣泛的任務上使用梯度策略顯示了強大的結果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)學習貼現收益的分類分布,而不是估計平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)細致地結合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改進,在數據效率和最終性能方面為Atari 2600基準提供了改進。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同種類的策略梯度方法,重點是高性能、低樣品利用率和穩定性的改善。
圖1.2 - 強化學習算法的分類法。
通常,在強化學習中,智能體的行動是基于正在學習的最新版本的策略。在更新過程中,來自與環境互動的數據被用來推導出基于樣本的目標函數,其中策略和值近似器通過梯度下降進行更新。在深度RL中,近似器是深度神經網絡。這些算法的成功取決于在互動階段發現的軌跡:如果數據包括具有高獎勵的軌跡,那么這些軌跡就會被更新所加強,在新更新的策略下變得更有可能。因此,與環境的互動和近似器的更新是密切相關且高度依賴的。因此,在設計新的深度RL算法時,一個核心問題是什么應該被近似,以及如何被近似。圖1.2顯示了RL算法的高級分類法。在頂層,我們有動態規劃(DP)算法,可以用來計算給定環境的完美模型的最優策略。事實上,DP算法(例如策略迭代和價值迭代)是典型的基于模型的算法:這些算法都使用模型對下一個狀態和獎勵的預測或分布,以計算出最佳行動。具體來說,在動態規劃中,模型必須提供狀態轉換概率和任何狀態-行動對的預期獎勵。請注意,與大多數其他基于模型的RL算法相反,該模型很少是一個學習模型。
相反,無模型RL算法并不估計底層系統的動態,而是旨在直接優化一個策略。基于策略的方法明確地建立和學習一個策略,將狀態映射到選擇可能行動的概率上,并在學習期間將策略的近似值存儲在內存中,以供以后使用。基于價值的方法不存儲明確的策略,而是學習一個價值函數。策略是隱性的,通過選擇具有最佳價值的行動從價值函數中得出。至于行為批判方法,它們是一個框架的一部分,結合了基于價值和惡略的方法的元素。
選擇使用哪種方法主要取決于問題的規格(如系統動力學的復雜性)、要解決的背景(如策略的最優性)和實驗規格(如時間或資源預算)。例如,基于模型的RL方法通常會加快學習速度,其代價是缺乏對動態復雜問題的可擴展性。他們通常學習一個系統動力學模型,即控制器,并將其用于規劃。這樣的方法可以在低維連續控制問題中以高樣本效率學習成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。這種方法的另一個應用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通過使用蒙特卡洛樹搜索(MCTS)規劃模塊,有效地解決了計算機圍棋的問題,以利用游戲動態的知識。
在這篇論文中,我們將研究重點放在無模型方法的數據效率上,這些方法在行為批評框架中使用基于梯度的方法直接學習隨機策略函數。隨機策略的一個優點是,當在參數空間中移動時,它們允許策略的微小變化,而在確定性策略的情況下,類似的轉變有可能會極大地改變策略。因此,參數和策略之間的耦合似乎在一般情況下更容易控制,特別是對于離散的行動空間。隨機策略的另一個優點是其固有的探索性質,即通過對高斯噪聲進行抽樣來增加確定性的基本策略。最后,本論文主要關注的問題(連續控制任務、程序生成的任務和具有安全約束的連續控制任務)的復雜動態特征也鼓勵我們采用無模型設置,不需要對環境、規格或領域知識進行假設。
圖1.3 - 本論文圍繞行為者-批評者的構成部分展開的大綱。
在深入研究本論文之前,我們必須問自己,我們想解決什么問題,還有什么問題需要回答。促使本論文工作的一些困難來源可以描述如下。
對(深度)RL方法的優化和評估通常只基于對未來獎勵之和的智能體。來自監督或統計學習的替代統計數據可以作為額外的性能指標加以利用。
在一些連續控制問題或具有稀疏獎勵的任務中,策略梯度估計可能具有低振幅和不穩定,可能導致采樣效率低下。一個RL智能體可能從一些過渡中比其他過渡更有效地學習,因此過濾過渡似乎是一個自然的想法,可以考慮。
降低方差的方法,如基線減法,在激勵這些算法的概念框架和實踐中實施的估計行為者-批評者框架中的批評者部分之間表現出差異。需要更有效和穩健的目標函數來估計由批評者代表的價值函數。
有獎勵的狀態往往要被訪問很多次,特別是在獎勵稀少的任務中使用策略性方法,智能體才能學到任何有意義的東西。價值函數的估計必須對這些極端值敏感,并盡可能有效地捕捉與獎勵相對應的(有時是罕見的)信號。
在隨機策略誘導的探索中,如果這些狀態遠離出發點,那么在稀疏獎勵任務中訪問有獎勵的狀態的可能性將是無限小的。某種形式的記憶需要通過使用例如以前策略的移動平均值來保持,從而避免重復那些沒有導致相關學習的相同軌跡。
在同一想法的基礎上,一個有趣的問題是,是否可以通過學習,而不是以前的策略的混合物,來構建一個類似的先驗,如何打破安全約束,代表智能體應該避免的概率不安全區域。
所有這些情況都屬于同一范疇:在本論文中,我們試圖通過以下方式開發出比以前的方法更穩定、更節省樣本的策略梯度方法:(1)利用自我表現統計給出的信息,使用更適應策略梯度方法的其他學習函數估計方法;(2)在演員-批評家二人組中引入第三個主角,作為策略必須遠離的排斥性平均分布。本論文的關鍵是行為批評者框架,如圖1.3所示。我們通過方差的棱鏡來處理它的兩面,首先是批評者,然后是行為者:用解釋的方差和殘差計算的價值函數估計的方差,以及從對抗性先驗中得到的策略候選者的方差,維持策略的平均混合。
這篇論文總結了以前發表的四篇論文的研究貢獻。本論文的組織結構是按照論文發表的順序進行的,并對一些內容進行了重新組織。為了使論文有一個更連貫的結構并提高其可讀性,我們將其分為兩部分。第一部分從一般角度介紹了強化學習的問題。我們發展了本論文所采用的關于RL問題的一些困難的觀點,并詳細介紹了我們選擇作為本論文的一部分來解決的問題以及研究這些問題的動機。
第二部分專門討論在連續控制問題中更有效地學習控制智能體。在第三章中,我們介紹了學習連續控制策略的問題,并提出了在高維連續狀態和行動空間中學習深度神經網絡表示的推理方案。在第四章中,我們提出了在學習解決一個任務時使用更多的統計對象作為輔助損失。特別是,我們將價值函數估計的解釋方差確定為一個具有有趣特性的工具,并提出了一個具有編碼器共享的普遍適用的框架,以加快策略梯度智能體的學習。第五章提出了一個簡單而有效的想法,即RL智能體將從一些經驗數據中比其他數據更有效地學習。我們采用第四章中介紹的自我性能評估的統計數據,開發了一種對策略梯度算法的修改,在估計策略梯度時,樣本被過濾掉了。在第六章中,由于最近的研究表明傳統的行為批評算法不能成功地擬合價值函數,并呼吁需要為批評者確定一個更好的目標,我們引入了一種方法來改善行為批評框架中批評者的學習。
第三部分涉及圖1.3中的另一面:在行為者策略的背景下,通過在行為者-批評框架中引入第三個主角來表述差異性。這個新的主角作為一個對抗性的先驗,保持一個平均的策略混合物,策略分布應該被排斥在外。在第七章介紹了在具有更多現實世界特征的環境中學習的問題,如安全約束或有效探索是一個瓶頸的情況下,在第八章和第九章中,我們開發了一種在維持對抗性先驗中策略候選人的變異形式,作為以前策略的混合物(第八章)和作為尋求風險的策略的混合物(第九章)。
最后,我們在第四部分給出了論文的尾聲,討論了進展和未來的前景。
著作清單
在有論文集的國際會議上的出版物
Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, and Philippe Preux (2021)《利用殘差在深度策略梯度中學習價值函數》國際學習表征會議
Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, and Matthieu Geist (2021)《逆向引導的行為者-批評》國際學習表征會議
Yannis Flet-Berliac和Philippe Preux(2020年7月)《只有相關信息才重要:濾除噪聲樣本以促進RL》第29屆國際人工智能聯合會議論文集,IJCAI-20。Christian Bessiere編輯。主賽道。國際人工智能聯合會議組織,第2711-2717頁。
國際會議上的研討會發言或預印本
Yannis Flet-Berliac 和 Philippe Preux (2019b). MERL: Multi-Head Reinforcement Learning第33屆神經信息處理系統進展會議的深度強化學習研討會
Yannis Flet-Berliac and Debabrota Basu (2021)《SAAC:安全強化學習作為演員-批評家的對抗性游戲》預印本
在國際數字雜志上發表的文章
軟件
本論文中沒有介紹的合作項目
Jacques Demongeot, Yannis Flet-Berliac, and Hervé Seligmann (2020)《溫度降低傳播參數的新Covid-19案例動態》生物學9.5,第94頁
Yannis Flet-Berliac and Philippe Preux (2019a)《使用通用輔助任務的高維控制》Tech. rep. hal-02295705
Thomas Depas and Yannis Flet-Berliac (2019)《平行四邊形的公主》展覽全景21-勒弗斯諾伊國家當代藝術工作室
強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。
在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。
在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html
與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。
由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。
在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。
//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。