亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。

這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

優化是機器人的一個基本組成部分,在控制和仿真等領域的各個方面都有涉及。這兩個領域都涉及尋找各種優化問題的最佳解決方案,以獲得預期的結果。在解決這些優化問題時,效率是關鍵。通過快速可靠地找到解決方案,我們可以在硬件上實時執行基于優化的控制器。快速生成大量仿真數據的能力對于離線優化任務也很有價值,如策略優化、協同設計優化和系統識別。機器人控制與仿真中出現的優化問題往往具有結構性。有些問題可以直接歸入已經研究過的類別,例如線性二次調節器(LQR),其他控制問題可以歸為線性規劃(LP)或二次規劃(QP)。對于這些類別中的每一個,都存在高效和可靠的求解器。將你的問題歸入其中一類通常是一種安全的策略。

然而,存在涉及復雜優化問題的控制和仿真任務,目前還沒有令人滿意的求解器。本文主要研究這些問題。我們特別感興趣的是耦合優化問題,其中一個優化問題的解是另一個優化問題的參數。這些耦合優化問題在機器人仿真中自然會出現。例如,接觸物理的模擬需要解決最小作用原理和最大耗散原理。第6章和第7章將介紹如何聯合求解這兩個優化問題。耦合優化問題也經常出現在智能體交互的自動駕駛場景中。事實上,場景中的每輛車或行人都在優化其路徑,以盡可能快地重新聚集到目的地,同時避免碰撞。相反,我們可以故意選擇將一個復雜的優化問題分解為一組耦合優化問題。在第5章中我們會看到,分解是一種可以顯著提高求解器速度和可靠性的策略。在這種情況下,優化問題通過利用可微優化來交換梯度信息。這些選擇背后的策略就是我們所說的組合優化。本文主要研究機器人控制與仿真中的幾個應用,即博弈論控制、接觸控制、物理仿真和碰撞檢測。針對這些問題,利用組合優化來利用問題結構并設計高效的求解器。在某些情況下,我們可以將多個問題組合為一個優化問題,而在其他情況下,我們可以將問題分解為更簡單的塊。這種方法使我們能夠以結構化和高效的方式解決更復雜的優化問題。

付費5元查看完整內容

**計算機視覺系統正日益被部署到現實世界的應用中,例如自動駕駛汽車上的識別模型、演示軟件中的字幕模型以及視覺搜索引擎背后的檢索模型。**在構建這些真實的計算機視覺系統時存在許多實際挑戰,其中許多與數據的不完美有關。具體來說,現實世界的數據可能會因分散注意力的虛假相關性而產生偏差,不同類別存在不平衡的長尾數據,具有大量缺陷的噪聲數據,等等。本文研究了如何在不同的視覺任務中解決三種常見的數據缺陷。首先,研究了圖像分類中的偏置問題。本文提出一個新的基準,通過數據增強具有可控偏差。對現有的偏差消除方法進行了徹底的比較,并提出了一種簡單的方法,優于其他更復雜的對比方法。其次,研究了圖像描述中的長尾問題。展示了現有的字幕模型如何更喜歡常見的概念,并由于長尾而生成過度通用的字幕。為解決該問題,在評估方面,提出了一種新的指標來同時捕捉唯一性和準確性。在建模方面,引入了一種推理時間重排序技術,以生成多樣化和信息量大的標題。最后,對視頻檢索中的噪聲問題進行了研究。展示了噪聲注釋如何在模型訓練和評估中引入挑戰。然后,我們提出一種簡單而有效的多查詢方法來解決這個問題。通過大量的實驗表明,多查詢訓練可以帶來優越的性能,而多查詢評估可以更好地反映檢索模型的真實能力。

付費5元查看完整內容

//dataspace.princeton.edu/handle/88435/dsp01v979v6238 強化學習在過去幾年里獲得了極大的興趣,主要是由于實際成功和在各個領域的新應用。然而,我們對這些強化學習技術的理論理解與其經驗上的成功之間仍然存在差距。本文從主要的理論角度研究強化學習,并為1)帶約束的強化學習和2)帶函數逼近的強化學習這兩個具有挑戰性的情況設計了可證明有效的算法,從而加深了我們的理解。 1)在標準強化學習中,學習智能體尋求優化整體獎勵。然而,期望行為的許多關鍵方面更自然地表示為約束。提出了一種算法方案,可以處理具有一般凸約束的強化學習任務,改進了之前局限于線性約束或缺乏理論保證的工作。其次,專注于樣本高效的探索,開發了第一個可證明有效的表格式偶發約束強化學習算法,具有處理凸約束和背包設置的能力。最后,在無獎勵強化學習最新進展的激勵下,本文提出了一種簡單的元算法,在給定任何無獎勵強化學習oracle的情況下,約束強化學習問題可以直接解決,而樣本復雜度的開銷可以忽略不計。 2)尋找能夠支持樣本高效學習的最小結構假設是強化學習最重要的研究方向之一。本文通過引入一種新的復雜性度量——bellman Eluder (BE)維度,推進了對這一基本問題的理解。低BE維的強化學習問題家族非常豐富,包含了絕大多數現有的可處理的強化學習問題。本文進一步設計了一個新的基于優化的算法——GOLF,并針對幾個著名的低BE維問題子類提供了匹配或改進現有最佳結果的遺憾和樣本復雜度結果。為了實現更具挑戰性的部分可觀察強化學習,研究了部分可觀察馬爾可夫決策過程(POMDPs)的一個新的子類,其潛狀態可以用短長度m的最近歷史來解碼。結果表明,短期記憶對這些環境中的強化學習足夠了。

付費5元查看完整內容

深度神經網絡與強化學習(RL)的結合在解決其他棘手的學習任務方面顯示出巨大的前景。**然而,深度強化學習的實際演示仍然很少。將深度強化學習用于給定任務的挑戰可以分為兩類,大致上是“從經驗中學習什么?”和“從什么經驗中學習?”在本文中,我描述了解決第二類問題的工作。**具體來說,采樣包含與學習任務相關信息的動作、狀態和軌跡的問題。我從算法設計和任務復雜性的三個層次來研究這個挑戰,從算法組件到打破常見RL慣例的混合組合算法。在第一章中,我描述了穩定高效的動作采樣工作,以優化連續值動作的Q函數。通過將基于樣本的優化器與神經網絡近似相結合,可以獲得訓練、計算效率和精確推理的穩定性。在第二章中,我描述了在獎勵感知探索方面的工作,即發現常見采樣方法不足的理想行為。教師"探索"智能體發現狀態和軌跡,使學生"利用"智能體從這些經驗中學習到的數量最大化,并能使學生智能體解決其他不可能的困難任務。在第三章中,我描述了將強化學習與啟發式搜索相結合的工作,用于遷移模型已知的任務領域,但狀態空間的組合數學對于傳統搜索來說是難以解決的。通過將深度Q學習與最佳優先樹搜索算法相結合,可以用比普通搜索算法或僅使用強化學習更少的樣本來找到程序合成問題的解決方案。最后,總結了這項工作的主要收獲,并討論了強化學習中高效采樣的擴展和未來方向。

//dataspace.princeton.edu/handle/88435/dsp01x346d733f

付費5元查看完整內容

一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。

深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。

我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。

付費5元查看完整內容

摘要

強化學習的一個主要挑戰是有效地探索一個環境,以便通過試驗和錯誤學習最佳策略。為了實現這一目標,智能體必須能夠有效地從過去的經驗中學習,使其能夠準確地了解某些行動對其他行動的好處。除此之外,一個明顯但核心的問題是,不知道的東西必須被探索,而以安全的方式探索的必要性又給問題增加了一層難度。這些都是我們在這篇博士論文中討論的主要問題。通過解構行為者批判框架,并利用方差概念對基礎優化問題進行替代性表述,我們探討了深度強化學習算法如何更有效地解決連續控制問題、困難探索環境和風險敏感任務。論文的第一部分集中在行為者批評框架的批評者部分,也被稱為價值函數,以及如何通過對價值函數估計中的方差的獨特使用,更有效地學習控制連續控制領域中的智能體。論文的第二部分是關于行為者-批評者框架的行為者部分,也被稱為策略。我們建議通過引入對手,為智能體解決的優化問題引入第三個元素。對手的性質與RL智能體相同,但經過訓練,可以提出模仿行為人的行動或抵消我們問題的約束。它由一些平均的策略分布來表示,行為者必須通過最大化與它的分歧來區分他的行為,最終鼓勵行為者在有效探索是一個瓶頸的任務中更徹底地探索,或者更安全地行動。

1 引言

“在對同一情境做出的幾種反應中,那些伴隨著或緊隨其后的滿足感,與該情境的聯系更為牢固,因此,當它再次出現時,它們將更有可能再次出現。”出自《效果法則》,愛德華-桑代克(1911年)。

在本章中,我們將介紹強化學習問題背后的動機。我們將觸及深度學習在過去幾年的崛起,以及它能給我們的工作帶來的改進的特點。然后,我們將考慮我們希望我們的計算機能夠學習什么,考慮本論文中主要關注的問題,然后討論將在以下章節中提出的貢獻,以及他們的結果和潛在的新問題。

1.1 強化學習

強化學習(RL)是機器學習(ML)的一門學科,它涉及到在不同情況下學習做出一連串的決定來最大化一些分數,后來被描述為獎勵。機器軟件可以采用這種技術來尋找最佳策略,以解決任何可以被表述為RL問題的問題。一些有直接用途的例子包括醫療保健問題(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),復雜場景的一般視覺問題回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理問題(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能計算系統中的任務調度問題(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盤游戲(Tesauro,1995;Silver,Huang,Maddison,等,2016),視頻游戲(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或機器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL問題考慮一個采取決策的智能體和智能體運行的環境。在每個時間段,智能體采取一個行動,并獲得一個獎勵和一個觀察。作為一個說明性的例子,圖1.1將智能體描述為一只狗,它必須完成一連串的行動,把飛盤還給它的主人,而主人扮演著環境的角色。狗觀察它主人的動作,并受到玩耍的滿足感和結束時得到獎勵的激勵。在這種情況下,RL算法使用一個試錯學習過程來最大化決策智能體在先前未知環境中的總獎勵。舉個例子,在機器人學中,觀察是攝像機圖像或關節角度,行動是關節扭力,獎勵包括導航到目標位置,成功到達目標位置并保持平衡。

圖1.1 - 智能體與環境的互動

1.2 深度學習表征

表征學習是學習從輸入數據中轉換或提取特征以解決一個任務的過程。機器學習主要關注的是從數據中的函數學習。深度學習關注的是將數據中的函數學習與表征學習相結合。深度學習與機器學習具有相同的實際目的,只是它得益于一個通常更具表現力的函數近似器(這一特征在之前的工作中已經用軌跡長度的概念進行了測量(Raghu, Poole, Kleinberg, et al., 2017)),即通過連續的梯度下降步驟訓練的深度神經網絡。深度神經網絡是一種輸入到目標的映射,由一連串簡單的數據轉換組成,稱為投影層(簡單的矩陣乘法)聚合在一起,并與非線性相結合。

這樣的深度學習模型通常涉及幾十或有時幾百個連續的表征層,這些表征層是通過接觸訓練數據學習的,其中計算階段的長因果鏈改變了神經網絡的總體激活。這種技術已經產生了一些顯著的經驗發現,特別是在語音識別(Dahl, Yu, Deng, et al., 2012)、圖像識別(Krizhevsky, Sutskever, and Hinton, 2012)和自然語言處理(Vaswani, Shazeer, Parmar, et al., 2017)。

1.3 深度強化學習

在參數較少、缺乏構成性的簡單ML模型可能會失敗的情況下,深度學習可以成為涉及高維數據(如自然語言或圖像和視頻)的復雜任務的合適技術。深度強化學習(deep RL)是使用神經網絡作為函數近似器的強化學習學科,適用于智能體的輸入和輸出(觀察和行動)涉及高維數據的順序決策問題。例如,Tesauro的TD-Gammon(Tesauro,1995)將RL算法與神經網絡結合起來,學習玩雙陸棋,這是一個有大約1020個狀態的隨機游戲,并發揮了人類頂級選手的水平。大約在同一時期,Rummery和Niranjan(1994)學習了一個帶有函數近似的半梯度Sarsa,為Gullapalli(1990)的工作以及Lin和Tham的博士論文(Lin, 1992a; Tham, 1994)增加了內容,這些論文探索了各種RL算法與神經網絡的結合。

在Tesauro的開創性工作二十年后,深度RL作為一種有前途的方法出現,用于經驗驅動的自主學習,因為它們有能力獲得復雜的策略和處理高維復雜的感官輸入(Jaderberg, Mnih, Czarnecki, et al., 2017)。這樣的算法可以完全從圖像像素中學習玩幾個雅達利2600視頻游戲,達到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是開發了一個蒙特卡洛樹搜索(MCTS)規劃系統,加上深度RL模塊(Silver, Huang, Maddison, et al., 2016),打敗了一個世界圍棋冠軍,或者也可以直接從現實世界的攝像機輸入中學習機器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。

在深度RL中,神經網絡被用來近似實現從狀態到選擇每個可能行動的概率的映射的函數(稱為策略),估計智能體處于給定狀態的好壞的函數(稱為價值函數),動力學模型或RL算法所需的其他函數。特別是,在異步優勢actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引導目標(Sutton, 1988)在廣泛的任務上使用梯度策略顯示了強大的結果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)學習貼現收益的分類分布,而不是估計平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)細致地結合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改進,在數據效率和最終性能方面為Atari 2600基準提供了改進。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同種類的策略梯度方法,重點是高性能、低樣品利用率和穩定性的改善。

1.4 選擇學習的內容

圖1.2 - 強化學習算法的分類法。

通常,在強化學習中,智能體的行動是基于正在學習的最新版本的策略。在更新過程中,來自與環境互動的數據被用來推導出基于樣本的目標函數,其中策略和值近似器通過梯度下降進行更新。在深度RL中,近似器是深度神經網絡。這些算法的成功取決于在互動階段發現的軌跡:如果數據包括具有高獎勵的軌跡,那么這些軌跡就會被更新所加強,在新更新的策略下變得更有可能。因此,與環境的互動和近似器的更新是密切相關且高度依賴的。因此,在設計新的深度RL算法時,一個核心問題是什么應該被近似,以及如何被近似。圖1.2顯示了RL算法的高級分類法。在頂層,我們有動態規劃(DP)算法,可以用來計算給定環境的完美模型的最優策略。事實上,DP算法(例如策略迭代和價值迭代)是典型的基于模型的算法:這些算法都使用模型對下一個狀態和獎勵的預測或分布,以計算出最佳行動。具體來說,在動態規劃中,模型必須提供狀態轉換概率和任何狀態-行動對的預期獎勵。請注意,與大多數其他基于模型的RL算法相反,該模型很少是一個學習模型。

相反,無模型RL算法并不估計底層系統的動態,而是旨在直接優化一個策略。基于策略的方法明確地建立和學習一個策略,將狀態映射到選擇可能行動的概率上,并在學習期間將策略的近似值存儲在內存中,以供以后使用。基于價值的方法不存儲明確的策略,而是學習一個價值函數。策略是隱性的,通過選擇具有最佳價值的行動從價值函數中得出。至于行為批判方法,它們是一個框架的一部分,結合了基于價值和惡略的方法的元素。

選擇使用哪種方法主要取決于問題的規格(如系統動力學的復雜性)、要解決的背景(如策略的最優性)和實驗規格(如時間或資源預算)。例如,基于模型的RL方法通常會加快學習速度,其代價是缺乏對動態復雜問題的可擴展性。他們通常學習一個系統動力學模型,即控制器,并將其用于規劃。這樣的方法可以在低維連續控制問題中以高樣本效率學習成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。這種方法的另一個應用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通過使用蒙特卡洛樹搜索(MCTS)規劃模塊,有效地解決了計算機圍棋的問題,以利用游戲動態的知識。

在這篇論文中,我們將研究重點放在無模型方法的數據效率上,這些方法在行為批評框架中使用基于梯度的方法直接學習隨機策略函數。隨機策略的一個優點是,當在參數空間中移動時,它們允許策略的微小變化,而在確定性策略的情況下,類似的轉變有可能會極大地改變策略。因此,參數和策略之間的耦合似乎在一般情況下更容易控制,特別是對于離散的行動空間。隨機策略的另一個優點是其固有的探索性質,即通過對高斯噪聲進行抽樣來增加確定性的基本策略。最后,本論文主要關注的問題(連續控制任務、程序生成的任務和具有安全約束的連續控制任務)的復雜動態特征也鼓勵我們采用無模型設置,不需要對環境、規格或領域知識進行假設。

1.5 概要和貢獻

圖1.3 - 本論文圍繞行為者-批評者的構成部分展開的大綱。

在深入研究本論文之前,我們必須問自己,我們想解決什么問題,還有什么問題需要回答。促使本論文工作的一些困難來源可以描述如下。

  • 對(深度)RL方法的優化和評估通常只基于對未來獎勵之和的智能體。來自監督或統計學習的替代統計數據可以作為額外的性能指標加以利用。

  • 在一些連續控制問題或具有稀疏獎勵的任務中,策略梯度估計可能具有低振幅和不穩定,可能導致采樣效率低下。一個RL智能體可能從一些過渡中比其他過渡更有效地學習,因此過濾過渡似乎是一個自然的想法,可以考慮。

  • 降低方差的方法,如基線減法,在激勵這些算法的概念框架和實踐中實施的估計行為者-批評者框架中的批評者部分之間表現出差異。需要更有效和穩健的目標函數來估計由批評者代表的價值函數。

  • 有獎勵的狀態往往要被訪問很多次,特別是在獎勵稀少的任務中使用策略性方法,智能體才能學到任何有意義的東西。價值函數的估計必須對這些極端值敏感,并盡可能有效地捕捉與獎勵相對應的(有時是罕見的)信號。

  • 在隨機策略誘導的探索中,如果這些狀態遠離出發點,那么在稀疏獎勵任務中訪問有獎勵的狀態的可能性將是無限小的。某種形式的記憶需要通過使用例如以前策略的移動平均值來保持,從而避免重復那些沒有導致相關學習的相同軌跡。

  • 在同一想法的基礎上,一個有趣的問題是,是否可以通過學習,而不是以前的策略的混合物,來構建一個類似的先驗,如何打破安全約束,代表智能體應該避免的概率不安全區域。

所有這些情況都屬于同一范疇:在本論文中,我們試圖通過以下方式開發出比以前的方法更穩定、更節省樣本的策略梯度方法:(1)利用自我表現統計給出的信息,使用更適應策略梯度方法的其他學習函數估計方法;(2)在演員-批評家二人組中引入第三個主角,作為策略必須遠離的排斥性平均分布。本論文的關鍵是行為批評者框架,如圖1.3所示。我們通過方差的棱鏡來處理它的兩面,首先是批評者,然后是行為者:用解釋的方差和殘差計算的價值函數估計的方差,以及從對抗性先驗中得到的策略候選者的方差,維持策略的平均混合。

這篇論文總結了以前發表的四篇論文的研究貢獻。本論文的組織結構是按照論文發表的順序進行的,并對一些內容進行了重新組織。為了使論文有一個更連貫的結構并提高其可讀性,我們將其分為兩部分。第一部分從一般角度介紹了強化學習的問題。我們發展了本論文所采用的關于RL問題的一些困難的觀點,并詳細介紹了我們選擇作為本論文的一部分來解決的問題以及研究這些問題的動機。

第二部分專門討論在連續控制問題中更有效地學習控制智能體。在第三章中,我們介紹了學習連續控制策略的問題,并提出了在高維連續狀態和行動空間中學習深度神經網絡表示的推理方案。在第四章中,我們提出了在學習解決一個任務時使用更多的統計對象作為輔助損失。特別是,我們將價值函數估計的解釋方差確定為一個具有有趣特性的工具,并提出了一個具有編碼器共享的普遍適用的框架,以加快策略梯度智能體的學習。第五章提出了一個簡單而有效的想法,即RL智能體將從一些經驗數據中比其他數據更有效地學習。我們采用第四章中介紹的自我性能評估的統計數據,開發了一種對策略梯度算法的修改,在估計策略梯度時,樣本被過濾掉了。在第六章中,由于最近的研究表明傳統的行為批評算法不能成功地擬合價值函數,并呼吁需要為批評者確定一個更好的目標,我們引入了一種方法來改善行為批評框架中批評者的學習。

第三部分涉及圖1.3中的另一面:在行為者策略的背景下,通過在行為者-批評框架中引入第三個主角來表述差異性。這個新的主角作為一個對抗性的先驗,保持一個平均的策略混合物,策略分布應該被排斥在外。在第七章介紹了在具有更多現實世界特征的環境中學習的問題,如安全約束或有效探索是一個瓶頸的情況下,在第八章和第九章中,我們開發了一種在維持對抗性先驗中策略候選人的變異形式,作為以前策略的混合物(第八章)和作為尋求風險的策略的混合物(第九章)。

最后,我們在第四部分給出了論文的尾聲,討論了進展和未來的前景。

著作清單

在有論文集的國際會議上的出版物

  • Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, and Philippe Preux (2021)《利用殘差在深度策略梯度中學習價值函數》國際學習表征會議

  • Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, and Matthieu Geist (2021)《逆向引導的行為者-批評》國際學習表征會議

  • Yannis Flet-Berliac和Philippe Preux(2020年7月)《只有相關信息才重要:濾除噪聲樣本以促進RL》第29屆國際人工智能聯合會議論文集,IJCAI-20。Christian Bessiere編輯。主賽道。國際人工智能聯合會議組織,第2711-2717頁。

國際會議上的研討會發言或預印本

  • Yannis Flet-Berliac 和 Philippe Preux (2019b). MERL: Multi-Head Reinforcement Learning第33屆神經信息處理系統進展會議的深度強化學習研討會

  • Yannis Flet-Berliac and Debabrota Basu (2021)《SAAC:安全強化學習作為演員-批評家的對抗性游戲》預印本

在國際數字雜志上發表的文章

  • Yannis Flet-Berliac (2019). The Promise of Hierarchical Reinforcement Learning. The Gradient - Stanford AI Lab

軟件

  • Omar Darwiche Domingues, Yannis Flet-Berliac, Edouard Leurent, Pierre Ménard, Xuedong Shang, and Michal Valko (2021). rlberry - A Reinforcement Learning Library for Research and Education. //github.com/rlberry-py/rlberry

本論文中沒有介紹的合作項目

  • Jacques Demongeot, Yannis Flet-Berliac, and Hervé Seligmann (2020)《溫度降低傳播參數的新Covid-19案例動態》生物學9.5,第94頁

  • Yannis Flet-Berliac and Philippe Preux (2019a)《使用通用輔助任務的高維控制》Tech. rep. hal-02295705

  • Thomas Depas and Yannis Flet-Berliac (2019)《平行四邊形的公主》展覽全景21-勒弗斯諾伊國家當代藝術工作室

付費5元查看完整內容

【摘 要】

機器學習是一種很有前途的處理復雜信息的工具,但它仍然是一個不可靠不可信的控制和決策工具。將為靜態數據集開發的技術應用到現實世界的問題中,需要克服反饋和系統隨時間變化的影響。在這些設置中,經典的統計和算法保證并不總是有效。在部署機器學習系統之前,我們如何預測機器學習系統的動態行為?為了確保可靠可信的行為,本論文采取步驟來發展對反饋設置中出現的權衡和限制的理解。

在第一部分,我們關注機器學習在自動反饋控制中的應用。受物理自治系統的啟發,我們試圖為數據驅動的最優控制器設計建立理論基礎。我們關注的是由線性動力學控制的系統,其未知組件必須從數據中表征出來。研究了經典最優控制問題線性二次調節器(LQR)設定中的未知動力學問題,證明了最小二乘估計和魯棒控制設計過程保證了安全性和有界次最優性。在機器人技術中使用攝像機的啟發下,我們還研究了控制器必須根據復雜的觀察來行動的設置,其中狀態的子集由未知的非線性和潛在的高維傳感器進行編碼。我們提出使用一種感知映射作為近似逆,并表明只要a)控制器是魯棒設計來解釋感知誤差或b)感知映射是從足夠密集的數據中學習到的,由此產生的感知控制環具有良好的特性。

在第二部分,我們將注意力轉移到算法決策系統,其中機器學習模型用于與人反饋。由于測量的困難、有限的可預測性以及將人類價值轉化為數學目標的不確定性,我們避開了最優控制的框架。相反,我們的目標是在一步反饋模型下闡明簡單決策規則的影響。我們首先考慮相應的決策,這是受信用評分中放貸的例子啟發。在一個簡單的影響模型下,我們表明,幾個群體公平約束,提出減輕不平等,可能損害群體,他們的目標是保護。事實上,公平標準可以被視為一個更廣泛框架的特殊案例,用于設計在私人和公共目標之間權衡的決策政策,其中影響和福祉的概念可以直接編碼。最后,我們轉向推薦系統的設置,該系統根據個性化的相關性預測從廣泛的選擇中進行選擇。我們開發了一個基于可達性的新視角,量化了代理和訪問。雖然經驗審計表明,為準確性而優化的模型可能會限制可達性,但理論結果表明,這不是由于固有的權衡,這表明了一條前進的道路。從廣義上講,這項工作試圖重新想象機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則前進。

1 引 言

許多現代數字系統——從汽車到社交媒體平臺——都具有前所未有的測量、存儲和處理數據的能力。機器學習的并行進展推動了從這些數據中受益的潛力,其中巨大的數據集和強大的計算能力推動了圖像識別和機器翻譯等復雜任務的進步。然而,許多應用程序超出了處理復雜信息的范圍,而是基于它采取行動——從分類和轉變為做出決策和采取行動。將針對靜態數據集開發的技術應用于現實世界的問題需要處理隨時間變化的反饋和系統的影響。在這些設置中,經典的統計和算法保證并不總是成立。即使是嚴格評估性能也可能很困難。在部署機器學習系統之前,我們如何預測它們的行為?我們可以設計它們以確保良好的結果嗎?基本的限制和權衡是什么?

在本論文中,我們為各種動態設置開發了原則性技術,以實現可信機器學習的愿景。這項工作借鑒了控制理論中的工具和概念,控制理論在制定動態系統行為的保證方面有著悠久的歷史,優化提供了一種語言來表達目標和權衡,當然還有機器學習,它使用數據來理解和作用于世界。機器學習模型旨在做出準確的預測,無論是關于自動駕駛汽車的軌跡、償還貸款的可能性,還是對新聞文章的參與程度。傳統上,在靜態監督學習的框架中,這些模型一旦被用于采取影響環境的行動,就會成為動態系統的一部分(圖 1)。無論上下文是駕駛自動駕駛汽車、批準貸款還是推薦內容,將學習到的模型整合到策略中都會產生反饋循環。

圖1 盡管機器學習模型通常在大腦中以一個靜態的監督學習框架進行訓練(左),但當部署時,它們成為反饋循環的一部分(右)。

在動態環境中使用靜態模型存在一些問題。無論是由于分布偏移、部分可觀察性還是錯誤累積,它們的預測能力都可能在反饋設置中失敗。監督學習通常旨在保證良好的平均情況性能,但平均工作良好的車道檢測器仍可能對特定圖像進行錯誤分類并導致崩潰。此外,用于進行準確預測的統計相關性實際上可能包含我們希望避免傳播的偏差或其他有害模式。在貸款決定中考慮申請人的郵政編碼可能在統計上是最優的,但會導致紅線的做法。推薦內容令人反感的視頻可能會增加參與度,但會損害觀看者的心理健康。應對這些挑戰需要仔細考慮如何使用機器學習模型,并設計確保理想結果和對錯誤具有魯棒性的策略。

在接下來的章節中,大致分為兩部分:數據驅動的最優控制和社交數字系統中的反饋。在第一部分中,我們展示了如何結合機器學習和魯棒控制來設計具有非漸近性能和安全保證的數據驅動策略。第 2 章回顧了一個框架,該框架能夠對具有不確定動態和測量誤差的系統進行策略分析和綜合。在第 3 章中,我們考慮了具有未知動力學的線性系統的設置,并研究了具有安全約束的經典最優控制問題的樣本復雜度。在第 4 章中,我們轉而關注復雜傳感模式帶來的挑戰,并為基于感知的控制提供保證。在第二部分中,從物理系統的動力學轉向對社會系統的影響,我們考慮學習與人互動的算法。在第 5 章中,我們描述了后續決策中公平和幸福之間的關系。我們將在第 6 章重點介紹內容推薦的設置,并開發一種在交互系統中表征用戶代理的方法。在本章的其余部分中,我們將介紹和激發后續章節的設置。

1.1 數據驅動的最優控制

在視頻游戲和圍棋中超越了人類的表現后,人們對將機器學習技術應用于規劃和控制重新產生了興趣。特別是,在開發自主系統與物理環境交互的連續控制新技術方面已經付出了相當大的努力。盡管在操縱等領域取得了一些令人印象深刻的成果,但近年來,由于自動車輛控制系統的故障。處理學習模型產生的錯誤不同于傳統的過程和測量噪聲概念。我們如何確保我們新的數據驅動自動化系統安全可信?

在本文的第一部分,我們試圖通過分析簡單的最優控制問題,為機器學習如何與控制接口建立理論理解的基礎。我們開發了基線來描述給定從具有未知組件的系統收集的固定數量的數據可實現的可能控制性能。標準最優控制問題旨在找到使給定成本最小化的控制序列。我們假設一個狀態為的動力系統可以被一個控制作用并服從動力學:

其中是過程噪聲。允許控制動作取決于系統狀態的觀測值,這可能是部分的和不完善的:,其中是測量噪聲。然后最優控制力求最小化:

這里,表示依賴于軌跡的成本函數,輸入允許依賴于所有先前的測量和動作。一般來說,問題(1.1.2)包含了強化學習文獻中考慮的許多問題。這也是一個一般難以解決的問題,但對于受限設置,控制理論中的經典方法在動力學和測量模型已知的情況下提供易于處理的解決方案。

當它的組成部分未知并且必須從數據中估計時,我們會研究這個問題。即使在線性動力學的情況下,推理機器學習錯誤對不確定系統演化的影響也是具有挑戰性的。第 2 章介紹了對我們的研究至關重要的線性系統和控制器的背景。它概述了系統級綜合,這是一個最近開發的優化控制框架,使我們能夠以透明和易于分析的方式處理不確定性。

在第 3 章中,我們研究了當系統動力學未知且狀態可以準確觀察時,機器學習如何與控制交互。我們分析了經典最優控制中研究最充分的問題之一,即線性二次調節器 (LQR)。在這種情況下,要控制的系統服從線性動力學,我們希望最小化系統狀態和控制動作的一些二次函數。我們通過考慮狀態和輸入都滿足線性約束的附加要求來進一步研究與安全性的權衡。這個問題已經被研究了幾十年并得到控制。無約束版本在無限時間范圍內具有簡單的封閉形式解決方案,在有限時間范圍內具有高效的動態規劃解決方案。約束版本在模型預測控制 (MPC) 社區中受到了廣泛關注。通過將線性回歸與穩健控制相結合,我們限制了保證安全性和性能所需的樣本數量。

在第 4 章中,我們轉向一個受以下事實啟發的設置:結合豐富的感知傳感模式(例如相機)仍然是控制復雜自主系統的主要挑戰。我們專注于實際場景,其中系統的基本動力學得到了很好的理解,并且與復雜傳感器的交互是限制因素。具體來說,我們考慮控制一個已知的線性動態系統,其部分狀態信息只能從非線性和潛在的高維觀測中提取。我們的方法是通過學習感知圖來設計虛擬傳感器,即從復雜觀察到狀態子集的地圖。表明感知圖中的錯誤不會累積并導致不穩定需要比機器學習中的典型情況更強的泛化保證。我們表明,魯棒控制或足夠密集的數據可以保證這種基于視覺的控制系統的閉環穩定性和性能。

1.2 社交數字系統中的反饋

從信用評分到視頻推薦,許多與人交互的機器學習系統都有時間反饋組件,隨著時間的推移重塑人口。例如,借貸行為可以改變人口中債務和財富的分布。招聘廣告分配機會。視頻推薦塑造興趣。在這些情況下使用的機器學習算法大多經過訓練以優化單個性能指標。此類算法做出的決定可能會產生意想不到的負面影響:利潤最大化貸款可能會對借款人產生不利影響,而假新聞可能會破壞民主制度。

然而,很難圍繞種群和算法之間的動態交互進行明確的建模或規劃。與物理系統不同,存在測量困難、可預測性有限以及將人類價值轉化為數學目標的不確定性。動作通常是離散的:接受或拒絕,選擇要推薦的特定內容。我們的目標是開發一個框架來闡明簡單決策規則的影響,而不是試圖設計一種策略來優化受不正確動態模型影響的可疑目標。因此,我們研究了在不使用最佳控制的完整框架的情況下量化和納入影響因素的方法。這項工作試圖重新構想機器學習中普遍存在的預測模型的目標,朝著優先考慮人類價值的新設計原則邁進。

第 5 章側重于相應的決策。從醫療診斷和刑事司法到金融貸款和人道主義援助,后續決策越來越依賴數據驅動的算法。現有的關于自動決策公平性的學術批評無限制的機器學習有可能傷害人口中歷史上代表性不足或弱勢群體。因此,已經提出了各種公平標準作為對標準學習目標的約束。盡管這些限制顯然旨在通過訴諸直覺來保護弱勢群體,但通常缺乏對此效果的嚴格論證。在第 5 章中,我們通過描述群體公平標準的延遲影響來將其置于語境中。通過以幸福的時間衡量來構建問題,我們看到僅靠靜態標準無法確保獲得有利的結果。然后我們考慮一個替代框架:直接對制度(例如利潤)和個人(例如福利)目標進行雙重優化。通過以特定的群體相關方式定義福利,可以通過雙重物鏡等效地看待被約束為遵守公平標準的決策。這種源自約束優化和正則優化之間的等價性的見解表明,公平約束可以被視為平衡多個目標的特例。

第 6 章側重于推薦系統,它提供了一系列不同的挑戰。通過推薦系統,個性化偏好模型可以調解對互聯網上多種類型信息的訪問。針對將被消費、享受和高度評價的表面內容,這些模型主要用于準確預測個人的偏好。提高模型準確性的重點有利于使人類行為變得盡可能可預測的系統——這些影響與極化或激進化等意外后果有關。在第 6 章中,我們試圖通過考慮用戶控制和訪問的概念來形式化一些風險價值。我們研究可達性作為在交互式系統中描述用戶代理的一種方式。我們開發了一種計算上易于處理的指標,可用于在部署之前審核推薦系統的動態屬性。我們的實驗結果表明,準確的預測模型在用于對信息進行分類時,可能會無意中使部分內容庫無法訪問。我們的理論結果表明,沒有內在的權衡,這表明可以設計出在保持準確性的同時提供代理的學習算法。

最終,將數據驅動的自動化集成到重要領域需要我們了解和保證安全、公平、代理和福利等屬性。這是動態和不確定系統中的挑戰。第一部分中介紹的工作朝著建立理論基礎邁出了一步,以保證數據驅動的最優控制的安全性。將重要屬性正式定義為易于處理的技術規范存在進一步的挑戰。對于代理和福祉等定性和上下文概念尤其如此。第二部分介紹的工作朝著評估提出的技術形式和闡明新的形式邁出了一步。為了在反饋系統中實現可信的機器學習,必須沿著這兩個方向取得進展。

付費5元查看完整內容

論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

導師:Pieter Abbeel and Sergey Levine

網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要:

在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容

機器人和自主系統在現代經濟中扮演著重要的角色。定制機器人顯著提高了生產率、操作安全性和產品質量。然而,人們通常通過編程操作這些機器人來完成較小的領域的特定任務,而無法快速適應新任務和新情況。廉價、輕便和靈活的機器人硬件的出現為將機器人的自主能力提升到前所未有的水平提供了機會。新的機器人硬件在日常環境中的一個主要挑戰是處理現實世界的持續變化性和不確定性。為了應對這一挑戰,我們必須解決感知和行動之間的協同作用:一方面,機器人的感知自適應地指導其行動,另一方面,它的行動產生了新的感知信息,用于決策。我認為,實現通用機器人自治的關鍵一步是將感知和動作緊密地結合起來。

新興的人工智能計算工具已經證明了成功的希望,并構成了在非結構化環境中增強機器人感知和控制的理想候選。機器人的實體本質迫使我們超越現有的從無實體數據集學習的范式,并激勵我們開發考慮物理硬件和動態復雜系統的新算法。

本論文的研究工作是建立可通用的機器人感知和控制的方法和機制。我們的工作表明,感知和行動的緊密耦合,有助于機器人通過感官與非結構化的世界進行交互,靈活地執行各種任務,并適應地學習新任務。我們的研究結果表明,從低級的運動技能到高級的任務理解三個抽象層次上解剖感知-動作循環,可以有效地促進機器人行為的魯棒性和泛化。我們規劃的研究工作是處理日益復雜的任務,展現出我們朝著圣杯目標的路線圖:在現實世界中構建長期的、通用的機器人自治。

付費5元查看完整內容
北京阿比特科技有限公司