亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自主系統在人類能力的基礎上進行擴展,可以在耐用性、力量和感知力等方面配備超人的屬性,并可以提供許多好處,如卓越的效率、準確性和耐力,以及探索危險環境的能力。開發這種潛力需要一個能熟練操作自主系統的控制系統來完成其目標。一個靜態的控制系統必須被精心設計以處理可能出現的任何情況。這促使在控制系統中引入學習,因為學習系統可以從其經驗中學習,以管理其操作環境中的新的意外事件和變化。

傳統的控制技術通常是在離線情況下設計的,假定對要控制的系統動態有確切的了解。這些基于知識的方法有一個重要的好處,即控制算法的穩定性特性可以被分析和認證,這樣人們就可以對控制系統安全運行能力有信心。然而,應用于非線性系統的線性控制技術(所有的實際系統在某種程度上都是如此)會導致越來越保守,因此被控系統的非線性程度越高,控制性能就越低。非線性控制技術通常具有相當大的在線計算復雜性,這使得它們對于具有快速動態的系統以及計算能力和能源有限的嵌入式控制應用來說是不可行的。

強化學習是一個開發自我優化控制器的框架,它通過試錯和根據觀察到的行動結果調整其行為來學習并改善其運行。一般來說,強化學習不需要關于被控系統動態的知識,可以學習操作任意的非線性系統,其在線操作可以被設計成高度計算效率。因此,它是一個有價值的工具,適用于動態快速、非線性或不確定且難以建模的控制系統。另一方面,強化學習控制的一個核心挑戰是它的行為是復雜和難以分析的,而且它沒有對操作約束條件規范的內在支持。

彌補強化學習控制的這些挑戰的方法是將其學習能力與現有的可信控制技術相結合。在本論文的第一部分,采用強化學習來優化模型預測控制(MPC)方案,這是一種強大而復雜的控制技術。提出了優化其元參數的新想法,即影響MPC解決的控制問題結構的參數,而不是影響給定問題解決方案的內部參數。特別是,優化了何時計算MPC和何種預測范圍的元參數,并表明通過智能地選擇計算條件,控制性能和計算復雜性可以同時得到改善。隨后提出了一個框架,在這個框架中,這些元參數以及MPC的任何其他內部參數都可以與一個可配置的目標共同優化。最后,論文的第一部分還考慮了如何利用現有的控制器來加速控制器的學習過程。

無人駕駛飛行器(UAVs)的控制正是這樣一種計算和能源資源有限的嵌入式應用,此外,其動力學是高度非線性的,并受到湍流等重大干擾的影響。在本論文的第二部分,我們提出了采用深度強化學習(DRL)對固定翼無人機進行低水平控制的新想法,與流行的多旋翼無人機設計相比,這種無人機的航程和有效載荷能力更強。我們提出了一種能夠學習適合飛行的DRL控制器的方法,只需與被控系統進行3分鐘的互動,并通過實際無人機的現場實驗證明,DRL控制器與現有最先進的自動駕駛儀相比具有競爭力,在受控狀態和控制信號中產生平滑的響應。

付費5元查看完整內容

相關內容

挪威科技大學( : Norges teknisk-naturvitenskapelige universitet,簡稱: NTNU; :Norwegian University of Science and Technology),是座落在 的一所公立大學。學生人數大約22,000人,為挪威八所大學之中第二大,是挪威全國最頂尖的工程學與工業技術的研究中心。

優化是機器人的一個基本組成部分,在控制和仿真等領域的各個方面都有涉及。這兩個領域都涉及尋找各種優化問題的最佳解決方案,以獲得預期的結果。在解決這些優化問題時,效率是關鍵。通過快速可靠地找到解決方案,我們可以在硬件上實時執行基于優化的控制器。快速生成大量仿真數據的能力對于離線優化任務也很有價值,如策略優化、協同設計優化和系統識別。機器人控制與仿真中出現的優化問題往往具有結構性。有些問題可以直接歸入已經研究過的類別,例如線性二次調節器(LQR),其他控制問題可以歸為線性規劃(LP)或二次規劃(QP)。對于這些類別中的每一個,都存在高效和可靠的求解器。將你的問題歸入其中一類通常是一種安全的策略。

然而,存在涉及復雜優化問題的控制和仿真任務,目前還沒有令人滿意的求解器。本文主要研究這些問題。我們特別感興趣的是耦合優化問題,其中一個優化問題的解是另一個優化問題的參數。這些耦合優化問題在機器人仿真中自然會出現。例如,接觸物理的模擬需要解決最小作用原理和最大耗散原理。第6章和第7章將介紹如何聯合求解這兩個優化問題。耦合優化問題也經常出現在智能體交互的自動駕駛場景中。事實上,場景中的每輛車或行人都在優化其路徑,以盡可能快地重新聚集到目的地,同時避免碰撞。相反,我們可以故意選擇將一個復雜的優化問題分解為一組耦合優化問題。在第5章中我們會看到,分解是一種可以顯著提高求解器速度和可靠性的策略。在這種情況下,優化問題通過利用可微優化來交換梯度信息。這些選擇背后的策略就是我們所說的組合優化。本文主要研究機器人控制與仿真中的幾個應用,即博弈論控制、接觸控制、物理仿真和碰撞檢測。針對這些問題,利用組合優化來利用問題結構并設計高效的求解器。在某些情況下,我們可以將多個問題組合為一個優化問題,而在其他情況下,我們可以將問題分解為更簡單的塊。這種方法使我們能夠以結構化和高效的方式解決更復雜的優化問題。

付費5元查看完整內容

黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。

**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。

本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。

付費5元查看完整內容

多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。

這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。

本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類

首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。

其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。

最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。

付費5元查看完整內容

太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。

付費5元查看完整內容

摘要

強化學習的一個主要挑戰是有效地探索一個環境,以便通過試驗和錯誤學習最佳策略。為了實現這一目標,智能體必須能夠有效地從過去的經驗中學習,使其能夠準確地了解某些行動對其他行動的好處。除此之外,一個明顯但核心的問題是,不知道的東西必須被探索,而以安全的方式探索的必要性又給問題增加了一層難度。這些都是我們在這篇博士論文中討論的主要問題。通過解構行為者批判框架,并利用方差概念對基礎優化問題進行替代性表述,我們探討了深度強化學習算法如何更有效地解決連續控制問題、困難探索環境和風險敏感任務。論文的第一部分集中在行為者批評框架的批評者部分,也被稱為價值函數,以及如何通過對價值函數估計中的方差的獨特使用,更有效地學習控制連續控制領域中的智能體。論文的第二部分是關于行為者-批評者框架的行為者部分,也被稱為策略。我們建議通過引入對手,為智能體解決的優化問題引入第三個元素。對手的性質與RL智能體相同,但經過訓練,可以提出模仿行為人的行動或抵消我們問題的約束。它由一些平均的策略分布來表示,行為者必須通過最大化與它的分歧來區分他的行為,最終鼓勵行為者在有效探索是一個瓶頸的任務中更徹底地探索,或者更安全地行動。

1 引言

“在對同一情境做出的幾種反應中,那些伴隨著或緊隨其后的滿足感,與該情境的聯系更為牢固,因此,當它再次出現時,它們將更有可能再次出現。”出自《效果法則》,愛德華-桑代克(1911年)。

在本章中,我們將介紹強化學習問題背后的動機。我們將觸及深度學習在過去幾年的崛起,以及它能給我們的工作帶來的改進的特點。然后,我們將考慮我們希望我們的計算機能夠學習什么,考慮本論文中主要關注的問題,然后討論將在以下章節中提出的貢獻,以及他們的結果和潛在的新問題。

1.1 強化學習

強化學習(RL)是機器學習(ML)的一門學科,它涉及到在不同情況下學習做出一連串的決定來最大化一些分數,后來被描述為獎勵。機器軟件可以采用這種技術來尋找最佳策略,以解決任何可以被表述為RL問題的問題。一些有直接用途的例子包括醫療保健問題(Schaefer, Bailey, Shechter, et al., 2005; Yu, Liu, and Nemati, 2019),復雜場景的一般視覺問題回答(Antol, Agrawal, Lu, et al., 2015; de Vries, Strub, Chandar, et al, 2017),能源管理問題(Dimeas和Hatziargyriou,2007;Levent,Preux,Pennec,等,2019)和高性能計算系統中的任務調度問題(Mao,Alizadeh,Menache,等,2016;Grinsztajn,Beaumont,Jeannot,等,2020)。其他值得注意的成就包括棋盤游戲(Tesauro,1995;Silver,Huang,Maddison,等,2016),視頻游戲(Mnih,Kavukcuoglu,Silver,等,2013;Berner,Brockman,Chan,等,2019;Vinyals,Babuschkin, Czarnecki,等。2019年),或機器人控制(Kober, Bagnell, and Peters, 2013; Heess, Tirumala, Sriram, et al., 2017; Andrychowicz, Baker, Chociej, et al., 2020)。一般的RL問題考慮一個采取決策的智能體和智能體運行的環境。在每個時間段,智能體采取一個行動,并獲得一個獎勵和一個觀察。作為一個說明性的例子,圖1.1將智能體描述為一只狗,它必須完成一連串的行動,把飛盤還給它的主人,而主人扮演著環境的角色。狗觀察它主人的動作,并受到玩耍的滿足感和結束時得到獎勵的激勵。在這種情況下,RL算法使用一個試錯學習過程來最大化決策智能體在先前未知環境中的總獎勵。舉個例子,在機器人學中,觀察是攝像機圖像或關節角度,行動是關節扭力,獎勵包括導航到目標位置,成功到達目標位置并保持平衡。

圖1.1 - 智能體與環境的互動

1.2 深度學習表征

表征學習是學習從輸入數據中轉換或提取特征以解決一個任務的過程。機器學習主要關注的是從數據中的函數學習。深度學習關注的是將數據中的函數學習與表征學習相結合。深度學習與機器學習具有相同的實際目的,只是它得益于一個通常更具表現力的函數近似器(這一特征在之前的工作中已經用軌跡長度的概念進行了測量(Raghu, Poole, Kleinberg, et al., 2017)),即通過連續的梯度下降步驟訓練的深度神經網絡。深度神經網絡是一種輸入到目標的映射,由一連串簡單的數據轉換組成,稱為投影層(簡單的矩陣乘法)聚合在一起,并與非線性相結合。

這樣的深度學習模型通常涉及幾十或有時幾百個連續的表征層,這些表征層是通過接觸訓練數據學習的,其中計算階段的長因果鏈改變了神經網絡的總體激活。這種技術已經產生了一些顯著的經驗發現,特別是在語音識別(Dahl, Yu, Deng, et al., 2012)、圖像識別(Krizhevsky, Sutskever, and Hinton, 2012)和自然語言處理(Vaswani, Shazeer, Parmar, et al., 2017)。

1.3 深度強化學習

在參數較少、缺乏構成性的簡單ML模型可能會失敗的情況下,深度學習可以成為涉及高維數據(如自然語言或圖像和視頻)的復雜任務的合適技術。深度強化學習(deep RL)是使用神經網絡作為函數近似器的強化學習學科,適用于智能體的輸入和輸出(觀察和行動)涉及高維數據的順序決策問題。例如,Tesauro的TD-Gammon(Tesauro,1995)將RL算法與神經網絡結合起來,學習玩雙陸棋,這是一個有大約1020個狀態的隨機游戲,并發揮了人類頂級選手的水平。大約在同一時期,Rummery和Niranjan(1994)學習了一個帶有函數近似的半梯度Sarsa,為Gullapalli(1990)的工作以及Lin和Tham的博士論文(Lin, 1992a; Tham, 1994)增加了內容,這些論文探索了各種RL算法與神經網絡的結合。

在Tesauro的開創性工作二十年后,深度RL作為一種有前途的方法出現,用于經驗驅動的自主學習,因為它們有能力獲得復雜的策略和處理高維復雜的感官輸入(Jaderberg, Mnih, Czarnecki, et al., 2017)。這樣的算法可以完全從圖像像素中學習玩幾個雅達利2600視頻游戲,達到超人的水平(Mnih, Kavukcuoglu, Silver, et al., 2013)。其他一些成就是開發了一個蒙特卡洛樹搜索(MCTS)規劃系統,加上深度RL模塊(Silver, Huang, Maddison, et al., 2016),打敗了一個世界圍棋冠軍,或者也可以直接從現實世界的攝像機輸入中學習機器人的控制策略(Levine, Finn, Darrell, et al., 2016; Zhu, Mottaghi, Kolve, et al., 2017; Levine, Pastor, Krizhevsky, et al., 2018)。

在深度RL中,神經網絡被用來近似實現從狀態到選擇每個可能行動的概率的映射的函數(稱為策略),估計智能體處于給定狀態的好壞的函數(稱為價值函數),動力學模型或RL算法所需的其他函數。特別是,在異步優勢actor-critic(Mnih, Badia, Mirza, et al., 2016)中使用的多步引導目標(Sutton, 1988)在廣泛的任務上使用梯度策略顯示了強大的結果。分布式Qlearning(Bellemare, Dabney, and Munos, 2017)學習貼現收益的分類分布,而不是估計平均值。Rainbow(Hessel, Modayil, Hasselt, et al., 2018)細致地結合了DQN(Mnih, Kavukcuoglu, Silver, et al., 2013)算法的若干改進,在數據效率和最終性能方面為Atari 2600基準提供了改進。Schulman, Levine, Abbeel, et al. (2015), Schulman, Wolski, Dhariwal, et al. (2017), Lillicrap, Hunt, Pritzel, et al. (2016), Haarnoja, Zhou, Abbeel, et al. (2018) and Fujimoto, Hoof, and Meger (2018) 探索了不同種類的策略梯度方法,重點是高性能、低樣品利用率和穩定性的改善。

1.4 選擇學習的內容

圖1.2 - 強化學習算法的分類法。

通常,在強化學習中,智能體的行動是基于正在學習的最新版本的策略。在更新過程中,來自與環境互動的數據被用來推導出基于樣本的目標函數,其中策略和值近似器通過梯度下降進行更新。在深度RL中,近似器是深度神經網絡。這些算法的成功取決于在互動階段發現的軌跡:如果數據包括具有高獎勵的軌跡,那么這些軌跡就會被更新所加強,在新更新的策略下變得更有可能。因此,與環境的互動和近似器的更新是密切相關且高度依賴的。因此,在設計新的深度RL算法時,一個核心問題是什么應該被近似,以及如何被近似。圖1.2顯示了RL算法的高級分類法。在頂層,我們有動態規劃(DP)算法,可以用來計算給定環境的完美模型的最優策略。事實上,DP算法(例如策略迭代和價值迭代)是典型的基于模型的算法:這些算法都使用模型對下一個狀態和獎勵的預測或分布,以計算出最佳行動。具體來說,在動態規劃中,模型必須提供狀態轉換概率和任何狀態-行動對的預期獎勵。請注意,與大多數其他基于模型的RL算法相反,該模型很少是一個學習模型。

相反,無模型RL算法并不估計底層系統的動態,而是旨在直接優化一個策略。基于策略的方法明確地建立和學習一個策略,將狀態映射到選擇可能行動的概率上,并在學習期間將策略的近似值存儲在內存中,以供以后使用。基于價值的方法不存儲明確的策略,而是學習一個價值函數。策略是隱性的,通過選擇具有最佳價值的行動從價值函數中得出。至于行為批判方法,它們是一個框架的一部分,結合了基于價值和惡略的方法的元素。

選擇使用哪種方法主要取決于問題的規格(如系統動力學的復雜性)、要解決的背景(如策略的最優性)和實驗規格(如時間或資源預算)。例如,基于模型的RL方法通常會加快學習速度,其代價是缺乏對動態復雜問題的可擴展性。他們通常學習一個系統動力學模型,即控制器,并將其用于規劃。這樣的方法可以在低維連續控制問題中以高樣本效率學習成功的控制器(Deisenroth和Rasmussen,2011;Moldovan,Levine,Jordan等人,2015;Zhang,Vikram,Smith等人,2019)。這種方法的另一個應用是AlphaGo(Silver, Huang, Maddison, et al., 2016; Silver, Schrittwieser, Simonyan, et al., 2017),它通過使用蒙特卡洛樹搜索(MCTS)規劃模塊,有效地解決了計算機圍棋的問題,以利用游戲動態的知識。

在這篇論文中,我們將研究重點放在無模型方法的數據效率上,這些方法在行為批評框架中使用基于梯度的方法直接學習隨機策略函數。隨機策略的一個優點是,當在參數空間中移動時,它們允許策略的微小變化,而在確定性策略的情況下,類似的轉變有可能會極大地改變策略。因此,參數和策略之間的耦合似乎在一般情況下更容易控制,特別是對于離散的行動空間。隨機策略的另一個優點是其固有的探索性質,即通過對高斯噪聲進行抽樣來增加確定性的基本策略。最后,本論文主要關注的問題(連續控制任務、程序生成的任務和具有安全約束的連續控制任務)的復雜動態特征也鼓勵我們采用無模型設置,不需要對環境、規格或領域知識進行假設。

1.5 概要和貢獻

圖1.3 - 本論文圍繞行為者-批評者的構成部分展開的大綱。

在深入研究本論文之前,我們必須問自己,我們想解決什么問題,還有什么問題需要回答。促使本論文工作的一些困難來源可以描述如下。

  • 對(深度)RL方法的優化和評估通常只基于對未來獎勵之和的智能體。來自監督或統計學習的替代統計數據可以作為額外的性能指標加以利用。

  • 在一些連續控制問題或具有稀疏獎勵的任務中,策略梯度估計可能具有低振幅和不穩定,可能導致采樣效率低下。一個RL智能體可能從一些過渡中比其他過渡更有效地學習,因此過濾過渡似乎是一個自然的想法,可以考慮。

  • 降低方差的方法,如基線減法,在激勵這些算法的概念框架和實踐中實施的估計行為者-批評者框架中的批評者部分之間表現出差異。需要更有效和穩健的目標函數來估計由批評者代表的價值函數。

  • 有獎勵的狀態往往要被訪問很多次,特別是在獎勵稀少的任務中使用策略性方法,智能體才能學到任何有意義的東西。價值函數的估計必須對這些極端值敏感,并盡可能有效地捕捉與獎勵相對應的(有時是罕見的)信號。

  • 在隨機策略誘導的探索中,如果這些狀態遠離出發點,那么在稀疏獎勵任務中訪問有獎勵的狀態的可能性將是無限小的。某種形式的記憶需要通過使用例如以前策略的移動平均值來保持,從而避免重復那些沒有導致相關學習的相同軌跡。

  • 在同一想法的基礎上,一個有趣的問題是,是否可以通過學習,而不是以前的策略的混合物,來構建一個類似的先驗,如何打破安全約束,代表智能體應該避免的概率不安全區域。

所有這些情況都屬于同一范疇:在本論文中,我們試圖通過以下方式開發出比以前的方法更穩定、更節省樣本的策略梯度方法:(1)利用自我表現統計給出的信息,使用更適應策略梯度方法的其他學習函數估計方法;(2)在演員-批評家二人組中引入第三個主角,作為策略必須遠離的排斥性平均分布。本論文的關鍵是行為批評者框架,如圖1.3所示。我們通過方差的棱鏡來處理它的兩面,首先是批評者,然后是行為者:用解釋的方差和殘差計算的價值函數估計的方差,以及從對抗性先驗中得到的策略候選者的方差,維持策略的平均混合。

這篇論文總結了以前發表的四篇論文的研究貢獻。本論文的組織結構是按照論文發表的順序進行的,并對一些內容進行了重新組織。為了使論文有一個更連貫的結構并提高其可讀性,我們將其分為兩部分。第一部分從一般角度介紹了強化學習的問題。我們發展了本論文所采用的關于RL問題的一些困難的觀點,并詳細介紹了我們選擇作為本論文的一部分來解決的問題以及研究這些問題的動機。

第二部分專門討論在連續控制問題中更有效地學習控制智能體。在第三章中,我們介紹了學習連續控制策略的問題,并提出了在高維連續狀態和行動空間中學習深度神經網絡表示的推理方案。在第四章中,我們提出了在學習解決一個任務時使用更多的統計對象作為輔助損失。特別是,我們將價值函數估計的解釋方差確定為一個具有有趣特性的工具,并提出了一個具有編碼器共享的普遍適用的框架,以加快策略梯度智能體的學習。第五章提出了一個簡單而有效的想法,即RL智能體將從一些經驗數據中比其他數據更有效地學習。我們采用第四章中介紹的自我性能評估的統計數據,開發了一種對策略梯度算法的修改,在估計策略梯度時,樣本被過濾掉了。在第六章中,由于最近的研究表明傳統的行為批評算法不能成功地擬合價值函數,并呼吁需要為批評者確定一個更好的目標,我們引入了一種方法來改善行為批評框架中批評者的學習。

第三部分涉及圖1.3中的另一面:在行為者策略的背景下,通過在行為者-批評框架中引入第三個主角來表述差異性。這個新的主角作為一個對抗性的先驗,保持一個平均的策略混合物,策略分布應該被排斥在外。在第七章介紹了在具有更多現實世界特征的環境中學習的問題,如安全約束或有效探索是一個瓶頸的情況下,在第八章和第九章中,我們開發了一種在維持對抗性先驗中策略候選人的變異形式,作為以前策略的混合物(第八章)和作為尋求風險的策略的混合物(第九章)。

最后,我們在第四部分給出了論文的尾聲,討論了進展和未來的前景。

著作清單

在有論文集的國際會議上的出版物

  • Yannis Flet-Berliac, Reda Ouhamma, Odalric-Ambrym Maillard, and Philippe Preux (2021)《利用殘差在深度策略梯度中學習價值函數》國際學習表征會議

  • Yannis Flet-Berliac, Johan Ferret, Olivier Pietquin, Philippe Preux, and Matthieu Geist (2021)《逆向引導的行為者-批評》國際學習表征會議

  • Yannis Flet-Berliac和Philippe Preux(2020年7月)《只有相關信息才重要:濾除噪聲樣本以促進RL》第29屆國際人工智能聯合會議論文集,IJCAI-20。Christian Bessiere編輯。主賽道。國際人工智能聯合會議組織,第2711-2717頁。

國際會議上的研討會發言或預印本

  • Yannis Flet-Berliac 和 Philippe Preux (2019b). MERL: Multi-Head Reinforcement Learning第33屆神經信息處理系統進展會議的深度強化學習研討會

  • Yannis Flet-Berliac and Debabrota Basu (2021)《SAAC:安全強化學習作為演員-批評家的對抗性游戲》預印本

在國際數字雜志上發表的文章

  • Yannis Flet-Berliac (2019). The Promise of Hierarchical Reinforcement Learning. The Gradient - Stanford AI Lab

軟件

  • Omar Darwiche Domingues, Yannis Flet-Berliac, Edouard Leurent, Pierre Ménard, Xuedong Shang, and Michal Valko (2021). rlberry - A Reinforcement Learning Library for Research and Education. //github.com/rlberry-py/rlberry

本論文中沒有介紹的合作項目

  • Jacques Demongeot, Yannis Flet-Berliac, and Hervé Seligmann (2020)《溫度降低傳播參數的新Covid-19案例動態》生物學9.5,第94頁

  • Yannis Flet-Berliac and Philippe Preux (2019a)《使用通用輔助任務的高維控制》Tech. rep. hal-02295705

  • Thomas Depas and Yannis Flet-Berliac (2019)《平行四邊形的公主》展覽全景21-勒弗斯諾伊國家當代藝術工作室

付費5元查看完整內容

移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。

Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。

付費5元查看完整內容

1.1 背 景

自動駕駛汽車 (AV) 提供了幾個潛在的好處,包括減少交通事故的數量、減少在交通中花費的時間,以及提高那些不能開車的人的機動性。在過去的十年里,自動駕駛汽車已經有了重大的進展,在鳳凰城、舊金山和匹茲堡等城市進行了測試 [28]。在某些有限的情況和地理位置中,自動駕駛汽車能夠在沒有人類后備駕駛員的情況下駕駛 [48]。

盡管取得了這些進步,但廣泛采用 AV 技術尚未實現。造成這種情況的一個主要原因,除了技術差距之外,是由于對 AV 技術缺乏信任。自動駕駛汽車教育合作組織 (PAVE) 在 2020 年進行的一項調查顯示,48% 的美國人不會“乘坐自動駕駛的出租車或拼車”。此外,只有 58% 的參與者認為“十年后會出現安全的自動駕駛汽車”,這表明目前對自動駕駛汽車技術缺乏信任 [5]。這項調查表明,即使自動駕駛汽車具有顯著的社會效益,如果沒有技術利益相關者的接受和信任,這些效益也無法實現。

這些利益相關者不僅限于坐在 AV 內的乘客,還包括其他道路使用者,如最近的行人、騎自行車的人和人類司機。在這些道路上,自動駕駛汽車必須能夠無縫集成到混合交通中,平衡安全和效率目標,并符合人類對規范駕駛員行為的期望

然而,這并不是一個簡單的問題,因為與 AV 相比,人工駕駛車輛的策略和特性不同。特別是,自動駕駛汽車充當嚴格遵守交通規則并尋求以優化由旅行時間、乘客舒適度和燃油效率等因素組成的目標的方式。這與靈活地遵循交通規則并且有限理性的人類代理形成對比,他們選擇實現駕駛目標但可能不是最優的行動。例如,人類表現出的駕駛行為,如超速、急速駕駛和尾隨,這些行為在旅行時間和燃油效率等目標方面并不是最佳的。這種駕駛行為的錯位導致兩個代理都無法正確預測另一個代理會做什么,這可能導致交通流量效率低下和潛在的事故[61]。

為了彌合差距,研究集中在人類駕駛員建模上。這涉及使自動駕駛汽車以與人類駕駛汽車類似的方式駕駛,但也改進了人類駕駛汽車的預測,以實現更有效的交互

關于前一點,由于大規模駕駛數據集的可用性,最近的工作試圖從演示中學習人類行為。在 [95] 中,應用駕駛模型來預測交叉路口的離散動作(直行、停車、左轉、右轉),并基于伯克利 DeepDrive 視頻數據集預測車道跟隨的角速度輸入。類似地,在 [6] 中,駕駛演示用于訓練基于來自車載感知堆棧的已處理場景表示的駕駛模型。確定僅在大型數據集(3000 萬個實例)上進行訓練不足以確保在未見場景中的可靠性。通過增加正則化的訓練損失和合成邊緣案例示例(例如,橫向偏移中的擾動)來減少泛化誤差。然而,這證明了數據驅動模型的一個關鍵限制——特別是,列舉在駕駛過程中可能出現的邊緣情況以減少泛化誤差是極其困難的。

數據集對于預測路上的其他人類代理也很重要。早期的研究通過觀察注意力和分心等模式下的駕駛行為并構建相應的模型,在短時間內對個體駕駛員進行建模[83]。例如,[71] 開發了一個基于凸馬爾可夫鏈的駕駛員模型,以捕捉人類駕駛員的隨機性,并能夠對安全性進行概率查詢。最近,包括 [85,13,42] 在內的大規模預測數據集專注于長期運動預測,并提供帶注釋的場景上下文以及演員在各種交通場景中所采取的軌跡。這些數據集的優勢在于無需預先指定的特征選擇和/或手動調整,即可學習復雜的數據驅動的驅動程序模型,從而對語義上下文進行更細致的解釋。例如,數據集可用于通過逆向強化學習來學習人類駕駛員獎勵函數,這可以被納入交互感知規劃(例如[73, 72]),并使用形式化方法分析獎勵錯誤指定的魯棒性 [70]。相比之下,經典方法通常需要特征選擇和調整的專業知識。例如,像智能駕駛員模型 [87] 這樣的交通流模型需要了解模型參數,如最大縱向加速度、最小間距和車輛之間的時間間隔等。類似地,卡爾曼濾波器和可達集等方法需要對車輛動力學進行詳細建模,以及干擾協方差或界限識別[7, 33]。

讓單一模型在不施加較大不確定性界限的情況下捕獲各種異質的人類駕駛員和交通環境具有挑戰性。雖然數據驅動的方法可以通過減少預測錯誤和更好地對潛在概率分布進行建模來提供幫助,但它們在新情況下仍然容易出錯,并且不能在所有情況下都盲目信任。因此,解決精確和準確預測之間的權衡,如 [26] 中所述,是成功部署任何預測框架的關鍵設計參數。

當與在混合環境中運行的 AV 的控制設計相結合時,這種權衡尤其重要。通過魯棒和隨機控制等方法,存在結合不確定性和干擾的原則方法[14]。隨著不確定性邊界的增長,自動駕駛汽車的可行控制行為集開始縮小,通常最佳解決方案只是放慢速度,直到不確定性得到解決。這可能導致過于膽小、規避風險的 AV 不符合人類代理的期望,從而加劇了上述人類與 AV 錯位的問題。因此,確定如何根據觀察到的行為調整不確定性或納入自適應策略對于找到安全有效的 AV 行為的最佳點至關重要。

1.2 提綱和貢獻

我們看看如何在這篇論文中解決這些問題。提供以下貢獻:

第 2 章著眼于在給定候選目標的情況下提供名義多模態預測的問題。選擇的特定領域是停車場,它在緊湊的駕駛區域中具有許多交互作用。我們描述了停車行為數據集的生成,然后詳細介紹了一個兩階段預測架構來估計意圖(即停車位)和軌跡執行。與傳統的基于模型的方法相比,這顯示了用數據驅動的多模式預測來表示人類駕駛員行為的好處。

第 3 章將第 2 章的結果擴展到基于集合的多模態預測,其中生成了軌跡上的連續概率分布。使用 nuScenes 和 Lyft 5 級預測數據集,我們展示了上下文感知、數據驅動、多模態預測在預測駕駛員行為方面的優勢,與傳統方法相比,它具有改進的對數似然性和改進的集合精度。然后,我們探索如何將此類預測納入置信度感知框架中,該框架可以根據預測誤差在線調整不確定性。我們通過在 CARLA 模擬器中與交通路口的目標車輛進行模擬交互,展示了這種自適應置信度方法在避免碰撞方面的好處。

最后,第 4 章考慮了處理不確定預測的替代框架。不是通過自適應置信水平來調整不確定性,而是提出了一種反饋策略方法來提供靈活的行為,這些行為取決于目標車輛行為的未來測量。與傳統方法相比,這種方法減少了保守性,傳統方法必須選擇單個控制輸入序列來滿足所有可能的目標車輛行為。在 CARLA 模擬器中的交通路口評估反饋策略方法的好處。結果表明,與開環基線方法相比,我們的方法可以提高移動性、舒適性和效率指標。

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容
北京阿比特科技有限公司