《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》.
獲獎理由:
本文提出了一個完善且經過深思熟慮的系統,對自動駕駛社區具有巨大的潛在影響。
論文簡介: 多智能體交互是現實世界中自動駕駛的基礎,盡管人們已經進行了十多年的研究和發展,但如何在各種情況下與各種道路車輛(智能體)進行有效交互的問題仍未解決。Learning的方法可以為解決這個問題提供很多幫助,但是這一方法需要一個現實的多智能體模擬器,該模擬器會產生多種多樣且有效的駕駛交互。為了滿足這一需求,我們開發了一個專用的仿真平臺:SMARTS (Scalable Multi-Agent RL Training School):可擴展多智能體強化學習學校。
上圖是SMARTS 模型架構,其交互方案是使用特定領域語言(DSL)定義的。Social智能體是從“ Social智能體Zoo”中實例化而來。橙色車輛由學智能體控制、深藍色車輛由 Social智能體控制、淺藍色車輛由交通服務提供商控制。原則上,所有提供程序和智能體都可以在自己的進程中運行,也可以遠程運行。SMARTS支持訓練、積累和使用道路用戶的各種行為模型,這些反過來又可以用于創建越來越現實和多樣化的交互,從而可以對多智能體交互進行更深入、更廣泛的研究。在本文中,我們描述了SMARTS的設計目標,解釋了SMARTS的基本體系架構和關鍵功能,并通過在交互場景中進行具體的多智能體實驗來說明其用法。
最后,我們開源了SMARTS平臺以及相關的基準測試任務和性能評估指標,以鼓勵和支持針對自動駕駛的多智能體學習的研究。
智能體與人類或機器人的無縫交互很困難,因為現實環境是動態變化的,并根據自智能體的行為更新策略,而自智能體必須預測這些變化以隨機應變。受人類行為啟發,我們認識到機器人不需要顯式地為另一個智能體要進行的每一個低級動作建模;相反,我們可以通過高級表征來捕捉其他智能體的潛在策略。我們提出了一個基于強化學習的學習框架來學習一個智能體策略的潛在表示,其中自智能體識別其行為與另一個智能體的未來策略之間的關系。然后,自智能體利用這些潛在的動力來影響另一個智能體,有目的地引導他們走向共同適應的策略。在多個模擬領域和一個真實的空中曲棍球游戲中,本文的方法要優于其他方法,并學會了影響其他智能體。
摘要: 強化學習作為一種用于解決無模型序列決策問題的方法已經有數十年的歷史, 但強化學習方法在處理高維變量問題時常常會面臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為復雜高維的多智能體系統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習系統的閉環控制框架, 分析了多智能體深度強化學習中存在的若干重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最后提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控制系統提供一些思路.
【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。
論文鏈接: //arxiv.org/abs/2002.00444
介紹:
自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。
章節目錄:
section2: 介紹一個典型的自動駕駛系統及其各個組件。
section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。
section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。
section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。
section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。
section7: 總結
論文題目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
摘要: 元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在任務分布非常狹窄的情況下。例如,一個常用的元強化學習基準對一個模擬機器人使用不同的運行速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能泛化到更快速地獲取全新的任務。因此,如果這些方法的目的是更快地獲取全新的行為,那么我們必須在任務分布上對它們進行評估,這些任務分布足夠廣泛,從而能夠對新行為進行泛化。在本文中,我們提出了一種元強化學習和多任務學習的開源模擬基準,由50個不同的機器人操作任務組成。我們的目標是使開發算法成為可能,從而加速獲取全新的、未完成的任務。我們評估了6種最先進的元強化學習和多任務學習算法。令人驚訝的是,雖然每個任務及其變體(例如,具有不同的對象位置)都可以成功地學習,但這些算法很難同時學習多個任務,即使只有10個不同的訓練任務。我們的分析和開源環境為未來多任務學習和元學習的研究鋪平了道路,這些研究可以使有意義的概括成為可能,從而釋放這些方法的全部潛力。
論文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。