論文題目
視頻游戲中深度強化學習的研究綜述,A Survey of Deep Reinforcement Learning in Video
論文摘要
摘要深度強化學習(DRL)自提出以來取得了很大的成就。通常,DRL代理在每個步驟都接收高維輸入,并根據基于深度神經網絡的策略進行操作。這種學習機制通過端到端的方法更新策略以最大化回報。本文綜述了DRL方法的研究進展,包括基于價值的方法、基于策略梯度的方法和基于模型的方法,比較了它們的主要技術和性能,并指出DRL在智能游戲中的重要作用。我們還回顧了DRL在各種電子游戲中的成就,包括經典的街機游戲、第一人稱視角游戲和多智能體實時戰略游戲,從2D到3D,從單智能體到多智能體,大量帶有DRL的電子游戲AIs都取得了超人的性能,在這個領域還有一些挑戰。因此,我們還討論了將DRL方法應用于該領域的一些關鍵點,包括探索性開發、樣本效率、泛化和遷移、多智能體學習、不完全信息和延遲備用研究,以及一些研究方向。
論文作者
Kun Shao, Zhentao Tang, Yuanheng Zhu,IEEE成員。Nannan Li, Dongbin Zhao,IEEE資深會員。
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題
本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,并討論了今后的研究方向。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
主題: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic
摘要: 深度強化學習(DRL)方法在經濟學中的應用已成倍增加。 DRL通過從強化學習(RL)和深度學習(DL)的廣泛功能來處理復雜的動態業務環境提供了廣闊的機遇。 DRL的特點是可伸縮性,它有可能結合經濟數據的噪聲和非線性模式應用于高維問題。在這項工作中,我們首先考慮對經濟學中各種應用中的DL,RL和深層RL方法進行簡要回顧,以提供對最新技術水平的深入了解。此外,研究了應用于經濟應用的DRL體系結構,以突出其復雜性,魯棒性,準確性,性能,計算任務,風險約束和獲利能力。調查結果表明,與傳統算法相比,DRL可以提供更好的性能和更高的精度,同時在存在風險參數和不確定性不斷增加的情況下面臨實際的經濟問題。
題目
深度殘差強化學習,Deep Residual Reinforcement Learning
關鍵字
強化學習,殘差算法,機器學習
簡介
我們在無模型和基于模型的強化學習設置中重新研究殘差算法。 我們建議使用雙向目標網絡技術來穩定殘差算法,從而產生DDPG的殘差版本,該版本明顯優于DeepMind Control Suite基準測試中的原始DDPG。 此外,我們發現殘差算法是解決基于模型的規劃中分布不匹配問題的有效方法。 與現有的TD(k)方法相比,我們的基于殘差的方法對模型的假設更弱,并且性能提升更大。
作者
Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,來自牛津大學
報告題目:
Deep Reinforcement Learning for Computer Vision
報告簡介:
近年來,深度強化學習作為機器學習的基本技術之一得到了發展,并成功地應用于各種計算機視覺任務(表現出最先進的性能)。在本教程中,我們將概述深度強化學習技術的趨勢,并討論如何使用它們來提高各種計算機視覺任務的性能(解決計算機視覺中的各種問題)。首先,我們簡要介紹了深度強化學習的基本概念,并指出了在不同的計算機視覺任務中所面臨的主要挑戰。其次,介紹了一些用于計算機視覺任務的深度強化學習技術及其種類:策略學習、注意感知學習、不可微優化和多智能體學習。第三,介紹了深度強化學習在計算機視覺不同領域的應用。最后,我們將討論深度強化學習中的一些開放性問題,以說明未來如何進一步發展更先進的計算機視覺算法。
嘉賓介紹:
Jiwen Lu,副教授,中國清華大學,自動化系。清華大學自動化系副教授,2015.11-至今,新加坡高級數字科學中心研究科學家,2011.3-2015.11,2003.7-2007.7西安理工大學信息科學系助理講師。
Liangliang Ren ,清華大學博士生,研究方向是計算機視覺與機器學習、度量學習與深度強化學習
*《Stabilizing Transformers for Reinforcement Learning》E Parisotto, H. F Song, J W. Rae, R Pascanu, C Gulcehre, S M. Jayakumar, M Jaderberg, R L Kaufman, A Clark, S Noury, M M. Botvinick, N Heess, R Hadsell [DeepMind] (2019)
題目: A Survey and Critique of Multiagent Deep Reinforcement Learning
簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。
作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。
題目: Deep Learning in Video Multi-Object Tracking: A Survey
簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
題目: Understanding Deep Learning Techniques for Image Segmentation
簡介: 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡(例如卷積神經網絡,遞歸網絡,對抗網絡,自動編碼器等)有效地解決了許多具有挑戰性的計算機視覺任務,例如在不受限制的環境中對對象進行檢測,定位,識別和分割。盡管有很多關于對象檢測或識別領域的分析研究,但相對于圖像分割技術,出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始,本文進一步描述了深度學習對圖像分割域的影響。此后,大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。