主題: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic
摘要: 深度強化學習(DRL)方法在經濟學中的應用已成倍增加。 DRL通過從強化學習(RL)和深度學習(DL)的廣泛功能來處理復雜的動態業務環境提供了廣闊的機遇。 DRL的特點是可伸縮性,它有可能結合經濟數據的噪聲和非線性模式應用于高維問題。在這項工作中,我們首先考慮對經濟學中各種應用中的DL,RL和深層RL方法進行簡要回顧,以提供對最新技術水平的深入了解。此外,研究了應用于經濟應用的DRL體系結構,以突出其復雜性,魯棒性,準確性,性能,計算任務,風險約束和獲利能力。調查結果表明,與傳統算法相比,DRL可以提供更好的性能和更高的精度,同時在存在風險參數和不確定性不斷增加的情況下面臨實際的經濟問題。
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題
主題: A Review on Deep Learning Techniques for Video Prediction
摘要: 預測,預期和推理未來結果的能力是智能決策系統的關鍵組成部分。鑒于深度學習在計算機視覺中的成功,基于深度學習的視頻預測已成為有前途的研究方向。視頻預測被定義為一種自我監督的學習任務,它代表了一個表示學習的合適框架,因為它展示了提取自然視頻中潛在模式的有意義的表示的潛在能力。視頻序列預測的深度學習方法。我們首先定義視頻預測的基礎知識,以及強制性的背景概念和最常用的數據集。接下來,我們會仔細分析根據擬議的分類法組織的現有視頻預測模型,突出顯示它們的貢獻及其在該領域的意義。數據集和方法的摘要均附有實驗結果,有助于在定量基礎上評估現有技術。通過得出一些一般性結論,確定開放研究挑戰并指出未來的研究方向來對本文進行總結。
深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。
主題: Hyper-Parameter Optimization: A Review of Algorithms and Applications
摘要: 自深度神經網絡發展以來,它們為人們的日常生活做出了巨大的貢獻。機器學習在日常生活的方方面面提供了比人類所能提供的更合理的建議。然而,盡管取得了這一成就,神經網絡的設計和訓練仍然具有挑戰性和不可預測的過程,這些過程被稱為煉金術。為了降低普通用戶的技術門檻,自動化超參數優化(HPO)已成為學術界和工業界的熱門話題。本文對高性能氧最基本的課題進行了綜述。第一節介紹了與模型訓練和結構有關的關鍵超參數,并討論了它們的重要性和定義取值范圍的方法。然后,重點研究了主要的優化算法及其適用性,包括它們的效率和精度,特別是對于深度學習網絡。本研究接下來回顧了HPO的主要服務和工具包,比較了它們對最新搜索算法的支持、與主要深度學習框架的可行性以及用戶設計的新模塊的可擴展性。本文總結了HPO應用于深度學習中存在的問題,優化算法的比較,以及在計算資源有限的情況下模型評估的突出方法。
題目
深度殘差強化學習,Deep Residual Reinforcement Learning
關鍵字
強化學習,殘差算法,機器學習
簡介
我們在無模型和基于模型的強化學習設置中重新研究殘差算法。 我們建議使用雙向目標網絡技術來穩定殘差算法,從而產生DDPG的殘差版本,該版本明顯優于DeepMind Control Suite基準測試中的原始DDPG。 此外,我們發現殘差算法是解決基于模型的規劃中分布不匹配問題的有效方法。 與現有的TD(k)方法相比,我們的基于殘差的方法對模型的假設更弱,并且性能提升更大。
作者
Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,來自牛津大學
題目: The Deep Learning Compiler: A Comprehensive Survey
摘要: 在不同的DL硬件上部署各種深度學習(deep learning,DL)模型的困難,推動了DL編譯器在社區中的研究和開發。業界和學術界都提出了一些DL編譯器,如Tensorflow XLA和TVM。類似地,DL編譯器將不同DL框架中描述的DL模型作為輸入,然后為不同的DL硬件生成優化代碼作為輸出。然而,現有的調查沒有全面分析DL編譯器的獨特設計。在本文中,我們對現有DL編譯器進行了全面的調查,通過對常用設計的詳細剖析,著重介紹了面向DL的多級IRS,以及前端/后端優化。具體來說,我們提供了一個全面的比較現有的DL編譯器從各個方面。此外,我們還詳細分析了多級IR設計和編譯器優化技術。最后,提出了DL編譯器潛在的研究方向。這是第一篇針對DL編譯器獨特設計的綜述性論文,希望能為以后的研究鋪平道路。
論文題目
視頻游戲中深度強化學習的研究綜述,A Survey of Deep Reinforcement Learning in Video
論文摘要
摘要深度強化學習(DRL)自提出以來取得了很大的成就。通常,DRL代理在每個步驟都接收高維輸入,并根據基于深度神經網絡的策略進行操作。這種學習機制通過端到端的方法更新策略以最大化回報。本文綜述了DRL方法的研究進展,包括基于價值的方法、基于策略梯度的方法和基于模型的方法,比較了它們的主要技術和性能,并指出DRL在智能游戲中的重要作用。我們還回顧了DRL在各種電子游戲中的成就,包括經典的街機游戲、第一人稱視角游戲和多智能體實時戰略游戲,從2D到3D,從單智能體到多智能體,大量帶有DRL的電子游戲AIs都取得了超人的性能,在這個領域還有一些挑戰。因此,我們還討論了將DRL方法應用于該領域的一些關鍵點,包括探索性開發、樣本效率、泛化和遷移、多智能體學習、不完全信息和延遲備用研究,以及一些研究方向。
論文作者
Kun Shao, Zhentao Tang, Yuanheng Zhu,IEEE成員。Nannan Li, Dongbin Zhao,IEEE資深會員。
題目: Deep Learning for Visual Tracking: A Comprehensive Survey
簡介: 視覺目標跟蹤是計算機視覺領域中最受關注和最具挑戰性的研究課題之一。考慮到這個問題的不適定性質及其在現實世界中廣泛應用的情況,已經建立了大量的大型基準數據集,在這些數據集上已經開發了相當多的方法,并在近年來取得了顯著進展——主要是最近基于深度學習(DL)的方法。這項綜述的目的是系統地調查當前基于深度學習的視覺跟蹤方法、基準數據集和評估指標。它也廣泛地評價和分析領先的視覺跟蹤方法。首先,從網絡體系結構、網絡利用、視覺跟蹤網絡訓練、網絡目標、網絡輸出、相關濾波優勢利用六個關鍵方面,總結了基于dll的方法的基本特征、主要動機和貢獻。其次,比較了常用的視覺跟蹤基準及其各自的性能,總結了它們的評價指標。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基準上,全面檢查最先進的基于dll的方法。最后,通過對這些最先進的方法進行定量和定性的批判性分析,研究它們在各種常見場景下的優缺點。它可以作為一個溫和的使用指南,讓從業者在什么時候、在什么條件下選擇哪種方法。它還促進了對正在進行的問題的討論,并為有希望的研究方向帶來光明。
論文題目: Blockchain for Future Smart Grid: A Comprehensive Survey
論文摘要: 智能電網的概念已被引入,作為常規電網的新視野,以尋求一種整合綠色和可再生能源技術的有效方法。通過這種方式,連接互聯網的智能電網(也稱為能源互聯網)也正在作為一種創新的方法出現,以確保隨時隨地的能源供應。這些發展的最終目標是建立一個可持續發展的社會。但是,對于傳統的集中式網格系統而言,集成和協調大量不斷增長的連接可能是一個具有挑戰性的問題。因此,智能電網正在從其集中形式轉變為分散式拓撲。另一方面,區塊鏈具有一些出色的功能,使其成為智能電網范例的有前途的應用程序。本文旨在對區塊鏈在智能電網中的應用進行全面的調查。因此,我們確定了可以通過區塊鏈解決的智能電網場景的重大安全挑戰。然后,我們提出了許多基于區塊鏈的最新研究成果,這些研究成果發表在不同的文獻中,涉及智能電網領域的安全問題。我們還總結了最近出現的幾個相關的實用項目,試驗和產品。最后,我們討論了將區塊鏈應用于智能電網安全問題的基本研究挑戰和未來方向。
題目: A Survey and Critique of Multiagent Deep Reinforcement Learning
簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。
作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。