亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】數據分析是現在必備的技能之一。傳統大多采用靜態算法或者規則進行數據分析,但在現實場景中往往面臨的是復雜的交互環境中,如何學習更好的策略是個很實際的問題。幸運的是強化學習可以作為解決這種問題的一種有效方法。來自新加坡南洋理工大學的學者在TKDE發表了《深度強化學習數據處理與分析》的綜述論文,對最近的工作進行了全面的回顧,重點是利用DRL改進數據處理和分析

數據處理和分析是基礎和普遍的。算法在數據處理和分析中發揮著至關重要的作用,許多算法設計都結合了啟發式和人類知識和經驗的一般規則,以提高其有效性。近年來,強化學習,特別是深度強化學習(DRL)在許多領域得到了越來越多的探索和利用,因為與靜態設計的算法相比,它可以在復雜的交互環境中學習更好的策略。**受這一趨勢的推動,我們對最近的工作進行了全面的回顧,重點是利用DRL改進數據處理和分析。**首先,我們介紹了DRL中的關鍵概念、理論和方法。接下來,我們將討論DRL在數據庫系統上的部署,在各個方面促進數據處理和分析,包括數據組織、調度、調優和索引。然后,我們調查了DRL在數據處理和分析中的應用,從數據準備、自然語言處理到醫療保健、金融科技等。最后,我們討論了在數據處理和分析中使用DRL所面臨的重要挑戰和未來的研究方向。

//www.zhuanzhi.ai/paper/31ca615e95321ed881791e66d2d34d19

引言

在大數據時代,數據處理和分析是基礎的、無處不在的,對于許多組織來說是至關重要的,這些組織正在進行數字化之旅,以改善和轉變其業務和運營。在提取洞察力之前,數據分析通常需要其他關鍵操作,如數據采集、數據清理、數據集成、建模等。大數據可以在醫療保健和零售等許多行業釋放出巨大的價值創造。然而,數據的復雜性(例如,高容量、高速度和高多樣性)給數據分析帶來了許多挑戰,因此很難得出有意義的見解。為了應對這一挑戰,促進數據處理和分析的高效和有效,研究人員和實踐人員設計了大量的算法和技術,也開發了大量的學習系統,如Spark MLlib[2]和Rafiki[3]。

為了支持快速的數據處理和準確的數據分析,大量的算法依賴于基于人類知識和經驗開發的規則。例如,“最短作業優先”是一種調度算法,它選擇執行時間最短的作業進行下一次執行。但在沒有充分利用工作負載特性的情況下,與基于學習的調度算法[4]相比,其性能較差。另一個例子是計算機網絡中的包分類,它將一個包與一組規則中的一條規則進行匹配。一種解決方案是使用手工調整的啟發式分類來構造決策樹。具體來說,啟發式算法是為一組特定的規則設計的,因此可能不能很好地工作于具有不同特征[5]的其他工作負載。**我們觀察到現有算法的三個局限性: **[6],[7]。首先,算法是次優的。諸如數據分布之類的有用信息可能會被忽略或未被規則充分利用。其次,算法缺乏自適應能力。為特定工作負載設計的算法不能在另一個不同的工作負載中很好地執行。第三,算法設計是一個耗時的過程。開發人員必須花很多時間嘗試很多規則,以找到一個經驗有效的規則.

基于學習的算法也被用于數據處理和分析。經常使用的學習方法有兩種:監督學習和強化學習。它們通過直接優化性能目標來實現更好的性能。監督學習通常需要一組豐富的高質量標注訓練數據,這可能是很難和具有挑戰性的獲取。例如,配置調優對于優化數據庫管理系統(DBMS)[8]的整體性能非常重要。在離散和連續的空間中,可能有數百個調諧旋鈕相互關聯。此外,不同的數據庫實例、查詢工作負載和硬件特性使得數據收集變得不可用,尤其是在云環境中。與監督學習相比,強化學習具有較好的性能,因為它采用了試錯搜索,并且需要更少的訓練樣本來找到云數據庫[9]的良好配置。另一個具體的例子是查詢處理中的查詢優化。數據庫系統優化器的任務是為查詢找到最佳的執行計劃,以降低查詢成本。傳統的優化器通常枚舉許多候選計劃,并使用成本模型來找到成本最小的計劃。優化過程可能是緩慢且不準確的[10]。在不依賴于不準確的成本模型的情況下,深度強化學習(DRL)方法通過與數據庫[11]、[12]交互來改進執行計劃(例如,更改表連接順序)。圖1提供了使用DRL進行查詢優化的典型工作流。當查詢發送給代理(即DRL優化器)時,代理通過對基本信息(如訪問的關系和表)進行特征化,生成狀態向量。agent以狀態為輸入,利用神經網絡生成一個動作集的概率分布,動作集可以包含所有可能的作為潛在動作的join操作。每個操作表示一對表上的部分連接計劃,一旦執行操作,狀態將被更新。在采取可能的行動之后,生成一個完整的計劃,然后由DBMS執行該計劃以獲得獎勵。在這個查詢優化問題中,獎勵可以根據實際延遲計算。在有獎勵信號的訓練過程中,agent可以改進策略,產生更高獎勵的更好的連接排序(即延遲更少)。

查詢優化的DRL工作流程。A、B、C和D是四張表。

強化學習(RL)[13]專注于學習在環境中做出智能的行動。RL算法在探索和開發的基礎上,通過環境反饋來改進自身。在過去的幾十年里,RL在理論和技術方面都取得了巨大的進步[13],[14]。值得注意的是,DRL結合了深度學習(DL)技術來處理復雜的非結構化數據,并被設計用于從歷史數據中學習和自我探索,以解決眾所周知的困難和大規模問題(如AlphaGo[15])。近年來,來自不同社區的研究人員提出了DRL解決方案,以解決數據處理和分析中的問題[4],[16],[17]。我們將現有的使用DRL的作品從系統和應用兩個角度進行分類。從系統的角度來看,我們專注于基礎研究課題,從一般的,如調度,到系統特定的,如數據庫的查詢優化。我們還應當強調它是如何制定的馬爾可夫決策過程,并討論如何更有效地解決DRL問題與傳統方法相比。由于實際系統中的工作負載執行和數據采集時間比較長,因此采用了采樣、仿真等技術來提高DRL訓練效率。從應用的角度來看,我們將涵蓋數據處理和數據分析中的各種關鍵應用,以提供對DRL的可用性和適應性的全面理解。許多領域通過采用DRL進行轉換,這有助于學習有關應用的領域特定知識。

在這次綜述中,我們的目標是提供一個廣泛和系統的回顧,在解決數據系統、數據處理和分析問題中使用DRL的最新進展。在第2節中,我們介紹了RL中的關鍵概念、理論和技術,以奠定基礎。為了更深入地了解DRL,讀者可以參考最近出版的《[19]》一書,該書涵蓋了選定的DRL研究主題和應用,并配有詳細的插圖。在第3節中,我們回顧了使用DRL進行系統優化以支持數據處理和分析的最新重要研究工作。我們將介紹基本的主題,如數據組織、調度、系統調優、索引、查詢優化和緩存管理。在第4節中,我們將討論如何將DRL用于數據處理和分析中的應用程序,從數據準備、自然語言交互到各種真實世界的應用(如醫療保健、金融科技、電子商務等)。在第5節中,我們強調了各種開放的挑戰和潛在的研究問題。我們將在第6節進行總結。這項綜述關注的是在數據處理和分析領域探索RL的最新進展,這激發了人們的極大興趣,特別是在數據庫和數據挖掘領域。還有一些綜述論文討論了其他領域的DRL。我們建議讀者參考[20]中的DRL for healthcare調查,[21]中的communications and networking調查,[22]中的RL explainability調查。另一項工作[23]討論了如何使用深度學習優化數據庫系統設計,反之亦然。在本文中,我們交替使用“DRL”和“RL”。

RL技術分類

參考文獻:

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. Hung Byers et al., Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011. [2] X. Meng, J. Bradley, B. Yavuz, E. Sparks, S. Venkataraman, D. Liu, J. Freeman, D. Tsai, M. Amde, S. Owen et al., “Mllib: Machine learning in apache spark,” The Journal of Machine Learning Research, vol. 17, no. 1, pp. 1235–1241, 2016. [3] W.Wang, J. Gao, M. Zhang, S.Wang, G. Chen, T. K. Ng, B. C. Ooi, J. Shao, and M. Reyad, “Rafiki: machine learning as an analytics service system,” VLDB, vol. 12, no. 2, pp. 128–140, 2018.

付費5元查看完整內容

相關內容

深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段并為性能更好的端到端學習的實現提供了可能。

摘要

任務規劃對于建立成功執行任務所需的形勢意識至關重要。全面的計劃有助于預測不同的情況,這一點尤其重要,因為威脅的多樣性和復雜性會增加。規劃過程是團隊的努力,需要收集、分析相關信息并將其整合到一個全面的計劃中。由于第5代平臺、傳感器和數據庫生成的大量信息,這些過程面臨壓力。

本文描述了初始直升機任務規劃環境的創建,在該環境中,來自不同來源的數據被整合、分析和可視化。參與規劃過程的所有人員都可以查看所有可用信息并與之交互。算法處理傳入的數據,為計劃的特定部分提供潛在的解決方案。交互式可視化有助于直觀理解輸入數據和算法輸出,而交互式增強現實環境有助于有效協作。

集成系統和算法是未來智能協作任務規劃的重要組成部分,因為它們可以有效處理與第5代平臺相關的大量多樣的數據流。結合直觀的可視化和協作,這使工作人員能夠構建靈活且響應迅速的操作所需的共享SA。

付費5元查看完整內容

當前,強化學習(包括深度強化學習DRL和多智能體強化學習MARL)在游戲、機器?等領域有?常出?的表現,但盡管如此,在達到相同?平的情況下,強化學習所需的樣本量(交互次數)還是遠遠超過?類的。這種對?量交互樣本的需求,嚴重阻礙了強化學習在現實場景下的應?。為了提升對樣本的利?效率,智能體需要?效率地探索未知的環境,然后收集?些有利于智能體達到最優策略的交互數據,以便促進智能體的學習。近年來,研究?員從不同的?度研究RL中的探索策略,取得了許多進展,但尚??個全?的,對RL中的探索策略進?深度分析的綜述。

本?介紹深度強化學習領域第?篇系統性的綜述?章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述?共調研了將近200篇?獻,涵蓋了深度強化學習和多智能體深度強化學習兩?領域近100種探索算法。總的來說,該綜述的貢獻主要可以總結為以下四??:

  • 三類探索算法。該綜述?次提出基于?法性質的分類?法,根據?法性質把探索算法主要分為基于不確定性的探索、基于內在激勵的探索和其他三?類,并從單智能體深度強化學習和多智能體深度強化學習兩??系統性地梳理了探索策略。

  • 四?挑戰。除了對探索算法的總結,綜述的另??特點是對探索挑戰的分析。綜述中?先分析了探索過程中主要的挑戰,同時,針對各類?法,綜述中也詳細分析了其解決各類挑戰的能?。

  • 三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索?法的全?統?的性能?較。

  • 五點開放問題。該綜述分析了現在尚存的亟需解決和進?步提升的挑戰,揭?了強化學習探索領域的未來研究?向。

付費5元查看完整內容

摘要

多任務學習(Multi-Task Learning, MTL)是機器學習中的一種學習范式,其目的是利用多個相關任務中包含的有用信息來幫助提高所有任務的泛化性能。

本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,給出了MTL的定義,并將不同的MTL算法分為特征學習、低秩、任務聚類、任務關系學習和分解五類,并討論了每種方法的特點。

為了進一步提高學習任務的性能,MTL可以與半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型等學習范式相結合。當任務數量較大或數據維數較高時,我們回顧了在線、并行和分布式的MTL模型,以及維數降維和特征哈希,揭示了它們在計算和存儲方面的優勢。

許多現實世界的應用程序使用MTL來提高它們的性能,我們在本文中回顧了代表性的工作。最后,我們對MTL進行了理論分析,并討論了MTL的未來發展方向。

引言

人類可以同時學習多個任務,在這個學習過程中,人類可以使用在一個任務中學習到的知識來幫助學習另一個任務。例如,根據我們學習打網球和壁球的經驗,我們發現打網球的技巧可以幫助學習打壁球,反之亦然。多任務學習(Multi-Task learning, MTL)[1]是機器學習的一種學習范式,受人類這種學習能力的啟發,它的目標是共同學習多個相關的任務,使一個任務中包含的知識能夠被其他任務利用,從而提高手頭所有任務的泛化性能。

在其早期階段,MTL的一個重要動機是緩解數據稀疏問題,即每個任務都有有限數量的標記數據。在數據稀疏性問題中,每個任務中標記數據的數量不足以訓練出一個準確的學習器,而MTL則以數據增強的方式將所有任務中的標記數據進行聚合,從而為每個任務獲得更準確的學習器。從這個角度來看,MTL可以幫助重用已有的知識,降低學習任務的手工標注成本。當“大數據”時代在計算機視覺和自然語言處理(NLP)等領域到來時,人們發現,深度MTL模型比單任務模型具有更好的性能。MTL有效的一個原因是與單任務學習相比,它利用了更多來自不同學習任務的數據。有了更多的數據,MTL可以為多個任務學習到更健壯、更通用的表示形式和更強大的模型,從而更好地實現任務間的知識共享,提高每個任務的性能,降低每個任務的過擬合風險。

MTL與機器學習中的其他學習范式有關,包括遷移學習[2]、多標簽學習[3]和多輸出回歸。MTL的設置與遷移學習相似,但存在顯著差異。在MTL中,不同任務之間沒有區別,目標是提高所有任務的性能。而遷移學習是借助源任務來提高目標任務的性能,因此目標任務比源任務起著更重要的作用。總之,MTL對所有的任務一視同仁,但在遷移學習中目標任務最受關注。從知識流的角度來看,遷移學習中的知識轉移流是從源任務到目標任務,而在多任務學習中,任何一對任務之間都存在知識共享流,如圖1(a)所示。持續學習[4]是一個一個地學習任務,任務是有順序的,而MTL是將多個任務一起學習。在多標簽學習和多輸出回歸中,每個數據點都與多個標簽相關聯,這些標簽可以是分類的或數字的。如果我們把所有可能的標簽都當作一個任務,那么多標簽學習和多輸出回歸在某種意義上可以看作是多任務學習的一種特殊情況,不同的任務在訓練和測試階段總是共享相同的數據。一方面,這種多標簽學習和多輸出回歸的特點導致了與MTL不同的研究問題。例如,排名損失使得與數據點相關的標簽的分數(例如分類概率)大于沒有標簽的分數,可以用于多標簽學習,但它不適合MTL,因為不同的任務擁有不同的數據。另一方面,這種在多標簽學習和多輸出回歸中的特性在MTL問題中是無效的。例如,在2.7節中討論的一個MTL問題中,每個任務都是根據19個生物醫學特征預測患者帕金森病的癥狀評分,不同的患者/任務不應該共享生物醫學數據。總之,多標簽學習和多輸出回歸與圖1(b)所示的多任務學習是不同的,因此我們不會對多標簽學習和多輸出回歸的文獻進行綜述。此外,多視圖學習是機器學習的另一種學習范式,每個數據點與多個視圖相關聯,每個視圖由一組特征組成。雖然不同的視圖有不同的特征集,但是所有的視圖是一起學習同一個任務的,因此多視圖學習屬于具有多組特征的單任務學習,這與圖1(c)所示的MTL是不同的。

在過去的幾十年里,MTL在人工智能和機器學習領域引起了廣泛的關注。許多MTL模型已經被設計出來,并在其他領域得到了廣泛的應用。此外,對MTL的理論問題也進行了大量的分析。本文從算法建模、應用和理論分析三個方面對MTL進行了綜述。在算法建模方面,首先給出了MTL的定義,然后將不同的MTL算法分為5類: 特征學習方法,又可分為特征轉換與特征選擇方法、低秩方法、任務聚類方法、任務關系學習方法和分解方法。然后,我們討論了MTL與其他學習范式的結合,包括半監督學習、主動學習、無監督學習、強化學習、多視圖學習和圖形模型。為了處理大量的任務,我們回顧了在線、并行和分布式的MTL模型。對于高維空間中的數據,引入特征選擇、降維和特征哈希作為處理這些數據的重要工具。MTL作為一種很有前途的學習范式,在計算機視覺、生物信息學、健康信息學、語音、自然語言處理、web等領域有著廣泛的應用。從理論分析的角度,對MTL的相關工作進行回顧。最后,討論了MTL的未來發展方向。

付費5元查看完整內容

關于圖信號處理、圖分析、圖機器學習比較全面的一本書,值得關注!

當前強大的計算機和龐大的數據集正在為計算數學創造新的機會,將圖論、機器學習和信號處理的概念和工具結合在一起,創建圖數據分析。

在離散數學中,圖僅僅是連接一些點(節點)和線的集合。這些圖表的強大之處在于,節點可以代表各種各樣的實體,比如社交網絡的用戶或金融市場數據,這些可以轉換成信號,然后使用數據分析工具進行分析。《圖數據分析》是對生成高級數據分析的全面介紹,它允許我們超越時間和空間的標準常規采樣,以促進建模在許多重要領域,包括通信網絡,計算機科學,語言學,社會科學,生物學,物理學,化學,交通,城市規劃,金融系統,個人健康和許多其他。

作者從現代數據分析的角度重新審視了圖拓撲,并著手建立圖網絡的分類。在此基礎上,作者展示了頻譜分析如何引導最具挑戰性的機器學習任務,如聚類,以直觀和物理上有意義的方式執行。作者詳細介紹了圖數據分析的獨特方面,例如它們在處理從不規則域獲取的數據方面的好處,它們通過局部信息處理微調統計學習過程的能力,圖上的隨機信號和圖移位的概念,從圖上觀察的數據學習圖拓撲,以及與深度神經網絡、多路張量網絡和大數據的融合。包括了大量的例子,使概念更加具體,并促進對基本原則的更好理解。

本書以對數據分析的基礎有良好把握的讀者為對象,闡述了圖論的基本原理和新興的數學技術,用于分析在圖環境中獲得的各種數據。圖表上的數據分析將是一個有用的朋友和伙伴,所有參與數據收集和分析,無論應用領域。

地址: //www.nowpublishers.com/article/Details/MAL-078-1

Graph Signal Processing Part I: Graphs, Graph Spectra, and Spectral Clustering

圖數據分析領域預示著,當我們處理數據類的信息處理時,模式將發生改變,這些數據類通常是在不規則但結構化的領域(社交網絡,各種特定的傳感器網絡)獲得的。然而,盡管歷史悠久,目前的方法大多關注于圖本身的優化,而不是直接推斷學習策略,如檢測、估計、統計和概率推理、從圖上獲取的信號和數據聚類和分離。為了填補這一空白,我們首先從數據分析的角度重新審視圖拓撲,并通過圖拓撲的線性代數形式(頂點、連接、指向性)建立圖網絡的分類。這作為圖的光譜分析的基礎,圖拉普拉斯矩陣和鄰接矩陣的特征值和特征向量被顯示出來,以傳達與圖拓撲和高階圖屬性相關的物理意義,如切割、步數、路徑和鄰域。通過一些精心選擇的例子,我們證明了圖的同構性使得基本屬性和描述符在數據分析過程中得以保留,即使是在圖頂點重新排序的情況下,在經典方法失敗的情況下也是如此。其次,為了說明對圖信號的估計策略,通過對圖的數學描述符的特征分析,以一般的方式介紹了圖的譜分析。最后,建立了基于圖譜表示(特征分析)的頂點聚類和圖分割框架,說明了圖在各種數據關聯任務中的作用。支持的例子展示了圖數據分析在建模結構和功能/語義推理中的前景。同時,第一部分是第二部分和第三部分的基礎,第二部分論述了對圖進行數據處理的理論、方法和應用,以及從數據中學習圖拓撲。

Graph Signal Processing Part II: Processing and Analyzing Signals on Graphs

本專題第一部分的重點是圖的基本性質、圖的拓撲和圖的譜表示。第二部分從這些概念著手,以解決圍繞圖上的數據/信號處理的算法和實際問題,也就是說,重點是對圖上的確定性和隨機數據的分析和估計。

Graph Signal Processing -- Part III: Machine Learning on Graphs, from Graph Topology to Applications

許多關于圖的現代數據分析應用都是在圖拓撲而不是先驗已知的領域上操作的,因此它的確定成為問題定義的一部分,而不是作為先驗知識來幫助問題解決。本部分探討了學習圖拓撲。隨著越來越多的圖神經網絡(GNN)和卷積圖網絡(GCN)的出現,我們也從圖信號濾波的角度綜述了GNN和卷積圖網絡的主要發展趨勢。接著討論了格結構圖的張量表示,并證明了張量(多維數據數組)是一類特殊的圖信號,圖的頂點位于高維規則格結構上。本部分以金融數據處理和地下交通網絡建模的兩個新興應用作為結論。

圖片

付費5元查看完整內容

深度神經網絡在擁有大量數據集和足夠的計算資源的情況下能夠取得巨大的成功。然而,他們快速學習新概念的能力相當有限。元學習是解決這一問題的一種方法,通過使網絡學會如何學習。令人興奮的深度元學習領域正在高速發展,但缺乏對當前技術的統一、深刻的概述。這項工作就是這樣。在為讀者提供理論基礎之后,我們研究和總結了主要的方法,這些方法被分為i)度量;ii)模型;和iii)基于優化的技術。此外,我們確定了主要的開放挑戰,如在異構基準上的性能評估,以及元學習計算成本的降低。

摘要:

近年來,深度學習技術在各種任務上取得了顯著的成功,包括游戲(Mnih et al., 2013; Silver et al., 2016),圖像識別(Krizhevsky et al., 2012; He et al., 2015)和機器翻譯(Wu et al., 2016)。盡管取得了這些進展,但仍有大量的挑戰有待解決,例如實現良好性能所需的大量數據和訓練。這些要求嚴重限制了深度神經網絡快速學習新概念的能力,這是人類智能的定義方面之一(Jankowski等人,2011;(Lake等,2017)。

元學習被認為是克服這一挑戰的一種策略(Naik and Mammone, 1992; Schmidhuber, 1987; Thrun, 1998)。其關鍵思想是元學習主體隨著時間的推移提高自己的學習能力,或者等價地說,學會學習。學習過程主要與任務(一組觀察)有關,并且發生在兩個不同的層次上:內部和外部。在內部層,一個新的任務被提出,代理試圖快速地從訓練觀察中學習相關的概念。這種快速的適應是通過在外部層次的早期任務中積累的知識來促進的。因此,內部層關注的是單個任務,而外部層關注的是多個任務。

從歷史上看,元學習這個術語的使用范圍很廣。從最廣泛的意義上說,它概括了所有利用之前的學習經驗以更快地學習新任務的系統(Vanschoren, 2018)。這個廣泛的概念包括更傳統的機器學習算法選擇和hyperparameter優化技術(Brazdil et al ., 2008)。然而,在這項工作中,我們專注于元學習領域的一個子集,該領域開發元學習程序來學習(深度)神經網絡的良好誘導偏差。1從今以后,我們使用術語深元學習指元學習的領域。

深度元學習領域正在快速發展,但它缺乏一個連貫、統一的概述,無法提供對關鍵技術的詳細洞察。Vanschoren(2018)對元學習技術進行了調查,其中元學習被廣泛使用,限制了對深度元學習技術的描述。此外,在調查發表后,深度元學習領域也出現了許多令人興奮的發展。Hospedales等人(2020)最近的一項調查采用了與我們相同的深度元學習概念,但目標是一個廣泛的概述,而忽略了各種技術的技術細節。

我們試圖通過提供當代深度元學習技術的詳細解釋來填補這一空白,使用統一的符號。此外,我們確定了當前的挑戰和未來工作的方向。更具體地說,我們覆蓋了監督和強化學習領域的現代技術,已經實現了最先進的性能,在該領域獲得了普及,并提出了新的想法。由于MAML (Finn et al., 2017)和相關技術對該領域的影響,我們給予了格外的關注。本研究可作為深度元學習領域的系統性介紹,并可作為該領域資深研究人員的參考資料。在整個過程中,我們將采用Vinyals(2017)所使用的分類法,該分類法確定了三種深度元學習方法:i)度量、ii)模型和iii)基于優化的元學習技術。

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

最新的技術進步提高了交通運輸的質量。新的數據驅動方法為所有基于控制的系統(如交通、機器人、物聯網和電力系統)帶來了新的研究方向。將數據驅動的應用與運輸系統相結合在最近的運輸應用程序中起著關鍵的作用。本文綜述了基于深度強化學習(RL)的交通控制的最新應用。其中,詳細討論了基于深度RL的交通信號控制(TSC)的應用,這在文獻中已經得到了廣泛的研究。綜合討論了TSC的不同問題求解方法、RL參數和仿真環境。在文獻中,也有一些基于深度RL模型的自主駕駛應用研究。我們的調查廣泛地總結了這一領域的現有工作,并根據應用程序類型、控制模型和研究的算法對它們進行了分類。最后,我們討論了基于深度可編程邏輯語言的交通應用所面臨的挑戰和有待解決的問題。

付費5元查看完整內容

深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司