亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

深度強化學習 (RL) 中的泛化研究旨在產生 RL 算法,其策略可以很好地泛化到部署時新的未知情況,避免過度擬合其訓練環境。如果要在現實世界的場景中部署強化學習算法,解決這個問題至關重要,在現實世界中,環境將是多樣的、動態的和不可預測的。本綜述是對這一新興領域的概述,在已有研究的基礎上,通過提供了一個統一的格式和術語來討論不同的泛化問題。繼續對現有的泛化基準以及解決泛化問題的方法進行分類。最后,對該領域的現狀進行了批判性討論,包括對未來研究的建議。本文認為對基準設計采用純程序性內容生成方法不利于推廣,其建議快速在線適應和解決RL特定問題,并在未充分探索的問題環境中建立基準,如離線RL概括和獎勵函數變化。

引言

強化學習(RL)可以用于一系列應用,如自動駕駛汽車[1]和機器人[2],但為了實現這一潛力,我們需要可以在現實世界中使用的RL算法。現實是動態的、開放的、總是在變化的,RL算法需要對其環境的變化具有健壯性,并在部署過程中具有遷移和適應不可見(但類似)環境的能力。

然而,目前許多RL研究工作都是在諸如Atari[3]和MuJoCo[4,5]等基準測試上進行的,這些基準測試不具備上述屬性:它們在訓練策略時所處的環境中評估策略,這與現實場景不匹配(圖1左列)。這與監督學習的標準假設形成了鮮明的對比,在監督學習中,訓練集和測試集是不相交的,很可能導致強評估過擬合[6]。這導致策略即使在稍微調整的環境實例(環境中的特定關卡或任務)上表現也很糟糕,并且經常在用于隨機初始化上失敗[7,8,9,10]。

許多研究人員已經認真對待這些批評,現在專注于提高RL的泛化(從這項綜述的內容可以看出)。本研究的重點是生成策略具有預期魯棒性、遷移和自適應特性的算法,挑戰訓練和測試將是相同的基本假設(圖1中右列)。雖然這項研究是有價值的,但目前它經常缺乏清晰或連貫的論文。我們認為,這部分是因為泛化(尤其是在RL中)是一類問題,而不是一個特定的問題。改進“泛化”,但不明確需要哪種泛化,這是不明確的;我們不太可能從總體上改進泛化,因為這類問題太廣泛了,以至于適用于一些類似于No Free Lunch定理[11]的類比:在某些情況下改進泛化可能會損害在其他情況下的泛化。圖1中右兩欄顯示了兩大類泛化問題。

我們將泛化概念作為一個單一的問題來解決。我們提出了一種理解這類問題的形式化(建立在以前的工作[12,13,14,15,16]),以及在指定一個泛化問題時有哪些選擇。這是基于特定基準所做出的選擇,以及為驗證特定方法而做出的假設,我們將在下面討論這些。最后,我們在泛化中提出了一些尚未被探索的設置,但對于RL的各種現實應用仍然至關重要,以及未來在解決不同泛化問題的方法上的許多途徑。我們的目標是使該領域的研究人員和實踐者在該領域內外更容易理解,并使討論新的研究方向更容易。這種新的清晰性可以改善該領域,并使更通用的RL方法取得穩健的進展。

綜述結構。綜述的結構如下。我們首先在第2節中簡要描述相關工作,如其他概述。在第3節中,我們介紹了RL中泛化的形式化和術語,包括相關的背景。然后,在第4節中,我們繼續使用這種形式化來描述用于RL泛化的當前基準,討論環境(第4.1節)和評估協議(第4.2節)。我們將在第5節中對處理泛化的工作產生方法進行分類和描述。最后,我們將在第6節中對當前領域進行批判性的討論,包括在方法和基準方面對未來工作的建議,并在第7節中總結綜述的關鍵結論。

  • 我們提出了關于泛化的一種形式主義和術語,這是建立在以往多部工作[12,13,14,15,16]中提出的形式主義和術語基礎上的。我們在這里的貢獻是將這些先前的工作統一為RL中被稱為泛化的一類問題的清晰的正式描述。

  • 我們提出了一個現有基準的分類,可以用來進行泛化測試,將討論分為分類環境和評估協議。我們的形式主義讓我們能夠清楚地描述純粹的PCG方法在泛化基準和環境設計方面的弱點:擁有一個完全的PCG環境限制了在該環境下進行研究的精確度。我們建議未來的環境應結合PCG和可控變異因素。

  • 我們提出現有的分類方法來解決各種泛化問題,出于希望使它容易對從業人員選擇的方法給出一個具體的問題。我們指出了許多有待進一步研究的途徑,包括快速在線適應、解決RL特定的一般化問題、新穎的架構、基于模型的RL和環境生成。

  • 我們批判性地討論了RL研究的泛化現狀,并提出了未來的研究方向。特別地,我們指出,構建基準將使離線的RL一般化和獎勵功能變化取得進展,這兩者都是重要的設置。此外,我們指出了幾個值得探索的不同設置和評估指標:調查上下文效率和在連續的RL設置中工作都是未來工作的必要領域。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

當前,強化學習(包括深度強化學習DRL和多智能體強化學習MARL)在游戲、機器?等領域有?常出?的表現,但盡管如此,在達到相同?平的情況下,強化學習所需的樣本量(交互次數)還是遠遠超過?類的。這種對?量交互樣本的需求,嚴重阻礙了強化學習在現實場景下的應?。為了提升對樣本的利?效率,智能體需要?效率地探索未知的環境,然后收集?些有利于智能體達到最優策略的交互數據,以便促進智能體的學習。近年來,研究?員從不同的?度研究RL中的探索策略,取得了許多進展,但尚??個全?的,對RL中的探索策略進?深度分析的綜述。

本?介紹深度強化學習領域第?篇系統性的綜述?章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述?共調研了將近200篇?獻,涵蓋了深度強化學習和多智能體深度強化學習兩?領域近100種探索算法。總的來說,該綜述的貢獻主要可以總結為以下四??:

  • 三類探索算法。該綜述?次提出基于?法性質的分類?法,根據?法性質把探索算法主要分為基于不確定性的探索、基于內在激勵的探索和其他三?類,并從單智能體深度強化學習和多智能體深度強化學習兩??系統性地梳理了探索策略。

  • 四?挑戰。除了對探索算法的總結,綜述的另??特點是對探索挑戰的分析。綜述中?先分析了探索過程中主要的挑戰,同時,針對各類?法,綜述中也詳細分析了其解決各類挑戰的能?。

  • 三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索?法的全?統?的性能?較。

  • 五點開放問題。該綜述分析了現在尚存的亟需解決和進?步提升的挑戰,揭?了強化學習探索領域的未來研究?向。

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

圖神經網絡(GNN)在實際應用中往往會受到可用樣本數量太少的限制,而元學習(meta-learning)作為解決機器學習中樣本缺乏問題的重要框架,正逐漸被應用到 GNN 領域以解決該問題。本文梳理近年來在元學習應用于 GNN 的一系列研究進展,我們根據模型的架構、共享的表示和應用的領域對以往工作進行分類,并在最后討論該領域當前有待解決的問題和未來值得關注的研究方向。

圖結構數據(Graph)廣泛存在于現實場景中,例如藥物研究中的藥物分子結構和推薦系統中的用戶商品交互都可以用圖(Graph)表示,而圖數據(Graph)的廣泛存在也促進了圖神經網絡(GNN)的發展。GNN 是專門用于處理圖數據的深度神經網絡,它將圖或圖上的頂點、邊映射到一個低維空間,從而學習得到圖的有效表示,并進一步將其應用于下游任務。近年來,GNN 被廣泛應用于新藥發現、交通預測、推薦系統等各個領域。

盡管 GNN 擁有非常強大的能力,但在實際應用中依然面臨樣本數量有限的挑戰,特別是在推薦系統等真實系統更是要求 GNN 可以在少量樣本可用的情況下適應新問題。而元學習(meta-learning)作為解決深度學習系統中樣本缺乏問題的重要框架,在自然語言處理、機器人技術等多種應用中都取得了成功。因此,如何利用元學習解決 GNN 所面臨的樣本缺乏問題,是研究人員普遍關心的問題。

元學習的主要思想是利用之前的學習經驗來快速適應一個新問題,從而利用很少的樣本就能學習一個有用的算法。具體來講,元學習旨在以先驗的形式學習一個模型,而不是針對所有任務學習一個模型(不能區分任務)或針對每個任務學習單獨的模型(可能對每個任務過擬合)。元學習應用于 Graph 的主要挑戰是如何確定跨任務共享的表示類型,以及怎樣設計有效的訓練策略。近期,研究人員針對不同的應用場景,已經提出了多種元學習方法來訓練 GNN。本文我們就將對元學習在 GNN 上的運用進行全面回顧。

付費5元查看完整內容

強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。

在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。

在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html

付費5元查看完整內容

摘要:Web 2.0時代,消費者在在線購物、學習和娛樂時越來越多地依賴在線評論信息,而虛假的評論會誤導消費者的決策,影響商家的真實信用,因此有效識別虛假評論具有重要意義。文中首先對虛假評論的范圍進行了界定,并從虛假評論識別、形成動機、對消費者的影響以及治理策略4個方面歸納了虛假評論的研究內容,給出了虛假評論研究框架和一般識別方法的工作流程。然后從評論文本內容和評論者及其群組行為兩個角度,對近十年來國內外的相關研究成果進行了綜述,介紹了虛假評論效果評估的相關數據集和評價指標,統計分析了在公開數據集上實現的虛假評論有效識別方法,并從特征選取、模型方法、訓練數據集、評價指標值等方面進行了對比分析。最后對虛假評論識別領域的有標注語料規模限制等未來研究方向進行了探討。

付費5元查看完整內容

圖神經網絡(GNNs)已經成為學習某些算法任務的流行工具。但是,它們的泛化性質不太好理解。在經驗上,我們觀察到任務結構(或目標算法)和架構的歸納偏差之間的相互作用:盡管許多網絡可能能夠代表一個任務,但一些架構比其他架構更好地學習它。在這次演講中,我將展示一種形式化這種關系的方法,以及在訓練分布內外推廣的經驗和理論含義。

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司