亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要: 為了滿足日益增長的能源需求并減少對環境的破壞, 節能成為全球經濟和社會發展的一項長遠戰略方針, 加強能源管理能夠提高能源利用效率、促進節能減排. 然而, 可再生能源和柔性負載的接入使得綜合能源系統(Integrated energy system, IES)發展成為具有高度不確定性的復雜動態系統, 給現代化能源管理帶來巨大的挑戰. 強化學習(Reinforcement learning, RL)作為一種典型的交互試錯型學習方法, 適用于求解具有不確定性的復雜動態系統優化問題, 因此在綜合能源系統管理問題中得到廣泛關注. 從模型和算法的層面系統地回顧了利用強化學習求解綜合能源系統管理問題的現有研究成果, 并從多時間尺度特性、可解釋性、遷移性和信息安全性4個方面提出展望.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210166

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。

//www.jsjkx.com/CN/10.11896/jsjkx.210200085

付費5元查看完整內容

【導讀】首篇深度強化學習推薦系統綜述論文,值的關注!

摘要

鑒于深度強化學習(DRL)在推薦系統研究中的出現,以及近年來取得的豐碩成果,本研究旨在對深度強化學習在推薦系統中的最新發展趨勢提供一個及時而全面的概述。我們從在推薦系統中應用DRL的動機開始。然后,我們給出了當前基于DRL的推薦系統的分類,并對現有的方法進行了總結。我們討論新出現的話題和未決的問題,并提供我們推進該領域的觀點。本綜述為來自學術界和工業界的讀者提供了入門材料,并確定了進一步研究的顯著機會。

引言

近年來,推薦技術有了長足的發展,從傳統的協同過濾、基于內容的推薦、矩陣分解等推薦技術[62],到基于深度學習的推薦技術。特別是深度學習在解決復雜任務和處理復雜數據方面具有很強的優勢,因為深度學習能夠捕捉非線性的用戶-項目關系,能夠處理圖像、文本等各種類型的數據源。因此,它在推薦系統中得到了越來越多的應用。由于分布的變化,基于深度學習的推薦系統在捕獲興趣動態方面存在局限性[17,115],即訓練階段基于現有的數據集,這可能不能反映真實的用戶喜好,而用戶的喜好變化很快。而深度強化學習(deep reinforcement learning, DRL)的目標是將深度學習和強化學習的力量結合起來,訓練出一種能夠從環境提供的交互軌跡中學習的agent。由于DRL中的agent可以主動從用戶的實時反饋中學習,從而推斷出用戶的動態偏好,因此DRL特別適合于從交互中學習,如人-機器人協作; 它還推動了一系列互動應用的顯著進步,從視頻游戲、Alpha Go到自動駕駛[3]。鑒于DRL對推薦系統的重要性和最近的進展,我們旨在在本次綜述中及時總結和評論基于DRL的推薦系統。

最近的一項基于強化學習的推薦系統[2]綜述了推薦系統中的強化學習,但沒有對日益增長的深度強化學習領域進行復雜的研究。我們綜述重點在于系統全面地概述了基于DRL的推薦系統中的現有方法,并討論了新出現的主題、未決問題和未來的方向。這項綜述介紹了研究人員,實踐者和教育工作者到這個主題,并促進了對該領域的關鍵技術的理解。

這項綜述的主要貢獻包括:

  • 我們提供關于推薦系統中深度強化學習的最新綜合綜述,具有最先進的技術和指向核心參考文獻的指針。據我們所知,這是基于深度強化學習的推薦系統的第一個全面綜述。

  • 我們給出了推薦系統中深度強化學習的文獻分類。在概述分類和文獻綜述的同時,我們討論了其優缺點,并對未來的研究方向提出了建議。

  • 我們闡明了基于DRL的推薦系統的新興主題和開放問題。我們還指出了未來發展方向,這對推進基于DRL的推薦系統至關重要。

本綜述的其余部分組織如下: 第2節概述了推薦系統、DRL及其集成。第3節提供了一個分類和分類機制的文獻綜述。第4節回顧了出現的話題,第5節指出了未解決的問題。最后,第6節為這一領域的進一步發展提供了一些有前景的未來方向。

付費5元查看完整內容

幾十年來,不斷增長的計算能力一直是許多技術革命背后的推動力,包括最近在人工智能方面的進步。然而,由于集成電路進程規模的放緩,對于系統架構師來說,要繼續滿足當今應用不斷增長的計算需求,他們現在必須采用具有專門加速器的異構系統。

然而,建構這些加速器系統是極其昂貴和耗時的。首先,硬件的開發周期是出了名的長,這使得它很難跟上算法的快速發展。同時,現有的編譯器無法導航由新型加速器架構暴露的棘手映射空間。最后算法的設計通常沒有將硬件效率作為關鍵指標,因此,在設計高效硬件方面提出了額外的挑戰。

本文解決了聯合設計和優化算法、調度和加速硬件設計的重大挑戰。我們的目標是通過三管齊下的方法來推進最先進的技術: 開發從高層抽象自動生成加速器系統的方法和工具,縮短硬件開發周期; 適應機器學習和其他優化技術,以改進加速器的設計和編譯流程; 以及協同設計算法和加速器,以開發更多的優化機會。

本文的目標應用領域是深度學習,它在計算機視覺、神經語言處理等廣泛的任務中取得了前所未有的成功。隨著智能設備的普及,可以預見,深度學習將成為我們日常生活中的主要計算需求。因此,本文旨在通過硬件加速進行端到端系統優化,釋放前沿深度學習算法的普遍采用,改變生活的各個方面。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-202.html

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

作為機器人技能學習中的一個重要分支, 模仿學習近年來在機器人系統中得到了廣泛的應用. 模仿學習能夠將人類的技能以一種相對直接的方式遷移到機器人系統中, 其思路是先從少量示教樣本中提取相應的運動特征, 然后將該特征泛化到新的情形. 本文針對機器人運動軌跡的模仿學習進行綜述. 首先 詳細解釋模仿學習中的技能泛化、收斂性和外插等基本問題; 其次從原理上對動態運動基元、概率運動基元和核化運動基元等主要的模仿學習算法進行介紹; 然后深入地討論模仿學習中姿態和剛度矩陣的學習問題、協同和不確定性預測的問題以及人機交互中的模仿學習等若干關鍵問題; 最后本文探討了結合因果推理的模仿學習等幾個未來的發展方向.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210033

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容

組合優化問題廣泛存在于國防、交通、工業、生活等各個領域, 幾十年來, 傳統運籌優化方法是解決組合優化問題的主要手段, 但隨著實際應用中問題規模的不斷擴大、求解實時性的要求越來越高, 傳統運籌優化算法面臨著很大的計算壓力, 很難實現組合優化問題的在線求解. 近年來隨著深度學習技術的迅猛發展, 深度強化學習在圍棋、機器人等領域的矚目成果顯示了其強大的學習能力與序貫決策能力. 鑒于此, 近年來涌現出了多個利用深度強化學習方法解決組合優化問題的新方法, 具有求解速度快、模型泛化能力強的優勢, 為組合優化問題的求解提供了一種全新的思路. 因此本文總結回顧近些年利用深度強化學習方法解決組合優化問題的相關理論方法與應用研究, 對其基本原理、相關方法、應用研究進行總結和綜述, 并指出未來該方向亟待解決的若干問題.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200551

付費5元查看完整內容

摘要: 強化學習作為一種用于解決無模型序列決策問題的方法已經有數十年的歷史, 但強化學習方法在處理高維變量問題時常常會面臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為復雜高維的多智能體系統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習系統的閉環控制框架, 分析了多智能體深度強化學習中存在的若干重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最后提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控制系統提供一些思路.

付費5元查看完整內容

最新的技術進步提高了交通運輸的質量。新的數據驅動方法為所有基于控制的系統(如交通、機器人、物聯網和電力系統)帶來了新的研究方向。將數據驅動的應用與運輸系統相結合在最近的運輸應用程序中起著關鍵的作用。本文綜述了基于深度強化學習(RL)的交通控制的最新應用。其中,詳細討論了基于深度RL的交通信號控制(TSC)的應用,這在文獻中已經得到了廣泛的研究。綜合討論了TSC的不同問題求解方法、RL參數和仿真環境。在文獻中,也有一些基于深度RL模型的自主駕駛應用研究。我們的調查廣泛地總結了這一領域的現有工作,并根據應用程序類型、控制模型和研究的算法對它們進行了分類。最后,我們討論了基于深度可編程邏輯語言的交通應用所面臨的挑戰和有待解決的問題。

付費5元查看完整內容

深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司