亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們研究離線元強化學習,這是一種實用的強化學習范式,從離線數據中學習以適應新的任務。離線數據的分布由行為策略和任務共同決定。現有的離線元強化學習算法無法區分這些因素,導致任務表示對行為策略的變化不穩定。為了解決這個問題,我們提出了一個任務表示的對比學習框架,該框架對訓練和測試中的行為策略分布不匹配具有魯棒性。我們設計了一個雙層編碼器結構,使用互信息最大化來形式化任務表示學習,導出了一個對比學習目標,并引入了幾種方法來近似負對的真實分布。在各種離線元強化學習基準上的實驗表明,我們的方法比以前的方法更有優勢,特別是在泛化到非分布行為策略上。代碼可以在//github.com/PKU-AI-Edge/CORRO上找到。

付費5元查看完整內容

相關內容

國際機器學習大會(International Conference on Machine Learning,簡稱ICML ) 是由國際機器學習學會(IMLS)主辦的機器學習國際頂級會議,也是CCF-A類學術會議。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,錄用率為21.94%。

深度強化學習(DRL)智能體通常對其訓練環境中看不到的視覺變化敏感。為了解決這個問題,我們利用RL的順序特性來學習穩健的表示,這種表示只編碼來自基于無監督多視圖設置的觀察的任務相關信息。具體地說,我們為時間數據引入了一個新的多視圖信息瓶頸(MIB)目標的對比版本。我們用這個輔助目標從像素訓練RL智能體來學習魯棒的表示,它可以壓縮與任務無關的信息,并可以預測與任務相關的動態。這種方法使我們能夠訓練出高性能的策略,這些策略能夠抵御視覺干擾,并能夠很好地推廣到看不見的環境中。我們證明,當背景被自然視頻取代時,我們的方法可以在DeepMind控制套件中不同的視覺控制任務集上實現SOTA性能。此外,我們還展示了在Procgen基準測試中,我們的方法優于已建立的基線,可以泛化到看不見的環境。我們的代碼是開源的,可以在//github上找到。com/BU-DEPEND-Lab/DRIBO。

付費5元查看完整內容

在線連續學習(Online continuous learning, Online CL)研究從無任務邊界的在線數據流中學習順序任務的問題,旨在適應新數據的同時緩解對過去任務的災難性遺忘。本文提出了一種對比視覺Transformer(CVT)框架,該框架設計了一種基于Transformer結構的focal對比學習策略,以實現在線學習的更好的穩定性-可塑性權衡。具體地說,我們設計了一種新的外部注意力機制,隱式地捕捉了之前的任務信息。此外,每節課都有可學習的重點,可以積累上節課的知識,緩解遺忘。基于可學習的重點,我們設計了焦點對比損失,以重新平衡對比學習之間的新和過去的課程和鞏固以前學習表征。此外,CVT包含一個雙分類器結構,用于解耦學習電流類和平衡所有觀察類。大量的實驗結果表明,我們的方法在在線CL基準測試中以更少的參數實現了最先進的性能,并有效地緩解了災難性的遺忘。

//arxiv.org/abs/2207.13516

付費5元查看完整內容

最近的工作表明,離線強化學習(RL)可以被表述為一個序列建模問題(Chen et al., 2021; Janner et al., 2021),并通過類似于大規模語言建模的方法解決。然而,RL的任何實際實例還涉及到一個在線組件,其中在被動離線數據集上預訓練的策略通過與環境的特定任務交互進行微調。我們提出了在線決策Transformers (ODT),這是一種基于序列建模的RL算法,在一個統一的框架中融合了離線預訓練和在線微調。我們的框架使用序列級熵正則化器與自回歸建模目標相結合,用于樣本高效的探索和微調。根據經驗,我們表明,ODT在D4RL基準測試的絕對性能方面可以與最先進的技術相媲美,但在微調過程中獲得的收益要顯著得多。 //www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1

付費5元查看完整內容

人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。

付費5元查看完整內容

基于對比學習(CL)的自監督學習模型以成對的方式學習視覺表征。雖然目前流行的CL模型已經取得了很大的進展,但在本文中,我們發現了一個一直被忽視的現象:當用全圖像訓練CL模型時,在全圖像中測試的性能比在前景區域測試的性能要好;當使用前景區域訓練CL模型時,在完整圖像中測試的性能比在前景區域測試的性能差。這一觀察結果表明,圖像中的背景可能會干擾模型學習的語義信息,其影響尚未完全消除。為了解決這個問題,我們建立了一個結構因果模型(SCM),將背景建模為一個混淆劑。我們提出了一種基于后門調整的正則化方法,即基于元語義正則化的介入性對比學習(ICLMSR),對所提出的供應鏈管理進行因果干預。ICL-MSR可以整合到任何現有的CL方法中,以減輕表征學習的背景干擾。從理論上證明了ICL-MSR具有更小的誤差界。經驗上,我們在多個基準數據集上的實驗表明,ICL-MSR能夠提高不同最先進的CL方法的性能。

付費5元查看完整內容

近年來,Transformer架構和變體在許多機器學習任務中取得了顯著的成功。這種成功本質上與處理長序列的能力以及注意力機制中上下文相關的權重的存在有關。我們認為這些能力符合元強化學習算法的核心作用。事實上,元強化學習代理需要從一系列軌跡推斷任務。此外,它需要一個快速適應策略來適應新的任務,這可以通過使用自我注意機制來實現。在這項工作中,我們提出了TrMRL(transformer 元強化學習),一個元強化學習l代理,模仿記憶恢復機制使用transformer 架構。它將最近過去的工作記憶聯系起來,遞歸地通過transformer層建立情景記憶。我們展示了自注意力計算出一種共識表示,在每一層將貝葉斯風險降到最低,并提供了有意義的特征來計算最佳行動。我們在運動和靈巧操作的高維連續控制環境中進行了實驗。結果表明,在這些環境中,與基線相比,TrMRL具有可比或更好的漸近性能、樣本效率和分布外泛化。

//www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

付費5元查看完整內容

本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。

付費5元查看完整內容

什么對對比學習很重要?我們認為對比學習在很大程度上依賴于有信息量的特征,或“困難的”(正例或負例)特征。早期的方法通過應用復雜的數據增強和大批量或內存庫來包含更多有信息量的特征,最近的工作設計了精細的采樣方法來探索有信息量的特征。探索這些特征的關鍵挑戰是源多視圖數據是通過應用隨機數據增強生成的,這使得始終在增強數據中添加有用信息是不可行的。因此,從這種增強數據中學習到的特征的信息量是有限的。**在本文中,我們提出直接增強潛在空間中的特征,從而在沒有大量輸入數據的情況下學習判別表示。**我們執行元學習技術來構建增強生成器,通過考慮編碼器的性能來更新其網絡參數。然而,輸入數據不足可能會導致編碼器學習坍塌的特征,從而導致增強生成器出現退化的情況。我們在目標函數中進一步添加了一個新的邊緣注入正則化,以避免編碼器學習退化映射。為了在一個梯度反向傳播步驟中對比所有特征,我們采用了優化驅動的統一對比損失,而不是傳統的對比損失。根據實驗驗證,我們的方法在幾個基準數據集上獲得了最先進的結果。

//www.zhuanzhi.ai/paper/31925f8729fad66bf497d7f85ba17dd6

付費5元查看完整內容

元強化學習(Meta - reinforcement learning, Meta - rl)從以前的任務中提取知識,實現對新任務的快速適應。盡管最近取得了一些進展,但對元強化學習的有效探索仍然是稀疏獎勵任務中的一個關鍵挑戰,因為它需要在元訓練和適應中快速找到與任務相關的信息性經驗。針對這一挑戰,我們明確建模了一個元強化學習的探索策略學習問題,該問題與開發策略學習分離,并引入了一個新的賦權驅動的探索目標,該目標旨在最大限度地獲取信息以進行任務識別。我們得到了相應的內在獎勵,并開發了一個新的非策略元強化學習框架,通過共享任務推理知識,有效地學習獨立的上下文感知的探索和開發策略。實驗結果表明,在不同的稀疏獎勵MuJoCo運動任務和更復雜的稀疏獎勵元世界任務中,我們的meta-RL方法顯著優于最先進的基線。

//www.zhuanzhi.ai/paper/8972d5b6f921acf471ca8b89afc45759

付費5元查看完整內容

作為一種新穎的范式,可以讓智能體以完全不與環境交互的方式快速適應新的未知任務,極大地提升了強化學習算法在真實世界中的應用范圍和價值。圍繞這一問題目前的相關研究還較少,并且有兩個主要的技術難點。其一,離線強化學習中通常會因為訓練數據與所學習策略的狀態-動作對的分布偏移而產生較大誤差,甚至導致價值函數的發散。其二,元強化學習要求在學習控制策略的同時能高效且魯棒地進行任務推斷(task inference)。

在本文中,我們將針對離線策略學習的行為正則化(behavior regularization)方法,與一個用于任務推斷的確定性的任務信息編碼器進行結合來解決上述的兩大難點。我們在有界的任務信息嵌入空間中引入了一個全新的負指數距離度量,并且將其與控制策略的貝爾曼方程的梯度解耦進行學習。我們分析驗證了在該設定下,采用一些簡單的算法設計即可帶來相比經典元強化學習及度量學習的效果的明顯提升。據我們所知,本方法是第一個端到端、無模型的離線元強化學習算法,計算效率高并且在多個元強化學習實驗環境上表現出優于以往方法的性能。

本方法賦予強化學習算法進行離線學習及高效遷移的能力,離線意味著不需要在真實環境中進行探索、交互,高效遷移意味著算法的魯棒性及數據利用效率更高。我們的方法實現了同時具備上述兩種能力的端到端的算法訓練框架,可以極大擴展強化學習算法的實際應用范圍:例如推動其在諸如醫療、農業、自動駕駛等數據稀缺或極度重視安全性的相關領域的實際應用,包括構建定制化的患者治療方案、針對特定氣候/作物品種的溫室種植策略等。

//www.zhuanzhi.ai/paper/af16ee8631cae148425f27ba32b6f673

付費5元查看完整內容
北京阿比特科技有限公司