亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu

近年來,在深度強化學習(deep reinforcement learning, RL)中,各種輔助任務被提出來加速表示學習和提高樣本效率。然而,現有的輔助任務沒有考慮到RL問題的特點,是無監督的。通過利用回報這一RL中最重要的反饋信號,我們提出了一種新的輔助任務,迫使學習到的表示區分具有不同回報的狀態-行為對。我們的輔助損失在理論上是合理的,以學習捕獲一種新的形式的狀態-行為抽象的結構的表征,在這種結構下,具有相似回報分布的狀態-行為對被聚集在一起。在低數據的情況下,我們的算法在Atari游戲和DeepMind控制套件的復雜任務上優于強大的基線,在與現有的輔助任務相結合的情況下獲得了更好的性能。

//www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e

付費5元查看完整內容

相關內容

本文主要聚焦于小模型(即輕量型模型)的自監督學習問題,作者通過實證發現:對比自監督學習方法在大模型訓練方面表現出了很大進展,然這些方法在小模型上的表現并不好。

為解決上述問題,本文提出了一種新的學習框架:自監督蒸餾(SElf-SupErvised Distillation, SEED),它通過自監督方式(SSL)將老師模型的知識表達能力遷移給學生模型。不同于直接在無監督數據上的直接學習,我們訓練學生模型去模擬老師模型在一組示例上的相似度得分分布。

所提SEED的簡潔性與靈活性不言而喻,包含這樣三點:(1) 無需任何聚類/元計算步驟生成偽標簽/隱類;(2) 老師模型可以通過優秀的自監督學習(比如MoCo-V2、SimCLR、SWAV等)方法進行預訓練;(3)老師模型的知識表達能力可以蒸餾到任意小模型中(比如更淺、更細,甚至可以是完全不同的架構)。

實驗表明:SEED可以提升小模型在下游任務上的性能表現。相比自監督基準MoCo-V2方案,在ImageNet數據集上,SEED可以將EfficientNet-B0的精度從42.2%提升到67.6%,將MobileNetV3-Large的精度從36.3%提升到68.2%,見下圖對比。

//arxiv.org/pdf/2101.04731.pdf

付費5元查看完整內容

本文由騰訊 AI Lab 和中國科學院自動化研究所合作完成。圖分類、藥物分子官能團發掘、圖數據去噪等任務都可以歸結為尋找一個與原圖標簽最為相關且濾除噪聲結構的子圖。然而監督學習需要利用子圖層面的標簽,且圖的不規則離散結構對算法優化帶來了挑戰。

本文基于信息瓶頸理論提出了信息瓶頸子圖的概念和圖信息瓶頸算法,并針對圖的不規則離散結構提出了二層互信息優化算法與連續化松弛方法。基于該算法,不需要顯式的子圖標簽即可有效識別這種子圖。

實驗表明,該算法能有效提高多種圖分類算法的精度;在分子數據集上,該算法能夠準確識別最能影響藥物分子屬性的子結構;此外,該算法對于有噪聲的圖分類任務有較好的魯棒性。

本文在圖深度學習中開拓出了一個子圖識別的新的研究領域,并在藥物發現中起到了一定的輔助分析的作用。其中結合信息瓶頸理論來解決圖問題的思路也對今后的相關研究有借鑒意義。

想了解更多關于圖深度學習的信息,可閱讀文章:騰訊AI Lab聯合清華、港中文,萬字解讀圖深度學習歷史、最新進展與應用

//arxiv.org/abs/2010.05563

付費5元查看完整內容

主題: Representations for Stable Off-Policy Reinforcement Learning

摘要: 具有函數逼近的強化學習可能不穩定,甚至會產生分歧,尤其是與非策略學習和Bellman更新結合使用時。在深度強化學習中,這些問題已通過調整和規范化表示形式(特別是輔助任務)以經驗方式得到處理。這表明表示學習可以提供一種保證穩定性的方法。在本文中,我們正式表明,即使在學習非策略時,確實存在非平凡的狀態表示形式,規范的TD算法是穩定的。我們沿著三個軸分析基于策略過渡矩陣(例如原型值函數)的表示學習方案:逼近誤差,穩定性和易于估計性。在最一般的情況下,我們表明Schur基提供了收斂性保證,但是很難從樣本中進行估計。對于固定的獎勵函數,我們發現相應Krylov子空間的正交基礎是更好的選擇。我們通過經驗證明,可以使用隨機梯度下降學習這些穩定的表示,從而為使用深度網絡進行表示學習的改進技術打開了大門。

付費5元查看完整內容

論文標題:CURL: Contrastive Unsupervised Representations for ReinforcementLearning(CURL:用于強化學習的對比無監督表示)

論文來源:ICML 2020 論文下載://www.zhuanzhi.ai/paper/6fb5994c1f98b326b45fb83ce319f0b9

代碼鏈接:

摘要:

我們提出CURL:用于強化學習的對比無監督表示法。CURL使用表示學習從原始像素中提取高級特征,并在提取的特征上執行off-policy控制。在DeepMind控制套件和Atari游戲中,CURL在復雜任務中的表現優于之前基于像素的方法,無論是基于模型的還是無模型的,在100K環境和交互步驟的基準測試中,分別獲得1.9倍和1.6倍的性能提升。在DeepMind控制套件中,CURL是第一個與使用基于狀態特征的方法的采樣效率和性能接近的基于圖像的算法。

付費5元查看完整內容
北京阿比特科技有限公司