作為一種新穎的范式,可以讓智能體以完全不與環境交互的方式快速適應新的未知任務,極大地提升了強化學習算法在真實世界中的應用范圍和價值。圍繞這一問題目前的相關研究還較少,并且有兩個主要的技術難點。其一,離線強化學習中通常會因為訓練數據與所學習策略的狀態-動作對的分布偏移而產生較大誤差,甚至導致價值函數的發散。其二,元強化學習要求在學習控制策略的同時能高效且魯棒地進行任務推斷(task inference)。
在本文中,我們將針對離線策略學習的行為正則化(behavior regularization)方法,與一個用于任務推斷的確定性的任務信息編碼器進行結合來解決上述的兩大難點。我們在有界的任務信息嵌入空間中引入了一個全新的負指數距離度量,并且將其與控制策略的貝爾曼方程的梯度解耦進行學習。我們分析驗證了在該設定下,采用一些簡單的算法設計即可帶來相比經典元強化學習及度量學習的效果的明顯提升。據我們所知,本方法是第一個端到端、無模型的離線元強化學習算法,計算效率高并且在多個元強化學習實驗環境上表現出優于以往方法的性能。
本方法賦予強化學習算法進行離線學習及高效遷移的能力,離線意味著不需要在真實環境中進行探索、交互,高效遷移意味著算法的魯棒性及數據利用效率更高。我們的方法實現了同時具備上述兩種能力的端到端的算法訓練框架,可以極大擴展強化學習算法的實際應用范圍:例如推動其在諸如醫療、農業、自動駕駛等數據稀缺或極度重視安全性的相關領域的實際應用,包括構建定制化的患者治療方案、針對特定氣候/作物品種的溫室種植策略等。
Adaptive Methods for Real-World Domain Generalization
不變方法在解決領域泛化問題方面已經取得了顯著的成功,該問題的目標是對不同于訓練中使用的數據分布進行推斷。在我們的工作中,我們研究是否有可能利用未知測試樣本本身的領域信息。我們提出一個域自適應方法包括兩個步驟: a)我們首先學習區別的域嵌入從無監督訓練的例子,和 b)使用該域嵌入作為補充信息來構建一個domainadaptive模型,這需要輸入以及其域考慮而做出的預測。對于看不見的域,我們的方法簡單地使用少數未標記的測試示例來構建域嵌入。這使得對任何看不見的域進行自適應分類成為可能。我們的方法在各種領域泛化基準上實現了最先進的性能。此外,我們還引入了第一個真實世界的大規模域泛化基準Geo-YFCC,該基準包含超過40個訓練域、7個驗證域和15個測試域的1.1萬個樣本,比之前的工作大了幾個數量級。我們表明,現有的方法要么不能擴展到這個數據集,要么不如基于所有訓練領域的數據聯合的訓練模型的簡單基線。相比之下,我們的方法獲得了顯著的1%的改進。
//www.zhuanzhi.ai/paper/6e7661967d0879ebfd0236873a75386b
Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu
近年來,在深度強化學習(deep reinforcement learning, RL)中,各種輔助任務被提出來加速表示學習和提高樣本效率。然而,現有的輔助任務沒有考慮到RL問題的特點,是無監督的。通過利用回報這一RL中最重要的反饋信號,我們提出了一種新的輔助任務,迫使學習到的表示區分具有不同回報的狀態-行為對。我們的輔助損失在理論上是合理的,以學習捕獲一種新的形式的狀態-行為抽象的結構的表征,在這種結構下,具有相似回報分布的狀態-行為對被聚集在一起。在低數據的情況下,我們的算法在Atari游戲和DeepMind控制套件的復雜任務上優于強大的基線,在與現有的輔助任務相結合的情況下獲得了更好的性能。
元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在非常狹窄的任務分布上。例如,一個常用的元強化學習基準將模擬機器人的不同跑步速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能推廣到更快地獲得全新的任務。因此,如果這些方法的目標是能夠更快地獲得全新的行為,我們就必須在任務分布上評估它們,任務分布必須足夠廣泛,以使新行為普遍化。
如何在具有多種聲源的『雞尾酒會』中區分不同的聲音對象,這對人類來說是一項基本能力,但對當前的機器而言卻仍然極具挑戰!為此,本文提出一種基于課程學習策略的兩階段框架,實現了自監督下不同發聲物體的判別性感知與定位。首先,我們提出在單聲源場景中聚合候選聲音定位結果以學習魯棒的物體表征。進而在雞尾酒會情景中,參考先期課程學習到的物體知識以生成不同物體的語義判別性定位圖,通過將視音一致性視為自監督信息,匹配視音類別分布以濾除無聲物體和選擇發聲對象。大量基于合成和真實多聲源場景的實驗表明,本文所提模型能夠實現在無語義類別標注情形下,同時濾除無聲物體和指出發聲物體的明確位置并判定其類別屬性,這在視覺多聲源定位上尚屬首次。
目前流行的圖學習方法需要豐富的標簽和邊信息進行學習。「當新任務的數據稀缺時,元學習允許我們從以前的經驗中學習」,并形成急需的歸納偏見,以便快速適應新任務。
此文介紹了「G-META,一種新的圖的元學習方法:」
G-META 使用局部子圖傳遞特定于子圖的信息,并通過元梯度使模型更快地學習基本知識。 G-META 學習如何僅使用新任務中的少數節點或邊來快速適應新任務,并通過學習其他圖或相關圖(盡管是不相交的標簽集)中的數據點來做到這一點。 G-META 在理論上是合理的,因為「特定預測的證據可以在目標節點或邊周圍的局部子圖中找到。」
現有方法是專門為特定的圖元學習問題和特定的任務設計的專門技術。雖然這些方法為 GNN 中的元學習提供了一種很有前途的方法,但它們的特定策略沒有很好的伸縮性,也不能擴展到其他圖的元學習問題(圖1)。
強化學習(RL)是學習采取行動解決任務的強大框架。然而,在許多情況下,一個代理必須將所有可能的任務的大得令人難以置信的空間縮小到當前要求它解決的單個任務。我們是否可以將任務的空間限制在語義上有意義的范圍內呢?在這項工作中,我們介紹了一個使用弱監督的框架來自動地把這個語義上有意義的子空間的任務從巨大的無意義的“雜碎”任務中分離出來。我們證明了這個學習得的子空間能夠進行有效的探索,并提供了捕獲狀態之間距離的表示。對于各種具有挑戰性的、基于視覺的連續控制問題,我們的方法帶來了大量的性能收益,特別是隨著環境的復雜性的增長。