近期在離線強化學習(RL)的研究中,我們發現基于回報的監督學習是解決決策問題的強大范式。然而,盡管有前景,但基于回報的方法僅限于使用標注有獎勵的訓練數據,因此在從無監督數據中學習時面臨挑戰。在這項工作中,我們旨在利用泛化的未來條件,以實現從無獎勵和次優離線數據中進行有效的無監督預訓練。我們提出了預訓練決策變換器(PDT),這是一種在概念上簡單的無監督RL預訓練方法。PDT利用未來軌跡信息作為特權上下文在訓練期間預測動作。能夠根據當前和未來因素做出決策,增強了PDT的泛化能力。此外,這個特性可以很容易地融入到基于回報的框架中進行在線微調,通過為可能的未來分配回報值并根據各自的值采樣未來嵌入。從實證上看,PDT的表現優于或與其監督預訓練的對手相當,特別是在處理次優數據時。進一步分析表明,PDT能夠從離線數據中提取出多樣的行為,并通過在線微調可控地采樣高回報行為。代碼可在此處獲取。
視覺提示調優(VPT)是一種有效的調整方法,用于將預訓練的Vision Transformers (ViTs)適應到下游任務。它利用額外的可學習的標記,稱為提示,來引導凍結的預訓練的ViTs。盡管VPT已經證明了其在監督視覺變換器中的應用性,但在自我監督的視覺變換器中常常表現不佳。通過實證觀察,我們推斷出VPT的有效性在很大程度上取決于提示標記與之交互的ViT塊。具體來說,當提示標記插入到后面的塊而不是第一個塊時,VPT在圖像分類任務中的性能有所提高,例如MAE和MoCo v3。這些觀察表明,存在一個插入提示標記的塊的最優位置。不幸的是,確定每個自我監督ViT中提示的最佳塊以適應多樣的未來場景是一個成本高昂的過程。為了緩解這個問題,我們提出了一種簡單而有效的方法,該方法學習每個ViT塊的一個門,以調整其對提示標記的干預。通過我們的方法,提示標記被選擇性地受到需要進行任務適應的塊的影響。我們的方法在FGVC和VTAB圖像分類以及ADE20K語義分割中優于VPT變體。代碼可在
//github.com/ryongithub/GatedPromptTuning 獲取。
基礎模型在多任務學習方面取得了很大的進展,實現了統一的單模態和多模態任務接口。然而,在遷移學習過程中,這類多任務學習器的潛力尚未得到充分利用。在這項工作中,我們提出了一種通用的參數高效遷移學習方法,稱為預測-插值調優(π-調優),適用于視覺、語言和視覺-語言任務。它匯集了從類似任務中學到的輕量級任務特定專家的參數,以幫助目標下游任務。任務相似性在統一的模態無關空間中進行預測,形成一個可擴展的圖表來展示任務之間的關系。π-調優具有幾個吸引人的優點。首先,它靈活地探索了相似任務之間的內部和跨模態可轉移性,以提高遷移學習的準確性和魯棒性,特別是在數據稀缺的情況下。其次,它為遷移學習提供了一種系統性解決方案,通過多任務預測-然后插值,兼容各種類型的參數高效專家,如提示和適配器。第三,對14個單模態和6個多模態數據集的任務級別相互利益的廣泛研究表明,π-調優在全射擊和低射擊條件下均優于微調和其他參數高效遷移學習方法。任務圖還使得跨模態任務可轉移性的深入可解釋分析成為可能。相關代碼將在//github.com/TencentARC/pi-Tuning 上提供。
人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。
利用監督學習(SL)的力量開發更有效的強化學習(RL)方法已經成為最近的一種趨勢。為了解決稀疏獎勵目標條件問題**,我們提出了一種新的分階段方法,即在線反饋學習和離線反饋學習交替進行**。在在線階段,我們執行RL訓練并收集上線數據,而在離線階段,我們對數據集中成功的軌跡執行SL。為了進一步提高樣本效率,我們在在線階段采用了額外的技術,包括減少任務生成更可行的軌跡和基于價值差異的內在獎勵來緩解稀疏獎勵問題。我們稱這種整體算法為PhAsic自擬約簡(PAIR)。在稀疏獎勵目標條件機器人控制問題(包括具有挑戰性的堆疊任務)上,PAIR大大優于非相位RL和相位SL基線。PAIR是第一個RL方法,它學習了從零開始堆疊6個立方體,只有0/1的成功獎勵。
//www.zhuanzhi.ai/paper/007d9cb1ce12650d123764621e0b319d
模仿學習試圖通過利用專家行為來規避為訓練主體設計適當的獎勵功能的困難。在以Markov Decision Processes (MDP)建模的環境中,大多數現有的模仿算法都取決于在同一MDP中是否有專家演示,而在該MDP中要學習新的模仿策略。在本文中,我們研究了當專家和代理MDP存在差異時如何模擬任務的問題。這些跨領域的差異可能包括不同的動力學、觀點或形態;我們提出了一個新的框架來學習這些領域的響應。重要的是,與之前的工作相比,我們使用只包含專家領域狀態的未配對和未對齊軌跡來學習這種對應關系。我們利用狀態空間和領域未知的潛在空間上的循環一致性約束來做到這一點。此外,我們通過一個歸一化的位置估計函數加強狀態的時間位置的一致性,以對齊兩個領域的軌跡。一旦找到了這種對應關系,我們就可以直接將一個領域的演示轉移到另一個領域,并將其用于模仿。在許多具有挑戰性的領域進行的實驗證明了我們的方法的有效性。
元強化學習(Meta - reinforcement learning, Meta - rl)從以前的任務中提取知識,實現對新任務的快速適應。盡管最近取得了一些進展,但對元強化學習的有效探索仍然是稀疏獎勵任務中的一個關鍵挑戰,因為它需要在元訓練和適應中快速找到與任務相關的信息性經驗。針對這一挑戰,我們明確建模了一個元強化學習的探索策略學習問題,該問題與開發策略學習分離,并引入了一個新的賦權驅動的探索目標,該目標旨在最大限度地獲取信息以進行任務識別。我們得到了相應的內在獎勵,并開發了一個新的非策略元強化學習框架,通過共享任務推理知識,有效地學習獨立的上下文感知的探索和開發策略。實驗結果表明,在不同的稀疏獎勵MuJoCo運動任務和更復雜的稀疏獎勵元世界任務中,我們的meta-RL方法顯著優于最先進的基線。
通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。
Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu
近年來,在深度強化學習(deep reinforcement learning, RL)中,各種輔助任務被提出來加速表示學習和提高樣本效率。然而,現有的輔助任務沒有考慮到RL問題的特點,是無監督的。通過利用回報這一RL中最重要的反饋信號,我們提出了一種新的輔助任務,迫使學習到的表示區分具有不同回報的狀態-行為對。我們的輔助損失在理論上是合理的,以學習捕獲一種新的形式的狀態-行為抽象的結構的表征,在這種結構下,具有相似回報分布的狀態-行為對被聚集在一起。在低數據的情況下,我們的算法在Atari游戲和DeepMind控制套件的復雜任務上優于強大的基線,在與現有的輔助任務相結合的情況下獲得了更好的性能。