亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Transformer在學習視覺和語言表示方面取得了巨大的成功,這在各種下游任務中都是通用的。在視覺控制中,學習可在不同控制任務間遷移的可遷移狀態表示對于減少訓練樣本的大小具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然是一個具有挑戰性和未解決的問題。為此,我們提出了一種新穎的控制Transformer(CtrlFormer),它具有許多現有技術所沒有的吸引人的優點。首先,CtrlFormer在不同控制任務之間聯合學習視覺令牌和策略令牌之間的自注意力機制,可以在不發生災難性遺忘的情況下學習和遷移多任務表示。其次,我們精心設計了一個對比強化學習范式來訓練CtrlFormer,使其能夠達到較高的樣本效率,這在控制問題中是非常重要的。例如,在DMControl基準測試中,不像最近的先進方法在使用100k樣本遷移學習后在“Cartpole”任務中產生零分而失敗,CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進的分數,同時保持之前任務的性能。代碼和模型發布在我們的項目主頁上。

//www.zhuanzhi.ai/paper/9692ae63f6623f9fc8ad4d18583f4002

付費5元查看完整內容

相關內容

許多現有的模仿學習數據集是從多個演示者那里收集的,每個演示者在環境的不同部分具有不同的專長。然而,標準的模仿學習算法通常將所有演示者視為同質的,而不考慮他們的專業知識,吸收任何次優演示者的弱點。在這項工作中,我們表明,在演示者專業知識上的無監督學習可以導致模仿學習算法性能的持續提高。我們根據經驗豐富的策略和演示者的專業水平,開發和優化一個聯合模型。這使得我們的模型能夠從最優行為中學習,并過濾掉每個演示者的次優行為。我們的模型學習了一個單一的策略,這個策略甚至可以超過最好的演示者,并且可以用來評估任何狀態下任何演示者的專業知識。我們闡述了我們在Robomimic和離散環境(如MiniGrid和國際象棋)中對真實機器人連續控制任務的研究結果,在23個設置中有21個優于競爭方法,在最終獎勵方面平均提高7%,最高提高60%。

付費5元查看完整內容

人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。

付費5元查看完整內容

近期工作(White et al., 2020a;Yan et al., 2020)證明了架構編碼在神經架構搜索(NAS)中的重要性。這些編碼對神經結構的結構或計算信息進行編碼。與結構感知編碼相比,計算感知編碼以相似的精度映射到同一區域的架構,提高了下游架構搜索性能(Zhang et al., 2019; White et al., 2020a)。在本文中,我們介紹了一種基于計算感知Transformer的編碼方法,稱為CATE。與現有基于固定變換的計算感知編碼(如路徑編碼)不同,CATE采用了成對的預訓練方案,使用交叉注意的transformer來學習計算感知編碼。這種學習編碼包含神經結構的密集和上下文化計算信息。在小搜索空間和大搜索空間中,我們比較了在三個主要的編碼依賴NAS子程序下,CATE和11種編碼方式。我們的實驗表明,CATE有利于下游搜索,特別是在大的搜索空間中。此外,外部搜索空間實驗證明了它在訓練所處的搜索空間之外具有優越的泛化能力。

//arxiv.org/abs/2102.07108

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

通過利用先前學習的任務來加速復雜任務的學習過程一直是強化學習中最具挑戰性的問題之一,尤其是當源任務和目標任務之間的相似性較低時。本文針對深度強化學習中的知識遷移問題,提出了表示與實例遷移(REPAINT)算法。REPAINT 不僅在策略學習中轉移了預先訓練的教師策略的表示,而且還使用基于優勢的經驗選擇方法來轉移在非策略學習中按照教師策略收集的有用樣本。本文在幾個基準任務上的實驗結果表明,在任務相似的一般情況下,REPAINT 顯著減少了總訓練時間。尤其是當源任務與目標任務不同或子任務不同時,REPAINT 在訓練時間減少和返回分數的漸近表現方面都優于其他基線。

論文鏈接: //www.zhuanzhi.ai/paper/0439c2852ae341fff43de69e5c7062ff

付費5元查看完整內容

持續學習——按序列學習許多任務的能力——對人工學習系統至關重要。然而,深度網絡的標準訓練方法往往會遭遇災難性的遺忘,即學習新的任務會抹去先前任務的知識。雖然災難性的遺忘給問題貼上了標簽,但任務之間相互干擾的理論原因仍不清楚。在這里,我們試圖通過在教師-學生的設置中學習持續學習來縮小理論和實踐之間的差距。我們將以前在教師-學生設置中對兩層網絡的分析工作擴展到多個教師。我們以每位教師代表不同的任務,研究教師之間的關系如何影響學生在任務轉換時表現出的遺忘和遷移量。根據最近的研究,我們發現當任務依賴于相似的特征時,中間任務相似導致最大的遺忘。然而,特征相似性只是任務之間關聯的一種方式。教師-學生方法允許我們在eadouts(隱藏到輸出的權重)和特征(輸入到隱藏的權重)這兩級分解任務相似性。我們發現兩種類型的相似性、初始轉移/遺忘率、最大轉移/遺忘和長時間(開關后)轉移/遺忘量之間存在復雜的相互作用。總之,這些結果有助于闡明導致災難性遺忘的各種因素。

//proceedings.mlr.press/v139/lee21e.html

付費5元查看完整內容

本文介紹了核持續學習,這是一種簡單但有效的持續學習變體,利用核方法的非參數特性來處理災難性遺忘。我們使用情景記憶單元來存儲每個任務的樣本子集,以學習基于核嶺回歸的任務分類器。這并不需要記憶重放,并且系統地避免了分類器中的任務干擾。我們進一步引入變分隨機特征來學習每個任務的數據驅動內核。為此,我們將核持續學習表述為一個變分推理問題,其中隨機傅里葉基被合并為潛在變量。從每個任務的核心推斷出隨機傅立葉基上的后驗分布。通過這種方式,我們能夠針對每個任務生成更多的信息內核,更重要的是,coreset的大小可以減少,以實現更緊湊的記憶,從而在情景記憶的基礎上實現更有效的持續學習。對四個基準的廣泛評估證明了內核對持續學習的有效性和前景。

//arxiv.org/abs/2107.05757

付費5元查看完整內容

少樣本數據集泛化是研究良好的少樣本分類問題的一種具有挑戰性的變體,其中給出了多個數據集的不同訓練集,目的是訓練一個可適應的模型,然后可以通過僅使用幾個例子從新數據集學習類。為此,我們提出利用不同的訓練集來構建一個通用模板:通過插入適當的組件,可以定義廣泛的數據集專用模型的部分模型。因此,對于每個新的幾桿分類問題,我們的方法只需要推斷少量參數插入到通用模板中。我們設計了一個單獨的網絡,為每個給定的任務生成這些參數的初始化,然后我們通過梯度下降的幾個步驟來微調其提出的初始化。與以前的方法相比,我們的方法參數效率更高,可擴展性更強,適應性更強,并在具有挑戰性的Meta-Dataset基準測試上達到了最好的性能。

//arxiv.org/abs/2105.07029

付費5元查看完整內容

我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。

//www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25

付費5元查看完整內容
北京阿比特科技有限公司