亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在線連續學習(Online continuous learning, Online CL)研究從無任務邊界的在線數據流中學習順序任務的問題,旨在適應新數據的同時緩解對過去任務的災難性遺忘。本文提出了一種對比視覺Transformer(CVT)框架,該框架設計了一種基于Transformer結構的focal對比學習策略,以實現在線學習的更好的穩定性-可塑性權衡。具體地說,我們設計了一種新的外部注意力機制,隱式地捕捉了之前的任務信息。此外,每節課都有可學習的重點,可以積累上節課的知識,緩解遺忘。基于可學習的重點,我們設計了焦點對比損失,以重新平衡對比學習之間的新和過去的課程和鞏固以前學習表征。此外,CVT包含一個雙分類器結構,用于解耦學習電流類和平衡所有觀察類。大量的實驗結果表明,我們的方法在在線CL基準測試中以更少的參數實現了最先進的性能,并有效地緩解了災難性的遺忘。

//arxiv.org/abs/2207.13516

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

理解視頻的時間動態是學習更好的視頻表現的一個重要方面。最近,基于transformer的架構設計在視頻任務中得到了廣泛的探索,因為它們能夠捕獲輸入序列的長期依賴性。然而,我們發現這些視頻transformer在學習空間動力學而不是時間動力學時仍然是有偏的,去偏偽相關對它們的性能至關重要。基于觀察結果,我們為視頻模型設計了簡單而有效的自監督任務,以更好地學習時間動態。具體來說,為了消除空間偏差,我們的方法學習視頻幀的時間順序作為額外的自監督,并強制隨機洗牌的幀具有低置信輸出。此外,我們的方法學習連續幀之間視頻標記的時間流方向,以增強與時間動態的相關性。在各種視頻動作識別任務下,我們證明了我們的方法的有效性,以及它與最先進的視頻transformer的兼容性。

//www.zhuanzhi.ai/paper/0a5edd1d139682ad788b64f4f65b968e

付費5元查看完整內容

時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。

付費5元查看完整內容

基于雙流更新的視覺

Transformer動態加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

視覺Transformer 通過自注意力機制捕獲短程和長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對于高分辨率視覺任務。為了能夠在保持原有模型準確率的前提下,降低模型計算復雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基于雙流token更新的視覺transformer動態加速方法。

該方法在保持了完整空間結構的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。

其中,我們提出的基于全局class attention的token選擇策略通過增強層間的通信聯系實現穩定token選擇,相比以往方法,無需依靠外部的可學習網絡來對每一層的token進行選擇,也無需基于訓練好的網絡進行token裁剪。在ImageNet 1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

//www.zhuanzhi.ai/paper/7a1101e877530fa0dc16f1315fe9c019

付費5元查看完整內容

【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。

摘要

Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。

//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:

(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。

(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。

本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。

  • 對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。

  • 在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。

  • 對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

付費5元查看完整內容

隨著時間的推移,當學習任務時,人工神經網絡會遇到一個被稱為“災難性遺忘”(CF)的問題。當網絡的權值在訓練新任務時被覆蓋,導致舊信息的遺忘時,就會發生這種情況。為了解決這個問題,我們提出了MetA可重用知識(MetA Reusable Knowledge)或MARK,這是一種新的方法,可以在學習新任務時促進權重可重用性,而不是覆蓋。具體來說,MARK在任務之間保持了一組共享權重。我們將這些共享權重設想為一個公共知識庫(KB),該知識庫不僅用于學習新任務,而且在模型學習新任務時還包含新知識。MARK背后的關鍵組件有兩個方面。一方面,元學習方法提供了用新知識逐步豐富知識庫和促進任務間權重重用的關鍵機制。另一方面,一組可訓練掩碼提供了從知識庫中選擇性地選擇相關權值來解決每個任務的關鍵機制。通過使用MARK,我們在幾個流行的基準測試中獲得了最先進的結果,在20-Split-MiniImageNet數據集上的平均準確率超過了最好的方法10%,同時使用55%的參數實現了幾乎零遺忘。此外,一項消融研究提供了證據,確實,MARK正在學習可重復使用的知識,這些知識被每個任務選擇性地使用。

//www.zhuanzhi.ai/paper/89cb66846a530b677239d3342e987185

付費5元查看完整內容

摘要

與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。

//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a

引言

人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。

由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。

近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。

本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。

付費5元查看完整內容

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

最近,自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中,自監督學習和transformer已經是選擇的方法。最近的文獻表明,transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果,而只需要較小的模型改變。

在本研究中,我們探討了自監督學習在圖像/視覺變換器的預訓練,然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT),并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器,并無縫地處理多個自監督任務。我們表明,預訓練的SiT可以被微調用于小規模數據集的下游分類任務,這些數據集由幾千張而不是幾百萬張圖像組成。

在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到,SiT對少樣本學習很好,也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。

引言

最近的趨勢表明,自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示,自監督預訓練,特別是結合transformers [11],是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的,例如,基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而,視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究,例如,由數億個標記樣本[1]組成的數據集。最近,在沒有外部數據[2]的情況下,視覺轉換器在imagenet上表現良好,但是,它們需要CNNs對等體的蒸餾方法和指導。簡而言之,利用大規模監督數據集進行預訓練是計算機視覺中的一種規范,用來訓練深度神經網絡以獲得更好的性能。然而,人工標注訓練數據是相當昂貴的,盡管在眾包創新方面取得了進展。為了解決這一限制,自監督學習方法[7],[9],[10],[12],[13],[14]已被用到從未標記數據構建具有語義意義的圖像表示。

自監督方法大致可以分為生成式和判別性方法。生成式方法[15],[16],[17]學習建模數據的分布。然而,數據建模通常在計算上是昂貴的,并且在所有場景中可能不是表示學習所必需的。另一方面,通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法,證明了在適當的計算需求下獲得更好的泛化表示的能力。

對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入,同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果,但他們往往忽視了對語境表征的學習,對于這一學習,替代的前置任務,如基于重構的方法,可能更適合。近年來,文獻中提出了一系列新穎的前置任務,包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。

在這項工作中,我們介紹了一個簡單的自監督學習框架,利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:

  • 我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。

  • 我們賦予SiT體系結構一個解碼器,并證明,由于Transformer的內在特性,它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。

  • 利用自編碼Transformer支持多任務學習的自然能力,我們開發了一個強大的自監督框架,共同優化重建(圖像修復)、旋轉分類和收縮損失。

  • 我們在不同的評估協議(包括線性評估、領域轉移和微調)下,在標準基準上展示了擬議框架的有效性。

  • 在不同的數據集中,我們比并發的最先進的結果表現更好,在很大的間隔達到+13.53%的改進。

付費5元查看完整內容

Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu

近年來,在深度強化學習(deep reinforcement learning, RL)中,各種輔助任務被提出來加速表示學習和提高樣本效率。然而,現有的輔助任務沒有考慮到RL問題的特點,是無監督的。通過利用回報這一RL中最重要的反饋信號,我們提出了一種新的輔助任務,迫使學習到的表示區分具有不同回報的狀態-行為對。我們的輔助損失在理論上是合理的,以學習捕獲一種新的形式的狀態-行為抽象的結構的表征,在這種結構下,具有相似回報分布的狀態-行為對被聚集在一起。在低數據的情況下,我們的算法在Atari游戲和DeepMind控制套件的復雜任務上優于強大的基線,在與現有的輔助任務相結合的情況下獲得了更好的性能。

//www.zhuanzhi.ai/paper/7c66011b0d7a2fa1fc3825853caf383e

付費5元查看完整內容
北京阿比特科技有限公司