在线亚洲91SE亚洲综合在线,女人让男人桶爽在线观看,国产裸体美女自慰免费看,亚洲AV无码成人精品区夜色AV

本文介紹來自中國科學院自動化所的最近被ICML2023接收的文章：A Closer Look at Self-Supervised Lightweight Vision Transformers.

導讀：最近“預訓練大模型”這個概念異常火爆，大家都期待可以通過增加模型尺寸以達到“涌現”的效果。視覺領域也出現了大量的預訓練方法和預訓練模型，且取得了非常不錯的效果。然而，視覺任務又有其獨特性，隱私性、實時性等一系列應用場景的限制使得邊緣端實際部署的模型多是輕量模型，而這些輕量模型應該怎樣預訓練卻鮮少被研究。本文即針對這一問題，重點關注輕量級ViT的預訓練，通過大量的實驗與分析為輕量級ViT的預訓練提供一個“實踐手冊”。眾多預訓練方法中哪種可以在輕量級模型上表現得更好？不同下游任務中這些方法的優劣對比又會有何種不同？各種輕量級預訓練模型又是為什么會表現出上述的實驗現象？有沒有辦法獲得在各種下游任務中通用的“全能”預訓練模型？這些問題都會在本文中一一被解答。

太長不看版：

本文首先將論文中的眾多實驗性結論總結如下，后面會對其進行詳細介紹： * 對于輕量級ViT（例如5.7M的ViT-Tiny），當下游任務的數據比較充足時，基于Masked-Image-Modeling（MIM）的自監督預訓練方法[1][2]表現最好，優于基于Contrastive Learning（CL）的方法[3][4]，甚至比基于ImageNet-21k的全監督預訓練模型表現得更好； * 原始的ViT結構在輕量模型這個賽道中仍舊具有巨大潛力，而合適的預訓練手段就是釋放其潛力的一把鑰匙，例如：采用合適的基于MAE（Masked AutoEncoder[1]）的預訓練并在ImageNet上進行微調后，僅包含5.7M參數的原始的ViT-Tiny就可以取得79.0%的top1 accuracy，超過了一眾輕量級ConvNets和近兩年各種精心設計的ViT變種網絡； * 基于MAE的預訓練輕量級ViT并不是萬能的，它也有一些缺陷，例如：當下游任務的數據規模比較小時，它的遷移效果就很差，明顯弱于全監督的預訓練模型，也比基于CL的預訓練模型差； * 出現上述現象的原因可能是：基于MIM的預訓練模型淺層（靠近輸入端的若干層）學的非常好，而高層（靠近輸出端的若干層）卻出現了明顯的表征退化；而基于CL的預訓練模型雖然高層能學到還不錯的語義特征，但卻無法學習到可能對下游任務更有幫助的一些歸納偏置（inductive bias）； * 通過知識蒸餾，可以借助一個更大規模的基于MAE的預訓練模型（例如MAE-Base）去幫助輕量級ViT的預訓練，僅采用基于attention map的蒸餾就可以顯著改善其在小規模下游任務上的糟糕表現。

接下來會對論文的內容進行具體介紹。

哪種預訓練方法表現最好？

文章基于ViT-Tiny（5.7M）這個采用原始ViT結構的輕量級模型，首先采用各種預訓練方法得到若干預訓練模型（各種方法均針對輕量級模型進行了訓練配置調優），測試了它們在ImageNet-1k上的微調性能。各種預訓練方法在ImageNet上的對比表中可以看出：對于輕量級ViT，其同樣可以像大模型一樣，顯著受益于各種預訓練方法。其中，基于MIM的自監督預訓練方法（例如MAE，SimMIM）表現出優于CL的自監督預訓練方法（例如MoCo-v3，DINO）的效果，甚至優于基于更大規模的ImageNet-21k（IN21K）的全監督預訓練；而其中MAE的預訓練成本最低，且精度最高。于是，我們便好奇，在合適的預訓練手段加持下，ViT-Tiny這個結構足夠原始且簡單的模型的性能上限究竟有多高？

預訓練加持下的輕量級ViT的性能上限有多高？

我們對ViT-Tiny采用MAE進行預訓練，然后在ImageNet上進行微調，其與其他一眾輕量級模型的對比如下：

采用合適的預訓練后ViT-Tiny與SOTA輕量級網絡的性能對比

表中可見，即使是在足夠強的fine-tuning的recipe下，MAE的預訓練依舊可以帶來顯著的性能增益（77.8→79.0），且基于MAE預訓練的模型只微調了300 epochs就已超過了從頭訓練1000 epochs的模型（78.5 vs. 77.8）。而與表中的眾多ConvNets和ViT的變種網絡相比，ViT-Tiny依舊表現出非常有競爭力的性能，且具有較高的throughput。這說明：一個“普通”的網絡結構與SOTA的性能之間，差的可能只是一個合適的訓練方案，這為輕量級模型的研究提供了一條除人工設計復雜網絡結構之外的道路。除此之外，表中還包括一些采用了全監督、自監督預訓練的卷積網絡，但是可以看出：預訓練對于ViT的增益更大（例如：ConvNeXt V2-F采用基于MIM的預訓練只能提升0.5，而ViT-Tiny卻可以提升1.2），這個可以理解為：ViT結構具有更少的人為設計的特性，而預訓練可以以數據/任務驅動的模式對其進行補足，因此其增益更大，且表現出比通過人為設計引入inductive bias的網絡更強的潛力。換句話說：基于naive的網絡結構，通過合適的預訓練與數據驅動，使得它變成下游任務需要的模樣，可能比人為設計模型應該是什么樣子具有更高的性能上限。

預訓練方案有哪些缺陷？

首先，我們發現，對于輕量級ViT來說，增加預訓練數據的規模無法使得其取得更好的遷移性能：

甚至MAE對于預訓練數據表現出驚人的魯棒性：只用1%的預訓練數據依舊可以取得與使用100%ImageNet-1k（IN1K）相近的性能，且對于預訓練數據的類別分布也不太敏感。其次，我們發現，這些輕量級自監督預訓練模型似乎沒辦法很好的遷移到數據規模較小的下游任務上：

其中，在各種下游分類任務上，基于MIM的預訓練模型表現明顯弱于全監督預訓練模型，而基于CL的預訓練模型同樣如此但差距較小；而在COCO檢測任務上，基于CL的DINO預訓練模型則表現出更好的遷移性能；這與在ImageNet上觀察到的現象并不一致。這說明，不同預訓練模型在不同規模的下游數據集上可能表現出不一致的特性，可能需要根據下游數據集的特性選擇合適的預訓練方案。例如：當下游數據集規模較小且數據集類別分布與預訓練數據較為一致時，全監督預訓練方案可能更為合適；而當下游數據足夠充足時，基于MIM的預訓練方案可能效果更好。

接下來，我們嘗試引入一些模型分析手段，對這些預訓練模型進行分析，以期理解出現上述實驗現象的原因。

預訓練模型逐層表征分析

我們首先以基于IN1K全監督訓練ViT模型（DeiT-Tiny）作為參考模型，研究各種預訓練模型（基于MAE的MAE-Tiny，基于SimMIM的SimMIM-Tiny，基于MoCo v3的MoCov3-Tiny與基于DINO的DINO-Tiny）與其之間的逐層表征相似度[5]。

我們發現： * 同類預訓練模型具有相似的逐層表征結構，例如：基于MIM的MAE-Tiny和SimMIM-Tiny的相似度heatmap比較像，而基于CL的MoCov3-Tiny和DINO-Tiny較為相似； * 基于MIM的預訓練模型高層出現了表征退化，即其高層表現出與DeiT-Tiny淺層較高的相似度； * 基于CL的預訓練模型與DeiT-Tiny具有較好的逐層對齊關系。

據此我們推測，可能正是這些模型高層的差異導致了上述實驗現象。為驗證這個猜想，我們進行了如下實驗：僅保留預訓練模型的若干淺層，測試其在各種規模的下游任務上的遷移性能，已測試預訓練模型各層對于遷移性能的貢獻度。

圖中可以看出： * 僅保留MAE-Tiny的前4層即可在ImageNet上取得良好的遷移性能，這說明，對于數據充足的下游任務，預訓練模型的淺層可能更加重要，而高層的質量則影響較小； * 隨著數據規模減小，MoCov3-Tiny的高層對于性能的增益越來越大，這也是其在這些數據集上性能超過MAE的關鍵，這說明，對于數據規模較小的下游任務，預訓練模型的高層也很重要；

以上分析也說明，想辦法改進MAE-Tiny的高層表征質量，或許可以提高其在小規模下游任務中的遷移性能。

預訓練模型逐層注意力分析

接下來，我們分析預訓練模型逐層的attention map，對于ViT來說，它可以反映模型在自注意力機制中信息融合的偏好特性。具體來說，我們選擇重點分析attention distance與attention entropy，前者可以反映每個token是較多關注到近處（local）的區域還是遠處的區域（即global），后者可以反映每個token的關注點是集中到少數幾個token上（concentrated）還是廣泛地關注到眾多token上（broad）。我們以箱線圖的形式，可視化了預訓練模型逐層attention distance與entropy的分布。

我們首先對比了是否采用MAE-Tiny作為預訓練在ImageNet-1k上微調（訓練）后的模型（MAE-Tiny-FT vs. DeiT-Tiny），發現采用MAE-Tiny作為預訓練可以使得模型的attention更加local與concentrated，這些可能被作為inductive bias被預訓練引入到了模型中，使得其在ImageNet上取得了更好的性能表現。而對比MoCov3-Tiny與MAE-Tiny可以發現，雖然兩者相較于隨機初始化均可一定程度上引入local inductive bias，但MoCov3-Tiny從淺層到高層仍舊較為global且broad。這種特性可能使得以其為初始化的模型在下游微調時傾向于“走捷徑”，直接關注到全局信息而忽視局部細節信息。這對于較為簡單的下游任務來說可能是足夠的，但卻未必適宜難度較高的需要細粒度識別的分類任務（例如ImageNet）。

最后，文章驗證了采用一種簡單的知識蒸餾手段，即可顯著改善基于MAE的輕量級預訓練的質量，并顯著改善其下游遷移性能。

蒸餾方法與實驗效果

具體來說，基于MAE的框架，引入一個同樣采用MAE預訓練的較大規模的網絡（例如MAE-Base），并基于教師網絡與學生網絡的attention map之間的相似度構建蒸餾損失：

總結

文章聚焦在輕量級ViT的預訓練上，相當于為相關方向的研究提供了一個benchmark，相關的代碼與模型也都會開源，方便后續大家在這一方向上繼續探索； * 文章的研究也打破了之前人們對于ViT在輕量級賽道上沒有競爭優勢的慣有印象，只要采用合適的預訓練手段，輕量級ViT也會表現出足夠的競爭力；同時，文章也相當于為后續輕量級模型結構設計的相關研究提出了一個新的且足夠高的bar，“你的優勢未必是因為你足夠好，可能只不過是因為你曾經看不上的競爭對手還沒有充分發力”； * 文章首次將知識蒸餾引入基于MIM的輕量級ViT的預訓練中，并以極簡的形式取得了顯著的性能提升； * 文章在解決了一些問題的同時也帶來了更多的問題，例如：有沒有辦法可以讓輕量級ViT吃下更多的預訓練數據帶來更多的增益？有沒有辦法高效融合基于CL和MIM的預訓練方法，使得其兼具兩者的優勢？有沒有辦法不借助知識蒸餾來提升基于MIM的預訓練模型的高層表征質量？這些問題可能都值得未來去進一步探索。

參考

^abMasked Autoencoders Are Scalable Vision Learners. 1. ^SimMIM: A Simple Framework for Masked Image Modeling. 1. ^An Empirical Study of Training Self-Supervised Vision Transformers. 1. ^Emerging Properties in Self-Supervised Vision Transformers. 1. ^Algorithms for Learning Kernels Based on Centered Alignment.

付費5元查看完整內容

相關內容

ViT (Vision Transformers)

關注 0

Transformer · CVPR 2023 · 長尾數據 · 不平衡分類 ·

2023 年 6 月 16 日

[付費5元查看完整內容]【CVPR2023】視覺Transformer學習長尾數據，解決不平衡標注數據

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器之心專欄機器之心編輯部****本篇文章為大家介紹清華大學在 CVPR 2023 的論文，Learning Imbalanced Data with Vision Transformers（用視覺 Transformer 學習長尾數據），代碼已開源。

背景

**在機器學習領域中，學習不平衡的標注數據一直是一個常見而具有挑戰性的任務。近年來，視覺 Transformer 作為一種強大的模型，在多個視覺任務上展現出令人滿意的效果。然而，視覺 Transformer 處理長尾分布數據的能力和特性，還有待進一步挖掘。

目前，已有的長尾識別模型很少直接利用長尾數據對視覺 Transformer（ViT）進行訓練。基于現成的預訓練權重進行研究可能會導致不公平的比較結果，因此有必要對視覺 Transformer 在長尾數據下的表現進行系統性的分析和總結。

論文鏈接：//www.zhuanzhi.ai/paper/5d71014565ba29a679a64989cc54d0ab
代碼鏈接：

本文旨在填補這一研究空白，詳細探討了視覺 Transformer 在處理長尾數據時的優勢和不足之處。本文將重點關注如何有效利用長尾數據來提升視覺 Transformer 的性能，并探索解決數據不平衡問題的新方法。通過本文的研究和總結，研究團隊有望為進一步改進視覺 Transformer 模型在長尾數據任務中的表現提供有益的指導和啟示。這將為解決現實世界中存在的數據不平衡問題提供新的思路和解決方案。

文章通過一系列實驗發現，在有監督范式下，視覺 Transformer 在處理不平衡數據時會出現嚴重的性能衰退，而使用平衡分布的標注數據訓練出的視覺 Transformer 呈現出明顯的性能優勢。相比于卷積網絡，這一特點在視覺 Transformer 上體現的更為明顯。另一方面，無監督的預訓練方法無需標簽分布，因此在相同的訓練數據量下，視覺 Transformer 可以展現出類似的特征提取和重建能力。

基于以上觀察和發現，研究提出了一種新的學習不平衡數據的范式，旨在讓視覺 Transformer 模型更好地適應長尾數據。通過這種范式的引入，研究團隊希望能夠充分利用長尾數據的信息，提高視覺 Transformer 模型在處理不平衡標注數據時的性能和泛化能力。

文章貢獻

本文是第一個系統性的研究用長尾數據訓練視覺 Transformer 的工作，在此過程中，做出了以下主要貢獻：

首先，本文深入分析了傳統有監督訓練方式對視覺 Transformer 學習不均衡數據的限制因素，并基于此提出了雙階段訓練流程，將視覺 Transformer 模型內在的歸納偏置和標簽分布的統計偏置分階段學習，以降低學習長尾數據的難度。其中第一階段采用了流行的掩碼重建預訓練，第二階段采用了平衡的損失進行微調監督。

其次，本文提出了平衡的二進制交叉熵損失函數，并給出了嚴格的理論推導。平衡的二進制交叉熵損失的形式如下：

與之前的平衡交叉熵損失相比，本文的損失函數在視覺 Transformer 模型上展現出更好的性能，并且具有更快的收斂速度。研究中的理論推導為損失函數的合理性提供了嚴密的解釋，進一步加強了我們方法的可靠性和有效性。

不同損失函數的收斂速度的比較基于以上貢獻，文章提出了一個全新的學習范式 LiVT，充分發揮視覺 Transformer 模型在長尾數據上的學習能力，顯著提升模型在多個數據集上的性能。該方案在多個數據集上取得了遠好于視覺 Transformer 基線的性能表現。

不同參數量下在 ImageNet-LT 上的準確性。

在 ImagNet-LT（左）和 iNaturalist18（右）數據集上的性能表現同時，本文還驗證了在相同的訓練數據規模的情況下，使用ImageNet的長尾分布子集（LT）和平衡分布子集（BAL）訓練的 ViT-B 模型展現出相近的重建能力。如 LT-Large-1600 列所示，在 ImageNet-LT 數據集中，可以通過更大的模型和 MGP epoch 獲得更好的重建結果。

總結**

**本文提供了一種新的基于視覺 Transformer 處理不平衡數據的方法 LiVT。LiVT 利用掩碼建模和平衡微調兩個階段的訓練策略，使得視覺 Transformer 能夠更好地適應長尾數據分布并學習到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升，而且無需額外的數據，具有實際應用的可行性。論文的更多細節請參考論文原文和補充材料。

付費5元查看完整內容

ICML 2023 · Transformer · 提示學習 ·

2023 年 6 月 12 日

[付費5元查看完整內容]【ICML2023】改善自監督Vision Transformers的視覺提示調優

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

視覺提示調優（VPT）是一種有效的調整方法，用于將預訓練的Vision Transformers (ViTs)適應到下游任務。它利用額外的可學習的標記，稱為提示，來引導凍結的預訓練的ViTs。盡管VPT已經證明了其在監督視覺變換器中的應用性，但在自我監督的視覺變換器中常常表現不佳。通過實證觀察，我們推斷出VPT的有效性在很大程度上取決于提示標記與之交互的ViT塊。具體來說，當提示標記插入到后面的塊而不是第一個塊時，VPT在圖像分類任務中的性能有所提高，例如MAE和MoCo v3。這些觀察表明，存在一個插入提示標記的塊的最優位置。不幸的是，確定每個自我監督ViT中提示的最佳塊以適應多樣的未來場景是一個成本高昂的過程。為了緩解這個問題，我們提出了一種簡單而有效的方法，該方法學習每個ViT塊的一個門，以調整其對提示標記的干預。通過我們的方法，提示標記被選擇性地受到需要進行任務適應的塊的影響。我們的方法在FGVC和VTAB圖像分類以及ADE20K語義分割中優于VPT變體。代碼可在

//github.com/ryongithub/GatedPromptTuning 獲取。

付費5元查看完整內容

Transformer · 計算機視覺 · 編碼器 · 解碼器 · 綜述論文 ·

2021 年 11 月 16 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用，最具代表性的就是作為預訓練模型的核心構件，如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務（分類、檢測和分割）的角度對一百多種不同的視覺變換器進行了綜述，值得關注。

摘要

Transformer 是一種基于注意力的編碼器-解碼器架構，徹底改變了自然語言處理領域。受這一重大成就的啟發，最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作，這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比，visual Transformers 依靠有競爭力的建模能力，在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中，我們全面回顧了針對三個基本 CV 任務（分類、檢測和分割）的一百多種不同的視覺變換器，其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異，我們還在不同的配置上評估了這些方法，以方便直觀地進行比較，而不僅僅是各種基準測試。此外，我們揭示了一系列基本但未開發的方面，這些方面可能使 Transformer 從眾多架構中脫穎而出，例如，松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后，提出了三個有前景的未來研究方向，以供進一步研究。

//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基于注意力的結構，首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示，Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛，預先從足夠的數據集訓練，然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務，而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域，在視覺轉換器模型之前，卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發，一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率，但在主流基準上，這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述，基于注意力的模型在視覺識別領域受到了極大的關注，而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發，最近有許多作品將Transformer移植到CV任務中，并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer，在許多圖像分類基準上已經實現了SOTA。此外，visual transformer在其他CV任務中也取得了良好的性能，如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示，在[27]、[28]之后，在過去的一年中，針對各個領域提出了數百種基于transformer的模型。因此，我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域，我們針對這些現有的視覺變形金剛進行三個基本的CV任務，包括分類、檢測和分割。如圖2所示，本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如，一些改進不僅提高了骨干在圖像分類中的性能，而且還提高了密集預測任務(即檢測和分割)的性能，許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關于Transformer的綜述，Tay等[86]綜述了Transformer在NLP中的效率，Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型，以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述，對Transformer的各種變體進行了系統的綜述，并簡要地提到了可視化應用[89]。基于這些觀察，本文旨在對近期的視覺Transformer進行全面的回顧，并對現有的方法進行系統的分類:

(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型，如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析，而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。

(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置，本綜述通過將它們在不同的數據集和限制下分離，呈現了多個橫向比較。在此基礎上，我們總結了針對每個任務設計的一系列有前途的組件，包括: 基于層次結構的主干淺局部卷積，基于稀疏注意的空間先驗加速，以及用于分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程，Transformer與其他視覺網絡之間的對應關系，以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后，展望了未來的研究方向。例如，編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。

本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類，并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器，包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding)，闡明了在分割領域中主流的Transformer變體。此外，第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討，并指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上，我們現就以下三項基本任務近期的改進情況作一簡要總結。

對于分類，一個深度層次的Transformer主干可以有效地降低計算復雜度[39]，并在深度避免特征過平滑[35]，[40]，[59]，[60]。同時，早期卷積[37]足以捕獲低級特征，可以顯著增強淺層的魯棒性，降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。
在檢測方面，Transformer骨干得益于編碼器-解碼器結構，比僅使用編碼器的Transformer檢測器計算更少[73]。因此，解碼器是必要的，但由于其收斂速度慢[72]，需要的堆棧很少[70]。此外，稀疏注意力[67]有利于降低計算復雜度，加速Transformer的收斂，而空間先驗[67]、[69]、[71]則有利于Transformer的性能，收斂速度稍快。
對于分割，編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29]，[84]，[137]，將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外，還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

付費5元查看完整內容

Transformer · 視覺Transformer · 自監督學習 · 圖像分類 ·

2021 年 4 月 11 日

[付費5元查看完整內容]SiT: 自監督視覺Transformer

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近，自監督學習方法在計算機視覺領域獲得了越來越多的關注。在自然語言處理(NLP)中，自監督學習和transformer已經是選擇的方法。最近的文獻表明，transformers或某種協同監督(例如在教師網絡方面)進行預訓練時效果很好。這些監督的預訓練的視覺變換器在下游任務獲得了了非常好的結果，而只需要較小的模型改變。

在本研究中，我們探討了自監督學習在圖像/視覺變換器的預訓練，然后將其用于下游分類任務的優點。我們提出了自監督視覺變形器(SiT)，并討論了幾種自監督訓練機制來獲得前置模型。SiT的架構靈活性允許我們將其用作自動編碼器，并無縫地處理多個自監督任務。我們表明，預訓練的SiT可以被微調用于小規模數據集的下游分類任務，這些數據集由幾千張而不是幾百萬張圖像組成。

在通用協議的標準數據集上對所提出的方法進行了評估。實驗結果證明了該方法的有效性和自監督學習的可行性。我們大大超過了現有的自監督學習方法。我們還觀察到，SiT對少樣本學習很好，也表明它通過簡單地在從SiT學習到的特征之上訓練線性分類器來學習有用的表示。預訓練、調優和評估代碼將在以下鏈接中提供: //github.com/Sara-Ahmed/SiT。

引言

最近的趨勢表明，自監督預訓練可以顯著提高下游任務[4]、[5]的表現性能。在語音識別[6]和計算機視覺應用[7]、[8]、[9]、[10]中也觀察到類似的趨勢。如BERT[4]、[5]所示，自監督預訓練，特別是結合transformers [11]，是自然語言處理(NLP)的選擇模型。自監督學習的成功是以大量數據集和大容量模型為代價的，例如，基于NLP的變換器是根據數千億單詞組成的帶有數十億參數[5]的模型進行訓練的。最近在圖像分類中取得成功的transformers[1]引起了計算機視覺界的極大興趣。然而，視覺transformer的預訓練主要是針對非常大規模的有監督學習數據集進行研究，例如，由數億個標記樣本[1]組成的數據集。最近，在沒有外部數據[2]的情況下，視覺轉換器在imagenet上表現良好，但是，它們需要CNNs對等體的蒸餾方法和指導。簡而言之，利用大規模監督數據集進行預訓練是計算機視覺中的一種規范，用來訓練深度神經網絡以獲得更好的性能。然而，人工標注訓練數據是相當昂貴的，盡管在眾包創新方面取得了進展。為了解決這一限制，自監督學習方法[7]，[9]，[10]，[12]，[13]，[14]已被用到從未標記數據構建具有語義意義的圖像表示。

自監督方法大致可以分為生成式和判別性方法。生成式方法[15]，[16]，[17]學習建模數據的分布。然而，數據建模通常在計算上是昂貴的，并且在所有場景中可能不是表示學習所必需的。另一方面，通常在對比學習框架[8]、[18]、[19]、[20]或使用文本前任務[21]、[22]、[23]中實現的判別方法，證明了在適當的計算需求下獲得更好的泛化表示的能力。

對比學習的主要重點是學習對同一圖像的不同增廣視圖不變的圖像嵌入，同時對不同的圖像進行區分。盡管對比學習方法取得了令人印象深刻的結果，但他們往往忽視了對語境表征的學習，對于這一學習，替代的前置任務，如基于重構的方法，可能更適合。近年來，文獻中提出了一系列新穎的前置任務，包括修復斑塊[24]、著色[21]、[25]、[26]、相對斑塊位置[21]0、拼圖解決[27]、[28]、交叉信道預測[29]、噪聲預測[30]、圖像旋轉預測[22]、斑點偽影預測[23]等。

在這項工作中，我們介紹了一個簡單的自監督學習框架，利用對比學習和前置方法的優勢。本研究的主要貢獻和發現總結如下:

我們提出了一種新的視覺表示的自監督學習方法——自監督視覺Transformer(SiT)。
我們賦予SiT體系結構一個解碼器，并證明，由于Transformer的內在特性，它基本上可以通過使用一個線性層來實現。這種基于Transformer的自動編碼器避免了通常在基于CNN的編碼器-解碼器架構中出現的對整個解碼器塊的需要。
利用自編碼Transformer支持多任務學習的自然能力，我們開發了一個強大的自監督框架，共同優化重建(圖像修復)、旋轉分類和收縮損失。
我們在不同的評估協議(包括線性評估、領域轉移和微調)下，在標準基準上展示了擬議框架的有效性。
在不同的數據集中，我們比并發的最先進的結果表現更好，在很大的間隔達到+13.53%的改進。