在Transformer模型[1,2,6,7,8]中,相對位置編碼顯式地對任意兩個Token的位置關系進行建模,提高了模型的表征能力。它的有效性在自然語言處理領域得到了充分證明[14,15,16,17,18]。然而,在計算機視覺領域,討論相對位置編碼的工作比較少[9,10,11,12,13]且存在不同的觀點。由于圖像可視為二維的序列,如何將一維相對位置編碼推廣到二維相對位置編碼,解決方案仍不清晰。本篇論文提出了四種二維相對位置編碼的映射方式,同時分析了Vision Transformer中影響二維相對位置性能的關鍵因素,得到了以下有趣的發現:
不需要調整訓練的超參數,相對位置編碼能給圖像分類和目標檢測的Vision Transformers模型帶來顯著的精度提升;
相對位置的方向信息在圖像分類、目標檢測任務中有著重要作用;
輸入相關的相對位置編碼比輸入無關的相對位置編碼更有效;
組合不同嵌入特征上的相對位置編碼,能夠進一步提升模型的表征能力;
在圖像分類任務中,相對位置編碼可以完全替代絕對位置編碼,因為圖像分類不需要預測物體的位置,相對位置編碼能夠讓模型更關注局部信息;在目標檢測任務中,相對位置編碼能提高模型精度,但絕對位置編碼是必須的,因為相對位置編碼不能提供物體定位所需的絕對位置信息。 //houwenpeng.com/publications/iRPE.pdf
由于線性空間和時間的復雜性,Transformer模型的最新進展允許前所未有的序列長度。同時,相對位置編碼(relative position encoding, RPE)被認為是一種利用滯后而不是絕對位置進行推理的方法。盡管如此,RPE還不能用于Transformer最近的線性變體,因為它需要顯式計算注意力矩陣,而這正是這些方法所避免的。在本文中,我們填補了這一缺口,并提出了隨機位置編碼作為生成PE的一種方法,該方法可以用來替代經典的加性(正弦)PE,并且可以證明其行為類似于RPE。其主要理論貢獻是將位置編碼與相關高斯過程的交叉協方差結構聯系起來。我們在Long-Range Arena基準測試和音樂生成上證明了我們的方法的性能。
//www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1
相關運算在視覺目標跟蹤領域中發揮了重要作用,相關運算通過簡單的相似性比較,來完成模板特征和搜索區域特征的交互,輸出相似度圖。然而,相關運算本身是一個局部的線性匹配,導致了語義信息的丟失和全局信息的缺乏。針對相關運算的局限性,本工作提出了基于Transformer的特征融合模型,通過建立非線性語義融合和挖掘遠距離特征關聯有效聚合目標和搜索區域的全局信息,顯著提升了算法的精準度。TransT在多個跟蹤數據集上達到目前最先進的性能,速度可達50 fps。
本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。
//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859
Self-supervised learning methods are gaining increasing traction in computer vision due to their recent success in reducing the gap with supervised learning. In natural language processing (NLP) self-supervised learning and transformers are already the methods of choice. The recent literature suggests that the transformers are becoming increasingly popular also in computer vision. So far, the vision transformers have been shown to work well when pretrained either using a large scale supervised data or with some kind of co-supervision, e.g. in terms of teacher network. These supervised pretrained vision transformers achieve very good results in downstream tasks with minimal changes. In this work we investigate the merits of self-supervised learning for pretraining image/vision transformers and then using them for downstream classification tasks. We propose Self-supervised vIsion Transformers (SiT) and discuss several self-supervised training mechanisms to obtain a pretext model. The architectural flexibility of SiT allows us to use it as an autoencoder and work with multiple self-supervised tasks seamlessly. We show that a pretrained SiT can be finetuned for a downstream classification task on small scale datasets, consisting of a few thousand images rather than several millions. The proposed approach is evaluated on standard datasets using common protocols. The results demonstrate the strength of the transformers and their suitability for self-supervised learning. We outperformed existing self-supervised learning methods by large margin. We also observed that SiT is good for few shot learning and also showed that it is learning useful representation by simply training a linear classifier on top of the learned features from SiT. Pretraining, finetuning, and evaluation codes will be available under: //github.com/Sara-Ahmed/SiT.
基于Transformers 從序列到序列的角度重新思考語義分割
Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers
我們希望為語義分割方法提供另一種思路,將語義分割轉變為序列到序列的預測任務。在本文中,我們使用transformer(不使用卷積和降低分辨率)將圖像編碼為一系列patch序列。transformer的每一層都進行了全局的上下文建模,結合常規的Decoder模塊,我們得到了一個強大的語義分割模型,稱之為Segmentation transformer(SETR)。大量實驗表明,SETR在ADE20K(50.28%mIoU),Pascal Context(55.83%mIoU)上達到SOTA,并在Cityscapes上取得了較好結果。
來自UIUC的Transformers最新教程。
Transformer 架構 architecture Attention models Implementation details Transformer-based 語言模型 language models BERT GPT Other models
Transformer 視覺 Applications of Transformers in vision
最近提出的DETR,以消除在目標檢測中許多手工設計的組件的需要,同時顯示良好的性能。但由于Transformer注意模塊在處理圖像特征圖時的局限性,導致收斂速度慢,特征空間分辨率有限。為了減輕這些問題,我們提出了可變形的DETR,其注意力模塊只關注參考點周圍的一小組關鍵采樣點。可變形的DETR比DETR(特別是在小物體上)可以獲得更好的性能,訓練周期少10個。在COCO數據集上的大量實驗證明了我們的方法的有效性。
僅憑對話就能猜測人類行為嗎?在這項工作中,我們調查了電影中的言語和動作之間的聯系。我們注意到,電影劇本描述動作,也包含角色的語言,因此可以用來學習這種相關性,而不需要額外的監督。我們在一千多部電影劇本中訓練一個基于BERT的語音動作分類器,從轉錄的語音片段中預測動作標簽。然后,我們將該模型應用于一個大型未標記電影語料庫的語音片段(來自288K電影的1.88億個語音片段)。利用該模型的預測,我們得到了800K以上視頻片段的弱動作標簽。通過對這些視頻剪輯的訓練,我們在標準動作識別基準上展示了優越的動作識別性能,而無需使用一個手動標記的動作示例。