基于Template的判別式跟蹤器由于其魯棒性和準確性而成為當前的主要跟蹤方法,而基于Siamese網絡的方法(依賴于從模板和搜索圖像中提取的特征之間的互相關操作)顯示了最新技術的跟蹤效果。但是,一般的互相關運算只能獲得兩個特征圖中的local patches之間的關系。在本文中,我們提出了一種基于強大的注意力機制的新穎跟蹤器網絡,該機制稱為Transformer編碼器-解碼器體系結構,以獲得全局和豐富的上下文相互依賴關系。在這種新架構中,模板圖像的特征由編碼器部分中的自注意力模塊處理,以學習強大的上下文信息,然后將其發送到解碼器部分,以計算與另一自我處理的搜索圖像特征之間的交叉注意力模塊。另外,我們使用Transformer的輸出來設計分類和回歸頭,以基于不可知形狀的錨來定位目標。我們在VOT2018,VOT2019,OTB-100,UAV,NfS,TrackingNet和LaSOT基準測試上對跟蹤器TrTr進行了廣泛的評估,并且我們的方法相對于最新算法表現良好。
相關運算在視覺目標跟蹤領域中發揮了重要作用,相關運算通過簡單的相似性比較,來完成模板特征和搜索區域特征的交互,輸出相似度圖。然而,相關運算本身是一個局部的線性匹配,導致了語義信息的丟失和全局信息的缺乏。針對相關運算的局限性,本工作提出了基于Transformer的特征融合模型,通過建立非線性語義融合和挖掘遠距離特征關聯有效聚合目標和搜索區域的全局信息,顯著提升了算法的精準度。TransT在多個跟蹤數據集上達到目前最先進的性能,速度可達50 fps。
本文提出一種Transformer輔助跟蹤框架,可與判別式跟蹤器結合(如組成:TrDiMP),表現SOTA!性能優于SiamRPN++等,代碼剛剛開源!
在視頻目標跟蹤中,連續幀之間存在豐富的時間上下文,在現有的跟蹤器中已大大忽略了這些上下文。在這項工作中,我們橋接單個視頻幀,并通過一個用于穩固對象跟蹤的Transformer架構探索跨它們的時間上下文。與在自然語言處理任務中使用轉換器的經典用法不同,我們將其編碼器和解碼器分為兩個并行分支,并在類似于Siamese的跟蹤pipeline中精心設計它們。Transformer編碼器通過基于注意力的特征增強來促進目標模板,這有利于高質量跟蹤模型的生成。Transformer解碼器將跟蹤提示從先前的模板傳播到當前幀,從而簡化了對象搜索過程。我們的Transformer輔助跟蹤框架整潔并以端到端的方式進行了訓練。使用提出的Transformer,一種簡單的連體匹配方法就可以勝過當前表現最佳的跟蹤器。通過將我們的Transformer與最新的判別式跟蹤pipeline相結合,我們的方法在流行的跟蹤基準上創下了一些新的最新記錄。
//www.zhuanzhi.ai/paper/c862787c6e21054a17ed51c178372f5e
最近提出的DETR,以消除在目標檢測中許多手工設計的組件的需要,同時顯示良好的性能。但由于Transformer注意模塊在處理圖像特征圖時的局限性,導致收斂速度慢,特征空間分辨率有限。為了減輕這些問題,我們提出了可變形的DETR,其注意力模塊只關注參考點周圍的一小組關鍵采樣點。可變形的DETR比DETR(特別是在小物體上)可以獲得更好的性能,訓練周期少10個。在COCO數據集上的大量實驗證明了我們的方法的有效性。
End-to-End Object Detection with Transformers
代碼:
本文已提交至ECCV 2020,作者團隊:Facebook AI Research。FAIR提出DETR:基于Transformers的端到端目標檢測,沒有NMS后處理步驟、真正的沒有anchor,直接對標且超越Faster R-CNN,代碼剛剛開源!
注:開源24小時,star數已高達700+!
簡介
本文提出了一種將目標檢測視為direct set直接集合預測問題的新方法。我們的方法簡化了檢測流程,有效地消除了對許多手工設計的組件的需求,例如非極大值抑制(NMS)或錨點生成,這些組件明確編碼了我們對任務的先驗知識。
這種稱為Detection Transformer或DETR的新框架的主要組成部分是基于集合的全局損失函數,該損失函數通過二分匹配和transformer編碼器-解碼器體系結構強制進行唯一的預測。給定一個固定的學習對象查詢的小集合,DETR會考慮目標對象與全局圖像上下文之間的關系,并直接并行輸出最終的預測集合。
與許多其他現代檢測器不同,新模型在概念上很簡單,并且不需要專門的庫。DETR與具有挑戰性的COCO對象檢測數據集上公認的且高度優化的Faster R-CNN baseline具有同等的準確性和運行時性能。此外,可以很容易地將DETR遷移到其他任務例如全景分割。
本文的Detection Transformer(DETR,請參見圖1)可以預測所有物體的劇烈運動,并通過設置損失函數進行端到端訓練,該函數可以在預測的物體與地面真實物體之間進行二分匹配。DETR通過刪除多個手工設計的后處理過程例如nms,對先驗知識進行編碼的組件來簡化檢測流程。與大多數現有的檢測方法不同,DETR不需要任何自定義層,因此可以在包含標準CNN和轉換器類的任何框架中輕松復制。
DETR的主要特征是二分匹配損失和具有(非自回歸)并行解碼的Transformer的結合。
參考: