亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文提出一種Transformer輔助跟蹤框架,可與判別式跟蹤器結合(如組成:TrDiMP),表現SOTA!性能優于SiamRPN++等,代碼剛剛開源!

在視頻目標跟蹤中,連續幀之間存在豐富的時間上下文,在現有的跟蹤器中已大大忽略了這些上下文。在這項工作中,我們橋接單個視頻幀,并通過一個用于穩固對象跟蹤的Transformer架構探索跨它們的時間上下文。與在自然語言處理任務中使用轉換器的經典用法不同,我們將其編碼器和解碼器分為兩個并行分支,并在類似于Siamese的跟蹤pipeline中精心設計它們。Transformer編碼器通過基于注意力的特征增強來促進目標模板,這有利于高質量跟蹤模型的生成。Transformer解碼器將跟蹤提示從先前的模板傳播到當前幀,從而簡化了對象搜索過程。我們的Transformer輔助跟蹤框架整潔并以端到端的方式進行了訓練。使用提出的Transformer,一種簡單的連體匹配方法就可以勝過當前表現最佳的跟蹤器。通過將我們的Transformer與最新的判別式跟蹤pipeline相結合,我們的方法在流行的跟蹤基準上創下了一些新的最新記錄。

//www.zhuanzhi.ai/paper/c862787c6e21054a17ed51c178372f5e

付費5元查看完整內容

相關內容

基于Template的判別式跟蹤器由于其魯棒性和準確性而成為當前的主要跟蹤方法,而基于Siamese網絡的方法(依賴于從模板和搜索圖像中提取的特征之間的互相關操作)顯示了最新技術的跟蹤效果。但是,一般的互相關運算只能獲得兩個特征圖中的local patches之間的關系。在本文中,我們提出了一種基于強大的注意力機制的新穎跟蹤器網絡,該機制稱為Transformer編碼器-解碼器體系結構,以獲得全局和豐富的上下文相互依賴關系。在這種新架構中,模板圖像的特征由編碼器部分中的自注意力模塊處理,以學習強大的上下文信息,然后將其發送到解碼器部分,以計算與另一自我處理的搜索圖像特征之間的交叉注意力模塊。另外,我們使用Transformer的輸出來設計分類和回歸頭,以基于不可知形狀的錨來定位目標。我們在VOT2018,VOT2019,OTB-100,UAV,NfS,TrackingNet和LaSOT基準測試上對跟蹤器TrTr進行了廣泛的評估,并且我們的方法相對于最新算法表現良好。

付費5元查看完整內容

Mobile Network設計的最新研究成果表明,通道注意力(例如,SE注意力)對于提升模型性能具有顯著效果,但它們通常會忽略位置信息,而位置信息對于生成空間選擇性attention maps是非常重要。

因此在本文中,作者通過將位置信息嵌入到通道注意力中提出了一種新穎的移動網絡注意力機制,將其稱為“Coordinate Attention”。

與通過2維全局池化將特征張量轉換為單個特征向量的通道注意力不同,coordinate注意力將通道注意力分解為兩個1維特征編碼過程,分別沿2個空間方向聚合特征。這樣,可以沿一個空間方向捕獲遠程依賴關系,同時可以沿另一空間方向保留精確的位置信息。然后將生成的特征圖分別編碼為一對方向感知和位置敏感的attention map,可以將其互補地應用于輸入特征圖,以增強關注對象的表示。

本文所提的Coordinate注意力很簡單,可以靈活地插入到經典的移動網絡中,例如MobileNetV2,MobileNeXt和EfficientNet,而且幾乎沒有計算開銷。大量實驗表明,Coordinate注意力不僅有益于ImageNet分類,而且更有趣的是,它在下游任務(如目標檢測和語義分割)中表現也很好。

付費5元查看完整內容

相關運算在視覺目標跟蹤領域中發揮了重要作用,相關運算通過簡單的相似性比較,來完成模板特征和搜索區域特征的交互,輸出相似度圖。然而,相關運算本身是一個局部的線性匹配,導致了語義信息的丟失和全局信息的缺乏。針對相關運算的局限性,本工作提出了基于Transformer的特征融合模型,通過建立非線性語義融合和挖掘遠距離特征關聯有效聚合目標和搜索區域的全局信息,顯著提升了算法的精準度。TransT在多個跟蹤數據集上達到目前最先進的性能,速度可達50 fps。

//www.zhuanzhi.ai/paper/7dc7d2e7e635f18776db3f04e7c58bbb

付費5元查看完整內容

本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。

//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859

付費5元查看完整內容

視頻行為理解中的一個核心難點是「場景偏差」問題。比如,一段在籃球場跳舞的視頻,會被識別為打籃球,而非跳舞。我們提出一種自監督視頻表征學習方案,通過直接在代理任務中顯式解耦場景與運動信息,處理「場景偏差」難題。值得注意的是,本方案中,解耦的場景與運動信息均從「視頻壓縮編碼」中提取得到。其中場景由關鍵幀 (keyframes) 表示,運動由運動向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于該解耦方案預訓練的視頻網絡模型,遷移至行為理解和視頻檢索兩項下游任務,性能均顯著超過SOTA。

//www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

付費5元查看完整內容

本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對于輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。

//www.zhuanzhi.ai/paper/5ab3f5fa3690be4e5e52724c176bc252

付費5元查看完整內容

Adaptive Consistency Regularization for Semi-Supervised Transfer Learning Abulikemu Abuduweili1,2*, Xingjian Li1,3? , Humphrey Shi2? , Cheng-Zhong Xu3 , Dejing Dou1?

雖然最近關于半監督學習的研究在利用標記和未標記數據方面取得了顯著進展,但大多數研究都假定模型的基本設置是隨機初始化的。在這項工作中,我們將半監督學習和遷移學習結合起來,從而形成一個更實用和更具競爭力的范式,該范式可以利用來自源領域的強大的預訓練模型以及目標領域的標記/未標記數據。更好地利用pre-trained權重和標記的價值目標的例子,我們引入自適應一致性互補正規化,由兩部分組成:自適應知識一致性(AKC)在源和目標之間的示例模型和自適應表示一致性(AKC)標記和未標記示例之間的目標模型。一致性正則化所涉及的實例是根據它們對目標任務的潛在貢獻自適應選擇的。通過微調ImageNet預先訓練的ResNet-50模型,我們對流行基準進行了廣泛的實驗,包括CIFAR-10、CUB-200、Indoor67和MURA。結果表明,我們提出的自適應一致性正則化優于最先進的半監督學習技術,如偽標簽、Mean Teacher和MixMatch。此外,我們的算法與現有的方法是正交的,因此能夠在MixMatch和FixMatch之上獲得額外的改進。我們的代碼可以在//github.com/SHI-Labs/SemiSupervised-Transfer-Learning上找到。

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。

//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58

付費5元查看完整內容

視頻實例分割是一項復雜的任務,我們需要檢測、分割和跟蹤任何給定視頻的每個對象。以往的方法只利用單幀特征來檢測、分割和跟蹤目標,而目標在視頻場景中會因為運動模糊和劇烈的外觀變化等問題而受到影響。為了消除僅使用單幀特征所帶來的模糊性,我們提出了一種新的綜合特征聚合方法(CompFeat),利用時間和空間上下文信息在幀級和對象級對特征進行細化。聚合過程是精心設計的一個新的注意機制,這大大增加了識別能力的學習特征。通過結合特征相似性和空間相似性的暹羅設計,進一步提高了模型的跟蹤能力。在YouTube-VIS數據集上進行的實驗驗證了提出的CompFeat的有效性。我們的代碼將在//github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。

付費5元查看完整內容
北京阿比特科技有限公司