亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

基于注意力的深度神經網絡(DNN)在NLP和CV等不同領域的各種任務上都表現出了卓越的性能。這些進展使得此類網絡(如 Transformer)成為解決多模態問題的有力候選。特別是近一兩年,Transformer 模型已經開始在CV任務上大展手腳,從目標識別到檢測,效果優于通用的CNN視覺骨干網絡。

參考視頻對象分割(referring video object segmentation, RVOS)任務涉及到給定視頻幀中文本參考對象實例的分割。相比之下,在得到更廣泛研究的參考圖像分割(referring image segmention, RIS)任務中,對象主要通過它們的外觀進行參考。在RVOS中,對象可以通過它們正在執行或參與的動作進行參考。這使得 RVOS比RIS復雜得多,因為參考動作的文本表達通常無法從單個靜態幀中推導出來。

此外,與基于圖像的 RIS 不同,RVOS 方法可能還需要跨多個幀(即跟蹤)來建立參考對象的數據關聯,以處理遮擋或運動模糊這類的干擾。

為了解決這些挑戰,現有 RVOS 方法往往依賴復雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院的研究者提出了一種簡單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。 圖片

論文地址://www.zhuanzhi.ai/paper/e260fb216d3eb9d5531757cbe91ef940 項目地址: Huggingface Spaces Gradio demo:

具體地,他們使用MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢,該模型在確定文本參考的對象之前為視頻中所有對象生成預測序列。并且,他們的方法不需要與文本相關的歸納偏置模塊,利用簡單的交叉熵損失對齊視頻和文本。因此,該方法相比以往簡單的多。

研究者提出的pipeline示意圖如下所示。首先使用標準的Transformer文本編碼器從文本查詢中提取語言特征,使用時空編碼器從視頻幀中提取視覺特征。接著將這些特征傳遞給多模態 Transformer 以輸出幾個對象預測序列。然后為了確定哪個預測序列能夠最好地對應參考對象,研究者計算了每個序列的文本參考分數。為此,他們還提出了一種時序分割voting方案,使模型在做出決策時專注于最相關的部分。

從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了+5.7和+5.0的mAP增益,同時每秒能夠處理76幀。

付費5元查看完整內容

【基于Tracklet查詢和建議的高效視頻實例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal
● 論文摘要:視頻實例分割(Video Instance Segmentation, VIS)旨在同時對視頻中的多個對象實例進行分類、分割和跟蹤。本文提出了一個具有高效訓練和推理的全端到端框架EfficientVIS。其核心是tracklet查詢和tracklet提議,通過迭代的查詢-視頻交互將感興趣區域跨時空關聯和分割。我們進一步提出了一種函授學習方法,使片段之間的軌跡鏈接端到端可學習。與VisTR相比,EfficientVIS在YouTubeVIS基準上實現最先進的精度時,需要更少的15倍的訓練時間。同時,我們的方法使整個視頻實例分割在一個端到端傳遞,而不需要任何數據關聯。
● 論文主頁://jialianwu.com/projects/EfficientVIS.html
● 論文視頻:
● 作者單位:紐約州立大學布法羅分校、Amazon

付費5元查看完整內容

多模態視頻字幕的端到端生成預訓練】End-to-end Generative Pretraining for Multimodal Video Captioning
● 論文摘要:最近的視頻和語言前訓練框架缺乏生成句子的能力。我們提出了多模態視頻生成預訓練(MV-GPT),這是一個新的用于從無標簽視頻學習的預訓練框架,它可以有效地用于生成任務,如多模態視頻字幕。與最近的視頻語言預訓練框架不同,我們的框架同時訓練多模態視頻編碼器和句子解碼器。為了克服無標簽視頻中字幕的缺乏,我們利用未來話語作為一個額外的文本源,并提出一個雙向生成目標——我們在當前多模態語境下生成未來話語,在未來觀察下也生成當前話語。基于此目標,我們訓練一個端到端的編碼器-解碼器模型來直接從原始像素和轉錄語音生成標題。我們的模型在四個標準基準上的多模態視頻字幕以及其他視頻理解任務(如VideoQA、視頻檢索和動作分類)上都達到了最先進的性能。
● 論文鏈接://arxiv.org/abs/2201.08264
● 作者單位:Google Research

付費5元查看完整內容

本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。

//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859

付費5元查看完整內容

檢索與自然語言查詢相關的視頻內容對有效處理互聯網規模的數據集起著至關重要的作用。大多數現有的字幕-視頻檢索方法都沒有充分利用視頻中的跨模態線索。此外,他們聚合每幀的視覺特征與有限的或沒有時間信息。在本文中,我們提出了一種多模態Transformer聯合編碼視頻中不同的模態,使每一個模態關注其他模態。transformer架構還被用于對時態信息進行編碼和建模。在自然語言方面,我們研究了聯合優化嵌入在多模態轉換器中的語言的最佳實踐。這個新的框架允許我們建立最先進的視頻檢索結果在三個數據集。更多詳情請訪問//thoth.inrialpes.fr/research/MMT。

付費5元查看完整內容

主題: Learning Video Object Segmentation from Unlabeled Videos

摘要:

我們提出了一種新的視頻對象分割方法(VOS),解決了從未標記的視頻中學習對象模式的問題,而現有的方法大多依賴于大量的帶注釋的數據。我們引入了一個統一的無監督/弱監督學習框架,稱為MuG,它全面地捕捉了VOS在多個粒度上的內在特性。我們的方法可以幫助提高對VOS中可視模式的理解,并顯著減少注釋負擔。經過精心設計的體系結構和強大的表示學習能力,我們的學習模型可以應用于各種VOS設置,包括對象級零鏡頭VOS、實例級零鏡頭VOS和單鏡頭VOS。實驗表明,在這些設置下,有良好的性能,以及利用無標記數據進一步提高分割精度的潛力。

付費5元查看完整內容
北京阿比特科技有限公司