亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于注意力的深度神經網絡(DNN)在NLP和CV等不同領域的各種任務上都表現出了卓越的性能。這些進展使得此類網絡(如 Transformer)成為解決多模態問題的有力候選。特別是近一兩年,Transformer 模型已經開始在CV任務上大展手腳,從目標識別到檢測,效果優于通用的CNN視覺骨干網絡。

參考視頻對象分割(referring video object segmentation, RVOS)任務涉及到給定視頻幀中文本參考對象實例的分割。相比之下,在得到更廣泛研究的參考圖像分割(referring image segmention, RIS)任務中,對象主要通過它們的外觀進行參考。在RVOS中,對象可以通過它們正在執行或參與的動作進行參考。這使得 RVOS比RIS復雜得多,因為參考動作的文本表達通常無法從單個靜態幀中推導出來。

此外,與基于圖像的 RIS 不同,RVOS 方法可能還需要跨多個幀(即跟蹤)來建立參考對象的數據關聯,以處理遮擋或運動模糊這類的干擾。

為了解決這些挑戰,現有 RVOS 方法往往依賴復雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院的研究者提出了一種簡單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。 圖片

論文地址://www.zhuanzhi.ai/paper/e260fb216d3eb9d5531757cbe91ef940 項目地址: Huggingface Spaces Gradio demo:

具體地,他們使用MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢,該模型在確定文本參考的對象之前為視頻中所有對象生成預測序列。并且,他們的方法不需要與文本相關的歸納偏置模塊,利用簡單的交叉熵損失對齊視頻和文本。因此,該方法相比以往簡單的多。

研究者提出的pipeline示意圖如下所示。首先使用標準的Transformer文本編碼器從文本查詢中提取語言特征,使用時空編碼器從視頻幀中提取視覺特征。接著將這些特征傳遞給多模態 Transformer 以輸出幾個對象預測序列。然后為了確定哪個預測序列能夠最好地對應參考對象,研究者計算了每個序列的文本參考分數。為此,他們還提出了一種時序分割voting方案,使模型在做出決策時專注于最相關的部分。

從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了+5.7和+5.0的mAP增益,同時每秒能夠處理76幀。

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

論文題目:Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者:薛宏偉*,杭天愷*,曾艷紅*,孫宇沖*,劉蓓,楊歡,傅建龍,郭百寧 論文概述:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習并使大量的下游VL任務受益。現有的研究要么是提取低質量的視頻特征,要么是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用于許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻,以及(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,后者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。

付費5元查看完整內容

論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院

付費5元查看完整內容

本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。

//www.zhuanzhi.ai/paper/0ef8bdd09f3e46584b83f6236ca799fb

付費5元查看完整內容
北京阿比特科技有限公司