Language as Queries for Referring Video Object
這篇工作由字節跳動商業化技術團隊與香港大學合作完成。 文章提出了在參考視頻目標分割(Referring Video Object Segmentation, RVOS)領域進行端到端分割的解決方案。 參考視頻目標分割(RVOS)任務需要在視頻中將文本所指代的參考對象進行實例分割,與目前得到廣泛研究的參考圖像分割(RIS)相比,其文本描述不僅可以基于目標的外觀特征或者空間關系,還可以對目標所進行的動作進行描述,這要求模型有著更強的時空建模能力,且保證分割目標在所有視頻幀上的一致性;與傳統的視頻目標分割(VOS)任務相比,RVOS 任務在預測階段沒有給定分割目標的真值,從而增加了對目標進行正確精細分割的難度。
現有的 RVOS 方法往往都依賴于復雜的多階段框架,以保證分割目標的一致性。為了解決以上問題,本文提出了一種基于 Transformer 的端到端 RVOS 框架 —— ReferFormer,其將語言描述作為查詢條件,在視頻中僅僅關注于參考目標,并采用動態卷積對目標進行分割;除此之外,通過連接不同幀上相對應的查詢進行實例的整體輸出,可自然地完成目標的追蹤,無需任何后處理。該方法在四個 RVOS 數據集上(Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences)均取得了當前最優的性能。
基于時空記憶(STM)的視頻目標分割(VOS)網絡通常每隔幾幀不斷增加存儲庫,表現出良好的性能。然而,1)隨著視頻長度的增加,硬件無法承受不斷增長的內存需求。2)存儲大量的信息不可避免地會引入大量的噪聲,這不利于從存儲庫中讀取最重要的信息。在本文中,我們提出一種循環動態嵌入(RDE)來建立一個固定大小的存儲庫。具體來說,我們通過提出的時空聚合模塊(SAM)顯式地生成和更新RDE,該模塊利用歷史信息的線索。為了避免重復使用SAM造成的誤差積累,我們在訓練階段提出了無偏導損失,這使得SAM在長視頻中更穩健。此外,由于不準確的網絡推斷,在內存庫中預測的掩碼是不準確的,影響了查詢幀的分割。為了解決這一問題,我們設計了一種新的自校正策略,使網絡能夠修復存儲庫中不同質量的掩模嵌入。大量實驗表明,我們的方法在性能和速度之間取得了最好的折衷。代碼可在//github.com/ Limingxing00/RDE-VOS-CVPR2022獲得。
基于注意力的深度神經網絡(DNN)在NLP和CV等不同領域的各種任務上都表現出了卓越的性能。這些進展使得此類網絡(如 Transformer)成為解決多模態問題的有力候選。特別是近一兩年,Transformer 模型已經開始在CV任務上大展手腳,從目標識別到檢測,效果優于通用的CNN視覺骨干網絡。
參考視頻對象分割(referring video object segmentation, RVOS)任務涉及到給定視頻幀中文本參考對象實例的分割。相比之下,在得到更廣泛研究的參考圖像分割(referring image segmention, RIS)任務中,對象主要通過它們的外觀進行參考。在RVOS中,對象可以通過它們正在執行或參與的動作進行參考。這使得 RVOS比RIS復雜得多,因為參考動作的文本表達通常無法從單個靜態幀中推導出來。
此外,與基于圖像的 RIS 不同,RVOS 方法可能還需要跨多個幀(即跟蹤)來建立參考對象的數據關聯,以處理遮擋或運動模糊這類的干擾。
為了解決這些挑戰,現有 RVOS 方法往往依賴復雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院的研究者提出了一種簡單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。 圖片
論文地址://www.zhuanzhi.ai/paper/e260fb216d3eb9d5531757cbe91ef940 項目地址: Huggingface Spaces Gradio demo:
具體地,他們使用MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢,該模型在確定文本參考的對象之前為視頻中所有對象生成預測序列。并且,他們的方法不需要與文本相關的歸納偏置模塊,利用簡單的交叉熵損失對齊視頻和文本。因此,該方法相比以往簡單的多。
研究者提出的pipeline示意圖如下所示。首先使用標準的Transformer文本編碼器從文本查詢中提取語言特征,使用時空編碼器從視頻幀中提取視覺特征。接著將這些特征傳遞給多模態 Transformer 以輸出幾個對象預測序列。然后為了確定哪個預測序列能夠最好地對應參考對象,研究者計算了每個序列的文本參考分數。為此,他們還提出了一種時序分割voting方案,使模型在做出決策時專注于最相關的部分。
從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了+5.7和+5.0的mAP增益,同時每秒能夠處理76幀。
【基于Tracklet查詢和建議的高效視頻實例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal
● 論文摘要:視頻實例分割(Video Instance Segmentation, VIS)旨在同時對視頻中的多個對象實例進行分類、分割和跟蹤。本文提出了一個具有高效訓練和推理的全端到端框架EfficientVIS。其核心是tracklet查詢和tracklet提議,通過迭代的查詢-視頻交互將感興趣區域跨時空關聯和分割。我們進一步提出了一種函授學習方法,使片段之間的軌跡鏈接端到端可學習。與VisTR相比,EfficientVIS在YouTubeVIS基準上實現最先進的精度時,需要更少的15倍的訓練時間。同時,我們的方法使整個視頻實例分割在一個端到端傳遞,而不需要任何數據關聯。
● 論文主頁://jialianwu.com/projects/EfficientVIS.html
● 論文視頻:
● 作者單位:紐約州立大學布法羅分校、Amazon
論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院
編輯、內容生產、自動駕駛等領域。其中,半監督視頻目標分割,是指給定一段視頻和第一幀的目標物體,在視頻的所有剩余幀中分割出該物體。在一個視頻序列中,目標物體往往會因為連續運動和視角變化發生很大的外觀改變,包括形變和遮擋。同時視頻中往往會有和目標相似的其他物體存在,使得分辨目標更加困難。因此,視頻目標分割是一個比較有挑戰性的問題,至今還沒有很好的解決。
從最近的研究成果來看,Memory-based 的方法是目前 VOS 領域性能表現最佳的一類方法,其代表作是 STM。STM 提出利用過往所有歷史幀的信息,對于當前待分割的幀,STM 會將其與所有歷史幀在時空域上做一個匹配學習,從而將當前幀的特征和歷史幀的特征關聯起來,得到了遠超之前方法的效果。然而 STM 的分割結果中仍然有很多不足。如下圖所示,可以觀察到有兩個典型的錯誤現象:
左邊一列圖中,STM 會傾向于把和目標物體同類別的其他物體也分割出來。右邊一列圖中,STM 的分割結果中會出現一些錯誤的碎塊。這些錯誤樣本都有一個共同特點,就是其局部像素塊的外觀特征和待分割目標局部區域的外觀特征極為相似。這些 badcase 的現象和 STM 本身的原理是有關聯的,因為類似 STM 的 Memory-based 方法,在幀間關系建模上,是均等地在時間和空間域上做了一個特征像素級別的匹配,傾向于找出當前幀和所有歷史幀標記 mask 區域的特征相似區域,因此會產生上述 badcase。
為了進一步提升 Memory-based 的 VOS 方法,該研究提出從兩個方面去改進:
一、位置一致性。目標物體在視頻幀間的運動是遵循一定軌跡的,如果在某一幀的一些位置出現和目標物體相似的同類物體,如果其位置不合理,那么該物體是目標物體的可能性就會降低,不應該被分割。
二、目標一致性。視頻目標分割本質上也可以理解為是一個像素級別的物體跟蹤。雖然分割是像素級的任務,但 VOS 的處理對象是物體(object),需要有一個類似圖像實例分割中對于物體級別的約束。顯然那些錯誤的碎塊分割結果是不滿足一個目標物體整體的概念的。