視頻識別作為視頻理解的基礎技術,是近幾年非常熱門的計算機視覺研究方向。現有的基于3D卷積網絡的方法識別精度優異但計算量偏大,基于2D網絡的方法雖然相對輕量但精度不及3D卷積網絡。本文提出一種輕量的多視角融合模塊(MVF Module)用于高效率且高性能的視頻識別,該模塊是一個即插即用的模塊,能夠直接插入到現有的2D卷積網絡中構成一個簡單有效的模型,稱為MVFNet。此外,MVFNet可以視為一種通用的視頻建模框架,通過設置模塊內的參數,MVFNet可轉化為經典的C2D, SlowOnly和TSM網絡。實驗結果顯示,在五個視頻benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet僅僅使用2D卷積網絡的計算量就能夠取得與當前最先進的3D卷積網絡媲美甚至更高的性能。
本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。 本文提出了一個語義分組網絡(SGN)的視頻描述生成網絡,該網絡嘗試(1)使用具有部分已解碼描述的可區分詞組對視頻幀進行分組,然后(2)在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。 本文發現連續的幀可能提供了相同的信息,然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射,通過建立此映射可以將語義上相關的幀聚類,從而減少冗余。與現有方法相反,來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外,本文提出了一種對比注意損失,以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。
//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa
視頻實例分割是一項復雜的任務,我們需要檢測、分割和跟蹤任何給定視頻的每個對象。以往的方法只利用單幀特征來檢測、分割和跟蹤目標,而目標在視頻場景中會因為運動模糊和劇烈的外觀變化等問題而受到影響。為了消除僅使用單幀特征所帶來的模糊性,我們提出了一種新的綜合特征聚合方法(CompFeat),利用時間和空間上下文信息在幀級和對象級對特征進行細化。聚合過程是精心設計的一個新的注意機制,這大大增加了識別能力的學習特征。通過結合特征相似性和空間相似性的暹羅設計,進一步提高了模型的跟蹤能力。在YouTube-VIS數據集上進行的實驗驗證了提出的CompFeat的有效性。我們的代碼將在//github.com/shi-labs/compfeat-forvideo - instance - segmentation提供。