視頻行為理解中的一個核心難點是「場景偏差」問題。比如,一段在籃球場跳舞的視頻,會被識別為打籃球,而非跳舞。我們提出一種自監督視頻表征學習方案,通過直接在代理任務中顯式解耦場景與運動信息,處理「場景偏差」難題。值得注意的是,本方案中,解耦的場景與運動信息均從「視頻壓縮編碼」中提取得到。其中場景由關鍵幀 (keyframes) 表示,運動由運動向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于該解耦方案預訓練的視頻網絡模型,遷移至行為理解和視頻檢索兩項下游任務,性能均顯著超過SOTA。
基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。
//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
本文提出一種Transformer輔助跟蹤框架,可與判別式跟蹤器結合(如組成:TrDiMP),表現SOTA!性能優于SiamRPN++等,代碼剛剛開源!
在視頻目標跟蹤中,連續幀之間存在豐富的時間上下文,在現有的跟蹤器中已大大忽略了這些上下文。在這項工作中,我們橋接單個視頻幀,并通過一個用于穩固對象跟蹤的Transformer架構探索跨它們的時間上下文。與在自然語言處理任務中使用轉換器的經典用法不同,我們將其編碼器和解碼器分為兩個并行分支,并在類似于Siamese的跟蹤pipeline中精心設計它們。Transformer編碼器通過基于注意力的特征增強來促進目標模板,這有利于高質量跟蹤模型的生成。Transformer解碼器將跟蹤提示從先前的模板傳播到當前幀,從而簡化了對象搜索過程。我們的Transformer輔助跟蹤框架整潔并以端到端的方式進行了訓練。使用提出的Transformer,一種簡單的連體匹配方法就可以勝過當前表現最佳的跟蹤器。通過將我們的Transformer與最新的判別式跟蹤pipeline相結合,我們的方法在流行的跟蹤基準上創下了一些新的最新記錄。
//www.zhuanzhi.ai/paper/c862787c6e21054a17ed51c178372f5e
自監督學習已被廣泛應用于從未標記圖像中獲取可轉移的表示。特別是,最近的對比學習方法在下游圖像分類任務中表現出了令人印象深刻的性能。這些對比方法主要集中在語義保留變換下的圖像級上生成不變的全局表示,容易忽略局部表示的空間一致性,因此在目標檢測和實例分割等本地化任務的預處理中存在一定的局限性。此外,在現有的對比方法中使用的積極裁剪視圖可以最小化單個圖像中語義不同區域之間的表示距離。
在本文中,我們提出了一種用于多目標和特定位置任務的空間一致表示學習算法(SCRL)。特別地,我們設計了一個新的自監督目標,試圖根據幾何平移和縮放操作產生隨機裁剪局部區域的連貫空間表示。在使用基準數據集的各種下游定位任務上,提出的SCRL顯示了相對于圖像級監督前訓練和最先進的自監督學習方法的顯著性能改進。代碼將會被發布。
//www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0
code:
本文是新加坡國立大學Qinbin Hou&Jiashi Feng等人在注意力機制方面的一次探索,針對如何有效提升移動網絡的卷積特征表達能力,以及通道注意力(如SE)機制能夠有效建模通道間相關性但忽視了位置信息的問題,提出了一種的新穎的注意力機制:Coordinate Attention。
Coordinate Attention通過水平與垂直方向注意力圖捕獲特征的遠程依賴關系,而且水平與垂直注意力還可以有效保持精確的位置信息。所提注意力集中的精確位置信息無論對于分類,還是檢測與分割而言都是一種非常重要的性能,因而所提注意力機制在圖像分類、目標檢測以及語義分割方面均取得了顯著的性能提升,尤其需要注意的是,所提注意力尤其適合于語義分割等稠密預測任務
移動網絡設計的近期研究表明:通道注意力(如Squeeze-and-Excitation)機制對于提升模型性能極為有效,但是忽略了位置信息,這對于生成空間選擇注意力圖非常重要。
針對通道注意力機制存在的上述問題,我們提出了一種用于移動網絡的新穎注意力機制:它將位置信息嵌入到通道注意力中,我們將其稱之為Coordinate Attention。不同于通道注意力將特征張量通過GAP轉換為特征向量,坐標注意力將通道注意力拆分為兩個1D特征編碼過程,分別沿著兩個空間方向集成特征。
通過這種處理,遠程相關性可以通過空間方向捕獲,于此同時,精確的位置信息可以通過另一個空間方向得以保持。所得到的特征圖分辨編碼為成對的方向相關注意力圖與通道注意力圖(兩者具有互補性),并用于增強輸入特征以增廣目標的表達能力。
所提坐標注意力機制極為簡單,可以靈活嵌入到現有移動網絡(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且幾乎不會導致額外的計算負載。
我們通過實驗證實:坐標注意力不僅有助于ImageNet分類,在下游任務(比如目標檢測、語義分割)上表達更佳。下圖給出了所提注意力與SE/CBAM在不同任務上的性能對比。
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。
【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的只有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基于視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。
為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析
AAAI 2021 Accepted Papers : //aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf
AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI
1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio
作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi
摘要:視頻實例分割是一項復雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用于目標的檢測,分割和跟蹤,并且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機制精心設計了聚合過程,該機制會顯著提高學習特征的判別力。通過合并特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。
圖片 代碼:
.
網址:
2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation
作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou
摘要:盡管基于深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然后,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關系),幀內特征(當前幀中的密集對應關系)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,并在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最后,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,并且具有顯著的改進。
圖片 網址:
3. Non-Autoregressive Coarse-to-Fine Video Captioning
作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang
摘要:目前在橋接視頻(bridge videos)和自然語言方面取得了很不錯的進展。然而,由于自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,并且由于對視覺單詞(例如,名詞和動詞)的訓練不足和解碼范式不足,更傾向于生成一般描述。在本文中,我們提出了一種基于非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基于雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒于視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機制,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此后,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,并通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述并獲得較高的推理效率。
圖片 網址:
4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation
作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou
摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基于檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用于視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,并使用用于掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的歷史掩碼來細化當前幀的掩碼。局部補丁細節和時間關系的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。
網址:
5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis
作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song
摘要:視頻情感分析作為一個決策過程,其本質是復雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用于預測情感判斷。特別地,我們在具有正算子值測度的復值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優于各種現有決策級別和一系列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。
圖片 網址:
如何在具有多種聲源的『雞尾酒會』中區分不同的聲音對象,這對人類來說是一項基本能力,但對當前的機器而言卻仍然極具挑戰!為此,本文提出一種基于課程學習策略的兩階段框架,實現了自監督下不同發聲物體的判別性感知與定位。首先,我們提出在單聲源場景中聚合候選聲音定位結果以學習魯棒的物體表征。進而在雞尾酒會情景中,參考先期課程學習到的物體知識以生成不同物體的語義判別性定位圖,通過將視音一致性視為自監督信息,匹配視音類別分布以濾除無聲物體和選擇發聲對象。大量基于合成和真實多聲源場景的實驗表明,本文所提模型能夠實現在無語義類別標注情形下,同時濾除無聲物體和指出發聲物體的明確位置并判定其類別屬性,這在視覺多聲源定位上尚屬首次。