時序動作提名生成旨在從一段未修剪的長視頻當中生成包含可能存在人類動作的視頻片段,其結合具體的動作類別標簽即構成時序動作檢測任務。目前的方法大多致力于生成靈活準確的時序邊界與可靠的提名置信度,但是仍然受限于匱乏的視頻時序依賴和動作邊界建模,導致了充滿噪聲的候選提名邊界和質量欠佳的置信度分數。
目前主流的時序動作提名生成方法主要分為兩步,首先對輸入的視頻特征序列進行簡單的時序信息融合,然后使用基于邊界預測的方法或者是基于預定義錨點框回歸的方法生成可能包含人體動作的大量候選時序提名。
//www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29
本文提出了一個用于時序動作提名修正的端到端框架。該方法主要針對現有主流時序動作提名生成方法中的兩步驟分別進行改進:
在第一步中,現有方法大多使用堆疊的1D時序卷積進行簡單的時序信息融合,然而,1D卷積在計算不同時序點之間的位置關系時,受限于卷積核的形狀和尺寸,雖然可以較好地建模短期的時序依賴,但是對于靈活多變的上下文關系則望塵莫及。部分辦法選擇了全局融合的方式實現了對全局特征的捕獲,但是直接使用全局池化之后的特征拼接到整個視頻特征序列上的每一個時刻位置,導致每一個時刻獲得的全局信息都是相同的,由此捕獲的時序依賴關系相對固定,缺乏多樣性和區分度,無法充分建模多樣的長時序依賴關系。
在第二步中,基于預定義錨點框回歸的方法可以提供基于提名全局特征的可靠置信度分數,然而直接使用提名的全局特征對于其局部邊界的準確位置不夠敏感,況且預定義尺度和比例的提名時序長度往往非常受限,不夠靈活,無法生成任意長度的候選提名。基于邊界預測的方法利用邊界的局部特征判斷一個時間點是否屬于動作邊界,對動作的起止邊緣比較敏感,并且使用邊界匹配機制來生成大量靈活的動作提名,獲得較高的召回率。由于缺乏客觀的提名特征,其置信度不夠可靠,導致其準確率較低。
參考鏈接:
基于CAM的弱監督定位方法主要通過多樣的空間正則提高目標響應區域,忽略了模型中隱含的目標結構信息。我們提出了基于高階相似性的目標定位方法 (SPA),充分挖掘了模型隱含的目標結構信息,顯著提高了弱監督目標定位準確度。
目前代碼已開源:
//github.com/Panxjia/SPA_CVPR2021
弱監督目標檢測近年來逐漸受到國內外研究機構以及工業界關注。基于全監督的目標檢測方法需要耗費大量的人力、物力獲取大量準確的標注信息,對于任務更新以及遷移極其不友好。近年來,全世界范圍內的研究者試圖從弱監督學習方面突破標注數據的限制,為目標檢測尋找一種更加高效、低廉的解決框架
弱監督定位研究如何僅利用圖像的類別標簽對圖像中目標進行定位。
2014年MIT提出的類別響應圖CAM,得到目標的響應掩模,之后通過最小包圍框得到目標的定位結果。CAM得到的類別響應掩模只能覆蓋目標最具判別性的局部區域,如圖1第二行所示。后續的研究工作多通過空間正則技術,如通過擦除、多分支補充等方法試圖擴大類別響應區域。雖然在響應區域上有一定的改善,但是現有的工作均忽略了保持目標結構特性的重要性,無法刻畫目標的邊緣、形狀等特性。另外,現有方法的分類網絡均采用Global Average Pooling(GAP)結構對特征進行聚合,這在一定程度上損失了目標的結構信息。
本文提出了一種兩階段的弱監督目標定位方法(SPA),從模型結構與類別響應圖兩個方面優化定位結果,提高響應掩模的準確度。整體方法框架如圖2所示。
具體地,從模型結構方面,我們提出了受限激活模塊。
現有方法中往往采用Global Average Pooling (GAP)+Softmax的分類結構,這種結構導致模型丟失目標結構信息,主要原因包括:
一,GAP結構將前景目標與背景區域混為一談,限制了模型定位前景目標的能力;
二,無限制的類別響應特征圖往往出現局部極高響應誤導模型分類的現象,不利于模型準確定位到目標的位置。
因此,我們設計了一個簡單有效的受限激活模塊,主要包括兩個部分:
一,我們首先通過計算每個特征位置在類別響應圖上的方差分布得到粗略的偽mask, 用以區分前背景;
二,我們利用Sigmoid操作對類別響應特征圖進行歸一化,之后利用提出的受限激活損失函數引導模型關注目標前景區域。
內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
特別檢索任務是給定查詢和文檔集合對相關文檔進行排序。一系列基于深度學習的方法被提出來解決這一問題,并得到了廣泛的關注。但是,我們認為它們本質上是基于局部詞序列的,忽略了細微的長距離文檔級詞關系。為了解決這一問題,我們通過圖結構明確地建模文檔級詞關系,并通過圖神經網絡捕獲微妙信息。此外,由于文檔集合的復雜性和規模,在更一般的級別上探索不同粒度層次匹配信號是相當重要的。因此,我們提出了一種基于圖的層次關聯匹配模型(GHRM)用于特殊檢索,該模型可以同時捕捉細微的和一般的層次匹配信號。我們在兩個具有代表性的特別檢索基準上驗證了GHRM的效果,綜合的實驗和結果表明它優于最新的檢索方法。
//www.zhuanzhi.ai/paper/f8e503be30747a4059bfb9e80e79705e
該文是清華大學&華為諾亞方舟聯合提出的一種視頻超分方案。在圖像/視頻質量改善領域,每年都會出現大量的paper,但真正值得深入研究的并不多。恰好該文是視頻超分領域非常不錯的文章之一,它在指標方面取得了媲美甚至優于EDVR的效果且并未使用形變卷積。所以這篇論文值得各位花點時間去了解一下。 視頻超分旨在根據低分辨率視頻生成高分辨率且更優視覺效果的視頻,目前它引起了越來越多的關注。在這篇論文中,作者提出一種采用分層方式利用時序信息的方法。輸入序列被分為多個組,不同組對應不同的幀率,這些組為參考幀重建遺失細節提供了互補信息,與此同時,還集成了注意力模塊與組間融合模塊。此外,作者還引入一種快速空域對齊以處理視頻的大位移運動。
作者通過了實驗證實了所提方法的在處理不同運動方面的有效性,并在多個基準數據集上取得了SOTA性能。總而言之,該文主要有下面幾點貢獻: