時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。
用于基于視頻的推理任務(如視頻問答)的時空場景圖方法通常為每一幀視頻構建這樣的圖。這種方法通常忽略了一個事實,即視頻本質上是發生在3D空間中的事件的2D“視圖”序列,并且3D場景的語義也因此能夠在幀間傳遞。利用這一觀點,我們提出了一個(2.5+1)D場景圖表示,以更好地捕捉視頻中的時空信息流。具體來說,我們首先創建2.5D(偽3D)場景圖,通過使用現成的2D到3D轉換模塊將每一幀2D畫面轉換成推斷出的3D結構,然后我們將視頻幀注冊到共享的(2.5+1)D時空空間中,并將其中的每個2D場景圖置于地面。這樣一個(2.5+1)D圖被分離成一個靜態子圖和一個動態子圖,對應于其中的對象是否通常在世界中移動。動態圖中的節點被運動特征所豐富,捕捉到它們與其他圖節點的交互。接下來,在視頻QA任務中,我們提出了一種新的基于Transformer的推理管道,將(2.5+1)D圖嵌入到一個時空層次潛在空間中,在該空間中,子圖及其交互以不同的粒度捕獲。為了證明該方法的有效性,我們在NExT-QA和AVSD-QA數據集上進行了實驗。我們的結果表明,我們提出的(2.5+1)D表示法導致了更快的訓練和推理,而我們的分層模型在視頻QA任務上的表現優于目前的技術水平。
視覺跟蹤是計算機視覺領域的一個重要問題,在視覺監控、智能交通、機器人等視覺系統中發揮著重要作用。然而,現有的跟蹤方法往往基于 RGB 圖像序列,這些序列對亮度的變化非常敏感,因此一些目標在弱光條件下是無效的。在這種情況下,現有方法的跟蹤性能可能會顯著降低。
//www.zhuanzhi.ai/paper/c6cc2d20fe3e758d83a8decbbc882956
引入諸如深度和紅外數據等其他方式是處理單個源成像局限性的有效方法,但多模態成像平臺通常需要精心設計,目前無法應用于許多現實應用中。近紅外(NIR)成像是許多監控攝像機的重要組成部分,其成像可以根據光照強度在 RGB 和 NIR 之間切換。這兩種方式是異質的,具有不同的視覺特性,因此給視覺跟蹤帶來了巨大的挑戰。然而,現有的研究工作尚未對這一具有挑戰性的問題進行研究。那么如何設計一種合適的算法,以緩解RGB和NIR模式之間的外觀差距,并靈活地嵌入到不同的跟蹤框架中,實現魯棒的跨模式目標跟蹤?如何創建視頻基準數據集以促進跨模態目標跟蹤的研究和發展?
在這項工作中,我們解決了跨模態目標跟蹤課題,并提出了一個新的視頻數據集CMOTB,包括654個跨模態圖像序列,總幀數超過486k,平均視頻長度超過735幀。為了促進跨模態目標跟蹤的研究和發展,我們提出了一個新的即插即用模塊。該模塊學習感知模態的目標表示,以減少在跟蹤過程中 RGB 和 NIR 不同模態之間的外觀差距,可以靈活地嵌入不同的跟蹤框架中。在我們提出的數據集上進行了廣泛的實驗,證明了所提出的模塊對于兩個代表性的跟蹤框架,即 dimp-50和 RT-MDNet 上的17種最先進的跟蹤方法的有效性。
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
//www.zhuanzhi.ai/paper/5d9a7923aecd639fe8d54d090cca1513
無監督人再識別(Re-ID)因其解決有監督Re-ID模型可擴展性問題的潛力而受到越來越多的關注。現有的無監督聚類方法大多采用迭代聚類機制,基于無監督聚類生成的偽標簽訓練網絡。然而,聚類錯誤是不可避免的。為了生成高質量的偽標簽并減少聚類錯誤的影響,我們提出了一種新的無監督人Re-ID聚類關系建模框架。具體來說,在聚類之前,利用圖關聯學習(GCL)模塊探索未標記圖像之間的關系,然后利用細化的特征進行聚類,生成高質量的偽標簽。因此,協方差分析自適應地在一個小批量中挖掘樣本之間的關系,以減少訓練時異常聚類的影響。為了更有效地訓練網絡,我們進一步提出了一種帶有選擇性記憶庫更新策略的選擇性對比學習(SCL)方法。大量的實驗表明,我們的方法比市場1501、DukeMTMC-reID和MSMT17數據集上大多數最先進的無監督方法的結果要好得多。我們將發布模型復制的代碼。
自監督視頻表示方法主要關注視頻中時間屬性的表示。然而,靜態屬性與非靜態屬性的作用卻很少被探索:靜態特征在整個視頻中都保持著相似,它能夠預測視頻級別的動作類。表示時間變化屬性的非平穩特征對于涉及更細粒度的時間理解(如動作分割)的下游任務更有利。我們認為用單一的表示來捕獲兩種類型的特征是次優的,并提出通過對長和短視圖的對比學習,即長視頻序列及其短子序列,將表示空間分解為平穩和非平穩特征。靜止特征在短期和長期視圖之間共享,而非靜止特征聚合短期視圖以匹配相應的長期視圖。為了驗證我們的方法,我們證明了我們的固定特征在動作識別下游任務上工作得特別好,而我們的非固定特征在動作分割上表現得更好。此外,我們分析了學習的表征,發現平穩特征捕獲更多的時間穩定的靜態屬性,而非平穩特征包含更多的時間變化的屬性。
本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。
Return-Based Contrastive Representation Learning for Reinforcement Learning Authors: Guoqing Liu, Chuheng Zhang, Li Zhao, Tao Qin, Jinhua Zhu, Jian Li, Nenghai Yu, Tie-Yan Liu
近年來,在深度強化學習(deep reinforcement learning, RL)中,各種輔助任務被提出來加速表示學習和提高樣本效率。然而,現有的輔助任務沒有考慮到RL問題的特點,是無監督的。通過利用回報這一RL中最重要的反饋信號,我們提出了一種新的輔助任務,迫使學習到的表示區分具有不同回報的狀態-行為對。我們的輔助損失在理論上是合理的,以學習捕獲一種新的形式的狀態-行為抽象的結構的表征,在這種結構下,具有相似回報分布的狀態-行為對被聚集在一起。在低數據的情況下,我們的算法在Atari游戲和DeepMind控制套件的復雜任務上優于強大的基線,在與現有的輔助任務相結合的情況下獲得了更好的性能。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
旨在對不同時間跨度的視頻幀之間的時間關系和相關性進行建模,表現SOTA!性能優于50Salads、MSTCN++等網絡,代碼即將開源!
視頻中的時間關系建模對于人類動作理解(例如行為識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出了令人鼓舞的優勢,但在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。主要原因是大量節點(即視頻幀)使GCN難以捕獲和建模視頻中的時間關系。為了解決這個問題,在本文中,我們引入了一個有效的GCN模塊,即膨脹時間圖推理模塊(DTGRM),該模塊旨在對不同時間跨度的視頻幀之間的時間關系和相關性進行建模。特別是,我們通過構造多級擴張的時間圖來捕獲和建模時間關系,其中節點表示視頻中不同時刻的幀。此外,為了增強所提出模型的時間推理能力,提出了一種輔助的我監督任務,以鼓勵膨脹的時間圖推理模塊找到并糾正視頻中錯誤的時間關系。在三個具有挑戰性的數據集上,我們的DTGRM模型優于最新的動作分割模型:50Salads,在GTEA和Breakfast數據集上。
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa