自監督視頻表示方法主要關注視頻中時間屬性的表示。然而,靜態屬性與非靜態屬性的作用卻很少被探索:靜態特征在整個視頻中都保持著相似,它能夠預測視頻級別的動作類。表示時間變化屬性的非平穩特征對于涉及更細粒度的時間理解(如動作分割)的下游任務更有利。我們認為用單一的表示來捕獲兩種類型的特征是次優的,并提出通過對長和短視圖的對比學習,即長視頻序列及其短子序列,將表示空間分解為平穩和非平穩特征。靜止特征在短期和長期視圖之間共享,而非靜止特征聚合短期視圖以匹配相應的長期視圖。為了驗證我們的方法,我們證明了我們的固定特征在動作識別下游任務上工作得特別好,而我們的非固定特征在動作分割上表現得更好。此外,我們分析了學習的表征,發現平穩特征捕獲更多的時間穩定的靜態屬性,而非平穩特征包含更多的時間變化的屬性。
本文提出了一種視頻自動編碼器,以自監督的方式從視頻中學習三維結構和攝像機姿態的分離表示。基于視頻中的時間連續性,我們的工作假設鄰近視頻幀中的3D場景結構保持靜態。給定一個視頻幀序列作為輸入,視頻自動編碼器提取場景的解糾纏表示,包括: (i)一個時間一致的深度體素特征來表示3D結構,(ii) 每一幀的攝像機姿態的3D軌跡。然后,這兩個表示將重新糾纏,以渲染輸入視頻幀。這個視頻自動編碼器可以直接使用像素重建損失訓練,沒有任何地面真實3D或相機姿態標注。解糾纏表示可以應用于一系列任務,包括新穎的視圖合成、攝像機姿態估計和通過運動跟蹤生成視頻。我們在幾個大尺度的自然視頻數據集上評價了我們的方法,并在域外圖像上展示了泛化結果。
我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。
群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。
最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:
對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;
預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。
此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。
為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。
該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。
此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。
內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。
視頻行為理解中的一個核心難點是「場景偏差」問題。比如,一段在籃球場跳舞的視頻,會被識別為打籃球,而非跳舞。我們提出一種自監督視頻表征學習方案,通過直接在代理任務中顯式解耦場景與運動信息,處理「場景偏差」難題。值得注意的是,本方案中,解耦的場景與運動信息均從「視頻壓縮編碼」中提取得到。其中場景由關鍵幀 (keyframes) 表示,運動由運動向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于該解耦方案預訓練的視頻網絡模型,遷移至行為理解和視頻檢索兩項下游任務,性能均顯著超過SOTA。
背景:實際應用中,由于數據采集和傳輸過程的復雜性,數據可能會丟失部分視圖,這就導致了信息不完備下的視圖缺失問題(Incomplete Multi-view Problem, IMP)。例如在線會議中,一些視頻幀可能由于傳感器故障而丟失了視覺或音頻信號。針對該問題,過去十多年已提出了一些不完全多視圖聚類方法(Incomplete Multi-view Clustering, IMC)并取得了顯著效果。但IMP仍面臨兩個主要挑戰:1)如何在不利用標簽信息的情況下學習一致的多視圖公共表示;2)如何從部分缺失的數據中還原完整的數據。
//pengxi.me/wp-content/uploads/2021/03/2021CVPR-completer.pdf
創新:針對上述挑戰,受近期Tsai等在ICLR2021上發表的工作所啟發,本文提供了一個新的不完全多視圖聚類見解,即不完全多視圖聚類中的數據恢復和一致性學習是一體兩面的,兩者可統一到信息論的框架中。這樣的觀察和理論結果與現有的將一致性學習和數據恢復視為兩個獨立問題的工作有很大的不同。簡要地,從信息論角度出發,互信息能用于量化跨視圖表示間的一致性,而條件熵可用于量化跨視圖的可恢復性。因此,一方面,最大化互信息與最小化條件熵將分別增加共享的信息量與數據的可恢復性。另一方面,同時最大化互信息與最小化條件熵兩個目標又互為補充,相互促進。與Tsai等人的工作的不同之處在于,他們主要是在信息論框架下利用預測學習改進對比學習的性能,沒有如本文一樣考慮到缺失視圖下的一致性和可恢復性的學習。
方法:基于上述觀察,論文提出了對偶預測范式并將其與對比學習結合,通過一個新的損失函數實現了跨視圖一致性與可恢復性的聯合優化。提出的損失函數包括三部分:1)視圖內重構損失,主要用于學習各個視圖數據的視圖特殊表示,由一系列獨自的自編碼器重構損失組成;2)跨視圖對比學習損失,通過最大化不同視圖間的互信息學習多視圖一致性;3)跨視圖對偶預測損失,通過最小化視圖表示的條件熵進而實現視圖數據恢復。
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355
在本文中,我們研究了在自然環境下使用無標記視頻進行視覺對應的自監督學習。我們的方法同時考慮視頻內和視頻間的表示關聯,以獲得可靠的對應估計。視頻內學習通過幀對相似性在單個視頻中跨幀轉換圖像內容。為了獲得實例級分離的判別表示,我們在視頻內部分析的基礎上,構造了視頻間的相似關系,以方便不同視頻之間的對比變換。通過強制視頻內級和視頻間級之間的轉換一致性,可以很好地保留細粒度的對應關聯,有效地加強實例級特征識別。在視頻目標跟蹤(VOT)、視頻目標分割(VOS)、姿態關鍵點跟蹤等一系列視覺任務上,我們的簡單框架的性能優于最近的自監督對應方法。值得一提的是,我們的方法也超過了完全監督的相似表示(如ResNet),并與最近為特定任務(如VOT和VOS)設計的完全監督算法相媲美。
在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。