本文提出了一種視頻自動編碼器,以自監督的方式從視頻中學習三維結構和攝像機姿態的分離表示。基于視頻中的時間連續性,我們的工作假設鄰近視頻幀中的3D場景結構保持靜態。給定一個視頻幀序列作為輸入,視頻自動編碼器提取場景的解糾纏表示,包括: (i)一個時間一致的深度體素特征來表示3D結構,(ii) 每一幀的攝像機姿態的3D軌跡。然后,這兩個表示將重新糾纏,以渲染輸入視頻幀。這個視頻自動編碼器可以直接使用像素重建損失訓練,沒有任何地面真實3D或相機姿態標注。解糾纏表示可以應用于一系列任務,包括新穎的視圖合成、攝像機姿態估計和通過運動跟蹤生成視頻。我們在幾個大尺度的自然視頻數據集上評價了我們的方法,并在域外圖像上展示了泛化結果。
現有的神經視頻壓縮方法大多采用預測編碼框架,該框架首先生成預測幀,然后將其殘差與當前幀進行編碼。然而,在壓縮比方面,預測編碼只是一種次優方案,因為它使用簡單的減法操作來去除幀間的冗余。在本文中,我們提出了一個深度上下文視頻壓縮框架,以實現從預測編碼到條件編碼的范式轉換。特別是,我們試圖回答以下問題:如何定義、使用和學習條件下的深度視頻壓縮框架。為了挖掘條件編碼的潛力,我們提出使用特征域上下文作為條件。這使我們能夠利用高維上下文為編碼器和解碼器攜帶豐富的信息,這有助于重建高頻內容以獲得更高的視頻質量。我們的框架也是可擴展的,條件可以靈活設計。實驗表明,我們的方法可以顯著優于以往的先進的(SOTA)深度視頻壓縮方法。與x265使用非常慢的預設相比,1080P標準測試視頻可以節省26.0%的比特率。
我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。
我們提出了一種新的方法來解開一組給定的觀察結果背后的變異的生成因素。我們想法是建立在可以顯式地建模為子流形乘積的數據空間的(未知的)低維流形。這種解糾纏的定義提出了一種新的弱監督算法,用于恢復數據背后的未知解釋因素。在訓練時,我們的算法只需要成對的非i.i.d.數據樣本,它們的元素共享至少一個,可能是多維的,產生變異的因素。我們不需要知道這些變換的性質,也不需要對每個子空間的性質做任何限制性的假設。我們的方法易于實現,并可以成功地應用于不同類型的數據(從圖像到三維表面)進行任意轉換。除了標準的合成基準外,我們還展示了我們在挑戰現實應用方面的方法,在現實應用中,我們可以與目前的技術水平想匹配。