自監督學習通過從數據本身來獲取監督信號,在視頻表征學習領域展現出了巨大潛力。由于一些主流的方法容易受到背景信息的欺騙和影響,為了減輕模型對背景信息的依賴,我們提出通過添加背景來去除背景影響。具體而言,給定一個視頻,我們從中隨機選擇一個靜態幀,并將其添加到其它的每一幀中,以構建一個分散注意力的視頻樣本,然后要求模型拉近 分散注意力的視頻樣本與原始視頻樣本之間的特征距離,如此使得模型能夠更好地抵抗背景的影響,而更多地關注運動變化。我們的方法命名為背景消除(Background Erasing,BE)。值得注意的是,我們的方法可以便捷地添加到大多數SOTA方法中。BE在MoCo的基礎上,對具有嚴重背景偏見的數據集UCF101和HMDB51,分別帶來了16.4%和19.1%的提升,而對具有較小背景偏見的數據集Diving48數據集帶來了14.5%的提升。
本文將多源概念引入UDA行人Re-ID任務中,并提出RDSBN歸一化新模塊,并提出基于GCN的多源信息融合模塊,表現SOTA!性能優于MMT、DG-Net++網絡。
用于行為重識別(re-ID)的無監督域自適應(UDA)方法旨在將re-ID知識從已標記的源數據傳輸到未標記的目標數據。盡管取得了巨大的成功,但大多數人僅使用來自單一來源域的有限數據進行模型預訓練,從而使得無法充分利用豐富的標記數據。為了充分利用有價值的標記數據,我們將多源概念引入到UDA行人re-ID中,其中在訓練過程中使用了多個源數據集。但是,由于域的空白,僅組合不同的數據集只會帶來有限的改進。在本文中,我們嘗試從兩個角度(即特定于域的視圖和域融合視圖)解決此問題。提出了兩個建設性的模塊,它們彼此兼容。首先,探索一種整流領域特定的批處理歸一化(RDSBN)模塊,以同時減少領域特定的特征并增加人員特征的獨特性。其次,開發了基于圖卷積網絡(GCN)的多域信息融合(MDIF)模塊,該模塊通過融合不同域的特征來最小化域距離。所提出的方法在很大程度上優于最新的UDA人員re-ID方法,甚至在沒有任何后處理技術的情況下,甚至可以達到與監督方法相當的性能。
本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。
本文由騰訊 AI Lab 主導,與清華大學、電子科技大學、香港中文大學(深圳)合作完成。為了生成“精確”表述的場景圖,幾乎所有現有的方法都以確定性的方式預測成對關系,我們認為視覺關系在語義上往往具有模糊歧義性。
具體來說,受語言學知識的啟發,我們將歧義分為三類:同義歧義、上下義歧義和多視點歧義。這種模糊性自然會導致隱性多標簽問題,也激發了對預測多樣性的需求。在這項工作中,我們提出了一個新的即插即用概率不確定性建模(PUM)模塊。它將每個聯合區域建模為高斯分布,其方差度量相應視覺內容的不確定性。與傳統的確定性方法相比,這種不確定性建模帶來了特征表示的隨機性,使得預測具有多樣性。作為一個副產品,PUM還能夠覆蓋更細粒度的關系,從而減輕對頻繁關系的偏見。
在大規模視覺數據集上的大量實驗表明,將PUM與新提出的ResCAGCN相結合可以在平均召回度量下獲得最佳性能。此外,我們通過將PUM插入到一些現有模型中,證明了PUM的普適性,文中也對其生成多樣化但合理的視覺關系的能力進行了深入分析。
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
本文提出了第一種實時全身捕捉的方法,該方法通過單一顏色圖像的動態3D人臉模型來估計身體和手的形狀和運動。我們的方法使用了一種新的神經網絡結構,利用身體和手之間的相關性在高計算效率。與以往的工作不同,我們的方法是在多個數據集上聯合訓練,分別關注手、身體或面部,不需要同時標注所有部分的數據,這是很難創建足夠多的多樣性。這種多數據集訓練的可能性使其具有優越的泛化能力。與早期的單眼全身方法相比,我們的方法通過估算統計人臉模型的形狀、表情、反照率和光照參數來捕捉更具表現力的3D人臉幾何形狀和顏色。我們的方法在公共基準上實現了具有競爭力的精度,同時顯著更快,提供更完整的面部重建。
我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。
論文概述:視頻中的時序關系建模對于行為動作理解(如動作識別和動作分割)至關重要。盡管圖卷積網絡(GCN)在許多任務的關系推理中顯示出令人鼓舞的優勢,但如何在長視頻序列上有效地應用圖卷積網絡仍然是一個挑戰。其主要原因是大量存在的視頻幀節點使GCN難以捕獲和建模視頻中的時序依賴關系。為了解決此問題,本文引入了一個有效的GCN模塊,即膨脹時序圖推理模塊(DTGRM),該模塊旨在對不同時間跨度視頻幀之間的時序關系和相關性進行建模,尤其可以通過構造多級擴張的時序圖來捕獲和建模長跨度的時序關系。此外,為了增強所提出模型的時序推理能力,本文提出了一種輔助的自監督任務,以鼓勵膨脹的時序圖推理模塊找到并糾正視頻中錯誤的時序關系。本模型在三個具有挑戰性的數據集上均優于最新的行動分割模型。
//www.zhuanzhi.ai/paper/c74cd67206e089bc164ab3112b168355