本文提出了第一種實時全身捕捉的方法,該方法通過單一顏色圖像的動態3D人臉模型來估計身體和手的形狀和運動。我們的方法使用了一種新的神經網絡結構,利用身體和手之間的相關性在高計算效率。與以往的工作不同,我們的方法是在多個數據集上聯合訓練,分別關注手、身體或面部,不需要同時標注所有部分的數據,這是很難創建足夠多的多樣性。這種多數據集訓練的可能性使其具有優越的泛化能力。與早期的單眼全身方法相比,我們的方法通過估算統計人臉模型的形狀、表情、反照率和光照參數來捕捉更具表現力的3D人臉幾何形狀和顏色。我們的方法在公共基準上實現了具有競爭力的精度,同時顯著更快,提供更完整的面部重建。
內容簡介:考慮到不同類別的表情之間存在著相似性,本文認為人臉表情信息由不同表情之間的共享信息與每個表情的特定信息組成,提出了一種基于特征解構與重構學習的人臉表情識別方法。具體地,首先使用特征分解網絡將基本特征分解為一系列能夠感知面部動作的潛在特征,這些潛在特征有效地建模了表情中的共享信息。然后,特征重構網絡分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模,從而學習表情的特有信息。實驗結果表明該方法在三個室內數據集(包括 CK+、 MMI 和 OuluCASIA)和兩個室外數據集(包括 RAFDB 和 SFEW)上都有優越的性能表現。
本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平面區域分配定制的卷積核。這種卷積方式相較于傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平面維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用于處理語義信息分布復雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對于輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基于DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。
該工作將度量學中一個重要的屬性“動態范圍”引入到深度度量學習,從而得到一個新的任務叫做“動態度量學習”。我們發現,以往的深度度量其實只蘊含一個刻度,例如僅僅區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用中都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態范圍,例如尺子總是有多個刻度(例如1mm、1cm乃至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態范圍的時候了。因為,視覺概念本身就有著不同的大小,“動物”、“植物”都對應大尺度,而“麋鹿”卻對應相對較小的尺度。在小尺度下,兩只麋鹿可能看上去很不一樣,但是在另一個大尺度下,同樣兩只麋鹿卻應該被認為非常相似。
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。