當我們人類觀看人機交互的視頻時,我們不僅可以推斷出發生了什么,我們甚至可以提取可操作的信息并模仿這些交互。另一方面,當前的識別或幾何方法缺乏動作表征的物質性。在這篇論文中,我們朝著對行為的物理理解邁出了一步。我們解決了從人類與物體互動的視頻中推斷接觸點和物理力的問題。解決這一問題的主要挑戰之一是為物理力取得真實標簽。我們通過使用物理模擬器來進行監督,從而避免了這個問題。具體來說,我們使用一個模擬器來預測效果,并執行估計的力必須導致與視頻中描述的相同的效果。我們定量和定性結果表明,(a)我們可以從視頻中預測有意義的力,這能夠導致對觀察動作的準確模仿,(b)通過為接觸點和力預測聯合優化,我們可以在所有任務提高性能相比,和(c)我們可以從這個模型學習一個表示,泛化到使用小樣本的物體上。
組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。
從圖像中進行自監督學習的目標是通過不需要對大量訓練圖像進行語義注釋的前置任務來構造語義上有意義的圖像表示。許多前置任務導致與圖像變換協變的表示。相反,我們認為語義表示在這種轉換下應該是不變的。具體來說,我們開發了前置不變表示學習(PIRL,發音為“pearl”),該學習基于前置任務的不變表示。我們將PIRL與一個常用的前置任務一起使用,該任務涉及解決拼圖游戲。我們發現,PIRL極大地提高了學習圖像表示的語義質量。我們的方法設置了一個新的藝術的自監督學習從圖像上幾個流行的基準自我監督學習。盡管是無監督的,但PIRL在學習圖像表示和目標檢測方面的表現優于有監督的前訓練。總之,我們的結果證明了具有良好不變性的圖像表示的自監督學習的潛力。
題目
PIFuHD:多級像素對齊隱式功能,實現高分辨率,三維人體數字化
關鍵詞
計算機視覺,三維人體數字化,高分辨率,圖像處理
簡介
基于圖像的3D人體形狀估計的最新進展是由深度神經網絡所提供的表示能力的顯著提高所驅動的。 盡管當前的方法已經證明了在現實世界中的潛力,但是它們仍然無法以輸入圖像中經常出現的細節水平進行重建。 我們認為,這種限制主要源于兩個相互矛盾的要求。 準確的預測需要大背景,但是精確的預測需要高分辨率。 由于當前硬件中的內存限制,以前的方法傾向于將低分辨率圖像作為輸入來覆蓋較大的空間上下文,并因此產生精度較低(或低分辨率)的3D估計。 我們通過制定一種端到端可訓練的多層體系結構來解決此限制。 粗糙級別以較低的分辨率觀察整個圖像,并著重于整體推理。 這提供了一個很好的環境,可以通過觀察更高分辨率的圖像來估計高度詳細的幾何形狀。 我們證明,通過充分利用1k分辨率的輸入圖像,我們的方法在單圖像人形重建方面顯著優于現有的最新技術。
作者
S. Saito, T. Simon, J. Saragih, H. Joo
特征warping 是光流估計的核心技術之一。然而,warping 過程中被遮擋區域引起的模糊性是一個尚未解決的主要問題。本文提出了一種非對稱遮擋感知的特征匹配模塊,該模塊可以學習一種粗糙遮擋掩模,該掩模在特征warping 后立即過濾無用(遮擋)區域,而不需要任何顯式監督。該模塊可以很容易地集成到端到端網絡架構中,在引入微不足道的計算成本的同時,還可以獲得性能提升。學習后的遮擋掩模可以進一步反饋到具有雙特征金字塔的后續網絡級聯中,從而達到最先進的性能。在提交時,我們的方法MaskFlownet超過了MPI Sintel、KITTI 2012和2015基準上所有已發布的光流方法。
人臉識別系統在實際應用中往往會遇到一些不可見的領域,由于其泛化能力較差而導致性能不佳。例如,一個訓練有素的webface數據模型不能處理監視場景中的ID和Spot任務。在本文中,我們的目標是學習一個不需要任何模型更新就可以直接處理新的未知域的廣義模型。為此,我們提出了一種新的基于元學習的人臉識別方法——元人臉識別(Meta face recognition, MFR)。MFR以元優化目標綜合源/目標域移位,這要求模型不僅要在綜合的源域上學習有效的表示,還要在綜合的目標域上學習有效的表示。具體來說,我們通過域級抽樣策略構建域移位批次,并通過優化多域分布得到合成源/目標域上的反向傳播梯度/元梯度。進一步結合梯度和元梯度對模型進行更新,提高了模型的泛化能力。此外,我們提出了兩種評估廣義人臉識別的基準。在我們的基準上進行的實驗驗證了我們的方法與幾個基線和其他技術水平的比較的普遍性。提出的基準將在//github.com/cleardusk/MFR上提供。
主題: Weakly-Supervised Salient Object Detection via Scribble Annotations
摘要: 與費力的逐像素密集標記相比,這種方法更容易通過涂抹來標記數據,僅花費1-2秒即可標記一張圖像。然而,尚未有人探索使用可劃線標簽來學習顯著物體檢測。在本文中,我們提出了一種弱監督的顯著物體檢測模型,以從此類注釋中學習顯著性。為此,我們首先使用亂碼對現有的大型顯著物體檢測數據集進行重新標記,即S-DUTS數據集。由于對象的結構和詳細信息不能通過亂寫識別,因此直接訓練帶有亂寫的標簽將導致邊界位置局限性的顯著性圖。為了緩解這個問題,我們提出了一個輔助的邊緣檢測任務來明確地定位對象邊緣,并提出了門控結構感知損失以將約束置于要恢復的結構范圍上。此外,我們設計了一種涂鴉增強方案來迭代地整合我們的涂鴉注釋,然后將其作為監督來學習高質量的顯著性圖。我們提出了一種新的度量標準,稱為顯著性結構測量,用于測量預測顯著性圖的結構對齊方式,這與人類的感知更加一致。在六個基準數據集上進行的大量實驗表明,我們的方法不僅優于現有的弱監督/無監督方法,而且與幾種完全監督的最新模型相提并論。