我們提出了一種單一圖像視圖合成方法,允許從單一輸入圖像生成新的場景視圖。這是一個挑戰,因為它需要從一個單一的圖像全面理解3D場景。因此,目前的方法通常使用多幅圖像,在地面真實深度上訓練,或者局限于合成數據。為此,我們提出了一種新穎的端到端模型;它被訓練在真實的圖像上,沒有使用任何真實的3D信息。為此,我們引入了一種新的可微點云渲染器,用于將潛在的3D點云特征轉換為目標視圖。我們的細化網絡對投影特征進行解碼,插入缺失區域,生成逼真的輸出圖像。我們的生成模型內部的3D組件允許在測試時對潛在特征空間進行可解釋的操作,例如,我們可以從單個圖像動畫軌跡。與以前的工作不同,我們可以生成高分辨率的圖像,并推廣到其他輸入分辨率。我們在Matterport、Replica和RealEstate10K數據集上超越基線和前期工作。
題目
PIFuHD:多級像素對齊隱式功能,實現高分辨率,三維人體數字化
關鍵詞
計算機視覺,三維人體數字化,高分辨率,圖像處理
簡介
基于圖像的3D人體形狀估計的最新進展是由深度神經網絡所提供的表示能力的顯著提高所驅動的。 盡管當前的方法已經證明了在現實世界中的潛力,但是它們仍然無法以輸入圖像中經常出現的細節水平進行重建。 我們認為,這種限制主要源于兩個相互矛盾的要求。 準確的預測需要大背景,但是精確的預測需要高分辨率。 由于當前硬件中的內存限制,以前的方法傾向于將低分辨率圖像作為輸入來覆蓋較大的空間上下文,并因此產生精度較低(或低分辨率)的3D估計。 我們通過制定一種端到端可訓練的多層體系結構來解決此限制。 粗糙級別以較低的分辨率觀察整個圖像,并著重于整體推理。 這提供了一個很好的環境,可以通過觀察更高分辨率的圖像來估計高度詳細的幾何形狀。 我們證明,通過充分利用1k分辨率的輸入圖像,我們的方法在單圖像人形重建方面顯著優于現有的最新技術。
作者
S. Saito, T. Simon, J. Saragih, H. Joo
題目: Self-Supervised Viewpoint Learning From Image Collections
簡介:
訓練深度神經網絡以估計對象的視點需要標記大型訓練數據集。但是,手動標記視點非常困難,容易出錯且耗時。另一方面,從互聯網(例如汽車或人臉)上挖掘許多未分類的物體類別圖像相對容易。我們試圖回答這樣的研究問題:是否可以僅通過自我監督將這種未標記的野外圖像集合成功地用于訓練一般對象類別的視點估計網絡。這里的自我監督是指網絡具有的唯一真正的監督信號是輸入圖像本身。我們提出了一種新穎的學習框架,該框架結合了“綜合分析”范式,利用生成網絡以視點感知的方式重構圖像,并具有對稱性和對抗性約束,以成功地監督我們的視點估計網絡。我們表明,對于人臉,汽車,公共汽車和火車等幾個對象類別,我們的方法在完全監督方法上具有競爭性。我們的工作為自我監督的觀點學習開辟了進一步的研究,并為其提供了堅實的基礎。
論文題目
少鏡頭視頻合成,Few-shot Video-to-Video Synthesis
論文簡介
視頻到視頻合成(vid2vid)旨在將輸入的語義視頻(如人體姿勢視頻或分割遮罩視頻)轉換為輸出的真實感視頻。雖然最先進的OFVID2VID有了很大的進步,但現有的方法有兩個主要的局限性。首先,他們渴望數據。訓練需要大量的目標人體或場景圖像。其次,學習模型的泛化能力有限。一個pose-to-humanvid2視頻模型只能合成訓練集中的單個人的姿勢。它并不適用于不在訓練集中的其他人。為了解決這些局限性,我們提出了一個新的shotvid2vidframework,它通過利用目標測試時間的少量示例圖像來學習合成先前未看到的對象或場景的視頻。我們的模型通過使用注意機制的novelnetwork權重生成模塊來實現這種少量的鏡頭泛化能力。我們使用多個大規模視頻數據集(包括人體舞蹈視頻、說話頭部視頻和街道場景視頻)進行了大量的實驗驗證,并與強基線進行了比較。實驗結果驗證了所提出的框架在解決現有VID2VID方法的兩個局限性方面的有效性。代碼可在我們的網站上找到
論文作者
Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, Bryan Catanzaro 來自 NVIDIA(英偉達)公司