【從大量非正式視頻中構建可動畫的3D神經模型】BANMo: Building Animatable 3D Neural Models from Many Casual Videos
● 論文摘要:之前關于鉸接式三維形狀重建的工作通常依賴于專門的傳感器(如同步多攝像機系統),或預先構建的三維可變形模型(如SMAL或SMPL)。這些方法不能擴展到野外的不同對象集。我們提出BANMo,一種既不需要專門的傳感器也不需要預定義的模板形狀的方法。BANMo在一個可區分的渲染框架中,從許多單目休閑視頻中構建高保真、鉸連的3D模型(包括形狀和動畫皮膚權重)。雖然許多視頻的使用提供了更多的攝像機視圖和物體清晰度的覆蓋,但它們在建立不同背景、光照條件等場景之間的對應關系方面帶來了重大挑戰。我們的主要觀點是融合三個學派的思想;(1)利用關節骨和混合皮膚的經典變形形狀模型,(2)適用于基于梯度的優化的體積神經輻射場(NeRFs),以及(3)生成像素和關節模型之間對應的規范嵌入。我們引入神經混合蒙皮模型,允許可微和可逆鉸接變形。當與規范嵌入相結合時,這樣的模型允許我們在視頻之間建立密集的對應關系,這些對應關系可以通過周期一致性進行自我監督。在真實數據集和合成數據集上,BANMo展示了比之前的人類和動物作品更高保真度的3D重建,能夠從新穎的視角和姿勢呈現逼真的圖像。
● 論文主頁://banmo-www.github.io/
● 論文鏈接:
● 論文代碼:
● 數據集:
● 論文視頻:
● 作者單位:Meta、卡耐基梅隆大學
最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。
大多數現有的幾何處理算法使用網格作為默認的形狀表示。然而,在處理網格時,需要在表面離散化中保持高質量。例如,改變一個網格的拓撲通常需要額外的過程,如remesing。本文提出使用神經場進行幾何處理。神經場可以在沒有空間離散化的情況下緊湊地存儲復雜的形狀。此外,神經場是無限可微的,這使得它們可以針對涉及高階導數的目標進行優化。這就提出了一個問題:幾何處理可以完全用神經場來完成嗎?我們介紹損失函數和結構,以表明一些最具挑戰性的幾何處理任務,如變形和濾波,可以用神經場完成。實驗結果表明,我們的方法與現有的基于網格的方法是相當的,而不涉及特定的表面離散化。代碼可以在//github.com/stevenygd/NFGP上找到。
● 論文摘要:提出了一個三維語義場景完成(SSC)框架,其中場景的密集幾何和語義是由單目RGB圖像推斷出來的。與SSC文獻不同,我們依靠2.5或3D輸入,解決了2D到3D場景重建的復雜問題,同時聯合推斷其語義。我們的框架依賴于連續的2D和3D UNets,它由一種新穎的2D-3D特征投影連接起來,這種投影來源于光學,并在執行空間語義一致性之前引入了3D上下文關系。在建筑貢獻的同時,我們介紹了新穎的全球場景和當地的圓錐臺的損失。實驗表明,我們在所有指標和數據集上的表現都優于文獻,即使在相機視野之外,我們也能幻想出似是而非的風景。
● 論文主頁://cv-rits.github.io/MonoScene/
● 論文鏈接:
● 論文代碼:
● 作者單位:法國國家信息與自動化研究所(INRIA)
本文提出了一種視頻自動編碼器,以自監督的方式從視頻中學習三維結構和攝像機姿態的分離表示。基于視頻中的時間連續性,我們的工作假設鄰近視頻幀中的3D場景結構保持靜態。給定一個視頻幀序列作為輸入,視頻自動編碼器提取場景的解糾纏表示,包括: (i)一個時間一致的深度體素特征來表示3D結構,(ii) 每一幀的攝像機姿態的3D軌跡。然后,這兩個表示將重新糾纏,以渲染輸入視頻幀。這個視頻自動編碼器可以直接使用像素重建損失訓練,沒有任何地面真實3D或相機姿態標注。解糾纏表示可以應用于一系列任務,包括新穎的視圖合成、攝像機姿態估計和通過運動跟蹤生成視頻。我們在幾個大尺度的自然視頻數據集上評價了我們的方法,并在域外圖像上展示了泛化結果。
論文題目
少鏡頭視頻合成,Few-shot Video-to-Video Synthesis
論文簡介
視頻到視頻合成(vid2vid)旨在將輸入的語義視頻(如人體姿勢視頻或分割遮罩視頻)轉換為輸出的真實感視頻。雖然最先進的OFVID2VID有了很大的進步,但現有的方法有兩個主要的局限性。首先,他們渴望數據。訓練需要大量的目標人體或場景圖像。其次,學習模型的泛化能力有限。一個pose-to-humanvid2視頻模型只能合成訓練集中的單個人的姿勢。它并不適用于不在訓練集中的其他人。為了解決這些局限性,我們提出了一個新的shotvid2vidframework,它通過利用目標測試時間的少量示例圖像來學習合成先前未看到的對象或場景的視頻。我們的模型通過使用注意機制的novelnetwork權重生成模塊來實現這種少量的鏡頭泛化能力。我們使用多個大規模視頻數據集(包括人體舞蹈視頻、說話頭部視頻和街道場景視頻)進行了大量的實驗驗證,并與強基線進行了比較。實驗結果驗證了所提出的框架在解決現有VID2VID方法的兩個局限性方面的有效性。代碼可在我們的網站上找到
論文作者
Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, Bryan Catanzaro 來自 NVIDIA(英偉達)公司
實戰簡介
Pytorch實現了少量照片級真實感視頻到視頻的轉換。它可以用于從姿勢生成人體運動,合成從邊緣地圖說話的人,或將語義標簽地圖轉換為照片真實視頻。視頻翻譯的核心是圖像到圖像的翻譯。我們在那個空間的一些工作可以在pix2pixHD和SPADE中找到。
實戰配置