● 論文摘要:提出了一個三維語義場景完成(SSC)框架,其中場景的密集幾何和語義是由單目RGB圖像推斷出來的。與SSC文獻不同,我們依靠2.5或3D輸入,解決了2D到3D場景重建的復雜問題,同時聯合推斷其語義。我們的框架依賴于連續的2D和3D UNets,它由一種新穎的2D-3D特征投影連接起來,這種投影來源于光學,并在執行空間語義一致性之前引入了3D上下文關系。在建筑貢獻的同時,我們介紹了新穎的全球場景和當地的圓錐臺的損失。實驗表明,我們在所有指標和數據集上的表現都優于文獻,即使在相機視野之外,我們也能幻想出似是而非的風景。
● 論文主頁://cv-rits.github.io/MonoScene/
● 論文鏈接:
● 論文代碼:
● 作者單位:法國國家信息與自動化研究所(INRIA)
基于純視覺的三維目標檢測是現階段自動駕駛系統中的重要感知技術,為下游模塊提供周圍環境中物體的位置和類別信息,在學術界和工業界都受到廣泛的關注。該方法大幅提高了檢測性能,有希望推動純視覺方法的應用落地。
該項研究提出了一種偽雙目三維目標檢測框架,并通過兩種方式生成偽雙目視角完成三維目標檢測任務:(1)在圖像層面利用左圖和預估視差圖生成虛擬右圖;(2)在特征層面利用左圖特征和預估視差特征生成虛擬右特征,與圖像層面相比,該方式顯著提高了生成速度**(0.0017s V.S. 1.8454s)**。在CVPR 2022截至投稿前,該方法在廣泛使用的KITTI自動駕駛單目圖像三維目標檢測公開排行榜上在所有類別的檢測性能上均排名第一。
//www.zhuanzhi.ai/paper/3e54d98cd3799503389c0876bae65b11
【從大量非正式視頻中構建可動畫的3D神經模型】BANMo: Building Animatable 3D Neural Models from Many Casual Videos
● 論文摘要:之前關于鉸接式三維形狀重建的工作通常依賴于專門的傳感器(如同步多攝像機系統),或預先構建的三維可變形模型(如SMAL或SMPL)。這些方法不能擴展到野外的不同對象集。我們提出BANMo,一種既不需要專門的傳感器也不需要預定義的模板形狀的方法。BANMo在一個可區分的渲染框架中,從許多單目休閑視頻中構建高保真、鉸連的3D模型(包括形狀和動畫皮膚權重)。雖然許多視頻的使用提供了更多的攝像機視圖和物體清晰度的覆蓋,但它們在建立不同背景、光照條件等場景之間的對應關系方面帶來了重大挑戰。我們的主要觀點是融合三個學派的思想;(1)利用關節骨和混合皮膚的經典變形形狀模型,(2)適用于基于梯度的優化的體積神經輻射場(NeRFs),以及(3)生成像素和關節模型之間對應的規范嵌入。我們引入神經混合蒙皮模型,允許可微和可逆鉸接變形。當與規范嵌入相結合時,這樣的模型允許我們在視頻之間建立密集的對應關系,這些對應關系可以通過周期一致性進行自我監督。在真實數據集和合成數據集上,BANMo展示了比之前的人類和動物作品更高保真度的3D重建,能夠從新穎的視角和姿勢呈現逼真的圖像。
● 論文主頁://banmo-www.github.io/
● 論文鏈接:
● 論文代碼:
● 數據集:
● 論文視頻:
● 作者單位:Meta、卡耐基梅隆大學
題目:
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
簡介:
場景文本識別是計算機視覺中的一個熱門研究主題。近來,已經提出了許多基于編碼-解碼器框架的識別方法,它們可以處理透視失真和曲線形狀的場景文本。盡管如此,他們仍然面臨許多挑戰,例如圖像模糊,照明不均勻和字符不完整。我們認為,大多數編碼器/解碼器方法都是基于局部視覺特征而沒有明確的全局語義信息。在這項工作中,我們提出了一種語義增強的編碼器-解碼器框架,以可靠地識別低質量的場景文本。語義信息在編碼器模塊中用于監視,在解碼器模塊中用于初始化。特別是,將最新的ASTER方法作為示例集成到所提出的框架中。大量的實驗表明,所提出的框架對于低質量的文本圖像更健壯,并且在多個基準數據集上都達到了最新的結果。