最近關于3D語義分割的工作提出利用圖像和點云之間的協同作用,通過一個專用的網絡處理每個模態,并將學習到的2D特征投影到3D點上。合并大規模點云和圖像提出了幾個挑戰,如構建點和像素之間的映射,以及在多個視圖之間聚合特征。目前的方法需要網格重建或專門的傳感器來恢復遮擋,并使用啟發式選擇和聚集可用的圖像。相反,我們提出了一個端到端可訓練的多視圖聚合模型,利用3D點的觀看條件來合并在任意位置拍攝的圖像的特征。我們的方法可以結合標準的2D和3D網絡,在不需要著色、網格化或真實深度地圖的情況下,優于彩色點云和混合2D/3D網絡上運行的3D模型。我們在S3DIS (74.7 mIoU 6-Fold)和KITTI360 (58.3 mIoU)上設置了大規模室內外語義分割的最新技術。我們的流程可以訪問 https: //github.com/drprojects/DeepViewAgg,只需要原始3D掃描和一組圖像和姿勢。
弱監督目標定位(WSOL)只關注在圖像級分類掩碼的監督下進行對象定位。以前的大多數WSOL方法都遵循分類激活映射(classification activation map, CAM),它使用多實例學習(MIL)機制基于分類結構對目標進行本地化。然而,MIL機制使得CAM只能激活識別目標的部分而不能激活整個目標,削弱了其本地化目標的性能。**為了避免這一問題,本文提出了一種新的視角,將WSOL建模為域適應(DA)任務,即在源/圖像域上訓練的分數估計器在目標/像素域上進行測試以定位目標。**在此視角下,DA-WSOL流程設計可以更好地將DA方法引入到WSOL中,以提高本地化性能。利用所提出的目標采樣策略來選擇不同類型的目標樣本。基于這些類型的目標樣本,對域自適應定位(DAL)損耗進行了闡述。該方法通過DA對兩個域之間的特征分布進行對齊,并通過Universum正則化使估計器感知目標域線索。實驗表明,該方法在多基準測試上的性能優于SOTA方法。代碼發布在 //github.com/zh460045050/DA-WSOL_CVPR2022。
本文將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。
在真實的3D空間中檢測和定位對象(在場景理解中起著至關重要的作用)尤其困難,因為在圖像投影過程中由于幾何信息的丟失,僅給出單目圖像。我們提出MonoGRNet用于通過幾何推理在觀測到的2D投影和未觀測到的深度尺寸中從單目圖像中檢測無模態3D對象。 MonoGRNet將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。任務分解極大地促進了單目3D對象檢測,從而可以在單個前向傳遞中有效地預測目標3D邊界框,而無需使用object proposal,后處理或先前方法所使用的計算上昂貴的像素級深度估計。此外,MonoGRNet可以靈活地適應完全和弱監督學習,從而提高了我們框架在各種環境中的可行性。在KITTI,Cityscapes和MS COCO數據集上進行了實驗。結果表明,我們的框架在各種情況下均具有令人鼓舞的性能。
本文提出了從視頻無監督的時空表示學習的大規模研究。借助對四個基于圖像的最新框架的統一觀點,我們研究了一個簡單的目標,可以輕松地將所有這些方法推廣到時空。我們的目標是鼓勵在同一視頻中使用時間上持久的特征,盡管它簡單易用,但在以下情況下卻表現出色:(i)不同的無監督框架,(ii)預訓練數據集,(iii)下游數據集,以及(iv) 骨干架構。我們從這項研究中得出了一系列有趣的觀察結果,例如,我們發現,即使跨度為60秒,鼓勵長時間跨度的持久性也是有效的。除了在多個基準測試中得到的最新結果之外,我們還報告了一些有希望的案例,其中無監督的預訓練可以勝過其有監督的預訓練。
一、為時間動作本地化建模多標簽動作相關性
標題: Modeling Multi-Label Action Dependencies for Temporal Action Localization 鏈接: //arxiv.org/pdf/2103.03027.pdf
現實世界中的視頻包含許多復雜的動作,并且動作類之間具有固有的關系。本文提出了一種基于注意力的架構,該架構為未修剪視頻中的時間動作本地化任務建模了這些動作關系。與先前利用動作的視頻級同時發生的作品相反,本文區分了在相同時間步長發生的動作與在不同時間步長發生的動作(即彼此先后的動作)之間的關系,將這些不同的關系定義為動作依賴項。本文建議通過在新穎的基于注意力的多標簽動作相關性(MLAD)層中對這些動作相關性進行建模來提高動作本地化性能。
二、實時高分辨率背景摳像 標題: Real-Time High Resolution Background Matting 鏈接: code: project: video:
本文介紹了一種實時,高分辨率的背景替換技術,該技術可在4K分辨率下以30fps的速度運行,而在現代GPU上以60fps的高清速度運行。本文技術基于背景遮罩,其中捕獲了背景的附加幀,并用于恢復alpha遮罩和前景層。主要挑戰是要計算出高質量的Alpha遮罩,并保留股級頭發細節,同時實時處理高分辨率圖像。與以前的背景摳像技術相比,該方法產生了更高的質量結果,同時在速度和分辨率上都取得了巨大的進步。
三、探索具有對比場景上下文的數據高效3D場景理解 標題: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts 鏈接: project: video:
3D場景理解的快速進步與對數據的需求不斷增長有關。但是,眾所周知,收集和注釋3D場景(例如點云)非常困難。例如,可以訪問和掃描的場景數量(例如室內房間)可能會受到限制;即使有足夠的數據,獲取3D標簽(例如,實例蒙版)也需要大量的人工。本文探索了3D點云的高效數據學習,提出了“對比場景上下文”,這是一種3D預訓練方法,它同時利用了場景中的點級對應關系和空間上下文。值得注意的是,在ScanNet上,即使使用0.1%的點標簽,使用完整注解的基準性能仍然達到89%(實例分割)和96%(語義分割)。
四、在動態室內環境中,通過空間劃分的魯棒神經路由可實現攝像機的重新定位 標題: Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments 鏈接: project:
本文提出了一種新穎的異常感知神經樹,它將兩個世界,深度學習和決策樹方法聯系起來。它建立在三個重要的塊上:(a)在室內場景上進行分層的空間劃分,以構建決策樹;(b)被實現為深度分類網絡的神經路由功能,用于更好地理解3D場景;(c)離群剔除模塊,用于在分級路由過程中濾除動態點。它可以通過空間分區實現魯棒的神經路由,并且在攝像機姿勢精度方面要比最新技術高出30%左右,同時運行速度也相當快。
五、通過3D掃描同步進行多主體分割和運動估計 標題: MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan Synchronization 鏈接: code:
本文介紹了MultiBodySync,這是一種新穎的,端到端的可訓練多體運動分割和針對多輸入3D點云的剛性配準框架。本文所研究的這種多掃描多體設置所帶來的兩個非同尋常的挑戰是:(i)保證捕獲多個不同身體或身體部位空間布局的多個輸入點云之間的對應關系和分割一致性;文章提出了一種解決這些問題的方法,該方法將頻譜同步合并到迭代的深度聲明式網絡中,以便同時恢復一致的對應關系以及運動分割。該方法可有效用于各種數據集,從關節物體的剛性零件到3D場景中的單個移動物體,無論是單視圖還是全點云
六、用于單目三維目標檢測的分類深度分布網絡 標題: Categorical Depth Distribution Network for Monocular 3D Object Detection 鏈接:
單眼3D對象檢測是自動駕駛汽車的關鍵問題,因為與典型的多傳感器系統相比,它提供了一種具有簡單配置的解決方案。單眼3D檢測的主要挑戰在于準確預測物體深度,由于缺乏直接的距離測量,必須從物體和場景線索中推斷出物體深度。許多方法嘗試直接估計深度以輔助3D檢測,但是由于深度不準確,結果顯示出有限的性能。本文提出的解決方案分類深度分布網絡(CaDDN)對每個像素使用預測的分類深度分布,以將豐富的上下文特征信息投影到3D空間中的適當深度間隔。然后,使用計算效率高的鳥瞰圖投影和單級檢測器來生成最終的輸出邊界框。本文將CaDDN設計為用于聯合深度估計和對象檢測的完全可區分的端到端方法。
七、學習多視圖立體聲 標題: PatchmatchNet: Learned Multi-View Patchmatch Stereo 鏈接: code:
PatchmatchNet,這是一種適用于高分辨率多視圖立體聲的Patchmatch的新穎且可學習的級聯公式。與采用3D成本正則化的競爭對手相比,PatchmatchNet具有較高的計算速度和較低的內存需求,可以處理更高分辨率的圖像,并且更適合在資源受限的設備上運行。本文首次在端到端可訓練體系結構中引入了迭代的多尺度Patchmatch,并針對每次迭代使用了一種新穎且學到的自適應傳播和評估方案來改進Patchmatch核心算法。
八、通過域隨機化和元學習對視覺表示進行連續調整 標題: Continual Adaptation of Visual Representations via Domain Randomization and Meta-learning 鏈接:
大多數標準的學習方法都導致脆弱的模型,當對不同性質的樣本進行順序訓練時,它們容易漂移(眾所周知的“災難性遺忘”問題)。特別是,當一個模型連續從不同的視覺域中學習時,它傾向于忘記過去的模型,而傾向于最新的模型。在這種情況下,本文表明,學習本質上更健壯的模型的一種方法是域隨機化-對于視覺任務,使用繁重的圖像操作將當前域的分布隨機化。在此結果的基礎上,本文設計了一種元學習策略,其中調節器明確懲罰與將模型從當前域轉移到不同的“輔助”元域相關的任何損失,同時還簡化了對它們的適應。此類元域也通過隨機圖像處理生成。
九、神經幾何細節水平:隱式3D曲面的實時渲染 標題: Neural Geometric Level of Detail:Real-time Rendering with Implicit 3D Surfaces 鏈接: code: project:
SDF逐漸成為3D形狀的有效表示形式。最先進的方法通常使用固定大小的大型神經網絡對SDF進行編碼,以近似顯示具有隱式表面的復雜形狀。但是,由于這些大型網絡的渲染在計算上是昂貴的,因為它要求每個像素都需要通過網絡進行多次前向傳遞,因此對于實時圖形來說,這些表示不切實際。本文引入了一種有效的神經表示,首次實現了高保真神經SDF的實時渲染,同時實現了最先進的幾何重構質量。
十、預測器:低重疊的3D點云的注冊 標題: PREDATOR: Registration of 3D Point Clouds with Low Overlap 鏈接: code: project:
本文引入了PREDATOR模型,該模型用于成對點云注冊,它非常關注重疊區域。用于兩點云的潛在編碼之間的早期信息交換。以這種方式,將潛在表示轉換為每個點特征的后續解碼以相應的另一個點云為條件,從而可以預測哪些點不僅是顯著的,而且還位于兩個點云之間的重疊區域中。專注于與匹配相關的點的能力極大地提高了性能:PREDATOR在低重疊情況下將成功注冊的比率提高了20%以上,還為3DMatch基準設定了89%的最新技術水平注冊召回。
十一、通過保留推理時間的目標投影進行域泛化 標題: Domain Generalization via Inference-time Label-Preserving Target Projections 鏈接:
在具有不同統計量的看不見的目標域上對在一組源域上訓練的機器學習模型進行泛化是一個具有挑戰性的問題。盡管已經提出了許多解決方法,但是它們僅在訓練期間利用源數據,而沒有利用推論時只有一個目標示例的事實。因此,本文提出了一種方法,該方法可以在推理過程中有效地使用目標樣本,而不僅僅是分類。該方法包括三個部分(i)對源數據進行標簽保留的特征或度量轉換,以使源樣本根據其類別進行聚類,而與域無關。(ii)針對這些特征訓練的生成模型。(iii)通過使用學習的度量來解決生成模型輸入空間上的優化問題,在推理過程中目標點在源特征流形上的保留標簽的投影。
十二、全局一致的非剛性重建的神經變形圖 標題: Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction 鏈接: project: video:
本文引入了神經變形圖,用于全局一致的變形跟蹤和非剛性對象的3D重建。具體來說,本文通過深層神經網絡對變形圖進行隱式建模。該神經變形圖不依賴于任何特定于對象的結構,因此可以應用于一般的非剛性變形跟蹤。實驗表明,該神經變形圖在質量和數量上都優于最新的非剛性重建方法,重建性能提高了64%,變形跟蹤性能提高了62%。
十三、粗標簽的細粒度角度對比學習 標題: Fine-grained Angular Contrastive Learning with Coarse Labels 鏈接:
在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,并且需要對模型進行“專業化”以即時支持新類別。稀疏到極少的射擊(C2FS)是一種特別有趣的場景,基本上被鮮為人知的文獻所忽略,其中訓練班(例如,動物)的粒度比目標(測試)類的“粒度更粗”(例如品種)。本文介紹了一種新穎的“角度歸一化”模塊,該模塊可以有效地結合監督和自我監督的對比預訓練來解決建議的C2FS任務,從而證明了在多個基準和數據集上的廣泛研究中所取得的顯著成果。
十四、通過稀疏采樣進行視頻和語言學習 標題: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling 鏈接: code:
規范的視頻和語言學習方法(例如,視頻問答)規定了一個神經模型,可以從視覺模型的離線提取的密集視頻功能和語言模型的文本功能中學習。這些特征提取器是經過獨立訓練的,通常在與目標域不同的任務上進行訓練,使這些固定特征對于下游任務而言不是最理想的。此外,由于密集視頻特征的高計算量,通常難以(或不可行)將特征提取器直接插入現有方法中以進行微調。為了解決這一難題,本文提出了一個通用框架CLIPBERT,該框架通過使用稀疏采樣(僅使用一個視頻中的一個或幾個稀疏采樣的短片)來實現可負擔的視頻和語言任務的端到端學習。
十五、用于域自適應全景分割的跨視圖正則化 標題: Cross-View Regularization for Domain Adaptive Panoptic Segmentation 鏈接:
全景分割統一了語義分割和實例分割,這在近年來引起了越來越多的關注。但是,大多數現有研究是在有監督的學習設置下進行的,而在不同任務和應用中至關重要的無監督域自適應全景分割則被忽略了。本文設計了一種域自適應全景分割網絡,該網絡利用樣式間的一致性和任務間正則化來優化域自適應全景分割。
十六、通過分層樣式分解實現圖像到圖像的翻譯 標題: Image-to-image Translation via Hierarchical Style Disentanglement 鏈接: code:
近來,圖像到圖像的翻譯在完成多標簽(即,以不同標簽為條件的翻譯)和多樣式(即,具有多種樣式的生成)任務方面都取得了重大進展。但是,由于標簽中未開發的獨立性和排他性,通過對翻譯結果進行不受控制的操作而挫敗了現有的工作。本文提出了層次樣式分離(HiSD)來解決此問題。具體來說,本文將標簽組織成分層的樹狀結構,其中獨立的標簽,排他屬性和解開的樣式從上到下分配。相應地,設計了一種新的翻譯過程以適應上述結構,其中確定了可控翻譯的樣式。
十七、開放世界中的目標檢測 標題: Towards Open World Object Detection 鏈接: code:
人類具有識別其環境中未知對象實例的天生的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助于學習它們。這激勵我們提出一個新穎的計算機視覺問題,稱為“開放世界對象檢測”,該模型的任務是:1)在沒有明確監督的情況下,將尚未引入該對象的對象識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。本文提出了一個強有力的評估協議,并提供了一種新穎的解決方案,叫做ORE:基于對比聚類和基于能量的未知識別的開放世界物體檢測器。
十八、使用Transformer的端到端視頻實例分割 標題: End-to-End Video Instance Segmentation with Transformers 鏈接:
視頻實例分割(VIS)是一項需要同時對視頻中感興趣的對象實例進行分類,分割和跟蹤的任務。最近的方法通常會開發復雜的管道來解決此任務。本文提出了一個基于Transformers的新視頻實例分割框架,稱為VisTR,該框架將VIS任務視為直接的端到端并行序列解碼/預測問題。給定包含多個圖像幀的視頻剪輯作為輸入,VisTR直接按順序輸出視頻中每個實例的遮罩序列。核心是一種新的,有效的實例序列匹配和分段策略,該策略在整個序列級別上對實例進行監督和分段。VisTR從相似性學習的同一角度構建實例分割和跟蹤,從而大大簡化了總體流程。
我們提出了一種單一圖像視圖合成方法,允許從單一輸入圖像生成新的場景視圖。這是一個挑戰,因為它需要從一個單一的圖像全面理解3D場景。因此,目前的方法通常使用多幅圖像,在地面真實深度上訓練,或者局限于合成數據。為此,我們提出了一種新穎的端到端模型;它被訓練在真實的圖像上,沒有使用任何真實的3D信息。為此,我們引入了一種新的可微點云渲染器,用于將潛在的3D點云特征轉換為目標視圖。我們的細化網絡對投影特征進行解碼,插入缺失區域,生成逼真的輸出圖像。我們的生成模型內部的3D組件允許在測試時對潛在特征空間進行可解釋的操作,例如,我們可以從單個圖像動畫軌跡。與以前的工作不同,我們可以生成高分辨率的圖像,并推廣到其他輸入分辨率。我們在Matterport、Replica和RealEstate10K數據集上超越基線和前期工作。
近年來,許多手工設計和搜索的網絡被應用于語義分割。然而,以前的工作打算在預定義的靜態架構中處理各種規模的輸入,如FCN、U-Net和DeepLab系列。本文研究了一種概念上的新方法來緩解語義表示中的尺度差異,即動態路由。該框架根據圖像的尺度分布,生成與數據相關的路徑。為此,提出了一種可微選通函數——軟條件門,用于動態選擇尺度變換路徑。此外,通過對門控函數進行預算約束,可以通過端到端方式進一步降低計算成本。我們進一步放寬了網絡級路由空間,以支持每個轉發中的多路徑傳播和跳轉連接,帶來了可觀的網絡容量。為了證明動態特性的優越性,我們比較了幾種靜態架構,它們可以作為路由空間中的特殊情況進行建模。為了證明動態框架的有效性,我們在Cityscapes和PASCAL VOC 2012上進行了大量的實驗。代碼在此//github.com/yanwei-li/DynamicRouting