本文將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。
在真實的3D空間中檢測和定位對象(在場景理解中起著至關重要的作用)尤其困難,因為在圖像投影過程中由于幾何信息的丟失,僅給出單目圖像。我們提出MonoGRNet用于通過幾何推理在觀測到的2D投影和未觀測到的深度尺寸中從單目圖像中檢測無模態3D對象。 MonoGRNet將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。任務分解極大地促進了單目3D對象檢測,從而可以在單個前向傳遞中有效地預測目標3D邊界框,而無需使用object proposal,后處理或先前方法所使用的計算上昂貴的像素級深度估計。此外,MonoGRNet可以靈活地適應完全和弱監督學習,從而提高了我們框架在各種環境中的可行性。在KITTI,Cityscapes和MS COCO數據集上進行了實驗。結果表明,我們的框架在各種情況下均具有令人鼓舞的性能。