悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文
基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。
//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2
引言
自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。
現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。
本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。
本工作的主要貢獻如下:
本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey
本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。
任務
在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。
數據集
眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。
方法
我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。
由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。
未來挑戰
基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。
深度估計
基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。
不止監督學習
創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。
多模態
如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。
時間序列
在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。
泛化性
泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。
本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。
近年來隨著計算機視覺領域的不斷發展,三維場景的語義分割和形狀補全受到學術界和工業界的廣泛關注.其中,語義場景補全是這一領域的新興研究,該研究以同時預測三維場景的空間布局和語義標簽為目標,在近幾年得到快速發展.本文對近些年該領域提出的基于RGB-D圖像的方法進行了分類和總結.根據有無使用深度學習將語義場景補全方法劃分為傳統方法和基于深度學習的方法兩大類.其中,對于基于深度學習的方法,根據輸入數據類型將其劃分為基于單一深度圖像的方法和基于彩色圖像聯合深度圖像的方法.在對已有方法分類和概述的基礎上,本文對語義場景補全任務所使用的相關數據集進行了整理,并分析了現有方法的實驗結果.最后,本文總結了該領域面臨的挑戰和發展前景.
論文標題://www.zhuanzhi.ai/paper/73cf9736c65be0102766f210e8693513
論文鏈接:
作者單位:中國人民大學
26頁綜述,共計99篇參考文獻!本文對基于圖像(單目/立體)、點云、多模態融合的3D目標檢測技術進行全面調研,內容包括傳感器、基礎知識和最經典和最先進的檢測方法及其優缺點。
自動駕駛被認為是保護人類免受嚴重碰撞的最有希望的補救措施之一。為此,3D目標檢測作為此類感知系統的核心基礎,尤其是在路徑規劃、運動預測、碰撞避免等方面。通常,立體或單目圖像與相應的3D點云已經是3D物體的標準布局檢測,其中點云越來越普遍,提供準確的深度信息。盡管已有努力,但點云上的3D目標檢測仍處于起步階段,因為點云本質上的高度稀疏性和不規則性,相機視圖和 LiDAR 鳥瞰視圖之間的錯位視圖,用于模態協同,遠距離的遮擋和尺度變化,最近,3D對象檢測取得了重大進展,正在研究大量文獻以解決這一視覺任務。因此,我們全面回顧了該領域的最新進展,涵蓋了所有主要主題,包括傳感器、基礎知識和最近最先進的檢測方法及其優缺點。此外,我們引入了指標并提供了對流行公共數據集的定量比較。在對所調查的工作進行深入分析后,將明智地確定未來工作的途徑。最后,我們總結了這篇論文。
隨著自動駕駛和機器人技術等實際應用的發展,人們越來越關注對3D點云的理解。雖然深度學習在基于圖像的任務上取得了顯著的成功,但深度神經網絡在處理大量、非結構化和噪聲的三維點時仍面臨著許多獨特的挑戰。為了展示深度學習在理解三維點云方面的最新進展,本文從幾個不同的方向(分類、分割、檢測、跟蹤、流量估計、配準、增強和補全),以及常用的數據集、指標和最新性能,總結了該領域最近顯著的研究貢獻。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
【導讀】圖像分割(Image Segmentation)是計算機視覺的經典問題之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。在前深度學習時代有大量的方法提出,比如分水嶺、GraphCut等。隨著深度學習的興起,大量的算法提出如R-CNN、Mask-RCNN等。最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,并提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。
題目:Image Segmentation Using Deep Learning: A Survey
作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos
摘要
圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實和圖像壓縮等。研究者們提出了各種圖像分割算法。最近,由于深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力于開發使用深度學習模型的圖像分割方法。在本次綜述中,我們全面回顧了撰寫本文時的論文,涵蓋了語義級和實例級分割的廣泛先驅工作,包括全卷積像素標記網絡、編碼器-解碼器架構、基于多尺度和金字塔的方法、遞歸網絡、視覺注意力模型和在對抗環境下的生成模型。我們調研了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,并討論了該領域未來的研究方向。
1. 引言
圖像分割是許多視覺理解系統的重要組成部分。它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,增強現實等。從最早的閾值化[3]、基于直方圖的分組、區域生長[4]、k-means聚類[5]、分水嶺[6]等算法,到更先進的主動輪廓[7]、圖割[8]、條件和馬爾科夫隨機域[9]、稀疏[10]-[11]等算法,文獻中已經出現了許多圖像分割算法。然而,在過去的幾年里,深度學習(DL)網絡已經產生了新一代的圖像分割模型,其性能有了顯著的提高——通常在流行的基準測試中獲得了最高的準確率——致使許多人認為的該領域的范式轉變。例如,圖1展示了一個著名的深度學習模型DeepLabv3[12]的樣本圖像分割輸出。
圖像分割可以表示為帶有語義標簽的像素分類問題(語義分割)或單個對象的分割問題(實例分割)。語義分割是對所有圖像像素進行一組對象類別(如人、車、樹、天空)的像素級標記,因此通常比圖像分類更難,因為后者預測整個圖像的單個標簽。實例分割進一步擴展了語義分割的范圍,通過檢測和描繪圖像中每個感興趣的對象(例如,對個人的分割)。
我們的調研涵蓋了圖像分割的最新文獻,并討論了到2019年提出的一百多種基于深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,并討論了基于深度學習的圖像分割模型的幾個挑戰和未來可能的方向。
我們將基于深度學習的工作根據其主要技術貢獻分為以下幾類:
本綜述論文的一些主要貢獻可以總結如下:
本次綜述涵蓋了與分割問題相關的現有文獻,并綜述了截止2019年提出的100多種分割算法,共分為10類。
我們提供了一個全面的調研和使用深度學習的分割算法的不同方面的深度分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略,以及他們的關鍵貢獻。
我們提供了一個概述約20個流行的圖像分割數據集,分為2D, 2.5D (RGB-D),和3D圖像。
我們提供了一個比較總結的性質和性能的審查方法的分割目的,在流行的基準上進行。
我們為基于深度學習的圖像分割提出了一些挑戰和潛在的未來方向。
該調研的其余部分組織如下: 第2節提供了流行的深度神經網絡架構的概述,作為許多現代分割算法的主干。第3節全面概述了最重要的、最先進的、基于深度學習的細分模型,截至2019年已有100多個。我們也討論了他們的長處和貢獻超過以往的工作在這里。第四部分回顧了一些最流行的圖像分割數據集及其特點。第5.1節回顧了評價基于深度學習的細分模型的流行指標。在5.2節中,我們報告了這些模型的定量結果和實驗性能。在第6節中,我們將討論基于深度學習的分割方法的主要挑戰和未來的發展方向。最后,我們在第7節中提出我們的結論。
3D點云學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。國防科技大學郭裕蘭老師課題組新出的這篇論文對近幾年點云深度學習方法進行了全面綜述,是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等,并對點云深度學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。也提供了現有方法在幾個可公開獲得的數據集上的全面比較,最后也介紹了未來的研究方向。
【摘要】點云學習近年來受到越來越多的關注,因為它在許多領域都有廣泛的應用,比如計算機視覺、自動駕駛和機器人技術。作為人工智能的主要技術之一,深度學習已經成功地用于解決各種二維視覺問題。然而,由于使用深度神經網絡處理點云所面臨的獨特挑戰,對點云的深度學習仍處于起步階段。最近,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。為了激發未來的研究,本文對點云深度學習方法的最新進展進行了綜述。它涵蓋了三個主要任務,包括三維形狀分類,三維目標檢測和跟蹤以及三維點云分割。我們還提供了一些可公開獲得的數據集的比較結果,以及有見地的觀察和啟發性的未來研究方向。
引言
3D數據在不同的領域有許多應用,包括自動駕駛、機器人、遙感、醫療和設計行業[4]。近年來,深度學習技術在計算機視覺、語音識別、自然語言處理(NLP)、生物信息學等研究領域占據主導地位。但是,在三維點云上進行深度學習仍然面臨數個重大挑戰[5],例如數據集規模小,維數高和三維點云的非結構化性質。在此基礎上,本文重點分析了用于處理三維點云的深度學習方法。
一些公開的數據集也被發布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite [10]。這些數據集進一步推動了對三維點云的深度學習研究,提出了越來越多的方法來解決與點云處理相關的各種問題,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
這篇論文是第一個專門針對點云的深度學習方法的綜述。此外,論文全面涵蓋了分類,檢測,跟蹤和分割等不同應用。圖1顯示了三維點云的現有深度學習方法的分類。
圖1:三維點云深度學習方法分類。
這項工作的主要貢獻可以概括如下:
1)據我們所知,這是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
2)相對于已有的綜述[11],[12],我們特別關注三維點云的深度學習方法,而不是所有類型的三維數據。
3)本文介紹了點云深度學習的最新進展。因此,它為讀者提供了最先進的方法。
4)提供了現有方法在幾個可公開獲得的數據集上的全面比較(例如,表1、2、3、4),并提供了簡要的總結和深入的討論。
本文的結構如下。第2節回顧了三維形狀分類的方法。第3節概述了現有的三維目標檢測和跟蹤方法。第4節介紹了點云分割的方法,包括語義分割、實例分割和部件分割。最后,第5節總結了論文。
論文還在以下網址上提供了定期更新的項目頁面:
//github.com/QingyongHu/SoTA-Point-Cloud
圖2:三維形狀分類網絡的時間順序概覽。
圖3:PointNet的體系結構。
圖4:點的局部鄰居的連續和離散卷積的圖解。(a)代表一個局部鄰居;(b)和(c)分別表示三維連續卷積和離散卷積。
圖5:基于圖的網絡的圖解。
表1:在ModelNet10/40基準上比較三維形狀分類結果。這里,我們只關注基于點的網絡,“#params”表示相應模型的參數數量。“OA”表示總體精度,“mAcc”表示表中的平均精度。符號“-”表示結果不可用。
圖6:按時間順序概述的最相關的基于深度學習的三維目標檢測方法。
圖7:三類三維目標檢測方法的典型網絡。從上到下:(a)基于多視圖,(b)基于分割,(c)基于視錐的方法。
表2:在KITTI測試三維檢測基準上的三維目標檢測結果對比。
表3:在KITTI test BEV檢測基準上三維目標檢測結果對比。
圖8:按時間順序概述了一些最相關的基于深度學習的點云語義分割方法。
圖9:基于投影方法的中間表示圖。
圖10:PointNet++[27]框架的示意圖。
圖11:有代表性的三維點云實例分割方法的年代概述。
未來方向
表4展示了現有方法在公共基準測試上的結果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要進一步研究的問題有:
基于點的網絡是最常被研究的方法。然而,點表示自然不具有顯式的鄰近信息,現有的大多數基于點的方法不得不借助于昂貴的鄰近搜索機制(如KNN[52]或ball query [27])。這從本質上限制了這些方法的效率,因為鄰居搜索機制既需要很高的計算成本,又需要不規則的內存訪問[214]。
從不平衡數據中學習仍然是點云分割中一個具有挑戰性的問題。雖然有幾種的方法取得了顯著的綜合成績[42]、[170]、[182],但它們在類標很少的情況下表現仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上獲得了76.0%的整體IoU,而在hardscape類上獲得了41.1%的非常低的IoU。
大多數現有的方法[5]、[27]、[52]、[170]、[171]都適用于小點云(如1m*1m,共4096個點)。在實際中,深度傳感器獲取的點云通常是巨大的、大規模的。因此,有必要進一步研究大規模點云的有效分割問題。
已有少數文獻[145]、[146]、[167]開始研究動態點云的時空信息。預期時空信息可以幫助提高后續任務的性能,如三維目標識別、分割和完成。
表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]數據集的語義分割結果對比。
結論
本文介紹了如今最先進的三維理解方法,包括三維形狀分類,三維目標檢測和跟蹤,以及三維場景和目標分割。對這些方法進行了全面的分類和性能比較。介紹了各種方法的優缺點,并提出了今后的研究方向。