【導讀】隨著近幾年來AI技術的飛速發展,人們將計算機視覺技術應用于自動駕駛,使得自動駕駛的應用變得可行,很大程度地推進了自動駕駛技術的發展。本文介紹一篇關于自動駕駛計算機視覺的全面綜述,覆蓋了該領域相關的問題、數據集和最先進的技術。
近幾年來,我們目睹了AI相關領域取得的巨大的進步,如計算機視覺、機器學習、自動駕駛等。隨著這些領域的飛速發展,初學者很難了解領域最新的進展。在自動駕駛計算機視覺領域,盡管出現了一些關于特定子問題的綜述,但尚未發布關于問題、數據集和方法的全面和綜合的綜述。
綜述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》試圖通過提供對目前最先進的相關技術和數據集的調研來縮小人們對該領域的認知鴻溝。綜述既包括了已有的最相關的文獻,也包含了一些特殊主題目前最先進的成果,如識別、重建、運動估計、跟蹤、場景理解和自動駕駛端到端學習。綜述還包含了對最先進技術在KITTI、MOT和Cityscapes等幾個具有挑戰性的基準數據集上的性能的分析。
另外,該綜述還討論了一些開放問題和目前的研究挑戰。綜述還提供了一個網站,方便人們訪問相關的主題,以及提供額外的信息。
綜述首先提供了自動駕駛的簡要歷史,然后介紹了相機模型和校準技術。接著,綜述介紹了與自動駕駛相關的數據集(重點關注與感知相關的數據集)、相關的感知任務和最新的解決方法。尤其是,綜述回顧了目標檢測、目標跟蹤、語義(實體)分割、重建、運動估計和場景理解。每個章節包含了問題定義、重要方法和主要設計選擇、頂尖技術在流行數據集上的定性和定量分析以及關于領域最先進技術的討論。最終,綜述提供了關于最先進端到端自動駕駛模型的概覽。
綜述的目錄大致如下:
自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。
對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。
3D點云學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。國防科技大學郭裕蘭老師課題組新出的這篇論文對近幾年點云深度學習方法進行了全面綜述,是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等,并對點云深度學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。也提供了現有方法在幾個可公開獲得的數據集上的全面比較,最后也介紹了未來的研究方向。
【摘要】點云學習近年來受到越來越多的關注,因為它在許多領域都有廣泛的應用,比如計算機視覺、自動駕駛和機器人技術。作為人工智能的主要技術之一,深度學習已經成功地用于解決各種二維視覺問題。然而,由于使用深度神經網絡處理點云所面臨的獨特挑戰,對點云的深度學習仍處于起步階段。最近,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。為了激發未來的研究,本文對點云深度學習方法的最新進展進行了綜述。它涵蓋了三個主要任務,包括三維形狀分類,三維目標檢測和跟蹤以及三維點云分割。我們還提供了一些可公開獲得的數據集的比較結果,以及有見地的觀察和啟發性的未來研究方向。
引言
3D數據在不同的領域有許多應用,包括自動駕駛、機器人、遙感、醫療和設計行業[4]。近年來,深度學習技術在計算機視覺、語音識別、自然語言處理(NLP)、生物信息學等研究領域占據主導地位。但是,在三維點云上進行深度學習仍然面臨數個重大挑戰[5],例如數據集規模小,維數高和三維點云的非結構化性質。在此基礎上,本文重點分析了用于處理三維點云的深度學習方法。
一些公開的數據集也被發布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite [10]。這些數據集進一步推動了對三維點云的深度學習研究,提出了越來越多的方法來解決與點云處理相關的各種問題,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
這篇論文是第一個專門針對點云的深度學習方法的綜述。此外,論文全面涵蓋了分類,檢測,跟蹤和分割等不同應用。圖1顯示了三維點云的現有深度學習方法的分類。
圖1:三維點云深度學習方法分類。
這項工作的主要貢獻可以概括如下:
1)據我們所知,這是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
2)相對于已有的綜述[11],[12],我們特別關注三維點云的深度學習方法,而不是所有類型的三維數據。
3)本文介紹了點云深度學習的最新進展。因此,它為讀者提供了最先進的方法。
4)提供了現有方法在幾個可公開獲得的數據集上的全面比較(例如,表1、2、3、4),并提供了簡要的總結和深入的討論。
本文的結構如下。第2節回顧了三維形狀分類的方法。第3節概述了現有的三維目標檢測和跟蹤方法。第4節介紹了點云分割的方法,包括語義分割、實例分割和部件分割。最后,第5節總結了論文。
論文還在以下網址上提供了定期更新的項目頁面:
//github.com/QingyongHu/SoTA-Point-Cloud
圖2:三維形狀分類網絡的時間順序概覽。
圖3:PointNet的體系結構。
圖4:點的局部鄰居的連續和離散卷積的圖解。(a)代表一個局部鄰居;(b)和(c)分別表示三維連續卷積和離散卷積。
圖5:基于圖的網絡的圖解。
表1:在ModelNet10/40基準上比較三維形狀分類結果。這里,我們只關注基于點的網絡,“#params”表示相應模型的參數數量。“OA”表示總體精度,“mAcc”表示表中的平均精度。符號“-”表示結果不可用。
圖6:按時間順序概述的最相關的基于深度學習的三維目標檢測方法。
圖7:三類三維目標檢測方法的典型網絡。從上到下:(a)基于多視圖,(b)基于分割,(c)基于視錐的方法。
表2:在KITTI測試三維檢測基準上的三維目標檢測結果對比。
表3:在KITTI test BEV檢測基準上三維目標檢測結果對比。
圖8:按時間順序概述了一些最相關的基于深度學習的點云語義分割方法。
圖9:基于投影方法的中間表示圖。
圖10:PointNet++[27]框架的示意圖。
圖11:有代表性的三維點云實例分割方法的年代概述。
未來方向
表4展示了現有方法在公共基準測試上的結果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要進一步研究的問題有:
基于點的網絡是最常被研究的方法。然而,點表示自然不具有顯式的鄰近信息,現有的大多數基于點的方法不得不借助于昂貴的鄰近搜索機制(如KNN[52]或ball query [27])。這從本質上限制了這些方法的效率,因為鄰居搜索機制既需要很高的計算成本,又需要不規則的內存訪問[214]。
從不平衡數據中學習仍然是點云分割中一個具有挑戰性的問題。雖然有幾種的方法取得了顯著的綜合成績[42]、[170]、[182],但它們在類標很少的情況下表現仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上獲得了76.0%的整體IoU,而在hardscape類上獲得了41.1%的非常低的IoU。
大多數現有的方法[5]、[27]、[52]、[170]、[171]都適用于小點云(如1m*1m,共4096個點)。在實際中,深度傳感器獲取的點云通常是巨大的、大規模的。因此,有必要進一步研究大規模點云的有效分割問題。
已有少數文獻[145]、[146]、[167]開始研究動態點云的時空信息。預期時空信息可以幫助提高后續任務的性能,如三維目標識別、分割和完成。
表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]數據集的語義分割結果對比。
結論
本文介紹了如今最先進的三維理解方法,包括三維形狀分類,三維目標檢測和跟蹤,以及三維場景和目標分割。對這些方法進行了全面的分類和性能比較。介紹了各種方法的優缺點,并提出了今后的研究方向。
題目: A survey of deep learning techniques for autonomous driving
簡介: 本文目的是研究自動駕駛中深度學習技術的最新技術。首先介紹基于AI的自動駕駛架構、CNN和RNN、以及DRL范例。這些方法為駕駛場景感知、路徑規劃、行為決策和運動控制算法奠定基礎。該文研究深度學習方法構建的模塊化“感知-規劃-執行”流水線以及將傳感信息直接映射到轉向命令的端到端系統。此外,設計自動駕駛AI架構遇到的當前挑戰,如安全性、訓練數據源和計算硬件等也進行了討論。該工作有助于深入了解深度學習和自動駕駛AI方法的優越性和局限性,并協助系統的設計選擇。
視覺目標檢測(Object Detection)作為近年來的研究熱點之一,受到了廣泛關注,每年在計算機視覺三大會議(ICCV, CVPR, ECCV)上大量相關文章發表。遙感圖像中的物體檢測越來越受到重視,但是目前對遙感圖像中目標檢測的數據集和基于深度學習的方法的綜述還不夠完善。近期,西北工業大學Gong Cheng (程塨)教授等人發布了《Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark》這篇綜述,概括了近年來計算機視覺和遙感觀測領域基于深度學習的目標檢測研究進展。然后,也提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,將其命名為DIOR(近期會Open)。數據集包含23463張圖像和190288個實例,覆蓋20個目標象類,評估了DIOR數據集上幾種最先進的方法,為未來的研究奠定了基礎。
Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark
【摘要】最近研究者們已作出大量努力,提出光學遙感圖像中的各種目標檢測方法。然而,目前對光學遙感圖像中目標檢測的數據集和基于深度學習的方法的綜述還不夠完善。此外,現有的數據集大多存在一些不足之處,如圖像和目標類別數量較少,圖像多樣性和變異性不足。這些局限性極大地影響了基于深度學習的目標檢測方法的發展。本文綜述了近年來計算機視覺和地球觀測領域基于深度學習的目標檢測研究進展。然后,我們提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,我們將其命名為DIOR。數據集包含23463張圖像和190288個實例,覆蓋20個目標象類。我們提出的DIOR數據集1)在目標類別、目標實例數量和總圖像數量上都是大規模的; 2)具有大范圍的目標尺度變化,不僅在空間分辨率方面,而且在跨目標的類間和類內尺度變化方面; 3)由于成像條件、天氣、季節、成像質量的不同,成像結果差異較大; 4)具有較高的類間相似性和類內多樣性。我們提出的基準可以幫助研究人員開發和驗證他們的數據驅動方法。最后,我們評估了DIOR數據集上幾種最先進的方法,為未來的研究奠定了基礎。
題目: Deep Learning in Video Multi-Object Tracking: A Survey
簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。