3D點云學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。國防科技大學郭裕蘭老師課題組新出的這篇論文對近幾年點云深度學習方法進行了全面綜述,是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等,并對點云深度學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。也提供了現有方法在幾個可公開獲得的數據集上的全面比較,最后也介紹了未來的研究方向。
【摘要】點云學習近年來受到越來越多的關注,因為它在許多領域都有廣泛的應用,比如計算機視覺、自動駕駛和機器人技術。作為人工智能的主要技術之一,深度學習已經成功地用于解決各種二維視覺問題。然而,由于使用深度神經網絡處理點云所面臨的獨特挑戰,對點云的深度學習仍處于起步階段。最近,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。為了激發未來的研究,本文對點云深度學習方法的最新進展進行了綜述。它涵蓋了三個主要任務,包括三維形狀分類,三維目標檢測和跟蹤以及三維點云分割。我們還提供了一些可公開獲得的數據集的比較結果,以及有見地的觀察和啟發性的未來研究方向。
引言
3D數據在不同的領域有許多應用,包括自動駕駛、機器人、遙感、醫療和設計行業[4]。近年來,深度學習技術在計算機視覺、語音識別、自然語言處理(NLP)、生物信息學等研究領域占據主導地位。但是,在三維點云上進行深度學習仍然面臨數個重大挑戰[5],例如數據集規模小,維數高和三維點云的非結構化性質。在此基礎上,本文重點分析了用于處理三維點云的深度學習方法。
一些公開的數據集也被發布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite [10]。這些數據集進一步推動了對三維點云的深度學習研究,提出了越來越多的方法來解決與點云處理相關的各種問題,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
這篇論文是第一個專門針對點云的深度學習方法的綜述。此外,論文全面涵蓋了分類,檢測,跟蹤和分割等不同應用。圖1顯示了三維點云的現有深度學習方法的分類。
圖1:三維點云深度學習方法分類。
這項工作的主要貢獻可以概括如下:
1)據我們所知,這是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
2)相對于已有的綜述[11],[12],我們特別關注三維點云的深度學習方法,而不是所有類型的三維數據。
3)本文介紹了點云深度學習的最新進展。因此,它為讀者提供了最先進的方法。
4)提供了現有方法在幾個可公開獲得的數據集上的全面比較(例如,表1、2、3、4),并提供了簡要的總結和深入的討論。
本文的結構如下。第2節回顧了三維形狀分類的方法。第3節概述了現有的三維目標檢測和跟蹤方法。第4節介紹了點云分割的方法,包括語義分割、實例分割和部件分割。最后,第5節總結了論文。
論文還在以下網址上提供了定期更新的項目頁面:
//github.com/QingyongHu/SoTA-Point-Cloud
圖2:三維形狀分類網絡的時間順序概覽。
圖3:PointNet的體系結構。
圖4:點的局部鄰居的連續和離散卷積的圖解。(a)代表一個局部鄰居;(b)和(c)分別表示三維連續卷積和離散卷積。
圖5:基于圖的網絡的圖解。
表1:在ModelNet10/40基準上比較三維形狀分類結果。這里,我們只關注基于點的網絡,“#params”表示相應模型的參數數量。“OA”表示總體精度,“mAcc”表示表中的平均精度。符號“-”表示結果不可用。
圖6:按時間順序概述的最相關的基于深度學習的三維目標檢測方法。
圖7:三類三維目標檢測方法的典型網絡。從上到下:(a)基于多視圖,(b)基于分割,(c)基于視錐的方法。
表2:在KITTI測試三維檢測基準上的三維目標檢測結果對比。
表3:在KITTI test BEV檢測基準上三維目標檢測結果對比。
圖8:按時間順序概述了一些最相關的基于深度學習的點云語義分割方法。
圖9:基于投影方法的中間表示圖。
圖10:PointNet++[27]框架的示意圖。
圖11:有代表性的三維點云實例分割方法的年代概述。
未來方向
表4展示了現有方法在公共基準測試上的結果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要進一步研究的問題有:
基于點的網絡是最常被研究的方法。然而,點表示自然不具有顯式的鄰近信息,現有的大多數基于點的方法不得不借助于昂貴的鄰近搜索機制(如KNN[52]或ball query [27])。這從本質上限制了這些方法的效率,因為鄰居搜索機制既需要很高的計算成本,又需要不規則的內存訪問[214]。
從不平衡數據中學習仍然是點云分割中一個具有挑戰性的問題。雖然有幾種的方法取得了顯著的綜合成績[42]、[170]、[182],但它們在類標很少的情況下表現仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上獲得了76.0%的整體IoU,而在hardscape類上獲得了41.1%的非常低的IoU。
大多數現有的方法[5]、[27]、[52]、[170]、[171]都適用于小點云(如1m*1m,共4096個點)。在實際中,深度傳感器獲取的點云通常是巨大的、大規模的。因此,有必要進一步研究大規模點云的有效分割問題。
已有少數文獻[145]、[146]、[167]開始研究動態點云的時空信息。預期時空信息可以幫助提高后續任務的性能,如三維目標識別、分割和完成。
表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]數據集的語義分割結果對比。
結論
本文介紹了如今最先進的三維理解方法,包括三維形狀分類,三維目標檢測和跟蹤,以及三維場景和目標分割。對這些方法進行了全面的分類和性能比較。介紹了各種方法的優缺點,并提出了今后的研究方向。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
【導讀】對抗攻擊防御研究用于提升深度學習的魯棒性,是當下的關注焦點。最近,中山大學等學者發布了最新關于圖對抗學習綜述論文,19頁pdf83篇文獻,對在圖形分析任務中對現有的攻防工作進行了梳理和統一,同時給出了適當的定義和分類。此外,我們強調了相關評價指標的重要性,并對其進行了全面的調查和總結。
圖數據的深度學習模型在節點分類、鏈路預測、圖數據聚類等各種圖數據分析任務中都取得了顯著的效果。然而,它們暴露了對于設計良好輸入的不確定性和不可靠性, 對抗樣本。因此,在不同的圖數據分析任務中,出現了各種攻擊和防御的研究,從而導致了圖數據對抗學習中的競爭。例如,攻擊者有投毒和逃避攻擊,防御組相應地有基于預處理和對抗的方法。
盡管工作蓬勃發展,但仍然缺乏統一的問題定義和全面的調研綜述。為了彌補這一不足,我們對已有的關于圖對抗學習任務的研究進行了系統的總結。具體來說,我們在圖形分析任務中對現有的攻防工作進行了梳理和統一,同時給出了適當的定義和分類。此外,我們強調了相關評價指標的重要性,并對其進行了全面的調查和總結。希望我們的工作可以為相關研究者提供參考,為他們的研究提供幫助。更多關于我們工作的細節,
請訪問
//github.com/gitgiter/Graph-Adversarial-Learning
在過去的幾十年里,深度學習已經成為人工智能領域的皇冠上的寶石,在語音和語言處理[72,18]、人臉識別[45]和目標檢測[33]等各種應用中都表現出了令人印象深刻的表現。然而,最近頻繁使用的深度學習模型被證明是不穩定和不可靠的,因為它們容易受到干擾。例如,一張圖片上幾個像素的細微變化,對于人眼來說是難以察覺的,但是對于深度學習模型[44]的輸出卻有很大的影響。此時,定義良好并通過反向傳播學習的深度學習模型具有固有的盲點和非直觀特征,應該以明顯的[59]方式推廣到數據分布中。
圖作為一種強大的表示方法,在現實的[25]中有著重要的作用和廣泛的應用。當然,深度學習對圖形的研究也是一個熱門話題,并在不同的領域帶來了許多令人耳目一新的實現,如社交網絡[46]、電子商務網絡[64]和推薦系統[14,71]。不幸的是,作為機器學習關鍵領域的圖分析領域也暴露了深度學習模型在受到精心設計的攻擊時的脆弱性[81,83]。例如,考慮到節點分類的任務,攻擊者通常控制多個假節點,目的是欺騙目標分類器,通過在這些節點與其他良性節點之間添加或刪除邊緣,從而導致誤分類。通常,這些惡意節點被稱為“攻擊者節點”,而其他受害節點被稱為“受影響節點”。如圖1所示,在一個干凈的圖上執行了小的擾動(增加了兩個鏈接,改變了幾個節點的特征),這導致了圖學習模型的錯誤分類。
隨著對圖數據模型安全性的日益關注,圖數據對抗學習的研究也隨之興起。,一個研究圖數據模型安全性和脆弱性的領域。一方面,從攻擊圖數據學習模型的角度出發,[81]首先研究了圖數據的對抗性攻擊,在節點特征和圖結構受干擾較小的情況下,目標分類器容易對指定的節點進行欺騙和誤分類。另一方面,[65]提出了一種改進的圖卷積網絡(GCNs)模型,該模型具有對抗防御框架,以提高魯棒性。此外,[55]研究了現有的圖數據攻防對抗策略的工作,并討論了它們的貢獻和局限性。然而,這些研究主要集中在對抗性攻擊方面,而對防御方面的研究較少。
挑戰 盡管關于圖表對抗學習的研究大量涌現,但仍然存在一些需要解決的問題。i) 統一與具體的形式化。目前的研究都是將圖對抗學習的問題定義和假設用自己的數學形式化來考慮,大多沒有詳細的解釋,這使得比較和跟進更加困難。ii) 相關評價指標。而對于不同的任務,對應性能的評價指標也有很大的不同,甚至有不同的標準化。此外,圖對抗學習場景的特殊度量還沒有被探索,例如,對攻擊影響的評估。
對于公式和定義不一致的問題,我們考察了現有的攻防工作,給出了統一的定義,并從不同的角度進行了劃分。雖然已經有了一些努力[81,37,19]來概括定義,但大多數公式仍然對自己的模型進行定制。到目前為止,只有一篇文章[55]從綜述的角度概述了這些概念,這不足以全面總結現有的工作。在前人研究的基礎上,我們總結了不同類型的圖,并按層次介紹了三個主要任務,分別在3.1節和4.1節給出了攻擊和防御的統一公式。
自然地,不同的模型伴隨著許多量化的方法,其中提供了一些新的度量。為了幫助研究人員更好地量化他們的模型,也為了系統地總結度量標準,我們在第5節中對度量標準進行了更詳細的討論。特別地,我們首先介紹了防御和攻擊的一些常見度量,然后介紹了它們各自工作中提供的三個類別的度量:有效性、效率和不可感知性。例如,攻擊成功率(ASR)[9]和平均防御率(ADR)[10]分別被用來衡量攻擊和防御的有效性。
綜上所述,我們的貢獻如下:
題目: Review: deep learning on 3D point clouds
簡介:
點云是在三維度量空間中定義的點集。點云已經成為三維表示中最重要的數據格式之一。由于激光雷達等獲取設備的可用性增加以及機器人、自動駕駛、增強和虛擬現實等領域的應用增加,它越來越受歡迎。深度學習現在是計算機視覺中最強大的數據處理工具,成為分類、分割和檢測等任務的首選技術。深度學習技術主要應用于具有結構化網格的數據,而點云則是非結構化的。點云的無結構使得深度學習直接處理點云非常具有挑戰性。早期的方法通過將點云預處理成結構化的網格格式來克服這一挑戰,代價是計算成本的增加或深度信息的丟失。然而,最近許多先進的深度學習技術正在開發中,這些技術可以直接操作點云。這篇論文包含了對當前最先進的深度學習技術的調查,這些技術主要集中在點云數據上。我們首先簡要地討論了在點云上直接使用深度學習所面臨的主要挑戰,我們還簡要地討論了通過將點云預處理成結構化網格來克服這些挑戰的早期方法。然后,我們回顧了各種先進的深度學習方法,直接處理點云的非結構化形式。我們介紹了流行的3D點云基準數據集。我們還進一步討論了深度學習在當前流行的三維視覺任務中的應用,包括分類、分割和檢測。
作者:
王程,福建省特支“雙百計劃”入選者、福建省科技創新領軍人才、廈門大學計算機科學系教授、博士生導師、副院長。研究方向:三維視覺,空間大數據分析,激光雷達,虛擬/增強現實。個人主頁:
【導讀】無人機計算機視覺相關檢測和跟蹤( Vision Meets Drones)作為近年來的研究熱點之一,受到了廣泛關注,這兩年在各大會議上都有相關文章發表,并且也有一些競賽。當前,無人機收集的視覺數據的自動理解變得非常困難,并且其用途廣泛,天津大學的朱鵬飛博士、京東數字科技文瓏銀博士和紐約州立大學奧爾巴尼分校的獨大為博士等新出的這篇論文對近幾年基于無人機視覺檢測和跟蹤方法和數據集進行了全面綜述,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。作者也提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。對每一個track進行了詳細得說明,并強調VisDrone是迄今為止發布的最大的此類數據集,可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。
//github.com/VisDrone/VisDrone-Dataset
【摘要】配備了攝像頭的無人機,或稱通用無人機,已經被快速部署到廣泛的應用領域,包括農業、航空攝影、快速遞送和監控。因此,對無人機收集的視覺數據的自動理解變得非常困難,這使得計算機視覺和無人機之間的聯系越來越緊密。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們與歐洲計算機視覺大會(ECCV) 2018和IEEE計算機視覺國際會議(ICCV) 2019聯合舉辦了兩個挑戰研討會,吸引了全世界100多支團隊。我們提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。本文首先對目標檢測和跟蹤數據集和基準進行了全面的回顧,并討論了收集具有完全手動標注的大規模基于無人機的目標檢測和跟蹤數據集的挑戰。之后,我們描述了VisDrone數據集,該數據集是從中國北方到南方的14個不同城市的各個城市/郊區捕獲的。VisDrone是迄今為止發布的最大的此類數據集,它可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。我們詳細分析了無人機大尺度目標檢測與跟蹤領域的現狀,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。我們預計這一基準將極大地促進無人機平臺視頻分析的研發。可以從以下網站下載所有數據集和實驗結果:
參考鏈接:
引言
近年來,計算機視覺因其在交通監控、智慧城市、人機交互等領域的廣泛應用而受到越來越多的關注。作為計算機視覺的兩個基本問題,目標檢測和跟蹤一直受到廣泛的關注。在導致計算機視覺技術快速發展的眾多因素和努力中,值得注意的貢獻應歸功于眾多基準和挑戰的發明或組織, 如目標檢測的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目標跟蹤的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。
配備攝像頭的無人機已經被快速部署到廣泛的領域,包括農業、航空攝影、快速投遞和監視。因此,對從這些無人機收集的視覺數據的自動理解變得非常困難,這將計算機視覺越來越緊密地帶入了無人機。盡管一般的計算機視覺算法(如檢測和跟蹤)取得了很大的進步,但這些算法通常不是處理無人機捕獲的序列或圖像的最佳算法。這是由于各種各樣的挑戰,如較大的視點變化和規模。因此,為無人機捕獲的視覺數據開發和評估新的視覺算法至關重要。然而,正如[10]和[11]所指出的,由于缺乏公開的大規模基準或數據集,對這一目標的研究受到嚴重限制。最近,[10]、[11]和[12]致力于構建無人機捕獲的數據集,這些數據集主要用于目標檢測或跟蹤。由于數據收集和標注方面的困難,這些數據集的大小和涉及的場景仍然有限。對現有或新開發的算法進行徹底的評估仍然是一個開放的問題。為了進一步推進無人機平臺視頻分析研究,需要一個更通用、更全面的基準。
因此,作者與歐洲計算機視覺大會(ECCV) 2018和IEEE國際計算機視覺大會(ICCV) 2019聯合舉辦了兩次挑戰研討會,吸引了全世界100多個研究團隊。挑戰集中在目標檢測和跟蹤的四個track。
圖像目標檢測跟蹤(DET)。
視頻目標檢測跟蹤(VID)。
單目標跟蹤(SOT)。
多目標跟蹤(MOT)。
值得注意的是,在研討會挑戰中,本文提供了一個大型數據集,包含179個視頻中263個視頻片段; 10個視頻中的264幀畫面; 209張靜態圖像。數據由不同的無人機相機記錄,包括位置(取自中國14個不同的城市)、環境(城市和農村地區)、物體(如行人、車輛和自行車)和密度(稀疏和擁擠的場景)。作者選擇了10類在無人機應用中最受關注的目標,比如行人和汽車。作者共仔細標注了來自這些類別的超過250萬個目標實例的邊界框。此外,還提供了一些重要的屬性,包括場景的可見性、目標類別和遮擋,以提高數據使用率。表1列出了所提供的無人機數據集與其他相關基準數據集在目標檢測和跟蹤方面的詳細比較。
在這篇論文中,作者重點關注了2018年和2019年的VisDrone挑戰,以及挑戰的方法、結果和評估方案,希望這一挑戰能在很大程度上促進相關領域的研究和發展。
【導讀】隨著近幾年來AI技術的飛速發展,人們將計算機視覺技術應用于自動駕駛,使得自動駕駛的應用變得可行,很大程度地推進了自動駕駛技術的發展。本文介紹一篇關于自動駕駛計算機視覺的全面綜述,覆蓋了該領域相關的問題、數據集和最先進的技術。
近幾年來,我們目睹了AI相關領域取得的巨大的進步,如計算機視覺、機器學習、自動駕駛等。隨著這些領域的飛速發展,初學者很難了解領域最新的進展。在自動駕駛計算機視覺領域,盡管出現了一些關于特定子問題的綜述,但尚未發布關于問題、數據集和方法的全面和綜合的綜述。
綜述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》試圖通過提供對目前最先進的相關技術和數據集的調研來縮小人們對該領域的認知鴻溝。綜述既包括了已有的最相關的文獻,也包含了一些特殊主題目前最先進的成果,如識別、重建、運動估計、跟蹤、場景理解和自動駕駛端到端學習。綜述還包含了對最先進技術在KITTI、MOT和Cityscapes等幾個具有挑戰性的基準數據集上的性能的分析。
另外,該綜述還討論了一些開放問題和目前的研究挑戰。綜述還提供了一個網站,方便人們訪問相關的主題,以及提供額外的信息。
綜述首先提供了自動駕駛的簡要歷史,然后介紹了相機模型和校準技術。接著,綜述介紹了與自動駕駛相關的數據集(重點關注與感知相關的數據集)、相關的感知任務和最新的解決方法。尤其是,綜述回顧了目標檢測、目標跟蹤、語義(實體)分割、重建、運動估計和場景理解。每個章節包含了問題定義、重要方法和主要設計選擇、頂尖技術在流行數據集上的定性和定量分析以及關于領域最先進技術的討論。最終,綜述提供了關于最先進端到端自動駕駛模型的概覽。
綜述的目錄大致如下:
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。