亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

【導讀】三維物體檢測是自動駕駛感知系統的重要組成部分,它可以智能預測自動駕駛車輛附近關鍵三維物體的位置、大小和類別。香港中文大學發布了最新《自動駕駛三維物體檢測》綜述論文,32頁pdf涵蓋367篇文獻全面概述基于激光雷達、基于相機和多模態的物體檢測進展,非常值得關注!

近年來,自動駕駛因其具有減輕駕駛員負擔和提高駕駛安全性的潛力而受到越來越多的關注。在現代自動駕駛流程中,感知系統是不可或缺的組成部分,其目的是準確估計周圍環境的狀態,為預測和規劃提供可靠的觀測數據。三維物體檢測是感知系統的重要組成部分,它可以智能預測自動駕駛車輛附近關鍵三維物體的位置、大小和類別。本文綜述了自動駕駛三維物體檢測的研究進展。首先,我們介紹了三維物體檢測的背景,并討論了這項任務所面臨的挑戰。其次,從模型和傳感器輸入等方面全面綜述了三維物體檢測的研究進展,包括基于激光雷達、基于相機和多模態的檢測方法。我們還對每一類方法的潛力和挑戰進行了深入分析。此外,我們還系統地研究了三維物體檢測在駕駛系統中的應用。最后,對三維物體檢測方法進行了性能分析,并進一步總結了近年來的研究趨勢,展望了該領域的未來發展方向。

項目地址://github.com/PointsCoder/Awesome-3D-Object-Detection-for-Autonomous-Driving

引言

**近年來,自動駕駛技術取得了飛速發展,其目標是讓車輛智能感知周圍環境,無需或無需人為努力就能安全地行駛。自動駕駛技術被廣泛應用于許多場景,包括自動駕駛卡車、機器人出租車、配送機器人等,能夠減少人為失誤,提高道路安全。汽車感知是自動駕駛系統的核心組成部分,通過感知輸入幫助自動駕駛車輛了解周圍環境。感知系統一般采用攝像機采集的多模態數據圖像、激光雷達掃描的點云、高清地圖等)作為輸入,預測道路關鍵要素的幾何和語義信息。高質量的感知結果為后續的軌跡預測和路徑規劃提供可靠的觀測數據。

自動駕駛場景中的3D對象檢測示例

為了全面了解駕駛環境,感知系統可以涉及到很多視覺任務,如目標檢測與跟蹤、車道檢測、語義和實例分割等。在這些感知任務中,三維物體檢測是汽車感知系統中不可或缺的任務之一。三維物體檢測的目的是預測關鍵物體在三維空間中的位置、大小和類別,如汽車、行人、騎自行車的人等。與僅在圖像上生成二維邊界框而忽略目標與自身距離信息的目標檢測相比,三維物體檢測關注的是目標在真實三維坐標系中的定位與識別。三維物體檢測在現實坐標中預測的幾何信息可以直接用于測量自駕車與關鍵物體之間的距離,從而進一步幫助規劃駕駛路線和避免碰撞。

自動駕駛三維物體檢測的層次分類法

隨著計算機視覺和機器人技術中深度學習技術的發展,三維物體檢測方法得到了迅速的發展。這些方法一直試圖從特定的角度來解決3D物體檢測問題,如從特定的感官類型檢測、數據表示等,但缺乏與其他類別方法的系統比較。因此,綜合分析所有類型的三維物體檢測方法的優缺點是可取的,可以為研究社區提供一些有趣的發現。為此,我們提出對自動駕駛應用中的三維物體檢測方法進行全面的綜述,并對不同類型的方法進行深入的分析和系統的比較。與現有研究相比[5,139,215],本文廣泛涵蓋了這一領域的最新進展,如從距離圖像中檢測三維目標、自/半/弱監督三維目標檢測、端到端駕駛系統中的三維檢測等。以往的研究只關注點云[88,73,338]、單眼圖像[297,165]和多模態輸入[284]的檢測,而本文系統地研究了所有感官類型和大多數應用場景下的三維物體檢測方法。這項工作的主要貢獻可歸納如下:

  • 本文從不同的角度對三維物體檢測方法進行了全面的綜述,包括來自不同傳感器輸入的檢測(基于激光雷達、基于相機和多模態檢測)、來自時間序列的檢測、標簽高效檢測,以及三維物體檢測在駕駛系統中的應用。

  • 我們從結構和層次上對三維物體檢測方法進行了總結,并對這些方法進行了系統的分析,對不同類別的方法的潛力和挑戰提出了有價值的見解。

  • 我們對三維物體檢測方法進行了全面的性能和速度分析,找出了多年來的研究趨勢,并對未來的三維物體檢測方向提出了有見地的看法。

本文的結構安排如下。首先,我們在第2節中介紹了三維物體檢測的問題定義、數據集和評估指標。然后,我們回顧和分析了基于LiDAR傳感器(第3節)、攝像頭(第4節)和多感官輸入融合(第5節)的三維物體檢測方法。接下來,我們介紹了第6節中利用時間數據的檢測方法和第7節中使用較少的標簽的檢測方法。隨后我們在第8節討論了三維物體檢測在驅動系統中的應用。最后,在第9部分,我們對三維物體檢測的速度和性能進行了分析,并對研究趨勢進行了探討,并對未來的發展方向進行了展望。圖1顯示了一個層次結構的分類法。我們還在這里提供了一個不斷更新的項目頁面。

基于激光雷達的三維物體檢測

基于激光雷達的三維物體檢測方法概述

一種通用的基于點的檢測框架包括基于點的骨干網和預測頭。基于點的主干由多個塊組成,用于點云采樣和特征學習,預測頭直接從候選點估計出三維邊界框。

基于相機的三維物體檢測

單階段錨定方法利用圖像特征和預定義的3D錨定框來預測三維物體參數。單階段無錨方法直接從圖像像素預測三維物體參數。兩階段檢測方法首先由二維檢測器生成二維包圍盒,然后根據二維RoI特征預測三維物體參數,將二維檢測提升到三維空間。

多模態三維物體檢測

早期融合方法在點云特征通過基于激光雷達的三維物體檢測器之前,利用圖像信息進行增強。在區域知識融合中,首先對圖像進行二維檢測,生成二維邊界框。然后將二維方框擠壓到視錐中,選擇合適的點云區域,用于后續的基于激光雷達的三維目標檢測。在點級知識融合中,首先對圖像進行語義分割,然后將分割結果從圖像像素轉移到點上,作為附加在每個點上的附加特征。最后將增強后的點云通過激光雷達探測器進行三維物體檢測。

付費5元查看完整內容

相關內容

悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文

基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。

//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2

引言

自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。

現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。

本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。

本工作的主要貢獻如下:

  1. 據我們所知,這是基于圖像的自動駕駛三維檢測方法的首次研究。本文綜述了80余種基于圖像的三維檢測器和200余項相關研究工作。
  2. 我們對問題的關鍵方面,包括數據集、評價指標、檢測流程和技術細節,提供了全面的回顧和深刻的分析。
  3. 我們提出了兩種最新的分類方法,目的是幫助讀者輕松地獲取這一新興的、正在發展的研究領域的知識。
  4. 我們總結了基于圖像的三維檢測的主要問題和未來的挑戰,并對未來工作提出了一些潛在的研究方向。

本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey

本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。

任務

在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。

數據集

眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。

方法

我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。

由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。

未來挑戰

基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。

深度估計

基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。

不止監督學習

創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。

多模態

如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。

時間序列

在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。

泛化性

泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。

本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。

付費5元查看完整內容

論文標題://www.zhuanzhi.ai/paper/73cf9736c65be0102766f210e8693513

論文鏈接:

作者單位:中國人民大學

26頁綜述,共計99篇參考文獻!本文對基于圖像(單目/立體)、點云、多模態融合的3D目標檢測技術進行全面調研,內容包括傳感器、基礎知識和最經典和最先進的檢測方法及其優缺點。

自動駕駛被認為是保護人類免受嚴重碰撞的最有希望的補救措施之一。為此,3D目標檢測作為此類感知系統的核心基礎,尤其是在路徑規劃、運動預測、碰撞避免等方面。通常,立體或單目圖像與相應的3D點云已經是3D物體的標準布局檢測,其中點云越來越普遍,提供準確的深度信息。盡管已有努力,但點云上的3D目標檢測仍處于起步階段,因為點云本質上的高度稀疏性和不規則性,相機視圖和 LiDAR 鳥瞰視圖之間的錯位視圖,用于模態協同,遠距離的遮擋和尺度變化,最近,3D對象檢測取得了重大進展,正在研究大量文獻以解決這一視覺任務。因此,我們全面回顧了該領域的最新進展,涵蓋了所有主要主題,包括傳感器、基礎知識和最近最先進的檢測方法及其優缺點。此外,我們引入了指標并提供了對流行公共數據集的定量比較。在對所調查的工作進行深入分析后,將明智地確定未來工作的途徑。最后,我們總結了這篇論文。

付費5元查看完整內容

本文將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。

在真實的3D空間中檢測和定位對象(在場景理解中起著至關重要的作用)尤其困難,因為在圖像投影過程中由于幾何信息的丟失,僅給出單目圖像。我們提出MonoGRNet用于通過幾何推理在觀測到的2D投影和未觀測到的深度尺寸中從單目圖像中檢測無模態3D對象。 MonoGRNet將單目3D目標檢測任務分解為四個子任務,包括2D目標檢測,實例級深度估計,投影3D中心估計和局部角點回歸。任務分解極大地促進了單目3D對象檢測,從而可以在單個前向傳遞中有效地預測目標3D邊界框,而無需使用object proposal,后處理或先前方法所使用的計算上昂貴的像素級深度估計。此外,MonoGRNet可以靈活地適應完全和弱監督學習,從而提高了我們框架在各種環境中的可行性。在KITTI,Cityscapes和MS COCO數據集上進行了實驗。結果表明,我們的框架在各種情況下均具有令人鼓舞的性能。

付費5元查看完整內容

邊緣計算在自動駕駛的環境感知和數據處理方面有著極其重要的應用。自動駕駛汽車可以通過從邊緣節點獲得環境信息來擴大自身的感知范圍,也可以向邊緣節點卸載計算任務以解決計算資源不足的問題。相比于云計算,邊緣計算避免了長距離數據傳輸所導致的高時延,能給自動駕駛車輛提供更快速的響應,并且降低了主干網絡的負載。基于此,首先介紹了基于邊緣計算的自動駕駛汽車協同感知和任務卸載技術及相關挑戰性問題,然后對協同感知和任務卸載技術的研究現狀進行了分析總結,最后討論了該領域有待進一步研究的問題。

付費5元查看完整內容

自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。

//arxiv.org/abs/2006.06091

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容

摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。

付費5元查看完整內容

【導讀】隨著近幾年來AI技術的飛速發展,人們將計算機視覺技術應用于自動駕駛,使得自動駕駛的應用變得可行,很大程度地推進了自動駕駛技術的發展。本文介紹一篇關于自動駕駛計算機視覺的全面綜述,覆蓋了該領域相關的問題、數據集和最先進的技術。

近幾年來,我們目睹了AI相關領域取得的巨大的進步,如計算機視覺、機器學習、自動駕駛等。隨著這些領域的飛速發展,初學者很難了解領域最新的進展。在自動駕駛計算機視覺領域,盡管出現了一些關于特定子問題的綜述,但尚未發布關于問題、數據集和方法的全面和綜合的綜述。

綜述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》試圖通過提供對目前最先進的相關技術和數據集的調研來縮小人們對該領域的認知鴻溝。綜述既包括了已有的最相關的文獻,也包含了一些特殊主題目前最先進的成果,如識別、重建、運動估計、跟蹤、場景理解和自動駕駛端到端學習。綜述還包含了對最先進技術在KITTI、MOT和Cityscapes等幾個具有挑戰性的基準數據集上的性能的分析。

另外,該綜述還討論了一些開放問題和目前的研究挑戰。綜述還提供了一個網站,方便人們訪問相關的主題,以及提供額外的信息。

綜述首先提供了自動駕駛的簡要歷史,然后介紹了相機模型和校準技術。接著,綜述介紹了與自動駕駛相關的數據集(重點關注與感知相關的數據集)、相關的感知任務和最新的解決方法。尤其是,綜述回顧了目標檢測、目標跟蹤、語義(實體)分割、重建、運動估計和場景理解。每個章節包含了問題定義、重要方法和主要設計選擇、頂尖技術在流行數據集上的定性和定量分析以及關于領域最先進技術的討論。最終,綜述提供了關于最先進端到端自動駕駛模型的概覽。

綜述的目錄大致如下:

  • 簡介
  • 自動駕駛的歷史
  • 感知器
  • 數據集和基準
  • 目標檢測
  • 目標跟蹤
  • 語義分割
  • 語義實體分割
  • 立體
  • 多視角3D重建
  • 光流
  • 3D場景流
  • 地圖、定位和Ego-Motion估計
  • 場景理解
  • 自動駕駛的端到端學習
  • 總結
付費5元查看完整內容
北京阿比特科技有限公司