論文標題://www.zhuanzhi.ai/paper/73cf9736c65be0102766f210e8693513
論文鏈接:
作者單位:中國人民大學
26頁綜述,共計99篇參考文獻!本文對基于圖像(單目/立體)、點云、多模態融合的3D目標檢測技術進行全面調研,內容包括傳感器、基礎知識和最經典和最先進的檢測方法及其優缺點。
自動駕駛被認為是保護人類免受嚴重碰撞的最有希望的補救措施之一。為此,3D目標檢測作為此類感知系統的核心基礎,尤其是在路徑規劃、運動預測、碰撞避免等方面。通常,立體或單目圖像與相應的3D點云已經是3D物體的標準布局檢測,其中點云越來越普遍,提供準確的深度信息。盡管已有努力,但點云上的3D目標檢測仍處于起步階段,因為點云本質上的高度稀疏性和不規則性,相機視圖和 LiDAR 鳥瞰視圖之間的錯位視圖,用于模態協同,遠距離的遮擋和尺度變化,最近,3D對象檢測取得了重大進展,正在研究大量文獻以解決這一視覺任務。因此,我們全面回顧了該領域的最新進展,涵蓋了所有主要主題,包括傳感器、基礎知識和最近最先進的檢測方法及其優缺點。此外,我們引入了指標并提供了對流行公共數據集的定量比較。在對所調查的工作進行深入分析后,將明智地確定未來工作的途徑。最后,我們總結了這篇論文。
今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而,部署模型要求它們在開放世界中工作,開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別,并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊,包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作,特別是有很少或甚至沒有訓練的樣例。首先,我們將探索傳統模型如何泛化到現實世界,傳統模型只識別一小部分對象類。我們表明,目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化,都可能導致精度下降。我們的系統評估顯示,模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀,但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后,我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來,我們探索歸納到大的或無限的詞匯,其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合,我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試,并提供了適當評估此設置中的進度的替代指標。最后,我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。
//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/
弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。
引言
目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。
為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。
在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。
在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:
目標檢測是對圖像或視頻中的物體進行分類和定位的任務。近年來,由于其廣泛的應用而倍受關注。本文概述了基于深度學習的目標檢測器的最新發展。還提供了用于檢測的基準數據集和評估指標的簡要概述,以及用于識別任務的一些著名的主干架構。它還涵蓋了邊緣設備上使用的當代輕量級分類模型。最后,我們在多個指標上比較了這些體系結構的性能。
人體姿態估計的目的是通過圖像、視頻等輸入數據定位人體部位,構建人體表征(如人體骨架)。在過去的十年中,它受到了越來越多的關注,并被廣泛應用于人機交互、運動分析、增強現實和虛擬現實等領域。盡管最近開發的基于深度學習的解決方案在人體姿態估計方面取得了很高的性能,但由于訓練數據不足、深度模糊和遮擋,仍然存在挑戰。本綜述論文的目的是通過對基于輸入數據和推理的解決方案進行系統的分析和比較,對最近基于深度學習的二維和三維姿態估計解決方案進行全面的回顧。這項綜述涵蓋了自2014年以來的240多篇研究論文。此外,還包括了二維和三維人體姿態估計數據集和評估指標。本文總結和討論了現有方法在流行數據集上的定量性能比較。最后,對所涉及的挑戰、應用和未來的研究方向進行了總結。
//www.zhuanzhi.ai/paper/7459265d2fbd81f9b91bf0f7b461bcc7
The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances
人臉識別是計算機視覺領域中最基本、最長期存在的研究課題之一。隨著深度卷積神經網絡和大規模數據集的發展,深度人臉識別取得了顯著的進展,并在實際應用中得到了廣泛的應用。以自然圖像或視頻幀作為輸入,端到端深度人臉識別系統輸出人臉特征進行識別。為了實現這一目標,整個系統通常由三個關鍵要素構建:人臉檢測、人臉預處理和人臉表示。人臉檢測在圖像或幀中定位人臉。然后,對人臉進行預處理,將人臉標定為標準視圖,并將其裁剪為標準化像素大小。最后,在人臉表示階段,從預處理后的人臉中提取識別特征進行識別。深度卷積神經網絡滿足了這三個要素。摘要隨著深度學習技術的蓬勃發展,端到端深度人臉識別技術的能力得到了極大的提高,本文對端到端深度人臉識別技術中各個方面的最新進展進行了綜述。首先,我們介紹端到端深度人臉識別的概述,如前所述,它包括人臉檢測、人臉預處理和人臉表示。然后,我們分別回顧了基于深度學習的每個元素的進展,包括許多方面,如最新的算法設計、評估指標、數據集、性能比較、存在的挑戰和未來的研究方向。我們希望這一調查可以為我們更好地理解端到端人臉識別的大圖和更系統的探索帶來有益的想法。
自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。