目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.
目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.
傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.
最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.
本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.
視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,本文在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法,結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系,對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效,精度更高的算法被相繼提出,其發展方向也會越來越好。
目標檢測一直以來都是計算機視覺領域的研究熱點之一,其任務是返回給定圖像中的單個或多個特定目 標的類別與矩形包圍框坐標.隨著神經網絡研究的飛速進展,R-CNN 檢測器的誕生標志著目標檢測正式進入深度學習時代,速度和精度相較于傳統算法均有了極大的提升.但是,目標檢測的尺度問題對于深度學習算法而言也始終是 一個難題,即檢測器對于尺度極大或極小目標的檢測精度會顯著下降,因此,近年來有不少學者在研究如何才能更好 地實現多尺度目標檢測.雖然已有一系列的綜述文章從算法流程、網絡結構、訓練方式和數據集等方面對基于深度 學習的目標檢測算法進行了總結與分析,但對多尺度目標檢測的歸納和整理卻鮮有人涉足.因此,首先對基于深度學 習的目標檢測的兩個主要算法流派的奠基過程進行了回顧,包括以 R-CNN 系列為代表的兩階段算法和以 YOLO、 SSD 為代表的一階段算法;然后,以多尺度目標檢測的實現為核心,重點詮釋了圖像金字塔、構建網絡內的特征金字 塔等典型策略;最后,對多尺度目標檢測的現狀進行總結,并針對未來的研究方向進行展望。
//www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6166&journal_id=jos
小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.
行人檢測技術在智能交通系統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益于深度學習的飛速發展,基于深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,并取得了良好的性能。但是由于行人目標內在的特殊性、復雜性,特別是考慮到復雜場景下的行人遮擋、尺度變化等問題,深度學習方法也面臨著嚴峻的挑戰。本文針對上述問題,以基于深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基于錨點框、基于無錨點框以及通用技術改進(例如損失函數,非極大值抑制等)三個角度,對各類行人檢測算法進行細分,并選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2020&journal_id=jig
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。