国产日黄色大片一区二区,五月天婷婷丁香基地综合

圖像目標檢測是找出圖像中感興趣的目標，并確定他們的類別和位置，是當前計算機視覺領域的研究熱點。近年來，由于深度學習在圖像分類方面的準確度明顯提高，基于深度學習的圖像目標檢測模型逐漸成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡；然后，重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述；最后，根據在公共數據集上的檢測結果分析模型的優勢和缺點，總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。

引言

計算機視覺（computer vision）是人工智能（artificial intelligence，AI）的關鍵領域之一，是一門研究如何使機器“看”的科學。圖像目標檢測又是計算機視覺的關鍵任務，主要對圖像或視頻中的物體進行識別和定位，是 AI 后續應用的基礎。因此，檢測性能的好壞直接影響到后續目標追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理解，但隨目標大小而變化的窗口對圖像進行從左至右、從上至下的全局搜索導致效率低下。為了在滑動窗口檢測器的基礎上提高搜索速度， Uijlings 等[5]提出了選擇性搜索方法（selective search method），該方法的主要觀點是圖像中的目標存在的區域具有相似性和連續性，基于這一想法采用子區域合并的方式進行候選區域的提取從而確定目標。Girshick 等[6]提出的基于區域的卷積神經網絡（region-based convolutional neural network，R-CNN）就是采用了選擇性搜索方法提取候選區域，進而越來越多的學者在不斷改進確定目標的方法的基礎上提出新的檢測模型。

本文首先介紹了圖像目標檢測模型中常用的卷積神經網絡；然后，重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模型進行綜述；最后，根據在公共數據集上的檢測結果分析模型的優勢和缺點，總結了現有圖像目標檢測研究中存在的問題并對未來發展做出展望。

基于深度學習的圖像目標檢測模型

本節將介紹近幾年提出的基于候選區域、回歸和 anchor-free 的圖像目標檢測模型，總結各模型相比之前模型的改進策略以及自身的創新點和不足，并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上做出比較。

基于候選區域的圖像目標檢測模型

R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的，它是候選區域和卷積神經網絡這一框架的開山之作，也是第一個可以真正應用于工業級圖像目標檢測的解決方案，為基于 CNN 圖像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的圖像中提取出 2 000 個候選區域，使用剪裁[9]和變形[19]的方法將候選區域的尺寸固定為 277×277 以適應全連接層的輸入，通過 CNN 前向傳播對每個候選區域進行特征計算；然后將每個候選區域的特征向量送入特定線性分類器中進行分類和預測概率值；最后使用非極大值抑制（non-maximum suppression，NMS）[20]算法消除多余的目標框，找到目標的最佳預測位置。

R-CNN 圖像目標檢測模型雖然將 mAP（mean average precision，平均精度值）[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%，在基于深度學習的圖像目標檢測領域取得了重大突破，但由于其輸入圖像經過剪裁和變形后會導致信息丟失和位置信息扭曲，從而影響識別精度，并且 R-CNN 需要對每張圖片中的上千個變形后的區域反復調用 CNN，所以特征計算非常耗時，速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測速度較慢的缺點，2014年He等[21]提出了SPP-Net，該模型先是計算整個輸入圖像的卷積特征圖，根據選擇性搜索方法提取候選區域，通過對特征圖上與候選區域相對應位置的窗口使用金字塔池化（spatial pyramid pooling，SPP）可以得到一個固定大小的輸出，即全連接層的輸入。與 R-CNN 相比， SPP-Net 避免了反復使用 CNN 計算卷積特征，在無須對輸入圖像進行剪裁和變形的情況下實現了多尺度輸入卷積計算，保留了圖像的底層信息，在VOC2007數據集上測試時 mAP達到了59.2％，在達到相同或更好的性能前提下，比 R-CNN 模型快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集上都獲得了很高的精度，但兩者將分類和回歸分為多階段進行，使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域的卷積網絡模型（fast R-CNN）。該網絡首先用選擇性搜索方法提取候選區域，將歸一化到統一格式的圖片輸入 CNN 進行卷積計算，然后借鑒了 SPP-Net 中金字塔池化的思想，用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征輸入全連接層進行目標分類和位置回歸。該網絡采用多任務訓練模式，用 softmax 替代 SVM （support vector machine，支持向量機）[23]進行分類，將分類和回歸加入網絡同時訓練，在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存，提高了檢測速度，初步實現了端對端的圖像目標檢測，并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9％和 66.0％。

由于 fast R-CNN 無法滿足實時檢測的需求， Ren 等[24]提出了改進模型 faster R-CNN。該網絡的最大創新就是提出了區域提議網絡（region proposal network，RPN），即在基礎卷積網絡提取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡，網絡結構如圖 3 所示，該網絡可以同時在每個位置上預測出目標邊界和目標概率并產生高質量候選區域，然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積特征合并為單一網絡，解決了區域計算的瓶頸問題，在實現真正端對端訓練模式的基礎上滿足了實時應用的需求[23]。

2017 年 He 等[25]提出了 mask R-CNN 目標檢測模型，該模型以faster R-CNN為原型，即在faster R-CNN 中生成的候選區域中融入 FCN（fully convolutional network，全卷積神經網絡）[26]作為新的支路用于生成每個候選區域的掩膜，同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概率和掩膜，但在預測時通過將目標邊界和目標概率的結果輸入掩膜預測中以生成最后的掩膜，該方法減弱了類別間的競爭優勢，從而達到了更好的效果，在 MS COCO 數據集上的 mAP 測試結果達到 35.7%。

基于回歸的圖像目標檢測模型

**YOLO 及擴展模型 **

檢測精度和檢測速度是評判圖像目標檢測模型好壞的重要標準[27]。基于候選區域的圖像目標檢測模型，雖然在檢測精度方面首屈一指，但是它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO（you only look once）檢測模型，該模型將圖像目標檢測抽象為回歸問題，通過對完整圖片的一次檢測就直接預測出感興趣目標的邊界框和類別，避免了 R-CNN 系列中將檢測任務分兩步進行的煩瑣操作，解決了之前圖像目標檢測模型檢測效率低的問題。檢測網絡將輸入的圖片分成 s×s 個網格，如圖 4 所示，各網格只負責檢測中心落在該網格的目標，預測出網格的類別信息以及多個邊界框和各個邊界框的置信度，通過設定閾值過濾掉置信度較低的邊界框，然后對保留的邊界框進行 NMS 處理以確定最終的檢測結果。YOLO 以回歸替代了之前圖像目標檢測模型的候選區域方法，在滿足實時需求的基礎上檢測速度達到 45 f/s，但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框作為最終的輸出，即每個網格最多只檢測出一個物體，因此 YOLO 在檢測緊鄰群體目標或小目標時效果不佳，在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問題，2017 年 Redmon 等[29]提出了 YOLO 的擴展模型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積層中添加批量歸一化（batch normalization，BN）[30]技術使得模型的收斂性有顯著的提升，然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代了 YOLO 中預測出的邊界框，最后通過輸入更高的分辨率圖像并對其進行遷移學習[31]從而提升網絡對高分辨率圖像的響應能力，訓練過程中無須固定圖像的尺寸，因此在一定程度上提升了網絡的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速度。而 YOLO9000 則是在 YOLOv2 的基礎上提出了目標分類和檢測的聯合訓練方法，使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型，它借鑒了殘差網絡結構，形成網絡層次更深的 Darknet-53，通過特征融合的方式采用 3 個不同尺度的特征圖進行目標檢測，并且用 logistic 代替 softmax 進行類別預測實現了多標簽目標檢測，該網絡不僅提升了小目標檢測效果，在邊界框預測不嚴格并且檢測精度相當的情況下檢測速度是其他模型的 3~４倍。

SSD 及擴展模型

2016 年 Liu 等[33]提出 SSD 圖像目標檢測模型，該模型徹底淘汰了生成候選區域和特征重采樣階段，選擇將所有計算封裝在單個深層神經網絡中，網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思想，采用特征金字塔的方式進行檢測，即利用不同卷積層產生不同的特征圖，使用一個小的卷積濾波器來預測特征圖上一組固定的默認邊界框類別和位置偏移量。為了實現較高的檢測精度，在不同尺度的特征圖中進行不同尺度的預測，并設置不同長寬比的邊界框進行分離預測。由于圖像中的目標具有隨機性，大小不一，所以小目標的檢測是由 SSD 使用底層特征圖來實現的，大目標的檢測是由 SSD 使用高層特征圖來實現的，相對于 YOLO 精確度大幅度提高，并且效率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型，即將 Resnet-101 作為 SSD 的骨干網，在分類回歸之前引入殘差模塊，并且在原本 SSD 添加的輔助卷積之后又添加了反卷積層，與 SSD 相比，DSSD 在小目標的檢測精度上有了很大的提升，但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD（rainbow SSD）檢測模型，該網絡同時采用池化和反卷積的方式進行特征融合，不僅增強了不同特征層之間的關系，由于融合后的特征大小相同，還一定程度上增加了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題，同時提升了對小目標的檢測效果，但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD，該模型通過重構一組金字塔特征圖充分融合了不同層不同尺度的特征，在保證檢測速度與 SSD 相當的同時使得檢測精度有了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模塊，該注意力模塊基于全局特征關系可以分析出不同位置特征的重要性，從而達到在網絡中突出有用信息和抑制無用信息的效果，ASSD[37]檢測精度提高，但與 SSD 相比，檢測速度較慢。

基于 anchor-free 的圖像目標檢測模型

圖像目標檢測發展日新月異，越來越多優秀目標檢測模型陸續被提出，基于候選區域和回歸方法的檢測模型目前發展穩定并且成熟，而基于 anchor-free 的檢測模型是當下目標檢測領域中新的熱門研究方向，anchor-free 檢測模型有兩種，分別為基于關鍵點的檢測和基于分類和回歸進行改進的檢測。

基于關鍵點的檢測

2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet，這是一種新型的圖像目標檢測方法。CornerNet 將一個目標檢測為一對關鍵點，即目標邊界框的左上角點和右下角點，是第一個將圖像目標檢測任務表述為利用嵌入角點進行分組和檢測任務的模型，開啟了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一層卷積特征，骨干網后接兩個分支模塊，分別進行左上角點預測和右下角點預測，每個分支模塊包含一個 Corner pooling（角池化）和 3 個輸出，網絡結構如圖 7 所示。heatmaps（熱圖）輸出的是預測角點的位置信息，當圖像中出現多個目標時，embeddings（嵌入）根據左上角點和右下角點嵌入向量之間的距離對屬于同一目標的一對角點進行分組；offsets（誤差）是輸出從圖像到特征圖的量化誤差，用來對預測框進行微調。

當角點在目標之外時，此時獲取的信息不足以進行當前的定位，為了能夠更好地定位邊界框的角點，Law 等[42]介紹了一種新型池化層—角池化層，該池化層包含兩個特征圖，在每個像素位置，它將第一個特征圖下側的所有特征向量和第二個特征圖右方的所有特征向量最大化，然后將兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出，徹底消除了圖像目標檢測對候選區域和候選框的需要，在 MS COCO 上實現了 42.1％的 mAP，但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部特征表現不強烈，并且在判斷兩個角點是否屬于同一目標時，由于缺乏全局信息的輔助導致匹配角點時產生錯誤目標框，因此存在一定的誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出一種新的檢測思路，即通過關鍵點估計[48-50]網絡對每個目標預測出 4 個極值點和 1 個中心點，然后提取極值點的峰值，暴力枚舉所有的組合并計算出每個組合的幾何中心點，若幾何中心點與預測的中心點匹配度高于設定閾值，則接受該組合，并將這 5 個極值點的得分平均值作為組合的置信度。ExtremeNet[47]將目標檢測問題轉化成單純的基于外觀信息的關鍵點估計問題，避免了對目標隱含特征的學習，相對于 CornerNet 更好地反映了物體的信息，檢測效果更好。

基于分類和回歸進行改進的檢測

自 2018 年 CornerNet 提出以來，基于 anchor-free 的目標檢測模型在分類和回歸的方法上又有了新的創新，如 2019 年 Zhu 等[53]提出一種基于 anchor-free 的動態選擇特征層的方法，該方法主要是在 RetinaNet 的基礎上建立一個 FSAF（feature selective anchor-free）模塊，即對每個層次的特征都建立一個可以將目標分配到合適特性級別的 anchor-free 分支，使得目標框能夠在任意特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結果，有效地提升了 RetinaNet 的穩健性，解決了傳統基于錨框檢測的網絡根據候選框選擇特征層的局限性，并在 MS COCO 上實現了 42.8％的 mAP。傳統基于錨框的檢測網絡面對變化較大的目標時需要根據檢測任務預定義錨框尺寸，通過手工設置錨框提高召回率這一操作不僅占用較大的計算和內存資源，還在一定程度上深化了正負樣本不平衡問題。2019 年 Tian 等[54]提出一種全卷積目標檢測網絡 FCOS，類似語義分割中[55]利用逐像素點預測的方式解決目標檢測問題。為了提高檢測效果，FCOS 引入 center-ness 分支用于降低檢測效果不理想的目標框權重，然后通過 NMS 算法確定最終檢測結果。基于 anchor-free 的 FCOS 檢測網絡極大地降低了參數計算，可以與其他視覺任務相結合，并且盡可能多地使用正樣本參與訓練，解決了之前檢測模型中出現的正負樣本不平衡問題，但在檢測時由于目標真實框重疊，可能會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測網絡，結合人類視覺系統是通過眼球中對物體感應最敏銳的中央凹（Fovea）結構確定物體位置的原理對目標真實框進行位置變換，更具體地說是通過目標真實框找到目標對應在特征圖中的中心位置，然后設定兩個縮放因子分別對目標真實框向中心點進行收縮和擴展，將收縮邊框的內部點作為正樣本，擴展邊框外部點作為負樣本。這種通過位置變化忽略兩個邊框中間點的方法不僅增加了正負樣本之間的識別度、解決了樣本不平衡問題，還有效提升了檢測性能，但與其他 anchor-free 模型相比檢測精度略低，在 MS COCO 上實現的 mAP 僅有 40.6％。

圖像目標檢測模型對比

本文對現有經典圖像目標檢測模型的創新點及優缺點做出對比，見表 1。無論是候選區域法、回歸法還是 anchor-free 法，提出模型的主要目的都是為了能夠高精度、高速率地識別并檢測出目標。由表 1 可以看出，基于候選區域法模型的提出開啟了用 CNN 提取特征的大門使圖像目標檢測進入深度學習時代，回歸法則解決了候選區域法的速度瓶頸問題，實現了端對端的圖像目標檢測。而基于 anchor-free 的算法消除了候選區域法和回歸法中候選框的設計，生成高質量的目標框并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數據集上的檢測結果做出對比，見表 2。“—”表示此數據集沒有該模型的測試結果，2007 表示數據集 VOC 2007，2012 表示數據集 VOC 2012；[email protected] 表示該模型在 MS COCO 數據集上是取閾值為 0.5 計算精度的，AP@[0.5,0.95]表示該模型在 MSCOCO 數據集上是取 10 個閾值（間隔 0.05）計算精度的，即 mAP，表 2 中所有的數據集精確率檢測結果均以百分比為單位。FPS 表示該模型每秒處理圖片的數量。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

計算機視覺 · 深度學習 · 目標檢測 · 卷積神經網絡 ·

2021 年 8 月 29 日

[付費5元查看完整內容]基于深度學習的通用目標檢測研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目標檢測是計算機視覺領域中最基礎且最重要的任務之一，是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展，目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比，深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時，大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題，其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型，最后對目標檢測算法中待解決的問題和未來研究方向做出展望.

目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一，其包含物體分類和定位［1］.與此同時，目標檢測作為圖像理解和計算機視覺的基石，它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎，因此探索高效實時的目標檢測模型是近年來研究的熱點.

傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇，在PASCAL VOC數據集［2］上的檢測準確率以較小步幅增長.Deformable Part?based Model（DPM）［3］算法三次在PASCAL VOC目標檢測競賽上獲得冠軍，是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間，目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來，主要包括：（1）算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡；（2）特征提取器如HOG［4］、SIFT［5］等未能充分捕捉圖像的高級語義特征和上下文內容；（3）傳統檢測算法分階段進行，整體缺乏一種全局優化策略.

最近，深度學習經歷了一段前所未有的發展熱浪，AlexNet［6］在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法，深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展，在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展，如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛［7，8］等領域.

本文首先介紹目標檢測數據集及其評估指標，之后總結基于深度學習的目標檢測基準模型，再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型，最后討論目標檢測技術的未來發展趨勢與總結全文.

付費5元查看完整內容

光學遙感 · 目標檢測 · 深度學習 ·

2021 年 3 月 23 日

[付費5元查看完整內容]光學遙感圖像目標檢測算法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要: 目標檢測技術是光學遙感圖像理解的基礎問題, 具有重要的應用價值. 本文對遙感圖像目標檢測算法發展進行了梳理和分析. 首先闡述了遙感圖像目標檢測的特點和挑戰; 之后系統總結了典型的檢測方法, 包括早期的基于手工設計特征的算法和現階段基于深度學習的方法, 對于深度學習方法首先介紹了典型的目標檢測模型, 進而針對遙感圖像本身的難點詳細梳理了優化改進方案; 接著介紹了常用的檢測數據集, 并對現有方法的性能進行比較; 最后對現階段問題進行總結并對未來發展趨勢進行展望.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200596

付費5元查看完整內容