本文應用深度學習技術實現海天背景下基于可見光、紅外方式成像的艦船及角反、煙幕干擾的目標檢測,這也是反艦導彈作戰使用的關鍵技術之一。采集的可見光與紅外成像目標檢測數據集涵蓋實施典型干擾下的態勢場景,貼近實戰;結合四種不同的目標檢測機制,選取YOLOV3、Faster R-CNN、SSD及CenterNet四種典型模型分別進行訓練與驗證,通過對比分析進一步提高弱小目標、復雜干擾態勢的的檢測,可以實現端到端的高精度裝備目標檢測模型。在確保精度的前提下基于現場可編程門陣列(FPGA)進行軟硬件協同設計,通過對比分析選定基于Vitis AI的實施方案,經過模型的量化、編譯與優化,可在保證檢測效率的前提下快速實現模型的小型化部署,便于進行裝備移植。研究結果表明,該研究內容可有效提高現役反艦導彈目標檢測的準確率。
目前,軍事應用中通常使用紅外與可見光成 像的手段對導引頭及監控檢測設備進行目標檢 測,實際使用的檢測算法多為基于輪廓和邊緣檢 測的傳統方法,無法應對遮蔽、煙霧及模糊等干 擾因素。近些年來,人工智能尤其是深度學習技 術快速發展成熟,在計算機視覺領域展現出較好 的應用前景。深度學習的方法能夠通過自動特征 提取及大樣本訓練提升模型精度,其提取的復雜 特征是依靠人為設計無法比擬的,可極大改善檢 測精度。 本文擬使用深度學習目標檢測框架實現海 天背景可見光及紅外成像中的目標檢測,選擇目 前最優的深度學習目標檢測方法,如 Faster R-CNN、SSD、YOLO 和 CornerNet 等開展訓練, 在海量目標數據上訓練模型并進行對比分析,驗 證其檢測精度并進行調優改進;在提高準確率的 基礎上進行模型壓縮,然后基于現場可編程門陣 列(Field Programmable Gate Array,簡稱 FPGA) 進行軟硬件協同,實現設計目標。這種軟硬件協 同的實現方案可作為現役裝備紅外與可見光成 像后處理部分的有效補充。
圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。
計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。
本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望。
本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。
R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。
R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。
由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。
2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。
**YOLO 及擴展模型 **
檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。
2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。
圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。
2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。
當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。
自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。
本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。
目標檢測是計算機視覺和圖像處理中的一項基本任務。目前,基于深度學習的目標檢測器已經成功地獲得了大量的標記數據。但在現實生活中,并不能保證每個對象類別都有足夠的標記樣本進行訓練。這些大型目標檢測器在訓練數據有限的情況下容易出現過擬合。因此,有必要將少樣本學習和零樣本學習引入目標檢測中,兩者可以統稱為低樣本目標檢測。低樣本目標檢測(Low-Shot Object Detection, LSOD)旨在從少量甚至零標記數據中檢測目標,可分為少樣本目標檢測(few-shot Object Detection, FSOD)和零樣本目標檢測(zero-shot Object Detection, ZSD)。本文對基于FSOD和ZSD的深度學習進行了全面的研究。首先,本綜述將FSOD和ZSD的方法分為不同的類別,并討論了它們的優缺點。其次,本綜述回顧了FSOD和ZSD的數據集設置和評估指標,然后分析了不同方法在這些基準上的性能。最后,本綜述討論了FSOD和ZSD未來面臨的挑戰和發展方向。
引言
目標檢測是計算機視覺中一項基礎而又具有挑戰性的任務,它的目標是在圖像中定位特定類別的目標。目標檢測已廣泛應用于許多計算機視覺任務中,如目標跟蹤[88]、圖像標注[67]、場景圖生成[72]等。目標檢測的一般過程是為一組包圍框(圖像中參考的假想矩形)預測類別。大多數傳統方法通過在整個圖像中滑動一個窗口來生成這些邊界框。Viola-Jones (VJ)檢測器[74]首次采用積分圖像、特征選擇和檢測級聯三種加速技術實現了人臉的實時檢測。隨后提出了直方圖定向梯度(histogram of oriented gradient, HOG)[12],并被許多目標檢測器用于特征描述。在這些方法中,基于變形部件的模型[16]是一種典型的方法。DPM將一個對象檢測任務劃分為多個細粒度的檢測任務,然后使用多個部分過濾器檢測對象部件,并將其聚合起來進行最終預測。雖然人們已經做了很多改進,但傳統的方法受到速度慢、精度低的限制。
與傳統方法相比,深度方法能夠以更有效的圖像特征實現更強的性能。R-CNN[21]是基于深度學習方法的最具代表性的工作之一。它使用選擇性搜索獲得區域建議(即圖像中更可能包含目標的區域),然后使用預訓練好的CNN模型提取其特征,進行進一步的分類和定位。快速R-CNN[20]通過使用感興趣區域(RoI)池化層來從圖像的整個特征圖生成區域建議的特征圖來改進R-CNN。Faster R-CNN[64]進一步提出了一種區域提議網絡(region proposal network, RPN),取代了傳統的通過錨點(即預定義的一定高度和寬度的包圍盒)從整個圖像特征地圖生成區域提議的方法。R-CNN、Fast R-CNN和Faster R-CNN分為兩個階段模型,首先生成區域建議,然后進行預測。為了進一步加速,單階段模型將這兩個過程結合在一起。YOLOstyle目標檢測器[63][3][19]是單級檢測框架的代表模型。根據從原始圖像中提取的特征圖,yolo風格的檢測器直接在圖像的所有位置上預定義多個尺度的錨點,并預測每個錨點的類別概率、位置偏移量和目標置信度。單級檢波器的性能一般不如兩級檢波器,一些方法如焦損耗[47]被提出以減小單級和兩級檢波器之間的性能差距。最近,一種基于transformer的檢測器被提出,命名為DETR[4]。DETR直接將固定數量的目標查詢轉發到transformer中,并對它們進行預測。DETR實現端到端檢測,具有與許多經典探測器相當的性能。為了緩解檢測器收斂緩慢的問題,變形檢測器[103]提出了一個變形注意模塊,它只訪問一個參考點周圍的一小組關鍵采樣點,而UP-DETR[11]提出了一個名為隨機查詢補丁檢測的非監督任務來預訓練檢測器。
然而,這些目標檢測器依賴于大量的訓練數據。在訓練數據不足的情況下,現有的目標檢測器容易過擬合,不能泛化到測試數據。在現實生活中,由于某些目標類別的稀缺或特殊的標簽成本,很難收集到足夠的標簽數據。因此,現代目標檢測器需要具備從少量甚至零標記數據中檢測目標的能力,并將少樣本和零樣本學習引入到目標檢測中。少樣本學習的目的是從少量標記樣本中學習泛化模型。在過去的幾年里,針對少樣本學習提出了很多方法,大致可以分為數據增強方法、元學習方法和遷移學習方法。數據增強方法通過使用傳統的圖像變換方法或基于深度學習的方法(如GAN)生成新樣本,直接解決了數據稀缺問題。元學習方法采用學習到學習的機制,在另一個數據豐富的數據集上定義多個少次任務來訓練模型,使模型能夠快速適應當前的少次任務。與在元學習中使用多個片段進行訓練不同,遷移學習方法的目標是直接學習另一個數據集上的良好圖像表示,并將它們轉移到當前數據集。Work[73]研究了一些用于少量圖像分類的基線遷移學習方法,實驗證明它們優于許多經典的元學習方法。
圖1. 本次綜述的概述。本文對低樣本目標檢測進行了全面的介紹,并將低樣本目標檢測分為單樣本目標檢測、少樣本目標檢測和零樣本目標檢測三個領域。圖中還用三種顏色演示了這三個域的更細粒度的分類,后面的小節將詳細討論這些分類。然后總結了OSOD、FS和ZSD的基準,并比較分析了不同LSOD方法在這些基準上的性能。最后對LSOD的發展方向進行了展望。
以往的少樣本學習方法主要是針對圖像分類的任務進行探索。由于目標檢測需要額外的任務來定位目標,因此,少樣本目標檢測比少樣本圖像分類更具挑戰性。但是FSOD方法繼承了FSL方法的主要思想,FSL方法也可以分為兩種主流方法:元學習方法和遷移學習方法。早期的FSOD方法遵循少樣本學習的元學習方法,主要關注如何結合支持圖像和查詢圖像的特性。這些元學習方法可以分為特征向量聚合方法和特征地圖聚合方法。將遷移學習方法引入到少樣本目標檢測中,在另一個數據集中對檢測器進行預訓練,然后在當前的少樣本數據集中對檢測器進行微調。在遷移學習方法中引入了對比學習、度量學習、正則化等方法。除了原有的標準FSOD設置外,研究者還探索了半監督FSOD、弱監督FSOD和增量FSOD等其他設置。還有一個更有挑戰性的設置,即每個少數樣本類都有零標記樣本,這被稱為零樣本學習(ZSD)。在零概率學習中,每個類都有其語義屬性作為補償。實際上,FSOD和ZSD可以考慮在一個條件下,一些方法[60][33]提出了一個組合模型,同時處理FSOD和ZSD。因此,本次綜述將FSOD和ZSD表示為低樣本目標檢測(LSD)。低樣本目標檢測的層次結構分類法如圖1所示。
本文對現有的少樣本和零樣本目標檢測算法進行了全面的回顧和分析。本文總結了現有的少樣本和零樣本目標檢測算法的性能。本文討論了少樣本和零樣本目標檢測的主要挑戰和未來的發展方向。本文綜述的其余部分組織如下。第二節描述了對少樣本和零樣本目標檢測算法進行更細粒度的分類和分析。第八節描述了常用的少樣本和零樣本目標檢測數據集和評價標準。第九節總結了現有的少樣本和零樣本目標檢測算法的性能。最后,第十一節總結了本次綜述的內容,然后討論了當前方法面臨的主要挑戰和未來的發展方向的少樣本和零樣本目標檢測。
本文對低樣本目標檢測進行了深入的研究,根據每個新類是否使用少量標記樣本或語義屬性,將低樣本目標檢測分為少樣本目標檢測(FSOD)和零樣本目標檢測(ZSD)。首先對低目標檢測方法進行了概括介紹,然后對FSOD和ZSD方法進行了分類和分析。總結了FSOD和ZSD的主要基準,并對不同方法的性能進行了比較。最后討論了FSOD和ZSD的發展方向。
近年來,由于互聯網的高速發展和大數據時代的來臨,人工智能隨之大熱,而推動人工智能迅猛發展的正是深度學習的崛起。大數據時代需要迫切解決的問題是如何將極為復雜繁多的數據進行有效的分析使用,進而充分挖掘利用數據的價值并造福人類。深度學習作為一種實現機器學習的技術,正是解決這一問題的重要法寶,它在處理數據過程中發揮著重要作用并且改變了傳統的機器學習方法,已被廣泛應用于語音識別、圖像識別和自然語言處理等研究領域。如何有效加速深度學習的計算能力一直是科研研究的重點。FPGA憑借其強大的并行計算能力和低功耗等優勢成為GPU在加速深度學習領域的有力競爭者。從深度學習的幾種典型模型出發,在FPGA加速技術現有特點的基礎上從針對神經網絡模型的加速器、針對具體問題的加速器、針對優化策略的加速器和針對硬件模板的加速器四方面概括總結了FPGA加速深度學習的研究現狀,然后對比了不同加速技術和模型的性能,最后對未來可能發展的方向進行了展望。
目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.
目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.
傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.
最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.
本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.
目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基于深度學習的目標檢測仍面臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨干網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用于多類別物體檢測的方法,從網絡結構的角度分析了用于輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方面對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。