近年來,無人機因其小巧靈活、智能自主等特點被廣泛應用于民用 和軍事等領域中,特別是搜索偵察過程中首要的目標跟蹤任務。無人機 視覺目標跟蹤場景的復雜性和運動目標的多變性,使得目標特征提取及 模型建立困難,對目標跟蹤性能帶來巨大的挑戰。本文首先介紹了無人 機視覺目標跟蹤的研究現狀,梳理了經典和最新的目標跟蹤算法,特別 是基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法,并對比了不同 算法的優缺點。其次,歸納了常用的目標跟蹤數據集和性能評價指標。 最后,展望了無人機視覺目標跟蹤算法的未來發展趨勢。
近年來,無人機憑借其體積小、動作靈活及易于 操控等特點,在民用、軍事以及科學研究等多個領域 得到越來越廣泛的應用,例如,惡劣環境下的電力線 路檢測、大氣環境檢測、搶險救災、偵察敵情、敵方 目標跟蹤、搜索戰場情報等[1-6] 。在無人機的諸多 任務類型中,無人機目標跟蹤有著重要的研究意義, 并逐漸成為目前無人機領域熱點研究方向之一[7-8] 。**無人機的目標跟蹤能夠通過多種方式來實現,比如,在跟蹤目標上綁定電子標簽或安裝 GPS追蹤 器來輔助跟蹤,但該類方法需要與目標進行近距離 接觸,在實際跟蹤任務中往往難以做到。**隨著計算 機視覺技術的飛速發展,基于視覺的無人機目標跟 蹤已成為最接近人類行為且最為直觀的跟蹤形式。 具體地,視覺目標跟蹤是指在給定某視頻初始幀中 感興趣區域(如人、車輛等)的情況下,對視頻中的 運動目標進行特征提取,根據提取到的目標特征來 預測未來時間幀中運動目標的位置和大小,從而完 成對目標的追蹤任務[9-11] 。
無人機視覺目標跟蹤與地面目標跟蹤相比,面 臨著 4個挑戰:1)由于空中視野廣闊,干擾物體數 量較多,目標與其他物體之間、目標與背景之間相 互干擾,可區分性差,導致目標模型的可辨識性和 排他性不高,建立精準的目標模型較困難。2)當 無人機飛行在一定高度時,圖像影幅變大,分辨率 和清晰度變低,地面上的待跟蹤目標尺度變得很 小,目標特征和紋理變得稀少,使得目標特征提取 困難,特征表示不顯著,導致目標檢測和跟蹤難度 變大。3)無人機在跟蹤過程中易受到風力等外界 因素的影響,導致相機抖動、視角變化、運動模糊 等現象頻繁,從而易產生跟蹤漂移和丟失的情況, 實現魯棒、穩定、長時的無人機目標跟蹤較為困 難。4)由于無人機自身結構特點,大多數無人機 僅有一個 CPU,計算資源有限,無法承受復雜度太 高的運算,如何在保證精度的情況下開發復雜度低 的跟蹤算法是極具挑戰的。隨著無人機技術的發展 和計算機信息處理能力的提升,盡管無人機視覺目 標跟蹤算法有了突破性進展,但由于上述難點的存 在,無人機視覺目標跟蹤算法仍有很大的發展空間。 視覺目標跟蹤方法主要分為生成類跟蹤方 法[12-13] 和判別類跟蹤方法[14-16] 。生成類跟蹤方法 通常忽略背景信息的影響且假設目標外觀在一定時 間內保持不變,故該方法無法處理和適應復雜的跟 蹤變化。判別類跟蹤方法,尤其是基于相關濾波和 基于深度學習的算法,在一定程度上解決了樣本不 足的問題,且能夠提取目標中更多有用信息,顯著 提高目標跟蹤準確率和速度。判別類跟蹤算法出現 之后,經典的生成類跟蹤算法逐漸淡出,其主要原 因是因為這些算法無法適應復雜多變的跟蹤場景, 其魯棒性和準確性被前沿算法所超越。然而,由于 上述目標跟蹤挑戰的存在,判別類跟蹤算法仍存在 一些不足。為了構建一個更精準、更高效且更魯棒 的通用跟蹤器,未來研究應重點關注高效的在線訓 練和失跟后的重新檢測機制,提高目標被完全遮擋 后的跟蹤效果,同時,應關注如何引入遷移學習和 對抗學習等前沿方法來提高特征提取有效性,提高 算法對低分辨率的小目標的跟蹤性能,從而應用于 機載無人機來完成實時跟蹤任務。文[1]重點對無 人機目標跟蹤算法的共同框架進行了詳細描述,分 析了現有技術的不足,并提出了目標跟蹤未來的發 展方向。文[16]系統地介紹了基于生成類和判別 類的視覺目標跟蹤算法,但未涉及目標跟蹤效果的 相關評估標準,且未對無人機空中監視場景中的難 點進行分析。為使相關研究人員對無人機視覺目標 跟蹤領域的研究有更加清晰深入的了解,本文結合 無人機自身結構特點,首先對應用于無人機領域的 目標跟蹤算法進行了梳理總結,分析了各算法的核 心思想及優缺點。其次,考慮到跟蹤算法在無人機 平臺上的應用前景,重點對基于相關濾波的跟蹤算 法和基于深度學習的跟蹤算法進行了詳細介紹,闡 述了各算法的特點和貢獻,并對比了各算法的跟蹤 效果,圖 1為兩類目標跟蹤算法的分類框架圖,圖 中所涉及的算法縮寫及其全稱如表 1所示。接著, 歸納了無人機目標跟蹤領域的跟蹤數據集和跟蹤性 能評價標準。最后,對全文進行了總結,并對無人 機視覺目標跟蹤的發展方向進行了展望。
獨特的拍攝視角和多變的成像高度使得遙感影像中包含大量尺寸極其有限的目標,如何準確有效地檢測這些小 目標對于構建智能的遙感圖像解譯系統至關重要。本文聚焦于遙感場景,對基于深度學習的小目標檢測進行了全面調研。 首先,本文根據小目標的內在特質梳理了遙感影像小目標檢測的三個主要挑戰,包括特征表示瓶頸、前背景混淆,以及回 歸分支敏感。其次,通過深入調研相關文獻,本文全面回顧了基于深度學習的遙感影像小目標檢測算法。具體說來,選取 三種代表性的遙感影像小目標檢測任務,即光學遙感圖像小目標檢測、SAR圖像小目標檢測和紅外圖像小目標檢測,系統 性總結了三個領域內的代表性方法,并根據每種算法所使用的技術思路進行分類闡述。再次,總結了遙感影像小目標檢測 常用的公開數據集,包括光學遙感圖像、SAR圖像及紅外圖像三種數據類型,借助于三種領域的代表性數據集SODA-A、 AIR-SARShip和NUAA-SIRST,進一步對主流的遙感影像目標檢測算法在面對小目標時的性能表現進行橫向對比及深入評 估。最后,對遙感影像小目標檢測的應用現狀進行總結,并展望了遙感場景下小目標檢測的發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=2022&journal_id=jig
遙感影像目標檢測旨在設計相關算法獲取遙感 圖像中有價值目標的類別和位置信息,是邁向遙感 場景智能理解,構建遙感影像智能解譯系統,開展 遙感影像分析業務化應用的重要途徑(孫顯等, 2022)。遙感圖像具有幅面大、場景多樣和成像高 度多變等特點,因而包含大量尺寸極其有限的目標。 比如在同一張機場場景光學遙感圖像中,飛機和車 輛往往同時出現,而由于尺寸層面的天然差異,車 輛目標往往僅占據幾十個像素(Cheng 等,2022); 合成孔徑雷達(Synthetic Aperture Radar,SAR)的 目標成像與目標的散射特性有關,散射特性的強弱 影響目標的成像質量,例如飛機目標的機翼散射特 性弱,機身散射特征強,機翼區域的成像較為模糊, 這使得目標在 SAR 圖像中相對偏小。此外特殊的成 像機理使得目標容易受到雜波等噪聲的干擾,導致 目標邊緣模糊,使得本身尺寸就較小的車輛、船舶 等觀測目標成像區域更加受限(徐豐等,2020); 紅外探測系統中,目標與探測器之間距離較遠,因而成像目標面積很小,往往呈現點特征(李俊宏等, 2020)。這些尺寸有限的目標為遙感影像智能感知 系統帶來了巨大挑戰,也在一定程度上制約著遙感 大數據在國防體系建設、災害預警評估和農林資源 監測等領域的實際應用。 與通用目標檢測的蓬勃發展相比,小目標檢測近 年來發展緩慢,遙感圖像領域亦是如此。作為通用 目標檢測的一個子任務,現有的小目標檢測框架往 往以通用目標檢測任務中表現出色的模型為基礎, 添加針對性的設計(Cheng 等,2022)。這些基礎 模型一般由特征提取網絡和檢測網絡構成,前者通 過深度卷積神經網絡(Deep Convolution Neural Networks,DCNNs)獲得圖像的高維表征,并利用 下采樣操作減少空間冗余;后者則在前者得到的深 度特征上完成分類和回歸(Liu 等,2020;Ren 等, 2017;Lin 等,2020;Tian 等,2020)。遺憾的是, 這些深度學習加持下的優秀檢測范式在面對小目標 時,其性能往往捉襟見肘。究其原因,一方面是小 目標的內在特性導致模型很難獲得目標區域的良好 特征表示。CNN 通過堆疊卷積層和池化層獲得圖像 的高維表征——前者通過共享參數的卷積核獲得區 域表示,而遙感圖像中的小目標往往背景復雜,經 過卷積層后,目標區域的特征容易被背景或其他實 例所干擾,丟失判別信息;后者旨在減少空間冗余 并濾除噪聲響應,然而這一操作卻為小目標帶來不 可逆的信息損失(Noh 等,2015)。無論是缺乏判 別性的特征表示,還是目標區域的信息損失,都會 加劇后續分類和回歸的任務難度。另一方面,深度 學習是數據驅動的,獲得性能優異的檢測模型需要 大量注釋良好的數據用于訓練。然而,小目標往往 邊緣模糊且視覺結構強依賴于圖像質量,很難準確 獲得其輪廓信息,因而標注誤差較大,在一定程度上誤導網絡訓練。此外,現有數據集往往包含各種 尺度的目標,小目標僅占其中一小部分,導致模型 為兼顧整體精度而犧牲小目標的檢測效果。 為了更好地促進領域發展,本文選取三種代表性 的遙感影像小目標檢測任務,即光學遙感圖像小目 標檢測、SAR 圖像小目標檢測和紅外圖像小目標檢 測,以算法和數據集為研究對象,全面回顧了基于 深度學習的遙感影像目標檢測。同時,本文也對應 用現狀和發展趨勢進行了總結。
在目標檢測技術的驅動下,被賦予智能感知能力的無人機得以實現高效靈活的數據收集能力。隨著無人機 的普及與智能技術的成熟,無人機視角下的目標檢測在諸多領域中作為關鍵核心技術,具有重要的研究意義。為了 進一步促進無人機視角下目標檢測研究的發展,本文對無人機視角下的目標檢測算法進行了全面的總結,并對已有 算法進行了歸類、分析和比較。首先,介紹無人機視角下的目標檢測概念,并總結了無人機視角下目標檢測所面臨 的目標尺度、空間分布、樣本數量、類別語義以及優化目標等五大不均衡挑戰。**在介紹現有研究方法的基礎上,本 文特別整理并介紹了無人機視角下目標檢測算法在交通監控、電力巡檢、作物分析和災害救援等實際場景中的應用。**然后,重點闡述從數據增強策略、多尺度特征融合、區域聚焦策略、多任務學習、以及模型輕量化等方面來提升無 人機視角下目標檢測性能的方法,總結這些方法的優缺點并分析了其與現存挑戰之間的關聯性。之后,全面介紹基 于無人機視角的目標檢測數據集,并呈現已有算法在兩個較為常用的公共數據集上的性能評估。最后本文對無人機 視角下目標檢測技術的未來發展方向進行了展望。
0. 引言
計算機視覺技術為無人機賦予了自主感知、分 析和決策能力,而目標檢測則是提高無人機感知能 力的關鍵技術之一。無人機結合智能目標檢測技術 可充分發揮其高機動性優勢,在廣闊的空中視野中 定位感興趣目標,進而實現靈活高效的數據收集能 力。在目標檢測技術的驅動下,無人機在交通監控 (Byun 等,2021)、電力巡檢(Abdelfattah 等, 2020)、作物分析(Osco 等,2021a)和災害救援 (Bo?i?-?tuli? 等,2019)等多個領域中展現出廣闊 的應用前景。例如在交通監控領域,無人機可以空 中飛行進行偵測,不受道路限制,具有速度快、自 由度高、視野寬廣等優點。當交通事故等突發事件 發生時,無人機可以第一時間進行響應,到達現場 進行圖像采集與分析,為應急救援與管理提供及時 有效的數據支撐。在深度學習的驅動下,目標檢測 技術獲得了長足的發展,取得了諸多令人矚目的成 就。然而,大多數研究聚焦于地面視頻監控圖像的 分析,面向無人機視角圖像的目標檢測還未得到充 分的研究。目前,即使是最好的目標檢測算法,在 無人機圖像上的平均精確率也難以達到40%(Cao 等,2021)。
**無人機視角下的目標檢測之所以難,其主要原 因在于無人機圖像存在尺度變化、疏密分布、目標 數量較多且小目標占比較高等問題,特別是無人機 高分辨率圖像高計算需求與現階段低功耗芯片有 限算力之間的矛盾難以平衡。**相對于地面視角拍攝 的自然圖像,無人機視角下的廣闊視場意味著更為 復雜的場景和更加多樣的目標,在提供更為豐富的 可視化信息的同時,也帶來了更多無用噪聲的干擾。特別是無人機視角下,圖像中的目標往往因遠端拍 攝、背景遮擋或光照影響等因素檢測難度較大,需 要使用高分辨率圖像提供更多的信息以達到較好 的檢測效果。這極大地增加了目標檢測算法的計算 開銷與內存需求,特別是直接使用未經過特殊設計 的通用目標檢測算法將帶來難以承受的計算開銷 與內存需求,進一步加劇了目標檢測的難度。在實 際應用場景中,往往面臨著類似于識別車輛種類這 種細粒度分類的問題,這些相似目標給模型正確識 別目標帶來了巨大的挑戰。此外,受限于現實世界 中的目標數量,無人機視角下某些類別的樣本數量 往往極為有限,這種數據不均衡的狀況也對模型的 學習能力提出了更高的要求。因此,緊密地結合智能目標檢測技術,針對無 人機圖像的特性設計行之有效的方法,促使模型學 習理解無人機視角下的視覺數據,對于無人機在實 際場景中充分發揮其效用是至關重要的。無人機視 角下的目標檢測在應用廣泛的同時面臨著諸多挑 戰,具有深刻的現實意義與重要的研究意義。對無 人機視角下的目標檢測展開研究將有助于推動目 標檢測領域的進一步發展,增強目標檢測在面對真 實場景時的應用能力。
目標檢測作為計算機視覺領域的基礎研究,已 有學者對此進行研究與總結,并發表許多優秀的綜 述。Zou等人(2019)梳理了400多篇關于目標檢測 技術發展的論文,系統而全面地展現了目標檢測領 域。Oksuz等人(2020)則從目標檢測中存在的類別 不平衡、尺度不平衡、空間不平衡以及優化目標不 平衡等四大不平衡問題出發,對現有的目標檢測算 法進行了深入的總結。Chen等人(2020)則從小目 標四大基礎方法的角度出發,總結并分析了小目標 檢測的相關優化思路。曹家樂等人(2022)回顧并 總結了基于單目相機的視覺目標檢測方法,并對比 介紹了單目目標檢測和雙目目標檢測的國內外研 究進展情況。然而,以上綜述對于無人機視角下目 標檢測的關注不夠,未能系統地梳理無人機視角下 的目標檢測方法和面臨的挑戰。 **聚焦到無人機視角下的目標檢測,Mittal等人 (2020)關注低空無人機數據集,評估并總結了當 前流行的目標檢測算法,但是局限于簡單的性能對 比,沒有深入的總結分析。**Sambolek等人(2020) 介紹了在搜索和救援行動中使用無人機的可能性, 并提供了在無人機圖像中檢測相關人員的方法概 述。Srivastava等人(2021)則關注無人機圖像的車 輛檢測,從提高精度和減少計算開銷兩個方面回顧 了這些工作。Bouguettaya等人(2021)則關注于無 人機視角下的車輛檢測應用,總結并介紹了多種網 絡結構對于改善車輛檢測的貢獻。江波等人(2021) 對常見的航空影像數據集進行了梳理,并對近期的 無人機目標檢測研究進行了歸納和分析。楊浩然等 人(2022a)則對目標檢測相關算法進行了簡單的優 缺點分析。然而,這些綜述對于無人機視角下面臨 的挑戰總結不夠系統,算法方面的趨勢總結較為薄 弱,而且對于目標檢測算法的實際應用闡述也較少。
與以往關注通用領域的目標檢測綜述或僅關 注于無人機相關的特定應用場景下的綜述不同,**本 文著重于對無人機視角下的目標檢測這一意義重大且極具挑戰性的研究領域進行系統且深入的分 析與總結。**本文首先簡要闡述無人機視角下目標檢 測的重要研究意義,然后將對無人機視角下目標檢 測領域中存在的挑戰進行系統的歸納和總結,隨之 將介紹并分析無人機視角下的目標檢測優化思路, 包括數據增強、多尺度特征融合、區域聚焦策略、 多任務學習、模型輕量化以及其他優化策略等。本 文將特別展示無人機視角下目標檢測算法的應用, 闡明該研究的實際意義。此外,本文將介紹無人機 視角下適用于檢測任務的相關數據集,并在常用的 數據集上分析對比現有算法的檢測性能。最后,對 本文內容進行簡要的總結,并討論無人機視角下的 目標檢測未來可能的研究方向和發展趨勢。
群組行為識別目前是計算機視覺領域的一個研究熱點,在智能安防監控、社會角色理解和體育運動視 頻分析等方面具有廣泛的應用價值.** 本文主要針對基于深度學習框架下的群組行為識別算法進行綜述**. 首先,依據群 組行為識別方法中“是否包含組群成員交互關系建模”這一核心技術環節,將現有算法劃分為“無交互關系建模的群組 行為識別”和“基于交互關系描述的群組行為識別”兩大類. 其次,鑒于“無交互關系建模的群組行為識別方法”主要是 聚焦于如何對“群組行為時序過程的整體時空特征的計算和提純”進行設計的,故本文從“多流時空特征計算融合”“個 人/群體多層級時空特征計算合并”“基于注意力機制的群組行為時空特征提純”3 類典型算法進行概述 . 再次,對于 “基于交互關系建模的群組行為識別”,依據對交互關系描述方法的不同,將其歸納為“基于組群成員全局交互關系建 模”“基于組群分組下的交互關系建模”和“基于關鍵人物為主的核心成員間交互關系建模”3種類別分別概述. 然后, 對群組行為識別相關的數據集進行介紹,并對不同識別方法在各個數據集的測試性能進行了對比和總結. 最后,分別 從群組行為類別定義的二元性、交互關系建模的難點與不足、群組行為數據集弱監督標注和自學習、視角變化以及場 景信息綜合利用等方面概述了幾個具有挑戰性的問題和未來研究的方向.
//www.ejournal.org.cn/CN/10.12263/DZXB.20211359
1 引言
群組行為包括“視頻中多個人做相同動作”和“多 數人協作完成某一復雜行為”兩種情況,而群組行為識 別的任務則是通過對視頻序列中組群成員運動特征的 感知、計算、提純,并歸納出穩定的、鮮明的模式,進而 再通過分類歸納得出代表整個組群典型行為特征的群 組行為類別以及每個成員的行為類別. 近年來,它已經 成為計算機視覺、人工智能等領域的熱點課題,其在體 育賽事分析、異常行為檢測及預警、實時人群場景的視 頻分類等方面具有重要價值 . 由于群組行為本身具有 復雜性和多樣性,以及視頻據在采集過程中也會受到 視角變化、成員彼此遮擋、復雜場景中無關人員干擾等 因素的影響,如何設計高效的識別方法成為了該課題 的難點.
群組行為識別主要包含兩個過程,即群組時空特 征描述和行為屬性分類,而群組時空特征描述是最關 鍵的一步 . 鑒于群組行為是多人協同合作完成的復雜 行為,其時空特征的核心應該是成員之間的交互關 系,因此,本文依據群組時空特征描述算法中是否包 含“組群成員之間交互關系建模”這一核心環節,將 群組行為識別方法分為“無交互關系建模的群組行 為識別”和“基于交互關系建模的群組行為識別”兩 大類 .
**“無交互關系建模的群組行為識別方法”的主要思 想是把群組行為過程視為一個時序整體,這類算法主 要聚焦于如何對該“視頻時序整體的時空特征進行 計算和提純”,本文將從“多流時空特征計算融合” “個人/群體多層級時空特征計算合并”“基于注意力 機制的群組行為時空特征提純”3 類典型算法特點 進行歸納和概述 **. 另外,對于“基于交互關系建模的 群組行為識別”算法,依據交互關系建模方法的不 同,將現有文獻歸納為“基于組群成員交互關系的全 局化建模”“基于組群分組下的交互關系建模”和“基 于關鍵人物為主的核心成員間交互關系建模”3 種類 別分別概述 . 簡明起見,上述這些群組行為識別方法的 歸納分類用圖1展示.
圖1 群組行為識別算法的總體分類
**2 無交互關系建模的群組行為識別 **
“無交互關系建模的群組行為識別”實際上是一種 相對“粗放的方法”,表現在其缺少了對“群體成員之間 細膩的彼此互動”這一環節的描述,而僅僅是對整體場 景的時空特征變化進行了刻畫. 具體地,主要是對輸入 圖像序列的場景外觀、組群成員的姿態、成員運動光 流、幀間時間序列依存關系等信息進行提取,并通過 分類器對獲得的整個群組行為的時空特征進行分類 和識別 . 在深度學習框架下,這種群組行為識別方法 主要是通過 CNN,LSTM以及其變形體設計出不同的算 法框架,旨在解決“整體組群的時空特征的計算和提 純”. 故本文將現有的對應算法概括為“多流時空特征計 算融合”“個人/群體多層級時空特征計算合并”“基于注 意力機制的群組行為時空特征提純”3 個類別,現分述 如下.
組群場景信息是多樣的,有些信息是相互補充的,因而,利用多種時空特征信息的組合可以達到全面對群組行為特征建模的效果.這種思路主要是應用在早期的群組行為算法中,典型的就是多流架構特征計算與聚合的識別方法. 為充分利用組群場景的外觀信息和運動信息,Simonyan等[1]提出了一種雙流網絡,其包含空間流支路和運動流支路,如圖2所示,其中,空間流支路對RGB圖像信息進行處理,主要提取外觀特征,運動流對光流數據進行學習和訓練,從而提取到運動信息,再將得到的兩支路的信息進行融合處理,由于其兩條支路提取的不同信息能夠互為補充,從而起到豐富組群時空特征的作用,進而達到群組行為有效識別的目的.
圖2 基于雙流網絡框架的群組行為識別[1]
由于雙流網絡模型簡單,便于訓練,許多學者使用并發展了它,實現了更多不同特征類別的融合,并應用于群組行為識別中.Borja-Borja等[2]通過一種行為描述向量(Activity Description Vector)得到LRF(Left Right Frequency)圖像和UDF(Up Down Frequency)圖像的數據,并分別輸入到ResNet網絡中進行深度特征的提取,最后,將兩種特征融合后通過分類器實現群組行為分類.Zalluhoglu等[3]提出了一種利用多個區域提取信息的多流卷積神經網絡體系結構,首先將視頻序列分為帶有背景信息的RGB圖像、只包含特定人員的RGB圖像信息(Region)和光流序列3種數據;其次,將帶有背景信息的RGB圖像輸入到空間CNN(Convolutional Neural Network)網絡,將特定人員(Region)區域圖像輸入到空間局部CNN網絡(Spatial Region Stream CNN)中;同時將光流信息輸入到時間局部CNN網絡(Temporal Region CNN)和時間CNN網絡(Temporal CNN)中;再將Region數據分別輸入到空間域CNN網絡和時間域CNN網絡中的池化層中,從而進一步確定對應的成員和幀;最后提取視頻序列的空間信息和時間信息,并將4種CNN網絡所提取的時空信息進行融合后,由分類器得到群組行為類別.
鑒于組群外觀和光流運動信息易受到光照變化、相機運動等背景因素的影響,組群成員的姿態關節數據逐漸成為被推崇的魯棒特征選項.這主要是因為人體姿態可以利用關節點的位置進行刻畫,并通過坐標的變化表示姿態的不同,不易受拍攝角度、特征尺度等外界因素的影響,顯示其魯棒性更強而被開發利用.Azar等[4]利用多流卷積網絡(Multi-Stream Convolutional Network)對姿態、RGB空間、光流特征進行融合,如圖3所示,首先利用CNN1,CNN2和CNN3分別對場景圖、光流圖和姿態圖提取3種特征,其次借助RoiAlign對個體的外觀信息、運動信息和姿態信息進行提取,同時,利用全連接層提取整體場景語境表征、運動語境和姿態語境表征,最后對個體特征、整體語義特征分別進行池化操作,實現了不同模態的多流特征融合的群組行為識別.
圖3 基于多流網絡的群組行為識別[4]
此外,為了更好地獲取群組行為的幀間時序依存信息,王傳旭等[5]提出了一種基于多流架構與長短時記憶網絡的模型,將全局RGB數據和全局光流數據通過全局LSTM(Long Short-Term Memory)提取全局時空信息,將局部RGB數據和局部光流數據通過局部LSTM提取局部時空特征,并將兩種時空特征融合從而得到更加全面的群組特征.
概而言之,多流時空特征融合實現群組行為識別的算法,優點是每個支路網絡簡單,并且在內容上能互為補充,可以全面地描述組群場景的時空特征.但每一支路常常要預先分開訓練,這樣會造成整體網絡架構訓練時間耗費過長;此外,這種多支路網絡的訓練對數據集規模有一定的要求,如果數據集有限,往往難以收斂或者造成過擬合,故這種多流架構模型的泛化性較差.因此,為了既能提取不同的時空特征,又能方便網絡訓練,研究者們提出了能提取個人/群體多層級特征的網絡結構,不僅可以獲得多語義群組信息,還可以提升模型的泛化能力.
這類算法的設計原理可以概括為如圖4所示的邏輯結構圖,鑒于群組行為是由多個成員個體協同完成的,于是,先將每個成員的信息輸入到個人級網絡中得到個人級特征,再將每幀中個人級特征聚合到組群級網絡中得到群組時空特征,最后利用分類器識別群組行為.
圖4 基于層級網絡結構的群組行為識別
典型地,Ibrahim等[6]通過兩階段分層深度時間模型(Hierarchial Deep Temporal Model)實現群組行為識別,首先在第一階段通過個人級LSTM模擬每個個體的軌跡和動作;然后在第二階段中通過小組級LSTM將個體特征進行結合,構成群組特征,建立了人-人、人-群組兩種層次的模型,最后針對高層組群特征實現行為識別.Tsunoda等[7]將分層LSTM模型用于對足球運動群組行為的識別中,該模型由CNN層和兩層LSTM(即LSTM1和LSTM2)組成,其中CNN層提取單人特征,包括成員外觀特征和每個人位置信息以及足球位置信息的級聯,LSTM1層提取“球-人之間距離”以及“人-人之間距離”,LSTM2負責集成場景中成員的時序特征;最后由分類器實現了五人制足球群組行為屬性的識別.鑒于LSTM可以很好地捕捉序列的長時間依賴,Kim等[8]提出了一種基于顯著子事件的判別組群上下文特征(Disentangled Graph Collaborative Filtering,DGCF)模型來識別群組行為,首先依據視頻序列(包含bounding box)得到每幀內每個成員的位置信息,并計算成員速度和方向獲得個人和子組信息,從而得到每一幀的信息;然后為了提取整個視頻幀的特征,引入了GRU(Gate Recurrent Unit)網絡進行逐層群組行為特征提取,從而實現群組行為的分類.
除了利用LSTM/GRU網絡,GAN(Generative Adversarial Networks)網絡也被用于層次結構的群組行為識別.Gammulle等[9]提出了一種基于LSTM結構的多級順序生成對抗性網絡,該算法首先利用LSTM獲得“成員級”和“場景級”的時序特征,經過門控融合單元將上述特征進行聚合,并將其作為GAN的生成器輸入,由生成器預測當前時序過程的單人和群組行為屬性;另外,生成器的預測結果與“場景級”的時序特征經過另一路門控融合單元聚合,由鑒別器對生成器的群組行為預判結果的真偽進行甄別和反饋,最終達到平衡時,得到當前的群組行為判斷結果.
另外,由于語義信息對群組行為識別更具有指導性的作用,Li等[10]提出了一種基于語義的兩層結構的群組行為識別模型:第一層為標題生成層,即利用CNN分別提取光流和RGB特征,并借助LSTM對其序列和光流、RGB信息生成語意標題;第二層為行為預測層,該層也是利用CNN和LSTM對標題進行推理從而生成群組行為識別標簽.
上述多層遞次的模型不斷迭代應用,不僅可以逐層提純和融合每層的特征,還能夠進一步剖析群組行為內部潛在的高層次語義關系,達到提升群組行為識別精度的效果.但其相對于輕量級數據集(集體行為數據集[11]和排球數據集[6])由于樣本數據量不豐富,而無法保證訓練過程中的魯棒性;再則,這種層次結構越高意味著網絡深度越大,對設備的要求也就越高,因此,能夠設計一種高效輕量級的組群時序特征提純模型對群組行為的識別會更有意義,這樣就催生了注意力機制下的組群時空特征描述算法.
群組行為分為兩種,如圖5所示,一種是大多數人做的相同的動作(圖5(a)),另一種是多人協同完成一種行為(圖5(b)).針對后者,群組行為往往并不是由場景中的所有人都參與完成的,而是僅僅由少數的關鍵人參與并決定的,而那些與群組行為無關的人及動作則會干擾對群組行為的推斷,即在圖5(b)中“扣球”行為中,并非雙方全體球員都參與了這次行為,相反,僅僅由“二傳手”和“扣球手”兩人來完成的.因此,剔除團隊中無關的人物,確定團隊中關鍵人物成了群組行為識別的重要方法,即群組行為中的關鍵人物注意力機制.
圖5 兩種群組行為類型比較
(a) 大多數人做相同動作“Walking”實現的群組行為 (b) 由少數人參與并決定的群組行為 隨著深度學習的發展,注意力機制已在圖像識別、字幕識別[12]、機器翻譯[13]、人體行為識別[14,15]等領域取得了良好的效果,也為群組行為識別提供了新的思路.Ramanathan等[16]引入注意力機制,通過BiLSTM計算每個個體的行為對群組行為的影響和重要程度,從而區分不同的個體行為在群組行為中發揮的作用.Karpathy等[17]等通過RNN(Recurrent Neural Network)網絡實現對視頻序列中人物的跟蹤及對時變權重的自動學習,提取每個BiLSTM和軌跡信息,通過注意力獲取關鍵人的信息.Lu等[18]提出了一種基于時空注意力機制的GRU模型,通過基于姿勢的注意力機制捕捉到每個成員重要的關節點,并通過第一階段的GRU網絡實現對個人動作的識別,然后借助群組級的池化策略找到空間中重要成員并提取時間序列信息,使用時間注意力機制找到關鍵幀,從而得到最終的群組行為類別.Tang等[19]通過CCG-LSTM模型捕捉與群組行為相關人的運動,并通過注意力機制量化個體行為對群組行為的貢獻,通過聚合LSTM聚合個人運動狀態,從而實現對群組行為類別的判斷.王傳旭等[20]將注意力機制、CNN網絡和LSTM網絡結合從而提取群組中關鍵成員的時空信息.
基于注意力機制的群組行為識別方法,不僅能夠考慮到所有人的特征,同時還可以依據每個成員在不同時間點上對群組行為的貢獻程度,進行空間上和時間上的特征優化,剔除了與群組行為無關的人和幀,有效提純了組群信息,提高了識別精度.
上述3種架構下的無交互關系建模群組行為識別算法主要是對場景中組群的整體特征進行多線索/多層級的提取和融合,旨在獲得組群全面的、顯著的行為描述,實現較好的識別效果.但該類方法所提取的信息仍然局限于組群宏觀的整體底層特征描述及其融合,缺乏對群組內部成員之間協同并存、彼此依存關系這一核心信息的挖掘,即缺少成員之間交互關系的建模,最終限制了其識別精度的提升.
與單人行為識別方法不同,群組行為是由多人共同參與完成的,因此,群組行為識別不僅要考慮個體行為、空間位置等信息,還要重點考慮群體中人與人的交互信息.本文定義群組的交互關系是指群體成員之間互動關系總和,它表現為某一行為過程中的成員間彼此影響、相互制約,并通過該彼此關聯信息把整個組群交融成一個整體.上述無交互關系建模的群組行為識別算法只是從整體上對群組時空特征進行描述,忽略了運動過程中人與人之間的互動關系.因此,隨著群組行為識別研究的深入,建立并推理群組中的交互關系成了群組行為建模的核心任務.本節依據交互關系建模方法的不同,將其歸納為“基于群組成員交互關系全局化建模的行為識別”“基于群組分組交互關系建模的行為識別”“基于群組關鍵成員間交互關系建模的行為識別”3種類別分別概述.
隨著對群組行為識別技術不斷深入地研究,群組行為數據集也相繼推出.目前,用于群組行為識別的經典數據集如表1所示. 表1 群組行為識別數據集數據集名稱視頻數量片段數量個人標簽種類群組標簽種類時間視頻來源視頻類型NUS-HGA[47]—476—62009年Youtube監控數據集BEHAVE[48]—174—102009年YoutubeCAD252 500652009年YoutubeCAED303 300862011年YoutubenCAD322 000362012年YoutubeVolleyball554 830982016年Youtube運動數據集NCAA Basketball2576 553—112016年YoutubeC-sports2572 1875112020年YoutubeNBA dataset1819 172—92020年Youtube 新窗口打開| 下載CSV
表1列出了群組行為識別的相關數據集.不難發現,隨著群組行為數據集的規模不斷擴大,數據集的種類也不斷更新,為群組行為識別未來的發展提供了可靠的數據支撐,下面將重點介紹其中幾個典型的數據集.
CAD(Collective Activity Dataset)數據集包含由低分辨率手持相機收集的44個視頻剪輯,共有2 500個片段,如圖12所示.其包含6類個人動作標簽,即NA,Crossing,Queuing,Walking,Talking,Waiting,同樣包含5類群組行為標簽,即Crossing,Queuing,Walking,Talking,Waiting.由于相機在采集數據集時角度是固定的,背景是靜態的,動作變化也是緩慢的,數據集相對較小,通常會使用早期的深度學習網絡來評估.在實驗過程中,一般將70%作為訓練集,其余作為驗證集和測試集.
圖12 CAD數據集中的2個群組行為類別舉例
(a) “Waiting”群組行為 (b) “Moving”群組行為 鑒于CAD數據集規模較少,因此,提出CAED(Collective Activity Extended Dataset)數據集對其進行了拓展.該數據集將Walking動作從CAD中移除,并補充了兩個新的動作類型,分別是Dancing和Jogging,因此,CAED數據集共有6種行為標簽,分別是Crossing,Queuing,Dancing,Talking,Waiting,Jogging.每個人都分配有一個行為標簽,每一幀圖像也包含一個群組行為標簽. 同樣,nCAD(new Collective Activity Dataset)數據集依然是CAD數據集的擴展,包含了6個集體行為類別(Crossing,Queuing,Dancing,Walking,Waiting,Jogging),8種姿勢標簽(right,right-front,?,right-back).除了上述標簽外,增加了所有序列中的動作標簽、交互標簽、以及每個人體目標與這兩者標簽的對應關系標注.8種交互標簽為Approaching(AP),Leaving(LV),Passing-by(PB),Facing-each-other(FE),Walking-side-by-side(WS),Standing-in-a-row(SR),Standing-side-by-side(SS),No-interaction(NA). 在集體行為數據集中,集體行為的屬性主要是依據大多數人的行為來進行判斷的,即大多數人的行為標簽即為群組行為標簽.
群組行為的定義并非僅僅是對大多數人做相同行為的描述,而更多的是對組群成員協同完成復雜行為的刻畫.為此,為了評估深度學習模型的泛化性,許多學者對運動數據集進行了提升,最常用的運動數據集為排球數據集(VD)[49~51].該數據集是基于公開的Youtube排球比賽視頻收集而成的,如圖13所示,共有4 830幀,55段視頻.對于每一幀,每個人都被賦予一個動作類型(Waiting,Setting,Digging,Failing,Spiking,Blocking,Jumping,Standing,Moving),同時包含每組的群組行為類型之一(right-pass,right-spike,right-set,right-winpoint,left-pass,left-spike,left-set,left-winpoint).由于相機采集數據集時為可調的,故視頻中參與者的運動變化相對適中.通常該數據集的72%用于訓練,28%用于驗證和測試.
圖13 排球數據集中的4個群組行為類別舉例
圖13為排球數據集,主要展示了數據集中的4種群組行為類型:“左扣殺”“右贏球”“右扣殺”和“右發球”.而在排球數據集中,排球運動為所有人共同完成或關鍵人的動作決定,因此,其群組行為的標簽為關鍵人的行為標簽.
大多數用于群組行為識別的數據集對個人和群組行為都進行了標注,但NBA數據集則僅有視頻級標注,并沒有單人級的標注信息,其更適合于弱監督下的群組行為識別[52].該數據集包含了9 172個視頻剪輯,共包含了9種群組行為:2p-succ,2p-fail-off,2p-fail-def,2p-layup-succ,2p-layup-fail-off,2p-layup-fail-def,3p-succ,3p-fail-off,3p-fail-def.在實驗過程中,通常將該數據集的83%作為訓練集,17%則作為測試集.
現有體育運動數據集大多數是只針對一種運動進行分類,其種類有限,缺乏多樣性,無法支持復雜和有代表性的模型的訓練,為此,Zalluhoglu等[53]提出了一種新的群組行為數據集——Collective-Sports數據集(簡稱“C-Sports”),有效解決了現有數據集存在的局限性問題,該數據集中包含11個團體體育運動標簽(A.Football,Basketball,Dodgeball,Football,Handball,Hurling,IceHockey,Lacrosse,Rugby,Volleyball,Waterpolo)和5種群組行為標簽(Gather,Dismissal,Pass,Attack,Wander),其中數據集的80%作為訓練集,20%則作為測試集,如圖14所示.
圖14 C-sports 數據集中的不同群組行為類別舉例
圖14中,從左到右、從上到下,運動類別分別為美式足球、籃球、躲避球、足球、手球、投擲、冰球、長曲棍球、橄欖球、排球、水球,其群組行為類型為“gather”“pass”“wander”“dismissal”“wander”“dismissal”“attack”“wander”“gather”“gather”“wander”.
本文分別從無交互關系建模的群組行為識別方法和基于交互關系建模的群組行為識別算法對群組行為進行了闡述,并對相關數據集進行了介紹.為了驗證各種算法在不同數據集上的性能,表2和表3對其進行了展示.其中,OF表示光流圖像,代表相鄰時間圖像之間的瞬時速度;Pose代表姿態信息;“—”表示為沒有進行實驗;其百分比表示每類算法在該數據集上的平均精確度MPCA. 表2 無交互關系建模的群組行為識別方法在不同數據集下的性能比較MethodDateInputCADCADEUCL CourtyardVolleyballNBA dataset Multi-camera Futsal Game datasetChoi[54]2012RGB80.2%83.0%————DLM[55]2012RGB78.4%—————SIM[56]2015RGB83.40%90.23%————Zappardino[49]2021RGB+OF———91.00%——XU[28]2020RGB+OF91.2%——93.49%——GLIL[29]2020RGB94.40%——93.04%——LARG[40]2019RGB92.60%——91.00%——DRGCN[57]2020RGB89.60%——92.20%——STPS[45]2018RGB95.70%——90.00%——GAIM[58]2020RGB90.60%91.20%—91.90%——CRM[59]2019RGB94.20%——93.04%——SAM[52]2020RGB————47.50%— 新窗口打開| 下載CSV
表3 基于交互關系建模的方法在不同數據集下的性能比較MethodDateInputCADCADEUCL CourtyardVolleyballNBA dataset Multi-camera futsal game datasetCanon[7]2017RGB—————63.40%Gavrilyuk[60]2020RGB80.60%—————Region based multi-CNN[3]2019RGB,OF88.9%——72.40%——SRNN[61]2018RGB———89.90%——MCN[62]2018RGB,OF,Pose95.26%——90.42%——Ibrahim[6]2016RGB81.50%——51.50%——Wang[63]2017RGB89.40%—————PCTDM[37]2018RGB92.20%——88.10%——StagNet[26]2018RGB—90.20%86.90%89.90%——Lu[18]2019RGB———91.90%——Tang[19]2019RGB93.00%——90.70%——MLS-GAN[9]2018RGB91.20%——92.40%——Lu[64]2021RGB91.31%——92.35%—— 新窗口打開| 下載CSV
表2所示的為基于無交互關系建模的方法,通過對場景信息、運動信息等組群整體信息的提取,實現群組行為的識別.不難發現,大部分輸入仍舊為RGB圖像,取得了一定的效果,但算法MCN[9]除了RGB信息外,還引入了光流、姿態兩路視覺信息,這3路特征信息最后經過池化融合后作為場景組群的時空特征,在CAD數據集上獲得了95.26%的高平均識別精度,同時在Volleyball數據集也獲得了90.42%的較高平均識別精度.
另外,表2中MLS-GAN[9]提出的基于LSTM結構的多級順序生成對抗性網絡,利用兩個層次的“成員級”和“場景級”時序特征,經過門控融合單元聚合后,再利用GAN生成器對該融合特征進行單人和群組行為屬性預判;另外鑒別器對生成器的群組行為預判結果的真偽進行甄別和反饋,最終達到平衡時,得到當前的群組行為判斷結果,由于該算法經過GAN網絡的多次矯正優化,在Volleyball數據集獲得了92.40%的較高平均識別精度.
相比之下,表3中的算法通過對群組交互關系進行了提取和分析,細化了群組行為特征,在相同的數據集上平均識別精度均有明顯提高.其中,算法XU[28]利用兩個層級模塊重點挖掘和充分利用了成員交互關系,具體地,將成員外觀特征和位置信息輸入到關系模塊(Relational model)獲得初始交互關系表達,然后,該特征與光流特征分別輸入到Relation-GRU和Opt-GRU模塊,兩者融合得到幀級交互關系描述,最后利用注意力機制進行時序特征聚集,將不同權重的幀級特征整合視頻級表示,作為分類器輸入實現群組行為的識別.可見正是由于該算法對交互關系進行多層次提取融合,才得到了組群時空特征的精準表示,在Volleyball實際上取得了93.49%的高平均識別精度.另外,GLIL[29]在CAD和Volleyball數據集都取得了94.40%和93.04%較高平均識別精度,主要是得益于提出的GLIL(Graphical LSTM-In-LSTM)網絡架構,它被形象地比喻為“宿主-寄生”體系結構,“寄生”模塊是負責建立每個成員之間的交互關系建模,而“宿主”模塊負責群體級行為建模,即將多個成員運動信息根據其對群體行為的貢獻,選擇性地整合并存儲到“宿主”中,實現對全局交互關系的關鍵時空特征的選擇和提純,保障了較高的識別精度. 總的說來,通過對群組交互關系的提取和分析,可以達到細化群組行為特征的效果,使得在相同的數據集上相比較粗狂的無交互關系建模的方法,平均識別精確度都會有提高,因此,基于交互關系的群組行為識別的方法從整體上優于無交互關系的群組行為識別.
除此之外,從兩個表格中發現,大多數算法是基于CAD和Volleyball數據集進行研究的,其識別效果大多數在80%以上.但也能發現,每種數據集僅能表示某一類的群組行為,缺乏多樣性.因此,研究者們不斷引入NBA,BFH[65]和C-Sports等數據集以便應用其他場景中.然而這些新數據集的引入并沒有達到經典數據集的識別效果,在群組行為識別的效率和識別精度都有待提高.
本文首先對群組行為識別的研究背景和研究意義進行了闡述,然后依據群組行為識別方法中是否包含“成員交互關系建模”,將其分為無交互關系建模的群組行為識別和基于交互關系建模的群組行為識別兩大類;最后,介紹了相關的數據集以及兩類群組行為識別方法在不同數據集下的性能比較.下面進一步對這兩類算法的各自優勢進行總結.
(1)無交互關系建模的群組行為識別方法可以從視頻序列提取場景特征并進行識別.其中,基于多流網絡的群組行為識別,能夠通過不同信息的互相補充,從而豐富群組特征;基于層次結構的群組行為識別,能夠通過逐層聚合獲得群組特征;而基于注意力機制的方法,能夠抑制場景中的冗余信息,從而提取群組中重要的時空特征.這3類算法的先進性總的說來是逐步提升的.
(2)交互關系為群組行為的關鍵信息,因此,通過捕獲群組行為過程中的交互關系,能進一步細化群組特征. 其中,基于整體交互關系建模的群組行為識別能夠提取并推理成員整體的交互關系,從而為群組行為識別提供全面的關系特征;基于分組交互關系建模的群組行為識別通過對群組成員進行分組關系建模并融合,能夠化整為零,從而達到“分而治之”的效果;基于以關鍵人物為核心的交互關系建模的群組行為識別方法,能夠捕獲群組中關鍵成員以及與其密切相關的其他成員的特征、以及他們的交互關系,抑制與群組行為無關成員的信息,從而降低了群組行為識別過程中的噪聲干擾,提高了群組行為識別效率.上述這3類算法的先進性總體上也是逐次進步的.
綜上,無交互關系建模方法只是對場景整體信息進行籠統地提取而實現群組行為識別,其缺陷就是忽視了群組成員間的交互關系,使得其組群時空特征更多地只關注了底層特征,缺少高層交互以及語義特征的刻畫;而基于交互關系建模的群組行為識別則更加細化了成員之間的互動以及語義表達,因此,它優于無交互關系建模的群組行為識別方法.
另外,基于交互關系建模實現群組行為識別的方法也有其不足,可以歸納為兩點.其一是需要較多底層特征的支持,因為交互關系建模主要是兩兩成員間(pair-wise)的交互關系描述,除了基本的CNN/LSTM時空特征外,還需要成員的位置信息、運動軌跡、鄰域上下文信息等信息,以便構建成員彼此之間關系[21],但這些信息需要多目標跟蹤算法作為底層特征提取的保障,但是這些底層算法的精度卻是有限的,因此,導致成員間交互關系的精度不高;其二表現為多層級交互關系的冗余,具體地,交互關系除了上面的兩兩之間交互關系外,往往還需要構建不同子組群之間的交互關系,以及最后融合為整個組群的交互關系特征,上述多層級上的交互關系是有交集的、非正交的,而最后融合得到的不同特征間集合也難以保證彼此的獨立性,故這類交互關系信息不是最簡潔的.上述這兩個缺點會一起制約交互關系組群特征的區別性和顯著性,進而影響群組行為識別精度的提升.
圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。
計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。
本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望。
本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。
R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。
R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。
由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。
2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。
**YOLO 及擴展模型 **
檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。
2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。
圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。
2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。
當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。
自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。
本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。
摘要
無人機(UAV)由于有效且靈活的數據采集,近年來已成為計算機視覺(CV)和遙感(RS)領域的研究熱點。由于最近深度學習(DL)的成功,許多先進的目標檢測和跟蹤方法已被廣泛應用于與無人機相關的各種任務,例如環境監測、精準農業、交通管理。本文全面綜述了基于DL的無人機目標檢測與跟蹤方法的研究進展和前景。具體來說,我們首先概述了挑戰,統計了現有的方法,并從基于DL的模型的角度提供了解決方案,這三個研究課題分別是:來自圖像的目標檢測,來自視頻的目標檢測,來自視頻的目標跟蹤。利用無人機主導目標檢測與跟蹤相關的開放數據集,利用4個基準數據集,采用最先進的方法進行性能評估。最后,對今后的工作進行了展望和總結。本文對基于DL的無人機目標探測與跟蹤方法進行了綜述,并對其進一步發展提出了一些思考,以期為來自遙感領域的研究人員提供參考。
//www.zhuanzhi.ai/paper/d2cb72aa7da469d6481f2fc9e9c6454a
引言
目標檢測與跟蹤作為遙感領域的重要研究課題,已廣泛應用于環境監測、地質災害檢測、精準農業、城市規劃等各種民用和軍事任務中。傳統的目標捕獲方法主要來源于衛星和載人飛行器。這兩種平臺通常在固定軌道上運行或按照預定的路徑運行,也可以根據委托的任務,如城市規劃和測繪,或在惡劣和不適宜居住的環境下進行物體觀測,如冰凍圈遙感,臨時改變運行路線并懸停。然而,衛星和載人飛機的成本以及飛行員潛在的安全問題不可避免地限制了此類平臺的應用范圍。
隨著微電子軟硬件的發展,導航和通信技術的更新,以及材料和能源技術的突破,無人機(UAV)平臺已經成為國際遙感領域的研究熱點,迅速崛起。無人機遙感系統是將科技與無人機、遙感、全球定位系統(GPS)定位和慣性測量單元(IMU)姿態確定手段相結合的高科技組合。它是一個以獲取低空高分辨率遙感圖像為目標的專用遙感系統。與傳統平臺相比,無人機彌補了由于天氣、時間等限制造成的信息損失。此外,無人機的高機動性使其能夠靈活地采集視頻數據,不受地理限制。這些數據無論在內容上還是時間上都信息量極大,目標檢測與跟蹤進入了大規模無人機[1]-[3]時代,在土地覆蓋測繪[4]、[5]、智慧農業[6]、[7]、智慧城市[8]、交通監控[9]、災害監控[10]等領域發揮著越來越重要的作用。
目標檢測與跟蹤作為計算機視覺的基本問題之一,采用了經典的基于統計的方法[11]、[12]。然而,當前海量數據影響了這些傳統方法的性能,造成了特征維數爆炸的問題,存儲空間和時間成本較高。由于深度神經網絡(deep neural network, DL)技術[13]-[15]的出現,可以用深度復雜網絡學習具有足夠樣本數據的層次特征表示。自2015年以來,深度神經網絡已經成為無人機目標檢測與跟蹤的主流框架[16],[17]。圖1為無人機遙感在城市區域目標檢測與跟蹤的示例。經典的深度神經網絡主要分為兩大類:兩階段網絡和單階段網絡。其中,RCNN[18]、Fast RCNN[19]和Faster RCNN[20]等兩階段網絡首先需要生成region proposal (RP),然后對候選區域進行分類和定位。[21] -[23]的一系列工作證明了兩級網絡適用于具有較高檢測精度的應用。一級網絡,如SSD[24]和YOLO[16],[25],[26],直接產生類概率和坐標位置,比二級網絡更快。同樣,也有一些更快的輕量級網絡,如mobilenet SSD [27], YOLOv3 [28], ESPnet v2[29]等。因此,對高速需求的無人機遙感實際應用而言,一級快速輕量化網絡是最終的贏家。但對于低分辨率的數據,如果不對圖像進行預處理或對經典的神經網絡結構進行修改,則無法產生良好的效果。
本文以最大起飛重量小于30公斤的無人機為研究對象,通過總結最新發表的研究成果,對基于深度學習(DL)的無人機目標檢測與跟蹤方法進行了全面綜述,討論了關鍵問題和難點問題,并描述了未來的發展領域。本文的其余部分組織如下。第二節概述了無人機的統計情況和相關出版物。第六節介紹現有的基于無人機的遙感數據集。第三至第五節綜述了三個分支在基于無人機的目標檢測和跟蹤方面的現有基于DL的工作。第八節討論結論。
目標檢測是計算機視覺領域中最基礎且最重要的任務之一,是行為識別與人機交互等高層視覺任務的基礎.隨著深度學習技術的發展,目標檢測模型的準確率和效率得到了大幅提升.與傳統的目標檢測算法相比,深度學習利用強大的分層特征提取和學習能力使得目標檢測算法性能取得了突破性進展.與此同時,大規模數據集的出現及顯卡計算能力的極大提高也促成了這一領域的蓬勃發展.本文對基于深度學習的目標檢測現有研究成果進行了詳細綜述.首先回顧傳統目標檢測算法及其存在的問題,其次總結深度學習下區域提案和單階段基準檢測模型.之后從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個角度分類總結當前主流的目標檢測模型,最后對目標檢測算法中待解決的問題和未來研究方向做出展望.
目標檢測是計算機視覺領域中最基礎且最具挑戰性的任務之一,其包含物體分類和定位[1].與此同時,目標檢測作為圖像理解和計算機視覺的基石,它為實例分割、圖像捕獲、視頻跟蹤等任務提供了強有力的特征分類基礎,因此探索高效實時的目標檢測模型是近年來研究的熱點.
傳統的目標檢測方法包括預處理、區域提案、特征提取、特征選擇、特征分類和后處理六個階段.大多數檢測模型關注于物體特征的提取和區域分類算法的選擇,在PASCAL VOC數據集[2]上的檢測準確率以較小步幅增長.Deformable Part?based Model(DPM)[3] 算法三次在PASCAL VOC目標檢測競賽上獲得冠軍,是傳統目標檢測方法的巔峰之作.然而在2008年至2012年期間,目標檢測模型在PASCAL VOC數據集上的檢測準確率逐漸達到瓶頸.傳統方法的弊端也展現出來,主要包括:(1)算法在區域提案生成階段產生大量冗余的候選框且正負樣本失衡;(2)特征提取器如HOG[4]、SIFT[5]等未能充分捕捉圖像的高級語義特征和上下文內容;(3)傳統檢測算法分階段進行,整體缺乏一種全局優化策略.
最近,深度學習經歷了一段前所未有的發展熱浪,AlexNet[6]在圖像分類任務中的優異表現讓人們重新燃起研究卷積神經網絡的興趣.相比于傳統算法,深度學習利用自動學習數據中的特征表達和學習能力加速了目標檢測的發展,在檢測速度和準確率方面均有顯著提升.正是由于目標檢測技術的快速發展,如今其已廣泛應用于智能視頻監控、機器人視覺、基于內容的圖像檢索、自動駕駛[7,8]等領域.
本文首先介紹目標檢測數據集及其評估指標,之后總結基于深度學習的目標檢測基準模型,再從特征圖、上下文模型、邊框優化、區域提案、類別不平衡處理、訓練策略、弱監督學習和無監督學習這八個方面歸納總結當前主流的目標檢測模型,最后討論目標檢測技術的未來發展趨勢與總結全文.
視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,本文在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法,結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系,對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效,精度更高的算法被相繼提出,其發展方向也會越來越好。