無人機具有體積小、靈活性強、航拍視野廣等特點,廣泛應用于警用巡查、城市交通監管、天氣監測、 電力巡檢、應急救援救災等行業。近年來,隨著計算機視覺領域的蓬勃發展,基于深度學習的目標檢測 技術逐漸應用于無人機領域,并不斷得到改進和加強。本文系統性地闡述了基于深度學習的目標檢測技 術發展歷程和研究現狀。針對現階段無人機航拍影像小目標多、背景復雜、目標尺度變化大的特性,歸 納和分析了近期對無人機目標檢測的相關研究。最后,展望了基于深度學習的無人機目標檢測技術的未 來發展趨勢。 隨著科技的發展,無人機(UAV)已經擺脫了過去的軍事用途,逐漸擴展到民用和商用領域。隨著無 人機技術的發展,基于深度學習的目標檢測技術已成為無人機應用領域的重要研究內容[1]。將目標檢測 技術應用于無人機上,實現在航拍視角下對地面場景的目標檢測和識別。然而,在無人機航拍圖像中, 檢測對象多為小目標,受航拍視角影響,目標尺度變化較大;圖像背景復雜,目標對象易被遮擋。給無 人機的目標檢測帶來了諸多挑戰[2]。常規的目標檢測算法應用于無人機上難以保證檢測精確度,優化無 人機的目標檢測性能成為了無人機應用領域的重要研究內容[3] [4]。本文首先介紹基于深度學習的目標檢 測研究進展,然后總結現階段無人機領域目標檢測的研究難點,針對小目標檢測、背景復雜、多尺度變 化三個方面進行改進和優化的各類方法進行了闡述。最后,對未來無人機目標檢測的研究方向做出了展 望。
近年來,無人機因其小巧靈活、智能自主等特點被廣泛應用于民用 和軍事等領域中,特別是搜索偵察過程中首要的目標跟蹤任務。無人機 視覺目標跟蹤場景的復雜性和運動目標的多變性,使得目標特征提取及 模型建立困難,對目標跟蹤性能帶來巨大的挑戰。本文首先介紹了無人 機視覺目標跟蹤的研究現狀,梳理了經典和最新的目標跟蹤算法,特別 是基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法,并對比了不同 算法的優缺點。其次,歸納了常用的目標跟蹤數據集和性能評價指標。 最后,展望了無人機視覺目標跟蹤算法的未來發展趨勢。
近年來,無人機憑借其體積小、動作靈活及易于 操控等特點,在民用、軍事以及科學研究等多個領域 得到越來越廣泛的應用,例如,惡劣環境下的電力線 路檢測、大氣環境檢測、搶險救災、偵察敵情、敵方 目標跟蹤、搜索戰場情報等[1-6] 。在無人機的諸多 任務類型中,無人機目標跟蹤有著重要的研究意義, 并逐漸成為目前無人機領域熱點研究方向之一[7-8] 。**無人機的目標跟蹤能夠通過多種方式來實現,比如,在跟蹤目標上綁定電子標簽或安裝 GPS追蹤 器來輔助跟蹤,但該類方法需要與目標進行近距離 接觸,在實際跟蹤任務中往往難以做到。**隨著計算 機視覺技術的飛速發展,基于視覺的無人機目標跟 蹤已成為最接近人類行為且最為直觀的跟蹤形式。 具體地,視覺目標跟蹤是指在給定某視頻初始幀中 感興趣區域(如人、車輛等)的情況下,對視頻中的 運動目標進行特征提取,根據提取到的目標特征來 預測未來時間幀中運動目標的位置和大小,從而完 成對目標的追蹤任務[9-11] 。
無人機視覺目標跟蹤與地面目標跟蹤相比,面 臨著 4個挑戰:1)由于空中視野廣闊,干擾物體數 量較多,目標與其他物體之間、目標與背景之間相 互干擾,可區分性差,導致目標模型的可辨識性和 排他性不高,建立精準的目標模型較困難。2)當 無人機飛行在一定高度時,圖像影幅變大,分辨率 和清晰度變低,地面上的待跟蹤目標尺度變得很 小,目標特征和紋理變得稀少,使得目標特征提取 困難,特征表示不顯著,導致目標檢測和跟蹤難度 變大。3)無人機在跟蹤過程中易受到風力等外界 因素的影響,導致相機抖動、視角變化、運動模糊 等現象頻繁,從而易產生跟蹤漂移和丟失的情況, 實現魯棒、穩定、長時的無人機目標跟蹤較為困 難。4)由于無人機自身結構特點,大多數無人機 僅有一個 CPU,計算資源有限,無法承受復雜度太 高的運算,如何在保證精度的情況下開發復雜度低 的跟蹤算法是極具挑戰的。隨著無人機技術的發展 和計算機信息處理能力的提升,盡管無人機視覺目 標跟蹤算法有了突破性進展,但由于上述難點的存 在,無人機視覺目標跟蹤算法仍有很大的發展空間。 視覺目標跟蹤方法主要分為生成類跟蹤方 法[12-13] 和判別類跟蹤方法[14-16] 。生成類跟蹤方法 通常忽略背景信息的影響且假設目標外觀在一定時 間內保持不變,故該方法無法處理和適應復雜的跟 蹤變化。判別類跟蹤方法,尤其是基于相關濾波和 基于深度學習的算法,在一定程度上解決了樣本不 足的問題,且能夠提取目標中更多有用信息,顯著 提高目標跟蹤準確率和速度。判別類跟蹤算法出現 之后,經典的生成類跟蹤算法逐漸淡出,其主要原 因是因為這些算法無法適應復雜多變的跟蹤場景, 其魯棒性和準確性被前沿算法所超越。然而,由于 上述目標跟蹤挑戰的存在,判別類跟蹤算法仍存在 一些不足。為了構建一個更精準、更高效且更魯棒 的通用跟蹤器,未來研究應重點關注高效的在線訓 練和失跟后的重新檢測機制,提高目標被完全遮擋 后的跟蹤效果,同時,應關注如何引入遷移學習和 對抗學習等前沿方法來提高特征提取有效性,提高 算法對低分辨率的小目標的跟蹤性能,從而應用于 機載無人機來完成實時跟蹤任務。文[1]重點對無 人機目標跟蹤算法的共同框架進行了詳細描述,分 析了現有技術的不足,并提出了目標跟蹤未來的發 展方向。文[16]系統地介紹了基于生成類和判別 類的視覺目標跟蹤算法,但未涉及目標跟蹤效果的 相關評估標準,且未對無人機空中監視場景中的難 點進行分析。為使相關研究人員對無人機視覺目標 跟蹤領域的研究有更加清晰深入的了解,本文結合 無人機自身結構特點,首先對應用于無人機領域的 目標跟蹤算法進行了梳理總結,分析了各算法的核 心思想及優缺點。其次,考慮到跟蹤算法在無人機 平臺上的應用前景,重點對基于相關濾波的跟蹤算 法和基于深度學習的跟蹤算法進行了詳細介紹,闡 述了各算法的特點和貢獻,并對比了各算法的跟蹤 效果,圖 1為兩類目標跟蹤算法的分類框架圖,圖 中所涉及的算法縮寫及其全稱如表 1所示。接著, 歸納了無人機目標跟蹤領域的跟蹤數據集和跟蹤性 能評價標準。最后,對全文進行了總結,并對無人 機視覺目標跟蹤的發展方向進行了展望。
在目標檢測技術的驅動下,被賦予智能感知能力的無人機得以實現高效靈活的數據收集能力。隨著無人機 的普及與智能技術的成熟,無人機視角下的目標檢測在諸多領域中作為關鍵核心技術,具有重要的研究意義。為了 進一步促進無人機視角下目標檢測研究的發展,本文對無人機視角下的目標檢測算法進行了全面的總結,并對已有 算法進行了歸類、分析和比較。首先,介紹無人機視角下的目標檢測概念,并總結了無人機視角下目標檢測所面臨 的目標尺度、空間分布、樣本數量、類別語義以及優化目標等五大不均衡挑戰。**在介紹現有研究方法的基礎上,本 文特別整理并介紹了無人機視角下目標檢測算法在交通監控、電力巡檢、作物分析和災害救援等實際場景中的應用。**然后,重點闡述從數據增強策略、多尺度特征融合、區域聚焦策略、多任務學習、以及模型輕量化等方面來提升無 人機視角下目標檢測性能的方法,總結這些方法的優缺點并分析了其與現存挑戰之間的關聯性。之后,全面介紹基 于無人機視角的目標檢測數據集,并呈現已有算法在兩個較為常用的公共數據集上的性能評估。最后本文對無人機 視角下目標檢測技術的未來發展方向進行了展望。
0. 引言
計算機視覺技術為無人機賦予了自主感知、分 析和決策能力,而目標檢測則是提高無人機感知能 力的關鍵技術之一。無人機結合智能目標檢測技術 可充分發揮其高機動性優勢,在廣闊的空中視野中 定位感興趣目標,進而實現靈活高效的數據收集能 力。在目標檢測技術的驅動下,無人機在交通監控 (Byun 等,2021)、電力巡檢(Abdelfattah 等, 2020)、作物分析(Osco 等,2021a)和災害救援 (Bo?i?-?tuli? 等,2019)等多個領域中展現出廣闊 的應用前景。例如在交通監控領域,無人機可以空 中飛行進行偵測,不受道路限制,具有速度快、自 由度高、視野寬廣等優點。當交通事故等突發事件 發生時,無人機可以第一時間進行響應,到達現場 進行圖像采集與分析,為應急救援與管理提供及時 有效的數據支撐。在深度學習的驅動下,目標檢測 技術獲得了長足的發展,取得了諸多令人矚目的成 就。然而,大多數研究聚焦于地面視頻監控圖像的 分析,面向無人機視角圖像的目標檢測還未得到充 分的研究。目前,即使是最好的目標檢測算法,在 無人機圖像上的平均精確率也難以達到40%(Cao 等,2021)。
**無人機視角下的目標檢測之所以難,其主要原 因在于無人機圖像存在尺度變化、疏密分布、目標 數量較多且小目標占比較高等問題,特別是無人機 高分辨率圖像高計算需求與現階段低功耗芯片有 限算力之間的矛盾難以平衡。**相對于地面視角拍攝 的自然圖像,無人機視角下的廣闊視場意味著更為 復雜的場景和更加多樣的目標,在提供更為豐富的 可視化信息的同時,也帶來了更多無用噪聲的干擾。特別是無人機視角下,圖像中的目標往往因遠端拍 攝、背景遮擋或光照影響等因素檢測難度較大,需 要使用高分辨率圖像提供更多的信息以達到較好 的檢測效果。這極大地增加了目標檢測算法的計算 開銷與內存需求,特別是直接使用未經過特殊設計 的通用目標檢測算法將帶來難以承受的計算開銷 與內存需求,進一步加劇了目標檢測的難度。在實 際應用場景中,往往面臨著類似于識別車輛種類這 種細粒度分類的問題,這些相似目標給模型正確識 別目標帶來了巨大的挑戰。此外,受限于現實世界 中的目標數量,無人機視角下某些類別的樣本數量 往往極為有限,這種數據不均衡的狀況也對模型的 學習能力提出了更高的要求。因此,緊密地結合智能目標檢測技術,針對無 人機圖像的特性設計行之有效的方法,促使模型學 習理解無人機視角下的視覺數據,對于無人機在實 際場景中充分發揮其效用是至關重要的。無人機視 角下的目標檢測在應用廣泛的同時面臨著諸多挑 戰,具有深刻的現實意義與重要的研究意義。對無 人機視角下的目標檢測展開研究將有助于推動目 標檢測領域的進一步發展,增強目標檢測在面對真 實場景時的應用能力。
目標檢測作為計算機視覺領域的基礎研究,已 有學者對此進行研究與總結,并發表許多優秀的綜 述。Zou等人(2019)梳理了400多篇關于目標檢測 技術發展的論文,系統而全面地展現了目標檢測領 域。Oksuz等人(2020)則從目標檢測中存在的類別 不平衡、尺度不平衡、空間不平衡以及優化目標不 平衡等四大不平衡問題出發,對現有的目標檢測算 法進行了深入的總結。Chen等人(2020)則從小目 標四大基礎方法的角度出發,總結并分析了小目標 檢測的相關優化思路。曹家樂等人(2022)回顧并 總結了基于單目相機的視覺目標檢測方法,并對比 介紹了單目目標檢測和雙目目標檢測的國內外研 究進展情況。然而,以上綜述對于無人機視角下目 標檢測的關注不夠,未能系統地梳理無人機視角下 的目標檢測方法和面臨的挑戰。 **聚焦到無人機視角下的目標檢測,Mittal等人 (2020)關注低空無人機數據集,評估并總結了當 前流行的目標檢測算法,但是局限于簡單的性能對 比,沒有深入的總結分析。**Sambolek等人(2020) 介紹了在搜索和救援行動中使用無人機的可能性, 并提供了在無人機圖像中檢測相關人員的方法概 述。Srivastava等人(2021)則關注無人機圖像的車 輛檢測,從提高精度和減少計算開銷兩個方面回顧 了這些工作。Bouguettaya等人(2021)則關注于無 人機視角下的車輛檢測應用,總結并介紹了多種網 絡結構對于改善車輛檢測的貢獻。江波等人(2021) 對常見的航空影像數據集進行了梳理,并對近期的 無人機目標檢測研究進行了歸納和分析。楊浩然等 人(2022a)則對目標檢測相關算法進行了簡單的優 缺點分析。然而,這些綜述對于無人機視角下面臨 的挑戰總結不夠系統,算法方面的趨勢總結較為薄 弱,而且對于目標檢測算法的實際應用闡述也較少。
與以往關注通用領域的目標檢測綜述或僅關 注于無人機相關的特定應用場景下的綜述不同,**本 文著重于對無人機視角下的目標檢測這一意義重大且極具挑戰性的研究領域進行系統且深入的分 析與總結。**本文首先簡要闡述無人機視角下目標檢 測的重要研究意義,然后將對無人機視角下目標檢 測領域中存在的挑戰進行系統的歸納和總結,隨之 將介紹并分析無人機視角下的目標檢測優化思路, 包括數據增強、多尺度特征融合、區域聚焦策略、 多任務學習、模型輕量化以及其他優化策略等。本 文將特別展示無人機視角下目標檢測算法的應用, 闡明該研究的實際意義。此外,本文將介紹無人機 視角下適用于檢測任務的相關數據集,并在常用的 數據集上分析對比現有算法的檢測性能。最后,對 本文內容進行簡要的總結,并討論無人機視角下的 目標檢測未來可能的研究方向和發展趨勢。
行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1
多模態人機交互旨在利用語音、圖像、文本、眼動和觸覺等多模態信息進行人與計算機之間的信息交換。在生理心理評估、辦公教育、軍事仿真和醫療康復等領域具有十分廣闊的應用前景。本文系統地綜述了多模態人機交互的發展現狀和新興方向,深入梳理了大數據可視化交互、基于聲場感知的交互、混合現實實物交互、可穿戴交互和人機對話交互的研究進展以及國內外研究進展比較。本文認為拓展新的交互方式、設計高效的各模態交互組合、構建小型化交互設備、跨設備分布式交互、提升開放環境下交互算法的魯棒性等是多模態人機交互的未來研究趨勢。
受益于物聯網的發展,人機交互設備在人們的 日常生活中得到了廣泛應用。 近年來,計算機視覺、 手勢識別和人工智能等技術蓬勃發展,頭戴式設備、 顯示屏和傳感器等硬件技術取得了明顯的進步,人 機交互不再局限于單一感知通道(視覺、觸覺、聽 覺、嗅覺和味覺)的輸入輸出模態(Bourguet,2003)。 多模態人機交互旨在利用語音、圖像、文本、眼 動和觸覺等多模態信息進行人與計算機之間的信息 交換。 其中包括人到計算機的多模態信息輸入與計 算機到人的多模態信息呈現,是與認知心理學、人機 工程學、多媒體技術和虛擬現實技術等密切相關的 綜合學科。 目前,多模態人機交互與圖像圖形領域 中的各類學術和技術聯合得越來越緊密。 多模態人 機交互技術作為人—機—物的技術載體,在大數據 與人工智能時代,其學術和技術發展前沿與圖像圖 形學、人工智能、情感計算、生理心理評估、互聯網大 數據、辦公教育和醫療康復等領域發展息息相關。 多模態人機交互研究最早出現在 20 世紀 90 年代, 多項工作提出了將語音和手勢融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近幾年,沉浸式可視化( Jansen 等,2014)的 出現為人機交互提供了一個新的多模態交互界面: 一個融合了視覺、聽覺和觸覺等多個感知通道的沉 浸式環境。
在學術 界, 多 模 態 人 機 交 互 的 學 術 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等國際 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會議呈現穩步增長,創新成果層 出不窮。 在產業界,語音、人臉和手勢等新型交互的應用 從噱頭轉趨理性,聚焦于車載、直播等特定場景。 觸 屏搭配一種新模態的交互方式,是當前多模態交互 產品落地的主要形態。 增強現實等新型輸出/ 顯示 模態的技術逐漸成為未來多模態人機交互產品新的 主要場景。 各國政府高度重視多模態人機交互。 在“十三 五”期間,我國設立多項重大重點項目支持多模態 人機交互方向的研究。 例如,國家重點研發計劃項 目“基于云計算的移動辦公智能交互技術與系統”、 “多模態自然交互的虛實融合開放式實驗教學環 境”等。 美國海軍開始構建下一代艦艇多模態人機 交互模式,采用全息化的指揮模式,通過佩戴視覺和 觸覺傳感器對艦船進行控制。 英國海軍公布的 T2050 未來水面艦艇概念,以多模態人機交互的方 式,有效提高工作效率。
本文旨在綜述多模態人機交互的最新進展,幫 助初學者快速了解和熟悉多模態人機交互領域;對 多模態人機交互方式進行分類整理,幫助該領域的 研究者更好地理解多模態人機交互中的各種技術; 對多模態人機交互領域面臨的機遇和挑戰進行梳 理,啟發相關研究者做出更有價值的多模態人機交 互工作。 本文將從多模態信息輸入與多模態信息輸出兩 方面對多模態交互技術進行綜述。 其中,多模態信 息輸入過程涉及可穿戴交互技術以及基于聲場感知 的輸入交互技術。 多模態信息呈現過程涉及大數據 可視化交互技術、混合現實交互技術以及人機對話 交互技術。 下面分別從大數據可視化交互、基于聲 場感知的交互、混合現實實物交互、可穿戴交互和人 機對話交互 5 個維度介紹多模態人機交互的研究進 展。 內容框架如圖 1 所示。
視覺目標檢測旨在定位和識別圖像中存在的物體,屬于計算機視覺領域的經典任務之一,也是許多計算機視覺任務的前提與基礎,在自動駕駛、視頻監控等領域具有重要的應用價值,受到研究人員的廣泛關注。隨著深度學習技術的飛速發展,目標檢測取得了巨大的進展。首先,本文總結了深度目標檢測在訓練和測試過程中的基本流程。訓練階段包括數據預處理、檢測網絡、標簽分配與損失函數計算等過程,測試階段使用經過訓練的檢測器生成檢測結果并對檢測結果進行后處理。然后,回顧基于單目相機的視覺目標檢測方法,主要包括基于錨點框的方法、無錨點框的方法和端到端預測的方法等。同時,總結了目標檢測中一些常見的子模塊設計方法。在基于單目相機的視覺目標檢測方法之后,介紹了基于雙目相機的視覺目標檢測方法。在此基礎上,分別對比了單目目標檢測和雙目目標檢測的國內外研究進展情況,并展望了視覺目標檢測技術發展趨勢。通過總結和分析,希望能夠為相關研究人員進行視覺目標檢測相關研究提供參考。
視覺目標檢測是計算機視覺的經典任務,旨在 定位圖像中存在物體的位置并識別物體的具體類 別。 目標檢測是許多計算機視覺任務及相關應用的 基礎與前提,直接決定相關視覺任務及應用的性能 好壞。 因此,視覺目標檢測技術受到了學術界、工業 界等各領域、乃至世界各國政府的廣泛關注。 在學 術界,目標檢測一直是各大計算機視覺會議及期刊 的研究熱點之一,每年有大量的目標檢測相關論文 發表。 根據谷歌學術顯示,研究人員近 10 年來在目 標檢測方面發表論文 15 000 余篇。 在工業界,國內 外科技巨頭(如谷歌、臉書、華為和百度等)、初創公 司(如商湯、曠視等)紛紛在目標檢測相關領域投入 大量人力財力。 與此同時,目標檢測技術是新一代 人工智能的重要共性關鍵技術,世界各國競相競爭。
在過去的幾十年中,目標檢測經歷了基于手工 設計特征的方法到基于深度特征的方法等不同發展 階段。 早期,目標檢測方法通常采用手工設計特征 加淺層分類器的技術路線,例如支持向量機(support vector machines,SVM) 和 AdaBoost 等,涌現了包括 Haar 特征(Viola 和 Jones,2004)、方向梯度直方圖 (histograms of oriented gradients,HOG) 特征( Dalal 和 Triggs,2005)等一系列經典的目標檢測特征描述 子。 2012 年以來,深度學習技術取得了飛速的發 展,并行計算資源不斷迭代更新,大規模數據庫及評 測標準相繼構建與公開。 基于上述技術、算力和數 據的鋪墊,視覺目標檢測開始在精度與效率等方面 取得了顯著的進展,先后涌現出區域卷積神經網絡 (region-based convolutional neural network,R-CNN) (Girshick 等,2014)、SSD( single shot detector) ( Liu 等,2016)、YOLO( you only look once) (Redmon 等, 2016)、 DETR ( detection transformer ) ( Carion 等, 2020)等一系列經典的研究工作。 相比于傳統手工 設計特征的方法,基于深度學習的方法避免了煩瑣 的手工設計過程,能夠自動學習更具有區分力的深 度特征。 與此同時,基于深度學習的方法將特征提 取和分類器學習統一在一個框架中,能夠進行端到 端的學習。
隨著技術的不斷發展與成熟,深度目標檢測技 術開始在實際應用中發揮重要作用。 近些年,國內外涌現了一批以目標檢測等視覺技術為核心技術的 科技創業公司,如曠視科技、商湯科技等。 同時,視 覺目標檢測是自動駕駛汽車環境感知重要的內容之 一,以特斯拉為代表的一批科技公司甚至采用純視 覺目標感知的技術路線開展自動駕駛研究。 盡管目 標檢測技術已經開始走向實際應用,但是當前目標 檢測的性能仍然無法到達人類視覺的性能,存在巨 大改進與提升的空間。 鑒于基于深度學習的目標檢測技術在學術界和 產業界取得了巨大成功,本文對基于深度學習的視 覺目標檢測技術進行了系統的總結和分析,包括國 內外研究現狀以及未來的發展趨勢等。 根據視覺目 標檢測采用視覺傳感器的數量不同,將視覺目標檢 測分為兩類:基于單目相機的視覺目標檢測和基于 雙目相機的視覺目標檢測。 相比于單目相機,雙目 相機能夠提供 3 維信息。 因此,基于雙目相機的視 覺目標檢測能夠提供精準的目標 3 維信息,在自動 駕駛等領域能夠更好地滿足應用需求。
首先介紹目標檢測的基本流程,包括訓練和測 試過程。 接著,系統地總結和分析單目視覺目標檢 測。 然后,介紹雙目視覺目標檢測。 最終,對比國內 外發展現狀,并對發展趨勢進行展望。
圖像目標檢測是找出圖像中感興趣的目標,并確定他們的類別和位置,是當前計算機視覺領域的研 究熱點。近年來,由于深度學習在圖像分類方面的準確度明顯提高,基于深度學習的圖像目標檢測模型逐漸 成為主流。首先介紹了圖像目標檢測模型中常用的卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法的角度對現有經典的圖像目標檢測模型進行綜述;最后,根據在公共數據集上的檢測結果分析模型的優 勢和缺點,總結了圖像目標檢測研究中存在的問題并對未來發展做出展望。
計算機視覺(computer vision)是人工智能 (artificial intelligence,AI)的關鍵領域之一,是 一門研究如何使機器“看”的科學。圖像目標檢 測又是計算機視覺的關鍵任務,主要對圖像或視 頻中的物體進行識別和定位,是 AI 后續應用的基 礎。因此,檢測性能的好壞直接影響到后續目標 追蹤[1-2]、動作識別[3-4]的性能。傳統圖像目標檢測的滑窗法雖然簡單易于理 解,但隨目標大小而變化的窗口對圖像進行從左 至右、從上至下的全局搜索導致效率低下。為了 在滑動窗口檢測器的基礎上提高搜索速度, Uijlings 等[5]提出了選擇性搜索方法(selective search method),該方法的主要觀點是圖像中的 目標存在的區域具有相似性和連續性,基于這一 想法采用子區域合并的方式進行候選區域的提取 從而確定目標。Girshick 等[6]提出的基于區域的卷 積神經網絡(region-based convolutional neural network,R-CNN)就是采用了選擇性搜索方法提 取候選區域,進而越來越多的學者在不斷改進確 定目標的方法的基礎上提出新的檢測模型。
本文首先介紹了圖像目標檢測模型中常用的 卷積神經網絡;然后,重點從候選區域、回歸和 anchor-free 方法等角度對現有的圖像目標檢測模 型進行綜述;最后,根據在公共數據集上的檢 測結果分析模型的優勢和缺點,總結了現有圖 像目標檢測研究中存在的問題并對未來發展做 出展望。
本節將介紹近幾年提出的基于候選區域、回 歸和 anchor-free 的圖像目標檢測模型,總結各模 型相比之前模型的改進策略以及自身的創新點和 不足,并在 PASCAL VOC2007[17] 、 PASCAL VOC2012[17]和 MS COCO[18]等常用公共數據集上 做出比較。
R-CNN 圖像目標檢測模型是 Girshick 等[6]于 2013 年提出的,它是候選區域和卷積神經網絡這 一框架的開山之作,也是第一個可以真正應用于 工業級圖像目標檢測的解決方案,為基于 CNN 圖 像目標檢測的發展奠定了基礎。網絡結構如圖 2 所示。R-CNN 首先使用選擇性搜索方法從輸入的 圖像中提取出 2 000 個候選區域,使用剪裁[9]和變 形[19]的方法將候選區域的尺寸固定為 277×277 以 適應全連接層的輸入,通過 CNN 前向傳播對每個 候選區域進行特征計算;然后將每個候選區域的 特征向量送入特定線性分類器中進行分類和預測 概率值;最后使用非極大值抑制(non-maximum suppression,NMS)[20]算法消除多余的目標框, 找到目標的最佳預測位置。
R-CNN 圖像目標檢測模型雖然將 mAP(mean average precision,平均精度值)[17]在 VOC2007 和 VOC2012 數據集上分別達到了 58.5% 和 53.3%,在基于深度學習的圖像目標檢測領域取得 了重大突破,但由于其輸入圖像經過剪裁和變形 后會導致信息丟失和位置信息扭曲,從而影響識 別精度,并且 R-CNN 需要對每張圖片中的上千個 變形后的區域反復調用 CNN,所以特征計算非常 耗時,速度較慢。基于 R-CNN 需固定輸入圖像尺寸以及檢測 速度較慢的缺點,2014年He等[21]提出了SPP-Net, 該模型先是計算整個輸入圖像的卷積特征圖,根 據選擇性搜索方法提取候選區域,通過對特征圖 上與候選區域相對應位置的窗口使用金字塔池化 (spatial pyramid pooling,SPP)可以得到一個固定 大小的輸出,即全連接層的輸入。與 R-CNN 相比, SPP-Net 避免了反復使用 CNN 計算卷積特征,在 無須對輸入圖像進行剪裁和變形的情況下實現了 多尺度輸入卷積計算,保留了圖像的底層信息, 在VOC2007數據集上測試時 mAP達到了59.2%, 在達到相同或更好的性能前提下,比 R-CNN 模型 快 24~102 倍。雖然 R-CNN 和 SPP-Net 在 VOC2007 數據集 上都獲得了很高的精度,但兩者將分類和回歸分 為多階段進行,使得網絡占用了較多的硬件資源。2015 年 Girshick 等[22]提出了一種快速的基于區域 的卷積網絡模型(fast R-CNN)。該網絡首先用 選擇性搜索方法提取候選區域,將歸一化到統一 格式的圖片輸入 CNN 進行卷積計算,然后借鑒了 SPP-Net 中金字塔池化的思想,用最大值池化層 ROI pooling 將卷積特征變成固定大小的 ROI 特征 輸入全連接層進行目標分類和位置回歸。該網絡 采用多任務訓練模式,用 softmax 替代 SVM (support vector machine,支持向量機)[23]進行分 類,將分類和回歸加入網絡同時訓練,在末尾采用可同時輸出分類和回歸結果的并行全連接層。fast R-CNN 減少了硬件緩存,提高了檢測速度, 初步實現了端對端的圖像目標檢測,并且在 VOC2007 和 VOC2012 數據集上的 mAP 分別為 66.9%和 66.0%。
由于 fast R-CNN 無法滿足實時檢測的需求, Ren 等[24]提出了改進模型 faster R-CNN。該網絡 的最大創新就是提出了區域提議網絡(region proposal network,RPN),即在基礎卷積網絡提 取輸入圖像特征的基礎上用 RPN 代替 fast R-CNN 中的選擇性搜索方法進行候選區域的提取。RPN 是一個全卷積網絡,網絡結構如圖 3 所示,該網 絡可以同時在每個位置上預測出目標邊界和目標 概率并產生高質量候選區域,然后通過 ROI pooling將卷積特征變成固定大小的ROI特征輸入 全連接層進行目標分類和位置回歸。RPN 和 fast R-CNN通過四步交替訓練法使兩個網絡共享卷積 特征合并為單一網絡,解決了區域計算的瓶頸問 題,在實現真正端對端訓練模式的基礎上滿足了 實時應用的需求[23]。
2017 年 He 等[25]提出了 mask R-CNN 目標檢 測模型,該模型以faster R-CNN為原型,即在faster R-CNN 中生成的候選區域中融入 FCN(fully convolutional network,全卷積神經網絡)[26]作為 新的支路用于生成每個候選區域的掩膜,同時把 faster R-CNN 中 RoI pooling 修改成為了 ROI align 用于處理掩膜與原圖中物體不對齊的問題。Mask R-CNN 在訓練時可以同時生成目標邊界、目標概 率和掩膜,但在預測時通過將目標邊界和目標概 率的結果輸入掩膜預測中以生成最后的掩膜,該 方法減弱了類別間的競爭優勢,從而達到了更好 的效果,在 MS COCO 數據集上的 mAP 測試結果 達到 35.7%。
**YOLO 及擴展模型 **
檢測精度和檢測速度是評判圖像目標檢測模 型好壞的重要標準[27]。基于候選區域的圖像目標 檢測模型,雖然在檢測精度方面首屈一指,但是 它檢測圖像的效率低是其主要弊端。2016 年 Redmon 等[28]提出 YOLO(you only look once)檢 測模型,該模型將圖像目標檢測抽象為回歸問題, 通過對完整圖片的一次檢測就直接預測出感興趣 目標的邊界框和類別,避免了 R-CNN 系列中將檢 測任務分兩步進行的煩瑣操作,解決了之前圖 像目標檢測模型檢測效率低的問題。檢測網絡 將輸入的圖片分成 s×s 個網格,如圖 4 所示,各 網格只負責檢測中心落在該網格的目標,預測 出網格的類別信息以及多個邊界框和各個邊界 框的置信度,通過設定閾值過濾掉置信度較低 的邊界框,然后對保留的邊界框進行 NMS 處理 以確定最終的檢測結果。YOLO 以回歸替代了 之前圖像目標檢測模型的候選區域方法,在滿足 實時需求的基礎上檢測速度達到 45 f/s,但由于 YOLO 在檢測過程中僅選擇置信度最高的邊界框 作為最終的輸出,即每個網格最多只檢測出一個 物體,因此 YOLO 在檢測緊鄰群體目標或小目標 時效果不佳,在 VOC2007 上的 mAP 也僅有 66.4%。針對 YOLO 在目標定位方面不夠準確的問 題,2017 年 Redmon 等[29]提出了 YOLO 的擴展模 型 YOLOv2 和 YOLO9000。YOLOv2 首先在卷積 層中添加批量歸一化(batch normalization,BN)[30]技術使得模型的收斂性有顯著的提升,然后借鑒 faster R-CNN 的思想用聚類方法產生的錨框替代 了 YOLO 中預測出的邊界框,最后通過輸入更高 的分辨率圖像并對其進行遷移學習[31]從而提升網 絡對高分辨率圖像的響應能力,訓練過程中無須 固定圖像的尺寸,因此在一定程度上提升了網絡 的泛化能力。除此之外 YOLOv2 還提出將一個由 19 個卷積層和 5 個 MaxPooling 層構成的 Darknet-19[28]網絡作為骨干網進一步提升檢測速 度。而 YOLO9000 則是在 YOLOv2 的基礎上提出 了目標分類和檢測的聯合訓練方法,使 YOLOv2 的檢測種類擴充到 9 000 種。2017 年 Redmon 等[32] 提出了 YOLOv3 檢測模型,它借鑒了殘差網絡結 構,形成網絡層次更深的 Darknet-53,通過特征 融合的方式采用 3 個不同尺度的特征圖進行目標 檢測,并且用 logistic 代替 softmax 進行類別預測 實現了多標簽目標檢測,該網絡不僅提升了小目 標檢測效果,在邊界框預測不嚴格并且檢測精度 相當的情況下檢測速度是其他模型的 3~4倍。
2016 年 Liu 等[33]提出 SSD 圖像目標檢測模 型,該模型徹底淘汰了生成候選區域和特征重采 樣階段,選擇將所有計算封裝在單個深層神經網 絡中,網絡結構如圖 5 所示。SSD 網絡繼承了 YOLO 中將目標檢測問題抽象為回歸問題的思 想,采用特征金字塔的方式進行檢測,即利用不 同卷積層產生不同的特征圖,使用一個小的卷積 濾波器來預測特征圖上一組固定的默認邊界框類 別和位置偏移量。為了實現較高的檢測精度,在 不同尺度的特征圖中進行不同尺度的預測,并設 置不同長寬比的邊界框進行分離預測。由于圖 像中的目標具有隨機性,大小不一,所以小目 標的檢測是由 SSD 使用底層特征圖來實現的, 大目標的檢測是由 SSD 使用高層特征圖來實現 的,相對于 YOLO 精確度大幅度提高,并且效 率也有所提升。2017 年 Fu 等[34]提出 DSSD 檢測模型,即將 Resnet-101 作為 SSD 的骨干網,在分類回歸之前 引入殘差模塊,并且在原本 SSD 添加的輔助卷積 之后又添加了反卷積層,與 SSD 相比,DSSD 在 小目標的檢測精度上有了很大的提升,但 Resnet-101 網絡太深導致 DSSD 的檢測速度相比 SSD 較慢。2017 年 Jisoo 等[35]在未改動 SSD 主干網絡的基礎上提出了 RSSD(rainbow SSD)檢測 模型,該網絡同時采用池化和反卷積的方式進行 特征融合,不僅增強了不同特征層之間的關系, 由于融合后的特征大小相同,還一定程度上增加 了不同層的特征個數。這種特征融合方式解決了 SSD 存在的重復框的問題,同時提升了對小目標 的檢測效果,但與 SSD 相比檢測速度較慢。2017 年 Li 等[36]提出了 FSSD,該模型通過重構一組金字 塔特征圖充分融合了不同層不同尺度的特征,在 保證檢測速度與 SSD 相當的同時使得檢測精度有 了明顯的提升。2019 年 Yi 等[37]借鑒注意力機制[38] 的思想在 SSD 檢測模型中設計了一個注意力模 塊,該注意力模塊基于全局特征關系可以分析出 不同位置特征的重要性,從而達到在網絡中突出 有用信息和抑制無用信息的效果,ASSD[37]檢測精 度提高,但與 SSD 相比,檢測速度較慢。
圖像目標檢測發展日新月異,越來越多優秀 目標檢測模型陸續被提出,基于候選區域和回歸 方法的檢測模型目前發展穩定并且成熟,而基于 anchor-free 的檢測模型是當下目標檢測領域中新 的熱門研究方向,anchor-free 檢測模型有兩種, 分別為基于關鍵點的檢測和基于分類和回歸進行 改進的檢測。
2018 年 Law[42]受到 Newell 等在姿態估計[43-46] 中的關聯嵌入的啟發提出了 CornerNet,這是一種 新型的圖像目標檢測方法。CornerNet 將一個目標 檢測為一對關鍵點,即目標邊界框的左上角點和 右下角點,是第一個將圖像目標檢測任務表述為 利用嵌入角點進行分組和檢測任務的模型,開啟 了基于關鍵點的目標檢測方法的大門。CornerNet 首先使用沙漏網絡[15]作為其骨干網絡輸出最后一 層卷積特征,骨干網后接兩個分支模塊,分別進 行左上角點預測和右下角點預測,每個分支模塊 包含一個 Corner pooling(角池化)和 3 個輸出, 網絡結構如圖 7 所示。heatmaps(熱圖)輸出的 是預測角點的位置信息,當圖像中出現多個目標時,embeddings(嵌入)根據左上角點和右下角 點嵌入向量之間的距離對屬于同一目標的一對角 點進行分組;offsets(誤差)是輸出從圖像到特征 圖的量化誤差,用來對預測框進行微調。
當角點在目標之外時,此時獲取的信息不足 以進行當前的定位,為了能夠更好地定位邊界框 的角點,Law 等[42]介紹了一種新型池化層—角池 化層,該池化層包含兩個特征圖,在每個像素位 置,它將第一個特征圖下側的所有特征向量和第 二個特征圖右方的所有特征向量最大化,然后將 兩個合并后的結果相加輸出最后的角點。CornerNet 極大地簡化了網絡的輸出,徹底消除了 圖像目標檢測對候選區域和候選框的需要,在 MS COCO 上實現了 42.1%的 mAP,但當 CornerNet 將邊界框的角點定位在物體之外時目標的局部 特征表現不強烈,并且在判斷兩個角點是否屬 于同一目標時,由于缺乏全局信息的輔助導致 匹配角點時產生錯誤目標框,因此存在一定的 誤檢率。2019年Zhou等[47]借鑒CornerNet 的思想提出 一種新的檢測思路,即通過關鍵點估計[48-50]網絡 對每個目標預測出 4 個極值點和 1 個中心點,然 后提取極值點的峰值,暴力枚舉所有的組合并計 算出每個組合的幾何中心點,若幾何中心點與預 測的中心點匹配度高于設定閾值,則接受該組合, 并將這 5 個極值點的得分平均值作為組合的置信 度。ExtremeNet[47]將目標檢測問題轉化成單純的 基于外觀信息的關鍵點估計問題,避免了對目標 隱含特征的學習,相對于 CornerNet 更好地反映了物體的信息,檢測效果更好。
自 2018 年 CornerNet 提出以來,基于 anchor-free 的目標檢測模型在分類和回歸的方法 上又有了新的創新,如 2019 年 Zhu 等[53]提出一種 基于 anchor-free 的動態選擇特征層的方法,該方 法主要是在 RetinaNet 的基礎上建立一個 FSAF(feature selective anchor-free)模塊,即對每個層 次的特征都建立一個可以將目標分配到合適特性 級別的 anchor-free 分支,使得目標框能夠在任意 特征層通過 anchor-free 分支進行編解碼操作。FSAF 可以和基于錨的分支并行工作平行的輸出預測結 果,有效地提升了 RetinaNet 的穩健性,解決了傳統 基于錨框檢測的網絡根據候選框選擇特征層的局限 性,并在 MS COCO 上實現了 42.8%的 mAP。傳統基于錨框的檢測網絡面對變化較大的目 標時需要根據檢測任務預定義錨框尺寸,通過手 工設置錨框提高召回率這一操作不僅占用較大的 計算和內存資源,還在一定程度上深化了正負樣 本不平衡問題。2019 年 Tian 等[54]提出一種全卷積 目標檢測網絡 FCOS,類似語義分割中[55]利用逐 像素點預測的方式解決目標檢測問題。為了提高 檢測效果,FCOS 引入 center-ness 分支用于降低檢 測效果不理想的目標框權重,然后通過 NMS 算法 確定最終檢測結果。基于 anchor-free 的 FCOS 檢 測網絡極大地降低了參數計算,可以與其他視覺 任務相結合,并且盡可能多地使用正樣本參與訓 練,解決了之前檢測模型中出現的正負樣本不平 衡問題,但在檢測時由于目標真實框重疊,可能 會出現語義模糊情況。2019年Kong等[59]提出了FoveaBox目標檢測 網絡,結合人類視覺系統是通過眼球中對物體感 應最敏銳的中央凹(Fovea)結構確定物體位置的 原理對目標真實框進行位置變換,更具體地說是 通過目標真實框找到目標對應在特征圖中的中心 位置,然后設定兩個縮放因子分別對目標真實框 向中心點進行收縮和擴展,將收縮邊框的內部點 作為正樣本,擴展邊框外部點作為負樣本。這種 通過位置變化忽略兩個邊框中間點的方法不僅增 加了正負樣本之間的識別度、解決了樣本不平衡 問題,還有效提升了檢測性能,但與其他 anchor-free 模型相比檢測精度略低,在 MS COCO 上實現的 mAP 僅有 40.6%。
本文對現有經典圖像目標檢測模型的創新點 及優缺點做出對比,見表 1。無論是候選區域法、 回歸法還是 anchor-free 法,提出模型的主要目的 都是為了能夠高精度、高速率地識別并檢測出目 標。由表 1 可以看出,基于候選區域法模型的提 出開啟了用 CNN 提取特征的大門使圖像目標檢 測進入深度學習時代,回歸法則解決了候選區域 法的速度瓶頸問題,實現了端對端的圖像目標檢 測。而基于 anchor-free 的算法消除了候選區域法 和回歸法中候選框的設計,生成高質量的目標框 并在未來形成了一個有前途的方向。對本文中提到的圖像目標檢測模型在公共數 據集上的檢測結果做出對比,見表 2。“—”表示 此數據集沒有該模型的測試結果,2007 表示數據 集 VOC 2007,2012 表示數據集 VOC 2012;[email protected] 表示該模型在 MS COCO 數據集上是取 閾值為 0.5 計算精度的,AP@[0.5,0.95]表示該模 型在 MSCOCO 數據集上是取 10 個閾值(間隔 0.05)計算精度的,即 mAP,表 2 中所有的數據 集精確率檢測結果均以百分比為單位。FPS 表示 該模型每秒處理圖片的數量。
摘要
無人機(UAV)由于有效且靈活的數據采集,近年來已成為計算機視覺(CV)和遙感(RS)領域的研究熱點。由于最近深度學習(DL)的成功,許多先進的目標檢測和跟蹤方法已被廣泛應用于與無人機相關的各種任務,例如環境監測、精準農業、交通管理。本文全面綜述了基于DL的無人機目標檢測與跟蹤方法的研究進展和前景。具體來說,我們首先概述了挑戰,統計了現有的方法,并從基于DL的模型的角度提供了解決方案,這三個研究課題分別是:來自圖像的目標檢測,來自視頻的目標檢測,來自視頻的目標跟蹤。利用無人機主導目標檢測與跟蹤相關的開放數據集,利用4個基準數據集,采用最先進的方法進行性能評估。最后,對今后的工作進行了展望和總結。本文對基于DL的無人機目標探測與跟蹤方法進行了綜述,并對其進一步發展提出了一些思考,以期為來自遙感領域的研究人員提供參考。
//www.zhuanzhi.ai/paper/d2cb72aa7da469d6481f2fc9e9c6454a
引言
目標檢測與跟蹤作為遙感領域的重要研究課題,已廣泛應用于環境監測、地質災害檢測、精準農業、城市規劃等各種民用和軍事任務中。傳統的目標捕獲方法主要來源于衛星和載人飛行器。這兩種平臺通常在固定軌道上運行或按照預定的路徑運行,也可以根據委托的任務,如城市規劃和測繪,或在惡劣和不適宜居住的環境下進行物體觀測,如冰凍圈遙感,臨時改變運行路線并懸停。然而,衛星和載人飛機的成本以及飛行員潛在的安全問題不可避免地限制了此類平臺的應用范圍。
隨著微電子軟硬件的發展,導航和通信技術的更新,以及材料和能源技術的突破,無人機(UAV)平臺已經成為國際遙感領域的研究熱點,迅速崛起。無人機遙感系統是將科技與無人機、遙感、全球定位系統(GPS)定位和慣性測量單元(IMU)姿態確定手段相結合的高科技組合。它是一個以獲取低空高分辨率遙感圖像為目標的專用遙感系統。與傳統平臺相比,無人機彌補了由于天氣、時間等限制造成的信息損失。此外,無人機的高機動性使其能夠靈活地采集視頻數據,不受地理限制。這些數據無論在內容上還是時間上都信息量極大,目標檢測與跟蹤進入了大規模無人機[1]-[3]時代,在土地覆蓋測繪[4]、[5]、智慧農業[6]、[7]、智慧城市[8]、交通監控[9]、災害監控[10]等領域發揮著越來越重要的作用。
目標檢測與跟蹤作為計算機視覺的基本問題之一,采用了經典的基于統計的方法[11]、[12]。然而,當前海量數據影響了這些傳統方法的性能,造成了特征維數爆炸的問題,存儲空間和時間成本較高。由于深度神經網絡(deep neural network, DL)技術[13]-[15]的出現,可以用深度復雜網絡學習具有足夠樣本數據的層次特征表示。自2015年以來,深度神經網絡已經成為無人機目標檢測與跟蹤的主流框架[16],[17]。圖1為無人機遙感在城市區域目標檢測與跟蹤的示例。經典的深度神經網絡主要分為兩大類:兩階段網絡和單階段網絡。其中,RCNN[18]、Fast RCNN[19]和Faster RCNN[20]等兩階段網絡首先需要生成region proposal (RP),然后對候選區域進行分類和定位。[21] -[23]的一系列工作證明了兩級網絡適用于具有較高檢測精度的應用。一級網絡,如SSD[24]和YOLO[16],[25],[26],直接產生類概率和坐標位置,比二級網絡更快。同樣,也有一些更快的輕量級網絡,如mobilenet SSD [27], YOLOv3 [28], ESPnet v2[29]等。因此,對高速需求的無人機遙感實際應用而言,一級快速輕量化網絡是最終的贏家。但對于低分辨率的數據,如果不對圖像進行預處理或對經典的神經網絡結構進行修改,則無法產生良好的效果。
本文以最大起飛重量小于30公斤的無人機為研究對象,通過總結最新發表的研究成果,對基于深度學習(DL)的無人機目標檢測與跟蹤方法進行了全面綜述,討論了關鍵問題和難點問題,并描述了未來的發展領域。本文的其余部分組織如下。第二節概述了無人機的統計情況和相關出版物。第六節介紹現有的基于無人機的遙感數據集。第三至第五節綜述了三個分支在基于無人機的目標檢測和跟蹤方面的現有基于DL的工作。第八節討論結論。
目標檢測是一種廣泛應用于工業控制、航空航天等安全攸關場景的重要技術。近年來,隨著深度學習在目標檢 測領域的應用,檢測的精度得到了較大提升,但由于深度學習固有的脆弱性,使得基于深度學習的目標檢測技術的可靠性 和安全性面臨新的挑戰。本文通過對近幾年面向目標檢測的對抗樣本生成及防御的研究進行分析和總結,致力于為增強目 標檢測模型的魯棒性和提出更好的防御策略提供思路。首先,介紹了對抗樣本的概念、產生原因以及目標檢測領域對抗樣 本生成常用的評價指標和數據集。然后根據對抗樣本生成的擾動范圍將攻擊分為全局擾動攻擊和局部擾動攻擊。在這個分 類基礎上,又分別從攻擊的目標檢測器類型、損失函數設計等六個方面對目標檢測的對抗樣本生成方法進行了分析和總結, 并通過實驗對比了幾種典型目標檢測對抗攻擊方法的性能,同時比較了這幾種方法的跨模型的遷移攻擊能力。此外,本文 還對目前目標檢測領域常用的對抗防御策略進行了分析和歸納。最后,總結了目標檢測領域對抗樣本的生成及防御所面臨 的挑戰,并對未來發展方向做出了展望。
顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.
數據融合是最大程度發揮大數據價值的關鍵,深度學習是挖掘數據深層特征信息的技術利器,基于深度學習的數據融合能夠充分挖掘大數據潛在價值,從新的深度和廣度拓展對世界的探索和認識。本文綜述了近幾年基于深度學習的數據融合方法的相關文獻,以此了解深度學習在數據融合中應用所具有的優勢。首先,分類闡述常見的數據融合方法,同時指出這些方法的優點和不足;接著,從基于深度學習特征提取的數據融合方法、基于深度學習融合的數據融合方法、基于深度學習全過程的數據融合方法三個方面對基于深度學習的數據融合方法進行分析,并做了對比研究與總結;最后,總結全文,討論了深度學習在數據融合中應用的難點和未來需要進一步研究的問題。