小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學 習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法 的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。
目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。作為圖像理 解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次 視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特 征極少的小目標(32 像素×32 像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目 標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要 作用。近年來,深度學習技術的快速發展為小目標檢測注入了新鮮血液,使其成為研究熱點。然而,相 對于常規尺寸的目標,小目標通常缺乏充足的外觀信息,因此難以將它們與背景或相似的目標區分開 來。在深度學習的驅動下,盡管目標檢測算法已取得了重大突破,但是對于小目標的檢測仍然是不盡 人意的。在目標檢測公共數據集 MS COCO[1]上,小目標和大目標在檢測性能上存在顯著差距,小目標 的檢測性能通常只有大目標的一半。由此可見,小目標檢測仍然是充滿挑戰的。此外,真實場景是錯 綜復雜的,通常會存在光照劇烈變化、目標遮擋、目標稠密相連和目標尺度變化等問題,而這些因素對 小目標特征的影響是更加劇烈的,進一步加大了小目標檢測的難度。事實上,小目標檢測具有重要的 研究意義和應用價值。對于機場跑道,路面上會存在微小物體,如螺帽、螺釘、墊圈、釘子和保險絲等, 精準地檢測出跑道的這些小異物將避免重大的航空事故和經濟損失。對于自動駕駛,從汽車的高分辨 率場景照片中準確地檢測出可能引起交通事故的小物體是非常有必要的。對于工業自動化,同樣需要 小目標檢測來定位材料表面可見的小缺陷。對于衛星遙感圖像,圖像中的目標,例如車、船,可能只有 幾十甚至幾個像素。精確地檢測出衛星遙感圖像中的微小目標將有助于政府機構遏制毒品和人口販 運,尋找非法漁船并執行禁止非法轉運貨物的規定。
綜上所述,小目標檢測具有廣泛的應用價值和重 要的研究意義。對小目標檢測展開研究將有助于推動目標檢測領域的發展,擴寬目標檢測在現實世界 的應用場景,提高中國的科技創新水平和加快中國全面步入智能化時代的步伐。目標檢測作為計算機視覺的基礎研究,已有許多優秀的綜述發表。Zou 等[2]梳理了 400 多篇關于目 標檢測技術發展的論文,包括歷史上的里程碑檢測器、檢測框架、評價指標、數據集、加速技術和檢測應 用等諸多內容,系統而全面地展現了目標檢測這個領域的現狀。Oksuz 等[3]則從目標檢測中存在的類 別不平衡、尺度不平衡、空間不平衡以及多任務損失優化之間的不平衡等四大不平衡問題出發,對現有 的目標檢測算法進行了深入的總結。Zhao 等[4]在對比總結目標檢測中提及了小目標檢測所面臨的挑 戰。Agawal 等[5]則在目標檢測任務的主要挑戰中簡要介紹了幾種常用的小目標檢測方法。Chen 等[6] 立意于小目標檢測的 4 大支柱性方法,詳細描述了多尺度表示、上下文信息、超分辨率、區域建議以及其 他方法等 5 類具代表性的網絡,并介紹了部分小目標數據集。Tong 等[7]從多尺度學習、數據增強、訓練 策略、基于上下文的檢測和基于生成對抗網絡的檢測等 5 個維度全面回顧了基于深度學習的小目標檢 測方法,并在一些流行的小目標檢測數據集上,對當前經典的小目標檢測算法進行了比較分析。Liu 等[8]在總結對比最近用于小目標檢測的深度學習方法的基礎上,還簡單闡述了常規目標檢測、人臉檢 測、航空圖像目標檢測以及圖像分割等 4 個研究領域的相關技術。此外,還有文獻[9?10]等中文綜述中 對小目標檢測這一領域做了一定的總結工作。然而,文獻[2]主要對一般目標檢測算法進行了回顧,而 對小目標檢測方法的介紹甚少。文獻[3]則主要關注于目標檢測領域中存在的不平衡問題。文獻[4?5] 對目標檢測領域進行了全面的綜述總結,雖然有所涉及小目標檢測問題,但是并沒有進行全面的總結 和深入的分析。文獻[6?8]是針對小目標這一問題的綜述,對小目標檢測方法與性能評估進行了較為全 面的總結,但是在對小目標的定義、難點分析和性能評估等方面仍有所欠缺。文獻[9?10]作為中文的小 目標檢測綜述,分別對小目標檢測這一領域進行了總結綜述,但是對于小目標檢測方法的歸類與分析仍不夠深入。
與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目 標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。本文不僅對小目標 的定義進行了解釋,也對小目標檢測領域存在的挑戰進行了詳細地分析和總結,同時重點闡述了小目 標檢測優化思路,包括數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制以及其他優化 策略等。此外,本文還在常用的小目標數據集上分析對比了現有算法的檢測性能。最后,對本文內容 進行了簡要的總結,并討論了小目標檢測未來可能的研究方向和發展趨勢。
小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.
視覺目標跟蹤指在一個視頻序列中,給定第一幀目標區域,在后續幀中自動匹配到該目標區域的任務。通常來說,由于場景遮擋、光照變化、物體本身形變等復雜因素,目標與場景的表觀會發生劇烈的變化,這使得跟蹤任務本身面臨極大的挑戰。在過去的十年中,隨著深度學習在計算機視覺領域的廣泛應用,目標跟蹤領域也迅速發展,研究人員提出了一系列優秀算法。鑒于該領域處于快速發展的階段,文中對視覺目標跟蹤研究進行了綜述,內容主要包括跟蹤的基本框架改進、目標表示改進、空間上下文改進、時序上下文改進、數據集和評價指標改進等;另外,還綜合分析了這些改進方法各自的優缺點,并提出了可能的未來的研究趨勢。
//www.jsjkx.com/CN/article/openArticlePDF.jsp?id=19761
目標跟蹤是計算機視覺領域的一項經典研究課題,目的 是在給定第一幀初始目標邊界框的情況下,在后續視頻序列 中準確定位目標(見圖1).隨著高性能移動設備與高配置攝 像機的爆炸式增長,以及新一代5G 網絡的逐步應用,人們對 自動視頻分析的需求日益增長.自動視頻分析中有3個關鍵 步驟:自動檢測感興趣的運動物體、逐幀跟蹤這些物體、通過 分析物體的軌跡來進行行為識別.目標跟蹤作為其中的一項 重要技術,引起了相關學者的極大關注[1G2].然而,視覺目標 跟蹤是一項極具挑戰性的任務,因為有一系列不同的問題需 要在單個跟蹤算法中解決.例如,跟蹤算法能很好地處理光 照變化,但是難以應對因相機角度變化而帶來的物體表觀的變化;跟蹤算法擅長準確預測物體運動,但是難以跟蹤快速彈 跳的物體;跟蹤算法能對外觀做出詳細假設,但是不能處理有 關節的物體.
目標跟蹤領域涌現出了大批經典算法[3G21],具體如圖2所示. 本文分4個階段對目標跟蹤的發展進行綜述,即早期的目標 跟蹤探索階段、稀疏表示階段、相關濾波階段和孿生網絡階 段,主 要 介 紹 的 跟 蹤 算 法 包 括 Histogram [3],Ensemble [4], IVT [5],MIL [6],L1Tracker [7],TLD [8],MOSSE [9],Struck [10], ASLA [11],CT [12],CSK (KCF)[13],CN [14],STC [15],CF2 [16]ECO [17],SiamFC [18],SiamRPN [19],ATOM [20],SiamRCNN [21]等. 本文詳細梳理了最近幾年目標跟蹤領域的相關工作,并 將其分為了五大類:數據集和評價標準的改進、目標跟蹤基本 框架改進、目標表示的改進、空間上下文方面的改進和時序上 下文方面的改進.對上述5類工作分別進行介紹和分析之后 得出本文的結論,并提出未來目標跟蹤領域可能的發展趨勢.
顯著性檢測一直是計算機視覺領域的關鍵問題,在視覺跟蹤、圖像壓縮和目標識別等方面有著非常重要的應用。基于傳統RGB圖像和RGB-D (RGB depth)圖像的顯著性檢測易受復雜背景、光照、遮擋等因素影響,在復雜場景的檢測精度較低,魯棒的顯著性檢測仍存在很大挑戰。隨著光場成像技術的發展,人們開始從新的途徑解決顯著性檢測問題。光場數據記錄著空間光線位置信息和方向信息,隱含場景的幾何結構,能為顯著性檢測提供可靠的背景、深度等先驗信息。因此,利用光場數據進行顯著性檢測得到了廣泛關注,成為研究熱點。盡管基于光場數據的顯著性檢測算法陸續出現,但是缺少對該問題的深刻理解以及研究進展的全面綜述。本文系統地綜述了基于光場數據的顯著性檢測研究現狀,并進行深入探討和展望。對光場理論以及用于光場顯著性檢測的公共數據集進行介紹;系統地介紹了光場顯著性檢測領域的算法模型和最新進展,從人工設計光場特征、稀疏編碼特征和深度學習特征等方面進行全面闡述及分析;通過4個公共光場顯著性數據集上的實驗數據對不同方法的優缺點進行比較和分析,并結合實際應用指出當前研究的局限性與發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20201201&flag=1
在觀測圖像時,人類的視覺系統能夠快速獲取圖像中感興趣的區域和目標,這個過程稱為視覺注意力機制。顯著性檢測是通過智能算法模擬人類視覺注意力機制,提取圖像中人類感興趣的區域(Borji等,2015)。顯著性檢測一直是計算機視覺領域的研究熱點。顯著性檢測首先檢測場景中最引人注意的目標,然后將這類目標作為整體劃分出來。準確有效的顯著性檢測可以為視覺跟蹤(Mahadevan和Vasconcelos,2012)、目標檢測與識別(Han和Vasconcelos,2014)和視頻壓縮(Itti,2004)等提供可靠的先驗信息。
自Itti等人(1998)提出多尺度顯著性檢測模型以來,出現了大量各式各樣的顯著性檢測模型,顯著性檢測算法的性能逐步提升,取得了很大進展(Ju等,2014;Ren等,2015)。但是在復雜場景中,魯棒的顯著性檢測仍存在很大挑戰,主要表現在:1)場景中存在多個顯著目標且尺度變化較大;2)顯著區域的顏色或紋理與背景相似;3)場景中光源顏色不一致;4)顯著目標被部分遮擋;5)難以提取完整目標。
針對這些難點,研究者提出多種顯著性檢測算法,根據使用數據來源不同,這些顯著性檢測算法分為3類:基于RGB圖像的顯著性檢測算法、基于RGB-D(RGB depth)圖像的顯著性檢測算法和基于光場數據的顯著性檢測算法。其中基于RGB圖像的顯著性檢測算法最多,一個原因是RGB圖像是人們生活中最廣泛使用且最容易獲取的圖像。這類算法大多通過計算圖像的顏色、形狀、方向以及紋理等底層圖像特征(Xu等,2013;Zhao和Koch,2012)獲取顯著線索,或利用特征學習技術如卷積神經網絡(Li和Yu,2015a)、稀疏編碼(Li等,2013b)或者循環神經網絡(Tang等,2016)等方式檢測顯著性目標。雖然這些方法在顯著性檢測任務上取得了有競爭力的效果,但是對于挑戰性場景,仍然可能出現顯著目標檢測錯誤。原因有兩個:1)基于深度學習的顯著性檢測算法受限于RGB圖像的特征;2)基于RGB圖像的傳統算法存在許多先驗知識,如顯著性區域與其周圍環境存在高對比度、背景簡單、顯著性目標無遮擋、場景光源單一等,而實際上許多真實場景與這些先驗相悖,導致基于RGB圖像的傳統算法性能降低,如圖 1(Li等,2014)中基于全局對比度(global contrast,GC)的顯著性檢測算法(Cheng等,2015)和基于差別區域特征融合(discriminative regional feature integration,DRFI)的顯著性檢測算法(Jiang等,2013)都無法精準地從背景中分離顯著目標。
Poggio和Poggio(1984)表明RGB圖像不能完全表示人眼對世界的認識,因為RGB圖像忽略了人的雙目系統對場景深度的感知。深度信息能夠區分位于不同深度層的物體,減少背景干擾(Wolfe和Horowitz,2004)。因此,學者們開始利用雙目相機,如Kinect(Zhang,2012)獲取含有深度信息的RGB-D圖像,結合深度特征和RGB圖像中的特征來提高顯著性檢測的魯棒性(Lang等,2012;Peng等,2014)。然而,這類算法也存在兩方面問題:1)基于RGB-D圖像的顯著性檢測算法嚴重依賴深度圖的質量,當深度圖質量較差時,則無法為顯著性檢測提供有效信息;2)基于RGB-D圖像的顯著性檢測算法常常忽略深度和外觀之間的關聯,當顯著目標與背景有著相似的顏色和深度時,如圖 2(Piao等,2019a)所示,基于異性中心-周圍特征的深度顯著性檢測算法(anisotropic center-surround difference,ACSD)(Ju等,2014)也無法精準檢測顯著目標。
光場成像借助新的成像技術,能夠同時記錄光輻射在空間中的位置和方向信息(Adelson和Wang,1992),與RGB圖像和RGB-D圖像相比,光場數據包含了光的顏色、強度、位置和方向,更能反映自然場景的幾何和反射特性,已成功用于計算機視覺的許多任務,如材料識別(Wang等,2016)、深度估計(Tao等,2017;Williem等,2018;Jeon,2019)和顯著性檢測(Li等,2014;Zhang等,2015)等。其中,在顯著性檢測任務中,相比RGB圖像和RGB-D圖像,利用光場數據進行顯著性檢測有以下優勢:1)光場數據包含位置信息和角度信息,為獲得場景深度信息提供了多視角幾何信息;2)數字重聚焦技術(Ng等,2005)可以將光場數據合成一系列聚焦在不同深度層的焦點堆棧圖像,顯著目標個體通常處于同一深度面,利用這些焦點堆棧圖像的聚焦區域線索,能夠提供背景線索,更完整地檢測顯著目標;3)光場數據記錄不同方向的光線信息,可以從多個角度描述場景,提供了有效的顯著目標遮擋信息;4)從光場數據中能生成全聚焦圖像,全聚焦圖像中的每個像素都是清晰的,有更清楚的顏色、紋理等。從這些方面來看,光場數據可以為顯著性檢測提供更多信息以及解決檢測難題的途徑,有利于處理相似的前景和背景、顯著目標被部分遮擋、多個顯著目標等難點場景,如圖 1所示,相比基于RGB圖像的算法,光場顯著性檢測方法(light field saliency,LFS)(Li等,2014)更能應對復雜場景。
自Li等人(2014)利用光場數據進行顯著性檢測后,基于光場數據的顯著性檢測迅速發展,出現了很多基于光場數據的顯著性檢測算法(Zhang等,2015;Li等,2015b;Zhang等,2017;Wang等,2018b;Zhang等,2020),但是一直沒有完整的關于光場顯著性檢測進展的文獻綜述和詳細調查,目前,基于光場數據的顯著性檢測研究在該領域內仍然存在很大的進步空間,因此有必要進行全面綜述和討論。本文系統描述了基于光場數據的顯著性檢測研究進展和面臨的挑戰,希望能為進一步研究顯著性檢測提供幫助,并期待能啟發更多的創新型工作。
摘要:小目標檢測是針對圖像中像素占比少的目標,借助計算機視覺在圖像中找到并判斷該目標所屬類別的目標檢測技術。與目前應用較為成熟的大尺度、中尺度目標檢測不同,小目標自身存在著語義信息少、覆蓋面積小等先天不足,導致小目標的檢測效果并不理想,因此如何提高小目標的檢測效果依然是計算機視覺領域的一大難題。對近年來國內外小目標檢測領域研究成果進行了梳理,以小目標檢測技術為核心,首先對關于小目標的定義、檢測難點進行分析;隨后將能有效提高小目標檢測精度的方法進行分類匯總,并介紹了各種方法的應用與優缺點;最后對未來小目標檢測領域發展趨勢進行了預測與展望。
機器視覺是建立在計算機視覺理論工程化基礎上的一門學科,涉及到光學成像、視覺信息處理、人工智能以及機電一體化等相關技術。隨著我國制造業的轉型升級與相關研究的不斷深入,機器視覺技術憑借其精度高、實時性強、自動化與智能化程度高等優點,成為了提升機器人智能化的重要驅動力之一,并被廣泛應用于工業生產、農業以及軍事等各個領域。在廣泛查閱相關文獻之后,針對近十多年來機器視覺相關技術的發展與應用進行分析與總結,旨在為研究學者與工程應用人員提供參考。首先,總結了機器視覺技術的發展歷程、國內外的機器視覺發展現狀;其次,重點分析了機器視覺系統的核心組成部件、常用視覺處理算法以及當前主流的機器視覺工業軟件;然后,介紹了機器視覺技術在產品瑕疵檢測、智能視頻監控分析、自動駕駛與輔助駕駛與醫療影像診斷等四個典型領域的應用;最后分析了當前機器視覺技術所面臨的挑戰,并對其未來的發展趨勢進行了展望。希望為機器視覺技術的發展和應用推廣發揮積極作用。
目前諸多模式識別任務的識別精度獲得不斷提升,在一些任務上甚至超越了人的水平。單從識別精度的角度來看,模式識別似乎已經是一個被解決了的問題。然而,高精度的模式識別系統在實際應用中依舊會出現不穩定和不可靠的現象。因此,開放環境下的魯棒性成為制約模式識別技術發展的新瓶頸。實際上,在大部分模式識別模型和算法背后蘊含著三個基礎假設:封閉世界假設、獨立同分布假設、以及大數據假設。這三個假設直接或間接影響了模式識別系統的魯棒性,并且是造成機器智能和人類智能之間差異的主要原因。本文簡要論述如何通過打破三個基礎假設來提升模式識別系統的魯棒性。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。