視覺目標檢測(Object Detection)作為近年來的研究熱點之一,受到了廣泛關注,每年在計算機視覺三大會議(ICCV, CVPR, ECCV)上大量相關文章發表。遙感圖像中的物體檢測越來越受到重視,但是目前對遙感圖像中目標檢測的數據集和基于深度學習的方法的綜述還不夠完善。近期,西北工業大學Gong Cheng (程塨)教授等人發布了《Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark》這篇綜述,概括了近年來計算機視覺和遙感觀測領域基于深度學習的目標檢測研究進展。然后,也提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,將其命名為DIOR(近期會Open)。數據集包含23463張圖像和190288個實例,覆蓋20個目標象類,評估了DIOR數據集上幾種最先進的方法,為未來的研究奠定了基礎。
Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark
【摘要】最近研究者們已作出大量努力,提出光學遙感圖像中的各種目標檢測方法。然而,目前對光學遙感圖像中目標檢測的數據集和基于深度學習的方法的綜述還不夠完善。此外,現有的數據集大多存在一些不足之處,如圖像和目標類別數量較少,圖像多樣性和變異性不足。這些局限性極大地影響了基于深度學習的目標檢測方法的發展。本文綜述了近年來計算機視覺和地球觀測領域基于深度學習的目標檢測研究進展。然后,我們提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,我們將其命名為DIOR。數據集包含23463張圖像和190288個實例,覆蓋20個目標象類。我們提出的DIOR數據集1)在目標類別、目標實例數量和總圖像數量上都是大規模的; 2)具有大范圍的目標尺度變化,不僅在空間分辨率方面,而且在跨目標的類間和類內尺度變化方面; 3)由于成像條件、天氣、季節、成像質量的不同,成像結果差異較大; 4)具有較高的類間相似性和類內多樣性。我們提出的基準可以幫助研究人員開發和驗證他們的數據驅動方法。最后,我們評估了DIOR數據集上幾種最先進的方法,為未來的研究奠定了基礎。
準確地估計一幅圖像中物體的數量是一項具有挑戰性而又有意義的工作,并已在城市規劃和公共安全等諸多領域得到了應用。在各種對象計數任務中,人群計數因其對社會保障和發展的特殊意義而顯得尤為突出。幸運的是,人群計數技術的發展可以推廣到其他相關領域,如車輛計數和環境調查,如果不考慮他們的特點。因此,許多研究者致力于人群計數,涌現出許多優秀成果。在這些工作中,它們對人群計數的發展一定是有幫助的。然而,我們應該考慮的問題是,為什么它們對這項任務是有效的。由于時間和精力的限制,我們無法分析所有的算法。在本文中,我們調查了220+工作,對人群計數模型進行了全面、系統的研究,主要是基于CNN的密度圖估計方法。最后,根據評價指標,我們在人群統計數據集中選取了表現最好的前三名,并對其優缺點進行了分析。通過我們的分析,我們希望對人群計數的未來發展做出合理的推斷和預測,同時也可以為其他領域的對象計數問題提供可行的解決方案。我們提供了NWPU數據集驗證集中一些主流算法的密度圖和預測結果,以供比較和測試。同時,還提供了密度圖生成和評價工具。所有的代碼和評估結果在//github.com/guangshuai/survey-forcrowd -counting上公開。
概述
在過去的幾十年里,越來越多的研究社區將物體計數問題作為主要的研究方向,因此,許多作品被發表來計算圖像或視頻中物體的數量,這些作品跨越了各種各樣的領域,如人群計數,細胞顯微,樹葉,環境調查。在所有這些領域中,人群計數是至關重要的,在一些人群場景中,如人群分析和視頻監控中,人群計數對于構建更高層次的認知能力至關重要。隨著世界人口的不斷增長和隨之而來的城市化,在許多場合,如游行、音樂會和體育場,人群迅速聚集。在這些場景中,人群計數對于社會安全和控制管理起著不可或缺的作用。
考慮到上述人群計數的特殊重要性,越來越多的研究人員嘗試設計各種復雜的項目來解決人群計數的問題。特別是在過去的五年中,隨著深度學習的出現,基于卷積神經網絡(CNNs)的模型在各種計算機視覺任務中占據了壓倒性的主導地位,包括人群計數。雖然不同的任務有其獨特的屬性,但也存在共同的特征,如結構特征和分布模式。幸運的是,人群計數技術可以通過特定的工具擴展到其他領域。因此,本文希望通過對人群計數任務的深度挖掘,特別是基于CNN的密度估計和人群計數模型,為其他任務提供合理的解決方案。我們的調查旨在涉及各個部分,從一些有趣的尚未探索的研究方向的算法分類。除了對現有的基于CNN的人群計數和密度估計模型、代表數據集和評價指標進行分類審查外,還研究了一些在很大程度上影響設計模型性能的因素和屬性,如干擾因素和陰性樣本。我們在NWPU數據集的驗證集[wang2020nwpu]中提供了一些主流算法的密度圖和預測結果進行對比和測試。同時,還提供了密度圖生成和評價工具。所有的代碼和評估結果在 -counting上公開。
本文貢獻:
全面、系統地從各個方面進行綜述。我們根據網絡結構、監督形式、學習范式等幾個分類對基于cnn的模型進行了分類。分類可以通過對基于cnn的方法的關鍵技術的深入了解來激勵研究。
基于屬性的性能分析。在分析SOTA方法性能的基礎上,分析了SOTA方法性能良好的原因和使用的技術。此外,我們還討論了促使研究人員設計更有效算法的各種挑戰因素。
開放的問題和未來的方向。通過對模型設計、數據集收集和一些具有領域自適應或遷移學習的其他領域的推廣等重要問題的研究,探索了未來一些有前景的研究方向。
【導讀】無人機計算機視覺相關檢測和跟蹤( Vision Meets Drones)作為近年來的研究熱點之一,受到了廣泛關注,這兩年在各大會議上都有相關文章發表,并且也有一些競賽。當前,無人機收集的視覺數據的自動理解變得非常困難,并且其用途廣泛,天津大學的朱鵬飛博士、京東數字科技文瓏銀博士和紐約州立大學奧爾巴尼分校的獨大為博士等新出的這篇論文對近幾年基于無人機視覺檢測和跟蹤方法和數據集進行了全面綜述,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。作者也提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。對每一個track進行了詳細得說明,并強調VisDrone是迄今為止發布的最大的此類數據集,可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。
//github.com/VisDrone/VisDrone-Dataset
【摘要】配備了攝像頭的無人機,或稱通用無人機,已經被快速部署到廣泛的應用領域,包括農業、航空攝影、快速遞送和監控。因此,對無人機收集的視覺數據的自動理解變得非常困難,這使得計算機視覺和無人機之間的聯系越來越緊密。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們與歐洲計算機視覺大會(ECCV) 2018和IEEE計算機視覺國際會議(ICCV) 2019聯合舉辦了兩個挑戰研討會,吸引了全世界100多支團隊。我們提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。本文首先對目標檢測和跟蹤數據集和基準進行了全面的回顧,并討論了收集具有完全手動標注的大規模基于無人機的目標檢測和跟蹤數據集的挑戰。之后,我們描述了VisDrone數據集,該數據集是從中國北方到南方的14個不同城市的各個城市/郊區捕獲的。VisDrone是迄今為止發布的最大的此類數據集,它可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。我們詳細分析了無人機大尺度目標檢測與跟蹤領域的現狀,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。我們預計這一基準將極大地促進無人機平臺視頻分析的研發。可以從以下網站下載所有數據集和實驗結果:
參考鏈接:
引言
近年來,計算機視覺因其在交通監控、智慧城市、人機交互等領域的廣泛應用而受到越來越多的關注。作為計算機視覺的兩個基本問題,目標檢測和跟蹤一直受到廣泛的關注。在導致計算機視覺技術快速發展的眾多因素和努力中,值得注意的貢獻應歸功于眾多基準和挑戰的發明或組織, 如目標檢測的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目標跟蹤的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。
配備攝像頭的無人機已經被快速部署到廣泛的領域,包括農業、航空攝影、快速投遞和監視。因此,對從這些無人機收集的視覺數據的自動理解變得非常困難,這將計算機視覺越來越緊密地帶入了無人機。盡管一般的計算機視覺算法(如檢測和跟蹤)取得了很大的進步,但這些算法通常不是處理無人機捕獲的序列或圖像的最佳算法。這是由于各種各樣的挑戰,如較大的視點變化和規模。因此,為無人機捕獲的視覺數據開發和評估新的視覺算法至關重要。然而,正如[10]和[11]所指出的,由于缺乏公開的大規模基準或數據集,對這一目標的研究受到嚴重限制。最近,[10]、[11]和[12]致力于構建無人機捕獲的數據集,這些數據集主要用于目標檢測或跟蹤。由于數據收集和標注方面的困難,這些數據集的大小和涉及的場景仍然有限。對現有或新開發的算法進行徹底的評估仍然是一個開放的問題。為了進一步推進無人機平臺視頻分析研究,需要一個更通用、更全面的基準。
因此,作者與歐洲計算機視覺大會(ECCV) 2018和IEEE國際計算機視覺大會(ICCV) 2019聯合舉辦了兩次挑戰研討會,吸引了全世界100多個研究團隊。挑戰集中在目標檢測和跟蹤的四個track。
圖像目標檢測跟蹤(DET)。
視頻目標檢測跟蹤(VID)。
單目標跟蹤(SOT)。
多目標跟蹤(MOT)。
值得注意的是,在研討會挑戰中,本文提供了一個大型數據集,包含179個視頻中263個視頻片段; 10個視頻中的264幀畫面; 209張靜態圖像。數據由不同的無人機相機記錄,包括位置(取自中國14個不同的城市)、環境(城市和農村地區)、物體(如行人、車輛和自行車)和密度(稀疏和擁擠的場景)。作者選擇了10類在無人機應用中最受關注的目標,比如行人和汽車。作者共仔細標注了來自這些類別的超過250萬個目標實例的邊界框。此外,還提供了一些重要的屬性,包括場景的可見性、目標類別和遮擋,以提高數據使用率。表1列出了所提供的無人機數據集與其他相關基準數據集在目標檢測和跟蹤方面的詳細比較。
在這篇論文中,作者重點關注了2018年和2019年的VisDrone挑戰,以及挑戰的方法、結果和評估方案,希望這一挑戰能在很大程度上促進相關領域的研究和發展。
【導讀】隨著近幾年來AI技術的飛速發展,人們將計算機視覺技術應用于自動駕駛,使得自動駕駛的應用變得可行,很大程度地推進了自動駕駛技術的發展。本文介紹一篇關于自動駕駛計算機視覺的全面綜述,覆蓋了該領域相關的問題、數據集和最先進的技術。
近幾年來,我們目睹了AI相關領域取得的巨大的進步,如計算機視覺、機器學習、自動駕駛等。隨著這些領域的飛速發展,初學者很難了解領域最新的進展。在自動駕駛計算機視覺領域,盡管出現了一些關于特定子問題的綜述,但尚未發布關于問題、數據集和方法的全面和綜合的綜述。
綜述《Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art》試圖通過提供對目前最先進的相關技術和數據集的調研來縮小人們對該領域的認知鴻溝。綜述既包括了已有的最相關的文獻,也包含了一些特殊主題目前最先進的成果,如識別、重建、運動估計、跟蹤、場景理解和自動駕駛端到端學習。綜述還包含了對最先進技術在KITTI、MOT和Cityscapes等幾個具有挑戰性的基準數據集上的性能的分析。
另外,該綜述還討論了一些開放問題和目前的研究挑戰。綜述還提供了一個網站,方便人們訪問相關的主題,以及提供額外的信息。
綜述首先提供了自動駕駛的簡要歷史,然后介紹了相機模型和校準技術。接著,綜述介紹了與自動駕駛相關的數據集(重點關注與感知相關的數據集)、相關的感知任務和最新的解決方法。尤其是,綜述回顧了目標檢測、目標跟蹤、語義(實體)分割、重建、運動估計和場景理解。每個章節包含了問題定義、重要方法和主要設計選擇、頂尖技術在流行數據集上的定性和定量分析以及關于領域最先進技術的討論。最終,綜述提供了關于最先進端到端自動駕駛模型的概覽。
綜述的目錄大致如下:
密歇根大學Zhengxia Zou博士等人近期發布了《Object Detection in 20 Years: A Survey》,這篇綜述論文對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧,涵蓋了許多主題,包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用,并對其面臨的挑戰以及近年來的技術進步進行了深入分析。
目標檢測作為計算機視覺中最基本、最具挑戰性的問題之一,近年來受到了廣泛的關注。它在過去二十年的發展可以說是計算機視覺歷史的縮影。如果我們把今天的目標檢測看作是深度學習力量下的一種技術美學,那么讓時光倒流20年,我們將見證冷兵器時代的智慧。本文從目標檢測技術發展的角度,對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧。本文涵蓋了許多主題,包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用,并對其面臨的挑戰以及近年來的技術進步進行了深入分析。