傳統的多目標跟蹤和目標檢測是使用單獨的系統來完成的,而之前的大多數工作都只關注其中一個方面。跟蹤系統顯然能從精確的檢測中獲益,然而,文獻中有大量證據表明,檢測器可以從跟蹤中獲益,例如,跟蹤可以幫助平滑預測。在這篇論文中,我們關注的是自動駕駛的檢測跟蹤范式,其中兩個任務都是關鍵的任務。我們提出了一種概念簡單而有效的檢測和跟蹤聯合模型,稱為RetinaTrack,它改進了目前流行的單階段視網膜網方法,使其能夠適應實例級嵌入訓練。我們通過對Waymo開放數據集的評估表明,我們的性能優于最新的跟蹤算法,同時所需的計算量顯著減少。我們認為,我們簡單而有效的方法可以作為這一領域今后工作的有力基礎。
目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。
【導讀】無人機計算機視覺相關檢測和跟蹤( Vision Meets Drones)作為近年來的研究熱點之一,受到了廣泛關注,這兩年在各大會議上都有相關文章發表,并且也有一些競賽。當前,無人機收集的視覺數據的自動理解變得非常困難,并且其用途廣泛,天津大學的朱鵬飛博士、京東數字科技文瓏銀博士和紐約州立大學奧爾巴尼分校的獨大為博士等新出的這篇論文對近幾年基于無人機視覺檢測和跟蹤方法和數據集進行了全面綜述,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。作者也提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。對每一個track進行了詳細得說明,并強調VisDrone是迄今為止發布的最大的此類數據集,可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。
//github.com/VisDrone/VisDrone-Dataset
【摘要】配備了攝像頭的無人機,或稱通用無人機,已經被快速部署到廣泛的應用領域,包括農業、航空攝影、快速遞送和監控。因此,對無人機收集的視覺數據的自動理解變得非常困難,這使得計算機視覺和無人機之間的聯系越來越緊密。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們與歐洲計算機視覺大會(ECCV) 2018和IEEE計算機視覺國際會議(ICCV) 2019聯合舉辦了兩個挑戰研討會,吸引了全世界100多支團隊。我們提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。本文首先對目標檢測和跟蹤數據集和基準進行了全面的回顧,并討論了收集具有完全手動標注的大規模基于無人機的目標檢測和跟蹤數據集的挑戰。之后,我們描述了VisDrone數據集,該數據集是從中國北方到南方的14個不同城市的各個城市/郊區捕獲的。VisDrone是迄今為止發布的最大的此類數據集,它可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。我們詳細分析了無人機大尺度目標檢測與跟蹤領域的現狀,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。我們預計這一基準將極大地促進無人機平臺視頻分析的研發。可以從以下網站下載所有數據集和實驗結果:
參考鏈接:
引言
近年來,計算機視覺因其在交通監控、智慧城市、人機交互等領域的廣泛應用而受到越來越多的關注。作為計算機視覺的兩個基本問題,目標檢測和跟蹤一直受到廣泛的關注。在導致計算機視覺技術快速發展的眾多因素和努力中,值得注意的貢獻應歸功于眾多基準和挑戰的發明或組織, 如目標檢測的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目標跟蹤的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。
配備攝像頭的無人機已經被快速部署到廣泛的領域,包括農業、航空攝影、快速投遞和監視。因此,對從這些無人機收集的視覺數據的自動理解變得非常困難,這將計算機視覺越來越緊密地帶入了無人機。盡管一般的計算機視覺算法(如檢測和跟蹤)取得了很大的進步,但這些算法通常不是處理無人機捕獲的序列或圖像的最佳算法。這是由于各種各樣的挑戰,如較大的視點變化和規模。因此,為無人機捕獲的視覺數據開發和評估新的視覺算法至關重要。然而,正如[10]和[11]所指出的,由于缺乏公開的大規模基準或數據集,對這一目標的研究受到嚴重限制。最近,[10]、[11]和[12]致力于構建無人機捕獲的數據集,這些數據集主要用于目標檢測或跟蹤。由于數據收集和標注方面的困難,這些數據集的大小和涉及的場景仍然有限。對現有或新開發的算法進行徹底的評估仍然是一個開放的問題。為了進一步推進無人機平臺視頻分析研究,需要一個更通用、更全面的基準。
因此,作者與歐洲計算機視覺大會(ECCV) 2018和IEEE國際計算機視覺大會(ICCV) 2019聯合舉辦了兩次挑戰研討會,吸引了全世界100多個研究團隊。挑戰集中在目標檢測和跟蹤的四個track。
圖像目標檢測跟蹤(DET)。
視頻目標檢測跟蹤(VID)。
單目標跟蹤(SOT)。
多目標跟蹤(MOT)。
值得注意的是,在研討會挑戰中,本文提供了一個大型數據集,包含179個視頻中263個視頻片段; 10個視頻中的264幀畫面; 209張靜態圖像。數據由不同的無人機相機記錄,包括位置(取自中國14個不同的城市)、環境(城市和農村地區)、物體(如行人、車輛和自行車)和密度(稀疏和擁擠的場景)。作者選擇了10類在無人機應用中最受關注的目標,比如行人和汽車。作者共仔細標注了來自這些類別的超過250萬個目標實例的邊界框。此外,還提供了一些重要的屬性,包括場景的可見性、目標類別和遮擋,以提高數據使用率。表1列出了所提供的無人機數據集與其他相關基準數據集在目標檢測和跟蹤方面的詳細比較。
在這篇論文中,作者重點關注了2018年和2019年的VisDrone挑戰,以及挑戰的方法、結果和評估方案,希望這一挑戰能在很大程度上促進相關領域的研究和發展。