目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。
傳統的多目標跟蹤和目標檢測是使用單獨的系統來完成的,而之前的大多數工作都只關注其中一個方面。跟蹤系統顯然能從精確的檢測中獲益,然而,文獻中有大量證據表明,檢測器可以從跟蹤中獲益,例如,跟蹤可以幫助平滑預測。在這篇論文中,我們關注的是自動駕駛的檢測跟蹤范式,其中兩個任務都是關鍵的任務。我們提出了一種概念簡單而有效的檢測和跟蹤聯合模型,稱為RetinaTrack,它改進了目前流行的單階段視網膜網方法,使其能夠適應實例級嵌入訓練。我們通過對Waymo開放數據集的評估表明,我們的性能優于最新的跟蹤算法,同時所需的計算量顯著減少。我們認為,我們簡單而有效的方法可以作為這一領域今后工作的有力基礎。
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。