論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
目標分割和目標跟蹤是計算機視覺領域的基礎研究領域。這兩個主題很難處理一些常見的挑戰,如遮擋、變形、運動模糊、縮放變化等。前者包含異構對象、交互對象、邊緣模糊性和形狀復雜性;后者在處理快速運動、不可見和實時處理方面存在困難。結合視頻目標分割和跟蹤兩個問題,可以克服各自的困難,提高視頻目標的性能。VOST可廣泛應用于視頻摘要、高清視頻壓縮、人機交互、無人駕駛汽車等實際應用中。本綜述旨在提供最先進的VOST方法的全面回顧,將這些方法分類為不同的類別,并確定新的趨勢。首先,我們將VOST方法大致分為視頻對象分割(VOS)和基于分割的對象跟蹤(SOT)。根據分割和跟蹤機制,將每個類別進一步劃分為不同的類型。在此基礎上,給出了各時間節點的代表性VOS和SOT方法。其次,對不同方法的技術特點進行了詳細的討論和概述。第三,總結了相關視頻數據集的特點,并給出了各種評價指標。最后,我們指出了一系列有趣的工作,并得出了自己的結論。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。
在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。
題目: Deep Learning for Visual Tracking: A Comprehensive Survey
簡介: 視覺目標跟蹤是計算機視覺領域中最受關注和最具挑戰性的研究課題之一。考慮到這個問題的不適定性質及其在現實世界中廣泛應用的情況,已經建立了大量的大型基準數據集,在這些數據集上已經開發了相當多的方法,并在近年來取得了顯著進展——主要是最近基于深度學習(DL)的方法。這項綜述的目的是系統地調查當前基于深度學習的視覺跟蹤方法、基準數據集和評估指標。它也廣泛地評價和分析領先的視覺跟蹤方法。首先,從網絡體系結構、網絡利用、視覺跟蹤網絡訓練、網絡目標、網絡輸出、相關濾波優勢利用六個關鍵方面,總結了基于dll的方法的基本特征、主要動機和貢獻。其次,比較了常用的視覺跟蹤基準及其各自的性能,總結了它們的評價指標。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基準上,全面檢查最先進的基于dll的方法。最后,通過對這些最先進的方法進行定量和定性的批判性分析,研究它們在各種常見場景下的優缺點。它可以作為一個溫和的使用指南,讓從業者在什么時候、在什么條件下選擇哪種方法。它還促進了對正在進行的問題的討論,并為有希望的研究方向帶來光明。
論文題目: Salient Object Detection in the Deep Learning Era: An In-Depth Survey
論文摘要: 作為計算機視覺中的一個重要問題,圖像中的顯著目標檢測(SOD)近年來得到了越來越多的研究。最近在超氧化物歧化酶方面的進展主要是基于深度學習的解決方案(稱為深超氧化物歧化酶)。為了便于深入理解深層SODs,本文提供了一個全面的綜述,涵蓋了從算法分類到未解決的開放問題的各個方面。特別是,我們首先從網絡結構、監控級別、學習范式和對象/實例級別檢測等不同角度對深度超氧化物歧化酶算法進行了綜述。在此基礎上,總結了現有的SOD評價數據集和指標體系。然后,在前人工作的基礎上,認真編寫了一個完整的SOD方法的基準測試結果,并對對比結果進行了詳細的分析。另外,通過構造一個新的具有豐富屬性標注的SOD數據集,研究了不同屬性下的SOD算法的性能,這在以前的研究中是很少的。我們首次在現場進一步分析了deep-SOD模型的魯棒性和可轉移性。我們還研究了輸入擾動的影響,以及現有SOD數據集的通用性和硬度。最后,討論了超氧化物歧化酶存在的問題和挑戰,并指出了未來可能的研究方向。
論文主題: Recent Advances in Deep Learning for Object Detection
論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。
題目: Deep Learning in Video Multi-Object Tracking: A Survey
簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
The problem of Multiple Object Tracking (MOT) consists in following the trajectory of different objects in a sequence, usually a video. In recent years, with the rise of Deep Learning, the algorithms that provide a solution to this problem have benefited from the representational power of deep models. This paper provides a comprehensive survey on works that employ Deep Learning models to solve the task of MOT on single-camera videos. Four main steps in MOT algorithms are identified, and an in-depth review of how Deep Learning was employed in each one of these stages is presented. A complete experimental comparison of the presented works on the three MOTChallenge datasets is also provided, identifying a number of similarities among the top-performing methods and presenting some possible future research directions.