題目: Deep Learning in Video Multi-Object Tracking: A Survey
簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。
目標分割和目標跟蹤是計算機視覺領域的基礎研究領域。這兩個主題很難處理一些常見的挑戰,如遮擋、變形、運動模糊、縮放變化等。前者包含異構對象、交互對象、邊緣模糊性和形狀復雜性;后者在處理快速運動、不可見和實時處理方面存在困難。結合視頻目標分割和跟蹤兩個問題,可以克服各自的困難,提高視頻目標的性能。VOST可廣泛應用于視頻摘要、高清視頻壓縮、人機交互、無人駕駛汽車等實際應用中。本綜述旨在提供最先進的VOST方法的全面回顧,將這些方法分類為不同的類別,并確定新的趨勢。首先,我們將VOST方法大致分為視頻對象分割(VOS)和基于分割的對象跟蹤(SOT)。根據分割和跟蹤機制,將每個類別進一步劃分為不同的類型。在此基礎上,給出了各時間節點的代表性VOS和SOT方法。其次,對不同方法的技術特點進行了詳細的討論和概述。第三,總結了相關視頻數據集的特點,并給出了各種評價指標。最后,我們指出了一系列有趣的工作,并得出了自己的結論。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
題目: Deep Learning for Visual Tracking: A Comprehensive Survey
簡介: 視覺目標跟蹤是計算機視覺領域中最受關注和最具挑戰性的研究課題之一。考慮到這個問題的不適定性質及其在現實世界中廣泛應用的情況,已經建立了大量的大型基準數據集,在這些數據集上已經開發了相當多的方法,并在近年來取得了顯著進展——主要是最近基于深度學習(DL)的方法。這項綜述的目的是系統地調查當前基于深度學習的視覺跟蹤方法、基準數據集和評估指標。它也廣泛地評價和分析領先的視覺跟蹤方法。首先,從網絡體系結構、網絡利用、視覺跟蹤網絡訓練、網絡目標、網絡輸出、相關濾波優勢利用六個關鍵方面,總結了基于dll的方法的基本特征、主要動機和貢獻。其次,比較了常用的視覺跟蹤基準及其各自的性能,總結了它們的評價指標。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基準上,全面檢查最先進的基于dll的方法。最后,通過對這些最先進的方法進行定量和定性的批判性分析,研究它們在各種常見場景下的優缺點。它可以作為一個溫和的使用指南,讓從業者在什么時候、在什么條件下選擇哪種方法。它還促進了對正在進行的問題的討論,并為有希望的研究方向帶來光明。
論文題目: Spatio-temporal Action Recognition: A Survey
論文摘要: 動作識別或動作檢測的任務包括分析視頻并確定正在執行的動作或動作。這些視頻的主要主題是人類表演一些動作。然而,這一要求可以放寬,以推廣到其他學科,如動物或機器人。應用范圍從人機交互到自動視頻編輯方案。當我們考慮時空動作識別時,我們處理的是動作定位。此任務不僅涉及確定正在執行的操作,而且還涉及在所述視頻中執行操作的時間和位置。本文旨在綜述解決這一問題的各種方法和算法,對它們進行全面的比較,探索可用于解決這一問題的各種數據集,并確定最有希望的方法。
論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。
題目: Understanding Deep Learning Techniques for Image Segmentation
簡介: 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡(例如卷積神經網絡,遞歸網絡,對抗網絡,自動編碼器等)有效地解決了許多具有挑戰性的計算機視覺任務,例如在不受限制的環境中對對象進行檢測,定位,識別和分割。盡管有很多關于對象檢測或識別領域的分析研究,但相對于圖像分割技術,出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始,本文進一步描述了深度學習對圖像分割域的影響。此后,大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。