智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
多模態表示學習旨在縮小不同模態之間的異質性差距,在利用普遍存在的多模態數據方面起著不可或缺的作用。基于深度學習的多模態表示學習由于具有強大的多層次抽象表示能力,近年來受到了廣泛的關注。在本文中,我們提供了一個全面的深度多模態表示學習的綜述論文。為了便于討論如何縮小異質性差距,根據不同模態集成的底層結構,我們將深度多模態表示學習方法分為三種框架:聯合表示、協調表示和編解碼。此外,我們回顧了該領域的一些典型模型,從傳統模型到新開發的技術。本文強調在新開發的技術的關鍵問題,如encoder-decoder模型,生成對抗的網絡,和注意力機制學習的角度來看,多通道表示,我們所知,從來沒有審核之前,即使他們已經成為當代研究的主要焦點。對于每個框架或模型,我們將討論其基本結構、學習目標、應用場景、關鍵問題、優缺點,以使新研究者和有經驗的研究者都能從中受益。最后,提出了今后工作的一些重要方向。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。
概述
在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。
在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。
在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。
在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。
首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。
其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。
最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。
對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題,在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題,即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步,并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而,仍然有幾個挑戰影響自然圖像中的文本,導致現有的方法表現不佳,因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次,識別在自然圖像中檢測或識別文本存在的幾個挑戰,即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后,本文還提出了這一領域的潛在研究方向,以解決場景文本檢測和識別技術仍面臨的一些挑戰。
本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,并考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基于相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,并討論了今后的研究方向。
隨著高計算設備的發展,深度神經網絡(DNNs)近年來在人工智能(AI)領域得到了廣泛的應用。然而,之前的研究表明,DNN在經過策略性修改的樣本(稱為對抗性樣本)面前是脆弱的。這些樣本是由一些不易察覺的擾動產生的,但可以欺騙DNN做出錯誤的預測。受圖像DNNs中生成對抗性示例的流行啟發,近年來出現了針對文本應用的攻擊DNNs的研究工作。然而,現有的圖像擾動方法不能直接應用于文本,因為文本數據是離散的。在這篇文章中,我們回顧了針對這一差異的研究工作,并產生了關于DNN的電子對抗實例。我們對這些作品進行了全面的收集、選擇、總結、討論和分析,涵蓋了所有相關的信息,使文章自成一體。最后,在文獻回顧的基礎上,我們提出了進一步的討論和建議。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
論文題目: Deep Learning in Video Multi-Object Tracking: A Survey
論文摘要: 多目標跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOT數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。
多目標跟蹤(MOT)的問題在于在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益于深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全面的綜述。提出了MOT算法的四個主要步驟,并對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,并提出了一些可能的未來研究方向。
題目: Deep Learning in Video Multi-Object Tracking: A Survey
簡介: 多對象跟蹤(MOT)的問題在于遵循序列中不同對象(通常是視頻)的軌跡。 近年來,隨著深度學習的興起,提供解決此問題的算法得益于深度模型的表示能力。 本文對采用深度學習模型解決單攝像機視頻中的MOT任務的作品進行了全面的調查。 確定了MOT算法的四個主要步驟,并對這些階段的每個階段如何使用深度學習進行了深入的回顧。 還提供了對三個MOTChallenge數據集上提出的作品的完整實驗比較,確定了表現最好的方法之間的許多相似之處,并提出了一些可能的未來研究方向。