隨著網絡視頻采集設備和應用的廣泛發展,如何高效地為用戶提供所需的視頻內容提出了更高的要求。視頻摘要通過創建一個緊湊的視頻摘要,方便快速掌握視頻內容。很多人致力于視頻自動摘要,并提出了各種問題設置和方法。我們的目標是提供這個領域的概述。本綜述涵蓋了利用深度學習技術的早期研究以及最近的方法。我們描述了視頻摘要方法及其基本概念。我們還討論了基準和評估。我們概述了以前的工作如何處理評估,并詳細介紹了評估協議的優點和缺點。最后,我們將討論該領域的開放挑戰。
互聯網的廣泛使用和價格低廉的視頻捕獲設備極大地改變了視頻創作和消費的格局。特別是,隨著視頻流媒體服務和社交網絡的發展,用戶創建的視頻比以往任何時候都更加流行。視頻創作的快速增長需要先進的技術,以實現所需視頻內容的高效消費。這些場景包括提高視頻流服務觀眾的用戶體驗,為需要瀏覽大量視頻的視頻創作者和需要監控監控視頻的安全團隊提供快速視頻瀏覽功能。
視頻摘要通過創建一個緊湊的視頻摘要,方便快速掌握視頻內容。實現視頻摘要的一種簡單的方法是提高播放速度或以統一的間隔對短片段進行采樣。然而,前者會降低音頻質量并扭曲運動(Benaim et al., 2020),而后者可能由于方法的隨機采樣性質而錯過重要內容。與這些簡單的解決方案不同,視頻摘要的目的是提取觀眾想要的信息,以便更有效地瀏覽視頻。
根據不同的應用場景,視頻摘要的目的有很大的不同。對于體育比賽,觀眾希望看到對比賽結果至關重要的時刻,而對于監控,視頻摘要需要包含不尋常和值得注意的場景。隨著越來越多的視頻被創造出來,應用場景也在增長,例如,我們開始看到新的視頻類型,如視頻游戲直播和視頻博客(vlog)。這就導致了視頻摘要的新問題,因為不同類型的視頻具有不同的特點,觀眾對摘要有不同的要求。這種多樣化的應用刺激了該領域的異質研究。視頻摘要解決兩個主要問題:“一個理想的視頻摘要的本質是什么”和“我們如何為視頻內容建模”。答案取決于應用場景。雖然對于大多數應用程序場景,這些仍然是未解決的問題,但文獻中已經提出了許多有前途的想法。早期的工作對視頻摘要的需求做了各種假設,例如獨特性(較少冗余)、多樣性和趣味性。一些作品專注于制作與用戶意圖相關、涉及用戶交互的視頻摘要。最近的研究更多地關注于數據驅動方法,即從帶注釋的數據集學習所需的視頻摘要。
視頻內容的計算建模也是視頻摘要的一個重要挑戰。從低層次特征開始,應用了各種特征表示,如人臉識別和視覺顯著性。近年來,主要采用深度神經網絡的特征提取方法。一些應用程序進一步利用輔助信息,如紀錄片視頻的字幕,體育視頻的游戲日志,以及用可穿戴攝像頭捕捉的以自我為中心的視頻的腦電波。本綜述的目的是對視頻摘要文獻提供一個全面的概述。我們回顧了各種視頻摘要方法,并比較了它們的基本概念和假設。我們從提出了視頻摘要的開創性概念的早期工作開始,還介紹了利用端到端深度學習的最新數據驅動方法。通過對不同研究的應用場景和使用的技術進行分類,我們旨在幫助研究人員和實踐者建立針對不同目的和應用場景的視頻摘要系統。我們還回顧了現有的基準和評估協議,并討論了評估視頻摘要的關鍵挑戰,由于難以獲得地面真相摘要,這是不直接的。我們概述了以前的工作是如何解決圍繞評估的挑戰的,并討論了現有評估協議的優點和缺點。最后,我們討論這個領域的開放挑戰。
摘要
視頻分割,即將視頻幀分割成多個片段或對象,在電影的視覺效果輔助、自動駕駛中的場景理解、視頻會議中的虛擬背景創建等廣泛的實際應用中起著至關重要的作用。最近,由于計算機視覺中的連接主義的復興,出現了大量基于深度學習的方法,這些方法致力于視頻分割,并提供了引人注目的性能。本文通過對視頻中未知類別的一般目標分割和視頻語義分割這兩項研究的任務設置、背景概念、感知需求、發展歷史和主要挑戰的介紹,全面回顧了這兩項研究的基本方向。我們還提供了一個詳細的概述的代表性文獻的方法和數據集。此外,我們在基準數據集上提出了評測方法的量化性能比較。最后,指出了該領域尚未解決的問題,并提出了進一步研究的機會。
引言
視頻分割是機器視覺中一個基本的、具有挑戰性的問題,它是識別視頻場景中具有特定特征屬性或語義值的目標集。由于其在廣泛應用領域(如自動駕駛、機器人技術、自動監控、社交媒體、增強現實、電影產業、視頻會議等)中的重要作用,它長期以來一直受到計算機視覺和圖形界的廣泛關注和積極研究。
視頻分割在過去已經被用來解決各種傳統的計算機視覺和機器學習技術,包括手工特征(例如,顏色,直方圖統計,光流等),啟發式先驗知識(例如,視覺注意力機制[1],運動邊界[2]等),低/中級視覺表示(例如,超級體素[3]、軌跡[4]、對象proposal [5]等),以及經典的機器學習模型(如聚類算法[6]、圖模型[7]、隨機漫步[8]、支持向量機[9]、隨機決策森林[10]、馬爾可夫隨機場[11]、條件隨機場[12]等)。近年來,隨著深度神經網絡的蓬勃發展,特別是全卷積網絡(FCN)[13]的發展,視頻分割取得了顯著的進展。這些基于深度學習的視頻分割算法在準確性和有時甚至效率方面大大超過了其他老方法,并繼續提高技術水平。
隨著這一領域的快速發展,出現了大量的新文獻。然而,現有的綜述大多是過時的(發表在現代深度學習時代之前)[14]、[15],而且往往視野狹窄,即只關注前/背景視頻分割[16]、[17]。該領域的不斷變化和技術發展的快節奏給啟動帶來了困難。因此,由于視頻分割設置的多樣性和概念的模糊性,進行全面深入的綜述是非常困難和費時的,但非常有必要和幫助。
為此,我們首先系統地介紹了視頻分割的最新進展,從任務制定到分類,從算法到數據集,從尚未解決的問題到未來的研究方向。它涵蓋了幾個關鍵方面,包括任務類別(前景/背景分離vs語義分割),處理模式(即自動、半自動和交互式),學習范式(即監督、無監督和弱監督),以及澄清混淆的術語(如背景減法、運動分割,等等)。我們希望這項綜述可以為感興趣的研究者提供一個全面的回顧,并促進對提出的開放問題的研究。
本文主要研究了視頻分割的兩個主要分支,即視頻對象分割(圖1(a-e))和視頻語義分割(圖1(f-h))的最新進展,并進一步劃分為八個子領域。雖然我們將重點局限于基于深度學習的視頻分割解決方案,但在這個快速發展的領域仍有數百篇論文發表,因此不太可能(幸運的是,也沒有必要)對它們全部進行調研。相反,我們選擇在著名期刊和會議上發表的有影響力的論文。因此,我們將引入一些非深度學習的視頻分割模型和其他領域的相關文獻,如視頻對象檢測和視覺跟蹤,以提供必要的背景。
本文的研究進展如下。§2給出了分類學、術語、研究歷史和相關研究領域的簡要背景。§3和§4分別回顧了深度學習算法和視頻分割數據集方面的代表性工作。§5進行性能評估和分析。此外,§6指出了一系列開放式問題和方向。最后,在§7中給出了結論。
引言
深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。
//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。
我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。
人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.
在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。
近年來,從社交媒體平臺、醫學圖像和機器人等各個領域產生和分享了大量的視覺內容。大量的內容創造和分享帶來了新的挑戰。特別是,對相似內容的數據庫進行搜索,即基于內容的圖像檢索(CBIR),是一個長期存在的研究領域,需要更有效和準確的方法來實現實時檢索。人工智能在CBIR方面取得了很大進展,極大地促進了智能搜索的進程。在本綜述論文中,我們組織和回顧了基于深度學習算法和技術的CBIR研究,包括來自近期論文的見解和技術。我們識別并呈現了該領域常用的數據庫、基準和評估方法。我們收集共同的挑戰,并提出有希望的未來方向。更具體地說,我們關注深度學習的圖像檢索,并根據深度網絡結構的類型、深度特征、特征增強方法和網絡微調策略來組織目前最先進的方法。我們的綜述論文查考慮了各種各樣的最新方法,旨在促進基于類別的信息檢索領域的全部視角。
//www.zhuanzhi.ai/paper/01b0e04eb5d1eeb53be30aa761b7cd12
基于內容的圖像檢索(CBIR)是通過分析大型圖庫中的可視內容來搜索語義匹配或相似圖像的問題,給定描述用戶需求的查詢圖像,如圖1(a)所示。CBIR是計算機視覺和多媒體領域長期存在的研究課題[1,2]。隨著當前圖像和視頻數據的指數級增長,迫切需要開發一種合適的信息系統來有效地管理這樣的大型圖像集合,圖像搜索是與可視化集合交互的最不可或缺的技術之一。因此,CBIR的應用潛力幾乎是無限的,如人員再識別[3]、遙感[4]、醫學圖像搜索[5]、在線市場購物推薦[6]等。
CBIR可以大致分為實例級檢索和類別級檢索,如圖1(b)所示。在實例級圖像檢索中,給定一個特定對象或場景(如埃菲爾鐵塔)的查詢圖像,目標是找到包含相同對象或場景的圖像,這些圖像可能在不同的視點、光照條件或受遮擋情況下捕獲[7,8]。相反,對于類別級別的圖像檢索,目標是找到與查詢相同類的圖像(例如,狗、汽車等)。實例級檢索更有挑戰性,也更有前景,因為它滿足許多應用程序的特定目標。請注意,我們將本文的重點限制在實例級的圖像檢索上,如果沒有進一步指定,則認為“圖像檢索”和“實例檢索”是等價的,可以互換使用。
要找到想要的圖像,可能需要在數千張、數百萬張甚至數十億張圖像中搜索。因此,高效搜索與準確搜索同等重要,并為此不斷付出努力[7,8,9,10,11]。為了實現對海量圖像的準確高效檢索,緊湊而豐富的特征表示是CBIR的核心。
近二十年來,圖像特征表示取得了顯著進展,主要包括兩個重要階段: 特征工程和特征學習(特別是深度學習)。在特征工程時代(即前深度學習時代),該領域被具有里程碑意義的手工工程特征描述符所主導,如尺度不變特征變換(SIFT)[19]。特征學習階段,即自2012年開始的深度學習時代,從人工神經網絡開始,特別是ImageNet和深度卷積神經網絡(DCNN) AlexNet[20]的突破。從那以后,深度學習技術影響了廣泛的研究領域,因為DCNNs可以直接從數據中學習具有多層抽象的強大特征表示,繞過了傳統特征工程中的多個步驟。深度學習技術引起了人們的極大關注,并在許多計算機視覺任務中取得了長足的突破,包括圖像分類[20,21,22]、目標檢測[23]、語義分割[24]、圖像檢索[10,13,14]。
[1, 2, 8]對傳統圖像檢索方法進行了優秀的研究。相比之下,本文側重于基于深度學習的方法,我們的工作與其他發表的綜述[8,14,15,16]比較如表1所示。圖像檢索的深度學習包含了如圖2所示的關鍵階段,為了提高檢索的準確性和效率,已經提出了針對一個或多個階段的多種方法。在本綜述中,我們對這些方法進行了全面的詳細介紹,包括深度網絡的結構、特征融合、特征增強方法和網絡微調策略,動機是以下問題一直在推動這一領域的研究:
1)通過只使用現成的模型,深度特征如何勝過手工制作特征?
2)在跨訓練數據集的領域遷移的情況下,我們如何適應現成的模型來維持甚至提高檢索性能?
3)由于深度特征通常是高維的,我們如何有效地利用它們進行高效的圖像檢索,特別是針對大規模數據集?
在基于AlexNet[20]的圖像檢索實現非常成功之后,對檢索任務的DCNNs進行了重要的探索,大致沿循了上述三個問題。也就是說,DCNN方法被分為(1)現成的模型和(2)經過微調的模型,如圖3所示,并并行處理(3)有效的特征。DCNN是現成的還是微調的,取決于DCNN的參數是[25]更新還是基于參數固定的DCNN[25,26,27]。對于特征圖,研究人員提出了R-MAC[28]、CroW[10]、SPoC[7]等編碼和聚合方法。
最近在改進圖像檢索方面的進展可以分為網絡級和特征級兩類,圖4給出了詳細的分類。這項綜述大致包括以下四個范疇:
(1) 網絡架構的改進 (第2節)
利用堆疊線性濾波器(如卷積)和非線性激活函數(ReLU等),不同深度的深度網絡獲得不同層次的特征。層次越深的網絡能夠提供更強大的學習能力,從而提取高層次的抽象和語義感知特征[21,46]。并行地連接多尺度特性是可能的,例如GoogLeNet [47]中的Inception模塊,我們將其稱為“擴展”。
(2) 深度特征提取(3.1節)
FC層和卷積層的神經元具有不同的接受域,這提供了三種提取特征的方法:卷積層的局部特征[7,59],FC層的全局特征[32,60],以及兩種特征的融合[61,62],融合方案包括層級和模型級方法。深度特征可以從整幅圖像中提取,也可以從圖像小塊中提取,分別對應于單通道和多通道的前饋方案。
(3) 深度特征增強
通過特征增強來提高深度特征的判別能力。直接使用深度網絡[17]同時訓練聚合特征;另外,特征嵌入方法包括BoW[63]、VLAD[64]和FV[65]將局部特征嵌入到全局特征中。這些方法分別使用深度網絡(基于codebook)或聯合(無codebook)進行訓練。另外,采用哈希方法[18]將實值特征編碼為二進制碼,提高檢索效率。特征增強策略會顯著影響圖像檢索的效率。
(4) 學習表示的網絡微調(第4節)
在源數據集上預先訓練的用于圖像分類的深度網絡被轉移到新的數據集上進行檢索任務。然而,檢索性能受到數據集之間的域轉移的影響。因此,有必要對深度網絡進行微調到特定的領域[34,56,66],這可以通過有監督的微調方法來實現。然而,在大多數情況下,圖像標記或標注是耗時和困難的,因此有必要開發無監督的方法進行網絡微調。
本文綜述了近年來用于圖像檢索的深度學習方法的研究進展,并根據深度網絡的參數更新,將其分為現成的深度圖像檢索模型和微調模型。
在本章中,我們將關注更復雜的編碼器模型。我們將介紹圖神經網絡(GNN)的形式,它是定義圖數據上的深度神經網絡的一般框架。關鍵思想是,我們想要生成實際上依賴于圖結構的節點的表示,以及我們可能擁有的任何特征信息。在開發復雜的圖結構數據編碼器的主要挑戰是,我們通常的深度學習工具箱不適用。例如,卷積神經網絡(CNNs)只在網格結構的輸入(如圖像)上定義良好,而遞歸神經網絡(RNNs)只在序列(如文本)上定義良好。要在一般圖上定義深度神經網絡,我們需要定義一種新的深度學習架構。
卷積神經網絡(Convolutional Neural Network, CNN)是深度學習領域中最重要的網絡之一。由于CNN在計算機視覺和自然語言處理等諸多領域都取得了令人矚目的成就,因此在過去的幾年里,CNN受到了業界和學術界的廣泛關注。現有的綜述主要關注CNN在不同場景下的應用,并沒有從整體的角度來考慮CNN,也沒有涉及到最近提出的一些新穎的想法。在這篇綜述中,我們的目標是在這個快速增長的領域提供盡可能多的新想法和前景。不僅涉及到二維卷積,還涉及到一維和多維卷積。首先,這篇綜述首先簡單介紹了CNN的歷史。第二,我們提供CNN的概述。第三,介紹了經典的和先進的CNN模型,特別是那些使他們達到最先進的結果的關鍵點。第四,通過實驗分析,得出一些結論,并為函數選擇提供一些經驗法則。第五,介紹了一維、二維和多維卷積的應用。最后,討論了CNN的一些有待解決的問題和有發展前景的方向,為今后的工作提供參考。
動態視頻摘要,通過從視頻中提取出的單模態或多模態特征,可以通過動態鏈接的方式,對視頻進行摘要生成工作,從而可以幫助人們通過摘要來理解視頻。受到最近視頻網站發展的影響,使得動態視頻摘要技術得到了越來越多研究人員的關注。在本文中,我們對此類技術進行了綜述,并提出了一種分類體系,討論體系中各里程碑節點的發展過程。
論文摘要: 隨著互聯網中視頻數量的指數級增長,催生了各類視頻分析需求,動態視頻摘要便是其中之一,通過從視頻中提取出的單模態或多模態特征,可以通過動態鏈接的方式,對視頻進行摘要生成工作,從而可以幫助人們通過摘要來理解視頻。受到最近視頻網站發展的影響,使得動態視頻摘要技術得到了越來越多研究人員的關注。在本文中,我們對此類技術進行了綜述,并提出了一種分類體系,討論體系中各里程碑節點的發展過程。