檢索與自然語言查詢相關的視頻內容對有效處理互聯網規模的數據集起著至關重要的作用。大多數現有的字幕-視頻檢索方法都沒有充分利用視頻中的跨模態線索。此外,他們聚合每幀的視覺特征與有限的或沒有時間信息。在本文中,我們提出了一種多模態Transformer聯合編碼視頻中不同的模態,使每一個模態關注其他模態。transformer架構還被用于對時態信息進行編碼和建模。在自然語言方面,我們研究了聯合優化嵌入在多模態轉換器中的語言的最佳實踐。這個新的框架允許我們建立最先進的視頻檢索結果在三個數據集。更多詳情請訪問//thoth.inrialpes.fr/research/MMT。
視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解和建模不同模態之間的交互是視頻分析任務的關鍵,如分類,目標檢測,活動識別等。然而,數據模態并不總是相關的——因此,了解模態何時相關并使用它來引導一種模態對另一種模態的影響是至關重要的。視頻的另一個顯著特征是連續幀之間的連貫性,這是由于視頻和音頻的連續性,我們稱之為時間連貫性。我們展示了如何使用非線性引導的跨模態信號和時間相干性來提高多模態機器學習(ML)模型在視頻分析任務(如分類)中的性能。我們在大規模YouTube-8M數據集上的實驗表明,我們的方法在視頻分類方面顯著優于最先進的多模式ML模型。在YouTube-8M數據集上訓練的模型,在不需要再訓練和微調的情況下,在一個來自實際電視頻道的視頻片段的內部數據集上也表現出了良好的性能,顯示了我們的模型較強的泛化能力。
識別聲音是計算音頻場景分析和機器感知的一個關鍵方面。在本文中,我們主張聲音識別本質上是一個多模態的視聽任務,因為它更容易區分聲音使用音頻和視覺模態,而不是一個或另一個。我們提出了一種視聽融合模型,該模型能夠從弱標記的視頻記錄中識別聲音。所提出的融合模型利用注意力機制,將單個音頻和視頻模型的輸出動態地結合起來。在大型音頻事件數據集AudioSet上進行的實驗證明了該模型的有效性,其性能優于單模態模型、最先進的融合和多模態模型。我們在Audioset上實現了46.16的平均精度(mAP),比之前的技術水平高出大約4.35個mAP(相對:10.4%)。
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。
題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA
摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。