論文題目:Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
作者:薛宏偉*,杭天愷*,曾艷紅*,孫宇沖*,劉蓓,楊歡,傅建龍,郭百寧 論文概述:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習并使大量的下游VL任務受益。現有的研究要么是提取低質量的視頻特征,要么是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用于許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻,以及(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,后者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。
論文題目:Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
作者:薛宏偉*,杭天愷*,曾艷紅*,孫宇沖*,劉蓓,楊歡,傅建龍,郭百寧
論文概述:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習并使大量的下游VL任務受益。現有的研究要么是提取低質量的視頻特征,要么是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。
在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用于許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻。(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,后者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。
【多模態視頻字幕的端到端生成預訓練】End-to-end Generative Pretraining for Multimodal Video Captioning
● 論文摘要:最近的視頻和語言前訓練框架缺乏生成句子的能力。我們提出了多模態視頻生成預訓練(MV-GPT),這是一個新的用于從無標簽視頻學習的預訓練框架,它可以有效地用于生成任務,如多模態視頻字幕。與最近的視頻語言預訓練框架不同,我們的框架同時訓練多模態視頻編碼器和句子解碼器。為了克服無標簽視頻中字幕的缺乏,我們利用未來話語作為一個額外的文本源,并提出一個雙向生成目標——我們在當前多模態語境下生成未來話語,在未來觀察下也生成當前話語。基于此目標,我們訓練一個端到端的編碼器-解碼器模型來直接從原始像素和轉錄語音生成標題。我們的模型在四個標準基準上的多模態視頻字幕以及其他視頻理解任務(如VideoQA、視頻檢索和動作分類)上都達到了最先進的性能。
● 論文鏈接://arxiv.org/abs/2201.08264
● 作者單位:Google Research
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
受BERT的成功啟發,人們提出了幾種聯合表示圖像和文本的多模態表示學習方法。這些方法通過從大規模的多模態預訓練中獲取高級語義信息來獲得更好的性能。其中LXMERT和UNITER采用視覺區域特征回歸和標簽分類作為前置任務。然而,在語義標注有限且不一致的眾包數據集上預先訓練的視覺特征往往存在標簽噪聲過大和語義標注稀疏的問題。為了克服這些問題,我們提出了無偏密集對比視覺語言預訓練(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注釋的跨通道區域對比學習代替區域回歸和分類。為了提高對比學習中負樣本的質量,我們提出了兩種數據增強策略(掩模擾動和對抗內/對抗間擾動)。總之,DCVLP允許在獨立于任何對象注釋的自監督設置中跨模態密集區域對比學習。我們將該方法與以往的視覺-語言前訓練框架進行了比較,驗證了密集對比學習在多模態表征學習中的優越性。
對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
因果關系知識對于構建健壯的人工智能系統至關重要。在需要因果推理的任務中,深度學習模型通常表現不佳。因果推理通常是通過某種形式的常識性知識推導出來的,這些常識性知識不是直接輸入的,而是由人類隱式推斷出來的。先前的工作已經揭示了在因果關系缺失的情況下,模型會陷入虛假的觀測偏差。雖然語言表征模型在習得的嵌入中保留了語境知識,但它們在訓練中不考慮因果關系。通過將因果關系與輸入特征融合到現有模型中執行視覺認知任務(如場景理解、視頻字幕、視頻問答等),可以獲得更好的性能,因為因果關系帶來的洞察力。最近,已經提出了幾個模型來處理從視覺或文本模態中挖掘因果數據的任務。然而,目前還沒有廣泛流行的研究通過視覺和語言模式的并列來挖掘因果關系。圖像為我們提供了豐富且易于處理的資源來挖掘因果關系知識,而視頻則更加密集,由自然的時間順序事件組成。此外,文本信息提供了視頻中可能隱含的細節。因此,我們提出了iReason,這是一個利用視頻和自然語言字幕推斷視覺語義常識的框架。此外,iReason的架構集成了一個因果合理化模塊,以輔助解釋、錯誤分析和偏差檢測的過程。我們通過與語言表征學習模型(BERT, GPT-2)以及當前最先進的多模態因果模型的雙管比較分析,證明了iReason的有效性。最后,我們通過將“因果信號”整合到一系列下游認知任務(如密集視頻字幕、視頻問答和場景理解)中的案例研究,證明了iReason的普遍適用性。
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。