Transformers已經成功地完成了許多自然語言處理任務。然而,由于計算復雜度高和缺乏自然標記化,將Transformers應用于視頻領域的任務,如長期視頻生成和場景理解仍然是難以實現的。在本文中,我們提出了以對象為中心的視頻轉換器(OCVT),它利用以對象為中心的方法將場景分解成適合于生成視頻轉換器使用的令牌。通過將視頻分解為對象,我們的完全無監督模型能夠學習場景中多個交互對象的復雜時空動態,并生成視頻的未來幀。與基于像素的模型相比,我們的模型的內存效率更高,因此能夠使用單個48GB GPU訓練70幀長度的視頻。我們將我們的模型與以前基于RNN的方法以及其他可能的視頻Transformer基線進行了比較。我們證明OCVT在生成未來幀時比基線表現得更好。OCVT還為視頻推理開發了有用的表示,在CATER任務上實現了最先進的性能。
受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。
//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03
Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。
在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。
視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。
本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果
現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。
在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。
在Transformer模型[1,2,6,7,8]中,相對位置編碼顯式地對任意兩個Token的位置關系進行建模,提高了模型的表征能力。它的有效性在自然語言處理領域得到了充分證明[14,15,16,17,18]。然而,在計算機視覺領域,討論相對位置編碼的工作比較少[9,10,11,12,13]且存在不同的觀點。由于圖像可視為二維的序列,如何將一維相對位置編碼推廣到二維相對位置編碼,解決方案仍不清晰。本篇論文提出了四種二維相對位置編碼的映射方式,同時分析了Vision Transformer中影響二維相對位置性能的關鍵因素,得到了以下有趣的發現:
不需要調整訓練的超參數,相對位置編碼能給圖像分類和目標檢測的Vision Transformers模型帶來顯著的精度提升;
相對位置的方向信息在圖像分類、目標檢測任務中有著重要作用;
輸入相關的相對位置編碼比輸入無關的相對位置編碼更有效;
組合不同嵌入特征上的相對位置編碼,能夠進一步提升模型的表征能力;
在圖像分類任務中,相對位置編碼可以完全替代絕對位置編碼,因為圖像分類不需要預測物體的位置,相對位置編碼能夠讓模型更關注局部信息;在目標檢測任務中,相對位置編碼能提高模型精度,但絕對位置編碼是必須的,因為相對位置編碼不能提供物體定位所需的絕對位置信息。 //houwenpeng.com/publications/iRPE.pdf
因果關系知識對于構建健壯的人工智能系統至關重要。在需要因果推理的任務中,深度學習模型通常表現不佳。因果推理通常是通過某種形式的常識性知識推導出來的,這些常識性知識不是直接輸入的,而是由人類隱式推斷出來的。先前的工作已經揭示了在因果關系缺失的情況下,模型會陷入虛假的觀測偏差。雖然語言表征模型在習得的嵌入中保留了語境知識,但它們在訓練中不考慮因果關系。通過將因果關系與輸入特征融合到現有模型中執行視覺認知任務(如場景理解、視頻字幕、視頻問答等),可以獲得更好的性能,因為因果關系帶來的洞察力。最近,已經提出了幾個模型來處理從視覺或文本模態中挖掘因果數據的任務。然而,目前還沒有廣泛流行的研究通過視覺和語言模式的并列來挖掘因果關系。圖像為我們提供了豐富且易于處理的資源來挖掘因果關系知識,而視頻則更加密集,由自然的時間順序事件組成。此外,文本信息提供了視頻中可能隱含的細節。因此,我們提出了iReason,這是一個利用視頻和自然語言字幕推斷視覺語義常識的框架。此外,iReason的架構集成了一個因果合理化模塊,以輔助解釋、錯誤分析和偏差檢測的過程。我們通過與語言表征學習模型(BERT, GPT-2)以及當前最先進的多模態因果模型的雙管比較分析,證明了iReason的有效性。最后,我們通過將“因果信號”整合到一系列下游認知任務(如密集視頻字幕、視頻問答和場景理解)中的案例研究,證明了iReason的普遍適用性。
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。