自我挖掘:視頻問答中對樣本進行孿生采樣和推理
Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering
論文摘要:視頻問答任務需要根據語言線索的組合語義,獲取并使用視頻中的視覺信號的時域和空域特征,從而生成回答。現有的一些工作從視頻中提取一般的視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制來整合這些特征。這些方法注重于如何更好地理解視頻的整體內容,但這樣容易忽略了視頻段中的細節。也有一些研究人員探究了如何通過對視頻的視覺和語言信息進行語義層面上的特征對齊。但是這些工作都忽略了同一個視頻中的上下文之間的關聯。為了解決上訴問題,我們提出了此基于自驅動孿生采樣和推理的框架,并將其用于提取相同視頻的不同視頻段中的上下文語義信息,用于增強網絡的學習效果。本方法在 5 個公開的數據集上面實現了最優的效果。
//papers.nips.cc/paper/2021/file/dea184826614d3f4c608731389ed0c74-Paper.pdf
回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。
時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。
視頻問答任務需要根據語言線索的組合語義獲取并使用視頻中視覺信號的時域和空域特征,從而生成回答。近來,在目標數據集上微調(fine-tuning)預訓練模型的范式在多模態任務中取得了非常好的效果,尤其是對視頻問答任務的預訓練模型。這些現存的多模態學習范式,主要通過從視頻中提取空間視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制(如 question-routed attention 和 co-attention 等)來整合這些特征。然而,這些多模態學習范式都存在一個缺陷:忽略了同一個視頻中視頻段-文本對(clip-text pair)之間的相關性,而在訓練時將每一個視頻段-文本對都視為是相互獨立的樣本。因此,這些多模態學習范式無法很好地利用同一個視頻中不同樣本之間豐富的上下文語義信息。
為了解決上述問題,微軟亞洲研究院的研究員們對如何更好地挖掘并利用這些信息進行了研究。研究員們認為,同視頻中的不同視頻段應該具有較為相似的全局視頻特征語義以及相關聯的上下文信息,并且這些信息可以被用于增強網絡的學習效果。因此,研究員們提出了一個具有創新性、基于自驅動孿生采樣和推理的端到端多模態學習框架 SimSamRea,能夠應用在視頻問答任務中。
在該框架中,研究員們創新地使用了孿生采樣和推理,對同視頻中的多個視頻段信息進行融合,充分利用視頻上下文信息為網絡的訓練過程提供指導。同時為該框架精心設計了一個推理策略,其主要包括孿生知識生成模塊和孿生知識推理模塊,可以預測出每個視頻段所屬的類別,傳播并且融合基準段和孿生段之間的相關聯信息,再根據模型預測出的每個視頻段的類別概率為每個視頻段生成軟標簽。研究員們以令每個視頻段的軟標簽與其預測類別盡可能接近為優化目標,使得同一個視頻中的多個視頻段的語義特征盡可能相似,從而為框架的訓練過程提供指導。
在五個常用的視頻問答數據集上進行實驗的結果顯示,該方法不僅可以在訓練過程中為網絡提供有效的指導,而且在進行推斷時沒有任何額外開銷(例如計算量、內存消耗、網絡參數量),充分驗證了 SiaSamRea 框架對視頻問答任務的有效性和優越性。
本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。