對于視頻理解任務而言,多種模態的輸入數據往往會攜帶大量的冗余信息,除了普通的RGB幀數據,視頻多模態分析還會用到音頻、光流和深度圖等模態的數據,但是對于某些時刻,其他模態的數據不論是數據獲取還是前向傳播都會有更高的計算性能要求,這對于一些即時的多模態應用是不合理的。
基于此,本文設計了一種自適應的多模態學習框架對一段視頻的不同片段選取最為合適的模態數據作為輸入,在保證識別精度的同時,獲得了較為明顯的計算量節省效果。 本文的整體框架包含了一個輕量的策略級網絡Policy Network和一個識別網絡Recognition Network,其中策略網絡的作用是對視頻序列的每個模態片段計算二進制策略向量,用來判斷是否保留當前模態的數據進行后續的識別。
識別網絡由多個子網絡構成,分別對上一步選取得到的多模態數據進行特征提取和后融合得到識別結果。整體網絡聯合訓練,在測試階段,首先將輸入多模態視頻片段送入策略網絡,其輸出決定用于給定片段的正確模態,然后將選擇的輸入模態路由到識別網絡中的相應的子網絡以生成片段級預測。
最后,網絡將所有片段級預測平均作為視頻級預測。與普通的視頻理解模型相比,輕量級策略網絡(本文使用的是MobileNetV2)產生的額外計算成本可以忽略不計。
經過一系列的實驗表明,本文方法在四個標準數據集上都取得了較好的效果。
視頻問答任務需要根據語言線索的組合語義獲取并使用視頻中視覺信號的時域和空域特征,從而生成回答。近來,在目標數據集上微調(fine-tuning)預訓練模型的范式在多模態任務中取得了非常好的效果,尤其是對視頻問答任務的預訓練模型。這些現存的多模態學習范式,主要通過從視頻中提取空間視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制(如 question-routed attention 和 co-attention 等)來整合這些特征。然而,這些多模態學習范式都存在一個缺陷:忽略了同一個視頻中視頻段-文本對(clip-text pair)之間的相關性,而在訓練時將每一個視頻段-文本對都視為是相互獨立的樣本。因此,這些多模態學習范式無法很好地利用同一個視頻中不同樣本之間豐富的上下文語義信息。
為了解決上述問題,微軟亞洲研究院的研究員們對如何更好地挖掘并利用這些信息進行了研究。研究員們認為,同視頻中的不同視頻段應該具有較為相似的全局視頻特征語義以及相關聯的上下文信息,并且這些信息可以被用于增強網絡的學習效果。因此,研究員們提出了一個具有創新性、基于自驅動孿生采樣和推理的端到端多模態學習框架 SimSamRea,能夠應用在視頻問答任務中。
在該框架中,研究員們創新地使用了孿生采樣和推理,對同視頻中的多個視頻段信息進行融合,充分利用視頻上下文信息為網絡的訓練過程提供指導。同時為該框架精心設計了一個推理策略,其主要包括孿生知識生成模塊和孿生知識推理模塊,可以預測出每個視頻段所屬的類別,傳播并且融合基準段和孿生段之間的相關聯信息,再根據模型預測出的每個視頻段的類別概率為每個視頻段生成軟標簽。研究員們以令每個視頻段的軟標簽與其預測類別盡可能接近為優化目標,使得同一個視頻中的多個視頻段的語義特征盡可能相似,從而為框架的訓練過程提供指導。
在五個常用的視頻問答數據集上進行實驗的結果顯示,該方法不僅可以在訓練過程中為網絡提供有效的指導,而且在進行推斷時沒有任何額外開銷(例如計算量、內存消耗、網絡參數量),充分驗證了 SiaSamRea 框架對視頻問答任務的有效性和優越性。
近期,歸一化流(Normalizing Flow)模型在底層視覺領域取得了驚人的效果。在圖像超分辨率上(image SR),可以用來從低分辨率圖像中預測出細節不同的高質量高分辨率(?diverse photo-realistic)圖像。在圖像再縮放(image rescaling)上,可以用來聯合建模下采樣和上采樣過程,從而提升性能。
本文提出了一個統一的框架 HCFlow,可以用于處理這兩個問題。具體而言,HCFlow 通過對低分辨率圖像和丟失的高頻信息進行概率建模,在高分辨率和低分辨率圖像之間學習一個雙射(bijection)。其中,高頻信息的建模過程以一種多層級的方式條件依賴于低分辨率圖像。在訓練中,該研究使用最大似然損失函數進行優化,并引入了感知損失函數(perceptual loss)和生成對抗損失函數(GAN loss)等進一步提升模型效果。
實驗結果表明,HCFlow 在通用圖像超分辨率、人臉圖像超分辨率和圖像再縮放等任務上取得了最佳的結果。
群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。
最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:
對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;
預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。
此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。
為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。
該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。
此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。
時序動作提名生成旨在從一段未修剪的長視頻當中生成包含可能存在人類動作的視頻片段,其結合具體的動作類別標簽即構成時序動作檢測任務。目前的方法大多致力于生成靈活準確的時序邊界與可靠的提名置信度,但是仍然受限于匱乏的視頻時序依賴和動作邊界建模,導致了充滿噪聲的候選提名邊界和質量欠佳的置信度分數。
目前主流的時序動作提名生成方法主要分為兩步,首先對輸入的視頻特征序列進行簡單的時序信息融合,然后使用基于邊界預測的方法或者是基于預定義錨點框回歸的方法生成可能包含人體動作的大量候選時序提名。
//www.zhuanzhi.ai/paper/e551d60b61b78e5324762d4cff4bff29
本文提出了一個用于時序動作提名修正的端到端框架。該方法主要針對現有主流時序動作提名生成方法中的兩步驟分別進行改進:
在第一步中,現有方法大多使用堆疊的1D時序卷積進行簡單的時序信息融合,然而,1D卷積在計算不同時序點之間的位置關系時,受限于卷積核的形狀和尺寸,雖然可以較好地建模短期的時序依賴,但是對于靈活多變的上下文關系則望塵莫及。部分辦法選擇了全局融合的方式實現了對全局特征的捕獲,但是直接使用全局池化之后的特征拼接到整個視頻特征序列上的每一個時刻位置,導致每一個時刻獲得的全局信息都是相同的,由此捕獲的時序依賴關系相對固定,缺乏多樣性和區分度,無法充分建模多樣的長時序依賴關系。
在第二步中,基于預定義錨點框回歸的方法可以提供基于提名全局特征的可靠置信度分數,然而直接使用提名的全局特征對于其局部邊界的準確位置不夠敏感,況且預定義尺度和比例的提名時序長度往往非常受限,不夠靈活,無法生成任意長度的候選提名。基于邊界預測的方法利用邊界的局部特征判斷一個時間點是否屬于動作邊界,對動作的起止邊緣比較敏感,并且使用邊界匹配機制來生成大量靈活的動作提名,獲得較高的召回率。由于缺乏客觀的提名特征,其置信度不夠可靠,導致其準確率較低。
參考鏈接:
圖卷積網絡(Graph Convolutional Networks, GCNs)作為一種學習圖結構數據的神經網絡,在處理圖數據分析問題上表現出了極大的人氣,被用于如節點分類、圖分類、鏈路預測、推薦等任務中。典型的GCN及其變體通常采用消息傳遞方式,其關鍵步驟是特征聚合,即一個節點在每個卷積層中聚合來自其拓撲鄰居的特征信息。這樣,特征信息通過網絡拓撲結構傳播到鄰居節點表示中,然后通過學習所有節點嵌入表示用于下游任務如分類等,該學習過程是由部分節點標簽來監督的。實際上,GCNs能夠取得巨大的成功部分歸功于它提供了一種拓撲結構和節點特征的融合策略來學習節點表示,而這種融合策略的學習訓練過程由一個端到端的模型框架來監督。
這里我們首先思考了一個問題:作為端到端框架的GCNs,從拓撲結構和節點特征中真正學習和融合了什么樣的信息? 在第二小節我們通過實驗設計評估了GCNs融合拓撲結構和節點特征的能力。實驗結果表明,GCNs在融合網絡拓撲結構和節點特征上能力上與最理想的水平相差甚遠。即使在一些簡單的情況下(節點的特性/拓撲與節點標簽的關聯是非常明確的)GCN仍不能自適應地融合節點特性和拓撲結構并提取最相關的信息。而無法自適應學習到拓撲結構、節點特征與最終任務之間最相關的信息,可能會嚴重阻礙GCNs在分類任務中的表現能力,并且由于實際應用中圖數據與任務之間的相關性往往非常復雜且不可知,因此自適應能力也是很重要的。
針對這些問題,我們提出了一種靈活地用于半監督節點分類的自適應多通道圖卷積網絡方案。其核心思想是同時學習基于節點特征、拓撲結構及其組合的節點嵌入,并依據特征與結構之間的相似性對標簽預測的作用往往是互補的這一事實,采用設計的自適應融合機制來獲取對分類任務最有幫助且最深層次的相關信息。
視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。
//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a
為了更好的用戶體驗和業務效能,點擊率(CTR)預測一直是電子商務中最重要的任務之一。雖然已經提出了大量的CTR預測模型,但從多模態特征中學習項目的良好表示仍然較少研究,因為電子商務中的一個項目通常包含多個異質模態。以往的作品要么將多個模態特征串聯起來,相當于給每個模態一個固定的重要性權重;或者通過注意力機制等技術學習不同項目不同模式的動態權重。然而,一個問題是,通常存在跨多個模態的公共冗余信息。利用冗余信息計算不同模態的動態權值,可能不能正確反映不同模態的不同重要性。為了解決這個問題,我們通過考慮模態特性和模態不變特性來探索模態的互補性和冗余性。針對CTR預測任務,我們提出了一種新的多模態對抗表示網絡(MARN)。多模態注意網絡首先根據每個項目的模態特征計算其多模態的權重。然后,一個多模態對抗網絡學習模態不變表示,在此基礎上引入雙鑒別器策略。最后,我們將模態特定表示與模態不變表示相結合,實現了多模態項表示。我們在公共數據集和工業數據集上進行了大量的實驗,所提出的方法不斷地對最先進的方法進行顯著的改進。此外,該方法已應用于實際的電子商務系統,并在網上進行了A/B測試,進一步證明了該方法的有效性。