【視頻檢索用多模態融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
● 從視頻數據中進行的多模態學習最近受到了越來越多的關注,因為它允許訓練語義上有意義的嵌入,而無需人工標注,從而實現了零鏡頭檢索和分類等任務。在這項工作中,我們提出了一種多模態、模態不可知的融合Transformer方法,它學習在多種模態之間交換信息,例如視頻、音頻和文本,并將它們集成到一個連接的多模態表示中,以獲得一個聚合多模態時間信息的嵌入。我們建議在訓練系統的同時對所有的東西進行組合損失,無論是單個模式還是成對的模式,明確地排除任何附加的東西,如位置或模式編碼。在測試時,得到的模型可以處理和融合任意數量的輸入模式。此外,變壓器的隱式特性允許處理不同長度的輸入。為了評估所提出的方法,我們在大規模的HowTo100M數據集上訓練模型,并在四個具有挑戰性的基準數據集上評估結果嵌入空間,獲得了在零拍視頻檢索和零拍視頻動作定位方面的最先進的結果。
● 論文鏈接://arxiv.org/abs/2112.04446
● 作者單位:法蘭克福歌德大學、哥倫比亞大學、麻省理工學院、IBM、德州大學奧斯汀分校等
人們通過多種感官流與世界互動(例如,我們看到物體,聽到聲音,讀到文字,感覺紋理和味覺),結合信息,形成感官之間的聯系。由于真實世界的數據由各種同時出現的信號組成,如視頻幀和音頻軌道、web圖像及其字幕、教學視頻和語音文本,因此在構建和設計多模態機器學習(ML)模型時,很自然地運用了類似的邏輯。
有效的多模態模型具有廣泛的應用——如多語言圖像檢索、未來動作預測和視覺語言導航——其重要性有以下幾個原因; 魯棒性,即在一種或多種模態缺失或損壞時仍能執行的能力,以及模態之間的互補性,即一些信息可能只在一種模態(如音頻流)中存在,而在另一種模態(如視頻幀)中不存在。雖然多模態融合的主流模式(稱為后期融合)包括使用單獨的模型對每個模態進行編碼,然后在最后一步簡單地組合它們的輸出表示,但如何有效和高效地組合來自不同模態的信息仍有待研究。
在NeurIPS 2021發表的“多模態融合的注意力瓶頸”中,我們介紹了一種新的基于transformer的視頻多模態融合模型,稱為多模態瓶頸transformer(MBT)。我們的模型通過兩種方式限制潛在單元之間的跨模態注意流:(1)通過緊密的融合瓶頸,迫使模型收集和壓縮每個模態中最相關的輸入(只與其他模式共享必要的信息),以及(2)模型的后期層,允許早期層專門化來自單個模態的信息。我們證明,這種方法在視頻分類任務上取得了最先進的結果,與普通的多模態transformer模型相比,FLOPs減少了50%。我們還發布了我們的代碼作為一個工具,供研究人員在擴展多模態融合工作時使用。
論文題目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
作者:盧浩宇,費楠益,霍宇琦,高一釗,盧志武,文繼榮
通訊作者:盧志武
論文概述:大規模的單塔預訓練模型,在跨模態檢索中取得驚人的檢索效果。遺憾的是,由于它們大多采用耗時的實參跨模態交互方式,檢索效率非常低。最近,像CLIP和ALIGN這樣具有高推理效率的雙塔模型也表現出了良好的效果,然而,它們只考慮了模態之間的實例級對齊(因此仍有改進的余地)。為了克服這些限制,我們提出了一個新穎的協同式雙塔視覺語言預訓練模型,簡稱為COTS。總的來說,我們提出的COTS是通過加強模態間的交互來提高圖像-文本檢索效果的。
除了通過動量對比學習進行實例級的對齊之外,我們還提出了兩種額外的跨模態交互。(1)Token級的交互—在不使用實參交互模型的情況下,我們設計了一個遮蔽視覺語言建模(MVLM)的學習目標,其中變分自編碼器用于視覺編碼,可為每個圖像生成視覺token級別的標記。(2)任務級的交互—在文本到圖像和圖像到文本的檢索任務之間設計了一個KL-對齊學習目標,其中每個任務的概率分布是用動量對比學習中的負樣本隊列計算的。在公平比較下,我們提出的COTS在所有雙塔方法中取得了最好的結果,與最新的單塔方法相比,COTS表現出相當的能力(但推理速度快10,800倍)。同時,我們提出的COTS也適用于從文本到視頻的檢索,在廣泛使用的MSR-VTT數據集上取得了目前最好的結果。
近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來
人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。與之形成鮮明對比的是,機器感知模型通常是特定于模態的,并針對單模態基準進行了優化,因此,從每個模態最終表示或預測的后期融合(“后期融合”)仍然是多模態視頻分類的主導范式。相反,我們引入了一種新的基于transformer的架構,它使用“融合瓶頸”在多個層進行模態融合。與傳統的成對自注意力相比,我們的模型迫使不同模態之間的信息通過少量的瓶頸潛伏,要求模型整理和濃縮每個模態中最相關的信息,只分享必要的信息。我們發現這種策略在提高融合性能的同時,降低了計算成本。我們進行了徹底的消融研究,并在多個視聽分類基準上取得了最先進的結果,包括Audioset、Epic-Kitchens和VGGSound。所有代碼和模型將被發布。
大多數真實世界的圖像檢索應用程序,如Adobe Stock,這是一個存儲圖片和插圖的市場,需要一種方法讓用戶找到圖像,這些圖像在視覺上(即美學上)和概念上(即包含相同的突出對象)作為查詢圖像。從圖像中學習視覺-語義表征是圖像檢索研究的一個熱點問題。基于圖像概念或屬性的過濾通常通過基于索引的過濾(例如文本標簽)或在最初的基于視覺嵌入的檢索后重新排序來實現。在本文中,我們學習了一個嵌入在同一高維空間中的聯合視覺和概念。這個聯合模型為用戶提供了對結果集語義的細粒度控制,允許他們更快速地瀏覽圖像目錄。我們將可視化和概念關系建模為圖形結構,通過節點鄰域捕獲豐富的信息。這種圖結構幫助我們使用圖神經網絡學習多模態節點嵌入。我們還引入了一種新的基于選擇性鄰域連接的推理時間控制,允許用戶控制檢索算法。我們對MS-COCO數據集圖像檢索下游相關任務進行定量評估,對MS-COCO和Adobe庫存數據集進行定性評估。
檢索與自然語言查詢相關的視頻內容對有效處理互聯網規模的數據集起著至關重要的作用。大多數現有的字幕-視頻檢索方法都沒有充分利用視頻中的跨模態線索。此外,他們聚合每幀的視覺特征與有限的或沒有時間信息。在本文中,我們提出了一種多模態Transformer聯合編碼視頻中不同的模態,使每一個模態關注其他模態。transformer架構還被用于對時態信息進行編碼和建模。在自然語言方面,我們研究了聯合優化嵌入在多模態轉換器中的語言的最佳實踐。這個新的框架允許我們建立最先進的視頻檢索結果在三個數據集。更多詳情請訪問//thoth.inrialpes.fr/research/MMT。
題目: Pre-training Tasks for Embedding-based Large-scale Retrieval
摘要:
我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。