對比損失被越來越多地用于學習來自多種模態的表示。在極限情況下,對比損失的性質鼓勵模態在潛空間中精確匹配。然而,模態對齊如何影響下游任務性能仍然是一個開放問題。本文基于信息論論點,首先證明了精確的模態對齊通常對于下游預測任務是次優的。本文認為,更好性能的關鍵在于有意義的潛在模態結構,而不是完美的模態對齊。本文提出了三種通用的方法來構建潛在模態結構。設計了1)用于模態內正則化的深度特征分離損失;2)模態間正則化的Brownian損失;以及3)模態內和模態間正則化的幾何一致性損失。在兩種流行的多模態表示學習框架上進行了廣泛的實驗:基于CLIP的雙塔模型和基于ALBEF的融合模型。在各種任務上測試了該模型,包括零樣本/少樣本圖像分類、圖像-文本檢索、視覺問答、視覺推理和視覺蘊含。該方法比現有方法取得了一致的改進,證明了所提出方法在潛模態結構正則化上的有效性和泛化性。
本文提出一種自監督學習框架內的視覺語言表示學習方法,通過引入新的操作、損失和數據增強策略。首先,通過軟掩蔽圖像中與對應標題中的某個單詞最相關的區域,而不是完全刪除它們,為圖像文本匹配(image text matching, ITM)任務生成多樣化的特征。由于該框架只依賴于沒有細粒度注釋的圖像-標題對,通過使用多模態編碼器計算單詞條件視覺注意來識別每個單詞的相關區域。通過提出圖像-文本對比學習(ITC)目標的焦點損失,鼓勵模型更多地關注難的但多樣化的例子,這緩解了過擬合和偏差問題的固有局限性。通過挖掘各種示例,通過屏蔽文本和對圖像渲染失真,對自監督學習進行多模態數據增強。這三種創新的結合對學習預訓練模型是有效的,導致在多個視覺-語言下游任務上的出色表現。//arxiv.org/abs/2304.00719
隱神經表示(INR)在表示3D場景和圖像方面得到了越來越多的關注,最近被應用于視頻編碼(如NeRV [1], E-NeRV[2])。雖然取得了很好的結果,但現有的基于INR的方法僅限于編碼少量具有冗余視覺內容的短視頻(例如UVG數據集中的7個5秒視頻),導致模型設計獨立適合單個視頻幀,不能有效地擴展到大量不同的視頻。**本文專注于開發用于更實際設置的神經表示——對具有不同視覺內容的長視頻和/或大量視頻進行編碼。**不是將視頻劃分為小的子集并用單獨的模型進行編碼,而是用統一的模型對長而多樣的視頻進行聯合編碼,以取得更好的壓縮效果。基于這種觀察,本文提出D-NeRV,一種新的神經表示框架,通過(i)將特定片段的視覺內容與運動信息解耦,(ii)在隱式神經網絡中引入時間推理,以及(iii)采用面向任務的流作為中間輸出,以減少空間冗余,來編碼各種視頻。在視頻壓縮任務上,新模型在UCF101和UVG數據集上很大程度上超過了NeRV和傳統的視頻壓縮技術。此外,當用作高效的數據加載器時,D-NeRV在UCF101數據集上的動作識別任務中,在相同的壓縮比下,比NeRV提高了3%- 10%的準確率。 //www.zhuanzhi.ai/paper/d760654c1ffaca3eb81e4d8c4bd965d0
本文解決了視覺識別的多模態學習中的兩個挑戰:1)在現實世界的訓練或測試中發生模態缺失時;以及2)當計算資源無法對重型transformer模型進行微調時。**為此,我們提出利用提示學習和緩解上述兩個挑戰。模態缺失感知提示可插入到多模態transformer中,以處理一般的模態缺失情況,而與訓練整個模型相比,只需要不到1%的可學習參數。**此外,本文還進一步探討了不同提示配置的影響,并分析了對缺失模態的魯棒性。大量實驗表明,所提出的快速學習框架有效地提高了各種模態缺失情況下的性能,同時緩解了繁重的模型再訓練需求。
//www.zhuanzhi.ai/paper/c405e8bee58751611062dfa939e74fa3
我們提出了提示分布學習,以有效地適應一個預訓練的視覺語言模型,以解決下游的識別任務。我們的方法不僅從一些樣本中學習低偏差提示,而且還捕獲不同提示的分布,以處理不同的視覺表示。這樣,我們提供了高質量的任務相關內容,便于識別。這種快速分布學習是通過一種學習提示的輸出嵌入而不是輸入嵌入的有效方法實現的。因此,我們可以使用高斯分布來有效地建模,并導出有效訓練的替代損失。在12個數據集上的大量實驗表明,我們的方法始終和顯著地優于現有的方法。例如,與人工制作的提示相比,每個類別有一個樣本,它的平均結果相對提高了9.1%。
//www.zhuanzhi.ai/paper/0c6359fedd7bfc3067c0c0ddaf8a29f4
論文題目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval 作者:盧浩宇,費楠益,霍宇琦,高一釗,盧志武,文繼榮 通訊作者:盧志武
論文概述:大規模的單塔預訓練模型,在跨模態檢索中取得驚人的檢索效果。遺憾的是,由于它們大多采用耗時的實參跨模態交互方式,檢索效率非常低。最近,像CLIP和ALIGN這樣具有高推理效率的雙塔模型也表現出了良好的效果,然而,它們只考慮了模態之間的實例級對齊(因此仍有改進的余地)。為了克服這些限制,我們提出了一個新穎的協同式雙塔視覺語言預訓練模型,簡稱為COTS。總的來說,我們提出的COTS是通過加強模態間的交互來提高圖像-文本檢索效果的。除了通過動量對比學習進行實例級的對齊之外,我們還提出了兩種額外的跨模態交互。(1) Token級的交互—在不使用實參交互模型的情況下,我們設計了一個遮蔽視覺語言建模(MVLM)的學習目標,其中變分自編碼器用于視覺編碼,可為每個圖像生成視覺token級別的標記。(2) 任務級的交互—在文本到圖像和圖像到文本的檢索任務之間設計了一個KL-對齊學習目標,其中每個任務的概率分布是用動量對比學習中的負樣本隊列計算的。在公平比較下,我們提出的COTS在所有雙塔方法中取得了最好的結果,與最新的單塔方法相比,COTS表現出相當的能力(但推理速度快10,800倍)。同時,我們提出的COTS也適用于從文本到視頻的檢索,在廣泛使用的MSR-VTT數據集上取得了目前最好的結果。
視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9
對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。
論文鏈接:
GitHub鏈接:
近年來,預訓練技術在計算機視覺和自然語言處理領域均受到廣泛關注。在視覺領域,基于圖像數據的單模預訓練有效提升了視覺特征的提取能力。在自然語言處理領域,基于自監督的預訓練語言模型則利用大規模的單模文本數據,顯著提升了模型的語言表示能力。為了處理多模場景的任務,多模預訓練模型基于多模圖文對數據進行預訓練,從而有效支持下游的多模任務。然而,受限于圖文對數據量,多模預訓練模型通用性欠佳。
基于深度學習的AI系統能否像人一樣同時學習各類異構模態數據,包括文本、圖像等單模數據,以及圖文對等多模數據呢?如果能夠實現,無疑將進一步拓展深度學習對大規模數據利用的邊界,從而進一步提升AI系統的感知與認知能力以及AI算法的通用性。針對這一問題,本文提出統一模態學習UNIMO,同時利用大規模單模文本、單模圖像以及多模圖文對數據進行聯合學習,通過跨模態對比學習方法,有效地對語言知識與視覺知識進行統一表示和相互增強,從而具備同時處理多種單模態和多模態下游任務的能力。
UNIMO在語言理解與生成、多模理解與生成等四類場景共十多個任務上超越主流的文本預訓練模型和多模預訓練模型,首次驗證了通過非平行的文本與圖像單模數據,能夠讓語言知識與視覺知識相互增強。UNIMO也同時登頂了視覺問答VQA和文本推理aNLI權威榜單。
跨模態檢索方法為來自多種模態的樣本建立了一個共同的表示空間,尤其是來自視覺和語言領域的樣本。對于圖像和它們的說明文字,對應的多樣性使得這項任務特別具有挑戰性。給定一個圖像(分別是一個標題),有多個同樣有意義的標題(分別是圖像)。在本文中,我們認為確定性函數不足以捕獲這種一對多對應。相反,我們提出使用概率交叉模態嵌入(PCME),來自不同模態的樣本在公共嵌入空間中表示為概率分布。由于諸如COCO這樣的通用基準測試在跨模態匹配時存在非詳盡注釋的問題,我們建議額外評估CUB數據集上的檢索,這是一個更小但更干凈的數據庫,其中所有可能的圖像標題對都被注釋。我們廣泛地ablate PCME,并證明它不僅提高了檢索性能,其確定性對等物,但也提供不確定性估計,使嵌入更可解釋。
我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。