亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文題目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

作者:盧浩宇,費楠益,霍宇琦,高一釗,盧志武,文繼榮

通訊作者:盧志武

論文概述:大規模的單塔預訓練模型,在跨模態檢索中取得驚人的檢索效果。遺憾的是,由于它們大多采用耗時的實參跨模態交互方式,檢索效率非常低。最近,像CLIP和ALIGN這樣具有高推理效率的雙塔模型也表現出了良好的效果,然而,它們只考慮了模態之間的實例級對齊(因此仍有改進的余地)。為了克服這些限制,我們提出了一個新穎的協同式雙塔視覺語言預訓練模型,簡稱為COTS。總的來說,我們提出的COTS是通過加強模態間的交互來提高圖像-文本檢索效果的。

除了通過動量對比學習進行實例級的對齊之外,我們還提出了兩種額外的跨模態交互。(1)Token級的交互—在不使用實參交互模型的情況下,我們設計了一個遮蔽視覺語言建模(MVLM)的學習目標,其中變分自編碼器用于視覺編碼,可為每個圖像生成視覺token級別的標記。(2)任務級的交互—在文本到圖像和圖像到文本的檢索任務之間設計了一個KL-對齊學習目標,其中每個任務的概率分布是用動量對比學習中的負樣本隊列計算的。在公平比較下,我們提出的COTS在所有雙塔方法中取得了最好的結果,與最新的單塔方法相比,COTS表現出相當的能力(但推理速度快10,800倍)。同時,我們提出的COTS也適用于從文本到視頻的檢索,在廣泛使用的MSR-VTT數據集上取得了目前最好的結果。

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

Large-scale single-stream pre-training has shown dramatic performance in image-text retrieval. Regrettably, it faces low inference efficiency due to heavy attention layers. Recently, two-stream methods like CLIP and ALIGN with high inference efficiency have also shown promising performance, however, they only consider instance-level alignment between the two streams (thus there is still room for improvement). To overcome these limitations, we propose a novel COllaborative Two-Stream vision-language pretraining model termed COTS for image-text retrieval by enhancing cross-modal interaction. In addition to instance level alignment via momentum contrastive learning, we leverage two extra levels of cross-modal interactions in our COTS: (1) Token-level interaction - a masked visionlanguage modeling (MVLM) learning objective is devised without using a cross-stream network module, where variational autoencoder is imposed on the visual encoder to generate visual tokens for each image. (2) Task-level interaction - a KL-alignment learning objective is devised between text-to-image and image-to-text retrieval tasks, where the probability distribution per task is computed with the negative queues in momentum contrastive learning. Under a fair comparison setting, our COTS achieves the highest performance among all two-stream methods and comparable performance (but with 10,800X faster in inference) w.r.t. the latest single-stream methods. Importantly, our COTS is also applicable to text-to-video retrieval, yielding new state-ofthe-art on the widely-used MSR-VTT dataset.

Vision Prompt Tuning

Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan

在計算機視覺中,微調是一種實用的利用預先訓練的視覺模型來執行下游任務的方法。然而,由于這類方法多采用低效的全局參數更新策略,以及嚴重依賴于高質量的下游數據,在實踐中部署非常具有挑戰性。最近,基于prompt learning的方法增加了與任務相關的提示以使下游任務適應預訓練模型,極大地提高了許多自然語言下游任務的性能。在這項工作中,我們將這種顯著的遷移能力擴展到視覺模型中,作為微調的替代方案。為此,我們提出了視覺提示調整(VPT),這是一種參數有效的視覺調整范式,可將凍結的視覺模型適應到下游數據。VPT 的關鍵是基于提示的調優,即只學習與輸入圖像連接的特定任務視覺提示,并凍結預訓練模型。通過這種方式,VPT 只需訓練少量額外參數即可生成緊湊且穩健的下游模型。大量實驗有力地證明,我們的方法在十五個下游視覺數據集上優于當前的調整范例,包括圖像損壞、對抗性示例、長尾分布和OOD問題等。

VPT結構示意圖

付費5元查看完整內容

近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來

付費5元查看完整內容

多模態視頻字幕的端到端生成預訓練】End-to-end Generative Pretraining for Multimodal Video Captioning
● 論文摘要:最近的視頻和語言前訓練框架缺乏生成句子的能力。我們提出了多模態視頻生成預訓練(MV-GPT),這是一個新的用于從無標簽視頻學習的預訓練框架,它可以有效地用于生成任務,如多模態視頻字幕。與最近的視頻語言預訓練框架不同,我們的框架同時訓練多模態視頻編碼器和句子解碼器。為了克服無標簽視頻中字幕的缺乏,我們利用未來話語作為一個額外的文本源,并提出一個雙向生成目標——我們在當前多模態語境下生成未來話語,在未來觀察下也生成當前話語。基于此目標,我們訓練一個端到端的編碼器-解碼器模型來直接從原始像素和轉錄語音生成標題。我們的模型在四個標準基準上的多模態視頻字幕以及其他視頻理解任務(如VideoQA、視頻檢索和動作分類)上都達到了最先進的性能。
● 論文鏈接://arxiv.org/abs/2201.08264
● 作者單位:Google Research

付費5元查看完整內容

//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432

當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:

Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。

Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。

Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。

由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:

Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;

端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。

針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。

HiT 模型主要有兩個創新點:

提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;

引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。

付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容

題目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。

付費5元查看完整內容
北京阿比特科技有限公司