亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺語言表征學習在很大程度上受益于圖像-文本的對比損失(例如InfoNCE損失)。這種對齊策略的成功是由于它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行跨模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基于CMA的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自監督的三重對比學習(TCL)來進行視覺語言預訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下游視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。

//www.zhuanzhi.ai/paper/12af4807da28b56ef7ef66423f27cce9

付費5元查看完整內容

相關內容

CVPR 2022 將于2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

轉載來自公眾號:機器學習算法與自然語言處理

論文標題: VLP: A Survey on Vision-Language Pre-training 論文鏈接: //arxiv.org/abs/2202.0906101

摘要 在過去幾年中,預訓練模型的出現將計算機視覺(CV)和自然語言處理(NLP)等單模態領域帶入了一個新時代。大量工作表明它們有利于下游單模態任務,并可以避免從頭開始訓練新模型。那么這樣的預訓練模型能否應用于多模態任務呢?研究人員已經探索了這個問題并取得了重大進展。本文調查了視覺-語言預訓練 (VLP) 的最新進展和新的前沿,包括圖像-文本和視頻-文本預訓練。為了讓讀者更好地全面掌握 VLP,我們首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近的進展。然后,我們詳細總結了具體的 VLP 模型。最后,我們討論了 VLP 的新領域。據我們所知,這是VLP 領域的第一個綜述。我們希望這個綜述能夠為 VLP 領域的未來研究提供啟示。

介紹

讓機器以類似于人類的方式做出反應一直是人工智能研究人員的不懈目標。為了讓機器能夠感知和思考,研究人員提出了一系列相關任務,例如人臉識別、閱讀理解和人機對話,以訓練和評估機器在特定方面的智能。具體來說,領域專家手動構建標準數據集,然后在其上訓練和評估相關模型。然而,由于相關技術的限制,往往需要在大量的標注數據上進行訓練,以獲得更好、更有能力的模型。最近出現的基于 Transformer 結構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,其通常利用輔助任務(預訓練目標)從大規模未標記數據中自動挖掘監督信號來訓練模型,從而學習通用表示。然后,他們可以通過僅在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果。自從 BERT在自然語言處理 (NLP) 中出現以來,各種預訓練模型在單模態領域如雨后春筍般涌現,例如計算機視覺 (CV)領域的Vision Transformer (ViT) 和 語音領域的Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。

與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。一個很自然的問題是上述預訓練方法能否應用于多模態任務?研究人員已經探索了這個問題并取得了重大進展。在本文中,我們關注主流的視覺-語言預訓練(VLP),包括圖像-文本和視頻-文本預訓練。VLP 主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系。例如,在圖像-文本預訓練中,我們期望模型將文本中的“狗”與圖像中的“狗”相關聯。在視頻-文本預訓練中,我們期望模型將文本中的物體/動作映射到視頻中的物體/動作。為了實現這一目標,需要巧妙地設計 VLP 目標和模型架構,以允許模型挖掘不同模態之間的關聯。 為了讓讀者更好地了解 VLP,我們首先從5個重要方面全面回顧其最新進展:

  1. 特征提取:本節包括 VLP 模型中圖像、視頻和文本的預處理和表示方法(參見第3節);
  2. 模型架構:我們從兩個不同的角度介紹VLP模型的架構:從多模態融合的角度分為單流與雙流,從整體架構設計的角度分為Encoder-only與Encoder-decoder (參見第4節);
  3. 預訓練目標:預訓練目標是VLP的核心,主要用于指導模型學習視覺語言相關聯的信息。我們總結了典型和特殊的預訓練目標,分為補全、匹配、時序和特殊類型(參見第5節);
  4. 預訓練數據集:數據對于 VLP 至關重要。我們簡要介紹了 VLP 的主流語料庫及其具體大小(參見第6節);
  5. 下游任務:多種任務需要視覺和語言的合作知識。我們將它們分為五類:分類、回歸、檢索、生成和其他任務。我們還討論了這些任務的基本細節和目標(參見第7節)。

然后我們詳細總結了具體的最先進(SOTA)VLP 模型(參見第8節)。最后,我們總結論文并對 VLP 的新前沿進行了廣泛的討論(參見第9節)。 據我們所知,這是VLP領域的第一篇綜述。我們希望我們的綜述能夠幫助研究人員更好地了解這一領域,并激發他們設計出更好的模型。

特征抽取

本節介紹 VLP 模型如何預處理和表示圖像、視頻和文本以獲得對應特征。 特征預處理

圖像特征預處理主要包括三種:基于目標檢測的區域特征,基于CNN的網格特征以及基于ViT的patch特征。 視頻特征預處理:主要先對視頻分幀,得到圖像序列,然后按照上述圖像特征預處理方式進行處理。 文本特征預處理:主要遵循BERT的預處理方式,將輸入句子切分為子詞序列,然后收尾追加[CLS]和[SEP], 最后輸入表示為詞embedding+位置embedding+segment embedding。 特征表示

為了充分利用單模態預訓練模型,VLP 模型可以將視覺或文本特征輸入到Transformer編碼器。具體來說,VLP 模型利用具有隨機初始化的標準Transformer編碼器來生成視覺或文本表示。此外,VLP 模型可以利用預訓練的視覺Transformer對基于ViT的patch特征進行編碼,例如 ViT 和 DeiT。VLP 模型也可以使用預訓練的文本Transformer對文本特征進行編碼,例如 BERT。為簡單起見,我們將這些Transformer命名為 Xformer。 更多細節描述詳見論文 Section 204 模型結構 在本節中,我們從兩個不同的角度介紹 VLP 模型的架構:(1)從多模態融合的角度分為單流與雙流,以及(2)從整體架構設計來看分為only-encoder與encoder-decoder。

Single-stream versus Dual-strea

單流架構是指將文本和視覺特征連接在一起,然后輸入單個Transformer模塊,如 Firgue 1 (a) 所示。 雙流架構是指文本和視覺特征沒有連接在一起,而是獨立發送到兩個不同的Transformer塊,如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder

許多 VLP 模型采用僅編碼器架構,其中跨模態表示直接饋入輸出層以生成最終輸出。相比之下,其他 VLP 模型提倡使用轉換器編碼器-解碼器架構,其中跨模態表示首先饋入解碼器,然后饋入輸出層。 更多細節描述詳見論文 Section 305 預訓練目標 本節介紹我們如何通過使用不同的預訓練目標來預訓練 VLP 模型,這對于學習視覺-語言的通用表示至關重要。我們將預訓練目標總結為四類:補全、匹配、時序和特定類型。 補全類型是通過利用未掩碼的剩余部分來重建掩碼元素從而理解模態,包括Masked LanguageModeling,Prefix Language Modeling,Masked Vision Modeling等; 匹配類型是將視覺和語言統一到一個共享的隱藏空間中,以生成通用的視覺-語言表示,包括Vision-Language Matching,Vision-LanguageContrastive Learning, Word-Region Alignment等; 時序類型是通過對中斷的輸入序列重新排序來學習良好的表示,主要針對視頻相關的預訓練,如FrameOrder Modeling等; 特殊類型由其他預訓練目標組成,例如視覺問答和視覺描述等。 更多細節描述詳見論文 Section 4.

預訓練數據集

大多數 VLP 數據集是通過組合跨不同多模態任務的公共數據集構建的。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN和 CLIP,處理從互聯網收集的大量數據并使用他們自己構建的數據集進行訓練。在這里,一些主流語料庫及其規模信息如表 1所示。07 下游任務 各種各樣的任務需要視覺和語言方面的合作知識。在本節中,我們將介紹此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。 分類任務主要包括:Visual Question Answering (VQA)、Visual Question Answering (VQA)、NaturalLanguage for Visual Reasoning (NLVR).、VisualCommonsense Reasoning (VCR)等; 回歸任務包括Multi-modal Sentiment Analysis (MSA); 檢索任務主要指的是一些視覺-語言檢索任務; 生成任務包括:Visual Dialogue (VD)、Visual Captioning (VC)等; 其他任務包括:Multi-modal Machine Translation (MMT)、Vision-Language Navigation (VLN).等。 更多細節描述詳見論文 Section 6.08 SOTA VLP models 基于上述VLP模型的5大方面,我們對近幾年的VLP模型進行了匯總整理:

更多細節描述詳見論文 Section 7.09 總結和新前沿 在本文中,我們提供了第一個 VLP 綜述。我們從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧了它的最新進展,并詳細總結了具體的 SOTA VLP 模型。我們希望我們的綜述能夠幫助研究人員更好地了解 VLP,并激發新的工作來推動這一領域的發展。未來,在現有工作的基礎上,VLP可以從以下幾個方面進一步發展:

  1. **Incorporating Acoustic Information.**以前關于多模態預訓練的大多數工作都強調語言和視覺的聯合建模,但忽略了隱藏在音頻中的信息。盡管音頻中的語義信息可能與語言重疊,但音頻可以提供額外的情感信息、聲學邊界信息等。此外,使用音頻進行預訓練使模型能夠處理具有聲學輸入的下游任務。到目前為止,跨文本、視覺和音頻的聯合建模和表示仍然是一個有待進一步研究的懸而未決的問題。一些前沿的工作已經闡明了這個研究領域的未來。與之前的 VLP 模型不同,VATT將原始音頻作為輸入,并通過噪聲對比估計 (NCE) 學習多模態表示。與 VATT 不同,OPT 結合各種多級掩蔽策略學習跨文本、圖像和音頻的跨模態表示,并且它還能夠生成文本和圖像。其他一些工作,例如 AudioCLIP 和 MERLOT Reserve,也展示了他們在三種模態上學習跨模態表示的獨特方法;

  2. **Knowledgeable Learning and Cognitive.**雖然現有的 VLP 模型已經取得了顯著的性能,但它們的本質是擬合大規模的多模態數據集。使 VLP 模型更具有知識性對于未來的 VLP 很重要。對于輸入的視覺和文本,有豐富的相關外部常識世界知識和說明性情景知識,可以用來增強輸入,加速模型訓練和推理。解決這個問題需要統一的認知模型架構、知識引導的預訓練目標以及與新知識交互的支持;

  3. **Prompt Tuning.**目前,微調是將 VLP 的知識轉移到下游任務的主要方法。然而,隨著模型規模的增加,每個下游任務都有其微調參數,導致參數效率低下。此外,多樣化的下游任務也使得預訓練和微調階段的設計變得繁瑣,導致它們之間存在gap。最近,Prompt Tuning在 NLP 中越來越受到關注。通過設計離散或連續Prompt并將 MLM 用于特定的下游任務,這些模型可以a. 減少微調大量參數的計算成本;b. 彌合預訓練和微調之間的差距。Prompt Tuning是激發 PLM 中分布的語言和世界知識的一種很有前途的方法。下一步可以改進并遷移到多模態場景,打破傳統范式,解決VLP的痛點問題。

付費5元查看完整內容

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432

當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:

Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。

Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。

Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。

由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:

Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;

端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。

針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。

HiT 模型主要有兩個創新點:

提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;

引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。

付費5元查看完整內容

預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。

基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。

//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4

該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。

兩種用于表征學習的對比學習范式的概念描述圖。

現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。

具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。

付費5元查看完整內容

隨著大規模無監督預訓練技術在文本領域的各個任務上取得了顯著的效果提升,視覺-語言預訓練(Vision-language Pre-training)也受到了越來越多的關注。視覺-語言預訓練的目標是通過對齊語料學習多模態的通用聯合表示,將各個模態之間的語義對齊信號融合到聯合表示中,從而提升下游任務效果。已有的視覺語言預訓練方法在預訓練過程中沒有區分普通詞和語義詞,學到的聯合表示無法刻畫模態間細粒度語義的對齊,如場景中物體(objects)、物體屬性(attributes)、物體間關系(relationships)這些深度理解場景所必備的細粒度語義。

我們提出了知識增強的視覺-語言預訓練技術ERNIE-ViL,將包含細粒度語義信息的場景圖先驗知識融入預訓練過程,創建了物體預測、屬性預測、關系預測三個預訓練任務,在預訓練過程中更加關注細粒度語義的跨模態對齊,從而學習到能夠刻畫更好跨模態語義對齊信息的聯合表示。作為業界首個融入場景圖知識的視覺語言預訓練模型,ERNIE-ViL在視覺問答、視覺常識推理、引用表達式理解、跨模態文本檢索、跨模態圖像檢索5個多模態典型任務上取得了SOTA效果,同時,在視覺常識推理VCR榜單上取得第一。

//www.zhuanzhi.ai/paper/3e78bfda818b0c967f692861d4b05386

付費5元查看完整內容

我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。

//www.zhuanzhi.ai/paper/9ac766aec437a266e108f8dd71d3ab25

付費5元查看完整內容
北京阿比特科技有限公司