//www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432
當前主流的視頻文本檢索模型基本上都采用了基于 Transformer[1] 的多模態學習框架,主要可以分成 3 類:
Two-stream,文本和視覺信息分別通過獨立的 Vision Transformer 和 Text Transformer,然后在多模態 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。
Single-stream,文本和視覺信息只通過一個多模態 Transformer 進行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。
Dual-stream,文本和視覺信息僅僅分別通過獨立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。
由于類別 1 和類別 2 方法在時間開銷上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了類別 3 Dual-stream 的 Transformer 框架,以滿足大規模視頻文本檢索的需求。然而現有基于 Transformer 的多模態學習方法會有兩個局限性:
Transformer 不同網絡層的輸出具有不同層次的特性,而現有方法并沒有充分利用這一特性;
端到端模型受到顯存容量的限制,無法在一個 batch 內利用較多的負樣本。
針對上述 2 個局限,本文提出(1)層次跨模態對比匹配(Hierarchical Cross-modal Contrast Matching,HCM),對 Transformer 的底層網絡和高層網絡分別進行對比匹配,解決局限 1 的問題;(2)引入 MoCo[9] 的動量更新機制到跨模態對比匹配中,使跨模態對比匹配的過程中能充分利用更多的負樣本,解決局限 2 的問題。實驗表明 HiT 在多個視頻-文本檢索數據集上取得 SOTA 的效果。
HiT 模型主要有兩個創新點:
提出層次跨模態對比匹配 HCM。Transformer 的底層和高層側重編碼不同層次的信息,以文本輸入和 BERT[10] 模型為例,底層 Transformer 側重于編碼相對簡單的基本語法信息,而高層 Transformer 則側重于編碼相對復雜的高級語義信息。因此使用 HCM 進行多次對比匹配,可以利用 Transformer 這一層次特性,從而得到更好的視頻文本檢索性能;
引入 MoCo 的動量更新機制到跨模態對比匹配中,提出動量跨模態對比 MCC。MCC 為文本信息和視覺信息分別維護了一個容量很大并且表征一致的負樣本隊列,從而克服端到端訓練方法受到顯存容量的限制,只能在一個相對較小的 batch 內尋找負樣本這一缺點,利用更多的負例,從而得到更好的視頻和文本表征。
受BERT的成功啟發,人們提出了幾種聯合表示圖像和文本的多模態表示學習方法。這些方法通過從大規模的多模態預訓練中獲取高級語義信息來獲得更好的性能。其中LXMERT和UNITER采用視覺區域特征回歸和標簽分類作為前置任務。然而,在語義標注有限且不一致的眾包數據集上預先訓練的視覺特征往往存在標簽噪聲過大和語義標注稀疏的問題。為了克服這些問題,我們提出了無偏密集對比視覺語言預訓練(unbiased Dense contrast visual - language Pretraining, DCVLP),它用不需要注釋的跨通道區域對比學習代替區域回歸和分類。為了提高對比學習中負樣本的質量,我們提出了兩種數據增強策略(掩模擾動和對抗內/對抗間擾動)。總之,DCVLP允許在獨立于任何對象注釋的自監督設置中跨模態密集區域對比學習。我們將該方法與以往的視覺-語言前訓練框架進行了比較,驗證了密集對比學習在多模態表征學習中的優越性。
對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用于學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,并將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。
在本文中,我們提出參數對比學習(PaCo)來處理長尾識別。通過理論分析,我們發現監督對比損失在高頻類別上有偏置的傾向,從而增加了不平衡學習的難度。我們引入一組參數類學習中心,從優化的角度進行再平衡。進一步,我們分析了平衡設置下的PaCo損失。我們的分析表明,當更多的樣本被拉到相應的中心時,PaCo可以自適應地增強同類樣本的推近強度,并有利于較難的示例學習。長尾CIFAR、ImageNet、Places和iNaturalist 2018上的實驗顯示了長尾識別的新技術。在全ImageNet上,使用PaCo損失訓練的模型在各種ResNet骨干上超過了有監督的對比學習。我們的代碼可在//github.com/jiequancui/ Parametric-Contrastive-Learning.
基于自監督學習的Bert[1]預訓練模型在NLP領域大放光彩,在多項下游任務中均取得很好的效果。Bert在無標注的語料中充分地學到了通用的知識,那么很容易引出一個問題,CV領域是否也可以“復現”Bert的成功呢?近年比較火熱的對比學習或許是這個問題的一個答案。
對比學習(Contrastive Learning)是自監督學習的一種,需要從無標注的圖像數據中學習特征表示,并用于下游任務中。其指導原則是:通過自動構造相似實例和不相似實例,學習一個表示學習模型,通過這個模型,使得相似的實例在投影空間中比較接近,而不相似的實例在投影空間中距離比較遠。本文將介紹對比學習的基本思路以及經典的MoCo系列[2][3][4]、SimCLR系列模型[5][6],了解對比學習的方法和特性。
[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[2] He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[3] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).
[4] Chen, Xinlei, Saining Xie, and Kaiming He. "An empirical study of training self-supervised visual transformers." arXiv preprint arXiv:2104.02057 (2021).
[5] Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR, 2020.
[6] Chen, Ting, et al. "Big self-supervised models are strong semi-supervised learners." arXiv preprint arXiv:2006.10029 (2020).
[7] Contrastive Self-Supervised Learning //ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html
[8] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
[9] Goodfellow, Ian J., et al. "Generative adversarial networks." arXiv preprint arXiv:1406.2661 (2014).
[10] Caron, Mathilde, et al. "Unsupervised learning of visual features by contrasting cluster assignments." arXiv preprint arXiv:2006.09882 (2020).
[11] Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).
[12] Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).
[13] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv:2104.08821 (2021).
最近,異質圖神經網絡(HGNNs)在處理異質信息網絡(HIN)方面展現了優越的能力。大部分的HGNNs都遵循半監督學習的設定,然而實際應用中標簽信息往往很難獲得。而自監督學習由于能夠自發地從數據本身挖掘監督信號,已經成為無監督設定下很好的選擇。作為一種典型的自監督機制,對比學習(contrastive learning)通過從數據中抽取出正負樣本,同時最大化正例間的相似度以及最小化負例間相似度,能夠學到判別性的表示。盡管對比學習在CV和NLP領域得到了廣泛應用,如何將它和HIN結合卻尚未解決。
通過認真考慮HIN以及對比學習的特性,我們總結了三個需要解決的本質問題:
1)如何設計異質對比機制 HIN中包含復雜結構,例如元路徑(meta-path),需要利用跨視圖的對比學習機制來綜合刻畫。
2)如何在HIN中選擇合適的視圖 對于視圖的基本要求是,能夠刻畫網絡的局部結構和高階結構。網絡模式(network schema)反應了節點間的直接連接情況,捕捉局部結構;元路徑通常被用來抽取多跳關系。
3)如何設置困難的對比任務 簡單的正負關系很容易被捕獲,模型學到的信息有限。增加對比任務的難度,可通過增加兩個視圖間的差異,或者生成更高質量的負樣本來實現。
在本篇文章中,我們提出了一個新的基于協同對比學習的異質圖神經網絡框架,簡稱HeCo。HeCo采用跨視圖的對比機制,選擇網絡模式和元路徑作為兩個視圖,結合視圖掩蓋機制,分別學得兩個視圖下的節點表示。之后,利用跨視圖對比學習,使得兩個視圖協同監督。此外,我們還提出兩個HeCo擴展,通過生成更高質量的負例,提升最終效果。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
Using Prior Knowledge to Guide BERT's Attention in Semantic Textual Matching Tasks
Authors: Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang
我們研究了將先驗知識整合到基于深度Transformer的模型中的問題,即:,以增強其在語義文本匹配任務中的性能。通過探索和分析BERT在解決這個任務時已經知道的東西,我們可以更好地理解BERT最需要什么特定任務的知識,在哪里最需要什么知識。這一分析進一步促使我們采取一種不同于大多數現有工作的方法。我們沒有使用先驗知識來創建一個新的訓練任務來微調BERT,而是直接將知識注入BERT特的多頭注意機制。這將我們引向一種簡單而有效的方法,它歷經快速訓練階段,因為它節省了模型在主要任務以外的額外數據或任務上的訓練。大量的實驗表明,本文提出的知識增強的BERT模型能夠持續地提高語義文本匹配性能,并且在訓練數據稀缺的情況下性能效益最為顯著。
互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。
當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。
視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。
因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。
我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。