基于自監督學習的Bert[1]預訓練模型在NLP領域大放光彩,在多項下游任務中均取得很好的效果。Bert在無標注的語料中充分地學到了通用的知識,那么很容易引出一個問題,CV領域是否也可以“復現”Bert的成功呢?近年比較火熱的對比學習或許是這個問題的一個答案。
對比學習(Contrastive Learning)是自監督學習的一種,需要從無標注的圖像數據中學習特征表示,并用于下游任務中。其指導原則是:通過自動構造相似實例和不相似實例,學習一個表示學習模型,通過這個模型,使得相似的實例在投影空間中比較接近,而不相似的實例在投影空間中距離比較遠。本文將介紹對比學習的基本思路以及經典的MoCo系列[2][3][4]、SimCLR系列模型[5][6],了解對比學習的方法和特性。
[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[2] He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[3] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).
[4] Chen, Xinlei, Saining Xie, and Kaiming He. "An empirical study of training self-supervised visual transformers." arXiv preprint arXiv:2104.02057 (2021).
[5] Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR, 2020.
[6] Chen, Ting, et al. "Big self-supervised models are strong semi-supervised learners." arXiv preprint arXiv:2006.10029 (2020).
[7] Contrastive Self-Supervised Learning //ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html
[8] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
[9] Goodfellow, Ian J., et al. "Generative adversarial networks." arXiv preprint arXiv:1406.2661 (2014).
[10] Caron, Mathilde, et al. "Unsupervised learning of visual features by contrasting cluster assignments." arXiv preprint arXiv:2006.09882 (2020).
[11] Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).
[12] Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).
[13] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv:2104.08821 (2021).
在本文中,我們提出參數對比學習(PaCo)來處理長尾識別。通過理論分析,我們發現監督對比損失在高頻類別上有偏置的傾向,從而增加了不平衡學習的難度。我們引入一組參數類學習中心,從優化的角度進行再平衡。進一步,我們分析了平衡設置下的PaCo損失。我們的分析表明,當更多的樣本被拉到相應的中心時,PaCo可以自適應地增強同類樣本的推近強度,并有利于較難的示例學習。長尾CIFAR、ImageNet、Places和iNaturalist 2018上的實驗顯示了長尾識別的新技術。在全ImageNet上,使用PaCo損失訓練的模型在各種ResNet骨干上超過了有監督的對比學習。我們的代碼可在//github.com/jiequancui/ Parametric-Contrastive-Learning.
【導讀】CCF A類會議,國際萬維網大會WWW 2021(The Web Conference)已于2021年4月23日落幕。今年共有1736 篇長論文投稿,接收357篇,接收率為20.6%;WWW(The International World Wide Web Conference)會議是由圖靈獎得主Tim創辦的學術會議,內容涵蓋互聯網相關的一切主題。會議原定在斯洛文尼亞首都盧布爾雅那舉行,后由于疫情改為線上會議。
為此,專知小編為大家整理了五篇WWW 2021對比學習(Contrastive Learning)在數據挖掘、Graph、藥物推薦、序列推薦等的最新進展,這塊發展更新及其迅速,考驗研究者的手速了!
WWW2021GNNRS、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR
1. Time Series Change Point Detection with Self-Supervised Contrastive Predictive Coding
作者:Shohreh Deldari, Daniel V. Smith, Hao Xue, Flora D. Salim
摘要:變化點檢測方法(Change Point Detection , CPD)識別與時間序列數據的趨勢和特性變化相關的時間,以描述系統的潛在行為。例如,檢測與 Web 服務使用、應用程序使用或人類行為相關的變化和異常可以為下游建模任務提供有價值的見解。本文提出了一種基于對比預測編碼(TS-CP2)的自監督時間序列變化點檢測方法。TS - CP2 是第一種采用對比學習策略進行 CPD 的方法,它通過學習嵌入表示,將時間相鄰間隔的嵌入對與跨時間分離的間隔嵌入對分開。通過在三個廣泛使用的時間序列數據集的大量實驗,證明本文的方法優于五種最先進的 CPD 方法,其中包括無監督和半監督方法。TS - CP2將使用手工統計或時間特征的方法的性能提高了79.4%,將基于深度學習的方法的性能提高 17.0%,相對于三個數據集的平均 F1 分數。
論文: //www.zhuanzhi.ai/paper/ef3bbf8d0afdbfb7f119b6cbb4a9bf30
2. Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction
作者:Yingheng Wang, Yaosen Min, Xin Chen, Ji Wu
摘要:潛在的藥物相互作用 (Drug-Drug Interactions, DDI) 在用藥物組合治療復雜或共存的疾病時發生,這可能會導致藥物的藥理活性發生變化。因此,DDI 預測一直是醫療健康機器學習領域的重要任務。基于圖的學習方法最近引起了廣泛的關注,并被證明是這項任務的先驅工作。然而,這些方法通常僅限于利用視圖間藥物分子結構的相互關系,并忽略藥物的視圖內相互作用關系,這對于捕獲復雜的 DDI 模式至關重要。本研究提出了一種基于多視圖圖對比表示學習的藥物相互作用預測新方法:MIRACLE,可以同時捕獲分子間的視圖間分子結構和視圖內相互作用。MIRACLE 將 DDI 網絡視為多視圖graph,其中交互圖中的每個節點本身都是一個藥物分子圖實例。本文使用 GCN 對 DDI 關系進行編碼,并使用一種關系感知注意力的消息傳播方法在 MIRACLE 學習階段捕獲藥物分子結構信息。此外,本文提出了一種新穎的無監督對比學習組件來平衡和整合多視圖信息。在多個真實數據集的綜合實驗表明,MIRACLE 始終優于最先進的 DDI 預測模型。
論文:
3. Graph Contrastive Learning with Adaptive Augmentation
作者:Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, Liang Wang
摘要:
最近,對比學習(CL)已成為無監督圖表示學習的成功方法。大多數圖 CL 方法首先對輸入圖執行隨機增強,以獲得兩個圖視圖,并最大化兩個視圖中表示的一致性。盡管圖 CL 方法得到了蓬勃發展,但圖增強方案的設計——CL中的一個關鍵組成部分——仍然很少被探索。我們認為數據增強方案應該保留圖的內在結構和屬性,這將迫使模型學習對不重要節點和邊上的擾動不敏感的表示。然而,大多數現有方法采用統一的數據增強方案,如統一丟棄邊和統一打亂特征,導致性能欠佳。在本文中,提出了一種自適應增強的新型圖對比表示學習方法,該方法結合了圖的拓撲和語義方面的各種先驗。具體來說,在拓撲層次上,設計了基于節點中心性度量的增強方案,以突出重要的連接結構。在節點屬性層次上,通過向不重要的節點特征添加更多噪聲來破壞節點特征,以強制模型識別潛在的語義信息。我們對各種真實世界的數據集進行了廣泛的節點分類實驗。實驗結果表明,本文方法始終優于現有的最先進基線方法,甚至超過了一些有監督的基線,這驗證了所提出的自適應增強的對比框架的有效性。
論文:
4. CLEAR: Contrastive-Prototype Learning with Drift Estimation for Resource Constrained Stream Mining
作者:Zhuoyi Wang, Yuqiao Chen, Chen Zhao, Yu Lin, Xujiang Zhao, Hemeng Tao, Yigong Wang, Latifur Khan
摘要:非平穩數據流挖掘旨在對連續出現的大規模在線實例進行分類。與離線學習方式相比,最明顯的挑戰是在處理非靜態類別分布時,新類別的不斷涌現問題。非平穩流設置經常出現在現實世界的應用程序中,例如電子商務系統中涉及傳入產品的在線分類,或社交網絡 (Twitter) 上的新聞主題摘要。理想情況下,學習模型應該能夠從標記數據(在新任務中)學習新概念并減少模型性能在舊概念上的突然退化(也稱為災難性遺忘問題)。這項工作專注于在資源受限的情況下提高流挖掘方法的性能,其中舊數據的內存資源和標記的新實例都是有限/稀缺的。本文提出了一個簡單而有效的資源受限框架 CLEAR,以促進單次流挖掘期間遇到的的先前挑戰。具體來說,CLEAR 專注于在嵌入空間中創建和校準類表示(原型)。我們首先在大量未標記的數據上應用對比原型學習,并為嵌入空間中的每個類生成判別原型。接下來,為了更新新的任務/類別,本文提出了一種漂移估計策略來校準/補償每個類表示的漂移,這可以在不存儲任何先前數據的情況下減少知識遺忘。本文在流設置下對公共數據集(例如 CUB200、CIFAR100)進行了實驗,本文的方法在內存和注釋限制上,始終且明顯優于許多最先進的方法。
論文:
5. Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation
作者:Zhe Xie, Chengxuan Liu, Yichi Zhang, Hongtao Lu, Dong Wang, Yue Ding
摘要:序列推薦作為一個新興的研究課題,因其重要的現實意義而受到越來越多的關注。基于深度學習和注意力機制的模型在序列推薦方面取得了良好的效果。最近,基于變分自編碼器(VAE)的生成模型在協同過濾中顯示出獨特的優勢。特別是,序列 VAE 模型作為 VAE 的循環版本,可以有效地捕獲用戶序列中項目之間的時間依賴性并執行序列推薦。然而,基于 VAE 的模型存在一個共同的局限性,即所獲得的近似后驗分布的表示能力有限,導致生成的樣本質量較低。對于生成序列尤其如此。為了解決上述問題,本文提出了一種名為Adversarial and Contrastive Variational Autoencoder (ACVAE) 的新方法,用于序列推薦。具體來說,本文首先在對抗變分貝葉斯 (AVB) 框架下介紹了序列生成的對抗性訓練,這使本文模型能夠生成高質量的潛在變量。然后,我們使用對比損失。通過最小化對比損失,潛在變量將能夠學習更多個性化和顯著的特征。此外,在對序列進行編碼時,本文應用循環和卷積結構來捕獲序列中的全局和局部關系。最后,本文對四個真實世界的數據集進行了廣泛的實驗。實驗結果表明,本文提出的 ACVAE 模型優于其他最先進的方法。
論文:
1.介紹
讓機器能以人類智能相似的方式作出反應一直是人工智能研究人員的目標。為了讓機器能聽會說、能看會認、能理解會思考, 研究者提出一系列相關任務,如人臉識別、語音合成、閱讀理解等來訓練及評價機器在某一方面的智能程度。具體來說是,領域專家人工構造標準數據集,然后在其上訓練及評價相關模型及方法。但由于相關技術的限制,要想獲得效果更好、能力更強的模型,往往需要在大量的有標注的數據上進行訓練。
近期預訓練模型的出現在一定程度上緩解了這個問題。預訓練模型的解決思路是,既然昂貴的人工標注難以獲得,那么就去尋找廉價或者說幾乎無代價的標注信息。先利用廉價的標注信息預訓練模型再使用少量的昂貴的人工標注對模型進行微調。但是由于廉價的標注信息帶來的信息比較少又含有噪音,往往需要超大規模的數據以及超長的訓練時間對模型進行預訓練。目前來看這種代價是值得的,文本預訓練模型BERT一出世就在多項NLP任務上取得最好的結果。受此影響,語音領域預訓練模型也如雨后春筍般出現,如 MOCKINGJAY等。預訓練模型通過在大規模無標注數據上進行預訓練,一方面可以將從無標注數據上更加通用的知識遷移到目標任務上,進而提升任務性能;另一方面,通過預訓練過程學習到更好的參數初始點使得模型在目標任務上只需少量數據就能達到不錯的效果。
那么能否將預訓練方法應用到多模態任務上呢?能否通過挖掘不同模態數據之間關系設計預訓練任務訓練模型呢?能否通過大規模的無標注樣本讓模型理解懂得不同模態數據之間的關聯呢(如:文字的“馬”與圖片中的“馬”)?研究人員也抱著同樣的問題展開了探索,并取得了一定成果。本文梳理了目前多模態預訓練領域相關方法,并總結了各個方法所設計的預訓練任務及驗證實驗所使用的下游任務,希望對讀者能有所幫助。
2.多模態預訓練模型概覽
我們期望多模態預訓練模型能夠通過大規模數據上的預訓練學到不同模態之間的語義對應關系。在圖像-文本中,我們期望模型能夠學會將文本中的“狗”和圖片中“狗”的樣子聯系起來。在視頻-文本中,我們期望模型能夠將文本中的物體/動作與視頻中的物體/動作對應起來。為實現這個目標,需要巧妙地設計預訓練模型來讓模型挖掘不同模態之間的關聯。本文將側重介紹“如何設計預訓練任務”并通過表格來統計各個模型設計任務的異同。需要說明的是,為了方便對比我們統一了不同論文對相似任務的稱呼。
本文將目前多模態預訓練模型分為兩大類,圖像-文本預訓練模型(第3章)及視頻-文本預訓練模型(第4章)。對于兩大類預訓練模型,我們進一步將其分為Single-Stream 和Cross-Stream兩類,Single-Stream將圖片、文本等不同模態的輸入一視同仁,輸入同一個模型進行融合,而Cross-Stream將不同模態的輸入分別處理之后進行交叉融合。在第3章和第4章的最后,會用表格列出各個模型所使用的預訓練任務。在第5章會對目前的預訓練模型的方法進行總結。
3. 圖像-文本多模態預訓練模型 3.1 Cross-Stream 3.1.1 ViLBERT[1]
模型細節
輸入的文本經過文本Embedding層后被輸入到文本的單模態Transformer編碼器中提取上下文信息。使用預訓練Faster R-CNN對于圖片生成候選區域提取特征并送入圖像Embedding層生成Embedding。然后將獲取好的文本和圖像的Embedding通過Co-attention-transformer模塊進行相互交互融合,得到最后的表征。
ViLBERT模型圖如圖1所示,Co-attention-transformer模塊如圖2所示。
圖1 ViLBERT模型圖
圖2 Co-attention transformer模塊
預訓練任務
掩蔽文本預測(masked multi-modal modelling) 與BERT的設計思路一樣,根據概率隨機替換掉文本中部分詞,使用[MASK]占位符替代,需要模型通過文本中上下文,以及對應圖片中給出的信息,預測出被替換的詞。
掩蔽圖像預測(masked multi-modal modelling) 通過掩蔽經過Faster R-CNN提取到的預候選區域,使模型通過對應文本以及其他區域的圖像預測出被遮掩區域的類別。
圖片-文本對齊(multi-modal alignment) 給定構造好的圖文關系對,讓模型來判斷文本是否是對應圖片的描述,具體是使用以及
下游任務
作者將該模型應用到視覺問答(Visual Question Answering)、視覺常識推理(Visual Commonsense Reasoning)、指示表達定位(Grounding Referring Expressions)、圖像檢索(Caption-Based Image Retrieval)等下游任務上,并且取得了較好的結果。
3.1.2 LXMERT[2]
模型細節
類似于ViLBERT,對于文本和圖像經過Embedding層之后被送入各自的單模態編碼器,然后通過跨模態編碼器進行融合。
預訓練任務
掩蔽文本預測(Masked Cross-Modality LM) 該任務的設置與BERT的MLM任務設置一致。作者認為除了從語言模態中的非模態詞中預測被掩蔽詞外,LXMERT還可利用其跨模態模型架構,從視覺模態中預測被掩蔽詞,從而解決歧義問題,所以將任務命名為Masked Cross-Modality LM以強調這種差異。
掩蔽圖像類別預測(Detected-Label Classification)該任務要求模型根據圖像線索以及對應文本線索預測出直接預測被遮蔽ROI的目標類別。
掩碼圖像特征回歸(RoI-Feature Regression)不同于類別預測,該任務以L2損失回歸預測目標ROI特征向量。
圖片-文本對齊(Cross-Modality Matching) 通過50%的概率替換圖片對應的文本描述,使模型判斷圖片和文本描述是否是一致的。
圖像問答(Image Question Answering) 作者使用了有關圖像問答的任務,訓練數據是關于圖像的文本問題。當圖像和文本問題匹配時,要求模型預測這些圖像有關的文本問題的答案。
作者將該模型在多個下游任務上進行了測試,分別在視覺問答任務(Visual Question Answering)、面向現實世界視覺推理(Visual Reasoning in the Real World)等取得了很好的效果。
3.1.3 ERNIE-ViL[3] 模型細節
模型結構采用雙流架構,對于圖像和文本分別使用單模編碼器進行編碼然后使用跨模態Transformer實現兩個模態的信息交融。值得一提的是該模型引入了場景圖信息,通過將場景圖知識融入多模態預訓練中,使得模型更能精準把握圖像和文本之間細粒度的對齊信息。模型圖如圖5所示。
模型在預訓練任務中融入了場景圖(如圖6所示)的信息。場景圖中有目標(objects)、屬性(attributes)、關系(relationships)三種類別。
預訓練任務
場景圖預測(Scene Graph Prediction)根據給定的一段文本解析出場景圖結構,然后根據解析出的場景圖設計了三個子任務,分別是目標預測(object prediction)、屬性預測(attribute prediction)、關系預測(relationship prediction),通過掩蔽圖像和文本中場景圖解析出來的目標、屬性以及關系,使用模型進行預測,以讓模型學習到跨模態之間的細粒度語義對齊信息。
同時模型還使用了傳統的預訓練任務,分別是掩蔽文本預測(Masked Cross-Modality LM)、掩蔽圖像類別預測(Detected-Label Classification),以及圖片-文本對齊(Cross-Modality Matching)。
下游任務
作者在下游多個任務上進行檢測都取得了比較大的提升,具體有視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)、圖像檢索(Image Retrieval)、文本檢索(Text Retrieval)、指示表達定位(Grounding Referring Expressions)。
3.2 Single-Stream 3.2.1 VL-BERT[4] 模型細節
模型架構與BERT相似,如圖7所示。整個模型的輸入有四部分embedding。
Token embedding層:對于文本內容使用原始BERT的設定,但是添加了一個特殊符[IMG]作為圖像的token。
Visual feature embedding層:這層是為了嵌入視覺信息新添加的層。該層由視覺外部特征以及視覺幾何特征拼接而成,具體而言,對于非視覺部分的輸入是整個圖像的提取到的特征,對應于視覺部分的輸入即為圖像經過預訓練之后的Faster R-CNN提取到的ROI區域圖像的相應視覺特征。
Segment embedding層:模型定義了A、B、C三種類型的標記,為了指示輸入來自于不同的來源,A、B指示來自于文本,分別指示輸入的第一個句子和第二個句子,更進一步的,可以用于指示QA任務中的問題和答案;C指示來自于圖像。
Position embedding層:與BERT類似,對于文本添加一個可學習的序列位置特征來表示輸入文本的順序和相對位置。對于圖像,由于圖像沒有相對的位置概念,所以圖像的ROI特征的位置特征都是相同的。
作者在視覺-語言數據集以及純語言數據集上都進行了大規模的預訓練,使用概念標題數據庫(Conceptual Captions)數據集作為視覺-語言語料庫,該數據集包含了大約330萬張帶有標題注釋的圖片,圖片來自于互聯網。但是這個數據集存在一個問題就是圖像對應的標題是簡短的句子,這些句子很短并且很簡單,為了避免模型只關注于簡單子句,作者還使用了BooksCorpus和英語維基百科數據集進行純文本的訓練。
預訓練任務
掩蔽文本預測(Masked Language Model with visual Clues) 此任務與BERT中使用的Masked Language Modeling(MLM)任務非常相似。關鍵區別在于,在VL-BERT中包含了視覺線索,以捕獲視覺和語言內容之間的依存關系。
掩蔽圖像類別預測(Masked RoI Classification with Linguistic Clues) 類似于掩蔽文本預測,每個RoI圖像以15%的概率被隨機掩蔽,訓練的任務是根據其他線索預測被掩藏的RoI的類別標簽。值得一提的是為了避免由于其他元素的視覺特征的嵌入導致視覺線索的泄漏,在使用Faster R-CNN之前,需要先將被Mask的目標區域的像素置零。
下游任務
作者將模型應用于視覺常識推理(Visual Commonsense Reasoning)、視覺問答(Visual Question Answering)、引用表達式理解(Referring Expression Comprehension)任務,并且都取得了顯著的效果。
3.2.2 Image-BERT[5] 模型細節
ImageBERT在圖像Embedding層添加了圖像位置編碼,即將通過Faster R-CNN得到的物體對應的ROI區域相對于全局圖的位置信息,編碼為五維向量,作為位置編碼添加進圖像的特征表示中。
預訓練任務
掩蔽文本預測(Masked Language Modeling) 此任務與BERT中使用的Masked Language Modeling(MLM)任務設定基本一致。
掩蔽圖像類別預測(Masked Object Classification) 此任務是MLM任務的擴展。與語言建模類似,通過對視覺對象進行掩蔽建模,期望模型預測出被掩蔽的圖像token的類別。
掩蔽圖像特征回歸(Masked Region Feature Regression) 該任務旨在預測被掩蔽的視覺對象的嵌入特征。通過在相應位置的輸出特征向量后添加一個全連接層,以將其投影到與原始RoI對象特征相同的維度上,然后應用L2損失來進行回歸。
圖片-文本對齊(Image-Text Matching) 除了語言建模任務和視覺內容建模任務之外,作者還添加了圖片-文本對齊任務以學習圖像-文本對齊。對于每個訓練樣本,對每個圖像隨機抽取負例句子,對每個句子隨機抽取負例圖像以生成負例訓練數據,讓模型判斷給定的圖像文本對是否對應。
下游任務
作者在MSCOCO以及Filcker30k數據上分別測試模型在圖像檢索(Image Retrieval)以及文本檢索(Sentence Retrieval)任務上的性能,取得了一定的提升。
表1 圖像-文本預訓練模型概覽表
4. 視頻文本多模態預訓練 4.1 Cross-Stream 4.1.1 UniVL[6] 模型細節
該模型先使用單模態編碼器對文本與視頻數據進行單獨建模,再使用跨模態編碼器對兩個模態的表示進行聯合編碼。
預訓練任務
視頻-文本單模態表示空間對齊(video-text joint) 為了利用BERT來幫助模型獲得更好的視頻表示,作者設計了視頻-文本單模態表示空間對齊任務。該任務具體是,構造正例對(視頻與對應/相近的文本)和負例對(視頻與不相關的文本),希望正例對中的視頻表示與文本表示更接近而負例對中的更遠。其中,視頻表示由視頻單模態編碼器得出,文本表示由文本單模態編碼器得出。
條件掩蔽文本預測(conditioned masked language model) 與BERT的設計思路類似,作者設計條件掩蔽文本預測任務來訓練模型。文本中的詞被隨機替換成占位符[MASK],然后替換后的文本與視頻進行聯合表示后,預測替換前的詞。
掩蔽幀預測(conditioned masked frame model) 輸入的視頻幀被隨機替換成占位符號,然后使用模型來預測被替換的視頻幀。由于直接預測原始的RGB視頻幀非常困難,因此作者使用對比學習的方法,希望原始視頻幀與模型相應位置得到的表示相關性更高。
視頻-文本對齊(video-text alignment) 視頻與相應的文本之間對齊標簽為1,而與其他文本對應的標簽為0。使用這個對齊信息作為監督信號訓練模型。
文本重構(language reconstruction) 為了使得模型能夠應用到下游任務-視頻描述生成上,作者設計了文本重構任務。具體采用了一個自回歸解碼器,其輸入為處理后的文本和視頻幀,輸出是原始的文本。
下游任務
作者在視頻檢索(Text-based Video Retrieval)、視頻描述生成(Multimodal Video Captioning)、行為分割(Action Segmentation)、動作定位(Action step localization),以及多模態情感分類(Multimodal Sentiment Analysis)等下游任務上進行了實驗,驗證了模型的有效性。
4.1.2 ActBERT[7] 模型細節
與之前不同的是本工作考慮了視頻中更細粒度的信息——物體信息,引入掩蔽物體預測任務,使得模型更細粒度地捕捉圖像信息。工作框圖如下。
為了使得模型能夠充分利用文本信息、視頻中時序信息,以及視頻中物體信息,該工作提出了Tangled Transformer模型,模型圖如下。a-transformer模塊對動作特征進行建模,r-transformer模塊對物體對象特征進行建模,w-transformer模塊對文本特征進行建模。三者之間的信息通過跨模態的多頭注意力機制進行交互。
預訓練任務
掩蔽文本預測(Masked Language Modeling with Global and Local Visual Cues)該任務設計與BERT一致,掩蔽部分詞,然后將文本與動作特征以及物體特征送入模型中進行聯合建模,最后使用相應位置的輸出向量預測被掩蔽的詞。
掩蔽動作預測(Masked Action Classification) 隨機將輸入的動作表示向量進行掩蔽,然后強迫模型通過其他信息如文本信息和物體信息來預測出動作的標簽如add等。
掩蔽物體預測(Masked Object Classification) 隨機將物體特征向量進行掩蔽,然后讓模型預測出該位置上物體的分布概率。希望預測出來的概率與Faster R-CNN對該區域的預測概率相近。
視頻-文本對齊(Cross-modal matching) 使用[CLS]的表示去預測文本與視頻是否匹配,負例是通過隨機從其他數據中進行采樣得到。
下游任務
作者將該模型應用到視頻檢索(Text-video clip retrieval)、視頻描述生成(Video Captioning)、行為分割(Action Segmentation)、視頻問答(Video question answering)、動作定位(Action step localization)等下游任務上。
4.2 Single-Stream 4.2.1 VideoBERT[8] 模型細節
該工作使用Transformer對文本和視頻統一進行建模。
預訓練任務
掩蔽文本預測(text-only mask-completion) 與BERT的設計思路一樣,文本中的詞被隨機替換成占位符[MASK],然后替換后的文本與視頻進行聯合表示后,預測替換前的詞。
掩蔽視頻預測(video-only mask-completion) 為了使得模型適配于BERT架構,作者建立“視覺詞表”將輸入視頻量化。具體是,將所有視頻切成片段,使用S3D模型對片段進行表示。然后使用聚類算法對表示進行聚類,共得到20736個聚類中心,這樣每個視頻片段就可以由聚類中心來表示,即可將視頻片段用離散的聚類中心編號進行表示。輸入的“視覺詞”被隨機替換成占位符號,然后使用模型來預測被替換的“視覺詞”。
視頻-文本對齊(linguistic-visual alignment) 使用[CLS]表示預測視頻和文本是否在時序上對齊。
下游任務
作者在動作識別、視頻描述生成等下游任務上進行了實驗。此外,該模型還可以用于給定文本生成視頻以及給定視頻上文生成視頻下文等任務。
4.2.2 HERO[9] 模型細節
該篇工作為了捕捉視頻的時序信息以及文本與視頻的對應信息設計了兩個新的預訓練任務, 視頻字幕對齊(Video Subtitle Matching)以及視頻幀順序建模(Frame Order Modeling)。整體工作框架如下。(注:每個句子的文本以及對應的視頻幀通過Cross-Modal Transformer得到經過交互后的表示(棕色為文本表示),然后將獲得的視頻幀的表示送入到后續模塊中。)
預訓練任務
掩蔽文本預測(Masked Language Modeling) 該任務設計與BERT一致,掩蔽部分詞,然后將文本與視頻幀特征送入模型中進行聯合建模,最后使用相應位置的輸入向量預測被掩蔽的詞。
掩蔽幀預測(Masked Frame Modeling) 該任務設計與BERT類似,掩蔽部分幀向量,然后將文本與視頻幀特征送入模型中進行聯合建模,最后使用相應位置的輸出向量預測被掩蔽的幀。實現幀的預測可使用兩種方式,一種是預測出幀向量,然后與標準幀向量計算損失。第二種是使用對比學習的方法,被掩蔽位置對應的輸出向量應與被掩蔽的幀向量更為相關。
視頻字幕對齊(Video Subtitle Matching) 作者為了更好的建模視頻與文本,提出了視頻字幕對齊(Video Subtitle Matching)任務。該任務包含兩個任務目標,第一個是從一個完整視頻對應的字幕中隨機采樣出一個句子,希望模型能夠找出該句子在視頻中對應的起始位置。第二個是從一個完整視頻對應的字幕中隨機采樣出一個句子,希望該句子與該視頻之間相關性更強而與其他視頻相關性更弱。
視頻幀順序建模(Frame Order Modeling) 為了更好的建模視頻的時序性,隨機打亂部分輸入幀的順序,然后利用模型預測出來每一幀對應的實際位置。具體實踐時將其建模成一個分類任務,類別數為輸入長度為N。
下游任務
作者在視頻檢索(video-subtitle moment retrieval)、視頻問答(Video question answering),以及視頻文本推理(video-and-language inference)等下游任務上驗證了模型的有效性。
表2 視頻-文本預訓練模型概覽表
5. 總結
本文簡單梳理了多模態圖像-文本預訓練模型以及多模態視頻-文本預訓練模型,簡單介紹了相關預訓練模型架構,設計的預訓練任務,以及衡量模型性能的下游任務。
通過對多模態預訓練任務的梳理,我們可以發現,現有預訓練任務主要有兩大類,一類是主要針對單個模態數據設計的,如掩蔽文本預測、掩蔽圖像預測、掩蔽幀預測。其中掩蔽文本預測仍然沿用BERT的設計,掩蔽圖像預測和掩蔽幀預測一般都不會直接預測原始的物體對象/幀圖像,而是預測特征。由于視頻具有時序性,有些模型還設計了視頻幀順序建模任務。該類任務可以使用多模態數據,也可只使用單模態數據進行訓練。使用多模態數據時,模型預測時不僅可以使用該模態內部的信息,還可以使用其他模態的信息。第二類主要是針對多模態數據而設計的。該類任務通過挖掘不同模態數據中的對應關系,設計預訓練目標,如視頻-文本對齊、圖片-文本對齊等。對于視頻,還有研究者提出視頻字幕對齊任務,來讓模型捕捉兩模態信息之間的關聯。
目前的多模態預訓練模型相關工作已經取得了一定的進展,在多個下游任務上有了不俗的表現。未來的工作可能從以下幾個方向取得進一步的進展,第一是單模態下游任務上能否取得提升。現在大部分多模態預訓練模型都是在多模態的下游任務上進行測試,少有工作在單模態任務如自然語言處理任務與單模態預訓練模型如RoBERTa進行全面的比較。如果認為模型在多模態數據上通過預訓練能夠更加充分的理解語義,那么直覺上看多模態預訓練模型與單模態模型在相近的實驗設置下(如語料規模相似)應當取得更好的成績。第二是更精細的挖掘不同模態數據間的相關信息并設計更巧妙的預訓練任務。比如挖掘圖像-文本之間,名詞與物體對象之間的相關性,使得模型建立詞語與物體對象之間的相關性。第三是設計更高效的模型架構以及挖掘更大規模的高質量多模態數據。
參考資料
[1] Lu J, Batra D, Parikh D, et al. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[J]. arXiv preprint arXiv:1908.02265, 2019.
[2] Tan H, Bansal M. LXMERT: Learning Cross-Modality Encoder Representations from Transformers[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 5103-5114.
[3] Yu F, Tang J, Yin W, et al. Ernie-vil: Knowledge enhanced vision-language representations through scene graph[J]. arXiv preprint arXiv:2006.16934, 2020.
[4] Su W, Zhu X, Cao Y, et al. Vl-bert: Pre-training of generic visual-linguistic representations[J]. arXiv preprint arXiv:1908.08530, 2019.
[5] Qi D, Su L, Song J, et al. Imagebert: Cross-modal pre-training with large-scale weak-supervised image-text data[J]. arXiv preprint arXiv:2001.07966, 2020.
[6] Luo H, Ji L, Shi B, et al. Univilm: A unified video and language pre-training model for multimodal understanding and generation[J]. arXiv preprint arXiv:2002.06353, 2020.
[7] Zhu L, Yang Y. Actbert: Learning global-local video-text representations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8746-8755.
[8] Sun C, Myers A, Vondrick C, et al. Videobert: A joint model for video and language representation learning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 7464-7473.
[9] Li L, Chen Y C, Cheng Y, et al. Hero: Hierarchical encoder for video+ language omni-representation pre-training[J]. arXiv preprint arXiv:2005.00200, 2020.
本文主要聚焦于小模型(即輕量型模型)的自監督學習問題,作者通過實證發現:對比自監督學習方法在大模型訓練方面表現出了很大進展,然這些方法在小模型上的表現并不好。
為解決上述問題,本文提出了一種新的學習框架:自監督蒸餾(SElf-SupErvised Distillation, SEED),它通過自監督方式(SSL)將老師模型的知識表達能力遷移給學生模型。不同于直接在無監督數據上的直接學習,我們訓練學生模型去模擬老師模型在一組示例上的相似度得分分布。
所提SEED的簡潔性與靈活性不言而喻,包含這樣三點:(1) 無需任何聚類/元計算步驟生成偽標簽/隱類;(2) 老師模型可以通過優秀的自監督學習(比如MoCo-V2、SimCLR、SWAV等)方法進行預訓練;(3)老師模型的知識表達能力可以蒸餾到任意小模型中(比如更淺、更細,甚至可以是完全不同的架構)。
實驗表明:SEED可以提升小模型在下游任務上的性能表現。相比自監督基準MoCo-V2方案,在ImageNet數據集上,SEED可以將EfficientNet-B0的精度從42.2%提升到67.6%,將MobileNetV3-Large的精度從36.3%提升到68.2%,見下圖對比。
魯棒性是指系統在一定(結構、大小)參數攝動下,維持某些性能的特性。
對于機器學習問題而言,對抗樣本是一種很好的體現和驗證模型魯棒性的方式,模型魯棒性的問題遠遠不止對抗樣本一個方面,但是對抗樣本是模型魯棒性非常好的議題和出發點,代表了其中一種具體問題。因此,本文主要從對抗樣本角度出發簡述模型魯棒性相關內容。首先給出對抗樣本的實際案例,分析給出對抗樣本出現的原因,引出研究動機和意義。然后,介紹提升模型魯棒性的主要思路,包括信息瓶頸和互信息約束構建顯示正則的方法。最后給出總結和思考。
【導讀】ICML(International Conference on Machine Learning),即國際機器學習大會, 是機器學習領域全球最具影響力的學術會議之一,因此在該會議上發表論文的研究者也會備受關注。因疫情的影響, 今年第37屆ICML大會已于2020年7月13日至18日在線上舉行。據官方統計,ICML 2020共提交4990篇論文,接收論文1088篇,接收率為21.8%。與往年相比,接收率逐年走低。小編發現基于對比學習(Contrastive Learning)相關的paper也不少,對比學習、自監督學習等等都是今年比較火的topic,受到了很多人的關注。
為此,這期小編繼續為大家奉上ICML 2020必讀的六篇對比學習(Contrastive Learning)相關論文——SimCLR、對比多視角圖學習、對比強化學習、CPC、分解GAN、
ICML 2020 Accepted Paper: //proceedings.icml.cc/book/2020
ICML2020CI、ICML2020GNN_Part2、ICML2020GNN_Part1
1、A Simple Framework for Contrastive Learning of Visual Representations
作者:Ting Chen、Simon Kornblith、Mohammad Norouzi、Geoffrey Hinton
摘要:本文提出了SimCLR:一種簡單的視覺表示的對比學習(contrastive learning)框架。我們簡化了最近提出的對比自監督學習算法,并且不需要專門的體系結構或存儲庫。為了理解什么使對比預測任務能夠學習有用的表示,我們系統地研究了我們框架的主要組成部分。我們表明:(1)數據增強部分在定義有效的預測任務中起著關鍵作用;(2)在表示和對比損失之間引入可學習的非線性變換大大提高了學習表示的質量;(3)與監督學習相比,對比學習受益于更大的batch和更多的訓練。結合這些發現,我們能夠在ImageNet上顯著優于以往的自監督和半監督學習方法。在通過SimCLR學習得到的自監督表示上訓練的線性分類器達到了76.5%的TOP-1準確率,比以前的技術相對提高了7%,與監督ResNet-50的性能相當。當只對1%的標簽進行微調時,我們達到了85.8%的TOP-5準確率,在標簽減少100倍的情況下表現優于AlexNet。
代碼:
網址:
2、Contrastive Multi-View Representation Learning on Graphs
作者:Kaveh Hassani、Amir Hosein Khasahmadi
摘要:我們介紹了一種通過對比圖的結構視圖來學習節點級和圖級表示的自監督方法。我們表明,與視覺表示學習不同的是,將視圖數增加到兩個以上或對比多尺度編碼并不能提高性能,并且通過對比來自一階鄰居的編碼和圖擴散( graph diffusion)可以獲得最佳性能。在線性評估協議下,我們的模型在8個節點和圖分類基準上有8個取得了最新結果。例如,在CORA(節點)和Reddit-Binary(圖)分類基準上,我們達到了86.8%和84.5%的準確率,比以前的技術水平分別提高了5.5%和2.4%。與監督基線相比,我們的方法在8個基準中有4個表現優于它們。
網址:
3、CURL: Contrastive Unsupervised Representations for Reinforcement Learning
作者:Michael Laskin、Aravind Srinivas、Pieter Abbeel
摘要:我們提出了CURL—用于強化學習的對比無監督表示法。CURL使用對比學習從原始像素中提取高層特征,并在提取的特征之上執行非策略控制。在DeepMind Control Suite和Atari Games的復雜任務上,無論是基于模型的方法還是非模型的方法,CURL的表現都優于之前基于像素的方法,在100K環境和交互步驟基準下分別顯示1.9倍和1.2倍的性能提升。在DeepMind Control Suite上,CURL是第一個幾乎與使用基于狀態特征的方法的采樣效率相當的基于圖像的算法。
代碼:
網址:
4、Data-Efficient Image Recognition with Contrastive Predictive Coding
作者:Olivier J. Hénaff、Aravind Srinivas、Jeffrey De Fauw、Ali Razavi、Carl Doersch、S. M. Ali Eslami、Aaron van den Oord
摘要:人類觀察者從少數幾個例子中可以學會識別新的圖像類別,但使用人造圖像做到這一點仍然是一個挑戰。我們假設通過表示使數據有效識別成為可能,這些表示使自然信號的可變性更加可預測。因此,我們重新改進了對比預測編碼,這是學習這種表示的一個無監督目標。此新實現產生的特征可以支持ImageNet數據集上的最新線性分類準確性。當使用深度神經網絡作為非線性分類的輸入時,這種表示允許我們使用比直接在圖像像素上訓練的分類器少2-5倍的標簽。最后,這種無監督表示大大改善了對Pascal VOC數據集上的目標檢測的遷移學習,超過了全監督預訓練的ImageNet分類器。
網址:
5、InfoGAN-CR and ModelCentrality: Self-supervised Model Training and Selection for Disentangling GANs
作者:Zinan Lin、Kiran K. Thekumparampil、Giulia Fanti1Sewoong Oh
摘要:分解(disentangled)的生成模型將潛在向量映射到目標空間,同時強制學習的潛在子集是可解釋的,并且與目標分布的不同屬性相關聯。最近的進展主要是基于變分自編碼器(VAE)的方法,而訓練分離的生成式對抗網絡(GANS)仍然是具有挑戰性的。在這項工作中,我們證明了分離的GAN面臨的主要挑戰可以通過使用自監督來緩解。我們的主要貢獻有兩個:第一,我們設計了一種新的具有自監督功能的分離GANs訓練方法。我們提出了對比正則化(contrastive regularizer)算法,它的靈感來自于一個自然的分解概念:latent traversal。這比最先進的基于VAE和GAN的方法獲得了更高的分離分數。其次,我們提出了一種稱為ModelCentrality的無監督模型選擇方案,它使用生成的合成樣本來計算模型集合的medoid(多維中值推廣)。令人驚訝的是,這種無監督的ModelCentrality能夠選擇比使用現有的監督超參數選擇技術訓練的模型性能更好的模型。將對比正則化和ModelCentrality相結合,在不需要有監督超參數選擇的情況下,大幅度地獲得了最先進的分離分數。
網址:
6、Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
作者:Tongzhou Wang、Phillip Isola
摘要:對比表示學習在實踐中取得了顯著的成功。在這項工作中,我們確定了與對比損失相關的兩個關鍵性質:(1)正對特征的對齊方式(緊密度)和(2)超球面上(歸一化)特征誘導分布的均勻性。我們證明,漸近地,對比損失優化了這些屬性,并分析了它們對下游任務的積極影響。根據經驗,我們引入了一個可優化的指標來量化每個屬性。在標準視覺和語言數據集上的大量實驗證實了指標與下游任務性能之間的強烈一致性。直接針對這兩個指標進行優化可以使下游任務的表現比對比學習更好或更高。
代碼:
網址: