Yann LeCun曾說“如果人工智能是一個蛋糕,則蛋糕的主要成分就是無監督學習”。這句話反應了無監督學習在深度學習領域扮演著重要的作用。當前普遍的方法集中在如何設計有效的代理任務來對無標注的輸入數據學習到好的視覺表征。在計算機視覺上,目前比較流行的直接有效的方法是對比學習,將訓練數據的每個實例當做單一的分類。基于這個實力判別,很多自監督方法在分類任務上得到了有效的提升。他們成功彌補了自監督方法和監督方法的代溝。然而,這項任務仍然具有挑戰:
a. 掩碼語言模型在自然語言領域得到了廣泛的應用。圖像是高維特征,多噪聲且相比于文本形式復雜。在視覺領域中,圖像的主要信息會被隨機分到不同的token中,如果這些token被隨機masked掉,將會導致很差的表現。這個隨機掩碼語言模型容易掩蓋圖像的關鍵區域的token,這樣會導致誤判且不適合直接應用于自監督視覺Transformers。
b. 很多自監督方法是利用全局特征學習圖像級別預測,對于像素級別預測優化不足。當前自監督學習方法也許對圖像分類任務過度擬合,對下游密集任務預測表現效果不好。
//www.zhuanzhi.ai/paper/51fc329856a3bcd21dfb8545d693e224
針對以上提出的問題,我們提出掩碼Transformer自監督學習方法,如下圖所示。MST創造性的引入了注意力特征圖引導掩碼策略并利用掩碼特征來恢復全局圖像特征任務。我們將介紹如何利用注意力特征引導掩碼策略幫助掩碼語言模型應用到視覺領域。最后我們將介紹網絡的結構和實驗細節。
近些年來,深度學習領域出現了一大批能力、容量均不斷增長的架構。在不斷升級的硬件的支持下,今天的模型已經能夠輕松地消化數百萬張圖像,而且開始向數以億計的標記圖像進發。
在自然語言處理中,這種數據需求已經成功地通過自監督預訓練來解決。基于 GPT 自回歸語言建模和 BERT 掩蔽自編碼的解決方案在概念上非常簡單:它們刪除一部分數據,并學習預測刪除的內容。這些方法可以用來訓練包含數千億參數的可泛化 NLP 模型。
掩蔽自編碼器是一種更通用的去噪自編碼器,也適用于計算機視覺。其實,與視覺密切相關的研究早于 BERT。在 BERT 成功之后,人們對這一想法也產生了極大的興趣。但盡管如此,視覺自編碼方法的發展還是落后于 NLP。何愷明等研究者想知道:是什么造成了這種差異?
他們嘗試從以下幾個角度來回答這一問題:
1、架構差異。在計算機視覺領域,卷積網絡是過去十年的主流架構。不過,隨著 Vision Transformers(ViT)的推出,這種架構上的差異已經逐漸縮小,應該不會再成為障礙。
2、信息密度差異。語言是人類產生的高度語義化信號,信息非常密集。當訓練一個模型來預測每個句子中缺失的寥寥數詞時,這項任務似乎能誘發復雜的語言理解。但視覺任務就不同了:圖像是自然信號,擁有大量的空間冗余。例如,一個缺失的 patch 可以根據相鄰的 patch 恢復,而不需要對其他部分、對象和場景有很多的高級理解。
為了克服這種差異并鼓勵學習有用的特征,研究者展示了:一個簡單的策略在計算機視覺中也能非常有效:掩蔽很大一部分隨機 patch。這種策略在很大程度上減少了冗余,并創造了一個具有挑戰性的自監督任務,該任務需要超越低級圖像統計的整體理解。下圖 2 - 圖 4 展示了這一重建任務的定性結果。
3、自編碼器的解碼器(將潛在表征映射回輸入)在文本和圖像重建任務中起著不同的作用。在計算機視覺任務中,解碼器重建的是像素,因此其輸出的語義水平低于一般的識別任務。這與語言相反,語言任務中的解碼器預測的是包含豐富語義信息的缺失單詞。雖然在 BERT 中,解碼器可能是微不足道的(一個 MLP),但何愷明等研究者發現,對于圖像,解碼器的設計對于學到的潛在表示的語義水平起著關鍵作用。
基于以上分析,研究者提出了一種簡單、有效且可擴展的掩蔽自編碼器(MAE)用于視覺表征學習。該 MAE 從輸入圖像中掩蔽了隨機 patch 并重建像素空間中缺失的 patch。它具有非對稱的編碼器 - 解碼器設計。其中,編碼器僅對 patch 的可見子集(沒有掩碼 token)進行操作,解碼器則是輕量級的,可以從潛在表征和掩碼 token 中重建輸入(圖 1)。
在這個非對稱編碼器 - 解碼器中,將掩碼 token 轉移到小型解碼器會導致計算量大幅減少。在這種設計下,非常高的掩蔽率(例如 75%)可以實現雙贏:它優化了準確性,同時允許編碼器僅處理一小部分(例如 25%)的 patch。這可以將整體預訓練時間減少至原來的 1/3 或更低,同時減少內存消耗,使我們能夠輕松地將 MAE 擴展到大型模型。
MAE 可以學習非常大容量的模型,而且泛化性能良好。通過 MAE 預訓練,研究者可以在 ImageNet-1K 上訓練 ViT-Large/-Huge 等需要大量數據的模型,提高泛化性能。例如,在 ImageNet-1K 數據集上,原始 ViT-Huge 模型經過微調后可以實現 87.8% 的準確率。這比以前所有僅使用 ImageNet-1K 數據的模型效果都要好。
在Transformer模型[1,2,6,7,8]中,相對位置編碼顯式地對任意兩個Token的位置關系進行建模,提高了模型的表征能力。它的有效性在自然語言處理領域得到了充分證明[14,15,16,17,18]。然而,在計算機視覺領域,討論相對位置編碼的工作比較少[9,10,11,12,13]且存在不同的觀點。由于圖像可視為二維的序列,如何將一維相對位置編碼推廣到二維相對位置編碼,解決方案仍不清晰。本篇論文提出了四種二維相對位置編碼的映射方式,同時分析了Vision Transformer中影響二維相對位置性能的關鍵因素,得到了以下有趣的發現:
不需要調整訓練的超參數,相對位置編碼能給圖像分類和目標檢測的Vision Transformers模型帶來顯著的精度提升;
相對位置的方向信息在圖像分類、目標檢測任務中有著重要作用;
輸入相關的相對位置編碼比輸入無關的相對位置編碼更有效;
組合不同嵌入特征上的相對位置編碼,能夠進一步提升模型的表征能力;
在圖像分類任務中,相對位置編碼可以完全替代絕對位置編碼,因為圖像分類不需要預測物體的位置,相對位置編碼能夠讓模型更關注局部信息;在目標檢測任務中,相對位置編碼能提高模型精度,但絕對位置編碼是必須的,因為相對位置編碼不能提供物體定位所需的絕對位置信息。 //houwenpeng.com/publications/iRPE.pdf
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。
我們提出了VILLA,這是已知的第一個針對視覺和語言(V+L)表征學習的大規模對抗訓練。VILLA由兩個訓練階段組成: (一)任務不可知的對抗性預訓練; 其次(二)針對具體任務進行對抗性微調。為了避免在圖像像素和文本標記上增加對抗性擾動,我們建議在每個模態的嵌入空間中進行對抗性訓練。為了實現大規模訓練,我們采用了“free”對抗式訓練策略,并與基于KL發散的正則化相結合,提高了嵌入空間的高不變性。我們將VILLA應用到目前表現最好的V+L模型中,并在廣泛的任務中達到了新的水平,包括視覺問題回答、視覺常識推理、圖像-文本檢索、參考表達理解、視覺隱含和NLVR2。