摘要:
本文提出了一個簡單而通用的目標檢測框架Pix2Seq。不像現有的方法,明確地集成關于任務的先驗知識,我們簡單地將目標檢測作為一個語言建模任務,條件是觀察像素輸入。目標描述(如包圍盒和類標簽)被表示為離散符號序列,我們訓練神經網絡來感知圖像并生成所需的序列。我們的方法主要基于直覺,即如果神經網絡知道目標在哪里和是什么,我們只需要教它如何讀出它們。除了使用特定于任務的數據增強外,我們的方法對任務進行了最小的假設,但與高度專業化和良好優化的檢測算法相比,它在具有挑戰性的COCO數據集上取得了具有非常好的結果。
引言
視覺目標檢測系統的目標是識別和定位圖像中所有預定義類別的目標。檢測到的對象通常由一組包圍框和相關的類標簽描述。考慮到任務的難度,大多數現有的方法,如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin et al., 2017b; Carion et al., 2020),經過精心設計和高度定制,在結構和損失功能的選擇方面具有大量的先驗知識。例如,許多架構都使用了邊界框(例如,區域方案(Girshick, 2015;Ren et al., 2015)和RoI池化(Girshick et al., 2014; He et al., 2017))。損失函數也經常被裁剪為使用邊界盒,如盒回歸(Szegedy et al., 2013;Lin et al., 2017b),集匹配(Erhan et al., 2014;Carion et al., 2020),或合并特定的性能指標,如邊界框上的交叉-聯合(Rezatofighi et al., 2019)。盡管現有系統在無數領域都有應用,從自動駕駛汽車(Sun et al., 2020),到醫學圖像分析(Jaeger et al., 2020),再到農業(Sa et al., 2016),但其專業化和復雜性使其難以整合到一個更大的系統中。或者泛化到與通用智能相關的更廣泛的任務。
本文提出一種新的方法,如果神經網絡知道目標在哪里和什么,我們只需要教它把它們讀出來。通過學習“描述”對象目標,模型可以學習以像素觀察為基礎的“語言”,從而得到有用的目標表示。這是通過我們的Pix2Seq框架實現的。給定一個圖像,我們的模型產生一個離散的標記序列,對應于目標描述,讓人想起圖像字幕系統(Vinyals et al., 2015b; Karpathy & Fei-Fei, 2015; Xu et al., 2015)。本質上,我們將目標檢測視為一個以像素輸入為條件的語言建模任務,其模型結構和損失函數是通用的、相對簡單的,沒有針對檢測任務進行專門設計。因此,可以很容易地將框架擴展到不同的領域或應用,或將其合并到支持一般智能的感知系統中,為廣泛的視覺任務提供語言接口。
為了處理Pix2Seq的檢測任務,我們首先提出了一個量化和序列化方案,將包圍盒和類標簽轉換成一個離散令牌序列。然后我們利用編碼器-解碼器體系結構來感知像素輸入并生成目標序列。目標函數是基于像素輸入和之前的標記的最大可能性。雖然體系結構和損失函數都是任務無關的(無需假設關于目標檢測的先驗知識,例如包圍框),但我們仍然可以將特定于任務的先驗知識與序列增強技術結合起來,該技術在訓練過程中改變輸入和目標序列,如下所示。通過廣泛的實驗,與高度定制的、建立良好的方法相比,包括Faster R-CNN (Ren et al., 2015)和DETR (Carion et al., 2020)。,我們證明了這個簡單的Pix2Seq框架可以在COCO數據集上取得有競爭力的結果。
PIX2SEQ框架
在提出的Pix2Seq框架中,我們將目標檢測視為一項語言建模任務,條件是像素輸入。如圖1所示,Pix2Seq的架構和學習過程有四個主要組件(圖2):
圖像增強:在訓練計算機視覺模型中很常見,我們使用圖像增強來豐富一組固定的訓練樣例
序列構造和增強:由于圖像的目標標注通常表示為一組包圍盒和類標簽,我們將它們轉換為一組離散標記。
架構:我們使用編碼器-解碼器模型,編碼器感知像素輸入,解碼器生成目標序列(每次一個標記)。
目標/損失函數:對模型進行訓練,使以圖像和之前的令牌為條件的令牌的對數可能性最大化(具有softmax交叉熵損失)。
實驗結果
我們在MS-COCO 2017檢測數據集(Lin et al., 2014)上評估了提出的方法,該數據集包含118k訓練圖像和5k驗證圖像。為了與DETR和Faster R-CNN進行比較,我們報告了平均精度(AP)。
結果如表1所示,其中每一節比較相同ResNet“骨干網”的不同方法。總體而言,Pix2Seq在這兩個Baseline上都取得了有相匹配的結果。我們的模型在小型和中型目標對象上的表現與Faster R-CNN相當,但在大型目標對象上表現更好。與DETR相比,我們的模型在大型和中型目標對象上的性能相當或略差,但在小型目標上性能明顯更好。
結論
本文介紹了一個簡單而通用的目標檢測框架Pix2Seq。通過將目標檢測轉換為語言建模任務,我們的方法在很大程度上簡化了檢測pipeline,消除了現代檢測算法中的大部分專業化。雖然在具有挑戰性的COCO數據集上,它與建立良好的基線相比取得了有競爭力的結果,但架構和訓練過程仍然可以進行優化,以提高其性能。我們認為,所提出的Pix2Seq框架不僅適用于目標檢測,還可以應用于其他產生低帶寬輸出的視覺任務,其中輸出可以表示為一個相對簡潔的離散token序列(如關鍵點檢測、圖像字幕、視覺問答)。為此,我們希望將Pix2Seq擴展為一個通用和統一的接口,以解決各種各樣的視覺任務。此外,目前訓練Pix2Seq的方法完全是基于人類注釋的,我們希望減少這種依賴,讓模型也能從更多的未標記數據中受益。
基于自監督學習的Bert[1]預訓練模型在NLP領域大放光彩,在多項下游任務中均取得很好的效果。Bert在無標注的語料中充分地學到了通用的知識,那么很容易引出一個問題,CV領域是否也可以“復現”Bert的成功呢?近年比較火熱的對比學習或許是這個問題的一個答案。
對比學習(Contrastive Learning)是自監督學習的一種,需要從無標注的圖像數據中學習特征表示,并用于下游任務中。其指導原則是:通過自動構造相似實例和不相似實例,學習一個表示學習模型,通過這個模型,使得相似的實例在投影空間中比較接近,而不相似的實例在投影空間中距離比較遠。本文將介紹對比學習的基本思路以及經典的MoCo系列[2][3][4]、SimCLR系列模型[5][6],了解對比學習的方法和特性。
[1] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
[2] He, Kaiming, et al. "Momentum contrast for unsupervised visual representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[3] Chen, Xinlei, et al. "Improved baselines with momentum contrastive learning." arXiv preprint arXiv:2003.04297 (2020).
[4] Chen, Xinlei, Saining Xie, and Kaiming He. "An empirical study of training self-supervised visual transformers." arXiv preprint arXiv:2104.02057 (2021).
[5] Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." International conference on machine learning. PMLR, 2020.
[6] Chen, Ting, et al. "Big self-supervised models are strong semi-supervised learners." arXiv preprint arXiv:2006.10029 (2020).
[7] Contrastive Self-Supervised Learning //ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html
[8] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
[9] Goodfellow, Ian J., et al. "Generative adversarial networks." arXiv preprint arXiv:1406.2661 (2014).
[10] Caron, Mathilde, et al. "Unsupervised learning of visual features by contrasting cluster assignments." arXiv preprint arXiv:2006.09882 (2020).
[11] Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).
[12] Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).
[13] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. "SimCSE: Simple Contrastive Learning of Sentence Embeddings." arXiv preprint arXiv:2104.08821 (2021).
通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。
End-to-End Object Detection with Transformers
代碼:
本文已提交至ECCV 2020,作者團隊:Facebook AI Research。FAIR提出DETR:基于Transformers的端到端目標檢測,沒有NMS后處理步驟、真正的沒有anchor,直接對標且超越Faster R-CNN,代碼剛剛開源!
注:開源24小時,star數已高達700+!
簡介
本文提出了一種將目標檢測視為direct set直接集合預測問題的新方法。我們的方法簡化了檢測流程,有效地消除了對許多手工設計的組件的需求,例如非極大值抑制(NMS)或錨點生成,這些組件明確編碼了我們對任務的先驗知識。
這種稱為Detection Transformer或DETR的新框架的主要組成部分是基于集合的全局損失函數,該損失函數通過二分匹配和transformer編碼器-解碼器體系結構強制進行唯一的預測。給定一個固定的學習對象查詢的小集合,DETR會考慮目標對象與全局圖像上下文之間的關系,并直接并行輸出最終的預測集合。
與許多其他現代檢測器不同,新模型在概念上很簡單,并且不需要專門的庫。DETR與具有挑戰性的COCO對象檢測數據集上公認的且高度優化的Faster R-CNN baseline具有同等的準確性和運行時性能。此外,可以很容易地將DETR遷移到其他任務例如全景分割。
本文的Detection Transformer(DETR,請參見圖1)可以預測所有物體的劇烈運動,并通過設置損失函數進行端到端訓練,該函數可以在預測的物體與地面真實物體之間進行二分匹配。DETR通過刪除多個手工設計的后處理過程例如nms,對先驗知識進行編碼的組件來簡化檢測流程。與大多數現有的檢測方法不同,DETR不需要任何自定義層,因此可以在包含標準CNN和轉換器類的任何框架中輕松復制。
DETR的主要特征是二分匹配損失和具有(非自回歸)并行解碼的Transformer的結合。
參考:
在一個持續的循環,在這個循環中,對對抗攻擊更強的防御隨后被更高級的防御感知攻擊打破。我們提出了一種結束此循環的新方法,即通過使攻擊者生成語義上類似于攻擊目標類的輸入來“轉移”對抗攻擊。為此,我們首先提出一種基于膠囊網絡的更強大的防御,它結合了三種檢測機制來實現對標準攻擊和防御感知攻擊的最新檢測性能。然后,我們進行了一項人體研究,要求參與者對攻擊產生的圖像進行標記,結果表明,針對我們的防御系統的未檢測到的攻擊通常與對抗目標類相似。這些攻擊圖像不能再被稱為“對抗性的”,因為我們的網絡像人類一樣對它們進行分類。
【導讀】自監督學習是新的研究熱點-【AAAI2020圖靈獎得主YannLecun】自監督學習Self-Supervised Learning是未來 。近日,深度學習先驅Geoffrey Hinton領銜的Google大腦團隊發布了他們在視覺表示對比學習的最新研究成果-SimLCR,建立了新的SOTA視覺ImageNet識別模型,76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。并有一系列重要的發現:包括(1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟,不得不看!
本文提出了一個簡單的視覺表示對比學習(contrastive learning)框架。我們簡化了最近提出的對比型自監督學習算法,不需要專門的架構或存儲庫。為了了解是什么使對比預測任務能學習有用的表示,我們系統地研究了我們提出的框架的主要組成部分。我們表明, (1) 數據增廣的組成在定義有效的預測任務中發揮了至關重要的作用,(2) 引入一個可學的非線性變換在視覺表示和對比損失之間大大提高學習表示的質量,和 (3) 與監督學習相比,對比學習受益于更大的批量尺寸和更多的訓練步驟。結合這些發現,我們能夠在很大程度上超越以往的方法,在ImageNet上進行自監督和半監督學習。在SimCLR學習的自監督表示上訓練的線性分類器實現了76.5%的top-1準確度,比以前的水平提高了7%,與監督的ResNet-50的性能相當。當僅對1%的標簽進行微調時,我們實現了85.8%的前5名準確度,以100倍的標簽數超過了AlexNet。
概述
學習沒有人類監督的有效視覺表示是一個長期存在的問題。大多數主流方法可分為兩類:生成式和判別式。生成式方法學習在輸入空間中生成或以其他方式建模像素 (Hinton et al., 2006; Kingma & Welling, 2013; Goodfellow et al., 2014)。然而,像素級的生成在計算上是昂貴的,而且對于表示學習可能不是必需的。判別方法使用與監督學習類似的目標函數來學習表示,但是訓練網絡執行下游任務,其中輸入和標簽都來自未標記的數據集。許多這類方法依賴于啟發法來設計下游任務(Doersch et al., 2015; Zhang et al., 2016; Noroozi & Favaro, 2016; Gidaris et al., 2018),這可能限制了學習表示的普遍性。基于潛在空間中的對比學習的判別方法最近顯示出了巨大的潛力,取得了最先進的結果(Hadsell et al., 2006; Dosovitskiy et al., 2014; Oord et al., 2018; Bachman et al., 2019)。
圖1: ImageNet top-1在不同自監督方法學習的表示上訓練的線性分類器的精度(在ImageNet上預先訓練)。灰色十字表示有監督的ResNet-50。我們的方法SimCLR以粗體顯示。
在這項工作中,我們介紹了視覺表示對比學習的一個簡單框架,我們稱之為SimCLR。SimCLR不僅優于以前的工作(圖1),而且更簡單,不需要專門的架構(Bachman et al., 2019; Hénaff et al., 2019)或者存儲池 (Wu et al., 2018; Tian et al., 2019; He et al., 2019a; Misra & van der Maaten, 2019)。
為了了解是什么使好的對比表示學習成為可能,我們系統地研究了我們的框架的主要組成部分,并表明:
[topsep=0pt, partopsep=0pt, leftmargin=13pt, parsep=0pt, itemsep=4pt]
在定義產生有效表示的對比預測任務時,多個數據增強操作的組合是至關重要的。另外,無監督對比學習比監督學習具有更強的數據增強性。
在表示和對比損失之間引入一個可學習的非線性變換,極大地提高了學習表示的質量。
具有對比交叉熵損失的表示法學習得益于歸一化嵌入和適當調整的溫度參數。
與監督學習相比,對比學習受益于更大的批量和更長的訓練。與監督學習一樣,對比學習也受益于更深更廣的網絡。
我們結合這些發現,在ImageNet ILSVRC-2012上實現了一種新的自監督和半監督學習(Russakovsky et al., 2015)。** 在線性評價方案下,SimCLR達到了76.5%的top-1準確率,相對于之前的最先進水平(Henaff et al., 2019)提高了7%。當僅使用1%的ImageNet標簽進行微調時,SimCLR達到了85.8%的top-5準確率,相對提高了10% (Henaff et al., 2019)。當對其他自然圖像分類數據集進行微調時,SimCLR在12個數據集中的10個上的表現與強監督基線(Kornblith et al., 2019)相當或更好。**