亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最新《Transformers 2D目標檢測》綜述,值得關注!

ransformers在自然語言處理(NLP)中的卓越性能激發了研究者們探索其在計算機視覺任務中的應用。像其他計算機視覺任務一樣,DEtection TRansformer(DETR)通過將檢測視為一種集合預測問題,而無需生成建議和進行后處理步驟,將transformers引入到目標檢測任務中。它是一種用于目標檢測的最先進(SOTA)方法,特別是在圖像中的目標數量相對較少的情況下。盡管DETR取得了成功,但它在訓練收斂速度上存在問題,并且在小目標上的性能有所下降。因此,提出了許多改進方案來解決這些問題,從而對DETR進行了大量的改進。自2020年以來,基于transformer的目標檢測引起了越來越多的關注,并展示了令人印象深刻的性能。盡管已經進行了大量關于視覺領域中transformers的調查,但是關于使用transformers進行2D目標檢測的改進的回顧仍然缺失。本文詳細回顧了關于DETR最近發展的二十一篇論文。我們從Transformers的基本模塊開始,例如自注意力、目標查詢和輸入特性編碼。然后,我們覆蓋了DETR的最新進展,包括骨干修改、查詢設計和注意力精煉。我們還在性能和網絡設計方面比較了所有的檢測transformers。我們希望這項研究將增加研究者對解決將transformers應用于目標檢測領域的現有挑戰的興趣。研究人員可以在此網頁上跟蹤檢測transformers的新進展://github.com/mindgarage-shan/trans_object_detection_survey。

1. 引言

目標檢測是計算機視覺中的基礎任務之一,涉及在圖像中定位和分類對象 [1], [2], [3], [4]。多年來,卷積神經網絡(CNNs)一直是目標檢測模型的主要骨干[1]。然而,Transformers在自然語言處理(NLP)中的最近成功使研究人員開始探索它們在計算機視覺中的潛力[5]。已經證明,Transformer架構[6]在捕獲序列數據中的長距離依賴性方面非常有效[6],這使其成為目標檢測任務的有吸引力的候選者。2020年,Carion等人提出了一種名為DEtection TRansformer (DETR)的新型目標檢測框架[7],它用使用transformer編碼器-解碼器網絡的完全端到端可訓練的架構替換了傳統的基于區域建議的方法。DETR網絡顯示出了令人充滿希望的結果,超過了傳統的基于CNN的目標檢測器[1], [2], [3], [4],同時也消除了對手工制作組件(如區域提議網絡)和后處理步驟(如非最大抑制(NMS))[8]的需求。

自DETR推出以來,已經提出了一些修改和改進來克服其限制,例如訓練收斂慢和對小目標的性能下降。圖1顯示了檢測變換器(DETR)及其改進性能和訓練收斂的文獻概述。Deformable-DETR [9] 修改了注意力模塊來處理圖像特征圖,認為注意力機制是訓練收斂慢的主要原因。UP-DETR [10] 提出了一些修改來預訓練DETR,類似于在自然語言處理中預訓練Transformers。EfficientDETR [11] 基于原始的DETR和Deformable-DETR,檢查了隨機初始化的目標概率,包括參考點和目標查詢,這是多次訓練迭代的原因之一。SMCA-DETR [12] 引入了一個空間調制的共注意模塊,替換了DETR中現有的共注意機制,以克服DETR的訓練收斂慢的問題。TSPDETR [13] 處理交叉注意力和二部匹配的不穩定性,以克服DETR的訓練收斂慢的問題。Conditional-DETR [14] 提出了一種條件交叉注意力機制來解決DETR的訓練收斂問題。WB-DETR [15] 將CNN骨干用于特征提取視為額外的組件,并提出了一個沒有骨干的Transformer編碼器-解碼器網絡。PnP-DETR [16] 提出了一個PnP采樣模塊,以減少空間冗余并使Transformer網絡計算上更有效。Dynamic-DETR [17] 在編碼器-解碼器網絡中引入了動態注意力。YOLOS-DETR [18] 通過使用最少的輸入空間設計信息,展示了Transformer從圖像識別到序列檢測的可轉移性和多功能性,并改進了性能。Anchor-DETR [19] 提出了作為錨點的目標查詢,這在基于CNN的目標檢測器中得到了廣泛的應用。Sparse-DETR [20] 通過使用可學習的交叉注意力圖對編碼器令牌進行過濾,降低了計算成本。D2ETR [21] 使用新的跨尺度注意力模塊在解碼器中使用來自骨干網絡的精細融合特征圖。FP-DETR [22] 重新定義了用于檢測transformers的預訓練和微調階段。CFDETR [23] 通過利用局部信息來優化預測的位置,因為不正確的邊界框位置會降低對小目標的性能。DN-DETR [24] 使用帶有噪聲的目標查詢作為解碼器的額外輸入,以減少DETR中二部匹配機制的不穩定性,這是導致訓練收斂慢的問題。AdaMixer [25] 認為編碼器是骨干網絡和解碼器之間的額外網絡,其設計復雜性限制了性能并減慢了訓練收斂的速度,并提出了一個3D采樣過程和對解碼器的少量修改。REGO-DETR [26] 提出了一種基于RoI的檢測優化方法,以改進檢測transformer中的注意力機制。DINO [27] 考慮使用帶有正面和負面噪聲的目標查詢,以加快訓練收斂的速度,并改進對小目標的性能。 由于基于Transformer的檢測方法的快速進步,跟蹤新的進步變得越來越具有挑戰性。因此,對正在進行的進展進行回顧是必要的,并且對該領域的研究人員將是有幫助的。

本文提供了2D檢測Transformers最近進展的詳細概述。表1顯示了改進檢測Transformer(DETR)以提高性能和訓練收斂的修改概述。我們的貢獻

  1. 從架構角度對基于Transformer的檢測方法進行詳細回顧**。我們根據骨干網絡的修改、預訓練水平、注意力機制、查詢設計等方面,對DEtection TRansformer(DETR)的改進進行分類和總結。我們提出的分析旨在幫助研究人員更深入地理解檢測Transformers的關鍵組件在性能指標方面的含義。

  2. 對檢測Transformers的性能評估。我們使用流行的基準測試MS COCO [30] 來評估檢測Transformers的改進。我們也強調了這些方法的優點和局限性。3) 對改進版本的檢測Transformers的準確性和計算復雜性的分析。我們對最先進的基于Transformer的檢測方法進行評價性比較,關注其在注意力機制、骨干網絡修改、查詢設計改進等方面。4) 對檢測Transformers的關鍵構建模塊的概述,以進一步提高性能和未來的發展方向。我們檢查了各種關鍵的架構設計模塊對網絡性能和訓練收斂的影響,并為未來的研究提供可能的建議。

2 目標檢測和視覺中的Transformers

2.1 目標檢測

本節解釋了目標檢測的關鍵概念以及之前使用過的目標檢測器。關于目標檢測概念的更詳細分析可以在[35],[63]中找到。目標檢測任務通過在每個目標周圍提供一個邊界框和其類別,來在圖像中定位和識別目標。這些檢測器通常在像PASCAL VOC [64]或MS COCO [30]這樣的數據集上進行訓練。骨干網絡將輸入圖像的特征提取為特征圖[65]。通常,像ResNet50 [66]這樣的骨干網絡先在ImageNet [67]上進行預訓練,然后在下游任務上進行微調[68],[69],[70],[71]。此外,許多工作也使用了視覺transformers [72],[73],[74]作為骨干網絡。單階段目標檢測器[3],[4],[75],[76],[77],[78],[79],[80],[81],[82],[83]只使用一個網絡,速度更快,但性能低于兩階段網絡。兩階段目標檢測器[1],[2],[8],[65],[84],[85],[86],[87],[88],[89]包含兩個網絡,提供最終的邊界框和類標簽。輕量級檢測器:輕量級檢測器是一種設計為在計算上高效且相比標準目標檢測模型需要較低計算資源的目標檢測模型。這些是實時目標檢測器,可以在小設備上使用。這些網絡包括[90],[91],[92],[93],[94],[95],[96],[97],[98]。3D目標檢測:3D目標檢測的主要目的是使用3D邊界框識別感興趣的目標,并給出一個類標簽。3D方法分為三個類別,即基于圖像的[99],[100],[101],[102],[103],[104],[105],基于點云的[106],[107],[108],[109],[110],[111],[112],[113],[114]和基于多模態融合的[115],[116],[117],[118],[119]。

2.2 用于分割的Transformer

自注意力機制可以用于分割任務[120],[121],[122],[123],[124],它提供像素級[125]預測結果。全景分割[126]通過提供每像素類別和實例標簽,共同解決語義和實例分割任務。Wang等人[127]提出了針對三個基準[128],[129],[130]的全景分割任務的位置敏感軸向注意力。以上的分割方法都有基于CNN的網絡中的自注意力。最近,提出了包含編碼器-解碼器模塊的分割轉換器[121],[123]。

2.3 用于場景和圖像生成的Transformers

以前的文本到圖像生成方法[131],[132],[133],[134]基于GANs[135]。Ramesh等人[136]提出了一個基于transformer的模型,用于從提供的文本細節生成高質量的圖像。Transformer網絡也被應用于圖像合成[137],[138],[139],[140],[141],這對于學習下游任務的無監督和生成模型很重要。使用無監督訓練過程的特征學習[138]在兩個數據集[142],[143]上達到了最先進的性能,而SimCLR[144]在[145]上提供了相當的性能。iGPT圖像生成網絡[138]不包括類似于語言建模任務的預訓練過程。然而,無監督的基于CNN的網絡[146],[147],[148]考慮了先驗知識作為架構布局,注意力機制和正則化。帶有基于CNN的骨干的生成對抗網絡(GAN)[135]對于圖像合成[149],[150],[151]具有吸引力。TransGAN[140]是一個強大的GAN網絡,其中生成器和鑒別器包含transformer模塊。

2.4 用于低級視覺的Transformers

低級視覺是分析圖像以識別其基本組件并創建中間表示以供進一步處理和高級任務的過程。在觀察到注意力網絡在高級視覺任務中的顯著性能后,已經引入了許多針對低級視覺問題的基于注意力的方法,如[152],[153],[154],[155],[156]。

3. 檢測TRANSFORMERS

本節簡要解釋了DEtection TRansformer (DETR)及其改進,如圖2所示。

DEtection TRansformer (DETR) [7] 的架構比如Faster R-CNN [170]這樣的基于CNN的檢測器更簡單,因為它省去了生成錨點的過程和后處理步驟,如非極大值抑制(NMS),并提供了一個優化的檢測框架。DETR網絡有三個主要模塊:一個帶有位置編碼的主干網絡,一個編碼器和一個帶有注意力機制的解碼器網絡。從主干網絡中提取的特征作為一個單一的向量,和它們的位置編碼[171],[172]一起作為輸入向量送入編碼器網絡。這里,關鍵字,查詢和值矩陣上執行自我注意力,這些結果輸入到多頭注意力和前饋網絡中,以找到輸入向量的注意力概率。DETR解碼器并行處理目標查詢和編碼器輸出。通過并行解碼N個目標查詢,它計算出預測,并使用一種二部匹配算法來標記真實和預測的目標。

Deformable-DETR UP-DETR Efficient-DETR SMCA-DETR TSP-DETR Conditional-DETR WB-DETRP nP-DETR Dynamic-DETR YOLOS-DETR Anchor-DETR Sparse-DETRD 2ETRFP-DETR DAB-DETR CF-DETR DN-DETR AdaMixer REGO-DETR DINO

雖然檢測Transformers在各種對象檢測基準測試上已經顯示出了有希望的結果,但是仍然存在一些開放性的挑戰和改進的未來方向。表4提供了所有提出的DETR改進版本的優點和限制。以下是DETR改進的一些開放性挑戰和未來方向:

擴大到大數據集:DINO,DETR的改進版本,在小型和中型數據集上顯示出了令人印象深刻的結果,但是當擴大到大型數據集時,其性能下降。未來的工作應該探索如何將檢測Transformers擴大到大型數據集,同時保持其性能。

提高樣本效率:檢測Transformers需要大量的訓練數據來學習有效的表示。未來的工作應該研究如何提高樣本效率,比如結合領域特定的知識或者使用主動學習技術。

處理長尾分布:檢測Transformers在處理長尾分布時有困難,這種分布中某些類別的實例比其他類別少得多。未來的工作應該探索如何解決這種類別不平衡,比如使用重新采樣技術。

結合局部和全局信息:DETR關注全局信息,而DINO關注從圖像中學習局部表示。然而,DETR及其改進版本并沒有顯式地模型化圖像不同部分的局部和全局信息。未來的工作應該探索將這兩種信息結合到模型中。 總的來說,檢測Transformers還有很大的改進空間,解決這些開放性的挑戰和未來的方向可能會帶來更加令人印象深刻的結果。

4. 結論

檢測Transformer已經提供了高效且精確的目標檢測網絡,并深入了解了深度神經網絡的運行方式。這篇綜述給出了關于檢測Transformer的詳細概述。特別是,它關注了在DETR中最新的進步,以提高性能和訓練收斂性。檢測Transformer的編碼器-解碼器網絡中的注意力模塊被修改以改進訓練收斂性,并且更新作為解碼器輸入的目標查詢以改善對小目標的性能。我們提供了檢測Transformer的最新改進,包括主干修改、查詢設計和注意力細化。我們還比較了在性能和架構設計方面檢測Transformer的優點和限制。通過關注目標檢測任務,這篇綜述對DETR的最新進展提供了獨特的視角。我們希望這項研究能提高研究者在解決現有挑戰方面的興趣,以便在目標檢測領域應用Transformer模型。

付費5元查看完整內容

相關內容

視覺語言任務,如回答關于圖像的問題或生成描述圖像的標題,對計算機來說是一項難以完成的任務。近期的一系列研究已將Vaswani等人在2017年引入的預訓練Transformer架構適應于視覺語言建模。Transformer模型在性能和通用性上都大大優于以前的視覺語言模型。它們通過在大型通用數據集上預訓練模型,并將學習成果轉移到新任務上,而這只需要對架構和參數值進行微小的改變。這種轉移學習已經成為自然語言處理和計算機視覺中的標準建模實踐。視覺語言Transformer模型有望在需要視覺和語言的任務中產生類似的進步。在這篇論文中,我們提供了當前可用的視覺語言Transformer模型研究的廣泛綜述,并對它們的優勢、局限性以及一些仍未解決的問題進行了一些分析。

視覺語言建模是計算機視覺和自然語言處理交匯的領域。視覺語言任務的一個例子是視覺問題回答:給定一張圖片和一個關于圖片的問題,視覺語言模型必須從多個選項中選擇正確的答案。另一個例子,也是更具挑戰性的任務,是圖像標題生成,給定一張圖片,模型必須產生描述該圖片的文本序列。盡管對人類來說這些任務輕而易舉,但歷史上這種性質的任務對計算機來說極具挑戰性。直到最近,用于視覺語言任務的深度學習模型往往在概念上復雜且僅限于狹窄的應用范圍。

在過去的幾年里,一種被稱為視覺語言(VL)變換器的新型模型極大地擴展了視覺語言模型的準確性和多功能性。這些模型基于Vaswani等人在2017年引入的廣受贊譽的變換器架構。視覺語言變換器通過在大型的圖像-文本對數據集上預訓練模型,然后將其轉移到其他任務(通常需要對參數值和架構進行微小的改變)上,從而改進了之前的模式。在很短的時間里,這些模型在文獻中出現的數量令人眼花繚亂。它們在預期的用途、架構、預訓練過程以及用來預訓練的數據上差異很大。在這篇論文中,我們提供了一份文獻中各種視覺語言變換器模型的全面調查。這些模型被設計用于廣泛的視覺語言任務。像CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)這樣的模型特別適合于視覺語言對齊任務,如圖像檢索。而像UNITER(Chen等人,2019年)、ViLBERT(Lu等人,2019年)和METER(Dou等人,2022年)這樣的模型擅長于理解任務,例如在引言段落中描述的視覺問題回答(VQA)。有些具有適當架構的變換器,如LEMON(Hu等人,2022年)和GIT(Wang等人,2022a),被設計用來生成文本,如為圖像輸入生成標題。甚至還有一系列專門用于視覺定位任務的視覺語言變換器,其中模型必須將單詞與它們描述的視覺對象匹配。Referring Transformer和mDETR就是兩種可以在圖像輸入上執行對象檢測并將這些對象與文本描述匹配的模型。

出于簡潔考慮,我們將研究限制在使用英語作為主要語言的模型上。這不僅排除了使用其他語言文本的模型,也排除了多語言模型。我們還排除了專門為視頻語言任務設計的模型。但需要注意的是,我們審查的一些模型處理的輸入既包括視頻也包括圖像。而且,有一個多語言模型PaLI(Chen等人,2022年)由于在英語語言視覺語言基準測試中的出色性能而被包含進來。上述令人印象深刻的任務范圍反映出同樣令人印象深刻的嵌入策略、模型架構、預訓練任務和訓練數據集的多樣性。我們將詳細討論這些話題以及這些特征可以如何適應視覺語言領域的各種方式。在此過程中,我們希望能提供對這些模型的各種設計選擇的一些理解,以及當存在足夠數據時,這些選擇對模型性能的相應影響。本文審查的所有模型都列在表1中,表中還提供了每個模型的引用文獻以及關于它們設計的一些基本信息。

本文的其余部分按如下方式組織:在第2部分,我們簡要解釋了構成我們所審查的模型基礎的變換器模型,以及預訓練的變換器如何被適應用于自然語言處理(NLP)和計算機視覺(CV)任務。在第3部分,我們討論了視覺語言模型如何將視覺和語言數據嵌入到其特征空間中,特別關注它們是如何創建視覺特征的。第4部分討論了審查模型的架構以及這些設計選擇是如何影響視覺和語言特征的交互的。這些模型使用的各種預訓練任務和策略以及它們如何影響下游性能在第5部分中進行了總結。第6部分描述了模型的下游能力,第7部分描述了用于預訓練的數據。在最后一部分,我們對討論的模型的優點和局限性進行了簡要分析,并探討了研究的未來方向,并指出了仍存在的未解決問題。

**2 背景:**Transformers 在這一部分,我們將描述構成我們以下討論的視覺語言模型的架構基礎的Transformers風格的深度神經模型。Transformers首次在Vaswani等人(2017年)的開創性論文《Attention Is All You Need》中被引入,該論文討論的是在機器翻譯任務中使用注意力機制的情境。自那時起,Transformers已經取代了遞歸神經網絡(RNN)成為大多數自然語言處理任務的標準模型。自然語言處理的Transformers通過在大型未標注的文本集上預訓練網絡,然后將預訓練的網絡通過微小的架構改變和最小的參數更新轉移到其他任務,從而實現了顯著的結果。像RoBERTa(Liu等人,2019年)和GPT-3(Brown等人,2020年)這樣的預訓練Transformers模型,現在幾乎在每個類別的自然語言處理任務中都是最先進的。卷積神經網絡(CNN)在本文撰寫時仍被廣泛用于計算機視覺任務。然而,近期的研究表明,Transformers架構可以用相對較少的修改適應計算機視覺任務(Dosovitskiy等人,2020年;Touvron等人,2021年)。當使用足夠大的數據集預訓練時,視覺Transformers可以與為計算機視覺設計的最先進的CNNs競爭。鑒于它們在兩個領域都能達到或接近最先進的水平,Transformers自然成為預訓練視覺語言模型的基礎。在我們討論如何調整Transformers以適應視覺語言任務的設計選擇之前,我們將簡要概述Transformers模型和驅動其顯著結果的注意力機制。熟悉Transformers和它們在自然語言處理和計算機視覺應用的工作原理的讀者可以直接跳到下一部分。

**3 嵌入策略 **在這一部分,我們討論視覺語言Transformer模型如何將其文本和視覺嵌入編碼到模型的特征空間中。形式上,文本和視覺輸入必須被編碼成一系列的文本標記 {t1, ....tT }和一系列的視覺特征 {v1, ..., vV },其中每個序列元素都是一個數值向量。幾乎所有我們為本文審查的模型都采用相同的文本表示嵌入策略,這一策略將在下面的子部分中詳細描述。然而,表示圖像的策略有很大的差異,這也是預訓練視覺語言模型的關鍵差異之一,我們將在以下部分詳細討論這個主題。

**4 模型架構 **無論采用何種嵌入策略,視覺語言模型的模型架構必須允許與文本和視覺模式相關的特征以某種方式交互。在這一部分,我們將描述預訓練視覺語言Transformer模型用于聯合表示視覺和語言的不同模型設計。從最廣義的角度來看,預訓練視覺語言模型可以根據這種交互是通過淺層交互(如點積)實現的,還是在深度學習模型本身中發生的來進行分類。在使用深度交互的模型中,架構采用單塔編碼器、雙塔編碼器或編碼器-解碼器設計。按照 Bao 等人(2022)的說法,我們將使用淺層交互的模型稱為雙編碼器。這些架構將在下面的子部分中詳細描述,并提供可用的視覺語言模型的顯著示例。

**5 預訓練任務 **本節專門討論各種視覺語言Transformer使用的預訓練任務。預訓練是這些模型成功的關鍵元素,我們將花費大量的空間來描述這些方法。幾乎所有的融合和組合編碼器模型都使用了掩蔽語言模型和圖像文本匹配,這兩種都是BERT自然語言處理模型(Devlin等人,2018)中使用的預訓練目標的擴展。在下文中,我們將詳細描述這些任務,以及相關文獻中找到的幾個額外目標。

**6 下游能力 **原則上,我們討論的大多數模型都可以通過對模型架構進行適當的調整和微調來適應幾乎任何給定的視覺語言任務。然而,許多模型明確地為某些視覺語言能力而設計和測試。例如,雙編碼器非常適合對齊任務,如文本到圖像的檢索。地面變壓器,例如mDETR或Referring Transformer,接受了大量的視覺接地任務的訓練和評估。在本節中,我們將簡要介紹模型創造者在預訓練、零鏡頭評估或微調其模型時涵蓋的視覺語言任務的范圍。在此過程中,我們將有機會參考每種類型任務的一些主要基準。

付費5元查看完整內容

視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。

最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。

在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。

2.1 強表征

學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。

2.2 解碼器中的交互設計

本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。

3 優化對象查詢

與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。

使用查詢進行關聯

得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。

條件返回查詢融合

除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征

4 相關的領域

在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。

點云分割

包括語義級點云分割,實例級點云分割

調優基礎模型

我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。

領域感知分割

領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。

Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。

標簽和模型高效分割

類無關的分割和跟蹤

醫學圖像分割

CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。

5 基準測試結果

在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。

6 未來方向

通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。

多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。

終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。

動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。

生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。

使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入

7 結論

本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。

付費5元查看完整內容

目標檢測是計算機視覺和圖像處理中的一項基本任務。目前,基于深度學習的目標檢測器已經成功地獲得了大量的標記數據。但在現實生活中,并不能保證每個對象類別都有足夠的標記樣本進行訓練。這些大型目標檢測器在訓練數據有限的情況下容易出現過擬合。因此,有必要將少樣本學習和零樣本學習引入目標檢測中,兩者可以統稱為低樣本目標檢測。低樣本目標檢測(Low-Shot Object Detection, LSOD)旨在從少量甚至零標記數據中檢測目標,可分為少樣本目標檢測(few-shot Object Detection, FSOD)和零樣本目標檢測(zero-shot Object Detection, ZSD)。本文對基于FSOD和ZSD的深度學習進行了全面的研究。首先,本綜述將FSOD和ZSD的方法分為不同的類別,并討論了它們的優缺點。其次,本綜述回顧了FSOD和ZSD的數據集設置和評估指標,然后分析了不同方法在這些基準上的性能。最后,本綜述討論了FSOD和ZSD未來面臨的挑戰和發展方向。

引言

目標檢測是計算機視覺中一項基礎而又具有挑戰性的任務,它的目標是在圖像中定位特定類別的目標。目標檢測已廣泛應用于許多計算機視覺任務中,如目標跟蹤[88]、圖像標注[67]、場景圖生成[72]等。目標檢測的一般過程是為一組包圍框(圖像中參考的假想矩形)預測類別。大多數傳統方法通過在整個圖像中滑動一個窗口來生成這些邊界框。Viola-Jones (VJ)檢測器[74]首次采用積分圖像、特征選擇和檢測級聯三種加速技術實現了人臉的實時檢測。隨后提出了直方圖定向梯度(histogram of oriented gradient, HOG)[12],并被許多目標檢測器用于特征描述。在這些方法中,基于變形部件的模型[16]是一種典型的方法。DPM將一個對象檢測任務劃分為多個細粒度的檢測任務,然后使用多個部分過濾器檢測對象部件,并將其聚合起來進行最終預測。雖然人們已經做了很多改進,但傳統的方法受到速度慢、精度低的限制。

與傳統方法相比,深度方法能夠以更有效的圖像特征實現更強的性能。R-CNN[21]是基于深度學習方法的最具代表性的工作之一。它使用選擇性搜索獲得區域建議(即圖像中更可能包含目標的區域),然后使用預訓練好的CNN模型提取其特征,進行進一步的分類和定位。快速R-CNN[20]通過使用感興趣區域(RoI)池化層來從圖像的整個特征圖生成區域建議的特征圖來改進R-CNN。Faster R-CNN[64]進一步提出了一種區域提議網絡(region proposal network, RPN),取代了傳統的通過錨點(即預定義的一定高度和寬度的包圍盒)從整個圖像特征地圖生成區域提議的方法。R-CNN、Fast R-CNN和Faster R-CNN分為兩個階段模型,首先生成區域建議,然后進行預測。為了進一步加速,單階段模型將這兩個過程結合在一起。YOLOstyle目標檢測器[63][3][19]是單級檢測框架的代表模型。根據從原始圖像中提取的特征圖,yolo風格的檢測器直接在圖像的所有位置上預定義多個尺度的錨點,并預測每個錨點的類別概率、位置偏移量和目標置信度。單級檢波器的性能一般不如兩級檢波器,一些方法如焦損耗[47]被提出以減小單級和兩級檢波器之間的性能差距。最近,一種基于transformer的檢測器被提出,命名為DETR[4]。DETR直接將固定數量的目標查詢轉發到transformer中,并對它們進行預測。DETR實現端到端檢測,具有與許多經典探測器相當的性能。為了緩解檢測器收斂緩慢的問題,變形檢測器[103]提出了一個變形注意模塊,它只訪問一個參考點周圍的一小組關鍵采樣點,而UP-DETR[11]提出了一個名為隨機查詢補丁檢測的非監督任務來預訓練檢測器。

然而,這些目標檢測器依賴于大量的訓練數據。在訓練數據不足的情況下,現有的目標檢測器容易過擬合,不能泛化到測試數據。在現實生活中,由于某些目標類別的稀缺或特殊的標簽成本,很難收集到足夠的標簽數據。因此,現代目標檢測器需要具備從少量甚至零標記數據中檢測目標的能力,并將少樣本和零樣本學習引入到目標檢測中。少樣本學習的目的是從少量標記樣本中學習泛化模型。在過去的幾年里,針對少樣本學習提出了很多方法,大致可以分為數據增強方法、元學習方法和遷移學習方法。數據增強方法通過使用傳統的圖像變換方法或基于深度學習的方法(如GAN)生成新樣本,直接解決了數據稀缺問題。元學習方法采用學習到學習的機制,在另一個數據豐富的數據集上定義多個少次任務來訓練模型,使模型能夠快速適應當前的少次任務。與在元學習中使用多個片段進行訓練不同,遷移學習方法的目標是直接學習另一個數據集上的良好圖像表示,并將它們轉移到當前數據集。Work[73]研究了一些用于少量圖像分類的基線遷移學習方法,實驗證明它們優于許多經典的元學習方法。

圖1. 本次綜述的概述。本文對低樣本目標檢測進行了全面的介紹,并將低樣本目標檢測分為單樣本目標檢測、少樣本目標檢測和零樣本目標檢測三個領域。圖中還用三種顏色演示了這三個域的更細粒度的分類,后面的小節將詳細討論這些分類。然后總結了OSOD、FS和ZSD的基準,并比較分析了不同LSOD方法在這些基準上的性能。最后對LSOD的發展方向進行了展望。

以往的少樣本學習方法主要是針對圖像分類的任務進行探索。由于目標檢測需要額外的任務來定位目標,因此,少樣本目標檢測比少樣本圖像分類更具挑戰性。但是FSOD方法繼承了FSL方法的主要思想,FSL方法也可以分為兩種主流方法:元學習方法和遷移學習方法。早期的FSOD方法遵循少樣本學習的元學習方法,主要關注如何結合支持圖像和查詢圖像的特性。這些元學習方法可以分為特征向量聚合方法和特征地圖聚合方法。將遷移學習方法引入到少樣本目標檢測中,在另一個數據集中對檢測器進行預訓練,然后在當前的少樣本數據集中對檢測器進行微調。在遷移學習方法中引入了對比學習、度量學習、正則化等方法。除了原有的標準FSOD設置外,研究者還探索了半監督FSOD、弱監督FSOD和增量FSOD等其他設置。還有一個更有挑戰性的設置,即每個少數樣本類都有零標記樣本,這被稱為零樣本學習(ZSD)。在零概率學習中,每個類都有其語義屬性作為補償。實際上,FSOD和ZSD可以考慮在一個條件下,一些方法[60][33]提出了一個組合模型,同時處理FSOD和ZSD。因此,本次綜述將FSOD和ZSD表示為低樣本目標檢測(LSD)。低樣本目標檢測的層次結構分類法如圖1所示。

本文對現有的少樣本和零樣本目標檢測算法進行了全面的回顧和分析。本文總結了現有的少樣本和零樣本目標檢測算法的性能。本文討論了少樣本和零樣本目標檢測的主要挑戰和未來的發展方向。本文綜述的其余部分組織如下。第二節描述了對少樣本和零樣本目標檢測算法進行更細粒度的分類和分析。第八節描述了常用的少樣本和零樣本目標檢測數據集和評價標準。第九節總結了現有的少樣本和零樣本目標檢測算法的性能。最后,第十一節總結了本次綜述的內容,然后討論了當前方法面臨的主要挑戰和未來的發展方向的少樣本和零樣本目標檢測。

本文對低樣本目標檢測進行了深入的研究,根據每個新類是否使用少量標記樣本或語義屬性,將低樣本目標檢測分為少樣本目標檢測(FSOD)和零樣本目標檢測(ZSD)。首先對低目標檢測方法進行了概括介紹,然后對FSOD和ZSD方法進行了分類和分析。總結了FSOD和ZSD的主要基準,并對不同方法的性能進行了比較。最后討論了FSOD和ZSD的發展方向。

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

End-to-End Object Detection with Transformers

論文://arxiv.org/abs/2005.12872

代碼:

本文已提交至ECCV 2020,作者團隊:Facebook AI Research。FAIR提出DETR:基于Transformers的端到端目標檢測,沒有NMS后處理步驟、真正的沒有anchor,直接對標且超越Faster R-CNN,代碼剛剛開源!

注:開源24小時,star數已高達700+!

簡介

本文提出了一種將目標檢測視為direct set直接集合預測問題的新方法。我們的方法簡化了檢測流程,有效地消除了對許多手工設計的組件的需求,例如非極大值抑制(NMS)或錨點生成,這些組件明確編碼了我們對任務的先驗知識。

這種稱為Detection Transformer或DETR的新框架的主要組成部分是基于集合的全局損失函數,該損失函數通過二分匹配和transformer編碼器-解碼器體系結構強制進行唯一的預測。給定一個固定的學習對象查詢的小集合,DETR會考慮目標對象與全局圖像上下文之間的關系,并直接并行輸出最終的預測集合。

與許多其他現代檢測器不同,新模型在概念上很簡單,并且不需要專門的庫。DETR與具有挑戰性的COCO對象檢測數據集上公認的且高度優化的Faster R-CNN baseline具有同等的準確性和運行時性能。此外,可以很容易地將DETR遷移到其他任務例如全景分割。

本文的Detection Transformer(DETR,請參見圖1)可以預測所有物體的劇烈運動,并通過設置損失函數進行端到端訓練,該函數可以在預測的物體與地面真實物體之間進行二分匹配。DETR通過刪除多個手工設計的后處理過程例如nms,對先驗知識進行編碼的組件來簡化檢測流程。與大多數現有的檢測方法不同,DETR不需要任何自定義層,因此可以在包含標準CNN和轉換器類的任何框架中輕松復制。

DETR的主要特征是二分匹配損失和具有(非自回歸)并行解碼的Transformer的結合。

參考:

付費5元查看完整內容

論文主題: Recent Advances in Deep Learning for Object Detection

論文摘要: 目標檢測是計算機視覺中的基本視覺識別問題,并且在過去的幾十年中已得到廣泛研究。目標檢測指的是在給定圖像中找到具有精確定位的特定目標,并為每個目標分配一個對應的類標簽。由于基于深度學習的圖像分類取得了巨大的成功,因此近年來已經積極研究了使用深度學習的對象檢測技術。在本文中,我們對深度學習中視覺對象檢測的最新進展進行了全面的調查。通過復習文獻中最近的大量相關工作,我們系統地分析了現有的目標檢測框架并將調查分為三個主要部分:(i)檢測組件,(ii)學習策略(iii)應用程序和基準。在調查中,我們詳細介紹了影響檢測性能的各種因素,例如檢測器體系結構,功能學習,建議生成,采樣策略等。最后,我們討論了一些未來的方向,以促進和刺激未來的視覺對象檢測研究。與深度學習。

付費5元查看完整內容
北京阿比特科技有限公司