亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺分割旨在將圖像、視頻幀或點云劃分為多個片段或組。這項技術在諸如自動駕駛、圖像編輯、機器人感知和醫學分析等眾多實際應用中具有重要意義。在過去的十年里,基于深度學習的方法在這個領域取得了顯著進展。最近,一種最初為自然語言處理設計的基于自注意力的神經網絡Transformer,在各種視覺處理任務中大大超越了之前的卷積或循環方法。具體來說,視覺Transformer為各種分割任務提供了強大、統一且更簡單的解決方案。本綜述為基于Transformer的視覺分割提供了一個詳盡的概述,總結了近期的進展。我們首先回顧背景,包括問題定義、數據集和先前的卷積方法。接下來,我們總結了一個統一所有最近基于變換器的方法的元架構。基于這個元架構,我們檢查各種方法設計,包括對元架構的修改和相關應用。我們還介紹了幾個密切相關的設置,包括3D點云分割、基礎模型調優、領域感知分割、高效分割和醫學分割。此外,我們匯編并重新評估了在一些公認的數據集上的所審查方法。最后,我們確定了這個領域的開放性挑戰,并提出了未來研究的方向。項目頁面可以在//github.com/lxtGH/Awesome-Segmenation-With-Transformer找到。我們還將持續關注這個快速發展領域的動態。1. 引言****視覺分割旨在將給定圖像或視頻的像素分組為一組語義區域。這是計算機視覺中的一個基本問題,涉及到諸多實際應用,如機器人技術、自動監控、圖像/視頻編輯、社交媒體、自動駕駛等。從手工特征提取方法[1]、[2]和經典機器學習模型[3]、[4]、[5]開始,分割問題已經得到了大量的研究關注。在過去的十年里,深度神經網絡,如卷積神經網絡(CNNs)[6]、[7]、[8],例如全卷積網絡(FCNs)[9]、[10]、[11]、[12]在不同的分割任務中取得了顯著成功,并帶來了更好的結果。與傳統分割方法相比,基于CNN的方法具有更好的泛化能力。由于它們的卓越性能,CNN和FCN架構一直是分割研究工作的基本組成部分。

最近,隨著自然語言處理(NLP)的成功,變換器(Transformer)[13]被引入作為循環神經網絡(RNNs)[14]的替代品。Transformer包含一個新穎的自注意力設計,并可以并行處理各種標記。然后,基于Transformer設計,BERT [15]和GPT-3 [16]將模型參數擴展并使用大量未標記的文本信息進行預訓練。它們在許多NLP任務上取得了強大的性能,加速了變換器進入視覺領域的發展。最近,研究人員將變換器應用于計算機視覺(CV)任務。早期方法[17]、[18]將自注意力層與CNN相結合。同時,一些工作[19]、[20]使用純自注意力層替換卷積層。之后,兩種顯著的方法推動了CV任務的發展。一種是視覺Transformer(ViT)[21],它是一種純粹的Transformer,直接接收圖像塊序列來對整個圖像進行分類。它在多個圖像識別數據集上實現了最先進的性能。另一種是檢測Transformer(DETR)[22],它引入了對象查詢的概念。每個對象查詢表示一個實例。對象查詢取代了之前檢測框架中復雜的錨點設計,簡化了檢測和分割的流程。然后,隨后的工作在各種視覺任務上采用改進的設計,包括表示學習[23]、[24],對象檢測[25],分割[26],低級圖像處理[27],視頻理解[28],3D場景理解[29]以及圖像/視頻生成[30]。在視覺分割方面,最近的最先進方法都是基于變換器架構的。與基于CNN的方法相比,大多數基于變換器的方法具有更簡單的流程但更強大的性能。由于基于變換器的視覺模型的迅速興起,有關視覺變換器的調查有很多[31]、[32]、[33]。然而,其中大多數主要關注通用變換器設計及其在幾個特定視覺任務上的應用[34]、[35]、[36]。同時,還有關于基于深度學習的分割的先前調查[37]、[38]、[39]。然而,在我們所知范圍內,尚無專門針對使用視覺變換器進行視覺分割或基于查詢的對象檢測的調查。我們相信,總結這些工作并持續關注這個不斷發展的領域將對社區有益。貢獻。在本綜述中,我們系統地介紹了基于變換器的視覺分割方法的最近進展。我們從定義任務、數據集和基于CNN的方法開始,然后轉向基于Transformer的方法,涵蓋現有方法和未來工作方向。我們的調查從方法細節的更技術性的角度對現有的代表性工作進行了歸類。特別是,對于主要的綜述部分,我們首先在第3.1節中將現有方法的核心框架總結為一個元架構,這是DETR的擴展。通過改變元架構的組件,我們將現有方法分為六類,包括表示學習、解碼器中的交互設計、優化對象查詢、使用查詢進行關聯以及條件查詢生成。此外,我們還研究了密切相關的具體設置,包括點云分割、基礎模型調優、領域感知分割、數據/模型高效分割、類別不可知分割和跟蹤以及醫療分割。還評估了在頂級會議和期刊上發表的有影響力的作品在幾個廣泛使用的細分基準上的表現。此外,還提供了以前基于CNN的模型和其他領域的相關文獻的概述,如目標檢測,目標跟蹤,以及背景部分中的參考分割。范圍。本綜述將涵蓋幾個主流的分割任務,包括語義分割、實例分割、全景分割及其變體,如視頻和點云分割。此外,我們在第4節中介紹了相關的下游設置。本文專注于基于transformer的方法,只回顧了一些與cnn密切相關的方法,以供參考。雖然有很多預印本或已出版的作品,但我們只收錄最具代表性的作品。組織。調研的其余部分組織如下。總的來說,圖1顯示了我們調查的流程。在第2節中,首先介紹了問題定義、數據集和基于CNN的方法的背景知識。然后,回顧了第3節和第4節中關于基于transformer的分割方法的代表性論文。第5節對實驗結果進行了比較。最后,我們在第六節提出了未來的研究方向,并在第七節總結了本文的研究。2. 方法綜述****在本節中,基于類似DETR的元架構,回顧了基于transformer的分割的關鍵技術。如圖3所示,元架構包含一個特征提取器、對象查詢和transformer解碼器。然后,以元體系結構為主線,綜述了第3.2.1、3.2.2和3.2.3節中對元體系結構各個組成部分的修改或改進;最后,在3.2.4節和3.2.5節給出了基于這種元體系結構的幾個具體應用。

在本節中,我們從五個方面回顧了基于transformer的分割方法。我們的目標是提取文獻中使用的基本和常見的技術,而不是根據任務設置對文獻進行分類。我們在表3中總結了研究方法、技術、相關任務和相關文獻。大多數方法都基于3.1節中描述的元體系結構。我們將代表性作品的對比列于表4。

2.1 強表征

學習強大的特征表示總是可以得到更好的分割結果。以SS任務為例,SETR[202]是第一個用ViT骨干替換CNN骨干的。它在ADE20k數據集上取得了最先進的結果,沒有花哨的東西。在vit之后,研究人員開始設計更好的視覺transformer。將相關工作分為3個方面:更好的視覺transformer設計、混合cnn /transformers/MLPs和自監督學習。

2.2 解碼器中的交互設計

本節將回顧transformer解碼器的設計。將解碼器設計分為兩組:一組用于改進圖像分割中的交叉注意力設計,另一組用于視頻分割中的時空交叉注意力設計。前者側重于在原始的DETR中設計一個更好的解碼器來改進原始的解碼器。后者將基于查詢的目標檢測器和分割器擴展到視頻領域,用于VOD、VIS和VPS,重點是建模時間一致性和關聯。

3 優化對象查詢

與Faster-RCNN[111]相比,DETR[22]需要更長的收斂時間。由于對象查詢的重要作用,已有多種方法在加速訓練計劃和提高性能方面展開研究。根據對象查詢的方法,將以下文獻分為兩方面:添加位置信息和采用額外監督。位置信息提供了對查詢特征進行采樣的線索,以加快訓練速度。額外監督的重點是在DETR中設計特定的損失函數之外的默認損失函數。

使用查詢進行關聯

得益于查詢表示的簡單性,最近的一些工作將其作為關聯工具來解決下游任務。主要有兩種用法:一種用于實例級關聯,另一種用于任務級關聯。前者采用實例判別的思想,解決視頻中的實例匹配問題,如聯合分割和跟蹤。后者采用查詢鏈接特征的方式進行多任務學習。

條件返回查詢融合

除了使用對象查詢進行多任務預測外,一些工作還采用了跨模態和跨圖像任務的條件查詢設計。查詢是基于任務輸入的條件查詢,解碼器頭使用這樣的條件查詢來獲得相應的分割掩碼。根據不同輸入的來源,將這些工作分為兩方面:語言特征和圖像特征

4 相關的領域

在本節中,我們會回顧幾個采用視覺transformer進行分割任務的相關領域。這些領域包括點云分割、域感知分割、標簽和模型高效分割、類無關分割、跟蹤和醫療分割。我們在表5中列出了一些有代表性的作品進行比較。

點云分割

包括語義級點云分割,實例級點云分割

調優基礎模型

我們將這一部分分為兩個方面:視覺適配器設計和開放式詞匯學習。前者引入了新的方法,使預訓練的大規模基礎模型適應下游任務。后者試圖借助預訓練的視覺語言模型和在未見過的分割數據集上的零樣本知識遷移來檢測和分割未知物體。視覺適配器設計的核心思想是提取基礎模型的知識,并設計更好的方法來適應下游設置。對于開放詞匯表學習,核心思想是將預訓練的VLM特征與當前檢測器對齊,以實現新的類別分類。

領域感知分割

領域適應。無監督域適應(UDA)旨在在不獲取目標標簽的情況下,將用源(合成)域訓練的網絡適應到目標(真實)域[45][290]。UDA有兩種不同的設置,包括語義分割和目標檢測。在vit之前,之前的工作[291],[292]主要設計域不變的表示學習策略。DAFormer[250]用先進的transformer骨干[128]取代了過時的骨干,并提出了三種訓練策略,包括稀有類采樣、物類ImageNet特征損失和學習率預熱方法。它取得了新的最先進的結果,是UDA分割的強大基線。然后,HRDA[293]通過多分辨率訓練方法改進了DAFormer,并使用各種作物來保留精細的分割細節和長程上下文。受MIM[24]啟發,MIC[294]提出了掩碼圖像一致性,以學習目標域的空間上下文關系作為額外的線索。MIC通過一個師生框架來加強掩碼目標圖像和偽標簽預測之間的一致性。它是一個插件模塊,在各種UDA設置中進行驗證。對于UDA上的檢測transformer, SFA[251]發現CNN上的特征分布對齊帶來的改進有限。相反,它提出了一個基于域查詢的特征對齊和一個基于token的特征對齊模塊來增強。特別是,通過引入領域查詢來實現對齊,并在解碼器上執行領域分類。同時,DA-DETR[295]提出了一種混合注意力模塊(HAM),其中包含一個坐標注意力模塊和一個水平注意力模塊以及transformer編碼器。一個單一的域感知鑒別器監督HAM的輸出。MTTrans[296]提出了一個教師-學生框架和一個共享對象查詢策略。源域和目標域之間的圖像和對象特征在局部、全局和實例級別進行對齊。

Multi-Dataset分割。多數據集分割的目標是學習不同領域上通用的分割模型。MSeg[297]通過重新標記幾個現有的語義分割基準重新定義分類并對齊像素級注釋。然后,接下來的工作試圖通過各種方法來避免分類沖突。例如,Sentence-Seg[298]用向量值嵌入替換每個類標簽。嵌入由語言模型[15]生成。為了進一步處理不靈活的one-hot通用分類法,LMSeg[252]使用可學習標記[268]擴展了這種嵌入,并為每個數據集提出了特定于數據集的增強。它將MaskFormer[154]中的段查詢與SS和PS任務的類別嵌入動態對齊。同時,也有一些關于多數據集目標檢測[299]、[300]和多數據集全景分割[301]的工作。特別是,Detection-Hub[300]建議根據每個數據集類別的語言嵌入調整對象查詢。與之前對所有數據集的共享嵌入不同,它基于公共語言嵌入來學習每個數據集的語義偏差,以避免領域鴻溝。最近,TarVIS[302]為跨越多個基準的不同任務聯合預訓練一個視頻分割模型,其中將Mask2Former擴展到視頻領域,并采用統一的圖像數據集預訓練和視頻微調。

標簽和模型高效分割

類無關的分割和跟蹤

醫學圖像分割

CNN在醫學圖像分析方面取得了里程碑式的進展。特別是U型架構和跳躍連接[335],[336]被廣泛應用于各種醫學圖像分割任務。隨著ViTs的成功,最近的代表工作[260],[337]將視覺transformer納入U-Net架構并取得了更好的效果。TransUNet[260]合并了transformer和U-Net,其中transformer對標記化的圖像塊進行編碼以構建全局上下文。然后解碼器對編碼后的特征進行上采樣,再將其與高分辨率CNN特征圖相結合以實現精確定位。Swin-Unet[337]設計了一個對稱的Swin-like[23]解碼器來恢復精細的細節。TransFuse[261]以并行的方式結合transformer和CNN,其中可以有效地聯合捕獲全局依賴關系和低級空間細節。UNETR[338]專注于3D輸入醫學圖像,并設計了類似U-Net的架構。提取transformer中不同層的編碼表示,并通過跳躍連接與解碼器合并,以獲得最終的3D掩碼輸出。

5 基準測試結果

在本節中,我們報告了最近基于transformer的視覺分割,并列出了之前討論的算法的性能。對于每個審閱的領域,第5.1節和第5.3節選擇了使用最廣泛的數據集作為性能基準。我們使用相同的數據增強和特征提取器進一步對第5.2節中的幾個代表性作品進行了基準測試。請注意,我們僅列出已發表的工作供參考。為簡單起見,我們排除了一些關于表示學習的工作,只介紹了特定的分割方法。關于全面的方法比較,請參閱補充資料,提供了更詳細的分析。

6 未來方向

通用統一的圖像/視頻分割。使用Transformer來統一不同的分割任務是一種趨勢。最近的工作[26],[153],[162],[163],[246]使用基于查詢的transformer使用一個架構執行不同的分割任務。一個可能的研究方向是在各種分割數據集上僅通過一個模型來統一圖像和視頻分割任務。這些通用模型可以在各種場景中實現通用的、魯棒的分割,例如在各種場景中檢測和分割稀有類有助于機器人做出更好的決策。這些將在一些應用中更加實用和強大,包括機器人導航和自動駕駛汽車。

多模態聯合學習。由于缺乏歸納偏差,transformer在處理任何模式方面都是通用的。因此,使用Transformer來統一視覺和語言任務是一個大趨勢。分割任務提供像素級線索,這也可能有利于相關的視覺語言任務,包括文本-圖像檢索和標題生成[343]。最近的工作[224],[344]在一個通用的transformer架構中共同學習分割和視覺語言任務,這為結合跨多模態的分割學習提供了一個方向。

終身學習分割。現有的分割方法通常以具有一組預定義類別的封閉世界數據集為基準,即假設訓練和測試樣本具有相同的類別和事先已知的特征空間。然而,現實的場景通常是開放世界和非平穩的,其中新的類別可能連續出現[249],[345]。例如,在自動駕駛汽車和醫療診斷中,可能會意外地發生未見過的情況。現有方法在現實和封閉世界場景中的性能和能力之間存在明顯差距。因此,我們希望逐步不斷地將新穎的概念融入到現有的分割模型知識庫中,使模型具有終身學習的能力。

動態場景中的長視頻分割。長視頻帶來了幾個挑戰。現有的視頻分割方法旨在處理短視頻輸入,可能難以關聯較長時間的實例。因此,新的方法必須納入長期記憶設計,并在更長的時期內考慮實例的關聯。其次,在長時間內保持分割掩碼的一致性可能是困難的,特別是當實例在場景中移動時。這需要新的方法來合并時間一致性約束并隨時間更新分割掩碼。第三,長視頻中可能會出現嚴重的遮擋,使準確分割所有實例具有挑戰性。新的方法應該結合遮擋推理和檢測來提高分割精度。最后,長視頻輸入往往涉及多種場景輸入,給視頻分割模型帶來域魯棒性挑戰。新的方法必須結合域適應技術,以確保模型可以處理不同的場景輸入。簡而言之,解決這些挑戰需要開發新的長視頻分割模型,該模型結合了先進的內存設計、時間一致性約束、遮擋推理和檢測技術。

生成式分割。隨著更強大的生成模型的興起,最近的工作[346],[347]受擴散模型中更強的transformer解碼器和高分辨率表示的啟發,通過生成建模解決了圖像分割問題[348]。采用生成式設計,避免了transformer解碼器和對象查詢設計,使整個框架更加簡單。然而,這些生成模型通常會引入一個復雜訓練管道。進一步的研究需要更簡單的訓練管道。

使用視覺推理進行分割。視覺推理[349],[350]要求機器人理解場景中物體之間的聯系,這種理解在運動規劃中起著至關重要的作用。之前的研究探索了將分割結果作為視覺推理模型的輸入,用于各種應用,如目標跟蹤和場景理解。聯合分割和視覺推理可能是一個很有前途的方向,在分割和關系分類方面都有可能實現互利。通過將視覺推理融入分割過程,研究人員可以利用推理的力量來提高分割精度,而分割可以為視覺推理提供更好的輸入

7 結論

本綜述對基于Transformer的視覺分割的最新進展進行了全面的回顧,據我們所知,這是第一次。這篇論文涵蓋了基本的背景知識和transformer之前的工作概述,并總結了用于各種分割任務的120多個深度學習模型。最近的工作根據分割器的元架構分為六類。此外,回顧了5個密切相關的領域,并報告了幾種代表性的分割方法在廣泛使用的數據集上的結果。為了確保公平的比較,我們還在相同的設置下對幾個代表性作品進行了重新基準測試。最后,指出了基于transformer的視覺分割的未來研究方向。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

最新《Transformers 2D目標檢測》綜述,值得關注!

ransformers在自然語言處理(NLP)中的卓越性能激發了研究者們探索其在計算機視覺任務中的應用。像其他計算機視覺任務一樣,DEtection TRansformer(DETR)通過將檢測視為一種集合預測問題,而無需生成建議和進行后處理步驟,將transformers引入到目標檢測任務中。它是一種用于目標檢測的最先進(SOTA)方法,特別是在圖像中的目標數量相對較少的情況下。盡管DETR取得了成功,但它在訓練收斂速度上存在問題,并且在小目標上的性能有所下降。因此,提出了許多改進方案來解決這些問題,從而對DETR進行了大量的改進。自2020年以來,基于transformer的目標檢測引起了越來越多的關注,并展示了令人印象深刻的性能。盡管已經進行了大量關于視覺領域中transformers的調查,但是關于使用transformers進行2D目標檢測的改進的回顧仍然缺失。本文詳細回顧了關于DETR最近發展的二十一篇論文。我們從Transformers的基本模塊開始,例如自注意力、目標查詢和輸入特性編碼。然后,我們覆蓋了DETR的最新進展,包括骨干修改、查詢設計和注意力精煉。我們還在性能和網絡設計方面比較了所有的檢測transformers。我們希望這項研究將增加研究者對解決將transformers應用于目標檢測領域的現有挑戰的興趣。研究人員可以在此網頁上跟蹤檢測transformers的新進展://github.com/mindgarage-shan/trans_object_detection_survey。

1. 引言

目標檢測是計算機視覺中的基礎任務之一,涉及在圖像中定位和分類對象 [1], [2], [3], [4]。多年來,卷積神經網絡(CNNs)一直是目標檢測模型的主要骨干[1]。然而,Transformers在自然語言處理(NLP)中的最近成功使研究人員開始探索它們在計算機視覺中的潛力[5]。已經證明,Transformer架構[6]在捕獲序列數據中的長距離依賴性方面非常有效[6],這使其成為目標檢測任務的有吸引力的候選者。2020年,Carion等人提出了一種名為DEtection TRansformer (DETR)的新型目標檢測框架[7],它用使用transformer編碼器-解碼器網絡的完全端到端可訓練的架構替換了傳統的基于區域建議的方法。DETR網絡顯示出了令人充滿希望的結果,超過了傳統的基于CNN的目標檢測器[1], [2], [3], [4],同時也消除了對手工制作組件(如區域提議網絡)和后處理步驟(如非最大抑制(NMS))[8]的需求。

自DETR推出以來,已經提出了一些修改和改進來克服其限制,例如訓練收斂慢和對小目標的性能下降。圖1顯示了檢測變換器(DETR)及其改進性能和訓練收斂的文獻概述。Deformable-DETR [9] 修改了注意力模塊來處理圖像特征圖,認為注意力機制是訓練收斂慢的主要原因。UP-DETR [10] 提出了一些修改來預訓練DETR,類似于在自然語言處理中預訓練Transformers。EfficientDETR [11] 基于原始的DETR和Deformable-DETR,檢查了隨機初始化的目標概率,包括參考點和目標查詢,這是多次訓練迭代的原因之一。SMCA-DETR [12] 引入了一個空間調制的共注意模塊,替換了DETR中現有的共注意機制,以克服DETR的訓練收斂慢的問題。TSPDETR [13] 處理交叉注意力和二部匹配的不穩定性,以克服DETR的訓練收斂慢的問題。Conditional-DETR [14] 提出了一種條件交叉注意力機制來解決DETR的訓練收斂問題。WB-DETR [15] 將CNN骨干用于特征提取視為額外的組件,并提出了一個沒有骨干的Transformer編碼器-解碼器網絡。PnP-DETR [16] 提出了一個PnP采樣模塊,以減少空間冗余并使Transformer網絡計算上更有效。Dynamic-DETR [17] 在編碼器-解碼器網絡中引入了動態注意力。YOLOS-DETR [18] 通過使用最少的輸入空間設計信息,展示了Transformer從圖像識別到序列檢測的可轉移性和多功能性,并改進了性能。Anchor-DETR [19] 提出了作為錨點的目標查詢,這在基于CNN的目標檢測器中得到了廣泛的應用。Sparse-DETR [20] 通過使用可學習的交叉注意力圖對編碼器令牌進行過濾,降低了計算成本。D2ETR [21] 使用新的跨尺度注意力模塊在解碼器中使用來自骨干網絡的精細融合特征圖。FP-DETR [22] 重新定義了用于檢測transformers的預訓練和微調階段。CFDETR [23] 通過利用局部信息來優化預測的位置,因為不正確的邊界框位置會降低對小目標的性能。DN-DETR [24] 使用帶有噪聲的目標查詢作為解碼器的額外輸入,以減少DETR中二部匹配機制的不穩定性,這是導致訓練收斂慢的問題。AdaMixer [25] 認為編碼器是骨干網絡和解碼器之間的額外網絡,其設計復雜性限制了性能并減慢了訓練收斂的速度,并提出了一個3D采樣過程和對解碼器的少量修改。REGO-DETR [26] 提出了一種基于RoI的檢測優化方法,以改進檢測transformer中的注意力機制。DINO [27] 考慮使用帶有正面和負面噪聲的目標查詢,以加快訓練收斂的速度,并改進對小目標的性能。 由于基于Transformer的檢測方法的快速進步,跟蹤新的進步變得越來越具有挑戰性。因此,對正在進行的進展進行回顧是必要的,并且對該領域的研究人員將是有幫助的。

本文提供了2D檢測Transformers最近進展的詳細概述。表1顯示了改進檢測Transformer(DETR)以提高性能和訓練收斂的修改概述。我們的貢獻

  1. 從架構角度對基于Transformer的檢測方法進行詳細回顧**。我們根據骨干網絡的修改、預訓練水平、注意力機制、查詢設計等方面,對DEtection TRansformer(DETR)的改進進行分類和總結。我們提出的分析旨在幫助研究人員更深入地理解檢測Transformers的關鍵組件在性能指標方面的含義。

  2. 對檢測Transformers的性能評估。我們使用流行的基準測試MS COCO [30] 來評估檢測Transformers的改進。我們也強調了這些方法的優點和局限性。3) 對改進版本的檢測Transformers的準確性和計算復雜性的分析。我們對最先進的基于Transformer的檢測方法進行評價性比較,關注其在注意力機制、骨干網絡修改、查詢設計改進等方面。4) 對檢測Transformers的關鍵構建模塊的概述,以進一步提高性能和未來的發展方向。我們檢查了各種關鍵的架構設計模塊對網絡性能和訓練收斂的影響,并為未來的研究提供可能的建議。

2 目標檢測和視覺中的Transformers

2.1 目標檢測

本節解釋了目標檢測的關鍵概念以及之前使用過的目標檢測器。關于目標檢測概念的更詳細分析可以在[35],[63]中找到。目標檢測任務通過在每個目標周圍提供一個邊界框和其類別,來在圖像中定位和識別目標。這些檢測器通常在像PASCAL VOC [64]或MS COCO [30]這樣的數據集上進行訓練。骨干網絡將輸入圖像的特征提取為特征圖[65]。通常,像ResNet50 [66]這樣的骨干網絡先在ImageNet [67]上進行預訓練,然后在下游任務上進行微調[68],[69],[70],[71]。此外,許多工作也使用了視覺transformers [72],[73],[74]作為骨干網絡。單階段目標檢測器[3],[4],[75],[76],[77],[78],[79],[80],[81],[82],[83]只使用一個網絡,速度更快,但性能低于兩階段網絡。兩階段目標檢測器[1],[2],[8],[65],[84],[85],[86],[87],[88],[89]包含兩個網絡,提供最終的邊界框和類標簽。輕量級檢測器:輕量級檢測器是一種設計為在計算上高效且相比標準目標檢測模型需要較低計算資源的目標檢測模型。這些是實時目標檢測器,可以在小設備上使用。這些網絡包括[90],[91],[92],[93],[94],[95],[96],[97],[98]。3D目標檢測:3D目標檢測的主要目的是使用3D邊界框識別感興趣的目標,并給出一個類標簽。3D方法分為三個類別,即基于圖像的[99],[100],[101],[102],[103],[104],[105],基于點云的[106],[107],[108],[109],[110],[111],[112],[113],[114]和基于多模態融合的[115],[116],[117],[118],[119]。

2.2 用于分割的Transformer

自注意力機制可以用于分割任務[120],[121],[122],[123],[124],它提供像素級[125]預測結果。全景分割[126]通過提供每像素類別和實例標簽,共同解決語義和實例分割任務。Wang等人[127]提出了針對三個基準[128],[129],[130]的全景分割任務的位置敏感軸向注意力。以上的分割方法都有基于CNN的網絡中的自注意力。最近,提出了包含編碼器-解碼器模塊的分割轉換器[121],[123]。

2.3 用于場景和圖像生成的Transformers

以前的文本到圖像生成方法[131],[132],[133],[134]基于GANs[135]。Ramesh等人[136]提出了一個基于transformer的模型,用于從提供的文本細節生成高質量的圖像。Transformer網絡也被應用于圖像合成[137],[138],[139],[140],[141],這對于學習下游任務的無監督和生成模型很重要。使用無監督訓練過程的特征學習[138]在兩個數據集[142],[143]上達到了最先進的性能,而SimCLR[144]在[145]上提供了相當的性能。iGPT圖像生成網絡[138]不包括類似于語言建模任務的預訓練過程。然而,無監督的基于CNN的網絡[146],[147],[148]考慮了先驗知識作為架構布局,注意力機制和正則化。帶有基于CNN的骨干的生成對抗網絡(GAN)[135]對于圖像合成[149],[150],[151]具有吸引力。TransGAN[140]是一個強大的GAN網絡,其中生成器和鑒別器包含transformer模塊。

2.4 用于低級視覺的Transformers

低級視覺是分析圖像以識別其基本組件并創建中間表示以供進一步處理和高級任務的過程。在觀察到注意力網絡在高級視覺任務中的顯著性能后,已經引入了許多針對低級視覺問題的基于注意力的方法,如[152],[153],[154],[155],[156]。

3. 檢測TRANSFORMERS

本節簡要解釋了DEtection TRansformer (DETR)及其改進,如圖2所示。

DEtection TRansformer (DETR) [7] 的架構比如Faster R-CNN [170]這樣的基于CNN的檢測器更簡單,因為它省去了生成錨點的過程和后處理步驟,如非極大值抑制(NMS),并提供了一個優化的檢測框架。DETR網絡有三個主要模塊:一個帶有位置編碼的主干網絡,一個編碼器和一個帶有注意力機制的解碼器網絡。從主干網絡中提取的特征作為一個單一的向量,和它們的位置編碼[171],[172]一起作為輸入向量送入編碼器網絡。這里,關鍵字,查詢和值矩陣上執行自我注意力,這些結果輸入到多頭注意力和前饋網絡中,以找到輸入向量的注意力概率。DETR解碼器并行處理目標查詢和編碼器輸出。通過并行解碼N個目標查詢,它計算出預測,并使用一種二部匹配算法來標記真實和預測的目標。

Deformable-DETR UP-DETR Efficient-DETR SMCA-DETR TSP-DETR Conditional-DETR WB-DETRP nP-DETR Dynamic-DETR YOLOS-DETR Anchor-DETR Sparse-DETRD 2ETRFP-DETR DAB-DETR CF-DETR DN-DETR AdaMixer REGO-DETR DINO

雖然檢測Transformers在各種對象檢測基準測試上已經顯示出了有希望的結果,但是仍然存在一些開放性的挑戰和改進的未來方向。表4提供了所有提出的DETR改進版本的優點和限制。以下是DETR改進的一些開放性挑戰和未來方向:

擴大到大數據集:DINO,DETR的改進版本,在小型和中型數據集上顯示出了令人印象深刻的結果,但是當擴大到大型數據集時,其性能下降。未來的工作應該探索如何將檢測Transformers擴大到大型數據集,同時保持其性能。

提高樣本效率:檢測Transformers需要大量的訓練數據來學習有效的表示。未來的工作應該研究如何提高樣本效率,比如結合領域特定的知識或者使用主動學習技術。

處理長尾分布:檢測Transformers在處理長尾分布時有困難,這種分布中某些類別的實例比其他類別少得多。未來的工作應該探索如何解決這種類別不平衡,比如使用重新采樣技術。

結合局部和全局信息:DETR關注全局信息,而DINO關注從圖像中學習局部表示。然而,DETR及其改進版本并沒有顯式地模型化圖像不同部分的局部和全局信息。未來的工作應該探索將這兩種信息結合到模型中。 總的來說,檢測Transformers還有很大的改進空間,解決這些開放性的挑戰和未來的方向可能會帶來更加令人印象深刻的結果。

4. 結論

檢測Transformer已經提供了高效且精確的目標檢測網絡,并深入了解了深度神經網絡的運行方式。這篇綜述給出了關于檢測Transformer的詳細概述。特別是,它關注了在DETR中最新的進步,以提高性能和訓練收斂性。檢測Transformer的編碼器-解碼器網絡中的注意力模塊被修改以改進訓練收斂性,并且更新作為解碼器輸入的目標查詢以改善對小目標的性能。我們提供了檢測Transformer的最新改進,包括主干修改、查詢設計和注意力細化。我們還比較了在性能和架構設計方面檢測Transformer的優點和限制。通過關注目標檢測任務,這篇綜述對DETR的最新進展提供了獨特的視角。我們希望這項研究能提高研究者在解決現有挑戰方面的興趣,以便在目標檢測領域應用Transformer模型。

付費5元查看完整內容

首篇時序預訓練綜述!

時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。

最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述

? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。

3. 實驗結果與分析

在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。

6. 結論

在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

深度卷積神經網絡(CNN)的卓越性能通常歸因于其更深和更廣泛的架構,這可能伴隨著巨大的計算成本。因此,修剪神經網絡引起了人們的興趣,因為它有效地降低了存儲和計算成本。與導致非結構化模型的權重剪枝相比,結構化剪枝通過產生對硬件實現友好的模型來提供現實加速的好處。結構化剪枝的特殊要求導致了許多新挑戰的發現和創新解決方案的發展。**本文綜述了深度CNN結構化剪枝的最新進展。總結并比較了最先進的結構化剪枝技術,包括過濾器排序方法、正則化方法、動態執行、神經架構搜索、ticket 假設以及剪枝的應用。**在討論結構化剪枝算法時,簡要介紹非結構化剪枝算法,以強調它們的區別。對結構化剪枝領域的潛在研究機會提供了見解。有關神經網絡剪枝的論文列表可以在//github.com/he-y/Awesome-Pruning上找到。

1. 引言

深度卷積神經網絡(CNN)在廣泛的應用中表現出了卓越的性能,包括圖像分類[1]、目標檢測[2]和圖像分割[3]等。許多CNN結構被提出,包括AlexNet [4], VGGNet [5], inception [6], ResNet[7]和DenseNet[8]。這些架構包含數百萬個參數,需要巨大的計算能力,使得在資源有限的硬件上部署具有挑戰性。模型壓縮是該問題的一種解決方案,旨在減少參數數量、計算成本和內存消耗。因此,它的研究變得越來越重要。 **為了生成更高效的模型,模型壓縮技術被提出,包括剪枝[9]、量化[10]、分解[11]和知識蒸餾[12]。**術語“剪枝”指的是刪除網絡的組件,以產生用于加速和壓縮的稀疏模型。剪枝的目的是在不顯著影響模型性能的情況下最小化參數的數量。大多數關于剪枝的研究都是在用于圖像分類任務的CNN上進行的,這是其他計算機視覺任務的基礎。 剪枝可分為非結構化[9]和結構化剪枝[13]。非結構化剪枝刪除神經網絡的連接(權重),導致非結構化稀疏性。非結構化剪枝通常會導致高壓縮率,但需要特定的硬件或庫支持以實現實際的加速。結構化剪枝刪除了神經網絡的整個濾波器,并可以利用基本線性代數子程序(BLAS)庫等高效庫的優勢,用標準硬件實現實際的加速和壓縮。在transformer[14]時代,從結構化剪枝的角度重新審視cnn的屬性是有意義的。最近,將CNN的架構設計納入Transformer模型[15],[16],[17],[18],[19]的趨勢越來越大。盡管transformer中的自注意力[20]在計算序列表示方面是有效的,但由于transformer缺乏歸納偏差[17],[21],[22],仍然需要大量的訓練數據。相比之下,cnn的結構在權重上實施兩個關鍵的歸納偏差:局部性和權重共享,以提高學習算法的泛化性,并且獨立于數據[17]。本綜述提供了對CNN的更好理解,并為未來有效設計架構提供了提示。

**本文關注結構化剪枝。現有壓縮研究綜述如表1所示。**一些綜述涵蓋了正交領域,包括量化[23]、知識蒸餾[24]和神經架構搜索[25]。一些調研[26]提供了更廣泛的概述。雖然一些研究側重于剪枝,但它們更多地關注非結構化剪枝,并且覆蓋了少量結構化剪枝的研究。[27]、[28]、[29]、[30]、[31]、[32]、[33]的結構化剪枝論文引用數分別為1、11、15、55、38、10、20篇。本文提供了一個更全面的調研,其中有200多篇結構化剪枝論文。

**調研安排如下:在分類法中(圖1),將結構化剪枝方法分為不同的類別。**第2節的每一小節對應于一類結構化剪枝方法。大多數方法首先以非結構化的方式開發,然后擴展以滿足結構約束。盡管一些研究涵蓋了多個類別,但我們將它們放在為本調查服務的最合適的類別中。第三部分介紹了一些潛在的和有希望的未來發展方向。由于篇幅限制,僅對最具代表性的研究進行詳細討論。

2. 方法

Weight-Dependent

權重依賴準則根據濾波器的權重來評估濾波器的重要性。與基于激活的方法相比,權重依賴的方法不涉及輸入數據。因此,權重依賴方法被認為是直接的,需要較低的計算成本權重依賴準則有兩個子類:濾波器范數和濾波器相關性。計算一個濾波器的范數獨立于其他濾波器的范數,而計算濾波器相關性涉及多個濾波器。 Activation-Based

激活圖是輸入數據和濾波器的卷積結果(等式1)。除了使用濾波器的權重外,激活圖可以用于濾波器修剪。激活通道剪枝是過濾器剪枝的另一個名稱,因為刪除激活圖的通道等同于刪除過濾器。除了當前層的效果外,過濾器修剪還通過特征圖影響下一層的過濾器。為了評估第l層中的濾波器,我們可以利用以下激活圖上的信息:1)當前層-通道重要性可以通過使用重建誤差[58]、激活圖[59]的分解、通道獨立性的利用[61]和后激活[62],[63]來評估;2)相鄰層-冗余通道可以通過利用當前層和下一層之間的依賴關系來有效識別[66],[67]。此外,還可以利用前一層的激活圖來指導剪枝決策[123],[124];3)所有層-通過最小化最終響應層的構造誤差[69]并考慮所有層的區分能力[70],可以評估去除濾波器的整體效果。 正則化

正則化可以通過添加不同的稀疏度正則化器Rs(·)來學習結構化稀疏網絡。如果網絡包含批量歸一化層,則稀疏正則化器可應用于BN參數。為了實現結構化稀疏,使用BN參數來指示通道或濾波器等結構的剪枝決策。引入了作為可學習門工作的額外參數來指導修剪。有了這些額外的參數,網絡不再需要批量規范化層。稀疏正則化器也可以直接應用于濾波器。Group Lasso正則化通常用于以結構化的方式稀疏化濾波器。

Optimization Tools

動態修剪

動態剪枝可以在訓練和推理過程中進行。訓練過程中的動態旨在通過在訓練過程中保持動態修剪掩碼來保持模型的代表能力。它也被稱為軟剪枝,以確保不當的剪枝決策在以后可以恢復。另一方面,硬修剪永久地消除了固定掩碼的權重。推理過程中的動態表示網絡根據不同的輸入樣本動態修剪。例如,與復雜圖像相比,包含明確目標的簡單圖像需要更少的模型容量[108]。因此,動態推理提供了更好的資源準確性權衡。

神經架構搜索

由于人工確定逐層剪枝率等剪枝相關超參數非常繁瑣,因此提出了神經架構搜索(NAS)[25]來自動尋找剪枝結構。在綜述NAS[25]方法的基礎上,將NAS剪枝分為3種方法。NAS可以建模為:1)強化學習(RL)問題,RL代理通過搜索動作空間(如剪枝率)來找到稀疏的子網絡。2)基于梯度的方法,通過修改梯度更新規則,使稀疏約束的優化問題對權重可微。3)演化方法,采用演化算法對稀疏子網絡進行探索和搜索。

Extensions


付費5元查看完整內容

Transformer模型已經在各種領域得到廣泛應用。最新來自南京大學醫學院發布最新《Transformer醫學圖像處理應用》綜述論文,廣泛回顧了該領域中超過120種基于Transformers的現有方法,為醫療應用提供了解決方案,并展示了Transformers是如何在各種臨床環境中被采用的。

Transformers已經主導了自然語言處理領域,最近又影響了計算機視覺領域。在醫學圖像分析領域,Transformer也已成功應用于全面臨床應用,包括圖像合成/重建、配準、分割、檢測和診斷。我們的論文對Transformers在醫學圖像分析領域的應用進行了全面調研。具體來說,我們首先概述了Transformer和其他基本組件中內置的注意力機制的核心概念。其次,我們給出了為醫療圖像應用量身定制的各種Transformer架構的新分類,并討論了它們的局限性。在這篇綜述中,我們研究了圍繞在不同學習范式中使用Transformer、提高模型效率以及它們與其他技術的耦合的關鍵挑戰。我們希望這篇綜述能給醫學圖像分析領域的讀者一個全面的Transformer的概覽。

//www.zhuanzhi.ai/paper/13d269d51e808dd9dec1edf5a6d5b5eb

引言

Transformer[1]已經主導了自然語言處理(NLP)領域,包括語音識別[2]、合成[3]、文本到語音翻譯[4]和自然語言生成[5]。作為深度學習體系結構的一個引人注目的實例,Transformer首先被引入處理NLP中的序列推理任務。雖然循環神經網絡(RNN)6顯式地使用了一系列推理過程,但Transformer顯著地利用堆疊的自注意力層捕獲了順序數據的長期依賴關系。通過這種方式,Transformer既能一次性解決順序學習問題,又能有效地疊加非常深入的模型。在解決NLP任務方面,一些接受過大規模架構訓練的Transformer架構已經變得非常流行,例如BERT[8]和GPT[9]、[10]——僅舉幾個例子。

醫學圖像分析中Transformer的發展。圖中展示了在分類、檢測、分割和綜合應用中所選擇的方法。

卷積神經網絡(Convolutional neural network, cnn)及其變體已經在一些計算機視覺(computer vision, CV)任務[11]中達到了最先進的水平,這在一定程度上要歸功于它們逐漸擴大的感受野,可以將結構化圖像表示的層次結構作為語義來學習。在計算機視覺[12]中,圖像的視覺語義捕獲通常被認為是構建成功網絡的核心思想。然而,CNN忽略了圖像中的長期依賴關系,如圖像中物體的非局部相關。受上述Transformer在NLP中的成功啟發,Dosovitskiy et al.[13]提出了Vision Transformer (ViT),將圖像分類作為圖像patch (region)序列的序列預測任務,從而捕獲輸入圖像中的長期依賴關系。ViT及其派生實例已經在幾個基準數據集上實現了最先進的性能。在各種各樣的計算機視覺任務中,transformer已經變得非常流行,包括圖像分類[13]、檢測[14]、分割[15]、生成[16]和描述生成[17]。此外,Transformer在基于視頻的應用[18]中也扮演著重要的角色。****

最近,Transformer還將醫學圖像分析領域用于疾病診斷[19]、[20]、[21]和其他臨床用途。如[22],[23]的工作利用transformer通過CT或x線影像區分COVID-19和其他類型的肺炎,滿足了快速有效治療COVID-19患者的迫切需求。此外,transformer還成功地應用于圖像[24]分割、[25]檢測和[26]合成,取得了非常先進的效果。圖1顯示了Transformer對不同醫學圖像應用的時間適應性,將在第3節中進一步討論。

雖然很多研究都致力于將Transformers定制到醫學圖像分析任務中,但這種定制帶來了新的挑戰,仍然沒有得到解決。為了鼓勵和促進基于Transformers的醫學圖像分析應用的發展,我們廣泛回顧了該領域中超過120種基于Transformers的現有方法,為醫療應用提供了解決方案,并展示了Transformers是如何在各種臨床環境中被采用的。此外,我們還深入討論了如何設計基于Transformers的方法來解決更復雜的現實世界任務,包括弱監督/多任務/多模態學習范式。本文包括Transformers和CNN的比較,并討論了提高Transformers網絡的效率和解釋的新方法。

以下各節的組織如下。第二節介紹了《Transformers》的前期及其在視覺上的發展。第3節回顧了Transformers 在醫學圖像分析中的最新應用,第4節討論了Transformers未來的潛在發展方向。第五部分對全文進行總結。

Transformers 醫學圖像分類

Transformers 在醫學圖像分析中的應用

Transformers 已廣泛應用于全堆棧的臨床應用。在本節中,我們首先介紹基于Transformer的醫學圖像分析應用,包括分類、分割、圖像到圖像轉換、檢測、配準和基于視頻的應用。我們根據學習任務對這些應用程序進行分類,如上圖所示。

付費5元查看完整內容

悉尼大學最新《基于圖像的自動駕駛三維目標檢測研究進展》論文

基于圖像的三維目標檢測是自動駕駛技術中最基本、最具挑戰性的問題之一,近年來越來越受到業界和學術界的關注。得益于深度學習技術的快速發展,基于圖像的三維檢測已經取得了顯著的進展。特別是,從2015年到2021年,已有200多部著作對這個問題進行了研究,涵蓋了廣泛的理論、算法和應用。然而,到目前為止,還沒有最近的綜述來收集和組織這些知識。在本文中,我們填補了文獻中的這一空白,對這一新興且不斷發展的研究領域進行了首次全面的綜述,總結了基于圖像的三維檢測最常用的方法,并深入分析了它們的每個組成部分。此外,我們還提出了兩種新的分類法,將最先進的方法組織成不同的類別,目的是為現有方法提供一個更系統的回顧,并促進與未來工作的公平比較。回顧了目前所取得的成果,分析了當前該領域面臨的挑戰,并討論了基于圖像的三維檢測研究的未來方向。

//www.zhuanzhi.ai/paper/ffba05abdd8ef430a2cb5682c64fa1a2

引言

自動駕駛有可能從根本上改變人們的生活,提高流動性,減少旅行時間、能源消耗和排放。因此,不出所料,在過去的十年里,研究和行業都在大力開發自動駕駛汽車。三維目標檢測作為自動駕駛的關鍵實現技術之一,受到了廣泛的關注。特別是最近,基于深度學習的3D目標檢測方法得到了廣泛的應用。

現有的三維目標檢測方法可以根據輸入數據是圖像還是激光雷達信號(一般表示為點云)大致分為兩類。與基于激光雷達的方法相比,僅從圖像中估計三維邊界框的方法面臨著更大的挑戰,因為從二維輸入數據中恢復三維信息是一個不適定問題。然而,盡管存在這種內在的困難,在過去的六年里,基于圖像的3D目標檢測方法在計算機視覺(CV)社區中得到了廣泛應用。在該領域的頂級會議和期刊上發表論文80余篇,在檢測精度和推理速度方面取得多項突破。

本文首次對基于深度學習技術的基于圖像的三維目標檢測技術的最新進展進行了全面、系統的綜述。特別地,本綜述總結了這一領域的以往研究工作,從開創性的方法[1],[2]到ICLR ' 2022發表的最新方法[3],[4]。該綜述回顧和分析了基于圖像的三維檢測模型的高層框架和每個必需組件的具體設計選擇(如特征提取、損失公式等)。此外,我們提出了兩種新的分類法來分類現有的方法,即根據它們采用的框架和使用的輸入數據。這樣做的目的是為了促進系統地分析目前的方法和對今后的工作進行公平的比較。

本工作的主要貢獻如下:

  1. 據我們所知,這是基于圖像的自動駕駛三維檢測方法的首次研究。本文綜述了80余種基于圖像的三維檢測器和200余項相關研究工作。
  2. 我們對問題的關鍵方面,包括數據集、評價指標、檢測流程和技術細節,提供了全面的回顧和深刻的分析。
  3. 我們提出了兩種最新的分類方法,目的是幫助讀者輕松地獲取這一新興的、正在發展的研究領域的知識。
  4. 我們總結了基于圖像的三維檢測的主要問題和未來的挑戰,并對未來工作提出了一些潛在的研究方向。

本文除了詳細介紹這些基于圖像的三維檢測器的技術細節外,還介紹了它們的分類、常用數據集、評價指標和潛在的挑戰/研究方向。此外,我們還提供了一個持續維護的項目頁面: 3dodi-survey

本文組織如下。第2節簡要介紹了基于圖像的三維檢測任務。第3節總結了常用的數據集和評價標準。第4節描述了常用框架。這三個部分是為初學者準備的,以便他們快速對基于圖像的三維檢測問題獲得一個很好的理解。在第5節中,我們比較了3D檢測器中通常需要的每個組件的細節,而第6節討論了常用的輔助輸入數據。這兩個部分可以幫助研究者在這個領域建立一個清晰,深入和更結構化的知識的主題。第7節介紹了本課題的一些討論,并在第8節中指出了未來可能的研究方向。這兩個部分為以后的作品提供了見解。最后,在第9節中得出結論。

任務

在給定RGB圖像和相機參數的條件下,基于圖像的三維目標檢測的目標是對感興趣的目標進行分類和定位。在3D世界空間中,每個對象都由其類別和邊界框表示。通常,三維包圍盒的參數化是相對于預定義的參考坐標系(例如記錄數據的自我車)的位置[x, y, z],尺寸[h, w, l]和方向[θ, φ, ψ] 。在大多數自動駕駛場景中,只考慮沿上軸方向的航向角θ(偏航角)。圖1在2D圖像平面和鳥瞰圖上顯示了示例結果。雖然一般問題的基于圖像的三維對象檢測可以表示如上所述,值得一提的是:i):除了類別和3D邊界框,需要額外的一些基準預測,如二維邊界框為KITTI數據集[5]和速度/屬性nuScenes數據集[6]。ii):雖然本任務最初只提供圖像和相機參數,但該領域普遍采用輔助數據(如立體對、CAD模型、LiDAR信號等)。

數據集

眾所周知,大規模數據集的可用性對數據驅動的深度學習技術的成功至關重要。對于自動駕駛場景下基于圖像的三維目標檢測,公開的數據集[5]、[6]、[11]、[7]、[8]、[9]、[10]、[12]、[13]、[14]的主要特征如表1所示。其中KITTI 3D[5]、nuScenes[6]、Waymo Open[11]是最常用的數據集,極大地促進了3D檢測的發展。在下面的文章中,我們將根據數據集的大小、多樣性和其他數據提供有關這些基準測試的主要信息。

方法

我們將現有的基于圖像的三維檢測器分為兩類: (1)基于二維特征的方法。這些方法首先從二維特征中估計出圖像平面中物體的二維位置(以及方向、深度等項),然后將二維檢測提升到三維空間中。基于此,這些方法也可以稱為“基于結果提升的方法”。此外,由于這些方法通常與二維檢測模型具有相似的結構,因此可以按照二維檢測中常用的分類方法(即基于區域的方法和單次射擊的方法)進一步進行分類。(ii) 基于三維特征的方法。這些方法基于三維特征對目標進行預測,從而可以在三維空間中直接定位目標。此外,根據如何獲取三維特征,這些方法可以進一步分為“基于特征提升的方法”和“基于數據提升的方法”。顧名思義,前者通過提升二維特征獲得三維特征,后者直接從二維圖像傳輸的三維數據中提取三維特征。根據前面提到的分類法,我們在圖2中突出顯示了具有關鍵基準的重要方法。

由于基于圖像的三維檢測沒有具體的分類方法,以往的工作一般采用經典的二維檢測分類方法,將三維檢測器分為基于區域的方法和單鏡頭的方法。我們提出的分類方法更適合于基于圖像的三維檢測,因為: (i) 我們的分類方法基于特征表示對現有的方法進行分組,從而幫助讀者快速構建結構化的知識。(ii)我們的分類表明了檢測器如何對齊2D輸入數據和3D結果之間的維度不匹配(即結果提升、特征提升或數據提升),這是這項任務的核心問題。(3)我們的分類法可以清晰地定義現有的方法,而以往的分類法不能。例如,基于偽LiDAR的方法(將在4.3.2節中介紹)可以采用任何基于LiDAR的探測器,包括基于區域的方法和單次樣本的方法。因此,很難將這些方法劃分給任何一方。

未來挑戰

基于圖像的三維目標檢測是一個相對較新的領域。性能得到了迅速的提高和不斷的提高,但仍有許多局限性和方向需要進一步分析和探索。在本節中,我們重點介紹了一些最相關的問題,希望為有影響力的未來工作提供相關線索。

深度估計

基于圖像的三維目標檢測方法的性能在很大程度上依賴于目標精確距離的估計能力。因此,分析和提高三維目標探測器的深度估計能力是未來的一個相關方向。最近的許多研究,如[20],[49],[75],[92],[95],[25],試圖解決這個問題,提出了回歸目標和損失公式的替代定義,并表明仍有很大的改進空間。

不止監督學習

創建3D檢測數據集是一個非常昂貴和耗時的操作。它通常涉及不同技術(如激光雷達、GPS、相機)之間的協同作用,以及大量的勞動力。注釋過程的要求很高,即使存在許多質量檢查,它也不可避免地受到錯誤的影響。因此,可以看到,幾乎所有的三維物體檢測方法都是完全監督的,即需要訓練三維包圍盒標注。相反,在其他相關領域,完全的監督要求已被放寬,如深度估計[56],[183]或基于lidar的3D檢測[184],[185],[186],[187],很少有人致力于探索半監督或自監督方法[178],[188],[4]。在這方面,值得強調的是[178]中的方法,該方法引入了一個可微分的渲染模塊,可以利用輸入的RGB圖像作為唯一的監控源。此外,鑒于在通用場景(如NeRF[189])和真實對象(如[190],[191])上可區分渲染領域的最新進展,我們相信這個特定的方向非常有價值,并有可能放松3D框注釋的要求。

多模態

如第7節所述,圖像數據和LiDAR數據都有各自的優勢,一些方法,如[31],[89],[32],[162],[163],最近已經開始將這兩種類型的數據整合到一個模型中。然而,這一領域的研究仍處于起步階段。此外,還可以考慮其他數據形態,進一步提高算法的準確性和魯棒性。例如,與激光雷達相比,雷達設備具有更長的傳感距離,可以用來提高對遙遠物體的精度。此外,在一些極端天氣條件下,如雨天和大霧天氣,雷達更加穩定。然而,雖然在一些數據集[6],[192],[193]中已經提供了雷達同步數據,但研究如何使用的方法卻很少[193],[194],[195]。另一個例子是來自熱相機的數據[196],這為解決不利的照明條件,提高探測精度提供了新的機會。綜上所述,理想的檢測算法應該集成多種數據,覆蓋異構和極端條件。

時間序列

在現實世界中,人類駕駛員依靠連續的視覺感知來獲取周圍環境的信息。然而,該領域的大部分工作都是從單幀的角度來解決三維檢測問題,這顯然是次優的,最近只有一項工作[69]開始考慮時間線索和約束。另一方面,大量的工作已經證明了在許多任務中使用視頻數據的有效性,包括二維檢測[197]、[198]、深度估計[199]、[200]、分割[201]、[202],以及基于LiDAR的三維檢測[203]、[204]、[205]。這些相關領域的成功證明了視頻數據在三維探測任務中的潛力,通過引入時間數據和構建時空空間新約束可以實現新的突破。

泛化性

泛化對自動駕駛汽車的安全性起著重要的作用。在這方面,不幸的是,眾所周知,基于圖像的3D對象檢測方法在測試看不見的數據集、對象或具有挑戰性的天氣條件時,性能會有相當大的下降。

本文綜述了基于圖像的自動駕駛三維檢測技術的最新進展。我們看到,從2015年到2021年,已經有很多關于這個話題的論文發表。為了對這些方法進行系統的總結,我們首先對現有的方法進行了分類。然后,對這些算法進行了詳細的比較,討論了三維檢測中各個必要的組成部分,如特征提取、損耗計算、后處理等。我們還討論了輔助數據在這一領域的應用,支持有必要進行系統的總結,如本次調查和更好的協議,以便在未來的工作中進行公平比較。最后,我們描述了這一領域中一些開放的挑戰和潛在的方向,可能在未來幾年激發新的研究。

付費5元查看完整內容

【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。

摘要

Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。

//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:

(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。

(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。

本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。

  • 對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。

  • 在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。

  • 對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

付費5元查看完整內容

【導讀】預訓練模型是當下的研究熱點之一。本文對綜述了近年來與T-PTLMs相關的研究工作,涵蓋了基本概念、分類體系。

引言

基于Transformer的預訓練語言模型(T-PTLMs)在幾乎所有的自然語言處理任務中都取得了巨大的成功。這些模型的發展始于GPT和BERT。這些模型建立在Transformer、自監督學習和遷移學習的基礎上。基于轉換的PTLMs通過自監督學習從大量文本數據中學習通用語言表示,并將這些知識轉移到下游任務中。這些模型為下游任務提供了良好的背景知識,避免了對下游模型從頭開始的訓練。在這篇全面的綜述論文中,我們首先對自監督學習做一個簡要的概述。接下來,我們解釋了各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法。接下來,我們介紹了 T-PTLMs的一個新分類,然后簡要概述了各種基準測試,包括內在和外在的。我們總結了與 T-PTLMs一起工作的各種有用的庫。最后,提出了進一步完善這些模型的研究方向。我們堅信,這篇全面的綜述論文將為了解 T-PTLMs的核心概念以及了解 T-PTLMs的最新動態提供很好的參考。

摘要

如GPT-1 [1], BERT [2], XLNet [3], RoBERTa [4], ELECTRA [5], T5 [6], ALBERT [7],BART[8]和PEGAUSUS [9]在NLP中取得了巨大的成功,因為它們能夠從大量未標記的文本數據中學習通用語言表征,然后將這些知識轉移到下游任務中。在早期,NLP系統大多是基于規則的,后來被機器學習模型所取代。機器學習模型需要特征工程,這需要領域專業知識,也是一個耗時的過程。gpu和Word2Vec[10]和Glove[11]等更好的計算機硬件的發展,增加了深度學習模型(如CNN[12]和RNN[13]、[14])用于構建NLP系統的使用。這些深度學習模型的主要缺點是需要從頭開始訓練模型,除了單詞嵌入。從頭開始訓練模型需要大量已標記的實例,生成這些實例的代價是昂貴的。然而,我們希望模型僅使用少數標記實例就能表現良好。遷移學習[15]允許在源任務中學習的知識重用,從而在目標任務中很好地執行。在這里,目標任務應該與源任務類似。基于遷移學習的思想,計算機視覺研究人員使用ImageNet[20],[21]等大規模標記數據集訓練了大型CNN模型[16]-[19]。這些模型學習在所有任務中都通用的圖像表示。預訓練的大型CNN模型通過包含少量特定任務層來適應下游任務,然后在目標數據集[22]上進行微調。由于預先訓練好的CNN模型為下游模型提供了良好的背景知識,他們在許多CV任務[18],[23]中獲得了巨大的成功。

像CNN和RNN這樣的深度學習模型在建模長期上下文和學習帶有局部偏差[24]的單詞表示方面存在困難。此外,由于RNN按順序處理輸入,即逐字處理,并行計算機硬件的利用率受到限制。為了克服現有深度學習模型的這些缺陷,Vaswani等人[25]提出了一種完全基于自注意的深度學習模型,稱為Transformer。與RNN相比,自注意允許更多的并行化,并且可以很容易地建模長期上下文,因為每個令牌都關注輸入序列[25]中的所有令牌。Transformer包含編碼器和解碼器層的堆棧。在編碼器和解碼器層的幫助下,Transformer可以學習復雜的語言信息。在NLP域中生成大量標記數據是一個非常昂貴和耗時的過程。但是,很容易獲得大量未標記的文本數據。NLP研究社區對基于CNN的計算機視覺預訓練模型的成功印象深刻,已經開發了結合Transformer和自監督學習的能力的T-PTLMs。自監督學習允許Transformer基于一個或多個預訓練任務提供的偽監督進行學習。

GPT和BERT分別是第一個基于transformer 解碼器和編碼器層開發的T-PTLMs。在GPT和BERT的基礎上,提出了XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART和PEGAUSUS等模型。這里XLNet, RoBERTa, ELECTRA和ALBERT是對BERT模型的改進,而T5, BART和PEGAUSUS是基于編碼器-解碼器的模型。Kaplan等人[26]表明,T-PTLMs的表現可以通過增加模型的大小來提高。這一觀察觸發了大規模T-PTLMs的發展,如GPT-3 (175B)[27]、PANGU- (200B)[28]、GShard (600B)[29]和switch - transformer (1.6T)[30]等包含數十億個參數的T-PTLMs。繼T-PTLMs在通用英語領域的成功之后,T-PTLMs也被開發用于其他領域,如金融[31],法律[32],[33],新聞[34],編程[35]-[39],對話[40],網絡[41],學術[42]-[44]和生物醫學[45]-[48]。TPTLMs還支持遷移學習,因為這些模型可以通過對目標數據集進行微調或即時調整來適應下游任務。本文綜述了近年來與T-PTLMs相關的研究工作。我們將綜述總結為

  • 我們將簡要介紹SSL,它是開發T-PTLMs的支柱(第2節)。

  • 我們解釋了與T-PTLMs相關的各種核心概念,如預訓練、預訓練方法、預訓練任務、嵌入和下游適應方法(第3節)。

  • 我們提出了一個新的分類方法來分類各種T-PTLMs。這種分類法基于四個視角,即預訓練語料庫、體系結構、SSL類型和擴展(第4節)。

  • 我們提出了一種新的分類法來對各種下游適應方法進行分類,并對每一種方法進行詳細解釋(第5節)。

  • 我們簡要概述了評估T-PTLMs進展的各種基準,包括內在的和外在的(第6節)。

  • 我們簡要概述了各種庫,從Huggingface transformer到Transformer-interpret,這些庫對tptlm的工作很有用(第7節)。

  • 我們簡要討論了一些未來的研究方向,這些方向將推動研究團體進一步改進模型(第8節)。

付費5元查看完整內容

目標檢測是對圖像或視頻中的物體進行分類和定位的任務。近年來,由于其廣泛的應用而倍受關注。本文概述了基于深度學習的目標檢測器的最新發展。還提供了用于檢測的基準數據集和評估指標的簡要概述,以及用于識別任務的一些著名的主干架構。它還涵蓋了邊緣設備上使用的當代輕量級分類模型。最后,我們在多個指標上比較了這些體系結構的性能。

付費5元查看完整內容

隨著機器學習、圖形處理技術和醫學成像數據的迅速發展,機器學習模型在醫學領域的使用也迅速增加。基于卷積神經網絡(CNN)架構的快速發展加劇了這一問題,醫學成像社區采用這種架構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地被用于醫學圖像分析,以提高臨床醫生的工作效率。近年來,三維(3D) CNNs已被用于醫學圖像分析。在這篇文章中,我們追溯了3D CNN的發展歷史,從它的機器學習的根源,簡單的數學描述3D CNN和醫學圖像在輸入到3D CNNs之前的預處理步驟。我們回顧了在不同醫學領域,如分類、分割、檢測和定位,使用三維CNNs(及其變體)進行三維醫學成像分析的重要研究。最后,我們討論了在醫學成像領域使用3D CNNs的挑戰(以及使用深度學習模型)和該領域可能的未來趨勢。

付費5元查看完整內容
北京阿比特科技有限公司