Transformers 已經主導了自然語言處理領域,最近又影響了計算機視覺領域。在醫學圖像分析領域,Transformer也已成功應用于全堆棧的臨床應用,包括圖像合成/重建、配準、分割、檢測和診斷。我們的論文對Transformers 在醫學圖像分析領域進行全面調研。具體來說,我們首先概述了Transformer和其他基本組件中內置的注意力機制的核心概念。其次,我們給出了為醫療圖像應用程序量身定制的各種Transformer架構的新分類,并討論了它們的局限性。在這篇綜述中,我們研究了圍繞在不同學習范式中使用Transformer、提高模型效率以及它們與其他技術的耦合的關鍵挑戰。我們希望這篇綜述能給醫學圖像分析領域的讀者一個全面的Transformers 的綜述。
Transformers have dominated the field of natural language processing, and recently impacted the computer vision area. In the field of medical image analysis, Transformers have also been successfully applied to full-stack clinical applications, including image synthesis/reconstruction, registration, segmentation, detection, and diagnosis. Our paper presents both a position paper and a primer, promoting awareness and application of Transformers in the field of medical image analysis. Specifically, we first overview the core concepts of the attention mechanism built into Transformers and other basic components. Second, we give a new taxonomy of various Transformer architectures tailored for medical image applications and discuss their limitations. Within this review, we investigate key challenges revolving around the use of Transformers in different learning paradigms, improving the model efficiency, and their coupling with other techniques. We hope this review can give a comprehensive picture of Transformers to the readers in the field of medical image analysis.
【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。
摘要
Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。
//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65
引言
Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。
在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。
如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。
去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:
(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。
(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。
(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。
本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。
總結
在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。
對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。
在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。
對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。
題目: 3D Deep Learning on Medical Images: A Review
摘要:
機器學習,圖形處理技術和醫學成像數據的可用性的快速發展導致在醫學領域深度學習模型的使用迅速增加。基于卷積神經網絡(CNN)的體系結構的快速發展加劇了這種情況,醫學成像社區采用了該體系結構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地用于醫學圖像分析,以提高人類臨床醫生的效率。近年來,三維(3D)CNNs已用于醫學圖像分析。在本文中,追溯了3D CNN如何從其機器學習根源發展的歷史,對3D CNN進行了簡要的數學描述,并在將醫學圖像輸入3D CNNs之前對其進行了必要的預處理。文中還回顧了使用3D CNNs(及其變體)在不同醫學領域(例如分類,分割,檢測和定位)的3D醫學成像分析領域的重要研究。通過討論與在醫學成像領域中使用3D CNNs相關的挑戰(以及通常使用深度學習模型)以及該領域可能的未來趨勢來得出結論。
語義圖像分割任務包括將圖像的每個像素分類為一個實例,其中每個實例對應一個類。這個任務是場景理解或更好地解釋圖像的全局上下文概念的一部分。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放療或改進的放射診斷。本綜述將基于深度學習的醫學和非醫學圖像分割解決方案分為六大組:深度架構、基于數據合成、基于損失函數、排序模型、弱監督和多任務方法,并對每一組的貢獻進行全面綜述。然后,針對每一組,我們分析了每一組的不同,并討論了當前方法的局限性和未來語義圖像分割的研究方向。
論文題目:
Machine Learning Techniques for Biomedical Image Segmentation: An Overview of Technical Aspects and Introduction to State-of-Art Applications
論文摘要: 近年來,在開發更精確、更有效的醫學圖像和自然圖像分割的機器學習算法方面取得了重大進展。在這篇綜述文章中,我們強調了機器學習算法在醫學圖像領域實現高效準確分割的重要作用。我們特別關注與機器學習方法在生物醫學圖像分割中的應用相關的幾個關鍵研究。我們回顧了經典的機器學習算法,如馬爾可夫隨機場、k-均值聚類、隨機森林等,雖然這些經典的學習模型往往比深度學習技術更不精確,但它們往往更具樣本效率,結構也更不復雜。我們還回顧了不同的深度學習結構,如人工神經網絡(ANNs)、卷積神經網絡(CNNs)和遞歸神經網絡(RNNs),并給出了這些學習模型在過去三年中取得的分割結果。我們強調了每種機器學習范式的成功和局限性。此外,我們還討論了與不同機器學習模型訓練相關的幾個挑戰,并提出了一些啟發式方法來解決這些挑戰。
論文主題: Deep Semantic Segmentation of Natural and Medical Images: A Review
論文摘要: (醫學)圖像語義分割任務包括將圖像的每個像素(或幾個像素)分類為一個實例,其中每個實例(或類別)對應于一個類。此任務是場景理解概念的一部分,或更好地解釋全局 圖像的上下文。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放射治療或改進的放射診斷。在這篇綜述中,我們將領先的基于深度學習的醫學和非醫學圖像分割解決方案分為六大類:深度架構、基于數據合成、基于損失函數、序列模型、弱監督和多任務方法。此外,針對每一組,我們分析了這些組的每一個變體,并討論了當前語義圖像分割方法的局限性和未來的研究方向。
題目: Understanding Deep Learning Techniques for Image Segmentation
簡介: 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡(例如卷積神經網絡,遞歸網絡,對抗網絡,自動編碼器等)有效地解決了許多具有挑戰性的計算機視覺任務,例如在不受限制的環境中對對象進行檢測,定位,識別和分割。盡管有很多關于對象檢測或識別領域的分析研究,但相對于圖像分割技術,出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始,本文進一步描述了深度學習對圖像分割域的影響。此后,大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。