Transformer模型已經在各種領域得到廣泛應用。最新來自南京大學醫學院發布最新《Transformer醫學圖像處理應用》綜述論文,廣泛回顧了該領域中超過120種基于Transformers的現有方法,為醫療應用提供了解決方案,并展示了Transformers是如何在各種臨床環境中被采用的。
Transformers已經主導了自然語言處理領域,最近又影響了計算機視覺領域。在醫學圖像分析領域,Transformer也已成功應用于全面臨床應用,包括圖像合成/重建、配準、分割、檢測和診斷。我們的論文對Transformers在醫學圖像分析領域的應用進行了全面調研。具體來說,我們首先概述了Transformer和其他基本組件中內置的注意力機制的核心概念。其次,我們給出了為醫療圖像應用量身定制的各種Transformer架構的新分類,并討論了它們的局限性。在這篇綜述中,我們研究了圍繞在不同學習范式中使用Transformer、提高模型效率以及它們與其他技術的耦合的關鍵挑戰。我們希望這篇綜述能給醫學圖像分析領域的讀者一個全面的Transformer的概覽。
//www.zhuanzhi.ai/paper/13d269d51e808dd9dec1edf5a6d5b5eb
引言
Transformer[1]已經主導了自然語言處理(NLP)領域,包括語音識別[2]、合成[3]、文本到語音翻譯[4]和自然語言生成[5]。作為深度學習體系結構的一個引人注目的實例,Transformer首先被引入處理NLP中的序列推理任務。雖然循環神經網絡(RNN)6顯式地使用了一系列推理過程,但Transformer顯著地利用堆疊的自注意力層捕獲了順序數據的長期依賴關系。通過這種方式,Transformer既能一次性解決順序學習問題,又能有效地疊加非常深入的模型。在解決NLP任務方面,一些接受過大規模架構訓練的Transformer架構已經變得非常流行,例如BERT[8]和GPT[9]、[10]——僅舉幾個例子。
醫學圖像分析中Transformer的發展。圖中展示了在分類、檢測、分割和綜合應用中所選擇的方法。
卷積神經網絡(Convolutional neural network, cnn)及其變體已經在一些計算機視覺(computer vision, CV)任務[11]中達到了最先進的水平,這在一定程度上要歸功于它們逐漸擴大的感受野,可以將結構化圖像表示的層次結構作為語義來學習。在計算機視覺[12]中,圖像的視覺語義捕獲通常被認為是構建成功網絡的核心思想。然而,CNN忽略了圖像中的長期依賴關系,如圖像中物體的非局部相關。受上述Transformer在NLP中的成功啟發,Dosovitskiy et al.[13]提出了Vision Transformer (ViT),將圖像分類作為圖像patch (region)序列的序列預測任務,從而捕獲輸入圖像中的長期依賴關系。ViT及其派生實例已經在幾個基準數據集上實現了最先進的性能。在各種各樣的計算機視覺任務中,transformer已經變得非常流行,包括圖像分類[13]、檢測[14]、分割[15]、生成[16]和描述生成[17]。此外,Transformer在基于視頻的應用[18]中也扮演著重要的角色。****
最近,Transformer還將醫學圖像分析領域用于疾病診斷[19]、[20]、[21]和其他臨床用途。如[22],[23]的工作利用transformer通過CT或x線影像區分COVID-19和其他類型的肺炎,滿足了快速有效治療COVID-19患者的迫切需求。此外,transformer還成功地應用于圖像[24]分割、[25]檢測和[26]合成,取得了非常先進的效果。圖1顯示了Transformer對不同醫學圖像應用的時間適應性,將在第3節中進一步討論。
雖然很多研究都致力于將Transformers定制到醫學圖像分析任務中,但這種定制帶來了新的挑戰,仍然沒有得到解決。為了鼓勵和促進基于Transformers的醫學圖像分析應用的發展,我們廣泛回顧了該領域中超過120種基于Transformers的現有方法,為醫療應用提供了解決方案,并展示了Transformers是如何在各種臨床環境中被采用的。此外,我們還深入討論了如何設計基于Transformers的方法來解決更復雜的現實世界任務,包括弱監督/多任務/多模態學習范式。本文包括Transformers和CNN的比較,并討論了提高Transformers網絡的效率和解釋的新方法。
以下各節的組織如下。第二節介紹了《Transformers》的前期及其在視覺上的發展。第3節回顧了Transformers 在醫學圖像分析中的最新應用,第4節討論了Transformers未來的潛在發展方向。第五部分對全文進行總結。
Transformers 醫學圖像分類
Transformers 在醫學圖像分析中的應用
Transformers 已廣泛應用于全堆棧的臨床應用。在本節中,我們首先介紹基于Transformer的醫學圖像分析應用,包括分類、分割、圖像到圖像轉換、檢測、配準和基于視頻的應用。我們根據學習任務對這些應用程序進行分類,如上圖所示。
Transformers 已經主導了自然語言處理領域,最近又影響了計算機視覺領域。在醫學圖像分析領域,Transformer也已成功應用于全堆棧的臨床應用,包括圖像合成/重建、配準、分割、檢測和診斷。我們的論文對Transformers 在醫學圖像分析領域進行全面調研。具體來說,我們首先概述了Transformer和其他基本組件中內置的注意力機制的核心概念。其次,我們給出了為醫療圖像應用程序量身定制的各種Transformer架構的新分類,并討論了它們的局限性。在這篇綜述中,我們研究了圍繞在不同學習范式中使用Transformer、提高模型效率以及它們與其他技術的耦合的關鍵挑戰。我們希望這篇綜述能給醫學圖像分析領域的讀者一個全面的Transformers 的綜述。
【導讀】Transformer系列的算法模型是當下研究的熱點之一。基于Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關系列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。
摘要
Transformer 是一種基于注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體系結構應用于計算機視覺 (CV) 領域方面進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全面回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由于訓練設置和面向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一系列基本但未開發的方面,這些方面可能使 Transformer 從眾多架構中脫穎而出,例如,松弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最后,提出了三個有前景的未來研究方向,以供進一步研究。
//www.zhuanzhi.ai/paper/81663beebc3e71dadb416550ed549c65
引言
Transformer [1]作為一種基于注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然后在小而具體的下游任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。
在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導范式[10]-[12]。受NLP[1]和[13]中自注意力機制的巨大成功啟發,一些基于CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。
如上所述,基于注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,并取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之后,在過去的一年中,針對各個領域提出了數百種基于transformer的模型。因此,我們迫切需要一個系統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨干在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。
去年發表了幾篇關于Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有系統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了系統的綜述,并簡要地提到了可視化應用[89]。基于這些觀察,本文旨在對近期的視覺Transformer進行全面的回顧,并對現有的方法進行系統的分類:
(1)全面性和可讀性。本文全面回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取并分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯系。
(2)直觀的比較。由于這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限制下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一系列有前途的組件,包括: 基于層次結構的主干淺局部卷積,基于稀疏注意的空間先驗加速,以及用于分割的通用掩模預測方案。
(3) 深入分析。我們進一步提供了以下方面的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關系,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最后,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨干可以通過學習嵌入來統一三個子任務。
本文的其余部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主干的綜合分類,并簡要討論了圖像分類。然后我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方面。第六章從三個方面進行了進一步的探討,并指出了未來進一步研究的方向。
總結
在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。
對于分類,一個深度層次的Transformer主干可以有效地降低計算復雜度[39],并在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算復雜度。卷積投影[46]、[47]和局部注意力機制[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。
在檢測方面,Transformer骨干得益于編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由于其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利于降低計算復雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利于Transformer的性能,收斂速度稍快。
對于分割,編碼器-解碼器Transformer模型可以通過一系列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基于box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。
受基于Transformer的預訓練方法在自然語言任務和計算機視覺任務中的成功啟發,研究人員開始將Transformer應用于視頻處理。本研究旨在對基于transformer的視頻語言學習預訓練方法進行全面綜述。首先簡單介紹了transformer的結構作為背景知識,包括注意力機制、位置編碼等。然后從代理任務、下游任務和常用視頻數據集三個方面描述了典型的視頻語言處理預訓練和微調范式。接下來,我們將transformer模型分為單流和多流結構,突出它們的創新并比較它們的性能。最后,分析和討論了當前視頻語言前訓練面臨的挑戰和未來可能的研究方向。
//www.zhuanzhi.ai/paper/f7141b8c767225eb6839b5e7236d3b03
Transformer網絡(Vaswani et al. 2017)在性能上表現出了巨大的優勢,并在深度學習(Deep Learning, DL)中得到了廣泛的應用。與傳統的深度學習網絡如多層感知機(Multi-Layer Perceptrons, MLP)、卷積神經網絡(Convolutional Neural networks, CNNs)和遞歸神經網絡(Recurrent Neural networks, RNNs)相比,Transformer網絡結構容易加深,模型偏差小,更適合進行預訓練和微調。典型的預訓練和微調范式是,首先在大量(通常是自我監督的)訓練數據上對模型進行訓練,然后在較小的(通常是特定任務的)數據集上對下游任務進行微調。訓練前階段幫助模型學習通用表示,這有利于下游任務。
在自然語言處理(NLP)任務中首次提出了基于Transformer 的預訓練方法,并取得了顯著的性能提高。例如,Vaswani等(Vaswani et al. 2017)首先提出了具有自注意力機制的機器翻譯和英語選區解析任務的Transformer 結構。BERT - Bidirectional Encoder representation (Devlin et al. 2018)可以認為是NLP的一個里程碑,它采用Transformer 網絡對未標記文本語料庫進行預訓練,并在11個下游任務上取得了最先進的性能。GPT -生成預訓練Transformer v1-3 (Radford and Narasimhan 2018; Radford et al. 2019; Brown et al. 2020)設計為具有擴展參數的通用語言模型,在擴展訓練數據上進行訓練,其中GPT-3在45TB、1750億參數的壓縮純文本數據上進行訓練。受基于Transformer 的預訓練方法在自然語言處理領域的突破啟發,計算機視覺研究人員近年來也將Transformer 應用于各種任務中。例如,DETR (Carion et al. 2020)消除了基于Transformer 網絡的目標檢測的邊界盒生成階段。Dosovitskiy等人(Dosovitskiy et al. 2021)應用了一種純Transformer ViT,直接處理圖像斑塊序列,證明了其在基于大訓練集的圖像分類中的有效性。
視頻分析和理解更具挑戰性,因為視頻本身就含有多模態信息。對于具有代表性的視頻語言任務,如視頻字幕(Das et al. 2013)和視頻檢索(Xu et al. 2016),現有的方法主要是基于視頻幀序列和相應字幕學習視頻的語義表示。在本文中,我們重點提供了基于transformer的視頻語言處理前訓練方法的最新進展,包括相應基準的常用指標,現有模型設計的分類,以及一些進一步的討論。我們希望跟蹤這一領域的進展,并為同行研究人員,特別是初學者提供相關工作的介紹性總結。
本文的其余部分組織如下: 第2節介紹了相關的基本概念,包括帶自注意力機制的標準transformer 、預訓練和微調方法的范式以及常用數據集。第三節根據現有的主要方法的模型結構進行了介紹,并指出了它們的優缺點。第四節進一步討論了幾個研究方向和挑戰,第五節總結了綜述結果
生成對抗網絡(GAN)已經在計算機視覺、自然語言處理等領域推廣了各種應用,因為它的生成模型能夠從現有的樣本分布中合理地生成真實的例子。GAN不僅在基于數據生成的任務上提供了令人印象深刻的性能,而且由于其博弈優化策略,也為面向隱私和安全的研究提供了有利條件。遺憾的是,目前并沒有對GAN在隱私和安全方面進行全面的綜述,這也促使了本文對這些最新的研究成果進行系統的總結。現有的作品根據隱私和安全功能進行適當的分類,并對其優缺點進行綜合分析。鑒于GAN在隱私和安全方面仍處于非常初級的階段,并提出了有待解決的獨特挑戰,本文還闡述了GAN在隱私和安全方面的一些潛在應用,并闡述了未來的一些研究方向。
生成對抗網絡(Generative Adversarial Networks, GAN)帶來的技術突破迅速對機器學習及其相關領域產生了革命性的影響,這種影響已經蔓延到各個研究領域和應用領域。作為一種強大的生成框架,GAN顯著促進了許多復雜任務的應用,如圖像生成、超分辨率、文本數據操作等。最近,利用GAN為嚴重的隱私和安全問題制定優雅的解決方案,由于其博弈優化策略,在學術界和業界都變得越來越流行。本綜述的目的是提供一個關于GAN的全面的回顧和深入總結的最新技術,并討論了一些GAN在隱私和安全領域有前途的未來研究方向。我們以對GAN的簡要介紹開始我們的綜述。
隨著機器學習、圖形處理技術和醫學成像數據的迅速發展,機器學習模型在醫學領域的使用也迅速增加。基于卷積神經網絡(CNN)架構的快速發展加劇了這一問題,醫學成像社區采用這種架構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地被用于醫學圖像分析,以提高臨床醫生的工作效率。近年來,三維(3D) CNNs已被用于醫學圖像分析。在這篇文章中,我們追溯了3D CNN的發展歷史,從它的機器學習的根源,簡單的數學描述3D CNN和醫學圖像在輸入到3D CNNs之前的預處理步驟。我們回顧了在不同醫學領域,如分類、分割、檢測和定位,使用三維CNNs(及其變體)進行三維醫學成像分析的重要研究。最后,我們討論了在醫學成像領域使用3D CNNs的挑戰(以及使用深度學習模型)和該領域可能的未來趨勢。