在過去的十年中,基于深度學習的算法在遙感圖像分析的不同領域中得到了極大的普及。最近,最初在自然語言處理中引入的基于transformers的架構已經遍及計算機視覺領域,其中自注意力機制已經被用來替代流行的卷積算子來捕獲遠程依賴。受計算機視覺最近進步的啟發,遙感界也見證了對視覺transformers在各種不同任務中的探索。盡管許多調查都集中在計算機視覺中的transformers上**,但據我們所知,我們是第一個對基于遙感transformers的最新進展進行系統綜述的人**。我們的調查涵蓋了60多種基于transformers的最新方法,用于解決遙感子領域的不同遙感問題:非常高分辨率(VHR)、高光譜(HSI)和合成孔徑雷達(SAR)圖像。我們通過討論transformers在遙感中的不同挑戰和開放問題來總結調研。此外,我們打算經常更新和維護遙感論文中最新的transformers,它們各自的代碼: https: //github.com/VIROBO-15/Transformer-in-Remote-Sensing
//www.zhuanzhi.ai/paper/bfb0308c1fdd624df840a15426edb230
導論
遙感成像技術在過去幾十年里取得了顯著的進步。現代機載傳感器以更高的空間、光譜和時間分辨率對地球表面進行大范圍覆蓋,在生態學、環境科學、土壤科學、水污染、冰川學、陸地測量和地殼分析等眾多研究領域發揮著至關重要的作用。遙感成像的自動分析帶來了獨特的挑戰,例如,數據通常是多模態的(如光學或合成孔徑雷達傳感器),位于地理空間(地理位置),通常在全球范圍內,數據量不斷增長。
深度學習,尤其是卷積神經網絡(CNNs)已經主導了計算機視覺的許多領域,包括物體識別、檢測和分割。這些網絡通常以RGB圖像作為輸入,并執行一系列卷積、局部歸一化和池化操作。CNN通常依賴于大量的訓練數據,然后得到的預訓練模型被用作下游各種應用的通用特征提取器。基于深度學習的計算機視覺技術的成功也激勵了遙感界,在許多遙感任務中取得了重大進展,包括高光譜圖像分類、變化檢測和高分辨率衛星實例分割。
卷積運算是CNN的主要組成部分之一,它捕獲輸入圖像中元素(如輪廓和邊緣信息)之間的局部相互作用。CNN編碼的偏差,如空間連通性和翻譯等方差。這些特性有助于構建可推廣和高效的體系結構。然而,局部接受域在CNN限制建模的遠程依賴圖像(如,遙遠的部分關系)。此外,卷積是內容獨立的,因為卷積濾波器的權值是固定的,對所有輸入應用相同的權值,而不管它們的性質。近年來,視覺transformers (ViTs)[1]在計算機視覺的各種任務中表現出了令人印象深刻的性能。ViT基于自注意力機制,通過學習序列元素之間的關系有效地捕獲全局交互。最近的研究[2],[3]表明ViT具有內容依賴的遠程交互建模能力,可以靈活調整其接受域以對抗數據中的干擾并學習有效的特征表示。因此,ViT及其變體已成功地用于許多計算機視覺任務,包括分類、檢測和分割。
隨著ViTs 在計算機視覺領域的成功,遙感界也見證了基于transformers的框架在許多任務中的應用的顯著增長(見圖1),如高分辨率圖像分類、變化檢測、平移銳化、建筑物檢測和圖像字幕。這開啟了利用ImageNet預訓練[4]-[6]或使用視覺transformers進行遙感預訓練[7]的不同方法的有前景的遙感研究的新浪潮。同樣,文獻中也存在基于純transformers設計[8]、[9]或基于transformers和CNN的混合方法[10]-[12]的方法。因此,由于針對不同遙感問題的基于transformers的方法迅速涌入,跟上最近的進展變得越來越具有挑戰性。在這項工作中,我們回顧了這些進展,并提出了最新的基于transformers的方法在流行的遙感領域。綜上所述,我們的主要貢獻如下:
本文對基于transformers的模型在遙感成像中的應用進行了全面綜述。據我們所知,我們是第一個在遙感中介紹transformers的調研,從而彌合了計算機視覺和遙感在這一快速增長和流行領域的最新進展之間的差距。
我們概述了CNN和transformers,討論了它們各自的優點和缺點。
本文綜述了60多項基于transformers的研究工作,討論了遙感領域的最新進展。
在此基礎上,討論了遙感transformers面臨的不同挑戰和研究方向。
論文的其余部分組織如下:第二節討論了其他有關遙感成像的調研。在第三節中,我們概述了遙感中不同的成像方式,而第四節提供了CNN和視覺transformers的簡要概述。之后,我們回顧了基于transformers的方法在非常高分辨率(VHR)成像(第五節)、高光譜圖像分析(第六節)和合成孔徑雷達(SAR)方面的進展。在第八部分,我們總結了我們的調研,并討論了潛在的未來研究方向。
遙感圖像數據集
遙感圖像通常從各種來源和數據收集技術獲得。遙感影像數據的典型特征是其空間、光譜、輻射和時間分辨率。空間分辨率指的是圖像中每個像素的大小,以及對應像素所代表的地球表面的面積。空間分辨率的特點是成像場景中可以分離的微小和精細特征。光譜分辨率是指傳感器通過識別更細的波長來收集場景信息的能力,具有更窄的波段(如10 nm)。另一方面,輻射分辨率表征了每個像素的信息程度,傳感器的動態范圍越大,就意味著在圖像中可以識別出更多的細節。時間分辨率是指在地面上獲取的相同位置的連續圖像之間所需的時間。在此,我們簡要討論常用的遙感成像類型,圖2所示的例子。
Transformers 遙感圖像處理
近年來,基于transformers的模型在許多計算機視覺和自然語言處理(NLP)任務中取得了很好的結果。Vaswani等人[17]首先將transformers作為注意力驅動模型引入機器翻譯應用。為了捕獲長距離依賴關系,transformers使用自注意力層,而不是傳統的循環神經網絡,后者努力編碼序列元素之間的這種依賴關系。為了有效地捕捉輸入圖像中的遠程依賴關系,[1]的工作引入視覺轉換器(ViTs)來完成圖像識別任務,如圖3所示。ViTs[1]將圖像解釋為補丁序列,并通過與NLP任務中使用的類似的傳統transformers編碼器對其進行處理。ViT在通用視覺數據中的成功不僅激發了計算機視覺的不同領域的興趣,也激發了遙感社區的興趣,近年來,許多基于ViT的技術已被探索用于各種任務。
遙感場景分類是一個具有挑戰性的問題,其任務是自動關聯一個語義類別標簽到一個給定的高分辨率圖像,包括地物和不同的土地覆蓋類型。在現有的基于視覺transformers的VHR場景分類方法中,Bazi等人[4]探討了標準視覺transformers 架構1的影響,并研究了產生加法數據的不同數據增強策略。此外,他們的工作還評估了通過修剪層次來壓縮網絡的影響,同時保持分類精度。
在VHR成像中,由于物體的尺度變化和類別的多樣性,目標的定位是一個具有挑戰性的問題。這里的任務是同時識別和定位(矩形或定向邊界框)圖像中屬于不同對象類別的所有實例。大多數現有的方法采用混合策略,結合有線電視網絡和transformers 的優點在現有的兩級和單級探測器。除了混合策略,最近很少有研究探討基于DETR的transformers 目標檢測范式[36]。
在遙感中,圖像變化檢測是探測地表變化的一項重要任務,在農業[50]、[51]、城市規劃[52]、地圖修訂[53]等方面有著廣泛的應用。這里的任務是生成通過比較多時間或雙時間圖像獲得的變化圖,所得到的二進制變化圖中的每個像素根據對應位置是否發生了變化而具有0或1值。在最近的基于transformer的變化檢測方法中,Chen等人[54]提出了一種雙時間圖像transformer,封裝在一個基于深度特征差異的框架中,旨在對時空上下文信息建模。在提出的框架中,編碼器被用于捕獲基于標記的時空中的上下文。然后將所得到的上下文化令牌提供給解碼器,在解碼器中,特征在像素空間中進行細化。Guo等人[55]提出了一種深度多尺度連體結構,稱為MSPSNet,利用并行卷積結構(PCS)和自我關注。本文提出的MSPSNet通過PCS對不同時間點圖像進行特征集成,然后基于自注意力的特征細化,進一步增強多尺度特征。
在遙感領域,通過像素級分類自動將圖像分割為語義類是一個具有挑戰性的問題,其應用范圍廣泛,包括地質調查、城市資源管理、災害管理和監測等。現有的基于transformers的遙感圖像分割方法通常采用混合設計,目的是結合CNNs和transformers的優點。[65]提出了一種基于transformers的輕型框架Efficient-T,該框架包含隱式邊緣增強技術。提出的Efficient-T采用分層式Swin-transformers和MLP頭。[66]中引入了一種耦合的CNN-transformers框架,稱為CCTNet,旨在將CNN捕捉到的局部細節,如邊緣和紋理,以及通過transformers獲得的全局上下文信息結合起來,用于遙感圖像的裁剪分割。此外,還引入了測試時間增強和后處理等模塊,在推理時去除孔洞和小目標,從而恢復完整的分割圖像。
在這項工作中,我們介紹了遙感成像transformers的廣泛概述:非常高分辨率(VHR),高光譜和合成孔徑雷達(SAR)。在這些不同的遙感圖像中,我們進一步討論了基于transformers 的各種任務的方法,如分類、檢測和分割。我們的調研涵蓋了60多個基于transformers 的遙感研究文獻。我們觀察到transformers 在不同的遙感任務中獲得了良好的性能,這可能是由于它們捕獲遠程依賴關系的能力以及它們的表示靈活性。此外,幾種標準transformers 架構和主干的公開可用性使得探索它們在遙感成像問題中的適用性變得更加容易。
動態注意力機制和全局建模能力使Transformer表現出較強的特征學習能力。近年來,Transformer在計算機視覺方面已經可以媲美CNN方法。本文主要研究了Transformer在圖像和視頻應用中的研究進展,對Transformer在視覺學習理解中的應用進行了全面的綜述。首先,回顧了在Transformer中起著重要作用的注意力機制。然后介紹了視覺Transformer模型和各個模塊的工作原理。第三,研究了現有的基于Transformer的模型,并比較了它們在視覺學習理解應用中的性能。研究了計算機視覺的三個圖像任務和兩個視頻任務。前者主要包括圖像分類、目標檢測和圖像分割。后者包括目標跟蹤和視頻分類。它對于比較不同模型在多個公共基準數據集上的不同任務性能具有重要意義。最后,總結了視覺Transformer存在的10個普遍問題,并對其發展前景進行了展望。
引言
深度學習[1]發展迅速,卷積神經網絡(CNN)在深度學習[2]、[3]的各個領域都占據了主導地位。然而,近年來Transformer[4]逐漸打破了這種局面。它摒棄了以往深度學習任務中使用的CNN和RNN,在自然語言處理(NLP)、計算機視覺(CV)等領域取得了突破。逐漸地,基于Transformer的模型在最近三年中得到了很好的發展。最初的Transformer模型是在2017年[4]題為“Attention is all you need”的論文中正式提出的。它來自于NLP中的機器翻譯模型seq2seq[5]。此外,在Transformer模型中也采用了編碼器-解碼器架構。它主要是從一個注意力模塊演變而來的,自注意力,這是現有的注意力模式之一。在注意力機制方面,出現了多種注意力模型來提高識別效果。現有的注意力模型主要包括通道注意力、空間注意力和自注意力[6]。《Transformer》的核心是自注意力。
首先,Transformer是一種新穎的方法,在自然語言處理中取得了巨大的成功。后來又擴展到CV中的不同任務,如高分辨率圖像合成[7]、目標跟蹤[8]、目標檢測[9]-[11]、分類[12]、分割[13]、圖像處理[14]、再識別[15]-[17]等。在過去的三年里,Transformer已經進化出了一系列變體,也被稱為X-Transformer[18]。各種Transformer 應運而生,并在各項任務中取得了良好的應用進展。研究表明,預訓練的Transformer模型在各種任務中都達到了最先進的水平。Transformer模型的效果是顯著的,特別是在ImageNet分類任務中。ViT[19]、BoTNet[20]、Swin Transformer[21]相繼提出,并一次又一次實現性能突破。本文綜述了Transformer在視覺學習理解的圖像和視頻應用方面的發展進展。
對比[18]、[22]-[24]、[26]等相關綜述,從Transformer的模型機制、視覺學習理解應用的應用進展、各種模型在公共基準上的性能比較等方面進行了全面的研究。相關綜述及其主要內容見表一。這篇綜述旨在讓讀者全面了解Transformer、其原理以及現有的應用進展。此外,還為所研究的圖像和視頻研究提供了實驗比較。同時,也為深度學習研究者提供了進一步的思路。這項綜述的主要貢獻如下:
注意力機制
注意力機制是20世紀90年代提出的。它指的是將人類的感知和注意行為應用到機器上,機器可以學習感知數據中重要和不重要的部分。在CV中,注意力機制讓機器感知圖像中的目標信息,抑制圖像的背景信息。引入注意力機制可以緩解深度學習中計算能力和優化算法的限制。
根據不同的角度[28]對現有的深度學習注意機制進行了分類。解碼時是否考慮編碼器的所有隱藏狀態,分為全局注意力機制和局部注意力機制。從注意力域的角度看,可分為注意力域、空間力域、通道域和混合域。根據編碼方式的不同,可分為軟注意力機制、硬注意力機制和自注意力機制。其中,自注意力是Transformer模型的研究核心。
Transformers
Transformers的視覺學習和理解框架。針對圖像任務,主要研究了基于Transformer的主干、圖像分類、目標檢測和圖像分割。針對視頻任務,綜述了基于Transformer的目標跟蹤、視頻分類方法。
圖像分類、目標檢測和圖像分割是圖像分類的三個基本任務。針對這三項任務的基于Transformer的方法已經得到了很好的發展。有基于Transformer的骨干和基于Transformer的頸部。前者在所有的三個任務中進行評估,而后者通常在其中任何一個任務中進行評估。研究了相關的Transformer模型及其相應的實驗結果。
基于Transformer的圖像分類的總體框架
Transformer在視頻學習和理解方面得到了發展,包括目標跟蹤、視頻分類和視頻分割。本節主要研究基于Transformer的目標跟蹤和視頻分類方法。
基于Transformer的視頻分類的總體框架
總結
本文對Transformer在視覺學習理解方面的發展進行了全面的研究,并提出了一些看法。值得注意的是,基于transformer方法的一些關鍵實驗性能統計數據在多個圖像和視頻任務中得到了展示,為研究人員提供了實驗性能參考。同時,提出了基于Transformer的模型計算復雜、局部表示能力弱、依賴于大量預訓練數據等10個開放性問題。當然,也提出了一些發展方向。本綜述旨在使研究者對基于Transformer的研究有一個全面的認識,這對促進Transformer的發展具有重要意義。
圍繞Transformer的模型架構是當下大家關注的焦點!阿聯酋阿布扎比大學發布了首篇《Transformer醫療影像》綜述論文,41頁pdf439篇文獻全面闡述ansformers在醫療影像中的應用,涵蓋了各個方面,從最近提出的架構設計到未解決的問題。具體來說,我們調研了Transformers在醫學圖像分割、檢測、分類、重建、合成、配準、臨床報告生成和其他任務中的使用。
在自然語言任務上取得了前所未有的成功之后,Transformers已經成功地應用于計算機視覺問題并取得了SOTA結果,并促使研究人員重新考慮卷積神經網絡(CNN)作為模型骨干的優勢。利用計算機視覺方面的這些進步,醫療影像領域也見證了人們對能夠捕獲全局上下文的Transformers 越來越感興趣,而與CNN相比,Transformers只能捕獲局部接收域。受這種轉變的啟發,在本次綜述中,我們試圖提供一個全面的回顧Transformers在醫療影像中的應用,涵蓋了各個方面,從最近提出的架構設計到未解決的問題。具體來說,我們調研了Transformers在醫學圖像分割、檢測、分類、重建、合成、配準、臨床報告生成和其他任務中的使用。特別是,對于每一個應用,我們將提出分類法,識別特定于應用的挑戰,并提供解決這些挑戰的見解,并強調最近的趨勢。此外,我們對該領域目前的整體狀態進行了批判性的討論,包括確定關鍵挑戰、開放的問題,并概述了有前途的未來方向。我們希望這一調研將點燃社區進一步的興趣,并為研究人員提供最新的參考,有關Transformers模型在醫學成像中的應用。最后,為了應對這一領域的快速發展,我們打算定期在//github.com/fahadshamshad/awesome-transformers-in-medical-imaging上更新相關的最新論文及其開源實現。
引言
卷積神經網絡(CNN)[1] -[4]因其能夠以數據驅動的方式學習高度復雜的表示形式,對醫學成像領域產生了重大影響。自其復興以來,CNN已經在許多醫學成像模式中表現出顯著的改進,包括x線攝影[5],內窺鏡[6],計算機斷層攝影(CT)[7],[8],乳房x線攝影圖像(MG)[9],超聲圖像[10],磁共振成像(MRI)[11],[12],正電子發射斷層攝影(PET)[13],等等。CNN中的主力是卷積算子,它在局部進行運算并提供平移等方差。雖然這些特性有助于開發高效和可推廣的醫療成像解決方案,但卷積操作中的局部接受域限制了捕獲長程像素關系。此外,卷積濾波器在推理時具有不適應給定輸入圖像內容的固定權值。
與此同時,視覺界也做了大量的研究工作,將注意力機制[14]-[16]整合到CNN架構[17]-[22]中。這些基于注意力的“Transformer”模型已經成為一種有吸引力的解決方案,因為它們能夠編碼長期依賴關系,并學習高效的特征表示[23]。最近的研究表明,這些Transformer模塊可以通過對一系列圖像補丁進行操作,完全取代深度神經網絡中的標準卷積,從而產生Vision Transformer (ViTs)[22]。自誕生以來,ViT模型已被證明在許多視覺任務中推動了最先進的技術,包括圖像分類[22]、對象檢測[24]、語義分割[25]、圖像著色[26]、低級視覺[27]和視頻理解[28]等等。此外,最近的研究表明,ViTs的預測誤差比CNN[29] -[32]更符合人類的預測誤差。ViT的這些令人滿意的特性引起了醫學界的極大興趣,將其用于醫學成像應用,從而減輕CNN[33]固有的歸納偏差。
(左)餅狀圖顯示了根據醫學成像問題設置和數據模態所包括的調研論文的統計數據。最右邊的數字顯示了近期文獻(2021年)的持續增長。Seg:分割,Class:分類,Recons:重建,Reg:配準,Synth:合成,Det:檢測,Rep:報告生成,US:超聲
最近,醫學影像社區見證了基于Transformer的技術數量呈指數級增長,特別是在vit出現之后(見圖1)。這個主題現在在著名的醫學影像會議和期刊上占據主導地位,而且由于論文的迅速涌入,要跟上最近的進展越來越困難。因此,對現有有關工作的調研是及時的,以便全面介紹這一新興領域的新方法。為此,我們提供了Transformer模型在醫學成像中的應用的整體概述。我們希望這項工作可以為研究人員進一步探索這一領域提供一個路線圖。我們的主要貢獻包括:
這是第一篇全面涵蓋transformer在醫學成像領域的應用的綜述論文,從而在這個快速發展的領域彌合了視覺和醫學成像社區之間的差距。具體來說,我們提出了一個超過125篇相關論文的全面概述,以涵蓋最近的進展。
如圖2所示,我們根據論文在醫學成像中的應用對其進行了分類,從而對該領域進行了詳細的覆蓋。對于這些應用,我們開發了一種分類法,突出了特定于任務的挑戰,并根據文獻綜述提供了解決這些挑戰的見解。
最后,我們對該領域的整體現狀進行了批判性的討論,包括確定關鍵挑戰,突出開放的問題,并概述了有前景的未來方向。
盡管本次調研的主要焦點是Vision Transformer,但我們也是自最初的Transformer(大約五年前)誕生以來,首次在臨床報告生成任務中廣泛覆蓋其語言建模功能(見第9節)。
本綜述涵蓋了Transformer在醫學成像中的多種應用領域
ViT在各種醫學成像問題中的應用,以及基于CNN的基線方法。與基于CNN的方法相比,基于ViT的方法具有更好的性能,這是因為它們能夠建模全局上下文。圖來源:(a) [34], (b) [35], (c) [36], (d) [37], (e) [38], [39] (f)。
醫學圖像分割
精確的醫學圖像分割是計算機輔助診斷、圖像引導手術和治療規劃的關鍵步驟。Transformer的全局上下文建模能力對于精確的醫學圖像分割至關重要,因為通過建模空間距離遠的像素之間的關系(例如,肺分割),可以有效地對分布在大接收域上的器官進行編碼。此外,醫學掃描的背景通常是分散的(如超聲掃描[94]);因此,學習與背景相對應的像素之間的全局上下文可以幫助模型防止誤分類。下面,我們將重點介紹在醫學圖像分割中整合基于ViT模型的各種嘗試。鑒于兩組方法所需的上下文建模水平不同,大致將基于vit的分割方法分為器官特異性和多器官類別,如圖5所示。
基于VIT的醫學圖像分割方法分類
醫學圖像分類
醫學圖像的準確分類是輔助臨床護理和治療的重要手段。本節將全面介紹VIT在醫學圖像分類中的應用。由于與這些分類相關的一系列不同挑戰,我們將這些方法大致分為基于COVID-19、腫瘤和視網膜疾病的分類方法,如圖13所示。
醫學圖像檢測
在醫學圖像分析中,目標檢測是指從x射線圖像中定位和識別感興趣的區域(如肺結節),通常是診斷的一個重要方面。然而,這是臨床醫生最耗時的任務之一,因此需要準確的計算機輔助診斷(CAD)系統作為第二個觀察者,可能加快這一過程。隨著CNN在醫學圖像檢測方面的成功[278],[279],最近很少有人嘗試使用Transformer模型進一步提高性能。這些方法主要是基于檢測Transformer (DETR)框架[24]。
醫學圖像重建
醫學圖像重建的目標是從退化的輸入中獲得一幅干凈的圖像。例如,從采樣不足的版本中恢復高分辨率的MRI圖像。由于其不適定性,這是一項具有挑戰性的任務。在許多實際的醫學成像場景中,精確解析逆變換是未知的。最近,VIT已被證明可以有效地應對這些挑戰。我們將相關工作分為醫學圖像增強和醫學圖像恢復兩個領域,如圖18所示。
醫學圖像合成
在本節中,我們將概述VIT在醫學圖像合成中的應用。大多數這些方法都包含了對抗性損失,以合成真實和高質量的醫學圖像,盡管代價是訓練不穩定[314]。我們進一步將這些方法分為模態內合成和模態間合成。
醫學圖像配準
醫學圖像配準的目標是找到密集的逐體素位移,并在一對固定和移動圖像之間建立對齊。在醫學成像中,當分析不同時間、不同視角或不同模式(如MRI和CT)獲得的一對圖像時,配準可能是必要的[75]。由于難以從多模態醫學圖像中提取有區別的特征、復雜的運動以及缺乏魯棒的離群點拒絕方法,精確的醫學圖像配準是一項具有挑戰性的任務[329]。在本節中,我們將簡要介紹ViT在醫學圖像配準中的應用。
醫學圖像配準
最近,利用深度學習技術從醫學圖像中自動生成臨床報告取得了巨大進展[335]-[338]。這種自動生成報告的過程可以幫助臨床醫生做出準確的決策。然而,由于不同放射科醫生報告的多樣性、長序列長度(不像自然圖像標題)和數據集偏差(與異常數據相比,更多的是正常數據),從醫學圖像數據生成報告(或標題)具有挑戰性。此外,一個有效的醫學報告生成模型有望處理兩個關鍵屬性:(1)語言流利性,便于人類閱讀(2)臨床準確性,以正確識別疾病及相關癥狀。在本節中,我們將簡要描述變壓器模型如何幫助實現這些預期目標,并有效地緩解前面提到的與生成醫療報告相關的挑戰。具體來說,這些基于transformers的方法在自然語言生成(NLG)和臨床療效(CE)指標方面都取得了最先進的性能。還要注意的是,與主要討論ViT的前幾節不同,在本節中,重點是將transformer作為一種強大的語言模型來利用句子生成的長期依賴關系。由于其潛在的訓練機制不同,我們將基于Transformers的臨床報告生成方法大致分為基于強化學習(RL)和有監督/無監督學習方法,如圖24所示。
結論與未來方向
最后,我們首次全面回顧了Transformers 在醫學成像中的應用。我們簡要介紹了Transformer模型成功背后的核心概念,然后提供了Transformer在廣泛的醫療成像任務中的全面文獻綜述。具體介紹了Transformers在醫學圖像分割、檢測、分類、重建、合成、配準、臨床報告生成等方面的應用。特別是,對于每一個應用,我們提出了分類法,確定了應用特定的挑戰,并給出了解決它們的見解,并指定了最近的趨勢。盡管它們的表現令人印象深刻,但我們預計,在醫學成像領域,Transformers仍有很多探索工作要做,我們希望這項調研為研究人員進一步推進這一領域提供了一個路線圖。
未來挑戰包括: