【導讀】醫學圖像配準( Medical Image Registration)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,基于深度學習的醫學圖像配準變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。美國埃默里大學醫學院Xiaofeng Yang老師課題組新出的這篇論文對近幾年醫學圖像配準深度學習方法進行了全面綜述,根據其方法、特征和流行程度分為七類,對每個類別進行了詳細的調研,強調了其重要的點及其相應挑戰,幫助讀者更好地了解當前的研究現狀和思路,并且使用基準數據集對基于深度學習的肺和腦配準方法進行了全面比較,最后也介紹了未來的研究方向。
題目:Deep Learning in Medical Image Registration: A Review
作者:Yabo Fu, Yang Lei, Tonghe Wang, Walter J. Curran, Tian Liu, Xiaofeng Yang
【摘要】本文綜述了基于深度學習的醫學圖像配準方法和基于深度學習的配準方法在醫學領域的最新發展和應用。這些方法根據其方法、特征和流行程度分為七類。我們對每個類別進行了詳細的審查,強調了重要的貢獻和確定了具體的挑戰。在詳細檢查每一類別之后,提出了簡短的評價,以總結其成就和未來的潛力。我們使用基準數據集對基于深度學習的肺和腦配準方法進行了全面比較。最后,我們從各個方面對所有被引工作進行統計分析,揭示了基于深度學習的醫學圖像配準的普及和未來趨勢。
引言
圖像配準又稱圖像融合或圖像匹配,是基于圖像外觀對兩幅或多幅圖像進行配準的過程。醫學圖像配準試圖找到一個最佳的空間轉換,以最好地對齊底層的解剖結構。醫學圖像配準在很多臨床應用中都有使用,如image guidance [22,123,148,170],motiontracking [13,46,172],segmentation [44,57,174,171,173,176],dose accumulation [1,153],imagereconstruction [91]等。
醫學圖像配準是一個廣泛的課題,可以從不同的角度進行分類。從輸入圖像的角度來看,掛號方式可以分為單峰掛號、多峰掛號、患者間掛號、患者內掛號(如當天掛號或當日掛號)。從變形模型的角度看,配準方法可分為剛性配準方法、仿射配準方法和可變形配準方法。從感興趣區域(ROI)的角度來看,配準方法可以根據腦、肺等解剖部位進行分組。從圖像對維數的角度來看,配準方法可分為3D到3D、3D到2D、2D到2D/3D。不同的應用程序和配準方式面臨著不同的挑戰。對于多模態圖像配準,由于不同成像方式之間固有的外觀差異,很難設計出準確的圖像相似度度量。由于不同患者的基礎解剖結構不同,因此患者之間的配準可能很棘手。由于代謝過程、排便、患者增/減體重等引起的圖像外觀變化,患者不同天數的住院配準具有挑戰性。為了提供實時的圖像制導,配準的計算效率至關重要。
人們提出了許多方法來應對上述挑戰。目前比較流行的配準方法有optical flow [169,167]、demons [154]、ANTs[3]、HAMMER[131]、ELASTIX[75]等。盡管醫學圖像配準已被廣泛研究,但它仍然是一個熱門的研究主題。醫學圖像配準領域發展迅速,每年都有數百篇論文發表。近年來,基于深度學習的方法已經改變了醫學圖像處理研究的面貌,并在許多應用中取得了最新的成果[25、27、45、58、84、85、86、88、89、97、98、156、157、158、160、161]。然而,醫學圖像配準中的深度學習直到最近三到四年才得到廣泛的研究。雖然已有多篇關于醫學圖像分析中深度學習的綜述文獻發表[73、93、96、105、106、121、132、182],但針對醫學圖像配準[60]中深度學習的綜述文獻較少。本文的目的是總結基于深度學習的醫學圖像配準方法的最新發展、挑戰和趨勢。通過這篇綜述,我們旨在:
1)綜述了基于深度學習的醫學圖像配準的最新進展。
2)突出貢獻、確定挑戰并概述未來趨勢。
3)從不同角度提供最新出版物的詳細統計數據。
在這篇文章中,將DL-based醫學圖像配準方法按其方法,特征和受歡迎程度分為七類,包括1)基于RL的方法,2)基于深度相似性的方法,3) 監督變換預測, 4)無監督變換預測, 5) 醫學圖像配準中的GAN, 6) 使用深度學習的配準驗證,和7) 其他基于學習的方法。
圖1. 醫學圖像配準中基于深度學習的七類方法綜述
在每個類別中,我們提供了一個完整的表格,列出了所有屬于該類別的被綜述工作并總結了它們的重要特征。我們總共收集了150多篇與基于深度學習的醫學圖像配準密切相關的論文。這些工作大多發表于2016年至2019年之間。在圖2中,出版物的數量通過堆疊柱狀圖來表示。論文的數量是按類別計算的。
從圖2可以看出,人們對有監督變換預測(SupCNN)和無監督變換預測(UnsupCNN)的興趣明顯增加。與此同時,GAN逐漸受到歡迎。
圖2. 基于深度學習的醫學圖像配準中出版的文章數量。虛線表示近年來人們對基于深度學習的配準方法越來越感興趣。“ DeepSimilarity”是在傳統配準框架中使用基于DL的相似性度量的類別。“ RegValidation”代表使用DL進行配準驗證的類別。
表1. 基于深度相似性的方法概述
表2. RL在醫學圖像配準中的應用概況
表3. 監督變換預測方法綜述
表4. 無監督變換預測方法綜述
表5 GAN配準方法概述
表6使用深度學習的配準驗證方法概述
表7其他基于深度學習的圖像配準方法綜述
表8 DIRLAB數據集中不同方法的目標配準誤差(TRE)值比較,TRE單位:(mm), *:傳統DIR方法
表9用于腦配準的基準數據集和評價指標
圖4. 基于深度學習的圖像配準方法各屬性的百分比餅圖。
挑戰與機遇
對于有監督的基于深度學習的方法,最常見的挑戰之一是缺乏具有已知轉換的訓練數據集。這個問題可以通過各種數據擴充方法來緩解。然而,數據增強方法可能會引入額外的誤差,如不切實際的人工轉換的偏差和在訓練和測試階段之間的圖像域轉移。
配準驗證方法與配準方法同樣重要。我們注意到2019年越來越多的論文關注配準驗證。為了可靠地評價不同配準方法在不同參數配置下的性能,需要對配準驗證方法進行更多的研究。
趨勢
從被引文獻的統計數據來看,對于快速圖像配準,存在直接變換預測的明顯趨勢。到目前為止,有監督的和無監督的變換預測方法的研究幾乎是相等的,這兩種方法的發表數量都很接近。有監督方法和無監督方法各有優缺點。我們推測,在未來,更多的研究將集中在有監督和無監督相結合的方法上。由于GAN不僅可以用于引入額外的正則化,還可以用于圖像域轉換,從而實現多模態到單模態的圖像配準,因此基于GAN的配準方法逐漸得到了廣泛的應用。基于GAN的醫學圖像配準技術將穩步發展。由于配準問題的病態性,新的變換正則化技術一直是研究的熱點。
語義圖像分割任務包括將圖像的每個像素分類為一個實例,其中每個實例對應一個類。這個任務是場景理解或更好地解釋圖像的全局上下文概念的一部分。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放療或改進的放射診斷。本綜述將基于深度學習的醫學和非醫學圖像分割解決方案分為六大組:深度架構、基于數據合成、基于損失函數、排序模型、弱監督和多任務方法,并對每一組的貢獻進行全面綜述。然后,針對每一組,我們分析了每一組的不同,并討論了當前方法的局限性和未來語義圖像分割的研究方向。
雖然像CNNs這樣的深度學習模型在醫學圖像分析方面取得了很大的成功,但是小型的醫學數據集仍然是這一領域的主要瓶頸。為了解決這個問題,研究人員開始尋找現有醫療數據集之外的外部信息。傳統的方法通常利用來自自然圖像的信息。最近的研究利用了來自醫生的領域知識,通過讓網絡模仿他們如何被訓練,模仿他們的診斷模式,或者專注于他們特別關注的特征或領域。本文綜述了將醫學領域知識引入疾病診斷、病變、器官及異常檢測、病變及器官分割等深度學習模型的研究進展。針對不同類型的任務,我們系統地對所使用的不同類型的醫學領域知識進行了分類,并給出了相應的整合方法。最后,我們總結了挑戰、未解決的問題和未來研究的方向。
隨著機器學習、圖形處理技術和醫學成像數據的迅速發展,機器學習模型在醫學領域的使用也迅速增加。基于卷積神經網絡(CNN)架構的快速發展加劇了這一問題,醫學成像社區采用這種架構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地被用于醫學圖像分析,以提高臨床醫生的工作效率。近年來,三維(3D) CNNs已被用于醫學圖像分析。在這篇文章中,我們追溯了3D CNN的發展歷史,從它的機器學習的根源,簡單的數學描述3D CNN和醫學圖像在輸入到3D CNNs之前的預處理步驟。我們回顧了在不同醫學領域,如分類、分割、檢測和定位,使用三維CNNs(及其變體)進行三維醫學成像分析的重要研究。最后,我們討論了在醫學成像領域使用3D CNNs的挑戰(以及使用深度學習模型)和該領域可能的未來趨勢。
在許多實際應用中,獲取足夠的大規模標記數據以充分訓練深度神經網絡通常是困難和昂貴的。因此,將學習到的知識從一個單獨的、標記過的源域轉移到一個未標記或標記稀疏的目標域成為一種有吸引力的選擇。然而,直接轉移常常由于域轉移而導致顯著的性能下降。域適應(DA)通過最小化源域和目標域之間域轉移的影響來解決這個問題。多源域自適應(Multi-source domain adaptation, MDA)是一種功能強大的擴展,可以從具有不同分布的多個源收集標記數據。由于DA方法的成功和多源數據的流行,MDA在學術界和工業界都受到越來越多的關注。在本次綜述中,我們定義了各種MDA策略,并總結了可供評估的可用數據集。我們還比較了深度學習時代的MDA方法,包括潛在空間轉換和中間域生成。最后,討論了未來MDA的研究方向。
【導讀】無人機計算機視覺相關檢測和跟蹤( Vision Meets Drones)作為近年來的研究熱點之一,受到了廣泛關注,這兩年在各大會議上都有相關文章發表,并且也有一些競賽。當前,無人機收集的視覺數據的自動理解變得非常困難,并且其用途廣泛,天津大學的朱鵬飛博士、京東數字科技文瓏銀博士和紐約州立大學奧爾巴尼分校的獨大為博士等新出的這篇論文對近幾年基于無人機視覺檢測和跟蹤方法和數據集進行了全面綜述,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。作者也提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。對每一個track進行了詳細得說明,并強調VisDrone是迄今為止發布的最大的此類數據集,可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。
//github.com/VisDrone/VisDrone-Dataset
【摘要】配備了攝像頭的無人機,或稱通用無人機,已經被快速部署到廣泛的應用領域,包括農業、航空攝影、快速遞送和監控。因此,對無人機收集的視覺數據的自動理解變得非常困難,這使得計算機視覺和無人機之間的聯系越來越緊密。為了促進和跟蹤目標檢測和跟蹤算法的發展,我們與歐洲計算機視覺大會(ECCV) 2018和IEEE計算機視覺國際會議(ICCV) 2019聯合舉辦了兩個挑戰研討會,吸引了全世界100多支團隊。我們提供了一個大規模的無人機捕獲數據集VisDrone,其中包括四個track,即(1)圖像目標檢測,(2)視頻目標檢測,(3)單目標跟蹤,(4)多目標跟蹤。本文首先對目標檢測和跟蹤數據集和基準進行了全面的回顧,并討論了收集具有完全手動標注的大規模基于無人機的目標檢測和跟蹤數據集的挑戰。之后,我們描述了VisDrone數據集,該數據集是從中國北方到南方的14個不同城市的各個城市/郊區捕獲的。VisDrone是迄今為止發布的最大的此類數據集,它可以在無人機平臺上對視覺分析算法進行廣泛的評估和研究。我們詳細分析了無人機大尺度目標檢測與跟蹤領域的現狀,總結了當前面臨的挑戰,提出了未來的發展方向和改進方向。我們預計這一基準將極大地促進無人機平臺視頻分析的研發。可以從以下網站下載所有數據集和實驗結果:
參考鏈接:
引言
近年來,計算機視覺因其在交通監控、智慧城市、人機交互等領域的廣泛應用而受到越來越多的關注。作為計算機視覺的兩個基本問題,目標檢測和跟蹤一直受到廣泛的關注。在導致計算機視覺技術快速發展的眾多因素和努力中,值得注意的貢獻應歸功于眾多基準和挑戰的發明或組織, 如目標檢測的Caltech [1], KITTI [2], ImageNet [3], 和MS COCO [4],目標跟蹤的OTB [5], VOT [6], MOTChallenge [7], UA-DETRAC [8], 和LaSOT [9]。
配備攝像頭的無人機已經被快速部署到廣泛的領域,包括農業、航空攝影、快速投遞和監視。因此,對從這些無人機收集的視覺數據的自動理解變得非常困難,這將計算機視覺越來越緊密地帶入了無人機。盡管一般的計算機視覺算法(如檢測和跟蹤)取得了很大的進步,但這些算法通常不是處理無人機捕獲的序列或圖像的最佳算法。這是由于各種各樣的挑戰,如較大的視點變化和規模。因此,為無人機捕獲的視覺數據開發和評估新的視覺算法至關重要。然而,正如[10]和[11]所指出的,由于缺乏公開的大規模基準或數據集,對這一目標的研究受到嚴重限制。最近,[10]、[11]和[12]致力于構建無人機捕獲的數據集,這些數據集主要用于目標檢測或跟蹤。由于數據收集和標注方面的困難,這些數據集的大小和涉及的場景仍然有限。對現有或新開發的算法進行徹底的評估仍然是一個開放的問題。為了進一步推進無人機平臺視頻分析研究,需要一個更通用、更全面的基準。
因此,作者與歐洲計算機視覺大會(ECCV) 2018和IEEE國際計算機視覺大會(ICCV) 2019聯合舉辦了兩次挑戰研討會,吸引了全世界100多個研究團隊。挑戰集中在目標檢測和跟蹤的四個track。
圖像目標檢測跟蹤(DET)。
視頻目標檢測跟蹤(VID)。
單目標跟蹤(SOT)。
多目標跟蹤(MOT)。
值得注意的是,在研討會挑戰中,本文提供了一個大型數據集,包含179個視頻中263個視頻片段; 10個視頻中的264幀畫面; 209張靜態圖像。數據由不同的無人機相機記錄,包括位置(取自中國14個不同的城市)、環境(城市和農村地區)、物體(如行人、車輛和自行車)和密度(稀疏和擁擠的場景)。作者選擇了10類在無人機應用中最受關注的目標,比如行人和汽車。作者共仔細標注了來自這些類別的超過250萬個目標實例的邊界框。此外,還提供了一些重要的屬性,包括場景的可見性、目標類別和遮擋,以提高數據使用率。表1列出了所提供的無人機數據集與其他相關基準數據集在目標檢測和跟蹤方面的詳細比較。
在這篇論文中,作者重點關注了2018年和2019年的VisDrone挑戰,以及挑戰的方法、結果和評估方案,希望這一挑戰能在很大程度上促進相關領域的研究和發展。
【導讀】圖像分割(Image Segmentation)是計算機視覺的經典問題之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。在前深度學習時代有大量的方法提出,比如分水嶺、GraphCut等。隨著深度學習的興起,大量的算法提出如R-CNN、Mask-RCNN等。最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,并提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。
題目:Image Segmentation Using Deep Learning: A Survey
作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos
摘要
圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實和圖像壓縮等。研究者們提出了各種圖像分割算法。最近,由于深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力于開發使用深度學習模型的圖像分割方法。在本次綜述中,我們全面回顧了撰寫本文時的論文,涵蓋了語義級和實例級分割的廣泛先驅工作,包括全卷積像素標記網絡、編碼器-解碼器架構、基于多尺度和金字塔的方法、遞歸網絡、視覺注意力模型和在對抗環境下的生成模型。我們調研了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,并討論了該領域未來的研究方向。
1. 引言
圖像分割是許多視覺理解系統的重要組成部分。它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,增強現實等。從最早的閾值化[3]、基于直方圖的分組、區域生長[4]、k-means聚類[5]、分水嶺[6]等算法,到更先進的主動輪廓[7]、圖割[8]、條件和馬爾科夫隨機域[9]、稀疏[10]-[11]等算法,文獻中已經出現了許多圖像分割算法。然而,在過去的幾年里,深度學習(DL)網絡已經產生了新一代的圖像分割模型,其性能有了顯著的提高——通常在流行的基準測試中獲得了最高的準確率——致使許多人認為的該領域的范式轉變。例如,圖1展示了一個著名的深度學習模型DeepLabv3[12]的樣本圖像分割輸出。
圖像分割可以表示為帶有語義標簽的像素分類問題(語義分割)或單個對象的分割問題(實例分割)。語義分割是對所有圖像像素進行一組對象類別(如人、車、樹、天空)的像素級標記,因此通常比圖像分類更難,因為后者預測整個圖像的單個標簽。實例分割進一步擴展了語義分割的范圍,通過檢測和描繪圖像中每個感興趣的對象(例如,對個人的分割)。
我們的調研涵蓋了圖像分割的最新文獻,并討論了到2019年提出的一百多種基于深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,并討論了基于深度學習的圖像分割模型的幾個挑戰和未來可能的方向。
我們將基于深度學習的工作根據其主要技術貢獻分為以下幾類:
本綜述論文的一些主要貢獻可以總結如下:
本次綜述涵蓋了與分割問題相關的現有文獻,并綜述了截止2019年提出的100多種分割算法,共分為10類。
我們提供了一個全面的調研和使用深度學習的分割算法的不同方面的深度分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略,以及他們的關鍵貢獻。
我們提供了一個概述約20個流行的圖像分割數據集,分為2D, 2.5D (RGB-D),和3D圖像。
我們提供了一個比較總結的性質和性能的審查方法的分割目的,在流行的基準上進行。
我們為基于深度學習的圖像分割提出了一些挑戰和潛在的未來方向。
該調研的其余部分組織如下: 第2節提供了流行的深度神經網絡架構的概述,作為許多現代分割算法的主干。第3節全面概述了最重要的、最先進的、基于深度學習的細分模型,截至2019年已有100多個。我們也討論了他們的長處和貢獻超過以往的工作在這里。第四部分回顧了一些最流行的圖像分割數據集及其特點。第5.1節回顧了評價基于深度學習的細分模型的流行指標。在5.2節中,我們報告了這些模型的定量結果和實驗性能。在第6節中,我們將討論基于深度學習的分割方法的主要挑戰和未來的發展方向。最后,我們在第7節中提出我們的結論。
論文主題: Deep Semantic Segmentation of Natural and Medical Images: A Review
論文摘要: (醫學)圖像語義分割任務包括將圖像的每個像素(或幾個像素)分類為一個實例,其中每個實例(或類別)對應于一個類。此任務是場景理解概念的一部分,或更好地解釋全局 圖像的上下文。在醫學圖像分析領域,圖像分割可用于圖像引導干預、放射治療或改進的放射診斷。在這篇綜述中,我們將領先的基于深度學習的醫學和非醫學圖像分割解決方案分為六大類:深度架構、基于數據合成、基于損失函數、序列模型、弱監督和多任務方法。此外,針對每一組,我們分析了這些組的每一個變體,并討論了當前語義圖像分割方法的局限性和未來的研究方向。
摘要:深度學習是近年來應用最廣泛的心臟圖像分割方法。在這篇文章中,我們回顧了超過100篇使用深度學習的心臟圖像分割論文,這些論文涵蓋了常見的成像方式,包括磁共振成像(MRI)、計算機斷層掃描(CT)和超聲(US)以及感興趣的主要解剖結構(心室、心房和血管)。此外,公開可用的心臟圖像數據集和代碼庫的摘要也包括在內,為鼓勵重復性研究提供了基礎。最后,我們討論了當前基于深度學習的方法的挑戰和局限性(缺乏標簽、不同領域的模型可泛化性、可解釋性),并提出了未來研究的潛在方向。