【導讀】圖像分割(Image Segmentation)是計算機視覺的經典問題之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。在前深度學習時代有大量的方法提出,比如分水嶺、GraphCut等。隨著深度學習的興起,大量的算法提出如R-CNN、Mask-RCNN等。最近來自紐約大學、滑鐵盧大學、UCLA等學者發布了深度學習圖像分割最新綜述論文,涵蓋20頁pdf168篇參考文獻,調研了截止2019年提出的100多種分割算法,共分為10類方法。對近幾年深度學習圖像分割進行了全面綜述,對現有的深度學習圖像分割研究進行梳理使其系統化,并提出6方面挑戰,幫助讀者更好地了解當前的研究現狀和思路。可作為相關領域從業者的必備參考文獻。
題目:Image Segmentation Using Deep Learning: A Survey
作者:Shervin Minaee, Yuri Boykov, Fatih Porikli, Antonio Plaza, Nasser Kehtarnavaz, and Demetri Terzopoulos
摘要
圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實和圖像壓縮等。研究者們提出了各種圖像分割算法。最近,由于深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力于開發使用深度學習模型的圖像分割方法。在本次綜述中,我們全面回顧了撰寫本文時的論文,涵蓋了語義級和實例級分割的廣泛先驅工作,包括全卷積像素標記網絡、編碼器-解碼器架構、基于多尺度和金字塔的方法、遞歸網絡、視覺注意力模型和在對抗環境下的生成模型。我們調研了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,并討論了該領域未來的研究方向。
1. 引言
圖像分割是許多視覺理解系統的重要組成部分。它涉及到將圖像(或視頻幀)分割成多個段或對象[1]。分割在[2]的廣泛應用中起著核心作用,包括醫學圖像分析(如腫瘤邊界提取和組織體積測量),自動駕駛車輛(如可導航的表面和行人檢測),視頻監控,增強現實等。從最早的閾值化[3]、基于直方圖的分組、區域生長[4]、k-means聚類[5]、分水嶺[6]等算法,到更先進的主動輪廓[7]、圖割[8]、條件和馬爾科夫隨機域[9]、稀疏[10]-[11]等算法,文獻中已經出現了許多圖像分割算法。然而,在過去的幾年里,深度學習(DL)網絡已經產生了新一代的圖像分割模型,其性能有了顯著的提高——通常在流行的基準測試中獲得了最高的準確率——致使許多人認為的該領域的范式轉變。例如,圖1展示了一個著名的深度學習模型DeepLabv3[12]的樣本圖像分割輸出。
圖像分割可以表示為帶有語義標簽的像素分類問題(語義分割)或單個對象的分割問題(實例分割)。語義分割是對所有圖像像素進行一組對象類別(如人、車、樹、天空)的像素級標記,因此通常比圖像分類更難,因為后者預測整個圖像的單個標簽。實例分割進一步擴展了語義分割的范圍,通過檢測和描繪圖像中每個感興趣的對象(例如,對個人的分割)。
我們的調研涵蓋了圖像分割的最新文獻,并討論了到2019年提出的一百多種基于深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,并討論了基于深度學習的圖像分割模型的幾個挑戰和未來可能的方向。
我們將基于深度學習的工作根據其主要技術貢獻分為以下幾類:
本綜述論文的一些主要貢獻可以總結如下:
本次綜述涵蓋了與分割問題相關的現有文獻,并綜述了截止2019年提出的100多種分割算法,共分為10類。
我們提供了一個全面的調研和使用深度學習的分割算法的不同方面的深度分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略,以及他們的關鍵貢獻。
我們提供了一個概述約20個流行的圖像分割數據集,分為2D, 2.5D (RGB-D),和3D圖像。
我們提供了一個比較總結的性質和性能的審查方法的分割目的,在流行的基準上進行。
我們為基于深度學習的圖像分割提出了一些挑戰和潛在的未來方向。
該調研的其余部分組織如下: 第2節提供了流行的深度神經網絡架構的概述,作為許多現代分割算法的主干。第3節全面概述了最重要的、最先進的、基于深度學習的細分模型,截至2019年已有100多個。我們也討論了他們的長處和貢獻超過以往的工作在這里。第四部分回顧了一些最流行的圖像分割數據集及其特點。第5.1節回顧了評價基于深度學習的細分模型的流行指標。在5.2節中,我們報告了這些模型的定量結果和實驗性能。在第6節中,我們將討論基于深度學習的分割方法的主要挑戰和未來的發展方向。最后,我們在第7節中提出我們的結論。
智能視頻監控(IVS)是當前計算機視覺和機器學習領域的一個活躍研究領域,為監控操作員和取證視頻調查者提供了有用的工具。人的再識別(PReID)是IVS中最關鍵的問題之一,它包括識別一個人是否已經通過網絡中的攝像機被觀察到。PReID的解決方案有無數的應用,包括檢索顯示感興趣的個體的視頻序列,甚至在多個攝像機視圖上進行行人跟蹤。文獻中已經提出了不同的技術來提高PReID的性能,最近研究人員利用了深度神經網絡(DNNs),因為它在類似的視覺問題上具有令人信服的性能,而且在測試時執行速度也很快。鑒于再識別解決方案的重要性和廣泛的應用范圍,我們的目標是討論在該領域開展的工作,并提出一項最先進的DNN模型用于這項任務的調查。我們提供了每個模型的描述以及它們在一組基準數據集上的評估。最后,我們對這些模型進行了詳細的比較,并討論了它們的局限性,為今后的研究提供了指導。
摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基于深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最后總結了3D目標檢測的應用意義以及待解決的問題,并對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。
題目: Image Segmentation Using Deep Learning: A Survey
摘要:
圖像分割是圖像處理和計算機視覺領域的一個重要課題,其應用領域包括場景理解、醫學圖像分析、機器人感知、視頻監控、增強現實和圖像壓縮等。文獻中已經發展了各種圖像分割算法。最近,由于深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力于開發使用深度學習模型的圖像分割方法。在本次調查中,我們對撰寫本文時的文獻進行了全面的回顧,涵蓋了語義和實例級分割的廣泛的開創性著作,包括全卷積像素標記網絡,編碼器-解碼器架構,多尺度和基于金字塔的方法,遞歸網絡,視覺注意力模型,以及在對抗性環境下的生成模型。我們調查了這些深度學習模型的相似性、優勢和挑戰,研究了最廣泛使用的數據集,報告了性能,并討論了該領域未來的研究方向。
準確地估計一幅圖像中物體的數量是一項具有挑戰性而又有意義的工作,并已在城市規劃和公共安全等諸多領域得到了應用。在各種對象計數任務中,人群計數因其對社會保障和發展的特殊意義而顯得尤為突出。幸運的是,人群計數技術的發展可以推廣到其他相關領域,如車輛計數和環境調查,如果不考慮他們的特點。因此,許多研究者致力于人群計數,涌現出許多優秀成果。在這些工作中,它們對人群計數的發展一定是有幫助的。然而,我們應該考慮的問題是,為什么它們對這項任務是有效的。由于時間和精力的限制,我們無法分析所有的算法。在本文中,我們調查了220+工作,對人群計數模型進行了全面、系統的研究,主要是基于CNN的密度圖估計方法。最后,根據評價指標,我們在人群統計數據集中選取了表現最好的前三名,并對其優缺點進行了分析。通過我們的分析,我們希望對人群計數的未來發展做出合理的推斷和預測,同時也可以為其他領域的對象計數問題提供可行的解決方案。我們提供了NWPU數據集驗證集中一些主流算法的密度圖和預測結果,以供比較和測試。同時,還提供了密度圖生成和評價工具。所有的代碼和評估結果在//github.com/guangshuai/survey-forcrowd -counting上公開。
概述
在過去的幾十年里,越來越多的研究社區將物體計數問題作為主要的研究方向,因此,許多作品被發表來計算圖像或視頻中物體的數量,這些作品跨越了各種各樣的領域,如人群計數,細胞顯微,樹葉,環境調查。在所有這些領域中,人群計數是至關重要的,在一些人群場景中,如人群分析和視頻監控中,人群計數對于構建更高層次的認知能力至關重要。隨著世界人口的不斷增長和隨之而來的城市化,在許多場合,如游行、音樂會和體育場,人群迅速聚集。在這些場景中,人群計數對于社會安全和控制管理起著不可或缺的作用。
考慮到上述人群計數的特殊重要性,越來越多的研究人員嘗試設計各種復雜的項目來解決人群計數的問題。特別是在過去的五年中,隨著深度學習的出現,基于卷積神經網絡(CNNs)的模型在各種計算機視覺任務中占據了壓倒性的主導地位,包括人群計數。雖然不同的任務有其獨特的屬性,但也存在共同的特征,如結構特征和分布模式。幸運的是,人群計數技術可以通過特定的工具擴展到其他領域。因此,本文希望通過對人群計數任務的深度挖掘,特別是基于CNN的密度估計和人群計數模型,為其他任務提供合理的解決方案。我們的調查旨在涉及各個部分,從一些有趣的尚未探索的研究方向的算法分類。除了對現有的基于CNN的人群計數和密度估計模型、代表數據集和評價指標進行分類審查外,還研究了一些在很大程度上影響設計模型性能的因素和屬性,如干擾因素和陰性樣本。我們在NWPU數據集的驗證集[wang2020nwpu]中提供了一些主流算法的密度圖和預測結果進行對比和測試。同時,還提供了密度圖生成和評價工具。所有的代碼和評估結果在 -counting上公開。
本文貢獻:
全面、系統地從各個方面進行綜述。我們根據網絡結構、監督形式、學習范式等幾個分類對基于cnn的模型進行了分類。分類可以通過對基于cnn的方法的關鍵技術的深入了解來激勵研究。
基于屬性的性能分析。在分析SOTA方法性能的基礎上,分析了SOTA方法性能良好的原因和使用的技術。此外,我們還討論了促使研究人員設計更有效算法的各種挑戰因素。
開放的問題和未來的方向。通過對模型設計、數據集收集和一些具有領域自適應或遷移學習的其他領域的推廣等重要問題的研究,探索了未來一些有前景的研究方向。
【導讀】醫學圖像配準( Medical Image Registration)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,基于深度學習的醫學圖像配準變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。美國埃默里大學醫學院Xiaofeng Yang老師課題組新出的這篇論文對近幾年醫學圖像配準深度學習方法進行了全面綜述,根據其方法、特征和流行程度分為七類,對每個類別進行了詳細的調研,強調了其重要的點及其相應挑戰,幫助讀者更好地了解當前的研究現狀和思路,并且使用基準數據集對基于深度學習的肺和腦配準方法進行了全面比較,最后也介紹了未來的研究方向。
題目:Deep Learning in Medical Image Registration: A Review
作者:Yabo Fu, Yang Lei, Tonghe Wang, Walter J. Curran, Tian Liu, Xiaofeng Yang
【摘要】本文綜述了基于深度學習的醫學圖像配準方法和基于深度學習的配準方法在醫學領域的最新發展和應用。這些方法根據其方法、特征和流行程度分為七類。我們對每個類別進行了詳細的審查,強調了重要的貢獻和確定了具體的挑戰。在詳細檢查每一類別之后,提出了簡短的評價,以總結其成就和未來的潛力。我們使用基準數據集對基于深度學習的肺和腦配準方法進行了全面比較。最后,我們從各個方面對所有被引工作進行統計分析,揭示了基于深度學習的醫學圖像配準的普及和未來趨勢。
引言
圖像配準又稱圖像融合或圖像匹配,是基于圖像外觀對兩幅或多幅圖像進行配準的過程。醫學圖像配準試圖找到一個最佳的空間轉換,以最好地對齊底層的解剖結構。醫學圖像配準在很多臨床應用中都有使用,如image guidance [22,123,148,170],motiontracking [13,46,172],segmentation [44,57,174,171,173,176],dose accumulation [1,153],imagereconstruction [91]等。
醫學圖像配準是一個廣泛的課題,可以從不同的角度進行分類。從輸入圖像的角度來看,掛號方式可以分為單峰掛號、多峰掛號、患者間掛號、患者內掛號(如當天掛號或當日掛號)。從變形模型的角度看,配準方法可分為剛性配準方法、仿射配準方法和可變形配準方法。從感興趣區域(ROI)的角度來看,配準方法可以根據腦、肺等解剖部位進行分組。從圖像對維數的角度來看,配準方法可分為3D到3D、3D到2D、2D到2D/3D。不同的應用程序和配準方式面臨著不同的挑戰。對于多模態圖像配準,由于不同成像方式之間固有的外觀差異,很難設計出準確的圖像相似度度量。由于不同患者的基礎解剖結構不同,因此患者之間的配準可能很棘手。由于代謝過程、排便、患者增/減體重等引起的圖像外觀變化,患者不同天數的住院配準具有挑戰性。為了提供實時的圖像制導,配準的計算效率至關重要。
人們提出了許多方法來應對上述挑戰。目前比較流行的配準方法有optical flow [169,167]、demons [154]、ANTs[3]、HAMMER[131]、ELASTIX[75]等。盡管醫學圖像配準已被廣泛研究,但它仍然是一個熱門的研究主題。醫學圖像配準領域發展迅速,每年都有數百篇論文發表。近年來,基于深度學習的方法已經改變了醫學圖像處理研究的面貌,并在許多應用中取得了最新的成果[25、27、45、58、84、85、86、88、89、97、98、156、157、158、160、161]。然而,醫學圖像配準中的深度學習直到最近三到四年才得到廣泛的研究。雖然已有多篇關于醫學圖像分析中深度學習的綜述文獻發表[73、93、96、105、106、121、132、182],但針對醫學圖像配準[60]中深度學習的綜述文獻較少。本文的目的是總結基于深度學習的醫學圖像配準方法的最新發展、挑戰和趨勢。通過這篇綜述,我們旨在:
1)綜述了基于深度學習的醫學圖像配準的最新進展。
2)突出貢獻、確定挑戰并概述未來趨勢。
3)從不同角度提供最新出版物的詳細統計數據。
在這篇文章中,將DL-based醫學圖像配準方法按其方法,特征和受歡迎程度分為七類,包括1)基于RL的方法,2)基于深度相似性的方法,3) 監督變換預測, 4)無監督變換預測, 5) 醫學圖像配準中的GAN, 6) 使用深度學習的配準驗證,和7) 其他基于學習的方法。
圖1. 醫學圖像配準中基于深度學習的七類方法綜述
在每個類別中,我們提供了一個完整的表格,列出了所有屬于該類別的被綜述工作并總結了它們的重要特征。我們總共收集了150多篇與基于深度學習的醫學圖像配準密切相關的論文。這些工作大多發表于2016年至2019年之間。在圖2中,出版物的數量通過堆疊柱狀圖來表示。論文的數量是按類別計算的。
從圖2可以看出,人們對有監督變換預測(SupCNN)和無監督變換預測(UnsupCNN)的興趣明顯增加。與此同時,GAN逐漸受到歡迎。
圖2. 基于深度學習的醫學圖像配準中出版的文章數量。虛線表示近年來人們對基于深度學習的配準方法越來越感興趣。“ DeepSimilarity”是在傳統配準框架中使用基于DL的相似性度量的類別。“ RegValidation”代表使用DL進行配準驗證的類別。
表1. 基于深度相似性的方法概述
表2. RL在醫學圖像配準中的應用概況
表3. 監督變換預測方法綜述
表4. 無監督變換預測方法綜述
表5 GAN配準方法概述
表6使用深度學習的配準驗證方法概述
表7其他基于深度學習的圖像配準方法綜述
表8 DIRLAB數據集中不同方法的目標配準誤差(TRE)值比較,TRE單位:(mm), *:傳統DIR方法
表9用于腦配準的基準數據集和評價指標
圖4. 基于深度學習的圖像配準方法各屬性的百分比餅圖。
挑戰與機遇
對于有監督的基于深度學習的方法,最常見的挑戰之一是缺乏具有已知轉換的訓練數據集。這個問題可以通過各種數據擴充方法來緩解。然而,數據增強方法可能會引入額外的誤差,如不切實際的人工轉換的偏差和在訓練和測試階段之間的圖像域轉移。
配準驗證方法與配準方法同樣重要。我們注意到2019年越來越多的論文關注配準驗證。為了可靠地評價不同配準方法在不同參數配置下的性能,需要對配準驗證方法進行更多的研究。
趨勢
從被引文獻的統計數據來看,對于快速圖像配準,存在直接變換預測的明顯趨勢。到目前為止,有監督的和無監督的變換預測方法的研究幾乎是相等的,這兩種方法的發表數量都很接近。有監督方法和無監督方法各有優缺點。我們推測,在未來,更多的研究將集中在有監督和無監督相結合的方法上。由于GAN不僅可以用于引入額外的正則化,還可以用于圖像域轉換,從而實現多模態到單模態的圖像配準,因此基于GAN的配準方法逐漸得到了廣泛的應用。基于GAN的醫學圖像配準技術將穩步發展。由于配準問題的病態性,新的變換正則化技術一直是研究的熱點。
題目: Understanding Deep Learning Techniques for Image Segmentation
簡介: 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡(例如卷積神經網絡,遞歸網絡,對抗網絡,自動編碼器等)有效地解決了許多具有挑戰性的計算機視覺任務,例如在不受限制的環境中對對象進行檢測,定位,識別和分割。盡管有很多關于對象檢測或識別領域的分析研究,但相對于圖像分割技術,出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始,本文進一步描述了深度學習對圖像分割域的影響。此后,大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。