醫學影像在目前的醫療和研究環境中被廣泛用于各種目的,如診斷、治療方案、病人監測、縱向研究等。在美國最常用的兩種成像方式是計算機斷層掃描(CT)和磁共振成像(MRI)。通過CT或MRI獲得的原始圖像,在用于上述目的之前,需要經過各種處理步驟。這些處理步驟包括質量控制、降噪、解剖學分割、組織分類等。然而,由于醫學圖像通常包括數以百萬計的體素(圖像中含有信息的最小三維單位),依靠視覺檢查和訓練有素的臨床醫生的經驗來手動處理它們是極具挑戰性的。有鑒于此,醫學成像領域正在尋求數據處理自動化的方法。隨著人工智能(AI)在計算機視覺領域令人印象深刻的表現,醫學影像界的研究人員對利用這一強大的工具來自動處理醫學影像數據的任務表現出越來越大的興趣。盡管人工智能對醫學成像領域做出了重大貢獻,但大量的數據仍然沒有優化和強大的基于人工智能的工具來有效和準確地處理圖像。
這篇論文的重點是利用大量的CT和MRI數據,設計基于人工智能的方法,利用弱監督和監督學習策略,以及數學(或統計)建模和信號處理方法來處理醫學影像。特別是,我們在這篇論文中解決了四個影像處理問題。即:
1)我們提出了一種弱監督的深度學習方法,將擴散MRI掃描的二元質量控制自動分為 "差 "和 "好 "兩類;
2)我們設計了一個弱監督的深度學習框架,以學習和檢測與本工作中考慮的一組不同人工類別相關的視覺模式,以識別dMRI卷中存在的主要人工類型;
3)我們開發了一種有監督的深度學習方法,對人類肺部CT掃描中與肺氣腫疾病有關的多種肺部紋理模式進行分類;
4)我們使用數學建模和信號處理工具研究和描述了視覺刺激期間人類大腦fMRI掃描中引起的兩種負BOLD反應的特性。
我們的結果表明,通過使用人工智能和信號處理算法:
1)dMRI掃描可以自動歸類為兩個質量組(即 "差 "與 "好"),并具有較高的分類精度,能夠快速篩選大群dMRI掃描,以用于研究或臨床環境;
3)與肺氣腫疾病有關的多種肺部紋理模式可以在各種大型CT掃描隊列中進行自動和穩健的分類,從而能夠通過對多個隊列的縱向研究來調查該疾病;
4)不同類別的負性BOLD反應可以在從人腦視覺刺激中收集的fMRI數據上得到充分的描述,從而使研究人員能夠通過研究fMRI掃描隊列來更好地了解人腦功能。
圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。
圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。
//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61
使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。
傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。
一個用于醫學圖像的圖像配準框架流程圖
有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。
本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。
對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。
弱監督和完全監督配準模型的示例工作圖
盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。
基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架
各種醫學圖像配準通用框架
本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。
腦磁共振成像 (MRI) 是一種成像方式,可在不使用任何電離輻射的情況下產生大腦的詳細圖像。從結構 MRI 掃描中,可以提取不同大腦區域的形態特性,例如它們的體積和形狀。這些措施既可以更好地了解大腦如何因多種因素(例如環境和病理)而發生變化,也有助于識別神經和精神疾病的新成像生物標志物。本論文的總體目標是推進關于如何有效地使用腦 MRI 圖像處理來分析和表征大腦結構的知識。
圖 3.11:用于圖像分類的基于 CNN 的簡單架構。
本文介紹的前兩項工作是基于動物研究,主要旨在使用 MRI 數據分析感興趣的群體之間的差異。在論文 I 中,對野生和家兔的 MRI 掃描進行了處理,以識別這兩組之間的大腦結構差異。馴化顯著重塑了大腦在區域灰質體積和白質完整性方面的結構。在論文 II 中,使用大鼠腦 MRI 掃描圖像來訓練腦年齡預測模型。然后在對照組和一組經歷長期環境富集和飲食限制的大鼠上測試該模型。與對照組相比,這種健康的生活方式干預顯著地影響了預測的大腦衰老軌跡,它減緩了大鼠的衰老過程。此外,年輕成年大鼠的腦年齡預測被發現對生存有顯著影響。
圖 3.12:原始 U-Net 架構。在每個藍色塊(表示多通道特征圖)的頂部,顯示了相應的通道數。在每個塊的底部,表示 xy 輸入大小。擴展路徑中的白色塊表示從收縮路徑復制的特征圖
圖 4.1:論文 I 和 II 實施的圖像處理工作流程的示意圖。這兩項研究共享一些用黑框和箭頭表示的常見處理步驟,而論文 I 的研究特定步驟顯示為藍色,論文 II 的研究特定步驟顯示為紅色。
論文 III 到 V 是人類研究,提出了基于深度學習的方法來分割可能受到神經退行性疾病嚴重影響的大腦結構。特別是,論文III和IV重點研究了基于U-Net的多發性硬化(MS)患者胼胝體(CC)二維分割。在這兩項研究中,都獲得了良好的分割準確性,并且發現 CC 區域與患者的認知和身體殘疾水平之間存在顯著相關性。此外,在論文 IV 中,分段 CC 的形狀分析揭示了殘疾與 CC 厚度和彎曲角度之間的顯著關聯。相反,在論文 V 中,提出了一種海馬體自動分割的新方法,該方法包括將統計形狀先驗作為上下文信息嵌入到基于 U-Net 的框架中。當在一個新的看不見的隊列(即,不同于用于訓練的隊列)上測試該方法時,包含形狀信息被證明可以顯著提高分割準確性。此外,在以不同程度的海馬萎縮為特征的三個不同診斷組(健康對照組、輕度認知障礙受試者和阿爾茨海默病患者)中觀察到了良好的表現。
圖 4.2:論文 III 中提出的用于自動中間切片選擇(上部)和 CC 和 IC 的 2D 分割(下部)的管道。輸入 3D 掃描的所有切片都輸入到 CNN 中,并分類為中間切片或非中間切片。具有最高概率 pmid-slice 為中矢狀切片的切片 i 被輸入兩個類似 U-Net 的架構,產生一個 IC 和一個 CC 二進制分割作為輸出。 [?布魯西尼等人。 (2022b)
圖 4.3:論文 V 中提出的海馬分割方法總結。對于 MRI U-Net,分割結果以粉色突出顯示,對于 Cropped MRI U-Net,以綠色突出顯示,對于 Shape MRI U-Net,以黃色突出顯示。所有三種架構都由三個正交 2D U-Net(每個視圖一個)組成,并接收 T1w MRI 切片作為輸入。然而,對于裁剪和形狀 MRI U-Net,這些切片是在由 MRI U-Net 分割的海馬體周圍裁剪的。 Shape MRI U-Net 還包括一個額外的輸入通道,該通道嵌入通過擬合海馬形狀模型獲得的形狀信息。
總之,本論文中的 MRI 圖像分析研究對神經科學知識進步的巨大價值,它們的貢獻主要是雙重的。首先,通過在文獻中尚未探索的數據集上應用成熟的處理方法,有可能表征特定的大腦變化,并解開臨床或生物學性質的相關問題。其次,通過修改和擴展現有的腦圖像處理方法,在新數據集上實現了良好性能,提供了技術貢獻。
第 2 章概述本論文所附五篇論文的具體目標。第 3 章介紹了構成這五篇論文基礎的理論和研究背景。第 4 章和第 5 章總結了這些研究的方法和結果。然后在第 6 章中對結果進行了全面討論,而在第 7 章和第 8 章中分別概述了所提出的研究的未來展望和從每篇論文中得出的最終結論。最后,本論文的最后一部分是所附論文的全文。
胸部 X 射線 (CXR) 成像是當今放射科最常見的檢查類型。自動疾病分類可以幫助放射科醫生減少工作量并提高患者護理質量。醫學圖像分析在過去十年中經歷了范式轉變,這主要歸功于卷積神經網絡 (CNN) 在許多圖像分類、分割和量化任務中實現超人性能的巨大成功。 CNN 正在應用于 CXR 圖像,但在臨床環境中應用時,高空間分辨率、缺乏具有可靠基本事實的大型數據集以及種類繁多的疾病是重大的研究挑戰。值得注意的是,這些挑戰激發了本論文的新穎貢獻。
本論文對 CNN 的四個主要設計決策進行了系統評估和分析:損失函數、權重初始化、網絡架構和非圖像特征集成。為了利用年齡、性別和視圖位置等信息,提出了一種整合這些信息以及學習圖像表示的新穎架構,并為 ChestXray14 數據集產生了最先進的結果。此外,研究了兩種先進的圖像預處理技術以提高 CNN 的性能:骨抑制(一種從 CXR 中人工去除胸腔的算法)和自動肺野裁剪(一種提高 CNN 輸入分辨率的方法)。兩種方法結合起來略微增加了 OpenI 數據集的平均結果。最后,**開發了一個框架來研究用于智能工作列表優先級的 CNN,是否可以優化放射學工作流程,**并減少 CXR 中關鍵發現的報告周轉時間 (RTAT)。仿真表明,使用 CNN 進行緊急優先級排序可以將氣胸等關鍵發現的平均 RTAT 降低兩倍。總之,對特定的設計決策進行了改進,例如網絡架構、圖像預處理和使用小型數據集進行 CXR 分析的訓練。結果用于證明關鍵發現的平均 RTAT 顯著降低,這可以大大提高患者護理的質量。
在英國,護理質量委員會最近報告說,在過去的 12 個月中,僅亞歷山德拉女王醫院一名訓練有素的放射科專家就沒有對總共 26,345 次胸部 X 光 (CXR) 和 2,167 次腹部 X 光進行正式審查。結果,三名肺癌患者因胸部 X 光檢查未得到適當評估而遭受重大傷害 [Care Quality Commission, 2017]。
圖 2.2:典型的檢查類型,其中兩個對應的胸部 X 射線圖像取自一名患者。 (a) 顯示正面 PA 胸部 X 光片和 (b) 側面胸部 X 線片。在兩張 X 光片中,可以看到解剖結構:(1) 氣管、(2) 鎖骨、(3) 肩胛骨、(4) 肋骨、(5) 心臟、(6) 橫膈膜和 (7) 構成脊柱的椎骨.示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016]。
圖 2.3:基于氣胸的高分辨率和低分辨率胸部 X 光片的比較。 (a) 以 2828 × 2320 像素的全圖像尺寸顯示原始胸部 X 光片。在 (b) 中,顯示了 (a) 的兩個區域,放大了 10 倍。黃色箭頭指向胸膜邊緣,表示氣胸。為了比較,(c) 顯示 (a) 通過雙線性插值縮小到 256 × 256 像素的圖像大小。 (d) 顯示與 (b) 相同的放大區域,胸膜邊緣不再可見。示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016] (ID: 3378)。
作為一種診斷工具,醫學成像是近幾十年來醫學領域最具革命性的進步之一。通過提供人體內部的視覺表示,醫學成像可以幫助放射科醫生做出更早、更準確的診斷。因此,可以更有效地治療疾病以提高患者護理質量。多年來,醫學成像在測量速度、空間分辨率和對比度方面都有所提高。擁有這個有用的工具需要有足夠的能力讓專家放射科醫生評估相關數據。我們已經遇到了無法讓放射科醫生審查所有 X 射線圖像的情況 [Care Quality Commission, 2017;皇家放射學院,2018]。隨著各種醫學成像模式產生的數據量不斷增加 [Kesner et al., 2018] 和不斷增長的世界人口 [United Nations DESA, 2019],預計對專家閱讀能力的需求將會增加。在放射科可用的成像方式中,平片是最常見的,而胸部 X 射線是最常見的檢查類型 [Bundesamt für Strahlenschutz, 2020; NHS 英格蘭,2020]。
自動圖像分析工具使放射科醫生能夠顯著減少他們的工作量并提高患者護理質量。早期的方法通常結合手工特征表示和分類器。不幸的是,開發特征提取方法需要大量的領域專業知識,并且通常是一個耗時的過程。然而,深度學習可能會改變這些要求。2012年Krizhevsky 等人[2012] 提出了 AlexNet——一種卷積神經網絡——用于計算機視覺中的圖像分類,并在 ImageNet 挑戰賽中大獲全勝。由于計算能力的提高(即圖形處理單元(GPU)的并行計算)和大量可用數據,這是可能的。這種成功有助于復興神經網絡作為機器學習的一種方法,機器學習是人工智能 (AI) 的一個子領域。在計算機視覺中,深度學習已經證明了它能夠以超人類的準確度分析圖像 [He等人, 2016;Simonyan等人,2015; Szegedy 等人,2014 年;Tan等人,2019]。醫學圖像分析領域正在深入探索深度學習。
以下段落概述了本文的結構,并概述了每一章及其貢獻。第 2 至第 4 章總結了背景信息和重要文獻。然后,第 4 章到第 7 章介紹了為本論文進行的研究。最后,第 8 章以總結和對未來的展望結束了本文。
第 2 章簡要介紹了醫學成像及其自動化分析。此后,對深度學習的胸部 X 射線分析進行了全面回顧。作為深度學習快速發展的最重要推動力之一,我們討論了 ChestX-ray14 [Wang et al., 2017] 和 OpenI [Demner-Fushman et al., 2016] 等開源數據集。隨后討論了由自然語言處理 (NLP) 生成的噪聲注釋以及高分辨率胸部 X 射線數據所帶來的挑戰。最后,我們在當前挑戰的背景下檢查了胸部 X 射線分類的臨床應用。
第 3 章概述了神經網絡的歷史動機和時間順序。解釋了它們的基本元素——人工神經元,并討論了不同類型的激活函數。隨后,解釋了前饋神經網絡的原理以及分類與回歸任務之間的差異。為了計算最佳權重參數變化——并作為神經網絡的更新規則——Rumelhart 等人。 [1986] 提出了反向傳播。最后,本章解釋了梯度下降如何用作神經網絡的優化技術,并概述了該方法在神經網絡優化方面的重大改進。
第 4 章描述了標準前饋神經網絡的主要變化,這些變化導致了深度神經網絡及其在高維信號中的成功應用——尤其是在圖像處理中。解釋了卷積神經網絡作為分層特征提取器的基本理解以及在高維圖像中的應用。為了實現這一點,提出了最先進的網絡架構(例如,卷積、池化和歸一化層)的重要構建塊。當在非常深的網絡中天真地堆疊層時,使用梯度下降進行優化存在梯度爆炸和消失的風險。梯度消失通過殘差連接和密集連接架構來解決——這兩者都允許堆疊額外的層。這種高級模型通常有數百萬個參數需要訓練;因此,它們很容易過度擬合訓練數據。出于這個原因,數據增強通常用于人為地擴大數據集。這也有助于提高神經網絡的泛化性,因為模型對于仿射變換變得不變。訓練模型后,評估其泛化能力和性能非常重要。首先,不同的重采樣方法(例如,k 折交叉驗證或蒙特卡洛子采樣)可以將數據集拆分為訓練測試子集,這有助于泛化評估。其次,使用接收器操作曲線和精確召回曲線等評估指標來量化模型在疾病分類中的性能。
第 5 章深入介紹了不同的訓練方法及其在胸部 X 線疾病分類中的應用。在該領域的先前工作的基礎上,考慮了遷移學習,無論是否進行微調,以及從頭開始訓練專用 X 射線網絡。由于 X 射線數據的高空間分辨率,我們提出了一種經過調整的 ResNet-50 架構,具有更大的輸入尺寸,并與其他模型相比展示了其優越的性能 [Baltruschat et al., 2019c]。由于放射科醫師通常包含比胸部 X 射線更多的信息來進行診斷,因此模型架構會進一步改變,并且引入了一種新模型以包含有助于患者信息采集的非圖像特征。最后,通過使用 Grad-CAM 分析模型,突出了 ChestX-ray14 數據集的局限性。這些發現激發了以下章節的貢獻。
圖 5.5:兩個示例圖像的 Grad-CAM 結果。在頂行中,氣胸的位置用黃色框標記。如旁邊的 Grad-CAM 圖像所示,模型對預測的最高激活位于正確區域內。第二行顯示了一個負例,其中負責最終預測“氣胸”的最高激活位于排水管。排水管標有黃色箭頭。這表明經過訓練的卷積神經網絡將引流檢測為“氣胸”的主要特征。
圖 5.6:本論文中最佳模型與其他組的比較。病理按照所有組的平均 AUROC 增加進行分類。對于本文提出的模型,將所有折疊的最小和最大 AUROC 報告為誤差條,以說明隨機數據集拆分的影響。
第 6 章處理胸部 X 射線數據的標準化,以在小型數據集(即只有幾千個樣本)上進行訓練——OpenI 數據集 [Demner-Fushman 等人,2016 年]。此外,還研究了增加輸入數據分辨率對神經網絡的影響。手動標記的數據集通常具有較小的樣本量——盡管 OpenI 數據集是最大的數據集之一(3,125 張圖像)——這使得從頭開始訓練深度神經網絡變得復雜。作為第一種預處理方法,提出了基于分割和邊界框計算的肺野裁剪。這一步驟大大減少了胸部 X 射線外觀的變化,并提高了它們作為輸入圖像的分辨率,因為縮小的因素也降低了。第二種方法是骨抑制,可以通過從胸部X光片中去除骨骼結構來減少信息疊加。值得注意的是,這兩種方法都有助于提高疾病分類性能 [Baltruschat et al., 2019e]。此外,本章概述了放射科專家為胸部 X 光片生成注釋的過程以及與觀察者間變異性相關的問題 [Ittrich et al., 2018; Steinmeister 等人,2019]。
圖 6.2:肺田間種植方法概述。原始胸部 X 射線圖像 (a) 由中心凹卷積神經網絡處理以生成肺野分割 (b)。 (c) 以紫色顯示計算的兩個最大連接區域周圍的邊界框。在(d)中,由于分割掩碼中的錯誤,藍色區域強調了邊界框的安全區域。 (e) 顯示了最終的裁剪圖像,(f) 顯示了骨抑制和肺野裁剪的組合。
圖 6.3:用于組合高級預處理圖像的集成方法。四個 ResNet50-large 模型在不同的圖像數據上進行了訓練:原始、軟組織、肺野裁剪 (LFC) 和使用 LFC 的骨抑制 (BS)。每個模型預測了測試集 Ntest 中五個裁剪圖像(即中心和所有四個角)的分數,具有八個類別。此后,對所有模型的預測分數進行平均,以獲得最終的多標簽分類結果。
圖 6.6:正常訓練模型 (a) 和使用預處理圖像訓練的模型 (b) 的 Pearson 相關系數。正常模型之間的相關性已經很高,除了模型“Normal-2”,它似乎收斂到不同的最優值。使用預處理圖像訓練的模型具有較低的相關性(大約 92%)。這表明(b)中顯示的模型的集合可以對分類性能產生更大的影響。
第 7 章介紹了將深度學習的疾病分類轉化為特定的臨床應用。在獲得胸部 X 光片后,通常會將它們分類到工作清單中。根據每個放射科的工作流程,該工作清單按采集時間或手動優先級標簽進行排序,并且在很大程度上,放射科醫生按順序處理他們的工作清單項目。因此,工作清單只按照先進先出的原則進行處理。一種最先進的胸部 X 光疾病分類算法可以自動分配優先級標簽,這可以大大改善工作列表的排序。本章介紹了一種用于模擬臨床工作日的新穎模擬框架,它突出了自動優先工作列表的效果。該框架使用來自漢堡-埃彭多夫大學醫學中心的經驗數據,可以模擬一個臨床工作日,其中包括胸部 X 射線生成過程、胸部 X 射線的自動疾病分類以及放射科醫師生成最終報告所需的時間 [ Baltruschat 等人,2020b]。值得注意的是,使用了第 5 章和第 6 章中提出的用于胸部 X 線疾病分類的改進方法。
圖 7.6:報告所有八種病理結果和正常檢查的周轉時間 (RTAT),基于四種不同的模擬:FIFO(綠色)、Prio-lowFNR(黃色)、Prio-lowFPR(紫色)和 Prio-MAXwaiting(紅色),最長等待時間(淺紫色)。綠色三角形標記平均 RTAT,而垂直線標記中值 RTAT。每個 simu 的最大 RTAT。
第 8 章總結了論文及其主要貢獻。它還提出了本文提出的新問題。
圖 8.1:來自中心靜脈導管數據集的示例圖像。原始圖像 (a) 顯示在左側,相應的分割結果 (c) 顯示為右側的疊加層。藍色代表心臟,綠色代表肺,青色代表鎖骨,棕色突出導管。
在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇。首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用。
圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。
圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。
未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。
近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。
本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。
本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇。
在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。
算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。
大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。
對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。
雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。
總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。
圖:實驗裝置概述
圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。
目的 從影像中快速精準地分割出肺部解剖結構可以清晰直觀地分辨各解剖結構間的關系,提供有效、客觀的輔助診斷信息,大大提高醫生的閱片效率并降低醫生的工作量。隨著影像分割算法的發展,越來越多的方法應用于分割肺部影像中感興趣的解剖結構區域,但目前尚缺乏包含多種肺部精細解剖結構的影像數據集。本文創建了一個帶標簽的肺部CT/CTA (computer tomography/computer tomography angiography)影像數據集,以促進肺部解剖結構分割算法的發展。方法 該數據集共標記了67組肺部CT/CTA影像,包括CT影像24組、CTA影像43組,共計切片圖像26 157幅。每組CT/CTA有4個不同的目標區域類別,標記對應支氣管、肺實質、肺葉、肺動脈和肺靜脈。結果 本文利用該數據集,用于肺部CT解剖結構分割醫學影像挑戰賽——2020年第四屆國際圖像計算與數字醫學研討會,該挑戰賽提供了一個肺血管、支氣管和肺實質的評估平臺,通過Dice系數、過分割率、欠分割率、醫學和算法行業專家對分割和3維重建效果進行了評估,目的是比較各種算法分割肺部解剖結構的性能。結論 本文詳細描述了包括支氣管、肺實質、肺葉、肺動脈和肺靜脈等解剖結構標簽的肺部影像數據集和應用結果,為相關研究人員利用本數據集進行更深入的研究提供參考。
十年來,人工智能(AI)取得了前所未有的進步,這表明包括醫學在內的許多領域都有潛力受益于人工智能技術從數據中提取的洞見。在此,我們綜述了以深度學習為驅動力的現代計算機視覺技術在醫療應用方面的最新進展,重點關注醫學成像、醫療視頻和臨床應用。我們首先簡要總結一下卷積神經網絡十年來在醫療保健領域取得的進展,包括它們實現的視覺任務。 接下來,我們將討論幾個可能受益的醫學影像應用實例——包括心臟病學、病理學、皮膚科、眼科——并提出繼續工作的新途徑。然后,我們擴展到一般醫療視頻,重點介紹了臨床工作流程可以整合計算機視覺以增強護理的方式。最后,我們討論了這些技術在現實世界的臨床部署所需要的挑戰和障礙。
//www.nature.com/articles/s41746-020-00376-2
引言
計算機視覺(Computer vision,簡稱CV)已有數十年的豐富歷史,致力于使計算機有意義地感知視覺刺激。機器感知的范圍很廣,從識別邊緣這樣的低級任務,到理解完整場景這樣的高級任務。過去十年的進步主要歸功于三個因素: (1)深度學習(DL)的成熟,這是一種機器學習,能夠從原始數據中對非常復雜的函數進行端到端學習; (2)通過GPUs3在本地化計算能力上取得了巨大進步; (3)用于訓練這些算法的大型標記數據集的開源。這三個要素的結合使單個研究人員能夠獲得推進該領域所需的資源。隨著研究團體的指數級增長,進步也隨之增長。
現代計算機視覺的發展與許多科學領域中大量數字數據的產生相重疊。近年來醫學取得了巨大的進步,這在很大程度上要歸功于DL從大多數數據來源中學習許多任務的非凡能力。使用大數據集,CV模型可以獲得多種模式識別能力——從醫生級別的診斷到醫療場景感知。參見圖1。
a. 多模態判別模型。可以構建深度學習架構,從圖像數據(通常是卷積網絡)和非圖像數據(通常是通用深度網絡)中共同學習。學習到的注釋可以包括疾病診斷、預后、臨床預測及其組合。b. 生成模型。卷積神經網絡可以訓練生成圖像。任務包括圖像到圖像的回歸(如圖所示)、超分辨率圖像增強、新圖像生成等。
在這里,我們回顧了CV和醫學的交集,聚焦于醫學影像、醫學視頻和真實臨床部署的研究。我們討論了釋放這些機會的關鍵算法能力,并深入研究了近年來取得的無數成就。適合CV的臨床任務包括許多類別,如篩選、診斷、檢測條件、預測未來結果、從器官到細胞的病理分割、監測疾病和臨床研究。在整個過程中,我們考慮這一技術的未來增長及其對醫學和醫療保健的影響。
計算機視覺
目標分類、定位和檢測分別是指識別圖像中目標的類型、當前目標的位置,同時識別類型和位置。ImageNet大規模視覺識別挑戰(ILSVRC)是過去十年來在這些任務中取得進展的先鋒。它創建了一個DL研究人員競爭和合作的大型社區,以改進各種CV任務的技術。第一個當代的、GPU驅動的DL方法,在2012年產生了這個社區增長的拐點,并在2017年比賽的到達頂點。值得注意的是,在此期間,分類準確性達到了人類水平。在醫學領域,這些方法的細粒度版本已成功地應用于許多疾病的分類和檢測(圖2)。如果有足夠的數據,其準確性往往與專家醫生的水平相匹配或超過。同樣,物體的分割有了很大的改進,特別是在具有挑戰性的情況下,如在顯微鏡下對多種類型的重疊細胞的生物醫學分割。在這些任務中使用的關鍵DL技術是卷積神經網絡(CNN)——一種對圖像數據的關鍵特征平移不變性進行硬編碼的DL算法。許多其他CV任務也從這一進展中受益,包括圖像配準(在相似圖像中識別對應點),圖像檢索(尋找相似圖像),以及圖像重建和增強。處理醫療數據的特定挑戰要求使用多種類型的人工智能模型。
這些技術很大程度上依賴于監督學習,它利用包含數據點(如圖像)和數據標簽(如對象類)的數據集。考慮到醫學數據的稀疏性和訪問困難,遷移學習——算法首先在一個大型且不相關的語料庫(如ImageNet4)上進行訓練,然后在感興趣的數據集(如醫學)上進行微調——對進展至關重要。為了減少與收集和標記數據有關的費用,正在開發生成合成數據的技術,例如數據增加和生成式對抗網絡。研究人員甚至表明,眾包圖像注釋可以產生有效的醫學算法。最近,自監督學習——從數據點中提取隱式標簽并用于訓練算法(例如,預測由分割圖像生成的瓦片的空間排列)——已經將該領域推向了完全的無監督學習,這種學習不需要標簽。將這些技術應用于醫學將減少開發和應用的障礙。
這些進步促進了CV的其他領域的增長,如多模態學習,它將視覺與其他形式(如語言)、時間序列數據和基因組數據結合在一起(圖1a)。這些方法可以與3D視覺相結合,將深度相機變成保護隱私的傳感器,面向病人更容易的部署設置,如重癥監護室。在視頻中,任務的范圍甚至更廣。應用程序,如活動識別和現場了解是有用的檢測和反應的重要或不良臨床事件。
醫學成像
近年來,將計算機視覺技術應用于靜態醫學圖像的論文已從數百份增加到數千份。由于這些專業診斷任務的視覺模式識別特性,以及高度結構化圖像的日益可用性,一些領域已經得到了大量的關注,如放射學、病理學、眼科和皮膚科。
心臟病學
心臟影像學在臨床診斷和工作流程中的應用越來越廣泛。深度學習的主要臨床應用包括診斷和篩選。在心血管醫學中最常見的成像方式是心臟超聲,或超聲心動圖。作為一種成本效益高、無輻射的技術,超聲心動圖由于直接的數據采集和解釋而特別適合DL——它通常用于大多數急性住院設施、門診中心和急診室。此外,CT和MRI等3D成像技術用于了解心臟解剖,并更好地表征供需不匹配。CT分割算法甚至已經被FDA批準用于冠狀動脈可視化。
病理學
病理學家在癌癥的檢測和治療中起著關鍵作用。病理分析基于顯微鏡下對組織樣本的目視檢查-本質上是主觀的。視覺感知和臨床訓練的差異可能導致診斷和預后意見的不一致。在這里,DL可以支持關鍵的醫療任務,包括診斷、預后預測和治療反應、病理分割、疾病監測等。
皮膚病學
DL在皮膚科的主要臨床任務包括病變特異性鑒別診斷,在許多良性病變中發現病變,并幫助跟蹤病變隨時間的增長。一系列的研究表明,CNNs在從良性皮膚病變中分類惡性皮膚病變方面可以與認證皮膚科醫生的表現相匹配。這些研究相繼測試了越來越多的皮膚科醫生(25-7 57-93,157-94),一致表明分類的敏感性和特異性匹配甚至超過醫生水平。這些研究很大程度上局限于區分良性和惡性皮膚病變的二元分類任務,將黑素瘤與痣或脂溢性角化癌進行分類。
眼科學
近年來,人工智能在眼科應用的努力顯著增加,數十篇論文證明了臨床診斷和分析能力超出了當前人類的能力。潛在的臨床影響是顯著的——用于檢查眼睛的機器的便攜性意味著彈性診所和遠程醫療可以被用來將檢測地點分布到服務不足的地區。該領域主要依靠眼底成像和光學相干斷層掃描(OCT)來診斷和管理患者。
醫學視頻
外科的應用
CV可能在手術和內窺鏡等程序領域提供重要的實用價值。深度學習的主要臨床應用包括通過實時上下文意識、技能評估和培訓提高外科醫生的表現。
人類活動 CV可以識別醫院和診所等物理空間中的人類活動,用于一系列“環境智能”應用。環境智能指的是物理空間中持續的、非侵入性的活動意識,可以為臨床醫生、護士和其他醫療工作者提供幫助,如患者監控、自動文檔記錄和協議遵從性監控(圖3)。
計算機視覺與傳感器和視頻流相結合,使臨床和家庭環境中的許多安全應用得以實現,使醫療保健提供商能夠擴大其監控患者的能力。主要是使用用于細粒度活動識別的模型創建的,應用程序可能包括ICU中的患者監測、醫院和診所中的適當的手衛生和物理動作協議、異常事件檢測等。
臨床部署
隨著醫學人工智能進入臨床,它將同時有能力為社會做巨大的好事,并有可能加劇長期存在的不平等和使醫學錯誤永久化。如果操作得當、合乎道德,醫療人工智能可以成為實現更公平醫療的飛輪——使用得越多,獲得的數據越多,就會變得越準確、越普遍。關鍵在于理解模型所構建的數據以及它們所部署的環境。在這里,我們提出了在醫療保健領域應用ML技術時的四個關鍵考慮事項:數據評估、模型限制規劃、社區參與和信任構建。
參考文獻:
Szeliski, R. Computer Vision: Algorithms and Applications (Springer Science & Business Media, 2010).
LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015). CAS Article Google Scholar
Sanders, J. & Kandrot, E. CUDA by example: an introduction to general-purpose GPU programming. Addison-Wesley Professional; 2010 Jul 19.BibTeXEndNoteRefManRefWorks
Deng, J. et al. ImageNet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition 248–255 (IEEE, 2009).
Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24–29 (2019).
深度學習方法對各種醫學診斷任務都非常有效,甚至在其中一些任務上擊敗了人類專家。然而,算法的黑箱特性限制了臨床應用。最近的可解釋性研究旨在揭示對模型決策影響最大的特征。這一領域的大多數文獻綜述都集中在分類學、倫理學和解釋的需要上。本文綜述了可解釋的深度學習在不同醫學成像任務中的應用。本文從一個為臨床最終用戶設計系統的深度學習研究者的實際立場出發,討論了各種方法、臨床部署的挑戰和需要進一步研究的領域。