亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

胸部 X 射線 (CXR) 成像是當今放射科最常見的檢查類型。自動疾病分類可以幫助放射科醫生減少工作量并提高患者護理質量。醫學圖像分析在過去十年中經歷了范式轉變,這主要歸功于卷積神經網絡 (CNN) 在許多圖像分類、分割和量化任務中實現超人性能的巨大成功。 CNN 正在應用于 CXR 圖像,但在臨床環境中應用時,高空間分辨率、缺乏具有可靠基本事實的大型數據集以及種類繁多的疾病是重大的研究挑戰。值得注意的是,這些挑戰激發了本論文的新穎貢獻。

本論文對 CNN 的四個主要設計決策進行了系統評估和分析:損失函數、權重初始化、網絡架構和非圖像特征集成。為了利用年齡、性別和視圖位置等信息,提出了一種整合這些信息以及學習圖像表示的新穎架構,并為 ChestXray14 數據集產生了最先進的結果。此外,研究了兩種先進的圖像預處理技術以提高 CNN 的性能:骨抑制(一種從 CXR 中人工去除胸腔的算法)和自動肺野裁剪(一種提高 CNN 輸入分辨率的方法)。兩種方法結合起來略微增加了 OpenI 數據集的平均結果。最后,**開發了一個框架來研究用于智能工作列表優先級的 CNN,是否可以優化放射學工作流程,**并減少 CXR 中關鍵發現的報告周轉時間 (RTAT)。仿真表明,使用 CNN 進行緊急優先級排序可以將氣胸等關鍵發現的平均 RTAT 降低兩倍。總之,對特定的設計決策進行了改進,例如網絡架構、圖像預處理和使用小型數據集進行 CXR 分析的訓練。結果用于證明關鍵發現的平均 RTAT 顯著降低,這可以大大提高患者護理的質量。

引言

在英國,護理質量委員會最近報告說,在過去的 12 個月中,僅亞歷山德拉女王醫院一名訓練有素的放射科專家就沒有對總共 26,345 次胸部 X 光 (CXR) 和 2,167 次腹部 X 光進行正式審查。結果,三名肺癌患者因胸部 X 光檢查未得到適當評估而遭受重大傷害 [Care Quality Commission, 2017]。

圖 2.2:典型的檢查類型,其中兩個對應的胸部 X 射線圖像取自一名患者。 (a) 顯示正面 PA 胸部 X 光片和 (b) 側面胸部 X 線片。在兩張 X 光片中,可以看到解剖結構:(1) 氣管、(2) 鎖骨、(3) 肩胛骨、(4) 肋骨、(5) 心臟、(6) 橫膈膜和 (7) 構成脊柱的椎骨.示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016]。

圖 2.3:基于氣胸的高分辨率和低分辨率胸部 X 光片的比較。 (a) 以 2828 × 2320 像素的全圖像尺寸顯示原始胸部 X 光片。在 (b) 中,顯示了 (a) 的兩個區域,放大了 10 倍。黃色箭頭指向胸膜邊緣,表示氣胸。為了比較,(c) 顯示 (a) 通過雙線性插值縮小到 256 × 256 像素的圖像大小。 (d) 顯示與 (b) 相同的放大區域,胸膜邊緣不再可見。示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016] (ID: 3378)。

作為一種診斷工具,醫學成像是近幾十年來醫學領域最具革命性的進步之一。通過提供人體內部的視覺表示,醫學成像可以幫助放射科醫生做出更早、更準確的診斷。因此,可以更有效地治療疾病以提高患者護理質量。多年來,醫學成像在測量速度、空間分辨率和對比度方面都有所提高。擁有這個有用的工具需要有足夠的能力讓專家放射科醫生評估相關數據。我們已經遇到了無法讓放射科醫生審查所有 X 射線圖像的情況 [Care Quality Commission, 2017;皇家放射學院,2018]。隨著各種醫學成像模式產生的數據量不斷增加 [Kesner et al., 2018] 和不斷增長的世界人口 [United Nations DESA, 2019],預計對專家閱讀能力的需求將會增加。在放射科可用的成像方式中,平片是最常見的,而胸部 X 射線是最常見的檢查類型 [Bundesamt für Strahlenschutz, 2020; NHS 英格蘭,2020]。

自動圖像分析工具使放射科醫生能夠顯著減少他們的工作量并提高患者護理質量。早期的方法通常結合手工特征表示和分類器。不幸的是,開發特征提取方法需要大量的領域專業知識,并且通常是一個耗時的過程。然而,深度學習可能會改變這些要求。2012年Krizhevsky 等人[2012] 提出了 AlexNet——一種卷積神經網絡——用于計算機視覺中的圖像分類,并在 ImageNet 挑戰賽中大獲全勝。由于計算能力的提高(即圖形處理單元(GPU)的并行計算)和大量可用數據,這是可能的。這種成功有助于復興神經網絡作為機器學習的一種方法,機器學習是人工智能 (AI) 的一個子領域。在計算機視覺中,深度學習已經證明了它能夠以超人類的準確度分析圖像 [He等人, 2016;Simonyan等人,2015; Szegedy 等人,2014 年;Tan等人,2019]。醫學圖像分析領域正在深入探索深度學習。

本文結構

以下段落概述了本文的結構,并概述了每一章及其貢獻。第 2 至第 4 章總結了背景信息和重要文獻。然后,第 4 章到第 7 章介紹了為本論文進行的研究。最后,第 8 章以總結和對未來的展望結束了本文。

第 2 章簡要介紹了醫學成像及其自動化分析。此后,對深度學習的胸部 X 射線分析進行了全面回顧。作為深度學習快速發展的最重要推動力之一,我們討論了 ChestX-ray14 [Wang et al., 2017] 和 OpenI [Demner-Fushman et al., 2016] 等開源數據集。隨后討論了由自然語言處理 (NLP) 生成的噪聲注釋以及高分辨率胸部 X 射線數據所帶來的挑戰。最后,我們在當前挑戰的背景下檢查了胸部 X 射線分類的臨床應用。

第 3 章概述了神經網絡的歷史動機和時間順序。解釋了它們的基本元素——人工神經元,并討論了不同類型的激活函數。隨后,解釋了前饋神經網絡的原理以及分類與回歸任務之間的差異。為了計算最佳權重參數變化——并作為神經網絡的更新規則——Rumelhart 等人。 [1986] 提出了反向傳播。最后,本章解釋了梯度下降如何用作神經網絡的優化技術,并概述了該方法在神經網絡優化方面的重大改進。

第 4 章描述了標準前饋神經網絡的主要變化,這些變化導致了深度神經網絡及其在高維信號中的成功應用——尤其是在圖像處理中。解釋了卷積神經網絡作為分層特征提取器的基本理解以及在高維圖像中的應用。為了實現這一點,提出了最先進的網絡架構(例如,卷積、池化和歸一化層)的重要構建塊。當在非常深的網絡中天真地堆疊層時,使用梯度下降進行優化存在梯度爆炸和消失的風險。梯度消失通過殘差連接和密集連接架構來解決——這兩者都允許堆疊額外的層。這種高級模型通常有數百萬個參數需要訓練;因此,它們很容易過度擬合訓練數據。出于這個原因,數據增強通常用于人為地擴大數據集。這也有助于提高神經網絡的泛化性,因為模型對于仿射變換變得不變。訓練模型后,評估其泛化能力和性能非常重要。首先,不同的重采樣方法(例如,k 折交叉驗證或蒙特卡洛子采樣)可以將數據集拆分為訓練測試子集,這有助于泛化評估。其次,使用接收器操作曲線和精確召回曲線等評估指標來量化模型在疾病分類中的性能。

第 5 章深入介紹了不同的訓練方法及其在胸部 X 線疾病分類中的應用。在該領域的先前工作的基礎上,考慮了遷移學習,無論是否進行微調,以及從頭開始訓練專用 X 射線網絡。由于 X 射線數據的高空間分辨率,我們提出了一種經過調整的 ResNet-50 架構,具有更大的輸入尺寸,并與其他模型相比展示了其優越的性能 [Baltruschat et al., 2019c]。由于放射科醫師通常包含比胸部 X 射線更多的信息來進行診斷,因此模型架構會進一步改變,并且引入了一種新模型以包含有助于患者信息采集的非圖像特征。最后,通過使用 Grad-CAM 分析模型,突出了 ChestX-ray14 數據集的局限性。這些發現激發了以下章節的貢獻。

圖 5.5:兩個示例圖像的 Grad-CAM 結果。在頂行中,氣胸的位置用黃色框標記。如旁邊的 Grad-CAM 圖像所示,模型對預測的最高激活位于正確區域內。第二行顯示了一個負例,其中負責最終預測“氣胸”的最高激活位于排水管。排水管標有黃色箭頭。這表明經過訓練的卷積神經網絡將引流檢測為“氣胸”的主要特征。

圖 5.6:本論文中最佳模型與其他組的比較。病理按照所有組的平均 AUROC 增加進行分類。對于本文提出的模型,將所有折疊的最小和最大 AUROC 報告為誤差條,以說明隨機數據集拆分的影響。

第 6 章處理胸部 X 射線數據的標準化,以在小型數據集(即只有幾千個樣本)上進行訓練——OpenI 數據集 [Demner-Fushman 等人,2016 年]。此外,還研究了增加輸入數據分辨率對神經網絡的影響。手動標記的數據集通常具有較小的樣本量——盡管 OpenI 數據集是最大的數據集之一(3,125 張圖像)——這使得從頭開始訓練深度神經網絡變得復雜。作為第一種預處理方法,提出了基于分割和邊界框計算的肺野裁剪。這一步驟大大減少了胸部 X 射線外觀的變化,并提高了它們作為輸入圖像的分辨率,因為縮小的因素也降低了。第二種方法是骨抑制,可以通過從胸部X光片中去除骨骼結構來減少信息疊加。值得注意的是,這兩種方法都有助于提高疾病分類性能 [Baltruschat et al., 2019e]。此外,本章概述了放射科專家為胸部 X 光片生成注釋的過程以及與觀察者間變異性相關的問題 [Ittrich et al., 2018; Steinmeister 等人,2019]。

圖 6.2:肺田間種植方法概述。原始胸部 X 射線圖像 (a) 由中心凹卷積神經網絡處理以生成肺野分割 (b)。 (c) 以紫色顯示計算的兩個最大連接區域周圍的邊界框。在(d)中,由于分割掩碼中的錯誤,藍色區域強調了邊界框的安全區域。 (e) 顯示了最終的裁剪圖像,(f) 顯示了骨抑制和肺野裁剪的組合。

圖 6.3:用于組合高級預處理圖像的集成方法。四個 ResNet50-large 模型在不同的圖像數據上進行了訓練:原始、軟組織、肺野裁剪 (LFC) 和使用 LFC 的骨抑制 (BS)。每個模型預測了測試集 Ntest 中五個裁剪圖像(即中心和所有四個角)的分數,具有八個類別。此后,對所有模型的預測分數進行平均,以獲得最終的多標簽分類結果。

圖 6.6:正常訓練模型 (a) 和使用預處理圖像訓練的模型 (b) 的 Pearson 相關系數。正常模型之間的相關性已經很高,除了模型“Normal-2”,它似乎收斂到不同的最優值。使用預處理圖像訓練的模型具有較低的相關性(大約 92%)。這表明(b)中顯示的模型的集合可以對分類性能產生更大的影響。

第 7 章介紹了將深度學習的疾病分類轉化為特定的臨床應用。在獲得胸部 X 光片后,通常會將它們分類到工作清單中。根據每個放射科的工作流程,該工作清單按采集時間或手動優先級標簽進行排序,并且在很大程度上,放射科醫生按順序處理他們的工作清單項目。因此,工作清單只按照先進先出的原則進行處理。一種最先進的胸部 X 光疾病分類算法可以自動分配優先級標簽,這可以大大改善工作列表的排序。本章介紹了一種用于模擬臨床工作日的新穎模擬框架,它突出了自動優先工作列表的效果。該框架使用來自漢堡-埃彭多夫大學醫學中心的經驗數據,可以模擬一個臨床工作日,其中包括胸部 X 射線生成過程、胸部 X 射線的自動疾病分類以及放射科醫師生成最終報告所需的時間 [ Baltruschat 等人,2020b]。值得注意的是,使用了第 5 章和第 6 章中提出的用于胸部 X 線疾病分類的改進方法。

圖 7.6:報告所有八種病理結果和正常檢查的周轉時間 (RTAT),基于四種不同的模擬:FIFO(綠色)、Prio-lowFNR(黃色)、Prio-lowFPR(紫色)和 Prio-MAXwaiting(紅色),最長等待時間(淺紫色)。綠色三角形標記平均 RTAT,而垂直線標記中值 RTAT。每個 simu 的最大 RTAT。

第 8 章總結了論文及其主要貢獻。它還提出了本文提出的新問題。

圖 8.1:來自中心靜脈導管數據集的示例圖像。原始圖像 (a) 顯示在左側,相應的分割結果 (c) 顯示為右側的疊加層。藍色代表心臟,綠色代表肺,青色代表鎖骨,棕色突出導管。

付費5元查看完整內容

相關內容

智慧醫療英文簡稱WIT120,是最近興起的專有醫療名詞,通過打造健康檔案區域醫療信息平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療設備之間的互動,逐步達到信息化。

圖像配準是圖像引導手術、圖像融合、器官圖譜生成、腫瘤和骨骼生長監測等臨床任務應用的關鍵技術,也是一個極具挑戰性的問題。近年來,深度學習技術對醫學圖像處理方法的研究產生重要的影響,在醫學圖像配準領域發展迅速。來自美國辛辛那提兒童醫院醫療中心等發布了**《深度學習醫學圖像配準》**綜述,闡述了相關進展。

圖像配準是各種醫學圖像分析應用中的一個重要組成部分。近年來,基于深度學習(DL)的醫學圖像配準模型發展迅速。本文對醫學圖像配準技術進行了綜述。首先,討論了監督配準的分類,如完全監督配準、雙重監督配準和弱監督配準。接下來,基于相似度和基于生成對抗網絡(GAN)的配準被提出作為無監督配準的一部分。然后描述了深度迭代配準,重點是基于深度相似度和基于強化學習的配準。此外,對醫學圖像配準的應用領域進行了綜述。本文主要綜述單模態和多模態配準及其相關成像,如X線、CT掃描、超聲和MRI。本綜述強調了現有的挑戰,其中顯示,一個主要挑戰是缺乏具有已知轉換的訓練數據集。最后,討論了基于深度學習的醫學圖像配準的未來研究方向。

//www.zhuanzhi.ai/paper/1fb1db2059362b38007d8e59df7d6f61

引言

使用圖像配準,可以將不同的圖像集合合并到一個具有相同信息的單一坐標系中。當比較從不同角度多次拍攝的兩幅圖像或使用不同的模態/傳感器時,可能需要配準[1,2]。直到最近,大多數圖像配準都是由醫生手工完成的。人工對齊在很大程度上依賴于用戶的能力,這在臨床上可能不利于某些配準程序的質量。自動配準的產生是為了克服一些可能的缺點手動圖像配準。DL的復興改變了圖像配準研究的背景[3],盡管事實上各種自動圖像配準方法已經被深入研究之前(和期間)。DL[4]使最近的工作在廣泛的計算機視覺任務中得以表現,包括但不限于: 圖像分類[4],分割[5],特征提取[6-8],以及目標識別[9]。作為一個起點,DL在增強基于強度的配準性能方面被證明是有用的。這只是時間問題,直到其他研究人員看到使用強化學習的配準過程的應用[10-12]。由于獲取/創建地面真實數據的困難,人們對開發用于一步轉換估計的無監督框架越來越感興趣[13,14]。圖像相似度量化是這一范式中的一個眾所周知的障礙。應用基于信息理論的相似性度量[13]、生成對抗網絡(GAN)框架[16]和解剖特征分割[17]來解決這一難題,取得了良好的效果。

傳統的圖像配準是一個基于迭代的過程,包括收集必要的特征,確定相似度(以評估配準質量),選擇變換模型,最后是搜索機制[18,149,153]。可以發送到系統的圖片有兩種: 移動和固定,如圖1所示。通過在靜止圖像上反復滑動移動圖像,可以獲得最佳對齊。考慮的相似性度量最初決定了輸入的照片之間的相似度。計算新轉換的參數是通過使用更新機制的優化方法完成的。通過將這些因素作用于運動圖像,就產生了具有改進對齊的圖像。否則,將開始一個新的算法迭代。如果滿足終止要求,則流程結束。直到不能再獲得配準或滿足一定的預定要求,運動圖像才會在每一個循環中改善與靜止圖像的對應關系。該系統的輸出既可以是變換參數,也可以是最終的插值融合圖像。

一個用于醫學圖像的圖像配準框架流程圖

有必要對使用DL的醫學圖像配準領域進行徹底的調研,突出專家面臨的常見問題,并討論可以解決這些挑戰的即將到來的研究可能性。它是一種利用多層神經網絡(NN)來學習數據描述的機器學習(ML)。許多不同種類的神經網絡可以用于不同的目的,最近已經開發出一些重要的設計來解決工程挑戰。在討論神經網絡時,也可以討論許多神經網絡的訓練過程。關于神經網絡類型、訓練范式、網絡結構以及方法的章節構成了DL的介紹。PyTorch[19]、Caffe[20]、Keras[21]、MXNet[22]和TensorFlow[23]都是可用于創建網絡的公共訪問庫。現有的文獻主要集中在醫學圖像分析中使用DL、reinforcement learning和GANs進行醫學圖像分析。

本文綜合回顧了現有文獻中基于離散域的圖像配準的研究進展。本文著重從方法和功能的角度對其創新進行了綜述。本文研究了不同形式的配準,包括無監督和監督變換估計,以及深度迭代配準。討論了當前圖像配準的趨勢、挑戰和局限性。最后,本文對未來的研究方向進行了展望。

監督配準模型

對于深度學習模型,監督訓練是各種配準模型的共同基礎。根據在訓練階段中使用的監督程度,有三個子類別的模型: 完全監督、雙重監督和弱監督。完全監督配準利用傳統配準算法中的真DVFs來監督學習過程。這些損失通常是由于地面真實值和預期SVF不匹配造成的,如圖2所示。弱監督配準使用隱式參考標簽,而不是使用廣泛使用的解剖輪廓參考DVF,如圖2所示。經常使用兩種以上的參考數據來訓練雙監督配準模型。這包括解剖結構輪廓、參考SVF以及圖像相似性。

弱監督和完全監督配準模型的示例工作圖

盡管為了解決有監督圖像配準的信息或數據稀缺問題,人們采取了許多策略(如弱監督和數據增強)[43-47],但訓練樣本的創建仍然是一個耗時的過程。由于移動和固定的圖像配對是DL模型需要學習的所有變形,無監督配準是一種方法。表1提供了這個子類別的概述。在這一類別的訓練中仍然需要一個可與傳統迭代配準中使用的損失函數。一個DVF正則化項和一個圖像相似項和通常包括在損失函數中。由于固有卷積的性質,一些相似性度量,即局部NCC (LNCC),被改變為專注于微小斑塊。可以引入各種損失項,如防止過擬合的同一性損失和減少奇異性的循環一致性損失。

基于(a) GAN和(b)相似矩陣的醫學圖像配準通用框架

各種醫學圖像配準通用框架

本文綜述了近年來在醫學圖像配準方面的研究進展。由于每個應用程序都有不同的問題,因此有必要謹慎地開發DL框架。多模態圖像配準,比如涉及TRUS和MRI的配準,也面臨著類似的挑戰,比如無法在多模態應用中使用穩健的相似性度量,缺乏大型數據集,難以獲得地面真實值配準和分割,以及量化模型的偏好。(36、37)。解決這些問題的常用方法包括補丁式框架、應用程序特定的相似性度量、注冊框架和受變分自動編碼器影響的無監督技術。插值和重采樣,盡管在本文中描述的許多方法復雜,通常不是由神經網絡學習。隨著該領域的成熟,我們預計會有更多的學者將這些組件包含到他們基于深度學習的解決方案中。每種策略都有自己的優點和局限性,但比較這兩種策略的研究人員總數大致相同。在這兩個領域,我們預計會出現更多結合這兩種策略的好處的研究和新方法。我們預測在這兩類中還會有進一步的研究。

付費5元查看完整內容

摘要

腦磁共振成像 (MRI) 是一種成像方式,可在不使用任何電離輻射的情況下產生大腦的詳細圖像。從結構 MRI 掃描中,可以提取不同大腦區域的形態特性,例如它們的體積和形狀。這些措施既可以更好地了解大腦如何因多種因素(例如環境和病理)而發生變化,也有助于識別神經和精神疾病的新成像生物標志物。本論文的總體目標是推進關于如何有效地使用腦 MRI 圖像處理來分析和表征大腦結構的知識。

圖 3.11:用于圖像分類的基于 CNN 的簡單架構。

本文介紹的前兩項工作是基于動物研究,主要旨在使用 MRI 數據分析感興趣的群體之間的差異。在論文 I 中,對野生和家兔的 MRI 掃描進行了處理,以識別這兩組之間的大腦結構差異。馴化顯著重塑了大腦在區域灰質體積和白質完整性方面的結構。在論文 II 中,使用大鼠腦 MRI 掃描圖像來訓練腦年齡預測模型。然后在對照組和一組經歷長期環境富集和飲食限制的大鼠上測試該模型。與對照組相比,這種健康的生活方式干預顯著地影響了預測的大腦衰老軌跡,它減緩了大鼠的衰老過程。此外,年輕成年大鼠的腦年齡預測被發現對生存有顯著影響。

圖 3.12:原始 U-Net 架構。在每個藍色塊(表示多通道特征圖)的頂部,顯示了相應的通道數。在每個塊的底部,表示 xy 輸入大小。擴展路徑中的白色塊表示從收縮路徑復制的特征圖

圖 4.1:論文 I 和 II 實施的圖像處理工作流程的示意圖。這兩項研究共享一些用黑框和箭頭表示的常見處理步驟,而論文 I 的研究特定步驟顯示為藍色,論文 II 的研究特定步驟顯示為紅色。

論文 III 到 V 是人類研究,提出了基于深度學習的方法來分割可能受到神經退行性疾病嚴重影響的大腦結構。特別是,論文III和IV重點研究了基于U-Net的多發性硬化(MS)患者胼胝體(CC)二維分割。在這兩項研究中,都獲得了良好的分割準確性,并且發現 CC 區域與患者的認知和身體殘疾水平之間存在顯著相關性。此外,在論文 IV 中,分段 CC 的形狀分析揭示了殘疾與 CC 厚度和彎曲角度之間的顯著關聯。相反,在論文 V 中,提出了一種海馬體自動分割的新方法,該方法包括將統計形狀先驗作為上下文信息嵌入到基于 U-Net 的框架中。當在一個新的看不見的隊列(即,不同于用于訓練的隊列)上測試該方法時,包含形狀信息被證明可以顯著提高分割準確性。此外,在以不同程度的海馬萎縮為特征的三個不同診斷組(健康對照組、輕度認知障礙受試者和阿爾茨海默病患者)中觀察到了良好的表現。

圖 4.2:論文 III 中提出的用于自動中間切片選擇(上部)和 CC 和 IC 的 2D 分割(下部)的管道。輸入 3D 掃描的所有切片都輸入到 CNN 中,并分類為中間切片或非中間切片。具有最高概率 pmid-slice 為中矢狀切片的切片 i 被輸入兩個類似 U-Net 的架構,產生一個 IC 和一個 CC 二進制分割作為輸出。 [?布魯西尼等人。 (2022b)

圖 4.3:論文 V 中提出的海馬分割方法總結。對于 MRI U-Net,分割結果以粉色突出顯示,對于 Cropped MRI U-Net,以綠色突出顯示,對于 Shape MRI U-Net,以黃色突出顯示。所有三種架構都由三個正交 2D U-Net(每個視圖一個)組成,并接收 T1w MRI 切片作為輸入。然而,對于裁剪和形狀 MRI U-Net,這些切片是在由 MRI U-Net 分割的海馬體周圍裁剪的。 Shape MRI U-Net 還包括一個額外的輸入通道,該通道嵌入通過擬合海馬形狀模型獲得的形狀信息。

總之,本論文中的 MRI 圖像分析研究對神經科學知識進步的巨大價值,它們的貢獻主要是雙重的。首先,通過在文獻中尚未探索的數據集上應用成熟的處理方法,有可能表征特定的大腦變化,并解開臨床或生物學性質的相關問題。其次,通過修改和擴展現有的腦圖像處理方法,在新數據集上實現了良好性能,提供了技術貢獻。

論文結構

第 2 章概述本論文所附五篇論文的具體目標。第 3 章介紹了構成這五篇論文基礎的理論和研究背景。第 4 章和第 5 章總結了這些研究的方法和結果。然后在第 6 章中對結果進行了全面討論,而在第 7 章和第 8 章中分別概述了所提出的研究的未來展望和從每篇論文中得出的最終結論。最后,本論文的最后一部分是所附論文的全文。

付費5元查看完整內容

摘要

在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用

圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。

圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。

引言

未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。

近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。

本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。

論文結構

本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇

算法

在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。

算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。

數據集

大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。

對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。

研究

雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。

總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。

圖:實驗裝置概述

圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。

付費5元查看完整內容

在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。

//searchworks.stanford.edu/view/13876519

付費5元查看完整內容

基于深度學習的圖像處理算法研究

隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。

盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:

(1) 一種基于無監督學習的空間自適應圖像平滑算法

該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。

(2) 一種基于弱監督學習的圖像反光去除算法

該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。

(3) 一種基于多標簽聯合訓練的本征圖像分解算法

本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。

(4) 一種基于解耦學習的實時參數化圖像處理框架

傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。

付費5元查看完整內容

【導讀】由于深度神經網絡具有強大的學習不同層次視覺特征的能力,因此被廣泛應用于目標檢測,語義分割,圖像描述等計算機視覺應用當中。從ImageNet這樣的大型圖像數據集中訓練得到的模型被廣泛地用作其他任務的預訓練模型,主要有兩個原因:(1)從大規模數據集中學習得到的參數能夠為其他模型提供一個良好的訓練起點,在其他任務上模型網絡可以更快地收斂。(2)在大規模數據集上訓練的網絡已經學習到了層次特征,這有助于減少其他任務訓練過程中的過擬合問題,特別是當其他任務的數據集較小或標注數據不足的情況。

介紹

為了在計算機視覺應用中學習得到更好的圖像和視頻特征,通常需要大規模的標記數據來訓練深度神經網絡。為了避免收集和標注大量的數據所需的巨大開銷,作為無監督學習方法的一個子方法——自監督學習方法,可以在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般性特征。本文對基于深度學習的自監督一般性視覺特征學習方法做了綜述。首先,描述了該領域的動機和一些專業性術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,并介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于標準數據集的性能比較方法在圖像和視頻特征學習中的應用。

用于圖像特征學習的架構

1.AlexNet:與以往的方法相比,AlexNet極大的提高了在ImageNet數據集上的圖像分類性能。AlexNet架構總共有8層,其中的5層是卷積層,3層是全連接層。ReLU激活函數被運用在每一個卷積層后面。

2.VGG:該模型贏得了ILSVRC2013挑戰賽的第一名。其中的VGG-16由于模型尺寸適中,性能優越,被廣泛使用。

3.ResNet:該網絡闡述了網絡越深越能夠獲得良好的性能。但是由于梯度消失和梯度爆炸,深度神經網絡很難訓練。ResNet使用跳躍連接把前一層的特征直接傳遞到下一個卷積塊來克服梯度消失和梯度爆炸的問題。

4.GoogleNet:22層的深度網絡,以93.3%的準確率贏得了ILSVRC-2014挑戰賽。和之前的網絡相比,它擁有更深的網絡。GoogleNet的基礎模塊inception塊由4個平行的卷積層組成,這4個卷積層的卷積核尺寸不同,每層后面都有一個1x1的卷積操作來降低維度。

5.DenseNet:大多數網絡包括AlexNet, VGG和ResNet都遵循層次結構。圖像被輸入到網絡中,由不同的層提取特征。淺層提取低級的一般性特征,而深層提取特定于任務的高級特征。然而,當一個網絡變得越來越深的時候,更深的網絡層可能會記住完成任務所需的底層特征。為了避免這一問題,DenseNet通過稠密連接將一個卷積塊之前的所有特征作為輸入輸送到神經網絡中的下一個卷積塊。

視頻特征學習架構

Spatiotemporal Convolutional Neural Network

三維卷積運算最早是在3DNet中提出的,用于人類行為識別。與2DConvNets分別提取每一幀的空間信息,然后將它們融合為視頻特征相比,3DConvNets能夠同時從多個幀中同時提取空間和時間特征。

隨著三維卷積在視頻分析任務中的成功應用,出現了3DConvNet的各種變體。比如Hara等人提出了3DResNet,將ResNet中所有的2D卷積層替換為3D卷積層。實驗表明,在多個數據集上,3D卷積層的性能更為優異。

Recurrent Neural Network(RNN)

由于RNN能夠對一個時間序列數據進行動態建模,所以RNN通常被應用于視頻的有序幀序列當中。和標準的RNN相比,LSTM使用內存單元來存儲,修改和訪問內部狀態,從而更好的對視頻幀之間的長時間序列進行建模。基于LSTM的優勢,Donahue提出了long-term recurrent convolutional networks (LRCN)用于人類行為識別。

數據集介紹

1.圖像數據集

2.視頻數據集

YFCC100M:該數據集是從Flicker上收集的多媒體數據集,由1億條多媒體數據組成,其中的99200000條數據是圖片,剩余的800000條數據是視頻。

SceneNet RGB-D:該數據集是一個大型的室內視頻合成數據集。

Moment in Time:該數據集是一個用于視頻內容理解的數據集,內容多樣且分布均衡。

Kinetics:該數據集規模大,質量高,用于人類行為識別。

AudioSet:該數據集由來自YouTube的2084320條人工標記10秒的聲音剪輯組成,這些視頻涵蓋了632個音頻事件。

KITTI:該數據集是在駕駛汽車時收集的,收集數據時的裝備有各種傳感器,包括高分辨率RGB相機、灰度立體聲相機、3D激光掃描儀和高精度GPS測量。

UCF101:該數據集被廣泛使用于人類動作識別。

HMDB51:相比于前面的數據集,該數據集是一個小規模的視頻數據集,用于人流動作識別。

付費5元查看完整內容

摘要:近年來,在開發更準確、高效的醫學和自然圖像分割機器學習算法方面取得了重大進展。在這篇綜述文章中,我們強調了機器學習算法在醫學成像領域有效和準確分割中的重要作用。我們特別關注幾個關鍵的研究涉及到應用機器學習方法在生物醫學圖像分割。我們回顧了經典的機器學習算法,如馬爾可夫隨機場、k均值聚類、隨機森林等。盡管與深度學習技術相比,這種經典的學習模型往往精度較低,但它們通常更具有樣本效率,結構也更簡單。我們還回顧了不同的深度學習結構,如人工神經網絡(ANNs)、卷積神經網絡(CNNs)和遞歸神經網絡(RNNs),并給出了這些學習模型在過去三年中獲得的分割結果。我們強調每種機器學習范式的成功和局限性。此外,我們還討論了與不同機器學習模型訓練相關的幾個挑戰,并提出了一些解決這些挑戰的啟發方法。

付費5元查看完整內容
北京阿比特科技有限公司