機器學習 (ML) 是人工智能 (AI) 的一個分支,它從數據中學習以識別模式、做出預測或做出決策,而人工干預最少。所有的機器學習技術都以數據為輸入,針對不同的任務,即分類、回歸、聚類、降維和排序等。
受益于海量數據和高計算資源,機器學習應用在我們的日常生活中變得無處不在。這些應用程序將人們從重復和復雜的工作中解放出來,并允許他們輕松獲取有用的信息。例如,人臉識別系統可以幫助人類進行識別和授權。搜索引擎通過索引、搜索和匹配來收集和組織與給定查詢相關的信息。導航應用程序為自動駕駛汽車推薦到達目的地的最佳路徑。
計算機視覺 (CV) 研究計算機如何獲取、處理、分析和理解數字圖像。 ML 的進步促進了 CV 的發展,尤其是圖像分類任務。深度學習(DL)是一種強大的機器學習技術。它允許設計可以自動識別圖像視覺內容的深度神經網絡(DNN)。從數千張動物、地點、人、植物等圖像中學習,DNN 能夠以高可信度檢測未知圖像包含的內容。
在過去的幾十年中,DNN 在圖像分類領域迅速發展。卷積神經網絡 (CNN) [LBBH98] 獲得有用的語義視覺特征。典型的深度 CNN 具有許多層和復雜的架構,例如 AlexNet [KSH12]、Inception [SVI+16]、ResNet [HZRS16a]、DenseNet [HLVDMW17] 等。這些是少數著名的 DL 或 DNN 示例。這些網絡從圖像的高維表示空間計算梯度,以找到如何分離類別。最近的 DNN 模型以高置信度實現了分類、檢測和分割任務。 DNN 模型在 ImageNet [RDS+15](一個具有挑戰性和現實性的數據集)上的性能接近于人類。
DNN 的性能通常與其深度有關:網絡越深,性能越好。然而,由于大量層的深度堆疊以獲得語義視覺特征,DNN 的高復雜性導致訓練困難。這可能是由于反向傳播期間梯度消失,稱為梯度消失問題。存在許多 DNN 原始架構的變體,試圖規避此類問題。這包括來自 ResNet [HZRS16a] 和Transformer [VSP+17] 的剩余單元。在訓練過程中跳過層的剩余單元有效地簡化了網絡,加快了訓練過程并提供了探索更大的特征空間。然而,它也使 ResNet 更容易受到擾動。 Transformer [VSP+17] 使用自我注意的概念,幫助網絡專注于重要特征。總體而言,DNN 的所有這些進步都增強了分類等任務的性能。 DL 不僅成功地處理了大量圖像數據,而且還設法處理包含噪聲、遮擋或其他視覺偽影的圖像。
2013 年,研究人員發現,對圖像進行輕微修改會導致分類器做出錯誤的預測 [SZS+13]。令人驚訝的是,這些修改幅度很小,人眼幾乎察覺不到。這一發現揭示了 DNN 的脆弱性
對抗性現象廣泛影響 ML。這會影響不同的媒體,例如圖像[SZS+13、GSS14、TPG+17]、音頻[CW18、YS18、YLCS18]和文本[RDHC19、ZSAL20、ASE+18]。此外,攻擊者不僅會生成保存為數字數據的對抗性樣本,例如圖像,在計算機中,但也可以在物理世界中創建對抗性樣本,例如對抗性補丁 [TVRG19]。這些是打印的圖片和 3D 對象 [KGB16, SBBR16],由相機等視覺傳感器捕獲,并影響使用它們的 ML 應用程序。
對抗性擾動是一種無形的擾動,它會誤導 DNN 將擾動的輸入分類為不正確的類別。例如,通過對抗性擾動,可以使分類器將貓分類為狗,如圖 1.1 所示。此外,對抗性現象在分類器之間轉移。利用 DNN 的某個漏洞的攻擊可能會欺騙其他 DNN,無論他們使用什么架構或訓練集。
圖 1.1 – 此圖片來自 Nicholas Carlini 的攻擊機器學習演講:關于神經網絡的安全性和隱私。它通過對抗性擾動顯示貓的圖像被歸類為狗。
將一個視覺內容修改為另一個是一個大問題 [EEF+18, TVRG19, TRC19a, YLDT18, GSS14]。攻擊者的目標是欺騙分類器做出不適當決策,可以方便地進行對抗性擾動。這是令人不安和危險的,尤其是當網絡決策危及生命時。例如,將特定形狀和顏色的小紙片放在一些路標上會阻止它們被識別 [BMR+17]。穿著具有特定紋理的徽章裝飾的布會使人對旨在檢測行人存在的算法不可見 [XZL+20]。考慮到所有這些潛在風險,了解對抗樣本的基本問題以確保算法公平、正確地處理內容至關重要。對抗性機器學習的典型研究任務包括攻擊和防御。研究人員研究這兩項任務是為了 i) 做出實際貢獻和 ii) 理解這一現象。
攻擊旨在對目標 DNN 產生對抗性擾動。他們將不可見性和錯誤分類形式化為優化問題。攻擊的難度取決于攻擊者是否知道網絡的架構。基本情況是攻擊者可以訪問網絡的架構和參數,即白盒環境。他們受益于這些信息來制造對抗性擾動。
在不知道架構和參數的情況下攻擊網絡,即黑盒設置,是一個更復雜的情況。可遷移性意味著對抗樣本在不同的網絡和不同的機器學習模型[GSS14,TPG+17]中泛化得非常好。這表明為欺騙局部分類器而生成的對抗樣本也有一定的概率欺騙未知分類器。它提供了一種在黑盒環境中攻擊 DNN 的工具。
即使約束很嚴格,現有的攻擊也會成功地產生對抗性擾動。這些非同尋常的對抗性擾動表現出對抗性現象的不同特性和 DNN 的脆弱性。令人驚訝的是,例如,單像素攻擊 [SVS19] 通過僅修改輸入圖像的一個像素來改變網絡的預測。通用擾動 [MFFF17, HD18] 表明,一個特定的擾動足以導致給定數據集中的每張圖像都被錯誤分類。
防御旨在提高 DNN 針對對抗性攻擊的魯棒性。他們要么添加一個額外的組件來幫助網絡抵御對抗性攻擊,要么提高網絡的內在魯棒性。
引入額外組件的防御保持網絡不變。對圖像應用預處理是該類別中的一種特殊防御方法。他們將對抗性擾動視為一種特殊類型的噪聲,并嘗試通過轉換 [MC17, GRCvdM17, STL+19] 將其去除。將對抗樣本視為惡意數據的人使用檢測器來識別對抗樣本并拒絕或糾正它們 [XEQ17, LLS+18]。這些防御很簡單的,很容易適應給定的網絡,但是,在白盒環境下通常很容易受到攻擊 [ACW18]。
提高內在魯棒性的防御嘗試改進訓練方法 [GSS14, MMS+17]、增強架構 [PMW+16] 或高級損失函數 [HXSS15, MMS+17, TKP+17]。對抗性訓練 [GSS14, MMS+17] 作為該類別的典型防御,通過將對抗性樣本作為訓練數據的一部分來改進訓練方法。這種防御背后的假設是,DNN 的脆弱性是由于訓練數據的不足造成的。這些防御措施在魯棒性和準確性方面都表現不錯,但是通常很復雜,因為它們需要從頭開始訓練網絡。
在本論文中,我們試圖理解對抗性現象。我們探討了如何生成對抗樣本以及如何保護它們。通過對對抗性 ML 的多個方面的分析,我們發現要研究的關鍵要素包括:
速度。速度對于對抗性攻擊和防御都很重要。盡管耗時的過程(例如優化創建對抗性擾動和訓練 DNN 模型)會產生高質量的結果,但如果需要很長時間來生成對抗性樣本、驗證輸入或構建魯棒的模型是不可行的。
不可見性。失真的大小被廣泛用于估計擾動的不可見性,但它并不等同于不可見性。不可見性表明從神經學和心理學的角度來看,人類無法察覺這種擾動。在計算機科學中衡量不可見性仍然是一個懸而未決的問題。
失真。作為衡量不可見性質量的替代計劃,許多攻擊估計了失真的程度。當幅度很小時,人類幾乎不會感知到擾動。失真的大小對防御也很重要。通常,對具有較大失真的對抗性擾動的防御對對抗性影響更為穩健。它是對抗性攻擊和防御的重要指標。
可轉移性。可轉移性描述了為欺騙目標網絡而生成的對抗性樣本成功欺騙其他網絡的可能性。可轉移性對于黑盒環境下的攻擊至關重要,即攻擊者只能獲取網絡的輸入輸出。
我們的工作受到速度、失真和不可見性的概念的啟發。我們測試了對抗性擾動的可轉移性。為了提高對抗性擾動的質量,我們在兩個方向上工作,即產生不可見的對抗性擾動和有效地創建低幅度的對抗性擾動。為了防御攻擊,我們提出了一種輕量級算法,該算法在魯棒性和準確性方面都取得了不錯的表現。我們強調速度和性能。
為了讓讀者更好地理解,我們首先在第 2 章中概述了 DL 中的對抗性上下文。這包括 1)理解我們的工作所需的 ML 和 DNN 的最低知識,2)對抗性問題的基本定義和3) 對現有相關工作的高級審查,包括產生對抗性擾動和增強對抗攻擊的魯棒性。
成功攻擊率和失真幅度是衡量對抗性擾動質量的兩個標準。在第 3 章中,我們介紹了對抗性擾動的標準評估,包括數據集、網絡和評估指標。此外,在第 3.3 節中,我們提出了我們的評估指標,允許在有針對性的失真攻擊和有針對性的成功攻擊之間進行公平比較。
我們研究了兩種執行攻擊的算法,以便了解不可見性(見第 4 章)和創造速度(見第 5 章)。
平滑的對抗性擾動。在第 4 章中,我們研究了不可見性的定義,并將其表述為一個約束函數,以便可以直接將其添加到現有攻擊中。我們推測,當擾動像素與其相鄰像素之間的相似性類似于其原始圖像的相似性圖時,對抗性擾動是不可見的。我們成功地產生了平滑的對抗性擾動,并且令人驚訝地產生了少量的失真。這些平滑的對抗性擾動是肉眼看不到的,即使對抗性樣本被人為放大。
快速、低失真的對抗樣本。為了在不降低對抗樣本質量的情況下加速攻擊,我們利用對抗擾動的具體知識改進了優化算法。在第 5 章中,我們提出了邊界投影(BP)攻擊,它根據當前的解決方案改變搜索方向。當當前解決方案不是對抗性的時,BP 攻擊會沿著梯度方向長搜索,以引導當前解決方案跨越網絡邊界。當當前解決方案是對抗性的時,BP 攻擊沿著邊界搜索以引導當前解決方案以減少失真的幅度。與最先進的攻擊相比,BP 攻擊避免了對僅跟隨梯度引起的振蕩計算的浪費。這為 BP 攻擊贏得了速度。實驗表明,BP攻擊成功地產生了幅度很小但攻擊成功率很高的對抗性擾動。
為了更全面地了解對抗性 ML 問題,我們研究了防御策略。第 6 章介紹了補丁替換防御。
補丁更換。與對抗性擾動相比,DNN 對隨機噪聲的魯棒性更強。為了理解它,我們研究了通過 DNN 的失真幅度(隨機噪聲/對抗性擾動)的轉變。受 DNN 內部隨機噪聲和對抗性擾動的不同行為啟發,我們在第 6 章提出了一種名為補丁更換的反應性防御。補丁替換試圖通過用合法訓練數據中最相似的鄰居替換可疑輸入(圖像/特征)的補丁,來消除推理中的對抗性影響。即使攻擊者知道補丁替換防御,訓練數據的使用也會增加攻擊的復雜性。由于我們不僅考慮圖像,還考慮網絡的中間特征,因此補丁替換比其他基于輸入轉換的防御更為穩健。一個缺點是在訓練時毒化數據集會給補丁替換策略帶來麻煩。這連接到對抗性后門。
最后,我們給出了結論,并在第 7 章提出了一些觀點。簡而言之,我們在理解對抗性 ML 問題方面的貢獻是 i)在另一個視圖中定義不可見性,并提出一種在我們的定義下產生平滑對抗性擾動的方法; ii) 提出一種算法,以高成功率和低失真快速生成對抗樣本; iii),我們成功地提出了一種不復雜的反應式防御,并在不嚴重降低網絡準確性的情況下提高了對攻擊的魯棒性。
圖 5.8 – ImageNet 上針對 InceptionV3 的原始(左)、對抗(頂行)和縮放擾動(下)圖像。這五幅圖像是需要最強失真的 BP 最差的 5 幅圖像,但這些圖像小于所有其他方法所需的失真(紅色表示偽造的圖像不是對抗性的)。擾動被反轉(低為白色;高為彩色,每個通道)并以相同的方式縮放以進行公平比較。
本書分兩部分,共14章。第1部分(1 - 6章)集中在深度學習的基礎: 編碼框架,基本架構類型,不同組件的術語,以及構建和訓練神經網絡的技術。這些是您可以構建更大更復雜系統的基本工具。然后,在第2部分(7-14章),我們開始添加新的設計選擇或策略。每一章都有助于將深度學習的效用擴展到新類型的任務或問題上,拓寬了我們的范圍,為我們提供了新的工具來調整不同的設計權衡(例如,速度與準確性)。
//www.manning.com/books/inside-deep-learning
**第一部分,“基本方法”,有六個章節:**第一章討論了PyTorch及其工作原理,展示了如何使用這個框架。第二章介紹了最基本的神經網絡類型——全連接網絡——以及如何在PyTorch中編寫訓練任意網絡的代碼。這包括演示一個完全連接的網絡如何與線性模型相關。第三章介紹了卷積以及卷積神經網絡如何在基于圖像的深度學習中占據主導地位。第四章介紹遞歸神經網絡,它們如何編碼順序信息,以及它們如何用于文本分類問題。
第五章介紹了新的訓練技術,可以應用到任何神經網絡,以獲得更高的精度在更短的時間,并解釋了他們如何實現這一目標。
第六章介紹了當今常用的現代設計模式,將您設計神經網絡的知識帶入現代。**第2部分,“構建高級網絡”,有8個章節:**第7章介紹了自動編碼作為一種訓練神經網絡的技術,無需標記數據,允許無監督學習。第8章介紹了圖像分割和目標檢測這兩種技術,你可以使用它們在圖像中找到多個項目。第9章發展了生成對抗網絡,這是一種無監督的方法,可以產生合成數據,是許多現代圖像篡改和深度偽造技術的基礎。第10章教你如何實現注意力機制,這是網絡先驗中最重要的最新進展之一。注意力機制允許深度網絡選擇性地忽略輸入中不相關或不重要的部分。第11章使用注意力構建了開創性的Seq2Seq模型,并展示了如何使用部署在生產系統中的相同方法構建一個英法翻譯器。第12章介紹了一種新的策略,通過重新思考網絡是如何設計的,來避免重復網絡(由于它們的缺點)。這包括轉換器體系結構,它是當前最好的自然語言處理工具的基礎。第13章介紹了遷移學習,一種使用在一個數據集上訓練的網絡來提高在另一個數據集上的性能的方法。這允許使用較少標記的數據,使其成為現實工作中最有用的技巧之一。在書的最后,第14章回顧了現代神經網絡的一些最基本的組成部分,并向您介紹了三種最近發表的技術,大多數實踐者仍然沒有意識到這些技術可以構建更好的模型。
胸部 X 射線 (CXR) 成像是當今放射科最常見的檢查類型。自動疾病分類可以幫助放射科醫生減少工作量并提高患者護理質量。醫學圖像分析在過去十年中經歷了范式轉變,這主要歸功于卷積神經網絡 (CNN) 在許多圖像分類、分割和量化任務中實現超人性能的巨大成功。 CNN 正在應用于 CXR 圖像,但在臨床環境中應用時,高空間分辨率、缺乏具有可靠基本事實的大型數據集以及種類繁多的疾病是重大的研究挑戰。值得注意的是,這些挑戰激發了本論文的新穎貢獻。
本論文對 CNN 的四個主要設計決策進行了系統評估和分析:損失函數、權重初始化、網絡架構和非圖像特征集成。為了利用年齡、性別和視圖位置等信息,提出了一種整合這些信息以及學習圖像表示的新穎架構,并為 ChestXray14 數據集產生了最先進的結果。此外,研究了兩種先進的圖像預處理技術以提高 CNN 的性能:骨抑制(一種從 CXR 中人工去除胸腔的算法)和自動肺野裁剪(一種提高 CNN 輸入分辨率的方法)。兩種方法結合起來略微增加了 OpenI 數據集的平均結果。最后,**開發了一個框架來研究用于智能工作列表優先級的 CNN,是否可以優化放射學工作流程,**并減少 CXR 中關鍵發現的報告周轉時間 (RTAT)。仿真表明,使用 CNN 進行緊急優先級排序可以將氣胸等關鍵發現的平均 RTAT 降低兩倍。總之,對特定的設計決策進行了改進,例如網絡架構、圖像預處理和使用小型數據集進行 CXR 分析的訓練。結果用于證明關鍵發現的平均 RTAT 顯著降低,這可以大大提高患者護理的質量。
在英國,護理質量委員會最近報告說,在過去的 12 個月中,僅亞歷山德拉女王醫院一名訓練有素的放射科專家就沒有對總共 26,345 次胸部 X 光 (CXR) 和 2,167 次腹部 X 光進行正式審查。結果,三名肺癌患者因胸部 X 光檢查未得到適當評估而遭受重大傷害 [Care Quality Commission, 2017]。
圖 2.2:典型的檢查類型,其中兩個對應的胸部 X 射線圖像取自一名患者。 (a) 顯示正面 PA 胸部 X 光片和 (b) 側面胸部 X 線片。在兩張 X 光片中,可以看到解剖結構:(1) 氣管、(2) 鎖骨、(3) 肩胛骨、(4) 肋骨、(5) 心臟、(6) 橫膈膜和 (7) 構成脊柱的椎骨.示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016]。
圖 2.3:基于氣胸的高分辨率和低分辨率胸部 X 光片的比較。 (a) 以 2828 × 2320 像素的全圖像尺寸顯示原始胸部 X 光片。在 (b) 中,顯示了 (a) 的兩個區域,放大了 10 倍。黃色箭頭指向胸膜邊緣,表示氣胸。為了比較,(c) 顯示 (a) 通過雙線性插值縮小到 256 × 256 像素的圖像大小。 (d) 顯示與 (b) 相同的放大區域,胸膜邊緣不再可見。示例圖像取自 OpenI 數據集 [Demner-Fushman et al., 2016] (ID: 3378)。
作為一種診斷工具,醫學成像是近幾十年來醫學領域最具革命性的進步之一。通過提供人體內部的視覺表示,醫學成像可以幫助放射科醫生做出更早、更準確的診斷。因此,可以更有效地治療疾病以提高患者護理質量。多年來,醫學成像在測量速度、空間分辨率和對比度方面都有所提高。擁有這個有用的工具需要有足夠的能力讓專家放射科醫生評估相關數據。我們已經遇到了無法讓放射科醫生審查所有 X 射線圖像的情況 [Care Quality Commission, 2017;皇家放射學院,2018]。隨著各種醫學成像模式產生的數據量不斷增加 [Kesner et al., 2018] 和不斷增長的世界人口 [United Nations DESA, 2019],預計對專家閱讀能力的需求將會增加。在放射科可用的成像方式中,平片是最常見的,而胸部 X 射線是最常見的檢查類型 [Bundesamt für Strahlenschutz, 2020; NHS 英格蘭,2020]。
自動圖像分析工具使放射科醫生能夠顯著減少他們的工作量并提高患者護理質量。早期的方法通常結合手工特征表示和分類器。不幸的是,開發特征提取方法需要大量的領域專業知識,并且通常是一個耗時的過程。然而,深度學習可能會改變這些要求。2012年Krizhevsky 等人[2012] 提出了 AlexNet——一種卷積神經網絡——用于計算機視覺中的圖像分類,并在 ImageNet 挑戰賽中大獲全勝。由于計算能力的提高(即圖形處理單元(GPU)的并行計算)和大量可用數據,這是可能的。這種成功有助于復興神經網絡作為機器學習的一種方法,機器學習是人工智能 (AI) 的一個子領域。在計算機視覺中,深度學習已經證明了它能夠以超人類的準確度分析圖像 [He等人, 2016;Simonyan等人,2015; Szegedy 等人,2014 年;Tan等人,2019]。醫學圖像分析領域正在深入探索深度學習。
以下段落概述了本文的結構,并概述了每一章及其貢獻。第 2 至第 4 章總結了背景信息和重要文獻。然后,第 4 章到第 7 章介紹了為本論文進行的研究。最后,第 8 章以總結和對未來的展望結束了本文。
第 2 章簡要介紹了醫學成像及其自動化分析。此后,對深度學習的胸部 X 射線分析進行了全面回顧。作為深度學習快速發展的最重要推動力之一,我們討論了 ChestX-ray14 [Wang et al., 2017] 和 OpenI [Demner-Fushman et al., 2016] 等開源數據集。隨后討論了由自然語言處理 (NLP) 生成的噪聲注釋以及高分辨率胸部 X 射線數據所帶來的挑戰。最后,我們在當前挑戰的背景下檢查了胸部 X 射線分類的臨床應用。
第 3 章概述了神經網絡的歷史動機和時間順序。解釋了它們的基本元素——人工神經元,并討論了不同類型的激活函數。隨后,解釋了前饋神經網絡的原理以及分類與回歸任務之間的差異。為了計算最佳權重參數變化——并作為神經網絡的更新規則——Rumelhart 等人。 [1986] 提出了反向傳播。最后,本章解釋了梯度下降如何用作神經網絡的優化技術,并概述了該方法在神經網絡優化方面的重大改進。
第 4 章描述了標準前饋神經網絡的主要變化,這些變化導致了深度神經網絡及其在高維信號中的成功應用——尤其是在圖像處理中。解釋了卷積神經網絡作為分層特征提取器的基本理解以及在高維圖像中的應用。為了實現這一點,提出了最先進的網絡架構(例如,卷積、池化和歸一化層)的重要構建塊。當在非常深的網絡中天真地堆疊層時,使用梯度下降進行優化存在梯度爆炸和消失的風險。梯度消失通過殘差連接和密集連接架構來解決——這兩者都允許堆疊額外的層。這種高級模型通常有數百萬個參數需要訓練;因此,它們很容易過度擬合訓練數據。出于這個原因,數據增強通常用于人為地擴大數據集。這也有助于提高神經網絡的泛化性,因為模型對于仿射變換變得不變。訓練模型后,評估其泛化能力和性能非常重要。首先,不同的重采樣方法(例如,k 折交叉驗證或蒙特卡洛子采樣)可以將數據集拆分為訓練測試子集,這有助于泛化評估。其次,使用接收器操作曲線和精確召回曲線等評估指標來量化模型在疾病分類中的性能。
第 5 章深入介紹了不同的訓練方法及其在胸部 X 線疾病分類中的應用。在該領域的先前工作的基礎上,考慮了遷移學習,無論是否進行微調,以及從頭開始訓練專用 X 射線網絡。由于 X 射線數據的高空間分辨率,我們提出了一種經過調整的 ResNet-50 架構,具有更大的輸入尺寸,并與其他模型相比展示了其優越的性能 [Baltruschat et al., 2019c]。由于放射科醫師通常包含比胸部 X 射線更多的信息來進行診斷,因此模型架構會進一步改變,并且引入了一種新模型以包含有助于患者信息采集的非圖像特征。最后,通過使用 Grad-CAM 分析模型,突出了 ChestX-ray14 數據集的局限性。這些發現激發了以下章節的貢獻。
圖 5.5:兩個示例圖像的 Grad-CAM 結果。在頂行中,氣胸的位置用黃色框標記。如旁邊的 Grad-CAM 圖像所示,模型對預測的最高激活位于正確區域內。第二行顯示了一個負例,其中負責最終預測“氣胸”的最高激活位于排水管。排水管標有黃色箭頭。這表明經過訓練的卷積神經網絡將引流檢測為“氣胸”的主要特征。
圖 5.6:本論文中最佳模型與其他組的比較。病理按照所有組的平均 AUROC 增加進行分類。對于本文提出的模型,將所有折疊的最小和最大 AUROC 報告為誤差條,以說明隨機數據集拆分的影響。
第 6 章處理胸部 X 射線數據的標準化,以在小型數據集(即只有幾千個樣本)上進行訓練——OpenI 數據集 [Demner-Fushman 等人,2016 年]。此外,還研究了增加輸入數據分辨率對神經網絡的影響。手動標記的數據集通常具有較小的樣本量——盡管 OpenI 數據集是最大的數據集之一(3,125 張圖像)——這使得從頭開始訓練深度神經網絡變得復雜。作為第一種預處理方法,提出了基于分割和邊界框計算的肺野裁剪。這一步驟大大減少了胸部 X 射線外觀的變化,并提高了它們作為輸入圖像的分辨率,因為縮小的因素也降低了。第二種方法是骨抑制,可以通過從胸部X光片中去除骨骼結構來減少信息疊加。值得注意的是,這兩種方法都有助于提高疾病分類性能 [Baltruschat et al., 2019e]。此外,本章概述了放射科專家為胸部 X 光片生成注釋的過程以及與觀察者間變異性相關的問題 [Ittrich et al., 2018; Steinmeister 等人,2019]。
圖 6.2:肺田間種植方法概述。原始胸部 X 射線圖像 (a) 由中心凹卷積神經網絡處理以生成肺野分割 (b)。 (c) 以紫色顯示計算的兩個最大連接區域周圍的邊界框。在(d)中,由于分割掩碼中的錯誤,藍色區域強調了邊界框的安全區域。 (e) 顯示了最終的裁剪圖像,(f) 顯示了骨抑制和肺野裁剪的組合。
圖 6.3:用于組合高級預處理圖像的集成方法。四個 ResNet50-large 模型在不同的圖像數據上進行了訓練:原始、軟組織、肺野裁剪 (LFC) 和使用 LFC 的骨抑制 (BS)。每個模型預測了測試集 Ntest 中五個裁剪圖像(即中心和所有四個角)的分數,具有八個類別。此后,對所有模型的預測分數進行平均,以獲得最終的多標簽分類結果。
圖 6.6:正常訓練模型 (a) 和使用預處理圖像訓練的模型 (b) 的 Pearson 相關系數。正常模型之間的相關性已經很高,除了模型“Normal-2”,它似乎收斂到不同的最優值。使用預處理圖像訓練的模型具有較低的相關性(大約 92%)。這表明(b)中顯示的模型的集合可以對分類性能產生更大的影響。
第 7 章介紹了將深度學習的疾病分類轉化為特定的臨床應用。在獲得胸部 X 光片后,通常會將它們分類到工作清單中。根據每個放射科的工作流程,該工作清單按采集時間或手動優先級標簽進行排序,并且在很大程度上,放射科醫生按順序處理他們的工作清單項目。因此,工作清單只按照先進先出的原則進行處理。一種最先進的胸部 X 光疾病分類算法可以自動分配優先級標簽,這可以大大改善工作列表的排序。本章介紹了一種用于模擬臨床工作日的新穎模擬框架,它突出了自動優先工作列表的效果。該框架使用來自漢堡-埃彭多夫大學醫學中心的經驗數據,可以模擬一個臨床工作日,其中包括胸部 X 射線生成過程、胸部 X 射線的自動疾病分類以及放射科醫師生成最終報告所需的時間 [ Baltruschat 等人,2020b]。值得注意的是,使用了第 5 章和第 6 章中提出的用于胸部 X 線疾病分類的改進方法。
圖 7.6:報告所有八種病理結果和正常檢查的周轉時間 (RTAT),基于四種不同的模擬:FIFO(綠色)、Prio-lowFNR(黃色)、Prio-lowFPR(紫色)和 Prio-MAXwaiting(紅色),最長等待時間(淺紫色)。綠色三角形標記平均 RTAT,而垂直線標記中值 RTAT。每個 simu 的最大 RTAT。
第 8 章總結了論文及其主要貢獻。它還提出了本文提出的新問題。
圖 8.1:來自中心靜脈導管數據集的示例圖像。原始圖像 (a) 顯示在左側,相應的分割結果 (c) 顯示為右側的疊加層。藍色代表心臟,綠色代表肺,青色代表鎖骨,棕色突出導管。
盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。
在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。
其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。
在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
圖像分類、目標檢測與跟蹤、姿態估計、人臉識別和情感估計在解決計算機視覺問題中都起著重要的作用。
本書將重點介紹這些和其他深度學習架構和技術,以幫助您創建使用Keras和TensorFlow庫的解決方案。您還將回顧多種神經網絡架構,包括LeNet、AlexNet、VGG、Inception、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLO和SqueezeNet,并通過最佳實踐、技巧、捷徑和陷阱了解它們如何與Python代碼一起工作。所有代碼片段都將被分解并進行詳細討論,以便您可以在各自的環境中實現相同的原則。
使用深度學習的計算機視覺提供了一個全面而簡潔的指南,將DL和CV結合在一起,實現自動化操作,減少人工干預,提高能力,并降低成本。
你會:
不久前,計算機視覺還只是科幻小說的專屬內容,但現在,即使不是在整個社會,也正迅速成為各行各業的普遍現象。人類視覺是人類感官中最珍貴的一種,在模仿人類視覺這一領域取得的進展令人驚嘆。直到1957年,拉塞爾·基爾希才掃描出了世界上第一張照片——他兒子的黑白照片。到20世紀80年代末,西羅維奇和柯比的工作幫助人臉識別成為一種可行的生物識別技術。盡管存在隱私問題和法律挑戰,但Facebook在2010年將人臉識別技術納入其社交媒體平臺時,使這項技術無處不在。
這本書試圖解釋計算機視覺問題的深度學習和神經網絡的概念。我們正在詳細研究卷積神經網絡,以及它們的各個組成部分和屬性。我們正在探索各種神經網絡架構,如LeNet, AlexNet, VGG, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO, ResNet, Inception, DeepFace,和FaceNet的細節。我們還在開發實用的解決方案,以解決二值圖像分類、多類圖像分類、目標檢測、人臉識別和視頻分析的用例。我們將使用Python和Keras作為解決方案。所有的代碼和數據集被檢入GitHub repo快速訪問。在最后一章中,我們將學習深度學習項目中的所有步驟——從定義業務問題到部署。我們還在處理在制定解決方案時面臨的重大錯誤和問題。在這本書中,我們提供了訓練更好的算法的技巧和技巧,減少訓練時間,監測結果,并改進解決方案。我們也分享代表性的研究論文和數據集,你應該使用它們來獲得進一步的知識。
這本書把這個主題分成三部分。在第1章到第4章,本書描述了神經網絡的本質和揭秘他們如何學習。并指出了不同的架構及其歷史意義。實踐者在擁有所有所需資源的情況下,可以體驗到LeNet優雅的簡單性、AlexNet提高的效率以及流行的VGG Net。在第5至7章,從業人員運用簡單而強大的計算機視覺應用,如訓練算法來檢測物體和識別人臉。在進行視頻分析時,我們遇到了漸變消失和爆炸的困擾問題,以及如何在ResNet架構中使用跳過連接來克服它。最后,在第8章中,我們回顧了完整的模型開發過程,從正確定義的業務問題開始,系統地推進,直到模型在生產環境中部署和維護。
基于協同過濾(CF)的潛在因素模型(LFM),如矩陣分解(MF)和深度CF方法,由于其良好的性能和推薦精度,在現代推薦系統(RS)中得到了廣泛的應用。盡管近年來取得了巨大的成功,但事實表明,這些方法易受對抗性例子的影響,即,這是一種微妙但非隨機的擾動,旨在迫使推薦模型產生錯誤的輸出。這種行為的主要原因是,用于LFM訓練的用戶交互數據可能會受到惡意活動或用戶誤操作的污染,從而導致不可預測的自然噪聲和危害推薦結果。另一方面,研究表明,這些最初設想用于攻擊機器學習應用程序的系統可以成功地用于增強它們對攻擊的魯棒性,以及訓練更精確的推薦引擎。在這方面,本調查的目標有兩方面:(i)介紹關于AML-RS的最新進展,以保障AML-RS的安全性。(ii)展示了AML在生成對抗網絡(GANs)中的另一個成功應用,生成對抗網絡(GANs)使用了AML學習的核心概念(即用于生成應用程序。在這項綜述中,我們提供了一個詳盡的文獻回顧60篇文章發表在主要的RS和ML雜志和會議。這篇綜述為RS社區提供了參考,研究RS和推薦模型的安全性,利用生成模型來提高它們的質量。
數據科學和人工智能是令人著迷的計算領域。微軟在這些新技術上下了很大的賭注,但我們也知道,數據科學家都是訓練有素的專業人士,并不是每個軟件開發人員都能創建和維護復雜的數據模型,執行線性代數或購買昂貴的GPU設備來運行這些模型。這正是我們創造認知服務的原因。這套服務提供了預訓練模型,您可以使用開箱即用的模型來執行視覺、語音、知識、搜索和語言方面的操作。在本次會議上,微軟的云開發者倡導者Laurent Bugnion將向您展示如何使用認知服務增強應用程序的高級功能,如何使用自己的數據細化訓練過的模型,以及如何將認知服務與其他Azure服務集成以實現任務自動化。
隨著高計算設備的發展,深度神經網絡(DNNs)近年來在人工智能(AI)領域得到了廣泛的應用。然而,之前的研究表明,DNN在經過策略性修改的樣本(稱為對抗性樣本)面前是脆弱的。這些樣本是由一些不易察覺的擾動產生的,但可以欺騙DNN做出錯誤的預測。受圖像DNNs中生成對抗性示例的流行啟發,近年來出現了針對文本應用的攻擊DNNs的研究工作。然而,現有的圖像擾動方法不能直接應用于文本,因為文本數據是離散的。在這篇文章中,我們回顧了針對這一差異的研究工作,并產生了關于DNN的電子對抗實例。我們對這些作品進行了全面的收集、選擇、總結、討論和分析,涵蓋了所有相關的信息,使文章自成一體。最后,在文獻回顧的基礎上,我們提出了進一步的討論和建議。