摘要
醫學圖像的計算機分析研究為改善病人的健康帶來了許多希望。然而,一些系統性的挑戰正在減緩該領域的進展,從數據的局限性(如偏差)到研究激勵(如優化出版)。在這篇文章中,我們回顧了開發和評估方法的障礙。根據來自文獻和數據挑戰的證據,我們的分析表明,在每一步中,潛在的偏見都可能滲入。我們還積極地討論了目前為解決這些問題所作的努力。最后,對今后如何進一步解決這些問題提出了建議。
引言
作為當今人工智能(AI)革命的基石,機器學習通過醫學圖像為臨床實踐帶來了新的承諾。例如,在根據醫學圖像診斷各種疾病時,機器學習的表現與醫學專家不相上下。軟件應用程序開始被認證用于臨床。機器學習可能是實現幾十年前在醫學領域勾勒出的人工智能愿景的關鍵。風險很高,關于醫學圖像的機器學習的研究數量驚人。但這種增長并不必然導致臨床進展。更高的研究量可以與學術動機相結合,而不是臨床醫生和患者的需要。例如,可能有大量的論文顯示了基準數據的最先進性能,但對臨床問題沒有實際的改善。關于機器學習治療COVID的話題,Robert等人回顧了62項已發表的研究,但沒有發現有臨床應用潛力。
在這篇論文中,我們探索了提高機器學習在醫學成像中的臨床影響的途徑。在概述了情況后,在章節中記錄了不平衡的進展,這并不全是關于更大的數據集,我們研究了醫學影像論文中經常出現的一些失敗,在“出版生命周期”的不同步驟: 使用什么數據,使用什么方法和如何評估它們,以及如何發布結果。在每個部分,我們首先討論問題,支持從以前的研究證據以及我們自己的分析最近的論文。然后,我們討論了一些改善這種狀況的步驟,有時借鑒了相關社區的做法。我們希望這些想法將有助于塑造研究實踐,從而更有效地解決現實世界的醫學挑戰。
大型標記數據集的可用性使得解決困難的機器學習問題成為可能,例如計算機視覺中的自然圖像識別,其中數據集可以包含數百萬張圖像。因此,人們普遍希望在醫療應用領域也能取得類似的進展,算法研究最終應該能夠解決一個臨床問題,即判別任務。然而,醫療數據集通常較小,在數百或數千個量級: 共享一個由16個“大型開源醫療成像數據集”組成的列表,規模從267到65,000個受試者不等。請注意,在醫學成像中,我們指的是受試者的數量,但一個受試者可能有多個圖像,例如,在不同的時間點拍攝的圖像。為了簡單起見,我們假設診斷任務為每個受試者提供一張圖像/掃描。很少有臨床問題會像能夠被自然地框定為機器學習任務的恰當的判別任務那樣。但是,即使是這些,更大的數據集也不能帶來希望的進展。一個例子是阿爾茨海默病(AD)的早期診斷,由于人口老齡化,這是一個日益增長的健康負擔。早期診斷將打開早期干預的大門,這最有可能是有效的。大量的研究工作已經獲得了有患AD風險的老年人的大量腦成像群組,利用機器學習可以開發早期的生物標志物。因此,應用機器學習開發計算機輔助診斷AD或其前身輕度認知障礙的典型樣本量穩步增加。這種增長在出版物中清晰可見,如圖1a,一項薈萃分析匯編了來自6篇系統綜述的478篇研究。
對6篇綜述論文進行元分析,涵蓋500多篇獨立論文。機器學習問題通常被描述為區分各種相關的臨床狀況,阿爾茨海默病(AD)、健康控制(HC)和輕度認知障礙,這可能是阿爾茨海默病的前驅癥狀。從臨床角度來看,區分進行性輕度認知障礙(pMCI)和穩定性輕度認知障礙(sMCI)是最相關的機器學習任務。
然而,數據量的增加(最大的數據集包含超過1000名受試者)并沒有帶來更好的診斷準確性,特別是在最相關的臨床問題上,區分具有阿爾茨海默病前驅癥狀的患者的病理與穩定進化(圖1b)。相反,樣本量較大的研究往往報告較差的預測精度。這令人擔憂,因為這些更大的研究更接近現實生活。另一方面,跨時間的研究工作甚至在大型異質性隊列中也確實帶來了改善(圖1c),因為后來發表的研究顯示了大樣本量的改善(補充信息中的統計分析)。目前的醫學成像數據集比那些為計算機視覺帶來突破的數據集要小得多。雖然無法對大小進行一對一的比較,因為計算機視覺數據集有許多變化較大的類(與醫學成像中變化較小的少數類相比),但要在醫學成像中實現更好的泛化,可能需要組裝大得多的數據集,同時避免由機會主義數據收集造成的偏見,如下所述。
數據集可能是有偏見的
現有的數據集只能部分反映特定醫療條件的臨床情況,導致數據集存在偏差。例如,作為人口研究的一部分收集的數據集可能與轉診到醫院治療的人具有不同的特征(疾病發病率較高)。由于研究者可能不知道相應的數據集偏差是可能導致重要的研究缺點。當用于構建決策模型的數據(訓練數據)與應用它的數據(測試數據)的分布不同時,數據集就會出現偏差。為了評估與臨床相關的預測,測試數據必須與實際目標人群匹配,而不是與訓練數據一樣是同一個數據池的隨機子集,這是機器學習研究中的常見做法。由于這種不匹配,在基準測試中得分高的算法在現實場景中的表現可能很差。在醫學成像中,數據集偏差已在胸部x光片、視網膜成像、大腦成像、組織病理學或皮膚病學中得到證實。通過跨不同來源的數據集訓練和測試模型,并觀察不同來源的性能下降,可以揭示這些偏差。
數據集的可用性扭曲了研究
我們展示了肺癌(藍色)和乳腺癌(紅色)的論文占兩個領域所有論文的百分比:醫學腫瘤學(實線)和人工智能(虛線)。關于論文如何選擇的細節在補充信息中給出)。這一比例相對穩定,但人工智能的肺癌患病率在2016年之后有所上升。
數據集的可用性會影響對哪些應用進行更廣泛的研究。一個顯著的例子可以在腫瘤學的兩個應用中看到: 檢測肺結節和在放射學圖像中檢測乳腺腫瘤。
讓我們建立對數據局限性的認識
解決這些由數據引起的問題需要對數據集的選擇進行判別性思考,在項目級別,即選擇哪些數據集進行研究或挑戰,在更廣泛的級別,即我們作為一個社區使用哪些數據集。
社會對人工智能(AI)的信任以及可信任的人工智能系統和生態系統的發展,對于人工智能技術在醫學領域的進步和實施至關重要。隨著人工智能在各種醫療和成像應用領域的應用日益廣泛,使這些系統更加可靠和值得信賴變得比以往任何時候都重要。本文考慮了14個核心原則,旨在將針更接近于準確、有彈性、公平、可解釋、安全和透明的系統:面向可信的AI。 //pubmed.ncbi.nlm.nih.gov/34809860/ 問題不再是人工智能(AI)是否會影響醫學的未來,而是“由誰、如何、在何處以及何時感受到這種有益或有害的影響”。基于人工智能的新技術和增強技術的發展速度正在加快,并滲透到每個行業。人工智能在改善人類生活和我們周圍的環境方面有著巨大的潛力;但是,我們必須小心地向前走,以便認識到它提供的機會和避免潛在的陷阱。
智能手機和可穿戴設備的廣泛采用導致了豐富數據集的積累,這有助于以從未有的細節理解行為和健康。與此同時,機器學習,特別是深度學習在各種預測任務中取得了令人矚目的表現,但它們在時間序列數據上的使用似乎具有挑戰性。由于噪聲、稀疏性、行為的長尾分布、缺乏標簽和多模態,現有模型難以從這種獨特類型的數據中學習。本論文通過開發新模型來解決這些挑戰,這些模型利用多任務學習進行準確預測,多模態融合來改進種群子類型,以及自我監督來學習廣義表示。我們將我們提出的方法應用于通過傳感器數據預測心理健康和心肺健康的現實世界任務。
首先,我們研究從智能手機(運動和背景音頻)收集的被動數據與瞬時情緒水平的關系。我們的新訓練管道將不同的傳感器數據結合到低維嵌入中,并將縱向用戶軌跡聚類為結果,優于僅基于心理學問卷的傳統方法。其次,由于情緒不穩定作為心理健康狀況不佳的預測因素,我們提出了用于時間序列預測的編碼器 - 解碼器模型,該模型利用多任務學習的情緒雙模態。
接下來,受視覺和語言任務中通用模型成功的推動,我們提出了一種自我監督的神經網絡,可用作可穿戴數據的特征提取器。為此,我們將心率響應設置為活動數據的監督信號,利用它們潛在的生理關系,并表明由此產生的與任務無關的嵌入可以泛化通過遷移學習(例如 BMI、年齡、能量)預測結構不同的下游結果支出),優于無監督自動編碼器和生物標志物。最后,承認健康狀況是整體健康的一個強有力的預測指標,然而,這只能用昂貴的儀器(例如,最大攝氧量測試)來測量,我們開發了能夠準確預測當前可穿戴設備的細粒度健康水平的模型,更重要的是,近十年后它的方向和規模。
所有提出的方法都在大型縱向數據集上進行評估,有成千上萬的參與者。本論文中開發的模型和得出的見解為更好地理解高維行為和生理數據提供了證據,這些數據對大規模健康和生活方式監測具有重要意義。
計算機和數據已經改變了我們獲取信息的方式、我們的交流方式以及我們對科學的思考方式。大型數據集的管理已經徹底改變了許多領域,實現了幾十年前無法想象的規模(Aad等人, 2012)。但是孤立的數據是沒有意義的;我們的努力應該有針對性地提取影響決策并最終改善生活的可行見解和知識。
健康數據是直接改變生活的最佳選擇。我們處理這些數據的方式的進步可以改變我們的社會。盡管絕大多數醫學研究都研究臨床數據(實驗室、影像學、生命體征等),但普通人每年只看醫生大約 5 次(Kim 等人,2014 年)。另一方面,可穿戴傳感和移動計算的最新進展以及它們的廣泛采用,為在實驗室和醫院環境之外以縱向方式收集健康和福祉數據創造了新途徑。除了“填補”傳統臨床數據的空白外,這些設備還為大規模生活方式監測開辟了新的研究和商業方向。例如,全球數百萬人使用此類設備來跟蹤他們的身體活動和睡眠,并具有越來越復雜的預測能力(Althoff 等人,2017 年)。
與此同時,看似完全不同的力量,如成熟的開源科學軟件庫、更容易的數據眾包和標簽,以及專用硬件(顯卡)的再利用,都使預測建模得到了顯著改進。許多機器學習 (ML) 任務都取得了令人印象深刻的性能,從圖像中的對象識別(He 等人,2016 年)到在圍棋、雅達利和國際象棋游戲中贏得最佳玩家(Schrittwieser 等人,2020 年) ,或在乳腺癌篩查方面表現優于專家(McKinney 等人,2020 年)。在所有這些案例中,共同點是管理高質量的大型數據集,這些數據集允許模型利用潛在模式并隨后在現實世界中進行泛化(Hyland 等人,2020 年)。然而,尤其是在錯誤預測可能產生嚴重后果的健康領域,此類系統的推出和采用遭到了抵制(Davenport 和 Kalakota,2019 年)。相反,在線服務、社交網絡或流媒體服務等低誤報成本和高數字化率的領域,不僅接收機器學習,而且積極推動研究界進一步發展計算機視覺和自然語言領域發展。
類似于社交網絡如何學習我們的在線行為,可穿戴設備和移動設備監控我們在現實世界中的活動。通過跟蹤我們的睡眠、步數、飲食和工作習慣,他們可以全面了解我們日常健康中最重要的組成部分(世界衛生組織,2002 年),然而現在只有通過調查才有可能。盡管我們認識到此類數據集的價值,但機器學習在健康和移動傳感方面的進展并沒有跟上其他領域的步伐。例如,在過去十年中,Fitbit 或 iPhone 等設備一直在以前所未有的時間分辨率收集多模式傳感器數據。然而,有效利用這些數據集帶來了許多挑戰,導致這些數據在科學和醫學研究中經常被忽視。此外,在這個粒度上獲得高質量注釋和基本事實可能是昂貴的,甚至是不可能的。需要新的計算方法來應對這些挑戰,本論文試圖彌合其中的一些差距。
盡管檢測和了解心理和身體健康的波動很重要,但醫生和研究人員仍受到一個關鍵限制的阻礙:缺乏可靠和有意義的數據。大多數已建立的研究和臨床實踐都是基于紙筆書面的自我報告和調查,雖然在沒有替代方案的情況下很有價值,但它們會受到偏見并且經常提供不完整的信息(Brenner 和 DeLamater,2014 年)。
個人可能不準確地回憶起他們的行為,報告他們習慣的理想化版本或它們的某種組合。先前的研究發現,自我報告的身體活動存在報告偏差,這源于社會期望偏差(報告被視為社會期望的行為),以及精確報告身體活動行為的強度、持續時間和頻率的認知復雜性(Sallis and Saelens,2000)。此外,對自我報告行為的理解僅限于向研究參與者提供的特定問題集。這些可能不足以反映復雜行為的完整視圖。報告錯誤導致的不準確可能隨機分布在所研究的人群中。這些錯誤也可能是系統性的,不同人群中的參與者系統地低于或過度報告他們的活動水平。這可能導致錯誤關聯的識別。
與身體健康類似,偏見會以更微妙的方式影響心理健康研究。被要求報告他們的情緒水平或測試抑郁癥的患者可能會被自我強化循環中的問題內容觸發,這可能弊大于利(Labott 等人,2013 年)。為了減少對使用自我報告身心健康測量研究中的偏見擔憂,應盡可能根據金標準測量或客觀測量對問卷進行驗證。來自移動設備的數據可以結合兩者:由于推送通知,自我報告總是帶有時間戳和上下文,而被動傳感器可以不顯眼地客觀地監控行為。
在大多數領域,科學家的典型工作流程涉及解釋數據集方差的綜合變量。直到最近,這個過程的特點是精細的特征工程,以便構建能夠區分某些類別的信息特征(在分類的情況下)。現在,深度神經網絡可通過學習潛在特征作為優化過程的另一作用以及實現最先進的結果(LeCun等人, 2015)來自動化這項任務。這對于移動傳感數據更為重要(圖 1.1 展示了移動傳感器數據的典型機器學習工作流程示意圖)。
圖 1.1:機器學習工作流的生命周期。處理來自個人設備的數據時遵循的迭代步驟。本論文對應用于整個生命周期的方法做出了貢獻,特別關注新穎的特征提取和表示方法,以及推廣到以縱向方式收集的新數據。
來自加速度計、心電圖 (ECG)、陀螺儀和麥克風等常見傳感器的數據通常表示為高維時間序列 (Lane等人, 2010)。與其他數據類型不同,這些傳感器測量是有噪聲的,盡管在小規模研究中人工設計的特征已被證明是有效的(Wang等人, 2014),但要為個人用戶行為的不同噪聲水平選擇魯棒的特征并不簡單。移動測量中的噪聲很難建模,因為它與時間相關 (Park, 2004) 并呈現非線性結構 (Ang et al., 2007)。除了噪聲之外,建模傳感器數據的挑戰還延伸到不同的稀疏程度(Abedin 等人,2019;Ghassemi 等人,2015)、無法獲得高質量注釋和標簽(Bulling 等人,2014)以及異構數據類型(Radu 等人,2018 年),與已建立的基準任務中使用的類型不同。
描述這些挑戰的說明性場景可能是個人在洗澡時摘下智能手表。手表的光傳感器可能會從遠處的表面反射,從而記錄錯誤的心率(噪音);非磨損期會產生不規則的采樣數據,這些數據必須用預期的傳感器值(稀疏性)進行估算;用戶不太可能在分鐘級別注釋此事件或其他事件(標簽稀缺性)。此外,當最終佩戴時,運??動傳感器和心臟傳感器對壓力等外部刺激(多模態)的反應會有所不同(Bent 等人,2020 年)。
尺度也不同。大型縱向研究,如 UK Biobank (Doherty等人, 2017)、Apple Study (Perez等人, 2019)、Fenland Study (O'Connor等人, 2015)、Utsureko (Suhara等人, 2017) ) 和 EmotionSense (Servia-Rodr′?guez等人, 2017) 一直在使用可穿戴傳感器監測數萬名參與者的身心健康。例如,超過 200000 名 Fitbit 用戶的靜息心率升高被用于預測美國的流感樣疾病(Radin 等人,2020 年)。然而,諸如廣義線性混合模型之類的統計方法對具有重復測量的縱向數據進行操作(例如,單個用戶出現多天),無法擴展到該數量的受試者(Zhang等人, 2016)。此外,鑒于之前的移動健康研究是通過受控實驗和有限數量的參與者進行的(Sano,2016;Jaques 等,2017;LiKamWa 等,2013),尚不清楚之前的發現和方法是否可以轉移到這些大型數據集。此外,缺乏對參與的嚴格控制以及促進參與的有限機制,使得收集的數據更難以解釋。
可以說,這里的潛在挑戰是表示。機器學習試圖找到有意義的表示,將數據轉換為線性可分的空間并區分語義類。從捕獲圖像數據集結構的卷積網絡的低維嵌入 (LeCun等人, 2015) 到最近通過預測輸入數據的失真樣本來學習更好特征的自監督網絡,它已經走了很長一段路(Devlin等人,2019)。但是了解多感官測量如何跨時間相互關聯意味著構建個人健康狀態的表示。本論文認為,未來健康機器學習的一些基本組成部分將是多任務處理、遷移學習和預測。我們現在知道,執行多項任務的模型不僅更有用,而且還使每個單獨的任務更加魯棒(Kaiser等人, 2017)。此外,能夠推理未來的模型可以更好地跨不同環境遷移(Chen等人, 2021)。因此,我們需要模型來通過改進數據表示來解決這些挑戰,該表示利用跨傳感器關系并盡可能少地依賴手動注釋。
我們回顧了移動健康機器學習改進帶來的一些潛在好處,采用傳統方法時會出現哪些限制,以及在處理含噪的傳感器數據時會遇到哪些挑戰。形式上,總體目標可以表述為:改進機器學習方法,用于由消費者移動和可穿戴設備生成的動態和靜態、多任務和有限監督的觀察、回顧和縱向數據,用于最終目標是改善健康和福祉,重點是心理和身體健康。我們通過首先評估現有方法在大規模身心健康數據集上的潛力,然后提出優于當前方法或提供新見解的新模型來證實這一說法。我們的方法利用并擴展了多模態融合、多任務學習、時間序列預測、遷移學習和自我監督學習的范式。特別是,本論文解決了以下四個研究問題:
? 研究問題1。我們如何使用機器學習將被動傳感器時間序列與傳統的用戶級元數據相結合,以區分集群用戶軌跡?
? 研究問題2。多任務學習和編碼器-解碼器模型在多步時間序列預測中的效果如何?
? 研究問題3。我們如何訓練具有自我監督的通用神經網絡來利用大量未標記的時間序列數據?
? 研究問題4。我們如何使用深度學習對自由生活的可穿戴傳感器數據進行長期心肺健康預測?
為了解決這些問題,我們開發了可以融合時間序列和表格數據的模型,以及能夠準確預測心理健康的序列模型。此外,我們設計了新穎的自我監督任務,利用大量未標記的時間序列數據,并提出了新模型,以使用自由的生活傳感器數據來預測健康水平。
在方法方面,我們將深度學習模型定制為未標記的時間序列。在應用領域,我們采用機器學習方法來應對身心健康領域的挑戰性任務。我們將從第 2 章介紹序列數據深度學習的背景開始,然后介紹延伸到本文其余章節的四個主要貢獻,如下所示:
貢獻 1:用于大規模情緒預測的多模態機器學習
在第 3 章中,我們展示了心理特征與被動收集的感知數據(加速度計的活動和麥克風的噪聲水平)相結合,可以檢測出一般情緒偏離普通放松的個體特征。我們使用來自 EmotionSense 研究的數據驗證了我們的方法,該研究是在野外收集的一個大型移動應用程序數據集,有 17,251 名參與者,發現這些模式的組合實現了最佳分類性能,并且被動感知的準確性提高了 5%。這項研究背后的主要動機是,經驗抽樣已被提出作為一種監測心理健康的機制,但它需要用戶的關注,因此會導致相當大的保留問題。我們研究是否可以使用被動感知和一次性調查來識別放松和不放松的用戶,并通過擴展來不顯眼地監測心理健康。
建議的方法包括兩個步驟。首先,使用標準算法(如 k-means)對歷史情緒軌跡(特征提取后)進行聚類,以找到具有相似軌跡的用戶組。其次,將用戶分類到找到的集群中。我們的管道采用特征選擇、降維和分??類算法,例如梯度提升樹和深度神經網絡。
實驗結果表明,通過在個性和人口統計調查中加入被動感知,我們可以更準確地預測個人用戶的情緒群體。當使用每周傳感器(加速度計和麥克風)和一次性問卷數據作為輸入時,我們的模型實現了 75% 的 AUC。我們討論了這種多模態數據的特征提取技術和適當的分類器,以及在處理靜態和動態特征時深度神經網絡的過擬合缺點。這些發現可能對移動健康應用程序產生重大影響,這些應用程序可以受益于被動傳感的正確建模以及額外的用戶元數據。
貢獻 2:用于情緒時間序列預測的多任務和序列學習
在第 4 章中,我們提出了一個端到端的編碼器-解碼器模型,用于從之前的自我報告的情緒中預測未來情緒的序列。我們的結果表明,多任務同時學習情緒的兩個維度,這比單個模型或基線更準確。此外,繪制神經激活圖有助于我們了解情緒的潛在軌跡,以及事后錯誤分析確定模型在用戶個性、情緒變化或星期幾方面的表現存在顯著差異。這項研究背后的主要動機是心理學家主要使用筆和紙調查來跟蹤心理健康,這與移動應用程序不同,容易產生回憶偏差。在更技術方面,我們表明當前的心理健康機器學習模型不能提供長期預測,也不能從時間序列中學習復雜的模式。
所提出的方法依賴于端到端長短期記憶 (LSTM) 編碼器-解碼器模型。該序列通過一個 LSTM,被轉換為單個向量,并通過另一個預測未來序列的 LSTM 進行解碼。此外,在處理健康數據時,模型的可解釋性總是很重要,因此我們分析了訓練模型各層的作用。隨著我們進入更深層次,我們看到網絡展示了積極和消極情緒的連續統一體,盡管它已經被訓練為僅預測情緒。此外,通過檢查解碼器的單個神經元,我們觀察到一些神經元幾乎總是以相同的斜率發射,而另一些則更保守,幾乎是平線。這有助于我們識別情緒演變的不同亞型。
在這里,我們再次使用來自 EmotionSense 研究的數據,但是,這次我們只使用了自我報告的情緒序列。我們的結果表明,3 周是情緒報告的最佳窗口,驗證了之前關于抑郁癥預測的研究。此外,我們的模型優于機器學習回歸器和簡單基線,而多任務學習似乎有助于預測警覺性(兩個情緒維度之一)。我們相信這項工作為心理學家和未來移動心理健康應用程序的開發人員提供了一種即用型且有效的工具,用于大規模早期診斷心理健康問題。
貢獻 3:來自自由生活可穿戴數據的生理表征的自監督遷移學習
在第 5 章中,我們開發了一種新穎的自監督通用神經網絡,該網絡將活動數據映射到心率響應,并可用作特征提取器可穿戴數據。它的功能可用于根據用戶獨特生理進行個性化的各種實際下游任務,并且該模型在通過消融研究評估的上游和下游任務中優于一組強大的基線。
對于預訓練,我們引入了一個聯合損失函數,它通過使用模型的預測密度的分位數來作為傳統均方誤差的正則化器,以逼近 HR 數據的長尾,這是現實中普遍存在的問題-世界(健康)數據。在那里,我們表明,包括單一的靜息心率測量具有顯著影響,并且結合時間戳的循環建模,在自由生活條件下實現了 ~9 BPM 的最低誤差。
在下游,我們通過將窗口級特征聚合到用戶級特征來執行一組下游遷移學習任務,并通過在推斷生理上有意義的變量、優于自動編碼器和常見生物標志物方面的強大性能展示學習嵌入所捕獲的價值。例如,我們的模型實現了體重指數 (BMI) 預測的 AUC 為 0.70,體育活動能量消耗的 AUC 為 0.80。通過檢查嵌入,我們還注意到大多數結果隨著潛在維度的增加而改善,而有些結果對其大小保持不變。
我們使用最大的多模式可穿戴心電圖和腕部加速度測量數據集 Fenland 研究評估該模型,包括跟蹤一周的 1,700 多名參與者,以及使用臨床實驗室設備測量的相關健康結果。我們執行消融測試以顯示不同模式和架構組件的性能。總體而言,我們提出了一種用于行為和生理數據的多模態自我監督方法,對大規模健康和生活方式監測具有重要意義。
貢獻 4:使用深度學習從自由生活可穿戴設備預測適應性心肺健康
在第 6 章中,我們利用可穿戴數據和常見生物標志物開發深度學習模型,以預測健康的黃金標準(VO2max),并實現與其他產品相比的強大性能傳統方法。
心肺健康是代謝疾病和死亡率的公認預測指標。健康狀況直接測量為最大耗氧量 (VO2max),或使用對標準運動測試的心率反應進行間接評估。然而,這種運動測試成本高且繁重,限制了其在醫療保健和大規模人口研究中的實用性。也可以使用 RHR 和自我報告的鍛煉習慣來近似健身,但與基于動態數據的估計相比,準確性較低。現代可穿戴設備捕獲非標準化動態數據,可以改善健康預測。
在這里,我們使用更大的 Fenland 研究隊列,并分析來自一項人口研究的可穿戴傳感器在自由生活條件下的運動和心率信號,該研究包括 11,059 名參與者,這些參與者也接受了標準運動測試。我們開發了一個深度神經網絡模型,該模型利用傳感器信息來預測 VO2max,與保持樣本中的基本事實相比,產生 r = 0.82 [CI 0.80-0.83] 的 Pearson 相關性。該模型使用正常日常生活的測量結果優于傳統的非運動健身模型和傳統的生物標志物,無需進行特定的運動測試。此外,我們展示了這種方法在檢測 7 年后重復測量的縱向子樣本 (n = 2,675) 中隨時間變化的適應度變化的適應性和適用性。我們在當前和未來適應度之間的差異(delta)中評估模型的推理能力。對于最后一項任務,模型產生的結果轉化為預測的 delta 和真實 VO2max 的 delta 之間的 0.57 相關性。最后,該模型產生的潛在表征為大規模的健身意識監測和干預鋪平了道路。
本論文的最后一章(第 7 章)反映了前幾章提出的新見解和結果,并概述了局限性以及潛在的未來研究方向。
人工智能在提高醫療保健質量、實現疾病早期診斷和降低成本方面具有巨大潛力。但如果實施不慎,人工智能會加劇健康差距,危及患者隱私,并使偏見長期存在。 STAT 在英聯邦基金的支持下,在過去一年半的時間里探索了這些可能性和陷阱,闡明了最佳實踐,同時發現了關注點和監管差距。本報告包括我們發表的許多文章并總結了我們的發現,以及我們從護理人員、醫療保健管理人員、學術專家、患者倡導者和其他人那里聽到的建議。它由 STAT 的 Erin Brodwin 和加州衛生技術通訊員 Casey Ross 共同撰寫。
在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇。首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用。
圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。
圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。
未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。
近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。
本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。
本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇。
在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。
算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。
大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。
對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。
雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。
總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。
圖:實驗裝置概述
圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。
【作者簡介】
Solon Barocas:微軟研究紐約實驗室首席研究員,康奈爾大學信息科學系兼職助理教授,哈佛大學伯克曼·克萊因互聯網與社會中心教員助理。目前的研究探索了人工智能中的倫理和政策問題,特別是機器學習中的公平性,將問責制引入自動化決策的方法,以及推理的隱私影響。與人共同創辦了機器學習中的公平、問責和透明度研討會(FAT/ML),建立了ACM的公平、問責和透明度會議(FAccT)。
Moritz Hardt:加州大學伯克利分校電氣工程和計算機科學系的助理教授。研究算法和機器學習,重點關注可靠性、有效性和社會影響。在獲得普林斯頓大學計算機科學博士學位后,他曾在 IBM Research Almaden、Google Research 和 Google Brain 任職。
Arvind Narayanan:普林斯頓大學計算機科學副教授。研究與有關人員的大型數據集相關的風險:匿名、隱私和偏見。領導普林斯頓網絡透明度和問責制項目,以揭示公司如何收集和使用我們的個人信息。博士研究表明了去識別化的基本局限性。共同創建了一個大規模開放在線課程以及一本關于比特幣和加密貨幣技術的教科書。Narayanan 是總統科學家和工程師早期職業獎的獲得者。
【書稿簡介】
這本書給出了一個關于機器學習的觀點,它將公平視為一個核心問題,而不是事后的想法。我們將以突出道德挑戰的方式回顧機器學習的實踐。然后,我們將討論緩解這些問題的方法。 我們的目標是讓本書盡可能地廣泛普及,同時保持技術嚴謹性并解決算法決策中出現的困難道德問題。
這本書不會對公平有一個包羅萬象的正式定義,也不會對社會對自動化決策的擔憂進行快速的技術解決。解決公平問題需要仔細了解機器學習工具的范圍和局限性。本書對當前的機器學習實踐進行了批判性分析,并提出了實現公平的技術修復。它沒有提供任何簡單的答案。盡管如此,我們希望您會發現這本書在深入了解如何負責任地練習機器學習方面既有趣又有用。
為什么現在?
機器學習在從視頻監控到自動簡歷篩選等社會技術系統方面取得了快速進展。與此同時,公眾對數字技術對社會的影響也越來越關注。
這兩種趨勢導致社會技術系統作為研究領域的公平、問責、透明度迅速出現。雖然令人興奮,但這導致了術語的激增、重新發現和同時發現、學科觀點之間的沖突以及其他類型的混淆。
本書旨在通過將長期存在的知識體系(例如因果推理)與社區最近的工作相結合,并加入我們自己的一些觀察,從而推動對話向前發展。
這本書是怎么來的?
在 2017 年秋季學期,三位作者分別教授了機器學習中的公平和道德課程:康奈爾大學的巴羅卡斯、伯克利的哈特和普林斯頓大學的納拉亞南。我們每個人都從不同的角度來探討這個話題。我們還介紹了兩個教程:NIPS 2017 上的 Barocas 和 Hardt,以及 FAT* 2018 上的 Narayanan。這本書源于我們為這三個課程創建的筆記,是我們之間持續對話的結果。
這本書用戶是誰? 我們編寫這本書的目的是為了對多位讀者有用。您可能是機器學習的學生或實踐者,在日常工作中面臨道德問題。您也可能是一名倫理學者,希望將您的專業知識應用于新興技術的研究。或者你可能是一個關心自動化系統將如何塑造社會的公民,并且想要比你從新聞報道中獲得的更深入的了解。
我們假設您熟悉介紹性計算機科學和算法。了解如何編碼并不是閱讀本書所必需的,但可以讓你充分利用它。我們還將假設您熟悉基本統計數據和概率。在整本書中,我們將包括指向這些主題的介紹性材料的指針。
另一方面,您不需要任何機器學習知識來閱讀本書:我們包含了一個介紹基本機器學習概念的附錄。我們還提供了關于公平背后的哲學和法律概念的基本討論。
這本書里有什么? 本書有意縮小范圍:您可以在此處查看大綱。這本書的大部分內容都是關于公平的,但我們包括一章這涉及到一些相關的概念:隱私、可解釋性、可解釋性、透明度和問責制。我們忽略了關于機器學習和人工智能的大量倫理問題,包括自動化導致的勞動力流失、對抗性機器學習和人工智能安全。
同樣,我們討論了狹義的公平決策中的公平干預。我們承認干預可能采取許多其他形式:制定更好的政策、改革機構或顛覆社會的基本結構。
機器學習倫理的狹隘框架可能會吸引技術人員和企業作為一種專注于技術干預同時回避有關權力和問責制的更深層次問題的方式。我們告誡不要這種誘惑。例如,減少人臉識別系統準確性方面的種族差異雖然很有價值,但并不能替代關于此類系統是否應該部署在公共場所以及我們應該實施什么樣的監督的辯論。
【書稿提綱】 1 介紹
2 分類
引入正式的非歧視標準,建立它們之間的關系,并說明它們的局限性。
3 法律背景和規范性問題
我們調查了法律、社會學和哲學中關于歧視的文獻。然后,我們將討論在將這些公平理念轉化為統計決策設定時所面臨的挑戰。
4 因果關系
我們深入研究了因果推理的豐富技術庫,以及它如何幫助闡明和解決分類范式的缺點,同時提出新的概念和規范問題。
5 在實踐中測試歧視
我們將歧視測試系統化,并討論將它們應用于傳統決策系統和算法系統的實際復雜性。
6 更廣泛的歧視觀
我們回顧了社會中的結構性、組織性和人際歧視,機器學習如何與它們相互作用,并討論了一系列廣泛的潛在干預措施。
7 數據集
數據集是機器學習研究和開發的支柱。我們批判性地檢查他們的角色、與數據相關的危害,并調查數據實踐中的改進。
8 算法干預
我們調查并系統化了一組新興的算法干預,旨在促進公平,同時強調這種范式的局限性。
@book{barocas-hardt-narayanan,
title = {Fairness and Machine Learning}, author = {Solon Barocas and Moritz Hardt and Arvind Narayanan}, publisher = {fairmlbook.org}, note = {\url{//www.fairmlbook.org}}, year = {2019} }
十年來,人工智能(AI)取得了前所未有的進步,這表明包括醫學在內的許多領域都有潛力受益于人工智能技術從數據中提取的洞見。在此,我們綜述了以深度學習為驅動力的現代計算機視覺技術在醫療應用方面的最新進展,重點關注醫學成像、醫療視頻和臨床應用。我們首先簡要總結一下卷積神經網絡十年來在醫療保健領域取得的進展,包括它們實現的視覺任務。 接下來,我們將討論幾個可能受益的醫學影像應用實例——包括心臟病學、病理學、皮膚科、眼科——并提出繼續工作的新途徑。然后,我們擴展到一般醫療視頻,重點介紹了臨床工作流程可以整合計算機視覺以增強護理的方式。最后,我們討論了這些技術在現實世界的臨床部署所需要的挑戰和障礙。
//www.nature.com/articles/s41746-020-00376-2
引言
計算機視覺(Computer vision,簡稱CV)已有數十年的豐富歷史,致力于使計算機有意義地感知視覺刺激。機器感知的范圍很廣,從識別邊緣這樣的低級任務,到理解完整場景這樣的高級任務。過去十年的進步主要歸功于三個因素: (1)深度學習(DL)的成熟,這是一種機器學習,能夠從原始數據中對非常復雜的函數進行端到端學習; (2)通過GPUs3在本地化計算能力上取得了巨大進步; (3)用于訓練這些算法的大型標記數據集的開源。這三個要素的結合使單個研究人員能夠獲得推進該領域所需的資源。隨著研究團體的指數級增長,進步也隨之增長。
現代計算機視覺的發展與許多科學領域中大量數字數據的產生相重疊。近年來醫學取得了巨大的進步,這在很大程度上要歸功于DL從大多數數據來源中學習許多任務的非凡能力。使用大數據集,CV模型可以獲得多種模式識別能力——從醫生級別的診斷到醫療場景感知。參見圖1。
a. 多模態判別模型。可以構建深度學習架構,從圖像數據(通常是卷積網絡)和非圖像數據(通常是通用深度網絡)中共同學習。學習到的注釋可以包括疾病診斷、預后、臨床預測及其組合。b. 生成模型。卷積神經網絡可以訓練生成圖像。任務包括圖像到圖像的回歸(如圖所示)、超分辨率圖像增強、新圖像生成等。
在這里,我們回顧了CV和醫學的交集,聚焦于醫學影像、醫學視頻和真實臨床部署的研究。我們討論了釋放這些機會的關鍵算法能力,并深入研究了近年來取得的無數成就。適合CV的臨床任務包括許多類別,如篩選、診斷、檢測條件、預測未來結果、從器官到細胞的病理分割、監測疾病和臨床研究。在整個過程中,我們考慮這一技術的未來增長及其對醫學和醫療保健的影響。
計算機視覺
目標分類、定位和檢測分別是指識別圖像中目標的類型、當前目標的位置,同時識別類型和位置。ImageNet大規模視覺識別挑戰(ILSVRC)是過去十年來在這些任務中取得進展的先鋒。它創建了一個DL研究人員競爭和合作的大型社區,以改進各種CV任務的技術。第一個當代的、GPU驅動的DL方法,在2012年產生了這個社區增長的拐點,并在2017年比賽的到達頂點。值得注意的是,在此期間,分類準確性達到了人類水平。在醫學領域,這些方法的細粒度版本已成功地應用于許多疾病的分類和檢測(圖2)。如果有足夠的數據,其準確性往往與專家醫生的水平相匹配或超過。同樣,物體的分割有了很大的改進,特別是在具有挑戰性的情況下,如在顯微鏡下對多種類型的重疊細胞的生物醫學分割。在這些任務中使用的關鍵DL技術是卷積神經網絡(CNN)——一種對圖像數據的關鍵特征平移不變性進行硬編碼的DL算法。許多其他CV任務也從這一進展中受益,包括圖像配準(在相似圖像中識別對應點),圖像檢索(尋找相似圖像),以及圖像重建和增強。處理醫療數據的特定挑戰要求使用多種類型的人工智能模型。
這些技術很大程度上依賴于監督學習,它利用包含數據點(如圖像)和數據標簽(如對象類)的數據集。考慮到醫學數據的稀疏性和訪問困難,遷移學習——算法首先在一個大型且不相關的語料庫(如ImageNet4)上進行訓練,然后在感興趣的數據集(如醫學)上進行微調——對進展至關重要。為了減少與收集和標記數據有關的費用,正在開發生成合成數據的技術,例如數據增加和生成式對抗網絡。研究人員甚至表明,眾包圖像注釋可以產生有效的醫學算法。最近,自監督學習——從數據點中提取隱式標簽并用于訓練算法(例如,預測由分割圖像生成的瓦片的空間排列)——已經將該領域推向了完全的無監督學習,這種學習不需要標簽。將這些技術應用于醫學將減少開發和應用的障礙。
這些進步促進了CV的其他領域的增長,如多模態學習,它將視覺與其他形式(如語言)、時間序列數據和基因組數據結合在一起(圖1a)。這些方法可以與3D視覺相結合,將深度相機變成保護隱私的傳感器,面向病人更容易的部署設置,如重癥監護室。在視頻中,任務的范圍甚至更廣。應用程序,如活動識別和現場了解是有用的檢測和反應的重要或不良臨床事件。
醫學成像
近年來,將計算機視覺技術應用于靜態醫學圖像的論文已從數百份增加到數千份。由于這些專業診斷任務的視覺模式識別特性,以及高度結構化圖像的日益可用性,一些領域已經得到了大量的關注,如放射學、病理學、眼科和皮膚科。
心臟病學
心臟影像學在臨床診斷和工作流程中的應用越來越廣泛。深度學習的主要臨床應用包括診斷和篩選。在心血管醫學中最常見的成像方式是心臟超聲,或超聲心動圖。作為一種成本效益高、無輻射的技術,超聲心動圖由于直接的數據采集和解釋而特別適合DL——它通常用于大多數急性住院設施、門診中心和急診室。此外,CT和MRI等3D成像技術用于了解心臟解剖,并更好地表征供需不匹配。CT分割算法甚至已經被FDA批準用于冠狀動脈可視化。
病理學
病理學家在癌癥的檢測和治療中起著關鍵作用。病理分析基于顯微鏡下對組織樣本的目視檢查-本質上是主觀的。視覺感知和臨床訓練的差異可能導致診斷和預后意見的不一致。在這里,DL可以支持關鍵的醫療任務,包括診斷、預后預測和治療反應、病理分割、疾病監測等。
皮膚病學
DL在皮膚科的主要臨床任務包括病變特異性鑒別診斷,在許多良性病變中發現病變,并幫助跟蹤病變隨時間的增長。一系列的研究表明,CNNs在從良性皮膚病變中分類惡性皮膚病變方面可以與認證皮膚科醫生的表現相匹配。這些研究相繼測試了越來越多的皮膚科醫生(25-7 57-93,157-94),一致表明分類的敏感性和特異性匹配甚至超過醫生水平。這些研究很大程度上局限于區分良性和惡性皮膚病變的二元分類任務,將黑素瘤與痣或脂溢性角化癌進行分類。
眼科學
近年來,人工智能在眼科應用的努力顯著增加,數十篇論文證明了臨床診斷和分析能力超出了當前人類的能力。潛在的臨床影響是顯著的——用于檢查眼睛的機器的便攜性意味著彈性診所和遠程醫療可以被用來將檢測地點分布到服務不足的地區。該領域主要依靠眼底成像和光學相干斷層掃描(OCT)來診斷和管理患者。
醫學視頻
外科的應用
CV可能在手術和內窺鏡等程序領域提供重要的實用價值。深度學習的主要臨床應用包括通過實時上下文意識、技能評估和培訓提高外科醫生的表現。
人類活動 CV可以識別醫院和診所等物理空間中的人類活動,用于一系列“環境智能”應用。環境智能指的是物理空間中持續的、非侵入性的活動意識,可以為臨床醫生、護士和其他醫療工作者提供幫助,如患者監控、自動文檔記錄和協議遵從性監控(圖3)。
計算機視覺與傳感器和視頻流相結合,使臨床和家庭環境中的許多安全應用得以實現,使醫療保健提供商能夠擴大其監控患者的能力。主要是使用用于細粒度活動識別的模型創建的,應用程序可能包括ICU中的患者監測、醫院和診所中的適當的手衛生和物理動作協議、異常事件檢測等。
臨床部署
隨著醫學人工智能進入臨床,它將同時有能力為社會做巨大的好事,并有可能加劇長期存在的不平等和使醫學錯誤永久化。如果操作得當、合乎道德,醫療人工智能可以成為實現更公平醫療的飛輪——使用得越多,獲得的數據越多,就會變得越準確、越普遍。關鍵在于理解模型所構建的數據以及它們所部署的環境。在這里,我們提出了在醫療保健領域應用ML技術時的四個關鍵考慮事項:數據評估、模型限制規劃、社區參與和信任構建。
參考文獻:
Szeliski, R. Computer Vision: Algorithms and Applications (Springer Science & Business Media, 2010).
LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015). CAS Article Google Scholar
Sanders, J. & Kandrot, E. CUDA by example: an introduction to general-purpose GPU programming. Addison-Wesley Professional; 2010 Jul 19.BibTeXEndNoteRefManRefWorks
Deng, J. et al. ImageNet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition 248–255 (IEEE, 2009).
Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24–29 (2019).
近年來,機器學習發展迅速,尤其是深度學習在圖像、聲音、自然語言處理等領域取得卓越成效.機器學習算法的表示能力大幅度提高,但是伴隨著模型復雜度的增加,機器學習算法的可解釋性越差,至今,機器學習的可解釋性依舊是個難題.通過算法訓練出的模型被看作成黑盒子,嚴重阻礙了機器學習在某些特定領域的使用,譬如醫學、金融等領域. 目前針對機器學習的可解釋性綜述性的工作極少,因此,將現有的可解釋方法進行歸類描述和分析比較,一方面對可解釋性的定義、度量進行闡述,另一方面針對可解釋對象的不同,從模型的解釋、預測結果的解釋和模仿者模型的解釋3個方面,總結和分析各種機器學習可解釋技術,并討論了機器學習可解釋方法面臨的挑戰和機遇以及未來的可能發展方向.