編譯 | 侯琳琳 審稿 | 程志祥 今天為大家介紹的是來自Julián N.Acosta和Guido J.Falcone的一篇關于多模態生物醫藥AI的綜述。目前大多數人工智能在醫學上的應用都是使用單模態數據來處理特定的任務,例如計算機斷層掃描顯像(CT)和視網膜圖像。相比之下,臨床醫生在診斷、進行預后評估和決定治療計劃時,會處理來自多個源的多模態的數據。在這篇綜述中,作者探索了多模態數據在個性化醫療、數字臨床試驗、遠程監測和護理、流行病監測、數字孿生技術和虛擬健康助手方面可能的應用,并介紹了相關的數據、建模和隱私挑戰以及克服這些挑戰有前途的策略。
利用多模態數據的機會
圖一:多模態生物醫學AI的數據模態和機會
針對精準健康的個性化“組學” 隨著測序在過去二十年中的顯著進步,使用新的技術獲得的細粒度生物數據的數量越來越多。這些統稱為“組學”數據,包括基因組、蛋白質組、轉錄組、免疫組、表觀基因組、代謝組和微生物組。
整合這些截然不同的組學數據仍然具有挑戰性。然而,克服這一問題至關重要,因為它有望進一步加深我們對人類健康的了解,并允許制定精確和個性化的預防、診斷和治療戰略。研究人員已經提出了幾種在精確健康背景下整合多組學數據的方法。圖神經網絡是一個例子,它是處理計算圖的深度學習模型,允許科學家考慮多種類型的組學數據的已知相互關聯的結構。另一種方法是降維,包括PHATE和多尺度PHATE等新方法,它們可以學習不同粒度級別的生物和臨床數據的抽象表示,并已被證明可預測臨床結果。
數字化臨床試驗 隨機臨床試驗是在臨床醫學中使用新的診斷、預后和治療干預措施的金標準研究設計。但是,計劃和執行高質量的臨床試驗耗時且非常昂貴。此外,參與者的地理、社會文化和經濟差異,導致在這些研究中有幾個群體的代表性明顯不足,這限制了結果的普遍性。臨床試驗數字化可以通過減少參與者登記和保留的障礙、促進參與度和優化試驗測量和干預措施,為克服這些限制提供前所未有的機會。
來自可穿戴技術(包括心率、睡眠、體力活動、心電圖、血氧飽和度和血糖監測)和智能手機支持的自我報告問卷的數據可用于監測臨床試驗患者、識別不良事件或確定試驗結果。數字臨床試驗可以利用參與者的多個來源的數據實現自動表型和分組。
遠程監控:“家中醫院” 生物傳感器、持續監測和分析的最新進展增加了在一個人家里模擬醫院環境的可能性。這將降低成本,減少對醫療人員的要求,避免醫院感染和醫療差錯。
來自可穿戴傳感器和環境傳感器的多模態數據的集成有望改善遠程患者監測,一些研究已經證明了多模態數據在這些場景中的潛力。例如,環境傳感器(如深度相機和麥克風)與可穿戴設備 (例如測量身體活動的加速計) 數據相結合,有可能提高跌倒檢測系統的可靠性。
傳染病監測和爆發檢測 當前的COVID-19大流行突出了進行有效傳染病監測的必要性,一些國家成功地整合了來自移民地圖、移動電話使用率和衛生服務數據的多模態數據,以預測疫情的傳播并確定潛在病例。多模態人工智能模型在大流行病防備和應對方面的能力已得到測試,結果令人滿意,但還需要進一步驗證和復制這些結果。
數字雙胞胎 目前,我們依靠臨床試驗確定成功干預措施。100人中或許只有10人的干預措施被認為是成功的。一種被稱為“數字雙胞胎”的補充方法可以通過利用大量數據來建模并高精度預測特定的治療干預對特定患者有益或有害。
在精準腫瘤學和心血管健康領域,集成來自多個來源的數據,使用人工智能工具開發數字雙胞胎模型已經被提出。考慮到人類有機體的復雜性,醫學上精確和有用的數字雙胞胎技術的發展將取決于收集大量和多樣化的多模態數據的能力,從組學數據和生理傳感器到臨床和社會人口數據。這可能需要跨衛生系統、研究小組和行業的大規模合作。
虛擬健康助手 虛擬健康助手可以就人們的健康需求提供建議,但迄今尚未得到廣泛開發。目前市場上的虛擬健康助手往往針對特定的條件或用例,如用于糖尿病護理的虛擬健康助手。展望未來,人工智能模型中多個數據源的成功集成將促進個性化虛擬健康助手的發展。這些虛擬健康助手可以利用基因組測序、其他組學、血液生物標記物、代謝物、生物傳感器和其他相關生物醫學數據,促進行為改變、回答與健康相關的問題、對癥狀進行分類或在適當時與醫療保健提供者進行溝通。
多模態數據的收集
表一:可用多模態數據的研究實例
成功開發多模態數據支持的應用程序的第一個要求是收集、管理和協調大型注釋數據集,因為再復雜的技術也無法派生出數據中不存在的信息。相關的研究,例如UK Biobank于2006年開始注冊,最終參與者人數超過50萬,并計劃在注冊后跟蹤參與者至少30年。這個大型生物庫從參與者那里收集了多層數據,包括社會人口統計和生活方式信息、身體測量、生物樣本、12導聯心電圖和EHR(電子健康記錄)數據。其他國家也開展了類似的活動,如China Kadoorie Biobank和Biobank Japan等等。
這些數據集中的多模態數據的可用性可能有助于在一系列不同的任務中實現更好的診斷性能。例如,最近的工作表明,在識別肺栓塞和區分急性呼吸衰竭的常見原因(如心衰、肺炎或慢性阻塞性肺疾病)方面,影像學和電子病歷數據的結合優于單獨的每種模式。
技術挑戰
圖二:多模態人工智能中的新技術概念的簡要說明
實現和建模的挑戰 多模態學習框架能夠從不同模態的數據中學習,而不需要不同的模型架構。理想地,統一的多模態模型將結合不同類型的數據(圖像、生理傳感器數據以及結構化和非結構化文本數據等),為跨模態的類似概念產生對齊的表示(例如,狗的圖片,并且單詞‘狗’應該產生類似的內部表示),并提供任務所要求的任意類型的輸出。
在過去的幾年里,已經從應用于特定模態的架構--例如用于圖像的卷積神經網絡,或用于文本的循環神經網絡--過渡到Transformer這一相對新穎的架構,該架構已經在各種輸入和輸出模態和任務上顯示出良好的性能。Transformer的一個很有希望的方面是能夠用未標記的數據學習有意義的表示,這在生物醫學人工智能中是至關重要的,因為獲得高質量標記所需的資源有限且昂貴。
在生物醫學人工智能的設置中,數據可能并不容易獲得。這一問題的一個可能的解決方案是利用一種模態的可用數據來幫助使用另一種模態進行學習,這是一種稱為“共同學習”的多模態學習任務。例如,一些研究表明,對未標記的語言數據進行預訓練的Transformer可能能夠很好地推廣到其他任務。在醫學方面,一種名為“CycleGans”的模型架構,它用非配對的非對比或對比CT掃描圖像進行訓練,被用于生成非對比或對比CT掃描圖像。
另一個重要的建模挑戰與多模態健康數據中包含的極高數量的維度有關,統稱為“維度詛咒”。隨著維度數量的增加,攜帶這些特征的某些特定組合的人的數量減少,從而導致數據集盲點,即特征空間的一部分沒有任何觀測。這些數據集盲點可能會損害模型在現實生活預測方面的性能。可以使用幾種策略來緩解這一問題。第一種,使用最高性能的任務收集數據(例如,用于運動控制的快速手指敲擊,而不是日常運動中被動收集的數據)。第二,確保大而多樣的樣本量(即條件與模型臨床部署時預期的條件相匹配)。第三,使用領域知識指導特征工程和選擇,適當的模型訓練和正則化,嚴格的模型驗證和全面的模型監測(包括監測訓練數據和部署后發現的數據之間的差異)。展望未來,開發能夠整合先前知識的模型(例如,已知的基因調控途徑和蛋白質相互作用) 可能是克服維度詛咒的另一種有希望的方法。
在多模態學習中,組合來自不同模態的數據的過程被稱為“多模態融合”,這不是簡單地將幾個模態分別輸入到模型中。不同數據模態的融合可以在該過程的不同階段進行。最簡單的方法包括在任何處理之前串聯輸入模態或特征(早期融合)。雖然簡單,但這種方法并不適用于許多復雜的數據模態。一種更復雜的方法是在訓練過程中組合并共同學習這些不同模態的表示(聯合融合),允許特定于模態的預處理,同時仍然捕獲數據模態之間的相互作用。最后一種方法是為每種模態訓練單獨的模型,并結合輸出概率(后期融合),這是一種簡單而穩健的方法,但錯過了從模態之間的相互作用中提取信息的機會。
與多模態模型相關的許多其他重要挑戰仍然存在。對于一些模態(例如,三維成像),即使只使用單個時間點的模型也需要很大的計算能力,而同時處理大規模組學或文本數據的模型是一個重要的基礎挑戰。
數據的挑戰 支撐健康的多維數據在收集、鏈接和注釋這些數據方面帶來了廣泛的挑戰。醫學數據集可以沿著多個軸進行描述,包括樣本大小、表型分析的深度、隨訪的時間和間隔、參與者之間的互動程度、參與者的異質性和多樣性、數據的標準化和協調程度以及數據來源之間的關聯度。
數據的挑戰有以下幾個方面。第一,生物醫學數據集的多樣性至關重要,因為它是確保推廣到更廣泛人群的第一步。第二,多模態人工智能的一個必要步驟是將數據集中可用的所有數據類型適當地聯系起來,這是另一項挑戰。第三,是丟失數據的比例通常很高。雖然在某些情況下,在訓練前簡單地排除有缺失數據的患者是一種選擇,但當其他因素影響缺失數據時,可能會出現選擇偏差,而且通常使用統計工具來彌補這些缺失更合適,例如多重插補。第四,在進行收集健康數據的研究時,會有引起幾種偏見的風險,需要采取多種方法來監測和減輕這些偏見。
隱私的挑戰 多模態人工智能在健康領域的成功發展需要數據的廣度和深度,這包含了比單一模態人工智能模型更高的隱私挑戰。研究人員提出和探索了多種技術解決方案,以確保在訓練多模態人工智能模型的同時確保安全和隱私,包括差異隱私、聯邦學習、同態加密和群學習。
此外,邊緣計算也可以用于保護隱私。與云計算相反,邊緣計算指的是讓計算更接近數據來源的想法(例如,接近環境傳感器或可穿戴設備)。與聯邦學習等其他方法相結合,邊緣計算通過避免將敏感數據傳輸到中央服務器來提供更高的安全性。
結論
多模態醫療AI開啟了醫療保健領域的關鍵應用,除了這里描述的機會之外,還有許多其他機會,例如藥物發現領域。雖然我們解決了使用多模態人工智能的許多重要挑戰,但本綜述范圍外的其他挑戰也同樣重要,包括假陽性的可能性以及臨床醫生應該如何向患者解釋風險。
目前我們數據分析方面做的不如整理和存儲這些數據方面好。為了有意義地處理這樣的高維數據并實現許多令人興奮的用例,將需要醫學界和人工智能研究人員的共同努力來構建和驗證新的模型,并最終展示它們對改善健康結果的效用。 參考資料
Acosta, J.N., Falcone, G.J., Rajpurkar, P. et al. Multimodal biomedical AI. Nat Med (2022). //doi.org/10.1038/s41591-022-01981-2
新技術可以對無癥狀的酒精相關肝病進行無創檢測和分期;進一步完善這種方法可以改變臨床管理并改善患者的預后。
酒精相關肝病(ALD)是全球肝病的主要原因之一,占與肝硬化有關的死亡人數的四分之一以上。脂肪變性、酒精性肝炎和纖維化是明顯的組織病理學特征,標志著ALD向肝硬化的發展,然而這種發展往往是無癥狀和非特異性的,這使得早期診斷極具挑戰性。ALD經常是通過異常的肝臟測試結果或影像學診斷的,而且準確的風險評估需要綜合各種數據模式的信息,包括生化、放射和基于活檢的組織學數據。盡管使用血清生物標志物和放射學參數的無創評估被廣泛用于描述晚期肝病的特征,但這些測試對于早期ALD的準確性較低。
最近,分子分析能力的進步為開發用于早期檢測ALD的微創生物標志物提供了新的機會,這可以為有效的臨床干預提供一個窗口。在本期《Nature Medicine》雜志中,Niu等人采用了一種配對的蛋白質組學方法--使用肝臟組織和血漿--結合機器學習來確定早期ALD的診斷和預后生物標志物。
作者對確診的無癥狀ALD患者和健康對照研究參與者的肝臟和血漿樣品進行了基于質譜(MS)的蛋白質組學分析。他們將這些數據與組織學、影像學和臨床數據結合起來,以確定血漿中存在的與疾病相關的蛋白質特征,然后使用機器學習來生成能夠檢測ALD中脂肪變性、炎癥和纖維化的新型生物標志物。相對于現有的非侵入性評估,這些蛋白質組學模型在識別這三個關鍵特征方面表現出明顯的改善或至少具有競爭力。這些模型在一個獨立的隊列中得到了驗證,并根據電子健康記錄的結果,證明了預測肝臟相關事件和死亡率的高預后準確性。
傳統上,ALD患者都是以晚期疾病的階段出現的,臨床決策是由預測模型指導的,這些模型結合了常規的結構化臨床數據和統計方法,如Cox回歸。流行的模型,包括MELD(終末期肝病模型)評分系統和Maddrey的判別函數,是可以使用的,但并不完美,在不同的臨床情況和疾病階段,其應用和可解釋性是有限的。現在,新技術(包括但不限于蛋白質組學)已經擴大了將數據驅動的洞察力整合到整個ALD患者的護理中的工具包。
取得這些進展的同時,人工智能(AI)也被采用,成為合成和分析大型數據集的有效工具。近年來,研究人員已經應用機器學習來改善肝病的篩查、診斷和預后結果。例如,機器學習已經能夠通過分析常規生化指標來檢測普通人群中的非酒精性脂肪肝,量化與丙型肝炎有關的肝硬化患者的肝細胞癌風險,并通過使用心電圖數據來識別肝硬化的存在和嚴重程度。此外,機器學習已被用于自動識別組織學圖像,并根據放射學數據預測肝細胞癌化療的反應。
正如Niu等人所展示的那樣,人工智能和 "組學 "技術的綜合力量提供了一個重要的機會,可以匯總和整合微創的數據模式,為整個肝臟疾病提供綜合護理。與傳統模型相比,新的建模技術不僅顯示出更好的診斷和預后性能,而且還顯示出為ALD患者推進個性化醫療的潛力。我們可以設想,在未來的醫療服務中,通過對臨床文件的自然語言處理,一個健康的人被確定為有患ALD的風險,這是基于有害飲酒的歷史。縱向監測與來自生命體征、實驗室測量、成像和其他無創模式的補充數據可以通過機器學習工具進行合成,以生成一個關于該人的疾病階段、ALD進展風險和基于治療的預測結果的全面概況。鑒于數字化轉型、計算速度和測序技術的快速發展,這個愿景并不遙遠。然而,為了通過使用無創方法實現這種個性化,大規模多模式整合新型生物標志物將是至關重要的。該領域的進展將需要各領域的臨床醫生、生物信息學專家和數據工程師之間的協同合作,以解決在數據可用性、機器學習架構以及模型可重復性和可解釋性方面出現的挑戰。
Niu等人的研究中向這個未來邁出了一步。他們的研究為基于質譜的高通量技術和機器學習的可行性提供了寶貴的概念證明,以從單一血液樣本中產生新的診斷和預后信息。在將血漿樣本與肝臟組織配對并與縱向臨床結果數據整合后,作者產生了生物學見解,并驗證了一組蛋白質生物標志物,以支持微創模型的開發,為ALD的早期識別和管理提供信息。他們的方法進一步強調了質譜在這方面的好處。質譜法的優勢是在大的動態范圍內對許多目標進行量化,并具有高特異性,而其他技術,如免疫親和法和比色法,則受到目標限制、交叉反應和有限的線性參考范圍的阻礙。通過使用大型分析小組,質譜法還可以捕捉到個體的異質性和多樣性,提高顆粒度,有助于提高對疾病發病機制的理解,解決臨床測試和研究中的偏差,并提高結果的普遍性。基于質譜的技術的局限性包括儀器的勞動力和資本的高成本,與傳統的醫療點測定相比,它降低了可及性和效率。然而,技術的改進使檢測組件的小型化和自動化成為可能,這將使質譜操作的范圍更廣。
蛋白質組學和人工智能在滿足早期ALD的診斷和預后的關鍵需求方面已經顯示出影響。即便如此,對整個ALD的綜合管理將需要整合多模態數據、創新的計算技術和開發新的數據基礎設施,以適應規模化的吞吐量。預計在肝病患者的護理中會出現更多的模式,包括代謝組、微生物組以及由一系列移動應用和可穿戴設備產生的新型生物標志物。這類數字生物標志物將越來越多地被用于了解個體患者的行為和生理,以預測臨床結果和疾病的發展。獨特的病理生理學和一系列宿主和環境因素的影響,使得ALD在多模式護理轉變方面的時機已經成熟。從需要改進的診斷生物標志物到基于治療反應的定制干預,需要進一步的研究來推動該領域在護理的所有方面走向個性化醫療的未來。
參考資料 * Wu, T., Cooper, S.A. & Shah, V.H. Omics and AI advance biomarker discovery for liver disease. Nat Med 28, 1131–1132 (2022). //doi.org/10.1038/s41591-022-01853-9 * Ioannou, G.N., Tang, W., Beste, L.A., Tincopa, M.A., Su, G.L., Van, T., Tapper, E.B., Singal, A.G., Zhu, J. and Waljee, A.K., 2020. Assessment of a deep learning model to predict hepatocellular carcinoma in patients with hepatitis C cirrhosis. JAMA network open, 3(9), pp.e2015626-e2015626. * Boehm, K.M., Khosravi, P., Vanguri, R., Gao, J. and Shah, S.P., 2022. Harnessing multimodal data integration to advance precision oncology. Nature Reviews Cancer, 22(2), pp.114-126.
編譯 | 俞正秋
本次報道的論文來自DECIDE- AI指南制定指導小組發表在nature medicine上的文章“DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence”。這篇研究主要敘述了隨著越來越多由人工智能驅動的臨床決策支持系統從開發進展到實施,需要制定相關指南以提供更好的指導。
近年來,醫學文獻發表的人工智能(AI)算法數量呈指數級增長,但是AI用于臨床對患者預后結局的影響仍有待證實。對此一種解釋認為,由于現有AI臨床決策系統過分強調算法的技術層面,而缺乏對人類用戶互動因素的關注所導致。臨床醫生主導并可能繼續主導患者治療的核心角色,所以,應該把重點放在基于人工智能臨床算法的開發和評估增強上而不是放在取代人類角色上。基于人工智能的臨床決策支持系統對傳統的醫療決策過程提出了獨特的挑戰,例如它們經常缺乏可解釋性(所謂的“黑箱”問題),或者它們有時會產生意想不到的結果。因此,在以人為中心設計和評估算法的同時,將算法開發與臨床應用相結合是一項復雜的任務,當前也缺乏相應的指南。
在算法開發/驗證(即將發布的TRIPOD-AI聲明和STARD-AI聲明)和評估人工智能干預的大規模臨床試驗(CONSORT-AI聲明)中間階段,即臨床試驗早期階段和小規模臨床評估階段,我們為該階段AI的應用提供了充分的依據。以下四個關鍵論點闡述了制定該指南的充分性和必要性。
人類的決策過程是復雜的,并且受到許多干擾因素影響。即使在模型的指令下,也無法期望人類用戶會完全遵循算法提出的建議行動,尤其是用戶們仍然需要對他們的決策負責的情況下。為了能準確評估算法的性能,并且避免在與人類用戶交互不充分的條件下便開始進行大規模的昂貴的試驗所造成的浪費,在試驗早期評估算法對用戶決策的實際影響是至關重要的。此外,應考慮普通人群和目標患者人群之間的差異,需要在目標人群臨床環境中評估算法輔助人類決策的效果和可行性,并且對結果進行報告。
因為用戶不會完全依照算法提出的建議做出決定,所以對其安全性的測試也非常重要,新算法不僅要在計算機上測試,還要測試在人類決策時所產生的影響。跳過這一步直接進入大規模試驗會讓相當多的患者面臨未知的傷害風險,這在倫理上是不可接受的。例如在藥物試驗研究的粗淺階段,由于不嚴格的安全標準導致了災難性的后果,同樣的錯誤不應該在臨床人工智能領域重復。
人的因素(人機工程學)應該盡可能在早期反復評估。技術需求通常隨著決策系統開始被使用而逐漸發展,并且用戶對決策系統的期望也是隨時間發生變化。從經濟角度來看,越早對人的因素進行評估,成本效益就可能越高。最后在大規模試驗期間,對試驗設計進行反復修改是困難的和不合適的。由于測試的干預措施已經在試驗中發生了改變,這樣做會導致最終研究結論無效的嚴重后果。
大規模臨床試驗是一項復雜且昂貴的工作,需要精心準備。一個經過深思熟慮的試驗設計對于生成有效且有意義的結論是必不可少的,并且需要關于被評估的干預措施的背景信息。然而,并非所有的背景信息都可以從計算中推斷,一些背景數據必須在小規模的前瞻性研究中收集。例如,試驗的最佳效果和預期效果、對象的最佳納入和排除標準、用戶對算法的信任度變化以及采用決策支持的最佳時機是研究者在起草試驗方案時應當明確的關鍵信息,這些信息可以從早期可行性評估中獲得。其他需要考慮的重要因素,比如如何最佳輸出算法結果并將該結果傳達給患者,也可以在此階段進行研究。
我們相信,對這些方面進行清晰而透明的規定不僅可以避免不必要的倫理傷害和研究浪費,還在AI從一項潛力技術變成現代循證醫學一部分的轉變過程中扮演關鍵角色。這也是我們啟動Delphi方法制定DECIDE-AI的原因。人工智能決策指南的創建將是一個公開透明的過程,我們歡迎任何對此有興趣并希望做出貢獻的專家加入。
參考資料 Vasey B , Clifton D A , Collins G S , et al. DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence[J]. Nature Medicine, 2021:1-2.
十年來,人工智能(AI)取得了前所未有的進步,這表明包括醫學在內的許多領域都有潛力受益于人工智能技術從數據中提取的洞見。在此,我們綜述了以深度學習為驅動力的現代計算機視覺技術在醫療應用方面的最新進展,重點關注醫學成像、醫療視頻和臨床應用。我們首先簡要總結一下卷積神經網絡十年來在醫療保健領域取得的進展,包括它們實現的視覺任務。 接下來,我們將討論幾個可能受益的醫學影像應用實例——包括心臟病學、病理學、皮膚科、眼科——并提出繼續工作的新途徑。然后,我們擴展到一般醫療視頻,重點介紹了臨床工作流程可以整合計算機視覺以增強護理的方式。最后,我們討論了這些技術在現實世界的臨床部署所需要的挑戰和障礙。
//www.nature.com/articles/s41746-020-00376-2
引言
計算機視覺(Computer vision,簡稱CV)已有數十年的豐富歷史,致力于使計算機有意義地感知視覺刺激。機器感知的范圍很廣,從識別邊緣這樣的低級任務,到理解完整場景這樣的高級任務。過去十年的進步主要歸功于三個因素: (1)深度學習(DL)的成熟,這是一種機器學習,能夠從原始數據中對非常復雜的函數進行端到端學習; (2)通過GPUs3在本地化計算能力上取得了巨大進步; (3)用于訓練這些算法的大型標記數據集的開源。這三個要素的結合使單個研究人員能夠獲得推進該領域所需的資源。隨著研究團體的指數級增長,進步也隨之增長。
現代計算機視覺的發展與許多科學領域中大量數字數據的產生相重疊。近年來醫學取得了巨大的進步,這在很大程度上要歸功于DL從大多數數據來源中學習許多任務的非凡能力。使用大數據集,CV模型可以獲得多種模式識別能力——從醫生級別的診斷到醫療場景感知。參見圖1。
a. 多模態判別模型。可以構建深度學習架構,從圖像數據(通常是卷積網絡)和非圖像數據(通常是通用深度網絡)中共同學習。學習到的注釋可以包括疾病診斷、預后、臨床預測及其組合。b. 生成模型。卷積神經網絡可以訓練生成圖像。任務包括圖像到圖像的回歸(如圖所示)、超分辨率圖像增強、新圖像生成等。
在這里,我們回顧了CV和醫學的交集,聚焦于醫學影像、醫學視頻和真實臨床部署的研究。我們討論了釋放這些機會的關鍵算法能力,并深入研究了近年來取得的無數成就。適合CV的臨床任務包括許多類別,如篩選、診斷、檢測條件、預測未來結果、從器官到細胞的病理分割、監測疾病和臨床研究。在整個過程中,我們考慮這一技術的未來增長及其對醫學和醫療保健的影響。
計算機視覺
目標分類、定位和檢測分別是指識別圖像中目標的類型、當前目標的位置,同時識別類型和位置。ImageNet大規模視覺識別挑戰(ILSVRC)是過去十年來在這些任務中取得進展的先鋒。它創建了一個DL研究人員競爭和合作的大型社區,以改進各種CV任務的技術。第一個當代的、GPU驅動的DL方法,在2012年產生了這個社區增長的拐點,并在2017年比賽的到達頂點。值得注意的是,在此期間,分類準確性達到了人類水平。在醫學領域,這些方法的細粒度版本已成功地應用于許多疾病的分類和檢測(圖2)。如果有足夠的數據,其準確性往往與專家醫生的水平相匹配或超過。同樣,物體的分割有了很大的改進,特別是在具有挑戰性的情況下,如在顯微鏡下對多種類型的重疊細胞的生物醫學分割。在這些任務中使用的關鍵DL技術是卷積神經網絡(CNN)——一種對圖像數據的關鍵特征平移不變性進行硬編碼的DL算法。許多其他CV任務也從這一進展中受益,包括圖像配準(在相似圖像中識別對應點),圖像檢索(尋找相似圖像),以及圖像重建和增強。處理醫療數據的特定挑戰要求使用多種類型的人工智能模型。
這些技術很大程度上依賴于監督學習,它利用包含數據點(如圖像)和數據標簽(如對象類)的數據集。考慮到醫學數據的稀疏性和訪問困難,遷移學習——算法首先在一個大型且不相關的語料庫(如ImageNet4)上進行訓練,然后在感興趣的數據集(如醫學)上進行微調——對進展至關重要。為了減少與收集和標記數據有關的費用,正在開發生成合成數據的技術,例如數據增加和生成式對抗網絡。研究人員甚至表明,眾包圖像注釋可以產生有效的醫學算法。最近,自監督學習——從數據點中提取隱式標簽并用于訓練算法(例如,預測由分割圖像生成的瓦片的空間排列)——已經將該領域推向了完全的無監督學習,這種學習不需要標簽。將這些技術應用于醫學將減少開發和應用的障礙。
這些進步促進了CV的其他領域的增長,如多模態學習,它將視覺與其他形式(如語言)、時間序列數據和基因組數據結合在一起(圖1a)。這些方法可以與3D視覺相結合,將深度相機變成保護隱私的傳感器,面向病人更容易的部署設置,如重癥監護室。在視頻中,任務的范圍甚至更廣。應用程序,如活動識別和現場了解是有用的檢測和反應的重要或不良臨床事件。
醫學成像
近年來,將計算機視覺技術應用于靜態醫學圖像的論文已從數百份增加到數千份。由于這些專業診斷任務的視覺模式識別特性,以及高度結構化圖像的日益可用性,一些領域已經得到了大量的關注,如放射學、病理學、眼科和皮膚科。
心臟病學
心臟影像學在臨床診斷和工作流程中的應用越來越廣泛。深度學習的主要臨床應用包括診斷和篩選。在心血管醫學中最常見的成像方式是心臟超聲,或超聲心動圖。作為一種成本效益高、無輻射的技術,超聲心動圖由于直接的數據采集和解釋而特別適合DL——它通常用于大多數急性住院設施、門診中心和急診室。此外,CT和MRI等3D成像技術用于了解心臟解剖,并更好地表征供需不匹配。CT分割算法甚至已經被FDA批準用于冠狀動脈可視化。
病理學
病理學家在癌癥的檢測和治療中起著關鍵作用。病理分析基于顯微鏡下對組織樣本的目視檢查-本質上是主觀的。視覺感知和臨床訓練的差異可能導致診斷和預后意見的不一致。在這里,DL可以支持關鍵的醫療任務,包括診斷、預后預測和治療反應、病理分割、疾病監測等。
皮膚病學
DL在皮膚科的主要臨床任務包括病變特異性鑒別診斷,在許多良性病變中發現病變,并幫助跟蹤病變隨時間的增長。一系列的研究表明,CNNs在從良性皮膚病變中分類惡性皮膚病變方面可以與認證皮膚科醫生的表現相匹配。這些研究相繼測試了越來越多的皮膚科醫生(25-7 57-93,157-94),一致表明分類的敏感性和特異性匹配甚至超過醫生水平。這些研究很大程度上局限于區分良性和惡性皮膚病變的二元分類任務,將黑素瘤與痣或脂溢性角化癌進行分類。
眼科學
近年來,人工智能在眼科應用的努力顯著增加,數十篇論文證明了臨床診斷和分析能力超出了當前人類的能力。潛在的臨床影響是顯著的——用于檢查眼睛的機器的便攜性意味著彈性診所和遠程醫療可以被用來將檢測地點分布到服務不足的地區。該領域主要依靠眼底成像和光學相干斷層掃描(OCT)來診斷和管理患者。
醫學視頻
外科的應用
CV可能在手術和內窺鏡等程序領域提供重要的實用價值。深度學習的主要臨床應用包括通過實時上下文意識、技能評估和培訓提高外科醫生的表現。
人類活動 CV可以識別醫院和診所等物理空間中的人類活動,用于一系列“環境智能”應用。環境智能指的是物理空間中持續的、非侵入性的活動意識,可以為臨床醫生、護士和其他醫療工作者提供幫助,如患者監控、自動文檔記錄和協議遵從性監控(圖3)。
計算機視覺與傳感器和視頻流相結合,使臨床和家庭環境中的許多安全應用得以實現,使醫療保健提供商能夠擴大其監控患者的能力。主要是使用用于細粒度活動識別的模型創建的,應用程序可能包括ICU中的患者監測、醫院和診所中的適當的手衛生和物理動作協議、異常事件檢測等。
臨床部署
隨著醫學人工智能進入臨床,它將同時有能力為社會做巨大的好事,并有可能加劇長期存在的不平等和使醫學錯誤永久化。如果操作得當、合乎道德,醫療人工智能可以成為實現更公平醫療的飛輪——使用得越多,獲得的數據越多,就會變得越準確、越普遍。關鍵在于理解模型所構建的數據以及它們所部署的環境。在這里,我們提出了在醫療保健領域應用ML技術時的四個關鍵考慮事項:數據評估、模型限制規劃、社區參與和信任構建。
參考文獻:
Szeliski, R. Computer Vision: Algorithms and Applications (Springer Science & Business Media, 2010).
LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015). CAS Article Google Scholar
Sanders, J. & Kandrot, E. CUDA by example: an introduction to general-purpose GPU programming. Addison-Wesley Professional; 2010 Jul 19.BibTeXEndNoteRefManRefWorks
Deng, J. et al. ImageNet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition 248–255 (IEEE, 2009).
Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24–29 (2019).
題目:High-performance medicine: the convergence of human and artificial intelligence
摘要: 人工智能的使用,尤其是深度學習子類型的使用。在醫學上,人工智能在三個層面產生影響:對臨床醫生而言,主要是通過快速,準確的圖像解釋;通過改善工作流程和減少醫療錯誤的潛力來改善衛生系統;對于患者而言,使他們能夠處理自己的數據以促進健康。本文將討論當前的局限性,包括偏見,隱私和安全性以及缺乏透明度,以及這些應用程序的未來發展方向。隨著時間的推移,準確性,生產力和工作流程的顯著改善可能會實現,但是否會用于改善患者與醫生之間的關系仍有待觀察。
作者介紹: Topol博士在Modern Healthcare 2012年的民意調查中被選為美國最具影響力的內科醫生執行官,致力于基因組和無線數字創新技術,以重塑醫學的未來。他是加利福尼亞州拉霍亞市斯克里普斯市的一名實踐心臟病專家,并因克利夫蘭診所作為心臟保健領先中心的地位而廣受贊譽。在那里,他開了一所醫學院,領導了世界范圍內的臨床試驗,以改善心臟病的治療,并率先發現了增加心臟病發作易感性的基因。