因果機器學習如何用于醫療中?愛丁堡大學最新《因果機器學習醫療應用》綜述,探討因果推理如何利用機器學習的最新進展,納入臨床決策支持系統的不同方面
因果機器學習(CML)在醫療保健領域越來越受歡迎。除了將領域知識添加到學習系統的固有能力之外,CML還提供了一個完整的工具集,用于研究系統對干預的反應(例如,給定治療的結果)。量化干預的效果使我們能夠在混雜因素存在的情況下做出可行的決策,同時保持魯棒性。在此,我們將探討因果推理如何利用機器學習的最新進展,納入臨床決策支持系統的不同方面。在本文中,我們使用阿爾茨海默病創建的例子來說明如何CML可以在臨床場景中是有利的。此外,我們討論了醫療保健應用中存在的重要挑戰,如處理高維和非結構化數據,推廣到非分布樣本和時間關系,盡管研究社區的巨大努力仍有待解決。最后,我們回顧了因果表征學習、因果發現和因果推理的研究路線,這些研究為解決上述挑戰提供了潛力。
隨著強大的機器學習(ML)方法(如深度學習[1])的出現,醫療健康預測系統取得了相當大的進展。在醫療保健領域,臨床決策支持(CDS)工具可以對諸如醫學圖像、臨床免費文本注釋、血液測試和遺傳數據等電子健康記錄(EHR)數據進行檢測、分類和/或分割等任務進行預測。這些系統通常使用監督學習技術進行訓練。然而,大多數由ML技術支持的CDS系統只學習數據中變量之間的關聯,而不區分因果關系和(虛假)相關性。
圖1 醫療健康中的CML有助于理解偏見和對干預效果的形式化推理。我們通過一個假設的例子說明,可以從低級數據(例如,I1可能對應于從醫學圖像中獲得的腦容量)中提取高級特征(因果表征),并將其提取成一個對應于數據生成過程的圖表。CML可以用來發現變量之間哪些關系是虛假的,哪些是因果關系,分別用虛線和實線來說明。最后,CML提供了對干預效果進行推理的工具(使用do()操作符)。例如,對D1的干預只會影響圖中的下游變量,而其他關系要么不相關(由于圖的破壞),要么保持不變。
以精準醫療(也被稱為個性化醫療)為目標的CDS系統需要回答關于個人對干預會如何反應的復雜問題。例如,針對阿爾茨海默病(AD)的精確CDS系統應該能夠量化使用給定藥物治療患者對最終結果的影響,例如預測隨后的認知測試得分。即使有合適的數據和完美的性能,目前的ML系統也只能根據之前數據的相關性來預測最佳的治療,這可能不能代表可操作的信息。當信息能夠根據給定患者的不同情況(如治療結果與未治療結果)之間的比較做出治療(介入)決定時,信息被定義為可操作的。這種系統需要因果推理(CI)來進行可操作的個體化治療效果預測。
在醫療健康中,一個主要的上游挑戰是如何獲得必要的信息來對治療和結果進行因果推理。現代醫療健康數據是多模態、高維且通常是非結構化的。在進行預測時,必須考慮到來自醫學圖像、基因組學、臨床評估和人口統計的信息。多模態方法可以更好地模擬人類專家如何利用信息進行預測。此外,許多疾病是隨著時間的推移而發展的,因此必須考慮到時間(時間維度)。最后,任何系統都必須確保這些預測能夠在不同的部署環境(如不同的醫院、城市或國家)中推廣。有趣的是,CI和ML之間的聯系可以幫助緩解這些挑戰。ML允許因果模型通過學習變量之間復雜的非線性關系來處理高維和非結構化數據。CI利用專家知識對系統進行了額外的理解,提高了多模態數據的信息融合,提高了當前ML系統的泛化和可解釋性。
因果機器學習(CML)文獻提供了幾個方向來解決上述挑戰時使用觀察數據。在此,我們將CML分為三個方向: (i) 學習給定高維數據的因果表示,學習提取低維信息(因果)變量及其因果關系;因果發現——給定一組變量,學習它們之間的因果關系; (iii) 因果推理——給定一組變量及其因果關系,分析系統將如何對干預作出反應。我們在圖1中說明了如何將這些CML方向集成到醫療健康中。在這篇文章中,我們討論了CML如何可以改善個性化決策,以及幫助減輕緊迫的挑戰在CDS系統。我們回顧了CML的代表性方法,解釋了如何在醫療健康上下文中使用它們。特別地,我們 (i) 提出因果關系和因果模型的概念;(二)說明它們如何在醫療健康環境中發揮作用; (iii) 討論緊迫的挑戰,如處理高維和非結構化數據、分布泛化和時間信息; (iv) 綜述CML的潛在研究方向。 什么是因果性?
我們對因果關系有一個寬泛的定義:如果A是原因,B是結果,那么B的值依賴于A。由于因果關系是有方向性的,反之則不成立; A的值不依賴于B。因此,因果關系的概念使分析系統將如何應對干預成為可能。諸如“如果病人接受X治療,這種疾病會如何發展?”’或者‘如果接受了Y的治療,這個病人還會經歷結果Z嗎?需要從因果關系出發來理解干預會如何影響特定的個體。在臨床環境中,因果推理可以用于決定哪種治療將導致最好的結果。例如,在AD場景中,因果關系可以回答這樣的問題:“哪種藥物A或哪種藥物B能在5年內最大程度地減少患者預期的認知衰退?”理想情況下,我們將使用觀察(歷史)數據來比較替代治療的結果。然而,“CI”[3]的“根本問題”是,對于每個單位(即患者),我們要么觀察治療A的結果,要么觀察治療B的結果,但不能同時觀察兩者。這是因為在做出治療的選擇后,我們無法逆轉時間來撤消治療。這些考慮個人假設情況的查詢被稱為潛在結果。因此,我們只能觀察到一個行動的一種潛在后果;未觀察到的量變成了反事實。由Pearl [4], Imbens和Rubin[5]開創的因果關系的數學形式主義允許回答這些更具挑戰性的問題。大多數ML方法(目前)無法識別因果關系,因為不做假設就根本無法實現CI[4,6]。這些假設中的幾個可以通過研究設計或外部語境知識得到滿足,但沒有一個可以僅僅從觀察數據中發現。接下來,我們向讀者介紹兩種定義和推理因果關系的方法:用結構性因果模型(SCMs)和用潛在結果。
為什么我們要考慮醫療健康中的因果框架?
在過去的幾十年里,CI在社會科學、計量經濟學、流行病學和病因學等領域做出了一些貢獻[4,5],最近它已經擴展到其他醫療健康領域,如醫學影像學[14-16]和藥理學[2]。在本節中,我們將詳細闡述因果關系如何用于改善醫療決策。例如,盡管來自EHRs的數據通常是觀察性的,但它們已經成功地用于若干ML應用,如建模疾病進展[18],預測疾病惡化[19]和發現危險因素[20],以及預測治療反應[21]。此外,我們現在有證據表明,算法在成像任務中實現了超人的性能,如分割[22],檢測病理和分類[23]。然而,精確醫學試圖實現的目標并不是以近乎完美的精度預測特定患者的疾病。相反,我們的目標是建立ML方法,從觀察性患者數據中提取可操作的信息,以便做出介入(治療)決定。這就需要CI,它超越了下面詳細介紹的用于預測的標準監督學習方法。為了在患者層面做出可執行的決定,我們需要評估治療效果。治療效果是兩種潛在結果的差異: 事實結果和反事實結果。為了進行可操作的預測,我們需要算法來學習如何對可能采取不同行動的假設場景進行推理,從而創建一個可以導航的決策邊界,以改善患者的結果。最近有證據表明,人類使用反事實推理來做出因果判斷[25],這為這種推理假設提供了支持。這就是為什么推斷治療效果的問題與潛在結果框架定義的標準監督學習[2]有本質區別[5,10]。根據定義,當使用觀測數據集時,我們從未觀察到與事實相反的結果。因此,針對個體的最佳治療(精準醫療[26]的主要目標)只能通過能夠進行因果推理的模型來確定,詳見§3.3。
復雜數據的因果機器學習
在§3中,我們關注在因果模型已知(至少部分已知)且變量劃分良好的情況下的因果推理。我們向讀者推薦Bica等人[2]對這些方法進行全面的綜述。然而,大多數醫療問題在因果推理的上游都有挑戰。在本節中,我們強調處理高維和多模態數據以及時間信息的需要,并討論從非結構化數據學習時在非分布設置中的泛化。
因果機器學習研究方向
本文的最后一部分討論了CML在醫療健康中的應用,包括復雜的多模態、時間和非結構化數據,并討論了一些未來的研究方向。我們根據§1中定義的三個類別來討論CML:(i)因果表征學習; (ii) 因果關系的發現; (iii) 因果推理。
因果表示學習
表示學習[82]指的是ML的組合視圖。我們考慮的不是輸入域和輸出域之間的映射,而是一種捕捉世界概念的中間表示。當考慮使用真實的醫療數據進行學習和推理時,這個概念是必不可少的。§4.3中考慮的高維和非結構化數據,沒有被組織成可以直接用于當前因果模型的單位。在大多數情況下,感興趣的變量不是,例如,圖像本身,而是它的生成因素之一,例如AD例子中的灰質體積。因果表征學習[9]將學習世界因素的概念擴展到用因果模型建模變量之間的關系。換句話說,目標是將表示域Z建模為§2.1中的SCM。因果表征學習建立在解糾纏表征學習文獻[83-85]的基礎上,旨在強化更強的歸納偏差,而非解糾纏表征通常追求的因素獨立假設。這個想法是為了強化遵循因果模型的潛在變量的層次結構,而因果模型又應該遵循真實的數據生成過程。
因果關系的發現
進行隨機對照試驗非常昂貴,有時不道德,甚至是不可能的。例如,為了了解吸煙對肺癌的影響,有必要強制隨機的個人吸煙或不吸煙。大多數真實的數據是觀察性的,發現變量之間的因果關系更具挑戰性。考慮到因果變量已知的設置,因果發現是學習變量之間因果關系方向的任務。在某些設置中,我們有許多輸入變量,目標是構建最好地描述數據生成過程的圖結構。在過去的三十年中,圍繞從觀測數據中發現因果結構的廣泛背景得到了發展,正如最近的主題綜述所描述的[6,86 - 88]。大多數方法依賴于條件獨立檢驗、對可能的DAGs和/或關于數據生成過程的函數類和噪聲分布的假設的組合探索(例如,假設真實的因果關系是線性的,帶有附加噪聲,或外源噪聲具有高斯分布)來尋找給定因果變量的因果關系。在醫療健康領域,Huang等人[89]和Sanchez-Romero等人[90]使用因果發現方法,利用功能性MRI數據了解大腦中不同的生理過程是如何相互造成因果影響的。因果發現仍然是一個開放的研究領域,從觀察數據發現因果效應[6,91]的一些主要挑戰是無法(i)識別所有潛在的偏差來源(未觀察到的混雜因素);(ii)為所有變量選擇適當的函數形式(模型錯誤說明);(iii)建立時間因果關系模型。
因果推理
據推測,人類通過直覺理論[35]內在地構建了生成因果模型來想象近似的物理機制。同樣,利用圍繞干預的因果模型的力量開發模型也將是有用的。因果模型可以被正式地操縱以衡量干預的效果。使用因果模型來量化干預的效果并思考最佳決策被稱為因果推理。正如前面§3.3中所討論的,因果推理在醫療健康中的一個關鍵好處是圍繞個性化決策。在SCMS(§2.1)中,個性化決策通常指的是回答關于歷史情況的反事實問題的能力,例如“如果患者接受了替代治療X會發生什么?”反事實可以通過(i)三步程序53進行估計,該程序最近通過深度學習[15,92]得到增強,使用生成模型,如歸一化流[93]、變分自編碼器[94]和擴散概率模型[95],或(ii)孿生網絡[96],該網絡增強了原始SCM,從而同時表示事實和反事實變量。深度孿生網絡[97]利用神經網絡進一步提高因果機制的靈活性。我們注意到,量化干預效果通常假設因果模型要么是明確給出的[15,98],要么是通過因果發現獲得的[99]。Aglietti等人[98]利用他汀類藥物對前列腺特異性抗原水平的因果效應模型來評估他們的方法[100],而Pawlowski等人[15]和Wang等人[101]則對大腦MRI圖像的數據生成過程建模。Reinhold等[102]在Pawlowski等人[15]的基礎上增加了多發性硬化病變的病理信息。在潛在結果框架(§2.2)中,已經提出了許多方法來根據觀察數據估計個性化(也稱為個體化或條件平均)治療效果。這些技術包括貝葉斯加性回歸樹[103]、雙ML[104,105]、帶積分概率度量[106]或正交約束[107]的神經網絡正則化、高斯過程[108]、生成式對抗網絡[109]或基于能量的模型[110]。另一種估計CATE的趨勢是基于元學習者[111,112]。在元學習設置中,傳統的(監督)ML被用來預測潛在結果和傾向的條件期望。然后,通過取估計的潛在結果之間的差值[112]或使用帶有回歸調整、傾向加權或雙魯棒學習的兩步程序[111]來計算CATE。
醫學與機器學習(ML)可以應用的其他領域不同。我們已經看到了其他領域的進步是由大量數據驅動的,是醫學的復雜性,而不是數據量,使挑戰變得如此艱難。但與此同時,對于那些真正有興趣探索ML邊界的人來說,這使醫學成為最令人興奮的領域,因為我們要形式化和解決現實世界的問題。這些解決方案具有重要的社會意義,它們可能會影響我們所有人。
ML當然已經在許多領域取得了令人印象深刻的成果。突出的例子包括計算機視覺和圖像識別,玩游戲或教機器人。由ML授權的AI非常擅長掌握這些東西,因為它們是很容易表述的問題,解決方案很好定義,也很容易驗證。“容易表述的問題”有明確的挑戰要解決,有明確的規則要遵守;“定義良好的解決方案”屬于一類容易識別的答案;而“可驗證的解決方案”是我們作為人類可以理解的,可以判斷模型是否成功。不幸的是,在醫學上,這些問題并沒有很好地提出,解決方案往往沒有很好的定義,也不容易驗證。 本教程將介紹大規模構建臨床決策支持系統、預測疾病軌跡、估計個性化治療效果、個性化主動監測和篩查以及跨臨床環境轉移知識的新方法。它還將討論如何使ML可解釋、可解釋和值得信任,以便臨床醫生、患者和政策制定者可以使用它獲得可操作的情報。最后,將討論如何集成所有這些技術來構建醫療保健學習機器,將僅捕獲數據的電子健康記錄轉化為個性化決策支持、合作、有效的健康管理和發現的引擎。
人工智能(AI)和精準醫療的融合有望給醫療健康帶來一場革命。精準醫學方法識別出對治療不太常見的反應或有獨特醫療需求的患者表型。人工智能利用復雜的計算和推理來產生見解,使系統能夠推理和學習,并通過增強智能使臨床醫生做出決策。最近的文獻表明,探索這種融合的轉化研究將有助于解決精準醫療面臨的最困難的挑戰,尤其是那些非基因組和基因組決定因素,結合來自患者癥狀、臨床歷史和生活方式的信息,將有助于個性化診斷和預后。
在美國國家醫學院(National Academy of Medicine)最近發布的一份關于人工智能(AI)在醫療保健領域當前和未來狀態的報告中,作者指出,人工智能在應對人類現實(包括疲勞和注意力不集中)和機器出錯風險方面提供了“前所未有的機會”,以增強專家的護理和人工智能提供的幫助。重要的是,報告指出,盡管在使用這些技術時必須謹慎,但仍有很大的希望。健康相關數據的數字化和技術的快速吸收正在推動醫療領域AI開發和使用的變革和進步。然而,多模態數據集成、安全、聯邦學習(這需要在隱私、大規模機器學習和分布式優化等領域取得根本性進展)、模型性能和偏差可能會對人工智能在醫療保健中的使用構成挑戰在醫療保健領域成功采用人工智能的三個主要原則包括數據和安全、分析和見解以及共享專業知識。數據和安全等同于對人工智能系統的訓練方式以及用于訓練它們的數據和知識的完全透明和信任。隨著人類和人工智能系統越來越多地合作,我們必須信任這些系統的輸出。
分析和見解等同于“增強智能”和“可操作的見解”支持人類的行為,而不是取代它們。人工智能可以結合來自多個結構化和非結構化來源的輸入,在語義層面進行推理,并在計算機視覺、閱讀理解、對話系統和多模式應用中使用這些能力,以幫助衛生專業人員做出更明智的決定(例如,醫生作出診斷,護士制定護理計劃,或社會服務機構安排為老年人提供服務)。共享的專業知識等同于我們與人工智能系統的互補關系,人工智能系統由人類專業人員訓練,并為人類專業人員提供支持,從而導致勞動力的變化,從而產生新的技能。創建前沿AI模型和構建高質量業務應用的能力需要能夠訪問最新硬件的熟練專家。大量未開發的數據可能對我們的健康產生巨大的影響——然而這些數據存在于醫療系統之外我們個人的健康在很大程度上受到生活方式、營養、環境和獲得保健的途徑的影響。這些行為和社會決定因素以及其他外生因素現在可以通過可穿戴設備和一系列醫療設備進行跟蹤和測量。這些因素約占我們健康決定因素的60%(行為、社會經濟、生理和心理數據),我們的基因約占30%,而我們的實際病史僅占10%。在我們的一生中,我們每個人將產生相當于3億多本個人和健康相關數據的書籍,這些數據可能有助于我們了解更長壽、更健康的生活。
大數據現象可以用五個v來描述:體量、速度、多樣性、準確性和價值。量是指大量復雜異構的數據,使得數據集過于龐大,無法使用傳統的數據庫技術進行存儲和分析。速度是指新數據生成和移動的速度。多樣性指的是結構化、半結構化和非結構化數據的不同類型,例如社交媒體對話和語音記錄。準確性是指數據的確定性、準確性、相關性和預測性。價值指的是將數據轉化為業務洞察。然而,數據的數量、種類、速度和準確性正在導致數據管理和工作負載的日益復雜——創造了對高級分析的更大需求,以發現洞察力——移動設備使技術更容易消費,創造了用戶對可視化分析的交互工具的需求。
大數據分析和人工智能在整個醫療保健領域越來越無所不在,包括5P領域:付款人、提供商、決策者/政府、患者和產品制造商。高達10%的全球衛生健康支出是由欺詐和濫用造成的,基于人工智能的工具有助于減少支付人項目中的欺詐、浪費和濫用。可靠地識別醫療編碼錯誤和不正確的索賠,可以節省大量的金錢、時間和精力,從而對支付人、提供者和政府產生積極的影響例如,IBM DataProbe是一種基于人工智能的商業智能工具,它能夠在2年內檢測并收回艾奧瓦州醫療補助企業醫療補助欺詐案中4150萬美元的服務費。在提供者領域,人工智能用于循證臨床決策支持,檢測不良事件,并使用電子健康記錄(EHR)數據預測患者再次入院的風險醫療政策制定者和政府使用基于人工智能的工具來控制和預測感染和疫情。FINDER就是一個例子,這是一個機器學習的模型,用于使用匿名和聚合的網絡搜索和位置數據實時檢測食源性疾病。另一個例子是使用IBM Connect360和IBM Watson護理管理器的綜合數據中心和護理管理解決方案,加州索諾馬縣政府機構在整個社區發生危機時,利用該方案改變了社會弱勢群體和其他流離失所者的健康和醫療保健該解決方案實現了在2017年和2019年索諾馬縣野火期間,將孤立的數據和服務集成到統一的公民地位視圖中,從結構化和非結構化來源識別健康的臨床和社會決定因素,構建算法將客戶與服務匹配,并簡化護理協調。隨著2020年初全球大流行性冠狀病毒疾病2019 (COVID-19)的出現,這種模型可用于預測高危人群,并可能為護理高危患者的臨床醫生提供額外的風險信息。AI在患者和生命科學/健康產品中的使用將在以下各部分中進行廣泛討論
隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。
//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c
引言
醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。
圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。
關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。
在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。
我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。
我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。
我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。
近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。
在機器學習取得成功的地方,它是非常成功的。
在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。
隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。
然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。
即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。
因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。
本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。
雖然像CNNs這樣的深度學習模型在醫學圖像分析方面取得了很大的成功,但是小型的醫學數據集仍然是這一領域的主要瓶頸。為了解決這個問題,研究人員開始尋找現有醫療數據集之外的外部信息。傳統的方法通常利用來自自然圖像的信息。最近的研究利用了來自醫生的領域知識,通過讓網絡模仿他們如何被訓練,模仿他們的診斷模式,或者專注于他們特別關注的特征或領域。本文綜述了將醫學領域知識引入疾病診斷、病變、器官及異常檢測、病變及器官分割等深度學習模型的研究進展。針對不同類型的任務,我們系統地對所使用的不同類型的醫學領域知識進行了分類,并給出了相應的整合方法。最后,我們總結了挑戰、未解決的問題和未來研究的方向。
【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述,共33頁pdf和172篇文獻,概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
?論文地址: //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?
摘要 在過去的十年里,對人工智能的需求顯著增長,而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而,為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練,但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習的工作負載分布到多臺機器上,并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
1. 引言
近年來,新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統,因為問題的復雜性,算法解決方案是不可行的。例如控制自動駕駛汽車[23],識別語音[8],或者預測消費者行為[82]。
在某些情況下,訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量,因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下,當數據本身就是分布式的,或者數據太大而不能存儲在一臺機器上時,集中式解決方案甚至都不是一個選項。例如,大型企業對存儲在不同位置的[19]的數據進行事務處理,或者對大到無法移動和集中的天文數據進行事務處理[125]。
為了使這些類型的數據集可作為機器學習問題的訓練數據,必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統,我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比,我們對該問題應用了一個整體的觀點,并從分布式系統的角度討論了最先進的機器學習的實踐方面。
第2節深入討論了機器學習的系統挑戰,以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構,涵蓋了從算法到網絡通信模式的整個堆棧,這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后,第5節討論了分布式機器學習的主要挑戰
2. 機器學習——高性能計算的挑戰?
近年來,機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法,但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此,一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時,HPC社區已經發現機器學習是一種新興的高價值工作負載,并開始將HPC方法應用于它們。Coates等人,[38]能夠在短短三天內,在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模,解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性,加速器通常部署在主要的高性能計算系統中。
與其他大規模計算挑戰一樣,加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。
3. 一個分布式機器學習的參考架構
圖1 機器學習的概述。在訓練階段,利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。
圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。
機器學習算法
機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:
反饋、在學習過程中給算法的反饋類型
目的、期望的算法最終結果
方法、給出反饋時模型演化的本質
反饋 訓練算法需要反饋,這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:
包括 監督學習、無監督學習、半監督學習與強化學習
目的 機器學習算法可用于各種各樣的目的,如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸
每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進,從而提高其準確性。通過算法的學習方式,我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。
圖3所示:基于分布程度的分布式機器學習拓撲
4. 分布式機器學習生態系統
圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。
5 結論和當前的挑戰
分布式機器學習是一個蓬勃發展的生態系統,它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的,必須克服一些基本的挑戰,例如,建立一種機制,使數據處理并行化,同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而,對于分布式機器學習的長期成功來說,仍然存在許多挑戰:性能、容錯、隱私、可移植性等。