亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

隨著醫學影像設施的最新發展,每天都會產生大量的醫學影像數據。這種不斷增加的數據量為研究人員提供了開發數據驅動方法和提供更好醫療服務的機會。然而,數據驅動的模型需要大量的數據來進行充分的訓練。此外,每個數據中心的可用數據量總是有限的。因此,在本地數據中心訓練的深度學習模型可能無法達到其總的性能能力。一個解決方案可以是將不同中心的所有數據積累到一個中心。然而,數據隱私法規不允許醫療機構輕易合并他們的數據,當涉及到來自多個國家的機構時,這就變得越來越困難。另一個解決方案是使用保護隱私的算法,它可以利用多個中心的所有數據,同時保持敏感數據的隱私。聯邦學習(FL)就是這樣一種機制,它能夠在不共享敏感數據的情況下部署在不同數據中心訓練的大規模機器學習模型。在聯邦學習中,不是傳輸數據,而是在本地數據集上訓練一個通用模型,并在數據中心之間傳輸。FL已被確定為一個有前途的研究領域,在醫學研究和實踐中可能有廣泛的用途。本文介紹了FL,全面探討了它的概念和最近在醫學影像方面的研究趨勢。

關鍵字

聯邦學習;保護隱私的機器學習;醫學影像

引言

深度學習在放射學領域顯示出巨大的前景。它已被廣泛用于各種醫學成像領域,并已在許多方面幫助了臨床醫生和放射學專家。放射學領域已經極大地受益于深度學習研究。事實證明,深度學習可以改善現有的腫瘤檢測模型,從早期處理階段,如MRI和CT的圖像增強、降噪、病變檢測和分割以及疾病監測。所有這些領域都顯示出人工智能(AI)在臨床上的應用前景廣闊。

深度神經網絡由許多層組成,有數十億個參數,它們通過訓練來學習從原始輸入數據到所需標簽的復雜、高維的映射[1]。在現實世界的醫療實踐中,訓練深度神經網絡的主要問題是需要大量的不同數據。在單一機構的單一數據集上訓練的神經網絡可能很容易被過度擬合,從而導致對該機構的強烈偏見和糟糕的概括性。此外,一個客戶的影像數據中的潛在模式可能會影響神經網絡的性能,而與圖像中的實際生物方式無關。例如,只包含一種模式或在特定圖譜上注冊的圖像的數據集可能會使深度學習模型偏向于該模式或圖譜,將不相關的數據捕捉為重要的預測因素。一個機構的數據質量取決于多種因素,如病人的數量、可用的影像機器的類型或數量,以及該機構可用的專家數量。并非所有的醫療機構都有大量不同的影像數據,因此深度學習模型通常在有限的數據集上進行訓練。這使得在病例數量少的情況下,臨床決策的負擔很重,這在罕見疾病中更經常發生。

解決這種數據短缺的一個潛在辦法是,從不同的客戶那里獲得影像數據集。這種方法有可能增加收集的數據的數量和多樣性。建立這種合作的最常見的方法是集中來自多個機構的大量不同的數據集,并在位于中央樞紐的累積數據集上訓練一個深度神經網絡,如圖1所示。然而,這種技術充滿了困難;嚴格的國家或地區隱私規則,如歐洲的通用數據保護條例或美國的HIPAA,使各機構不能輕易分享他們的病人數據。其他障礙可能來自于多個利益相關者,包括醫院、病人、研究人員、醫生和工業企業,他們都在追求自己的利益。一個機構為收集和清理數據所花費的大量時間和精力(也就是金錢)使其對與其他機構共享數據猶豫不決。

圖1.集中式數據共享。

最近在保護隱私的人工智能算法方面的進展在解決這個問題上起到了至關重要的作用。它們使研究人員和機構能夠在來自多個機構的不同影像數據上訓練他們的網絡,同時確保數據將被保存在本地,從而避免了與建立和維護一個廣泛的中央數據庫有關的許多問題。深度學習的一個一般性方法是分散或分布式學習。分布式學習可以被定義為一組算法,其中多個客戶端完成部分計算或數據存儲任務。數據分布允許眾多客戶參與到學習過程中,并在輸入數據量較大的情況下實現更高的性能。它一般涉及多個節點和客戶端做部分計算,每個節點和客戶端都在自己的本地數據庫上。分布式學習是出于各種原因,包括性能提升和大規模計算。聯邦學習(FL)是分布式學習的一個版本,為數據隱私至關重要的任務量身定做,這樣研究人員可以在進行分布式學習時保護隱私。這一功能使醫療保健中心能夠在不損害其本地數據隱私的情況下訓練深度學習模型。

FL算法

深度學習模型是一種基于人工神經網絡的算法形式。它使用大量的數據來從中提取模式。人工神經網絡一般由數以百萬計的參數組成,稱為模型權重。訓練一個模型是調整神經網絡的參數以執行任務的過程(例如,在成像領域的檢測、分類或分割)。訓練過程是通過將模型暴露在一個特定的數據集上幾輪來完成的。更多輪次和更廣泛的訓練數據通常會導致更準確的參數調整和更好的模型性能。一般來說,模型的大小取決于它們的復雜性和參數的數量,而不考慮它們被訓練的數據有多少。流行的深度學習模型的大小不超過大約150MB[2]。

因此,巨大的影像數據集的復雜模式可以在尺寸更小的模型中進行編碼。這一特點帶來的一個直接優勢是在分布式環境中。在這些情況下,共享模型比共享數據要實際得多。因此,在涉及大量數據(如高分辨率圖像或多層磁共振和CT掃描)的分布式環境中,共享模型是感興趣的主題。

FL是一種分布式學習方法,其中多個參與者在他們的數據上訓練(或更新)一個本地模型,而不需要實際發送數據到中心節點。一個全局模型根據從參與者那里收到的更新模型進行更新。這種訓練方式允許研究人員確保模型的私密性,并分散了繁重的計算過程。FL在通信方面也很有效,因為在這種情況下,通常只有模型的權重會被通信。在這方面,它解決了大量數據從一個機構轉移到另一個機構的基礎設施障礙。各種協調全局和局部模型更新的方法導致FL的多個版本。一般來說,聯邦網絡需要多個持有數據并進行本地訓練的客戶端和一個管理整個過程的中央可信服務器。

每個客戶端在其本地數據上訓練它從中央服務器得到的模型。為了獲得模型,客戶端向云服務器發送一個請求,通知服務器客戶端準備開始本地訓練會話。然后,請求被處理,最新的全局模型被發回給客戶端。接下來,訓練課程開始使用收到的模型和本地數據。本地訓練會話結束后,模型被返回,中心積累收到的更新。最后,全局模型由服務器根據收到的模型進行更新,并通知客戶,一個訓練輪成功完成。這些步驟的示意圖可以在圖2中找到。需要注意的是,醫院里用于訓練的模型必須與中央服務器使用的模型是同一類型。例如,兩者都必須使用相同編程語言的格式。因此,實際上,任何保留了本地模型類型和信息的傳輸形式都可以使用。對通信技術沒有一定的要求。信息可以使用任何形式的文件傳輸(例如,文件傳輸協議、安全殼協議文件傳輸協議、超文本傳輸協議和超文本傳輸協議安全)或使用這些協議的第三方軟件來傳遞。有幾個基于Python的軟件包被設計用于在聯盟環境中傳輸模型[3]。像 Jupyter notebook 這樣的開源 Python 包是運行 FL 應用的首選。然而,一些模型支持其他平臺,如網絡、移動和Broadcoms的Raspberry-pi[4]。

圖2.客戶端和服務器之間的通信,交換模型。

對于一家醫院來說,要加入FL網絡,可能需要來自不同領域的不同專家的合作。機構審查委員會或倫理委員會決定醫院如何參與聯合網絡以及對其他參與方的信任程度。這個委員會通常會建議準備數據的步驟,以便醫院能與其他醫院連接。PACS經理和醫院的技術員根據審查委員會準備的指南訪問、準備、標準化和去識別數據。數據標準化一般遵循FAIR原則。FAIR原則包括可查找、可訪問、可互操作和可重復使用的數據收集[5]。由于數據類型的不同而無法使用不同站點的數據的FL算法可以很容易地讀取和分析以FAIR方式收集的數據,這有助于在網絡上增加更多的客戶。一個例子是各站點的語言協議差異。統一資源標識符可以代表臨床數據,使自動化算法能夠讀取以FAIR原則為標準的臨床文本查詢[6]。整合FAIR數據收集,并將其作為建立FL網絡的第一步,可以加強FL網絡,并吸引更多機構加入網絡。然后將FAIR化的數據交給數據科學家和機器學習工程師,以建立一個FL框架。臨床醫生通過提供注釋的數據和專家支持來參與。他們也可以參與評估模型并提供專家反饋。

在放射學中的應用

盡管FL在大規模使用前仍需改進,但它在實際的醫學影像背景下,在醫學影像中的一些實現中顯示出了前景,導致了病人護理的改善。FL可以幫助小型診所中代表不足的病人,在這些診所中,他們是少數,可能會被忽視,并將他們帶入與許多其他類似病人的集合。FL在2019年冠狀病毒病(COVID-19)患者的研究中顯示出巨大的前景;據調查和報道,在一項針對五大洲20個中心的COVID-19患者的大規模研究中,FL對患者護理有明顯影響[7]。這些中心除了使用臨床數據外,還使用胸部X射線成像數據來確定醫院對COVID-19患者的護理級別和氧氣需求的分流。他們證明,FL模型對數據集有限的客戶效果最好。與在其本地數據上進行訓練時相比,這些客戶的模型性能明顯提高,從而改變了病人的情況。

另一個發現是,擁有不平衡數據的醫療中心有一些類別的樣本很少,導致類別的代表性不足。這些客戶看到這些病人類別的預測有了明顯的改善,這一點尤其重要,因為在COVID-19中,癥狀嚴重的病人一般屬于樣本較少的類別,而中度癥狀的病人較多。然而,他們的護理更關鍵,需要更多關注。在放射學的應用FL領域,有許多項目。作為腦瘤分割(BraTS)挑戰的額外努力,英特爾和賓夕法尼亞大學發起了一項廣泛的努力。這項挑戰是基于賓夕法尼亞大學生物醫學影像分析科提供的數據集[8]。

2018年BraTS挑戰賽的BraTS數據集已向公眾開放。該數據集由膠質瘤患者大腦的MRI影像組成,收集自不同機構的多項研究。四位放射學家手動注釋了MRI影像,將其歸入各種腫瘤類別。腫瘤被分為四種類型。U-Net是用于分割腫瘤的深度學習模型,FL網絡由一個主節點和許多客戶組成,每個客戶都有自己的數據。開發了兩個假想的客戶端,并將數據集分配給它們來評估FL模型。為了研究不同的數據分配算法,他們首先將數據隨機地劃分為筒倉。他們還根據數據的獲得地點分配數據,從而產生了非同質化的數據。在完成本地訓練后,許多客戶交付了一個模型。中央服務器收到來自各方的更新模型,選擇最佳模型,并將匯總的模型返回給客戶。這種訓練策略使服務器和客戶都能提高其性能。在收到中心節點的更新模型后,客戶每一輪都在更好的模型上工作。作為他們實驗的結果,他們得出結論,在語義分割的任務中,聯合訓練可以產生MRI分割掩碼,這些掩碼比在前提下訓練的模型更好或更有可比性。

Sheller等人[9]提出了一個使用FL進行腦腫瘤分割的項目,并取得了與集中式數據共享相當的準確性。他們證明,增加合作者的數量可以提高FL算法的性能和通用性。另一項研究提出了一個病人相似性分析,以尋找不同醫院內可能的類似治療的可比模式[10]。這項研究的目標是在保護病人的隱私和個人信息的同時,識別具有類似特征的病人。他們創建了代表病人的哈希代碼和一個控制整個過程的聯盟環境來實現這一目標。散列數據的優點是可以抵御逆向工程或對抗性模型攻擊。他們可以獨立預測五種疾病,使用平衡和不平衡的數據來評估他們提出的算法。

另一項努力是在不透露任何數據的情況下探索大腦的結構關系。作者使用主成分分析來發現不同數據集在聯合設置中的解剖學關系[11]。聯合主成分分析可以從幾個醫療機構的MRI影像中提取特征。他們的技術在幾個數據庫中得到了驗證,包括阿爾茨海默病神經影像倡議帕金森病進展標志物倡議、阿爾茨海默病最小間隔共振成像和英國生物庫[12]。

Balachandar等人[13]使用FL來解決不同機構的數據差異性問題。他們使用胸部X射線數據集對胸部掃描進行分類。同時,他們用自己提出的方法對視網膜治療數據進行分類。

FL研究的未來

一些研究趨勢表明,FL研究正在增長。FL的未來方向是將其與大數據技術相結合。在建立FL網絡后,可以將數據實時添加到現有網絡中。允許訓練和推理階段實時工作是FL網絡的一個潛在的未來方向。這可以是簡化預處理、訓練和數據處理。

預計FL網絡包括醫學影像數據,并在所有其他類型的醫學數據上工作。最近的FL實現大多利用了影像數據和專門為圖像處理設計的神經網絡。然而,其他格式的數據,特別是電子健康記錄(EHRs),開始被添加到目前的網絡中,并且是一個當代的發展主題。EHR數據除了醫學影像數據外,還包括從治療史到過去用藥的各種信息;EHR數據一般可以是文本、醫學字母、分類數據、定量數字和二進制數據[14]。將這些信息納入成像數據,可以幫助開發更好的模型。例如,將各種治療方案作為深度學習模型的輸入變量,可以幫助放射科醫生在治療方案中進行選擇。使用EHR數據也可以幫助確定疾病的類型或階段,因為研究人員最近使用EHR來檢測阿爾茨海默病[15]。

目前仍在研究將EHR數據格式轉換為深度神經網絡可使用的格式。使用自然語言處理使文本記錄可用于深度學習已經取得了一些進展[16]。為此,研究人員開發了一個數據標準化框架,從文本數據中提取有意義的特征,并使其在機器學習管道中可用。醫學圖像與基因組學數據的結合也可以成為一個研究方向。因為基因組學數據不像影像數據那樣普遍和容易獲得,基因組學中的數據限制問題比醫學影像問題大得多。因此,FL可以在將基因組學數據引入醫學影像領域方面發揮舉足輕重的作用。醫療中心在未來可以通過FL與他們的各種類型的數據進行交流,所以合作水平有望擴大。

結論

FL是一項正在發展和成長的技術,已經影響到多個領域的各個方面。醫院轉向FL技術的主要原因是,隱私和安全是他們的主要優先事項,而且對病人數據的隱私有嚴格的規定。FL為機構提供了直接和安全的數據訪問,并利用幾個機構的能力來加強放射學研究,同時克服了隱私和數據共享法律法規的限制。建立一個聯盟環境有助于實現與集中式環境相當的性能。它可以促進幾個機構之間的全球合作,因此重新定義了放射學中的人工智能范式。這篇文章對想要了解FL理念及其在放射學中的應用的放射科醫生和數據科學家應該是有幫助的。

收獲要點

有了FL,建立多中心醫學影像處理網絡比以往更順暢。在過去的幾年里,多機構網絡中的數據隱私一直是一個嚴重的問題。這個問題可以通過共享模型而不是數據來成功解決。FL探索了將敏感數據保存在私人孤島中,并只通過使用模型來訓練深度學習算法的方法。

  • 聯邦網絡的基礎設施要求包括數據存儲技術、標準化管道、數據去識別器和強大的處理單元。擁有可靠的網絡接入對建立大規模鏈接也至關重要。因此,可能需要PACS管理者、臨床醫生、數據科學家和臨床技術專家之間的合作來建立這整個管道。

  • 在CT掃描和MRI圖像上用FL進行了一些放射學任務。這些算法在COVID-19檢測、腦瘤分割和視網膜治療方面取得了可喜的成果。

  • FL的一個未來發展可能是它與大數據技術的整合。此外,另一個研究方向是使算法更加通用,以便EHR數據也能被使用。自然語言處理是一個活躍的研究方向,以實現文本和影像數據的結合。這種結合已被證明可以改善阿爾茨海默氏病患者的診斷。

鳴謝

本研究得到KWF Kankerbestrijding和荷蘭科學研究組織AES的支持,項目編號為17924,AI在醫學成像中對癌癥用戶的支持,作為他們聯合戰略研究計劃的一部分。腫瘤學的技術IL。該合作項目是由荷蘭衛生署提供的PPP津貼共同資助的,以刺激公私伙伴關系。

付費5元查看完整內容

相關內容

智慧醫療英文簡稱WIT120,是最近興起的專有醫療名詞,通過打造健康檔案區域醫療信息平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療設備之間的互動,逐步達到信息化。

人工智能(AI)的最新進展與當今臨床系統產生的大量數據相結合,促進了影像AI解決方案的發展,它貫穿了醫學影像的整個價值鏈,包括圖像重建、醫學圖像分割、基于圖像的診斷和治療計劃。盡管人工智能在醫學影像領域取得了成功并具有巨大潛力,但許多利益相關者對影像人工智能解決方案的潛在風險和道德影響感到擔憂,認為其復雜、不透明,在關鍵的臨床應用中難以理解、利用和信任。盡管有這些擔憂和風險,但目前還沒有具體的指導方針和最佳做法來指導未來醫學影像領域的人工智能發展,以提高信任度、安全性和采用率。為了彌合這一差距,本文介紹了從歐洲五個大型健康影像人工智能項目積累的經驗、共識和最佳實踐中精心挑選出來的指導原則。這些指導原則被命名為FUTURE-AI,其組成部分包括(i)公平性,(ii)普遍性,(iii)可追溯性,(iv)可用性,(v)穩健性和(vi)可解釋性。在一個循序漸進的方法中,這些準則被進一步轉化為一個具體的建議框架,用于指定、開發、評估和部署技術上、臨床上和道德上值得信賴的人工智能解決方案到臨床實踐中。

關鍵詞:人工智能,醫學影像,可信度,建議,指南

1. 引言

在希望和炒作中,人工智能(AI)被廣泛認為是未來醫療領域最有前途和顛覆性的技術之一。由于機器學習技術適合于促進大型復雜數據集的分析,醫學影像是過去幾年中人工智能發展最多的醫學專業[5]。隨著大數據和機器學習的出現,醫學影像和放射學的整個價值鏈上都出現了影像人工智能解決方案,包括圖像重建[144, 153]、醫學圖像分割[167, 21]、基于圖像的診斷[104, 100]和治療計劃[65, 182]。美國放射學會在線維護的FDA批準的人工智能算法的綜合清單也充分說明了該領域的最新發展[7]。

如果得到適當的實施,人工智能有望在未來的醫學影像中發揮重要作用,它可以加強醫學圖像的獲取、處理和解釋,幫助提取和結合新的信息和影像生物標志物,以加強對病人的評估、預測和決策,從而協助臨床醫生更有效和更準確地診斷和管理病人。然而,盡管該領域在過去幾年中取得了進步和發展,但在臨床實踐中對影像人工智能技術的采用和部署仍然有限。最近在澳大利亞和新西蘭進行的一項臨床醫生調查顯示,雖然絕大多數放射科醫生都認為引入人工智能會改善他們的工作,但超過80%的受訪者還沒有在日常工作中使用人工智能[151]。

同時,許多利益相關者對人工智能在醫療領域的潛在風險、倫理影響和缺乏信任表示擔憂,特別是包括醫學影像。人工智能工具仍然被視為復雜、不透明的技術,難以被臨床醫生和患者理解、利用和完全信任[142]。人們擔心,當人工智能工具應用于可能與訓練條件不同或出乎意料地偏離(哪怕是輕微偏離)的影像條件時,會產生未被發現的錯誤,給患者帶來有害后果。由于現有的影像學數據庫通常在性別、種族、地理和社會經濟方面是不平衡的,因此存在一種風險,即訓練有素的人工智能算法會對代表性不足的群體產生偏見,從而加劇現有的健康差異[157, 85]。還有人擔心人工智能工具對經驗豐富和經驗不足的放射醫師的決策和解釋技能的影響[132]。

重要的是,目前用于醫學影像的人工智能解決方案在開發和驗證時,很少有機制能夠在其整個部署周期內對其進行監測,定期評估性能的變化,特別是當影像硬件或協議發生變化時,或者隨著新的、額外的影像研究和更豐富的數據集的出現,能夠持續學習并評估其對人工智能工具的影響。盡管有這些擔憂和風險,目前還沒有具體的指導方針和最佳做法來指導未來醫學影像領域的人工智能發展,以提高信任度、安全性和采用率。歐洲和北美放射學協會最近就放射學中人工智能的倫理挑戰發表了一份聯合聲明,稱 "放射學界應從現在開始制定人工智能的倫理和實踐準則"[49]。

圖1:作者提出的FUTURE-AI指導原則,用于開發、評估和在臨床實踐中部署可信賴的、安全的和符合道德規范的醫學影像AI解決方案。這些指導原則是基于五個大型歐洲醫學影像AI實施項目的共識和成熟的最佳實踐而定義的。

**本文定義了名為FUTURE-AI的新指導原則,并將其轉化為開發未來醫學影像領域AI解決方案的具體建議和最佳實踐。**建議的指導原則是(i)公平性,(ii)普遍性,(iii)可追溯性,(iv)可用性,(v)穩健性和(vi)可解釋性,如圖1所示。這些原則以及相關的建議和最佳實踐是在五個大型歐洲健康影像人工智能項目(AI4HI網絡,包括EuCanImage、PRIMAGE、CHAIMELEON、INCISIVE和ProCancer-I項目)積累的經驗和成果基礎上確定的。本文所詳述的當前建議促進了FUTURE-AI指導原則的應用,并包括一套55個核對點,旨在指導醫學影像領域的人工智能設計者、開發者、評估者、最終用戶和監管者。以循序漸進的方式,這些指導原則將加強影像人工智能算法的規范、實施、評估和部署,在未來的放射學實踐中,這些算法在技術上、臨床上和道德上都是值得信賴的。

付費5元查看完整內容

摘要

聯邦學習是一種機器學習方法,它允許在多個客戶端之間分布式訓練深度神經網絡,同時保護每個客戶端的數據隱私。由于醫療數據的隱私性考慮,聯邦學習在醫學影像方面很有幫助。在醫院建立聯邦網絡有獨特的挑戰,主要是因為醫學影像數據和聯邦學習算法都有自己一套獨特的特點。本文介紹了醫學影像中的聯邦學習算法,并討論了其在現實世界中實施的技術挑戰和注意事項

關鍵字

聯邦學習;醫學影像;保護隱私的機器學習

引言

隨著機器學習在醫療和計算機輔助診斷領域的快速發展,醫療數據的獲取已成為人們關注的問題。臨床醫生、計算機科學家和醫療技術專家需要獲得更多的數據,以實現基于機器學習的項目。然而,要在建立更強大的機器以用于醫療行業和在隱私考慮下訪問大量數據的限制之間取得平衡,始終是一項具有挑戰性的任務。一般來說,共享數據需要醫院解決《通用數據保護條例》的限制,并得到機構審查委員會的批準。機構審查委員會或倫理委員會決定一家醫院可以在多大程度上與其他醫院共享信息,并確保醫院遵守《一般數據保護條例》的限制。因此,醫院的數據中心通常不具備訓練深度神經網絡所需的大型和多樣化的數據集。

聯邦學習(FL)[1]是由McMahan等人提出的一個機器學習概念,以解決這個問題。在這個概念中,用來自多家醫院的數據集訓練神經網絡,整個訓練過程通過一個中央服務器管理。在每一輪中,醫院在其本地數據上訓練一個神經網絡,并與中央服務器共享更新的模型。服務器收集所有更新的模型,并將其匯總為一個更新的全局模型。在下一輪中,更新的全局模型被送回醫院。這種訓練方式使研究人員能夠使用來自多個醫院的數據,同時確保敏感數據被保存在本地。

目前存在幾種FL算法。McMahan等人[1]提出了聯盟平均法(FedAvg),以盡量減少醫院之間的參數變化。該算法簡單明了。每輪選擇一個客戶端的子集。訓練分布在多個客戶端之間。每個客戶端將在自己的本地數據集上計算一個更新的模型。客戶端上的所有模型實例應該從相同的隨機初始化開始,以實現收斂。一旦他們的本地訓練完成,客戶端就會與中央服務器通信。最后,中央服務器收集各客戶端的更新。在這個階段,可以看到本地訓練的直接效果。更新后的全局模型可以針對測試數據集進行測試,將其與上一輪的性能進行比較,可以了解在上一輪訓練中取得了多少改進。這個步驟的圖示見圖1。基于區塊鏈的技術也可以用在聚合階段。在區塊鏈網絡中,本地客戶(礦工)取代了中央服務器,并在他們之間分配集成過程。在這種情況下,整個過程將是去中心化的。區塊鏈網絡可以很有價值,因為它們可以防止中央服務器或客戶端失敗[2]。

圖1.云服務器從客戶端收集本地更新的模型。

另一種方法是對在客戶上單獨訓練的本地模型的輸出進行平均化(合集單一客戶模型)。集成學習的一般定義是不同的機器學習算法在做同樣的任務時合并成一個算法。每個算法都從輸入數據中提取信息或特征,然后使用各種機制,如平均法和投票法,將所得信息進行集成。一般來說,合集的表現一直優于其單獨構成的每個算法。在集合學習的聯盟設置中,模型和數據都不會在訓練周期中的客戶之間共享。所有的客戶都將被分配到一個類似的模型,其初始值是隨機的。每個客戶都將訓練自己的模型。在部署階段,他們對同一任務的輸出將被平均化,從而形成一個來自多個模型的累積知識。

第三種算法是單一權重遷移(SWT)。在這種算法中,一個深度學習模型在單個客戶端訓練到某一特定時間,然后轉移到下一個客戶端。有許多選項可以決定何時完成局部訓練并將其模型傳遞給下一個客戶端。標準是每個客戶端的歷時數和驗證損失或準確性,這取決于問題。循環權重轉移(CWT)是另一種算法,在這種算法中,模型在每個客戶端被訓練了預定的歷時數,然后轉移到下一個客戶端。在這種算法中,模型對每個客戶端的訪問多于一次。

在FL場景中,模型和任務的功能因FL算法的不同而不同。遷移模型的算法比其他算法的功能更全面,適應性更強。深度學習模型在聯邦環境中的表現也會因模型而異。模型的適應性可以決定一個FL網絡的整體性能。例如,研究表明,一些深度神經網絡組件(如批量歸一化層)會導致性能問題,在聯邦環境中更難調整。相反,像卷積層這樣的組件可以很容易地被平均化,在一個適當的全局模型中平均化它們的結果。因此,擁有更多合適組件的深度學習模型是FL的更好選擇。研究正在進行中,以開發在聯邦環境中表現更好的特定模型[4]。

FL算法的比較

我們可以根據服務器和客戶端之間交換的內容對算法進行分類,以比較聯邦算法。FedAvg、SWT和CWT等技術在服務器和客戶端之間傳輸模型。像分割學習[5]這樣的方法,可以轉移神經網絡的中間層輸出。中間層的輸出可以被看作是輸入數據的一種扭曲形式。換句話說,當神經網絡處理輸入數據時,它經歷了大量的修改,扭曲了輸入。集成合方法等共享其模型的最終輸出,并將其傳播到中央服務器。

在模型被移到中央服務器的方法中,傳輸的數據量相對很小,而且與每個站點的訓練數據量無關。它完全由深度學習模型的大小決定。大多數流行的深度學習算法的大小為幾十兆字節。然而,一個傳輸模型的FL算法不一定有很低的整體通信開銷。交換的總體數據量也取決于客戶端和服務器之間的通信回合數。超參數可以決定通信回合的數量,如果客戶端之間的交換量過大,通信開銷可能會很高。

相反,在傳輸某種類型的實際數據的算法中,無論是扭曲的輸入數據(例如,分割學習[5])還是輸出數據(例如,集成模型),發送的數據大小可能會有很大的變化。然而,由于醫學影像數據是巨大的,所傳達的信息量通常比傳輸模型的方法更重要。CDS也屬于這一類,因為它需要實際的數據傳輸到一個中央服務器。這兩組在通信負擔以及隱私水平方面有很大的不同。因為輸入和輸出數據沒有以任何格式發送,遷移模型的方法更安全,因為從深度學習模型中檢索病人數據是很困難的。

在集成模型中,集成過程在本地完成,模型的輸出(而不是模型參數)被發送到全局服務器。因此,避免了繁重的服務器端計算,并且可以很容易地建立一個聯邦網絡。因為集成模型被證明在醫學影像的各個領域表現良好,使用集成模型可以幫助提高聯邦網絡的準確性、通用性和穩定性。然而,集成方法也帶來了一些挑戰。首先,在這種情況下,數據泄漏的風險很嚴重。某種輸出數據,如分割掩碼,很可能會暴露患者的身份。第二,與模型的大小相反,輸出的大小可以有很大的不同。圖像格式的輸出需要太多的通信負荷。此外,集成模型的設計依賴性很強。不一定具有相同目標函數的模型可以被組合成一個集合體。這導致了一個復雜的多目標模型具有不同的優化目標。這不一定是有害的,但缺乏對集成理論分析的研究,集成的結果幾乎總是不明確的,使得集成方法不可靠。

此外,在訓練時間、模型復雜度、性能和通用性之間總是存在一個折中。盡管這些措施在單個機器學習模型中已經被徹底研究過了,但關于它們在復雜的集合體中的關系的文獻仍然沒有太多的探討。

比較FL模型的另一個方面是,FL算法,其中的模型被遷移,可以一致地被中央服務器平均化,無論他們執行的是什么任務。只要有一個合適的深度學習模型,執行分類、分割、回歸或其他任務的深度神經網絡就可以被平均化。所有提到的任務都已經被證明是以聯邦的方式進行的。然而,對于其他聯邦的算法來說,平均化許多來源的輸出并不總是可行的。例如,如果任務是多類分類,集成方法不能簡單地平均不同客戶的類輸出。因此,集成方法在它能處理的工作中是有限的。

一些研究出版物已經發表,對FL的實現進行了比較。Nilsson等人[6]在實踐中比較了各種FL方法。他們證明FedAvg是最好的FL算法。盡管它的性能比CDS略低,但在他們的比較性能分析中,它實際上與非聯盟結構相當。FedAvg算法和其他FL方法有許多變種。然而,原始的FedAvg方法仍然是比較研究中的頂級方法之一。Chang等人[3]在治療學領域調查了幾種FL算法。根據這項研究,FedAvg與其他算法相比沒有任何偏見,因為它平等地考慮所有的客戶,并且不按任何特定的順序排列。如圖2所示,在SWT和CWT等算法中,客戶被放在一個序列中,一個接一個地進行訓練。作為災難性遺忘的結果,模型更多的是代表它所觀察到的最近的客戶,而較少代表早期的客戶[7]。因此,在有順序訓練的模型中,存在著偏向于最近的機構的偏見。盡管CWT可以通過在機構中多次循環運行模型來減輕這種影響,但偏見仍然存在。表1顯示了FL算法的基本特征。表1顯示了FL算法的基本特征,還有一個這些算法在醫療領域的使用案例的樣本。

圖2.不同分布式學習方法的示意圖。(a) 集成方法。客戶端在自己的數據集上訓練本地模型;不同客戶端的模型輸出被平均化。(b) 聯邦平均法。一個初始模型被發送到客戶端;每個客戶端在自己的數據上訓練模型,得到的本地模型在一個中央服務器上進行平均化。(c) 單一權重遷移。一個初始模型依次通過客戶端,對每個客戶端訪問一次。最終模型是在最新的客戶端上訓練的模型。(d) 循環權重遷移:類似于單次權重遷移,但模型在機構中遷移多次。

表1.FL方法的比較

CDS=集中數據共享;COVID-19=2019年冠狀病毒病;CWT=循環權重遷移;EHR=電子健康記錄;FedAvg=聯邦平均;FL=聯邦學習;SWAT=單一權重遷移。

Pan等人[8]研究了基于影像數據的自動骨齡估計的模型集成的影響。結果顯示,結合異質的、不相關的模型可以得到更穩健的集成。相反,集成頂級模型并不一定能確保一流的性能。研究人員能夠證明FL數據如何幫助識別可比較的病人,同時保護他們的隱私。

挑戰和考慮因素

在放射學方面,FL仍有很長的路要走。在理論表述和實際執行方面都有許多挑戰。FL算法可以分為完全去中心化的、需要可信中央服務器的點對點方法。每一類都會有其挑戰。一般來說,有中央服務器的方法提供更多的靈活性和更好的性能,而分布式方法則更可靠和安全。

然而,FL基礎設施仍然存在一些風險[9]。對手可以從本地模型更新中重建私人數據[10]。醫院可以做額外的安全措施來防止對手訪問服務器和客戶之間的交換數據。

數據的異質性

FedAvg算法的作者聲稱,他們提出的方法可以處理異質性數據。然而,數據的分散結構使得數據處理具有挑戰性,無法驗證其結論的完整性和質量。進一步的調查顯示,這種說法并不總是有效[11]。幾乎在所有情況下,異質數據都會惡化FL模型的準確性。分歧的程度取決于數據的異質性程度。局部模型在具有不同患者特征的數據上進行訓練,導致全局模型不能代表所有的特征。在某些情況下,異質數據阻礙了模型的收斂。

數據的同質性極大地影響了要選擇的聯邦模型的版本來訓練模型。CDS和FL之間的差異可能從相似到CDS更好,這取決于數據的情況。一個經驗法則是,如果數據在不同的數據中心其分布差異較大,在每一輪中簡單地平均每個客戶的數據可能會對性能產生負面影響。

Zhao等人[12]研究了數據分布對FL算法的最終性能的影響。根據他們的研究,數據分布的差異會對模型的準確性產生高達55%的負面影響。另一個困難是,數據的異質性可能會導致這樣一種情況:一個最佳的全局模型對某些客戶來說可能是一個糟糕的模型,或者一個最佳的全局模型對某些客戶來說效果很好,而對其他客戶來說表現很差。因此,所有參與者應在培訓前就最佳模型訓練的概念達成一致。應該進行進一步的技術研究,找到用異質數據更新中心模型的最佳技術。FedAvg是積累客戶數據的標準方法。盡管如此,其他能夠解決分布差異的分布式優化方法也是一個研究課題。

偏見

偏見是分布式網絡中一個普遍存在的問題。偏見是一種狀態,即神經網絡比其他客戶更傾向于某個客戶的分布。它導致模型在該客戶上表現良好,而在其他客戶上的表現則受到影響。偏見的原因可能是客戶數據的大小或分布的不同。另外,FL算法本身也可能是一個偏見的來源。

Sheller等人[7]表明,CWT是一種比SWT偏見小的算法。偏見的程度可能不同,取決于哪個客戶最后被訓練。相比SWT和CWT,他們更傾向于FedAvg。FedAvg更公平地進行FL。對于像SWT和CWT這樣的算法,總是偏向于它們所訓練的最新客戶。然而,在FedAvg中,本地訓練的結果每一輪都被匯總,避免了偏見。在SWT中,全局模型在訪問每個客戶后都會發生變化,后續的客戶會減輕模型對前一個機構的偏見。然而,對于模型所訓練的最新機構來說,并沒有緩解。

全局匯總方法(即服務器算法)應該被設計為最小化偏見。它還應該對局部變化以及安全措施所增加的擾動具有魯棒性。通過計算每個客戶產生的偏見水平,然后修改算法以解決分布中的差異,可以減少偏見并設計捕捉多樣性的模型。

然而,如果適當考慮到分布差異,在訓練后期仍可能出現偏見。一些特征以及一般的數據分布,可能會隨著時間的推移而變化。例如,某家醫院的某一疾病患者的數量可能會因為一些原因而改變。這可能會導致領域轉移:客戶的數據分布發生變化。在數據域轉移方面可以有更多的工作,并以某種方式明確解決不同機構或一個機構之間的性別、病人情況、年齡和疾病的改變。模型也可以進一步發展,將經濟或種族狀況考慮到模型訓練中,并修改模型以處理圖像的多樣性[13]。

缺少標準數據

標準化的數據可以防止不相關的信息在神經網絡中被認為是有意義的。它消除了機構之間的差異性。電子數據管理是醫學影像和醫學通信的規范,DICOM是全球公認的圖像數據格式,也是電子文件存儲的近乎全球的護理標準。然而,在醫學影像領域,并非所有可用的數據都是標準化的。許多機構仍然缺乏基礎設施,無法按照目前的管理標準處理其影像數據。其中一個因素是缺乏一種通用的方法來組織和管理病人記錄。數據管理的成本很高[14]。并非所有醫院都有先進的數據管理設施。這個問題導致參與研究的醫院被預選,這也是偏見的一個來源。

由于模式、維度和特征的多樣性,以及在特定協議內的收購、醫療設備品牌或當地人口統計學的差異等變量,醫療數據非常多樣化。目前還沒有統一的數據標準化方法。因此,醫療聯邦網絡很可能會有數據質量和分布不一的客戶。在這種情況下,像FedAvg這樣的方法一般可能會失敗。避免偏見的一個方法是協調數據,使每個客戶的數據類型相似,遵循相似的預處理。這也可能需要在機構間分享元數據,以找到適合所有機構的數據協調的一般方法。然而,考慮到各個機構的限制,這可能是很棘手的。因此,FL系統進一步發展的一個途徑是,臨床醫生和計算機科學家合作,在多個機構之間對隱私限制和考慮進行標準化處理。

隱私和安全

數據泄露是一個重要的問題,醫療數據必須按照公認的保密程序加以保護。事實證明,FL通過將數據保存在本地,有效地保護了病人的隱私和匿名性。然而,FL也有一些與隱私相關的挑戰。盡管許多人試圖從DICOM圖像中去除個人數據,但病人信息仍然可以被重新識別[15,16]。最近的研究已經成功地從MRI數據中重建了一個病人的臉。此外,對手可以竊取數據或訪問非加密網絡的算法。

此外,深度學習模型在其攜帶的權重中仍有一些敏感信息。在一個去中心化的網絡上,只用一個客戶端的本地模型來重建病人的部分信息是可行的[17,18,19]。敵方可以解密深度學習模型,并以非常高的精度揭示患者的信息[20]。惡意的一方可以歪曲深度學習模型。如果在實踐中使用,這種模型產生的錯誤輸出會產生嚴重后果。因此,應該確保模型是安全的,對手不能破壞模型,以在現實世界中使用[21]。

有一些具體的措施來改善隱私。可以采取特定的對策,如模型加密、差分隱私(DP)[22]、針對惡意客戶的對抗性防御[19],以及增加通信安全。DP指的是保持數據集的全局統計分布,同時盡量減少個人可識別信息的做法。DP可以通過向每個樣本添加擾動來完成。向數據集添加噪音以減少私人數據被泄露的機會,是基于這樣的論點:通過隨機改變數據集,人們可以保留一般的數據分布,而單個樣本則被改變。添加系統噪音有助于機器模型學習訓練數據的整體分布,同時保持每個樣本的匿名性。

然而,這種對策使訓練算法復雜化,并會影響訓練性能。有時需要更長的訓練時間,或者準確率會急劇下降。這可能會給整個網絡帶來額外的成本。因此,考慮部署反措施是否有必要是非常重要的。實施這些措施的成本效益主要取決于參與各方的信任程度和項目規模。如果客戶不互相信任,那么DP是必須的。這是因為聯合的客戶有定期的溝通,關鍵信息可以在互動中交換。所以每個客戶的數據都應該受到保護,不被其他客戶發現。這表明澄清客戶之間的信任程度是多么重要。這個論點在完全去中心化的算法中是成立的,在這種算法中沒有中心節點參與,在包括中心服務器的算法中也是如此,在這種算法中,客戶端-服務器的信任也是至關重要的。完全的圖像匿名化仍然是一個問題。在沒有加密的情況下,攻擊者可能會從本地數據中心獲得私人信息,或者攔截通信途徑,搶奪傳遞的數據。

系統架構

聯邦網絡中的醫療數據需要在內部或基于云的數據存儲。醫院可能需要私人或基于云的計算能力,以及用于數據預處理和標準化的軟件,如PACS。為了讓本地的模型訓練硬件(圖形處理單元),應在本地中心建立連接和數據中心。這些都帶來了它們的挑戰,如高計算能力,以確保與其他客戶的和諧,以及不同中心之間的高性能帶寬和連接,這在醫療中心并不總是可行的。許多醫院仍然缺乏計算資源和強大的互聯網連接[23]。此外,為了使整個網絡正常工作,應該設計出冗余的計算設施和數據中心,以防止數據丟失。如果一個計算客戶端出現故障,網絡可以繼續其訓練,這就帶來了額外的挑戰。網絡的穩健性也很關鍵;聯邦模型的結構應該是:增加或刪除客戶端以及增加或減少中心的數據量不會對病人數據或模型隱私產生負面影響。

總結

本文介紹了用于放射學的主要FL算法,并比較了它們的特點。一個聯邦環境面臨著無數的挑戰;設計算法來解決這些問題的結果是各種具有不同優化目標的算法。一般來說,發展的重點是隱私、通信負載、數據異質性和模型性能作為他們的目標。本文討論并比較了基于這些目標的FL算法。我們首先介紹了FL和它在醫學影像研究中的重要作用。然后,我們介紹了最流行的FL算法,并討論了它們的挑戰和注意事項。這些挑戰是目前的研究方向,在實現FL網絡時需要格外注意。

收獲要點

  • 對醫學影像實施FL管線可以在很大程度上減輕隱私問題。然而,醫學圖像和醫療機構的獨特特征會造成特定的障礙,與其他數據類型遇到的障礙有很大不同。

  • 醫療機構通常缺乏基于云的或內部的計算設施,這對建立聯邦網絡至關重要。他們可能還需要準備數據管理和標準化管道,并擁有強大的網絡連接。

  • 主要的功能挑戰包括偏向一家醫院、數據異質性、本地模型性能和安全問題。

  • 為解決這些問題,設計了幾種FL算法。一些有希望的結果增強了隱私、通信負載、數據異質性和模型性能。研究還在進行中,通用的解決方案還沒有出現。

鳴謝

這項研究得到了KWF Kankerbestrijding和荷蘭科學研究組織DomainAES的支持,項目編號為17924,AI in Medical Imaging for novel Cancer User Support,作為他們聯合戰略研究計劃的一部分。腫瘤學技術IL。該合作項目是由荷蘭衛生署提供的PPP津貼共同資助的,以刺激公私伙伴關系。

付費5元查看完整內容

聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.

大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].

機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.

為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].

綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.

付費5元查看完整內容

人工智能(AI)和精準醫療的融合有望給醫療健康帶來一場革命。精準醫學方法識別出對治療不太常見的反應或有獨特醫療需求的患者表型。人工智能利用復雜的計算和推理來產生見解,使系統能夠推理和學習,并通過增強智能使臨床醫生做出決策。最近的文獻表明,探索這種融合的轉化研究將有助于解決精準醫療面臨的最困難的挑戰,尤其是那些非基因組和基因組決定因素,結合來自患者癥狀、臨床歷史和生活方式的信息,將有助于個性化診斷和預后。

在美國國家醫學院(National Academy of Medicine)最近發布的一份關于人工智能(AI)在醫療保健領域當前和未來狀態的報告中,作者指出,人工智能在應對人類現實(包括疲勞和注意力不集中)和機器出錯風險方面提供了“前所未有的機會”,以增強專家的護理和人工智能提供的幫助。重要的是,報告指出,盡管在使用這些技術時必須謹慎,但仍有很大的希望。健康相關數據的數字化和技術的快速吸收正在推動醫療領域AI開發和使用的變革和進步。然而,多模態數據集成、安全、聯邦學習(這需要在隱私、大規模機器學習和分布式優化等領域取得根本性進展)、模型性能和偏差可能會對人工智能在醫療保健中的使用構成挑戰在醫療保健領域成功采用人工智能的三個主要原則包括數據和安全、分析和見解以及共享專業知識。數據和安全等同于對人工智能系統的訓練方式以及用于訓練它們的數據和知識的完全透明和信任。隨著人類和人工智能系統越來越多地合作,我們必須信任這些系統的輸出。

分析和見解等同于“增強智能”和“可操作的見解”支持人類的行為,而不是取代它們。人工智能可以結合來自多個結構化和非結構化來源的輸入,在語義層面進行推理,并在計算機視覺、閱讀理解、對話系統和多模式應用中使用這些能力,以幫助衛生專業人員做出更明智的決定(例如,醫生作出診斷,護士制定護理計劃,或社會服務機構安排為老年人提供服務)。共享的專業知識等同于我們與人工智能系統的互補關系,人工智能系統由人類專業人員訓練,并為人類專業人員提供支持,從而導致勞動力的變化,從而產生新的技能。創建前沿AI模型和構建高質量業務應用的能力需要能夠訪問最新硬件的熟練專家。大量未開發的數據可能對我們的健康產生巨大的影響——然而這些數據存在于醫療系統之外我們個人的健康在很大程度上受到生活方式、營養、環境和獲得保健的途徑的影響。這些行為和社會決定因素以及其他外生因素現在可以通過可穿戴設備和一系列醫療設備進行跟蹤和測量。這些因素約占我們健康決定因素的60%(行為、社會經濟、生理和心理數據),我們的基因約占30%,而我們的實際病史僅占10%。在我們的一生中,我們每個人將產生相當于3億多本個人和健康相關數據的書籍,這些數據可能有助于我們了解更長壽、更健康的生活。

大數據現象可以用五個v來描述:體量、速度、多樣性、準確性和價值。量是指大量復雜異構的數據,使得數據集過于龐大,無法使用傳統的數據庫技術進行存儲和分析。速度是指新數據生成和移動的速度。多樣性指的是結構化、半結構化和非結構化數據的不同類型,例如社交媒體對話和語音記錄。準確性是指數據的確定性、準確性、相關性和預測性。價值指的是將數據轉化為業務洞察。然而,數據的數量、種類、速度和準確性正在導致數據管理和工作負載的日益復雜——創造了對高級分析的更大需求,以發現洞察力——移動設備使技術更容易消費,創造了用戶對可視化分析的交互工具的需求。

大數據分析和人工智能在整個醫療保健領域越來越無所不在,包括5P領域:付款人、提供商、決策者/政府、患者和產品制造商。高達10%的全球衛生健康支出是由欺詐和濫用造成的,基于人工智能的工具有助于減少支付人項目中的欺詐、浪費和濫用。可靠地識別醫療編碼錯誤和不正確的索賠,可以節省大量的金錢、時間和精力,從而對支付人、提供者和政府產生積極的影響例如,IBM DataProbe是一種基于人工智能的商業智能工具,它能夠在2年內檢測并收回艾奧瓦州醫療補助企業醫療補助欺詐案中4150萬美元的服務費。在提供者領域,人工智能用于循證臨床決策支持,檢測不良事件,并使用電子健康記錄(EHR)數據預測患者再次入院的風險醫療政策制定者和政府使用基于人工智能的工具來控制和預測感染和疫情。FINDER就是一個例子,這是一個機器學習的模型,用于使用匿名和聚合的網絡搜索和位置數據實時檢測食源性疾病。另一個例子是使用IBM Connect360和IBM Watson護理管理器的綜合數據中心和護理管理解決方案,加州索諾馬縣政府機構在整個社區發生危機時,利用該方案改變了社會弱勢群體和其他流離失所者的健康和醫療保健該解決方案實現了在2017年和2019年索諾馬縣野火期間,將孤立的數據和服務集成到統一的公民地位視圖中,從結構化和非結構化來源識別健康的臨床和社會決定因素,構建算法將客戶與服務匹配,并簡化護理協調。隨著2020年初全球大流行性冠狀病毒疾病2019 (COVID-19)的出現,這種模型可用于預測高危人群,并可能為護理高危患者的臨床醫生提供額外的風險信息。AI在患者和生命科學/健康產品中的使用將在以下各部分中進行廣泛討論

付費5元查看完整內容

摘要

在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用

圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。

圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。

引言

未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。

近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。

本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。

論文結構

本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇

算法

在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。

算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。

數據集

大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。

對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。

研究

雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。

總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。

圖:實驗裝置概述

圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。

付費5元查看完整內容

摘要

通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。

引言

醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。

傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。

在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。

目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:

(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。

(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。

(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。

(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。

付費5元查看完整內容

隨著數據驅動的機器學習研究的發展,各種各樣的預測問題得到了解決。探索如何利用機器學習,特別是深度學習方法來分析醫療數據已經變得至關重要。現有方法的一個主要局限性是專注于網格數據; 然而,生理記錄的結構通常是不規則的和無序的,這使得很難把它們作為一個矩陣來概念化。因此,圖神經網絡通過利用生物系統中的隱式信息,利用邊緣連接的交互節點吸引了大量的關注,這些邊的權重可以是時間關聯或解剖連接。在本綜述中,我們全面回顧了不同類型的圖架構及其在醫療保健中的應用。我們以系統的方式概述了這些方法,并按照它們的應用領域組織起來,包括功能連接、解剖結構和基于電的分析。我們還概述了現有技術的局限性,并討論了未來研究的潛在方向。

//www.zhuanzhi.ai/paper/93391ccf2368809646650183224eee1c

引言

醫學診斷是指一個人可以確定哪種疾病或狀況可以解釋病人的癥狀的過程。疾病診斷所需的信息來自患者的病史和各種醫學測試,這些測試通過診斷成像數據獲取患者的功能和解剖結構,如功能磁共振成像(fMRI)、磁共振成像(MRI)、計算機斷層掃描(CT)、超聲(美國)和X射線; 其他診斷工具包括腦電圖(EEG)。然而,考慮到通常耗時的診斷過程容易產生主觀解釋和觀察者間的變異,臨床專家已經開始從計算機輔助干預中獲益。自動化在醫療保健服務和醫生有限的情況下也有好處。自動化正在努力提高醫療保健系統的質量和降低成本[1]。通過將特征工程任務合并到學習任務[2]中,深度學習提供了一個解決這些需求的有效途徑。有幾篇綜述論文分析了傳統機器學習和深度學習方法在醫學異常和解剖結構檢測和分割、運動障礙和序列數據分析、計算機輔助檢測和計算機輔助診斷方面的好處。

圖網絡屬于一個新興領域,它也在許多技術領域產生了巨大的影響。來自化學、生物學、遺傳學和醫療保健等學科的許多信息并不適合基于矢量的表示,而是需要復雜的數據結構。圖本質上捕獲實體之間的關系,因此在這些應用中可能非常有用,可以對變量之間的關系信息進行編碼。例如,在醫療保健領域,可以通過在醫生的決策過程[7]中將疾病或癥狀與主題關聯起來,或為乳腺癌分析[8]建立RNA序列模型來構建知識圖譜。因此,特別將圖神經網絡(GNN)推廣為非結構(無序)和結構(有序)場景。然而,盡管基于圖的表示在醫學領域的使用越來越普遍,但與傳統的深度學習方法相比,此類方法仍然稀缺,而且它們解決許多具有挑戰性的醫學問題的潛力尚未完全實現。

關于GNNs的深度學習領域迅速增長,其受歡迎程度也反映在最近對圖形表示及其應用的大量綜述中。現有綜述全面概述了非歐氏數據深度學習、圖深度學習框架和現有技術的分類[9],[14];或者介紹包括生物學和信號處理領域[15]-[18]的一般應用。盡管一些論文使用深度學習技術概述了醫學圖像分析,并引入了GNN的概念來評估神經疾病[19],據我們所知,目前還沒有系統介紹和討論GNN在非結構化醫學數據中的當前應用。

在本文中,我們致力于提供一個多圖神經網絡(GNN)模型在醫療診斷和分析方面的全面回顧。我們試圖解釋為什么GNN在這個領域值得研究的根本原因,并強調了新興的醫療分析挑戰,GNN可以很好地解決。圖神經網絡在醫學信號處理和分析中的應用尚處于起步階段。在本文中,我們提出了一項綜述,將圖神經網絡應用于醫療診斷任務,并提出了該領域的最新方法和趨勢的現狀。

  1. 我們確定了傳統深度學習在應用于醫學信號分析時面臨的一些挑戰,并強調了了圖神經網絡在克服這些挑戰方面的貢獻。

  2. 我們介紹并討論了為醫療診斷提出的各種圖框架及其具體應用。我們涵蓋使用圖網絡與深度學習技術相結合的生物醫學成像應用的工作。

  3. 我們總結了當前基于圖的深度學習所面臨的挑戰,并基于目前觀察到的趨勢和局限性提出了醫學健康領域未來的發展方向。

付費5元查看完整內容

近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。

在機器學習取得成功的地方,它是非常成功的。

在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。

隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。

然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。

即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。

因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。

本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。

付費5元查看完整內容

隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。

//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。

在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。

根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。

具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。

FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。

在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。

在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。

這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。

目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。

付費5元查看完整內容
北京阿比特科技有限公司