亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

聯邦學習是一種機器學習方法,它允許在多個客戶端之間分布式訓練深度神經網絡,同時保護每個客戶端的數據隱私。由于醫療數據的隱私性考慮,聯邦學習在醫學影像方面很有幫助。在醫院建立聯邦網絡有獨特的挑戰,主要是因為醫學影像數據和聯邦學習算法都有自己一套獨特的特點。本文介紹了醫學影像中的聯邦學習算法,并討論了其在現實世界中實施的技術挑戰和注意事項

關鍵字

聯邦學習;醫學影像;保護隱私的機器學習

引言

隨著機器學習在醫療和計算機輔助診斷領域的快速發展,醫療數據的獲取已成為人們關注的問題。臨床醫生、計算機科學家和醫療技術專家需要獲得更多的數據,以實現基于機器學習的項目。然而,要在建立更強大的機器以用于醫療行業和在隱私考慮下訪問大量數據的限制之間取得平衡,始終是一項具有挑戰性的任務。一般來說,共享數據需要醫院解決《通用數據保護條例》的限制,并得到機構審查委員會的批準。機構審查委員會或倫理委員會決定一家醫院可以在多大程度上與其他醫院共享信息,并確保醫院遵守《一般數據保護條例》的限制。因此,醫院的數據中心通常不具備訓練深度神經網絡所需的大型和多樣化的數據集。

聯邦學習(FL)[1]是由McMahan等人提出的一個機器學習概念,以解決這個問題。在這個概念中,用來自多家醫院的數據集訓練神經網絡,整個訓練過程通過一個中央服務器管理。在每一輪中,醫院在其本地數據上訓練一個神經網絡,并與中央服務器共享更新的模型。服務器收集所有更新的模型,并將其匯總為一個更新的全局模型。在下一輪中,更新的全局模型被送回醫院。這種訓練方式使研究人員能夠使用來自多個醫院的數據,同時確保敏感數據被保存在本地。

目前存在幾種FL算法。McMahan等人[1]提出了聯盟平均法(FedAvg),以盡量減少醫院之間的參數變化。該算法簡單明了。每輪選擇一個客戶端的子集。訓練分布在多個客戶端之間。每個客戶端將在自己的本地數據集上計算一個更新的模型。客戶端上的所有模型實例應該從相同的隨機初始化開始,以實現收斂。一旦他們的本地訓練完成,客戶端就會與中央服務器通信。最后,中央服務器收集各客戶端的更新。在這個階段,可以看到本地訓練的直接效果。更新后的全局模型可以針對測試數據集進行測試,將其與上一輪的性能進行比較,可以了解在上一輪訓練中取得了多少改進。這個步驟的圖示見圖1。基于區塊鏈的技術也可以用在聚合階段。在區塊鏈網絡中,本地客戶(礦工)取代了中央服務器,并在他們之間分配集成過程。在這種情況下,整個過程將是去中心化的。區塊鏈網絡可以很有價值,因為它們可以防止中央服務器或客戶端失敗[2]。

圖1.云服務器從客戶端收集本地更新的模型。

另一種方法是對在客戶上單獨訓練的本地模型的輸出進行平均化(合集單一客戶模型)。集成學習的一般定義是不同的機器學習算法在做同樣的任務時合并成一個算法。每個算法都從輸入數據中提取信息或特征,然后使用各種機制,如平均法和投票法,將所得信息進行集成。一般來說,合集的表現一直優于其單獨構成的每個算法。在集合學習的聯盟設置中,模型和數據都不會在訓練周期中的客戶之間共享。所有的客戶都將被分配到一個類似的模型,其初始值是隨機的。每個客戶都將訓練自己的模型。在部署階段,他們對同一任務的輸出將被平均化,從而形成一個來自多個模型的累積知識。

第三種算法是單一權重遷移(SWT)。在這種算法中,一個深度學習模型在單個客戶端訓練到某一特定時間,然后轉移到下一個客戶端。有許多選項可以決定何時完成局部訓練并將其模型傳遞給下一個客戶端。標準是每個客戶端的歷時數和驗證損失或準確性,這取決于問題。循環權重轉移(CWT)是另一種算法,在這種算法中,模型在每個客戶端被訓練了預定的歷時數,然后轉移到下一個客戶端。在這種算法中,模型對每個客戶端的訪問多于一次。

在FL場景中,模型和任務的功能因FL算法的不同而不同。遷移模型的算法比其他算法的功能更全面,適應性更強。深度學習模型在聯邦環境中的表現也會因模型而異。模型的適應性可以決定一個FL網絡的整體性能。例如,研究表明,一些深度神經網絡組件(如批量歸一化層)會導致性能問題,在聯邦環境中更難調整。相反,像卷積層這樣的組件可以很容易地被平均化,在一個適當的全局模型中平均化它們的結果。因此,擁有更多合適組件的深度學習模型是FL的更好選擇。研究正在進行中,以開發在聯邦環境中表現更好的特定模型[4]。

FL算法的比較

我們可以根據服務器和客戶端之間交換的內容對算法進行分類,以比較聯邦算法。FedAvg、SWT和CWT等技術在服務器和客戶端之間傳輸模型。像分割學習[5]這樣的方法,可以轉移神經網絡的中間層輸出。中間層的輸出可以被看作是輸入數據的一種扭曲形式。換句話說,當神經網絡處理輸入數據時,它經歷了大量的修改,扭曲了輸入。集成合方法等共享其模型的最終輸出,并將其傳播到中央服務器。

在模型被移到中央服務器的方法中,傳輸的數據量相對很小,而且與每個站點的訓練數據量無關。它完全由深度學習模型的大小決定。大多數流行的深度學習算法的大小為幾十兆字節。然而,一個傳輸模型的FL算法不一定有很低的整體通信開銷。交換的總體數據量也取決于客戶端和服務器之間的通信回合數。超參數可以決定通信回合的數量,如果客戶端之間的交換量過大,通信開銷可能會很高。

相反,在傳輸某種類型的實際數據的算法中,無論是扭曲的輸入數據(例如,分割學習[5])還是輸出數據(例如,集成模型),發送的數據大小可能會有很大的變化。然而,由于醫學影像數據是巨大的,所傳達的信息量通常比傳輸模型的方法更重要。CDS也屬于這一類,因為它需要實際的數據傳輸到一個中央服務器。這兩組在通信負擔以及隱私水平方面有很大的不同。因為輸入和輸出數據沒有以任何格式發送,遷移模型的方法更安全,因為從深度學習模型中檢索病人數據是很困難的。

在集成模型中,集成過程在本地完成,模型的輸出(而不是模型參數)被發送到全局服務器。因此,避免了繁重的服務器端計算,并且可以很容易地建立一個聯邦網絡。因為集成模型被證明在醫學影像的各個領域表現良好,使用集成模型可以幫助提高聯邦網絡的準確性、通用性和穩定性。然而,集成方法也帶來了一些挑戰。首先,在這種情況下,數據泄漏的風險很嚴重。某種輸出數據,如分割掩碼,很可能會暴露患者的身份。第二,與模型的大小相反,輸出的大小可以有很大的不同。圖像格式的輸出需要太多的通信負荷。此外,集成模型的設計依賴性很強。不一定具有相同目標函數的模型可以被組合成一個集合體。這導致了一個復雜的多目標模型具有不同的優化目標。這不一定是有害的,但缺乏對集成理論分析的研究,集成的結果幾乎總是不明確的,使得集成方法不可靠。

此外,在訓練時間、模型復雜度、性能和通用性之間總是存在一個折中。盡管這些措施在單個機器學習模型中已經被徹底研究過了,但關于它們在復雜的集合體中的關系的文獻仍然沒有太多的探討。

比較FL模型的另一個方面是,FL算法,其中的模型被遷移,可以一致地被中央服務器平均化,無論他們執行的是什么任務。只要有一個合適的深度學習模型,執行分類、分割、回歸或其他任務的深度神經網絡就可以被平均化。所有提到的任務都已經被證明是以聯邦的方式進行的。然而,對于其他聯邦的算法來說,平均化許多來源的輸出并不總是可行的。例如,如果任務是多類分類,集成方法不能簡單地平均不同客戶的類輸出。因此,集成方法在它能處理的工作中是有限的。

一些研究出版物已經發表,對FL的實現進行了比較。Nilsson等人[6]在實踐中比較了各種FL方法。他們證明FedAvg是最好的FL算法。盡管它的性能比CDS略低,但在他們的比較性能分析中,它實際上與非聯盟結構相當。FedAvg算法和其他FL方法有許多變種。然而,原始的FedAvg方法仍然是比較研究中的頂級方法之一。Chang等人[3]在治療學領域調查了幾種FL算法。根據這項研究,FedAvg與其他算法相比沒有任何偏見,因為它平等地考慮所有的客戶,并且不按任何特定的順序排列。如圖2所示,在SWT和CWT等算法中,客戶被放在一個序列中,一個接一個地進行訓練。作為災難性遺忘的結果,模型更多的是代表它所觀察到的最近的客戶,而較少代表早期的客戶[7]。因此,在有順序訓練的模型中,存在著偏向于最近的機構的偏見。盡管CWT可以通過在機構中多次循環運行模型來減輕這種影響,但偏見仍然存在。表1顯示了FL算法的基本特征。表1顯示了FL算法的基本特征,還有一個這些算法在醫療領域的使用案例的樣本。

圖2.不同分布式學習方法的示意圖。(a) 集成方法。客戶端在自己的數據集上訓練本地模型;不同客戶端的模型輸出被平均化。(b) 聯邦平均法。一個初始模型被發送到客戶端;每個客戶端在自己的數據上訓練模型,得到的本地模型在一個中央服務器上進行平均化。(c) 單一權重遷移。一個初始模型依次通過客戶端,對每個客戶端訪問一次。最終模型是在最新的客戶端上訓練的模型。(d) 循環權重遷移:類似于單次權重遷移,但模型在機構中遷移多次。

表1.FL方法的比較

CDS=集中數據共享;COVID-19=2019年冠狀病毒病;CWT=循環權重遷移;EHR=電子健康記錄;FedAvg=聯邦平均;FL=聯邦學習;SWAT=單一權重遷移。

Pan等人[8]研究了基于影像數據的自動骨齡估計的模型集成的影響。結果顯示,結合異質的、不相關的模型可以得到更穩健的集成。相反,集成頂級模型并不一定能確保一流的性能。研究人員能夠證明FL數據如何幫助識別可比較的病人,同時保護他們的隱私。

挑戰和考慮因素

在放射學方面,FL仍有很長的路要走。在理論表述和實際執行方面都有許多挑戰。FL算法可以分為完全去中心化的、需要可信中央服務器的點對點方法。每一類都會有其挑戰。一般來說,有中央服務器的方法提供更多的靈活性和更好的性能,而分布式方法則更可靠和安全。

然而,FL基礎設施仍然存在一些風險[9]。對手可以從本地模型更新中重建私人數據[10]。醫院可以做額外的安全措施來防止對手訪問服務器和客戶之間的交換數據。

數據的異質性

FedAvg算法的作者聲稱,他們提出的方法可以處理異質性數據。然而,數據的分散結構使得數據處理具有挑戰性,無法驗證其結論的完整性和質量。進一步的調查顯示,這種說法并不總是有效[11]。幾乎在所有情況下,異質數據都會惡化FL模型的準確性。分歧的程度取決于數據的異質性程度。局部模型在具有不同患者特征的數據上進行訓練,導致全局模型不能代表所有的特征。在某些情況下,異質數據阻礙了模型的收斂。

數據的同質性極大地影響了要選擇的聯邦模型的版本來訓練模型。CDS和FL之間的差異可能從相似到CDS更好,這取決于數據的情況。一個經驗法則是,如果數據在不同的數據中心其分布差異較大,在每一輪中簡單地平均每個客戶的數據可能會對性能產生負面影響。

Zhao等人[12]研究了數據分布對FL算法的最終性能的影響。根據他們的研究,數據分布的差異會對模型的準確性產生高達55%的負面影響。另一個困難是,數據的異質性可能會導致這樣一種情況:一個最佳的全局模型對某些客戶來說可能是一個糟糕的模型,或者一個最佳的全局模型對某些客戶來說效果很好,而對其他客戶來說表現很差。因此,所有參與者應在培訓前就最佳模型訓練的概念達成一致。應該進行進一步的技術研究,找到用異質數據更新中心模型的最佳技術。FedAvg是積累客戶數據的標準方法。盡管如此,其他能夠解決分布差異的分布式優化方法也是一個研究課題。

偏見

偏見是分布式網絡中一個普遍存在的問題。偏見是一種狀態,即神經網絡比其他客戶更傾向于某個客戶的分布。它導致模型在該客戶上表現良好,而在其他客戶上的表現則受到影響。偏見的原因可能是客戶數據的大小或分布的不同。另外,FL算法本身也可能是一個偏見的來源。

Sheller等人[7]表明,CWT是一種比SWT偏見小的算法。偏見的程度可能不同,取決于哪個客戶最后被訓練。相比SWT和CWT,他們更傾向于FedAvg。FedAvg更公平地進行FL。對于像SWT和CWT這樣的算法,總是偏向于它們所訓練的最新客戶。然而,在FedAvg中,本地訓練的結果每一輪都被匯總,避免了偏見。在SWT中,全局模型在訪問每個客戶后都會發生變化,后續的客戶會減輕模型對前一個機構的偏見。然而,對于模型所訓練的最新機構來說,并沒有緩解。

全局匯總方法(即服務器算法)應該被設計為最小化偏見。它還應該對局部變化以及安全措施所增加的擾動具有魯棒性。通過計算每個客戶產生的偏見水平,然后修改算法以解決分布中的差異,可以減少偏見并設計捕捉多樣性的模型。

然而,如果適當考慮到分布差異,在訓練后期仍可能出現偏見。一些特征以及一般的數據分布,可能會隨著時間的推移而變化。例如,某家醫院的某一疾病患者的數量可能會因為一些原因而改變。這可能會導致領域轉移:客戶的數據分布發生變化。在數據域轉移方面可以有更多的工作,并以某種方式明確解決不同機構或一個機構之間的性別、病人情況、年齡和疾病的改變。模型也可以進一步發展,將經濟或種族狀況考慮到模型訓練中,并修改模型以處理圖像的多樣性[13]。

缺少標準數據

標準化的數據可以防止不相關的信息在神經網絡中被認為是有意義的。它消除了機構之間的差異性。電子數據管理是醫學影像和醫學通信的規范,DICOM是全球公認的圖像數據格式,也是電子文件存儲的近乎全球的護理標準。然而,在醫學影像領域,并非所有可用的數據都是標準化的。許多機構仍然缺乏基礎設施,無法按照目前的管理標準處理其影像數據。其中一個因素是缺乏一種通用的方法來組織和管理病人記錄。數據管理的成本很高[14]。并非所有醫院都有先進的數據管理設施。這個問題導致參與研究的醫院被預選,這也是偏見的一個來源。

由于模式、維度和特征的多樣性,以及在特定協議內的收購、醫療設備品牌或當地人口統計學的差異等變量,醫療數據非常多樣化。目前還沒有統一的數據標準化方法。因此,醫療聯邦網絡很可能會有數據質量和分布不一的客戶。在這種情況下,像FedAvg這樣的方法一般可能會失敗。避免偏見的一個方法是協調數據,使每個客戶的數據類型相似,遵循相似的預處理。這也可能需要在機構間分享元數據,以找到適合所有機構的數據協調的一般方法。然而,考慮到各個機構的限制,這可能是很棘手的。因此,FL系統進一步發展的一個途徑是,臨床醫生和計算機科學家合作,在多個機構之間對隱私限制和考慮進行標準化處理。

隱私和安全

數據泄露是一個重要的問題,醫療數據必須按照公認的保密程序加以保護。事實證明,FL通過將數據保存在本地,有效地保護了病人的隱私和匿名性。然而,FL也有一些與隱私相關的挑戰。盡管許多人試圖從DICOM圖像中去除個人數據,但病人信息仍然可以被重新識別[15,16]。最近的研究已經成功地從MRI數據中重建了一個病人的臉。此外,對手可以竊取數據或訪問非加密網絡的算法。

此外,深度學習模型在其攜帶的權重中仍有一些敏感信息。在一個去中心化的網絡上,只用一個客戶端的本地模型來重建病人的部分信息是可行的[17,18,19]。敵方可以解密深度學習模型,并以非常高的精度揭示患者的信息[20]。惡意的一方可以歪曲深度學習模型。如果在實踐中使用,這種模型產生的錯誤輸出會產生嚴重后果。因此,應該確保模型是安全的,對手不能破壞模型,以在現實世界中使用[21]。

有一些具體的措施來改善隱私。可以采取特定的對策,如模型加密、差分隱私(DP)[22]、針對惡意客戶的對抗性防御[19],以及增加通信安全。DP指的是保持數據集的全局統計分布,同時盡量減少個人可識別信息的做法。DP可以通過向每個樣本添加擾動來完成。向數據集添加噪音以減少私人數據被泄露的機會,是基于這樣的論點:通過隨機改變數據集,人們可以保留一般的數據分布,而單個樣本則被改變。添加系統噪音有助于機器模型學習訓練數據的整體分布,同時保持每個樣本的匿名性。

然而,這種對策使訓練算法復雜化,并會影響訓練性能。有時需要更長的訓練時間,或者準確率會急劇下降。這可能會給整個網絡帶來額外的成本。因此,考慮部署反措施是否有必要是非常重要的。實施這些措施的成本效益主要取決于參與各方的信任程度和項目規模。如果客戶不互相信任,那么DP是必須的。這是因為聯合的客戶有定期的溝通,關鍵信息可以在互動中交換。所以每個客戶的數據都應該受到保護,不被其他客戶發現。這表明澄清客戶之間的信任程度是多么重要。這個論點在完全去中心化的算法中是成立的,在這種算法中沒有中心節點參與,在包括中心服務器的算法中也是如此,在這種算法中,客戶端-服務器的信任也是至關重要的。完全的圖像匿名化仍然是一個問題。在沒有加密的情況下,攻擊者可能會從本地數據中心獲得私人信息,或者攔截通信途徑,搶奪傳遞的數據。

系統架構

聯邦網絡中的醫療數據需要在內部或基于云的數據存儲。醫院可能需要私人或基于云的計算能力,以及用于數據預處理和標準化的軟件,如PACS。為了讓本地的模型訓練硬件(圖形處理單元),應在本地中心建立連接和數據中心。這些都帶來了它們的挑戰,如高計算能力,以確保與其他客戶的和諧,以及不同中心之間的高性能帶寬和連接,這在醫療中心并不總是可行的。許多醫院仍然缺乏計算資源和強大的互聯網連接[23]。此外,為了使整個網絡正常工作,應該設計出冗余的計算設施和數據中心,以防止數據丟失。如果一個計算客戶端出現故障,網絡可以繼續其訓練,這就帶來了額外的挑戰。網絡的穩健性也很關鍵;聯邦模型的結構應該是:增加或刪除客戶端以及增加或減少中心的數據量不會對病人數據或模型隱私產生負面影響。

總結

本文介紹了用于放射學的主要FL算法,并比較了它們的特點。一個聯邦環境面臨著無數的挑戰;設計算法來解決這些問題的結果是各種具有不同優化目標的算法。一般來說,發展的重點是隱私、通信負載、數據異質性和模型性能作為他們的目標。本文討論并比較了基于這些目標的FL算法。我們首先介紹了FL和它在醫學影像研究中的重要作用。然后,我們介紹了最流行的FL算法,并討論了它們的挑戰和注意事項。這些挑戰是目前的研究方向,在實現FL網絡時需要格外注意。

收獲要點

  • 對醫學影像實施FL管線可以在很大程度上減輕隱私問題。然而,醫學圖像和醫療機構的獨特特征會造成特定的障礙,與其他數據類型遇到的障礙有很大不同。

  • 醫療機構通常缺乏基于云的或內部的計算設施,這對建立聯邦網絡至關重要。他們可能還需要準備數據管理和標準化管道,并擁有強大的網絡連接。

  • 主要的功能挑戰包括偏向一家醫院、數據異質性、本地模型性能和安全問題。

  • 為解決這些問題,設計了幾種FL算法。一些有希望的結果增強了隱私、通信負載、數據異質性和模型性能。研究還在進行中,通用的解決方案還沒有出現。

鳴謝

這項研究得到了KWF Kankerbestrijding和荷蘭科學研究組織DomainAES的支持,項目編號為17924,AI in Medical Imaging for novel Cancer User Support,作為他們聯合戰略研究計劃的一部分。腫瘤學技術IL。該合作項目是由荷蘭衛生署提供的PPP津貼共同資助的,以刺激公私伙伴關系。

付費5元查看完整內容

相關內容

智慧醫療英文簡稱WIT120,是最近興起的專有醫療名詞,通過打造健康檔案區域醫療信息平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療設備之間的互動,逐步達到信息化。

摘要

隨著醫學影像設施的最新發展,每天都會產生大量的醫學影像數據。這種不斷增加的數據量為研究人員提供了開發數據驅動方法和提供更好醫療服務的機會。然而,數據驅動的模型需要大量的數據來進行充分的訓練。此外,每個數據中心的可用數據量總是有限的。因此,在本地數據中心訓練的深度學習模型可能無法達到其總的性能能力。一個解決方案可以是將不同中心的所有數據積累到一個中心。然而,數據隱私法規不允許醫療機構輕易合并他們的數據,當涉及到來自多個國家的機構時,這就變得越來越困難。另一個解決方案是使用保護隱私的算法,它可以利用多個中心的所有數據,同時保持敏感數據的隱私。聯邦學習(FL)就是這樣一種機制,它能夠在不共享敏感數據的情況下部署在不同數據中心訓練的大規模機器學習模型。在聯邦學習中,不是傳輸數據,而是在本地數據集上訓練一個通用模型,并在數據中心之間傳輸。FL已被確定為一個有前途的研究領域,在醫學研究和實踐中可能有廣泛的用途。本文介紹了FL,全面探討了它的概念和最近在醫學影像方面的研究趨勢。

關鍵字

聯邦學習;保護隱私的機器學習;醫學影像

引言

深度學習在放射學領域顯示出巨大的前景。它已被廣泛用于各種醫學成像領域,并已在許多方面幫助了臨床醫生和放射學專家。放射學領域已經極大地受益于深度學習研究。事實證明,深度學習可以改善現有的腫瘤檢測模型,從早期處理階段,如MRI和CT的圖像增強、降噪、病變檢測和分割以及疾病監測。所有這些領域都顯示出人工智能(AI)在臨床上的應用前景廣闊。

深度神經網絡由許多層組成,有數十億個參數,它們通過訓練來學習從原始輸入數據到所需標簽的復雜、高維的映射[1]。在現實世界的醫療實踐中,訓練深度神經網絡的主要問題是需要大量的不同數據。在單一機構的單一數據集上訓練的神經網絡可能很容易被過度擬合,從而導致對該機構的強烈偏見和糟糕的概括性。此外,一個客戶的影像數據中的潛在模式可能會影響神經網絡的性能,而與圖像中的實際生物方式無關。例如,只包含一種模式或在特定圖譜上注冊的圖像的數據集可能會使深度學習模型偏向于該模式或圖譜,將不相關的數據捕捉為重要的預測因素。一個機構的數據質量取決于多種因素,如病人的數量、可用的影像機器的類型或數量,以及該機構可用的專家數量。并非所有的醫療機構都有大量不同的影像數據,因此深度學習模型通常在有限的數據集上進行訓練。這使得在病例數量少的情況下,臨床決策的負擔很重,這在罕見疾病中更經常發生。

解決這種數據短缺的一個潛在辦法是,從不同的客戶那里獲得影像數據集。這種方法有可能增加收集的數據的數量和多樣性。建立這種合作的最常見的方法是集中來自多個機構的大量不同的數據集,并在位于中央樞紐的累積數據集上訓練一個深度神經網絡,如圖1所示。然而,這種技術充滿了困難;嚴格的國家或地區隱私規則,如歐洲的通用數據保護條例或美國的HIPAA,使各機構不能輕易分享他們的病人數據。其他障礙可能來自于多個利益相關者,包括醫院、病人、研究人員、醫生和工業企業,他們都在追求自己的利益。一個機構為收集和清理數據所花費的大量時間和精力(也就是金錢)使其對與其他機構共享數據猶豫不決。

圖1.集中式數據共享。

最近在保護隱私的人工智能算法方面的進展在解決這個問題上起到了至關重要的作用。它們使研究人員和機構能夠在來自多個機構的不同影像數據上訓練他們的網絡,同時確保數據將被保存在本地,從而避免了與建立和維護一個廣泛的中央數據庫有關的許多問題。深度學習的一個一般性方法是分散或分布式學習。分布式學習可以被定義為一組算法,其中多個客戶端完成部分計算或數據存儲任務。數據分布允許眾多客戶參與到學習過程中,并在輸入數據量較大的情況下實現更高的性能。它一般涉及多個節點和客戶端做部分計算,每個節點和客戶端都在自己的本地數據庫上。分布式學習是出于各種原因,包括性能提升和大規模計算。聯邦學習(FL)是分布式學習的一個版本,為數據隱私至關重要的任務量身定做,這樣研究人員可以在進行分布式學習時保護隱私。這一功能使醫療保健中心能夠在不損害其本地數據隱私的情況下訓練深度學習模型。

FL算法

深度學習模型是一種基于人工神經網絡的算法形式。它使用大量的數據來從中提取模式。人工神經網絡一般由數以百萬計的參數組成,稱為模型權重。訓練一個模型是調整神經網絡的參數以執行任務的過程(例如,在成像領域的檢測、分類或分割)。訓練過程是通過將模型暴露在一個特定的數據集上幾輪來完成的。更多輪次和更廣泛的訓練數據通常會導致更準確的參數調整和更好的模型性能。一般來說,模型的大小取決于它們的復雜性和參數的數量,而不考慮它們被訓練的數據有多少。流行的深度學習模型的大小不超過大約150MB[2]。

因此,巨大的影像數據集的復雜模式可以在尺寸更小的模型中進行編碼。這一特點帶來的一個直接優勢是在分布式環境中。在這些情況下,共享模型比共享數據要實際得多。因此,在涉及大量數據(如高分辨率圖像或多層磁共振和CT掃描)的分布式環境中,共享模型是感興趣的主題。

FL是一種分布式學習方法,其中多個參與者在他們的數據上訓練(或更新)一個本地模型,而不需要實際發送數據到中心節點。一個全局模型根據從參與者那里收到的更新模型進行更新。這種訓練方式允許研究人員確保模型的私密性,并分散了繁重的計算過程。FL在通信方面也很有效,因為在這種情況下,通常只有模型的權重會被通信。在這方面,它解決了大量數據從一個機構轉移到另一個機構的基礎設施障礙。各種協調全局和局部模型更新的方法導致FL的多個版本。一般來說,聯邦網絡需要多個持有數據并進行本地訓練的客戶端和一個管理整個過程的中央可信服務器。

每個客戶端在其本地數據上訓練它從中央服務器得到的模型。為了獲得模型,客戶端向云服務器發送一個請求,通知服務器客戶端準備開始本地訓練會話。然后,請求被處理,最新的全局模型被發回給客戶端。接下來,訓練課程開始使用收到的模型和本地數據。本地訓練會話結束后,模型被返回,中心積累收到的更新。最后,全局模型由服務器根據收到的模型進行更新,并通知客戶,一個訓練輪成功完成。這些步驟的示意圖可以在圖2中找到。需要注意的是,醫院里用于訓練的模型必須與中央服務器使用的模型是同一類型。例如,兩者都必須使用相同編程語言的格式。因此,實際上,任何保留了本地模型類型和信息的傳輸形式都可以使用。對通信技術沒有一定的要求。信息可以使用任何形式的文件傳輸(例如,文件傳輸協議、安全殼協議文件傳輸協議、超文本傳輸協議和超文本傳輸協議安全)或使用這些協議的第三方軟件來傳遞。有幾個基于Python的軟件包被設計用于在聯盟環境中傳輸模型[3]。像 Jupyter notebook 這樣的開源 Python 包是運行 FL 應用的首選。然而,一些模型支持其他平臺,如網絡、移動和Broadcoms的Raspberry-pi[4]。

圖2.客戶端和服務器之間的通信,交換模型。

對于一家醫院來說,要加入FL網絡,可能需要來自不同領域的不同專家的合作。機構審查委員會或倫理委員會決定醫院如何參與聯合網絡以及對其他參與方的信任程度。這個委員會通常會建議準備數據的步驟,以便醫院能與其他醫院連接。PACS經理和醫院的技術員根據審查委員會準備的指南訪問、準備、標準化和去識別數據。數據標準化一般遵循FAIR原則。FAIR原則包括可查找、可訪問、可互操作和可重復使用的數據收集[5]。由于數據類型的不同而無法使用不同站點的數據的FL算法可以很容易地讀取和分析以FAIR方式收集的數據,這有助于在網絡上增加更多的客戶。一個例子是各站點的語言協議差異。統一資源標識符可以代表臨床數據,使自動化算法能夠讀取以FAIR原則為標準的臨床文本查詢[6]。整合FAIR數據收集,并將其作為建立FL網絡的第一步,可以加強FL網絡,并吸引更多機構加入網絡。然后將FAIR化的數據交給數據科學家和機器學習工程師,以建立一個FL框架。臨床醫生通過提供注釋的數據和專家支持來參與。他們也可以參與評估模型并提供專家反饋。

在放射學中的應用

盡管FL在大規模使用前仍需改進,但它在實際的醫學影像背景下,在醫學影像中的一些實現中顯示出了前景,導致了病人護理的改善。FL可以幫助小型診所中代表不足的病人,在這些診所中,他們是少數,可能會被忽視,并將他們帶入與許多其他類似病人的集合。FL在2019年冠狀病毒病(COVID-19)患者的研究中顯示出巨大的前景;據調查和報道,在一項針對五大洲20個中心的COVID-19患者的大規模研究中,FL對患者護理有明顯影響[7]。這些中心除了使用臨床數據外,還使用胸部X射線成像數據來確定醫院對COVID-19患者的護理級別和氧氣需求的分流。他們證明,FL模型對數據集有限的客戶效果最好。與在其本地數據上進行訓練時相比,這些客戶的模型性能明顯提高,從而改變了病人的情況。

另一個發現是,擁有不平衡數據的醫療中心有一些類別的樣本很少,導致類別的代表性不足。這些客戶看到這些病人類別的預測有了明顯的改善,這一點尤其重要,因為在COVID-19中,癥狀嚴重的病人一般屬于樣本較少的類別,而中度癥狀的病人較多。然而,他們的護理更關鍵,需要更多關注。在放射學的應用FL領域,有許多項目。作為腦瘤分割(BraTS)挑戰的額外努力,英特爾和賓夕法尼亞大學發起了一項廣泛的努力。這項挑戰是基于賓夕法尼亞大學生物醫學影像分析科提供的數據集[8]。

2018年BraTS挑戰賽的BraTS數據集已向公眾開放。該數據集由膠質瘤患者大腦的MRI影像組成,收集自不同機構的多項研究。四位放射學家手動注釋了MRI影像,將其歸入各種腫瘤類別。腫瘤被分為四種類型。U-Net是用于分割腫瘤的深度學習模型,FL網絡由一個主節點和許多客戶組成,每個客戶都有自己的數據。開發了兩個假想的客戶端,并將數據集分配給它們來評估FL模型。為了研究不同的數據分配算法,他們首先將數據隨機地劃分為筒倉。他們還根據數據的獲得地點分配數據,從而產生了非同質化的數據。在完成本地訓練后,許多客戶交付了一個模型。中央服務器收到來自各方的更新模型,選擇最佳模型,并將匯總的模型返回給客戶。這種訓練策略使服務器和客戶都能提高其性能。在收到中心節點的更新模型后,客戶每一輪都在更好的模型上工作。作為他們實驗的結果,他們得出結論,在語義分割的任務中,聯合訓練可以產生MRI分割掩碼,這些掩碼比在前提下訓練的模型更好或更有可比性。

Sheller等人[9]提出了一個使用FL進行腦腫瘤分割的項目,并取得了與集中式數據共享相當的準確性。他們證明,增加合作者的數量可以提高FL算法的性能和通用性。另一項研究提出了一個病人相似性分析,以尋找不同醫院內可能的類似治療的可比模式[10]。這項研究的目標是在保護病人的隱私和個人信息的同時,識別具有類似特征的病人。他們創建了代表病人的哈希代碼和一個控制整個過程的聯盟環境來實現這一目標。散列數據的優點是可以抵御逆向工程或對抗性模型攻擊。他們可以獨立預測五種疾病,使用平衡和不平衡的數據來評估他們提出的算法。

另一項努力是在不透露任何數據的情況下探索大腦的結構關系。作者使用主成分分析來發現不同數據集在聯合設置中的解剖學關系[11]。聯合主成分分析可以從幾個醫療機構的MRI影像中提取特征。他們的技術在幾個數據庫中得到了驗證,包括阿爾茨海默病神經影像倡議帕金森病進展標志物倡議、阿爾茨海默病最小間隔共振成像和英國生物庫[12]。

Balachandar等人[13]使用FL來解決不同機構的數據差異性問題。他們使用胸部X射線數據集對胸部掃描進行分類。同時,他們用自己提出的方法對視網膜治療數據進行分類。

FL研究的未來

一些研究趨勢表明,FL研究正在增長。FL的未來方向是將其與大數據技術相結合。在建立FL網絡后,可以將數據實時添加到現有網絡中。允許訓練和推理階段實時工作是FL網絡的一個潛在的未來方向。這可以是簡化預處理、訓練和數據處理。

預計FL網絡包括醫學影像數據,并在所有其他類型的醫學數據上工作。最近的FL實現大多利用了影像數據和專門為圖像處理設計的神經網絡。然而,其他格式的數據,特別是電子健康記錄(EHRs),開始被添加到目前的網絡中,并且是一個當代的發展主題。EHR數據除了醫學影像數據外,還包括從治療史到過去用藥的各種信息;EHR數據一般可以是文本、醫學字母、分類數據、定量數字和二進制數據[14]。將這些信息納入成像數據,可以幫助開發更好的模型。例如,將各種治療方案作為深度學習模型的輸入變量,可以幫助放射科醫生在治療方案中進行選擇。使用EHR數據也可以幫助確定疾病的類型或階段,因為研究人員最近使用EHR來檢測阿爾茨海默病[15]。

目前仍在研究將EHR數據格式轉換為深度神經網絡可使用的格式。使用自然語言處理使文本記錄可用于深度學習已經取得了一些進展[16]。為此,研究人員開發了一個數據標準化框架,從文本數據中提取有意義的特征,并使其在機器學習管道中可用。醫學圖像與基因組學數據的結合也可以成為一個研究方向。因為基因組學數據不像影像數據那樣普遍和容易獲得,基因組學中的數據限制問題比醫學影像問題大得多。因此,FL可以在將基因組學數據引入醫學影像領域方面發揮舉足輕重的作用。醫療中心在未來可以通過FL與他們的各種類型的數據進行交流,所以合作水平有望擴大。

結論

FL是一項正在發展和成長的技術,已經影響到多個領域的各個方面。醫院轉向FL技術的主要原因是,隱私和安全是他們的主要優先事項,而且對病人數據的隱私有嚴格的規定。FL為機構提供了直接和安全的數據訪問,并利用幾個機構的能力來加強放射學研究,同時克服了隱私和數據共享法律法規的限制。建立一個聯盟環境有助于實現與集中式環境相當的性能。它可以促進幾個機構之間的全球合作,因此重新定義了放射學中的人工智能范式。這篇文章對想要了解FL理念及其在放射學中的應用的放射科醫生和數據科學家應該是有幫助的。

收獲要點

有了FL,建立多中心醫學影像處理網絡比以往更順暢。在過去的幾年里,多機構網絡中的數據隱私一直是一個嚴重的問題。這個問題可以通過共享模型而不是數據來成功解決。FL探索了將敏感數據保存在私人孤島中,并只通過使用模型來訓練深度學習算法的方法。

  • 聯邦網絡的基礎設施要求包括數據存儲技術、標準化管道、數據去識別器和強大的處理單元。擁有可靠的網絡接入對建立大規模鏈接也至關重要。因此,可能需要PACS管理者、臨床醫生、數據科學家和臨床技術專家之間的合作來建立這整個管道。

  • 在CT掃描和MRI圖像上用FL進行了一些放射學任務。這些算法在COVID-19檢測、腦瘤分割和視網膜治療方面取得了可喜的成果。

  • FL的一個未來發展可能是它與大數據技術的整合。此外,另一個研究方向是使算法更加通用,以便EHR數據也能被使用。自然語言處理是一個活躍的研究方向,以實現文本和影像數據的結合。這種結合已被證明可以改善阿爾茨海默氏病患者的診斷。

鳴謝

本研究得到KWF Kankerbestrijding和荷蘭科學研究組織AES的支持,項目編號為17924,AI在醫學成像中對癌癥用戶的支持,作為他們聯合戰略研究計劃的一部分。腫瘤學的技術IL。該合作項目是由荷蘭衛生署提供的PPP津貼共同資助的,以刺激公私伙伴關系。

付費5元查看完整內容

聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.

大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].

機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.

為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].

綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.

付費5元查看完整內容

聯邦學習(federated learning)將模型訓練任務部署在移動邊緣設備,參與者只需將訓練后的本地模型發送到服務器參與全局聚合而無須發送原始數據,提高了數據隱私性.然而, 解決效率問題是聯邦學習落地的關鍵.影響效率的主要因素包括設備與服務器之間的通信消耗、模型收斂速率以及移動邊 緣網絡中存在的安全與隱私風險.在充分調研后, 首先將聯邦學習的效率優化歸納為通信、訓練與安全隱私保護3類.具體來說, 從邊緣協調與模型壓縮的角度討論分析了通信優化方案;從設備選擇、資源協 調、聚合控制與數據優化4個方面討論分析了訓練優化方案;從安全與隱私的角度討論分析了聯邦學習 的保護機制.其次,通過對比相關技術的創新點與貢獻,總結了現有方案的優點與不足,探討了聯邦學習 所面臨的新挑戰.最后,基于邊緣計算的思想提出了邊緣化的聯邦學習解決方案,在數據優化、自適應學 習、激勵機制和隱私保護等方面給出了創新理念與未來展望.

近年來,深度學習(deeplearning,DL)[1]的發 展為人工智能技術的進步創造了動力.隨著物聯網 技術的發展,移動設備都具備強大的芯片、傳感器以 及計算能力,能夠在處理高級任務的同時,收集和產 生更豐富的數據[2].這些數據為深度學習的研究提 供了有利的基礎條件,是深度學習不可或缺的部分. 傳統以云為中心的深度學習,需要先收集移動 設備的數據,包括物聯網設備和智能手機收集的數 據,例如照片、視頻和位置等信息[3G5],并全部發送到 基于云的服務器或數據中心進行處理與訓練.然而, 這種方法存在2個問題:

**1) 網絡負擔.**在萬物互聯的時代,移動設備每 分每秒都產生數以億計的數據[6],這些數據全部上 傳到云服務器會占用大量的網絡帶寬.同時,以云為 中心的學習方式傳輸延遲高,不能及時進行數據交 互,給網絡帶來不必要的負擔.

2)數據 隱 私[7].數 據 所 有 者 對 隱 私 越 來 越 注 重,用戶往往不愿共享自己的個人數據.許多國家和 組織也制定了相關隱私政策,例如歐盟委員會制定 的“GeneralDataProtectionRegulation”(?通 用 數 據保護條例?)[8].因此,利用一些邊緣設備的計算和 存儲能力,把計算推向邊緣[9]被提出作為一種解決 方案.

因此, 聯邦學習(federatedlearning,FL)[10]應 運而生,目的在于保護大數據環境下模型學習中涉 及的用戶數據隱私.在聯邦學習訓練過程中,只需要 將所有移動設備在其私有數據上訓練的本地模型上 傳到云服務器中進行聚合,不涉及數據本身,很大程 度上提高了用戶數據的隱私性.同時,邊緣計算的提 出是為了緩解云中心的計算壓力,目的是把云服務 中心的計算任務卸載到邊緣[11],這恰好與聯邦學習 的計算模式相適應,為聯邦學習創造了有利條件.在 移動設備上訓練模型,除了保證數據不離開本地,還 能讓計算更加靠近數據源以節省通信成本.

然而,無線傳感網絡[12G13]等邊緣環境復雜、設備 能力的差異性、數據質量等因素,使得如何在邊緣網 絡高效率地執行聯邦學習是當前面臨的關鍵問題. 一方面,一些實時性強的應用需要及時得到反饋,例 如車聯網服務[14]等;另一方面,在物聯網快速發展 的時代,爆發式增長的數據需要高效的處理機制才 能發揮其作用.因此,對聯邦學習效率的研究是非常 必要的. 目前,聯邦學習的熱度呈持續增長的趨勢.

本文首先對聯邦學習效率優化方案進行了廣泛 調研,闡述了聯邦學習的技術背景以及深度學習等 基礎知識,并說明了邊緣計算與聯邦學習的基本原 理以及二者之間的相互作用與影響.其次,分析了聯 邦學習中存在的效率優化問題,根據影響效率的不 同因素,將聯邦學習效率優化歸納為通信優化、訓練 優化以及從安全與隱私角度考慮的效率優化.再次, 列舉并對比分析了目前的研究方案,揭示了現有方 案存在的不足.聯邦學習的研究還處于正在發展的 階段,現有技術還不夠完善.最后,探討了聯邦學習 面臨的新挑戰,本文以邊緣計算作為擴展,提出了基 于邊緣學習的聯邦學習方案,并在數據優化、自適應 學習、激勵機制和前沿技術等方面提出了創新性的 理念與思想,為聯邦學習未來的研究提供了新的解 決思路.

1 聯邦學習背景概述

通過聯邦學習在國內外的研究現狀,可以看出 其重要性與研究價值.聯邦學習的提出和實現與邊 緣計算和深度學習息息相關.邊緣計算為聯邦學習 的本地訓練創造了條件,深度學習為聯邦學習提供了理論依據和核心技術.本節首先介紹深度學習和邊緣計算等背景知識,然后闡述傳統數據隱私保護 技術及其不足,從而引出聯邦學習的概念、架構與分 類,突出聯邦學習的特點與優勢,對比了聯邦學習與 傳統分布式學習的區別,并總結了現有的聯邦學習平臺的特點.

基于數據擁有者對于隱私的高需求,在聯邦學習中,服務器不需要用戶共享個人的隱私數據,在本 地設備上用個人數據訓練共享模型即可.聯邦學習 的體系結構以及訓練過程如圖7所示.其中參與聯 邦學習的設備為數據擁有者,每個設備都持有私有 數據集,每個設備利用這些數據訓練本地模型.所有 訓練好的本地模型參數發送到服務器中聚合,并更 新全局模型.然后服務器再把更新后的全局模型作 為新一輪的共享模型發送到參與設備迭代訓練,直 到訓練后的全局模型達到要求.

通常來說,聯邦學習由多個參與者和一個服務 器組成,參與者用來分布式地訓練共享模型,服務器 用來聚合這些本地模型并給參與者分發任務.聯邦 學習的訓練過程分為3步: 1) 任務初始化.在訓練開始之前,服務器首先 要確定訓練的任務和目標,并選擇參與聯邦學習的 設備,然后把共享模型發送給已選擇的設備. 2) 本地訓練與共享.每個設備利用私有數據訓 練本地模型.訓練的目標就是找到最佳的本地模型. 設備訓練完之后把模型參數上傳到服務器,進行下 一步操作. 3) 全局聚合與更新.服務器收集到來自所有參 與設備的本地模型后,進行模型參數聚合.典型的聚 合操作是平均算法 FedAvg [31],聯邦學習服務器通 過平均本地模型參數得到下一輪的共享全局模型, 目標是找到最佳的全局模型. 這3個步驟將會依次迭代進行,當全局模型收 斂或者達到一定的準確率時結束訓練.

如果要對用戶的數據建立學習模型,需要其數 據的特征,也必須有標簽數據,即期望得到的答案. 比如,在圖像識別領域,標簽是被識別的用戶的身份 (或實體的類別);在車聯網領域,標簽是與車輛用戶 相關的信息等.用戶特征加標簽構成了完整的訓練 數據.在聯邦學習的應用場景中,各個數據集的用戶 不完全相同,或用戶特征不完全相同.因此,根據數 據的不同特點,將聯邦學習分為3類:橫向聯邦學 習、縱向聯邦學習和聯邦遷移學習[32].我們以2個 數據集為例, 分別介紹3類聯邦學習的區別. 1) 橫向聯邦學習.如圖8(a)所示,當2個數據 集的用戶重疊部分很少,但是用戶特征重疊部分比 較大時,把數據集橫向切分,取出2個數據集中特征相同但來自不同用戶的數據進行訓練,這種場景下 的聯邦學習屬于橫向聯邦學習. 2) 縱向聯邦學習.如圖8(b)所示,當2個數據 集的用戶重疊部分很多,但用戶特征重疊部分比較 少時,通過用戶的不同數據特征聯合訓練一個更綜合 的模型,這種場景下的聯邦學習屬于縱向聯邦學習. 3) 聯邦遷移學習.如圖8(c)所示,聯邦遷移學 習是縱向聯邦學習的一種特例.當2個數據集的用 戶重疊部分少,用戶特征重疊部分也較少,且有的數 據還存在標簽缺失時,此時利用遷移學習來解決數 據規模小的問題,這種場景下的聯邦學習就是聯邦 遷移學習.

這3種類型的聯邦學習的共同點都在于保護用 戶數據的隱私性,區別主要在于用戶和數據的重疊 性.聯邦學習的提出是基于不同用戶、數據特征重疊 性高的情況,并且目前大部分的研究都是基于橫向聯邦學習,縱向聯邦學習和聯邦遷移學習的研究工 作暫時比較少.由于不同類型的聯邦學習訓練與優 化機理都相互獨立,而在移動邊緣網絡中部署實現 聯邦學習旨在利用更多不同的用戶和設備來訓練模 型.因此, 本文主要關注的是橫向聯邦學習的效率優 化,本文所提及的聯邦學習均為橫向聯邦學習.

聯邦學習平臺隨著國內外學者的研究,許多適用于聯邦學習 的開源平臺或項目已經研發出來,表2總結了9種 目前主流的平臺.

1) TFF(TensorFlowfederated).TFF [34]是由 谷歌開發的一個基于 TensorFlow 的框架,用于分 布式機器學習和其他分布式計算.TFF為2層結構, 其 中 聯 邦 學 習 層 是 一 個 高 級 接 口,允 許 現 有 的 TensorFlow 模型支持并實現聯邦學習,用戶不必親 自設計聯邦學習算法.另一層為聯邦核心層,結合了 TensorFlow 和通信運營商,允許用戶自己設計聯邦 學習算法. 2) 工業級開源框架 FATE(federatedAItechG nologyenabler).FATE [35]是微眾銀行 AI團隊推出 的工業級別聯邦學習框架,可以在保護數據安全和 數據隱私的前提下進行人工智能協作.作為一個工 業級的聯邦學習框架,FATE 項目提供了許多現成 的聯邦學習算法以及多種加密機制,可以支持不同 種類的安全計算. 3) PySyft.PySyft [36]是一個基 于 PyTorch 的 框架,可以在不可信的環境中執行加密、保護隱私的深度學習.為了模擬聯邦學習,參與者被創建為虛擬 工作者,將數據分割并分配給虛擬工作者,并指定數 據所有者和存儲位置,然后從虛擬工作者中獲取模 型后以進行全局聚合. 4) PaddleFL.PaddleFL [37]主 要 是 面 向 深 度 學 習進行設計的,提供了眾多在計算機視覺、自然語言 處理、推薦算法等領域的聯邦學習策略及應用.同時 PaddleFL 還將提供橫向與縱向傳統機器學習方法 的應用策略,利用開源的 FedAvg算法和基于差分 隱私的隨機梯度下降(stochasticgradientdescent, SGD)算法來實現保護隱私的分布式學習,以對分散 式的數據集進行模型訓練.結合本身在大規模分布 式訓練的彈性調度能力,PaddleFL在聯邦學習領域 有非常多的應用場景. 5) OpenI縱橫.OpenI縱橫[38]是由微眾銀行、 鵬城實驗室、香港人工智能與機器人協會以及星云 Clustar等共同開發并應用到 OpenI啟智平臺的孤 島數據聯邦解決方案.該方案主要關注在滿足用戶 數據安全、法律合規條件下的多方數據使用和聯邦 建模的問題.OpenI縱橫提供了豐富的一站式聯邦 建模算法組件,可以執行大多數聯邦建模任務. 6) “蜂巢”聯邦學習平臺.該平臺由平安科技自 主研發,是一個完整的聯邦學習智能系統,包括4個 功能層級:“蜂巢”數據層、“蜂巢”聯邦層、“蜂巢”算 法層以及“蜂巢”優化層.依托平安集團在金融科技 業務經驗的優勢,在金融領域做了大量的定向優化 工作,例如風險控制和金融安全測試等. 7) ClaraFL.ClaraFL [39]是一款由英偉達公司 開發的用于分布式協作聯邦學習訓練的應用程序, 主要應用于醫療領域,目的在于保護患者的隱私且 實現聯邦訓練.該應用程序面向邊緣服務器并部署 這些分布式客戶端系統,可以實現本地深度學習訓 練,并協同訓練出更為實用的全局模型. 8) FederatedGaveragingGtutorials [40].該 項 目 是 在 TensorFlow 框架上實現聯邦平均算法的一組開 源教程,主要的目標是把隱私保護相關技術應用在 分布式機器學習算法上.FederatedGaveragingGtutorials 使用 Keras深度學習框架作為基礎,并提供本地、分 布式、聯邦平均3種方法來訓練 TensorFlow 模型. 9) 華為聯邦學習平臺 NAIE(networkAIengine). NAIE [41]提供了一套自動化的聯邦學習服務,實現 了一鍵式從創建聯邦實例到管理邊緣節點的平臺服 務.用戶只要下載一個客戶端就可以輕松加入或退 出聯邦學習,且平臺對聯邦學習的整個過程實現了 可視化的管理.華為 NAIE以橫向聯邦為基礎,內置 了眾多聯邦學習能力,包括聯邦匯聚、梯度分叉、多 方計算和壓縮算法等能力.用戶可以通過創建聯邦 實例來發起眾籌式訓練,并能夠查看訓練狀態,享受 共同訓練的成果.華為 NAIE 聯邦學習平臺具有聯 邦實例管理能力、邊緣節點管理能力和運行聯邦實 例能力,后續還將對縱向聯邦學習提供支持.

2 聯邦學習優化問題

我們在調研中發現設備與服務器之間的通信問 題是影響聯邦學習效率的主要因素.移動邊緣網絡 層與云服務器之間的距離較遠,而聯邦學習需要進 行多輪訓練,這帶來了較多的通信時間與成本.此 外,在聯邦學習過程的3個步驟中,每個步驟都影響 聯邦學習的訓練效率.例如在初始化中,服務器需要 選擇性能強大的移動設備參加訓練,從而加快本地 訓練與上傳的速度;在聚合步驟中,需要控制聚合的 頻率或內容來提高模型聚合的收斂效果.因此,本節 將從通信、訓練以及由安全與隱私引起的效率優化 問題等方面展開描述聯邦學習目前存在的優化問題.

2.1 通 信傳統聯邦學習為2層結構,移動設備利用本地 數據訓練得到本地模型,通過廣域網將模型傳送到 云端服務器.然而參與聯邦學習的設備數量成千上 萬,甚至更多,設備與服務器之間的大量通信必然會 占用過多的帶寬.同時,設備的信號與能量狀態也會 影響與服務器的通信,導致網絡延遲,消耗更高的通 信成本.因此為了提高訓練的實時性,聯邦學習需要 解決通信問題.

2.2 訓 練

聯邦學習的本地訓練與常規深度學習訓練過程 類似,而聯邦學習中存在的異構計算資源、模型聚合 以及數據質量是影響其訓練效率的關鍵.

2.3 安全與隱私

與集中式學習相比,聯邦學習的環境不可控,來 自惡意設備的攻擊成為主要的隱患.研究表明,惡意 的攻擊者仍可以根據其他參與者的共享模型來推斷 用戶相關的隱私信息(例如生成式對抗網絡攻擊、模 型反演攻擊等),并且精度高達90% [56G57].這種攻擊 也可以成功地從各種訓練模型中提取模型信息[58]. 此外,聯邦學習中也存在許多安全威脅,例如中毒攻 擊,這也會導致聯邦學習的訓練效率瓶頸.聯邦學習 中的中毒攻擊可分為2類:

**1) 數據中毒.**在聯邦學習中,設備使用本地數 據進行模型訓練,并將訓練后的模型發送到服務器 以進行進一步處理.在這種情況下,服務器難以確定 每個設備的本地數據是否真實.因此,惡意參與者可 以通過創建臟標簽數據來訓練模型,以產生錯誤的 參數,降低全局模型的準確性.文獻[59]研究了聯邦 學習中的基于標簽反轉的數據中毒攻擊,攻擊者使 用與其他參與者相同的損失函數和超參數訓練的本 地模型,利用標簽反轉污染數據集.實驗表明攻擊成 功率、效率隨中毒樣本和攻擊者數量呈線性增加.

**2) 模型參數中毒.**另一種比數據中毒更為有效 的攻擊是模型中毒攻擊[60].對于模型中毒攻擊,攻 擊者可以直接修改模型的參數,該模型直接發送到 服務器以進行聚合.相比數據中毒,即使只有一個模 型中毒攻擊者,也能迅速降低全局模型的精度. 安全與隱私問題除了破壞模型的訓練精度,更 嚴重的是導致用戶不再信任聯邦學習服務器,用戶 將不愿意參與共同訓練,而過低的設備參與率導致 全局模型的性能低下,甚至造成模型收斂的瓶頸.為 了提高模型訓練的效率與精度,需要結合相關隱私 與安全機制,解決針對聯邦學習環境的安全與隱私 問題,提高模型的穩定性與用戶的參與度,為高效的 聯邦學習提供可靠環境。

3 現有優化研究方案

現有優化研究方案 第2節討論了當前聯邦學習存在的優化問題, 本節將詳細介紹與分析目前針對聯邦學習效率優化 的相關研究與技術方案.通信效率的研究主要為解 決在基于云或基于邊緣的環境中實現聯邦學習帶來 的通信時間與負載的問題.而訓練優化是對聯邦學 習訓練的每個步驟進行優化,包括參與設備選擇與協調、模型聚合控制.此外,還針對數據質量問題,總 結了聯邦學習收斂優化等相關的研究方案.最后列 舉了通過保護聯邦學習安全與隱私從而提高模型性 能的方案.

4 挑戰及未來研究方向

聯邦學習由于其分布式的特性,以及移動邊緣 網絡環境的復雜性,使聯邦學習系統的穩定性不如 傳統分布式學習.用戶的不可控性造成許多未知因 素,這給聯邦學習的效率優化帶來了極大的挑戰.目 前,聯邦學習的研究仍處于初期,沒有一套完善的方 案解決穩定性、效率優化問題,訓練過程容易受到影 響.通過對移動邊緣網絡中聯邦學習效率優化研究 現狀的深入分析,我們認為未來聯邦學習的優化研 究可以重點從7個方面展開: 基于更多邊緣計算的聯邦學習;針對聯邦學習的數據清洗;自適應聯邦學習;激勵機制與服務定價;資源友好的安全與隱私保護;聯邦學習與前沿技術結合;聯邦學習與智能場景結合

付費5元查看完整內容

摘要

通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。

引言

醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。

傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。

在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。

目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:

(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。

(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。

(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。

(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。

付費5元查看完整內容

摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。

//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法

論文引用格式:

王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

圖片

1 引言

大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。

早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。

聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。

本文的主要貢獻如下。

● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。

● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。

● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。

● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。

付費5元查看完整內容

本文回顧了機器學習中的隱私挑戰,并提供了相關研究文獻的關鍵概述。討論了可能的對抗性模型,討論了與敏感信息泄漏相關的廣泛攻擊,并突出了幾個開放的問題。

//ieeexplore.ieee.org/document/9433648

引言

像谷歌、微軟和亞馬遜這樣的供應商為客戶提供軟件接口,方便地將機器學習(ML)任務嵌入他們的應用程序。總的來說,機構可以使用ML-as-a-service (MLaaS)引擎來處理復雜的任務,例如訓練分類器、執行預測等。他們還可以讓其他人查詢根據他們的數據訓練的模型。當然,這種方法也可以用于其他環境,包括政府協作、公民科學項目和企業對企業的伙伴關系。不幸的是,如果惡意用戶恢復用于訓練這些模型的數據,由此產生的信息泄漏將產生嚴重的問題。同樣地,如果模型的參數是秘密的或被認為是專有的信息,那么對模型的訪問不應該讓對手知道這些參數。在這篇文章中,我們研究了這一領域的隱私挑戰,并對相關的研究文獻進行了系統的回顧。

我們討論的是可能的對抗性模型和設置,其中涵蓋了與私人和/或敏感信息泄漏相關的廣泛攻擊,并簡要調研了最近的結果,試圖防止此類攻擊。最后,我們提出了一個需要更多工作的開放式問題列表,包括需要更好的評估、有針對性的防御,以及研究與策略和數據保護工作的關系。

機器學習隱私

任何系統的安全性都是根據其設計用來防御的敵對目標和能力來衡量的;為此目的,現在討論了不同的威脅模型。然后,本文試圖在ML中提供隱私的定義,重點討論在“攻擊”一節中詳細討論的不同類型的攻擊。

總的來說,我們關注的是模型的隱私。(注意,對抗樣例和整體魯棒性問題超出了本文的范圍。)在本節中,將討論與提取有關模型或訓練數據的信息相關的對抗目標。

當模型本身代表知識產權時,例如在金融市場系統中,模型及其參數應保持私有。在其他情況下,必須保存訓練數據的隱私,例如在醫療應用中。無論目標是什么,攻擊和防御都與暴露或防止暴露模型和訓練數據有關。

攻擊者可能擁有的訪問類型可以是: ■ 白盒,其中對手有關于模型或其原始訓練數據的一些信息,如ML算法、模型參數或網絡結構;或者總結、部分或全部的培訓數據。 ■ 黑盒,對手對模型一無所知。相反,他/她可以通過提供一系列精心設計的輸入和觀察輸出來探索一個模型。

一個需要考慮的變量是攻擊可能發生的時候:

■ 訓練階段: 在這個階段,對手試圖學習模型,例如,訪問摘要、部分或全部訓練數據。他/她可能會創建一個替代模型(也稱為輔助模型)來對受害者的系統進行攻擊。

■ 推理階段: 在這個階段,對手通過觀察模型的推理來收集關于模型特征的證據。

最后,我們可以區分被動攻擊和主動攻擊:

■ 被動攻擊: 在這種類型的攻擊中,對手被動地觀察更新并執行推理,例如,不改變訓練過程中的任何東西。

■ 主動攻擊: 在這種類型的攻擊中,對手主動改變他/她的操作方式,例如,在聯邦學習的情況下,通過使用連接到最后一層的增強屬性分類器擴展他們的協作訓練模型的本地副本。

付費5元查看完整內容
北京阿比特科技有限公司