聯邦學習可用于解決各種實際通信應用中的復雜問題,例如干擾消除、網絡控制、資源分配和用戶分組。此外,聯邦學習使用戶能夠合作學習統一的預測模型,同時將收集到的數據存儲在他們的設備上,用于無線環境分析、用戶運動預測和用戶識別。基于預測結果,基站可以有效地為設備分配無線資源。本文全面概述了預想的6G無線網絡的聯邦學習應用。特別是,首先描述了將聯邦學習應用于無線通信的基本要求。然后詳細介紹了無線通信中潛在的聯邦學習應用。討論了與此類應用相關的主要問題和挑戰。最后,描述了一種用于無線通信的綜合聯邦學習實現。
聯邦學習由于能夠在多方數據源聚合的場景下協同訓練全局最優模型,近年來迅速成為安全機器學習領域的研究熱點。首先,歸納了聯邦學習定義、算法原理和分類;接著,深入分析了其面臨的主要威脅與挑戰;然后,重點對通信效率、隱私安全、信任與激勵機制3個方向的典型研究方案對比分析,指出其優缺點;最后,結合邊緣計算、區塊鏈、5G等新興技術對聯邦學習的應用前景及研究熱點進行展望。
//www.infocomm-journal.com/cjnis/EN/10.11959/j.issn.2096-109x.2021056
摘要
通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。
引言
醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。
傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。
在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。
目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:
(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。
(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。
(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。
(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。
目前,以5G系統為代表的電信網絡已經實現“萬物互聯”,并將朝著“萬物智聯”的目標發展。電信網絡利用先進的人工智能技術通過及時有效地收集、傳輸、并隨時隨地學習數據,用于大量創新應用和智能服務。然而,基于中央服務器與數據中心的機器學習框架正遭受越來越多的數據隱私和安全挑戰,面臨巨大的通信開銷與算力浪費。
聯邦學習作為新興的分布式機器學習框架,能夠在保護數據隱私、滿足合法合規的前提下,可使多個數據擁有方協同建立共享模型,達到模型訓練與隱私保護雙贏的目的,有望在電信領域中發揮巨大潛能。
在此背景下,該白皮書對聯邦學習應用于電信行業的技術潛力與應用前景進行了分析,并介紹了電信聯邦學習技術架構、技術分類、部署框架與關鍵優化技術等內容。此外,白皮書涵蓋了中國移動通信有限公司研究院、聯通數字科技有限公司與華為有限公司目前在電信領域應用聯邦學習技術的多個典型use case,包括基于橫向聯邦學習的ONT精準識別應用、基于橫向聯邦學習的防未知網站注入攻擊檢測、基于縱向聯邦學習的消費金融應用、基于縱向聯邦學習的5G網絡QoE評估和預測、基于聯邦遷移學習的數據中心PUE控制等。
電信領域聯邦學習的發展與落地應用尚處于發展初期,白皮書針對性提出,通過需求牽引提升關鍵技術,強化電信聯邦學習標準與測評工作,加快電信聯邦學習落地應用與產業發展,實現電信領域聯邦學習關鍵技術突破,推動電信網絡內在智能發展。
聯邦學習在電信領域的應用將會加速人工智能技術的創新發展,催生以運營商為中心的跨領域生態合作。可以預見,聯邦學習在未來的自動駕駛網絡、邊緣計算、物聯網、車聯網、用戶體驗提升以及垂直行業等領域具備廣闊的應用前景。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
深度神經網絡最近展示了它們解決復雜任務的驚人能力。今天的模型訓練了數以百萬計的例子,能夠可靠地注釋圖像,翻譯文本,理解口語或玩戰略游戲,如國際象棋或圍棋。與此同時,無線網絡上的智能設備(如智能手機、物聯網設備)數量迅速增長。這些設備都配備了傳感器和越來越強大的處理器,使它們能夠以前所未有的規模收集和處理數據。這一發展為深度學習方法革新這些應用程序提供了一個獨特的機會。
然而,由于有限的資源(例如,帶寬和功率)、延遲約束和數據隱私問題,集中式訓練方案,即要求所有數據駐留在一個中心位置,并且是所有上述成功的基礎,在無線網絡設置中不再可用。因此,這些訓練方法越來越多地被分布式深度學習所取代,分布式深度學習允許多個參與方在他們組合的數據上聯合訓練一個模型,而不需要任何參與者向其他參與方或中央服務器透露他們的本地數據。這種新的協作式訓練將學習集中在模型實際使用的位置(即網絡邊緣),從而將延遲和資源消耗最小化。
本教程的目的是介紹分布式深度學習中最重要的概念和方法,并系統地討論它們在無線網絡中的應用所面臨的挑戰和優勢。本教程將不僅提供了理論的理解分布式學習問題(如分布式SGD,聯合平均,收斂結果),講解從信息理論的相關概念,優化和無線通訊,還討論了小技巧(例如,錯誤積累,同步,客戶端集群),分布式學習計劃工作實踐。此外,我們將介紹最新的發展和趨勢,特別是分布式學習在無線網絡中的應用,并對相關的標準化活動(如ITU FG ML5G, MPEG AHG CNNMCD)進行第一手總結。
我們的目標是讓與會者(1)了解分布式和聯合學習的方法和理論概念,(2)概述這些領域的最新發展,(3)了解如何在無線網絡中實際應用這些方法。
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。
深度神經網絡最近展示了其解決復雜任務的驚人能力。如今的模型使用功能強大的GPU卡在數百萬個示例上進行訓練,能夠可靠地對圖像進行注釋、翻譯文本、理解口語或玩國際象棋或圍棋等戰略性游戲。此外,深度學習也將成為未來許多技術的組成部分,例如自動駕駛、物聯網(IoT)或5G網絡。特別是隨著物聯網的出現,智能設備的數量在過去幾年里迅速增長。這些設備中有許多都配備了傳感器,使它們能夠以前所未有的規模收集和處理數據。這為深度學習方法提供了獨特的機會。
然而,這些新的應用程序帶有許多附加的約束和要求,這些約束和要求限制了當前模型的開箱即用。
1. 嵌入式設備、物聯網設備和智能手機的內存和存儲容量有限,能源資源有限. 像VGG-16這樣的深度神經網絡需要超過500 MB的內存來存儲參數,執行單次向前傳遞需要15 gb的操作。很明顯,這些模型的當前(未壓縮的)形式不能在設備上使用。
2. 訓練數據通常分布在設備上,由于隱私問題或有限的資源(帶寬),無法簡單地在中央服務器上收集. 由于只有少量數據點的模型的局部訓練通常不太有希望,因此需要新的協作訓練方案來將深度學習的能力引入這些分布式應用程序。
本教程將討論最近提出的解決這兩個問題的技術。我們將首先簡要介紹深度學習,它的當前使用和今天的模型在計算和內存復雜性、能源效率和分布式環境方面的局限性。我們將強調解決這些問題的實際需要,并討論實現這一目標的最新進展,包括ITU ML5G和MPEG AHG CNNMCD正在開展的標準化活動。
然后我們將進入神經網絡壓縮的話題。我們將首先簡要介紹源編碼和信息論的基本概念,包括速率失真理論、量化、熵編碼和最小描述長度原則。這些概念需要形式化的神經網絡壓縮問題。然后我們將繼續討論壓縮DNNs的具體技術。為此,我們將區分壓縮過程的不同步驟,即剪枝和稀疏化、量化和熵編碼。前兩步是有損的,而最后一步是無損的。由于縮小尺寸并不是神經網絡壓縮的唯一目標(例如,快速推理、能源效率是其他目標),我們還將討論有效推理的方法,包括最近提出的神經網絡格式。最后,我們將介紹一個用例,即設備上的語音識別,演示如何在實際應用中使用壓縮方法。
最后我們將介紹分布式學習的最新發展。我們提出了不同的分布式訓練場景,并根據它們的通信特性進行了比較。接下來,我們將重點討論聯邦學習。我們列舉了聯邦學習中存在的挑戰——通信效率、數據異構性、隱私、個性化、健壯性——并提出了解決這些挑戰的方法。我們特別關注為減少分布式學習中的通信開銷而提出的技術,并討論集群化FL,這是一種與模型無關的分布式多任務優化的新方法。這里我們將強調本教程第一部分中介紹的概念的相似性,即稀疏化、量化和編碼。
目錄:
3.問題 4. 休息時間 5. 分布式學習
聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在 2016 年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。其中,聯邦學習可使用的機器學習算法不局限于神經網絡,還包括隨機森林等重要算法。聯邦學習有望成為下一代人工智能協同算法和協作網絡的基礎。最近來自斯坦福、CMU、Google等25家機構58位學者共同發表了關于聯邦學習最新進展與開放問題的綜述論文《Advances and Open Problems in Federated Learning》,共105頁pdf調研了438篇文獻,講解了最新聯邦學習進展,并提出大量開放型問題。
摘要
聯邦學習(FL)是一種機器學習設置,在這種設置中,許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型,同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則,可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下,本文討論了近年來的進展,并提出了大量的開放問題和挑戰。
目錄
1 介紹
4 .保護用戶數據的隱私
7 結束語