隨著深度學習系統對數據和計算資源的快速需求,越來越多的算法利用協同機器學習技術,例如聯邦學習,在多個參與者之間訓練一個共享的深度模型。它可以有效地利用每個參與者的資源,獲得一個更強大的學習系統。然而,這些系統中的完整性和隱私威脅極大地阻礙了協同學習的應用。在不同的協同學習系統中,為了保持模型的完整性和減少訓練數據在訓練階段的隱私泄露,已經提出了大量的工作。與現有的主要針對某一特定協同學習系統的調研查相比,本調研旨在對協同學習中的安全和隱私研究進行系統、全面的綜述。我們的調研首先提供了協同學習的系統概述,然后簡要介紹了完整性和隱私威脅。然后,我們將以一種有組織的方式詳細介紹現有的完整性和隱私攻擊以及它們的防御。我們還列出了這一領域的一些開放問題,并將GitHub上的相關論文開源: //github.com/csl-cqu/awesome-secure-collebrativelearning-papers。
深度學習在計算機視覺、自然語言處理、生物信息學和桌面游戲程序等多個領域都取得了巨大的成功。DL系統采用深度神經網絡(DNNs),通過對龐大的訓練數據集[1]-[4]的經驗自動改進。為了有效地訓練DL模型,學習系統主要依賴于兩個組件:大量高質量的訓練樣本和高性能的GPU。但是由于各種原因,訓練數據集和GPU可能分布在不同的地方。考慮以下兩個例子[5]-[7]:醫學圖像分類。一家醫院想要學習一種肺癌探測器模型,以幫助醫生從他們的計算機斷層掃描(CT)圖像中識別肺癌患者。由于醫院接收的肺癌患者數量有限,學習一個高度準確的模型對醫院來說是困難的。為了保證診斷的準確性,醫院聯合其他醫院共同協同學習共享模型。考慮到患者的隱私,所有醫院都需要局部保留CT圖像。
最近,協同學習作為一種很有前途的解決方案在[8]-[14]這樣的應用場景中很受歡迎。具體來說,協同學習允許兩個或更多參與者協作訓練一個共享的全局DL模型,同時保持他們的訓練數據集在本地。每個參與者在自己的訓練數據上訓練共享模型,并與其他參與者交換和更新模型參數。協同學習可以提高共享模型的訓練速度和性能,同時保護參與者的訓練數據集的隱私。因此,對于訓練數據敏感的場景(如醫療記錄、個人身份信息等),它是一種很有前途的技術。已經提出了幾種用于協同學習的學習架構:有或沒有中央服務器,有不同的模型聚合方式,等等[15]-[22]。協同學習的一個重要分支是[23]聯邦學習,它使手機能夠協同學習一個共享的預測模型,同時將所有的訓練數據保存在設備上,將機器學習的能力與將數據存儲在云端的需求分離開來。
雖然每個參與者在本地存儲訓練數據集,并且每次迭代時只共享全局模型的更新,但對手也可以在訓練過程中進行破壞模型完整性和數據隱私的攻擊,即[24]-[27]。最嚴重的威脅之一是模型完整性,當一些參與者不值得信任[28],[29]時,很容易損害模型完整性。例如,惡意參與者用一些精心設計的惡意觸發器毒害他們的訓練數據集。然后,在每次迭代中,利用觸發器生成惡意更新,并通過共享惡意更新,逐步將后門等觸發器注入到全局模型中,以獲取額外利潤或增加自身優勢[30],[31]。敵人也可以偽裝成參與者加入協同學習過程,并通過向其鄰居或參數服務器[25]、[32]、[33]發送惡意更新來破壞學習過程。Blanchard et al.[28]和Guo et al.[29]表明,只有一個惡意參與者能夠控制整個協同學習過程。
除了模型完整性威脅,另一個關鍵的挑戰是保護每個參與者的數據隱私。研究表明,盡管參與者不與他人共享原始訓練樣本,但共享更新是由樣本生成的,并間接泄露了訓練數據集的信息。例如,Melis et al.[34]發現,在訓練過程中,可以從共享梯度中捕獲成員和意外特征泄漏。更嚴重的是,Zhu等人[26]提出了一種優化方法,可以從相應的更新中重構出訓練樣本。針對上述完整性和隱私威脅,提出了多種方法來防御[24]、[26]、[28]、[35]-[48]、[48]、[49]、[49]-[66]。例如,為了實現byzantine彈性協同學習,Blanchard et al.[28]在每次迭代中使用統計工具檢查參與者的更新,并在聚合更新時放棄潛在的惡意更新。在隱私保護方面,Gao等[67]提出了搜索保護隱私的變換函數,并使用保護隱私的變換函數對訓練樣本進行預處理,以抵御重構攻擊,同時保持訓練后DL模型的準確性。一些防御[68]-[72]也提出了健壯的和隱私保護的防御方法來防御完整性和隱私威脅。
在這篇論文中,我們關注在協同學習的訓練過程中的完整性和隱私攻擊和防御,并提出了一個最新的解決方案的全面綜述。具體來說,我們從不同的角度系統地介紹了不同類型的協同學習系統(第二節)。然后,我們在第三節中總結總結了協同學習中的隱私和完整性威脅。一方面,我們在第四節和第五節分別展示了現有的攻擊和相應的防御。另一方面,我們在第五節中分別展示了最先進的完整性隱私攻擊和相應的防御。我們總結了混合防御方法來實現魯棒和隱私保護的協同學習和對抗訓練算法來提高模型推理的魯棒性。我們在第IX節闡述了協同學習中一些開放的問題和未來的解決方案,然后在第X節中總結了這篇文章。我們還在GitHub上開源了論文的攻防方法列表:
摘要: 隨著視頻處理技術的迅速發展及硬件成本的不斷降低,監控設備得到了越來越廣泛的應用。視頻監控普及所帶來的隱私問題泄露逐漸成為了研究熱點。根據目前視頻隱私保護領域的研究現狀,將視頻隱私保護方法主要分為隱私主體識別、隱私主體保護以及隱私信息管理3個階段,對每個階段的算法進行分類概述并分析其優缺點,其中視頻區域保護作為視頻隱私保護領域的重要組成部分,聯系視頻編碼發展歷程對保護方法進行了分析和比較。最后探討了視頻隱私保護領域目前存在的問題并對未來的研究方向進行了展望,為視頻隱私保護的相關研究提供了參考。
許多視頻分類應用需要訪問用戶的個人數據,從而對用戶的隱私構成入侵性安全風險。我們提出了一種基于卷積神經網絡的單幀方法視頻分類的隱私保護實現,該實現允許一方從視頻中推斷出標簽,而無需視頻所有者以非加密的方式向其他實體披露他們的視頻。類似地,我們的方法消除了分類器所有者以明文形式向外部實體透露其模型參數的要求。為此,我們將現有的用于私有圖像分類的安全多方計算(MPC)協議與用于無關單幀選擇和跨幀安全標簽聚合的新MPC協議相結合。結果是一個端到端的隱私保護視頻分類流程。我們在一個私人人類情感識別的應用評估了提出的解決方案。各種安全設置的結果,包括計算各方的誠實和不誠實的大多數配置,以及被動型和主動型對手,表明視頻可以以最先進的精確度分類,而且不會泄露敏感用戶信息。
隨著移動設備上存儲和計算能力的快速發展,在設備上部署模型以節省繁重的通信延遲和獲取實時特性變得至關重要和流行。雖然已經有很多研究致力于促進設備上的學習和推斷,但大多數研究都集中在處理響應延遲或隱私保護方面。對設備和云建模之間的協作進行建模并使雙方共同受益的工作很少。為了彌補這一差距,我們是研究設備-云協作學習(DCCL)框架的首批嘗試之一。具體來說,我們在設備端提出了一種新穎的MetaPatch學習方法,以便在一個集中式的云模型下有效地實現“成千上萬的人擁有成千上萬的模型”。然后,針對數十億更新的個性化設備模型,我們提出了一種“模型-超模型”的蒸餾算法,即MoMoDistill,來更新集中式云模型。我們在一系列不同設置的數據集上進行了大量實驗,證明了這種協作在云和設備上的有效性,特別是它在建模長尾用戶方面的優越性。
隨著智能移動設備普及化、醫療設備數字化及電子病歷結構化的推進,醫療數據呈現爆發增長的特點。在深入研究探討醫療大數據發展規律,提高對醫療大數據真實價值的認識的同時,如何有效保護數據的隱私安全現已成為廣受關注的重要議題。醫療大數據自身特點以及存儲環境等都為隱私保護帶來了不小的挑戰。首先,介紹了醫療大數據的相關概念以及特點。然后,圍繞醫療大數據生命周期的四個階段數據的采集、存儲、共享以及分析,分別介紹面臨的風險挑戰以及相應的隱私保護技術,并對不同技術的優缺點、適用范圍等進行分析。在數據采集時,匿名技術、差分隱私可以抵御數據集成融合帶來的基于背景知識的攻擊。在存儲階段,醫療大數據多存儲于云平臺,為了數據的機密性和完整性,常使用加密、審計的方法。在數據共享階段,主要使用訪問控制方法來控制獲取數據的對象。在數據分析階段,在機器學習框架下對醫療健康大數據進行隱私保護。最后,針對貫穿醫療大數據生命周期的普遍隱私保護挑戰,從管理的層面提出合理的建議。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。
題目: 機器學習的隱私保護研究綜述
簡介:
大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.