許多視頻分類應用需要訪問用戶的個人數據,從而對用戶的隱私構成入侵性安全風險。我們提出了一種基于卷積神經網絡的單幀方法視頻分類的隱私保護實現,該實現允許一方從視頻中推斷出標簽,而無需視頻所有者以非加密的方式向其他實體披露他們的視頻。類似地,我們的方法消除了分類器所有者以明文形式向外部實體透露其模型參數的要求。為此,我們將現有的用于私有圖像分類的安全多方計算(MPC)協議與用于無關單幀選擇和跨幀安全標簽聚合的新MPC協議相結合。結果是一個端到端的隱私保護視頻分類流程。我們在一個私人人類情感識別的應用評估了提出的解決方案。各種安全設置的結果,包括計算各方的誠實和不誠實的大多數配置,以及被動型和主動型對手,表明視頻可以以最先進的精確度分類,而且不會泄露敏感用戶信息。
摘要: 大數據時代背景下,各行各業希望能基于用戶行為數據來訓練推薦模型,為用戶提供精準推薦,所用數據的共性特點為總量龐大、攜帶敏感信息、易于獲取。推薦系統在帶來精準推薦和市場盈利的同時也正在實時分享著用戶的隱私數據,差分隱私保護技術作為一門隱私保護技術, 能夠巧妙地解決推薦應用中存在的隱私泄露問題,其優勢在于不需要考慮攻擊方所具備的任何相關的背景知識、嚴格地對隱私保護進行了定義、提供了量化評估方法來保證數據集(在不同參數條件下)所提供的隱私保護水平具有可比較性。首先簡述了差分隱私的概念和主流推薦算法的近期研究成果, 其次重點分析了差分隱私與推薦算法相結合的應用情況,涉及的推薦算法有矩陣分解、深度學習推薦、協同過濾等,并對基于差分隱私保護的推薦算法的準確性進行了對比實驗; 然后討論了與每種推薦算法結合的使用場景以及目前仍存在的問題,最后對基于差分隱私的推薦算法的未來發展方向提出了有效建議。
我們考慮在分布在用戶設備上的私有數據上建立訓練模型。為了確保隱私,我們添加了設備上的噪聲,并使用安全聚合,以便只向服務器顯示噪聲和。我們提出了一個全面的端到端系統,在執行安全聚合之前適當地離散數據并添加離散高斯噪聲。我們提供了一種新的離散高斯和的隱私分析方法,并仔細分析了數據量化和模求和算法的影響。我們的理論保證強調了溝通、隱私和準確性之間的復雜張力。我們廣泛的實驗結果表明,我們的解決方案基本上能夠以低于16位精度的每個值匹配中心差分隱私的精度。
基因組數據已廣泛應用于科學研究、醫療服務、法律與取證和直接面向消費者服務.基因組數據不但可以唯一標識個體,而且與遺傳、健康、表型和血緣關系密切關聯.此外,基因組數據具有不隨時間而變化的穩定性.因此,基因組數據管理不當和濫用將會帶來人類所擔心的隱私泄露問題.針對此問題,除了相關法律法規的監管以外,隱私保護技術也被用于實現基因組數據的隱私保護.為此,本論文對基因組數據的隱私保護理論與方法進行綜述研究.首先,本論文根據基因組測序到應用歸納基因組數據的生態系統,并依據基因組數據特點分析其存在的隱私泄露問題.其次,分類總結和對比分析基因組數據存在的隱私威脅,并陳述重識別風險與共享基因組數據的價值之間的均衡模型.再次,分類概述和對比分析量化基因組數據隱私和效用的度量.然后,分析基因組數據生態系統中測序與存儲、共享與聚集及應用的隱私泄露威脅.同時,分類介紹和對比分析用于基因組數據的隱私保護方法.針對基因組數據生態系統中存在的隱私泄露問題,根據所使用的隱私保護方法,分類概括和對比分析目前基因組數據隱私保護的研究成果.最后,通過對比分析已有的基因組數據隱私保護方法,對基因組數據生態系統中基因隱私保護的未來研究挑戰進行展望.該工作為解決基因組數據的隱私泄露問題提供基礎,進而推動基因組數據隱私保護的研究.
摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。
//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030
關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法
論文引用格式:
王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.
WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.
圖片
1 引言
大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。
早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。
聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。
本文的主要貢獻如下。
● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。
● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。
● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。
● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。
深度神經網絡已經顯示出從圖像和文本等數據中提取通用特征表示的能力,這對各種學習任務都很有用。在聯邦設置中,表示學習的成果還沒有完全實現。盡管聯邦設置中的數據通常是非iid。在客戶端,集中深度學習的成功表明,數據通常共享一個全局特征表示,而在客戶端或任務之間的統計異質性集中在標簽。基于這種直覺,我們提出了一種新的聯合學習框架和算法來學習跨客戶端共享的數據表示。我們的算法利用客戶機之間的分布式計算能力,針對表示的每次更新的低維局部參數執行許多本地更新。我們證明了該方法在線性設置下獲得了接近最優樣本復雜度的ground-truth表示的線性收斂性,證明了該方法可以有效地降低每個客戶端的問題維數。此外,我們提供了大量的實驗結果,證明了我們的方法在異構環境下優于其他個性化聯合學習方法。
傳統的無監督多源域適應(Domain Adaptation)方法假設所有源域都可以直接訪問。然而,該假設忽略了隱私保護政策,即所有數據和計算都必須在本地進行。在隱私保護要求下進行域適應存在三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而源域數據本地存儲,不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用,例如域對抗訓練。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來進行知識遷移。大量實驗表明,KD3A顯著優于其他前沿域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
機器學習模型容易受到成員推斷攻擊,目的是推斷目標樣本是否屬于目標模型的訓練數據集。由于成員推理而引起的嚴重的隱私問題引發了對成員推理攻擊的多種防御,例如差分隱私和對抗性正則化。不幸的是,這些防御方法產生的機器學習模型的實用性低得令人無法接受,例如,分類準確性。我們提出了一種新的基于知識蒸餾的防御,稱為成員隱私蒸餾(DMP),以對抗成員推理攻擊,這種攻擊比先前的防御更有效地保留了生成模型的效用。我們提供了一個新的準則來調整DMP中用于知識遷移的數據,以調整所得模型的效用和隱私之間的權衡。我們的評估清楚地展示了最先進的會員隱私-效用折衷。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。