亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人大學等《聯邦學習隱私保護》隱私保護技術

聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制.它允許各個參與方將數據保留在本地,在打破數據孤島的同時保證參與方對數據的控制權.然而聯邦學習引入了大量參數交換過程,不僅和集中式訓練一樣受到模型使用者的威脅,還可能受到來自不可信的參與設備的攻擊,因此亟需更強的隱私手段保護各方持有的數據. 本文分析并展望了聯邦學習中的隱私保護技術的研究進展和趨勢.簡要介紹聯邦學習的架構和類型,分析聯邦學習過程中面臨的隱私風險,總結重建、推斷兩種攻擊策略,然后依據聯邦學習中的隱私保護機制歸納隱私保護技術,并深入調研應用上述技術的隱私保護算法,從中心、本地、中心與本地結合這3個層面總結現有的保護策略. 最后討論聯邦學習隱私保護面臨的挑戰并展望未來的發展方向.

//jos.org.cn/html/2022/3/6446.htm

1. 引言

近年來, 大數據驅動的人工智能迸發出巨大潛力, 在金融、醫療、城市規劃、自動駕駛等多個領域完成了大規模復雜任務學習. 機器學習作為人工智能的核心技術, 其性能和隱私性也廣受關注. 傳統的機器學習需要由服務商收集用戶的數據后集中訓練, 但是用戶的數據與用戶個體緊密相關, 可能直接包含敏感信息, 如個人年齡、種族、患病信息等; 也可能間接攜帶隱含的敏感信息, 如個人網頁瀏覽記錄、內容偏好所隱含的用戶政治傾向. 如果這些敏感信息在收集過程中被服務商泄露或者利用, 將直接威脅用戶的人身安全、個人名譽和財產安全. 即便服務商沒有直接公開用戶數據, 集中訓練后發布的模型也可能因為受到隱私攻擊而泄露參與訓練的數據. 隨著隱私問題受到的關注程度日益提高, 用戶分享數據的意愿越來越低. 與之矛盾的是, 人工智能技術卻必須依靠大量數據收集和融合, 如果不能獲取完整豐富的信息來訓練模型并發展技術, 人工智能應用的發展將受到嚴重限制.

在數據孤島現象與數據融合需求的矛盾逐漸凸顯的背景下, 聯邦學習(federated learning, FL)應運而生. 2017年, Google公司首次提出了聯邦學習的概念[1], 這是一種由多個數據持有方(如手機、物聯網設備, 或者金融、醫療機構等)協同訓練模型而不分享數據, 僅在中間階段交換訓練參數的學習機制. 理想狀況下, 聯邦學習得到的共享模型與數據集中在中心服務器上訓練所得模型相比, 效果相近或更好[2]. 由此, 企業能夠通過合法且高效的方式融合數據提取信息, 個人或其他持有數據的機構依然能夠在享受企業提供的人工智能服務的同時, 保有數據的控制權.

盡管聯邦學習避免了將數據直接暴露給第三方, 對于數據隱私有天然的保護作用, 但是其中依然存在大量隱私泄露的風險.

  • 首先, 聯邦學習需要交換中間參數協同訓練, 可能泄露隱私. 與集中式學習不同, 聯邦學習訓練過程需要交換大量中間參數, 其所攜帶原始數據會暴露在所有參與訓練的角色面前, 帶來泄露的風險. 例如, 已有研究表明, 可以通過梯度還原部分原始數據[3], 或根據中間參數推斷掌握的記錄內容是否來自某個特定參與者[4].

  • 其次, 不可靠的參與方加劇了隱私泄露的風險. 聯邦學習中, 各個參與方由于地理、設備等條件不同, 通信內容的有效性和身份的真實性都難以確認, 因此一旦出現不可靠的參與方攻擊, 極易泄露隱私.例如, 半誠實的參與方能夠根據合法獲取的中間參數推斷出其他參與方的標簽或數據; 而惡意的參與方更進一步, 能夠通過上傳精心設計的有害信息誘導其他參與方暴露更多自身數據, 或者不遵守隱私協議進而影響全局的隱私性.

  • 此外, 訓練完成的模型也面臨著隱私泄露的風險. 即便聯邦學習的過程中參數沒有泄露, 直接發布訓練所得的模型依然存在極大風險. 這種風險來自機器學習自身的脆弱性. 在訓練中, 模型提高準確性依賴于對數據樣本的規律挖掘. 但是研究者[4]注意到, 追求模型在訓練樣本上的準確度, 可能導致模型的參數乃至結構“記住”訓練樣本的細節, 使得模型攜帶訓練集的敏感信息. 根據這一特性, 攻擊者可以通過反復查詢模型的預測接口來推測某條記錄是否存在于訓練集、推測模型的具體參數, 而根據模型發布的參數能夠進一步推測訓練集成員或訓練集具體樣本.

由此可見, 不加保護的進行聯邦學習, 訓練中涉及的眾多參與者的數據都將面臨泄露的風險. 而數據一旦泄露, 不僅隱私泄露者面臨嚴重損失, 參與者間彼此信任合作的聯合訓練模式也將難以為繼.

解決聯邦學習信息泄露問題迫在眉睫. 然而, 聯邦學習中數據分布復雜、應用場景豐富且需要多次數據交換, 這些因素為隱私保護帶來一系列挑戰.

  • 第一, 聯邦學習的訓練場景多樣且需求復雜, 現有的隱私保護方法無法通用. 已有的集中式機器學習隱私保護研究以中心服務器誠實為前提, 僅考慮模型發布后可能受到的攻擊, 沒有針對內部攻擊者的解決方案. 而且現有算法大多針對單一的集中式訓練場景, 沒有考慮多個參與方、多種架構、多種數據分布方式下的數據交換和模型協同訓練的情況. 因此, 設計適應不同場景和不同需求的隱私保護算法, 同時抵御外部和內部攻擊, 是聯邦學習隱私保護的重要挑戰.

  • ** 第二, 聯邦學習中參與方的可信程度低, 潛在的攻擊角度多, 對隱私保護算法的魯棒性要求更高**. 這里, 魯棒性指模型容忍惡意攻擊穩定運行的能力. 聯邦學習中, 參與者一旦發起攻擊, 能夠觀察到更多的中間參數, 甚至能夠篡改參數影響訓練過程, 隱私防御的難度遠高于外部出現的攻擊. 而參與者之間如果共謀, 可能獲取更多敏感信息. 因此, 提高隱私保護算法的魯棒性, 減少隱私算法中對參與者的可信程度的假設, 是聯邦學習隱私保護面臨的難題.

  • ** 第三, 聯邦學習本身通信不穩定, 模型計算代價高, 因而對隱私保護機制的通信量和復雜度要求嚴格**. 現實場景下的聯邦學習所面臨的復雜松散的網絡結構導致終端通信不穩定, 在此基礎上的隱私保護算法難以簡化. 而復雜的隱私保護算法將帶來更高的計算量、更大通信代價, 進一步制約聯邦學習的訓練效率. 研究高效率、輕量級的聯邦學習隱私保護算法, 降低額外開銷, 是聯邦學習隱私保護必須面對的挑戰.

  • 第四, 聯邦學習中參數維度高、數據分布不均, 難以在提供隱私保護的同時保持模型的可用性. 聯邦學習中間參數的維度與模型結構和輸入數據維度相關, 參數維度往往極高, 造成了極大的隱私開銷.此外, 聯邦學習的用戶數量不定且數據集大小不一, 如何在平衡不同數據集的同時保護隱私, 也是一個巨大挑戰.

綜上所述, 更加精細的隱私策略設計、更加精確的隱私預算分配、更加適應數據交換的隱私協議構建, 是聯邦學習隱私保護進一步發展必須面對的議題. 而明確現有的隱私問題和保護手段, 是技術發展的基礎. 聯邦學習的基礎——機器學習的隱私攻擊和防御已經被充分調研[5]. 機器學習面臨的外部攻擊同樣威脅著聯邦學習的發布模型, 但是機器學習的隱私保護手段卻遠遠不足以為聯邦學習提供保護. 這是由于聯邦學習同時面臨著傳統的外部攻擊和其獨有的內部攻擊, 因此聯邦學習的隱私保護方案必須同時為內部訓練過程和外部模型發布提供雙重保護.

另外, 已有學者調研了聯邦學習隱私保護的現狀, 但由于思路與本文不同, 側重的方法和文獻也不相同. Lyv等人[6]和Wang等人[7]對聯邦學習可能受到的攻擊作了詳細的闡述, 但是在安全攻擊和隱私攻擊的區分上沒有進一步調研. 本文明確兩種攻擊的概念范圍: 以竊取數據、破壞模型隱私性和機密性為目的的攻擊為隱私攻擊, 以干擾模型訓練結果、破壞模型可用性和完整性的攻擊為安全攻擊. 此外, 本文還依據現有的隱私攻擊技術的原理歸納了主要策略分類. 現有文獻[7?10]均從技術或訓練階段的角度分析了目前的聯邦學習隱私保護算法, 而本文根據聯邦學習自身特性分析其特有的隱私泄露內容和泄露位置, 從隱私保護的對象的角度出發建立分類框架, 并歸納每個類別中主要的保護機制, 進而分析采用不同技術的算法的共性并探究機制本身的優勢和不足. 進一步地, 本文建立了攻擊策略與保護機制之間的聯系, 并在此基礎上嘗試為聯邦學習隱私保護的發展提出建議.

本文第1節介紹聯邦學習的架構和類型, 以及相應場景下的訓練方式. 第2節分析聯邦學習面對的隱私泄露風險來源, 總結具體的攻擊策略. 第3節介紹多種隱私保護技術原理, 并將其歸納為信息模糊、過程加密兩種隱私保護機制. 第4節調研隱私保護技術在聯邦學習中的應用, 涵蓋本地保護、中心保護、中心與本地結合這3種保護策略, 并對每種策略展開更加詳細的闡述. 第5節討論現有不足并展望未來方向.

2. 聯邦學習**

**聯邦學習的一般定義為[11]: N個參與方{F1, …, FN}各自持有訓練集{D1, …, DN}. 聯邦學習中, 各個參與方在不將本地數據Di暴露給第三方的情況下, 協作訓練模型MFED. 為了給聯邦學習模型一個衡量標準, 設傳統的集中式機器學習將各個數據集收集合并為D=D1∪…∪DN以訓練模型MSUM. 令VFED為聯邦學習模型MFED精度(performance), VSUM為傳統機器學習模型MSUM精度. 存在非負實數δ, 使得: |VFED?VSUM|<δ, 則稱此聯邦學習模型具有δ的精度損失. 可見, 使各個數據集留在本地協同訓練所得模型的精度, 理想狀況下應當接近于將數據集集中后訓練所得模型的精度. 區別于傳統的分布式機器學習, 聯邦學習具有如下特點. (1) 各個參與方的訓練集非獨立同分布. 各個參與方僅掌握局部信息, 其分布與全局不一定相同; 各個參與方僅掌握整個數據集的部分屬性及標簽信息, 且各方之間屬性和標簽可能不完全重疊. (2) 各個參與方的訓練集大小可能不平衡. 某些參與方可能由于其規模、影響力等因素掌握更多數據. (3) 參與方數量不定. 參與者數量可能很少, 例如只有幾個企業交換數據集; 也可能極多, 如訓練涉及數以萬計的App使用者. (4) 通信受限. 與分布式相比, 聯邦學習的架構更為松散, 參與的設備可能存在頻繁掉線、通信緩慢等情況, 因此聯邦學習的通信代價同樣受到極大關注. 根據這些特點, 學者為聯邦學習設計了不同的架構方式和學習類型.

聯邦學習架構

常見的聯邦學習架構為客戶-服務器. 典型的客戶-服務器架構由一個中心服務器和多個持有數據的客戶端組成. 被廣泛采用的聯邦平均FedAvg[1]即是基于客戶-服務器架構設計的算法. 在訓練中, 中心服務器將隨機初始化的模型結構和參數分發給客戶端, 客戶端根據本地數據訓練并更新模型后將參數上傳. 中心服務器收到各方參數后聚合計算, 更新模型參數再次下發. 該過程循環, 直至模型收斂或訓練終止. 除了常見的模型參數交換以外, 也存在梯度交換、數據特征的嵌入式表示交換等方式. 在此架構下, 原始數據不需要傳輸, 但是本地中間參數暴露給了中心服務器, 全局中間參數則會被每個客戶端獲取, 數據交換過程中, 巨大的通信量也會影響訓練效率. 而當參與訓練的客戶端數量過多時, 中心服務器的聚合計算甚至可能成為全局訓練效率的瓶頸.

當沒有中心服務器時, 聯邦學習采用另一種常見架構: 端對端的網絡架構[12]. 這種架構僅由持有數據的終端組成. 參與訓練的終端Fi直接將訓練參數發送給下一個(或多個)終端Fi+1, 下一個(或多個)終端Fi+1在收集到的一個(或多個)參數基礎上繼續訓練, 直到模型收斂或者訓練終止. 端對端網絡架構不依賴中心服務器這樣的第三方機構, 本地中間參數直接在參與方之間傳送. 因此需要考慮參與方如何協商使用相同的模型、算法、初始化參數等基本信息, 協調各方參與訓練的順序.

為了下文中概念統一、表述清晰, 本文將客戶-服務器中的服務器稱為中心服務器; 將客戶-服務器中的客戶端和端對端架構中的參與訓練終端統稱為終端; 所有參與訓練的服務器、終端統稱為參與方. 訓練過程中發送的梯度、模型參數、嵌入式表示等, 統稱為中間參數. 上述兩種典型架構如圖 1所示.

聯邦學習類型根據參與方的樣本分布情況, 聯邦學習按照數據的劃分情況可以分為3種類型: 橫向聯邦學習、縱向聯邦學習、遷移聯邦學習. 不同的數據的劃分方式需要的訓練方式和中間參數不同, 也為隱私泄露的風險和保護方式帶來影響.

橫向聯邦學習中, 各個參與方持有的數據特征相同, 但掌握的樣本不同. 例如, 幾個不同城市的醫院可能掌握著不同病人的情況, 但是由于具備相似的醫療手段, 醫院獲取屬性的屬性相同. 橫向聯邦學習中典型的方式之一是第1.1節所描述的聯邦平均算法FedAvg, 包括梯度平均和模型平均兩種類型[13], 多由客戶-服務器架構實現. 梯度平均是指終端交換和聚合模型梯度, 而模型平均指聚合模型參數. 在端對端架構中, 各個參與方訓練本地模型, 通過循環發送給下一個(或多個)訓練方或者隨機傳輸某個(或多個)終端[14]實現模型參數的共享.

而縱向聯邦學習則針對相反的情形, 即各個參與方持有的數據特征不同, 但掌握的樣本相同. 例如, 同一個城市中的醫院和銀行都接待過同一個市民, 保留著該市民的就診記錄或資金狀況. 顯然, 醫院和銀行獲取的數據屬性完全不同, 但是所持有的樣本ID是重疊的. 縱向聯邦學習首先需要參與方對齊相同ID的樣本, 然后, 各個參與方在對齊的樣本上分別訓練本地模型并分享參數. 不同架構同樣都適用于縱向聯邦學習, 但由于數據的縱向分布, 參與方之間的依賴程度更高, 模型需要更加精細地設計. 縱向聯邦學習已應用于線性回歸[11]、提升樹[15]、梯度下降[16]等多種模型上. 以縱向聯邦學習線性回歸算法[11]為例, 該算法在樣本對齊后, 將損失函數的梯度拆分, 使得兩個參與方能夠使用各自的本地數據分別計算梯度的一部分, 而需要共同計算的部分則通過雙方交換參數協同完成. 縱向分布的數據之間緊密的相關性, 為縱向學習的效率和容錯性帶來挑戰.

上述兩種類型都是比較理想的情況, 現實生活中, 大部分參與方所持有的數據, 在特征和樣本ID上的重疊都比較少且數據集分布不平衡. 針對這樣的情形, 遷移學習被應用到聯邦學習中來. 遷移學習作為一種有效的學習思想, 能夠將相關領域中的知識遷移到目標領域中, 使得各個參與方共同學習得到遷移知識. 以兩方遷移學習為例[17], 假設一方A掌握樣本的部分特征和全部標簽, 另一方B掌握部分特征, 雙方特征和樣本ID之間都有少量重疊. 聯邦遷移學習首先對齊樣本并共同訓練模型, 然后預測B方樣本的標簽. 為了達到預期效果, 訓練的目標函數包含兩個部分: 一部分是根據已有的標簽預測B方樣本, 使預測誤差最小化; 另一部分是A與B對齊的樣本之間的嵌入式表示的區別最小化. 各方根據目標函數在本地訓練, 并交換中間參數更新模型, 直至模型收斂.

目前, 縱向和遷移聯邦學習的隱私保護算法研究還不成熟, 且保護方式與橫向聯邦學習場景類似. 為了表述簡潔, 下文中調研的隱私保護算法若無特別說明, 即為橫向聯邦學習場景.

3. 聯邦學習中的隱私泄露風險

盡管聯邦學習不直接交換數據, 比傳統的集中式機器學習訓練有了更高的隱私保障, 但聯邦學習本身并沒有提供全面充分的隱私保護, 依然面臨著信息泄露的威脅. 模型面臨的隱私泄露風險來自模型訓練自身的脆弱性和攻擊者的強大能力: 模型訓練過程中, 獨特架構和訓練階段決定了隱私泄露的位置和時機; 攻擊者的角色和能力, 決定了隱私泄露的內容和程度. 而攻擊者依據自身特性所采取的攻擊策略, 則進一步影響攻擊者的能力, 從而影響模型隱私泄露的風險. 理清隱私泄露的風險, 才能為聯邦學習隱私防御找到總體方向.

4 隱私保護機制和技術

**隱私保護技術是防御敏感信息泄露的技術, 能為信息的隱私提供嚴格的可量化的保護. 隱私保護的技術多種多樣, 但總體分為兩大方向: 信息模糊機制和過程加密機制. 信息模糊機制面向數據內容本身, 通過處理數據或參數使數據內容不易被關聯到用戶身份上; 過程加密機制面向數據傳輸的過程, 通過改變數據交換的形式使得傳輸過程中的數據不被識別. 兩類機制使用的場景不同, 但都能在一定程度上抵御上述隱私攻擊.

5 聯邦學習中的隱私保護算法

基于上述隱私保護機制和技術, 學者們為聯邦學習設計了多種保護措施. 盡管這些保護措施設置在訓練的不同階段, 但隱私保護的對象是明確且清晰的: 中心或本地. 中心是指中心服務器所掌握的中間參數和訓練完成的模型; 本地則包括終端所掌握的數據和本地模型參數. 二者是聯邦學習主要的隱私泄露位置. 因此, 本節以隱私保護的對象為線索, 將聯邦學習隱私保護算法分為3種主要類型: 中心保護、本地保護、中心與本地同時保護策略. 中心保護策略以保護中心服務器所掌握的參數為目標, 考慮模型的使用者帶來的威脅; 本地保護策略以保護本地所掌握的參數為目標, 考慮中心服務器帶來的威脅; 中心和本地同時保護策略以保護所有參數為目標, 同時考慮模型使用者和中心服務器所帶來的威脅. 3種保護策略的區別如圖 4所示. 需要說明的是, 本地保護策略提供的保護有時也能起到防御模型使用者(外部攻擊者)的效果, 但防御使用者并非本地保護策略的核心任務, 所以該防御范圍在圖中用虛線表示.

6 未來展望

不同于傳統的集中式機器學習, 聯邦學習由于自身架構和訓練方式的獨特性, 面臨著更多樣的隱私攻擊手段和更迫切隱私保護需求. 現有的聯邦學習隱私保護算法在技術、平衡性、隱私保護成本和實際應用中還存在諸多不足之處. 明確這些問題和挑戰, 才能展望聯邦學習隱私保護未來發展的機遇和方向:

  • 構建隱私量化體系, 設計有針對性的隱私定義和保護技術
  • 研究隱私性、魯棒性、公平性合一的隱私保護機制
  • 實現低成本、輕量級的聯邦學習隱私保護策略
  • 探索面向復雜場景的異質聯邦學習隱私保護方案
  • 解決高維中間參數的隱私隱患
付費5元查看完整內容

相關內容

聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在 2016 年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。其中,聯邦學習可使用的機器學習算法不局限于神經網絡,還包括隨機森林等重要算法。聯邦學習有望成為下一代人工智能協同算法和協作網絡的基礎。

聯邦學習(federal learning, FL)已經發展成為一個很有前途的框架,可以利用邊緣設備的資源,增強客戶的隱私,遵守規則,并降低開發成本。雖然許多方法和應用已經開發用于FL,但實際FL系統的幾個關鍵挑戰仍然沒有解決。本文作為ICASSP 2022年“聯邦學習的前沿:應用、挑戰和機遇”特別會議的一部分,對聯邦學習的發展進行了展望。將其展望分為算法基礎、個性化、硬件與安全約束、終身學習、非標準數據五個新興的FL方向。我們獨特的觀點得到了大規模聯邦系統對邊緣設備的實際觀察的支持。

//www.zhuanzhi.ai/paper/39a7d4ee8712a68df844567ae2010fbe

聯合學習[1,2]是一種流行的針對邊緣設備開發的分布式學習框架。它允許私有數據停留在本地,同時利用邊緣設備的大規模計算。它的主要思想是通過在每個所謂的聯邦或通信輪中交替執行以下內容來學習聯合模型: 1) 服務器將模型推送給客戶端,然后客戶端將執行多個本地更新,2) 服務器從客戶端子集聚合模型。實際FL系統的設計是非常重要的,因為FL經常涉及數以百萬計的設備、來自不同隊列的未知異構性、有限的設備容量、不斷變化的數據分布和部分標記的數據。受實際觀察的啟發,我們將在以下五個部分中列出一些關鍵的挑戰(如圖1所示)。

付費5元查看完整內容

聯邦學習由于能夠在多方數據源聚合的場景下協同訓練全局最優模型,近年來迅速成為安全機器學習領域的研究熱點。首先,歸納了聯邦學習定義、算法原理和分類;接著,深入分析了其面臨的主要威脅與挑戰;然后,重點對通信效率、隱私安全、信任與激勵機制3個方向的典型研究方案對比分析,指出其優缺點;最后,結合邊緣計算、區塊鏈、5G等新興技術對聯邦學習的應用前景及研究熱點進行展望。

//www.infocomm-journal.com/cjnis/EN/10.11959/j.issn.2096-109x.2021056

付費5元查看完整內容

摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。

//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法

論文引用格式:

王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

圖片

1 引言

大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。

早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。

聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。

本文的主要貢獻如下。

● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。

● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。

● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。

● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。

付費5元查看完整內容

隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。

//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。

在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。

根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。

具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。

FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。

在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。

在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。

這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。

目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。

付費5元查看完整內容

聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。

//jnuaa.nuaa.edu.cn/ch/reader/create_pdf.aspx?file_no=202005001&flag=1&journal_id=njhkht&year_id=2020

付費5元查看完整內容

在大數據時代下,深度學習、強化學習以及分布式學習等理論和技術取得的突破性進展,為機器學習提供了數據和算法層面的強有力支撐,同時促進了機器學習的規模化和產業化發展.然而,盡管機器學習模型在現實應用中有著出色的表現,但其本身仍然面臨著諸多的安全威脅.機器學習在數據層、模型層以及應用層面臨的安全和隱私威脅呈現出多樣性、隱蔽性和動態演化的特點.機器學習的安全和隱私問題吸引了學術界和工業界的廣泛關注,一大批學者分別從攻擊和防御的角度對模型的安全和隱私問題進行了深入的研究,并且提出了一系列的攻防方法. 在本綜述中,我們回顧了機器學習的安全和隱私問題,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足. 最后,我們探討了機器學習模型安全與隱私保護研究當前所面臨的挑戰以及未來潛在的研究方向,旨在為后續學者進一步推動機器學習模型安全與隱私保護研究的發展和應用提供指導.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1

付費5元查看完整內容

數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。

付費5元查看完整內容

題目: 機器學習的隱私保護研究綜述

簡介:

大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.

付費5元查看完整內容
北京阿比特科技有限公司