機器學習中差分隱私的數據共享及發布:技術、應用和挑戰
近年來, 基于機器學習的數據分析和數據發布技術成為熱點研究方向。與傳統數據分析技術相比, 機器學習的優點是能 夠精準分析大數據的結構與模式。但是, 基于機器學習的數據分析技術的隱私安全問題日益突出, 機器學習模型泄漏用戶訓練 集中的隱私信息的事件頻頻發生, 比如成員推斷攻擊泄漏機器學習中訓練的存在與否, 成員屬性攻擊泄漏機器學習模型訓練集 的隱私屬性信息。差分隱私作為傳統數據隱私保護的常用技術, 正在試圖融入機器學習以保護用戶隱私安全。然而, 對隱私安 全、機器學習以及機器學習攻擊三種技術的交叉研究較為少見。本文做了以下幾個方面的研究: 第一, 調研分析差分隱私技術 的發展歷程, 包括常見類型的定義、性質以及實現機制等, 并舉例說明差分隱私的多個實現機制的應用場景。初次之外, 還詳細 討論了最新的 Rényi 差分隱私定義和 Moment Accountant 差分隱私的累加技術。其二, 本文詳細總結了機器學習領域常見隱私 威脅模型定義、隱私安全攻擊實例方式以及差分隱私技術對各種隱私安全攻擊的抵抗效果。其三, 以機器學習較為常見的鑒別 模型和生成模型為例, 闡述了差分隱私技術如何應用于保護機器學習模型的技術, 包括差分隱私的隨機梯度擾動(DP-SGD)技術 和差分隱私的知識轉移(PATE)技術。最后, 本文討論了面向機器學習的差分隱私機制的若干研究方向及問題。
1 引言
數據分析和發布技術使得數據分析者可以學習 大數據的共有規律。其中, 統計信息分析[1-2]和機器 學習是熱門應用領域。然而, 所有的數據分析任務如 不添加合適的隱私保護技術都有可能泄漏個人隱私 信息。這導致如今數據擁有者由于擔憂個人隱私泄 漏問題不愿貢獻個人數據供第三方使用。歐洲針對 此類問題, 已經出臺了《通用數據保護法規》(GDPR) 規定第三方數據使用者有權保護個人隱私。
1.1 隱私保護背景
首先, 本文舉例描述數據分析任務場景以及可 能存在的隱私威脅。圖 1 為 Adult 公開數據庫的片段 截取示例。在 Adult 數據庫中, 每一行代表一條個人 (隱私)信息。數據分析者想要分析數據庫中所包含的 模式規律。例如, 統計問題“數據庫中有多少人的信 息滿足屬性P?”屬性P可以是“年收入超過50K?” 或者“年齡超過 50 歲”, 或者兩者的交集。機器學 習二分類任務可以是“基于個人的其他信息預測該 人的年收入是否超過 50K”。
為了在保護數據擁有者的個人信息的同時允許 數據分析者分析數據中暗藏的模式, 傳統隱私保護 方式有非交互式和交互式兩種。其中匿名化為非交 互式保護方式。匿名化指數據收集者把能表示個人 身份信息的唯一識別號(例如身份證號, 學號, 姓名 等)從原始數據庫中去除再發布。然而, Sweeney[3]提 出 87%的美國人可以通過郵編、出生日期和性別這 三個組合屬性唯一識別, 這暗示僅僅去除唯一識別 號不足以保護個人身份不被泄漏。隨后, Narayanan 和 Shmatikov 提出鏈接攻擊(linkage attack)[4]。該攻擊 通過將一個公共數據庫的信息鏈接到私有數據庫從 而暴露私有數據庫里的隱私屬性。為了應對該攻擊, k-匿名[3]、l-多樣化[5]、t-近似[6]等技術相繼提出。但 是, 這些攻擊或受到背景知識攻擊影響, 或缺少嚴 謹量化的隱私定義。這些技術假設數據集中的屬性 可分類為隱私屬性和公共屬性。隱私屬性需要保護 而公共屬性可以公開。但根據后來研究表明[7], 隱私 屬性和公共屬性并不存在明顯的分界, 因為任何屬 性組合皆有可能泄漏個人的獨有特征規律。這個結 論尤其符合如今的大數據環境。
當非交互式數據發布難以兩全個人隱私保護和 數據分析任務時, 交互式問答成為研究者的新方向。然而, 直接回答關于數據庫的統計問答也有可能會 泄漏個人隱私, 例如差分攻擊。攻擊者向某醫療數據 庫提問“數據庫中有多少人患有癌癥?”和“有多少除 了小明的人患有癌癥?”可以直接差分出小明是否 患有癌癥。
在以上案例場景中, 隱私保護目標是在不違反 個人隱私的條件下允許數據分析者學習群體規律。因此, 如何定義個人隱私泄漏至關重要。從信息論的 角度上分析, 群體規律的學習必然會導致數據分析 者得到更多的信息以猜測個人隱私。例如, 某調查結 果“肺癌和吸煙有緊密關系”必然會增強攻擊者猜 測吸煙人群是否患有肺癌的正確概率。在圖 1 中, 某機器學習分類器獲得 80%的測試集正確率。然后其 預測個人年薪是否超過 50K 的正確率會從原本的 50%提高到 80%(假設 income 屬性平衡)。這些情況 是否能稱為隱私泄漏?現有的隱私定義難以回答這 類定性問題, 因此需要新的隱私保護定義。
差分隱私(Differential Privacy, DP)定義了“合理 的可否認性”[8], 即某條個人信息是否參與調查, 調 查結果都維持“大致”相同。這等同于保證攻擊者 幾乎無法察覺某個人的信息是否用于計算調查結果。“大致”是由隱私預算 ? 控制。該參數提供隱私和實 用性的折中。在實際應用中, 差分隱私機制向調查結 果中加入一定量的噪聲。噪聲的量由隱私預算 ? 和 問題敏感度控制。敏感度度量了兩個漢明距離為 1 的數據庫回答同一個問題的最大差值。如今, 差分隱私已經成為執行隱私保護的實 際標準。微軟[9]、蘋果[10]、谷歌[11-12]、美國人口調 查局[13]、哈弗大學 PSI 項目[14]等都通過利用該技術 分析敏感數據。本文旨在分析差分隱私技術在機器 學習領域用于隱私保護的理論與應用。通過剖析差 分隱私與機器學習交叉領域技術, 提出該領域存在 的問題和可能的解決方向。
1.2 相關研究介紹
近年來有以下與差分隱私相關的綜述性分析。在這些綜述分析中, Dwork 等人[2]首先給出隱私保護 分析中存在的問題以及初步的差分隱私解決方案。Dwork和Roth[15]總結了到2014年為止差分隱私出現 的理論性技術。Sarwate 和 Chaudhuri[7], Ji 等人[16], Goryczka 等人[17]和 Jain 等人[18]分別強調信號處理、 機器學習、多方安全計算、大數據中存在的差分隱 私問題。Zhu 等人[19]介紹了差分隱私的數據共享和分 析, 與本文目標類似。然而近年來, 隨著差分隱私技 術及機器學習技術的迅速發展, 許多新的理論突破 和實踐層出不窮。因此本文將涵蓋更多新發展的技術和問題。
本文旨在幫助讀者迅速了解差分隱私的進化發 展歷程, 并熟悉差分隱私機制的在機器學習領域的 應用。圖 2 給出常見的隱私數據分析場景架構, 其中 數據擁有者提供敏感數據集; 服務提供者, 例如機 器學習服務提供商(Machine Learning as a Service, MLaaS)負責數據分析和以及用戶隱私保護; 常規用 戶旨在獲取查詢結果, 同時惡意用戶可能成為竊取 隱私信息的攻擊者。后文結構如下: 第 2 節介紹差分隱私的定義、實 現機制、常用性質定理; 第 3 節介紹機器學習領域熱 門的威脅模型、攻擊以及與差分隱私的聯系; 第 4節介紹差分隱私機制在機器學習中兩種熱門模型: 鑒別模型 (discriminative model) 以及生成模型 (generative model)中的運用; 第 5 節總結差分隱私在 機器學習領域應用存在的公開問題和研究方向。
2. 機器學習中的隱私威脅模型與攻擊
隨著機器學習的深入發展, 深度學習已經成為 尋找數據規律的重要手段。一般的, 機器學習通過建 立模型、優化損失函數來擬合數據。但是, 機器學習 模型如果用來擬合個人敏感數據, 例如醫療數據、人 口普查信息、學校數據、銀行數據等, 會對個人隱私 保護提出挑戰。當攻擊者獲取機器學習模型后, 模型 輸出特性可能泄漏訓練數據的隱私信息。例如某個 人的信息是否存在于隱私數據集中(成員猜測攻擊), 或者猜測某個人的隱私屬性(屬性猜測攻擊)。
2.1 隱私威脅模型
討論攻擊之前, 首先需要定義威脅模型。威脅模 型可以用來度量攻擊者能力及其抵抗方法的有效性。具體包括以下三個方面: 攻擊者的目標、知識和能力。攻擊者的目標根據不同攻擊類型有所不同, 我們將 在 2.2 節詳述。攻擊者的知識和能力在機器學習領域 主要體現在以下兩個方面: 模型知識和數據集知識。 模型知識: 白盒子 和黑盒子
。白盒子攻 擊者掌握目標機器學習模型的模型架構和模型參數。黑盒子攻擊指的是攻擊者只能接入模型 API, 即查 詢模型并獲取返回的預測結果(可能包含預測結果 的概率), 但是不知道模型參數。許多黑盒子模型假 設攻擊者知道目標模型的架構。因為當攻擊者使用 現有機器學習及服 MLaaS 時,其能夠復現目標模型 的架構。數據集知識: 攻擊者是否擁有額外數據集。攻擊 者能力由強到弱依次分為: (1)可獲取部分訓練集
; (2)獲取同分布數據集
; (3)無額外數據集
。第一種情況下, 攻擊者獲得部分訓練集; 第二 種情況下, 攻擊者獲取與訓練集同分布但不相交數 據集(例如, 對抗生成網絡生成的人工合成數據集,又叫影子數據集); 第三種情況, 攻擊者沒有任何額 外數據集。綜合以上兩類攻擊者知識, 共有 6 種可能的威 脅模型 :
2.2 隱私威脅攻擊
常見的在機器學習領域與隱私保護(privacy protection)相關的攻擊分為以下幾類: 成員猜測攻擊 (membership inference attack), 模型反演攻擊(model inversion attacks), 屬性猜測攻擊(attribute inference attack), 模型竊取攻擊(model stealing attack), 無意識 記憶(unintended memorization)。值得注意的是, 對抗 樣本攻擊(adversarial samples)[31]是另一類較為熱門 的威脅到機器學習模型安全的議題, 但是屬于模型 安全領域(model security), 與隱私保護無關, 因此不 在本文討論范圍內。
3.3 差分隱私抵抗機制
差分隱私機制從定義上防止成員猜測攻擊, 模 型記憶, 并弱化屬性猜測攻擊。但是, 其對模型反演 攻擊和模型竊取攻擊的弱化效果不明顯。具體可參 考 Liu 等人[38]的研究。表 4 總結了以上提到的五種 攻擊以及差分隱私對它們的抵抗能力。
為了能夠盡量減少對機器學習可用性的影響, 不修改模型結構及損失函數, 主流差分隱私抵抗機 制研究分為梯度擾動(gradient perturbation)[55, 26]和知 識轉移(knowledge transfer)[57-58]兩種差分隱私方案。梯度擾動旨在修改訓練過程中的梯度更新算法, 在 每個迭代周期的隨機梯度遞減算法結果中添加差分 隱私噪聲。知識轉移機制基于采樣和聚合架構 (Sample and Aggregate Framework, SAF), 將非隱私 的學生模型采用差分隱私機制聚合出一個滿足差分 隱私機制的老師模型然后發布。第 4 節將詳細描述 目標/輸出/梯度擾動和知識轉移兩種差分隱私技術 在鑒別模型和生成模型中的運用。
3. 機器學習中的差分隱私方法
鑒別模型主要指的是分類器模型, 即給予目標 屬性, 模型判斷其屬于哪個類別。鑒別模型在機器學 習任務中應用廣泛。生成模型, 本文主要指對抗生成 模型(Generative Adversarial Nets, GAN), 用于生成與 訓練集近似分布的人工合成數據集。由于常見的 GAN 分為一個鑒別器(discriminator)和一個生成器(generator)。所以許多針對鑒別模型的差分隱私機制 可以微調以適應 GAN 模型。下文將首先介紹鑒別模 型中的差分隱私機制, 再介紹這些機制如何微調以 保護 GAN 模型。
3.1 鑒別模型
3.1.1 目標擾動和輸出擾動機制
機器學習領域, 在早期經驗風險最小化(Empirical Risk Minimization, ERM)優化凸函數時, 研究者率先 提出了兩種方式: 目標擾動[59-61]和輸出擾動[58-59]。其 中 Chauhuri 等人[58]以邏輯回歸(logistic regression)為 例, 給出目標擾動和輸出擾動的敏感度分析方法。但 是其敏感度分析方法依賴目標函數為強凸函數。隨 著神經網絡(neural networks)的深入發展, 損失函數 不再是凸函數, 因此依賴強凸函數條件的分析敏感 度的方法不再可行, 隱私保護的方法逐漸轉入梯度 擾動[26, 55]。梯度擾動無需損失函數為強凸性。且敏 感度分析可以通過梯度裁剪實現。表 6 總結了 3 種 擾動的實現機制。
3.1.2 梯度擾動機制
隨機梯度下降(Stochastic Gradient Decent , SGD) 是目前優化神經網絡損失函數的常用方法。它在每 個周期隨機采樣部分訓練集, 計算經驗梯度以估計 總體梯度并更新參數。如果損失函數并非強凸(神經 網絡中, 一般都不是強凸), 則隨機梯度下降會優化 至某個局部最優點。差分隱私的隨機梯度擾動(DPSGD)旨在將符合差分隱私規范的噪聲添加到每個周 期的經驗梯度中, 用擾動的梯度估計更新網絡, 以 使得每個周期更新的網絡參數都滿足差分隱私機制。
3.1.3 知識轉移
知識轉移方法指的是從一群非隱私保護的老師 模型(teacher ensembles)中以隱私保護的模式把模型 知識轉移到一個新的學生模型(student model)中, 使 得學生模型滿足隱私保護, 并將學生模型發布給使 用者。其中代表性的案例為 Private Aggregation of Teacher Ensembles (PATE)①[56]。PATE可以看成是SAF 技術[62]在深度學習中的一個實例化應用。PATE 的訓 練過程可以分解為兩部分: teacher ensembles 訓練 (圖 3 左側)和 student model 訓練(圖 3 右側)。
3.1.4 DP-SGD VS PATE
對于DP-SGD和PATE兩種截然不同的隱私策略,我們從以下三個角度對比其優劣。?· 隱私保護: 基于 SAF 技術的 PATE 架構與 DP-SGD 有略微不同的隱私假設。PATE 假設屬性?及 其分布并非是需要保護的。其保護的是與?關聯的標 簽?的值。拿圖 1 舉例, PATE 保護其他屬性與收入 (income)之間的關聯性, 但是并不保護某個人的公共 屬性(婚姻狀態 marital staturs 等)。該隱私保護對數據 集的假設要強于 DP-SGD, 且并非所有數據集都滿 足此要求。例如圖 1 中的 Adult 數據集、醫療數據集 等的個人屬性也可能也是需要隱私保護的。?· 可用性: PATE 天然適合于分布式架構。PATE 無需修改現有模型架構, 但是 DP-SGD 需要修 改梯度下降策略。PATE 只能用于分類任務, 而 DP-SGD 可以應用于線性回歸、分類任務、生成任務 等。當用分類準確度來衡量發布的差分隱私架構可 用性時, 在同等隱私預算下, PATE可能優于DP-SGD。這是因為 PATE 從公共分布中獲取了更多與分類任 務無關的先驗知識。且其用數據相關的隱私分析。· 計算復雜度: 在計算復雜度這一項, DP-SGD 對 比PATE 有優勢。一個典型的PATE 模型需要250 個老師 模型才能獲取隱私和有效性的較優平衡。除此之外, PATE 如果采用數據相關的隱私預算分析, 計算消耗也很大。
3.2 生成模型
生成模型有多種, 本文專指對抗生成模型 GAN。GAN 有很強的分布模仿能力, 能夠生成與原始訓練集分 布近似的高緯度數據集。因此許多研究者用其當作天然 的規避隱私保護的方法, 生成并發布合成數據集, 并用 人工合成數據集替代隱私數據集發布使用。但是近年來 研究發現GAN本身并沒有嚴格證明的隱私保護性能, 特 別的, 成員猜測攻擊對GAN 也有攻擊效果[40, 42-43, 45, 68]。根據第 3 節, 差分隱私機制能夠抵抗成員猜測攻擊, 因 此研究差分隱私的 GAN 對于隱私保護至關重要。GAN 基本知識: GAN 的基本結構如圖 4 所示,
包括一個鑒別器網絡(Discriminator)和一個生成器網 絡(Generator)。敏感訓練集為Xreal。生成器和鑒別器 相互博弈, 生成器要生成更加逼真的數據, 鑒別器 提高鑒別能力以鑒別出人造數據和訓練集的區別。兩者的損失函數如下。
鑒別器和生成器同時優化自己的損失函數, 最 后達到平衡點。從公式(16)(17)以及圖 4 中的損失函 數流程可以看出, 只有鑒別器網絡 D 的損失函數用 到了敏感訓練集Xreal, 生成器網絡 G 在訓練過程中 沒有直接接觸敏感數據, 而是使用 D 返回的信息進 行梯度更新。因此只需要保證鑒別器網絡的差分隱 私安全, 根據抗后處理定理(定理 4), 生成器的參數 及其輸出也可以自動保持差分隱私。值得注意的是, 生成器的輸出為人工合成數據集, 因此差分隱私的 GAN 可以用來生成并發布滿足差分隱私的合成數 據集。
4 總結和展望
上文詳細討論了差分隱私技術在機器學習領域 的發展歷程, 包括定義、實現機制和常用性質。并且 針對實際攻擊, 分析并比較了差分隱私的抗攻擊能 力。此后, 給出了目前主流的差分隱私的鑒別模型和 生成模型保護方案。本節將討論差分隱私技術在機 器學習領域的公開問題以及研究方向。
(1) 模型隱私安全和功能性安全存在折中
一直以來, 機器學習模型的隱私安全和功能性 安全處于兩個相對平行的研究線路。本文探討的是 模型的隱私安全, 即模型是否泄漏個人隱私。還有一 類安全指模型的功能性安全, 例如對抗樣本攻擊、樣 本毒化等, 指的是存在惡意攻擊者可以用肉眼難以 分辨的數據模型的發生誤判。差分隱私目前公認對 模型的隱私安全有一定的保護效果。但是近期許多 研究[69]發現模型的功能性安全可能與隱私安全有對 立性, 即防止模型的功能性安全的措施可能會加重 隱私安全威脅。因此差分隱私如何同模型功能性安 全的抵抗措施有效結合全面防護機器學習的安全性 有待研究。
(2) 差分隱私保護機制不是萬能
根據本文表 4 的總結, 差分隱私可以防止成員 猜測攻擊和無意識記憶, 對屬性猜測攻擊有一定弱 化效果。但是對防止模型反演、模型竊取攻擊效果 不明顯。甚至有研究發現[38], 模型竊取攻擊和成員猜 測攻擊的成功率是負相關的。差分隱私機制的效果 和攻擊原理有直接關系。如果攻擊依賴于模型過擬 合, 那么差分隱私有明顯效果; 如果攻擊不是依賴于模型過擬合, 甚至利用模型的泛化能力, 那么差 分隱私沒有直接抗攻擊效果。因此依賴差分隱私單 一機制并不能解決機器學習隱私安全的所有攻擊, 應考慮多機制結合以全面防護隱私泄漏問題。
(3) 隱私預算追蹤方法有待提高
許多研究表示目前針對機器學習的差分隱私機 制犧牲過多有效性以保證安全[30]。另外一些研究也 在試圖尋在更加嚴謹的差分隱私預算追蹤方法[70]。例如, 目前的 DP-SGD[26]研究假設攻擊者可以獲取 機器學習模型每一輪迭代參數(權重更新), 而不僅僅 是可以獲取最終訓練好的模型的參數。在實際中, 該 攻擊條件假設太強, 但是這卻是目前唯一一種已知 的分析 DP-SGD 隱私累加的方式[71]。為此, Feldman 等人[70]推導出直接分析最后一輪模型隱私的方法, 但是其證明依賴損失函數是凸函數的假設, 在神經 網絡下還沒有解決方法。另外, Nasr 等人[71]提出在 不同的攻擊者能力下, 應該制定不同的差分隱私下 限。差分隱私一直考慮最惡劣的攻擊條件來保護隱 私安全。然而實際環境中很少有攻擊者能達到如此 強的攻擊能力。因此, 針對不同攻擊強度細化不同的 差分隱私下限有待研究。
(4) 聯邦學習模式中差分隱私存在局限性
聯邦學習通常指掌握自己部分訓練集的多方, 在不泄漏個人訓練集的前提下, 共同訓練綜合模型。原理是訓練的每個周期, 各方先下載綜合模型, 然 后用自己的訓練集計算梯度更新并上傳, 中心利用 各方上傳的梯度加權平均更新綜合模型。差分隱私 機制通常類似 SAF(見圖 3), 用差分隱私的方式傳遞 擾動的梯度平均。但是 2017 年 Hitaj 等人[42]研究發 現, 即使是差分隱私保護的聯邦學習依然不安全。當 有惡意參與者存在時, 其可以竊取其他合規參與者 的隱私信息。目前還沒有可靠的用于聯邦學習的差 分隱私機制。這使得目前聯邦學習的安全性只能依 賴計算量以及通信量開銷巨大的多方安全計算技術 或者是同態加密技術。
(5) GAN 模型中差分隱私存在局限性
差分隱私技術在對抗生成模型(GAN)中的應 用尚在探索階段。比如, 較為先進的 WGAN-GP[72] 尚沒有差分隱私版本。因為梯度懲罰部分用到了真 實訓練集, 其隱私預算追蹤是個難點。除此之外, 對抗生成模型與鑒別模型的網絡架構以及性質也 有所不同。其中, 對抗模型的過擬合程度難以衡量 (差分隱私主要保護模型過擬合) [39, 51]。對抗模型的 隨機性可能使得非差分隱私的 GAN 可能天生含有 弱差分隱私性質[72]。因此, 在 GAN 中的差分隱私機制可能需要考慮其特點進行定制。比如, 實驗性 衡量原始非隱私保護的 GAN 的隱私保護程度, 再 補充加噪。
隨著數據孤島現象的出現和個人隱私保護的重視,集中學習的應用模式受到制約,而聯邦學習作為一個分布式機器學習框架,可以在不泄露用戶數據的前提下完成模型訓練,從誕生之初就備受關注.伴隨著聯邦學習應用的推廣,其安全性和隱私保護能力也開始受到質疑.本文對近年來國內外學者在聯邦學習模型安全與隱私的研究成果進行了系統總結與分析.首先,介紹聯邦學習的背景知識,明確其定義和工作流程,并分析存在的脆弱點.其次,分別對聯邦學習存在的安全威脅和隱私風險進行系統分析和對比,并歸納總結現有的防護手段.最后,展望未來的研究挑戰和方向.
近年來機器學習(machine learning)技術蓬勃發展,在社會工作生活各個領域中得到廣泛應用,如人臉識別、 智慧醫療和自動駕駛等,并取得巨大的成功.機器學習的目標是從大量數據中學習到一個模型,訓練后的模型可 以對新的未知數據預測結果,因此模型的性能與訓練數據的數量和質量密切相關.傳統的機器學習應用基本都 采取集中學習[1]的模式,即由服務提供商集中收集用戶數據,在服務器或數據中心訓練好模型后,將模型開放給 用戶使用.但是,目前存在兩大要素制約了集中學習的進一步推廣:
**(1) 數據孤島 **
隨著信息化、智能化進程的發展,各個企業或同一企業的各個部門都存儲了大量的應用數據,但是數據的定義和組織方式都不盡相同,形成一座座相互獨立且無法關聯的“孤島”,影響數據的流通和應用.數據集成整合 的難度和成本嚴重限制了集中學習的推廣應用.
**(2) 個人隱私保護的重視 **
近年來,個人數據泄露的事件層出不層,如 2018 年 Facebook 數據泄露事件等.這些事件引起了國家和公眾 對于個人隱私保護的關注.各個國家都開始出臺數據隱私保護相關的法律法規,如歐盟 2018 年 5 月 25 日出臺 的《通用數據保護條例》(General Data Protection Regulation,簡稱 GDPR) [2],以及中國 2017 年實施的《中華人 民共和國網絡安全法》等.這些法律法規要求公司企業必須在用戶同意的前提下才可以收集個人數據,且需要 防止用戶數據泄露.此外,個人隱私保護意識的興起也導致用戶不愿輕易共享自己的隱私數據.嚴格的法律法規 和個人隱私保護意識導致訓練數據的收集愈發困難,為集中學習提出了巨大的挑戰. 為應對上述兩個問題,聯邦學習(federated learning)應運而生.聯邦學習,又名聯盟學習或聯合學習,是一種 由多個客戶端和一個聚合服務器參與的分布式機器學習架構.客戶端既可以是個人的終端設備(如手機等),也 可以代表不同的部門或企業,它負責保存用戶的個人數據或組織的私有數據.客戶端在本地訓練模型,并將訓練 后的模型參數發送給聚合服務器.聚合服務器負責聚合部分或所有客戶端的模型參數,將聚合后的模型同步到 客戶端開始新一輪的訓練.這種聯合協作訓練的方式可以在保證模型性能的前提下,避免個人數據的泄露,并有 效解決數據孤島的問題. 聯邦學習自 2016 年谷歌[3]提出后便引起學術界和工業界的強烈關注,并涌現出許多實際應用,如谷歌最初 將其應用在安卓手機上的 Gboard APP(the Google Keyboard,谷歌鍵盤輸入系統),用于預測用戶后續要輸入的內 容(如圖 1 所示) [4].用戶手機從服務器下載預測模型,基于本地用戶數據進行訓練微調,并上傳微調后的模型參 數,不斷優化服務器的全局模型.此外,聯邦學習也被廣泛應用于工業[5,6]、醫療[7–11]和物聯網[12]等領域.
隨著聯邦學習的發展應用,其安全性與隱私性逐漸引起學術界的關注.與集中學習相比,聯邦學習的模型參 數共享和多方通信協作機制引入了新的攻擊面.近年來,許多學者對聯邦學習的安全威脅進行深入研究,提出一 系列攻擊手段和防護方案.除安全性外,學者也發現聯邦學習存在諸如成員推斷攻擊等隱性泄露的風險.這些將 嚴重影響聯邦學習的實際部署應用,因此本文對目前聯邦學習模型的安全與隱私研究工作進行系統地整理和 科學地歸納總結,分析聯邦學習面臨的安全隱私風險及挑戰,為后續學者進行相關研究時提供指導.
本文第 1 節主要介紹聯邦學習的背景知識,明確其定義和工作流程,并分析其存在的脆弱點.第 2 節對聯邦 學習存在的安全威脅進行系統地整理和分析,歸納現有的防護方法,并對集中學習和聯邦學習在安全問題上的 共性與差異進行分析.第 3 節總結聯邦學習的隱私風險以及隱私保護方面的研究進展,討論集中學習和聯邦學 習在隱私風險的差異.第 4 節展望未來的研究方向,提出聯邦學習安全和隱私領域亟待解決的重要問題.第 5 節 總結全文.
1. 聯邦學習背景知識
聯邦學習是一種分布式的機器學習框架,最早是由谷歌的 McMahan 等人提出并落地應用[3].他們在不泄露 用戶個人數據的前提下,利用分布在不同手機的數據集訓練統一的機器學習模型.以楊強教授為首的微眾銀行 團隊對谷歌提出的聯邦學習概念進行擴展,將其推廣成所有隱私保護的協作機器學習技術的一般概念,以涵蓋 組織間不同的協作學習場景[13]。圖 2 為聯邦學習系統的典型架構,架構中包含兩類角色:多個參與方(也稱客戶或用戶)和一個聚合服務器. 每個參與方擁有完整數據特征的數據集,且數據樣本之間沒有交集或交集很小.它們可以聯合起來訓練一個統一且性能更好的全局模型,具體的訓練過程如下:
(1) 模型初始化:聚合服務器選定目標模型的結構和超參數,并初始化模型的權重(基于自身擁有的數據 Dserver 進行訓練或隨機初始化),生成初始的全局模型; (2) 模型廣播:通過聚合服務器廣播或參與方主動下載的方式,聚合服務器將當前全局模型的權重共享給 所有參與方; (3) 參與方訓練:參與方基于共享的全局模型,利用本地保存的私有數據訓練微調本地模型,并計算本地模 型的權重更新; (4) 模型聚合:聚合服務器從參與方收集模型的權重更新,根據業務需求采用不同的算法進行聚合.常見的 聚合算法包括 FedAvg[3]、Krum[14]、Trimmed mean[15]和 Median[15]等.在這過程中為了提高效率,聚合服務器可 以選擇只收集部分參與方的模型更新進行聚合; (5) 更新全局模型:聚合服務器基于計算的聚合結果更新全局模型的參數. 上述(2)~(5)步驟將會持續迭代進行,直至全局模型收斂或者達到最大迭代次數或超過最長訓練時間. **2 安全威脅與防護 **
在集中學習的發展過程中,許多學者對其安全性進行深入研究,發現其中存在的安全威脅,如訓練階段的投 毒攻擊(poisoning attack) [19]和推理階段的對抗樣本攻擊(adversarial examples attack)等[20].聯邦學習的推理階段 與集中學習一致,因此也會面臨對抗樣本攻擊.而在訓練階段,聯邦學習采用分布式計算的方法,為整個系統的 安全性研究引入了新的問題與挑戰.本文主要總結面向聯邦學習的安全威脅與防護方法,與集中學習相關的安 全研究不在本文的討論范圍內.
本文以聯邦學習面臨的安全攻擊的發生邏輯和順序對目前主要研究的攻擊手段進行分類(如圖 3 所示),具 體可分為數據投毒攻擊[21–23]、模型投毒攻擊[24–29]、后門攻擊[25,30–34]和惡意服務器.注意,圖 3 的推理階段在實 際應用中還存在對抗樣本等攻擊手段,這部分不在本文的討論范圍內.
3 隱私風險與保護
根據機器學習隱私保護的內容,可將機器學習隱私分為訓練數據隱私、模型隱私與預測結果隱私[108].對于 模型隱私,因為聯邦學習需要參與方在本地訓練模型,模型算法、神經網絡結構和參數等模型信息對參與方都 是可見的,所以聯邦學習通常不考慮模型隱私泄露的風險.而對于預測結果隱私,集中學習和聯邦學習面臨的攻 擊手段和防護方法是一致的,不在本文的討論范圍內.因此本文對于隱私風險的總結和分析主要是針對訓練數 據隱私,下文如無特殊說明,隱私均指代訓練數據隱私.
雖然聯邦學習通過參與方和服務器交換模型參數的方式保護了參與方的本地數據,但是學者研究發現交 換的模型梯度也可能泄露訓練數據的隱私信息[109,110].對于集中學習,模型倒推(model inversion)攻擊可以從模 型中反推訓練數據的屬性值[111],這同樣也適用于聯邦學習的全局模型.而聯邦學習的訓練機制也為隱私引入了 新的風險: (1) 聯邦學習的模型信息對攻擊者是可見的,攻擊者可以實施白盒隱私攻擊. (2) 聯邦學習的訓練包含多輪迭代,攻擊者可以利用模型在迭代過程的變化挖掘更多的數據信息. (3) 攻擊者可以通過參與方或服務器干擾模型訓練過程,修改模型參數,使正常參與方在后續迭代中暴露 更多本地數據信息. 因此許多學者專門針對聯邦學習存在的隱私風險與保護方法進行研究.本文以聯邦學習面臨的隱私攻擊 的發生邏輯和順序對目前主要研究的攻擊手段進行分類(如圖 5 所示),具體分為成員推斷攻擊[112–115]、屬性推 斷攻擊[16,112,116–122]和竊聽.根據攻擊者角色的不同,隱私攻擊發生在聯邦學習的不同階段,如服務器是在模型聚 合階段發動隱私攻擊.注意,在圖 5 的推理階段可以實施集中學習的隱私攻擊手段,這部分不在本文討論范圍內.
目前針對聯邦學習的隱私攻擊方法及其威脅模型如表 5 所示.另外,表 5 還總結每種攻擊驗證時 使用的數據集,包括圖像領域的 CIFAR-100[40]、CIFAR-10[40]、MNIST[41]、AT&T[43]、LFW[125]、FaceScrub[126]、 PIPA[127]、BERT[128]、SVHN[129]、ImageNet[130]、CASIS-WebFace[131]和 CelebA[132],文本領域的 Yelp-health[133] 和 Yelp-author[133],以及其它領域的 Purchase[52]、FourSquare[134]、Texas100[135]和 CSI[136].
4 未來展望
雖然聯邦學習模型的安全與隱私研究已經取得許多研究成果,但是目前還處于初期探索階段,尚有諸多問 題亟待解決,其中有以下三個重要問題值得深入研究:
**(1) 成本低和隱蔽性強的聯邦學習投毒攻擊與防護 **
目前聯邦學習安全攻擊的研究主要集中在模型投毒攻擊,攻擊者通過構造惡意的模型更新破壞全局模型, 許多學者在此之上進行攻防博弈.然而,模型投毒要求攻擊者完全控制單個或多個參與方,隨著聯邦學習部署應 用的延伸,逐漸減少的脆弱參與方將限制模型投毒的應用.與之相比,數據投毒對攻擊者能力要求低,具有更廣 泛的實施場景,且在大規模訓練數據集中更不易被發現.然而,目前對數據投毒的研究還比較淺顯,只停留在簡 單驗證攻擊可行性的階段.數據投毒需要經過模型本地訓練階段,其產生的惡意更新與正常更新有一定的相似 性,是否可以生成惡意訓練數據模糊惡意更新與正常更新,以繞過現有異常檢測聚合算法的防御?是否可以通過 構造惡意數據生成目標模型更新,從而利用現有模型投毒的研究成果實施更加隱蔽的攻擊?如何防止數據投毒 的攻擊效果被模型聚合削弱?這些問題都亟待后續深入研究.加強對聯邦學習數據投毒的研究,可以對聯邦學習 的安全性有更加深刻的認識,進而推動聯邦學習安全防護方法的探索,為聯邦學習的推廣應用保駕護航.
**(2) 參與方退出聯邦學習時的隱私保護 **
在 GDPR 等隱私保護的法律法規中明確規定個人對其隱私數據享有刪除權和被遺忘權,即個人有權要求 數據控制者刪除其個人信息,且數據控制者需采取必要的措施,負責消除已經擴散出去的個人數據[2].在聯邦學 習應用中,當個體參與方退出聯邦學習系統時,服務器需要按照法律規定刪除參與方的個人信息.從隱私攻擊方 法的總結可以發現參與方的本地數據會在模型參數留下痕跡 , 因此服務器需要從模型參數中 “ 忘 卻”(unlearning)參與方的本地數據.集中學習也面臨著相同的隱私保護問題,Bourtoule 等人[178]提出通過排除目 標數據重新訓練模型解決,但在聯邦學習中模型參數已經通過多輪迭代擴散到其它參與方,清除其它參與方本 地模型的隱私痕跡變得非常困難.因此,需要研究改進聯邦學習的機制,確保可以刪除和遺忘退出參與方的隱私 信息.另外還需要考慮可證明性,即服務器可以向參與方證明其個人信息及擴散的數據都已經清除.
**(3) 安全和隱私并重的聯邦學習系統 **
目前對于聯邦學習安全和隱私的研究都是側重單個方面,但在實際應用中安全威脅和隱私風險是同時存 在的,且無法通過簡單疊加現有的安全防護手段和隱私保護方法進行防御,例如差分隱私添加的噪聲可能干擾 安全聚合算法的檢測,同態加密的密文可能屏蔽模型更新的差異使安全聚合算法失效.因此需要綜合考慮聯邦 學習的安全和隱私問題,研究安全與隱私并重的聯邦學習系統.文獻[60,99,179]對此進行了初步的探索,但是只 涵蓋部分安全威脅和隱私風險,還有待更加全面的研究.
**5 結束語 **
隨著聯邦學習的快速發展和廣泛應用,聯邦學習模型的安全和隱私問題吸引了許多學者的興趣和關注,產 生了不少矚目的研究成果,但目前相關的研究還處于初級階段,尚有許多關鍵問題亟待解決.本文在充分調研和深入分析的基礎上,對聯邦學習在安全和隱私領域最新的研究成果進行綜述,系統總結了聯邦學習存在的安全 和隱私攻擊,并對現有的防護方法進行科學地分類和分析.同時,本文也指出了當前聯邦學習在安全和隱私領域 尚未解決的問題,并探討未來的研究方向.
基于聯邦學習的推薦系統
隨著互聯網和移動計算等技術的發展, 人們的在線行為產生了越來越多的數據, 想要從海量數 據中挑選出用戶可能喜歡的物品, 推薦系統不可或缺. 然而傳統的推薦算法需要將用戶數據收集到服 務端才能構建模型, 這會泄露用戶隱私. 最近, 谷歌針對機器學習任務中需要收集用戶數據才能進行建 模的問題, 提出了一種新的學習范式 —— 聯邦學習. 聯邦學習與推薦系統相結合, 使得聯邦推薦算法 能夠在模型構建過程中, 始終將用戶數據保留在客戶端本地, 從而保護了用戶隱私. 本文主要對聯邦學 習與推薦系統相結合的研究工作進行綜述, 并從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析聯邦推薦算法的研究進展. 最后, 對基于聯邦學習的推薦系統可研究的方向進行展望.
在當今互聯網大數據的背景下, 推薦系統能夠利用海量的數據解決信息過載問題, 給用戶帶來便 利的同時也給企業帶來經濟效益, 進而實現用戶和企業的雙贏. 許多企業將推薦系統應用在了各自的 業務場景中, 例如, 淘寶的 “猜你喜歡”、網易云音樂的 “每日推薦”、騰訊視頻的 “今日熱門” 等, 類似 的服務在人們日常的互聯網生活中隨處可見, 這些商業服務的建立離不開推薦算法.
隨著通用數據保護條例 (general data protection regulation, GDPR) [1] 等隱私和數據保護法律法 規的頒布, 以及人們隱私保護意識的提高, 用戶數據中的隱私安全愈發受到重視. GDPR 等法律法規 要求, 在未經用戶同意的情況下, 任何組織和機構不得收集數據主體的個人數據. 然而傳統的機器學 習算法在沒有獲取足夠多的用戶數據的情況下, 往往難以通過訓練得到一個有效的模型. 為了解決用 戶數據的隱私問題, 以及在不直接獲取用戶原始數據的前提下得到一個有效的模型, 谷歌 (Google) 提出了聯邦學習范式[2, 3] . 聯邦學習使得在模型訓練的整個過程中, 用戶的原始數據始終保留在用戶 (客 戶端) 本地, 服務端和用戶之間通過共享加密的或不包含隱私信息的中間參數的方式, 進行模型訓練 和參數更新, 進而在保護用戶隱私的前提下構建一個有效的機器學習模型. 此外, 谷歌還將聯邦學習 應用在 Gboard 產品上, 用于表情符號預測 [4] 和下一個單詞的預測 [5] , 并且取得了不錯的效果. Yang 等[1] 進一步將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習. 橫向聯邦學習是指在參與 聯合訓練的多方中, 特征重疊較多, 樣本重疊較少; 縱向聯邦學習是指在參與聯合訓練的多方中, 特征 重疊較少, 樣本重疊較多; 而聯邦遷移學習是指在參與聯合訓練的多方中, 特征重疊和樣本重疊都較 少. 目前對聯邦學習的研究大多是基于橫向聯邦學習和縱向聯邦學習, 而對聯邦遷移學習的研究相對 較少。
在推薦系統中, 用戶的數據通常是指用戶對物品的交互行為和用戶的個人信息. 在傳統的推薦算 法中, 為了構建一個全局的模型, 通常需要收集所有用戶的原始數據并上傳至服務端, 這樣的做法往往 存在用戶隱私泄漏的問題. 為了解決這一問題, 一些研究工作 [6, 7] 將聯邦學習應用于推薦算法的設計 中, 使得用戶在不上傳自己的原始數據的前提下仍能得到良好的個性化服務. 近年來, 隨著聯邦學習技 術的發展, 對基于聯邦學習的推薦算法 (以下稱 “聯邦推薦”) 的研究也越發受到工業界和學術界的關 注. 在 2019 年的神經信息處理系統大會 (NeurIPS) 上, 微眾銀行以聯邦推薦為主題介紹了他們的多 個應用場景, 同時還基于自主研發的企業級聯邦學習平臺 FATE (federated AI technology enabler) [8] 提出了聯邦矩陣分解和聯邦因子分解機等算法, 引起了眾多研究人員的關注. 目前, 對聯邦推薦的研究 仍處于起步階段, 大多數聯邦推薦算法通過設計不同的聯邦訓練策略對傳統的推薦模型進行聯邦化, 從而保護用戶的隱私, 這也是本文論述的一個重點. 值得注意的是, 聯邦學習領域中的一些重要問題, 如通信成本、計算效率和激勵機制等, 在聯邦推薦算法的設計中還較少涉及, 但它們在模型的訓練和 部署等方面有較大影響, 這也是本文關注的另一個重點.
本文主要對基于聯邦學習的推薦系統的研究進行綜述. 第 2 節首先簡要介紹經典的和前沿的推薦 算法, 其次從模型的架構、模型的聯邦化、模型的優化和隱私保護技術的應用 4 個角度介紹聯邦學習 技術, 最后概述聯邦推薦技術. 第 3~5 節分別從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析基于聯邦學習的推薦系統的研究進展. 第 6 節展望基于聯邦學習的推薦算法的研究趨 勢. 第 7 節是結束語.
2. 概述
2.1 推薦系統概述
傳統的推薦方法主要包括基于內容的推薦、基于協同過濾 (collaborative filtering, CF) 的推薦和 混合推薦. 基于內容的推薦算法的核心思想是給用戶推薦與其歷史交互過的物品相似的物品, 它能夠 解決物品的冷啟動問題. 其中物品特征的提取較為關鍵, 只要能構建出新物品的特征描述, 該新物品就 有可能被推薦給用戶. 由于推薦的物品通常是與用戶交互過的物品較為相似的物品, 因此基于內容的 推薦算法難以推薦一些新穎的物品. 基于協同過濾的推薦算法的核心思想是給用戶推薦與其歷史偏 好相似的用戶群體交互過的物品, 其主要包括基于鄰域的推薦算法和基于模型的推薦算法. 其中, 基 于鄰域的推薦算法主要分為兩大類: 基于用戶的協同過濾推薦算法 [9] 和基于物品的協同過濾推薦算 法 [10] . 矩陣分解 (matrix factorization, MF) [11] 是協同過濾推薦算法中最受歡迎的算法之一, 其以高 維的 (用戶, 物品) 評分矩陣為輸入, 輸出一個低維的用戶特征矩陣和一個低維的物品特征矩陣, 通過用戶特征矩陣和物品特征矩陣的內積計算得到用戶對物品的評分矩陣. 與基于內容的推薦算法相比, 基于協同過濾的推薦算法考慮了不同用戶偏好之間的關系, 但存在用戶和物品的冷啟動問題. 混合推 薦算法將多種推薦算法以一定的方式組合起來, 以解決單一推薦算法存在的問題. 例如, 將基于內容的 推薦算法和基于協同過濾的推薦算法結合起來的混合推薦算法, 能夠解決物品的冷啟動問題, 同時考 慮了用戶之間的偏好關系, 從而構建一個更好的推薦模型.
近年來, 隨著深度學習在計算機視覺、語音識別和自然語言處理等領域的快速發展, 深度學習也成 為推薦系統領域的一項重要技術. 與傳統的推薦算法相比, 基于深度學習的推薦算法表達能力更強, 能 夠更好地挖掘數據的潛在特征, 獲取深層次的用戶和物品的特征描述. 基于深度學習的推薦算法主要 利用一些深度學習技術, 如: 自編碼器[12]、受限玻爾茲曼機 (restricted Boltzmann machine, RBM)[13]、 卷積神經網絡 (convolutional neural network, CNN) [14] 和循環神經網絡 (recurrent neural network, RNN)[15] 等, 來構建推薦模型. AutoRec [12] 是較為簡單的基于深度學習的推薦算法, 其將自編碼器技 術應用到協同過濾中, 輸入是某個用戶對所有物品的評分構成的向量或所有用戶對某個物品的評分構 成的向量, 通過一個包含單隱層的神經網絡, 讓輸出向量盡可能逼近輸入向量, 從而預測輸入向量中的 缺失值, 進而實現對物品的排序和推薦. 但是 AutoRec [12] 沒有很好地解決特征交叉問題, 模型的表達 能力有一定的局限. Deep crossing [16] 設計了包含 embedding 層、stacking 層、multiple residual units 層和 scoring 層的網絡結構, 通過多層殘差網絡對特征向量進行多次特征交叉, 從而捕捉更多非線性 的特征信息. NCF (neural collaborative filtering)[17] 使用多層神經網絡來代替矩陣分解中的內積操作, 使得用戶特征向量和物品特征向量之間的交互更加豐富, 從而提高模型的表達能力. Wide&Deep [18] 和 Deep&Cross [19] 等通過組合不同特性的神經網絡來提高模型的綜合能力. DIN (deep interest network) [20] 等將注意力機制與基于深度學習的推薦算法結合, 使得模型能更好地捕捉用戶的興趣點. BERT4Rec [21] 將基于 Transformer 的雙向編碼器表征應用在序列推薦中, 用于捕捉用戶行為序列上 下文的關系, 以此來預測用戶可能會喜歡的下一物品. NGCF (neural graph collaborative filtering) [22] 將 (用戶, 物品) 表示為二部圖, 將圖神經網絡 (graph neural network, GNN) 應用到協同過濾算法中, 并對 (用戶, 物品) 的高階交互歷史行為進行建模.
上述推薦算法是基于集中式架構設計的, 其中客戶端 (即用戶) 僅充當數據產生者和數據傳輸者 的角色, 而數據處理和模型構建的過程由服務端來實現. 由于客戶端需要將用戶的原始數據上傳到服 務端, 因此存在用戶隱私泄露的風險. 同時, 為了充分利用數據的價值, 挖掘更高維的潛在特征, 服務 端構建的推薦模型越來越復雜. 此外, 當用戶數據增長到一定的數量級, 傳統的集中式推薦系統通常 難以滿足越來越高的存儲成本和計算成本的要求. 分布式推薦系統將用戶數據或模型參數分布在各個 數據節點或者計算節點中, 通過使用分布式計算和并行計算等技術來加快模型的訓練, 從而支持更大 規模的數據的處理和更復雜的推薦模型的構建 [23] . 需要說明的是, 隱私保護不是設計分布式推薦系 統時首要關注的問題, 因而服務端通常可以收集各個節點的原始數據和模型參數.
在推薦系統的應用場景中, 可以將原始數據劃分為用戶個人信息、物品屬性信息和用戶與物品之 間的交互信息. 對用戶而言, 隱私信息包括用戶的個人信息 (例如, 性別、年齡和地理位置等)、用戶對 物品的顯式反饋 (例如, 用戶對物品的評分等) 和用戶對物品的隱式反饋 (例如, 用戶對物品的點擊、 收藏和購買等) 等. 一般認為, 同一組織內部的物品屬性信息是共享的, 不屬于用戶的個人隱私. 而對 不同組織, 物品屬性信息以及模型參數可能涉及公司的商業機密, 因此通常不能直接與其他組織共享.
2.2 聯邦學習概述
聯邦學習本質上是一種既聯合多方又不共享各方原始數據的分布式學習框架, 在保護各個參與方數據中的隱私的前提下, 聯合各個參與方共同訓練, 得到一個共享的模型 [24] . 需要說明的是, 與傳統 的分布式學習框架相比, 聯邦學習中的各個參與方通常對自己的數據具有絕對的控制權. 因此, 服務 端在訓練過程中需要滿足各個參與方不同程度的隱私保護的要求. 聯邦學習可按模型的架構、模型的 聯邦化、模型的優化和隱私保護技術的應用 4 個角度進行分類, 見表 1 [1~3, 25~54] . 其中, 模型的架構 取決于不同的部署環境, 不同的架構在對模型進行聯邦化時需要設計不同的訓練流程. 對不同模型的 聯邦化的研究是聯邦學習的研究重點, 而隱私保護技術是在模型聯邦化過程中需要使用的重要技術手 段. 對于聯邦化后的模型, 考慮到不同的業務需求, 例如, 提高通信效率和模型性能等, 可以設計不同的模型優化策略.
2.2.1 模型的架構
通常, 在聯邦學習中使用的架構可以分為客戶端 – 服務端架構和去中心化架構. 如圖 1 所示, 對 于客戶端 – 服務端架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 并將模型參數發送給 各個客戶端; (2) 客戶端利用本地數據以及從服務端接收到的最新的模型參數進行訓練, 并將中間參 數發送給服務端; (3) 服務端聚合中間參數, 更新全局模型, 再把模型回傳給客戶端; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 對于去中心化架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 然后 將模型參數發送給各個客戶端; (2) 客戶端利用本地數據進行模型訓練并更新本地的模型參數; (3) 客戶端選取一些其他客戶端, 發送本地的中間參數, 同時接收其他客戶端的中間參數, 并更新本地的模 型; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 需要說明的是, 不同組織之間的聯邦應用場景, 例如, 縱向 聯邦學習和聯邦遷移學習, 可以看作特殊的去中心化架構. 在這些場景中, 若引入第三方服務器, 則又 可視為特殊的客戶端 – 服務端架構.
客戶端 – 服務端架構能夠利用服務端的計算資源, 減少客戶端的計算壓力, 但容易發生單點故障. 同時, 對于好奇的服務端, 其可能根據客戶端上傳的中間參數推斷客戶端的隱私信息, 從而泄露客戶 端的隱私. 相比客戶端 – 服務端架構, 去中心化架構不使用服務端或者服務端僅提供初始化模型參數 和協助客戶端之間通信的功能, 而不對模型進行更新. 去中心化架構的主要優勢包括以下 3 個方面. (1) 匿名性 [55] . 在模型訓練過程中, 客戶端能以匿名的方式發送中間參數給其他客戶端, 從而解決客 戶端之間的隱私泄露問題. (2) 節省服務端的資源. 服務端僅需初始化模型參數, 將模型參數分發給各 個客戶端, 不需要參與模型的更新. (3) 高可用性. 不存在單點故障, 即不會因為服務端的某一個部件 出錯而導致整個聯邦學習系統中止訓練. 客戶端 – 服務端架構和去中心化架構的相同之處在于客戶端的原始數據不離開本地, 通過服務端 與客戶端之間的通信或客戶端與客戶端之間的通信, 以發送中間參數的訓練方式來得到一個共享的模 型. 在實際應用中, 考慮到不同模型的優化需求, 使用這兩種架構時的訓練流程會有所不同, 例如, 為 了減少通信成本, 一些基于客戶端 – 服務端架構的聯邦學習算法會采用在客戶端多次訓練后再將中間 參數上傳給服務端的訓練方式 [3, 36, 37, 56] . 我們將在 2.2.3 小節關于模型的優化中, 介紹一些對訓練流 程進行改進的方法.
**2.3 聯邦推薦系統概述 **
隨著聯邦學習在各個領域的應用, 對基于聯邦學習的推薦系統的研究也受到了關注. 推薦系統通 常需要通過用戶的歷史行為來學習用戶的偏好. 此外, 為了訓練得到更好的推薦模型, 通常還會結合用 戶的個人信息等數據. 用戶的歷史行為數據包括用戶對物品的評分等顯式反饋, 用戶對物品的點擊、 收藏和購買等隱式反饋, 以及用戶在物品上的瀏覽時間等其他信息. 用戶的個人信息包括用戶的性別、 年齡、社交關系和地理位置等信息. 對用戶而言, 這些都屬于較為敏感的隱私數據, 用戶通常不愿意提 供給服務端. 除此之外, 不同組織之間的數據和模型可能涉及商業機密, 通常也不能直接共享, 進而導 致組織之間的數據孤島問題. 聯邦學習和推薦系統的結合旨在保護用戶隱私和商業機密的前提下, 為 用戶提供精準的個性化服務.
聯邦推薦系統是聯邦學習領域的一個重要應用場景, 在這個場景中, 一個客戶端可以是一個用戶 或一個組織, 客戶端需在不共享數據的前提下聯合建模. 與聯邦學習的分類類似, 我們將從架構設計、 系統的聯邦化和隱私保護技術的應用 3 個角度, 論述基于聯邦學習的推薦系統的研究進展. 我們在圖 2 中展示了上述的 3 個研究角度. 需要說明的是, 對于模型的優化, 由于目前在聯邦推薦系統方面的相 關工作較少, 我們將在第 6 節的展望部分進行討論.
推薦模型的聯邦化具有一定的共性, 一個聯邦推薦模型的訓練框架通常適用于具有相同訓練方式 的其他模型. 然而考慮到不同場景中的隱私保護級別可能不同以及不同模型參數可能帶來的不同隱私 問題, 不同推薦模型在聯邦化的過程中存在一定的差異. 對于模型的聯邦化, 可以劃分為基于協同過濾的推薦算法的聯邦化、基于深度學習的推薦算法的聯邦化和基于元學習的推薦算法的聯邦化 3 個類別. 表 2 [6, 7, 35, 69, 71~86] 展示了一些推薦模型的聯邦化的例子及其特點.
**最近, 十三屆全國人大常委會第二十九次會議通過了《中華人民共和國數據安全法》[114] , 對企業 收集和使用公民個人信息等問題作出規制. 聯邦學習通過不上傳原始數據的學習范式, 結合多種隱私 計算技術, 能在相關法律法規的要求下發揮數據的價值, 因此在推薦系統的應用中受到了學術界和工 業界越來越多的關注. 然而, 目前聯邦學習在推薦系統中的應用仍處于起步階段, 在未來有很多值得 嘗試和探索的研究方向. 以下總結了 3 個值得探索的研究方向.
4.1 推薦系統的聯邦化
在對傳統的推薦模型進行聯邦化方面, 目前已有不少的研究工作, 雖然它們都將原始數據保存在 客戶端本地, 但仍存在其他的隱私問題. 例如, 一些工作[6, 71] 泄露了用戶的評分行為, 即用戶評過哪些 物品. 以 FederatedMF [71] 為例, 服務端只要對比更新前后的物品特征向量, 就可以知道哪些物品的特 征向量被更新過, 從而知道上傳該特征向量的用戶對哪些物品評過分. 再者, 一些工作 [7, 69] 直接上傳 物品特征向量的梯度給服務端, Chai 等 [6] 證明了連續兩次上傳同一個物品的梯度給服務端時, 服務 端能夠反推出用戶對物品的評分. 此外, 為了獲取更豐富的信息, 以 SVD++ [88] , MF-MPC [115] 等算 法為例, 他們使用了一些和評分值相關的模型參數. 例如, 在 MF-MPC 中, 不同的評分值 r 都有一個 對應的模型參數 Mr i· . 當用戶 u 更新物品 i 的 Mr i· 時, 會直接暴露用戶 u 對物品 i 的評分值. 雖然目 前已有相關的研究, 使用如同態加密 [6, 74, 94]、虛假采樣 [69, 73, 116]、差分隱私 [89] 和秘密共享 [72, 74] 等 技術, 能較好地解決這些隱私問題, 但這些技術會帶來如通信成本增加、計算復雜度增大和推薦性能 下降等新的問題. 此外, 一些經典的推薦算法 (例如, PMF [65] 和 BPR [68] 等) 以 SGD 作為優化方法 時, 其每次只采樣一個 (用戶, 物品) 對, 然后計算用戶特征向量的梯度和物品特征向量的梯度, 并用 于更新對應的用戶特征向量和物品特征向量. 在聯邦學習范式中, 以分布式學習的方式進行模型訓練 時, 每次只采樣一個 (用戶, 物品) 對的訓練方式會導致算法的訓練效率較低. 一個提高效率的訓練方 式是讓客戶端并行地進行模型訓練 [97] , 再對上傳的物品特征向量的梯度進行平均, 然而這樣的做法與 非聯邦版本的對應算法相比, 得到的效果往往會有所下降. 在對推薦模型進行聯邦化時, 如何在訓練 方式與非聯邦版本等價的同時, 保證算法的訓練效率, 也是聯邦推薦值得關注的一個問題. 目前對于基于深度學習的推薦算法的聯邦化的研究相對較少. 主要挑戰在于, 客戶端的存儲資源 和計算能力通常無法與龐大的神經網絡相匹配, 并且客戶端自身的數據量有限, 難以訓練出較好的深 度學習模型. DeepRec [83] 采用模型參數較少的 RNN 作為主干模型, 然而對于更大規模的神經網絡, 客戶端的存儲資源會比較受限. Niu 等[80] 使用隨機響應技術, 使得客戶端能以子模型的方式來下載和 上傳模型. 然而這種方式僅支持物品的特征向量能按行表示的模型, 模型的通用性有一定的限制. 將 模型參數和計算過程交給邊緣設備的邊緣計算 [117] , 以及從學習能力強的教師模型中提煉出參數較少 的學生模型的知識蒸餾 [118] , 是兩個解決客戶端資源受限的研究思路. 除此之外, 目前還沒有公開發表的面向序列反饋和異構反饋建模的聯邦推薦方法. 在保護隱私 的前提下, 運用序列信息和多行為等數據, 構建一個性能更好的聯邦推薦模型, 也是一個值得研究的 問題.
**4.2 聯邦推薦系統的優化 **
在 2.2.3 小節中介紹了 4 種適用于聯邦學習的優化方法, 即模型壓縮、通信策略的改進、激勵機制 和客戶端采樣. 這些優化方法如何在聯邦推薦模型中應用, 以及如何為特定的推薦模型設計更有效的 優化算法, 值得深入研究. 現有的部分研究工作或能給予一定的啟發. 如 Yang 等 [119] 提出的 FCMF (federated collective matrix factorization), 針對縱向聯邦推薦問題, 設計了一個有效的通信策略: 輔助 方先充分訓練好物品特征矩陣, 加密后發送給目標方. 在目標方訓練過程中, 只有少數的中間參數需 要回傳給輔助方解密. Minto 等 [120] 發現在 FCF 框架中對物品特征向量的梯度使用本地差分隱私技 術進行處理時, 訓練得到的模型性能較差. 因此, 對于每一個要上傳給服務端的梯度, 他們僅對其隨機 的某一維度添加噪聲, 在滿足差分隱私的條件下, 提高了模型的性能.
**4.3 聯邦推薦場景中的隱私安全問題 **
在較早的研究工作中, 原始數據和能表征用戶偏好的模型參數被視為用戶的隱私. 因此, 在保留 原始數據和用戶特征向量的情況下, FCF [7] 上傳物品特征向量的梯度, 用于構建全局的物品特征矩 陣. 在文獻 [6] 中, 研究人員證明了物品特征向量的梯度會泄露用戶的評分信息. 為了解決這個問題, SharedMF[72] 使用秘密共享技術, FedMF[6] 使用同態加密技術. 然而, 在訓練過程中, 僅有與用戶交互 過的物品需要上傳梯度, 因而在上傳某個物品特征向量的梯度時, 在保護了梯度信息的情況下, 通過分 析物品特征向量的 ID, 仍能推導出用戶的評分行為. 因此在已有的研究工作中, FPL [73] 和 FedRec [69] 采用虛假采樣的方式, 混淆評過分的物品. 此外, 在最近的研究工作中, DeepRec [83] 認為, 一些商業數 據的收集并不違反 GDPR 等法律法規 [1] . 例如, 用戶購買一個商品時, 需要在付款后將購買行為告知 服務端, 否則該訂單無法完成. 因此, 這些必要的商業數據能夠被服務端收集, 而其他隱私數據, 例如 在完成訂單前對商品的點擊、瀏覽等行為, 以及在完成訂單后對商品的評分、評論等行為, 則不能直接 被服務端收集. 未來如何衡量聯邦場景中的隱私安全問題, 并對已有工作中存在的隱私問題, 設計一 個更為有效的解決方法, 是一個非常有價值的研究問題. 除此之外, 大部分聯邦場景都假設服務端和客戶端是誠實且好奇的. 未來的研究工作可假設更復 雜的真實環境, 即可能存在惡意的客戶端和服務端, 或者存在一些數據質量較低的客戶端. 在這種環 境下, 在一個聯邦推薦模型中設計一個能辨別數據源的可靠性的算法, 是一個值得研究的問題. 例如, 服務端可對上傳的模型參數質量進行評估 [121] , 從而篩選出惡意的或低質量的模型參數, 也可以通過 將主成分分析技術 (principal component analysis, PCA) 和數據復雜度相結合 [122] , 使用檢測托攻擊算 法來解決客戶端偽造虛假評分, 還可以通過客戶端之間梯度的差異來檢測惡意的客戶端[123] . 此外, 在 去中心化的架構中通常采用匿名的方式傳遞參數, 這給惡意的客戶端提供了攻擊的機會. 例如, 攻擊 者很容易通過匿名的方式, 將精心制作的參數傳遞給其他客戶端, 以操控訓練數據分布 [124] . 因此, 客 戶端如何運用模型投毒防御 [124] 和對抗攻擊防御 [125] 等防御手段來保護自己模型的安全性和有效性, 也是一個值得研究的問題
摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。
//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030
關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法
論文引用格式:
王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.
WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.
圖片
1 引言
大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。
早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。
聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。
本文的主要貢獻如下。
● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。
● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。
● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。
● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。
隨著智能移動設備普及化、醫療設備數字化及電子病歷結構化的推進,醫療數據呈現爆發增長的特點。在深入研究探討醫療大數據發展規律,提高對醫療大數據真實價值的認識的同時,如何有效保護數據的隱私安全現已成為廣受關注的重要議題。醫療大數據自身特點以及存儲環境等都為隱私保護帶來了不小的挑戰。首先,介紹了醫療大數據的相關概念以及特點。然后,圍繞醫療大數據生命周期的四個階段數據的采集、存儲、共享以及分析,分別介紹面臨的風險挑戰以及相應的隱私保護技術,并對不同技術的優缺點、適用范圍等進行分析。在數據采集時,匿名技術、差分隱私可以抵御數據集成融合帶來的基于背景知識的攻擊。在存儲階段,醫療大數據多存儲于云平臺,為了數據的機密性和完整性,常使用加密、審計的方法。在數據共享階段,主要使用訪問控制方法來控制獲取數據的對象。在數據分析階段,在機器學習框架下對醫療健康大數據進行隱私保護。最后,針對貫穿醫療大數據生命周期的普遍隱私保護挑戰,從管理的層面提出合理的建議。
近年來,機器學習迅速地發展,給人們帶來便利的同時,也帶來極大的安全隱患.機器學習的安全與隱私問題已經成為其發展的絆腳石.機器學習模型的訓練和預測均是基于大量的數據,而數據中可能包含敏感或隱私信息,隨著數據安全與隱私泄露事件頻發、泄露規模連年加劇,如何保證數據的安全與隱私引發科學界和工業界的廣泛關注. 首先,介紹了機器學習隱私保護中的敵手模型的概念; 其次總結機器學習在訓練和預測階段常見的安全及隱私威脅,如訓練數據的隱私泄露、投毒攻擊、對抗攻擊、隱私攻擊等.隨后介紹了常見的安全防御方法和隱私保護方法,重點介紹了同態加密技術、安全多方計算技術、差分隱私技術等,并比較了典型的方案及3種技術的適用場景.最后,展望機器學習隱私保護的未來發展趨勢和研究方向.
依托于云計算、物聯網、大數據技術的發展,以數據挖掘和深度學習為代表的人工智能技術正在改變人類社會生活,并成為先進科技應用的代表和社會關注的熱點.作為引領未來的戰略性技術,人工智能技術被世界各國紛紛提升為發展國家競爭力、維護國家安全的重大戰略.
機器學習是一種實現人工智能的方式,是近些年主要研究的領域.目前機器學習方案在很多領域都有著成熟的應用,如天氣預報、能源勘探、環境監測等,通過收集相關數據進行分析學習,可以提高這些工作的準確性;還有如在垃圾郵件檢測、個性化廣告推薦、信用卡欺詐檢測、自動駕駛、人臉識別、自然語言處理、語音識別、搜索引擎的優化等各個領域,機器學習都扮演著重要的角色.然而,蓬勃發展的機器學習技術使數據安全與隱私面臨更加嚴峻的挑戰,因為機器學習的更精準模型需要大量的訓練數據為支撐.
自2013年斯諾登的“棱鏡”事件以來,全球信息泄露規模連年加劇,引起社會的廣泛關注.2016年9月Yahoo被曝出曾被黑客盜取了至少5億個用戶賬號信息;2017年微軟Skype軟件服務遭受DDOS攻擊,導致用戶無法通過平臺進行通信;2018年3月美國《紐約時報》和英國《衛報》均報道:劍橋分析(Cambridge Analytica)數據分析公司在未經用戶許可的情況下,盜用了高達5千萬個Facebook的用戶個人資料[1].2019年美國網絡安全公司UpGuard發現上億條保存在亞馬遜AWS云計算服務器上的Facebook用戶信息記錄,可被任何人輕易地獲取;IBM在未經當事人許可的情況下,從網絡圖庫Flickr上獲得了接近100萬張照片,借此訓練人臉識別程序,并與外部研究人員分享[2].2020年4月《華盛頓郵報》報道視頻會議軟件Zoom存在的重大安全漏洞:數以萬計的私人Zoom視頻被上傳至公開網頁,任何人都可在線圍觀,很多視頻都包含個人可識別信息,甚至是在家里進行的私密談話[3].信息泄露的途徑主要分為內部人員或第三方合作伙伴泄露、信息系統無法杜絕的漏洞、機構本身的防護機制不健全、對數據的重要程度不敏感,以及對安全配置的疏忽大意等.可見,數據隱私的泄露已不單單是滿足某些外部人員好奇心所驅使,而是已成為一種重要的商業獲利而被廣泛關注,其中不乏內外勾結、合謀獲取用戶的隱私等行為.
題目: 機器學習的隱私保護研究綜述
簡介:
大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.