亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于聯邦學習的推薦系統

隨著互聯網和移動計算等技術的發展, 人們的在線行為產生了越來越多的數據, 想要從海量數 據中挑選出用戶可能喜歡的物品, 推薦系統不可或缺. 然而傳統的推薦算法需要將用戶數據收集到服 務端才能構建模型, 這會泄露用戶隱私. 最近, 谷歌針對機器學習任務中需要收集用戶數據才能進行建 模的問題, 提出了一種新的學習范式 —— 聯邦學習. 聯邦學習與推薦系統相結合, 使得聯邦推薦算法 能夠在模型構建過程中, 始終將用戶數據保留在客戶端本地, 從而保護了用戶隱私. 本文主要對聯邦學 習與推薦系統相結合的研究工作進行綜述, 并從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析聯邦推薦算法的研究進展. 最后, 對基于聯邦學習的推薦系統可研究的方向進行展望.

引言

在當今互聯網大數據的背景下, 推薦系統能夠利用海量的數據解決信息過載問題, 給用戶帶來便 利的同時也給企業帶來經濟效益, 進而實現用戶和企業的雙贏. 許多企業將推薦系統應用在了各自的 業務場景中, 例如, 淘寶的 “猜你喜歡”、網易云音樂的 “每日推薦”、騰訊視頻的 “今日熱門” 等, 類似 的服務在人們日常的互聯網生活中隨處可見, 這些商業服務的建立離不開推薦算法.

隨著通用數據保護條例 (general data protection regulation, GDPR) [1] 等隱私和數據保護法律法 規的頒布, 以及人們隱私保護意識的提高, 用戶數據中的隱私安全愈發受到重視. GDPR 等法律法規 要求, 在未經用戶同意的情況下, 任何組織和機構不得收集數據主體的個人數據. 然而傳統的機器學 習算法在沒有獲取足夠多的用戶數據的情況下, 往往難以通過訓練得到一個有效的模型. 為了解決用 戶數據的隱私問題, 以及在不直接獲取用戶原始數據的前提下得到一個有效的模型, 谷歌 (Google) 提出了聯邦學習范式[2, 3] . 聯邦學習使得在模型訓練的整個過程中, 用戶的原始數據始終保留在用戶 (客 戶端) 本地, 服務端和用戶之間通過共享加密的或不包含隱私信息的中間參數的方式, 進行模型訓練 和參數更新, 進而在保護用戶隱私的前提下構建一個有效的機器學習模型. 此外, 谷歌還將聯邦學習 應用在 Gboard 產品上, 用于表情符號預測 [4] 和下一個單詞的預測 [5] , 并且取得了不錯的效果. Yang 等[1] 進一步將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習. 橫向聯邦學習是指在參與 聯合訓練的多方中, 特征重疊較多, 樣本重疊較少; 縱向聯邦學習是指在參與聯合訓練的多方中, 特征 重疊較少, 樣本重疊較多; 而聯邦遷移學習是指在參與聯合訓練的多方中, 特征重疊和樣本重疊都較 少. 目前對聯邦學習的研究大多是基于橫向聯邦學習和縱向聯邦學習, 而對聯邦遷移學習的研究相對 較少。

在推薦系統中, 用戶的數據通常是指用戶對物品的交互行為和用戶的個人信息. 在傳統的推薦算 法中, 為了構建一個全局的模型, 通常需要收集所有用戶的原始數據并上傳至服務端, 這樣的做法往往 存在用戶隱私泄漏的問題. 為了解決這一問題, 一些研究工作 [6, 7] 將聯邦學習應用于推薦算法的設計 中, 使得用戶在不上傳自己的原始數據的前提下仍能得到良好的個性化服務. 近年來, 隨著聯邦學習技 術的發展, 對基于聯邦學習的推薦算法 (以下稱 “聯邦推薦”) 的研究也越發受到工業界和學術界的關 注. 在 2019 年的神經信息處理系統大會 (NeurIPS) 上, 微眾銀行以聯邦推薦為主題介紹了他們的多 個應用場景, 同時還基于自主研發的企業級聯邦學習平臺 FATE (federated AI technology enabler) [8] 提出了聯邦矩陣分解和聯邦因子分解機等算法, 引起了眾多研究人員的關注. 目前, 對聯邦推薦的研究 仍處于起步階段, 大多數聯邦推薦算法通過設計不同的聯邦訓練策略對傳統的推薦模型進行聯邦化, 從而保護用戶的隱私, 這也是本文論述的一個重點. 值得注意的是, 聯邦學習領域中的一些重要問題, 如通信成本、計算效率和激勵機制等, 在聯邦推薦算法的設計中還較少涉及, 但它們在模型的訓練和 部署等方面有較大影響, 這也是本文關注的另一個重點.

本文主要對基于聯邦學習的推薦系統的研究進行綜述. 第 2 節首先簡要介紹經典的和前沿的推薦 算法, 其次從模型的架構、模型的聯邦化、模型的優化和隱私保護技術的應用 4 個角度介紹聯邦學習 技術, 最后概述聯邦推薦技術. 第 3~5 節分別從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析基于聯邦學習的推薦系統的研究進展. 第 6 節展望基于聯邦學習的推薦算法的研究趨 勢. 第 7 節是結束語.

2. 概述

2.1 推薦系統概述

傳統的推薦方法主要包括基于內容的推薦、基于協同過濾 (collaborative filtering, CF) 的推薦和 混合推薦. 基于內容的推薦算法的核心思想是給用戶推薦與其歷史交互過的物品相似的物品, 它能夠 解決物品的冷啟動問題. 其中物品特征的提取較為關鍵, 只要能構建出新物品的特征描述, 該新物品就 有可能被推薦給用戶. 由于推薦的物品通常是與用戶交互過的物品較為相似的物品, 因此基于內容的 推薦算法難以推薦一些新穎的物品. 基于協同過濾的推薦算法的核心思想是給用戶推薦與其歷史偏 好相似的用戶群體交互過的物品, 其主要包括基于鄰域的推薦算法和基于模型的推薦算法. 其中, 基 于鄰域的推薦算法主要分為兩大類: 基于用戶的協同過濾推薦算法 [9] 和基于物品的協同過濾推薦算 法 [10] . 矩陣分解 (matrix factorization, MF) [11] 是協同過濾推薦算法中最受歡迎的算法之一, 其以高 維的 (用戶, 物品) 評分矩陣為輸入, 輸出一個低維的用戶特征矩陣和一個低維的物品特征矩陣, 通過用戶特征矩陣和物品特征矩陣的內積計算得到用戶對物品的評分矩陣. 與基于內容的推薦算法相比, 基于協同過濾的推薦算法考慮了不同用戶偏好之間的關系, 但存在用戶和物品的冷啟動問題. 混合推 薦算法將多種推薦算法以一定的方式組合起來, 以解決單一推薦算法存在的問題. 例如, 將基于內容的 推薦算法和基于協同過濾的推薦算法結合起來的混合推薦算法, 能夠解決物品的冷啟動問題, 同時考 慮了用戶之間的偏好關系, 從而構建一個更好的推薦模型.

近年來, 隨著深度學習在計算機視覺、語音識別和自然語言處理等領域的快速發展, 深度學習也成 為推薦系統領域的一項重要技術. 與傳統的推薦算法相比, 基于深度學習的推薦算法表達能力更強, 能 夠更好地挖掘數據的潛在特征, 獲取深層次的用戶和物品的特征描述. 基于深度學習的推薦算法主要 利用一些深度學習技術, 如: 自編碼器[12]、受限玻爾茲曼機 (restricted Boltzmann machine, RBM)[13]、 卷積神經網絡 (convolutional neural network, CNN) [14] 和循環神經網絡 (recurrent neural network, RNN)[15] 等, 來構建推薦模型. AutoRec [12] 是較為簡單的基于深度學習的推薦算法, 其將自編碼器技 術應用到協同過濾中, 輸入是某個用戶對所有物品的評分構成的向量或所有用戶對某個物品的評分構 成的向量, 通過一個包含單隱層的神經網絡, 讓輸出向量盡可能逼近輸入向量, 從而預測輸入向量中的 缺失值, 進而實現對物品的排序和推薦. 但是 AutoRec [12] 沒有很好地解決特征交叉問題, 模型的表達 能力有一定的局限. Deep crossing [16] 設計了包含 embedding 層、stacking 層、multiple residual units 層和 scoring 層的網絡結構, 通過多層殘差網絡對特征向量進行多次特征交叉, 從而捕捉更多非線性 的特征信息. NCF (neural collaborative filtering)[17] 使用多層神經網絡來代替矩陣分解中的內積操作, 使得用戶特征向量和物品特征向量之間的交互更加豐富, 從而提高模型的表達能力. Wide&Deep [18] 和 Deep&Cross [19] 等通過組合不同特性的神經網絡來提高模型的綜合能力. DIN (deep interest network) [20] 等將注意力機制與基于深度學習的推薦算法結合, 使得模型能更好地捕捉用戶的興趣點. BERT4Rec [21] 將基于 Transformer 的雙向編碼器表征應用在序列推薦中, 用于捕捉用戶行為序列上 下文的關系, 以此來預測用戶可能會喜歡的下一物品. NGCF (neural graph collaborative filtering) [22] 將 (用戶, 物品) 表示為二部圖, 將圖神經網絡 (graph neural network, GNN) 應用到協同過濾算法中, 并對 (用戶, 物品) 的高階交互歷史行為進行建模.

上述推薦算法是基于集中式架構設計的, 其中客戶端 (即用戶) 僅充當數據產生者和數據傳輸者 的角色, 而數據處理和模型構建的過程由服務端來實現. 由于客戶端需要將用戶的原始數據上傳到服 務端, 因此存在用戶隱私泄露的風險. 同時, 為了充分利用數據的價值, 挖掘更高維的潛在特征, 服務 端構建的推薦模型越來越復雜. 此外, 當用戶數據增長到一定的數量級, 傳統的集中式推薦系統通常 難以滿足越來越高的存儲成本和計算成本的要求. 分布式推薦系統將用戶數據或模型參數分布在各個 數據節點或者計算節點中, 通過使用分布式計算和并行計算等技術來加快模型的訓練, 從而支持更大 規模的數據的處理和更復雜的推薦模型的構建 [23] . 需要說明的是, 隱私保護不是設計分布式推薦系 統時首要關注的問題, 因而服務端通常可以收集各個節點的原始數據和模型參數.

在推薦系統的應用場景中, 可以將原始數據劃分為用戶個人信息、物品屬性信息和用戶與物品之 間的交互信息. 對用戶而言, 隱私信息包括用戶的個人信息 (例如, 性別、年齡和地理位置等)、用戶對 物品的顯式反饋 (例如, 用戶對物品的評分等) 和用戶對物品的隱式反饋 (例如, 用戶對物品的點擊、 收藏和購買等) 等. 一般認為, 同一組織內部的物品屬性信息是共享的, 不屬于用戶的個人隱私. 而對 不同組織, 物品屬性信息以及模型參數可能涉及公司的商業機密, 因此通常不能直接與其他組織共享.

2.2 聯邦學習概述

聯邦學習本質上是一種既聯合多方又不共享各方原始數據的分布式學習框架, 在保護各個參與方數據中的隱私的前提下, 聯合各個參與方共同訓練, 得到一個共享的模型 [24] . 需要說明的是, 與傳統 的分布式學習框架相比, 聯邦學習中的各個參與方通常對自己的數據具有絕對的控制權. 因此, 服務 端在訓練過程中需要滿足各個參與方不同程度的隱私保護的要求. 聯邦學習可按模型的架構、模型的 聯邦化、模型的優化和隱私保護技術的應用 4 個角度進行分類, 見表 1 [1~3, 25~54] . 其中, 模型的架構 取決于不同的部署環境, 不同的架構在對模型進行聯邦化時需要設計不同的訓練流程. 對不同模型的 聯邦化的研究是聯邦學習的研究重點, 而隱私保護技術是在模型聯邦化過程中需要使用的重要技術手 段. 對于聯邦化后的模型, 考慮到不同的業務需求, 例如, 提高通信效率和模型性能等, 可以設計不同的模型優化策略.

2.2.1 模型的架構

通常, 在聯邦學習中使用的架構可以分為客戶端 – 服務端架構和去中心化架構. 如圖 1 所示, 對 于客戶端 – 服務端架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 并將模型參數發送給 各個客戶端; (2) 客戶端利用本地數據以及從服務端接收到的最新的模型參數進行訓練, 并將中間參 數發送給服務端; (3) 服務端聚合中間參數, 更新全局模型, 再把模型回傳給客戶端; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 對于去中心化架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 然后 將模型參數發送給各個客戶端; (2) 客戶端利用本地數據進行模型訓練并更新本地的模型參數; (3) 客戶端選取一些其他客戶端, 發送本地的中間參數, 同時接收其他客戶端的中間參數, 并更新本地的模 型; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 需要說明的是, 不同組織之間的聯邦應用場景, 例如, 縱向 聯邦學習和聯邦遷移學習, 可以看作特殊的去中心化架構. 在這些場景中, 若引入第三方服務器, 則又 可視為特殊的客戶端 – 服務端架構.

客戶端 – 服務端架構能夠利用服務端的計算資源, 減少客戶端的計算壓力, 但容易發生單點故障. 同時, 對于好奇的服務端, 其可能根據客戶端上傳的中間參數推斷客戶端的隱私信息, 從而泄露客戶 端的隱私. 相比客戶端 – 服務端架構, 去中心化架構不使用服務端或者服務端僅提供初始化模型參數 和協助客戶端之間通信的功能, 而不對模型進行更新. 去中心化架構的主要優勢包括以下 3 個方面. (1) 匿名性 [55] . 在模型訓練過程中, 客戶端能以匿名的方式發送中間參數給其他客戶端, 從而解決客 戶端之間的隱私泄露問題. (2) 節省服務端的資源. 服務端僅需初始化模型參數, 將模型參數分發給各 個客戶端, 不需要參與模型的更新. (3) 高可用性. 不存在單點故障, 即不會因為服務端的某一個部件 出錯而導致整個聯邦學習系統中止訓練. 客戶端 – 服務端架構和去中心化架構的相同之處在于客戶端的原始數據不離開本地, 通過服務端 與客戶端之間的通信或客戶端與客戶端之間的通信, 以發送中間參數的訓練方式來得到一個共享的模 型. 在實際應用中, 考慮到不同模型的優化需求, 使用這兩種架構時的訓練流程會有所不同, 例如, 為 了減少通信成本, 一些基于客戶端 – 服務端架構的聯邦學習算法會采用在客戶端多次訓練后再將中間 參數上傳給服務端的訓練方式 [3, 36, 37, 56] . 我們將在 2.2.3 小節關于模型的優化中, 介紹一些對訓練流 程進行改進的方法.

**2.3 聯邦推薦系統概述 **

隨著聯邦學習在各個領域的應用, 對基于聯邦學習的推薦系統的研究也受到了關注. 推薦系統通 常需要通過用戶的歷史行為來學習用戶的偏好. 此外, 為了訓練得到更好的推薦模型, 通常還會結合用 戶的個人信息等數據. 用戶的歷史行為數據包括用戶對物品的評分等顯式反饋, 用戶對物品的點擊、 收藏和購買等隱式反饋, 以及用戶在物品上的瀏覽時間等其他信息. 用戶的個人信息包括用戶的性別、 年齡、社交關系和地理位置等信息. 對用戶而言, 這些都屬于較為敏感的隱私數據, 用戶通常不愿意提 供給服務端. 除此之外, 不同組織之間的數據和模型可能涉及商業機密, 通常也不能直接共享, 進而導 致組織之間的數據孤島問題. 聯邦學習和推薦系統的結合旨在保護用戶隱私和商業機密的前提下, 為 用戶提供精準的個性化服務.

聯邦推薦系統是聯邦學習領域的一個重要應用場景, 在這個場景中, 一個客戶端可以是一個用戶 或一個組織, 客戶端需在不共享數據的前提下聯合建模. 與聯邦學習的分類類似, 我們將從架構設計、 系統的聯邦化和隱私保護技術的應用 3 個角度, 論述基于聯邦學習的推薦系統的研究進展. 我們在圖 2 中展示了上述的 3 個研究角度. 需要說明的是, 對于模型的優化, 由于目前在聯邦推薦系統方面的相 關工作較少, 我們將在第 6 節的展望部分進行討論.

3 推薦系統的聯邦化

推薦模型的聯邦化具有一定的共性, 一個聯邦推薦模型的訓練框架通常適用于具有相同訓練方式 的其他模型. 然而考慮到不同場景中的隱私保護級別可能不同以及不同模型參數可能帶來的不同隱私 問題, 不同推薦模型在聯邦化的過程中存在一定的差異. 對于模型的聯邦化, 可以劃分為基于協同過濾的推薦算法的聯邦化、基于深度學習的推薦算法的聯邦化和基于元學習的推薦算法的聯邦化 3 個類別. 表 2 [6, 7, 35, 69, 71~86] 展示了一些推薦模型的聯邦化的例子及其特點.

4 推薦系統的聯邦化

**最近, 十三屆全國人大常委會第二十九次會議通過了《中華人民共和國數據安全法》[114] , 對企業 收集和使用公民個人信息等問題作出規制. 聯邦學習通過不上傳原始數據的學習范式, 結合多種隱私 計算技術, 能在相關法律法規的要求下發揮數據的價值, 因此在推薦系統的應用中受到了學術界和工 業界越來越多的關注. 然而, 目前聯邦學習在推薦系統中的應用仍處于起步階段, 在未來有很多值得 嘗試和探索的研究方向. 以下總結了 3 個值得探索的研究方向.

4.1 推薦系統的聯邦化

在對傳統的推薦模型進行聯邦化方面, 目前已有不少的研究工作, 雖然它們都將原始數據保存在 客戶端本地, 但仍存在其他的隱私問題. 例如, 一些工作[6, 71] 泄露了用戶的評分行為, 即用戶評過哪些 物品. 以 FederatedMF [71] 為例, 服務端只要對比更新前后的物品特征向量, 就可以知道哪些物品的特 征向量被更新過, 從而知道上傳該特征向量的用戶對哪些物品評過分. 再者, 一些工作 [7, 69] 直接上傳 物品特征向量的梯度給服務端, Chai 等 [6] 證明了連續兩次上傳同一個物品的梯度給服務端時, 服務 端能夠反推出用戶對物品的評分. 此外, 為了獲取更豐富的信息, 以 SVD++ [88] , MF-MPC [115] 等算 法為例, 他們使用了一些和評分值相關的模型參數. 例如, 在 MF-MPC 中, 不同的評分值 r 都有一個 對應的模型參數 Mr i· . 當用戶 u 更新物品 i 的 Mr i· 時, 會直接暴露用戶 u 對物品 i 的評分值. 雖然目 前已有相關的研究, 使用如同態加密 [6, 74, 94]、虛假采樣 [69, 73, 116]、差分隱私 [89] 和秘密共享 [72, 74] 等 技術, 能較好地解決這些隱私問題, 但這些技術會帶來如通信成本增加、計算復雜度增大和推薦性能 下降等新的問題. 此外, 一些經典的推薦算法 (例如, PMF [65] 和 BPR [68] 等) 以 SGD 作為優化方法 時, 其每次只采樣一個 (用戶, 物品) 對, 然后計算用戶特征向量的梯度和物品特征向量的梯度, 并用 于更新對應的用戶特征向量和物品特征向量. 在聯邦學習范式中, 以分布式學習的方式進行模型訓練 時, 每次只采樣一個 (用戶, 物品) 對的訓練方式會導致算法的訓練效率較低. 一個提高效率的訓練方 式是讓客戶端并行地進行模型訓練 [97] , 再對上傳的物品特征向量的梯度進行平均, 然而這樣的做法與 非聯邦版本的對應算法相比, 得到的效果往往會有所下降. 在對推薦模型進行聯邦化時, 如何在訓練 方式與非聯邦版本等價的同時, 保證算法的訓練效率, 也是聯邦推薦值得關注的一個問題. 目前對于基于深度學習的推薦算法的聯邦化的研究相對較少. 主要挑戰在于, 客戶端的存儲資源 和計算能力通常無法與龐大的神經網絡相匹配, 并且客戶端自身的數據量有限, 難以訓練出較好的深 度學習模型. DeepRec [83] 采用模型參數較少的 RNN 作為主干模型, 然而對于更大規模的神經網絡, 客戶端的存儲資源會比較受限. Niu 等[80] 使用隨機響應技術, 使得客戶端能以子模型的方式來下載和 上傳模型. 然而這種方式僅支持物品的特征向量能按行表示的模型, 模型的通用性有一定的限制. 將 模型參數和計算過程交給邊緣設備的邊緣計算 [117] , 以及從學習能力強的教師模型中提煉出參數較少 的學生模型的知識蒸餾 [118] , 是兩個解決客戶端資源受限的研究思路. 除此之外, 目前還沒有公開發表的面向序列反饋和異構反饋建模的聯邦推薦方法. 在保護隱私 的前提下, 運用序列信息和多行為等數據, 構建一個性能更好的聯邦推薦模型, 也是一個值得研究的 問題.

**4.2 聯邦推薦系統的優化 **

在 2.2.3 小節中介紹了 4 種適用于聯邦學習的優化方法, 即模型壓縮、通信策略的改進、激勵機制 和客戶端采樣. 這些優化方法如何在聯邦推薦模型中應用, 以及如何為特定的推薦模型設計更有效的 優化算法, 值得深入研究. 現有的部分研究工作或能給予一定的啟發. 如 Yang 等 [119] 提出的 FCMF (federated collective matrix factorization), 針對縱向聯邦推薦問題, 設計了一個有效的通信策略: 輔助 方先充分訓練好物品特征矩陣, 加密后發送給目標方. 在目標方訓練過程中, 只有少數的中間參數需 要回傳給輔助方解密. Minto 等 [120] 發現在 FCF 框架中對物品特征向量的梯度使用本地差分隱私技 術進行處理時, 訓練得到的模型性能較差. 因此, 對于每一個要上傳給服務端的梯度, 他們僅對其隨機 的某一維度添加噪聲, 在滿足差分隱私的條件下, 提高了模型的性能.

**4.3 聯邦推薦場景中的隱私安全問題 **

在較早的研究工作中, 原始數據和能表征用戶偏好的模型參數被視為用戶的隱私. 因此, 在保留 原始數據和用戶特征向量的情況下, FCF [7] 上傳物品特征向量的梯度, 用于構建全局的物品特征矩 陣. 在文獻 [6] 中, 研究人員證明了物品特征向量的梯度會泄露用戶的評分信息. 為了解決這個問題, SharedMF[72] 使用秘密共享技術, FedMF[6] 使用同態加密技術. 然而, 在訓練過程中, 僅有與用戶交互 過的物品需要上傳梯度, 因而在上傳某個物品特征向量的梯度時, 在保護了梯度信息的情況下, 通過分 析物品特征向量的 ID, 仍能推導出用戶的評分行為. 因此在已有的研究工作中, FPL [73] 和 FedRec [69] 采用虛假采樣的方式, 混淆評過分的物品. 此外, 在最近的研究工作中, DeepRec [83] 認為, 一些商業數 據的收集并不違反 GDPR 等法律法規 [1] . 例如, 用戶購買一個商品時, 需要在付款后將購買行為告知 服務端, 否則該訂單無法完成. 因此, 這些必要的商業數據能夠被服務端收集, 而其他隱私數據, 例如 在完成訂單前對商品的點擊、瀏覽等行為, 以及在完成訂單后對商品的評分、評論等行為, 則不能直接 被服務端收集. 未來如何衡量聯邦場景中的隱私安全問題, 并對已有工作中存在的隱私問題, 設計一 個更為有效的解決方法, 是一個非常有價值的研究問題. 除此之外, 大部分聯邦場景都假設服務端和客戶端是誠實且好奇的. 未來的研究工作可假設更復 雜的真實環境, 即可能存在惡意的客戶端和服務端, 或者存在一些數據質量較低的客戶端. 在這種環 境下, 在一個聯邦推薦模型中設計一個能辨別數據源的可靠性的算法, 是一個值得研究的問題. 例如, 服務端可對上傳的模型參數質量進行評估 [121] , 從而篩選出惡意的或低質量的模型參數, 也可以通過 將主成分分析技術 (principal component analysis, PCA) 和數據復雜度相結合 [122] , 使用檢測托攻擊算 法來解決客戶端偽造虛假評分, 還可以通過客戶端之間梯度的差異來檢測惡意的客戶端[123] . 此外, 在 去中心化的架構中通常采用匿名的方式傳遞參數, 這給惡意的客戶端提供了攻擊的機會. 例如, 攻擊 者很容易通過匿名的方式, 將精心制作的參數傳遞給其他客戶端, 以操控訓練數據分布 [124] . 因此, 客 戶端如何運用模型投毒防御 [124] 和對抗攻擊防御 [125] 等防御手段來保護自己模型的安全性和有效性, 也是一個值得研究的問題

付費5元查看完整內容

相關內容

聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在 2016 年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。其中,聯邦學習可使用的機器學習算法不局限于神經網絡,還包括隨機森林等重要算法。聯邦學習有望成為下一代人工智能協同算法和協作網絡的基礎。

人大學等《聯邦學習隱私保護》隱私保護技術

聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制.它允許各個參與方將數據保留在本地,在打破數據孤島的同時保證參與方對數據的控制權.然而聯邦學習引入了大量參數交換過程,不僅和集中式訓練一樣受到模型使用者的威脅,還可能受到來自不可信的參與設備的攻擊,因此亟需更強的隱私手段保護各方持有的數據. 本文分析并展望了聯邦學習中的隱私保護技術的研究進展和趨勢.簡要介紹聯邦學習的架構和類型,分析聯邦學習過程中面臨的隱私風險,總結重建、推斷兩種攻擊策略,然后依據聯邦學習中的隱私保護機制歸納隱私保護技術,并深入調研應用上述技術的隱私保護算法,從中心、本地、中心與本地結合這3個層面總結現有的保護策略. 最后討論聯邦學習隱私保護面臨的挑戰并展望未來的發展方向.

//jos.org.cn/html/2022/3/6446.htm

1. 引言

近年來, 大數據驅動的人工智能迸發出巨大潛力, 在金融、醫療、城市規劃、自動駕駛等多個領域完成了大規模復雜任務學習. 機器學習作為人工智能的核心技術, 其性能和隱私性也廣受關注. 傳統的機器學習需要由服務商收集用戶的數據后集中訓練, 但是用戶的數據與用戶個體緊密相關, 可能直接包含敏感信息, 如個人年齡、種族、患病信息等; 也可能間接攜帶隱含的敏感信息, 如個人網頁瀏覽記錄、內容偏好所隱含的用戶政治傾向. 如果這些敏感信息在收集過程中被服務商泄露或者利用, 將直接威脅用戶的人身安全、個人名譽和財產安全. 即便服務商沒有直接公開用戶數據, 集中訓練后發布的模型也可能因為受到隱私攻擊而泄露參與訓練的數據. 隨著隱私問題受到的關注程度日益提高, 用戶分享數據的意愿越來越低. 與之矛盾的是, 人工智能技術卻必須依靠大量數據收集和融合, 如果不能獲取完整豐富的信息來訓練模型并發展技術, 人工智能應用的發展將受到嚴重限制.

在數據孤島現象與數據融合需求的矛盾逐漸凸顯的背景下, 聯邦學習(federated learning, FL)應運而生. 2017年, Google公司首次提出了聯邦學習的概念[1], 這是一種由多個數據持有方(如手機、物聯網設備, 或者金融、醫療機構等)協同訓練模型而不分享數據, 僅在中間階段交換訓練參數的學習機制. 理想狀況下, 聯邦學習得到的共享模型與數據集中在中心服務器上訓練所得模型相比, 效果相近或更好[2]. 由此, 企業能夠通過合法且高效的方式融合數據提取信息, 個人或其他持有數據的機構依然能夠在享受企業提供的人工智能服務的同時, 保有數據的控制權.

盡管聯邦學習避免了將數據直接暴露給第三方, 對于數據隱私有天然的保護作用, 但是其中依然存在大量隱私泄露的風險.

  • 首先, 聯邦學習需要交換中間參數協同訓練, 可能泄露隱私. 與集中式學習不同, 聯邦學習訓練過程需要交換大量中間參數, 其所攜帶原始數據會暴露在所有參與訓練的角色面前, 帶來泄露的風險. 例如, 已有研究表明, 可以通過梯度還原部分原始數據[3], 或根據中間參數推斷掌握的記錄內容是否來自某個特定參與者[4].

  • 其次, 不可靠的參與方加劇了隱私泄露的風險. 聯邦學習中, 各個參與方由于地理、設備等條件不同, 通信內容的有效性和身份的真實性都難以確認, 因此一旦出現不可靠的參與方攻擊, 極易泄露隱私.例如, 半誠實的參與方能夠根據合法獲取的中間參數推斷出其他參與方的標簽或數據; 而惡意的參與方更進一步, 能夠通過上傳精心設計的有害信息誘導其他參與方暴露更多自身數據, 或者不遵守隱私協議進而影響全局的隱私性.

  • 此外, 訓練完成的模型也面臨著隱私泄露的風險. 即便聯邦學習的過程中參數沒有泄露, 直接發布訓練所得的模型依然存在極大風險. 這種風險來自機器學習自身的脆弱性. 在訓練中, 模型提高準確性依賴于對數據樣本的規律挖掘. 但是研究者[4]注意到, 追求模型在訓練樣本上的準確度, 可能導致模型的參數乃至結構“記住”訓練樣本的細節, 使得模型攜帶訓練集的敏感信息. 根據這一特性, 攻擊者可以通過反復查詢模型的預測接口來推測某條記錄是否存在于訓練集、推測模型的具體參數, 而根據模型發布的參數能夠進一步推測訓練集成員或訓練集具體樣本.

由此可見, 不加保護的進行聯邦學習, 訓練中涉及的眾多參與者的數據都將面臨泄露的風險. 而數據一旦泄露, 不僅隱私泄露者面臨嚴重損失, 參與者間彼此信任合作的聯合訓練模式也將難以為繼.

解決聯邦學習信息泄露問題迫在眉睫. 然而, 聯邦學習中數據分布復雜、應用場景豐富且需要多次數據交換, 這些因素為隱私保護帶來一系列挑戰.

  • 第一, 聯邦學習的訓練場景多樣且需求復雜, 現有的隱私保護方法無法通用. 已有的集中式機器學習隱私保護研究以中心服務器誠實為前提, 僅考慮模型發布后可能受到的攻擊, 沒有針對內部攻擊者的解決方案. 而且現有算法大多針對單一的集中式訓練場景, 沒有考慮多個參與方、多種架構、多種數據分布方式下的數據交換和模型協同訓練的情況. 因此, 設計適應不同場景和不同需求的隱私保護算法, 同時抵御外部和內部攻擊, 是聯邦學習隱私保護的重要挑戰.

  • ** 第二, 聯邦學習中參與方的可信程度低, 潛在的攻擊角度多, 對隱私保護算法的魯棒性要求更高**. 這里, 魯棒性指模型容忍惡意攻擊穩定運行的能力. 聯邦學習中, 參與者一旦發起攻擊, 能夠觀察到更多的中間參數, 甚至能夠篡改參數影響訓練過程, 隱私防御的難度遠高于外部出現的攻擊. 而參與者之間如果共謀, 可能獲取更多敏感信息. 因此, 提高隱私保護算法的魯棒性, 減少隱私算法中對參與者的可信程度的假設, 是聯邦學習隱私保護面臨的難題.

  • ** 第三, 聯邦學習本身通信不穩定, 模型計算代價高, 因而對隱私保護機制的通信量和復雜度要求嚴格**. 現實場景下的聯邦學習所面臨的復雜松散的網絡結構導致終端通信不穩定, 在此基礎上的隱私保護算法難以簡化. 而復雜的隱私保護算法將帶來更高的計算量、更大通信代價, 進一步制約聯邦學習的訓練效率. 研究高效率、輕量級的聯邦學習隱私保護算法, 降低額外開銷, 是聯邦學習隱私保護必須面對的挑戰.

  • 第四, 聯邦學習中參數維度高、數據分布不均, 難以在提供隱私保護的同時保持模型的可用性. 聯邦學習中間參數的維度與模型結構和輸入數據維度相關, 參數維度往往極高, 造成了極大的隱私開銷.此外, 聯邦學習的用戶數量不定且數據集大小不一, 如何在平衡不同數據集的同時保護隱私, 也是一個巨大挑戰.

綜上所述, 更加精細的隱私策略設計、更加精確的隱私預算分配、更加適應數據交換的隱私協議構建, 是聯邦學習隱私保護進一步發展必須面對的議題. 而明確現有的隱私問題和保護手段, 是技術發展的基礎. 聯邦學習的基礎——機器學習的隱私攻擊和防御已經被充分調研[5]. 機器學習面臨的外部攻擊同樣威脅著聯邦學習的發布模型, 但是機器學習的隱私保護手段卻遠遠不足以為聯邦學習提供保護. 這是由于聯邦學習同時面臨著傳統的外部攻擊和其獨有的內部攻擊, 因此聯邦學習的隱私保護方案必須同時為內部訓練過程和外部模型發布提供雙重保護.

另外, 已有學者調研了聯邦學習隱私保護的現狀, 但由于思路與本文不同, 側重的方法和文獻也不相同. Lyv等人[6]和Wang等人[7]對聯邦學習可能受到的攻擊作了詳細的闡述, 但是在安全攻擊和隱私攻擊的區分上沒有進一步調研. 本文明確兩種攻擊的概念范圍: 以竊取數據、破壞模型隱私性和機密性為目的的攻擊為隱私攻擊, 以干擾模型訓練結果、破壞模型可用性和完整性的攻擊為安全攻擊. 此外, 本文還依據現有的隱私攻擊技術的原理歸納了主要策略分類. 現有文獻[7?10]均從技術或訓練階段的角度分析了目前的聯邦學習隱私保護算法, 而本文根據聯邦學習自身特性分析其特有的隱私泄露內容和泄露位置, 從隱私保護的對象的角度出發建立分類框架, 并歸納每個類別中主要的保護機制, 進而分析采用不同技術的算法的共性并探究機制本身的優勢和不足. 進一步地, 本文建立了攻擊策略與保護機制之間的聯系, 并在此基礎上嘗試為聯邦學習隱私保護的發展提出建議.

本文第1節介紹聯邦學習的架構和類型, 以及相應場景下的訓練方式. 第2節分析聯邦學習面對的隱私泄露風險來源, 總結具體的攻擊策略. 第3節介紹多種隱私保護技術原理, 并將其歸納為信息模糊、過程加密兩種隱私保護機制. 第4節調研隱私保護技術在聯邦學習中的應用, 涵蓋本地保護、中心保護、中心與本地結合這3種保護策略, 并對每種策略展開更加詳細的闡述. 第5節討論現有不足并展望未來方向.

2. 聯邦學習**

**聯邦學習的一般定義為[11]: N個參與方{F1, …, FN}各自持有訓練集{D1, …, DN}. 聯邦學習中, 各個參與方在不將本地數據Di暴露給第三方的情況下, 協作訓練模型MFED. 為了給聯邦學習模型一個衡量標準, 設傳統的集中式機器學習將各個數據集收集合并為D=D1∪…∪DN以訓練模型MSUM. 令VFED為聯邦學習模型MFED精度(performance), VSUM為傳統機器學習模型MSUM精度. 存在非負實數δ, 使得: |VFED?VSUM|<δ, 則稱此聯邦學習模型具有δ的精度損失. 可見, 使各個數據集留在本地協同訓練所得模型的精度, 理想狀況下應當接近于將數據集集中后訓練所得模型的精度. 區別于傳統的分布式機器學習, 聯邦學習具有如下特點. (1) 各個參與方的訓練集非獨立同分布. 各個參與方僅掌握局部信息, 其分布與全局不一定相同; 各個參與方僅掌握整個數據集的部分屬性及標簽信息, 且各方之間屬性和標簽可能不完全重疊. (2) 各個參與方的訓練集大小可能不平衡. 某些參與方可能由于其規模、影響力等因素掌握更多數據. (3) 參與方數量不定. 參與者數量可能很少, 例如只有幾個企業交換數據集; 也可能極多, 如訓練涉及數以萬計的App使用者. (4) 通信受限. 與分布式相比, 聯邦學習的架構更為松散, 參與的設備可能存在頻繁掉線、通信緩慢等情況, 因此聯邦學習的通信代價同樣受到極大關注. 根據這些特點, 學者為聯邦學習設計了不同的架構方式和學習類型.

聯邦學習架構

常見的聯邦學習架構為客戶-服務器. 典型的客戶-服務器架構由一個中心服務器和多個持有數據的客戶端組成. 被廣泛采用的聯邦平均FedAvg[1]即是基于客戶-服務器架構設計的算法. 在訓練中, 中心服務器將隨機初始化的模型結構和參數分發給客戶端, 客戶端根據本地數據訓練并更新模型后將參數上傳. 中心服務器收到各方參數后聚合計算, 更新模型參數再次下發. 該過程循環, 直至模型收斂或訓練終止. 除了常見的模型參數交換以外, 也存在梯度交換、數據特征的嵌入式表示交換等方式. 在此架構下, 原始數據不需要傳輸, 但是本地中間參數暴露給了中心服務器, 全局中間參數則會被每個客戶端獲取, 數據交換過程中, 巨大的通信量也會影響訓練效率. 而當參與訓練的客戶端數量過多時, 中心服務器的聚合計算甚至可能成為全局訓練效率的瓶頸.

當沒有中心服務器時, 聯邦學習采用另一種常見架構: 端對端的網絡架構[12]. 這種架構僅由持有數據的終端組成. 參與訓練的終端Fi直接將訓練參數發送給下一個(或多個)終端Fi+1, 下一個(或多個)終端Fi+1在收集到的一個(或多個)參數基礎上繼續訓練, 直到模型收斂或者訓練終止. 端對端網絡架構不依賴中心服務器這樣的第三方機構, 本地中間參數直接在參與方之間傳送. 因此需要考慮參與方如何協商使用相同的模型、算法、初始化參數等基本信息, 協調各方參與訓練的順序.

為了下文中概念統一、表述清晰, 本文將客戶-服務器中的服務器稱為中心服務器; 將客戶-服務器中的客戶端和端對端架構中的參與訓練終端統稱為終端; 所有參與訓練的服務器、終端統稱為參與方. 訓練過程中發送的梯度、模型參數、嵌入式表示等, 統稱為中間參數. 上述兩種典型架構如圖 1所示.

聯邦學習類型根據參與方的樣本分布情況, 聯邦學習按照數據的劃分情況可以分為3種類型: 橫向聯邦學習、縱向聯邦學習、遷移聯邦學習. 不同的數據的劃分方式需要的訓練方式和中間參數不同, 也為隱私泄露的風險和保護方式帶來影響.

橫向聯邦學習中, 各個參與方持有的數據特征相同, 但掌握的樣本不同. 例如, 幾個不同城市的醫院可能掌握著不同病人的情況, 但是由于具備相似的醫療手段, 醫院獲取屬性的屬性相同. 橫向聯邦學習中典型的方式之一是第1.1節所描述的聯邦平均算法FedAvg, 包括梯度平均和模型平均兩種類型[13], 多由客戶-服務器架構實現. 梯度平均是指終端交換和聚合模型梯度, 而模型平均指聚合模型參數. 在端對端架構中, 各個參與方訓練本地模型, 通過循環發送給下一個(或多個)訓練方或者隨機傳輸某個(或多個)終端[14]實現模型參數的共享.

而縱向聯邦學習則針對相反的情形, 即各個參與方持有的數據特征不同, 但掌握的樣本相同. 例如, 同一個城市中的醫院和銀行都接待過同一個市民, 保留著該市民的就診記錄或資金狀況. 顯然, 醫院和銀行獲取的數據屬性完全不同, 但是所持有的樣本ID是重疊的. 縱向聯邦學習首先需要參與方對齊相同ID的樣本, 然后, 各個參與方在對齊的樣本上分別訓練本地模型并分享參數. 不同架構同樣都適用于縱向聯邦學習, 但由于數據的縱向分布, 參與方之間的依賴程度更高, 模型需要更加精細地設計. 縱向聯邦學習已應用于線性回歸[11]、提升樹[15]、梯度下降[16]等多種模型上. 以縱向聯邦學習線性回歸算法[11]為例, 該算法在樣本對齊后, 將損失函數的梯度拆分, 使得兩個參與方能夠使用各自的本地數據分別計算梯度的一部分, 而需要共同計算的部分則通過雙方交換參數協同完成. 縱向分布的數據之間緊密的相關性, 為縱向學習的效率和容錯性帶來挑戰.

上述兩種類型都是比較理想的情況, 現實生活中, 大部分參與方所持有的數據, 在特征和樣本ID上的重疊都比較少且數據集分布不平衡. 針對這樣的情形, 遷移學習被應用到聯邦學習中來. 遷移學習作為一種有效的學習思想, 能夠將相關領域中的知識遷移到目標領域中, 使得各個參與方共同學習得到遷移知識. 以兩方遷移學習為例[17], 假設一方A掌握樣本的部分特征和全部標簽, 另一方B掌握部分特征, 雙方特征和樣本ID之間都有少量重疊. 聯邦遷移學習首先對齊樣本并共同訓練模型, 然后預測B方樣本的標簽. 為了達到預期效果, 訓練的目標函數包含兩個部分: 一部分是根據已有的標簽預測B方樣本, 使預測誤差最小化; 另一部分是A與B對齊的樣本之間的嵌入式表示的區別最小化. 各方根據目標函數在本地訓練, 并交換中間參數更新模型, 直至模型收斂.

目前, 縱向和遷移聯邦學習的隱私保護算法研究還不成熟, 且保護方式與橫向聯邦學習場景類似. 為了表述簡潔, 下文中調研的隱私保護算法若無特別說明, 即為橫向聯邦學習場景.

3. 聯邦學習中的隱私泄露風險

盡管聯邦學習不直接交換數據, 比傳統的集中式機器學習訓練有了更高的隱私保障, 但聯邦學習本身并沒有提供全面充分的隱私保護, 依然面臨著信息泄露的威脅. 模型面臨的隱私泄露風險來自模型訓練自身的脆弱性和攻擊者的強大能力: 模型訓練過程中, 獨特架構和訓練階段決定了隱私泄露的位置和時機; 攻擊者的角色和能力, 決定了隱私泄露的內容和程度. 而攻擊者依據自身特性所采取的攻擊策略, 則進一步影響攻擊者的能力, 從而影響模型隱私泄露的風險. 理清隱私泄露的風險, 才能為聯邦學習隱私防御找到總體方向.

4 隱私保護機制和技術

**隱私保護技術是防御敏感信息泄露的技術, 能為信息的隱私提供嚴格的可量化的保護. 隱私保護的技術多種多樣, 但總體分為兩大方向: 信息模糊機制和過程加密機制. 信息模糊機制面向數據內容本身, 通過處理數據或參數使數據內容不易被關聯到用戶身份上; 過程加密機制面向數據傳輸的過程, 通過改變數據交換的形式使得傳輸過程中的數據不被識別. 兩類機制使用的場景不同, 但都能在一定程度上抵御上述隱私攻擊.

5 聯邦學習中的隱私保護算法

基于上述隱私保護機制和技術, 學者們為聯邦學習設計了多種保護措施. 盡管這些保護措施設置在訓練的不同階段, 但隱私保護的對象是明確且清晰的: 中心或本地. 中心是指中心服務器所掌握的中間參數和訓練完成的模型; 本地則包括終端所掌握的數據和本地模型參數. 二者是聯邦學習主要的隱私泄露位置. 因此, 本節以隱私保護的對象為線索, 將聯邦學習隱私保護算法分為3種主要類型: 中心保護、本地保護、中心與本地同時保護策略. 中心保護策略以保護中心服務器所掌握的參數為目標, 考慮模型的使用者帶來的威脅; 本地保護策略以保護本地所掌握的參數為目標, 考慮中心服務器帶來的威脅; 中心和本地同時保護策略以保護所有參數為目標, 同時考慮模型使用者和中心服務器所帶來的威脅. 3種保護策略的區別如圖 4所示. 需要說明的是, 本地保護策略提供的保護有時也能起到防御模型使用者(外部攻擊者)的效果, 但防御使用者并非本地保護策略的核心任務, 所以該防御范圍在圖中用虛線表示.

6 未來展望

不同于傳統的集中式機器學習, 聯邦學習由于自身架構和訓練方式的獨特性, 面臨著更多樣的隱私攻擊手段和更迫切隱私保護需求. 現有的聯邦學習隱私保護算法在技術、平衡性、隱私保護成本和實際應用中還存在諸多不足之處. 明確這些問題和挑戰, 才能展望聯邦學習隱私保護未來發展的機遇和方向:

  • 構建隱私量化體系, 設計有針對性的隱私定義和保護技術
  • 研究隱私性、魯棒性、公平性合一的隱私保護機制
  • 實現低成本、輕量級的聯邦學習隱私保護策略
  • 探索面向復雜場景的異質聯邦學習隱私保護方案
  • 解決高維中間參數的隱私隱患
付費5元查看完整內容

摘要

通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。

引言

醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。

傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。

在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。

目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:

(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。

(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。

(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。

(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。

付費5元查看完整內容

近年來,采用異質信息網絡統一建模推薦系統中不同類型對象的復雜交互行為、豐富的用戶和商品屬性以及各種各樣的輔助信息,不僅有效地緩解了推薦系統的數據稀疏和冷啟動問題,而且具有較好的可解釋性,并因此得到了廣泛關注與應用。據我們所知,本文是首篇專門介紹基于異質信息網絡的推薦系統的綜述。

具體而言,本文首先介紹了異質信息網絡和推薦系統的核心概念和背景知識,簡要回顧了異質信息網絡和推薦系統的研究現狀,并且闡述了將推薦系統建模為異質信息網絡的一般步驟。然后,本文根據模型原理的不同將現有方法分為三類,分別是基于相似性度量的方法、基于矩陣分解的方法和基于圖表示學習的方法,并對每類方法的代表性工作進行了全面的介紹,指出了每類方法的優缺點和不同方法之間的發展脈絡與內在關系。最后,本文討論了現有方法存在的問題,并展望了該領域未來的幾個潛在的研究方向。

1 引言

推薦系統往往面臨著數據稀疏和冷啟動問題,因此無法得到精準的推薦結果。在推薦系統中引入輔助信息可以有效地緩解這些問題。例如社會化推薦根據用戶之間的關系構造社交網絡作為輔助信息,從而能夠在推薦系統中充分利用社會關系對用戶喜好的影響。類似地,基于地理位置的社交推薦構建了用戶與位置之間的關系,通過用戶的位置記錄來捕捉用戶的行為偏好。然而,這些方法僅適用于某種特定類型的輔助信息,不具有普適性。

異質信息網絡是一種通用的融合多源數據的方法。通過將推薦系統視為由不同類型對象和交互構成的異質信息網絡,我們可以建模用戶與商品之間復雜的交互關系,而且可以有效融合屬性和各類輔助信息。基于異質信息網絡的推薦系統在信息融合、探索結構語義等方面具有顯著優勢,不僅可以有效緩解數據稀疏與冷啟動問題,而且有助于提升推薦系統的準確性和可解釋性,因此取得了廣泛的關注與應用。

綜述的章節編排如下:第2章簡要介紹推薦系統和異質信息網絡的相關概念與定義;第3章按照模型原理的不同,對基于異質信息網絡的推薦系統進行分類,并對現有方法進行了系統地梳理與分析;第4章展望了基于異質信息網絡的推薦系統未來研究方向;第5章回顧并總結全文。(在這里,主要展示第3章和第4章的核心內容,其他內容詳見論文原文。)

2 模型分類

目前,研究人員設計了各種適用于異質信息網絡建模的推薦算法。本章根據模型的不同,將現有工作進行分類,如表1所示。 圖片

2.1 基于相似性度量

推薦系統的個性化匹配往往基于對實體相似性的度量,而協同過濾需要基于用戶與商品之間的交互歷史計算相似度。早期的相似性度量算法僅對同質信息網絡定義,然而,這些算法忽視了對象和聯系的不同類型,不適用于建模為異質信息網絡的推薦系統。為了解決這一問題,研究者們提出了一系列用于異質信息網絡中實體相似性度量的算法,主要包括基于隨機游走的方法和基于元路徑的方法。基于這兩類異質信息網絡相似性度量算法,研究者們提出了很多協同過濾算法的變體,本文將這類方法統稱為基于相似性度量的方法。(詳見原文)

2.2 基于矩陣分解

為了解決相似性度量方法存在的時空復雜度高的問題,推薦系統的研究者們提出了矩陣分解模型,其原理是通過分解評分矩陣來提取出用戶和商品的隱向量,然后根據隱向量的相似度進行推薦。傳統的矩陣分解模型在訓練時使用隱向量重構共現矩陣作為優化目標,無法利用異質信息網絡中豐富的語義信息。很多研究者提出適用于異質信息網絡建模的矩陣分解方法,可以分為兩類:基于正則化的方法,和基于神經矩陣分解的方法。與基于相似性度量的方法相比,本節介紹的方法不依賴顯式的路徑可達性,當路徑連接稀疏或嘈雜時也不會失敗。(詳見原文)

2.3 基于圖表示學習

隨著深度學習的發展,基于神經網絡的推薦模型憑借其強大的特征交叉能力以及模型架構設計的靈活性,取得了較好的推薦效果。然而,傳統的神經網絡并不能直接建模圖結構。隨著圖表示學習技術的興起,研究者們嘗試設計融合圖表示學習技術的推薦模型,從而更好地學習圖數據中豐富的結構和語義信息。本節將這類方法統稱為基于圖表示學習的方法,并進一步分為基于兩階段訓練的方法和基于端到端訓練的方法。(詳見原文)

3 未來研究方向

異質信息網絡作為一種融合輔助信息的建模方法,憑借其緩解數據稀疏與冷啟動問題、提升模型性能與可解釋性等方面的優勢,已經在各種各樣的推薦系統模型和推薦任務上得到了應用。然而,基于異質信息網絡的推薦系統仍面臨很多挑戰,本節將介紹幾個潛在的未來研究方向。(詳見原文) 新型的異質圖推薦的模型與應用:基于圖神經網絡的推薦系統模型仍存在過平滑、魯棒性差等缺陷,而目前在圖神經網絡中引入異質信息的方法也仍不夠靈活,如何設計更好的異質圖推薦模型存在挑戰,如何將異質信息網絡用于更多類型的推薦任務也存在挑戰。

面向跨域數據的異質圖推薦:目前的絕大多數工作僅關注在單一異質網絡上的推薦任務,與單圖推薦相比,跨域推薦存在很多額外的挑戰。例如,如何設計源域到目標域的映射函數,如何在利用跨域信息的同時不泄露用戶隱私等,如何應對上述挑戰是未來的研究重點。

面向大規模實時場景的異質圖推薦:真實的推薦系統往往需要處理超大規模的數據,并且對推薦的實時性有較高的要求,因此很多復雜的推薦模型無法直接使用。大規模實時推薦主要面臨兩方面問題:一方面是模型的輕量化,另一方面是模型的動態更新。目前的推薦算法輕量化和動態更新方法主要適用于二分圖,如何將其應用于異質信息網絡存在挑戰。

付費5元查看完整內容

摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。

//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法

論文引用格式:

王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

圖片

1 引言

大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。

早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。

聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。

本文的主要貢獻如下。

● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。

● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。

● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。

● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。

付費5元查看完整內容

隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。

//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。

在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。

根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。

具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。

FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。

在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。

在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。

這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。

目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。

付費5元查看完整內容

推薦系統旨在為用戶推薦個性化的在線商品或信息, 其廣泛應用于眾多Web場景之中, 來處理海量信息數據所導致的信息過載問題, 以此提升用戶體驗. 鑒于推薦系統強大的實用性, 自20世紀90年代中期以來, 研究者針對其方法與應用兩方面, 進行了大量廣泛的研究. 近年來, 很多工作發現知識圖譜中所蘊含的豐富信息可以有效地解決推薦系統中存在的一系列關鍵問題, 例如數據稀疏、冷啟動、推薦多樣性等. 因此, 本文 針對基于知識圖譜的推薦系統這一領域進行了全面的綜述. 具體地, 首先簡單介紹推薦系統與知識圖譜中的一些基本概念. 隨后, 詳細介紹現有方法如何挖掘知識圖譜不同種類的信息并應用于推薦系統. 此外, 總結了相關的一系列推薦應用場景. 最后, 提出了對基于知識圖譜的推薦系統前景的看法, 并展望了該領域未來的研究方向.

付費5元查看完整內容

題目: 機器學習的隱私保護研究綜述

簡介:

大規模數據收集大幅提升了機器學習算法的性能,實現了經濟效益和社會效益的共贏,但也令個人隱私保護面臨更大的風險與挑戰.機器學習的訓練模式主要分為集中學習和聯邦學習2類,前者在模型訓練前需統一收集各方數據,盡管易于部署,卻存在極大數據隱私與安全隱患;后者實現了將各方數據保留在本地的同時進行模型訓練,但該方式目前正處于研究的起步階段,無論在技術還是部署中仍面臨諸多問題與挑戰.現有的隱私保護技術研究大致分為2條主線,即以同態加密和安全多方計算為代表的加密方法和以差分隱私為代表的擾動方法,二者各有利弊.為綜述當前機器學習的隱私問題,并對現有隱私保護研究工作進行梳理和總結,首先分別針對傳統機器學習和深度學習2類情況,探討集中學習下差分隱私保護的算法設計;之后概述聯邦學習中存的隱私問題及保護方法;最后總結目前隱私保護中面臨的主要挑戰,并著重指出隱私保護與模型可解釋性研究、數據透明之間的問題與聯系.

付費5元查看完整內容
北京阿比特科技有限公司