聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.
大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].
機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.
為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].
綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.
基于聯邦學習的推薦系統
隨著互聯網和移動計算等技術的發展, 人們的在線行為產生了越來越多的數據, 想要從海量數 據中挑選出用戶可能喜歡的物品, 推薦系統不可或缺. 然而傳統的推薦算法需要將用戶數據收集到服 務端才能構建模型, 這會泄露用戶隱私. 最近, 谷歌針對機器學習任務中需要收集用戶數據才能進行建 模的問題, 提出了一種新的學習范式 —— 聯邦學習. 聯邦學習與推薦系統相結合, 使得聯邦推薦算法 能夠在模型構建過程中, 始終將用戶數據保留在客戶端本地, 從而保護了用戶隱私. 本文主要對聯邦學 習與推薦系統相結合的研究工作進行綜述, 并從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析聯邦推薦算法的研究進展. 最后, 對基于聯邦學習的推薦系統可研究的方向進行展望.
在當今互聯網大數據的背景下, 推薦系統能夠利用海量的數據解決信息過載問題, 給用戶帶來便 利的同時也給企業帶來經濟效益, 進而實現用戶和企業的雙贏. 許多企業將推薦系統應用在了各自的 業務場景中, 例如, 淘寶的 “猜你喜歡”、網易云音樂的 “每日推薦”、騰訊視頻的 “今日熱門” 等, 類似 的服務在人們日常的互聯網生活中隨處可見, 這些商業服務的建立離不開推薦算法.
隨著通用數據保護條例 (general data protection regulation, GDPR) [1] 等隱私和數據保護法律法 規的頒布, 以及人們隱私保護意識的提高, 用戶數據中的隱私安全愈發受到重視. GDPR 等法律法規 要求, 在未經用戶同意的情況下, 任何組織和機構不得收集數據主體的個人數據. 然而傳統的機器學 習算法在沒有獲取足夠多的用戶數據的情況下, 往往難以通過訓練得到一個有效的模型. 為了解決用 戶數據的隱私問題, 以及在不直接獲取用戶原始數據的前提下得到一個有效的模型, 谷歌 (Google) 提出了聯邦學習范式[2, 3] . 聯邦學習使得在模型訓練的整個過程中, 用戶的原始數據始終保留在用戶 (客 戶端) 本地, 服務端和用戶之間通過共享加密的或不包含隱私信息的中間參數的方式, 進行模型訓練 和參數更新, 進而在保護用戶隱私的前提下構建一個有效的機器學習模型. 此外, 谷歌還將聯邦學習 應用在 Gboard 產品上, 用于表情符號預測 [4] 和下一個單詞的預測 [5] , 并且取得了不錯的效果. Yang 等[1] 進一步將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習. 橫向聯邦學習是指在參與 聯合訓練的多方中, 特征重疊較多, 樣本重疊較少; 縱向聯邦學習是指在參與聯合訓練的多方中, 特征 重疊較少, 樣本重疊較多; 而聯邦遷移學習是指在參與聯合訓練的多方中, 特征重疊和樣本重疊都較 少. 目前對聯邦學習的研究大多是基于橫向聯邦學習和縱向聯邦學習, 而對聯邦遷移學習的研究相對 較少。
在推薦系統中, 用戶的數據通常是指用戶對物品的交互行為和用戶的個人信息. 在傳統的推薦算 法中, 為了構建一個全局的模型, 通常需要收集所有用戶的原始數據并上傳至服務端, 這樣的做法往往 存在用戶隱私泄漏的問題. 為了解決這一問題, 一些研究工作 [6, 7] 將聯邦學習應用于推薦算法的設計 中, 使得用戶在不上傳自己的原始數據的前提下仍能得到良好的個性化服務. 近年來, 隨著聯邦學習技 術的發展, 對基于聯邦學習的推薦算法 (以下稱 “聯邦推薦”) 的研究也越發受到工業界和學術界的關 注. 在 2019 年的神經信息處理系統大會 (NeurIPS) 上, 微眾銀行以聯邦推薦為主題介紹了他們的多 個應用場景, 同時還基于自主研發的企業級聯邦學習平臺 FATE (federated AI technology enabler) [8] 提出了聯邦矩陣分解和聯邦因子分解機等算法, 引起了眾多研究人員的關注. 目前, 對聯邦推薦的研究 仍處于起步階段, 大多數聯邦推薦算法通過設計不同的聯邦訓練策略對傳統的推薦模型進行聯邦化, 從而保護用戶的隱私, 這也是本文論述的一個重點. 值得注意的是, 聯邦學習領域中的一些重要問題, 如通信成本、計算效率和激勵機制等, 在聯邦推薦算法的設計中還較少涉及, 但它們在模型的訓練和 部署等方面有較大影響, 這也是本文關注的另一個重點.
本文主要對基于聯邦學習的推薦系統的研究進行綜述. 第 2 節首先簡要介紹經典的和前沿的推薦 算法, 其次從模型的架構、模型的聯邦化、模型的優化和隱私保護技術的應用 4 個角度介紹聯邦學習 技術, 最后概述聯邦推薦技術. 第 3~5 節分別從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析基于聯邦學習的推薦系統的研究進展. 第 6 節展望基于聯邦學習的推薦算法的研究趨 勢. 第 7 節是結束語.
2. 概述
2.1 推薦系統概述
傳統的推薦方法主要包括基于內容的推薦、基于協同過濾 (collaborative filtering, CF) 的推薦和 混合推薦. 基于內容的推薦算法的核心思想是給用戶推薦與其歷史交互過的物品相似的物品, 它能夠 解決物品的冷啟動問題. 其中物品特征的提取較為關鍵, 只要能構建出新物品的特征描述, 該新物品就 有可能被推薦給用戶. 由于推薦的物品通常是與用戶交互過的物品較為相似的物品, 因此基于內容的 推薦算法難以推薦一些新穎的物品. 基于協同過濾的推薦算法的核心思想是給用戶推薦與其歷史偏 好相似的用戶群體交互過的物品, 其主要包括基于鄰域的推薦算法和基于模型的推薦算法. 其中, 基 于鄰域的推薦算法主要分為兩大類: 基于用戶的協同過濾推薦算法 [9] 和基于物品的協同過濾推薦算 法 [10] . 矩陣分解 (matrix factorization, MF) [11] 是協同過濾推薦算法中最受歡迎的算法之一, 其以高 維的 (用戶, 物品) 評分矩陣為輸入, 輸出一個低維的用戶特征矩陣和一個低維的物品特征矩陣, 通過用戶特征矩陣和物品特征矩陣的內積計算得到用戶對物品的評分矩陣. 與基于內容的推薦算法相比, 基于協同過濾的推薦算法考慮了不同用戶偏好之間的關系, 但存在用戶和物品的冷啟動問題. 混合推 薦算法將多種推薦算法以一定的方式組合起來, 以解決單一推薦算法存在的問題. 例如, 將基于內容的 推薦算法和基于協同過濾的推薦算法結合起來的混合推薦算法, 能夠解決物品的冷啟動問題, 同時考 慮了用戶之間的偏好關系, 從而構建一個更好的推薦模型.
近年來, 隨著深度學習在計算機視覺、語音識別和自然語言處理等領域的快速發展, 深度學習也成 為推薦系統領域的一項重要技術. 與傳統的推薦算法相比, 基于深度學習的推薦算法表達能力更強, 能 夠更好地挖掘數據的潛在特征, 獲取深層次的用戶和物品的特征描述. 基于深度學習的推薦算法主要 利用一些深度學習技術, 如: 自編碼器[12]、受限玻爾茲曼機 (restricted Boltzmann machine, RBM)[13]、 卷積神經網絡 (convolutional neural network, CNN) [14] 和循環神經網絡 (recurrent neural network, RNN)[15] 等, 來構建推薦模型. AutoRec [12] 是較為簡單的基于深度學習的推薦算法, 其將自編碼器技 術應用到協同過濾中, 輸入是某個用戶對所有物品的評分構成的向量或所有用戶對某個物品的評分構 成的向量, 通過一個包含單隱層的神經網絡, 讓輸出向量盡可能逼近輸入向量, 從而預測輸入向量中的 缺失值, 進而實現對物品的排序和推薦. 但是 AutoRec [12] 沒有很好地解決特征交叉問題, 模型的表達 能力有一定的局限. Deep crossing [16] 設計了包含 embedding 層、stacking 層、multiple residual units 層和 scoring 層的網絡結構, 通過多層殘差網絡對特征向量進行多次特征交叉, 從而捕捉更多非線性 的特征信息. NCF (neural collaborative filtering)[17] 使用多層神經網絡來代替矩陣分解中的內積操作, 使得用戶特征向量和物品特征向量之間的交互更加豐富, 從而提高模型的表達能力. Wide&Deep [18] 和 Deep&Cross [19] 等通過組合不同特性的神經網絡來提高模型的綜合能力. DIN (deep interest network) [20] 等將注意力機制與基于深度學習的推薦算法結合, 使得模型能更好地捕捉用戶的興趣點. BERT4Rec [21] 將基于 Transformer 的雙向編碼器表征應用在序列推薦中, 用于捕捉用戶行為序列上 下文的關系, 以此來預測用戶可能會喜歡的下一物品. NGCF (neural graph collaborative filtering) [22] 將 (用戶, 物品) 表示為二部圖, 將圖神經網絡 (graph neural network, GNN) 應用到協同過濾算法中, 并對 (用戶, 物品) 的高階交互歷史行為進行建模.
上述推薦算法是基于集中式架構設計的, 其中客戶端 (即用戶) 僅充當數據產生者和數據傳輸者 的角色, 而數據處理和模型構建的過程由服務端來實現. 由于客戶端需要將用戶的原始數據上傳到服 務端, 因此存在用戶隱私泄露的風險. 同時, 為了充分利用數據的價值, 挖掘更高維的潛在特征, 服務 端構建的推薦模型越來越復雜. 此外, 當用戶數據增長到一定的數量級, 傳統的集中式推薦系統通常 難以滿足越來越高的存儲成本和計算成本的要求. 分布式推薦系統將用戶數據或模型參數分布在各個 數據節點或者計算節點中, 通過使用分布式計算和并行計算等技術來加快模型的訓練, 從而支持更大 規模的數據的處理和更復雜的推薦模型的構建 [23] . 需要說明的是, 隱私保護不是設計分布式推薦系 統時首要關注的問題, 因而服務端通常可以收集各個節點的原始數據和模型參數.
在推薦系統的應用場景中, 可以將原始數據劃分為用戶個人信息、物品屬性信息和用戶與物品之 間的交互信息. 對用戶而言, 隱私信息包括用戶的個人信息 (例如, 性別、年齡和地理位置等)、用戶對 物品的顯式反饋 (例如, 用戶對物品的評分等) 和用戶對物品的隱式反饋 (例如, 用戶對物品的點擊、 收藏和購買等) 等. 一般認為, 同一組織內部的物品屬性信息是共享的, 不屬于用戶的個人隱私. 而對 不同組織, 物品屬性信息以及模型參數可能涉及公司的商業機密, 因此通常不能直接與其他組織共享.
2.2 聯邦學習概述
聯邦學習本質上是一種既聯合多方又不共享各方原始數據的分布式學習框架, 在保護各個參與方數據中的隱私的前提下, 聯合各個參與方共同訓練, 得到一個共享的模型 [24] . 需要說明的是, 與傳統 的分布式學習框架相比, 聯邦學習中的各個參與方通常對自己的數據具有絕對的控制權. 因此, 服務 端在訓練過程中需要滿足各個參與方不同程度的隱私保護的要求. 聯邦學習可按模型的架構、模型的 聯邦化、模型的優化和隱私保護技術的應用 4 個角度進行分類, 見表 1 [1~3, 25~54] . 其中, 模型的架構 取決于不同的部署環境, 不同的架構在對模型進行聯邦化時需要設計不同的訓練流程. 對不同模型的 聯邦化的研究是聯邦學習的研究重點, 而隱私保護技術是在模型聯邦化過程中需要使用的重要技術手 段. 對于聯邦化后的模型, 考慮到不同的業務需求, 例如, 提高通信效率和模型性能等, 可以設計不同的模型優化策略.
2.2.1 模型的架構
通常, 在聯邦學習中使用的架構可以分為客戶端 – 服務端架構和去中心化架構. 如圖 1 所示, 對 于客戶端 – 服務端架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 并將模型參數發送給 各個客戶端; (2) 客戶端利用本地數據以及從服務端接收到的最新的模型參數進行訓練, 并將中間參 數發送給服務端; (3) 服務端聚合中間參數, 更新全局模型, 再把模型回傳給客戶端; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 對于去中心化架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 然后 將模型參數發送給各個客戶端; (2) 客戶端利用本地數據進行模型訓練并更新本地的模型參數; (3) 客戶端選取一些其他客戶端, 發送本地的中間參數, 同時接收其他客戶端的中間參數, 并更新本地的模 型; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 需要說明的是, 不同組織之間的聯邦應用場景, 例如, 縱向 聯邦學習和聯邦遷移學習, 可以看作特殊的去中心化架構. 在這些場景中, 若引入第三方服務器, 則又 可視為特殊的客戶端 – 服務端架構.
客戶端 – 服務端架構能夠利用服務端的計算資源, 減少客戶端的計算壓力, 但容易發生單點故障. 同時, 對于好奇的服務端, 其可能根據客戶端上傳的中間參數推斷客戶端的隱私信息, 從而泄露客戶 端的隱私. 相比客戶端 – 服務端架構, 去中心化架構不使用服務端或者服務端僅提供初始化模型參數 和協助客戶端之間通信的功能, 而不對模型進行更新. 去中心化架構的主要優勢包括以下 3 個方面. (1) 匿名性 [55] . 在模型訓練過程中, 客戶端能以匿名的方式發送中間參數給其他客戶端, 從而解決客 戶端之間的隱私泄露問題. (2) 節省服務端的資源. 服務端僅需初始化模型參數, 將模型參數分發給各 個客戶端, 不需要參與模型的更新. (3) 高可用性. 不存在單點故障, 即不會因為服務端的某一個部件 出錯而導致整個聯邦學習系統中止訓練. 客戶端 – 服務端架構和去中心化架構的相同之處在于客戶端的原始數據不離開本地, 通過服務端 與客戶端之間的通信或客戶端與客戶端之間的通信, 以發送中間參數的訓練方式來得到一個共享的模 型. 在實際應用中, 考慮到不同模型的優化需求, 使用這兩種架構時的訓練流程會有所不同, 例如, 為 了減少通信成本, 一些基于客戶端 – 服務端架構的聯邦學習算法會采用在客戶端多次訓練后再將中間 參數上傳給服務端的訓練方式 [3, 36, 37, 56] . 我們將在 2.2.3 小節關于模型的優化中, 介紹一些對訓練流 程進行改進的方法.
**2.3 聯邦推薦系統概述 **
隨著聯邦學習在各個領域的應用, 對基于聯邦學習的推薦系統的研究也受到了關注. 推薦系統通 常需要通過用戶的歷史行為來學習用戶的偏好. 此外, 為了訓練得到更好的推薦模型, 通常還會結合用 戶的個人信息等數據. 用戶的歷史行為數據包括用戶對物品的評分等顯式反饋, 用戶對物品的點擊、 收藏和購買等隱式反饋, 以及用戶在物品上的瀏覽時間等其他信息. 用戶的個人信息包括用戶的性別、 年齡、社交關系和地理位置等信息. 對用戶而言, 這些都屬于較為敏感的隱私數據, 用戶通常不愿意提 供給服務端. 除此之外, 不同組織之間的數據和模型可能涉及商業機密, 通常也不能直接共享, 進而導 致組織之間的數據孤島問題. 聯邦學習和推薦系統的結合旨在保護用戶隱私和商業機密的前提下, 為 用戶提供精準的個性化服務.
聯邦推薦系統是聯邦學習領域的一個重要應用場景, 在這個場景中, 一個客戶端可以是一個用戶 或一個組織, 客戶端需在不共享數據的前提下聯合建模. 與聯邦學習的分類類似, 我們將從架構設計、 系統的聯邦化和隱私保護技術的應用 3 個角度, 論述基于聯邦學習的推薦系統的研究進展. 我們在圖 2 中展示了上述的 3 個研究角度. 需要說明的是, 對于模型的優化, 由于目前在聯邦推薦系統方面的相 關工作較少, 我們將在第 6 節的展望部分進行討論.
推薦模型的聯邦化具有一定的共性, 一個聯邦推薦模型的訓練框架通常適用于具有相同訓練方式 的其他模型. 然而考慮到不同場景中的隱私保護級別可能不同以及不同模型參數可能帶來的不同隱私 問題, 不同推薦模型在聯邦化的過程中存在一定的差異. 對于模型的聯邦化, 可以劃分為基于協同過濾的推薦算法的聯邦化、基于深度學習的推薦算法的聯邦化和基于元學習的推薦算法的聯邦化 3 個類別. 表 2 [6, 7, 35, 69, 71~86] 展示了一些推薦模型的聯邦化的例子及其特點.
**最近, 十三屆全國人大常委會第二十九次會議通過了《中華人民共和國數據安全法》[114] , 對企業 收集和使用公民個人信息等問題作出規制. 聯邦學習通過不上傳原始數據的學習范式, 結合多種隱私 計算技術, 能在相關法律法規的要求下發揮數據的價值, 因此在推薦系統的應用中受到了學術界和工 業界越來越多的關注. 然而, 目前聯邦學習在推薦系統中的應用仍處于起步階段, 在未來有很多值得 嘗試和探索的研究方向. 以下總結了 3 個值得探索的研究方向.
4.1 推薦系統的聯邦化
在對傳統的推薦模型進行聯邦化方面, 目前已有不少的研究工作, 雖然它們都將原始數據保存在 客戶端本地, 但仍存在其他的隱私問題. 例如, 一些工作[6, 71] 泄露了用戶的評分行為, 即用戶評過哪些 物品. 以 FederatedMF [71] 為例, 服務端只要對比更新前后的物品特征向量, 就可以知道哪些物品的特 征向量被更新過, 從而知道上傳該特征向量的用戶對哪些物品評過分. 再者, 一些工作 [7, 69] 直接上傳 物品特征向量的梯度給服務端, Chai 等 [6] 證明了連續兩次上傳同一個物品的梯度給服務端時, 服務 端能夠反推出用戶對物品的評分. 此外, 為了獲取更豐富的信息, 以 SVD++ [88] , MF-MPC [115] 等算 法為例, 他們使用了一些和評分值相關的模型參數. 例如, 在 MF-MPC 中, 不同的評分值 r 都有一個 對應的模型參數 Mr i· . 當用戶 u 更新物品 i 的 Mr i· 時, 會直接暴露用戶 u 對物品 i 的評分值. 雖然目 前已有相關的研究, 使用如同態加密 [6, 74, 94]、虛假采樣 [69, 73, 116]、差分隱私 [89] 和秘密共享 [72, 74] 等 技術, 能較好地解決這些隱私問題, 但這些技術會帶來如通信成本增加、計算復雜度增大和推薦性能 下降等新的問題. 此外, 一些經典的推薦算法 (例如, PMF [65] 和 BPR [68] 等) 以 SGD 作為優化方法 時, 其每次只采樣一個 (用戶, 物品) 對, 然后計算用戶特征向量的梯度和物品特征向量的梯度, 并用 于更新對應的用戶特征向量和物品特征向量. 在聯邦學習范式中, 以分布式學習的方式進行模型訓練 時, 每次只采樣一個 (用戶, 物品) 對的訓練方式會導致算法的訓練效率較低. 一個提高效率的訓練方 式是讓客戶端并行地進行模型訓練 [97] , 再對上傳的物品特征向量的梯度進行平均, 然而這樣的做法與 非聯邦版本的對應算法相比, 得到的效果往往會有所下降. 在對推薦模型進行聯邦化時, 如何在訓練 方式與非聯邦版本等價的同時, 保證算法的訓練效率, 也是聯邦推薦值得關注的一個問題. 目前對于基于深度學習的推薦算法的聯邦化的研究相對較少. 主要挑戰在于, 客戶端的存儲資源 和計算能力通常無法與龐大的神經網絡相匹配, 并且客戶端自身的數據量有限, 難以訓練出較好的深 度學習模型. DeepRec [83] 采用模型參數較少的 RNN 作為主干模型, 然而對于更大規模的神經網絡, 客戶端的存儲資源會比較受限. Niu 等[80] 使用隨機響應技術, 使得客戶端能以子模型的方式來下載和 上傳模型. 然而這種方式僅支持物品的特征向量能按行表示的模型, 模型的通用性有一定的限制. 將 模型參數和計算過程交給邊緣設備的邊緣計算 [117] , 以及從學習能力強的教師模型中提煉出參數較少 的學生模型的知識蒸餾 [118] , 是兩個解決客戶端資源受限的研究思路. 除此之外, 目前還沒有公開發表的面向序列反饋和異構反饋建模的聯邦推薦方法. 在保護隱私 的前提下, 運用序列信息和多行為等數據, 構建一個性能更好的聯邦推薦模型, 也是一個值得研究的 問題.
**4.2 聯邦推薦系統的優化 **
在 2.2.3 小節中介紹了 4 種適用于聯邦學習的優化方法, 即模型壓縮、通信策略的改進、激勵機制 和客戶端采樣. 這些優化方法如何在聯邦推薦模型中應用, 以及如何為特定的推薦模型設計更有效的 優化算法, 值得深入研究. 現有的部分研究工作或能給予一定的啟發. 如 Yang 等 [119] 提出的 FCMF (federated collective matrix factorization), 針對縱向聯邦推薦問題, 設計了一個有效的通信策略: 輔助 方先充分訓練好物品特征矩陣, 加密后發送給目標方. 在目標方訓練過程中, 只有少數的中間參數需 要回傳給輔助方解密. Minto 等 [120] 發現在 FCF 框架中對物品特征向量的梯度使用本地差分隱私技 術進行處理時, 訓練得到的模型性能較差. 因此, 對于每一個要上傳給服務端的梯度, 他們僅對其隨機 的某一維度添加噪聲, 在滿足差分隱私的條件下, 提高了模型的性能.
**4.3 聯邦推薦場景中的隱私安全問題 **
在較早的研究工作中, 原始數據和能表征用戶偏好的模型參數被視為用戶的隱私. 因此, 在保留 原始數據和用戶特征向量的情況下, FCF [7] 上傳物品特征向量的梯度, 用于構建全局的物品特征矩 陣. 在文獻 [6] 中, 研究人員證明了物品特征向量的梯度會泄露用戶的評分信息. 為了解決這個問題, SharedMF[72] 使用秘密共享技術, FedMF[6] 使用同態加密技術. 然而, 在訓練過程中, 僅有與用戶交互 過的物品需要上傳梯度, 因而在上傳某個物品特征向量的梯度時, 在保護了梯度信息的情況下, 通過分 析物品特征向量的 ID, 仍能推導出用戶的評分行為. 因此在已有的研究工作中, FPL [73] 和 FedRec [69] 采用虛假采樣的方式, 混淆評過分的物品. 此外, 在最近的研究工作中, DeepRec [83] 認為, 一些商業數 據的收集并不違反 GDPR 等法律法規 [1] . 例如, 用戶購買一個商品時, 需要在付款后將購買行為告知 服務端, 否則該訂單無法完成. 因此, 這些必要的商業數據能夠被服務端收集, 而其他隱私數據, 例如 在完成訂單前對商品的點擊、瀏覽等行為, 以及在完成訂單后對商品的評分、評論等行為, 則不能直接 被服務端收集. 未來如何衡量聯邦場景中的隱私安全問題, 并對已有工作中存在的隱私問題, 設計一 個更為有效的解決方法, 是一個非常有價值的研究問題. 除此之外, 大部分聯邦場景都假設服務端和客戶端是誠實且好奇的. 未來的研究工作可假設更復 雜的真實環境, 即可能存在惡意的客戶端和服務端, 或者存在一些數據質量較低的客戶端. 在這種環 境下, 在一個聯邦推薦模型中設計一個能辨別數據源的可靠性的算法, 是一個值得研究的問題. 例如, 服務端可對上傳的模型參數質量進行評估 [121] , 從而篩選出惡意的或低質量的模型參數, 也可以通過 將主成分分析技術 (principal component analysis, PCA) 和數據復雜度相結合 [122] , 使用檢測托攻擊算 法來解決客戶端偽造虛假評分, 還可以通過客戶端之間梯度的差異來檢測惡意的客戶端[123] . 此外, 在 去中心化的架構中通常采用匿名的方式傳遞參數, 這給惡意的客戶端提供了攻擊的機會. 例如, 攻擊 者很容易通過匿名的方式, 將精心制作的參數傳遞給其他客戶端, 以操控訓練數據分布 [124] . 因此, 客 戶端如何運用模型投毒防御 [124] 和對抗攻擊防御 [125] 等防御手段來保護自己模型的安全性和有效性, 也是一個值得研究的問題
聯邦學習由于能夠在多方數據源聚合的場景下協同訓練全局最優模型,近年來迅速成為安全機器學習領域的研究熱點。首先,歸納了聯邦學習定義、算法原理和分類;接著,深入分析了其面臨的主要威脅與挑戰;然后,重點對通信效率、隱私安全、信任與激勵機制3個方向的典型研究方案對比分析,指出其優缺點;最后,結合邊緣計算、區塊鏈、5G等新興技術對聯邦學習的應用前景及研究熱點進行展望。
//www.infocomm-journal.com/cjnis/EN/10.11959/j.issn.2096-109x.2021056
摘要
通信技術和醫療物聯網的最新進展改變了由人工智能(AI)實現的智能醫療。傳統上,人工智能技術需要集中的數據收集和處理,但由于現代醫療網絡的高度可擴展性和日益增長的數據隱私問題,這在現實的醫療場景中可能不可行。聯邦學習(FL)是一種新興的分布式協同人工智能范式,通過協調多個客戶(如醫院)在不共享原始數據的情況下進行人工智能訓練,對智能醫療保健特別有吸引力。因此,我們提供了一個關于FL在智能醫療中的使用的全面綜述。首先,我們介紹了FL的最新進展、在智能醫療中使用FL的動機和要求。最近FL設計智能醫療然后討論,從resource-aware FL,安全和privacy-aware FL激勵FL和個性化FL。隨后,我們提供在關鍵的新興應用FL醫療領域的綜述,包括健康數據管理、遠程健康監測,醫學成像,和COVID-19檢測。本文分析了最近幾個基于FL的智能醫療項目,并強調了從綜述中得到的關鍵教訓。最后,我們討論了有趣的研究挑戰和未來FL研究在智能醫療可能的方向。
引言
醫療物聯網(IoMT)的革命改變了醫療保健行業,改善了人類的生活質量。在智能醫療環境中,IoMT設備(如可穿戴傳感器)被廣泛用于收集醫療數據,用于人工智能(AI)[2]啟用的智能數據分析,以實現大量令人興奮的智能醫療應用,如遠程健康監測和疾病預測。例如,人工智能技術,如深度學習(DL)已證明其在生物醫學圖像分析方面的巨大潛力,可通過處理大量健康數據來促進醫療服務[3]的提供,從而有助于慢性病的早期檢測。
傳統上,智能醫療系統通常依賴于位于云或數據中心的集中AI功能來學習和分析健康數據。隨著現代醫療網絡中健康數據量的增加和IoMT設備的增長,由于原始數據傳輸的原因,這種集中式解決方案在通信延遲方面效率不高,無法實現很高的網絡可擴展性。此外,依賴這樣的中央服務器或第三方進行數據學習引起了關鍵的隱私問題,例如,用戶信息泄露和數據泄露[4]。在電子醫療保健領域尤其如此,在電子醫療保健領域,與健康有關的信息高度敏感,屬于私人信息,受《美國健康保險便攜性和問責法》(HIPPA)[5]等衛生法規的約束。此外,在未來的醫療系統中,這種集中式AI架構可能不再適用,因為健康數據不是集中放置的,而是分布在大規模的IoMT網絡上。因此,迫切需要采用分布式AI方法,在網絡邊緣實現可擴展和保護隱私的智能醫療保健應用程序。
在這種背景下,聯邦學習(FL)已經成為一種很有前途的解決方案,可以實現具有成本效益的智能醫療應用程序,并改善隱私保護[6-9]。從概念上講,FL是一種分布式人工智能方法,通過平均從多個健康數據客戶(如IoMT設備)匯總的本地更新,而不需要直接訪問本地數據[10],從而能夠訓練高質量的人工智能模型。這可能防止泄露敏感用戶信息和用戶偏好,從而降低隱私泄露風險。此外,由于FL吸引了來自多個衛生數據客戶的大量計算和數據集資源來訓練人工智能模型,衛生數據訓練質量(如準確性)將得到顯著提高,而使用數據較少和計算能力有限的集中式人工智能方法可能無法實現這一目標。
目前還沒有針對FL在智能醫療中的應用進行全面綜述的工作。此外,在開放文獻中仍然缺少在新興醫療保健應用中使用FL的整體分類。這些限制促使我們對FL在智能醫療中的集成進行廣泛的綜述。特別地,我們首先確定了在智能醫療中使用FL的關鍵動機并強調了其需求。然后,我們發現了用于智能醫療的最新先進FL設計。隨后,我們提供了關于FL在智能醫療領域新興應用的最新調研,如電子健康記錄(EHR)管理、遠程健康監測、醫學成像和COVID-19檢測。本文還總結了調研所得的經驗教訓,供讀者參考。本文總結貢獻如下:
(1) 我們介紹了在智能醫療中使用FL的最新調研,首先介紹了FL的概念,并討論了使用FL智能醫療的動機和技術要求。
(2) 我們介紹了最近先進的FL設計,這些設計將有助于聯合智能醫療應用,包括資源感知的FL、安全和隱私增強的FL、激勵感知的FL和個性化的FL。
(3) 我們通過廣泛的關鍵領域提供了關于FL在智能醫療中的關鍵應用的最新綜述。即聯邦EHRs管理、聯邦遠程健康監視、聯邦醫學成像和聯邦COVID-19檢測。本文提供了與FL醫療保健用例相關的正在出現的實際項目,并強調了從調研中吸取的關鍵教訓。
(4) 最后,我們強調了FL-smart 醫療的有趣挑戰并討論了未來的發展方向。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。