亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

隨著數據孤島現象的出現和個人隱私保護的重視,集中學習的應用模式受到制約,而聯邦學習作為一個分布式機器學習框架,可以在不泄露用戶數據的前提下完成模型訓練,從誕生之初就備受關注.伴隨著聯邦學習應用的推廣,其安全性和隱私保護能力也開始受到質疑.本文對近年來國內外學者在聯邦學習模型安全與隱私的研究成果進行了系統總結與分析.首先,介紹聯邦學習的背景知識,明確其定義和工作流程,并分析存在的脆弱點.其次,分別對聯邦學習存在的安全威脅和隱私風險進行系統分析和對比,并歸納總結現有的防護手段.最后,展望未來的研究挑戰和方向.

近年來機器學習(machine learning)技術蓬勃發展,在社會工作生活各個領域中得到廣泛應用,如人臉識別、 智慧醫療和自動駕駛等,并取得巨大的成功.機器學習的目標是從大量數據中學習到一個模型,訓練后的模型可 以對新的未知數據預測結果,因此模型的性能與訓練數據的數量和質量密切相關.傳統的機器學習應用基本都 采取集中學習[1]的模式,即由服務提供商集中收集用戶數據,在服務器或數據中心訓練好模型后,將模型開放給 用戶使用.但是,目前存在兩大要素制約了集中學習的進一步推廣:

**(1) 數據孤島 **

隨著信息化、智能化進程的發展,各個企業或同一企業的各個部門都存儲了大量的應用數據,但是數據的定義和組織方式都不盡相同,形成一座座相互獨立且無法關聯的“孤島”,影響數據的流通和應用.數據集成整合 的難度和成本嚴重限制了集中學習的推廣應用.

**(2) 個人隱私保護的重視 **

近年來,個人數據泄露的事件層出不層,如 2018 年 Facebook 數據泄露事件等.這些事件引起了國家和公眾 對于個人隱私保護的關注.各個國家都開始出臺數據隱私保護相關的法律法規,如歐盟 2018 年 5 月 25 日出臺 的《通用數據保護條例》(General Data Protection Regulation,簡稱 GDPR) [2],以及中國 2017 年實施的《中華人 民共和國網絡安全法》等.這些法律法規要求公司企業必須在用戶同意的前提下才可以收集個人數據,且需要 防止用戶數據泄露.此外,個人隱私保護意識的興起也導致用戶不愿輕易共享自己的隱私數據.嚴格的法律法規 和個人隱私保護意識導致訓練數據的收集愈發困難,為集中學習提出了巨大的挑戰. 為應對上述兩個問題,聯邦學習(federated learning)應運而生.聯邦學習,又名聯盟學習或聯合學習,是一種 由多個客戶端和一個聚合服務器參與的分布式機器學習架構.客戶端既可以是個人的終端設備(如手機等),也 可以代表不同的部門或企業,它負責保存用戶的個人數據或組織的私有數據.客戶端在本地訓練模型,并將訓練 后的模型參數發送給聚合服務器.聚合服務器負責聚合部分或所有客戶端的模型參數,將聚合后的模型同步到 客戶端開始新一輪的訓練.這種聯合協作訓練的方式可以在保證模型性能的前提下,避免個人數據的泄露,并有 效解決數據孤島的問題. 聯邦學習自 2016 年谷歌[3]提出后便引起學術界和工業界的強烈關注,并涌現出許多實際應用,如谷歌最初 將其應用在安卓手機上的 Gboard APP(the Google Keyboard,谷歌鍵盤輸入系統),用于預測用戶后續要輸入的內 容(如圖 1 所示) [4].用戶手機從服務器下載預測模型,基于本地用戶數據進行訓練微調,并上傳微調后的模型參 數,不斷優化服務器的全局模型.此外,聯邦學習也被廣泛應用于工業[5,6]、醫療[7–11]和物聯網[12]等領域.

隨著聯邦學習的發展應用,其安全性與隱私性逐漸引起學術界的關注.與集中學習相比,聯邦學習的模型參 數共享和多方通信協作機制引入了新的攻擊面.近年來,許多學者對聯邦學習的安全威脅進行深入研究,提出一 系列攻擊手段和防護方案.除安全性外,學者也發現聯邦學習存在諸如成員推斷攻擊等隱性泄露的風險.這些將 嚴重影響聯邦學習的實際部署應用,因此本文對目前聯邦學習模型的安全與隱私研究工作進行系統地整理和 科學地歸納總結,分析聯邦學習面臨的安全隱私風險及挑戰,為后續學者進行相關研究時提供指導.

本文第 1 節主要介紹聯邦學習的背景知識,明確其定義和工作流程,并分析其存在的脆弱點.第 2 節對聯邦 學習存在的安全威脅進行系統地整理和分析,歸納現有的防護方法,并對集中學習和聯邦學習在安全問題上的 共性與差異進行分析.第 3 節總結聯邦學習的隱私風險以及隱私保護方面的研究進展,討論集中學習和聯邦學 習在隱私風險的差異.第 4 節展望未來的研究方向,提出聯邦學習安全和隱私領域亟待解決的重要問題.第 5 節 總結全文.

1. 聯邦學習背景知識

聯邦學習是一種分布式的機器學習框架,最早是由谷歌的 McMahan 等人提出并落地應用[3].他們在不泄露 用戶個人數據的前提下,利用分布在不同手機的數據集訓練統一的機器學習模型.以楊強教授為首的微眾銀行 團隊對谷歌提出的聯邦學習概念進行擴展,將其推廣成所有隱私保護的協作機器學習技術的一般概念,以涵蓋 組織間不同的協作學習場景[13]。圖 2 為聯邦學習系統的典型架構,架構中包含兩類角色:多個參與方(也稱客戶或用戶)和一個聚合服務器. 每個參與方擁有完整數據特征的數據集,且數據樣本之間沒有交集或交集很小.它們可以聯合起來訓練一個統一且性能更好的全局模型,具體的訓練過程如下:

(1) 模型初始化:聚合服務器選定目標模型的結構和超參數,并初始化模型的權重(基于自身擁有的數據 Dserver 進行訓練或隨機初始化),生成初始的全局模型; (2) 模型廣播:通過聚合服務器廣播或參與方主動下載的方式,聚合服務器將當前全局模型的權重共享給 所有參與方; (3) 參與方訓練:參與方基于共享的全局模型,利用本地保存的私有數據訓練微調本地模型,并計算本地模 型的權重更新; (4) 模型聚合:聚合服務器從參與方收集模型的權重更新,根據業務需求采用不同的算法進行聚合.常見的 聚合算法包括 FedAvg[3]、Krum[14]、Trimmed mean[15]和 Median[15]等.在這過程中為了提高效率,聚合服務器可 以選擇只收集部分參與方的模型更新進行聚合; (5) 更新全局模型:聚合服務器基于計算的聚合結果更新全局模型的參數. 上述(2)~(5)步驟將會持續迭代進行,直至全局模型收斂或者達到最大迭代次數或超過最長訓練時間. **2 安全威脅與防護 **

在集中學習的發展過程中,許多學者對其安全性進行深入研究,發現其中存在的安全威脅,如訓練階段的投 毒攻擊(poisoning attack) [19]和推理階段的對抗樣本攻擊(adversarial examples attack)等[20].聯邦學習的推理階段 與集中學習一致,因此也會面臨對抗樣本攻擊.而在訓練階段,聯邦學習采用分布式計算的方法,為整個系統的 安全性研究引入了新的問題與挑戰.本文主要總結面向聯邦學習的安全威脅與防護方法,與集中學習相關的安 全研究不在本文的討論范圍內.

本文以聯邦學習面臨的安全攻擊的發生邏輯和順序對目前主要研究的攻擊手段進行分類(如圖 3 所示),具 體可分為數據投毒攻擊[21–23]、模型投毒攻擊[24–29]、后門攻擊[25,30–34]和惡意服務器.注意,圖 3 的推理階段在實 際應用中還存在對抗樣本等攻擊手段,這部分不在本文的討論范圍內.

3 隱私風險與保護

根據機器學習隱私保護的內容,可將機器學習隱私分為訓練數據隱私、模型隱私與預測結果隱私[108].對于 模型隱私,因為聯邦學習需要參與方在本地訓練模型,模型算法、神經網絡結構和參數等模型信息對參與方都 是可見的,所以聯邦學習通常不考慮模型隱私泄露的風險.而對于預測結果隱私,集中學習和聯邦學習面臨的攻 擊手段和防護方法是一致的,不在本文的討論范圍內.因此本文對于隱私風險的總結和分析主要是針對訓練數 據隱私,下文如無特殊說明,隱私均指代訓練數據隱私.

雖然聯邦學習通過參與方和服務器交換模型參數的方式保護了參與方的本地數據,但是學者研究發現交 換的模型梯度也可能泄露訓練數據的隱私信息[109,110].對于集中學習,模型倒推(model inversion)攻擊可以從模 型中反推訓練數據的屬性值[111],這同樣也適用于聯邦學習的全局模型.而聯邦學習的訓練機制也為隱私引入了 新的風險: (1) 聯邦學習的模型信息對攻擊者是可見的,攻擊者可以實施白盒隱私攻擊. (2) 聯邦學習的訓練包含多輪迭代,攻擊者可以利用模型在迭代過程的變化挖掘更多的數據信息. (3) 攻擊者可以通過參與方或服務器干擾模型訓練過程,修改模型參數,使正常參與方在后續迭代中暴露 更多本地數據信息. 因此許多學者專門針對聯邦學習存在的隱私風險與保護方法進行研究.本文以聯邦學習面臨的隱私攻擊 的發生邏輯和順序對目前主要研究的攻擊手段進行分類(如圖 5 所示),具體分為成員推斷攻擊[112–115]、屬性推 斷攻擊[16,112,116–122]和竊聽.根據攻擊者角色的不同,隱私攻擊發生在聯邦學習的不同階段,如服務器是在模型聚 合階段發動隱私攻擊.注意,在圖 5 的推理階段可以實施集中學習的隱私攻擊手段,這部分不在本文討論范圍內.

目前針對聯邦學習的隱私攻擊方法及其威脅模型如表 5 所示.另外,表 5 還總結每種攻擊驗證時 使用的數據集,包括圖像領域的 CIFAR-100[40]、CIFAR-10[40]、MNIST[41]、AT&T[43]、LFW[125]、FaceScrub[126]、 PIPA[127]、BERT[128]、SVHN[129]、ImageNet[130]、CASIS-WebFace[131]和 CelebA[132],文本領域的 Yelp-health[133] 和 Yelp-author[133],以及其它領域的 Purchase[52]、FourSquare[134]、Texas100[135]和 CSI[136].

4 未來展望

雖然聯邦學習模型的安全與隱私研究已經取得許多研究成果,但是目前還處于初期探索階段,尚有諸多問 題亟待解決,其中有以下三個重要問題值得深入研究:

**(1) 成本低和隱蔽性強的聯邦學習投毒攻擊與防護 **

目前聯邦學習安全攻擊的研究主要集中在模型投毒攻擊,攻擊者通過構造惡意的模型更新破壞全局模型, 許多學者在此之上進行攻防博弈.然而,模型投毒要求攻擊者完全控制單個或多個參與方,隨著聯邦學習部署應 用的延伸,逐漸減少的脆弱參與方將限制模型投毒的應用.與之相比,數據投毒對攻擊者能力要求低,具有更廣 泛的實施場景,且在大規模訓練數據集中更不易被發現.然而,目前對數據投毒的研究還比較淺顯,只停留在簡 單驗證攻擊可行性的階段.數據投毒需要經過模型本地訓練階段,其產生的惡意更新與正常更新有一定的相似 性,是否可以生成惡意訓練數據模糊惡意更新與正常更新,以繞過現有異常檢測聚合算法的防御?是否可以通過 構造惡意數據生成目標模型更新,從而利用現有模型投毒的研究成果實施更加隱蔽的攻擊?如何防止數據投毒 的攻擊效果被模型聚合削弱?這些問題都亟待后續深入研究.加強對聯邦學習數據投毒的研究,可以對聯邦學習 的安全性有更加深刻的認識,進而推動聯邦學習安全防護方法的探索,為聯邦學習的推廣應用保駕護航.

**(2) 參與方退出聯邦學習時的隱私保護 **

在 GDPR 等隱私保護的法律法規中明確規定個人對其隱私數據享有刪除權和被遺忘權,即個人有權要求 數據控制者刪除其個人信息,且數據控制者需采取必要的措施,負責消除已經擴散出去的個人數據[2].在聯邦學 習應用中,當個體參與方退出聯邦學習系統時,服務器需要按照法律規定刪除參與方的個人信息.從隱私攻擊方 法的總結可以發現參與方的本地數據會在模型參數留下痕跡 , 因此服務器需要從模型參數中 “ 忘 卻”(unlearning)參與方的本地數據.集中學習也面臨著相同的隱私保護問題,Bourtoule 等人[178]提出通過排除目 標數據重新訓練模型解決,但在聯邦學習中模型參數已經通過多輪迭代擴散到其它參與方,清除其它參與方本 地模型的隱私痕跡變得非常困難.因此,需要研究改進聯邦學習的機制,確保可以刪除和遺忘退出參與方的隱私 信息.另外還需要考慮可證明性,即服務器可以向參與方證明其個人信息及擴散的數據都已經清除.

**(3) 安全和隱私并重的聯邦學習系統 **

目前對于聯邦學習安全和隱私的研究都是側重單個方面,但在實際應用中安全威脅和隱私風險是同時存 在的,且無法通過簡單疊加現有的安全防護手段和隱私保護方法進行防御,例如差分隱私添加的噪聲可能干擾 安全聚合算法的檢測,同態加密的密文可能屏蔽模型更新的差異使安全聚合算法失效.因此需要綜合考慮聯邦 學習的安全和隱私問題,研究安全與隱私并重的聯邦學習系統.文獻[60,99,179]對此進行了初步的探索,但是只 涵蓋部分安全威脅和隱私風險,還有待更加全面的研究.

**5 結束語 **

隨著聯邦學習的快速發展和廣泛應用,聯邦學習模型的安全和隱私問題吸引了許多學者的興趣和關注,產 生了不少矚目的研究成果,但目前相關的研究還處于初級階段,尚有許多關鍵問題亟待解決.本文在充分調研和深入分析的基礎上,對聯邦學習在安全和隱私領域最新的研究成果進行綜述,系統總結了聯邦學習存在的安全 和隱私攻擊,并對現有的防護方法進行科學地分類和分析.同時,本文也指出了當前聯邦學習在安全和隱私領域 尚未解決的問題,并探討未來的研究方向.

付費5元查看完整內容

相關內容

聯邦學習(Federated Learning)是一種新興的人工智能基礎技術,在 2016 年由谷歌最先提出,原本用于解決安卓手機終端用戶在本地更新模型的問題,其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。其中,聯邦學習可使用的機器學習算法不局限于神經網絡,還包括隨機森林等重要算法。聯邦學習有望成為下一代人工智能協同算法和協作網絡的基礎。

聯邦學習用于解決數據共享與隱私安全之間的矛盾,旨在通過安全地交互不可逆的信息(如模型參數或梯度更新)來 構建一個聯邦模型.然而,聯邦學習在模型的本地訓練、信息交互、參數傳遞等過程中依然存在惡意攻擊和隱私泄漏的風險,這 給聯邦學習的實際應用帶來了重大挑戰.文中針對聯邦學習在建模和部署過程中存在的攻擊行為及相應的防御策略進行了詳 細調研.首先,簡要介紹了聯邦學習的基本流程和相關攻防知識;接著,從機密性、可用性和正直性3個角度對聯邦學習訓練和 部署中的攻擊行為進 行 了 分 類,并 梳 理 了 相 關 的 隱 私 竊 取 和 惡 意 攻 擊 的 最 新 研 究;然 后,從 防 御 誠 實 但 好 奇 (honestGbutG curious)攻擊者和惡意攻擊者兩個方向對防御方法進行了劃分,并分析了不同策略的防御能力;最后,總結了防御方法在聯邦學 習實踐中存在的問題及可能導致的攻擊風險,并探討了聯邦系統的防御策略在未來的發展方向.

大數據和人工智能的快速發展促進了傳統產業的變革升 級.以數據驅動的人工智能模型(如深度學習)在計算機視 覺、語音識別、自然語言理解等領域取得了巨大成功,但在海 量數據的準備過程中,往往需要將各個數據源的數據匯聚到 一個中心 的 數 據 倉 庫 中.然 而,不 斷 出 現 的 數 據 泄 漏 事 件 使得人們開始懷疑中心化收集數據的可靠性.聯邦學習在這 種背景下被提出,它旨在利用去中心化的數據源訓練一個中 心化的聯邦模型,并且在訓練的過程中保證原始數據的隱私 安全.聯邦學習整體的流程被劃分成3個階段:1)共享模型 分發;2)本地模型訓練;3)模型信息收集、聚合與模型更新. 雖然聯邦學習針對數據共享與隱私安全的沖突提供了一種全 新的解決方案,但是它仍然面臨4個挑戰[1]:1)高昂的通信成本;2)系統異質性;3)數據統計異質性;4)數據安全.前三 種挑戰被認為是功能性挑戰,它們描述了聯邦學習在實際應 用過程中可能遇到的困難,而如何處理數據安全問題決定了 聯邦學習在應對各種法律條規 (如一般隱私保護條例[2])時 是否具有可行性.在樸素聯邦學習框架中,數據的機密性主 要依賴于不可逆的信息無法恢復出原始數據這一假設來保 證.但是文獻[3G6]證明了可以從傳輸的模型信息中推斷出 一些隱私數據.成員推斷攻擊(MembershipInference)最早 在文獻[6]中被提出,它旨在利用已訓練的模型來判斷某一樣 本是否屬于對應的訓練集,這在特定的情況下會泄露隱私信 息,如判斷某個病人的臨床記錄是否被用于訓練與某個疾病 相關的分類模型.隨著攻擊手段的強化,Fredrikson等[7]提 出利用已訓練模型的預測置信值進行反轉攻擊(ModelInverG sion),Hitaj等[8]則在已有工作的基礎上將反轉攻擊拓展到 了多層感 知 神 經 網 絡 上,并 利 用 生 成 對 抗 網 絡 (Generative AdversarialNetwork,GAN)恢復出特定類別的數字圖片.除 了原始數據的隱私安全外,作為各方參與者共同訓練的聯邦 模型也 被 視 為 參 與 者 的 隱 私 數 據.當 聯 邦 模 型 通 過 接 口 (ApplicationProgrammingInterface,API)向外部開放時,原 始的模型參數也存在被竊取的可能[9].

機密性攻擊是聯邦學習的主要防御方向,但聯邦學習的 建模目標是利用多方數據訓練出更加精準、健壯的聯合模型, 而這樣的目標很容易被正直性和可用性攻擊危害.關于正直 性和可用性的定義,本文延續了 Papernot等[10]的定義,并根據 聯邦學習的場景進行了對應的修正.其中,正直性攻擊被定 義為攻擊者誘導聯合模型在接收特定輸入時輸出錯誤結果的 行為;可用性攻擊被定義為攻擊者阻止參與者構建或訪問有 效聯合模型的行為.聯邦學習場景中的正直性攻擊主要分為 兩類:對抗攻擊[11G12]和后門攻擊[13G16].其中,對抗攻 擊 旨 在 利用目標模型的弱點構造對抗樣本,使 得 目 標 模 型 在 接 收 到對抗樣本時輸出錯誤的預測結果;而 后 門 攻 擊 旨 在 將 后 門觸發器嵌入到目標模型中,從而使目 標 模 型 在 接 收 到 包 含觸發標志的 樣 本 時 輸 出 錯 誤 的 預 測 結 果.與 正 值 性 攻 擊不同,可用性攻擊旨在阻止正常參與者構建或訪問有效的 聯邦模型,如利用拒絕訪問(DenialofService,DoS)[17]癱瘓服 務器.

為了應對上述機密性、正直性和可用性攻擊,多種防御策 略被提出.這些防御策略根據攻擊者的性質被分為兩類,即 針對誠實但好奇攻擊者的防御策略和針對惡意攻擊者(MaliG cious)的防御策略.誠實但好奇攻擊者表示該參與者遵守設 定的訓練規則,但對傳輸數據背后的信息感到好奇;而惡意攻 擊者則會通過污染數據[18]和模型[19]等手段來破壞目標模型 的正直性和可用性.誠實但好奇攻擊者主要針對機密性攻 擊,對應的防御手段包括安全多方計算[20]、同態加密[21]、信 息掩蓋[22G23]以及混合方案[13,24];而惡意攻擊者則針對正直性 攻擊和可用性攻擊,對應的防御策略分為兩類(見表1):利用 中和策略緩解惡意攻擊帶來的影響[12];對惡意攻擊行為進行 檢測,并拒絕其參與聯合建模[25G26].

綜上所述,聯邦學習在建模的過程中面臨著巨大的數據 安全與模型攻擊挑戰.文獻[64]只對攻防的基礎方法進行介 紹,未對聯邦學習中的攻防工作進行細致討 論.而 在 Chen 等[65]的討論中,未對針對模型可用性的攻擊策略(如拜占庭 攻擊)進行綜述.本文從機密性、正直性和可用性3種攻擊性 質出發,重點介紹了聯邦學習在建模過程中可能出現的攻擊 行為,同時從誠實但好奇和惡意兩個角度歸納了不同防御策 略的優點與缺點,攻防策略的對比如表1所列,最后對聯邦學 習中攻防場景的發展方向和可能的應用進行了探索與展望.

付費5元查看完整內容

基于聯邦學習的推薦系統

隨著互聯網和移動計算等技術的發展, 人們的在線行為產生了越來越多的數據, 想要從海量數 據中挑選出用戶可能喜歡的物品, 推薦系統不可或缺. 然而傳統的推薦算法需要將用戶數據收集到服 務端才能構建模型, 這會泄露用戶隱私. 最近, 谷歌針對機器學習任務中需要收集用戶數據才能進行建 模的問題, 提出了一種新的學習范式 —— 聯邦學習. 聯邦學習與推薦系統相結合, 使得聯邦推薦算法 能夠在模型構建過程中, 始終將用戶數據保留在客戶端本地, 從而保護了用戶隱私. 本文主要對聯邦學 習與推薦系統相結合的研究工作進行綜述, 并從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析聯邦推薦算法的研究進展. 最后, 對基于聯邦學習的推薦系統可研究的方向進行展望.

引言

在當今互聯網大數據的背景下, 推薦系統能夠利用海量的數據解決信息過載問題, 給用戶帶來便 利的同時也給企業帶來經濟效益, 進而實現用戶和企業的雙贏. 許多企業將推薦系統應用在了各自的 業務場景中, 例如, 淘寶的 “猜你喜歡”、網易云音樂的 “每日推薦”、騰訊視頻的 “今日熱門” 等, 類似 的服務在人們日常的互聯網生活中隨處可見, 這些商業服務的建立離不開推薦算法.

隨著通用數據保護條例 (general data protection regulation, GDPR) [1] 等隱私和數據保護法律法 規的頒布, 以及人們隱私保護意識的提高, 用戶數據中的隱私安全愈發受到重視. GDPR 等法律法規 要求, 在未經用戶同意的情況下, 任何組織和機構不得收集數據主體的個人數據. 然而傳統的機器學 習算法在沒有獲取足夠多的用戶數據的情況下, 往往難以通過訓練得到一個有效的模型. 為了解決用 戶數據的隱私問題, 以及在不直接獲取用戶原始數據的前提下得到一個有效的模型, 谷歌 (Google) 提出了聯邦學習范式[2, 3] . 聯邦學習使得在模型訓練的整個過程中, 用戶的原始數據始終保留在用戶 (客 戶端) 本地, 服務端和用戶之間通過共享加密的或不包含隱私信息的中間參數的方式, 進行模型訓練 和參數更新, 進而在保護用戶隱私的前提下構建一個有效的機器學習模型. 此外, 谷歌還將聯邦學習 應用在 Gboard 產品上, 用于表情符號預測 [4] 和下一個單詞的預測 [5] , 并且取得了不錯的效果. Yang 等[1] 進一步將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習. 橫向聯邦學習是指在參與 聯合訓練的多方中, 特征重疊較多, 樣本重疊較少; 縱向聯邦學習是指在參與聯合訓練的多方中, 特征 重疊較少, 樣本重疊較多; 而聯邦遷移學習是指在參與聯合訓練的多方中, 特征重疊和樣本重疊都較 少. 目前對聯邦學習的研究大多是基于橫向聯邦學習和縱向聯邦學習, 而對聯邦遷移學習的研究相對 較少。

在推薦系統中, 用戶的數據通常是指用戶對物品的交互行為和用戶的個人信息. 在傳統的推薦算 法中, 為了構建一個全局的模型, 通常需要收集所有用戶的原始數據并上傳至服務端, 這樣的做法往往 存在用戶隱私泄漏的問題. 為了解決這一問題, 一些研究工作 [6, 7] 將聯邦學習應用于推薦算法的設計 中, 使得用戶在不上傳自己的原始數據的前提下仍能得到良好的個性化服務. 近年來, 隨著聯邦學習技 術的發展, 對基于聯邦學習的推薦算法 (以下稱 “聯邦推薦”) 的研究也越發受到工業界和學術界的關 注. 在 2019 年的神經信息處理系統大會 (NeurIPS) 上, 微眾銀行以聯邦推薦為主題介紹了他們的多 個應用場景, 同時還基于自主研發的企業級聯邦學習平臺 FATE (federated AI technology enabler) [8] 提出了聯邦矩陣分解和聯邦因子分解機等算法, 引起了眾多研究人員的關注. 目前, 對聯邦推薦的研究 仍處于起步階段, 大多數聯邦推薦算法通過設計不同的聯邦訓練策略對傳統的推薦模型進行聯邦化, 從而保護用戶的隱私, 這也是本文論述的一個重點. 值得注意的是, 聯邦學習領域中的一些重要問題, 如通信成本、計算效率和激勵機制等, 在聯邦推薦算法的設計中還較少涉及, 但它們在模型的訓練和 部署等方面有較大影響, 這也是本文關注的另一個重點.

本文主要對基于聯邦學習的推薦系統的研究進行綜述. 第 2 節首先簡要介紹經典的和前沿的推薦 算法, 其次從模型的架構、模型的聯邦化、模型的優化和隱私保護技術的應用 4 個角度介紹聯邦學習 技術, 最后概述聯邦推薦技術. 第 3~5 節分別從架構設計、系統的聯邦化和隱私保護技術的應用 3 個 角度重點分析基于聯邦學習的推薦系統的研究進展. 第 6 節展望基于聯邦學習的推薦算法的研究趨 勢. 第 7 節是結束語.

2. 概述

2.1 推薦系統概述

傳統的推薦方法主要包括基于內容的推薦、基于協同過濾 (collaborative filtering, CF) 的推薦和 混合推薦. 基于內容的推薦算法的核心思想是給用戶推薦與其歷史交互過的物品相似的物品, 它能夠 解決物品的冷啟動問題. 其中物品特征的提取較為關鍵, 只要能構建出新物品的特征描述, 該新物品就 有可能被推薦給用戶. 由于推薦的物品通常是與用戶交互過的物品較為相似的物品, 因此基于內容的 推薦算法難以推薦一些新穎的物品. 基于協同過濾的推薦算法的核心思想是給用戶推薦與其歷史偏 好相似的用戶群體交互過的物品, 其主要包括基于鄰域的推薦算法和基于模型的推薦算法. 其中, 基 于鄰域的推薦算法主要分為兩大類: 基于用戶的協同過濾推薦算法 [9] 和基于物品的協同過濾推薦算 法 [10] . 矩陣分解 (matrix factorization, MF) [11] 是協同過濾推薦算法中最受歡迎的算法之一, 其以高 維的 (用戶, 物品) 評分矩陣為輸入, 輸出一個低維的用戶特征矩陣和一個低維的物品特征矩陣, 通過用戶特征矩陣和物品特征矩陣的內積計算得到用戶對物品的評分矩陣. 與基于內容的推薦算法相比, 基于協同過濾的推薦算法考慮了不同用戶偏好之間的關系, 但存在用戶和物品的冷啟動問題. 混合推 薦算法將多種推薦算法以一定的方式組合起來, 以解決單一推薦算法存在的問題. 例如, 將基于內容的 推薦算法和基于協同過濾的推薦算法結合起來的混合推薦算法, 能夠解決物品的冷啟動問題, 同時考 慮了用戶之間的偏好關系, 從而構建一個更好的推薦模型.

近年來, 隨著深度學習在計算機視覺、語音識別和自然語言處理等領域的快速發展, 深度學習也成 為推薦系統領域的一項重要技術. 與傳統的推薦算法相比, 基于深度學習的推薦算法表達能力更強, 能 夠更好地挖掘數據的潛在特征, 獲取深層次的用戶和物品的特征描述. 基于深度學習的推薦算法主要 利用一些深度學習技術, 如: 自編碼器[12]、受限玻爾茲曼機 (restricted Boltzmann machine, RBM)[13]、 卷積神經網絡 (convolutional neural network, CNN) [14] 和循環神經網絡 (recurrent neural network, RNN)[15] 等, 來構建推薦模型. AutoRec [12] 是較為簡單的基于深度學習的推薦算法, 其將自編碼器技 術應用到協同過濾中, 輸入是某個用戶對所有物品的評分構成的向量或所有用戶對某個物品的評分構 成的向量, 通過一個包含單隱層的神經網絡, 讓輸出向量盡可能逼近輸入向量, 從而預測輸入向量中的 缺失值, 進而實現對物品的排序和推薦. 但是 AutoRec [12] 沒有很好地解決特征交叉問題, 模型的表達 能力有一定的局限. Deep crossing [16] 設計了包含 embedding 層、stacking 層、multiple residual units 層和 scoring 層的網絡結構, 通過多層殘差網絡對特征向量進行多次特征交叉, 從而捕捉更多非線性 的特征信息. NCF (neural collaborative filtering)[17] 使用多層神經網絡來代替矩陣分解中的內積操作, 使得用戶特征向量和物品特征向量之間的交互更加豐富, 從而提高模型的表達能力. Wide&Deep [18] 和 Deep&Cross [19] 等通過組合不同特性的神經網絡來提高模型的綜合能力. DIN (deep interest network) [20] 等將注意力機制與基于深度學習的推薦算法結合, 使得模型能更好地捕捉用戶的興趣點. BERT4Rec [21] 將基于 Transformer 的雙向編碼器表征應用在序列推薦中, 用于捕捉用戶行為序列上 下文的關系, 以此來預測用戶可能會喜歡的下一物品. NGCF (neural graph collaborative filtering) [22] 將 (用戶, 物品) 表示為二部圖, 將圖神經網絡 (graph neural network, GNN) 應用到協同過濾算法中, 并對 (用戶, 物品) 的高階交互歷史行為進行建模.

上述推薦算法是基于集中式架構設計的, 其中客戶端 (即用戶) 僅充當數據產生者和數據傳輸者 的角色, 而數據處理和模型構建的過程由服務端來實現. 由于客戶端需要將用戶的原始數據上傳到服 務端, 因此存在用戶隱私泄露的風險. 同時, 為了充分利用數據的價值, 挖掘更高維的潛在特征, 服務 端構建的推薦模型越來越復雜. 此外, 當用戶數據增長到一定的數量級, 傳統的集中式推薦系統通常 難以滿足越來越高的存儲成本和計算成本的要求. 分布式推薦系統將用戶數據或模型參數分布在各個 數據節點或者計算節點中, 通過使用分布式計算和并行計算等技術來加快模型的訓練, 從而支持更大 規模的數據的處理和更復雜的推薦模型的構建 [23] . 需要說明的是, 隱私保護不是設計分布式推薦系 統時首要關注的問題, 因而服務端通常可以收集各個節點的原始數據和模型參數.

在推薦系統的應用場景中, 可以將原始數據劃分為用戶個人信息、物品屬性信息和用戶與物品之 間的交互信息. 對用戶而言, 隱私信息包括用戶的個人信息 (例如, 性別、年齡和地理位置等)、用戶對 物品的顯式反饋 (例如, 用戶對物品的評分等) 和用戶對物品的隱式反饋 (例如, 用戶對物品的點擊、 收藏和購買等) 等. 一般認為, 同一組織內部的物品屬性信息是共享的, 不屬于用戶的個人隱私. 而對 不同組織, 物品屬性信息以及模型參數可能涉及公司的商業機密, 因此通常不能直接與其他組織共享.

2.2 聯邦學習概述

聯邦學習本質上是一種既聯合多方又不共享各方原始數據的分布式學習框架, 在保護各個參與方數據中的隱私的前提下, 聯合各個參與方共同訓練, 得到一個共享的模型 [24] . 需要說明的是, 與傳統 的分布式學習框架相比, 聯邦學習中的各個參與方通常對自己的數據具有絕對的控制權. 因此, 服務 端在訓練過程中需要滿足各個參與方不同程度的隱私保護的要求. 聯邦學習可按模型的架構、模型的 聯邦化、模型的優化和隱私保護技術的應用 4 個角度進行分類, 見表 1 [1~3, 25~54] . 其中, 模型的架構 取決于不同的部署環境, 不同的架構在對模型進行聯邦化時需要設計不同的訓練流程. 對不同模型的 聯邦化的研究是聯邦學習的研究重點, 而隱私保護技術是在模型聯邦化過程中需要使用的重要技術手 段. 對于聯邦化后的模型, 考慮到不同的業務需求, 例如, 提高通信效率和模型性能等, 可以設計不同的模型優化策略.

2.2.1 模型的架構

通常, 在聯邦學習中使用的架構可以分為客戶端 – 服務端架構和去中心化架構. 如圖 1 所示, 對 于客戶端 – 服務端架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 并將模型參數發送給 各個客戶端; (2) 客戶端利用本地數據以及從服務端接收到的最新的模型參數進行訓練, 并將中間參 數發送給服務端; (3) 服務端聚合中間參數, 更新全局模型, 再把模型回傳給客戶端; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 對于去中心化架構, 較為通用的訓練流程為: (1) 服務端初始化模型參數, 然后 將模型參數發送給各個客戶端; (2) 客戶端利用本地數據進行模型訓練并更新本地的模型參數; (3) 客戶端選取一些其他客戶端, 發送本地的中間參數, 同時接收其他客戶端的中間參數, 并更新本地的模 型; (4) 重復步驟 (2) 和 (3), 直到模型收斂. 需要說明的是, 不同組織之間的聯邦應用場景, 例如, 縱向 聯邦學習和聯邦遷移學習, 可以看作特殊的去中心化架構. 在這些場景中, 若引入第三方服務器, 則又 可視為特殊的客戶端 – 服務端架構.

客戶端 – 服務端架構能夠利用服務端的計算資源, 減少客戶端的計算壓力, 但容易發生單點故障. 同時, 對于好奇的服務端, 其可能根據客戶端上傳的中間參數推斷客戶端的隱私信息, 從而泄露客戶 端的隱私. 相比客戶端 – 服務端架構, 去中心化架構不使用服務端或者服務端僅提供初始化模型參數 和協助客戶端之間通信的功能, 而不對模型進行更新. 去中心化架構的主要優勢包括以下 3 個方面. (1) 匿名性 [55] . 在模型訓練過程中, 客戶端能以匿名的方式發送中間參數給其他客戶端, 從而解決客 戶端之間的隱私泄露問題. (2) 節省服務端的資源. 服務端僅需初始化模型參數, 將模型參數分發給各 個客戶端, 不需要參與模型的更新. (3) 高可用性. 不存在單點故障, 即不會因為服務端的某一個部件 出錯而導致整個聯邦學習系統中止訓練. 客戶端 – 服務端架構和去中心化架構的相同之處在于客戶端的原始數據不離開本地, 通過服務端 與客戶端之間的通信或客戶端與客戶端之間的通信, 以發送中間參數的訓練方式來得到一個共享的模 型. 在實際應用中, 考慮到不同模型的優化需求, 使用這兩種架構時的訓練流程會有所不同, 例如, 為 了減少通信成本, 一些基于客戶端 – 服務端架構的聯邦學習算法會采用在客戶端多次訓練后再將中間 參數上傳給服務端的訓練方式 [3, 36, 37, 56] . 我們將在 2.2.3 小節關于模型的優化中, 介紹一些對訓練流 程進行改進的方法.

**2.3 聯邦推薦系統概述 **

隨著聯邦學習在各個領域的應用, 對基于聯邦學習的推薦系統的研究也受到了關注. 推薦系統通 常需要通過用戶的歷史行為來學習用戶的偏好. 此外, 為了訓練得到更好的推薦模型, 通常還會結合用 戶的個人信息等數據. 用戶的歷史行為數據包括用戶對物品的評分等顯式反饋, 用戶對物品的點擊、 收藏和購買等隱式反饋, 以及用戶在物品上的瀏覽時間等其他信息. 用戶的個人信息包括用戶的性別、 年齡、社交關系和地理位置等信息. 對用戶而言, 這些都屬于較為敏感的隱私數據, 用戶通常不愿意提 供給服務端. 除此之外, 不同組織之間的數據和模型可能涉及商業機密, 通常也不能直接共享, 進而導 致組織之間的數據孤島問題. 聯邦學習和推薦系統的結合旨在保護用戶隱私和商業機密的前提下, 為 用戶提供精準的個性化服務.

聯邦推薦系統是聯邦學習領域的一個重要應用場景, 在這個場景中, 一個客戶端可以是一個用戶 或一個組織, 客戶端需在不共享數據的前提下聯合建模. 與聯邦學習的分類類似, 我們將從架構設計、 系統的聯邦化和隱私保護技術的應用 3 個角度, 論述基于聯邦學習的推薦系統的研究進展. 我們在圖 2 中展示了上述的 3 個研究角度. 需要說明的是, 對于模型的優化, 由于目前在聯邦推薦系統方面的相 關工作較少, 我們將在第 6 節的展望部分進行討論.

3 推薦系統的聯邦化

推薦模型的聯邦化具有一定的共性, 一個聯邦推薦模型的訓練框架通常適用于具有相同訓練方式 的其他模型. 然而考慮到不同場景中的隱私保護級別可能不同以及不同模型參數可能帶來的不同隱私 問題, 不同推薦模型在聯邦化的過程中存在一定的差異. 對于模型的聯邦化, 可以劃分為基于協同過濾的推薦算法的聯邦化、基于深度學習的推薦算法的聯邦化和基于元學習的推薦算法的聯邦化 3 個類別. 表 2 [6, 7, 35, 69, 71~86] 展示了一些推薦模型的聯邦化的例子及其特點.

4 推薦系統的聯邦化

**最近, 十三屆全國人大常委會第二十九次會議通過了《中華人民共和國數據安全法》[114] , 對企業 收集和使用公民個人信息等問題作出規制. 聯邦學習通過不上傳原始數據的學習范式, 結合多種隱私 計算技術, 能在相關法律法規的要求下發揮數據的價值, 因此在推薦系統的應用中受到了學術界和工 業界越來越多的關注. 然而, 目前聯邦學習在推薦系統中的應用仍處于起步階段, 在未來有很多值得 嘗試和探索的研究方向. 以下總結了 3 個值得探索的研究方向.

4.1 推薦系統的聯邦化

在對傳統的推薦模型進行聯邦化方面, 目前已有不少的研究工作, 雖然它們都將原始數據保存在 客戶端本地, 但仍存在其他的隱私問題. 例如, 一些工作[6, 71] 泄露了用戶的評分行為, 即用戶評過哪些 物品. 以 FederatedMF [71] 為例, 服務端只要對比更新前后的物品特征向量, 就可以知道哪些物品的特 征向量被更新過, 從而知道上傳該特征向量的用戶對哪些物品評過分. 再者, 一些工作 [7, 69] 直接上傳 物品特征向量的梯度給服務端, Chai 等 [6] 證明了連續兩次上傳同一個物品的梯度給服務端時, 服務 端能夠反推出用戶對物品的評分. 此外, 為了獲取更豐富的信息, 以 SVD++ [88] , MF-MPC [115] 等算 法為例, 他們使用了一些和評分值相關的模型參數. 例如, 在 MF-MPC 中, 不同的評分值 r 都有一個 對應的模型參數 Mr i· . 當用戶 u 更新物品 i 的 Mr i· 時, 會直接暴露用戶 u 對物品 i 的評分值. 雖然目 前已有相關的研究, 使用如同態加密 [6, 74, 94]、虛假采樣 [69, 73, 116]、差分隱私 [89] 和秘密共享 [72, 74] 等 技術, 能較好地解決這些隱私問題, 但這些技術會帶來如通信成本增加、計算復雜度增大和推薦性能 下降等新的問題. 此外, 一些經典的推薦算法 (例如, PMF [65] 和 BPR [68] 等) 以 SGD 作為優化方法 時, 其每次只采樣一個 (用戶, 物品) 對, 然后計算用戶特征向量的梯度和物品特征向量的梯度, 并用 于更新對應的用戶特征向量和物品特征向量. 在聯邦學習范式中, 以分布式學習的方式進行模型訓練 時, 每次只采樣一個 (用戶, 物品) 對的訓練方式會導致算法的訓練效率較低. 一個提高效率的訓練方 式是讓客戶端并行地進行模型訓練 [97] , 再對上傳的物品特征向量的梯度進行平均, 然而這樣的做法與 非聯邦版本的對應算法相比, 得到的效果往往會有所下降. 在對推薦模型進行聯邦化時, 如何在訓練 方式與非聯邦版本等價的同時, 保證算法的訓練效率, 也是聯邦推薦值得關注的一個問題. 目前對于基于深度學習的推薦算法的聯邦化的研究相對較少. 主要挑戰在于, 客戶端的存儲資源 和計算能力通常無法與龐大的神經網絡相匹配, 并且客戶端自身的數據量有限, 難以訓練出較好的深 度學習模型. DeepRec [83] 采用模型參數較少的 RNN 作為主干模型, 然而對于更大規模的神經網絡, 客戶端的存儲資源會比較受限. Niu 等[80] 使用隨機響應技術, 使得客戶端能以子模型的方式來下載和 上傳模型. 然而這種方式僅支持物品的特征向量能按行表示的模型, 模型的通用性有一定的限制. 將 模型參數和計算過程交給邊緣設備的邊緣計算 [117] , 以及從學習能力強的教師模型中提煉出參數較少 的學生模型的知識蒸餾 [118] , 是兩個解決客戶端資源受限的研究思路. 除此之外, 目前還沒有公開發表的面向序列反饋和異構反饋建模的聯邦推薦方法. 在保護隱私 的前提下, 運用序列信息和多行為等數據, 構建一個性能更好的聯邦推薦模型, 也是一個值得研究的 問題.

**4.2 聯邦推薦系統的優化 **

在 2.2.3 小節中介紹了 4 種適用于聯邦學習的優化方法, 即模型壓縮、通信策略的改進、激勵機制 和客戶端采樣. 這些優化方法如何在聯邦推薦模型中應用, 以及如何為特定的推薦模型設計更有效的 優化算法, 值得深入研究. 現有的部分研究工作或能給予一定的啟發. 如 Yang 等 [119] 提出的 FCMF (federated collective matrix factorization), 針對縱向聯邦推薦問題, 設計了一個有效的通信策略: 輔助 方先充分訓練好物品特征矩陣, 加密后發送給目標方. 在目標方訓練過程中, 只有少數的中間參數需 要回傳給輔助方解密. Minto 等 [120] 發現在 FCF 框架中對物品特征向量的梯度使用本地差分隱私技 術進行處理時, 訓練得到的模型性能較差. 因此, 對于每一個要上傳給服務端的梯度, 他們僅對其隨機 的某一維度添加噪聲, 在滿足差分隱私的條件下, 提高了模型的性能.

**4.3 聯邦推薦場景中的隱私安全問題 **

在較早的研究工作中, 原始數據和能表征用戶偏好的模型參數被視為用戶的隱私. 因此, 在保留 原始數據和用戶特征向量的情況下, FCF [7] 上傳物品特征向量的梯度, 用于構建全局的物品特征矩 陣. 在文獻 [6] 中, 研究人員證明了物品特征向量的梯度會泄露用戶的評分信息. 為了解決這個問題, SharedMF[72] 使用秘密共享技術, FedMF[6] 使用同態加密技術. 然而, 在訓練過程中, 僅有與用戶交互 過的物品需要上傳梯度, 因而在上傳某個物品特征向量的梯度時, 在保護了梯度信息的情況下, 通過分 析物品特征向量的 ID, 仍能推導出用戶的評分行為. 因此在已有的研究工作中, FPL [73] 和 FedRec [69] 采用虛假采樣的方式, 混淆評過分的物品. 此外, 在最近的研究工作中, DeepRec [83] 認為, 一些商業數 據的收集并不違反 GDPR 等法律法規 [1] . 例如, 用戶購買一個商品時, 需要在付款后將購買行為告知 服務端, 否則該訂單無法完成. 因此, 這些必要的商業數據能夠被服務端收集, 而其他隱私數據, 例如 在完成訂單前對商品的點擊、瀏覽等行為, 以及在完成訂單后對商品的評分、評論等行為, 則不能直接 被服務端收集. 未來如何衡量聯邦場景中的隱私安全問題, 并對已有工作中存在的隱私問題, 設計一 個更為有效的解決方法, 是一個非常有價值的研究問題. 除此之外, 大部分聯邦場景都假設服務端和客戶端是誠實且好奇的. 未來的研究工作可假設更復 雜的真實環境, 即可能存在惡意的客戶端和服務端, 或者存在一些數據質量較低的客戶端. 在這種環 境下, 在一個聯邦推薦模型中設計一個能辨別數據源的可靠性的算法, 是一個值得研究的問題. 例如, 服務端可對上傳的模型參數質量進行評估 [121] , 從而篩選出惡意的或低質量的模型參數, 也可以通過 將主成分分析技術 (principal component analysis, PCA) 和數據復雜度相結合 [122] , 使用檢測托攻擊算 法來解決客戶端偽造虛假評分, 還可以通過客戶端之間梯度的差異來檢測惡意的客戶端[123] . 此外, 在 去中心化的架構中通常采用匿名的方式傳遞參數, 這給惡意的客戶端提供了攻擊的機會. 例如, 攻擊 者很容易通過匿名的方式, 將精心制作的參數傳遞給其他客戶端, 以操控訓練數據分布 [124] . 因此, 客 戶端如何運用模型投毒防御 [124] 和對抗攻擊防御 [125] 等防御手段來保護自己模型的安全性和有效性, 也是一個值得研究的問題

付費5元查看完整內容

【導讀】北京大學最新大數據計算環境下隱私保護技術進展。

摘要:

批處理、流式計算和機器學習等分布式的大數據計算環境在云上的廣泛部署與應用,為云用戶帶來了極大的便利, 但隨之帶來的隱私數據泄露事件愈演愈烈。如何在這種云上部署的大數據計算環境下保護數據隱私成為一個研究熱點,本文對近些年國內外在該領域的最新隱私保護研究成果及進展進行了全面綜述。針對上述大數據計算環境下的參與角色及應用場 景,結合不同角色的敵手模型,從計算過程涉及的數據輸入、計算和輸出等三個環節出發,依據計算數據為明文、密文或可 信硬件保護條件下可能存在的隱私泄露風險,總結了對應的 5 類主要研究方向,包括:基于數據分離的隱私保護、基于數據 干擾的隱私保護、基于安全多方計算的隱私保護、基于硬件增強的隱私保護和基于訪問模式隱藏的隱私保護等,從隱私性、 可用性和性能等方面對比分析了現有研究工作的優缺點;最后,展望了大數據計算環境下隱私保護技術的未來研究方向。

引言:

隨著云計算與大數據技術的發展,亞馬遜、微 軟、華為與阿里等主流云服務提供商(Cloud Service Provider, CSP)支持云端部署分布式存儲和計算框 架,主要包括批量計算框架(如 MapReduce[1])、流 式計算框架(如 Spark Streaming[2]、Storm1、Flink[3]) 和機器學習框架(如 TensorFlow[4])等,為用戶提 供持續可靠、可擴展且高吞吐量的大數據存儲和計 算服務。但是,在這種外包的大數據計算環境下, 由于數據所有權和使用權的分離,在計算過程涉及 的數據輸入、計算和輸出等階段都有可能發生隱私 數據泄露的風險。因此,如何在大數據計算環境下 保護敏感數據的隱私性(privacy),同時保證數據 的可用性(utility)和計算的高效性(efficiency)成 為大數據隱私保護領域的研究熱點之一

近年來,隱私數據(private data)泄露事件頻頻發生,造成的影響也越來越嚴重。從泄露的數據 類型來看2,泄露最多的隱私數據是個人基本信息, 其次是用戶賬號密碼信息,再者是個體敏感信息。并且個體敏感信息泄露呈現明顯增長的趨勢,主要 包括人臉圖像、指紋和虹膜等生物識別敏感信息、 交易收入敏感信息和醫療病歷敏感信息等三類數 據。國內外隱私泄露事件舉例3:2016 年 5 月,美 國職業社交網站LinkedIn宣布近1.67億用戶的電子 郵箱地址和密碼發生泄露,并被黑客組織公開銷 售;2017 年 9 月,美國知名信用機構 Equifax 遭黑 客攻擊,導致近 1.43 億用戶的信用卡和駕照號碼等 個人信息被泄露;2018 年 3 月,美國社交媒體 Facebook 承認其近 5000 萬用戶的個人信息被一款 性格測試軟件非法收集;2019 年 2 月,中國深網視 界科技有限公司(SenseNets)被曝出超過 250 萬人 的人臉數據泄露;2020 年 5 月,某脫口秀藝人控訴 中信銀行為“配合大客戶的需要”,在未經本人允 許的情況下違法泄露了個人賬戶交易。為了避免隱 私泄露帶來的負面影響和經濟損失,一系列隱私保 護條例和法規被相繼提出4。例如,國內已經實施的 《中華人民共和國網絡安全法》和最近通過的《中 華人民共和國個人信息保護法》,明確規定了個人 信息收集、處理和利用的基本規范和主要法律責任;國際上,歐盟已經實施的《通用數據保護條例》 (General Data Protection Regulation, GDPR),加強 了歐洲居民的個人數據保護;美國加利福尼亞州已 經頒布且正式生效的《加州消費者隱私法案》 (California Consumer Privacy Act, CCPA),旨在加 強消費者的數據安全與隱私保護。但是,僅僅從立法層面約束隱私泄露事件的發 生是不夠的,面對多樣化的業務場景和問題挑戰, 從技術層面引入一些隱私保護技術是非常必要的。近年來,云上數據隱私問題已經受到了學術界和工 業界的廣泛關注和重視。分析大數據計算環境下數 據處理流程,主要存在三類隱私泄露問題:數據輸 入階段的原始數據(raw data)隱私泄露,計算過程 中的隱私數據被攻擊者竊取,以及不可信的數據消 費者在結果輸出階段試圖推斷出數據隱私。首先,在數據輸入階段,如果對數據所有者的 敏感信息不采取標記和去隱私處理,那么有關個體 的隱私數據將可能被不可信的云服務提供商或者 其他攻擊者惡意竊取,造成個體隱私的直接泄露。為了在數據輸入階段保護個體隱私,目前行之有效 的手段是采取數據分離或者數據干擾等方法。其 一,數據分離方法主要考慮到隱私數據的位置,一 般將數據所有者的非敏感數據上傳到公有云,敏感 數據被分離到本地的私有云,這保證了敏感數據在 可信的私有云環境進行存儲和計算。

但是,在實踐 中發現,數據分離方法會增加私有云與公有云之間 的通信開銷,甚至通信數據存在被惡意敵手截獲的 風險。例如,主流的 MapReduce 計算框架是基于單 個云而設計的,并不適用于混合云環境;另外,聯 邦學習下本地和第三方參數服務器之間傳輸的參 數也屬于模型隱私。其二,本地化差分隱私(Local Differential Privacy, LDP)技術是目前數據干擾方法 中保護輸入階段個體隱私的一種重要手段。該技術 不要求數據所有者必須信任云服務提供商,通過對 敏感信息進行本地化隨機響應,達到干擾真實數據 的效果。不可避免地,在云端對失真數據進行分布 式計算會嚴重地影響結果的準確性。因此,如何在 保證原始數據隱私性的同時,有效地提高數據的可 用性已經成為學術界關切的熱點問題。其次,在數據計算階段,如果存儲在云端的數 據直接以明文的形式參與計算,那么不可信的云服 務提供商或者計算參與方可以偽裝成半誠實敵手 直接窺探到部分甚至整體數據,進一步推測出個體 隱私信息,造成計算過程中的隱私泄露。為了保證 數據的機密性和計算隱私性,目前行之有效的手段 是對傳輸數據進行加密,即加密傳輸,并結合安全 多方計算(Secure Multi-Party Computation, SMC)、 硬件增強或者訪問模式隱藏等主流方法實現隱私 計算。其中,設計安全多方計算協議需要依賴混淆 電路(Garbled Circuits, GC)、秘密共享或者同態加 密(Homomorphic Encryption, HE)等密碼學技術, 在互不信任的多個參與方之間協作計算時,SMC 保 證任何一方都無法竊取其他各方的數據隱私。特別地,同態加密使得在密文上執行計算成為可能,即 密文計算。但是在實際應用中,對于復雜的計算任 務其執行效率較低且計算開銷較高。為了解決密文 計算帶來的性能瓶頸,學術界一方面對更加實用且 高效的安全多方計算協議開展研究,另一方面依賴 可信硬件保護提出“加密傳輸-明文計算”的優化策 略[17,116]。Intel SGX(Intel Software Guard Extensions) 屬于硬件增強方法中的代表性技術,它為明文計算 提供了安全的可信執行環境(Trusted Execution Environment, TEE)。相比 SMC,Intel SGX 技術既 能保護數據的機密性和隱私性,也保證計算代碼的 安全執行。盡管如此,攻擊者仍然能夠通過觀察內 存層的訪問模式[5]和網絡層的訪問模式[6],進一步 地推測出數據隱私。不經意隨機訪問機(Oblivious RAM, ORAM)和不經意混洗(oblivious shuffle) 是目前主流的兩種訪問模式隱藏技術,它們能夠實 現不經意計算(oblivious computing),防止攻擊者 觀察計算過程中的訪問模式。再者,在計算結果輸出階段,如果數據不經過 去隱私化處理而直接發布,那么攻擊者可以結合背 景知識分析輸出結果,竊取其中可以追溯到特定個 體的敏感信息,造成輸出階段的隱私泄露。為了解 決輸出隱私問題,目前主要采用數據干擾方法,如 數據匿名(data anonymization)和中心化差分隱私 (Centralized Differential Privacy, CDP)技術。但是 干擾數據會影響數據的可用性,因此需要考慮隱私 性和可用性權衡問題。

近年來,國內外學者研究了隱私保護技術在數 據挖掘隱私、大數據安全與隱私以及機器學習隱私 等領域的應用,形成了一些綜述性的文章:文獻[7] 重點分類闡述了數據失真、數據加密和限制發布等 隱私保護技術在數據庫領域的應用;文獻[8]重點梳 理了基于直方圖、基于劃分和基于回歸分析的差分 隱私技術在數據發布和分析中的應用;文獻[9]重點 對比分析了隱私保護數據挖掘(Privacy-Preserving Data Mining, PPDM)中的數據匿名和數據擾動技 術;文獻[10]聚焦大數據安全與隱私領域,梳理及 總結了隱私保護、信任和訪問控制等角度的關鍵技 術,包括數據匿名、數據水印、數據溯源和風險自 適應的訪問控制等技術;文獻[11]從 MapReduce 計 算的數據安全性和隱私性出發,調研并分析了所面 臨的安全和隱私挑戰、敵手能力以及現有的安全和 隱私協議等內容;文獻[12,13]聚焦機器學習隱私, 重點分析和總結了差分隱私、同態加密和安全多方 計算等技術在該領域的研究成果。除此之外,已有 的大多數綜述文章側重于梳理某項或者某類隱私 保護技術的基礎理論與應用[130,132],形成專項技術 綜述,卻缺少對大數據計算全過程面臨的隱私問題 及不同隱私保護技術的總結分析。特別是目前大數 據隱私問題嚴重地影響了計算框架的推廣與應用, 因此有必要梳理有關大數據計算隱私的研究進展。本文區別于已有綜述文章,重點梳理了與大數 據計算環境相關的隱私保護研究工作。如圖 1 所示 為本文結構圖,展示了不同隱私保護技術之間的聯 系與分類依據。

本文側重于從計算過程涉及的數據輸入、計算 和輸出等三個環節出發,依據計算數據為明文、密 文或可信硬件保護等條件下可能存在的隱私泄露 風險和技術挑戰,將分離執行、聯邦學習、差分隱 私、安全多方計算、Intel SGX 等主流的隱私保護技 術劃分為 5 大類,包括基于數據分離的隱私保護、 基于數據干擾的隱私保護、基于安全多方計算的隱 私保護、基于硬件增強的隱私保護和基于訪問模式 隱藏的隱私保護等。每一類隱私保護技術側重于解 決不同階段所面臨的隱私問題,并依賴不同的解決 思路。例如,差分隱私通過拉普拉斯、指數和隨機 響應等擾動機制干擾數據,保證數據輸入階段或輸 出階段隱私;安全多方計算依賴混淆電路、秘密共 享和同態加密等密碼學手段,設計協議保證計算過 程中數據的機密性;聯邦學習通過在本地聯合訓練 模型保護訓練數據的隱私,但是已有研究表明聯邦學習存在著參數泄露的風險,需要進一步地依賴差 分隱私或者安全多方計算等技術保護訓練階段的 模型隱私;Intel SGX 通過提供可信的執行環境保證 數據以明文形式計算的安全性。此外,本文從隱私 性、可用性和性能等方面對比分析了現有研究工作 的優缺點;最后對未來研究方向進行探討及展望, 為今后進一步研究提供參考。

2 大數據計算環境現狀及隱私問題

**本節對大數據計算環境現狀及存在的隱私問 題進行概述,主要介紹了大數據計算環境下的參與 角色以及部署框架,并分析了敵手模型、存在的隱 私問題與挑戰、以及主要研究方向。

3 基于數據分離的隱私保護

隨著數據持有者的數據不斷增長,對數據的維 護成本越來越高,導致數據處理的部分或者全部任 務從本地(或私有云)遷移到公有云。雖然數據處 理的位置發生了變化,但是對敏感數據的隱私要求 沒有改變。假設云服務提供商作為不可信的第三 方,一旦存在內部攻擊者或者軟件脆弱性等潛在的 安全風險,將直接造成數據隱私泄露。為了解決上述問題,研究者們提出根據數據的 敏感性分離存儲和計算數據的解決思路,即基于數 據分離的隱私保護方法。相比其他的隱私保護方 法,該方法保證了敏感數據在本地或者私有云環境 被安全高效的處理,而不會被遷移到不可信的公有 云環境。目前,基于數據分離的隱私保護相關研究 工作主要包括基于敏感數據標記的分布式計算和 基于數據分離的聯邦學習。

4 基于數據干擾的隱私保護

近些年發生的隱私泄露事件都表明未經過脫 敏處理的數據在云上發布或者共享很容易泄露數 據隱私,特別是個體敏感信息。在基于云的大數據 計算環境下,隨著大數據分析的普及,云服務提供 商越來越熱衷于聚合來自數據持有者的數據,以獲 取更有價值的結果。但是假設云服務提供商或者數 據消費者不可信,對數據具有訪問權限的云平臺內 部攻擊者可能窺探其中的個體敏感信息,造成輸入 隱私泄露。具有背景知識的外部攻擊者可能提交惡 意程序獲取特定的輸出結果,試圖推測出能夠關聯 到特定個體的敏感信息,造成輸出隱私泄露。為了解決上述問題,研究者們提出基于數據干 擾的隱私保護。相比其他的隱私保護方法,該方法 會造成數據失真,通過犧牲數據的精度來增強隱私 保護水平,因此隱私性和可用性的權衡問題一直是 該研究方向的熱點問題。目前,基于數據干擾的隱 私保護方法中最主要的兩種隱私保護技術是數據 匿名和差分隱私。

5 基于安全多方計算的隱私保護

在基于云平臺的大數據計算環境下,假設多個數據持有者之間互不信任,但是出于商業合作的目 的,他們需要共享數據以聯合分析出更有價值的信 息。如果對于共享的數據不進行加密或去隱私處 理,那么將會直接破壞共享數據的機密性和隱私 性。要么在數據共享之前對其進行干擾,但是會嚴 重制約聯合分析的任務類型和數據可用性,不適用 于復雜的聯合計算任務。要么對數據集進行加密后 傳輸,因此,需要采取一種能夠在敏感數據集上進 行安全計算的隱私保護技術。目前,學術界對安全多方計算協議有較多的理 論研究[89-91],它允許互不信任的各方在不泄露隱私 數據的情況下進行聯合計算。但是,其在大數據的 實際應用中擴展性較差,一方面是在密文上執行復 雜計算任務時其執行效率非常低,一般用執行時間 或計算成本來衡量;另一方面是多方聯合計算會帶 來較高的通信開銷,一般用通信成本衡量。本節主 要展開介紹大數據計算環境下高實用的安全多方 計算研究工作進展。

6 基于硬件增強的隱私保護

在基于云平臺的大數據計算環境下,采用密碼 學手段加密數據并在其上執行安全計算存在計算 開銷和通信開銷的性能瓶頸。出于隱私性和高效性 的權衡,研究學者提出了基于硬件增強的“加密傳 輸,明文計算”思路,即數據被加密傳輸但在可信 硬件支持下高效地執行明文計算。特別地,當云平 臺部署的操作系統被妥協時,如何有效地抵抗具有 根訪問權限的攻擊者通過執行惡意程序竊取數據 隱私是一個值得被研究的問題。目前行之有效的隱私保護手段是從硬件增強 的角度提供隱私保護,許多研究工作是在大數據計 算環境下借助 Intel SGX 技術的加密內存來保護關 鍵代碼和數據的機密性。相比其他的TEE技術,Intel SGX 基于安全硬件的最小可信計算基(Trusted Computing Base, TCB)提供了用戶空間的安全隔離 執行環境,同時能夠兼容虛擬化及容器技術;而 AMD(advanced microdevice)硬件虛擬化技術基于 可信的特權軟件(hypervisor)提供了操作系統級別 的安全隔離執行環境,其安全性依賴特權軟件的安 全性,特別是當特權軟件被妥協時其安全性受到威 脅;TrustZone 技術通過 CPU 將系統劃分為安全和 非安全的兩種隔離執行環境,其主要應用到嵌入式 平臺。因此,在基于云平臺的大數據計算環境下, 采用 Intel SGX 硬件增強技術保護計算過程中數據 隱私是比較熱門的,本節主要梳理該領域的大數據 計算框架以及計算性能優化的研究工作。

7 基于訪問模式隱藏的隱私保護

盡管數據加密可以很好地隱藏數據的機密性, 但是不能隱藏一些元數據,比如訪問模式、數據來 源和去向等。云平臺內部攻擊者可以利用這些元數 據獲得兩種隱私信息,其一是根據訪問模式推測出 數據的相關屬性,如果攻擊者知道有關數據的背景 知識,那么它可以推測出傳輸數據的明文信息;其 二是根據數據來源和去向推測數據發送方和接收 方的身份,雖然已有一些元數據隱藏技術,但是它 們無法抵抗能力更強的節點訪問型攻擊者[11]。Zheng 等人[117]指出訪問模式泄露攻擊發生在 內存層和網絡層,當惡意操作系統通過監視應用程 序的頁面訪問來推斷有關加密數據的信息時,云平 臺會發生內存層的訪問模式泄漏。而網絡層的訪問 模式泄漏發生在分布式系統的任務調度和消息傳 輸中,盡管通過網絡發送的消息數據是加密的,但 是某些分布式任務(例如排序或散列分區)也會產 生披露加密數據隱私的網絡流量。嚴重地,攻擊者 可以通過分析計算過程中網絡流量的特點實施流 量分析攻擊。為了解決內存層和網絡層的訪問模式泄露,目 前主要采用不經意隨機訪問機 ORAM 和不經意混 洗技術,在云服務提供商不可信的安全假設下,實 現不經意計算來隱藏訪問模式。在實際應用中,基 于訪問模式隱藏的隱私保護方法一般不會單獨使 用,通常在數據加密或可信硬件支持等條件下采取 該方法進一步地增強安全和保護隱私,本節重點總 結在大數據計算環境下該方向的相關研究工作。

8 總結和展望

本文對大數據計算環境下的隱私保護技術研 究進展進行了綜述。首先分析了大數據計算環境下 的敵手模型、隱私問題與挑戰,以及隱私保護的研 究方向;接著,根據隱私保護技術的不同,分別總 結分析了基于數據分離的隱私保護、基于數據干擾 的隱私保護、基于安全多方計算的隱私保護、基于 硬件增強的隱私保護、以及基于訪問模式隱藏的隱 私保護等研究方向的最新研究進展,并對比分析了 不同隱私保護技術的優缺點;最后,展望了大數據 計算環境下隱私保護技術的未來研究方向。期望本 文的工作,能給以后的研究者提供有益的參考與借 鑒,為大數據隱私保護的進一步發展做出貢獻。綜合分析可知,不同隱私保護技術具有不同的 技術特點、局限性和適用場景。在大數據計算環境 下應用隱私保護技術時,數據分離和匿名技術側重 于在數據輸入階段保護原始數據的敏感信息,其中 數據分離技術主要存在通信開銷較高的局限性,適 用于本地或私有云環境具有較強算力的隱私保護 場景,匿名技術實現簡單但是主要面臨著更強背景 知識攻擊的困擾;差分隱私技術側重于在數據輸入 和結果輸出階段擾動數據,在實際應用中計算效率 較高,但是主要存在可用性不高的局限性,適用于 計算節點算力較弱且對隱私保護水平有一定要求 的場景;安全多方計算、Intel SGX 和不經意計算等 技術側重于在數據計算過程中保護數據的隱私性 和計算的安全性,在實際應用中,安全多方計算主 要存在通信開銷較高和執行效率較低的局限性,適 用于多方分布式聯合計算的隱私保護場景;Intel SGX 技術需要可信硬件輔助以在安全隔離環境下 執行明文計算,在應用中主要面臨側信道攻擊的安 全威脅;不經意計算主要依賴 ORAM 或不經意混 洗手段隱藏訪問模式,但是這些手段本身存在低效 性和特殊性,特別是 ORAM 在實際應用中帶來了 較高的計算復雜度。因此,未來在大數據計算環境 下應用這些隱私保護技術,仍然存在很多問題需要 亟待解決,其中以下五個問題值得進一步地研究。

(1)研究低帶寬網絡環境下的高效數據分離

保護:目前,數據分離技術主要存在通信開銷較高 的局限,不僅表現在混合云中跨云聚合時的通信數 據量和通信總時耗(見第 3.1.2 節),也體現在聯邦 學習中達到預定模型精度時,本地客戶端與云端服 務器之間的通信數據量和通信輪次(見第 3.2 節)。為了適用低帶寬網絡環境,特別是隨著越來越多的 通信帶寬和電力有限的終端設備接入,降低數據分 離方法中的通信開銷提高通信效率顯得十分重要。因此,需要研究低帶寬網絡環境下的高效數據分離 保護,例如通過對鍵的獨立劃分降低公有與與私有 云之間傳輸的元組數量,壓縮模型或者選擇部分客 戶端參與更新降低聯邦學習中傳輸的模型參數量, 以及降低模型精度來減少通信輪次等方式。

(2)研究針對復雜數據類型的高可用差分隱 私保護:目前,大部分研究工作重點關注簡單數據 類型的差分隱私保護,例如針對離散分類數據的本 地化差分隱私地頻率估計以及針對連續數值數據 的本地化差分隱私地均值估計。而對于大數據計算 中的半結構化或者非結構化數據研究較少,例如鍵 值型數據或者圖數據等復雜數據類型。在實際應用 中,參與大數據計算的主要是這些復雜數據類型。另外,現有方案對鍵值數據進行擾動時忽略了鍵與 值之間的對應關系[76],一方面將造成隱私泄露降低 隱私性,另一方面將導致過多的噪音被添加,影響 了可用性。因此,在實際應用場景下,權衡復雜數 據類型擾動的隱私性和可用性,設計出高可用的差 分隱私保護是未來這一類研究方向的重點。

(3)研究實用型的安全多方計算協議,進一 步提升性能:雖然現有的安全計算協議能夠保護計 算過程中數據隱私,但是當真正應用到海量數據的 安全計算時,它面臨著較高的通信開銷和計算開銷 瓶頸(見第 5.4 節)。為了支持多用戶并發訪問且快 速響應的大數據系統,設計高實用的安全多方計算 協 議 , 并 兼 容 目 前 主 流 的 計 算 框 架 , 例 如 MapReduce、Spark 和 TensorFlow 等,是促進安全 多方計算應用于實際的關鍵。因此,性能優化問題 一直是這一類研究亟待解決的問題。

(4)研究安全增強的 Intel SGX 應用,進一步 提升性能:雖然 Intel SGX 技術能夠有效地解決大 數據計算環境下云平臺上應用程序和敏感數據的 安全計算問題,但是它在實際應用中也面臨著諸多 安全問題和性能瓶頸[130]。正如第 6.3 小結提到的如 何有效地解決敏感代碼安全劃分與驗證,抵抗側信 道攻擊以及內存攻擊等安全問題,以及兼容容器與 虛擬化技術減輕 EPC 內存大小受限引起的性能瓶 頸。尤其在隱私計算方面,支持數據密集型計算的 多任務并行處理以及大數據的安全審計等應用。因 此,安全問題與性能優化是未來 Intel SGX 應用需 要亟待解決的問題。

(5)研究高效的通用訪問模式隱藏結構:一 方面,基于 ORAM 實現的通用訪問模式隱藏結構 在實際應用中面臨著較高的性能瓶頸,無法與大數 據計算框架相結合同時滿足高效計算和隱私保護 的需求[131,132],因此未來有必要從 ORAM 協議設計 本身入手,進一步地降低計算復雜度提升性能;另 一方面,雖然針對特定計算專門設計的不經意混洗 方法能夠有利于與實用的大數據計算框架相結合, 但是當把它們集成到對實時性要求更高的分布式 流式計算框架時,如 Storm、Flink 和 Spark Streaming 等,它們具有不同的計算原語和執行模型,對現有 工作提出了新的設計和性能挑戰,因此未來需要研 究一種高效的通用訪問模式隱藏結構。

除了以上針對五個研究方向存在的問題值得 進一步研究之外,隨著大數據、物聯網和人工智能 等產業的發展,各種隱私問題以及隱私保護技術越 來越受到重視。未來的隱私保護研究工作應該重點 關注以下幾個新方向:

(1)適用于大數據計算各個環節的通用隱私 保護方案 在基于云平臺的大數據計算環境下,主要考慮 數據輸入、計算和輸出等三個環節可能存在的隱私 泄露風險,采取相對應的隱私保護技術保證數據隱 私。但是正如前面提到的,每種隱私保護技術具有 不同的優勢和局限性。目前,越來越多的研究工作 結合多種隱私保護技術解決多個環節的隱私泄露 問題(見第 5.2 節)。例如,結合安全多方計算和區 塊鏈技術構建去中心化場景下多參與方之間的信 任關系。盡管如此,區塊鏈共識機制的安全性和效 率也需要滿足實際應用的需要。因此,在大數據計 算環境下,如何充分結合各隱私保護技術的優勢, 解決大數據計算各個環節的隱私問題,是設計通用 隱私保護方案的關鍵點。

(2)針對端邊云計算架構的可行隱私保護 隨著物聯網技術的發展,各種終端設備接入以 及邊緣與中心云之間的協作,形成了端邊云的三級 計算架構。邊緣計算節點往往計算能力有限,適合 于采用計算效率較高的匿名或本地化差分隱私技 術保護數據隱私,但是干擾真實數據影響了可用性 (見第 4.2.1 節)。而云平臺的計算資源比較充足, 適合采用隱私性和可用性較高的安全多方計算技 術保護數據隱私,但是其通信開銷較高影響了執行 效率(見第 5.4 節)。因此,針對端邊云計算架構的 實用場景,未來需要權衡隱私性、可用性和效率等.因素進一步地研究可行的隱私保護方法。

(3)面向多數據源協同訓練的隱私保護框架 隨著人工智能技術的發展,多數據源期望共享 數據以學習更有價值的模型,即協同訓練。另一方 面,隨著一系列信息保護法案的出臺,個人隱私保 護越來越受重視,數據持有者往往不愿意直接共享 訓練數據。已有研究工作[133,134]表明雖然能夠依賴 加密、匿名或者本地化差分隱私等手段保護實施集 中式學習的訓練數據(見第 3.2 節),但是不能應對 復雜的大數據協同訓練環境。另外,聯邦學習能夠 很好地解決協同訓練與個體隱私之間的權衡問題, 但是在一定程度上也限制了模型訓練準確性。并且 現有的聯邦學習框架本身安全性不可解釋,仍然存 在著較多安全問題[31,32]。因此面向多數據源協同訓 練的場景,仍需要進一步地完善隱私保護框架。

付費5元查看完整內容

摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。

//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030

關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法

論文引用格式:

王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.

WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.

圖片

1 引言

大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。

早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。

聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。

本文的主要貢獻如下。

● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。

● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。

● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。

● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。

付費5元查看完整內容

隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。

//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。

在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。

根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。

具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。

FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。

在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。

在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。

這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。

目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。

付費5元查看完整內容
北京阿比特科技有限公司