【導讀】北京大學最新大數據計算環境下隱私保護技術進展。
批處理、流式計算和機器學習等分布式的大數據計算環境在云上的廣泛部署與應用,為云用戶帶來了極大的便利, 但隨之帶來的隱私數據泄露事件愈演愈烈。如何在這種云上部署的大數據計算環境下保護數據隱私成為一個研究熱點,本文對近些年國內外在該領域的最新隱私保護研究成果及進展進行了全面綜述。針對上述大數據計算環境下的參與角色及應用場 景,結合不同角色的敵手模型,從計算過程涉及的數據輸入、計算和輸出等三個環節出發,依據計算數據為明文、密文或可 信硬件保護條件下可能存在的隱私泄露風險,總結了對應的 5 類主要研究方向,包括:基于數據分離的隱私保護、基于數據 干擾的隱私保護、基于安全多方計算的隱私保護、基于硬件增強的隱私保護和基于訪問模式隱藏的隱私保護等,從隱私性、 可用性和性能等方面對比分析了現有研究工作的優缺點;最后,展望了大數據計算環境下隱私保護技術的未來研究方向。
引言:
隨著云計算與大數據技術的發展,亞馬遜、微 軟、華為與阿里等主流云服務提供商(Cloud Service Provider, CSP)支持云端部署分布式存儲和計算框 架,主要包括批量計算框架(如 MapReduce[1])、流 式計算框架(如 Spark Streaming[2]、Storm1、Flink[3]) 和機器學習框架(如 TensorFlow[4])等,為用戶提 供持續可靠、可擴展且高吞吐量的大數據存儲和計 算服務。但是,在這種外包的大數據計算環境下, 由于數據所有權和使用權的分離,在計算過程涉及 的數據輸入、計算和輸出等階段都有可能發生隱私 數據泄露的風險。因此,如何在大數據計算環境下 保護敏感數據的隱私性(privacy),同時保證數據 的可用性(utility)和計算的高效性(efficiency)成 為大數據隱私保護領域的研究熱點之一。
近年來,隱私數據(private data)泄露事件頻頻發生,造成的影響也越來越嚴重。從泄露的數據 類型來看2,泄露最多的隱私數據是個人基本信息, 其次是用戶賬號密碼信息,再者是個體敏感信息。并且個體敏感信息泄露呈現明顯增長的趨勢,主要 包括人臉圖像、指紋和虹膜等生物識別敏感信息、 交易收入敏感信息和醫療病歷敏感信息等三類數 據。國內外隱私泄露事件舉例3:2016 年 5 月,美 國職業社交網站LinkedIn宣布近1.67億用戶的電子 郵箱地址和密碼發生泄露,并被黑客組織公開銷 售;2017 年 9 月,美國知名信用機構 Equifax 遭黑 客攻擊,導致近 1.43 億用戶的信用卡和駕照號碼等 個人信息被泄露;2018 年 3 月,美國社交媒體 Facebook 承認其近 5000 萬用戶的個人信息被一款 性格測試軟件非法收集;2019 年 2 月,中國深網視 界科技有限公司(SenseNets)被曝出超過 250 萬人 的人臉數據泄露;2020 年 5 月,某脫口秀藝人控訴 中信銀行為“配合大客戶的需要”,在未經本人允 許的情況下違法泄露了個人賬戶交易。為了避免隱 私泄露帶來的負面影響和經濟損失,一系列隱私保 護條例和法規被相繼提出4。例如,國內已經實施的 《中華人民共和國網絡安全法》和最近通過的《中 華人民共和國個人信息保護法》,明確規定了個人 信息收集、處理和利用的基本規范和主要法律責任;國際上,歐盟已經實施的《通用數據保護條例》 (General Data Protection Regulation, GDPR),加強 了歐洲居民的個人數據保護;美國加利福尼亞州已 經頒布且正式生效的《加州消費者隱私法案》 (California Consumer Privacy Act, CCPA),旨在加 強消費者的數據安全與隱私保護。但是,僅僅從立法層面約束隱私泄露事件的發 生是不夠的,面對多樣化的業務場景和問題挑戰, 從技術層面引入一些隱私保護技術是非常必要的。近年來,云上數據隱私問題已經受到了學術界和工 業界的廣泛關注和重視。分析大數據計算環境下數 據處理流程,主要存在三類隱私泄露問題:數據輸 入階段的原始數據(raw data)隱私泄露,計算過程 中的隱私數據被攻擊者竊取,以及不可信的數據消 費者在結果輸出階段試圖推斷出數據隱私。首先,在數據輸入階段,如果對數據所有者的 敏感信息不采取標記和去隱私處理,那么有關個體 的隱私數據將可能被不可信的云服務提供商或者 其他攻擊者惡意竊取,造成個體隱私的直接泄露。為了在數據輸入階段保護個體隱私,目前行之有效 的手段是采取數據分離或者數據干擾等方法。其 一,數據分離方法主要考慮到隱私數據的位置,一 般將數據所有者的非敏感數據上傳到公有云,敏感 數據被分離到本地的私有云,這保證了敏感數據在 可信的私有云環境進行存儲和計算。
但是,在實踐 中發現,數據分離方法會增加私有云與公有云之間 的通信開銷,甚至通信數據存在被惡意敵手截獲的 風險。例如,主流的 MapReduce 計算框架是基于單 個云而設計的,并不適用于混合云環境;另外,聯 邦學習下本地和第三方參數服務器之間傳輸的參 數也屬于模型隱私。其二,本地化差分隱私(Local Differential Privacy, LDP)技術是目前數據干擾方法 中保護輸入階段個體隱私的一種重要手段。該技術 不要求數據所有者必須信任云服務提供商,通過對 敏感信息進行本地化隨機響應,達到干擾真實數據 的效果。不可避免地,在云端對失真數據進行分布 式計算會嚴重地影響結果的準確性。因此,如何在 保證原始數據隱私性的同時,有效地提高數據的可 用性已經成為學術界關切的熱點問題。其次,在數據計算階段,如果存儲在云端的數 據直接以明文的形式參與計算,那么不可信的云服 務提供商或者計算參與方可以偽裝成半誠實敵手 直接窺探到部分甚至整體數據,進一步推測出個體 隱私信息,造成計算過程中的隱私泄露。為了保證 數據的機密性和計算隱私性,目前行之有效的手段 是對傳輸數據進行加密,即加密傳輸,并結合安全 多方計算(Secure Multi-Party Computation, SMC)、 硬件增強或者訪問模式隱藏等主流方法實現隱私 計算。其中,設計安全多方計算協議需要依賴混淆 電路(Garbled Circuits, GC)、秘密共享或者同態加 密(Homomorphic Encryption, HE)等密碼學技術, 在互不信任的多個參與方之間協作計算時,SMC 保 證任何一方都無法竊取其他各方的數據隱私。特別地,同態加密使得在密文上執行計算成為可能,即 密文計算。但是在實際應用中,對于復雜的計算任 務其執行效率較低且計算開銷較高。為了解決密文 計算帶來的性能瓶頸,學術界一方面對更加實用且 高效的安全多方計算協議開展研究,另一方面依賴 可信硬件保護提出“加密傳輸-明文計算”的優化策 略[17,116]。Intel SGX(Intel Software Guard Extensions) 屬于硬件增強方法中的代表性技術,它為明文計算 提供了安全的可信執行環境(Trusted Execution Environment, TEE)。相比 SMC,Intel SGX 技術既 能保護數據的機密性和隱私性,也保證計算代碼的 安全執行。盡管如此,攻擊者仍然能夠通過觀察內 存層的訪問模式[5]和網絡層的訪問模式[6],進一步 地推測出數據隱私。不經意隨機訪問機(Oblivious RAM, ORAM)和不經意混洗(oblivious shuffle) 是目前主流的兩種訪問模式隱藏技術,它們能夠實 現不經意計算(oblivious computing),防止攻擊者 觀察計算過程中的訪問模式。再者,在計算結果輸出階段,如果數據不經過 去隱私化處理而直接發布,那么攻擊者可以結合背 景知識分析輸出結果,竊取其中可以追溯到特定個 體的敏感信息,造成輸出階段的隱私泄露。為了解 決輸出隱私問題,目前主要采用數據干擾方法,如 數據匿名(data anonymization)和中心化差分隱私 (Centralized Differential Privacy, CDP)技術。但是 干擾數據會影響數據的可用性,因此需要考慮隱私 性和可用性權衡問題。
近年來,國內外學者研究了隱私保護技術在數 據挖掘隱私、大數據安全與隱私以及機器學習隱私 等領域的應用,形成了一些綜述性的文章:文獻[7] 重點分類闡述了數據失真、數據加密和限制發布等 隱私保護技術在數據庫領域的應用;文獻[8]重點梳 理了基于直方圖、基于劃分和基于回歸分析的差分 隱私技術在數據發布和分析中的應用;文獻[9]重點 對比分析了隱私保護數據挖掘(Privacy-Preserving Data Mining, PPDM)中的數據匿名和數據擾動技 術;文獻[10]聚焦大數據安全與隱私領域,梳理及 總結了隱私保護、信任和訪問控制等角度的關鍵技 術,包括數據匿名、數據水印、數據溯源和風險自 適應的訪問控制等技術;文獻[11]從 MapReduce 計 算的數據安全性和隱私性出發,調研并分析了所面 臨的安全和隱私挑戰、敵手能力以及現有的安全和 隱私協議等內容;文獻[12,13]聚焦機器學習隱私, 重點分析和總結了差分隱私、同態加密和安全多方 計算等技術在該領域的研究成果。除此之外,已有 的大多數綜述文章側重于梳理某項或者某類隱私 保護技術的基礎理論與應用[130,132],形成專項技術 綜述,卻缺少對大數據計算全過程面臨的隱私問題 及不同隱私保護技術的總結分析。特別是目前大數 據隱私問題嚴重地影響了計算框架的推廣與應用, 因此有必要梳理有關大數據計算隱私的研究進展。本文區別于已有綜述文章,重點梳理了與大數 據計算環境相關的隱私保護研究工作。如圖 1 所示 為本文結構圖,展示了不同隱私保護技術之間的聯 系與分類依據。
本文側重于從計算過程涉及的數據輸入、計算 和輸出等三個環節出發,依據計算數據為明文、密 文或可信硬件保護等條件下可能存在的隱私泄露 風險和技術挑戰,將分離執行、聯邦學習、差分隱 私、安全多方計算、Intel SGX 等主流的隱私保護技 術劃分為 5 大類,包括基于數據分離的隱私保護、 基于數據干擾的隱私保護、基于安全多方計算的隱 私保護、基于硬件增強的隱私保護和基于訪問模式 隱藏的隱私保護等。每一類隱私保護技術側重于解 決不同階段所面臨的隱私問題,并依賴不同的解決 思路。例如,差分隱私通過拉普拉斯、指數和隨機 響應等擾動機制干擾數據,保證數據輸入階段或輸 出階段隱私;安全多方計算依賴混淆電路、秘密共 享和同態加密等密碼學手段,設計協議保證計算過 程中數據的機密性;聯邦學習通過在本地聯合訓練 模型保護訓練數據的隱私,但是已有研究表明聯邦學習存在著參數泄露的風險,需要進一步地依賴差 分隱私或者安全多方計算等技術保護訓練階段的 模型隱私;Intel SGX 通過提供可信的執行環境保證 數據以明文形式計算的安全性。此外,本文從隱私 性、可用性和性能等方面對比分析了現有研究工作 的優缺點;最后對未來研究方向進行探討及展望, 為今后進一步研究提供參考。
**本節對大數據計算環境現狀及存在的隱私問 題進行概述,主要介紹了大數據計算環境下的參與 角色以及部署框架,并分析了敵手模型、存在的隱 私問題與挑戰、以及主要研究方向。
隨著數據持有者的數據不斷增長,對數據的維 護成本越來越高,導致數據處理的部分或者全部任 務從本地(或私有云)遷移到公有云。雖然數據處 理的位置發生了變化,但是對敏感數據的隱私要求 沒有改變。假設云服務提供商作為不可信的第三 方,一旦存在內部攻擊者或者軟件脆弱性等潛在的 安全風險,將直接造成數據隱私泄露。為了解決上述問題,研究者們提出根據數據的 敏感性分離存儲和計算數據的解決思路,即基于數 據分離的隱私保護方法。相比其他的隱私保護方 法,該方法保證了敏感數據在本地或者私有云環境 被安全高效的處理,而不會被遷移到不可信的公有 云環境。目前,基于數據分離的隱私保護相關研究 工作主要包括基于敏感數據標記的分布式計算和 基于數據分離的聯邦學習。
近些年發生的隱私泄露事件都表明未經過脫 敏處理的數據在云上發布或者共享很容易泄露數 據隱私,特別是個體敏感信息。在基于云的大數據 計算環境下,隨著大數據分析的普及,云服務提供 商越來越熱衷于聚合來自數據持有者的數據,以獲 取更有價值的結果。但是假設云服務提供商或者數 據消費者不可信,對數據具有訪問權限的云平臺內 部攻擊者可能窺探其中的個體敏感信息,造成輸入 隱私泄露。具有背景知識的外部攻擊者可能提交惡 意程序獲取特定的輸出結果,試圖推測出能夠關聯 到特定個體的敏感信息,造成輸出隱私泄露。為了解決上述問題,研究者們提出基于數據干 擾的隱私保護。相比其他的隱私保護方法,該方法 會造成數據失真,通過犧牲數據的精度來增強隱私 保護水平,因此隱私性和可用性的權衡問題一直是 該研究方向的熱點問題。目前,基于數據干擾的隱 私保護方法中最主要的兩種隱私保護技術是數據 匿名和差分隱私。
在基于云平臺的大數據計算環境下,假設多個數據持有者之間互不信任,但是出于商業合作的目 的,他們需要共享數據以聯合分析出更有價值的信 息。如果對于共享的數據不進行加密或去隱私處 理,那么將會直接破壞共享數據的機密性和隱私 性。要么在數據共享之前對其進行干擾,但是會嚴 重制約聯合分析的任務類型和數據可用性,不適用 于復雜的聯合計算任務。要么對數據集進行加密后 傳輸,因此,需要采取一種能夠在敏感數據集上進 行安全計算的隱私保護技術。目前,學術界對安全多方計算協議有較多的理 論研究[89-91],它允許互不信任的各方在不泄露隱私 數據的情況下進行聯合計算。但是,其在大數據的 實際應用中擴展性較差,一方面是在密文上執行復 雜計算任務時其執行效率非常低,一般用執行時間 或計算成本來衡量;另一方面是多方聯合計算會帶 來較高的通信開銷,一般用通信成本衡量。本節主 要展開介紹大數據計算環境下高實用的安全多方 計算研究工作進展。
在基于云平臺的大數據計算環境下,采用密碼 學手段加密數據并在其上執行安全計算存在計算 開銷和通信開銷的性能瓶頸。出于隱私性和高效性 的權衡,研究學者提出了基于硬件增強的“加密傳 輸,明文計算”思路,即數據被加密傳輸但在可信 硬件支持下高效地執行明文計算。特別地,當云平 臺部署的操作系統被妥協時,如何有效地抵抗具有 根訪問權限的攻擊者通過執行惡意程序竊取數據 隱私是一個值得被研究的問題。目前行之有效的隱私保護手段是從硬件增強 的角度提供隱私保護,許多研究工作是在大數據計 算環境下借助 Intel SGX 技術的加密內存來保護關 鍵代碼和數據的機密性。相比其他的TEE技術,Intel SGX 基于安全硬件的最小可信計算基(Trusted Computing Base, TCB)提供了用戶空間的安全隔離 執行環境,同時能夠兼容虛擬化及容器技術;而 AMD(advanced microdevice)硬件虛擬化技術基于 可信的特權軟件(hypervisor)提供了操作系統級別 的安全隔離執行環境,其安全性依賴特權軟件的安 全性,特別是當特權軟件被妥協時其安全性受到威 脅;TrustZone 技術通過 CPU 將系統劃分為安全和 非安全的兩種隔離執行環境,其主要應用到嵌入式 平臺。因此,在基于云平臺的大數據計算環境下, 采用 Intel SGX 硬件增強技術保護計算過程中數據 隱私是比較熱門的,本節主要梳理該領域的大數據 計算框架以及計算性能優化的研究工作。
盡管數據加密可以很好地隱藏數據的機密性, 但是不能隱藏一些元數據,比如訪問模式、數據來 源和去向等。云平臺內部攻擊者可以利用這些元數 據獲得兩種隱私信息,其一是根據訪問模式推測出 數據的相關屬性,如果攻擊者知道有關數據的背景 知識,那么它可以推測出傳輸數據的明文信息;其 二是根據數據來源和去向推測數據發送方和接收 方的身份,雖然已有一些元數據隱藏技術,但是它 們無法抵抗能力更強的節點訪問型攻擊者[11]。Zheng 等人[117]指出訪問模式泄露攻擊發生在 內存層和網絡層,當惡意操作系統通過監視應用程 序的頁面訪問來推斷有關加密數據的信息時,云平 臺會發生內存層的訪問模式泄漏。而網絡層的訪問 模式泄漏發生在分布式系統的任務調度和消息傳 輸中,盡管通過網絡發送的消息數據是加密的,但 是某些分布式任務(例如排序或散列分區)也會產 生披露加密數據隱私的網絡流量。嚴重地,攻擊者 可以通過分析計算過程中網絡流量的特點實施流 量分析攻擊。為了解決內存層和網絡層的訪問模式泄露,目 前主要采用不經意隨機訪問機 ORAM 和不經意混 洗技術,在云服務提供商不可信的安全假設下,實 現不經意計算來隱藏訪問模式。在實際應用中,基 于訪問模式隱藏的隱私保護方法一般不會單獨使 用,通常在數據加密或可信硬件支持等條件下采取 該方法進一步地增強安全和保護隱私,本節重點總 結在大數據計算環境下該方向的相關研究工作。
本文對大數據計算環境下的隱私保護技術研 究進展進行了綜述。首先分析了大數據計算環境下 的敵手模型、隱私問題與挑戰,以及隱私保護的研 究方向;接著,根據隱私保護技術的不同,分別總 結分析了基于數據分離的隱私保護、基于數據干擾 的隱私保護、基于安全多方計算的隱私保護、基于 硬件增強的隱私保護、以及基于訪問模式隱藏的隱 私保護等研究方向的最新研究進展,并對比分析了 不同隱私保護技術的優缺點;最后,展望了大數據 計算環境下隱私保護技術的未來研究方向。期望本 文的工作,能給以后的研究者提供有益的參考與借 鑒,為大數據隱私保護的進一步發展做出貢獻。綜合分析可知,不同隱私保護技術具有不同的 技術特點、局限性和適用場景。在大數據計算環境 下應用隱私保護技術時,數據分離和匿名技術側重 于在數據輸入階段保護原始數據的敏感信息,其中 數據分離技術主要存在通信開銷較高的局限性,適 用于本地或私有云環境具有較強算力的隱私保護 場景,匿名技術實現簡單但是主要面臨著更強背景 知識攻擊的困擾;差分隱私技術側重于在數據輸入 和結果輸出階段擾動數據,在實際應用中計算效率 較高,但是主要存在可用性不高的局限性,適用于 計算節點算力較弱且對隱私保護水平有一定要求 的場景;安全多方計算、Intel SGX 和不經意計算等 技術側重于在數據計算過程中保護數據的隱私性 和計算的安全性,在實際應用中,安全多方計算主 要存在通信開銷較高和執行效率較低的局限性,適 用于多方分布式聯合計算的隱私保護場景;Intel SGX 技術需要可信硬件輔助以在安全隔離環境下 執行明文計算,在應用中主要面臨側信道攻擊的安 全威脅;不經意計算主要依賴 ORAM 或不經意混 洗手段隱藏訪問模式,但是這些手段本身存在低效 性和特殊性,特別是 ORAM 在實際應用中帶來了 較高的計算復雜度。因此,未來在大數據計算環境 下應用這些隱私保護技術,仍然存在很多問題需要 亟待解決,其中以下五個問題值得進一步地研究。
(1)研究低帶寬網絡環境下的高效數據分離
保護:目前,數據分離技術主要存在通信開銷較高 的局限,不僅表現在混合云中跨云聚合時的通信數 據量和通信總時耗(見第 3.1.2 節),也體現在聯邦 學習中達到預定模型精度時,本地客戶端與云端服 務器之間的通信數據量和通信輪次(見第 3.2 節)。為了適用低帶寬網絡環境,特別是隨著越來越多的 通信帶寬和電力有限的終端設備接入,降低數據分 離方法中的通信開銷提高通信效率顯得十分重要。因此,需要研究低帶寬網絡環境下的高效數據分離 保護,例如通過對鍵的獨立劃分降低公有與與私有 云之間傳輸的元組數量,壓縮模型或者選擇部分客 戶端參與更新降低聯邦學習中傳輸的模型參數量, 以及降低模型精度來減少通信輪次等方式。
(2)研究針對復雜數據類型的高可用差分隱 私保護:目前,大部分研究工作重點關注簡單數據 類型的差分隱私保護,例如針對離散分類數據的本 地化差分隱私地頻率估計以及針對連續數值數據 的本地化差分隱私地均值估計。而對于大數據計算 中的半結構化或者非結構化數據研究較少,例如鍵 值型數據或者圖數據等復雜數據類型。在實際應用 中,參與大數據計算的主要是這些復雜數據類型。另外,現有方案對鍵值數據進行擾動時忽略了鍵與 值之間的對應關系[76],一方面將造成隱私泄露降低 隱私性,另一方面將導致過多的噪音被添加,影響 了可用性。因此,在實際應用場景下,權衡復雜數 據類型擾動的隱私性和可用性,設計出高可用的差 分隱私保護是未來這一類研究方向的重點。
(3)研究實用型的安全多方計算協議,進一 步提升性能:雖然現有的安全計算協議能夠保護計 算過程中數據隱私,但是當真正應用到海量數據的 安全計算時,它面臨著較高的通信開銷和計算開銷 瓶頸(見第 5.4 節)。為了支持多用戶并發訪問且快 速響應的大數據系統,設計高實用的安全多方計算 協 議 , 并 兼 容 目 前 主 流 的 計 算 框 架 , 例 如 MapReduce、Spark 和 TensorFlow 等,是促進安全 多方計算應用于實際的關鍵。因此,性能優化問題 一直是這一類研究亟待解決的問題。
(4)研究安全增強的 Intel SGX 應用,進一步 提升性能:雖然 Intel SGX 技術能夠有效地解決大 數據計算環境下云平臺上應用程序和敏感數據的 安全計算問題,但是它在實際應用中也面臨著諸多 安全問題和性能瓶頸[130]。正如第 6.3 小結提到的如 何有效地解決敏感代碼安全劃分與驗證,抵抗側信 道攻擊以及內存攻擊等安全問題,以及兼容容器與 虛擬化技術減輕 EPC 內存大小受限引起的性能瓶 頸。尤其在隱私計算方面,支持數據密集型計算的 多任務并行處理以及大數據的安全審計等應用。因 此,安全問題與性能優化是未來 Intel SGX 應用需 要亟待解決的問題。
(5)研究高效的通用訪問模式隱藏結構:一 方面,基于 ORAM 實現的通用訪問模式隱藏結構 在實際應用中面臨著較高的性能瓶頸,無法與大數 據計算框架相結合同時滿足高效計算和隱私保護 的需求[131,132],因此未來有必要從 ORAM 協議設計 本身入手,進一步地降低計算復雜度提升性能;另 一方面,雖然針對特定計算專門設計的不經意混洗 方法能夠有利于與實用的大數據計算框架相結合, 但是當把它們集成到對實時性要求更高的分布式 流式計算框架時,如 Storm、Flink 和 Spark Streaming 等,它們具有不同的計算原語和執行模型,對現有 工作提出了新的設計和性能挑戰,因此未來需要研 究一種高效的通用訪問模式隱藏結構。
除了以上針對五個研究方向存在的問題值得 進一步研究之外,隨著大數據、物聯網和人工智能 等產業的發展,各種隱私問題以及隱私保護技術越 來越受到重視。未來的隱私保護研究工作應該重點 關注以下幾個新方向:
(1)適用于大數據計算各個環節的通用隱私 保護方案 在基于云平臺的大數據計算環境下,主要考慮 數據輸入、計算和輸出等三個環節可能存在的隱私 泄露風險,采取相對應的隱私保護技術保證數據隱 私。但是正如前面提到的,每種隱私保護技術具有 不同的優勢和局限性。目前,越來越多的研究工作 結合多種隱私保護技術解決多個環節的隱私泄露 問題(見第 5.2 節)。例如,結合安全多方計算和區 塊鏈技術構建去中心化場景下多參與方之間的信 任關系。盡管如此,區塊鏈共識機制的安全性和效 率也需要滿足實際應用的需要。因此,在大數據計 算環境下,如何充分結合各隱私保護技術的優勢, 解決大數據計算各個環節的隱私問題,是設計通用 隱私保護方案的關鍵點。
(2)針對端邊云計算架構的可行隱私保護 隨著物聯網技術的發展,各種終端設備接入以 及邊緣與中心云之間的協作,形成了端邊云的三級 計算架構。邊緣計算節點往往計算能力有限,適合 于采用計算效率較高的匿名或本地化差分隱私技 術保護數據隱私,但是干擾真實數據影響了可用性 (見第 4.2.1 節)。而云平臺的計算資源比較充足, 適合采用隱私性和可用性較高的安全多方計算技 術保護數據隱私,但是其通信開銷較高影響了執行 效率(見第 5.4 節)。因此,針對端邊云計算架構的 實用場景,未來需要權衡隱私性、可用性和效率等.因素進一步地研究可行的隱私保護方法。
(3)面向多數據源協同訓練的隱私保護框架 隨著人工智能技術的發展,多數據源期望共享 數據以學習更有價值的模型,即協同訓練。另一方 面,隨著一系列信息保護法案的出臺,個人隱私保 護越來越受重視,數據持有者往往不愿意直接共享 訓練數據。已有研究工作[133,134]表明雖然能夠依賴 加密、匿名或者本地化差分隱私等手段保護實施集 中式學習的訓練數據(見第 3.2 節),但是不能應對 復雜的大數據協同訓練環境。另外,聯邦學習能夠 很好地解決協同訓練與個體隱私之間的權衡問題, 但是在一定程度上也限制了模型訓練準確性。并且 現有的聯邦學習框架本身安全性不可解釋,仍然存 在著較多安全問題[31,32]。因此面向多數據源協同訓 練的場景,仍需要進一步地完善隱私保護框架。
人大學等《聯邦學習隱私保護》隱私保護技術
聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制.它允許各個參與方將數據保留在本地,在打破數據孤島的同時保證參與方對數據的控制權.然而聯邦學習引入了大量參數交換過程,不僅和集中式訓練一樣受到模型使用者的威脅,還可能受到來自不可信的參與設備的攻擊,因此亟需更強的隱私手段保護各方持有的數據. 本文分析并展望了聯邦學習中的隱私保護技術的研究進展和趨勢.簡要介紹聯邦學習的架構和類型,分析聯邦學習過程中面臨的隱私風險,總結重建、推斷兩種攻擊策略,然后依據聯邦學習中的隱私保護機制歸納隱私保護技術,并深入調研應用上述技術的隱私保護算法,從中心、本地、中心與本地結合這3個層面總結現有的保護策略. 最后討論聯邦學習隱私保護面臨的挑戰并展望未來的發展方向.
//jos.org.cn/html/2022/3/6446.htm
1. 引言
近年來, 大數據驅動的人工智能迸發出巨大潛力, 在金融、醫療、城市規劃、自動駕駛等多個領域完成了大規模復雜任務學習. 機器學習作為人工智能的核心技術, 其性能和隱私性也廣受關注. 傳統的機器學習需要由服務商收集用戶的數據后集中訓練, 但是用戶的數據與用戶個體緊密相關, 可能直接包含敏感信息, 如個人年齡、種族、患病信息等; 也可能間接攜帶隱含的敏感信息, 如個人網頁瀏覽記錄、內容偏好所隱含的用戶政治傾向. 如果這些敏感信息在收集過程中被服務商泄露或者利用, 將直接威脅用戶的人身安全、個人名譽和財產安全. 即便服務商沒有直接公開用戶數據, 集中訓練后發布的模型也可能因為受到隱私攻擊而泄露參與訓練的數據. 隨著隱私問題受到的關注程度日益提高, 用戶分享數據的意愿越來越低. 與之矛盾的是, 人工智能技術卻必須依靠大量數據收集和融合, 如果不能獲取完整豐富的信息來訓練模型并發展技術, 人工智能應用的發展將受到嚴重限制.
在數據孤島現象與數據融合需求的矛盾逐漸凸顯的背景下, 聯邦學習(federated learning, FL)應運而生. 2017年, Google公司首次提出了聯邦學習的概念[1], 這是一種由多個數據持有方(如手機、物聯網設備, 或者金融、醫療機構等)協同訓練模型而不分享數據, 僅在中間階段交換訓練參數的學習機制. 理想狀況下, 聯邦學習得到的共享模型與數據集中在中心服務器上訓練所得模型相比, 效果相近或更好[2]. 由此, 企業能夠通過合法且高效的方式融合數據提取信息, 個人或其他持有數據的機構依然能夠在享受企業提供的人工智能服務的同時, 保有數據的控制權.
盡管聯邦學習避免了將數據直接暴露給第三方, 對于數據隱私有天然的保護作用, 但是其中依然存在大量隱私泄露的風險.
首先, 聯邦學習需要交換中間參數協同訓練, 可能泄露隱私. 與集中式學習不同, 聯邦學習訓練過程需要交換大量中間參數, 其所攜帶原始數據會暴露在所有參與訓練的角色面前, 帶來泄露的風險. 例如, 已有研究表明, 可以通過梯度還原部分原始數據[3], 或根據中間參數推斷掌握的記錄內容是否來自某個特定參與者[4].
其次, 不可靠的參與方加劇了隱私泄露的風險. 聯邦學習中, 各個參與方由于地理、設備等條件不同, 通信內容的有效性和身份的真實性都難以確認, 因此一旦出現不可靠的參與方攻擊, 極易泄露隱私.例如, 半誠實的參與方能夠根據合法獲取的中間參數推斷出其他參與方的標簽或數據; 而惡意的參與方更進一步, 能夠通過上傳精心設計的有害信息誘導其他參與方暴露更多自身數據, 或者不遵守隱私協議進而影響全局的隱私性.
此外, 訓練完成的模型也面臨著隱私泄露的風險. 即便聯邦學習的過程中參數沒有泄露, 直接發布訓練所得的模型依然存在極大風險. 這種風險來自機器學習自身的脆弱性. 在訓練中, 模型提高準確性依賴于對數據樣本的規律挖掘. 但是研究者[4]注意到, 追求模型在訓練樣本上的準確度, 可能導致模型的參數乃至結構“記住”訓練樣本的細節, 使得模型攜帶訓練集的敏感信息. 根據這一特性, 攻擊者可以通過反復查詢模型的預測接口來推測某條記錄是否存在于訓練集、推測模型的具體參數, 而根據模型發布的參數能夠進一步推測訓練集成員或訓練集具體樣本.
由此可見, 不加保護的進行聯邦學習, 訓練中涉及的眾多參與者的數據都將面臨泄露的風險. 而數據一旦泄露, 不僅隱私泄露者面臨嚴重損失, 參與者間彼此信任合作的聯合訓練模式也將難以為繼.
解決聯邦學習信息泄露問題迫在眉睫. 然而, 聯邦學習中數據分布復雜、應用場景豐富且需要多次數據交換, 這些因素為隱私保護帶來一系列挑戰.
第一, 聯邦學習的訓練場景多樣且需求復雜, 現有的隱私保護方法無法通用. 已有的集中式機器學習隱私保護研究以中心服務器誠實為前提, 僅考慮模型發布后可能受到的攻擊, 沒有針對內部攻擊者的解決方案. 而且現有算法大多針對單一的集中式訓練場景, 沒有考慮多個參與方、多種架構、多種數據分布方式下的數據交換和模型協同訓練的情況. 因此, 設計適應不同場景和不同需求的隱私保護算法, 同時抵御外部和內部攻擊, 是聯邦學習隱私保護的重要挑戰.
** 第二, 聯邦學習中參與方的可信程度低, 潛在的攻擊角度多, 對隱私保護算法的魯棒性要求更高**. 這里, 魯棒性指模型容忍惡意攻擊穩定運行的能力. 聯邦學習中, 參與者一旦發起攻擊, 能夠觀察到更多的中間參數, 甚至能夠篡改參數影響訓練過程, 隱私防御的難度遠高于外部出現的攻擊. 而參與者之間如果共謀, 可能獲取更多敏感信息. 因此, 提高隱私保護算法的魯棒性, 減少隱私算法中對參與者的可信程度的假設, 是聯邦學習隱私保護面臨的難題.
** 第三, 聯邦學習本身通信不穩定, 模型計算代價高, 因而對隱私保護機制的通信量和復雜度要求嚴格**. 現實場景下的聯邦學習所面臨的復雜松散的網絡結構導致終端通信不穩定, 在此基礎上的隱私保護算法難以簡化. 而復雜的隱私保護算法將帶來更高的計算量、更大通信代價, 進一步制約聯邦學習的訓練效率. 研究高效率、輕量級的聯邦學習隱私保護算法, 降低額外開銷, 是聯邦學習隱私保護必須面對的挑戰.
第四, 聯邦學習中參數維度高、數據分布不均, 難以在提供隱私保護的同時保持模型的可用性. 聯邦學習中間參數的維度與模型結構和輸入數據維度相關, 參數維度往往極高, 造成了極大的隱私開銷.此外, 聯邦學習的用戶數量不定且數據集大小不一, 如何在平衡不同數據集的同時保護隱私, 也是一個巨大挑戰.
綜上所述, 更加精細的隱私策略設計、更加精確的隱私預算分配、更加適應數據交換的隱私協議構建, 是聯邦學習隱私保護進一步發展必須面對的議題. 而明確現有的隱私問題和保護手段, 是技術發展的基礎. 聯邦學習的基礎——機器學習的隱私攻擊和防御已經被充分調研[5]. 機器學習面臨的外部攻擊同樣威脅著聯邦學習的發布模型, 但是機器學習的隱私保護手段卻遠遠不足以為聯邦學習提供保護. 這是由于聯邦學習同時面臨著傳統的外部攻擊和其獨有的內部攻擊, 因此聯邦學習的隱私保護方案必須同時為內部訓練過程和外部模型發布提供雙重保護.
另外, 已有學者調研了聯邦學習隱私保護的現狀, 但由于思路與本文不同, 側重的方法和文獻也不相同. Lyv等人[6]和Wang等人[7]對聯邦學習可能受到的攻擊作了詳細的闡述, 但是在安全攻擊和隱私攻擊的區分上沒有進一步調研. 本文明確兩種攻擊的概念范圍: 以竊取數據、破壞模型隱私性和機密性為目的的攻擊為隱私攻擊, 以干擾模型訓練結果、破壞模型可用性和完整性的攻擊為安全攻擊. 此外, 本文還依據現有的隱私攻擊技術的原理歸納了主要策略分類. 現有文獻[7?10]均從技術或訓練階段的角度分析了目前的聯邦學習隱私保護算法, 而本文根據聯邦學習自身特性分析其特有的隱私泄露內容和泄露位置, 從隱私保護的對象的角度出發建立分類框架, 并歸納每個類別中主要的保護機制, 進而分析采用不同技術的算法的共性并探究機制本身的優勢和不足. 進一步地, 本文建立了攻擊策略與保護機制之間的聯系, 并在此基礎上嘗試為聯邦學習隱私保護的發展提出建議.
本文第1節介紹聯邦學習的架構和類型, 以及相應場景下的訓練方式. 第2節分析聯邦學習面對的隱私泄露風險來源, 總結具體的攻擊策略. 第3節介紹多種隱私保護技術原理, 并將其歸納為信息模糊、過程加密兩種隱私保護機制. 第4節調研隱私保護技術在聯邦學習中的應用, 涵蓋本地保護、中心保護、中心與本地結合這3種保護策略, 并對每種策略展開更加詳細的闡述. 第5節討論現有不足并展望未來方向.
2. 聯邦學習**
**聯邦學習的一般定義為[11]: N個參與方{F1, …, FN}各自持有訓練集{D1, …, DN}. 聯邦學習中, 各個參與方在不將本地數據Di暴露給第三方的情況下, 協作訓練模型MFED. 為了給聯邦學習模型一個衡量標準, 設傳統的集中式機器學習將各個數據集收集合并為D=D1∪…∪DN以訓練模型MSUM. 令VFED為聯邦學習模型MFED精度(performance), VSUM為傳統機器學習模型MSUM精度. 存在非負實數δ, 使得: |VFED?VSUM|<δ, 則稱此聯邦學習模型具有δ的精度損失. 可見, 使各個數據集留在本地協同訓練所得模型的精度, 理想狀況下應當接近于將數據集集中后訓練所得模型的精度. 區別于傳統的分布式機器學習, 聯邦學習具有如下特點. (1) 各個參與方的訓練集非獨立同分布. 各個參與方僅掌握局部信息, 其分布與全局不一定相同; 各個參與方僅掌握整個數據集的部分屬性及標簽信息, 且各方之間屬性和標簽可能不完全重疊. (2) 各個參與方的訓練集大小可能不平衡. 某些參與方可能由于其規模、影響力等因素掌握更多數據. (3) 參與方數量不定. 參與者數量可能很少, 例如只有幾個企業交換數據集; 也可能極多, 如訓練涉及數以萬計的App使用者. (4) 通信受限. 與分布式相比, 聯邦學習的架構更為松散, 參與的設備可能存在頻繁掉線、通信緩慢等情況, 因此聯邦學習的通信代價同樣受到極大關注. 根據這些特點, 學者為聯邦學習設計了不同的架構方式和學習類型.
聯邦學習架構
常見的聯邦學習架構為客戶-服務器. 典型的客戶-服務器架構由一個中心服務器和多個持有數據的客戶端組成. 被廣泛采用的聯邦平均FedAvg[1]即是基于客戶-服務器架構設計的算法. 在訓練中, 中心服務器將隨機初始化的模型結構和參數分發給客戶端, 客戶端根據本地數據訓練并更新模型后將參數上傳. 中心服務器收到各方參數后聚合計算, 更新模型參數再次下發. 該過程循環, 直至模型收斂或訓練終止. 除了常見的模型參數交換以外, 也存在梯度交換、數據特征的嵌入式表示交換等方式. 在此架構下, 原始數據不需要傳輸, 但是本地中間參數暴露給了中心服務器, 全局中間參數則會被每個客戶端獲取, 數據交換過程中, 巨大的通信量也會影響訓練效率. 而當參與訓練的客戶端數量過多時, 中心服務器的聚合計算甚至可能成為全局訓練效率的瓶頸.
當沒有中心服務器時, 聯邦學習采用另一種常見架構: 端對端的網絡架構[12]. 這種架構僅由持有數據的終端組成. 參與訓練的終端Fi直接將訓練參數發送給下一個(或多個)終端Fi+1, 下一個(或多個)終端Fi+1在收集到的一個(或多個)參數基礎上繼續訓練, 直到模型收斂或者訓練終止. 端對端網絡架構不依賴中心服務器這樣的第三方機構, 本地中間參數直接在參與方之間傳送. 因此需要考慮參與方如何協商使用相同的模型、算法、初始化參數等基本信息, 協調各方參與訓練的順序.
為了下文中概念統一、表述清晰, 本文將客戶-服務器中的服務器稱為中心服務器; 將客戶-服務器中的客戶端和端對端架構中的參與訓練終端統稱為終端; 所有參與訓練的服務器、終端統稱為參與方. 訓練過程中發送的梯度、模型參數、嵌入式表示等, 統稱為中間參數. 上述兩種典型架構如圖 1所示.
聯邦學習類型根據參與方的樣本分布情況, 聯邦學習按照數據的劃分情況可以分為3種類型: 橫向聯邦學習、縱向聯邦學習、遷移聯邦學習. 不同的數據的劃分方式需要的訓練方式和中間參數不同, 也為隱私泄露的風險和保護方式帶來影響.
橫向聯邦學習中, 各個參與方持有的數據特征相同, 但掌握的樣本不同. 例如, 幾個不同城市的醫院可能掌握著不同病人的情況, 但是由于具備相似的醫療手段, 醫院獲取屬性的屬性相同. 橫向聯邦學習中典型的方式之一是第1.1節所描述的聯邦平均算法FedAvg, 包括梯度平均和模型平均兩種類型[13], 多由客戶-服務器架構實現. 梯度平均是指終端交換和聚合模型梯度, 而模型平均指聚合模型參數. 在端對端架構中, 各個參與方訓練本地模型, 通過循環發送給下一個(或多個)訓練方或者隨機傳輸某個(或多個)終端[14]實現模型參數的共享.
而縱向聯邦學習則針對相反的情形, 即各個參與方持有的數據特征不同, 但掌握的樣本相同. 例如, 同一個城市中的醫院和銀行都接待過同一個市民, 保留著該市民的就診記錄或資金狀況. 顯然, 醫院和銀行獲取的數據屬性完全不同, 但是所持有的樣本ID是重疊的. 縱向聯邦學習首先需要參與方對齊相同ID的樣本, 然后, 各個參與方在對齊的樣本上分別訓練本地模型并分享參數. 不同架構同樣都適用于縱向聯邦學習, 但由于數據的縱向分布, 參與方之間的依賴程度更高, 模型需要更加精細地設計. 縱向聯邦學習已應用于線性回歸[11]、提升樹[15]、梯度下降[16]等多種模型上. 以縱向聯邦學習線性回歸算法[11]為例, 該算法在樣本對齊后, 將損失函數的梯度拆分, 使得兩個參與方能夠使用各自的本地數據分別計算梯度的一部分, 而需要共同計算的部分則通過雙方交換參數協同完成. 縱向分布的數據之間緊密的相關性, 為縱向學習的效率和容錯性帶來挑戰.
上述兩種類型都是比較理想的情況, 現實生活中, 大部分參與方所持有的數據, 在特征和樣本ID上的重疊都比較少且數據集分布不平衡. 針對這樣的情形, 遷移學習被應用到聯邦學習中來. 遷移學習作為一種有效的學習思想, 能夠將相關領域中的知識遷移到目標領域中, 使得各個參與方共同學習得到遷移知識. 以兩方遷移學習為例[17], 假設一方A掌握樣本的部分特征和全部標簽, 另一方B掌握部分特征, 雙方特征和樣本ID之間都有少量重疊. 聯邦遷移學習首先對齊樣本并共同訓練模型, 然后預測B方樣本的標簽. 為了達到預期效果, 訓練的目標函數包含兩個部分: 一部分是根據已有的標簽預測B方樣本, 使預測誤差最小化; 另一部分是A與B對齊的樣本之間的嵌入式表示的區別最小化. 各方根據目標函數在本地訓練, 并交換中間參數更新模型, 直至模型收斂.
目前, 縱向和遷移聯邦學習的隱私保護算法研究還不成熟, 且保護方式與橫向聯邦學習場景類似. 為了表述簡潔, 下文中調研的隱私保護算法若無特別說明, 即為橫向聯邦學習場景.
3. 聯邦學習中的隱私泄露風險
盡管聯邦學習不直接交換數據, 比傳統的集中式機器學習訓練有了更高的隱私保障, 但聯邦學習本身并沒有提供全面充分的隱私保護, 依然面臨著信息泄露的威脅. 模型面臨的隱私泄露風險來自模型訓練自身的脆弱性和攻擊者的強大能力: 模型訓練過程中, 獨特架構和訓練階段決定了隱私泄露的位置和時機; 攻擊者的角色和能力, 決定了隱私泄露的內容和程度. 而攻擊者依據自身特性所采取的攻擊策略, 則進一步影響攻擊者的能力, 從而影響模型隱私泄露的風險. 理清隱私泄露的風險, 才能為聯邦學習隱私防御找到總體方向.
4 隱私保護機制和技術
**隱私保護技術是防御敏感信息泄露的技術, 能為信息的隱私提供嚴格的可量化的保護. 隱私保護的技術多種多樣, 但總體分為兩大方向: 信息模糊機制和過程加密機制. 信息模糊機制面向數據內容本身, 通過處理數據或參數使數據內容不易被關聯到用戶身份上; 過程加密機制面向數據傳輸的過程, 通過改變數據交換的形式使得傳輸過程中的數據不被識別. 兩類機制使用的場景不同, 但都能在一定程度上抵御上述隱私攻擊.
5 聯邦學習中的隱私保護算法
基于上述隱私保護機制和技術, 學者們為聯邦學習設計了多種保護措施. 盡管這些保護措施設置在訓練的不同階段, 但隱私保護的對象是明確且清晰的: 中心或本地. 中心是指中心服務器所掌握的中間參數和訓練完成的模型; 本地則包括終端所掌握的數據和本地模型參數. 二者是聯邦學習主要的隱私泄露位置. 因此, 本節以隱私保護的對象為線索, 將聯邦學習隱私保護算法分為3種主要類型: 中心保護、本地保護、中心與本地同時保護策略. 中心保護策略以保護中心服務器所掌握的參數為目標, 考慮模型的使用者帶來的威脅; 本地保護策略以保護本地所掌握的參數為目標, 考慮中心服務器帶來的威脅; 中心和本地同時保護策略以保護所有參數為目標, 同時考慮模型使用者和中心服務器所帶來的威脅. 3種保護策略的區別如圖 4所示. 需要說明的是, 本地保護策略提供的保護有時也能起到防御模型使用者(外部攻擊者)的效果, 但防御使用者并非本地保護策略的核心任務, 所以該防御范圍在圖中用虛線表示.
6 未來展望
不同于傳統的集中式機器學習, 聯邦學習由于自身架構和訓練方式的獨特性, 面臨著更多樣的隱私攻擊手段和更迫切隱私保護需求. 現有的聯邦學習隱私保護算法在技術、平衡性、隱私保護成本和實際應用中還存在諸多不足之處. 明確這些問題和挑戰, 才能展望聯邦學習隱私保護未來發展的機遇和方向:
摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。
//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030
關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法
論文引用格式:
王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.
WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.
圖片
1 引言
大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。
早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。
聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。
本文的主要貢獻如下。
● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。
● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。
● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。
● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。
隨著智能移動設備普及化、醫療設備數字化及電子病歷結構化的推進,醫療數據呈現爆發增長的特點。在深入研究探討醫療大數據發展規律,提高對醫療大數據真實價值的認識的同時,如何有效保護數據的隱私安全現已成為廣受關注的重要議題。醫療大數據自身特點以及存儲環境等都為隱私保護帶來了不小的挑戰。首先,介紹了醫療大數據的相關概念以及特點。然后,圍繞醫療大數據生命周期的四個階段數據的采集、存儲、共享以及分析,分別介紹面臨的風險挑戰以及相應的隱私保護技術,并對不同技術的優缺點、適用范圍等進行分析。在數據采集時,匿名技術、差分隱私可以抵御數據集成融合帶來的基于背景知識的攻擊。在存儲階段,醫療大數據多存儲于云平臺,為了數據的機密性和完整性,常使用加密、審計的方法。在數據共享階段,主要使用訪問控制方法來控制獲取數據的對象。在數據分析階段,在機器學習框架下對醫療健康大數據進行隱私保護。最后,針對貫穿醫療大數據生命周期的普遍隱私保護挑戰,從管理的層面提出合理的建議。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
近年來,機器學習迅速地發展,給人們帶來便利的同時,也帶來極大的安全隱患.機器學習的安全與隱私問題已經成為其發展的絆腳石.機器學習模型的訓練和預測均是基于大量的數據,而數據中可能包含敏感或隱私信息,隨著數據安全與隱私泄露事件頻發、泄露規模連年加劇,如何保證數據的安全與隱私引發科學界和工業界的廣泛關注. 首先,介紹了機器學習隱私保護中的敵手模型的概念; 其次總結機器學習在訓練和預測階段常見的安全及隱私威脅,如訓練數據的隱私泄露、投毒攻擊、對抗攻擊、隱私攻擊等.隨后介紹了常見的安全防御方法和隱私保護方法,重點介紹了同態加密技術、安全多方計算技術、差分隱私技術等,并比較了典型的方案及3種技術的適用場景.最后,展望機器學習隱私保護的未來發展趨勢和研究方向.
依托于云計算、物聯網、大數據技術的發展,以數據挖掘和深度學習為代表的人工智能技術正在改變人類社會生活,并成為先進科技應用的代表和社會關注的熱點.作為引領未來的戰略性技術,人工智能技術被世界各國紛紛提升為發展國家競爭力、維護國家安全的重大戰略.
機器學習是一種實現人工智能的方式,是近些年主要研究的領域.目前機器學習方案在很多領域都有著成熟的應用,如天氣預報、能源勘探、環境監測等,通過收集相關數據進行分析學習,可以提高這些工作的準確性;還有如在垃圾郵件檢測、個性化廣告推薦、信用卡欺詐檢測、自動駕駛、人臉識別、自然語言處理、語音識別、搜索引擎的優化等各個領域,機器學習都扮演著重要的角色.然而,蓬勃發展的機器學習技術使數據安全與隱私面臨更加嚴峻的挑戰,因為機器學習的更精準模型需要大量的訓練數據為支撐.
自2013年斯諾登的“棱鏡”事件以來,全球信息泄露規模連年加劇,引起社會的廣泛關注.2016年9月Yahoo被曝出曾被黑客盜取了至少5億個用戶賬號信息;2017年微軟Skype軟件服務遭受DDOS攻擊,導致用戶無法通過平臺進行通信;2018年3月美國《紐約時報》和英國《衛報》均報道:劍橋分析(Cambridge Analytica)數據分析公司在未經用戶許可的情況下,盜用了高達5千萬個Facebook的用戶個人資料[1].2019年美國網絡安全公司UpGuard發現上億條保存在亞馬遜AWS云計算服務器上的Facebook用戶信息記錄,可被任何人輕易地獲取;IBM在未經當事人許可的情況下,從網絡圖庫Flickr上獲得了接近100萬張照片,借此訓練人臉識別程序,并與外部研究人員分享[2].2020年4月《華盛頓郵報》報道視頻會議軟件Zoom存在的重大安全漏洞:數以萬計的私人Zoom視頻被上傳至公開網頁,任何人都可在線圍觀,很多視頻都包含個人可識別信息,甚至是在家里進行的私密談話[3].信息泄露的途徑主要分為內部人員或第三方合作伙伴泄露、信息系統無法杜絕的漏洞、機構本身的防護機制不健全、對數據的重要程度不敏感,以及對安全配置的疏忽大意等.可見,數據隱私的泄露已不單單是滿足某些外部人員好奇心所驅使,而是已成為一種重要的商業獲利而被廣泛關注,其中不乏內外勾結、合謀獲取用戶的隱私等行為.