研究人員設計了一個有效的協議,當算法使用用戶的私人信息來推薦產品、歌曲或節目時,可以保證其安全。
當我們在網上購物時,算法會推薦產品,或者當我們在流媒體應用程序上聽音樂時,算法會推薦我們可能喜歡的歌曲。
這些算法通過使用我們過去的購買和瀏覽歷史等個人信息來生成定制的推薦。這類數據的敏感性質使得保護隱私極為重要,但解決這一問題的現有方法依賴于沉重的加密工具,需要大量的計算和帶寬。
麻省理工學院的研究人員可能有一個更好的解決方案。他們開發了一種保護隱私的協議,其效率非常高,可以通過非常低速的網絡在智能手機上運行。他們的技術在確保推薦結果準確的同時保護了個人數據。
除了用戶隱私,他們的協議還最大限度地減少了數據庫中未經授權的信息轉移,即所謂的泄漏,即使有惡意代理試圖欺騙數據庫,使其泄露秘密信息。
在數據泄露可能違反用戶隱私法的情況下,新協議可能特別有用,比如當醫療保健提供者使用病人的病史在數據庫中搜索其他有類似癥狀的病人,或者當一家公司根據歐洲隱私法規向用戶提供有針對性的廣告。
"這是一個非常困難的問題。我們依靠一整串的加密和算法技巧來達成我們的協議,"計算機科學和人工智能實驗室(CSAIL)的研究生Sacha Servan-Schreiber說,他也是提出這個新協議的論文的主要作者。
Servan-Schreiber與CSAIL的研究生Simon Langowski以及他們的導師和高級作者Srinivas Devadas(Edwin Sibley Webster電子工程教授)一起撰寫了這篇論文。該研究將在 IEEE Symposium on Security and Privacy發表。
算法推薦引擎的核心技術被稱為近鄰搜索,即在數據庫中找到與查詢點最接近的數據點。被映射到附近的數據點具有相似的屬性,被稱為近鄰。
這些搜索涉及一個與在線數據庫相連的服務器,該數據庫包含數據點屬性的簡明表示。在音樂流媒體服務的案例中,這些屬性被稱為特征向量,可能是不同歌曲的類型或流行度。
為了找到歌曲推薦,客戶端(用戶)向服務器發送一個查詢,其中包含某個特征向量,如用戶喜歡的音樂類型或他們收聽習慣的壓縮歷史。然后,服務器提供數據庫中最接近客戶端查詢的特征向量的ID,而不透露實際的向量。在音樂流媒體的情況下,這個ID可能是一個歌名。客戶端在不了解與之相關的特征向量的情況下就能了解到推薦的歌曲名稱。
"服務器必須能夠在不看到它正在進行計算的數字的情況下進行這種計算。它實際上不能看到這些特征,但仍然需要給你數據庫中最接近的東西,"Langowski說。
為了實現這一目標,研究人員創建了一個協議,該協議依賴于兩個訪問同一數據庫的獨立服務器。使用兩個服務器使這個過程更加有效,并能夠使用一種被稱為私人信息檢索的加密技術。Servan-Schreiber解釋說,這種技術允許客戶端查詢數據庫而不透露它正在搜索的內容。
但是,雖然私人信息檢索在客戶端是安全的,但它本身并不能提供數據庫隱私。數據庫為客戶端提供了一組候選向量--可能的近鄰,這些候選向量通常是由客戶端使用暴力手段篩選出來的。然而,這樣做會向客戶透露很多關于數據庫的信息。額外的隱私挑戰是如何防止客戶端學習這些額外的向量。
研究人員采用了一種調整技術,首先消除了許多額外的向量,然后使用一種不同的技巧,他們稱之為遺忘屏蔽,以隱藏任何額外的數據點,除了實際最近的鄰居。這有效地保留了數據庫的隱私,所以客戶端不會了解到數據庫中的特征向量的任何信息。
一旦他們設計了這個協議,他們就在四個真實世界的數據集上用一個非私有的實施方案對其進行了測試,以確定如何調整算法以最大限度地提高準確性。然后,他們用他們的協議在這些數據集上進行私人近鄰搜索查詢。
他們的技術每次查詢只需要幾秒鐘的服務器處理時間,客戶端和服務器之間的通信量不到10兆字節,即使是包含超過1000萬個項目的數據庫。相比之下,其他安全方法可能需要數千兆字節的通信或數小時的計算時間。對于每次查詢,他們的方法都達到了95%以上的準確率(意味著幾乎每次都能找到與查詢點的實際近似近鄰)。
他們用來實現數據庫隱私的技術將挫敗一個惡意的客戶端,即使它發送虛假查詢,試圖欺騙服務器泄露信息。
"一個惡意的客戶端不會比一個遵循協議的誠實的客戶端學到更多的信息。而且,它也能防止惡意的服務器。如果一個人偏離了協議,你可能不會得到正確的結果,但他們永遠不會知道客戶端的查詢是什么," Langowski說。
在未來,研究人員計劃調整該協議,以便它能夠只使用一個服務器來保護隱私。這可以使它應用于更多的實際情況,因為它將不需要使用兩個不相沖突的實體(它們彼此不共享信息)來管理數據庫。
"最近的鄰居搜索是許多關鍵的機器學習驅動的應用的基礎,從向用戶提供內容推薦到對醫療狀況進行分類。然而,它通常需要與一個中央系統共享大量數據,以匯總和啟用搜索,"Capital One公司應用機器學習研究主管Bayan Bruss說,他沒有參與這項工作。"這項研究提供了一個關鍵步驟,確保用戶從最近的鄰居搜索中獲得好處,同時相信中央系統不會將他們的數據用于其他目的。"
最近鄰搜索是一個廣泛的應用的基本構件。一個保護隱私的近鄰搜索協議涉及一組客戶,他們向遠程數據庫發送查詢。每個客戶端在不透露任何查詢信息的情況下,在數據庫中檢索與其查詢最接近的鄰居(s)。為了確保數據庫的私密性,客戶必須盡可能少地了解查詢答案以外的信息,即使是通過偏離協議的方式進行惡意行為。
現有的私有近鄰搜索協議需要沉重的加密工具,導致高計算和帶寬的開銷。在本文中,我們提出了第一個用于私有近鄰搜索的輕量級協議。我們的協議使用兩個無沖突的服務器進行實例化,每個服務器持有一個數據庫的副本。我們的設計支持任意數量的客戶通過這兩個服務器同時查詢數據庫。每個查詢都是由客戶和兩個服務器之間的單輪通信組成。服務器之間不需要通信來回答查詢。
如果至少有一個服務器是不結盟的,我們確保(1)客戶的查詢沒有信息被泄露,(2)客戶和服務器之間的總通信量是數據庫大小的次線性,(3)每個查詢答案只向客戶泄露少量的、有界限的數據庫信息,即使客戶是惡意的。
我們實現了我們的協議并報告了它在真實世界數據上的表現。我們的結構在10M特征向量的大型數據庫上需要10到20秒的查詢延遲。客戶端的開銷保持在每次查詢處理時間10ms以下,通信量小于10MB。
麻省理工學院的研究人員開發了一種機器學習技術,該技術學習以一種捕獲在視覺和音頻模式之間共享的概念方式來表征數據。他們的模型可以識別視頻中某些動作發生的位置并對其進行標記。
人類通過不同方式的組合來觀察世界,例如視覺、聽覺和我們對語言的理解。另一方面,機器通過算法可以處理數據來解釋世界。
因此,當機器“看到”一張照片時,它必須將該照片編碼為可用于執行圖像分類等任務的數據。當輸入有多種格式(如視頻、音頻剪輯和圖像)時,此過程會變得更加復雜。
“這里的主要挑戰是,機器如何調整這些不同的模式?作為人類,這對我們來說很容易。我們看到一輛汽車,然后聽到汽車駛過的聲音,我們知道這些是一回事。但對于機器學習來說,這并不是那么簡單,”麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 的研究生、解決這個問題的論文的第一作者 Alexander Liu 說。
Liu 和他的合作者開發了一種人工智能技術,該技術學習以捕捉視覺和音頻模式之間共享的概念方式來表征數據。例如,他們的方法可以了解到視頻中嬰兒哭泣的動作與音頻剪輯中的口語“哭泣”有關。
利用這些知識,他們的機器學習模型可以識別視頻中某個動作發生的位置并對其進行標記。
在跨模態檢索任務中,它比其他機器學習方法表現更好,這些任務涉及查找一段數據,如視頻,與以另一種形式(如口語)給出的用戶查詢相匹配。他們的模型還使用戶更容易了解為什么機器認為它檢索到的視頻與他們的查詢匹配。
有朝一日,這種技術可以用來幫助機器人通過感知來了解世界上的概念,就像人類一樣。
與Liu一起參與論文的是 CSAIL 博士后 SouYoung Jin;研究生 Cheng-I Jeff Lai 和 Andrew Rouditchenko;Aude Oliva,CSAIL 高級研究科學家,MIT-IBM Watson AI 實驗室主任;和資深作者James Glass,高級研究科學家和 CSAIL 口語系統小組的負責人。
該研究將在計算語言學協會年會(ACL)上發表。
研究人員將他們的工作重點放在表征學習上,這是一種機器學習形式,旨在轉換輸入數據以使其更容易執行分類或預測等任務。
表征學習模型獲取原始數據,例如視頻及其相應的文本字幕,并通過提取特征或對視頻中對象和動作的觀察來對它們進行編碼。然后它將這些數據點映射到一個網格中,稱為嵌入空間。該模型將相似的數據聚集在一起作為網格中的單個點。這些數據點或向量中的每一個都由一個單獨的單詞表示。
例如,一個人雜耍的視頻剪輯可能會映射到一個標有“雜耍”的向量。
研究人員對模型進行了限制,使其只能使用 1000 個單詞來標記向量。該模型可以決定要將哪些動作或概念編碼到單個向量中,但它只能使用 1,000 個向量。模型選擇它認為最能代表數據的詞。
他們的方法不是將來自不同模態的數據編碼到單獨的網格上,而是采用共享的嵌入空間,其中兩個模態可以一起編碼。這使模型能夠從兩種模式中學習表征之間的關系,例如顯示一個人雜耍的視頻和一個人說“雜耍”的錄音。
為了幫助系統處理來自多種模式的數據,他們設計了一種算法,引導機器將相似的概念編碼到同一個向量中。
“如果有一個關于豬的視頻,模型可能會將‘豬’這個詞分配給 1000 個向量中的一個。然后,如果模型聽到有人在音頻剪輯中說出“豬”這個詞,它仍應使用相同的向量對其進行編碼,”Liu解釋道。
他們使用三個數據集在跨模態檢索任務中測試了該模型:一個包含視頻剪輯和文本字幕的視頻-文本數據集,一個包含視頻剪輯和語音音頻字幕的視頻-音頻數據集,以及一個包含圖像和語音音頻的圖像-音頻數據集字幕。
例如,在視頻-音頻數據集中,模型選擇了 1000 個單詞來表示視頻中的動作。然后,當研究人員向其提供音頻查詢時,該模型試圖找到與這些口語最匹配的剪輯。
“就像谷歌搜索一樣,你輸入一些文本,機器會嘗試告訴你正在搜索的最相關的內容。只有我們在向量空間中這樣做,”Liu說。
與他們模型相比,他們的技術不僅更有可能找到更好的匹配,而且更容易理解。
因為該模型只能使用總共 1,000 個單詞來標記向量,所以用戶可以更容易地看到機器用來推斷視頻和口語相似的單詞。Liu說,這可以使模型更容易應用于現實世界的情況,在這種情況下,用戶了解它如何做出決策至關重要。
該模型仍有一些限制,他們希望在未來的工作中解決。一方面,他們的研究一次集中在兩種模式的數據上,但在現實世界中,人類會同時遇到許多數據模式,Liu說。
“我們知道 1,000 個單詞在這種數據集上有效,但我們不知道它是否可以推廣到現實世界的問題,”他補充道。
此外,他們數據集中的圖像和視頻包含簡單的對象或直接的動作;現實世界的數據要混亂得多。他們還想確定當輸入的多樣性更廣泛時,他們的方法擴大規模的效果如何。
這項研究得到了 MIT-IBM Watson AI 實驗室及其成員公司 Nexplore 和 Woodside 以及 MIT Lincoln 實驗室的部分支持。
表征學習的最新進展已經證明了在單個高級嵌入向量中表征來自不同模態(例如視頻、文本和音頻)信息的能力。在這項工作中,我們提出了一個自我監督的學習框架,該框架能夠學習一種表征,該表征在不同的模態中捕獲更精細的粒度級別,例如由視覺對象或口語表示的概念或事件。我們的框架依賴于通過向量量化創建的離散化嵌入空間,該空間在不同的模態中共享。除了共享嵌入空間,我們提出了一個跨模態代碼匹配目標,它強制來自不同視圖(模態)的表示在離散的嵌入空間上具有相似的分布,從而可以在沒有直接監督的情況下執行跨模態對象/動作定位。在我們的實驗中,我們表明所提出的離散化多模態細粒度表征(例如,像素/單詞/幀)可以補充高級摘要表示(例如,視頻/句子/波形),以提高跨模態檢索任務的性能。我們還觀察到離散化表征使用單個集群來表征跨模態的相同語義概念。
隨著深度學習系統對數據和計算資源的快速需求,越來越多的算法利用協同機器學習技術,例如聯邦學習,在多個參與者之間訓練一個共享的深度模型。它可以有效地利用每個參與者的資源,獲得一個更強大的學習系統。然而,這些系統中的完整性和隱私威脅極大地阻礙了協同學習的應用。在不同的協同學習系統中,為了保持模型的完整性和減少訓練數據在訓練階段的隱私泄露,已經提出了大量的工作。與現有的主要針對某一特定協同學習系統的調研查相比,本調研旨在對協同學習中的安全和隱私研究進行系統、全面的綜述。我們的調研首先提供了協同學習的系統概述,然后簡要介紹了完整性和隱私威脅。然后,我們將以一種有組織的方式詳細介紹現有的完整性和隱私攻擊以及它們的防御。我們還列出了這一領域的一些開放問題,并將GitHub上的相關論文開源: //github.com/csl-cqu/awesome-secure-collebrativelearning-papers。
深度學習在計算機視覺、自然語言處理、生物信息學和桌面游戲程序等多個領域都取得了巨大的成功。DL系統采用深度神經網絡(DNNs),通過對龐大的訓練數據集[1]-[4]的經驗自動改進。為了有效地訓練DL模型,學習系統主要依賴于兩個組件:大量高質量的訓練樣本和高性能的GPU。但是由于各種原因,訓練數據集和GPU可能分布在不同的地方。考慮以下兩個例子[5]-[7]:醫學圖像分類。一家醫院想要學習一種肺癌探測器模型,以幫助醫生從他們的計算機斷層掃描(CT)圖像中識別肺癌患者。由于醫院接收的肺癌患者數量有限,學習一個高度準確的模型對醫院來說是困難的。為了保證診斷的準確性,醫院聯合其他醫院共同協同學習共享模型。考慮到患者的隱私,所有醫院都需要局部保留CT圖像。
最近,協同學習作為一種很有前途的解決方案在[8]-[14]這樣的應用場景中很受歡迎。具體來說,協同學習允許兩個或更多參與者協作訓練一個共享的全局DL模型,同時保持他們的訓練數據集在本地。每個參與者在自己的訓練數據上訓練共享模型,并與其他參與者交換和更新模型參數。協同學習可以提高共享模型的訓練速度和性能,同時保護參與者的訓練數據集的隱私。因此,對于訓練數據敏感的場景(如醫療記錄、個人身份信息等),它是一種很有前途的技術。已經提出了幾種用于協同學習的學習架構:有或沒有中央服務器,有不同的模型聚合方式,等等[15]-[22]。協同學習的一個重要分支是[23]聯邦學習,它使手機能夠協同學習一個共享的預測模型,同時將所有的訓練數據保存在設備上,將機器學習的能力與將數據存儲在云端的需求分離開來。
雖然每個參與者在本地存儲訓練數據集,并且每次迭代時只共享全局模型的更新,但對手也可以在訓練過程中進行破壞模型完整性和數據隱私的攻擊,即[24]-[27]。最嚴重的威脅之一是模型完整性,當一些參與者不值得信任[28],[29]時,很容易損害模型完整性。例如,惡意參與者用一些精心設計的惡意觸發器毒害他們的訓練數據集。然后,在每次迭代中,利用觸發器生成惡意更新,并通過共享惡意更新,逐步將后門等觸發器注入到全局模型中,以獲取額外利潤或增加自身優勢[30],[31]。敵人也可以偽裝成參與者加入協同學習過程,并通過向其鄰居或參數服務器[25]、[32]、[33]發送惡意更新來破壞學習過程。Blanchard et al.[28]和Guo et al.[29]表明,只有一個惡意參與者能夠控制整個協同學習過程。
除了模型完整性威脅,另一個關鍵的挑戰是保護每個參與者的數據隱私。研究表明,盡管參與者不與他人共享原始訓練樣本,但共享更新是由樣本生成的,并間接泄露了訓練數據集的信息。例如,Melis et al.[34]發現,在訓練過程中,可以從共享梯度中捕獲成員和意外特征泄漏。更嚴重的是,Zhu等人[26]提出了一種優化方法,可以從相應的更新中重構出訓練樣本。針對上述完整性和隱私威脅,提出了多種方法來防御[24]、[26]、[28]、[35]-[48]、[48]、[49]、[49]-[66]。例如,為了實現byzantine彈性協同學習,Blanchard et al.[28]在每次迭代中使用統計工具檢查參與者的更新,并在聚合更新時放棄潛在的惡意更新。在隱私保護方面,Gao等[67]提出了搜索保護隱私的變換函數,并使用保護隱私的變換函數對訓練樣本進行預處理,以抵御重構攻擊,同時保持訓練后DL模型的準確性。一些防御[68]-[72]也提出了健壯的和隱私保護的防御方法來防御完整性和隱私威脅。
在這篇論文中,我們關注在協同學習的訓練過程中的完整性和隱私攻擊和防御,并提出了一個最新的解決方案的全面綜述。具體來說,我們從不同的角度系統地介紹了不同類型的協同學習系統(第二節)。然后,我們在第三節中總結總結了協同學習中的隱私和完整性威脅。一方面,我們在第四節和第五節分別展示了現有的攻擊和相應的防御。另一方面,我們在第五節中分別展示了最先進的完整性隱私攻擊和相應的防御。我們總結了混合防御方法來實現魯棒和隱私保護的協同學習和對抗訓練算法來提高模型推理的魯棒性。我們在第IX節闡述了協同學習中一些開放的問題和未來的解決方案,然后在第X節中總結了這篇文章。我們還在GitHub上開源了論文的攻防方法列表:
摘要:針對隱私保護的法律法規相繼出臺,數據孤島現象已成為阻礙大數據和人工智能技術發展的主要瓶頸。聯邦學習作為隱私計算的重要技術被廣泛關注。從聯邦學習的歷史發展、概念、架構分類角度,闡述了聯邦學習的技術優勢,同時分析了聯邦學習系統的各種攻擊方式及其分類,討論了不同聯邦學習加密算法的差異。總結了聯邦學習隱私保護和安全機制領域的研究,并提出了挑戰和展望。
//www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2021030
關鍵詞:聯邦學習 ; 聯邦學習系統攻擊 ; 隱私保護 ; 加密算法
論文引用格式:
王健宗, 孔令煒, 黃章成, 等. 聯邦學習隱私保護研究進展[J]. 大數據, 2021, 7(3): 130-149.
WANG J Z, KONG L W, HUANG Z C, et al. Research advances on privacy protection of federated learning[J]. Big Data Research, 2021, 7(3): 130-149.
圖片
1 引言
大數據、人工智能和云產業等的爆發式發展,一方面為傳統行業帶來升級變革的新機遇,另一方面也給數據和網絡安全帶來了新挑戰。不同行業的公司會收集大量的數據信息,同一企業下不同層級的部門也會收集不同的信息,由于行業間的競爭和壟斷,以及同一企業下不同系統和業務的閉塞性與阻隔性,很難實現數據信息的交流與整合。當不同的企業之間,以及同一企業下屬不同部門之間需要合作進行聯合建模時,將面臨跨越重重數據壁壘的考驗。這類挑戰也被稱為數據孤島問題。
早期的分布式計算試圖通過整合不同來源的數據進行分布式的建模,從而解決這類數據孤島問題。分布式建模將具有龐大計算量的任務部署到多臺機器上,提升了計算效率,減少了任務耗能。但是分布式機器學習依舊存在問題,重量級的分布式系統架構通常會產生巨大的溝通成本,影響數據的傳輸和處理效率。隨著人工智能技術的進一步發展和更廣泛的應用,數據隱私敏感性問題日益被重視。大規模的數據傳輸不可避免地會涉及隱私泄露問題,對于異構數據的聯合訓練和隱私安全問題,依然沒有找到一個令人滿意的解決方案。
聯邦學習(federated learning,FL)給上述難題提供了解決方案。聯邦學習是由谷歌公司在2016年率先提出的概念,該技術在數據不共享的情況下完成聯合建模共享模型。具體來講,各個數據持有方(個人/企業/機構)的自有數據不出本地,通過聯邦系統中加密機制下的模型參數交換方式(即在不違反數據隱私法規的情況下),聯合建立一個全局的共享模型,建好的模型為所有參與方共享使用。相對于分布式計算,聯邦學習有更多的優勢,例如在隱私保護領域,聯邦學習從算法層面上設計并考慮了客戶端間傳輸信息的加密。本文主要從隱私保護和安全加密的角度,對聯邦學習進行系統綜述。
本文的主要貢獻如下。
● 本文對聯邦學習的歷史進行了詳細的敘述,從安全隱私的分布式學習發展到現在的聯邦學習系統,總結了聯邦學習發展的歷程。
● 本文從新的角度闡述了聯邦學習的類型。與傳統方式不同,本文從面向企業(to business,ToB)和面向客戶(to customer,ToC)的應用場景的區別出發,分析了聯邦學習的不同。
● 詳細地從聯邦學習攻擊的角度分析聯邦系統面臨的各種可能的攻擊手段,并系統地將聯邦學習的攻擊手段進行了分類總結。
● 聯邦學習的加密機制在一定程度上可以抵御一些聯邦學習攻擊,或者大大增加攻擊的難度。本文從加密算法的角度詳細討論了聯邦學習的加密機制。