傳統的無監督多源域適應(Domain Adaptation)方法假設所有源域都可以直接訪問。然而,該假設忽略了隱私保護政策,即所有數據和計算都必須在本地進行。在隱私保護要求下進行域適應存在三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而源域數據本地存儲,不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用,例如域對抗訓練。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來進行知識遷移。大量實驗表明,KD3A顯著優于其他前沿域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
許多視頻分類應用需要訪問用戶的個人數據,從而對用戶的隱私構成入侵性安全風險。我們提出了一種基于卷積神經網絡的單幀方法視頻分類的隱私保護實現,該實現允許一方從視頻中推斷出標簽,而無需視頻所有者以非加密的方式向其他實體披露他們的視頻。類似地,我們的方法消除了分類器所有者以明文形式向外部實體透露其模型參數的要求。為此,我們將現有的用于私有圖像分類的安全多方計算(MPC)協議與用于無關單幀選擇和跨幀安全標簽聚合的新MPC協議相結合。結果是一個端到端的隱私保護視頻分類流程。我們在一個私人人類情感識別的應用評估了提出的解決方案。各種安全設置的結果,包括計算各方的誠實和不誠實的大多數配置,以及被動型和主動型對手,表明視頻可以以最先進的精確度分類,而且不會泄露敏感用戶信息。
我們考慮在分布在用戶設備上的私有數據上建立訓練模型。為了確保隱私,我們添加了設備上的噪聲,并使用安全聚合,以便只向服務器顯示噪聲和。我們提出了一個全面的端到端系統,在執行安全聚合之前適當地離散數據并添加離散高斯噪聲。我們提供了一種新的離散高斯和的隱私分析方法,并仔細分析了數據量化和模求和算法的影響。我們的理論保證強調了溝通、隱私和準確性之間的復雜張力。我們廣泛的實驗結果表明,我們的解決方案基本上能夠以低于16位精度的每個值匹配中心差分隱私的精度。
傳統的無監督多源域適應(Multi-source Unsupervised Domain Adaptation)方法假設所有源域數據都可以直接訪問。然而,隱私保護政策要求所有數據和計算都必須在本地進行,這對域適應方法提出了三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而在隱私保護要求下,源域數據本地存儲、不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來構建可遷移的共識知識。大量實驗表明,KD3A顯著優于其他域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
我們提出了一個嚴格的方法,使用一組任意相關的弱監督源,以解決多類分類任務時,只有一個非常小的標記數據集可用。我們的學習算法可證明收斂于一個模型,該模型對于一組未標記數據的可行標記的對抗性選擇具有最小的經驗風險,其中標記的可行性是通過對弱監督源的嚴格估計統計量定義的約束來計算的。我們為這種依賴于弱監督來源提供的信息的方法提供了理論保障。值得注意的是,該方法不要求弱監督源具有與多類分類任務相同的標注空間。我們通過實驗證明了我們的方法在各種圖像分類任務中的有效性。
聯邦學習(federal Learning, FL)是一種去中心化的機器學習范式,其中全局服務器迭代地聚合本地用戶的模型參數,而不訪問他們的數據。用戶異質性給FL帶來了重大挑戰,這可能導致漂移的全局模型收斂緩慢。為了解決這個問題,最近出現了知識蒸餾(Knowledge Distillation),它使用來自異構用戶的聚合知識來精煉服務器模型,而不是直接聚合他們的模型參數。然而,這種方法依賴于代理數據集,因此除非滿足這些前提條件,否則是不切實際的。此外,沒有充分利用集成知識來指導局部模型學習,這可能會影響聚合模型的質量。在這項工作中,我們提出了一種無數據的知識蒸餾方法來解決異構的FL,其中服務器學習一個輕量級的生成器以無數據的方式集成用戶信息,然后將這些信息廣播給用戶,使用學習到的知識作為歸納偏差來調節本地訓練。理論支持的實證研究表明,與現狀相比,我們的方法使用更少的通信輪次,使FL具有更好的泛化性能。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。
聯邦學習機制以其獨有的隱私保護機制受到很多擁有高質量數據的客戶青睞。通過聯邦學習,能有效地打破數據孤島,使數據發揮更大的作用,實現多方客戶在保證隱私的情況下共贏。但與此同時,在實際應用中各個客戶的數據分布非常不一致,對模型的需求也不盡相同,這些在很大程度上制約了傳統聯邦學習方法的性能和應用范圍。為此, 在客戶數據分布不一致的情況下如何提高模型的魯棒性成為了當前學術界與工業界對聯邦學習算法優化的核心目標,希望通過聯邦學習得到的模型能滿足不同客戶的需求。
傳統的聯邦學習的目的是為了獲得一個全局共享的模型,供所有參與者使用。但當各個參與者數據分布不一致時,全局模型卻無法滿足每個聯邦學習參與者對性能的需求,有的參與者甚至無法獲得一個比僅采用本地數據訓練模型更優的模型。這大大降低了部分用戶參與聯邦學習的積極性。
為了解決上述問題,讓每個參與方都在聯邦學習過程中獲益,個性化聯邦學習在最近獲得了極大的關注。與傳統聯邦學習要求所有參與方最終使用同一個模型不同,個性化聯邦學習允許每個參與方生成適合自己數據分布的個性化模型。為了生成這樣的個性化的模型,常見的方法是通過對一個統一的全局模型在本地進行定制化。而這樣的方法仍然依賴一個高效可泛化的全局模型,然而這樣的模型在面對每個客戶擁有不同分布數據時經常是可遇而不可求的。
為此,華為云 EI 溫哥華大數據與人工智能實驗室自研了一套個性化聯邦學習框架 FedAMP。該框架使用獨特的自適應分組學習機制,讓擁有相似數據分布的客戶進行更多的合作,并對每個客戶的模型進行個性化定制,從而有效地處理普遍存在的數據分布不一致問題,并大幅度提高聯邦學習性能。
聯邦學習是一種新型的分布式學習框架,它允許在多個參與者之間共享訓練數據而不會泄露其數據隱私。但是這種新穎的學習機制仍然可能受到來自各種攻擊者的前所未有的安全和隱私威脅。本文主要探討聯邦學習在安全和隱私方面面臨的挑戰。首先,本文介紹了聯邦學習的基本概念和威脅模型,有助于理解其面臨的攻擊。其次,本文總結了由內部惡意實體發起的3種攻擊類型,同時分析了聯邦學習體系結構的安全漏洞和隱私漏洞。然后從差分隱私、同態密碼系統和安全多方聚合等方面研究了目前最先進的防御方案。最后通過對這些解決方案的總結和比較,進一步討論了該領域未來的發展方向。
數據孤島以及模型訓練和應用過程中的隱私泄露是當下阻礙人工智能技術發展的主要難題。聯邦學習作為一種高效的隱私保護手段應運而生。聯邦學習是一種分布式的機器學習方法,以在不直接獲取數據源的基礎上,通過參與方的本地訓練與參數傳遞,訓練出一個無損的學習模型。但聯邦學習中也存在較多的安全隱患。本文著重分析了聯邦學習中的投毒攻擊、對抗攻擊以及隱私泄露三種主要的安全威脅,針對性地總結了最新的防御措施,并提出了相應的解決思路。