聯邦學習(federal Learning, FL)是一種去中心化的機器學習范式,其中全局服務器迭代地聚合本地用戶的模型參數,而不訪問他們的數據。用戶異質性給FL帶來了重大挑戰,這可能導致漂移的全局模型收斂緩慢。為了解決這個問題,最近出現了知識蒸餾(Knowledge Distillation),它使用來自異構用戶的聚合知識來精煉服務器模型,而不是直接聚合他們的模型參數。然而,這種方法依賴于代理數據集,因此除非滿足這些前提條件,否則是不切實際的。此外,沒有充分利用集成知識來指導局部模型學習,這可能會影響聚合模型的質量。在這項工作中,我們提出了一種無數據的知識蒸餾方法來解決異構的FL,其中服務器學習一個輕量級的生成器以無數據的方式集成用戶信息,然后將這些信息廣播給用戶,使用學習到的知識作為歸納偏差來調節本地訓練。理論支持的實證研究表明,與現狀相比,我們的方法使用更少的通信輪次,使FL具有更好的泛化性能。
聯邦學習旨在在不犧牲本地數據隱私的情況下,從多個分散的邊緣設備(例如移動設備)或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而,大型深度神經模型和語言模型都是用大量數據訓練的,這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶,在這項工作中,我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰,包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后,我們強調了當前的研究差距和未來的方向。
深度神經網絡已經顯示出從圖像和文本等數據中提取通用特征表示的能力,這對各種學習任務都很有用。在聯邦設置中,表示學習的成果還沒有完全實現。盡管聯邦設置中的數據通常是非iid。在客戶端,集中深度學習的成功表明,數據通常共享一個全局特征表示,而在客戶端或任務之間的統計異質性集中在標簽。基于這種直覺,我們提出了一種新的聯合學習框架和算法來學習跨客戶端共享的數據表示。我們的算法利用客戶機之間的分布式計算能力,針對表示的每次更新的低維局部參數執行許多本地更新。我們證明了該方法在線性設置下獲得了接近最優樣本復雜度的ground-truth表示的線性收斂性,證明了該方法可以有效地降低每個客戶端的問題維數。此外,我們提供了大量的實驗結果,證明了我們的方法在異構環境下優于其他個性化聯合學習方法。
傳統的無監督多源域適應(Multi-source Unsupervised Domain Adaptation)方法假設所有源域數據都可以直接訪問。然而,隱私保護政策要求所有數據和計算都必須在本地進行,這對域適應方法提出了三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而在隱私保護要求下,源域數據本地存儲、不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來構建可遷移的共識知識。大量實驗表明,KD3A顯著優于其他域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
傳統的無監督多源域適應(Domain Adaptation)方法假設所有源域都可以直接訪問。然而,該假設忽略了隱私保護政策,即所有數據和計算都必須在本地進行。在隱私保護要求下進行域適應存在三個挑戰:首先,最小化域間距離需獲取源域和目標域的數據并進行成對計算,而源域數據本地存儲,不可訪問。其次,通信成本和隱私安全限制了現有域適應方法的應用,例如域對抗訓練。最后,由于無法鑒別源域數據質量,更易出現不相關或惡意的源域,從而導致負遷移。為解決上述問題,我們提出一種滿足隱私保護要求的去中心化無監督域適應范式,稱為基于知識蒸餾的去中心化域適應(KD3A),通過對來自多個源域的模型進行知識蒸餾來進行知識遷移。大量實驗表明,KD3A顯著優于其他前沿域適應方法。此外,與其他去中心化的域適應方法相比,KD3A 對負遷移具有魯棒性,并可將通信成本降低100倍。
在真實的應用中,數據通常以增長的方式出現,其中數據量和類的數量可能會動態增加。這將給學習帶來重大挑戰:隨著數據量或類的數量不斷增加,人們必須立即調整神經模型的容量,以獲得良好的性能。現有的方法要么忽視數據增長的本質,要么尋求對給定數據集獨立搜索最優體系結構,因此無法針對變化的數據及時調整體系結構。為了解決這一問題,我們提出了一種神經結構自適應方法,即adaptive eXpert (AdaXpert),可以在不斷增長的數據上有效地調整以前的結構。具體來說,我們引入了一個體系結構調整器,根據以前的體系結構以及當前和以前數據分布之間的不同程度,為每個數據快照生成合適的體系結構。此外,我們提出一個適應條件來確定調整的必要性,從而避免不必要的和耗時的調整。在兩種增長場景(增加數據量和類數)上的大量實驗證明了所提方法的有效性。
深度學習模型的分散訓練是實現網絡上數據隱私和設備上學習的關鍵要素。在現實的學習場景中,不同客戶端局部數據集之間存在異構,這對優化提出了挑戰,并可能嚴重影響泛化性能。在本文中,我們研究并識別了幾種分散優化算法在不同程度的數據異構下的局限性。我們提出了一種新的基于動量的方法來緩解這種分散訓練的困難。我們通過對各種CV/NLP數據集(CIFAR-10、ImageNet和AG News)和幾種網絡拓撲(Ring和Social network)的大量經驗實驗表明,與其他現有方法相比,我們的方法對客戶數據的異構性更穩健,測試性能顯著提高(1% - 20%)。我們的代碼是公開的。
來自傳感器網絡、可穿戴設備和物聯網(IoT)設備的大量數據凸顯了對利用去中心化數據的時空結構的高級建模技術的需求,因為需要邊緣計算和許可(數據訪問)問題。雖然聯邦學習(FL)已經成為一種無需直接數據共享和交換的模型訓練框架,但有效地建模復雜的時空依賴關系以提高預測能力仍然是一個懸而未決的問題。另一方面,最先進的時空預測模型假定對數據的訪問不受限制,而忽略了數據共享的約束。在跨節點聯合學習的約束下,我們提出了跨節點聯合圖神經網絡(CNFGNN)的聯邦時空模型,該模型使用基于圖神經網絡(GNN)的體系結構對底層圖結構進行顯式編碼,這要求節點網絡中的數據在每個節點上本地生成,并且保持分散。CNFGNN通過分離設備上的時間動態建模和服務器上的空間動態,利用交替優化來降低通信成本,促進邊緣設備上的計算。交通流預測任務的計算結果表明,CNFGNN在不增加邊緣設備的計算成本的情況下,在傳感和歸納學習環境下均取得了最佳的預測性能,同時通信成本較低。
對于推薦系統來說,用戶冷啟動推薦是一個長期存在的挑戰,因為只有很少的冷啟動用戶交互可以被利用。最近的研究試圖從元學習的角度解決這一挑戰,大多數研究遵循參數初始化的方式,即通過幾個步驟的梯度更新來學習模型參數。雖然這些基于梯度的元學習模型在一定程度上取得了良好的性能,但其中的一個根本問題是如何將從以前任務中學習到的全局知識更有效地用于冷啟動用戶的推薦。
本文提出了一種新的元學習推薦方法——任務自適應神經過程(TaNP)。TaNP是神經過程家族中的一個新成員,為每個用戶作出推薦都與相應的隨機過程相關聯。TaNP直接將每個用戶觀察到的交互作用映射到一個預測分布,避開了基于梯度的元學習模型中的一些訓練問題。更重要的是,為了平衡模型容量和適應可靠性之間的平衡,我們引入了一種新的任務適應機制。它使我們的模型能夠學習不同任務的相關性,并自定義全局知識到與任務相關的解碼器參數,以估計用戶的偏好。在不同的實驗設置下,我們在多個基準數據集上驗證了TaNP。實證結果表明,TaNP對幾個最先進的元學習推薦器產生了一致的改進。
隨著數據越來越多地存儲在不同的筒倉中,社會越來越關注數據隱私問題,傳統的人工智能(AI)模型集中訓練正面臨效率和隱私方面的挑戰。最近,聯邦學習(FL)作為一種替代解決方案出現,并在這種新的現實中繼續蓬勃發展。現有的FL協議設計已經被證明對系統內外的對抗是脆弱的,危及數據隱私和系統的魯棒性。除了訓練強大的全局模型外,最重要的是設計具有隱私保障和抵抗不同類型對手的FL系統。在本文中,我們對這一問題進行了第一次全面的綜述。通過對FL概念的簡明介紹,和一個獨特的分類涵蓋:1) 威脅模型; 2) 中毒攻擊與魯棒性防御; 3) 對隱私的推理攻擊和防御,我們提供了這一重要主題的可訪問的回顧。我們強調了各種攻擊和防御所采用的直覺、關鍵技術和基本假設。最后,我們對魯棒性和隱私保護聯合學習的未來研究方向進行了討論。
//www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a
引言
隨著計算設備變得越來越普遍,人們在日常使用中產生了大量的數據。將這樣的數據收集到集中的存儲設施中既昂貴又耗時。傳統的集中式機器學習(ML)方法不能支持這種普遍存在的部署和應用,這是由于基礎設施的缺點,如有限的通信帶寬、間歇性的網絡連接和嚴格的延遲約束[1]。另一個關鍵問題是數據隱私和用戶機密性,因為使用數據通常包含敏感信息[2]。面部圖像、基于位置的服務或健康信息等敏感數據可用于有針對性的社交廣告和推薦,造成即時或潛在的隱私風險。因此,私人數據不應該在沒有任何隱私考慮的情況下直接共享。隨著社會對隱私保護意識的增強,《通用數據保護條例》(GDPR)等法律限制正在出現,這使得數據聚合實踐變得不那么可行。
在這種情況下,聯邦學習(FL)(也被稱為協作學習)將模型訓練分發到數據來源的設備上,作為一種有前景的ML范式[4]出現了。FL使多個參與者能夠構建一個聯合ML模型,而不暴露他們的私人訓練數據[4],[5]。它還可以處理不平衡、非獨立和同分布(非i.i.d)數據,這些數據自然出現在真實的[6]世界中。近年來,FL獲得了廣泛的應用,如下一個單詞預測[6]、[7]、安全視覺目標檢測[8]、實體解析[9]等。
根據參與者之間數據特征和數據樣本的分布,聯邦學習一般可以分為水平聯邦學習(HFL)、垂直聯邦學習(VFL)和聯邦遷移學習(FTL)[10]。
具有同構體系結構的FL: 共享模型更新通常僅限于同構的FL體系結構,也就是說,相同的模型被所有參與者共享。參與者的目標是共同學習一個更準確的模型。具有異構架構的FL: 最近的努力擴展了FL,以協同訓練具有異構架構的模型[15],[16]。
FL提供了一個關注隱私的模型訓練的范式,它不需要數據共享,并且允許參與者自由地加入和離開聯盟。然而,最近的研究表明,FL可能并不總是提供足夠的隱私和健壯性保證。現有的FL協議設計容易受到以下攻擊: (1)惡意服務器試圖從個人更新中推斷敏感信息,篡改訓練過程或控制參與者對全局參數的看法;或者(2)一個敵對的參與者推斷其他參與者的敏感信息,篡改全局參數聚合或破壞全局模型。
在隱私泄露方面,在整個訓練過程中,通信模型的更新會泄露敏感信息[18]、[19],并導致深度泄露[20],無論是對第三方服務器還是中央服務器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相當數量的有關本地數據的敏感信息。最近的研究表明,通過簡單地觀察梯度,惡意攻擊者可以在[20],[23]幾次迭代內竊取訓練數據。
在魯棒性方面,FL系統容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻擊。惡意參與者可以攻擊全局模型的收斂性,或者通過故意改變其本地數據(數據中毒)或梯度上傳(模型中毒)將后門觸發器植入全局模型。模型投毒攻擊可以進一步分為:(1)Byzantine 攻擊,攻擊者的目標是破壞全局模型[13]、[30]的收斂性和性能;(2)后門攻擊,對手的目標是在全局模型中植入一個后門觸發器,以欺騙模型不斷預測子任務上的敵對類,同時在主要任務[26],[27]上保持良好的性能。需要注意的是,后門模型投毒攻擊通常利用數據投毒來獲取有毒的參數更新[24]、[26]、[27]。
這些隱私和魯棒性攻擊對FL構成了重大威脅。在集中學習中,服務器控制參與者的隱私和模型魯棒性。然而,在FL中,任何參與者都可以攻擊服務器并監視其他參與者,有時甚至不涉及服務器。因此,理解這些隱私性和健壯性攻擊背后的原理是很重要的。
目前對FL的研究主要集中在系統/協議設計[10]、[31]、[32]。聯邦學習的隱私和穩健性威脅還沒有得到很好的探討。在本文中,我們調研了FL的隱私和魯棒性威脅及其防御方面的最新進展。特別地,我們關注由FL系統內部者發起的兩種特定威脅:1) 試圖阻止學習全局模型的中毒攻擊,或控制全局模型行為的植入觸發器;2) 試圖泄露其他參與者隱私信息的推理攻擊。表2總結了這些攻擊的特性。