論文題目:Data Poisoning Attack against Recommender System Using Incomplete and Perturbed Data
作者:Hengtong Zhang, 田長鑫, Yaliang Li, Lu Su, Jing Gao, Nan Yang, 趙鑫
論文概述:最近的研究表明,推薦系統由于其開放性,它們很容易受到數據投毒攻擊。在數據投毒攻擊中,攻擊者通常會通過一組受控制的用戶將精心設計的用戶-項目交互數據注入推薦模型的訓練集,以便根據需要修改模型參數。因此,現有的攻擊方法通常需要完全訪問訓練數據,從而推斷物品的特征,并為受控制的用戶制造虛假交互。但是,由于攻擊者數據收集能力的有限和推薦服務方隱私保護機制的干擾,攻擊者無法實現對訓練數據的完全訪問,這導致這種攻擊方法在實踐中可能并不可行。在本文中,我們提出了兩種新的對抗攻擊方法來處理訓練數據的不完整性和擾動。首先,我們提出了一個雙層優化框架,結合概率生成模型來尋找訓練數據中未被顯著干擾的用戶-物品交互,并利用這些交互數據來制造虛假的用戶-物品交互。此外,我們逆轉了推薦模型的學習過程,并在此基礎上開發了一種簡單而有效的方法,該方法可以結合上下文特定的啟發式規則來處理數據的不完整性和擾動。我們在兩個數據集上對三種典型推薦模型進行了大量實驗,實驗結果表明,所提出的方法比現有方法具有更好的攻擊性能。
在許多數據科學應用中,如推薦系統、在線廣告、醫療等,對表格數據進行預測是一項重要的任務。表格數據被結構成行和列,每一行作為數據樣本,每一列作為特性屬性。表格數據的列和行都帶有可以提高模型預測性能的有用模式。然而,大多數現有模型關注的是跨列模式,而忽略了跨行模式,因為它們獨立處理單個樣本。在這項工作中,我們提出了一個通用的學習框架,名為檢索與交互機(RIM),它充分利用表格數據中的橫行和橫列模式。具體來說,RIM首先利用搜索引擎技術高效地檢索表中有用的行來輔助目標行標簽預測,然后利用特征交互網絡捕捉目標行與被檢索行之間的跨列模式,從而做出最終的標簽預測。我們對三個重要任務的11個數據集進行了廣泛的實驗,即CTR預測(分類)、top-n推薦(排名)和評分預測(回歸)。實驗結果表明,RIM在不同的基準上取得了顯著的改進,證明了RIM的優越性和有效性。
識別惡意用戶對于確保互聯網平臺的安全性和完整性至關重要。已經建立了幾個基于深度學習的檢測模型。然而,惡意用戶可以通過操縱他們的行為來逃避深度檢測模型,使得這些模型幾乎沒有用處。這種深度檢測模型在對抗攻擊時的漏洞是未知的。本文提出了一種新的基于深度用戶序列嵌入的分類模型對抗攻擊模型,該模型利用用戶帖子序列生成用戶嵌入并檢測惡意用戶。在攻擊中,對手生成一個新的帖子來欺騙分類器。我們提出了一種新的端到端個性化文本生成攻擊模型,稱為PETGEN,它同時降低了檢測模型的有效性,并生成具有幾個關鍵的理想屬性的帖子。具體來說,PETGEN會根據用戶的寫作風格生成個性化的帖子,對給定的目標上下文有了解,知道用戶在目標上下文上的歷史帖子,并封裝用戶最近的主題興趣。我們在兩個真實世界的數據集(Yelp和Wikipedia,都有惡意用戶的真實情況)上進行了廣泛的實驗,表明PETGEN顯著降低了流行的基于深度用戶序列嵌入的分類模型的性能。在白盒和黑盒分類器設置中,PETGEN在文本質量和攻擊效能方面優于5個攻擊基準。總的來說,這項工作為下一代的對抗感知序列分類模型鋪平了道路。
協同過濾(CF)作為推薦系統的一種基本方法,通常建立在具有可學習參數的潛在因子模型上,預測用戶對產品的偏好。但是,為給定的數據設計適當的CF模型并不容易,因為數據集的屬性是高度多樣化的。在本文中,基于自動機器學習(AutoML)的最新進展,我們提出利用AutoML技術設計一個數據特定的CF模型。這里的關鍵是一個新的框架,它將最先進的CF方法統一起來,并將它們劃分為輸入編碼、嵌入函數、交互函數和預測函數等不相交的階段。我們進一步開發了一種易于使用、健壯和高效的搜索策略,它利用隨機搜索和性能預測器在上述框架內進行高效搜索。通過這種方式,我們可以從SOTA模型中組合概括出文獻中沒有訪問過的特定于數據的CF模型。在五個真實數據集上的大量實驗表明,對于各種CF任務,我們的方法可以持續優于SOTA方法。進一步的實驗驗證了所提框架的合理性和搜索策略的有效性。搜索的CF模型還可以為將來探索更有效的方法提供見解。
推薦系統(RS)采用知識蒸餾,這是一種模型壓縮技術,用從預訓練的大型教師模型遷移的知識來訓練緊湊的學生模型。最近的研究表明,從教師的中間層遷移知識顯著提高了學生的推薦質量。但是,它們是逐點遷移個體表示的知識,因此存在一個局限,即RS的主要信息在于表示空間中的關系。本文提出了一種新的拓撲蒸餾方法,通過將建立在教師空間關系上的拓撲結構傳遞給學生來指導學生進行拓撲蒸餾。我們首先觀察到,簡單地讓學生學習整個拓撲結構并不總是有效的,甚至會降低學生的表現。我們證明,因為與老師相比,學生的能力是非常有限的,學習整個拓撲結構對學生來說是令人生畏的。為了解決這一問題,我們提出了一種新的分層拓撲蒸餾(HTD)方法,該方法可以分層地對拓撲進行蒸餾,以應對較大的容量缺口。我們在真實數據集上的大量實驗表明,提出的方法明顯優于先進的競爭對手。我們還提供了深入的分析,以確定提取RS拓撲的好處。
音樂流媒體服務嚴重依賴推薦系統來改善用戶體驗,通過幫助他們瀏覽一個大型音樂目錄,并發現新的歌曲、專輯或藝術家。然而,向新用戶推薦相關和個性化的內容,而不需要與目錄進行交互,是一項挑戰。這通常被稱為用戶冷啟動問題。在這篇應用論文中,我們提出了最近部署在音樂流媒體服務Deezer上的系統來解決這個問題。該解決方案利用了一種半個性化的推薦策略,該策略基于深度神經網絡架構,并基于來自異構信息源的用戶集群。通過離線和在線的大規模實驗,我們廣泛展示了該系統在預測冷啟動用戶未來音樂偏好方面的實際影響和有效性。我們公開了我們的代碼以及我們實驗中的匿名使用數據。我們希望此次發布的行業資源將有助于未來用戶冷啟動建議的研究。
雙曲空間提供了豐富的設置來學習具有優越屬性的嵌入,這些屬性在計算機視覺、自然語言處理和計算生物學等領域得到了利用。最近,有人提出了幾種雙曲線方法來學習推薦設置中的用戶和項目的魯棒表示。但是,這些方法不能捕獲推薦領域中通常存在的高階關系。另一方面,圖卷積神經網絡(GCNs)則擅長通過對局部表示應用多層聚合來捕獲更高階的信息。在本文中,我們提出了一個用于協同過濾的雙曲線GCN模型,以一種新穎的方式將這些框架結合起來。我們證明了我們的模型可以在邊緣損失的情況下有效學習,并證明了雙曲空間在邊緣設置下具有理想的性質。在測試時,我們的模型使用雙曲距離來進行推理,雙曲距離保留了學習空間的結構。我們對三個公共基準進行了廣泛的實證分析,并與一組大型基線進行比較。我們的方法實現了非常具有競爭力的結果,并超過領先的基線,包括歐幾里德GCN對等物。我們進一步研究了雙曲線嵌入的性質,并表明它們對數據提供了有意義的見解。該工作的完整代碼可以在這里://github.com/layer6ai-labs/HGCF。
大數據分析的一個關鍵挑戰是如何收集大量(標記)數據。眾包旨在通過聚合和估算來自廣泛的客戶/用戶的高質量數據(如文本的情感標簽)來解決這一挑戰。現有的眾包研究集中于設計新的方法來提高來自不可靠/嘈雜客戶端的聚合數據質量。然而,迄今為止,這種眾包系統的安全方面仍未得到充分的探索。我們的目標是在這項工作中填補這一缺口。具體來說,我們表明眾包很容易受到數據中毒攻擊,即惡意客戶端提供精心制作的數據來破壞聚合數據。我們將我們所提議的數據中毒攻擊規劃為一個優化問題,使聚合數據的錯誤最大化。我們在一個合成的和兩個真實的基準數據集上的評估結果表明,所提出的攻擊可以顯著地增加聚合數據的估計誤差。我們還提出了兩種防御來減少惡意客戶端的影響。我們的實證結果表明,所提出的防御方法可以顯著降低數據中毒攻擊的估計誤差。
//www.zhuanzhi.ai/paper/d25992f7a7df3ee1468f244f05a8ba03
聯邦學習機制以其獨有的隱私保護機制受到很多擁有高質量數據的客戶青睞。通過聯邦學習,能有效地打破數據孤島,使數據發揮更大的作用,實現多方客戶在保證隱私的情況下共贏。但與此同時,在實際應用中各個客戶的數據分布非常不一致,對模型的需求也不盡相同,這些在很大程度上制約了傳統聯邦學習方法的性能和應用范圍。為此, 在客戶數據分布不一致的情況下如何提高模型的魯棒性成為了當前學術界與工業界對聯邦學習算法優化的核心目標,希望通過聯邦學習得到的模型能滿足不同客戶的需求。
傳統的聯邦學習的目的是為了獲得一個全局共享的模型,供所有參與者使用。但當各個參與者數據分布不一致時,全局模型卻無法滿足每個聯邦學習參與者對性能的需求,有的參與者甚至無法獲得一個比僅采用本地數據訓練模型更優的模型。這大大降低了部分用戶參與聯邦學習的積極性。
為了解決上述問題,讓每個參與方都在聯邦學習過程中獲益,個性化聯邦學習在最近獲得了極大的關注。與傳統聯邦學習要求所有參與方最終使用同一個模型不同,個性化聯邦學習允許每個參與方生成適合自己數據分布的個性化模型。為了生成這樣的個性化的模型,常見的方法是通過對一個統一的全局模型在本地進行定制化。而這樣的方法仍然依賴一個高效可泛化的全局模型,然而這樣的模型在面對每個客戶擁有不同分布數據時經常是可遇而不可求的。
為此,華為云 EI 溫哥華大數據與人工智能實驗室自研了一套個性化聯邦學習框架 FedAMP。該框架使用獨特的自適應分組學習機制,讓擁有相似數據分布的客戶進行更多的合作,并對每個客戶的模型進行個性化定制,從而有效地處理普遍存在的數據分布不一致問題,并大幅度提高聯邦學習性能。
基于協同過濾(CF)的潛在因素模型(LFM),如矩陣分解(MF)和深度CF方法,由于其良好的性能和推薦精度,在現代推薦系統(RS)中得到了廣泛的應用。盡管近年來取得了巨大的成功,但事實表明,這些方法易受對抗性例子的影響,即,這是一種微妙但非隨機的擾動,旨在迫使推薦模型產生錯誤的輸出。這種行為的主要原因是,用于LFM訓練的用戶交互數據可能會受到惡意活動或用戶誤操作的污染,從而導致不可預測的自然噪聲和危害推薦結果。另一方面,研究表明,這些最初設想用于攻擊機器學習應用程序的系統可以成功地用于增強它們對攻擊的魯棒性,以及訓練更精確的推薦引擎。在這方面,本調查的目標有兩方面:(i)介紹關于AML-RS的最新進展,以保障AML-RS的安全性。(ii)展示了AML在生成對抗網絡(GANs)中的另一個成功應用,生成對抗網絡(GANs)使用了AML學習的核心概念(即用于生成應用程序。在這項綜述中,我們提供了一個詳盡的文獻回顧60篇文章發表在主要的RS和ML雜志和會議。這篇綜述為RS社區提供了參考,研究RS和推薦模型的安全性,利用生成模型來提高它們的質量。