識別惡意用戶對于確保互聯網平臺的安全性和完整性至關重要。已經建立了幾個基于深度學習的檢測模型。然而,惡意用戶可以通過操縱他們的行為來逃避深度檢測模型,使得這些模型幾乎沒有用處。這種深度檢測模型在對抗攻擊時的漏洞是未知的。本文提出了一種新的基于深度用戶序列嵌入的分類模型對抗攻擊模型,該模型利用用戶帖子序列生成用戶嵌入并檢測惡意用戶。在攻擊中,對手生成一個新的帖子來欺騙分類器。我們提出了一種新的端到端個性化文本生成攻擊模型,稱為PETGEN,它同時降低了檢測模型的有效性,并生成具有幾個關鍵的理想屬性的帖子。具體來說,PETGEN會根據用戶的寫作風格生成個性化的帖子,對給定的目標上下文有了解,知道用戶在目標上下文上的歷史帖子,并封裝用戶最近的主題興趣。我們在兩個真實世界的數據集(Yelp和Wikipedia,都有惡意用戶的真實情況)上進行了廣泛的實驗,表明PETGEN顯著降低了流行的基于深度用戶序列嵌入的分類模型的性能。在白盒和黑盒分類器設置中,PETGEN在文本質量和攻擊效能方面優于5個攻擊基準。總的來說,這項工作為下一代的對抗感知序列分類模型鋪平了道路。
深度學習技術已廣泛應用于從復雜數據中檢測異常。由于缺乏大量標記異常,這些技術大多是無監督或半監督的。然而,他們通常依靠一個沒有被異常污染的干凈的訓練數據來學習正態數據的分布。否則,學習的分布往往會被扭曲,因此在區分正常和異常數據時無效。為了解決這個問題,我們提出了一種叫做ELITE的新方法,它使用少量標記的例子來推斷隱藏在訓練樣本中的異常。然后,它將這些異常轉化為有用的信號,幫助從用戶數據中更好地檢測異常。與經典的半監督分類策略(使用標記樣本作為訓練數據)不同,ELITE使用標記樣本作為驗證集。它利用驗證損失的梯度來預測一個訓練樣本是否異常。直覺上,正確識別隱藏異常可以產生更好的深度異常模型,減少驗證損失。我們在公共基準數據集上的實驗表明,ELITE在ROC AUC方面比最先進的方法提高了30%,但對受污染的訓練數據仍具有魯棒性。
論文題目:Data Poisoning Attack against Recommender System Using Incomplete and Perturbed Data
作者:Hengtong Zhang, 田長鑫, Yaliang Li, Lu Su, Jing Gao, Nan Yang, 趙鑫
論文概述:最近的研究表明,推薦系統由于其開放性,它們很容易受到數據投毒攻擊。在數據投毒攻擊中,攻擊者通常會通過一組受控制的用戶將精心設計的用戶-項目交互數據注入推薦模型的訓練集,以便根據需要修改模型參數。因此,現有的攻擊方法通常需要完全訪問訓練數據,從而推斷物品的特征,并為受控制的用戶制造虛假交互。但是,由于攻擊者數據收集能力的有限和推薦服務方隱私保護機制的干擾,攻擊者無法實現對訓練數據的完全訪問,這導致這種攻擊方法在實踐中可能并不可行。在本文中,我們提出了兩種新的對抗攻擊方法來處理訓練數據的不完整性和擾動。首先,我們提出了一個雙層優化框架,結合概率生成模型來尋找訓練數據中未被顯著干擾的用戶-物品交互,并利用這些交互數據來制造虛假的用戶-物品交互。此外,我們逆轉了推薦模型的學習過程,并在此基礎上開發了一種簡單而有效的方法,該方法可以結合上下文特定的啟發式規則來處理數據的不完整性和擾動。我們在兩個數據集上對三種典型推薦模型進行了大量實驗,實驗結果表明,所提出的方法比現有方法具有更好的攻擊性能。
內容流(Content feed)是一種向用戶推薦一系列內容以供用戶瀏覽和參與的產品,在社交媒體平臺上受到了極大的歡迎。在本文中,我們提出使用時間序列分析技術從項目序列的角度來研究這種情況下的多樣性問題。我們提出了一種稱為滑動譜分解(SSD)的方法,該方法可以捕捉用戶在瀏覽一個長項目序列時的多樣性感知。我們也分享了我們在設計和實現一種合適的項目嵌入方法來精確測量長尾效應下的相似度的經驗。如今,這兩款產品已經在小紅書App的產品推薦系統中得到了全面的實現和部署,該系統每天為數千萬用戶提供主要的和有效性。Explore Feed產品。通過理論分析、離線實驗和在線A/B測試,驗證了該方法的有效性。
假新聞以前所未有的速度傳播,到達全球受眾,通過社交媒體平臺將用戶和社區置于極大的風險之中。基于深度學習的模型在對感興趣事件上的大量標記數據進行訓練時表現出良好的性能,而模型在其他事件上的性能則由于域漂移而下降。因此,現有的突發事件假新聞檢測方法面臨著重大挑戰,難以獲得大規模標記數據集。此外,添加來自新突發事件的知識需要從頭構建一個新模型或繼續微調模型,這對于現實世界的設置可能是具有挑戰性的、昂貴的和不現實的。為了應對這些挑戰,我們提出了端到端假新聞檢測框架MetaFEND,該框架能夠快速學習并檢測突發事件中的假新聞,并且有一些經過驗證的帖子。具體來說,該模型將元學習和神經過程方法集成在一起,以享受這些方法的好處。特別提出了標簽嵌入模塊和硬注意力機制,通過處理分類信息和修剪不相關的帖子來提高效率。在從Twitter和微博收集的多媒體數據集上進行了廣泛的實驗。實驗結果表明,該模型能夠有效地檢測出未見事件的假新聞,并優于現有的方法。
大數據分析的一個關鍵挑戰是如何收集大量(標記)數據。眾包旨在通過聚合和估算來自廣泛的客戶/用戶的高質量數據(如文本的情感標簽)來解決這一挑戰。現有的眾包研究集中于設計新的方法來提高來自不可靠/嘈雜客戶端的聚合數據質量。然而,迄今為止,這種眾包系統的安全方面仍未得到充分的探索。我們的目標是在這項工作中填補這一缺口。具體來說,我們表明眾包很容易受到數據中毒攻擊,即惡意客戶端提供精心制作的數據來破壞聚合數據。我們將我們所提議的數據中毒攻擊規劃為一個優化問題,使聚合數據的錯誤最大化。我們在一個合成的和兩個真實的基準數據集上的評估結果表明,所提出的攻擊可以顯著地增加聚合數據的估計誤差。我們還提出了兩種防御來減少惡意客戶端的影響。我們的實證結果表明,所提出的防御方法可以顯著降低數據中毒攻擊的估計誤差。
//www.zhuanzhi.ai/paper/d25992f7a7df3ee1468f244f05a8ba03
隨著高計算設備的發展,深度神經網絡(DNNs)近年來在人工智能(AI)領域得到了廣泛的應用。然而,之前的研究表明,DNN在經過策略性修改的樣本(稱為對抗性樣本)面前是脆弱的。這些樣本是由一些不易察覺的擾動產生的,但可以欺騙DNN做出錯誤的預測。受圖像DNNs中生成對抗性示例的流行啟發,近年來出現了針對文本應用的攻擊DNNs的研究工作。然而,現有的圖像擾動方法不能直接應用于文本,因為文本數據是離散的。在這篇文章中,我們回顧了針對這一差異的研究工作,并產生了關于DNN的電子對抗實例。我們對這些作品進行了全面的收集、選擇、總結、討論和分析,涵蓋了所有相關的信息,使文章自成一體。最后,在文獻回顧的基礎上,我們提出了進一步的討論和建議。
【簡介】深度神經網絡(DNNs)在各項任務上都取得了不俗的表現。然而,最近的研究表明通過對輸入進行很小的擾動就可以輕易的騙過DNNs,這被稱作對抗式攻擊。作為DNNs在圖上的擴展,圖神經網絡(GNNs)也繼承了這一缺陷。對手通過修改圖中的一些邊等操作來改變圖的結構可以誤導GNNs作出錯誤的預測。這一漏洞已經引起了人們對在安全領域關鍵應用中采用GNNs的極大關注,并在近年來引起了越來越多的人的研究興趣。因此,對目前的圖對抗式攻擊和反制措施進行一個全面的梳理和回顧是相當有必要的。在這篇綜述中,我們對目前的攻擊和防御進行了分類,以及回顧了相關表現優異的模型。最后,我們開發了一個具有代表性算法的知識庫,該知識庫可以使我們進行相關的研究來加深我們對基于圖的攻擊和防御的理解。
元學習的研究越來越受到學者們的重視,從最初在圖像領域的研究逐漸拓展到其他領域,目前推薦系統領域也出現了相關的研究問題,本文介紹了5篇基于元學習的推薦系統相關論文,包括用戶冷啟動推薦、項目冷啟動推薦等。
本文提出了一種新的推薦系統,解決了基于少量樣本物品來估計用戶偏好的冷啟動問題。為了確定用戶在冷啟動狀態下的偏好,現有的推薦系統,如Netflix,在啟動初向用戶提供物品選擇,我們稱這些物品為候選集。然后根據用戶選擇的物品做出推薦。以往的推薦研究有兩個局限性:(1) 只有少量物品交互行為的用戶推薦效果不佳,(2) 候選集合不足,無法識別用戶偏好。為了克服這兩個限制,我們提出了一種基于元學習的推薦系統MeLU。從元學習中,MeLU可以通過幾個例子快速地應用于新任務,通過幾個消費物品來估計新用戶的偏好。此外,我們提供了一個候選集合選擇策略,以確定自定義偏好估計的區分項目。我們用兩個基準數據集對MeLU進行了驗證,與兩個對比模型相比,該模型的平均絕對誤差至少降低了5.92%。我們還進行了用戶研究實驗來驗證選擇策略的有效性。
Meta-Learning for User Cold-Start Recommendation 冷啟動問題是對實際推薦系統的長期挑戰。大多數現有的推薦算法依賴于大量的觀測數據,對于很少交互的推薦場景來說是脆弱的。本文用少樣本學習和元學習來解決這些問題。我們的方法是基于這樣一種見解,即從幾個例子中有一個很好的泛化,依賴于一個通用的模型初始化和一個有效的策略來使這個模型適應新出現的任務。為了實現這一點,我們將場景指定的學習與模型無關的序列元學習結合起來,并將它們統一到一個集成的端到端框架中,即場景指定的序列元學習者(或s^2 Meta)。我們的元學習器通過聚合來自各種預測任務的上下文信息來生成一個通用的初始模型,同時通過利用學習到的知識來有效地適應特定的任務。在各種現實世界數據集上的實驗表明,我們提出的模型可以在在線推薦任務中獲得對冷啟動問題的最好效果。
Sequential Scenario-Specific Meta Learner for Online Recommendation
冷啟動問題是對實際推薦系統的長期挑戰。大多數現有的推薦算法依賴于大量的觀測數據,對于很少交互的推薦場景來說是脆弱的。本文用少樣本學習和元學習來解決這些問題。我們的方法是基于這樣一種見解,即從幾個例子中有一個很好的泛化,依賴于一個通用的模型初始化和一個有效的策略來使這個模型適應新出現的任務。為了實現這一點,我們將場景指定的學習與模型無關的序列元學習結合起來,并將它們統一到一個集成的端到端框架中,即場景指定的序列元學習者(或s^2 Meta)。我們的元學習器通過聚合來自各種預測任務的上下文信息來生成一個通用的初始模型,同時通過利用學習到的知識來有效地適應特定的任務。在各種現實世界數據集上的實驗表明,我們提出的模型可以在在線推薦任務中獲得對冷啟動問題的最好效果。
A Meta-Learning Perspective on Cold-Start Recommendations for Items 矩陣分解(M F)是最流行的項目(item)推薦技術之一,但目前存在嚴重的冷啟動問題。項目冷啟動問題在一些持續輸出項目的平臺中顯得特別尖銳(比如Tweet推薦)。在本文中,我們提出了一種元學習策略,以解決新項目不斷產生時的項目冷啟動問題。我們提出了兩種深度神經網絡體系結構,實現了我們的元學習策略。第一個體系結構學習線性分類器,其權重由項目歷史決定,而第二個體系結構學習一個神經網絡。我們評估了我們在Tweet推薦的現實問題上的效果,實驗證明了我們提出的算法大大超過了MF基線方法。
One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level
推薦算法的有效性通常用評價指標來評估,如均方根誤差、F1或點擊率CTR,在整個數據集上計算。最好的算法通常是基于這些總體度量來選擇的,然而,對于所有用戶、項目和上下文來說并沒有一個單獨的最佳算法。因此,基于總體評價結果選擇單一算法并不是最優的。在本文中,我們提出了一種基于元學習的推薦方法,其目的是為每個用戶-項目對選擇最佳算法。我們使用MovieLens 100K和1m數據集來評估我們的方法。我們的方法(RMSE,100K:0.973;1M:0.908)沒有優于單個的最佳算法SVD++(RMSE,100k:0.942;1M:0.887)。我們還探索了元學習者之間的區別,他們在每個實例(微級別),每個數據子集(中級)和每個數據集(全局級別)上進行操作。評估表明,與使用的總體最佳算法相比,一個假設完美的微級元學習器將提高RMSE 25.5%。