深度學習技術已廣泛應用于從復雜數據中檢測異常。由于缺乏大量標記異常,這些技術大多是無監督或半監督的。然而,他們通常依靠一個沒有被異常污染的干凈的訓練數據來學習正態數據的分布。否則,學習的分布往往會被扭曲,因此在區分正常和異常數據時無效。為了解決這個問題,我們提出了一種叫做ELITE的新方法,它使用少量標記的例子來推斷隱藏在訓練樣本中的異常。然后,它將這些異常轉化為有用的信號,幫助從用戶數據中更好地檢測異常。與經典的半監督分類策略(使用標記樣本作為訓練數據)不同,ELITE使用標記樣本作為驗證集。它利用驗證損失的梯度來預測一個訓練樣本是否異常。直覺上,正確識別隱藏異常可以產生更好的深度異常模型,減少驗證損失。我們在公共基準數據集上的實驗表明,ELITE在ROC AUC方面比最先進的方法提高了30%,但對受污染的訓練數據仍具有魯棒性。
深度學習在大規模均衡數據集的視覺識別方面取得了顯著進展,但在現實世界的長尾數據上仍然表現不佳。以往的方法多采用類別再平衡訓練策略,有效緩解類別不平衡問題,但可能存在類別尾部過擬合的風險。目前的解耦方法利用多階段訓練方案克服了過擬合問題,但仍無法在特征學習階段捕獲尾類信息。在本文中,我們證明軟標簽可以作為一個強大的解決方案,將標簽相關性納入多階段訓練方案的長尾識別。軟標簽所體現的類之間的內在聯系有助于長尾識別,將知識從頭類傳遞到尾類。
具體地說,我們提出了一個概念簡單但特別有效的多階段訓練方案,稱為自監督蒸餾(SSD)。本方案由兩部分組成。首先,我們引入了一個自蒸餾的長尾識別框架,該框架可以自動挖掘標簽關系。其次,提出了一種新的基于自監督引導的蒸餾標簽生成模塊。提取的標簽集成了來自標簽和數據域的信息,可以有效地建模長尾分布。我們進行了廣泛的實驗,我們的方法在三個長尾識別基準上取得了最先進的結果:ImageNet-LT, CIFAR100-LT和iNaturalist 2018。在不同的數據集上,我們的SSD比強大的LWS基線性能高出2.7%到4.5%。
圖上的不平衡分類是普遍存在的,但在許多現實世界的應用(如欺詐節點檢測)中具有挑戰性。近年來,圖神經網絡在許多網絡分析任務中顯示出良好的性能。然而,現有的GNN大多只關注平衡網絡,在不平衡網絡上的性能不理想。為了彌補這一缺陷,本文提出了生成式對抗圖網絡模型ImGAGN來解決圖上的不平衡分類問題。介紹了一種新的圖結構數據生成器GraphGenerator,它可以通過生成一組合成的少數節點來模擬少數類節點的屬性分布和網絡拓撲結構分布,從而使不同類中的節點數量達到均衡。然后訓練一個圖卷積網絡(GCN)識別器來區分合成平衡網絡上的真實節點和虛假節點(即生成節點),以及少數節點和多數節點。為了驗證該方法的有效性,在四個真實的不平衡網絡數據集上進行了大量的實驗。實驗結果表明,在半監督不平衡節點分類任務中,該方法優于現有的算法。
【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將于2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。
來自 Adelaide大學的研究人員在KDD2021上將給出關于可解釋深度異常檢測的教程,非常值得關注!
異常檢測可以為許多安全關鍵或具有商業意義的現實世界應用提供重要的洞察,如極端氣候事件檢測、機械故障檢測、恐怖主義檢測、欺詐檢測、惡意URL檢測,僅舉幾例。由于這個意義,它已經被廣泛研究了幾十年,有許多淺顯的方法被提出。然而,這些方法面臨著各種數據復雜性的挑戰,如高維性、數據相關性、數據異構性等。近年來,深度學習在解決這些復雜性方面取得了巨大的成功,在廣泛的應用中,但由于異常的一些獨特特征,例如稀罕性、異質性、無界性、以及收集大規模異常數據的高昂成本。因此,針對異常檢測的深度學習技術進行了大量的研究。這些研究表明,在解決淺層異常檢測方法在不同應用環境中失敗的一些主要挑戰方面取得了巨大成功。
在本教程中,我們旨在全面回顧基于深度學習的異常檢測和解釋的進展。首先介紹了12類最先進的深度異常檢測方法的關鍵直覺、目標函數、基本假設和優缺點。異常解釋通常與異常檢測一樣重要,這對于深度檢測模型——“黑箱”模型尤其如此,因此我們也介紹了一些用于為深度檢測模型提供異常解釋的原則方法。與許多其他數據挖掘任務相比,深度異常檢測的探索要少得多。我們旨在通過本教程積極推動其在算法、理論和評估方面的發展。
深度神經網絡對分類任務的預測準確度有顯著的貢獻。然而,他們傾向于在現實世界中做出過度自信的預測,其中存在領域轉移和分布外(OOD)的例子。由于計算機視覺提供了對不確定性質量的視覺驗證,目前對不確定性估計的研究主要集中在計算機視覺上。然而,在自然語言過程領域卻鮮有研究。與貝葉斯方法通過權重不確定性間接推斷不確定性不同,當前基于證據不確定性的方法通過主觀意見明確地建模類別概率的不確定性。他們進一步考慮了不同根源的數據的固有不確定性,即vacuity(即由于缺乏證據而產生的不確定性)和不協調(即由于相互沖突的證據而產生的不確定性)。本文首次將證據不確定性運用于文本分類任務中的OOD檢測。我們提出了一種既采用輔助離群樣本,又采用偽離流形樣本的廉價框架來訓練具有特定類別先驗知識的模型,該模型對OOD樣本具有較高的空度。大量的經驗實驗表明,我們基于證據不確定性的模型在OOD實例檢測方面優于其他同類模型。我們的方法可以很容易地部署到傳統的循環神經網絡和微調預訓練的transformers。
識別惡意用戶對于確保互聯網平臺的安全性和完整性至關重要。已經建立了幾個基于深度學習的檢測模型。然而,惡意用戶可以通過操縱他們的行為來逃避深度檢測模型,使得這些模型幾乎沒有用處。這種深度檢測模型在對抗攻擊時的漏洞是未知的。本文提出了一種新的基于深度用戶序列嵌入的分類模型對抗攻擊模型,該模型利用用戶帖子序列生成用戶嵌入并檢測惡意用戶。在攻擊中,對手生成一個新的帖子來欺騙分類器。我們提出了一種新的端到端個性化文本生成攻擊模型,稱為PETGEN,它同時降低了檢測模型的有效性,并生成具有幾個關鍵的理想屬性的帖子。具體來說,PETGEN會根據用戶的寫作風格生成個性化的帖子,對給定的目標上下文有了解,知道用戶在目標上下文上的歷史帖子,并封裝用戶最近的主題興趣。我們在兩個真實世界的數據集(Yelp和Wikipedia,都有惡意用戶的真實情況)上進行了廣泛的實驗,表明PETGEN顯著降低了流行的基于深度用戶序列嵌入的分類模型的性能。在白盒和黑盒分類器設置中,PETGEN在文本質量和攻擊效能方面優于5個攻擊基準。總的來說,這項工作為下一代的對抗感知序列分類模型鋪平了道路。
假新聞以前所未有的速度傳播,到達全球受眾,通過社交媒體平臺將用戶和社區置于極大的風險之中。基于深度學習的模型在對感興趣事件上的大量標記數據進行訓練時表現出良好的性能,而模型在其他事件上的性能則由于域漂移而下降。因此,現有的突發事件假新聞檢測方法面臨著重大挑戰,難以獲得大規模標記數據集。此外,添加來自新突發事件的知識需要從頭構建一個新模型或繼續微調模型,這對于現實世界的設置可能是具有挑戰性的、昂貴的和不現實的。為了應對這些挑戰,我們提出了端到端假新聞檢測框架MetaFEND,該框架能夠快速學習并檢測突發事件中的假新聞,并且有一些經過驗證的帖子。具體來說,該模型將元學習和神經過程方法集成在一起,以享受這些方法的好處。特別提出了標簽嵌入模塊和硬注意力機制,通過處理分類信息和修剪不相關的帖子來提高效率。在從Twitter和微博收集的多媒體數據集上進行了廣泛的實驗。實驗結果表明,該模型能夠有效地檢測出未見事件的假新聞,并優于現有的方法。
異常檢測最新綜述論文
摘要
異常檢測(AD)問題具有重要的意義,近年來引起了許多研究者的關注。
因此,在這一研究領域提出的方法數量穩步增加。AD與重要的計算機視覺和圖像處理任務(如圖像/視頻異常、不規則和突發事件檢測)密切相關。最近,深度神經網絡(DNNs)提供了一組高性能的解決方案,但代價是高昂的計算成本。然而,在前面提出的方法和可應用的實際方法之間有一個明顯的差距。
考慮到對AD的關注是一個持續的具有挑戰性的問題,尤其是在圖像和視頻中,是時候討論一下試圖處理視覺AD任務的方法的陷阱和前景了。因此,在本次綜述中,我們打算對基于圖像/視頻深度學習的AD方法進行深入調研。并對當前面臨的挑戰和未來的研究方向進行了深入探討。
引言
異常檢測(AD)是指檢測出可用的訓練數據中很少出現甚至不存在的樣本和事件。事實上,AD就是尋找看不見的概念的過程。一般來說,在AD環境中,有大量的數據實例遵循目標類分布,即正常數據。另一方面,屬于分布外類(離群值)的樣本不存在,或者很難訪問,但代價是很高的計算成本。總之,任何未知的分布都可能導致異常,從而導致非常復雜的學習過程。因此,研究人員建議將所有正常數據中的共享概念提取為一個(幾個)參考模型,而不是學習不規則性[Bertini et al., 2012; Sabokrou et al., 2015]。在測試階段,一個實例與該模型的偏差表明它是否是異常。圖1顯示了AD概念的總體草圖。
就數據類型而言,AD任務可能會遇到各種困難。AD算法普遍存在的缺點是: (1)高誤報率: 在大多數AD應用中,檢測異常事件被認為比識別正常數據更為重要和關鍵。例如,在監視系統中,如果只忽略一個異常行為,即將異常檢測為正常事件,就會完全損害監視系統的可靠性和安全性。因此,為了自信地檢測出所有的離群值,容忍更多一點的假陽性率是合理的。然而,高的誤報率帶來了不可靠和無效,(2) 高的計算成本: 以前的大多數工作過于復雜,無法在現實應用中快速而恰當地進行操作,(3) 標準數據集無法用于評估: 可用數據集與現實情況相差甚遠。事實上,為了全面研究該研究領域提出的解決方案,獲得更真實和有代表性的數據集是至關重要的。上述缺點證實AD任務面臨著若干需要有效解決的持續挑戰。此外,最近提出的方法只關注簡單場景中的性能。考慮圖像/視頻AD方法的不同方面是一個關鍵的步驟,以改善目前的尖端技術。
受深度神經網絡(DNNs)在不同研究領域的巨大成功的啟發,一系列基于深度學習的解決方案被提出來處理AD任務。他們中的一些人取得了很大的成績。然而,實現和再現性方面的困難,特別是基于生成對抗網絡(GANs)的困難[Goodfellow等人,2014a],以及高計算開銷仍然被認為是嚴重的挑戰。調查的范圍。到目前為止,已經提供了一些信息豐富和有價值的調查。我們簡要地提一下這一領域的一些最新作品。[Chlapathy and Chawla, 2019]關注深度AD用于不同的任務,如入侵檢測系統、視頻監控、醫療等。[Ruff et al., 2019]提出了深度AD的框架以及一般半監督的深度AD問題的實驗場景。針對視頻AD的不同深度學習檢測技術已由[Suarez and Naval Jr, 2020]涵蓋。
為了彌補現有的差距,我們提出了一種新的基于深度學習的圖像/視頻AD分類方法。我們強調無監督方法,因為他們的普遍性,適用性在現實問題和日益流行。在具體研究了每一種類別和最新的方法之后,我們表達了圖像/視頻AD任務中具有挑戰性的方面、開放的問題和未來工作的有效方向。
確定輸入是否在分布外(OOD)是在開放世界中安全部署機器學習模型的一個重要基石。然而,以往依賴softmax置信評分的方法對OOD數據存在過自信的后驗分布。我們提出了一個使用能量分數的OOD檢測的統一框架。我們表明,能量分數比使用softmax分數的傳統方法更好地區分分布內和分布外的樣本。與softmax信心分數不同,能量分數理論上與輸入的概率密度一致,不太容易受到過度自信問題的影響。在這個框架內,能量可以被靈活地用作任何預訓練的神經分類器的評分函數,也可以作為可訓練的代價函數來明確地塑造能量表面,用于OOD檢測。在CIFAR-10預訓練的WideResNet中,使用能量分數比softmax信心分數降低平均FPR (TPR 95%) 18.03%。在以能量為基礎的訓練中,我們的方法在一般的基準上比最先進的方法表現得更好。
在線評論為客戶提供產品評估以做出決策。不幸的是,這些評估可能會被專業的垃圾郵件發送者使用虛假的評論(“垃圾郵件”)來操縱,而這些專業的垃圾郵件發送者通過適應部署的檢測器,已經學會了越來越陰險和強大的垃圾郵件發送策略。垃圾郵件策略很難捕捉,因為隨著時間的推移,它們會迅速變化,垃圾郵件發送者和目標產品之間也會不同,更重要的是,在大多數情況下,它們仍然是未知的。此外,現有的大多數檢測器關注的是檢測精度,這與保持產品評價的可信度的目標不是很一致的。為了解決這些挑戰,我們制定了一個極大極小游戲,垃圾郵件發送者和垃圾郵件檢測器在他們的實際目標上相互競爭,而不僅僅是基于檢測的準確性。博弈的納什均衡導致穩定的檢測器,對于任何混合檢測策略都是不可知的。然而,對于典型的基于梯度的算法來說,該博弈沒有封閉形式的解,不可微。我們將博弈轉化為兩個依賴的馬爾可夫決策過程(MDPs),以實現基于多武裝強盜和政策梯度的高效隨機優化。我們在三個大型綜述數據集上使用各種最新的垃圾郵件發送和檢測策略進行了實驗,結果表明,該優化算法能夠可靠地找到一種均衡檢測器,能夠有效地防止使用任何混合垃圾郵件發送策略的垃圾郵件發送者達到他們的實際目標。我們的代碼可以在//github.com/YingtongDou/Nash-Detect獲得。
實現對新類別進行持續增量學習的能力對于現實世界人工智能系統的發展至關重要。目前的類增量學習(CIL,class-incremental learning)研究往往提供了較為充足的帶標簽新類別樣本,而在諸如智能相冊等實際應用中,用戶可能只有興趣提供極少量有標簽的新類別樣本。因此研究小樣本深度類增量學習迫在眉睫。在本文中,我們著重研究這個面向實際應用但極具挑戰性的小樣本類增量連續學習(FSCIL,few-shot class-incremental learning)問題。FSCIL要求CNN模型從少量的帶標簽樣本中增量式地學習新的類別,而不會忘記先前學習的樣本。
傳統的深度類增量學習研究通常使用知識蒸餾(knowledge distillation)方法。它們通常存儲一部分舊類別的樣本,通過蒸餾損失函數來維持分類模型在舊類別樣本上的輸出。盡管在某種程度上有效,這種基于蒸餾損失的方法也存在一些問題。首先,其面臨嚴重的類別不平衡問題,即分類器輸出會嚴重偏置(baised)到擁有較多樣本的類別上;其次,它們往往面臨在新舊類之間進行性能折衷(trade-off)的困境。由于在極少樣本情況下,需要認為增大學習率以及增強新類損失的梯度才能使新類別的學習變得有意義,而一旦這樣做,對舊類別知識的維持就會更加困難。因此這種性能折衷困境在小樣本類增量環境下會更為嚴重。
為此,我們嘗試從一種新的認知啟發的角度來解決小樣本類增量學習問題。近期的認知學研究表明,物體的拓撲對維持已學知識的記憶非常重要。一旦記憶的拓撲特性發生改變,會導致人類對已見過物體視覺刺激的再認出現大幅退化,這直接導致了災難性遺忘(catastrophic forgetting)的產生。為此,我們認為,保持住舊知識空間的拓撲結構,是解決災難性遺忘的關鍵。因此,我們提出使用神經氣體(NG,neural gas)網絡來對已學知識進行抽取和表示。該網絡可以學習并保留由不同類別形成的特征流形的拓撲。在此基礎上,我們提出了拓撲保持知識增長器(TOPIC,TOPology-Preserving Knowledge InCrementer)框架。TOPIC框架一方面通過穩定神經氣體網絡NG的拓撲結構緩解了舊知識的遺忘,另一方面通過使NG成長并適應新的訓練樣本來改進在少量新類別樣本上的表征學習。