檢測語義異常具有挑戰性,因為它們可能以無數種方式出現在真實數據中。雖然增強網絡的健壯性可能足以對簡單異常進行建模,但沒有一種已知的好方法來準備模型,以應對可能發生的所有潛在的、看不見的異常,比如出現新的對象類。在本文中,我們展示了一個以前被忽視的異常檢測(AD)策略,即對從一些大型和多樣的語義任務轉移過來的表示引入一個顯式的歸納偏差。我們在使用干預的對照試驗中嚴格驗證了我們的假設,并表明它產生了出乎意料的有效輔助目標,優于以往的AD范式。
本文針對圖上的異常檢測代表性論文做了講解。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
持續學習是一種學習模式,在這種模式下,學習系統按照一系列任務進行訓練。這里的目標是在當前任務上執行得很好,而不會受到前面任務的性能下降的影響。在神經網絡持續學習的最新進展中,有兩個值得注意的方向: (1) 基于變分貝葉斯的正則化,通過學習先前任務的先驗信息,以及(2)學習深度網絡的結構以適應新的任務。到目前為止,這兩種方法在很大程度上是相互正交的。我們提出了一個新的貝葉斯框架,基于不斷學習深度神經網絡的結構,以統一這些不同但互補的方法。該框架通過學習任務所使用的權值來學習任務的深層結構,并通過不同任務學習的權值的不同稀疏子集的重疊來支持任務間的遷移。我們提出的持續學習框架的一個吸引人的方面是,它既適用于甄別(有監督的)設置,也適用于生成(無監督的)設置。在有監督和無監督基準上的實驗結果表明,我們的方法在持續學習方面的表現與最近的進展相當或更好。
深度學習技術已廣泛應用于從復雜數據中檢測異常。由于缺乏大量標記異常,這些技術大多是無監督或半監督的。然而,他們通常依靠一個沒有被異常污染的干凈的訓練數據來學習正態數據的分布。否則,學習的分布往往會被扭曲,因此在區分正常和異常數據時無效。為了解決這個問題,我們提出了一種叫做ELITE的新方法,它使用少量標記的例子來推斷隱藏在訓練樣本中的異常。然后,它將這些異常轉化為有用的信號,幫助從用戶數據中更好地檢測異常。與經典的半監督分類策略(使用標記樣本作為訓練數據)不同,ELITE使用標記樣本作為驗證集。它利用驗證損失的梯度來預測一個訓練樣本是否異常。直覺上,正確識別隱藏異常可以產生更好的深度異常模型,減少驗證損失。我們在公共基準數據集上的實驗表明,ELITE在ROC AUC方面比最先進的方法提高了30%,但對受污染的訓練數據仍具有魯棒性。
譜方法是對子空間并集附近的數據點進行聚類的一種常用方法,稱為子空間聚類。典型的用法是先構造一個隨機幾何圖,然后用譜方法對圖進行聚類,得到聚類結果。后一步被稱為光譜聚類。據我們所知,盡管在基于譜方法的子空間聚類中這兩個步驟都很重要,但現有的理論結果都集中在構建圖的第一步,而忽略了通過譜聚類糾正錯誤連接的最后一步。本文首次建立了一個理論來證明這種方法的有效性,在此理論中,我們通過分析在廣泛使用的半隨機模型下的一個簡化算法來論證譜聚類的機理。在此基礎上,我們證明了子空間聚類在相當廣泛的條件下的有效性。本文的見解和分析技術也可能對其他隨機圖問題有啟示。
深度學習的成功依賴大規模的標記數據,然而人工標注數據的代價巨大。域自適應(Domain Adaptation)意圖利用已有源領域標記數據的有效信息學習得到一個可以泛化到目標領域無標記數據上的模型。因此域自適應方法是解決上述問題的方案之一。回歸問題作為一個具有廣泛應用的機器學習范式,和分類問題具備同等的重要性。然而,當前的研究缺乏一個針對回歸問題的深度無監督域自適應方法:(1)已有很多基于實例加權和域不變表征學習的淺層域自適應回歸方法,但他們沒有辦法利用深度網絡的表征學習能力,因此不具備處理現實世界多種復雜結構數據的能力。同時,他們往往依賴目標領域中的少量有標數據才能取得理想的性能,即只能做成半監督域自適應方法;(2)已有很多基于深度表征學習的域自適應分類方法,在分類基準數據集上取得了突破性進展,但他們在回歸數據集上的表現往往不夠理想。因此,本文意在利用深度網絡的表征能力,考慮回歸問題的本質特點,提出一種適用于回歸問題的無監督可遷移域自適應方法。
圖神經網絡(GNNs)被廣泛用于學習一種強大的圖結構數據表示。最近的研究表明,將知識從自監督任務遷移到下游任務可以進一步改善圖的表示。然而,自監督任務與下游任務在優化目標和訓練數據上存在內在的差距。傳統的預訓練方法可能對知識遷移不夠有效,因為它們不能適應下游任務。為了解決這一問題,我們提出了一種新的遷移學習范式,該范式可以有效地將自監督任務作為輔助任務來幫助目標任務。在微調階段,我們的方法將不同的輔助任務與目標任務進行自適應的選擇和組合。我們設計了一個自適應輔助損失加權模型,通過量化輔助任務與目標任務之間的一致性來學習輔助任務的權重。此外,我們通過元學習來學習權重模型。我們的方法可以運用于各種遷移學習方法,它不僅在多任務學習中有很好的表現,而且在預訓練和微調中也有很好的表現。在多個下游任務上的綜合實驗表明,所提出的方法能夠有效地將輔助任務與目標任務相結合,與現有的方法相比,顯著提高了性能。
在統一魯棒半監督變分自編碼器(URSVAE)中,通過同時處理噪聲標簽和異常值,提出了一種新的噪聲魯棒半監督深度生成模型。輸入數據的不確定性通常是將不確定性優先于概率密度分布的參數,以確保變分編碼器對異常值的魯棒性。隨后,我們將噪聲轉換模型自然地集成到我們的模型中,以減輕噪聲標簽的有害影響。此外,為了進一步增強魯棒性,采用魯棒散度測度,推導并優化了新的變分下界來推斷網絡參數。通過證明對所提證據下界的影響函數是有界的,證明了所提模型在存在復合噪聲的情況下在分類方面的巨大潛力。通過對圖像分類任務的評價和與現有方法的比較,實驗結果表明了該框架的優越性。
雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。
近年來,隨著web2.0的普及,使用圖挖掘技術進行異常檢測受到人們越來越多的關注.圖異常檢測在欺詐檢測、入侵檢測、虛假投票、僵尸粉絲分析等領域發揮著重要作用.本文在廣泛調研國內外大量文獻以及最新科研成果的基礎上,按照數據表示形式將面向圖的異常檢測劃分成靜態圖上的異常檢測與動態圖上的異常檢測兩大類,進一步按照異常類型將靜態圖上的異常分為孤立個體異常和群組異常檢測兩種類別,動態圖上的異常分為孤立個體異常、群體異常以及事件異常三種類型.對每一類異常檢測方法當前的研究進展加以介紹,對每種異常檢測算法的基本思想、優缺點進行分析、對比,總結面向圖的異常檢測的關鍵技術、常用框架、應用領域、常用數據集以及性能評估方法,并對未來可能的發展趨勢進行展望.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6100&flag=1