視頻異常檢測(VAD)旨在視頻中臨時定位異常事件。現有工作大多依賴于訓練深度模型學習正常性的分布,無論是通過視頻級監督、單類監督,還是在無監督設置中。基于訓練的方法傾向于是領域特定的,因此對于實際部署而言成本高昂,因為任何領域的變化都將涉及數據收集和模型訓練。在本文中,我們從根本上脫離之前的努力,提出了一種基于語言的VAD(LAVAD)方法,這是一種新穎的、無需訓練的范式,利用了預訓練的大型語言模型(LLMs)和現有的視覺-語言模型(VLMs)。我們利用基于VLM的字幕模型為任何測試視頻的每一幀生成文本描述。有了文本場景描述,我們然后設計了一個提示機制,以解鎖LLMs在時間聚合和異常評分估計方面的能力,將LLMs轉變為一個有效的視頻異常檢測器。我們進一步利用模態對齊的VLMs,并提出了基于跨模態相似性的有效技術,用于清理噪聲字幕和優化LLM-based的異常分數。我們在兩個大型數據集上評估了LAVAD,這些數據集展示了現實世界中的監控場景(UCF-Crime和XD-Violence),顯示它在不需要任何訓練或數據收集的情況下,就超過了無監督和單類方法。
在測試時使用預訓練的視覺-語言模型進行適應性調整已經吸引了越來越多的關注,以解決測試時的分布偏移問題。盡管之前的研究已經取得了非常有希望的表現,但它們涉及到的計算量非常大,這與測試時間的適應性調整嚴重不符。我們設計了TDA,一個無需訓練的動態適配器,使視覺-語言模型能夠有效且高效地進行測試時間的適應性調整。TDA利用輕量級的鍵-值緩存,維護一個動態隊列,隊列中的值為少量樣本的偽標簽,對應的測試樣本特征作為鍵。利用鍵-值緩存,TDA允許通過逐步精煉偽標簽來逐漸適應測試數據,這種方式超級高效,不需要任何反向傳播。此外,我們引入了負偽標簽,通過為某些負類分配偽標簽來減輕偽標簽噪聲的不利影響,當模型對其偽標簽預測不確定時采用。在兩個基準測試上的廣泛實驗表明,與最先進的方法相比,TDA展示出了更高的有效性和效率。代碼已在//kdiaaa.github.io/tda/ 發布。
異常檢測(AD)在許多基于網絡的應用中扮演著關鍵角色,包括惡意軟件檢測、反洗錢、設備故障檢測以及網絡故障分析。大多數方法依賴于無監督學習,由于缺乏標簽,難以達到令人滿意的檢測精度。弱監督異常檢測(WSAD)通過引入有限數量的標記異常樣本來增強模型性能。然而,對于在標記數據不足的情況下訓練的模型來說,泛化到未見異常仍然是一個挑戰。在本文中,我們引入了一種新穎的框架知識-數據對齊(KDAlign),以整合人類專家通常總結的規則知識來補充有限的標記數據。具體來說,我們將這些規則轉換到知識空間,并隨后將知識的整合視為知識與數據的對齊。為了促進這種對齊,我們采用最優傳輸(OT)技術。然后,我們將OT距離作為額外的損失項加到WSAD方法的原始目標函數中。在五個真實世界數據集上的全面實驗結果表明,我們提出的KDAlign框架顯著超越了其最先進的對手,實現了跨不同異常類型的優越性能。
目前大多數異常檢測模型都假定正常模式一直保持不變。然而,Web服務的正常模式經常發生劇烈變化。在舊分布數據上訓練的模型在這些變化后已經過時。每次重新訓練整個模型都是昂貴的。此外,在正常模式發生變化的初期,新分布的觀察數據不足。使用有限數據重新訓練大型神經網絡模型容易出現過擬合。因此,我們提出了一種基于深度變分自編碼器的輕量級防過擬合重新訓練方法(LARA)用于時間序列異常檢測。本工作旨在做出三個新穎的貢獻:1)重新訓練過程被形式化為一個凸問題,可以快速收斂并防止過擬合;2)設計了一個反思塊,利用歷史數據而無需存儲它們;3)在數學上和實驗上證明,當微調潛在向量和重構數據時,線性形式可以實現地面真實值和微調值之間的最小調整誤差。此外,我們進行了許多實驗來驗證,即使使用來自新分布的43個時間槽的數據重新訓練LARA,其在與使用充分數據訓練的最先進的異常檢測模型進行比較時也能實現競爭性的F1分數。此外,我們驗證了它的輕量級開銷。
盡管大型語言模型(LLMs)已經展現出令人印象深刻的遵循指令的能力,但目前尚不清楚它們能否以及在多大程度上響應可能包含在各種指令中的顯式約束。因此,作為LLM對齊的一個重要方面,制定這樣一套專門的指令集以及調查LLMs的相應行為變得非常重要。為了填補這一空白,我們提出了一個新的基準測試CoDI-Eval,以系統全面地評估LLMs對帶有各種約束的指令的響應。我們構建了一個大型的約束屬性指令集作為測試套件,專注于泛化和覆蓋。具體來說,我們提倡一個指令多樣化過程,以合成多種形式的約束表達,并且還仔細考慮了具有更細粒度子類別的候選任務分類。最后,我們自動化整個評估過程以促進進一步的發展。與現有的可控文本生成研究不同,CoDI-Eval首次將范圍擴展到流行的遵循指令范式。我們對代表性的LLMs(例如ChatGPT,Vicuna)在CoDI-Eval上進行了廣泛評估,揭示了它們在遵循具有特定約束的指令方面的局限性,以及開源和商業閉源LLMs之間仍然存在顯著差距。我們相信這個基準測試將有助于研究如何提高LLMs對指令響應的可控性。我們的數據和代碼可在 //github.com/Xt-cyh/CoDI-Eval 上獲取。
利用輔助的異常值數據集來規范機器學習模型對于檢測分布外(OOD)數據和安全預測已展現出潛力。由于數據收集和清理的勞動強度,自動生成異常值數據一直是一個長期渴望的替代方案。盡管有吸引力,但在高維像素空間生成照片逼真的異常值一直是該領域的一個開放性挑戰。為了解決這個問題,本文提出了一種新的框架DREAM-OOD,它能夠通過擴散模型,僅使用分布內(ID)數據和類別,來想象照片逼真的異常值。具體來說,DREAM-OOD基于ID數據學習了一個文本條件的潛在空間,然后通過潛在在低可能性區域抽樣異常值,這些可以通過擴散模型解碼成圖像。與以前的工作[18,98]不同,DREAM-OOD可以直接在像素空間中可視化和理解想象出來的異常值。我們進行了全面的定量和定性研究以理解DREAM-OOD的功效,并表明,使用DREAM-OOD生成的樣本進行訓練可以提高OOD檢測性能。代碼可在 //github.com/deeplearning-wisc/dream-ood 公開獲取。
目標檢測在過去的十年中取得了長足的進步。然而,利用少樣本檢測新類仍然具有挑戰性,因為在低數據環境下的深度學習通常會導致特征空間的退化。現有的研究都采用了整體的微調范式來解決這個問題,即首先對模型進行大量樣本的所有基類的預訓練,然后用它來學習新的類特征空間。盡管如此,這種范式仍然是不完美的。在微調過程中,一個新類可能會隱式地利用多個基類的知識來構造其特征空間,導致特征空間分散,違反類間的可分離性。為了克服這些障礙,我們提出了一種兩步微調的框架,即關聯與識別的少樣本目標檢測(FADI),該框架采用兩步整合的方法為每個新類建立判別特征空間。1) 在關聯步驟中,與隱式利用多個基類不同,我們通過顯式模擬一個特定的基類特征空間來構造一個緊湊的新類特征空間。具體來說,我們根據每個新類的語義相似度將它們與基類關聯起來。之后,新類的特征空間可以很容易地模仿相關基類的經過良好訓練的特征空間。2)在判別步驟中,為了保證新類和相關基類之間的可分離性,我們對基類和新類的分類分支進行解糾纏。為了進一步擴大各類別間的可分性,引入了一個集合化的保證金損失。在Pascal VOC和MS-COCO數據集上的大量實驗表明,FADI實現了新的SOTA性能,在任何鏡頭/分割中顯著提高了18.7的基線。值得注意的是,這種優勢是在極少的場景中體現出來的。
在不斷增長的分析服務領域上運行的生產系統通常需要為具有有限數據的新任務生成熱啟動解決方案模型。解決這一暖啟動挑戰的一個潛在方法是采用元學習來生成一個基礎模型,該模型可以通過最小的微調來解決看不見的任務。然而,這需要同步現有任務的以前解決方案模型的訓練過程。如果這些模型在不同實體擁有的私有數據上分別進行預訓練,并且不能同步地重新訓練,那么就不可能做到這一點。為了適應這種情況,我們開發了一種新的個性化學習框架,通過融合相關任務的獨立預訓練模型,為未見任務綜合定制模型。我們建立了該框架的性能保證,并在合成和真實數據集上證明了其有效性。
預訓練已被證實能夠大大提升下游任務的性能。傳統方法中經常利用大規模的帶圖像標注分類數據集(如 ImageNet)進行模型監督預訓練,近年來自監督學習方法的出現,讓預訓練任務不再需要昂貴的人工標簽。然而,絕大多數方法都是針對圖像分類進行設計和優化的。但圖像級別的預測和區域級別 / 像素級別存在預測差異,因此這些預訓練模型在下游的密集預測任務上的性能可能不是最佳的。
基于此,來自阿德萊德大學、同濟大學、字節跳動的研究者設計了一種簡單且有效的密集自監督學習方法,不需要昂貴的密集人工標簽,就能在下游密集預測任務上實現出色的性能。目前該論文已被 CVPR 2021 接收。
//www.zhuanzhi.ai/paper/4b31c2807b7c37ca49ca8f7c43b4b7d4
該研究提出的新方法 DenseCL(Dense Contrastive Learning)通過考慮局部特征之間的對應關系,直接在輸入圖像的兩個視圖之間的像素(或區域)特征上優化成對的對比(不相似)損失來實現密集自監督學習。
兩種用于表征學習的對比學習范式的概念描述圖。
現有的自監督框架將同一張圖像的不同數據增強作為一對正樣本,利用剩余圖像的數據增強作為其負樣本,構建正負樣本對實現全局對比學習,這往往會忽略局部特征的聯系性與差異性。該研究提出的方法在此基礎上,將同一張圖像中最為相似的兩個像素(區域)特征作為一對正樣本,而將余下所有的像素(區域)特征作為其負樣本實現密集對比學習。
具體而言,該方法去掉了已有的自監督學習框架中的全局池化層,并將其全局映射層替換為密集映射層實現。在匹配策略的選擇上,研究者發現最大相似匹配和隨機相似匹配對最后的精度影響非常小。與基準方法 MoCo-v2[1] 相比,DenseCL 引入了可忽略的計算開銷(僅慢了不到 1%),但在遷移至下游密集任務(如目標檢測、語義分割)時,表現出了十分優異的性能。
知識圖譜(KG)是一種靈活的結構,能夠描述數據實體之間的復雜關系。目前,大多數KG嵌入模型都是基于負采樣進行訓練的,即模型的目標是最大限度地增加KG內被連接實體的某些相似度,同時最小化被采樣的斷開實體的相似度。負抽樣通過只考慮負實例的子集,降低了模型學習的時間復雜度,這可能會由于抽樣過程的不確定性而無法提供穩定的模型性能。為了避免這一缺陷,我們提出了一種新的KG嵌入高效非采樣知識圖譜嵌入框架(NS-KGE)。其基本思想是在模型學習中考慮KG中的所有負面實例,從而避免負面抽樣。框架可應用于基于平方損失的知識圖譜嵌入模型或其損失可轉換為平方損失的模型。這種非抽樣策略的一個自然副作用是增加了模型學習的計算復雜度。為了解決這一問題,我們利用數學推導來降低非采樣損失函數的復雜度,最終為我們提供了比現有模型更好的KG嵌入效率和精度。在基準數據集上的實驗表明,NS-KGE框架在效率和準確率方面均優于傳統的基于負采樣的模型,該框架適用于大規模知識圖譜嵌入模型。
弱監督語義分割是一項具有挑戰性的任務,因為沒有提供像素級的標簽信息供訓練使用。最近的方法利用分類網絡,通過選擇具有強響應的區域來定位目標。然而,雖然這種響應映射提供了稀疏信息,但在自然圖像中像素之間存在很強的兩兩關系,可以利用這種兩兩關系將稀疏映射傳播到更密集的區域。本文提出了一種迭代算法來學習這種兩兩關系,它由兩個分支組成,一個是學習每個像素的標簽概率的一元分割網絡,另一個是學習親和矩陣并細化由一元網絡生成的概率圖的兩兩親和網絡。將兩兩網絡的細化結果作為監督,對一元網絡進行訓練,通過迭代的方法逐步獲得較好的分割效果。為了在不需要精確標注的情況下獲得可靠的像素親和力,我們還提出了可信區域的挖掘方法。我們證明了迭代訓練這個框架等價于優化一個收斂到局部最小值的能量函數。在PASCAL VOC 2012和COCO數據集上的實驗結果表明,所提出的算法在性能上優于目前最先進的方法。