摘要—偽裝目標檢測(Camouflaged Object Detection, COD)指的是識別和分割那些與周圍環境無縫融合的目標的任務,這對計算機視覺系統構成了重大挑戰。近年來,由于其在監控、野生動物保護、自主系統等領域的潛在應用,COD引起了廣泛關注。盡管已有一些關于COD的綜述存在,但它們通常在所覆蓋的論文數量和范圍上存在局限性,特別是自2023年中期以來該領域的快速進展。為彌補這一空缺,我們呈現了迄今為止最全面的COD綜述,涵蓋了該領域的理論框架和實際貢獻。本文從傳統方法和深度學習方法的角度,探討了四個領域內的各種COD方法,包括圖像級別和視頻級別的解決方案。我們深入研究了COD與其他偽裝場景方法之間的關聯,從而為后續分析奠定理論基礎。此外,我們還探討了之前研究未充分涉及的新任務,如基于引用的COD和協作式COD。除了目標級別的檢測外,我們還總結了實例級別任務的擴展方法,包括偽裝實例分割、計數和排序。此外,我們概述了COD任務中常用的基準測試和評估指標,對圖像和視頻領域基于深度學習的技術進行了全面評估,考慮了定性和定量的表現。最后,我們討論了當前COD模型的局限性,并提出了9個未來研究的有前景方向,重點解決固有挑戰并探索新的、有意義的技術。這一全面的審查旨在加深對COD模型及其在偽裝場景中的相關方法的理解。對于感興趣的讀者,可以在//github.com/ChunmingHe/awesome-concealed-object-segmentation找到一份精心整理的COD相關技術、數據集和其他資源的列表。關鍵詞—偽裝目標檢測、偽裝場景理解、深度學習、人工智能
1 引言
目標檢測是計****算機視覺中的一項基礎任務,涉及識別和定位圖像或視頻中的目標。它包含多個細分領域:通用目標檢測(GOD)[1]–[4]、顯著目標檢測(SOD)[5]–[7]和偽裝目標檢測(COD)[8]–[10]。GOD的目標是檢測一般對象,而SOD識別那些從背景中突顯出來的顯著對象。相比之下,COD針對的是那些與周圍環境融合在一起的目標,這使得它成為一項極具挑戰性的任務。圖1展示了GOD、SOD和COD任務中目標狗與背景的關系,這些圖像來自經典數據集[11]–[13]。近年來,COD因其在促進視覺感知的細微差別識別方面的優勢,以及在實際生活應用中廣泛的價值,如工業中的隱蔽缺陷檢測[14]、農業中的害蟲監測[15]、[16]、醫學診斷中的病灶分割[17]以及藝術領域,如娛樂藝術[18]和照片真實感融合[19],而獲得了越來越多的關注和快速發展。然而,與GOD和SOD不同,COD涉及檢測那些被設計成難以察覺的目標,如圖1右側的斑點狗因與周圍環境偽裝在一起而難以檢測到,這需要更為復雜的檢測策略。COD可進一步分為圖像和視頻任務[20]、[21]。普通的COD,即圖像級別COD,用于檢測靜態圖像中的偽裝目標,而視頻級別COD,稱為VCOD,則用于檢測視頻序列中的這些目標。后者由于時間連續性和動態變化的引入而增加了復雜性,要求模型能夠有效地提取空間和時間特征。
傳統的COD和VCOD方法,包括紋理[22]、強度[23]、顏色[24]、運動[25]、光流[26]和多模態分析[27],在特定場景中展示了它們的優勢,但也表現出明顯的缺陷。這些依賴于手工設計操作符的方法在特征提取能力上有限,因此在處理復雜背景和變化的目標外觀時,準確性和魯棒性受到了限制。相比之下,基于深度學習的COD方法,如卷積神經網絡(CNN)、變換器(Transformer)和擴散模型(Diffusion Model),通過自動學習豐富的特征表示,提供了顯著優勢[8]、[10]。此外,這些方法采用了多種策略來應對這一挑戰性任務,例如,多尺度特征聚合[28]–[32]、仿生機制模擬[13]、[20]、[33]–[37]、多源信息融合[10]、[15]、[38]–[40]、多任務學習[9]、[41]–[44]、聯合SOD[40]、[45]–[47]以及新任務設定[48]–[52]。盡管這些方法具有優勢,但也面臨難以克服的挑戰,包括高計算需求[53]和對大量標注、干凈且成對數據集的需求[29]。已有幾篇關于COD的綜述文章,其中三篇開創性的工作[54]–[56]為該領域提供了寶貴的概述。然而,這些綜述由于涵蓋的范圍有限和涉及的論文數量不足而存在局限性。例如,這些綜述中討論的大多數方法來自2023年上半年之前,導致在歷史深度和領域廣度上存在不足。如圖2所示,COD領域在2023年發展迅速。為彌補這些空白,我們提出了一篇更為全面的綜述,涵蓋了圖像和視頻領域中的傳統和深度學習COD方法,并基準測試了這些領域中的深度學習模型。此外,據我們所知,這篇綜述是首篇深入探索如基于引用的COD[49]和協作式COD[51]等新任務的綜述。我們還對常用的COD數據集進行了更廣泛的回顧,并全面覆蓋了最新的進展、挑戰和未來趨勢。本文的動機源于COD的重要性以及現有綜述的不足。我們的綜述旨在對COD進行更為深入和詳細的探討,填補當前文獻中的空白,并強調最近的發展。我們系統地分類和分析了現有的前沿技術,識別關鍵挑戰,并提出未來研究方向,以推動該領域的發展。我們的貢獻總結如下:
我們對現有的COD方法和偽裝場景理解(CSU)相關任務,以及常用的數據集和評估指標進行了全面的綜述。據我們所知,這項工作代表了迄今為止最廣泛的調查,涵蓋了大約180篇CSU相關的前沿研究。
我們系統地基準測試了基于深度特征的40個代表性圖像級模型和8個代表性視頻級模型,使用6個特征性數據集和6個典型評估指標,并對它們進行了定量和定性分析。
我們系統地識別了現有COD方法的局限性,并提出了未來研究的潛在方向。通過揭示這些挑戰和機會,我們的工作旨在指導和激發進一步的研究,以推進COD技術的前沿發展。
我們創建了一個存儲COD方法、數據集和相關資源的庫,并將持續更新以確保最新信息的可獲取性。 我們希望這篇COD綜述不僅能加深對該領域的理解,還能在計算機視覺社區中激發更大的興趣,促進相關領域的進一步研究。注意:在制定我們的搜索策略時,我們對包括DBLP、Google Scholar和ArXiv Sanity Preserver在內的多種數據庫進行了深入調查。我們的重點特別放在可信來源上,如TPAMI和IJCV,以及CVPR、ICCV和ECCV等著名會議。我們優先考慮了那些提供官方代碼以增強可重復性的研究,以及那些引用率高且在Github上獲得較多星標的研究,這些都表明它們在學術界得到了顯著認可和采用。在初步篩選之后,我們的文獻選擇過程涉及對每篇論文的新穎性、貢獻和重要性的嚴格評估,并評估其在該領域中作為開創性工作的地位。盡管我們承認可能遺漏了一些值得注意的論文,但我們的目標是呈現對最具影響力和影響力的研究的全面概述,推動研究進展并提出未來的潛在趨勢和方向。
摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。
關鍵詞—擴散模型,三維視覺,生成模型。
I. 引言
近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。
為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。
第七節為結論。
A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。
這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎
C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。
三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。
三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示
二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。
深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示
顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。
點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。
深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。
基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。
直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。
圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。
占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。
基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。
遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。
點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。
噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。
三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。
擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。
無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。
Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。
在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。
三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。
新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。
擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。
本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。
此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。
通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。
摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。
關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。
I. 引言
圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。
近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。
隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。
已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。
相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。
本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。
摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構
深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。
為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。
在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。
在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸:
SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。
SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。
SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。
Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。
數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。
總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:
我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。
我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。
我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。
我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。
Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。
初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。
樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。
標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。
采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。
通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。
如圖2頂部所示,Mixup方法遵循以下步驟:
在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。
摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務,VAD 已經取得了許多顯著的進展。在深度學習的時代,隨著具備持續增長的能力和容量的架構的爆發,基于深度學習的各種方法不斷涌現于 VAD 任務中,極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此,面對如此多樣的方法和大量的文獻,一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述,涵蓋了五種不同類別的范疇,即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法,并深入探討了基于預訓練大模型的最新 VAD 工作,彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務,我們構建了一個有條理的分類體系,深入討論了不同類型方法的特點,并展示了它們的性能對比。此外,本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后,我們為 VAD 社區提供了若干重要的研究方向。 關鍵詞——視頻異常檢測,異常檢測,視頻理解,深度學習。
異常代表著偏離標準、正常或預期的事物。正常性有多種多樣,而異常現象則非常稀少。然而,當異常出現時,往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常,從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】,例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中,視頻異常檢測 (VAD) 占據著重要地位,異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用(例如暴力、入侵和徘徊檢測),還廣泛應用于其他場景,如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力,VAD 吸引了來自工業界和學術界的廣泛關注。
在深度學習時代之前,常規的方法是將特征提取與分類器設計分離,形成一個兩階段的過程,并在推理階段將它們結合起來。首先進行特征提取,將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性,且在面對復雜場景時難以有效捕捉行為表達,但這些早期工作極大啟發了后續基于深度學習的研究工作。
在過去十年中,隨著深度學習的崛起,傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現,近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如,ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器,首次用于捕捉視頻中的規律;FuturePred【4】首次利用 U-Net 預測未來的異常;DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情,我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查(這個時期由基于深度學習方法的崛起所驅動)。我們選擇了五個相關主題,即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測,并在圖 1 中展示了出版物統計數據。不難看出,從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢,表明 VAD 已經引起了廣泛的關注。此外,我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢,并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢,未顯示出任何性能瓶頸。例如,CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升,從 70.2% AUC【3】上升到 90.1% AUC【7】。此外,針對后續提出的弱監督 VAD,研究也取得了顯著進展。這表明,隨著架構的發展,深度學習方法的能力不斷提升,同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。
上述統計數據清楚地表明,深度學習驅動的 VAD 是當前研究的熱點。因此,迫切需要對現有工作進行系統分類并進行全面總結,以便為新手提供指導并為現有研究人員提供參考。基于此,我們首先收集了近年來一些高影響力的 VAD 綜述,見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD,缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析,主要關注 2020 年之前的方法,忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查,但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述,但其重點不僅限于視頻,還涉及圖像異常檢測,導致對 VAD 任務的系統性組織不足。最近,Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系,例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD,并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而,他們的研究范圍局限于傳統的閉集場景,未涵蓋最新的開放集監督 VAD 研究,也未引入基于預訓練大模型和可解釋學習的全新框架。
為全面解決這一差距,我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面,以提供對 VAD 研究的全面分析。具體而言,我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查,并提出了一個統一的框架,將不同的 VAD 任務整合在一起,填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源,包括基準數據集、評估指標、開源代碼和性能對比,以幫助該領域的研究人員避免走彎路并提高效率。此外,我們系統地對各種 VAD 任務進行分類,將現有工作劃分為不同類別,并建立了一個清晰的結構化分類體系,以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系,我們還對每種模式進行了全面分析。此外,在整個綜述中,我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。 本綜述的主要貢獻總結如下三個方面:
我們對 VAD 進行了全面綜述,涵蓋了基于不同監督信號的五種任務,即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。
跟隨研究趨勢,我們回顧了最新的開放集監督 VAD 研究。此外,我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知,這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。
針對不同任務,我們系統地回顧了現有的基于深度學習的方法,更重要的是,我們引入了一個統一的分類框架,從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。
半監督視頻異常檢測
基于我們對以往綜述的深入調查,我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別,例如基于重建、基于距離和基于概率的方法,有些綜述則根據輸入進行分類,例如基于圖像、基于光流和基于片段的方法。顯然,現有的分類綜述相對簡單且表面化,因此難以全面有效地涵蓋所有方法。為了解決這個問題,我們建立了一個全面的分類體系,涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。
如前所述,在半監督 VAD 任務中,只有正常樣本可用于訓練,這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息,學習深度神經網絡 (DNN) 來解決前置任務。例如,正常性重建是一個經典的前置任務【3】。在此過程中,需要考慮幾個關鍵方面:樣本信息的選擇(模型輸入)、前置任務的設計(方法論)、深度網絡的利用(網絡架構)、方法的改進(優化)和異常結果的表達(模型輸出)。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中,我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。
IV. 弱監督視頻異常檢測
弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向,其起源可追溯到 DeepMIL【5】。相比于半監督 VAD,這是一個較新的研究方向,因此現有的綜述缺乏全面而深入的介紹。如表 I 所示,Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而,前者僅簡要描述了 2018 至 2020 年間的一些成果,而后者盡管涵蓋了近期的工作,卻缺乏科學的分類體系,僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景,我們從 2018 年至今調查了相關工作,包括基于預訓練大模型的最新方法,并從四個方面對現有工作進行了分類:模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。 與半監督 VAD 相比,弱監督 VAD 在訓練過程中明確定義了異常,為檢測算法提供了明確的方向。然而,與全監督 VAD 相比,粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包(正常視頻)中選擇看起來最異常的最困難區域(視頻片段),以及從異常包(異常視頻)中選擇最有可能異常的區域。然后,目標是最大化它們之間的預測置信差異(即使最困難的正常區域的置信度接近 0,最異常區域的置信度接近 1),這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征,異常區域的異常置信度逐漸增加,而正常區域的置信度則逐漸下降。不幸的是,由于缺乏強監督信號,檢測模型在上述優化過程中不可避免地會涉及盲目猜測。
VII. 開集監督視頻異常檢測
讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中,未見過的異常很可能會出現,因此,關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務,其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的(閉集)VAD 不同,傳統 VAD 中的異常類型是已知且定義明確的,而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要,因為在訓練過程中預見并標注所有可能的異常是不現實的。因此,開集 VAD 的研究引起了極大的關注。然而,現有的綜述工作并未對開集 VAD 進行深入研究。基于此,我們進行了深入的調查,并對現有的開集 VAD 工作進行了系統分類。據我們所知,這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中,我們根據不同的研究方向,將開集監督 VAD 大致分為兩類:開集 VAD 和小樣本 VAD。在圖 10 中,我們展示了六種經典的開集監督 VAD 方法。
IX. 結論
我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同,我們提出了一個系統的分類體系,將現有的工作根據監督信號分為五類:半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別,我們進一步根據模型的不同特征進行細分,例如模型輸入和輸出、方法論、優化策略和架構,并展示了各種方法的性能對比。最后,我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。
摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。
引言
自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。
最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。
研究范圍概述
本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。
摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。
工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。
在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。
為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。
本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:
本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。
近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。
如表I所示,本文通過以下幾個關鍵貢獻來區分自身:
新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。
跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。
持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。
摘要: 近年來,以深度學習為代表的人工智能技術在金融安防、自動駕駛、醫療診斷等領域取得了較為成功的應用.然而,圖像分類作為上述應用中的一項基礎視覺任務,正遭受著對抗攻擊等技術手段帶來的巨大安全隱患.提高深度學習模型抵御對抗攻擊的能力(即對抗魯棒性)成為有效緩解該問題的可行技術途徑.為了科學、全面地提升深度學習模型的對抗魯棒性,眾多學者從基準評估和指標評估2個角度圍繞對抗魯棒性評估開展了大量研究.該研究著重對上述指標評估相關研究進行綜述:首先,介紹對抗樣本相關概念以及存在的原因,總結提出進行對抗魯棒性評估時需要遵循的評估準則;其次,從被攻擊模型和測試數據2個維度,重點梳理和對比分析現有的主要對抗魯棒性評估指標;而后,分析總結現階段主流的圖像分類數據集和對抗攻防集成工具,為后續開展對抗魯棒性評估奠定基礎;最后,探討當前研究的優勢和不足,以及未來潛在的研究方向.旨在為相關領域從業人員或學習者提供一個較為全面的、系統的和客觀的面向圖像分類的對抗魯棒性評估指標綜述.
引言
2019年瑞萊智慧 RealAI團隊對人臉照片進行 算法處理,將照片打印并粘貼到鏡框上,通過佩戴眼 鏡成功攻破19款商用手機的人臉解鎖[1];2020年 美國東北大學團隊[2]設計了一款印有特殊圖案的 T 恤,可使穿戴者躲避智能攝像頭的監測;2021年騰 訊科恩實驗室[3]通過在路面部署干擾信息,導致特 斯拉 ModelS車輛經過時對車道線做出錯判,致使 車輛駛入反向車道???? 由此可見,盡管深度學習在執行各種復雜任務 時取得了出乎意料的優異表現,但在安全應用領域 仍有很大的局限性.Szegedy等人[4]發現,深度學習 對于精心設計的輸入樣本是很脆弱的.這些樣本可 以輕易用人類察覺不到的微小擾動,欺騙一個訓練 好的深度學習模型,使模型做出錯誤的決策.現在, 深度學習中的對抗攻擊技術受到了大量關注,以面 向圖像分類為主的對抗攻擊算法[5G10]不斷涌現. 在此背景下,越來越多的研究者開始關注如何 提升模型抵御對抗攻擊的能力,即增強模型的對抗 魯棒性,并探索出了一系列的對抗防御手段,如梯度 遮蔽[11G12]、對 抗 訓 練[6,13]、數 據 處 理[14G15]和 特 征 壓 縮[16]等.盡管這些方法對于改善模型的對抗魯棒性 是有效的,但是目前針對模型對抗魯棒性的評估框架 尚未完善,主要是通過不斷改進攻防算法,反復進行 對抗,定性給出模型魯棒性好壞的基準,或者使用分 類準確率等指標單一地衡量模型的對抗魯棒性.此 外,許多攻擊算法或多或少會受到實驗條件的限制, 難以適用于所有的深度學習模型,這些問題為模型 的對抗魯棒性評估(adversarialrobustnessevaluation) 帶來了挑戰.
目前,面向圖像分類的對抗魯棒性評估領域還 有很大的發展空間,如何正確、科學、定量且全面地 評估模型的對抗魯棒性,正在吸引業界和學術界的 關注.為了更好地探究對抗魯棒性評估問題,本文系 統梳理并分析總結了面向圖像分類的對抗魯棒性評 估方法,以促進該領域的研究.
1 對抗樣本相關介紹
生成對抗樣本是開展對抗魯棒性評估工作的基 礎.為了更好地理解對抗魯棒性評估,本節首先簡要 介紹對抗樣本的概念和相關專業術語,并探討對抗 樣本存在的原因。
1.1 對抗樣本及相關術語
概念 1.對 抗 樣 本.最 早 提 出 這 一 概 念 的 是 Szegedy等人[4],他們在原始樣本上添加肉眼難以 察覺的微小擾動,愚弄了當時最先進的深度神經網 絡(deepneuralnetworks,DNNs),誘導模型分類 錯誤.如圖1所示,通過在原始樣本上添加圖中的擾 動,就能讓模型將卡車錯誤地識別成鴕鳥。這些 經 過 精 心 設 計 的 樣 本 被 稱 為 對 抗 樣 本 (adversarialexample),構造對抗樣本的過程被稱為 對抗攻擊.
概念2.對抗攻擊目標.Biggio等人[19]指出對抗 攻擊的目標是根據需求實現損失函數最小化或最大 化.從實際攻擊效果來看,也就是通過添加精心設計 的微小擾動實現模型的錯誤分類.根據不同的攻擊 目的,可以將對抗攻擊目標劃分為非目標攻擊和目 標攻擊.非目標攻擊指的是對抗樣本誘導模型分類 錯誤,但不指定錯分為哪一種類別,而目標攻擊限定 了模型將標簽為i 的樣本錯分成第j 類,數學語言描述分別為
概念3.對抗攻擊知識.它指的是攻擊者所掌握 的相關信息,包括訓練樣本、模型結構和模型輸出 等.針對攻擊者對智能系統了解情況的多少,可以將 攻擊劃分為白盒攻擊、灰盒攻擊和黑盒攻擊,攻擊難 度依次增大.由于灰盒攻擊的邊界難以界定,目前研 究大多以白盒攻擊和黑盒攻擊為主,本文不對灰盒 攻擊進行相關介紹.
概念4.對抗攻擊能力[20G21].指攻擊者修改訓練 數據或測試數據的能力.在針對圖像分類任務開展 對抗攻擊時,攻擊者的能力往往僅限于對測試集數 據進行修改,不考慮通過數據投毒等手段,影響模型 的訓練過程,這種攻擊被稱為探索性攻擊.與之對應 的誘導性攻擊,指的是通過修改訓練集,破壞原有訓 練數據的概率分布,使模型無法達到理想的分類效 果.由此可見,誘導性攻擊從根本上實現了對模型的 攻擊,比探索性攻擊的攻擊性更強. 通過分析圖像分類全過程各環節[22]的特點,從 上述提到的攻擊目標、知識以及能力3個維度對對 抗攻擊方法進行分類,形成如圖2所示的對抗攻擊 分類框架.誘導性攻擊主要對原始數據輸入以及數 據處理階段進行攻擊,探索性攻擊是在模型訓練完 成后,針對分類階段進行攻擊;倘若攻擊者無法獲取 模型訓練及訓練前各階段的信息,則開展的攻擊為 黑盒攻擊,否則為白盒攻擊;在最終的分類階段,針 對攻擊者能否精確控制分類器對測試樣本的分類結 果,可以將對抗攻擊劃分為目標攻擊和非目標攻擊 2類.
1.2 對抗樣本存在的解釋
對抗魯棒性評估與對抗樣本密切相關,深入理 解對抗樣本產生的機理有助于從根本上提出科學的 評估方法與指標.然而關于對抗樣本存在的解釋仍 有許多爭議,目前還沒有得出一個準確統一的結論. Szegedy等人[4]認為網絡模型的非線性特性是 導致對抗樣本存在的原因.具體而言,他們從正負實 數分類問題中發現,由于無理數的個數要遠多于有 理數,訓練集中無理數和有理數的比例難免失去平 衡,基于此數據集訓練的模型可能無法對有理數進 行正確的分類.但不可否認的是,有理數是的確存在 且稠密的.對抗樣本好比有理數,模型的非線性特性。使得模型訓練時對高維特征的提取不充分,僅僅學 習到局部子空間的特征,可能導致一直存在但被發 現的概率很低的對抗樣本難以被觀察到,進而影響 了模型的決策.遺憾的是,文獻[4]并沒有給出相關 的數學說明.
2 對抗魯棒性評估
科學、有效地評估模型的對抗魯棒性對于構建 對抗魯棒模型、提高智能系統安全性具有重要意義. 然而,至今尚未形成一個公正、統一的對抗魯棒性評 估指標或方法.現階段面向圖像分類的對抗魯棒性 評估主要分為基準評估和指標評估2類.前者通過 提出并改進各種攻防算法[27G31],反復進行對抗,以排 名基準[32]的形式反映對抗魯棒性的強弱;后者從對 抗樣本的角度出發提出一系列評估指標,旨在通過 全面、合理的指標對模型的對抗魯棒性進行評估.相 比前者,后者的優勢在于能夠以客觀可量化的方式 衡量模型的對抗魯棒性,為增強模型的對抗魯棒性 提供可解釋的科學依據.
2.1 基本概念
在深度學習領域,魯棒性(robustness)指的是 智能系統在受到內外環境中多種不確定因素干擾 時,依舊可以保持功能穩定的能力.而對抗魯棒性 (adversarialrobustness)[12,33]專指對抗環境下模型 抵御對抗攻擊的能力,即模型能否對添加微小擾動 的對抗樣本做出正確分類的能力.以任意攻擊方法 在原始樣本上添加擾動,模型正確識別該樣本的概 率越高,說明模型的對抗魯棒性越強.從數據空間的 角度來看,添 加 的 擾 動 可 以 被 描 述 為 對 抗 擾 動 距 離7,距離范 圍內的樣本都能夠被正確分類.因此也可以說,最小 對抗擾動距離 (minimaladversarialperturbation)越 大,則允許添加的擾動范圍越大,模型的對抗魯棒性 越強. 可以看出,對 抗 魯 棒 性 評 估 的 關 鍵 是 計 算 最 小對抗擾動距離.如果可以計算出最小對抗擾動距 離的精確值,那 么 最 小 對 抗 擾 動 距 離 的 值 將 可 以 作為模型對抗魯棒性評估的指標.然而,由于神經 網絡模型是大型、非線性且非凸的,對抗魯棒性等 模型 屬 性 的 驗 證 問 題 已 被 證 明 是 一 個 NP 完 全 (nonGdeterministicpolynomialGcomplete,NPGC)問 題[33G35].作為與對抗魯棒性相關的指標,最小對抗擾 動距離難以被精確求解.因此,許多研究轉向使用最 小對抗擾動的上界或下界去近似精確值[36].當擾動 距離大于上邊界距離時,說明至少有1個添加了該 擾動的樣本被模型誤分類;當擾動距離小于下邊界 距離時,則任意添加了該擾動的樣本都能被模型正 確分類,如圖3所示.通過最大下邊界距離或最小上 邊界距離逼近最小對抗擾動距離,從而實現對模型 對抗魯棒性的評估。
2.2 評估準則
對抗魯棒性評估是一個比較困難的問題,執行 不合理的實驗會導致評估無效.比如向原始樣本添 加的擾動過大,人眼即可判別生成樣本與原始樣本, 在此基礎上得到的評估結果是無意義的[37].諸如此 類的錯誤常常被研究人員忽略.本文梳理了進行對 抗魯棒性評估時需要遵守的3個評估準則[37],以便 指導研究人員開展正確的評估.
1)合理使用攻擊算法進行評估.部分攻擊算法 是針對某種特定模型而設計的,若將其應用于其他 模型,很難體現出模型是否具有抵御這種攻擊的能 力,也無法說明模型具有對抗魯棒性.另外,在進行 對抗魯棒性評估時,需要保證評估的普適性,這就意 味著不能僅僅使用帶有默認超參數的對抗攻擊進行 評估,應該排列組合所有參數,達到不同程度的攻擊 效果,從而評估模型的對抗魯棒性.
2)保證模型在正常環境下的良好性能.實驗表 明,對抗訓練會導致智能系統中神經網絡模型的準 確率下降[38].顯然,以犧牲模型對原始樣本的準確 率來增強模型對抗魯棒性的做法是不可取的.因此, 開展對抗魯棒性評估,應說明模型對原始樣本的分 類準確率.被攻擊模型保持正常環境下的分類準確 率是正確評估對抗魯棒性的前提.在滿足該前提的 條件下,如果被攻擊模型能夠正確識別對抗樣本,才 能說明模型具有較好的對抗魯棒性.
3)結合實際需求選擇評估結果分析方法.理論 上,評價智能系統的對抗魯棒性應分析模型受到攻 擊威脅時的最壞結果.在現實情況中,往往從統計學 角度以平均效果衡量魯棒性的好壞.針對不同需求, 應適當調整評估思維,給出符合實際的評估結果.進 行統計學分析時,還需對分類準確率等結果進行方 差計算,避免出現較高的偏差,使評估結果失去穩 定性.
2.3 評估指標體系
當前大多數研究通過分類準確率、攻擊次數或 擾動強度這3種指標進行對抗魯棒性評估.這些指 標能夠直觀上反映模型對抗魯棒性的強弱,但未能 全面地考慮到影響對抗魯棒性的因素.針對該問題, 本節梳理了現有研究中所涉及的30余種對抗魯棒 性評估指標,并從被攻擊模型和測試數據2個角度 對指標進行分類.
3 對抗攻防工具與數據集
近年來,對抗攻防研究發展迅速,相應算法層出 不窮.自2016年始,許多研究單位推出了集成眾多 主流算法的對抗攻防工具,以提高研究者與開發人 員的測評效率,助力推動智能系統安全領域的發展. 此外,在使用對抗攻防工具進行實驗的過程中,各學 者還應用了多種不同的數據集.本節將介紹主流的 數據集與對抗攻防集成平臺,方便后續開展對抗魯 棒性評估研究.
4 未來研究方向
對抗攻擊技術近年來獲得了業界內的廣泛關 注,取得了許多突破性進展,但關于對抗魯棒性評估 的研究仍處于起步階段,依然面臨許多的挑戰.基于 本文對對抗魯棒性評估研究現狀的深入分析,未來 該領域的研究需要重點關注4個方向:
1)深入開展對抗樣本存在機理、深度學習模型 脆弱性和可解釋性等理論研究.目前國內外學術界 關于對抗樣本的存在原因尚未達成共識,缺乏完備 的數學理論支撐,對于如何正確解釋深度學習模型 的內在邏輯與擾動下的決策行為尚在探索當中.這 些難題與對抗魯棒性的評估有著緊密關聯,開展相 關理論研究有助于理解對抗魯棒性評估問題的本 質,把握影響模型對抗魯棒性的關鍵因素,能從根本 上解決對抗環境下模型魯棒性的評估問題,是未來 對抗魯棒性評估問題在理論層面上值得研究的方向 之一.
2)提出一種或一組通用的、可量化的、綜合的 對抗魯棒性評估指標.無論是面向數據的指標還是 面向模型的指標,分析視角單一,給出的評估結果很 難被直接采納.此外,影響模型對抗魯棒性的因素眾 多,采用一種或幾種指標難以準確、完整地評估對抗 魯棒性的強弱.參考其他研究領域指標評估的方法, 梳理影響對抗魯棒性的全部因素,抓住關鍵要素,提 出一種或一組通用的、可量化的、綜合的指標,全面 評估模型的對抗魯棒性,是未來對抗魯棒性評估問 題在方法層面上值得研究的方向之一.
3)構建科學、統一、規范、完備的對抗魯棒性評估框架.面向圖像分類的數據集種類繁多,攻擊方法 不斷被創新,評估指標與評估方法不盡相同,盡管對 抗攻防集成工具涵蓋多種攻防算法,但也無法保證 進行對抗魯棒性評估的實驗條件和度量標準是一致 的,這為模型與模型之間、模型防御前后對抗魯棒性 的比較帶來了困難.搭建對抗魯棒性評估框架,全面 綜合各種攻防算法、數據集與評估指標,在標準對抗 環境下從多層次、細粒度分析圖像分類全過程模型 抵御對抗攻擊的能力,是未來對抗魯棒性評估問題 在流程層面上值得研究的方向之一.
4)重點研究黑盒、非目標的融合攻擊環境下的 對抗魯棒性評估方法.物理場景中難以獲取模型的 全部信息,針對白盒、目標攻擊的評估方法難以應用 于實際智能系統模型的對抗魯棒性評估任務,且由 于目前黑盒、非目標攻擊的性能遠低于人們的預期, 無法保證使用該攻擊進行評估的效果.更重要的是, 現實環境中攻擊者可能融合對抗擾動、自然噪聲等 多種類型干擾或多種攻擊方法開展對抗攻擊,亦或 利用智能系統在動態環境下依據時間、空間等信息 進行決策的漏洞,設計融合多元信息干擾的對抗攻擊方法,這給對抗魯棒性評估帶來了新的契機與挑 戰.如何評估模型在黑盒、非目標的融合攻擊環境下 的對抗魯棒性,是未來對抗魯棒性評估問題在實際 應用層面上值得研究的方向之一.
5 總 結
面對對抗攻擊等各種威脅,增強模型的對抗魯 棒性是保障智能系統安全的重要方式和手段.評估 對抗魯棒性是指導提升模型對抗魯棒性的基礎.然 而,關于對抗魯棒性評估的研究還停留在初級階段, 僅僅依靠排名基準或簡單指標無法準確衡量模型抵 御對抗攻擊的能力.因此,本文在調研和分析國內外 對抗魯棒性評估研究的基礎上,針對圖像分類這一 基礎視覺任務,從對抗樣本存在原因、對抗魯棒性評 估準則、對抗魯棒性評估指標等方面對現有研究成 果進行了歸類、總結和分析.同時,梳理了現階段主流 的圖像分類數據集和對抗攻防集成工具.最后,指出 了對抗魯棒性評估未來可能的研究方向,旨在為該 領域研究的進一步發展和應用提供一定借鑒與幫助.
摘要: 數據庫自然語言接口(natural language interface to database, NLIDB)能夠憑借自然語言描述實現數據庫查詢操作,是促進用戶無障礙地與數據庫交互的重要工具.因為NLIDB具有較高的應用價值,近年來一直受到學術與商業領域的關注.目前成熟的NLIDB系統大部分基于經典自然語言處理方法,即通過指定的規則實現自然語言查詢到結構化查詢的轉化.但是基于規則的方法仍然存在拓展性不強的缺陷.深度學習方法具有分布式表示和深層次抽象表示等優勢,能深入挖掘自然語言中潛在的語義特征.因此近年來在NLIDB中,引入深度學習技術成為了熱門的研究方向.針對基于深度學習的NLIDB研究進展進行總結:首先以解碼方法為依據,將現有成果歸納為4種類型分別進行分析;然后匯總了7種模型中常用的輔助方法;最后根據目前尚待解決的問題,提出未來仍需關注的研究方向.
摘要
深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。
//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85
引言
深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。
計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。
由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。
Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。
由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。
自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。
本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。
摘要: 圖異常檢測旨在大圖或海量圖數據庫中尋找“陌生”或“不尋常”模式,具有廣泛的應用場景.深度學習可以從數據中學習隱含的規律,在提取數據中潛在復雜模式方面表現出優越的性能. 近年來隨著基于深度神經網絡的圖表示學習取得顯著進展,如何利用深度學習方法進行圖異常檢測引起了學術界和產業界的廣泛關注. 盡管最近一系列研究從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注. 首先給出了靜態圖和動態圖上各類常見的異常定義,然后調研了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,梳理了基于深度學習的圖異常檢測的研究現狀,并總結了圖異常檢測的應用場景和相關數據集,最后討論了圖異常檢測技術目前面臨的挑戰和未來的研究方向.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200685
圖作為一種通用的數據結構,被廣泛用于表示 復雜的結構化數據.相對于其他數據結構,它能更好 地存儲和表達實體及其聯系.現實世界中,圖在社交 網絡分析、Web網絡分析、交通路網優化、知識圖譜 構建等領域均有廣泛的應用.針對這些語義豐富、樣 式多樣、規模龐大的圖數據,如何快速、準確地檢測 其中的異常引起了學術界和產業界的廣泛關注.圖 異常檢測是指在一個大圖或海量圖數據庫中尋找包 含“陌生”或者“不尋常”模式的結構(包括節點、邊或 者子圖),具有廣泛的應用場景,例如英特網中的惡 意攻擊、社交網絡中的突發事件檢測、電子商務中的 水軍發現等.相較于傳統的異常檢測方法,基于圖的 異常檢測由于圖具有強大的表達能力,不僅可以將 復雜的數據加以直觀的呈現,同時也能將數據中隱 含的相關性融入到異常檢測過程中.
面向圖的異常檢測工作最早發表于2003年[1], 現有工作大致可分為基于靜態圖和基于動態圖 2 類.在基于靜態圖的異常檢測工作中,一類方法利用 ego網絡[2]或者基于團體[3]研究問題;一類方法基 于圖的結構信息進行異常檢測[4G6],也有一些工作基 于子空間選擇,試圖在節點特征的子空間中發現異 常[7G9].還有一些工作通過概率、統計方法獲取圖的 統計信息進行異常檢測[10G13].盡管這些工作在異常 檢測上取得了不錯的進展,但這些方法如利用ego 網絡的方法,由于處理圖數據,必須考慮節點之間的 交互,在圖較為稀疏時難以實現較好的效果;或者如 子空間選擇和統計方法,由于淺層學習機制難以綜 合利用節點的屬性和結構信息.在基于動態圖的異 常檢測方面,同樣有一些工作基于團體[14G15]、基于結 構[6,16]、或基于概率統計[17G19]進行異常檢測.另外一 類典型的方法是首先獲取圖的概要,然后通過聚類 和異常 檢 測 來 確 定 概 要 中 的 異 常,例 如 文 獻 [20G 21],但是這些方法獲得的概要無法保留重要的結構 信息,比如鄰接節點的信息.現有的基于動態圖的異 常檢測方法大多依賴于啟發式規則,通常只是簡單 地考慮某一類特征;雖然有部分方法[22G23]考慮了內 容甚至時間因素,但并不靈活,導致其應用局限于特 定的場景.
近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面 表現出優越的性能,并在音頻、圖像和自然語言處理 等領域得到了廣泛應用.深度學習方法能夠合理處 理復雜的屬性信息,并且可以從數據中學習隱含的 規律;此外,通過神經網絡對圖進行嵌入不僅可以很 好地保留信息[24G26],還可以很好地處理節點或邊的 屬性,同時保留結構信息,進而方便檢查隱空間中節 點或邊表示的相似性.近年來隨著對圖進行嵌入表 示取得顯著進展,如何利用深度學習方法進行圖異 常檢測在過去幾年中吸引了廣泛關注.基于深度學 習的圖異常檢測方法通常使用圖的嵌入表示方法先 將圖表示為隱空間中的向量,然后使用該向量重構 圖從而剔除異常信息的影響,最后通過重構誤差進 行異常檢測.
關于異常和離群點檢測,已經存在非常全面的 綜述類文章,例如Zimek等人[27]重點介紹了關于高 維離群值檢測,Schubert等人[28]討論了局部離群值 檢測技術.但是,這些文章通常關注多維數據實例的 點,沒有或者不是直接地關注基于圖的檢測技術.盡管文獻[29]從圖的角度對異常檢測技術進行了調 研,但是缺少對深度學習技術下的圖異常檢測技術 的關注.與以往關于異常檢測的綜述不同,本文專注 于大圖或海量圖數據庫中的異常檢測,并對基于深 度學習的圖異常檢測技術進行全面地梳理和總結, 是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述.
本文首先對圖上的異常定義做了全面的分析, 然后詳細介紹了基于深度神經網絡的圖表示學習方 法,接著從靜態圖和動態圖的角度出發,對現有基于 深度學習的圖異常檢測方法進行系統地總結和歸 類,并討論相關方法的局限性.接著簡單介紹圖異常 檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未 來可行的研究方向.本文期望通過對目前基于深度 學習的圖異常檢測研究現狀的梳理,為后續研究提 供可借鑒的思路.