亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

針對不同的異常檢測方法的差異及應用于工業物聯網(IIoT)安全防護的適用性問題,從技術原理出發,調研分析2000—2021年發表的關于網絡異常檢測的論文,總結了工業物聯網面臨的安全威脅,歸納了9種網絡異常檢測方法及其特點,通過縱向對比梳理了不同方法的優缺點和適用工業物聯網場景。另外,對常用數據集做了統計分析和對比,并從4個方向對未來發展趨勢進行展望。分析結果可以指導按應用場景選擇適配方法,發現待解決關鍵問題并為后續研究指明方向。

0 引言

隨著 5G 通信技術的快速發展,以及傳感器和處理器等嵌入式設備的計算和存儲能力不斷增加,這些網絡通信和嵌入式設備在工業系統中的應用越來越普遍。工業物聯網(IIoT, industrial Internet of things)是由應用程序、軟件系統和物理設備三者組成的大型網絡,這三者與外部環境以及人類之間進行通信和共享智能[1]。據埃森哲預測,到2030年,美國的工業物聯網價值將出到7.1 萬億美元,對歐洲而言價值將超過 1.2 萬億美元[2]。

在這波工業發展浪潮中,物聯網安全是影響工業物聯網廣泛使用的重要因素之一。事實上,物聯網設備的安全性通常很差,因此很容易成為攻擊者的目標。攻擊者利用這些設備可以進行毀滅性的網絡攻擊,如分布式拒絕服務(DDoS, distributed denial of service)[3-4]。傳統的工業環境在過去一直遭受攻擊,有的還造成了災難性的后果(例如,震網病毒[5]或故障超馳/工業破壞者[6])。因此,如果沒有安全性,工業物聯網將永遠無法發揮其全部潛力。另外,工業系統對性能和可用性有嚴格的要求,即使系統受到網絡攻擊,維護系統不間斷和安全地運行也常常是優先考慮的。

異常檢測在防御系統和網絡的惡意活動中是至關重要的。近年來,為了緩解網絡攻擊,工業物聯網異常檢測方面的研究迅速增多,許多檢測機制被提出。另一方面,在異常檢測方面研究者已經從技術手段、應用場景等方面做了一些調研工作,如文獻[7-10],但這些工作很少專門針對工業物聯網的特性和適用性進行深入剖析。近兩年,雖然出現了針對工業物聯網異常檢測的綜述性文章,但介紹的都不夠全面。例如,文獻[2]只介紹了基于系統規則、建模系統物理狀態的檢測方法,文獻[4]則只介紹了基于統計和機器學習的檢測方法。除了文獻[2,4]提到的檢測方法之外,還存在許多新穎的檢測技術。

因此,本文從技術原理的角度,梳理了基于系統不變性和物理狀態的建模、基于統計學習、特征選擇、機器學習、圖、邊緣/霧計算、指紋、生物免疫等算法的異常檢測技術,并詳細分析了各類技術的優缺點。由于用于工業異常檢測研究的數據集繁雜且多樣,本文詳細歸納了常用數據集的特點及其使用頻率,方便讀者對比和選擇。除此之外,本文針對工業物聯網典型場景的網絡威脅和異常檢測方法進行調研和綜述,介紹了邊緣/霧計算方法在異常檢測方面的應用,增加了對2021 年最新論文的調研,對不同檢測方法的特點和適用場景進行了深入分析。

1 工業物聯網面臨的安全威脅

工業4.0將信息通信技術應用于工業制造和自動化領域,極大地提高了生產力和效率。然而,這一進步的代價是擴大了工業系統的受攻擊面。針對工業物聯網的攻擊,可以分為被動攻擊和主動攻擊。被動攻擊是隱蔽的,通常無法檢測到,如竊聽和流量分析。主動攻擊包括丟包、回注、干擾網絡的正常運行等。惡意軟件感染、拒絕服務(DoS, denial of service)、未授權訪問和虛假數據包注入等主動攻擊通常是可以檢測到的[9]。下面簡要總結幾種主動攻擊的特點和目標。

惡意包注入攻擊。重放抓包,發送偽造或篡改的報文,以達到干擾或破壞系統操作的目的。 DoS攻擊。消耗系統或網絡資源,導致資源不可用。 未授權訪問攻擊。探測計算機或網絡以發現漏洞;對報文進行嗅探或攔截,用于收集信息。 除此之外,還涌現出了一些針對工業物聯網典型場景的威脅。 物理攻擊。例如針對交通運輸物聯網的物理攻擊,對交通設備節點本身進行物理上的破壞,如斷電、移動節點位置等,造成信息缺失、信息泄露等。 感知數據破壞。非授權地增刪、修改或破壞感知數據,例如針對新能源發電廠的電力物聯網生產數據篡改。 控制命令偽造攻擊。發送偽造的控制命令,從而達到破壞系統或惡意利用系統的目的,例如針對數控機床設備物聯網的控制命令偽造。 為了保護工業系統免受網絡攻擊,涌現出了各種安全措施,如加密通信數據、數據完整性校驗和訪問控制等方法,可以保護系統免受多種類型的攻擊。然而,即使這些安全措施已經到位,攻擊者仍然可以成功地對系統發起攻擊,如惡意包注入和DDoS攻擊等。因此,有必要對網絡進行異常檢測,以此來進一步保障工業系統的安全。

2 工業物聯網異常檢測

本節首先介紹了工業物聯網中存在的異常種類,進而詳細分析和梳理了現有的針對不同異常類別和不同應用場景的異常檢測方法。

2.1 異常種類

網絡攻擊以損害系統信息的機密性、完整性和資源的可用性為目標,通常以某種方式造成網絡運行偏離正常,表現出異常行為。因此,可以通過發現數據中不符合預期行為的模式來識別異常。現階段IIoT中主要存在3種異常[8]。 點異常。即個別數據實例相對于其余數據是異常的。例如,假設水溫傳感器值的預定義范圍是30℃~40℃,那么超出這個范圍的值將是一個異常點。 上下文異常。僅在特定上下文中表現異常的數據實例稱為上下文異常。這類異常多為空間數據或時序數據中的異常。 集合異常。如果相關數據實例的集合相對于整個數據集是異常的,則稱為集合異常。集合異常中的單個數據實例本身可能不是異常,但它們一起作為一個集合出現就是異常。例如,單個TCP連接請求是正常的,但是連續從同一個源收到多個這種請求就有可能是DoS攻擊,也就是異常。 網絡異常檢測是指檢測網絡流量數據中的異常,利用設備或軟件應用程序對網絡流量進行監控和分析,從而檢測出惡意活動。現有工業物聯網異常檢測方法可以分為基于系統不變性、物理狀態建模、統計學習、特征選擇、機器學習、邊緣/霧計算、圖、指紋以及生物免疫等算法的檢測方法。下面將針對每一種檢測方法的技術原理、現有研究成果、優缺點及適用應用場景做介紹梳理和深入分析。

2.2 基于系統不變性的檢測方法

系統不變性是指系統運行過程的“物理”或“化學”特性中的一個條件,每當系統處于給定狀態時,必須滿足該條件。通過分析物理不變性來檢測異常已經被應用于許多網絡信息物理系統(CPS, cyber-physical system)[11-14]。文獻[11]將所有組件的穩定性和正確性約束以邏輯不變性的形式表示出來,系統動作只有在保證不違反這些不變性時才能執行。針對 CPS 各個模塊的不變性,文獻[12]提出了統一不變性,開發了跨越系統各個層面的公共語義。然而,文獻[11-12]都是通過人工來產生物理不變性,開銷很大,且很容易出錯。為了解決這個問題,文獻[13]提出利用關聯規則挖掘算法自動識別系統不變性,該算法的優點是可以發現隱藏在設計布局中的不變性,避免了手動尋找的煩瑣。但是,這項技術僅適用于成對出現的傳感器和執行器,而在真實的CPS中,所有傳感器和執行器都是跨多個過程協同工作的。也有一些使用機器學習算法來挖掘CPS物理不變性的研究。例如,Momtazpour 等[14]采用預先發現潛在變量的外源性輸入自動回歸模型,以發現多個時間步內無線傳感器數據之間的不變性。Chen 等[15]利用代碼變異程序生成異常數據軌跡,然后利用支持向量機(SVM, support vector machine)分類器和統計模型檢驗來發現安全水處理實驗臺傳感器數據之間的不變性。文獻[16]采用幾種機器學習和數據挖掘技術的組合,系統地從工業控制系統(ICS, industrial control system)的操作日志以及執行器的狀態信息生成不變性。

2.3 基于物理狀態建模的檢測方法

CPS的底層過程一般由其工作原理控制,因此其過程狀態是可預測的。基于物理模型的異常檢測方法根據物理狀態對正常的物理操作進行建模,從而能夠從偏離物理操作模型的異常狀態中檢測到網絡攻擊。 文獻[17]提出了一個CPS攻擊彈性框架。該框架利用已知物理領域的數學描述,以及預測值和歷史數據信息,驗證預測值和測量值之間的相關性。文獻[18]描述了如何使用流體動力學模型來檢測供水網絡的物理故障和網絡攻擊,并通過狀態和測量方程以及未知輸入來建模水系統。該模型能夠反映傳感器、執行器故障或漏水等異常事件對系統的影響,但僅依靠建模物理模型來檢測網絡攻擊是不夠的,如果傳感器的測量值被破壞,則很難檢測到攻擊。為了識別攻擊者利用系統漏洞,注入合法的惡意控制命令來破壞電網的行為,文獻[19]提出結合電網物理基礎設施知識和網絡信息來檢測攻擊。該方法基于協議規范對數據包進行檢測,提取其中的關鍵控制命令,并通過電力系統運行方程進行仿真運行。通過仿真,對執行控制命令所產生的系統狀態進行估計,并與可信度量進行比較,從而識別攻擊。文獻[20]提出了一種針對電力領域的基于模型的異常檢測算法。該算法驗證了接收到的測量數據與控制底層物理系統運行的方程所獲得的預測數據的一致性。文獻[21]描述了一種基于模型的方法來保護智能電網。該方法基于系統狀態動力學方程,評估系統狀態,并與采集的測量值比較,檢測出受損的測量值。文獻[22]在一個水基礎設施實驗臺上測試了基于控制理論建模的故障檢測和基于網絡安全的異常檢測方法。結果表明,這2種方法都能有效地檢測出故障和攻擊,但存在一定的局限性。在物理故障和網絡攻擊同時進行的實驗中,網絡攻擊者可以躲避控制理論建模方法的檢測。因此,將物理動態建模方法中的狀態估計與網絡安全方法中的數據分析相結合,是提高 ICS 網絡安全的關鍵。

2.4 基于統計學習的檢測方法

基于統計的異常檢測方法為數據集創建一個分布模型,并與目標數據對象相匹配。假設正常數據落在高概率區間,而異常數據相對落在低概率區間,根據目標數據集中數據落在模型中的概率來判斷是否異常。Rajasegarar等[23-24]建立了2種異常檢測模型:統計檢測模型和非參數檢測模型。這2種模型可以應用于不同的場景,其中前者適用于數據類型和采樣周期預先確定的應用;而后者在沒有先驗知識的情況下,通過比較當前數據和相鄰數據的行為識別異常。費歡等[25]提出一種多源數據異常檢測方法。該方法主要應用于平臺空間,通過二維坐標的位置來確定2個節點之間的關系。類似地,文獻[26]提出基于密度的模型,通過分析電數據來發現太陽能發電系統的異常行為。 另外,傳感器數據的時間和頻率屬性能夠為建立時頻邏輯提供有價值的信息。時域信號(均值、標準差或方差等)可以描述有關系統行為的某些信息。例如,基于頻率的信號特性(傅里葉變換、小波變換等)可以單獨或結合時域特征來理解系統的行為[27]。工業系統復雜而廣泛,大量的傳感器被用于監控空間和物體,以為異常行為預測提供全面、多維度的運行數據。對于這種情況,基于相關性分析的方法[28]被證明可以更有效地識別異常。該方法能夠反映系統的真實表現,因為這些相關性可以從物理上反映系統的運行機制和條件。表1列出了基于統計學習方法的異常檢測在工業物聯網中的應用。

2.5 基于特征選擇的檢測方法

異常檢測處理的數據是人工從復雜的網絡系統中提取出來的。這些數據一般具有高維、強冗余、低相關性等特點。直接使用原始數據,檢測算法的性能會很差。而特征選擇的作用是從原始數據中選擇有用的特征,選出的特征具有更強的相關性、非冗余特性和更少的噪聲。這些特征可以幫助相關算法更高效、快速地區分、檢測和分類出不同的目標。因此許多研究者將其應用于入侵檢測系統(IDS, intrusion detection system)的設計中,以提高檢測精度,減少檢測時間。 這些研究通常來自2種觀點。一種是有效提取,如主成分分析(PCA, principal component analysis)。針對異常檢測系統耗時長、性能下降等問題,文獻[30]提出了一種混合的 PCA 神經網絡算法。該算法利用PCA變換對特征降維,使訓練時間減少約40%,測試時間減少約70%,同時還提高了檢測精度。文獻[31]基于核主成分分析和極限學習機(ELM, extreme learning machine)設計IDS。其中,核主成分分析用于特征矩陣降維。實驗結果表明,該系統比單純基于ELM或者SVM算法的IDS效率更高,速度更快。類似地,文獻[32]提出一種增量ELM與自適應PCA相結合的方法,該方法可以自適應地選擇相關特征以獲得更高的精度。然而,所有這些方法都沒有減少原始數據的特征量,總的時間消耗仍然非常大。另一種是有效特征選擇,如遺傳算法和最大相關最小冗余算法。文獻[33-34]將特征選擇問題定義為組合優化問題,提出基于局部搜索最優解算法來選擇有效的特征子集,用于檢測“正常”和“DoS”攻擊數據。雖然使用該算法選擇出的有效特征子集在檢測率和準確率方面都優于使用全部特征集,但也帶來了較高的誤報率。文獻[35]提出了一種基于遺傳算法的特征選擇方法來設計IDS以選擇最優特征,采用單點交叉而不是兩點交叉優化該遺傳算法的參數。總體而言,其給出了更好的結果,但在某些情況下分類率會下降。Feng 等[36]提出基于K近鄰和樹種子算法的IDS模型來選擇特征,減少特征冗余,檢測效率有所提升但準確率沒有明顯的改善。

上述方法有一個共同的缺點,即選擇的特征具有一定的隨機性和不確定性,不能應用于下次選擇。為了克服這個問題以及明確不同特征對異常檢測的影響,文獻[37]基于最大相關最小冗余特征選擇算法和 SVM 分類方法進行了一系列實驗。另外,為了進一步選取有效的特征,文獻[38]結合群體智能算法和強化學習,提出了一個名叫 QBSO-FS 的特征選擇模型,實驗結果表明,該模型確實優于傳統特征選擇算法。工業系統中基于特征選擇的異常檢測方法對比如表2所示。

2.6 基于機器學習的檢測方法

在工業系統中,機器學習方法(如貝葉斯網絡、k-means、ELM[39]、SVM、回歸等)已經被成功用于識別和檢測工業物聯網中的異常行為[10]。除此之外,聚類[40-42]、隨機森林[43]、孤立森林[44]和隱馬爾可夫模型[45]等算法也取得了不錯的成績。表3 總結了工業系統中基于機器學習的異常檢測方法。

單分類支持向量機(OCSVM, one class suport vector machine)是一種非常著名的異常檢測算法,被應用于許多應用領域中,它能夠學習可見數據的邊界,并將邊界之外的所有事件或數據點識別為系統異常行為[43,46-47]。為了進一步提升OCSVM 的性能,文獻[48]采用云灰狼優化算法對OCSVM參數進行優化。實驗結果表明,該算法在一定程度上確實提高了模型的檢測精度。與文獻[48]的工作不同,文獻[49]提出 2 種將OCSVM擴展到張量空間的異常檢測算法,即單分類支持塔克機和基于張量塔克分解以及遺傳算法的遺傳單分類支持塔克機。兩者都是針對傳感器大數據的無監督異常檢測,保留了數據結構信息的同時,提高了檢測的準確率和效率。

聚類方法以無監督的方式將特征相似的對象歸為一組,經過這種自動分組后,如果新的數據點不能被放入預定義的集群(組)中,則系統會將該數據點判為異常情況并生成警報[40,42]。梯度提升樹是一種集成學習分類器,文獻[50]用其檢測風力機螺栓斷裂問題的早期異常。該算法首先生成多棵決策樹,然后綜合所有樹的結果從而做出最終決策。梯度提升樹有個令人不容忽視的缺點,即不能處理海量數據。為了解決這個問題,文獻[51]提出結合輕量級梯度提升機和貝葉斯優化來檢測工業網絡流量中的異常。該方法在提高檢測效率和準確率的同時,減少了人工對模型訓練的參與度。

然而,機器學習方法有以下3個局限性:1) 性能很大程度上依賴所采用的特征工程技術的穩健性,限制了穩定性;2) 應用于大規模高維數據時,性能會嚴重惡化;3) 學習能力不夠強,無法應對工業物聯網環境中數據(網絡攻擊)的動態性。

2.6.1 深度學習方法

深度學習(DL, deep learning)是一種具有自動學習能力的智能算法,是機器學習的一個分支。由于 DL 對任何特征工程的獨立性、對動態環境的適應性以及強大的學習能力(特別是從高維數據中),其很快成為解決上述局限性的新的學習范式。各種各樣的 DL 方法已經成功應用于異常和入侵檢測,如卷積神經網絡(CNN, convolutional neural network)[52-53]、循環神經網絡(RNN, recurrent neural network)[54-56]、生成對抗網絡(GAN, generative adversarial network)[57-59]、脈沖神經網絡[60]、粒子深框架[61]和長短期記憶(LSTM, long short-term memory)網絡[56,62-66]。Ferrag等[53]對CNN、RNN和深度神經網絡(DNN, deep neural network)進行了入侵檢測研究,并對它們在不同配置下的性能進行了對比分析。Bhuvaneswari等[67]在基于霧的物聯網中引入向量卷積構建入侵檢測系統。但是,CNN有一個讓人無法忽視的缺點,即無法學習物聯網流量的長時依賴特征,而這正是 LSTM 網絡的優勢。因此, Saharkhizan等[68]提出使用LSTM來學習時序數據之間的依賴關系。該研究使用一個LSTM集合作為檢測器,將該檢驗器的輸出合并成決策樹,最終進行分類。

然而,這些模型的計算成本很高。為了解決這個問題,Liaqat等[69]提出了一個整合CNN和Cuda DNN LSTM的方案,該方案能夠及時有效地檢測出醫療物聯網環境中的復雜惡意僵尸網絡。

文獻[70]提出了一種壓縮卷積變分自動編碼器,用于IIoT中時間序列數據的異常檢測。該方法減少了模型的大小和推理的時間,但是分類性能基本上沒有提升。研究了卷積神經網絡在工業控制系統異常檢測的應用后,文獻[52]提出了一種基于測量預測值與觀測值的統計偏差的異常檢測方法,并指出一維卷積網絡在工業控制系統的異常檢測方面優于循環神經網絡。從網絡包內容分析的角度出發,文獻[66]提出了簽名+LSTM的多層異常檢測方法。其首先開發了一個數據包的基準簽名數據庫,并用布魯姆過濾器存儲該簽名數據庫同時檢測包異常,然后將該簽名數據庫作為數據源輸入LSTM中,來進行時間序列的異常檢測。為了保護集成電路免受網絡攻擊,文獻[71]采用 2 種異常檢測算法來做異常檢測,一個是傳統機器學習算法k-means,另一個是卷積自編碼算法,并取2種算法結果的邏輯與來作為最終的檢測結果。但是該方法在特征選擇時,沒有采用專有的特征選擇算法,僅僅通過人工過濾掉了不產生影響的屬性。另外,為了保護IIoT系統免受勒索軟件攻擊,文獻[72]提出了一種基于堆疊變分自編碼的檢測模型,該模型具有一個全連接神經網絡,能夠學習系統活動的潛在結構,并揭示勒索軟件的行為。為了提高檢測的準確率和降低出錯率,文獻[73]利用深度學習自編碼器結合編碼層的系數懲罰和重構損失來提取高維數據特征,然后使用極限學習機(ELM, extreme learning machine)對提取的特征進行快速有效的分類。文獻[59]提出一種基于雙向生成對抗網絡(BiGAN, bidirectional-GAN)的ICS入侵檢測策略。為了提高BiGAN模型在ICS入侵檢測中的適應性,該研究通過單變量原理和交叉驗證得到了最優模型。針對循環DL模型不能并行化且難以處理長流量序列的問題,文獻[74]設計了基于取證的深度學習模型,該模型使用局部門控制循環單元學習局部特征,并引入多頭注意力機制來捕獲和學習全局表示(即長期依賴)。文獻[75]設計了一個雙向多特征層的長短時記憶網絡。文獻[76]基于深度隨機神經網絡設計了入侵檢測方案,在訓練過程中,其選擇了數據集的41個最顯著的特征。文獻[77]提出了基于孿生卷積神經網絡的少樣本學習模型,以緩解ICPS中的過擬合問題,同時提高了智能異常檢測的準確率。表4展示了工業系統中的基于深度學習的異常檢測研究成果。

2.6.2 聯邦學習方法

聯邦學習是一種機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全等要求下,進行數據使用和機器學習建模。近年來,為了在異常檢測的過程中不泄露用戶的隱私,聯邦學習在工業物聯網中的應用引起了學術界和產業界的極大興趣。為了保護用戶的隱私數據,Liu 等[78]將聯邦學習與深度異常檢測相結合,建立具有LSTM的卷積神經網絡模型,同時在聯邦學習的過程中利用基于Top-k 選擇的梯度壓縮機制降低通信代價以及提高通信質量。2021 年,Liu 等[79]在文獻[78]的基礎上引入注意力機制,進一步提高了異常檢測的準確率。Li 等[80]基于卷積神經網絡和門控遞歸單元設計了聯邦深度學習方案。該方案允許多個工業CPS以隱私保護的方式共同構建一個綜合性的入侵檢測模型,并利用Paillier加密機制保護訓練過程中模型參數的安全性和隱私性。值得一提的是,該模型僅適用于同域工業 CPS。文獻[81]提出了一種聯邦深度強化學習異常檢測算法,即利用聯邦學習技術,建立一個通用的異常檢測模型,然后采用深度強化學習算法訓練每個局部模型。由于聯邦學習過程中不需要局部數據集,減少了隱私泄露的機會。此外,通過在異常檢測設計中引入隱私泄露程度和動作關系,提高了檢測精度。表5總結了聯邦學習在工業異常檢測中的研究成果。

![](//cdn.zhuanzhi.ai/vfiles/dc9936dca231d5dd5c00c2bea62099f4

2.7 基于邊緣/霧計算的檢測方法

深度神經網絡的進展極大地支持異常物聯網數據的實時檢測。然而,由于計算能力和能源供應有限,物聯網設備幾乎負擔不起復雜的深度神經網絡模型。雖然可以將異常檢測的任務轉移到云上,但當數千個物聯網設備同時將數據傳到云上時,會導致時延和網絡擁塞。 一種新興架構——霧(邊緣)計算的出現,解決了上述問題。該架構旨在通過將計算、通信、存儲和分析等資源密集型功能轉移到終端用戶來減輕云和核心網絡的網絡負擔。霧計算系統能夠處理對時間要求嚴格的物聯網的能源效率和時延敏感型應用,如工廠的火災報警系統、地下采礦環境等,都需要快速檢測出異常。因此,涌現出許多基于霧(邊緣)計算的異常檢測框架[82-84]。文獻[85]針對數據異常檢測的準確性和時效性,提出了一種基于層次邊緣計算(HEC, hierarchical edge computing)模型的多源多維數據異常檢測方案。該研究首先提出了 HEC 模型,來實現傳感器端和基站端負載均衡和低時延數據處理;然后設計了一種基于模糊理論的單源數據異常檢測算法,該算法能夠綜合分析多個連續時刻的異常檢測結果。針對工業物聯網終端設備中數據量大的問題,文獻[86]先采用邊緣計算對傳感器數據進行壓縮優化(即預處理),進而利用k-means 聚類算法對處理后數據的離群值進行判斷。然而,壓縮技術會造成數據信息的損失,可能影響檢測精度。因此,需要權衡好壓縮率與檢測精度的關系。

與文獻[84-85]類似,文獻[87]同樣基于 HEC提出了自適應異常檢測方法。首先,構建了 3 個復雜度不斷增加的 DNN 異常檢測模型,并將其與 HEC 的三層(物聯網設備、邊緣服務器、云)自下而上關聯。然后,根據輸入數據的上下文信息自適應地選擇合適的模型進行異常檢測。表6展示了工業物聯網中基于云計算、邊緣計算和霧計算的異常檢測方法。從表6中可以看出,雖然文獻[87]的準確率和 F1 得分略低于文獻[84],但平均時延大幅度降低了。由此可知其必然是犧牲了部分的精度來獲得較小的檢測時延。基于自適應圖更新模型,文獻[88]引入一種新的邊緣計算環境中的異常檢測方法。在云中心,利用深度學習模型對未知模式進行分類,根據分類結果定期更新特征圖,不斷地將分類結果傳輸到每個邊緣節點,利用緩存暫時保存新出現的異常或正常模式,直到邊緣節點接收到新的更新的特征圖。

2.8 基于圖的檢測方法

基于圖的異常檢測在醫療保健、網絡、金融和保險等各個領域都有應用。由于來自網絡、電子郵件、電話等的數據相互依賴,使用圖表檢測異常變得越來越流行。文獻[89]提出了一種基于知識圖譜的工業物聯網移動設備異常檢測方法,并利用可視化技術對檢測結果進行演示。具體地,作者使用優化后的基于頻繁項集的數據挖掘算法對數據進行分析,使提出的方法能夠準確地檢測出不同類型的并發攻擊。另外,作者還設計了可以將結果多維度可視化的異常告警模塊,幫助非專業用戶在工業領域充分了解網絡安全情況。文獻[90-91]引入了一種新的基于圖的異常檢測方法,并將背景知識添加到傳統圖挖掘方法的評價指標中。背景知識以規則覆蓋的形式添加,報告子結構實例覆蓋了最終圖的百分比。由于人們認為異常不會頻繁出現,因此作者假定,通過為規則覆蓋分配負權值,可以發現異常的子結構。該方法在不損失精度的同時,大大降低了檢測時間。表7介紹了工業物聯網中基于圖的異常檢測方法的研究成果。

2.9 基于指紋的檢測方法

指紋識別技術被廣泛應用在人們生活的方方面面,如企業考勤、智能小區等。另一方面,越來越多的無線智能設備被應用到ICS網絡中,由于設備的計算和存儲能力較弱,使用常規的加密方法和安全補丁來提高ICS網絡中遺留設備的安全水平幾乎是不可能的。因此,指紋識別技術的高度成功吸引了許多安全領域研究者的目光。已經有許多人將指紋技術的思想運用到檢測ICS網絡的異常工作中。文獻[92]提出 2 種設備類型指紋方法,來增強現有ICS環境下的入侵檢測方法。方法1利用ICS網絡的靜態和低時延等特征建立設備指紋,方法 2 采用物理操作時間為每個設備類型開發一個唯一的簽名。文獻[93]提出了一種混合增強設備指紋的方法,利用程序流程的簡單性和硬件配置的穩定性,通過過濾掉異常數據包,來實現ICS網絡中的異常檢測。為了消除對信號周期性的依賴,文獻[94]設計了一種不考慮周期性的異構工業物聯網設備指紋識別算法。該算法從信號傳輸的時間序列中提取模式,然后通過聚類得到的模式來學習設備的指紋。文獻[95]提出一種稱為過程傾斜的技術,該技術利用ICS過程中的小偏差(稱為工藝(process)指紋)進行異常檢測。表8展示了工業物聯網中基于指紋的異常檢測的研究成果。

2.10 基于生物免疫的檢測方法

基于異常的入侵檢測技術通常假陽性很高,這使一些學者將目光轉向其他領域以尋求突破。人工免疫系統(AIS, artificial immune system)是一類生物啟發計算方法,出現在20世紀90年代,連接了不同的領域,如免疫學、計算機科學和工程。基于AIS的IDS通常被用作異常檢測系統。文獻[96]在生物免疫系統的啟發下,提出了一種基于多智能體系統的入侵檢測新模型,該模型集成在網絡上的分布式代理行為中,以確保良好的入侵檢測性能。文獻[97]基于確定性樹突細胞算法(DDCA, deterministic dendritic cell algorithm)設計了用于工業場景的入侵檢測算法,該算法利用上下文與抗原之間的相關性作為異常檢測的基礎。DDCA的分類性能很大程度上依賴于特征選擇過程,高度相關的特征導致近似完美的分類,反之,相關性較差的特征在DDCA分類過程中會帶來非常負面的影響。為了能夠實時檢測異常,文獻[98]基于分層時間記憶網絡,構建了在線序列記憶算法。該分層時間記憶網絡不斷學習和建模輸入數據的時空特性,通過預測輸入和實際輸入之間的差異來更新其突觸連接。學習發生在每個時間步,但由于表示非常稀疏,因此只有小部分突觸被更新,大大節省了訓練時間。上文詳細介紹了工業物聯網領域的9種異常檢測方法。為了更加直觀地比較各種的算法,本文進而介紹了每種檢測方法的優缺點以及現有研究成果,如表9所示。

付費5元查看完整內容

相關內容

摘要

隨著5G商業化的到來,下一代超5G(B5G)的無線電接入技術需要更可靠、更快、更智能的電信系統。人工智能(AI)和機器學習(ML)不僅在服務層應用中大受歡迎,而且還被提議作為B5G網絡的多方面重要推動者,從物聯網設備和邊緣計算到基于云的基礎設施。然而,大多數現有的B5G安全綜述都集中在AI/ML模型的性能和它們的準確性上,但它們往往忽略了模型決策的責任和可信度。可解釋人工智能(XAI)方法是很有前途的技術,可以讓系統開發者識別AI/ML黑盒模型的內部工作原理。在B5G的安全領域使用XAI的目標是讓系統安全的決策過程對利益相關者透明和理解,使系統對自主行動負責。在即將到來的B5G時代的每個方面,包括B5G技術,如RAN、零接觸網絡管理、E2E切片,本調查強調了XAI在其中的作用,以及普通用戶最終將享受的使用案例。此外,我們還介紹了在目前開展的涉及XAI的項目基礎上,從最近的工作中獲得的經驗和未來的研究方向。

關鍵詞:B5G、XAI、人工智能安全、網絡安全、6G移動通信、責任制、可信賴的人工智能、可解釋的安全

I. 引言

無線通信行業可以說是技術領域中發展最迅速的部門之一。在電信領域蓬勃發展的創新奠定了基礎設施,并形成了和諧的發展,使生活水平呈指數級增長。第一代蜂窩網絡是在20世紀80年代開始發展無線通信技術的。5G無線技術主要基于軟件化,預計將在2025年之前完成過渡,實現大幅覆蓋。5G最引人注目的特點是通過基于微服務的架構將網絡云化。隨著5G商業化實施的開始,專家們預測6G移動通信將在接下來的幾年里廣泛普及[1]。與此同時,學術界更加關注超5G或6G標準化之前的新研究方向。邊緣智能(EI)、超越6GHz到太赫茲通信、非正交多址(NOMA)、大型智能表面(LIS)和零接觸網絡在最近幾年已經興起[2]-[4]。這些概念正被發展為將為下一代通信網絡提供動力的技術。在5G網絡能力方面,要滿足這些需要高速數據傳輸率和實時訪問重要計算資源的應用,還有很長的路要走。由5G促成的物聯網,試圖連接大量的設備和網絡物理系統(CPS),超越5G的能力,進入B5G時代。例如,6G有望連接數以百萬計的設備,并提供對大量計算和存儲能力的即時訪問。對于B5G無線網絡,科學界期待著完全智能的網絡協調和管理[2],[5]。它將在各方面有別于前幾代,包括網絡基礎設施、無線電接入方法、處理和存儲能力、應用類型。新的應用將需要智能地使用通信、計算、控制和存儲資源。此外,無線網絡正在產生大量的數據。這種模式的轉變使得B5G中數據驅動的實時網絡設計和運行成為可能。

物理攻擊、竊聽以及認證和授權問題困擾著從1G到3G的無線通信技術。現在它包括更復雜的攻擊和更強硬的攻擊者。4G網絡最突出的安全和隱私威脅來自惡意軟件程序和常見的MAC層安全漏洞,如病毒、篡改、拒絕服務(DoS)、回放攻擊、竊聽。這些攻擊已經演變進入5G中的軟件定義網絡(SDN)、網絡功能虛擬化(NFV)和云計算。不安全的SDN功能包括OpenFlow、集中式網絡管理(容易受到DoS攻擊)、核心和回程、邊緣設備漏洞和開放API[6],[7]。研究團體開始關注B5G通信中的安全漏洞,使用先進的網絡、AI/ML和鏈接智能技術,為B5G愿景提供動力。在前幾代帶來的未解決的安全問題之上,這些新技術使B5G網絡面臨著前所未有的全新威脅。盡管如此,B5G的整體成功最終取決于人工智能和6G在未來的協作程度[8]。

人工智能的惡意使用正在改變威脅格局,為許多潛在的應用增加了限制,使其無法看到光明。隨著6G技術的出現,濫用人工智能可能會危及越來越復雜的系統,如智能CPS(SCPSs)。SCPSs是先進的CPS系統,它們通過物聯網(IoT)、人工智能(AI)、無線傳感器網絡(WSN)和云計算等技術日益聯系在一起,以實現各種獨特的服務和應用[9]。由于SCPSs與各個領域交織在一起,一個弱點就會導致災難性的故障(蝴蝶效應)。除了人工智能在服務中的應用,它也可以被用于惡意目的,允許更大規模的攻擊,與我們之前看到的攻擊不同。

因此,所有互聯的設備和用戶都處于風險之中。盡管關于人工智能防范網絡威脅的研究已經進行了很多年[10],[11],但目前仍不清楚如何確保將人工智能融入其核心業務的網絡安全。人工智能安全的一個重要缺陷來自于這些系統的黑盒性質,以這樣或那樣的方式。因此,在這方面保持可問責和可信賴的人工智能是非常重要的。

美國國防部高級研究計劃局(DARPA)于2017年5月啟動了可解釋人工智能(XAI)計劃,以開發一套新的人工智能方法,使最終用戶能夠理解、充分信任并成功管理下一代人工智能系統[12]。為了進一步闡述,它可以被認為是計算機科學和社會科學的集體初始化,其中包括人類心理學的解釋。B5G的整體成功將最終取決于在其實施過程中使用的人工智能在多大程度上會有彈性和值得信賴,供大眾利用[8]。在這方面,擴展對 XAI 等潛在技術的研究是需要立即采取行動。

A. 本文研究動機

寫這篇文章的時候,5G正在商業化地推出,許多研究人員都在關注B5G。其應用、架構和使能技術是最近發表的大量研究的主題,如表II所示。此外,諸如[2]、[4]、[13]-[20]等研究主要集中在B5G無線通信技術的愿景、潛在應用和要求上,如太比特每秒的速度FeMBB、互聯智能和EDuRLLC等,這些技術將在未來促進自動駕駛汽車、遠程醫療、擴展現實等新興應用。

在B5G/6G移動通信的關鍵推動因素中,如太赫茲通信、邊緣計算、集群網絡、完全自動化、區塊鏈;人工智能占有突出的地位。人工智能技術由于其泛化能力,更適合解決復雜的問題,因此適合在許多新的B5G時代應用中使用。包括[13]、[21]-[26]在內的研究闡述了人工智能的重要性及其在B5G中的發展趨勢,以及它對未來通信技術帶來的挑戰。以前的調查,如[6],[27]-[31]強調了一系列B5G使能技術中安全方面的動態,如物聯網、RAN和邊緣計算,而[8],[29],[32],[33]完全集中在安全威脅和潛在的防御措施,這將提高B5G中使用的AI/ML方法的信任。

盡管它顯示了有希望的結果,但只有少數出版物([34]-[36])涵蓋了安全背景下的XAI應用或XAI研究項目和標準化方法。XAI的機會、挑戰和標準化仍處于起步階段,需要與來自人類心理學和社會學等領域的專家進行更多的合作,以走向更具體的現實世界應用。表II概述了當代關于B5G、人工智能和XAI的進展的研究和調查。這里我們發現,每篇論文都提出了不明確的背景下的應用。相反,實施B5G技術反而要求對人工智能和XAI在安全方面進行全面的審查,因為問責制和彈性是任何一代移動網絡的核心和基本特征。許多研究人員專注于B5G、XAI和人工智能技術,但目前還沒有一個類似的方法,在B5G的使用案例中審查XAI技術的可行性。作為回應,本調查報告全面概述了XAI和安全技術方面、應用、要求、限制、挑戰/問題、目前的項目、標準化倡議以及B5G應用的經驗教訓。

B. 本文貢獻

據作者所知,本文是第一個試圖探索XAI在廣泛的B5G安全方面應用的文章。表II描述了在這方面進行的一些相關但不體系的研究。然而,這些研究中沒有一個能夠傳達出XAI在B5G安全方面的作用的整體形象。因此,我們在這次調查中的主要貢獻列舉如下:

  • 強調XAI對B5G安全的重要性:本文闡述了XAI在實現網絡安全中使用的AI/ML模型的問責制和提高B5G電信彈性的潛力。盡管許多關于B5G安全的研究涉及數據驅動的ML解決方案,但很少關注對其決策的解釋。在使用黑盒人工智能來確保關鍵應用程序的安全時,利益相關者會產生嚴重的懷疑和問責問題。XAI方法解釋基于AI/ML的安全系統黑盒性質的能力是目前填補這一研究空白的要求。

  • 針對通常討論的B5G技術方面和用例,全面分析XAI。在這里,我們探討XAI在一系列B5G使能技術中的作用,如物聯網/設備、無線接入網(RAN)、邊緣網絡、核心和回程網絡、E2E切片和網絡自動化。這張清單是精心挑選的,涵蓋了B5G電信架構的大部分內容,并提供了XAI對B5G安全影響的整體看法。該研究延伸到討論可能的安全問題和XAI對一組流行的用例的影響,包括智能城市、智能醫療、工業4.0/5.0、智能電網2.0和擴展現實(XR)。

  • 對重要的、相關的研究項目和標準化的調查。與其他許多調查報告不同,這里我們探討了正在進行的研究項目,以實現納入AI/ML/XAI的B5G實施和標準化。對涉及學術界和工業界合作伙伴的當前項目和倡議的詳細討論,使人們對正在進行的領域和目前探索的研究差距有了清晰的認識。這里討論了B5G中的AI安全標準化,以確定對未來B5G網絡及其各自技術的要求。

  • 提供有希望的研究方向作為指導。詳盡地討論了目前XAI方法在安全方面的現有限制和挑戰,以及可能的研究方向。提出的一些研究方向包括網絡片之間的安全和隔離,計算效率高的解釋能力的邊緣AI,以及了解ML模型在白盒和黑盒背景下對對抗性攻擊的脆弱程度是一些被確定的可能研究方向。

圖1. 使用XAI來提高B5G技術和用例的安全性概述。該圖的左邊部分顯示了與傳統的網絡分層堆棧相比,虛擬化如何導致5G啟用技術,以及人工智能如何從5G發展到B5G。該圖的右邊部分顯示了XAI可以為系統利益相關者改善基于AI的安全解決方案。

C. 論文大綱

本節介紹了本調查論文的動機和貢獻。第二節給出了本文的技術背景,即B5G、XAI,以及XAI對改善B5G安全的潛力。然后,第三節、第四節和第六節討論了這些技術方面的細節。第三節闡述了發展B5G網絡的分類法、威脅建模和安全方面的情況。第四節分析了引入XAI對現有AI驅動的B5G安全解決方案的影響。第六節強調了因引入XAI而產生的潛在的新安全問題。此外,對于B5G啟用的用例,第五節分析了XAI對這些B5G用例的安全方面的影響。第七節通過列出正在進行的有關B5G安全和XAI的研究項目和標準化,加強了本調查報告的重要性。第八節總結了第三、四、六、五和七節的經驗教訓和未來研究方向。最后,第九節對整篇論文進行了總結。

圖2. 本調查論文的大綱顯示了論文章節的組織,以與論文的主要議題相一致:用于B5G安全的XAI

II. 背景

本節簡要介紹了本文討論的相關技術的背景。特別是討論了B5G技術和XAI的概念,然后是B5G安全對XAI日益增長的需求。

XAI的分類

根據XAI方法在開發過程中的應用階段,XAI主要有三類:模型前、模型內和模型后。模型前方法主要用于模型開發管道中的數據集準備階段。這些方法有助于數據分析、特征工程和解釋在數據中看到的任何潛在模式。模型內XAI方法被嵌入到ML算法中。它包括所有透明模型,如線性回歸、決策樹、隨機森林等。此外,模型內解釋也是通過使用固有的透明模型對現有的ML模型架構進行修改而產生的。事后/模型后解釋是在訓練一個ML模型后應用的。它使我們能夠確定模型在訓練過程中學到了什么。

圖3. XAI分類法。Pre-model XAI解釋用于建立人工智能模型的訓練數據(例如,主成分分析(PCA),t-分布式隨機鄰接嵌入(t-SNE))。In-model XA指的是不言自明的透明AI模型(如決策樹、隨機森林)。Post-model(Post-hoc) XAI模型解釋訓練過的AI模型給出的結果(例如LIME、SHAP)。

圖4. 各種XAI方法目前在研究和工業界中很流行。如圖所示,每種方法都有自己的優勢和劣勢。選擇LIME、SHAP、LRP、CFE、PIRL、Heirrachial policies和LMUTs只是為了代表XAI方法的類別。

圖5. XAI的利益相關者。每個利益相關者對系統及其各自的可解釋性要求的不同影響程度。

III. B5G威脅建模和分類法

在愿景征集階段后,6G目前正處于確定系統關鍵性能指標的早期階段。沒有什么是固定的,但6G肯定會基于5G的發展和演變。6G將繼承5G提供的優勢,改進其余的不足,并利用新的技術和應用。在本節中,我們將B5G的威脅分為三類(圖7)。繼承自5G網絡的B5G威脅,6G技術威脅和6G應用威脅

圖6. B5G中可解釋安全性的6W分析。所示的程序可以作為一個框架,在設計B5G網絡中/上的可解釋智能系統的安全方面時開始奠定基礎。

圖7. 6G的安全威脅形勢

圖8. 使用基于學習的方法實現的B5G-IoT安全技術大多被視為黑盒系統。當這些系統本身因外部因素(如攻擊)而承受壓力時,從這種方法中檢測出的惡意代理可能會導致不可預測的結果。額外的解釋可以改善追溯模型內部的這些問題,為用戶提供保障

V. XAI中用于B5G安全的應用案例

上述使能技術將刺激各種新應用的發展,這些應用在以前是不可能的,因為基于AI/ML的系統缺乏責任感,在5G及以后的時代塑造人類社會。本節將討論一些依賴未來B5G網絡能力的新興用例。本節強調了XAI的出現在安全方面帶來的影響。

智慧城市

圖10. B5G時代的智慧城市將涉及到收集大量的個人數據,這將需要服務提供商進一步負責。從收集數據到傳達人工智能模型做出的決定,隨著服務范圍的擴大,終端用戶將需要對系統的安全性給予額外的保證。

智慧醫療

圖11. 在B5G下,智慧醫療服務有望通過基于人工智能的系統得到極大的擴展。這些系統的安全漏洞會導致大范圍的系統故障,危及許多依賴這些服務的人的生命。因此,對黑盒人工智能系統的解釋可以讓各方對系統中的攻擊或漏洞導致的任何異常情況保持警惕。

工業5.0

圖12. 工業5.0的核心是強調以人為本,量身定做的制造流程,這可能對廣泛的行業產生實質性的影響。在這里,如果出現安全漏洞或其他異常行為,XAI可能會協助確定根本原因,以便采取預防措施。

智能電網

圖13. 穩定性管理和維護是智能電網最關鍵的兩項職責。越來越多的這些控制系統現在使用了人工智能。智能電網的安全評估可以使用更多可解釋的方法,對人工智能系統進行整體的解釋,從而正確地進行評估。這些發現可能會在緊急情況下得到很好的利用。

XR

圖14. 根據設想,XR將使用由人工智能驅動的B5G基礎設施提供服務。在這個過程中,人工智能安全將發揮重要作用。對基于人工智能的系統的攻擊可能會混淆模型,泄露數據,并造成可用性問題。這些都可以在XAI方法的幫助下及早發現。

付費5元查看完整內容

中科院自動化所等《圖像異常檢測研究現狀》綜述論文

圖像異常檢測是計算機視覺領域的一個熱門研究課題, 其目標是在不使用真實異常樣本的情況下, 利用現有的正 常樣本構建模型以檢測可能出現的各種異常圖像, 在工業外觀缺陷檢測, 醫學圖像分析, 高光譜圖像處理等領域有較高的研 究意義和應用價值. 本文首先介紹了異常的定義以及常見的異常類型. 然后, 本文根據在模型構建過程中有無神經網絡的參 與, 將圖像異常檢測方法分為基于傳統方法和基于深度學習兩大類型, 并分別對相應的檢測方法的設計思路、優點和局限性 進行了綜述與分析. 其次, 梳理了圖像異常檢測任務中面臨的主要挑戰. 最后, 對該領域未來可能的研究方向進行了展望.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200956

1. 引言

異常檢測是機器學習領域中一項重要的研究內容. 它是一種利用無標注樣本或者正常樣本構建檢測模型[1], 檢測與期望模式存在差異的異常樣本的方法. 異常檢測在各種領域中都有廣泛的應用, 如網絡入侵檢測, 信號處理, 工業大數據分析, 異常行為檢測和圖像與視頻處理等.

早期的異常檢測算法大多應用于數據挖掘領域, 而近年來隨著計算機視覺和深度學習等相關技術的發展, 許多相關工作將異常檢測引入到圖像處理領域來解決樣本匱乏情況下的目標檢測問題.

傳統的目標檢測算法中很大一部分方法屬于監督學習的范疇, 即需要收集足夠的目標類別樣本并進行精確的標注, 比如圖像的類別、圖像中目標的位置以及每一個像素點的類別信息等[2, 3]. 然而, 在許多應用場景下, 很難收集到足夠數量的樣本. 例如, 在表面缺陷檢測任務當中, 實際收集到的圖像大部分屬于正常的無缺陷樣本, 僅有少部分屬于缺陷樣本, 而需要檢測的缺陷類型又十分多樣, 這就使得可供訓練的缺陷樣本的數量十分有限[4]. 又比如在安檢任務當中, 不斷會有新的異常物品出現[5]. 而對于醫學圖像中病變區域的識別任務, 不僅帶有病變區域的樣本十分稀少, 對樣本進行手工標注也十分耗時[6]. 在這些情況下, 由于目標類別樣本的缺乏, 傳統的目標檢測和圖像分割的方法已不再適用.

而異常檢測無需任何標注樣本就能構建檢測模型的特點, 使得其十分適用于上述幾種情況[7]. 在圖像異常檢測當中, 收集正常圖像的難度要遠低于收集異常圖像的難度, 能顯著減少檢測算法在實際應用中的時間和人力成本. 而且, 在異常檢測中模型是通過分析與正常樣本之間的差異來檢測異常樣本, 這使得異常檢測算法對各種類型甚至是全新的異常樣本都具有檢測能力. 雖然標注樣本的缺失給圖像異常檢測帶來了許多問題和挑戰, 不過由于上述各種優點, 如表1所示, 已經有許多方法將圖像異常檢測應用在各種領域中.因此, 圖像異常檢測問題具有較高的研究價值和實際應用價值.

隨著對異常檢測研究的深入, 大量研究成果不斷涌現, 也有許多學者開展了一些綜述性工作. 如Ehret等[20]根據不同的圖像背景, 對大量圖像異常檢測方法進行了綜述, 不過對基于深度學習的方法還缺乏一定的梳理. Pang等[21]和Chalapathy[22]等則是從更為廣闊的角度對基于深度學習的異常檢測方法進行了梳理, 不過由于數據類型的多樣性, 這些工作對異常檢測在圖像中的應用還缺乏針對性. 陶顯等[23]對異常檢測在工業外觀缺陷檢測中的應用進行了一些總結, 不過重心落在有監督的檢測任務上, 對無監督的異常檢測方法欠缺一定的整理和歸納. 而本文則針對無監督的圖像異常檢測任務, 以工業、醫學和高光譜圖像作為具體應用領域, 對傳統和基于深度學習的兩大類方法進行梳理. 上述三種應用領域都有相同的特點即可使用的帶標注異常樣本數量稀少, 因此有許多工作針對這幾個領域內的異常目標檢測問題開展了研究. 本文整體結構安排如下: 第1節將介紹異常的定義以及常見的形態. 第2節根據模型構建過程中有無神經網絡的參與, 將現有的圖像異常檢測算法分為傳統方法和基于深度學習兩大類并分別進行綜述與分析. 第3節將介紹圖像異常檢測中常用的數據集. 第4節將介紹在圖像異常檢測當中面臨的主要挑戰. 第5節將綜合圖像異常檢測的研究現狀對未來可能的發展方向進行展望. 最后第6節將對本文內容進行總結.

2. 圖像異常檢測的定義

異常, 又被稱為離群值, 是一個在數據挖掘領域中常見的概念[24], 已經有不少的工作嘗試對異常數據進行定義[25, 26]. Hawkins等[25]將異常定義為與其余觀測結果完全不同, 以至于懷疑其是由不同機制產生的觀測值. 一般情況下, 會將常見的異常樣本分為三個類別[1]: 點異常、上下文異常和集群異常. 點異常一般表現為某些嚴重偏離正常數據分布范圍的觀測值, 如圖1(a)所示的二維數據點, 其中偏離了正常樣本點的分布區域(N1, N2)的點(O1, O2和O3)即為異常點。

圖像數據中每一個像素點上的像素值就對應著一個觀測結果. 由于圖像內像素值的多樣性, 僅僅分析某一個點的像素值很難判斷其是否屬于異常. 所以在大部分圖像異常檢測任務中, 需要聯合分析圖像背景以及周圍像素信息來進行分類, 檢測的異常也大多屬于上下文或者模式異常. 當然, 這三種異常類型之間并沒有非常嚴格的界限. 例如, 有一部分方法就提取圖像的各類特征[27], 并將其與正常圖像的特征進行比較以判斷是否屬于異常, 這就將原始圖像空間內模式異常的檢測轉換到了特征空間內點異常的檢測. 圖像異常檢測任務根據異常的形態可以分為定性異常的分類和定量異常的定位兩個類別. 定性異常的分類, 類似于傳統圖像識別任務中的圖像分類任務, 即整體地給出是否異常的判斷, 無需準確定位異常的位置. 如圖2左上圖所示, 左側代表正常圖像, 右側代表異常圖像, 在第一行中, 模型僅使用服飾數據集(Fashion mixed national institute of standards and technology database, Fashion-MNIST)[28]中衣服類型的樣本進行訓練, 則其他類別的樣本圖像(鞋子等)對模型來說都是需要檢測的異常樣本, 因為他們在紋理、結構和語義信息等方面都不相同. 又或者如第二行所示, 異常圖像中的三極管與正常圖像之間只是出現了整體的偏移, 而三極管表面并不存在任何局部的異常區域, 難以準確地定義出現異常的位置, 更適合整體地進行異常與否的分類.

3 圖像異常檢測技術研究現狀

一般情況下圖像異常檢測的目標是通過無監督或者半監督學習的方式, 檢測與正常圖像不同的異常圖像或者局部異常區域. 近年來傳統機器學習方法已經在圖像異常檢測領域有了較多的應用, 而隨著深度學習技術的發展, 越來越多的方法嘗試結合神經網絡來實現圖像異常檢測. 根據在模型構建階段有無神經網絡的參與, 現有的圖像異常檢測方法可以分為基于傳統方法和基于深度學習的方法兩大類別. 如圖3所示, 基于傳統方法的異常檢測技術大致包含六個類別: 基于模板匹配、基于統計模型、基于圖像分解、基于頻域分析、基于稀疏編碼重構和基于分類面構建的異常檢測方法. 而基于深度學習的方法大致包含四個類別: 基于距離度量、基于分類面構建、基于圖像重構和結合傳統方法的異常檢測方法.

本文根據檢測原理將傳統圖像異常檢測方法分類為以下類別: 基于模板匹配、基于統計模型、基于圖像分解、基于頻域分析、 基于稀疏編碼重構和基于分類面構建的異常檢測方法. 傳統的圖像異常檢測算法大多會學習一個模型來描述正常圖像, 隨后在檢測階段根據待檢圖像與現有模型之間的匹配程度來進行異常檢測.

近年來, 深度學習在計算機視覺中的各個領域內都得到了長足的發展. 相比于傳統的方法, 深度學習由于其無需人工設計特征, 算法通用性更高等優點, 已經被廣泛引入到了圖像異常檢測任務當中. 現有的方法大致可以分為以下幾類: 基于距離度量的方法、基于分類面構建的方法、基于圖像重構的方法和與傳統方法相結合的方法.

4. 圖像異常檢測數據集

圖像異常檢測相關的研究方興未艾, 目前有許多識別定性異常的相關文章是在傳統圖像分類數據集上開展的, 諸如MNIST[89], Fashion-MNIST[28], CIFAR-10[90]等等. 而對于定量異常的檢測任務, 所使用的數據集就與具體的應用領域相關, 如表4所示.

5. 圖像異常檢測數展望

本文對近年來圖像異常檢測方法的發展狀況進行了回顧, 可以看到針對這一問題已經有了一定數量的研究. 關于未來可能的研究方向, 我們認為可以從以下幾個角度進行考慮:

1) 構建更為高效的異常檢測算法. 對于異常檢測而言, 不僅僅需要對待檢圖像進行正常與否的判斷, 往往還需要對異常區域進行定位. 比如工業圖像表面的缺陷檢測, 醫學圖像中病變區域的定位等等. 然而, 由于在訓練階段沒有任何關于異常區域的標注信息, 傳統的目標檢測或者圖像分割的方法無法直接應用到異常檢測任務中. 因此, 現有的方法大多采用的是將待檢圖像切分成一系列的圖像塊, 然后分塊進行異常與否的二分類來進行異常區域的定位. 而且, 為了獲得異常區域的準確輪廓, 這種切分的步長一般較小, 會顯著影響算法的效率. 現有的一些方法比如頻譜分析雖然能夠同時處理整張圖像以實現高效的定位, 但該方法對于圖像有一定的要求. 而基于深度學習的圖像重構方法雖然沒有上述約束, 但重構圖像中殘留的異常區域會影響后續的檢測. 因此, 如何兼顧檢測精度和實時性仍需進一步的探索.

2) 小樣本/半監督學習. 現階段的異常檢測方法大部分僅利用正常樣本來訓練模型. 但是在實際檢測任務中, 并不是完全無法獲取真實的異常樣本. 比如在工業外觀檢測任務中, 少量的缺陷樣本是可以獲取的. 而且對幾張缺陷圖像進行標注并不會顯著地增加訓練成本. 而且相關文獻[96]初步嘗試了在訓練過程中引入一張真實異常圖像并且獲得了一定的效果提升. 因此可以考慮結合小樣本學習的方法, 利用大量正常樣本和幾張真實的異常樣本來進行模型訓練以提高性能. 而有些異常檢測任務面臨的是嚴格無監督的環境[98], 連所用樣本是否屬于正常樣本也不可預知, 此時訓練樣本中存在的少量異常樣本就會對模型的訓練產生性能上的影響, 如果采用半監督的訓練方式, 對少量正常和異常樣本進行標注, 可以有效提升模型對潛在異常樣本的檢測能力. 但是這種方法還是會面臨一些問題, 比如采集到的異常樣本顯然不可能囊括所有類別, 如何讓模型兼顧對已知類型和未知類型異常樣本的檢測能力, 也是一個待研究的任務.

3) 更自適應的樣本合成方法. 在許多相關的文獻中[105, 108, 110]都已經證明了在模型訓練階段, 引入各種人工構造的異常圖像能有效地提升檢測性能. 即便構造的異常圖像與真實的異常圖像并不相同, 額外增加的異常圖像可以提升分類面的貼合度或者背景重構的穩定度, 這都可以增加模型對潛在異常圖像的檢測能力. 但相關文獻表明這些額外的異常樣本越接近與正常樣本模型的性能越好[105]. 然而, 相關方法中額外使用的異常圖像大多是采集自別的數據集, 這些圖像一般與正常樣本的分布之間存在較為明顯的差異. 雖然有方法嘗試采用梯度上升的方式合成異常圖像, 但該方法在更為復雜的圖像上的結果還有待論證. 因此, 如何針對各種正常圖像自適應地合成異常樣本也是一個有待解決的問題.

4) 輕量化網絡設計. 基于深度學習的異常檢測方法得益于神經網絡強大的學習能力往往能得到比傳統方法更優秀的性能, 但代價是需要更多的計算量和更長的處理時間. 對于一張待測圖像, 需要利用深層神經網絡提取特征向量以區分正常和異常樣本, 而且重構類的方法還需要再次經過第二個深層神經網絡來重構輸入圖像. 因此, 更為輕量化的網絡設計能夠減少方法的運行時間. 此外, 大多數方法在驗證時硬件條件較好, 而實際生產現場要部署同等算力的設備會需要較高的成本, 因此, 輕量化的網絡設計在減少計算量的同時, 還能降低對硬件設備的需求, 降低在實際應用中的成本. 針對這一問題, 現階段常用的有兩類方法: 1)輕量模型設計, 設計更為高效的網絡計算方法以實現減小模型體積的同時保持性能不變, 例如MobileNet[175]等. 也可以采用知識蒸餾的方式, 用復雜網絡的輸出作為目標來訓練一個更為簡單的網絡; 2)模型壓縮, 有通過剪枝的方式剔除冗余的權重以減小模型大小, 也有通過網絡量化的方式, 以犧牲一定精度為代價減小網絡參數所占空間, 其中二值化模型具有突出的壓縮性能, 更利于模型部署.

5) 更高精度的異常定位方法. 對于異常定位任務, 現有的方法大多會采用滑窗的方式將原始圖像分解成一系列小的圖像區域, 然后再利用異常分類的方式對每一個區域進行異常與否的分析. 這種分塊分析的方式無法精準地定位異常區域, 處于異常紋理與正常紋理的交界處的圖像區域也很有可能被誤判為異常. 而對于能直接定位異常的圖像重構類方法, 又會因自身重構精度的限制, 在正常紋理區域也會出現差異, 這也會影響對一些微弱異常區域的定位效果. 在醫學和工業等領域內異常目標的檢測中, 不僅要關注召回率, 異常檢測的精準率也十分重要. 但從現有方法的效果看, 許多方法主要在召回率方面性能優異, 因為在實際應用領域中漏檢的危害性遠高于誤檢. 但如果能夠在保證召回率的同時提高精準率, 盡可能減少后續人工或者算法的二次處理, 異常檢測方法將能更廣泛地應用在相關領域中. 因此, 如何精準定位異常區域并減少對正常圖像區域的誤判情況, 同樣也是一個值得研究的問題.

付費5元查看完整內容

摘要: 隨著物聯網技術的不斷發展,監控設備在交通干道、學校醫院、商場超市、小區樓宇等公共區域進行了廣泛部署.這些監控設備為人們提供了一種隱性安全保障,也產生了大量的監控視頻.基于監控視頻的異常檢測一直是圖像處理、機器視覺、深度學習等相關領域的研究熱點.對視頻異常進行了直觀描述和異常檢測概述,對出現的一些綜述文章進行了分析,針對其覆蓋范圍不全和特征表示以及模型沒有清晰劃分.首先從異常檢測特征表示、異常檢測建模2方面對傳統經典的和新興的視頻異常檢測算法進行分類和描述.然后從基于距離、概率、重構3個方面將不同的算法進行比較,分析不同模型的優缺點以及每種模型的特性.并對現存算法的評估標準進行歸納并指出了新的更加準確有效的評估指標.最后,介紹了監控視頻異常檢測常用的數據集,匯總了不同算法在常用數據集上的檢測效果,并對未來的研究在實際應用中面臨的一些挑戰和研究方向進行了探討.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200638

付費5元查看完整內容

基于近5年網安國際會議(ACM CCS、USENIX Security、NDSS、IEEE S&P)中發表的物聯網安全文獻,以及其他部分高水平研究工作,從威脅、檢測、防御的視角對物聯網安全研究工作進行了系統的整理和分析。首先,介紹了物聯網系統的基本架構。然后,將當前研究中提出的主要威脅分為8種類型,并分析了威脅的成因和危害。之后,介紹了針對這些威脅所提出的6種威脅檢測和5種防御方案,并對比了它們的技術原理和優缺點。最后,提出了當前研究依然面臨的主要挑戰,并指出了未來研究發展的方向。

付費5元查看完整內容

異常檢測最新綜述論文

摘要

異常檢測(AD)問題具有重要的意義,近年來引起了許多研究者的關注。

因此,在這一研究領域提出的方法數量穩步增加。AD與重要的計算機視覺和圖像處理任務(如圖像/視頻異常、不規則和突發事件檢測)密切相關。最近,深度神經網絡(DNNs)提供了一組高性能的解決方案,但代價是高昂的計算成本。然而,在前面提出的方法和可應用的實際方法之間有一個明顯的差距。

考慮到對AD的關注是一個持續的具有挑戰性的問題,尤其是在圖像和視頻中,是時候討論一下試圖處理視覺AD任務的方法的陷阱和前景了。因此,在本次綜述中,我們打算對基于圖像/視頻深度學習的AD方法進行深入調研。并對當前面臨的挑戰和未來的研究方向進行了深入探討。

引言

異常檢測(AD)是指檢測出可用的訓練數據中很少出現甚至不存在的樣本和事件。事實上,AD就是尋找看不見的概念的過程。一般來說,在AD環境中,有大量的數據實例遵循目標類分布,即正常數據。另一方面,屬于分布外類(離群值)的樣本不存在,或者很難訪問,但代價是很高的計算成本。總之,任何未知的分布都可能導致異常,從而導致非常復雜的學習過程。因此,研究人員建議將所有正常數據中的共享概念提取為一個(幾個)參考模型,而不是學習不規則性[Bertini et al., 2012; Sabokrou et al., 2015]。在測試階段,一個實例與該模型的偏差表明它是否是異常。圖1顯示了AD概念的總體草圖。

就數據類型而言,AD任務可能會遇到各種困難。AD算法普遍存在的缺點是: (1)高誤報率: 在大多數AD應用中,檢測異常事件被認為比識別正常數據更為重要和關鍵。例如,在監視系統中,如果只忽略一個異常行為,即將異常檢測為正常事件,就會完全損害監視系統的可靠性和安全性。因此,為了自信地檢測出所有的離群值,容忍更多一點的假陽性率是合理的。然而,高的誤報率帶來了不可靠和無效,(2) 高的計算成本: 以前的大多數工作過于復雜,無法在現實應用中快速而恰當地進行操作,(3) 標準數據集無法用于評估: 可用數據集與現實情況相差甚遠。事實上,為了全面研究該研究領域提出的解決方案,獲得更真實和有代表性的數據集是至關重要的。上述缺點證實AD任務面臨著若干需要有效解決的持續挑戰。此外,最近提出的方法只關注簡單場景中的性能。考慮圖像/視頻AD方法的不同方面是一個關鍵的步驟,以改善目前的尖端技術。

受深度神經網絡(DNNs)在不同研究領域的巨大成功的啟發,一系列基于深度學習的解決方案被提出來處理AD任務。他們中的一些人取得了很大的成績。然而,實現和再現性方面的困難,特別是基于生成對抗網絡(GANs)的困難[Goodfellow等人,2014a],以及高計算開銷仍然被認為是嚴重的挑戰。調查的范圍。到目前為止,已經提供了一些信息豐富和有價值的調查。我們簡要地提一下這一領域的一些最新作品。[Chlapathy and Chawla, 2019]關注深度AD用于不同的任務,如入侵檢測系統、視頻監控、醫療等。[Ruff et al., 2019]提出了深度AD的框架以及一般半監督的深度AD問題的實驗場景。針對視頻AD的不同深度學習檢測技術已由[Suarez and Naval Jr, 2020]涵蓋。

為了彌補現有的差距,我們提出了一種新的基于深度學習的圖像/視頻AD分類方法。我們強調無監督方法,因為他們的普遍性,適用性在現實問題和日益流行。在具體研究了每一種類別和最新的方法之后,我們表達了圖像/視頻AD任務中具有挑戰性的方面、開放的問題和未來工作的有效方向。

付費5元查看完整內容
北京阿比特科技有限公司