亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——視頻異常檢測 (VAD) 旨在發現視頻中偏離正常行為或事件的異常現象。作為計算機視覺領域中一個長期存在的任務,VAD 已經取得了許多顯著的進展。在深度學習的時代,隨著具備持續增長的能力和容量的架構的爆發,基于深度學習的各種方法不斷涌現于 VAD 任務中,極大地提升了檢測算法的泛化能力并拓寬了應用場景。因此,面對如此多樣的方法和大量的文獻,一篇全面的綜述變得迫在眉睫。本文提供了一篇廣泛而全面的研究綜述,涵蓋了五種不同類別的范疇,即半監督、弱監督、全監督、無監督以及開放集監督的 VAD 方法,并深入探討了基于預訓練大模型的最新 VAD 工作,彌補了過去僅關注于半監督 VAD 和小模型方法的綜述的局限性。針對不同監督級別的 VAD 任務,我們構建了一個有條理的分類體系,深入討論了不同類型方法的特點,并展示了它們的性能對比。此外,本綜述還涉及了公共數據集、開源代碼以及覆蓋所有上述 VAD 任務的評估指標。最后,我們為 VAD 社區提供了若干重要的研究方向。 關鍵詞——視頻異常檢測,異常檢測,視頻理解,深度學習。

異常代表著偏離標準、正常或預期的事物。正常性有多種多樣,而異常現象則非常稀少。然而,當異常出現時,往往會產生負面影響。異常檢測旨在通過機器學習發現這些稀有的異常,從而減少人工判斷的成本。異常檢測在多個領域中有著廣泛的應用【1】,例如金融欺詐檢測、網絡入侵檢測、工業缺陷檢測和人類暴力檢測。在這些應用中,視頻異常檢測 (VAD) 占據著重要地位,異常在此指的是時間或空間維度上的異常事件。VAD 不僅在智能安防中起著至關重要的作用(例如暴力、入侵和徘徊檢測),還廣泛應用于其他場景,如在線視頻內容審查和自動駕駛中的交通異常預測【2】。由于其在各個領域中顯著的應用潛力,VAD 吸引了來自工業界和學術界的廣泛關注。

在深度學習時代之前,常規的方法是將特征提取與分類器設計分離,形成一個兩階段的過程,并在推理階段將它們結合起來。首先進行特征提取,將原始的高維度視頻數據轉換為基于專家先驗知識的緊湊手工特征。盡管手工特征缺乏魯棒性,且在面對復雜場景時難以有效捕捉行為表達,但這些早期工作極大啟發了后續基于深度學習的研究工作。

在過去十年中,隨著深度學習的崛起,傳統的機器學習算法逐漸失去了吸引力。隨著計算機硬件的快速發展以及互聯網時代大量數據的涌現,近年來基于深度學習的方法在 VAD 領域取得了顯著進展。例如,ConvAE【3】作為第一個基于卷積神經網絡 (CNN) 的深度自編碼器,首次用于捕捉視頻中的規律;FuturePred【4】首次利用 U-Net 預測未來的異常;DeepMIL【5】是第一個探索用于現實世界異常的深度多實例學習 (MIL) 框架的工作。為了更直觀地展現深度學習時代對 VAD 任務的研究熱情,我們通過 Google Scholar 和 IEEE Xplore1 對過去十年中與 VAD 相關的出版物數量進行了統計調查(這個時期由基于深度學習方法的崛起所驅動)。我們選擇了五個相關主題,即視頻異常檢測、異常事件檢測、異常行為檢測、異常事件檢測和異常行為檢測,并在圖 1 中展示了出版物統計數據。不難看出,從這兩個來源統計的相關出版物數量呈現出穩步快速增長的趨勢,表明 VAD 已經引起了廣泛的關注。此外,我們還展示了在兩種常見監督方式下常用數據集上年度最先進方法的檢測性能趨勢,并在圖 2 中呈現了性能趨勢。檢測性能在所有數據集上均表現出穩步上升的趨勢,未顯示出任何性能瓶頸。例如,CUHK Avenue【6】上的半監督方法性能在過去七年間顯著提升,從 70.2% AUC【3】上升到 90.1% AUC【7】。此外,針對后續提出的弱監督 VAD,研究也取得了顯著進展。這表明,隨著架構的發展,深度學習方法的能力不斷提升,同時也展示了對 VAD 任務中深度學習方法的持續探索熱情。

上述統計數據清楚地表明,深度學習驅動的 VAD 是當前研究的熱點。因此,迫切需要對現有工作進行系統分類并進行全面總結,以便為新手提供指導并為現有研究人員提供參考。基于此,我們首先收集了近年來一些高影響力的 VAD 綜述,見表 I。Ramachandra 等人【8】主要聚焦于單一場景下的半監督 VAD,缺乏對跨場景的討論。Santhosh 等人【9】回顧了針對道路交通場景中實體的 VAD 方法。其綜述缺乏足夠的深度分析,主要關注 2020 年之前的方法,忽略了最近的進展。Nayak 等人【10】對基于深度學習的半監督 VAD 方法進行了全面調查,但未考慮弱監督 VAD 方法。隨后 Tran 等人【11】介紹了新興的弱監督 VAD 綜述,但其重點不僅限于視頻,還涉及圖像異常檢測,導致對 VAD 任務的系統性組織不足。最近,Chandrakala 等人【12】和 Liu 等人【13】構建了涵蓋多種 VAD 任務的分類體系,例如無監督 VAD、半監督 VAD、弱監督 VAD 和全監督 VAD,并對大多數監督 VAD 任務的深度學習方法進行了綜述。然而,他們的研究范圍局限于傳統的閉集場景,未涵蓋最新的開放集監督 VAD 研究,也未引入基于預訓練大模型和可解釋學習的全新框架。

為全面解決這一差距,我們對深度學習時代的 VAD 研究進行了深入綜述。我們的綜述涵蓋了幾個關鍵方面,以提供對 VAD 研究的全面分析。具體而言,我們對深度學習時代 VAD 任務的發展趨勢進行了深入調查,并提出了一個統一的框架,將不同的 VAD 任務整合在一起,填補了現有綜述在分類方面的空白。我們還收集了最全面的開源資源,包括基準數據集、評估指標、開源代碼和性能對比,以幫助該領域的研究人員避免走彎路并提高效率。此外,我們系統地對各種 VAD 任務進行分類,將現有工作劃分為不同類別,并建立了一個清晰的結構化分類體系,以提供對各種 VAD 模式的連貫和有條理的概述。除了這個分類體系,我們還對每種模式進行了全面分析。此外,在整個綜述中,我們重點介紹了對 VAD 研究進展做出重大貢獻的影響力工作。 本綜述的主要貢獻總結如下三個方面:

  • 我們對 VAD 進行了全面綜述,涵蓋了基于不同監督信號的五種任務,即半監督 VAD、弱監督 VAD、全監督 VAD、無監督 VAD 和開放集監督 VAD。研究重點已經從傳統的單任務半監督 VAD 擴展到了更廣泛的多任務 VAD。

  • 跟隨研究趨勢,我們回顧了最新的開放集監督 VAD 研究。此外,我們還重新審視了基于預訓練大模型和可解釋學習的最新 VAD 方法。這些方法的出現提升了 VAD 的性能和應用前景。據我們所知,這是首次對開放集監督 VAD 和基于預訓練大模型的 VAD 方法進行的全面綜述。

  • 針對不同任務,我們系統地回顧了現有的基于深度學習的方法,更重要的是,我們引入了一個統一的分類框架,從模型輸入、架構、方法論、模型改進和輸出等多個方面對各種 VAD 模式的方法進行了分類。這一精細的科學分類體系有助于對該領域的全面理解。

半監督視頻異常檢測

基于我們對以往綜述的深入調查,我們發現現有的綜述大多缺乏科學的分類體系。許多綜述只是根據使用方法將半監督視頻異常檢測 (VAD) 作品分為不同的組別,例如基于重建、基于距離和基于概率的方法,有些綜述則根據輸入進行分類,例如基于圖像、基于光流和基于片段的方法。顯然,現有的分類綜述相對簡單且表面化,因此難以全面有效地涵蓋所有方法。為了解決這個問題,我們建立了一個全面的分類體系,涵蓋了模型輸入、方法論、架構、模型優化和模型輸出。詳細說明見圖 4。

如前所述,在半監督 VAD 任務中,只有正常樣本可用于訓練,這使得監督分類范式不可適用。常見的方法是利用訓練樣本的內在信息,學習深度神經網絡 (DNN) 來解決前置任務。例如,正常性重建是一個經典的前置任務【3】。在此過程中,需要考慮幾個關鍵方面:樣本信息的選擇(模型輸入)、前置任務的設計(方法論)、深度網絡的利用(網絡架構)、方法的改進(優化)和異常結果的表達(模型輸出)。這些關鍵要素共同決定了半監督 VAD 解決方案的有效性。在接下來的章節中,我們將根據上述分類體系系統地介紹現有的基于深度學習的 VAD 方法。

IV. 弱監督視頻異常檢測

弱監督視頻異常檢測 (VAD) 是當前 VAD 領域中備受關注的研究方向,其起源可追溯到 DeepMIL【5】。相比于半監督 VAD,這是一個較新的研究方向,因此現有的綜述缺乏全面而深入的介紹。如表 I 所示,Chandrakala 等人【12】和 Liu 等人【13】都提到了弱監督 VAD 任務。然而,前者僅簡要描述了 2018 至 2020 年間的一些成果,而后者盡管涵蓋了近期的工作,卻缺乏科學的分類體系,僅根據不同的模態將其簡單地分為單模態和多模態。鑒于此背景,我們從 2018 年至今調查了相關工作,包括基于預訓練大模型的最新方法,并從四個方面對現有工作進行了分類:模型輸入、方法論、優化策略和模型輸出。弱監督 VAD 的分類體系如圖 8 所示。 與半監督 VAD 相比,弱監督 VAD 在訓練過程中明確定義了異常,為檢測算法提供了明確的方向。然而,與全監督 VAD 相比,粗糙的弱監督信號為檢測過程引入了不確定性。現有的大多數方法利用 MIL 機制來優化模型。這個過程可以視為從正常包(正常視頻)中選擇看起來最異常的最困難區域(視頻片段),以及從異常包(異常視頻)中選擇最有可能異常的區域。然后,目標是最大化它們之間的預測置信差異(即使最困難的正常區域的置信度接近 0,最異常區域的置信度接近 1),這可以被視為二元分類優化。通過逐步挖掘所有正常和異常區域的不同特征,異常區域的異常置信度逐漸增加,而正常區域的置信度則逐漸下降。不幸的是,由于缺乏強監督信號,檢測模型在上述優化過程中不可避免地會涉及盲目猜測。

VII. 開集監督視頻異常檢測

讓經過充分訓練的監督模型在開放環境中檢測未見過的異常是一項具有挑戰性的任務。在現實場景中,未見過的異常很可能會出現,因此,關于開集異常檢測的研究引起了廣泛關注。開集監督視頻異常檢測 (VAD) 是一項具有挑戰性的任務,其目標是在訓練階段未見過的異常事件中進行檢測。與傳統的(閉集)VAD 不同,傳統 VAD 中的異常類型是已知且定義明確的,而開集 VAD 必須處理不可預見和未知的異常。這對現實世界的應用至關重要,因為在訓練過程中預見并標注所有可能的異常是不現實的。因此,開集 VAD 的研究引起了極大的關注。然而,現有的綜述工作并未對開集 VAD 進行深入研究。基于此,我們進行了深入的調查,并對現有的開集 VAD 工作進行了系統分類。據我們所知,這是第一個包含詳細介紹開集監督 VAD 的綜述。在本節中,我們根據不同的研究方向,將開集監督 VAD 大致分為兩類:開集 VAD 和小樣本 VAD。在圖 10 中,我們展示了六種經典的開集監督 VAD 方法。

IX. 結論

我們對深度學習時代的視頻異常檢測方法進行了全面綜述。與之前主要集中于半監督視頻異常檢測的綜述不同,我們提出了一個系統的分類體系,將現有的工作根據監督信號分為五類:半監督、弱監督、無監督、全監督和開集監督視頻異常檢測。對于每個類別,我們進一步根據模型的不同特征進行細分,例如模型輸入和輸出、方法論、優化策略和架構,并展示了各種方法的性能對比。最后,我們討論了基于深度學習的視頻異常檢測未來的一些有前景的研究方向。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。

關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習

1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:

  • 挑戰1(模態不平衡)。模態不平衡指的是在多模態系統中對不同模態進行不均衡處理或表示,這種不平衡在數據和參數層面上都有體現。在數據層面,不同模態的數據可用性在CL過程中可能顯著不同,可能出現極端不平衡的情況,如某些模態的缺失【28】。在參數層面,不同模態特定組件的學習速率可能有所不同,導致跨所有模態的整體不平衡學習過程【34】。因此,MMCL模型可能會遭受性能下降,甚至在某些情況下其表現可能比單模態模型還要差【32, 36】。
  • 挑戰2(復雜模態交互)。模態交互發生在模型組件中,即多模態輸入信息的表示之間進行顯式交互。這一交互在MMCL中引入了獨特的挑戰,主要體現在兩個交互過程中:模態對齊和模態融合【37】。在模態對齊中,不同模態的單一數據樣本的特征在持續學習過程中往往會發生偏離,這種現象被稱為MMCL中的空間紊亂【38】。在模態融合中,傳統的多模態融合方法在非CL環境中效果良好,但在MMCL環境中可能表現較差,因為不同的融合技術對解決遺忘問題的影響各不相同【36, 39】。
  • 挑戰3(高計算成本)。MMCL中的多模態整合顯著增加了模型和任務特定層面的計算成本。在模型層面,增加模態不可避免地增加了可訓練參數的數量。許多MMCL方法利用預訓練的多模態模型作為基礎,但持續地微調這些大規模模型會導致沉重的計算負擔【42, 43】。這些不斷增加的計算需求對MMCL方法的實際部署提出了嚴格的可擴展性要求。
  • 挑戰4(預訓練零樣本能力的退化)。隨著預訓練模型的進步,MMCL方法可以借助這些強大的基礎模型。預訓練的多模態模型通常具有在未見過的任務上實現零樣本能力的優勢【44, 45】。然而,在MMCL的連續微調過程中,預訓練基礎模型的一些初始能力可能會下降,這種退化風險可能導致未來任務的性能嚴重下降【45】。 貢獻。為了應對這些挑戰,研究人員正日益關注MMCL方法。我們首次提供了MMCL的全面綜述。我們總結了當前的數據集和基準測試,以促進研究和實驗,并在快速發展的MMCL領域內討論了未來的研究方向。總之,我們的綜述有以下主要貢獻:
  1. 我們提供了第一個全面的MMCL綜述。我們詳細介紹了MMCL的背景知識,包括基本的設定、不同的MMCL場景和常用評估指標。
  2. 在我們的MMCL方法分類體系中,我們將現有的MMCL工作分為四個類別,并提供了詳細的子類別解釋。
  3. 我們總結了當前的數據集和基準,并討論了未來的研究方向,旨在激發創新性研究,從而促進更有效的MMCL方法的發展。

多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:

  • 類增量學習(Class-incremental Learning, CIL):不同任務間的數據分布和標簽空間不同,且測試階段不提供任務ID。模型需能在所有已學類別間進行分類。
  • 領域增量學習(Domain-incremental Learning, DIL):不同任務間的數據分布不同,但共享相同的標簽空間。測試階段不需要任務ID。
  • 任務增量學習(Task-incremental Learning, TIL):不同任務的數據分布和標簽空間均不同,且測試階段提供任務ID,模型知道執行的是哪個任務。 此外,為了適應多模態數據,定義了兩種新的場景:
  • 生成式領域增量學習(Generative Domain-incremental Learning, GDIL):此場景用于生成式任務,例如視覺問答。與CIL不同,GDIL中的模型輸出來自一個較大的詞匯集。
  • 模態動態任務增量學習(Modality-dynamic Task-incremental Learning, MDTIL):任務序列中的模態可能變化,模型在測試階段獲得任務ID,并適應不同的模態組合。

3 方法學

在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。

**3.1 基于正則化的方法

基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:

  • 彈性權重保持(Elastic Weight Consolidation, EWC):通過利用Fisher信息矩陣對參數賦予權重,從而實現參數保護,避免重要參數發生顯著改變。EWC的變種方法例如EWCH和在線EWC通過單一正則化項的方式進一步提高了效率。
  • 任務相關性調節(Task Importance Regularization, TIR):這是MMCL中的一種方法,基于BLIP2等多模態模型。它通過計算新舊任務之間的相似性來動態調整正則化權重,以適應長期持續學習的需求。 3.1.2 隱式正則化隱式正則化方法主要關注于在訓練新任務時盡量保持模型對舊任務輸出的一致性,從而減少遺忘風險。與顯式正則化不同,隱式正則化方法僅在參數變化導致模型輸出改變時才施加懲罰,因此允許參數更自由地調整。隱式正則化常見的方式是知識蒸餾(KD),通常包括以下幾種策略:
  • 基于logits的蒸餾(Logits-based KD):通過對比新模型和舊模型在最后一層輸出的logits,盡量讓新模型在訓練新任務時保持與舊任務相似的輸出分布。
  • 基于特征的蒸餾(Feature-based KD):不僅關注最終輸出,還在中間層的特征上進行對比,從而保留中間表征。
  • 基于關系的蒸餾(Relation-based KD):使用樣本間的關系信息進行對比,如在視覺-語言模型中,可以利用圖像和文本之間的相似度來進行知識轉移。 典型的單模態模型中,LwF(Learning without Forgetting)是一種經典的隱式正則化方法,它在訓練新任務前使用當前數據生成舊任務的輸出,并在訓練時通過KD損失來最小化新任務下的輸出變化。LwF因其無需顯式存儲舊任務數據的特性,被廣泛應用于多模態和單模態CL模型中。在多模態模型中,隱式正則化方法進一步擴展并改進了KD策略以適應不同的模態。例如,ZSCL(Zero-Shot Continual Learning)和Mod-X都使用CLIP作為基礎模型,通過KD技術保留零樣本能力。此外,Mod-X還關注空間無序(Spatial Disorder)問題,以解決視覺和語言表征在持續訓練過程中逐漸偏離的問題。

3.2 基于架構的方法

架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。

**3.2.1 固定架構

固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。

**3.2.2 動態架構

動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。

3.3 基于重放的方法

重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。

**3.3.1 直接重放

直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。

**3.3.2 偽重放

偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。

3.4 基于提示的方法

基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。

4 數據集和基準

本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。

**4.1 基于原始數據集的基準

這一部分總結了兩個專門為MMCL構建的數據集:

  • P9D:Zhu等人【68】利用電商數據構建了首個視覺-語言持續預訓練數據集P9D,并建立了跨模態檢索與多模態檢索的VLCP基準。P9D包含超過一百萬對真實產品的圖像和文本數據,并根據行業類別劃分為9個任務。該數據集旨在支持多模態任務中不同類別的持續學習。
  • UESTC-MMEA-CL:Xu等人【39】收集了來自佩戴智能眼鏡的10位參與者的視頻和傳感器數據,構建了包含視覺、加速度和陀螺儀模態的UESTC-MMEA-CL數據集,這是第一個用于持續自我活動識別的多模態數據集。作者還建立了CEAR基準,并使用了三種基礎CL方法:EWC【11】、LwF【10】和iCaRL【12】。研究結果顯示,與其他方法相比,iCaRL在重放基礎上能更有效地減輕遺忘問題。 這兩個數據集通過與常用CL方法的結合驗證了MMCL方法在不同模態組合上的有效性,也進一步揭示了多模態數據融合的挑戰及潛在研究方向。

**4.2 基于多個數據集的基準

除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:

  • CLiMB【31】:該基準包括四個視覺-語言任務(VQAv2、NLVR2、SNLI-VE和VCR)、五個僅語言任務(IMDb、SST-2、HellaSwag、CommonsenseQA和PIQA)以及四個僅視覺任務(ImageNet-1000、iNaturalist2019、Places365和MS-COCO目標檢測)。CLiMB采用分類任務來評估模型在不同模態任務中的表現。
  • CLOVE【63】:專注于生成任務,適用于不同模態的生成式任務,利用多個數據集進行評估。
  • MTIL【45】:該基準在視覺-語言領域內使用了多個數據集進行任務增量學習,驗證模型在多任務設置中的表現。
  • CEAR【39】:基準測試多模態數據集(視頻、加速度和陀螺儀)上的持續學習性能,評估模型對復雜運動數據的持續識別能力。 這些基準提供了多種任務和模態組合,用以驗證模型在各種復雜多模態環境中的持續學習能力。通過這些基準,研究人員可以深入探討MMCL方法在不同任務類型下的適用性和性能表現。

5 未來研究方向

隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。

**5.1 提升模態數量與質量

當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:

  1. 豐富模態種類:許多現有研究主要集中在視覺、語言和音頻模態上,但實際應用中往往需要結合更多模態,如生物信號、環境數據等。因此,未來研究可以探索如何將更多元的模態引入MMCL系統,以提高模型對復雜環境的適應性和泛化能力。
  2. 提高數據質量:不同模態數據的噪聲和不完整性可能導致信息缺失或誤導模型學習。提高數據采集和預處理的質量,以及開發具有魯棒性的數據增強方法,將有助于改善模型對多模態數據的學習效果。
  3. 模態互補性研究:多模態數據之間的互補性在MMCL中發揮著重要作用。研究如何更好地利用不同模態之間的相互補充來增強學習效果,例如通過模態間對齊和融合方法,以更好地利用數據多樣性,提升模型的整體性能。

**5.2 更高效的計算資源利用

MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:

  1. 參數高效的微調方法:開發參數高效的微調策略(如適配器模塊、低秩近似等),以減少訓練過程中對計算資源的需求。這類方法能夠使模型在進行任務增量學習時僅調整少量參數,從而減輕計算負擔。
  2. 模型壓縮和加速:探索模型壓縮(如量化、剪枝)和加速(如蒸餾、混合精度訓練)技術,以降低MMCL模型的內存和計算成本,使其更適合實際部署。
  3. 分布式與異構計算:結合分布式計算和異構計算設備(如GPU和TPU),分擔大規模多模態數據的處理任務,以應對計算負載挑戰。這可以使得MMCL模型在多任務和大數據量場景下保持較高的性能表現。

**5.3 增強零樣本能力和泛化性能

MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:

  1. 保持預訓練模型能力:隨著持續微調的進行,MMCL模型可能逐漸喪失預訓練模型的零樣本能力。研究如何在保持先前知識的基礎上,繼續增強模型對新任務的適應性,將是未來的重要方向。
  2. 增強跨任務泛化:MMCL模型往往面對跨任務的知識遷移和適應性問題。如何設計有效的跨任務知識遷移機制,以增強模型在不同任務間的泛化能力,將有助于提高模型在多變環境下的實用性。
  3. 任務間關系學習:許多現實任務之間存在一定的關聯性,未來可以探索如何利用任務間的關系信息(如標簽關系、特征共現)來更好地指導模型學習,從而提升模型對新任務的預測準確性。

**5.4 應對多模態數據中的模態失衡

在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:

  1. 模態優先級與加權機制:不同模態對任務完成的重要性可能不同,因此可以研究如何為不同模態分配合適的權重和優先級,以提高模型在模態不平衡情況下的魯棒性。
  2. 動態模態選擇與融合:設計動態的模態選擇策略,使模型能夠在缺少某些模態數據時,靈活地進行模態融合和任務處理。這種動態融合策略將提高模型在不同模態條件下的適應性。
  3. 模態數據重采樣與合成:在模態不平衡的情況下,可以研究如何通過重采樣或合成方法生成缺少的模態數據,以保持模態之間的平衡性,提高模型的整體學習效果。

5.5 提高模型對隱私與數據安全的適應性

隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:

  1. 隱私保護技術:研究如何在MMCL模型中引入隱私保護技術,如聯邦學習和差分隱私,以在多模態數據環境中保護用戶隱私。
  2. 安全模型更新與遷移:開發安全的模型更新和遷移機制,以防止敏感數據泄露,同時保證模型在不同平臺或設備上的適應性和性能。
  3. 數據合成與偽重放:為減輕隱私風險,可以利用數據合成與偽重放技術,在不依賴真實用戶數據的情況下,重建訓練數據分布,從而提高模型的隱私適應性。

結論

以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。

付費5元查看完整內容

摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構

深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。

為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。

在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。

在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸

  • SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。

  • SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。

  • SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。

  • Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。

  • 數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。

總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:

  • 我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。

  • 我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。

  • 我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。

  • 我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。

Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。

  • 初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。

  • 樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。

  • 標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。

  • 采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。

  • 通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。

Mixup方法的主要步驟

如圖2頂部所示,Mixup方法遵循以下步驟:

  1. 從訓練數據集中加載mini-batch原始樣本;
  2. 對于一些下游任務,包括選擇原始樣本和保留可靠樣本,一些基于顯著性或注意力的方法通過加載預訓練模型獲得特征區域或tokens。然后,定義從Beta分布或均勻分布采樣的混合比例λ;
  3. 初始化后,原始樣本通過樣本Mixup策略與其他樣本混合。我們在3.1小節中展示了這些策略;
  4. 當生成混合樣本x^\hat{x}x^ 后,有兩種選擇:一種是采樣,一些方法通過掩碼M的總像素更新混合比例,一些方法選擇混合樣本以保留更多的多樣性或具有挑戰性的樣本,另一些方法重新定義混合比例。另一種是標簽Mixup策略,我們在3.2小節中展示了這些策略并進一步挖掘標簽y^\hat{y}y^;
  5. 最后一步是通道Mixup策略,混合樣本x^\hat{x}x^ 通過網絡編碼并映射到高維潛在空間,一些方法相互插值或選擇特征圖用于高維特征z^\hat{z}z^。然后繼續對特征向量進行編碼以執行不同的任務,并根據不同的損失函數優化網絡。

結論

在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

摘要: 隨著物聯網技術的不斷發展,監控設備在交通干道、學校醫院、商場超市、小區樓宇等公共區域進行了廣泛部署.這些監控設備為人們提供了一種隱性安全保障,也產生了大量的監控視頻.基于監控視頻的異常檢測一直是圖像處理、機器視覺、深度學習等相關領域的研究熱點.對視頻異常進行了直觀描述和異常檢測概述,對出現的一些綜述文章進行了分析,針對其覆蓋范圍不全和特征表示以及模型沒有清晰劃分.首先從異常檢測特征表示、異常檢測建模2方面對傳統經典的和新興的視頻異常檢測算法進行分類和描述.然后從基于距離、概率、重構3個方面將不同的算法進行比較,分析不同模型的優缺點以及每種模型的特性.并對現存算法的評估標準進行歸納并指出了新的更加準確有效的評估指標.最后,介紹了監控視頻異常檢測常用的數據集,匯總了不同算法在常用數據集上的檢測效果,并對未來的研究在實際應用中面臨的一些挑戰和研究方向進行了探討.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200638

付費5元查看完整內容

移動增強現實(AR)借助智能移動終端將虛擬信息和真實世界進行實時融合,能否實時準確地對 環境中需要增強的物體進行目標檢測直接決定了系統的性能。隨著深度學習的快速發展,近年來出現了大量的 基于深度學習的目標檢測方法。由于存在移動增強設備計算能力有限、能耗大、模型尺寸大以及卸載任務到邊 緣云端的網絡延遲嚴重等問題,將深度學習方法應用于移動 AR 的目標檢測是一項具有挑戰性的問題。首先從 Two stage 和 One stage 的 2 方面對目前深度學習目標檢測算法進行綜述;然后對面向移動 AR 的目標檢測系統 架構進行歸納分類,分析了基于本地端、云端或邊緣端和協作式的移動 AR 目標檢測系統并總結了各自的優勢 和局限性;最后對移動 AR 中目標檢測亟待解決的問題和未來發展方向進行了展望和預測。

//www.txxb.com.cn/CN/10.11996/JG.j.2095-302X.2021040525

付費5元查看完整內容

視頻目標檢測是為了解決每一個視頻幀中出現的目標如何進行定位和識別的問題。相比于圖像目標檢測,視頻具有高冗余度的特性,其中包含了大量的時空局部信息。隨著深度卷積神經網絡在靜態圖像目標檢測領域的迅速普及,在性能上相較于傳統方法顯示出了非常大的優越性,并逐步在基于視頻的目標檢測任務上也發揮了應有的作用。但現有的視頻目標檢測算法仍然面臨改進與優化主流目標檢測算法的性能、保持視頻序列的時空一致性、檢測模型輕量化等關鍵技術的挑戰。針對上述問題和挑戰,在調研大量文獻的基礎上系統地對基于深度學習的視頻目標檢測算法進行了總結。從基于光流、檢測等基礎方法對這些算法進行了分類,從骨干網絡、算法結構、數據集等角度細致探究了這些方法。結合在ImageNet VID等數據集上的實驗結果,分析了該領域具有代表性算法的性能優勢和劣勢,以及算法之間存在的聯系。對視頻目標檢測中待解決的問題與未來研究方向進行了闡述和展望。視頻目標檢測已成為眾多的計算機視覺領域學者追逐的熱點,將來會有更加高效、精度更高的算法被相繼提出,其發展方向也會越來越好。

//fcst.ceaj.org/CN/abstract/abstract2872.shtml

付費5元查看完整內容

摘要

深度學習(Deep Learning, DL)是當前計算機視覺領域應用最廣泛的工具。它精確解決復雜問題的能力被用于視覺研究,以學習各種任務的深度神經模型,包括安全關鍵應用。然而,現在我們知道,DL很容易受到對抗性攻擊,這些攻擊可以通過在圖像和視頻中引入視覺上難以察覺的擾動來操縱它的預測。自2013年~[1]發現這一現象以來,引起了機器智能多個子領域研究人員的極大關注。在[2]中,我們回顧了計算機視覺社區在深度學習的對抗性攻擊(及其防御)方面所做的貢獻,直到2018年到來。這些貢獻中有許多啟發了這一領域的新方向,自見證了第一代方法以來,這一領域已顯著成熟。因此,作為[2]的后續成果,本文獻綜述主要關注自2018年以來該領域的進展。為了確保文章的真實性,我們主要考慮計算機視覺和機器學習研究的權威文獻。除了全面的文獻綜述外,本文還為非專家提供了該領域技術術語的簡明定義。最后,本文在文獻綜述和[2]的基礎上,討論了該方向面臨的挑戰和未來的展望。

//www.zhuanzhi.ai/paper/884c8b91ceec8cdcd9d3d0cc7bd2cf85

引言

深度學習(DL)[3]是一種數據驅動技術,可以在大數據集上精確建模復雜的數學函數。它最近為科學家在機器智能應用方面提供了許多突破。從DNA[4]的突變分析到腦回路[5]的重建和細胞數據[6]的探索; 目前,深度學習方法正在推進我們對許多前沿科學問題的知識。因此,機器智能的多個當代子領域迅速采用這種技術作為“工具”來解決長期存在的問題也就不足為奇了。隨著語音識別[7]和自然語言處理[8],計算機視覺是目前嚴重依賴深度學習的子領域之一。

計算機視覺中深度學習的興起是由Krizhevsky等人在2012年的開創性工作觸發的,他們報告了使用卷積神經網絡(CNN)[11]在硬圖像識別任務[10]上的記錄性能改善。自[9]以來,計算機視覺社區對深度學習研究做出了重大貢獻,這導致了越來越強大的神經網絡[12]、[13]、[14],可以在其架構中處理大量層——建立了“深度”學習的本質。計算機視覺領域的進步也使深度學習能夠解決人工智能(AI)的復雜問題。例如,現代人工智能的一個最高成就,即tabula-rasa learning[15],很大程度上要歸功于源于計算機視覺領域的殘差學習[12]。

由于深度學習[15]的(明顯)超人類能力,基于計算機視覺的人工智能被認為已經達到部署在安全和安保關鍵系統所需的成熟度。汽車自動駕駛[18],ATM的面部識別[19]和移動設備的面部識別技術[20]都是一些早期的真實世界的例子,描繪了現代社會對計算機視覺解決方案的發展信念。隨著高度活躍的基于深度學習的視覺研究,自動駕駛汽車[21],人臉識別[22],[23],機器人[24]和監控系統[25]等,我們可以預見,深度學習在關鍵安全計算機視覺應用中的無處不在。然而,由于深度學習[1]的對抗漏洞的意外發現,人們對這種前景產生了嚴重的擔憂。

Szegedy等人[1]發現,深度神經網絡預測可以在極低量級輸入擾動下被操縱。對于圖像而言,這些擾動可以限制在人類視覺系統的不可感知范圍內,但它們可以完全改變深度視覺模型的輸出預測(見圖1)。最初,這些操縱信號是在圖像分類任務[1]中發現的。然而,它們的存在現在已被公認為各種主流計算機視覺問題,如語義分割[27],[28];目標檢測[29],[30];目標跟蹤[31],[32]。文獻強調了對抗式干擾的許多特征,這使它們對作為實用技術的深度學習構成了真正的威脅。例如,可以反復觀察到,受攻擊的模型通常對操縱圖像[2],[17]的錯誤預測具有很高的置信度。同樣的微擾常常可以欺騙多個模型[33],[34]。文獻也見證了預先計算的擾動,稱為普遍擾動,可以添加到“任何”圖像,以高概率[35],[36]欺騙給定模型。這些事實對關鍵安全應用有著深遠的影響,特別是當人們普遍認為深度學習解決方案具有超越人類能力[15],[37]的預測能力時。

由于其重要性,對抗性攻擊(及其防御)的話題在過去五年中受到了研究團體的相當大的關注。在[2]中,我們調研了這個方向的貢獻,直到2018年到來。這些工作中的大多數可以被視為第一代技術,探索核心算法和技術,以欺騙深度學習或防御它的對抗性攻擊。其中一些算法激發了后續方法的靈感,進一步改進和適應核心攻擊和防御技術。這些第二代方法也被發現更多地關注其他視覺任務,而不僅僅是分類問題,這是這一方向早期貢獻的主要興趣主題。

自2018年以來,該研究方向的論文發表數量不斷增加(見圖2-a,b)。當然,這些出版物也包括文獻綜述的實例,如[38],[39],[40],[41],[42]。我們在這里提供的文獻綜述在許多方面不同于現有的綜述。這篇文章的獨特之處在于它是2的繼承。隨后的調研,如[41],通常緊跟[2];或者針對特定問題在[2]上建立[42]。近年來,這一方向在計算機視覺領域已經顯著成熟。通過構建[2]和后續文獻的見解,我們能夠為這一快速發展的研究方向提供更精確的技術術語定義。這也導致了本文所回顧的文獻的更連貫的結構,為此我們提供了基于研究團體當前對術語的理解的簡明討論。此外,我們關注出現在著名的計算機視覺和機器學習研究出版刊物的論文。專注于領先的貢獻使我們能夠為計算機視覺和機器學習研究人員提供一個更清晰的方向展望。更不用說,本文回顧了這個快速發展領域的最新貢獻,以提供迄今為止在這個方向上最全面的回顧。

本文的其余部分組織如下。在第二節中,我們提供了本文其余部分中使用的技術術語的定義。在第三節中,我們闡述了對抗性攻擊這一更廣泛的問題。第一代攻擊將在第四節中討論,接下來是第五節中關注分類問題的最近的攻擊。我們在第六節中關注分類問題之外的最近的攻擊,在第七節中關注針對物理世界的量身定制的攻擊。更多側重于存在對抗性例子的理論方面的貢獻將在第九節中討論。最近的防御方法是第十部分的主題。文章對第十一部分的文獻趨勢進行了反思,并對這一研究方向的前景和未來方向進行了討論。最后,我們在第十二節結束。

付費5元查看完整內容

摘要: 圖異常檢測旨在大圖或海量圖數據庫中尋找“陌生”或“不尋常”模式,具有廣泛的應用場景.深度學習可以從數據中學習隱含的規律,在提取數據中潛在復雜模式方面表現出優越的性能. 近年來隨著基于深度神經網絡的圖表示學習取得顯著進展,如何利用深度學習方法進行圖異常檢測引起了學術界和產業界的廣泛關注. 盡管最近一系列研究從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注. 首先給出了靜態圖和動態圖上各類常見的異常定義,然后調研了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,梳理了基于深度學習的圖異常檢測的研究現狀,并總結了圖異常檢測的應用場景和相關數據集,最后討論了圖異常檢測技術目前面臨的挑戰和未來的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200685

圖作為一種通用的數據結構,被廣泛用于表示 復雜的結構化數據.相對于其他數據結構,它能更好 地存儲和表達實體及其聯系.現實世界中,圖在社交 網絡分析、Web網絡分析、交通路網優化、知識圖譜 構建等領域均有廣泛的應用.針對這些語義豐富、樣 式多樣、規模龐大的圖數據,如何快速、準確地檢測 其中的異常引起了學術界和產業界的廣泛關注.圖 異常檢測是指在一個大圖或海量圖數據庫中尋找包 含“陌生”或者“不尋常”模式的結構(包括節點、邊或 者子圖),具有廣泛的應用場景,例如英特網中的惡 意攻擊、社交網絡中的突發事件檢測、電子商務中的 水軍發現等.相較于傳統的異常檢測方法,基于圖的 異常檢測由于圖具有強大的表達能力,不僅可以將 復雜的數據加以直觀的呈現,同時也能將數據中隱 含的相關性融入到異常檢測過程中.

面向圖的異常檢測工作最早發表于2003年[1], 現有工作大致可分為基于靜態圖和基于動態圖 2 類.在基于靜態圖的異常檢測工作中,一類方法利用 ego網絡[2]或者基于團體[3]研究問題;一類方法基 于圖的結構信息進行異常檢測[4G6],也有一些工作基 于子空間選擇,試圖在節點特征的子空間中發現異 常[7G9].還有一些工作通過概率、統計方法獲取圖的 統計信息進行異常檢測[10G13].盡管這些工作在異常 檢測上取得了不錯的進展,但這些方法如利用ego 網絡的方法,由于處理圖數據,必須考慮節點之間的 交互,在圖較為稀疏時難以實現較好的效果;或者如 子空間選擇和統計方法,由于淺層學習機制難以綜 合利用節點的屬性和結構信息.在基于動態圖的異 常檢測方面,同樣有一些工作基于團體[14G15]、基于結 構[6,16]、或基于概率統計[17G19]進行異常檢測.另外一 類典型的方法是首先獲取圖的概要,然后通過聚類 和異常 檢 測 來 確 定 概 要 中 的 異 常,例 如 文 獻 [20G 21],但是這些方法獲得的概要無法保留重要的結構 信息,比如鄰接節點的信息.現有的基于動態圖的異 常檢測方法大多依賴于啟發式規則,通常只是簡單 地考慮某一類特征;雖然有部分方法[22G23]考慮了內 容甚至時間因素,但并不靈活,導致其應用局限于特 定的場景.

近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面 表現出優越的性能,并在音頻、圖像和自然語言處理 等領域得到了廣泛應用.深度學習方法能夠合理處 理復雜的屬性信息,并且可以從數據中學習隱含的 規律;此外,通過神經網絡對圖進行嵌入不僅可以很 好地保留信息[24G26],還可以很好地處理節點或邊的 屬性,同時保留結構信息,進而方便檢查隱空間中節 點或邊表示的相似性.近年來隨著對圖進行嵌入表 示取得顯著進展,如何利用深度學習方法進行圖異 常檢測在過去幾年中吸引了廣泛關注.基于深度學 習的圖異常檢測方法通常使用圖的嵌入表示方法先 將圖表示為隱空間中的向量,然后使用該向量重構 圖從而剔除異常信息的影響,最后通過重構誤差進 行異常檢測.

關于異常和離群點檢測,已經存在非常全面的 綜述類文章,例如Zimek等人[27]重點介紹了關于高 維離群值檢測,Schubert等人[28]討論了局部離群值 檢測技術.但是,這些文章通常關注多維數據實例的 點,沒有或者不是直接地關注基于圖的檢測技術.盡管文獻[29]從圖的角度對異常檢測技術進行了調 研,但是缺少對深度學習技術下的圖異常檢測技術 的關注.與以往關于異常檢測的綜述不同,本文專注 于大圖或海量圖數據庫中的異常檢測,并對基于深 度學習的圖異常檢測技術進行全面地梳理和總結, 是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述.

本文首先對圖上的異常定義做了全面的分析, 然后詳細介紹了基于深度神經網絡的圖表示學習方 法,接著從靜態圖和動態圖的角度出發,對現有基于 深度學習的圖異常檢測方法進行系統地總結和歸 類,并討論相關方法的局限性.接著簡單介紹圖異常 檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未 來可行的研究方向.本文期望通過對目前基于深度 學習的圖異常檢測研究現狀的梳理,為后續研究提 供可借鑒的思路.

付費5元查看完整內容
北京阿比特科技有限公司