摘要—三維點云配準是計算機視覺、計算機圖形學、機器人學、遙感等領域中的一個基礎問題。在過去的三十年中,我們見證了這一領域的驚人進展,出現了許多不同的解決方案。盡管已有一些相關的綜述文章,但它們的覆蓋范圍仍然有限。在本研究中,我們提供了一篇全面的三維點云配準綜述,涵蓋了一些子領域,如配對粗配準、配對精細配準、多視角配準、跨尺度配準和多實例配準。本文全面介紹了數據集、評估指標、方法分類、優缺點討論以及對未來研究方向的深刻思考。該綜述的項目頁面可通過以下鏈接獲取:
//github.com/Amyyyy11/3D-Registration-in-30-Years-A-Survey。
關鍵詞—三維點云、點云配準、綜述、性能評估、數據集。
1 引言
對三維點云進行統一坐標系配準(即三維點云配準)是計算機視覺、計算機圖形學、機器人學、遙感等多個領域中的一個基礎問題。配準后的點云可以帶來兩個關鍵結果:1)提供更完整的點云用于重建、信息融合和誤差測量;2)為魯棒的姿態估計、三維跟蹤、物體/地點定位和運動流估計提供六自由度(6-DoF)姿態。隨著三維主動和被動獲取技術的發展(如英特爾的RealSense、蘋果的iPhone系列),三維點云配準在過去三十年中引起了越來越多的研究關注。 特別地,針對魯棒的三維點云配準,已經根據數據獲取方式或應用場景的不同,衍生出多個子領域(見圖1)。從處理的數據序列的角度看,配對配準主要關注對齊兩組點云,而多視角配準則處理多個順序或無序的點云。從誤差最小化的角度看,粗配準大致對齊具有較大姿態變化的點云,而精細配準通常聚焦于最小化較小的殘差誤差。從方法學的角度看,早期的方法設計了手工優化或啟發式方法,而近年來的方法則依賴于深度學習技術。還有一些其他的研究視角,如特征學習、對應學習和魯棒的6-DoF姿態估計。因此,三維點云配準領域涉及了大量的方法和研究主題。 現有的綜述通常聚焦于點云配準任務的不同部分或有限范圍。例如,早期的綜述[1]涵蓋了點云配準的多個方面,但缺乏對各子領域之間內在關系的深入分析,未能系統地揭示它們之間的相互聯系和互動。最近的綜述[2]回顧了常用的數據集和評估指標,但缺乏在統一實驗設置下的性能比較,未能展示不同方法在一致條件下的優缺點。因此,這些綜述未能從更加全面的視角覆蓋過去三十年的文獻。 為填補這一空白,我們在本文中提供了對過去幾十年三維配準方法的全面綜述。主要貢獻如下:
本文的其余部分安排如下:第二節回顧了點云配準的數據集和評估指標;第三節介紹了配對粗配準方法,包括基于對應和無對應的方法;第四節討論了配對精細配準方法,重點介紹了基于ICP和GMM的方法;第五節介紹了多視角粗配準方法,包括幾何方法和基于深度學習的方法;第六節介紹了多視角精細配準方法,包括基于點的和基于運動的方法;第七節介紹了其他配準問題,如跨尺度、跨源、彩色點云和多實例配準;第八節討論了該領域的挑戰與機會。最后,第九節總結了全文。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
3D點云表示在保持物理世界的幾何保真度方面發揮著至關重要的作用,使得對復雜三維環境的理解和交互更加精確。人類可以通過多感官系統自然地理解物體之間的復雜關系、空間布局及其變化,而人工智能(AI)系統尚未完全復現這一能力。為了彌合這一差距,整合多種模態(如圖像、文本、音頻和點云)變得尤為重要。能夠無縫集成并在這些模態之間進行推理的模型被稱為基礎模型(Foundation Models, FMs)。 在2D模態(如圖像和文本)方面,基礎模型的研究取得了顯著進展,這主要得益于大規模數據集的豐富性。然而,在3D領域,由于標注數據的稀缺性和高計算開銷,其發展相對滯后。針對這一問題,近年來的研究開始探索將FMs應用于3D任務的潛力,借助現有的2D知識克服這些挑戰。此外,語言作為一種能夠進行抽象推理和環境描述的媒介,通過大規模預訓練語言模型(LLMs)提供了一種增強3D理解的潛在途徑。 盡管近年來FMs在3D視覺任務中的發展和應用取得了快速進展,但仍缺乏全面和深入的綜述性研究。本文旨在填補這一空白,系統性地回顧當前最先進的利用FMs進行3D視覺理解的方法。我們首先回顧了構建3D FMs所采用的各種策略,然后對不同FMs在感知任務等領域的應用進行分類和總結。最后,我們對該領域的未來研究方向進行了探討。本綜述旨在為研究人員和實踐者提供一個結構化的指南,既總結現有知識,也為未來的探索提供一條清晰的路線圖。 此外,為了補充本綜述,我們提供了一個相關論文的精選列表://github.com/vgthengane/Awesome-FMs-in-3D
點云、3D視覺、基礎模型、視覺-語言模型、大型語言模型、多模態模型
在當前推動人工智能(AI)系統向類人思維和行為發展的競賽中,一個至關重要的因素是AI對三維(3D)世界的理解和導航能力。為了使AI系統能夠有效地部署在現實環境中,它們必須具備穩健的三維世界感知能力[1]。三維世界可以采用多種形式進行表示,包括深度圖像、網格(meshes)、體素網格(volumetric grids)和點云(point clouds)[2]。其中,點云是最常用的一種表示方式,由三維坐標系中的點集合構成[3]。 三維點云是空間數據表示領域中的核心范式[4],在多個領域發揮著關鍵作用,包括計算機視覺、機器人技術、自動駕駛、增強現實等[5]。在計算機視覺中,點云可用于精確建模現實場景,從而促進目標檢測、場景理解和三維重建等任務[2]。同樣,在機器人和自動駕駛領域,點云在感知和導航中起著至關重要的作用,有助于障礙物檢測、環境建圖和路徑規劃[6]。此外,在增強現實應用中,點云作為核心數據結構,支持虛擬對象在物理世界上的疊加,增強用戶體驗和交互[7]。總體而言,點云所蘊含的豐富信息和多功能性使其成為三維理解和交互不可或缺的工具。 盡管點云在三維數據處理中扮演著重要角色,但其應用仍面臨諸多挑戰。首先,三維數據集的采集過程復雜,成本高昂,且耗時較長[8]。此外,為點云數據提供用于目標識別、語義分割和推理等任務的標注(ground truth)極為繁瑣,需依賴專業知識[9]。訓練大規模模型需要處理海量數據集,這對計算資源和基礎設施提出了較高要求,往往需要高性能計算系統[10]。更進一步,盡管點云能夠捕捉幾何細節,但其數據本質上是稀疏的,缺乏關于物體或場景的語義信息[11]。 這些挑戰促使研究者們思考以下核心問題:我們能否利用其他數據模態,如圖像、文本和音頻,以增強對三維數據的理解,并借助能夠提取特征的模型實現這一目標?此外,我們能否在無需大量數據采集和昂貴模型訓練的情況下,彌補數據、標注和語義信息的缺失? 這種思考催生了基礎模型(Foundation Models, FMs)。“基礎模型”一詞首次由文獻[12]提出,指的是基于大規模數據集進行自監督學習訓練的深度學習模型。這類模型展現出前所未有的適應性,可跨多種任務和領域應用,其特點包括預訓練[13]、可泛化性、可通過遷移學習進行適配[14],在模型規模和數據規模上都具備大規模性,以及以自監督學習為核心的訓練方式。 盡管基礎模型(FMs)的基本組成部分(如神經網絡和遷移學習)已存在多年,但近年來,它們在自然語言處理(NLP)領域取得了顯著進展,尤其是在大型語言模型(LLMs)如BERT和GPT-3的推動下[15, 16]。隨著NLP的成功,計算機視覺(CV)領域也取得了類似進展。例如,視覺-語言模型(Vision-Language Models, VLMs),如CLIP[17],在大規模圖像-文本數據集上進行訓練,在多個下游任務中展現出卓越的泛化能力[18, 19]。進一步地,SAM等模型[20]針對分割任務的適應性,使其能夠用于無類別約束(class-agnostic)的分割應用,包括醫學圖像分割[21]和三維視覺任務[22]。 為了更有效地理解三維世界,研究者嘗試結合圖像、文本和音頻等多模態信息,并借助基礎模型(FMs)推動多種方法的發展[1]。例如,一種研究方向是利用二維基礎模型(2DFMs)構建三維基礎模型(3DFMs)[23, 24]。另一種方向是利用這些2DFMs進行點云分類[25, 18]、語義分割[26, 27]和目標檢測[28, 29]等任務。此外,隨著開源大型語言模型(LLMs)[30, 31, 32]的出現,一些方法已被提出用于三維理解,涵蓋物體級別[33, 34]和場景級別[35, 36]的任務。盡管LLMs本質上是為基于文本的推理設計的,但它們可以通過與視覺模型結合來適用于三維任務。例如,LLMs從文本描述或指令生成的嵌入向量可以與三維模型的特征進行對齊,從而實現視覺定位(visual grounding)[37]、三維文本描述(3D captioning)[38]和三維問答(3D question-answering)[39]等任務。 盡管2DFMs在三維視覺任務中的應用取得了快速發展和廣泛采用,但現有文獻仍缺乏對這些方法的深入總結。為填補這一空白,我們提出了一份全面且結構化的指南,旨在為研究人員和實踐者提供權威參考。
本綜述詳細分析了用于三維點云理解的二維基礎模型(2DFMs)。它旨在為研究人員提供幫助,無論是新入門者還是經驗豐富的專家,并通過結構化的分類體系(如圖1所示)幫助理解關鍵概念。我們首先在第2節奠定基礎,詳細討論點云、可用數據集、單模態和多模態模型以及下游任務適配等核心主題。隨后,第3節探討了利用2DFMs構建3D基礎模型(3DFMs)的早期研究工作。接著,第4節分析了這些2D-和3DFMs在分類、分割和檢測等3D任務中的應用。同樣地,第5節探討了2D-和3DFMs與LLMs結合以解決3D任務的研究進展。整個綜述中,我們總結了相關方法,并分析了它們在不同數據集上的表現。此外,第6節展望了當前的局限性及未來發展方向,并在第7節對本綜述進行總結。
本綜述聚焦于針對三維點云的基礎模型(FMs)。這些FMs涵蓋了單模態模型(主要為文本處理的大型語言模型LLMs),如LLaMa[30]、GPT-3[16]和Vacuna[31],以及其多模態擴展模型,如CLIP[17]、SAM[20]、ImageBind[40]及其變體[41],以及融合LLMs的多模態模型,如LLaVa[42]和MiniGPT-4[43]。我們排除了使用2DFMs進行圖像生成、操作或渲染的研究,因為這些方向已在現有文獻中得到廣泛覆蓋。此外,我們未涉及醫學影像或遙感等特定領域的應用,因為這些方向更適合獨立的綜述論文。相反,我們提供了對現有文獻的全面概述,這些研究可廣泛適用于多個領域。
我們將本綜述與現有三維點云相關文獻進行比較。Guo等人[44]對深度學習在三維點云處理中的應用進行了全面回顧。此外,[5, 2, 45]提供了針對基于Transformer架構模型的詳細分析,但僅關注于這一特定類別的模型。一些研究總結了自動駕駛領域的三維目標檢測方法[6, 46, 47, 48],但未涵蓋更廣泛的三維應用。此外,這些綜述較為過時,未能反映近年來利用預訓練大模型進行三維理解的最新進展。Awaise等人[49]對2DFMs在計算機視覺任務中的應用進行了總結,但未涉及三維應用。其他文獻如[7, 50]研究范圍較為局限,例如,[7]僅關注于點云的自監督學習方法,[50]專注于點云的標簽高效(label-efficient)學習方法。相比之下,我們的綜述旨在提供盡可能全面的方法列表,涵蓋利用2D/3D FMs解決各類三維下游任務的最新研究進展。
本綜述是首個對三維點云學習領域的基礎模型(FMs)進行全面探討的研究,填補了當前文獻中的重要空白,旨在為新入門者和資深研究人員提供一個起點和參考指南。本綜述的核心特性包括: ? 三維視覺任務與數據集背景介紹:提供點云基礎知識,并概述用于訓練和評估的多種數據集,重點分析其關鍵特性及面臨的挑戰。 ? 基礎模型(FMs)及關鍵概念討論:簡明扼要地解釋FMs的概念和重要術語,以確保讀者能夠清晰理解其在不同應用場景中的作用。 ? 方法的全面分析:詳細回顧現有方法,并與替代方案進行比較,使讀者能夠清楚地理解各方法的優缺點及其適用場景。
本研究的主要貢獻如下: ? 全面的背景介紹:我們介紹了三維點云的基本概念、現有可用的數據集,以及基礎模型(FMs)及相關術語。這一背景知識為理解綜述中討論的方法奠定了基礎。 ? 結構化分類體系(Taxonomy):我們提出了一種結構化的分類體系,使新研究人員能夠快速理解該領域的核心概念,同時為資深研究者提供深入探索當前趨勢的途徑。該分類體系按照不同任務、模型適配策略以及其他重要因素對方法進行分組,以便更好地組織和理解現有文獻。 ? 對未來發展方向的深入探討:此外,我們基于本綜述討論的研究成果,對未來發展趨勢進行了深入分析。內容涵蓋數據集構建、模型適配三維任務的有效方法,以及該領域的其他新興趨勢。 通過對基礎模型(FMs)、分類體系、數據集及方法的全面綜述,本研究為研究人員、從業者和愛好者提供了有價值的指導,旨在推動三維世界理解領域的發展。
摘要
離線強化學習也稱為批量強化學習,是深度強化學習領域的一項重要研究內容。它利用行為策略生成靜態數據集,無需在線和環境交互,成功地將大規模數據轉換成強大的決策引擎。近年來,離線強化學習方法得到了廣泛關注和深入研究,并在實際應用中取得了矚目的成績。目前,該方法已經應用于推薦系統、導航駕駛、自然語言處理、機器人控制以及醫療與能源等應用領域,并被看作是現實世界應用強化學習最具潛力的技術途徑之一。該文首先介紹了離線強化學習的背景與理論基礎。隨后從決策思路出發,將離線強化學習方法分為無模型、基于模型和基于Transformer模型3大類,并對各類方法的研究現狀與發展趨勢進行分析。同時,對比了目前3個最流行的實驗環境D4RL、RL Unplugged和NeoRL,進而介紹了離線強化學習技術在現實世界諸多領域的應用。最后,對離線強化學習進行了總結與展望,以此推動更多領域的研究工作。 關鍵詞
人工智能;強化學習;深度強化學習;離線強化學習;批量強化學習
摘要——工業網絡正在經歷由新興技術的融合推動的快速轉型,這些技術正在革新傳統工作流程、提升操作效率,并在各個行業領域中根本性地重塑工業格局。在這場革命中,數字孿生(DT)作為一種變革性創新,成功地將現實世界系統與其虛擬對應物相結合,架起了物理世界與數字世界之間的橋梁。本文提供了一個全面的調查,介紹了各行業中基于數字孿生(DT)的新興服務和應用,從數字孿生的基本概念和組成部分概述,到對數字孿生關鍵 enabling 技術的討論。與現有文獻不同,本文深入探討并分析了數字孿生在廣泛工業服務中的應用能力,包括數據共享、數據卸載、集成感知與通信、內容緩存、資源分配、無線網絡以及元宇宙等領域。特別地,本文對數字孿生在各個工業應用領域中的作用進行了深入的技術討論,涵蓋制造、醫療保健、交通運輸、能源、農業、航天、石油與天然氣以及機器人等行業。在技術分析過程中,我們深入探討了物理與虛擬平臺之間的實時數據通信,以實現工業數字孿生網絡的構建。隨后,本文廣泛探討并分析了數字孿生在工業領域中的主要隱私與安全問題。文中還提供了分類表和調查的主要研究成果,強調了數字孿生在工業中的重要意義。最后,本文指出了未來的研究方向,旨在推動該前沿領域的進一步發展。
關鍵詞——數字孿生、工業網絡、無線通信、機器學習、安全性。
I. 引言
工業革命標志著由最近在工業物聯網(IIoT)方面的進展驅動的技術創新和自動化新時代的開始[1]。這一關鍵時期為現代經濟中持續發展的先進工業流程奠定了基礎。近年來,數字孿生(DT)作為這一演變的關鍵推動力,允許通過雙向通信、實時仿真和監控,將物理世界與數字世界連接起來。通過優化操作和增強決策,數字孿生推動了智能制造、預測性維護以及更高效的基礎設施管理[2]。 近期,數字孿生模型因其強大的潛力和多功能性引起了廣泛關注,在醫療保健、教育、農業和制造業等多個領域帶來了顯著的益處[3][4]。它們提供實時洞察、優化流程并增強決策能力,推動了其在眾多領域的應用和探索[5]。憑借其創新的操作方法,數字孿生模型為工業應用提供了多種重要的優勢,且在不同的部署層級下具有不同程度的虛擬化功能[6]:
借助其獨特的優勢,數字孿生技術已經被提出應用于廣泛的工業領域,包括智能制造、智能醫療、智能交通、能源管理、衛星通信等。例如,數字孿生在智能制造中扮演著至關重要的角色,通過創建制造系統、機器和流程的數字復制品,貫穿各行業[7]。在醫療保健中,數字孿生增強了病患數據管理并個性化治療方案,同時改善了手術規劃[8]。在交通運輸和物流中,數字孿生利用工業物聯網網絡和無線通信提高了資源監控和優化效率[9]。數字孿生在農業和食品生產中的應用通過無線傳感器網絡實現了精確監控和預測分析[10],同時提升了生產力和可持續性[11]。在衛星操作中,數字孿生通過先進的監控和預測性維護提高了裝配過程和網絡性能的準確性和可靠性[12]。此外,在自動駕駛車輛、無人機和智能港口的管理中,數字孿生利用蜂窩網絡和無線通信提升了導航、安全性和操作效率[13]。所有這些數字孿生在各行各業中的顯著進展和成就,突顯了進一步深入探討這一革命性研究領域的理想時機。本文中將展示的數字孿生在各行業中的集成概覽如圖1所示。數字孿生憑借其強大的技術潛力,已顯著轉變了許多工業領域,包括能源、交通運輸、制造和機器人等。 A. 比較與我們的貢獻
在數字孿生技術的最新進展及其與各類應用的集成推動下,近期已發布了多項綜述,探討了數字孿生的變革性影響及其新興趨勢。例如,[14]的研究貢獻了數字孿生概念,強調其與工業4.0及關鍵技術的集成,特別是在制造業中的快速發展,探討了人工智能和工業物聯網等關鍵技術的作用。類似地,[15]的作者分析了數字孿生技術的當前定義和核心特征,探索其在各個領域的應用,并提出了與社會技術方面和生命周期設計相關的意義。其他研究文獻[16]到[17]則探討了數字孿生在工業物聯網等相關領域中的影響。在[16]中,研究人員呈現了數字孿生的定義和特征,擴展其在物聯網中的應用,并展示了數字孿生在軟硬件一體化過程中的作用。有關數字孿生在工業物聯網中的研究也在[17]中得到探討,重點討論了如人工智能和區塊鏈等技術的支撐作用,探索了智能和安全的數字孿生-IIoT實現方案。此外,[18]中的文章回顧了數字孿生系統中的安全與隱私問題,并討論了防御措施。[19]也集中研究了數字孿生在工業4.0范式下的安全形勢,重點分析了網絡物理系統、工業物聯網、邊緣計算和人工智能等多種技術融合的安全威脅,提出了初步的安全建議。數字孿生在無線網絡中的集成問題在[20]中也有所探討,討論了數字孿生技術在無線系統中的關鍵概念、分類、設計考慮和部署趨勢。而[21]的研究則從通信和計算角度探討了數字孿生在智能產業中的作用,回顧了下一代無線技術(如5G及其后續技術)和計算范式(如邊緣計算和云計算)中的應用研究進展。數字孿生在6G通信系統中的作用也在[22]中進行了探討,分析了數字孿生在6G系統中的部署潛力和應用場景。有關數字孿生在各行業集成與進展的研究在[23]、[24]和[25]中有所涉及,提供了數字孿生在產品設計、生產和健康管理等領域的應用回顧。 盡管已有諸多研究,但它們缺乏對數字孿生在工業服務和應用中的全面綜述。尤其是在數據共享、數據感知與卸載、內容緩存、資源管理、無線網絡、元宇宙等工業服務領域,數字孿生的潛力在公開文獻中仍然未得到充分探索[23]-[24]。此外,關于數字孿生在不同工業領域中的應用的全面討論,在[16]到[17]中也缺失。現有的研究僅提供了部分數字孿生應用分析,而尚未深入探討從機器人、制造到農業和航天等所有重要應用領域的全面綜述。 受到這些局限性的啟發,本文提供了一個更全面的數字孿生在工業網絡中的集成調查,包括工業服務和應用。我們特別強調了在每個工業用例中,物理實體與其數字對應物在統一數字孿生平臺上的雙向通信,提供了有關工業數字孿生網絡操作的有價值見解。此外,本文還突出了數字孿生在工業領域中的安全性和隱私問題,這些也正是我們的關鍵創新,使我們的文章在相關文獻中與眾不同。為此,本文的主要貢獻如下:
B. 調查結構
我們的調查結構如圖2所示。第二節回顧了數字孿生的基本原理、組成部分和支撐技術。第三節深入分析了數字孿生在不同工業設置中的服務。第四節探討了數字孿生在各個工業應用中的潛力。第五節討論了工業網絡中各個層次的安全問題。第六節總結了主要發現,并指出了未來的研究方向。最后,第七節對本文進行了總結。
摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。
關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述
1 引言
技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。
例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。
第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。
圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。
本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。
本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。
2 為什么需要對齊與融合
對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。
2.1 提升全面性與魯棒性
對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題
在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性
對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用
對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊
多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊
顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。
DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊
隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法
圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。
這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法
近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。
多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。
編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。
在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。
這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。
模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。
基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。
圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。
自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。
在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。
例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。
持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。
在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。
移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。
我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents
移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。
在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。
移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。
本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。
摘要——在過去的十年中,深度神經網絡取得了令人振奮的突破,數據增強作為一種正則化技術在缺乏大規模標注數據的情況下越來越受到關注。在現有的數據增強方法中,Mixup 及相關的數據混合方法通過凸組合選定樣本及其對應的標簽生成數據依賴的虛擬數據,廣泛應用于各種領域并取得了優異的性能。本綜述對基礎的Mixup方法及其應用進行了全面的回顧。我們首先詳細闡述了包含Mixup增強的訓練流程,作為一個包含模塊的統一框架。一個重構的框架可以容納各種Mixup方法,并給出直觀的操作步驟。然后,我們系統地研究了Mixup增強在視覺下游任務、各種數據模態上的應用,以及Mixup的分析與定理。同時,我們總結了當前Mixup研究的現狀和局限性,并指出了進一步提升Mixup增強有效性和效率的研究方向。本綜述可以為研究者提供Mixup方法的最新進展,并在Mixup領域中提供一些洞見和指導作用。本綜述的在線項目可在 //github.com/Westlake-AI/Awesome-Mixup 獲取。 關鍵詞——數據增強,Mixup,分類,自監督學習,計算機視覺,自然語言處理,圖結構
深度神經網絡(DNNs),如卷積神經網絡(CNNs)和Transformers,由于其強大的特征表示能力,已成功應用于諸多任務,如圖像分類、目標檢測和自然語言處理(NLP)等。為了完成越來越具有挑戰性的任務,DNNs使用了大量可學習的參數,這意味著如果沒有大量的訓練數據,模型容易過擬合,無法很好地泛化。然而,在某些情況下,訓練數據難以獲得且收集成本高昂。如何讓DNNs在有限的訓練數據之外實現泛化,是深度學習中的一個基本問題。
為了解決數據需求量大的問題,研究人員提出了數據增強(DA)技術。與“模型中心”和正則化方法相比,DA是一種“數據中心”的正則化技術,它通過合成虛擬訓練數據來防止過擬合。DA通過構建同一樣本的不同版本引入有用的不變特征。DA帶來的數據集大小增加和歸納偏差的引入也起到了一定的正則化效果,緩解了過擬合問題。最近,數據增強已被證明能夠提高深度學習模型的泛化能力,成為實現最先進性能的關鍵因素。數據增強可以通過對比組合、Mixup和生成等方式合成新數據。
在本綜述中,我們聚焦于一個新興領域——Mixup。Mixup [1] 通過對兩個樣本及其對應的one-hot標簽進行插值來生成增強樣本。本質上,基于Mixup的方法通過混合多個樣本來生成增強數據。與大多數現有的增強技術修改單個樣本但不改變其唯一標簽的做法不同,Mixup通過來自兩個或多個示例生成增強樣本,導致多個標簽的產生,從而更好地反映現實世界的情況。此外,Mixup在不同的數據集和領域中表現出很強的可遷移性。相比之下,其他組合方法通常需要大量時間來確定合適的增強策略。生成方法在應用于大數據集時具有挑戰性,因為它需要額外的生成器和判別器,從而限制了可遷移性和應用場景。而Mixup不依賴于保留標簽的操作,而是通過可學習的方法來創建更有效的增強樣本。與傳統的數據增強方法處理單個樣本不同,Mixup通過混合多個樣本生成虛擬訓練數據,無需領域知識即可生成大量的訓練數據。目前,Mixup已成功應用于多種任務和訓練范式,包括監督學習(SL)、自監督學習(SSL)、半監督學習(Semi-SL)、自然語言處理(NLP)、圖結構和語音處理等領域。
在圖1中,我們總結了這些訓練范式和數據模態下的一些主流方法的時間軸:
SL(樣本):2018年,Mixup [1] 提出了靜態線性插值的樣本混合方法。2019年,CutMix [2] 和 Manifold Mixup [3] 提出了基于切割和特征的Mixup改進。這些是特定的增強方法。但從2020年到2023年,許多方法進一步在靜態線性、切割和特征基礎上改進了Mixup,甚至逐步轉向自適應方式。到2024年,DiffuseMix [4] 結合了生成模型和Mixup方法。
SL(標簽):2019年,AdaMixup [5] 發現混合比例λ會影響模型性能,這被稱為“流形入侵”。因此,從2020年到2024年,許多基于CNNs或Vision Transformers(ViTs)的方法涌現出來,優化這些比例。此外,CAMixup [6] 在2021年和RankMixup [7] 在2023年提出了增強模型校準的方法。
SSL(CL)與SSL(MIM):對比學習(CL)在圖像分類任務中表現出強大的能力。為了提高模型性能,研究人員提出了大量結合Mixup的CL方法,這些方法通過Mixup獲得“半正樣本”以捕捉更多特征。CL + Mixup 通常會修改其損失項以適應SSL任務。遮掩圖像建模(MIM)通過從混合樣本中重建樣本,認為混合樣本將共享更多特征,能夠學習一些高維信息。MixMAE [8] 和MixedAE [9] 在2023年展示了這一觀點。
Semi-SL:可以利用標注和未標注的信息。2019年,MixMatch [10] 使用這種方法提高了模型性能,并使其更具魯棒性,因為混合樣本可以作為帶噪聲圖像的干凈圖像使用。對于PUL,P3Mix [11] 在2021年通過混合來自決策邊界附近的樣本獲得了更好的準確性。DecoupledMix [12] 在2023年提出了通過解耦樣本預測來獲得更干凈的偽標簽。
數據模態:不僅限于圖像領域。對于NLP,WordMixup & SenMixup [13] 在2019年提出了兩種文本混合方式,分別基于句子混合和嵌入混合。基于這兩種基本方法,許多帶有特定修改的方法被提出。例如,SeqMix [14] 在2021年提出了基于顯著性的嵌入混合,TreeMix [15] 通過使用成分句法分析將句子分解為子結構,并通過混合重新組合成新句子。對于圖結構,GraphMix [16] 和 ProGCL [17] 在2021年和2022年提出了結合Mixup方法的圖分類,并提出了一些結合Mixup和圖結構的新損失項,用于困難樣本挖掘。GraphMixup [18]、G-Mixup [19] 和iGraphMix [20] 在2022年和2024年通過顯著性信息獲得混合圖樣本,以提高模型的分類能力和魯棒性。對于語音,BC [21] 和Contrastive-mixup [22] 通過線性插值直接混合語音數據。
總體而言,與已發表的三篇關于Mixup的綜述[23]、[24]和[25]相比,我們的貢獻包括:
我們提供了及時的文獻回顧,并使用SL作為示例,提出了兩種不同的Mixup改進策略(樣本和標簽)的綜合框架。這兩種策略可以對應不同的訓練范式和數據模態。
我們仔細回顧并討論了各種Mixup方法的技術細節,如靜態線性、顯著性和基于注意力的方式,以便研究人員能夠更好地了解所涉及的方法,進而獲得更深入的理解和洞見。
我們對Mixup方法在下游任務中的應用進行了系統性的綜述,提出了技術挑戰,并進一步展示了它們在視覺任務之外的廣泛適用性,如音頻、語音、圖形、生物學等領域。
我們進一步將Mixup方法總結為一種可訓練的范式,相比于其他綜述中將其作為數據增強工具和方法的處理方式,我們呼吁研究人員貢獻一個統一的Mixup框架,以解決多種任務,而不是離散的任務特定修改。
Mixup框架模塊 在本小節中,我們將詳細說明Mixup方法流程中的各個模塊功能,如圖2所示。
初始化:在進行Mixup之前,一些方法會選擇mini-batch中的原始樣本來篩選適合混合的樣本。例如,Co-Mix [26] 在mini-batch中選擇適合的樣本,以最大化所獲得的混合樣本的多樣性。除了篩選樣本外,一些基于顯著性的方式利用預訓練模型定位并獲取樣本的特征圖。最后,各種方法從Beta分布中獲取Mixup比例λ。
樣本Mixup策略:在監督學習中,我們將策略分為9類,詳細信息展示在圖A1中。靜態線性方法使用λ基于插值線性混合兩個或多個樣本。基于特征的方法使用由fθ(?)f_θ(·)fθ(?)獲得的原始樣本特征圖,并以插值線性的方式進行混合。切割方法通過不同方式(如切割、調整大小或堆疊)混合樣本,混合比例λ來自掩碼區域。K樣本Mixup方法使用兩個以上的樣本進行混合。隨機策略方法結合了多種不同的數據增強方法和一些手工制作的Mixup方法,策略的選擇由每種方法的權重因子決定。基于風格的混合方法通過額外的風格提取器從樣本的風格和內容中進行混合。顯著性方法使用樣本特征圖來定位顯著性信息,并獲得最大特征混合樣本。基于注意力的方法類似于顯著性方法,利用注意力得分而非顯著圖。生成樣本的方法使用生成模型,如基于GAN的模型[27]和基于擴散的模型[28]生成混合樣本。
標簽Mixup策略:在監督學習中,我們將策略分為8類,并在圖A1中展示了詳細內容。校準優化方法使用ECE指標對混合樣本進行排序,以提高分類性能和模型校準。基于區域的方法使用掩碼區域重新定義混合比例λ。損失對象方法重新定義新的Mixup分類損失或提出新的損失作為正則化方法。隨機策略方法將其他增強方法與Mixup方法結合或為Mixup提出新的訓練策略。混合比例優化方法使用可學習的參數作為λ,通過不同的混合樣本獲得可靠的混合比例。生成標簽方法通過混合樣本生成混合標簽,而不是使用one-hot標簽。注意力得分方法使用原始樣本的注意力圖來獲得比例,或者使用混合樣本的注意力圖通過每個樣本的得分計算混合比例。顯著性Token方法使用每個原始樣本的顯著圖并將其劃分為tokens,通過tokens計算混合比例。
采樣:一些方法僅專注于樣本策略,以提高模型的性能和能力。它們采用其他策略來固定比例λ或標簽,一些方法計算掩碼上的所有像素并固定λ,而另一些方法為混合樣本設置權重因子。
通道Mixup策略:與樣本或標簽不同,通道具有大量高級特征。Manifold Mixup [3] 通過插值線性獲得混合樣本,Catch up-Mix [29] 通過選擇一些特征圖進一步提高濾波器能力,獲得混合樣本。
如圖2頂部所示,Mixup方法遵循以下步驟:
在本綜述中,我們將Mixup方法重新表述為一個統一的框架,并總結了這些方法在2018年至2024年間在各種任務中的技術細節和數據模態。此外,我們將Mixup分為兩大類:樣本Mixup策略和標簽Mixup策略,這兩類可以涵蓋Mixup的不同改進版本,并在圖A1和圖A2中總結了本綜述中的所有Mixup方法。我們還總結了Mixup方法中經常使用的各種數據集類型,以及在常用數據集上基于主流模型進行圖像分類任務的主流Mixup方法的分類結果,顯示在表A2、表A3和表A4中。最后,我們討論了現有問題和未來有價值的研究方向,旨在為研究人員提供該領域中的一些前沿想法和思路。
由于該領域的多重進展,計算機視覺系統在過去二十年中取得了快速進步。隨著這些系統越來越多地部署在高風險的現實應用中,迫切需要確保它們不會傳播或放大歷史或人工整理數據中的任何歧視性傾向,或無意中從虛假的相關性中學習到偏見。本文提供了關于公平性的全面綜述,總結并揭示了計算機視覺背景下的最新趨勢和成功。我們討論的話題包括:
所提出的描述應幫助研究人員理解在計算機視覺中識別和緩解偏見的重要性、該領域的現狀,并識別未來研究的潛在方向。
計算機視覺領域多年來經歷了多次重大進展。機器學習和統計方法的引入引發了對視覺識別的極大興趣和進步,例如[1, 2, 3],這最終激發了最近在使用神經網絡[4, 5, 6]和大規模數據集[7, 8]的深度學習方法方面的諸多進展。識別問題的快速進展也激發了對各種其他問題的正確方法和模型的探索,例如用于圖像分割的U-Net [9]或用于圖像合成的潛在擴散模型[10]。 然而,機器學習和統計方法依賴于可以引發、傳播或放大統計偏差的訓練數據集和損失函數。當這些偏差與人們相關的敏感保護屬性(例如種族、性別、年齡或民族)相關時,這些偏差是不受歡迎的。學習這些固有相關性或依賴于這些屬性的虛假相關性的模型可能會產生不同的結果,從而導致倫理或法律問題[11, 12]。公平性和偏差緩解的目標[13, 14]是防止或最小化此類偏差對模型決策的影響。 為了使計算機視覺系統廣泛采用、接受和信任,有必要避免社會不平等并提高其可靠性。這激發了對公平性和偏差問題的關注,旨在開發能夠公平地為社會服務的負責任的視覺識別和相關系統。從早期揭示圖像描述[15]或面部識別[16]偏見的研究,到最近在各種任務中緩解偏見的努力[14, 17, 18, 19],在研究公平性和提出緩解計算機視覺偏見方法方面,已經有大量的工作。本文綜述了這方面的文獻以及機器學習系統在大規模數據集上訓練并應用于社會偏見相關問題的相關問題。 本文首先介紹了公平性的符號、起源和定義,同時總結了與更廣泛的機器學習文獻中公平性研究的共性。然后,我們簡要討論了先前在發現和分析計算機視覺數據集和模型中的偏見方面的工作。接下來,我們綜合了用于研究偏見及其緩解的提出的方法和數據集。最后,我們討論了在多模態基礎模型中發現和緩解偏見的當前趨勢以及該領域的未解問題。該綜述旨在為新研究提供快速參考和起點,適應或設計新方法以最大限度地提高新興計算機視覺模型的公平性。 計算機視覺模型中公平性研究與其他領域(如表格數據和圖表)相比有何不同?公平性的總體框架包括量化模型對不同類別敏感保護屬性群體的不同比例結果,并提出緩解這些差異的方法。例如,COMPAS[20]是一個常用于分析機器學習公平性的表格數據集,其中將種族作為敏感保護屬性,包括為分類變量。相比之下,計算機視覺數據集通常缺乏對敏感屬性的明確分類標簽。這些屬性通常隱含在輸入圖像像素的組合和模型要推斷的特定任務目標屬性中。例如,在沒有偏見緩解的情況下,訓練預測人類活動(如烹飪與不烹飪)的計算機視覺模型可能會對不同性別的人物圖像預測出不同的比例[21]。挑戰在于解開與性別相關的人物外觀和正在執行的活動的影響。由于這一目標很難實現,計算機視覺中的偏見緩解提出了表格數據集中不存在的獨特挑戰。這證明了對計算機視覺方法進行全面綜述的必要性,同時簡要回顧了更一般的公平性文獻。對于機器學習公平性的全面綜述,我們推薦閱讀Mehrabi等人[22]、Pessach和Shmueli[23]、Le Quy等人[24]、Caton和Haas[25]的文獻。或許與我們更相關和互補的是Parraga等人[26]最近的綜述,該綜述側重于視覺與語言模型。相比之下,我們的綜述更全面地總結了與傳統計算機視覺任務(如圖像分類、目標檢測、活動識別和面部識別與分析)相關的公平性文獻。 計算機視覺的另一個挑戰是缺乏對敏感保護屬性的明確標簽的訪問。通常,計算機視覺數據集中沒有明確注釋或由圖像中的個人提供的人口變量(如性別、種族或民族)信息。因此,這些數據集上的大多數注釋只能被視為基于數據注釋者感知判斷的代理值。此外,Scheuerman和Brubaker[29]認為,科技工作者和科學家在定義計算機視覺數據集中的人物身份類別方面也發揮了重要作用。因此,之前的研究中對性別等人口標記的研究僅作為二元變量,種族則通常作為一組離散類別進行研究。本綜述中總結的幾項工作承認了其中一些問題,但總體領域應在這種背景下進行評估。 除了這些問題之外,由于偏見的性質、數據集和任務的多樣性以及模型性能和公平性之間的權衡,導航計算機視覺中的公平性和偏見緩解挑戰仍然是一項復雜的工作。本文綜述了核心計算機視覺任務,并確定了實現每項任務的公平性和緩解偏見所面臨的主要挑戰。圖1展示了計算機視覺系統中普遍存在的人口偏見和不公平類型。表1和表2廣泛總結了計算機視覺文獻中開發的特定任務去偏方法以及用于研究偏見和公平性的數據集。在第4節和第5節中可以找到對偏見緩解的常用方法的詳細概述以及按偏見屬性和任務分類的數據集的全面討論。
近來,持續圖學習在非靜態環境下處理多樣的圖結構數據任務中被越來越多地采用。盡管其學習能力充滿希望,當前關于持續圖學習的研究主要集中在緩解災難性遺忘問題,而忽視了持續性能改進。為了彌補這一差距,本文旨在提供一個關于持續圖學習最近努力的全面綜述。具體而言,我們從克服災難性遺忘的角度引入了一個新的持續圖學習分類法。此外,我們系統地分析了在持續提高性能中應用這些持續圖學習方法的挑戰,然后討論可能的解決方案。最后,我們提出了與持續圖學習發展相關的開放問題和未來方向,并討論它們如何影響持續性能改進。隨著深度學習在生活各領域的成功應用,社區開始渴望更強大的通用人工智能。盡管具有前景的潛力,基于神經網絡的持續學習面臨著一個嚴重的遺忘問題:在新任務上的學習通常會導致舊任務上性能的急劇下降,這被稱為災難性遺忘(CF)[95]。持續學習(CL)[46, 122] 被認為是克服這一挑戰的有希望的方式。CL 被視為智能代理逐步獲取、更新、積累并利用知識以持續改善其在任務上性能的學習能力[46]。為了緩解災難性遺忘問題,已經提出了許多CL策略,包括重放方法、正則化方法和參數隔離方法[27]。這些策略在智能代理的可塑性和穩定性之間尋找平衡,并減輕了災難性遺忘的問題。然而,當前的CL僅考慮單個數據樣本,并忽略了它們之間普遍存在的聯系。此外,克服CF僅代表著實現持續性能改進(CPI)的一條必不可少的路徑,而不是CL的終點。圖,也稱為網絡,是一種描述和分析具有交互作用實體的通用數據表示。圖已被廣泛采用于模擬不同應用中不同類型的關系,從生物分子到社會網絡。一方面,許多數據自然以圖的形式存在,如引文網絡、社交網絡和交易網絡。另一方面,即使那些看似未連接的數據也可以人為地構建成圖,如文本中的依賴圖、圖像中的特征圖和代碼中的調用圖。最近,圖學習已成為AI和機器學習中一個有前景的領域,由于其在學習實體間錯綜復雜的關系及相應的網絡結構方面的優勢。
然而,圖學習也受到了災難性遺忘現象的困擾。將持續學習與圖學習整合顯然也是緩解災難性遺忘的流行解決方案。持續圖學習(CGL)的整合稱為持續圖學習。盡管CGL具有潛力,但由于歐幾里得數據與圖之間的結構差異,一般CL與CGL之間存在顯著或復雜的差異,包括模型、任務設置和方法。此外,CL和CGL主要關注克服災難性遺忘,而忽視了持續性能改進。盡管關于CGL的研究數量在增加,但關于CGL的綜述很少。為了彌補這一差距,本文旨在提供一個關于CGL研究努力的全面綜述,特別是討論CGL方法如何實現持續性能改進。本綜述與現有綜述的不同之處。由于CGL與持續學習和圖學習高度相關,兩個領域都有許多綜述。表1將相關綜述歸類為CL、圖學習和CGL。特別是,關于持續學習的綜述大多關注(i)特定領域,如自然語言處理(NLP)[11]、計算機視覺(CV)[97]、機器人學[71]和自主系統[109];(ii)特定任務,如分類[27, 88];以及(iii)模型,如神經網絡[8, 46, 93]。然而,它們都只從孤立的角度而非綜合角度考慮數據。此外,它們過分強調緩解災難性遺忘,而忽視了持續性能改進,這是持續學習的最終目標。關于圖學習的綜述主要關注特定技術,包括圖表示學習[12, 24, 43, 48, 49]、圖神經網絡[138, 170]和圖深度學習[9, 41, 164]。此外,這些研究大多數通常考慮樣本級別的連接數據,而忽略了特征級別和任務級別的連接。另外,它們只關注靜態圖而忽略了在動態圖上的持續學習。盡管有幾項綜述考慮了圖的動態性質,包括動態圖學習[171]、動態圖表示學習[10, 62, 145]和動態圖神經網絡[116],它們主要考慮模型是否適應新數據,而忽略了災難性遺忘問題,從而完全排除了CL。據我們所知,只有兩篇綜述全面整合了持續學習和圖學習。特別是,[35] 回顧了CGL的研究進展、潛在應用和挑戰,而 [154] 則分類了克服CGL中災難性遺忘的方法。盡管它們明確考慮了持續學習中數據之間的聯系并專注于CGL,但它們沒有構建一個全面的視角,并且未能徹底闡述CL和CGL之間的關系和差異。此外,它們主要關注緩解災難性遺忘,而忽略了持續性能改進。
貢獻。本綜述總結了CGL領域的最新研究,并討論了當前方法是否以及如何實現持續性能改進。具體來說,我們的主要貢獻如下所述:
圖1展示了本文的組織結構。第2節介紹了CL和圖學習的基礎知識。第3節提出了CGL的概述,包括形式化、動機以及克服災難性遺忘的CGL方法的新分類法。具體來說,它從特定維度比較了與CGL相關的領域。第4至第7節根據提出的分類法總結了CGL的最近進展。在每一個類別中,都調查了主要挑戰及其相應的解決方案。此外,還從知識增強和優化控制的角度討論了這些方法如何實現持續性能改進。第8節總結了現有CLG研究中使用的實際應用和數據集。此后,第9節討論了開放問題和未來方向。最后,第10節總結了本文。
持續圖學習分類法持續圖學習本質上是持續學習的一個子領域,因此,持續圖學習的目標與常規持續學習相同:通過增量學習實現模型的持續性能改進。然而,由于圖中節點之間的相互依賴性,持續圖學習在方法上比常規持續學習更為復雜和多樣化。因此,我們提出了當前持續圖學習方法的一個新分類法,該分類法分為四個類別:基于重放的方法、基于正則化的方法、基于架構的方法和基于表示的方法,如圖3所示。所提出的分類法主要關注那些明確聲稱能夠克服災難性遺忘的方法,因為當前的工作很少涉及持續性能改進。然而,我們從知識的角度討論了災難性遺忘的根本原因和持續性能改進的關鍵,并進一步討論這些方法是否以及如何實現持續性能改進。從知識的角度看,災難性遺忘的根本原因是新知識對現有知識的覆蓋。假設某一時期的知識是有限的,并且可以在持續學習的設置中學到,那么持續學習的目標就是學習所有知識并在特定任務上實現持續性能改進。基于這種考慮,持續性能改進等同于持續獲取新知識或對現有知識的補充。這通常可以通過兩種方式實現:知識增強和優化控制。知識增強指的是后續任務的知識可以增強先前任務的知識。例如,人們在低年級學習四則運算,并使用它們來解決現實世界中的問題。然而,他們不使用變量來代表數字,因此在理解對象之間的數量關系時容易犯錯。在他們高年級學習變量和方程式后,他們將使用變量方程來理解和建模對象之間的數量關系,這給他們犯錯的機會更少。在這個例子中,變量和方程是對基本四則運算的增強。知識增強可以通過學習正樣本或負樣本來實現。優化控制指的是控制學習過程。如果學習過程可以用完成度來量化,完全學習肯定優于不完全學習。類比地,那些在課堂上認真聽講并完成所有作業的學生通常會比那些在課堂上分心并留下空白作業的學生表現得更好。在本文中,我們遵循上述考慮來討論和分析當前持續圖學習方法是否以及如何實現持續性能改進。
基于重放的方法利用從先前任務中學到的知識,與當前數據一起進行聯合訓練,以避免在學習新任務時發生災難性遺忘。基于重放方法的關鍵是獲取從先前任務中學到的知識,這通常通過抽樣或生成模型來獲得。圖4總結了基于重放的方法。
基于正則化的方法通過顯式考慮拓撲結構并向損失函數添加相應的正則化項來平衡舊任務和新任務的學習,以此來規范梯度方向,從而限制對先前任務至關重要的參數的劇烈變化,以克服災難性遺忘。正則化項通常有兩種方式:約束和蒸餾。圖5總結了基于正則化的方法。
基于架構的方法通過特定架構為任務分配任務特定的參數或網絡(部分共享或不共享),以避免任務之間的干擾。這些架構可以是固定的或動態的,如圖6所示。
由于節點之間的相互依賴性以及任務間邊緣的存在,新的增量圖將會影響先前的圖,而且先前任務的知識也可以傳遞給后續任務。這種知識難以顯式地納入持續圖學習,但可以隱式地編碼在節點嵌入中,我們將此稱為基于表示的方法。其基本原理是,現有的節點嵌入已經包含了下游任務所需的所有必要信息,而通過這種方法獲得的嵌入等同于弱化的聯合訓練。一般來說,基于表示的方法可以總結為分離和傳輸,如圖7所示。
結論 由于圖在現實世界中的普遍存在和動態性質,由圖神經網絡(GNNs)代表的圖模型已在各個領域得到廣泛應用。持續圖學習是一種新興的學習范式,旨在持續學習設置中進行圖學習任務,并實現持續性能改進。在這篇綜述中,我們提供了對持續圖學習近期研究的全面回顧。我們提出了一種新的分類法,用于總結克服災難性遺忘的持續圖學習方法。此外,對于每個類別,我們簡要闡明了關鍵問題,詳細描述了當前研究中的相應實踐,并討論了實現持續性能改進的可能解決方案。進一步地,我們還提出了一些與持續性能改進相關的開放問題,并建議了相應的有前景的研究方向。我們希望這篇綜述能幫助讀者理解持續圖學習的最近進展,并對這個有前景的領域的未來發展提供一些啟示。