亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——在大數據應用時代,聯邦圖學習(Federated Graph Learning, FGL)作為一種新興的解決方案,正在逐步成為協調分布式數據持有者之間集體智能優化與最大限度保護敏感信息之間權衡的關鍵技術。已有的 FGL 綜述雖具有重要價值,但主要集中于聯邦學習(Federated Learning, FL)與圖機器學習(Graph Machine Learning, GML)的集成,進而形成了一些以方法學和模擬場景為核心的早期分類體系。值得注意的是,從“數據中心化”視角出發,對 FGL 方法進行系統性梳理的嘗試尚屬空白,而這一視角對于評估 FGL 研究如何應對數據相關限制、進而提升模型性能至關重要。為此,本文提出了一種雙層次的數據中心化分類框架:(1)數據特征,根據 FGL 所使用數據的結構性和分布性特征對相關研究進行歸類;(2)數據利用,分析訓練過程中應對關鍵數據難題所采用的策略與技術。每一層次的分類框架均由三個正交維度構成,分別對應不同的數據中心化配置。除分類框架外,本文還探討了 FGL 與預訓練大模型的集成應用,展示了其在現實世界中的典型應用案例,并總結了與 GML 發展趨勢相契合的未來研究方向。 關鍵詞:聯邦圖學習,機器學習

一、引言

圖數據集以非歐幾里得結構形式表示,形式上被定義為由節點(實體)和邊(關系)組成的元組,用以嚴謹地建模復雜的現實世界系統。圖數據集的一個核心優勢在于其能夠顯式地編碼拓撲連接關系,從而突破獨立同分布(i.i.d.)數據的傳統約束,直接捕捉實體之間的交互依賴關系 [1]。與像素化圖像或文本等傳統數據格式不同,圖結構具備獨特的理論優勢,而圖神經網絡(Graph Neural Networks, GNNs)的引入使得機器學習(Machine Learning, ML)算法可以基于傳播機制挖掘隱藏在拓撲結構中的隱式信息結構。由于其顯著的有效性,GNNs 促成了諸如 AlphaFold [2] 等突破性成果,該方法通過氨基酸序列預測蛋白質結構,推動了疫苗和抗體的開發。 鑒于 GNNs 所展現出的卓越性能,眾多開創性模型相繼被提出,例如 GCN [3] 和 GAT [4]。這些方法大多采用以模型為中心的研究視角,強調通過創新的結構設計在給定數據集上實現最優性能 [5]。然而,這類方法的成功往往隱含著一個前提假設:所使用的數據集已經經過充分清洗與處理,性能提升主要歸因于模型結構的日益復雜。但現實世界中的數據常常存在顯著的不確定性,如噪聲干擾或對實體描述的不完整性,這些因素違背了上述假設。當低質量數據被輸入 GNNs 時,模型難以有效提取可靠知識,從而暴露出模型中心范式在實際應用中的脆弱性。 為應對上述局限,數據中心化的圖機器學習(Graph Machine Learning, GML)已逐漸發展為一種更具現實意義的研究范式,專注于解決實際數據問題。相應地,數據中心化 GML 正受到越來越多研究者的關注。然而,大多數現有研究仍假設數據處于集中式存儲環境中,即數據被統一保存在單一位置。與之相比,去中心化的數據中心化 GML 仍屬研究空白,盡管現實中數據往往分散在多個獨立持有者手中。與此同時,對去中心化數據的處理還需滿足隱私保護的嚴格法規要求。對此,聯邦學習(Federated Learning, FL)因其能夠在保障隱私的前提下實現分布式數據協同訓練而備受關注 [6]。 隨著 FL 向圖數據的擴展,聯邦圖學習(Federated Graph Learning, FGL)迅速發展為一個專門的去中心化圖學習框架。現有 FGL 研究普遍基于擬合真實場景的研究問題展開,在此基礎上,已有綜述提出了以“場景挑戰”為導向的分類框架。這些工作為該領域的發展作出了積極貢獻,但其范式主要源自模型中心視角,強調機制創新,卻較少關注數據集本身的特征差異,也未充分討論其數據中心化動因。 本文的動機:本綜述旨在從數據中心化角度出發審視 FGL,源于對以下事實的清晰認知:當前大多數 FGL 面臨的核心挑戰均與數據緊密相關,如統計異質性與拓撲異質性。此外,若要深入理解這些挑戰,就需要關注 FGL 所使用數據的特性,因為現有文獻中已涉及多樣的數據格式與去中心化配置。這種機制本質上是數據中心化 GML 在分布式環境下的延伸。為了幫助研究者從解決數據相關問題的角度更好地理解 FGL,本文致力于提供一個通用且系統化的指南。 具體而言,本文提出一個雙層次的數據中心化分類框架,每一層均由三個正交維度組成,這些組合構成了對現有研究的全面理解: * 數據特征維度:包括(i)區分不同類型的圖數據集(如同質圖、異質圖、知識圖與二分圖);(ii)突出數據在客戶端間的分布形式;(iii)揭示每個客戶端的數據可見性水平,即客戶端是否可以訪問完整全局圖,或僅能訪問部分子圖。這些標準共同構成了對 FGL 研究中所處理數據結構與分布特征的全面刻畫。 * 數據利用維度:探討 FGL 方法如何以及何時將針對數據問題的機制納入訓練過程,具體包括:(i)明確關鍵數據挑戰,如數據質量欠佳、客戶端數據類別分布不均、大規模圖訓練過程中的收斂速度緩慢、以及數據隱私保護的增強;(ii)指出主要創新是集中在客戶端側,還是服務器端的操作流程中;(iii)進一步將訓練過程細化為四個執行階段(初始化、本地訓練、全局聚合與后聚合),并總結典型 FGL 方法中所采用的技術細節。

作為首個聚焦于數據中心化視角的 FGL 綜述,本文的貢獻體現在以下三個方面: * (a)新視角:首次從數據中心化角度系統整理 FGL 研究,厘清不同類型數據在現有工作中的定義與使用方式。該視角契合大數據時代的研究重點,在此背景下,數據屬性正在日益決定機器學習技術的選擇與效果。 * (b)雙層分類體系:提出基于數據中心化視角的雙層次分類框架,每層均由三個正交標準構成,從細粒度上劃分現有重要 FGL 研究,有助于研究者迅速定位與特定數據問題相關的研究成果。 * (c)擴展影響——生成式人工智能:首次探討 FGL 與預訓練大模型(Pre-trained Large Models, PLMs)的整合潛力,以加速圖機器學習研究的進展。未來研究方向部分還指出了多個尚未被充分探索的數據中心化議題,強調其在 FGL 背景下的重要性與研究價值。

本文結構安排如下:第二節介紹 FL 與 FGL 的基本概念及其通用訓練流程;第四節呈現基于數據特性的第一層分類,從本地與全局視角展開;第五節構建第二層分類,具體分析數據中心化挑戰及代表性 FGL 方法的應對策略;第六節討論客戶端處理非圖結構數據的研究;第七節評估 FGL 在解決現實世界數據問題中的適用性;第八節探討 FGL 與 PLMs 的雙向融合;第九節展望未來研究方向,包括 FGL 與 GML 熱點議題的融合,以及向更復雜圖結構類型的拓展。

付費5元查看完整內容

相關內容

摘要:

人工智能(AI)正在重塑科學發現,其角色正從專門的計算工具演化為自主的科研伙伴。我們將**智能體科學(Agentic Science)**定位為“AI for Science”范式中的關鍵階段,在這一階段,AI 系統從部分輔助走向全面的科學自主性。借助大語言模型(LLMs)、多模態系統以及一體化研究平臺,智能體化 AI 展現出在假設生成、實驗設計、執行、分析與迭代改進等方面的能力——這些行為曾被認為是人類獨有的。本綜述從生命科學、化學、材料和物理等領域出發,對自主科學發現進行了面向學科的系統性回顧,綜合各學科的研究進展與突破。我們通過一個綜合框架統一了此前分散的三類視角——過程導向、自主性導向和機制導向——并將其與基礎能力、核心過程及領域特定實現聯系起來。在該框架的基礎上,我們:(i) 追溯 AI for Science 的演進,(ii) 識別支撐科學自主性的五大核心能力,(iii) 將科學發現建模為動態的四階段工作流,(iv) 回顧其在生命科學、化學、材料科學和物理學中的應用,(v) 綜合關鍵挑戰與未來機遇。本研究確立了一個面向學科的自主科學發現綜合視角,并將智能體科學定位為推動 AI 驅動科研進步的結構化范式。 關鍵詞: 智能體科學,自主科學發現,自然科學,AI for Science,智能體化 AI,大語言模型

1. 引言

科學發現正經歷著一場由人工智能(AI)快速演進所驅動的變革性轉變,AI 的角色正在從專門化的工具轉向科研合作者。這一進展標志著“AI for Science”范式中的關鍵階段,即 AI 系統已從充當面向特定任務的計算“神諭”【121, 306, 339, 42, 87, 281, 351】逐步走向智能體科學(Agentic Science)的興起(見圖 1)【229, 220, 81, 274, 157】。智能體科學指的是“AI for Science”演化中的特定階段——主要對應圖 1 中的第 3 級(完全智能體化發現),其前身是第 2 級(部分智能體化發現)。在這一階段,AI 作為自主科學智能體,能夠獨立提出假設、設計并執行實驗、解釋結果,并以更少的人類依賴性迭代完善理論【229, 22】。這種進展得益于諸如 Intern-Discovery 這樣的綜合平臺(其提供了對多樣化 AI 智能體和數據集的訪問),以及 Intern-S1 等展現出深度科學推理能力的多模態模型。 這一轉變受到基礎模型(尤其是大語言模型,LLMs)【82, 256, 351】的最新突破所推動。LLMs 在自然語言理解、復雜推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,從而催生出能夠超越靜態學習流程的 AI 智能體。這類智能體不再僅是被動的模型,而是作為動態的、目標驅動的實體,能夠自主探索科學方法【311, 89, 178, 358】。從假設生成【307, 209】,到自主實驗【22, 317】,再到合成數據集的構建【150】,這些智能體展現出曾被認為僅屬于人類的涌現行為。 與現有綜述的比較。 盡管該領域發展迅速,但關于如何理解與設計日益自主化的科學系統,目前仍缺乏統一的框架。現有綜述大體可分為三類互補視角。過程導向的綜述試圖將 LLM 的能力映射到經典的 與現有綜述的比較。 盡管研究進展迅速,但關于如何理解和設計日益自主的科學系統,仍缺乏統一框架。現有綜述可沿三條互補軸線加以歸類:過程導向的視角將 LLM 的能力映射到經典研究循環【172, 352, 39】;自主性導向的研究依據系統的主動性與責任劃分等級【346, 293】;機制導向的分析則剖析支撐智能體行為的架構基元及其演化角色【220, 331, 81, 274】。盡管這些工作奠定了重要基礎,但仍然碎片化——往往將工作流程、自主性分級或體系結構彼此割裂開來單獨考察。 我們的貢獻。 有別于既有綜述分別從過程、自主性或架構單點切入,本文通過圖 2 所示的綜合框架對上述視角進行統一與拓展,將自主科學發現中的基礎能力—核心過程—領域實現貫通起來。我們圍繞生命科學、化學、材料與物理四大領域,給出面向學科的自主科學發現綜述,系統綜合各學科的研究進展與代表性成果。該統一視角將智能體科學從一個抽象階段提升為貫穿“能力—過程—應用”的結構化研究范式。我們的具體貢獻如下: 1. 繪制 AI for Science 的演進圖譜。 我們追溯了從“計算神諭”到“自主科研伙伴”的演進,形式化地將智能體科學界定為 AI 系統展現自主性、目標驅動推理與迭代學習的階段。 1. 科學智能體的“機理解剖”:五大核心能力。 我們識別并分析科學智能體所需的五項基礎能力:(i) 推理與規劃,(ii) 工具整合,(iii) 記憶機制,(iv) 多智能體協作,以及 (v) 優化與進化。針對每一項能力,我們回顧最前沿的實現(如【169, 25, 189, 32】)與領域特定挑戰。 1. 智能體科學的動態工作流:四個核心階段。 我們將科學發現建模為由智能體驅動的動態四階段工作流:(i) 觀察與假設生成,(ii) 實驗規劃與執行,(iii) 數據與結果分析,(iv) 綜合、驗證與進化。我們強調,智能體可以靈活、動態地組合這些階段以解決復雜科學問題【12, 22, 74, 73】。 1. 跨自然科學的系統綜述。 我們在自然科學四大領域(見圖 4:生命科學、化學、材料、物理)系統回顧智能體系統,覆蓋十余個細分方向,從藥物發現【317】到材料設計【113】,展示了智能體科學的廣泛適用性與領域特定創新。 1. 挑戰與未來機遇。 我們綜合該領域面臨的主要技術、倫理與哲學挑戰——包括可復現性新發現的驗證人—智能體協作——并提出研究路線圖,以引導穩健、可信且具影響力的科學智能體的未來發展。

通過上述綜合,我們旨在為智能體科學奠定概念與方法論基礎,引導后續研究走向能夠與人類探究共進化的 AI 系統設計,從而加速科學發現前沿的推進。

付費5元查看完整內容

摘要—— 作為機器人學和具身智能的關鍵前沿,機器人操作需要精確的運動控制,以及在動態環境中對視覺與語義線索的綜合理解。傳統方法依賴預定義的任務規范和僵化的控制策略,往往難以在非結構化、全新場景下擴展或泛化。近年來,基于大規模視覺-語言模型(VLMs)的視覺-語言-動作(VLA)模型逐漸成為一種變革性的范式。這類模型利用大規模 VLMs 在開放世界泛化、層級任務規劃、知識增強推理以及多模態融合方面的能力,使機器人能夠理解高層指令、識別未知環境并執行復雜的操作任務。本綜述首次從系統化、面向分類法的角度,對用于機器人操作的大規模 VLM 驅動 VLA 模型進行全面回顧。我們首先明確界定大規模 VLM 驅動的 VLA 模型,并劃分出兩類核心體系結構范式:(1)單體式模型,涵蓋單系統與雙系統設計,二者在集成程度上有所差異;(2)分層式模型,顯式地通過可解釋的中間表示將規劃與執行解耦。在此基礎上,我們深入探討大規模 VLM 驅動的 VLA 模型:(1)其與強化學習、免訓練優化、人類視頻學習以及世界模型集成等前沿領域的結合;(2)其獨特特征的綜合,包括體系結構特點、操作優勢,以及支撐其發展的數據集和基準;(3)未來的研究方向,包括記憶機制、四維感知、高效適應、多智能體協作以及其他新興能力。本綜述整合了近期進展,旨在彌合現有分類法的不一致性,緩解研究碎片化,并通過系統性地整合大規模 VLM 與機器人操作交叉領域的研究,填補關鍵空白。我們提供了一個定期更新的項目主頁以記錄最新進展://github.com/JiuTian-VL/Large VLM-based VLA for Robotic Manipulation。 關鍵詞—— 視覺-語言-動作模型,機器人操作,具身智能,大規模視覺-語言模型

1 引言

機器人操作(Robotic Manipulation)處于機器人學與具身人工智能交匯處的關鍵挑戰 [1]–[5]。其實現不僅需要精確的運動控制,還需要對復雜動態環境中的多樣化視覺與語義線索具備深刻理解。機器人操作在諸多領域展現出廣泛應用價值,包括先進制造、高效物流、精準醫療和多樣化的家庭服務 [6]–[8]。傳統的操作方法 [9]–[16] 主要依賴精心設計的控制策略和嚴格預定義的任務規范。然而,這些方法在非結構化的真實世界場景中往往表現不佳——尤其是在面對新穎物體、模糊的自然語言指令或此前未見的環境配置時,暴露出其在可擴展性與泛化能力方面的固有限制。 近年來,大規模視覺-語言模型(Vision-Language Models, VLMs)[17]–[25] 崛起為一種變革性范式。基于大規模網頁級圖文數據集的預訓練,大規模 VLM 展現出卓越的能力,能夠彌合視覺感知與自然語言理解之間的語義鴻溝。這種創新能力使 VLM 不僅能結合文本描述理解復雜視覺場景,還能超越單純的目標識別,形成整體的上下文理解。大規模 VLM 與機器人系統的結合催生了一類新模型:基于大規模 VLM 的視覺-語言-動作(Vision-Language-Action, VLA)模型 [26]–[32]。如圖 1 所示,這一新興范式展現出克服傳統機器人流水線根本局限的巨大潛力。它使機器人能夠理解高層次的人類指令、泛化至未知物體與場景、推理復雜的空間關系,并在動態、非結構化環境中執行復雜的操作任務。例如,一個 VLA 模型可以完成如下指令:“把紅色的杯子從筆記本電腦旁邊放到最上層的架子上”,這一任務需要視覺定位、空間推理與序列動作規劃的復雜融合。 在本研究中,基于對近期工作的廣泛回顧 [26]–[37] 及對該領域的深入理解 [38]–[43],我們提出了一個一致性的定義:大規模 VLM 驅動的 VLA 模型是指能夠(1)利用大規模 VLM 理解視覺觀測和自然語言指令;并且(2)通過推理過程直接或間接地服務于機器人動作生成的模型。我們進一步將其劃分為兩大類(見圖 2 與圖 3): * 單體式模型(Monolithic Models)(圖 3 左):包括單系統與雙系統實現。

單系統模型 [26], [27], [44], [45] 在統一架構中集成了環境理解(包括視覺感知、語言理解與機器人狀態感知)與動作生成。 * 雙系統模型 [29]–[32] 則采用 VLM 作為場景解釋的骨干網絡,并由一個動作專家負責動作生成,二者通過潛在表示的傳播進行信息交互。 * 分層式模型(Hierarchical Models)(圖 3 右)[46]–[50] 明確將規劃與策略執行解耦。它們區別于雙系統的端到端方法,具有以下特征:

結構化的中間輸出:規劃模塊生成可解釋的表示(如關鍵點檢測、可供性圖、軌跡提案),隨后由策略模塊處理以生成可執行的動作。 1. 解耦的訓練范式:通過專門的損失函數或 API 驅動的交互,實現對層級模塊的獨立優化。

這種分類法凸顯了 VLA 模型開發中的關鍵設計維度,尤其是系統集成的粒度與認知分解的顯式程度,同時保持與現代表征學習范式的緊密聯系。 在上述定義與分類的框架下,我們的全面綜述揭示了新興 VLA 領域中的若干關鍵缺口,其整體組織結構如圖 2 所示。首先,該領域的術語與建模假設尚不一致,研究工作分散在機器人學、計算機視覺與自然語言處理等學科。其次,已有綜述往往僅聚焦于 VLMs [51]–[55] 或機器人操作 [2], [56]–[59],缺乏對二者交叉所帶來的獨特挑戰與進展的綜合分析。因此,亟需一份系統性和原則性的綜述,以闡明大規模 VLM 驅動 VLA 模型的基礎,組織相關方法的空間,并勾勒該融合范式的未來方向。本綜述旨在填補這一空白。我們提供了結構化且深入的回顧,以全景視角推動學界更深刻的理解并激發未來的突破。

本文的主要貢獻總結如下: * 縱向綜述: 我們系統回顧了 VLM 的演化軌跡、操作學習的技術進展,以及大規模 VLM 驅動 VLA 范式的興起。同時,分析了單體式模型與分層式模型的發展,識別關鍵挑戰并展望未來方向。 * 橫向綜述: 我們提供了單體式與分層式模型更精細的比較性分類法,從結構與功能兩個維度展開分析。進一步探討了大規模 VLM 驅動 VLA 模型的前沿研究方向,強調其獨特特征與支撐發展的數據集。該綜述為理解該領域的發展與結構組織提供了概念性路線圖。

本文余下部分的組織結構如圖 2 所示:第二節介紹 VLM 演化與機器人操作基礎知識;第三節分析單體式模型,包括單系統與雙系統架構的優劣與權衡;第四節探討分層式模型,將其分為僅規劃器與規劃-策略框架,并進一步根據中間表示類型(子任務、關鍵點、程序等)細分;第五節討論其他前沿方法,包括基于強化學習的優化、免訓練方法、從人類視頻學習以及基于世界模型的方法;第六節分析大規模 VLM 驅動 VLA 模型的核心特征,涵蓋多模態融合、指令跟隨和多維泛化;第七節分類與分析相關數據集與基準,涵蓋模擬、真實世界與人類交互數據;第八節探討關鍵開放挑戰與未來研究方向;第九節給出結論。

付費5元查看完整內容

摘要 —— 強化學習(Reinforcement Learning, RL)已成為對齊與增強大語言模型(Large Language Models, LLMs)的一種變革性方法,能夠應對指令遵循、倫理對齊以及推理能力等方面的關鍵挑戰。本文綜述了強化學習與語言模型結合的全面基礎,重點介紹了如近端策略優化(Proximal Policy Optimization, PPO)、Q學習(Q-Learning)和演員-評論家(Actor-Critic)等主流算法。此外,文章系統回顧了專為LLM定制的強化學習技術,包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)和基于AI反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)等基礎方法,以及偏好直接優化(Direct Preference Optimization, DPO)和群體相對策略優化(Group Relative Policy Optimization, GRPO)等先進策略。我們系統性地分析了這些技術在各領域的應用,從代碼生成到工具增強推理不等。本文還基于獎勵建模、反饋機制與優化策略提出了一套對比性分類體系。評估結果揭示了一些關鍵趨勢:RLHF 仍然是主導性的對齊技術,而基于結果的強化學習(如 RL with Verified Rewards, RLVR)顯著提升了逐步推理能力。然而,獎勵欺騙、計算成本高昂以及反饋收集的可擴展性等持續性挑戰,凸顯了持續創新的必要性。我們進一步探討了若干新興方向,包括混合RL算法、驗證器引導訓練,以及多目標對齊框架。本綜述可為研究人員提供一份關于RL驅動的大語言模型開發的路線圖,致力于在提升能力的同時兼

性與可擴展性。

關鍵詞 —— 強化學習、大語言模型、RLHF、對齊、推理、自然語言處理、人工智能 **

**

一、引言

大語言模型(Large Language Models, LLMs)已成為人工智能領域的變革性技術,在理解和生成自然語言方面展現出卓越能力。從 GPT-3 擁有的 1750 億參數 [1],到近年來如 LLaMA 3.1 的 4050 億參數 [2],以及 DeepSeek-V3 的 6710 億參數 [3],這些模型在規模和能力上持續擴展。盡管它們在多種任務中表現出色,LLMs 仍然面臨“對齊”(alignment)問題,即確保模型輸出始終反映人類的價值觀、偏好與意圖,仍是一項重大挑戰。LLMs 往往會產生“幻覺”(hallucination)[4],存在生成有害內容的風險 [5]–[7],并且在執行復雜指令方面常常表現不佳 [8]。

強化學習(Reinforcement Learning, RL)是一種智能體通過與環境交互中的試錯過程進行學習的范式,近年來成為應對對齊挑戰的強有力框架。與傳統依賴標注樣本的監督學習方法不同,強化學習能夠引入不可微分的反饋信號,并優化多目標的復雜任務。在 LLM 中引入強化學習,標志著人工智能對齊研究的一項重大進展,使模型能夠學習人類偏好、提升推理能力,并更好地遵循倫理規范。本文旨在全面審視應用于 LLM 的強化學習技術,聚焦于模型在“對齊人類價值”與“增強推理能力”兩方面的提升。

將強化學習應用于 LLM 面臨一系列區別于傳統 RL 場景的獨特挑戰。在 LLM 中,狀態空間通常由輸入提示或對話歷史構成,而動作空間則涵蓋模型完整的詞匯表,形成了一個極其龐大且離散的動作集合。這種高維動作空間對算法設計提出了更高要求,與機器人控制或游戲等傳統 RL 應用場景有顯著不同。此外,LLM 中的獎勵信號通常來自于人類對文本質量、有用性、無害性和誠實性等復雜維度的主觀判斷,這些屬性本質上難以量化。

基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[9] 已成為對齊 LLM 與人類偏好的事實標準。該方法通常包含三個階段:首先基于高質量示范數據進行有監督微調,其次利用人類偏好數據訓練獎勵模型,最后使用如近端策略優化(PPO)[10]等算法對策略進行優化。RLHF 在提升指令遵循能力、減少有害輸出方面取得了顯著成效,OpenAI 的 InstructGPT 即為代表性成果 [9]。

然而,人類標注的可擴展性問題推動了替代方案的發展。基于 AI 反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系統的評估結果來替代或增強人類反饋,在維持相近性能的同時大幅降低了標注成本。憲法 AI(Constitutional AI)[12] 是 RLAIF 的一種特化形式,模型根據預定義的原則對自身輸出進行批判與修正,尤其適用于無害性對齊。近期的研究進一步致力于簡化 RLHF 流程,例如偏好直接優化(Direct Preference Optimization, DPO)[13],跳過顯式獎勵建模,直接通過偏好對進行策略優化,在計算效率和訓練穩定性方面具有優勢。實證研究顯示,DPO 在情感控制與摘要等任務中的表現可與基于 PPO 的 RLHF 相媲美甚至超越,同時大大降低了系統復雜度。

除了人類偏好對齊之外,RL 技術也越來越多地用于提升 LLM 的推理能力。基于結果的強化學習(Outcome-Based Reinforcement Learning)[14] 關注最終答案的正確性,即使中間推理步驟未被監督也可進行優化。更先進的方法如帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能為推理過程中的每一步提供反饋,顯著提升模型在數學與邏輯推理任務上的表現。例如,RLVR 將 GPT-3.5 在數學推理基準 GSM8K 上的準確率從 56.8% 提升至 72.5%,且僅需少量訓練樣本。盡管已有顯著進展,將 RL 應用于 LLM 仍存在諸多挑戰,例如獎勵函數被模型“鉆空子”的獎勵欺騙現象(reward hacking)[16], [17];以及 RL 訓練所需的龐大計算成本,尤其是在參數量級為數十億的模型上,給實際部署帶來困難。此外,不論是來自人類還是 AI 系統,確保反饋的質量與代表性 [18], [19] 仍是一個復雜難解的問題。

本文在該領域的貢獻包括以下幾點:第一,我們提供了一份關于 RL 技術在 LLM 中應用的全面技術綜述,涵蓋了如 RLHF 與 RLAIF 等基礎方法,以及 DPO 和群體相對策略優化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我們系統分析了 RL 技術在多個領域的應用,如代碼生成與工具增強推理,展現其廣泛適應性與有效性。第三,我們提出了一個基于獎勵建模、反饋機制與優化策略的對比分類體系,為理解 RL 在 LLM 中的技術生態提供結構化框架。最后,我們還討論了若干新興研究方向,包括混合 RL 算法、驗證器引導訓練,以及多目標對齊框架。

本文其余部分安排如下:第二節介紹 LLM 與強化學習的基礎概念;第三節詳細講解為 LLM 改編的具體 RL 算法;第四節探討用于對齊與推理增強的 RL 技術;第五節展示 RL 在各類應用場景中的實踐;第六節提供一套比較分析與評估;第七節討論現有挑戰與局限;第八節展望未來研究方向;第九節總結全文。我們希望通過本綜述為研究者與實踐者提供一份推動 RL 驅動 LLM 發展的技術路線圖,在提升模型能力的同時兼顧安全性與可擴展性。

付費5元查看完整內容

摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。

隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型

1 引言

深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?

為此,本文對 VLM 的泛化能力展開系統文獻綜述。


研究動機與貢獻

現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。

我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。


同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。


綜述貢獻總結如下:

系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。


文章結構如下:

第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。

付費5元查看完整內容

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要——本綜述對機器學習中多模態對齊與融合的最新進展進行了全面回顧,尤其是在文本、圖像、音頻和視頻等數據類型日益多樣化的背景下。多模態集成通過利用不同模態之間的互補信息,提高了模型的準確性并擴展了其應用范圍,同時在數據稀缺的情況下也促進了知識遷移。我們系統地對現有的對齊與融合技術進行了分類和分析,并基于對200多篇相關論文的廣泛回顧,提取了有價值的見解。此外,本綜述還討論了多模態數據集成中的挑戰,包括對齊問題、噪聲魯棒性以及特征表示的差異,并著重于社交媒體分析、醫學影像和情感識別等領域的應用。文中提供的見解旨在指導未來的研究,優化多模態學習系統,以提高其在各類應用中的可擴展性、魯棒性和泛化能力。

關鍵詞——多模態對齊、 多模態融合、多模態性、機器學習、綜述

1 引言

技術的快速發展導致了多模態數據生成的指數增長,包括圖像、文本、音頻和視頻[1]。這種數據的豐富性為計算機視覺、自然語言處理(NLP)等多個領域的研究者和從業者帶來了機遇與挑戰。通過整合來自不同模態的信息,可以顯著提升機器學習模型的性能,增強其理解復雜現實場景的能力[2]。模態的結合通常有兩個主要目標:(i)不同的數據模態可以互補,從而提高模型在特定任務上的精度和效果[3],[4],[5];(ii)某些模態的數據可能較為稀缺或收集起來具有挑戰性,因此,基于大規模語言模型(LLM)的訓練可以通過知識遷移在數據稀缺的任務中實現滿意的性能[5],[6]。

例如,在社交媒體分析中,將文本內容與相關的圖像或視頻結合,可以更全面地理解用戶情感和行為[1],[7]。除了社交網絡,多模態方法在醫療圖像自動注釋、視頻摘要和情感識別等應用中也取得了有希望的成果[8],[9],[10],[11],[12]。盡管取得了這些進展,但在有效整合和利用多模態數據方面仍然存在兩個主要的技術挑戰:對齊和融合。對齊側重于建立不同模態之間的語義關系,確保每個模態的表示在一個共同的空間內對齊;而融合則是將多模態信息整合為統一的預測,利用每個模態的優勢來提升整體模型的性能。 第一個組件是多模態對齊,涉及建立不同模態之間的關系[1],[49],[50],[51]。例如,將視頻中的動作步驟與相應的文本描述進行對齊,由于輸入輸出分布的差異以及模態間可能存在的信息沖突,這一任務需要復雜的方法[52]。多模態對齊可大致分為顯式對齊和隱式對齊[1],[53]。顯式對齊通過相似度矩陣直接度量模態間的關系,而隱式對齊則在翻譯或預測等任務中作為一個中間步驟。

第二個組件是多模態融合,涉及將不同模態的信息結合起來,進行統一的預測,同時解決模態之間噪聲變異性和可靠性差異等挑戰[1],[54],[55]。傳統上,融合方法根據其在數據處理流程中的階段進行分類[53],[56]。例如,早期融合在特征提取階段將多個模態的數據整合在一起,盡早捕捉模態間的交互[56]。本綜述聚焦于當前融合技術的核心特征,以更有效地代表現代方法,并指導未來的發展。我們將融合方法分析為基于核、圖形、編碼-解碼器和注意力機制的融合框架。

圖1展示了三種典型的多模態模型結構。在(a)中,由于模態之間的交互不足,簡單的操作未能實現深入有效的融合。在(b)中,盡管設計了專門的融合網絡,但對齊問題仍然顯著。具體而言,由圖像和文本分別通過各自模態特定模型提取的特征可能在語義上沒有對齊,直接將這些特征傳遞給融合模塊可能無法產生最佳結果。在(c)中,模型使用共享編碼器或集成的編碼-解碼過程同時處理多模態輸入,這使得圖像和文本數據能夠轉化為共同的表示空間,從而更自然地結合。此類設計通常優先考慮模型的簡潔性和效率,特別是在模態間關系已被充分理解并有效建模的情況下。

本研究旨在通過對200多篇相關論文的回顧,提供現有方法、最新進展和潛在未來方向的全面概述,為該領域做出貢獻。本綜述幫助研究人員理解多模態對齊和融合的基本概念、關鍵方法及當前進展,重點討論視覺和語言模態,同時擴展到視頻和音頻等其他類型。

本綜述的組織結構如下:第二節介紹多模態學習的基礎概念,包括大規模語言模型(LLM)和視覺模型的最新進展,為對融合和對齊的討論奠定基礎;第三節探討為什么要進行對齊與融合的綜述研究;第四節審視對齊方法,重點討論顯式和隱式技術如何建立不同模態之間的關系;第五節探討融合策略,將其分為早期、晚期和混合融合,并介紹基于核、圖形和注意力機制的先進融合框架;第六節討論多模態融合和對齊中的關鍵挑戰,包括特征對齊、計算效率、數據質量和可擴展性;最后,第七節概述未來研究的潛在方向,并討論實踐意義,旨在指導該領域的進一步創新。

2 為什么需要對齊與融合

對齊與融合是多模態學習中的兩個基本概念,盡管它們各自獨立,但相互之間緊密相關,且常常相輔相成[1],[50]。對齊涉及確保不同模態的數據正確匹配和同步,從而使它們傳達的信息具有一致性,并適合進行融合。另一方面,融合是指將來自不同模態的信息結合起來,創建一個統一的表示,全面捕捉數據的本質[1],[54],[55]。此外,許多最新的方法發現,在沒有對齊過程的情況下進行融合是非常具有挑戰性的[49]。

2.1 提升全面性與魯棒性

對齊確保來自不同源的數據在時間、空間或上下文上同步,從而實現有意義的組合。如果沒有適當的對齊,融合過程可能導致誤解或關鍵信息的丟失[53]。 一旦對齊完成,融合利用對齊后的數據生成更為魯棒和全面的表示[49]。通過整合多個視角,融合能夠彌補單一模態的弱點,從而提高準確性和可靠性。 2.2 解決數據稀缺與不平衡問題

在許多現實應用中,某些模態的數據可能稀缺或難以獲取。對齊有助于即使在數據有限的情況下,也能同步可用的數據,確保其能夠有效利用[106],[107]。 隨后,融合使得模態之間能夠進行知識遷移,使模型能夠利用一種模態的優勢來彌補另一種模態的不足。這在某一模態擁有豐富數據而另一模態數據稀缺的場景中尤為有用。 2.3 改進模型的泛化能力和適應性

對齊確保了不同模態之間關系的準確理解與建模,這對于模型在不同上下文和應用中進行泛化至關重要[1],[53]。 融合通過創建一個統一的表示,能夠更有效地捕捉數據的細微差異,從而提高模型的適應性。這個統一的表示可以更容易地適應新的任務或環境,增強模型的整體靈活性[1],[53]。 2.4 支撐高級應用

對齊與融合共同推動了諸如跨模態檢索等高級應用的發展,在這些應用中,一種模態(例如,文本)中的信息被用于在另一種模態(例如,圖像)中搜索相關信息[108]。這些過程對于諸如情感識別等任務也至關重要,在這些任務中,將視覺和聽覺線索結合起來,能夠比單獨使用任何一種模態更準確地理解人類情感[109]。 3 多模態對齊

多模態對齊涉及建立兩種或更多不同模態之間的語義關系。它在多個領域得到了廣泛研究,包括網絡對齊[110]、圖像融合[50]和多模態學習中的特征對齊[111]。 為了將不同模態對齊到相同的語義表示中,需要衡量這些模態之間的相似性,同時考慮潛在的長程依賴關系和歧義。簡而言之,目標是構建一個映射,將一個模態的表示與另一個模態中共享相同語義的表示對齊。根據[1],對齊可以分為兩種類型:顯式對齊和隱式對齊。顯式對齊通常通過使用相似度矩陣直接度量相似性,而隱式對齊則通常是在翻譯或預測等任務中作為一個中間步驟進行處理。 3.1 顯式對齊

顯式對齊有著早期的基礎,通常依賴于諸如動態時間規整(DTW)[112],[113]和典型相關分析(CCA)[114]等統計方法。

DTW通過找到一個最優匹配來測量兩個序列之間的相似性,該過程涉及插入幀來對齊序列[112]。然而,原始的DTW公式需要預定義的相似性度量,因此它與典型相關分析(CCA)結合,后者由Harold Hotelling于1936年提出[114],通過線性變換將兩個不同的空間投影到一個共同的空間中。CCA的目標是通過優化投影來最大化兩個空間之間的相關性。CCA促進了對齊(通過DTW)和模態間映射的聯合學習,并且可以以無監督的方式進行,正如在視頻-文本和視頻-音頻對齊等多模態應用中所見。圖2展示了CCA方法的可視化。具體而言,CCA的目標函數可以表示為: max?ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: ? X 和 Y 是來自兩個不同空間的數據矩陣; ? u 和 v 是線性變換向量(或典型向量),它們將 X 和 Y 投影到共同空間中; ? ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之間的相關系數; ? 目標是找到 u 和 v,使得投影后的數據之間的相關性ρ最大化。 然而,CCA只能捕捉兩個模態之間的線性關系,限制了它在涉及非線性關系的復雜場景中的應用。為了解決這一限制,引入了核典型相關分析(KCCA),它通過核方法將原始數據映射到更高維的特征空間,從而處理非線性依賴[115],[116]。像多標簽KCCA和深度典型相關分析(DCCA)等擴展方法進一步改進了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量機(SVM)實現多模態檢索[120]。另外,像圖像對齊中基于特征模態的線性映射方法也被開發出來,旨在通過復雜的空間變換來處理多模態對齊問題[121]。 3.2 隱式對齊

隱式對齊是指在執行主要任務時作為中間步驟使用的方法,通常是以潛在方式進行。與直接對齊不同模態的數據不同,這些方法通過學習共享的潛在空間來改善主要任務的性能。隱式對齊技術可以大致分為兩類:基于圖模型的方法和基于神經網絡的方法。 3.2.1 基于圖模型的方法

圖結構的整合使得更復雜的模態間關系得以更好地建模,從而使多模態數據的處理更加準確和高效。這些方法常用于將圖像與文本或圖像與信號進行對齊。例如,某些模型通過對物體的圖表示進行對齊,實現了少樣本上下文模仿學習,從而使機器人在沒有事先訓練的情況下能夠執行新的任務[122]。基于顯式進化模型的GraphAlignment算法在識別同源頂點和解決副本問題方面表現出強大的性能,優于其他方法[123]。圖3展示了如何在對齊中使用圖結構。

這些任務中的一個主要挑戰是對齊不同模態之間的隱式信息,其中多模態信號并不總是直接對應。基于圖的模型通過將模態間的復雜關系表示為圖結構(圖中節點表示數據元素,如詞語、物體或幀,邊表示它們之間的關系,如語義、空間或時間關系)在解決這個問題上證明了其有效性。 近期的研究探索了使用圖結構進行多模態對齊的多個方面。例如,Tang等人[124]提出了一種基于圖的多模態順序嵌入方法,以提高手語翻譯。通過將多模態數據嵌入到統一的圖結構中,他們的模型更好地捕捉了復雜的關系。 另一個應用是在情感分析中,隱式多模態對齊起著至關重要的作用。Yang等人[125]提出了一種基于圖的多模態對齊模型(MGAM),該模型聯合建模了顯式方面(如物體、情感)和隱式多模態交互(如圖像-文本關系)。 在具身人工智能領域,Song等人[126]探討了如何構建基于場景的知識圖,以建模復雜多模態任務中的隱式關系。他們的工作將文本和視覺信息整合到一個知識圖中,并通過基于圖的推理進行多模態語義的對齊。對齊隱式線索(如場景中物體之間的空間和時間關系)對于提高具身人工智能系統中的決策和交互至關重要。 在命名實體識別(NER)任務中,Zhang等人[127]提出了一種基于圖的逐標記方法,該方法結合了與文本相關的圖像中的隱式視覺信息。該方法利用視覺域中的空間關系來改進命名實體的識別,這在使用孤立的文本數據時通常是模糊的。 在圖像描述生成和視覺問答(VQA)等任務中,場景圖也起著至關重要的作用。Xiong等人[128]提出了一種基于場景圖的模型,用于跨模態的語義對齊。通過將物體及其關系表示為圖中的節點和邊,該模型提高了視覺和文本模態的對齊效果。 總之,基于圖的方法為表示多樣化數據類型提供了強大的框架,并且在多模態對齊中具有巨大的潛力。然而,這種靈活性也帶來了重大的挑戰。 圖結構的稀疏性和動態性增加了優化的復雜性。與矩陣或向量不同,圖具有不規則的非結構化連接,導致計算復雜度高且內存開銷大,即使在先進的硬件平臺上也存在這些問題。此外,圖神經網絡(GNN)對超參數特別敏感。網絡架構、圖采樣和損失函數優化等選擇直接影響性能,這增加了GNN設計和實際部署的難度。 3.2.2 基于神經網絡的方法

近年來,基于神經網絡的方法已成為解決隱式對齊問題的主要方法,特別是在翻譯等任務中,將對齊作為潛在的中間步驟通常能獲得更好的結果。常見的神經網絡方法包括編碼器-解碼器模型和跨模態檢索。 當沒有隱式對齊時,翻譯過程會給編碼器帶來更大的負擔,需要它將整個圖像、句子或視頻總結為一個向量表示。 一個常見的解決方案是使用注意力機制,使解碼器能夠專注于源實例的特定子組件。這與傳統的編碼器-解碼器模型不同,后者將所有源子組件一起編碼。注意力模塊引導解碼器更多地關注被翻譯的源實例的特定子組件——例如圖像的區域、句子中的詞語、音頻的片段、視頻中的幀或指令的部分。例如,在圖像描述生成中,注意力機制允許解碼器(通常是遞歸神經網絡)在生成每個詞時專注于圖像的特定部分,而不是一次性編碼整個圖像[129]。 以前的工作通過設計特定模態的嵌入器和預測器,接口連接輸入和輸出的預訓練模型來實現這一目標。 生成對抗網絡(GAN)由于其能夠學習高維數據空間之間的復雜映射,因此已成功應用于多模態數據的合成[130],[131],[132],[133],[134]。例如,在MRI模態中,使用一個統一框架,其中單個生成器學習跨模態的映射,可以提高不同數據類型之間的對齊精度[130]。 另一種深度生成方法,C-Flow,利用標準化流進行多模態對齊,應用于3D點云重建等任務,從而對生成過程進行更細粒度的控制[135]。自編碼器及其變體,如變分自編碼器(VAE),也被用來學習潛在表示,捕捉跨模態的基礎語義結構。這種方法在組合表示學習中證明了其有效性,VAE幫助通過將圖像和文本模態映射到共享的潛在空間來對齊它們[136]。類似地,使用VAE的跨模態量化進行圖像-文本配對生成,展示了神經網絡如何通過學習量化的聯合表示對齊文本和視覺數據[137]。 此外,半監督流形對齊方法(如擴散傳輸對齊DTA)利用少量先驗知識對齊具有不同但相關結構的多模態數據域[138]。這種方法在僅能進行部分數據對齊的情況下尤為有效,因為它依賴于域之間的幾何相似性。 最近,Att-Sinkhorn方法結合了Sinkhorn度量和注意力機制,在通過解決不同模態的概率分布之間的最優傳輸問題來改進多模態特征對齊方面顯示了更高的準確性[139]。 總之,顯式和隱式對齊技術在多模態機器學習領域都至關重要。盡管顯式方法提供了一個明確的框架,用于度量相似性和建立對應關系,但隱式方法通常更靈活,并能適應更多的場景,特別是那些涉及復雜或模糊數據關系的任務。未來的研究可能會繼續探索結合兩種對齊策略優點的混合方法,以解決多模態數據中所面臨的各種挑戰[110],[111],[139]。

4 多模態融合

多模態數據涉及多種信息類型的整合,如圖像、文本和音頻,這些信息可以通過機器學習模型處理,從而提高多種任務的性能[1],[53],[140],[141],[142],[143]。通過結合不同類型的信息,多模態融合利用了每種模態的優勢,同時彌補了依賴單一數據類型時可能出現的弱點或空白[1],[53],[144]。例如,每種模態在最終預測中可能會有不同的貢獻,某些模態可能在某一時刻比其他模態更具信息量或噪聲更小。 融合方法在有效結合不同模態的信息時至關重要。早期的方法通常將圖像和文本分開處理,兩個數據類型之間僅有基本的整合。像 CLIP [13] 這樣的架構采用了雙編碼器框架,其中視覺和文本信息分別編碼,它們的交互通過簡單的操作來處理,通常涉及點積計算[145],[146]。因此,這兩種模態的融合在整體模型架構中所占的比重較小,主要由編碼器本身主導。盡管這種有限的集成策略在基于檢索的任務[147],[148]中有效,但對于更復雜的多模態挑戰(需要深度理解和模態之間的交互)則不夠充分[149],[150]。 如果通過獨立訓練每個模態的專門編碼器,然后進行表面化的集成就能實現強大的性能,那么深度多模態學習的需求就值得懷疑。然而,經驗數據表明,對于需要細致理解的任務,如視覺問答和視覺推理,必須對兩種模態進行更復雜、更深度的融合,才能充分捕捉視覺感知和語言處理之間的相互關系[152]。 傳統上,融合方法根據融合發生的數據處理管道階段進行分類。早期融合在特征級別進行數據整合,晚期融合則在決策級別進行整合,混合融合結合了兩者的特點[1],[53]。早期融合涉及在特征提取階段將來自不同模態的數據合并[56],從而讓模態之間的交互得以早期捕捉。如趙等人[93]所述,集成發生在特征級別。相比之下,晚期融合則在決策階段將各個模態模型的輸出結合起來,當預測時缺少一個或多個模態時,這種方法特別有優勢,正如 Morvant 等人[153]所展示的。混合融合則將早期融合和晚期融合的各個方面結合在一起,趙等人[93]研究了其在深度學習中的實現。 隨著技術和融合方法的演進,區分早期、晚期和混合融合變得越來越復雜。先進的方法通常超越了傳統的基于時序的分類,在特征級別和決策級別同時操作,這挑戰了僵化的分類。 為了解決這種復雜性,我們提出了一種基于當前融合技術核心特征的新分類框架,提供了對現代方法的更準確表征,并為未來的進展提供指導。特別是,盡管許多基于注意力的方法可以適配編碼器-解碼器或僅編碼器框架,但我們將它們單獨分類,因為它們在最近的顯著發展和獨特創新方面,傳統的分類方法無法充分捕捉。

4.1 編碼器-解碼器融合

編碼器-解碼器融合架構涉及一個編碼器,該編碼器從輸入數據中提取關鍵特征并將其壓縮成緊湊的形式,而解碼器則基于這種壓縮的表示重建輸出[26]。在該架構中,系統主要由兩個主要組件組成:編碼器和解碼器。編碼器通常作為一個高級特征提取器,將輸入數據轉換為一個潛在空間,其中包含重要特征[26],[37]。換句話說,編碼過程在減少冗余的同時保留了重要的語義信息。一旦編碼步驟完成,解碼器就會基于潛在表示生成相應的“重建”輸出[26],[31]。在像語義分割這樣的任務中,解碼器的輸出通常是一個語義標簽圖,它與輸入大小相匹配。 編碼器-解碼器融合通常有三種形式:(1)數據級融合,將來自不同模態的原始數據拼接在一起,并送入共享的編碼器;(2)特征級融合,分別從每個模態提取特征,可能包括中間層,然后將它們組合后再輸入到解碼器;(3)模型級融合,在處理后將各個模態特定模型的輸出進行拼接。圖4展示了這三種類型的編碼器-解碼器融合結構。特征級融合通常最為有效,因為它考慮了不同模態之間的關系,從而實現了更深層次的集成,而非表面上的組合。

4.1.1 數據級融合

在這種方法中,來自每個模態的數據或每個模態獨特預處理步驟后的處理數據在輸入級別進行合并[27]。在這種集成之后,來自所有模態的統一輸入將通過一個編碼器來提取更高層次的特征。換句話說,來自不同模態的數據在輸入階段被合并,并通過單一編碼器提取綜合特征。 最近的研究聚焦于數據級融合,以提高自動駕駛中物體檢測和感知的性能。一些研究探索了在神經網絡架構的早期階段融合相機和LiDAR數據,展示了在稀疏點云中,特別是對騎行者的三維物體檢測精度有所提升[35]。一個基于Yolo框架的聯合處理相機和LiDAR原始數據的系統比傳統的決策級融合提高了5%的車輛檢測精度[27]。此外,還開發了一個面向低級傳感器融合的開放硬件和軟件平臺,特別是利用原始雷達數據,推動了這一領域的研究[36]。這些研究突出了原始數據級融合在利用傳感器間協同作用并提高整體系統性能方面的潛力。

4.1.2 特征級融合

這種融合技術的核心思想是將來自多個抽象層次的數據進行組合,從而利用從深度網絡不同層次提取的特征,最終增強模型的性能。許多應用都實施了這一融合策略[32],[163]。 特征級融合已成為多種計算機視覺任務中的一種強大方法。它涉及在不同的抽象層次上融合特征以提升性能。例如,在性別分類中,融合局部補丁的兩層層次結構證明是有效的[163]。在顯著性物體檢測中,融合來自不同VGG層次的特征的網絡能夠保留語義信息和邊緣信息[30]。在多模態情感計算中,一種“分而治之,合而為一”的策略探索了局部和全局交互,達到了最先進的性能[32]。對于自適應視覺跟蹤,開發了一種層次模型融合框架,通過層次更新對象模型,引導參數空間的搜索并減少計算復雜性[33]。 這些方法展示了層次特征融合在多個領域中的多樣性,展現了它在捕捉細粒度和高級信息方面的能力,從而在復雜的視覺任務中實現更好的性能。

4.1.3 模型級融合

模型級融合是一種通過集成多個模型的輸出提高準確性的技術。例如,在使用地面穿透雷達(GPR)進行地雷檢測時,Missaoui等人[34]證明了通過多流連續隱馬爾可夫模型(HMM)融合邊緣直方圖描述符和Gabor小波的方式,優于單一特征和等權重組合。 在多模態物體檢測中,Guo和Zhang[28]應用了平均、加權、級聯和堆疊等融合方法,將圖像、語音和視頻的模型結果結合起來,從而提高了在復雜環境中的性能。對于面部動作單元(AU)檢測,Jaiswal等人[29]發現,使用人工神經網絡(ANN)的模型級融合比簡單的特征級方法更有效。此外,對于涉及多保真度計算機模型的物理系統,Allaire和Willcox[25]開發了一種融合方法,利用模型不適配信息和合成數據,得到了比單獨模型更好的估計結果。在質量控制和預測性維護中,一種新穎的模型級融合方法優于傳統方法,減少了預測方差30%,并提高了45%的準確性[38]。這些研究證明了模型級融合在多個領域中的有效性。 本節回顧了基于編碼器-解碼器架構的融合模型。編碼器-解碼器融合架構在多模態任務中被廣泛應用,展示了不同融合技術的多樣性,包括數據級融合、特征級融合和模型級融合。這些方法在提高多模態學習模型的準確性和魯棒性方面起到了重要作用,為未來的研究和應用提供了有益的參考。

4.2 基于注意力機制的融合

基于注意力機制的融合方法近年來得到了廣泛應用,特別是在多模態學習任務中。注意力機制的核心思想是根據輸入數據的重要性動態調整其對模型的影響,而不是對所有輸入特征進行等權處理[154]。這種方式通過引導模型關注最相關的模態和特征,從而提高了模型的表現和魯棒性。 在多模態學習中,基于注意力的融合可以通過多種方式實現。最常見的方法包括加權融合、交互式融合以及跨模態注意力機制的應用。通過引入自注意力機制(Self-Attention)和跨模態注意力機制,模型能夠自動學習不同模態之間的相互關系,并在處理復雜任務時做出適當的決策[155]。 例如,在視覺問答(VQA)任務中,通過引入跨模態注意力機制,模型可以根據問題的內容自動選擇與之相關的圖像區域,從而提高了任務的精確度和準確性[156]。類似的,在多模態情感分析中,基于注意力的機制能夠幫助模型理解不同模態(如語音、文本和面部表情)之間的相互作用,從而對情感狀態進行更為精準的預測[157]。 此外,近年來,許多研究還將多頭注意力(Multi-Head Attention)擴展到多模態融合中,允許模型并行處理多個模態的不同子空間,從而增強了多模態交互的表達能力[158]。這種方法尤其適用于需要多方面信息整合的復雜任務,如視頻內容分析和跨模態檢索等。 總之,基于注意力機制的融合方法通過動態調整不同模態的貢獻,能夠有效提升模型在多模態學習中的表現,特別是在處理多層次、多類型信息時,能夠顯著改善性能。

4.3 圖神經網絡(GNN)在多模態融合中的應用

圖神經網絡(GNN)在處理具有復雜關系和結構的數據時,表現出極大的潛力,因此被廣泛應用于多模態融合任務中。GNN通過圖的節點和邊之間的傳播機制,能夠捕捉到數據的結構信息,在圖像、文本和其他模態數據之間建立有效的聯系。 在多模態融合的背景下,GNN可以將不同模態的特征表示作為圖的節點,并通過圖卷積操作(Graph Convolution)來學習模態間的關系。例如,在圖像和文本融合的任務中,可以將圖像中的不同區域和文本中的不同詞匯視為圖的節點,節點之間通過邊連接,表示它們之間的關系。通過圖卷積操作,模型能夠學習到圖像和文本之間的深層次關聯,從而在視覺問答、圖像描述等任務中取得更好的效果[159]。 GNN還可以應用于多模態信息的關聯學習和跨模態信息檢索等任務中。在這些任務中,GNN能夠通過圖結構有效地捕捉模態間的復雜交互,幫助模型從不同模態中提取有用的信息并進行融合。這種方法尤其適合處理帶有結構關系的多模態數據,如社交媒體上的多模態情感分析和醫學圖像分析中的跨模態信息融合。 隨著圖神經網絡在多模態學習中的不斷發展,越來越多的研究表明,圖結構能夠為不同模態間的交互提供一種自然且高效的表示方式,為多模態融合方法提供了新的思路。

4.4 自監督學習與多模態融合

自監督學習是一種無監督學習方法,它通過自我生成標簽來訓練模型,尤其在沒有大量標注數據的情況下表現出了強大的潛力[160]。這種方法通過構造輔助任務,使模型學習數據的深層次結構,并為多模態融合提供了新的思路。

在多模態學習中,自監督學習能夠通過從單一模態的輸入中生成任務相關的信息,并促進模態間的對齊和互補。通過構建自監督任務(例如圖像-文本對比學習),模型可以在無監督的情況下學習到不同模態之間的語義一致性,進而提高多模態融合的效果[161]。

例如,在圖像-文本對比學習中,模型可以通過構造圖像與文本之間的相關性任務,來學習它們之間的聯合表示。這樣,盡管模型不需要大量標注數據,它仍然能夠學習到跨模態的有效表示,并在多模態任務中進行更準確的預測。這種自監督學習方法在減少對標注數據依賴的同時,能夠顯著提高模型的泛化能力和跨模態表現。

4.5 持續學習與多模態融合

持續學習(Continual Learning)是指模型在不斷接收新數據時,能夠保持已有知識的同時,學習新知識,而不會遭遇災難性遺忘[162]。在多模態學習中,持續學習能夠有效處理隨時間變化的多模態數據,特別是當模型需要根據實時輸入調整其學習策略時。

在多模態融合任務中,持續學習能夠使模型隨著新模態或新領域的到來,靈活地調整其參數和融合策略,從而適應新的數據分布[163]。例如,自動駕駛系統中的傳感器數據(如雷達、相機、激光雷達等)可能隨著環境變化而發生變化,持續學習可以幫助模型保持對不同傳感器數據的有效融合,同時應對新的駕駛環境。 持續學習還能夠促進多模態模型的可擴展性和自適應性,使其能夠在新的多模態數據出現時,進行快速有效的調整,避免災難性遺忘的問題。這為多模態學習提供了更為強大的能力,特別是在需要處理動態變化的復雜數據環境時。

付費5元查看完整內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

摘要——目前,大多數工業物聯網(IIoT)應用仍然依賴于基于卷積神經網絡(CNN)的神經網絡。盡管基于Transformer的大模型(LMs),包括語言、視覺和多模態模型,已經在AI生成內容(AIGC)中展示了令人印象深刻的能力,但它們在工業領域(如檢測、規劃和控制)中的應用仍然相對有限。在工業環境中部署預訓練的大模型往往面臨穩定性與可塑性之間的挑戰,這主要是由于任務的復雜性、數據的多樣性以及用戶需求的動態性。為了應對這些挑戰,預訓練與微調策略結合持續學習已被證明是一種有效的解決方案,使模型能夠適應動態需求,同時不斷優化其推理和決策能力。本文綜述了大模型在工業物聯網增強的通用工業智能(GII)中的集成,重點關注兩個關鍵領域:大模型賦能GII和GII環境下的大模型。前者側重于利用大模型為工業應用中的挑戰提供優化解決方案,而后者則研究在涉及工業設備、邊緣計算和云計算的協同場景中,持續優化大模型的學習和推理能力。本文為GII的未來發展提供了洞見,旨在建立一個全面的理論框架和研究方向,從而推動GII向更加通用和適應性強的未來發展。 關鍵詞——通用工業智能、大語言模型、持續學習、工業物聯網、邊緣計算。

工業5.0將網絡-物理-社會元素集成到制造業中,強調數字與物理系統的交互以及人機協作,通過互聯網有效地連接設備、物體和人[1]。隨著物聯網(IIoT)的快速發展[2]-[4]、通信技術[5], [6]、AI生成內容(AIGC)[7]、機器人和數字孿生技術[8]-[10],現代工業系統變得越來越復雜。這些系統不僅生成高頻的單模態數據,還包括文本、圖像、視頻、代碼和音頻等多模態數據類型。工業大數據可以用于創建數字化制造工作流程和工業流程,極大地推動了工業5.0和網絡-物理-社會系統中生產力、效率和效能的提升。 如圖1所示,數據集和模型構成了GII生態系統的基礎要素,推動了更高層次算法和應用的快速發展。這些應用包括智能控制系統、預測性維護[11]、故障診斷[12], [13]和異常檢測[14],這些都高度依賴于對IIoT數據的提取和分析。GII的成功特別依賴于其從這些IIoT數據集中高效學習和提取有價值特征的能力。基于Transformer的大模型(LMs),例如大語言模型(LLMs)[16]–[18]、視覺模型[19], [20]、時間序列模型[21]以及多模態模型[22], [23],由于其獨特優勢,受到廣泛關注。通過在大規模數據集上進行預訓練,這些擁有數十億到數萬億參數的模型積累了廣泛的知識,極大地推動了數據處理的自動化和多樣化,同時減少了對人類專業知識的依賴。

在工業領域,大模型的精度和可擴展性使其在提高工業流程的準確性方面非常有效。然而,在工業環境中部署預訓練大模型時,需要根據具體任務架構、動態數據分布和用戶偏好進行謹慎的適配。盡管大模型在多任務泛化、小樣本學習和推理方面具有優勢,但在這些環境中平衡穩定性和適應性仍然是一個顯著挑戰。受到大模型在自然語言處理(NLP)中成功的啟發,工業界越來越多地探索其在GII中的潛力。一種方法是從頭構建行業特定的基礎模型[24],但特定領域數據規模的限制通常阻礙了涌現能力的發展。另一種方法是通過大數據集上的預訓練,然后進行特定任務的微調,這已顯示出在構建穩健的工業模型方面的巨大潛力,顯著提高了各類任務的性能。這種方法有效地應對了特定領域數據匱乏的挑戰,同時加速了工業應用中先進能力的發展。

為工業任務調整大模型是一個重要的研究方向[25]。這些模型在跨任務泛化、零樣本/小樣本學習和推理能力方面的優勢,為解決知識遷移、數據稀缺性和解釋性問題提供了新的途徑。 ****持續大模型(CLMs)****在維持和發展這些工業模型的能力方面發揮了關鍵作用。CLMs在大規模數據集上進行預訓練,并由Transformer架構驅動,設計用于持續學習和適應,確保工業大模型在滿足GII不斷變化的需求時仍然保持相關性和有效性。

A. 本綜述的目標

本文旨在建立一個全面的視角,并對IIoT增強的GII進行深入分析。它提出了將GII分為兩個主要類別的概念:

  • 通用工業智能的大模型(LMs for GII):該方向重點利用大模型的高級數據處理和分析能力來解決工業應用中固有的優化問題。具體來說,LMs通過其處理實時多模態IIoT數據、執行復雜特征提取并確保精確的模式識別和結果驗證的能力,提升了IIoT驅動的工業系統的智能化和運營效率,最終提高了不同工業環境中的測量精度和系統性能。
  • 通用工業智能上的大模型(LMs on GII):該視角探討了工業應用如何通過持續模型操作,在協同的IIoT設備-邊緣-云環境中擴展和優化大模型的能力。通過采用持續學習(CL)和在線學習策略,模型可以適應新數據和環境變化,而無需昂貴的再訓練。這種方法節省了計算資源,最小化了延遲,并高效處理了數據分布變化和性能退化,確保了動態工業場景中的穩健模型性能。

本文通過一個示意圖(圖2)進一步明確了這些類別的引入,幫助闡明了兩種方法之間的結構性差異和操作機制。

B. 本綜述的獨特特征

近年來,持續學習(CL)作為一個研究課題獲得了顯著關注,許多研究探討了其在設備健康管理[26]、機器人[27]和流數據[28]等領域的應用。在大模型的背景下,由于這些模型的規模巨大,頻繁的再訓練成本高昂,因此CL已被認為是至關重要的[29]。盡管CL的文獻廣泛,但我們的綜述獨特地關注了CL在IIoT增強的工業系統中的大模型的持續適應性——這是現有文獻中未被充分覆蓋的領域。本綜述首次為大模型在四個不同的IIoT工業場景中應用的CL方法提供了全面而系統的回顧。

如表I所示,本文通過以下幾個關鍵貢獻來區分自身

  • 新穎的分類體系:我們引入了一個新的GII理論框架。通過將大模型的應用分為兩個維度——“LMs for GII”和“LMs on GII”,本文不僅探討了如何利用大模型優化工業應用,還研究了這些應用如何反過來優化模型本身。這種雙向交互視角顯著豐富了現有文獻。

  • 跨領域多模態集成:與大多數僅專注于特定類型大模型(如語言模型或視覺模型)的現有研究不同,本綜述涵蓋了大語言模型(LLMs)、視覺Transformer、多模態模型和時間序列模型。這種跨模態集成增強了復雜儀器和測量系統的設計、開發和評估,這些系統用于信號的生成、獲取、調理和處理。通過利用不同模型的獨特優勢,它為推進測量科學及其應用提供了更全面和深入的視角,從而更有效地應對復雜的工業挑戰。

  • 持續學習的實際應用:本文強調了持續學習策略在IIoT增強的工業系統,特別是邊緣計算和云計算協同環境中的實際應用。這個重點確保了模型不僅能適應新數據和變化的條件,還能資源高效。通過減少計算需求和訓練成本,我們的方法解決了工業應用中的關鍵約束。

付費5元查看完整內容

摘要: 圖異常檢測旨在大圖或海量圖數據庫中尋找“陌生”或“不尋常”模式,具有廣泛的應用場景.深度學習可以從數據中學習隱含的規律,在提取數據中潛在復雜模式方面表現出優越的性能. 近年來隨著基于深度神經網絡的圖表示學習取得顯著進展,如何利用深度學習方法進行圖異常檢測引起了學術界和產業界的廣泛關注. 盡管最近一系列研究從圖的角度對異常檢測技術進行了調研,但是缺少對深度學習技術下的圖異常檢測技術的關注. 首先給出了靜態圖和動態圖上各類常見的異常定義,然后調研了基于深度神經網絡的圖表示學習方法,接著從靜態圖和動態圖的角度出發,梳理了基于深度學習的圖異常檢測的研究現狀,并總結了圖異常檢測的應用場景和相關數據集,最后討論了圖異常檢測技術目前面臨的挑戰和未來的研究方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200685

圖作為一種通用的數據結構,被廣泛用于表示 復雜的結構化數據.相對于其他數據結構,它能更好 地存儲和表達實體及其聯系.現實世界中,圖在社交 網絡分析、Web網絡分析、交通路網優化、知識圖譜 構建等領域均有廣泛的應用.針對這些語義豐富、樣 式多樣、規模龐大的圖數據,如何快速、準確地檢測 其中的異常引起了學術界和產業界的廣泛關注.圖 異常檢測是指在一個大圖或海量圖數據庫中尋找包 含“陌生”或者“不尋常”模式的結構(包括節點、邊或 者子圖),具有廣泛的應用場景,例如英特網中的惡 意攻擊、社交網絡中的突發事件檢測、電子商務中的 水軍發現等.相較于傳統的異常檢測方法,基于圖的 異常檢測由于圖具有強大的表達能力,不僅可以將 復雜的數據加以直觀的呈現,同時也能將數據中隱 含的相關性融入到異常檢測過程中.

面向圖的異常檢測工作最早發表于2003年[1], 現有工作大致可分為基于靜態圖和基于動態圖 2 類.在基于靜態圖的異常檢測工作中,一類方法利用 ego網絡[2]或者基于團體[3]研究問題;一類方法基 于圖的結構信息進行異常檢測[4G6],也有一些工作基 于子空間選擇,試圖在節點特征的子空間中發現異 常[7G9].還有一些工作通過概率、統計方法獲取圖的 統計信息進行異常檢測[10G13].盡管這些工作在異常 檢測上取得了不錯的進展,但這些方法如利用ego 網絡的方法,由于處理圖數據,必須考慮節點之間的 交互,在圖較為稀疏時難以實現較好的效果;或者如 子空間選擇和統計方法,由于淺層學習機制難以綜 合利用節點的屬性和結構信息.在基于動態圖的異 常檢測方面,同樣有一些工作基于團體[14G15]、基于結 構[6,16]、或基于概率統計[17G19]進行異常檢測.另外一 類典型的方法是首先獲取圖的概要,然后通過聚類 和異常 檢 測 來 確 定 概 要 中 的 異 常,例 如 文 獻 [20G 21],但是這些方法獲得的概要無法保留重要的結構 信息,比如鄰接節點的信息.現有的基于動態圖的異 常檢測方法大多依賴于啟發式規則,通常只是簡單 地考慮某一類特征;雖然有部分方法[22G23]考慮了內 容甚至時間因素,但并不靈活,導致其應用局限于特 定的場景.

近年來,深度學習成為人工智能和機器學習中極為重要的部分,在提取數據中潛在復雜模式方面 表現出優越的性能,并在音頻、圖像和自然語言處理 等領域得到了廣泛應用.深度學習方法能夠合理處 理復雜的屬性信息,并且可以從數據中學習隱含的 規律;此外,通過神經網絡對圖進行嵌入不僅可以很 好地保留信息[24G26],還可以很好地處理節點或邊的 屬性,同時保留結構信息,進而方便檢查隱空間中節 點或邊表示的相似性.近年來隨著對圖進行嵌入表 示取得顯著進展,如何利用深度學習方法進行圖異 常檢測在過去幾年中吸引了廣泛關注.基于深度學 習的圖異常檢測方法通常使用圖的嵌入表示方法先 將圖表示為隱空間中的向量,然后使用該向量重構 圖從而剔除異常信息的影響,最后通過重構誤差進 行異常檢測.

關于異常和離群點檢測,已經存在非常全面的 綜述類文章,例如Zimek等人[27]重點介紹了關于高 維離群值檢測,Schubert等人[28]討論了局部離群值 檢測技術.但是,這些文章通常關注多維數據實例的 點,沒有或者不是直接地關注基于圖的檢測技術.盡管文獻[29]從圖的角度對異常檢測技術進行了調 研,但是缺少對深度學習技術下的圖異常檢測技術 的關注.與以往關于異常檢測的綜述不同,本文專注 于大圖或海量圖數據庫中的異常檢測,并對基于深 度學習的圖異常檢測技術進行全面地梳理和總結, 是最早聚焦基于深度學習的圖異常檢測技術方面的研究綜述.

本文首先對圖上的異常定義做了全面的分析, 然后詳細介紹了基于深度神經網絡的圖表示學習方 法,接著從靜態圖和動態圖的角度出發,對現有基于 深度學習的圖異常檢測方法進行系統地總結和歸 類,并討論相關方法的局限性.接著簡單介紹圖異常 檢測技術的實際應用場景和相關的數據集,最后討論基于深度學習的圖異常檢測研究面臨的挑戰及未 來可行的研究方向.本文期望通過對目前基于深度 學習的圖異常檢測研究現狀的梳理,為后續研究提 供可借鑒的思路.

付費5元查看完整內容
北京阿比特科技有限公司