近年來,大規模文本到圖像生成模型的成功實證驗證了擴散模型在生成任務中的卓越性能。為了促進其在資源受限的邊緣設備上的高效部署,模型量化已成為實現模型壓縮與加速的關鍵技術之一。 本綜述系統梳理了擴散模型量化領域的最新進展,全面分析了該快速發展的研究方向中的當前技術現狀。 首先,我們概述了在擴散模型量化過程中所面臨的主要挑戰,包括基于U-Net架構以及擴散Transformer(Diffusion Transformers, DiT)模型的相關難點。隨后,我們構建了一個全面的量化技術分類體系,并深入討論了各類主流方法的原理機制。 接著,我們從定性與定量兩個維度對具有代表性的擴散模型量化方案進行了細致分析。 在定量層面,我們基于多個廣泛使用的數據集,對各種方法進行了嚴謹的基準評估,提供了對當前最前沿、最具影響力研究工作的系統對比與分析。 在定性層面,我們總結并歸納了量化誤差的影響,結合圖像可視化分析與生成軌跡的演化過程,對其影響機理進行了詳細闡述。 最后,我們展望了擴散模型量化在實際應用中的未來研究方向,提出了若干具有潛力的研究路徑與創新方案。 本綜述相關論文列表、對應代碼、預訓練模型及對比結果均已公開,詳見項目主頁。
關鍵詞:擴散模型、Transformer、模型加速、擴散模型量化
擴散模型(Diffusion Models)[1–4]近年來迅速發展,已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制,擴散模型能夠實現對樣本細節的高精度重建,顯著提升了生成質量與保真度。與變分自編碼器(Variational Autoencoders, VAEs)[5]相比,擴散模型更擅長捕捉細粒度特征,并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。 此外,擴散模型采用最大似然估計(Maximum Likelihood Estimation)為基礎的訓練策略,具備堅實的理論支撐,同時也較好地緩解了生成對抗網絡(GAN)[6]在訓練中常見的模式崩潰(mode collapse)和偽影生成等問題,從而在樣本多樣性與生成保真度之間實現了更優平衡。 近年來,跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性,包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。 然而,擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸:一是冗長的去噪鏈條(通常需多達 1000 步 [2]),二是計算開銷巨大的噪聲估計網絡(即得分估計網絡 [4])。
為緩解第一個瓶頸,研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器,通過數值求解反向時間的隨機微分方程(SDE)[27] 或其對應的常微分方程(ODE)[28, 29],以優化步長和控制離散誤差;另一類研究則致力于學習更優的擴散機制,如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。 為緩解第二個瓶頸,模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度,但常破壞權重結構,且往往需代價高昂的重新訓練;蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟,但對數據與算力的依賴程度較高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練,但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下,模型量化 [43] 在保持表達能力的同時顯著提升推理效率,成為邊緣部署中擴散模型加速的有力手段,因此受到廣泛關注。 近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46],大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型(LLM)[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集,為該方向奠定了基礎;Liu 等人 [50] 進一步提出了分布對齊增強機制,有效提升了校準樣本的表達能力;So 等人 [45] 引入時間動態量化方法,支持時間步特定的激活量化;Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架,而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題;Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。 在量化感知訓練(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入,4-bit 激活量化的邊界被進一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,實現對大型文本到圖像模型的微調。 在極端量化場景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建,BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響,導致采樣穩定性下降,因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。 在擴散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制,以緩解異常激活引發的性能退化;同時,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。 盡管上述研究從多個角度解決了擴散模型量化中的主要問題,但不少方法在處理類似挑戰時仍存在策略重疊的現象,反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。 為推動高效擴散模型的發展,本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念,區別于以往聚焦靜態單步模型的綜述,本文從擴散過程的多步采樣動態出發,對量化挑戰進行深入剖析,并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術,幫助研究者組合互補策略以實現最優性能。 此外,我們在三類典型任務上對主流開源方案進行了評估:類別條件生成、無條件生成、文本引導圖像生成;并通過視覺分析揭示量化偽影(如色偏、過曝、模糊、結構變形)的成因,并以實證研究加以支持。
首份擴散模型量化領域的系統綜述:據我們所知,本文為首篇全面回顧擴散模型量化研究進展的綜述性論文,涵蓋截至 2025 年 3 月的最新研究成果,填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析:首次系統歸納了擴散模型量化中的關鍵挑戰,涵蓋模型結構(如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊)及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系:構建了全面的分類框架,涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化(PTQ)與量化感知訓練(QAT)方法,并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析:在多個公開任務上對開源方案進行系統評估,結合視覺分析探討量化誤差帶來的偽影與其規律,并通過實證實驗予以驗證。 * 未來研究展望:分析當前擴散模型框架下仍面臨的挑戰,提出潛在研究方向,如與高級訓練策略的結合、向量量化跨模態優化等。
本文結構安排如下:第2節介紹擴散模型與模型量化的理論基礎,并深入探討擴散模型量化中的核心挑戰;第3節在前述討論基礎上,對現有量化方法進行分類與剖析;第4節提供標準化基準并評估典型開源方案;第5節總結全文,并展望未來研究方向。
近年來,隨著大語言模型能力在深度和廣度上的快速發展,各類相應的評測基準不斷涌現。作為衡量模型性能的量化評估工具,基準不僅是評價模型能力的核心手段,也是引導模型發展方向、推動技術創新的重要因素。本文首次系統性地回顧了大語言模型基準的現狀與發展,將283個具有代表性的基準劃分為三大類:通用能力類、領域特定類和目標特定類。通用能力基準涵蓋核心語言學、知識與推理等方面;領域特定基準主要聚焦于自然科學、人文社會科學以及工程技術等領域;目標特定基準則關注風險、可靠性、智能體等方面。我們指出,當前基準仍存在一些問題,例如數據污染導致的分數虛高、文化與語言偏差引發的不公平評估、以及缺乏對過程可信度和動態環境的考察。最后,我們提出了一個可供參考的未來基準創新設計范式。
自從 2017 年 Transformer 架構 [1] 被提出以來,大語言模型(LLMs)憑借其強大的自然語言處理能力,在人工智能(AI)領域掀起了一場革命性浪潮。從基礎的自然語言理解與文本生成任務,到復雜的邏輯推理與智能體交互,LLMs 不斷拓展 AI 的能力邊界,并重塑了人機交互范式與信息處理模式。隨著 GPT 系列 [2, 3, 4]、LLaMA 系列 [5, 6, 7]、Qwen 系列 [8, 9, 10] 等模型的相繼推出,LLMs 已經廣泛滲透到智能客服、內容創作、教育、醫療、法律等領域,成為推動數字經濟發展和社會智能化轉型的核心驅動力。 隨著 LLM 技術迭代的加速,建立一個科學而全面的評價體系已變得尤為迫切。作為衡量模型性能的量化評估手段,基準不僅是檢驗模型能力的核心工具,也是引導模型發展方向、推動技術創新的關鍵環節。通過基準測試,研究者可以客觀比較不同模型的優劣,準確定位技術瓶頸,并為算法優化與架構設計提供數據支撐;同時,標準化的評估結果有助于建立用戶信任,確保模型在安全性與公平性方面符合社會與倫理規范。 然而,與早期以 GLUE [11] 和 SuperGLUE [12] 為代表的語言模型評測基準相比,LLM 時代的模型參數規模呈指數級增長,能力維度也從單任務拓展到多任務與多領域(如 MMLU [13]、GIG-bench [14]、GPQA [15]、SuperGPQA [16]),評測范式也從固定任務轉向多任務與多領域。這些變化對評估體系的科學性與適應性提出了更高要求。 目前,LLM 評估領域仍面臨諸多亟待解決的挑戰。首先,數據泄漏 [17, 18] 問題日益突出,部分模型在訓練階段已暴露于評測數據,導致評測結果虛高,無法真實反映模型的泛化能力;其次,靜態評測 [13, 19] 難以模擬動態的真實場景,難以預測模型在面對新任務和新領域時的表現。再者,評估指標的單一性(如過度依賴準確率和 BLEU 分數)無法全面刻畫 LLMs 的復雜能力,而對于偏見與安全漏洞的檢測、以及指令遵循性的系統化評估等關鍵需求仍未得到有效滿足。此外,大規模評估所需的算力與人力成本高昂,以及任務設計難以覆蓋真實世界復雜性,這些因素都嚴重制約了 LLMs 的健康發展。圖1 展示了具有代表性的大語言模型基準的時間線,說明了這一快速演化的過程。 本文首次針對 LLM 基準開展系統性的綜述與前瞻性分析,主要貢獻如下: 1. 首次對 283 個 LLM 基準 進行系統分析與歸納,總結為三大類:通用能力基準、領域特定基準與目標特定基準。 1. 從數據來源、數據格式、數據規模、評測方法、評測指標等多個維度,全面剖析各類基準的設計動機與局限性,并為后續基準創新提供可直接借鑒的設計范式。 1. 指出當前 LLM 基準所面臨的三大突出問題:數據污染導致的分數虛高、文化與語言偏差引發的不公平評估、以及缺乏對“過程可信度”和“動態環境”的評估。
摘要
近年來,我們見證了通用模型在自然語言處理領域的巨大成功。通用模型是一種以海量數據進行訓練的通用框架,能夠同時處理多種下游任務。在其卓越性能的激勵下,越來越多的研究者開始探索將這類模型應用于計算機視覺任務。然而,視覺任務的輸入與輸出形式更加多樣化,難以將其歸納為統一的表示形式。本文對視覺通用模型進行了全面綜述,深入探討了其在該領域中的特性與能力。我們首先回顧了相關背景,包括數據集、任務類型以及評測基準。隨后,我們梳理了現有研究中提出的模型框架設計,并介紹了用于提升模型性能的關鍵技術。為了幫助研究者更好地理解該領域,我們還簡要探討了相關研究方向,揭示了它們之間的關聯性與潛在協同作用。最后,我們列舉了一些真實世界的應用場景,深入分析了當前尚存的挑戰,并對未來的研究方向提出了有益的見解。
關鍵詞:基礎模型 · 計算機視覺 · 多任務學習 · 多模態數據 1 引言
作為一種智能系統,人類大腦能夠從不同的輸入模態中感知信息,并能同時處理多種任務。類似于人類,在深度學習領域中,通用模型(generalist model)【Bae et al. (2022); Huang et al. (2023b); Jaegle et al. (2021a); Shukor et al. (2023)】是一種能夠在無需為特定任務進行定制設計的前提下處理多種任務的通用框架。近年來,得益于大數據的強大驅動,大語言模型(LLMs)【Devlin et al. (2018); Ouyang et al. (2022); Peters et al. (2018)】在自然語言處理(NLP)領域中展現了通用模型的巨大成功。 然而,與 NLP 不同,視覺任務的輸出格式更加多樣且復雜。例如,傳統的分類方法【He et al. (2016a); Russakovsky et al. (2015)】只需輸出圖像或點云的類別,而目標檢測模型則需進一步定位目標,其輸出為邊界框(bounding boxes)。分割模型則需生成像素級的語義掩碼。因此,對于視覺通用模型(Vision Generalist Models, VGM)【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】而言,設計一個能夠適配廣泛視覺下游任務的系統至關重要。 與傳統神經網絡相比,通用模型通常擁有數十億個參數,并以海量數據進行訓練,因而具備傳統方法所不具備的諸多優秀特性。具體而言,視覺通用模型具備以下優勢: 1)零樣本多任務遷移能力(Zero-shot Multi-task Transfer)
傳統方法往往為不同任務采用各自的任務特定框架,而多任務學習方法【Sener and Koltun (2018); Yu et al. (2020); Zhang and Yang (2021)】雖能同時處理多個任務,卻難以在未經微調的情況下泛化到新的數據集。而通用模型在以任務無關的大規模數據預訓練后,能夠學習到通用表征,可直接擴展至多種下游任務,并具備零樣本遷移能力,無需額外適配器進行微調,從而實現真正的通用感知(general perception)。 2)多模態輸入(Multimodality Inputs)
通用模型的一大特性是能夠接收來自不同模態的數據作為輸入。由于各模態間存在巨大差異,統一編碼為特征表示極具挑戰。例如,圖像為規則的二維矩陣,而點云則是無序的三維向量。這兩類數據所使用的編碼器也不同:分別為二維卷積與三維稀疏卷積【Graham et al. (2018); Yan et al. (2018)】。除了視覺信號,還需考慮文本、音頻等其他模態,這進一步增加了處理難度。得益于 Transformer 架構【Vaswani et al. (2017b)】,部分工作將多模態輸入統一為一系列 token 表示。 3)強大的表征能力(Great Representation Ability)
現有的通用模型往往擁有數十億個參數。盡管計算代價高昂,但龐大的參數規模顯著提升了模型的表征能力。多任務和多模態輸入之間能夠相互促進,進一步增強模型性能。 4)大數據的賦能(Power of Big Data)
大數據為模型訓練提供了豐富的知識。例如,ChatGPT【Ouyang et al. (2022)】使用約 45TB 的文本數據進行訓練。從不同模態和領域采集的大規模數據提升了樣本多樣性,從而增強了模型的泛化能力。大規模數據集【Chen et al. (2015); Krizhevsky et al. (2012)】涵蓋了眾多極端情況,有助于模型在復雜場景中穩定工作。 盡管視覺通用模型優勢顯著,但仍面臨若干挑戰: 1)框架設計(Framework Design)
通用模型的核心技術在于如何設計一個能夠統一處理多種下游任務的框架。雖然已有一些工作【Hu and Singh (2021); Zhang et al. (2023c); Zhu et al. (2022c)】嘗試解決這一問題,但目前尚未形成標準化的流程。因此,建立統一的視覺通用模型范式仍是當前最亟需解決的挑戰。 2)數據獲取(Data Acquisition)
通用模型的訓練依賴于海量數據。在 NLP 領域,大量帶標簽的文本數據可從網頁中獲取;而在計算機視覺中,網絡上的大多數視覺數據并未標注,獲取標簽代價高昂且耗時。有些研究【Kirillov et al. (2023b); Ouyang et al. (2022)】提出了針對特定任務的數據自動標注方法,但如何針對不同任務與模態實現自動化標注仍是一個尚未深入探索的問題。 3)倫理風險(Ethical Risks)
與大語言模型類似,視覺通用模型也面臨倫理風險。在生成任務中,模型可能產生包含個人或敏感信息的內容,例如深度偽造視頻【Güera and Delp (2018); Westerlund (2019)】;在判別任務中,訓練數據中的無意識偏見可能會影響模型判斷;此外,不當或非法數據的使用還可能引發法律問題。 在過去兩年中,我們已見證通用模型在多個深度學習方向中的成功。隨著神經網絡架構的不斷發展,越來越多的研究致力于構建能夠實現通用感知的模型。盡管通用模型已引發廣泛關注,但尚缺乏一篇系統性綜述來全面總結這一熱門方向,因此我們撰寫了本文。 本綜述的主要目的包括: 1. 對相關研究文獻進行系統梳理,幫助研究者快速入門; 1. 總結現有方法的局限與挑戰,并指出未來可能的研究方向; 1. 理清視覺通用模型與其他相關領域的聯系與差異。
在相關工作方面,Awais 等人(2023)提供了一份關于視覺基礎模型的綜述。盡管視覺基礎模型與通用模型同樣是在大規模數據上進行訓練,并能接收多模態輸入,但通用模型還具備處理多任務的強泛化能力,而基礎模型在適應下游任務時通常需要針對特定數據集進行微調,限制了其實用性。因此,我們的綜述與 Awais 等人的工作在概念上存在顯著差異,我們更加專注于總結通用模態感知與通用任務處理能力。 相比之下,另一篇綜述【Li et al. (2023b)】從更宏觀的視角出發,探討了多模態基礎模型的分類與演進,包括統一視覺模型、大語言模型及其在多模態智能體中的應用。而本文則更聚焦于視覺通用模型(VGM)這一子領域,深入剖析其框架設計與關鍵技術。 我們將本文組織為六個部分,以系統梳理視覺通用模型的發展,如圖 1 所示: * 第2節:介紹 VGM 常用的任務類型、數據集與評測基準; * 第3節:深入分析 VGM 的框架設計,包括編碼器驅動方法與序列到序列框架; * 第4節:總結應對多領域輸入、模型設計和多任務輸出的關鍵技術; * 第5節:探討 VGM 與相關領域的聯系,尤其是多任務學習、視覺-語言學習與開放詞表學習; * 第6節:展示 VGM 的真實應用場景,并討論其面臨的挑戰與未來發展方向。
我們希望本綜述能為研究者和從業者提供一份關于視覺通用模型的系統性參考資料,助力其在這一快速發展的研究領域中取得突破。
近年來,擴散模型的進展徹底革新了視頻生成技術,相較于傳統的基于生成對抗網絡(GAN)的方法,展現出更優越的時間一致性和視覺質量。盡管這一新興領域在實際應用中展現出巨大的潛力,但仍面臨諸如運動一致性、計算效率和倫理考量等重大挑戰。 本綜述系統回顧了基于擴散的視頻生成技術,探討了其發展歷程、技術基礎與實際應用。我們構建了當前方法的系統分類法,分析了架構創新與優化策略,并研究了其在圖像去噪、超分辨率等低級視覺任務中的應用。此外,我們還探討了擴散模型視頻生成與相關領域之間的協同效應,包括視頻表征學習、問答系統和視頻檢索。 相較于現有的一些綜述文獻(如 Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)主要聚焦于視頻生成的特定方面,如人物視頻合成(Lei 等,2024a)或長內容生成(Lei 等,2024b),我們的工作提供了一個更廣泛、更前沿、更細致的視角,特別設立了評估指標、工業解決方案及訓練工程技術等專題內容,全面覆蓋擴散模型在視頻生成中的最新進展。 本綜述旨在為擴散模型與視頻生成交叉領域的研究者和工程實踐者提供基礎性參考資料,涵蓋該領域迅速發展的理論框架與工程實現。同時,本綜述中涉及的相關文獻已整理成結構化列表并發布于 GitHub 上。
近年來,視頻生成技術(Ren 等,2024;Zheng 等,2024c;Davtyan & Favaro,2022)已成為一項關鍵且具有變革性的技術。高質量、逼真視頻的生成能力已廣泛應用于娛樂與廣告(Wang & Shi,2023)、虛擬現實(Hu 等,2021)以及自動化系統(Zhou 等,2024c),進一步推動了用戶體驗的提升、低成本內容創作的實現以及創意表達的新途徑。 在過去幾年中,隨著生成對抗網絡(GAN,Goodfellow 等,2014)的廣泛應用,視頻生成技術(Clark 等,2019;Aldausari 等,2022;Hong 等,2022)取得了顯著進展。研究者們提出了多種策略以提升生成視頻的時間連貫性(Chai 等,2023)、真實感與多樣性。盡管如此,基于GAN的方法在訓練穩定性和生成質量一致性方面仍面臨挑戰。 擴散模型(Ho 等,2020;Nichol & Dhariwal,2021;Sohl-Dickstein 等,2015)的引入為該領域帶來了革命性的變化,提供了一種克服GAN局限性的概率建模框架。基于擴散的模型(Kwak 等,2024;Chai 等,2023;Wang & Yang,2024;Ho 等,2022c)在生成時間一致且視覺效果出色的視頻方面表現優異,激發了該領域的進一步研究。 然而,基于擴散的視頻生成仍面臨若干根本性挑戰。其中一個主要問題是如何確保幀間的運動一致性,這是生成時間連貫且真實視頻的關鍵。此外,生成視頻還需遵循物理規則,如準確的物體動態和環境交互,以維持現實感。長視頻生成亦是一個挑戰,要求模型能夠處理長時間序列中的復雜時間依賴關系。 在計算層面,擴散模型訓練所需的資源開銷巨大,常常導致效率低下,限制了模型的可擴展性。同時,推理速度緩慢也是一個嚴重問題,尤其是在實時視頻生成場景中尤為關鍵。除技術問題外,倫理問題也不可忽視,包括緩解生成內容中的偏見,防止生成有害或誤導性視覺內容。 為應對擴散視頻生成技術的快速進展與新興挑戰,本文對現有方法、最新研究成果及未來發展方向進行了系統分析。
本綜述深入分析了基于擴散的視頻生成方法,聚焦其技術基礎與實際應用。盡管現有綜述(Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)已對視頻生成的特定方面進行了探討,如人物視頻合成(Lei 等,2024a)或長內容生成(Lei 等,2024b),但我們工作提供了一個更廣泛、更前沿、更細粒度的視角。 與相關綜述(Xing 等,2024c;Melnik 等,2024)相比,我們對擴散模型及其應用進行了更全面的覆蓋,詳細綜述了相關數據集、評估指標、工業解決方案及訓練工程技術。本文的主要貢獻包括: * 據我們所知,這是目前關于基于擴散的視頻生成最全面的綜述之一,涵蓋模型范式、學習基礎、實現細節、應用場景及與其他領域的關聯。 * 相較其他綜述,我們的綜述提供了更廣闊的視角與應用范圍,詳細探討了數據集、評估指標、工業解決方案及訓練工程技術等內容。
本文結構如下:第2節介紹基礎概念,涵蓋GAN模型、自回歸模型與擴散模型等視頻生成范式;第3節聚焦于實現細節,討論數據集、訓練工程技術、評估指標,并通過基準測試展示模型性能;第4節介紹多樣化應用場景,包括條件生成任務、視頻增強方法(如去噪、修復、插幀、外推與超分辨率),以及個性化生成、一致性建模、長視頻生成和新興的三維感知擴散模型;最后,第5節探討擴散視頻生成在其他領域的推動作用,如視頻表征學習、檢索、問答系統以及三維/四維生成,強調其在相關領域的廣泛影響。 這一結構將為讀者提供從基礎原理到前沿應用的全面、系統的理解。
擴散生成模型已在圖像和視頻生成等視覺領域取得了顯著成功。近年來,它們也逐漸在機器人領域中嶄露頭角,尤其是在機器人操作任務中展現出廣闊前景。擴散模型基于概率框架,具備建模多模態分布的能力,并且在處理高維輸入輸出空間時表現出強大的魯棒性。
本文綜述了擴散模型在機器人操作中的最新研究進展,涵蓋了抓取學習、軌跡規劃和數據增強等關鍵應用。用于場景與圖像增強的擴散模型位于機器人與計算機視覺交叉領域的核心位置,尤其在提升基于視覺的任務的泛化能力與緩解數據稀缺性方面具有重要意義。
此外,本文介紹了擴散模型的兩種主要框架及其與模仿學習和強化學習的融合方式,探討了主流架構與評估基準,并指出了當前最先進擴散方法的挑戰與優勢。
關鍵詞:擴散模型 · 機器人操作學習 · 生成模型 · 模仿學習 · 抓取學習
擴散模型(Diffusion Models, DMs)作為深度生成模型,在多個領域中展現出極大的發展潛力,包括計算機視覺(Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021;Ramesh 等, 2022;Rombach 等, 2022a)、自然語言處理(Li 等, 2022;Zhang 等, 2023;Yu 等, 2022)以及機器人學(Chi 等, 2023;Urain 等, 2023)。DMs 天生具備建模任意分布的能力,特別是在處理來自高維和視覺數據的復雜多模態分布時,其性能和穩定性已超越傳統的高斯混合模型(GMMs)和基于能量的模型(EBMs),如隱式行為克隆(Implicit Behavior Cloning, IBC)(Chi 等, 2023)。雖然 GMM 和 IBC 都能建模多模態分布,且 IBC 甚至能學習復雜的不連續分布(Florence 等, 2022),但實驗結果(Chi 等, 2023)顯示,這些方法在實際中往往偏向特定模式。 總體來看,DMs 的性能也已超過過去被認為是生成模型主流方法的生成對抗網絡(GANs)(Krichen, 2023)。相比之下,GANs 通常需要對抗訓練,容易出現模式崩潰以及訓練不穩定等問題(Krichen, 2023),且對超參數較為敏感(Lucic 等, 2018)。 自 2022 年以來,擴散概率模型在機器人操作領域中的應用顯著增長,涵蓋了軌跡規劃(如 Chi 等, 2023)和抓取預測(如 Urain 等, 2023)等多項任務。DMs 能夠有效建模多模態分布,這在諸如軌跡規劃與抓取等機器人操作任務中具有巨大優勢,因為這些任務往往存在多個同樣合理的冗余解。捕捉這些多種可行解不僅提升了模型的泛化能力,也增強了機器人在不同物體擺放或推理約束下的適應性。 盡管在軌跡規劃任務中,DMs 主要結合模仿學習進行應用,但也已有方法將其與強化學習(Reinforcement Learning, RL)相結合,例如 Geng 等(2023)。當前的研究工作正集中于根據具體任務需求調整擴散過程中的各個組成部分。 一些研究架構整合了不同甚至多種輸入模態,例如點云(Ze 等, 2024;Ke 等, 2024),通過深度信息提升模型對復雜任務中的三維場景理解能力。另一個輸入模態的例子是自然語言(Ke 等, 2024;Du 等, 2023;Li 等, 2025),這也使得基礎模型(如大型語言模型)能夠融入機器人操作流程。在 Ze 等(2024)中,同時使用了點云與語言任務指令作為多模態輸入。 還有研究將 DMs 融入分層規劃(Ma 等, 2024b;Du 等, 2023)或技能學習(Liang 等, 2024;Mishra 等, 2023),以充分發揮其在建模高維數據和多模態分布方面的最前沿能力,適用于長時序與多任務的設置。許多方法(如 Kasahara 等, 2024;Chen 等, 2023b)也在基于視覺的操作任務中,利用擴散模型進行數據增強,以擴展數據集并重建場景。 值得注意的是,DMs 的一個主要挑戰是其采樣速度較慢。對此,已有多種方法進行改進(Song 等, 2021a;Chen 等, 2024;Zhou 等, 2024a),部分方法已實現了實時預測能力。 據我們所知,這是首篇聚焦于機器人操作領域的擴散模型綜述文章。本文系統地對該領域中與 DMs 相關的多種方法進行了分類,涵蓋了網絡架構、學習框架、應用場景與評估方法等方面。除全面的描述外,我們還提供了直觀的分類圖譜。 為幫助讀者理解 DMs 的基本原理,本文首先在第2節介紹其數學基礎(非特指機器人應用)。第3節將討論 DMs 在機器人操作中常見的網絡架構。隨后,第4節介紹 DMs 在機器人操作中的三大核心應用方向:軌跡生成(4.1節)、抓取合成(4.2節)以及視覺數據增強(4.3節)。第5節對常用基準測試與對比方法進行總結,最后第6節給出結論、指出當前局限,并展望未來的研究方向。
**
**
基于Transformer的基礎模型已成為時間序列分析領域的主流范式,在預測、異常檢測、分類、趨勢分析等多種時間序列分析任務中展現出前所未有的能力。本文綜述了當前最新的預訓練基礎模型,提出了一種新穎的分類方法,從多個維度對相關模型進行系統性梳理。具體而言,我們按照架構設計對模型進行分類,區分了采用基于patch的表示方法的模型與直接處理原始序列的模型。該分類體系還包括模型是否提供概率性或確定性預測,以及模型是專為處理單變量時間序列設計,還是可直接處理多變量時間序列。 此外,分類框架還涵蓋了模型的規模與復雜度,突出輕量級架構與大規模基礎模型之間的差異。本綜述的一大特色是引入了以訓練階段所使用的目標函數類型為依據的分類方式。通過綜合上述多個視角,本文旨在為研究人員與業界從業者提供參考資料,洞察當前研究趨勢,并指明基于Transformer的時間序列建模未來的發展方向。
時間序列數據是現代數據分析中的關鍵組成部分,廣泛應用于金融、醫療健康、經濟學、氣候科學、庫存管理、能源管理、交通管理、物聯網(IoT)、工業流程、供應鏈優化、電信、零售分析、社交媒體監控、傳感器網絡、天氣預測,甚至醫療診斷等多個領域。時間序列分析的重要性在于其能夠捕捉時間依賴性和趨勢性,對于缺失值填補、分類、預測及異常檢測等任務至關重要。例如,在金融領域,時間序列數據可用于預測股價或識別市場異常;而在醫療健康領域,時間序列分析能夠實現患者生命體征的實時監控,及早發現潛在疾病或預測疾病暴發。在氣象學中,其對天氣模式和氣候變化的預測尤為關鍵;而在經濟學中,時間序列分析有助于預測如通貨膨脹和國內生產總值(GDP)增長等關鍵指標。在能源領域,時間序列數據對于優化需求預測和資源調配具有重要價值;在庫存管理中,它有助于預測庫存水平并提升供應鏈效率。在電信領域,時間序列數據用于網絡流量分析和預測性維護;在零售行業中,它支持需求預測與顧客行為分析。在制造業中,時間序列分析能夠優化生產調度并監控設備健康;而在交通運輸中,則有助于預測交通模式并優化車隊管理。圖1展示了在無需微調或微調基礎模型的情況下,在不同領域中應用時間序列任務(如預測、聚類、插補等)的實例。 傳統的時間序列分析方法主要依賴統計學方法,如移動平均(MA)、指數平滑等,這些方法通過對數據平滑處理來識別潛在趨勢。諸如自回歸移動平均整合模型(ARIMA)等方法,結合了自回歸(AR)與移動平均(MA)成分,廣泛用于建模時間相關結構。基于局部加權回歸的季節性和趨勢分解(STL)方法也常用于將時間序列分解為趨勢、季節性與殘差成分。在圖2中,我們展示了蘋果公司(AAPL)在5分鐘時間框架下的日內價格波動,使用了15周期的簡單移動平均(SMA)與指數移動平均(EMA)兩種常見技術分析指標對價格進行平滑處理并識別潛在趨勢。 盡管這些傳統方法在多數場景下有效,但在面對更復雜的非線性模式或高維數據時往往力不從心。相比之下,支持向量機(SVM)與梯度提升機(GBM)等機器學習算法在捕捉更復雜的時間依賴性方面表現更佳,尤其是數據趨勢較為簡單或線性時。然而,這些算法在處理不規則采樣數據或依賴人工特征工程以提取時間特征時面臨較大挑戰。例如,ARIMA模型難以捕捉長期依賴關系或非線性關系;傳統機器學習算法通常依賴繁瑣的數據預處理與特征選擇才能在時間序列任務中取得良好表現。此外,這些傳統模型常常依賴數據平穩性或均勻采樣等假設,這在實際應用中往往無法滿足。例如,在傳感器數據或具有不規則交易時間的股市數據中,傳統方法的表現往往不佳,從而推動了更先進技術的發展需求,以更有效應對這些復雜性。
為克服上述局限,神經網絡,尤其是循環神經網絡(RNN)與卷積神經網絡(CNN),近年來成為時間序列建模的強大替代方案。神經網絡具備從原始輸入中自動學習分層表示的能力,從而免去了大量人工特征工程。這種“端到端”的學習方式使模型能夠自動捕捉數據中的潛在結構,尤其適用于存在復雜非線性時間依賴關系的預測、異常檢測和分類任務。RNN由Rumelhart等人在1980年代提出,專為處理序列數據而設計,能夠通過維護隱藏狀態捕捉歷史輸入信息。在每個時間步,RNN基于當前輸入與前一狀態更新隱藏狀態,從而建模時間依賴關系。這使得RNN非常適合于諸如股價預測、天氣預測或傳感器數據分析等場景。 然而,盡管RNN理論上具備建模序列依賴的優勢,但其在實際訓練過程中存在“梯度消失”問題。在采用時間反向傳播(BPTT)訓練RNN時,梯度在長序列中反向傳播過程中可能變得極小,從而難以學習長期依賴關系。在面臨需要捕捉遠距離依賴或長序列預測的任務中,RNN的表現通常不盡如人意。為緩解該問題,Hochreiter與Schmidhuber于1997年提出了長短期記憶網絡(LSTM),通過引入記憶單元和門控機制(輸入門、遺忘門和輸出門)來控制信息的保留與丟棄,從而有效捕捉長期依賴。Gated Recurrent Unit(GRU)由Cho等人在2014年提出,是LSTM的簡化版本,采用重置門和更新門,在保留性能的同時提高計算效率。 盡管LSTM與GRU在許多時間序列任務中(如股價預測、能源需求預測、傳感器異常檢測)已表現優于傳統RNN,但它們在處理大規模數據時仍面臨諸多挑戰: 1. 序列性與并行化限制:RNN需逐步處理時間序列,導致訓練與推理難以并行化,計算成本高、耗時長; 1. 長期依賴建模難度:即使是LSTM與GRU,面對極長或高度復雜的序列時仍可能出現梯度消失/爆炸; 1. 資源開銷:在大規模數據集上訓練RNN類模型需消耗大量內存與計算資源,難以滿足實時性或資源受限環境的需求; 1. 過擬合與泛化能力弱:參數較多的RNN模型在數據量不足時易發生過擬合,泛化性能較差。
Transformer架構于2017年首次提出,標志著序列建模范式的重大轉變。Transformer最初用于自然語言處理(NLP)任務,其核心創新是自注意力機制,可在無遞歸結構的前提下建模序列中元素間的依賴關系。與RNN不同,Transformer能夠并行處理整個序列,從而顯著提升訓練效率。其自注意力機制使模型能動態關注序列中任意位置的相關信息,對于建模長距離依賴關系尤為有效。 Transformer架構能夠在較低計算成本下建模復雜時間依賴,克服了RNN在處理不規則采樣間隔或非線性跨尺度模式時的局限性。同時,由于不依賴遞歸結構,Transformer有效規避了梯度消失問題,自注意力機制實現了序列中任意位置之間的信息直接傳遞,使得模型能捕捉更復雜的時間關系。 因此,基于Transformer的模型迅速在時間序列分析中獲得關注,并在多項任務中(如預測、異常檢測)超越了傳統方法與RNN架構。近年來,許多專為時間序列設計的Transformer變體相繼出現,如 Time Series Transformer (TST)、Informer 等,它們在長序列建模與不規則數據處理方面表現出色。
傳統時間序列建模方法通常對每條序列獨立建模,這在面對大規模或時間模式多樣的序列時難以取得良好效果,因為這種方法無法捕捉跨序列的共性與共享模式。相比之下,Transformer模型可在整體數據上統一訓練,從而提取跨序列的通用特征,構建更具魯棒性與泛化能力的基礎模型。 隨著對這一優勢的認識加深,學術界與工業界對基于Transformer架構的時間序列建模興趣日益增長,目標在于開發更準確、高效、可擴展的解決方案,適用于預測、異常檢測、分類等任務。Transformer在NLP與計算機視覺中的成功進一步證明了其跨領域的廣泛適用性,為時間序列分析提供了新的建模范式。 基于Transformer的模型的快速發展及其在多個領域的持續成功表明,這不僅僅是一種短暫的趨勢,而是對傳統序列建模方式的根本性變革。未來,Transformer架構有望在時間序列分析中發揮關鍵作用,推動預測精度、異常檢測能力與對時序數據的理解水平不斷提升,助力多個領域的數據驅動決策與智能系統發展
本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。
1 引言
信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。
在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。
傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。
盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。
為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。
為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。
總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。
本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。
多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。
//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習
在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。
不完整多模態學習
在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習
不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合
當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。