亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,擴散模型的進展徹底革新了視頻生成技術,相較于傳統的基于生成對抗網絡(GAN)的方法,展現出更優越的時間一致性和視覺質量。盡管這一新興領域在實際應用中展現出巨大的潛力,但仍面臨諸如運動一致性、計算效率和倫理考量等重大挑戰。 本綜述系統回顧了基于擴散的視頻生成技術,探討了其發展歷程、技術基礎與實際應用。我們構建了當前方法的系統分類法,分析了架構創新與優化策略,并研究了其在圖像去噪、超分辨率等低級視覺任務中的應用。此外,我們還探討了擴散模型視頻生成與相關領域之間的協同效應,包括視頻表征學習、問答系統和視頻檢索。 相較于現有的一些綜述文獻(如 Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)主要聚焦于視頻生成的特定方面,如人物視頻合成(Lei 等,2024a)或長內容生成(Lei 等,2024b),我們的工作提供了一個更廣泛、更前沿、更細致的視角,特別設立了評估指標、工業解決方案及訓練工程技術等專題內容,全面覆蓋擴散模型在視頻生成中的最新進展。 本綜述旨在為擴散模型與視頻生成交叉領域的研究者和工程實踐者提供基礎性參考資料,涵蓋該領域迅速發展的理論框架與工程實現。同時,本綜述中涉及的相關文獻已整理成結構化列表并發布于 GitHub 上。

1 引言

近年來,視頻生成技術(Ren 等,2024;Zheng 等,2024c;Davtyan & Favaro,2022)已成為一項關鍵且具有變革性的技術。高質量、逼真視頻的生成能力已廣泛應用于娛樂與廣告(Wang & Shi,2023)、虛擬現實(Hu 等,2021)以及自動化系統(Zhou 等,2024c),進一步推動了用戶體驗的提升、低成本內容創作的實現以及創意表達的新途徑。 在過去幾年中,隨著生成對抗網絡(GAN,Goodfellow 等,2014)的廣泛應用,視頻生成技術(Clark 等,2019;Aldausari 等,2022;Hong 等,2022)取得了顯著進展。研究者們提出了多種策略以提升生成視頻的時間連貫性(Chai 等,2023)、真實感與多樣性。盡管如此,基于GAN的方法在訓練穩定性和生成質量一致性方面仍面臨挑戰。 擴散模型(Ho 等,2020;Nichol & Dhariwal,2021;Sohl-Dickstein 等,2015)的引入為該領域帶來了革命性的變化,提供了一種克服GAN局限性的概率建模框架。基于擴散的模型(Kwak 等,2024;Chai 等,2023;Wang & Yang,2024;Ho 等,2022c)在生成時間一致且視覺效果出色的視頻方面表現優異,激發了該領域的進一步研究。 然而,基于擴散的視頻生成仍面臨若干根本性挑戰。其中一個主要問題是如何確保幀間的運動一致性,這是生成時間連貫且真實視頻的關鍵。此外,生成視頻還需遵循物理規則,如準確的物體動態和環境交互,以維持現實感。長視頻生成亦是一個挑戰,要求模型能夠處理長時間序列中的復雜時間依賴關系。 在計算層面,擴散模型訓練所需的資源開銷巨大,常常導致效率低下,限制了模型的可擴展性。同時,推理速度緩慢也是一個嚴重問題,尤其是在實時視頻生成場景中尤為關鍵。除技術問題外,倫理問題也不可忽視,包括緩解生成內容中的偏見,防止生成有害或誤導性視覺內容。 為應對擴散視頻生成技術的快速進展與新興挑戰,本文對現有方法、最新研究成果及未來發展方向進行了系統分析。

**我們的貢獻

本綜述深入分析了基于擴散的視頻生成方法,聚焦其技術基礎與實際應用。盡管現有綜述(Lei 等,2024a;b;Melnik 等,2024;Cao 等,2023;Xing 等,2024c)已對視頻生成的特定方面進行了探討,如人物視頻合成(Lei 等,2024a)或長內容生成(Lei 等,2024b),但我們工作提供了一個更廣泛、更前沿、更細粒度的視角。 與相關綜述(Xing 等,2024c;Melnik 等,2024)相比,我們對擴散模型及其應用進行了更全面的覆蓋,詳細綜述了相關數據集、評估指標、工業解決方案及訓練工程技術。本文的主要貢獻包括: * 據我們所知,這是目前關于基于擴散的視頻生成最全面的綜述之一,涵蓋模型范式、學習基礎、實現細節、應用場景及與其他領域的關聯。 * 相較其他綜述,我們的綜述提供了更廣闊的視角與應用范圍,詳細探討了數據集、評估指標、工業解決方案及訓練工程技術等內容。

**

**本文結構

本文結構如下:第2節介紹基礎概念,涵蓋GAN模型、自回歸模型與擴散模型等視頻生成范式;第3節聚焦于實現細節,討論數據集、訓練工程技術、評估指標,并通過基準測試展示模型性能;第4節介紹多樣化應用場景,包括條件生成任務、視頻增強方法(如去噪、修復、插幀、外推與超分辨率),以及個性化生成、一致性建模、長視頻生成和新興的三維感知擴散模型;最后,第5節探討擴散視頻生成在其他領域的推動作用,如視頻表征學習、檢索、問答系統以及三維/四維生成,強調其在相關領域的廣泛影響。 這一結構將為讀者提供從基礎原理到前沿應用的全面、系統的理解。

付費5元查看完整內容

相關內容

近年來,大規模文本到圖像生成模型的成功實證驗證了擴散模型在生成任務中的卓越性能。為了促進其在資源受限的邊緣設備上的高效部署,模型量化已成為實現模型壓縮與加速的關鍵技術之一。 本綜述系統梳理了擴散模型量化領域的最新進展,全面分析了該快速發展的研究方向中的當前技術現狀。 首先,我們概述了在擴散模型量化過程中所面臨的主要挑戰,包括基于U-Net架構以及擴散Transformer(Diffusion Transformers, DiT)模型的相關難點。隨后,我們構建了一個全面的量化技術分類體系,并深入討論了各類主流方法的原理機制。 接著,我們從定性與定量兩個維度對具有代表性的擴散模型量化方案進行了細致分析。 在定量層面,我們基于多個廣泛使用的數據集,對各種方法進行了嚴謹的基準評估,提供了對當前最前沿、最具影響力研究工作的系統對比與分析。 在定性層面,我們總結并歸納了量化誤差的影響,結合圖像可視化分析生成軌跡的演化過程,對其影響機理進行了詳細闡述。 最后,我們展望了擴散模型量化在實際應用中的未來研究方向,提出了若干具有潛力的研究路徑與創新方案。 本綜述相關論文列表、對應代碼、預訓練模型及對比結果均已公開,詳見項目主頁。


關鍵詞:擴散模型、Transformer、模型加速、擴散模型量化

1 引言

擴散模型(Diffusion Models)[1–4]近年來迅速發展,已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制,擴散模型能夠實現對樣本細節的高精度重建,顯著提升了生成質量與保真度。與變分自編碼器(Variational Autoencoders, VAEs)[5]相比,擴散模型更擅長捕捉細粒度特征,并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。 此外,擴散模型采用最大似然估計(Maximum Likelihood Estimation)為基礎的訓練策略,具備堅實的理論支撐,同時也較好地緩解了生成對抗網絡(GAN)[6]在訓練中常見的模式崩潰(mode collapse)和偽影生成等問題,從而在樣本多樣性與生成保真度之間實現了更優平衡。 近年來,跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性,包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。 然而,擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸:一是冗長的去噪鏈條(通常需多達 1000 步 [2]),二是計算開銷巨大的噪聲估計網絡(即得分估計網絡 [4])。

為緩解第一個瓶頸,研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器,通過數值求解反向時間的隨機微分方程(SDE)[27] 或其對應的常微分方程(ODE)[28, 29],以優化步長和控制離散誤差;另一類研究則致力于學習更優的擴散機制,如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。 為緩解第二個瓶頸,模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度,但常破壞權重結構,且往往需代價高昂的重新訓練;蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟,但對數據與算力的依賴程度較高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練,但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下,模型量化 [43] 在保持表達能力的同時顯著提升推理效率,成為邊緣部署中擴散模型加速的有力手段,因此受到廣泛關注。 近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46],大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型(LLM)[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集,為該方向奠定了基礎;Liu 等人 [50] 進一步提出了分布對齊增強機制,有效提升了校準樣本的表達能力;So 等人 [45] 引入時間動態量化方法,支持時間步特定的激活量化;Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架,而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題;Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。 在量化感知訓練(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入,4-bit 激活量化的邊界被進一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,實現對大型文本到圖像模型的微調。 在極端量化場景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建,BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響,導致采樣穩定性下降,因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。 在擴散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制,以緩解異常激活引發的性能退化;同時,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。 盡管上述研究從多個角度解決了擴散模型量化中的主要問題,但不少方法在處理類似挑戰時仍存在策略重疊的現象,反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。 為推動高效擴散模型的發展,本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念,區別于以往聚焦靜態單步模型的綜述,本文從擴散過程的多步采樣動態出發,對量化挑戰進行深入剖析,并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術,幫助研究者組合互補策略以實現最優性能。 此外,我們在三類典型任務上對主流開源方案進行了評估:類別條件生成、無條件生成、文本引導圖像生成;并通過視覺分析揭示量化偽影(如色偏、過曝、模糊、結構變形)的成因,并以實證研究加以支持。


本文的主要貢獻包括:

首份擴散模型量化領域的系統綜述:據我們所知,本文為首篇全面回顧擴散模型量化研究進展的綜述性論文,涵蓋截至 2025 年 3 月的最新研究成果,填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析:首次系統歸納了擴散模型量化中的關鍵挑戰,涵蓋模型結構(如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊)及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系:構建了全面的分類框架,涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化(PTQ)與量化感知訓練(QAT)方法,并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析:在多個公開任務上對開源方案進行系統評估,結合視覺分析探討量化誤差帶來的偽影與其規律,并通過實證實驗予以驗證。 * 未來研究展望:分析當前擴散模型框架下仍面臨的挑戰,提出潛在研究方向,如與高級訓練策略的結合、向量量化跨模態優化等。


本文結構安排如下:第2節介紹擴散模型與模型量化的理論基礎,并深入探討擴散模型量化中的核心挑戰;第3節在前述討論基礎上,對現有量化方法進行分類與剖析;第4節提供標準化基準并評估典型開源方案;第5節總結全文,并展望未來研究方向。

付費5元查看完整內容

擴散生成模型已在圖像和視頻生成等視覺領域取得了顯著成功。近年來,它們也逐漸在機器人領域中嶄露頭角,尤其是在機器人操作任務中展現出廣闊前景。擴散模型基于概率框架,具備建模多模態分布的能力,并且在處理高維輸入輸出空間時表現出強大的魯棒性。

本文綜述了擴散模型在機器人操作中的最新研究進展,涵蓋了抓取學習、軌跡規劃和數據增強等關鍵應用。用于場景與圖像增強的擴散模型位于機器人與計算機視覺交叉領域的核心位置,尤其在提升基于視覺的任務的泛化能力與緩解數據稀缺性方面具有重要意義。

此外,本文介紹了擴散模型的兩種主要框架及其與模仿學習和強化學習的融合方式,探討了主流架構與評估基準,并指出了當前最先進擴散方法的挑戰與優勢。

關鍵詞:擴散模型 · 機器人操作學習 · 生成模型 · 模仿學習 · 抓取學習

//arxiv.org/pdf/2504.08438

1 引言

擴散模型(Diffusion Models, DMs)作為深度生成模型,在多個領域中展現出極大的發展潛力,包括計算機視覺(Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021;Ramesh 等, 2022;Rombach 等, 2022a)、自然語言處理(Li 等, 2022;Zhang 等, 2023;Yu 等, 2022)以及機器人學(Chi 等, 2023;Urain 等, 2023)。DMs 天生具備建模任意分布的能力,特別是在處理來自高維和視覺數據的復雜多模態分布時,其性能和穩定性已超越傳統的高斯混合模型(GMMs)和基于能量的模型(EBMs),如隱式行為克隆(Implicit Behavior Cloning, IBC)(Chi 等, 2023)。雖然 GMM 和 IBC 都能建模多模態分布,且 IBC 甚至能學習復雜的不連續分布(Florence 等, 2022),但實驗結果(Chi 等, 2023)顯示,這些方法在實際中往往偏向特定模式。 總體來看,DMs 的性能也已超過過去被認為是生成模型主流方法的生成對抗網絡(GANs)(Krichen, 2023)。相比之下,GANs 通常需要對抗訓練,容易出現模式崩潰以及訓練不穩定等問題(Krichen, 2023),且對超參數較為敏感(Lucic 等, 2018)。 自 2022 年以來,擴散概率模型在機器人操作領域中的應用顯著增長,涵蓋了軌跡規劃(如 Chi 等, 2023)和抓取預測(如 Urain 等, 2023)等多項任務。DMs 能夠有效建模多模態分布,這在諸如軌跡規劃與抓取等機器人操作任務中具有巨大優勢,因為這些任務往往存在多個同樣合理的冗余解。捕捉這些多種可行解不僅提升了模型的泛化能力,也增強了機器人在不同物體擺放或推理約束下的適應性。 盡管在軌跡規劃任務中,DMs 主要結合模仿學習進行應用,但也已有方法將其與強化學習(Reinforcement Learning, RL)相結合,例如 Geng 等(2023)。當前的研究工作正集中于根據具體任務需求調整擴散過程中的各個組成部分。 一些研究架構整合了不同甚至多種輸入模態,例如點云(Ze 等, 2024;Ke 等, 2024),通過深度信息提升模型對復雜任務中的三維場景理解能力。另一個輸入模態的例子是自然語言(Ke 等, 2024;Du 等, 2023;Li 等, 2025),這也使得基礎模型(如大型語言模型)能夠融入機器人操作流程。在 Ze 等(2024)中,同時使用了點云與語言任務指令作為多模態輸入。 還有研究將 DMs 融入分層規劃(Ma 等, 2024b;Du 等, 2023)或技能學習(Liang 等, 2024;Mishra 等, 2023),以充分發揮其在建模高維數據和多模態分布方面的最前沿能力,適用于長時序與多任務的設置。許多方法(如 Kasahara 等, 2024;Chen 等, 2023b)也在基于視覺的操作任務中,利用擴散模型進行數據增強,以擴展數據集并重建場景。 值得注意的是,DMs 的一個主要挑戰是其采樣速度較慢。對此,已有多種方法進行改進(Song 等, 2021a;Chen 等, 2024;Zhou 等, 2024a),部分方法已實現了實時預測能力。 據我們所知,這是首篇聚焦于機器人操作領域的擴散模型綜述文章。本文系統地對該領域中與 DMs 相關的多種方法進行了分類,涵蓋了網絡架構、學習框架、應用場景與評估方法等方面。除全面的描述外,我們還提供了直觀的分類圖譜。 為幫助讀者理解 DMs 的基本原理,本文首先在第2節介紹其數學基礎(非特指機器人應用)。第3節將討論 DMs 在機器人操作中常見的網絡架構。隨后,第4節介紹 DMs 在機器人操作中的三大核心應用方向:軌跡生成(4.1節)、抓取合成(4.2節)以及視覺數據增強(4.3節)。第5節對常用基準測試與對比方法進行總結,最后第6節給出結論、指出當前局限,并展望未來的研究方向。

**

**

付費5元查看完整內容

機器人視覺正持續受益于多模態融合技術視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解同步定位與地圖構建(SLAM)三維目標檢測導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊高效融合策略實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV

付費5元查看完整內容

本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。

1 引言

信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。

付費5元查看完整內容

多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。

關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。

1.1 多模態學習:基礎與概念

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。

模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。

除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。

簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。

1.2 多模態大語言模型:機遇與挑戰

最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **

付費5元查看完整內容

大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/

1 引言

大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。

本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理

模型層級優化

模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。

系統層級優化

由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。

硬件層級優化

最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。

付費5元查看完整內容

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

大型語言模型(LLMs)以其卓越的能力徹底改變了自然語言處理。然而,由于計算資源有限、內存約束以及邊緣硬件異構性,將LLMs部署在資源受限的邊緣設備上面臨重大挑戰。本文綜述了邊緣LLMs在其生命周期中的最新發展,重點探討了從部署前技術到運行時優化的資源高效設計。此外,還探討了LLMs在個人、企業和工業場景中的設備端應用。通過總結最新進展并指出未來的研究方向,本綜述旨在為LLMs在邊緣設備上的部署提供全面的理解,彌合其巨大潛力與邊緣計算限制之間的差距。

1 引言

基于Transformer的大型語言模型(LLMs)近年來取得了重大進展,徹底改變了自然語言處理(NLP)領域。隨著這一快速進步,多個開源LLM陸續涌現,包括Meta的Llama系列[5, 185, 186]、Mistral AI的Mistral系列[80, 81]以及Google的Gemma[180, 188]。LLM的成功歸因于其在自然語言理解和生成方面的卓越性能[44, 45, 230],這使得其在文本摘要[91, 94, 121]、問答任務[119, 143, 154]和代碼生成[103, 176, 205]等領域廣泛應用。這些應用在學術和工業領域產生了深遠影響,為ChatGPT[145]、Copilot[133]和Claude[12]等AI語言工具鋪平了道路。LLM的興起與成就代表了人工智能[107, 195, 250]、信息檢索[35, 108, 159]和人機交互[93, 197, 204]領域的重大飛躍。LLM的快速發展引發了在資源受限的邊緣設備上部署這些強大AI模型的需求,從智能手機[25, 156]和可穿戴設備[49]到智能家居助理[209]和工業物聯網(IoT)傳感器[207]。這種方法稱為邊緣LLM[41],需要將LLM直接部署在網絡邊緣的設備上,而不是依賴于集中式云服務器。這種方法的好處是多方面的。首先,邊緣計算使LLM可以本地執行,從而實現更快的響應和低延遲的分析[25, 148]。這種本地執行還允許LLM在沒有互聯網連接的情況下運行,使其非常適合在連接有限的區域中使用,例如關鍵基礎設施和需要即時決策的應用,如自動駕駛汽車和機器人[170, 175]。其次,將LLM部署在邊緣設備上可以增強隱私和安全性,因為敏感的用戶數據在設備內處理,避免了傳輸到云端所帶來的隱私泄露風險[51, 234]。最后,邊緣LLM通過設備端學習和自適應功能實現個性化用戶體驗。這種本地化的定制允許模型根據用戶的偏好、使用模式和特定場景調整其響應和功能,而無需犧牲隱私或頻繁的云同步[31, 251]。盡管有諸多優勢,但在資源受限的邊緣設備上部署LLM仍面臨多項重大挑戰。首先,計算和內存的限制對LLM的訓練和推理施加了巨大的限制。LLM計算密集且內存需求高,常常超出邊緣硬件的能力范圍。LLM中的自注意力機制需要大量的張量乘法運算,而這些運算在邊緣設備上執行速度較慢[169]。此外,這些模型的龐大內存占用通常超過了邊緣設備的可用RAM,使得無法加載整個模型[251]。其次,邊緣計算設備的異構性為LLM的設計、部署和跨設備優化帶來了巨大挑戰。邊緣設備從配備ARM處理器的智能手機到帶有專用低功耗芯片的物聯網設備不一而足,每種設備的處理能力各異。這種多樣性還體現在內存系統上,不同設備的緩存級別、RAM容量和存儲類型各不相同,直接影響LLM性能,因而需要針對設備的內存管理策略[97]。軟件環境同樣多樣化,不同的操作系統需要定制化的LLM框架[101]。跨設備優化必須解決如智能手機和筆記本電腦等設備之間的計算差異[24, 73],這需要資源感知的調度算法來動態分配計算資源,基于每臺設備的處理能力和能耗限制[63]。此外,硬件和軟件的協同設計必須使算法與各種硬件配置相匹配,要求對每個平臺的特性有深入了解,以實現有效的性能分析和硬件感知的推理實現[191]。最后,開發實際的邊緣應用程序,以彌合集中式LLM處理和分布式邊緣使用場景之間的差距也是一項重大挑戰。在個人和企業環境中,像AutoDroid[209]和GPTDroid[123]這樣的框架展示了將LLM集成到移動應用中的復雜性,同時保持任務自動化和圖形用戶界面(GUI)測試等任務的響應性和準確性。主要困難在于如何在不影響用戶體驗的情況下,在邊緣設備上高效部署復雜的LLM功能。此外,工業領域在將LLM與其他關鍵應用程序一起調度到邊緣節點時也面臨挑戰。在機器人和自動駕駛等工業領域[56, 175],需要復雜的調度算法來平衡LLM的計算需求與實時進程的要求。這需要動態的資源分配和任務優先級,以確保基于LLM的分析能夠補充而非阻礙關鍵功能。因此,開發者必須將LLM有效適應資源受限的設備,并適應各領域中動態的用戶行為。解決這些挑戰需要在整個應用部署生命周期中采用多方面的設計,如圖1所示。首先,為了在資源受限的邊緣設備上部署LLM,離線的預部署技術聚焦于開發更小、更高效的模型,這些模型在減少計算和內存需求的同時保留其功能。接下來,壓縮后的模型部署到邊緣設備上,在那里應用在線的運行時優化,以適應異構邊緣設備上的模型。最后,優化后的模型在各個不同領域的設備端應用中發揮作用,展示其實際價值。這個端到端的過程無縫集成了離線壓縮、在線優化和多樣化的應用開發,有效應對了LLM在邊緣設備上部署的關鍵挑戰,并展示了這些優化模型的現實應用潛力。為此,本綜述旨在全面探索在邊緣和移動設備上啟用大型語言模型(LLMs)所涉及的關鍵領域。如圖2所示,我們深入探討了三個關鍵方面:離線預部署模型設計技術、在線模型執行優化以及基于邊緣LLM的應用。我們旨在識別當前最先進的技術,找出研究空白,并提出未來在資源受限設備上部署LLM的研究方向,最終為創新的智能應用和服務鋪平道路。具體來說:

  • 預部署技術。預部署技術包括各種模型壓縮方法,旨在減少模型大小,同時降低邊緣部署對內存和存儲的需求。關鍵方法包括量化、剪枝、知識蒸餾、低秩近似等。雖然這些方法已在傳統深度學習模型中取得了良好效果,但它們在LLM中的應用面臨著獨特的挑戰。LLM的規模、基于Transformer的架構以及在多種語言任務中保持性能的需求使得壓縮過程更加復雜[2, 219]。這些挑戰推動了針對LLM開發專門壓縮方法的研究。量化通過使用更少的比特來表示權重或激活值來減小LLM的大小[115, 164]。剪枝通過結構化或非結構化地移除不必要的模型組件以簡化模型[96, 215]。知識蒸餾將大模型中的知識傳遞給較小的模型,保留關鍵特性[82, 113]。此外,低秩近似通過利用矩陣中的固有冗余來壓縮大矩陣[71, 112]。其他方法,如復雜的預訓練技術、數據策劃策略以及架構優化,也有助于實現顯著的壓縮效果[136, 138, 180]。

  • 運行時優化。運行時優化指的是直接在邊緣和移動設備上優化LLM的推理或微調過程。主要的優化指標包括系統響應速度、資源利用效率和計算負載。優化旨在通過各種方法增強LLM在邊緣設備上的性能,例如跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化以及硬件級優化。跨設備優化通過邊緣設備和云服務器之間的協作策略來提高整體系統響應速度并減少本地計算負載[24, 232]。資源感知調度則通過動態分配計算資源,提升效率并適應不同的工作負載[63, 148]。硬件-軟件協同設計將軟件算法與硬件能力對齊,使得硬件性能的分析更高效,并實現硬件感知的推理算法,從而提升整體系統效率[51, 191]。框架級優化使用專門的引擎來進行高效的內存管理和張量運算,減少內存占用并優化資源利用率[142, 251]。硬件級優化通過利用低功耗的NPUs和AI加速器,顯著提高能效并加速特定AI操作[87, 124]。

  • 設備端應用。設備端應用是指直接在邊緣設備上實施和使用LLM的實際應用。這些應用涵蓋了多個領域,包括個人、企業和工業場景。在個人計算中,設備端LLM為AI助手提供支持,幫助完成上下文數據到文本生成以及日常生活中的復雜任務自動化[25, 95]。可穿戴設備也因設備端LLM受益,能夠實現自然語言接口進行數據搜索和常時AI輔助[49, 156]。在企業環境中,設備端LLM可增強軟件開發流程,例如自動化GUI測試和崩潰重現[74, 123]。此外,設備端LLM還能夠進行安全的本地化文檔處理和問答任務,確保辦公環境中的數據隱私[131, 151]。在工業領域,設備端LLM推動了機器人和人機交互的進步[56, 175],并且能夠進行輕量級文本識別和實時傳感器數據分析,提高運營效率和決策能力,廣泛應用于各種工業場景[42, 207]。 通過采用這些創新技術和方法,開發者能夠利用減少的模型大小和改進的計算效率,促進LLM在邊緣設備上的無縫集成。這不僅提升了邊緣計算的性能,還擴展了LLM在各種資源受限環境中的應用潛力,可能徹底改變邊緣AI應用的格局。本文的其余部分結構如下:第2節分析了LLM復雜性與邊緣設備能力之間的不斷擴大的差距,回顧了關于高效LLM和邊緣計算的相關工作,并分析了設備端LLM優化的研究趨勢,為本綜述奠定背景。第3節和第4節分別全面探討了離線預部署技術和在線運行時優化的最先進方法。第5節深入研究了LLM在設備端應用的廣闊潛力。第6節討論了設備端LLM領域的未來方向和開放性挑戰,而第7節總結了本綜述的關鍵結論和所獲得的見解。

為了補充這些努力,自然語言處理(NLP)領域的研究也取得了顯著進展。Xu和McAuley [218]回顧了提高預訓練語言模型壓縮和加速效率的方法。Hedderich等人[67]綜述了在低資源NLP環境中提升性能的方法。Wan等人[196]全面回顧了高效LLM的研究,將文獻劃分為模型中心、數據中心和框架中心的研究方法。Treviso等人[187]總結了在數據、時間、存儲或能量受限的條件下進行NLP的方法,強調了性能與資源消耗之間的權衡。雖然這些綜述為LLM優化提供了寶貴的見解,但它們并未專門解決邊緣和移動環境中的獨特約束。因此,迫切需要針對邊緣計算限制下LLM的高效實現和管理進行專門研究。 我們的綜述區別于這些工作,提供了LLM在邊緣和移動計算環境中的全面深入分析。兩個最相關的綜述是關于LLM的移動邊緣智能[155],主要側重于跨不同計算節點的協作資源管理,和個人LLM助手[111],探討了LLM助手在個人計算環境中的應用和場景。然而,前者未充分解決邊緣設備的低級別優化問題,后者缺乏對邊緣設備運行時優化的系統分析。為了彌合這一差距,我們從整體的、自上而下的角度探討了用于邊緣和移動設備的LLM,涵蓋了從離線預部署技術到在線運行時優化以及在各個領域中的設備端應用的整個優化流程。我們的分析不僅提供了對邊緣部署的LLM模型架構和推理/訓練范式的細致理解,還為基于Transformer架構的框架和硬件級優化提供了寶貴的見解。此外,我們探討了硬件-軟件協同設計策略,以增強LLM在資源受限設備上的性能。這種多方面的研究方法使我們的綜述與眾不同,提供了對LLM在邊緣設備上部署的挑戰和解決方案的全面分析,從高級架構考慮到低級框架和硬件優化。 如圖4所示,設備端LLM研究方向的時間分布清晰展示了從2019年到2024年的演變過程,分為三大類:預部署技術(藍色)、運行時優化(紫色)和設備端應用(綠色)。量化、剪枝、知識蒸餾和低秩近似等離線預部署技術在整個時間段內持續受到研究關注。在線運行時優化,包括跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化和硬件級優化,自2021年起獲得了顯著的發展。個人、企業和工業應用中的設備端應用在時間線的后半段尤為引人注目,表明了邊緣AI和移動LLM部署的日益增長的趨勢。該圖表突出了在優化和部署用于資源受限環境的LLM方面方法的快速發展和多樣化,反映了高效設備端AI在各個領域中日益重要的作用。我們的綜述綜合了這些發展,提供了關于設備端LLM部署的最新全面分析。通過這樣做,我們希望為研究人員和從業者提供一個堅實的基礎,以推動這一快速發展的領域的進一步進步。

離線預部署技術

大型語言模型(LLMs)的普及引發了在移動和邊緣設備上部署的需求激增,這一需求源于對增強隱私、降低延遲以及在連接受限環境中提高服務可用性的迫切要求。這種向邊緣計算轉變的范式為LLMs帶來了新的發展前景。然而,由于LLMs固有的計算復雜性和巨大的內存需求[52],這一過程面臨重大挑戰。因此,離線預部署技術成為了關鍵策略,旨在大幅減少LLMs的計算和內存占用,同時保持其性能完整性。這些技術在模型部署到目標邊緣設備之前應用,為在資源受限環境中的高效執行提供了保障。 如圖5所示,LLMs離線預部署方法的核心是模型壓縮,主要分為四類:量化、剪枝、知識蒸餾和低秩近似。除了這些核心技術外,其他創新方法也在離線預部署階段發揮著重要作用,進一步提升了模型的效率和性能。

在線運行時優化

我們已經討論了在預部署階段的離線優化技術,重點是預訓練小型模型。雖然這些方法可能無法完全在邊緣設備上執行,但它們生成的緊湊LLM適合高效部署。本節介紹了用于直接在邊緣設備上進行高效推理或微調的在線運行時優化方法。如圖7所示,LLM的運行時優化可分為五個主要方面。從自上而下的角度來看,包括跨設備優化、資源感知調度、框架級優化和硬件級優化。此外,硬件-軟件協同設計跨越了多個層次。

結論

本綜述全面回顧了設備端LLM的最新進展和技術,這是一個快速發展的研究領域,旨在普及這些強大的AI模型。通過結構化的分類體系,我們系統地探討了優化LLM以便在資源受限設備上進行預部署和執行的兩種主要方法:離線預部署技術和在線運行時優化。此外,我們還分析了設備端LLM的多樣化應用,突出了其廣闊的潛力。展望未來,效率將是邊緣LLM發展的關鍵驅動力,推動創新并應對主要挑戰。本綜述為研究人員和從業者提供了寶貴的資源,奠定了進一步發展高效設備端LLM的堅實基礎,推動更具可訪問性和可持續性的AI解決方案的實現,進而釋放LLM的全部潛力,惠及更多用戶并支持更多樣化的應用。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容
北京阿比特科技有限公司