擴散生成模型已在圖像和視頻生成等視覺領域取得了顯著成功。近年來,它們也逐漸在機器人領域中嶄露頭角,尤其是在機器人操作任務中展現出廣闊前景。擴散模型基于概率框架,具備建模多模態分布的能力,并且在處理高維輸入輸出空間時表現出強大的魯棒性。
本文綜述了擴散模型在機器人操作中的最新研究進展,涵蓋了抓取學習、軌跡規劃和數據增強等關鍵應用。用于場景與圖像增強的擴散模型位于機器人與計算機視覺交叉領域的核心位置,尤其在提升基于視覺的任務的泛化能力與緩解數據稀缺性方面具有重要意義。
此外,本文介紹了擴散模型的兩種主要框架及其與模仿學習和強化學習的融合方式,探討了主流架構與評估基準,并指出了當前最先進擴散方法的挑戰與優勢。
關鍵詞:擴散模型 · 機器人操作學習 · 生成模型 · 模仿學習 · 抓取學習
擴散模型(Diffusion Models, DMs)作為深度生成模型,在多個領域中展現出極大的發展潛力,包括計算機視覺(Ho 等, 2020;Song 等, 2021a;Nichol 和 Dhariwal, 2021;Ramesh 等, 2022;Rombach 等, 2022a)、自然語言處理(Li 等, 2022;Zhang 等, 2023;Yu 等, 2022)以及機器人學(Chi 等, 2023;Urain 等, 2023)。DMs 天生具備建模任意分布的能力,特別是在處理來自高維和視覺數據的復雜多模態分布時,其性能和穩定性已超越傳統的高斯混合模型(GMMs)和基于能量的模型(EBMs),如隱式行為克隆(Implicit Behavior Cloning, IBC)(Chi 等, 2023)。雖然 GMM 和 IBC 都能建模多模態分布,且 IBC 甚至能學習復雜的不連續分布(Florence 等, 2022),但實驗結果(Chi 等, 2023)顯示,這些方法在實際中往往偏向特定模式。 總體來看,DMs 的性能也已超過過去被認為是生成模型主流方法的生成對抗網絡(GANs)(Krichen, 2023)。相比之下,GANs 通常需要對抗訓練,容易出現模式崩潰以及訓練不穩定等問題(Krichen, 2023),且對超參數較為敏感(Lucic 等, 2018)。 自 2022 年以來,擴散概率模型在機器人操作領域中的應用顯著增長,涵蓋了軌跡規劃(如 Chi 等, 2023)和抓取預測(如 Urain 等, 2023)等多項任務。DMs 能夠有效建模多模態分布,這在諸如軌跡規劃與抓取等機器人操作任務中具有巨大優勢,因為這些任務往往存在多個同樣合理的冗余解。捕捉這些多種可行解不僅提升了模型的泛化能力,也增強了機器人在不同物體擺放或推理約束下的適應性。 盡管在軌跡規劃任務中,DMs 主要結合模仿學習進行應用,但也已有方法將其與強化學習(Reinforcement Learning, RL)相結合,例如 Geng 等(2023)。當前的研究工作正集中于根據具體任務需求調整擴散過程中的各個組成部分。 一些研究架構整合了不同甚至多種輸入模態,例如點云(Ze 等, 2024;Ke 等, 2024),通過深度信息提升模型對復雜任務中的三維場景理解能力。另一個輸入模態的例子是自然語言(Ke 等, 2024;Du 等, 2023;Li 等, 2025),這也使得基礎模型(如大型語言模型)能夠融入機器人操作流程。在 Ze 等(2024)中,同時使用了點云與語言任務指令作為多模態輸入。 還有研究將 DMs 融入分層規劃(Ma 等, 2024b;Du 等, 2023)或技能學習(Liang 等, 2024;Mishra 等, 2023),以充分發揮其在建模高維數據和多模態分布方面的最前沿能力,適用于長時序與多任務的設置。許多方法(如 Kasahara 等, 2024;Chen 等, 2023b)也在基于視覺的操作任務中,利用擴散模型進行數據增強,以擴展數據集并重建場景。 值得注意的是,DMs 的一個主要挑戰是其采樣速度較慢。對此,已有多種方法進行改進(Song 等, 2021a;Chen 等, 2024;Zhou 等, 2024a),部分方法已實現了實時預測能力。 據我們所知,這是首篇聚焦于機器人操作領域的擴散模型綜述文章。本文系統地對該領域中與 DMs 相關的多種方法進行了分類,涵蓋了網絡架構、學習框架、應用場景與評估方法等方面。除全面的描述外,我們還提供了直觀的分類圖譜。 為幫助讀者理解 DMs 的基本原理,本文首先在第2節介紹其數學基礎(非特指機器人應用)。第3節將討論 DMs 在機器人操作中常見的網絡架構。隨后,第4節介紹 DMs 在機器人操作中的三大核心應用方向:軌跡生成(4.1節)、抓取合成(4.2節)以及視覺數據增強(4.3節)。第5節對常用基準測試與對比方法進行總結,最后第6節給出結論、指出當前局限,并展望未來的研究方向。
**
**
近年來,大規模文本到圖像生成模型的成功實證驗證了擴散模型在生成任務中的卓越性能。為了促進其在資源受限的邊緣設備上的高效部署,模型量化已成為實現模型壓縮與加速的關鍵技術之一。 本綜述系統梳理了擴散模型量化領域的最新進展,全面分析了該快速發展的研究方向中的當前技術現狀。 首先,我們概述了在擴散模型量化過程中所面臨的主要挑戰,包括基于U-Net架構以及擴散Transformer(Diffusion Transformers, DiT)模型的相關難點。隨后,我們構建了一個全面的量化技術分類體系,并深入討論了各類主流方法的原理機制。 接著,我們從定性與定量兩個維度對具有代表性的擴散模型量化方案進行了細致分析。 在定量層面,我們基于多個廣泛使用的數據集,對各種方法進行了嚴謹的基準評估,提供了對當前最前沿、最具影響力研究工作的系統對比與分析。 在定性層面,我們總結并歸納了量化誤差的影響,結合圖像可視化分析與生成軌跡的演化過程,對其影響機理進行了詳細闡述。 最后,我們展望了擴散模型量化在實際應用中的未來研究方向,提出了若干具有潛力的研究路徑與創新方案。 本綜述相關論文列表、對應代碼、預訓練模型及對比結果均已公開,詳見項目主頁。
關鍵詞:擴散模型、Transformer、模型加速、擴散模型量化
擴散模型(Diffusion Models)[1–4]近年來迅速發展,已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制,擴散模型能夠實現對樣本細節的高精度重建,顯著提升了生成質量與保真度。與變分自編碼器(Variational Autoencoders, VAEs)[5]相比,擴散模型更擅長捕捉細粒度特征,并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。 此外,擴散模型采用最大似然估計(Maximum Likelihood Estimation)為基礎的訓練策略,具備堅實的理論支撐,同時也較好地緩解了生成對抗網絡(GAN)[6]在訓練中常見的模式崩潰(mode collapse)和偽影生成等問題,從而在樣本多樣性與生成保真度之間實現了更優平衡。 近年來,跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性,包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。 然而,擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸:一是冗長的去噪鏈條(通常需多達 1000 步 [2]),二是計算開銷巨大的噪聲估計網絡(即得分估計網絡 [4])。
為緩解第一個瓶頸,研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器,通過數值求解反向時間的隨機微分方程(SDE)[27] 或其對應的常微分方程(ODE)[28, 29],以優化步長和控制離散誤差;另一類研究則致力于學習更優的擴散機制,如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。 為緩解第二個瓶頸,模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度,但常破壞權重結構,且往往需代價高昂的重新訓練;蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟,但對數據與算力的依賴程度較高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練,但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下,模型量化 [43] 在保持表達能力的同時顯著提升推理效率,成為邊緣部署中擴散模型加速的有力手段,因此受到廣泛關注。 近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46],大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型(LLM)[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集,為該方向奠定了基礎;Liu 等人 [50] 進一步提出了分布對齊增強機制,有效提升了校準樣本的表達能力;So 等人 [45] 引入時間動態量化方法,支持時間步特定的激活量化;Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架,而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題;Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。 在量化感知訓練(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入,4-bit 激活量化的邊界被進一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,實現對大型文本到圖像模型的微調。 在極端量化場景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建,BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響,導致采樣穩定性下降,因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。 在擴散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制,以緩解異常激活引發的性能退化;同時,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。 盡管上述研究從多個角度解決了擴散模型量化中的主要問題,但不少方法在處理類似挑戰時仍存在策略重疊的現象,反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。 為推動高效擴散模型的發展,本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念,區別于以往聚焦靜態單步模型的綜述,本文從擴散過程的多步采樣動態出發,對量化挑戰進行深入剖析,并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術,幫助研究者組合互補策略以實現最優性能。 此外,我們在三類典型任務上對主流開源方案進行了評估:類別條件生成、無條件生成、文本引導圖像生成;并通過視覺分析揭示量化偽影(如色偏、過曝、模糊、結構變形)的成因,并以實證研究加以支持。
首份擴散模型量化領域的系統綜述:據我們所知,本文為首篇全面回顧擴散模型量化研究進展的綜述性論文,涵蓋截至 2025 年 3 月的最新研究成果,填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析:首次系統歸納了擴散模型量化中的關鍵挑戰,涵蓋模型結構(如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊)及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系:構建了全面的分類框架,涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化(PTQ)與量化感知訓練(QAT)方法,并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析:在多個公開任務上對開源方案進行系統評估,結合視覺分析探討量化誤差帶來的偽影與其規律,并通過實證實驗予以驗證。 * 未來研究展望:分析當前擴散模型框架下仍面臨的挑戰,提出潛在研究方向,如與高級訓練策略的結合、向量量化跨模態優化等。
本文結構安排如下:第2節介紹擴散模型與模型量化的理論基礎,并深入探討擴散模型量化中的核心挑戰;第3節在前述討論基礎上,對現有量化方法進行分類與剖析;第4節提供標準化基準并評估典型開源方案;第5節總結全文,并展望未來研究方向。
基于Transformer的基礎模型已成為時間序列分析領域的主流范式,在預測、異常檢測、分類、趨勢分析等多種時間序列分析任務中展現出前所未有的能力。本文綜述了當前最新的預訓練基礎模型,提出了一種新穎的分類方法,從多個維度對相關模型進行系統性梳理。具體而言,我們按照架構設計對模型進行分類,區分了采用基于patch的表示方法的模型與直接處理原始序列的模型。該分類體系還包括模型是否提供概率性或確定性預測,以及模型是專為處理單變量時間序列設計,還是可直接處理多變量時間序列。 此外,分類框架還涵蓋了模型的規模與復雜度,突出輕量級架構與大規模基礎模型之間的差異。本綜述的一大特色是引入了以訓練階段所使用的目標函數類型為依據的分類方式。通過綜合上述多個視角,本文旨在為研究人員與業界從業者提供參考資料,洞察當前研究趨勢,并指明基于Transformer的時間序列建模未來的發展方向。
時間序列數據是現代數據分析中的關鍵組成部分,廣泛應用于金融、醫療健康、經濟學、氣候科學、庫存管理、能源管理、交通管理、物聯網(IoT)、工業流程、供應鏈優化、電信、零售分析、社交媒體監控、傳感器網絡、天氣預測,甚至醫療診斷等多個領域。時間序列分析的重要性在于其能夠捕捉時間依賴性和趨勢性,對于缺失值填補、分類、預測及異常檢測等任務至關重要。例如,在金融領域,時間序列數據可用于預測股價或識別市場異常;而在醫療健康領域,時間序列分析能夠實現患者生命體征的實時監控,及早發現潛在疾病或預測疾病暴發。在氣象學中,其對天氣模式和氣候變化的預測尤為關鍵;而在經濟學中,時間序列分析有助于預測如通貨膨脹和國內生產總值(GDP)增長等關鍵指標。在能源領域,時間序列數據對于優化需求預測和資源調配具有重要價值;在庫存管理中,它有助于預測庫存水平并提升供應鏈效率。在電信領域,時間序列數據用于網絡流量分析和預測性維護;在零售行業中,它支持需求預測與顧客行為分析。在制造業中,時間序列分析能夠優化生產調度并監控設備健康;而在交通運輸中,則有助于預測交通模式并優化車隊管理。圖1展示了在無需微調或微調基礎模型的情況下,在不同領域中應用時間序列任務(如預測、聚類、插補等)的實例。 傳統的時間序列分析方法主要依賴統計學方法,如移動平均(MA)、指數平滑等,這些方法通過對數據平滑處理來識別潛在趨勢。諸如自回歸移動平均整合模型(ARIMA)等方法,結合了自回歸(AR)與移動平均(MA)成分,廣泛用于建模時間相關結構。基于局部加權回歸的季節性和趨勢分解(STL)方法也常用于將時間序列分解為趨勢、季節性與殘差成分。在圖2中,我們展示了蘋果公司(AAPL)在5分鐘時間框架下的日內價格波動,使用了15周期的簡單移動平均(SMA)與指數移動平均(EMA)兩種常見技術分析指標對價格進行平滑處理并識別潛在趨勢。 盡管這些傳統方法在多數場景下有效,但在面對更復雜的非線性模式或高維數據時往往力不從心。相比之下,支持向量機(SVM)與梯度提升機(GBM)等機器學習算法在捕捉更復雜的時間依賴性方面表現更佳,尤其是數據趨勢較為簡單或線性時。然而,這些算法在處理不規則采樣數據或依賴人工特征工程以提取時間特征時面臨較大挑戰。例如,ARIMA模型難以捕捉長期依賴關系或非線性關系;傳統機器學習算法通常依賴繁瑣的數據預處理與特征選擇才能在時間序列任務中取得良好表現。此外,這些傳統模型常常依賴數據平穩性或均勻采樣等假設,這在實際應用中往往無法滿足。例如,在傳感器數據或具有不規則交易時間的股市數據中,傳統方法的表現往往不佳,從而推動了更先進技術的發展需求,以更有效應對這些復雜性。
為克服上述局限,神經網絡,尤其是循環神經網絡(RNN)與卷積神經網絡(CNN),近年來成為時間序列建模的強大替代方案。神經網絡具備從原始輸入中自動學習分層表示的能力,從而免去了大量人工特征工程。這種“端到端”的學習方式使模型能夠自動捕捉數據中的潛在結構,尤其適用于存在復雜非線性時間依賴關系的預測、異常檢測和分類任務。RNN由Rumelhart等人在1980年代提出,專為處理序列數據而設計,能夠通過維護隱藏狀態捕捉歷史輸入信息。在每個時間步,RNN基于當前輸入與前一狀態更新隱藏狀態,從而建模時間依賴關系。這使得RNN非常適合于諸如股價預測、天氣預測或傳感器數據分析等場景。 然而,盡管RNN理論上具備建模序列依賴的優勢,但其在實際訓練過程中存在“梯度消失”問題。在采用時間反向傳播(BPTT)訓練RNN時,梯度在長序列中反向傳播過程中可能變得極小,從而難以學習長期依賴關系。在面臨需要捕捉遠距離依賴或長序列預測的任務中,RNN的表現通常不盡如人意。為緩解該問題,Hochreiter與Schmidhuber于1997年提出了長短期記憶網絡(LSTM),通過引入記憶單元和門控機制(輸入門、遺忘門和輸出門)來控制信息的保留與丟棄,從而有效捕捉長期依賴。Gated Recurrent Unit(GRU)由Cho等人在2014年提出,是LSTM的簡化版本,采用重置門和更新門,在保留性能的同時提高計算效率。 盡管LSTM與GRU在許多時間序列任務中(如股價預測、能源需求預測、傳感器異常檢測)已表現優于傳統RNN,但它們在處理大規模數據時仍面臨諸多挑戰: 1. 序列性與并行化限制:RNN需逐步處理時間序列,導致訓練與推理難以并行化,計算成本高、耗時長; 1. 長期依賴建模難度:即使是LSTM與GRU,面對極長或高度復雜的序列時仍可能出現梯度消失/爆炸; 1. 資源開銷:在大規模數據集上訓練RNN類模型需消耗大量內存與計算資源,難以滿足實時性或資源受限環境的需求; 1. 過擬合與泛化能力弱:參數較多的RNN模型在數據量不足時易發生過擬合,泛化性能較差。
Transformer架構于2017年首次提出,標志著序列建模范式的重大轉變。Transformer最初用于自然語言處理(NLP)任務,其核心創新是自注意力機制,可在無遞歸結構的前提下建模序列中元素間的依賴關系。與RNN不同,Transformer能夠并行處理整個序列,從而顯著提升訓練效率。其自注意力機制使模型能動態關注序列中任意位置的相關信息,對于建模長距離依賴關系尤為有效。 Transformer架構能夠在較低計算成本下建模復雜時間依賴,克服了RNN在處理不規則采樣間隔或非線性跨尺度模式時的局限性。同時,由于不依賴遞歸結構,Transformer有效規避了梯度消失問題,自注意力機制實現了序列中任意位置之間的信息直接傳遞,使得模型能捕捉更復雜的時間關系。 因此,基于Transformer的模型迅速在時間序列分析中獲得關注,并在多項任務中(如預測、異常檢測)超越了傳統方法與RNN架構。近年來,許多專為時間序列設計的Transformer變體相繼出現,如 Time Series Transformer (TST)、Informer 等,它們在長序列建模與不規則數據處理方面表現出色。
傳統時間序列建模方法通常對每條序列獨立建模,這在面對大規模或時間模式多樣的序列時難以取得良好效果,因為這種方法無法捕捉跨序列的共性與共享模式。相比之下,Transformer模型可在整體數據上統一訓練,從而提取跨序列的通用特征,構建更具魯棒性與泛化能力的基礎模型。 隨著對這一優勢的認識加深,學術界與工業界對基于Transformer架構的時間序列建模興趣日益增長,目標在于開發更準確、高效、可擴展的解決方案,適用于預測、異常檢測、分類等任務。Transformer在NLP與計算機視覺中的成功進一步證明了其跨領域的廣泛適用性,為時間序列分析提供了新的建模范式。 基于Transformer的模型的快速發展及其在多個領域的持續成功表明,這不僅僅是一種短暫的趨勢,而是對傳統序列建模方式的根本性變革。未來,Transformer架構有望在時間序列分析中發揮關鍵作用,推動預測精度、異常檢測能力與對時序數據的理解水平不斷提升,助力多個領域的數據驅動決策與智能系統發展
本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。
1 引言
信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。
圖像反演是生成模型中的一個基礎任務,旨在將圖像映射回其潛在表示,以支持下游應用,如圖像編輯、修復和風格遷移。本文全面綜述了圖像反演技術的最新進展,重點討論了兩種主要范式:生成對抗網絡(GAN)反演和擴散模型反演。我們根據優化方法對這些技術進行分類。對于GAN反演,我們系統地將現有方法分為基于編碼器的方法、潛在優化方法和混合方法,分析其理論基礎、技術創新和實際權衡。對于擴散模型反演,我們探討了無訓練策略、微調方法以及附加可訓練模塊的設計,重點討論它們的獨特優勢和局限性。此外,我們討論了幾種流行的下游應用以及超越圖像任務的新興應用,識別了當前的挑戰和未來的研究方向。通過整合最新的研究成果,本文旨在為研究人員和實踐者提供一個有價值的參考資源,推動圖像反演領域的進一步發展。我們將持續跟蹤最新的研究工作,
網址://github.com/RyanChenYN/ImageInversion。
引言圖像反演是指將給定圖像映射回預訓練生成模型的潛在表示的任務。這一任務在圖像編輯、風格遷移、圖像修復等應用中具有重要意義 [Xia 等,2022;Shuai 等,2024]。通過反演技術,用戶可以有效利用生成模型的豐富語義信息,實現對真實圖像的高效控制和修改,成為一個日益獨立且活躍的研究方向。早期的圖像反演研究始于生成對抗網絡(GAN)的興起 [Zhu 等,2016],主要集中于如何將圖像投影到GAN的潛在空間中,以便于后續的圖像編輯和生成任務。StyleGAN系列的問世 [Karras 等,2019;Karras 等,2020] 顯著提高了圖像反演技術的準確性和效率。然而,這些方法存在一定的局限性 [Tov 等,2021;Roich 等,2023;Zhang 等,2024c]:基于編碼器的前向方法仍然會導致次優結果,而基于優化的方法則需要大量時間,且未能滿足一般圖像編輯和高精度應用的需求,例如肖像攝影。近年來,擴散模型憑借其強大的生成能力和穩定的訓練過程,逐漸成為生成模型領域的新寵。從DDPM [Ho 等,2020] / DDIM [Song 等,2020] 到LDM [Rombach 等,2022],像Stable Diffusion系列這樣的開源模型顯著增強了圖像編輯的可控性和有效性,推動了許多優秀的無訓練和微調解決方案的出現 [Miyake 等,2023;Chung 等,2024;Mo 等,2024]。最近的突破性進展,如DiT [Peebles 和 Xie,2023] 框架和流匹配技術,為圖像反演提供了新的思路和方法。GAN到擴散模型的多樣化發展,也為高保真度圖像反演任務和復雜場景中的可控編輯應用奠定了基礎。本文系統地回顧并總結了這些技術的發展軌跡,從公式化的角度抽象定義了問題,深入探討了不同類別方法的原理和實際問題。全面覆蓋了圖像反演及相關子領域,并提供了深入的討論。范圍本文重點討論了兩種主要的圖像反演框架:GAN反演和擴散模型反演。對于GAN反演,我們從三個角度進行全面分析與比較:基于編碼器的方法、潛在優化方法和混合方法。對于擴散模型反演,我們從訓練角度將方法分為無訓練方法、微調方法和額外可訓練模塊方法,并討論每種方法的優缺點。此外,我們還分析了最新的技術趨勢,如基于DiT的反演方法 [Feng 等,2024],并探討了反演技術在圖像及更廣泛領域(如視頻 [Fan 等,2024] 和音頻 [Manor 和 Michaeli,2024])中的應用。本文主要分析了2021年以后的研究,以確保其相關性和前瞻性。由于篇幅限制,本文僅討論了具有代表性的工作,最新的、持續更新的研究成果可通過該項目頁面獲取。與相關綜述的討論與現有的綜述文章相比,例如專注于早期基于GAN的方法 [Xia 等,2022],以及近期專注于基于擴散的方法的工作 [Shuai 等,2024],本文將GAN反演和擴散模型反演整合到一個統一框架中進行系統比較,填補了該領域的研究空白。并且,本文將反演討論擴展到非圖像應用,為讀者提供了更全面的視角。貢獻首先,本文提供了對圖像反演領域最新進展的全面回顧,涵蓋了兩種主要生成模型(GAN和擴散模型)的關鍵反演技術。通過系統地分類這些方法,我們揭示了內在的聯系和技術差異,為研究人員提供了清晰的理論指導。其次,本文從圖像級別的角度討論了主要應用及相關領域的進展。最后,我們總結了當前研究中的主要挑戰,并提出了一系列潛在的未來研究方向,為圖像反演領域的進一步發展提供了重要參考。
多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。
關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM
1 多模態學習與大語言模型概述
多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。
1.1 多模態學習:基礎與概念
1 多模態學習與大語言模型概述
多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。
模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。
除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。
簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。
1.2 多模態大語言模型:機遇與挑戰
最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **
小型語言模型(SLMs)因其高效性和在執行各種語言任務時所需的計算資源較少,變得越來越重要,使它們非常適合于包括設備端、移動設備、邊緣設備等多種場景。在本文中,我們對小型語言模型進行了全面的綜述,重點介紹了它們的架構、訓練技術和模型壓縮技術。
我們提出了一種新的分類法,用于歸類優化SLMs的方法,包括模型壓縮、剪枝和量化技術。我們總結了適用于小型語言模型基準測試的標準數據集,以及常用的評估指標。此外,我們還強調了尚待解決的關鍵開放性挑戰。
本綜述旨在為有興趣開發和部署小型高效語言模型的研究人員和從業者提供寶貴的資源。
盡管大型語言模型(LLMs)在廣泛的基準測試和現實場景中展示了出色的性能,它們的成功卻伴隨著顯著的成本。LLMs 的訓練和運行資源密集,需耗費大量計算和數據資源。這通常意味著它們的訓練和推理都需要在集中化和專業化的硬件上進行。
為了應對這些挑戰,越來越多的研究開始關注小型語言模型(SLMs)。小型語言模型的目標是保持大型語言模型的準確性和/或適應性,同時受到某些約束條件的限制,如訓練或推理硬件、數據可用性、帶寬或生成時間。提升模型在這些約束條件下的性能,可以幫助實現隱私保護、成本節約或在消費級設備上運行的目標。 對小型語言模型進行綜述的難點在于,“小型”和“大型”的定義是隨時間和上下文變化的。例如,GPT-2 在2019年作為一個擁有15億參數的“大型語言模型”,如今已經比本文綜述中許多所謂的“小型”語言模型要小。然而,雖然模型規模在變化,小型語言模型的訓練目標相對穩定。
在本綜述中,我們將探討支持構建和推理小型語言模型的架構、訓練和模型壓縮技術。此外,我們還總結了用于評估小型語言模型性能的基準數據集和常用的評估指標。為此,我們提出了一個新的分類法,用于沿著兩條主軸組織這些方法:
表1(技術)和表2(約束條件)展示了這些主軸的概覽。
需要注意的是,在任何一個目標上的進展不一定意味著在其他目標上也有進展。事實上,往往存在權衡。例如,量化感知訓練等內存高效的訓練方法(Dettmers等人,2022a,2024)通常比全精度方法更慢。然而,通過使用混合精度表示權重和梯度,它們允許使用更少的內存來進行訓練或微調。最后,雖然最近已經有幾篇關于大型語言模型及其學習方法的綜述(Rogers等,2020;Min等,2021;Zhu等,2023;Shen等,2023),但據我們所知,這是首篇專注于小型語言模型的綜述。
本綜述分為三個主要部分,每個部分都涵蓋了優化小型語言模型的關鍵方面。第2節關注模型架構,包括輕量化設計、高效的自注意力近似以及神經架構搜索以高效構建更小的模型。第3節涵蓋高效的預訓練和微調技術,以在資源受限的情況下提升小型語言模型的性能。第4節探討了模型壓縮技術,如剪枝、量化和知識蒸餾,它們可以在不顯著犧牲精度的情況下減少模型的大小和延遲。第5節提供了基準數據集和評估指標的概述,提供了評估這些方法有效性的綜合框架。第6節討論了小型語言模型所啟用的應用,按照約束條件進行分類。最后,第7節提出了針對小型語言模型的開放性挑戰討論。
本文的主要貢獻如下:
本節討論了開發小型語言模型(SLMs)的架構設計。具體而言,我們涵蓋了輕量化架構(第2.1節)、高效自注意力近似(第2.2節)以及神經架構搜索(第2.3節)。
輕量化語言模型架構旨在通過減少參數量和計算開銷,實現高效性能,這對于在資源受限的設備(如手機、邊緣設備和嵌入式系統)上部署非常理想。代表性輕量化模型通常采用編碼器或解碼器的架構。 輕量化編碼器架構大多是BERT(Devlin等人,2019)的優化版本。例如,MobileBERT(Sun等人,2020)引入了一種倒瓶頸結構,以在自注意力和前饋網絡之間保持平衡,與基礎版BERT相比,實現了4.3倍的尺寸縮減和5.5倍的速度提升。DistilBERT(Sanh,2019)和TinyBERT(Jiao等人,2019)也分別實現了相似的優化。 輕量化解碼器架構遵循自回歸語言模型的結構,如GPT(Radford等人,2018,2019)和LLaMA系列(Touvron等人,2023b)。這些模型強調知識蒸餾、內存開銷優化、參數共享和嵌入共享,以增強效率和可擴展性。BabyLLaMA(Timiryasov和Tastet,2023a)和BabyLLaMA-2(Tastet和Timiryasov,2024)分別將多位教師模型的知識蒸餾到58M參數和345M參數的模型中,證明了在數據受限的情況下,蒸餾技術可以超越教師模型的性能。TinyLLaMA(Zhang等人,2024)僅有1.1B參數,通過優化內存開銷(例如使用FlashAttention,Dao等人,2022)實現了高效,同時在多種下游任務中保持了競爭力。MobilLLaMA(Thawakar等人,2024)應用了參數共享方案,減少了預訓練和部署成本,提出了一個適合資源受限設備的0.5B參數模型。MobileLLM(Liu等人,2024e)進一步引入嵌入共享和分組查詢注意機制,并通過分塊式權重共享降低了延遲。
部署大型語言模型的挑戰之一是自注意力層中的龐大參數量以及自注意力帶來的計算成本。本節討論了降低計算成本的策略,這些策略對于構建小型語言模型非常有用。 Reformer(Kitaev等人,2020)通過將點積注意力替換為使用局部敏感哈希的注意力,將自注意力的復雜度從O(N2)降低到O(N log N)。Roy等人(2021)使用了基于在線k-means聚類的稀疏路由模塊,減少了注意力計算的復雜性。 為進一步將自注意力層的計算復雜度從O(N2)降低到O(N),多項研究(Wang等人,2020a;Katharopoulos等人,2020;Xiong等人,2021;Beltagy等人,2020)提出了線性注意力機制。特別是,Katharopoulos等人(2020)將自注意力表示為核特征映射的線性點積,從而降低了二次復雜度。作者還展示了采用這種線性注意力機制的Transformer可以被視為一種遞歸神經網絡,從而實現更快的推理。在這些基礎上,近期的進展引入了更為先進的架構。值得注意的例子包括Mamba(Gu和Dao,2023;Dao和Gu,2024),該模型引入了具有輸入依賴轉換的選擇性狀態空間模型,以及RWKV(Peng等人,2023),它結合了Transformer和RNN的元素與線性注意力機制。這些模型不僅實現了線性時間和空間復雜度,還在各種任務中表現出競爭力。 我們還注意到一些先前用于處理長文檔的編碼器架構的工作。Longformer(Beltagy等人,2020)使用了局部窗口注意力和任務特定的全局注意力相結合的機制,隨著輸入長度的增加,能夠線性擴展,因此具有內存效率。Wang等人(2020a)通過使用低秩矩陣來近似自注意力機制,將復雜度降低到O(N)。這些研究表明,帶有線性自注意力的Transformer在多種下游任務中的表現與原始自注意力機制相匹配。類似地,Xiong等人(2021)使用了流行的Nystrom方法(Nystr?m,1930)來近似自注意力操作,在與傳統Transformer的比較中顯示出強大的實驗性能。
本節討論了用于發現最適合特定任務和硬件約束的高效模型架構的自動化方法。 先前的研究主要集中在用于視覺任務的神經架構搜索(NAS)(Tan和Le,2019;Zoph和Le,2016;Wu等人,2019;Guo等人,2020)和BERT模型(Xu等人,2021;Jawahar等人,2023;Ganesan等人,2021),這些模型的參數相對較少,減少了高效架構搜索過程的成本。然而,具有超過十億參數的大型語言模型在尋找更小、更高效的模型時面臨著顯著挑戰。其龐大的規模使搜索過程計算密集且昂貴。最近,MobileLLM(Liu等人,2024e)研究了模型深度(即層數)和寬度(即頭數)對性能的影響,有效地在數百萬參數范圍內進行了針對性架構搜索。與此同時,Shen等人(2024c)通過探索合適的初始化來減少搜索空間,從而加快了搜索過程的收斂。
近年來,大型多模態模型(LMMs)在顯著減少參數量的同時,達到了與前代模型相當甚至更優的性能。值得注意的例子包括LLaVA-Next(Liu等人,2024a)、Idefics2(Lauren?on等人,2024)和InternVL2(Chen等人,2023)系列。這一進展部分歸功于更多高效的小型語言模型,如Gemma(Team等人,2024)和phi-3-mini(Abdin等人,2024),并強調了精心策劃的數據集的重要性。
此外,人們還努力在多模態融合過程中縮減視覺編碼器的規模。例如,InternVL2利用大規模視覺編碼器的中間層輸出,同時丟棄后續模塊。更小的模型,如PaliGemma(Beyer等人,2024)和Mini-Gemini(Li等人,2024c),采用了輕量級的視覺編碼器。單體多模態模型進一步推進了這一點,完全消除了視覺編碼器,轉而使用輕量級架構生成視覺token。例如,Chameleon(Team,2024a)采用VQ-VAE模型將圖像編碼并解碼為離散token,而Mono-InternVL(Luo等人,2024a)則使用MLP生成圖像塊的視覺token,結合了一種名為多模態專家混合的特定模態前饋網絡,以區分不同的模態。
本節回顧了用于語言模型預訓練和微調的關鍵訓練技術。雖然小型語言模型(SLMs)與大型語言模型(LLMs)采用類似的訓練方法,但我們將重點介紹在有限資源情況下促進SLMs學習的高效技術。
混合精度訓練是提升SLMs和LLMs預訓練效率的關鍵技術。該方法利用低精度表示進行前向和后向傳播,同時保持高精度的權重更新。例如,Micikevicius等人(2018)引入了自動混合精度(AMP),該方法初始時使用32位浮點(FP32)精度保存權重的主副本,而在進行算術運算時使用16位浮點(FP16)精度。然而,近期的研究(Rae等人,2021)觀察到,由于FP16的數值范圍有限,AMP在某些情況下會導致精度損失。為了解決這一問題,Burgess等人(2019)提出了大腦浮點(BFLOAT16),該格式具有比FP16更多的指數位,提供了更大的動態范圍。BFLOAT16在訓練性能和表示精度方面優于FP16。
現代GPU架構進一步通過專用的Tensor Cores增強了混合精度功能。例如,早期的架構支持FP16和BFLOAT16,而NVIDIA的最新Hopper架構引入了對8位浮點(FP8)精度的支持(Luo等人),從而為大規模語言模型帶來了更高的計算效率。
為了進一步提升訓練效率并防止模型崩潰,采用了各種優化和穩定技術。雖然Adam(Diederik,2014)和AdamW(Loshchilov和Hutter,2019)優化器廣泛使用,但內存高效的變體如Adafactor(Shazeer和Stern,2018)和Sophia(Liu等人,2024b)被引入以提高訓練速度和效率。為進一步穩定訓練,梯度裁剪(Zhang等人,2020)被廣泛應用,以防止梯度爆炸。此外,仔細的初始化策略可以為模型訓練提供良好的起點。這些結合技術旨在實現最佳的訓練效率,保持數值穩定性,并生成更穩健和強大的語言模型。
為了應對預訓練階段的計算需求,語言模型通常在多個計算節點上進行預訓練,利用分布式計算資源實現高效訓練。為此,開發了多種系統級優化技術。零冗余數據并行(ZeRO)(Rajbhandari等人,2020)提供了三種漸進式的優化階段,每個階段都將更多的訓練狀態分布到設備上:ZeRO-1劃分優化器狀態,ZeRO-2增加梯度劃分,ZeRO-3進一步劃分模型參數。PyTorch的全分片數據并行(FSDP)(Zhao等人,2023b)也實現了類似的概念。這些并行技術允許使用更大的批量尺寸進行訓練,大大提高了SLMs和LLMs的效率和可擴展性。
在較小的特定任務數據集上進行微調,允許LLMs利用預訓練中獲得的知識,從而在特定任務或領域中表現出色。微調技術旨在解決諸如計算資源有限、數據質量、可用性和魯棒性等挑戰,確保能夠有效地適應新任務而無需進行廣泛的再訓練。
3.2.1 參數高效微調
參數高效微調(PEFT)僅更新一小部分參數或添加輕量級模塊,同時保持大部分預訓練模型的參數不變。這種方法減少了SLM微調時的計算成本,保留了模型的知識,減少了過擬合,并提高了靈活性。LoRA(Hu等人,2021)使用低秩分解,Prompt Tuning(Lester等人,2021)在輸入中插入可學習的提示,而Llama-Adapter(Zhang等人,2023b;Gao等人,2023)將提示添加到LLaMA的注意力塊中。動態適配器(Kong等人,2024;Feng等人,2024;Gou等人,2023;Liu等人,2023b;Luo等人,2024b)自動將多個適配器組合為專家混合模型,支持多任務處理并防止遺忘(Han等人,2024;Yang等人,2024)。
3.2.2 數據增強 數據增強通過增加訓練數據的復雜性、多樣性和質量,提升模型在下游任務中的泛化能力和性能。AugGPT(Dai等人,2023)使用ChatGPT對訓練樣本進行改寫,Evol-Instruct(Xu等人,2023)通過多步修訂生成復雜度更高的多樣化開放域指令。Reflection-tuning(Li等人,2023a,2024a)通過基于預定義標準使用GPT-4對指令和響應進行優化,提升了數據質量和指令響應一致性。FANNO(Zhu等人,2024)通過檢索增強生成技術引入外部知識源,以增強指令并生成響應。LLM2LLM(Lee等人,2024b)在訓練過程中基于模型預測生成更難的樣本。
數據增強在訓練數據有限的情況下也非常有效,例如用于低資源語言(Whitehouse等人,2023)、醫療和臨床應用(Chintagunta等人,2021)以及隱私敏感數據(Song等人,2024),從而使模型能夠在受限場景下更好地泛化并表現出更強的魯棒性。
通過使用f散度(f-divergences)的廣義版本,序列級蒸餾損失可以得到改進,如Wen等人(2023)所示。Liang等人(2023)通過使用任務感知濾波器擴展了針對語言模型的逐層蒸餾策略,該濾波器僅蒸餾來自教師模型的特定任務知識。最近的研究(Wan等人,2024a,b)表明,通過戰略性地融合多個語言模型的輸出概率分布,可以將多個語言模型融合為教師模型,以蒸餾知識到小型語言模型中。
語言模型的知識蒸餾面臨的一個問題是,當(1)教師和學生語言模型共享相同的分詞器,且(2)教師模型的預訓練數據可用時,蒸餾策略效果最佳。Boizard等人(2024)通過引入一種受最優傳輸理論啟發的通用logit蒸餾損失,解決了這一問題。蒸餾常常還與剪枝技術相結合,以創建更小的語言模型。例如,Sreenivas等人(2024)和Muralidharan等人(2024)展示了通過對大型語言模型進行剪枝并結合蒸餾損失進行重訓練的迭代步驟,可以生成性能強大的小型模型。
最新的進展探索了超越傳統標簽蒸餾的方法,通過在蒸餾過程中加入額外的監督來創建小型語言模型。Hsieh等人(2023)發現,在蒸餾過程中使用“推理依據”(rationales)作為額外的監督來源,使得蒸餾過程更加樣本高效。此外,作者發現蒸餾后的模型在常用的自然語言推理(NLI)、常識問答和算術推理基準測試上超越了大型語言模型。同樣地,Dai等人(2024)、Magister等人(2023)、Ho等人(2023)和Fu等人(2023)將從大型語言模型中提取的推理鏈與標簽信息一起蒸餾到小型語言模型中。研究表明,這些蒸餾后的模型在算術、多步數學、符號推理和常識推理能力上有顯著提升。
鑒于小型語言模型(SLMs)因其高效性和在廣泛設備與環境中的應用而變得愈發重要,本文綜述了SLMs,包括其模型架構、訓練技術以及用于優化SLMs的模型壓縮技術。我們還提出了一個直觀的SLM評估指標分類法,并總結了SLMs在各種設置和應用中的重要性。此外,我們總結了用于SLMs的訓練和基準數據集。最后,我們強調了SLMs領域中亟待解決的基本挑戰和開放性問題。我們希望這篇綜述能成為研究人員和從業者的寶貴資源,推動小型但功能強大的語言模型的進一步發展。
多模態數字人是指具備多模態認知與交互能力,且有類人的思維和行為邏輯的真實自然虛擬人。近年來隨著計算機視覺與自然語言處理等領域的交叉融合以及蓬勃發展,相關技術取得顯著進步。本文討論在圖形學和視覺領域比較重要的多模態人頭動畫、多模態人體動畫以及多模態數字人形象構建3個主題,介紹其方法論和代表工作。在多模態人頭動畫主題下介紹語音驅動人頭和表情驅動人頭兩個問題的相關工作。在多模態人體動畫主題下介紹基于循環神經網絡(recurrent neural networks,RNN)的、基于Transformer的和基于降噪擴散模型的人體動畫生成。在多模態數字人形象構建主題下介紹視覺語言相似性引導的虛擬形象構建、基于多模態降噪擴散模型引導的虛擬形象構建以及三維多模態虛擬人生成模型。本文將相關方向的代表性工作進行介紹和歸類,對已有方法進行總結,并展望未來可能的研究方向。
近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。
我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。
在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。
隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。
盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?
為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。
本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。
多模態人機交互旨在利用語音、圖像、文本、眼動和觸覺等多模態信息進行人與計算機之間的信息交換。在生理心理評估、辦公教育、軍事仿真和醫療康復等領域具有十分廣闊的應用前景。本文系統地綜述了多模態人機交互的發展現狀和新興方向,深入梳理了大數據可視化交互、基于聲場感知的交互、混合現實實物交互、可穿戴交互和人機對話交互的研究進展以及國內外研究進展比較。本文認為拓展新的交互方式、設計高效的各模態交互組合、構建小型化交互設備、跨設備分布式交互、提升開放環境下交互算法的魯棒性等是多模態人機交互的未來研究趨勢。
受益于物聯網的發展,人機交互設備在人們的 日常生活中得到了廣泛應用。 近年來,計算機視覺、 手勢識別和人工智能等技術蓬勃發展,頭戴式設備、 顯示屏和傳感器等硬件技術取得了明顯的進步,人 機交互不再局限于單一感知通道(視覺、觸覺、聽 覺、嗅覺和味覺)的輸入輸出模態(Bourguet,2003)。 多模態人機交互旨在利用語音、圖像、文本、眼 動和觸覺等多模態信息進行人與計算機之間的信息 交換。 其中包括人到計算機的多模態信息輸入與計 算機到人的多模態信息呈現,是與認知心理學、人機 工程學、多媒體技術和虛擬現實技術等密切相關的 綜合學科。 目前,多模態人機交互與圖像圖形領域 中的各類學術和技術聯合得越來越緊密。 多模態人 機交互技術作為人—機—物的技術載體,在大數據 與人工智能時代,其學術和技術發展前沿與圖像圖 形學、人工智能、情感計算、生理心理評估、互聯網大 數據、辦公教育和醫療康復等領域發展息息相關。 多模態人機交互研究最早出現在 20 世紀 90 年代, 多項工作提出了將語音和手勢融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近幾年,沉浸式可視化( Jansen 等,2014)的 出現為人機交互提供了一個新的多模態交互界面: 一個融合了視覺、聽覺和觸覺等多個感知通道的沉 浸式環境。
在學術 界, 多 模 態 人 機 交 互 的 學 術 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等國際 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會議呈現穩步增長,創新成果層 出不窮。 在產業界,語音、人臉和手勢等新型交互的應用 從噱頭轉趨理性,聚焦于車載、直播等特定場景。 觸 屏搭配一種新模態的交互方式,是當前多模態交互 產品落地的主要形態。 增強現實等新型輸出/ 顯示 模態的技術逐漸成為未來多模態人機交互產品新的 主要場景。 各國政府高度重視多模態人機交互。 在“十三 五”期間,我國設立多項重大重點項目支持多模態 人機交互方向的研究。 例如,國家重點研發計劃項 目“基于云計算的移動辦公智能交互技術與系統”、 “多模態自然交互的虛實融合開放式實驗教學環 境”等。 美國海軍開始構建下一代艦艇多模態人機 交互模式,采用全息化的指揮模式,通過佩戴視覺和 觸覺傳感器對艦船進行控制。 英國海軍公布的 T2050 未來水面艦艇概念,以多模態人機交互的方 式,有效提高工作效率。
本文旨在綜述多模態人機交互的最新進展,幫 助初學者快速了解和熟悉多模態人機交互領域;對 多模態人機交互方式進行分類整理,幫助該領域的 研究者更好地理解多模態人機交互中的各種技術; 對多模態人機交互領域面臨的機遇和挑戰進行梳 理,啟發相關研究者做出更有價值的多模態人機交 互工作。 本文將從多模態信息輸入與多模態信息輸出兩 方面對多模態交互技術進行綜述。 其中,多模態信 息輸入過程涉及可穿戴交互技術以及基于聲場感知 的輸入交互技術。 多模態信息呈現過程涉及大數據 可視化交互技術、混合現實交互技術以及人機對話 交互技術。 下面分別從大數據可視化交互、基于聲 場感知的交互、混合現實實物交互、可穿戴交互和人 機對話交互 5 個維度介紹多模態人機交互的研究進 展。 內容框架如圖 1 所示。
顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.