摘要—注意力機制已成為擴散模型中的核心組成部分,對其在多種生成與判別任務中的表現起到了關鍵作用。本文對擴散模型中的注意力機制進行了全面綜述,從系統的角度分析其在不同模態與任務中的作用、設計模式與操作方式。我們提出了一套統一的分類體系,依據注意力機制所影響的結構組件,將現有的相關改進加以歸類,從而為理解其功能多樣性提供了清晰的視角。 除了回顧架構上的創新之外,本文還探討了注意力機制在各類應用中對性能提升的貢獻。我們進一步指出當前研究中存在的限制與尚未充分探索的方向,并提出未來可能的研究路徑。本綜述為理解擴散模型不斷演進的研究圖景提供了有價值的見解,尤其聚焦于注意力機制在其中所扮演的整合性與普適性角色。 關鍵詞—擴散模型;注意力機制;多模態生成;微調
擴散模型(Diffusion Models)[1]–[3] 近年來已成為深度學習中的一項強大工具,因其在建模復雜數據分布方面表現突出而受到廣泛關注。這類模型在生成任務和判別任務中均展現出良好效果,盡管其應用更多集中在生成領域。近年來,擴散模型已被廣泛應用于多個行業,從醫療健康到娛樂媒體,在數據合成、異常檢測與優化問題等方面均帶來了顯著進展。在學術研究領域,擴散模型在自然語言處理 [4] 和計算機視覺 [5] 等方向取得了突破性成果。其生成真實且連貫數據的能力,推動了多模態生成任務的發展,例如文本生成圖像 [2], [6]–[8]、風格遷移 [9], [10]、圖像編輯 [11]–[13]、文本生成視頻 [14]–[16] 以及三維生成 [17]–[21] 等。這些應用不僅拓展了人工智能的創造力邊界,也為深度學習方法論帶來了新的思路。 擴散模型的核心流程如圖 1 所示,其通過一系列迭代的去噪步驟,將噪聲逐步轉化為結構化數據 [1]–[3]。通常,這類模型依賴于如 UNet 等架構,在每個步驟中預測去噪后的數據。盡管擴散模型在多個任務中都取得了顯著成果,但其中一大挑戰在于如何捕捉并保持特征間復雜關系與相互作用。模型不僅需要學習隨時間演化的動態模式,還需確保生成結果的可控性與預測精度。要實現這一目標,就必須具備一種能夠動態加權并對齊特征的方法,無論是在圖像合成、圖像分割還是其他任務中,注意力機制在此過程中起到了不可或缺的作用 [1], [2]。 注意力機制使得模型能夠有選擇性地優先處理輸入中的關鍵部分,并動態調整其重要性,從而更專注于最相關的特征。在每一步中動態關注輸入的不同區域,能夠幫助模型學習特征之間更精細的依賴關系,從而提升結果的質量、精度與可解釋性。這種聚焦于數據關鍵部分的能力,使模型既能捕捉局部細節,也能理解更廣泛的上下文信息 [22], [23]。 在生成任務中,例如文本生成圖像,注意力機制對于對齊文本與視覺表示至關重要 [11], [13]。它使模型能夠聚焦于文本中的關鍵屬性,并將其動態匹配至相應的圖像特征。相比傳統特征提取方法,注意力機制在輸入特征加權方式上具有更高的靈活性,使得模型能更細致地理解文本語義,并確保生成圖像與輸入描述的一致性 [3]。 在判別任務中,如語義分割 [24],注意力機制則增強了模型對圖像關鍵區域的聚焦能力,從而提升分類的準確性。與生成任務不同,此類任務的目標不是生成內容,而是提升模型對輸入結構的理解 [25]。注意力機制通過聚焦于包含關鍵信息的區域,幫助模型更準確地完成逐像素分類任務。例如,在進行目標與背景的分割時,注意力能夠使邊界或紋理等細節更清晰地被識別 [26], [27],從而實現更精確、更具上下文感知的分割效果,增強模型的整體預測能力。 盡管注意力機制在擴散模型中已在多項任務上取得顯著成果,但在特征提取與跨模態對齊方面仍存在諸多挑戰,例如一致性問題 [11], [12], [28]、控制精度不足 [13], [29], [30]、時序特征整合難度大 [31], [32],以及計算效率偏低 [33]–[35] 等。鑒于注意力機制在擴散模型中的關鍵作用,眾多研究者已提出多種改進方法,以應對上述挑戰,推動該領域持續發展。然而,目前尚缺乏對這些重要研究成果的系統性綜述。 為填補這一空白,本文從兩個維度對現有方法進行了系統分類:一是它們所解決的具體子問題,二是其應用場景。我們深入分析了各類方法的異同、優劣與適用范圍,從而對擴散模型中注意力機制的發展圖景進行了結構化梳理,并提出未來研究的潛在方向。 不同于以往的綜述研究 [36]–[39],本研究深入拆解了擴散模型中注意力機制的組成部分,從而實現更合理的分類,并更深入理解注意力在不同階段與不同模態下的作用機制。基于是否對模型結構進行修改,我們將注意力機制的改進方法劃分為五個層級,其分類體系如圖 4 所示。 本文的主要貢獻包括: * 提出一套系統化的注意力機制分類體系,覆蓋多模態擴散模型中的不同階段,揭示了注意力機制在擴散流程中扮演的多樣化角色與調控策略; * 深入探討注意力機制在多模態擴散模型中的應用場景,為不同領域的實踐提供有價值的參考; * 全面識別當前注意力機制存在的挑戰與局限,并提出潛在的改進策略,為該快速發展的研究方向提供未來研究路徑。
本文其余部分組織如下:第 2 節介紹擴散模型與經典注意力機制的基礎知識;第 3 節對現有注意力方法進行歸類與評述;第 4 節總結多模態生成任務中注意力機制的應用;第 5 節討論當前方法的局限性與未來研究方向。
摘要—近年來,視覺識別方法取得了顯著進展,廣泛應用于各個領域。在研究者們探索這些模型成功背后的機制時,越來越多的動力推動著它們在關鍵領域,如自動駕駛和醫療診斷中的應用,以便更好地診斷故障,這促進了可解釋性研究的發展。本文系統回顧了現有的視覺識別模型可解釋性研究,并從以人為中心的視角提出了一種方法分類法。該分類法基于意圖、對象、展示和方法學,將可解釋的識別方法進行分類,從而為這些XAI方法建立了一套系統且連貫的分組標準。此外,我們總結了評估指標的需求,并探討了近期技術(如大規模多模態模型)帶來的新機遇。我們旨在組織現有領域的研究,并激發未來對視覺識別模型可解釋性進行的深入探索。
關鍵詞—XAI,解釋性人工智能,可解釋性,視覺識別。
1 引言
視覺識別方法經歷了廣泛的發展,并已成功應用于多個領域。此外,研究人員越來越多地探討這些系統有效性的潛在機制,這一領域被稱為可解釋性研究。本文系統回顧了可解釋視覺識別方法,旨在幫助研究人員和開發者,甚至是那些沒有可解釋性領域背景的人,直觀地理解各種可解釋視覺識別方法的特點。
1.1 背景
視覺識別模型的快速發展和應用徹底改變了多個領域,如醫療診斷、自動駕駛和監控系統。然而,盡管這些模型在實踐中取得了成功,它們通常作為“黑箱”運行,幾乎沒有提供任何關于如何從輸入推導出具體輸出的洞察。隨著這些模型在決策過程中扮演著越來越重要的角色,理解它們預測背后機制的需求變得至關重要。 這一需求促使了解釋性人工智能(XAI)這一領域的興起,XAI致力于解釋和闡明AI算法的內部工作機制,特別是那些驅動視覺識別技術的復雜深度學習模型。XAI通過揭示模型行為和決策邊界的可視化方法,旨在減少這些模型的“黑箱”效應。以往的研究表明,除了直接幫助診斷模型故障外,可解釋性顯著增強了終端用戶對AI模型的信任,并促進了更有效的人機交互。
具體而言,視覺識別是多模態系統中視覺組件的基礎任務,其準確性和魯棒性對于后續更高層任務的性能至關重要。如圖1所示,視覺識別模型采用相對標準化的處理流程,這使得它們與其他AI模型有所區別:它們接受視覺信號作為輸入,并生成概念或類別標簽作為輸出。在當今的應用中,開放詞匯識別已成為主流需求,這突顯了視覺識別與文本模態的結合,后者是主流人機交互的主要模態。輸入和輸出的多樣性顯著增加了視覺識別領域中XAI研究的復雜性。
例如,在圖1中,現有技術如激活映射、神經元可視化和概念瓶頸分別提供了區域、特征和語義重要性的分析,從而為用戶提供了一個可以理解的預測依據。然而,以前的研究指出,無論是提供解釋,還是提供何種解釋,都可能對人類信任產生正面或負面的影響。視覺識別模型中的可解釋性復雜性給研究人員帶來了巨大的挑戰,使他們難以全面理解這一領域的發展,這促使本文系統回顧了視覺識別的XAI的最新進展和持續研究。
1.2 術語和范圍
XAI是“解釋性人工智能”(eXplainable Artificial Intelligence)的常用縮寫,指的是一組用于使AI模型的輸出和操作對人類可理解的過程和方法。目前,研究XAI的動機在于,大多數未專門設計為具備可解釋性的AI模型都是黑箱模型;這些模型的結構過于復雜,使得人類難以理解它們的工作機制。因此,可解釋性研究可以分為兩種方法:一種是通過可視化、探測和擾動等技術,理解已訓練的黑箱模型的工作細節,而不對其進行修改;另一種是在模型架構設計中引入可解釋模塊,從而實現內在可解釋性。在一些研究中,前者被稱為“可解釋性”,后者被稱為“可解釋性”。然而,大多數XAI研究并未區分這兩個術語;因此,本文也將它們視為等同的。在強調它們的差異時,會使用更明確的術語,如前者的后驗方法和后者的自解釋模型。 本文主要研究視覺識別模型,特別是那些用于識別或理解圖像中的物體的AI模型。通常,這些模型接受圖像 x 作為輸入,通過骨干特征提取器 f 提取圖像特征 z,并使用分類器頭 g 生成識別結果 y?。目前,主流的視覺識別模型可解釋性研究主要集中在圖像特征 z 和分類器 g 上,而關于骨干 f 的研究仍處于早期階段,主要聚焦于其頂層,因為這些層更可能包含語義信息。對于后驗方法和自解釋模型,提供給研究人員、開發者或用戶的解釋通常呈現在識別流程之外,并且種類繁多。由于視覺任務之間的耦合性,基于定位的可解釋性研究經常擴展到檢測和分割領域,而面向語義和自然語言交互的目標本質上與多模態技術緊密相關。因此,本文也將簡要討論這些領域中的少數相關工作。
1.3 貢獻與局限性
本文與以往的工作相比,有兩個主要的不同點:它專注于針對視覺識別模型的XAI研究,并從多維、以人為中心的視角系統地組織相關的XAI方法。由于XAI是一個廣泛的研究領域,過于寬泛的綜述可能缺乏聚焦性和實際應用性。通過集中于視覺識別任務,本文以更詳細且面向任務的方式對相關方法進行分類,從而增加了綜述的實用性。此外,由于可解釋性本質上是為了服務于人類用戶,因此從人的角度組織方法既自然又合適。 本文提出的多維框架使得用戶能夠高效理解視覺識別XAI的最新進展,并能迅速定位適合特定應用的方法。然而,將這一分類法擴展到涵蓋更廣泛的視覺任務仍面臨若干挑戰,包括需要適應不同模態和多變的背景。解決這些復雜性需要進一步的研究,以有效地調整和擴展所提出的分類法。
近年來,大規模文本到圖像生成模型的成功實證驗證了擴散模型在生成任務中的卓越性能。為了促進其在資源受限的邊緣設備上的高效部署,模型量化已成為實現模型壓縮與加速的關鍵技術之一。 本綜述系統梳理了擴散模型量化領域的最新進展,全面分析了該快速發展的研究方向中的當前技術現狀。 首先,我們概述了在擴散模型量化過程中所面臨的主要挑戰,包括基于U-Net架構以及擴散Transformer(Diffusion Transformers, DiT)模型的相關難點。隨后,我們構建了一個全面的量化技術分類體系,并深入討論了各類主流方法的原理機制。 接著,我們從定性與定量兩個維度對具有代表性的擴散模型量化方案進行了細致分析。 在定量層面,我們基于多個廣泛使用的數據集,對各種方法進行了嚴謹的基準評估,提供了對當前最前沿、最具影響力研究工作的系統對比與分析。 在定性層面,我們總結并歸納了量化誤差的影響,結合圖像可視化分析與生成軌跡的演化過程,對其影響機理進行了詳細闡述。 最后,我們展望了擴散模型量化在實際應用中的未來研究方向,提出了若干具有潛力的研究路徑與創新方案。 本綜述相關論文列表、對應代碼、預訓練模型及對比結果均已公開,詳見項目主頁。
關鍵詞:擴散模型、Transformer、模型加速、擴散模型量化
擴散模型(Diffusion Models)[1–4]近年來迅速發展,已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制,擴散模型能夠實現對樣本細節的高精度重建,顯著提升了生成質量與保真度。與變分自編碼器(Variational Autoencoders, VAEs)[5]相比,擴散模型更擅長捕捉細粒度特征,并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。 此外,擴散模型采用最大似然估計(Maximum Likelihood Estimation)為基礎的訓練策略,具備堅實的理論支撐,同時也較好地緩解了生成對抗網絡(GAN)[6]在訓練中常見的模式崩潰(mode collapse)和偽影生成等問題,從而在樣本多樣性與生成保真度之間實現了更優平衡。 近年來,跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性,包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。 然而,擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如,即使在高性能的 A6000 GPU 上,Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸:一是冗長的去噪鏈條(通常需多達 1000 步 [2]),二是計算開銷巨大的噪聲估計網絡(即得分估計網絡 [4])。
為緩解第一個瓶頸,研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器,通過數值求解反向時間的隨機微分方程(SDE)[27] 或其對應的常微分方程(ODE)[28, 29],以優化步長和控制離散誤差;另一類研究則致力于學習更優的擴散機制,如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。 為緩解第二個瓶頸,模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度,但常破壞權重結構,且往往需代價高昂的重新訓練;蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟,但對數據與算力的依賴程度較高。例如,INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練,但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下,模型量化 [43] 在保持表達能力的同時顯著提升推理效率,成為邊緣部署中擴散模型加速的有力手段,因此受到廣泛關注。 近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46],大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型(LLM)[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集,為該方向奠定了基礎;Liu 等人 [50] 進一步提出了分布對齊增強機制,有效提升了校準樣本的表達能力;So 等人 [45] 引入時間動態量化方法,支持時間步特定的激活量化;Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架,而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題;Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。 在量化感知訓練(QAT)方面,Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入,4-bit 激活量化的邊界被進一步突破,He 等人 [57] 提出 QaLoRA,Guo 等人 [58] 推出 IntLoRA,實現對大型文本到圖像模型的微調。 在極端量化場景下,BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建,BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響,導致采樣穩定性下降,因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。 在擴散 Transformer(DiT)[65] 的量化方面,He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制,以緩解異常激活引發的性能退化;同時,PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。 盡管上述研究從多個角度解決了擴散模型量化中的主要問題,但不少方法在處理類似挑戰時仍存在策略重疊的現象,反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。 為推動高效擴散模型的發展,本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念,區別于以往聚焦靜態單步模型的綜述,本文從擴散過程的多步采樣動態出發,對量化挑戰進行深入剖析,并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術,幫助研究者組合互補策略以實現最優性能。 此外,我們在三類典型任務上對主流開源方案進行了評估:類別條件生成、無條件生成、文本引導圖像生成;并通過視覺分析揭示量化偽影(如色偏、過曝、模糊、結構變形)的成因,并以實證研究加以支持。
首份擴散模型量化領域的系統綜述:據我們所知,本文為首篇全面回顧擴散模型量化研究進展的綜述性論文,涵蓋截至 2025 年 3 月的最新研究成果,填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析:首次系統歸納了擴散模型量化中的關鍵挑戰,涵蓋模型結構(如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊)及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系:構建了全面的分類框架,涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化(PTQ)與量化感知訓練(QAT)方法,并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析:在多個公開任務上對開源方案進行系統評估,結合視覺分析探討量化誤差帶來的偽影與其規律,并通過實證實驗予以驗證。 * 未來研究展望:分析當前擴散模型框架下仍面臨的挑戰,提出潛在研究方向,如與高級訓練策略的結合、向量量化跨模態優化等。
本文結構安排如下:第2節介紹擴散模型與模型量化的理論基礎,并深入探討擴散模型量化中的核心挑戰;第3節在前述討論基礎上,對現有量化方法進行分類與剖析;第4節提供標準化基準并評估典型開源方案;第5節總結全文,并展望未來研究方向。
摘 要 不同場景下時序數據的異質性極大地影響了智能決策中時序預測算法的泛化性和有效性,對其應用構成了重要阻礙。 時序預測大模型是解決這一挑戰的重要技術。綜合了時序預測領域的最新研究動態,從模態視角自上而下地探討了時序預測大 模型的4種實現思路:基于提示的方法、基于微調的方法、基于對齊的方法以及時序預測基礎模型。梳理了時序預測大模型構 建過程中的核心要素和可用技術。探討了未來的重要挑戰和研究方向。 關鍵詞 時間序列,大語言模型,基礎模型,預測時序預測技術在智能決策中扮演著重要角色: 通過分析和學習歷史數據的模式,準確預測時空系 統的未來態勢,可以為復雜系統調度優化和智能決 策提供關鍵支持。時間序列數據廣泛分布于交通、 電力、氣象等多種時空系統中,記錄了關鍵觀測點 或指標的狀態變化,是反映這些系統演變趨勢的關 鍵數據資源。時間序列預測技術致力于通過分析和 學習歷史數據的模式,準確預測未來趨勢。這種技 術在智能決策中扮演著至關重要的角色:能夠準確 預測時空系統的未來態勢,從而為有效的調度優化 和智能決策提供關鍵支持。因此,深入研究時序預 測技術對于戰場態勢感知、武器系統維護、戰場環 境監測等領域至關重要,可以顯著提高決策的準確 性和效率,為軍事行動提供精確而有力的支持。 長期以來,基于統計模型的時間序列預測算法, 如自回歸積分滑動平均(autoregressive integrated mov? ing average,ARIMA)[1] 和指數平滑狀態空間模型(ex? ponential smoothing state space model,ETS)[2] ,被廣泛 認為是可靠的工具,并在實際應用中得到了認可。 隨著深度學習技術的發展,研究者們開發了更為靈 活和強大的模型,這些模型能夠挖掘時間序列數據 中的深層價值模式,從而顯著提升預測的準確性, 成為學術研究的新趨勢。然而,基于深度學習的時 序預測模型通常要求訓練和推理階段使用相同的數 據集[3] ,這限制了它們的泛化能力。一方面,不同領 域的時序數據常常展現出不同的模式,導致模型難以 廣泛泛化;另一方面,不同領域數據的質量參差不 齊,如信噪比、歷史數據長度以及預測數據長度等, 進一步削弱了模型的跨領域可用性。在軍事領域,這 些問題尤為顯著,因為軍事應用涉及的場景多樣(例 如電力、氣象、交通等),且具有高對抗性,數據分布 漂移嚴重,這使得現有的時序預測算法面臨挑戰。 受到計算機視覺和自然語言處理領域中諸如視 覺 Transformer(vision Transformer,ViT)[4] 、雙向編碼器 表 示 Transformer(bidirectional encoder representa? tions from Transformers,BERT)[5] 、生成式預訓練Trans? former(generative pre-trained Transformer,GPT)[6] 等 預訓練大型模型的啟發,時序預測大模型日益受到 學術界的關注,并被認為是一個充滿潛力的研究方 向[7] 。這些模型的設計目標是解決數據模式異質、數 據質量不一等核心挑戰,從而開發出適用于所有領 域的時間序列預測任務的通用模型,處理零樣本或 少樣本情況下的預測,推動時序預測技術的更廣泛 應用和實踐。然而,作為一個新興領域,目前還缺 乏針對時序預測大模型研究思路和可用技術的系統 性分析。大多數現有的綜述[8-11] 主要關注于預訓練的 大語言模型(例如 GPT[6] 、LLaMA[12)] 在時序預測中的 應用。在其他研究中,文獻[13]通過“數據視角”對相 關工作進行了分類和梳理,而文獻[7]則通過“方法視 角”對相關工作進行了區分。此外,先前的研究通常 同時概述時間序列、空間數據(如軌跡)等多種類型 的數據,而沒有對時序預測任務進行深入挖掘。 本文專注于時序預測任務,全面分析了大量相 關研究,采用自上而下和自下而上兩種視角詳盡地 綜述了時序預測大模型的設計思路和具體技術:1) 自上而下的視角:采用“模態視角”來區分不同的研 究思路,即根據對自然語言和時間序列模態的利用方 式的不同對相關工作進行分類。2)自下而上的視 角:梳理了時序預測大模型構建流程中的共性關鍵技 術。兩個視角結合,既給出了實現時序預測大模型的 多種思路,也梳理了可選擇的具體技術。此外,本研 究還探討了未來可能的重要研究方向。
摘要
本綜述全面回顧了生成式學習模型在機器人操作中的最新進展,并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃,以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰,本文介紹了幾種生成模型范式,包括生成對抗網絡(GANs)、變分自編碼器(VAEs)、擴散模型、概率流模型和自回歸模型,并分析了它們的優勢和局限性。這些模型的應用分為三個層次:基礎層(專注于數據生成和獎勵生成)、中間層(涵蓋語言、代碼、視覺和狀態生成)以及策略層(強調抓取生成和軌跡生成)。每一層次均被詳細探討,并列舉了推動領域發展的代表性工作。最后,本文展望了未來的研究方向和挑戰,強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源,包括研究論文、開源數據和項目,均已匯總至以下鏈接供社區參考://github.com/GAI4Manipulation/AwesomeGAIManipulation。
I. 引言 機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要,這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理,機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一,操作在復雜環境中長期面臨重大挑戰,尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務,留下了巨大的空白。
近年來,數據驅動方法在機器人操作中日益受到重視,這些方法利用大規模數據和機器學習技術,使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展,上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力,包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示,而這些技能在之前被認為極其困難。
生成式學習模型作為現代人工智能中最重要的學習模型類別之一,解決了機器人操作中一些先前未解決的挑戰,尤其是在抓取任務中。首先,它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體,這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次,它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8],從而提高了機器人適應新任務和環境的能力,增強了抓取規劃的魯棒性。第三,它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10],從而在需要精確操作的任務中實現更可靠的性能,即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。
在本綜述中,我們重點關注生成式模型,因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案,例如改進場景理解、推理和任務規劃,從而有效緩解這些問題。在以下段落中,我們列舉了操作中的關鍵挑戰,并討論了生成式模型克服這些障礙的潛在機制。
A. 現代操作中的主要挑戰 首先,數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知,諸如強化學習(RL)和模仿學習(IL)等數據驅動方法對數據需求極高,需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗,這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題,一些研究者探索了從其他任務或領域遷移學習[14, 15, 16],以及領域隨機化等技術以緩解數據稀缺問題[4]。然而,對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。
生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集,通過提供可擴展且高效的數據生成管道,顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型,提升其性能和泛化能力。此外,生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索,促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎,從而推動了機器人操作領域的發展。
其次,長時程任務和復雜任務規劃提出了重大挑戰。復雜任務,如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19],要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術,并通常假設環境的完全可觀測性[20]。然而,在現實場景中,完全觀測很少可行,因此需要代理對任務有內在理解,包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互,難以捕捉這種復雜性[22]。 生成式模型通過將復雜任務分解為可管理的子目標(如鏈式思維推理[23]),在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力,大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃,增強其對復雜任務的理解和執行能力。通過結合這些生成技術,機器人能夠更好地處理長時程任務中的不確定性和動態交互,從而提高其在操作場景中的整體性能。 此外,生成式模型通過開發世界模型和促進動態學習,增強了機器人對物理世界的理解。通過生成中間狀態(如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]),這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態,解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化,從而提升其在動態環境中的表現。 第三,策略學習需要多模態推理能力。在機器人操作中,當前狀態可能對應多個有效動作和結果,這是由于任務復雜性和環境變異性所致。例如,杯子可以通過把手或杯身抓取,最佳選擇取決于后續任務:為杯子加水時抓取把手更合適,而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出,無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性,并阻礙了在多樣化情境中的表現。通過依賴一對一的映射,這些模型難以表示全部可能的動作范圍,從而阻礙了更靈活和可泛化的機器人系統的開發。 生成式模型在策略學習方面展示了顯著潛力,特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模,生成式模型實現了控制策略的聯合優化。例如,擴散模型已被應用于策略學習,能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束,如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略,增強了機器人執行精確和復雜操作任務的能力。此外,它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述 總之,生成式模型在機器人操作的多個層次上提供了解決方案:從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰,生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而,尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用,試圖提供一個統一且具體的視角,闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢,我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。 為系統理解生成式模型在機器人操作中的作用,我們將其應用分為三個層次:基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源,如合成數據以擴充有限數據集和獎勵信號以指導強化學習,構成模型訓練和評估的支柱。在此基礎上,中間層涵蓋語言、代碼、視覺和狀態生成等任務,使機器人能夠解釋指令、處理感知數據并推理其環境,從而連接感知與動作。最后,策略層直接解決機器人操作的核心問題,包括抓取生成和軌跡規劃,將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性,確保了機器人學習和控制的全面且可擴展的方法。
摘要—近年來,生成模型在生成任務中的卓越表現激發了人們對其在決策過程中應用的濃厚興趣。由于其處理復雜數據分布的能力和強大的模型能力,生成模型可以通過生成軌跡,有效地融入決策系統,引導智能體朝向高回報的狀態-動作區域或中間子目標。本文全面回顧了生成模型在決策任務中的應用。我們對七種基礎生成模型進行了分類:能量模型、生成對抗網絡、變分自編碼器、標準化流、擴散模型、生成流網絡和自回歸模型。關于它們的應用,我們將其功能分為三個主要角色:控制器、建模器和優化器,并討論每個角色如何為決策提供貢獻。此外,我們還探討了這些模型在五個關鍵實際決策場景中的部署情況。最后,我們總結了當前方法的優缺點,并提出了三條推進下一代生成決策模型的關鍵方向:高性能算法、大規模通用決策模型以及自我進化與自適應模型。 關鍵詞—生成模型、決策制定、生成決策制定
生成模型已成為學術界和工業界的熱門話題,主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1](用于圖像生成)和 GPT-3 [2](用于文本生成)到最近的進展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其輸出的質量和規模上迅速發展。 內容生成旨在創造與訓練樣本相似的連貫材料,而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同,決策制定涉及復雜、動態的環境和長期的決策。因此,盡管生成模型在內容生成方面取得了成功,將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括:1)如何通過與環境的交互來學習策略,而不僅僅是模仿專家行為;2)如何基于學習到的行為生成新策略,從策略學習過渡到策略生成;3)如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型,且只需最少的調優工作;4)如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。
在實際應用中,決策制定通常被稱為序列決策制定,其中決策者隨著時間推移做出一系列觀察,每個決策都會影響隨后的選擇。目標是識別一個策略,以優化期望的回報或最小化跨越序列行動的成本。經典算法,如動態規劃(DP)和強化學習(RL),廣泛應用于解決建模為馬爾可夫決策過程(MDPs)的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略,而不是生成新策略,來優化決策制定。盡管這些傳統方法在許多應用中取得了成功,但它們通常依賴于試錯或預定義的狀態和轉移,這限制了探索,并可能錯過更好的解決方案。此外,它們需要大量的計算和優化,這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練,從而降低了靈活性。
另一方面,生成模型被設計為對數據分布進行建模,而不僅僅是擬合標簽。一旦訓練完成,它們可以生成與原始數據相似的新樣本,從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下,發現新的策略成為可能。在復雜或標簽不明確的數據場景中,生成模型提供了對可能決策路徑的更深入理解,有時能引導出更符合高回報或期望目標的策略。然而,傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異,取決于任務的復雜性和環境的特點。 認識到這些優勢,近年來,開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢,進一步強調了這些方法在解決此類挑戰中的重要性。然而,目前缺乏全面的綜述,能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括:1)提出了一個全面的分類法,用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型,并將其功能分類為三個關鍵角色:控制器、建模器和優化器;2)我們回顧了生成模型在決策制定中的多樣化實際應用,重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務;3)最后,我們總結了現有工作的優缺點,并討論了未來在決策制定任務中開發高性能生成模型的前景。 本文其余部分的組織結構如下(參見圖 2 了解總體大綱):第二部分作為引言,介紹了序列決策制定的基本公式,并提供了所有研究方法的基礎知識。具體而言,我們詳細介紹了七種生成模型,并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后,第六部分討論了生成模型在決策制定中的未來發展方向,第七部分總結了本文的整體內容。
摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。
I. 引言
隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:
本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。
1 介紹
本文對大型語言模型的壓縮和效率推理進行了綜述。大型語言模型基于Transformer架構,具有強大的性能,但也帶來了巨大的內存和計算成本。本文從算法角度對大型語言模型的壓縮和效率推理方法進行了分類,包括量化、剪枝、知識蒸餾、緊湊架構設計和動態網絡。大型語言模型有兩個顯著特點: (1)大多數壓縮算法需要在壓縮后對模型進行微調和甚至重新訓練,而大型模型的微調和訓練成本非常高。因此,許多算法,如量化和剪枝,開始探索免調優算法。(2)大型模型強調通用性和泛化能力,而非單一任務的性能。因此,許多算法,如知識蒸餾,關注如何在壓縮后保留其通用性和泛化能力。 2 基本知識
2.1 Transformer
Transformer 是一種用于機器翻譯的模型,其基本結構如圖1所示。Transformer 的輸入(一個句子)通常通過嵌入層投影為一系列向量(稱為標記)作為 Transformer 的輸入。
圖1 Transformer 基本結構 每個 Transformer 塊由一個注意力模塊和一個多層感知器(MLP)模塊組成。注意力模塊將查詢和一組鍵-值對映射到輸出,輸出是值的加權和,權重由兼容性函數計算得出。注意力模塊可以描述為將查詢和鍵-值對映射到輸出的函數。兼容性函數通常是點積函數,其中權重是查詢與相應的鍵的點積,√d是縮放因子。多頭注意力將輸入標記映射到h個不同的查詢、鍵和值({Qi,Ki,Vli∈[1,h]}),然后使用不同的線性層。最終輸出是:多頭注意力=連接(head1,…,headn)W。head;=注意力(Qi,Ki,Vi),其中Wo是線性投影矩陣。 Transformer 的編碼器和解碼器結構有所不同。編碼器首先獨立地處理輸入序列(例如,用源語言編寫),解碼器將編碼器的輸出作為輸入并預測最終輸出(例如,目標語言)。編碼器和解碼器的注意力模塊有兩個核心區別:(1)編碼器使用全注意力,其中輸入序列中的任何兩個標記都是可見的,輸出標記只能看到之前的輸出標記;(2)編碼器使用自注意力模塊,即 Q、K、V 都來自輸入標記的注意力,其中 K、V 來自編碼器的輸出,而 Q 是解碼器的最后一個輸出標記。 2.2 中/大型語言模型
本文將語言模型分為中等規模和大規模兩類。中等規模的語言模型參數規模在1億以下,大規模的語言模型參數規模在1億以上。大規模的語言模型相較于中等規模的語言模型,具有更強的泛化能力和通用性,能夠處理更復雜的任務。然而,大規模的語言模型在壓縮和加速方面也面臨著更大的挑戰。 2.3 參數高效的微調(PEFT)
參數高效的微調(PEFT)是指在微調過程中盡量減少需要調整的參數數量或微調的輪數,以降低微調成本。對于中等或大型模型,全參數微調和訓練成本非常高。因此,許多參數高效的微調算法被提出,旨在盡可能減少需要調整的參數或微調的輪數。 3 量化
量化是指將輸入值從一個較大的連續集合映射到一個較小的有限集合的過程。它是降低大型語言模型內存成本和加速推理的最直接方法,特別是在支持低比特數據類型快速操作的硬件上。量化方法有許多優點,例如減少內存占用、提高推理速度等。 3.1 基本概念
僅權重/權重+激活量化:僅權重量化只量化權重,可以進一步享受特定硬件支持的高效低比特操作,但可能會損失一些精度。而權重+激活量化同時量化權重和激活,可以更好地適應輸入數據的分布,但計算速度較慢。
3.2 中型語言模型的量化方法
本節主要討論了中型語言模型的量化方法,小于或接近1B大小的模型被稱為中型語言模型,如BERT、GPT-2和BART。 量化方法主要采用QAT框架而不是PTQ,因為重新訓練中型語言模型的代價相對可以接受。重新訓練帶來的評估指標(例如精度)的改進是顯著的,特別是在極端低比特設置(例如1比特或2比特量化)下。 **中等規模語言模型中的QAT。**QAT是一種在訓練過程中引入量化誤差的方法,可以在不損失模型性能的情況下實現模型壓縮。QAT技術在中等規模語言模型中的應用主要體現在將BERT類模型中的權重向量化到INT8,例如Q8BERT將BERT模型中的權重和激活都量化為8位,而沒有顯著降低模型性能。有些工作使用更復雜的方法實現了低于8位的量化寬度,例如Q-BERT將激活保持在8位,并將混合精度權重降低到2/3位。TernaryBERT將權重限制在-1,0和+1之間,僅使用2位,并使用8位的激活。BinaryBERT將BERT的量化限制為權重二值化,即權重限制在{-α,+α}中。BiBERT是BERT的全二進制化(即1位權重、嵌入和激活)。一些工作在模型性能退化和量化位寬之間實現了自動平衡,例如趙等人利用可微神經架構搜索方法來自動分配參數的精度。 **中等規模語言模型中的PTQ。**PTQ(Post-Training Quantization)是一種在訓練后對模型進行量化的方法。PTQ不需要重新訓練整個模型,而是通過在訓練后引入量化誤差來實現模型壓縮。GOBO將大多數權重進行3位量化,少數異常權重單獨保存為FP32。I-BERT為特定的非線性函數設計了僅整數近似的方法,無需任何浮點運算即可實現端到端僅整數BERT推斷。Dai等使用更精細的粒度來減少量化誤差,將權重和激活量化為4位,并使用校準集來確定每個組的縮放因子。此外,精心定制的PTQ方法所得到的量化參數,可以作為QAT方法重新訓練的一個良好的初始化點。 **量化生成的中型語言模型。**盡管對BERT類模型進行量化的方法取得了成功,但在生成語言模型(如GPT、BART)出現之前,對生成式LLM進行量化的嘗試卻很少見。量化誤差在token-by-token生成過程中逐個累積,因此量化生成式語言模型通常是一個更復雜的問題。Tao等人的研究發現,直接將專為BERT類模型設計的量化方法應用于生成語言模型會受到同質詞嵌入和權重分布差異的阻礙。為了解決這些挑戰,作者提出了兩個解決方案:token級別的對比性引導和模塊依賴的動態縮放。DQ-BART使用QAT框架和一種序列到序列模型的量化和去噪訓練目標,即BART,進行去噪訓練。DQ-BART采用標準對稱均勻量化,并設定訓練目標為最小化量化后的低精度學生模型和全精度教師模型之間的輸出logits、注意力以及隱藏狀態之間的差異。 3.3 LLM的PTQ
針對LLM的PTQ工作分為兩類:僅權重量化和權重+激活量化 僅權重量化(Weight-Only Quantization)只對模型的權重進行量化,以減小模型大小,降低內存占用和計算成本。權重量化方法可分為有符號量化和無符號量化,通常采用量化誤差最小化的方法。基于訓練后量化的方法在訓練完成后對權重進行量化,而基于量化感知訓練的方法在訓練過程中對權重進行量化。權重量化方法可以實現不同程度的模型壓縮,例如,GPTQ和QulP等方法可以將權重量化為2位或更低的精度,從而顯著降低內存占用和計算成本。 權重+激活量化是一種深度學習模型壓縮方法,通過將權重和激活值轉換為較低精度表示,減少模型大小和計算復雜度。這種方法在移動端推理、邊緣計算、嵌入式系統等領域具有廣泛應用,可以顯著提高推理速度、降低存儲空間需求和減小計算復雜度。具體實現方法包括二值化量化、8位量化、自適應量化等。 3.4 對LLM的量化感知訓練(QAT)
量化感知訓練是一種重新訓練量化模型的方法,用于從量化引起的性能下降中恢復。這種方法通常涉及整個模型的全部參數重新訓練,但對于LLM來說成本太高。因此,一些嘗試將量化與參數高效的訓練方法相結合,以顯著降低LLM上QAT的成本。當前針對LLM的QAT方法分為兩類:全參數重新訓練和參數-高效再訓練。其中,參數-高效再訓練是一種更有效的LLM QAT方法。 全參數重新訓練是指在量化 LLM 時,對 LLM 進行完整的參數重新訓練。這種方法的主要挑戰是如何在不損害 LLM 的涌現能力的情況下,在較小的數據集上重新訓練 LLM。當前的方法通常結合 QAT 和蒸餾來保留原始模型的這些能力。LLM-QAT 直接應用基本的 QAT 框架到 LLM,并使用數據生成方法生成數據,然后使用原始 LLM 對生成的數據進行訓練,以匹配量化 LLM 的輸出分布。這種方法還允許量化和 QAT 鍵值緩存,這在長句生成過程中占用大量內存。為了減輕重新訓練完整 LLM 的成本,可以使用邊緣蒸餾方法。 參數-高效再訓練是指采用參數高效的方法重新訓練LLM。本節討論了使用LoRA、適配器、提示調整等方法對LLM進行微調的一系列工作。其中,LoFTQ和LACos-BLOOM等提出了改進的量化方法,而INT2.1則將額外的可訓練參數用于LoRA矩陣的優化。其他工作則結合了量化和適配器以及提示調整等方法。這些工作有助于提高LLM的性能和效率。 3.5 關于LLM量化的其他主題
量化相關工作還包括與量化的算法共同設計高效的內核,設計對硬件友好的量化方法,并將量化方法集成到實際應用中。例如,LUT-GEMM是為擴展版本的BCQ方法設計的有效內核,可以表示均勻和非均勻量化。其他有意義的作品研究LLM量化的內在特性,例如,Dettmers和Zettlemoyer在BLOOM、OPT、NeoX/Pythia和GPT-2等LLM家族中進行了大規模實驗,使用16位激活和k位權重的組合(3≤k≤8),規模為19M到176B參數。一些工作還專注于研究LLMs中出現系統性異常值的原因,并尋找從源頭抑制異常值的方法。例如,可量化變壓器認為激活中的異常值是由于注意力頭部的行為,注意力頭部試圖避免更新殘差。 4 剪枝
神經網絡剪枝是一種用于壓縮和加速的技術,通過消除非必要的權重或結構來保持網絡性能水平。盡管剪枝在CNN中顯示出顯著效果,但在LLMs中效果不太穩定。剪枝效果不那么有效的原因在于微調成本高昂,但剪枝對于模型壓縮至關重要,需要進一步探索以增強和改進其效果。剪枝技術對于LLMs的優化和性能提升具有重要意義。 4.1 基本概念
上/下游剪枝:語言模型訓練包括預訓練和微調兩個階段。上游修剪在微調前對模型進行修剪,保留模型對多種任務的適應性,確保其多功能性;下游修剪在微調過程中進行修剪,指導模型專注于一個明確的任務。兩者各有特點,根據實際需求選擇合適的方法。
4.2 中型語言模型的剪枝方法
針對語言模型的專業設計剪枝方法具有獨特性,不同于傳統的剪枝方法。它專門針對基于轉換器的模型和適用于多種不同架構模型的通用方法。這些剪枝方法可分為無結構方法和結構化方法。 4.2.1 針對中型語言模型的非結構化剪枝
非結構剪枝方法在不考慮約束的情況下,將非必要權重置為零。接下來介紹了三種修剪方法:基于規模的剪枝、基于損失的剪枝和正則化。這些技術有助于減少模型參數數量,提高模型性能和效率。 基于規模的剪枝是指根據模型的大小來選擇合適的剪枝方法。基于規模的剪枝方法,將權重的規模和激活值的規模納入到剪枝度量中,其中幅度修剪是最常用的方法,在研究中被應用于中型語言模型。Gordon等人通過幅度修剪壓縮BERT,結果表明約30-40%的權重是不必要的,丟棄不會影響BERT的性能。漸變幅度修剪和GMP?等方法引入了稀疏度比例計劃,在整個修剪過程中逐漸降低稀疏度比例,這種方法允許在隨后的修剪步驟中更多的恢復時間,最終導致性能改善。 基于損失的剪枝是一種通過分析權重對損失函數的貢獻來確定哪些權重可以被剪枝的方法。它通常比基于權重大小的剪枝方法更準確,因為它考慮了權重在特定任務中的重要性。基于損失的剪枝主要有兩種方法:基于梯度的剪枝和基于Hessian矩陣的剪枝。基于梯度的剪枝包括OBD和OBS等,基于Hessian矩陣的剪枝包括L-OBS和L-OBD等。這些方法在語言模型剪枝中取得了很好的效果,例如SparseGPT和LLM Surgeon方法。 正則化方法包括L1、L2和Lo正則化,其中Lo正則化在模型壓縮中更常用。Lo正則化將權重的Lo范數納入損失函數,實現非零權重的稀疏化。然而,離散的Lo范數在梯度下降優化中存在挑戰,因此使用硬混凝土分布作為二進制掩碼的近似,如圖4。 圖4 使用蒙特卡洛模擬對硬混凝土分布的近似概率密度直方圖。該硬混凝土分布的參數為對數α=0,β=0.5,γ=?0.1,和ζ=1.1。在該規格下,硬混凝土分布大致將其質量的一半分配到{0,1}中,其余分配到(0,1)中。 **其他。**非結構剪枝方法與N:M稀疏性集成,可以解決稀疏矩陣的非規則性質帶來的挑戰,提供純非結構化方法可能缺乏的推理速度提升。N:M稀疏性原則要求在神經網絡中連續的M組權重中,不超過N個權重具有非零值,底層硬件可以壓縮經常出現的零值,實現推理加速。這種方法在保持模型性能的同時,顯著提高了計算速度。 4.2.2 針對中型語言模型的結構化剪枝
無結構剪枝方法雖然能實現高稀疏度并保持性能,但不一定能在普通硬件上實現推理加速。在應用于中型語言模型的有序剪枝方法中,選擇適當的剪枝單位與度量同樣重要。使用與模型架構相關的結構作為剪枝單元往往能產生更理想的結果。接下來將深入探討結構化剪枝的領域,包括基于權重的剪枝、基于損失的剪枝和正則化技術。 **基于權重的剪枝。**修剪單元權重的加權和可以作為有意義的表示,廣泛應用于CNN中的卷積核。該方法也可擴展到中型語言模型,例如通過將權重大小與L2范數加權和,表示注意力頭、FFN神經元和權重塊的重要性。然后,根據重要性得分排序,去除不重要的結構。 **基于損失的剪枝。**在基于損失的剪枝方法中,對注意力頭部的探索和分析得到了相當的關注。頭部剪枝方法可以顯著提高模型性能和推理速度,同時保持測試準確性。此外,塊移動修剪方法通過考慮任意大小的塊并集成到運動修剪中來擴展結構方法,同時與FFN中神經元修剪的組合可以獲得最佳的整體性能。此外,一些結構化剪枝方法可以泛化,因為其中的剪枝單元是神經元。 **正則化。**正則化方法包括L0和L1正則化。其中,L0正則化因其廣泛的應用而脫穎而出,而L1正則化也得到了相關研究。這些方法主要應用于注意力頭的剪枝,包括因子化低秩剪枝、粗粒度和細粒度剪枝等。這些方法通過結合稀疏性誘導的目標學習得到不同大小的剪枝模型,并可以通過微調提高性能。這些方法在實驗中實現了超過10倍的速度提升,同時精度只略有下降。 **其他。**結構化修剪還有層修剪、令牌修剪等方法。層修剪涉及在推理過程中刪除不重要的令牌以減少計算需求。學習令牌剪枝是一種直接有效的方法,根據輸入序列穿過轉換器層的情況來適當地刪除不重要令牌。每個令牌的剪枝度量由Transformer塊中歸一化注意力概率的總和確定。此外,還有譜歸一化身份先驗(SNIP)等單元,它采取策略來剪枝注意力層和FFN子層。這些方法有助于減少計算需求并提高模型性能。 4.3 LLM的修剪方法
本節介紹了針對LLM的剪枝方法,包括其順序和特點,并進行了全面的比較。這些方法采用與中等規模語言模型所使用的并行方法相同的方法,但省略了微調過程。表3總結了LLM的各種修剪方法,這些方法在LLM領域具有廣泛的應用前景。表3 對LLM的各種修剪方法的總結
4.3.2 LLM的非結構化剪枝
非結構剪枝方法在保持模型性能方面具有優勢,能夠實現50%的稀疏度比率,被廣泛用作后續方法的基準。后續方法在NLP任務中超越了這些方法,取得了優越的結果。雖然這些方法難以提高推理速度,但它們可以與N:M稀疏性結合以加速推理速度。這些方法需要最少的校準數據,即對模型的一次前向傳遞專門獲取激活值或梯度以計算權重的重要性。LLM的非結構化剪枝可分為基于規模的剪枝方法和基于損失的剪枝方法。 基于規模的剪枝方法將權重幅度和激活值結合作為剪枝度量。例如,Wanda和RIA使用權重幅度和激活度量,E-Sparse還引入信息熵到度量中。Wanda引入一種新穎的修剪度量,同時考慮了權重和激活值的幅度,認為權重的意義不應該孤立地評估,而應該考慮它與相應激活值的產品。RIA也同時考慮權重和激活,主要區別在于其緩解通道腐敗的方法,用相對重要性取代了權重的幅度。E-Sparse引入了隱藏狀態特征的信息熵到剪枝度量中,熵作為信息豐富度的度量,數值越高表示信息越豐富。 基于損失的剪枝方法包括二階和一階方法。其中,SparseGPT是一種高效的二階剪枝方法,將OBS技術融入GPT家族模型中,并使用稀疏性比率分配給每個權重矩陣。此外,還介紹了基于OBS和OBD的概念,以及一種新型剪枝度量ISC。一階方法中,GBLM-Pruner是一種基于梯度的語言模型剪枝方法,通過與權重的幅度以及不同樣本的相應梯度的歸一化相乘來定義權重。 4.3.3 LLM的結構化剪枝
LLM的結構剪枝方法不依賴硬件,能加速推理,但需微調以恢復性能。LLM-Pruner作為基準,促進比較。微調雖在非結構剪枝中不再使用,但LLM中仍廣泛采納。LLM的結構化剪枝涵蓋基于規模的剪枝、基于損失的剪枝和正則化。 基于規模的剪枝方法考慮行或列作為剪枝單位。例如,基于波動自適應結構化剪枝(FLAP)的剪枝單位是列。權重矩陣中每個列的重要性得分通過“波動度量”來測量,該度量是輸入特征的樣本方差,其中權重與權重矩陣相應列的平方范數相關聯。此外,FLAP還納入了旨在減輕組件刪除所產生的負面影響偏差補償機制,以消除微調的必要性。 基于損失的剪枝方法中,梯度信息至關重要。一些方法利用梯度信息來定義剪枝結構、選擇剪枝目標等。其中一些方法可以動態地識別和指定剪枝單元,如LLM-Pruner和LoRAShear。此外,Ji等人提出了一種新穎的方法,使用非神經模型作為精度預測器來自動識別最佳修剪模型。這種方法通過評估和預測不同修剪配置對神經網絡精度的沖擊,促進更有效和自動化的最佳修剪模型選擇。這些方法在保持模型性能的同時實現高稀疏比率具有挑戰性。 正則化方法包括剪枝LLaMA和Compresso。剪枝LLaMA通過聯合修剪粗粒度和細粒度模塊,引入了目標結構剪枝和動態批量加載兩個新穎組件,實現了緊湊替代方案并優于從頭開始訓練的模型。Compresso將LoRA集成到L0正則化中,通過協作剪枝范式提高LLM在剪枝過程中的理解和合作,從而提高性能并適應修改后的模型結構**。**
4.4 關于LLM剪枝的其他主題
**提高LLM的剪枝效率。**為了增強針對LLMs的定制修剪方法的有效性,開發出了幾種輔助技術,包括針對子區域定制的稀疏性比率、后修剪微調方法和硬件優化。其中一種定制稀疏比率的方法是“離群加權分層稀疏”(OWL),它引入了一套定制的非均勻分層稀疏比率。另一種后修剪微調方法是“動態稀疏無訓練”,它無需完整的微調過程即可進一步細化稀疏LLM。這些技術可以提高現有剪枝方法(如Wanda和SparseGPT)的性能,表明剪枝性能的潛在提升可以通過各種與剪枝方法核心無關的手段實現。 **LLM剪枝的未來工作。**LLM剪枝領域面臨兩個重要挑戰,一是將剪枝與其他方法結合以提高性能,二是微調成本高。科研人員和從業人員需應對無法執行完整微調的挑戰,特別是當處理旨在增強剪枝性能的LLM時。解決這些挑戰對于提高剪枝技術的有效性和實用性至關重要。 5 知識蒸餾(KD)
知識蒸餾是一種將教師模型的知識轉移給學生模型的技術,用于壓縮和加速模型,以更簡潔和更有效的方式表示教師模型的知識。 5.1 基本概念
圖5 知識蒸餾分類
Black-box KD 是一種黑盒知識蒸餾方法,它不需要訪問教師模型的內部信息,而是通過教師模型的預測結果來傳遞知識。這種方法適用于大型模型的知識蒸餾,因為大型模型的內部信息通常是不可訪問的。黑盒知識蒸餾的損失函數通常包括預測損失和關系損失兩部分,其中預測損失用于衡量學生模型和教師模型預測結果的差異,關系損失用于衡量學生模型和教師模型在處理關系型知識時的差異。黑盒知識蒸餾的主要優點是可以更好地模擬教師模型的行為,但缺點是需要更多的計算資源。
5.2 中等規模語言模型的知識蒸餾方法
中等規模的語言模型基于transformer結構,通過預訓練和微調兩個階段進行訓練。預訓練階段使用大規模的無標簽數據集,學習語言的通用特征和結構;微調階段使用帶標簽的數據,使其適應特定任務。模型蒸餾可分為微調蒸餾和預訓練蒸餾兩類。表4展示了各種中等規模模型蒸餾方法的訓練階段、知識來源和損失函數。表4 BERT各種KD方法的總結。嵌入、注意力、隱藏和預測代表知識分別來自嵌入、注意力機制、隱藏層和模型的預測。
微調蒸餾計算成本高,因此提出了許多微調知識蒸餾方法來減少成本。預訓練蒸餾可以減少針對特定任務的計算成本,但帶來新的挑戰。教師模型比學生模型具有更大的容量和更強的表示能力,學生模型在大量開放域訓練數據上產生與教師模型匹配的預測是一項具有挑戰性的任務。因此,選擇預訓練蒸餾和微調蒸餾之間的通用方法取決于如何在模型大小和性能之間進行權衡。 5.3 大語言模型的知識蒸餾方法
大型語言模型數量不斷增加,但許多模型是閉源的,這限制了學生模型的知識獲取。通過利用教師模型的響應,即知識剩余來源,我們可以將信息傳遞給學生模型,實現知識蒸餾。根據學生模型的知識來源是否僅限于教師模型提供的答案,可以將大型語言模型的知識蒸餾分為黑盒蒸餾和白盒蒸餾。黑盒蒸餾適用于學生模型可以從教師模型響應之外的其他來源獲取知識的場景,而白盒蒸餾適用于學生模型只能從教師模型響應中獲取知識的場景。 **黑盒知識蒸餾。**研究人員發現,當模型的參數足夠大時,LLMs表現出涌現能力,能夠處理復雜的任務。黑箱蒸餾方法利用這種能力,通常使用三種常見的方法:指令跟隨、思想鏈和上下文學習。此外還有還有其他方法生成特定的強化數據集,例如使用符號知識折衷為常識模型獲得高質量的常識知識圖譜,DISCO使用LLM獲取反事實數據并過濾以獲得高質量數據集以提高學生在NLI任務中的能力,PubMedBERT提出了一種全新框架處理不良事件實體和ADE關系提取,以及Promptmix使用LLM根據比例混合和重新標記文本數據用于分類問題以獲得更強大的訓練數據集。 **白盒知識蒸餾。**白盒蒸餾的研究工作相對較少,但仍有一些探索。MINILLM和GKD等模型專注于損失函數,并使用反向KL散度來幫助學生從教師分布中學習。此外,Padmanabhan等人通過提示語言模型生成轉移集,使學生的分布與轉移集上的教師分布相匹配。TSLD利用判別概率表征進行標記化,以減少在應用QAT時引入的錯誤。MiniMA發現當學生模型的大小約為教師模型參數數量的40%時,最佳的蒸餾效果會出現。這些方法都旨在幫助學生訓練,并利用教師提供的信息來增強學生的表達能力。 6 緊湊架構設計
緊湊架構設計是一種提高效率和精簡的理念,通過優化網絡結構和算法,顯著提高模型效率,同時減少計算資源和內存的使用。它可分為微觀和宏觀兩個層次進行研究,重點優化注意力計算和Transformer架構設計。 6.1 高效注意力
Transformer中的標準自注意力機制時空復雜度為O(N2),阻礙了處理長序列問題的能力。為了解決這個問題,出現了高效注意力工作,包括稀疏注意力、線性近似注意力和閃存注意力等。 稀疏注意力方法允許每個標記只關注局部或主要相關的項,從而實現稀疏注意力模式,從而降低計算和內存需求。稀疏注意力方法可以分為基于全局、基于窗口和基于數據三種方法。基于全局的方法包括全局注意力、基于窗口的方法包括局部注意力和固定注意力模式,基于數據的方法包括隨機注意力和數據驅動的稀疏注意力。 圖6 比較稀疏注意力模式。(a) 完全自注意力(b) 步長注意力(c) 窗口注意力(d) 全局注意力 線性近似注意力方法以解決標準注意力計算中存在的二次時間復雜度問題。線性近似注意力計算方法可以分為基于關聯性和低秩的方法。基于關聯性的方法通過計算 KTV 并利用軟最大化實現線性注意力,而低秩方法則通過將 QKT 分解為低秩矩陣實現線性注意力。 6.2 神經架構搜索(NAS)
NAS是一種通過搜索算法自動尋找最優神經網絡結構的方法。這種方法可以避免手動設計神經網絡結構的繁瑣過程,并且能夠找到在特定任務上表現更好的模型結構。HAT 是一種神經架構搜索方法,它通過構建一個 Super Transformer 來近似包含搜索空間中的所有 Sub Transformer 模型,并通過延遲預測器預測延遲,從而加速搜索過程。這種方法可以避免昂貴的重新訓練,并且可以觀察到一些重要的性質。 7 動態網絡(DyNN)
動態網絡(DyNN)是一種在資源受限環境下處理大型語言模型(LLM)的方法,它只使用網絡的一部分來處理每個輸入,從而降低計算和內存需求。在自然語言處理(NLP)和LLM領域,當前的DyNN研究主要包括三種方法:早期退出、級聯推理和混合專家(MoE)。早期退出旨在在深度神經網絡的早期層動態終止推理過程,以減少響應時間。級聯推理將模型分解為多個子模型,每個子模型處理輸入序列的不同部分。混合專家將模型分解為多個專家,每個專家處理輸入序列的不同部分。這些方法可以結合其他壓縮加速方法來提高LLMs的效率。表5中總結了一些具有代表性的MoE方法。表5 各種MoE方法總結
7.1 將MoE與其他高效技術結合使用
MoE 與其他高效技術結合的研究包括剪枝、知識蒸餾和參數高效微調(PEFT)。在稀疏 MoE 模型中,大多數現有工作都關注如何在保留大部分表示能力的同時減少內存占用。MoEBERT 將預訓練 BERT 中的前饋網絡(FFN)轉換為多個專家,并在推理時只激活一個專家,以提高速度。MoEfication 旨在將 FFN 轉換為 MoE 層的轉換推廣到各種 Transformer 模型。σ-MoE 和 SwitchHead 引入了額外的稀疏性到 FFN 和注意力組件,以減少標準 Transformer 的計算和內存需求。Sparse Mixers 和 SMLP 替換了大部分自注意力子層和 FFN,并使用 MoE 子層和路由機制確保來自同一句子的標記被發送到同一專家。AdaMix 提出了一種混合適配器或低秩分解矩陣的混合方法,以增強下游性能。MixDA 使用一組領域適配器注入領域特定知識,并訓練一個混合適配器門動態融合多個領域任務。EcoAssistant 和 FrugalGPT 利用查詢緩存和 LLM 層次結構處理不同復雜度的請求。MoE 的研究歷史較長,廣泛應用于今天的 LLM,包括模型壓縮和加速技術。 8 加速框架
本章主要介紹了一些用于加速大型語言模型(LLM)推理的框架。這些框架旨在提高 LLM 在不同場景下的效率,包括延遲、吞吐量和內存等。這些框架可以分為通用框架和特定框架。通用框架包括 DNNFusion 和 DeepSpeed Inference,它們可以應用于各種場景,而特定框架則針對特定場景進行優化,如 TurboTransformer 和 ByteTransformer。表6為各種加速框架的總結。這些框架通過操作融合、張量并行、推理管道和卸載系統等技術來提高 LLM 的推理效率。表6 各種加速框架的總結
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。
摘要:大數據是多源異構的。在信息技術飛速發展的今天,多模態數據已成為近來數據資源的主要形式。研究多模態學習方法,賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務,介紹了多模態學習的認知機理與發展過程。在此基礎上,重點綜述了多模態統計學習方法與深度學習方法。此外,本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式,并對未來可能的研究方向進行思考與展望。