曰本中文字幕一区二区三区高清,欧美精品一区二区视频在线观看,制服丝袜中文字幕亚洲欧美,97人妻一区免费精品,日韩欧美一区二区久久婷婷

摘要—注意力機制已成為擴散模型中的核心組成部分，對其在多種生成與判別任務中的表現起到了關鍵作用。本文對擴散模型中的注意力機制進行了全面綜述，從系統的角度分析其在不同模態與任務中的作用、設計模式與操作方式。我們提出了一套統一的分類體系，依據注意力機制所影響的結構組件，將現有的相關改進加以歸類，從而為理解其功能多樣性提供了清晰的視角。除了回顧架構上的創新之外，本文還探討了注意力機制在各類應用中對性能提升的貢獻。我們進一步指出當前研究中存在的限制與尚未充分探索的方向，并提出未來可能的研究路徑。本綜述為理解擴散模型不斷演進的研究圖景提供了有價值的見解，尤其聚焦于注意力機制在其中所扮演的整合性與普適性角色。 關鍵詞—擴散模型；注意力機制；多模態生成；微調

1 引言

擴散模型（Diffusion Models）[1]–[3] 近年來已成為深度學習中的一項強大工具，因其在建模復雜數據分布方面表現突出而受到廣泛關注。這類模型在生成任務和判別任務中均展現出良好效果，盡管其應用更多集中在生成領域。近年來，擴散模型已被廣泛應用于多個行業，從醫療健康到娛樂媒體，在數據合成、異常檢測與優化問題等方面均帶來了顯著進展。在學術研究領域，擴散模型在自然語言處理 [4] 和計算機視覺 [5] 等方向取得了突破性成果。其生成真實且連貫數據的能力，推動了多模態生成任務的發展，例如文本生成圖像 [2], [6]–[8]、風格遷移 [9], [10]、圖像編輯 [11]–[13]、文本生成視頻 [14]–[16] 以及三維生成 [17]–[21] 等。這些應用不僅拓展了人工智能的創造力邊界，也為深度學習方法論帶來了新的思路。擴散模型的核心流程如圖 1 所示，其通過一系列迭代的去噪步驟，將噪聲逐步轉化為結構化數據 [1]–[3]。通常，這類模型依賴于如 UNet 等架構，在每個步驟中預測去噪后的數據。盡管擴散模型在多個任務中都取得了顯著成果，但其中一大挑戰在于如何捕捉并保持特征間復雜關系與相互作用。模型不僅需要學習隨時間演化的動態模式，還需確保生成結果的可控性與預測精度。要實現這一目標，就必須具備一種能夠動態加權并對齊特征的方法，無論是在圖像合成、圖像分割還是其他任務中，注意力機制在此過程中起到了不可或缺的作用 [1], [2]。注意力機制使得模型能夠有選擇性地優先處理輸入中的關鍵部分，并動態調整其重要性，從而更專注于最相關的特征。在每一步中動態關注輸入的不同區域，能夠幫助模型學習特征之間更精細的依賴關系，從而提升結果的質量、精度與可解釋性。這種聚焦于數據關鍵部分的能力，使模型既能捕捉局部細節，也能理解更廣泛的上下文信息 [22], [23]。在生成任務中，例如文本生成圖像，注意力機制對于對齊文本與視覺表示至關重要 [11], [13]。它使模型能夠聚焦于文本中的關鍵屬性，并將其動態匹配至相應的圖像特征。相比傳統特征提取方法，注意力機制在輸入特征加權方式上具有更高的靈活性，使得模型能更細致地理解文本語義，并確保生成圖像與輸入描述的一致性 [3]。在判別任務中，如語義分割 [24]，注意力機制則增強了模型對圖像關鍵區域的聚焦能力，從而提升分類的準確性。與生成任務不同，此類任務的目標不是生成內容，而是提升模型對輸入結構的理解 [25]。注意力機制通過聚焦于包含關鍵信息的區域，幫助模型更準確地完成逐像素分類任務。例如，在進行目標與背景的分割時，注意力能夠使邊界或紋理等細節更清晰地被識別 [26], [27]，從而實現更精確、更具上下文感知的分割效果，增強模型的整體預測能力。盡管注意力機制在擴散模型中已在多項任務上取得顯著成果，但在特征提取與跨模態對齊方面仍存在諸多挑戰，例如一致性問題 [11], [12], [28]、控制精度不足 [13], [29], [30]、時序特征整合難度大 [31], [32]，以及計算效率偏低 [33]–[35] 等。鑒于注意力機制在擴散模型中的關鍵作用，眾多研究者已提出多種改進方法，以應對上述挑戰，推動該領域持續發展。然而，目前尚缺乏對這些重要研究成果的系統性綜述。為填補這一空白，本文從兩個維度對現有方法進行了系統分類：一是它們所解決的具體子問題，二是其應用場景。我們深入分析了各類方法的異同、優劣與適用范圍，從而對擴散模型中注意力機制的發展圖景進行了結構化梳理，并提出未來研究的潛在方向。不同于以往的綜述研究 [36]–[39]，本研究深入拆解了擴散模型中注意力機制的組成部分，從而實現更合理的分類，并更深入理解注意力在不同階段與不同模態下的作用機制。基于是否對模型結構進行修改，我們將注意力機制的改進方法劃分為五個層級，其分類體系如圖 4 所示。本文的主要貢獻包括： * 提出一套系統化的注意力機制分類體系，覆蓋多模態擴散模型中的不同階段，揭示了注意力機制在擴散流程中扮演的多樣化角色與調控策略； * 深入探討注意力機制在多模態擴散模型中的應用場景，為不同領域的實踐提供有價值的參考； * 全面識別當前注意力機制存在的挑戰與局限，并提出潛在的改進策略，為該快速發展的研究方向提供未來研究路徑。

本文其余部分組織如下：第 2 節介紹擴散模型與經典注意力機制的基礎知識；第 3 節對現有注意力方法進行歸類與評述；第 4 節總結多模態生成任務中注意力機制的應用；第 5 節討論當前方法的局限性與未來研究方向。

付費5元查看完整內容

1 引言

擴散模型（Diffusion Models）[1–4]近年來迅速發展，已成為主流的深度生成模型之一。通過對后驗分布的精細建模和迭代去噪機制，擴散模型能夠實現對樣本細節的高精度重建，顯著提升了生成質量與保真度。與變分自編碼器（Variational Autoencoders, VAEs）[5]相比，擴散模型更擅長捕捉細粒度特征，并有效規避了傳統重建方法在生成高保真樣本時的結構性限制。此外，擴散模型采用最大似然估計（Maximum Likelihood Estimation）為基礎的訓練策略，具備堅實的理論支撐，同時也較好地緩解了生成對抗網絡（GAN）[6]在訓練中常見的模式崩潰（mode collapse）和偽影生成等問題，從而在樣本多樣性與生成保真度之間實現了更優平衡。近年來，跨學科的研究成果進一步凸顯了擴散模型在諸多生成任務中的強大適應性，包括文本到圖像生成 [7, 8]、圖像超分辨率 [9, 10]、圖像修復 [11, 12]、風格遷移 [13–15]、文本到視頻生成 [16–18]、時間序列建模 [19, 20]、可解釋性建模 [21]、分子生成 [22] 和醫學圖像重建 [23, 24] 等。然而，擴散模型在推理過程中往往面臨顯著的計算與內存開銷。例如，即使在高性能的 A6000 GPU 上，Stable Diffusion [25] 在 16GB 顯存條件下執行一次去噪步驟仍需超過 1 秒 [26]。這種低效率主要源于兩個關鍵瓶頸：一是冗長的去噪鏈條（通常需多達 1000 步 [2]），二是計算開銷巨大的噪聲估計網絡（即得分估計網絡 [4]）。

為緩解第一個瓶頸，研究者提出了多種高效采樣策略。其中一類方法著力于構建高性能采樣器，通過數值求解反向時間的隨機微分方程（SDE）[27] 或其對應的常微分方程（ODE）[28, 29]，以優化步長和控制離散誤差；另一類研究則致力于學習更優的擴散機制，如擴散方案學習 [30–32] 和噪聲尺度學習 [33–35]。為緩解第二個瓶頸，模型壓縮技術如剪枝 [36, 37]、蒸餾 [38, 39] 和量化 [40, 41] 被引入擴散模型中。剪枝雖能減少模型復雜度，但常破壞權重結構，且往往需代價高昂的重新訓練；蒸餾方法可通過學習反向 SDE 的積分過程顯著減少采樣步驟，但對數據與算力的依賴程度較高。例如，INSTAFLOW [32] 利用 Rectified Flow [42] 作為教師模型進行有監督蒸餾訓練，但整體訓練過程耗費高達 199 個 A100 GPU 日。相比之下，模型量化 [43] 在保持表達能力的同時顯著提升推理效率，成為邊緣部署中擴散模型加速的有力手段，因此受到廣泛關注。近期在擴散模型量化方面的研究取得了顯著突破 [40, 41, 44–46]，大量前沿工作聚焦于將原本應用于 CNN 架構 [47] 或大型語言模型（LLM）[48, 49] 的高階量化范式適配至擴散模型。開創性工作 PTQ4DM [40] 首次引入基于高斯分布的時間步采樣生成校準集，為該方向奠定了基礎；Liu 等人 [50] 進一步提出了分布對齊增強機制，有效提升了校準樣本的表達能力；So 等人 [45] 引入時間動態量化方法，支持時間步特定的激活量化；Wang 等人 [51] 構建了可微分的時間步粗粒度分組框架，而 Huang 等人 [52] 則提出時序特征保持量化以緩解采樣紊亂問題；Tian 等人 [53] 則進一步推進了視頻生成中的時間對齊技術。在量化感知訓練（QAT）方面，Q-DM [54]、QuEST [55] 和 MEFT-QDM [56] 通過實證研究系統優化了多個目標函數。隨著 LoRA 技術的引入，4-bit 激活量化的邊界被進一步突破，He 等人 [57] 提出 QaLoRA，Guo 等人 [58] 推出 IntLoRA，實現對大型文本到圖像模型的微調。在極端量化場景下，BLD [59]、BinaryDM [60] 和 BiDM [61] 借助伯努利分布進行潛空間重建，BitsFusion [62] 和 BDM [63] 則采用混合精度策略。但這些方法往往受到量化誤差擾動影響，導致采樣穩定性下降，因此催生了如 PTQD [44]、D2-DPM [46] 和 Tac-QDM [64] 等誤差校正機制。在擴散 Transformer（DiT）[65] 的量化方面，He 等人 [66] 與 Q-DiT [67] 提出了針對性分組量化機制，以緩解異常激活引發的性能退化；同時，PTQ4DiT [68]、DiT-AS [69]、ViDiT-Q [70] 和 HQ-DiT [71] 等方法通過通道平滑與均衡機制降低了量化敏感性。盡管上述研究從多個角度解決了擴散模型量化中的主要問題，但不少方法在處理類似挑戰時仍存在策略重疊的現象，反映出當前該領域尚缺乏一份從全局視角出發的系統綜述。為推動高效擴散模型的發展，本文圍繞擴散模型量化進行系統性和專業化綜述。我們首先介紹擴散模型與模型量化的基本概念，區別于以往聚焦靜態單步模型的綜述，本文從擴散過程的多步采樣動態出發，對量化挑戰進行深入剖析，并構建了細化的解決方案分類體系。我們進一步歸納各領域的關鍵技術，幫助研究者組合互補策略以實現最優性能。此外，我們在三類典型任務上對主流開源方案進行了評估：類別條件生成、無條件生成、文本引導圖像生成；并通過視覺分析揭示量化偽影（如色偏、過曝、模糊、結構變形）的成因，并以實證研究加以支持。

本文的主要貢獻包括：

首份擴散模型量化領域的系統綜述：據我們所知，本文為首篇全面回顧擴散模型量化研究進展的綜述性論文，涵蓋截至 2025 年 3 月的最新研究成果，填補理論與實踐之間的空白。 * 對擴散模型量化挑戰的深入剖析：首次系統歸納了擴散模型量化中的關鍵挑戰，涵蓋模型結構（如U-Net中的跳躍連接、Transformer中的注意力機制及前饋網絡、文本到圖像模型中的多模態對齊）及獨立于架構之外的多步采樣過程引發的問題。 * 完整的量化方法分類體系：構建了全面的分類框架，涵蓋基于 U-Net 和 DiT 的所有主流后訓練量化（PTQ）與量化感知訓練（QAT）方法，并介紹了如校準采樣策略、動態激活、誤差修正、分組策略與通道均衡等核心機制。 * 定量基準測試與定性分析：在多個公開任務上對開源方案進行系統評估，結合視覺分析探討量化誤差帶來的偽影與其規律，并通過實證實驗予以驗證。 * 未來研究展望：分析當前擴散模型框架下仍面臨的挑戰，提出潛在研究方向，如與高級訓練策略的結合、向量量化跨模態優化等。

本文結構安排如下：第2節介紹擴散模型與模型量化的理論基礎，并深入探討擴散模型量化中的核心挑戰；第3節在前述討論基礎上，對現有量化方法進行分類與剖析；第4節提供標準化基準并評估典型開源方案；第5節總結全文，并展望未來研究方向。

付費5元查看完整內容

決策智能 · 時間序列預測 · 大模型 ·

5 月 8 日

[付費5元查看完整內容]決策智能中的時間序列預測大模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要不同場景下時序數據的異質性極大地影響了智能決策中時序預測算法的泛化性和有效性，對其應用構成了重要阻礙。時序預測大模型是解決這一挑戰的重要技術。綜合了時序預測領域的最新研究動態，從模態視角自上而下地探討了時序預測大模型的4種實現思路：基于提示的方法、基于微調的方法、基于對齊的方法以及時序預測基礎模型。梳理了時序預測大模型構建過程中的核心要素和可用技術。探討了未來的重要挑戰和研究方向。關鍵詞時間序列，大語言模型，基礎模型，預測時序預測技術在智能決策中扮演著重要角色：通過分析和學習歷史數據的模式，準確預測時空系統的未來態勢，可以為復雜系統調度優化和智能決策提供關鍵支持。時間序列數據廣泛分布于交通、電力、氣象等多種時空系統中，記錄了關鍵觀測點或指標的狀態變化，是反映這些系統演變趨勢的關鍵數據資源。時間序列預測技術致力于通過分析和學習歷史數據的模式，準確預測未來趨勢。這種技術在智能決策中扮演著至關重要的角色：能夠準確預測時空系統的未來態勢，從而為有效的調度優化和智能決策提供關鍵支持。因此，深入研究時序預測技術對于戰場態勢感知、武器系統維護、戰場環境監測等領域至關重要，可以顯著提高決策的準確性和效率，為軍事行動提供精確而有力的支持。長期以來，基于統計模型的時間序列預測算法，如自回歸積分滑動平均（autoregressive integrated mov? ing average，ARIMA）[1] 和指數平滑狀態空間模型（ex? ponential smoothing state space model，ETS）[2] ，被廣泛認為是可靠的工具，并在實際應用中得到了認可。隨著深度學習技術的發展，研究者們開發了更為靈活和強大的模型，這些模型能夠挖掘時間序列數據中的深層價值模式，從而顯著提升預測的準確性，成為學術研究的新趨勢。然而，基于深度學習的時序預測模型通常要求訓練和推理階段使用相同的數據集[3] ，這限制了它們的泛化能力。一方面，不同領域的時序數據常常展現出不同的模式，導致模型難以廣泛泛化；另一方面，不同領域數據的質量參差不齊，如信噪比、歷史數據長度以及預測數據長度等，進一步削弱了模型的跨領域可用性。在軍事領域，這些問題尤為顯著，因為軍事應用涉及的場景多樣（例如電力、氣象、交通等），且具有高對抗性，數據分布漂移嚴重，這使得現有的時序預測算法面臨挑戰。受到計算機視覺和自然語言處理領域中諸如視覺 Transformer（vision Transformer，ViT）[4] 、雙向編碼器表示 Transformer（bidirectional encoder representa? tions from Transformers，BERT）[5] 、生成式預訓練Trans? former（generative pre-trained Transformer，GPT）[6] 等預訓練大型模型的啟發，時序預測大模型日益受到學術界的關注，并被認為是一個充滿潛力的研究方向[7] 。這些模型的設計目標是解決數據模式異質、數據質量不一等核心挑戰，從而開發出適用于所有領域的時間序列預測任務的通用模型，處理零樣本或少樣本情況下的預測，推動時序預測技術的更廣泛應用和實踐。然而，作為一個新興領域，目前還缺乏針對時序預測大模型研究思路和可用技術的系統性分析。大多數現有的綜述[8-11] 主要關注于預訓練的大語言模型（例如 GPT[6] 、LLaMA[12）] 在時序預測中的應用。在其他研究中，文獻[13]通過“數據視角”對相關工作進行了分類和梳理，而文獻[7]則通過“方法視角”對相關工作進行了區分。此外，先前的研究通常同時概述時間序列、空間數據（如軌跡）等多種類型的數據，而沒有對時序預測任務進行深入挖掘。本文專注于時序預測任務，全面分析了大量相關研究，采用自上而下和自下而上兩種視角詳盡地綜述了時序預測大模型的設計思路和具體技術：1）自上而下的視角：采用“模態視角”來區分不同的研究思路，即根據對自然語言和時間序列模態的利用方式的不同對相關工作進行分類。2）自下而上的視角：梳理了時序預測大模型構建流程中的共性關鍵技術。兩個視角結合，既給出了實現時序預測大模型的多種思路，也梳理了可選擇的具體技術。此外，本研究還探討了未來可能的重要研究方向。

付費5元查看完整內容

生成式人工智能 · 機器人 ·

3 月 6 日

[付費5元查看完整內容]生成式人工智能在機器人操作中的應用：綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

本綜述全面回顧了生成式學習模型在機器人操作中的最新進展，并探討了該領域的關鍵挑戰。機器人操作面臨的主要瓶頸包括數據不足和數據獲取效率低下、長時程和復雜任務規劃，以及跨多樣化環境下的多模態推理能力以提升策略學習的魯棒性。為解決這些挑戰，本文介紹了幾種生成模型范式，包括生成對抗網絡（GANs）、變分自編碼器（VAEs）、擴散模型、概率流模型和自回歸模型，并分析了它們的優勢和局限性。這些模型的應用分為三個層次：基礎層（專注于數據生成和獎勵生成）、中間層（涵蓋語言、代碼、視覺和狀態生成）以及策略層（強調抓取生成和軌跡生成）。每一層次均被詳細探討，并列舉了推動領域發展的代表性工作。最后，本文展望了未來的研究方向和挑戰，強調提高數據利用效率、更好地處理長時程任務以及增強跨多樣化機器人場景的泛化能力的重要性。所有相關資源，包括研究論文、開源數據和項目，均已匯總至以下鏈接供社區參考：//github.com/GAI4Manipulation/AwesomeGAIManipulation。

I. 引言機器人操作在賦予機器與周圍環境進行物理交互和修改的能力方面至關重要，這是實現智能自主性的基礎步驟。從工廠中組裝精密的電子設備到家庭中的輔助護理，機器人操作在顯著影響社會的應用中發揮著關鍵作用[1, 2]。作為機器人學中最重要的問題之一，操作在復雜環境中長期面臨重大挑戰，尤其是在涉及非平凡交互和復雜長時程決策與規劃的場景中[1, 3]。這些挑戰阻礙了機器人系統在不同場景中執行可靠且魯棒的操作任務，留下了巨大的空白。

近年來，數據驅動方法在機器人操作中日益受到重視，這些方法利用大規模數據和機器學習技術，使機器人能夠更好地感知、適應和與多樣化環境交互。得益于這些爆炸性進展，上述空白已大幅縮小。特別是通過利用生成式學習模型在場景理解、推理、任務規劃和策略合成方面的卓越能力，包括操作可變形材料和執行長時程任務序列在內的操作技能已得到展示，而這些技能在之前被認為極其困難。

生成式學習模型作為現代人工智能中最重要的學習模型類別之一，解決了機器人操作中一些先前未解決的挑戰，尤其是在抓取任務中。首先，它們生成多樣化和高質量數據的能力顯著減少了對大量真實世界數據的依賴。通過生成合成的抓取場景和物體變體，這些模型使機器人能夠在數據稀缺的環境中高效訓練并處理更廣泛的物體[4, 5]。其次，它們對高維動作和物體空間的建模能力使機器人能夠預測復雜或未見物體的可行抓取配置和軌跡[6, 7, 8]，從而提高了機器人適應新任務和環境的能力，增強了抓取規劃的魯棒性。第三，它們在捕捉物體結構和交互動態的潛在表示學習方面的優勢使機器人能夠泛化到不同形狀、紋理和物理屬性的物體[9, 10]，從而在需要精確操作的任務中實現更可靠的性能，即使在非結構化或動態環境中也是如此。這些突破凸顯了生成式模型在推動機器人抓取和操作方面的變革潛力。

在本綜述中，我們重點關注生成式模型，因為它們有潛力解決操作中長期存在的挑戰。生成式模型提供了有前景的解決方案，例如改進場景理解、推理和任務規劃，從而有效緩解這些問題。在以下段落中，我們列舉了操作中的關鍵挑戰，并討論了生成式模型克服這些障礙的潛在機制。

A. 現代操作中的主要挑戰首先，數據不足和數據獲取效率低下仍然是關鍵瓶頸。數據驅動方法逐漸成為解決操作問題的主導方法之一。眾所周知，諸如強化學習（RL）和模仿學習（IL）等數據驅動方法對數據需求極高，需要大量高質量數據來訓練有效模型[11, 12]。收集高質量數據通常需要人工干預或大量的真實世界機器人實驗，這些過程耗時且難以大規模擴展[13]。為簡化數據生成問題，一些研究者探索了從其他任務或領域遷移學習[14, 15, 16]，以及領域隨機化等技術以緩解數據稀缺問題[4]。然而，對高質量、任務特定數據的依賴仍然阻礙了性能和可擴展性。解決這些問題對于釋放數據驅動機器人操作的全部潛力至關重要。

生成式模型如Stable Diffusion[17]和大規模預訓練語言模型[18]在生成高質量合成圖像、視頻、注釋和獎勵信號方面展示了顯著能力。這些模型能夠創建豐富且多樣化的數據集，通過提供可擴展且高效的數據生成管道，顯著緩解數據不足問題。合成數據可用于訓練和驗證機器人操作模型，提升其性能和泛化能力。此外，生成豐富獎勵函數的能力通過提供詳細反饋并支持復雜環境中的探索，促進了更有效的強化學習。這種對數據和獎勵生成的關注為克服數據稀缺和低效數據獲取問題奠定了基礎，從而推動了機器人操作領域的發展。

其次，長時程任務和復雜任務規劃提出了重大挑戰。復雜任務，如多步裝配操作、雜亂環境中的物體重新排列以及與人類的協作任務[19]，要求機器人規劃并執行一系列相互依賴的動作。有效的規劃需要復雜的建模技術，并通常假設環境的完全可觀測性[20]。然而，在現實場景中，完全觀測很少可行，因此需要代理對任務有內在理解，包括因果關系及其動作對環境的影響[9, 21]。傳統的確定性模型由于無法充分表示長時程任務中的不確定性和動態交互，難以捕捉這種復雜性[22]。生成式模型通過將復雜任務分解為可管理的子目標（如鏈式思維推理[23]），在解決長時程任務規劃方面做出了重要貢獻。利用語言生成和代碼生成的能力，大規模生成式模型幫助機器人通過將復雜動作序列分解為更簡單的步驟來規劃任務[24, 25]。這種方法使代理能夠生成明確的思維鏈和動作計劃，增強其對復雜任務的理解和執行能力。通過結合這些生成技術，機器人能夠更好地處理長時程任務中的不確定性和動態交互，從而提高其在操作場景中的整體性能。此外，生成式模型通過開發世界模型和促進動態學習，增強了機器人對物理世界的理解。通過生成中間狀態（如顯式的視覺表示[26, 27]或隱式的潛在狀態[28]），這些模型使機器人能夠預測和規劃環境中的未來事件。生成潛在未來狀態的視覺能力改進了操作任務中的規劃和決策過程。狀態生成捕捉了準確執行任務所需的基本動態，解決了復雜環境中的不確定性和變異性。這使機器人能夠在操作任務中預測并適應變化，從而提升其在動態環境中的表現。第三，策略學習需要多模態推理能力。在機器人操作中，當前狀態可能對應多個有效動作和結果，這是由于任務復雜性和環境變異性所致。例如，杯子可以通過把手或杯身抓取，最佳選擇取決于后續任務：為杯子加水時抓取把手更合適，而將杯子遞給他人時抓取杯身更佳。確定性模型通常將輸入觀測映射到單一輸出，無法捕捉許多操作任務中固有的多模態特性。這種限制降低了適應性，并阻礙了在多樣化情境中的表現。通過依賴一對一的映射，這些模型難以表示全部可能的動作范圍，從而阻礙了更靈活和可泛化的機器人系統的開發。生成式模型在策略學習方面展示了顯著潛力，特別是在機器人操作任務中的抓取生成和軌跡生成方面[6, 29, 30, 31]。通過對整個軌跡的動作序列建模，生成式模型實現了控制策略的聯合優化。例如，擴散模型已被應用于策略學習，能夠生成平滑且可行的運動軌跡[29]。這些模型可以結合機器人操作空間中的固有約束，如生成三維空間中有效抓取姿態的SE(3)約束[8]。這種能力通過生成高效且物理上可行的策略，增強了機器人執行精確和復雜操作任務的能力。此外，它們對多模態分布的建模能力使其能夠捕捉復雜操作任務中所需的多樣化抓取姿態和運動軌跡。 B. 綜述的結構概述總之，生成式模型在機器人操作的多個層次上提供了解決方案：從基礎的數據和獎勵生成到高級的任務規劃和策略建模。通過解決數據不足、復雜任務規劃、低級控制和表示學習等關鍵挑戰，生成式模型為更自主、高效和強大的機器人系統鋪平了道路。已有一些綜述探討了與機器人和生成式模型相關的主題[3, 32, 33]。這些工作研究了機器人中的基礎模型以及向通用人工智能的進展。然而，尚未有綜述專門關注生成式模型如何解決機器人操作中的關鍵挑戰。本綜述聚焦于生成式模型在操作任務中的應用，試圖提供一個統一且具體的視角，闡明生成式模型在不同層次上對機器人操作的作用。通過強調生成式模型在這些特定領域中的優勢，我們旨在填補現有文獻中的空白。圖1展示了本綜述所探討方法的整體結構。為系統理解生成式模型在機器人操作中的作用，我們將其應用分為三個層次：基礎層、中間層和策略層。這一結構反映了從基礎數據合成到高級決策再到低級控制的漸進流程。基礎層專注于生成關鍵資源，如合成數據以擴充有限數據集和獎勵信號以指導強化學習，構成模型訓練和評估的支柱。在此基礎上，中間層涵蓋語言、代碼、視覺和狀態生成等任務，使機器人能夠解釋指令、處理感知數據并推理其環境，從而連接感知與動作。最后，策略層直接解決機器人操作的核心問題，包括抓取生成和軌跡規劃，將較低層次的洞察轉化為可操作的控制策略。這一分層框架突出了這些組件的相互依賴性，確保了機器人學習和控制的全面且可擴展的方法。

付費5元查看完整內容

生成模型 · 決策 ·

2 月 26 日

[付費5元查看完整內容]《決策中的生成模型：綜述》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—近年來，生成模型在生成任務中的卓越表現激發了人們對其在決策過程中應用的濃厚興趣。由于其處理復雜數據分布的能力和強大的模型能力，生成模型可以通過生成軌跡，有效地融入決策系統，引導智能體朝向高回報的狀態-動作區域或中間子目標。本文全面回顧了生成模型在決策任務中的應用。我們對七種基礎生成模型進行了分類：能量模型、生成對抗網絡、變分自編碼器、標準化流、擴散模型、生成流網絡和自回歸模型。關于它們的應用，我們將其功能分為三個主要角色：控制器、建模器和優化器，并討論每個角色如何為決策提供貢獻。此外，我們還探討了這些模型在五個關鍵實際決策場景中的部署情況。最后，我們總結了當前方法的優缺點，并提出了三條推進下一代生成決策模型的關鍵方向：高性能算法、大規模通用決策模型以及自我進化與自適應模型。 關鍵詞—生成模型、決策制定、生成決策制定

1 引言

生成模型已成為學術界和工業界的熱門話題，主要由于它們能夠生成大量高質量和多樣性的合成數據。從早期的系統如 DALL-E [1]（用于圖像生成）和 GPT-3 [2]（用于文本生成）到最近的進展，如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4]，生成模型在其輸出的質量和規模上迅速發展。內容生成旨在創造與訓練樣本相似的連貫材料，而決策制定則專注于生成能夠實現最佳結果的行動序列。與內容生成不同，決策制定涉及復雜、動態的環境和長期的決策。因此，盡管生成模型在內容生成方面取得了成功，將它們應用于決策制定仍面臨諸多挑戰。這些挑戰包括：1）如何通過與環境的交互來學習策略，而不僅僅是模仿專家行為；2）如何基于學習到的行為生成新策略，從策略學習過渡到策略生成；3）如何建立一個能夠在各種環境中適應的穩健基礎決策生成模型，且只需最少的調優工作；4）如何構建策略的多步推理和長期演化能力。這些挑戰強調了生成模型不僅僅是生成數據的需要。

在實際應用中，決策制定通常被稱為序列決策制定，其中決策者隨著時間推移做出一系列觀察，每個決策都會影響隨后的選擇。目標是識別一個策略，以優化期望的回報或最小化跨越序列行動的成本。經典算法，如動態規劃（DP）和強化學習（RL），廣泛應用于解決建模為馬爾可夫決策過程（MDPs）的問題。這些方法通過基于觀察到的回報和狀態轉移來更新策略，而不是生成新策略，來優化決策制定。盡管這些傳統方法在許多應用中取得了成功，但它們通常依賴于試錯或預定義的狀態和轉移，這限制了探索，并可能錯過更好的解決方案。此外，它們需要大量的計算和優化，這在高維或大規模問題中可能不切實際。傳統方法還需要在面對新環境時進行大規模的重新配置或再訓練，從而降低了靈活性。

另一方面，生成模型被設計為對數據分布進行建模，而不僅僅是擬合標簽。一旦訓練完成，它們可以生成與原始數據相似的新樣本，從而能夠探索不同的場景和結果。這一能力使得在傳統方法可能難以立即顯現的情況下，發現新的策略成為可能。在復雜或標簽不明確的數據場景中，生成模型提供了對可能決策路徑的更深入理解，有時能引導出更符合高回報或期望目標的策略。然而，傳統方法如優化或強化學習在決策空間較清晰、目標更直接的簡單環境中仍然有效。選擇這些方法之間的差異，取決于任務的復雜性和環境的特點。認識到這些優勢，近年來，開發新的生成模型并將其應用于決策制定的研究工作大幅增加。圖 1 展示了生成模型及其在決策制定中的應用的研究趨勢，進一步強調了這些方法在解決此類挑戰中的重要性。然而，目前缺乏全面的綜述，能夠總結過去的工作并為新的研究方向鋪平道路。這個空白促使我們撰寫本文綜述。該綜述的三大貢獻包括：1）提出了一個全面的分類法，用于分類當前的生成決策制定方法。我們識別了七種用于決策制定的生成模型，并將其功能分類為三個關鍵角色：控制器、建模器和優化器；2）我們回顧了生成模型在決策制定中的多樣化實際應用，重點討論了機器人控制、結構生成、游戲、自動駕駛和優化任務；3）最后，我們總結了現有工作的優缺點，并討論了未來在決策制定任務中開發高性能生成模型的前景。本文其余部分的組織結構如下（參見圖 2 了解總體大綱）：第二部分作為引言，介紹了序列決策制定的基本公式，并提供了所有研究方法的基礎知識。具體而言，我們詳細介紹了七種生成模型，并將它們與傳統方法進行對比。第三部分提出了用于分類生成決策制定方法的分類法。第四部分根據介紹的分類法回顧并分析現有文獻。第五部分展示了生成模型在決策制定中的實際應用。最后，第六部分討論了生成模型在決策制定中的未來發展方向，第七部分總結了本文的整體內容。

付費5元查看完整內容

不平衡數據學習 · 機器學習 · 深度學習 ·

2 月 15 日

[付費5元查看完整內容]不平衡數據學習的全面綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要—隨著數據可用性的擴展，機器學習（ML）在學術界和工業界取得了顯著的突破。然而，不平衡的數據分布在各種原始數據中普遍存在，并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用，本文系統分析了各種現實世界的數據格式，并將現有研究針對不同數據格式的工作歸納為四個主要類別：數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在，從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述，突出當前面臨的挑戰，并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展，機器學習（ML）已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計，以適應特定的數據分布，并隨后應用于各種下游任務，從預測分析到自動決策系統。因此，機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確，而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。然而，自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中，不平衡數據分布尤其突出，反映了各個領域普遍存在和自然產生的差異。例如，在金融領域，欺詐行為的實例相較于合法交易來說相對稀少，這使得模型難以準確地檢測這些異常。在醫療領域，稀有疾病在醫學數據集中可能被低估，這為開發穩健的診斷模型帶來了重大挑戰。在工業領域，質量控制系統常常需要識別稀有的產品缺陷，而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜，而且對系統的魯棒性提出了更高要求。通常，不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好，這些組的數據充足，但在低資源組上表現較差，后者的數據稀缺，導致數據分布的界限模糊。因此，盡管機器學習模型可能在整體上表現令人滿意，但在這些低資源組中的有效性會顯著降低。然而，這些低資源組往往在現實世界的應用中更為重要。例如，在醫學診斷中，由于數據不足未能檢測到稀有疾病，可能導致漏診和不充分的患者護理。同樣，在金融系統中，無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例，降低了自動決策系統在實際應用中的效用和安全性。為應對這些挑戰，機器學習領域已提出了一系列方法，我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要，采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要，符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要，使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法，以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性，平等地考慮所有樣本。最后，集成方法通過組合多個模型，屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢，以潛在地減少由不平衡數據引發的偏差，從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類，這一分類不僅有助于全面的領域調查，還闡明了這些策略背后的動機，幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現，包括圖像、文本和圖形，突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要，因為它加深了對每種數據格式的理解，并有助于為復雜數據格式場景制定針對性的機器學習策略。本調查的貢獻總結如下：

我們提供了關于不平衡數據學習的全面文獻綜述，系統地概述了基于機器學習基礎過程的方法。
我們對不平衡在各種數據格式中的表現進行了深入分析，包括圖像、文本和圖形，提供了每種格式特有的挑戰和方法的詳細探索。
我們突出了可用于解決不平衡數據問題的資源，并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員，幫助他們有效和高效地開發策略。

本調查的結構安排如下：第二節對處理不平衡問題的方法進行了詳細調查，并按我們的分類法進行組織；第三節廣泛討論了不平衡在各種數據格式中的表現；第四節對不平衡數據方法的評估指標進行了詳細研究；第五節介紹了可用于學習不平衡數據的資源；最后，第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

大模型 · 大模型壓縮 · 大模型推理 ·

2024 年 7 月 8 日

[付費5元查看完整內容]大模型的模型壓縮與有效推理綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

1 介紹

本文對大型語言模型的壓縮和效率推理進行了綜述。大型語言模型基于Transformer架構，具有強大的性能，但也帶來了巨大的內存和計算成本。本文從算法角度對大型語言模型的壓縮和效率推理方法進行了分類，包括量化、剪枝、知識蒸餾、緊湊架構設計和動態網絡。大型語言模型有兩個顯著特點：（1）大多數壓縮算法需要在壓縮后對模型進行微調和甚至重新訓練，而大型模型的微調和訓練成本非常高。因此，許多算法，如量化和剪枝，開始探索免調優算法。（2）大型模型強調通用性和泛化能力，而非單一任務的性能。因此，許多算法，如知識蒸餾，關注如何在壓縮后保留其通用性和泛化能力。 2 基本知識

2.1 Transformer

Transformer 是一種用于機器翻譯的模型，其基本結構如圖1所示。Transformer 的輸入（一個句子）通常通過嵌入層投影為一系列向量（稱為標記）作為 Transformer 的輸入。

圖1 Transformer 基本結構每個 Transformer 塊由一個注意力模塊和一個多層感知器（MLP）模塊組成。注意力模塊將查詢和一組鍵-值對映射到輸出，輸出是值的加權和，權重由兼容性函數計算得出。注意力模塊可以描述為將查詢和鍵-值對映射到輸出的函數。兼容性函數通常是點積函數，其中權重是查詢與相應的鍵的點積，√d是縮放因子。多頭注意力將輸入標記映射到h個不同的查詢、鍵和值（{Qi，Ki，Vli∈[1，h]}），然后使用不同的線性層。最終輸出是：多頭注意力=連接（head1，…，headn）W。head;=注意力（Qi，Ki，Vi），其中Wo是線性投影矩陣。 Transformer 的編碼器和解碼器結構有所不同。編碼器首先獨立地處理輸入序列（例如，用源語言編寫），解碼器將編碼器的輸出作為輸入并預測最終輸出（例如，目標語言）。編碼器和解碼器的注意力模塊有兩個核心區別：（1）編碼器使用全注意力，其中輸入序列中的任何兩個標記都是可見的，輸出標記只能看到之前的輸出標記；（2）編碼器使用自注意力模塊，即 Q、K、V 都來自輸入標記的注意力，其中 K、V 來自編碼器的輸出，而 Q 是解碼器的最后一個輸出標記。 2.2 中/大型語言模型

本文將語言模型分為中等規模和大規模兩類。中等規模的語言模型參數規模在1億以下，大規模的語言模型參數規模在1億以上。大規模的語言模型相較于中等規模的語言模型，具有更強的泛化能力和通用性，能夠處理更復雜的任務。然而，大規模的語言模型在壓縮和加速方面也面臨著更大的挑戰。 2.3 參數高效的微調（PEFT）

參數高效的微調（PEFT）是指在微調過程中盡量減少需要調整的參數數量或微調的輪數，以降低微調成本。對于中等或大型模型，全參數微調和訓練成本非常高。因此，許多參數高效的微調算法被提出，旨在盡可能減少需要調整的參數或微調的輪數。 3 量化

量化是指將輸入值從一個較大的連續集合映射到一個較小的有限集合的過程。它是降低大型語言模型內存成本和加速推理的最直接方法，特別是在支持低比特數據類型快速操作的硬件上。量化方法有許多優點，例如減少內存占用、提高推理速度等。 3.1 基本概念

均勻量化：將實數范圍內的連續值映射到有限數量的離散值，以減少表示數據的位數。均勻量化中，相鄰離散值之間的距離相等，且離散值是均勻分布的。
非均勻量化：非均勻量化是均勻量化的對立面，其中量化值不一定是均勻分布的，且量化間隔的長度不一定相同。非均勻量化可以更好地適應數據的分布，從而在保持相同精度的情況下，減少量化誤差。
剪切范圍和校準：剪切范圍是指將實數范圍內的連續值映射到有限數量的離散值時，相鄰離散值之間的距離。校準是指選擇合適的剪切范圍，以最小化量化誤差，通常使用最小/最大值（即-α=rmin，β=Tmax）或使用絕對最大值化損失（即KL散度）來選擇剪切范圍。
對稱/非對稱量化：對稱量化和非對稱量化是量化方法的兩種類型。對稱量化是指量化范圍關于0對稱，即a=-β，此時對應的量化方法稱為對稱量化；否則稱為非對稱量化。
量化粒度：量化粒度是指在量化過程中，將權重或激活值劃分為多少個組進行量化。常見的量化粒度包括層粒度、通道粒度、組粒度等。
訓練后的量化PTQ/量化感知訓練QAT：PTQ是一種在訓練后對模型進行量化的方法，不需要重新訓練模型，通常將權重和激活值量化為較低的精度，以減少模型大小和計算成本。QAT是一種在訓練過程中對模型進行量化的方法，旨在最小化量化引起的性能損失，通過在訓練過程中引入量化誤差來調整模型權重，以最小化量化誤差。
靜態/動態量化：靜態量化在推理過程中使用固定的量化參數，而動態量化在推理過程中根據輸入數據動態調整量化參數。
模擬/僅整數量化：模擬量化在運行時動態調整量化參數，可以減少神經網絡的內存成本和數據傳輸時間，通常比靜態量化更準確，但計算開銷較高。僅整數量化可以進一步享受特定硬件支持的高效低比特操作。

僅權重/權重+激活量化：僅權重量化只量化權重，可以進一步享受特定硬件支持的高效低比特操作，但可能會損失一些精度。而權重+激活量化同時量化權重和激活，可以更好地適應輸入數據的分布，但計算速度較慢。

3.2 中型語言模型的量化方法

本節主要討論了中型語言模型的量化方法，小于或接近1B大小的模型被稱為中型語言模型，如BERT、GPT-2和BART。量化方法主要采用QAT框架而不是PTQ，因為重新訓練中型語言模型的代價相對可以接受。重新訓練帶來的評估指標（例如精度）的改進是顯著的，特別是在極端低比特設置（例如1比特或2比特量化）下。 **中等規模語言模型中的QAT。**QAT是一種在訓練過程中引入量化誤差的方法，可以在不損失模型性能的情況下實現模型壓縮。QAT技術在中等規模語言模型中的應用主要體現在將BERT類模型中的權重向量化到INT8，例如Q8BERT將BERT模型中的權重和激活都量化為8位，而沒有顯著降低模型性能。有些工作使用更復雜的方法實現了低于8位的量化寬度，例如Q-BERT將激活保持在8位，并將混合精度權重降低到2/3位。TernaryBERT將權重限制在-1，0和+1之間，僅使用2位，并使用8位的激活。BinaryBERT將BERT的量化限制為權重二值化，即權重限制在{-α，+α}中。BiBERT是BERT的全二進制化（即1位權重、嵌入和激活）。一些工作在模型性能退化和量化位寬之間實現了自動平衡，例如趙等人利用可微神經架構搜索方法來自動分配參數的精度。 **中等規模語言模型中的PTQ。**PTQ（Post-Training Quantization）是一種在訓練后對模型進行量化的方法。PTQ不需要重新訓練整個模型，而是通過在訓練后引入量化誤差來實現模型壓縮。GOBO將大多數權重進行3位量化，少數異常權重單獨保存為FP32。I-BERT為特定的非線性函數設計了僅整數近似的方法，無需任何浮點運算即可實現端到端僅整數BERT推斷。Dai等使用更精細的粒度來減少量化誤差，將權重和激活量化為4位，并使用校準集來確定每個組的縮放因子。此外，精心定制的PTQ方法所得到的量化參數，可以作為QAT方法重新訓練的一個良好的初始化點。 **量化生成的中型語言模型。**盡管對BERT類模型進行量化的方法取得了成功，但在生成語言模型（如GPT、BART）出現之前，對生成式LLM進行量化的嘗試卻很少見。量化誤差在token-by-token生成過程中逐個累積，因此量化生成式語言模型通常是一個更復雜的問題。Tao等人的研究發現，直接將專為BERT類模型設計的量化方法應用于生成語言模型會受到同質詞嵌入和權重分布差異的阻礙。為了解決這些挑戰，作者提出了兩個解決方案：token級別的對比性引導和模塊依賴的動態縮放。DQ-BART使用QAT框架和一種序列到序列模型的量化和去噪訓練目標，即BART，進行去噪訓練。DQ-BART采用標準對稱均勻量化，并設定訓練目標為最小化量化后的低精度學生模型和全精度教師模型之間的輸出logits、注意力以及隱藏狀態之間的差異。 3.3 LLM的PTQ

針對LLM的PTQ工作分為兩類：僅權重量化和權重+激活量化 僅權重量化（Weight-Only Quantization）只對模型的權重進行量化，以減小模型大小，降低內存占用和計算成本。權重量化方法可分為有符號量化和無符號量化，通常采用量化誤差最小化的方法。基于訓練后量化的方法在訓練完成后對權重進行量化，而基于量化感知訓練的方法在訓練過程中對權重進行量化。權重量化方法可以實現不同程度的模型壓縮，例如，GPTQ和QulP等方法可以將權重量化為2位或更低的精度，從而顯著降低內存占用和計算成本。 權重+激活量化是一種深度學習模型壓縮方法，通過將權重和激活值轉換為較低精度表示，減少模型大小和計算復雜度。這種方法在移動端推理、邊緣計算、嵌入式系統等領域具有廣泛應用，可以顯著提高推理速度、降低存儲空間需求和減小計算復雜度。具體實現方法包括二值化量化、8位量化、自適應量化等。 3.4 對LLM的量化感知訓練（QAT）

量化感知訓練是一種重新訓練量化模型的方法，用于從量化引起的性能下降中恢復。這種方法通常涉及整個模型的全部參數重新訓練，但對于LLM來說成本太高。因此，一些嘗試將量化與參數高效的訓練方法相結合，以顯著降低LLM上QAT的成本。當前針對LLM的QAT方法分為兩類：全參數重新訓練和參數-高效再訓練。其中，參數-高效再訓練是一種更有效的LLM QAT方法。 全參數重新訓練是指在量化 LLM 時，對 LLM 進行完整的參數重新訓練。這種方法的主要挑戰是如何在不損害 LLM 的涌現能力的情況下，在較小的數據集上重新訓練 LLM。當前的方法通常結合 QAT 和蒸餾來保留原始模型的這些能力。LLM-QAT 直接應用基本的 QAT 框架到 LLM，并使用數據生成方法生成數據，然后使用原始 LLM 對生成的數據進行訓練，以匹配量化 LLM 的輸出分布。這種方法還允許量化和 QAT 鍵值緩存，這在長句生成過程中占用大量內存。為了減輕重新訓練完整 LLM 的成本，可以使用邊緣蒸餾方法。參數-高效再訓練是指采用參數高效的方法重新訓練LLM。本節討論了使用LoRA、適配器、提示調整等方法對LLM進行微調的一系列工作。其中，LoFTQ和LACos-BLOOM等提出了改進的量化方法，而INT2.1則將額外的可訓練參數用于LoRA矩陣的優化。其他工作則結合了量化和適配器以及提示調整等方法。這些工作有助于提高LLM的性能和效率。 3.5 關于LLM量化的其他主題

量化相關工作還包括與量化的算法共同設計高效的內核，設計對硬件友好的量化方法，并將量化方法集成到實際應用中。例如，LUT-GEMM是為擴展版本的BCQ方法設計的有效內核，可以表示均勻和非均勻量化。其他有意義的作品研究LLM量化的內在特性，例如，Dettmers和Zettlemoyer在BLOOM、OPT、NeoX/Pythia和GPT-2等LLM家族中進行了大規模實驗，使用16位激活和k位權重的組合（3≤k≤8），規模為19M到176B參數。一些工作還專注于研究LLMs中出現系統性異常值的原因，并尋找從源頭抑制異常值的方法。例如，可量化變壓器認為激活中的異常值是由于注意力頭部的行為，注意力頭部試圖避免更新殘差。 4 剪枝

神經網絡剪枝是一種用于壓縮和加速的技術，通過消除非必要的權重或結構來保持網絡性能水平。盡管剪枝在CNN中顯示出顯著效果，但在LLMs中效果不太穩定。剪枝效果不那么有效的原因在于微調成本高昂，但剪枝對于模型壓縮至關重要，需要進一步探索以增強和改進其效果。剪枝技術對于LLMs的優化和性能提升具有重要意義。 4.1 基本概念

剪枝單元：剪枝單元在剪枝過程中起到關鍵作用，包括權重、神經元、注意力頭、層等。非結構化剪枝關注單個權重，可以獲得更高的稀疏度比并保持更好的性能，但計算效率較低。結構化剪枝可以輕松實現推理速度提升，但稀疏度比低于非結構化剪枝模型。在結構化剪枝中，需要避免集成結構刪除導致模型性能下降。
剪枝度量：剪枝度量是決定元素是否被剪枝的準則，主要分為三類：基于幅度、基于損失和基于正則化。基于幅度的剪枝方法通過比較權重的絕對值確定重要性；基于損失的方法通過比較權重的梯度或梯度加權和確定重要性；基于正則化的方法通過比較權重的L1或L2范數確定重要性。這些方法可單獨或組合使用，如GBLM-Pruner結合了基于幅度和基于正則化的方法以獲得更好的剪枝效果。
動態/靜態剪枝：動態/靜態剪枝是指在訓練過程中對模型進行剪枝的方法。動態剪枝在訓練過程中實時調整模型結構，適應數據分布的變化，但計算復雜度較高；靜態剪枝在訓練結束后一次性剪枝，計算復雜度較低，但可能無法充分利用數據分布的信息。
迭代/一次性剪枝：迭代式方法通過多次迭代訓練、剪枝和微調，保持模型性能，但計算時間長。一次性方法只進行一次剪枝，不迭代和微調，計算時間短，但可能影響模型性能。迭代式方法常用于較小模型，一次性方法常用于較大模型。
全局/局部剪枝：全局剪枝將比較所有剪枝單元，以識別并消除不重要的單元，可能導致特定區域過度剪枝。局部剪枝則對每個區域的稀疏性施加約束，確保每個區域內的稀疏度比率不會過低，從而降低模型崩潰的風險。
數據驅動和免數據裁剪：數據驅動和免數據裁剪是兩種不同的網絡裁剪方法，數據驅動依賴于可用數據，表現更優，而免數據裁剪獨立于數據輸入執行網絡裁剪。Magnitude Pruning是最廣泛采用的裁剪方法，簡單易實現且在許多復雜方法中取得了具有競爭力的結果，同時解決了在某些場景下數據集可能不可用的挑戰。

上/下游剪枝：語言模型訓練包括預訓練和微調兩個階段。上游修剪在微調前對模型進行修剪，保留模型對多種任務的適應性，確保其多功能性；下游修剪在微調過程中進行修剪，指導模型專注于一個明確的任務。兩者各有特點，根據實際需求選擇合適的方法。

4.2 中型語言模型的剪枝方法

針對語言模型的專業設計剪枝方法具有獨特性，不同于傳統的剪枝方法。它專門針對基于轉換器的模型和適用于多種不同架構模型的通用方法。這些剪枝方法可分為無結構方法和結構化方法。 4.2.1 針對中型語言模型的非結構化剪枝

非結構剪枝方法在不考慮約束的情況下，將非必要權重置為零。接下來介紹了三種修剪方法：基于規模的剪枝、基于損失的剪枝和正則化。這些技術有助于減少模型參數數量，提高模型性能和效率。 基于規模的剪枝是指根據模型的大小來選擇合適的剪枝方法。基于規模的剪枝方法，將權重的規模和激活值的規模納入到剪枝度量中，其中幅度修剪是最常用的方法，在研究中被應用于中型語言模型。Gordon等人通過幅度修剪壓縮BERT，結果表明約30-40%的權重是不必要的，丟棄不會影響BERT的性能。漸變幅度修剪和GMP?等方法引入了稀疏度比例計劃，在整個修剪過程中逐漸降低稀疏度比例，這種方法允許在隨后的修剪步驟中更多的恢復時間，最終導致性能改善。 基于損失的剪枝是一種通過分析權重對損失函數的貢獻來確定哪些權重可以被剪枝的方法。它通常比基于權重大小的剪枝方法更準確，因為它考慮了權重在特定任務中的重要性。基于損失的剪枝主要有兩種方法：基于梯度的剪枝和基于Hessian矩陣的剪枝。基于梯度的剪枝包括OBD和OBS等，基于Hessian矩陣的剪枝包括L-OBS和L-OBD等。這些方法在語言模型剪枝中取得了很好的效果，例如SparseGPT和LLM Surgeon方法。 正則化方法包括L1、L2和Lo正則化，其中Lo正則化在模型壓縮中更常用。Lo正則化將權重的Lo范數納入損失函數，實現非零權重的稀疏化。然而，離散的Lo范數在梯度下降優化中存在挑戰，因此使用硬混凝土分布作為二進制掩碼的近似，如圖4。圖4 使用蒙特卡洛模擬對硬混凝土分布的近似概率密度直方圖。該硬混凝土分布的參數為對數α=0，β=0.5，γ=?0.1，和ζ=1.1。在該規格下，硬混凝土分布大致將其質量的一半分配到｛0，1｝中，其余分配到（0，1）中。 **其他。**非結構剪枝方法與N:M稀疏性集成，可以解決稀疏矩陣的非規則性質帶來的挑戰，提供純非結構化方法可能缺乏的推理速度提升。N:M稀疏性原則要求在神經網絡中連續的M組權重中，不超過N個權重具有非零值，底層硬件可以壓縮經常出現的零值，實現推理加速。這種方法在保持模型性能的同時，顯著提高了計算速度。 4.2.2 針對中型語言模型的結構化剪枝

無結構剪枝方法雖然能實現高稀疏度并保持性能，但不一定能在普通硬件上實現推理加速。在應用于中型語言模型的有序剪枝方法中，選擇適當的剪枝單位與度量同樣重要。使用與模型架構相關的結構作為剪枝單元往往能產生更理想的結果。接下來將深入探討結構化剪枝的領域，包括基于權重的剪枝、基于損失的剪枝和正則化技術。 **基于權重的剪枝。**修剪單元權重的加權和可以作為有意義的表示，廣泛應用于CNN中的卷積核。該方法也可擴展到中型語言模型，例如通過將權重大小與L2范數加權和，表示注意力頭、FFN神經元和權重塊的重要性。然后，根據重要性得分排序，去除不重要的結構。 **基于損失的剪枝。**在基于損失的剪枝方法中，對注意力頭部的探索和分析得到了相當的關注。頭部剪枝方法可以顯著提高模型性能和推理速度，同時保持測試準確性。此外，塊移動修剪方法通過考慮任意大小的塊并集成到運動修剪中來擴展結構方法，同時與FFN中神經元修剪的組合可以獲得最佳的整體性能。此外，一些結構化剪枝方法可以泛化，因為其中的剪枝單元是神經元。 **正則化。**正則化方法包括L0和L1正則化。其中，L0正則化因其廣泛的應用而脫穎而出，而L1正則化也得到了相關研究。這些方法主要應用于注意力頭的剪枝，包括因子化低秩剪枝、粗粒度和細粒度剪枝等。這些方法通過結合稀疏性誘導的目標學習得到不同大小的剪枝模型，并可以通過微調提高性能。這些方法在實驗中實現了超過10倍的速度提升，同時精度只略有下降。 **其他。**結構化修剪還有層修剪、令牌修剪等方法。層修剪涉及在推理過程中刪除不重要的令牌以減少計算需求。學習令牌剪枝是一種直接有效的方法，根據輸入序列穿過轉換器層的情況來適當地刪除不重要令牌。每個令牌的剪枝度量由Transformer塊中歸一化注意力概率的總和確定。此外，還有譜歸一化身份先驗（SNIP）等單元，它采取策略來剪枝注意力層和FFN子層。這些方法有助于減少計算需求并提高模型性能。 4.3 LLM的修剪方法

本節介紹了針對LLM的剪枝方法，包括其順序和特點，并進行了全面的比較。這些方法采用與中等規模語言模型所使用的并行方法相同的方法，但省略了微調過程。表3總結了LLM的各種修剪方法，這些方法在LLM領域具有廣泛的應用前景。表3 對LLM的各種修剪方法的總結

4.3.2 LLM的非結構化剪枝

非結構剪枝方法在保持模型性能方面具有優勢，能夠實現50%的稀疏度比率，被廣泛用作后續方法的基準。后續方法在NLP任務中超越了這些方法，取得了優越的結果。雖然這些方法難以提高推理速度，但它們可以與N:M稀疏性結合以加速推理速度。這些方法需要最少的校準數據，即對模型的一次前向傳遞專門獲取激活值或梯度以計算權重的重要性。LLM的非結構化剪枝可分為基于規模的剪枝方法和基于損失的剪枝方法。 基于規模的剪枝方法將權重幅度和激活值結合作為剪枝度量。例如，Wanda和RIA使用權重幅度和激活度量，E-Sparse還引入信息熵到度量中。Wanda引入一種新穎的修剪度量，同時考慮了權重和激活值的幅度，認為權重的意義不應該孤立地評估，而應該考慮它與相應激活值的產品。RIA也同時考慮權重和激活，主要區別在于其緩解通道腐敗的方法，用相對重要性取代了權重的幅度。E-Sparse引入了隱藏狀態特征的信息熵到剪枝度量中，熵作為信息豐富度的度量，數值越高表示信息越豐富。 基于損失的剪枝方法包括二階和一階方法。其中，SparseGPT是一種高效的二階剪枝方法，將OBS技術融入GPT家族模型中，并使用稀疏性比率分配給每個權重矩陣。此外，還介紹了基于OBS和OBD的概念，以及一種新型剪枝度量ISC。一階方法中，GBLM-Pruner是一種基于梯度的語言模型剪枝方法，通過與權重的幅度以及不同樣本的相應梯度的歸一化相乘來定義權重。 4.3.3 LLM的結構化剪枝

LLM的結構剪枝方法不依賴硬件，能加速推理，但需微調以恢復性能。LLM-Pruner作為基準，促進比較。微調雖在非結構剪枝中不再使用，但LLM中仍廣泛采納。LLM的結構化剪枝涵蓋基于規模的剪枝、基于損失的剪枝和正則化。 基于規模的剪枝方法考慮行或列作為剪枝單位。例如，基于波動自適應結構化剪枝（FLAP）的剪枝單位是列。權重矩陣中每個列的重要性得分通過“波動度量”來測量，該度量是輸入特征的樣本方差，其中權重與權重矩陣相應列的平方范數相關聯。此外，FLAP還納入了旨在減輕組件刪除所產生的負面影響偏差補償機制，以消除微調的必要性。 基于損失的剪枝方法中，梯度信息至關重要。一些方法利用梯度信息來定義剪枝結構、選擇剪枝目標等。其中一些方法可以動態地識別和指定剪枝單元，如LLM-Pruner和LoRAShear。此外，Ji等人提出了一種新穎的方法，使用非神經模型作為精度預測器來自動識別最佳修剪模型。這種方法通過評估和預測不同修剪配置對神經網絡精度的沖擊，促進更有效和自動化的最佳修剪模型選擇。這些方法在保持模型性能的同時實現高稀疏比率具有挑戰性。 正則化方法包括剪枝LLaMA和Compresso。剪枝LLaMA通過聯合修剪粗粒度和細粒度模塊，引入了目標結構剪枝和動態批量加載兩個新穎組件，實現了緊湊替代方案并優于從頭開始訓練的模型。Compresso將LoRA集成到L0正則化中，通過協作剪枝范式提高LLM在剪枝過程中的理解和合作，從而提高性能并適應修改后的模型結構**。**

4.4 關于LLM剪枝的其他主題

**提高LLM的剪枝效率。**為了增強針對LLMs的定制修剪方法的有效性，開發出了幾種輔助技術，包括針對子區域定制的稀疏性比率、后修剪微調方法和硬件優化。其中一種定制稀疏比率的方法是“離群加權分層稀疏”（OWL），它引入了一套定制的非均勻分層稀疏比率。另一種后修剪微調方法是“動態稀疏無訓練”，它無需完整的微調過程即可進一步細化稀疏LLM。這些技術可以提高現有剪枝方法（如Wanda和SparseGPT）的性能，表明剪枝性能的潛在提升可以通過各種與剪枝方法核心無關的手段實現。 **LLM剪枝的未來工作。**LLM剪枝領域面臨兩個重要挑戰，一是將剪枝與其他方法結合以提高性能，二是微調成本高。科研人員和從業人員需應對無法執行完整微調的挑戰，特別是當處理旨在增強剪枝性能的LLM時。解決這些挑戰對于提高剪枝技術的有效性和實用性至關重要。 5 知識蒸餾（KD）

知識蒸餾是一種將教師模型的知識轉移給學生模型的技術，用于壓縮和加速模型，以更簡潔和更有效的方式表示教師模型的知識。 5.1 基本概念

圖5 知識蒸餾分類

Logit-based KD 是一種基于輸出概率的知識蒸餾方法，它通過最小化學生模型和教師模型之間的輸出概率差異來實現知識傳遞。這種方法通常使用 KL 散度作為損失函數，將教師模型的輸出概率作為目標，引導學生模型學習教師模型的輸出分布。這種方法的優點是可以直接優化模型輸出，避免引入額外的中間表示。
Feature-based KD 是一種基于特征的知識蒸餾方法，它通過匹配教師模型和學生模型的輸出特征來傳遞知識。這種方法要求學生模型不僅要知道結果，還要理解底層過程。
Relation-based KD 是一種基于關系的知識蒸餾方法，它旨在讓學生模型學習教師模型如何處理關系型知識。這種關系主要體現在兩個方面：同一樣本在不同層的輸出關系和不同樣本的輸出關系。

Black-box KD 是一種黑盒知識蒸餾方法，它不需要訪問教師模型的內部信息，而是通過教師模型的預測結果來傳遞知識。這種方法適用于大型模型的知識蒸餾，因為大型模型的內部信息通常是不可訪問的。黑盒知識蒸餾的損失函數通常包括預測損失和關系損失兩部分，其中預測損失用于衡量學生模型和教師模型預測結果的差異，關系損失用于衡量學生模型和教師模型在處理關系型知識時的差異。黑盒知識蒸餾的主要優點是可以更好地模擬教師模型的行為，但缺點是需要更多的計算資源。

5.2 中等規模語言模型的知識蒸餾方法

中等規模的語言模型基于transformer結構，通過預訓練和微調兩個階段進行訓練。預訓練階段使用大規模的無標簽數據集，學習語言的通用特征和結構；微調階段使用帶標簽的數據，使其適應特定任務。模型蒸餾可分為微調蒸餾和預訓練蒸餾兩類。表4展示了各種中等規模模型蒸餾方法的訓練階段、知識來源和損失函數。表4 BERT各種KD方法的總結。嵌入、注意力、隱藏和預測代表知識分別來自嵌入、注意力機制、隱藏層和模型的預測。

微調蒸餾計算成本高，因此提出了許多微調知識蒸餾方法來減少成本。預訓練蒸餾可以減少針對特定任務的計算成本，但帶來新的挑戰。教師模型比學生模型具有更大的容量和更強的表示能力，學生模型在大量開放域訓練數據上產生與教師模型匹配的預測是一項具有挑戰性的任務。因此，選擇預訓練蒸餾和微調蒸餾之間的通用方法取決于如何在模型大小和性能之間進行權衡。 5.3 大語言模型的知識蒸餾方法

大型語言模型數量不斷增加，但許多模型是閉源的，這限制了學生模型的知識獲取。通過利用教師模型的響應，即知識剩余來源，我們可以將信息傳遞給學生模型，實現知識蒸餾。根據學生模型的知識來源是否僅限于教師模型提供的答案，可以將大型語言模型的知識蒸餾分為黑盒蒸餾和白盒蒸餾。黑盒蒸餾適用于學生模型可以從教師模型響應之外的其他來源獲取知識的場景，而白盒蒸餾適用于學生模型只能從教師模型響應中獲取知識的場景。 **黑盒知識蒸餾。**研究人員發現，當模型的參數足夠大時，LLMs表現出涌現能力，能夠處理復雜的任務。黑箱蒸餾方法利用這種能力，通常使用三種常見的方法：指令跟隨、思想鏈和上下文學習。此外還有還有其他方法生成特定的強化數據集，例如使用符號知識折衷為常識模型獲得高質量的常識知識圖譜，DISCO使用LLM獲取反事實數據并過濾以獲得高質量數據集以提高學生在NLI任務中的能力，PubMedBERT提出了一種全新框架處理不良事件實體和ADE關系提取，以及Promptmix使用LLM根據比例混合和重新標記文本數據用于分類問題以獲得更強大的訓練數據集。 **白盒知識蒸餾。**白盒蒸餾的研究工作相對較少，但仍有一些探索。MINILLM和GKD等模型專注于損失函數，并使用反向KL散度來幫助學生從教師分布中學習。此外，Padmanabhan等人通過提示語言模型生成轉移集，使學生的分布與轉移集上的教師分布相匹配。TSLD利用判別概率表征進行標記化，以減少在應用QAT時引入的錯誤。MiniMA發現當學生模型的大小約為教師模型參數數量的40%時，最佳的蒸餾效果會出現。這些方法都旨在幫助學生訓練，并利用教師提供的信息來增強學生的表達能力。 6 緊湊架構設計

緊湊架構設計是一種提高效率和精簡的理念，通過優化網絡結構和算法，顯著提高模型效率，同時減少計算資源和內存的使用。它可分為微觀和宏觀兩個層次進行研究，重點優化注意力計算和Transformer架構設計。 6.1 高效注意力

Transformer中的標準自注意力機制時空復雜度為O(N2)，阻礙了處理長序列問題的能力。為了解決這個問題，出現了高效注意力工作，包括稀疏注意力、線性近似注意力和閃存注意力等。 稀疏注意力方法允許每個標記只關注局部或主要相關的項，從而實現稀疏注意力模式，從而降低計算和內存需求。稀疏注意力方法可以分為基于全局、基于窗口和基于數據三種方法。基于全局的方法包括全局注意力、基于窗口的方法包括局部注意力和固定注意力模式，基于數據的方法包括隨機注意力和數據驅動的稀疏注意力。圖6 比較稀疏注意力模式。(a) 完全自注意力(b) 步長注意力(c) 窗口注意力(d) 全局注意力 線性近似注意力方法以解決標準注意力計算中存在的二次時間復雜度問題。線性近似注意力計算方法可以分為基于關聯性和低秩的方法。基于關聯性的方法通過計算 KTV 并利用軟最大化實現線性注意力，而低秩方法則通過將 QKT 分解為低秩矩陣實現線性注意力。 6.2 神經架構搜索（NAS）

NAS是一種通過搜索算法自動尋找最優神經網絡結構的方法。這種方法可以避免手動設計神經網絡結構的繁瑣過程，并且能夠找到在特定任務上表現更好的模型結構。HAT 是一種神經架構搜索方法，它通過構建一個 Super Transformer 來近似包含搜索空間中的所有 Sub Transformer 模型，并通過延遲預測器預測延遲，從而加速搜索過程。這種方法可以避免昂貴的重新訓練，并且可以觀察到一些重要的性質。 7 動態網絡（DyNN）

動態網絡（DyNN）是一種在資源受限環境下處理大型語言模型（LLM）的方法，它只使用網絡的一部分來處理每個輸入，從而降低計算和內存需求。在自然語言處理（NLP）和LLM領域，當前的DyNN研究主要包括三種方法：早期退出、級聯推理和混合專家（MoE）。早期退出旨在在深度神經網絡的早期層動態終止推理過程，以減少響應時間。級聯推理將模型分解為多個子模型，每個子模型處理輸入序列的不同部分。混合專家將模型分解為多個專家，每個專家處理輸入序列的不同部分。這些方法可以結合其他壓縮加速方法來提高LLMs的效率。表5中總結了一些具有代表性的MoE方法。表5 各種MoE方法總結

7.1 將MoE與其他高效技術結合使用

MoE 與其他高效技術結合的研究包括剪枝、知識蒸餾和參數高效微調（PEFT）。在稀疏 MoE 模型中，大多數現有工作都關注如何在保留大部分表示能力的同時減少內存占用。MoEBERT 將預訓練 BERT 中的前饋網絡（FFN）轉換為多個專家，并在推理時只激活一個專家，以提高速度。MoEfication 旨在將 FFN 轉換為 MoE 層的轉換推廣到各種 Transformer 模型。σ-MoE 和 SwitchHead 引入了額外的稀疏性到 FFN 和注意力組件，以減少標準 Transformer 的計算和內存需求。Sparse Mixers 和 SMLP 替換了大部分自注意力子層和 FFN，并使用 MoE 子層和路由機制確保來自同一句子的標記被發送到同一專家。AdaMix 提出了一種混合適配器或低秩分解矩陣的混合方法，以增強下游性能。MixDA 使用一組領域適配器注入領域特定知識，并訓練一個混合適配器門動態融合多個領域任務。EcoAssistant 和 FrugalGPT 利用查詢緩存和 LLM 層次結構處理不同復雜度的請求。MoE 的研究歷史較長，廣泛應用于今天的 LLM，包括模型壓縮和加速技術。 8 加速框架

本章主要介紹了一些用于加速大型語言模型（LLM）推理的框架。這些框架旨在提高 LLM 在不同場景下的效率，包括延遲、吞吐量和內存等。這些框架可以分為通用框架和特定框架。通用框架包括 DNNFusion 和 DeepSpeed Inference，它們可以應用于各種場景，而特定框架則針對特定場景進行優化，如 TurboTransformer 和 ByteTransformer。表6為各種加速框架的總結。這些框架通過操作融合、張量并行、推理管道和卸載系統等技術來提高 LLM 的推理效率。表6 各種加速框架的總結

付費5元查看完整內容

自然語言處理 · 知識表征 · 語義知識 · 預訓練 · 語言模型 ·

2021 年 9 月 25 日

[付費5元查看完整內容]知識感知的預訓練語言模型綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：隨著自然語言處理（NLP）領域中預訓練技術的快速發展，將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異，知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果，分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型，分別介紹引入不同外部知識的預訓練語言模型，并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上，分析當前預訓練語言模型發展過程中所面臨的問題和挑戰，并對領域發展前景進行展望。

//www.ecice06.com/CN/10.19678/j.issn.1000-3428.0060823

付費5元查看完整內容

多模態學習 ·

2020 年 5 月 6 日

[付費5元查看完整內容]多模態學習方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要：大數據是多源異構的。在信息技術飛速發展的今天，多模態數據已成為近來數據資源的主要形式。研究多模態學習方法，賦予計算機理解多源異構海量數據的能力具有重要價值。本文歸納了多模態的定義與多模態學習的基本任務，介紹了多模態學習的認知機理與發展過程。在此基礎上，重點綜述了多模態統計學習方法與深度學習方法。此外，本文系統歸納了近兩年較為新穎的基于對抗學習的跨模態匹配與生成技術。本文總結了多模態學習的主要形式，并對未來可能的研究方向進行思考與展望。

付費5元查看完整內容