亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

作為近年來最受歡迎和廣受關注的生成模型之一,擴散模型引起了眾多研究人員的興趣,并在圖像合成、視頻生成、分子設計、三維場景渲染和多模態生成等各種生成任務中表現出顯著優勢,這些都依賴于其深厚的理論原理和可靠的應用實踐。擴散模型的成功主要歸功于漸進式的設計原則,以及高效的架構、訓練、推理和部署方法。然而,目前尚缺乏全面深入的綜述來總結這些原理和實踐,以幫助快速理解和應用擴散模型。在本綜述中,我們從效率導向的角度出發,對現有的研究進行了總結,主要聚焦于架構設計、模型訓練、快速推理和可靠部署中的深層原理和高效實踐,以便以讀者友好的方式指導進一步的理論研究、算法遷移和模型在新場景中的應用。代碼已發布在://github.com/ponyzym/Efficient-DMs-Survey

近年來,擴散模型(DMs)取得了顯著成功,伴隨著一系列視覺上令人驚嘆的生成內容的涌現。在圖像合成領域超越生成對抗網絡(GANs)之后,擴散模型在許多下游應用中展現出潛力,如圖像合成、視頻生成、音頻合成、三維渲染與生成等,成為新一代生成模型家族的代表。在這些令人矚目的成果背后,擴散模型比其他生成模型(如變分自編碼器(VAEs)和生成對抗網絡(GANs))具有更為深厚的理論基礎。此前的大量研究努力集中于采樣過程、條件引導、似然最大化以及泛化能力,以提高其效率并增強生成能力。基于這些豐富的研究工作,我們幾乎可以看到擴散模型正成為與大規模語言模型(LLMs)并駕齊驅的兩大璀璨之星。然而,對于LLMs,已有眾多綜述對其高效架構設計、模型訓練、監督微調、偏好對齊及相關應用進行了詳細解釋。但在擴散模型領域,現有綜述在全面、深入地總結其原理和實踐方面仍存在顯著不足(參見圖1),不利于未來工作中對擴散模型的快速理解與應用。此外,值得注意的是,受益于自注意力機制和深度可擴展架構的優勢,LLMs已獲得強大的語言涌現能力。然而,目前的擴散模型仍面臨擴展性困境,這對支持大規模深度生成訓練和類似于LLMs的智能涌現能力至關重要。代表性例子是,Sora的出現將生成模型的智能涌現能力推向了高潮,它將視頻模型視為世界模擬器。然而,遺憾的是,Sora依然是一個閉源系統,其智能涌現的機制尚不明確。本綜述旨在系統性地整理擴散模型領域在高效性方面的最新進展,以推動生成模型的智能涌現(如圖2所示)。我們將文獻按六大主要類別進行分類,涵蓋高效擴散模型的各個方面,包括:原理、高效架構、高效訓練與微調、高效采樣與推理、部署及應用。

  • 原理:著重于擴散模型的深厚理論基礎,通過梳理相關理論(如動態建模、分數匹配、潛在投影和條件引導)來解釋其生成有效性,以促進新理論的發展并指導各種高效生成實踐。

  • 高效架構:探討擴散模型的主流骨干網絡,包括U-Net、DiT、U-ViT、MamBa等,并分析其設計結構,比較各自優劣,以促進更強大的新深度可擴展架構的涌現。

  • 高效訓練與微調:整理擴散模型的高效訓練、微調和偏好優化方法,如低秩適應、一致性訓練、對抗訓練和適配器訓練等,幫助研究人員和開發人員為特定低資源或個性化訓練任務選擇合適的方法。

  • 高效采樣與推理:綜述擴散模型中最常用的高效采樣與推理策略,涵蓋無學習和基于學習的方法,通過比較其在不同生成任務中的加速性能,為研究更快速的采樣方法提供理論依據。

  • 高效部署:總結當前擴散模型在移動設備和網頁上的最新部署方案,促進其在各類跨平臺、低資源環境中的操作,并推動各種應用的誕生。

  • 應用:探討高效擴散模型在不同領域的實際應用,強調生成性能、效率與計算成本之間的平衡。

綜上所述,本綜述深入研究這些工作,探索使擴散模型在設計、訓練和計算方面更加高效的各類理論、方法和策略。我們回顧了高效擴散模型的發展歷史,提出了高效擴散模型策略的分類法,并全面比較了現有高效擴散模型的性能。通過本次調查,我們希望提供對當前先進且高效的生成模型的全面理解。同時,本綜述作為一份路線圖,突出了未來研究和應用的潛在方向,并促進對高效擴散模型領域挑戰和機遇的更深入理解。此外,我們在GitHub上建立了一個倉庫,用于匯總本綜述中提到的論文,并按相同分類法進行整理,地址為:

**2. 效率擴散模型:基礎原理

2.1 離散定義與理論預備知識擴散模型(Diffusion Models,DMs)是一類基于無監督潛在變量模型的生成模型,最初受到非平衡熱力學的啟發。這些模型定義簡單且能夠高效訓練,并在生成高質量樣本方面表現出色。離散DM通過一個前向數據擾動過程 q(x1:T∣x0)q(x_{1:T} | x_0)q(x1:T∣x0) 和一個可學習的反向去噪過程 pθ(x0:T)p_{\theta}(x_{0:T})pθ(x0:T) 來實現,其中二者都是基于馬爾可夫步驟進行的漸進式加噪和去噪操作。具體來說,給定數據分布 q(x0)q(x_0)q(x0),前向擾動過程將 x0x_0x0 轉化為 xTx_TxT ,而反向過程從 p(xT)=N(xT;0,I)p(x_T) = N(x_T; 0, I)p(xT)=N(xT;0,I) 開始,逐漸估計后驗分布 pθ(xt?1∣xt)p_{\theta}(x_{t-1} | x_t)pθ(xt?1∣xt) ,直至恢復到 x0x_0x0。其訓練目標為最小化模型的負對數似然,以優化模型參數 。2.2 連續定義與得分匹配原理連續時間DMs使用基于隨機微分方程(SDE)的定義,該方法可以描述為在數據分布 pdata(x)p_{\text{data}}(x)pdata(x) 上施加擾動核 pσ(x~∣x)=N(x~;x,σ2I)p_{\sigma}(\tilde{x} | x) = N(\tilde{x}; x, \sigma^2I)pσ(x~∣x)=N(x~;x,σ2I),并隨后利用逆ODE(也稱為概率流ODE)進行反向去噪,從而保持前向SDE的邊際概率密度不變。這種定義方式使得模型在漸進式去噪過程中能夠維持與前向過程相同的概率分布特性(Efficient Diffusion Mod…)。得分匹配是一種常見的用于估計未歸一化統計模型的方法,尤其適用于擴散模型中的梯度估計。給定數據分布的樣本,任務是學習未歸一化的密度 p~m(x;θ)\tilde{p}_m(x; \theta)p~m(x;θ),其中 θ\thetaθ 是參數空間的一部分。通過估計數據的得分函數,模型可以逐漸構建出與樣本相符的分布(Efficient Diffusion Mod…)。2.3 潛變量建模潛變量投影是一種通過預訓練的VQ-VAE模型將輸入圖像壓縮到高維空間的方法,該方法幾乎被所有當前擴散模型所采用。此過程涉及編碼器和解碼器,前者用于將圖像轉化為潛變量,而后者則在完成擴散過程后將其重構為原圖像。這種建模方式幫助擴散模型在較低維度空間中高效地處理圖像生成(Efficient Diffusion Mod…)。2.4 條件引導條件引導原理主要應用于文本條件擴散模型,通過將文本條件的語義整合到噪聲預測模型中來生成與文本語義相符的視覺內容。常見的技術包括無分類器指導,其通過調整指導權重實現對圖像生成過程的控制,確保生成結果符合預期的文本描述。這類引導機制在文本到圖像生成任務中發揮著關鍵作用,且廣泛應用于提高生成質量和可控性(Efficient Diffusion Mod…)。

**3. 主流網絡架構

3.1 VAE用于潛在空間壓縮在高維RGB像素空間中進行擴散和去噪的計算代價高且影響推理速度。為減輕此負擔,LDM觀察到圖像中的大部分信息用于感知細節,即使在壓縮后仍能保留語義與概念結構。LDM通過訓練變分自編碼器(VAE),將輸入圖像從像素空間壓縮到潛在空間,以降低資源消耗,圖像的擴散和去噪隨后在潛在空間中進行。這種方法顯著降低了擴散模型的訓練和推理成本。該結構通常包括標準VAE、量化VAE(如VQVAE或VQGAN)及其變體,使用GAN判別器損失來提高重構質量。訓練好的VAE可作為通用壓縮模型,其潛在空間可以用于訓練多個生成模型,并應用于其他下游任務(Efficient Diffusion Mod…)。

3.2 去噪神經網絡骨干在擴散模型中,神經網絡主要充當去噪階段中的殘差式噪聲預測器,這些去噪網絡主要包括以下幾類:

  1. U形去噪網絡(U-Net為主):擴散模型的核心架構之一為U-Net。該架構采用編碼器-解碼器結構,通過卷積操作逐層提取并下采樣圖像特征,并在解碼階段逐步恢復空間分辨率。Song等對U-Net在擴散模型中的表現進行了改進,增加了網絡寬度和深度,以及注意力頭的數量,從而提高了圖像生成任務的性能(Efficient Diffusion Mod…)。
  2. 基于Transformer的去噪網絡:Transformer架構因其在建模長程依賴關系方面的能力,逐漸在圖像和視頻生成任務中取代U-Net。U-ViT將Transformer塊引入U形結構,DiT引入了視覺Transformer并展示了其在擴散模型中的可擴展性。DiT還通過引入時空Transformer塊擴展至視頻生成任務,展示了生成高質量視頻內容的潛力(Efficient Diffusion Mod…)。
  3. 基于狀態空間建模(SSM)的去噪網絡:SSM為長序列生成任務提供了計算效率與靈活性之間的平衡。近期的一些SSM方法被證明在多個任務和模態上有效。Mamba架構結合了SSM,通過硬件感知算法實現高效訓練和推理,并在擴散模型中用于高分辨率圖像生成(Efficient Diffusion Mod…)。 3.3 文本編碼器文本編碼器用于捕捉輸入文本中的復雜語義,是文本條件生成模型的關鍵組件。早期的文本-圖像生成方法使用在配對數據上訓練的文本編碼器,例如CLIP和T5,支持跨模態生成。不同文本編碼器在多語言支持與生成內容一致性上存在差異。近期模型如OmniDiffusion和Kolors支持多語言條件文本輸入,增強了生成模型的適用性(Efficient Diffusion Mod…)。

**4. 高效訓練與微調

4.1 參數高效方法參數高效的訓練方法旨在通過僅更新少量參數而非整個模型來調整預訓練模型,以適應新任務,從而防止過擬合并提高性能。給定擴散模型的預訓練參數θ={w1,w2,…,wn}\theta = {w_1, w_2, \dots, w_n}θ={w1,w2,…,wn},微調任務的目標是通過在數據集DDD 上訓練獲得更新后的參數θ′={w1,w2,…,wm}\theta' = {w_1, w_2, \dots, w_m}θ′={w1,w2,…,wm}。相比于完全微調方法(∣Δθ∣=∣θ∣|\Delta \theta| = |\theta|∣Δθ∣=∣θ∣),當∣Δθ∣?∣θ∣|\Delta \theta| \ll |\theta|∣Δθ∣?∣θ∣ 時,即僅更新少量參數的情況下實現高效訓練(Efficient Diffusion Mod…)。典型的參數高效方法包括ControlNet、低秩適配(LoRA)和適配器(Adapter)等,這些方法通過添加并更新輕量模塊來實現高效的任務適應(Efficient Diffusion Mod…)。

4.1.1 ControlNets盡管擴散模型在文本到圖像的生成能力上表現出色,但在深度到圖像及姿態到圖像等任務中仍存在空間組合控制的挑戰。ControlNet通過在多分辨率層中引入視覺特征,使得生成過程更具可控性,并衍生出許多高效變體(如ControlNet-XS、ControlNeXt和ControlNet++),這些變體專注于在不增加參數數量的情況下提升控制能力(Efficient Diffusion Mod…)。4.1.2 適配器適配器方法通過增加少量適配模塊來實現擴散模型的參數高效訓練。典型的適配器包括T2I-Adapter、IP-Adapter等,這些模塊對不同的控制信號(如圖像或深度特征)進行編碼,從而實現對生成任務的高效微調和控制(Efficient Diffusion Mod…)。**4.1.3 低秩適配(LoRA)**LoRA通過低秩分解來實現參數的結構化更新,以最小化更新參數的數量。基于LoRA的參數插值技術可以平滑過渡不同概念間的特征(Efficient Diffusion Mod…)。4.2 標簽高效方法標簽高效方法針對數據匱乏的情況,通過優化偏好和個性化訓練來提升擴散模型的生成質量。偏好優化通過獎勵模型代替人工標注,并通過強化學習從人類反饋中學習,以調整模型生成的圖像更符合人類美學偏好。而個性化訓練則在小樣本數據集中提取最顯著的特征,以保證擴散模型的生成能力(Efficient Diffusion Mod…)。

**5. 高效采樣與推理

5.1 無需訓練的方法 在擴散模型中,采樣通常需要大量迭代去噪操作,這極大地影響了實際應用中的效率。因此,研究者們提出了多種無需訓練的方法,以減少推理階段的迭代次數,同時保持模型的生成質量。這些方法主要通過求解離散化的隨機微分方程(SDE)或概率流常微分方程(PF-ODE),加速采樣過程。 * SDE 求解器:作為加速采樣的一種數值方法,SDE求解器通過將連續時間SDE離散化為多個時間步,以提高采樣效率(Efficient Diffusion Mod…)。 * ODE 求解器:PF-ODE 求解器與 SDE 不同,其采樣過程是確定性的,更適合作為知識蒸餾中教師模型。DDIM 是一種較快的擴散采樣調度器,通過非馬爾科夫擴散過程支持較大的去噪步長(Efficient Diffusion Mod…)。 * 軌跡優化:通過優化采樣軌跡來加速采樣過程,例如 ReDi 利用預先計算的知識庫檢索,以便在采樣的初始階段加快采樣進程(Efficient Diffusion Mod…)。

5.2 基于訓練的方法 基于訓練的方法側重于通過知識蒸餾、對抗訓練等方式,加速模型在生成過程中的采樣速度,并增強生成質量。這些方法通常被劃分為三類:基于分布、軌跡以及GAN的蒸餾方法。 * 基于分布的蒸餾:Denoising Student 方法通過對比學生模型和教師模型的噪聲分布,以減少去噪步驟,并加快采樣過程(Efficient Diffusion Mod…)。 * 基于軌跡的蒸餾:Rectified Flow等方法優化了從非線性路徑到直線路徑的轉換,從而減少采樣步驟(Efficient Diffusion Mod…)。 * 對抗蒸餾:通過結合GAN的單步生成優勢,ADD等方法在傳統擴散模型中引入對抗損失來加速采樣(Efficient Diffusion Mod…)。

這些高效采樣和推理方法為擴散模型的實際應用提供了理論基礎,并有效地平衡了采樣速度和生成質量。希望本部分的總結能為研究人員在不同任務中的模型優化提供參考。

**6. 高效部署與應用

6.1 作為工具的高效部署 在實際應用中,將擴散模型作為工具進行高效部署對于研究人員、開發人員和其他生成式內容創作從業者至關重要。這類用戶需要較高的靈活性和對生成過程的控制,以便在不同場景下調整和優化模型配置。這種部署類型為深度實驗和定制化提供了環境,能夠充分發揮擴散模型的潛力。尤其適用于需要測試多個模型配置、調整噪聲參數、優化性能或集成自定義組件的任務。因此,工具型部署通常強調模塊化設計、可擴展性、對多樣化需求的適應性和較高的控制水平(Efficient Diffusion Mod…)。 ComfyUI 作為此類工具的一個例子,它采用了基于節點的工作流界面,允許用戶通過連接不同的節點來構建并修改復雜的圖像生成流程。這種模塊化設計特別適合需要對生成過程進行細化和定制化的用戶,尤其是研究人員和開發人員。盡管 ComfyUI 的靈活性使其學習曲線較陡峭,但它為那些希望在輸入到輸出的工作流程各階段進行跟蹤的用戶提供了極大的便利(Efficient Diffusion Mod…)。 相反,Stable Diffusion WebUI(通常稱為 Automatic1111 或 WebUI)提供了一種簡單的表單樣式界面,用戶可以通過輸入參數如提示詞、步數、CFG 縮放比例和圖像分辨率來快速生成圖像。這種設計特別適合希望快速生成圖像的用戶,尤其是初學者。盡管它隱藏了詳細的圖像生成工作流程,但 WebUI 仍然提供了高級功能和定制選項,通過其插件系統可以實現各種功能,如圖像修復和個性化訓練工具,這使得其擴展性較強(Efficient Diffusion Mod…)。

6.2 作為服務的高效部署

作為服務的高效部署旨在為更廣泛的用戶群體提供支持,這類用戶通常不具備高級技術知識或高端本地計算資源。服務提供商通過將擴散模型的復雜處理簡化為“一鍵式”用戶體驗,將重點放在推理過程和用戶交互的優化上。目標是在移動和云平臺上提供更快速、更穩定的推理服務,以滿足日常用戶的需求,同時還需考慮成本控制和隱私保護(Efficient Diffusion Mod…)(Efficient Diffusion Mod…)。 Google 通過優化 GPU 內存 I/O 顯著降低了移動設備上的推理延遲,包括增強注意力模塊和使用 Winograd 卷積等改進,從而減少了大中間矩陣的內存訪問,同時通過 FlashAttention 降低了內存帶寬壓力。測試表明,在三星 S23 Ultra 和 iPhone 14 Pro Max 上,生成 512px 分辨率圖像的延遲分別減少了 52.2% 和 32.9%,推理時間降至12秒以內(Efficient Diffusion Mod…)。 此外,SnapFusion 在移動設備上的推理時間已降至2秒以內,展示了其在高效推理中的創新性。通過優化 UNet 并引入 CFG 感知步驟蒸餾,SnapFusion 顯著提高了推理效率和穩定性。在 MS-COCO 數據集上的實驗顯示,SnapFusion 僅使用 8 個去噪步驟便獲得了優于 Stable Diffusion v1.5 的性能(Efficient Diffusion Mod…)。 MobileDiffusion 針對移動設備進一步優化了擴散模型架構,通過共享投影矩陣、替換激活函數和采用可分離卷積,實現輕量化模型。它通過剪枝 VAE 解碼器的寬度和深度以加速解碼過程,同時引入基于 GAN 的混合訓練方法,支持一步采樣,在 iPhone 15 Pro 上可以在 0.2 秒內生成 512px 圖像(Efficient Diffusion Mod…)。 在云端的高效部署上,DistriFusion 采用多 GPU 并行策略,通過觀察相鄰擴散步驟輸入的高度相似性,使用“位移補丁并行性”實現顯著加速。在 8 個 A100 GPU 上生成高分辨率圖像時,DistriFusion 達到約 2.8×、4.9× 和 6.1× 的加速效果(Efficient Diffusion Mod…)。

**7. 應用

擴散模型的高效應用涵蓋多個領域,包括圖像合成、圖像編輯、視頻生成、視頻編輯、三維合成、醫學影像和生物信息學工程等。以下是各個應用領域的概述:

7.1 圖像合成

圖像合成是計算機視覺中的重要任務,廣泛應用于藝術創作和個性化內容生成。擴散模型在文本到圖像的生成中表現出色,例如Dreambooth提出的基于主題的個性化生成方法,能夠在合成過程中保留樣本的視覺內容。此外,擴散模型在圖像風格遷移和視覺文本生成等方面也有應用,幫助生成高質量的海報和連貫的圖像系列(Efficient Diffusion Mod…)。

7.2 圖像編輯

擴散模型具備強大的可控生成能力,特別適合需要在生成過程中進行調整的圖像編輯任務。諸如虛擬試穿技術可以讓用戶體驗不同的服裝效果,圖像編輯技術還包括文本驅動的風格遷移和特定領域的編輯方法,滿足用戶的不同編輯需求(Efficient Diffusion Mod…)。

7.3 視頻生成

在視頻生成中,擴散模型已被應用于生成和編輯一系列連貫的視頻幀,保證視頻的時間一致性和自然流暢性。虛擬試穿在視頻中的應用進一步增強了用戶編輯視頻內容和外觀的能力,而視頻動作編輯則側重于角色或物體動作的靈活調整,提升了視頻內容的靈活性和一致性(Efficient Diffusion Mod…)。 7.4 視頻編輯

視頻編輯中的一大目標是保持幀間的時間一致性,以確保生成的視頻看起來自然流暢。擴散模型在這一領域的應用包括視頻試穿和視頻動作編輯,前者使用戶能夠更真實地體驗不同的服裝效果,而后者則注重角色或物體動作的靈活編輯(Efficient Diffusion Mod…)。 7.5 三維合成

三維合成廣泛用于影視制作、電子游戲、虛擬現實和增強現實中,通過擴散模型生成并組合三維圖像和場景。這項技術能夠創建高度逼真且動態的三維環境,顯著增強視覺沉浸感和交互體驗(Efficient Diffusion Mod…)。 7.6 醫學影像

擴散模型在醫學影像領域具有重要價值,能夠生成高質量的醫療圖像,緩解數據稀缺問題,并提高影像分析的準確性。該模型還支持多模態影像轉換,例如從CT影像到MRI影像的生成,提升診斷一致性并降低成本(Efficient Diffusion Mod…)。

7.7 生物信息學工程

在生物信息學領域,擴散模型用于生成并優化分子結構和蛋白質的三維構型。例如,通過生成合理的化學分子結構或預測蛋白質折疊方式,擴散模型促進了新藥研發和分子模擬等領域的發展(Efficient Diffusion Mod…)。

**結論

在本研究中,我們對高效擴散模型(DMs)的文獻進行了深入全面的回顧,全面探索了其核心挑戰和主題,包括基礎理論和原理以及廣泛的實際應用。我們的目標是識別并突出需要進一步研究的領域,并提出未來研究的潛在方向。本文旨在提供對當前高效擴散模型現狀的全面視角,希望能激發更多的研究和創新工作。

鑒于該領域的動態發展特性,某些最新進展可能未能全面覆蓋。為了解決這一問題,我們計劃建立一個專門網站,通過眾包方式跟蹤最新進展。該平臺將作為一個持續更新的信息來源,以促進該領域的持續發展。由于篇幅限制,本文無法深入探討所有技術細節,但已對該領域的關鍵貢獻進行了簡要概述。未來,我們計劃持續更新和完善網站上的信息,并隨著新的見解不斷補充內容。

付費5元查看完整內容

相關內容

本教程全面調查了用于微調擴散模型以優化下游獎勵函數的方法。雖然擴散模型因其出色的生成建模能力廣為人知,但在生物學等領域的實際應用中,需要生成最大化某些期望指標(如RNA的翻譯效率、分子的對接評分、蛋白質的穩定性)的樣本。在這些情況下,擴散模型不僅可以生成逼真的樣本,還可以明確地最大化感興趣的度量。這些方法基于強化學習(RL)的概念。我們解釋了各種RL算法的應用,包括PPO、可微優化、獎勵加權最大似然估計(MLE)、價值加權采樣和路徑一致性學習,這些算法專門用于微調擴散模型。我們旨在探索基本方面,例如不同RL微調算法在各種場景中的優缺點、RL微調相對于非RL方法的好處,以及RL微調的正式目標(目標分布)。此外,我們還將探討它們與相關主題的聯系,如分類器指導、Gflownets、基于流的擴散模型、路徑積分控制理論和從非標準化分布(如MCMC)中采樣。本教程的代碼可在//github.com/masa-ue/RLfinetuning Diffusion Bioseq獲得。

擴散模型(Sohl-Dickstein等,2015;Ho等,2020;Song等,2020)被廣泛認為是強大的生成建模工具。它們能夠通過緊密模擬訓練數據的特征來準確地建模復雜的分布。擴散模型在多個領域有許多應用,包括計算機視覺(Podell等,2023)、自然語言處理(Austin等,2021)、生物學(Avdeyev等,2023;Stark等,2024;Li等,2023)、化學(Jo等,2022;Xu等,2022;Hoogeboom等,2022)以及生物學(Avdeyev等,2023;Stark等,2024;Campbell等,2024)。盡管擴散模型在捕捉訓練數據分布方面表現出顯著的能力,但常常需要根據特定的下游獎勵函數對這些模型進行定制。例如,在計算機視覺領域,Stable Diffusion(Rombach等,2022)作為一個強大的預訓練模型骨干,但我們可能希望通過優化下游獎勵函數(如美學評分或人類對齊評分(Black等,2023;Fan等,2023))來進一步微調它。同樣,在生物學和化學等領域,已經開發出各種復雜的擴散模型用于DNA、RNA、蛋白質序列和分子,有效地建模生物和化學空間。然而,生物學家和化學家通常旨在優化特定的下游目標,如DNA序列中的細胞特異性表達(Gosai等,2023;Lal等,2024;Sarkar等,2024)、RNA序列的翻譯效率/穩定性(Castillo-Hair和Seelig,2021;Agarwal和Kelley,2022)、蛋白質序列的穩定性/生物活性(Frey等,2023;Widatalla等,2024)或分子的QED/SA評分(Zhou等,2019)。為了實現這一目標,已經提出了許多通過強化學習(RL)微調擴散模型的算法(如Black等,2023;Fan等,2023;Clark等,2023;Prabhudesai等,2023;Uehara等,2024),旨在優化下游獎勵函數。RL是一種機器學習范式,代理通過學習進行順序決策以最大化獎勵信號(Sutton和Barto,2018;Agarwal等,2019)。在我們的背景下,RL由于擴散模型固有的順序結構,自然而然地成為一種合適的方法,其中每個時間步涉及一個“決策”,對應于該步樣本的去噪方式。本教程旨在回顧最近的研究成果,為對從整體角度理解基于RL的微調基礎知識感興趣的讀者提供幫助,包括基于RL的微調相對于非RL方法的優勢、不同RL微調算法的優缺點、RL微調的正式目標及其與分類器指導等相關主題的聯系。本教程的內容主要分為三個部分。此外,作為實現示例,我們還發布了利用RL微調進行引導的生物序列(DNA/RNA)生成的代碼,地址為: Diffusion Bioseq。

  1. 我們旨在提供當前算法的全面概述。特別是,鑒于擴散模型的順序特性,我們可以自然地將微調框架為馬爾可夫決策過程(MDP)中的強化學習(RL)問題,如第3和第4節所述。因此,我們可以采用任何現成的RL算法,例如PPO(Schulman等,2017)、可微優化(直接獎勵反向傳播)、加權MLE(Peters等,2010;Peng等,2019)、價值加權采樣(類似于Dhariwal和Nichol(2021)中的分類器指導)以及路徑一致性學習(Nachum等,2017)。我們在第4.2和第6節詳細討論了這些算法。我們不僅僅列出每個算法,還旨在呈現它們的優缺點,以便讀者可以根據自己的具體目的選擇最合適的算法。

  2. 我們在第7節根據獎勵反饋的獲取方式分類了各種微調場景。這一區分對實際算法設計至關重要。例如,如果我們可以獲得準確的獎勵函數,計算效率將成為我們的主要關注點。然而,在獎勵函數未知的情況下,必須從具有獎勵反饋的數據中學習它們,從而需要考慮反饋效率和分布轉移的問題。特別是,當需要從靜態離線數據中學習獎勵函數而沒有任何在線交互時,我們必須解決過度優化的問題,即微調模型被分布外樣本誤導,生成低真實獎勵的樣本。這一點非常重要,因為在離線場景中,具有反饋的離線數據分布的覆蓋范圍有限,因此分布外區域可能非常廣泛(Uehara等,2024)。

  3. 我們詳細討論了基于RL的微調方法與文獻中密切相關的方法之間的關系,如第8節中的分類器指導(Dhariwal和Nichol,2021)、第9節中的基于流的擴散模型(Liu等,2022;Lipman等,2023;Tong等,2023)、第10節中的非標準化分布采樣(Zhang和Chen,2021)、第6.3節中的Gflownets(Bengio等,2023)以及第6.2.3節中的路徑積分控制理論(Theodorou等,2010;Williams等,2017;Kazim等,2024)。我們總結了以下關鍵信息:

  • 第6.3節:Gflownets中使用的損失本質上等同于從一種特定RL算法——路徑一致性學習中導出的損失。
  • 第8節:在條件生成中使用的分類器指導被視為一種特定的基于RL的微調方法,我們稱之為價值加權采樣。正如Zhao等(2024)中形式化的那樣,這一觀察表明,任何現成的基于RL的微調算法(如PPO和可微優化)都可以應用于條件生成。
  • 第10節:從非標準化分布(通常稱為吉布斯分布)中采樣在各個領域都是一個重要且具有挑戰性的問題。盡管MCMC方法傳統上用于解決這一任務,但認識到其與基于RL的微調目標的相似性,表明現成的RL算法也可以有效地解決從非標準化分布中采樣的挑戰。

付費5元查看完整內容

大模型(LLM)的興起在自然語言處理領域引起了廣泛關注,其涌現能力在各個垂直領域(如金融、醫療、教育等)也取 得一定進展。然而,大模型自身面臨解釋性不足、知識實時性差、生成結果存在虛假信息等諸多挑戰。為了應對這些問題,知 識圖譜與大模型的融合逐漸成為了研究熱點。知識圖譜作為一種結構化的知識模型,其真實性和可靠性,成為提高大模型解 釋和推理能力的有力工具。同時大模型具備語義理解能力,為知識圖譜的構建和更新提供了有力支持。因此,知識圖譜和大 模型是互補的(本文稱為圖模互補)。本文系統性地介紹知識圖譜與大模型融合的方法,分別從 1)大模型增強知識圖譜,2)知 識圖譜增強大模型,兩個角度進行全面的回顧和分析。最后,本文從醫學診斷預測和時間知識圖譜出發,介紹圖模互補的領域 應用,并討論圖模互補未來發展的方向,為知識圖譜與大模型的進一步研究提供幫助。 近年來,自然語言領域出現了一項令人矚目的 技術:大模型。大模型(LLM)是指通過超大規模文 本數據訓練出來的神經網絡模型,由預訓練語言模 型(PLM)發 展 而 來,其 特 點 是 模 型 規 模 較 大,參 數 通 常 在 數 十 億 乃 至 萬 億 級 別。相 較 于 傳 統 的 預 訓 練語言模型,大模型在處理復雜任務時表現出特殊 的 能 力(涌 現 能 力[1] 、推 理 能 力[2] )。相 關 研 究 表 明, 大 模 型 不 僅 能 夠 理 解 和 處 理 大 規 模 的 文 本 數 據[3] , 同時還具備上下文學習能力[4] 和領域泛化能力。這 使得它們成為各種自然語言下游任務的通用選擇, 能夠輕松進行少樣本遷移學習[5] 。如今,AI 領域中 涌現出許多具有代表性的大模型,例如對話式語言 大 模 型 ChatGPT[6] 、增 強 推 理 能 力 的 多 模 態 大 模 型 GPT-4[7] 等等。這些模型不僅在傳統的自然語言處 理領域(如搜索引擎[8] 和機器翻譯[9] )取得一定進展, 還在金融[10] 、醫療[11] 、教育[12] 等各種領域提供有效幫 助。大模型對傳統的自然語言處理領域帶來沖擊, 促使學者重新思考通用人工智能的可能性[13] 。 目 前,雖 然 大 模 型 引 起 了 廣 泛 的 關 注,但 它 仍 然 面 臨 著 諸 多 挑 戰,包 括 模 型 內 部 的 不 可 控 性,缺 乏解釋性[14] 、無法保證知識實時性[5] 、語言數據質量 的 不 確 定 性,以 及 產 生 幻 覺 和 有 毒 信 息 的 潛 在 風 險[15] 。為了應對這些挑戰,學者們開始思考將知識 圖譜與大模型融合[5] 。知識圖譜是一種用于表示和 存 儲 知 識 的 網 絡 圖 形 結 構,其 中 節 點 表 示 實 體,邊 表示實體之間的關系[16] 。知識圖譜以其數據的真實 性而著稱,這一特點可以有效地減輕大模型產生幻 覺 的 問 題 。 例 如 KELM 語 料 庫[17] 、通 用 模 型 KG? PT[18] 為大模型提供基于知識圖譜轉化的真實文本 信 息。大 模 型 作 為 一 個“黑 盒 模 型”其 輸 出 結 果 通 常難以解釋,而知識圖譜內部的結構知識更接近人 類認知。因此,知識圖譜可以提供一種解釋和推理 知識的手段,探究大模型內部復雜的工作步驟和推 理 過 程。例 如 個 性 化 知 識 庫 與 大 模 型 集 成 的 檢 索 框 架 KnowledGPT[19] ,提 高 處 理 復 雜 搜 索 和 歧 義 的 能 力。此 外,知 識 圖 譜 還 可 以 作 為 外 部 檢 索 工 具, 幫助大模型解決公平、隱私和安全等問題[20] 。 如今知識圖譜的規模越來越大,傳統的圖譜構 建、補全技術也面臨許多難題,如數據獲取、實體識 別、知識抽取和實體消歧等[21] 。大規模知識圖譜的 構 建 往 往 需 要 投 入 大 量 的 人 力、物 力 和 時 間 成 本, 且 依 舊 無 法 保 證 知 識 圖 譜 質 量 和 可 用 性。而 大 模 型 能 有 效 解 決 這 些 問 題。大 模 型 內 部 存 在 海 量 的 知 識 信 息,在 處 理 復 雜 的 文 本 數 據 信 息 時,能 夠 迅 速地進行實體識別與抽取,有效應對知識構建和補 全的挑戰[22] 。此外,鏈接預測是知識圖譜推理和問 答 的 關 鍵 步 驟,在 零 樣 本 和 少 樣 本 學 習 中,大 模 型 同 樣 能 夠 有 效 地 挖 掘 實 體 間 的 邏 輯 關 系。根 據 知 識圖譜和大模型的上述特點,本文認為知識圖譜和 大模型是相互補充的,稱為“圖模互補”,圖 1 為知識 圖譜與大模型的優缺點總結。 知 識 圖 譜 與 大 模 型 融 合 是 一 個 熱 門 研 究 領 域[23~25] 。文獻[25]提出了統一大模型與知識圖譜的 前瞻性路線圖,總結了現有的大模型與知識圖譜的 先進技術,并討論大模型與知識圖譜融合的相關挑 戰和發展方向。其整體路線劃分與本文有所差異, 本文從作用功能角度進行劃分,根據知識圖譜和大 模型在領域中的地位,將其融合劃分為兩個不同的 類 別:大 模 型 增 強 知 識 圖 譜 和 知 識 圖 譜 增 強 大 模 型。并從增益的效果出發,將每個大類別細分為不 同的小類別,最后探究圖模互補的領域應用。

付費5元查看完整內容

時間序列數據在各個領域中無處不在,使得時間序列分析至關重要。傳統的時間序列模型是針對特定任務的,具有單一的功能和有限的泛化能力。最近,大型語言基礎模型顯示出了其在跨任務轉移、零次/少次學習和決策解釋性方面的顯著能力。這一成功激發了探索基礎模型以同時解決多個時間序列挑戰的興趣。主要有兩個研究方向,即從頭開始預訓練時間序列的基礎模型和將大型語言基礎模型適配到時間序列。這兩者都有助于開發一個高度泛化、多功能且易于理解的統一模型用于時間序列分析。本綜述提供了一個3E分析框架,用于全面檢查相關研究。具體來說,我們從三個維度——有效性、效率和解釋性——檢查現有工作。在每個維度中,我們專注于討論相關工作如何通過考慮時間序列領域的獨特挑戰來設計定制解決方案。此外,我們提供了一個領域分類法,以幫助后來者跟進領域特定的進展。此外,我們還介紹了促進該領域發展的廣泛資源,包括數據集、開源時間序列庫。同時維護一個GitHub倉庫以更新資源(//github.com/start2020/Awesome-TimeSeries-LLM-FM)。

1 引言

時間序列數據指的是在連續時間間隔記錄的數據點序列。時間序列分析有著悠久的研究歷史,與現實世界的應用密切相關[51]。最早的時間序列挖掘可以追溯到古埃及時期,當時人們分析尼羅河的波動來指導農業生產[35]。早期,時間序列研究主要集中在商業和經濟活動[57]、氣象和人口統計等領域,當時收集的數據相對較小,結構簡單(例如,單變量序列)。那時,統計學是主導方法論,促成了各種經典模型的發展,包括ARIMA、ARCH[50]和馬爾可夫轉換模型[64]。然而,大規模工業系統的出現,涵蓋了交通[216]、醫療保健[101]、物聯網(IoT)[59]和電子商務[8]等行業,導致了龐大而復雜的時間序列數據的產生。除了時間序列數據,一些系統還生成包括文本[82]、圖像[150]和圖表[98]在內的不同模態的數據。數據爆炸推動了具有日益復雜模式的新型時間序列應用的出現。例如,交通擁堵檢測[7]、心電圖(ECGs)分類[74]、電子商務銷售需求預測[17]。統計方法難以管理如此龐大和異質的數據集,且依賴于預定義模式假設,限制了它們在處理動態和復雜模式的應用中的實用性。 在過去幾十年中,機器學習和深度學習在各個領域取得了顯著進展,特別是在計算機視覺(CV)和自然語言處理(NLP)[196]。與統計方法不同,這些方法可以以更自動化的方式處理更大、更多樣化的數據集,減少了人力和專業知識的需求。這些技術引入了能夠檢測更復雜模式的先進架構,激發了時間序列社區的極大興趣[79, 106, 125, 160]。因此,出現了多種針對時間序列建模的有效架構,包括不同基礎架構的RNNs[108]、CNNs[29, 109, 207]、GNNs[28, 32]、Transformers[182]、擴散模型[107]。

盡管這些強大的架構將時間序列分析推向了一個新的水平,但在這一領域仍然存在未解決的挑戰。 第一個挑戰是關于知識的可遷移性[149]。時間序列通常表現出季節性(在特定間隔的規律波動)[56]和趨勢(數據的長期方向)[132]。除了這些可識別的模式外,時間序列數據還表現出一定程度的隨機性或噪聲,這通常歸因于未知的因素或模式。這些特征在不同領域之間甚至在同一領域隨時間的變化可能差異很大,由于分布的變化[88],使得將從一個特定任務中學到的模型或時間序列表示遷移到其他任務變得具有挑戰性。例如,對股市數據訓練的時間序列模型[188]學習到的模式受到經濟指標、投資者情緒等高度不穩定因素的影響。而氣候模型[131]則關注長期模式、季節循環,這些循環受物理定律而非人類行為的約束。由于數據性質的根本不同,不同領域間的知識可遷移性依然是一個挑戰。 ? 第二個挑戰與數據稀疏性有關。在許多傳統時間序列場景中[49, 157],數據的收集可能是每日、每月或每年進行的(例如,經濟指標[18]),這導致數據本質上的稀疏性。另外,獲取和標注數據可能存在隱私限制。例如,對心電圖(ECGs)[136]的分類需要臨床診斷,但這些診斷成本高昂,且數據可用性受到患者隱私的限制。這種數據稀缺性阻礙了深度學習模型的有效訓練。實際上,在大多數情況下,可用的數據集仍然不足以學習高質量的模型[110]。 ? 第三個挑戰是關于多模態學習[16]。在多模態時間序列分析的背景下,利用不同模態間的互補見解可以增強解釋性并提升模型性能。例如,在股票行情預測中,社交媒體上的新聞和評論可以直接影響交易活動,將它們整合到模型中可以實現更精確的預測[170, 189]。然而,對各種頻率或間隔收集的多模態數據進行對齊,以準確反映不同模態之間的時間關系,是具有挑戰性的。此外,不同模態可能需要不同的技術來有效捕捉信息,將這些信息無縫整合成一個統一的模型可能很復雜。 ?** 最后,解釋性也是非常需要的[210]**。詳細解釋模型如何生成預測或識別模式可以顯著增強時間序列的實用性和可接受性。一個案例是,如果一個公用事業公司使用一個能源需求預測模型[77]來計劃電力生成或設定價格,它需要向監管機構和消費者證明這些決策是基于合理且可理解的因素。然而,大多數現有的時間序列模型本質上是黑盒,缺乏對模型行為或預測的解釋。

為了應對上述挑戰,已經有一些努力,如時間序列的遷移學習[78, 120, 177, 193]、時間序列數據增強[181]、多模態時間序列分析[26, 42]以及時間序列的可解釋人工智能[143]。然而,這些工作大多集中在單一挑戰上。時間序列社區期待一個能同時解決多個挑戰的多方面模型。理想的模型應具有強大的泛化能力,能在訓練期間處理未見過的時間序列任務和數據稀缺的任務。此外,它還應該能夠無縫整合來自不同模態的數據,并為其決策過程提供可理解的解釋。 在過去幾年中,為了促進知識遷移,出現了一種結合遷移學習和自監督學習的新學習范式,即預訓練和微調范式[65]。它首先在一個數據豐富的源域上預訓練模型,然后在與源域相關的目標任務上進行微調[39]。BERT[41]是一個在大規模語料庫上預訓練的語言模型。研究人員發現,它可以適應廣泛的下游NLP任務,并大幅提升它們的性能水平。這項研究激發了NLP[97, 138, 212]和CV[14, 137]領域中大量的后續工作。這類模型被稱為基礎模型(FM)[22]。它們在各種下游任務上展示出強大的泛化能力。當NLP研究者通過增加數據或模型規模來擴展基礎模型時,他們觀察到這些更大的基礎模型獲得了一些在較小模型中不存在的令人驚訝的能力。這些意外的能力被稱為突現能力[179],包括上下文學習[24]、指令跟隨[69]、思維鏈(CoT)[128]。它們將語言基礎模型從一個可遷移的NLP任務解決者轉變為跨領域的通用任務解決者,現在廣泛被稱為大型語言模型(LLM)。LLM的發展迅速而強勁,催生了許多強大的LLM,如GPT系列[24, 138]。 受到大型語言基礎模型在NLP中顯著成功的啟發,時間序列社區越來越關注基礎模型在時間序列分析中的潛力[25, 82, 112]。一個研究方向是從零開始用時間序列數據預訓練一個基礎模型,仿照語言基礎模型。如TimesFM[36]和TimeGPT[58]等開創性的努力已經啟動了在時間序列領域內基礎模型的預訓練。然而,與NLP領域可用的龐大語料相比,時間序列領域的數據規模相對較小,使得難以產生具有LLM那樣突現能力的基礎模型。此外,基于時間序列數據預訓練的基礎模型缺乏語言生成能力,限制了它們生成人類可讀解釋的能力。受到大型語言基礎模型在各種下游任務中強大的泛化能力的吸引,另一個研究方向集中于將大型語言基礎模型(即LLM)適配于時間序列任務。大型語言基礎模型在跨任務泛化、零次/少次學習和推理方面的優勢可以解決知識遷移、數據稀缺性和可解釋性等時間序列分析中的挑戰。廣義上,有兩種將LLM適配于時間序列任務的范式,即嵌入可見的LLM適配和文本可見的LLM適配[113, 190, 192]。它們在LLM的使用上有所不同,使用微調的提示策略來適配LLM于時間序列任務。它們都面臨著時間與LLM空間對齊、時間序列屬性和模式識別、多模態數據融合的挑戰。盡管這兩條研究線探索了基于不同結構數據集(即時間序列或文本語料)預訓練的基礎模型,但它們都致力于實現一個統一且易于理解的架構,以解決多個時間序列挑戰,并具有強大的泛化能力。

本綜述對時間序列的基礎模型的發展進行了深入分析。該評審以圖2中的四個研究問題為指導,涵蓋三個分析維度(即有效性、效率、可解釋性)和一個分類法(即領域分類法)。(1) 如何在時間序列分析的背景下有效地適應基礎模型?我們將相關工作分為兩條研究線:從頭開始為時間序列預訓練基礎模型和將大型語言基礎模型(即LLMs)適用于時間序列。對于第一條線,我們通過兩個關鍵階段討論有效性:數據收集與對齊、架構設計。對于第二條線,我們識別了兩種適配范式,即嵌入可見的LLM適配和文本可見的LLM適配。在每種適配范式下,我們討論了LLM的利用、時間序列提取和多模態數據融合。時間序列提取包括獲取適當的時間序列表示、對齊時間空間和LLM空間、識別時間序列屬性和模式等挑戰。此外,我們還研究了LLM的多樣化角色,這進一步增加了LLM適配的有效性。(2) 如何高效地為時間序列任務預訓練或微調基礎模型?鑒于這一領域正在興起,當前的高效技術是從NLP領域借鑒的。因此,我們首先提供了一份可轉移至此背景的NLP領域尖端高效方法的簡要概覽。然后,我們討論了不同調整范式下的效率,并總結了已經使用的高效方法。(3) 如何獲得時間序列應用中基礎模型行為或決策的可解釋性?模型的實際部署需要可解釋性。我們從探索AI中的可解釋性概念開始,強調全局和局部解釋。然后,我們繼續回顧和提煉現有研究中的可解釋性進展。(4) 每個時間序列應用領域中基礎模型的發展情況如何?為回答這個問題,我們引入了一個領域分類法。這個分類法使我們能夠比較每個領域內現有研究的目標、貢獻和局限。此外,我們還提供了豐富的資源,如代碼、基準數據集、時間序列庫和加速LLM的工具,以支持未來的研究工作。圖4提供了基于四個研究問題的作品的綜合概覽。

論文組織 本綜述的其余部分安排如下:第2節介紹與基礎模型和時間序列分析相關的綜述,指導讀者了解每個領域的更多研究。第3節為讀者提供關于基礎模型和時間序列任務的基本知識。第4節深入探討了時間序列的基礎模型預訓練的關鍵階段。第5節檢查了LLM向時間序列任務的適配。第6節討論了模型微調和推理的效率。第7節總結了關于解釋模型行為或決策的研究。第8節介紹了各個領域內的進展。最后,第9節提供了包括基準數據集、代碼和時間序列庫以及LLM工具在內的資源。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容

擴散模型是一種強大且通用的生成式人工智能技術,在計算機視覺、音頻、強化學習和計算生物學中取得了巨大的成功。在這些應用中,擴散模型提供了靈活的高維數據建模,并作為采樣器在主動引導下生成具有任務所需屬性的新樣本。盡管在實踐中取得了顯著的成功,但擴散模型的理論研究非常有限,這可能會減緩原則上的方法論創新,進一步利用和改進擴散模型。在本文中,我們回顧了擴散模型的新興應用,理解其在各種控制下的樣本生成。接下來,我們概述了擴散模型的現有理論,包括其統計特性和采樣能力。我們采取漸進式的程序,從無條件擴散模型開始,并連接到有條件的對應物。此外,我們通過有條件的擴散模型回顧了高維結構優化的新途徑,其中解決方案的搜索被重新定義為條件采樣問題,并由擴散模型解決。最后,我們討論了擴散模型的未來方向。本文的目的是為促進前瞻性的理論和擴散模型的方法提供全面的理論闡述。

引言

人工智能(AI)領域已經被生成模型革命化,特別是大型語言模型和擴散模型。被認為是基礎模型的這些模型,經過了大量數據的訓練,為機器學習研究和應用開辟了生機勃勃的可能性。大型語言模型專注于基于上下文生成連貫的文本,而擴散模型擅長建模復雜的數據分布并生成多樣化的樣本,這些都在各個領域廣泛應用。受熱力學建模的啟發,擴散模型近年來取得了突破性的表現,超越了之前的最佳技術,如生成對抗網絡(GANs)和變分自編碼器(VAEs)。擴散模型在計算機視覺和音頻生成任務中得到了廣泛應用,并進一步用于文本生成、序列數據建模、強化學習和控制,以及生命科學。關于應用的更全面的闡述,我們推薦讀者查閱綜述文章。

擴散模型的卓越表現對于許多方法論創新至關重要,這些創新顯著擴展了擴散模型的應用范圍并提升了其功能,使得高保真生成、高效采樣和靈活控制樣本生成成為可能。例如,將擴散模型擴展到離散數據生成,而標準擴散模型則針對連續數據。同時,還有一系列積極的研究旨在加速擴散模型的樣本生成速度。最后,最近的研究浪潮集中于微調擴散模型,以生成具有所需屬性的樣本,如生成具有特定美學品質的圖像。這些特定任務的屬性通常作為引導編碼到擴散模型中,包括條件和控制信號以引導樣本生成。值得注意的是,引導允許在廣泛的應用中創建多樣化和相關的內容,這突出了擴散模型的多功能性和適應性。我們將帶引導的擴散模型稱為有條件的擴散模型。盡管實證進展迅速,擴散模型的理論研究卻遠遠落后。一些最新理論將擴散模型視為一個無監督的分布學習者和采樣器,因此建立了它們的采樣收斂保證和統計分布學習保證。這些結果為擴散模型在復雜數據建模的效率和準確性提供了寶貴的理論洞見,主要關注在分布估計中的無條件擴散模型。這在理論和實踐之間為有條件的擴散模型留下了差距。具體而言,缺乏一個理論基礎來支持和激勵有原則的方法論,用于引導設計和適應擴散模型以滿足特定任務的需求。

本文旨在為擴散模型提供當代的闡釋,以激發對它們的復雜和前瞻性研究。我們主要關注擴散模型的以下基本理論問題:? 擴散模型能否準確有效地學習數據分布?如果可以,其樣本復雜性尤其是對結構化數據的復雜性是多少?? 有條件的擴散模型能否生成與引導一致的分布?如果可以,我們如何正確設計引導,其樣本復雜性是多少?為了系統研究,我們首先回顧擴散模型的工作原理及其新興應用。然后,我們概述了與上述問題相關的現有理論基礎。我們的最終目標是展示和利用擴散模型的力量,將其與應用數學、統計學、計算生物學和運籌學等廣泛的跨學科領域相聯系。

論文組織

本文的其余部分組織如下。在第2節,我們使用隨機微分方程對擴散模型進行連續時間描述。連續時間觀點的優勢在于其清晰和系統的公式化,以及無縫應用離散化方案以復制實際實現。在第3節,我們回顧了擴散模型的新興應用,尤其是在各種受控生成任務中,旨在闡明擴散模型試圖捕獲的條件分布。然后,在3.4節中,我們通過評估受控生成樣本的質量來將條件生成與黑箱優化聯系起來,使用獎勵函數進行評估。在第4節,我們深入討論理論初步并回顧擴散模型的理論。具體來說,在4.1節中,我們討論如何學習評分函數。4.2節提供了理解學習評分的適當神經網絡結構和估計評分函數的統計樣本復雜性的近似理論。然后,4.3節討論了使用擴散模型和采樣理論進行分布估計的統計樣本復雜性。在第5節,我們繼續在第4節中的類似研究,關注有條件的擴散模型。我們在5.1節中介紹有條件評分函數的學習方法,并將其與所謂的“引導”術語下的無條件評分聯系起來。這也激勵了有條件擴散模型的微調方法。5.2節然后總結無條件評分的近似、估計和分布學習理論。5.3節重新討論有條件評分函數中的引導,并建立引導影響的理論洞見。在第6節,我們回顧使用有條件擴散模型的數據驅動黑箱優化的理論和方法論。我們強調擴散模型生成的高保真解決方案保留了數據潛在結構,并且解決方案的質量與最優離策略套利一致。這為通過擴散模型在高維復雜和結構化空間中的優化開辟了新的可能性。最后,在第7節,我們討論擴散模型的未來方向及其與廣泛研究領域的聯系。

擴散模型基礎

大致而言,擴散模型包括一個前向過程和一個后向過程。在前向過程中,數據分布中的干凈樣本會被高斯隨機噪聲逐步污染,在無限時間極限下,數據分布會轉變為純噪聲。在后向過程中,一個去噪神經網絡被訓練以逐步去除數據中增加的噪聲分布并恢復新的干凈數據分布。前向和后向過程在圖1中展示。

擴散模型應用

通過廣泛的發展[7, 9, 10, 94],現代擴散模型取得了驚人的成功,并被應用于各種應用中(例如,參見綜述[55])。我們在下文中重點介紹擴散模型的廣泛應用,特別強調用于受控樣本生成的有條件擴散模型。

視覺與音頻生成

在圖像和音頻生成任務中,擴散模型實現了最先進的性能[7-22],并且是圖像和音頻合成系統的基本構建塊,例如DALL-E [66]、穩定擴散[101]和Diffwave [11]。擴散模型的性能以高保真樣本生成著稱,并允許靈活的引導來控制生成。在引導下生成的最簡單示例是生成特定類別的圖像,例如貓或狗。這種分類信息被視為條件信號并輸入到有條件的擴散模型中。更詳細地說,我們使用包含樣本對(xi, yi)的標記數據集來訓練有條件的擴散模型,其中yi是圖像xi的標簽。訓練是為了使用數據集估計條件評分函數,模擬x和y之間的對應關系。通過這種方式,有條件的擴散模型正在學習條件分布P(x = image | y = given label),并允許從該分布中采樣。在文本到圖像合成系統中,條件信息是輸入文本提示,可以是包含對象的句子或更抽象的要求,例如,美學質量。為了生成與提示對齊的圖像,有條件的擴散模型與包括圖像和文本摘要對(xi, yi)的大量注釋數據集一起訓練。文本yi將被轉換為詞嵌入并作為輸入到有條件的擴散模型中。與在特定類別中生成圖像類似,文本到圖像合成的有條件擴散模型學習條件分布P(x = image | y = text prompt)并允許從中采樣。在更復雜的合成系統中,實施了一些微調步驟,以進一步實現抽象提示條件化并提高生成圖像的質量。例如,[78]將離散化的后向過程(2)重新表述為有限視界的馬爾可夫決策過程(MDP)。狀態空間代表圖像,條件評分函數被視為策略,定義了一個獎勵函數來衡量圖像與其期望文本提示的對齊程度。因此,生成與提示對齊的圖像相當于通過找到最優策略來優化獎勵。[78]提出了一種基于策略梯度的方法,用于微調預訓練的擴散模型。在圖2中,我們展示了使用[78]中的方法微調有條件的擴散模型從左到右的逐步改進。有條件的擴散模型也是圖像編輯和恢復[102-109]以及音頻增強[110-113]的強大工具;另見綜述[22, 56]及其中的參考文獻。為了展示這一點,我們以圖像修復任務為例。修復的目標是預測圖像的缺失像素。我們將圖像的已知區域表示為y,原始完整圖像表示為x。那么修復就歸結為從條件分布P(x = full image | y = known region of the image)中采樣x。在所有這些應用中,有條件的擴散模型被證明在模擬條件分布方面具有高度的表現力和有效性[10, 107]。

控制與強化學習

除了主要的計算機視覺和音頻任務外,擴散模型也在強化學習(RL)和控制問題中積極部署,并展現出吸引人的性能。例如,[30-33, 35] 使用有條件的擴散模型來參數化在高度復雜任務中的控制/RL策略,例如機器人控制和人類行為模仿。關于擴散模型與RL之間聯系的擴展回顧可以在[34]中找到。在RL/控制問題中,策略是基于底層動態系統狀態的動作空間上的條件概率分布。相應地,當使用擴散模型來參數化策略時,目標是學習分布P(a = action | y = system states)。[30, 32]專注于模仿學習場景,其中的目標是模仿專家的行為。數據集包含由(yi, ai)對表示的專家演示。這里的yi是系統的狀態,ai是專家選擇的動作。類似于文本到圖像的合成,我們使用數據集訓練一個有條件的評分網絡,以捕獲狀態與動作之間的依賴關系。在推斷過程中,給定一個新的系統狀態,我們使用學到的有條件擴散模型生成合理的動作。Diffusion-QL[114]進一步對有條件擴散模型的訓練增加了正則化,并嘗試基于預先收集的數據集學習最佳動作。擴散模型還為控制和RL問題中的算法設計開辟了一個新領域,通過將順序決策視為生成序列建模。在RL中的典型獎勵最大化規劃任務中,目標是找到實現大量累積獎勵的最佳策略。傳統方法依賴于迭代解決貝爾曼最優性以獲得相應的策略。然而,生成序列建模直接產生大獎勵的狀態-動作軌跡,避免了顯式解決貝爾曼最優性。換句話說,生成序列建模直接從條件分布P(τ = state-action trajectory | τ attains large reward)中采樣。早期成功是用變壓器生成模型[115,116]演示的。后來,有條件的擴散模型以最先進的性能部署。即,Diffuser[117]通過有條件的擴散模型以高獎勵為引導生成狀態-動作軌跡。Decision Diffuser[118]呈現有條件的軌跡生成,將獎勵、限制或技能作為引導并增強Diffuser的性能。例如,給定一個由(τi, yi)組成的預收集數據集,其中τi是狀態-動作軌跡,yi是τi的累積獎勵。我們使用有條件的擴散模型來模擬條件分布P(τ | y),通過估計條件評分函數。訓練后,我們指定一個合適的目標獎勵值并部署有條件的擴散模型生成樣本軌跡。然后可以通過逆動力學模型[119]從生成的軌跡中提取出策略。見圖3中決策擴散器的工作流程。AdaptDiffuser[120]進一步引入了一個鑒別器用于微調有條件的擴散模型,允許自我進化和適應分布外任務。

生命科學應用

在生命科學應用中,有條件的擴散模型正產生著日益深遠的影響[36-54]。另見關于生物信息學中擴散模型應用的綜述[57]。這些成果涵蓋了包括單細胞圖像分析、蛋白質設計與生成、藥物設計、小分子生成等多種任務。其性能超過了許多使用自回歸、VAE或GAN類型深度生成模型[121-124]的前輩們。為了展示有條件擴散模型的使用,我們以蛋白質設計為例。蛋白質設計可以被視為尋找一定長度的序列w的問題,序列的每個坐標代表蛋白質的結構信息。一個蛋白質只有在活細胞中表達時才有用。一個廣泛采用的有用性指標是蛋白質序列是自然序列的可能性[50]。此外,結合親和力和聚集傾向也是蛋白質結構的重要屬性。結合有用性指標,所有這些屬性可以由向量值函數f(w)總結。在這個意義上,有條件的擴散模型實際上生成遵循條件分布P(w | f(w) ∈ E)的蛋白質序列,其中E是描述合理蛋白質結構的集合。有條件的擴散模型用于蛋白質生成的訓練類似于文本到圖像的擴散模型,基于包含具有測量屬性的多樣蛋白質結構的訓練數據集。在推理階段,我們可以首先從E中抽樣一個配置,并以此配置為條件,生成新的蛋白質。

黑箱優化

在控制、強化學習和生命科學應用中,各種引導可以被概括為一個抽象的獎勵函數V(·)。然后,目標是從一個條件分布中生成新樣本,旨在優化獎勵。因此,有條件的擴散模型充當優化器,生成最優解。我們重新訪問RL中離線獎勵最大化規劃的例子。回憶一下,我們的數據集包括狀態-動作軌跡τi和相關的累積獎勵yi = V(τi)+?i,其中?i是獨立的觀察噪聲。獎勵最大化規劃本質上尋求解決黑箱優化問題argmaxτ V(τ)。在這種設置中,我們禁止與目標函數V進行交互,超出給定的數據集[125]。早期的現有工作利用GANs生成最優解[126],但遭受訓練不穩定和模式崩潰的問題。最近,[127]實證表明使用有條件的擴散模型生成高質量解決方案的性能優越。其思想是將黑箱優化問題轉化為條件采樣問題。具體來說,給定一個適當的目標值a,有條件的擴散模型從條件分布P(τ | V(τ) = a)中生成解決方案。微妙之處源于如何正確選擇目標值a以確保生成解決方案的高質量。大致來說,我們試圖選擇一個較大的a,以便生成的解決方案獲得大獎勵。然而,如果我們選擇的a與給定數據集相比太大,則需要進行顯著的外推以生成相應的解決方案,這可能導致質量下降。因此,對a的適當選擇在很大程度上取決于收集的數據集的覆蓋范圍。[128]提供了如何選擇a以確保生成良好解決方案的理論指導,我們將在第6節介紹。從經驗上看,[127]提出了幾種方法在有條件的擴散模型的訓練過程中鼓勵大獎勵解決方案,如樣本重加權——為具有大獎勵的樣本分配大權重。

4 無條件擴散模型的理論

進展本節回顧了擴散模型理論理解方面的最新進展。我們從第2節回憶,評分函數是實施擴散模型的關鍵。從理論角度看,擴散模型的性能與評分函數是否可以準確學習密切相關。為了系統處理,我們首先介紹學習評分的方法,然后深入其理論洞察。具體來說,我們討論如何根據神經網絡的通用和自適應逼近能力,正確選擇用于學習評分函數的神經網絡。更重要的是,我們展示了由數據分布假設引起的評分函數中的結構屬性,例如,低維支持和圖形模型。然后我們提供了使用所選神經網絡估計評分的統計樣本復雜性。我們特別感興趣的是理解評分估計如何在高維環境中規避維數災難問題。最后,我們研究估計數據分布的統計率。

5. 有條件擴散模型的理論進展

雖然有條件擴散模型與其無條件對應物有許多共同特征,但它們對引導的獨特依賴需要新的理解和洞見。因此,關于有條件擴散模型的理論結果非常有限。在本節中,我們模仿無條件擴散模型的研究,但對有條件擴散模型的不同用途和方法給予額外的強調。我們首先介紹有條件擴散模型的訓練,即估計條件評分函數。有趣的是,條件評分函數可以與無條件評分函數相關聯,這激發了訓練有條件擴散模型的微調視角。接下來,我們介紹條件評分估計和分布估計保證。最后一節致力于探討引導在高斯混合模型中的影響的理論洞見,我們在這里證實了常見觀察并揭示了新奇的發現。

擴散模型用于優化

本節介紹了通過擴散模型在高維復雜和結構化空間中進行優化的新途徑。我們專注于數據驅動的黑箱優化,其目標是生成優化未知目標函數的新解決方案。黑箱優化,也被稱為機器學習中的基于模型的優化,涵蓋了各種應用領域,如強化學習、計算生物學和商業管理[54, 57, 118, 188-192]。 解決數據驅動的黑箱優化不同于傳統優化,因為與目標函數的交互超出預先收集的數據集是被禁止的,減少了逐步尋找最優解的可能性。相反,人們的目標是從預先收集的數據集中提取相關信息并直接推薦解決方案。更復雜的是,解決方案空間通常是高維的,具有豐富的潛在結構。例如,在藥物發現中,分子結構需要滿足全局和局部規律性,以便在生物體中表達。這對解決數據驅動的黑箱優化提出了一個關鍵要求:我們需要捕獲數據潛在結構,以避免提出嚴重偏離原始數據域的不切實際的解決方案。 為了應對這些挑戰,[176]將數據驅動的黑箱優化表述為從條件分布中采樣,如圖8所示。目標函數值是條件分布中的條件,同時該分布隱式地捕獲數據潛在結構。

8 結論

在本文中,我們綜述了擴散模型如何生成樣本、它們的廣泛應用以及它們的現有理論基礎。我們采用了擴散模型中前向和后向過程的連續時間描述,并討論了它們的訓練程序,特別是在存在引導以引導樣本生成的情況下。我們從無條件擴散模型的理論入手,涵蓋了其評分近似、統計估計和采樣理論。在無條件擴散模型的洞察基礎上,我們轉向了有條件擴散模型,重點關注它們的獨特設計屬性和理論。接下來,我們將生成性擴散模型與黑箱優化相聯系,為高維優化問題鋪平了新的道路。最后,我們討論了幾個流行的未來方向。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

Diffusion Model是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。在生成效果上,diffusion model可以媲美廣受歡迎的GAN的方法,并且相比GAN,diffusion model是基于最大似然的生成模型,在訓練時不會遇到模式崩塌和不穩定的情況。此外GAN的discriminator的判別能力限制了GAN的生成多樣性,而diffusion model的多樣性更為豐富,并且在有條件生成任務中,由于diffusion model是從隨機的噪聲開始采樣,即使對于同一張參考,diffusion model也可以給出理論上無限多的采樣結果。這一特征在實際應用中頗為重要,目前已有不少工作將有條件生成的diffusion model運用在文字/分割圖/簡筆畫到圖像生成、圖像編輯、超分辨率等任務中,取得不少成果。

付費5元查看完整內容

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。

通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。

付費5元查看完整內容

擴散模型是一類具有豐富理論基礎的深度生成模型,在各種任務中都取得了令人印象深刻的結果。盡管擴散模型比其他最先進的模型取得了令人印象深刻的質量和樣本合成多樣性,但它們仍然存在昂貴的采樣程序和次優的似然估計。近年來,研究人員對擴散模型性能的改進表現出極大的熱情。擴散模型解釋:從DDPM到穩定擴散。

//www.youtube.com/watch?v=hVk7Py1c24Q

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容
北京阿比特科技有限公司