本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT
1. 引言
在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。
Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。
**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。
本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。
本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。
在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?
本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。
可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。
*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。
擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。
對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。
通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。
根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。
與最新擴散模型的比較
從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。
除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。
**訓練基于深度神經網絡的自動語音識別(ASR)模型通常需要數千小時的轉錄數據,將其限制在少數語言中。此外,目前最先進的聲學模型基于Transformer架構,該架構隨著序列長度的二次增長,阻礙了其對長序列的使用。本文旨在減少(a)數據和(b)開發最先進的ASR系統的計算需求,只有幾百小時或更少的轉錄數據。本文的第一部分著重于減少訓練這些模型所需的轉錄數據量。本文提出一種使用dropout進行不確定性感知半監督學習的方法。該方法為未標記數據的訓練產生了更好的假設。研究了兩種流行的自監督預訓練方法的域外和跨語言泛化:掩碼聲學建模和wav2vec 2.0。兩種預訓練方法都可以泛化到未見過的域,并明顯優于僅用監督數據訓練的模型。//infoscience.epfl.ch/record/297304?ln=en在第二部分中,專注于減少Transformer模型的計算需求,(a)通過設計高效的注意力計算形式,(b)通過減少注意力計算的輸入上下文長度。**本文首次提出"線性"注意力,使用注意力的核公式將自回歸transformer表示為遞歸神經網絡,并將序列長度的計算復雜度從二次降低到線性。提出"聚類"注意力,通過對輸入序列進行聚類并使用質心進行計算來近似自注意力。在給定的計算預算下,聚類注意力優于普通注意力。對于ASR,我們發現線性注意力導致詞錯誤率下降,而聚類在處理較短序列時引入了開銷。為解決這一限制,本文開發了一種方法,用均值池化對輸入進行隨機下采樣,以實現高效的wav2vec 2.0訓練。這使得在推理過程中可以在不同的壓縮因子下使用相同的模型。對wav2vec 2.0預訓練的隨機壓縮,能夠為轉錄數據有限的語言建立計算高效的ASR模型。
神經壓縮是將神經網絡和其他機器學習方法應用于數據壓縮。統計機器學習的最新進展為數據壓縮開辟了新的可能性,允許使用強大的生成模型(如歸一化流、變分自編碼器、擴散概率模型和生成式對抗網絡)從數據中端到端地學習壓縮算法。本文旨在通過回顧信息論(如熵編碼、率失真理論)和計算機視覺(如圖像質量評估、感知度量)的必要背景,并通過迄今為止文獻中的基本思想和方法,提供一份有條理的指南,將這一領域的研究介紹給更廣泛的機器學習受眾。
數據壓縮的目標是減少表示有用信息所需的比特數。神經壓縮,或學習壓縮,是神經網絡和相關機器學習技術在這項任務中的應用。本文旨在通過回顧神經壓縮的先決背景和代表性方法,為對壓縮感興趣的機器學習研究人員提供一個切入點。在當前的深度學習時代[1]-[4]之前,基于學習的數據壓縮的基本思想早已以各種形式存在。許多用于神經壓縮的工具和技術,特別是圖像壓縮,也借鑒了計算機視覺中基于學習的方法的豐富歷史。事實上,圖像處理和恢復中的許多問題都可以看作是有損圖像壓縮;例如,圖像超分辨率可以通過學習固定編碼器(圖像下采樣過程)[5][6]的解碼器來解決。事實上,神經網絡早在20世紀80年代末和90年代就已經應用于圖像壓縮[7][8],甚至有一篇早期的綜述文章[9]。與早期工作相比,現代方法在規模、神經結構和編碼方案方面有顯著差異。
深度生成模型的出現,如GANs [10], VAEs[11][12],歸一化流[13],以及自回歸模型[14],[15]。雖然這些模型允許我們從樣本中捕獲復雜的數據分布(神經壓縮的關鍵),但研究往往專注于生成真實的數據樣本[16],[17]或實現高數據日志密度[12],[18],目標不一定與數據壓縮一致。可以說,第一個探索用于數據壓縮的深度生成模型的工作出現在2016年[19],自此神經壓縮的主題得到了顯著增長。多個研究人員已經確定了變分推斷與無損[20]、[21]以及有損[22]、[23]、[24]、[25]壓縮之間的聯系。本文希望進一步促進這些領域之間的交流,提高對壓縮的認識,將壓縮作為生成建模的一種富有成效的應用以及相關的挑戰。本文不調查大量文獻,而是旨在涵蓋神經壓縮的基本概念和方法,為精通機器學習但不一定精通數據壓縮的讀者提供參考。我們希望通過強調生成模型和機器學習的聯系來補充現有的調查,這些調查具有更專業或更實用的重點[27][28][29]。在本文的大部分內容中,我們基本上不對數據做任何假設,只假設它是獨立同分布的(i.i.d),這是機器學習和統計學的典型設置。本文圍繞圖像壓縮展開討論,大多數神經壓縮方法都是在這里首次開發的,但本文提出的基本思想與數據無關。最后,在3.7節中,我們提升了i.i.d.假設,并考慮視頻壓縮,這可以被視為現有思想在時間維度上的擴展。
神經壓縮可以以數據驅動的方式簡化數據壓縮算法的開發和優化。這對于新的或特定領域的數據類型尤其有用,例如VR/AR內容或科學數據,在這些領域開發自定義編解碼器可能很昂貴。事實上,基于學習的方法正在應用于新興的數據類型,如點云[30]-[32],隱式3D表面[33]和神經輻射場[34]。有效壓縮這樣的數據可能需要新的神經架構[33]和/或領域知識,以將數據轉換為神經網絡友好的表示[32]。然而,這里介紹的減少學習表示的熵或比特率成本的基本思想和技術保持不變。
概述。本章主要由兩個部分組成,無損壓縮(第2節)和有損壓縮(第3節),后者依賴前者來壓縮數據的有損表示(見圖1 - 2)。我們首先回顧基本編碼理論(第2.1節),并學習如何在熵編碼的幫助下將無損壓縮問題轉化為學習離散數據分布。為了在實踐中工作,我們使用生成建模的工具分解潛在的高維數據分布,包括自回歸模型(第2.2節)、潛變量模型(第2.3節)和其他模型(第2.4節)。每個模型類對不同的熵編碼算法的兼容性不同,并且在壓縮比特率和計算效率之間提供了不同的權衡。有損壓縮引入了額外的要求,最常見的是重構的失真,基于此,我們回顧了經典的率失真理論和算法,如矢量量化和變換編碼(第3.1節)。介紹了神經有損壓縮作為變換編碼的自然擴展(第3.2節),討論了量化表示的端到端學習所需的技術(第3.3節),以及試圖繞過量化的有損壓縮方案(第3.4節)。在簡要回顧視頻壓縮(第3.7節)之前,探討了其他要求,如重建的感知質量(第3.5節)和學到的表示對下游任務的有用性(第3.6節)。最后,在第4節中總結了神經壓縮的挑戰和開放問題,這些問題可能會推動其未來的進展。
擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自布加勒斯特大學等學者發布了關于《視覺擴散模型》綜述論文,對對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻,值得關注**!**
最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻
去噪擴散模型是計算機視覺中的一個新興課題,在生成建模領域顯示了顯著的結果。擴散模型是基于正向擴散和反向擴散兩個階段的深度生成模型。在正向擴散階段,通過加入高斯噪聲對輸入數據進行逐級擾動。在反向階段,模型的任務是通過學習逐步逆轉擴散過程來恢復原始輸入數據。擴散模型因其生成樣本的質量和多樣性而受到廣泛贊賞,盡管其已知的計算負擔,即采樣過程中涉及的大量步驟導致速度較低。本文對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻。首先,我們確定并提出了三種通用的擴散建模框架,它們是基于去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。我們進一步討論了擴散模型和其他深層生成模型之間的關系,包括變分自編碼器、生成對抗網絡、基于能量的模型、自回歸模型和歸一化流。然后,我們介紹了一種多視角分類擴散模型在計算機視覺中的應用。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。
導論
擴散模型[1]-[11]構成了深度生成模型的一個類別,它最近成為計算機視覺中最熱門的話題之一(見圖1),展示了令人印象深刻的生成能力,從高水平的細節到生成示例的多樣性。我們甚至可以說,這些生成模型將生成建模領域的標準提高到一個新的水平,特別是涉及到模型,如Imagen[12]和潛在擴散模型(LDM)[10]。到目前為止,擴散模型已經被廣泛應用于各種生成建模任務,如圖像生成[1]-[7],[10]-[22],圖像超分辨率[10],[12],[23]-[26],圖像修復[1],[3],[4],[10],[23],[25],[27]-[29],圖像編輯[30]-[32],圖像轉換[31],[33]-[37]等。此外,通過擴散模型學習到的潛在表示在判別任務中也很有用,如圖像分割[38]-[41]、分類[42]和異常檢測[43]-[45]。這證實了去噪擴散模型的廣泛適用性,表明進一步的應用還有待發現。此外,學習強潛在表征的能力與表征學習[46],[47]建立了聯系,這是一個全面的領域,研究學習強大數據表征的方法,涵蓋多種方法,從設計新穎的神經結構[48]-[51]到開發學習策略[52]-[57]。
從圖1所示的圖表可以看出,擴散模型的論文數量增長速度非常快。為了概述這一快速發展的主題的過去和現在的成就,本文對計算機視覺中去噪擴散模型的文章進行了全面的回顧。更準確地說,我們調查了以下定義的生成式模型范疇的文章。擴散模型代表了一類深度生成模型,基于(i)前向擴散階段,輸入數據在幾個步驟中通過添加高斯噪聲逐漸受到擾動;(ii)反向(后向)擴散階段,生成模型的任務是從擴散(噪聲)數據中恢復原始輸入數據,通過學習逐步逆轉擴散過程,一步一步。 我們強調,至少有三個子類的擴散模型符合上述定義。第一類是受非平衡熱力學理論啟發的去噪擴散概率模型(DDPMs)[1]、[2]。DDPM是利用潛在變量估計概率分布的潛在變量模型。從這個角度看,DDPM可以看作是一種特殊的變分自編碼(VAEs)[49],正向擴散階段對應于VAE內部的編碼過程,反向擴散階段對應于解碼過程。第二類由噪聲條件評分網絡(NCSNs)[3]表示,它基于通過評分匹配來訓練共享神經網絡,以估計不同噪聲水平下受擾動數據分布的評分函數(定義為對數密度梯度)。隨機微分方程[4]代表了擴散模型的另一種方法,形成了擴散模型的第三個子類別。通過正向和反向SDEs對擴散進行建模,得到了有效的生成策略以及較強的理論結果[58]。后一種表述(基于SDEs)可以被視為對DDPM和NCSNs的泛化。 我們確定了幾個確定的設計選擇,并將它們綜合成三個通用的擴散模型框架,對應于上述三個子類別。在此基礎上,我們進一步討論了擴散模型與其他深層生成模型之間的關系。更具體地說,我們描述了與變分自編碼器(VAEs)[49]、生成對抗網絡(GANs)[51]、基于能量的模型(EBMs)[59]、[60]、自回歸模型[61]和歸一化流[62]、[63]的關系。然后,我們引入了一種用于計算機視覺的擴散模型的多視角分類方法,根據底層框架、目標任務或去噪條件等標準對現有模型進行分類。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。例如,可能最成問題的限制之一是推斷過程中較差的時間效率,這是由非常多的計算步驟(例如數千個)導致的,以生成一個示例[2]。當然,在不影響生成樣本質量的情況下克服這一限制是未來研究的一個重要方向。
綜上所述,我們的貢獻有兩方面:
由于視覺領域最近出現了許多基于擴散模型的貢獻,我們提供了一篇全面而及時的文獻綜述,介紹了在計算機視覺中應用的去噪擴散模型,旨在為我們的讀者提供對通用擴散模型框架的快速理解。
我們設計了擴散模型的多視角分類,旨在幫助其他研究應用于特定領域的擴散模型的研究人員快速找到各自領域的相關工作。
圖2所示。一個由三種不同形式的擴散模型組成的通用框架:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。基于SDEs的公式是對另外兩種公式的泛化。在正向過程中,輸入x0經過T步逐漸加入高斯噪聲。在相反的過程中,模型通過逐漸去除噪聲來學習恢復原始輸入。在SDE公式中,正向過程基于Eq.(11),反向過程基于Eq.(12)。在DDPM版本中,正向過程采用Eq.(1),反向過程采用Eq.(5)。同理,在NCSN版本中,正向過程采用Eq.(9),反向過程采用退火后的朗之萬動力學。 擴散模型是一類概率生成模型,它可以學習通過在不同尺度上添加噪聲來逆轉逐漸降低訓練數據結構的過程。在接下來的三個小節中,我們提出了三種擴散模型的形式,即去噪擴散概率模型、噪聲條件分數網絡和基于隨機微分方程的方法,該方法推廣了前兩種方法。對于每個公式,我們描述了向數據添加噪聲的過程,學習逆轉這一過程的方法,以及在推斷時如何生成新樣本。在圖2中,所有三個公式都作為一個通用框架進行了說明。我們在最后一小節專門討論與其他深度生成模型的聯系。 考慮到不同的分類標準,我們將擴散模型分為多視角分類法。也許分類模型的最重要的標準是由** (i)它們應用的任務和 (ii) 它們需要的輸入信號定義的。此外,由于形成擴散模型有多種方法,(iii) 底層架構是對擴散模型進行分類的另一個關鍵因素**。最后,在訓練和評估過程中使用的數據集也非常重要,因為這有助于在同一任務中比較不同的基線。我們根據之前列舉的標準對擴散模型的分類如表1所示。
視頻Transformer最新綜述論文
Transformer模型在建模長范圍交互方面取得了巨大的成功。然而,他們的規模與輸入長度的平方和缺乏歸納偏差。在處理高維視頻時,這些限制可能會進一步加劇。正確的視頻建模,可以跨度從幾秒到幾小時,需要處理長范圍交互。這使得Transformer成為解決視頻相關任務的一個很有前途的工具,但還需要一些調整。雖然之前也有研究《Transformer》在視覺任務方面的進展的工作,但沒有一篇是針對特定視頻設計的深入分析。在本綜述中,我們分析和總結了用于視頻數據建模的Transformer的主要貢獻和趨勢。具體地說,我們深入研究了視頻是如何嵌入和標記化的,發現了一個非常廣泛的使用大型CNN主干來降低維數的方法,以及主要使用補丁和幀作為標記。此外,我們研究了如何調整Transformer層以處理更長的序列,通常是通過減少單個注意力操作中的令牌數量。此外,我們還分析了用于訓練視頻Transformer的自監督損耗,迄今為止,這些損耗大多局限于對比方法。最后,我們探討了其他模態是如何與視頻整合在一起的,并對視頻Transformer最常用的基準(即動作分類)進行了性能比較,發現它們在等效FLOPs的情況下優于3D CNN,且沒有顯著的參數增加。
引言
Transformers是[1]中首次提出的最新系列模型。這些架構最初是為了替換機器翻譯設置中的循環層而設計的,現在已經很快被用于建模許多其他數據類型[2]、[3]、[4],包括圖像[5]、[6]、[7]、[8]和視頻[9]、[10]、[11]、[12]、[13]、[14]。Transformer背后的關鍵成功在于其通過自注意力(SA)操作實現的非局部令牌混合策略。非局部操作在[15]中提出,是對非局部均值操作[16]的泛化。它基于所有元素之間的交互來演化輸入表示。這些相互作用是通過一對相似函數來調節的,該函數衡量每個元素對其他元素的貢獻。與全連接(FC)層不同,非局部操作不需要權重:輸入之間的關系不需要學習,而是完全依賴于輸入表示。盡管它們取得了成功,但SA的本質導致transformer對序列長度T的縮放效果很差。特別是,由于對親和計算,SA的復雜度為O(t2)。此外,transformer沒有任何歸納偏差,這可能是一個理想的特性,但它也會阻礙學習,除非[7]使用大量數據。
最近Transformer工作的激增,讓跟蹤最新的進展和趨勢變得復雜起來。最近的調研試圖通過分析和總結《Transformer》的總體架構設計選擇來填補這一空白,主要集中在NLP[18],或高效的設計,如[19]或[20]。雖然一些人已經廣泛地調研了視覺的進展,例如[21],[22],[23],[24]和Vision-Language transformer[25],但他們沒有對視頻模型進行深入的分析。[26]的調研集中于視頻和語言Transformer的預訓練,但是他們討論了一些架構選擇,并沒有涵蓋一般的視頻趨勢。視頻Transformer (vt)可以找到與其他Transformer設計的共同點(特別是在圖像領域),但視頻固有的大維度將加劇Transformer的局限性,需要特殊處理。額外的時間維度還需要不同的嵌入、標記化策略和架構。最后,視頻媒體通常與其他模態配對(例如,它很自然地伴隨著音頻),這使得它特別容易用于多模態設置。
視頻。本工作的重點是全面分析用于視頻數據建模的Transformer架構的最新進展。請注意,在Transformer層建模之前,使用傳統(非Transformer)架構將視頻映射到其他結構化形式(例如,接頭[27]或語音[28])的工作不在我們的范圍之內。我們對使用(時間)視覺特征作為SA層輸入的模型特別感興趣。我們分析了文獻采用這些模型的方式,使之能夠處理視頻的內在復雜性以及其他可選模態。然而,我們確實考慮在使用Transformer層之前利用某些CNN架構將視頻數據嵌入到低維空間的工作(參見第3.1.1節)。
Transformers。與基于位置的體系架構(如CNN)不同,Transformer在每一層對數據的全局交互進行建模。然而,有一個廣泛的基于全局的架構。我們關注的是將SA以非局部運算[15]的內嵌高斯變量形式,加上額外的歸一化因子的工作(見式(1))。已有文獻將其他形式的注意力視為SA[29],[30],[31],[32],但這些文獻通常使用FC層而不是點積來計算注意力權重。我們認為這些超出了本次調研的范圍。此外,與Transformers并行的研究方向還采用SA或等效的內嵌高斯版本的非局部算子來處理計算機視覺任務。例如,圖注意力網絡,如[33]和[34],或關系網絡,如[35]和[36]。類似地,我們也發現它們被用于增強CNN主干,通過添加中間層[15]、[37]、[38]、[39],或者通過增強輸出表示[40]、[41]、[42]。我們很高興地看到,在這么多不同的研究方向都采用了非局部操作。不過,在本工作中,我們只關注Transformer體系結構,并將非本地操作集成到不同體系結構中的各種方式留給未來的工作進行比較。
視頻Transformers(vt)的通用框架。在(a)中,我們展示了一個普通的Transformer Encoder1;在(b)中,我們展示了不同的標記化和嵌入策略,具體見3.1節;在(c)中,我們展示了一種常見的分層Transformer設計,它分解了視頻片段的空間和時間交互。這些和其他視頻設計在第3.2節中有描述。
視頻Transformer
視頻數據的高維性以及上述《Transformers》的局限性需要進行多種調整,以構建成功的視頻《Transformers》。在這里,我們對VTs進行一個全面的概述:在3.1節中,我們探討了在將視頻輸入Transformer之前如何處理它們,并探討了降維和標記化替代方案的主干。然后,在第3.2節中,我們詳細介紹了高效Transformer設計的建議,比如在視頻中顯式地利用時間結構。接下來,我們在第3.3節分析了視頻如何與其他模態整合。最后,我們概述VT訓練策略和損失,特別是在第3.4節中的自監督方法。