隨著大型語言模型(LLMs)的成功,將視覺模型整合到LLMs中以構建視覺-語言基礎模型近來引起了更多的關注。然而,現有的基于LLM的大型多模態模型(例如,Video-LLaMA,VideoChat)只能處理有限數量的幀來理解短視頻。在這項研究中,我們主要關注設計一個高效且有效的模型用于長期視頻理解。我們提出一種在線處理視頻的方法,而不是像大多數現有工作那樣嘗試同時處理更多幀,并在內存庫中存儲過去的視頻信息。這使得我們的模型能夠參考歷史視頻內容進行長期分析,而不會超出LLMs的上下文長度限制或GPU內存限制。我們的內存庫可以以現成的方式無縫集成到當前的多模態LLMs中。我們在各種視頻理解任務上進行了廣泛的實驗,例如長視頻理解、視頻問題回答和視頻字幕制作,我們的模型在多個數據集上都能實現最先進的性能。
文本條件化的圖像到視頻生成(TI2V)旨在從給定圖像(例如,一張女性的照片)和文本描述(例如,“一個女人正在喝水”)開始,合成一個逼真的視頻。現有的TI2V框架通常需要在視頻-文本數據集上進行昂貴的訓練,并且需要針對文本和圖像條件化的特定模型設計。在本文中,我們提出了TI2V-Zero,一種零樣本、無需調整的方法,它使預訓練的文本到視頻(T2V)擴散模型能夠基于提供的圖像進行條件化,實現TI2V生成而無需任何優化、微調或引入外部模塊。我們的方法利用預訓練的T2V擴散基礎模型作為生成先驗。為了在附加圖像輸入的指導下生成視頻,我們提出了一種“重復和滑動”策略,調節逆去噪過程,允許凍結的擴散模型從提供的圖像開始逐幀合成視頻。為了確保時間連續性,我們采用DDPM反轉策略初始化每個新合成幀的高斯噪聲,并使用重采樣技術幫助保持視覺細節。我們在特定領域和開放領域的數據集上進行了全面的實驗,其中TI2V-Zero始終優于最近的開放領域TI2V模型。此外,我們展示了TI2V-Zero可以在提供更多圖像的情況下無縫擴展到其他任務,如視頻填充和預測。其自回歸設計還支持長視頻生成。
3D資產生成正在受到大量關注,這一趨勢受到了最近文本引導的2D內容創造成功的啟發。現有的文本到3D方法使用預訓練的文本到圖片擴散模型在一個優化問題中使用或對其在合成數據上進行微調,這通常會導致非真實感的3D對象而沒有背景。在這篇論文中,我們提出了一種方法,利用預訓練的文本到圖片模型作為先驗,并學習在單一去噪過程中從真實世界數據生成多視圖圖像。具體來說,我們提議將3D體積渲染和跨幀注意力層集成到現有文本到圖片模型的U-Net網絡的每個塊中。此外,我們設計了一個自回歸生成過程,能在任何視點渲染更具3D一致性的圖像。我們在現實世界對象的數據集上訓練我們的模型,并展示了它生成具有各種高質量形狀和紋理在真實環境中實例的能力。與現有方法相比,我們方法生成的結果是一致的,并且具有較好的視覺質量(FID降低30%,KID降低37%)。
隨著CLIP等預訓練視覺-語言(VL)模型在視覺表示任務中的成功,將預訓練模型遷移到下游任務已成為一個關鍵范式。最近,源自自然語言處理(NLP)的提示調整范式在VL領域取得了顯著進展。然而,早期方法主要集中于為文本和視覺輸入構建提示模板,忽略了VL模型與下游任務之間類別標簽表示的差距。為了應對這一挑戰,我們引入了一種名為LAMM的創新標簽對齊方法,可以通過端到端訓練動態調整下游數據集的類別嵌入。此外,為了實現更合適的標簽分布,我們提出了一個分層損失,包括參數空間、特征空間和邏輯空間的對齊。我們在11個下游視覺數據集上進行了實驗,并證明了我們的方法顯著提高了現有多模態提示學習模型在小樣本場景中的性能,與最先進方法相比,在16次射擊上平均準確率提高了2.31(%)。此外,我們的方法在持續學習方面與其他提示調整方法相比顯示出了優勢。重要的是,我們的方法與現有的提示調整方法是協同的,并可以在它們的基礎上提高性能。我們的代碼和數據集將在//github.com/gaojingsheng/LAMM上公開。
視頻域泛化旨在通過在源域中訓練來學習對未見目標域具有普適性的視頻分類模型。視頻域泛化的一個關鍵挑戰是在識別目標視頻時防御對從源域中提取的特定域線索的過度依賴。為此,我們提議感知視頻中的多種時空線索,旨在除特定域線索外發現潛在的域不變線索。我們貢獻了一個名為時空多樣化網絡(STDN)的新模型,它從視頻數據的空間和時間維度提高了多樣性。首先,我們的STDN提議通過空間分組發現單個幀內的各種類型的空間線索。然后,我們的STDN提議通過時空關系建模在多個時空尺度上明確地建模視頻內容之間的時空依賴性。對三種不同類型的基準的大量實驗證明了我們方法的有效性和多功能性。 //arxiv.org/pdf/2310.17942.pdf
動作知識涉及對動作的文本、視覺和時間方面的理解。我們介紹了動作動力學基準(ActionBench),其中包含兩個精心設計的探測任務:動作反義和視頻反轉,分別針對模型的多模態對齊能力和時間理解技能。盡管近來的視頻-語言模型(VidLM)在各種基準任務上的表現令人印象深刻,但我們的診斷任務揭示了它們在動作知識方面的驚人不足(近乎隨機性能),這表明當前模型依賴于對象識別能力作為理解動作的捷徑。為了補救這一問題,我們提出了一種新穎的框架,PAXION,以及一個新的區分性視頻動力學建模(DVDM)目標。PAXION框架利用知識修補網絡來編碼新的動作知識,并利用知識融合組件將修補器整合到凍結的VidLM中,而不會損害它們現有的能力。由于廣泛使用的視頻-文本對比(VTC)損失在學習動作知識方面的局限性,我們引入DVDM目標來訓練知識修補器。DVDM迫使模型編碼動作文本與視頻幀正確排序之間的關聯。我們的廣泛分析顯示,PAXION和DVDM一起有效地填補了動作知識理解的差距(~50% → 80%),同時維持或提高了在一系列以對象和動作為中心的下游任務上的表現。
Vision Transformer (ViT) 顯示了在各種視覺任務上的巨大潛力,因為它能夠模擬長距離的依賴關系。但是,ViT 需要大量的計算資源來計算全局自注意力。在這項工作中,我們提出了一個帶有多個分支的梯形自注意力塊和一個逐步位移機制,以開發一個需要較少計算資源的輕量級變換器骨架,名為 Progressive Shift Ladder Transformer (PSLT)。首先,梯形自注意力塊通過在每個分支中模擬局部自注意力來減少計算成本。與此同時,提出了逐步位移機制,通過為每個分支模擬各種局部自注意力并在這些分支之間互動,來擴大梯形自注意力塊中的接受場。其次,梯形自注意力塊的輸入特征為每個分支沿通道維度均分,這大大降低了梯形自注意力塊中的計算成本(參數和FLOPs的數量幾乎是原來的1/3),然后這些分支的輸出通過像素自適應融合進行合作。因此,帶有相對較少參數和FLOPs的梯形自注意力塊能夠模擬長距離交互。基于梯形自注意力塊,PSLT在幾個視覺任務上表現良好,包括圖像分類、目標檢測和人員重新識別。在ImageNet-1k數據集上,PSLT的top-1精度為79.9%,參數為9.2M,FLOPs為1.9G,這與多個現有的參數超過20M和4G FLOPs的模型相當。代碼可在 //isee-ai.cn/wugaojie/PSLT.html 上獲得。
內容與風格(C-S)的解耦是風格轉移中的基本問題和關鍵挑戰。基于明確的定義(例如,Gram矩陣)或隱式學習(例如,GANs)的現有方法既不可解釋也不易于控制,導致了交織的表示和不太令人滿意的結果。在這篇論文中,我們提出了一種新的C-S解耦風格轉移框架,不使用之前的假設。關鍵的洞見是明確地提取內容信息并隱式地學習互補的風格信息,從而產生可解釋和可控的C-S解耦和風格轉移。我們引入了一個簡單而有效的基于CLIP的風格解耦損失,與風格重建先驗協同工作,以在CLIP圖像空間中解耦C-S。通過進一步利用擴散模型的強大風格去除和生成能力,我們的框架比現有的技術獲得了更好的結果,并具有靈活的C-S解耦和權衡控制。我們的工作為風格轉移中的C-S解耦提供了新的洞見,并展示了擴散模型在學習良好解耦的C-S特征方面的潛力。
擴散模型(DMs)在高質量圖像合成中顯示出巨大的潛力。然而,在制作復雜場景的圖像時,如何正確地描述圖像的全局結構和對象細節仍然是一個具有挑戰性的任務。在這篇論文中,我們提出了Frido,一個特征金字塔擴散模型執行多尺度粗-細去噪過程的圖像合成。我們的模型將輸入圖像分解為尺度相關的矢量量化特征,然后進行從粗到細的調制生成圖像輸出。在上述多尺度表示學習階段,可以進一步利用文本、場景圖或圖像布局等附加輸入條件。因此,Frido也可以用于條件或交叉模態圖像合成。我們在各種無條件和有條件的圖像生成任務上進行了廣泛的實驗,從文本到圖像合成,從布局到圖像,從場景到圖像,到標簽到圖像。更具體地說,我們在五個基準上獲得了最先進的FID得分,分別是COCO和OpenImages上的布局到圖像,COCO和Visual Genome上的場景到圖像,以及COCO上的標簽到圖像。
//www.zhuanzhi.ai/paper/d6197fd1315f12b3d3cd40944d4d9272
Conformer已被證明在許多語音處理任務中是有效的。它結合了使用卷積提取局部依賴項和使用自注意力提取全局依賴項的優點。受此啟發,我們提出了一種更靈活、可解釋和可定制的編碼器備選方案——Branchformer,它具有并行分支,用于建模端到端語音處理中的各種范圍依賴性。在每個編碼器層中,一個分支使用自注意力或其變體來捕獲遠程依賴,而另一個分支使用帶有卷積門控(cgMLP)的MLP模塊來提取局部關系。我們對幾個語音識別和口語理解基準進行了實驗。結果表明,該模型的性能優于Transformer和cgMLP。它還匹配或優于Conformer取得的最先進的結果。此外,我們展示了多種策略來減少計算,這得益于雙分支架構,包括在單個訓練模型中具有可變推理復雜性的能力。為合并分支學習的權重表明如何在不同層中利用局部和全局依賴關系,這有利于模型設計。
Transformer在學習視覺和語言表示方面取得了巨大的成功,這在各種下游任務中都是通用的。在視覺控制中,學習可在不同控制任務間遷移的可遷移狀態表示對于減少訓練樣本的大小具有重要意義。然而,將Transformer移植到采樣高效的視覺控制仍然是一個具有挑戰性和未解決的問題。為此,我們提出了一種新穎的控制Transformer(CtrlFormer),它具有許多現有技術所沒有的吸引人的優點。首先,CtrlFormer在不同控制任務之間聯合學習視覺令牌和策略令牌之間的自注意力機制,可以在不發生災難性遺忘的情況下學習和遷移多任務表示。其次,我們精心設計了一個對比強化學習范式來訓練CtrlFormer,使其能夠達到較高的樣本效率,這在控制問題中是非常重要的。例如,在DMControl基準測試中,不像最近的先進方法在使用100k樣本遷移學習后在“Cartpole”任務中產生零分而失敗,CtrlFormer可以在僅使用100k樣本的情況下獲得769±34的最先進的分數,同時保持之前任務的性能。代碼和模型發布在我們的項目主頁上。
//www.zhuanzhi.ai/paper/9692ae63f6623f9fc8ad4d18583f4002